JP5528213B2 - 単語のセットを対応するパーティクルのセットに変換する方法 - Google Patents

単語のセットを対応するパーティクルのセットに変換する方法 Download PDF

Info

Publication number
JP5528213B2
JP5528213B2 JP2010121169A JP2010121169A JP5528213B2 JP 5528213 B2 JP5528213 B2 JP 5528213B2 JP 2010121169 A JP2010121169 A JP 2010121169A JP 2010121169 A JP2010121169 A JP 2010121169A JP 5528213 B2 JP5528213 B2 JP 5528213B2
Authority
JP
Japan
Prior art keywords
particles
word
words
particle
cost
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010121169A
Other languages
English (en)
Other versions
JP2011014130A (ja
Inventor
トニー・イザット
エバンドロ・ビー・グーベア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2011014130A publication Critical patent/JP2011014130A/ja
Application granted granted Critical
Publication of JP5528213B2 publication Critical patent/JP5528213B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、包括的には情報検索に関し、特に、パーティクルによって表されるアイテムを検索することに関する。
情報検索(IR:Information Retrieval)システムは、通常、地理的関心地点(POI:Points Of Interest)又は音楽アルバムの題名のようなアイテムの大規模なリストを含む。リストは、インデックスによってアクセスされる。インデックスに対する入力は、ユーザによって供給されるクエリである。クエリに応答して、IRシステムは、このクエリに最も一致した結果リストを検索する。この結果リストは、様々な要因に従って順序付けすることができる。リスト、インデックス、クエリ、及び結果リストは、通常、単語によって表される。入力リスト、クエリ、及び結果リストは、テキストによるものであってもよいし、又は発話によるものであってもよい。
発話によるクエリは、ユーザがキーボードを使用することができない環境、たとえば運転中、又はユーザインタフェースがマイクロフォンを備える環境において使用される。発話による文書検索は、検索されるアイテムが、ラジオ又はテレビ番組のような音声アイテムであるときに使用される。これらの環境では、自動音声認識装置(ASR:Automatic Speech Recognizer)を使用して発話を単語に変換する。
ASRは、2つの基本データ構造、すなわち単語の発音辞書及び単語の言語モデルを使用する。一般に、IRシステムは、単語を音素として音声的に表す。たとえば、RESTAURANTは、「R EH S T R AA N T」として表される。音素は、特定の言語における音の基本単位を指す。音素は、強勢符号、音節境界、及び単語がどのように発音されるかを示す他の表記を含むことができる。
言語モデルは、語順の確率を記述し、ASRによって、正しい単語推測のための探索を制約するのに使用される。言語モデルは、nグラム(n−gram:n文字単位)とすることができる。nグラムがバイグラム(bigram)である場合、バイグラムによってP(「BELL」|「TACO」)のような確率がリストされる。これは、単語「TACO」の後に単語「BELL」が続く確率である。言語モデルは、有限状態文法とすることもでき、ここで、文法の状態は、各状態において現れる可能性がある単語を表し、状態間の遷移は、1つの状態から別の状態に向かう確率を表す。
単語ベースのIRには、2つの主な問題が存在する。
第1に、IRに重要な単語は、通常、頻度の低い識別語である。たとえば、アイテムPOI「MJ’S RESTAURANT」において、重要な識別語は、「MJ’S」である。多くの場合、これらの識別語は、他の言語からの固有名詞である。たとえば、アイテム「AASHIANI RESTAURANT」内の単語「AASHIANI」は、ヒンディー語からのものである。これらの識別語の別の現れ方は、「GREENHOUSE」のように、組み合わせを通じたものである。単語の語幹を変更することによって、語彙のサイズも増大する。通例、頻度が低いが重要である識別語の数は、非常に多い。
加えて、重要な識別語は、多くの場合、言語モデルによって誤って発音されるか、又は不十分に表現される。nグラムに関する正確な統計も通例入手可能でない。したがって、重要で頻度の低い単語を認識する確率が低く、単語配列が多くの場合に不正確である。これによって、IRシステムによる再現性能が不十分なものとなる。
第2に、単語ベースのIRシステムに対する計算負荷は、リスト及びインデックスのサイズと共に増大し、システムの性能は、リアルタイム検索を許容できないものになる。
本発明の実施の形態は、パーティクルによって表される、情報検索(IR)データベース内のアイテムを検索する方法を提供する。一意のパーティクルの数は、一意の単語の数よりもはるかに小さく、たとえば10分の1である。
これによって、自動音声認識(ASR)システムの性能が改善し、認識時間が50%減少することになる。驚くべきことに、単語数と比較してパーティクル数が劇的に減少し、スループットも同様に増大するにもかかわらず、再現率によって測定されるIRシステムの性能は、2%改善する。
本発明の実施の形態1による情報検索システムのブロック図である。 単語の観点から書かれた関心アイテムのインデックスの表である。 インデックスからの単語の発音辞書の表である。 本発明の実施の形態1による単語からパーティクルへのマッピングの一例の表である。 本発明の実施の形態1による、パーティクルの観点から書かれた関心アイテムのインデックスの一例の表である。 パーティクルの発音辞書の表である。 パーティクル生成プロセスの動作工程の図表である。 単語をパーティクルにマッピングする方法の擬似コードである。 単語をパーティクルにマッピングする方法の擬似コードである。 パーティクル生成プロセスの動作工程の図表である。 パーティクル生成プロセスの動作工程の図表である。 入力インデックスから出力パーティクルインデックスを構築する方法のフロー図である。
実施の形態1.
図1に示すように、本発明の実施の形態は、情報検索(IR)システム100において、データベースからアイテムを検索する方法を提供する。本方法のステップは、当該技術分野において既知のプロセッサにおいて動作する。プロセッサは、メモリ及びI/Oインタフェースを備える。
IRシステムは、単語によって表されるアイテムリスト101を備える。単語ベースのリスト101から、パーティクルによって表されるアイテムリスト102を生成する(110)。単語ベースのリスト内のアイテム101とパーティクルベースのリスト102内のアイテムとの間の対応は、1対1、又は単語の代替的な発音が可能であるときには、1対多とすることができる。
パーティクルは、音声認識の分野において既知である。本明細書において定義されるように、「パーティクル」は、連結された音素配列を表す。一連のパーティクルは、単語の音素配列を表す。Whittaker他著「Particle-based language modelling」(International Conference on Speech and Language Processing (ICSLP), 2000)を参照されたい。
これまで、パーティクルは、自動音声認識(ASR)システムにおいて、単語を認識するためにしか使用されてこなかった。対照的に、本発明は、パーティクルを使用して情報検索(IR)を実施する。
リスト102にインデクサ120を適用してパーティクルベースのインデックス121を作成する。アイテムを検索するために、ユーザ104からパーティクルベースのクエリ103が取得される。クエリ103は、ASRを使用してテキスト内の単語又は発話から導出することができる。
クエリ103を使用して、パーティクルベースのリスト102から構築されたインデックス121を調べる。クエリ103に応答する出力130は、パーティクルベースのリスト102内の最も一致するアイテムに対応する、単語ベースのリスト101からのアイテムの結果リスト105である。
パーティクルベースのリスト102を生成するために、前処理ステップにおいて、リスト101内の一意の単語のセット149を保持する。単語ベースのセット149を一意のパーティクルのセット151に変換する(150)。パーティクルベースのセット151を取得した後、リスト101内のアイテムに関する単語を、対応するパーティクルベースのアイテムに変換して、パーティクルベースのリスト102を生成する(110)ことができる。
図2Aは、本発明の単語ベースのアイテムリスト101の詳細を示している。アイテムは、地理的関心地点であり、各ID201は、アイテム202を一意に識別する。
図2Bは、単語211及び対応する音素212を示している。幾つかの単語、たとえば「HOUSES」は、代替的な発音を有し得る。図3は、単語301及び対応するパーティクル302を示している。
単語ベースのリスト内のアイテムが複数の発音を有する場合、全ての単語について、パーティクルへの全ての可能性のある分割のデカルト積が形成され、パーティクルベースのリスト内に列挙される。たとえば、AASHIANIが「AA_SH_IY AA_N_IY」又は「AA_SH Y_AE_N_IH」としてパーティクルに分割され、RESTAURANTが「R_E_S_T_R_AA_N_T」又は「R_E_S_T_ER_R_AA_N_T」としてパーティクルに分割される場合、全ての可能性のある分割:
AA_SH_IY AA_N_IY R_E_S_T_R_AA_N_T、
AA_SH_IY AA_N_IY R_E_S_T_ER_R_AA_N_T、
AA_SH Y_AE_N_IH R_E_S_T_R_AA_N_T、及び
AA_SH Y_AE_N_IH R_E_S_T_ER_R_AA_N_T
が、パーティクルベースのインデックス内に列挙される。
図4は、パーティクルベースのリスト102の詳細を示し、このリストは、アイテム402毎に一意のID401を含む。
図5は、ASRによって使用することができる発音辞書を示し、この発音辞書は、パーティクル501及び対応する音素502を含む。
本発明の言語モデルは、パーティクル、たとえばパーティクルnグラムに対する統計を含むnグラム言語モデルを含む。
方法
単語ベースのリスト101からパーティクルベースのリスト102を生成する方法は、以下の着想に従う。
トップダウン方法:本方法は、セット149内の一意の単語から開始し、単語をパーティクルに分割する;
頻度に基づく区分:本方法は、リスト101内の単語の頻度をカウントする。より頻繁に出現する単語は、無処置のままにされ、頻度の低い単語は、より頻繁に出現するパーティクルに分割される;及び
圧縮:パーティクルのセット151は、保持され、本方法は、より小さなセット151を生成して、異なるパーティクルの総数を異なる単語の総数よりもはるかに小さくするようにバイアスされる。
約10倍のサイズ低減を達成し、これによって、IR検索スループットを約50%改善し、同時に再現性能を2%増大させる。
図6は、単語149をパーティクル151に変換する(150)方法によって使用される表600を示している。最初に、リスト101内の各一意の単語が1つのパーティクルであると見なされる。たとえば、単語「AW R G L AE S」は、パーティクル「AW_R_G_L_AE_S」とみなされる。これらは、リスト101内の単語から直接取得されるため、これらを「初期パーティクル」として表す。
表は、初期パーティクル601毎に行600で初期化される。この例では、表は、3つの初期パーティクル:AW_R_G_L_AE_S、AW_R、及びG_L_AE_Sを含む。本方法は、元の各パーティクルをより小さなパーティクルに分割しようとする。
表は、元のパーティクル及び表に追加されたパーティクルを追跡するためのデータ構造を含む。加えて、表は、元のパーティクルがより小さなパーティクルにどのように分割されたかを示すデータ構造を含む。
元の単語?列602は、単語がリスト101内にあったか否かを示す。パーティクル?列603は、単語がパーティクルに分割されたか否かを示す。分割位置列604は、分割が行われた場所を示す。頻度列605は、パーティクルの発生頻度cを示す。長さ列606は、音素の観点からのパーティクルの長さlを示す。
最初に、リスト101内の対応する単語の頻度から頻度cが取得される。元のパーティクルが分割されている場合、元のパーティクルの頻度カウントは、以下の方式で新たなパーティクルに伝達される。新たなパーティクルが表内に存在しない場合、このパーティクルの頻度は、親パーティクルの頻度に設定される。新たなパーティクルが既に表内に存在する場合、このパーティクルの頻度は、親の頻度によって増分される。
パーティクル151の現在のセットが、最小記述長(MDL:Minimal Description Length)コスト609を使用して評価される。MDLコスト609は、尤度コスト607と、目録作成(inventory)コスト608との和である。目録作成コスト608は、パーティクルセットのサイズを表す。本方法の目的は、総MDLコストを低減する、単語のパーティクルへの分割を選択することである。本方法は、たとえばセット151が所望の数のパーティクルを含むようになった後、終了する。
尤度コスト607は、セット内のパーティクルの対数確率pの和である。
Figure 0005528213
であり、ここで、
Figure 0005528213
及びcは、それぞれパーティクル頻度である。
尤度コスト607は、パーティクル出現の頻度が増大する場合、減少する。結果として、本方法は、重要で出現頻度が低い単語を、より出現頻度が高いパーティクルに分割することが好ましい。
目録作成コスト608は、セット151内の、音素の観点からの全てのパーティクルの長さの和であり、それらの音素は、各音素の対数確率によって重み付けされている。この実施の形態では、全ての音素の可能性が等しいと仮定する。
Figure 0005528213
であり、ここでpphonemeは、音素の対数確率である。
目録作成コスト608は、一意のパーティクルの数及びそれらの長さが減少するときに減少する。結果として、本発明のコストは、頻度の低い単語をより小さくより少ないパーティクルに分割することが好ましい。目録作成コスト608は、セット151内の一意のパーティクルの数がセット149内の一意の単語の数よりも、はるかに少ない量になるように、単語をパーティクルに分割するタスクを達成するための圧縮コストである。
本発明のサイズ低減は、約10分の1であり、これによってスループットが50%増大し、再現率の精度が2%増大する。
図7は、本方法の一般的な動作を示している。プロシージャに対する入力は、初期化テーブル及び生成するパーティクルの所望の数である。プロシージャは、リスト101内の全ての一意の単語にわたって反復する。全ての単語にわたる各反復の後、プロシージャは、これまでに作成した一意のパーティクルの数を求め、一意のパーティクルの所望の数が達成されている場合、終了する。
図8は、図7のparticlize()プロシージャを示している。particlize()プロシージャは、単語をパーティクルに分割する。各単語は、左から右へ走査され、接頭パーティクル(左接頭語)及び接尾パーティクル(右接頭語)に分割される。分割なしの選択を含む、接頭パーティクル及び接尾パーティクルへの可能性のある分割毎に、MDLコストが評価され格納される。MDLコストを最小にする分割が選択され、セット151に追加される。プロシージャは、接頭パーティクル及び接尾パーティクルを再帰呼び出しする(recurse)。
図9は、単語AW_R_G_L_AE_Sを接頭パーティクルAW_R及び接尾パーティクルG_L_AE_Sに分割することを考えるときに、本方法がどのように動作するかの一例を示している。AW_R_G_L_AE_Sは、3番目の音素において分割されるため、パーティクル?フラグ901がNにセットされ、分割位置902が3にセットされる。AW_R及びG_L_AE_Sの双方が既に存在するため、それらの頻度903カウントは、1(単語AW_R_G_L_AE_Sの頻度)だけ増分される。尤度コスト905、目録作成コスト906、及びMDLコスト907が評価される。図6のMDLコスト609に示される無処置のコスト69.11と比較して、AW_R_G_L_AE_Sの、AW_R及びG_L_AE_Sへの分割によって、MDLコストが33.93まで低減する。
図10は、セット151への新たなパーティクルの追加を示している。この例は、セット149が単語AW_R_G_L_AE_S及びG_L_AE_Sしか含まないと仮定する。したがって、AW_Rは、初期段階においてテーブル内に存在しない。AW_R_G_L_AE_Sを接頭パーティクルAW_R及びG_L_AE_S接尾パーティクルに分割することを考えるときに、AW_Rのためのエントリが生成される。パーティクルが元の単語ではないため、元の単語?フラグ1001は、Nにセットされる。パーティクルは、無処置であるため、パーティクル?フラグ1002は、単語が分割されていないことを示すYにセットされ、分割位置1003は、0にセットされ、頻度cは、1にセットされる。これは、頻度1004が元の単語AW_R_G_L_AE_Sから引き継がれるためである。最後に、長さ1005が2にセットされる。前と同じように、尤度コスト、目録作成コスト、及びMDLコストが全てこの分割に関して求められる。AW_R_G_L_AE_Sの、AW_R及びG_L_AE_Sへの分割によって、MDLコスト1008が34.57まで低減する。
拡張
本方法を以下のように拡張することができる。
分割評価:尤度コストは、単語のパーティクルへの可能性のある分割を効率的に評価する。単語は、より高い確率を有するパーティクルに変換される。通例、多数の異なる評価が可能である。たとえば、特定の分割を、以下の観点から評価することができる。
言語モデルパープレキシティ−言語及び発話の処理において、パープレキシティは、文法によって課される制約レベル又は文法を所与とした不確実性レベル、たとえば言語モデル内の所与の単語に続くことができる単語の平均数の基準である。
逆文献頻度(IDF:Inverse Document Frequency)コスト−これは、パーティクルの個々のIDFの和である。
目録作成評価:目録作成コストは、リスト102内のパーティクルを評価し、より少ないパーティクル又はより少ない音素を有するリストの構築をバイアスする。多数の代替的なインデックス評価プロシージャ、たとえば、パーティクルの頻度、長さ、類似度、又は単語インデックス内の逆文献頻度(IDF)の観点からの、パーティクルの所望の分布を使用することができる。
MDL評価:MDLコストは、尤度コストと目録作成コストとの和を評価する。尤度コスト及び目録作成コストの多数の代替的な組み合わせを使用することができる。代替的な組み合わせは、たとえば、尤度コストと目録作成コストとの重み付けされた和であり、ここで、重みによって一方のコストを他方のコストよりも強調する。
貪欲探索プロシージャ又は縦型探索(DFS:Depth−first saerch)を使用して、MDLコストを最小にする単語の分割を評価する。代替形態は、貪欲横型探索(BFS:Breadth−first saerch)と、ビタビ動的プログラミング探索とを含む。
図11は、当該技術分野において既知であるプロセッサ1100において実施される本方法のステップを示している。プロセッサは、様々なデータ構造を記憶するメモリと、入力インタフェース及び出力インタフェースとを備える。
入力は、セット149である。リスト101内の一意の単語毎に、コストを求めるために、元の単語パーティクル、頻度、及び(音素1102の観点からの)長さが供給される。
一意の単語毎に、パーティクル(接頭パーティクル1111及び接尾パーティクル1112)への全ての可能性のある分割1110が求められる。可能性のある分割1110毎に、目録作成コスト1120と尤度コスト1130との和1140が求められる。最小の和を有する、可能性のある分割1110のパーティクルを、セット151に加える(1150)。元の単語パーティクルの分割が実施されない場合、この元の単語パーティクルは、依然として無処置パーティクルと見なされる。
全ての単語が処理された後、終了、たとえば、セット151が所望の数のパーティクルを有することを検査する(1160)ことができ、真である場合、本方法は終了する(1161)。そうでなく、偽である場合、テーブル内の全ての元の単語を、新たなランダムな順序1103で、終了まで反復して再処理することによって続行する。
用途例は、情報検索システムに関して説明されているが、本発明の実施の形態は、データベースが単語を含み、且つ単語をパーティクルに変換することが意味を成す任意の用途に使用することができる。たとえば、自動音声認識(ASR)システムは、良好な用途候補である。
特に、ASRシステムは、このASRシステムが発音辞書内に含まれるアイテムによって認識することができるものに制約される。発話される単語が辞書内にない場合、ASRシステムは、単語を認識することができない。ここでは、この語彙外(OOV:Out−Of−Vocabulary)単語を発音辞書内のパーティクルによって認識することができる。これは、ASRシステムが発話を発音辞書内のアイテムとマッチングさせる方法に関して、パーティクルがより高い柔軟性を提供するためである。
本発明は、入力がテキスト又は発話のいずれかであり、且つ検索されるアイテムがテキスト又は発話である、任意の単語ベースの探索エンジンと共に使用することもできる。

Claims (14)

  1. 単語のセットを対応するパーティクルのセットに変換する方法であって、メモリと、入力インタフェース及び出力インタフェースとを備えるプロセッサによって実行され、前記単語及び前記パーティクルは、各前記セット内で一意であり、前記方法は、
    前記単語毎に、前記単語の、パーティクルへの全ての可能性のある分割を求めるステップと、
    前記単語毎に、前記可能性のある分割毎のコストを求めるステップと、
    最小コストに関連付けられる前記可能性のある分割の前記パーティクルを前記パーティクルのセットに追加するステップと、を含み、
    前記単語のセットは、単語ベースのアイテムリストから取得され、
    前記単語のセット及び前記パーティクルのセットを使用して、前記単語ベースのアイテムリストから対応するパーティクルベースのアイテムリストを生成するステップをさらに含み、
    前記パーティクルのセットを使用して、前記パーティクルベースのアイテムリストをインデックス付けすることであって、前記パーティクルベースのアイテムリストに対するパーティクルベースのインデックスを生成する、インデックス付けするステップをさらに含み、
    ユーザからクエリを取得するステップと、
    前記パーティクルベースのインデックスを使用して前記パーティクルベースのアイテムリストにアクセスすることであって、前記クエリに最も一致するパーティクルベースのアイテムを検索する、アクセスするステップと、
    対応する単語ベースのアイテムを結果リストとして前記ユーザに出力するステップと、
    をさらに含み、
    前記コストは、尤度コスト
    Figure 0005528213
    であり、ここで
    Figure 0005528213
    及びcは、前記パーティクルの頻度である、尤度コストと、目録作成コスト
    Figure 0005528213
    であり、ここで、p phoneme は、前記パーティクルによって使用される音素の対数確率である、目録作成コストと、に基づく
    単語のセットを対応するパーティクルのセットに変換する方法。
  2. 前記クエリは、テキストであり、前記テキストは、前記パーティクルのセットを使用してパーティクルベースのクエリに変換される請求項1に記載の単語のセットを対応するパーティクルのセットに変換する方法。
  3. 前記クエリは、発話であり、前記発話は、前記パーティクルのセットを使用してパーティクルベースのクエリに変換される請求項1に記載の単語のセットを対応するパーティクルのセットに変換する方法。
  4. 前記可能性のある分割のパーティクルは、前記単語の代替的な発音のためのものである請求項1に記載の単語のセットを対応するパーティクルのセットに変換する方法。
  5. 各前記パーティクルは、連結された音素配列を表し、一連のパーティクルは、対応する単語の音素配列を表す請求項1に記載の単語のセットを対応するパーティクルのセットに変換する方法。
  6. 頻度の高い単語は、無処置のままにされ、頻度の低い単語は、パーティクルに分割される請求項1に記載の単語のセットを対応するパーティクルのセットに変換する方法。
  7. 前記可能性のある分割は、前記単語の左から右への線形走査を使用して、前記単語を左接頭語及び右接頭語に分割する請求項1に記載の単語のセットを対応するパーティクルのセットに変換する方法。
  8. 前記可能性のある分割は、発音辞書内の追加情報によって導かれる前記単語の音節境界において作成される請求項1に記載の単語のセットを対応するパーティクルのセットに変換する方法。
  9. 前記単語セットは、ランダムな順序で配置され、前記セットは、終了条件に達するまで、異なるランダムな順序に関して反復して再処理する請求項1に記載の単語のセットを対応するパーティクルのセットに変換する方法。
  10. 前記コストは、nグラムパープレキシティに応じて決まる請求項1に記載の単語のセットを対応するパーティクルのセットに変換する方法。
  11. 前記コストは、有限状態文法に応じて決まる請求項1に記載の単語のセットを対応するパーティクルのセットに変換する方法。
  12. 前記単語ベースのアイテムからなるリストは、テキストから構築される請求項2に記載の単語のセットを対応するパーティクルのセットに変換する方法。
  13. 前記単語ベースのアイテムから成るリストは、発話から構築される請求項2に記載の単語のセットを対応するパーティクルのセットに変換する方法。
  14. 前記コストは、前記パーティクルセットのサイズと共に増大し、前記セット内の前記パーティクルの発現頻度の関数として減少する請求項1に記載の単語のセットを対応するパーティクルのセットに変換する方法。
JP2010121169A 2009-06-30 2010-05-27 単語のセットを対応するパーティクルのセットに変換する方法 Expired - Fee Related JP5528213B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/495,540 US8055693B2 (en) 2008-02-25 2009-06-30 Method for retrieving items represented by particles from an information database
US12/495,540 2009-06-30

Publications (2)

Publication Number Publication Date
JP2011014130A JP2011014130A (ja) 2011-01-20
JP5528213B2 true JP5528213B2 (ja) 2014-06-25

Family

ID=42831058

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010121169A Expired - Fee Related JP5528213B2 (ja) 2009-06-30 2010-05-27 単語のセットを対応するパーティクルのセットに変換する方法

Country Status (4)

Country Link
US (1) US8055693B2 (ja)
EP (1) EP2270685A1 (ja)
JP (1) JP5528213B2 (ja)
CN (1) CN101937450B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI488174B (zh) * 2011-06-03 2015-06-11 Apple Inc 自動地建立文字資料與音訊資料間之映射
WO2013078401A2 (en) * 2011-11-21 2013-05-30 Liveweaver, Inc. Engine for human language comprehension of intent and command execution
US9961442B2 (en) 2011-11-21 2018-05-01 Zero Labs, Inc. Engine for human language comprehension of intent and command execution
US10249298B2 (en) 2017-01-11 2019-04-02 Here Global B.V. Method and apparatus for providing global voice-based entry of geographic information in a device

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3668108A (en) 1966-11-15 1972-06-06 Hercules Inc Solids arc reactor apparatus and method
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
US6618699B1 (en) * 1999-08-30 2003-09-09 Lucent Technologies Inc. Formant tracking based on phoneme information
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7089188B2 (en) * 2002-03-27 2006-08-08 Hewlett-Packard Development Company, L.P. Method to expand inputs for word or document searching
JP3986531B2 (ja) * 2005-09-21 2007-10-03 沖電気工業株式会社 形態素解析装置及び形態素解析プログラム
CN100495405C (zh) * 2007-01-10 2009-06-03 复旦大学 大规模文本逐次二分的层次聚类方法
KR101127267B1 (ko) * 2007-05-01 2012-07-10 인터내셔널 비지네스 머신즈 코포레이션 유사 스트링 정합을 위한 방법 및 시스템

Also Published As

Publication number Publication date
CN101937450B (zh) 2014-03-12
US20090265162A1 (en) 2009-10-22
US8055693B2 (en) 2011-11-08
CN101937450A (zh) 2011-01-05
EP2270685A1 (en) 2011-01-05
JP2011014130A (ja) 2011-01-20

Similar Documents

Publication Publication Date Title
Issar Estimation of language models for new spoken language applications
US6877001B2 (en) Method and system for retrieving documents with spoken queries
JP5241840B2 (ja) データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム
US8380505B2 (en) System for recognizing speech for searching a database
JP5459214B2 (ja) 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US9418152B2 (en) System and method for flexible speech to text search mechanism
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
KR101543992B1 (ko) 언어-내 통계적 머신 번역
US10019514B2 (en) System and method for phonetic search over speech recordings
KR20080069990A (ko) 음성 세그먼트 색인 및 검색 방법과 컴퓨터 실행 가능명령어를 갖는 컴퓨터 판독 가능 매체
US20030204399A1 (en) Key word and key phrase based speech recognizer for information retrieval systems
US20070179784A1 (en) Dynamic match lattice spotting for indexing speech content
JP2008532099A (ja) データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム
JP2011209704A (ja) 発音辞書を構築するための方法およびシステム
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
US8306820B2 (en) Method for speech recognition using partitioned vocabulary
JP5528213B2 (ja) 単語のセットを対応するパーティクルのセットに変換する方法
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
JP5360414B2 (ja) キーワード抽出モデル学習システム、方法およびプログラム
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
JP2011175046A (ja) 音声検索装置および音声検索方法
JP2011128903A (ja) 系列信号検索装置および系列信号検索方法
JP6078435B2 (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム
JP5436685B2 (ja) パーティクルのセットを変換するための方法、およびパーティクルの出力セットを生成する方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130425

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140415

R150 Certificate of patent or registration of utility model

Ref document number: 5528213

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees