JP5241840B2 - データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム - Google Patents
データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム Download PDFInfo
- Publication number
- JP5241840B2 JP5241840B2 JP2010521153A JP2010521153A JP5241840B2 JP 5241840 B2 JP5241840 B2 JP 5241840B2 JP 2010521153 A JP2010521153 A JP 2010521153A JP 2010521153 A JP2010521153 A JP 2010521153A JP 5241840 B2 JP5241840 B2 JP 5241840B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- particle
- query
- documents
- particles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 43
- 239000002245 particle Substances 0.000 claims description 233
- 238000012549 training Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000013179 statistical model Methods 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 238000003491 array Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
Description
図1は、文書101及びクエリ102が共にテキスト形式である従来のテキストベースのシステムを示している。全ての文書から抽出される(103)単語のセット又は単語パターンを使用して、文書インデックス104を構築する。単語又は単語パターンもクエリから抽出される(105)。インデックスは、各単語に、該単語が出現する全ての文書を指示させるか、又は文書毎の単語カウントベクトルを有する。単語カウントベクトルは、文書内に各単語が現れる回数を有する。
図2に示すように、発話文書201は、上述したような発話の音声記録を含む。発話が認識される(202)。クエリ102に応答して、そのような文書をインデックス付け及び検索することが望ましい場合がある。
たとえば小さな携帯端末を使用しているとき、又は車両を運転しているか若しくは機械を操作している間、クエリにテキストをタイプすることが、常に好都合であるわけではない。テキスト入力は、不都合である場合があるか、又は不可能である場合さえある。そのような状況において、ユーザは、自身のクエリを発話することができる。発話クエリシステムは、発話クエリ内の単語を使用して文書の検索を試みる。
テキストクエリを使用したテキスト文書の検索は、全ての形式の文書検索の中で、おそらく最も信頼度が高い。それにもかかわらず、テキストクエリを使用したテキスト文書の検索は、自身の制約を有する。文書内の、該文書を他の文書と区別するキーワードは、多くの場合に新規の単語であり、スペルが一般的でない。これらの文書の検索を試みるユーザは、これらの用語の正確なスペルに確信がないことが多く、単語をスペルミスする。検索のためのいかなる単語ベースのメカニズムも、スペルミスされた単語を対応する文書にマッチングすることができない。これに対処するために、多くの単語ベースのシステムは、ユーザに可能性のあるスペルミスを警告する様々なスペル訂正メカニズムを使用するが、これらのメカニズムであっても、ユーザがスペルに根本的に確信がない場合に十分でない。
パーティクルベースの文書インデックス付け
本発明の実施の形態1では、従来技術のように単語に基づくのではなく、パーティクルに基づいて文書をインデックス付けすると共に文書を検索する方法を提供する。
パーティクルは、上述した多くの方法で構築することができるが、全ての可能なパーティクルをパーティクルベースのインデックス付けに使用することができるわけではない。検索のためにクエリ及び文書を表現するのに使用されるパーティクルの実際のセットは、慎重に選択される。
1.パーティクルは、任意のクエリ内に現れる全ての可能な音配列を表現しなくてはならないか、又は文書からの単語の任意の配列の発音から導出されることができる。
2.パーティクルは、任意の文書において、該文書を他の文書と区別するキーパーティクルを特定することを可能にしなくてはならない。
単語ベースの検索方式は、文書内の単語及びクエリ内の単語の双方の正確なスペルに決定的に依拠する。パーティクルベースのインデックス付けメカニズムは、辞書内のパーティクル配列をマッチングし、自動のスペル対発音メカニズムを使用することができる。発音辞書及びスペル対発音システムの双方が、実際の単語の発音と同一ではないにしても非常に類似した単語の、スペルミスされたか又は異なってスペルされた事例の発音(及びしたがってパーティクル化)を提供し、それによって、スペル誤り又はスペル変動の影響を正規化除去(normalizing out)する。
発話文書又は発話クエリのいずれかを扱う文書検索システムの場合、発話認識器を利用して発話音声をテキスト形式に変換しなくてはならない。単語ベースのシステムの場合、単語レベル認識器が、音声信号を単語配列又は単語グラフに変換する。単語ベースの認識器の性能は、認識器の語彙に決定的に依拠する。認識器の語彙は、すなわち、認識器が認識することが可能でなくてはならない一意の単語の総数であって、ひいては、文書セット内の一意の単語の総数に関連する。文書の数が増大すると、この数が不可避的に増大し、その結果認識器の語彙も増大する。語彙の増大によって認識器の精度が低減し、それによって情報検索の精度が全体的に低減する。一般的な単語ベースの認識器は、50,000単語〜100,000単語を格納することができる。
認識器の語彙内にない単語は、認識されず、このため、文書をインデックス付け又は検索するのに使用することができない。この問題を回避するために、認識器の語彙は、新たな文書がインデックスに追加されるときはいつでも更新されなくてはならない。これは、発話クエリの場合に特に厄介な問題であり、インデックスが更新される毎に情報検索クライアントが更新されなくてはならない。この問題は、パーティクルベースのシステムの場合に大幅に低減される。これは、新規の単語を通例、認識器内の既存のパーティクルのセットに分解することができるためである。これは、パーティクルが音素である極端な例によって最も良好に説明される。任意の新規の単語を、辞書又はスペル対発音生成器から求められる該単語の発音に基づいて音素の配列として表現することができる。より一般的には、新規の単語は、認識器のパーティクルセットが適切に選択される場合に、該認識器のパーティクルセットの観点から同様に表すことができる。
3.パーティクルのセットは、比較的小さくなければならない。
4.パーティクルは、理想的には、音響的に別個であると共に、自己完結の単位であるべきである。
5.パーティクルの出現予測可能性は、比較的高い。
パーティクルセットは、手作業で又は経験則的に構築することができる。有限数の音節を有する日本語のような言語では、言語内の全ての音節のセットが自然パーティクルセットを形成する。英語のような他の言語では、パーティクルセットを構築するのはより困難であり得る。
1.パーティクルセットサイズ。
2.所与のトレーニングセット内の全ての文書及びクエリを表現する際の誤り。
3.パーティクルセットを使用した検索精度。
4.パーティクルを表す統計モデルのエントロピ。
5.目的関数に含めることができるトレーニングコーパス内の全ての文書及びクエリから導出されるパーティクルベースの言語モデルのパープレキシティ。
本発明の主要な着想は、パーティクルベースの情報検索方式が、単語ベースの方式よりも、スペリング、発音、及び他の同様な誤りに対してロバストである可能性が高いということである。このため、パーティクルベースのIR方式は、全てのシナリオ、すなわちテキスト文書のテキストベースの検索、発話文書のテキストベースの検索、テキスト文書又は発話文書の発話クエリベースの検索、及び他の全てのそのような組み合わせに適用可能である。最も一般的なケースでは、文書は、発話又はテキストのいずれかとすることができる。クエリも同様に、発話又はテキスト入力とすることができる。下記において、これらのケースのそれぞれを扱うことができる方法を簡単に説明する。
テキスト文書は、単語の配列を含む。文書内のテキストは、最初にパーティクルベースの表現に変換される。該変換を行うために、図4に示すように、最初に全ての単語、たとえば「semisoft」を、単語の全ての可能な発音を表現する音標グラフ400に変換する。グラフは、単語を発音する可能な方法が1つしか存在しないケースでは、線形であり得る。
図6A〜図6Cは、本発明の実施の形態1によるパーティクルベースの情報検索システムの構造を示している。図6Aは、文書パーティクル化装置601を示している。図6Bは、クエリパーティクル化装置602を示している。図6Cは、パーティクルを使用した文書のインデックス付け及び文書の検索を示している。
テキスト文書
図6Aは、本発明の文書パーティクル化装置601を示している。テキスト文書は、パーティクルグラフ500に変換される。テキストは、該テキスト内の各単語の発音を、発音辞書又は音素対書記素変換器のいずれかから導出することによって、最初に音標グラフ612に変換される。さらなるオプションの入力は、単語の境界を越えるパーティクルに対する制約、及びパーティクルセットが不完全である、すなわち幾つかの単語配列がパーティクルグラフに完全に分解することができない状況における誤り最小化判断基準のような様々な制約を課す規則を含むことができる。
発話文書615は、音声信号、たとえば発話を含む。テキスト文書と同様に、発話文書も文書パーティクルグラフ500に変換され、次に文書キーがインデックス650内に挿入される。さらなる特徴として、発話文書のためのインデックスは、文書内に様々なパーティクルパターンが現れる時を指示するタイムスタンプを含むことができる。テキストは、空間的である一方で、発話は時間的に展開するため、時間ベースのインデックスが適切であることを想起されたい。
テキストクエリ
図6Bに示すように、テキストクエリ621も、上述したように、クエリパーティクルグラフ501に変換される。テキストクエリ内の単語は、発音辞書又は書記素対音素変換器のいずれかを使用して音標グラフ612に変換される。次に、発音グラフからパーティクルグラフが導出される。文書から、該文書を検索するためのクエリキー638として、パーティクル、パーティクルnグラム、パーティクルカウントベクトル、又はパーティクル発生ヒストグラムも、パーティクルグラフから導出することができる。
発話クエリ625は、発話認識器616及び618のうちの任意のものを使用して、クエリパーティクルグラフ501に変換される。発話文書の場合のように、クエリは、最初に単語ベースの発話認識器を使用して、該クエリを単語列又はラティスに変換して、単語グラフをテキストクエリの処置と同様に音標グラフに変換するか、又はパーティクルベースの認識器を使用して、パーティクルグラフを直接導出することによって変換することができる。テキストクエリの場合のように、文書インデックスを使用して文書を検索するためのクエリキー636として、パーティクル、パーティクルnグラム、パーティクルカウントベクトル、又はパーティクル発生ヒストグラムも、パーティクルグラフから導出することができる。ここでもまた、確信度、事後確率、又は認識器から導出される他の重みを使用して、キーの形成前に、クエリ内の用語を重み付けすることができる。
図6Cは、パーティクルベースのIRシステム603の全体を示している。パーティクルベースの文書インデックス650は、文書又は文書へのポインタを格納するデータベースである。通常、データベースは、メモリ、たとえばディスク、テープ、RAM、ROM等の形態をとる。データベースは、集中化されるか、又はインターネットのウェブとして広範に分散されることができる。
このモジュールは、クエリから導出されたパーティクルグラフを、インデックス650から文書を検索するのに使用することができるキーのセット636に変換する。キーは、グラフ自体内のパーティクル、パーティクルnグラム、パーティクルカウントベクトル、又はパーティクル頻度ヒストグラムとすることができる。適切である場合、発話認識器によって決定される重みを使用してこれらのキーを増補することができる。
文書スコアラ650は、クエリのキー636によってインデックス付けされた文書の関連度スコアを求める。関連度スコアは、クエリから求められたパーティクルカウントベクトル又はパーティクル頻度ヒストグラムと、文書から求められたパーティクルカウントベクトル又はパーティクル頻度ヒストグラムとの間の距離(差分)として求めることができる。
Claims (26)
- データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法であって、
文書の集合内の各前記文書を文書パーティクルグラフに変換するステップであって、前記文書グラフは、パーティクルのセットから選択されるパーティクルを含む、変換するステップと、
前記文書毎に、対応するパーティクルグラフから文書キーのセットを抽出するステップと、
前記文書毎の前記文書キーを、前記文書の集合を格納するデータベースへのインデックス内に格納するステップと、
クエリを、クエリパーティクルのセットを含むクエリパーティクルグラフに変換するステップであって、前記クエリグラフは、前記パーティクルのセットから選択されるパーティクルを含む、変換するステップと、
前記クエリパーティクルグラフからクエリキーのセットを抽出するステップと、
前記クエリキー及び前記インデックス内に格納された前記文書キーに従って、前記データベースから関連文書を検索するステップと、
前記関連文書をユーザに出力するステップと、
を備えたデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。 - 前記パーティクルのセットは、前記文書の言語における音素数よりも実質的に多く、前記言語における単語数よりも実質的に少ない、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 特定のパーティクルが単語境界を越える、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記文書及び前記クエリは、テキスト語形式である、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記文書は、テキスト語形式であり、前記クエリは、発話語形式である、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記文書及び前記クエリは、発話語形式である、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記文書は、発話語形式であり、前記クエリは、テキスト語形式である、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記クエリは、発話であり、前記クエリパーティクルグラフは、前記発話クエリ内の音配列の代替の連続グループ化を表現するラティスである、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記パーティクルのセットは、任意のクエリ内に発生し得る全ての可能な音配列を表現する、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記パーティクルのセットは、前記文書からの単語の任意の配列の発音から導出される、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記パーティクルのセットは、任意の文書内の、前記文書を他の文書と区別するキーを特定する、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記文書パーティクルグラフ及び前記クエリパーティクルグラフは、スペル対発音メカニズムによって正規化される、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記パーティクルのセット内の前記パーティクルは、音響的に別個であると共に自己完結である、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記パーティクルの発生の予測可能性は、高くなくてはならない、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 各前記パーティクルは、前記パーティクルを他の全てのパーティクルと区別する弁別的な音響構造を有すると共に、同じパーティクルの異なる事例間で比較的低い音響変動性を有する、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 特定のパーティクルの発生の予測可能性は、比較的高い、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記パーティクルセットは、手作業で決定される、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記パーティクルセットは、経験則的に決定される、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- トレーニング文書を使用して、前記パーティクルセット及び同時に最適化されるパーティクルベースの言語モデルを構築するステップであって、前記パーティクルベースの言語モデルのパープレキシティは、同じトレーニング文書から構築された単語ベースの言語モデルのパープレキシティよりも実質的に低い、構築するステップをさらに含む、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記パーティクルセットは、期待値最大化を目的関数に適用し、前記目的関数は、
前記パーティクルのセットのサイズ、
文書トレーニングセット及びクエリトレーニングセット内の全ての文書を表現する際の誤り、
前記パーティクルセットを使用した検索精度、
前記パーティクルのセットを表現する統計モデルのエントロピ、並びに
前記トレーニングセット内の前記文書及び前記クエリから導出されるパーティクルレベルの言語モデル、
の任意の組み合わせを考慮する、請求項19に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。 - 最初に、各前記文書内の各前記単語が、前記単語の全ての可能な発音を表現する音標グラフに変換され、次に、前記音標グラフを前記文書パーティクルセットに変換する、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記関連文書をランク付けするステップをさらに含む、請求項1に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 前記パーティクルベースの言語モデルの前記パープレキシティは、前記単語ベースの言語モデルの前記パープレキシティよりも少なくとも10倍低い、請求項20に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
- 情報検索システムであって、
文書の集合内の各文書を文書パーティクルグラフに変換する手段であって、前記文書グラフは、パーティクルのセットから選択されるパーティクルを含む、変換する手段と、
前記文書毎に、対応するパーティクルグラフから文書キーのセットを抽出する手段と、
前記文書毎の前記文書キーを、前記文書の集合を格納するデータベースへのインデックス内に格納する手段と、
クエリを、クエリパーティクルのセットを含むクエリパーティクルグラフに変換する手段であって、前記クエリグラフは、前記パーティクルのセットから選択されるパーティクルを含む、変換する手段と、
前記クエリパーティクルグラフからクエリキーのセットを抽出する手段と、
前記クエリキー及び前記インデックス内に格納された前記文書キーに従って、前記データベースから関連文書を検索する手段と、
前記関連文書をユーザに出力する手段と、
を備えた情報検索システム。 - データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法であって、
パーティクルベースの言語モデルを使用して、トレーニング文書からパーティクルセットを構築するステップであって、前記パーティクルベースの言語モデルのパープレキシティは、同じトレーニング文書から構築された単語ベースの言語モデルのパープレキシティよりも実質的に低い、構築するステップと、
文書の集合内の各文書を文書パーティクルグラフに変換するステップであって、前記文書グラフは、前記パーティクルのセットから選択されるパーティクルを含む、変換するステップと、
前記文書毎に、対応するパーティクルグラフから文書キーのセットを抽出するステップであって、前記文書へのインデックスを形成する、抽出するステップと、
ユーザによって、クエリパーティクルグラフの形式のクエリ及び前記クエリパーティクルグラフから抽出されるキーを使用して関連文書を検索するステップと、
を備えたデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。 - 情報検索システムであって、
文書の集合を格納するデータベースと、
前記データベースへのインデックスであって、前記インデックス内のエントリは、パーティクルの形式をとり、前記パーティクルは、パーティクルベースの言語モデルを使用して、トレーニング文書から構築されたパーティクルのセットから選択され、前記パーティクルベースの言語モデルのパープレキシティは、同じトレーニング文書から構築された単語ベースの言語モデルのパープレキシティよりも実質的に低い、インデックスと、
ユーザによって、前記パーティクルを使用して前記インデックスを介して前記文書にアクセスする手段と、
を備えた情報検索システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/036,681 | 2008-02-25 | ||
US12/036,681 US8229921B2 (en) | 2008-02-25 | 2008-02-25 | Method for indexing for retrieving documents using particles |
PCT/JP2009/054009 WO2009107851A1 (en) | 2008-02-25 | 2009-02-25 | Computer implemented method for indexing and retrieving documents in database and information retrieval system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011505027A JP2011505027A (ja) | 2011-02-17 |
JP5241840B2 true JP5241840B2 (ja) | 2013-07-17 |
Family
ID=40589792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010521153A Expired - Fee Related JP5241840B2 (ja) | 2008-02-25 | 2009-02-25 | データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US8229921B2 (ja) |
EP (1) | EP2248051B1 (ja) |
JP (1) | JP5241840B2 (ja) |
CN (1) | CN101952824A (ja) |
WO (1) | WO2009107851A1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8229965B2 (en) * | 2009-06-30 | 2012-07-24 | Mitsubishi Electric Research Laboratories, Inc. | System and method for maximizing edit distances between particles |
US20110224982A1 (en) * | 2010-03-12 | 2011-09-15 | c/o Microsoft Corporation | Automatic speech recognition based upon information retrieval methods |
US9075774B2 (en) * | 2010-05-20 | 2015-07-07 | Nec Corporation | Perplexity calculation device |
US9195745B2 (en) | 2010-11-22 | 2015-11-24 | Microsoft Technology Licensing, Llc | Dynamic query master agent for query execution |
US8478704B2 (en) | 2010-11-22 | 2013-07-02 | Microsoft Corporation | Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components |
US9424351B2 (en) | 2010-11-22 | 2016-08-23 | Microsoft Technology Licensing, Llc | Hybrid-distribution model for search engine indexes |
US8713024B2 (en) | 2010-11-22 | 2014-04-29 | Microsoft Corporation | Efficient forward ranking in a search engine |
US9342582B2 (en) * | 2010-11-22 | 2016-05-17 | Microsoft Technology Licensing, Llc | Selection of atoms for search engine retrieval |
US8620907B2 (en) | 2010-11-22 | 2013-12-31 | Microsoft Corporation | Matching funnel for large document index |
US9529908B2 (en) | 2010-11-22 | 2016-12-27 | Microsoft Technology Licensing, Llc | Tiering of posting lists in search engine index |
US9081760B2 (en) * | 2011-03-08 | 2015-07-14 | At&T Intellectual Property I, L.P. | System and method for building diverse language models |
US8983920B2 (en) | 2011-08-30 | 2015-03-17 | Open Text S.A. | System and method of quality assessment of a search index |
US9652452B2 (en) * | 2012-01-06 | 2017-05-16 | Yactraq Online Inc. | Method and system for constructing a language model |
US9208254B2 (en) * | 2012-12-10 | 2015-12-08 | Microsoft Technology Licensing, Llc | Query and index over documents |
US9753960B1 (en) * | 2013-03-20 | 2017-09-05 | Amdocs Software Systems Limited | System, method, and computer program for dynamically generating a visual representation of a subset of a graph for display, based on search criteria |
CN104342421B (zh) * | 2013-07-30 | 2017-04-12 | 贵州益佰制药股份有限公司 | 一种生产瑞替普酶的发酵培养基及其制备方法 |
CN103617245A (zh) * | 2013-11-27 | 2014-03-05 | 苏州大学 | 一种双语情感分类方法及装置 |
US10152298B1 (en) * | 2015-06-29 | 2018-12-11 | Amazon Technologies, Inc. | Confidence estimation based on frequency |
JP6662169B2 (ja) * | 2016-04-18 | 2020-03-11 | 富士通株式会社 | 符号化プログラム、符号化方法、符号化装置、検索プログラム、検索方法および検索装置 |
CN107391690B (zh) * | 2017-07-25 | 2020-03-31 | 李小明 | 一种处理文献信息的方法 |
CN113254657B (zh) * | 2021-07-07 | 2021-11-19 | 明品云(北京)数据科技有限公司 | 一种用户数据的分类方法及系统 |
CN113626015B (zh) * | 2021-08-24 | 2024-04-26 | 贵州电子科技职业学院 | 一种适用于i语言的高性能运行优化方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
US6185527B1 (en) * | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
JP2000267693A (ja) * | 1999-03-12 | 2000-09-29 | Fuji Xerox Co Ltd | 音声処理装置及び索引作成装置 |
US6473730B1 (en) * | 1999-04-12 | 2002-10-29 | The Trustees Of Columbia University In The City Of New York | Method and system for topical segmentation, segment significance and segment function |
US7113910B1 (en) * | 2000-02-18 | 2006-09-26 | At&T Corp. | Document expansion in speech retrieval |
WO2001065541A1 (fr) * | 2000-02-28 | 2001-09-07 | Sony Corporation | Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement |
GB0015233D0 (en) * | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
US6728348B2 (en) * | 2000-11-30 | 2004-04-27 | Comverse, Inc. | System for storing voice recognizable identifiers using a limited input device such as a telephone key pad |
US7181398B2 (en) | 2002-03-27 | 2007-02-20 | Hewlett-Packard Development Company, L.P. | Vocabulary independent speech recognition system and method using subword units |
US7089188B2 (en) | 2002-03-27 | 2006-08-08 | Hewlett-Packard Development Company, L.P. | Method to expand inputs for word or document searching |
US6877001B2 (en) * | 2002-04-25 | 2005-04-05 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for retrieving documents with spoken queries |
US20030204399A1 (en) * | 2002-04-25 | 2003-10-30 | Wolf Peter P. | Key word and key phrase based speech recognizer for information retrieval systems |
US7698136B1 (en) * | 2003-01-28 | 2010-04-13 | Voxify, Inc. | Methods and apparatus for flexible speech recognition |
-
2008
- 2008-02-25 US US12/036,681 patent/US8229921B2/en not_active Expired - Fee Related
-
2009
- 2009-02-25 WO PCT/JP2009/054009 patent/WO2009107851A1/en active Application Filing
- 2009-02-25 CN CN2009801057678A patent/CN101952824A/zh active Pending
- 2009-02-25 JP JP2010521153A patent/JP5241840B2/ja not_active Expired - Fee Related
- 2009-02-25 EP EP09715807.5A patent/EP2248051B1/en not_active Not-in-force
Also Published As
Publication number | Publication date |
---|---|
WO2009107851A1 (en) | 2009-09-03 |
US20090216740A1 (en) | 2009-08-27 |
US8229921B2 (en) | 2012-07-24 |
CN101952824A (zh) | 2011-01-19 |
EP2248051B1 (en) | 2018-11-28 |
JP2011505027A (ja) | 2011-02-17 |
EP2248051A1 (en) | 2010-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5241840B2 (ja) | データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム | |
US7089188B2 (en) | Method to expand inputs for word or document searching | |
US9898459B2 (en) | Integration of domain information into state transitions of a finite state transducer for natural language processing | |
US7177795B1 (en) | Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems | |
US9418152B2 (en) | System and method for flexible speech to text search mechanism | |
US6345253B1 (en) | Method and apparatus for retrieving audio information using primary and supplemental indexes | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
Mandal et al. | Recent developments in spoken term detection: a survey | |
US20040210443A1 (en) | Interactive mechanism for retrieving information from audio and multimedia files containing speech | |
JP2004005600A (ja) | データベースに格納された文書をインデックス付け及び検索する方法及びシステム | |
JP2003036093A (ja) | 音声入力検索システム | |
JP2004133880A (ja) | インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法 | |
Iwami et al. | Out-of-vocabulary term detection by n-gram array with distance from continuous syllable recognition results | |
JP4115723B2 (ja) | 音声入力によるテキスト検索装置 | |
CN101937450B (zh) | 在由粒子表示的信息检索数据库中进行条目检索的方法 | |
Mamou et al. | Combination of multiple speech transcription methods for vocabulary independent search | |
Lestari et al. | Adaptation to pronunciation variations in Indonesian spoken query-based information retrieval | |
Can et al. | Web derived pronunciations for spoken term detection | |
Chien et al. | A spoken‐access approach for chinese text and speech information retrieval | |
US8229965B2 (en) | System and method for maximizing edit distances between particles | |
Quénot et al. | Content-based search in multilingual audiovisual documents using the International Phonetic Alphabet | |
Akbacak et al. | A robust fusion method for multilingual spoken document retrieval systems employing tiered resources. | |
Kolkhorst | Strategies for out-of-vocabulary words in spoken term detection | |
Nishizaki et al. | Comparing isolately spoken keywords with spontaneously spoken queries for Japanese spoken document retrieval. | |
Wang et al. | Towards a Mandarin voice memo system. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120703 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130402 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5241840 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |