JP5241840B2

JP5241840B2 - データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム

Info

Publication number: JP5241840B2
Application number: JP2010521153A
Authority: JP
Inventors: ラマクリシュナン、ビクシャ; グーベア、エバンドロ・ビー; シュミット−ニールセン、ベント; ウェインバーグ、ガレット; ハーシャム、ブレット・エイ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2008-02-25
Filing date: 2009-02-25
Publication date: 2013-07-17
Anticipated expiration: 2029-02-25
Also published as: WO2009107851A1; US20090216740A1; US8229921B2; CN101952824A; EP2248051B1; JP2011505027A; EP2248051A1

Description

本発明は、包括的には情報検索に関し、より詳細には、データベース内の文書をインデックス付け及び検索することに関する。

テキストクエリに関連する文書を検索する情報検索システムは、一般的である。文書は、通常、単語の集合であり、該集合内の単語によって直接インデックス付けされるか、又は多くの場合に文書ベクトルと呼ばれる単語カウントベクトルの線形変換を通じてインデックス付けされる。クエリは、インデックスから文書を検索するのに使用される単語のセット、又はクエリへの関連度が最も高い文書を特定するために文書ベクトルと比較される単語カウントベクトルとして表すこともできる。ユーザに返される関連文書は、多くの場合に結果セットと呼ばれる。

自動音声認識（ＡＳＲ：ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）システムの利用可能性が高まることによって、テキストベースの情報検索システムが、文書又はクエリのいずれかが発話であるシステムに拡張することが可能になった。

発話文書検索システムは、放送されたニュースプログラムの音声記録、ポッドキャスト、会議、講義、プレゼンテーションの録音等をインデックス付けすることができる。通常、発話文書は、手作業で又はＡＳＲシステムを使用して、最初にテキストに転換される。結果として生じるテキスト内の単語は、データベースへのインデックス内に格納される。クエリは、単語インデックスとマッチングされ、テキスト転換又は音声記録のいずれかがユーザに返される。

発話クエリシステムは、発話を使用して文書検索システムに問い合わせる。ここでもまた、クエリはＡＳＲシステムを使用して単語形式に変換され、検索のためにインデックスとマッチングされる。

上記の全てにおいて、インデックス付けシステムによって使用される基本単位は、単語である。文書及びクエリの双方がテキストである完全にテキストベースのシステムにおいて、文書は、該文書内の単語によってインデックス付けされ、クエリ内の単語は、インデックス内の単語とマッチングされる。文書又はクエリが発話である場合、最初に単語を単語配列又は単語ラティスに変換し、次にそれらを使用して単語インデックスを構築するか、又はクエリを単語インデックスに対してマッチングする。

単語ベースのインデックス付け方式は、特にクエリ又は文書が発話である場合に、基本的制約を有する。ＡＳＲシステムが有する語彙は、有限である。システムが認識することができる単語の語彙を最初に指定しなければならない。これは、現在認識器の語彙内にない単語を含む文書がインデックスに追加されるときはいつでも、認識器の語彙を更新しなくてはならないことも意味する。

発話文書の場合、新規文書の語彙を事前に完全に知ることができないため、上記のことは、問題を呈する。発話クエリの場合、上記のことは、文書インデックスが更新されるときはいつでも、クエリを入力するのに使用されるシステムが更新されなくてはならないことを暗に意味する。これは、多くの用途において非実用的な要件である。文書及びクエリの双方が完全にテキストベースの場合であっても、単語ベースのインデックス付けは、スペルミスという問題に直面する。クエリ内の単語は、多くの場合に、特に単語が新規又は複雑である場合に、ユーザによって文書内とは異なってスペリングされる。文書内の単語スペルとクエリ内の単語スペルがマッチしない場合、検索は、明らかに悪影響を受ける。

文書検索システムは、通例、データベースから、ユーザによるクエリ内の単語に関連すると見なされる１つ又は複数の文書を返す。用語「文書」の解釈は、極めて一般的であることができる。たとえば、ウェブからの文書の検索、及びパーソナルコンピュータからのファイルの検索、又はメタデータによって記述される楽曲の集合からの音楽の検索は、全て、「文書」検索の事例と見なすことができる。

明らかに、文書内の全ての情報が、メニューによってトラバースすることができる木構造の対話（ｔｒｅｅｓｔｒｕｃｔｕｒｅｄｄｉａｌｏｇ）に適しているわけではない。情報は、文書内の情報の構造に依拠しない、一般的に「情報検索」（ＩＲ：ＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ）と呼ばれる技法を使用して検索されなくてはならない。

文書は、常にテキストベースであるわけではない可能性がある。文書は、放送されたニュースプログラム、セミナー及び講義、パブリックアドレス、会議等のような発話データの録音も含み得る。同様に、データベースから文書を検索するのに使用されるクエリも、必ずしもテキストである必要はない。クエリは、発話でもあり得る。

テキストベースの検索
図１は、文書１０１及びクエリ１０２が共にテキスト形式である従来のテキストベースのシステムを示している。全ての文書から抽出される（１０３）単語のセット又は単語パターンを使用して、文書インデックス１０４を構築する。単語又は単語パターンもクエリから抽出される（１０５）。インデックスは、各単語に、該単語が出現する全ての文書を指示させるか、又は文書毎の単語カウントベクトルを有する。単語カウントベクトルは、文書内に各単語が現れる回数を有する。

次に、クエリは、インデックスの構造に一致する方式で処理され、文書の結果セット１０７がスコア付け及びランク付けされ（１０６）、ユーザに返される。

発話文書検索
図２に示すように、発話文書２０１は、上述したような発話の音声記録を含む。発話が認識される（２０２）。クエリ１０２に応答して、そのような文書をインデックス付け及び検索することが望ましい場合がある。

発話文書の検索に対する従来のアプローチは、ＡＳＲシステムを使用して文書を単語の配列に変換することであった。次に、変換された文書は、テキスト文書と同様にインデックス付けされ、検索される。

ＡＳＲシステムが本質的に不正確であることは、既知である。したがって、任意の文書に関して認識される単語は、幾つかの誤りを含む可能性があり、その結果、クエリに応答して不正確な文書が検索される。これを計上するために、文書は、多くの場合に、文書を復号するときに認識器によって考慮される単語ラティスの観点から表現される。代替的に、文書をｎベストリスト、すなわち認識器が文書に関して生成した上位Ｎ個の認識推定によって表現することができる。次に、文書は、単語ラティス又はｎベストリストから導出される単語（又は単語カウントベクトル）によってインデックス付けされる。残りのインデックス付けプロセス及び検索プロセスは、テキスト文書の場合と同じである。

図３に示すように、代替的な手法は、発話文書を音素の配列若しくはラティス３０２、又は単語の音節に変換する（３０１）。文書は、これらのラティスの観点から該文書の全体が表現される。次に、クエリ内の単語が、文書内の配列又はラティスとマッチングされ、クエリ内の単語にマッチする可能性がある配列を含む候補文書が特定される。

発話クエリからの検索
たとえば小さな携帯端末を使用しているとき、又は車両を運転しているか若しくは機械を操作している間、クエリにテキストをタイプすることが、常に好都合であるわけではない。テキスト入力は、不都合である場合があるか、又は不可能である場合さえある。そのような状況において、ユーザは、自身のクエリを発話することができる。発話クエリシステムは、発話クエリ内の単語を使用して文書の検索を試みる。

発話文書検索の場合のように、発話クエリは最初に、ＡＳＲシステムによって単語に変換される。ここでもまた、文書は、単語の線形配列又はラティスに変換することができる。クエリのテキスト形式内の単語を使用して、インデックスから文書を検索する。たとえば、２００５年４月５日付けでＷｏｌｆ他に対して発行された米国特許第６，８７７，００１号「Ｍｅｔｈｏｄａｎｄｓｙｓｔｅｍｆｏｒｒｅｔｒｉｅｖｉｎｇｄｏｃｕｍｅｎｔｓｗｉｔｈｓｐｏｋｅｎｑｕｅｒｉｅｓ」を参照されたい。該特許文献は、参照により本明細書に援用される。

他のシステムは、テキスト文書及び発話文書の双方を、それらのインデックスにおいて結合し、発話クエリ及びテキストベースのクエリの双方を可能にする。全てのケースにおいて、文書をクエリにマッチングするのに使用される基本単位は、単語である。

単語ベースのマッチングの欠点
テキストクエリを使用したテキスト文書の検索は、全ての形式の文書検索の中で、おそらく最も信頼度が高い。それにもかかわらず、テキストクエリを使用したテキスト文書の検索は、自身の制約を有する。文書内の、該文書を他の文書と区別するキーワードは、多くの場合に新規の単語であり、スペルが一般的でない。これらの文書の検索を試みるユーザは、これらの用語の正確なスペルに確信がないことが多く、単語をスペルミスする。検索のためのいかなる単語ベースのメカニズムも、スペルミスされた単語を対応する文書にマッチングすることができない。これに対処するために、多くの単語ベースのシステムは、ユーザに可能性のあるスペルミスを警告する様々なスペル訂正メカニズムを使用するが、これらのメカニズムであっても、ユーザがスペルに根本的に確信がない場合に十分でない。

発話文書は、最初に、ＡＳＲシステムを使用して単語に変換されなくてはならない。ＡＳＲシステムが有する語彙は、非常に大量である場合であっても、有限である。極度に大規模な語彙システムであっても、通常、自身の認識語彙内に、最も一般的に使用される数万単語を含むか、又は極端なケースでは数十万単語を含む。これは、即座に幾つかの問題を引き起こす。第１に、任意の文書内のキーとなる特徴的な用語は、本質的に一般的でない。そうでなければ該文書を他の文書から識別しないであろう。結果として、まさにこれらの単語は、認識器の語彙内に実際に存在する可能性が最も低く、したがって認識される可能性が低い。これに対処するために、文書内のキーワードは、認識前に認識器の語彙に動的に追加されなくてはならない。ここで当然の問題が発生する。新規文書において、発見されるキーワードを事前に知ることはできない。

第２に、ＡＳＲシステムは、頻度の高い単語を頻度の低い単語よりも正確に認識するように、事前に偏向されている統計的機械である。その結果、任意の文書内のキーワードが、実際にＡＳＲシステムの語彙内に含まれている場合であっても、該キーワードは、誤認識される可能性が非常に高く、したがって該キーワードをシステムの語彙内に含める論拠が無効にされる。それを補う要素として、文書内のキーワードは、通常発話文書内で複数回反復されるため、認識器が単語の全ての事例を逃す可能性は、認識器が任意の単一の事例を逃す可能性よりも非常に低い。したがって、発話文書検索システムは、認識器の精度が比較的低い場合であっても、妥当に機能することができる。

語彙外の用語の影響を低減するために、発話文書が実際にラティスに転換される場合であっても、それにもかかわらず、クエリは文書にマッチングしなくてはならない単語全体であり、上述したスペルミス問題を被る。より重要なことには、これは、文書をスコア付けするために、クエリ内の各単語を文書毎にパーティクルラティス全体に対してマッチングすることを必要とし、それによってプロセス全体が極度に非効率になる。

発話クエリシステムは、全ての文書検索システムの中で、おそらく最も信頼度が低い。クエリは、通例、上述したようにＡＳＲシステムによって単語の配列又はラティスに変換される。クエリは、通常短い。１回の誤認識の損失が、極度に高いことは明らかである。

ユーザが文書内で発見することを予期するキーワードは、認識されるためには認識器の語彙内に含まれていなくてはならない。これは、文書がインデックスに追加されると、最初に文書内のキーワードがクエリを処理する認識器の語彙内に含まれなくてはならないことを意味する。これは、クエリが初めに遠隔クライアントによって処理されるシステムに対して特に負担となり得る。インデックスに対する各更新は、インデックスの使用を目的とする全てのクライアントに迅速に通信されなくてはならない。この操作は、非常に時間がかかる可能性がある。

クエリ処理が、インデックスと連結されるサーバ上で実施される場合であっても、時間制約が問題となる。ユーザは、クエリに対する応答が迅速であることを要求する。ＡＳＲシステムが動作する速度は、語彙に依拠し、認識語彙を増大させる結果となる文書インデックスの各更新によって、ＡＳＲシステムが低速化すると共に、検索待ち時間が増大する。ＡＳＲシステムによって使用されるメモリ量も、語彙の増加と共に非線形に増大し、同時に処理することができるクエリ数を制約する。

従来の情報検索メカニズムは、単語又は単語の組み合わせの観点から文書を表現する。これは、文書又はクエリが発話であっても、又は書かれたものであっても当てはまる。単語の組み合わせによってインデックス付けすることの結果として、スペル又は認識の不確実性又は誤りに起因する幾つかの制約が生じる。当然ながら、これらの制約は、クエリ又は文書が発話である場合により深刻であり、インデックス付けの前に認識されなくてはならない。これは、自動音声認識（ＡＳＲ）システムがさらなる語彙制限を課すためである。

本発明の実施の形態は、発話クエリを用いた検索のための、文書のインデックス付け、及びパーティクル単位の観点から文書を表現する検索システムを提供する。パーティクルを適切に選択することによって、システムの語彙制限が回避される。さらに、そのようなシステムは、単語ベースのインデックス付けシステムによって必要とされる従来の単語ベースの情報検索システムよりもはるかに小さな言語モデルで、はるかに小さなメモリ要件及びＣＰＵ要件で動作することができる。

本発明は、情報を検索するための新規の方法を提供する。文書及びクエリは、テキスト又は発話のいずれかとすることができる。従来技術のように単語ベースの表現を使用する代わりに、本発明では、文書及びクエリの双方を単語よりも小さな極小の単位に分解する。本発明では、これらの極小の単位をパーティクルと呼ぶ。これらの極小のパーティクルは、必ずしもそうではないが、通常音標的に定義され、各パーティクルは、音の連続配列を表現する。文書は、発話であっても又はテキストであっても、これらのパーティクルの配列に変換される。インデックス付けは、パーティクルの観点から行われる。そして、クエリもパーティクルの配列に変換され、次にインデックスから文書を検索するのに使用される。

テキストクエリを使用する従来の文書検索システムのブロック図である。発話クエリを使用する従来の文書検索システムのブロック図である。発話クエリを使用する従来の文書検索システムのブロック図である。本発明の実施の形態１による音標グラフである。本発明の実施の形態１によるパーティクルグラフのブロック図である。本発明の実施の形態１による文書パーティクル化装置（ｐａｒｔｉｃｌｉｚｅｒ）のブロック図である。本発明の実施の形態１によるクエリパーティクル化装置のブロック図である。本発明の実施の形態１によるパーティクルベースの情報検索システムのブロック図である。

実施の形態１．
パーティクルベースの文書インデックス付け
本発明の実施の形態１では、従来技術のように単語に基づくのではなく、パーティクルに基づいて文書をインデックス付けすると共に文書を検索する方法を提供する。

パーティクル自体は、新規ではない。Ｗｈｉｔｔａｋｅｒ，Ｅ．Ｗ．Ｄ．，Ｗｏｏｄｌａｎｄ，Ｐ．Ｃ．著「Ｐａｒｔｉｃｌｅ−ｂａｓｅｄｌａｎｇｕａｇｅｍｏｄｅｌｌｉｎｇ」（ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（ＩＣＳＬＰ），２０００）、２００６年８月８日付けでＬｏｇａｎ他に対して発行された米国特許第７，０８９，１８８号「Ｍｅｔｈｏｄｔｏｅｘｐａｎｄｉｎｐｕｔｓｆｏｒｗｏｒｄｏｒｄｏｕｃｕｍｅｎｔｓｅａｒｃｈｉｎｇ」、２００７年２月２０日付けでＴｈｏｎｇ他に対して発行された「Ｖｏｃａｂｕｌａｒｙｉｎｄｅｐｅｎｄｅｎｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍａｎｄｍｅｔｈｏｄｕｓｉｎｇｓｕｂｗｏｒｄｕｎｉｔｓ」を参照されたい。しかしながら、これらの文献において、パーティクルは、単語を認識するのに使用され、インデックス付けされると共に文書検索の間探索されるのは、単語である。

パーティクルのインデックス付け及び検索は、単語の発音を、音素又は音節のような１つ又は複数の音単位の配列によって表すことができるという本発明者らの見解に基づく。したがって、任意の発話された言葉を、基本的にはこれらの音単位の配列と見なすことができる。単語は、これらの音単位の、何らかの意味関係を保有するものと見なされているグループ化でしかない。一方、言葉における音単位を、単語によって指定されるものとは異なる任意の他の方式で、連続してグループ化することができる。

これについては、表１に示される。

表１は、右端の４列において、単語配列「ｔｈｅｂｉｇｄｏｇ」（第１列）の、パーティクルとしての異なる複数の表現の仕方を示している。第２列は、言葉内の単語に関する音標発音を表している。この列内のピリオドは、単語を分離する。

言葉が、音の任意の特定の連続グループ化ではなく、該言葉内の音の配列全体によって特徴付けられると想定する場合、表１内のパーティクル分解の全てが、その言葉の有効な特徴である。

したがって、パーティクルベースの表現の目的は、文書の集合内に現れる音配列を表現することができる代替的な音の連続グループ化を、推定及び実際の双方で提案することである。

本発明では、これらのグループ化のそれぞれをパーティクルと呼ぶ。たとえば、表１の例において、スラッシュ（／）によって挟まれる音配列のそれぞれ、たとえば／ｄｈｉｙ／、／ｄｈｉｙｂ／、及び／ｄｈ／は、全てパーティクルである。この表内の幾つかのパーティクルは、実際に単語の境界を越え、これは、従来とは異なる。このようなパーティクルが許容されるか否かは、文書及びクエリ内の言語を表すように選択されるパーティクルの特定のセットが設計される様式に依拠する。

パーティクル
パーティクルは、上述した多くの方法で構築することができるが、全ての可能なパーティクルをパーティクルベースのインデックス付けに使用することができるわけではない。検索のためにクエリ及び文書を表現するのに使用されるパーティクルの実際のセットは、慎重に選択される。

パーティクルのセットに対して以下の要件を課す。
１．パーティクルは、任意のクエリ内に現れる全ての可能な音配列を表現しなくてはならないか、又は文書からの単語の任意の配列の発音から導出されることができる。
２．パーティクルは、任意の文書において、該文書を他の文書と区別するキーパーティクルを特定することを可能にしなくてはならない。

条件１の要件は、自明である。任意の文書又はクエリを適切に表現するために、パーティクルの観点から文書を完全に表現することが可能でなくてはならない。何らかの文又は言葉をパーティクルの配列に完全に分解することができない場合、これをインデックスへのキー入力としても、又はクエリ内のキーとしても効果的に使用することができない。

しかしながら、第１の条件をわずかに緩和して、任意のクエリ又は文書において、「パーティクルは、ほとんどの音配列を表現しなくてはならない」と述べることができる。このとき、文書（又はクエリ）の表現されない部分が使用不可能であるが、パーティクルの数が十分に小さい場合は、システムの全体性能に影響を与えないことが理解される。

条件２は、システムの目標が情報検索であることに起因する。クエリに関連する文書を正確に検索するために、クエリにおいて、関連文書内に他の文書よりも頻繁に存在するパターンを特定することが可能であることが必要である。

文書及びクエリの従来の単語ベースの表現において、クエリ内の単語自体が、ユーザが関連文書内で発見することを予期する独自のパターンを表現する。

文書及びクエリがパーティクルの観点から表現されるとき、クエリ内のパーティクル（又はパーティクルパターン）が、関連文書内に他の文書よりも頻繁に現れることが同様に必要である。

たとえば、文書の言語（複数可）内の音素のセットは、条件１を満たし、任意のクエリ又は文書を表現するのに使用することができる。しかしながら、音素の相対的な発生頻度は、特に集合が大きい、たとえばウェブ上の何百万もの文書である場合、文書の集合にわたって大きく変動せず、特定の文書の特性ではなく言語の音標特性を表現する。たとえば、最も一般的な言語における音素の数は、非常に少なく、たとえば約５０である。結果として、クエリの音素ベースの表現からの検索の任意の試みは、クエリ内の音素を含むが、該クエリに意味的に一切関連していない多数の文書を返す可能性が高い。明らかに、音素の非常に小さなセットは、ＩＲのための良好なパーティクルセットではない。したがって、検索システムにおけるパーティクルの使用は、単語の使用と比較して以下の理由で好都合である。

テキスト正規化及びスペリング
単語ベースの検索方式は、文書内の単語及びクエリ内の単語の双方の正確なスペルに決定的に依拠する。パーティクルベースのインデックス付けメカニズムは、辞書内のパーティクル配列をマッチングし、自動のスペル対発音メカニズムを使用することができる。発音辞書及びスペル対発音システムの双方が、実際の単語の発音と同一ではないにしても非常に類似した単語の、スペルミスされたか又は異なってスペルされた事例の発音（及びしたがってパーティクル化）を提供し、それによって、スペル誤り又はスペル変動の影響を正規化除去（ｎｏｒｍａｌｉｚｉｎｇｏｕｔ）する。

語彙サイズ
発話文書又は発話クエリのいずれかを扱う文書検索システムの場合、発話認識器を利用して発話音声をテキスト形式に変換しなくてはならない。単語ベースのシステムの場合、単語レベル認識器が、音声信号を単語配列又は単語グラフに変換する。単語ベースの認識器の性能は、認識器の語彙に決定的に依拠する。認識器の語彙は、すなわち、認識器が認識することが可能でなくてはならない一意の単語の総数であって、ひいては、文書セット内の一意の単語の総数に関連する。文書の数が増大すると、この数が不可避的に増大し、その結果認識器の語彙も増大する。語彙の増大によって認識器の精度が低減し、それによって情報検索の精度が全体的に低減する。一般的な単語ベースの認識器は、５０，０００単語〜１００，０００単語を格納することができる。

しかしながら、パーティクルベースのシステムにおいて、この問題は、完全にではないにしても大きく軽減される。これは、ここでは、認識器はパーティクルしか認識せず、パーティクルのセットのサイズ（たとえば５０）は、単語レベル語彙、たとえば５０，０００〜１００，０００よりもはるかに小さいためである。理想的なパーティクルセットは、パーティクルの分布が文書を弁別可能であるようになっていなくてはならない。

語彙外の単語
認識器の語彙内にない単語は、認識されず、このため、文書をインデックス付け又は検索するのに使用することができない。この問題を回避するために、認識器の語彙は、新たな文書がインデックスに追加されるときはいつでも更新されなくてはならない。これは、発話クエリの場合に特に厄介な問題であり、インデックスが更新される毎に情報検索クライアントが更新されなくてはならない。この問題は、パーティクルベースのシステムの場合に大幅に低減される。これは、新規の単語を通例、認識器内の既存のパーティクルのセットに分解することができるためである。これは、パーティクルが音素である極端な例によって最も良好に説明される。任意の新規の単語を、辞書又はスペル対発音生成器から求められる該単語の発音に基づいて音素の配列として表現することができる。より一般的には、新規の単語は、認識器のパーティクルセットが適切に選択される場合に、該認識器のパーティクルセットの観点から同様に表すことができる。

上記の要件に加えて、文書又はクエリのいずれかが発話であるときのさらなる条件が必要である。これは、効果的に機能するために、パーティクルがＡＳＲシステムによって容易に認識されなくてはならないためである。これによって以下の要件が生じる。
３．パーティクルのセットは、比較的小さくなければならない。
４．パーティクルは、理想的には、音響的に別個であると共に、自己完結の単位であるべきである。
５．パーティクルの出現予測可能性は、比較的高い。

条件３は、認識器の速度、精度、及びサイズに関する。パーティクルのセットが小さくなる結果として、認識器のための認識語彙が少なくなり、それに応じて文法及び言語モデルが少なくなり、それらが利用するのは、より小さなパーティクル語彙でよい。これを相殺する事実は、より小さなパーティクルセットは、通常、音響的により短いパーティクルを含み、文書を判別するのに効果的であり得ないということである。また、音響的により小さな単位は、より少ない音響手掛りを有し、認識するのがより困難である。たとえば、パーティクルの数は、約２０００である。

上記の条件４は、パーティクルが認識可能となるのに重要である。認識可能となるためには、パーティクルは、自身を他のパーティクルと区別する弁別的な音響構造を有するのみでなく、同じパーティクルの異なる事例間で比較的低い変動性も呈さなくてはならない。この意味において、単語は、幾つかの音響手掛りを有すると共に自己完結であるため、良好な音響単位である。他の同様に音響的に別個の単位は、音節である。音節は、弁別的な音響構造を有するのみでなく、同時調音に起因する変動が文節境界において低くなり、その結果自身の表出における変動が低減されるように明確に発音される。しかしながら、音節が有する音響手がかりは、単語よりも少ない。他の同様のパーティクルセットも考案することができる。理想的なパーティクルセットは、条件４を満たすだけでなく、他の条件も同様に満たす。

条件５は、パーティクルの言語的予測可能性に関する。予測可能性の１つの可能な尺度は、パープレキシティ（ｐｅｒｐｌｅｘｉｔｙ）である。統計の観点から、パーティクルベースの言語モデルのパープレキシティは、同じトレーニングテキストから構築される単語ベースの言語モデルのパープレキシティよりも実質的に低く、たとえば少なくとも１０倍低い。当該技術分野において既知であるように、パープレキシティは、単語の観測された履歴を所与とした、次の単語が選択される単語のセットのサイズの尺度である。本発明では、パープレキシティを、パーティクル及びパーティクルベースの言語モデルに拡張する。発話認識システムの精度は、言語パープレキシティが増大すると共に減少するため、この要件を課す。

パーティクルセットの構築
パーティクルセットは、手作業で又は経験則的に構築することができる。有限数の音節を有する日本語のような言語では、言語内の全ての音節のセットが自然パーティクルセットを形成する。英語のような他の言語では、パーティクルセットを構築するのはより困難であり得る。

本発明の実施の形態１では、パーティクルセットは、トレーニング文書及び同時に最適化される言語モデルの分析を通じて、経験則的に構築される。トレーニング文書は、テキスト文書及び発話文書を含むことができる。パーティクルセットを構築するのに使用される実際の方法を指定しないが、一般的なガイドラインを説明する。

パーティクルセットの自動構築のための１つの方法は、以前のセクションにおいて指定された以下の全ての要件を体系化する目的関数を使用することができる。
１．パーティクルセットサイズ。
２．所与のトレーニングセット内の全ての文書及びクエリを表現する際の誤り。
３．パーティクルセットを使用した検索精度。
４．パーティクルを表す統計モデルのエントロピ。
５．目的関数に含めることができるトレーニングコーパス内の全ての文書及びクエリから導出されるパーティクルベースの言語モデルのパープレキシティ。

パーティクルセットは、目的関数内にこれらの条件のうちの幾つかのみを組み込むことによって導出することができる。たとえば、任意のエントロピ、パープレキシティ、又は目的関数内に埋め込まれる尤度ベースの判断基準によって、効果的な期待値最大化（ＥＭ：ＥｘｐｅｃｔａｔｉｏｎＭａｘｉｍｉｚａｔｉｏｎ）ベースの方法をもたらすことができる。

パーティクルベースの情報検索（ＩＲ）
本発明の主要な着想は、パーティクルベースの情報検索方式が、単語ベースの方式よりも、スペリング、発音、及び他の同様な誤りに対してロバストである可能性が高いということである。このため、パーティクルベースのＩＲ方式は、全てのシナリオ、すなわちテキスト文書のテキストベースの検索、発話文書のテキストベースの検索、テキスト文書又は発話文書の発話クエリベースの検索、及び他の全てのそのような組み合わせに適用可能である。最も一般的なケースでは、文書は、発話又はテキストのいずれかとすることができる。クエリも同様に、発話又はテキスト入力とすることができる。下記において、これらのケースのそれぞれを扱うことができる方法を簡単に説明する。

テキスト文書
テキスト文書は、単語の配列を含む。文書内のテキストは、最初にパーティクルベースの表現に変換される。該変換を行うために、図４に示すように、最初に全ての単語、たとえば「ｓｅｍｉｓｏｆｔ」を、単語の全ての可能な発音を表現する音標グラフ４００に変換する。グラフは、単語を発音する可能な方法が１つしか存在しないケースでは、線形であり得る。

本発明の定義により、パーティクルは、表１の右端の４列に示されるもののような音素の短い配列又は長い配列とすることができる。

単語の配列の発音は、表１に示すように、パーティクルの配列にグループ化することができる。しかしながら、任意の所与のパーティクルセットに関して、発音をパーティクルの配列にグループ化する複数の方法が存在し得る。たとえば、本発明のパーティクルセットがパーティクル「／ｄｈｉｙ／」、「／ｂｉｈｇ／」、「／ｄａａｇ／」、「／ｄｈｉｙｂ／」、及び「／ｉｈｇ／」を含む場合、単語配列「ｔｈｅｂｉｇｄｏｇ」は「／ｄｈｉｙ／／ｂｉｈｇ／／ｄａａｇ／」又は「／ｄｈｉｙｂ／／ｉｈｇ／／ｄａａｇ／」のいずれかとして表現することができる。これらの代替的な分解を、図５の文書パーティクルグラフ５００として表現することができる。

パーティクルベースの情報検索システム
図６Ａ〜図６Ｃは、本発明の実施の形態１によるパーティクルベースの情報検索システムの構造を示している。図６Ａは、文書パーティクル化装置６０１を示している。図６Ｂは、クエリパーティクル化装置６０２を示している。図６Ｃは、パーティクルを使用した文書のインデックス付け及び文書の検索を示している。

文書パーティクル化装置
テキスト文書
図６Ａは、本発明の文書パーティクル化装置６０１を示している。テキスト文書は、パーティクルグラフ５００に変換される。テキストは、該テキスト内の各単語の発音を、発音辞書又は音素対書記素変換器のいずれかから導出することによって、最初に音標グラフ６１２に変換される。さらなるオプションの入力は、単語の境界を越えるパーティクルに対する制約、及びパーティクルセットが不完全である、すなわち幾つかの単語配列がパーティクルグラフに完全に分解することができない状況における誤り最小化判断基準のような様々な制約を課す規則を含むことができる。

次に、音標グラフを使用して、パーティクルグラフ５００を生成する（６１３）。本発明では、このプロセスを文書パーティクル化と呼ぶ。文書パーティクルグラフ５００は、線形、すなわちパーティクルの単一の配列のみとするか、又は図５に示すようなラティスとすることができる。

従来のグラフと異なり、パーティクルは、単語の境界を越えることができる。代替的に、文書内の個々の単語は、別個にパーティクル化される。文書パーティクルグラフから、文書キーのセット６３５が抽出される。セットは、１つ又は複数のキーを含むことができる。文書キーは、文書インデックス６５０内に格納される。インデックスは、文書を参照するためのキーとして、グラフ内の選択されたパーティクルを直接使用することができるか、又はパーティクル配列を使用することができる。本発明では、パーティクル配列をパーティクルｎグラムと呼ぶ。代替的に、パーティクルカウントベクトル又は分布、たとえば正規化ヒストグラムのような他の統計を使用して、文書を表現することができる。

発話文書
発話文書６１５は、音声信号、たとえば発話を含む。テキスト文書と同様に、発話文書も文書パーティクルグラフ５００に変換され、次に文書キーがインデックス６５０内に挿入される。さらなる特徴として、発話文書のためのインデックスは、文書内に様々なパーティクルパターンが現れる時を指示するタイムスタンプを含むことができる。テキストは、空間的である一方で、発話は時間的に展開するため、時間ベースのインデックスが適切であることを想起されたい。

発話文書６１５は、発話認識器６１６を使用することによって、パーティクルグラフに変換される。変換を実施することができる複数の方法が存在する。第１のオプションでは、従来の単語ベースの発話認識システムが、音声信号を配列又は単語ラティス６１７のいずれかに変換する。次に、テキスト文書に関して説明したように、単語ラティスは、パーティクルグラフに変換される（６１３）。

代替的に、発話文書６１５は、パーティクルベースの発話認識器６１８を使用して直接パーティクルグラフに変換される。パーティクル認識器は、パーティクルを該パーティクルの発音にマッピングする「パーティクル」辞書６１９にアクセスする。対応する文法又は統計言語モデルは、様々な有効なパーティクル配列及び該パーティクル配列の確率を規定する。パーティクル認識器は、パーティクルグラフ５００を出力し、該パーティクルグラフから抽出されるキーのセットが格納され、文書をインデックス付けするのに使用される。

発話文書の場合、発話認識器によって出力されるパーティクル又は単語の重みも導出することができる。重みは、推測される単語又はパーティクルが発話データ内に実際に存在する確信度、又は用語、すなわち単語若しくはパーティクルが文書内に現れる事後確率を表現する。いずれのケースにおいても、重みは、文書を表現するのに使用されるキーに組み入れることもできる。このため、パーティクル、パーティクルｎグラム、又はパーティクルヒストグラムは、全てこれらの重みによって様々な方法で増補することができる。

クエリパーティクル化装置
テキストクエリ
図６Ｂに示すように、テキストクエリ６２１も、上述したように、クエリパーティクルグラフ５０１に変換される。テキストクエリ内の単語は、発音辞書又は書記素対音素変換器のいずれかを使用して音標グラフ６１２に変換される。次に、発音グラフからパーティクルグラフが導出される。文書から、該文書を検索するためのクエリキー６３８として、パーティクル、パーティクルｎグラム、パーティクルカウントベクトル、又はパーティクル発生ヒストグラムも、パーティクルグラフから導出することができる。

発話クエリ
発話クエリ６２５は、発話認識器６１６及び６１８のうちの任意のものを使用して、クエリパーティクルグラフ５０１に変換される。発話文書の場合のように、クエリは、最初に単語ベースの発話認識器を使用して、該クエリを単語列又はラティスに変換して、単語グラフをテキストクエリの処置と同様に音標グラフに変換するか、又はパーティクルベースの認識器を使用して、パーティクルグラフを直接導出することによって変換することができる。テキストクエリの場合のように、文書インデックスを使用して文書を検索するためのクエリキー６３６として、パーティクル、パーティクルｎグラム、パーティクルカウントベクトル、又はパーティクル発生ヒストグラムも、パーティクルグラフから導出することができる。ここでもまた、確信度、事後確率、又は認識器から導出される他の重みを使用して、キーの形成前に、クエリ内の用語を重み付けすることができる。

パーティクルベースの文書インデックス
図６Ｃは、パーティクルベースのＩＲシステム６０３の全体を示している。パーティクルベースの文書インデックス６５０は、文書又は文書へのポインタを格納するデータベースである。通常、データベースは、メモリ、たとえばディスク、テープ、ＲＡＭ、ＲＯＭ等の形態をとる。データベースは、集中化されるか、又はインターネットのウェブとして広範に分散されることができる。

データベース内の文書は、パーティクル、パーティクルｎグラム、又はパーティクル頻度ヒストグラム若しくはパーティクル確率ヒストグラムのような様々なメカニズムを通じてインデックス付けすることができる。インデックスは、文書キーとして、パーティクルグラフ５００からパーティクル又はパーティクルパターンを抽出すること（６３１）によって生成される。

クエリから取得されるパーティクルグラフは、文書インデックス６５０のために、クエリキーのセット（１つ又は複数）６３６に変換される（６３２）。

パーティクルグラフ対クエリ変換器
このモジュールは、クエリから導出されたパーティクルグラフを、インデックス６５０から文書を検索するのに使用することができるキーのセット６３６に変換する。キーは、グラフ自体内のパーティクル、パーティクルｎグラム、パーティクルカウントベクトル、又はパーティクル頻度ヒストグラムとすることができる。適切である場合、発話認識器によって決定される重みを使用してこれらのキーを増補することができる。

文書スコアラ
文書スコアラ６５０は、クエリのキー６３６によってインデックス付けされた文書の関連度スコアを求める。関連度スコアは、クエリから求められたパーティクルカウントベクトル又はパーティクル頻度ヒストグラムと、文書から求められたパーティクルカウントベクトル又はパーティクル頻度ヒストグラムとの間の距離（差分）として求めることができる。

カルバック・ライブラー距離、コサイン距離のような様々な距離尺度が既知である。代替的に、関連度を、文書に対する、クエリから導出されるパーティクル又はパーティクルｎグラムの総マッチ数の観点から求めることができる。結果セット６３７内の文書は、関連度の降順でユーザに返される。

本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び変更を行うことができることは理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入るすべての変形及び変更を包含することである。

Claims

データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法であって、
文書の集合内の各前記文書を文書パーティクルグラフに変換するステップであって、前記文書グラフは、パーティクルのセットから選択されるパーティクルを含む、変換するステップと、
前記文書毎に、対応するパーティクルグラフから文書キーのセットを抽出するステップと、
前記文書毎の前記文書キーを、前記文書の集合を格納するデータベースへのインデックス内に格納するステップと、
クエリを、クエリパーティクルのセットを含むクエリパーティクルグラフに変換するステップであって、前記クエリグラフは、前記パーティクルのセットから選択されるパーティクルを含む、変換するステップと、
前記クエリパーティクルグラフからクエリキーのセットを抽出するステップと、
前記クエリキー及び前記インデックス内に格納された前記文書キーに従って、前記データベースから関連文書を検索するステップと、
前記関連文書をユーザに出力するステップと、
を備えたデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記パーティクルのセットは、前記文書の言語における音素数よりも実質的に多く、前記言語における単語数よりも実質的に少ない、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
特定のパーティクルが単語境界を越える、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記文書及び前記クエリは、テキスト語形式である、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記文書は、テキスト語形式であり、前記クエリは、発話語形式である、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記文書及び前記クエリは、発話語形式である、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記文書は、発話語形式であり、前記クエリは、テキスト語形式である、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記クエリは、発話であり、前記クエリパーティクルグラフは、前記発話クエリ内の音配列の代替の連続グループ化を表現するラティスである、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記パーティクルのセットは、任意のクエリ内に発生し得る全ての可能な音配列を表現する、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記パーティクルのセットは、前記文書からの単語の任意の配列の発音から導出される、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記パーティクルのセットは、任意の文書内の、前記文書を他の文書と区別するキーを特定する、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記文書パーティクルグラフ及び前記クエリパーティクルグラフは、スペル対発音メカニズムによって正規化される、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記パーティクルのセット内の前記パーティクルは、音響的に別個であると共に自己完結である、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記パーティクルの発生の予測可能性は、高くなくてはならない、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
各前記パーティクルは、前記パーティクルを他の全てのパーティクルと区別する弁別的な音響構造を有すると共に、同じパーティクルの異なる事例間で比較的低い音響変動性を有する、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
特定のパーティクルの発生の予測可能性は、比較的高い、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記パーティクルセットは、手作業で決定される、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記パーティクルセットは、経験則的に決定される、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
トレーニング文書を使用して、前記パーティクルセット及び同時に最適化されるパーティクルベースの言語モデルを構築するステップであって、前記パーティクルベースの言語モデルのパープレキシティは、同じトレーニング文書から構築された単語ベースの言語モデルのパープレキシティよりも実質的に低い、構築するステップをさらに含む、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記パーティクルセットは、期待値最大化を目的関数に適用し、前記目的関数は、
前記パーティクルのセットのサイズ、
文書トレーニングセット及びクエリトレーニングセット内の全ての文書を表現する際の誤り、
前記パーティクルセットを使用した検索精度、
前記パーティクルのセットを表現する統計モデルのエントロピ、並びに
前記トレーニングセット内の前記文書及び前記クエリから導出されるパーティクルレベルの言語モデル、
の任意の組み合わせを考慮する、請求項１９に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
最初に、各前記文書内の各前記単語が、前記単語の全ての可能な発音を表現する音標グラフに変換され、次に、前記音標グラフを前記文書パーティクルセットに変換する、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記関連文書をランク付けするステップをさらに含む、請求項１に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
前記パーティクルベースの言語モデルの前記パープレキシティは、前記単語ベースの言語モデルの前記パープレキシティよりも少なくとも１０倍低い、請求項２０に記載のデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
情報検索システムであって、
文書の集合内の各文書を文書パーティクルグラフに変換する手段であって、前記文書グラフは、パーティクルのセットから選択されるパーティクルを含む、変換する手段と、
前記文書毎に、対応するパーティクルグラフから文書キーのセットを抽出する手段と、
前記文書毎の前記文書キーを、前記文書の集合を格納するデータベースへのインデックス内に格納する手段と、
クエリを、クエリパーティクルのセットを含むクエリパーティクルグラフに変換する手段であって、前記クエリグラフは、前記パーティクルのセットから選択されるパーティクルを含む、変換する手段と、
前記クエリパーティクルグラフからクエリキーのセットを抽出する手段と、
前記クエリキー及び前記インデックス内に格納された前記文書キーに従って、前記データベースから関連文書を検索する手段と、
前記関連文書をユーザに出力する手段と、
を備えた情報検索システム。
データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法であって、
パーティクルベースの言語モデルを使用して、トレーニング文書からパーティクルセットを構築するステップであって、前記パーティクルベースの言語モデルのパープレキシティは、同じトレーニング文書から構築された単語ベースの言語モデルのパープレキシティよりも実質的に低い、構築するステップと、
文書の集合内の各文書を文書パーティクルグラフに変換するステップであって、前記文書グラフは、前記パーティクルのセットから選択されるパーティクルを含む、変換するステップと、
前記文書毎に、対応するパーティクルグラフから文書キーのセットを抽出するステップであって、前記文書へのインデックスを形成する、抽出するステップと、
ユーザによって、クエリパーティクルグラフの形式のクエリ及び前記クエリパーティクルグラフから抽出されるキーを使用して関連文書を検索するステップと、
を備えたデータベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法。
情報検索システムであって、
文書の集合を格納するデータベースと、
前記データベースへのインデックスであって、前記インデックス内のエントリは、パーティクルの形式をとり、前記パーティクルは、パーティクルベースの言語モデルを使用して、トレーニング文書から構築されたパーティクルのセットから選択され、前記パーティクルベースの言語モデルのパープレキシティは、同じトレーニング文書から構築された単語ベースの言語モデルのパープレキシティよりも実質的に低い、インデックスと、
ユーザによって、前記パーティクルを使用して前記インデックスを介して前記文書にアクセスする手段と、
を備えた情報検索システム。