JP5436685B2

JP5436685B2 - パーティクルのセットを変換するための方法、およびパーティクルの出力セットを生成する方法

Info

Publication number: JP5436685B2
Application number: JP2012533154A
Authority: JP
Inventors: イザット、トニー
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2010-03-31
Filing date: 2011-03-22
Publication date: 2014-03-05
Anticipated expiration: 2031-03-22
Also published as: CN102822823A; EP2553606A1; US8229965B2; JP2013517540A; WO2011122515A1; CN102822823B; US20100328342A1

Description

本発明は、包括的には情報検索に関し、特に、パーティクル間の編集距離の最大化を用いてパーティクルのセットを変換することに関する。

情報検索（ＩＲ）システムは、通常、地理的関心地点（points of interest：ＰＯＩ）、または音楽アルバムの題名のようなアイテムの大規模なリストを含む。リストは、インデックスによってアクセスされる。インデックスに対する入力は、ユーザーによって供給されるクエリである。クエリに応答して、ＩＲシステムは、該クエリに最も一致した結果リストを生成する。この結果リストは、様々な要因に従って順序付けすることができる。結果リスト、インデックス、クエリ、および結果リストは、通常、単語によって表される。入力リスト、クエリ、および結果リストは、テキストによるものであるか、または発話によるものである。

発話によるクエリは、ユーザーがキーボードを使用することができない環境、例えば、運転中、またはユーザーインタフェースがマイクロフォンを含む環境において用いられる。これらの環境では、自動音声認識装置（ＡＳＲ）を用いて発話を単語に変換する。

ＡＳＲは、２つの基本データ構造、単語の発音辞書および単語の言語モデルを用いる。一般に、ＩＲシステムは、単語を音素として音声的に表す。例えば、ＲＥＳＴＡＵＲＡＮＴは「ＲＥＨＳＴＲＡＡＮＴ」として表される。音素は、特定の言語における音の基本単位を指す。音素は、強勢符号、音節境界、および単語がどのように発音されるかを示す他の表記を含むことができる。

言語モデルは、語順の確率を記述し、ＡＳＲによって、正しい単語仮説のための探索を制約するのに用いられる。言語モデルは、ｎグラム（n-gram）とすることができる。ｎグラムが二重字（bigram）である場合、二重字によってＰ（「ＢＥＬＬ」｜「ＴＡＣＯ」）のような確率がリストされる。これは、単語「ＴＡＣＯ」の後に単語「ＢＥＬＬ」が続く確率である。言語モデルは、有限状態文法とすることもでき、ここで、文法の状態は、各状態において現れる可能性がある単語を表し、状態間の遷移は、１つの状態から別の状態に向かう確率を表す。

単語ベースのＩＲには、２つの主な問題が存在する。

第１に、ＩＲに重要な単語は、通常、頻度の低い識別語である。例えば、アイテムＰＯＩ「ＭＪ’ＳＲＥＳＴＡＵＲＡＮＴ」において、重要な識別語は「ＭＪ’Ｓ」である。多くの場合、これらの識別語は、他の言語からの固有名詞である。例えば、アイテム「ＡＡＳＨＩＡＮＩＲＥＳＴＡＵＲＡＮＴ」内の単語「ＡＡＳＨＩＡＮＩ」は、ヒンディー語からのものである。これらの識別語の別の現れ方は、「ＧＲＥＥＮＨＯＵＳＥ」のように、組み合わせを通じたものである。単語の語根を変更することによって、語彙のサイズも増大する。通例、頻度が低いが重要である識別語の数は、非常に多い。

加えて、重要な識別語は、多くの場合に、言語モデルによって誤って発音されるか、または不十分に表現される。ｎグラムに関する正確な統計も通例入手可能でない。したがって、重要で頻度の低い単語を認識する確率が低く、単語配列が多くの場合に不正確である。これによって、ＩＲシステムによる再現性能が不十分なものとなる。

第２に、単語ベースのＩＲシステムに対する計算負荷は、リストおよびインデックスのサイズとともに増大し、システムの性能は、リアルタイム検索を許容できないものになる。

本発明の実施の形態は、パーティクルによって表される、情報検索（ＩＲ）データベース内のアイテムを検索する方法を提供する。一意のパーティクルの数は、一意の単語の数よりもはるかに小さく、例えば、少なくとも一桁小さい。これによって、自動音声認識（ＡＳＲ）システムの性能が改善し、認識時間が５０％程度減少することになる。驚くべきことに、単語数と比較して、パーティクル数が劇的に減少し、スループットも同様に増大するにもかかわらず、再現率によって測定されるＩＲシステムの性能は、２％程度改善する。

本発明の実施の形態は、情報検索（ＩＲ）システムの動作のために、単語のセットを、可能な限り互いに異なるパーティクルを用いて表すことが有利であるという認識に基づいている。例えば、可能な限り互いに異なるパーティクルを有することによって、ＡＳＲ中の正確な認識が可能になる。さらに、実施の形態は、パーティクル間の差を、編集距離を用いて測定することができるという更なる認識に基づいている。

本発明の１つの実施の形態は、パーティクルの出力セットにおいて、アイテムのセットの少なくとも一部分によって形成されるパーティクルのセットを変換するための方法を開示する。アイテムのセットは、情報検索システムにおいて用いるのに適した単語のセットを表す。本方法は、パーティクルのセット内の各パーティクルについて、パーティクルの一部分の組合せを生成し、パーティクルのセット内のパーティクルを、該パーティクルのセットの総最小編集距離（ＭＥＤ）を最大にする組合せの部分と置き換える。例えば、本方法は、パーティクルのセット内の各パーティクルのＭＥＤを求め、各パーティクルのＭＥＤの和としてパーティクルのセットの総ＭＥＤを求め、次に、該パーティクルのセットの総ＭＥＤを最大にする組合せを求める。

別の実施の形態は、単語のセットを表すパーティクルの出力セットを生成する方法であって、単語のセットからパーティクルのセットを求めるステップと、パーティクルのセット内のパーティクルの一部分の組合せを生成するステップと、パーティクルのセット内のパーティクルを、該パーティクルのセットの総最小編集距離（ＭＥＤ）を最大にする組合せの一部分と置き換えるステップと、パーティクルのセット内の各パーティクルについて生成することと置き換えることとを反復して、パーティクルの出力セットを生成する、反復するステップと、を含み、本方法のステップは、プロセッサによって実行される、単語のセットを表すパーティクルの出力セットを生成する方法を開示する。

さらに別の実施の形態は、単語のセットを表すパーティクルの出力セットにおいてパーティクルのセットを変換するためのシステムであって、パーティクルのセット内の各パーティクルについて、該パーティクルのセットの総最小編集距離（ＭＥＤ）を最大にするパーティクルの一部分の組合せを求めるように構成された変換モジュールと、パーティクルのセット内のパーティクルを組合せの一部分と置き換えるように構成されたプロセッサと、を備える、単語のセットを表すパーティクルの出力セットにおいてパーティクルのセットを変換するためのシステムを開示する。

この実施の形態の１つの変形形態は、パーティクルのセット内の各パーティクルのＭＥＤを求める手段と、パーティクルのセットの総ＭＥＤを求める手段と、パーティクルのセットの総ＭＥＤを最大にする組合せを求める手段と、を備える。

本発明の実施の形態による情報検索システムのブロック図である。単語の観点から書かれた関心アイテムのインデックスの表である。インデックスからの単語の発音辞書の表である。本発明の実施の形態による単語からパーティクルへのマッピングの一例の表である。本発明の実施の形態による、パーティクルの観点から書かれた関心アイテムのインデックスの一例の表である。パーティクルの発音辞書の表である。本発明の１つの実施の形態による、パーティクルの出力セットにおいてパーティクルのセットを変換するための方法のブロック図である。本発明の１つの実施の形態による、パーティクルを、該パーティクルの接頭部および接尾部と置き換えるための方法のブロック図である。パーティクルの変換を示す表である。パーティクルの変換を示す表である。パーティクルの変換を示す表である。パーティクルの変換を示す表である。

図１に示すように、本発明の実施の形態は、情報検索（ＩＲ）システム１００においてデータベースからアイテムを検索する方法を提供する。本方法のステップは、当該技術分野において既知のプロセッサにおいて動作する。プロセッサは、メモリおよびＩ／Ｏインタフェースを備える。

ＩＲシステムは、単語によって表されるアイテムリスト１０１を備える。単語ベースのリスト１０１から、パーティクルによって表されるアイテムリスト１０２を生成する（１１０）。単語ベースのリスト内のアイテムとパーティクルベースのリスト内のアイテムとの間の対応は、１対１、または単語の代替的な発音が可能であるときには１対多とすることができる。

パーティクルは、音声認識の分野において既知である。本明細書において定義されるように、「パーティクル」は、連結された音素配列を表す。一連のパーティクルは、単語の音素配列を表す。Whittaker他著「Particle-based language modelling」（International Conference on Speech and Language Processing (ICSLP), 2000）を参照されたい。

これまで、パーティクルは、自動音声認識（ＡＳＲ）システムにおいて単語を認識するためにしか用いられてこなかった。対照的に、本発明は、パーティクルを用いて情報検索（ＩＲ）を実行する。

リスト１０２にインデクサー１２０を適用してパーティクルベースのインデックス１２１を作成する。アイテムを検索するために、ユーザー１０４からパーティクルベースのクエリ１０３が取得される。クエリは、ＡＳＲを用いてテキスト内の単語または発話から導出することができる。

クエリ１０３を用いて、パーティクルベースのリスト１０２から構築されたインデックス１２１を調べる。クエリ１０３に応答する出力は、パーティクルベースのリスト１０２内の最も一致するアイテムに対応する、単語ベースのリスト１０１からのアイテムの結果リスト１０５である。

パーティクルベースのリスト１０２を生成するために、前処理ステップにおいて、リスト１０１内の一意の単語のセット１４９を保持する。単語ベースのセット１４９を一意のパーティクルのセット１５１に変換する。パーティクルベースのセット１５１を取得した後、リスト１０１内のアイテムに関する単語を対応するパーティクルベースのアイテムに変換して、パーティクルベースのリスト１０２を生成する（１１０）ことができる。

図２Ａは、本発明の単語ベースのアイテムリスト１０１の詳細を示している。アイテムは、地理的関心地点であり、各ＩＤ２０１は、アイテム２０２を一意に識別する。

図２Ｂは、単語２１１および対応する音素２１２を示している。幾つかの単語、例えば「ＨＯＵＳＥＳ」は、代替的な発音を有し得る。図３は、単語３０１および対応するパーティクル３０２を示している。

単語ベースのリスト内のアイテムが複数の発音を有する場合、全ての単語について、パーティクルへの全ての可能性のある分割のデカルト積が形成され、パーティクルベースのリスト内に列挙される。例えば、ＡＡＳＨＩＡＮＩが「ＡＡ＿ＳＨ＿ＩＹＡＡ＿Ｎ＿ＩＹ」としてまたは「ＡＡ＿ＳＨＹ＿ＡＥ＿Ｎ＿ＩＨ」としてパーティクルに分割することができ、ＲＥＳＴＡＵＲＡＮＴが「Ｒ＿Ｅ＿Ｓ＿Ｔ＿Ｒ＿ＡＡ＿Ｎ＿Ｔ」としてまたは「Ｒ＿Ｅ＿Ｓ＿Ｔ＿ＥＲ＿Ｒ＿ＡＡ＿Ｎ＿Ｔ」としてパーティクルに分割することができる場合、全ての可能性のある分割：
ＡＡ＿ＳＨ＿ＩＹＡＡ＿Ｎ＿ＩＹＲ＿Ｅ＿Ｓ＿Ｔ＿Ｒ＿ＡＡ＿Ｎ＿Ｔ、
ＡＡ＿ＳＨ＿ＩＹＡＡ＿Ｎ＿ＩＹＲ＿Ｅ＿Ｓ＿Ｔ＿ＥＲ＿Ｒ＿ＡＡ＿Ｎ＿Ｔ、
ＡＡ＿ＳＨＹ＿ＡＥ＿Ｎ＿ＩＨＲ＿Ｅ＿Ｓ＿Ｔ＿Ｒ＿ＡＡ＿Ｎ＿Ｔ、および
ＡＡ＿ＳＨＹ＿ＡＥ＿Ｎ＿ＩＨＲ＿Ｅ＿Ｓ＿Ｔ＿ＥＲ＿ＡＡ＿Ｎ＿Ｔ
が、パーティクルベースのインデックス内に列挙される。

図４は、パーティクルベースのリスト１０２の詳細を示し、該リストは、アイテム４０２ごとに一意のＩＤ４０１を含む。

図５は、ＡＳＲによって使用することができる発音辞書を示し、該発音辞書は、パーティクル５０１および対応する音素５０２を含む。

本発明の言語モデルは、パーティクル、例えば、パーティクルｎグラムに対する統計を含むｎグラム言語モデルを含む。

パーティクルの変換
本発明の実施の形態は、情報検索（ＩＲ）システムの動作のために、単語のセットを、可能な限り互いに異なるパーティクルを用いて表すことが有利であるという認識に基づいている。例えば、可能な限り互いに異なるパーティクルを有することによって、ＡＳＲ中の正確な認識が可能になる。さらに、実施の形態は、パーティクル間の差を編集距離を用いて測定することができるという更なる認識に基づいている。

したがって、実施の形態は、パーティクルの出力セットにおいて、アイテムのセット６６０を変換する。本発明の様々な実施の形態において、アイテムのセットは、ＩＲシステムにおいて用いるのに適した単語のセットを表す。例えば、１つの実施の形態は、単語のセット内の各単語について、該単語の複数のパーティクルへの全ての可能な分割を求め、単語のセットから導出された一意のパーティクルからアイテムのセットを形成する。他の実施の形態では、アイテムのセット内のアイテムは、単語のセット、単語のセットから導出された音声ストリングのセット、単語のセットから導出されたパーティクルのセット、およびそれらの組合せのうちの少なくとも１つから選択される。

図８は、パーティクルのセットの一例を示している。セット内の各パーティクルについて、最小編集距離（ＭＥＤ）８１０が求められる。ＭＥＤは、全ての他のパーティクルに対するそのパーティクルの最も小さい編集距離である。また、パーティクルのセットの総ＭＥＤ８２０が各パーティクルのＭＥＤの和として求められる。

図６は、パーティクルの出力セット６１５においてパーティクルのセット６１０を変換するための方法６００のブロック図を示している。１つの実施の形態において、パーティクルのセットは、アイテムのセットの少なくとも一部分によって形成される。本方法のステップは、当該技術分野において既知のように、プロセッサ６０１によって実行される。

変換モジュール６０２は、パーティクルのセット内のパーティクル６３０の一部分の組合せ６３５を生成する（６２０）。例えば、１つの実施の形態では、組合せは、２つの部分、すなわち、パーティクルの接頭部および接尾部のみを含む。加えて、組合せ６３５は、パーティクルの全ての可能な組合せである。代替の実施の形態では、組合せは、３つ以上の部分を含む。

パーティクル６３０は、パーティクルのセット内で、該パーティクルのセットの総最小編集距離（ＭＥＤ）を最大にする（６４０）組合せの一部分６４５と置き換えられる（６５０）。変換は、パーティクルのセット内の全てのパーティクルについて反復され、これによって、パーティクルの出力セットにおいてパーティクルのセットを変換する。

図７は、パーティクル７１０を該パーティクルの接頭部および接尾部７１５と置き換える一例を示している。パーティクルは、パーティクルのセットから取り除かれ（７２０）、組合せの一部分、すなわち、接頭部および接尾部がパーティクルのセットに加えられる（７３０）。次に、パーティクルのセット内の各パーティクルについてＭＥＤが求められ（７４０）、ＭＥＤが合算され、パーティクルのセットの総ＭＥＤ７５５が求められる（７５０）。

置き換えは、パーティクルの全ての組合せについて繰り返される。具体的には、組合せの一部分がパーティクルのセットから取り除かれ、パーティクルの別の組合せの一部分と置き換えられ、該別の組合せの一部分を用いてＭＥＤおよび総ＭＥＤが求められる。最後に、総ＭＥＤの最大値に対応する組合せの一部分がパーティクルのセットに加えられる。

１つの実施の形態は、パーティクルのセット内の一意のパーティクルのみを保持する。組合せの一部分がパーティクルのセット内のパーティクルと同一である例では、この部分は、セットに加えられない。

変換中、パーティクルのセット、したがってパーティクルの出力セットは、単語のセットに従ってインデックス付けされる。例えば、１つの実施の形態は、アイテムのセットと単語のセットとの間でインデックスのインデックスマップを作成する。インデックスマップは、複数のパーティクルへの単語の分割を追跡する。変換中、インデックスマップは、パーティクルに置き換わるパーティクルの一部分をインデックス付けするツリーマップとなる。

図９〜図１１は、図８に示すパーティクルのセット８１０からのパーティクル「ａｂｃｄ」８３０の変換の例を示している。パーティクル「ａｂｃｄ」の全ての可能な２つの部分の組合せは、図９に示すように「ａ」＋「ｂｃｄ」と、図１０に示すように「ａｂ」＋「ｃｄ」と、図１１に示すように「ａｂｃ」＋「ｄ」とである。各組合せについて、変換モジュールは各パーティクルのＭＥＤと、全体セットの総ＭＥＤ値とを求める。組合せの一部分「ａ」＋「ｂｃｄ」が総ＭＥＤを最大にするので、総ＭＥＤの値は７に等しく、その組合せの一部分がパーティクル「ａｂｃｄ」を置き換える。

Claims

パーティクルの出力セットにおいて、アイテムのセットの少なくとも一部分によって形成されるパーティクルのセットを変換するための方法であって、該アイテムのセットは、情報検索システムにおいて用いるのに適した単語のセットを表し、該方法は、前記パーティクルのセット内の各パーティクルについて、
前処理ステップとして、一意の単語のセットをパーティクルのセットに変換するステップと、
前記パーティクルのセット内のパーティクルの一部分の組合せを生成するステップと、
前記パーティクルのセット内の前記パーティクルを、該パーティクルのセットの総最小編集距離を最大にする組合せの前記一部分と置き換え、前記パーティクルの出力セットにおいて前記パーティクルのセットを変換する、置き換えるステップと、
単語のセットを前記パーティクルのセットに基づく対応するアイテムのセットに変換するステップと、
前記アイテムのセットをインデックス付けするステップであって、パーティクルベースのインデックスを生成する、インデックス付けするステップと
を含み、該方法の前記ステップは、プロセッサによって実行される、パーティクルの出力セットにおいて、アイテムのセットの少なくとも一部分によって形成されるパーティクルのセットを変換するための方法。
前記パーティクルのセットの前記総最小編集距離を最大にする前記組合せを求めるステップをさらに含む請求項１に記載の方法。
前記パーティクルのセット内の各パーティクルの最小編集距離を求めるステップと、
各パーティクルの前記最小編集距離の和として前記パーティクルのセットの前記総最小編集距離を求めるステップと
をさらに含む請求項１に記載の方法。
前記パーティクルと、前記パーティクルのセット内の全ての他のパーティクルとの間の編集距離を求めるステップと、
前記パーティクルの前記最小編集距離として最も小さい編集距離を選択するステップと
をさらに含む請求項３に記載の方法。
前記置き換えるステップは、
前記パーティクルのセットから前記パーティクルを取り除くステップと、
前記組合せの前記一部分を前記パーティクルのセットに加えるステップと、
前記パーティクルのセット内の各パーティクルの最小編集距離を求めるステップと、
前記パーティクルのセットの前記総最小編集距離を求めるステップと
をさらに含む請求項１に記載の方法。
前記パーティクルのセットから前記組合せの前記一部分を取り除くステップ
をさらに含む請求項１に記載の方法。
前記置き換えるステップは、
前記パーティクルのセットから前記パーティクルを取り除くステップと、
各組合せについて、該組合せの各部分の最小編集距離と、前記パーティクルのセットの前記総最小編集距離とを求めるステップであって、該総最小編集距離は前記組合せの前記一部分の前記最小編集距離を含む、求めるステップと、
前記組合せの前記一部分を前記総最小編集距離の最大値に対応する前記パーティクルのセットに加えるステップと
をさらに含む請求項１に記載の方法。
前記組合せは、前記パーティクルの接頭部および接尾部を含み、前記生成するステップは、
接頭部および接尾部の全ての可能な組合せを生成するステップ、
をさらに含む請求項１に記載の方法。
前記単語のセット内の各単語について、パーティクルが一意になるような該パーティクルへの前記単語の全ての可能な分割を求めるステップと、
前記パーティクルから前記アイテムのセットを形成するステップと
をさらに含む請求項１に記載の方法。
アイテムのセットと単語のセットとの間をインデックス付けするインデックスマップを用いて、前記アイテムのセットに基づいて前記パーティクルの出力セットをインデックス付けするステップ
をさらに含む請求項１に記載の方法。
ユーザーからクエリを取得するステップと、
前記パーティクルベースのインデックスを用いて前記アイテムのセットにアクセスするステップであって、前記クエリに最も一致する対応するアイテムを求める、アクセスするステップと、
前記ユーザーに対し、結果リストとして前記対応するアイテムを出力するステップと
をさらに含む請求項１に記載の方法。
前記アイテムのセット内のアイテムは、前記単語のセット、該単語のセットから導出された音声ストリングのセット、前記単語のセットから導出されたパーティクルのセット、およびそれらの組合せのうちの少なくとも１つから選択される請求項１に記載の方法。
単語のセットを表すパーティクルの出力セットを生成する方法であって、
前処理ステップとして、前記単語のセットからパーティクルのセットを求めるステップと、
前記パーティクルのセット内のパーティクルの一部分の組合せを生成するステップと、
前記パーティクルのセット内の前記パーティクルを、該パーティクルのセットの総最小編集距離を最大にする組合せの前記一部分と置き換えるステップと、
単語のセットを前記パーティクルのセットに基づく対応するアイテムのセットに変換するステップと、
前記アイテムのセットをインデックス付けするステップであって、パーティクルベースのインデックスを生成する、インデックス付けするステップと、
前記パーティクルのセット内の各パーティクルについて前記生成するステップと前記置き換えるステップとを反復して、前記パーティクルの出力セットを生成する、反復するステップと
を含み、該方法の前記ステップは、プロセッサによって実行される、単語のセットを表すパーティクルの出力セットを生成する方法。
前記求めるステップは、
前記単語のセット内の各単語を複数のパーティクルに分割するステップと、
前記パーティクルのセット内の全てのパーティクルが一意となるように、該パーティクルのセットに入れる前記パーティクルを選択するステップと
をさらに含む請求項１３に記載の方法。
前記求めるステップは、
前記単語のセット内の各単語の音声ストリングを求めるステップと、
前記音声ストリングに基づいて前記パーティクルのセットを形成するステップと
をさらに含む請求項１３に記載の方法。
前記パーティクルのセット内の各パーティクルの最小編集距離を求めるステップと、
各パーティクルの和として前記パーティクルのセットの前記総最小編集距離を求めるステップと
をさらに含む請求項１３に記載の方法。
前記パーティクルと、前記パーティクルのセット内の全ての他のパーティクルとの間の編集距離を求めるステップと、
前記パーティクルの前記最小編集距離として最も小さい編集距離を選択するステップと
をさらに含む請求項１３に記載の方法。