JP5537649B2

JP5537649B2 - データ検索およびインデクシングの方法および装置

Info

Publication number: JP5537649B2
Application number: JP2012505214A
Authority: JP
Inventors: ランジョウ、チェン
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-04-16
Filing date: 2009-04-16
Publication date: 2014-07-02
Anticipated expiration: 2029-04-16
Also published as: JP2012524314A; WO2010119233A1; GB2482630B; US9223850B2; GB2482630A; US20120109651A1; GB201119833D0

Description

本発明はデータ検索およびインデクシングの分野に関し、より具体的には、本発明はテキスト検索、音声処理、画像処理などにおいて用いられる線形意味論の方法に関する。

アイテム間の関係および構造を無視し、独立したアイテムのコレクションとしてオブジェクトを表わすデータ表現方法が知られている。そのような方法の一例はいわゆる「ｂａｇ−ｏｆ−ｗｏｒｄｓ」（ＢｏＷ）法である。

ｂａｇ−ｏｆ−ｗｏｒｄｓ法は、自然言語処理（ＮＬＰ）において広く用いられてきた。この場合、データオブジェクトはテキスト文書によって提供される。また、アイテムは文書に現われる単語の非順序のコレクションである。また、ｂａｇ−ｏｆ−ｗｏｒｄｓ法はコンピュータビジョンの分野でも用いられる。この場合、データオブジェクトは画像である。また、アイテムはコードブックからのコードワードである。

ＢｏＷ法は、文書を個々の単語の束(bunch)として表現する。しかしながら、このｂａｇｏｆｗｏｒｄｓ法は意味論的な情報を十分に表現できない場合がある。例えば、文書が日付「September 11（セプテンバーイレブン）」を含んでいる場合、「September(セプテンバー)」および「11（イレブン）」は、どちらも当該文書の正しい情報を正確に伝えない。類似文書を選択するのにＢｏＷ法を用いると、「オーシャンズイレブン」あるいは「ブラックセプテンバー」のような多くの無関係な文書が選択されてしまうのである。また、単語には多義性があることから、単語が意味論的な曖昧さを招くことがある。例えば、「カレー」は食物の一種でもあり、ＩＴショップの名前でもありえる。この種の曖昧さは、ＢｏＷ型の解析の性能に影響を及ぼす。

提案する方法は、上述のＢｏＷ法の欠点に対処しようとするものである。これは、テキストを単語対のグループとして表現することによる。この場合において単語対の順序は無視する。以下、この方法をｂａｇ−ｏｆ−ｗｏｒｄｐａｉｒｓ（ＢｏＷＰ）と呼ぶことにする。単語対は単語より意味論的な情報を含んでおり、テキストを単語対のグループあるいはさらに大きな単語グループとして表現することによって、より正確な意味論的情報を捕らえられることがＢｏＷＰへの動機付けである。

したがって、第１の態様において、本発明は、各データファイルが複数の特徴を含む複数のデータファイルを検索する方法であって、
各特徴グループがｎ個（ｎは２以上の整数）の特徴を含む複数の特徴グループを決定すること；
各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現することであって、この場合において一の特徴グループを構成する前記ｎ個の特徴は互いに隣接するように位置付けられる必要がなく；
前記特徴グループをベクトルとして用いることにより検索クエリーを表現すること；
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索すること；
を含む方法を提供する。

提案された方法は、アイテム対またはアイテムグループの非順序収集としてオブジェクトを表わすために従来のＢｏＷ法を拡張する。特徴グループ内の特徴は互いの隣接するように位置付けられる必要はなく、任意の特定の順序で提供される必要もないことに留意することが重要である。そうすることによって、ＮＬＰおよび言語モデルの領域において、テキスト中のより複雑な意味論的な情報をモデル化することができる。

本発明は、例えば自然言語処理（ＮＬＰ）、情報検索（ＩＲ）、文書分類、コンピュータビジョン、言語モデル、音声認識、音声翻訳、ＯＣＲ、手書き文字認識あるいは統計的言語モデル情報を用いる他の応用といった多くの分野に適用することができる。

データファイルは、文書、音声処理用コーパス、画像データファイル、マシンあるいは任意のモニタ装置からの遠隔測定データ、測定、レコードあるいはメーター測定値から選択してもよい。

一般的に、特徴グループは特徴の対(pair)である。特徴は、単語、句、画像中のコードワード等とすることができる。

検索クエリーは、ファイルベクトルそれ自身で表現することができる。例えば、検索クエリーベクトルの成分はファイルベクトルの成分と同じものである。

この比較は、検索クエリーのファイルベクトルとデータファイルのファイルベクトルの間のセパレーションを決定することにより行なってもよい。該２つのベクトルの間の角度のコサインを計算することにより、該セパレーションを定量化してもよい。

特徴グループベクトルの成分が、文書中の特徴グループの出現を示すように、検索クエリーを特徴グループベクトルとして表現することも可能である。

また、２つの特徴グループベクトルを比較することが可能である。文書／データファイル上の各特徴グループの出現に基づいて２つの特徴グループベクトルを構築してもよい。

したがって、第２の態様において、本発明は、各データファイルが複数の特徴を含む複数のデータファイルを検索する方法であって、
各特徴グループがｎ個（ｎは２以上の整数）の特徴を含む複数の特徴グループを決定すること；
各特徴グループを、該特徴グループが出現するデータファイルを示すベクトルの成分を持った特徴グループベクトルとして表現することであって、この場合において一の特徴グループを構成する前記ｎ個の特徴は互いに隣接するように位置付けられる必要がなく；
前記特徴グループをベクトルとして用いることにより検索クエリーを表現すること；
ベクトルとして表現された前記検索クエリーを前記特徴グループベクトルと比較することにより、前記複数のデータファイルを検索すること；
を含む方法を提供する。

上記は、文書およびデータのクラスタリングにも用いることができる。また、上記は、本測定法に基づく単語クラスタリングにも用いることができ、類義語および多義語を検出することができる。

しばしば、特徴グループは多数になる。したがって、好ましい実施形態において、複数の特徴グループの決定は、前記特徴グループ中の特徴間のアソシエーションに基づいて全特徴グループから特徴グループを除去することを含む。

複数の特徴グループの決定は、データファイル中で頻繁に繰り返される特徴を含んでいる特徴グループを削除することを含み得る。例えば、データファイルはテキスト文書であって、特徴が単語である場合に「a」や「the」といった単語を削除することによって結果が向上する。

好ましい実施形態では、ラテラルな意味解析（ＬＳＡ）方法を提供するために、ファイルベクトルが行列で構成される。前記行列はＳＶＤのような技術によって因数分解することができる。

上記方法は、ＡＳＲのためのドメイン依存統計的言語モデル（ＬＭ）を構築するのに用いることができ、該ＬＭは、対象領域のより意味論的な情報を捕らえることができる。

したがって、第３の態様において、本発明は、特定の主題に関する音声の処理のためにトレーニングコーパスを選択する方法を提供する。該方法は、
複数の一般トレーニングコーパスを提供すること；
前記特定の主題に関する少なくとも１つのデータファイルを入力すること；
本発明の第１の態様による方法を用いて、前記複数の一般トレーニングコーパスから前記主題に関するコーパスを検索することを含み、検索クエリーは前記特定の主題に関するデータファイルであり、検索される前記複数のデータファイルは、前記複数の一般トレーニングコーパスである。

したがって、第４の態様において、本発明は、上述したようにトレーニングコーパスを選択すること；前記選択されたコーパスを用いて音声処理のための言語モデルをトレーニングすること；前記言語モデルを用いて音声を処理することを含む音声処理の方法を提供する。

上記の音声処理は、入力音声信号がテキストデータファイルとして出力される自動音声認識（ＡＳＲ）、あるいは、入力テキストがオーディオ音声ファイルに変換されるテキスト音声合成システムに適用することができる。

上記による言語モデルのトレーニングは、手書き文字認識、ＯＣＲなどにも適用することができる。

特徴グループに基づいて文書を選択する方法を用いてトレーニングされた言語モデルは、他の文書を用いてトレーニングされた言語モデルと組み合わせてもよい。そのような方法は、特徴グループおよび他の方法を用いて捕らえられた複雑な意味論的情報の混合を可能にする。

したがって、前記言語モデルをトレーニングすることは、
上述したように選択されたトレーニングコーパスを用いて第１の言語モデルをトレーニングすること；
異なる方法で選択されたトレーニングコーパスを用いて第２の言語モデルをトレーニングすること；
前記第１の言語モデルと第２の言語モデルを補間すること、を含んでもよい。

前記異なる方法は、既知のｂａｇ−ｏｆ−ｗｏｒｄｓ法で提供されることができ、前記第２の言語モデルのためのトレーニングコーパスは、複数の一般トレーニングコーパスを提供すること；
音声処理方法の主題に関する少なくとも１つのデータファイルを入力すること；
コーパス内の各単語の頻度を示すベクトルの成分を持ったファイルベクトルとして前記複数のコーパス中の各コーパスを表現すること；
前記ファイルベクトルと同じ形式で前記音声処理方法の前記主題に関するデータファイルを表現すること；
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索すること、により選択されてもよい。

特徴グループに基づいた選択技術を用いてトレーニングコーパスを最適化することにより言語モデルをどのように改善することができるかについて上述した。しかし、言語モデルを実質的にトレーニングする意味論的な方法を用いることも可能である。

したがって、言語モデルをトレーニングすることは、
言語モデル中の現在の単語ｗ_ｉの確率を

と表現することを含む。ここで、ｄは文書であり、ｈは単語履歴であり、

であって、

である。

また、ファイルベクトルの成分が前記コーパス中の単語の出現を示す前記ファイルベクトルとして文書を表現することにより該文書について構築されたベクトルと、前記単語について構築されたベクトルとを比較することにより、ｐ（ｗ_ｉ｜ｄ）を得ることを含む。

上記では、この種の言語モデルをトレーニングする場合、"Exploiting Latent Semantic Information in Statistical language modelling" Proc. IEEE, vol. 88 no. 8, pp. 1279-1296, 2000においてJ.R. Bellegardaが主唱したｂａｇ−ｏｆ−ｗｏｒｄ技術を用いている。

しかしながら、特徴グループ技術を用いる技術にも適用することができる。この場合、言語モデルをトレーニングすることは、
言語モデル中の現在の単語ｗ_ｉの確率を

であって、

である。

また、コーパス内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして文書を表現することにより該文書について構築されたベクトルを比較することにより、ｐ（ｗ_ｉ｜ｄ）を得ることを含む。

第５の態様において、本発明は、各データファイルが複数の特徴を含む複数のデータファイルをインデクシングする方法であって、
各特徴グループがｎ個（ｎは２以上の整数）の特徴を含む複数の特徴グループを決定すること；
各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現すること、を含む。この場合において一の特徴グループを構成する前記ｎ個の特徴は互いに隣接するように位置付けられる必要がない。また、各ファイルベクトルは前記データファイルにインデックスを供給する。

したがって、本発明は改善されたデータベースをも提供する。第６の態様において、本発明は、複数のデータファイルを含むデータベースを提供する。各データファイルは、複数の特徴とインデックスを含む。各インデックスはファイルベクトルを含み、該ベクトルの各成分は当該データファイル内の特徴グループの頻度を示し、各特徴グループはｎ個の特徴（ｎは２以上の整数）を含み、一の特徴グループを構成するｎ個の特徴は、互いに隣接するように位置付ける必要はない。

第７の態様において、本発明は、各データファイルが複数の特徴を含む複数のデータファイルを検索するための装置であって、該装置は、
各特徴グループがｎ個（ｎは２以上の整数）の特徴を含む複数の特徴グループを決定し；
各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現し、この場合において一の特徴グループを構成する前記ｎ個の特徴は互いに隣接するように位置付けられる必要がなく；
前記特徴グループをベクトルとして用いることにより検索クエリーを表現し；
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索するように構成されたプロセッサを具備する。

第８の態様において、本発明は、
トレーニングコーパスを選択し；
前記選択されたコーパスを用いて、音声処理のために言語モデルをトレーニングし；
前記言語モデルを用いて音声を処理するように構成されたプロセッサを具備し、
トレーニングコーパスを選択することは、
処理すべき音声の主題に関する少なくとも１つのデータファイルを入力すること；
コーパス内の、ｎ個の単語（ｎは少なくとも２の整数）を含む各単語グループの頻度を示すベクトルの成分を持ったファイルベクトルとして前記複数のコーパス中の各コーパスを表現すること；
前記ファイルベクトルと同じ形式で前記音声処理方法の前記主題に関するデータファイルを表現すること；
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記コーパスを検索すること、
を含む音声処理装置を提供する。

本発明は、汎用コンピュータのハードウェアあるいはソフトウェアで実施することができる。また本発明は、ハードウェアとソフトウェアの組み合わせで実施することができる。また本発明は、単一の処理装置あるいは処理装置の分散ネットワークにより実施することができる。

本発明はソフトウェアにより実施できることから、本発明は任意の適切な搬送媒体によって汎用コンピュータに供給されるコンピュータコードを包含する。搬送媒体とは、フロッピー（登録商標）ディスク、ＣＤＲＯＭ、磁気デバイスもしくはプログラム可能メモリ装置のような任意の記憶媒体、または、（例えば電気的、光学的、あるいはマイクロ波の）信号のような、任意の一時的な媒体を含みうる。

以下の非制限的な実施形態の図を参照して本発明を説明する。
図１は、本発明の実施形態による方法と共に用いることのできるシステムの概略図である。図２は、本発明の実施形態による文書インデクシング方法のフローチャートである。図３は、本発明の実施形態による検索方法のフローチャートである。図４は、本発明の実施形態による文献検索システムである。図５は、本発明の実施形態による音声処理システムである。

図１は、データ探索またはインデクシングシステムの概略図である。システム１は、プログラム５を実行するプロセッサ３を含む。データシステム１は、さらに記憶装置７を含む。記憶装置７は、複数のデータファイルを記憶する。該複数のデータファイルは、プログラム５によってインデクシングされ、検索される。データシステム１は、さらに入出力モジュール９を含む。入出力モジュール９は、プロセッサへのインターフェースを提供する。キーボード、ネットワーク、外部記憶メディア、音声入力などによって検索クエリーを入力することができる。その結果は、視覚的に出力され、あるいはデータファイルとして提供されうる。

本発明による方法および装置は、既知の「ｂａｇｏｆｗｏｒｄｓ」法の改良を提供する。この発明の理解のために、先行技術「ｂａｇ−ｏｆ−ｗｏｒｄｓ」法を説明する。

この方法では、（文、パラグラフなどのような）テキストは、単語の非順序収集として表わされ、文法および語順でさえも無視される。用語「文書」は、句から本にいたるまで、任意の長さのテキストを包含する意味で用いる。ＢｏＷモデルは、辞書に基づいたモデルである。各文書は、辞書からのいくつかの単語を含んだ「袋(bag)」のように扱われる（故に語順は考慮されない）。例えば以下のような２つの簡素なテキスト文書があるとする。

・"I WANT TO BUY TEN PIECES OF SUSHI AND TAKE THEM HOME"
・"IT INCLUDES SUSHI SOUP AND FRUIT"
これら２つのテキスト文書に基づいて、次のように１６個の単語を持つ辞書が構築される：
[1 "I", 2 "IT", 3 "OF", 4 "TO", 5 "FRUITS", 6 "WANT", 7 "SOUP", 8 "SUSHI", 9 "PIECES", 10 "HOME", 11 "AND", 12 "BUY", 13 "TAKE", 14 "THEM", 15 "TEN", 16 "INCLUDES"]
また、この辞書のインデックスを用いて各文書は１６エントリーのベクトルによって表される：
[1,0,1,1,0,1,0,1,1,1,1,1,1,1,1,0]
[0,1,0,0,1,0,1,1,0,0,1,0,0,0,0,1]
典型的なｂａｇ−ｏｆ−ｗｏｒｄｓ法は潜在意味解析（ＬＳＡ）である。ＬＳＡは、文書中の単語の出現を表現する単語文書行列を用いることができる。この行列は、その行がアイテムまたは用語に対応し、その列が文書に対応するスパース行列である。Ｍ個の単語による語彙とＮ個の文書によるトレーニングコーパスτとが与えられて単語文書行列Ａが構築される。下記のように、各文書は次元Ｍの列ベクトルに関連付けられ、各単語は次元Ｎの行ベクトルに関連付けられる。

単語文書行列Ａにおいて、すべてのセルの値は、ある適当な単語の合計数の関数に対応する。各単語が各文書に出現する回数、すなわち単語の合計数は、通常、文書長および単語エントロピーによって正規化される。

行列Ａの（ｉ，ｊ）セルの適当な表現は、

である。ここで、ｃ_ｉ，ｊは単語ｗ_ｉが文書ｄ_ｊに出現する回数、
ｎ_ｊはｄ_ｊ中に存在する単語の総数、
ε_ｉはコーパス中のｗ_ｉの正規化されたエントロピーである。

ε_ｉは次のように計算することができる：

ここで、ｔ_ｉは、コーパスτ全体で単語ｗ_ｉが出現する総数である。

（Ｍ×Ｎ）単語文書行列Ａは、当該単語および文書について２つのベクトル表現を規定する。各単語ｗ_ｉは、次元Ｎの行ベクトルにユニークに関連付けられ、各文書ｄ_ｊは、次元Ｍの列ベクトルにユニークに関連付けられる。あいにく、これらのベクトル表現は３つの理由で非実用的である。まず、次元ＭおよびＮは非常に大きくなりえる。第2に、ベクトルｗ_ｉおよびｄ_ｊは非常に疎(sparse)である。第３に、該２つの空間は互いに異なる。

この問題に対処するために、特異値分解（ＳＶＤ）を行う。単にＲ個の最大特異値および関連する特異ベクトルを維持するのみで行列ＡのＳＶＤは次のように表現することができる：

ここで、Ｓは特異値の（Ｒ×Ｒ）の対角行列、Ｕは行ベクトルｕ_ｉ（１≦ｉ≦Ｍ）を持つ（Ｍ×Ｒ）の左特異行列、Ｖは行ベクトルｖ_ｊ（１≦ｊ≦Ｍ）を持つ（Ｎ×Ｒ）の右特異行列である。

は、もともとの単語文書行列ＡのランクＲの最良近似である。これは、Ａの主要な構造を維持し、上位情報を無視する。^Ｔは行列転置である。

式（１）において、ＵおよびＶの列ベクトルは、次元Ｒの空間について正規直交基底を別々に規定する。したがって、Ａ中の単語ベクトルは行列Ｖの列ベクトルの正規直交基底上に投影される一方、Ａ中の文書ベクトルは行列Ｕの列ベクトルの正規直交基底上に投影される。この事実に基づいて、単語文書行列中の各単語は行列ＵＳの行ベクトルとして表現することができ、各文書は行列ＶＳの行ベクトルとして表現することができる。つまり、ＬＳＡ空間において、単語ｗ_ｉはＲ次元ベクトルｕ_ｉＳとして表現することができ、文書ｄ_ｊはＲ次元ベクトルｖ_ｊＳとして表現することができる。行列ＵＳの行ベクトルの次元はＲであって、これは、語彙Ｍのもともとのサイズよりはるかに小さい。一方、ＶＳの行ベクトルの次元もまたＲであって、これはもともとの文書数Ｎよりはるかに小さい。

ＬＳＡ空間中のベクトルとして単語を表現するので、LＳＡ空間におけるそれらの特徴ベクトルの間の角度のコサイン、つまり

として２単語間の類似度を計算することができる。同じ方法で、２文書間の類似度を次のように計算することができる：

すなわち行列Ａの追加の列ベクトルとして表現される新規文書があると仮定する。

この新規文書もまた、ＬＳＡ空間中の特徴ベクトル：

に変換することができる。

ＬＳＡ空間では、単語と文書の間の意味論的なアソシエーション（association）についても、次のように２つのベクトルの角度のコサインによって計算することができる：

上記は、ＢｏＷＬＳＡ特徴空間が単語間、文書間、あるいは単語と文書の間の関係を分析するための非常に強力なツールであることを示している。

上記の既知の方法は、音声処理においても用いられてきた。統計的音声認識タスクは、観測された音声フレームＸから、最大事後確率を持つ単語列すなわち

をベイズ判定ルールすなわち、

により見つけることである。

ＬＭには、単語列Ｗの事前確率を提供するという役割がある。従来の統計的音声認識装置は、ｎ−ｇｒａｍＬＭを用いる。これは、各単語が単語列中の前のｎ−１単語に左右されること、つまり

であることを仮定している。

統計的言語モデルに対し、さらに意味論的な知識を組み込む意味論的言語モデルの試みもなされてきた。上記のように、ＬＳＡは意味論的言語モデルにおいて用いることができる。

ｎ−ｇｒａｍ履歴、および意味論的な情報を含んだ文書ｄが与えられたとすると、現在の単語の確率は次のように表現することができる：

一方、

である。したがって、式８は次のように書き直すことができる：

式１０において、ｐ（ｗ_ｉ｜ｄ）の計算は、式５に示されるＬＳＡ特徴空間における単語ｗ_ｉと文書ｄの特徴ベクトル間の近似(closeness)に基づく。２つのベクトルの間の距離を確率に写像するためには、なんらかの方法を採用する必要がある。考えられる方法としては、J.R. Bellegarda "Exploiting Latent Semantic Information in Statistical language modelling" Proc. IEEE, vol. 88 no. 8, pp. 1279-1296, 2000に説明されている。

図２は、本発明の実施形態によるインデクシング方法を示すフローチャートである。

まず、ステップＳ１０１では、本方法を用いてインデクシングがなされるデータファイルを収集する。例えば、本システムが文書検索に用いられる場合、検索される文書は本方法によってインデクシングがなされる。

次に、ステップＳ１０３では単語対を得る。得られた単語対は記憶される。上記の例において、２つのシンプルなテキスト文書を得る。

文書１「I WANT TO BUY TEN PIECES OF SUSHI AND TAKE THEM HOME」
文書２「IT INCLUDES SUSHI SOUP AND FRUIT」
これらの２つのテキスト文書に基づいて、次の単語対は識別することができる。

[1 "BUY_NULL", 2 "BUY_FRUITS",3 "BUY_HOME",4 "BUY_I",5 "BUY_INCLUDES",6 "BUY_PIECES",7 "BUY_SOUP",8 "BUY_SUSHI",9 "BUY_TAKE", 10 "BUY_TEN", 11 "BUY_THEM",12 "BUY_WANT",13 "FRUITS_NULL",14 "FRUITS_HOME",15 "FRUITS_I",16 "FRUITS_INCLUDES",17 "FRUITS_PIECES",18 "FRUITS_SOUP",19 "FRUITS_SUSHI",20 "FRUITS_TAKE",21 "FRUITS_TEN",22 "FRUITS_THEM",23 "FRUITS_WANT",24 "HOME_NULL",25 "HOME_I",26 "HOME_INCLUDES",27 "HOME_PIECES",28 "HOME_SOUP",29 "HOME_SUSHI",30 "HOME_TAKE",31 "HOME_TEN",32 "HOME_THEM",33 "HOME_WANT",34 "INCLUDES_NULL",35 "INCLUDES_PIECES",36 "INCLUDES_SOUP",37 "INCLUDES_SUSHI",38 "INCLUDES_TAKE",39 "INCLUDES_TEN",40 "INCLUDES_THEM",41 "INCLUDES_WANT",42 "I_NULL",43 "I_INCLUDES",44 "I_PIECES",45 "I_SOUP",46 "I_SUSHI",47 "I_TAKE",48 "I_TEN",49 "I_THEM",50 "I_WANT",51 "PIECES_NULL",52 "PIECES_SOUP",53 "PIECES_SUSHI",54 "PIECES_TAKE",55 "PIECES_TEN",56 "PIECES_THEM",57 "PIECES_WANT",58 "SOUP_NULL",59 "SOUP_SUSHI",60 "SOUP_TAKE",61 "SOUP_TEN",62 "SOUP_THEM",63 "SOUP_WANT",64 "SUSHI_NULL",65 "SUSHI_TAKE",66 "SUSHI_TEN",67 "SUSHI_THEM",68 "SUSHI_WANT",69 "TAKE_NULL",70 "TAKE_TEN",71 "TAKE_THEM",72 "TAKE_WANT",73 "TEN_ NULL ",74 "TEN_THEM",75 "TEN_WANT",76 "THEM_THEM",77 "THEM_WANT",78 "WANT_NULL"]
上記には７８の異なる単語対がある。したがって、各文書は７８エントリのベクトルによって表わすことができる：
[1,0,1,1,0,1,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,1,1,0,1,0,1,1,1,1,1,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,1,0,1,1,1,1,1,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
[0,0,0,0,0,0,0,0,0,0,0,0,1,0, ,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 1,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0, 0,0,0,0,1,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
原則として、全文書中について起こり得る単語対が単語対辞書内にすべて集められ、単語対の数に相当する成分を持つベクトルが計算され得る。しかしながら、起こり得る単語対の数は大きすぎることから、単語対の数を削る(prune)ことが望ましい。単語対の数を減らすために、選択された単語対を共に強く関連させるものとする。２単語間のアソシエーション（例えば次のように表現することができる平均相互情報量（ＡＭＩ））を計算するいくつかの広く用いられている方法がある：

ここで、

は、文書においてｗ_ｊは出現しないがｗ_ｉが出現する確率を意味する。

２単語間のアソシエーションもまたＢｏＷ法に基づいたＬＳＡを用いて計算することができる。セクション６ａで説明されるように、ＢｏＷに基づくＬＳＡ特徴空間において、２つの単語の特徴ベクトルが近い場合、これらの２つの単語が同じ文書中に頻繁に出現することを意味する。したがって、式２は２つの単語のアソシエーションを測定するのに用いることができる。

一方、｛「ａ」，「ｔｈｅ」｝のように、一般的な用語間には、意味論的な情報はあまり含まれない。したがって、一般語を含んだ単語対は選択されるべきでない。単語の汎化度合は、文献出現頻度の逆数（ＩＤＦ：inverse document frequency）値を用いて測定することができる。

上記の議論に基づき、文書ｄが与えられると、これに対応する単語対が次のように選択される。

ここで、アソシエーション（ｗ_１，ｗ_２）は２つの単語のアソシエーションのある種の測定であって、ＡＭＩ、すなわちＢｏＷ特徴空間あるいは他の測定における２つの単語の特徴ベクトルの距離であってもよい。αとβは経験的なしきい値である。

上記２つの短い文書の例：
・"I WANT TO BUY TEN PIECES OF SUSHI AND TAKE THEM HOME"
・"IT INCLUDES SUSHI SOUP AND FRUIT"
では、単語対プルーニング(pruning)の前に、ＢｏＷＰの辞書には７８のエントリーが存在する。プルーニングの後は、次の通り、辞書にはわずか１６のエントリーしか含まれない：
[1 "BUY_NULL",2 "BUY_INCLUDES",3 "BUY_PIECES",4 "FRUITS_NULL",5 "FRUITS_PIECES",6 "FRUITS_SOUP",7 "FRUITS_SUSHI",8 "INCLUDES_NULL",9 "INCLUDES_PIECES",10 "INCLUDES_SUSHI",11 "PIECES_NULL", 12 "PIECES_SOUP",13 "PIECES_SUSHI",14 "SOUP_NULL",15 "SOUP_SUSHI",16 "SUSHI_NULL"]
ステップＳ１０５で除去された単語対を用いて、各文書は１６成分のベクトルによって表わされる：
[1,0,1,0,0,0,0,0,0,0,1,0,1,0,0,1]
[0,0,0,1,0,1,1,1,0,1,0,0,0,1,1,1]
その後、単語対と文書の共起行列がステップＳ１０９で構築される。この行列の各列は文書を表わし、該行列の各行は単語対に関連付けられる。単語対および文書の共起行列を以下に示す：

上記の共起行列において、セルａ（ｗ_ｉ，ｗ_ｊ，ｎ）は、単語対「ｗ_ｉ，ｗ_ｊ」が文書ｎで出現した正規化頻度を表わす。すなわち、

である。

ここで、ε（ｗ_ｉ，ｗ_ｊ）は「ｗ_ｉ，ｗ_ｊ」の正規化エントロピーである。すなわち、

である。

単語対および文書の共起行列

が与えられると、ＳＶＤ演算が実行されてＢｏＷＰのＬＳＡ特徴空間が生成される。つまり、

である。

式１０において、

は、Ｒ個の最大特異値についてＲ×Ｒの対角行列である。

は、それぞれ、左特異ベクトルおよび右特異ベクトルである。

ＢｏＷＰのＬＳＡ特徴空間において、行列

の各行ベクトルは、ＬＳＡ空間中の単語対すなわち、

を表す。

ここで、行（ｗ_ｉ，ｗ_ｊ）は、単語対文書共起行列中の単語対「ｗ_ｉｗ_ｊ」の行番号を表わす。

一方、各文書もやはり、行列

の列ベクトルとして表わされる。

従って、上記は、データファイル（上記の例における文書）が本発明の実施形態に従う方法を用いてどのようにインデクシングすることができるかを説明している。

上記ではデータファイルを文書としたが、データファイルは、画像データファイルであってもよく、マシンあるいは任意のモニタ装置からの遠隔測定データ、測定結果、記録、メーターの示度であってもよい。

したがって、上記の方法はインデックスがファイルベクトルによって提供されるデータベースにおいてファイルをインデクシングするのに用いることができる。

図３は本発明の実施形態に従うデータファイルの検索方法を示す。不必要な説明の反復を避けるために、同等の特徴には同等の参照数字を用いる。

ステップＳ１１１において、システムが検索クエリーを受信する。さまざまなタイプの検索クエリーの例について後に説明する。

まず、ステップＳ１１３においてクエリーを文書の形式に変換する場合について検討する。新規文書Ｄは、ＢｏＷＢＬＳＡにおける特徴ベクトルとして、

のように表すことができる。このクエリー（ここでは文書形式）は行列と比較することができる。例えば：

である。

その後、検索結果をステップＳ１１７において出力することができる。

ステップＳ１１５においては、上述したように、クエリーの形で入力された文書を単語対ベクトルと比較し、あるいは、単語対の形で入力された文書を行列中の文書と比較するのに上記を利用してもよい。

さらに、上記を利用して単語対を比較してもよい。単語対の比較は、クラスター化および多義性への応用がある。

ここで、ＢｏＷＰの２つの応用例を示す。

最初の例は情報検索ＩＲである。ＢｏＷＰを用いるＩＲのフレームワークを図４に示す。ステップＳ２０３において、まずは図２を参照して説明したように大量の文書を含んだ文書プール２０１を用いて単語対および文書共起行列が構築される。

次にステップＳ２０５では、この単語対および文書共起行列においてＳＶＤ演算が実行され、ＢｏＷＰに基づくＬＳＡ特徴空間２０７が生成される。この特徴空間では、文書プール中の各文書はＬＳＡ特徴ベクトルとして表わされる。

テキストクエリー２０９が与えられると、単語対辞書を用いてＢｏＷＰ特徴２１１が生成される。次に、このＢｏＷＰ特徴は新規文書ベクトルとしてＬＳＡ特徴空間２１３に投影される。次に、ＬＳＡ特徴空間２０７における文書の特徴ベクトルとクエリーの特徴ベクトル２１３の間の距離に基づいて、文書プール２０１中でクエリーのトピックと一致する文書が選択され、該選択された文書２１５が出力される。

第２の応用例は、自動音声認識（ＡＳＲ）あるいはテキスト音声合成システム（ＴＴＳ）のためのドメイン依存言語モデルである。ここで、ＢｏＷＰ法は、大きな一般的コーパスから専門トレーニングコーパスを自動的に選択するのに用いられる。

コーパス（例えば、ＡＳＲシステムをトレーニングするためにユーザーが読み込むテスト・コーパス）がクエリーとして用いられ、クエリーと同じ意味論的な情報を持つドメイン依存コーパスが一般コーパスから選択される。該ドメイン依存コーパスは、音声認識のためのＬＭをトレーニングするのに用いられる。

実験フレームワークを図５に示す。データ選択は、図４に示した情報検索の処理として見ることができる。インドメイン・クエリー３０１は、一般コーパス３０５からのドメイン依存文書３０３の選択を行なうために提供される。例えば、処理すべき音声のドメインすなわち主題が「観光旅行」である場合、大きな一般コーパスからのクエリーと同じドメイン情報を持つテキストコーパスを選択するためのクエリーＱとして、観光旅行に関係のあるインドメイントレーニングコーパスを用いることができる。

その後、言語モデル(Language model)３０７は、選択されたデータ３０３によってトレーニングされる。該ＬＭは標準言語モデルであって、そのようなモデルのトレーニングは当業者によく知られているため、ここでは説明しない。典型的には、式６〜１０を参照して説明したｎ−ｇｒａｍ言語モデル（ＬＭ）を用いる。

モデル３０７がトレーニングされると、該モデルは音声認識システム３０９において音響モデルと共に用いることができる。

このシステムをテストするために、ＢｏＷ法とＢｏＷＰ法をそれぞれ用いてデータ選択が行なわれる。異なる方法に基づいて選択されたドメイン依存コーパスを用いることにより、２単語に基づくｔｒｉｇｒａｍＬＭがトレーニングされる：
・Ｍ_ＢｏＷ。これは、ＢｏＷデータ選択に基づいたコーパスによってトレーニングされたＬＭである。

・Ｍ_ＢｏＷＰ。これは、ＢｏＷＰデータ選択に基づいたコーパスによってトレーニングされたＬＭである。

ＬＭの「良好度」を評価するにはいくつかの方法がある。音声認識の目的では、あるＬＭを用いて達成された認識誤り率は最も重要な基準である。認識率に加えて、ＬＭを評価するための最も一般的なメトリックはクロス・エントロピーすなわちパープレキシティ(perplexity)である。テスト集合ＷおよびＬＭｍが与えられると、Ｗとｍの間のクロス・エントロピーは、

のように規定される。ここで、Ｎはテスト集合の長さである。また、ｐ_ｍ（Ｗ）はＬＭｍによって計算されたテスト集合Ｗの確率である。テスト・データを情報源から発したテキストであると見なす場合、クロス・エントロピーは情報源から発したテキストの分布をＬＭがいかに良く推定しているかを示すものであることが分かる。テキストＷが与えられる場合、ＬＭｍのパープレキシティは、

のように規定される。この定義によれば、パープレキシティは低い方が好ましいことが分かる。

ＢｏＷとＢｏＷＰの性能を比較するために２つの評価を行った。最初の評価は、パープレキシティの比較である。Ｍ_ＢｏＷとＭ_ＢｏＷＰを用いてクエリーＱのパープレキシティを計算した。パープレキシティがより低いことは、選択されたコーパスがクエリーとよく一致することを意味する。結果を表１に示す。

表１は、ｂａｇ−ｏｆ−ｗｏｒｄｐａｉｒ法を用いて選択されたコーパスのサイズがｂａｇ−ｏｆ−ｗｏｒｄ法によって選択されたもののたった半分であることを示している。一方、ｂａｇ−ｏｆ−ｗｏｒｄｐａｉｒｓに基づく混合ＬＭのパープレキシティの結果は、ｂａｇ−ｏｆ−ｗｏｒｄ法に基づくものより優れている。この結果は、ｂａｇ−ｏｆ−ｗｏｒｄｐａｉｒｓ法がｂａｇ−ｏｆ−ｗｏｒｄｓ法より正確に意味論的な情報を捉えていることを意味する。

第２に、ＡＳＲを実験した。上述のＬＭを用いて音声認識を行った。その結果を表２に示す。

表２において、第１行は一般的なＬＭの結果である。ギガワードのコーパスと観光旅行の間にドメインのミスマッチがあることから、一般ＬＭは結果がきわめて悪い。第２および第３の行は、それぞれ、ＢｏＷデータ選択ＬＭおよびＢｏＷＰデータ選択ＬＭの結果である。これらの結果は、意味論的なデータ選択に基づいたＬＭは、認識率を著しく改善できることを示した。ＢｏＷ法に基づいたＬＭとＢｏＷＰ法に基づいたＬＭでは同様の結果となった。

しかし、ＢｏＷデータ選択によるＬＭとＢｏＷＰデータ選択によるＬＭとを補間することにより、ＢｏＷデータ選択のみのＬＭより優れた結果を得ることができる。このことは、ＢｏＷＰはＢｏＷ法を超えて何らかの複雑な意味論的な情報を捕らえていることを意味する。

ＢｏＷ法によって選択されたデータを用いてトレーニングされたＬＭは、P(w| h,Data_BoW)、すなわちｎ−ｇｒａｍ履歴ｈ、ＢｏＷに基づいて選択されたトレーニングデータ：Ｄａｔａ＿ＢｏＷの場合の単語ｗの条件付き確率として表現することができる。

ＢｏＷＰデータ選択を用いてトレーニングされたＬＭは、P(w| h,Data_BoWP)のように表現することができる。

これらの２つのＬＭは線形補間によって組み合わせることができる。つまり、新しいＬＭを生成できるのであって、これは、λ×P(w| h,Data_BoW) + (1-λ)×P(w| h,Data_BoWP)のように表すことができる。ここで、λは補間ウェイトである。この補間ウェイトは、精度を最大化するように選択され得る。

式１０に従ってｐ（ｗ_ｉ｜ｄ）の確率を得るために言語モデルをトレーニングする場合に、ＢｏＷ法またはＢｏＷＰ法をそのまま用いることも可能である。

以上では、ＡＳＲにおける言語モデルの使用について説明したが、ＴＴＳ、ＯＣＲシステム、手書き文字認識についても言語モデルを用い、同様の方法でトレーニングしてもよい。上記は、同時通訳システムに用いられてもよい。

上記説明は、データファイルが文書またはコーパスであり、特徴は単語である場合を念頭に置いた。しかし、図１〜図４を参照して説明した方法は、様々なタイプのデータファイル（例えば画像）に適用することができる。画像処理において、画像は、画像の一領域あるいは複数の領域を表すコードに対応するコードワードによって表わされ、これらのコードワードはコードブックを形成する。該コードワードを上記の例における単語として扱い、画像ファイルを文書として扱ってもよい。

Claims

各データファイルが複数の特徴を含む複数のデータファイルをコンピュータが検索する方法であって、
各特徴グループがｎ個（ｎは２以上の整数）の特徴を含む複数の特徴グループを決定すること；
各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現することであって、この場合において一の特徴グループを構成する前記ｎ個の特徴は互いに隣接するように位置付けられる必要がなく；
前記特徴グループをベクトルとして用いることにより検索クエリーを表現すること；および
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索すること、を含む方法。
前記検索クエリーがファイルベクトルとして表現される請求項１の方法。
前記比較は、前記検索クエリーの前記ファイルベクトルと前記データファイルの前記ファイルベクトルの間のセパレーションを決定することにより行なわれる請求項２の方法。
前記データファイルは文書、音声処理用コーパス、画像データファイルから選択される請求項１の方法。
前記特徴は、単語、句、画像中のコードワードのいずれかである請求項１乃至４のいずれかの方法。
各特徴グループが特徴対（ｎ＝２）である請求項１乃至５のいずれかの方法。
複数の特徴グループを決定することは、前記特徴グループにおける特徴間のアソシエーションに基づいて全特徴グループから特徴グループを削ることを含む請求項１乃至６のいずれかの方法。
複数の特徴グループを決定することは、文書中で頻繁に繰り返される特徴を含んだ特徴グループを削除することを含む請求項１乃至７のいずれかの方法。
前記ファイルベクトルは行列で構成され、前記行列は因数分解される請求項１乃至８のいずれかの方法。
特定の主題に関する音声の処理のためにコンピュータがトレーニングコーパスを選択する方法であって、
複数の一般トレーニングコーパスを提供すること；
前記特定の主題に関する少なくとも１つのデータファイルを入力すること；および
請求項１乃至８のいずれかの方法を用いて、前記複数の一般トレーニングコーパスから前記主題に関するコーパスを検索することを含み、検索クエリーは前記特定の主題に関するデータファイルであり、検索される前記複数のデータファイルは、前記複数の一般トレーニングコーパスである方法。
請求項１乃至１０の方法を実行するようにコンピュータを制御するためのプログラム。
各データファイルが複数の特徴を含む複数のデータファイルを検索するための装置であって、該装置は、
各特徴グループがｎ個（ｎは２以上の整数）の特徴を含む複数の特徴グループを決定し；
各データファイルを、該データファイル内の特徴グループの頻度を示すベクトルの成分を持ったファイルベクトルとして表現し、この場合において一の特徴グループを構成する前記ｎ個の特徴は互いに隣接するように位置付けられる必要がなく；
前記特徴グループをベクトルとして用いることにより検索クエリーを表現し；および
ベクトルとして表現された前記検索クエリーを前記ファイルベクトルと比較することにより、前記複数のデータファイルを検索するように構成されたプロセッサを具備する装置。