JP3689670B2

JP3689670B2 - パターン整合方法及び装置

Info

Publication number: JP3689670B2
Application number: JP2001534133A
Authority: JP
Inventors: フィリップ，ニールガーナー，; ジェイソン，ピーター，アンドリューチャールズワース，; 麻子樋口
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1999-10-28
Filing date: 2000-10-25
Publication date: 2005-08-31
Anticipated expiration: 2020-10-25
Also published as: US20070150275A1; EP1228452B1; US7295980B2; DE60036486D1; CN1329861C; JP2003513383A; DE60036486T2; WO2001031627A2; CN1409842A; EP1228452A2; US7212968B1; WO2001031627A3

Description

【０００１】
本発明は、音韻のシーケンスを整合させる装置及び方法に関する。ユーザが入力した問合せに応答して、関連する音声注釈を有するデータファイルのデータベースを探索するために本発明を用いることができる。入力される問合せは、音声であっても、あるいはキーボードから入力問合せでもよい。
【０００２】
情報のデータベースは公知であり、このようなデータベースでは、所望の情報を高速にかつ効率的に見つけてデータベースから取り込むにはどうすべきかが問題である。既存のデータベース探索ツールは、ユーザが、キーボードから入力されたキーワードを使用してデータベースを探索できるようにする。これは高速で効率的であるが、この種の探索は、ビデオデータベースやオーディオデータベースなど様々な種類のデータベースに適していない。
【０００３】
オーディオファイル及びビデオファイル内の音声内容の音声表記を用いてこのようなビデオデータベース及びオーディオデータベースに注釈付けし、その後の検索は、ユーザが入力した問合せの音声表記をデータベース内の音韻注釈データと比較することによって達成することが最近提案されている。音韻のシーケンスを整合させるために提案されたこの技術では、まず各特徴が音韻ストリングの重なり合う一定サイズの断片とみなされる、問合せ中の１組の特徴が定義され、次いで問合せと注釈の両方において各特徴の発生頻度が識別され、最後にこれらの発生頻度の余弦度を使用して問合せと注釈の間の類似性の程度が判定される。この種の音韻比較技術の１つの利点は、問合せの単語のシーケンスが注釈の単語のシーケンスに厳密には一致していない状況に対処できることである。しかし、特に、問合せと注釈が異なる速度で発声されたときや、問合せから一部の単語が削除され、注釈からは削除されないか、あるいは注釈から一部の単語が削除され、問合せからは削除されない場合にエラーが起こりやすいという問題がある。
【０００４】
本発明の目的は、データベースを探索するための他のシステムを提供することである。
【０００５】
一態様によれば、本発明は、特徴の第１及び第２のシーケンスを受信する手段と、第１のシーケンスの特徴を第２のシーケンスの特徴と整列させ、いくつかの整列させた特徴対を形成する手段と、整列させた各特徴対の各特徴を比較し、整列させた特徴対の間の類似性を表す比較スコアを生成する手段と、整列させた特徴対の比較スコアを組み合わせ、第１の特徴のシーケンスと第２の特徴のシーケンスとの間の類似性の程度を提供する手段とを備える特徴比較装置であって、比較手段が、整列させた各対について、整列させた対における第１のシーケンスの特徴を、１組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、第１のシーケンスの特徴と１組の特徴から得たそれぞれの特徴との間の類似性を表す対応する複数の中間比較スコアを提供する第１の比較手段と、整列させた各対について、整列させた対における第２のシーケンスの特徴を、１組の特徴から得た複数の特徴のそれぞれと比較し、第２のシーケンスの特徴と１組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを示す第２の比較手段と、複数の中間比較スコアを組み合わせることにより、整列させた対の比較スコアを算出する手段とを備えることを特徴とする特徴比較装置を提供する。このようなシステムは、認識システムが特徴を誤って認識することによる第１の特徴のシーケンスと第２の特徴のシーケンスの両方の変動を考慮するという利点を有する。
【０００６】
他の態様によれば、本発明は、データベース間の各エントリが、音声の特徴からなるシーケンスを含む情報エントリのデータベースを探索し、データベースが検索すべき情報を識別する装置であって、音声の特徴のシーケンスを含む入力問合せを受信する手段と、音声の特徴からなる問合せのシーケンスと音声の特徴からなるデータベースシーケンスの各特徴を比較し、１組の比較結果を与える手段と、比較結果を使用して、データベースから検索すべき情報を識別する手段とを備える装置において、比較手段が、複数の異なる比較動作モードを有し、該装置が、（ｉ）音声の特徴からなる問合せのシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスか、及び（ｉｉ）音声の特徴からなる現在のデータベースシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスかを判定するための、及び判定結果を出力するための手段と、現在のデータベースシーケンスについて、判定結果に応じて比較手段の動作モードを選択する手段とをさらに備えることを特徴とする装置を提供する。入力問合せと注釈が共に音声から生成されたと判定手段が判定したときに、比較手段が上述した装置として動作することが好ましい。
【０００７】
他の態様によれば、本発明は、各情報エントリが、音声注釈の特徴のシーケンスを含む関連する注釈を有する、複数の情報エントリを含むデータベースを検索し、データベースから検索すべき情報を識別する装置であって、
入力音声問合せの複数のオーディオ表現を受信する手段と、
入力問合せの各表現を、表現内の音声を表す、音声問合せの特徴からなるシーケンスに変換する手段と、
各表現の音声問合せの特徴を各注釈の音声注釈の特徴と比較し、１組の比較結果を与える手段と、
各表現の音声問合せの特徴を同じ注釈の音声注釈の特徴と比較することによって得られた比較結果を互いに組み合わせ、各注釈について、入力問合せと注釈との間の類似性の程度を示す手段と、
組合せ手段によって全ての注釈について示された類似性の程度を使用して、データベースから検索すべき情報を識別する手段とを備える装置を提供する。
【０００８】
他の態様によれば、本発明は、特徴比較装置であって、
各シーケンスが、入力問合せの表現を表す、問合せの特徴からなる第１及び第２のシーケンスを受信する手段と、
注釈の特徴のシーケンスを受信する手段と、
各表現の問合せの特徴を注釈の特徴と整列させ、各群が、各表現から得た問合せの特徴と注釈の特徴とを備える、いくつかの整列させた特徴群を形成する手段と、
整列させた各特徴群の各特徴を比較し、整列させた群の各特徴間の類似性を表す比較スコアを生成する手段と、
全ての整列させた特徴群の比較スコアを組み合わせ、入力問合せの表現と注釈との間の類似性の程度を示す手段とを備える装置において、
比較手段が、
整列させた各群について、整列させた群中の第１の問合せのシーケンスの特徴を、１組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、第１の問合せのシーケンスの特徴と１組の特徴から得たそれぞれの特徴との間の類似性を表す対応する複数の中間比較スコアを示す第１の特徴比較器と、
整列させた各群について、整列させた群中の第２の問合せのシーケンスの特徴を、１組の特徴から得た複数の特徴のそれぞれと比較し、第２の問合せのシーケンスの特徴と１組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを示す第２の特徴比較器と、
整列させた各群について、整列させた群中の注釈の特徴を、１組の特徴から得た複数の特徴のそれぞれと比較し、注釈の特徴と１組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを示す第３の特徴比較器と、
複数の中間比較スコアを組み合わせることにより、整列させた群の比較スコアを算出する手段とを備えることを特徴とする特徴比較装置を提供する。
【０００９】
次に、本発明の例示的な実施形態について、図１から図２８を参照して説明する。
【００１０】
本発明の実施形態は、専用ハードウェア回路を使用して実施することができるが、以下に説明する実施形態は、パーソナルコンピュータ、ワークステーション、複写機、ファックス機、パーソナルデジタルアシスタント（ＰＤＡ）などの処理ハードウェアに関連して実行される異なるコンピュータソフトウェア又はコードで実施される。
【００１１】
（データファイル注釈）
図１には、ユーザが、データベース２９に格納されるデータファイル９１に注釈付けするためにキーボード３及びマイクロフォン７を介してキーボードからの注釈データ又は音声注釈データを入力できるようにするユーザ端末５９の形態が示されている。この実施形態では、データファイル９１は、たとえばカメラによって生成された二次元画像を含んでいる。ユーザ端末５９は、ユーザ３９が、後でデータベース２９から２Ｄ画像を検索するときに使用できる適切な注釈を２Ｄ画像に付与できるようにする。この実施形態では、キーボードからの入力は、キーボードからの入力が音声表記ユニット７５によって音韻（又は音韻状）ラティス注釈データ及び単語ラティス注釈データに変換され、このデータが制御ユニット５５に渡される。図２には、キーボードからの入力「タージマハルの写真」について生成された音韻ラティス注釈データ及び単語ラティス注釈データの形態が示されている。図２に示されているように、音韻ラティス及び単語ラティスは、単一の入口点及び単一の出口点を有する非循環有向グラフである。このグラフはユーザの入力の様々な解析を表す。図示のように、音声表記ユニット７５は、内部音声ディクショナリ（図示せず）から、キーボードからの入力に対応するいくつかの異なる可能な音韻ストリングを識別する。
【００１２】
同様に、音声入力は、自動音声認識ユニット５１によって音韻（又は音韻状）ラティス注釈データ及び単語ラティス注釈データに変換され、このデータがやはり制御ユニット５５に渡される。自動音声認識ユニット５１は、（ｉ）入力された発声の音韻ラティスを生成し、（ｉｉ）次いで音韻ラティス内の単語を識別し、（ｉｉｉ）最後にこの２つを組み合わせることによって、この音韻ラティス注釈データ及び単語ラティス注釈データを生成する。図３には、入力された発声「タジマハールの写真」について生成された音韻ラティス注釈データ及び単語ラティス注釈データの形態が示されている。図示のように、自動音声認識ユニットは、この入力された発声に対応するいくつかの異なる可能な音韻ストリングを識別する。音声認識技術分野で公知のように、これらの異なる可能性は、音声認識ユニット５１によって生成され、音声認識ユニットの出力の信頼性を示す独自の重み付けを有することができる。しかし、この実施形態では、各音韻のこの重み付けは行われない。図３に示されているように、自動音声認識ユニット５１が識別する音韻ラティス内の単語は、音韻ラティスデータ構造に組み込まれる。上記で与えた句の例に関して示したように、自動音声認識ユニット５１は単語「写真（ｐｉｃｔｕｒｅ）」、「〜の（ｏｆ）」、「ｏｆｆ」、「ｔｈｅ」、「ｏｔｈｅｒ」、「ｔａ」、「ｔａｒ」、「ｊａｍ」、「ａｈ」、「ｈａｌ」、「ｈａ」、及び「ａｌ」を識別する。
【００１３】
図３に示されているように、自動音声認識ユニット５１によって生成される音韻ラティス及び単語ラティスは、単一の入口点及び単一の出口点を有する非循環有向グラフである。このグラフは、ユーザが入力した注釈の発声の様々な解析を表す。このグラフは、いくつかの単語とそれに代わる単語との単なるシーケンスではない。というのは、各単語を単一の他の単語で置き換える必要がなく、１つの単語を２つ以上の単語又は音韻で置き換えることができ、構造全体が１つ又は複数の単語又は音韻に代わるものを形成することができるからである。したがって、音韻ラティス注釈データ及び単語ラティス注釈データ内のデータの密度は、オーディオ注釈入力に関するＮ最良単語リストを生成するシステムの場合と同様に指数関数的に成長するのではなく、基本的に注釈データ全体にわたって線形のままである。
【００１４】
この実施形態では、自動音声認識ユニット５１又は音声表記ユニット７５によって生成される注釈データは以下の一般的な形式を有する。
【００１５】
ヘッダ
−単語であるか、音韻であるか、混合されたものであるかを示すフラグ
−メモリ内の注釈データの各ブロックの位置を所与の時点に関連付ける時間インデックス
−使用される単語セット（すなわち、ディクショナリ）
−使用される音韻セット
−語彙が属する言語
−音韻確率データ
ブロック（ｉ）ｉ＝０、１、２、．．．
ノードＮj ｊ＝０、１、２、．．．
−ノードの、ブロックの開始位置からの時間のずれ
−音韻リンク（ｋ）ｋ＝０、１、２、．．．
ノードＮjに対するずれ＝Ｎk−Ｎj（Ｎkは、リンクＫが連結されているノード）
リンク（ｋ）に関連する音韻
−単語リンク（ｌ）ｌ＝０、１、２、．．．
ノードＮjに対するずれ＝Ｎi−Ｎj（Ｎjは、リンクｌが連結されているノード）
リンク（ｌ）に関連する単語
データベース内の全てのデータファイルが、上述の音韻ラティス注釈データと単語ラティス注釈データの組合せを含むとは限らず、この場合、異なる探索方式を使用してこの注釈データが探索されるので、注釈データが単語注釈データであるか、それとも音韻注釈データであるか、それともそれらが混合されたものであるかを識別するフラグが与えられる。
【００１６】
この実施形態では、注釈データは、探索が所与の探索に関する注釈データの中央にジャンプできるようにノードのブロックに分割される。したがって、ヘッダは、メモリ内の注釈データの各ブロックの位置を開始時間からこのブロックの開始位置に対応する時間までの時間のずれに関連付ける時間インデックスを含む。
【００１７】
ヘッダは、使用される単語セット（すなわち、ディクショナリ）を定義するデータ、使用される音韻及びそれらの確率、ならびに語彙が属する言語も含む。ヘッダは、注釈データと、注釈データの生成時に使用された注釈データの適切な設定とを生成するのに用いられる自動音声認識システムの詳細を含むこともできる。
【００１８】
注釈データの各ブロックの後に、ブロック内の各ノードについて、ヘッダ及びＩＤ、ノードの、ブロックの開始位置からの時間のずれ、このノードを音韻によって他のノードに連結する音韻リンク、ならびにこのノードを単語によって他のノードに連結する単語リンクが位置する。各音韻リンク及び単語リンクは、このリンクに関連する音韻又は単語を識別する。これらのリンクは、現在のノードに対するずれを識別する。たとえば、ノードＮ５０が音韻リンクによってノードＮ５５にリンクされている場合、ノードＮ５０のずれは５である。当業者なら理解できるように、このようなずれ表示を使用することによって、連続的な注釈データを別々のブロックに分割することができる。
【００１９】
自動音声認識ユニットがその出力の信頼性を示す重みを出力する一実施形態では、このような重み、すなわち信頼性スコアもデータ構造内に含められる。具体的には、ノードに到着する信頼性を示す信頼性スコアが各ノードごとに与えられ、音韻リンク及び単語リンクのそれぞれが、対応する音韻又は単語に与えられる重みに応じた遷移スコアを含む。この場合、このような重みを使用して、信頼性スコアの低い一致を破棄することによってデータファイルの探索及び検索が制御される。
【００２０】
制御ユニット５５は、ユーザの入力に応じて、データベース２９から適切な２Ｄファイルを検索し、生成された音韻注釈データ及び単語注釈データをデータファイル９１に付加する。次いで、増やされたデータファイルはデータベース２９に戻される。この注釈ステップ中に、制御ユニット５５はディスプレイ５７上に２Ｄ画像を表示するように動作することができ、したがって、ユーザは、注釈データに正しいデータファイル９１を確実に関連付けることができる。
【００２１】
以下に詳しく説明するように、このような音韻ラティス注釈データ及び単語ラティス注釈データを使用すると、データベース２９を高速にかつ効率的に探索し、データベース２９に格納されている所望の２Ｄ画像データファイルを識別し検索することができる。これは、まず単語データを使用してデータベース２９を探索し、この探索において必要なデータファイルが得られなかった場合に、よりロバストな音韻データを使用してさらに探索を実行することによって行うことができる。音声認識業界の当業者には認識されるように、音韻がディクショナリに依存し、かつ音韻によってシステムは名称、場所、外国語などの単語に語彙から対処できるようになるので、音韻データを使用することはよりロバストである。音韻データを使用することによって、システムを将来も問題なく使用することが可能になる。これは、最初の注釈が音声によって入力され、最初の自動音声認識システムが入力された注釈の単語を理解できなかったときに、データベース２９に格納されているデータファイルを検索することができるからである。
【００２２】
（データファイル検索）
図４は、この実施形態で、注釈付けされた２Ｄ画像をデータベース２９から検索するのに用いられるユーザ端末５９の形態を示すブロック図である。このユーザ端末５９はたとえば、パーソナルコンピュータ、ハンドヘルド装置などでよい。図示のように、この実施形態では、ユーザ端末５９は、注釈付けされた２Ｄ画像のデータベース２９、自動音声認識ユニット５１、音声表記ユニット７５、キーボード３、マイクロフォン７、探索エンジン５３、制御ユニット５５、及びディスプレイ５７を備える。動作時に、ユーザは、マイクロフォン７を介して音声問合せを入力するか、あるいはキーボード３を介して問合せを入力し、この問合せが自動音声認識ユニット５１又は音声表記ユニット７５によって処理され、対応する音韻データ及び単語データが生成される。このデータは音韻ラティス及び単語ラティスの形をとることもできるが、このことは必須ではない。この音韻データ及び単語データは次いで、制御ユニット５５に入力され、制御ユニット５５は、探索エンジン５３を使用してデータベース２９の適切な探索を開始することができる。次いで、探索エンジン５３によって生成された探索の結果が制御ユニット５５に送り返され、制御ユニット５５は探索結果を分析し、適切な表示データ（たとえば、検索された２Ｄ画像）を生成し、ディスプレイ５７を介してユーザに表示する。
【００２３】
図５ａ及び図５ｂは、この実施形態でユーザ端末５９がどのように動作するかを示す流れ図である。ステップｓ１で、ユーザ端末５９はアイドル状態であり、ユーザ３９からの問合せの入力を待っている。入力問合せが受信されると、ステップｓ３で、自動音声認識ユニット５１又は音声表記ユニット７５により、入力問合せの音韻データ及び単語データが生成される。次いで、ステップｓ５で、制御ユニット５５が探索エンジン５３に、入力問合せから生成された単語データを使用してデータベース２９の探索を実行するよう命令する。この実施形態で使用される単語探索は、現在当技術分野において、入力された単語の探索に使用されている探索と同じであり、ここではこれ以上詳しくは説明しない。ステップｓ７で、制御ユニット５５は、ユーザが入力した問合せに対する一致が見つかったことを探索結果から確認した場合、その探索結果をディスプレイ５７を介してユーザに出力する。
【００２４】
この実施形態では、ユーザ端末５９は次いで、ユーザに探索結果を検討させ、結果が、ユーザが要求した情報に対応する結果であるかどうかに関するユーザの確認を待つ。対応する結果である場合、処理はステップｓ１１から処理の終わりに進み、ユーザ端末５９はアイドル状態に戻り、次の問合せの入力を待つ。しかし、探索結果が所望の情報に対応していないことを（たとえば、適切な音声コマンドを入力することによって）ユーザが示した場合、処理はステップｓ１１からステップｓ１３に進み、探索エンジン５３がデータベース２９の音韻探索を実行する。しかし、この実施形態では、ステップｓ１３で実行される音韻探索はデータベース２９全体の探索ではない。というのは、全体を探索すると、データベースのサイズによっては数時間かかるからである。
【００２５】
一方、ステップｓ１３で実行される音韻探索では、ステップｓ５で実行された単語探索の結果を使用して、ユーザが入力した問合せに対応するデータベース内の１つ又は複数の部分が識別される。たとえば、問合せが３つの単語を含んでおり、単語探索で注釈内の問合せ単語のうちの１つ又は２つが識別されるに過ぎない場合、注釈の、識別された単語の周りの部分の音韻探索が実行される。この実施形態においてステップｓ１３で実行される音韻探索がどのように行われるかについては以下に詳しく説明する。
【００２６】
音韻探索が行われた後、制御ユニット５５はステップｓ１５で、一致が見つかったかどうかを確認する。一致が見つかった場合、処理はステップｓ１７に進み、制御ユニット５５は探索結果をディスプレイ５７上でユーザに対して表示させる。この場合も、システムは、探索結果が所望の情報に対応する結果であるかどうかに関するユーザの確認を待つ。結果が正しい場合、処理はステップｓ１９から処理の終わりに進み、ユーザ端末５９がアイドル状態に戻り、次の問合せの入力を待つ。しかし、探索結果が所望の情報に対応していないことをユーザが示した場合、処理はステップｓ１９からステップｓ２１に進む。ステップｓ２１で、制御ユニット５５は、音韻探索をデータベース２９全体に対して実行すべきかどうかをディスプレイ５７を介してユーザに尋ねるよう動作することができる。この問合せに応答して、ユーザがこのような探索を実行すべきであると示した場合、処理はステップｓ２３に進み、探索エンジンがデータベース２９全体の音韻探索を実行する。
【００２７】
この探索が完了すると、制御ユニット５５は、ユーザが入力した問合せに関する一致が見つかったかどうかをステップｓ２５で確認する。一致が見つかった場合、処理はステップｓ２７に進み、制御ユニット５５が探索結果をディスプレイ５７上でユーザに対して表示させる。探索結果が正しい場合、処理はステップｓ２９から処理の終わりに進み、ユーザ端末５９がアイドル状態に戻り、次の問合せの入力を待つ。一方、探索結果が依然として所望の情報に対応していないことをユーザが示した場合、処理はステップｓ３１に進み、制御ユニット５５が、ディスプレイ５７を介してユーザに、探索問合せを定義し直すかあるいは変更するかどうかを問い合わせる。ユーザが探索問合せを定義し直すかあるいは変更することを望んだ場合、処理はステップｓ３に進み、ユーザが次に入力した問合せが同様に処理される。探索を定義し直すことも変更することもない場合、探索結果及びユーザが最初に入力した問合せが破棄され、ユーザ端末５９がアイドル状態に戻り、次の問合せの入力を待つ。
【００２８】
上記で、この実施形態においてユーザ端末５９によって探索がどのように実行されるについて概略的に説明した。次に、探索エンジン５３が音韻探索をどのように実行するかについて詳しく説明すると共に、この探索方式を使用する主な理由について簡単に説明する。
【００２９】
（分類問題としての情報検索）
従来の分類方式では、試験データをｋ個のクラスのうちの１つに分類する必要がある。これは、クラスが既知である他のデータに関する知識を使用して行われる。この分類問題では、１からＫまでの値をとることのできる「クラス」ランダム変数があると仮定されている。この場合、試験データが属する可能性が最も高いクラスを識別することによって、最適な範疇が見つけられる。クラスｋのｎｋ個のデータを生成したＮ回の生成プロセスによって訓練データが生成されると仮定されている（Σｎk＝Ｎ：K=1〜Kまでの総和）。ベクトル（ｎ1，ｎ2，…，ｎk）をｎ、訓練データをＤ、試験データをｘで示した場合、従来の分類問題は、以下の確率を最大にするｋの値を求めることである。
【００３０】
【数５】

【００３１】
分母の第２の項は、より頻繁に発生するクラスにより大きな重みを与える、このクラスの事前確率である。情報検索において、各クラスは単一の訓練データ（すなわち、注釈データ）を有する。したがって、情報検索の場合、上記の数式の右辺の第２の項を無視することができる。同様に、Ｐ（ｘ｜Ｄ）が各クラスごとに同じであり、したがって分子を正規化しているに過ぎないので、分母も無視することができる。したがって、単に各クラスに関する上記の数式の分母上の第１の項のオーダをランク付けすることによって、クラスのオーダーをランク付けすることができる。言い換えれば、全てのクラスについてＰ（ｘ｜ｄk）（ｄkはクラスｋの訓練データである）を求めてランク付けすることによって、各クラスのオーダーをランク付けすることができる。
【００３２】
この実施形態では、試験データｘは、入力問合せを表し、クラスｋの訓練データ（すなわち、ｄk）はｋ番目の注釈を表し、図６ａに示されているように問合せと注釈の両方を生成した基本的な統計モデル（Ｍ）があると仮定される。一般には、このモデルは３つの未知数、すなわち、モデル構造ｍ、問合せと注釈の両方に関するこのモデルの状態シーケンスｓq及びｓa、出力分布Ｃを有する。この場合、出力分布は求めることができる。というのは、出力分布は、入力された音声から音韻ストリングを生成する音声認識システムの特性を具体化したものであるからである。後述のように、出力分布は、公知の音声の大きなデータベースを音声認識システムに適用することによって得ることができ、これを以下では異聴統計と呼ぶことにする。したがって、状態シーケンス及びモデルを上記の確率に導入する（かつ入力問合せ及び注釈に変数ｑを使用する）と、以下の数式が得られる。
【００３３】
【数６】

上式は、ベイズ法を使用して次式のように展開することができる。
【００３４】
【数７】

【００３５】
上記の数式は複雑に見えるが、標準ダイナミックプログラミングアルゴリズムを使用して１組の状態シーケンスｓq及びｓaを合計することができる。さらに、各モデルの尤度が同様であると仮定できるので分子と分母の両方の最後の項を無視することができ、各状態シーケンスの尤度も同様であると仮定できるので状態シーケンス項Ｐ（ｓ｜ｍ，ｃ）を無視することができる。さらに、この基本的なモデル構造が、挿入を受ける問合せと概ね同じ長さを有する標準音韻シーケンスであると仮定することによって、それぞれの異なるモデルの合計を除去することができる。ただし、一般にモデルの標準音韻シーケンスは未知であるので、それぞれの異なるモデルの合計は全ての可能な音韻の合計で置き換えられる。したがって、状態シーケンスの合計を無視した場合、ダイナミックプログラミングアルゴリズム内で評価すべき項は、分子の場合は次式のようになり、
【００３６】
【数８】

分母（すなわち、正規化項）の場合は次式のようになる。
【００３７】
【数９】

上式で、Ｎpはシステムに知られている音韻の総数であり、ａi、ｑj、及びｐrは、現在評価中のＤＰラティスポイントに対応する、それぞれ注釈音韻、問合せ音韻、及びモデル音韻である。数式（４）と（５）を比較するとわかるように、分母上で算出される確率項は分子上でも算出される。したがって、同じダイナミックプログラミングルーチン中に両方の項を累積することができる。より詳細に求められる確率を考慮した場合、Ｐ（ｑj｜ｐr，Ｃ）は、異聴統計が与えられた場合に標準音韻ｐrを問合せ音韻ｑjとして復号する確率であり、Ｐ（ａi｜ｐr，Ｃ）は、異聴統計が与えられた場合に標準音韻ｐrを注釈音韻ａiとして復号する確率であり、Ｐ（ｐr｜Ｃ）は、異聴統計が与えられた場合に無条件で生じる標準音韻ｐrの確率である。
【００３８】
上記の項だけでなく、ダイナミックプログラミング計算の各点で、モデルに対する問合せ又は注釈への挿入及び削除に対処する他の項を算出しなければならない。当業者なら理解できるように、問合せへの挿入又はそこからの削除は、注釈への挿入又はそこからの削除に依存せず、また注釈への挿入又は削除は、問合せへの挿入又は削除に依存しない。したがって、これらの追加の項は別々に対処される。モデルに対する注釈への挿入及び削除は、上記の数式（５）で与えられる正規化に関しても考慮しなければならない。
【００３９】
当業者には、図４及び図５の説明から、この実施形態では、注釈音韻データと問合せ音韻データの両方をテキスト又は音声から導くことができることが理解されよう。したがって、考慮すべき４つの状況がある。
【００４０】
ｉ）注釈と問合せが共にテキストから生成される。
【００４１】
ｉｉ）注釈がテキストから生成され、問合せが音声から生成される。
【００４２】
ｉｉｉ）注釈が音声から生成され、問合せがテキストから生成される。
【００４３】
ｉｖ）問合せと注釈が共に音声から生成される。
【００４４】
第１の状況は、注釈又は問合せの圧縮／展開が行われることはなく、注釈と問合せとの間の比較がそれぞれの音韻シーケンスの簡単なブール比較によって行われる簡単なケースである。
【００４５】
第２の状況では、注釈が正しいとみなされ、ダイナミックプログラミングによるアラインメントによって問合せに音韻を挿入し問合せから音韻を削除することが可能になり、２つの音韻間の最適なアラインメントポイントが求められる。このケースを例示するために、図６ｂには、注釈音韻がテキストから生成された音韻であるときの、注釈音韻シーケンス（ａ0，ａ1，ａ2，…で示されている）と問合せ音韻シーケンス（ｑ0，ｑ1，ｑ2，…で示されている）との間の可能な一致が示されている。点線の矢印で示されているように、注釈音韻ａ0は問合せ音韻ｑ0と整列させられ、注釈音韻ａ1は問合せ音韻ｑ2と整列させられ、注釈音韻ａ2は問合せ音韻ｑ3と整列させられ、注釈音韻ａ3は問合せ音韻ｑ3と整列させられ、注釈音韻ａ4は問合せ音韻ｑ4と整列させられる。これらのアラインメントのそれぞれについて、ダイナミックプログラミングルーチンは、上記の数式（４）及び数式（５）で与えられた項を算出する。しかし、この場合、標準モデル音韻シーケンスが既知である（これらのモデル音韻が注釈音韻があるため）のでこれらの数式は簡略化される。具体的には、注釈がモデルであり分子がＰ（ｑi｜ａj，Ｃ）に簡略化されるので正規化項は１である。ダイナミックプログラミングルーチンは、これらの復号項だけでなく、注釈に対して問合せに挿入される音韻（たとえば、問合せ音韻ｑ1）と、注釈に対して問合せから削除される音韻（２つの注釈音韻ａ2及びａ3と一致した問合せ音韻ｑ3で表されている）についての関連する挿入及び削除の確率も算出する。
【００４６】
上述の第３の状況は、問合せ音韻シーケンスが正しいとみなされ、ダイナミックプログラミングによるアラインメントによって問合せに対する音韻の注釈への挿入及びそこからの削除が可能になることを除いて、第２の状況に類似している。しかし、この状況では、問合せが既知であるので数式（１）から数式（５）を使用することはできない。したがって、この状況では、数式（１）を次式のように変形することができる。
【００４７】
【数１０】

【００４８】
上記の数式（１）の対応する項と同様に、分子及び分母上の第２の項は共に無視することができる。上記の数式（６）の分子の第１の項は、数式（１）の分子上の第１の項を展開したのと同様に展開することができる。しかし、この状況では、問合せがモデルとみなされるので、ダイナミックプログラミングルーチン中に算出される正規化項が１に簡略化され、分子がＰ（ａi｜ｑj，Ｃ）に簡略化される。上述の第２の状況のように、ダイナミックプログラミングルーチンは、問合せに対して注釈に挿入される音韻と、問合せに対して注釈から削除される音韻についての関連する挿入及び削除の確率も算出する。
【００４９】
最後に、第４の状況では、注釈と問合せが共に音声から生成されたものであるとき、どちらの音韻データシーケンスも、実際に発声されたもののテキストを表す未知の標準モデル音韻シーケンスに対する挿入及び削除を有することができる。このことは図６ｃに示されている。図６ｃには、注釈音韻シーケンス（ａi、ａi+1，ａi+2，…で示されている）と、問合せ音韻シーケンス（ｑj、ｑj+1，ｑj+2，…で示されている）と、問合せと注釈の両方によって実際に発声されたものの標準音韻シーケンスを表す音韻シーケンス（ｐn，ｐn+1，ｐn+2，…で示されている）との間の可能な一致点が示されている。図６ｃに示されているように、この場合、ダイナミックプログラミングによるアラインメント技術は、標準モデル音韻シーケンスに対する、注釈と問合せの両方への音韻の挿入（挿入された音韻ａi+3及びｑj+1で表されている）と、注釈と問合せの両方からの音韻の削除（共に標準音韻シーケンス中の２つの音韻と整列させられた音韻ａi+1及びｑj+2で表されている）とを可能にしなければならない。
【００５０】
当業者なら理解できるように、計算にモデル音韻シーケンスを導入することによって、アルゴリズムは、問合せの発音変動に対しても注釈の発音変動に対してもより柔軟に対処することができる。
【００５１】
上記で、本実施形態が、問合せ音韻シーケンスをデータベース内の注釈音韻シーケンスと整合させることによって情報検索を行う方法について概略的に説明した。本実施形態の動作をさらに理解するために、次に、標準ダイナミックプログラミングアルゴリズムについて簡単に説明し、その後で、この実施形態で使用される特定のアルゴリズムについて詳しく説明する。
【００５２】
（ＤＰ探索の概要）
当業者には知られているように、ダイナミックプログラミングは、特徴、この実施形態では音韻のシーケンス間の最適なアラインメントポイントを見つけるために使用することのできる技術である。ダイナミックプログラミングではそうするために、各パスが注釈音韻シーケンスと問合せ音韻シーケンスとの間の可能な一致点を表す複数のダイナミックプログラミングパスを同時に伝搬させる。全てのパスが、注釈及び問合せの開始位置にある開始ヌルノードから始まり、注釈及び問合せの終了位置にある終了ヌルノードに到達するまで伝搬する。図７及び図８は、整合が行われる状態と、このパス伝搬とを概略的に示している。特に、図７には、横軸が注釈を表し、縦軸が問合せを表す矩形の座標プロットが示されている。開始ヌルノードφsは左上隅に示され、終了ヌルノードφeは右下隅に示されている。図８に示されているように、注釈の音韻は横軸に沿って示され、問合せの音韻は縦軸に沿って示されている。図８には、各ポイントが注釈の音韻と問合せの音韻との間の可能なアラインメントポイントを表わす、いくつかのラティスポイントも示されている。たとえば、ラティスポイント２１は注釈音韻ａ3と問合せ音韻ｑ1との間の可能なアラインメントポイントを表わしている。図８には、注釈を表す音韻シーケンスと問合せを表す音韻シーケンスとの間の３つの可能な一致点を表し、開始ヌルノードφsから始まりラティスポイントを通って終了ヌルノードφeまで伝搬する、３つのダイナミックプログラミングパスｍ1，ｍ2，及びｍ3も示されている。再び上記の数式（２）及び（３）を参照するとわかるように、これらのダイナミックプログラミングパスは上述の互いに異なる状態シーケンスｓq及びｓaを表している。
【００５３】
図７に示されている横軸及び縦軸のそれぞれの異なる長さで表されているように、入力される問合せが注釈の全ての単語を含む必要はない。たとえば、注釈が「タジマハールの写真」である場合、ユーザは問合せ「タジマハール」を入力することによって、データベース２９でこの写真を簡単に探索することができる。この状況では、最適なアラインメントパスは、問合せと注釈が一致し始めるまで上部横軸に沿って進む。次いで、ラティスポイントを通って下部横軸に達し、終了ノードで終わる。このことは、図７でパス２３によって示されている。しかし、当業者なら理解できるように、問合せ中の各単語はそれらが注釈中に現われるのと同じ順序でなければならず、そうでない場合、ダイナミックプログラミングによるアラインメントは無効になる。
【００５４】
注釈音韻シーケンスと問合せ音韻シーケンスとの間の類似性を判定するために、ダイナミックプログラミングプロセスは、それが伝搬させる各ダイナミックプログラミングパスごとにスコアをつける。このスコアは、パスに沿って整列させられる音韻の全体的な類似性に依存する。整合させられているシーケンスからの音韻の削除及びそこへの挿入の数を制限するために、ダイナミックプログラミングプロセスは、ダイナミックプログラミングパスが伝搬する方法にある種の制約を課す。当業者なら理解できるように、このようなダイナミックプログラミング制約は上述の４つの状況に応じて異なる。
【００５５】
（ＤＰ制約）
注釈と問合せが共にテキストである場合
問合せ音韻データと注釈音韻データが共にテキストから生成されたものである場合、ダイナミックプログラミングによるアラインメントは２つの音韻シーケンス間のブール一致になり、音韻の削除も挿入も不可能である。
【００５６】
注釈がテキストであり、問合せが音声である場合
注釈音韻データがテキストから生成され、問合せ音韻データが音声から生成されたデータである場合、注釈からの音韻の削除もそこへの音韻の挿入も不可能であるが、注釈に対する問合せからの音韻の削除及びそこへの挿入は行うことができる。図９ａには、注釈がテキストから生成され、問合せが音声から生成された問合せであるときに、この実施形態で使用されるダイナミックプログラミング制約が示されている。図示されているように、注釈音韻ａiと問合せ音韻ｑjとの間のアラインメントを表すラティスポイント（ｉ，ｊ）でダイナミックプログラミングパスが終わる場合、このダイナミックプログラミングパスはラティスポイント（ｉ＋１，ｊ）、（ｉ＋１，ｊ＋１）、及び（ｉ＋１，ｊ＋２）まで伝搬することができる。ポイント（ｉ＋１，ｊ）までの伝搬は、キーボードから入力された注釈と比較して、音声の問合せからの音韻の削除が存在する場合を表している。ポイント（ｉ＋１，ｊ＋１）までの伝搬は、注釈中の次の音韻と問合せ中の次の音韻との間の簡単な復号が存在する状況を表している。ポイント（ｉ＋１，ｊ＋２）までの伝搬は、キーボードから入力された注釈と比較して、音声の問合せにおける音韻ｑj+1の挿入が存在し、注釈音韻ａi+1と問合せ音韻ｑj+2との間の復号が存在する状況を表している。
【００５７】
注釈が音声であり、問合せがテキストである場合
注釈が音声から生成され、問合せがテキストから生成された問合せである場合、注釈への音韻の挿入もそこからの音韻の削除も不可能であるが、問合せに対する注釈への音韻の挿入及びそこからの削除は行うことができる。図９ｂには、注釈が音声から生成され、問合せがテキストから生成された問合せであるときに、この実施形態で使用されるダイナミックプログラミング制約が示されている。図示のように、注釈音韻ａiと問合せ音韻ｑjとの間のアラインメントポイントを表すラティスポイント（ｉ，ｊ）でダイナミックプログラミングパスが終わる場合、このダイナミックプログラミングパスはラティスポイント（ｉ，ｊ＋１）、（ｉ＋１，ｊ＋１）、及び（ｉ＋２，ｊ＋１）まで伝搬することができる。ポイント（ｉ，ｊ＋１）までの伝搬は、キーボードから入力問合せと比較して、音声の注釈からの音韻の削除が存在する場合を表している。ポイント（ｉ＋１，ｊ＋１）までの伝搬は、注釈中の次の音韻と問合せ中の次の音韻との間の簡単な復号が存在する状況を表している。ポイント（ｉ＋２，ｊ＋１）までの伝搬は、キーボードから入力問合せと比較して、音声の注釈における音韻ａi+1の挿入が存在し、注釈音韻ａi+2と問合せ音韻ｑj+1との間の復号が存在する状況を表している。
【００５８】
注釈が音声であり、問合せが音声である場合
注釈と問合せが共に音声から生成されたものである場合、注釈と問合せのそれぞれから互いに音韻を挿入し削除することができる。図１１には、注釈音韻と問合せ音韻が共に音声から生成されたものであるときに、この実施形態で使用されるダイナミックプログラミング制約が示されている。具体的には、注釈音韻ａiと問合せ音韻ｑjとの間のアラインメントを表すラティスポイント（ｉ，ｊ）でダイナミックプログラミングパスが終わる場合、このダイナミックプログラミングパスはラティスポイント（ｉ＋１，ｊ）、（ｉ＋２，ｊ）、（ｉ＋３，ｊ）、（ｉ，ｊ＋１）、（ｉ＋１，ｊ＋１）、（ｉ＋２，ｊ＋１）、（ｉ，ｊ＋２）、（ｉ＋１，ｊ＋２）、及び（ｉ，ｊ＋３）まで伝搬することができる。したがって、これらの伝搬によって、実際に発声されたもののテキストに対応する未知の標準モデル音韻シーケンスに対して注釈と問合せの両方への音韻の挿入及びそこからの削除を行うことができる。
【００５９】
開始ＤＰ制約及び終了ＤＰ制約
この実施形態では、ダイナミックプログラミングによるアラインメント動作によって、ダイナミックプログラミングパスはどの注釈音韻からでも始まることができ、かつどの注釈音韻で終わることもできる。その結果、問合せは注釈の全ての単語を含む必要はない。ただし、問合せの各単語は、それらが注釈中に現われるのと同じ順序である必要がある。
【００６０】
（ＤＰスコア伝搬）
上述のように、ダイナミックプログラミングプロセスは、パスに沿って整列させた音韻同士の類似性に依存するスコアを各ダイナミックプログラミングパスごとに保つ。したがって、ダイナミックプログラミングプロセスは、ポイント（ｉ，ｊ）で終わるパスをこれらの他の点まで伝搬させる際に、それぞれの伝搬の「コスト」を、ポイント（ｉ，ｊ）で終わるパスの累積スコアに加える。このスコアは、このポイントに関連するストア（ＳＣＯＲＥ（ｉ，ｊ））に格納される。当業者なら理解できるように、このコストは、上述の挿入確率、削除確率、及び復号確率を含む。具体的には、挿入が存在するときは、累積スコアに、所与の音韻を挿入する確率が掛けられ、削除が存在するときは、累積スコアに、所与の音韻を削除する確率が掛けられ、復号が存在するときは、累積スコアに、所与の音韻を復号する確率が掛けられる。
【００６１】
これらの確率を算出できるように、システムは、音韻の全ての可能な組合せの可能性を記憶する。この実施形態では、注釈又は問合せからの音韻の削除は復号と同様に処理される。これは、単に削除を別の音韻として処理することによって行われる。したがって、４３個の音韻がシステムに既知である場合、システムは、それぞれの可能な音韻復号及び削除について１つずつ、１８９２個（＝４３×４４）の復号／削除確率を記憶する。このことは図１０に示されている。図１０には、音韻／ａｘ／について記憶され、１つの確率として削除音韻（φ）を含む可能な音韻復号が示されている。当業者なら理解できるように、所与の音韻に関する全ての復号確率の合計は１でなければならない。なぜなら、他の確率はないからである。システムは、これらの復号／削除確率だけでなく、それぞれの可能な音韻挿入について１つの、４３個の挿入確率を記憶する。後述のように、これらの確率は事前に訓練データから求められる。
【００６２】
次に、スコア伝搬を例示するために、いくつかの例を検討する。注釈がテキストであり、問合せが音声である場合、ポイント（ｉ，ｊ）からポイント（ｉ＋１，ｊ＋２）まで伝搬するパスについては、注釈に対して音韻ｑj+1が挿入され、注釈音韻ａi+1によって問合せ音韻ｑj+2が復号される。したがって、ポイント（ｉ＋１，ｊ＋２）まで伝搬されるスコアは次式によって与えられる。
【００６３】
Ｓ(i+1，j+2)＝Ｓ(i，j)・ＰＩ(ｑj+1｜Ｃ)・Ｐ(ｑj+2｜ａi+1，Ｃ) （７）
上式で、ＰＩ（ｑj+1｜Ｃ）は、音韻ｑj+1を音声の問合せに挿入する確率であり、Ｐ（ｑj+2｜ａi+1，Ｃ）は、注釈音韻ａi+1を問合せ音韻ｑj+2として復号する確率を表している。
【００６４】
注釈と問合せが共に音声から生成されたものである場合、ポイント（ｉ，ｊ）からポイント（ｉ＋２，ｊ＋１）まで伝搬するときは、問合せに対して注釈音韻ａi+1が挿入され、注釈音韻ａi+2と問合せ音韻ｑj+1との間の復号が行われる。したがって、ポイント（ｉ＋２，ｊ＋１）まで伝搬されるスコアは次式によって与えられる。
【００６５】
【数１１】

【００６６】
当業者なら理解できるように、このパス伝搬時には、いくつかのパスが同じラティスポイントで交わる。この実施形態では、交わるパスに関連するスコアが単に合計される。あるいは、スコア同士を比較することができ、最良のスコアを有するパスを継続し、それに対して他のパスは破棄される。しかし、このことはこの実施形態において必須ではない。というのは、ダイナミックプログラミングプロセスで重要なのは、問合せの音韻データと注釈の音韻データとの間の類似性を表すスコアを求めることだけであるからである。ダイナミックプログラミングプロセスにおいて、２つの音韻間の最適なアラインメントポイントを見つけることは重要ではない。
【００６７】
問合せと注釈が共に音声から生成されたものである場合、全てのパスが終了ノードφeまで伝搬していき、かつ問合せと現在の注釈との間の類似性の総スコアが求められた後、システムは、ＤＰプロセス中に累積された正規化項を使用してこのスコアを正規化する。次いで、システムは問合せと次の注釈を同様に比較する。問合せが全ての注釈と一致した後、各注釈のスコアがランク付けされ、このランク付けに基づいて、システムは、入力問合せに最も近い注釈をユーザに出力する。
【００６８】
（ＤＰ探索の詳細な説明）
次に、問合せ音韻シーケンスを注釈音韻シーケンスと整合させる際にダイナミックプログミング検索をどのように行うかについて詳しく説明する。図１２を参照するとわかるように、ステップｓ１０１で、システムはダイナミックプログラミングスコアを初期化する。次いでステップｓ１０３で、システムはヌル開始ノード（φs）から全ての始点まで伝搬する。次いでステップｓ１０５で、システムは、上述のダイナミックプログラミング制約を使用して各ダイナミックプログラミングパスを全ての始点から全ての可能な終点まで伝搬させる。最後にステップｓ１０７で、システムは、終点で終わるパスをヌル終了ノード（φe）まで伝搬させる。
【００６９】
図１３には、各ダイナミックプログラミングパスをヌル開始ノード（φs）から、ダイナミックプログラミング制約によって定義される全ての可能な開始点まで伝搬させる際にステップｓ１０３で使用される処理ステップが詳しく示されている。一方の制約は、ダイナミックプログラミングパスが、あらゆる注釈音韻から始まることができるということであり、他方の制約は、問合せ音韻シーケンスにおける許容ホップ数を定義するものであり、問合せがテキストであるかそれとも音声であるかに依存する。具体的には、問合せがテキストから生成された問合せである場合、開始点は、探索空間内のラティスポイントの第１行、すなわち、ｉ＝０からＮａｎｎ−１までのポイント（ｉ，０）を含み、問合せが音声から生成された問合せである場合、開始点は、探索空間内のラティスポイントの最初の４行、すなわち、ｉ＝０からＮａｎｎ−１までのポイント（ｉ，０）、（ｉ，１）、（ｉ，２）、及び（ｉ，３）を含む。
【００７０】
次に、これを行う方法について、図１３に示されている各ステップを参照して説明する。図示されているように、ステップｓ１１１で、システムは、入力問合せがテキスト問合せであるかどうかを判定する。そうである場合、処理はステップｓ１１３に進み、システムは、変数ｍｘの値を、問合せがテキストであるときの問合せ音韻シーケンスにおける最大許容「ホップ」数を定義する１に設定する。次いで、処理はステップｓ１１５、ｓ１１７、及びｓ１１９に進む。これらのステップは、ｉ＝０からＮａｎｎ−１までについて、ヌル開始ノードからラティスポイント（ｉ，０）に至る遷移スコアを、ポイント（ｉ，０）に関連するスコア（ＳＣＯＲＥ（ｉ，０））に加えることによって、探索空間の第１行中の各ラティスポイントからダイナミックプログラミングパスを開始するように動作することができる。問合せがテキストであるときは、図１２に示されているステップｓ１０３での処理が終了し、次いで処理はステップｓ１０５に進む。
【００７１】
システムは、問合せがテキストではなく、したがって音声入力から生成されたものであるとステップｓ１１１で判定した場合、ステップｓ１２１に進む。ステップｓ１２１で、ｍｘは、ｍｘｈｏｐｓ、すなわち、ダイナミックプログラミング制約による最大許容「ホップ」数よりも１だけ大きな値を有する定数に設定される。図９及び図１０に示されているように、問合せが音声である場合、パスは、問合せ音韻シーケンスに沿って最高で音韻３つ分だけ離れた位置にある問合せ音韻までジャンプすることができる。したがって、この実施形態では、ｍｘｈｏｐｓの値は４であり、問合せ中に音韻が４つ以上ある場合、変数ｍｘは４に等しい値に設定され、そうでない場合、ｍｘは問合せ中の音韻の数に等しい値に設定される。次いで、処理はステップｓ１２３、ｓ１２５、ｓ１２７、ｓ１２９、及びｓ１３１に進む。これらのステップは、対応するラティスポイントに関連するスコアに対応する遷移確率を加えることによって探索空間の最初の４行中の各ラティスポイントからダイナミックプログラミングパスを開始するよう動作することができる。問合せが音声入力から生成された問合せであるときには、図１２に示されているステップｓ１０３の処理が終了し、次いで処理はステップｓ１０５に進む。
【００７２】
この実施形態では、システムは、ラスタのような技術で探索空間内のラティスポイントを１列ずつ処理することによって、ステップｓ１０５で、各ダイナミックプログラミングパスを開始点から終点まで伝搬させる。このラスタ処理動作を制御するのに用いられる制御アルゴリズムを図１４に示す。ステップｓ１５１で、システムは注釈音韻ループポインタｉを注釈中の音韻の数（Ｎａｎｎ）と比較する。最初は、注釈音韻ループポインタｉはゼロに設定され、したがって、処理は最初にステップｓ１５３に進み、問合せ中の音韻の総数（Ｎｑｕｅｒｙ）に対する問合せ音韻ループポインタｊについての同様な比較が行われる。最初は、ループポインタｊもゼロに設定され、したがって、処理はステップｓ１５５に進み、システムは、上述のダイナミックプログラミング制約を使用して、点（ｉ，ｊ）で終了するパスを伝搬させる。ステップｓ１５５でシステムが各パスを伝搬させる方法について以下に詳しく説明する。ステップｓ１５５の後、ステップｓ１５７でループポインタｊが１だけ増分され、処理はステップｓ１５３に戻る。問合せ中の全ての音韻が処理され（それによってラティスポイントの現在の列が処理され）た後、処理はステップｓ１５９に進み、問合せ音韻ループポインタｊがゼロにリセットされ、注釈音韻ループポインタｉが１だけ増分される。次いで、処理はステップｓ１５１に戻り、ラティスポイントの次の列に対して同様な手順が実行される。ラティスポイントの最後の列が処理された後、処理はステップｓ１６１に進み、注釈音韻ループポインタｉがゼロにリセットされ、図１２に示されているステップｓ１０５の処理が終了する。
【００７３】
図１５には、各パスを終点から終了ヌルノードφeまで伝搬する際に、図１２に示されているステップｓ１０７で使用される各処理ステップがより詳しく示されている。開始ヌルノードφsからの伝搬に関して、「終点」であるラティスポイントは、問合せがテキストであるかそれとも音声であるかに依存するダイナミックプログラミング制約によって定義される。さらに、この実施形態では、ダイナミックプログラミング制約によって、ダイナミックプログラミングパスは、注釈音韻シーケンスに沿ったあらゆる点において注釈から出ることができる。したがって、問合せがテキストである場合、システムは、ラティスポイントの最後の行、すなわち、ｉ＝０からＮａｎｎ−１までの各ポイント（ｉ，Ｎｑｕｅｒｙ−１）で終わるダイナミックプログラミングパスを終了ヌルノードφeまで伝搬させる。しかし、問合せが音声から生成された問合せである場合、システムは、ラティスポイントの最後の４行、すなわち、ｉ＝０からＮａｎｎ−１までのポイント（ｉ，Ｎｑｕｅｒｙ−４）、（ｉ，Ｎｑｕｅｒｙ−３）、（ｉ，Ｎｑｕｅｒｙ−２）、及び（ｉ，Ｎｑｕｅｒｙ−１）まで伝搬する任意のパスを終了ヌルノードφeまで伝搬させる。
【００７４】
図１５に示されているように、このプロセスはステップｓ１７１から始まり、システムは、問合せがテキストであるかどうかを判定する。テキストである場合、処理はステップｓ１７３に進み、問合せ音韻ループポインタｊがＮｑｕｅｒｙ−１に設定される。次いで、処理はステップｓ１７５に進み、注釈音韻ループポインタｉが注釈中の音韻数（Ｎａｎｎ）と比較される。最初は、注釈音韻ループポインタｉがゼロに設定され、したがって、処理はステップｓ１７７に進み、システムはポイント（ｉ，Ｎｑｕｅｒｙ−１）からヌル終了ノードφeまでの遷移スコアを算出する。次いで、この遷移スコアは、ＳＣＯＲＥ（ｉ，Ｎｑｕｅｒｙ−１）に格納されている、ポイント（ｉ，Ｎｑｕｅｒｙ−１）で終わるパスの累積スコアと組み合わされる。上述のように、この実施形態では、遷移スコア及び累積スコアは確率に基づくものであり、確率同士を掛け合わせることによって組み合わされる。しかし、この実施形態では、足し算を実行する必要をなくすと共に、高い浮動小数点精度の使用を回避するために、システムは遷移スコア及び累積スコア用に対数確率を使用する。したがって、ステップｓ１７９で、システムは、ポイント（ｉ，Ｎｑｕｅｒｙ−１）で終わるパスの累積スコアを、ステップｓ１７７で算出された遷移スコアに足し、この結果が一時ストアＴＥＭＰＥＮＤＳＣＯＲＥにコピーされる。
【００７５】
上述のように、２つ以上のダイナミックプログラミングパスが同じ点で交わる場合、各パスの累積スコアが合計される。したがって、ログ確率が使用されるので、互いに交わるパスに関連するスコアが有効に確率に変換され、合計され、次いでログ確率に再変換される。この実施形態では、この動作を「対数足し算」動作と呼ぶ。これは公知の技術であり、たとえば、「Automatic Speech Recognition． The Development of the （Sphinx） System」、Lee，Kai-Fu著、Kluwer Academic Publishers発行、１９８９年、２８ページ〜２９ページ）と題する文献に記載されている。
【００７６】
ポイント（ｉ，Ｎｑｕｅｒｙ−１）からヌル終了ノードまで伝搬するパスが他のダイナミックプログラミングパスと交わるので、システムはＴＥＭＰＥＮＤＳＣＯＲＥと、終了ノードに格納されているスコア（ＥＮＤＳＣＯＲＥ）との対数足し算を実行し、結果がＥＮＤＳＣＯＲＥに格納される。次いで、処理はステップｓ１８３に進み、注釈音韻ループポインタｉが増分される。次いで、処理はステップｓ１７５に戻り、ラティスポイントの最後の行における次のラティスポイントに対して同様なプロセスが実行される。最後の行における全てのラティスポイントがこのように処理された後、図１２に示されているステップｓ１０７で実行される処理が終了する。
【００７７】
問合せはテキストではないとステップｓ１７１でシステムが判定した場合、処理はステップｓ１８５に進み、問合せ音韻ループポインタｊが、問合せ中の音韻の数からｍｘｈｏｐｓを引いた値、Ｎｑｕｅｒｙ−４に設定される。次いで、処理はステップｓ１８７に進み、システムは、注釈音韻ループポインタｉが注釈中の音韻の数（Ｎａｎｎ）よりも小さいかどうかを確認する。最初は、注釈音韻ループポインタｉはゼロに設定され、したがって、処理はステップｓ１８９に進み、システムは、問合せ音韻ループポインタｊが問合せ中の音韻の数（Ｎｑｕｅｒｙ）よりも小さいかどうかを確認する。最初は、問合せ音韻ループポインタｊは問合せ中の音韻の数よりも小さく、処理はステップｓ１９１に進み、システムはラティスポイント（ｉ，ｊ）からヌル終了ノードφeまでの遷移スコアを算出する。次いでステップｓ１９３で、この遷移スコアが、ポイント（ｉ，ｊ）で終わるパスの累積スコアに足され、結果が一時スコアＴＥＭＰＥＮＤＳＣＯＲＥにコピーされる。次いで、処理はステップｓ１９５に進み、システムがＴＥＭＰＥＮＤＳＣＯＲＥとＥＮＤＳＣＯＲＥの対数足し算を実行し、結果がＥＮＤＳＣＯＲＥに格納される。次いで、処理はステップｓ１９７に進み、問合せ音韻ループポインタｊが１だけ増分され、処理はステップｓ１８９に戻る。次いで、問合せ音韻ループポインタｊが増分され、したがって問合せ中の音韻の数（Ｎｑｕｅｒｙ）に等しくなるまで上記の各ステップが繰り返される。次いで、処理はステップｓ１９９に進み、問合せ音韻ループポインタｊがＮｑｕｅｒｙ−４にリセットされ、注釈音韻ループポインタｉが１だけ増分される。次いで、処理はステップｓ１８７に戻る。次いで、探索空間の最後の４行における全てのラティスポイントが処理されるまで上記の各処理ステップが繰り返され、その後、図１２に示されているステップｓ１０７の処理が終了する。
【００７８】
伝搬
図１４に示されているステップｓ１５５で、システムは、上述のダイナミックプログラミング制約を使用して、ラティスポイント（ｉ，ｊ）で終わるパスを伝搬する。図１６は、この伝搬ステップを実行する際に使用される各処理ステップを示すフローチャートである。図示されているように、ステップｓ２１１で、システムは２つの変数ｍｘｉ及びｍｘｊの値を設定し、注釈音韻ループポインタｉ２及び問合せ音韻ループポインタｊ２を初期化する。ループポインタｉ２及びｊ２は、ポイント（ｉ，ｊ）で終わるパスが伝搬することのできる全てのラティスポイントを処理するために設けられ、変数ｍｘｉ及びｍｘｊは、ｉ２及びｊ２が、ダイナミックプログラミング制約で許容される値しかとれなくするのに用いられる。具体的には、ｍｘｉは、ｍｘｈｏｐｓが注釈中の音韻の数以下であるかぎりｉとｍｘｈｏｐｓを足した値に設定され、そうでない場合は注釈中の音韻の数（Ｎａｎｎ）に等しい値に設定される。同様に、ｍｘｊは、ｍｘｈｏｐｓが問合せの音韻の数以下であるかぎりｊとｍｘｈｏｐｓを足した値に設定され、そうでない場合は問合せ中の音韻の数（Ｎｑｕｅｒｙ）に等しい値に設定される。最後にステップｓ２１１で、システムは、注釈音韻ループポインタｉ２を注釈音韻ループポインタｉの現在の値に等しい値に初期化し、問合せ音韻ループポインタｊ２を問合せ音韻ループポインタｊの現在の値に等しい値に初期化する。
【００７９】
システムによって使用されるダイナミックプログラミング制約は、注釈がテキストであるか、それとも音声であるかと、問合せがテキストであるか、それとも音声であるかに依存するので、次のステップでは、注釈及び問合せがどのように生成されたかが判定される。これは、判定ブロックｓ２１３、ｓ２１５、及びｓ２１７によって行われる。注釈と問合せが共に音声から生成されたものである場合、ラティスポイント（ｉ，ｊ）で終わるダイナミックプログラミングパスは、図１１に示されている他のポイントまで伝搬することができ、処理ステップｓ２１９からｓ２３５は、このパスをこれらのポイントまで伝搬させるように動作する。特にステップｓ２１９で、システムは注釈音韻ループポインタｉ２を変数ｍｘｉと比較する。ステップｓ２１１で、注釈音韻ループポインタｉ２がｉに設定され、ｍｘｉがｉ＋４に設定されるので、処理はステップｓ２２１に進み、問合せ音韻ループポインタｊ２について同様な比較が行われる。次いで、処理はステップｓ２２３に進み、パスが同じラティスポイント（ｉ，ｊ）に留まらないようにされる。これは、最初は、ｉ２がｉに等しくｊ２がｊに等しいからである。したがって、処理は最初にステップｓ２２５に進み、問合せ音韻ループポインタｊ２が１だけ増分される。
【００８０】
次いで、処理はステップｓ２２１に戻り、ｊ２の増分された値がｍｘｊと比較される。ｊ２がｍｘｊよりも小さい場合、処理はステップｓ２２３に戻り、ステップｓ２２７に進む。ステップｓ２２７は、注釈音韻シーケンス及び問合せ音韻シーケンスの両方に沿って大き過ぎるホップが起こるのを防止するように動作することができる。これは、ｉ２＋ｊ２がｉ＋ｊ＋ｍｘｈｏｐｓよりも小さい場合にのみパスを伝搬させることによって行われる。これにより、図１１に示されている三角形の１組のポイントのみが処理される。この条件が満たされるかぎり、処理は次いでステップｓ２２９に進み、システムはラティスポイント（ｉ，ｊ）からラティスポイント（ｉ２，ｊ２）までの遷移スコア（ＴＲＡＮＳＣＯＲＥ）を算出する。次いで、処理はステップｓ２３１に進み、システムは、ステップｓ２２９で求められた遷移スコアを、ポイント（ｉ，ｊ）について記憶されている累積スコアに足し、これを一時ストアＴＥＭＰＳＣＯＲＥにコピーする。上述のように、この実施形態では、２つ以上のダイナミックプログラミングパスが同じラティスポイントで交わる場合、各パスに関連する累積スコアが合計される。したがって、ステップｓ２３３で、システムはＴＥＭＰＳＣＯＲＥと、すでにポイント（ｉ２，ｊ２）について記憶されている累積スコアとの対数足し算を実行し、結果がＳＣＯＲＥ（ｉ２，ｊ２）に格納される。次いで、処理はステップｓ２２５に戻り、問合せ音韻ループポインタｊ２が１だけ増分され、処理はステップｓ２２１に戻る。問合せ音韻ループポインタｊ２がｍｘｊの値に達した後、処理はステップｓ２３５に進み、問合せ音韻ループポインタｊ２が初期値ｊにリセットされ、注釈音韻ループポインタｉ２が１だけ増分される。次いで、処理はステップｓ２１９に進み、図１１に示されているラティスポイントの次の列に対して再び開始される。パスがポイント（ｉ，ｊ）から、図１１に示されている他の全てのポイントまで伝搬した後、処理は終了する。
【００８１】
注釈がテキストであり問合せが音声であると判定ブロックｓ２１３及びｓ２１５で判定された場合、処理はステップｓ２４１からｓ２５１に進む。これらのステップは、ポイント（ｉ，ｊ）で終わるパスを、図９ａに示されている各ポイントまで伝搬させるように動作することができる。具体的には、ステップｓ２４１で、システムは、注釈音韻ループポインタｉが注釈中の最後の音韻を指し示しているかどうかを判定する。指し示している場合、注釈にはもはや音韻がなく、処理は終了する。注釈音韻ループポインタｉがＮａｎｎ−１よりも小さい場合、処理はステップｓ２４３に進み、問合せ音韻ループポインタｊ２がｍｘｊと比較される。最初は、ｊ２はｍｘｊよりも小さく、したがって、処理はステップｓ２４５に進み、システムはポイント（ｉ，ｊ）からポイント（ｉ＋１，ｊ２）までの遷移スコア（ＴＲＡＮＳＣＯＲＥ）を算出する。次いで、この遷移スコアは、ポイント（ｉ，ｊ）で終わるパスに関連する累積スコアに足され、結果が一時スコアＴＥＭＰＳＣＯＲＥにコピーされる。次いでステップｓ２４９で、システムはＴＥＭＰＳＣＯＲＥと、ポイント（ｉ＋１，ｊ２）に関連する累積スコアとの対数足し算を実行し、結果をＳＣＯＲＥ（ｉ＋１，ｊ２）に格納し、ラティスポイント（ｉ＋１，ｊ２）で交わるパスのパススコアが確実に組み合わされるようにする。次いで、処理はステップｓ２５１に進み、問合せ音韻ループポインタｊ２が１だけ増分され、次いで処理はステップｓ２４３に戻る。ポイント（ｉ，ｊ）で終わるパスが、図９ａに示されている他のポイントまで伝搬した後、ｊ２がｍｘｊに等しくなり、ポイント（ｉ，ｊ）で終わるパスの伝搬が終了する。
【００８２】
注釈が音声であり、問合せがテキストであると判定ブロックｓ２１３及びｓ２１７で判定された場合、処理は、図１６ｂに示されているステップｓ２５５からｓ２６５に進む。これらのステップは、ポイント（ｉ，ｊ）で終わるパスを、図９ｂに示されている他のポイントまで伝搬させるように動作することができる。これを行うには、まずステップｓ２５５で、問合せ音韻ループポインタｊが、問合せを表す音韻シーケンス中の最後の音韻を指し示していないことを確認する。指し示していない場合、処理はステップｓ２５７に進み、注釈音韻ループポインタｉ２がｍｘｉと比較される。最初は、ｉ２の値はｉであり、注釈音韻ｉが、注釈を表す音韻シーケンスの終了位置にないかぎり、処理はステップｓ２５９に進み、ポイント（ｉ，ｊ）からポイント（ｉ２，ｊ＋１）まで移動する遷移スコアが算出される。次いで、処理はステップｓ２６１に進み、この遷移スコアが、ポインタ（ｉ，ｊ）で終わるパスの累積スコアに足され、結果が一時スコアＴＥＭＰＳＣＯＲＥにコピーされる。次いで、処理はステップｓ２６３に進み、ＴＥＭＰＳＣＯＲＥと、すでにポイント（ｉ２，ｊ＋１）について記憶されている累積スコアとの対数足し算が行われ、結果がＳＣＯＲＥ（ｉ２，ｊ＋１）に格納される。次いで、処理はステップｓ２６５に進み、注釈音韻ループポインタｉ２が１だけ増分され、処理はステップｓ２５７に戻る。次いで、ポイント（ｉ，ｊ）で終わるパスが、図９ｂに示されている他の各ポイントまで伝搬するまで、これらの処理ステップが繰り返される。この時点で、ポイント（ｉ，ｊ）のパスの伝搬が完了し、処理が終了する。
【００８３】
最後に、注釈と問合せが共にテキストであると判定ブロックｓ２１３及びｓ２１５で判定された場合、処理は、図１６ｂに示されているステップｓ２７１からｓ２７９に進む。これらのステップは、もちろん、他の注釈音韻があり、かつ他の問合せ音韻があるかぎり、ポイント（ｉ，ｊ）で終わるパスをポイント（ｉ＋１，ｊ＋１）まで伝搬させるように動作することができる。具体的には、ステップｓ２７１で、システムは、注釈音韻ループポインタｉが最後の注釈音韻を指し示していないことを確認する。指し示していない場合、処理はステップｓ２７３に進み、問合せ音韻シーケンスに対して問合せ音韻ループポインタｊの同様な検査が行われる。もはや注釈音韻がないか、あるいはもはや問合せ音韻がない場合、処理は終了する。しかし、他の注釈音韻があり、かつ他の問合せ音韻がある場合、処理はステップｓ２７５に進み、システムはポイント（ｉ，ｊ）からポイント（ｉ＋１，ｊ＋１）までの遷移スコアを算出する。次いで、ステップｓ２７７で、この遷移スコアが、ポイント（ｉ，ｊ）について記憶されている累積スコアに足され、結果が一時スコアＴＥＭＰＳＣＯＲＥに格納される。次いで、処理はステップｓ２７９に進み、ＴＥＭＰＳＣＯＲＥと、すでにポイント（ｉ＋１，ｊ＋１）について記憶されている累積スコアとの対数足し算が行われ、結果がＳＣＯＲＥ（ｉ＋１，ｊ＋１）にコピーされる。当業者なら理解できるように、この実施形態でステップｓ２７７及びｓ２７９が必要であるのは、ダイナミックプログラミング制約によって、パスが、注釈を表す音韻シーケンス内の任意の音韻から始まることができ、したがって、事前にポイント（ｉ＋１，Ｊ＋１）にスコアを関連付けておくことができるからである。ステップｓ２７９の後で、ポイント（ｉ，ｊ）の伝搬が完了し、処理が終了する。
【００８４】
遷移スコア
図１２に示されているステップｓ１０３、ｓ１０５、及びｓ１０７では、ダイナミックプログラミングパスを伝搬し、この伝搬中に、ステップｓ１２７、ｓ１１７、ｓ１７７、ｓ１９１、ｓ２２９、ｓ２４５、ｓ２５９、及びｓ２７５であるポイントから別のポイントまでの遷移スコアが算出される。これらのステップで、システムは、遷移の始点及び終点に対する適切な挿入確率、削除確率、及び復号確率を算出する。次に、この実施形態でこのことがどのように行われるかについて図１７及び図１８を参照して説明する。
【００８５】
具体的には、図１７は、ラティスポイント（ｉ，ｊ）からラティスポイント（ｉ２，ｊ２）まで伝搬するパスの遷移スコアを算出する際に使用される一般的な処理ステップを示す流れ図である。ステップｓ２９１で、システムは、ポイント（ｉ，ｊ）とポイント（ｉ２，ｊ２）との間に挿入されている各注釈音韻について、挿入されている音韻の挿入に関するスコア（上述の確率の対数ＰＩ（）に過ぎない）を算出し、これを適切なストアＩＮＳＥＲＴＳＣＯＲＥに足す。次いで、処理はステップｓ２９３に進み、システムは、ポイント（ｉ，ｊ）とポイント（ｉ２，ｊ２）との間に挿入されている各問合せ音韻について同様な計算を行い、これをＩＮＳＥＲＴＳＣＯＲＥに足す。しかし、（ｉ，ｊ）が開始ヌルノードφsであるか、あるいは（ｉ２，ｊ２）が終了ヌルノードφeである場合、システムは、挿入されている注釈音韻の挿入確率を算出しない（どの注釈音韻からパスを始めてもあるいはどの注釈音韻でパスを終らせてもペナルティが生じないため）。ただし、システムは、あらゆる挿入されている問合せ音韻の挿入確率は算出する。上述のように、算出されるスコアは、対数に基づく確率であり、したがって、ＩＮＳＥＲＴＳＣＯＲＥにスコアを足すことは、対応する挿入確率の掛け算に対応する。次いで、処理はステップｓ２９５に進み、システムが、ポイント（ｉ，ｊ）からポイント（ｉ２，ｊ２）まで伝搬する際のあらゆる削除及び／又は復号に関するスコアを算出し、これらのスコアが適切なストアＤＥＬＳＣＯＲＥに足され格納される。次いで、処理はステップｓ２９７に進み、システムはＩＮＳＥＲＴＳＣＯＲＥ及びＤＥＬＳＣＯＲＥを足し、結果をＴＲＡＮＳＣＯＲＥにコピーする。
【００８６】
次に、ポイント（ｉ，ｊ）からポイント（ｉ２，ｊ２）まで伝搬する際の削除スコア及び／又は復号ストアを判定するためにステップｓ２９５で実行される処理について図１８を参照して詳しく説明する。可能な削除及び復号は、注釈がテキストから生成された注釈であるかどうかと、問合せがテキストから生成された問合せであるかどうかに依存するので、注釈がテキストであるかそれとも音声であるかと、問合せがテキストであるかそれとも音声であるかが判定ブロックｓ３０１、ｓ３０３、及びｓ３０５で判定される。注釈と問合せが共にテキストであることがこれらの判定ブロックで判定された場合、削除は存在せず、ステップｓ３０７でブール一致によって２つの音韻の復号が実行される。注釈音韻ａi2が問合せ音韻ｑj2と同じである場合、処理はステップｓ３０９に進み、ＴＲＡＮＳＣＯＲＥがｌｏｇ［１］（すなわち、ゼロ）に等しい値に設定され、処理は終了する。しかし、注釈音韻ａi2が問合せ音韻ｑj2とは異なる場合、処理はステップｓ３１１に進み、ＴＲＡＮＳＣＯＲＥが、ｌｏｇ［０］のシステム近似である非常に大きな負の数に設定され、次いで処理が終了する。
【００８７】
注釈が音声であり、問合せがテキストであると判定ブロックｓ３０１及びｓ３０５で判定された場合、上述の数式（４）の簡略化された形態を使用して遷移スコアが求められる。この場合、処理はステップｓ３０３からステップｓ３１３に進み、システムは、注釈ループポインタｉ２が注釈ループポインタｉに等しいかどうかを判定する。等しい場合、このことは、パスがポイント（ｉ，ｊ）からポイント（ｉ，ｊ＋１）まで伝搬したことを意味する。したがって、問合せ音韻シーケンスに対して注釈音韻シーケンスから問合せ音韻ｑj+1が削除されている。したがって、ステップｓ３１７で、システムは、音韻ｑj+1を削除する対数確率（すなわち、ｌｏｇＰ（φ｜ｑj+1，Ｃ）をＤＥＬＳＣＯＲＥにコピーし、処理が終了する。ステップｓ３１３で、システムは、ｉ２がｉに等しくないと判定した場合、ポイント（ｉ，ｊ）で終わるパスの、ポイント（ｉ＋１，ｊ＋１）、（ｉ＋２，ｊ＋１）、（ｉ＋３，ｊ＋１）のうちの１つへの伝搬を検討する。この場合、注釈音韻ａi2と問合せ音韻ｑj+1との間に削除は存在せず、挿入及び復号のみが存在する。したがって、ステップｓ３１５で、システムは、問合せ音韻ｑj+1を注釈音韻ａi2として復号する対数確率（すなわち、ｌｏｇＰ（ａi2｜ｑj+1，Ｃ））をＤＥＬＳＣＯＲＥにコピーし、処理が終了する。
【００８８】
注釈がテキストであり、問合せが音声であると判定ブロックｓ３０１及びｓ３０５で判定された場合、上述の数式（４）の簡略化された形態を使用して遷移スコアが求められる。この場合、処理はステップｓ３０５からステップｓ３１９に進み、システムは、問合せ音韻ループポイントｊ２が問合せ音韻ループポインタｊに等しいかどうかを判定する。等しい場合、システムはポイント（ｉ，ｊ）からポイント（ｉ＋１，ｊ）までの遷移スコアを算出する。この場合、注釈音韻シーケンスに対して問合せ音韻シーケンスから注釈音韻ａi+1が削除されている。したがって、ステップｓ３２１で、システムは、音韻ａi+1を削除する対数確率（すなわち、ｌｏｇＰ（φ｜ａi+1，Ｃ））を求めてＤＥＬＳＣＯＲＥにコピーし、処理が終了する。ステップｓ３１９で、システムは、問合せ音韻ループポインタｊ２が問合せ音韻ループポインタｊに等しくないと判定した場合、ポイント（ｉ，ｊ）からポイント（ｉ＋１，ｊ＋１）、（ｉ＋１，ｊ＋２）、（ｉ＋１，ｊ＋３）のうちの１つへの遷移スコアを求める。この場合、注釈音韻ａi+1と問合せ音韻ｑi2との間に削除は存在せず、挿入及び復号のみが存在する。したがって、ステップｓ３２３で、システムは、注釈音韻ａi+1を問合せ音韻ｑi2として復号する対数確率（すなわち、ｌｏｇＰ（ｑi2｜ａi+1，Ｃ））をＤＥＬＳＣＯＲＥにコピーし、処理が終了する。
【００８９】
注釈と問合せが共に音声から生成されたものであると判定ブロックｓ３０１及びｓ３０３で判定された場合、上記の数式（４）を使用して遷移スコアが求められる。この場合、処理はステップｓ３０３からステップｓ３２５に進み、システムは、注釈ループポインタｉ２が注釈ループポインタｉに等しいかどうかを判定する。等しい場合、処理はステップｓ３２７に進み、音韻ループポインタｒが１に初期化される。音韻ポインタｒは、上記の数式（４）の計算時に、システムに知られている各音韻を処理するのに用いられる。次いで、処理はステップｓ３２９に進み、システムは音韻ポインタｒを、システムに知られている音韻の数Ｎｐｈｏｎｅｍｅｓ（この実施形態では４３に等しい）と比較する。最初は、ステップｓ３２７で、ｒが１に設定され、したがって、処理はステップｓ３３１に進み、システムは、音韻ｐrが発生する対数確率（すなわち、ｌｏｇＰ（ｐr｜Ｃ））を求め、これを一時スコアＴＥＭＰＤＥＬＳＣＯＲＥにコピーする。注釈ループポインタｉ２が注釈ループポインタｉに等しい場合、システムは、ポイント（ｉ，ｊ）で終わるパスをポイント（ｉ，ｊ＋１）、（ｉ，ｊ＋２）、（ｉ，ｊ＋３）のうちの１つまで伝搬させる。したがって、問合せには、注釈にはない音韻が存在する。したがって、ステップｓ３３３で、システムは、注釈から音韻ｐrを削除する対数確率（すなわち、ｌｏｇＰ（φ｜ｐr，Ｃ））をＴＥＭＰＤＥＬＳＣＯＲＥに足す。次いで、処理はステップｓ３３５に進み、システムは、音韻ｐrを問合せ音韻ｑi2として復号する対数確率（すなわち、ｌｏｇＰ（ｑi2｜ｐr，Ｃ））をＴＥＭＰＤＥＬＳＣＯＲＥに足す。次いで、処理はステップｓ３３７に進み、ＴＥＭＰＤＥＬＳＣＯＲＥとＤＥＬＳＣＯＲＥの対数足し算が実行され、結果がＤＥＬＳＣＯＲＥに格納される。次いで、処理はステップｓ３３９に進み、音韻ループポインタｒが１だけ増分され、次いで処理はステップｓ３２９に戻り、システムに知られている次の音韻について同様な処理が実行される。システムに知られている４３個の音韻のそれぞれについてこの計算が実行された後、処理は終了する。
【００９０】
ステップｓ３２５で、ｉ２がｉに等しくないとシステムが判定した場合、処理がステップｓ３４１に進み、システムは、問合せ音韻ループポインタｊ２が問合せ音韻ループポイントｊに等しいかどうかを判定する。等しい場合、処理はステップｓ３４３に進み、音韻ループポインタが１に初期設定される。次いで、処理はステップｓ３４５に進み、音韻ループポインタｒがシステムに知られている音韻の総数（Ｎｐｈｏｎｅｍｅｓ）と比較される。最初は、ステップｓ３４３で、ｒが１に設定され、したがって、処理はステップｓ３４７に進み、音韻ｐrが発生する対数確率が求められ、一時ストアＴＥＭＰＤＥＬＳＣＯＲＥにコピーされる。次いで、処理はステップｓ３４９に進み、システムは、音韻ｐrを注釈音韻ａi2として復号する対数確率を求め、これをＴＥＭＰＤＥＬＳＣＯＲＥに足す。問合せループポインタｊ２が問合せループポインタｊに等しい場合、システムは、ポイント（ｉ，ｊ）で終わるパスをポイント（ｉ＋１，ｊ）、（ｉ＋２，ｊ）、（ｉ＋３，ｊ）のうちの１つまで伝搬させる。したがって、注釈には、問合せにはない音韻が存在する。したがって、ステップｓ３５１で、システムは、問合せから音韻ｐrを削除する対数確率を求め、これをＴＥＭＰＤＥＬＳＣＯＲＥに足す。次いで、処理はステップｓ３５３に進み、システムは、ＴＥＭＰＤＥＬＳＣＯＲＥとＤＥＬＳＣＯＲＥの対数足し算を実行し、結果をＤＥＬＳＣＯＲＥに格納する。次いでステップｓ３５５で、音韻ループポインタｒが１だけ増分され、処理はステップｓ３４５に戻る。システムに知られている全ての音韻について処理ステップｓ３４７からｓ３５３が実行された後、処理は終了する。
【００９１】
ステップｓ３４１で、問合せ音韻ループポインタｊ２は問合せ音韻ループポインタｊに等しくないとシステムが判定した場合、処理はステップｓ３５７に進み、音韻ループポインタｒが１に初期設定される。次いで、処理はステップｓ３５９に進み、システムは音韻カウンタｒを、システムに知られている音韻の数（Ｎｐｈｏｎｅｍｅｓ）と比較する。最初ステップｓ３５７で、ｒが１に設定され、したがって、処理はステップｓ３６１に進み、システムは、発生する音韻ｐrの対数確率を求め、これを一時スコアＴＥＭＰＤＥＬＳＣＯＲＥにコピーする。問合せ音韻ループポインタｊ２が問合せ音韻ループポインタｊに等しくない場合、システムは、ポイント（ｉ，ｊ）で終わるパスをポイント（ｉ＋１，ｊ＋１）、（ｉ＋１，ｊ＋２）、及び（ｉ＋２，ｊ＋１）のうちの１つに伝搬させる。したがって、削除は存在せず、挿入及び復号のみが存在する。したがって、処理はステップｓ３６３に進み、音韻ｐrを注釈音韻ａi2として復号する対数確率がＴＥＭＰＤＥＬＳＣＯＲＥに足される。次いで、処理はステップｓ３６５に進み、音韻ｐrを問合せ音韻ｑi2として復号する対数確率が求められ、ＴＥＭＰＤＥＬＳＣＯＲＥに足される。次いで、システムはステップｓ３６７で、ＴＥＭＰＤＥＬＳＣＯＲＥとＤＥＬＳＣＯＲＥの対数足し算を行い、結果をＤＥＬＳＣＯＲＥに格納する。次いでステップｓ３６９で、音韻カウンタｒが増分し、処理はステップｓ３５９に戻る。システムに知られている全ての音韻について処理ステップｓ３６１からｓ３６７が実行されると、処理は終了する。
【００９２】
（正規化）
ダイナミックプログラミングプロセスの上記の説明では、上記の数式（３）の分母部分のみを扱った。したがって、入力問合せが、データベース内の注釈音韻シーケンスと一致した後、数式（３）の分母によって定義される正規化項によりこの一致に関するスコア（ＥＮＤＳＣＯＲＥに格納されている）を正規化しなければならない。上述のように、分母項の計算は、分子の計算と同時に、すなわち上述のダイナミックプログラミングルーチンにおいて行われる。これは、分子と分母を比較するとわかるように、分子に必要な項は全て分子上で算出されるからである。しかし、注釈又は問合せがテキストから生成されたものであるとき、正規化が行われないことに留意されたい。この実施形態では、より長い注釈により大きな重みが与えられることがなく、共通の音韻を含む注釈に、共通でない音韻を含む注釈よりも大きな重みが与えられることがないように正規化が行われる。これは、注釈が基本モデルとどの程度一致しているかに依存する項によりスコアを正規化することによって行われる。
【００９３】
（訓練）
上記の実施形態では、システムは、１８９２個の復号／削除確率及び４３個の挿入確率（上記では異聴統計と呼ばれる）を使用して、音韻整合動作における各ダイナミックプログラミングパスのスコアを求めた。この実施形態では、これらの確率は事前に訓練セッション中に求められ、メモリ（図示せず）に格納される。具体的には、この訓練セッション中に、音声認識システムを使用して音声の音韻復号が２つの方法で行われる。第１の方法では、音声認識システムに音声と、実際に発声された単語との両方が与えられる。したがって、音声認識ユニットはこの情報を使用して、発声された単語の標準音韻シーケンスを生成し、音韻の理想的な復号を得ることができる。次いで、音声認識システムを使用して同じ音声が復号されるが、今回は実際に発声された単語は不明である（これを以下では自由復号と呼ぶ）。自由復号から生成される音韻シーケンスは、標準音韻シーケンスと以下の点で異なる。
【００９４】
ｉ）自由復号では、誤りが起こり、標準シーケンスに存在しない音韻が復号に挿入されるか、あるいは標準シーケンスに存在しない音韻が復号で省略される可能性がある。
【００９５】
ｉｉ）ある音韻が別の音韻と混同される可能性がある。
【００９６】
ｉｉｉ）音声認識システムが音声を完全に復号する場合でも、会話の発音と標準発音が異なり、たとえば、会話では、単語「ａｎｄ」（標準形式は／ａｅ／／ｎ／／ｄ／及び／ａｘ／／ｎ／／ｄ／である）が／ａｘ／／ｎ／と短縮されることが多く、場合によっては／ｎ／になるため、自由復号が標準復号と異なる可能性がある。
【００９７】
したがって、多数の発声がその標準形及び自由復号形に復号される場合、ダイナミックプログラミング法を使用してこの２つの形式を整列させることができる。これにより、音韻が標準ではｐであるべきときに復号されたものｄのカウント値が得られる。このような訓練結果から、上記の復号確率、削除確率、及び挿入確率を以下のように近似することができる。
【００９８】
音韻ｄが挿入である確率は次式によって与えられる。
【００９９】
【数１２】

上式で、Ｉdは、自動音声認識システムが音韻ｄを挿入した回数であり、ｎ_o ^dは、標準シーケンスに対して挿入される復号された音韻の総数である。
【０１００】
音韻ｐを音韻ｄとして復号する確率は次式によって与えられる。
【０１０１】
【数１３】

上式で、ｃdpは、自動音声認識システムが、ｄがｐであるべきときにｄを復号した回数であり、ｎpは、自動音声認識システムが、ｐであるべきときに任意のもの（削除を含む）を復号した回数である。
【０１０２】
音韻ｐが復号されるべきときに何も復号しない（すなわち、削除がある）確率は次式によって与えられる。
【０１０３】
【数１４】

上式で、Ｏpは、自動音声認識システムが、ｐを復号すべきときに何も復号しなかった回数であり、ｎpは上記と同様である。
【０１０４】
（第２の実施形態）
第１の実施形態では、入力された単一の問合せを、いくつかの格納されている注釈と比較した。この実施形態では、入力された２つの音声問合せが、格納されている注釈と比較される。この実施形態は、問合せの入力が雑音の多い環境で行われる用途、又は比較的高い精度が必要になる用途に適している。この実施形態が、問合せのどれかがテキストである状況には適していないことは明確である。というのは、この場合、他の問合せが冗長になるからである。したがって、システムは以下の２つの状況に対処することができる。
【０１０５】
（ｉ）入力される２つの問合せが共に音声から生成され、注釈が音声から生成される。
【０１０６】
（ｉｉ）入力される２つの問合せが共に音声から生成され、注釈がテキストから生成される。
【０１０７】
この実施形態では、２つの問合せを同時に注釈に整合させるようになっていることを除いて、第１の実施形態で使用したダイナミックプログラミングアルゴリズムと同様なアルゴリズムを使用する。図１９は、一方の次元が２つの問合せのそれぞれを示し、他方の次元が注釈を示す、三次元座標プロットである。図１９は、本実施形態の動的プログラミングアルゴリズムによって処理される点の三次元ラティスを示す。このアルゴリズムは、第１の実施形態で使用されたのと同じ遷移スコア、ダイナミックプログラミング制約、及び異聴統計（すなわち、音韻確率）を使用して、各パスを、図１９に示されているプロット中のラティス点の三次元ネットワークを介してパスを伝搬させ、スコアをつける。
【０１０８】
次に、この三次元ダイナミックプログラミングプロセスについて詳しく説明する。当業者には、図２０から図２５を図１３から図１９と比較すると理解されるように、この三次元ダイナミックプログラミングアルゴリズムは、余分の問合せを考慮するために他のいくつかの制御ループが追加されることを除いて、第１の実施形態で使用される二次元ダイナミックプログラミングアルゴリズムと基本的に同じである。
【０１０９】
三次元ダイナミックプログラミングアルゴリズムは、図１２に示されている全てのステップの後で、２つの問合せを注釈と比較する。図２０には、ダイナミックプログラミングパスをヌル開始ノードφsから、ダイナミックプログラミング制約によって定義される全ての可能な始点まで伝搬させる際にステップｓ１０３で使用される処理ステップが示されている。なお、制約とは、ダイナミックプログラミングパスがどの注釈音韻からでも始まることができ、パスが各問合せ中の最初の４つの音韻のうちのどの音韻からでも始まることができることである。したがって、図２０を参照するとわかるように、ステップｓ４０１で、システムは変数ｍｘｊ及びｍｘｋの値を、第１の実施形態で使用される定数と同じｍｘｈｏｐｓに設定する。したがって、この実施形態では、それぞれの入力問合せが４つ以上の音韻を含むかぎり、ｍｘｊとｍｘｋは共に４に設定される。問合せが４つ以上の音韻を含まない場合、ｍｘｊ及び／又はｍｘｋは、対応する問合せ中の音韻の数に等しい値に設定される。次いで、処理は、ｉ＝０からＮａｎｎ−１であり、ｊ＝０から３であり、ｋ＝０から３である場合にダイナミックプログラミングパスをポイント（ｉ，ｊ，ｋ）から始めるように動作できるステップｓ４０３からｓ４１７に進む。これにより、図１２に示されているステップｓ１０３の処理が終了し、次いで、処理はステップｓ１０５に進み、これらのダイナミックプログラミングパスが終点まで伝搬する。
【０１１０】
第１の実施形態と同様に、この実施形態では、システムは、探索空間内のポイントをラスタ状に処理することによってダイナミックプログラミングパスを始点から終点まで伝搬させる。このラスタ処理動作を制御するのに用いられる制御アルゴリズムは図２１に示されている。図２１を図１４と比較するとわかるように、この制御アルゴリズムは、第１の実施形態で使用された制御アルゴリズムと同じ一般形式を有する。違いは、伝搬ステップｓ４１９がより複雑であることと、入力された第２の問合せによって生じる追加のポイントを処理するのに必要な問合せブロックｓ４２１、ブロックｓ４２３、及びブロックｓ４２５が設けられることだけである。図２１に示されている制御アルゴリズムがどのように動作するかをよりよく理解するには、図１４についての上記の説明を参照されたい。
【０１１１】
図２２には、終点のパスを終了ヌルノードφeまで伝搬させる際に、この実施形態において図１２に示されているステップｓ１０７で使用される処理ステップがより詳しく示されている。図２２を図１５と比較するとわかるように、この実施形態においてステップｓ１０７で使用される処理ステップは、第１の実施形態で使用された対応するステップと同様である。違いは、遷移スコア計算ブロックｓ４４３がより複雑であることと、第２の問合せによる追加のラティスポイントを処理するために追加のブロック（ｓ４３９、ｓ４４１、及びｓ４４９）ならびに変数（ｋ）が必要であることである。したがって、ステップｓ４３１からｓ４４９で使用される処理を理解するには、図１５についての上記の説明を参照されたい。
【０１１２】
図２３は、図２１に示されている伝搬ステップｓ４１９で使用される各処理ステップを示すフローチャートである。図１６は、上述の二次元実施形態の対応するフローチャートである。図２３を図１６と比較するとわかるように、この２つの実施形態の間の主な違いは、第２の問合せによる追加のラティスポイントを処理するために追加の変数（ｍｘｋ及びｋ２）ならびに処理ブロック（ｓ４５１、ｓ４５３、ｓ４５５、及びｓ４５７）が必要であることである。２つの問合せが共に音声でなければならず、したがって、フローチャートの主要な分岐が、注釈がテキストであるときの分岐と、注釈が音声であるときの他の分岐の２つだけであるため、図２３の方がわずかに簡単でもある。図２３に示されているフローチャートで使用される処理ステップをよりよく理解するには、図１６の説明を参照されたい。
【０１１３】
図２４は、図２３の処理ステップの間に、ダイナミックプログラミングパスがポイント（ｉ，ｊ，ｋ）からポイント（ｉ２，ｊ２，ｋ２）まで伝搬する際、遷移スコアを算出するうえで使用される処理ステップを示すフローチャートである。図１７には、上述の二次元実施形態の対応するフローチャートが示されている。図２４を図１７と比較するとわかるように、この実施形態と第１の実施形態の主な違いは、第２の問合せに挿入される音韻の挿入確率を算出する追加の処理ステップｓ４６１である。したがって、図２４に示されているフローチャートで使用される処理ステップをよりよく理解するには、図１７の説明を参照されたい。
【０１１４】
次に、ポイント（ｉ，ｊ，ｋ）からポイント（ｉ２，ｊ２，ｋ２）まで伝搬する際の削除スコア及び／又は復号スコアを求めるために図２４におけるステップｓ４６３で使用される処理ステップについて、図２５を参照してより詳しく説明する。可能な削除及び復号は、注釈がテキストから生成された注釈であるかそれとも音声から生成された注釈であるかに依存するので、判定ブロックｓ５０１で、注釈がテキストであるかそれとも音声であるかが判定される。注釈がテキストから生成された注釈である場合、音韻ループポインタｉ２は注釈音韻ａi+1を指し示さなければならない。次いで、処理は、第１及び第２の問合せに、注釈に対する音韻の削除が存在するかどうかを判定するように動作できるステップｓ５０３、ｓ５０５、及びｓ５０７に進む。存在する場合、ｊ２及び／又はｋ２はそれぞれ、ｊ又はｋに等しい。
【０１１５】
−ｊ２がｊに等しくなく、かつｋ２がｋに等しくない場合、注釈に対する問合せにおける削除は存在せず、処理はステップｓ５０９に進み、注釈音韻ａi+1を第１の問合せ音韻ｑi2として復号する対数確率がＤＥＬＳＣＯＲＥにコピーされる。次いで、処理はステップｓ５１１に進み、注釈音韻ａi+1を第２の問合せ音韻ｑk2として復号する対数確率がＤＥＬＳＣＯＲＥに足される。
【０１１６】
−ｊ２はｊに等しくなく、ｋ２はｋに等しいとシステムが判定した場合、処理はステップｓ５１３からｓ５１５に進み、注釈音韻ａi+1を削除する確率を求めてＤＥＬＳＣＯＲＥにコピーすることと、注釈音韻ａi+1を第１の問合せ音韻ｑi2として復号する確率をＤＥＬＳＣＯＲＥに足すことがそれぞれ行われる。
【０１１７】
−ｊ２がｊに等しいと共にｋ２がｋに等しいとシステムが判定した場合、処理はステップｓ５１７及びｓ５１９に進み、システムは、第１の問合せと第２の問合せの両方から注釈音韻ａi+1を削除する対数確率を求め、結果をＤＥＬＳＣＯＲＥに格納する。
【０１１８】
−ｊ２はｊに等しく、ｋ２はｋに等しくないとシステムが判定した場合、処理は、注釈音韻ａi+1を削除する対数確率をＤＥＬＳＣＯＲＥにコピーすることと、注釈音韻ａi+1を第２の問合せ音韻ｑk2として復号する対数確率をＤＥＬＳＣＯＲＥに足すことをそれぞれ行うように動作できるステップｓ５２１及びｓ５２３に進む。
【０１１９】
システムは、ステップｓ５０１で、注釈が音声から生成されたものであると判定した場合、ｉ２、ｊ２、及びｋ２をそれぞれｉ、ｊ、及びｋと比較することにより、注釈又は２つの問合せからの音韻削除があるかどうかを（ステップｓ５２５からｓ５３７で）判定する。図２５ｂから図２５ｅに示されているように、注釈が音声から生成されたものであるとき、８つの可能な状況の適切な復号確率及び削除確率を判定するように動作する８つのメイン分岐がある。各状況で実行される処理は非常に類似しているので、１つの状況についてのみ説明する。
【０１２０】
具体的には、ステップｓ５２５、ｓ５２７、及びｓ５３１で、（ｉ２＝ｉであるため）注釈からの削除が存在し、（ｊ２≠ｊでありｋ２≠ｋであるため）２つの問合せからの削除は存在しないとシステムが判定した場合、処理はステップｓ５４１に進み、音韻ループポインタｒが１に初期設定される。音韻ループポインタｒは、上記の第１の実施形態で説明した数式（４）と同様な数式の計算時にシステムに知られている各音韻を処理するために使用される。次いで、処理はステップｓ５４３に進み、システムは音韻ポインタｒを、システムに知られている音韻の数Ｎｐｈｏｎｅｍｅｓ（この実施形態では４３に等しい）と比較する。最初、ｒはステップｓ５４１で１に設定される。したがって、処理はステップｓ５４５に進み、システムは、生じた音韻の対数確率ｐrを求め、これを一時スコアＴＥＭＰＤＥＬＳＣＯＲＥにコピーする。次いで、処理はステップｓ５４７に進み、システムは、注釈中の音韻ｐrを削除する対数確率を求め、これをＴＥＭＰＤＥＬＳＣＯＲＥに足す。次いで、処理はステップｓ５４９に進み、システムは、音韻ｐrを第１の問合せ音韻ｑ¹ _j2として復号する対数確率を求め、これをＴＥＭＰＤＥＬＳＣＯＲＥに足す。次いで、処理はステップｓ５５１に進み、システムは、音韻ｐrを第２の問合せ音韻ｑ² _k2として復号する対数確率を求め、これをＴＥＭＰＤＥＬＳＣＯＲＥに足す。次いで、処理はステップｓ５５３に進み、システムは、ＴＥＭＰＤＥＬＳＣＯＲＥとＤＥＬＳＣＯＲＥの対数加算を実行し、結果をＤＥＬＳＣＯＲＥに格納する。次いで、処理はステップｓ５５５に進み、音韻ポインタｒが１だけ増分される。次いで、処理はステップｓ５４３に進み、システムに知られている次の音韻について同様な処理が実行される。システムに知られている４３個の音韻のそれぞれについてこの計算が実行された後、処理は終了する。
【０１２１】
図２５で実行された各処理ステップと図１８で実行された各ステップを比較するとわかるように、復号及び削除に関するダイナミックプログラミングアルゴリズム内で計算される項は、数式（４）に類似しているが、第２の問合せに関する追加の確率項を有する。具体的には、この項は以下の形式を有する。
【０１２２】
【数１５】

このことが予想されるのは、２つの問合せが互いに条件付きで独立しているからである。
【０１２３】
全てのダイナミックプログラミングパスが終了ノードφeまで伝搬した後、第１の実施形態で算出されたのと同じ正規化項（上記の数式（５）で与えられる）を用いてこのアラインメントの総スコアが正規化される。これは、正規化項が注釈のモデルとの類似性にのみ依存するからである。２つの問合せが全ての注釈に一致した後、注釈の正規化されたスコアがランク付けされ、システムは、このランク付けに基づいて、注釈、又は入力問合せに最も近い注釈をユーザに出力する。
【０１２４】
上述の第２の実施形態では、２つの入力問合せを格納されている注釈と比較した。当業者なら理解できるように、アルゴリズムは、任意の数の入力問合せに関して適応させることができる。２つの問合せの場合について示したように、さらに問合せを追加する場合には、この追加の問合せを考慮するためにアルゴリズムにいくつかのループを追加するだけでよい。しかし、３つ以上の入力問合せを、格納されている注釈と比較する実施形態では、プルーニングを用いて速度又はメモリに関する制約を満たすダイナミックプログラミングルーチンを使用することが必要になる場合がある。この場合、全てのパスの全ての確率を合計するのではなく、互いに交わるパスの最適なスコアが伝搬させられ、スコアの低いパスは終了させられる。
【０１２５】
（代替実施形態）
当業者なら理解できるように、ある音韻シーケンスを他の音韻シーケンスと整合させる上記の技術は、データ検索以外の用途に適用することができる。さらに、当業者なら理解できるように、上述のシステムは音韻ラティス及び単語ラティス中の音韻を使用したが、音節やカタカナ（日本語のアルファベット）のような他の音韻状の単位を使用することができる。
【０１２６】
当業者なら理解できるように、２つの音韻シーケンスのダイナミックプログラミングによる整合及びアラインメントに関する上記の説明は、一例としてのみ与えられており、様々な修正を加えることができる。たとえば、ラティスポイントを介してパスを伝搬させるラスタ走査技術を使用したが、ラティスポイントを介してパスを漸進的に伝搬させる他の技術を使用することができる。さらに、当業者なら理解できるように、上述のダイナミックプログラミング制約以外の制約を使用して整合プロセスを制御することができる。
【０１２７】
上記の実施形態では、注釈は一般に問合せよりも長く、ダイナミックプログラミングアラインメントアルゴリズムによって、問合せが注釈全体に整列させられた。他の実施形態では、アラインメントアルゴリズムは、開始位置から終了位置へと問合せを注釈にわたってステップさせることによって突き合わせ、各ステップにおいて、問合せを注釈の、問合せと概ね同じサイズの部分と比較することによって、問合せを注釈と比較してもよい。このような実施形態では、各ステップで、上述のダイナミックプログラミング技術と同様な技術を使用して、問合せが注釈の対応する部分と整列させられる。この技術は図２６ａに示されており、結果として得られたプロットには、図２６ｂに示されているように問合せが各ステップごとに注釈と突き合わされるときに問合せと現在の注釈とのアラインメントに関するダイナミックプログラミングスコアがどのように変化するかが示されている。図２６ｂに示されているプロット中のピークは、注釈の、問合せと最もうまく一致する部分を表している。次いで、問合せと各注釈との比較時に得られたピークＤＰスコアを比較することによって、問合せに最も近い注釈を判定することができる。
【０１２８】
上記の実施形態では、音韻ラティス注釈データ及び単語ラティス注釈データを使用して写真に注釈付けした。当業者なら理解できるように、この音韻ラティスデータ及び単語ラティスデータを使用して多数の異なる種類のデータファイルに注釈付けすることができる。たとえば、この種の注釈データは、患者のｘ線写真、たとえばＮＭＲスキャン、超音波スキャンなどの３Ｄビデオに注釈付けする医療用途に使用することができる。これはまた、オーディオデータ又は地震データなどＩＤデータに注釈付けするために使用することができる。
【０１２９】
上記の実施形態では、入力された音声信号から音韻シーケンスを生成する音声認識シーケンスを使用した。当業者なら理解できるように、代替物を含む音韻ストリングに分解することのできる、出力された単語のシーケンス、即ち、単語ラティスを生成する他の種類の音声認識システムと共に上記のシステムを使用して、音韻ストリングを生成するレコグナイザをシミュレートすることができる。
【０１３０】
上記の実施形態では、挿入確率、削除確率、及び復号確率は、確率の最大尤度推定値を使用して音声認識シーケンスの異聴統計から算出された。当業者なら理解できるように、最大エントロピー技術のような他の技術を使用してこれらの確率を推定することができる。適切な最大エントロピー技術の詳細は、John Skilling著、Kluwer Academic publishers刊「Maximum Entropy and Bayesian Methods」と題する文献の４５ページから５２ページに記載されている。この文献の内容は、引用によって本明細書に組み込まれる。
【０１３１】
上記の実施形態では、データベース２９と自動音声認識ユニット５１は共にユーザ端末５９内に位置している。当業者なら理解できるように、これは必須ではない。図２７には、データベース２９及び探索エンジン５３がリモートサーバ６０内に位置しており、ユーザ端末５９がネットワークインタフェースユニット６７及び６９ならびにデータネットワーク６８（たとえば、インターネット）を介してデータベース２９にアクセスする実施形態が示されている。この実施形態では、ユーザ端末５９が受信できるのはマイクロフォン７からの声の問合せだけである。このような問合せは自動音声認識ユニット５１によって音韻データ及び単語データに変換される。次いで、このデータは、リモートサーバ６０内に位置する探索エンジン５３への、データネットワーク６８を介したデータの送信を制御する制御ユニット５５に渡される。次いで、探索エンジン５３は、上記の実施形態で実行された探索と同様に探索を実行する。次いで、探索結果はデータネットワーク６８を介して探索エンジン５３から制御ユニット５５に送り返される。次いで、制御ユニット５５は、ネットワークから受信された探索結果を検討し、適切なデータをディスプレイ５７上に表示し、それをユーザ３９が見ることができるようにする。
【０１３２】
データベース２９及び探索エンジン５３をリモートサーバ６０内に配置するだけでなく、自動音声認識ユニット５１をリモートサーバ６０内に配置することも可能である。このような実施形態は図２８に示されている。図示のように、この実施形態では、ユーザから入力された声の問合せは、音声をデータネットワーク６８を介して効率的に転送できるように符号化するように動作できる音声符号化ユニット７３に、入力線６１を介して渡される。次いで、符号化されたデータが制御ユニット５５に渡され、制御ユニットは、データをネットワーク６８を介してリモートサーバ６０に送信する。リモートサーバ６０において、データは自動音声認識ユニット５１によって処理される。次いで、入力問合せに関して音声認識ユニット５１によって生成された音韻データ及び単語データが、データベース２９での探索に使用できるように探索エンジン５３に渡される。次いで、探索エンジン５３によって生成された探索結果が、ネットワークインタフェース６９及びネットワーク６８を介してユーザ端末５９に送り返される。リモートサーバから受信された探索結果は次いで、ネットワークインタフェースユニット６７を介して制御ユニット５５に渡され、制御ユニット５５は結果を分析し、ディスプレイ５７上に適切なデータを表示し、それをユーザ３９が見ることができるようにする。
【０１３３】
同様に、キーボードによるユーザからの入力のみを許容し、リモートサーバ内に探索エンジン及びデータベースが位置しているユーザ端末５９を設けることができる。このような実施形態では、リモートサーバ６０内に音声表記ユニット７５を配置してもよい。
【０１３４】
上記の実施形態では、ダイナミックプログラミングアルゴリズムを使用して問合せ音韻シーケンスと注釈音韻シーケンスを整列させた。当業者なら理解できるように、任意のアラインメント技術を使用することができる。たとえば、全ての可能なアラインメントを識別する簡単な技術を使用することができる。しかし、ダイナミックプログラミングは標準処理ハードウェアを使用して実施するのが容易であるので、ダイナミックプログラミングが好ましい。
【０１３５】
上記では、ダイナミックプログラミング技術を使用して２つ以上の音韻シーケンスを比較する方法について説明した。しかし、図２及び図３に示されているように、注釈はラティスとして記憶することが好ましい。当業者なら理解できるように、上記の比較技術がこのようなラティスと共に働くには、ラティスによって定義される音韻シーケンスを「平坦化」して、分岐を有さない単一の音韻シーケンスを得なければならない。このための簡単な手法としては、ラティスによって定義される全ての様々な可能な音韻シーケンスを識別し、次いでこれらの音韻シーケンスのそれぞれを各問合せのシーケンスと比較する手法がある。しかし、ラティスの共通の部分が各問合せのシーケンスと数回整合させられるので、この手法は好ましくない。したがって、ラティス内の各音韻に関して利用できるタイムスタンプ情報に従ってラティス内の各音韻を順次ラベル付けすることによってラティスを平坦化することが好ましい。この場合、ダイナミックプログラミングアラインメント時に、各ＤＰラティスポイントで異なるダイナミックプログラミング制約が使用され、各パスは確実にラティス構造に従って伝搬する。
【０１３６】
以下の表には、図２に示されている音韻ラティスの部分で使用されるＤＰ制約が示されている。具体的には、第１の列は、ラティス内の各音韻に割り当てられる音韻番号（ｐ1からｐ9）を示し、中央の列は、ラティス内の実際の音韻に対応し、最後の列は、各音韻について、その音素で終わるパスが、ダイナミックプログラミングの次の時点で伝搬することのできる音韻を示している。表には示されていないが、中央の列には、音韻が連結されるノードの詳細と、対応する音韻リンクがさらに含まれる。
【０１３７】
【表１】

【０１３８】
たとえば、あるダイナミックプログラミングパスが時間順序音韻ｐ4で終わる場合、このダイナミックプログラミングパスは、音韻ｐ4に留まることも、あるいは時間順序音韻ｐ5からｐ11のいずれかに伝搬することもできる。表に示されているように、ポイントの中には、パスが到達することのできる音韻が、時間順序音韻シーケンスどおりに連続的に配置されないポイントがある。たとえば、時間順序音韻ｐ6で終わるダイナミックプログラミングパスの場合、このパスはこの音韻に留まることも、あるいは音韻ｐ10，ｐ12，ｐ15，又はｐ16に進むこともできる。ラティス内の音韻をこのように連続的に番号付けし、使用されるダイナミックプログラミング制約をラティスに応じて変化させることによって、入力問合せと注釈ラティスとのダイナミックプログラミング整合を効率的に行うことができる。さらに、当業者なら理解できるように、入力問合せもラティスを生成する場合、このラティスを同様に平坦化し、それに応じてダイナミックプログラミング制約を調整してもよい。
【０１３９】
上記の実施形態では、注釈と問合せの両方に同じ音韻異聴確率を使用した。当業者なら理解できるように、様々な認識システムを使用してこれらの音韻異聴確率を生成する場合、注釈と問合せにそれぞれの異なる異聴確率を使用すべきである。これらの異聴確率は、音韻シーケンスを生成するために使用された認識システムに依存する。
【０１４０】
上記の実施形態では、注釈と問合せのいずれかをテキストから生成するときに、キーボードから入力されたテキストに対応する標準音韻シーケンスが正しいものと仮定した。この場合、キーボードから入力される単語のスペルに間違いがなく、また誤入力もないものと仮定されているので、上記の仮定が当てはまらない場合もある。したがって、他の実施形態では、キーボードから入力問合せ及び／又は注釈に異聴確率を使用してもよい。言い換えれば、数式（４）及び数式（１２）は、注釈又は問合せ、あるいはその両方がテキストである場合にも使用される。使用される異聴確率が、ミススペルと誤入力のいずれか又はその両方の符号化を試みてもよい。当業者なら理解できるように、誤入力に関する異聴確率は、使用されるキーボードの種類に依存する。具体的には、単語を誤入力する異聴確率はキーボードのレイアウトに依存する。たとえば、文字「ｄ」がキーボードから入力された場合、文字「ｄ」のキーの周りのキーは誤入力確率が高く、一方、「ｄ」キーから離れた位置にあるキーは誤入力確率が比較的低い。上述のように、これらの誤入力確率を単語のミススペルに関する異聴確率と共に使用しても、あるいはそのような異聴確率で置き換えてもよい。このようなミススペル確率は、多数の異なるユーザから入力されたドキュメントを分析し、通常生じる種類の誤入力を監視することによって求めてもよい。このようなミススペル確率では、誤入力によって起こる表記エラーも考慮することもできる。このような実施形態では、使用されるダイナミックプログラミング制約によって、キーボードからの入力への挿入及び／又は削除を可能にすべきである。たとえば、図１１に示されている制約を使用することができる。
【０１４１】
他の場合には、各キーに複数の文字を割り当てるキーボード（たとえば、携帯電話のキーボード）を介してテキストが入力され、ユーザは、各キーを繰り返し押して、そのキーに割り当てられた文字を１つずつ確認しなければならない。このような実施形態では、入力される文字と同じキーに割り当てられた文字が、他のキーに関連する誤入力異聴確率よりも高い誤入力異聴確率を有するように、異聴確率が調整される。これは、携帯電話を使用してテキストメモリを送信したことのある人なら理解できるように、誤入力は、キーが所望の文字を入力するための正しい回数だけ押されなかったために起こることが多いからである。
【０１４２】
上記の実施形態では、制御ユニットは、上記の数式（４）又は数式（１２）を使用して各遷移の復号スコアを算出した。制御ユニットは、システムに知られている全ての音韻をこれらの数式に従って合計する代わりに、この加算内の確率項を最大にする未知の音韻ｐrを識別し、この最大確率を、注釈及び問合せの対応する音韻を復号する確率として使用するように構成してもよい。しかし、これは、この加算内の確率項をどの音韻（ｐr）が最大にするかを判定する追加の計算が必要になるので好ましくない。
【０１４３】
上述の第１の実施形態では、ダイナミックプログラミングアルゴリズムの間に、整列させた各音韻対ごとに数式（４）を計算した。数式（４）の計算では、注釈音韻及び問合せ音韻を、システムに知られている各音韻と比較した。当業者なら理解できるように、注釈音韻と問合せ音韻の所与の対については、数式（４）で与えられる確率の多くがゼロに等しいか、又はゼロに非常に近くなる。したがって、他の実施形態では、注釈音韻と問合せ音韻の対を比較的できるのは、事前に異聴統計から決定された、知られている全ての音韻の部分集合だけである。このような実施形態を実施する場合、数式（４）を使用して注釈音韻及び問合せ音韻と比較する必要のあるモデル音韻を識別する参照テーブルを、注釈音韻及び問合せ音韻を用いてアドレス指定することができる。
【０１４４】
上記の実施形態では、整列させられ整合された注釈と問合せの特徴は音声の単位を表している。当業者なら理解できるように、上述の技術は、特徴のシーケンスを生成した認識システムが不正確であるために問合せ及び注釈の特徴を混同する可能性がある他の用途で使用することができる。たとえば、上述の技術は、認識システムがある入力文字を別の入力文字と混同する可能性が高い光学文字認識システム又は手書き文字認識システムで使用することができる。
【０１４５】
上記では、いくつかの実施形態及び修正実施形態について説明した。当業者なら理解できるように、当業者に明らかな他の多数の実施形態及び修正実施形態がある。
【図面の簡単な説明】
【図１】ユーザによるキーボードからの入力又は音声入力から生成された注釈データを用いてデータファイルに注釈付けできるようにするユーザ端末を示す概略ブロック図である。
【図２】データファイルに注釈付けするための、ユーザによるキーボードからの入力から生成された音韻ラティス注釈データ及び単語ラティス注釈データの概略図である。
【図３】データファイルに注釈付けするための、ユーザによる音声入力から生成された音韻ラティス注釈データ及び単語ラティス注釈データの概略図である。
【図４】ユーザが、キーボードからの問合せ又は音声問合せによってデータベースから情報を検索できるようにする、ユーザの端末の概略ブロック図である。
【図５ａ】図４に示されているユーザ端末のフロー制御の一部を示す流れ図である。
【図５ｂ】図４に示されているユーザ端末のフロー制御の残りの部分を示す流れ図である。
【図６ａ】問合せと注釈の両方を生成したと仮定される基本的な統計モデルを示す概略図である。
【図６ｂ】キーボードからの入力を表す第１の音韻シーケンスとユーザの音声入力を表す第２の音韻シーケンスとを示し、かつユーザの音声入力によるキーボードからの入力に対する音韻の挿入及び削除が存在する可能性を示す概略図である。
【図６ｃ】それぞれが音声入力を表す第１及び第２の音韻シーケンスと、対応する音声入力で実際に発声されたものに対応する標準音韻シーケンスを表す第３の音韻シーケンスとを示し、対応する標準音韻シーケンスに対する、２つの音声入力への音韻の挿入及び削除が存在する可能性を示す概略図である。
【図７】注釈音韻シーケンス及び問合せ音韻シーケンスによって作成される探索空間を開始ヌルノード及び終了ヌルノードと共に概略的に示す図である。
【図８】横軸が注釈の音韻を表し、縦軸が問合せの音韻を表し、各ラティスポイントが注釈音韻と問合せ音韻との間の可能な一致に対応するいくつかのラティスポイントを示す二次元プロットを示す図である。
【図９ａ】注釈がキーボードからの入力であり、かつ問合せが音声入力から生成された問合せであるときにダイナミックプログラミングによる整合プロセスで使用されるダイナミックプログラミング制約を概略的に示す図である。
【図９ｂ】問合せがキーボードからの入力であり、かつ注釈が音声入力であるときにダイナミックプログラミングによる整合プロセスで使用されるダイナミックプログラミング制約を概略的に示す図である。
【図１０】音韻例用に記憶される削除確率及び復号確率を概略的に示す図である。
【図１１】注釈と問合せが共に音声入力であるときにダイナミックプログラミングによる整合プロセスで使用されるダイナミックプログラミング制約を概略的に示す図である。
【図１２】ダイナミックプログラミングによる整合プロセスで実行される主処理ステップを示す流れ図である。
【図１３】ヌル開始ノードから全ての可能な始点まで伝搬することによってダイナミックプログラミングプロセスを開始するのに用いられる主処理ステップを示す流れ図である。
【図１４】各ダイナミックプログラミングパスを始点から全ての可能な終点まで伝搬させるのに用いられる主処理ステップを示す流れ図である。
【図１５】各ダイナミックプログラミングパスを終点からヌル終了ノードまで伝搬させる際に用いられる主処理ステップを示す流れ図である。
【図１６ａ】ダイナミックプログラミング制約を使用してパスを伝搬させる際に実行される処理ステップの一部を示す流れ図である。
【図１６ｂ】ダイナミックプログラミング制約を使用してパスを伝搬させる際に用いられる残りの処理ステップを示す流れ図である。
【図１７】あるパスを始点から終点まで伝搬させる場合の遷移スコアを求める際に用いられる処理ステップを示す流れ図である。
【図１８ａ】注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられる処理ステップの一部を示す流れ図である。
【図１８ｂ】注釈及び問合せの音韻を削除し復号する場合のスコアを求める際に用いられる残りのステップを示す流れ図である。
【図１９】注釈音韻シーケンス及び２つの問合せ音韻シーケンスによって作成される探索空間を開始ヌルノード及び終了ヌルノードと共に概略的に示す図である。
【図２０】ヌル開始ノードから全ての可能な始点まで伝搬することによってダイナミックプログラミングプロセスを開始するのに用いられる主処理ステップを示す流れ図である。
【図２１】各ダイナミックプログラミングパスを始点から全ての可能な終点まで伝搬させるのに用いられる主処理ステップを示す流れ図である。
【図２２】各ダイナミックプログラミングパスを終点からヌル終了ノードまで伝搬させる際に用いられる主処理ステップを示す流れ図である。
【図２３】ダイナミックプログラミング制約を使用してパスを伝搬させる際に実行される処理ステップを示す流れ図である。
【図２４】あるパスの始点から終点まで伝搬させる場合の遷移スコアを求める際に用いられる処理ステップを示す流れ図である。
【図２５ａ】注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられる処理ステップの第１の部分を示す流れ図である。
【図２５ｂ】注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられる処理ステップの第２の部分を示す流れ図である。
【図２５ｃ】注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられる処理ステップの第３の部分を示す流れ図である。
【図２５ｄ】注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられる処理ステップの第４の部分を示す流れ図である。
【図２５ｅ】注釈及び問合せの音韻を削除し復号する場合のスコアを求める際に用いられる残りのステップを示す流れ図である。
【図２６ａ】異なる技術を使用して問合せを各注釈と整列させる他の実施形態を概略的に示す図である。
【図２６ｂ】図２６ａに示す実施形態における問合せと注釈の比較に応じてダイナミックプログラミングスコアがどのように変化するかを示すプロットを示す図である。
【図２７】入力音声問合せに応答して、リモートサーバ内に位置するデータベースからデータファイルを検索するように動作できる他のユーザ端末の形態を示す概略ブロック図である。
【図２８】ユーザが、入力音声問合せに応答して、リモートサーバ内に位置するデータベースからデータを検索できるようにする、他のユーザ端末を示す図である。

Claims

第１及び第２の特徴のシーケンスを受信する手段と、
第１シーケンスの特徴を第２シーケンスの特徴と整列させ、いくつかの整列させた特徴対を形成する手段と、
各整列させた特徴対の各特徴を比較し、整列させた特徴対間の類似性を表す比較スコアを生成する手段と、
整列させた特徴対について比較スコアを組み合わせ、第１及び第２の特徴のシーケンスとの間の類似性の程度を示す手段とを備える特徴比較装置であって、
前記比較スコアを生成する手段が、
各整列させた対について、整列させた対における第１のシーケンスの特徴を、１組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、前記第１のシーケンスの特徴と１組の特徴から得たそれぞれの特徴との間の類似性を表す対応する複数の中間比較スコアを示す第１の比較手段と、
整列させた各対について、整列させた対における第２のシーケンスの特徴を、１組の特徴から得た複数の特徴のそれぞれと比較し、前記第２のシーケンスの特徴と１組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを示す第２の比較手段と、
前記複数の中間比較スコアを組み合わせることにより、整列させた対について前記比較スコアを算出する手段と、
を備えることを特徴とする特徴比較装置。
前記第１及び第２の比較手段が、第１のシーケンスの特徴及び第２のシーケンスの特徴のそれぞれを前記１組の所定の特徴の各特徴と比較するように動作することを特徴とする請求項１に記載の装置。
前記比較スコアを生成する手段が、整列させた特徴対の第２のシーケンスの特徴を整列させた特徴対の第１のシーケンスの特徴と混同する確率を表す整列させた特徴対の比較スコアを生成するように動作することを特徴とする請求項１又は２に記載の装置。
前記第１及び第２の比較手段が、１組の所定の特徴から得られた対応する特徴を、整列させた対の特徴と混同する確率を示す中間比較スコアを求めるように動作することを特徴とする請求項３に記載の装置。
前記計算手段が、（ｉ）整列させた１対の特徴における第１及び第２のシーケンスの特徴を、該１組の所定の特徴における同じ特徴と比較する際に得られた中間スコアを掛け合わせ、複数の掛け合わされた中間比較スコアを求め、（ｉｉ）結果として得られる掛け合わされた中間スコアを合計し、整列させた対の特徴の前記比較スコアを算出するように動作することを特徴とする請求項４に記載の装置。
前記１組の所定の特徴における前記各特徴が、特徴のシーケンス内で生じる所定の確率を有し、前記計算手段が、掛け合わされた中間比較スコアを生成するのに用いられる、１組の所定の特徴における特徴の各発生確率を用いて、前記掛け合わされた中間比較スコアのそれぞれを重み付けするように動作することを特徴とする請求項５に記載の装置。
前記計算手段が、次式を計算するように動作し、

上式で、ｑj及びａiがそれぞれ、整列させた第１及び第２のシーケンスの特徴からなる対であり、Ｐ（ｑj｜ｐr）が、設定された特徴ｐrを第１のシーケンスの特徴ｑjとして混同する確率であり、Ｐ（ａi｜ｐr）が、設定された確率ｐrを第２のシーケンスの特徴ａiとして混同する確率であり、Ｐ（ｐr）が、設定された特徴ｐrが特徴のシーケンスにおいて発生する確率を表すことを特徴とする請求項６に記載の装置。
前記整列手段が、前記第１及び第２の特徴のシーケンスにおける特徴の削除及び挿入を識別するように動作し、前記比較スコアを生成する手段が、整列させた１対の特徴の近くで行われた、前記整列手段によって識別された特徴の削除及び挿入に応じて、整列させた１対の特徴の前記比較スコアを生成するように動作することを特徴とする上記請求項のいずれか１項に記載の装置。
前記整列手段が、ダイナミックプログラミング技術を使用して前記第１及び第２の特徴のシーケンスを整列させるダイナミックプログラミング手段を備えることを特徴とする上記請求項のいずれか１項に記載の装置。
前記ダイナミックプログラミング手段が、前記第１の特徴のシーケンスと第２の特徴のシーケンスとの間の複数の可能な整列を漸進的に判定するように動作し、前記比較スコアを生成する手段が、前記ダイナミックプログラミング手段によって判定された、整列させた特徴からなる可能な各対の比較スコアを求めるように動作することを特徴とする請求項９に記載の装置。
前記ダイナミックプログラミング手段が、前記第１の特徴のシーケンスと前記第２の特徴のシーケンスとの間の最適な整列を判定するように動作し、前記組合せ手段が、整列させた特徴からなる最適な対のみの比較スコアを組み合わせることによって前記類似性を求めるように動作することを特徴とする請求項９又は１０に記載の装置。
前記第１及び第２の特徴のシーケンス内の各特徴が、前記１組の所定の特徴に属し、前記第１及び第２の比較手段が、前記１組の所定の特徴を互いに関係付ける所定のデータを使用して前記中間スコアを求めるように動作することを特徴とする上記請求項のいずれか１項に記載の装置。
前記第１の特徴のシーケンスが、キーボードからの入力から生成された複数の小単語単位を含み、前記第１の比較手段が、誤入力確率及び／又はミススペル確率を使用して前記中間比較スコアを求めるように動作することを特徴とする上記請求項のいずれか１項に記載の装置。
前記第２の特徴のシーケンスが、音声入力から生成された小単語単位のシーケンスを含み、前記第２の比較手段が、誤認識確率を使用して前記中間スコアを求めるように動作することを特徴とする上記請求項のいずれかに記載の装置。
前記受信手段が、３つ以上の特徴のシーケンスを受信するように動作し、
前記整列手段が、受信された各特徴のシーケンスの特徴同士を整列させ、整列させた特徴からなるいくつかの群を形成し、
前記比較スコアを生成する手段が、整列させた特徴からなる各群中の特徴同士を比較し、整列させた特徴からなる各群間の類似性を表す比較スコアを生成するように動作し、
前記組合せ手段が、整列させた特徴からなる全ての群の比較スコアを組み合わせ、３つ以上の特徴のシーケンス間の類似度を求めるように動作することを特徴とする上記請求項のいずれか１項に記載の装置。
前記受信手段が、複数の第２の特徴のシーケンスを受信するように動作し、前記整列手段が、前記第１の特徴のシーケンスをそれぞれの前記第２の特徴のシーケンスと整列させ、各整列ごとの、整列させた特徴からなるいくつかの対を形成し、前記組合せ手段が、各整列ごとの比較スコアを組み合わせ、第１の特徴のシーケンスと前記複数の第２の特徴のシーケンスとの間のそれぞれの類似度を求めるように動作することを特徴とする上記請求項のいずれか１項に記載の装置。
前記比較スコアを生成する手段から出力された前記複数の類似度を比較する手段と、前記第１の特徴のシーケンスに最も近い第２の特徴のシーケンスを示す信号を出力する手段とをさらに備えることを特徴とする請求項１６に記載の装置。
複数の情報エントリのそれぞれが、注釈の特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する装置であって、
入力問合せの複数の表現を受信する手段と、
入力問合せの各表現を、表現を表す問合せの特徴のシーケンスに変換する手段と、
各表現の問合せの特徴を各注釈の特徴と比較し、１組の比較結果を求める比較手段と、
各表現の問合せの特徴を同じ注釈の特徴と比較することによって得られた比較結果を互いに組み合わせ、各注釈について、入力問合せと注釈との間の類似度を求める組合せ手段と、
前記組合せ手段によって全ての注釈について求められた類似度を使用して、前記データベースから検索すべき情報を識別する手段と、
を備えることを特徴とする装置。
前記比較手段は、各表現の問合せの特徴を現在の注釈の特徴と同時に比較することを特徴とする請求項１８に記載の装置。
前記比較手段は、
各表現の問合せの特徴を現在の注釈の特徴と整列させ、各整列させた群が、各表現の問合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの群を形成する手段と、
整列させた特徴からなる各群の特徴同士を比較し、整列させた特徴からなる群の特徴間の類似性を表す比較スコアを生成する特徴比較器とを備え、
前記組合せ手段が、現在の注釈に関する整列させた特徴からなる全ての群の比較スコアを組み合わせ、入力問合せと現在の注釈との間の類似度を求めるように動作することを特徴とする請求項１８又は１９に記載の装置。
前記特徴比較器が、整列させた各群中の特徴について、群中の特徴を１組の所定の特徴から得られた複数の特徴のそれぞれと比較し、前記群中の特徴と１組の特徴のそれぞれとの間の類似性を表す対応する複数の中間比較スコアを求める、整列させた特徴からなる各群中の各特徴用のそれぞれの特徴を比較する手段と、それぞれの特徴比較手段によって生成された複数の中間比較スコアを組み合わせることによって、整列させた群の前記比較スコアを算出する手段とを備えることを特徴とする請求項２０に記載の装置。
複数の情報エントリのそれぞれが、特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する装置であって、
特徴のシーケンスを含む入力問合せを受信する手段と、
問合せの特徴のシーケンスを各注釈の特徴と比較し、１組の比較結果を求める、請求項１から１７のいずれかに記載の装置と、
前記比較結果を使用して前記データベースから検索すべき前記情報を識別する手段とを備えることを特徴とする装置。
複数の情報エントリのそれぞれが、音声の特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する装置であって、
音声の特徴のシーケンスを含む入力問合せを受信する手段と、
音声の特徴からなる前記問合せのシーケンスと各注釈の音声の特徴を比較し、１組の比較結果を求める比較手段と、
前記比較結果を使用して、前記データベースから検索すべき前記情報を識別する手段とを備える装置において、
前記比較手段が、複数の異なる比較動作モードを有し、該装置が、
（ｉ）音声の特徴からなる問合せのシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスか、及び（ｉｉ）現在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスかを判定し、判定結果を出力する手段と、
現在の注釈について、前記判定結果に応じて前記比較手段の動作モードを選択する手段とをさらに備えることを特徴とする装置。
前記入力問合せと前記現在の注釈が共に音声から生成されたものであると前記判定手段が判定したときに、前記選択手段が、前記比較手段が請求項１から１７のいずれかに記載の装置として働くように前記動作モードを選択するように動作することを特徴とする請求項２３に記載の装置。
１つ又は複数の前記情報エントリが、関連する注釈であることを特徴とする請求項２２から２４のいずれか１項に記載の装置。
特徴比較装置であって、
各シーケンスが、入力問合せの表現を表す、問合せの特徴からなる第１及び第２のシーケンスを受信する手段と、
注釈の特徴のシーケンスを受信する手段と、
各表現の問合せの特徴を注釈の特徴と整列させ、各整列させた群が各表現の問合せの特徴と注釈の特徴とを含む、特徴からなるいくつかの整列させた群を形成する手段と、
特徴からなる各整列させた群の特徴同士を比較し、整列させた群の特徴からなる群間の特徴間の類似性を表す比較スコアを生成する手段と、
特徴からなる全ての整列させた群の比較スコアを組み合わせ、入力問合せの表現と注釈との間の類似度を求める手段とを備える装置において、
前記比較スコアを生成する手段は、
整列させた各群について、特徴からなる整列させた群における第１の問合せのシーケンスの特徴を、１組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、前記第１の問合せのシーケンスの特徴と１組の特徴におけるそれぞれの特徴との間の類似性を表す対応する複数の中間比較スコアを求める第１の特徴比較器と、
整列させた各群について、整列させた特徴からなる群における第２の問合せのシーケンスの特徴を、１組の特徴における前記複数の特徴のそれぞれと比較し、前記第２の問合せのシーケンスの特徴と１組の特徴におけるそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを求める第２の特徴比較器と、
整列させた特徴からなる各群について、整列させた群における注釈の特徴を、
１組の特徴における前記複数の特徴のそれぞれと比較し、前記注釈の特徴と１組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを示す第３の特徴比較器と、
前記複数の中間比較スコアを組み合わせることにより、整列させた群の前記比較スコアを算出する手段と、
を備えることを特徴とする特徴比較装置。
複数の情報エントリのそれぞれが、音声注釈の特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する装置であって、
入力音声問合せの複数の表現を受信する手段と、
入力問合せの各表現を、表現内の音声を表す音声問合せの特徴のシーケンスに変換する手段と、
各表現の音声注釈の特徴を各注釈の音声問合せの特徴と比較し、入力問合せと各注釈との間に類似度を求める手段と、
全ての注釈について組合せ手段によって求めた類似度を使用して、前記データベースから検索すべき前記情報を識別するための手段とを備える装置であって、
前記類似度を求める手段は複数の異なる比較動作モードを有し、該装置が、現在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスかを判定し、判定結果を出力する手段と、
現在の注釈について、前記判定結果に応じて前記類似度を求める手段の動作モードを選択する手段と、
をさらに備えることを特徴とする装置。
特徴比較方法であって、
第１の特徴のシーケンス及び第２の特徴のシーケンスを受信するステップと、第１のシーケンスの特徴を第２のシーケンスの特徴と整列させ、整列させた特徴からなるいくつかの対を形成するステップと、
整列させた特徴からなる各対の特徴同士を比較し、整列させた１対の特徴間の類似性を表す比較スコアを生成するステップと、
整列させた特徴からなる対の比較スコアを組み合わせ、第１の特徴のシーケンスと第２の特徴のシーケンスとの間の類似度を求めるステップとを含む方法であって、
前記比較スコアを生成するステップは、
整列させた各対について、整列させた対における第１のシーケンスの特徴を、１組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、前記第１のシーケンスの特徴と１組の特徴におけるそれぞれの特徴との間の類似性を表す対応する複数の中間比較スコアを求める第１の比較ステップと、
整列させた各対について、整列させた対における第２のシーケンスの特徴を、１組の特徴における前記複数の特徴のそれぞれと比較し、前記第２のシーケンスの特徴と１組の特徴におけるそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを求める第２の比較ステップと、
前記複数の中間比較スコアを組み合わせることにより、整列させた１対について前記比較スコアを算出するステップと、
を含むことを特徴とする特徴比較方法。
前記第１及び第２のステップにおいて、各特徴が前記１組の所定の特徴に含まれる第１のシーケンスの特徴と第２のシーケンスの特徴が比較されることを特徴とする請求項２８に記載の方法。
前記比較スコアを生成するステップにおいて、整列させた対の第２のシーケンスの特徴を整列させた対の第１のシーケンスの特徴として混同する確率を表す、整列させた対の特徴の比較スコアが生成されることを特徴とする請求項２８又は２９に記載の方法。
前記第１及び第２の比較ステップにおいて、１組の所定の特徴から得られた対応する特徴を、整列させた１対の特徴と混同する確率を示す中間比較スコアが求められることを特徴とする請求項３０に記載の方法。
前記計算ステップにおいて、（ｉ）整列させた対の特徴における第１及び第２のシーケンスの特徴が、組の同じ特徴と比較する際に得られた中間スコアと掛け合わされ、複数の掛け合わされた中間比較スコアが求められ、（ｉｉ）結果として得られる掛け合わされた中間スコアが合計され、整列させた１対の前記比較スコアが算出されることを特徴とする請求項３１に記載の方法。
前記１組の所定の特徴における前記各特徴が、特徴のシーケンス内での所定の発生確率を有し、前記計算ステップにおいて、掛け合わされた中間比較スコアを生成するのに用いられる、組の特徴の各発生確率を用いて、前記掛け合わされた中間比較スコアのそれぞれが重み付けされることを特徴とする請求項３２に記載の方法。
前記計算ステップにおいて、次式が計算され、

上式で、ｑj及びａiがそれぞれ、整列させた第１及び第２のシーケンスの特徴からなる対であり、Ｐ（ｑj｜ｐr）が、設定された特徴ｐrを第１のシーケンスの特徴ｑjとして混同する確率であり、Ｐ（ａi｜ｐr）が、設定された確率ｐrを第２のシーケンスの特徴ａiとして混同する確率であり、Ｐ（ｐr）が、設定された特徴ｐrが特徴のシーケンスにおいて発生する確率を表すことを特徴とする請求項３３に記載の方法。
前記整列ステップにおいて、前記第１及び第２の特徴のシーケンスにおける特徴の削除及び挿入が識別され、前記比較スコアを生成するステップにおいて、整列させた１対の特徴の近くで行われた、前記整列ステップによって識別された特徴の削除及び挿入に応じて、整列させた１対の特徴の前記比較スコアが生成されることを特徴とする請求項２８から３４のいずれか１項に記載の方法。
前記整列ステップにおいて、ダイナミックプログラミング技術を使用して前記第１及び第２の特徴のシーケンスを整列させることを特徴とする請求項２８から３５のいずれか１項に記載の方法。
前記整列ステップにおいて、前記第１の特徴のシーケンスと第２の特徴のシーケンスとの間の複数の可能な整列が漸進的に判定され、前記比較スコアを生成するステップにおいて、前記整列ステップによって判定された整列させた特徴からなる各可能な対の比較スコアが求められることを特徴とする請求項３６に記載の方法。
前記比較スコアを生成するステップにおいて、前記可能な整列が漸進的に判定される間に前記比較スコアが生成されることを特徴とする請求項３７に記載の方法。
前記整列ステップにおいて、前記第１の特徴のシーケンスと前記第２の特徴のシーケンスとの間の最適な整列が判定され、前記組合せステップが、整列させた特徴からなる最適な対のみの比較スコアを組み合わせることによって前記類似度を求めるように動作することを特徴とする請求項３６乃至３８のいずれか１項に記載の方法。
前記第１及び第２の特徴のシーケンス内の各特徴が、前記１組の所定の特徴に属し、前記第１及び第２の比較ステップにおいて、前記１組の所定の特徴を互いに関係付ける所定のデータを使用して前記中間スコアを求められることを特徴とする請求項２８から３９のいずれか１項に記載の方法。
前記第１の比較ステップで使用される所定のデータが、第１の特徴のシーケンスを生成するのに用いられるシステムに依存し、前記第２の比較ステップで使用される所定のデータが、前記第１の比較ステップで使用される所定のデータと異なり、第２の特徴のシーケンスを生成するのに用いられるシステムに依存することを特徴とする請求項４０に記載の方法。
前記第１の特徴のシーケンスが小単語単位を含み、前記第１の比較ステップにおいて、誤入力確率及び／又はミススペル確率を使用して前記中間比較スコアが求められることを特徴とする請求項２８から４１のいずれか１項に記載の方法。
前記第２の特徴のシーケンスが、音声入力から生成された小単語単位のシーケンスを含み、前記第２の比較ステップにおいて、誤認識確率を使用して前記中間スコアが求められることを特徴とする請求項２８から４２のいずれか１項に記載の方法。
前記受信ステップにおいて、３つ以上の特徴のシーケンスが受信され、
前記整列ステップにおいて、受信された各特徴のシーケンスの特徴同士が整列させられ、整列させた特徴からなるいくつかの群が形成され、
前記比較スコアを生成するステップにおいて、整列させた特徴からなる各群中の特徴同士が比較され、整列させた特徴からなる各群間の類似性を表す比較スコアが生成され、
前記組合せステップにおいて、整列させた特徴からなる全ての群の比較スコアが組み合わされ、３つ以上の特徴のシーケンス間の類似度が求められることを特徴とする請求項２８から４３のいずれか１項に記載の方法。
前記整列ステップにおいて、特徴のシーケンスが互いに同時に整列させられることを特徴とする請求項４４に記載の方法。
前記受信ステップにおいて、複数の第２の特徴のシーケンスが受信され、前記整列ステップにおいて、前記第１の特徴のシーケンスがそれぞれの前記第２の特徴のシーケンスと整列させられ、各整列ごとの、特徴からなるいくつかの整列させた対が形成され、前記組合せステップにおいて、各整列ごとの比較スコアが組み合わされ、第１の特徴のシーケンスと前記複数の第２の特徴のシーケンスとの間のそれぞれの類似度が求められることを特徴とする請求項２８から４５のいずれか１項に記載の方法。
前記組合せ手段から出力された前記複数の類似度を比較するステップと、前記第１の特徴のシーケンスに最も類似の第２の特徴のシーケンスを示す信号を出力するステップとをさらに備えることを特徴とする請求項４６に記載の方法。
複数の情報エントリのそれぞれが、注釈の特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する方法であって、
入力問合せの複数の表現を受信するステップと、
入力問合せの各表現を、表現を表す問合せの特徴のシーケンスに変換するステップと、
各表現の問合せの特徴を各注釈の特徴と比較し、１組の比較結果を求めるステップと、
各表現の問合せの特徴を同じ注釈の特徴と比較することによって得られた比較結果を互いに組み合わせ、各注釈について、入力問合せと注釈との間の類似度を求めるステップと、
組合せステップによって全ての注釈について求められた類似度を使用して、前記データベースから検索すべき前記情報を識別するステップと、
を含むことを特徴とする方法。
前記比較結果を求めるステップにおいて、各表現の問合せの特徴が現在の注釈の特徴と同時に比較されることを特徴とする請求項４８に記載の方法。
前記比較結果を求めるステップは、
各表現の問合せの特徴を現在の注釈の特徴と整列させ、各整列させた群が、各表現の問合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの群を形成するステップと、
特徴比較器を使用して、整列させた特徴からなる各群の特徴同士を比較し、整列させた特徴からなる群の特徴間の類似性を表す比較スコアを生成するステップとを含み、
前記組合せステップにおいて、現在の注釈に関する整列させた特徴からなる全ての群の比較スコアが組み合わされ、入力問合せと現在の注釈との間の前記類似度が求められることを特徴とする請求項４８又は４９に記載の方法。
前記問合せの特徴のシーケンス及び前記注釈の特徴のシーケンスがそれぞれ、オーディオ信号を表すことを特徴とする請求項４８から５０のいずれか１項に記載の方法。
前記注釈のいくつか又は全ての音声注釈の特徴のシーケンスが、オーディオ信号又はテキスト注釈から生成されることを特徴とする請求項４８から５１のいずれか１項に記載の方法。
特徴比較方法であって、
第１の特徴のシーケンス及び第２の特徴のシーケンスを受信するステップと、
第１のシーケンスの特徴を第２のシーケンスの特徴と整列させるステップと、
整列させた特徴からなる各対を比較し、整列させた１対の特徴の比較スコアを生成するステップと、
整列させた特徴からなる全ての対の比較スコアを組み合わせ、第１の特徴のシーケンスと第２の特徴のシーケンスとの間の類似度を求めるステップとを含む方法であって、
前記比較スコアを生成するステップは、
第１のシーケンスの整列させた特徴を複数の可能な特徴のそれぞれと比較し、対応する複数の中間比較スコアを求める第１の比較ステップと、
第２のシーケンスの整列させた特徴を複数の可能な特徴のそれぞれと比較し、他の対応する複数の中間比較スコアを求める第２の比較ステップと、
前記複数の中間比較スコアを組み合わせ、整列させた１対の特徴の前記比較スコアを求めるステップと、
を含むことを特徴とする特徴比較方法。
複数の情報エントリのそれぞれが、特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する方法であって、
特徴のシーケンスを含む入力問合せを受信するステップと、
請求項２８から５３のいずれかに記載された方法を使用して、問合せの特徴のシーケンスを各注釈の特徴と比較し、１組の比較結果を求めるステップと、
前記比較結果から、前記データベースから検索すべき前記情報を識別するステップと、
を含むことを特徴とする方法。
複数の情報エントリのそれぞれが、音声の特徴のシーケンスを含む注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する方法であって、
音声の特徴のシーケンスを含む入力問合せを受信するステップと、
音声の特徴からなる前記問合せのシーケンスと各注釈の音声の特徴を比較し、１組の比較結果を求めるステップと、
前記比較結果を使用して、前記データベースから検索すべき前記情報を識別するステップとを含む方法において、
前記比較結果を求めるステップにおいて、複数の異なる比較技術を使用して前記比較を行うことができ、該方法が、
（ｉ）音声の特徴からなる問合せのシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスか、及び（ｉｉ）現在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスかを判定し、判定結果を出力するステップと、
現在の注釈について、前記判定結果に応じて前記比較結果を求めるステップにおける前記比較を行うのに用いられる技術を選択するステップと、
をさらに含むことを特徴とする方法。
前記入力問合せと前記現在の注釈が共に音声から生成されたものであると前記判定ステップが判定したときに、前記比較結果を求めるステップにおいて、請求項２８から５３のいずれか１項に記載の方法が実行されることを特徴とする請求項５５に記載の方法。
複数の情報エントリのそれぞれが、注釈の特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する方法であって、
入力問合せの複数の表現を受信するステップと、
入力問合せの各表現を、該表現を表わす問合せの特徴のシーケンスに変換するステップと、
各表現の問合せの特徴を各注釈の特徴と比較し、１組の比較結果を求めるステップと、
各表現の問合せの特徴を同じ注釈の特徴と比較することによって得られた比較結果を組み合わせ、各注釈について、入力問合せと注釈との間の類似度を求めるステップと、
全ての注釈に対する組合せステップによって求められた類似度を使用して、前記データベースから検索すべき前記情報を識別するステップと、
を含むことを特徴とする方法。
前記比較結果を求めるステップにおいて、各表現の問合せの特徴が現在の注釈の特徴と同時に比較されることを特徴とする請求項５７に記載の方法。
前記比較結果を求めるステップが、
各表現の問合せの特徴を現在の注釈の特徴と整列させ、各整列させた群が、各表現の問合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの群を形成するステップと、
特徴比較器を使用して、整列させた特徴からなる各群の特徴同士を比較し、整列させた特徴からなる群の特徴間の類似性を表す比較スコアを生成するステップとを含み、
前記組合せステップにおいて、現在の注釈に関する整列させた特徴からなる全ての群の比較スコアが組み合わされ、入力問合せと現在の注釈との間の前記類似度が求められることを特徴とする請求項５７又は５８に記載の方法。
前記特徴比較器が、整列させた群中の各特徴を、１組の所定の特徴から得られた複数の特徴のそれぞれと比較し、該群中の特徴と１組の特徴のそれぞれとの間の類似性を表す対応する複数の中間スコアを求め、生成された複数の対応する中間比較スコアを組み合わせることによって、整列させた群の前記比較スコアを算出することを特徴とする請求項５９に記載の装置。
特徴比較方法であって、
各シーケンスが、入力問合せの表現を表す、問合せの特徴からなる第１及び第２のシーケンスを受信するステップと、
注釈の特徴のシーケンスを受信するステップと、
各表現の問合せの特徴を注釈の特徴と整列させ、各整列させた群が各表現の問合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの群を形成するステップと、
整列させた特徴からなる各群の特徴同士を比較し、整列させた群の特徴間の類似性を表す比較スコアを生成するステップと、
整列させた特徴からなる全ての群の比較スコアを組み合わせ、入力問合せの表現と注釈との間の類似度を求めるステップとを含む方法において、
前記比較スコアを生成するステップは、
整列させた各群について、整列させた群における第１の問合せのシーケンスの特徴を、１組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、前記第１の問合せのシーケンスの特徴と１組の特徴におけるそれぞれの特徴との間の類似性を表す対応する複数の中間比較スコアを求めるステップと、
整列させた各群について、整列させた群における第２の問合せのシーケンスの特徴を、１組の特徴における前記複数の特徴のそれぞれと比較し、前記第２の問合せのシーケンスの特徴と１組の特徴におけるそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを求めるステップと、
整列させた各群について、整列させた群における注釈の特徴を、１組の特徴における前記複数の特徴のそれぞれと比較し、前記注釈の特徴と１組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを示すステップと、
前記複数の中間比較スコアを組み合わせることにより、整列させた群の前記比較スコアを算出するステップと、
を含むことを特徴とする特徴比較方法。
複数の情報エントリのそれぞれが、音声注釈の特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する方法であって、
入力音声問合せの複数の表現を受信するステップと、
入力問合せの各表現を、表現内の音声を表す音声問合せの特徴のシーケンスに変換するステップと、
音声問合せの特徴を各注釈の各表現の音声注釈の特徴と比較し、入力問合せと各注釈との間に類似度を求めるステップと、
全ての注釈に対する組合せステップによって求められた類似度を使用して、前記データベースから検索すべき前記情報を識別するステップとを含む方法であって、
前記類似度を求めるステップは複数の異なる比較動作モードを有し、該方法が、
現在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスかを判定し、判定結果を出力するステップと、
現在の注釈について、前記判定結果に応じて前記類似度を求めるステップの動作モードを選択するステップとをさらに含むことを特徴とする方法。
１つ又は複数の前記情報エントリが、関連する注釈であることを特徴とする請求項５４から６２のいずれか１項に記載の方法。
プロセッサを請求項２８から６３のいずれか１項に記載の方法を実施するように制御する、プロセッサによって実施できる命令を記憶することを特徴とする記憶媒体。