JP2003513383A

JP2003513383A - パターン整合方法及び装置

Info

Publication number: JP2003513383A
Application number: JP2001534133A
Authority: JP
Inventors: フィリップ，ニールガーナー，; ジェイソン，ピーター，アンドリューチャールズワース，; 麻子樋口
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1999-10-28
Filing date: 2000-10-25
Publication date: 2003-04-08
Anticipated expiration: 2020-10-25
Also published as: DE60036486D1; EP1228452B1; JP3689670B2; US7212968B1; US7295980B2; EP1228452A2; WO2001031627A2; CN1409842A; DE60036486T2; US20070150275A1; CN1329861C; WO2001031627A3

Abstract

(57)【要約】テキスト又は音声から生成することのできる両方又は全てを２つ以上の音韻シーケンスを整合させるシステムが提供される。２つのシーケンスがテキストから生成されるか、それとも音声から生成されるか否かに依存する制約を有し、ダイナミックプログラミングパスのスコアが適当な場合に音韻異聴スコア、音韻挿入スコア、及び音韻削除スコアによって重み付けされるダイナミックプログラミング整合技術を使用することが好ましい。

Description

【発明の詳細な説明】

【０００１】本発明は、音韻のシーケンスを整合させる装置及び方法に関する。ユーザが入
力した問合せに応答して、関連する音声注釈を有するデータファイルのデータベ
ースを探索するために本発明を用いることができる。入力される問合せは、音声
であっても、あるいはキーボードから入力問合せでもよい。

【０００２】情報のデータベースは公知であり、このようなデータベースでは、所望の情報
を高速にかつ効率的に見つけてデータベースから取り込むにはどうすべきかが問
題である。既存のデータベース探索ツールは、ユーザが、キーボードから入力さ
れたキーワードを使用してデータベースを探索できるようにする。これは高速で
効率的であるが、この種の探索は、ビデオデータベースやオーディオデータベー
スなど様々な種類のデータベースに適していない。

【０００３】オーディオファイル及びビデオファイル内の音声内容の音声表記を用いてこの
ようなビデオデータベース及びオーディオデータベースに注釈付けし、その後の
検索は、ユーザが入力した問合せの音声表記をデータベース内の音韻注釈データ
と比較することによって達成することが最近提案されている。音韻のシーケンス
を整合させるために提案されたこの技術では、まず各特徴が音韻ストリングの重
なり合う一定サイズの断片とみなされる、問合せ中の１組の特徴が定義され、次
いで問合せと注釈の両方において各特徴の発生頻度が識別され、最後にこれらの
発生頻度の余弦度を使用して問合せと注釈の間の類似性の程度が判定される。こ
の種の音韻比較技術の１つの利点は、問合せの単語のシーケンスが注釈の単語の
シーケンスに厳密には一致していない状況に対処できることである。しかし、特
に、問合せと注釈が異なる速度で発声されたときや、問合せから一部の単語が削
除され、注釈からは削除されないか、あるいは注釈から一部の単語が削除され、
問合せからは削除されない場合にエラーが起こりやすいという問題がある。

【０００４】本発明の目的は、データベースを探索するための他のシステムを提供すること
である。

【０００５】一態様によれば、本発明は、特徴の第１及び第２のシーケンスを受信する手段
と、第１のシーケンスの特徴を第２のシーケンスの特徴と整列させ、いくつかの
整列させた特徴対を形成する手段と、整列させた各特徴対の各特徴を比較し、整
列させた特徴対の間の類似性を表す比較スコアを生成する手段と、全ての整列さ
せた特徴対の比較スコアを組み合わせ、第１の特徴のシーケンスと第２の特徴の
シーケンスとの間の類似性の程度を提供する手段とを備える特徴比較装置であっ
て、比較手段が、整列させた各対について、整列させた対における第１のシーケ
ンスの特徴を、１組の所定の特徴から取り出された複数の特徴のそれぞれと比較
し、第１のシーケンスの特徴と１組の特徴から得たそれぞれの特徴との間の類似
性を表す対応する複数の中間比較スコアを提供する第１の比較手段と、整列させ
た各対について、整列させた対における第２のシーケンスの特徴を、１組の特徴
から得た複数の特徴のそれぞれと比較し、第２のシーケンスの特徴と１組の特徴
から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコ
アを示す第２の比較手段と、複数の中間比較スコアを組み合わせることにより、
整列させた対の比較スコアを算出する手段とを備えることを特徴とする特徴比較
装置を提供する。このようなシステムは、認識システムが特徴を誤って認識する
ことによる第１の特徴のシーケンスと第２の特徴のシーケンスの両方の変動を考
慮するという利点を有する。

【０００６】他の態様によれば、本発明は、データベース間の各エントリが、音声の特徴か
らなるシーケンスを含む情報エントリのデータベースを探索し、データベースが
検索すべき情報を識別する装置であって、音声の特徴のシーケンスを含む入力問
合せを受信する手段と、音声の特徴からなる問合せのシーケンスと音声の特徴か
らなるデータベースシーケンスの各特徴を比較し、１組の比較結果を与える手段
と、比較結果を使用して、データベースから検索すべき情報を識別する手段とを
備える装置において、比較手段が、複数の異なる比較動作モードを有し、該装置
が、（ｉ）音声の特徴からなる問合せのシーケンスがオーディオ信号から生成さ
れたシーケンスか、それともテキストから生成されたシーケンスか、及び（ｉｉ
）音声の特徴からなる現在のデータベースシーケンスがオーディオ信号から生成
されたシーケンスか、それともテキストから生成されたシーケンスかを判定する
ための、及び判定結果を出力するための手段と、現在のデータベースシーケンス
について、判定結果に応じて比較手段の動作モードを選択する手段とをさらに備
えることを特徴とする装置を提供する。入力問合せと注釈が共に音声から生成さ
れたと判定手段が判定したときに、比較手段が上述した装置として動作すること
が好ましい。

【０００７】他の態様によれば、本発明は、各情報エントリが、音声注釈の特徴のシーケン
スを含む関連する注釈を有する、複数の情報エントリを含むデータベースを検索
し、データベースから検索すべき情報を識別する装置であって、入力音声問合せの複数のオーディオ表現を受信する手段と、入力問合せの各表現を、表現内の音声を表す、音声問合せの特徴からなるシー
ケンスに変換する手段と、各表現の音声問合せの特徴を各注釈の音声注釈の特徴と比較し、１組の比較結
果を与える手段と、各表現の音声問合せの特徴を同じ注釈の音声注釈の特徴と比較することによっ
て得られた比較結果を互いに組み合わせ、各注釈について、入力問合せと注釈と
の間の類似性の程度を示す手段と、組合せ手段によって全ての注釈について示された類似性の程度を使用して、デ
ータベースから検索すべき情報を識別する手段とを備える装置を提供する。

【０００８】他の態様によれば、本発明は、特徴比較装置であって、各シーケンスが、入力問合せの表現を表す、問合せの特徴からなる第１及び第
２のシーケンスを受信する手段と、注釈の特徴のシーケンスを受信する手段と、各表現の問合せの特徴を注釈の特徴と整列させ、各群が、各表現から得た問合
せの特徴と注釈の特徴とを備える、いくつかの整列させた特徴群を形成する手段
と、整列させた各特徴群の各特徴を比較し、整列させた群の各特徴間の類似性を表
す比較スコアを生成する手段と、全ての整列させた特徴群の比較スコアを組み合わせ、入力問合せの表現と注釈
との間の類似性の程度を示す手段とを備える装置において、比較手段が、整列させた各群について、整列させた群中の第１の問合せのシーケンスの特徴
を、１組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、第１の
問合せのシーケンスの特徴と１組の特徴から得たそれぞれの特徴との間の類似性
を表す対応する複数の中間比較スコアを示す第１の特徴比較器と、整列させた各群について、整列させた群中の第２の問合せのシーケンスの特徴
を、１組の特徴から得た複数の特徴のそれぞれと比較し、第２の問合せのシーケ
ンスの特徴と１組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応
する複数の中間比較スコアを示す第２の特徴比較器と、整列させた各群について、整列させた群中の注釈の特徴を、１組の特徴から得
た複数の特徴のそれぞれと比較し、注釈の特徴と１組の特徴から得たそれぞれの
特徴との間の類似性を表す他の対応する複数の中間比較スコアを示す第３の特徴
比較器と、複数の中間比較スコアを組み合わせることにより、整列させた群の比較スコア
を算出する手段とを備えることを特徴とする特徴比較装置を提供する。

【０００９】次に、本発明の例示的な実施形態について、図１から図２８を参照して説明す
る。

【００１０】本発明の実施形態は、専用ハードウェア回路を使用して実施することができる
が、以下に説明する実施形態は、パーソナルコンピュータ、ワークステーション
、複写機、ファックス機、パーソナルデジタルアシスタント（ＰＤＡ）などの処
理ハードウェアに関連して実行される異なるコンピュータソフトウェア又はコー
ドで実施される。

【００１１】（データファイル注釈）図１には、ユーザが、データベース２９に格納されるデータファイル９１に注
釈付けするためにキーボード３及びマイクロフォン７を介してキーボードからの
注釈データ又は音声注釈データを入力できるようにするユーザ端末５９の形態が
示されている。この実施形態では、データファイル９１は、たとえばカメラによ
って生成された二次元画像を含んでいる。ユーザ端末５９は、ユーザ３９が、後
でデータベース２９から２Ｄ画像を検索するときに使用できる適切な注釈を２Ｄ
画像に付与できるようにする。この実施形態では、キーボードからの入力は、キ
ーボードからの入力が音声表記ユニット７５によって音韻（又は音韻状）ラティ
ス注釈データ及び単語ラティス注釈データに変換され、このデータが制御ユニッ
ト５５に渡される。図２には、キーボードからの入力「タージマハルの写真」に
ついて生成された音韻ラティス注釈データ及び単語ラティス注釈データの形態が
示されている。図２に示されているように、音韻ラティス及び単語ラティスは、
単一の入口点及び単一の出口点を有する非循環有向グラフである。このグラフは
ユーザの入力の様々な解析を表す。図示のように、音声表記ユニット７５は、内
部音声ディクショナリ（図示せず）から、キーボードからの入力に対応するいく
つかの異なる可能な音韻ストリングを識別する。

【００１２】同様に、音声入力は、自動音声認識ユニット５１によって音韻（又は音韻状）
ラティス注釈データ及び単語ラティス注釈データに変換され、このデータがやは
り制御ユニット５５に渡される。自動音声認識ユニット５１は、（ｉ）入力され
た発声の音韻ラティスを生成し、（ｉｉ）次いで音韻ラティス内の単語を識別し
、（ｉｉｉ）最後にこの２つを組み合わせることによって、この音韻ラティス注
釈データ及び単語ラティス注釈データを生成する。図３には、入力された発声「
タジマハールの写真」について生成された音韻ラティス注釈データ及び単語ラテ
ィス注釈データの形態が示されている。図示のように、自動音声認識ユニットは
、この入力された発声に対応するいくつかの異なる可能な音韻ストリングを識別
する。音声認識技術分野で公知のように、これらの異なる可能性は、音声認識ユ
ニット５１によって生成され、音声認識ユニットの出力の信頼性を示す独自の重
み付けを有することができる。しかし、この実施形態では、各音韻のこの重み付
けは行われない。図３に示されているように、自動音声認識ユニット５１が識別
する音韻ラティス内の単語は、音韻ラティスデータ構造に組み込まれる。上記で
与えた句の例に関して示したように、自動音声認識ユニット５１は単語「写真（
ｐｉｃｔｕｒｅ）」、「〜の（ｏｆ）」、「ｏｆｆ」、「ｔｈｅ」、「ｏｔｈｅ
ｒ」、「ｔａ」、「ｔａｒ」、「ｊａｍ」、「ａｈ」、「ｈａｌ」、「ｈａ」、
及び「ａｌ」を識別する。

【００１３】図３に示されているように、自動音声認識ユニット５１によって生成される音
韻ラティス及び単語ラティスは、単一の入口点及び単一の出口点を有する非循環
有向グラフである。このグラフは、ユーザが入力した注釈の発声の様々な解析を
表す。このグラフは、いくつかの単語とそれに代わる単語との単なるシーケンス
ではない。というのは、各単語を単一の他の単語で置き換える必要がなく、１つ
の単語を２つ以上の単語又は音韻で置き換えることができ、構造全体が１つ又は
複数の単語又は音韻に代わるものを形成することができるからである。したがっ
て、音韻ラティス注釈データ及び単語ラティス注釈データ内のデータの密度は、
オーディオ注釈入力に関するＮ最良単語リストを生成するシステムの場合と同様
に指数関数的に成長するのではなく、基本的に注釈データ全体にわたって線形の
ままである。

【００１４】この実施形態では、自動音声認識ユニット５１又は音声表記ユニット７５によ
って生成される注釈データは以下の一般的な形式を有する。

【００１５】ヘッダ −単語であるか、音韻であるか、混合されたものであるかを示すフラグ −メモリ内の注釈データの各ブロックの位置を所与の時点に関連付ける時間
インデックス −使用される単語セット（すなわち、ディクショナリ） −使用される音韻セット −語彙が属する言語 −音韻確率データブロック（ｉ）ｉ＝０、１、２、．．．ノードＮj ｊ＝０、１、２、．．． −ノードの、ブロックの開始位置からの時間のずれ −音韻リンク（ｋ）ｋ＝０、１、２、．．．ノードＮjに対するずれ＝Ｎk−Ｎj（Ｎkは、リンクＫが連結されている
ノード）リンク（ｋ）に関連する音韻 −単語リンク（ｌ）ｌ＝０、１、２、．．．ノードＮjに対するずれ＝Ｎi−Ｎj（Ｎjは、リンクｌが連結されている
ノード）リンク（ｌ）に関連する単語データベース内の全てのデータファイルが、上述の音韻ラティス注釈データと
単語ラティス注釈データの組合せを含むとは限らず、この場合、異なる探索方式
を使用してこの注釈データが探索されるので、注釈データが単語注釈データであ
るか、それとも音韻注釈データであるか、それともそれらが混合されたものであ
るかを識別するフラグが与えられる。

【００１６】この実施形態では、注釈データは、探索が所与の探索に関する注釈データの中
央にジャンプできるようにノードのブロックに分割される。したがって、ヘッダ
は、メモリ内の注釈データの各ブロックの位置を開始時間からこのブロックの開
始位置に対応する時間までの時間のずれに関連付ける時間インデックスを含む。

【００１７】ヘッダは、使用される単語セット（すなわち、ディクショナリ）を定義するデ
ータ、使用される音韻及びそれらの確率、ならびに語彙が属する言語も含む。ヘ
ッダは、注釈データと、注釈データの生成時に使用された注釈データの適切な設
定とを生成するのに用いられる自動音声認識システムの詳細を含むこともできる
。

【００１８】注釈データの各ブロックの後に、ブロック内の各ノードについて、ヘッダ及び
ＩＤ、ノードの、ブロックの開始位置からの時間のずれ、このノードを音韻によ
って他のノードに連結する音韻リンク、ならびにこのノードを単語によって他の
ノードに連結する単語リンクが位置する。各音韻リンク及び単語リンクは、この
リンクに関連する音韻又は単語を識別する。これらのリンクは、現在のノードに
対するずれを識別する。たとえば、ノードＮ５０が音韻リンクによってノードＮ
５５にリンクされている場合、ノードＮ５０のずれは５である。当業者なら理解
できるように、このようなずれ表示を使用することによって、連続的な注釈デー
タを別々のブロックに分割することができる。

【００１９】自動音声認識ユニットがその出力の信頼性を示す重みを出力する一実施形態で
は、このような重み、すなわち信頼性スコアもデータ構造内に含められる。具体
的には、ノードに到着する信頼性を示す信頼性スコアが各ノードごとに与えられ
、音韻リンク及び単語リンクのそれぞれが、対応する音韻又は単語に与えられる
重みに応じた遷移スコアを含む。この場合、このような重みを使用して、信頼性
スコアの低い一致を破棄することによってデータファイルの探索及び検索が制御
される。

【００２０】制御ユニット５５は、ユーザの入力に応じて、データベース２９から適切な２
Ｄファイルを検索し、生成された音韻注釈データ及び単語注釈データをデータフ
ァイル９１に付加する。次いで、増やされたデータファイルはデータベース２９
に戻される。この注釈ステップ中に、制御ユニット５５はディスプレイ５７上に
２Ｄ画像を表示するように動作することができ、したがって、ユーザは、注釈デ
ータに正しいデータファイル９１を確実に関連付けることができる。

【００２１】以下に詳しく説明するように、このような音韻ラティス注釈データ及び単語ラ
ティス注釈データを使用すると、データベース２９を高速にかつ効率的に探索し
、データベース２９に格納されている所望の２Ｄ画像データファイルを識別し検
索することができる。これは、まず単語データを使用してデータベース２９を探
索し、この探索において必要なデータファイルが得られなかった場合に、よりロ
バストな音韻データを使用してさらに探索を実行することによって行うことがで
きる。音声認識業界の当業者には認識されるように、音韻がディクショナリに依
存し、かつ音韻によってシステムは名称、場所、外国語などの単語に語彙から対
処できるようになるので、音韻データを使用することはよりロバストである。音
韻データを使用することによって、システムを将来も問題なく使用することが可
能になる。これは、最初の注釈が音声によって入力され、最初の自動音声認識シ
ステムが入力された注釈の単語を理解できなかったときに、データベース２９に
格納されているデータファイルを検索することができるからである。

【００２２】（データファイル検索）図４は、この実施形態で、注釈付けされた２Ｄ画像をデータベース２９から検
索するのに用いられるユーザ端末５９の形態を示すブロック図である。このユー
ザ端末５９はたとえば、パーソナルコンピュータ、ハンドヘルド装置などでよい
。図示のように、この実施形態では、ユーザ端末５９は、注釈付けされた２Ｄ画
像のデータベース２９、自動音声認識ユニット５１、音声表記ユニット７５、キ
ーボード３、マイクロフォン７、探索エンジン５３、制御ユニット５５、及びデ
ィスプレイ５７を備える。動作時に、ユーザは、マイクロフォン７を介して音声
問合せを入力するか、あるいはキーボード３を介して問合せを入力し、この問合
せが自動音声認識ユニット５１又は音声表記ユニット７５によって処理され、対
応する音韻データ及び単語データが生成される。このデータは音韻ラティス及び
単語ラティスの形をとることもできるが、このことは必須ではない。この音韻デ
ータ及び単語データは次いで、制御ユニット５５に入力され、制御ユニット５５
は、探索エンジン５３を使用してデータベース２９の適切な探索を開始すること
ができる。次いで、探索エンジン５３によって生成された探索の結果が制御ユニ
ット５５に送り返され、制御ユニット５５は探索結果を分析し、適切な表示デー
タ（たとえば、検索された２Ｄ画像）を生成し、ディスプレイ５７を介してユー
ザに表示する。

【００２３】図５ａ及び図５ｂは、この実施形態でユーザ端末５９がどのように動作するか
を示す流れ図である。ステップｓ１で、ユーザ端末５９はアイドル状態であり、
ユーザ３９からの問合せの入力を待っている。入力問合せが受信されると、ステ
ップｓ３で、自動音声認識ユニット５１又は音声表記ユニット７５により、入力
問合せの音韻データ及び単語データが生成される。次いで、ステップｓ５で、制
御ユニット５５が探索エンジン５３に、入力問合せから生成された単語データを
使用してデータベース２９の探索を実行するよう命令する。この実施形態で使用
される単語探索は、現在当技術分野において、入力された単語の探索に使用され
ている探索と同じであり、ここではこれ以上詳しくは説明しない。ステップｓ７
で、制御ユニット５５は、ユーザが入力した問合せに対する一致が見つかったこ
とを探索結果から確認した場合、その探索結果をディスプレイ５７を介してユー
ザに出力する。

【００２４】この実施形態では、ユーザ端末５９は次いで、ユーザに探索結果を検討させ、
結果が、ユーザが要求した情報に対応する結果であるかどうかに関するユーザの
確認を待つ。対応する結果である場合、処理はステップｓ１１から処理の終わり
に進み、ユーザ端末５９はアイドル状態に戻り、次の問合せの入力を待つ。しか
し、探索結果が所望の情報に対応していないことを（たとえば、適切な音声コマ
ンドを入力することによって）ユーザが示した場合、処理はステップｓ１１から
ステップｓ１３に進み、探索エンジン５３がデータベース２９の音韻探索を実行
する。しかし、この実施形態では、ステップｓ１３で実行される音韻探索はデー
タベース２９全体の探索ではない。というのは、全体を探索すると、データベー
スのサイズによっては数時間かかるからである。

【００２５】一方、ステップｓ１３で実行される音韻探索では、ステップｓ５で実行された
単語探索の結果を使用して、ユーザが入力した問合せに対応するデータベース内
の１つ又は複数の部分が識別される。たとえば、問合せが３つの単語を含んでお
り、単語探索で注釈内の問合せ単語のうちの１つ又は２つが識別されるに過ぎな
い場合、注釈の、識別された単語の周りの部分の音韻探索が実行される。この実
施形態においてステップｓ１３で実行される音韻探索がどのように行われるかに
ついては以下に詳しく説明する。

【００２６】音韻探索が行われた後、制御ユニット５５はステップｓ１５で、一致が見つか
ったかどうかを確認する。一致が見つかった場合、処理はステップｓ１７に進み
、制御ユニット５５は探索結果をディスプレイ５７上でユーザに対して表示させ
る。この場合も、システムは、探索結果が所望の情報に対応する結果であるかど
うかに関するユーザの確認を待つ。結果が正しい場合、処理はステップｓ１９か
ら処理の終わりに進み、ユーザ端末５９がアイドル状態に戻り、次の問合せの入
力を待つ。しかし、探索結果が所望の情報に対応していないことをユーザが示し
た場合、処理はステップｓ１９からステップｓ２１に進む。ステップｓ２１で、
制御ユニット５５は、音韻探索をデータベース２９全体に対して実行すべきかど
うかをディスプレイ５７を介してユーザに尋ねるよう動作することができる。こ
の問合せに応答して、ユーザがこのような探索を実行すべきであると示した場合
、処理はステップｓ２３に進み、探索エンジンがデータベース２９全体の音韻探
索を実行する。

【００２７】この探索が完了すると、制御ユニット５５は、ユーザが入力した問合せに関す
る一致が見つかったかどうかをステップｓ２５で確認する。一致が見つかった場
合、処理はステップｓ２７に進み、制御ユニット５５が探索結果をディスプレイ
５７上でユーザに対して表示させる。探索結果が正しい場合、処理はステップｓ
２９から処理の終わりに進み、ユーザ端末５９がアイドル状態に戻り、次の問合
せの入力を待つ。一方、探索結果が依然として所望の情報に対応していないこと
をユーザが示した場合、処理はステップｓ３１に進み、制御ユニット５５が、デ
ィスプレイ５７を介してユーザに、探索問合せを定義し直すかあるいは変更する
かどうかを問い合わせる。ユーザが探索問合せを定義し直すかあるいは変更する
ことを望んだ場合、処理はステップｓ３に進み、ユーザが次に入力した問合せが
同様に処理される。探索を定義し直すことも変更することもない場合、探索結果
及びユーザが最初に入力した問合せが破棄され、ユーザ端末５９がアイドル状態
に戻り、次の問合せの入力を待つ。

【００２８】上記で、この実施形態においてユーザ端末５９によって探索がどのように実行
されるについて概略的に説明した。次に、探索エンジン５３が音韻探索をどのよ
うに実行するかについて詳しく説明すると共に、この探索方式を使用する主な理
由について簡単に説明する。

【００２９】（分類問題としての情報検索）従来の分類方式では、試験データをｋ個のクラスのうちの１つに分類する必要
がある。これは、クラスが既知である他のデータに関する知識を使用して行われ
る。この分類問題では、１からＫまでの値をとることのできる「クラス」ランダ
ム変数があると仮定されている。この場合、試験データが属する可能性が最も高
いクラスを識別することによって、最適な範疇が見つけられる。クラスｋのｎｋ
個のデータを生成したＮ回の生成プロセスによって訓練データが生成されると仮
定されている（Σｎk＝Ｎ：K=1〜Kまでの総和）。ベクトル（ｎ1，ｎ2，…，ｎk
）をｎ、訓練データをＤ、試験データをｘで示した場合、従来の分類問題は、以
下の確率を最大にするｋの値を求めることである。

【００３０】

【数５】

【００３１】分母の第２の項は、より頻繁に発生するクラスにより大きな重みを与える、こ
のクラスの事前確率である。情報検索において、各クラスは単一の訓練データ（
すなわち、注釈データ）を有する。したがって、情報検索の場合、上記の数式の
右辺の第２の項を無視することができる。同様に、Ｐ（ｘ｜Ｄ）が各クラスごと
に同じであり、したがって分子を正規化しているに過ぎないので、分母も無視す
ることができる。したがって、単に各クラスに関する上記の数式の分母上の第１
の項のオーダをランク付けすることによって、クラスのオーダーをランク付けす
ることができる。言い換えれば、全てのクラスについてＰ（ｘ｜ｄk）（ｄkはク
ラスｋの訓練データである）を求めてランク付けすることによって、各クラスの
オーダーをランク付けすることができる。

【００３２】この実施形態では、試験データｘは、入力問合せを表し、クラスｋの訓練デー
タ（すなわち、ｄk）はｋ番目の注釈を表し、図６ａに示されているように問合
せと注釈の両方を生成した基本的な統計モデル（Ｍ）があると仮定される。一般
には、このモデルは３つの未知数、すなわち、モデル構造ｍ、問合せと注釈の両
方に関するこのモデルの状態シーケンスｓq及びｓa、出力分布Ｃを有する。この
場合、出力分布は求めることができる。というのは、出力分布は、入力された音
声から音韻ストリングを生成する音声認識システムの特性を具体化したものであ
るからである。後述のように、出力分布は、公知の音声の大きなデータベースを
音声認識システムに適用することによって得ることができ、これを以下では異聴
統計と呼ぶことにする。したがって、状態シーケンス及びモデルを上記の確率に
導入する（かつ入力問合せ及び注釈に変数ｑを使用する）と、以下の数式が得ら
れる。

【００３３】

【数６】上式は、ベイズ法を使用して次式のように展開することができる。

【００３４】

【数７】

【００３５】上記の数式は複雑に見えるが、標準ダイナミックプログラミングアルゴリズム
を使用して１組の状態シーケンスｓq及びｓaを合計することができる。さらに、
各モデルの尤度が同様であると仮定できるので分子と分母の両方の最後の項を無
視することができ、各状態シーケンスの尤度も同様であると仮定できるので状態
シーケンス項Ｐ（ｓ｜ｍ，ｃ）を無視することができる。さらに、この基本的な
モデル構造が、挿入を受ける問合せと概ね同じ長さを有する標準音韻シーケンス
であると仮定することによって、それぞれの異なるモデルの合計を除去すること
ができる。ただし、一般にモデルの標準音韻シーケンスは未知であるので、それ
ぞれの異なるモデルの合計は全ての可能な音韻の合計で置き換えられる。したが
って、状態シーケンスの合計を無視した場合、ダイナミックプログラミングアル
ゴリズム内で評価すべき項は、分子の場合は次式のようになり、

【００３６】

【数８】分母（すなわち、正規化項）の場合は次式のようになる。

【００３７】

【数９】上式で、Ｎpはシステムに知られている音韻の総数であり、ａi、ｑj、及びｐrは
、現在評価中のＤＰラティスポイントに対応する、それぞれ注釈音韻、問合せ音
韻、及びモデル音韻である。数式（４）と（５）を比較するとわかるように、分
母上で算出される確率項は分子上でも算出される。したがって、同じダイナミッ
クプログラミングルーチン中に両方の項を累積することができる。より詳細に求
められる確率を考慮した場合、Ｐ（ｑj｜ｐr，Ｃ）は、異聴統計が与えられた場
合に標準音韻ｐrを問合せ音韻ｑjとして復号する確率であり、Ｐ（ａi｜ｐr，Ｃ
）は、異聴統計が与えられた場合に標準音韻ｐrを注釈音韻ａiとして復号する確
率であり、Ｐ（ｐr｜Ｃ）は、異聴統計が与えられた場合に無条件で生じる標準
音韻ｐrの確率である。

【００３８】上記の項だけでなく、ダイナミックプログラミング計算の各点で、モデルに対
する問合せ又は注釈への挿入及び削除に対処する他の項を算出しなければならな
い。当業者なら理解できるように、問合せへの挿入又はそこからの削除は、注釈
への挿入又はそこからの削除に依存せず、また注釈への挿入又は削除は、問合せ
への挿入又は削除に依存しない。したがって、これらの追加の項は別々に対処さ
れる。モデルに対する注釈への挿入及び削除は、上記の数式（５）で与えられる
正規化に関しても考慮しなければならない。

【００３９】当業者には、図４及び図５の説明から、この実施形態では、注釈音韻データと
問合せ音韻データの両方をテキスト又は音声から導くことができることが理解さ
れよう。したがって、考慮すべき４つの状況がある。

【００４０】ｉ）注釈と問合せが共にテキストから生成される。

【００４１】ｉｉ）注釈がテキストから生成され、問合せが音声から生成される。

【００４２】ｉｉｉ）注釈が音声から生成され、問合せがテキストから生成される。

【００４３】ｉｖ）問合せと注釈が共に音声から生成される。

【００４４】第１の状況は、注釈又は問合せの圧縮／展開が行われることはなく、注釈と問
合せとの間の比較がそれぞれの音韻シーケンスの簡単なブール比較によって行わ
れる簡単なケースである。

【００４５】第２の状況では、注釈が正しいとみなされ、ダイナミックプログラミングによ
るアラインメントによって問合せに音韻を挿入し問合せから音韻を削除すること
が可能になり、２つの音韻間の最適なアラインメントポイントが求められる。こ
のケースを例示するために、図６ｂには、注釈音韻がテキストから生成された音
韻であるときの、注釈音韻シーケンス（ａ0，ａ1，ａ2，…で示されている）と
問合せ音韻シーケンス（ｑ0，ｑ1，ｑ2，…で示されている）との間の可能な一
致が示されている。点線の矢印で示されているように、注釈音韻ａ0は問合せ音
韻ｑ0と整列させられ、注釈音韻ａ1は問合せ音韻ｑ2と整列させられ、注釈音韻
ａ2は問合せ音韻ｑ3と整列させられ、注釈音韻ａ3は問合せ音韻ｑ3と整列させら
れ、注釈音韻ａ4は問合せ音韻ｑ4と整列させられる。これらのアラインメントの
それぞれについて、ダイナミックプログラミングルーチンは、上記の数式（４）
及び数式（５）で与えられた項を算出する。しかし、この場合、標準モデル音韻
シーケンスが既知である（これらのモデル音韻が注釈音韻があるため）のでこれ
らの数式は簡略化される。具体的には、注釈がモデルであり分子がＰ（ｑi｜ａj
，Ｃ）に簡略化されるので正規化項は１である。ダイナミックプログラミングル
ーチンは、これらの復号項だけでなく、注釈に対して問合せに挿入される音韻（
たとえば、問合せ音韻ｑ1）と、注釈に対して問合せから削除される音韻（２つ
の注釈音韻ａ2及びａ3と一致した問合せ音韻ｑ3で表されている）についての関
連する挿入及び削除の確率も算出する。

【００４６】上述の第３の状況は、問合せ音韻シーケンスが正しいとみなされ、ダイナミッ
クプログラミングによるアラインメントによって問合せに対する音韻の注釈への
挿入及びそこからの削除が可能になることを除いて、第２の状況に類似している
。しかし、この状況では、問合せが既知であるので数式（１）から数式（５）を
使用することはできない。したがって、この状況では、数式（１）を次式のよう
に変形することができる。

【００４７】

【数１０】

【００４８】上記の数式（１）の対応する項と同様に、分子及び分母上の第２の項は共に無
視することができる。上記の数式（６）の分子の第１の項は、数式（１）の分子
上の第１の項を展開したのと同様に展開することができる。しかし、この状況で
は、問合せがモデルとみなされるので、ダイナミックプログラミングルーチン中
に算出される正規化項が１に簡略化され、分子がＰ（ａi｜ｑj，Ｃ）に簡略化さ
れる。上述の第２の状況のように、ダイナミックプログラミングルーチンは、問
合せに対して注釈に挿入される音韻と、問合せに対して注釈から削除される音韻
についての関連する挿入及び削除の確率も算出する。

【００４９】最後に、第４の状況では、注釈と問合せが共に音声から生成されたものである
とき、どちらの音韻データシーケンスも、実際に発声されたもののテキストを表
す未知の標準モデル音韻シーケンスに対する挿入及び削除を有することができる
。このことは図６ｃに示されている。図６ｃには、注釈音韻シーケンス（ａi、
ａi+1，ａi+2，…で示されている）と、問合せ音韻シーケンス（ｑj、ｑj+1，ｑ
j+2，…で示されている）と、問合せと注釈の両方によって実際に発声されたも
のの標準音韻シーケンスを表す音韻シーケンス（ｐn，ｐn+1，ｐn+2，…で示さ
れている）との間の可能な一致点が示されている。図６ｃに示されているように
、この場合、ダイナミックプログラミングによるアラインメント技術は、標準モ
デル音韻シーケンスに対する、注釈と問合せの両方への音韻の挿入（挿入された
音韻ａi+3及びｑj+1で表されている）と、注釈と問合せの両方からの音韻の削除
（共に標準音韻シーケンス中の２つの音韻と整列させられた音韻ａi+1及びｑj+2
で表されている）とを可能にしなければならない。

【００５０】当業者なら理解できるように、計算にモデル音韻シーケンスを導入することに
よって、アルゴリズムは、問合せの発音変動に対しても注釈の発音変動に対して
もより柔軟に対処することができる。

【００５１】上記で、本実施形態が、問合せ音韻シーケンスをデータベース内の注釈音韻シ
ーケンスと整合させることによって情報検索を行う方法について概略的に説明し
た。本実施形態の動作をさらに理解するために、次に、標準ダイナミックプログ
ラミングアルゴリズムについて簡単に説明し、その後で、この実施形態で使用さ
れる特定のアルゴリズムについて詳しく説明する。

【００５２】（ＤＰ探索の概要）当業者には知られているように、ダイナミックプログラミングは、特徴、この
実施形態では音韻のシーケンス間の最適なアラインメントポイントを見つけるた
めに使用することのできる技術である。ダイナミックプログラミングではそうす
るために、各パスが注釈音韻シーケンスと問合せ音韻シーケンスとの間の可能な
一致点を表す複数のダイナミックプログラミングパスを同時に伝搬させる。全て
のパスが、注釈及び問合せの開始位置にある開始ヌルノードから始まり、注釈及
び問合せの終了位置にある終了ヌルノードに到達するまで伝搬する。図７及び図
８は、整合が行われる状態と、このパス伝搬とを概略的に示している。特に、図
７には、横軸が注釈を表し、縦軸が問合せを表す矩形の座標プロットが示されて
いる。開始ヌルノードφsは左上隅に示され、終了ヌルノードφeは右下隅に示さ
れている。図８に示されているように、注釈の音韻は横軸に沿って示され、問合
せの音韻は縦軸に沿って示されている。図８には、各ポイントが注釈の音韻と問
合せの音韻との間の可能なアラインメントポイントを表わす、いくつかのラティ
スポイントも示されている。たとえば、ラティスポイント２１は注釈音韻ａ3と
問合せ音韻ｑ1との間の可能なアラインメントポイントを表わしている。図８に
は、注釈を表す音韻シーケンスと問合せを表す音韻シーケンスとの間の３つの可
能な一致点を表し、開始ヌルノードφsから始まりラティスポイントを通って終
了ヌルノードφeまで伝搬する、３つのダイナミックプログラミングパスｍ1，ｍ
2，及びｍ3も示されている。再び上記の数式（２）及び（３）を参照するとわか
るように、これらのダイナミックプログラミングパスは上述の互いに異なる状態
シーケンスｓq及びｓaを表している。

【００５３】図７に示されている横軸及び縦軸のそれぞれの異なる長さで表されているよう
に、入力される問合せが注釈の全ての単語を含む必要はない。たとえば、注釈が
「タジマハールの写真」である場合、ユーザは問合せ「タジマハール」を入力す
ることによって、データベース２９でこの写真を簡単に探索することができる。
この状況では、最適なアラインメントパスは、問合せと注釈が一致し始めるまで
上部横軸に沿って進む。次いで、ラティスポイントを通って下部横軸に達し、終
了ノードで終わる。このことは、図７でパス２３によって示されている。しかし
、当業者なら理解できるように、問合せ中の各単語はそれらが注釈中に現われる
のと同じ順序でなければならず、そうでない場合、ダイナミックプログラミング
によるアラインメントは無効になる。

【００５４】注釈音韻シーケンスと問合せ音韻シーケンスとの間の類似性を判定するために
、ダイナミックプログラミングプロセスは、それが伝搬させる各ダイナミックプ
ログラミングパスごとにスコアをつける。このスコアは、パスに沿って整列させ
られる音韻の全体的な類似性に依存する。整合させられているシーケンスからの
音韻の削除及びそこへの挿入の数を制限するために、ダイナミックプログラミン
グプロセスは、ダイナミックプログラミングパスが伝搬する方法にある種の制約
を課す。当業者なら理解できるように、このようなダイナミックプログラミング
制約は上述の４つの状況に応じて異なる。

【００５５】（ＤＰ制約）注釈と問合せが共にテキストである場合問合せ音韻データと注釈音韻データが共にテキストから生成されたものである
場合、ダイナミックプログラミングによるアラインメントは２つの音韻シーケン
ス間のブール一致になり、音韻の削除も挿入も不可能である。

【００５６】注釈がテキストであり、問合せが音声である場合注釈音韻データがテキストから生成され、問合せ音韻データが音声から生成さ
れたデータである場合、注釈からの音韻の削除もそこへの音韻の挿入も不可能で
あるが、注釈に対する問合せからの音韻の削除及びそこへの挿入は行うことがで
きる。図９ａには、注釈がテキストから生成され、問合せが音声から生成された
問合せであるときに、この実施形態で使用されるダイナミックプログラミング制
約が示されている。図示されているように、注釈音韻ａiと問合せ音韻ｑjとの間
のアラインメントを表すラティスポイント（ｉ，ｊ）でダイナミックプログラミ
ングパスが終わる場合、このダイナミックプログラミングパスはラティスポイン
ト（ｉ＋１，ｊ）、（ｉ＋１，ｊ＋１）、及び（ｉ＋１，ｊ＋２）まで伝搬する
ことができる。ポイント（ｉ＋１，ｊ）までの伝搬は、キーボードから入力され
た注釈と比較して、音声の問合せからの音韻の削除が存在する場合を表している
。ポイント（ｉ＋１，ｊ＋１）までの伝搬は、注釈中の次の音韻と問合せ中の次
の音韻との間の簡単な復号が存在する状況を表している。ポイント（ｉ＋１，ｊ
＋２）までの伝搬は、キーボードから入力された注釈と比較して、音声の問合せ
における音韻ｑj+1の挿入が存在し、注釈音韻ａi+1と問合せ音韻ｑj+2との間の
復号が存在する状況を表している。

【００５７】注釈が音声であり、問合せがテキストである場合注釈が音声から生成され、問合せがテキストから生成された問合せである場合
、注釈への音韻の挿入もそこからの音韻の削除も不可能であるが、問合せに対す
る注釈への音韻の挿入及びそこからの削除は行うことができる。図９ｂには、注
釈が音声から生成され、問合せがテキストから生成された問合せであるときに、
この実施形態で使用されるダイナミックプログラミング制約が示されている。図
示のように、注釈音韻ａiと問合せ音韻ｑjとの間のアラインメントポイントを表
すラティスポイント（ｉ，ｊ）でダイナミックプログラミングパスが終わる場合
、このダイナミックプログラミングパスはラティスポイント（ｉ，ｊ＋１）、（
ｉ＋１，ｊ＋１）、及び（ｉ＋２，ｊ＋１）まで伝搬することができる。ポイン
ト（ｉ，ｊ＋１）までの伝搬は、キーボードから入力問合せと比較して、音声の
注釈からの音韻の削除が存在する場合を表している。ポイント（ｉ＋１，ｊ＋１
）までの伝搬は、注釈中の次の音韻と問合せ中の次の音韻との間の簡単な復号が
存在する状況を表している。ポイント（ｉ＋２，ｊ＋１）までの伝搬は、キーボ
ードから入力問合せと比較して、音声の注釈における音韻ａi+1の挿入が存在し
、注釈音韻ａi+2と問合せ音韻ｑj+1との間の復号が存在する状況を表している。

【００５８】注釈が音声であり、問合せが音声である場合注釈と問合せが共に音声から生成されたものである場合、注釈と問合せのそれ
ぞれから互いに音韻を挿入し削除することができる。図１１には、注釈音韻と問
合せ音韻が共に音声から生成されたものであるときに、この実施形態で使用され
るダイナミックプログラミング制約が示されている。具体的には、注釈音韻ａi
と問合せ音韻ｑjとの間のアラインメントを表すラティスポイント（ｉ，ｊ）で
ダイナミックプログラミングパスが終わる場合、このダイナミックプログラミン
グパスはラティスポイント（ｉ＋１，ｊ）、（ｉ＋２，ｊ）、（ｉ＋３，ｊ）、
（ｉ，ｊ＋１）、（ｉ＋１，ｊ＋１）、（ｉ＋２，ｊ＋１）、（ｉ，ｊ＋２）、
（ｉ＋１，ｊ＋２）、及び（ｉ，ｊ＋３）まで伝搬することができる。したがっ
て、これらの伝搬によって、実際に発声されたもののテキストに対応する未知の
標準モデル音韻シーケンスに対して注釈と問合せの両方への音韻の挿入及びそこ
からの削除を行うことができる。

【００５９】開始ＤＰ制約及び終了ＤＰ制約この実施形態では、ダイナミックプログラミングによるアラインメント動作に
よって、ダイナミックプログラミングパスはどの注釈音韻からでも始まることが
でき、かつどの注釈音韻で終わることもできる。その結果、問合せは注釈の全て
の単語を含む必要はない。ただし、問合せの各単語は、それらが注釈中に現われ
るのと同じ順序である必要がある。

【００６０】（ＤＰスコア伝搬）上述のように、ダイナミックプログラミングプロセスは、パスに沿って整列さ
せた音韻同士の類似性に依存するスコアを各ダイナミックプログラミングパスご
とに保つ。したがって、ダイナミックプログラミングプロセスは、ポイント（ｉ
，ｊ）で終わるパスをこれらの他の点まで伝搬させる際に、それぞれの伝搬の「
コスト」を、ポイント（ｉ，ｊ）で終わるパスの累積スコアに加える。このスコ
アは、このポイントに関連するストア（ＳＣＯＲＥ（ｉ，ｊ））に格納される。
当業者なら理解できるように、このコストは、上述の挿入確率、削除確率、及び
復号確率を含む。具体的には、挿入が存在するときは、累積スコアに、所与の音
韻を挿入する確率が掛けられ、削除が存在するときは、累積スコアに、所与の音
韻を削除する確率が掛けられ、復号が存在するときは、累積スコアに、所与の音
韻を復号する確率が掛けられる。

【００６１】これらの確率を算出できるように、システムは、音韻の全ての可能な組合せの
可能性を記憶する。この実施形態では、注釈又は問合せからの音韻の削除は復号
と同様に処理される。これは、単に削除を別の音韻として処理することによって
行われる。したがって、４３個の音韻がシステムに既知である場合、システムは
、それぞれの可能な音韻復号及び削除について１つずつ、１８９２個（＝４３×
４４）の復号／削除確率を記憶する。このことは図１０に示されている。図１０
には、音韻／ａｘ／について記憶され、１つの確率として削除音韻（φ）を含む
可能な音韻復号が示されている。当業者なら理解できるように、所与の音韻に関
する全ての復号確率の合計は１でなければならない。なぜなら、他の確率はない
からである。システムは、これらの復号／削除確率だけでなく、それぞれの可能
な音韻挿入について１つの、４３個の挿入確率を記憶する。後述のように、これ
らの確率は事前に訓練データから求められる。

【００６２】次に、スコア伝搬を例示するために、いくつかの例を検討する。注釈がテキス
トであり、問合せが音声である場合、ポイント（ｉ，ｊ）からポイント（ｉ＋１
，ｊ＋２）まで伝搬するパスについては、注釈に対して音韻ｑj+1が挿入され、
注釈音韻ａi+1によって問合せ音韻ｑj+2が復号される。したがって、ポイント（
ｉ＋１，ｊ＋２）まで伝搬されるスコアは次式によって与えられる。

【００６３】Ｓ(i+1，j+2)＝Ｓ(i，j)・ＰＩ(ｑj+1｜Ｃ)・Ｐ(ｑj+2｜ａi+1，Ｃ) （７）
上式で、ＰＩ（ｑj+1｜Ｃ）は、音韻ｑj+1を音声の問合せに挿入する確率であり
、Ｐ（ｑj+2｜ａi+1，Ｃ）は、注釈音韻ａi+1を問合せ音韻ｑj+2として復号する
確率を表している。

【００６４】注釈と問合せが共に音声から生成されたものである場合、ポイント（ｉ，ｊ）
からポイント（ｉ＋２，ｊ＋１）まで伝搬するときは、問合せに対して注釈音韻
ａi+1が挿入され、注釈音韻ａi+2と問合せ音韻ｑj+1との間の復号が行われる。
したがって、ポイント（ｉ＋２，ｊ＋１）まで伝搬されるスコアは次式によって
与えられる。

【００６５】

【数１１】

【００６６】当業者なら理解できるように、このパス伝搬時には、いくつかのパスが同じラ
ティスポイントで交わる。この実施形態では、交わるパスに関連するスコアが単
に合計される。あるいは、スコア同士を比較することができ、最良のスコアを有
するパスを継続し、それに対して他のパスは破棄される。しかし、このことはこ
の実施形態において必須ではない。というのは、ダイナミックプログラミングプ
ロセスで重要なのは、問合せの音韻データと注釈の音韻データとの間の類似性を
表すスコアを求めることだけであるからである。ダイナミックプログラミングプ
ロセスにおいて、２つの音韻間の最適なアラインメントポイントを見つけること
は重要ではない。

【００６７】問合せと注釈が共に音声から生成されたものである場合、全てのパスが終了ノ
ードφeまで伝搬していき、かつ問合せと現在の注釈との間の類似性の総スコア
が求められた後、システムは、ＤＰプロセス中に累積された正規化項を使用して
このスコアを正規化する。次いで、システムは問合せと次の注釈を同様に比較す
る。問合せが全ての注釈と一致した後、各注釈のスコアがランク付けされ、この
ランク付けに基づいて、システムは、入力問合せに最も近い注釈をユーザに出力
する。

【００６８】（ＤＰ探索の詳細な説明）次に、問合せ音韻シーケンスを注釈音韻シーケンスと整合させる際にダイナミ
ックプログミング検索をどのように行うかについて詳しく説明する。図１２を参
照するとわかるように、ステップｓ１０１で、システムはダイナミックプログラ
ミングスコアを初期化する。次いでステップｓ１０３で、システムはヌル開始ノ
ード（φs）から全ての始点まで伝搬する。次いでステップｓ１０５で、システ
ムは、上述のダイナミックプログラミング制約を使用して各ダイナミックプログ
ラミングパスを全ての始点から全ての可能な終点まで伝搬させる。最後にステッ
プｓ１０７で、システムは、終点で終わるパスをヌル終了ノード（φe）まで伝
搬させる。

【００６９】図１３には、各ダイナミックプログラミングパスをヌル開始ノード（φs）か
ら、ダイナミックプログラミング制約によって定義される全ての可能な開始点ま
で伝搬させる際にステップｓ１０３で使用される処理ステップが詳しく示されて
いる。一方の制約は、ダイナミックプログラミングパスが、あらゆる注釈音韻か
ら始まることができるということであり、他方の制約は、問合せ音韻シーケンス
における許容ホップ数を定義するものであり、問合せがテキストであるかそれと
も音声であるかに依存する。具体的には、問合せがテキストから生成された問合
せである場合、開始点は、探索空間内のラティスポイントの第１行、すなわち、
ｉ＝０からＮａｎｎ−１までのポイント（ｉ，０）を含み、問合せが音声から生
成された問合せである場合、開始点は、探索空間内のラティスポイントの最初の
４行、すなわち、ｉ＝０からＮａｎｎ−１までのポイント（ｉ，０）、（ｉ，１
）、（ｉ，２）、及び（ｉ，３）を含む。

【００７０】次に、これを行う方法について、図１３に示されている各ステップを参照して
説明する。図示されているように、ステップｓ１１１で、システムは、入力問合
せがテキスト問合せであるかどうかを判定する。そうである場合、処理はステッ
プｓ１１３に進み、システムは、変数ｍｘの値を、問合せがテキストであるとき
の問合せ音韻シーケンスにおける最大許容「ホップ」数を定義する１に設定する
。次いで、処理はステップｓ１１５、ｓ１１７、及びｓ１１９に進む。これらの
ステップは、ｉ＝０からＮａｎｎ−１までについて、ヌル開始ノードからラティ
スポイント（ｉ，０）に至る遷移スコアを、ポイント（ｉ，０）に関連するスコ
ア（ＳＣＯＲＥ（ｉ，０））に加えることによって、探索空間の第１行中の各ラ
ティスポイントからダイナミックプログラミングパスを開始するように動作する
ことができる。問合せがテキストであるときは、図１２に示されているステップ
ｓ１０３での処理が終了し、次いで処理はステップｓ１０５に進む。

【００７１】システムは、問合せがテキストではなく、したがって音声入力から生成された
ものであるとステップｓ１１１で判定した場合、ステップｓ１２１に進む。ステ
ップｓ１２１で、ｍｘは、ｍｘｈｏｐｓ、すなわち、ダイナミックプログラミン
グ制約による最大許容「ホップ」数よりも１だけ大きな値を有する定数に設定さ
れる。図９及び図１０に示されているように、問合せが音声である場合、パスは
、問合せ音韻シーケンスに沿って最高で音韻３つ分だけ離れた位置にある問合せ
音韻までジャンプすることができる。したがって、この実施形態では、ｍｘｈｏ
ｐｓの値は４であり、問合せ中に音韻が４つ以上ある場合、変数ｍｘは４に等し
い値に設定され、そうでない場合、ｍｘは問合せ中の音韻の数に等しい値に設定
される。次いで、処理はステップｓ１２３、ｓ１２５、ｓ１２７、ｓ１２９、及
びｓ１３１に進む。これらのステップは、対応するラティスポイントに関連する
スコアに対応する遷移確率を加えることによって探索空間の最初の４行中の各ラ
ティスポイントからダイナミックプログラミングパスを開始するよう動作するこ
とができる。問合せが音声入力から生成された問合せであるときには、図１２に
示されているステップｓ１０３の処理が終了し、次いで処理はステップｓ１０５
に進む。

【００７２】この実施形態では、システムは、ラスタのような技術で探索空間内のラティス
ポイントを１列ずつ処理することによって、ステップｓ１０５で、各ダイナミッ
クプログラミングパスを開始点から終点まで伝搬させる。このラスタ処理動作を
制御するのに用いられる制御アルゴリズムを図１４に示す。ステップｓ１５１で
、システムは注釈音韻ループポインタｉを注釈中の音韻の数（Ｎａｎｎ）と比較
する。最初は、注釈音韻ループポインタｉはゼロに設定され、したがって、処理
は最初にステップｓ１５３に進み、問合せ中の音韻の総数（Ｎｑｕｅｒｙ）に対
する問合せ音韻ループポインタｊについての同様な比較が行われる。最初は、ル
ープポインタｊもゼロに設定され、したがって、処理はステップｓ１５５に進み
、システムは、上述のダイナミックプログラミング制約を使用して、点（ｉ，ｊ
）で終了するパスを伝搬させる。ステップｓ１５５でシステムが各パスを伝搬さ
せる方法について以下に詳しく説明する。ステップｓ１５５の後、ステップｓ１
５７でループポインタｊが１だけ増分され、処理はステップｓ１５３に戻る。問
合せ中の全ての音韻が処理され（それによってラティスポイントの現在の列が処
理され）た後、処理はステップｓ１５９に進み、問合せ音韻ループポインタｊが
ゼロにリセットされ、注釈音韻ループポインタｉが１だけ増分される。次いで、
処理はステップｓ１５１に戻り、ラティスポイントの次の列に対して同様な手順
が実行される。ラティスポイントの最後の列が処理された後、処理はステップｓ
１６１に進み、注釈音韻ループポインタｉがゼロにリセットされ、図１２に示さ
れているステップｓ１０５の処理が終了する。

【００７３】図１５には、各パスを終点から終了ヌルノードφeまで伝搬する際に、図１２
に示されているステップｓ１０７で使用される各処理ステップがより詳しく示さ
れている。開始ヌルノードφsからの伝搬に関して、「終点」であるラティスポ
イントは、問合せがテキストであるかそれとも音声であるかに依存するダイナミ
ックプログラミング制約によって定義される。さらに、この実施形態では、ダイ
ナミックプログラミング制約によって、ダイナミックプログラミングパスは、注
釈音韻シーケンスに沿ったあらゆる点において注釈から出ることができる。した
がって、問合せがテキストである場合、システムは、ラティスポイントの最後の
行、すなわち、ｉ＝０からＮａｎｎ−１までの各ポイント（ｉ，Ｎｑｕｅｒｙ−
１）で終わるダイナミックプログラミングパスを終了ヌルノードφeまで伝搬さ
せる。しかし、問合せが音声から生成された問合せである場合、システムは、ラ
ティスポイントの最後の４行、すなわち、ｉ＝０からＮａｎｎ−１までのポイン
ト（ｉ，Ｎｑｕｅｒｙ−４）、（ｉ，Ｎｑｕｅｒｙ−３）、（ｉ，Ｎｑｕｅｒｙ
−２）、及び（ｉ，Ｎｑｕｅｒｙ−１）まで伝搬する任意のパスを終了ヌルノー
ドφeまで伝搬させる。

【００７４】図１５に示されているように、このプロセスはステップｓ１７１から始まり、
システムは、問合せがテキストであるかどうかを判定する。テキストである場合
、処理はステップｓ１７３に進み、問合せ音韻ループポインタｊがＮｑｕｅｒｙ
−１に設定される。次いで、処理はステップｓ１７５に進み、注釈音韻ループポ
インタｉが注釈中の音韻数（Ｎａｎｎ）と比較される。最初は、注釈音韻ループ
ポインタｉがゼロに設定され、したがって、処理はステップｓ１７７に進み、シ
ステムはポイント（ｉ，Ｎｑｕｅｒｙ−１）からヌル終了ノードφeまでの遷移
スコアを算出する。次いで、この遷移スコアは、ＳＣＯＲＥ（ｉ，Ｎｑｕｅｒｙ
−１）に格納されている、ポイント（ｉ，Ｎｑｕｅｒｙ−１）で終わるパスの累
積スコアと組み合わされる。上述のように、この実施形態では、遷移スコア及び
累積スコアは確率に基づくものであり、確率同士を掛け合わせることによって組
み合わされる。しかし、この実施形態では、足し算を実行する必要をなくすと共
に、高い浮動小数点精度の使用を回避するために、システムは遷移スコア及び累
積スコア用に対数確率を使用する。したがって、ステップｓ１７９で、システム
は、ポイント（ｉ，Ｎｑｕｅｒｙ−１）で終わるパスの累積スコアを、ステップ
ｓ１７７で算出された遷移スコアに足し、この結果が一時ストアＴＥＭＰＥＮＤ
ＳＣＯＲＥにコピーされる。

【００７５】上述のように、２つ以上のダイナミックプログラミングパスが同じ点で交わる
場合、各パスの累積スコアが合計される。したがって、ログ確率が使用されるの
で、互いに交わるパスに関連するスコアが有効に確率に変換され、合計され、次
いでログ確率に再変換される。この実施形態では、この動作を「対数足し算」動
作と呼ぶ。これは公知の技術であり、たとえば、「Automatic Speech Recogniti
on． The Development of the （Sphinx） System」、Lee，Kai-Fu著、Kluwer
Academic Publishers発行、１９８９年、２８ページ〜２９ページ）と題する文
献に記載されている。

【００７６】ポイント（ｉ，Ｎｑｕｅｒｙ−１）からヌル終了ノードまで伝搬するパスが他
のダイナミックプログラミングパスと交わるので、システムはＴＥＭＰＥＮＤＳ
ＣＯＲＥと、終了ノードに格納されているスコア（ＥＮＤＳＣＯＲＥ）との対数
足し算を実行し、結果がＥＮＤＳＣＯＲＥに格納される。次いで、処理はステッ
プｓ１８３に進み、注釈音韻ループポインタｉが増分される。次いで、処理はス
テップｓ１７５に戻り、ラティスポイントの最後の行における次のラティスポイ
ントに対して同様なプロセスが実行される。最後の行における全てのラティスポ
イントがこのように処理された後、図１２に示されているステップｓ１０７で実
行される処理が終了する。

【００７７】問合せはテキストではないとステップｓ１７１でシステムが判定した場合、処
理はステップｓ１８５に進み、問合せ音韻ループポインタｊが、問合せ中の音韻
の数からｍｘｈｏｐｓを引いた値、Ｎｑｕｅｒｙ−４に設定される。次いで、処
理はステップｓ１８７に進み、システムは、注釈音韻ループポインタｉが注釈中
の音韻の数（Ｎａｎｎ）よりも小さいかどうかを確認する。最初は、注釈音韻ル
ープポインタｉはゼロに設定され、したがって、処理はステップｓ１８９に進み
、システムは、問合せ音韻ループポインタｊが問合せ中の音韻の数（Ｎｑｕｅｒ
ｙ）よりも小さいかどうかを確認する。最初は、問合せ音韻ループポインタｊは
問合せ中の音韻の数よりも小さく、処理はステップｓ１９１に進み、システムは
ラティスポイント（ｉ，ｊ）からヌル終了ノードφeまでの遷移スコアを算出す
る。次いでステップｓ１９３で、この遷移スコアが、ポイント（ｉ，ｊ）で終わ
るパスの累積スコアに足され、結果が一時スコアＴＥＭＰＥＮＤＳＣＯＲＥにコ
ピーされる。次いで、処理はステップｓ１９５に進み、システムがＴＥＭＰＥＮ
ＤＳＣＯＲＥとＥＮＤＳＣＯＲＥの対数足し算を実行し、結果がＥＮＤＳＣＯＲ
Ｅに格納される。次いで、処理はステップｓ１９７に進み、問合せ音韻ループポ
インタｊが１だけ増分され、処理はステップｓ１８９に戻る。次いで、問合せ音
韻ループポインタｊが増分され、したがって問合せ中の音韻の数（Ｎｑｕｅｒｙ
）に等しくなるまで上記の各ステップが繰り返される。次いで、処理はステップ
ｓ１９９に進み、問合せ音韻ループポインタｊがＮｑｕｅｒｙ−４にリセットさ
れ、注釈音韻ループポインタｉが１だけ増分される。次いで、処理はステップｓ
１８７に戻る。次いで、探索空間の最後の４行における全てのラティスポイント
が処理されるまで上記の各処理ステップが繰り返され、その後、図１２に示され
ているステップｓ１０７の処理が終了する。

【００７８】伝搬図１４に示されているステップｓ１５５で、システムは、上述のダイナミック
プログラミング制約を使用して、ラティスポイント（ｉ，ｊ）で終わるパスを伝
搬する。図１６は、この伝搬ステップを実行する際に使用される各処理ステップ
を示すフローチャートである。図示されているように、ステップｓ２１１で、シ
ステムは２つの変数ｍｘｉ及びｍｘｊの値を設定し、注釈音韻ループポインタｉ
２及び問合せ音韻ループポインタｊ２を初期化する。ループポインタｉ２及びｊ
２は、ポイント（ｉ，ｊ）で終わるパスが伝搬することのできる全てのラティス
ポイントを処理するために設けられ、変数ｍｘｉ及びｍｘｊは、ｉ２及びｊ２が
、ダイナミックプログラミング制約で許容される値しかとれなくするのに用いら
れる。具体的には、ｍｘｉは、ｍｘｈｏｐｓが注釈中の音韻の数以下であるかぎ
りｉとｍｘｈｏｐｓを足した値に設定され、そうでない場合は注釈中の音韻の数
（Ｎａｎｎ）に等しい値に設定される。同様に、ｍｘｊは、ｍｘｈｏｐｓが問合
せの音韻の数以下であるかぎりｊとｍｘｈｏｐｓを足した値に設定され、そうで
ない場合は問合せ中の音韻の数（Ｎｑｕｅｒｙ）に等しい値に設定される。最後
にステップｓ２１１で、システムは、注釈音韻ループポインタｉ２を注釈音韻ル
ープポインタｉの現在の値に等しい値に初期化し、問合せ音韻ループポインタｊ
２を問合せ音韻ループポインタｊの現在の値に等しい値に初期化する。

【００７９】システムによって使用されるダイナミックプログラミング制約は、注釈がテキ
ストであるか、それとも音声であるかと、問合せがテキストであるか、それとも
音声であるかに依存するので、次のステップでは、注釈及び問合せがどのように
生成されたかが判定される。これは、判定ブロックｓ２１３、ｓ２１５、及びｓ
２１７によって行われる。注釈と問合せが共に音声から生成されたものである場
合、ラティスポイント（ｉ，ｊ）で終わるダイナミックプログラミングパスは、
図１１に示されている他のポイントまで伝搬することができ、処理ステップｓ２
１９からｓ２３５は、このパスをこれらのポイントまで伝搬させるように動作す
る。特にステップｓ２１９で、システムは注釈音韻ループポインタｉ２を変数ｍ
ｘｉと比較する。ステップｓ２１１で、注釈音韻ループポインタｉ２がｉに設定
され、ｍｘｉがｉ＋４に設定されるので、処理はステップｓ２２１に進み、問合
せ音韻ループポインタｊ２について同様な比較が行われる。次いで、処理はステ
ップｓ２２３に進み、パスが同じラティスポイント（ｉ，ｊ）に留まらないよう
にされる。これは、最初は、ｉ２がｉに等しくｊ２がｊに等しいからである。し
たがって、処理は最初にステップｓ２２５に進み、問合せ音韻ループポインタｊ
２が１だけ増分される。

【００８０】次いで、処理はステップｓ２２１に戻り、ｊ２の増分された値がｍｘｊと比較
される。ｊ２がｍｘｊよりも小さい場合、処理はステップｓ２２３に戻り、ステ
ップｓ２２７に進む。ステップｓ２２７は、注釈音韻シーケンス及び問合せ音韻
シーケンスの両方に沿って大き過ぎるホップが起こるのを防止するように動作す
ることができる。これは、ｉ２＋ｊ２がｉ＋ｊ＋ｍｘｈｏｐｓよりも小さい場合
にのみパスを伝搬させることによって行われる。これにより、図１１に示されて
いる三角形の１組のポイントのみが処理される。この条件が満たされるかぎり、
処理は次いでステップｓ２２９に進み、システムはラティスポイント（ｉ，ｊ）
からラティスポイント（ｉ２，ｊ２）までの遷移スコア（ＴＲＡＮＳＣＯＲＥ）
を算出する。次いで、処理はステップｓ２３１に進み、システムは、ステップｓ
２２９で求められた遷移スコアを、ポイント（ｉ，ｊ）について記憶されている
累積スコアに足し、これを一時ストアＴＥＭＰＳＣＯＲＥにコピーする。上述の
ように、この実施形態では、２つ以上のダイナミックプログラミングパスが同じ
ラティスポイントで交わる場合、各パスに関連する累積スコアが合計される。し
たがって、ステップｓ２３３で、システムはＴＥＭＰＳＣＯＲＥと、すでにポイ
ント（ｉ２，ｊ２）について記憶されている累積スコアとの対数足し算を実行し
、結果がＳＣＯＲＥ（ｉ２，ｊ２）に格納される。次いで、処理はステップｓ２
２５に戻り、問合せ音韻ループポインタｊ２が１だけ増分され、処理はステップ
ｓ２２１に戻る。問合せ音韻ループポインタｊ２がｍｘｊの値に達した後、処理
はステップｓ２３５に進み、問合せ音韻ループポインタｊ２が初期値ｊにリセッ
トされ、注釈音韻ループポインタｉ２が１だけ増分される。次いで、処理はステ
ップｓ２１９に進み、図１１に示されているラティスポイントの次の列に対して
再び開始される。パスがポイント（ｉ，ｊ）から、図１１に示されている他の全
てのポイントまで伝搬した後、処理は終了する。

【００８１】注釈がテキストであり問合せが音声であると判定ブロックｓ２１３及びｓ２１
５で判定された場合、処理はステップｓ２４１からｓ２５１に進む。これらのス
テップは、ポイント（ｉ，ｊ）で終わるパスを、図９ａに示されている各ポイン
トまで伝搬させるように動作することができる。具体的には、ステップｓ２４１
で、システムは、注釈音韻ループポインタｉが注釈中の最後の音韻を指し示して
いるかどうかを判定する。指し示している場合、注釈にはもはや音韻がなく、処
理は終了する。注釈音韻ループポインタｉがＮａｎｎ−１よりも小さい場合、処
理はステップｓ２４３に進み、問合せ音韻ループポインタｊ２がｍｘｊと比較さ
れる。最初は、ｊ２はｍｘｊよりも小さく、したがって、処理はステップｓ２４
５に進み、システムはポイント（ｉ，ｊ）からポイント（ｉ＋１，ｊ２）までの
遷移スコア（ＴＲＡＮＳＣＯＲＥ）を算出する。次いで、この遷移スコアは、ポ
イント（ｉ，ｊ）で終わるパスに関連する累積スコアに足され、結果が一時スコ
アＴＥＭＰＳＣＯＲＥにコピーされる。次いでステップｓ２４９で、システムは
ＴＥＭＰＳＣＯＲＥと、ポイント（ｉ＋１，ｊ２）に関連する累積スコアとの対
数足し算を実行し、結果をＳＣＯＲＥ（ｉ＋１，ｊ２）に格納し、ラティスポイ
ント（ｉ＋１，ｊ２）で交わるパスのパススコアが確実に組み合わされるように
する。次いで、処理はステップｓ２５１に進み、問合せ音韻ループポインタｊ２
が１だけ増分され、次いで処理はステップｓ２４３に戻る。ポイント（ｉ，ｊ）
で終わるパスが、図９ａに示されている他のポイントまで伝搬した後、ｊ２がｍ
ｘｊに等しくなり、ポイント（ｉ，ｊ）で終わるパスの伝搬が終了する。

【００８２】注釈が音声であり、問合せがテキストであると判定ブロックｓ２１３及びｓ２
１７で判定された場合、処理は、図１６ｂに示されているステップｓ２５５から
ｓ２６５に進む。これらのステップは、ポイント（ｉ，ｊ）で終わるパスを、図
９ｂに示されている他のポイントまで伝搬させるように動作することができる。
これを行うには、まずステップｓ２５５で、問合せ音韻ループポインタｊが、問
合せを表す音韻シーケンス中の最後の音韻を指し示していないことを確認する。
指し示していない場合、処理はステップｓ２５７に進み、注釈音韻ループポイン
タｉ２がｍｘｉと比較される。最初は、ｉ２の値はｉであり、注釈音韻ｉが、注
釈を表す音韻シーケンスの終了位置にないかぎり、処理はステップｓ２５９に進
み、ポイント（ｉ，ｊ）からポイント（ｉ２，ｊ＋１）まで移動する遷移スコア
が算出される。次いで、処理はステップｓ２６１に進み、この遷移スコアが、ポ
インタ（ｉ，ｊ）で終わるパスの累積スコアに足され、結果が一時スコアＴＥＭ
ＰＳＣＯＲＥにコピーされる。次いで、処理はステップｓ２６３に進み、ＴＥＭ
ＰＳＣＯＲＥと、すでにポイント（ｉ２，ｊ＋１）について記憶されている累積
スコアとの対数足し算が行われ、結果がＳＣＯＲＥ（ｉ２，ｊ＋１）に格納され
る。次いで、処理はステップｓ２６５に進み、注釈音韻ループポインタｉ２が１
だけ増分され、処理はステップｓ２５７に戻る。次いで、ポイント（ｉ，ｊ）で
終わるパスが、図９ｂに示されている他の各ポイントまで伝搬するまで、これら
の処理ステップが繰り返される。この時点で、ポイント（ｉ，ｊ）のパスの伝搬
が完了し、処理が終了する。

【００８３】最後に、注釈と問合せが共にテキストであると判定ブロックｓ２１３及びｓ２
１５で判定された場合、処理は、図１６ｂに示されているステップｓ２７１から
ｓ２７９に進む。これらのステップは、もちろん、他の注釈音韻があり、かつ他
の問合せ音韻があるかぎり、ポイント（ｉ，ｊ）で終わるパスをポイント（ｉ＋
１，ｊ＋１）まで伝搬させるように動作することができる。具体的には、ステッ
プｓ２７１で、システムは、注釈音韻ループポインタｉが最後の注釈音韻を指し
示していないことを確認する。指し示していない場合、処理はステップｓ２７３
に進み、問合せ音韻シーケンスに対して問合せ音韻ループポインタｊの同様な検
査が行われる。もはや注釈音韻がないか、あるいはもはや問合せ音韻がない場合
、処理は終了する。しかし、他の注釈音韻があり、かつ他の問合せ音韻がある場
合、処理はステップｓ２７５に進み、システムはポイント（ｉ，ｊ）からポイン
ト（ｉ＋１，ｊ＋１）までの遷移スコアを算出する。次いで、ステップｓ２７７
で、この遷移スコアが、ポイント（ｉ，ｊ）について記憶されている累積スコア
に足され、結果が一時スコアＴＥＭＰＳＣＯＲＥに格納される。次いで、処理は
ステップｓ２７９に進み、ＴＥＭＰＳＣＯＲＥと、すでにポイント（ｉ＋１，ｊ
＋１）について記憶されている累積スコアとの対数足し算が行われ、結果がＳＣ
ＯＲＥ（ｉ＋１，ｊ＋１）にコピーされる。当業者なら理解できるように、この
実施形態でステップｓ２７７及びｓ２７９が必要であるのは、ダイナミックプロ
グラミング制約によって、パスが、注釈を表す音韻シーケンス内の任意の音韻か
ら始まることができ、したがって、事前にポイント（ｉ＋１，Ｊ＋１）にスコア
を関連付けておくことができるからである。ステップｓ２７９の後で、ポイント
（ｉ，ｊ）の伝搬が完了し、処理が終了する。

【００８４】遷移スコア図１２に示されているステップｓ１０３、ｓ１０５、及びｓ１０７では、ダイ
ナミックプログラミングパスを伝搬し、この伝搬中に、ステップｓ１２７、ｓ１
１７、ｓ１７７、ｓ１９１、ｓ２２９、ｓ２４５、ｓ２５９、及びｓ２７５であ
るポイントから別のポイントまでの遷移スコアが算出される。これらのステップ
で、システムは、遷移の始点及び終点に対する適切な挿入確率、削除確率、及び
復号確率を算出する。次に、この実施形態でこのことがどのように行われるかに
ついて図１７及び図１８を参照して説明する。

【００８５】具体的には、図１７は、ラティスポイント（ｉ，ｊ）からラティスポイント（
ｉ２，ｊ２）まで伝搬するパスの遷移スコアを算出する際に使用される一般的な
処理ステップを示す流れ図である。ステップｓ２９１で、システムは、ポイント
（ｉ，ｊ）とポイント（ｉ２，ｊ２）との間に挿入されている各注釈音韻につい
て、挿入されている音韻の挿入に関するスコア（上述の確率の対数ＰＩ（）に過
ぎない）を算出し、これを適切なストアＩＮＳＥＲＴＳＣＯＲＥに足す。次いで
、処理はステップｓ２９３に進み、システムは、ポイント（ｉ，ｊ）とポイント
（ｉ２，ｊ２）との間に挿入されている各問合せ音韻について同様な計算を行い
、これをＩＮＳＥＲＴＳＣＯＲＥに足す。しかし、（ｉ，ｊ）が開始ヌルノード
φsであるか、あるいは（ｉ２，ｊ２）が終了ヌルノードφeである場合、システ
ムは、挿入されている注釈音韻の挿入確率を算出しない（どの注釈音韻からパス
を始めてもあるいはどの注釈音韻でパスを終らせてもペナルティが生じないため
）。ただし、システムは、あらゆる挿入されている問合せ音韻の挿入確率は算出
する。上述のように、算出されるスコアは、対数に基づく確率であり、したがっ
て、ＩＮＳＥＲＴＳＣＯＲＥにスコアを足すことは、対応する挿入確率の掛け算
に対応する。次いで、処理はステップｓ２９５に進み、システムが、ポイント（
ｉ，ｊ）からポイント（ｉ２，ｊ２）まで伝搬する際のあらゆる削除及び／又は
復号に関するスコアを算出し、これらのスコアが適切なストアＤＥＬＳＣＯＲＥ
に足され格納される。次いで、処理はステップｓ２９７に進み、システムはＩＮ
ＳＥＲＴＳＣＯＲＥ及びＤＥＬＳＣＯＲＥを足し、結果をＴＲＡＮＳＣＯＲＥに
コピーする。

【００８６】次に、ポイント（ｉ，ｊ）からポイント（ｉ２，ｊ２）まで伝搬する際の削除
スコア及び／又は復号ストアを判定するためにステップｓ２９５で実行される処
理について図１８を参照して詳しく説明する。可能な削除及び復号は、注釈がテ
キストから生成された注釈であるかどうかと、問合せがテキストから生成された
問合せであるかどうかに依存するので、注釈がテキストであるかそれとも音声で
あるかと、問合せがテキストであるかそれとも音声であるかが判定ブロックｓ３
０１、ｓ３０３、及びｓ３０５で判定される。注釈と問合せが共にテキストであ
ることがこれらの判定ブロックで判定された場合、削除は存在せず、ステップｓ
３０７でブール一致によって２つの音韻の復号が実行される。注釈音韻ａi2が問
合せ音韻ｑj2と同じである場合、処理はステップｓ３０９に進み、ＴＲＡＮＳＣ
ＯＲＥがｌｏｇ［１］（すなわち、ゼロ）に等しい値に設定され、処理は終了す
る。しかし、注釈音韻ａi2が問合せ音韻ｑj2とは異なる場合、処理はステップｓ
３１１に進み、ＴＲＡＮＳＣＯＲＥが、ｌｏｇ［０］のシステム近似である非常
に大きな負の数に設定され、次いで処理が終了する。

【００８７】注釈が音声であり、問合せがテキストであると判定ブロックｓ３０１及びｓ３
０５で判定された場合、上述の数式（４）の簡略化された形態を使用して遷移ス
コアが求められる。この場合、処理はステップｓ３０３からステップｓ３１３に
進み、システムは、注釈ループポインタｉ２が注釈ループポインタｉに等しいか
どうかを判定する。等しい場合、このことは、パスがポイント（ｉ，ｊ）からポ
イント（ｉ，ｊ＋１）まで伝搬したことを意味する。したがって、問合せ音韻シ
ーケンスに対して注釈音韻シーケンスから問合せ音韻ｑj+1が削除されている。
したがって、ステップｓ３１７で、システムは、音韻ｑj+1を削除する対数確率
（すなわち、ｌｏｇＰ（φ｜ｑj+1，Ｃ）をＤＥＬＳＣＯＲＥにコピーし、処
理が終了する。ステップｓ３１３で、システムは、ｉ２がｉに等しくないと判定
した場合、ポイント（ｉ，ｊ）で終わるパスの、ポイント（ｉ＋１，ｊ＋１）、
（ｉ＋２，ｊ＋１）、（ｉ＋３，ｊ＋１）のうちの１つへの伝搬を検討する。こ
の場合、注釈音韻ａi2と問合せ音韻ｑj+1との間に削除は存在せず、挿入及び復
号のみが存在する。したがって、ステップｓ３１５で、システムは、問合せ音韻
ｑj+1を注釈音韻ａi2として復号する対数確率（すなわち、ｌｏｇＰ（ａi2｜ｑ
j+1，Ｃ））をＤＥＬＳＣＯＲＥにコピーし、処理が終了する。

【００８８】注釈がテキストであり、問合せが音声であると判定ブロックｓ３０１及びｓ３
０５で判定された場合、上述の数式（４）の簡略化された形態を使用して遷移ス
コアが求められる。この場合、処理はステップｓ３０５からステップｓ３１９に
進み、システムは、問合せ音韻ループポイントｊ２が問合せ音韻ループポインタ
ｊに等しいかどうかを判定する。等しい場合、システムはポイント（ｉ，ｊ）か
らポイント（ｉ＋１，ｊ）までの遷移スコアを算出する。この場合、注釈音韻シ
ーケンスに対して問合せ音韻シーケンスから注釈音韻ａi+1が削除されている。
したがって、ステップｓ３２１で、システムは、音韻ａi+1を削除する対数確率
（すなわち、ｌｏｇＰ（φ｜ａi+1，Ｃ））を求めてＤＥＬＳＣＯＲＥにコピ
ーし、処理が終了する。ステップｓ３１９で、システムは、問合せ音韻ループポ
インタｊ２が問合せ音韻ループポインタｊに等しくないと判定した場合、ポイン
ト（ｉ，ｊ）からポイント（ｉ＋１，ｊ＋１）、（ｉ＋１，ｊ＋２）、（ｉ＋１
，ｊ＋３）のうちの１つへの遷移スコアを求める。この場合、注釈音韻ａi+1と
問合せ音韻ｑi2との間に削除は存在せず、挿入及び復号のみが存在する。したが
って、ステップｓ３２３で、システムは、注釈音韻ａi+1を問合せ音韻ｑi2とし
て復号する対数確率（すなわち、ｌｏｇＰ（ｑi2｜ａi+1，Ｃ））をＤＥＬＳ
ＣＯＲＥにコピーし、処理が終了する。

【００８９】注釈と問合せが共に音声から生成されたものであると判定ブロックｓ３０１及
びｓ３０３で判定された場合、上記の数式（４）を使用して遷移スコアが求めら
れる。この場合、処理はステップｓ３０３からステップｓ３２５に進み、システ
ムは、注釈ループポインタｉ２が注釈ループポインタｉに等しいかどうかを判定
する。等しい場合、処理はステップｓ３２７に進み、音韻ループポインタｒが１
に初期化される。音韻ポインタｒは、上記の数式（４）の計算時に、システムに
知られている各音韻を処理するのに用いられる。次いで、処理はステップｓ３２
９に進み、システムは音韻ポインタｒを、システムに知られている音韻の数Ｎｐ
ｈｏｎｅｍｅｓ（この実施形態では４３に等しい）と比較する。最初は、ステッ
プｓ３２７で、ｒが１に設定され、したがって、処理はステップｓ３３１に進み
、システムは、音韻ｐrが発生する対数確率（すなわち、ｌｏｇＰ（ｐr｜Ｃ）
）を求め、これを一時スコアＴＥＭＰＤＥＬＳＣＯＲＥにコピーする。注釈ルー
プポインタｉ２が注釈ループポインタｉに等しい場合、システムは、ポイント（
ｉ，ｊ）で終わるパスをポイント（ｉ，ｊ＋１）、（ｉ，ｊ＋２）、（ｉ，ｊ＋
３）のうちの１つまで伝搬させる。したがって、問合せには、注釈にはない音韻
が存在する。したがって、ステップｓ３３３で、システムは、注釈から音韻ｐr
を削除する対数確率（すなわち、ｌｏｇＰ（φ｜ｐr，Ｃ））をＴＥＭＰＤＥ
ＬＳＣＯＲＥに足す。次いで、処理はステップｓ３３５に進み、システムは、音
韻ｐrを問合せ音韻ｑi2として復号する対数確率（すなわち、ｌｏｇＰ（ｑi2
｜ｐr，Ｃ））をＴＥＭＰＤＥＬＳＣＯＲＥに足す。次いで、処理はステップｓ
３３７に進み、ＴＥＭＰＤＥＬＳＣＯＲＥとＤＥＬＳＣＯＲＥの対数足し算が実
行され、結果がＤＥＬＳＣＯＲＥに格納される。次いで、処理はステップｓ３３
９に進み、音韻ループポインタｒが１だけ増分され、次いで処理はステップｓ３
２９に戻り、システムに知られている次の音韻について同様な処理が実行される
。システムに知られている４３個の音韻のそれぞれについてこの計算が実行され
た後、処理は終了する。

【００９０】ステップｓ３２５で、ｉ２がｉに等しくないとシステムが判定した場合、処理
がステップｓ３４１に進み、システムは、問合せ音韻ループポインタｊ２が問合
せ音韻ループポイントｊに等しいかどうかを判定する。等しい場合、処理はステ
ップｓ３４３に進み、音韻ループポインタが１に初期設定される。次いで、処理
はステップｓ３４５に進み、音韻ループポインタｒがシステムに知られている音
韻の総数（Ｎｐｈｏｎｅｍｅｓ）と比較される。最初は、ステップｓ３４３で、
ｒが１に設定され、したがって、処理はステップｓ３４７に進み、音韻ｐrが発
生する対数確率が求められ、一時ストアＴＥＭＰＤＥＬＳＣＯＲＥにコピーされ
る。次いで、処理はステップｓ３４９に進み、システムは、音韻ｐrを注釈音韻
ａi2として復号する対数確率を求め、これをＴＥＭＰＤＥＬＳＣＯＲＥに足す。
問合せループポインタｊ２が問合せループポインタｊに等しい場合、システムは
、ポイント（ｉ，ｊ）で終わるパスをポイント（ｉ＋１，ｊ）、（ｉ＋２，ｊ）
、（ｉ＋３，ｊ）のうちの１つまで伝搬させる。したがって、注釈には、問合せ
にはない音韻が存在する。したがって、ステップｓ３５１で、システムは、問合
せから音韻ｐrを削除する対数確率を求め、これをＴＥＭＰＤＥＬＳＣＯＲＥに
足す。次いで、処理はステップｓ３５３に進み、システムは、ＴＥＭＰＤＥＬＳ
ＣＯＲＥとＤＥＬＳＣＯＲＥの対数足し算を実行し、結果をＤＥＬＳＣＯＲＥに
格納する。次いでステップｓ３５５で、音韻ループポインタｒが１だけ増分され
、処理はステップｓ３４５に戻る。システムに知られている全ての音韻について
処理ステップｓ３４７からｓ３５３が実行された後、処理は終了する。

【００９１】ステップｓ３４１で、問合せ音韻ループポインタｊ２は問合せ音韻ループポイ
ンタｊに等しくないとシステムが判定した場合、処理はステップｓ３５７に進み
、音韻ループポインタｒが１に初期設定される。次いで、処理はステップｓ３５
９に進み、システムは音韻カウンタｒを、システムに知られている音韻の数（Ｎ
ｐｈｏｎｅｍｅｓ）と比較する。最初ステップｓ３５７で、ｒが１に設定され、
したがって、処理はステップｓ３６１に進み、システムは、発生する音韻ｐrの
対数確率を求め、これを一時スコアＴＥＭＰＤＥＬＳＣＯＲＥにコピーする。問
合せ音韻ループポインタｊ２が問合せ音韻ループポインタｊに等しくない場合、
システムは、ポイント（ｉ，ｊ）で終わるパスをポイント（ｉ＋１，ｊ＋１）、
（ｉ＋１，ｊ＋２）、及び（ｉ＋２，ｊ＋１）のうちの１つに伝搬させる。した
がって、削除は存在せず、挿入及び復号のみが存在する。したがって、処理はス
テップｓ３６３に進み、音韻ｐrを注釈音韻ａi2として復号する対数確率がＴＥ
ＭＰＤＥＬＳＣＯＲＥに足される。次いで、処理はステップｓ３６５に進み、音
韻ｐrを問合せ音韻ｑi2として復号する対数確率が求められ、ＴＥＭＰＤＥＬＳ
ＣＯＲＥに足される。次いで、システムはステップｓ３６７で、ＴＥＭＰＤＥＬ
ＳＣＯＲＥとＤＥＬＳＣＯＲＥの対数足し算を行い、結果をＤＥＬＳＣＯＲＥに
格納する。次いでステップｓ３６９で、音韻カウンタｒが増分し、処理はステッ
プｓ３５９に戻る。システムに知られている全ての音韻について処理ステップｓ
３６１からｓ３６７が実行されると、処理は終了する。

【００９２】（正規化）ダイナミックプログラミングプロセスの上記の説明では、上記の数式（３）の
分母部分のみを扱った。したがって、入力問合せが、データベース内の注釈音韻
シーケンスと一致した後、数式（３）の分母によって定義される正規化項により
この一致に関するスコア（ＥＮＤＳＣＯＲＥに格納されている）を正規化しなけ
ればならない。上述のように、分母項の計算は、分子の計算と同時に、すなわち
上述のダイナミックプログラミングルーチンにおいて行われる。これは、分子と
分母を比較するとわかるように、分子に必要な項は全て分子上で算出されるから
である。しかし、注釈又は問合せがテキストから生成されたものであるとき、正
規化が行われないことに留意されたい。この実施形態では、より長い注釈により
大きな重みが与えられることがなく、共通の音韻を含む注釈に、共通でない音韻
を含む注釈よりも大きな重みが与えられることがないように正規化が行われる。
これは、注釈が基本モデルとどの程度一致しているかに依存する項によりスコア
を正規化することによって行われる。

【００９３】（訓練）上記の実施形態では、システムは、１８９２個の復号／削除確率及び４３個の
挿入確率（上記では異聴統計と呼ばれる）を使用して、音韻整合動作における各
ダイナミックプログラミングパスのスコアを求めた。この実施形態では、これら
の確率は事前に訓練セッション中に求められ、メモリ（図示せず）に格納される
。具体的には、この訓練セッション中に、音声認識システムを使用して音声の音
韻復号が２つの方法で行われる。第１の方法では、音声認識システムに音声と、
実際に発声された単語との両方が与えられる。したがって、音声認識ユニットは
この情報を使用して、発声された単語の標準音韻シーケンスを生成し、音韻の理
想的な復号を得ることができる。次いで、音声認識システムを使用して同じ音声
が復号されるが、今回は実際に発声された単語は不明である（これを以下では自
由復号と呼ぶ）。自由復号から生成される音韻シーケンスは、標準音韻シーケン
スと以下の点で異なる。

【００９４】ｉ）自由復号では、誤りが起こり、標準シーケンスに存在しない音韻が復号に
挿入されるか、あるいは標準シーケンスに存在しない音韻が復号で省略される可
能性がある。

【００９５】ｉｉ）ある音韻が別の音韻と混同される可能性がある。

【００９６】ｉｉｉ）音声認識システムが音声を完全に復号する場合でも、会話の発音と標
準発音が異なり、たとえば、会話では、単語「ａｎｄ」（標準形式は／ａｅ／
／ｎ／／ｄ／及び／ａｘ／／ｎ／／ｄ／である）が／ａｘ／／ｎ／と短
縮されることが多く、場合によっては／ｎ／になるため、自由復号が標準復号と
異なる可能性がある。

【００９７】したがって、多数の発声がその標準形及び自由復号形に復号される場合、ダイ
ナミックプログラミング法を使用してこの２つの形式を整列させることができる
。これにより、音韻が標準ではｐであるべきときに復号されたものｄのカウント
値が得られる。このような訓練結果から、上記の復号確率、削除確率、及び挿入
確率を以下のように近似することができる。

【００９８】音韻ｄが挿入である確率は次式によって与えられる。

【００９９】

【数１２】上式で、Ｉdは、自動音声認識システムが音韻ｄを挿入した回数であり、ｎ_o ^dは
、標準シーケンスに対して挿入される復号された音韻の総数である。

【０１００】音韻ｐを音韻ｄとして復号する確率は次式によって与えられる。

【０１０１】

【数１３】上式で、ｃdpは、自動音声認識システムが、ｄがｐであるべきときにｄを復号し
た回数であり、ｎpは、自動音声認識システムが、ｐであるべきときに任意のも
の（削除を含む）を復号した回数である。

【０１０２】音韻ｐが復号されるべきときに何も復号しない（すなわち、削除がある）確率
は次式によって与えられる。

【０１０３】

【数１４】上式で、Ｏpは、自動音声認識システムが、ｐを復号すべきときに何も復号しな
かった回数であり、ｎpは上記と同様である。

【０１０４】（第２の実施形態）第１の実施形態では、入力された単一の問合せを、いくつかの格納されている
注釈と比較した。この実施形態では、入力された２つの音声問合せが、格納され
ている注釈と比較される。この実施形態は、問合せの入力が雑音の多い環境で行
われる用途、又は比較的高い精度が必要になる用途に適している。この実施形態
が、問合せのどれかがテキストである状況には適していないことは明確である。
というのは、この場合、他の問合せが冗長になるからである。したがって、シス
テムは以下の２つの状況に対処することができる。

【０１０５】（ｉ）入力される２つの問合せが共に音声から生成され、注釈が音声から生成
される。

【０１０６】（ｉｉ）入力される２つの問合せが共に音声から生成され、注釈がテキストか
ら生成される。

【０１０７】この実施形態では、２つの問合せを同時に注釈に整合させるようになっている
ことを除いて、第１の実施形態で使用したダイナミックプログラミングアルゴリ
ズムと同様なアルゴリズムを使用する。図１９は、一方の次元が２つの問合せの
それぞれを示し、他方の次元が注釈を示す、三次元座標プロットである。図１９
は、本実施形態の動的プログラミングアルゴリズムによって処理される点の三次
元ラティスを示す。このアルゴリズムは、第１の実施形態で使用されたのと同じ
遷移スコア、ダイナミックプログラミング制約、及び異聴統計（すなわち、音韻
確率）を使用して、各パスを、図１９に示されているプロット中のラティス点の
三次元ネットワークを介してパスを伝搬させ、スコアをつける。

【０１０８】次に、この三次元ダイナミックプログラミングプロセスについて詳しく説明す
る。当業者には、図２０から図２５を図１３から図１９と比較すると理解される
ように、この三次元ダイナミックプログラミングアルゴリズムは、余分の問合せ
を考慮するために他のいくつかの制御ループが追加されることを除いて、第１の
実施形態で使用される二次元ダイナミックプログラミングアルゴリズムと基本的
に同じである。

【０１０９】三次元ダイナミックプログラミングアルゴリズムは、図１２に示されている全
てのステップの後で、２つの問合せを注釈と比較する。図２０には、ダイナミッ
クプログラミングパスをヌル開始ノードφsから、ダイナミックプログラミング
制約によって定義される全ての可能な始点まで伝搬させる際にステップｓ１０３
で使用される処理ステップが示されている。なお、制約とは、ダイナミックプロ
グラミングパスがどの注釈音韻からでも始まることができ、パスが各問合せ中の
最初の４つの音韻のうちのどの音韻からでも始まることができることである。し
たがって、図２０を参照するとわかるように、ステップｓ４０１で、システムは
変数ｍｘｊ及びｍｘｋの値を、第１の実施形態で使用される定数と同じｍｘｈｏ
ｐｓに設定する。したがって、この実施形態では、それぞれの入力問合せが４つ
以上の音韻を含むかぎり、ｍｘｊとｍｘｋは共に４に設定される。問合せが４つ
以上の音韻を含まない場合、ｍｘｊ及び／又はｍｘｋは、対応する問合せ中の音
韻の数に等しい値に設定される。次いで、処理は、ｉ＝０からＮａｎｎ−１であ
り、ｊ＝０から３であり、ｋ＝０から３である場合にダイナミックプログラミン
グパスをポイント（ｉ，ｊ，ｋ）から始めるように動作できるステップｓ４０３
からｓ４１７に進む。これにより、図１２に示されているステップｓ１０３の処
理が終了し、次いで、処理はステップｓ１０５に進み、これらのダイナミックプ
ログラミングパスが終点まで伝搬する。

【０１１０】第１の実施形態と同様に、この実施形態では、システムは、探索空間内のポイ
ントをラスタ状に処理することによってダイナミックプログラミングパスを始点
から終点まで伝搬させる。このラスタ処理動作を制御するのに用いられる制御ア
ルゴリズムは図２１に示されている。図２１を図１４と比較するとわかるように
、この制御アルゴリズムは、第１の実施形態で使用された制御アルゴリズムと同
じ一般形式を有する。違いは、伝搬ステップｓ４１９がより複雑であることと、
入力された第２の問合せによって生じる追加のポイントを処理するのに必要な問
合せブロックｓ４２１、ブロックｓ４２３、及びブロックｓ４２５が設けられる
ことだけである。図２１に示されている制御アルゴリズムがどのように動作する
かをよりよく理解するには、図１４についての上記の説明を参照されたい。

【０１１１】図２２には、終点のパスを終了ヌルノードφeまで伝搬させる際に、この実施
形態において図１２に示されているステップｓ１０７で使用される処理ステップ
がより詳しく示されている。図２２を図１５と比較するとわかるように、この実
施形態においてステップｓ１０７で使用される処理ステップは、第１の実施形態
で使用された対応するステップと同様である。違いは、遷移スコア計算ブロック
ｓ４４３がより複雑であることと、第２の問合せによる追加のラティスポイント
を処理するために追加のブロック（ｓ４３９、ｓ４４１、及びｓ４４９）ならび
に変数（ｋ）が必要であることである。したがって、ステップｓ４３１からｓ４
４９で使用される処理を理解するには、図１５についての上記の説明を参照され
たい。

【０１１２】図２３は、図２１に示されている伝搬ステップｓ４１９で使用される各処理ス
テップを示すフローチャートである。図１６は、上述の二次元実施形態の対応す
るフローチャートである。図２３を図１６と比較するとわかるように、この２つ
の実施形態の間の主な違いは、第２の問合せによる追加のラティスポイントを処
理するために追加の変数（ｍｘｋ及びｋ２）ならびに処理ブロック（ｓ４５１、
ｓ４５３、ｓ４５５、及びｓ４５７）が必要であることである。２つの問合せが
共に音声でなければならず、したがって、フローチャートの主要な分岐が、注釈
がテキストであるときの分岐と、注釈が音声であるときの他の分岐の２つだけで
あるため、図２３の方がわずかに簡単でもある。図２３に示されているフローチ
ャートで使用される処理ステップをよりよく理解するには、図１６の説明を参照
されたい。

【０１１３】図２４は、図２３の処理ステップの間に、ダイナミックプログラミングパスが
ポイント（ｉ，ｊ，ｋ）からポイント（ｉ２，ｊ２，ｋ２）まで伝搬する際、遷
移スコアを算出するうえで使用される処理ステップを示すフローチャートである
。図１７には、上述の二次元実施形態の対応するフローチャートが示されている
。図２４を図１７と比較するとわかるように、この実施形態と第１の実施形態の
主な違いは、第２の問合せに挿入される音韻の挿入確率を算出する追加の処理ス
テップｓ４６１である。したがって、図２４に示されているフローチャートで使
用される処理ステップをよりよく理解するには、図１７の説明を参照されたい。

【０１１４】次に、ポイント（ｉ，ｊ，ｋ）からポイント（ｉ２，ｊ２，ｋ２）まで伝搬す
る際の削除スコア及び／又は復号スコアを求めるために図２４におけるステップ
ｓ４６３で使用される処理ステップについて、図２５を参照してより詳しく説明
する。可能な削除及び復号は、注釈がテキストから生成された注釈であるかそれ
とも音声から生成された注釈であるかに依存するので、判定ブロックｓ５０１で
、注釈がテキストであるかそれとも音声であるかが判定される。注釈がテキスト
から生成された注釈である場合、音韻ループポインタｉ２は注釈音韻ａi+1を指
し示さなければならない。次いで、処理は、第１及び第２の問合せに、注釈に対
する音韻の削除が存在するかどうかを判定するように動作できるステップｓ５０
３、ｓ５０５、及びｓ５０７に進む。存在する場合、ｊ２及び／又はｋ２はそれ
ぞれ、ｊ又はｋに等しい。

【０１１５】 −ｊ２がｊに等しくなく、かつｋ２がｋに等しくない場合、注釈に対する問合
せにおける削除は存在せず、処理はステップｓ５０９に進み、注釈音韻ａi+1を
第１の問合せ音韻ｑi2として復号する対数確率がＤＥＬＳＣＯＲＥにコピーされ
る。次いで、処理はステップｓ５１１に進み、注釈音韻ａi+1を第２の問合せ音
韻ｑk2として復号する対数確率がＤＥＬＳＣＯＲＥに足される。

【０１１６】 −ｊ２はｊに等しくなく、ｋ２はｋに等しいとシステムが判定した場合、処理
はステップｓ５１３からｓ５１５に進み、注釈音韻ａi+1を削除する確率を求め
てＤＥＬＳＣＯＲＥにコピーすることと、注釈音韻ａi+1を第１の問合せ音韻ｑi
2として復号する確率をＤＥＬＳＣＯＲＥに足すことがそれぞれ行われる。

【０１１７】 −ｊ２がｊに等しいと共にｋ２がｋに等しいとシステムが判定した場合、処理
はステップｓ５１７及びｓ５１９に進み、システムは、第１の問合せと第２の問
合せの両方から注釈音韻ａi+1を削除する対数確率を求め、結果をＤＥＬＳＣＯ
ＲＥに格納する。

【０１１８】 −ｊ２はｊに等しく、ｋ２はｋに等しくないとシステムが判定した場合、処理
は、注釈音韻ａi+1を削除する対数確率をＤＥＬＳＣＯＲＥにコピーすることと
、注釈音韻ａi+1を第２の問合せ音韻ｑk2として復号する対数確率をＤＥＬＳＣ
ＯＲＥに足すことをそれぞれ行うように動作できるステップｓ５２１及びｓ５２
３に進む。

【０１１９】システムは、ステップｓ５０１で、注釈が音声から生成されたものであると判
定した場合、ｉ２、ｊ２、及びｋ２をそれぞれｉ、ｊ、及びｋと比較することに
より、注釈又は２つの問合せからの音韻削除があるかどうかを（ステップｓ５２
５からｓ５３７で）判定する。図２５ｂから図２５ｅに示されているように、注
釈が音声から生成されたものであるとき、８つの可能な状況の適切な復号確率及
び削除確率を判定するように動作する８つのメイン分岐がある。各状況で実行さ
れる処理は非常に類似しているので、１つの状況についてのみ説明する。

【０１２０】具体的には、ステップｓ５２５、ｓ５２７、及びｓ５３１で、（ｉ２＝ｉであ
るため）注釈からの削除が存在し、（ｊ２≠ｊでありｋ２≠ｋであるため）２つ
の問合せからの削除は存在しないとシステムが判定した場合、処理はステップｓ
５４１に進み、音韻ループポインタｒが１に初期設定される。音韻ループポイン
タｒは、上記の第１の実施形態で説明した数式（４）と同様な数式の計算時にシ
ステムに知られている各音韻を処理するために使用される。次いで、処理はステ
ップｓ５４３に進み、システムは音韻ポインタｒを、システムに知られている音
韻の数Ｎｐｈｏｎｅｍｅｓ（この実施形態では４３に等しい）と比較する。最初
、ｒはステップｓ５４１で１に設定される。したがって、処理はステップｓ５４
５に進み、システムは、生じた音韻の対数確率ｐrを求め、これを一時スコアＴ
ＥＭＰＤＥＬＳＣＯＲＥにコピーする。次いで、処理はステップｓ５４７に進み
、システムは、注釈中の音韻ｐrを削除する対数確率を求め、これをＴＥＭＰＤ
ＥＬＳＣＯＲＥに足す。次いで、処理はステップｓ５４９に進み、システムは、
音韻ｐrを第１の問合せ音韻ｑ¹ _j2として復号する対数確率を求め、これをＴＥＭ
ＰＤＥＬＳＣＯＲＥに足す。次いで、処理はステップｓ５５１に進み、システム
は、音韻ｐrを第２の問合せ音韻ｑ² _k2として復号する対数確率を求め、これをＴ
ＥＭＰＤＥＬＳＣＯＲＥに足す。次いで、処理はステップｓ５５３に進み、シス
テムは、ＴＥＭＰＤＥＬＳＣＯＲＥとＤＥＬＳＣＯＲＥの対数加算を実行し、結
果をＤＥＬＳＣＯＲＥに格納する。次いで、処理はステップｓ５５５に進み、音
韻ポインタｒが１だけ増分される。次いで、処理はステップｓ５４３に進み、シ
ステムに知られている次の音韻について同様な処理が実行される。システムに知
られている４３個の音韻のそれぞれについてこの計算が実行された後、処理は終
了する。

【０１２１】図２５で実行された各処理ステップと図１８で実行された各ステップを比較す
るとわかるように、復号及び削除に関するダイナミックプログラミングアルゴリ
ズム内で計算される項は、数式（４）に類似しているが、第２の問合せに関する
追加の確率項を有する。具体的には、この項は以下の形式を有する。

【０１２２】

【数１５】このことが予想されるのは、２つの問合せが互いに条件付きで独立しているから
である。

【０１２３】全てのダイナミックプログラミングパスが終了ノードφeまで伝搬した後、第
１の実施形態で算出されたのと同じ正規化項（上記の数式（５）で与えられる）
を用いてこのアラインメントの総スコアが正規化される。これは、正規化項が注
釈のモデルとの類似性にのみ依存するからである。２つの問合せが全ての注釈に
一致した後、注釈の正規化されたスコアがランク付けされ、システムは、このラ
ンク付けに基づいて、注釈、又は入力問合せに最も近い注釈をユーザに出力する
。

【０１２４】上述の第２の実施形態では、２つの入力問合せを格納されている注釈と比較し
た。当業者なら理解できるように、アルゴリズムは、任意の数の入力問合せに関
して適応させることができる。２つの問合せの場合について示したように、さら
に問合せを追加する場合には、この追加の問合せを考慮するためにアルゴリズム
にいくつかのループを追加するだけでよい。しかし、３つ以上の入力問合せを、
格納されている注釈と比較する実施形態では、プルーニングを用いて速度又はメ
モリに関する制約を満たすダイナミックプログラミングルーチンを使用すること
が必要になる場合がある。この場合、全てのパスの全ての確率を合計するのでは
なく、互いに交わるパスの最適なスコアが伝搬させられ、スコアの低いパスは終
了させられる。

【０１２５】（代替実施形態）当業者なら理解できるように、ある音韻シーケンスを他の音韻シーケンスと整
合させる上記の技術は、データ検索以外の用途に適用することができる。さらに
、当業者なら理解できるように、上述のシステムは音韻ラティス及び単語ラティ
ス中の音韻を使用したが、音節やカタカナ（日本語のアルファベット）のような
他の音韻状の単位を使用することができる。

【０１２６】当業者なら理解できるように、２つの音韻シーケンスのダイナミックプログラ
ミングによる整合及びアラインメントに関する上記の説明は、一例としてのみ与
えられており、様々な修正を加えることができる。たとえば、ラティスポイント
を介してパスを伝搬させるラスタ走査技術を使用したが、ラティスポイントを介
してパスを漸進的に伝搬させる他の技術を使用することができる。さらに、当業
者なら理解できるように、上述のダイナミックプログラミング制約以外の制約を
使用して整合プロセスを制御することができる。

【０１２７】上記の実施形態では、注釈は一般に問合せよりも長く、ダイナミックプログラ
ミングアラインメントアルゴリズムによって、問合せが注釈全体に整列させられ
た。他の実施形態では、アラインメントアルゴリズムは、開始位置から終了位置
へと問合せを注釈にわたってステップさせることによって突き合わせ、各ステッ
プにおいて、問合せを注釈の、問合せと概ね同じサイズの部分と比較することに
よって、問合せを注釈と比較してもよい。このような実施形態では、各ステップ
で、上述のダイナミックプログラミング技術と同様な技術を使用して、問合せが
注釈の対応する部分と整列させられる。この技術は図２６ａに示されており、結
果として得られたプロットには、図２６ｂに示されているように問合せが各ステ
ップごとに注釈と突き合わされるときに問合せと現在の注釈とのアラインメント
に関するダイナミックプログラミングスコアがどのように変化するかが示されて
いる。図２６ｂに示されているプロット中のピークは、注釈の、問合せと最もう
まく一致する部分を表している。次いで、問合せと各注釈との比較時に得られた
ピークＤＰスコアを比較することによって、問合せに最も近い注釈を判定するこ
とができる。

【０１２８】上記の実施形態では、音韻ラティス注釈データ及び単語ラティス注釈データを
使用して写真に注釈付けした。当業者なら理解できるように、この音韻ラティス
データ及び単語ラティスデータを使用して多数の異なる種類のデータファイルに
注釈付けすることができる。たとえば、この種の注釈データは、患者のｘ線写真
、たとえばＮＭＲスキャン、超音波スキャンなどの３Ｄビデオに注釈付けする医
療用途に使用することができる。これはまた、オーディオデータ又は地震データ
などＩＤデータに注釈付けするために使用することができる。

【０１２９】上記の実施形態では、入力された音声信号から音韻シーケンスを生成する音声
認識シーケンスを使用した。当業者なら理解できるように、代替物を含む音韻ス
トリングに分解することのできる、出力された単語のシーケンス、即ち、単語ラ
ティスを生成する他の種類の音声認識システムと共に上記のシステムを使用して
、音韻ストリングを生成するレコグナイザをシミュレートすることができる。

【０１３０】上記の実施形態では、挿入確率、削除確率、及び復号確率は、確率の最大尤度
推定値を使用して音声認識シーケンスの異聴統計から算出された。当業者なら理
解できるように、最大エントロピー技術のような他の技術を使用してこれらの確
率を推定することができる。適切な最大エントロピー技術の詳細は、John Skill
ing著、Kluwer Academic publishers刊「Maximum Entropy and Bayesian Method
s」と題する文献の４５ページから５２ページに記載されている。この文献の内
容は、引用によって本明細書に組み込まれる。

【０１３１】上記の実施形態では、データベース２９と自動音声認識ユニット５１は共にユ
ーザ端末５９内に位置している。当業者なら理解できるように、これは必須では
ない。図２７には、データベース２９及び探索エンジン５３がリモートサーバ６
０内に位置しており、ユーザ端末５９がネットワークインタフェースユニット６
７及び６９ならびにデータネットワーク６８（たとえば、インターネット）を介
してデータベース２９にアクセスする実施形態が示されている。この実施形態で
は、ユーザ端末５９が受信できるのはマイクロフォン７からの声の問合せだけで
ある。このような問合せは自動音声認識ユニット５１によって音韻データ及び単
語データに変換される。次いで、このデータは、リモートサーバ６０内に位置す
る探索エンジン５３への、データネットワーク６８を介したデータの送信を制御
する制御ユニット５５に渡される。次いで、探索エンジン５３は、上記の実施形
態で実行された探索と同様に探索を実行する。次いで、探索結果はデータネット
ワーク６８を介して探索エンジン５３から制御ユニット５５に送り返される。次
いで、制御ユニット５５は、ネットワークから受信された探索結果を検討し、適
切なデータをディスプレイ５７上に表示し、それをユーザ３９が見ることができ
るようにする。

【０１３２】データベース２９及び探索エンジン５３をリモートサーバ６０内に配置するだ
けでなく、自動音声認識ユニット５１をリモートサーバ６０内に配置することも
可能である。このような実施形態は図２８に示されている。図示のように、この
実施形態では、ユーザから入力された声の問合せは、音声をデータネットワーク
６８を介して効率的に転送できるように符号化するように動作できる音声符号化
ユニット７３に、入力線６１を介して渡される。次いで、符号化されたデータが
制御ユニット５５に渡され、制御ユニットは、データをネットワーク６８を介し
てリモートサーバ６０に送信する。リモートサーバ６０において、データは自動
音声認識ユニット５１によって処理される。次いで、入力問合せに関して音声認
識ユニット５１によって生成された音韻データ及び単語データが、データベース
２９での探索に使用できるように探索エンジン５３に渡される。次いで、探索エ
ンジン５３によって生成された探索結果が、ネットワークインタフェース６９及
びネットワーク６８を介してユーザ端末５９に送り返される。リモートサーバか
ら受信された探索結果は次いで、ネットワークインタフェースユニット６７を介
して制御ユニット５５に渡され、制御ユニット５５は結果を分析し、ディスプレ
イ５７上に適切なデータを表示し、それをユーザ３９が見ることができるように
する。

【０１３３】同様に、キーボードによるユーザからの入力のみを許容し、リモートサーバ内
に探索エンジン及びデータベースが位置しているユーザ端末５９を設けることが
できる。このような実施形態では、リモートサーバ６０内に音声表記ユニット７
５を配置してもよい。

【０１３４】上記の実施形態では、ダイナミックプログラミングアルゴリズムを使用して問
合せ音韻シーケンスと注釈音韻シーケンスを整列させた。当業者なら理解できる
ように、任意のアラインメント技術を使用することができる。たとえば、全ての
可能なアラインメントを識別する簡単な技術を使用することができる。しかし、
ダイナミックプログラミングは標準処理ハードウェアを使用して実施するのが容
易であるので、ダイナミックプログラミングが好ましい。

【０１３５】上記では、ダイナミックプログラミング技術を使用して２つ以上の音韻シーケ
ンスを比較する方法について説明した。しかし、図２及び図３に示されているよ
うに、注釈はラティスとして記憶することが好ましい。当業者なら理解できるよ
うに、上記の比較技術がこのようなラティスと共に働くには、ラティスによって
定義される音韻シーケンスを「平坦化」して、分岐を有さない単一の音韻シーケ
ンスを得なければならない。このための簡単な手法としては、ラティスによって
定義される全ての様々な可能な音韻シーケンスを識別し、次いでこれらの音韻シ
ーケンスのそれぞれを各問合せのシーケンスと比較する手法がある。しかし、ラ
ティスの共通の部分が各問合せのシーケンスと数回整合させられるので、この手
法は好ましくない。したがって、ラティス内の各音韻に関して利用できるタイム
スタンプ情報に従ってラティス内の各音韻を順次ラベル付けすることによってラ
ティスを平坦化することが好ましい。この場合、ダイナミックプログラミングア
ラインメント時に、各ＤＰラティスポイントで異なるダイナミックプログラミン
グ制約が使用され、各パスは確実にラティス構造に従って伝搬する。

【０１３６】以下の表には、図２に示されている音韻ラティスの部分で使用されるＤＰ制約
が示されている。具体的には、第１の列は、ラティス内の各音韻に割り当てられ
る音韻番号（ｐ1からｐ9）を示し、中央の列は、ラティス内の実際の音韻に対応
し、最後の列は、各音韻について、その音素で終わるパスが、ダイナミックプロ
グラミングの次の時点で伝搬することのできる音韻を示している。表には示され
ていないが、中央の列には、音韻が連結されるノードの詳細と、対応する音韻リ
ンクがさらに含まれる。

【０１３７】

【表１】

【０１３８】たとえば、あるダイナミックプログラミングパスが時間順序音韻ｐ4で終わる
場合、このダイナミックプログラミングパスは、音韻ｐ4に留まることも、ある
いは時間順序音韻ｐ5からｐ11のいずれかに伝搬することもできる。表に示され
ているように、ポイントの中には、パスが到達することのできる音韻が、時間順
序音韻シーケンスどおりに連続的に配置されないポイントがある。たとえば、時
間順序音韻ｐ6で終わるダイナミックプログラミングパスの場合、このパスはこ
の音韻に留まることも、あるいは音韻ｐ10，ｐ12，ｐ15，又はｐ16に進むことも
できる。ラティス内の音韻をこのように連続的に番号付けし、使用されるダイナ
ミックプログラミング制約をラティスに応じて変化させることによって、入力問
合せと注釈ラティスとのダイナミックプログラミング整合を効率的に行うことが
できる。さらに、当業者なら理解できるように、入力問合せもラティスを生成す
る場合、このラティスを同様に平坦化し、それに応じてダイナミックプログラミ
ング制約を調整してもよい。

【０１３９】上記の実施形態では、注釈と問合せの両方に同じ音韻異聴確率を使用した。当
業者なら理解できるように、様々な認識システムを使用してこれらの音韻異聴確
率を生成する場合、注釈と問合せにそれぞれの異なる異聴確率を使用すべきであ
る。これらの異聴確率は、音韻シーケンスを生成するために使用された認識シス
テムに依存する。

【０１４０】上記の実施形態では、注釈と問合せのいずれかをテキストから生成するときに
、キーボードから入力されたテキストに対応する標準音韻シーケンスが正しいも
のと仮定した。この場合、キーボードから入力される単語のスペルに間違いがな
く、また誤入力もないものと仮定されているので、上記の仮定が当てはまらない
場合もある。したがって、他の実施形態では、キーボードから入力問合せ及び／
又は注釈に異聴確率を使用してもよい。言い換えれば、数式（４）及び数式（１
２）は、注釈又は問合せ、あるいはその両方がテキストである場合にも使用され
る。使用される異聴確率が、ミススペルと誤入力のいずれか又はその両方の符号
化を試みてもよい。当業者なら理解できるように、誤入力に関する異聴確率は、
使用されるキーボードの種類に依存する。具体的には、単語を誤入力する異聴確
率はキーボードのレイアウトに依存する。たとえば、文字「ｄ」がキーボードか
ら入力された場合、文字「ｄ」のキーの周りのキーは誤入力確率が高く、一方、
「ｄ」キーから離れた位置にあるキーは誤入力確率が比較的低い。上述のように
、これらの誤入力確率を単語のミススペルに関する異聴確率と共に使用しても、
あるいはそのような異聴確率で置き換えてもよい。このようなミススペル確率は
、多数の異なるユーザから入力されたドキュメントを分析し、通常生じる種類の
誤入力を監視することによって求めてもよい。このようなミススペル確率では、
誤入力によって起こる表記エラーも考慮することもできる。このような実施形態
では、使用されるダイナミックプログラミング制約によって、キーボードからの
入力への挿入及び／又は削除を可能にすべきである。たとえば、図１１に示され
ている制約を使用することができる。

【０１４１】他の場合には、各キーに複数の文字を割り当てるキーボード（たとえば、携帯
電話のキーボード）を介してテキストが入力され、ユーザは、各キーを繰り返し
押して、そのキーに割り当てられた文字を１つずつ確認しなければならない。こ
のような実施形態では、入力される文字と同じキーに割り当てられた文字が、他
のキーに関連する誤入力異聴確率よりも高い誤入力異聴確率を有するように、異
聴確率が調整される。これは、携帯電話を使用してテキストメモリを送信したこ
とのある人なら理解できるように、誤入力は、キーが所望の文字を入力するため
の正しい回数だけ押されなかったために起こることが多いからである。

【０１４２】上記の実施形態では、制御ユニットは、上記の数式（４）又は数式（１２）を
使用して各遷移の復号スコアを算出した。制御ユニットは、システムに知られて
いる全ての音韻をこれらの数式に従って合計する代わりに、この加算内の確率項
を最大にする未知の音韻ｐrを識別し、この最大確率を、注釈及び問合せの対応
する音韻を復号する確率として使用するように構成してもよい。しかし、これは
、この加算内の確率項をどの音韻（ｐr）が最大にするかを判定する追加の計算
が必要になるので好ましくない。

【０１４３】上述の第１の実施形態では、ダイナミックプログラミングアルゴリズムの間に
、整列させた各音韻対ごとに数式（４）を計算した。数式（４）の計算では、注
釈音韻及び問合せ音韻を、システムに知られている各音韻と比較した。当業者な
ら理解できるように、注釈音韻と問合せ音韻の所与の対については、数式（４）
で与えられる確率の多くがゼロに等しいか、又はゼロに非常に近くなる。したが
って、他の実施形態では、注釈音韻と問合せ音韻の対を比較的できるのは、事前
に異聴統計から決定された、知られている全ての音韻の部分集合だけである。こ
のような実施形態を実施する場合、数式（４）を使用して注釈音韻及び問合せ音
韻と比較する必要のあるモデル音韻を識別する参照テーブルを、注釈音韻及び問
合せ音韻を用いてアドレス指定することができる。

【０１４４】上記の実施形態では、整列させられ整合された注釈と問合せの特徴は音声の単
位を表している。当業者なら理解できるように、上述の技術は、特徴のシーケン
スを生成した認識システムが不正確であるために問合せ及び注釈の特徴を混同す
る可能性がある他の用途で使用することができる。たとえば、上述の技術は、認
識システムがある入力文字を別の入力文字と混同する可能性が高い光学文字認識
システム又は手書き文字認識システムで使用することができる。

【０１４５】上記では、いくつかの実施形態及び修正実施形態について説明した。当業者な
ら理解できるように、当業者に明らかな他の多数の実施形態及び修正実施形態が
ある。

【図面の簡単な説明】

【図１】ユーザによるキーボードからの入力又は音声入力から生成された注釈データを
用いてデータファイルに注釈付けできるようにするユーザ端末を示す概略ブロッ
ク図である。

【図２】データファイルに注釈付けするための、ユーザによるキーボードからの入力か
ら生成された音韻ラティス注釈データ及び単語ラティス注釈データの概略図であ
る。

【図３】データファイルに注釈付けするための、ユーザによる音声入力から生成された
音韻ラティス注釈データ及び単語ラティス注釈データの概略図である。

【図４】ユーザが、キーボードからの問合せ又は音声問合せによってデータベースから
情報を検索できるようにする、ユーザの端末の概略ブロック図である。

【図５ａ】図４に示されているユーザ端末のフロー制御の一部を示す流れ図である。

【図５ｂ】図４に示されているユーザ端末のフロー制御の残りの部分を示す流れ図である
。

【図６ａ】問合せと注釈の両方を生成したと仮定される基本的な統計モデルを示す概略図
である。

【図６ｂ】キーボードからの入力を表す第１の音韻シーケンスとユーザの音声入力を表す
第２の音韻シーケンスとを示し、かつユーザの音声入力によるキーボードからの
入力に対する音韻の挿入及び削除が存在する可能性を示す概略図である。

【図６ｃ】それぞれが音声入力を表す第１及び第２の音韻シーケンスと、対応する音声入
力で実際に発声されたものに対応する標準音韻シーケンスを表す第３の音韻シー
ケンスとを示し、対応する標準音韻シーケンスに対する、２つの音声入力への音
韻の挿入及び削除が存在する可能性を示す概略図である。

【図７】注釈音韻シーケンス及び問合せ音韻シーケンスによって作成される探索空間を
開始ヌルノード及び終了ヌルノードと共に概略的に示す図である。

【図８】横軸が注釈の音韻を表し、縦軸が問合せの音韻を表し、各ラティスポイントが
注釈音韻と問合せ音韻との間の可能な一致に対応するいくつかのラティスポイン
トを示す二次元プロットを示す図である。

【図９ａ】注釈がキーボードからの入力であり、かつ問合せが音声入力から生成された問
合せであるときにダイナミックプログラミングによる整合プロセスで使用される
ダイナミックプログラミング制約を概略的に示す図である。

【図９ｂ】問合せがキーボードからの入力であり、かつ注釈が音声入力であるときにダイ
ナミックプログラミングによる整合プロセスで使用されるダイナミックプログラ
ミング制約を概略的に示す図である。

【図１０】音韻例用に記憶される削除確率及び復号確率を概略的に示す図である。

【図１１】注釈と問合せが共に音声入力であるときにダイナミックプログラミングによる
整合プロセスで使用されるダイナミックプログラミング制約を概略的に示す図で
ある。

【図１２】ダイナミックプログラミングによる整合プロセスで実行される主処理ステップ
を示す流れ図である。

【図１３】ヌル開始ノードから全ての可能な始点まで伝搬することによってダイナミック
プログラミングプロセスを開始するのに用いられる主処理ステップを示す流れ図
である。

【図１４】各ダイナミックプログラミングパスを始点から全ての可能な終点まで伝搬させ
るのに用いられる主処理ステップを示す流れ図である。

【図１５】各ダイナミックプログラミングパスを終点からヌル終了ノードまで伝搬させる
際に用いられる主処理ステップを示す流れ図である。

【図１６ａ】ダイナミックプログラミング制約を使用してパスを伝搬させる際に実行される
処理ステップの一部を示す流れ図である。

【図１６ｂ】ダイナミックプログラミング制約を使用してパスを伝搬させる際に用いられる
残りの処理ステップを示す流れ図である。

【図１７】あるパスを始点から終点まで伝搬させる場合の遷移スコアを求める際に用いら
れる処理ステップを示す流れ図である。

【図１８ａ】注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられ
る処理ステップの一部を示す流れ図である。

【図１８ｂ】注釈及び問合せの音韻を削除し復号する場合のスコアを求める際に用いられる
残りのステップを示す流れ図である。

【図１９】注釈音韻シーケンス及び２つの問合せ音韻シーケンスによって作成される探索
空間を開始ヌルノード及び終了ヌルノードと共に概略的に示す図である。

【図２０】ヌル開始ノードから全ての可能な始点まで伝搬することによってダイナミック
プログラミングプロセスを開始するのに用いられる主処理ステップを示す流れ図
である。

【図２１】各ダイナミックプログラミングパスを始点から全ての可能な終点まで伝搬させ
るのに用いられる主処理ステップを示す流れ図である。

【図２２】各ダイナミックプログラミングパスを終点からヌル終了ノードまで伝搬させる
際に用いられる主処理ステップを示す流れ図である。

【図２３】ダイナミックプログラミング制約を使用してパスを伝搬させる際に実行される
処理ステップを示す流れ図である。

【図２４】あるパスの始点から終点まで伝搬させる場合の遷移スコアを求める際に用いら
れる処理ステップを示す流れ図である。

【図２５ａ】注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられ
る処理ステップの第１の部分を示す流れ図である。

【図２５ｂ】注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられ
る処理ステップの第２の部分を示す流れ図である。

【図２５ｃ】注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられ
る処理ステップの第３の部分を示す流れ図である。

【図２５ｄ】注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられ
る処理ステップの第４の部分を示す流れ図である。

【図２５ｅ】注釈及び問合せの音韻を削除し復号する場合のスコアを求める際に用いられる
残りのステップを示す流れ図である。

【図２６ａ】異なる技術を使用して問合せを各注釈と整列させる他の実施形態を概略的に示
す図である。

【図２６ｂ】図２６ａに示す実施形態における問合せと注釈の比較に応じてダイナミックプ
ログラミングスコアがどのように変化するかを示すプロットを示す図である。

【図２７】入力音声問合せに応答して、リモートサーバ内に位置するデータベースからデ
ータファイルを検索するように動作できる他のユーザ端末の形態を示す概略ブロ
ック図である。

【図２８】ユーザが、入力音声問合せに応答して、リモートサーバ内に位置するデータベ
ースからデータを検索できるようにする、他のユーザ端末を示す図である。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/10 Ｇ１０Ｌ 3/00 ５３７Ｅ 15/12 ５３３Ｄ 15/18 (31)優先権主張番号００２５１４３．９ (32)優先日平成12年10月13日(2000．10．13) (33)優先権主張国イギリス（ＧＢ） (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＣＮ，ＪＰ，ＫＲ，ＵＳ (72)発明者チャールズワース，ジェイソン，ピーター，アンドリューイギリス国アールジー12 ２エックスエイチ，バークシャー，ブラックネル，ロンドンロード，ザブラカンズキヤノンリサーチセンターヨーロッパリミテッド内 (72)発明者樋口麻子東京都大田区下丸子３丁目30番２号キヤノン株式会社内Ｆターム(参考） 5B075 ND14 PP07 PP28 QM08 5D015 HH02 HH04 KK02 LL12

Claims

【特許請求の範囲】

【請求項１】第１及び第２の特徴のシーケンスを受信する手段と、第１シーケンスの特徴を第２シーケンスの特徴と整列させ、いくつかの整列さ
せた特徴対を形成する手段と、各整列させた特徴対の各特徴を比較し、整列させた特徴対間の類似性を表す比
較スコアを生成する手段と、全ての整列させた特徴対について比較スコアを組み合わせ、第１及び第２の特
徴のシーケンスとの間の類似性の程度を示す手段とを備える特徴比較装置であっ
て、前記比較スコアを生成する手段が、各整列させた対について、整列させた対における第１のシーケンスの特徴を、
１組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、前記第１の
シーケンスの特徴と１組の特徴から得たそれぞれの特徴との間の類似性を表す対
応する複数の中間比較スコアを示す第１の比較手段と、整列させた各対について、整列させた対における第２のシーケンスの特徴を、
１組の特徴から得た複数の特徴のそれぞれと比較し、前記第２のシーケンスの特
徴と１組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数
の中間比較スコアを示す第２の比較手段と、前記複数の中間比較スコアを組み合わせることにより、整列させた対について
前記比較スコアを算出する手段と、を備えることを特徴とする特徴比較装置。
【請求項２】前記第１及び第２の比較手段が、第１のシーケンスの特徴及
び第２のシーケンスの特徴のそれぞれを前記１組の所定の特徴の各特徴と比較す
るように動作することを特徴とする請求項１に記載の装置。
【請求項３】前記比較スコアを生成する手段が、整列させた特徴対の第２
のシーケンスの特徴を整列させた特徴対の第１のシーケンスの特徴と混同する確
率を表す整列させた特徴対の比較スコアを生成するように動作することを特徴と
する請求項１又は２に記載の装置。
【請求項４】前記第１及び第２の比較手段が、１組の所定の特徴から得ら
れた対応する特徴を、整列させた対の特徴と混同する確率を示す中間比較スコア
を求めるように動作することを特徴とする請求項３に記載の装置。
【請求項５】前記計算手段が、（ｉ）整列させた１対の特徴における第１
及び第２のシーケンスの特徴を、該１組の所定の特徴における同じ特徴と比較す
る際に得られた中間スコアを掛け合わせ、複数の掛け合わされた中間比較スコア
を求め、（ｉｉ）結果として得られる掛け合わされた中間スコアを合計し、整列
させた対の特徴の前記比較スコアを算出するように動作することを特徴とする請
求項４に記載の装置。
【請求項６】前記１組の所定の特徴における前記各特徴が、特徴のシーケ
ンス内で生じる所定の確率を有し、前記計算手段が、掛け合わされた中間比較ス
コアを生成するのに用いられる、１組の所定の特徴における特徴の各発生確率を
用いて、前記掛け合わされた中間比較スコアのそれぞれを重み付けするように動
作することを特徴とする請求項５に記載の装置。
【請求項７】前記計算手段が、次式を計算するように動作し、【数１】上式で、ｑj及びａiがそれぞれ、整列させた第１及び第２のシーケンスの特徴
からなる対であり、Ｐ（ｑj｜ｐr）が、設定された特徴ｐrを第１のシーケンス
の特徴ｑjとして混同する確率であり、Ｐ（ａi｜ｐr）が、設定された確率ｐrを
第２のシーケンスの特徴ａiとして混同する確率であり、Ｐ（ｐr）が、設定され
た特徴ｐrが特徴のシーケンスにおいて発生する確率を表すことを特徴とする請
求項６に記載の装置。
【請求項８】第１及び第２のシーケンスの特徴の異聴確率が事前に求めら
れ、かつ前記異聴確率が、第１及び第２のシーケンスのそれぞれを生成するのに
用いられた認識システムに依存することを特徴とする請求項７に記載の装置。
【請求項９】前記中間スコアが対数確率を表し、前記算出手段が、それぞ
れの中間スコアを足すことによって前記掛け算を行うように動作し、かつ対数の
足し算を実行することによって前記掛け合わされたスコアの前記足し算を行うよ
うに動作することを特徴とする請求項５乃至８のいずれか１項に記載の装置。
【請求項１０】前記組合せ手段が、整列させた特徴からなる全ての対の比
較スコアを足して前記類似度を求めるように動作することを特徴とする請求項９
に記載の装置。
【請求項１１】前記整列手段が、前記第１及び第２の特徴のシーケンスに
おける特徴の削除及び挿入を識別するように動作し、前記比較スコアを生成する
手段が、整列させた１対の特徴の近くで行われた、前記整列手段によって識別さ
れた特徴の削除及び挿入に応じて、整列させた１対の特徴の前記比較スコアを生
成するように動作することを特徴とする上記請求項のいずれか１項に記載の装置
。
【請求項１２】前記整列手段が、ダイナミックプログラミング技術を使用
して前記第１及び第２の特徴のシーケンスを整列させるダイナミックプログラミ
ング手段を備えることを特徴とする上記請求項のいずれか１項に記載の装置。
【請求項１３】前記ダイナミックプログラミング手段が、前記第１の特徴
のシーケンスと第２の特徴のシーケンスとの間の複数の可能な整列を漸進的に判
定するように動作し、前記比較スコアを生成する手段が、前記ダイナミックプロ
グラミング手段によって判定された、整列させた特徴からなる可能な各対の比較
スコアを求めるように動作することを特徴とする請求項１２に記載の装置。
【請求項１４】前記比較スコアを生成する手段が、前記可能な整列が漸進
的に判定される間に前記比較スコアを生成するように動作することを特徴とする
請求項１３に記載の装置。
【請求項１５】前記ダイナミックプログラミング手段が、前記第１の特徴
のシーケンスと前記第２の特徴のシーケンスとの間の最適な整列を判定するよう
に動作し、前記組合せ手段が、整列させた特徴からなる最適な対のみの比較スコ
アを組み合わせることによって前記類似性を求めるように動作することを特徴と
する請求項１２、１３、又は１４に記載の装置。
【請求項１６】前記組合せ手段が、整列させた特徴からなる全ての可能な
対について全ての比較スコアを組み合わせることによって前記類似度を求めるよ
うに動作することを特徴とする請求項１３又は１４に記載の装置。
【請求項１７】前記第１及び第２の特徴のシーケンス内の各特徴が、前記
１組の所定の特徴に属し、前記第１及び第２の比較手段が、前記１組の所定の特
徴を互いに関係付ける所定のデータを使用して前記中間スコアを求めるように動
作することを特徴とする上記請求項のいずれか１項に記載の装置。
【請求項１８】前記第１の比較手段によって使用される所定のデータが、
第１の特徴のシーケンスを生成するのに用いられるシステムに依存し、前記第２
の比較手段によって使用される所定のデータが、前記第１の比較手段によって使
用される所定のデータと異なり、第２の特徴のシーケンスを生成するのに用いら
れるシステムに依存することを特徴とする請求項１７に記載の装置。
【請求項１９】所定の各データが、１組の特徴のそれぞれについて、その
特徴を１組の特徴中の他の特徴と混同する確率を含むことを特徴とする請求項１
７又は１８に記載の装置。
【請求項２０】所定の各データが、１組の特徴のそれぞれについて、この
特徴を特徴のシーケンスに挿入する確率をさらに含むことを特徴とする請求項１
９に記載の装置。
【請求項２１】所定の各データが、１組の特徴のそれぞれについて、この
特徴を特徴のシーケンスから削除する確率をさらに含むことを特徴とする請求項
１９又は２０に記載の装置。
【請求項２２】前記第１及び第２の特徴のシーケンスが時間順次信号を表
すことを特徴とする上記請求項のいずれか１項に記載の装置。
【請求項２３】前記第１及び第２の特徴のシーケンスがオーディオ信号を
表すことを特徴とする上記請求項のいずれか１項に記載の装置。
【請求項２４】前記第１及び第２の特徴のシーケンスがテキスト及び／又
は音声を表すことを特徴とする請求項２３に記載の装置。
【請求項２５】前記各特徴が、テキスト又は音声の小単語単位を表すこと
を特徴とする請求項２４に記載の装置。
【請求項２６】前記各特徴が音韻を表すことを特徴とする請求項２５に記
載の装置。
【請求項２７】前記第１の特徴のシーケンスが、キーボードからの入力か
ら生成された複数の小単語単位を含み、前記第１の比較手段が、誤入力確率及び
／又はミススペル確率を使用して前記中間比較スコアを求めるように動作するこ
とを特徴とする上記請求項のいずれか１項に記載の装置。
【請求項２８】前記第２の特徴のシーケンスが、音声入力から生成された
小単語単位のシーケンスを含み、前記第２の比較手段が、誤認識確率を使用して
前記中間スコアを求めるように動作することを特徴とする上記請求項のいずれか
に記載の装置。
【請求項２９】前記受信手段が、３つ以上の特徴のシーケンスを受信する
ように動作し、前記整列手段が、受信された各特徴のシーケンスの特徴同士を整列させ、整列
させた特徴からなるいくつかの群を形成し、前記比較スコアを生成する手段が、整列させた特徴からなる各群中の特徴同士
を比較し、整列させた特徴からなる各群間の類似性を表す比較スコアを生成する
ように動作し、前記組合せ手段が、整列させた特徴からなる全ての群の比較スコアを組み合わ
せ、３つ以上の特徴のシーケンス間の類似度を求めるように動作することを特徴
とする上記請求項のいずれか１項に記載の装置。
【請求項３０】前記整列手段が、特徴のシーケンスを互いに同時に整列さ
せるように動作することを特徴とする請求項２９に記載の装置。
【請求項３１】前記受信手段が、複数の第２の特徴のシーケンスを受信す
るように動作し、前記整列手段が、前記第１の特徴のシーケンスをそれぞれの前
記第２の特徴のシーケンスと整列させ、各整列ごとの、整列させた特徴からなる
いくつかの対を形成し、前記組合せ手段が、各整列ごとの比較スコアを組み合わ
せ、第１の特徴のシーケンスと前記複数の第２の特徴のシーケンスとの間のそれ
ぞれの類似度を求めるように動作することを特徴とする上記請求項のいずれか１
項に記載の装置。
【請求項３２】前記比較スコアを生成する手段から出力された前記複数の
類似度を比較する手段と、前記第１の特徴のシーケンスに最も近い第２の特徴の
シーケンスを示す信号を出力する手段とをさらに備えることを特徴とする請求項
３１に記載の装置。
【請求項３３】前記組合せ手段が、前記各類似度を正規化する正規化手段
を備えることを特徴とする請求項３１又は３２に記載の装置。
【請求項３４】前記正規化手段が、対応する第２の特徴のシーケンスの長
さに応じて変化するそれぞれの正規化スコアで割ることによって各類似度を正規
化することを特徴とする請求項３３に記載の装置。
【請求項３５】それぞれの正規化スコアが、対応する第２の特徴のシーケ
ンスにおける特徴のシーケンスに応じて変化することを特徴とする請求項３４に
記載の装置。
【請求項３６】前記それぞれの正規化スコアが、前記第２の比較手段によ
って算出された対応する中間比較スコアと共に変化することを特徴とする請求項
３４又は３５に記載の装置。
【請求項３７】前記整列手段が、ダイナミックプログラミング技術を使用
して前記第１の特徴のシーケンスと前記第２の特徴のシーケンスを整列させるダ
イナミックプログラミング手段を備え、前記正規化手段が、前記ダイナミックプ
ログラミング手段によって前記可能な整列が漸進的に算出される間にそれぞれの
正規化スコアを算出するように動作することを特徴とする請求項３３から３６の
いずれか１項に記載の装置。
【請求項３８】前記正規化手段が、整列させた特徴からなるそれぞれの可
能な対について、次式を計算し、【数２】上式で、Ｐ（ａi｜ｐr）が、設定された特徴ｐrを第２のシーケンスの特徴ａi
として混同する確率を表し、Ｐ（ｐr）が、設定された特徴ｐrが特徴のシーケン
スにおいて発生する確率を表すことを特徴とする請求項３７に記載の装置。
【請求項３９】前記正規化手段が、整列させた特徴のそれぞれの対につい
て算出された正規化項を掛け合わせることによって前記それぞれの正規化スコア
を算出するように動作することを特徴とする請求項３８に記載の装置。
【請求項４０】複数の情報エントリのそれぞれが、注釈の特徴のシーケン
スを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリ
を含むデータベースを探索する装置であって、入力問合せの複数の表現を受信する手段と、入力問合せの各表現を、表現を表す問合せの特徴のシーケンスに変換する手段
と、各表現の問合せの特徴を各注釈の注釈の特徴と比較し、１組の比較結果を求め
る比較手段と、各表現の問合せの特徴を同じ注釈の注釈の特徴と比較することによって得られ
た比較結果を互いに組み合わせ、各注釈について、入力問合せと注釈との間の類
似度を求める組合せ手段と、前記組合せ手段によって全ての注釈について求められた類似度を使用して、前
記データベースから検索すべき情報を識別する手段と、を備えることを特徴とする装置。
【請求項４１】前記比較手段は、各表現の問合せの特徴を現在の注釈の特
徴と同時に比較することを特徴とする請求項４０に記載の装置。
【請求項４２】前記比較手段は、各表現の問合せの特徴を現在の注釈の特徴と整列させ、各整列させた群が、各
表現の問合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの
群を形成する手段と、整列させた特徴からなる各群の特徴同士を比較し、整列させた特徴からなる群
の特徴間の類似性を表す比較スコアを生成する特徴比較器とを備え、前記組合せ手段が、現在の注釈に関する整列させた特徴からなる全ての群の比
較スコアを組み合わせ、入力問合せと現在の注釈との間の類似度を求めるように
動作することを特徴とする請求項４０又は４１に記載の装置。
【請求項４３】前記特徴比較器が、整列させた各群中の特徴について、群
中の特徴を１組の所定の特徴から得られた複数の特徴のそれぞれと比較し、前記
群中の特徴と１組の特徴のそれぞれとの間の類似性を表す対応する複数の中間比
較スコアを求める、整列させた特徴からなる各群中の各特徴用のそれぞれの特徴
を比較する手段と、それぞれの特徴比較手段によって生成された複数の中間比較
スコアを組み合わせることによって、整列させた群の前記比較スコアを算出する
手段とを備えることを特徴とする請求項４２に記載の装置。
【請求項４４】前記注釈のいくつか又は全ての音声注釈の特徴のシーケン
スが、オーディオ注釈信号から生成されることを特徴とする請求項４０から４３
のいずれか１項に記載の装置。
【請求項４５】前記注釈のいくつか又は全ての音声注釈の特徴のシーケン
スが、テキスト注釈から生成されることを特徴とする請求項４０から４４のいず
れか１項に記載の装置。
【請求項４６】前記変換手段が音声認識システムを備えることを特徴とす
る請求項４０から４５のいずれか１項に記載の装置。
【請求項４７】１つ又は複数の前記情報エントリが、関連する注釈である
ことを特徴とする請求項４０から４６のいずれか１項に記載の装置。
【請求項４８】複数の情報エントリのそれぞれが、特徴のシーケンスを含
む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含む
データベースを探索する装置であって、特徴のシーケンスを含む入力問合せを受信する手段と、問合せの特徴のシーケンスを各注釈の特徴と比較し、１組の比較結果を求める
、請求項１から３９のいずれかに記載の装置と、前記比較結果を使用して前記データベースから検索すべき前記情報を識別する
手段とを備えることを特徴とする装置。
【請求項４９】複数の情報エントリのそれぞれが、音声の特徴のシーケン
スを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリ
を含むデータベースを探索する装置であって、音声の特徴のシーケンスを含む入力問合せを受信する手段と、音声の特徴からなる前記問合せのシーケンスと各注釈の音声の特徴を比較し、
１組の比較結果を求める比較手段と、前記比較結果を使用して、前記データベースから検索すべき前記情報を識別す
る手段とを備える装置において、前記比較手段が、複数の異なる比較動作モードを有し、該装置が、（ｉ）音声の特徴からなる問合せのシーケンスがオーディオ信号から生成された
シーケンスか、それともテキストから生成されたシーケンスか、及び（ｉｉ）現
在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケンス
か、それともテキストから生成されたシーケンスかを判定し、判定結果を出力す
る手段と、現在の注釈について、前記判定結果に応じて前記比較手段の動作モードを選択
する手段とをさらに備えることを特徴とする装置。
【請求項５０】前記入力問合せと前記現在の注釈が共に音声から生成され
たものであると前記判定手段が判定したときに、前記選択手段が、前記比較手段
が請求項１から３９のいずれかに記載の装置として働くように前記動作モードを
選択するように動作することを特徴とする請求項４９に記載の装置。
【請求項５１】１つ又は複数の前記情報エントリが、関連する注釈である
ことを特徴とする請求項４８から５０のいずれか１項に記載の装置。
【請求項５２】特徴比較装置であって、各シーケンスが、入力問合せの表現を表す、問合せの特徴からなる第１及び第
２のシーケンスを受信する手段と、注釈の特徴のシーケンスを受信する手段と、各表現の問合せの特徴を注釈の特徴と整列させ、各整列させた群が各表現の問
合せの特徴と注釈の特徴とを含む、特徴からなるいくつかの整列させた群を形成
する手段と、特徴からなる各整列させた群の特徴同士を比較し、整列させた群の特徴からな
る群間の特徴間の類似性を表す比較スコアを生成する手段と、特徴からなる全ての整列させた群の比較スコアを組み合わせ、入力問合せの表
現と注釈との間の類似度を求める手段とを備える装置において、前記比較スコアを生成する手段は、整列させた各群について、特徴からなる整列させた群における第１の問合せの
シーケンスの特徴を、１組の所定の特徴から取り出された複数の特徴のそれぞれ
と比較し、前記第１の問合せのシーケンスの特徴と１組の特徴におけるそれぞれ
の特徴との間の類似性を表す対応する複数の中間比較スコアを求める第１の特徴
比較器と、整列させた各群について、整列させた特徴からなる群における第２の問合せの
シーケンスの特徴を、１組の特徴における前記複数の特徴のそれぞれと比較し、
前記第２の問合せのシーケンスの特徴と１組の特徴におけるそれぞれの特徴との
間の類似性を表す他の対応する複数の中間比較スコアを求める第２の特徴比較器
と、整列させた特徴からなる各群について、整列させた群における注釈の特徴を、
１組の特徴における前記複数の特徴のそれぞれと比較し、前記注釈の特徴と１組
の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比
較スコアを示す第３の特徴比較器と、前記複数の中間比較スコアを組み合わせることにより、整列させた群の前記比
較スコアを算出する手段と、を備えることを特徴とする特徴比較装置。
【請求項５３】複数の情報エントリのそれぞれが、音声注釈の特徴のシー
ケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エン
トリを含むデータベースを探索する装置であって、入力音声問合せの複数の表現を受信する手段と、入力問合せの各表現を、表現内の音声を表す音声問合せの特徴のシーケンスに
変換する手段と、各表現の音声注釈の特徴を各注釈の音声問合せの特徴と比較し、入力問合せと
各注釈との間に類似度を求める手段と、全ての注釈について組合せ手段によって求めた類似度を使用して、前記データ
ベースから検索すべき前記情報を識別するための手段とを備える装置であって、前記類似度を求める手段は複数の異なる比較動作モードを有し、該装置が、現在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケ
ンスか、それともテキストから生成されたシーケンスかを判定し、判定結果を出
力する手段と、現在の注釈について、前記判定結果に応じて前記類似度を求める手段の動作モ
ードを選択する手段と、をさらに備えることを特徴とする装置。
【請求項５４】特徴比較方法であって、第１の特徴のシーケンス及び第２の特徴のシーケンスを受信するステップと、第１のシーケンスの特徴を第２のシーケンスの特徴と整列させ、整列させた特
徴からなるいくつかの対を形成するステップと、整列させた特徴からなる各対の特徴同士を比較し、整列させた１対の特徴間の
類似性を表す比較スコアを生成するステップと、整列させた特徴からなる全ての対の比較スコアを組み合わせ、第１の特徴のシ
ーケンスと第２の特徴のシーケンスとの間の類似度を求めるステップとを含む方
法であって、前記比較スコアを生成するステップは、整列させた各対について、整列させた対における第１のシーケンスの特徴を、
１組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、前記第１の
シーケンスの特徴と１組の特徴におけるそれぞれの特徴との間の類似性を表す対
応する複数の中間比較スコアを求める第１の比較ステップと、整列させた各対について、整列させた対における第２のシーケンスの特徴を、
１組の特徴における前記複数の特徴のそれぞれと比較し、前記第２のシーケンス
の特徴と１組の特徴におけるそれぞれの特徴との間の類似性を表す他の対応する
複数の中間比較スコアを求める第２の比較ステップと、前記複数の中間比較スコアを組み合わせることにより、整列させた１対につい
て前記比較スコアを算出するステップと、を含むことを特徴とする特徴比較方法。
【請求項５５】前記第１及び第２のステップにおいて、各特徴が前記１組
の所定の特徴に含まれる第１のシーケンスの特徴と第２のシーケンスの特徴が比
較されることを特徴とする請求項５４に記載の方法。
【請求項５６】前記比較スコアを生成するステップにおいて、整列させた
対の第２のシーケンスの特徴を整列させた対の第１のシーケンスの特徴として混
同する確率を表す、整列させた対の特徴の比較スコアが生成されることを特徴と
する請求項５４又は５５に記載の方法。
【請求項５７】前記第１及び第２の比較ステップにおいて、１組の所定の
特徴から得られた対応する特徴を、整列させた１対の特徴と混同する確率を示す
中間比較スコアが求められることを特徴とする請求項５６に記載の方法。
【請求項５８】前記計算ステップにおいて、（ｉ）整列させた対の特徴に
おける第１及び第２のシーケンスの特徴が、組の同じ特徴と比較する際に得られ
た中間スコアと掛け合わされ、複数の掛け合わされた中間比較スコアが求められ
、（ｉｉ）結果として得られる掛け合わされた中間スコアが合計され、整列させ
た１対の前記比較スコアが算出されることを特徴とする請求項５７に記載の方法
。
【請求項５９】前記１組の所定の特徴における前記各特徴が、特徴のシー
ケンス内での所定の発生確率を有し、前記計算ステップにおいて、掛け合わされ
た中間比較スコアを生成するのに用いられる、組の特徴の各発生確率を用いて、
前記掛け合わされた中間比較スコアのそれぞれが重み付けされることを特徴とす
る請求項５８に記載の方法。
【請求項６０】前記計算ステップにおいて、次式が計算され、【数３】上式で、ｑj及びａiがそれぞれ、整列させた第１及び第２のシーケンスの特徴
からなる対であり、Ｐ（ｑj｜ｐr）が、設定された特徴ｐrを第１のシーケンス
の特徴ｑjとして混同する確率であり、Ｐ（ａi｜ｐr）が、設定された確率ｐrを
第２のシーケンスの特徴ａiとして混同する確率であり、Ｐ（ｐr）が、設定され
た特徴ｐrが特徴のシーケンスにおいて発生する確率を表すことを特徴とする請
求項５９に記載の方法。
【請求項６１】第１及び第２のシーケンスの特徴の異聴確率が事前に決定
され、かつ前記異聴確率が、第１及び第２のシーケンスのそれぞれを生成するの
に用いられた認識システムに依存することを特徴とする請求項６０に記載の方法
。
【請求項６２】前記中間スコアが対数確率を表し、前記算出ステップにお
いて、それぞれの中間スコアを足すことによって前記掛け算が行われ、かつ対数
の足し算を実行することによって前記掛け合わされたスコアの前記足し算が行わ
れることを特徴とする請求項５８から６１のいずれか１項に記載の方法。
【請求項６３】前記組合せステップにおいて、整列させた全ての対の比較
スコアを足して前記類似度が決定されることを特徴とする請求項６２に記載の方
法。
【請求項６４】前記整列ステップにおいて、前記第１及び第２の特徴のシ
ーケンスにおける特徴の削除及び挿入が識別され、前記比較スコアを生成するス
テップにおいて、整列させた１対の特徴の近くで行われた、前記整列ステップに
よって識別された特徴の削除及び挿入に応じて、整列させた１対の特徴の前記比
較スコアが生成されることを特徴とする請求項５４から６３のいずれか１項に記
載の方法。
【請求項６５】前記整列ステップにおいて、ダイナミックプログラミング
技術を使用して前記第１及び第２の特徴のシーケンスを整列させることを特徴と
する請求項５４から６４のいずれか１項に記載の方法。
【請求項６６】前記整列ステップにおいて、前記第１の特徴のシーケンス
と第２の特徴のシーケンスとの間の複数の可能な整列が漸進的に判定され、前記
比較スコアを生成するステップにおいて、前記整列ステップによって判定された
整列させた特徴からなる各可能な対の比較スコアが求められることを特徴とする
請求項６５に記載の方法。
【請求項６７】前記比較スコアを生成するステップにおいて、前記可能な
整列が漸進的に判定される間に前記比較スコアが生成されることを特徴とする請
求項６６に記載の方法。
【請求項６８】前記整列ステップにおいて、前記第１の特徴のシーケンス
と前記第２の特徴のシーケンスとの間の最適な整列が判定され、前記組合せステ
ップが、整列させた特徴からなる最適な対のみの比較スコアを組み合わせること
によって前記類似度を求めるように動作することを特徴とする請求項６５、６６
、又は６７に記載の方法。
【請求項６９】前記組合せステップにおいて、特徴からなる全ての可能な
整列させた対の全ての比較スコアを組み合わせることによって前記類似度が求め
られることを特徴とする請求項６７又は６８に記載の方法。
【請求項７０】前記第１及び第２の特徴のシーケンス内の各特徴が、前記
１組の所定の特徴に属し、前記第１及び第２の比較ステップにおいて、前記１組
の所定の特徴を互いに関係付ける所定のデータを使用して前記中間スコアを求め
られることを特徴とする請求項５４から６９のいずれか１項に記載の方法。
【請求項７１】前記第１の比較ステップで使用される所定のデータが、第
１の特徴のシーケンスを生成するのに用いられるシステムに依存し、前記第２の
比較ステップで使用される所定のデータが、前記第１の比較ステップで使用され
る所定のデータと異なり、第２の特徴のシーケンスを生成するのに用いられるシ
ステムに依存することを特徴とする請求項７０に記載の方法。
【請求項７２】所定の各データが、１組の特徴のそれぞれの特徴について
、その特徴を１組の特徴中の他の特徴と混同する確率を含むことを特徴とする請
求項７０又は７１に記載の方法。
【請求項７３】所定の各データが、１組の特徴のそれぞれについて、この
特徴を特徴のシーケンスに挿入する確率をさらに含むことを特徴とする請求項７
２に記載の方法。
【請求項７４】所定の各データが、１組の特徴のそれぞれについて、この
特徴を特徴のシーケンスから削除する確率をさらに含むことを特徴とする請求項
７２又は７３に記載の方法。
【請求項７５】前記第１及び第２の特徴のシーケンスが、時間順次信号を
表すことを特徴とする請求項５４から７４のいずれかに記載の方法。
【請求項７６】前記第１及び第２の特徴のシーケンスがオーディオ信号を
表すことを特徴とする請求項５４から７５のいずれか１項に記載の方法。
【請求項７７】前記第１及び第２の特徴のシーケンスが音声を表すことを
特徴とする請求項７６に記載の方法。
【請求項７８】前記各特徴が、音声の小単語単位を表すことを特徴とする
請求項７７に記載の方法。
【請求項７９】前記各特徴が音韻を表すことを特徴とする請求項７８に記
載の方法。
【請求項８０】前記第１の特徴のシーケンスが小単語単位を含み、前記第
１の比較ステップにおいて、誤入力確率及び／又はミススペル確率を使用して前
記中間比較スコアが求められることを特徴とする請求項５４から７９のいずれか
１項に記載の方法。
【請求項８１】前記第２の特徴のシーケンスが、音声入力から生成された
小単語単位のシーケンスを含み、前記第２の比較ステップにおいて、誤認識確率
を使用して前記中間スコアが求められることを特徴とする請求項５４から８０の
いずれか１項に記載の方法。
【請求項８２】前記受信ステップにおいて、３つ以上の特徴のシーケンス
が受信され、前記整列ステップにおいて、受信された各特徴のシーケンスの特徴同士が整列
させられ、整列させた特徴からなるいくつかの群が形成され、前記比較スコアを生成するステップにおいて、整列させた特徴からなる各群中
の特徴同士が比較され、整列させた特徴からなる各群間の類似性を表す比較スコ
アが生成され、前記組合せステップにおいて、整列させた特徴からなる全ての群の比較スコア
が組み合わされ、３つ以上の特徴のシーケンス間の類似度が求められることを特
徴とする請求項５４から８１のいずれか１項に記載の方法。
【請求項８３】前記整列ステップにおいて、特徴のシーケンスが互いに同
時に整列させられることを特徴とする請求項８２に記載の方法。
【請求項８４】前記受信ステップにおいて、複数の第２の特徴のシーケン
スが受信され、前記整列ステップにおいて、前記第１の特徴のシーケンスがそれ
ぞれの前記第２の特徴のシーケンスと整列させられ、各整列ごとの、特徴からな
るいくつかの整列させた対が形成され、前記組合せステップにおいて、各整列ご
との比較スコアが組み合わされ、第１の特徴のシーケンスと前記複数の第２の特
徴のシーケンスとの間のそれぞれの類似度が求められることを特徴とする請求項
５４から８３のいずれか１項に記載の方法。
【請求項８５】前記組合せ手段から出力された前記複数の類似度を比較す
るステップと、前記第１の特徴のシーケンスに最も類似の第２の特徴のシーケン
スを示す信号を出力するステップとをさらに備えることを特徴とする請求項８４
に記載の方法。
【請求項８６】前記組合せステップにおいて、前記各類似度を正規化する
正規化ステップを備えることを特徴とする請求項８４又は８５に記載の方法。
【請求項８７】前記正規化ステップにおいて、対応する第２の特徴のシー
ケンスの長さに応じて変化するそれぞれの正規化スコアで、各類似度を割ること
によって各類似度が正規化されることを特徴とする請求項８６に記載の方法。
【請求項８８】それぞれの正規化スコアが、対応する第２の特徴のシーケ
ンスにおける特徴のシーケンスに応じて変化することを特徴とする請求項８７に
記載の方法。
【請求項８９】前記それぞれの正規化スコアが、前記第２の比較ステップ
で算出された対応する中間比較スコアと共に変化することを特徴とする請求項８
７又は８８に記載の方法。
【請求項９０】前記整列ステップにおいて、前記第１の特徴のシーケンス
と前記第２の特徴のシーケンスとの間の複数の可能な整列が漸進的に判定され、
前記比較スコアを生成するステップにおいて、前記整列ステップで判定された整
列させた特徴の可能な各対の比較スコアが求められ、前記正規化ステップにおい
て、前記整列ステップによって前記可能な整列が漸進的に算出される間にそれぞ
れの正規化スコアが算出されることを特徴とする請求項８６から８９のいずれか
１項に記載の方法。
【請求項９１】前記正規化ステップにおいて、整列させた特徴からなるそ
れぞれの可能な対について、次式が計算され、【数４】上式で、Ｐ（ａi｜ｐr）が、設定された特徴ｐrを第２のシーケンスの特徴ａi
として混同する確率を表し、Ｐ（ｐr）が、設定された特徴ｐrが特徴のシーケン
スにおいて発生する確率を表すことを特徴とする請求項９０に記載の方法。
【請求項９２】前記正規化ステップにおいて、特徴のそれぞれの整列させ
た対について算出された正規化項を掛け合わせることによって前記それぞれの正
規化が算出されることを特徴とする請求項９１に記載の方法。
【請求項９３】複数の情報エントリのそれぞれが、注釈の特徴のシーケン
スを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリ
を含むデータベースを探索する方法であって、入力問合せの複数の表現を受信するステップと、入力問合せの各表現を、表現を表す問合せの特徴のシーケンスに変換するステ
ップと、各表現の問合せの特徴を各注釈の注釈の特徴と比較し、１組の比較結果を求め
るステップと、各表現の問合せの特徴を同じ注釈の注釈の特徴と比較することによって得られ
た比較結果を互いに組み合わせ、各注釈について、入力問合せと注釈との間の類
似度を求めるステップと、組合せステップによって全ての注釈について求められた類似度を使用して、前
記データベースから検索すべき前記情報を識別するステップと、を含むことを特徴とする方法。
【請求項９４】前記比較結果を求めるステップにおいて、各表現の問合せ
の特徴が現在の注釈の特徴と同時に比較されることを特徴とする請求項９３に記
載の方法。
【請求項９５】前記比較結果を求めるステップは、各表現の問合せの特徴を現在の注釈の特徴と整列させ、各整列させた群が、各
表現の問合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの
群を形成するステップと、特徴比較器を使用して、整列させた特徴からなる各群の特徴同士を比較し、整
列させた特徴からなる群の特徴間の類似性を表す比較スコアを生成するステップ
とを含み、前記組合せステップにおいて、現在の注釈に関する整列させた特徴からなる全
ての群の比較スコアが組み合わされ、入力問合せと現在の注釈との間の前記類似
度が求められることを特徴とする請求項９３又は９４に記載の方法。
【請求項９６】前記問合せの特徴のシーケンス及び前記注釈の特徴のシー
ケンスがそれぞれ、オーディオ信号を表すことを特徴とする請求項９３から９５
のいずれか１項に記載の方法。
【請求項９７】前記問合せの特徴のシーケンス及び前記注釈の特徴のシー
ケンスがそれぞれ、音声を表すことを特徴とする請求項９６に記載の方法。
【請求項９８】前記各特徴が音声の小単語単位を表すことを特徴とする請
求項９７に記載の方法。
【請求項９９】前記各特徴が音韻を表すことを特徴とする請求項９８に記
載の方法。
【請求項１００】前記注釈のいくつか又は全ての音声注釈の特徴のシーケ
ンスが、オーディオ信号又はテキスト注釈から生成されることを特徴とする請求
項９３から９９のいずれか１項に記載の方法。
【請求項１０１】特徴比較方法であって、第１の特徴のシーケンス及び第２の特徴のシーケンスを受信するステップと、第１のシーケンスの特徴を第２のシーケンスの特徴と整列させるステップと、整列させた特徴からなる各対を比較し、整列させた１対の特徴の比較スコアを
生成するステップと、整列させた特徴からなる全ての対の比較スコアを組み合わせ、第１の特徴のシ
ーケンスと第２の特徴のシーケンスとの間の類似度を求めるステップとを含む方
法であって、前記比較スコアを生成するステップは、第１のシーケンスの整列させた特徴を複数の可能な特徴のそれぞれと比較し、
対応する複数の中間比較スコアを求める第１の比較ステップと、第２のシーケンスの整列させた特徴を複数の可能な特徴のそれぞれと比較し、
他の対応する複数の中間比較スコアを求める第２の比較ステップと、前記複数の中間比較スコアを組み合わせ、整列させた１対の特徴の前記比較ス
コアを求めるステップと、を含むことを特徴とする特徴比較方法。
【請求項１０２】複数の情報エントリのそれぞれが、特徴のシーケンスを
含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含
むデータベースを探索する方法であって、特徴のシーケンスを含む入力問合せを受信するステップと、請求項５４から１０１のいずれかに記載された方法を使用して、問合せの特徴
のシーケンスを各注釈の特徴と比較し、１組の比較結果を求めるステップと、前記比較結果から、前記データベースから検索すべき前記情報を識別するステ
ップと、を含むことを特徴とする方法。
【請求項１０３】複数の情報エントリのそれぞれが、音声の特徴のシーケ
ンスを含む注釈を有する、検索すべき情報を識別する複数の情報エントリを含む
データベースを探索する方法であって、音声の特徴のシーケンスを含む入力問合せを受信するステップと、音声の特徴からなる前記問合せのシーケンスと各注釈の音声の特徴を比較し、
１組の比較結果を求めるステップと、前記比較結果を使用して、前記データベースから検索すべき前記情報を識別す
るステップとを含む方法において、前記比較結果を求めるステップにおいて、複数の異なる比較技術を使用して前
記比較を行うことができ、該方法が、（ｉ）音声の特徴からなる問合せのシーケンスがオーディオ信号から生成された
シーケンスか、それともテキストから生成されたシーケンスか、及び（ｉｉ）現
在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケンス
か、それともテキストから生成されたシーケンスかを判定し、判定結果を出力す
るステップと、現在の注釈について、前記判定結果に応じて前記比較結果を求めるステップに
おける前記比較を行うのに用いられる技術を選択するステップと、をさらに含むことを特徴とする方法。
【請求項１０４】前記入力問合せと前記現在の注釈が共に音声から生成さ
れたものであると前記判定ステップが判定したときに、前記比較結果を求めるス
テップにおいて、請求項５４から１０１のいずれか１項に記載の方法が実行され
ることを特徴とする請求項１０３に記載の方法。
【請求項１０５】複数の情報エントリのそれぞれが、注釈の特徴のシーケ
ンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エント
リを含むデータベースを探索する方法であって、入力問合せの複数の表現を受信するステップと、入力問合せの各表現を、該表現を表わす問合せの特徴のシーケンスに変換する
ステップと、各表現の問合せの特徴を各注釈の特徴と比較し、１組の比較結果を求めるステ
ップと、各表現の問合せの特徴を同じ注釈の特徴と比較することによって得られた比較
結果を組み合わせ、各注釈について、入力問合せと注釈との間の類似度を求める
ステップと、全ての注釈に対する組合せステップによって求められた類似度を使用して、前
記データベースから検索すべき前記情報を識別するステップと、を含むことを特徴とする方法。
【請求項１０６】前記比較結果を求めるステップにおいて、各表現の問合
せの特徴が現在の注釈の特徴と同時に比較されることを特徴とする請求項１０５
に記載の方法。
【請求項１０７】前記比較結果を求めるステップが、各表現の問合せの特徴を現在の注釈の特徴と整列させ、各整列させた群が、各
表現の問合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの
群を形成するステップと、特徴比較器を使用して、整列させた特徴からなる各群の特徴同士を比較し、整
列させた特徴からなる群の特徴間の類似性を表す比較スコアを生成するステップ
とを含み、前記組合せステップにおいて、現在の注釈に関する整列させた特徴からなる全
ての群の比較スコアが組み合わされ、入力問合せと現在の注釈との間の前記類似
度が求められることを特徴とする請求項１０５又は１０６に記載の方法。
【請求項１０８】前記特徴比較器が、整列させた群中の各特徴を、１組の
所定の特徴から得られた複数の特徴のそれぞれと比較し、該群中の特徴と１組の
特徴のそれぞれとの間の類似性を表す対応する複数の中間スコアを求め、生成さ
れた複数の対応する中間比較スコアを組み合わせることによって、整列させた群
の前記比較スコアを算出することを特徴とする請求項１０７に記載の装置。
【請求項１０９】前記問合せの特徴のシーケンス及び前記注釈の特徴のシ
ーケンスがそれぞれ、時間順次信号を表すことを特徴とする請求項１０５から１
０８のいずれか１項に記載の方法。
【請求項１１０】前記問合せの特徴のシーケンス及び前記注釈の特徴のシ
ーケンスがそれぞれ、オーディオ信号を表すことを特徴とする請求項１０５から
１０９のいずれか１項に記載の方法。
【請求項１１１】前記問合せの特徴のシーケンス及び前記注釈の特徴のシ
ーケンスがそれぞれ音声を表すことを特徴とする請求項１１０に記載の装置。
【請求項１１２】前記各特徴が、音声の小単語単位を表すことを特徴とす
る請求項１１１に記載の方法。
【請求項１１３】前記各特徴が音韻を表すことを特徴とする請求項１１２
に記載の方法。
【請求項１１４】いくつか又は全ての前記注釈の、音声注釈の特徴のシー
ケンスが、オーディオ注釈信号から生成されることを特徴とする請求項１０５か
ら１１３のいずれか１項に記載の方法。
【請求項１１５】いくつか又は全ての前記注釈の、音声注釈の特徴のシー
ケンスが、テキスト注釈から生成されることを特徴とする請求項１０５から１１
３のいずれか１項に記載の方法。
【請求項１１６】前記変換ステップにおいて、音声認識システムが使用さ
れることを特徴とする請求項１０５から１１５のいずれか１項に記載の方法。
【請求項１１７】１つ又は複数の前記情報エントリが、関連する注釈であ
ることを特徴とする請求項１０５から１１６のいずれか１項に記載の方法。
【請求項１１８】特徴比較方法であって、各シーケンスが、入力問合せの表現を表す、問合せの特徴からなる第１及び第
２のシーケンスを受信するステップと、注釈の特徴のシーケンスを受信するステップと、各表現の問合せの特徴を注釈の特徴と整列させ、各整列させた群が各表現の問
合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの群を形成
するステップと、整列させた特徴からなる各群の特徴同士を比較し、整列させた群の特徴間の類
似性を表す比較スコアを生成するステップと、整列させた特徴からなる全ての群の比較スコアを組み合わせ、入力問合せの表
現と注釈との間の類似度を求めるステップとを含む方法において、前記比較スコアを生成するステップは、整列させた各群について、整列させた群における第１の問合せのシーケンスの
特徴を、１組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、前
記第１の問合せのシーケンスの特徴と１組の特徴におけるそれぞれの特徴との間
の類似性を表す対応する複数の中間比較スコアを求めるステップと、整列させた各群について、整列させた群における第２の問合せのシーケンスの
特徴を、１組の特徴における前記複数の特徴のそれぞれと比較し、前記第２の問
合せのシーケンスの特徴と１組の特徴におけるそれぞれの特徴との間の類似性を
表す他の対応する複数の中間比較スコアを求めるステップと、整列させた各群について、整列させた群における注釈の特徴を、１組の特徴に
おける前記複数の特徴のそれぞれと比較し、前記注釈の特徴と１組の特徴から得
たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを示
すステップと、前記複数の中間比較スコアを組み合わせることにより、整列させた群の前記比
較スコアを算出するステップと、を含むことを特徴とする特徴比較方法。
【請求項１１９】複数の情報エントリのそれぞれが、音声注釈の特徴のシ
ーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エ
ントリを含むデータベースを探索する方法であって、入力音声問合せの複数の表現を受信するステップと、入力問合せの各表現を、表現内の音声を表す音声問合せの特徴のシーケンスに
変換するステップと、音声問合せの特徴を各注釈の各表現の音声注釈の特徴と比較し、入力問合せと
各注釈との間に類似度を求めるステップと、全ての注釈に対する組合せステップによって求められた類似度を使用して、前
記データベースから検索すべき前記情報を識別するステップとを含む方法であっ
て、前記類似度を求めるステップは複数の異なる比較動作モードを有し、該方法が
、現在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケ
ンスか、それともテキストから生成されたシーケンスかを判定し、判定結果を出
力するステップと、現在の注釈について、前記判定結果に応じて前記類似度を求めるステップの動
作モードを選択するステップとをさらに含むことを特徴とする方法。
【請求項１２０】１つ又は複数の前記情報エントリが、関連する注釈であ
ることを特徴とする請求項１０２から１１９のいずれか１項に記載の方法。
【請求項１２１】方法ステップが、それらが請求された順序で実施される
ことを特徴とする請求項５４から１２０のいずれか１項に記載の方法。
【請求項１２２】プロセッサを請求項５４から１２１のいずれか１項に記
載の方法を実施するように制御する、プロセッサによって実施できる命令を記憶
することを特徴とする記憶媒体。
【請求項１２３】プロセッサを請求項５４から１２１のいずれか１項に記
載の方法を実施するように制御することを特徴とするプロセッサによって実施で
きる命令。