JP2001215986A

JP2001215986A - パターンマッチング方法及び装置

Info

Publication number: JP2001215986A
Application number: JP2000330611A
Authority: JP
Inventors: Philip Neil Garner; ニールガーナーフィリップ; Jason Peter Andrew Charlesworth; ピーターアンドリューチャールズワースジェイソン; Asako Higuchi; 麻子樋口
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1999-10-28
Filing date: 2000-10-30
Publication date: 2001-08-10
Also published as: US6882970B1

Abstract

(57)【要約】（修正有）【課題】データベースから検索すべき情報を識別する
ために、入力問い合わせを格納されているいくつかの注
釈と比較するシステムを提供する。【解決手段】この比較技法は入力問い合わせをいくつ
かの固定サイズフラグメントに分割し、ダイナミックプ
ログラミング整合技法を使用して、それぞれのフラグメ
ントが各注釈の中で何度現れるかを識別する。次に、問
い合わせと注釈の双方におけるフラグメントの出現の頻
度を比較して、問い合わせと注釈との類似度の尺度を求
める。全ての注釈について求められた類似度尺度から、
検索すべき情報を判定する。

Description

【発明の詳細な説明】

【０００１】本発明は、音素などの系列を整合する装置
及び方法に関する。本発明は、ユーザの入力問い合わせ
に応答して、関連する音素注釈を有する複数のデータフ
ァイルから構成されるデータベースを探索するために使
用できる。入力問い合わせは音声による問い合わせ又は
文字による問い合わせのいずれであっても良い。

【０００２】情報のデータベースは良く知られており、
データベースから所望の情報が格納されている場所をい
かに速く、効率良く判定し、その情報をいかに速く、効
率良く検索するかということが問題になっている。既存
のデータベース探索ツールによれば、ユーザは文字によ
り入力されるキーワードを利用して、データベースを探
索することができる。この方法は短時間で効率良く情報
を検索できるが、この種の探索は映像データベースや、
音声データベースなどの様々な種類のデータベースには
適していない。

【０００３】最近になって、そのような映像データベー
ス及び音声データベースに音声ファイル及び映像ファイ
ルの音声内容を音素転換した注釈を付け加えることが提
案されている。この場合、後にユーザの入力問い合わせ
の音素転換をデータベース中の音素注釈データと比較す
ることにより、データベースを検索することになる。音
素の系列を整合する技法として提案された方法では、ま
ず、問い合わせの中で、それぞれが重複する固定サイズ
フラグメントとして音素列から取り出される一組の特徴
を定義し、次に、問い合わせと注釈の双方におけるそれ
らの特徴の出現頻度を識別し、最後に、それらの出現頻
度の余弦尺度を使用して、問い合わせと注釈との類似度
の尺度を判定する。この種の音素比較技法の利点の１つ
は、問い合わせの言葉の系列が注釈の言葉の系列と厳密
には一致しないような状況に対応できることである。し
かし、特に、問い合わせと注釈が異なる速度で語られた
ために、問い合わせからは言葉の一部が削除されている
が、注釈からは削除されていない場合、又はその逆の場
合などにおいて、誤りを生じ易いという問題もある。

【０００４】本発明の目的は、音素の系列を整合するた
めの従来に代わる技法を提供することである。

【０００５】１つの態様によれば、本発明は、第１の特
徴系列及び第２の特徴系列を受信する手段と、前記第１
の特徴系列の中で、複数の異なる第１の特徴部分列を識
別する手段と、前記異なる第１の特徴部分列の各々が前
記第１の特徴系列の中で現れる回数を判定し、それを出
力する第１の判定手段と、前記第２の特徴系列から複数
の第２の特徴部分列を定義する手段と、第１の特徴部分
列の各々を第２の特徴部分列の各々と比較することによ
り、前記異なる第１の特徴部分列の各々が前記第２の特
徴系列の中で現れる回数を判定し、それを出力する第２
の判定手段と、前記第１の判定手段から出力される回数
と前記第２の判定手段から出力される回数とを比較する
ことにより、第１の特徴系列と第２の特徴系列との類似
の尺度を計算する手段とを具備する特徴比較装置であっ
て、前記第２の判定手段は、複数の異なる特徴の類似度
を定義する類似度情報を含む所定のデータを使用して、
現在の第１の特徴部分列を第２の特徴部分列の各々と比
較し、一組の類似度尺度を求める手段と、一組の類似度
尺度の各々を所定の閾値と比較し、閾値比較結果を出力
する手段と、前記閾値比較結果に従って現在の第１の特
徴部分列と関連するカウントを増分する手段とを具備す
ることを特徴とする特徴比較装置を提供する。

【０００６】別の態様によれば、本発明は、第１の特徴
系列及び第２の特徴系列を受信する過程と、前記第１の
特徴系列の中で、複数の異なる第１の特徴部分列を識別
する過程と、前記異なる第１の特徴部分列の各々が前記
第１の特徴系列の中で現れる回数を判定し、それを出力
する第１の判定過程と、前記第２の特徴系列から複数の
第２の特徴部分列を定義する過程と、第１の特徴部分列
の各々を第２の特徴部分列の各々と比較することによ
り、前記異なる第１の特徴部分列の各々が前記第２の特
徴系列の中で現れる回数を判定し、それを出力する第２
の判定過程と、前記第１の判定過程から出力される回数
と前記第２の判定過程から出力される回数とを比較する
ことにより、第１の特徴系列と第２の特徴系列との類似
の尺度を計算する過程とから成る特徴比較方法であっ
て、前記第２の判定過程は、複数の異なる特徴の類似度
を定義する類似度情報を含む所定のデータを使用して、
現在の第１の特徴部分列を第２の特徴部分列の各々と比
較し、一組の類似度尺度を求める過程と、一組の類似度
尺度の各々を所定の閾値と比較し、閾値比較結果を出力
する過程と、前記閾値比較結果に従って現在の第１の特
徴部分列と関連するカウントを増分する過程とを含むこ
とを特徴とする特徴比較方法を提供する。

【０００７】別の態様によれば、本発明は、第１の特徴
系列及び第２の特徴系列を受信する手段と、前記第１の
特徴系列の中で複数の異なる第１の特徴部分列を識別す
る手段と、前記第１の特徴系列の中で前記異なる第１の
部分列の各々が現れる回数を求める第１の回数判定手段
と、前記第２の特徴系列の中で前記異なる第１の部分列
の各々が現れる回数を求める第２の回数判定手段と、前
記第１及び第２の回数判定手段から得られた回数を利用
して、第１の特徴系列と第２の特徴系列との類似度を表
す類似度スコアを計算する手段とを具備する特徴比較装
置であって、前記特徴比較装置は、前記第２の特徴系列
の中の特徴部分列の総数を求める第３の回数判定手段を
更に具備することと、前記計算する手段は、前記第２の
回数判定手段から得られた回数及び第３の回数判定手段
から得られた回数を利用して、前記第１の部分列の各々
が前記第２の特徴系列の中で現れる確率の尺度を計算す
る第１の計算手段と、前記第１の回数判定手段から得ら
れた前記回数に従って、前記計算された確率尺度の積を
求めることにより、前記類似度スコアを計算する第２の
計算手段とを具備することを特徴とする特徴比較装置を
提供する。

【０００８】別の態様によれば、本発明は、各々が音声
特徴系列から構成される関連する注釈し且つ検索すべき
情報を識別する複数の情報エントリを含むデータベース
を探索する装置で、音声特徴系列から構成される入力問
い合わせを受信する手段と、問い合わせの音声特徴系列
を各注釈の特徴と比較して、一組の比較結果を提供する
手段と、前記比較結果を使用して、前記データベースか
ら検索すべき前記情報を識別する手段とを具備する装置
であって、請求項１から４４のいずれか１項に記載の前
記装置は、複数の異なる比較動作モードを有し、且つ装
置は、（ｉ）問い合わせの音声特徴系列がオーディオ信
号から生成されたか、又はテキストから生成されたかを
判定し、（ii）現在注釈の音声特徴系列がオーディオ信
号から生成されたか、又はテキストから生成されたかを
判定し、その判定結果を出力する手段と、現在注釈につ
いて、前記判定結果に応じて前記装置の動作モードを選
択する手段とを更に具備することを特徴とする装置を提
供する。

【０００９】以下、図１から図２４を参照して本発明の
実施形態を説明する。

【００１０】本発明の実施形態は専用ハードウェア回路
を使用して実現可能であるが、以下に説明する実施形態
は、パーソナルコンピュータ、ワークステーション、写
真複写機、ファクシミリ装置、パーソナルデジタルアシ
スタント（PDA）などの処理ハードウェアと関連して実
行されるコンピュータソフトウェア又はコードにおいて
実現される。

【００１１】データファイル注釈図１は、データベース２９に格納すべきデータファイル
９１に注釈を付けるためにユーザが活字注釈データ又は
音声注釈データをキーボード３及びマイクロホン７を介
して入力することができるユーザ端末装置５９の形態を
示す。この実施形態では、データファイル９１は、例え
ば、カメラにより生成される二次元画像から構成されて
いる。ユーザ端末装置５９を使用して、ユーザ３９はこ
の２D画像に、データベース２９から２D画像を検索する
ために後に使用できる適切な注釈を付け加えることがで
きる。この実施形態においては、音素転換装置７５によ
り、文字入力を音素（又は音素に類似する要素）・語の
束注釈に変換し、この注釈を制御装置５５に供給する。
図２は、文字入力「picture of the Taj Mahal」に対し
て生成された音素・語束注釈データの形態を示す。図２
に示すように、音素・語束は、１つの入口ポイントと、
１つの出口ポイントとを有する非周期有向グラフであ
る。これはユーザの入力の様々に異なる構文を表す。図
示されているように、音素転換装置７５は、文字入力に
対応すると考えることができる複数の異なる音素列を内
部音素辞書（図示せず）から識別する。

【００１２】同様に、音声入力は自動音声認識装置５１
により音素（又は音素に類似する要素）・語束注釈デー
タに変換され、このデータも制御装置５５に供給され
る。自動音声認識装置５１は、（ｉ）入力発言に対して
音素束を生成し、（ii）次に、その音素束の中で語を識
別し、（iii）最後に、それら２つを組み合わせること
により、音素・語束注釈データを生成する。図３は、入
力発言「picture of theTaj Mahal」に対して生成され
た音素・語束注釈データの形態を示す。図示されている
ように、自動音声認識装置は、この入力発言に対応する
と考えることができる複数の異なる音素列を識別する。
音声認識技術においては良く知られているように、それ
らの異なる音素候補は、音声認識装置５１により生成さ
れ、音声認識装置の出力の信頼性を示す独自の重みを有
していても良い。しかし、この実施形態では、音素のこ
のような重み付けは行われない。図３に示す通り、自動
音声認識装置５１が音素束の中で識別する語は、音素束
データ構造の中に取り込まれている。先に挙げた語句の
例について示すように、自動音声認識装置５１は「pict
ure」、「of」、「off」、「the」、「other」、「t
a」、「tar」、「jam」、「ah」、「hal」、「ha」及び
「al」を語として識別している。

【００１３】図３に示すように、自動音声認識装置５１
により生成された音素・語束(phoneme and word lattic
e)は１つの入口ポイントと、１つの出口ポイントとを有
する非周期有向グラフである。これは、ユーザが入力し
た注釈発言の様々に異なる構文(parses)を表す。それぞ
れの語を１つの選択肢と入れ替えなければならないとい
うことはなく、１つの語を２つ以上の語又は音素と入れ
替えることは可能であり、また、この構造全体が１つ又
は複数の語又は音素と置き換えられることもありうるた
め、これは単に複数の選択肢を含む語の系列ではない。
従って、音素・語束注釈データ内部におけるデータの密
度は、音声注釈入力に対してN個の最良語リストを生成
するシステムの場合のように指数関係で成長して行くの
ではなく、むしろ本質的には注釈データ全体を通して線
形のままである。

【００１４】この実施形態では、自動音声認識装置５１
又は音素変換装置７５により生成される注釈(annotatio
n)データは通常は次のような形態を有する。

【００１５】ヘッダ(header) − 語であるか、音素であるか、それらの混合であるか
を示すフラグ − メモリ内の注釈データのブロックの所定の時点に対
する場所と関連する時間索引 − 使用される語集合（すなわち、辞書） − 使用される音素集合 − 語彙が関連する言語 − 音素確率データブロック（ｉ） i＝０，１，２．．．．．ノードN_j j＝０，１，２．．．．． − ブロックの開始からのノードの時間オフセット − 音素リンク（k） k＝０，１，２．．．．．ノードN_j＝N_k−N_jに対するオフセット（N_kはリンクKが
延出しているノードである）リンク（k）と関連する音素 − 語リンク（l） l＝０，１，２．．．．．ノードN_j＝N_i−N_jに対するオフセット（N_jはリンクlが
延出しているノードである）リンク（l）と関連する語注釈データが語注釈データであるか、音素注釈データで
あるか、又はそれらの混合であるかを識別するフラグ
は、データベース中の全てのデータファイルが先に述べ
た音素と語の組み合わせ束注釈データを含むとは限ら
ず、そのような場合には、目的の注釈データを探索する
ために異なる探索方式を使用することになると考えられ
るために、提供される。

【００１６】この実施形態では、所定の探索に際して探
索を注釈データの中央へジャンプさせるために、注釈デ
ータを複数のノードのブロックに分割している。従っ
て、ヘッダは、メモリ内の注釈データのブロックの場所
を開始時間と、ブロックの開始に対応する時間との間の
所定の時間オフセットと関連付ける時間索引を含む。

【００１７】また、ヘッダは使用される語集合（すなわ
ち、辞書）、使用される音素集合及びそれらの確率、語
彙が関連する言語を定義するデータも含む。更に、ヘッ
ダは、注釈データを生成するために使用される自動音声
認識システムと、注釈データの生成中に使用された装置
の適切な設定の詳細を含んでいても良い。

【００１８】ヘッダの後に続く注釈データのブロック
は、ブロック中のノードごとに、そのブロックの開始か
らのノードの時間オフセットと、そのノードを音素によ
り他のノードと結合する音素リンクと、そのノードを語
により他のノードと結合する語リンクとを識別する。各
々の音素リンクと語リンクは、リンクと関連する音素又
は語を識別する。また、現在ノードに対するオフセット
も識別する。例えば、ノードN₅₀が音素リンクによりノ
ードN₅₅にリンクしている場合、ノードN₅₀に対するオフ
セットは５である。当業者には理解できるであろうが、
このようなオフセット表示を使用すると、連続する注釈
データを複数の別個のブロックに分割することが可能に
なる。

【００１９】自動音声認識装置がその出力の信頼性を示
す重みを出力するような実施形態においては、そのよう
な重み付け、すなわち、信頼性スコアをデータ構造の中
に含めることにもなるであろう。すなわち、ノードごと
に、そのノードに到達する信頼性を示す信頼性スコアを
提供し、それぞれの音素リンクや、語リンクは、対応す
る音素又は語に与えられた重みに応じて遷移スコアを含
むと考えられる。その後、それらの重みを使用して、信
頼性スコアの低いペアを廃棄することにより、データフ
ァイルの探索及び検索を制御することになるであろう。

【００２０】ユーザ入力に応答して、制御装置５５はデ
ータベース２９から適切な２Dファイルを検索し、生成
された音素・語注釈データをデータファイル９１に付け
加える。この後、増補データファイルをデータベース２
９に戻す。この注釈付けステップの間、制御装置５５
は、注釈データが正しいデータファイル９１と関連して
いるかどうかをユーザが確認できるように、表示装置５
７に２D画像を表示するように動作する。

【００２１】以下に更に詳細に説明するが、このような
音素・語束注釈データを使用することにより、実行され
るデータベース２９をすばやく、効率良く探索でき、デ
ータベースに格納されている所望の２D画像データファ
イルを識別し且つ検索することができる。これは、ま
ず、語データを使用してデータベース２９中を探索し、
この探索で所要のデータファイルを提供できなければ、
より強固な音素データを使用してもう一度探索を実行す
ることにより実現できる。当業者には理解されるであろ
うが、音素は辞書とは無関係であり、システムは名前、
場所、外国語などの語彙から離れて問題に対処すること
ができるので、音素データの使用はより強固である。ま
た、音素データを使用すると、元の注釈が音声により入
力されており、本来の自動音声認識システムでは入力さ
れた注釈の語を理解できなかったような場合に、データ
ベース２９に挿入されたデータファイルを検索すること
が可能になるため、システムは将来に対しても安心であ
る。

【００２２】データファイル検索図４は、この実施形態において、データベース２９から
注釈付き２Ｄ画像を検索するために使用されるユーザ端
末装置５９の形態を示すブロック線図である。このユー
ザ端末装置５９は、例えば、パーソナルコンピュータ、
ハンドヘルド装置などであっても良い。図示されている
ように、この実施形態では、ユーザ端末装置５９は注釈
付き２Ｄ画像のデータベース２９と、自動音声認識装置
５１と、音素転換装置７５と、キーボード３と、マイク
ロホン７と、探索エンジン５３と、制御装置５５と、表
示装置５７とを含む。操作中、ユーザはマイクロホン７
を介して音声による問い合わせを入力するか、又はキー
ボード３を介して文字による問い合わせを入力し、この
問い合わせは自動音声認識装置５１又は音素転換装置７
５により処理されて、対応する音素・語データが生成さ
れる。このデータも音素・語束の形態をとっていて良い
が、それは不可欠ではない。次に、この音素・語データ
は制御装置５５に入力される。制御装置５５は、探索エ
ンジン５３を使用してデータベース２９の適切な探索を
開始するように動作することができる。探索エンジン５
３により生成された探索の結果は制御装置５５に戻さ
れ、制御装置５５は探索結果を解析し、適切な表示デー
タ（検索された２Ｄ画像など）を生成し、それを表示装
置５７を介してユーザに対し表示する。

【００２３】図５a及び図５bは、ユーザ端末装置５９が
この実施形態においてどのように動作するかを示す流れ
図である。ステップＳ１では、ユーザ端末装置５９はア
イドル状態にあり、ユーザ３９からの入力問い合わせを
待っている。入力問い合わせを受信すると、ステップＳ
３で、自動音声認識装置５１又は音素転換装置７５によ
り、その入力問い合わせに関わる音素・語データを生成
する。次に、ステップＳ５では、制御装置５５が探索エ
ンジン５３に、入力問い合わせに対して生成された語デ
ータを使用してデータベース２９の探索を実行すること
を命令する。この実施形態において採用される語探索
は、現時点でキー入力語探索に対して使用されているの
と同じ方式であるので、ここでは詳細に説明しない。ス
テップＳ７において、制御装置５５が探索結果からユー
ザの入力問い合わせに対する一致が見出されたと識別し
たならば、制御装置５５は探索結果を表示装置５７を介
してユーザに対し出力する。

【００２４】この実施形態では、次に、ユーザ端末装置
５９はユーザに探索結果を考慮させ、結果がユーザの要
求している情報に相当するか否かに関するユーザの確認
を待つ。ユーザの要求に見合うものであれば、ステップ
Ｓ１１で処理は終了に向かい、ユーザ端末装置５９はア
イドル状態に戻り、次の入力問い合わせを待つ。これに
対し、ユーザが（例えば、適切な音声指令を入力するこ
とにより）探索結果は所望の情報に相当しないと指示し
た場合には、処理はステップＳ１１からステップＳ１３
に進み、探索エンジン５３はデータベース２９の音素探
索を実行する。しかし、この実施形態では、ステップＳ
１３で実行される音素探索はデータベース２９全体にわ
たる探索ではない。これは、データベース２９の大きさ
により、その全体の探索には数時間を要する場合があり
うるからである。

【００２５】データベース全体を探索するのではなく、
ステップＳ１３で実行される音素探索はステップＳ５で
実行された語探索の結果を利用して、データベース内
の、ユーザの入力問い合わせに相当すると思われる１つ
又は複数の部分を識別する。例えば、問い合わせが３つ
の語から形成されており、語探索では注釈の中で問い合
わせの語のうち１つ又は２つしか識別されなかった場合
には、識別された語の周辺にある注釈中の部分の音素探
索を実行することになる。この実施形態のステップＳ１
３において音素探索をどのように実行するかについて
は、後に更に詳細に説明する。

【００２６】音素探索を実行した後、ステップＳ１５で
は、制御装置５５は一致が見出されたか否かを識別す
る。一致が見出されていれば、処理はステップＳ１７へ
進み、制御装置５５は探索結果を表示装置５７上でユー
ザに対し表示させる。この場合にも、システムは、その
探索結果が所望の情報に相当するか否かに関してユーザ
の確認を待つ。結果が正しければ、処理はステップＳ１
９から終了に向かい、ユーザ端末装置５９はアイドル状
態に戻り、次の入力問い合わせを待つ。これに対し、ユ
ーザが探索結果は所望の情報に相当しないと指示した場
合には、処理はステップＳ１９からステップＳ２０へ進
み、制御装置５５は表示装置５７を介して、データベー
ス２９全体について音素探索を実行すべきか否かをユー
ザに問うように動作する。この問い合わせに応答して、
ユーザがそのような探索を実行すべきであると指示すれ
ば、処理はステップＳ２３へ進み、探索エンジンデータ
ベース全体の音素探索を実行する。

【００２７】この探索が完了したならば、制御装置５５
は、ステップＳ２５で、ユーザの入力問い合わせに対す
る一致が見出されたか否かを識別する。一致が見出され
れば、処理はステップＳ２７へ進み、制御装置５５は探
索結果を表示装置５７上でユーザに対し表示させる。探
索結果が正しい場合、処理はステップＳ２９から終了に
向かい、ユーザ端末装置５９はアイドル状態に戻り、次
の入力問い合わせを待つ。これに対し、ユーザが探索結
果は依然として所望の情報に相当していないと指示した
場合には、処理はステップＳ３１へ進み、制御装置５５
は表示装置５７を介してユーザが探索問い合わせを定義
し直すか、又は修正することを望むか否かをユーザに問
い合わせる。ユーザが探索問い合わせを定義し直すこと
又は修正することを望んでいるならば、処理はステップ
Ｓ３に戻り、ユーザの次の入力問い合わせを同様にして
処理する。探索の定義のし直しや、修正を実行すべきで
ない場合には、探索結果とユーザの当初の入力問い合わ
せを放棄し、ユーザ端末装置５９はアイドル状態に戻
り、次の入力問い合わせを待つ。

【００２８】以上、この実施形態においてユーザ端末装
置５９により探索が実行される方式を全般的に説明し
た。次に、探索エンジン５３が音素探索をどのように実
行するかを更に詳細に説明すると共に、その探索戦略の
基礎となる動機を簡単に説明する。

【００２９】分類型問題としての情報検索従来の分類手順においては、試験のデータをK個のクラ
スの中の１つのクラスに分類しなければならない。これ
は、クラスがわかっている他のデータに関する知識を利
用して実行される。分類型問題は、１からＫまでの値を
とりうる「クラス」確率変数が存在することを前提とし
ている。そこで、最適の分類は、試験データが最も高い
確率で属すると考えられるクラスを識別することにより
見出される。訓練データは、クラスｋのn_k個のデータを
結果としてもたらすN回の生成プロセスにより生成され
るものと仮定する。このとき、Σ^K _K=1ｎ_k=Ｎである。ベ
クトル（n₁，n₂，．．．，n_k）をnにより表し、訓練デ
ータをＤにより表し、試験データをｘで表すとき、従来
の分類型問題は、次の確率を最大にするkの値を判定す
るというものであった。

【００３０】

【数５】

【００３１】分子の第２項は、より高い頻度で現れるク
ラスに対してより大きな重みを与えるクラスの優先確率
である。情報検索に関して言えば、各クラスは単一の訓
練データ（すなわち、注釈データ）を有する。従って、
情報検索の場合、上記の式の右側の第２項を無視するこ
とができる。同様に、P（x｜D）はクラスごとに同じで
あり、そのため、分子を正規化しているだけであるの
で、分母も無視して良い。そこで、各クラスに対して上
記の式の分子の第１項の順序をランク付けするだけで、
クラスの順序を決定することができる。言い換えれば、
クラスkの訓練データをd_kとするとき、全てのクラスに
ついてP（x｜d_k）を判定し、ランク付けすれば良い。

【００３２】この実施形態では、試験データxは入力問
い合わせを表し、クラスkの訓練データ（すなわち、
d_k）はk番目の注釈を表す。図６aに示すように、問い合
わせと注釈の双方を生成した基礎統計モデル（M）が存
在するものと仮定する。一般的な場合では、このモデル
は３つの未知数、すなわち、モデル構造mと、問い合わ
せと注釈の双方に関わるそのモデル全体にわたる状態系
列s_q及びs_aと、出力分布Cとを有する。この場合、出力
分布は、入力音声から音素列を生成する音声認識システ
ムの特性を具現化したものであるので、出力分布につい
てはわかっている。後述するように、既知の発言の大型
データベースを音声認識システムに適用することによっ
て、出力分布を得ることができ、以下、これを混同統計
という。従って、状態系列とモデルを上記の確率に導入
すると（入力問い合わせの変数をqとし、注釈の変数をa
とする）、

【００３３】

【数６】

【００３４】これをベイズの方法を使用して展開する
と、次のようになる。

【００３５】

【数７】

【００３６】上記の式は複雑に見えるが、状態系列s_q及
びs_aの集合の加算は標準ダイナミックプログラミングア
ルゴリズムを使用して実行できる。更に、各モデルの確
率は等しいと想定できるため、分子と分母の最終項は無
視でき、また、各状態系列の確率も等しいと想定できる
ので、状態系列項P（s｜m，c）も無視して良い．更に、
基礎モデル構造は問い合わせとほぼ等しい長さを有する
音素の標準系列であると仮定することにより、挿入であ
れば、異なるモデルにわたる加算を排除できるが、一般
的な場合では、モデルの音素の標準系列はわかっていな
いので、これを可能な全ての音素にわたる加算と置き換
える。従って、状態系列の加算を無視すると、分子で
は、ダイナミックプログラミングアルゴリズム内部で評
価すべき項は次のようになる。

【００３７】

【数８】

【００３８】また、分母（すなわち、正規化項）におい
ては、

【００３９】

【数９】

【００４０】式中、N_pはシステムにわかっている音素の
総数、a_i、q_j及びp_rは、評価すべき現在DP束ポイントに
それぞれ対応する注釈音素、問い合わせ音素及びモデル
音素である。式（４）と式（５）を比較してみればわか
るように、分母で計算される確率項は分子でも計算され
る。従って、同じダイナミックプログラミングルーチン
の間に２つの項を累積することができる。判定される確
率を更に詳細に考えてみると、P（q_j｜p_r，C）は混同統
計値が与えられた場合に標準音素p_rを問い合わせ音素q_j
として複合する確率であり、P（a_i｜p_r，C）は混同統計
値が与えられた場合に標準音素p_rを注釈音素a_iとして複
合する確率であり、P（p_r，C）は混同統計値が与えられ
た場合に無条件で起こる標準音素p_rの確率である。

【００４１】上記の項に加えて、ダイナミックプログラ
ミング計算の各ポイントでは、モデルに対する問い合わ
せ又は注釈の挿入及び削除を扱う別の項を計算しなけれ
ばならない。当業者には理解できるであろうが、問い合
わせにおける挿入又は削除は注釈における挿入又は削除
と無関係であり、また、注釈における挿入又は削除も問
い合わせにおける挿入又は削除とは無関係である。従っ
て、それらの追加項は別個に取り扱われる。モデルに対
する注釈の挿入と削除も先の式（５）に挙げた正規化項
について考慮されなければならない。

【００４２】図４及び図５の説明から当業者には理解さ
れるように、この実施形態では、注釈の音素データと問
い合わせの音素データは、共に、テキスト又は音声から
取り出されると考えられる。従って、考慮すべき状況は
次の四つである。ｉ）注釈と問い合わせが共にテキストから生成されてい
る場合。 ii）注釈はテキストから生成され、問い合わせは音声か
ら生成されている場合。 iii）注釈は音声から生成され、問い合わせはテキスト
から生成されている場合。 iv）問い合わせと注釈が共に音声から生成されている場
合。

【００４３】第１の状況は、注釈又は問い合わせの時間
圧縮／伸張がありえず、注釈と問い合わせとの比較がそ
れぞれ対応する音素系列の単純なブール比較により実行
される単純なケースである。

【００４４】第２の状況では、注釈が正確であると考
え、ダイナミックプログラミング整列によって、二者の
最良の整列を見出すべく、問い合わせの音素の挿入及び
削除は許容される。このケースを例示するために、図６
bは、注釈音素がテキストから生成された場合の注釈音
素（a₀，a₁，a₂．．．とラベル付けされている）の系列
と、問い合わせ音素（q₀，q₁，q₂．．．とラベル付けさ
れている）の系列との間で起こりうる整合を示す。点線
の矢印で示すように、注釈音素a₀は問い合わせ音素q₁と
整列し、注釈音素a₁は問い合わせ音素q₂と整列し、注釈
音素a₂は問い合わせ音素q₃と整列し、注釈音素a₃は問い
合わせ音素q₃と整列し、注釈音素a₄は問い合わせ音素q₄
と整列している。これらの整列のそれぞれについて、ダ
イナミックプログラミングルーチンは先の式（４）及び
（５）で挙げられた項を計算する。しかし、このケース
においては、モデル音素の標準系列が（注釈音素である
ために）既にわかっているので、式（４）及び（５）は
簡単になる。すなわち、注釈がモデルであり、分子はP
（q_i｜a_j，C）として簡略化されるので、正規化項は１
つである。これらの復号項に加えて、ダイナミックプロ
グラミングルーチンは、注釈に対して問い合わせで挿入
されている音素（問い合わせ音素q_１など）と、注釈に
対して問い合わせで削除されている音素（２つの注釈音
素a_２及びa_３と整合する問い合わせ音素q_３により表さ
れている）とについて、関連する挿入と削除の確率を更
に計算する。

【００４５】先に挙げた第３の状況は、問い合わせ音素
の系列が正確であると考えられ、ダイナミックプログラ
ミング整列によって、問い合わせに対する注釈の音素の
挿入と削除が考慮される点を除いて、第２の状況に類似
している。しかし、この状況においては、わかっている
のが問い合わせであるので、式（１）から式（５）を利
用することができない。そこで、この状況においては、
式（１）を次のように書き直すことができる。

【００４６】

【数１０】

【００４７】上記式（１）の対応する項と同様に、分子
の第２項と分母を共に無視することができる。上記式
（６）の分子の第１項を、式（１）の分子の第１項を展
開したのと同様にして展開することができる。しかし、
この状況では、問い合わせがモデルとしてみなされてい
るので、ダイナミックプログラミングルーチンの間に計
算される正規化項は１つに簡略化され、分子は単にP（a
_i｜q_j，C）となる。先に述べた第２の状況と同様に、ダ
イナミックプログラミングルーチンは、問い合わせに対
して注釈で挿入された音素と、問い合わせに対して注釈
で削除された音素とについて関連する挿入及び削除の確
率を更に計算する。

【００４８】最後に、第４の状況では、注釈と問い合わ
せの双方が音声から生成されており、双方の音素データ
の系列は、実際に話された言葉をテキストとして表現さ
れたモデル音素の未知の標準系列に対して挿入と削除を
含んでいる可能性がある。この状況を図６cに示す。図
６cは、注釈音素（a_i，a_i+1，a_i+2．．．とラベル付け
されている）の系列と、問い合わせ音素（q_j，q_j+1，q
_j+2．．．とラベル付けされている）の系列と、問い合
わせと注釈の双方により実際に話された言葉の音素の標
準系列をあらわす音素（p_n，p_n+1，p_n+2．．．とラベル
付けされている）との間で起こりうる整合を示す。図６
cに示すように、この場合、ダイナミックプログラミン
グ整列技法により、注釈と問い合わせの双方における音
素の挿入（挿入音素a_i+3及びq_j+1により表されている）
と、注釈と問い合わせの双方からの音素の削除（音素a
_i+1及びq_j+2により表されており、それらは共に音素の
標準系列の２つの音素と整列している）の双方をモデル
音素の標準系列に対して考慮しなければならない。

【００４９】当業者には理解できるであろうが、音素の
モデル系列を計算に導入することにより、アルゴリズム
は問い合わせと注釈の双方における発音の変化により対
応しやすくなる。

【００５０】以上、この実施形態が問い合わせ音素の系
列とデータベースの注釈音素の系列ととを整合させるこ
とにより、情報検索を実行する方法を全般的に説明し
た。この実施形態の動作をより良く理解するために、次
に、標準的なダイナミックプログラミングアルゴリズム
について簡単に説明し、その後、この実施形態で採用す
る特定のアルゴリズムを更に詳細に説明する。

【００５１】DP探索の概要当業者には知られているように、ダイナミックプログラ
ミングは、この実施形態では音素である特徴系列の最適
の整列を見出すために使用できる技法である。ダイナミ
ックプログラミングによれば、それぞれが注釈音素の系
列と、問い合わせ音素の系列との間で起こりうる整合を
表す複数のダイナミックプログラミング経路を同時に伝
搬することにより最適の整列を見出す。全ての経路は、
注釈と問い合わせの始まりであるスタートヌルノードか
ら始まり、注釈と問い合わせの終わりであるエンドヌル
ノードに到達するまで伝搬する。図７及び図８は、実行
される整合と、この経路伝搬を概略的に示す。すなわ
ち、図７は、水平軸が注釈を表し、垂直軸が問い合わせ
を表す方形座標図である。スタートヌルノードφ_sは左
上角に規定され、エンドヌルノードφ_eは右下角に規定
されている。図８に示すように、注釈の音素は水平軸に
沿って規定され、問い合わせの音素は垂直軸に沿って規
定されている。また、図８はいくつかの束ポイントも示
しており、各束ポイントは１つの注釈音素と１つの問い
合わせ音素との間で起こりうる整列を表している。例え
ば、束ポイント２１は注釈音素a₃と、問い合わせ音素q₁
との間で起こりうる整列を示す。更に、図８は、注釈を
表す音素の系列と問い合わせを表す音素の系列との間で
起こりうる３つの整合を表し且つスタートヌルノードφ
_sで始まり、複数の束ポイントを通ってエンドヌルノー
ドφ_eで終わる３つのダイナミックプログラミング経路m
₁、m₂及びm₃を示す。先の式（２）及び（３）に戻る
と、これらのダイナミックプログラミング経路は、前述
の異なる状態系列s_q及びs_sを表している。

【００５２】図７に示す水平軸及び垂直軸の長さが異な
ることからわかるように、入力問い合わせは注釈の全て
の言葉を含んでいるとは限らない。例えば、注釈が「pi
cture of the Taj Mahal」である場合、ユーザは問い合
わせ「Taj Mahal」を入力するだけで、この絵を見つけ
るためのデータベース２９を探索することも可能であ
る。この状況においては、最適の整列経路は、問い合わ
せが注釈と整合し始めるまで、上の水平軸に沿って進む
ことになるであろう。その後、束ポイントを通過し始め
て、下の水平軸に到達し、エンドノードで終わると考え
られる。このことは、図７に経路２３により示されてい
る。しかし、当業者には理解されるであろうが、問い合
わせの言葉は注釈で現れるのと同じ順序で現れていなけ
ればならず、そうでないと、ダイナミックプログラミン
グ整列は機能しない。

【００５３】注釈音素の系列と、問い合わせ音素の系列
との類似度を判定するために、ダイナミックプログラミ
ングプロセスは、伝搬するダイナミックプログラミング
経路ごとに１つのスコアを保持する。このスコアは、そ
の経路に沿って整列した音素の相対的類似度によって決
まる。整合させるべき系列における音素の削除と挿入の
数を制限するために、ダイナミックプログラミングプロ
セスは、ダイナミックプログラミング経路が伝搬できる
道にいくつかの制約を設けている。当業者には理解され
るであろうが、それらのダイナミックプログラミング制
約は先に挙げた４つの状況のそれぞれで異なる。

【００５４】DP制約注釈と問い合わせが共にテキストである場合問い合わせ音素データと注釈音素データが共にテキスト
から生成されている場合、ダイナミックプログラミング
整列は２つの音素系列のブール整合に退行し、音素の削
除又は挿入は許容されない。

【００５５】注釈がテキストであり、問い合わせは音声
である場合注釈音素データがテキストから生成され、問い合わせ音
素データは音声から生成されている場合、注釈の側では
音素の削除や挿入は起こり得ないが、問い合わせにおい
ては注釈に対する音素の削除及び挿入がありうる。図９
aは、注釈がテキストから生成され、問い合わせは音声
から生成されている場合に、この実施形態で使用される
ダイナミックプログラミング制約を示す。図示するよう
に、ダイナミックプログラミング経路が注釈音素a_iと問
い合わせ音素q_jとの整列を表す束ポイント（ｉ，j）で
終わっている場合、そのダイナミックプログラミング経
路は束ポイント（ｉ＋１，j）、（ｉ＋１，j＋１）及び
（ｉ＋１，j＋２）へ伝搬することができる。ポイント
（ｉ＋１，j）への伝搬は、文字入力による注釈と比較
して、話し言葉による問い合わせから１つの音素が削除
されている場合を表す。ポイント（ｉ＋１，j＋１）へ
の伝搬は、注釈の次の音素と問い合わせの次の音素との
間の単純な復号がある状況を表す。また、ポイント（ｉ
＋１、j＋２）への伝搬は、文字注釈と比較して、話し
言葉による問い合わせに音素q_j+1が挿入されており、注
釈音素a_i+1と問い合わせ音素q_j+2との間に復号がある状
況を表す。

【００５６】注釈が音声であり、問い合わせはテキスト
である場合注釈が音声から生成され、問い合わせはテキストから生
成されている場合には、問い合わせに関しては音素の挿
入又は削除はありえないが、問い合わせに対して注釈か
らの挿入や削除は起こりうる。図９bは、注釈が音声か
ら生成され、問い合わせはテキストから生成されている
場合にこの実施形態で使用されるダイナミックプログラ
ミング制約を示す。図示されているように、ダイナミッ
クプログラミング経路が注釈音素a_iと、問い合わせ音素
q_jとの整列を表す束ポイント（ｉ，j）で終わる場合、
そのダイナミックプログラミング経路は束ポイント
（ｉ，j＋１）、（ｉ＋１，j＋１）及び（ｉ＋２，j＋
１）まで伝搬することができる。ポイント（ｉ，j＋
１）への伝搬は、文字入力による問い合わせと比較して
話し言葉の注釈から１つの音素が削除されている場合を
表し、ポイント（ｉ＋１，j＋１）への伝搬は、注釈の
次の音素と問い合わせの次の音素との間に単純な復号が
存在している状況を表し、ポイント（ｉ＋２，j＋１）
への伝搬は、文字入力による問い合わせと比較して話し
言葉の注釈に音素a_i+1が挿入されており、注釈音素a_i+2
と問い合わせ音素q_j+1との間に復号が存在している状況
を表す。

【００５７】注釈が音声であり且つ問い合わせも音声で
ある場合注釈と問い合わせの双方が音声から生成されている場合
には、注釈と問い合わせのそれぞれが互いに対して音素
の挿入や削除を含んでいる可能性がある。図１１は、注
釈音素と問い合わせ音素の双方が音声から生成されてい
る場合にこの実施形態で使用されるダイナミックプログ
ラミング制約を示す。すなわち、ダイナミックプログラ
ミング経路が注釈音素a_iと問い合わせ音素q_jとの整列を
表す束ポイント（ｉ，j）で終わっている場合、そのダ
イナミックプログラミング経路は束ポイント（ｉ＋１，
j）、（ｉ＋２，j）、（ｉ＋３，j）、（ｉ，j＋１）、
（ｉ＋１，j＋１）、（ｉ＋２，j＋１）、（ｉ，j＋
２）、（ｉ＋１，j＋２）及び（ｉ，j＋３）まで伝搬す
ることができる。従って、これらの伝搬は、実際に話さ
れたテキストに対応する未知のモデル音素の標準系列に
対して、注釈と問い合わせの双方における音素の挿入及
び削除を許容するものである。

【００５８】開始と終了のDP制約この実施形態では、ダイナミックプログラミング整列動
作により、ダイナミックプログラミング経路はどの注釈
音素からでもスタートでき、どの注釈音素でも終了でき
る。その結果、問い合わせは注釈の全ての語を含んでい
る必要はないが、問い合わせの語は注釈の中で現れるの
と同じ順序で存在していなければならないということに
なる。

【００５９】DPスコア伝搬前述のように、ダイナミックプログラミングプロセスは
それぞれのダイナミックプログラミング経路に対してス
コアを保持する。このスコアは、該当する経路に沿って
整列された音素の類似度によって決まる。従って、ポイ
ント（ｉ，j）で終わる経路をそれらの他のポイントへ
伝搬させる場合、ダイナミックプログラミングプロセス
はポイント（ｉ，j）で終わる経路の累積スコアにその
ようにすることの対応する「コスト」を追加し、追加後
のスコアはそのポイントと関連するスコア（SCORE
（ｉ，j））に格納される。当業者には理解されるであ
ろうが、このコストは前述の挿入確率、削除確率及び復
号確率を含む。すなわち、挿入があった場合、累積スコ
アを所定の音素を挿入する確率と乗算し、削除があった
場合には、累積スコアを音素を削除させる確率と乗算
し、復号があった場合には、累積スコアを２つの音素を
復号する確率と乗算することになる。

【００６０】これらの確率を計算できるようにするため
に、システムは可能な全ての音素の組み合わせについて
確率を格納している。この実施形態では、注釈又は問い
合わせにおける音素の削除を復号と同じように扱う。こ
れは削除を別の音素として単純に処理することで達成さ
れる。従って、システムにわかっている音素が４３個で
ある場合には、システムは、考えうる音素の復号と削除
ごとに１つずつ、合わせて１８９２（＝４３×４４）の
復号／削除確率を格納することになる。これを図１０に
示す。図１０は、音素／ax／について格納されている可
能な音素復号を示し、削除音素（φ）を可能性の１つと
して含む。当業者には理解されるであろうが、ある１つ
の音素に関する全ての復号確率を加算すると１になる。
これは、他に可能性がないからである。それらの復号／
削除確率に加えて、システムは、考えうる音素の挿入に
対して１つずつ、合わせて４３の挿入確率を格納する。
後に説明するが、それらの確率はあらかじめ訓練データ
から判定される。

【００６１】スコア伝搬を例示するために、いくつかの
例について考えてみる。注釈がテキストであり、問い合
わせは音声である場合、ポイント（ｉ，j）からポイン
ト（ｉ＋１，j＋２）に至る経路に関しては、音素q_j+1
が注釈に対して挿入され、問い合わせ音素q_j+2は注釈音
素a_i+1と復号される。従って、ポイント（ｉ＋１，j＋
２）まで伝搬されるスコアは次の式により表される。

【００６２】

【数１１】

【００６３】式中、PI（q_j+1｜C）は話し言葉の問い合
わせに音素q_j+1を挿入する確率であり、P（q_j+2｜
a_i+1，C）は注釈音素a_i+1を問い合わせ音素q_j+2として
復号する確率を表す。

【００６４】注釈と問い合わせの双方が音声から生成さ
れており、ポイント（ｉ，j）からポイント（ｉ＋２，j
＋１）まで伝搬する場合には、注釈音素a_i+1が問い合わ
せに対して挿入され、注釈音素a_i+2と問い合わせ音素q
_j+1との間に復号が存在する。従って、ポイント（ｉ＋
２，j＋１）まで伝搬されるスコアは次の式により表さ
れる。

【００６５】

【数１２】

【００６６】当業者には理解されるであろうが、この経
路伝搬の間、いくつかの経路は同じ束ポイントで出会
う。この実施形態では、互いに出会う経路と関連するス
コアを単に加算する。あるいは、それらのスコアを比較
し、最良のスコアを有する経路をたどり続ける一方、そ
の他の経路を放棄することも考えられる。しかし、ダイ
ナミックプログラミングプロセスは問い合わせの音素デ
ータと注釈の音素データとの類似度を表すスコアを求め
ることにのみ重点を置いているので、どの方法を取るか
はこの実施形態において本質的な問題ではない。それら
２つのデータの最良の整列がなんであるかを知ることに
は関心が持たれていない。

【００６７】問い合わせと注釈の双方が音声から生成さ
れている場合、全ての経路をエンドノードφ_eまで伝搬
させ、問い合わせと現在注釈との類似度に関わる総スコ
アを判定した後、システムは、DPプロセスの間に累積し
ていた正規化項を使用してこのスコアを正規化する。次
に、システムは問い合わせを次の注釈と同様にして比較
する。問い合わせが全ての注釈と整合したならば、注釈
の正規化スコアをランク付けし、そのランキングに基づ
いて、システムは入力問い合わせに最も類似している注
釈をユーザに対し出力する。

【００６８】DP探索の詳細な説明次に、問い合わせ音素の系列を注釈音素の系列と整合さ
せるときにダイナミックプログラミング探索がどのよう
に実行されるかを更に詳細に説明する。図１２を参照し
て説明すると、ステップＳ１０１では、システムはダイ
ナミックプログラミングスコアを初期設定する。次に、
ステップＳ１０３で、システムはヌルスタートノード
（φ_s）から全ての可能なスタートポイントへ経路を伝
搬させる。次に、ステップＳ１０５で、システムは前述
のダイナミックプログラミング制約を使用して、全ての
スタートポイントから全ての可能なエンドポイントへダ
イナミックプログラミング経路を伝搬させる。最後に、
ステップＳ１０７で、システムはエンドポイントで終了
した経路をヌルエンドノード（φ_e）へ伝搬させる。

【００６９】図１３は、ダイナミックプログラミング経
路をヌルスタートノード（φ_s）から、ダイナミックプ
ログラミング制約により定義される全ての可能なスター
トポイントへ伝搬させるときにステップＳ１０３で実行
される処理ステップを更に詳細に示す。制約の一方は、
ダイナミックプログラミング経路はどの注釈音素からで
もスタートできるというものであり、もう１つの制約
は、問い合わせ音素の系列の中で許容されるホップの回
数を定義し、問い合わせがテキストであるか、又は音声
であるかによって異なる。すなわち、問い合わせがテキ
ストから生成されていれば、スタートポイントは探索ス
ペース内の束ポイントの第１列、すなわち、ｉ＝０から
Nann−１までのポイント（ｉ，０）であり、問い合わせ
が音声から生成されている場合には、スタートポイント
は探索スペース内の束ポイントの初めの４列、すなわ
ち、ｉ＝０からNann−１のポイント（ｉ，０）、（ｉ，
１）、（ｉ，２）及び（ｉ，３）である。

【００７０】次に、図１３に示すステップを参照して、
これがどのようにして実現されるかを説明する。図示さ
れているように、ステップＳ１１１では、システムは入
力問い合わせがテキスト問い合わせであるか否かを判定
する。テキスト問い合わせであれば、処理はステップＳ
１１３へ進み、システムは、問い合わせがテキストであ
る場合に問い合わせ音素の系列の中で許容される「ホッ
プ」の最大数を定義する変数mxの値を１に設定する。次
に、処理はステップＳ１１５、S１１７及びS１１９へ進
む。これらのステップは、ヌルスタートノードから束ポ
イント（ｉ，０）に至るまでの遷移スコアをｉ＝０から
Nann−１のポイント（ｉ、０）と関連するスコア（SCOR
E（ｉ，０））に加算することにより、探索スペースの
第１列の束ポイントのそれぞれでダイナミックプログラ
ミング経路をスタートさせるように機能する。問い合わ
せがテキストである場合、これで図１２に示すステップ
Ｓ１０３における処理は終了し、その後、処理はステッ
プＳ１０５へ進む。

【００７１】ステップＳ１１１で、問い合わせがテキス
トではなく、従って、話し言葉入力から生成されたと判
定した場合には、システムはステップＳ１２１へ進み、
mxをダイナミックプログラミング制約により許容される
「ホップ(hops)」の最大数より１大きい値を有する定数
であるmxhopsに設定する。図９及び図１０に示すよう
に、問い合わせが音声である場合には、経路は問い合わ
せ音素の系列に沿って最大で３つの音素をおいて離れて
いる問い合わせ音素まで飛び越す可能性がある。従っ
て、この実施形態では、問い合わせ中の音素の数が４以
上であれば、mxhopsは４の値を有し、変数mxは４と等し
くなるように設定される。４未満である場合には、mxは
問い合わせ中の音素の数と等しい値に設定される。次
に、処理はステップＳ１２３、Ｓ１２５、Ｓ１２７、Ｓ
１２９及びＳ１３１へ進む。これらのステップは、対応
する遷移確率を対応する束ポイントと関連するスコアに
加算することにより、探索スペースの初めの４列の束ポ
イントのそれぞれでダイナミックプログラミング経路を
スタートさせるように機能する。問い合わせが話し言葉
入力から生成されている場合には、これで図１２に示す
ステップＳ１０３の処理は終了し、処理はステップＳ１
０５へ進む。

【００７２】この実施形態では、システムはステップＳ
１０５で、探索スペースの束ポイントをラスタ状技法に
より行ごとに処理することにより、スタートポイントか
らエンドポイントまでのダイナミックプログラミング経
路を伝搬させる。このラスタ処理動作を制御するために
使用される制御アルゴリズムを図１４に示す。ステップ
Ｓ１５１では、システムは注釈音素ループポインタｉを
注釈中の音素の数（Nann）と比較する。当初、注釈音素
ループポインタｉは０に設定されており、従って、処理
は初めにステップＳ１５３へ進み、問い合わせ音素ルー
プポインタjについて問い合わせ中の音素の総数（Nquer
y）に対して同様の比較を実行する。当初、ループポイ
ンタjも０に設定されており、従って、処理はステップ
Ｓ１５５へ進み、システムは前述のダイナミックプログ
ラミング制約を使用して、ポイント（ｉ，j）で終わる
経路を伝搬させる。ステップＳ１５５でシステムが経路
を伝搬させる方法については、後に更に詳細に説明す
る。ステップＳ１５５の後、ステップＳ１５７で、ルー
プポインタjを１増分し、処理はステップＳ１５３に戻
る。問い合わせの全ての音素についてこの処理が完了し
たならば（これにより、束ポイントの現在行が処理され
る）、処理はステップＳ１５９へ進み、問い合わせ音素
ループポインタjを０にリセットし、且つ注釈音素ルー
プポインタｉを１増分する。次に、処理はステップＳ１
５１に戻り、束ポイントの次の行に対して同様の手続き
を実行する。束ポイントの最終行を処理し終わったなら
ば、処理はステップＳ１６１へ進み、注釈音素ループポ
インタｉを０にリセットし、図１２に示すステップＳ１
０５の処理は終了する。

【００７３】図１５は、エンドポイントからエンドヌル
ノードφ_eへ経路を伝搬させるときに、図１２に示すス
テップＳ１０７で実行される処理ステップを更に詳細に
示す。スタートヌルノードφ_sからの伝搬と同様に、
「エンドポイント」である束ポイントは、問い合わせが
テキストであるか、又は音声であるかによって決まるダ
イナミックプログラミング制約により定義される。更
に、この実施形態では、ダイナミックプログラミング制
約により、ダイナミックプログラミング経路は注釈音素
の系列に沿ったどのポイントからでも注釈から出ること
ができる。従って、問い合わせがテキストであれば、シ
ステムは束ポイントの最終列、すなわち、ｉ＝０からNa
nn−１のポイント（ｉ，Nquery−１）で終わるダイナミ
ックプログラミング経路をエンドヌルノードφ_eまで伝
搬させることができる。しかし、問い合わせが音声から
生成されていた場合には、システムは束ポイントの終わ
りの４列、すなわち、ｉ＝０からNann−１のポイント
（ｉ，Nquery−４）、（ｉ，Nquery−３）、（ｉ，Nque
ry−２）及び（ｉ，Nquery−１）を伝搬するどの経路も
エンドヌルノードφ_eまで伝搬させることができる。

【００７４】図１５に示すように、プロセスはステップ
Ｓ１７１で始まり、システムは問い合わせがテキストで
あるか否かを判定する。テキストであれば、処理はステ
ップＳ１７３へ進み、問い合わせ音素ループポインタj
をNquery−１に設定する。次に、処理はステップＳ１７
５へ進み、注釈音素ループポインタｉを注釈中の音素の
数（Nann）と比較する。当初、注釈音素ループポインタ
ｉは０に設定されており、従って、処理はステップＳ１
７７へ進み、システムはポイント（ｉ，Nquery−１）か
らヌルエンドノードφ_eに至るまでの遷移スコアを計算
する。次に、この遷移スコアをポイント（ｉ，Nquery−
１）で終わる経路の累積スコアと組み合わせ、それをSC
ORE（ｉ，Nquery−１）に格納する。前述のように、こ
の実施形態では、遷移スコアと累積スコアは確率に基づ
くスコアであり、それらの確率を乗算することにより互
いに組み合わされる。しかし、この実施形態では、乗算
を実行する必要をなくし且つ高い浮動小数点精度の利用
を回避するために、システムは遷移スコア及び累積スコ
アとして対数確率を採用する。従って、ステップＳ１７
９では、システムはポイント（ｉ，Nquery−１）で終わ
る経路の累積スコアをステップＳ１７７で計算された遷
移スコアに加算し、その結果を一時スコアTEMPENDSCORE
にコピーする。

【００７５】前述のように、２つ以上のダイナミックプ
ログラミング経路が同じポイントで出会う場合、それぞ
れの経路の累積スコアを全て加算する。従って、対数確
率を使用しているため、互いに出会う経路と関連するス
コアは効率良く変換されて確率に戻され、加算され、そ
の後、対数確率に再変換されることになる。この実施形
態では、この演算を「対数加算」演算と呼ぶ。これは周
知の技法であり、例えば、Lee，Kai−Fu著による文献
「Automatic Speech Recognition．The Development of
the（Sphinx） System」（Kluwer Academic Publisher
s刊、１９８９年、２８ページ及び２９ページ）でも説
明されている。

【００７６】ポイント（ｉ，Nquery−１）からヌルエン
ドノードまで伝搬する経路は他のダイナミックプログラ
ミング経路と合流するので、システムはTEMPENDSCOREと
エンドノードに格納されているスコア（ENDSCOPE）との
対数加算を実行し、その結果をENDSCOREに格納する。次
に、処理はステップＳ１８３へ進み、注釈音素ループポ
インタｉを１増分する。その後、処理はステップＳ１７
５に戻り、束ポイントの最終行の次の束ポイントについ
て同様の処理を実行する。最終行の全ての束ポイントを
このようにして処理したならば、図１２のステップＳ１
０７で実行される処理は終了する。

【００７７】ステップＳ１７１で、システムが問い合わ
せはテキストではないと判定した場合には、処理はステ
ップＳ１８５へ進み、問い合わせ音素ループポインタj
を問い合わせの音素の数からmxhopsを引いた値、すなわ
ち、Nquery−４に設定する。次に、処理はステップＳ１
８７へ進み、システムは、注釈音素ループポインタｉが
注釈の音素の数（Nann）より小さいか否かを知るために
検査を実行する。当初、注釈音素ループポインタｉは０
に設定されており、従って、処理はステップＳ１８９へ
進み、システムは、問い合わせ音素ループポインタjが
問い合わせの音素の数（Nquery）より小さいか否かを判
定する。当初、問い合わせループポインタjはNqueryよ
り小さいので、処理はステップＳ１９１へ進み、システ
ムは束ポイント（ｉ，j）からヌルエンドノードφ_eまで
の遷移スコアを計算する。次に、ステップＳ１９３で、
この遷移スコアをポイント（ｉ，j）で終わる経路の累
積スコアに加算し、その結果を一時スコアTEMPENDSCORE
にコピーする。次に、処理はステップＳ１９５へ進み、
システムはTEMPENDSCOREとENDSCOREとの対数加算を実行
し、その結果をENDSCOREに格納する。更に、処理はステ
ップＳ１９７へ進み、問い合わせ音素ループポインタj
を１増分し、処理はステップＳ１８９に戻る。その後、
問い合わせ音素ループポインタjが問い合わせの音素の
数（Nquery）と等しくなるように増分され終わるまで、
上記の処理ステップが繰り返される。次に、処理はステ
ップＳ１９９へ進み、問い合わせ音素ループポインタj
はNquery−４にリセットされ、注釈音素ループポインタ
ｉは１増分される。そこで、処理はステップＳ１８７に
戻る。その後、探索スペースの終わりの４列にある全て
の束ポイントがこのように処理され終わるまで、上記の
処理ステップが繰り返され、処理が完了した時点で、図
１２に示すステップＳ１０７で実行される処理は終了す
る。

【００７８】伝搬図１４に示すステップＳ１５５では、システムは、前述
のダイナミックプログラミング制約を使用して、束ポイ
ント（ｉ，j）で終わる経路を伝搬させる。図１６は、
この伝搬ステップを実行することに関連する処理ステッ
プを示すフローチャートである。図示されているよう
に、ステップＳ２１１では、システムは２つの変数mxi
及びmxjの値を設定し、且つ注釈音素ループポインタｉ
２及び問い合わせ音素ループポインタj２を初期設定す
る。ループポインタｉ２及びループポインタj２は、ポ
イント（ｉ，j）で終わる経路が伝搬できる全ての束ポ
イントをたどるために規定されており、また、変数mxi
及び変数mxjは、ｉ２及びj２がダイナミックプログラミ
ング制約により許容される値のみをとれるように保証す
るために規定されている。すなわち、mxiは、mxhopsが
注釈の音素の数以下であれば、ｉにmxhopsを加算した値
に設定され、そうでない場合には、mxiは注釈の音素の
数（Nann）と等しい値に設定される。同様に、mxjは、m
xhopsが問い合わせの音素の数以下であれば、jにmxhops
を加算した値に設定され、そうでない場合には、問い合
わせの音素の数（Nquery）と等しい値に設定される。最
後に、ステップＳ２１１では、システムは注釈音素ルー
プポインタｉ２を注釈音素ループポインタｉの現在値と
等しくなるように初期設定すると共に、問い合わせ音素
ループポインタj２を問い合わせ音素ループポインタjの
現在値と等しくなるように初期設定する。

【００７９】システムが採用するダイナミックプログラ
ミング制約は、注釈がテキストであるか又は音声である
か及び問い合わせがテキストであるか又は音声であるか
によって決まるため、次のステップでは、注釈及び問い
合わせがどのようにして生成されたかを判定する。これ
は決定ブロックＳ２１３、Ｓ２１５及びＳ２１７により
実行される。注釈と問い合わせが共に音声から生成され
ている場合、束ポイント（ｉ，j）で終わるダイナミッ
クプログラミング経路は図１１に示すその他のポイント
へ伝搬でき、処理ステップＳ２１９からS２３５はこの
経路をそれらの他のポイントへ伝搬させるように機能す
る。すなわち、ステップＳ２１９では、システムは注釈
音素ループポインタｉ２を変数mxiと比較する。ステッ
プＳ２１１で、注釈音素ループポインタｉ２はｉに設定
されており且つmxiはｉ＋４と等しく設定されているの
で、処理はステップＳ２２１へ進み、問い合わせ音素ル
ープポインタj２について同様の比較を実行する。次
に、処理はステップＳ２２３へ進み、当初、ｉ２はｉと
等しく、j２はjと等しいので、経路が同じ束ポイント
（ｉ，j）にとどまらないように保証する。従って、処
理は、まず、ステップＳ２２５へ進み、問い合わせ音素
ループポインタj２を１増分する。

【００８０】次に、処理はステップＳ２２１に戻り、j
２の増分後の値をmxjと比較する。j２がmxjより小さけ
れば、処理はステップＳ２２３に戻り、処理はステップ
Ｓ２２７へ進み、注釈音素の系列と問い合わせ音素の系
列の双方に沿ってあまり大きなホップが起こるのを防止
する。これは、ｉ２＋j２がｉ＋j＋mxhopsより小さい場
合に限って経路が伝搬されるように保証することにより
行われる。これにより、図１１に示す三角形を成す点の
組だけが処理されることになる。この条件が満たされれ
ば、処理はステップＳ２２９へ進み、システムは束ポイ
ント（ｉ，j）から束ポイント（ｉ２，j２）までの遷移
スコア（TRANSCORE）を計算する。次に、処理はステッ
プＳ２３１へ進み、システムはステップＳ２２９で判定
された遷移スコアをポイント（ｉ，j）について格納さ
れている累積スコアに加算し、それを一時スコアTEMPSC
OREにコピーする。先に述べたように、この実施形態で
は、２つ以上のダイナミックプログラミング経路が同じ
束ポイントで出会う場合、それぞれの経路と関連する累
積スコアを互いに加算する。従って、ステップＳ２３３
では、システムは、TEMPSCOREとポイント（ｉ２，j２）
について既に格納されている累積スコアとの対数加算を
実行し、その結果をSCORE（ｉ２，j２）に格納する。次
に、処理はステップＳ２２５に戻り、問い合わせ音素ル
ープポインタj２を１増分し、処理はステップＳ２２１
に戻る。問い合わせ音素ループポインタj２がmxjの値に
達したならば、処理はステップＳ２３５へ進み、問い合
わせ音素ループポインタj２を初期値jにリセットし、且
つ注釈音素ループポインタｉ２を１増分する。次に、処
理はステップＳ２１９へ進み、処理は図１１に示すポイ
ントの次の行に対して再び開始される。経路がポイント
（ｉ，j）から図１１に示す他の全てのポイントまで伝
搬したならば、処理は終了する。

【００８１】決定ブロックＳ２１３及びＳ２１５が注釈
はテキストであり、問い合わせは音声であると判定した
場合には、処理はステップＳ２４１からＳ２５１へ進
む。これらのステップは、ポイント（ｉ，j）で終わる
経路を図９aに示すポイントへ伝搬させるように機能す
る。すなわち、ステップＳ２４１では、システムは、注
釈音素ループポインタｉが注釈の最終音素を指示してい
るか否かを判定する。最終音素を指示していれば、注釈
にはそれ以上の音素は含まれていないので、処理は終了
する。注釈音素ループポインタｉがNann−１より小さい
場合には、処理はステップＳ２４３へ進み、問い合わせ
音素ループポインタj２をmxjと比較する。当初、j２はm
xjより小さいため、処理はステップＳ２４５へ進み、シ
ステムはポイント（ｉ，j）からポイント（ｉ＋１，j
２）までの遷移スコア（TRANSCORE）を計算する。次
に、この遷移スコアをポイント（ｉ，j）で終わる経路
と関連する累積スコアに加算し、その結果を一時スコア
TEMPSCOREにコピーする。次に、ステップＳ２４９で
は、システムはTEMPSCOREとポイント（ｉ＋１，j２）と
関連する累積スコアとの対数加算を実行し、その結果を
SCORE（ｉ＋１，j２）に格納し、束ポイント（ｉ＋１，
j２）で出会う経路の経路スコアが組み合わされるよう
にする。次に、処理はステップＳ２５１へ進み、問い合
わせ音素ループポインタj２を１増分し、その後、処理
はステップＳ２４３に戻る。ポイント（ｉ，j）で終わ
る経路を図９aに示す他のポイントまで伝搬させたなら
ば、j２はmxjと等しくなり、ポイント（ｉ，j）で終わ
る経路の伝搬は終了する。

【００８２】決定ブロックS２１３及びS２１７が注釈は
音声であり、問い合わせはテキストであると判定した場
合には、処理は図１６bに示すステップＳ２５５からS２
６５へ進む。これらのステップは、ポイント（ｉ，j）
で終わる経路を図９bに示す他のポイントへ伝搬させる
ように機能する。これは、まず、ステップＳ２５５で、
問い合わせ音素ループポインタjが問い合わせを表現す
る音素の系列の最終音素を指示していないかどうかを検
査することにより実行される。最終音素を指示していな
ければ、処理はステップＳ２５７へ進み、注釈音素ルー
プポインタｉ２をmxiと比較する。当初、ｉ２はｉの値
を有しており、注釈音素ｉが注釈を表現する音素の系列
の終わりにないとすれば、処理はステップＳ２５９へ進
み、ポイント（ｉ，j）からポイント（ｉ２、j＋１）へ
移動するための遷移スコアを計算する。次に、処理はス
テップＳ２６１へ進み、この遷移スコアをポイント
（ｉ，j）で終わる経路の累積スコアに加算し、その結
果を一次スコアTEMPSCOREにコピーする。次に、処理は
ステップＳ２６３へ進み、TEMPSCOREと、ポイント（ｉ
２、j＋１）について既に格納されている累積スコアと
の対数加算を実行し、その結果をSCORE（ｉ２，j＋１）
に格納する。次に、処理はステップＳ２６５へ進み、注
釈音素ループポインタｉ２を１増分し、処理はステップ
Ｓ２５７に戻る。その後、ポイント（ｉ，j）で終わる
経路が図９bに示すその他のポイントのそれぞれへ伝搬
され終わるまで、これらの処理ステップが繰り返され
る。この時点で、ポイント（ｉ，j）における経路の伝
搬は完了し、処理は終了する。

【００８３】最後に、決定ブロックＳ２１３及びＳ２１
５が注釈と問い合わせの双方はテキストであると判定し
た場合には、処理は図１６bに示すステップＳ２７１か
らＳ２７９へ進む。これらのステップは、言うまでもな
く、更に注釈音素と問い合わせ音素が存在する場合に、
ポイント（ｉ，j）で終わる経路をポイント（ｉ＋１，j
＋１）まで伝搬させるように機能する。すなわち、ステ
ップＳ２７１では、システムは、注釈音素ループポイン
タｉが最終注釈音素を指示していないかどうかを判定す
る。最終注釈音素を指示していないのであれば、処理は
ステップＳ２７３へ進み、問い合わせ音素ループポイン
タjに関して問い合わせ音素の系列に対し同様の判定を
実行し、それ以上、注釈音素が存在しないか、又は問い
合わせ音素が存在しない場合には、そこで処理は終了す
る。しかし、更に別の注釈音素や、別の問い合わせ音素
が存在しているのであれば、処理はステップＳ２７５へ
進み、システムはポイント（ｉ，j）からポイント（ｉ
＋１，j＋１）までの遷移スコアを計算する。次に、ス
テップＳ２７７においてこの遷移スコアをポイント
（ｉ，j）について既に格納されている累積スコアと加
算し、一次スコアTEMPSCOREに格納する。次に、処理は
ステップＳ２７９へ進み、システムはTEMPSCOREと、ポ
イント（ｉ＋１，j＋１）について既に格納されている
累積スコアとの対数加算を実行し、その結果をSCORE
（ｉ＋１，j＋１）にコピーする。当業者には理解され
るであろうが、この実施形態では、ダイナミックプログ
ラミング制約によって、経路は注釈を表す音素の系列の
中のどの音素からもスタートでき、従って、ポイント
（ｉ＋１，j＋１）が既に関連するスコアを有している
ことも考えられるために、ステップＳ２７７及びＳ２７
９が必要なのである。ステップＳ２７９の後、ポイント
（ｉ，j）の伝搬は完了し、処理は終了する。

【００８４】遷移スコア図１２に示すステップＳ１０３、Ｓ１０５及びＳ１０７
では、ダイナミックプログラミング経路を伝搬させ、こ
の伝搬の間、ステップＳ１２７、Ｓ１１７、Ｓ１７７、
Ｓ１９１、Ｓ２２９、Ｓ２４５、Ｓ２５９及びＳ２７５
では、１つのポイントから別のポイントまでの遷移スコ
アを計算する。これらのステップにおいては、システム
は、遷移のスタートポイントとエンドポイントに対し
て、適切な挿入確率、削除確率及び復号確率を計算す
る。これをこの実施形態でどのようにして実行するかを
以下に図１７及び図１８を参照して説明する。

【００８５】すなわち、図１７は、束ポイント（ｉ，
j）から束ポイント（ｉ２，j２）まで伝搬する経路に関
して遷移スコアを計算するときの関連する一般処理ステ
ップを示す流れ図である。ステップＳ２９１では、シス
テムは、ポイント（ｉ，j）とポイント（ｉ２、j２）と
の間に挿入される注釈音素ごとに、挿入音素（先に述べ
た確率PI（）の対数である）を挿入することのスコアを
計算し、これを適切なスコアINSERTSCOREに加算する。
次に、そりはステップＳ２９３へ進み、システムは、ポ
イント（ｉ，j）とポイント（I２、j２）との間に挿入
される問い合わせ音素ごとに同様の計算を実行し、これ
をINSERTSCOREに加算する。しかし、（ｉ，j）がスター
トヌルノードφ_sであるか、又は（ｉ２，j２）がエンド
ヌルノードφ_eである場合には、システムは、挿入され
る問い合わせ音素に対しては挿入確率を計算するが、挿
入される注釈音素に対しては挿入確率を計算しない（い
ずれかの注釈音素で経路をスタートする又は終了するこ
とにペナルティはないからである）。先に述べた通り、
計算されるスコアは対数に基づく確率であるので、INSE
RTSCOREへのスコアの加算は、対応する挿入確率の乗算
に相当する。次に、処理はステップＳ２９５へ進み、シ
ステムは、ポイント（ｉ，j）からポイント（ｉ２，j
２）へ伝搬するときの削除及び／又は復号に関わるスコ
アを計算し、これらのスコアを加算し、その結果を適切
なスコアDELSCOREに格納する。次に、処理はステップＳ
２９７へ進み、システムはINSERTSCOREとDELSCOREを加
算し、その結果をTRANSCOREにコピーする。

【００８６】次に、図１８を参照して、ポイント（ｉ，
j）からポイント（ｉ２，j２）まで伝搬するときの削除
スコア及び／又は復号スコアを判定するためにステップ
Ｓ２９５に含まれる処理について、更に詳細に説明す
る。どのような削除及び復号が起こりうるかは、注釈が
テキストから生成されたか否か及び問い合わせがテキス
トから生成されたか否かによって決まるので、決定ブロ
ックS３０１、S３０３及びS３０５は、注釈がテキスト
であるか又は音声であるか及び問い合わせがテキストで
あるか又は音声であるかを判定する。これらの決定ブロ
ックが注釈と問い合わせは共にテキストであると判定し
た場合、削除はなく、２つの音素の復号はステップＳ３
０７でブール整合により実行される。注釈音素a_i2が問
い合わせ音素q_j2と同じであれば、処理はステップＳ３
０９へ進み、TRANSCOREをlog［１］（すなわち、０）と
等しく設定し、処理は終了する。しかし、注釈音素a_i2
が問い合わせ音素q_j2と同じでない場合には、処理はス
テップＳ３１１へ進み、TRANSCOREをlog［０］のシステ
ム近似である非常に大きな負の数に設定し、そこで処理
は終了する。

【００８７】決定ブロックＳ３０１及びＳ３０５が注釈
は音声であり、問い合わせはテキストであると判定した
場合には、先に示した式（４）を簡略化した式を使用し
て、遷移スコアを判定する。この場合、処理はステップ
Ｓ３０３からステップＳ３１３へ進み、システムは、注
釈音素ループポインタｉ２が注釈音素ループポインタｉ
と等しいか否かを判定する。それらが等しければ、それ
は経路がポイント（ｉ，j）からポイント（ｉ，j＋１）
まで伝搬したことを表している。従って、問い合わせ音
素q_j+1は問い合わせ音素の系列に対して注釈音素の系列
から削除されている。そこで、ステップＳ３１７では、
システムは音素q_j+1の削除の対数確率（すなわち、log
P(φ｜q_j+1，C)）をDELSCOREにコピーし、処理は終了す
る。ステップＳ３１３で、システムがｉ２はｉと等しく
ないと判定した場合、システムはポイント（ｉ，j）で
終わる経路のポイント（ｉ＋１，j＋１）、（ｉ＋２，j
＋１）又は（ｉ＋３，j＋３）のいずれか１つへの伝搬
を考慮している。どの場合にも、削除はなく、注釈音素
a_i2と問い合わせ音素q_j+1との挿入及び復号のみが存在
する。従って、ステップＳ３１５では、システムは問い
合わせ音素q_j+1を注釈音素a_i2として復号する対数確率
（すなわち、logP（a_i2｜q_j+1，C））をDELSCOREにコピ
ーし、処理は終了する。

【００８８】決定ブロックＳ３０１及びＳ３０５が注釈
はテキストであり、問い合わせは音声であると判定した
場合には、先に挙げた式（４）の他方の簡略化形態を使
用して、遷移スコアを判定する。この場合、処理はステ
ップＳ３０５からステップＳ３１９へ進み、システム
は、問い合わせ音素ループポインタj２が問い合わせ音
素ループポインタjと等しいか否かを判定する。それら
が等しければ、システムはポイント（ｉ，j）からポイ
ント（ｉ＋１，j）までの遷移スコアを計算している。
この場合、注釈音素a_i+1は注釈音素の系列に対して問い
合わせ音素の系列から削除されている。従って、ステッ
プＳ３２１では、システムは注釈音素a_i+1の削除の対数
確率（すなわち、log P(φ｜a_i+1，C)）を判定して、DE
LSCOREにコピーし、処理は終了する。ステップＳ３１９
で、システムが問い合わせ音素ループポインタj２は問
い合わせ音素ループポインタjと等しくないと判定した
場合には、システムは、その時点で、ポイント（ｉ，
j）からポイント（ｉ＋１，j＋１）、（ｉ＋１，j＋
２）又は（ｉ＋１，j＋３）のいずれか１つへの遷移ス
コアを判定している。この場合、削除はなく、注釈音素
a_i+1と問い合わせ音素q_j２との間には挿入と復号のみが
存在する。従って、ステップＳ３２３では、システムは
注釈音素a_i+1を問い合わせ音素q_j２として復号する対数
確率（すなわち、logP（q_j ₂｜a_i+1，C））を判定して、
DELSCOREにコピーし、処理は終了する。

【００８９】決定ブロックＳ３０1及びＳ３０３が注釈
と問い合わせの双方は音声から生成されていると判定し
た場合には、先の式（４）を使用して遷移スコアを判定
する。この場合、処理はステップＳ３０３からステップ
Ｓ３２５へ進み、システムは、注釈音素ループポインタ
ｉ２が注釈音素ループポインタｉと等しいか否かを判定
する。それらが等しければ、処理はステップＳ３２７へ
進み、音素ループポインタrを１に初期設定する。音素
ループポインタrは、先の式（４）の計算中にシステム
にわかっている可能な音素の各々をたどるために使用さ
れる。次に、処理はステップＳ３２９へ進み、システム
は音素ループポインタrをシステムにわかっている音素
の数Nphonemes（この実施形態では４３に等しい）と比
較する。当初、rはステップＳ３２７で１に設定されて
いるので、処理はステップＳ３３１へ進み、システムは
出現する音素p_rの対数確率（すなわち、logP（p_r｜
C））を判定し、それを一時スコアTEMPDELSCOREにコピ
ーする。注釈音素ループポインタｉ２が注釈音素ループ
ポインタｉと等しい場合、システムはポイント（ｉ，
j）で終わる経路をポイント（ｉ，j+１）、（ｉ、j+
２）又は（ｉ，j+３）のいずれか１つへ伝搬させてい
る。従って、問い合わせの中には、注釈にない音素が存
在している。そのため、ステップＳ３３３では、システ
ムは注釈から音素p_rが削除する対数確率（すなわち、lo
gP（φ｜p_r，C）をTEMPDELSCOREに加算する。次に、処
理はステップＳ３３５へ進み、システムは、音素p_rを問
い合わせ音素q_j２として復号する対数確率（すなわち、
logP（q_j２｜p_r，C））をTEMPDELSCOREに加算する。次
に、処理はステップＳ３３７へ進み、TEMPDELSCOREとDE
LSCOREとの対数加算を実行し、その結果をDELSCOREに格
納する。その後、処理はステップＳ３３９へ進み、音素
ループポインタrを１増分し、ステップＳ３２９に戻っ
て、システムにわかっている次の音素について同様の処
理を実行する。システムにわかっている４３の音素のそ
れぞれについてこの計算を実行した後、処理は終了す
る。

【００９０】ステップＳ３２５で、システムがｉ２はｉ
と等しくないと判定した場合には、処理はステップＳ３
４１へ進み、システムは、問い合わせ音素ループポイン
タj２が問い合わせ音素ループポインタjと等しいか否か
を判定する。それらが等しければ、処理はステップＳ３
４３へ進み、音素ループポインタrを１に初期設定す
る。次に、処理はステップＳ３４５へ進み、音素ループ
ポインタrをシステムにわかっている音素の総数（Nphon
emes）と比較する。当初、rはステップＳ３４３で１に
設定されているので、処理はステップＳ３４７へ進み、
出現する音素p_rの対数確率を判定し、それを一次スコア
TEMPDELSCOREにコピーする。次に、処理はステップＳ３
４９へ進み、システムは、音素p_rを注釈音素a_i2として
復号する対数確率を判定し、それをTEMPDELSCOREに加算
する。問い合わせ音素ループポインタj2が問い合わせ音
素ループポインタjと等しい場合、システムはポイント
（ｉ，j）で終わる経路をポイント（ｉ+1，j）、（ｉ+
2、j）又は（ｉ+3，j）のいずれか１つへ伝搬させてい
る。従って、注釈の中には問い合わせにない音素が存在
している。そこで、ステップＳ３５１では、システムは
音素p_rが問い合わせから削除する対数確率を判定し、そ
れをTEMPDELSCOREに加算する。次に、処理はステップＳ
３５３へ進み、システムはTEMPDELSCOREとDELSCOREとの
対数加算を実行し、その結果をDELSCOREに格納する。次
に、ステップＳ３５５で、音素ループポインタrを１増
分し、処理はステップＳ３４５に戻る。システムにわか
っている全ての音素についてステップＳ３４７からＳ３
５３の処理が完了したならば、処理は終了する。

【００９１】ステップＳ３４１で、システムが問い合わ
せ音素ループポインタj２は問い合わせ音素ループポイ
ンタjと等しくないと判定した場合には、処理はステッ
プＳ３５７へ進み、音素ループポインタrを１に初期設
定する。次に、処理はステップＳ３５９へ進み、システ
ムは音素カウンタポインタrをシステムにわかっている
音素の数（Nphonemes）と比較する。当初、rはステップ
Ｓ３５７で１に設定されているので、処理はステップＳ
３６１へ進み、システムは、出現する音素p_rの対数確率
を判定し、それを一次スコアTEMPDELSCOREにコピーす
る。問い合わせ音素ループポインタj２が問い合わせ音
素ループポインタjと等しくない場合、システムはポイ
ント（ｉ，j）で終わる経路をポイント（ｉ+１，j+
１）、（ｉ+１，j+２）又は（ｉ+２，j+１）のいずれか
１つへ伝搬させている。従って、削除はなく、挿入と復
号のみが存在する。そこで、処理はステップＳ３６３へ
進み、音素p_rを注釈音素a_i2として復号する対数確率をT
EMPDELSCOREに加算する。次に、処理はステップＳ３６
５へ進み、音素p_rを問い合わせ音素q_j2として復号する
対数確率を判定し、TEMPDELSCOREに加算する。ステップ
Ｓ３６７では、システムはTEMPDELSCOREとDELSCOREとの
対数加算を実行し、その結果をDELSCOREに格納する。次
に、ステップＳ３６９で音素カウンタポインタrを１増
分し、処理はステップＳ３５９に戻る。システムにわか
っている全ての音素について処理ステップＳ３６１から
Ｓ３６７が実行されたならば、処理は終了する。

【００９２】正規化以上、式（３）の分子部分のみに関してダイナミックプ
ログラミングプロセスを説明した。従って、入力問い合
わせがデータベースの注釈音素の系列と整合された後、
式（３）の分母により定義される正規化項により、その
整合のスコア（ENDSCOREに格納されている）を正規化し
なければならない。先に述べた通り、分母項の計算は分
子の計算と同時に、すなわち、前述のダイナミックプロ
グラミングルーチンにおいて実行される。これは、分子
と分母との比較からわかるように、分母に必要とされる
項は全て分子で計算されるからである。しかし、注釈又
は問い合わせがテキストから生成されている場合には、
正規化は実行されないことに注意すべきである。この実
施形態では、長い注釈は短い注釈ほど大きな重みを与え
られず且つ共通音素を含む注釈は共通しない音素を含む
注釈ほど大きな重みを与えられないように、正規化は実
行される。この実施形態においては、注釈が基礎モデル
とどの程度まで良く整合しているかによって決まる項に
よりスコアを正規化することにより、これを実行する。

【００９３】訓練上記の実施形態では、システムは１８９２の復号／削除
確率と、４３の挿入確率（先の説明においては、混同統
計値という）とを使用して、音素整合動作においてダイ
ナミックプログラミング経路にスコアを付加していた。
この実施形態では、これらの確率は訓練セッションにお
いてあらかじめ判定され、メモリ（図示せず）に格納さ
れている。すなわち、この訓練セッションの間、音声認
識システムを使用して音声の音素復号を２つの方法で行
うのである。第１の方法においては、音声認識システム
に音声と、実際に話された言葉の双方を提供する。従っ
て、音声認識装置はこの情報を使用して、話し言葉の標
準音素系列を生成し、音声の理想の復号を得ることがで
きる。そこで、音声認識システムを使用して同じ音声を
復号するのであるが、このときには、実際に話された言
葉の知識はない（以下、これを自由復号という）。自由
復号から生成される音素系列は、次の点で、標準音素系
列とは異なる。ｉ）自由復号には誤りが伴い、標準系列には存在しない
音素が復号中に挿入されたり、あるいは、標準系列には
存在している音素が復号から省略されたりすることがあ
りうる。 ii）１つの音素を別の音素と混同することがありうる。 iii）音声認識システムが音声を完璧に復号しても、会
話の発音と標準発音との差異があるために、標準復号と
の違いが生じてしまうことがある。例えば、会話の音声
では「and」という言葉（標準形態は／ae／／n／／d／
及び／ax／／n／／d／）が／ax／／n／又は／n／のみに
短縮される場合が多い。

【００９４】従って、多数の発言をその標準形態と、自
由復号形態とに復号すれば、ダイナミックプログラミン
グ方法を使用して、それら２つを整列させることができ
る。これにより、音素が標準的にはpであるべき場合
に、復号されたもののカウントdが求められる。この訓
練結果から、上記の復号確率、削除確率及び挿入確率を
次のようにして近似することができる。

【００９５】音素dが挿入音素である確率は次の式によ
り表される。

【００９６】

【数１３】

【００９７】式中、I_dは自動音声認識システムが音素d
を挿入した回数、n_o ^dは標準系列に対して挿入された復
号音素の総数である。

【００９８】音素pを音素dとして復号する確率は次の式
により表される。

【００９９】

【数１４】

【０１００】式中、c_dpはdがpであるべき場合に自動音
声認識システムがdを復号した回数、n_pはpであるべき場
合に自動音声認識システムが何かを復号した（削除を含
む）回数である。

【０１０１】音素pが復号されているべき場合に何も復
号しない（すなわち、削除が存在する）確率は次の式に
より表される。

【０１０２】

【数１５】

【０１０３】式中、O_pはpを復号しているべき場合に自
動音声認識装置が何も復号しなかった回数であり、n_pは
先の式の場合と同じである。

【０１０４】別の実施形態当業者には理解されるであろうが、１つの音素の系列を
別の音素の系列と整合する上述の技法は、データ検索以
外の用途にも適用できる。更に、当業者には理解される
であろうが、上述のシステムは音素／語束の音素を使用
していたが、音節又はカタカナ（日本語のアルファベッ
トに相当する文字）などの別の音素に類似する単位を使
用しても良い。

【０１０５】当業者には理解されるであろうが、先のダ
イナミックプログラミング整合及び２つの音素の系列の
整合の説明は単なる一例であり、様々な変形を実施でき
る。例えば、束ポイントを通って経路を伝搬させるため
にラスタ走査技法を採用していたが、束ポイントを通っ
て経路を漸進的に伝搬させる別の技法を採用することも
可能であろう。更に、当業者には理解されるであろう
が、先に説明した制約以外のダイナミックプログラミン
グ制約を使用して、整合プロセスを制御しても差し支え
ない。

【０１０６】上記の実施形態では、注釈は概して問い合
わせより長く、ダイナミックプログラミング整合アルゴ
リズムは問い合わせを注釈全体と整列させていた。別の
実施形態においては、整合アルゴリズムは問い合わせを
注釈に沿って始めから終わりまでステップ配列し、その
ステップごとに、問い合わせを問い合わせとほぼ同じ大
きさの注釈の一部分と比較して行くことにより、問い合
わせを注釈と比較しても良い。そのような実施形態にお
いては、各ステップで、問い合わせは先に説明した技法
に類似するダイナミックプログラミング技法を使用して
注釈の対応する部分と整列されることになるであろう。
この技法を図１９aに示す。図１９bは、問い合わせが注
釈に沿ってステップ処理されるにつれて問い合わせと現
在注釈との整列に関するダイナミックプログラミングス
コアが変化する様子を示したものである。図１９bのグ
ラフのピークは、問い合わせと最も良く整合する注釈の
部分を表す。この場合、問い合わせと各注釈部分との比
較の間に求められたピークDPスコアを比較することによ
り、問い合わせに最も類似している注釈を判定すること
ができる。

【０１０７】上記の実施形態では、音素・語束注釈デー
タを使用して画像に注釈を追加していた。当業者には理
解されるであろうが、この音素・語束データを使用して
多くの異なる種類のデータファイルに注釈を付けること
ができる。例えば、この種の注釈データを医療の分野で
利用して、患者のX線写真、３D映像、NMR走査画像、超
音波走査画像などに注釈を付けることが可能である。ま
た、オーディオデータ又は地震データなどの１Dデータ
にも注釈を付けることができる。

【０１０８】上記の実施形態では、入力音声信号から音
素の系列を生成する音声認識システムを使用していた。
当業者には理解されるであろうが、上記のシステムを、
例えば、出力語の系列又は語束を生成する他の種類の音
声認識システムと共に使用しても良い。音素列を生成す
る認識装置をシミュレートするために、それらの語の系
列又は語束は後に対応する音素の列に分解されれば良
い。

【０１０９】上記の実施形態では、音声認識システムの
混同統計値から、確率の最大尤度推定値を使用して、挿
入確率、削除確率及び復号確率を計算していた。当業者
には理解されるであろうが、これらの確率を推定するた
めに、最大エントロピー技法などの他の技法を使用して
も良い。適切な最大エントロピー技法の詳細について
は、John Skilling著の文献「Maximum Entropy and Bay
esian Methods」（Kluwer Academic Publishers刊）の
４５ページから５２ページを参照のこと。尚、この文献
の内容は参考として本明細書に取り入れられている。

【０１１０】上記の実施形態では、データベース２９と
自動音声認識装置５１は共にユーザ端末装置５９に配置
されていた。当業者には理解されるであろうが、これは
不可欠な構成ではない。図１９は、データベース２９及
び探索エンジン５３が遠隔サーバ６０に配置され、且つ
ユーザ端末装置５９はネットワークインタフェース装置
６７及び６９と、データネットワーク６８（インターネ
ットなど）とを介してデータベース２９をアクセスする
実施形態を示す。この実施形態では、ユーザ端末装置５
９はマイクロホン７から音声による問い合わせを受信で
きるだけである。それらの問い合わせは自動音声認識装
置５１により音素・語データに変換される。このデータ
は制御装置５５に提供され、制御装置５５はネットワー
ク６８を介して遠隔サーバ６０に配置された探索エンジ
ン５３に至るデータの送信を制御する。そこで、探索エ
ンジン５３は、先の実施形態で探索が実行されていたの
と同様の方式で探索を実行する。探索の結果は探索エン
ジン５３からデータネットワーク６８を介して制御装置
５５に戻される。制御装置５５はネットワークから戻さ
れた探索結果を考慮し、適切なデータを表示装置５７に
表示し、ユーザ３９は表示されたデータを見る。

【０１１１】データベース２９と探索エンジン５３を遠
隔サーバ６０に配置するのみならず、自動音声認識装置
５１を遠隔サーバ６０に配置することも可能である。そ
のような実施形態を図２０に示す。図示されているよう
に、この実施形態では、ユーザからの入力音声問い合わ
せは入力線６１を介して音声符号化装置７３に供給され
る。音声符号化装置７３は、データネットワーク６８を
介して効率良く転送できるように、音声を符号化するよ
うに動作する。符号化データは、この後、制御装置５５
に提供され、制御装置５５はデータをネットワーク６８
を介して遠隔サーバ６０へ伝送する。遠隔サーバ６０に
おいて、データは自動音声認識装置５１により処理され
る。入力問い合わせに対して音声認識装置５１により生
成された音素・語データは探索エンジン５３へ伝送さ
れ、データベース２９を探索するために使用される。探
索エンジン５３により生成された探索結果はネットワー
クインタフェース６９及びネットワーク６８を介してユ
ーザ端末装置５９に戻される。その後、遠隔サーバから
戻された探索結果はネットワークインタフェース装置６
７を介して制御装置５５へ伝送され、制御装置はその結
果を解析して、適切なデータを表示装置５７に表示し、
ユーザ３９はそのデータを見る。

【０１１２】同様に、ユーザからの文字入力のみを受容
するユーザ端末装置５９を設けても良く、探索エンジン
とデータベースは遠隔サーバに配置される。このような
実施形態においては、音素転換装置７５も遠隔サーバ６
０に配置して良い。

【０１１３】上記の実施形態では、ダイナミックプログ
ラミングアルゴリズムを使用して、問い合わせ音素の系
列を注釈音素の系列と整列させていた。当業者には理解
されるであろうが、あらゆる整列技法を使用することが
できると考えられる。例えば、可能な全ての整列を識別
する原始的な技法を使用することも可能であろう。しか
し、標準処理ハードウェアを使用して容易に実現できる
という意味で、ダイナミックプログラミングを採用する
のが好ましい。

【０１１４】２つ以上の音素の系列をダイナミックプロ
グラミング技法を使用して比較する方法を説明した。し
かし、図２及び図３に示すように、注釈は束として格納
されるのが好ましい。当業者には理解されるであろう
が、上記の比較技法をそれらの束と組み合わせて機能さ
せるためには、束により定義される音素系列を分岐を持
たない１つの音素系列に「平坦化」しなければならな
い。これを実行するための原始的な方法は、束により定
義される全ての可能な異なる音素系列を識別し、それら
の系列の各々を各問い合わせ系列と比較するという方法
であろう。しかし、束の共通する部分が各問い合わせ系
列と何度か整合されてしまうので、これは好ましくな
い。そこで、束中の各音素に音素ごとに利用できるタイ
ムスタンプ情報に従って順次ラベル付けすることによ
り、束を平坦化するのが好ましい。そこで、ダイナミッ
クプログラミング整列の間、各DP束ポイントで異なるダ
イナミックプログラミング制約を使用して、経路が束構
造に従って伝搬するように保証する。

【０１１５】以下の表は、図２に示す音素束の部分に対
して使用されるDP制約を示す。すなわち、第１列は束の
各音素に割り当てられる音素番号（p₁からp₉）を示し、
中央の列は束の実際の音素に対応し、最終列は、音素ご
とに、その音素で終わる経路が次のダイナミックプログ
ラミングタイムポイントで伝搬しうる音素を示す。図示
されてはいないが、中央の列は、音素が結合するノード
と、対応する音素リンクの詳細を更に含む。

【０１１６】

【表１】

【０１１７】例えば、ダイナミックプログラミング経路
が時間順に従って配列された音素p₄で終わる場合、その
ダイナミックプログラミング経路は音素p₄にとどまるこ
ともできるが、時間順に従った音素p₅からp₁₁のいずれ
かまで伝搬することも可能である。表に示す通り、いく
つかのポイントでは、経路が延出できる音素は時間順に
従った音素系列で連続して配列されていない。例えば、
時間順に従った音素p₆で終わるダイナミックプログラミ
ング経路の場合、この経路はこの音素にとどまるか、又
は音素p₁₀、p₁₂、p₁₅又はp₁₆まで進むことができる。こ
のようにして束の音素を連続させて番号付けし、束に応
じて使用されるダイナミックプログラミング制約を変化
させることにより、入力問い合わせと、注釈束との効率
の良いダイナミックプログラミング整合を実現すること
ができる。更に、当業者には理解されるであろうが、入
力問い合わせも束を生成する場合には、これも同様にし
て平坦化し、それに応じてダイナミックプログラミング
制約を調整しても良い。

【０１１８】上記の実施形態では、注釈と問い合わせの
双方に対して同じ音素混同確率を使用していた。当業者
には理解されるであろうが、それらを生成するために異
なる認識システムを使用する場合には、注釈と問い合わ
せに対して異なる音素混同確率を使用すべきである。そ
れらの混同確率は音素系列を生成するために使用された
認識システムによって異なるためである。

【０１１９】上記の実施形態では、注釈又は問い合わせ
のいずれかがテキストから生成されている場合、文字入
力によるテキストに対応する音素の標準系列が正確であ
ると想定していた。この場合、文字で入力される語には
スペルミス又はタイプミスがないものと仮定しているの
で、そうとは言えないケースも出てくる。従って、別の
実施形態においては、文字入力による問い合わせ及び／
又は注釈に対しても混同確率を使用する。言い換えれ
ば、注釈又は問い合わせの一方、あるいはその双方がテ
キストであるときでも、式（４）及び（１２）を使用す
ると考えられる。使用される混同確率は、スペルミス又
はタイプミスのいずれか一方、又はその双方を成文化し
ようとするものであっても良い。当業者には理解される
であろうが、タイプミスの混同確率は使用するキーボー
ドの種類によって異なる。すなわち、ある語のタイプミ
スを引き起こす混同確率はキーボードの配列によって決
まるのである。例えば、文字「d」を打つ場合、その文
字「d」のキーの周囲に位置するキーは高いタイプミス
確率を有し、「d」のキーから遠い位置にあるキーはそ
れより低いタイプミス確率を有する。先に述べた通り、
これらのタイプミス確率は語のスペルミスに関わる混同
確率と共に使用されても良いし、タイプミス確率の代わ
りにスペルミス確率を使用しても良い。このスペルミス
確率は、多数の異なるユーザから収集したタイプ打ち文
書を解析し、通常発生するスペルミスの種類を監視する
ことにより判定されても良い。そのようなスペルミス確
率は、キーの押し間違いに起因する変換の誤りを考慮に
入れても良い。そのような実施形態においては、使用さ
れるダイナミックプログラミング制約は文字入力の挿入
及び／又は削除も許容するものでなければならない。例
えば、図１１に示す制約を使用できるであろう。

【０１２０】もう１つ考えられるケースは、それぞれの
キーに２つ以上の文字が割り当てられているキーボード
（例えば、携帯電話のキーボードなど）を介してテキス
トを入力した場合である。この場合には、ユーザは各キ
ーをくり返し押して、そのキーに割り当てられている複
数の文字を循環使用しなければならない。そのような実
施形態においては、入力文字と同じキーに割り当てられ
ている文字が他のキーと関連する文字より高いタイプミ
ス混同確率を有するように、混同確率が調整されると考
えられる。これは、テキストメッセージを送信するため
に携帯電話を使用した人は、誰でも、希望する文字を入
力するためにキーを正しい回数押さなかったときにタイ
プミスが多く起こることを了解しているからである。

【０１２１】上記の実施形態では、制御装置は先の式
（４）又は（１２）を使用して遷移ごとに復号スコアを
計算していた。それらの式に従ってシステムにわかって
いる可能な全ての音素にわたり加算を実行する代わり
に、制御装置は、この加算の中で確率項を最大にする未
知の音素p_rを識別し、この最大確率を注釈と問い合わせ
の対応する音素を復号する確率として使用するように構
成されても良い。しかし、どの音素（p_r）がこの加算の
中で確率項を最大にする音素であるかを判定するために
付加的な計算が必要になるという意味で、これは好まし
くない。

【０１２２】先に説明した第１の実施形態では、ダイナ
ミックプログラミングアルゴリズムの間、音素の整列対
ごとに式（４）を計算していた。式（４）を計算する場
合、注釈音素及び問い合わせ音素をシステムにわかって
いる音素の各々と比較していた。当業者には理解される
であろうが、所定の注釈音素と問い合わせ音素の対に対
して、式（４）で与えられる確率の多くは０に等しい
か、又は０にごく近い。従って、別の実施形態において
は、注釈音素と問い合わせ音素の対を全ての既知の音素
のうち一部の音素の集合と比較するだけでも良い。この
一部の音素の集合は混同統計値からあらかじめ判定され
る。そのような実施形態を実現するために、注釈音素と
問い合わせ音素を使用して、式（４）を使用して注釈音
素及び問い合わせ音素と比較する必要があるモデル音素
を識別するルックアップテーブルをアドレッシングする
ことも可能であろう。

【０１２３】Ｍグラム先に説明したシステムでは、ダイナミックプログラミン
グアルゴリズムを使用して、問い合わせ全体を注釈全体
又は注釈のいくつかの部分と整列させていた。この実施
形態では、問い合わせをいくつかの部分に分割し、それ
ぞれの部分を注釈に沿って走査して、注釈の中の対応す
る部分を識別する。この一般的な技法はK．Ng及びV．
W．Zueにより提案されており、例えば、Proceedings of
Eurospeech１９９７に掲載された論文「Subwordunit r
epresentations for spoken document retrieval」の中
で論じられている。尚、この論文の内容は参考として本
明細書にも取り入れられている。

【０１２４】注釈に沿って走査される問い合わせの部分
はどのような大きさであっても良い。しかし、この部分
が１つの音素であると、各音素がそれぞれの注釈の中で
所定の回数現れることも起こりうるので、注釈を十分に
判別できない。音節ごとの部分では判別はより確かにな
ると思われるが、音節を問い合わせの中で識別するのは
容易ではない。Ng及びZueにより提案された技法はこれ
ら２つの方法の間を取ったものである。すなわち、この
技法は問い合わせ音素系列の互いに重なり合う固定サイ
ズのフラグメント、すなわち、Mグラムを使用して、一
組の特徴を取り出し、それらの特徴を注釈と比較するの
である。このことを図２２に示す。図２２は、４つのM
グラムM₁（q_i，q_i＋1，q_i＋2）、M₂（q_i＋1，q_i＋2，q
_i＋3）、M₃（q_i＋2，q_i＋3，q_i＋4）及びM₄（q_i＋3，q
_i＋4，q_i＋5）に分割された音素q_i、q_i＋1、q_i＋2、q
_i＋3、q_i＋4及びq_i＋5を有する問い合わせ音素列の一部
を示す。この例では、４つのMグラムM₁からM₄の各々が
一意性を有し、従って、３つの音素から成る一意の系列
を構成していると想定する。

【０１２５】従って、この実施形態においては、図５に
示すステップＳ１３及びＳ２１で音素探索を実行すると
きの第１のステップは、問い合わせ音素系列の中にある
全ての異なるMグラムと、問い合わせの中におけるそれ
らの出現頻度を、例えば、ブール探索を使用して識別す
る。この後、探索エンジン５３は格納されているそれぞ
れの注釈における識別されたMグラムの出現頻度を判定
する。この実施形態では、これを実行するために、Mグ
ラムを注釈に沿って有効にステップ配列し、ステップご
とに、現在MグラムをそのMグラムと同じ大きさを有する
注釈の一部と比較することにより、それぞれのMグラム
を注釈全体に沿って整列させる。図２２に示すMグラム
の場合、この動作は、各Mグラムを注釈音素a₀、a₁及びa
₂と比較し、次に注釈音素a₁、a₂及びa₃と比較し、次に
注釈音素a₂、a₃及びa₄と比較し、それ以降も同様の動作
を続けることから成る。この実施形態においては、ステ
ップごとにブール比較を実行するのではなく、先に説明
したのと同様のダイナミックプログラミング比較技法を
使用して、現在Mグラムを注釈の現在部分と比較するの
である。すなわち、この実施形態で使用される比較技法
は先に挙げた式（4）と、混同統計値とを使用して、DP
比較の間にMグラム音素の１つと注釈音素の１つとの間
に起こりうる混同のスコアを判定する。当業者には理解
されるであろうが、それぞれの整列は問い合わせの３つ
の音素を現在注釈の３つの音素と整列させるだけである
ので、この実施形態で使用されるダイナミックプログラ
ミング制約を簡略化することができる。

【０１２６】現在Mグラムと現在注釈の現在部分との整
列ごとにダイナミックプログラミングスコアを計算した
ならば、このスコアを先に説明した正規化と同様の方法
で正規化する。しかし、この実施形態では、スコアは現
在注釈の現在部分と、現在Mグラムの双方に関して正規
化される。更に、この実施形態では、計算される正規化
項は、未知の音素のモデル系列に対する削除と挿入を考
慮に入れない。言い換えれば、注釈音素a_iと問い合わせ
音素q_jとの整列に対して、システムは、

【０１２７】

【数１６】

【０１２８】を計算するのである。このような正規化項
の単純化は、この実施形態では、注釈の３つの音素と整
合すべき問い合わせの音素が３つだけであり、従って、
Mグラムの比較のたびに、音素の挿入又は削除が起こる
ということは有りそうもないという理由により実行可能
である。しかし、Mグラムの大きさが増せば、挿入や削
除を考慮した正規化項を使用する方が好ましいであろ
う。

【０１２９】現在注釈に沿って現在Mグラムを走査し終
わったとき、多数のDPスコアが計算されているはずであ
る。当業者には理解されるであろうが、計算されるDPス
コアの数はMグラムの大きさに対する現在注釈の長さ
と、ステップサイズ（通常は１音素である）とによって
決まる。そこで、現在注釈において現在Mグラムが出現
する回数は、DPスコアが所定の閾値を越える回数を数え
ることにより求められる。このことを図２３に示す。図
２３は、現在Mグラム（M_i）を現在注釈に沿ってステッ
プ配列した場合にDPスコアがどのように変化するかを、
使用される閾値と共に示す。図示されているように、M
グラムの音素の数をMとしたとき、２Mの閾値が適切な閾
値であることがわかった。図２３に示す例の場合、DPス
コアは閾値を５回越えているので、現在注釈における現
在Mグラム（M_i）の出現回数は５回である。入力問い合
わせの全ての異なるMグラムを現在注釈を整列させたな
らば、各Mグラムが現在注釈と問い合わせの双方で現れ
る回数がわかる。これを図２２に示す４つのMグラムに
ついて以下の表に示す。

【０１３０】

【表２】

【０１３１】この情報によって、出現頻度を比較するこ
とにより、入力問い合わせと現在注釈との類似度を表す
類似度スコアを計算することが可能になる。この実施形
態では、この類似度スコアは、入力問い合わせと現在注
釈における識別されたMグラムの出現頻度をベクトルと
して使用し、余弦尺度を利用して判定される。この技法
の基礎となる原理は、入力問い合わせが現在注釈に類似
しているならば、Mグラムの特徴の出現頻度は２つの音
素列について類似しているということである。従って、
Mグラムの出現頻度をベクトルであると考えれば（すな
わち、上記の表の第2列及び第3列をベクトルとして考え
れば）、入力問い合わせと現在注釈との間に高い類似性
が認められる場合、それらのベクトルが成す角度は小さ
くなるはずである。このことを二次元ベクトルa及びqに
関して図24に示す。図中、ベクトルの角度はθとして示
されている。上記の例では、ベクトルa及びqは四次元ベ
クトルになり（４つの異なるMグラムに対して１つず
つ）、類似度スコアは次の式から計算できる。

【０１３２】

【数１７】

【０１３３】次に、このスコアを現在注釈と関連付け、
探索の終了に至るまで格納する。同様にして入力問い合
わせを全ての注釈と比較したならば、制御装置はスコア
を考慮し、例えば、計算されたスコアを所定の閾値と比
較することにより、整合があるか否かを識別する。

【０１３４】あるいは、類似度スコアに余弦尺度を使用
する代わりに、入力問い合わせと現在注釈における識別
されたMグラムの出現頻度を使用して、多項類似度スコ
アを判定しても良い。この技法の基礎となる基本的な前
提は、Mグラムが特徴の閉じた集合を形成し、注釈のデ
ータベースと未知のクラスの問い合わせが、分類に基づ
く動作すべきシナリオを規定するということである。こ
の実施形態では、４３の異なる音素が存在し、各Mグラ
ムは３つの音素を有する。その結果、集合の大きさは約
８０,０００（４３³）となる。しかし、以下に示すよう
に、実際には、現在問い合わせの中にあるMグラムを考
慮するだけで良い。

【０１３５】問い合わせと現在注釈におけるMグラムの
出現頻度をベクトルであると考えて（すなわち、先の表
の第２列と第３列をベクトルとして考えて）、この技法
は、これら２つのベクトルが同じ多項モデル（θ）によ
り生成されたものと仮定する。更に、それぞれのMグラ
ムの出現頻度がその他の頻度とは無関係であると考える
ことにより、モデル（θ）が与えられたときのベクトル
の一方を生成する確率は次のようになる。

【０１３６】

【数１８】

【０１３７】式中、は出現頻度のベクトル、x_iはｉ
番目のMグラムの出現頻度、θ₁、θ₂．．．θ_mはモデル
パラメータ、mはシステム中の一意Mグラムの数（すなわ
ち、４３^３）である。問い合わせにおけるMグラムの出
現頻度のベクトルをとし、現在注釈におけるMグラム
の出現頻度のベクトルをとするとき、従来の分類理
論から、それら２つのベクトルの類似度のスコアは次の
式により求められる。

【０１３８】

【数１９】

【０１３９】モデルの先験的確率P（θ）がパラメータ
αを有するディリクレ分布であると仮定すると、この式
は次のように展開される。

【０１４０】

【数２０】

【０１４１】これを一連のベータ積分及びガンマ関数と
して解くと、次のようになる。

【０１４２】

【数２１】

【０１４３】式中、A_iは注釈におけるｉ番目のMグラム
の出現頻度、jは括弧内の項が問い合わせ中にｉ番目のM
グラムが出現するたびに計算されるように保証するため
に使用されるループカウンタ、Dは特徴で測定される注
釈の全長（すなわち、Σ^m _i=1Ａ_i）、j_sは大括弧内の項
が計算されるたびに増分される指標である。この実施形
態では、PhilipGarnerの論文「On Topic Spotting and
Dialogue Move Recognition」（Computer Speech andLa
nguage，１１：２７５−３０６，１９９７年）に記載さ
れている論拠に従って、mは４３³であり、αは０．１で
あるとみなされる。尚、この論文の内容は参考として本
明細書中に取り入れられている。通常は、αは０から１
であるが、先験的知識が豊富にあるような状況では、α
は１より大きくても良い。当業者には理解されるであろ
うが、式（１７）の括弧内の項は注釈においてｉ番目の
Mグラムが現れる確率を表す尺度である。この式のα及
びmαは、Dが小さいときに確率の項が所定のレベルを下
回らないように保証するために規定されている。従っ
て、この実施形態では、入力問い合わせと各々の注釈と
の類似度について計算される類似度尺度は、単に、注釈
に現れるMグラムの確率の積である。

【０１４４】実行される計算を例示するために、先の表
に挙げた出現の頻度に対して上記の式を評価する。従っ
て、この例では、Ｑ（Ｑの上部に横線）はベクトル
〔１，１，２，１〕であり、Ａ（Ａの上部に横線）はベ
クトル［０，２，２，１］である。そこで、現在問い合
わせ及び現在注釈の類似度スコア（Ｐ（Ｑ｜Ａ））は次
の通りである。

【０１４５】

【数２２】

【０１４６】次に、このスコアを現在注釈と関連付け、
探索の終了に至るまで格納する。入力問い合わせを同様
にして全ての注釈と比較し終わったならば、制御装置は
スコアを考慮し、最大のスコアを有する注釈として、問
い合わせに最も良く整合する注釈を識別する。

【０１４７】上記の実施形態では、問い合わせ音素の系
列から同じ大きさのMグラムを取り出していた。当業者
には理解されるであろうが、同じ問い合わせから異なる
大きさのMグラムを取り出しても良い。しかし、複雑さ
が増すため、そのような実施形態は好ましくない。

【０１４８】上記の実施形態では、特定のダイナミック
プログラミング整列及びスコア判定アルゴリズムを使用
して、問い合わせから取り出されたMグラムを対応する
注釈の部分と整列させていた。当業者には理解されるで
あろうが、ダイナミックプログラミング以外の技法を使
用して、Mグラムを注釈と整列させることも可能であ
り、各Mグラムと注釈の各部分との類似度を別の尺度で
表すことも可能である。例えば、Mグラムの特徴を１対
１の関係で注釈の対応する部分と整列させ、全ての未知
の音素にわたり加算するのではなく（すなわち、先の式
（４）を使用せずに）整列した注釈音素と対応するMグ
ラムの音素とを混同する確率を混同統計値を使用して計
算しても良い。

【０１４９】上記の実施形態では、各Mグラムを各注釈
に沿って始めから終わりまでステップ配列、すなわち、
走査していた。当業者には理解されるであろうが、各M
グラムを注釈の各部分とどのように又はどのような順序
で比較するかは重要ではない。重要なのは、問い合わせ
及びそれぞれの注釈の中で各Mグラムが現れる回数を首
尾一貫した方式で識別することである。更に、当業者に
は理解されるであろうが、問い合わせ及び注釈における
Mグラムの出現頻度を識別するためにダイナミックプロ
グラミング技法を使用することは不可欠ではない。例え
ば、Mグラムと注釈の対応する部分との厳密な整合を見
出すブール整合動作を実行することも可能であろう。し
かし、注釈と問い合わせの双方で同じ認識ミスが起こら
ない限り、この方法は注釈又は問い合わせのいずれか一
方における認識ミスを考慮に入れないため、好ましくな
い。

【０１５０】上記の実施形態では、システムは入力問い
合わせにおけるいくつかの異なるMグラムを識別し、そ
の後、注釈におけるそれらのMグラムの出現頻度を判定
していた。当業者には理解されるであろうが、それぞれ
の注釈をデータベースにロードするとき、システムは起
こりうるMグラムそれぞれの出現頻度を識別するために
注釈を走査し、この数のベクトルを格納しておき、後に
検索動作でそのベクトルを利用しても良い。

【０１５１】上記の実施形態では、問い合わせと各注釈
との類似度を、式（１６）で定義したような確率尺度の
積を求めることにより判定していた。当業者には理解さ
れるであろうが、式（１６）の大括弧の中で定義されて
いる確率尺度以外の確率尺度を使用しても良い。例え
ば、システムは確立尺度としてA_i／Dを計算しても良
く、現在注釈が短く、従って、多くのMグラムを含んで
いないために確率の信頼性が低い場合には、何らかの所
定の定数を使用して、この確率尺度を調整しても良い。

【０１５２】上記の実施形態では、整列され、整合した
注釈と問い合わせの特徴は音声の単位を表現していた。
当業者には理解されるであろうが、特徴系列を生成した
認識システムの不正確さのために問い合わせと注釈の特
徴が混同を引き起こす可能性のある他の用途にも上述の
技法を適用できる。例えば、１つの入力文字を別の文字
と間違える可能性がある光学式文字認識システム又は手
書き文字認識システムに、上述の技法を利用することが
可能であろう。以上、いくつかの実施形態とその変形例
を説明した。当業者には理解されるであろうが、当業者
には明白である実施形態及び変形例は他にも数多く存在
する。

【図面の簡単な説明】

【図１】ユーザからの文字入力又は音声入力から生成
される注釈データによってデータファイルに注釈付けす
るために使用できるユーザ端末装置を示す概略ブロック
線図。

【図２】データファイルに注釈付けするためにユーザ
による文字入力から生成される音素と語の束注釈データ
の概略図。

【図３】データファイルに注釈付けするためにユーザ
による音声入力から生成される音素と語の束注釈データ
の概略図。

【図４】ユーザが文字問い合わせ又は音声問い合わせ
によりデータベースから情報を検索するために使用でき
るユーザ端末装置の概略ブロック線図。

【図５a】図４に示すユーザ端末装置の制御の流れの
一部を示す流れ図。

【図５b】図４に示すユーザ端末装置の制御の流れの
残る部分を示す流れ図。

【図６a】問い合わせと注釈の双方を生成したと想定
される基礎統計モデルを示す概略図。

【図６b】文字入力を表す第１の音素の系列と、ユー
ザの音声入力を表す第２の音素の系列とを示し、且つ文
字入力に対してユーザの音声入力の音素の挿入及び削除
が起こりうる可能性を示す概略図。

【図６c】それぞれが音声入力を表す第１及び第２の
音素の系列と、対応する音声入力において実際に話され
た言葉に対応する音素の標準系列を表す第３の音素の系
列とを示し、且つ対応する音素の標準系列に対して２つ
の音声入力の音素の挿入及び削除が起こりうる可能性を
示す概略図。

【図７】注釈音素の系列及び問い合わせ音素の系列に
よりスタートヌルノード及びエンドヌルノードと共に作
成される探索スペースを概略的に示す図。

【図８】水平軸が注釈の音素を表し、水平軸は問い合
わせの音素を表し、それぞれが１つの注釈音素と１つの
問い合わせ音素との間で起こりうる整合に対応するいく
つかの束ポイントを示す二次元図。

【図９a】注釈が文字入力であり且つ問い合わせは音
声入力である場合にダイナミックプログラミング整合プ
ロセスで採用されるダイナミックプログラミング制約を
概略的に示す図。

【図９b】問い合わせが文字入力であり且つ注釈は音
声入力である場合にダイナミックプログラミング整合プ
ロセスで採用されるダイナミックプログラミング制約を
概略的に示す図。

【図１０】音素の一例について格納される削除と復号
の確率を概略的に示す図。

【図１１】注釈と問い合わせが共に音声入力である場
合にダイナミックプログラミング整合プロセスで採用さ
れるダイナミックプログラミング制約を概略的に示す
図。

【図１２】ダイナミックプログラミング整合プロセス
で実行される主処理ステップを示す流れ図。

【図１３】ヌルスタートノードから可能な全てのスタ
ートポイントへ伝搬することによりダイナミックプログ
ラミングプロセスを開始するために採用される主処理ス
テップを示す流れ図。

【図１４】スタートポイントから可能な全てのエンド
ポイントまでのダイナミックプログラミング経路を伝搬
するために採用される主処理ステップを示す流れ図。

【図１５】エンドポイントからヌルエンドノードに至
る経路を伝搬する際に採用される主処理ステップを示す
流れ図。

【図１６a】ダイナミックプログラミング制約を使用
して経路を伝搬する際に実行される処理ステップの一部
を示す流れ図。

【図１６b】ダイナミックプログラミング制約を使用
して経路を伝搬する際に関係する残りの処理ステップを
示す流れ図。

【図１７】１つの経路をスタートポイントからエンド
ポイントまで伝搬するために遷移スコアを判定する際に
関係する処理ステップを示す流れ図。

【図１８a】注釈音素及び問い合わせ音素の削除と復
号に関してスコアを計算する際に採用される処理ステッ
プの一部を示す流れ図。

【図１８b】注釈音素及び問い合わせ音素の削除と復
号に関してスコアを判定する際に採用される残りのステ
ップを示す流れ図。

【図１９a】問い合わせを各注釈と整列させるために
異なる技法を採用する別の実施形態を概略的に示す図。

【図１９b】図１９aに示す実施形態において問い合わ
せと注釈との比較にともなってダイナミックプログラミ
ングスコアがどのように変化するかを示す図。

【図２０】入力音声問い合わせに応答して遠隔サーバ
に配置されたデータベースからデータファイルを検索す
るように動作する別のユーザ端末装置の形態を示す概略
ブロック線図。

【図２１】入力音声問い合わせに応答して遠隔サーバ
に配置されたデータベースからユーザがデータを検索で
きる別のユーザ端末装置を示す図。

【図２２】１つの音素列と、その音素列から生成され
る４つのMグラムとの形態を示す概略ブロック線図。

【図２３】図２２に示すMグラムの１つと注釈音素の
系列との比較にともなってダイナミックプログラミング
スコアがどのように変化するかを示す図。

【図２４】２つのベクトルと、それら２つのベクトル
が成す角度とを示す図。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｔ 7/00 Ｇ１０Ｌ 3/00 ５３１ＦＧ１０Ｌ 15/12 ５３３Ａ 15/18 ５３７Ｅ５３７Ｈ (31)優先権主張番号ＧＢ００２５２０２．３ (32)優先日平成12年10月13日(2000．10．13) (33)優先権主張国イギリス（ＧＢ） (72)発明者ジェイソンピーターアンドリューチャールズワースイギリス国ジーユー２５ワイジェイサリー，ギルドフォード，サリーリサーチパーク，オッカムロード，オッカムコート１キヤノンリサーチセンターヨーロッパリミテッド内 (72)発明者樋口麻子東京都大田区下丸子３丁目30番２号キヤノン株式会社内

Claims

【特許請求の範囲】

【請求項１】第１の特徴系列及び第２の特徴系列を受
信する手段と、前記第１の特徴系列の中で、複数の異なる第１の特徴部
分列を識別する手段と、前記異なる第１の特徴部分列の各々が前記第１の特徴系
列の中で現れる回数を判定し、それを出力する第１の判
定手段と、前記第２の特徴系列から複数の第２の特徴部分列を定義
する手段と、第１の特徴部分列の各々を第２の特徴部分列の各々と比
較することにより、前記異なる第１の特徴部分列の各々
が前記第２の特徴系列の中で現れる回数を判定し、それ
を出力する第２の判定手段と、前記第１の判定手段から出力される回数と前記第２の判
定手段から出力される回数とを比較することにより、第
１の特徴系列と第２の特徴系列との類似の尺度を計算す
る手段とを具備する特徴比較装置において、前記第２の判定手段は、複数の異なる特徴の類似度を定義する類似度情報を含む
所定のデータを使用して、現在の第１の特徴部分列を第
２の特徴部分列の各々と比較し、一組の類似度尺度を求める手段と、一組の類似度尺度の各々を所定の閾値と比較し、閾値比
較結果を出力する手段と、前記閾値比較結果に従って現在の第１の特徴部分列と関
連するカウントを増分する手段とを具備することを特徴
とする特徴比較装置。
【請求項２】前記第１の特徴部分列の各々は同数の特
徴を含む請求項１記載の特徴比較装置。
【請求項３】前記第２の特徴部分列の各々は同数の特
徴を含む請求項１又は２記載の特徴比較装置。
【請求項４】前記第２の特徴部分列は前記第１の特徴
部分列と同じ数の特徴を含む請求項１から３のいずれか
１項に記載の特徴比較装置。
【請求項５】前記第１の判定手段は、第１の特徴部分
列の各々と、第１の特徴系列とのブール整合を実行する
手段と、現在の第１の特徴部分列が第１の特徴系列の中
の１つの特徴部分列と整合するたびに、現在の特徴部分
列と関連するカウントを増分する手段とを具備する請求
項１から４のいずれか１項に記載の特徴比較装置。
【請求項６】前記第２の判定手段は、現在の第１の特
徴部分列の特徴を現在の第２の特徴部分列の特徴と整列
させて、いくつかの特徴の整列対を形成する手段を更に
具備し、前記比較する手段は、前記類似度情報を使用し
て特徴の整列対ごとに特徴を比較し、その整列対の特徴
の類似度を表す比較スコアを生成し、且つ前記比較する
手段は、全ての特徴の整列対の比較スコアを組み合わせ
て、現在の第１の特徴部分列と現在の第２の特徴部分列
との類似度の尺度を求める手段を更に具備する請求項１
から５のいずれか１項に記載の特徴比較装置。
【請求項７】前記比較する手段は、整列対ごとに、その整列対の中の第１の部分列特徴を一
組の所定の特徴から取り出された複数の特徴の各々と比
較して、前記第１の部分列特徴と前記一組の所定の特徴
から取り出された各々の特徴との類似度を表す対応する
複数の中間比較スコアを求める第１の比較手段と、整列対ごとに、その整列対の中の第２の部分列特徴を前
記一組の所定の特徴から取り出された前記複数の特徴の
各々と比較して、前記第２の部分列特徴と前記一組の所
定の特徴から取り出された各々の特徴との類似度を表す
別の対応する複数の中間比較スコアを求める第２の比較
手段と、前記複数の中間比較スコアを組み合わせることにより、
整列対について前記比較スコアを計算する手段とを具備
する請求項６記載の特徴比較装置。
【請求項８】前記第１の比較手段及び前記第２の比較
手段は、整列対の第１の部分列特徴及び第２の部分列特
徴を前記一組の所定の特徴の各々の特徴とそれぞれ比較
するように動作する請求項７記載の特徴比較装置。
【請求項９】前記比較手段は、特徴の１つの整列対に
ついて、その整列対の第２の部分列特徴をその整列対の
第１の部分列特徴と混同する確率を表す比較スコアを生
成するように動作する請求項７又は８記載の特徴比較装
置。
【請求項１０】前記第１の比較手段及び前記第２の比
較手段は、前記一組の所定の特徴から取り出された対応
する特徴を整列対の特徴と混同する確率を示す中間比較
スコアを求めるように動作する請求項９記載の特徴比較
装置。
【請求項１１】前記計算する手段は、（ｉ）整列対の
第１及び第２の部分列特徴を前記一組の所定の特徴から
取り出された同じ特徴と比較したときに求められた中間
スコアを乗算して、複数の乗算中間比較スコアを求め、
且つ（ii）その結果得られた乗算中間比較スコアを加算
して、その整列対の前記比較スコアを計算するように動
作する請求項１０記載の特徴比較装置。
【請求項１２】前記一組の所定の特徴の中の前記特徴
の各々は、特徴系列の中で所定の確率で現れる特徴であ
り、且つ前記計算する手段は、前記乗算中間比較スコア
の各々に、乗算中間比較スコアを生成するために使用さ
れた、前記一組の所定の特徴から取り出された特徴のそ
れぞれの出現確率を重み付けするように動作する請求項
１１記載の特徴比較装置。
【請求項１３】整列対の第１及び第２の部分列特徴を
それぞれq_j及びa_iとし、一組の所定の特徴から取り出さ
れた特徴p_rを第１の部分列特徴q_jと混同する確率をP（q
_j｜p_r）とし、一組の所定の特徴から取り出された特徴p
_rを第２の部分列特徴a_iと混同する確率をP（a_i｜p_r）と
し、且つ前記一組の所定の特徴から取り出された特徴p_r
がある１つの特徴系列の中で現れる確率をP（p_r）とす
るとき、前記計算する手段は、【数１】を計算するように動作する請求項１２記載の特徴比較装
置。
【請求項１４】第１の部分列特徴と第２の部分列特徴
の混同確率は、あらかじめ、第１及び第２の系列それぞ
れを生成するために使用された認識システムに応じて判
定されている請求項１３記載の特徴比較装置。
【請求項１５】前記中間スコアは対数確率を表し、且
つ前記計算手段は、それぞれの中間スコアを加算するこ
とにより前記乗算を実行するように動作すると共に、対
数加算計算を実行することにより前記乗算スコアの前記
加算を実行するように動作する請求項１１から１４のい
ずれか１項に記載の特徴比較装置。
【請求項１６】前記組み合わせる手段は、全ての整列
対の比較スコアを加算して、前記類似度尺度を判定する
ように動作する請求項１５記載の特徴比較装置。
【請求項１７】前記整列させる手段は、前記第１及び
第２の特徴系列からの特徴の削除と、特徴の挿入とを識
別するように動作し、且つ前記比較する手段は、特徴の
１つの整列対の近傍で起こり、前記整列させる手段によ
り識別された特徴の削除及び特徴の挿入に応じて、その
整列対の前記比較スコアを生成するように動作する請求
項６から１６のいずれか１項に記載の特徴比較装置。
【請求項１８】前記整列させる手段は、前記第１及び
第２の特徴系列をダイナミックプログラミング技法を使
用して整列させるダイナミックプログラミング手段を具
備する請求項６から１７のいずれか１項に記載の特徴比
較装置。
【請求項１９】前記ダイナミックプログラミング手段
は、前記現在の第１の特徴部分列と、前記現在の第２の
特徴部分列との間で起こりうる複数の整列を漸進的に判
定するように動作し、且つ前記比較する手段は、前記ダ
イナミックプログラミング手段により判定された起こり
うる特徴の整列対のそれぞれについて比較スコアを判定
するように動作する請求項１８記載の特徴比較装置。
【請求項２０】前記比較する手段は、前記起こりうる
整列を漸進的に判定している間に前記比較スコアを生成
するように動作する請求項１９記載の特徴比較装置。
【請求項２１】前記ダイナミックプログラミング手段
は、前記現在の第１の特徴部分列と前記現在の第２の特
徴部分列との最適の整列を判定するように動作し、且つ
前記組み合わせる手段は、最適に整列された特徴の整列
対についてのみ比較スコアを組み合わせることにより、
前記類似度尺度を求めるように動作する請求項１８、１
９又は２０記載の特徴比較装置。
【請求項２２】前記組み合わせる手段は、起こりうる
全ての特徴の整列対について全ての比較スコアを組み合
わせることにより、前記類似度尺度を求めるように動作
する請求項１９又は２０記載の特徴比較装置。
【請求項２３】前記第１及び第２の特徴部分列の各々
の特徴は前記一組の所定の特徴に属し、且つ前記類似度
情報は、前記一組の所定の特徴の各々に対して、その特
徴をその組の他の特徴のそれぞれと混同する確率を含む
請求項７から２２のいずれか１項に記載の特徴比較装
置。
【請求項２４】前記混同する確率は、あらかじめ、第
１及び第２の特徴部分列を生成するために使用されたシ
ステムに応じて判定されている請求項２３記載の特徴比
較装置。
【請求項２５】前記所定のデータは、前記一組の所定
の特徴の中の特徴ごとに、その特徴を特徴系列に挿入す
る確率を更に含む請求項２３又は２４記載の特徴比較装
置。
【請求項２６】前記所定のデータは、前記一組の所定
の特徴の中の特徴ごとに、その特徴が特徴系列から削除
される確率を更に含む請求項２３、２４又は２５記載の
特徴比較装置。
【請求項２７】前記第２の判定手段は、前記類似度尺
度の各々を正規化する正規化手段を更に具備する請求項
６から２６のいずれか１項に記載の特徴比較装置。
【請求項２８】前記正規化手段は、対応する第１及び
第２の特徴部分列の長さに応じて変化するそれぞれ対応
する正規化スコアで各類似度尺度を除算することによ
り、各類似度尺度を正規化するように動作する請求項２
７記載の特徴比較装置。
【請求項２９】それぞれの正規化スコアは、対応する
第１及び第２の特徴部分列における特徴系列に応じて変
化する請求項２７又は２８記載の特徴比較装置。
【請求項３０】ダイナミックプログラミング手段は、
前記現在の第１の特徴部分列と前記現在の第２の特徴部
分列との間で起こりうる複数の整列を漸進的に判定する
ように動作し、前記比較する手段は、前記ダイナミック
プログラミング手段により判定された起こりうる特徴の
整列対の各々について比較スコアを判定するように動作
し、且つ前記正規化手段は、前記ダイナミックプログラ
ミング手段により前記起こりうる整列が漸進的に計算さ
れている間に、それぞれの正規化スコアを計算するよう
に動作する請求項２７から２９のいずれか１項に記載の
特徴比較装置。
【請求項３１】前記定義する手段は、前記複数の第２
の部分列を第２の特徴系列の連続する部分として定義す
るように動作する請求項１から３０のいずれか１項に記
載の特徴比較装置。
【請求項３２】前記連続する部分は１つの特徴により
互いに分離されている請求項３１記載の特徴比較装置。
【請求項３３】前記計算する手段は、前記第１の判定
手段から出力される回数を第１のベクトルとして処理し
且つ前記第２の判定手段から出力される回数を第２のベ
クトルとして処理し、それら２つのベクトルが成す角度
の余弦尺度を判定することにより、前記類似度の尺度を
計算する請求項１から３２のいずれか１項に記載の特徴
比較装置。
【請求項３４】前記第１及び第２の特徴系列は時系列
順信号を表す請求項１から３３のいずれか１項に記載の
特徴比較装置。
【請求項３５】前記第１及び第２の特徴系列はオーデ
ィオ信号を表す請求項１から３４のいずれか１項に記載
の特徴比較装置。
【請求項３６】前記第１及び第２の特徴系列は音声を
表す請求項３５記載の特徴比較装置。
【請求項３７】前記特徴の各々は音声の１つの部分語
単位を表す請求項３６記載の特徴比較装置。
【請求項３８】前記特徴の各々は１つの音素を表す請
求項３７記載の特徴比較装置。
【請求項３９】前記第１の特徴系列は文字入力から生
成される複数の部分語単位から構成され、且つ前記類似
度情報はタイプミスの確率及び／又はスペルミスの確率
を含む請求項１から３８のいずれか１項に記載の特徴比
較装置。
【請求項４０】前記第２の特徴系列は話し言葉入力か
ら生成される部分語単位の系列であり、且つ前記類似度
情報は認識ミスの確率を含む請求項１から３９のいずれ
か１項に記載の特徴比較装置。
【請求項４１】前記受信する手段は、複数の第２の特
徴系列を受信するように動作し、前記第２の判定手段
は、前記第１の特徴部分列の各々が前記第２の特徴系列
の各々の中に現れる回数を判定して、それを出力するよ
うに動作し、且つ前記計算する手段は、第１の特徴系列
と前記複数の第２の特徴系列との類似度の尺度をそれぞ
れ計算するように動作する請求項１から４０のいずれか
１項に記載の特徴比較装置。
【請求項４２】前記計算する手段により出力される前
記複数の類似度尺度を比較し、前記第１の特徴系列に最
も類似している第２の特徴系列を示す信号を出力する手
段を更に具備する請求項４１記載の特徴比較装置。
【請求項４３】第１の特徴系列及び第２の特徴系列を
受信する手段と、前記第１の特徴系列の中で複数の異なる第１の特徴部分
列を識別する手段と、前記第１の特徴系列の中で前記異なる第１の部分列の各
々が現れる回数を求める第１の回数判定手段と、前記第２の特徴系列の中で前記異なる第１の部分列の各
々が現れる回数を求める第２の回数判定手段と、前記第１及び第２の回数判定手段から得られた回数を利
用して、第１の特徴系列と第２の特徴系列との類似度を
表す類似度スコアを計算する手段とを具備する特徴比較
装置において、前記特徴比較装置は、前記第２の特徴系列の中の特徴部
分列の総数を求める第３の回数判定手段を更に具備し、前記計算する手段は、前記第２の回数判定手段から得られた回数及び第３の回
数判定手段から得られた回数を利用して、前記第１の部
分列の各々が前記第２の特徴系列の中で現れる確率の尺
度を計算する第１の計算手段と、前記第１の回数判定手段から得られた前記回数に従っ
て、前記計算された確率尺度の積を求めることにより、
前記類似度スコアを計算する第２の計算手段とを具備す
ることを特徴とする特徴比較装置。
【請求項４４】前記第２の特徴系列で現れる第１の部
分列ごとに前記第１の計算手段により計算される確率尺
度は、前記第２の特徴系列の中で第１の部分列が現れる
前記第２の回数判定手段の回数に比例し、且つ第２の特
徴系列の中における特徴部分列の前記第３の回数判定手
段の総数に反比例する請求項４３記載の特徴比較装置。
【請求項４５】括弧内の項をｉ番目の部分列について
前記第１の計算手段により計算される確率尺度とし、第
２の特徴系列の中でｉ番目の部分列が現れる回数をA_iと
し、第１の特徴系列の中でｉ番目の部分列が現れるたび
に括弧内の確率尺度が確実に乗算されるように保証する
ために使用されるループカウンタをjとし、前記第３の
回数判定手段により得られる、第２の特徴系列の中にお
ける特徴部分列の総数をDとし、括弧内の確率尺度が計
算されるたびに増分される指標をj_sとし、中括弧内の確
率尺度が所定の下限を下回らないように保証するための
定数をα及びmαとするとき、前記計算する手段は、【数２】を計算することにより、類似度尺度を計算するように動
作する請求項４３又は４４記載の特徴比較装置。
【請求項４６】 αは０から１の間である請求項４５記
載の特徴比較装置。
【請求項４７】前記第１の回数判定手段は、前記第１
の特徴部分列の各々と第１の特徴系列とのブール整合を
実行する手段と、現在の第１の特徴部分列が第１の特徴
系列の中の１つの特徴部分列と整合するたびに、現在の
第１の特徴部分列と関連するカウントを増分する手段と
を具備する請求項４３から４６のいずれか１項に記載の
特徴比較装置。
【請求項４８】前記第２の回数判定手段は、前記第１
の特徴部分列の各々と第２の特徴系列とのブール整合を
実行する手段と、現在の第１の特徴部分列が第２の特徴
系列の中の１つの特徴部分列と整合するたびに、現在の
第１の特徴部分列と関連するカウントを増分する手段と
を具備する請求項４３から４６のいずれか１項に記載の
特徴比較装置。
【請求項４９】前記第２の特徴系列から複数の第２の
特徴部分列を定義する手段を更に具備し、前記第２の回
数判定手段は、第１の特徴部分列の各々を第２の特徴部
分列の各々と比較することにより前記回数を求めるよう
に動作する請求項４３から４７のいずれか１項に記載の
特徴比較装置。
【請求項５０】前記第２の回数判定手段は、異なる特徴の類似度を定義する類似度情報を含む所定の
データを使用して、現在の第１の特徴部分列を第２の特
徴部分列の各々と比較して、一組の類似度尺度を求める
手段と、一組の類似度尺度の各類似度尺度を所定の閾値と比較
し、閾値比較結果を出力する手段と、前記閾値比較結果に応じて、現在の特徴部分列と関連す
るカウントを増分する手段とを具備する請求項４９記載
の特徴比較装置。
【請求項５１】前記第２の回数判定手段は、現在の第
１の特徴部分列の特徴を現在の第２の特徴部分列の特徴
と整列させて、いくつかの特徴の整列対を形成する手段
を更に具備し、前記比較する手段は、前記類似度情報を
使用して、それぞれの特徴の整列対の特徴を比較し、整
列対の特徴の類似度を表す比較スコアを生成するように
動作し、且つ前記比較する手段は、全ての特徴の整列対
について比較スコアを組み合わせて、現在の第１の特徴
部分列と現在の第２の特徴部分列との類似度の尺度を求
める手段を更に具備する請求項５０記載の特徴比較装
置。
【請求項５２】前記第１及び第２の特徴系列の各々の
特徴は一組の所定の特徴に属し、且つ前記一組の所定の
特徴から形成できる特徴部分列の数をmとする請求項４
５記載の特徴比較装置。
【請求項５３】前記受信する手段は複数の第２の特徴
系列を受信するように動作し、前記第２の回数判定手段
は、前記第２の特徴系列の各々の中で前記第１の特徴部
分列が現れる回数を求めるように動作し、且つ前記計算
する手段は、第１の特徴系列と前記複数の第２の特徴系
列との類似度の尺度をそれぞれ計算するように動作する
請求項４３から５２のいずれか１項に記載の特徴比較装
置。
【請求項５４】前記計算する手段により出力される前
記複数の類似度尺度を比較し、前記第１の特徴系列に最
も類似している第２の特徴系列を示す信号を出力する手
段を更に具備する請求項５３記載の特徴比較装置。
【請求項５５】各々が特徴系列から構成される関連す
る注釈を有する、検索すべき情報を識別するための複数
の情報エントリを含むデータベースを探索する装置にお
いて、特徴系列から構成される入力問い合わせを受信する手段
と、問い合わせの特徴系列を各注釈の特徴と比較して、一組
の比較結果を提供する、請求項１から５４のいずれか１
項に記載の装置と、前記比較結果を使用して、前記データベースから検索す
べき前記情報を識別する手段とを具備する装置。
【請求項５６】各々が音声特徴系列から構成される関
連する注釈を有し且つ検索すべき情報を識別する複数の
情報エントリを含むデータベースを探索する装置であっ
て、音声特徴系列から構成される入力問い合わせを受信する
手段と、問い合わせの音声特徴系列を各注釈の特徴と比較して、
一組の比較結果を提供する、請求項１から５４のいずれ
か１項に記載の装置と、前記比較結果を使用して、前記データベースから検索す
べき前記情報を識別する手段とを具備する装置におい
て、請求項１から５４のいずれか１項に記載の前記装置は、
複数の異なる比較動作モードを有し、且つ装置は、（ｉ）問い合わせの音声特徴系列がオーディオ信号から
生成されたか、又はテキストから生成されたかを判定
し、（ii）現在注釈の音声特徴系列がオーディオ信号か
ら生成されたか、又はテキストから生成されたかを判定
し、その判定結果を出力する手段と、現在注釈について、前記判定結果に応じて請求項１から
５４のいずれか１項に記載の前記装置の動作モードを選
択する手段とを更に具備することを特徴とする装置。
【請求項５７】第１の特徴系列及び第２の特徴系列を
受信する過程と、前記第１の特徴系列の中で、複数の異なる第１の特徴部
分列を識別する過程と、前記異なる第１の特徴部分列の各々が前記第１の特徴系
列の中で現れる回数を判定し、それを出力する第１の判
定過程と、前記第２の特徴系列から複数の第２の特徴部分列を定義
する過程と、第１の特徴部分列の各々を第２の特徴部分列の各々と比
較することにより、前記異なる第１の特徴部分列の各々
が前記第２の特徴系列の中で現れる回数を判定し、それ
を出力する第２の判定過程と、前記第１の判定過程から出力される回数と前記第２の判
定過程から出力される回数とを比較することにより、第
１の特徴系列と第２の特徴系列との類似の尺度を計算す
る過程とから成る特徴比較方法において、前記第２の判定過程は、複数の異なる特徴の類似度を定義する類似度情報を含む
所定のデータを使用して、現在の第１の特徴部分列を第
２の特徴部分列の各々と比較し、一組の類似度尺度を求
める過程と、一組の類似度尺度の各々を所定の閾値と比較し、閾値比
較結果を出力する過程と、前記閾値比較結果に従って現在の第１の特徴部分列と関
連するカウントを増分する過程とを含むことを特徴とす
る特徴比較方法。
【請求項５８】前記第１の特徴部分列の各々は同数の
特徴を含む請求項５７記載の特徴比較方法。
【請求項５９】前記第２の特徴部分列の各々は同数の
特徴を含む請求項５７又は５８記載の特徴比較方法。
【請求項６０】前記第２の特徴部分列は前記第１の特
徴部分列と同じ数の特徴を含む請求項５７から５９のい
ずれか１項に記載の特徴比較方法。
【請求項６１】前記第１の判定過程は、現在の第１の
特徴部分列と、第１の特徴系列とのブール整合を実行す
る過程と、現在の第１の特徴部分列が第１の特徴系列の
中の１つの特徴部分列と整合するたびに、現在の特徴部
分列と関連するカウントを増分する過程とを含む請求項
５７から６０のいずれか１項に記載の特徴比較方法。
【請求項６２】前記第２の判定過程は、現在の第１の
特徴部分列の特徴を現在の第２の特徴部分列の特徴と整
列させて、いくつかの特徴の整列対を形成する過程を更
に含み、前記比較する過程は、前記類似度情報を使用し
て特徴の整列対ごとに特徴を比較し、その整列対の特徴
の類似度を表す比較スコアを生成し、且つ前記比較する
過程は、全ての特徴の整列対の比較スコアを組み合わせ
て、現在の第１の特徴部分列と現在の第２の特徴部分列
との類似度の尺度を求める過程を更に含むる請求項５７
から６１のいずれか１項に記載の特徴比較方法。
【請求項６３】前記比較する過程は、整列対ごとに、その整列対の中の第１の部分列特徴を一
組の所定の特徴から取り出された複数の特徴の各々と比
較して、前記第１の部分列特徴と前記一組の所定の特徴
から取り出された各々の特徴との類似度を表す対応する
複数の中間比較スコアを求める第１の比較過程と、整列対ごとに、その整列対の中の第２の部分列特徴を前
記一組の所定の特徴から取り出された前記複数の特徴の
各々と比較して、前記第２の部分列特徴と前記一組の所
定の特徴から取り出された各々の特徴との類似度を表す
別の対応する複数の中間比較スコアを求める第２の比較
過程と、前記複数の中間比較スコアを組み合わせることにより、
整列対について前記比較スコアを計算する過程とを含む
請求項６２記載の特徴比較方法。
【請求項６４】前記第１の比較過程及び前記第２の比
較過程は、整列対の第１の部分列特徴及び第２の部分列
特徴を前記一組の所定の特徴の各々の特徴とそれぞれ比
較するように動作する請求項６３記載の特徴比較方法。
【請求項６５】前記比較過程は、特徴の１つの整列対
について、その整列対の第２の部分列特徴をその整列対
の第１の部分列特徴と混同する確率を表す比較スコアを
生成するように動作する請求項６３又は６４記載の特徴
比較方法。
【請求項６６】前記第１の比較過程及び前記第２の比
較過程は、前記一組の所定の特徴から取り出された対応
する特徴を整列対の特徴と混同する確率を示す中間比較
スコアを求めるように動作する請求項６５記載の特徴比
較方法。
【請求項６７】前記計算する過程は、（ｉ）整列対の
第１及び第２の部分列特徴を前記一組の所定の特徴から
取り出された同じ特徴と比較したときに求められた中間
スコアを乗算して、複数の乗算中間比較スコアを求める
過程と、（ii）その結果得られた乗算中間比較スコアを
加算して、その整列対の前記比較スコアを計算する過程
とを含む請求項６６記載の特徴比較方法。
【請求項６８】前記一組の所定の特徴の中の前記特徴
の各々は、特徴系列の中で所定の確率で現れる特徴であ
り、且つ前記計算する過程は、前記乗算中間比較スコア
の各々に、乗算中間比較スコアを生成するために使用さ
れた前記一組の所定の特徴から取り出された特徴のそれ
ぞれの出現確率を重み付けする請求項６７記載の特徴比
較方法。
【請求項６９】整列対の第１及び第２の部分列特徴を
それぞれq_j及びa_iとし、一組の所定の特徴から取り出さ
れた特徴p_rを第１の部分列特徴q_jと混同する確率をP（q
_j｜p_r）とし、一組の所定の特徴から取り出された特徴p
_rを第２の部分列特徴a_iと混同する確率をP（a_i｜p_r）と
し、且つ前記一組の所定の特徴から取り出された特徴p_r
がある１つの特徴系列の中で現れる確率をP（p_r）とす
るとき、前記計算する過程は、【数３】を計算する請求項６８記載の特徴比較方法。
【請求項７０】第１の部分列特徴と第２の部分列特徴
の混同確率は、あらかじめ、第１及び第２の系列それぞ
れを生成するために使用された認識システムに応じて判
定されている請求項６９記載の特徴比較方法。
【請求項７１】前記中間スコアは対数確率を表し、且
つ前記計算する過程は、それぞれの中間スコアを加算す
ることにより前記乗算を実行すると共に、対数加算計算
を実行することにより前記乗算スコアの前記加算を実行
する請求項６７から７０のいずれか１項に記載の特徴比
較方法。
【請求項７２】前記組み合わせる過程は、全ての整列
対の比較スコアを加算して、前記類似度尺度を判定する
請求項７１記載の特徴比較方法。
【請求項７３】前記整列させる過程は、前記第１及び
第２の特徴系列からの特徴の削除と、特徴の挿入とを識
別し、且つ前記比較する過程は、特徴の１つの整列対の
近傍で起こり、前記整列させる手段により識別された特
徴の削除及び挿入に応じて、その整列対の前記比較スコ
アを生成するように動作する請求項６２から７２のいず
れか１項に記載の特徴比較方法。
【請求項７４】前記整列させる過程は、前記第１及び
第２の特徴系列を整列させるためにダイナミックプログ
ラミング整列アルゴリズムを使用する請求項６２から７
３のいずれか１項に記載の特徴比較方法。
【請求項７５】前記ダイナミックプログラミングアル
ゴリズムは、前記現在の第１の特徴部分列と、前記現在
の第２の特徴部分列との間で起こりうる複数の整列を漸
進的に判定し、且つ前記比較する過程は、前記ダイナミ
ックプログラミングアルゴリズムにより判定された起こ
りうる特徴の整列対のそれぞれについて比較スコアを判
定する請求項７４記載の特徴比較方法。
【請求項７６】前記比較する過程は、前記起こりうる
整列を漸進的に判定している間に前記比較スコアを生成
する請求項７５記載の特徴比較方法。
【請求項７７】前記ダイナミックプログラミングアル
ゴリズムは、前記現在の第１の特徴部分列と前記現在の
第２の特徴部分列との最適の整列を判定し、且つ前記組
み合わせる過程は、最適に整列された特徴の整列対につ
いてのみ比較スコアを組み合わせることにより、前記類
似度尺度を求める請求項７４、７５又は７６記載の特徴
比較方法。
【請求項７８】前記組み合わせる過程は、起こりうる
全ての特徴の整列対について全ての比較スコアを組み合
わせることにより、前記類似度尺度を求める請求項７５
又は７６記載の特徴比較方法。
【請求項７９】前記第１及び第２の特徴部分列の各々
の特徴は前記一組の所定の特徴に属し、且つ前記類似度
情報は、前記一組の所定の特徴の各々に対して、その特
徴をその組の他の特徴のそれぞれと混同する確率を含む
請求項５７から７８のいずれか１項に記載の特徴比較方
法。
【請求項８０】前記混同する確率は、あらかじめ、第
１及び第２の特徴部分列を生成するために使用されたシ
ステムに応じて判定されている請求項６７記載の特徴比
較方法。
【請求項８１】前記所定のデータは、前記一組の所定
の特徴の中の特徴ごとに、その特徴を特徴系列に挿入す
る確率を更に含む請求項７９又は８０記載の特徴比較方
法。
【請求項８２】前記所定のデータは、前記一組の所定
の特徴の中の特徴ごとに、その特徴が特徴系列から削除
される確率を更に含む請求項７９又は８０記載の特徴比
較方法。
【請求項８３】前記第２の判定過程は、前記類似度尺
度の各々を正規化する過程を更に含む請求項６２から８
２のいずれか１項に記載の特徴比較方法。
【請求項８４】前記正規化する過程は、対応する第１
及び第２の特徴部分列の長さに応じて変化するそれぞれ
対応する正規化スコアで各類似度尺度を除算することに
より、各類似度尺度を正規化する請求項８３記載の特徴
比較方法。
【請求項８５】それぞれの正規化スコアは、対応する
第１及び第２の特徴部分列における特徴系列に応じて変
化する請求項８３又は８４記載の特徴比較方法。
【請求項８６】前記整列させる過程は、前記第１の特
徴系列と前記第２の特徴系列とを整列させるためにダイ
ナミックプログラミング整列アルゴリズムを使用し、且
つ前記正規化する過程は、前記ダイナミックプログラミ
ングアルゴリズムにより前記起こりうる整列が漸進的に
計算されている間に、それぞれの正規化スコアを計算す
る請求項８３から８５のいずれか１項に記載の特徴比較
方法。
【請求項８７】前記定義する過程は、前記複数の第２
の部分列を第２の特徴系列の連続する部分として定義す
る請求項５７から８６のいずれか１項に記載の特徴比較
方法。
【請求項８８】前記連続する部分は１つの特徴により
互いに分離されている請求項８７記載の特徴比較方法。
【請求項８９】前記計算する過程は、前記第１の判定
過程から出力される回数を第１のベクトルとして処理し
且つ前記第２の判定過程から出力される回数を第２のベ
クトルとして処理し、それら２つのベクトルが成す角度
の余弦尺度を判定することにより、前記類似度の尺度を
計算する請求項５７から８８のいずれか１項に記載の特
徴比較方法。
【請求項９０】前記第１及び第２の特徴系列は時系列
信号を表す請求項５７から８９のいずれか１項に記載の
特徴比較方法。
【請求項９１】前記第１及び第２の特徴系列はオーデ
ィオ信号を表す請求項５７から９０のいずれか１項に記
載の特徴比較方法。
【請求項９２】前記第１及び第２の特徴系列は音声を
表す請求項９１記載の特徴比較方法。
【請求項９３】前記特徴の各々は音声の１つの部分語
単位を表す請求項９２記載の特徴比較方法。
【請求項９４】前記特徴の各々は１つの音素を表す請
求項９３記載の特徴比較方法。
【請求項９５】前記第１の特徴系列は文字入力から生
成される複数の部分語単位から構成され、且つ前記類似
度情報はタイプミスの確率及び／又はスペルミスの確率
を含む請求項５７から９４のいずれか１項に記載の特徴
比較方法。
【請求項９６】前記第２の特徴系列は話し言葉入力か
ら生成される部分語単位の系列であり、且つ前記類似度
情報は認識ミスの確率を含む請求項５７から９５のいず
れか１項に記載の特徴比較方法。
【請求項９７】前記受信する過程は、複数の第２の特
徴系列を受信するように動作し、前記第２の判定過程
は、前記第１の特徴部分列の各々が前記第２の特徴系列
の各々の中に現れる回数を判定して、それを出力し、且
つ前記計算する過程は、第１の特徴系列と前記複数の第
２の特徴系列との類似度の尺度をそれぞれ計算する請求
項５７から９６のいずれか１項に記載の特徴比較方法。
【請求項９８】前記計算する過程により出力される前
記複数の類似度尺度を比較する過程と、前記第１の特徴
系列に最も類似している第２の特徴系列を示す信号を出
力する過程とを更に含む請求項９７記載の特徴比較方
法。
【請求項９９】第１の特徴系列及び第２の特徴系列を
受信する過程と、前記第１の特徴系列の中で複数の異なる第１の特徴部分
列を識別する過程と、前記第１の特徴系列の中で前記異なる第１の部分列の各
々が現れる回数を求める第１の回数判定過程と、前記第２の特徴系列の中で前記異なる第１の部分列の各
々が現れる回数を求める第２の回数判定過程と、前記第１及び第２の回数判定過程から得られた回数を利
用して、第１の特徴系列と第２の特徴系列との類似度を
表す類似度スコアを計算する過程とから成る特徴比較方
法において、前記特徴比較方法は、前記第２の特徴系列の中の特徴部
分列の総数を求める第３の回数判定過程を更に含み、前記計算する過程は、前記第２の回数判定過程から得られた回数及び第３の回
数判定過程から得られた回数を利用して、前記第１の部
分列の各々が前記第２の特徴系列の中で現れる確率の尺
度を計算する第１の計算過程と、前記第１の回数判定過程から得られた前記回数に従っ
て、前記計算された確率尺度の積を求めることにより、
前記類似度スコアを計算する第２の計算過程とを含むこ
とを特徴とする特徴比較方法。
【請求項１００】前記第２の特徴系列で現れる第１の
部分列ごとに前記第１の計算過程で計算される確率尺度
は、前記第２の特徴系列の中で第１の部分列が現れる前
記第２の回数判定過程の回数に比例し、且つ第２の特徴
系列の中における特徴部分列の前記第３の回数判定過程
の総数に反比例する請求項９９記載の特徴比較方法。
【請求項１０１】括弧内の項をｉ番目の部分列につい
て前記第１の計算過程で計算される確率尺度とし、第２
の特徴系列の中でｉ番目の部分列が現れる回数をA_iと
し、第１の特徴系列の中でｉ番目の部分列が現れるたび
に括弧内の確率尺度が確実に乗算されるように保証する
ために使用されるループカウンタをjとし、第２の特徴
系列の中における特徴部分列の前記第３の回数判定手段
の総数をDとし、括弧内の確率尺度が計算されるたびに
増分される指標をj_sとし、中括弧内の確率尺度が所定の
下限を下回らないように保証するための定数をα及びm
αとするとき、前記計算する過程は、【数４】を計算することにより、類似度尺度を計算する請求項９
９又は１００記載の特徴比較方法。
【請求項１０２】 αは０から１の間である請求項１０
１記載の特徴比較方法。
【請求項１０３】前記第１の回数判定過程は、前記第
１の特徴部分列の各々と第１の特徴系列とのブール整合
を実行する過程と、現在の第１の特徴部分列が第１の特
徴系列の中の１つの特徴部分列と整合するたびに、現在
の第１の特徴部分列と関連するカウントを増分する過程
とを含む請求項９９から１０２のいずれか１項に記載の
特徴比較方法。
【請求項１０４】前記第２の回数判定過程は、前記第
１の特徴部分列の各々と第２の特徴系列とのブール整合
を実行する過程と、現在の第１の特徴部分列が第２の特
徴系列の中の１つの特徴部分列と整合するたびに、現在
の第１の特徴部分列と関連するカウントを増分する過程
とを含む請求項９９から１０３のいずれか１項に記載の
特徴比較方法。
【請求項１０５】前記第２の特徴系列から複数の第２
の特徴部分列を定義する過程を更に含み、前記第２の回
数判定過程は、第１の特徴部分列の各々を第２の特徴部
分列の各々と比較することにより前記回数を求める請求
項９９から１０４のいずれか１項に記載の特徴比較方
法。
【請求項１０６】前記第２の回数判定過程は、異なる特徴の類似時度を定義する類似度情報を含む所定
のデータを使用して、現在の第１の特徴部分列を第２の
特徴部分列の各々と比較して、一組の類似度尺度を求め
る過程と、一組の類似度尺度の各類似度尺度を所定の閾値と比較
し、閾値比較結果を出力する過程と、前記閾値比較結果に応じて、現在の特徴部分列と関連す
るカウントを増分する過程とを含む請求項１０５記載の
特徴比較方法。
【請求項１０７】前記第２の回数判定過程は、現在の
第１の特徴部分列の特徴を現在の第２の特徴部分列の特
徴と整列させて、いくつかの特徴の整列対を形成する過
程を更に含み、前記比較する過程は、前記類似度情報を
使用して、それぞれの特徴の整列対の特徴を比較し、整
列対の特徴の類似度を表す比較スコアを生成し、且つ前
記比較する過程は、全ての特徴の整列対について比較ス
コアを組み合わせて、現在の第１の特徴部分列と現在の
第２の特徴部分列との類似度の尺度を求める過程を更に
含む請求項１０６記載の特徴比較方法。
【請求項１０８】前記第１及び第２の特徴系列の各々
の特徴は一組の所定の特徴に属し、且つ前記一組の所定
の特徴から形成できる特徴部分列の数をmとする請求項
１０１記載の特徴比較方法。
【請求項１０９】前記受信する過程は複数の第２の特
徴系列を受信し、前記第２の回数判定過程は、前記第２
の特徴系列の各々の中で前記第１の特徴部分列が現れる
回数を求めて、それを出力し、且つ前記計算する過程
は、第１の特徴系列と前記複数の第２の特徴系列との類
似度の尺度をそれぞれ計算する請求項９９から１０８の
いずれか１項に記載の特徴比較方法。
【請求項１１０】前記計算する過程により出力される
前記複数の類似度尺度を比較し、前記第１の特徴系列に
最も類似している第２の特徴系列を示す信号を出力する
過程を更に含む請求項１０９記載の特徴比較方法。
【請求項１１１】各々が特徴系列から構成される関連
する注釈を有する、検索すべき情報を識別するための複
数の情報エントリを含むデータベースを探索する方法に
おいて、特徴系列から構成される入力問い合わせを受信する過程
と、問い合わせの特徴系列を各注釈の特徴と比較して、一組
の比較結果を提供する、請求項５７から１１０のいずれ
か１項に記載の方法と、前記比較結果を使用して、前記データベースから検索す
べき前記情報を識別する過程とから成る方法。
【請求項１１２】各々が音声特徴系列から構成される
関連する注釈を有し且つ検索すべき情報を識別する複数
の情報エントリを含むデータベースを探索する方法であ
って、音声特徴系列から構成される入力問い合わせを受信する
過程と、問い合わせの音声特徴系列を各注釈の特徴と比較して、
一組の比較結果を提供する、請求項５７から１１０のい
ずれか１項に記載の方法と、前記比較結果を使用して、前記データベースから検索す
べき前記情報を識別する過程とから成る方法において、請求項５７から１１０のいずれか１項に記載の前記方法
は、複数の異なる比較動作モードを有し、且つ方法は、問い合わせの音声特徴系列がオーディオ信号から生成さ
れたか、又はテキストから生成されたかを判定し、現在
注釈の音声特徴系列がオーディオ信号から生成された
か、又はテキストから生成されたかを判定し、その判定
結果を出力する過程と、現在注釈について、前記判定結果に応じて請求項５７か
ら１１０いずれか１項に記載の前記方法の動作モードを
選択する過程とを更に含むことを特徴とする方法。
【請求項１１３】前記情報エントリのうち１つ又は複
数は関連する注釈である請求項１１１又は１１２記載の
方法。
【請求項１１４】請求項に記載の方法の各過程は請求
項において挙げた順序で実行される請求項５７から１１
３のいずれか１項に記載の方法。
【請求項１１５】特徴比較方法を実行するためのプロ
セッサ実現可能なプロセスステップを格納するコンピュ
ータ読み取り可能な媒体であって、前記プロセスステッ
プは、第１の特徴系列及び第２の特徴系列を受信する過程と、前記第１の特徴系列の中で、複数の異なる第１の特徴部
分列を識別する過程と、前記異なる第１の特徴部分列の各々が前記第１の特徴系
列の中で現れる回数を判定し、それを出力する第１の判
定過程と、前記第２の特徴系列から複数の第２の特徴部分列を定義
する過程と、第１の特徴部分列の各々を第２の特徴部分列の各々と比
較することにより、前記異なる第１の特徴部分列の各々
が前記第２の特徴系列の中で現れる回数を判定し、それ
を出力する第２の判定過程と、前記第１の判定過程から出力される回数と前記第２の判
定過程から出力される回数とを比較することにより、第
１の特徴系列と第２の特徴系列との類似の尺度を計算す
る過程とから成る媒体において、前記第２の判定過程は、複数の異なる特徴の類似度を定義する類似度情報を含む
所定のデータを使用して、現在の第１の特徴部分列を第
２の特徴部分列の各々と比較し、一組の類似度尺度を求
める過程と、一組の類似度尺度の各々を所定の閾値と比較し、閾値比
較結果を出力する過程と、前記閾値比較結果に従って現在の第１の特徴部分列と関
連するカウントを増分する過程とを含むことを特徴とす
る媒体。
【請求項１１６】特徴比較方法を実行するためのプロ
セッサ実現可能なプロセスステップを格納するコンピュ
ータ読み取り可能な媒体であって、前記プロセスステッ
プは、第１の特徴系列及び第２の特徴系列を受信する過程と、前記第１の特徴系列の中で複数の異なる第１の特徴部分
列を識別する過程と、前記第１の特徴系列の中で前記異なる第１の部分列の各
々が現れる回数を求める第１の回数判定過程と、前記第２の特徴系列の中で前記異なる第１の部分列の各
々が現れる回数を求める第２の回数判定過程と、前記第１及び第２の回数判定過程から得られた回数を利
用して、第１の特徴系列と第２の特徴系列との類似度を
表す類似度スコアを計算する過程とから成る媒体におい
て、前記プロセスステップは、前記第２の特徴系列の中の特
徴部分列の総数を求める第３の回数判定過程を更に含
み、前記計算する過程は、前記第２の回数判定過程から得られた回数及び第３の回
数判定過程から得られた回数を利用して、前記第１の部
分列の各々が前記第２の特徴系列の中で現れる確率の尺
度を計算する第１の計算過程と、前記第１の回数判定過程から得られた前記回数に従っ
て、前記計算された確率尺度の積を求めることにより、
前記類似度スコアを計算する第２の計算過程とを含むこ
とを特徴とする媒体。
【請求項１１７】各々が特徴系列から構成される関連
する注釈を有する、検索すべき情報を識別するための複
数の情報エントリを含むデータベースを探索する方法を
実行するためのプロセッサ実現可能な命令を格納するコ
ンピュータ読み取り可能な媒体において、前記プロセス
ステップは、特徴系列から構成される入力問い合わせを受信する過程
と、問い合わせの特徴系列を各注釈の特徴と比較して、一組
の比較結果を提供する、請求項１１５又は１１６記載の
コンピュータ読み取り可能な媒体に格納されたプロセス
ステップと、前記比較結果を使用して、前記データベースから検索す
べき前記情報を識別する過程とを備えることを特徴とす
る記憶媒体。
【請求項１１８】特徴比較方法を実行するためのプロ
セッサ実現可能な命令であって、プロセスステップは、第１の特徴系列及び第２の特徴系列を受信する過程と、前記第１の特徴系列の中で、複数の異なる第１の特徴部
分列を識別する過程と、前記異なる第１の特徴部分列の各々が前記第１の特徴系
列の中で現れる回数を判定し、それを出力する第１の判
定過程と、前記第２の特徴系列から複数の第２の特徴部分列を定義
する過程と、第１の特徴部分列の各々を第２の特徴部分列の各々と比
較することにより、前記異なる第１の特徴部分列の各々
が前記第２の特徴系列の中で現れる回数を判定し、それ
を出力する第２の判定過程と、前記第１の判定過程から出力される回数と前記第２の判
定過程から出力される回数とを比較することにより、第
１の特徴系列と第２の特徴系列との類似の尺度を計算す
る過程とから成るプロセッサ実現可能な命令において、前記第２の判定過程は、複数の異なる特徴の類似度を定義する類似度情報を含む
所定のデータを使用して、現在の第１の特徴部分列を第
２の特徴部分列の各々と比較し、一組の類似度尺度を求
める過程と、一組の類似度尺度の各々を所定の閾値と比較し、閾値比
較結果を出力する過程と、前記閾値比較結果に従って現在の第１の特徴部分列と関
連するカウントを増分する過程とを含むことを特徴とす
るプロセッサ実現可能な命令。
【請求項１１９】特徴比較方法を実行するためのプロ
セッサ実現可能な命令であって、プロセスステップは、第１の特徴系列及び第２の特徴系列を受信する過程と、前記第１の特徴系列の中で複数の異なる第１の特徴部分
列を識別する過程と、前記第１の特徴系列の中で前記異なる第１の部分列の各
々が現れる回数を求める第１の回数判定過程と、前記第２の特徴系列の中で前記異なる第１の部分列の各
々が現れる回数を求める第２の回数判定過程と、前記第１及び第２の回数判定過程から得られた回数を利
用して、第１の特徴系列と第２の特徴系列との類似度を
表す類似度スコアを計算する過程とから成るプロセッサ
実現可能な命令において、前記プロセスステップは、前記第２の特徴系列の中の特
徴部分列の総数を求める第３の回数判定過程を更に含
み、前記計算する過程は、前記第２の回数判定過程から得られた回数及び第３の回
数判定過程から得られた回数を利用して、前記第１の部
分列の各々が前記第２の特徴系列の中で現れる確率の尺
度を計算する第１の計算過程と、前記第１の回数判定過程から得られた前記回数に従っ
て、前記計算された確率尺度の積を求めることにより、
前記類似度スコアを計算する第２の計算過程とを含むこ
とを特徴とするプロセッサ実現可能な命令。
【請求項１２０】各々が特徴系列から構成される関連
する注釈を有する、検索すべき情報を識別するための複
数の情報エントリを含むデータベースを探索する方法を
実行するためのプロセッサ実現可能な命令において、プ
ロセスステップは、特徴系列から構成される入力問い合わせを受信する過程
と、問い合わせの特徴系列を各注釈の特徴と比較して、一組
の比較結果を提供する、請求項１１８又は１１９記載の
プロセスステップと、前記比較結果を使用して、前記データベースから検索す
べき前記情報を識別する過程とから成るプロセッサ実現
可能な命令。