JP3689670B2 - パターン整合方法及び装置 - Google Patents

パターン整合方法及び装置 Download PDF

Info

Publication number
JP3689670B2
JP3689670B2 JP2001534133A JP2001534133A JP3689670B2 JP 3689670 B2 JP3689670 B2 JP 3689670B2 JP 2001534133 A JP2001534133 A JP 2001534133A JP 2001534133 A JP2001534133 A JP 2001534133A JP 3689670 B2 JP3689670 B2 JP 3689670B2
Authority
JP
Japan
Prior art keywords
features
sequence
feature
comparison
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001534133A
Other languages
English (en)
Other versions
JP2003513383A (ja
Inventor
フィリップ, ニール ガーナー,
ジェイソン, ピーター, アンドリュー チャールズワース,
麻子 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9925560.6A external-priority patent/GB9925560D0/en
Priority claimed from GBGB9925561.4A external-priority patent/GB9925561D0/en
Priority claimed from GB0025143A external-priority patent/GB2355836B/en
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2003513383A publication Critical patent/JP2003513383A/ja
Application granted granted Critical
Publication of JP3689670B2 publication Critical patent/JP3689670B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

【0001】
本発明は、音韻のシーケンスを整合させる装置及び方法に関する。ユーザが入力した問合せに応答して、関連する音声注釈を有するデータファイルのデータベースを探索するために本発明を用いることができる。入力される問合せは、音声であっても、あるいはキーボードから入力問合せでもよい。
【0002】
情報のデータベースは公知であり、このようなデータベースでは、所望の情報を高速にかつ効率的に見つけてデータベースから取り込むにはどうすべきかが問題である。既存のデータベース探索ツールは、ユーザが、キーボードから入力されたキーワードを使用してデータベースを探索できるようにする。これは高速で効率的であるが、この種の探索は、ビデオデータベースやオーディオデータベースなど様々な種類のデータベースに適していない。
【0003】
オーディオファイル及びビデオファイル内の音声内容の音声表記を用いてこのようなビデオデータベース及びオーディオデータベースに注釈付けし、その後の検索は、ユーザが入力した問合せの音声表記をデータベース内の音韻注釈データと比較することによって達成することが最近提案されている。音韻のシーケンスを整合させるために提案されたこの技術では、まず各特徴が音韻ストリングの重なり合う一定サイズの断片とみなされる、問合せ中の1組の特徴が定義され、次いで問合せと注釈の両方において各特徴の発生頻度が識別され、最後にこれらの発生頻度の余弦度を使用して問合せと注釈の間の類似性の程度が判定される。この種の音韻比較技術の1つの利点は、問合せの単語のシーケンスが注釈の単語のシーケンスに厳密には一致していない状況に対処できることである。しかし、特に、問合せと注釈が異なる速度で発声されたときや、問合せから一部の単語が削除され、注釈からは削除されないか、あるいは注釈から一部の単語が削除され、問合せからは削除されない場合にエラーが起こりやすいという問題がある。
【0004】
本発明の目的は、データベースを探索するための他のシステムを提供することである。
【0005】
一態様によれば、本発明は、特徴の第1及び第2のシーケンスを受信する手段と、第1のシーケンスの特徴を第2のシーケンスの特徴と整列させ、いくつかの整列させた特徴対を形成する手段と、整列させた各特徴対の各特徴を比較し、整列させた特徴対の間の類似性を表す比較スコアを生成する手段と、列させた特徴対の比較スコアを組み合わせ、第1の特徴のシーケンスと第2の特徴のシーケンスとの間の類似性の程度を提供する手段とを備える特徴比較装置であって、比較手段が、整列させた各対について、整列させた対における第1のシーケンスの特徴を、1組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、第1のシーケンスの特徴と1組の特徴から得たそれぞれの特徴との間の類似性を表す対応する複数の中間比較スコアを提供する第1の比較手段と、整列させた各対について、整列させた対における第2のシーケンスの特徴を、1組の特徴から得た複数の特徴のそれぞれと比較し、第2のシーケンスの特徴と1組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを示す第2の比較手段と、複数の中間比較スコアを組み合わせることにより、整列させた対の比較スコアを算出する手段とを備えることを特徴とする特徴比較装置を提供する。このようなシステムは、認識システムが特徴を誤って認識することによる第1の特徴のシーケンスと第2の特徴のシーケンスの両方の変動を考慮するという利点を有する。
【0006】
他の態様によれば、本発明は、データベース間の各エントリが、音声の特徴からなるシーケンスを含む情報エントリのデータベースを探索し、データベースが検索すべき情報を識別する装置であって、音声の特徴のシーケンスを含む入力問合せを受信する手段と、音声の特徴からなる問合せのシーケンスと音声の特徴からなるデータベースシーケンスの各特徴を比較し、1組の比較結果を与える手段と、比較結果を使用して、データベースから検索すべき情報を識別する手段とを備える装置において、比較手段が、複数の異なる比較動作モードを有し、該装置が、(i)音声の特徴からなる問合せのシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスか、及び(ii)音声の特徴からなる現在のデータベースシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスかを判定するための、及び判定結果を出力するための手段と、現在のデータベースシーケンスについて、判定結果に応じて比較手段の動作モードを選択する手段とをさらに備えることを特徴とする装置を提供する。入力問合せと注釈が共に音声から生成されたと判定手段が判定したときに、比較手段が上述した装置として動作することが好ましい。
【0007】
他の態様によれば、本発明は、各情報エントリが、音声注釈の特徴のシーケンスを含む関連する注釈を有する、複数の情報エントリを含むデータベースを検索し、データベースから検索すべき情報を識別する装置であって、
入力音声問合せの複数のオーディオ表現を受信する手段と、
入力問合せの各表現を、表現内の音声を表す、音声問合せの特徴からなるシーケンスに変換する手段と、
各表現の音声問合せの特徴を各注釈の音声注釈の特徴と比較し、1組の比較結果を与える手段と、
各表現の音声問合せの特徴を同じ注釈の音声注釈の特徴と比較することによって得られた比較結果を互いに組み合わせ、各注釈について、入力問合せと注釈との間の類似性の程度を示す手段と、
組合せ手段によって全ての注釈について示された類似性の程度を使用して、データベースから検索すべき情報を識別する手段とを備える装置を提供する。
【0008】
他の態様によれば、本発明は、特徴比較装置であって、
各シーケンスが、入力問合せの表現を表す、問合せの特徴からなる第1及び第2のシーケンスを受信する手段と、
注釈の特徴のシーケンスを受信する手段と、
各表現の問合せの特徴を注釈の特徴と整列させ、各群が、各表現から得た問合せの特徴と注釈の特徴とを備える、いくつかの整列させた特徴群を形成する手段と、
整列させた各特徴群の各特徴を比較し、整列させた群の各特徴間の類似性を表す比較スコアを生成する手段と、
全ての整列させた特徴群の比較スコアを組み合わせ、入力問合せの表現と注釈との間の類似性の程度を示す手段とを備える装置において、
比較手段が、
整列させた各群について、整列させた群中の第1の問合せのシーケンスの特徴を、1組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、第1の問合せのシーケンスの特徴と1組の特徴から得たそれぞれの特徴との間の類似性を表す対応する複数の中間比較スコアを示す第1の特徴比較器と、
整列させた各群について、整列させた群中の第2の問合せのシーケンスの特徴を、1組の特徴から得た複数の特徴のそれぞれと比較し、第2の問合せのシーケンスの特徴と1組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを示す第2の特徴比較器と、
整列させた各群について、整列させた群中の注釈の特徴を、1組の特徴から得た複数の特徴のそれぞれと比較し、注釈の特徴と1組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを示す第3の特徴比較器と、
複数の中間比較スコアを組み合わせることにより、整列させた群の比較スコアを算出する手段とを備えることを特徴とする特徴比較装置を提供する。
【0009】
次に、本発明の例示的な実施形態について、図1から図28を参照して説明する。
【0010】
本発明の実施形態は、専用ハードウェア回路を使用して実施することができるが、以下に説明する実施形態は、パーソナルコンピュータ、ワークステーション、複写機、ファックス機、パーソナルデジタルアシスタント(PDA)などの処理ハードウェアに関連して実行される異なるコンピュータソフトウェア又はコードで実施される。
【0011】
(データファイル注釈)
図1には、ユーザが、データベース29に格納されるデータファイル91に注釈付けするためにキーボード3及びマイクロフォン7を介してキーボードからの注釈データ又は音声注釈データを入力できるようにするユーザ端末59の形態が示されている。この実施形態では、データファイル91は、たとえばカメラによって生成された二次元画像を含んでいる。ユーザ端末59は、ユーザ39が、後でデータベース29から2D画像を検索するときに使用できる適切な注釈を2D画像に付与できるようにする。この実施形態では、キーボードからの入力は、キーボードからの入力が音声表記ユニット75によって音韻(又は音韻状)ラティス注釈データ及び単語ラティス注釈データに変換され、このデータが制御ユニット55に渡される。図2には、キーボードからの入力「タージマハルの写真」について生成された音韻ラティス注釈データ及び単語ラティス注釈データの形態が示されている。図2に示されているように、音韻ラティス及び単語ラティスは、単一の入口点及び単一の出口点を有する非循環有向グラフである。このグラフはユーザの入力の様々な解析を表す。図示のように、音声表記ユニット75は、内部音声ディクショナリ(図示せず)から、キーボードからの入力に対応するいくつかの異なる可能な音韻ストリングを識別する。
【0012】
同様に、音声入力は、自動音声認識ユニット51によって音韻(又は音韻状)ラティス注釈データ及び単語ラティス注釈データに変換され、このデータがやはり制御ユニット55に渡される。自動音声認識ユニット51は、(i)入力された発声の音韻ラティスを生成し、(ii)次いで音韻ラティス内の単語を識別し、(iii)最後にこの2つを組み合わせることによって、この音韻ラティス注釈データ及び単語ラティス注釈データを生成する。図3には、入力された発声「タジマハールの写真」について生成された音韻ラティス注釈データ及び単語ラティス注釈データの形態が示されている。図示のように、自動音声認識ユニットは、この入力された発声に対応するいくつかの異なる可能な音韻ストリングを識別する。音声認識技術分野で公知のように、これらの異なる可能性は、音声認識ユニット51によって生成され、音声認識ユニットの出力の信頼性を示す独自の重み付けを有することができる。しかし、この実施形態では、各音韻のこの重み付けは行われない。図3に示されているように、自動音声認識ユニット51が識別する音韻ラティス内の単語は、音韻ラティスデータ構造に組み込まれる。上記で与えた句の例に関して示したように、自動音声認識ユニット51は単語「写真(picture)」、「〜の(of)」、「off」、「the」、「other」、「ta」、「tar」、「jam」、「ah」、「hal」、「ha」、及び「al」を識別する。
【0013】
図3に示されているように、自動音声認識ユニット51によって生成される音韻ラティス及び単語ラティスは、単一の入口点及び単一の出口点を有する非循環有向グラフである。このグラフは、ユーザが入力した注釈の発声の様々な解析を表す。このグラフは、いくつかの単語とそれに代わる単語との単なるシーケンスではない。というのは、各単語を単一の他の単語で置き換える必要がなく、1つの単語を2つ以上の単語又は音韻で置き換えることができ、構造全体が1つ又は複数の単語又は音韻に代わるものを形成することができるからである。したがって、音韻ラティス注釈データ及び単語ラティス注釈データ内のデータの密度は、オーディオ注釈入力に関するN最良単語リストを生成するシステムの場合と同様に指数関数的に成長するのではなく、基本的に注釈データ全体にわたって線形のままである。
【0014】
この実施形態では、自動音声認識ユニット51又は音声表記ユニット75によって生成される注釈データは以下の一般的な形式を有する。
【0015】
ヘッダ
−単語であるか、音韻であるか、混合されたものであるかを示すフラグ
−メモリ内の注釈データの各ブロックの位置を所与の時点に関連付ける時間インデックス
−使用される単語セット(すなわち、ディクショナリ)
−使用される音韻セット
−語彙が属する言語
−音韻確率データ
ブロック(i) i=0、1、2、...
ノードNj j=0、1、2、...
−ノードの、ブロックの開始位置からの時間のずれ
−音韻リンク(k) k=0、1、2、...
ノードNjに対するずれ=Nk−Nj(Nkは、リンクKが連結されているノード)
リンク(k)に関連する音韻
−単語リンク(l) l=0、1、2、...
ノードNjに対するずれ=Ni−Nj(Njは、リンクlが連結されているノード)
リンク(l)に関連する単語
データベース内の全てのデータファイルが、上述の音韻ラティス注釈データと単語ラティス注釈データの組合せを含むとは限らず、この場合、異なる探索方式を使用してこの注釈データが探索されるので、注釈データが単語注釈データであるか、それとも音韻注釈データであるか、それともそれらが混合されたものであるかを識別するフラグが与えられる。
【0016】
この実施形態では、注釈データは、探索が所与の探索に関する注釈データの中央にジャンプできるようにノードのブロックに分割される。したがって、ヘッダは、メモリ内の注釈データの各ブロックの位置を開始時間からこのブロックの開始位置に対応する時間までの時間のずれに関連付ける時間インデックスを含む。
【0017】
ヘッダは、使用される単語セット(すなわち、ディクショナリ)を定義するデータ、使用される音韻及びそれらの確率、ならびに語彙が属する言語も含む。ヘッダは、注釈データと、注釈データの生成時に使用された注釈データの適切な設定とを生成するのに用いられる自動音声認識システムの詳細を含むこともできる。
【0018】
注釈データの各ブロックの後に、ブロック内の各ノードについて、ヘッダ及びID、ノードの、ブロックの開始位置からの時間のずれ、このノードを音韻によって他のノードに連結する音韻リンク、ならびにこのノードを単語によって他のノードに連結する単語リンクが位置する。各音韻リンク及び単語リンクは、このリンクに関連する音韻又は単語を識別する。これらのリンクは、現在のノードに対するずれを識別する。たとえば、ノードN50が音韻リンクによってノードN55にリンクされている場合、ノードN50のずれは5である。当業者なら理解できるように、このようなずれ表示を使用することによって、連続的な注釈データを別々のブロックに分割することができる。
【0019】
自動音声認識ユニットがその出力の信頼性を示す重みを出力する一実施形態では、このような重み、すなわち信頼性スコアもデータ構造内に含められる。具体的には、ノードに到着する信頼性を示す信頼性スコアが各ノードごとに与えられ、音韻リンク及び単語リンクのそれぞれが、対応する音韻又は単語に与えられる重みに応じた遷移スコアを含む。この場合、このような重みを使用して、信頼性スコアの低い一致を破棄することによってデータファイルの探索及び検索が制御される。
【0020】
制御ユニット55は、ユーザの入力に応じて、データベース29から適切な2Dファイルを検索し、生成された音韻注釈データ及び単語注釈データをデータファイル91に付加する。次いで、増やされたデータファイルはデータベース29に戻される。この注釈ステップ中に、制御ユニット55はディスプレイ57上に2D画像を表示するように動作することができ、したがって、ユーザは、注釈データに正しいデータファイル91を確実に関連付けることができる。
【0021】
以下に詳しく説明するように、このような音韻ラティス注釈データ及び単語ラティス注釈データを使用すると、データベース29を高速にかつ効率的に探索し、データベース29に格納されている所望の2D画像データファイルを識別し検索することができる。これは、まず単語データを使用してデータベース29を探索し、この探索において必要なデータファイルが得られなかった場合に、よりロバストな音韻データを使用してさらに探索を実行することによって行うことができる。音声認識業界の当業者には認識されるように、音韻がディクショナリに依存し、かつ音韻によってシステムは名称、場所、外国語などの単語に語彙から対処できるようになるので、音韻データを使用することはよりロバストである。音韻データを使用することによって、システムを将来も問題なく使用することが可能になる。これは、最初の注釈が音声によって入力され、最初の自動音声認識システムが入力された注釈の単語を理解できなかったときに、データベース29に格納されているデータファイルを検索することができるからである。
【0022】
(データファイル検索)
図4は、この実施形態で、注釈付けされた2D画像をデータベース29から検索するのに用いられるユーザ端末59の形態を示すブロック図である。このユーザ端末59はたとえば、パーソナルコンピュータ、ハンドヘルド装置などでよい。図示のように、この実施形態では、ユーザ端末59は、注釈付けされた2D画像のデータベース29、自動音声認識ユニット51、音声表記ユニット75、キーボード3、マイクロフォン7、探索エンジン53、制御ユニット55、及びディスプレイ57を備える。動作時に、ユーザは、マイクロフォン7を介して音声問合せを入力するか、あるいはキーボード3を介して問合せを入力し、この問合せが自動音声認識ユニット51又は音声表記ユニット75によって処理され、対応する音韻データ及び単語データが生成される。このデータは音韻ラティス及び単語ラティスの形をとることもできるが、このことは必須ではない。この音韻データ及び単語データは次いで、制御ユニット55に入力され、制御ユニット55は、探索エンジン53を使用してデータベース29の適切な探索を開始することができる。次いで、探索エンジン53によって生成された探索の結果が制御ユニット55に送り返され、制御ユニット55は探索結果を分析し、適切な表示データ(たとえば、検索された2D画像)を生成し、ディスプレイ57を介してユーザに表示する。
【0023】
図5a及び図5bは、この実施形態でユーザ端末59がどのように動作するかを示す流れ図である。ステップs1で、ユーザ端末59はアイドル状態であり、ユーザ39からの問合せの入力を待っている。入力問合せが受信されると、ステップs3で、自動音声認識ユニット51又は音声表記ユニット75により、入力問合せの音韻データ及び単語データが生成される。次いで、ステップs5で、制御ユニット55が探索エンジン53に、入力問合せから生成された単語データを使用してデータベース29の探索を実行するよう命令する。この実施形態で使用される単語探索は、現在当技術分野において、入力された単語の探索に使用されている探索と同じであり、ここではこれ以上詳しくは説明しない。ステップs7で、制御ユニット55は、ユーザが入力した問合せに対する一致が見つかったことを探索結果から確認した場合、その探索結果をディスプレイ57を介してユーザに出力する。
【0024】
この実施形態では、ユーザ端末59は次いで、ユーザに探索結果を検討させ、結果が、ユーザが要求した情報に対応する結果であるかどうかに関するユーザの確認を待つ。対応する結果である場合、処理はステップs11から処理の終わりに進み、ユーザ端末59はアイドル状態に戻り、次の問合せの入力を待つ。しかし、探索結果が所望の情報に対応していないことを(たとえば、適切な音声コマンドを入力することによって)ユーザが示した場合、処理はステップs11からステップs13に進み、探索エンジン53がデータベース29の音韻探索を実行する。しかし、この実施形態では、ステップs13で実行される音韻探索はデータベース29全体の探索ではない。というのは、全体を探索すると、データベースのサイズによっては数時間かかるからである。
【0025】
一方、ステップs13で実行される音韻探索では、ステップs5で実行された単語探索の結果を使用して、ユーザが入力した問合せに対応するデータベース内の1つ又は複数の部分が識別される。たとえば、問合せが3つの単語を含んでおり、単語探索で注釈内の問合せ単語のうちの1つ又は2つが識別されるに過ぎない場合、注釈の、識別された単語の周りの部分の音韻探索が実行される。この実施形態においてステップs13で実行される音韻探索がどのように行われるかについては以下に詳しく説明する。
【0026】
音韻探索が行われた後、制御ユニット55はステップs15で、一致が見つかったかどうかを確認する。一致が見つかった場合、処理はステップs17に進み、制御ユニット55は探索結果をディスプレイ57上でユーザに対して表示させる。この場合も、システムは、探索結果が所望の情報に対応する結果であるかどうかに関するユーザの確認を待つ。結果が正しい場合、処理はステップs19から処理の終わりに進み、ユーザ端末59がアイドル状態に戻り、次の問合せの入力を待つ。しかし、探索結果が所望の情報に対応していないことをユーザが示した場合、処理はステップs19からステップs21に進む。ステップs21で、制御ユニット55は、音韻探索をデータベース29全体に対して実行すべきかどうかをディスプレイ57を介してユーザに尋ねるよう動作することができる。この問合せに応答して、ユーザがこのような探索を実行すべきであると示した場合、処理はステップs23に進み、探索エンジンがデータベース29全体の音韻探索を実行する。
【0027】
この探索が完了すると、制御ユニット55は、ユーザが入力した問合せに関する一致が見つかったかどうかをステップs25で確認する。一致が見つかった場合、処理はステップs27に進み、制御ユニット55が探索結果をディスプレイ57上でユーザに対して表示させる。探索結果が正しい場合、処理はステップs29から処理の終わりに進み、ユーザ端末59がアイドル状態に戻り、次の問合せの入力を待つ。一方、探索結果が依然として所望の情報に対応していないことをユーザが示した場合、処理はステップs31に進み、制御ユニット55が、ディスプレイ57を介してユーザに、探索問合せを定義し直すかあるいは変更するかどうかを問い合わせる。ユーザが探索問合せを定義し直すかあるいは変更することを望んだ場合、処理はステップs3に進み、ユーザが次に入力した問合せが同様に処理される。探索を定義し直すことも変更することもない場合、探索結果及びユーザが最初に入力した問合せが破棄され、ユーザ端末59がアイドル状態に戻り、次の問合せの入力を待つ。
【0028】
上記で、この実施形態においてユーザ端末59によって探索がどのように実行されるについて概略的に説明した。次に、探索エンジン53が音韻探索をどのように実行するかについて詳しく説明すると共に、この探索方式を使用する主な理由について簡単に説明する。
【0029】
(分類問題としての情報検索)
従来の分類方式では、試験データをk個のクラスのうちの1つに分類する必要がある。これは、クラスが既知である他のデータに関する知識を使用して行われる。この分類問題では、1からKまでの値をとることのできる「クラス」ランダム変数があると仮定されている。この場合、試験データが属する可能性が最も高いクラスを識別することによって、最適な範疇が見つけられる。クラスkのnk個のデータを生成したN回の生成プロセスによって訓練データが生成されると仮定されている(Σnk=N:K=1〜Kまでの総和)。ベクトル(n1,n2,…,nk)をn、訓練データをD、試験データをxで示した場合、従来の分類問題は、以下の確率を最大にするkの値を求めることである。
【0030】
【数5】
Figure 0003689670
【0031】
分母の第2の項は、より頻繁に発生するクラスにより大きな重みを与える、このクラスの事前確率である。情報検索において、各クラスは単一の訓練データ(すなわち、注釈データ)を有する。したがって、情報検索の場合、上記の数式の右辺の第2の項を無視することができる。同様に、P(x|D)が各クラスごとに同じであり、したがって分子を正規化しているに過ぎないので、分母も無視することができる。したがって、単に各クラスに関する上記の数式の分母上の第1の項のオーダをランク付けすることによって、クラスのオーダーをランク付けすることができる。言い換えれば、全てのクラスについてP(x|dk)(dkはクラスkの訓練データである)を求めてランク付けすることによって、各クラスのオーダーをランク付けすることができる。
【0032】
この実施形態では、試験データxは、入力問合せを表し、クラスkの訓練データ(すなわち、dk)はk番目の注釈を表し、図6aに示されているように問合せと注釈の両方を生成した基本的な統計モデル(M)があると仮定される。一般には、このモデルは3つの未知数、すなわち、モデル構造m、問合せと注釈の両方に関するこのモデルの状態シーケンスsq及びsa、出力分布Cを有する。この場合、出力分布は求めることができる。というのは、出力分布は、入力された音声から音韻ストリングを生成する音声認識システムの特性を具体化したものであるからである。後述のように、出力分布は、公知の音声の大きなデータベースを音声認識システムに適用することによって得ることができ、これを以下では異聴統計と呼ぶことにする。したがって、状態シーケンス及びモデルを上記の確率に導入する(かつ入力問合せ及び注釈に変数qを使用する)と、以下の数式が得られる。
【0033】
【数6】
Figure 0003689670
上式は、ベイズ法を使用して次式のように展開することができる。
【0034】
【数7】
Figure 0003689670
【0035】
上記の数式は複雑に見えるが、標準ダイナミックプログラミングアルゴリズムを使用して1組の状態シーケンスsq及びsaを合計することができる。さらに、各モデルの尤度が同様であると仮定できるので分子と分母の両方の最後の項を無視することができ、各状態シーケンスの尤度も同様であると仮定できるので状態シーケンス項P(s|m,c)を無視することができる。さらに、この基本的なモデル構造が、挿入を受ける問合せと概ね同じ長さを有する標準音韻シーケンスであると仮定することによって、それぞれの異なるモデルの合計を除去することができる。ただし、一般にモデルの標準音韻シーケンスは未知であるので、それぞれの異なるモデルの合計は全ての可能な音韻の合計で置き換えられる。したがって、状態シーケンスの合計を無視した場合、ダイナミックプログラミングアルゴリズム内で評価すべき項は、分子の場合は次式のようになり、
【0036】
【数8】
Figure 0003689670
分母(すなわち、正規化項)の場合は次式のようになる。
【0037】
【数9】
Figure 0003689670
上式で、Npはシステムに知られている音韻の総数であり、ai、qj、及びprは、現在評価中のDPラティスポイントに対応する、それぞれ注釈音韻、問合せ音韻、及びモデル音韻である。数式(4)と(5)を比較するとわかるように、分母上で算出される確率項は分子上でも算出される。したがって、同じダイナミックプログラミングルーチン中に両方の項を累積することができる。より詳細に求められる確率を考慮した場合、P(qj|pr,C)は、異聴統計が与えられた場合に標準音韻prを問合せ音韻qjとして復号する確率であり、P(ai|pr,C)は、異聴統計が与えられた場合に標準音韻prを注釈音韻aiとして復号する確率であり、P(pr|C)は、異聴統計が与えられた場合に無条件で生じる標準音韻prの確率である。
【0038】
上記の項だけでなく、ダイナミックプログラミング計算の各点で、モデルに対する問合せ又は注釈への挿入及び削除に対処する他の項を算出しなければならない。当業者なら理解できるように、問合せへの挿入又はそこからの削除は、注釈への挿入又はそこからの削除に依存せず、また注釈への挿入又は削除は、問合せへの挿入又は削除に依存しない。したがって、これらの追加の項は別々に対処される。モデルに対する注釈への挿入及び削除は、上記の数式(5)で与えられる正規化に関しても考慮しなければならない。
【0039】
当業者には、図4及び図5の説明から、この実施形態では、注釈音韻データと問合せ音韻データの両方をテキスト又は音声から導くことができることが理解されよう。したがって、考慮すべき4つの状況がある。
【0040】
i)注釈と問合せが共にテキストから生成される。
【0041】
ii)注釈がテキストから生成され、問合せが音声から生成される。
【0042】
iii)注釈が音声から生成され、問合せがテキストから生成される。
【0043】
iv)問合せと注釈が共に音声から生成される。
【0044】
第1の状況は、注釈又は問合せの圧縮/展開が行われることはなく、注釈と問合せとの間の比較がそれぞれの音韻シーケンスの簡単なブール比較によって行われる簡単なケースである。
【0045】
第2の状況では、注釈が正しいとみなされ、ダイナミックプログラミングによるアラインメントによって問合せに音韻を挿入し問合せから音韻を削除することが可能になり、2つの音韻間の最適なアラインメントポイントが求められる。このケースを例示するために、図6bには、注釈音韻がテキストから生成された音韻であるときの、注釈音韻シーケンス(a0,a1,a2,…で示されている)と問合せ音韻シーケンス(q0,q1,q2,…で示されている)との間の可能な一致が示されている。点線の矢印で示されているように、注釈音韻a0は問合せ音韻q0と整列させられ、注釈音韻a1は問合せ音韻q2と整列させられ、注釈音韻a2は問合せ音韻q3と整列させられ、注釈音韻a3は問合せ音韻q3と整列させられ、注釈音韻a4は問合せ音韻q4と整列させられる。これらのアラインメントのそれぞれについて、ダイナミックプログラミングルーチンは、上記の数式(4)及び数式(5)で与えられた項を算出する。しかし、この場合、標準モデル音韻シーケンスが既知である(これらのモデル音韻が注釈音韻があるため)のでこれらの数式は簡略化される。具体的には、注釈がモデルであり分子がP(qi|aj,C)に簡略化されるので正規化項は1である。ダイナミックプログラミングルーチンは、これらの復号項だけでなく、注釈に対して問合せに挿入される音韻(たとえば、問合せ音韻q1)と、注釈に対して問合せから削除される音韻(2つの注釈音韻a2及びa3と一致した問合せ音韻q3で表されている)についての関連する挿入及び削除の確率も算出する。
【0046】
上述の第3の状況は、問合せ音韻シーケンスが正しいとみなされ、ダイナミックプログラミングによるアラインメントによって問合せに対する音韻の注釈への挿入及びそこからの削除が可能になることを除いて、第2の状況に類似している。しかし、この状況では、問合せが既知であるので数式(1)から数式(5)を使用することはできない。したがって、この状況では、数式(1)を次式のように変形することができる。
【0047】
【数10】
Figure 0003689670
【0048】
上記の数式(1)の対応する項と同様に、分子及び分母上の第2の項は共に無視することができる。上記の数式(6)の分子の第1の項は、数式(1)の分子上の第1の項を展開したのと同様に展開することができる。しかし、この状況では、問合せがモデルとみなされるので、ダイナミックプログラミングルーチン中に算出される正規化項が1に簡略化され、分子がP(ai|qj,C)に簡略化される。上述の第2の状況のように、ダイナミックプログラミングルーチンは、問合せに対して注釈に挿入される音韻と、問合せに対して注釈から削除される音韻についての関連する挿入及び削除の確率も算出する。
【0049】
最後に、第4の状況では、注釈と問合せが共に音声から生成されたものであるとき、どちらの音韻データシーケンスも、実際に発声されたもののテキストを表す未知の標準モデル音韻シーケンスに対する挿入及び削除を有することができる。このことは図6cに示されている。図6cには、注釈音韻シーケンス(ai、ai+1,ai+2,…で示されている)と、問合せ音韻シーケンス(qj、qj+1,qj+2,…で示されている)と、問合せと注釈の両方によって実際に発声されたものの標準音韻シーケンスを表す音韻シーケンス(pn,pn+1,pn+2,…で示されている)との間の可能な一致点が示されている。図6cに示されているように、この場合、ダイナミックプログラミングによるアラインメント技術は、標準モデル音韻シーケンスに対する、注釈と問合せの両方への音韻の挿入(挿入された音韻ai+3及びqj+1で表されている)と、注釈と問合せの両方からの音韻の削除(共に標準音韻シーケンス中の2つの音韻と整列させられた音韻ai+1及びqj+2で表されている)とを可能にしなければならない。
【0050】
当業者なら理解できるように、計算にモデル音韻シーケンスを導入することによって、アルゴリズムは、問合せの発音変動に対しても注釈の発音変動に対してもより柔軟に対処することができる。
【0051】
上記で、本実施形態が、問合せ音韻シーケンスをデータベース内の注釈音韻シーケンスと整合させることによって情報検索を行う方法について概略的に説明した。本実施形態の動作をさらに理解するために、次に、標準ダイナミックプログラミングアルゴリズムについて簡単に説明し、その後で、この実施形態で使用される特定のアルゴリズムについて詳しく説明する。
【0052】
(DP探索の概要)
当業者には知られているように、ダイナミックプログラミングは、特徴、この実施形態では音韻のシーケンス間の最適なアラインメントポイントを見つけるために使用することのできる技術である。ダイナミックプログラミングではそうするために、各パスが注釈音韻シーケンスと問合せ音韻シーケンスとの間の可能な一致点を表す複数のダイナミックプログラミングパスを同時に伝搬させる。全てのパスが、注釈及び問合せの開始位置にある開始ヌルノードから始まり、注釈及び問合せの終了位置にある終了ヌルノードに到達するまで伝搬する。図7及び図8は、整合が行われる状態と、このパス伝搬とを概略的に示している。特に、図7には、横軸が注釈を表し、縦軸が問合せを表す矩形の座標プロットが示されている。開始ヌルノードφsは左上隅に示され、終了ヌルノードφeは右下隅に示されている。図8に示されているように、注釈の音韻は横軸に沿って示され、問合せの音韻は縦軸に沿って示されている。図8には、各ポイントが注釈の音韻と問合せの音韻との間の可能なアラインメントポイントを表わす、いくつかのラティスポイントも示されている。たとえば、ラティスポイント21は注釈音韻a3と問合せ音韻q1との間の可能なアラインメントポイントを表わしている。図8には、注釈を表す音韻シーケンスと問合せを表す音韻シーケンスとの間の3つの可能な一致点を表し、開始ヌルノードφsから始まりラティスポイントを通って終了ヌルノードφeまで伝搬する、3つのダイナミックプログラミングパスm1,m2,及びm3も示されている。再び上記の数式(2)及び(3)を参照するとわかるように、これらのダイナミックプログラミングパスは上述の互いに異なる状態シーケンスsq及びsaを表している。
【0053】
図7に示されている横軸及び縦軸のそれぞれの異なる長さで表されているように、入力される問合せが注釈の全ての単語を含む必要はない。たとえば、注釈が「タジマハールの写真」である場合、ユーザは問合せ「タジマハール」を入力することによって、データベース29でこの写真を簡単に探索することができる。この状況では、最適なアラインメントパスは、問合せと注釈が一致し始めるまで上部横軸に沿って進む。次いで、ラティスポイントを通って下部横軸に達し、終了ノードで終わる。このことは、図7でパス23によって示されている。しかし、当業者なら理解できるように、問合せ中の各単語はそれらが注釈中に現われるのと同じ順序でなければならず、そうでない場合、ダイナミックプログラミングによるアラインメントは無効になる。
【0054】
注釈音韻シーケンスと問合せ音韻シーケンスとの間の類似性を判定するために、ダイナミックプログラミングプロセスは、それが伝搬させる各ダイナミックプログラミングパスごとにスコアをつける。このスコアは、パスに沿って整列させられる音韻の全体的な類似性に依存する。整合させられているシーケンスからの音韻の削除及びそこへの挿入の数を制限するために、ダイナミックプログラミングプロセスは、ダイナミックプログラミングパスが伝搬する方法にある種の制約を課す。当業者なら理解できるように、このようなダイナミックプログラミング制約は上述の4つの状況に応じて異なる。
【0055】
(DP制約)
注釈と問合せが共にテキストである場合
問合せ音韻データと注釈音韻データが共にテキストから生成されたものである場合、ダイナミックプログラミングによるアラインメントは2つの音韻シーケンス間のブール一致になり、音韻の削除も挿入も不可能である。
【0056】
注釈がテキストであり、問合せが音声である場合
注釈音韻データがテキストから生成され、問合せ音韻データが音声から生成されたデータである場合、注釈からの音韻の削除もそこへの音韻の挿入も不可能であるが、注釈に対する問合せからの音韻の削除及びそこへの挿入は行うことができる。図9aには、注釈がテキストから生成され、問合せが音声から生成された問合せであるときに、この実施形態で使用されるダイナミックプログラミング制約が示されている。図示されているように、注釈音韻aiと問合せ音韻qjとの間のアラインメントを表すラティスポイント(i,j)でダイナミックプログラミングパスが終わる場合、このダイナミックプログラミングパスはラティスポイント(i+1,j)、(i+1,j+1)、及び(i+1,j+2)まで伝搬することができる。ポイント(i+1,j)までの伝搬は、キーボードから入力された注釈と比較して、音声の問合せからの音韻の削除が存在する場合を表している。ポイント(i+1,j+1)までの伝搬は、注釈中の次の音韻と問合せ中の次の音韻との間の簡単な復号が存在する状況を表している。ポイント(i+1,j+2)までの伝搬は、キーボードから入力された注釈と比較して、音声の問合せにおける音韻qj+1の挿入が存在し、注釈音韻ai+1と問合せ音韻qj+2との間の復号が存在する状況を表している。
【0057】
注釈が音声であり、問合せがテキストである場合
注釈が音声から生成され、問合せがテキストから生成された問合せである場合、注釈への音韻の挿入もそこからの音韻の削除も不可能であるが、問合せに対する注釈への音韻の挿入及びそこからの削除は行うことができる。図9bには、注釈が音声から生成され、問合せがテキストから生成された問合せであるときに、この実施形態で使用されるダイナミックプログラミング制約が示されている。図示のように、注釈音韻aiと問合せ音韻qjとの間のアラインメントポイントを表すラティスポイント(i,j)でダイナミックプログラミングパスが終わる場合、このダイナミックプログラミングパスはラティスポイント(i,j+1)、(i+1,j+1)、及び(i+2,j+1)まで伝搬することができる。ポイント(i,j+1)までの伝搬は、キーボードから入力問合せと比較して、音声の注釈からの音韻の削除が存在する場合を表している。ポイント(i+1,j+1)までの伝搬は、注釈中の次の音韻と問合せ中の次の音韻との間の簡単な復号が存在する状況を表している。ポイント(i+2,j+1)までの伝搬は、キーボードから入力問合せと比較して、音声の注釈における音韻ai+1の挿入が存在し、注釈音韻ai+2と問合せ音韻qj+1との間の復号が存在する状況を表している。
【0058】
注釈が音声であり、問合せが音声である場合
注釈と問合せが共に音声から生成されたものである場合、注釈と問合せのそれぞれから互いに音韻を挿入し削除することができる。図11には、注釈音韻と問合せ音韻が共に音声から生成されたものであるときに、この実施形態で使用されるダイナミックプログラミング制約が示されている。具体的には、注釈音韻aiと問合せ音韻qjとの間のアラインメントを表すラティスポイント(i,j)でダイナミックプログラミングパスが終わる場合、このダイナミックプログラミングパスはラティスポイント(i+1,j)、(i+2,j)、(i+3,j)、(i,j+1)、(i+1,j+1)、(i+2,j+1)、(i,j+2)、(i+1,j+2)、及び(i,j+3)まで伝搬することができる。したがって、これらの伝搬によって、実際に発声されたもののテキストに対応する未知の標準モデル音韻シーケンスに対して注釈と問合せの両方への音韻の挿入及びそこからの削除を行うことができる。
【0059】
開始DP制約及び終了DP制約
この実施形態では、ダイナミックプログラミングによるアラインメント動作によって、ダイナミックプログラミングパスはどの注釈音韻からでも始まることができ、かつどの注釈音韻で終わることもできる。その結果、問合せは注釈の全ての単語を含む必要はない。ただし、問合せの各単語は、それらが注釈中に現われるのと同じ順序である必要がある。
【0060】
(DPスコア伝搬)
上述のように、ダイナミックプログラミングプロセスは、パスに沿って整列させた音韻同士の類似性に依存するスコアを各ダイナミックプログラミングパスごとに保つ。したがって、ダイナミックプログラミングプロセスは、ポイント(i,j)で終わるパスをこれらの他の点まで伝搬させる際に、それぞれの伝搬の「コスト」を、ポイント(i,j)で終わるパスの累積スコアに加える。このスコアは、このポイントに関連するストア(SCORE(i,j))に格納される。当業者なら理解できるように、このコストは、上述の挿入確率、削除確率、及び復号確率を含む。具体的には、挿入が存在するときは、累積スコアに、所与の音韻を挿入する確率が掛けられ、削除が存在するときは、累積スコアに、所与の音韻を削除する確率が掛けられ、復号が存在するときは、累積スコアに、所与の音韻を復号する確率が掛けられる。
【0061】
これらの確率を算出できるように、システムは、音韻の全ての可能な組合せの可能性を記憶する。この実施形態では、注釈又は問合せからの音韻の削除は復号と同様に処理される。これは、単に削除を別の音韻として処理することによって行われる。したがって、43個の音韻がシステムに既知である場合、システムは、それぞれの可能な音韻復号及び削除について1つずつ、1892個(=43×44)の復号/削除確率を記憶する。このことは図10に示されている。図10には、音韻/ax/について記憶され、1つの確率として削除音韻(φ)を含む可能な音韻復号が示されている。当業者なら理解できるように、所与の音韻に関する全ての復号確率の合計は1でなければならない。なぜなら、他の確率はないからである。システムは、これらの復号/削除確率だけでなく、それぞれの可能な音韻挿入について1つの、43個の挿入確率を記憶する。後述のように、これらの確率は事前に訓練データから求められる。
【0062】
次に、スコア伝搬を例示するために、いくつかの例を検討する。注釈がテキストであり、問合せが音声である場合、ポイント(i,j)からポイント(i+1,j+2)まで伝搬するパスについては、注釈に対して音韻qj+1が挿入され、注釈音韻ai+1によって問合せ音韻qj+2が復号される。したがって、ポイント(i+1,j+2)まで伝搬されるスコアは次式によって与えられる。
【0063】
S(i+1,j+2)=S(i,j)・PI(qj+1|C)・P(qj+2|ai+1,C) (7)
上式で、PI(qj+1|C)は、音韻qj+1を音声の問合せに挿入する確率であり、P(qj+2|ai+1,C)は、注釈音韻ai+1を問合せ音韻qj+2として復号する確率を表している。
【0064】
注釈と問合せが共に音声から生成されたものである場合、ポイント(i,j)からポイント(i+2,j+1)まで伝搬するときは、問合せに対して注釈音韻ai+1が挿入され、注釈音韻ai+2と問合せ音韻qj+1との間の復号が行われる。したがって、ポイント(i+2,j+1)まで伝搬されるスコアは次式によって与えられる。
【0065】
【数11】
Figure 0003689670
【0066】
当業者なら理解できるように、このパス伝搬時には、いくつかのパスが同じラティスポイントで交わる。この実施形態では、交わるパスに関連するスコアが単に合計される。あるいは、スコア同士を比較することができ、最良のスコアを有するパスを継続し、それに対して他のパスは破棄される。しかし、このことはこの実施形態において必須ではない。というのは、ダイナミックプログラミングプロセスで重要なのは、問合せの音韻データと注釈の音韻データとの間の類似性を表すスコアを求めることだけであるからである。ダイナミックプログラミングプロセスにおいて、2つの音韻間の最適なアラインメントポイントを見つけることは重要ではない。
【0067】
問合せと注釈が共に音声から生成されたものである場合、全てのパスが終了ノードφeまで伝搬していき、かつ問合せと現在の注釈との間の類似性の総スコアが求められた後、システムは、DPプロセス中に累積された正規化項を使用してこのスコアを正規化する。次いで、システムは問合せと次の注釈を同様に比較する。問合せが全ての注釈と一致した後、各注釈のスコアがランク付けされ、このランク付けに基づいて、システムは、入力問合せに最も近い注釈をユーザに出力する。
【0068】
(DP探索の詳細な説明)
次に、問合せ音韻シーケンスを注釈音韻シーケンスと整合させる際にダイナミックプログミング検索をどのように行うかについて詳しく説明する。図12を参照するとわかるように、ステップs101で、システムはダイナミックプログラミングスコアを初期化する。次いでステップs103で、システムはヌル開始ノード(φs)から全ての始点まで伝搬する。次いでステップs105で、システムは、上述のダイナミックプログラミング制約を使用して各ダイナミックプログラミングパスを全ての始点から全ての可能な終点まで伝搬させる。最後にステップs107で、システムは、終点で終わるパスをヌル終了ノード(φe)まで伝搬させる。
【0069】
図13には、各ダイナミックプログラミングパスをヌル開始ノード(φs)から、ダイナミックプログラミング制約によって定義される全ての可能な開始点まで伝搬させる際にステップs103で使用される処理ステップが詳しく示されている。一方の制約は、ダイナミックプログラミングパスが、あらゆる注釈音韻から始まることができるということであり、他方の制約は、問合せ音韻シーケンスにおける許容ホップ数を定義するものであり、問合せがテキストであるかそれとも音声であるかに依存する。具体的には、問合せがテキストから生成された問合せである場合、開始点は、探索空間内のラティスポイントの第1行、すなわち、i=0からNann−1までのポイント(i,0)を含み、問合せが音声から生成された問合せである場合、開始点は、探索空間内のラティスポイントの最初の4行、すなわち、i=0からNann−1までのポイント(i,0)、(i,1)、(i,2)、及び(i,3)を含む。
【0070】
次に、これを行う方法について、図13に示されている各ステップを参照して説明する。図示されているように、ステップs111で、システムは、入力問合せがテキスト問合せであるかどうかを判定する。そうである場合、処理はステップs113に進み、システムは、変数mxの値を、問合せがテキストであるときの問合せ音韻シーケンスにおける最大許容「ホップ」数を定義する1に設定する。次いで、処理はステップs115、s117、及びs119に進む。これらのステップは、i=0からNann−1までについて、ヌル開始ノードからラティスポイント(i,0)に至る遷移スコアを、ポイント(i,0)に関連するスコア(SCORE(i,0))に加えることによって、探索空間の第1行中の各ラティスポイントからダイナミックプログラミングパスを開始するように動作することができる。問合せがテキストであるときは、図12に示されているステップs103での処理が終了し、次いで処理はステップs105に進む。
【0071】
システムは、問合せがテキストではなく、したがって音声入力から生成されたものであるとステップs111で判定した場合、ステップs121に進む。ステップs121で、mxは、mxhops、すなわち、ダイナミックプログラミング制約による最大許容「ホップ」数よりも1だけ大きな値を有する定数に設定される。図9及び図10に示されているように、問合せが音声である場合、パスは、問合せ音韻シーケンスに沿って最高で音韻3つ分だけ離れた位置にある問合せ音韻までジャンプすることができる。したがって、この実施形態では、mxhopsの値は4であり、問合せ中に音韻が4つ以上ある場合、変数mxは4に等しい値に設定され、そうでない場合、mxは問合せ中の音韻の数に等しい値に設定される。次いで、処理はステップs123、s125、s127、s129、及びs131に進む。これらのステップは、対応するラティスポイントに関連するスコアに対応する遷移確率を加えることによって探索空間の最初の4行中の各ラティスポイントからダイナミックプログラミングパスを開始するよう動作することができる。問合せが音声入力から生成された問合せであるときには、図12に示されているステップs103の処理が終了し、次いで処理はステップs105に進む。
【0072】
この実施形態では、システムは、ラスタのような技術で探索空間内のラティスポイントを1列ずつ処理することによって、ステップs105で、各ダイナミックプログラミングパスを開始点から終点まで伝搬させる。このラスタ処理動作を制御するのに用いられる制御アルゴリズムを図14に示す。ステップs151で、システムは注釈音韻ループポインタiを注釈中の音韻の数(Nann)と比較する。最初は、注釈音韻ループポインタiはゼロに設定され、したがって、処理は最初にステップs153に進み、問合せ中の音韻の総数(Nquery)に対する問合せ音韻ループポインタjについての同様な比較が行われる。最初は、ループポインタjもゼロに設定され、したがって、処理はステップs155に進み、システムは、上述のダイナミックプログラミング制約を使用して、点(i,j)で終了するパスを伝搬させる。ステップs155でシステムが各パスを伝搬させる方法について以下に詳しく説明する。ステップs155の後、ステップs157でループポインタjが1だけ増分され、処理はステップs153に戻る。問合せ中の全ての音韻が処理され(それによってラティスポイントの現在の列が処理され)た後、処理はステップs159に進み、問合せ音韻ループポインタjがゼロにリセットされ、注釈音韻ループポインタiが1だけ増分される。次いで、処理はステップs151に戻り、ラティスポイントの次の列に対して同様な手順が実行される。ラティスポイントの最後の列が処理された後、処理はステップs161に進み、注釈音韻ループポインタiがゼロにリセットされ、図12に示されているステップs105の処理が終了する。
【0073】
図15には、各パスを終点から終了ヌルノードφeまで伝搬する際に、図12に示されているステップs107で使用される各処理ステップがより詳しく示されている。開始ヌルノードφsからの伝搬に関して、「終点」であるラティスポイントは、問合せがテキストであるかそれとも音声であるかに依存するダイナミックプログラミング制約によって定義される。さらに、この実施形態では、ダイナミックプログラミング制約によって、ダイナミックプログラミングパスは、注釈音韻シーケンスに沿ったあらゆる点において注釈から出ることができる。したがって、問合せがテキストである場合、システムは、ラティスポイントの最後の行、すなわち、i=0からNann−1までの各ポイント(i,Nquery−1)で終わるダイナミックプログラミングパスを終了ヌルノードφeまで伝搬させる。しかし、問合せが音声から生成された問合せである場合、システムは、ラティスポイントの最後の4行、すなわち、i=0からNann−1までのポイント(i,Nquery−4)、(i,Nquery−3)、(i,Nquery−2)、及び(i,Nquery−1)まで伝搬する任意のパスを終了ヌルノードφeまで伝搬させる。
【0074】
図15に示されているように、このプロセスはステップs171から始まり、システムは、問合せがテキストであるかどうかを判定する。テキストである場合、処理はステップs173に進み、問合せ音韻ループポインタjがNquery−1に設定される。次いで、処理はステップs175に進み、注釈音韻ループポインタiが注釈中の音韻数(Nann)と比較される。最初は、注釈音韻ループポインタiがゼロに設定され、したがって、処理はステップs177に進み、システムはポイント(i,Nquery−1)からヌル終了ノードφeまでの遷移スコアを算出する。次いで、この遷移スコアは、SCORE(i,Nquery−1)に格納されている、ポイント(i,Nquery−1)で終わるパスの累積スコアと組み合わされる。上述のように、この実施形態では、遷移スコア及び累積スコアは確率に基づくものであり、確率同士を掛け合わせることによって組み合わされる。しかし、この実施形態では、足し算を実行する必要をなくすと共に、高い浮動小数点精度の使用を回避するために、システムは遷移スコア及び累積スコア用に対数確率を使用する。したがって、ステップs179で、システムは、ポイント(i,Nquery−1)で終わるパスの累積スコアを、ステップs177で算出された遷移スコアに足し、この結果が一時ストアTEMPENDSCOREにコピーされる。
【0075】
上述のように、2つ以上のダイナミックプログラミングパスが同じ点で交わる場合、各パスの累積スコアが合計される。したがって、ログ確率が使用されるので、互いに交わるパスに関連するスコアが有効に確率に変換され、合計され、次いでログ確率に再変換される。この実施形態では、この動作を「対数足し算」動作と呼ぶ。これは公知の技術であり、たとえば、「Automatic Speech Recognition. The Development of the (Sphinx) System」、Lee,Kai-Fu著、Kluwer Academic Publishers発行、1989年、28ページ〜29ページ)と題する文献に記載されている。
【0076】
ポイント(i,Nquery−1)からヌル終了ノードまで伝搬するパスが他のダイナミックプログラミングパスと交わるので、システムはTEMPENDSCOREと、終了ノードに格納されているスコア(ENDSCORE)との対数足し算を実行し、結果がENDSCOREに格納される。次いで、処理はステップs183に進み、注釈音韻ループポインタiが増分される。次いで、処理はステップs175に戻り、ラティスポイントの最後の行における次のラティスポイントに対して同様なプロセスが実行される。最後の行における全てのラティスポイントがこのように処理された後、図12に示されているステップs107で実行される処理が終了する。
【0077】
問合せはテキストではないとステップs171でシステムが判定した場合、処理はステップs185に進み、問合せ音韻ループポインタjが、問合せ中の音韻の数からmxhopsを引いた値、Nquery−4に設定される。次いで、処理はステップs187に進み、システムは、注釈音韻ループポインタiが注釈中の音韻の数(Nann)よりも小さいかどうかを確認する。最初は、注釈音韻ループポインタiはゼロに設定され、したがって、処理はステップs189に進み、システムは、問合せ音韻ループポインタjが問合せ中の音韻の数(Nquery)よりも小さいかどうかを確認する。最初は、問合せ音韻ループポインタjは問合せ中の音韻の数よりも小さく、処理はステップs191に進み、システムはラティスポイント(i,j)からヌル終了ノードφeまでの遷移スコアを算出する。次いでステップs193で、この遷移スコアが、ポイント(i,j)で終わるパスの累積スコアに足され、結果が一時スコアTEMPENDSCOREにコピーされる。次いで、処理はステップs195に進み、システムがTEMPENDSCOREとENDSCOREの対数足し算を実行し、結果がENDSCOREに格納される。次いで、処理はステップs197に進み、問合せ音韻ループポインタjが1だけ増分され、処理はステップs189に戻る。次いで、問合せ音韻ループポインタjが増分され、したがって問合せ中の音韻の数(Nquery)に等しくなるまで上記の各ステップが繰り返される。次いで、処理はステップs199に進み、問合せ音韻ループポインタjがNquery−4にリセットされ、注釈音韻ループポインタiが1だけ増分される。次いで、処理はステップs187に戻る。次いで、探索空間の最後の4行における全てのラティスポイントが処理されるまで上記の各処理ステップが繰り返され、その後、図12に示されているステップs107の処理が終了する。
【0078】
伝搬
図14に示されているステップs155で、システムは、上述のダイナミックプログラミング制約を使用して、ラティスポイント(i,j)で終わるパスを伝搬する。図16は、この伝搬ステップを実行する際に使用される各処理ステップを示すフローチャートである。図示されているように、ステップs211で、システムは2つの変数mxi及びmxjの値を設定し、注釈音韻ループポインタi2及び問合せ音韻ループポインタj2を初期化する。ループポインタi2及びj2は、ポイント(i,j)で終わるパスが伝搬することのできる全てのラティスポイントを処理するために設けられ、変数mxi及びmxjは、i2及びj2が、ダイナミックプログラミング制約で許容される値しかとれなくするのに用いられる。具体的には、mxiは、mxhopsが注釈中の音韻の数以下であるかぎりiとmxhopsを足した値に設定され、そうでない場合は注釈中の音韻の数(Nann)に等しい値に設定される。同様に、mxjは、mxhopsが問合せの音韻の数以下であるかぎりjとmxhopsを足した値に設定され、そうでない場合は問合せ中の音韻の数(Nquery)に等しい値に設定される。最後にステップs211で、システムは、注釈音韻ループポインタi2を注釈音韻ループポインタiの現在の値に等しい値に初期化し、問合せ音韻ループポインタj2を問合せ音韻ループポインタjの現在の値に等しい値に初期化する。
【0079】
システムによって使用されるダイナミックプログラミング制約は、注釈がテキストであるか、それとも音声であるかと、問合せがテキストであるか、それとも音声であるかに依存するので、次のステップでは、注釈及び問合せがどのように生成されたかが判定される。これは、判定ブロックs213、s215、及びs217によって行われる。注釈と問合せが共に音声から生成されたものである場合、ラティスポイント(i,j)で終わるダイナミックプログラミングパスは、図11に示されている他のポイントまで伝搬することができ、処理ステップs219からs235は、このパスをこれらのポイントまで伝搬させるように動作する。特にステップs219で、システムは注釈音韻ループポインタi2を変数mxiと比較する。ステップs211で、注釈音韻ループポインタi2がiに設定され、mxiがi+4に設定されるので、処理はステップs221に進み、問合せ音韻ループポインタj2について同様な比較が行われる。次いで、処理はステップs223に進み、パスが同じラティスポイント(i,j)に留まらないようにされる。これは、最初は、i2がiに等しくj2がjに等しいからである。したがって、処理は最初にステップs225に進み、問合せ音韻ループポインタj2が1だけ増分される。
【0080】
次いで、処理はステップs221に戻り、j2の増分された値がmxjと比較される。j2がmxjよりも小さい場合、処理はステップs223に戻り、ステップs227に進む。ステップs227は、注釈音韻シーケンス及び問合せ音韻シーケンスの両方に沿って大き過ぎるホップが起こるのを防止するように動作することができる。これは、i2+j2がi+j+mxhopsよりも小さい場合にのみパスを伝搬させることによって行われる。これにより、図11に示されている三角形の1組のポイントのみが処理される。この条件が満たされるかぎり、処理は次いでステップs229に進み、システムはラティスポイント(i,j)からラティスポイント(i2,j2)までの遷移スコア(TRANSCORE)を算出する。次いで、処理はステップs231に進み、システムは、ステップs229で求められた遷移スコアを、ポイント(i,j)について記憶されている累積スコアに足し、これを一時ストアTEMPSCOREにコピーする。上述のように、この実施形態では、2つ以上のダイナミックプログラミングパスが同じラティスポイントで交わる場合、各パスに関連する累積スコアが合計される。したがって、ステップs233で、システムはTEMPSCOREと、すでにポイント(i2,j2)について記憶されている累積スコアとの対数足し算を実行し、結果がSCORE(i2,j2)に格納される。次いで、処理はステップs225に戻り、問合せ音韻ループポインタj2が1だけ増分され、処理はステップs221に戻る。問合せ音韻ループポインタj2がmxjの値に達した後、処理はステップs235に進み、問合せ音韻ループポインタj2が初期値jにリセットされ、注釈音韻ループポインタi2が1だけ増分される。次いで、処理はステップs219に進み、図11に示されているラティスポイントの次の列に対して再び開始される。パスがポイント(i,j)から、図11に示されている他の全てのポイントまで伝搬した後、処理は終了する。
【0081】
注釈がテキストであり問合せが音声であると判定ブロックs213及びs215で判定された場合、処理はステップs241からs251に進む。これらのステップは、ポイント(i,j)で終わるパスを、図9aに示されている各ポイントまで伝搬させるように動作することができる。具体的には、ステップs241で、システムは、注釈音韻ループポインタiが注釈中の最後の音韻を指し示しているかどうかを判定する。指し示している場合、注釈にはもはや音韻がなく、処理は終了する。注釈音韻ループポインタiがNann−1よりも小さい場合、処理はステップs243に進み、問合せ音韻ループポインタj2がmxjと比較される。最初は、j2はmxjよりも小さく、したがって、処理はステップs245に進み、システムはポイント(i,j)からポイント(i+1,j2)までの遷移スコア(TRANSCORE)を算出する。次いで、この遷移スコアは、ポイント(i,j)で終わるパスに関連する累積スコアに足され、結果が一時スコアTEMPSCOREにコピーされる。次いでステップs249で、システムはTEMPSCOREと、ポイント(i+1,j2)に関連する累積スコアとの対数足し算を実行し、結果をSCORE(i+1,j2)に格納し、ラティスポイント(i+1,j2)で交わるパスのパススコアが確実に組み合わされるようにする。次いで、処理はステップs251に進み、問合せ音韻ループポインタj2が1だけ増分され、次いで処理はステップs243に戻る。ポイント(i,j)で終わるパスが、図9aに示されている他のポイントまで伝搬した後、j2がmxjに等しくなり、ポイント(i,j)で終わるパスの伝搬が終了する。
【0082】
注釈が音声であり、問合せがテキストであると判定ブロックs213及びs217で判定された場合、処理は、図16bに示されているステップs255からs265に進む。これらのステップは、ポイント(i,j)で終わるパスを、図9bに示されている他のポイントまで伝搬させるように動作することができる。これを行うには、まずステップs255で、問合せ音韻ループポインタjが、問合せを表す音韻シーケンス中の最後の音韻を指し示していないことを確認する。指し示していない場合、処理はステップs257に進み、注釈音韻ループポインタi2がmxiと比較される。最初は、i2の値はiであり、注釈音韻iが、注釈を表す音韻シーケンスの終了位置にないかぎり、処理はステップs259に進み、ポイント(i,j)からポイント(i2,j+1)まで移動する遷移スコアが算出される。次いで、処理はステップs261に進み、この遷移スコアが、ポインタ(i,j)で終わるパスの累積スコアに足され、結果が一時スコアTEMPSCOREにコピーされる。次いで、処理はステップs263に進み、TEMPSCOREと、すでにポイント(i2,j+1)について記憶されている累積スコアとの対数足し算が行われ、結果がSCORE(i2,j+1)に格納される。次いで、処理はステップs265に進み、注釈音韻ループポインタi2が1だけ増分され、処理はステップs257に戻る。次いで、ポイント(i,j)で終わるパスが、図9bに示されている他の各ポイントまで伝搬するまで、これらの処理ステップが繰り返される。この時点で、ポイント(i,j)のパスの伝搬が完了し、処理が終了する。
【0083】
最後に、注釈と問合せが共にテキストであると判定ブロックs213及びs215で判定された場合、処理は、図16bに示されているステップs271からs279に進む。これらのステップは、もちろん、他の注釈音韻があり、かつ他の問合せ音韻があるかぎり、ポイント(i,j)で終わるパスをポイント(i+1,j+1)まで伝搬させるように動作することができる。具体的には、ステップs271で、システムは、注釈音韻ループポインタiが最後の注釈音韻を指し示していないことを確認する。指し示していない場合、処理はステップs273に進み、問合せ音韻シーケンスに対して問合せ音韻ループポインタjの同様な検査が行われる。もはや注釈音韻がないか、あるいはもはや問合せ音韻がない場合、処理は終了する。しかし、他の注釈音韻があり、かつ他の問合せ音韻がある場合、処理はステップs275に進み、システムはポイント(i,j)からポイント(i+1,j+1)までの遷移スコアを算出する。次いで、ステップs277で、この遷移スコアが、ポイント(i,j)について記憶されている累積スコアに足され、結果が一時スコアTEMPSCOREに格納される。次いで、処理はステップs279に進み、TEMPSCOREと、すでにポイント(i+1,j+1)について記憶されている累積スコアとの対数足し算が行われ、結果がSCORE(i+1,j+1)にコピーされる。当業者なら理解できるように、この実施形態でステップs277及びs279が必要であるのは、ダイナミックプログラミング制約によって、パスが、注釈を表す音韻シーケンス内の任意の音韻から始まることができ、したがって、事前にポイント(i+1,J+1)にスコアを関連付けておくことができるからである。ステップs279の後で、ポイント(i,j)の伝搬が完了し、処理が終了する。
【0084】
遷移スコア
図12に示されているステップs103、s105、及びs107では、ダイナミックプログラミングパスを伝搬し、この伝搬中に、ステップs127、s117、s177、s191、s229、s245、s259、及びs275であるポイントから別のポイントまでの遷移スコアが算出される。これらのステップで、システムは、遷移の始点及び終点に対する適切な挿入確率、削除確率、及び復号確率を算出する。次に、この実施形態でこのことがどのように行われるかについて図17及び図18を参照して説明する。
【0085】
具体的には、図17は、ラティスポイント(i,j)からラティスポイント(i2,j2)まで伝搬するパスの遷移スコアを算出する際に使用される一般的な処理ステップを示す流れ図である。ステップs291で、システムは、ポイント(i,j)とポイント(i2,j2)との間に挿入されている各注釈音韻について、挿入されている音韻の挿入に関するスコア(上述の確率の対数PI()に過ぎない)を算出し、これを適切なストアINSERTSCOREに足す。次いで、処理はステップs293に進み、システムは、ポイント(i,j)とポイント(i2,j2)との間に挿入されている各問合せ音韻について同様な計算を行い、これをINSERTSCOREに足す。しかし、(i,j)が開始ヌルノードφsであるか、あるいは(i2,j2)が終了ヌルノードφeである場合、システムは、挿入されている注釈音韻の挿入確率を算出しない(どの注釈音韻からパスを始めてもあるいはどの注釈音韻でパスを終らせてもペナルティが生じないため)。ただし、システムは、あらゆる挿入されている問合せ音韻の挿入確率は算出する。上述のように、算出されるスコアは、対数に基づく確率であり、したがって、INSERTSCOREにスコアを足すことは、対応する挿入確率の掛け算に対応する。次いで、処理はステップs295に進み、システムが、ポイント(i,j)からポイント(i2,j2)まで伝搬する際のあらゆる削除及び/又は復号に関するスコアを算出し、これらのスコアが適切なストアDELSCOREに足され格納される。次いで、処理はステップs297に進み、システムはINSERTSCORE及びDELSCOREを足し、結果をTRANSCOREにコピーする。
【0086】
次に、ポイント(i,j)からポイント(i2,j2)まで伝搬する際の削除スコア及び/又は復号ストアを判定するためにステップs295で実行される処理について図18を参照して詳しく説明する。可能な削除及び復号は、注釈がテキストから生成された注釈であるかどうかと、問合せがテキストから生成された問合せであるかどうかに依存するので、注釈がテキストであるかそれとも音声であるかと、問合せがテキストであるかそれとも音声であるかが判定ブロックs301、s303、及びs305で判定される。注釈と問合せが共にテキストであることがこれらの判定ブロックで判定された場合、削除は存在せず、ステップs307でブール一致によって2つの音韻の復号が実行される。注釈音韻ai2が問合せ音韻qj2と同じである場合、処理はステップs309に進み、TRANSCOREがlog[1](すなわち、ゼロ)に等しい値に設定され、処理は終了する。しかし、注釈音韻ai2が問合せ音韻qj2とは異なる場合、処理はステップs311に進み、TRANSCOREが、log[0]のシステム近似である非常に大きな負の数に設定され、次いで処理が終了する。
【0087】
注釈が音声であり、問合せがテキストであると判定ブロックs301及びs305で判定された場合、上述の数式(4)の簡略化された形態を使用して遷移スコアが求められる。この場合、処理はステップs303からステップs313に進み、システムは、注釈ループポインタi2が注釈ループポインタiに等しいかどうかを判定する。等しい場合、このことは、パスがポイント(i,j)からポイント(i,j+1)まで伝搬したことを意味する。したがって、問合せ音韻シーケンスに対して注釈音韻シーケンスから問合せ音韻qj+1が削除されている。したがって、ステップs317で、システムは、音韻qj+1を削除する対数確率(すなわち、log P(φ|qj+1,C)をDELSCOREにコピーし、処理が終了する。ステップs313で、システムは、i2がiに等しくないと判定した場合、ポイント(i,j)で終わるパスの、ポイント(i+1,j+1)、(i+2,j+1)、(i+3,j+1)のうちの1つへの伝搬を検討する。この場合、注釈音韻ai2と問合せ音韻qj+1との間に削除は存在せず、挿入及び復号のみが存在する。したがって、ステップs315で、システムは、問合せ音韻qj+1を注釈音韻ai2として復号する対数確率(すなわち、log P(ai2|qj+1,C))をDELSCOREにコピーし、処理が終了する。
【0088】
注釈がテキストであり、問合せが音声であると判定ブロックs301及びs305で判定された場合、上述の数式(4)の簡略化された形態を使用して遷移スコアが求められる。この場合、処理はステップs305からステップs319に進み、システムは、問合せ音韻ループポイントj2が問合せ音韻ループポインタjに等しいかどうかを判定する。等しい場合、システムはポイント(i,j)からポイント(i+1,j)までの遷移スコアを算出する。この場合、注釈音韻シーケンスに対して問合せ音韻シーケンスから注釈音韻ai+1が削除されている。したがって、ステップs321で、システムは、音韻ai+1を削除する対数確率(すなわち、log P(φ|ai+1,C))を求めてDELSCOREにコピーし、処理が終了する。ステップs319で、システムは、問合せ音韻ループポインタj2が問合せ音韻ループポインタjに等しくないと判定した場合、ポイント(i,j)からポイント(i+1,j+1)、(i+1,j+2)、(i+1,j+3)のうちの1つへの遷移スコアを求める。この場合、注釈音韻ai+1と問合せ音韻qi2との間に削除は存在せず、挿入及び復号のみが存在する。したがって、ステップs323で、システムは、注釈音韻ai+1を問合せ音韻qi2として復号する対数確率(すなわち、log P(qi2|ai+1,C))をDELSCOREにコピーし、処理が終了する。
【0089】
注釈と問合せが共に音声から生成されたものであると判定ブロックs301及びs303で判定された場合、上記の数式(4)を使用して遷移スコアが求められる。この場合、処理はステップs303からステップs325に進み、システムは、注釈ループポインタi2が注釈ループポインタiに等しいかどうかを判定する。等しい場合、処理はステップs327に進み、音韻ループポインタrが1に初期化される。音韻ポインタrは、上記の数式(4)の計算時に、システムに知られている各音韻を処理するのに用いられる。次いで、処理はステップs329に進み、システムは音韻ポインタrを、システムに知られている音韻の数Nphonemes(この実施形態では43に等しい)と比較する。最初は、ステップs327で、rが1に設定され、したがって、処理はステップs331に進み、システムは、音韻prが発生する対数確率(すなわち、log P(pr|C))を求め、これを一時スコアTEMPDELSCOREにコピーする。注釈ループポインタi2が注釈ループポインタiに等しい場合、システムは、ポイント(i,j)で終わるパスをポイント(i,j+1)、(i,j+2)、(i,j+3)のうちの1つまで伝搬させる。したがって、問合せには、注釈にはない音韻が存在する。したがって、ステップs333で、システムは、注釈から音韻prを削除する対数確率(すなわち、log P(φ|pr,C))をTEMPDELSCOREに足す。次いで、処理はステップs335に進み、システムは、音韻prを問合せ音韻qi2として復号する対数確率(すなわち、log P(qi2|pr,C))をTEMPDELSCOREに足す。次いで、処理はステップs337に進み、TEMPDELSCOREとDELSCOREの対数足し算が実行され、結果がDELSCOREに格納される。次いで、処理はステップs339に進み、音韻ループポインタrが1だけ増分され、次いで処理はステップs329に戻り、システムに知られている次の音韻について同様な処理が実行される。システムに知られている43個の音韻のそれぞれについてこの計算が実行された後、処理は終了する。
【0090】
ステップs325で、i2がiに等しくないとシステムが判定した場合、処理がステップs341に進み、システムは、問合せ音韻ループポインタj2が問合せ音韻ループポイントjに等しいかどうかを判定する。等しい場合、処理はステップs343に進み、音韻ループポインタが1に初期設定される。次いで、処理はステップs345に進み、音韻ループポインタrがシステムに知られている音韻の総数(Nphonemes)と比較される。最初は、ステップs343で、rが1に設定され、したがって、処理はステップs347に進み、音韻prが発生する対数確率が求められ、一時ストアTEMPDELSCOREにコピーされる。次いで、処理はステップs349に進み、システムは、音韻prを注釈音韻ai2として復号する対数確率を求め、これをTEMPDELSCOREに足す。問合せループポインタj2が問合せループポインタjに等しい場合、システムは、ポイント(i,j)で終わるパスをポイント(i+1,j)、(i+2,j)、(i+3,j)のうちの1つまで伝搬させる。したがって、注釈には、問合せにはない音韻が存在する。したがって、ステップs351で、システムは、問合せから音韻prを削除する対数確率を求め、これをTEMPDELSCOREに足す。次いで、処理はステップs353に進み、システムは、TEMPDELSCOREとDELSCOREの対数足し算を実行し、結果をDELSCOREに格納する。次いでステップs355で、音韻ループポインタrが1だけ増分され、処理はステップs345に戻る。システムに知られている全ての音韻について処理ステップs347からs353が実行された後、処理は終了する。
【0091】
ステップs341で、問合せ音韻ループポインタj2は問合せ音韻ループポインタjに等しくないとシステムが判定した場合、処理はステップs357に進み、音韻ループポインタrが1に初期設定される。次いで、処理はステップs359に進み、システムは音韻カウンタrを、システムに知られている音韻の数(Nphonemes)と比較する。最初ステップs357で、rが1に設定され、したがって、処理はステップs361に進み、システムは、発生する音韻prの対数確率を求め、これを一時スコアTEMPDELSCOREにコピーする。問合せ音韻ループポインタj2が問合せ音韻ループポインタjに等しくない場合、システムは、ポイント(i,j)で終わるパスをポイント(i+1,j+1)、(i+1,j+2)、及び(i+2,j+1)のうちの1つに伝搬させる。したがって、削除は存在せず、挿入及び復号のみが存在する。したがって、処理はステップs363に進み、音韻prを注釈音韻ai2として復号する対数確率がTEMPDELSCOREに足される。次いで、処理はステップs365に進み、音韻prを問合せ音韻qi2として復号する対数確率が求められ、TEMPDELSCOREに足される。次いで、システムはステップs367で、TEMPDELSCOREとDELSCOREの対数足し算を行い、結果をDELSCOREに格納する。次いでステップs369で、音韻カウンタrが増分し、処理はステップs359に戻る。システムに知られている全ての音韻について処理ステップs361からs367が実行されると、処理は終了する。
【0092】
(正規化)
ダイナミックプログラミングプロセスの上記の説明では、上記の数式(3)の分母部分のみを扱った。したがって、入力問合せが、データベース内の注釈音韻シーケンスと一致した後、数式(3)の分母によって定義される正規化項によりこの一致に関するスコア(ENDSCOREに格納されている)を正規化しなければならない。上述のように、分母項の計算は、分子の計算と同時に、すなわち上述のダイナミックプログラミングルーチンにおいて行われる。これは、分子と分母を比較するとわかるように、分子に必要な項は全て分子上で算出されるからである。しかし、注釈又は問合せがテキストから生成されたものであるとき、正規化が行われないことに留意されたい。この実施形態では、より長い注釈により大きな重みが与えられることがなく、共通の音韻を含む注釈に、共通でない音韻を含む注釈よりも大きな重みが与えられることがないように正規化が行われる。これは、注釈が基本モデルとどの程度一致しているかに依存する項によりスコアを正規化することによって行われる。
【0093】
(訓練)
上記の実施形態では、システムは、1892個の復号/削除確率及び43個の挿入確率(上記では異聴統計と呼ばれる)を使用して、音韻整合動作における各ダイナミックプログラミングパスのスコアを求めた。この実施形態では、これらの確率は事前に訓練セッション中に求められ、メモリ(図示せず)に格納される。具体的には、この訓練セッション中に、音声認識システムを使用して音声の音韻復号が2つの方法で行われる。第1の方法では、音声認識システムに音声と、実際に発声された単語との両方が与えられる。したがって、音声認識ユニットはこの情報を使用して、発声された単語の標準音韻シーケンスを生成し、音韻の理想的な復号を得ることができる。次いで、音声認識システムを使用して同じ音声が復号されるが、今回は実際に発声された単語は不明である(これを以下では自由復号と呼ぶ)。自由復号から生成される音韻シーケンスは、標準音韻シーケンスと以下の点で異なる。
【0094】
i)自由復号では、誤りが起こり、標準シーケンスに存在しない音韻が復号に挿入されるか、あるいは標準シーケンスに存在しない音韻が復号で省略される可能性がある。
【0095】
ii)ある音韻が別の音韻と混同される可能性がある。
【0096】
iii)音声認識システムが音声を完全に復号する場合でも、会話の発音と標準発音が異なり、たとえば、会話では、単語「and」(標準形式は/ae/ /n/ /d/及び/ax/ /n/ /d/である)が/ax/ /n/と短縮されることが多く、場合によっては/n/になるため、自由復号が標準復号と異なる可能性がある。
【0097】
したがって、多数の発声がその標準形及び自由復号形に復号される場合、ダイナミックプログラミング法を使用してこの2つの形式を整列させることができる。これにより、音韻が標準ではpであるべきときに復号されたものdのカウント値が得られる。このような訓練結果から、上記の復号確率、削除確率、及び挿入確率を以下のように近似することができる。
【0098】
音韻dが挿入である確率は次式によって与えられる。
【0099】
【数12】
Figure 0003689670
上式で、Idは、自動音声認識システムが音韻dを挿入した回数であり、no dは、標準シーケンスに対して挿入される復号された音韻の総数である。
【0100】
音韻pを音韻dとして復号する確率は次式によって与えられる。
【0101】
【数13】
Figure 0003689670
上式で、cdpは、自動音声認識システムが、dがpであるべきときにdを復号した回数であり、npは、自動音声認識システムが、pであるべきときに任意のもの(削除を含む)を復号した回数である。
【0102】
音韻pが復号されるべきときに何も復号しない(すなわち、削除がある)確率は次式によって与えられる。
【0103】
【数14】
Figure 0003689670
上式で、Opは、自動音声認識システムが、pを復号すべきときに何も復号しなかった回数であり、npは上記と同様である。
【0104】
(第2の実施形態)
第1の実施形態では、入力された単一の問合せを、いくつかの格納されている注釈と比較した。この実施形態では、入力された2つの音声問合せが、格納されている注釈と比較される。この実施形態は、問合せの入力が雑音の多い環境で行われる用途、又は比較的高い精度が必要になる用途に適している。この実施形態が、問合せのどれかがテキストである状況には適していないことは明確である。というのは、この場合、他の問合せが冗長になるからである。したがって、システムは以下の2つの状況に対処することができる。
【0105】
(i)入力される2つの問合せが共に音声から生成され、注釈が音声から生成される。
【0106】
(ii)入力される2つの問合せが共に音声から生成され、注釈がテキストから生成される。
【0107】
この実施形態では、2つの問合せを同時に注釈に整合させるようになっていることを除いて、第1の実施形態で使用したダイナミックプログラミングアルゴリズムと同様なアルゴリズムを使用する。図19は、一方の次元が2つの問合せのそれぞれを示し、他方の次元が注釈を示す、三次元座標プロットである。図19は、本実施形態の動的プログラミングアルゴリズムによって処理される点の三次元ラティスを示す。このアルゴリズムは、第1の実施形態で使用されたのと同じ遷移スコア、ダイナミックプログラミング制約、及び異聴統計(すなわち、音韻確率)を使用して、各パスを、図19に示されているプロット中のラティス点の三次元ネットワークを介してパスを伝搬させ、スコアをつける。
【0108】
次に、この三次元ダイナミックプログラミングプロセスについて詳しく説明する。当業者には、図20から図25を図13から図19と比較すると理解されるように、この三次元ダイナミックプログラミングアルゴリズムは、余分の問合せを考慮するために他のいくつかの制御ループが追加されることを除いて、第1の実施形態で使用される二次元ダイナミックプログラミングアルゴリズムと基本的に同じである。
【0109】
三次元ダイナミックプログラミングアルゴリズムは、図12に示されている全てのステップの後で、2つの問合せを注釈と比較する。図20には、ダイナミックプログラミングパスをヌル開始ノードφsから、ダイナミックプログラミング制約によって定義される全ての可能な始点まで伝搬させる際にステップs103で使用される処理ステップが示されている。なお、制約とは、ダイナミックプログラミングパスがどの注釈音韻からでも始まることができ、パスが各問合せ中の最初の4つの音韻のうちのどの音韻からでも始まることができることである。したがって、図20を参照するとわかるように、ステップs401で、システムは変数mxj及びmxkの値を、第1の実施形態で使用される定数と同じmxhopsに設定する。したがって、この実施形態では、それぞれの入力問合せが4つ以上の音韻を含むかぎり、mxjとmxkは共に4に設定される。問合せが4つ以上の音韻を含まない場合、mxj及び/又はmxkは、対応する問合せ中の音韻の数に等しい値に設定される。次いで、処理は、i=0からNann−1であり、j=0から3であり、k=0から3である場合にダイナミックプログラミングパスをポイント(i,j,k)から始めるように動作できるステップs403からs417に進む。これにより、図12に示されているステップs103の処理が終了し、次いで、処理はステップs105に進み、これらのダイナミックプログラミングパスが終点まで伝搬する。
【0110】
第1の実施形態と同様に、この実施形態では、システムは、探索空間内のポイントをラスタ状に処理することによってダイナミックプログラミングパスを始点から終点まで伝搬させる。このラスタ処理動作を制御するのに用いられる制御アルゴリズムは図21に示されている。図21を図14と比較するとわかるように、この制御アルゴリズムは、第1の実施形態で使用された制御アルゴリズムと同じ一般形式を有する。違いは、伝搬ステップs419がより複雑であることと、入力された第2の問合せによって生じる追加のポイントを処理するのに必要な問合せブロックs421、ブロックs423、及びブロックs425が設けられることだけである。図21に示されている制御アルゴリズムがどのように動作するかをよりよく理解するには、図14についての上記の説明を参照されたい。
【0111】
図22には、終点のパスを終了ヌルノードφeまで伝搬させる際に、この実施形態において図12に示されているステップs107で使用される処理ステップがより詳しく示されている。図22を図15と比較するとわかるように、この実施形態においてステップs107で使用される処理ステップは、第1の実施形態で使用された対応するステップと同様である。違いは、遷移スコア計算ブロックs443がより複雑であることと、第2の問合せによる追加のラティスポイントを処理するために追加のブロック(s439、s441、及びs449)ならびに変数(k)が必要であることである。したがって、ステップs431からs449で使用される処理を理解するには、図15についての上記の説明を参照されたい。
【0112】
図23は、図21に示されている伝搬ステップs419で使用される各処理ステップを示すフローチャートである。図16は、上述の二次元実施形態の対応するフローチャートである。図23を図16と比較するとわかるように、この2つの実施形態の間の主な違いは、第2の問合せによる追加のラティスポイントを処理するために追加の変数(mxk及びk2)ならびに処理ブロック(s451、s453、s455、及びs457)が必要であることである。2つの問合せが共に音声でなければならず、したがって、フローチャートの主要な分岐が、注釈がテキストであるときの分岐と、注釈が音声であるときの他の分岐の2つだけであるため、図23の方がわずかに簡単でもある。図23に示されているフローチャートで使用される処理ステップをよりよく理解するには、図16の説明を参照されたい。
【0113】
図24は、図23の処理ステップの間に、ダイナミックプログラミングパスがポイント(i,j,k)からポイント(i2,j2,k2)まで伝搬する際、遷移スコアを算出するうえで使用される処理ステップを示すフローチャートである。図17には、上述の二次元実施形態の対応するフローチャートが示されている。図24を図17と比較するとわかるように、この実施形態と第1の実施形態の主な違いは、第2の問合せに挿入される音韻の挿入確率を算出する追加の処理ステップs461である。したがって、図24に示されているフローチャートで使用される処理ステップをよりよく理解するには、図17の説明を参照されたい。
【0114】
次に、ポイント(i,j,k)からポイント(i2,j2,k2)まで伝搬する際の削除スコア及び/又は復号スコアを求めるために図24におけるステップs463で使用される処理ステップについて、図25を参照してより詳しく説明する。可能な削除及び復号は、注釈がテキストから生成された注釈であるかそれとも音声から生成された注釈であるかに依存するので、判定ブロックs501で、注釈がテキストであるかそれとも音声であるかが判定される。注釈がテキストから生成された注釈である場合、音韻ループポインタi2は注釈音韻ai+1を指し示さなければならない。次いで、処理は、第1及び第2の問合せに、注釈に対する音韻の削除が存在するかどうかを判定するように動作できるステップs503、s505、及びs507に進む。存在する場合、j2及び/又はk2はそれぞれ、j又はkに等しい。
【0115】
−j2がjに等しくなく、かつk2がkに等しくない場合、注釈に対する問合せにおける削除は存在せず、処理はステップs509に進み、注釈音韻ai+1を第1の問合せ音韻qi2として復号する対数確率がDELSCOREにコピーされる。次いで、処理はステップs511に進み、注釈音韻ai+1を第2の問合せ音韻qk2として復号する対数確率がDELSCOREに足される。
【0116】
−j2はjに等しくなく、k2はkに等しいとシステムが判定した場合、処理はステップs513からs515に進み、注釈音韻ai+1を削除する確率を求めてDELSCOREにコピーすることと、注釈音韻ai+1を第1の問合せ音韻qi2として復号する確率をDELSCOREに足すことがそれぞれ行われる。
【0117】
−j2がjに等しいと共にk2がkに等しいとシステムが判定した場合、処理はステップs517及びs519に進み、システムは、第1の問合せと第2の問合せの両方から注釈音韻ai+1を削除する対数確率を求め、結果をDELSCOREに格納する。
【0118】
−j2はjに等しく、k2はkに等しくないとシステムが判定した場合、処理は、注釈音韻ai+1を削除する対数確率をDELSCOREにコピーすることと、注釈音韻ai+1を第2の問合せ音韻qk2として復号する対数確率をDELSCOREに足すことをそれぞれ行うように動作できるステップs521及びs523に進む。
【0119】
システムは、ステップs501で、注釈が音声から生成されたものであると判定した場合、i2、j2、及びk2をそれぞれi、j、及びkと比較することにより、注釈又は2つの問合せからの音韻削除があるかどうかを(ステップs525からs537で)判定する。図25bから図25eに示されているように、注釈が音声から生成されたものであるとき、8つの可能な状況の適切な復号確率及び削除確率を判定するように動作する8つのメイン分岐がある。各状況で実行される処理は非常に類似しているので、1つの状況についてのみ説明する。
【0120】
具体的には、ステップs525、s527、及びs531で、(i2=iであるため)注釈からの削除が存在し、(j2≠jでありk2≠kであるため)2つの問合せからの削除は存在しないとシステムが判定した場合、処理はステップs541に進み、音韻ループポインタrが1に初期設定される。音韻ループポインタrは、上記の第1の実施形態で説明した数式(4)と同様な数式の計算時にシステムに知られている各音韻を処理するために使用される。次いで、処理はステップs543に進み、システムは音韻ポインタrを、システムに知られている音韻の数Nphonemes(この実施形態では43に等しい)と比較する。最初、rはステップs541で1に設定される。したがって、処理はステップs545に進み、システムは、生じた音韻の対数確率prを求め、これを一時スコアTEMPDELSCOREにコピーする。次いで、処理はステップs547に進み、システムは、注釈中の音韻prを削除する対数確率を求め、これをTEMPDELSCOREに足す。次いで、処理はステップs549に進み、システムは、音韻prを第1の問合せ音韻q1 j2として復号する対数確率を求め、これをTEMPDELSCOREに足す。次いで、処理はステップs551に進み、システムは、音韻prを第2の問合せ音韻q2 k2として復号する対数確率を求め、これをTEMPDELSCOREに足す。次いで、処理はステップs553に進み、システムは、TEMPDELSCOREとDELSCOREの対数加算を実行し、結果をDELSCOREに格納する。次いで、処理はステップs555に進み、音韻ポインタrが1だけ増分される。次いで、処理はステップs543に進み、システムに知られている次の音韻について同様な処理が実行される。システムに知られている43個の音韻のそれぞれについてこの計算が実行された後、処理は終了する。
【0121】
図25で実行された各処理ステップと図18で実行された各ステップを比較するとわかるように、復号及び削除に関するダイナミックプログラミングアルゴリズム内で計算される項は、数式(4)に類似しているが、第2の問合せに関する追加の確率項を有する。具体的には、この項は以下の形式を有する。
【0122】
【数15】
Figure 0003689670
このことが予想されるのは、2つの問合せが互いに条件付きで独立しているからである。
【0123】
全てのダイナミックプログラミングパスが終了ノードφeまで伝搬した後、第1の実施形態で算出されたのと同じ正規化項(上記の数式(5)で与えられる)を用いてこのアラインメントの総スコアが正規化される。これは、正規化項が注釈のモデルとの類似性にのみ依存するからである。2つの問合せが全ての注釈に一致した後、注釈の正規化されたスコアがランク付けされ、システムは、このランク付けに基づいて、注釈、又は入力問合せに最も近い注釈をユーザに出力する。
【0124】
上述の第2の実施形態では、2つの入力問合せを格納されている注釈と比較した。当業者なら理解できるように、アルゴリズムは、任意の数の入力問合せに関して適応させることができる。2つの問合せの場合について示したように、さらに問合せを追加する場合には、この追加の問合せを考慮するためにアルゴリズムにいくつかのループを追加するだけでよい。しかし、3つ以上の入力問合せを、格納されている注釈と比較する実施形態では、プルーニングを用いて速度又はメモリに関する制約を満たすダイナミックプログラミングルーチンを使用することが必要になる場合がある。この場合、全てのパスの全ての確率を合計するのではなく、互いに交わるパスの最適なスコアが伝搬させられ、スコアの低いパスは終了させられる。
【0125】
(代替実施形態)
当業者なら理解できるように、ある音韻シーケンスを他の音韻シーケンスと整合させる上記の技術は、データ検索以外の用途に適用することができる。さらに、当業者なら理解できるように、上述のシステムは音韻ラティス及び単語ラティス中の音韻を使用したが、音節やカタカナ(日本語のアルファベット)のような他の音韻状の単位を使用することができる。
【0126】
当業者なら理解できるように、2つの音韻シーケンスのダイナミックプログラミングによる整合及びアラインメントに関する上記の説明は、一例としてのみ与えられており、様々な修正を加えることができる。たとえば、ラティスポイントを介してパスを伝搬させるラスタ走査技術を使用したが、ラティスポイントを介してパスを漸進的に伝搬させる他の技術を使用することができる。さらに、当業者なら理解できるように、上述のダイナミックプログラミング制約以外の制約を使用して整合プロセスを制御することができる。
【0127】
上記の実施形態では、注釈は一般に問合せよりも長く、ダイナミックプログラミングアラインメントアルゴリズムによって、問合せが注釈全体に整列させられた。他の実施形態では、アラインメントアルゴリズムは、開始位置から終了位置へと問合せを注釈にわたってステップさせることによって突き合わせ、各ステップにおいて、問合せを注釈の、問合せと概ね同じサイズの部分と比較することによって、問合せを注釈と比較してもよい。このような実施形態では、各ステップで、上述のダイナミックプログラミング技術と同様な技術を使用して、問合せが注釈の対応する部分と整列させられる。この技術は図26aに示されており、結果として得られたプロットには、図26bに示されているように問合せが各ステップごとに注釈と突き合わされるときに問合せと現在の注釈とのアラインメントに関するダイナミックプログラミングスコアがどのように変化するかが示されている。図26bに示されているプロット中のピークは、注釈の、問合せと最もうまく一致する部分を表している。次いで、問合せと各注釈との比較時に得られたピークDPスコアを比較することによって、問合せに最も近い注釈を判定することができる。
【0128】
上記の実施形態では、音韻ラティス注釈データ及び単語ラティス注釈データを使用して写真に注釈付けした。当業者なら理解できるように、この音韻ラティスデータ及び単語ラティスデータを使用して多数の異なる種類のデータファイルに注釈付けすることができる。たとえば、この種の注釈データは、患者のx線写真、たとえばNMRスキャン、超音波スキャンなどの3Dビデオに注釈付けする医療用途に使用することができる。これはまた、オーディオデータ又は地震データなどIDデータに注釈付けするために使用することができる。
【0129】
上記の実施形態では、入力された音声信号から音韻シーケンスを生成する音声認識シーケンスを使用した。当業者なら理解できるように、代替物を含む音韻ストリングに分解することのできる、出力された単語のシーケンス、即ち、単語ラティスを生成する他の種類の音声認識システムと共に上記のシステムを使用して、音韻ストリングを生成するレコグナイザをシミュレートすることができる。
【0130】
上記の実施形態では、挿入確率、削除確率、及び復号確率は、確率の最大尤度推定値を使用して音声認識シーケンスの異聴統計から算出された。当業者なら理解できるように、最大エントロピー技術のような他の技術を使用してこれらの確率を推定することができる。適切な最大エントロピー技術の詳細は、John Skilling著、Kluwer Academic publishers刊「Maximum Entropy and Bayesian Methods」と題する文献の45ページから52ページに記載されている。この文献の内容は、引用によって本明細書に組み込まれる。
【0131】
上記の実施形態では、データベース29と自動音声認識ユニット51は共にユーザ端末59内に位置している。当業者なら理解できるように、これは必須ではない。図27には、データベース29及び探索エンジン53がリモートサーバ60内に位置しており、ユーザ端末59がネットワークインタフェースユニット67及び69ならびにデータネットワーク68(たとえば、インターネット)を介してデータベース29にアクセスする実施形態が示されている。この実施形態では、ユーザ端末59が受信できるのはマイクロフォン7からの声の問合せだけである。このような問合せは自動音声認識ユニット51によって音韻データ及び単語データに変換される。次いで、このデータは、リモートサーバ60内に位置する探索エンジン53への、データネットワーク68を介したデータの送信を制御する制御ユニット55に渡される。次いで、探索エンジン53は、上記の実施形態で実行された探索と同様に探索を実行する。次いで、探索結果はデータネットワーク68を介して探索エンジン53から制御ユニット55に送り返される。次いで、制御ユニット55は、ネットワークから受信された探索結果を検討し、適切なデータをディスプレイ57上に表示し、それをユーザ39が見ることができるようにする。
【0132】
データベース29及び探索エンジン53をリモートサーバ60内に配置するだけでなく、自動音声認識ユニット51をリモートサーバ60内に配置することも可能である。このような実施形態は図28に示されている。図示のように、この実施形態では、ユーザから入力された声の問合せは、音声をデータネットワーク68を介して効率的に転送できるように符号化するように動作できる音声符号化ユニット73に、入力線61を介して渡される。次いで、符号化されたデータが制御ユニット55に渡され、制御ユニットは、データをネットワーク68を介してリモートサーバ60に送信する。リモートサーバ60において、データは自動音声認識ユニット51によって処理される。次いで、入力問合せに関して音声認識ユニット51によって生成された音韻データ及び単語データが、データベース29での探索に使用できるように探索エンジン53に渡される。次いで、探索エンジン53によって生成された探索結果が、ネットワークインタフェース69及びネットワーク68を介してユーザ端末59に送り返される。リモートサーバから受信された探索結果は次いで、ネットワークインタフェースユニット67を介して制御ユニット55に渡され、制御ユニット55は結果を分析し、ディスプレイ57上に適切なデータを表示し、それをユーザ39が見ることができるようにする。
【0133】
同様に、キーボードによるユーザからの入力のみを許容し、リモートサーバ内に探索エンジン及びデータベースが位置しているユーザ端末59を設けることができる。このような実施形態では、リモートサーバ60内に音声表記ユニット75を配置してもよい。
【0134】
上記の実施形態では、ダイナミックプログラミングアルゴリズムを使用して問合せ音韻シーケンスと注釈音韻シーケンスを整列させた。当業者なら理解できるように、任意のアラインメント技術を使用することができる。たとえば、全ての可能なアラインメントを識別する簡単な技術を使用することができる。しかし、ダイナミックプログラミングは標準処理ハードウェアを使用して実施するのが容易であるので、ダイナミックプログラミングが好ましい。
【0135】
上記では、ダイナミックプログラミング技術を使用して2つ以上の音韻シーケンスを比較する方法について説明した。しかし、図2及び図3に示されているように、注釈はラティスとして記憶することが好ましい。当業者なら理解できるように、上記の比較技術がこのようなラティスと共に働くには、ラティスによって定義される音韻シーケンスを「平坦化」して、分岐を有さない単一の音韻シーケンスを得なければならない。このための簡単な手法としては、ラティスによって定義される全ての様々な可能な音韻シーケンスを識別し、次いでこれらの音韻シーケンスのそれぞれを各問合せのシーケンスと比較する手法がある。しかし、ラティスの共通の部分が各問合せのシーケンスと数回整合させられるので、この手法は好ましくない。したがって、ラティス内の各音韻に関して利用できるタイムスタンプ情報に従ってラティス内の各音韻を順次ラベル付けすることによってラティスを平坦化することが好ましい。この場合、ダイナミックプログラミングアラインメント時に、各DPラティスポイントで異なるダイナミックプログラミング制約が使用され、各パスは確実にラティス構造に従って伝搬する。
【0136】
以下の表には、図2に示されている音韻ラティスの部分で使用されるDP制約が示されている。具体的には、第1の列は、ラティス内の各音韻に割り当てられる音韻番号(p1からp9)を示し、中央の列は、ラティス内の実際の音韻に対応し、最後の列は、各音韻について、その音素で終わるパスが、ダイナミックプログラミングの次の時点で伝搬することのできる音韻を示している。表には示されていないが、中央の列には、音韻が連結されるノードの詳細と、対応する音韻リンクがさらに含まれる。
【0137】
【表1】
Figure 0003689670
【0138】
たとえば、あるダイナミックプログラミングパスが時間順序音韻p4で終わる場合、このダイナミックプログラミングパスは、音韻p4に留まることも、あるいは時間順序音韻p5からp11のいずれかに伝搬することもできる。表に示されているように、ポイントの中には、パスが到達することのできる音韻が、時間順序音韻シーケンスどおりに連続的に配置されないポイントがある。たとえば、時間順序音韻p6で終わるダイナミックプログラミングパスの場合、このパスはこの音韻に留まることも、あるいは音韻p10,p12,p15,又はp16に進むこともできる。ラティス内の音韻をこのように連続的に番号付けし、使用されるダイナミックプログラミング制約をラティスに応じて変化させることによって、入力問合せと注釈ラティスとのダイナミックプログラミング整合を効率的に行うことができる。さらに、当業者なら理解できるように、入力問合せもラティスを生成する場合、このラティスを同様に平坦化し、それに応じてダイナミックプログラミング制約を調整してもよい。
【0139】
上記の実施形態では、注釈と問合せの両方に同じ音韻異聴確率を使用した。当業者なら理解できるように、様々な認識システムを使用してこれらの音韻異聴確率を生成する場合、注釈と問合せにそれぞれの異なる異聴確率を使用すべきである。これらの異聴確率は、音韻シーケンスを生成するために使用された認識システムに依存する。
【0140】
上記の実施形態では、注釈と問合せのいずれかをテキストから生成するときに、キーボードから入力されたテキストに対応する標準音韻シーケンスが正しいものと仮定した。この場合、キーボードから入力される単語のスペルに間違いがなく、また誤入力もないものと仮定されているので、上記の仮定が当てはまらない場合もある。したがって、他の実施形態では、キーボードから入力問合せ及び/又は注釈に異聴確率を使用してもよい。言い換えれば、数式(4)及び数式(12)は、注釈又は問合せ、あるいはその両方がテキストである場合にも使用される。使用される異聴確率が、ミススペルと誤入力のいずれか又はその両方の符号化を試みてもよい。当業者なら理解できるように、誤入力に関する異聴確率は、使用されるキーボードの種類に依存する。具体的には、単語を誤入力する異聴確率はキーボードのレイアウトに依存する。たとえば、文字「d」がキーボードから入力された場合、文字「d」のキーの周りのキーは誤入力確率が高く、一方、「d」キーから離れた位置にあるキーは誤入力確率が比較的低い。上述のように、これらの誤入力確率を単語のミススペルに関する異聴確率と共に使用しても、あるいはそのような異聴確率で置き換えてもよい。このようなミススペル確率は、多数の異なるユーザから入力されたドキュメントを分析し、通常生じる種類の誤入力を監視することによって求めてもよい。このようなミススペル確率では、誤入力によって起こる表記エラーも考慮することもできる。このような実施形態では、使用されるダイナミックプログラミング制約によって、キーボードからの入力への挿入及び/又は削除を可能にすべきである。たとえば、図11に示されている制約を使用することができる。
【0141】
他の場合には、各キーに複数の文字を割り当てるキーボード(たとえば、携帯電話のキーボード)を介してテキストが入力され、ユーザは、各キーを繰り返し押して、そのキーに割り当てられた文字を1つずつ確認しなければならない。このような実施形態では、入力される文字と同じキーに割り当てられた文字が、他のキーに関連する誤入力異聴確率よりも高い誤入力異聴確率を有するように、異聴確率が調整される。これは、携帯電話を使用してテキストメモリを送信したことのある人なら理解できるように、誤入力は、キーが所望の文字を入力するための正しい回数だけ押されなかったために起こることが多いからである。
【0142】
上記の実施形態では、制御ユニットは、上記の数式(4)又は数式(12)を使用して各遷移の復号スコアを算出した。制御ユニットは、システムに知られている全ての音韻をこれらの数式に従って合計する代わりに、この加算内の確率項を最大にする未知の音韻prを識別し、この最大確率を、注釈及び問合せの対応する音韻を復号する確率として使用するように構成してもよい。しかし、これは、この加算内の確率項をどの音韻(pr)が最大にするかを判定する追加の計算が必要になるので好ましくない。
【0143】
上述の第1の実施形態では、ダイナミックプログラミングアルゴリズムの間に、整列させた各音韻対ごとに数式(4)を計算した。数式(4)の計算では、注釈音韻及び問合せ音韻を、システムに知られている各音韻と比較した。当業者なら理解できるように、注釈音韻と問合せ音韻の所与の対については、数式(4)で与えられる確率の多くがゼロに等しいか、又はゼロに非常に近くなる。したがって、他の実施形態では、注釈音韻と問合せ音韻の対を比較的できるのは、事前に異聴統計から決定された、知られている全ての音韻の部分集合だけである。このような実施形態を実施する場合、数式(4)を使用して注釈音韻及び問合せ音韻と比較する必要のあるモデル音韻を識別する参照テーブルを、注釈音韻及び問合せ音韻を用いてアドレス指定することができる。
【0144】
上記の実施形態では、整列させられ整合された注釈と問合せの特徴は音声の単位を表している。当業者なら理解できるように、上述の技術は、特徴のシーケンスを生成した認識システムが不正確であるために問合せ及び注釈の特徴を混同する可能性がある他の用途で使用することができる。たとえば、上述の技術は、認識システムがある入力文字を別の入力文字と混同する可能性が高い光学文字認識システム又は手書き文字認識システムで使用することができる。
【0145】
上記では、いくつかの実施形態及び修正実施形態について説明した。当業者なら理解できるように、当業者に明らかな他の多数の実施形態及び修正実施形態がある。
【図面の簡単な説明】
【図1】 ユーザによるキーボードからの入力又は音声入力から生成された注釈データを用いてデータファイルに注釈付けできるようにするユーザ端末を示す概略ブロック図である。
【図2】 データファイルに注釈付けするための、ユーザによるキーボードからの入力から生成された音韻ラティス注釈データ及び単語ラティス注釈データの概略図である。
【図3】 データファイルに注釈付けするための、ユーザによる音声入力から生成された音韻ラティス注釈データ及び単語ラティス注釈データの概略図である。
【図4】 ユーザが、キーボードからの問合せ又は音声問合せによってデータベースから情報を検索できるようにする、ユーザの端末の概略ブロック図である。
【図5a】 図4に示されているユーザ端末のフロー制御の一部を示す流れ図である。
【図5b】 図4に示されているユーザ端末のフロー制御の残りの部分を示す流れ図である。
【図6a】 問合せと注釈の両方を生成したと仮定される基本的な統計モデルを示す概略図である。
【図6b】 キーボードからの入力を表す第1の音韻シーケンスとユーザの音声入力を表す第2の音韻シーケンスとを示し、かつユーザの音声入力によるキーボードからの入力に対する音韻の挿入及び削除が存在する可能性を示す概略図である。
【図6c】 それぞれが音声入力を表す第1及び第2の音韻シーケンスと、対応する音声入力で実際に発声されたものに対応する標準音韻シーケンスを表す第3の音韻シーケンスとを示し、対応する標準音韻シーケンスに対する、2つの音声入力への音韻の挿入及び削除が存在する可能性を示す概略図である。
【図7】 注釈音韻シーケンス及び問合せ音韻シーケンスによって作成される探索空間を開始ヌルノード及び終了ヌルノードと共に概略的に示す図である。
【図8】 横軸が注釈の音韻を表し、縦軸が問合せの音韻を表し、各ラティスポイントが注釈音韻と問合せ音韻との間の可能な一致に対応するいくつかのラティスポイントを示す二次元プロットを示す図である。
【図9a】 注釈がキーボードからの入力であり、かつ問合せが音声入力から生成された問合せであるときにダイナミックプログラミングによる整合プロセスで使用されるダイナミックプログラミング制約を概略的に示す図である。
【図9b】 問合せがキーボードからの入力であり、かつ注釈が音声入力であるときにダイナミックプログラミングによる整合プロセスで使用されるダイナミックプログラミング制約を概略的に示す図である。
【図10】 音韻例用に記憶される削除確率及び復号確率を概略的に示す図である。
【図11】 注釈と問合せが共に音声入力であるときにダイナミックプログラミングによる整合プロセスで使用されるダイナミックプログラミング制約を概略的に示す図である。
【図12】 ダイナミックプログラミングによる整合プロセスで実行される主処理ステップを示す流れ図である。
【図13】 ヌル開始ノードから全ての可能な始点まで伝搬することによってダイナミックプログラミングプロセスを開始するのに用いられる主処理ステップを示す流れ図である。
【図14】 各ダイナミックプログラミングパスを始点から全ての可能な終点まで伝搬させるのに用いられる主処理ステップを示す流れ図である。
【図15】 各ダイナミックプログラミングパスを終点からヌル終了ノードまで伝搬させる際に用いられる主処理ステップを示す流れ図である。
【図16a】 ダイナミックプログラミング制約を使用してパスを伝搬させる際に実行される処理ステップの一部を示す流れ図である。
【図16b】 ダイナミックプログラミング制約を使用してパスを伝搬させる際に用いられる残りの処理ステップを示す流れ図である。
【図17】 あるパスを始点から終点まで伝搬させる場合の遷移スコアを求める際に用いられる処理ステップを示す流れ図である。
【図18a】 注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられる処理ステップの一部を示す流れ図である。
【図18b】 注釈及び問合せの音韻を削除し復号する場合のスコアを求める際に用いられる残りのステップを示す流れ図である。
【図19】 注釈音韻シーケンス及び2つの問合せ音韻シーケンスによって作成される探索空間を開始ヌルノード及び終了ヌルノードと共に概略的に示す図である。
【図20】 ヌル開始ノードから全ての可能な始点まで伝搬することによってダイナミックプログラミングプロセスを開始するのに用いられる主処理ステップを示す流れ図である。
【図21】 各ダイナミックプログラミングパスを始点から全ての可能な終点まで伝搬させるのに用いられる主処理ステップを示す流れ図である。
【図22】 各ダイナミックプログラミングパスを終点からヌル終了ノードまで伝搬させる際に用いられる主処理ステップを示す流れ図である。
【図23】 ダイナミックプログラミング制約を使用してパスを伝搬させる際に実行される処理ステップを示す流れ図である。
【図24】 あるパスの始点から終点まで伝搬させる場合の遷移スコアを求める際に用いられる処理ステップを示す流れ図である。
【図25a】 注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられる処理ステップの第1の部分を示す流れ図である。
【図25b】 注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられる処理ステップの第2の部分を示す流れ図である。
【図25c】 注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられる処理ステップの第3の部分を示す流れ図である。
【図25d】 注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられる処理ステップの第4の部分を示す流れ図である。
【図25e】 注釈及び問合せの音韻を削除し復号する場合のスコアを求める際に用いられる残りのステップを示す流れ図である。
【図26a】 異なる技術を使用して問合せを各注釈と整列させる他の実施形態を概略的に示す図である。
【図26b】 図26aに示す実施形態における問合せと注釈の比較に応じてダイナミックプログラミングスコアがどのように変化するかを示すプロットを示す図である。
【図27】 入力音声問合せに応答して、リモートサーバ内に位置するデータベースからデータファイルを検索するように動作できる他のユーザ端末の形態を示す概略ブロック図である。
【図28】 ユーザが、入力音声問合せに応答して、リモートサーバ内に位置するデータベースからデータを検索できるようにする、他のユーザ端末を示す図である。

Claims (64)

  1. 第1及び第2の特徴のシーケンスを受信する手段と、
    第1シーケンスの特徴を第2シーケンスの特徴と整列させ、いくつかの整列させた特徴対を形成する手段と、
    各整列させた特徴対の各特徴を比較し、整列させた特徴対間の類似性を表す比較スコアを生成する手段と、
    列させた特徴対について比較スコアを組み合わせ、第1及び第2の特徴のシーケンスとの間の類似性の程度を示す手段とを備える特徴比較装置であって、
    前記比較スコアを生成する手段が、
    各整列させた対について、整列させた対における第1のシーケンスの特徴を、1組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、前記第1のシーケンスの特徴と1組の特徴から得たそれぞれの特徴との間の類似性を表す対応する複数の中間比較スコアを示す第1の比較手段と、
    整列させた各対について、整列させた対における第2のシーケンスの特徴を、1組の特徴から得た複数の特徴のそれぞれと比較し、前記第2のシーケンスの特徴と1組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを示す第2の比較手段と、
    前記複数の中間比較スコアを組み合わせることにより、整列させた対について前記比較スコアを算出する手段と、
    を備えることを特徴とする特徴比較装置。
  2. 前記第1及び第2の比較手段が、第1のシーケンスの特徴及び第2のシーケンスの特徴のそれぞれを前記1組の所定の特徴の各特徴と比較するように動作することを特徴とする請求項1に記載の装置。
  3. 前記比較スコアを生成する手段が、整列させた特徴対の第2のシーケンスの特徴を整列させた特徴対の第1のシーケンスの特徴と混同する確率を表す整列させた特徴対の比較スコアを生成するように動作することを特徴とする請求項1又は2に記載の装置。
  4. 前記第1及び第2の比較手段が、1組の所定の特徴から得られた対応する特徴を、整列させた対の特徴と混同する確率を示す中間比較スコアを求めるように動作することを特徴とする請求項3に記載の装置。
  5. 前記計算手段が、(i)整列させた1対の特徴における第1及び第2のシーケンスの特徴を、該1組の所定の特徴における同じ特徴と比較する際に得られた中間スコアを掛け合わせ、複数の掛け合わされた中間比較スコアを求め、(ii)結果として得られる掛け合わされた中間スコアを合計し、整列させた対の特徴の前記比較スコアを算出するように動作することを特徴とする請求項4に記載の装置。
  6. 前記1組の所定の特徴における前記各特徴が、特徴のシーケンス内で生じる所定の確率を有し、前記計算手段が、掛け合わされた中間比較スコアを生成するのに用いられる、1組の所定の特徴における特徴の各発生確率を用いて、前記掛け合わされた中間比較スコアのそれぞれを重み付けするように動作することを特徴とする請求項5に記載の装置。
  7. 前記計算手段が、次式を計算するように動作し、
    Figure 0003689670
    上式で、qj及びaiがそれぞれ、整列させた第1及び第2のシーケンスの特徴からなる対であり、P(qj|pr)が、設定された特徴prを第1のシーケンスの特徴qjとして混同する確率であり、P(ai|pr)が、設定された確率prを第2のシーケンスの特徴aiとして混同する確率であり、P(pr)が、設定された特徴prが特徴のシーケンスにおいて発生する確率を表すことを特徴とする請求項6に記載の装置。
  8. 前記整列手段が、前記第1及び第2の特徴のシーケンスにおける特徴の削除及び挿入を識別するように動作し、前記比較スコアを生成する手段が、整列させた1対の特徴の近くで行われた、前記整列手段によって識別された特徴の削除及び挿入に応じて、整列させた1対の特徴の前記比較スコアを生成するように動作することを特徴とする上記請求項のいずれか1項に記載の装置。
  9. 前記整列手段が、ダイナミックプログラミング技術を使用して前記第1及び第2の特徴のシーケンスを整列させるダイナミックプログラミング手段を備えることを特徴とする上記請求項のいずれか1項に記載の装置。
  10. 前記ダイナミックプログラミング手段が、前記第1の特徴のシーケンスと第2の特徴のシーケンスとの間の複数の可能な整列を漸進的に判定するように動作し、前記比較スコアを生成する手段が、前記ダイナミックプログラミング手段によって判定された、整列させた特徴からなる可能な各対の比較スコアを求めるように動作することを特徴とする請求項9に記載の装置。
  11. 前記ダイナミックプログラミング手段が、前記第1の特徴のシーケンスと前記第2の特徴のシーケンスとの間の最適な整列を判定するように動作し、前記組合せ手段が、整列させた特徴からなる最適な対のみの比較スコアを組み合わせることによって前記類似性を求めるように動作することを特徴とする請求項又は10に記載の装置。
  12. 前記第1及び第2の特徴のシーケンス内の各特徴が、前記1組の所定の特徴に属し、前記第1及び第2の比較手段が、前記1組の所定の特徴を互いに関係付ける所定のデータを使用して前記中間スコアを求めるように動作することを特徴とする上記請求項のいずれか1項に記載の装置。
  13. 前記第1の特徴のシーケンスが、キーボードからの入力から生成された複数の小単語単位を含み、前記第1の比較手段が、誤入力確率及び/又はミススペル確率を使用して前記中間比較スコアを求めるように動作することを特徴とする上記請求項のいずれか1項に記載の装置。
  14. 前記第2の特徴のシーケンスが、音声入力から生成された小単語単位のシーケンスを含み、前記第2の比較手段が、誤認識確率を使用して前記中間スコアを求めるように動作することを特徴とする上記請求項のいずれかに記載の装置。
  15. 前記受信手段が、3つ以上の特徴のシーケンスを受信するように動作し、
    前記整列手段が、受信された各特徴のシーケンスの特徴同士を整列させ、整列させた特徴からなるいくつかの群を形成し、
    前記比較スコアを生成する手段が、整列させた特徴からなる各群中の特徴同士を比較し、整列させた特徴からなる各群間の類似性を表す比較スコアを生成するように動作し、
    前記組合せ手段が、整列させた特徴からなる全ての群の比較スコアを組み合わせ、3つ以上の特徴のシーケンス間の類似度を求めるように動作することを特徴とする上記請求項のいずれか1項に記載の装置。
  16. 前記受信手段が、複数の第2の特徴のシーケンスを受信するように動作し、前記整列手段が、前記第1の特徴のシーケンスをそれぞれの前記第2の特徴のシーケンスと整列させ、各整列ごとの、整列させた特徴からなるいくつかの対を形成し、前記組合せ手段が、各整列ごとの比較スコアを組み合わせ、第1の特徴のシーケンスと前記複数の第2の特徴のシーケンスとの間のそれぞれの類似度を求めるように動作することを特徴とする上記請求項のいずれか1項に記載の装置。
  17. 前記比較スコアを生成する手段から出力された前記複数の類似度を比較する手段と、前記第1の特徴のシーケンスに最も近い第2の特徴のシーケンスを示す信号を出力する手段とをさらに備えることを特徴とする請求項16に記載の装置。
  18. 複数の情報エントリのそれぞれが、注釈の特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する装置であって、
    入力問合せの複数の表現を受信する手段と、
    入力問合せの各表現を、表現を表す問合せの特徴のシーケンスに変換する手段と、
    各表現の問合せの特徴を各注釈の特徴と比較し、1組の比較結果を求める比較手段と、
    各表現の問合せの特徴を同じ注釈の特徴と比較することによって得られた比較結果を互いに組み合わせ、各注釈について、入力問合せと注釈との間の類似度を求める組合せ手段と、
    前記組合せ手段によって全ての注釈について求められた類似度を使用して、前記データベースから検索すべき情報を識別する手段と、
    を備えることを特徴とする装置。
  19. 前記比較手段は、各表現の問合せの特徴を現在の注釈の特徴と同時に比較することを特徴とする請求項18に記載の装置。
  20. 前記比較手段は、
    各表現の問合せの特徴を現在の注釈の特徴と整列させ、各整列させた群が、各表現の問合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの群を形成する手段と、
    整列させた特徴からなる各群の特徴同士を比較し、整列させた特徴からなる群の特徴間の類似性を表す比較スコアを生成する特徴比較器とを備え、
    前記組合せ手段が、現在の注釈に関する整列させた特徴からなる全ての群の比較スコアを組み合わせ、入力問合せと現在の注釈との間の類似度を求めるように動作することを特徴とする請求項18又は19に記載の装置。
  21. 前記特徴比較器が、整列させた各群中の特徴について、群中の特徴を1組の所定の特徴から得られた複数の特徴のそれぞれと比較し、前記群中の特徴と1組の特徴のそれぞれとの間の類似性を表す対応する複数の中間比較スコアを求める、整列させた特徴からなる各群中の各特徴用のそれぞれの特徴を比較する手段と、それぞれの特徴比較手段によって生成された複数の中間比較スコアを組み合わせることによって、整列させた群の前記比較スコアを算出する手段とを備えることを特徴とする請求項20に記載の装置。
  22. 複数の情報エントリのそれぞれが、特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する装置であって、
    特徴のシーケンスを含む入力問合せを受信する手段と、
    問合せの特徴のシーケンスを各注釈の特徴と比較し、1組の比較結果を求める、請求項1から17のいずれかに記載の装置と、
    前記比較結果を使用して前記データベースから検索すべき前記情報を識別する手段とを備えることを特徴とする装置。
  23. 複数の情報エントリのそれぞれが、音声の特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する装置であって、
    音声の特徴のシーケンスを含む入力問合せを受信する手段と、
    音声の特徴からなる前記問合せのシーケンスと各注釈の音声の特徴を比較し、1組の比較結果を求める比較手段と、
    前記比較結果を使用して、前記データベースから検索すべき前記情報を識別する手段とを備える装置において、
    前記比較手段が、複数の異なる比較動作モードを有し、該装置が、
    (i)音声の特徴からなる問合せのシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスか、及び(ii)現在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスかを判定し、判定結果を出力する手段と、
    現在の注釈について、前記判定結果に応じて前記比較手段の動作モードを選択する手段とをさらに備えることを特徴とする装置。
  24. 前記入力問合せと前記現在の注釈が共に音声から生成されたものであると前記判定手段が判定したときに、前記選択手段が、前記比較手段が請求項1から17のいずれかに記載の装置として働くように前記動作モードを選択するように動作することを特徴とする請求項23に記載の装置。
  25. 1つ又は複数の前記情報エントリが、関連する注釈であることを特徴とする請求項22から24のいずれか1項に記載の装置。
  26. 特徴比較装置であって、
    各シーケンスが、入力問合せの表現を表す、問合せの特徴からなる第1及び第2のシーケンスを受信する手段と、
    注釈の特徴のシーケンスを受信する手段と、
    各表現の問合せの特徴を注釈の特徴と整列させ、各整列させた群が各表現の問合せの特徴と注釈の特徴とを含む、特徴からなるいくつかの整列させた群を形成する手段と、
    特徴からなる各整列させた群の特徴同士を比較し、整列させた群の特徴からなる群間の特徴間の類似性を表す比較スコアを生成する手段と、
    特徴からなる全ての整列させた群の比較スコアを組み合わせ、入力問合せの表現と注釈との間の類似度を求める手段とを備える装置において、
    前記比較スコアを生成する手段は、
    整列させた各群について、特徴からなる整列させた群における第1の問合せのシーケンスの特徴を、1組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、前記第1の問合せのシーケンスの特徴と1組の特徴におけるそれぞれの特徴との間の類似性を表す対応する複数の中間比較スコアを求める第1の特徴比較器と、
    整列させた各群について、整列させた特徴からなる群における第2の問合せのシーケンスの特徴を、1組の特徴における前記複数の特徴のそれぞれと比較し、前記第2の問合せのシーケンスの特徴と1組の特徴におけるそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを求める第2の特徴比較器と、
    整列させた特徴からなる各群について、整列させた群における注釈の特徴を、
    1組の特徴における前記複数の特徴のそれぞれと比較し、前記注釈の特徴と1組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを示す第3の特徴比較器と、
    前記複数の中間比較スコアを組み合わせることにより、整列させた群の前記比較スコアを算出する手段と、
    を備えることを特徴とする特徴比較装置。
  27. 複数の情報エントリのそれぞれが、音声注釈の特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する装置であって、
    入力音声問合せの複数の表現を受信する手段と、
    入力問合せの各表現を、表現内の音声を表す音声問合せの特徴のシーケンスに変換する手段と、
    各表現の音声注釈の特徴を各注釈の音声問合せの特徴と比較し、入力問合せと各注釈との間に類似度を求める手段と、
    全ての注釈について組合せ手段によって求めた類似度を使用して、前記データベースから検索すべき前記情報を識別するための手段とを備える装置であって、
    前記類似度を求める手段は複数の異なる比較動作モードを有し、該装置が、 現在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスかを判定し、判定結果を出力する手段と、
    現在の注釈について、前記判定結果に応じて前記類似度を求める手段の動作モードを選択する手段と、
    をさらに備えることを特徴とする装置。
  28. 特徴比較方法であって、
    第1の特徴のシーケンス及び第2の特徴のシーケンスを受信するステップと、 第1のシーケンスの特徴を第2のシーケンスの特徴と整列させ、整列させた特徴からなるいくつかの対を形成するステップと、
    整列させた特徴からなる各対の特徴同士を比較し、整列させた1対の特徴間の類似性を表す比較スコアを生成するステップと、
    整列させた特徴からなる対の比較スコアを組み合わせ、第1の特徴のシーケンスと第2の特徴のシーケンスとの間の類似度を求めるステップとを含む方法であって、
    前記比較スコアを生成するステップは、
    整列させた各対について、整列させた対における第1のシーケンスの特徴を、1組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、前記第1のシーケンスの特徴と1組の特徴におけるそれぞれの特徴との間の類似性を表す対応する複数の中間比較スコアを求める第1の比較ステップと、
    整列させた各対について、整列させた対における第2のシーケンスの特徴を、1組の特徴における前記複数の特徴のそれぞれと比較し、前記第2のシーケンスの特徴と1組の特徴におけるそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを求める第2の比較ステップと、
    前記複数の中間比較スコアを組み合わせることにより、整列させた1対について前記比較スコアを算出するステップと、
    を含むことを特徴とする特徴比較方法。
  29. 前記第1及び第2のステップにおいて、各特徴が前記1組の所定の特徴に含まれる第1のシーケンスの特徴と第2のシーケンスの特徴が比較されることを特徴とする請求項28に記載の方法。
  30. 前記比較スコアを生成するステップにおいて、整列させた対の第2のシーケンスの特徴を整列させた対の第1のシーケンスの特徴として混同する確率を表す、整列させた対の特徴の比較スコアが生成されることを特徴とする請求項28又は29に記載の方法。
  31. 前記第1及び第2の比較ステップにおいて、1組の所定の特徴から得られた対応する特徴を、整列させた1対の特徴と混同する確率を示す中間比較スコアが求められることを特徴とする請求項30に記載の方法。
  32. 前記計算ステップにおいて、(i)整列させた対の特徴における第1及び第2のシーケンスの特徴が、組の同じ特徴と比較する際に得られた中間スコアと掛け合わされ、複数の掛け合わされた中間比較スコアが求められ、(ii)結果として得られる掛け合わされた中間スコアが合計され、整列させた1対の前記比較スコアが算出されることを特徴とする請求項31に記載の方法。
  33. 前記1組の所定の特徴における前記各特徴が、特徴のシーケンス内での所定の発生確率を有し、前記計算ステップにおいて、掛け合わされた中間比較スコアを生成するのに用いられる、組の特徴の各発生確率を用いて、前記掛け合わされた中間比較スコアのそれぞれが重み付けされることを特徴とする請求項32に記載の方法。
  34. 前記計算ステップにおいて、次式が計算され、
    Figure 0003689670
    上式で、qj及びaiがそれぞれ、整列させた第1及び第2のシーケンスの特徴からなる対であり、P(qj|pr)が、設定された特徴prを第1のシーケンスの特徴qjとして混同する確率であり、P(ai|pr)が、設定された確率prを第2のシーケンスの特徴aiとして混同する確率であり、P(pr)が、設定された特徴prが特徴のシーケンスにおいて発生する確率を表すことを特徴とする請求項33に記載の方法。
  35. 前記整列ステップにおいて、前記第1及び第2の特徴のシーケンスにおける特徴の削除及び挿入が識別され、前記比較スコアを生成するステップにおいて、整列させた1対の特徴の近くで行われた、前記整列ステップによって識別された特徴の削除及び挿入に応じて、整列させた1対の特徴の前記比較スコアが生成されることを特徴とする請求項28から34のいずれか1項に記載の方法。
  36. 前記整列ステップにおいて、ダイナミックプログラミング技術を使用して前記第1及び第2の特徴のシーケンスを整列させることを特徴とする請求項28から35のいずれか1項に記載の方法。
  37. 前記整列ステップにおいて、前記第1の特徴のシーケンスと第2の特徴のシーケンスとの間の複数の可能な整列が漸進的に判定され、前記比較スコアを生成するステップにおいて、前記整列ステップによって判定された整列させた特徴からなる各可能な対の比較スコアが求められることを特徴とする請求項36に記載の方法。
  38. 前記比較スコアを生成するステップにおいて、前記可能な整列が漸進的に判定される間に前記比較スコアが生成されることを特徴とする請求項37に記載の方法。
  39. 前記整列ステップにおいて、前記第1の特徴のシーケンスと前記第2の特徴のシーケンスとの間の最適な整列が判定され、前記組合せステップが、整列させた特徴からなる最適な対のみの比較スコアを組み合わせることによって前記類似度を求めるように動作することを特徴とする請求項36乃至38のいずれか1項に記載の方法。
  40. 前記第1及び第2の特徴のシーケンス内の各特徴が、前記1組の所定の特徴に属し、前記第1及び第2の比較ステップにおいて、前記1組の所定の特徴を互いに関係付ける所定のデータを使用して前記中間スコアを求められることを特徴とする請求項28から39のいずれか1項に記載の方法。
  41. 前記第1の比較ステップで使用される所定のデータが、第1の特徴のシーケンスを生成するのに用いられるシステムに依存し、前記第2の比較ステップで使用される所定のデータが、前記第1の比較ステップで使用される所定のデータと異なり、第2の特徴のシーケンスを生成するのに用いられるシステムに依存することを特徴とする請求項40に記載の方法。
  42. 前記第1の特徴のシーケンスが小単語単位を含み、前記第1の比較ステップにおいて、誤入力確率及び/又はミススペル確率を使用して前記中間比較スコアが求められることを特徴とする請求項28から41のいずれか1項に記載の方法。
  43. 前記第2の特徴のシーケンスが、音声入力から生成された小単語単位のシーケンスを含み、前記第2の比較ステップにおいて、誤認識確率を使用して前記中間スコアが求められることを特徴とする請求項28から42のいずれか1項に記載の方法。
  44. 前記受信ステップにおいて、3つ以上の特徴のシーケンスが受信され、
    前記整列ステップにおいて、受信された各特徴のシーケンスの特徴同士が整列させられ、整列させた特徴からなるいくつかの群が形成され、
    前記比較スコアを生成するステップにおいて、整列させた特徴からなる各群中の特徴同士が比較され、整列させた特徴からなる各群間の類似性を表す比較スコアが生成され、
    前記組合せステップにおいて、整列させた特徴からなる全ての群の比較スコアが組み合わされ、3つ以上の特徴のシーケンス間の類似度が求められることを特徴とする請求項28から43のいずれか1項に記載の方法。
  45. 前記整列ステップにおいて、特徴のシーケンスが互いに同時に整列させられることを特徴とする請求項44に記載の方法。
  46. 前記受信ステップにおいて、複数の第2の特徴のシーケンスが受信され、前記整列ステップにおいて、前記第1の特徴のシーケンスがそれぞれの前記第2の特徴のシーケンスと整列させられ、各整列ごとの、特徴からなるいくつかの整列させた対が形成され、前記組合せステップにおいて、各整列ごとの比較スコアが組み合わされ、第1の特徴のシーケンスと前記複数の第2の特徴のシーケンスとの間のそれぞれの類似度が求められることを特徴とする請求項28から45のいずれか1項に記載の方法。
  47. 前記組合せ手段から出力された前記複数の類似度を比較するステップと、前記第1の特徴のシーケンスに最も類似の第2の特徴のシーケンスを示す信号を出力するステップとをさらに備えることを特徴とする請求項46に記載の方法。
  48. 複数の情報エントリのそれぞれが、注釈の特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する方法であって、
    入力問合せの複数の表現を受信するステップと、
    入力問合せの各表現を、表現を表す問合せの特徴のシーケンスに変換するステップと、
    各表現の問合せの特徴を各注釈の特徴と比較し、1組の比較結果を求めるステップと、
    各表現の問合せの特徴を同じ注釈の特徴と比較することによって得られた比較結果を互いに組み合わせ、各注釈について、入力問合せと注釈との間の類似度を求めるステップと、
    組合せステップによって全ての注釈について求められた類似度を使用して、前記データベースから検索すべき前記情報を識別するステップと、
    を含むことを特徴とする方法。
  49. 前記比較結果を求めるステップにおいて、各表現の問合せの特徴が現在の注釈の特徴と同時に比較されることを特徴とする請求項48に記載の方法。
  50. 前記比較結果を求めるステップは、
    各表現の問合せの特徴を現在の注釈の特徴と整列させ、各整列させた群が、各表現の問合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの群を形成するステップと、
    特徴比較器を使用して、整列させた特徴からなる各群の特徴同士を比較し、整列させた特徴からなる群の特徴間の類似性を表す比較スコアを生成するステップとを含み、
    前記組合せステップにおいて、現在の注釈に関する整列させた特徴からなる全ての群の比較スコアが組み合わされ、入力問合せと現在の注釈との間の前記類似度が求められることを特徴とする請求項48又は49に記載の方法。
  51. 前記問合せの特徴のシーケンス及び前記注釈の特徴のシーケンスがそれぞれ、オーディオ信号を表すことを特徴とする請求項48から50のいずれか1項に記載の方法。
  52. 前記注釈のいくつか又は全ての音声注釈の特徴のシーケンスが、オーディオ信号又はテキスト注釈から生成されることを特徴とする請求項48から51のいずれか1項に記載の方法。
  53. 特徴比較方法であって、
    第1の特徴のシーケンス及び第2の特徴のシーケンスを受信するステップと、
    第1のシーケンスの特徴を第2のシーケンスの特徴と整列させるステップと、
    整列させた特徴からなる各対を比較し、整列させた1対の特徴の比較スコアを生成するステップと、
    整列させた特徴からなる全ての対の比較スコアを組み合わせ、第1の特徴のシーケンスと第2の特徴のシーケンスとの間の類似度を求めるステップとを含む方法であって、
    前記比較スコアを生成するステップは、
    第1のシーケンスの整列させた特徴を複数の可能な特徴のそれぞれと比較し、対応する複数の中間比較スコアを求める第1の比較ステップと、
    第2のシーケンスの整列させた特徴を複数の可能な特徴のそれぞれと比較し、他の対応する複数の中間比較スコアを求める第2の比較ステップと、
    前記複数の中間比較スコアを組み合わせ、整列させた1対の特徴の前記比較スコアを求めるステップと、
    を含むことを特徴とする特徴比較方法。
  54. 複数の情報エントリのそれぞれが、特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する方法であって、
    特徴のシーケンスを含む入力問合せを受信するステップと、
    請求項28から53のいずれかに記載された方法を使用して、問合せの特徴のシーケンスを各注釈の特徴と比較し、1組の比較結果を求めるステップと、
    前記比較結果から、前記データベースから検索すべき前記情報を識別するステップと、
    を含むことを特徴とする方法。
  55. 複数の情報エントリのそれぞれが、音声の特徴のシーケンスを含む注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する方法であって、
    音声の特徴のシーケンスを含む入力問合せを受信するステップと、
    音声の特徴からなる前記問合せのシーケンスと各注釈の音声の特徴を比較し、1組の比較結果を求めるステップと、
    前記比較結果を使用して、前記データベースから検索すべき前記情報を識別するステップとを含む方法において、
    前記比較結果を求めるステップにおいて、複数の異なる比較技術を使用して前記比較を行うことができ、該方法が、
    (i)音声の特徴からなる問合せのシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスか、及び(ii)現在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスかを判定し、判定結果を出力するステップと、
    現在の注釈について、前記判定結果に応じて前記比較結果を求めるステップにおける前記比較を行うのに用いられる技術を選択するステップと、
    をさらに含むことを特徴とする方法。
  56. 前記入力問合せと前記現在の注釈が共に音声から生成されたものであると前記判定ステップが判定したときに、前記比較結果を求めるステップにおいて、請求項28から53のいずれか1項に記載の方法が実行されることを特徴とする請求項55に記載の方法。
  57. 複数の情報エントリのそれぞれが、注釈の特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する方法であって、
    入力問合せの複数の表現を受信するステップと、
    入力問合せの各表現を、該表現を表わす問合せの特徴のシーケンスに変換するステップと、
    各表現の問合せの特徴を各注釈の特徴と比較し、1組の比較結果を求めるステップと、
    各表現の問合せの特徴を同じ注釈の特徴と比較することによって得られた比較結果を組み合わせ、各注釈について、入力問合せと注釈との間の類似度を求めるステップと、
    全ての注釈に対する組合せステップによって求められた類似度を使用して、前記データベースから検索すべき前記情報を識別するステップと、
    を含むことを特徴とする方法。
  58. 前記比較結果を求めるステップにおいて、各表現の問合せの特徴が現在の注釈の特徴と同時に比較されることを特徴とする請求項57に記載の方法。
  59. 前記比較結果を求めるステップが、
    各表現の問合せの特徴を現在の注釈の特徴と整列させ、各整列させた群が、各表現の問合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの群を形成するステップと、
    特徴比較器を使用して、整列させた特徴からなる各群の特徴同士を比較し、整列させた特徴からなる群の特徴間の類似性を表す比較スコアを生成するステップとを含み、
    前記組合せステップにおいて、現在の注釈に関する整列させた特徴からなる全ての群の比較スコアが組み合わされ、入力問合せと現在の注釈との間の前記類似度が求められることを特徴とする請求項57又は58に記載の方法。
  60. 前記特徴比較器が、整列させた群中の各特徴を、1組の所定の特徴から得られた複数の特徴のそれぞれと比較し、該群中の特徴と1組の特徴のそれぞれとの間の類似性を表す対応する複数の中間スコアを求め、生成された複数の対応する中間比較スコアを組み合わせることによって、整列させた群の前記比較スコアを算出することを特徴とする請求項59に記載の装置。
  61. 特徴比較方法であって、
    各シーケンスが、入力問合せの表現を表す、問合せの特徴からなる第1及び第2のシーケンスを受信するステップと、
    注釈の特徴のシーケンスを受信するステップと、
    各表現の問合せの特徴を注釈の特徴と整列させ、各整列させた群が各表現の問合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの群を形成するステップと、
    整列させた特徴からなる各群の特徴同士を比較し、整列させた群の特徴間の類似性を表す比較スコアを生成するステップと、
    整列させた特徴からなる全ての群の比較スコアを組み合わせ、入力問合せの表現と注釈との間の類似度を求めるステップとを含む方法において、
    前記比較スコアを生成するステップは、
    整列させた各群について、整列させた群における第1の問合せのシーケンスの特徴を、1組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、前記第1の問合せのシーケンスの特徴と1組の特徴におけるそれぞれの特徴との間の類似性を表す対応する複数の中間比較スコアを求めるステップと、
    整列させた各群について、整列させた群における第2の問合せのシーケンスの特徴を、1組の特徴における前記複数の特徴のそれぞれと比較し、前記第2の問合せのシーケンスの特徴と1組の特徴におけるそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを求めるステップと、
    整列させた各群について、整列させた群における注釈の特徴を、1組の特徴における前記複数の特徴のそれぞれと比較し、前記注釈の特徴と1組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを示すステップと、
    前記複数の中間比較スコアを組み合わせることにより、整列させた群の前記比較スコアを算出するステップと、
    を含むことを特徴とする特徴比較方法。
  62. 複数の情報エントリのそれぞれが、音声注釈の特徴のシーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含むデータベースを探索する方法であって、
    入力音声問合せの複数の表現を受信するステップと、
    入力問合せの各表現を、表現内の音声を表す音声問合せの特徴のシーケンスに変換するステップと、
    音声問合せの特徴を各注釈の各表現の音声注釈の特徴と比較し、入力問合せと各注釈との間に類似度を求めるステップと、
    全ての注釈に対する組合せステップによって求められた類似度を使用して、前記データベースから検索すべき前記情報を識別するステップとを含む方法であって、
    前記類似度を求めるステップは複数の異なる比較動作モードを有し、該方法が、
    現在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケンスか、それともテキストから生成されたシーケンスかを判定し、判定結果を出力するステップと、
    現在の注釈について、前記判定結果に応じて前記類似度を求めるステップの動作モードを選択するステップとをさらに含むことを特徴とする方法。
  63. 1つ又は複数の前記情報エントリが、関連する注釈であることを特徴とする請求項54から62のいずれか1項に記載の方法。
  64. プロセッサを請求項28から63のいずれか1項に記載の方法を実施するように制御する、プロセッサによって実施できる命令を記憶することを特徴とする記憶媒体。
JP2001534133A 1999-10-28 2000-10-25 パターン整合方法及び装置 Expired - Fee Related JP3689670B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
GB9925561.4 1999-10-28
GBGB9925560.6A GB9925560D0 (en) 1999-10-28 1999-10-28 Pattern matching method and apparatus
GB9925560.6 1999-10-28
GBGB9925561.4A GB9925561D0 (en) 1999-10-28 1999-10-28 Pattern matching method and apparatus
GB0025143A GB2355836B (en) 1999-10-28 2000-10-13 Pattern matching method and apparatus
GB0025143.9 2000-10-13
PCT/GB2000/004112 WO2001031627A2 (en) 1999-10-28 2000-10-25 Pattern matching method and apparatus

Publications (2)

Publication Number Publication Date
JP2003513383A JP2003513383A (ja) 2003-04-08
JP3689670B2 true JP3689670B2 (ja) 2005-08-31

Family

ID=27255934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001534133A Expired - Fee Related JP3689670B2 (ja) 1999-10-28 2000-10-25 パターン整合方法及び装置

Country Status (6)

Country Link
US (2) US7212968B1 (ja)
EP (1) EP1228452B1 (ja)
JP (1) JP3689670B2 (ja)
CN (1) CN1329861C (ja)
DE (1) DE60036486T2 (ja)
WO (1) WO2001031627A2 (ja)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
GB0011798D0 (en) 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
FR2837969A1 (fr) * 2002-03-29 2003-10-03 France Telecom Procede de traduction de donnees autorisant une gestion de memoire simplifiee
US8959019B2 (en) 2002-10-31 2015-02-17 Promptu Systems Corporation Efficient empirical determination, computation, and use of acoustic confusability measures
GB2399983A (en) * 2003-03-24 2004-09-29 Canon Kk Picture storage and retrieval system for telecommunication system
GB2404040A (en) 2003-07-16 2005-01-19 Canon Kk Lattice matching
WO2005010866A1 (en) * 2003-07-23 2005-02-03 Nexidia Inc. Spoken word spotting queries
US7676739B2 (en) * 2003-11-26 2010-03-09 International Business Machines Corporation Methods and apparatus for knowledge base assisted annotation
US7401019B2 (en) * 2004-01-15 2008-07-15 Microsoft Corporation Phonetic fragment search in speech data
US8694317B2 (en) * 2005-02-05 2014-04-08 Aurix Limited Methods and apparatus relating to searching of spoken audio data
US7293022B2 (en) * 2005-04-14 2007-11-06 International Business Machines Corporation List update employing neutral sort keys
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
JP5322655B2 (ja) * 2005-12-08 2013-10-23 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 莫大な語彙を有する音声認識システム
US7877256B2 (en) * 2006-02-17 2011-01-25 Microsoft Corporation Time synchronous decoding for long-span hidden trajectory model
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
WO2007134293A2 (en) * 2006-05-12 2007-11-22 Nexidia, Inc. Wordspotting system
US8255216B2 (en) * 2006-10-30 2012-08-28 Nuance Communications, Inc. Speech recognition of character sequences
US7912724B1 (en) * 2007-01-18 2011-03-22 Adobe Systems Incorporated Audio comparison using phoneme matching
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US8457959B2 (en) * 2007-03-01 2013-06-04 Edward C. Kaiser Systems and methods for implicitly interpreting semantically redundant communication modes
US20090299731A1 (en) * 2007-03-12 2009-12-03 Mongoose Ventures Limited Aural similarity measuring system for text
GB0704772D0 (en) * 2007-03-12 2007-04-18 Mongoose Ventures Ltd Aural similarity measuring system for text
US8069044B1 (en) * 2007-03-16 2011-11-29 Adobe Systems Incorporated Content matching using phoneme comparison and scoring
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8436815B2 (en) 2007-05-25 2013-05-07 Microsoft Corporation Selective enabling of multi-input controls
US7788095B2 (en) * 2007-11-18 2010-08-31 Nice Systems, Ltd. Method and apparatus for fast search in call-center monitoring
US20100153112A1 (en) * 2008-12-16 2010-06-17 Motorola, Inc. Progressively refining a speech-based search
US20120036155A1 (en) * 2009-04-03 2012-02-09 Netcycler Oy On-line searching systems
US8719016B1 (en) 2009-04-07 2014-05-06 Verint Americas Inc. Speech analytics system and system and method for determining structured speech
US8321218B2 (en) * 2009-06-19 2012-11-27 L.N.T.S. Linguistech Solutions Ltd Searching in audio speech
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
CN102314876B (zh) * 2010-06-29 2013-04-10 株式会社理光 语音检索的方法和系统
CN102411563B (zh) 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
US20120209606A1 (en) * 2011-02-14 2012-08-16 Nice Systems Ltd. Method and apparatus for information extraction from interactions
US8914286B1 (en) * 2011-04-14 2014-12-16 Canyon IP Holdings, LLC Speech recognition with hierarchical networks
US8827710B2 (en) 2011-05-19 2014-09-09 Microsoft Corporation Realtime user guidance for freehand drawing
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
US9734151B2 (en) * 2012-10-31 2017-08-15 Tivo Solutions Inc. Method and system for voice based media search
US20150279351A1 (en) * 2012-12-19 2015-10-01 Google Inc. Keyword detection based on acoustic alignment
US9529907B2 (en) * 2012-12-31 2016-12-27 Google Inc. Hold back and real time ranking of results in a streaming matching system
US9880990B2 (en) 2013-03-14 2018-01-30 Microsoft Technology Licensing, Llc Leveraging previous instances of handwriting for handwriting beautification and other applications
CN104157285B (zh) * 2013-05-14 2016-01-20 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
US9536180B2 (en) 2013-12-30 2017-01-03 Google Inc. Text recognition based on recognition units
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
JP2016521383A (ja) * 2014-04-22 2016-07-21 キューキー インコーポレイテッドKeukey Inc. 少なくとも一つの意味論的単位の集合を改善するための方法、装置およびコンピュータ読み取り可能な記録媒体
KR20160056548A (ko) 2014-11-12 2016-05-20 삼성전자주식회사 질의 응답을 위한 디스플레이 장치 및 방법
US10558926B2 (en) * 2014-11-20 2020-02-11 Academia Sinica Statistical pattern generation for information extraction
CN107112010B (zh) * 2015-01-16 2021-06-01 三星电子株式会社 用于使用语法模型执行话音识别的方法和设备
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10192555B2 (en) * 2016-04-28 2019-01-29 Microsoft Technology Licensing, Llc Dynamic speech recognition data evaluation
US10269353B2 (en) * 2016-08-30 2019-04-23 Tata Consultancy Services Limited System and method for transcription of spoken words using multilingual mismatched crowd unfamiliar with a spoken language
BR112020023552A2 (pt) * 2018-05-18 2021-02-09 Greeneden U.S. Holdings Ii, Llc métodos para treinar um modelo de confiança em um sistema de reconhecimento automático de fala e para converter entrada de fala em texto usando modelagem de confiança com uma abordagem multiclasse, e, sistema destinado a converter fala de entrada em texto.
CN109299223B (zh) * 2018-10-15 2020-05-15 百度在线网络技术(北京)有限公司 用于查询指令的方法及装置
CN113192501B (zh) * 2021-04-12 2022-04-22 青岛信芯微电子科技股份有限公司 一种指令词识别方法及装置

Family Cites Families (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4227176A (en) 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
JPS59226400A (ja) 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US5131043A (en) 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
FR2554623B1 (fr) 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US4980918A (en) 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4903305A (en) 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
JP2739945B2 (ja) 1987-12-24 1998-04-15 株式会社東芝 音声認識方法
US5075896A (en) 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US6236964B1 (en) 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US5136655A (en) 1990-03-26 1992-08-04 Hewlett-Pacard Company Method and apparatus for indexing and retrieving audio-video data
US5202952A (en) 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5390278A (en) 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5333275A (en) 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
US5625554A (en) 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
DE69333422T2 (de) 1992-07-31 2004-12-16 International Business Machines Corp. Auffindung von Zeichenketten in einer Datenbank von Zeichenketten
EP0597798A1 (en) 1992-11-13 1994-05-18 International Business Machines Corporation Method and system for utilizing audible search patterns within a multimedia presentation
AU5803394A (en) 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5467425A (en) 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
US5787414A (en) 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
EP0645757B1 (en) 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
WO1995014974A1 (en) * 1993-11-29 1995-06-01 Rossides Michael T Input system for text retrieval
SE513456C2 (sv) 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
IT1272259B (it) 1994-05-30 1997-06-16 Texas Instruments Italia Spa Procedimento ed apparecchio per il riconoscimento dei caratteri
JP3260979B2 (ja) 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5799267A (en) 1994-07-22 1998-08-25 Siegel; Steven H. Phonic engine
US5737723A (en) 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5835667A (en) 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
ES2143079T3 (es) 1994-11-01 2000-05-01 British Telecomm Reconocimiento de voz.
US5680605A (en) 1995-02-07 1997-10-21 Torres; Robert J. Method and apparatus for searching a large volume of data with a pointer-based device in a data processing system
CN1150515C (zh) 1995-03-07 2004-05-19 英国电讯公司 语音识别方法和装置
CA2170669A1 (en) 1995-03-24 1996-09-25 Fernando Carlos Neves Pereira Grapheme-to phoneme conversion with weighted finite-state transducers
US5675706A (en) 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5729741A (en) 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
JPH10503033A (ja) 1995-05-03 1998-03-17 フィリップス エレクトロニクス ネムローゼ フェン ノートシャップ 新ワードのモデル化に基づく音声認識方法及びその装置
US6070140A (en) 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
JPH0916598A (ja) 1995-07-03 1997-01-17 Fujitsu Ltd エラー・パターンを用いた文字列修正システムおよび方法
US5721939A (en) 1995-08-03 1998-02-24 Xerox Corporation Method and apparatus for tokenizing text
US5684925A (en) 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5737489A (en) 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
JPH09128396A (ja) 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US6567778B1 (en) 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
GB2303955B (en) 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5870740A (en) 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US5708759A (en) 1996-11-19 1998-01-13 Kemeny; Emanuel S. Speech recognition using phoneme waveform parameters
US6172675B1 (en) 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US5852822A (en) 1996-12-09 1998-12-22 Oracle Corporation Index-only tables with nested group keys
EP0849723A3 (en) 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
WO1998047084A1 (en) 1997-04-17 1998-10-22 Sharp Kabushiki Kaisha A method and system for object-based video description and linking
WO1999005681A1 (de) 1997-07-23 1999-02-04 Siemens Aktiengesellschaft Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz
US6006182A (en) * 1997-09-22 1999-12-21 Northern Telecom Limited Speech recognition rejection method using generalized additive models
JP2001517815A (ja) 1997-09-24 2001-10-09 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 言語認識上の類似発声識別方法及び装置
US6026398A (en) 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6061679A (en) 1997-11-25 2000-05-09 International Business Machines Corporation Creating and searching a data structure ordered by ranges of key masks associated with the data structure
US5983177A (en) 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US6289140B1 (en) 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
US6182039B1 (en) 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6243680B1 (en) 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6321226B1 (en) 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6192337B1 (en) 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US6490563B2 (en) 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
DE19842404A1 (de) 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
FR2786600B1 (fr) * 1998-11-16 2001-04-20 France Telecom Procede de recherche par le contenu de documents textuels utilisant la reconnaissance vocale
WO2000031723A1 (en) 1998-11-25 2000-06-02 Sony Electronics, Inc. Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system
US6243676B1 (en) * 1998-12-23 2001-06-05 Openwave Systems Inc. Searching and retrieving multimedia information
KR100828884B1 (ko) 1999-03-05 2008-05-09 캐논 가부시끼가이샤 데이터베이스 주석 및 검색
US6463413B1 (en) 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
GB2349260B (en) 1999-04-23 2003-05-28 Canon Kk Training apparatus and method
US6662180B1 (en) 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
US6535849B1 (en) * 2000-01-18 2003-03-18 Scansoft, Inc. Method and system for generating semi-literal transcripts for speech recognition systems
US6567816B1 (en) 2000-03-07 2003-05-20 Paramesh Sampatrai Desai Method, system, and program for extracting data from database records using dynamic code
US6535850B1 (en) 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary
GB0011798D0 (en) 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval

Also Published As

Publication number Publication date
US20070150275A1 (en) 2007-06-28
EP1228452B1 (en) 2007-09-19
US7295980B2 (en) 2007-11-13
DE60036486D1 (de) 2007-10-31
CN1329861C (zh) 2007-08-01
JP2003513383A (ja) 2003-04-08
DE60036486T2 (de) 2008-06-12
WO2001031627A2 (en) 2001-05-03
CN1409842A (zh) 2003-04-09
EP1228452A2 (en) 2002-08-07
US7212968B1 (en) 2007-05-01
WO2001031627A3 (en) 2002-05-23

Similar Documents

Publication Publication Date Title
JP3689670B2 (ja) パターン整合方法及び装置
US7310600B1 (en) Language recognition using a similarity measure
US7054812B2 (en) Database annotation and retrieval
US6873993B2 (en) Indexing method and apparatus
US6882970B1 (en) Language recognition using sequence frequency
US7590605B2 (en) Lattice matching
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US5832428A (en) Search engine for phrase recognition based on prefix/body/suffix architecture
JP3689455B2 (ja) 情報処理方法及び装置
US7089188B2 (en) Method to expand inputs for word or document searching
US9405823B2 (en) Spoken document retrieval using multiple speech transcription indices
US6598017B1 (en) Method and apparatus for recognizing speech information based on prediction
JP5241840B2 (ja) データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム
US20020052740A1 (en) Database annotation and retrieval
US20070179784A1 (en) Dynamic match lattice spotting for indexing speech content
JP3747171B2 (ja) 音声処理システム
GB2355837A (en) Pattern matching
GB2355836A (en) Pattern matching
GB2355835A (en) Pattern matching
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
KR20020052196A (ko) 패턴 매칭 방법 및 장치
US20230015324A1 (en) Retrieval device
Seide et al. Word-lattice based spoken-document indexing with standard text indexers
AU2006201110A1 (en) Dynamic match lattice spotting for indexing speech content
Sun et al. A Robust Parsing Technique for Spoken Language Understanding Based on Conceptual Relational Grammar

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050603

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050613

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080617

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090617

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090617

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100617

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110617

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120617

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120617

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130617

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees