JP2003513383A - パターン整合方法及び装置 - Google Patents

パターン整合方法及び装置

Info

Publication number
JP2003513383A
JP2003513383A JP2001534133A JP2001534133A JP2003513383A JP 2003513383 A JP2003513383 A JP 2003513383A JP 2001534133 A JP2001534133 A JP 2001534133A JP 2001534133 A JP2001534133 A JP 2001534133A JP 2003513383 A JP2003513383 A JP 2003513383A
Authority
JP
Japan
Prior art keywords
features
sequence
annotation
feature
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001534133A
Other languages
English (en)
Other versions
JP3689670B2 (ja
Inventor
フィリップ, ニール ガーナー,
ジェイソン, ピーター, アンドリュー チャールズワース,
麻子 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB9925561.4A external-priority patent/GB9925561D0/en
Priority claimed from GBGB9925560.6A external-priority patent/GB9925560D0/en
Priority claimed from GB0025143A external-priority patent/GB2355836B/en
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2003513383A publication Critical patent/JP2003513383A/ja
Application granted granted Critical
Publication of JP3689670B2 publication Critical patent/JP3689670B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 テキスト又は音声から生成することのできる両方又は全てを2つ以上の音韻シーケンスを整合させるシステムが提供される。2つのシーケンスがテキストから生成されるか、それとも音声から生成されるか否かに依存する制約を有し、ダイナミックプログラミングパスのスコアが適当な場合に音韻異聴スコア、音韻挿入スコア、及び音韻削除スコアによって重み付けされるダイナミックプログラミング整合技術を使用することが好ましい。

Description

【発明の詳細な説明】
【0001】 本発明は、音韻のシーケンスを整合させる装置及び方法に関する。ユーザが入
力した問合せに応答して、関連する音声注釈を有するデータファイルのデータベ
ースを探索するために本発明を用いることができる。入力される問合せは、音声
であっても、あるいはキーボードから入力問合せでもよい。
【0002】 情報のデータベースは公知であり、このようなデータベースでは、所望の情報
を高速にかつ効率的に見つけてデータベースから取り込むにはどうすべきかが問
題である。既存のデータベース探索ツールは、ユーザが、キーボードから入力さ
れたキーワードを使用してデータベースを探索できるようにする。これは高速で
効率的であるが、この種の探索は、ビデオデータベースやオーディオデータベー
スなど様々な種類のデータベースに適していない。
【0003】 オーディオファイル及びビデオファイル内の音声内容の音声表記を用いてこの
ようなビデオデータベース及びオーディオデータベースに注釈付けし、その後の
検索は、ユーザが入力した問合せの音声表記をデータベース内の音韻注釈データ
と比較することによって達成することが最近提案されている。音韻のシーケンス
を整合させるために提案されたこの技術では、まず各特徴が音韻ストリングの重
なり合う一定サイズの断片とみなされる、問合せ中の1組の特徴が定義され、次
いで問合せと注釈の両方において各特徴の発生頻度が識別され、最後にこれらの
発生頻度の余弦度を使用して問合せと注釈の間の類似性の程度が判定される。こ
の種の音韻比較技術の1つの利点は、問合せの単語のシーケンスが注釈の単語の
シーケンスに厳密には一致していない状況に対処できることである。しかし、特
に、問合せと注釈が異なる速度で発声されたときや、問合せから一部の単語が削
除され、注釈からは削除されないか、あるいは注釈から一部の単語が削除され、
問合せからは削除されない場合にエラーが起こりやすいという問題がある。
【0004】 本発明の目的は、データベースを探索するための他のシステムを提供すること
である。
【0005】 一態様によれば、本発明は、特徴の第1及び第2のシーケンスを受信する手段
と、第1のシーケンスの特徴を第2のシーケンスの特徴と整列させ、いくつかの
整列させた特徴対を形成する手段と、整列させた各特徴対の各特徴を比較し、整
列させた特徴対の間の類似性を表す比較スコアを生成する手段と、全ての整列さ
せた特徴対の比較スコアを組み合わせ、第1の特徴のシーケンスと第2の特徴の
シーケンスとの間の類似性の程度を提供する手段とを備える特徴比較装置であっ
て、比較手段が、整列させた各対について、整列させた対における第1のシーケ
ンスの特徴を、1組の所定の特徴から取り出された複数の特徴のそれぞれと比較
し、第1のシーケンスの特徴と1組の特徴から得たそれぞれの特徴との間の類似
性を表す対応する複数の中間比較スコアを提供する第1の比較手段と、整列させ
た各対について、整列させた対における第2のシーケンスの特徴を、1組の特徴
から得た複数の特徴のそれぞれと比較し、第2のシーケンスの特徴と1組の特徴
から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコ
アを示す第2の比較手段と、複数の中間比較スコアを組み合わせることにより、
整列させた対の比較スコアを算出する手段とを備えることを特徴とする特徴比較
装置を提供する。このようなシステムは、認識システムが特徴を誤って認識する
ことによる第1の特徴のシーケンスと第2の特徴のシーケンスの両方の変動を考
慮するという利点を有する。
【0006】 他の態様によれば、本発明は、データベース間の各エントリが、音声の特徴か
らなるシーケンスを含む情報エントリのデータベースを探索し、データベースが
検索すべき情報を識別する装置であって、音声の特徴のシーケンスを含む入力問
合せを受信する手段と、音声の特徴からなる問合せのシーケンスと音声の特徴か
らなるデータベースシーケンスの各特徴を比較し、1組の比較結果を与える手段
と、比較結果を使用して、データベースから検索すべき情報を識別する手段とを
備える装置において、比較手段が、複数の異なる比較動作モードを有し、該装置
が、(i)音声の特徴からなる問合せのシーケンスがオーディオ信号から生成さ
れたシーケンスか、それともテキストから生成されたシーケンスか、及び(ii
)音声の特徴からなる現在のデータベースシーケンスがオーディオ信号から生成
されたシーケンスか、それともテキストから生成されたシーケンスかを判定する
ための、及び判定結果を出力するための手段と、現在のデータベースシーケンス
について、判定結果に応じて比較手段の動作モードを選択する手段とをさらに備
えることを特徴とする装置を提供する。入力問合せと注釈が共に音声から生成さ
れたと判定手段が判定したときに、比較手段が上述した装置として動作すること
が好ましい。
【0007】 他の態様によれば、本発明は、各情報エントリが、音声注釈の特徴のシーケン
スを含む関連する注釈を有する、複数の情報エントリを含むデータベースを検索
し、データベースから検索すべき情報を識別する装置であって、 入力音声問合せの複数のオーディオ表現を受信する手段と、 入力問合せの各表現を、表現内の音声を表す、音声問合せの特徴からなるシー
ケンスに変換する手段と、 各表現の音声問合せの特徴を各注釈の音声注釈の特徴と比較し、1組の比較結
果を与える手段と、 各表現の音声問合せの特徴を同じ注釈の音声注釈の特徴と比較することによっ
て得られた比較結果を互いに組み合わせ、各注釈について、入力問合せと注釈と
の間の類似性の程度を示す手段と、 組合せ手段によって全ての注釈について示された類似性の程度を使用して、デ
ータベースから検索すべき情報を識別する手段とを備える装置を提供する。
【0008】 他の態様によれば、本発明は、特徴比較装置であって、 各シーケンスが、入力問合せの表現を表す、問合せの特徴からなる第1及び第
2のシーケンスを受信する手段と、 注釈の特徴のシーケンスを受信する手段と、 各表現の問合せの特徴を注釈の特徴と整列させ、各群が、各表現から得た問合
せの特徴と注釈の特徴とを備える、いくつかの整列させた特徴群を形成する手段
と、 整列させた各特徴群の各特徴を比較し、整列させた群の各特徴間の類似性を表
す比較スコアを生成する手段と、 全ての整列させた特徴群の比較スコアを組み合わせ、入力問合せの表現と注釈
との間の類似性の程度を示す手段とを備える装置において、 比較手段が、 整列させた各群について、整列させた群中の第1の問合せのシーケンスの特徴
を、1組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、第1の
問合せのシーケンスの特徴と1組の特徴から得たそれぞれの特徴との間の類似性
を表す対応する複数の中間比較スコアを示す第1の特徴比較器と、 整列させた各群について、整列させた群中の第2の問合せのシーケンスの特徴
を、1組の特徴から得た複数の特徴のそれぞれと比較し、第2の問合せのシーケ
ンスの特徴と1組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応
する複数の中間比較スコアを示す第2の特徴比較器と、 整列させた各群について、整列させた群中の注釈の特徴を、1組の特徴から得
た複数の特徴のそれぞれと比較し、注釈の特徴と1組の特徴から得たそれぞれの
特徴との間の類似性を表す他の対応する複数の中間比較スコアを示す第3の特徴
比較器と、 複数の中間比較スコアを組み合わせることにより、整列させた群の比較スコア
を算出する手段とを備えることを特徴とする特徴比較装置を提供する。
【0009】 次に、本発明の例示的な実施形態について、図1から図28を参照して説明す
る。
【0010】 本発明の実施形態は、専用ハードウェア回路を使用して実施することができる
が、以下に説明する実施形態は、パーソナルコンピュータ、ワークステーション
、複写機、ファックス機、パーソナルデジタルアシスタント(PDA)などの処
理ハードウェアに関連して実行される異なるコンピュータソフトウェア又はコー
ドで実施される。
【0011】 (データファイル注釈) 図1には、ユーザが、データベース29に格納されるデータファイル91に注
釈付けするためにキーボード3及びマイクロフォン7を介してキーボードからの
注釈データ又は音声注釈データを入力できるようにするユーザ端末59の形態が
示されている。この実施形態では、データファイル91は、たとえばカメラによ
って生成された二次元画像を含んでいる。ユーザ端末59は、ユーザ39が、後
でデータベース29から2D画像を検索するときに使用できる適切な注釈を2D
画像に付与できるようにする。この実施形態では、キーボードからの入力は、キ
ーボードからの入力が音声表記ユニット75によって音韻(又は音韻状)ラティ
ス注釈データ及び単語ラティス注釈データに変換され、このデータが制御ユニッ
ト55に渡される。図2には、キーボードからの入力「タージマハルの写真」に
ついて生成された音韻ラティス注釈データ及び単語ラティス注釈データの形態が
示されている。図2に示されているように、音韻ラティス及び単語ラティスは、
単一の入口点及び単一の出口点を有する非循環有向グラフである。このグラフは
ユーザの入力の様々な解析を表す。図示のように、音声表記ユニット75は、内
部音声ディクショナリ(図示せず)から、キーボードからの入力に対応するいく
つかの異なる可能な音韻ストリングを識別する。
【0012】 同様に、音声入力は、自動音声認識ユニット51によって音韻(又は音韻状)
ラティス注釈データ及び単語ラティス注釈データに変換され、このデータがやは
り制御ユニット55に渡される。自動音声認識ユニット51は、(i)入力され
た発声の音韻ラティスを生成し、(ii)次いで音韻ラティス内の単語を識別し
、(iii)最後にこの2つを組み合わせることによって、この音韻ラティス注
釈データ及び単語ラティス注釈データを生成する。図3には、入力された発声「
タジマハールの写真」について生成された音韻ラティス注釈データ及び単語ラテ
ィス注釈データの形態が示されている。図示のように、自動音声認識ユニットは
、この入力された発声に対応するいくつかの異なる可能な音韻ストリングを識別
する。音声認識技術分野で公知のように、これらの異なる可能性は、音声認識ユ
ニット51によって生成され、音声認識ユニットの出力の信頼性を示す独自の重
み付けを有することができる。しかし、この実施形態では、各音韻のこの重み付
けは行われない。図3に示されているように、自動音声認識ユニット51が識別
する音韻ラティス内の単語は、音韻ラティスデータ構造に組み込まれる。上記で
与えた句の例に関して示したように、自動音声認識ユニット51は単語「写真(
picture)」、「〜の(of)」、「off」、「the」、「othe
r」、「ta」、「tar」、「jam」、「ah」、「hal」、「ha」、
及び「al」を識別する。
【0013】 図3に示されているように、自動音声認識ユニット51によって生成される音
韻ラティス及び単語ラティスは、単一の入口点及び単一の出口点を有する非循環
有向グラフである。このグラフは、ユーザが入力した注釈の発声の様々な解析を
表す。このグラフは、いくつかの単語とそれに代わる単語との単なるシーケンス
ではない。というのは、各単語を単一の他の単語で置き換える必要がなく、1つ
の単語を2つ以上の単語又は音韻で置き換えることができ、構造全体が1つ又は
複数の単語又は音韻に代わるものを形成することができるからである。したがっ
て、音韻ラティス注釈データ及び単語ラティス注釈データ内のデータの密度は、
オーディオ注釈入力に関するN最良単語リストを生成するシステムの場合と同様
に指数関数的に成長するのではなく、基本的に注釈データ全体にわたって線形の
ままである。
【0014】 この実施形態では、自動音声認識ユニット51又は音声表記ユニット75によ
って生成される注釈データは以下の一般的な形式を有する。
【0015】 ヘッダ −単語であるか、音韻であるか、混合されたものであるかを示すフラグ −メモリ内の注釈データの各ブロックの位置を所与の時点に関連付ける時間
インデックス −使用される単語セット(すなわち、ディクショナリ) −使用される音韻セット −語彙が属する言語 −音韻確率データ ブロック(i) i=0、1、2、... ノードNj j=0、1、2、... −ノードの、ブロックの開始位置からの時間のずれ −音韻リンク(k) k=0、1、2、... ノードNjに対するずれ=Nk−Nj(Nkは、リンクKが連結されている
ノード) リンク(k)に関連する音韻 −単語リンク(l) l=0、1、2、... ノードNjに対するずれ=Ni−Nj(Njは、リンクlが連結されている
ノード) リンク(l)に関連する単語 データベース内の全てのデータファイルが、上述の音韻ラティス注釈データと
単語ラティス注釈データの組合せを含むとは限らず、この場合、異なる探索方式
を使用してこの注釈データが探索されるので、注釈データが単語注釈データであ
るか、それとも音韻注釈データであるか、それともそれらが混合されたものであ
るかを識別するフラグが与えられる。
【0016】 この実施形態では、注釈データは、探索が所与の探索に関する注釈データの中
央にジャンプできるようにノードのブロックに分割される。したがって、ヘッダ
は、メモリ内の注釈データの各ブロックの位置を開始時間からこのブロックの開
始位置に対応する時間までの時間のずれに関連付ける時間インデックスを含む。
【0017】 ヘッダは、使用される単語セット(すなわち、ディクショナリ)を定義するデ
ータ、使用される音韻及びそれらの確率、ならびに語彙が属する言語も含む。ヘ
ッダは、注釈データと、注釈データの生成時に使用された注釈データの適切な設
定とを生成するのに用いられる自動音声認識システムの詳細を含むこともできる
【0018】 注釈データの各ブロックの後に、ブロック内の各ノードについて、ヘッダ及び
ID、ノードの、ブロックの開始位置からの時間のずれ、このノードを音韻によ
って他のノードに連結する音韻リンク、ならびにこのノードを単語によって他の
ノードに連結する単語リンクが位置する。各音韻リンク及び単語リンクは、この
リンクに関連する音韻又は単語を識別する。これらのリンクは、現在のノードに
対するずれを識別する。たとえば、ノードN50が音韻リンクによってノードN
55にリンクされている場合、ノードN50のずれは5である。当業者なら理解
できるように、このようなずれ表示を使用することによって、連続的な注釈デー
タを別々のブロックに分割することができる。
【0019】 自動音声認識ユニットがその出力の信頼性を示す重みを出力する一実施形態で
は、このような重み、すなわち信頼性スコアもデータ構造内に含められる。具体
的には、ノードに到着する信頼性を示す信頼性スコアが各ノードごとに与えられ
、音韻リンク及び単語リンクのそれぞれが、対応する音韻又は単語に与えられる
重みに応じた遷移スコアを含む。この場合、このような重みを使用して、信頼性
スコアの低い一致を破棄することによってデータファイルの探索及び検索が制御
される。
【0020】 制御ユニット55は、ユーザの入力に応じて、データベース29から適切な2
Dファイルを検索し、生成された音韻注釈データ及び単語注釈データをデータフ
ァイル91に付加する。次いで、増やされたデータファイルはデータベース29
に戻される。この注釈ステップ中に、制御ユニット55はディスプレイ57上に
2D画像を表示するように動作することができ、したがって、ユーザは、注釈デ
ータに正しいデータファイル91を確実に関連付けることができる。
【0021】 以下に詳しく説明するように、このような音韻ラティス注釈データ及び単語ラ
ティス注釈データを使用すると、データベース29を高速にかつ効率的に探索し
、データベース29に格納されている所望の2D画像データファイルを識別し検
索することができる。これは、まず単語データを使用してデータベース29を探
索し、この探索において必要なデータファイルが得られなかった場合に、よりロ
バストな音韻データを使用してさらに探索を実行することによって行うことがで
きる。音声認識業界の当業者には認識されるように、音韻がディクショナリに依
存し、かつ音韻によってシステムは名称、場所、外国語などの単語に語彙から対
処できるようになるので、音韻データを使用することはよりロバストである。音
韻データを使用することによって、システムを将来も問題なく使用することが可
能になる。これは、最初の注釈が音声によって入力され、最初の自動音声認識シ
ステムが入力された注釈の単語を理解できなかったときに、データベース29に
格納されているデータファイルを検索することができるからである。
【0022】 (データファイル検索) 図4は、この実施形態で、注釈付けされた2D画像をデータベース29から検
索するのに用いられるユーザ端末59の形態を示すブロック図である。このユー
ザ端末59はたとえば、パーソナルコンピュータ、ハンドヘルド装置などでよい
。図示のように、この実施形態では、ユーザ端末59は、注釈付けされた2D画
像のデータベース29、自動音声認識ユニット51、音声表記ユニット75、キ
ーボード3、マイクロフォン7、探索エンジン53、制御ユニット55、及びデ
ィスプレイ57を備える。動作時に、ユーザは、マイクロフォン7を介して音声
問合せを入力するか、あるいはキーボード3を介して問合せを入力し、この問合
せが自動音声認識ユニット51又は音声表記ユニット75によって処理され、対
応する音韻データ及び単語データが生成される。このデータは音韻ラティス及び
単語ラティスの形をとることもできるが、このことは必須ではない。この音韻デ
ータ及び単語データは次いで、制御ユニット55に入力され、制御ユニット55
は、探索エンジン53を使用してデータベース29の適切な探索を開始すること
ができる。次いで、探索エンジン53によって生成された探索の結果が制御ユニ
ット55に送り返され、制御ユニット55は探索結果を分析し、適切な表示デー
タ(たとえば、検索された2D画像)を生成し、ディスプレイ57を介してユー
ザに表示する。
【0023】 図5a及び図5bは、この実施形態でユーザ端末59がどのように動作するか
を示す流れ図である。ステップs1で、ユーザ端末59はアイドル状態であり、
ユーザ39からの問合せの入力を待っている。入力問合せが受信されると、ステ
ップs3で、自動音声認識ユニット51又は音声表記ユニット75により、入力
問合せの音韻データ及び単語データが生成される。次いで、ステップs5で、制
御ユニット55が探索エンジン53に、入力問合せから生成された単語データを
使用してデータベース29の探索を実行するよう命令する。この実施形態で使用
される単語探索は、現在当技術分野において、入力された単語の探索に使用され
ている探索と同じであり、ここではこれ以上詳しくは説明しない。ステップs7
で、制御ユニット55は、ユーザが入力した問合せに対する一致が見つかったこ
とを探索結果から確認した場合、その探索結果をディスプレイ57を介してユー
ザに出力する。
【0024】 この実施形態では、ユーザ端末59は次いで、ユーザに探索結果を検討させ、
結果が、ユーザが要求した情報に対応する結果であるかどうかに関するユーザの
確認を待つ。対応する結果である場合、処理はステップs11から処理の終わり
に進み、ユーザ端末59はアイドル状態に戻り、次の問合せの入力を待つ。しか
し、探索結果が所望の情報に対応していないことを(たとえば、適切な音声コマ
ンドを入力することによって)ユーザが示した場合、処理はステップs11から
ステップs13に進み、探索エンジン53がデータベース29の音韻探索を実行
する。しかし、この実施形態では、ステップs13で実行される音韻探索はデー
タベース29全体の探索ではない。というのは、全体を探索すると、データベー
スのサイズによっては数時間かかるからである。
【0025】 一方、ステップs13で実行される音韻探索では、ステップs5で実行された
単語探索の結果を使用して、ユーザが入力した問合せに対応するデータベース内
の1つ又は複数の部分が識別される。たとえば、問合せが3つの単語を含んでお
り、単語探索で注釈内の問合せ単語のうちの1つ又は2つが識別されるに過ぎな
い場合、注釈の、識別された単語の周りの部分の音韻探索が実行される。この実
施形態においてステップs13で実行される音韻探索がどのように行われるかに
ついては以下に詳しく説明する。
【0026】 音韻探索が行われた後、制御ユニット55はステップs15で、一致が見つか
ったかどうかを確認する。一致が見つかった場合、処理はステップs17に進み
、制御ユニット55は探索結果をディスプレイ57上でユーザに対して表示させ
る。この場合も、システムは、探索結果が所望の情報に対応する結果であるかど
うかに関するユーザの確認を待つ。結果が正しい場合、処理はステップs19か
ら処理の終わりに進み、ユーザ端末59がアイドル状態に戻り、次の問合せの入
力を待つ。しかし、探索結果が所望の情報に対応していないことをユーザが示し
た場合、処理はステップs19からステップs21に進む。ステップs21で、
制御ユニット55は、音韻探索をデータベース29全体に対して実行すべきかど
うかをディスプレイ57を介してユーザに尋ねるよう動作することができる。こ
の問合せに応答して、ユーザがこのような探索を実行すべきであると示した場合
、処理はステップs23に進み、探索エンジンがデータベース29全体の音韻探
索を実行する。
【0027】 この探索が完了すると、制御ユニット55は、ユーザが入力した問合せに関す
る一致が見つかったかどうかをステップs25で確認する。一致が見つかった場
合、処理はステップs27に進み、制御ユニット55が探索結果をディスプレイ
57上でユーザに対して表示させる。探索結果が正しい場合、処理はステップs
29から処理の終わりに進み、ユーザ端末59がアイドル状態に戻り、次の問合
せの入力を待つ。一方、探索結果が依然として所望の情報に対応していないこと
をユーザが示した場合、処理はステップs31に進み、制御ユニット55が、デ
ィスプレイ57を介してユーザに、探索問合せを定義し直すかあるいは変更する
かどうかを問い合わせる。ユーザが探索問合せを定義し直すかあるいは変更する
ことを望んだ場合、処理はステップs3に進み、ユーザが次に入力した問合せが
同様に処理される。探索を定義し直すことも変更することもない場合、探索結果
及びユーザが最初に入力した問合せが破棄され、ユーザ端末59がアイドル状態
に戻り、次の問合せの入力を待つ。
【0028】 上記で、この実施形態においてユーザ端末59によって探索がどのように実行
されるについて概略的に説明した。次に、探索エンジン53が音韻探索をどのよ
うに実行するかについて詳しく説明すると共に、この探索方式を使用する主な理
由について簡単に説明する。
【0029】 (分類問題としての情報検索) 従来の分類方式では、試験データをk個のクラスのうちの1つに分類する必要
がある。これは、クラスが既知である他のデータに関する知識を使用して行われ
る。この分類問題では、1からKまでの値をとることのできる「クラス」ランダ
ム変数があると仮定されている。この場合、試験データが属する可能性が最も高
いクラスを識別することによって、最適な範疇が見つけられる。クラスkのnk
個のデータを生成したN回の生成プロセスによって訓練データが生成されると仮
定されている(Σnk=N:K=1〜Kまでの総和)。ベクトル(n1,n2,…,nk
)をn、訓練データをD、試験データをxで示した場合、従来の分類問題は、以
下の確率を最大にするkの値を求めることである。
【0030】
【数5】
【0031】 分母の第2の項は、より頻繁に発生するクラスにより大きな重みを与える、こ
のクラスの事前確率である。情報検索において、各クラスは単一の訓練データ(
すなわち、注釈データ)を有する。したがって、情報検索の場合、上記の数式の
右辺の第2の項を無視することができる。同様に、P(x|D)が各クラスごと
に同じであり、したがって分子を正規化しているに過ぎないので、分母も無視す
ることができる。したがって、単に各クラスに関する上記の数式の分母上の第1
の項のオーダをランク付けすることによって、クラスのオーダーをランク付けす
ることができる。言い換えれば、全てのクラスについてP(x|dk)(dkはク
ラスkの訓練データである)を求めてランク付けすることによって、各クラスの
オーダーをランク付けすることができる。
【0032】 この実施形態では、試験データxは、入力問合せを表し、クラスkの訓練デー
タ(すなわち、dk)はk番目の注釈を表し、図6aに示されているように問合
せと注釈の両方を生成した基本的な統計モデル(M)があると仮定される。一般
には、このモデルは3つの未知数、すなわち、モデル構造m、問合せと注釈の両
方に関するこのモデルの状態シーケンスsq及びsa、出力分布Cを有する。この
場合、出力分布は求めることができる。というのは、出力分布は、入力された音
声から音韻ストリングを生成する音声認識システムの特性を具体化したものであ
るからである。後述のように、出力分布は、公知の音声の大きなデータベースを
音声認識システムに適用することによって得ることができ、これを以下では異聴
統計と呼ぶことにする。したがって、状態シーケンス及びモデルを上記の確率に
導入する(かつ入力問合せ及び注釈に変数qを使用する)と、以下の数式が得ら
れる。
【0033】
【数6】 上式は、ベイズ法を使用して次式のように展開することができる。
【0034】
【数7】
【0035】 上記の数式は複雑に見えるが、標準ダイナミックプログラミングアルゴリズム
を使用して1組の状態シーケンスsq及びsaを合計することができる。さらに、
各モデルの尤度が同様であると仮定できるので分子と分母の両方の最後の項を無
視することができ、各状態シーケンスの尤度も同様であると仮定できるので状態
シーケンス項P(s|m,c)を無視することができる。さらに、この基本的な
モデル構造が、挿入を受ける問合せと概ね同じ長さを有する標準音韻シーケンス
であると仮定することによって、それぞれの異なるモデルの合計を除去すること
ができる。ただし、一般にモデルの標準音韻シーケンスは未知であるので、それ
ぞれの異なるモデルの合計は全ての可能な音韻の合計で置き換えられる。したが
って、状態シーケンスの合計を無視した場合、ダイナミックプログラミングアル
ゴリズム内で評価すべき項は、分子の場合は次式のようになり、
【0036】
【数8】 分母(すなわち、正規化項)の場合は次式のようになる。
【0037】
【数9】 上式で、Npはシステムに知られている音韻の総数であり、ai、qj、及びprは
、現在評価中のDPラティスポイントに対応する、それぞれ注釈音韻、問合せ音
韻、及びモデル音韻である。数式(4)と(5)を比較するとわかるように、分
母上で算出される確率項は分子上でも算出される。したがって、同じダイナミッ
クプログラミングルーチン中に両方の項を累積することができる。より詳細に求
められる確率を考慮した場合、P(qj|pr,C)は、異聴統計が与えられた場
合に標準音韻prを問合せ音韻qjとして復号する確率であり、P(ai|pr,C
)は、異聴統計が与えられた場合に標準音韻prを注釈音韻aiとして復号する確
率であり、P(pr|C)は、異聴統計が与えられた場合に無条件で生じる標準
音韻prの確率である。
【0038】 上記の項だけでなく、ダイナミックプログラミング計算の各点で、モデルに対
する問合せ又は注釈への挿入及び削除に対処する他の項を算出しなければならな
い。当業者なら理解できるように、問合せへの挿入又はそこからの削除は、注釈
への挿入又はそこからの削除に依存せず、また注釈への挿入又は削除は、問合せ
への挿入又は削除に依存しない。したがって、これらの追加の項は別々に対処さ
れる。モデルに対する注釈への挿入及び削除は、上記の数式(5)で与えられる
正規化に関しても考慮しなければならない。
【0039】 当業者には、図4及び図5の説明から、この実施形態では、注釈音韻データと
問合せ音韻データの両方をテキスト又は音声から導くことができることが理解さ
れよう。したがって、考慮すべき4つの状況がある。
【0040】 i)注釈と問合せが共にテキストから生成される。
【0041】 ii)注釈がテキストから生成され、問合せが音声から生成される。
【0042】 iii)注釈が音声から生成され、問合せがテキストから生成される。
【0043】 iv)問合せと注釈が共に音声から生成される。
【0044】 第1の状況は、注釈又は問合せの圧縮/展開が行われることはなく、注釈と問
合せとの間の比較がそれぞれの音韻シーケンスの簡単なブール比較によって行わ
れる簡単なケースである。
【0045】 第2の状況では、注釈が正しいとみなされ、ダイナミックプログラミングによ
るアラインメントによって問合せに音韻を挿入し問合せから音韻を削除すること
が可能になり、2つの音韻間の最適なアラインメントポイントが求められる。こ
のケースを例示するために、図6bには、注釈音韻がテキストから生成された音
韻であるときの、注釈音韻シーケンス(a0,a1,a2,…で示されている)と
問合せ音韻シーケンス(q0,q1,q2,…で示されている)との間の可能な一
致が示されている。点線の矢印で示されているように、注釈音韻a0は問合せ音
韻q0と整列させられ、注釈音韻a1は問合せ音韻q2と整列させられ、注釈音韻
a2は問合せ音韻q3と整列させられ、注釈音韻a3は問合せ音韻q3と整列させら
れ、注釈音韻a4は問合せ音韻q4と整列させられる。これらのアラインメントの
それぞれについて、ダイナミックプログラミングルーチンは、上記の数式(4)
及び数式(5)で与えられた項を算出する。しかし、この場合、標準モデル音韻
シーケンスが既知である(これらのモデル音韻が注釈音韻があるため)のでこれ
らの数式は簡略化される。具体的には、注釈がモデルであり分子がP(qi|aj
,C)に簡略化されるので正規化項は1である。ダイナミックプログラミングル
ーチンは、これらの復号項だけでなく、注釈に対して問合せに挿入される音韻(
たとえば、問合せ音韻q1)と、注釈に対して問合せから削除される音韻(2つ
の注釈音韻a2及びa3と一致した問合せ音韻q3で表されている)についての関
連する挿入及び削除の確率も算出する。
【0046】 上述の第3の状況は、問合せ音韻シーケンスが正しいとみなされ、ダイナミッ
クプログラミングによるアラインメントによって問合せに対する音韻の注釈への
挿入及びそこからの削除が可能になることを除いて、第2の状況に類似している
。しかし、この状況では、問合せが既知であるので数式(1)から数式(5)を
使用することはできない。したがって、この状況では、数式(1)を次式のよう
に変形することができる。
【0047】
【数10】
【0048】 上記の数式(1)の対応する項と同様に、分子及び分母上の第2の項は共に無
視することができる。上記の数式(6)の分子の第1の項は、数式(1)の分子
上の第1の項を展開したのと同様に展開することができる。しかし、この状況で
は、問合せがモデルとみなされるので、ダイナミックプログラミングルーチン中
に算出される正規化項が1に簡略化され、分子がP(ai|qj,C)に簡略化さ
れる。上述の第2の状況のように、ダイナミックプログラミングルーチンは、問
合せに対して注釈に挿入される音韻と、問合せに対して注釈から削除される音韻
についての関連する挿入及び削除の確率も算出する。
【0049】 最後に、第4の状況では、注釈と問合せが共に音声から生成されたものである
とき、どちらの音韻データシーケンスも、実際に発声されたもののテキストを表
す未知の標準モデル音韻シーケンスに対する挿入及び削除を有することができる
。このことは図6cに示されている。図6cには、注釈音韻シーケンス(ai、
ai+1,ai+2,…で示されている)と、問合せ音韻シーケンス(qj、qj+1,q
j+2,…で示されている)と、問合せと注釈の両方によって実際に発声されたも
のの標準音韻シーケンスを表す音韻シーケンス(pn,pn+1,pn+2,…で示さ
れている)との間の可能な一致点が示されている。図6cに示されているように
、この場合、ダイナミックプログラミングによるアラインメント技術は、標準モ
デル音韻シーケンスに対する、注釈と問合せの両方への音韻の挿入(挿入された
音韻ai+3及びqj+1で表されている)と、注釈と問合せの両方からの音韻の削除
(共に標準音韻シーケンス中の2つの音韻と整列させられた音韻ai+1及びqj+2
で表されている)とを可能にしなければならない。
【0050】 当業者なら理解できるように、計算にモデル音韻シーケンスを導入することに
よって、アルゴリズムは、問合せの発音変動に対しても注釈の発音変動に対して
もより柔軟に対処することができる。
【0051】 上記で、本実施形態が、問合せ音韻シーケンスをデータベース内の注釈音韻シ
ーケンスと整合させることによって情報検索を行う方法について概略的に説明し
た。本実施形態の動作をさらに理解するために、次に、標準ダイナミックプログ
ラミングアルゴリズムについて簡単に説明し、その後で、この実施形態で使用さ
れる特定のアルゴリズムについて詳しく説明する。
【0052】 (DP探索の概要) 当業者には知られているように、ダイナミックプログラミングは、特徴、この
実施形態では音韻のシーケンス間の最適なアラインメントポイントを見つけるた
めに使用することのできる技術である。ダイナミックプログラミングではそうす
るために、各パスが注釈音韻シーケンスと問合せ音韻シーケンスとの間の可能な
一致点を表す複数のダイナミックプログラミングパスを同時に伝搬させる。全て
のパスが、注釈及び問合せの開始位置にある開始ヌルノードから始まり、注釈及
び問合せの終了位置にある終了ヌルノードに到達するまで伝搬する。図7及び図
8は、整合が行われる状態と、このパス伝搬とを概略的に示している。特に、図
7には、横軸が注釈を表し、縦軸が問合せを表す矩形の座標プロットが示されて
いる。開始ヌルノードφsは左上隅に示され、終了ヌルノードφeは右下隅に示さ
れている。図8に示されているように、注釈の音韻は横軸に沿って示され、問合
せの音韻は縦軸に沿って示されている。図8には、各ポイントが注釈の音韻と問
合せの音韻との間の可能なアラインメントポイントを表わす、いくつかのラティ
スポイントも示されている。たとえば、ラティスポイント21は注釈音韻a3と
問合せ音韻q1との間の可能なアラインメントポイントを表わしている。図8に
は、注釈を表す音韻シーケンスと問合せを表す音韻シーケンスとの間の3つの可
能な一致点を表し、開始ヌルノードφsから始まりラティスポイントを通って終
了ヌルノードφeまで伝搬する、3つのダイナミックプログラミングパスm1,m
2,及びm3も示されている。再び上記の数式(2)及び(3)を参照するとわか
るように、これらのダイナミックプログラミングパスは上述の互いに異なる状態
シーケンスsq及びsaを表している。
【0053】 図7に示されている横軸及び縦軸のそれぞれの異なる長さで表されているよう
に、入力される問合せが注釈の全ての単語を含む必要はない。たとえば、注釈が
「タジマハールの写真」である場合、ユーザは問合せ「タジマハール」を入力す
ることによって、データベース29でこの写真を簡単に探索することができる。
この状況では、最適なアラインメントパスは、問合せと注釈が一致し始めるまで
上部横軸に沿って進む。次いで、ラティスポイントを通って下部横軸に達し、終
了ノードで終わる。このことは、図7でパス23によって示されている。しかし
、当業者なら理解できるように、問合せ中の各単語はそれらが注釈中に現われる
のと同じ順序でなければならず、そうでない場合、ダイナミックプログラミング
によるアラインメントは無効になる。
【0054】 注釈音韻シーケンスと問合せ音韻シーケンスとの間の類似性を判定するために
、ダイナミックプログラミングプロセスは、それが伝搬させる各ダイナミックプ
ログラミングパスごとにスコアをつける。このスコアは、パスに沿って整列させ
られる音韻の全体的な類似性に依存する。整合させられているシーケンスからの
音韻の削除及びそこへの挿入の数を制限するために、ダイナミックプログラミン
グプロセスは、ダイナミックプログラミングパスが伝搬する方法にある種の制約
を課す。当業者なら理解できるように、このようなダイナミックプログラミング
制約は上述の4つの状況に応じて異なる。
【0055】 (DP制約) 注釈と問合せが共にテキストである場合 問合せ音韻データと注釈音韻データが共にテキストから生成されたものである
場合、ダイナミックプログラミングによるアラインメントは2つの音韻シーケン
ス間のブール一致になり、音韻の削除も挿入も不可能である。
【0056】 注釈がテキストであり、問合せが音声である場合 注釈音韻データがテキストから生成され、問合せ音韻データが音声から生成さ
れたデータである場合、注釈からの音韻の削除もそこへの音韻の挿入も不可能で
あるが、注釈に対する問合せからの音韻の削除及びそこへの挿入は行うことがで
きる。図9aには、注釈がテキストから生成され、問合せが音声から生成された
問合せであるときに、この実施形態で使用されるダイナミックプログラミング制
約が示されている。図示されているように、注釈音韻aiと問合せ音韻qjとの間
のアラインメントを表すラティスポイント(i,j)でダイナミックプログラミ
ングパスが終わる場合、このダイナミックプログラミングパスはラティスポイン
ト(i+1,j)、(i+1,j+1)、及び(i+1,j+2)まで伝搬する
ことができる。ポイント(i+1,j)までの伝搬は、キーボードから入力され
た注釈と比較して、音声の問合せからの音韻の削除が存在する場合を表している
。ポイント(i+1,j+1)までの伝搬は、注釈中の次の音韻と問合せ中の次
の音韻との間の簡単な復号が存在する状況を表している。ポイント(i+1,j
+2)までの伝搬は、キーボードから入力された注釈と比較して、音声の問合せ
における音韻qj+1の挿入が存在し、注釈音韻ai+1と問合せ音韻qj+2との間の
復号が存在する状況を表している。
【0057】 注釈が音声であり、問合せがテキストである場合 注釈が音声から生成され、問合せがテキストから生成された問合せである場合
、注釈への音韻の挿入もそこからの音韻の削除も不可能であるが、問合せに対す
る注釈への音韻の挿入及びそこからの削除は行うことができる。図9bには、注
釈が音声から生成され、問合せがテキストから生成された問合せであるときに、
この実施形態で使用されるダイナミックプログラミング制約が示されている。図
示のように、注釈音韻aiと問合せ音韻qjとの間のアラインメントポイントを表
すラティスポイント(i,j)でダイナミックプログラミングパスが終わる場合
、このダイナミックプログラミングパスはラティスポイント(i,j+1)、(
i+1,j+1)、及び(i+2,j+1)まで伝搬することができる。ポイン
ト(i,j+1)までの伝搬は、キーボードから入力問合せと比較して、音声の
注釈からの音韻の削除が存在する場合を表している。ポイント(i+1,j+1
)までの伝搬は、注釈中の次の音韻と問合せ中の次の音韻との間の簡単な復号が
存在する状況を表している。ポイント(i+2,j+1)までの伝搬は、キーボ
ードから入力問合せと比較して、音声の注釈における音韻ai+1の挿入が存在し
、注釈音韻ai+2と問合せ音韻qj+1との間の復号が存在する状況を表している。
【0058】 注釈が音声であり、問合せが音声である場合 注釈と問合せが共に音声から生成されたものである場合、注釈と問合せのそれ
ぞれから互いに音韻を挿入し削除することができる。図11には、注釈音韻と問
合せ音韻が共に音声から生成されたものであるときに、この実施形態で使用され
るダイナミックプログラミング制約が示されている。具体的には、注釈音韻ai
と問合せ音韻qjとの間のアラインメントを表すラティスポイント(i,j)で
ダイナミックプログラミングパスが終わる場合、このダイナミックプログラミン
グパスはラティスポイント(i+1,j)、(i+2,j)、(i+3,j)、
(i,j+1)、(i+1,j+1)、(i+2,j+1)、(i,j+2)、
(i+1,j+2)、及び(i,j+3)まで伝搬することができる。したがっ
て、これらの伝搬によって、実際に発声されたもののテキストに対応する未知の
標準モデル音韻シーケンスに対して注釈と問合せの両方への音韻の挿入及びそこ
からの削除を行うことができる。
【0059】 開始DP制約及び終了DP制約 この実施形態では、ダイナミックプログラミングによるアラインメント動作に
よって、ダイナミックプログラミングパスはどの注釈音韻からでも始まることが
でき、かつどの注釈音韻で終わることもできる。その結果、問合せは注釈の全て
の単語を含む必要はない。ただし、問合せの各単語は、それらが注釈中に現われ
るのと同じ順序である必要がある。
【0060】 (DPスコア伝搬) 上述のように、ダイナミックプログラミングプロセスは、パスに沿って整列さ
せた音韻同士の類似性に依存するスコアを各ダイナミックプログラミングパスご
とに保つ。したがって、ダイナミックプログラミングプロセスは、ポイント(i
,j)で終わるパスをこれらの他の点まで伝搬させる際に、それぞれの伝搬の「
コスト」を、ポイント(i,j)で終わるパスの累積スコアに加える。このスコ
アは、このポイントに関連するストア(SCORE(i,j))に格納される。
当業者なら理解できるように、このコストは、上述の挿入確率、削除確率、及び
復号確率を含む。具体的には、挿入が存在するときは、累積スコアに、所与の音
韻を挿入する確率が掛けられ、削除が存在するときは、累積スコアに、所与の音
韻を削除する確率が掛けられ、復号が存在するときは、累積スコアに、所与の音
韻を復号する確率が掛けられる。
【0061】 これらの確率を算出できるように、システムは、音韻の全ての可能な組合せの
可能性を記憶する。この実施形態では、注釈又は問合せからの音韻の削除は復号
と同様に処理される。これは、単に削除を別の音韻として処理することによって
行われる。したがって、43個の音韻がシステムに既知である場合、システムは
、それぞれの可能な音韻復号及び削除について1つずつ、1892個(=43×
44)の復号/削除確率を記憶する。このことは図10に示されている。図10
には、音韻/ax/について記憶され、1つの確率として削除音韻(φ)を含む
可能な音韻復号が示されている。当業者なら理解できるように、所与の音韻に関
する全ての復号確率の合計は1でなければならない。なぜなら、他の確率はない
からである。システムは、これらの復号/削除確率だけでなく、それぞれの可能
な音韻挿入について1つの、43個の挿入確率を記憶する。後述のように、これ
らの確率は事前に訓練データから求められる。
【0062】 次に、スコア伝搬を例示するために、いくつかの例を検討する。注釈がテキス
トであり、問合せが音声である場合、ポイント(i,j)からポイント(i+1
,j+2)まで伝搬するパスについては、注釈に対して音韻qj+1が挿入され、
注釈音韻ai+1によって問合せ音韻qj+2が復号される。したがって、ポイント(
i+1,j+2)まで伝搬されるスコアは次式によって与えられる。
【0063】 S(i+1,j+2)=S(i,j)・PI(qj+1|C)・P(qj+2|ai+1,C) (7)
上式で、PI(qj+1|C)は、音韻qj+1を音声の問合せに挿入する確率であり
、P(qj+2|ai+1,C)は、注釈音韻ai+1を問合せ音韻qj+2として復号する
確率を表している。
【0064】 注釈と問合せが共に音声から生成されたものである場合、ポイント(i,j)
からポイント(i+2,j+1)まで伝搬するときは、問合せに対して注釈音韻
ai+1が挿入され、注釈音韻ai+2と問合せ音韻qj+1との間の復号が行われる。
したがって、ポイント(i+2,j+1)まで伝搬されるスコアは次式によって
与えられる。
【0065】
【数11】
【0066】 当業者なら理解できるように、このパス伝搬時には、いくつかのパスが同じラ
ティスポイントで交わる。この実施形態では、交わるパスに関連するスコアが単
に合計される。あるいは、スコア同士を比較することができ、最良のスコアを有
するパスを継続し、それに対して他のパスは破棄される。しかし、このことはこ
の実施形態において必須ではない。というのは、ダイナミックプログラミングプ
ロセスで重要なのは、問合せの音韻データと注釈の音韻データとの間の類似性を
表すスコアを求めることだけであるからである。ダイナミックプログラミングプ
ロセスにおいて、2つの音韻間の最適なアラインメントポイントを見つけること
は重要ではない。
【0067】 問合せと注釈が共に音声から生成されたものである場合、全てのパスが終了ノ
ードφeまで伝搬していき、かつ問合せと現在の注釈との間の類似性の総スコア
が求められた後、システムは、DPプロセス中に累積された正規化項を使用して
このスコアを正規化する。次いで、システムは問合せと次の注釈を同様に比較す
る。問合せが全ての注釈と一致した後、各注釈のスコアがランク付けされ、この
ランク付けに基づいて、システムは、入力問合せに最も近い注釈をユーザに出力
する。
【0068】 (DP探索の詳細な説明) 次に、問合せ音韻シーケンスを注釈音韻シーケンスと整合させる際にダイナミ
ックプログミング検索をどのように行うかについて詳しく説明する。図12を参
照するとわかるように、ステップs101で、システムはダイナミックプログラ
ミングスコアを初期化する。次いでステップs103で、システムはヌル開始ノ
ード(φs)から全ての始点まで伝搬する。次いでステップs105で、システ
ムは、上述のダイナミックプログラミング制約を使用して各ダイナミックプログ
ラミングパスを全ての始点から全ての可能な終点まで伝搬させる。最後にステッ
プs107で、システムは、終点で終わるパスをヌル終了ノード(φe)まで伝
搬させる。
【0069】 図13には、各ダイナミックプログラミングパスをヌル開始ノード(φs)か
ら、ダイナミックプログラミング制約によって定義される全ての可能な開始点ま
で伝搬させる際にステップs103で使用される処理ステップが詳しく示されて
いる。一方の制約は、ダイナミックプログラミングパスが、あらゆる注釈音韻か
ら始まることができるということであり、他方の制約は、問合せ音韻シーケンス
における許容ホップ数を定義するものであり、問合せがテキストであるかそれと
も音声であるかに依存する。具体的には、問合せがテキストから生成された問合
せである場合、開始点は、探索空間内のラティスポイントの第1行、すなわち、
i=0からNann−1までのポイント(i,0)を含み、問合せが音声から生
成された問合せである場合、開始点は、探索空間内のラティスポイントの最初の
4行、すなわち、i=0からNann−1までのポイント(i,0)、(i,1
)、(i,2)、及び(i,3)を含む。
【0070】 次に、これを行う方法について、図13に示されている各ステップを参照して
説明する。図示されているように、ステップs111で、システムは、入力問合
せがテキスト問合せであるかどうかを判定する。そうである場合、処理はステッ
プs113に進み、システムは、変数mxの値を、問合せがテキストであるとき
の問合せ音韻シーケンスにおける最大許容「ホップ」数を定義する1に設定する
。次いで、処理はステップs115、s117、及びs119に進む。これらの
ステップは、i=0からNann−1までについて、ヌル開始ノードからラティ
スポイント(i,0)に至る遷移スコアを、ポイント(i,0)に関連するスコ
ア(SCORE(i,0))に加えることによって、探索空間の第1行中の各ラ
ティスポイントからダイナミックプログラミングパスを開始するように動作する
ことができる。問合せがテキストであるときは、図12に示されているステップ
s103での処理が終了し、次いで処理はステップs105に進む。
【0071】 システムは、問合せがテキストではなく、したがって音声入力から生成された
ものであるとステップs111で判定した場合、ステップs121に進む。ステ
ップs121で、mxは、mxhops、すなわち、ダイナミックプログラミン
グ制約による最大許容「ホップ」数よりも1だけ大きな値を有する定数に設定さ
れる。図9及び図10に示されているように、問合せが音声である場合、パスは
、問合せ音韻シーケンスに沿って最高で音韻3つ分だけ離れた位置にある問合せ
音韻までジャンプすることができる。したがって、この実施形態では、mxho
psの値は4であり、問合せ中に音韻が4つ以上ある場合、変数mxは4に等し
い値に設定され、そうでない場合、mxは問合せ中の音韻の数に等しい値に設定
される。次いで、処理はステップs123、s125、s127、s129、及
びs131に進む。これらのステップは、対応するラティスポイントに関連する
スコアに対応する遷移確率を加えることによって探索空間の最初の4行中の各ラ
ティスポイントからダイナミックプログラミングパスを開始するよう動作するこ
とができる。問合せが音声入力から生成された問合せであるときには、図12に
示されているステップs103の処理が終了し、次いで処理はステップs105
に進む。
【0072】 この実施形態では、システムは、ラスタのような技術で探索空間内のラティス
ポイントを1列ずつ処理することによって、ステップs105で、各ダイナミッ
クプログラミングパスを開始点から終点まで伝搬させる。このラスタ処理動作を
制御するのに用いられる制御アルゴリズムを図14に示す。ステップs151で
、システムは注釈音韻ループポインタiを注釈中の音韻の数(Nann)と比較
する。最初は、注釈音韻ループポインタiはゼロに設定され、したがって、処理
は最初にステップs153に進み、問合せ中の音韻の総数(Nquery)に対
する問合せ音韻ループポインタjについての同様な比較が行われる。最初は、ル
ープポインタjもゼロに設定され、したがって、処理はステップs155に進み
、システムは、上述のダイナミックプログラミング制約を使用して、点(i,j
)で終了するパスを伝搬させる。ステップs155でシステムが各パスを伝搬さ
せる方法について以下に詳しく説明する。ステップs155の後、ステップs1
57でループポインタjが1だけ増分され、処理はステップs153に戻る。問
合せ中の全ての音韻が処理され(それによってラティスポイントの現在の列が処
理され)た後、処理はステップs159に進み、問合せ音韻ループポインタjが
ゼロにリセットされ、注釈音韻ループポインタiが1だけ増分される。次いで、
処理はステップs151に戻り、ラティスポイントの次の列に対して同様な手順
が実行される。ラティスポイントの最後の列が処理された後、処理はステップs
161に進み、注釈音韻ループポインタiがゼロにリセットされ、図12に示さ
れているステップs105の処理が終了する。
【0073】 図15には、各パスを終点から終了ヌルノードφeまで伝搬する際に、図12
に示されているステップs107で使用される各処理ステップがより詳しく示さ
れている。開始ヌルノードφsからの伝搬に関して、「終点」であるラティスポ
イントは、問合せがテキストであるかそれとも音声であるかに依存するダイナミ
ックプログラミング制約によって定義される。さらに、この実施形態では、ダイ
ナミックプログラミング制約によって、ダイナミックプログラミングパスは、注
釈音韻シーケンスに沿ったあらゆる点において注釈から出ることができる。した
がって、問合せがテキストである場合、システムは、ラティスポイントの最後の
行、すなわち、i=0からNann−1までの各ポイント(i,Nquery−
1)で終わるダイナミックプログラミングパスを終了ヌルノードφeまで伝搬さ
せる。しかし、問合せが音声から生成された問合せである場合、システムは、ラ
ティスポイントの最後の4行、すなわち、i=0からNann−1までのポイン
ト(i,Nquery−4)、(i,Nquery−3)、(i,Nquery
−2)、及び(i,Nquery−1)まで伝搬する任意のパスを終了ヌルノー
ドφeまで伝搬させる。
【0074】 図15に示されているように、このプロセスはステップs171から始まり、
システムは、問合せがテキストであるかどうかを判定する。テキストである場合
、処理はステップs173に進み、問合せ音韻ループポインタjがNquery
−1に設定される。次いで、処理はステップs175に進み、注釈音韻ループポ
インタiが注釈中の音韻数(Nann)と比較される。最初は、注釈音韻ループ
ポインタiがゼロに設定され、したがって、処理はステップs177に進み、シ
ステムはポイント(i,Nquery−1)からヌル終了ノードφeまでの遷移
スコアを算出する。次いで、この遷移スコアは、SCORE(i,Nquery
−1)に格納されている、ポイント(i,Nquery−1)で終わるパスの累
積スコアと組み合わされる。上述のように、この実施形態では、遷移スコア及び
累積スコアは確率に基づくものであり、確率同士を掛け合わせることによって組
み合わされる。しかし、この実施形態では、足し算を実行する必要をなくすと共
に、高い浮動小数点精度の使用を回避するために、システムは遷移スコア及び累
積スコア用に対数確率を使用する。したがって、ステップs179で、システム
は、ポイント(i,Nquery−1)で終わるパスの累積スコアを、ステップ
s177で算出された遷移スコアに足し、この結果が一時ストアTEMPEND
SCOREにコピーされる。
【0075】 上述のように、2つ以上のダイナミックプログラミングパスが同じ点で交わる
場合、各パスの累積スコアが合計される。したがって、ログ確率が使用されるの
で、互いに交わるパスに関連するスコアが有効に確率に変換され、合計され、次
いでログ確率に再変換される。この実施形態では、この動作を「対数足し算」動
作と呼ぶ。これは公知の技術であり、たとえば、「Automatic Speech Recogniti
on. The Development of the (Sphinx) System」、Lee,Kai-Fu著、Kluwer
Academic Publishers発行、1989年、28ページ〜29ページ)と題する文
献に記載されている。
【0076】 ポイント(i,Nquery−1)からヌル終了ノードまで伝搬するパスが他
のダイナミックプログラミングパスと交わるので、システムはTEMPENDS
COREと、終了ノードに格納されているスコア(ENDSCORE)との対数
足し算を実行し、結果がENDSCOREに格納される。次いで、処理はステッ
プs183に進み、注釈音韻ループポインタiが増分される。次いで、処理はス
テップs175に戻り、ラティスポイントの最後の行における次のラティスポイ
ントに対して同様なプロセスが実行される。最後の行における全てのラティスポ
イントがこのように処理された後、図12に示されているステップs107で実
行される処理が終了する。
【0077】 問合せはテキストではないとステップs171でシステムが判定した場合、処
理はステップs185に進み、問合せ音韻ループポインタjが、問合せ中の音韻
の数からmxhopsを引いた値、Nquery−4に設定される。次いで、処
理はステップs187に進み、システムは、注釈音韻ループポインタiが注釈中
の音韻の数(Nann)よりも小さいかどうかを確認する。最初は、注釈音韻ル
ープポインタiはゼロに設定され、したがって、処理はステップs189に進み
、システムは、問合せ音韻ループポインタjが問合せ中の音韻の数(Nquer
y)よりも小さいかどうかを確認する。最初は、問合せ音韻ループポインタjは
問合せ中の音韻の数よりも小さく、処理はステップs191に進み、システムは
ラティスポイント(i,j)からヌル終了ノードφeまでの遷移スコアを算出す
る。次いでステップs193で、この遷移スコアが、ポイント(i,j)で終わ
るパスの累積スコアに足され、結果が一時スコアTEMPENDSCOREにコ
ピーされる。次いで、処理はステップs195に進み、システムがTEMPEN
DSCOREとENDSCOREの対数足し算を実行し、結果がENDSCOR
Eに格納される。次いで、処理はステップs197に進み、問合せ音韻ループポ
インタjが1だけ増分され、処理はステップs189に戻る。次いで、問合せ音
韻ループポインタjが増分され、したがって問合せ中の音韻の数(Nquery
)に等しくなるまで上記の各ステップが繰り返される。次いで、処理はステップ
s199に進み、問合せ音韻ループポインタjがNquery−4にリセットさ
れ、注釈音韻ループポインタiが1だけ増分される。次いで、処理はステップs
187に戻る。次いで、探索空間の最後の4行における全てのラティスポイント
が処理されるまで上記の各処理ステップが繰り返され、その後、図12に示され
ているステップs107の処理が終了する。
【0078】 伝搬 図14に示されているステップs155で、システムは、上述のダイナミック
プログラミング制約を使用して、ラティスポイント(i,j)で終わるパスを伝
搬する。図16は、この伝搬ステップを実行する際に使用される各処理ステップ
を示すフローチャートである。図示されているように、ステップs211で、シ
ステムは2つの変数mxi及びmxjの値を設定し、注釈音韻ループポインタi
2及び問合せ音韻ループポインタj2を初期化する。ループポインタi2及びj
2は、ポイント(i,j)で終わるパスが伝搬することのできる全てのラティス
ポイントを処理するために設けられ、変数mxi及びmxjは、i2及びj2が
、ダイナミックプログラミング制約で許容される値しかとれなくするのに用いら
れる。具体的には、mxiは、mxhopsが注釈中の音韻の数以下であるかぎ
りiとmxhopsを足した値に設定され、そうでない場合は注釈中の音韻の数
(Nann)に等しい値に設定される。同様に、mxjは、mxhopsが問合
せの音韻の数以下であるかぎりjとmxhopsを足した値に設定され、そうで
ない場合は問合せ中の音韻の数(Nquery)に等しい値に設定される。最後
にステップs211で、システムは、注釈音韻ループポインタi2を注釈音韻ル
ープポインタiの現在の値に等しい値に初期化し、問合せ音韻ループポインタj
2を問合せ音韻ループポインタjの現在の値に等しい値に初期化する。
【0079】 システムによって使用されるダイナミックプログラミング制約は、注釈がテキ
ストであるか、それとも音声であるかと、問合せがテキストであるか、それとも
音声であるかに依存するので、次のステップでは、注釈及び問合せがどのように
生成されたかが判定される。これは、判定ブロックs213、s215、及びs
217によって行われる。注釈と問合せが共に音声から生成されたものである場
合、ラティスポイント(i,j)で終わるダイナミックプログラミングパスは、
図11に示されている他のポイントまで伝搬することができ、処理ステップs2
19からs235は、このパスをこれらのポイントまで伝搬させるように動作す
る。特にステップs219で、システムは注釈音韻ループポインタi2を変数m
xiと比較する。ステップs211で、注釈音韻ループポインタi2がiに設定
され、mxiがi+4に設定されるので、処理はステップs221に進み、問合
せ音韻ループポインタj2について同様な比較が行われる。次いで、処理はステ
ップs223に進み、パスが同じラティスポイント(i,j)に留まらないよう
にされる。これは、最初は、i2がiに等しくj2がjに等しいからである。し
たがって、処理は最初にステップs225に進み、問合せ音韻ループポインタj
2が1だけ増分される。
【0080】 次いで、処理はステップs221に戻り、j2の増分された値がmxjと比較
される。j2がmxjよりも小さい場合、処理はステップs223に戻り、ステ
ップs227に進む。ステップs227は、注釈音韻シーケンス及び問合せ音韻
シーケンスの両方に沿って大き過ぎるホップが起こるのを防止するように動作す
ることができる。これは、i2+j2がi+j+mxhopsよりも小さい場合
にのみパスを伝搬させることによって行われる。これにより、図11に示されて
いる三角形の1組のポイントのみが処理される。この条件が満たされるかぎり、
処理は次いでステップs229に進み、システムはラティスポイント(i,j)
からラティスポイント(i2,j2)までの遷移スコア(TRANSCORE)
を算出する。次いで、処理はステップs231に進み、システムは、ステップs
229で求められた遷移スコアを、ポイント(i,j)について記憶されている
累積スコアに足し、これを一時ストアTEMPSCOREにコピーする。上述の
ように、この実施形態では、2つ以上のダイナミックプログラミングパスが同じ
ラティスポイントで交わる場合、各パスに関連する累積スコアが合計される。し
たがって、ステップs233で、システムはTEMPSCOREと、すでにポイ
ント(i2,j2)について記憶されている累積スコアとの対数足し算を実行し
、結果がSCORE(i2,j2)に格納される。次いで、処理はステップs2
25に戻り、問合せ音韻ループポインタj2が1だけ増分され、処理はステップ
s221に戻る。問合せ音韻ループポインタj2がmxjの値に達した後、処理
はステップs235に進み、問合せ音韻ループポインタj2が初期値jにリセッ
トされ、注釈音韻ループポインタi2が1だけ増分される。次いで、処理はステ
ップs219に進み、図11に示されているラティスポイントの次の列に対して
再び開始される。パスがポイント(i,j)から、図11に示されている他の全
てのポイントまで伝搬した後、処理は終了する。
【0081】 注釈がテキストであり問合せが音声であると判定ブロックs213及びs21
5で判定された場合、処理はステップs241からs251に進む。これらのス
テップは、ポイント(i,j)で終わるパスを、図9aに示されている各ポイン
トまで伝搬させるように動作することができる。具体的には、ステップs241
で、システムは、注釈音韻ループポインタiが注釈中の最後の音韻を指し示して
いるかどうかを判定する。指し示している場合、注釈にはもはや音韻がなく、処
理は終了する。注釈音韻ループポインタiがNann−1よりも小さい場合、処
理はステップs243に進み、問合せ音韻ループポインタj2がmxjと比較さ
れる。最初は、j2はmxjよりも小さく、したがって、処理はステップs24
5に進み、システムはポイント(i,j)からポイント(i+1,j2)までの
遷移スコア(TRANSCORE)を算出する。次いで、この遷移スコアは、ポ
イント(i,j)で終わるパスに関連する累積スコアに足され、結果が一時スコ
アTEMPSCOREにコピーされる。次いでステップs249で、システムは
TEMPSCOREと、ポイント(i+1,j2)に関連する累積スコアとの対
数足し算を実行し、結果をSCORE(i+1,j2)に格納し、ラティスポイ
ント(i+1,j2)で交わるパスのパススコアが確実に組み合わされるように
する。次いで、処理はステップs251に進み、問合せ音韻ループポインタj2
が1だけ増分され、次いで処理はステップs243に戻る。ポイント(i,j)
で終わるパスが、図9aに示されている他のポイントまで伝搬した後、j2がm
xjに等しくなり、ポイント(i,j)で終わるパスの伝搬が終了する。
【0082】 注釈が音声であり、問合せがテキストであると判定ブロックs213及びs2
17で判定された場合、処理は、図16bに示されているステップs255から
s265に進む。これらのステップは、ポイント(i,j)で終わるパスを、図
9bに示されている他のポイントまで伝搬させるように動作することができる。
これを行うには、まずステップs255で、問合せ音韻ループポインタjが、問
合せを表す音韻シーケンス中の最後の音韻を指し示していないことを確認する。
指し示していない場合、処理はステップs257に進み、注釈音韻ループポイン
タi2がmxiと比較される。最初は、i2の値はiであり、注釈音韻iが、注
釈を表す音韻シーケンスの終了位置にないかぎり、処理はステップs259に進
み、ポイント(i,j)からポイント(i2,j+1)まで移動する遷移スコア
が算出される。次いで、処理はステップs261に進み、この遷移スコアが、ポ
インタ(i,j)で終わるパスの累積スコアに足され、結果が一時スコアTEM
PSCOREにコピーされる。次いで、処理はステップs263に進み、TEM
PSCOREと、すでにポイント(i2,j+1)について記憶されている累積
スコアとの対数足し算が行われ、結果がSCORE(i2,j+1)に格納され
る。次いで、処理はステップs265に進み、注釈音韻ループポインタi2が1
だけ増分され、処理はステップs257に戻る。次いで、ポイント(i,j)で
終わるパスが、図9bに示されている他の各ポイントまで伝搬するまで、これら
の処理ステップが繰り返される。この時点で、ポイント(i,j)のパスの伝搬
が完了し、処理が終了する。
【0083】 最後に、注釈と問合せが共にテキストであると判定ブロックs213及びs2
15で判定された場合、処理は、図16bに示されているステップs271から
s279に進む。これらのステップは、もちろん、他の注釈音韻があり、かつ他
の問合せ音韻があるかぎり、ポイント(i,j)で終わるパスをポイント(i+
1,j+1)まで伝搬させるように動作することができる。具体的には、ステッ
プs271で、システムは、注釈音韻ループポインタiが最後の注釈音韻を指し
示していないことを確認する。指し示していない場合、処理はステップs273
に進み、問合せ音韻シーケンスに対して問合せ音韻ループポインタjの同様な検
査が行われる。もはや注釈音韻がないか、あるいはもはや問合せ音韻がない場合
、処理は終了する。しかし、他の注釈音韻があり、かつ他の問合せ音韻がある場
合、処理はステップs275に進み、システムはポイント(i,j)からポイン
ト(i+1,j+1)までの遷移スコアを算出する。次いで、ステップs277
で、この遷移スコアが、ポイント(i,j)について記憶されている累積スコア
に足され、結果が一時スコアTEMPSCOREに格納される。次いで、処理は
ステップs279に進み、TEMPSCOREと、すでにポイント(i+1,j
+1)について記憶されている累積スコアとの対数足し算が行われ、結果がSC
ORE(i+1,j+1)にコピーされる。当業者なら理解できるように、この
実施形態でステップs277及びs279が必要であるのは、ダイナミックプロ
グラミング制約によって、パスが、注釈を表す音韻シーケンス内の任意の音韻か
ら始まることができ、したがって、事前にポイント(i+1,J+1)にスコア
を関連付けておくことができるからである。ステップs279の後で、ポイント
(i,j)の伝搬が完了し、処理が終了する。
【0084】 遷移スコア 図12に示されているステップs103、s105、及びs107では、ダイ
ナミックプログラミングパスを伝搬し、この伝搬中に、ステップs127、s1
17、s177、s191、s229、s245、s259、及びs275であ
るポイントから別のポイントまでの遷移スコアが算出される。これらのステップ
で、システムは、遷移の始点及び終点に対する適切な挿入確率、削除確率、及び
復号確率を算出する。次に、この実施形態でこのことがどのように行われるかに
ついて図17及び図18を参照して説明する。
【0085】 具体的には、図17は、ラティスポイント(i,j)からラティスポイント(
i2,j2)まで伝搬するパスの遷移スコアを算出する際に使用される一般的な
処理ステップを示す流れ図である。ステップs291で、システムは、ポイント
(i,j)とポイント(i2,j2)との間に挿入されている各注釈音韻につい
て、挿入されている音韻の挿入に関するスコア(上述の確率の対数PI()に過
ぎない)を算出し、これを適切なストアINSERTSCOREに足す。次いで
、処理はステップs293に進み、システムは、ポイント(i,j)とポイント
(i2,j2)との間に挿入されている各問合せ音韻について同様な計算を行い
、これをINSERTSCOREに足す。しかし、(i,j)が開始ヌルノード
φsであるか、あるいは(i2,j2)が終了ヌルノードφeである場合、システ
ムは、挿入されている注釈音韻の挿入確率を算出しない(どの注釈音韻からパス
を始めてもあるいはどの注釈音韻でパスを終らせてもペナルティが生じないため
)。ただし、システムは、あらゆる挿入されている問合せ音韻の挿入確率は算出
する。上述のように、算出されるスコアは、対数に基づく確率であり、したがっ
て、INSERTSCOREにスコアを足すことは、対応する挿入確率の掛け算
に対応する。次いで、処理はステップs295に進み、システムが、ポイント(
i,j)からポイント(i2,j2)まで伝搬する際のあらゆる削除及び/又は
復号に関するスコアを算出し、これらのスコアが適切なストアDELSCORE
に足され格納される。次いで、処理はステップs297に進み、システムはIN
SERTSCORE及びDELSCOREを足し、結果をTRANSCOREに
コピーする。
【0086】 次に、ポイント(i,j)からポイント(i2,j2)まで伝搬する際の削除
スコア及び/又は復号ストアを判定するためにステップs295で実行される処
理について図18を参照して詳しく説明する。可能な削除及び復号は、注釈がテ
キストから生成された注釈であるかどうかと、問合せがテキストから生成された
問合せであるかどうかに依存するので、注釈がテキストであるかそれとも音声で
あるかと、問合せがテキストであるかそれとも音声であるかが判定ブロックs3
01、s303、及びs305で判定される。注釈と問合せが共にテキストであ
ることがこれらの判定ブロックで判定された場合、削除は存在せず、ステップs
307でブール一致によって2つの音韻の復号が実行される。注釈音韻ai2が問
合せ音韻qj2と同じである場合、処理はステップs309に進み、TRANSC
OREがlog[1](すなわち、ゼロ)に等しい値に設定され、処理は終了す
る。しかし、注釈音韻ai2が問合せ音韻qj2とは異なる場合、処理はステップs
311に進み、TRANSCOREが、log[0]のシステム近似である非常
に大きな負の数に設定され、次いで処理が終了する。
【0087】 注釈が音声であり、問合せがテキストであると判定ブロックs301及びs3
05で判定された場合、上述の数式(4)の簡略化された形態を使用して遷移ス
コアが求められる。この場合、処理はステップs303からステップs313に
進み、システムは、注釈ループポインタi2が注釈ループポインタiに等しいか
どうかを判定する。等しい場合、このことは、パスがポイント(i,j)からポ
イント(i,j+1)まで伝搬したことを意味する。したがって、問合せ音韻シ
ーケンスに対して注釈音韻シーケンスから問合せ音韻qj+1が削除されている。
したがって、ステップs317で、システムは、音韻qj+1を削除する対数確率
(すなわち、log P(φ|qj+1,C)をDELSCOREにコピーし、処
理が終了する。ステップs313で、システムは、i2がiに等しくないと判定
した場合、ポイント(i,j)で終わるパスの、ポイント(i+1,j+1)、
(i+2,j+1)、(i+3,j+1)のうちの1つへの伝搬を検討する。こ
の場合、注釈音韻ai2と問合せ音韻qj+1との間に削除は存在せず、挿入及び復
号のみが存在する。したがって、ステップs315で、システムは、問合せ音韻
qj+1を注釈音韻ai2として復号する対数確率(すなわち、log P(ai2|q
j+1,C))をDELSCOREにコピーし、処理が終了する。
【0088】 注釈がテキストであり、問合せが音声であると判定ブロックs301及びs3
05で判定された場合、上述の数式(4)の簡略化された形態を使用して遷移ス
コアが求められる。この場合、処理はステップs305からステップs319に
進み、システムは、問合せ音韻ループポイントj2が問合せ音韻ループポインタ
jに等しいかどうかを判定する。等しい場合、システムはポイント(i,j)か
らポイント(i+1,j)までの遷移スコアを算出する。この場合、注釈音韻シ
ーケンスに対して問合せ音韻シーケンスから注釈音韻ai+1が削除されている。
したがって、ステップs321で、システムは、音韻ai+1を削除する対数確率
(すなわち、log P(φ|ai+1,C))を求めてDELSCOREにコピ
ーし、処理が終了する。ステップs319で、システムは、問合せ音韻ループポ
インタj2が問合せ音韻ループポインタjに等しくないと判定した場合、ポイン
ト(i,j)からポイント(i+1,j+1)、(i+1,j+2)、(i+1
,j+3)のうちの1つへの遷移スコアを求める。この場合、注釈音韻ai+1と
問合せ音韻qi2との間に削除は存在せず、挿入及び復号のみが存在する。したが
って、ステップs323で、システムは、注釈音韻ai+1を問合せ音韻qi2とし
て復号する対数確率(すなわち、log P(qi2|ai+1,C))をDELS
COREにコピーし、処理が終了する。
【0089】 注釈と問合せが共に音声から生成されたものであると判定ブロックs301及
びs303で判定された場合、上記の数式(4)を使用して遷移スコアが求めら
れる。この場合、処理はステップs303からステップs325に進み、システ
ムは、注釈ループポインタi2が注釈ループポインタiに等しいかどうかを判定
する。等しい場合、処理はステップs327に進み、音韻ループポインタrが1
に初期化される。音韻ポインタrは、上記の数式(4)の計算時に、システムに
知られている各音韻を処理するのに用いられる。次いで、処理はステップs32
9に進み、システムは音韻ポインタrを、システムに知られている音韻の数Np
honemes(この実施形態では43に等しい)と比較する。最初は、ステッ
プs327で、rが1に設定され、したがって、処理はステップs331に進み
、システムは、音韻prが発生する対数確率(すなわち、log P(pr|C)
)を求め、これを一時スコアTEMPDELSCOREにコピーする。注釈ルー
プポインタi2が注釈ループポインタiに等しい場合、システムは、ポイント(
i,j)で終わるパスをポイント(i,j+1)、(i,j+2)、(i,j+
3)のうちの1つまで伝搬させる。したがって、問合せには、注釈にはない音韻
が存在する。したがって、ステップs333で、システムは、注釈から音韻pr
を削除する対数確率(すなわち、log P(φ|pr,C))をTEMPDE
LSCOREに足す。次いで、処理はステップs335に進み、システムは、音
韻prを問合せ音韻qi2として復号する対数確率(すなわち、log P(qi2
|pr,C))をTEMPDELSCOREに足す。次いで、処理はステップs
337に進み、TEMPDELSCOREとDELSCOREの対数足し算が実
行され、結果がDELSCOREに格納される。次いで、処理はステップs33
9に進み、音韻ループポインタrが1だけ増分され、次いで処理はステップs3
29に戻り、システムに知られている次の音韻について同様な処理が実行される
。システムに知られている43個の音韻のそれぞれについてこの計算が実行され
た後、処理は終了する。
【0090】 ステップs325で、i2がiに等しくないとシステムが判定した場合、処理
がステップs341に進み、システムは、問合せ音韻ループポインタj2が問合
せ音韻ループポイントjに等しいかどうかを判定する。等しい場合、処理はステ
ップs343に進み、音韻ループポインタが1に初期設定される。次いで、処理
はステップs345に進み、音韻ループポインタrがシステムに知られている音
韻の総数(Nphonemes)と比較される。最初は、ステップs343で、
rが1に設定され、したがって、処理はステップs347に進み、音韻prが発
生する対数確率が求められ、一時ストアTEMPDELSCOREにコピーされ
る。次いで、処理はステップs349に進み、システムは、音韻prを注釈音韻
ai2として復号する対数確率を求め、これをTEMPDELSCOREに足す。
問合せループポインタj2が問合せループポインタjに等しい場合、システムは
、ポイント(i,j)で終わるパスをポイント(i+1,j)、(i+2,j)
、(i+3,j)のうちの1つまで伝搬させる。したがって、注釈には、問合せ
にはない音韻が存在する。したがって、ステップs351で、システムは、問合
せから音韻prを削除する対数確率を求め、これをTEMPDELSCOREに
足す。次いで、処理はステップs353に進み、システムは、TEMPDELS
COREとDELSCOREの対数足し算を実行し、結果をDELSCOREに
格納する。次いでステップs355で、音韻ループポインタrが1だけ増分され
、処理はステップs345に戻る。システムに知られている全ての音韻について
処理ステップs347からs353が実行された後、処理は終了する。
【0091】 ステップs341で、問合せ音韻ループポインタj2は問合せ音韻ループポイ
ンタjに等しくないとシステムが判定した場合、処理はステップs357に進み
、音韻ループポインタrが1に初期設定される。次いで、処理はステップs35
9に進み、システムは音韻カウンタrを、システムに知られている音韻の数(N
phonemes)と比較する。最初ステップs357で、rが1に設定され、
したがって、処理はステップs361に進み、システムは、発生する音韻prの
対数確率を求め、これを一時スコアTEMPDELSCOREにコピーする。問
合せ音韻ループポインタj2が問合せ音韻ループポインタjに等しくない場合、
システムは、ポイント(i,j)で終わるパスをポイント(i+1,j+1)、
(i+1,j+2)、及び(i+2,j+1)のうちの1つに伝搬させる。した
がって、削除は存在せず、挿入及び復号のみが存在する。したがって、処理はス
テップs363に進み、音韻prを注釈音韻ai2として復号する対数確率がTE
MPDELSCOREに足される。次いで、処理はステップs365に進み、音
韻prを問合せ音韻qi2として復号する対数確率が求められ、TEMPDELS
COREに足される。次いで、システムはステップs367で、TEMPDEL
SCOREとDELSCOREの対数足し算を行い、結果をDELSCOREに
格納する。次いでステップs369で、音韻カウンタrが増分し、処理はステッ
プs359に戻る。システムに知られている全ての音韻について処理ステップs
361からs367が実行されると、処理は終了する。
【0092】 (正規化) ダイナミックプログラミングプロセスの上記の説明では、上記の数式(3)の
分母部分のみを扱った。したがって、入力問合せが、データベース内の注釈音韻
シーケンスと一致した後、数式(3)の分母によって定義される正規化項により
この一致に関するスコア(ENDSCOREに格納されている)を正規化しなけ
ればならない。上述のように、分母項の計算は、分子の計算と同時に、すなわち
上述のダイナミックプログラミングルーチンにおいて行われる。これは、分子と
分母を比較するとわかるように、分子に必要な項は全て分子上で算出されるから
である。しかし、注釈又は問合せがテキストから生成されたものであるとき、正
規化が行われないことに留意されたい。この実施形態では、より長い注釈により
大きな重みが与えられることがなく、共通の音韻を含む注釈に、共通でない音韻
を含む注釈よりも大きな重みが与えられることがないように正規化が行われる。
これは、注釈が基本モデルとどの程度一致しているかに依存する項によりスコア
を正規化することによって行われる。
【0093】 (訓練) 上記の実施形態では、システムは、1892個の復号/削除確率及び43個の
挿入確率(上記では異聴統計と呼ばれる)を使用して、音韻整合動作における各
ダイナミックプログラミングパスのスコアを求めた。この実施形態では、これら
の確率は事前に訓練セッション中に求められ、メモリ(図示せず)に格納される
。具体的には、この訓練セッション中に、音声認識システムを使用して音声の音
韻復号が2つの方法で行われる。第1の方法では、音声認識システムに音声と、
実際に発声された単語との両方が与えられる。したがって、音声認識ユニットは
この情報を使用して、発声された単語の標準音韻シーケンスを生成し、音韻の理
想的な復号を得ることができる。次いで、音声認識システムを使用して同じ音声
が復号されるが、今回は実際に発声された単語は不明である(これを以下では自
由復号と呼ぶ)。自由復号から生成される音韻シーケンスは、標準音韻シーケン
スと以下の点で異なる。
【0094】 i)自由復号では、誤りが起こり、標準シーケンスに存在しない音韻が復号に
挿入されるか、あるいは標準シーケンスに存在しない音韻が復号で省略される可
能性がある。
【0095】 ii)ある音韻が別の音韻と混同される可能性がある。
【0096】 iii)音声認識システムが音声を完全に復号する場合でも、会話の発音と標
準発音が異なり、たとえば、会話では、単語「and」(標準形式は/ae/
/n/ /d/及び/ax/ /n/ /d/である)が/ax/ /n/と短
縮されることが多く、場合によっては/n/になるため、自由復号が標準復号と
異なる可能性がある。
【0097】 したがって、多数の発声がその標準形及び自由復号形に復号される場合、ダイ
ナミックプログラミング法を使用してこの2つの形式を整列させることができる
。これにより、音韻が標準ではpであるべきときに復号されたものdのカウント
値が得られる。このような訓練結果から、上記の復号確率、削除確率、及び挿入
確率を以下のように近似することができる。
【0098】 音韻dが挿入である確率は次式によって与えられる。
【0099】
【数12】 上式で、Idは、自動音声認識システムが音韻dを挿入した回数であり、no d
、標準シーケンスに対して挿入される復号された音韻の総数である。
【0100】 音韻pを音韻dとして復号する確率は次式によって与えられる。
【0101】
【数13】 上式で、cdpは、自動音声認識システムが、dがpであるべきときにdを復号し
た回数であり、npは、自動音声認識システムが、pであるべきときに任意のも
の(削除を含む)を復号した回数である。
【0102】 音韻pが復号されるべきときに何も復号しない(すなわち、削除がある)確率
は次式によって与えられる。
【0103】
【数14】 上式で、Opは、自動音声認識システムが、pを復号すべきときに何も復号しな
かった回数であり、npは上記と同様である。
【0104】 (第2の実施形態) 第1の実施形態では、入力された単一の問合せを、いくつかの格納されている
注釈と比較した。この実施形態では、入力された2つの音声問合せが、格納され
ている注釈と比較される。この実施形態は、問合せの入力が雑音の多い環境で行
われる用途、又は比較的高い精度が必要になる用途に適している。この実施形態
が、問合せのどれかがテキストである状況には適していないことは明確である。
というのは、この場合、他の問合せが冗長になるからである。したがって、シス
テムは以下の2つの状況に対処することができる。
【0105】 (i)入力される2つの問合せが共に音声から生成され、注釈が音声から生成
される。
【0106】 (ii)入力される2つの問合せが共に音声から生成され、注釈がテキストか
ら生成される。
【0107】 この実施形態では、2つの問合せを同時に注釈に整合させるようになっている
ことを除いて、第1の実施形態で使用したダイナミックプログラミングアルゴリ
ズムと同様なアルゴリズムを使用する。図19は、一方の次元が2つの問合せの
それぞれを示し、他方の次元が注釈を示す、三次元座標プロットである。図19
は、本実施形態の動的プログラミングアルゴリズムによって処理される点の三次
元ラティスを示す。このアルゴリズムは、第1の実施形態で使用されたのと同じ
遷移スコア、ダイナミックプログラミング制約、及び異聴統計(すなわち、音韻
確率)を使用して、各パスを、図19に示されているプロット中のラティス点の
三次元ネットワークを介してパスを伝搬させ、スコアをつける。
【0108】 次に、この三次元ダイナミックプログラミングプロセスについて詳しく説明す
る。当業者には、図20から図25を図13から図19と比較すると理解される
ように、この三次元ダイナミックプログラミングアルゴリズムは、余分の問合せ
を考慮するために他のいくつかの制御ループが追加されることを除いて、第1の
実施形態で使用される二次元ダイナミックプログラミングアルゴリズムと基本的
に同じである。
【0109】 三次元ダイナミックプログラミングアルゴリズムは、図12に示されている全
てのステップの後で、2つの問合せを注釈と比較する。図20には、ダイナミッ
クプログラミングパスをヌル開始ノードφsから、ダイナミックプログラミング
制約によって定義される全ての可能な始点まで伝搬させる際にステップs103
で使用される処理ステップが示されている。なお、制約とは、ダイナミックプロ
グラミングパスがどの注釈音韻からでも始まることができ、パスが各問合せ中の
最初の4つの音韻のうちのどの音韻からでも始まることができることである。し
たがって、図20を参照するとわかるように、ステップs401で、システムは
変数mxj及びmxkの値を、第1の実施形態で使用される定数と同じmxho
psに設定する。したがって、この実施形態では、それぞれの入力問合せが4つ
以上の音韻を含むかぎり、mxjとmxkは共に4に設定される。問合せが4つ
以上の音韻を含まない場合、mxj及び/又はmxkは、対応する問合せ中の音
韻の数に等しい値に設定される。次いで、処理は、i=0からNann−1であ
り、j=0から3であり、k=0から3である場合にダイナミックプログラミン
グパスをポイント(i,j,k)から始めるように動作できるステップs403
からs417に進む。これにより、図12に示されているステップs103の処
理が終了し、次いで、処理はステップs105に進み、これらのダイナミックプ
ログラミングパスが終点まで伝搬する。
【0110】 第1の実施形態と同様に、この実施形態では、システムは、探索空間内のポイ
ントをラスタ状に処理することによってダイナミックプログラミングパスを始点
から終点まで伝搬させる。このラスタ処理動作を制御するのに用いられる制御ア
ルゴリズムは図21に示されている。図21を図14と比較するとわかるように
、この制御アルゴリズムは、第1の実施形態で使用された制御アルゴリズムと同
じ一般形式を有する。違いは、伝搬ステップs419がより複雑であることと、
入力された第2の問合せによって生じる追加のポイントを処理するのに必要な問
合せブロックs421、ブロックs423、及びブロックs425が設けられる
ことだけである。図21に示されている制御アルゴリズムがどのように動作する
かをよりよく理解するには、図14についての上記の説明を参照されたい。
【0111】 図22には、終点のパスを終了ヌルノードφeまで伝搬させる際に、この実施
形態において図12に示されているステップs107で使用される処理ステップ
がより詳しく示されている。図22を図15と比較するとわかるように、この実
施形態においてステップs107で使用される処理ステップは、第1の実施形態
で使用された対応するステップと同様である。違いは、遷移スコア計算ブロック
s443がより複雑であることと、第2の問合せによる追加のラティスポイント
を処理するために追加のブロック(s439、s441、及びs449)ならび
に変数(k)が必要であることである。したがって、ステップs431からs4
49で使用される処理を理解するには、図15についての上記の説明を参照され
たい。
【0112】 図23は、図21に示されている伝搬ステップs419で使用される各処理ス
テップを示すフローチャートである。図16は、上述の二次元実施形態の対応す
るフローチャートである。図23を図16と比較するとわかるように、この2つ
の実施形態の間の主な違いは、第2の問合せによる追加のラティスポイントを処
理するために追加の変数(mxk及びk2)ならびに処理ブロック(s451、
s453、s455、及びs457)が必要であることである。2つの問合せが
共に音声でなければならず、したがって、フローチャートの主要な分岐が、注釈
がテキストであるときの分岐と、注釈が音声であるときの他の分岐の2つだけで
あるため、図23の方がわずかに簡単でもある。図23に示されているフローチ
ャートで使用される処理ステップをよりよく理解するには、図16の説明を参照
されたい。
【0113】 図24は、図23の処理ステップの間に、ダイナミックプログラミングパスが
ポイント(i,j,k)からポイント(i2,j2,k2)まで伝搬する際、遷
移スコアを算出するうえで使用される処理ステップを示すフローチャートである
。図17には、上述の二次元実施形態の対応するフローチャートが示されている
。図24を図17と比較するとわかるように、この実施形態と第1の実施形態の
主な違いは、第2の問合せに挿入される音韻の挿入確率を算出する追加の処理ス
テップs461である。したがって、図24に示されているフローチャートで使
用される処理ステップをよりよく理解するには、図17の説明を参照されたい。
【0114】 次に、ポイント(i,j,k)からポイント(i2,j2,k2)まで伝搬す
る際の削除スコア及び/又は復号スコアを求めるために図24におけるステップ
s463で使用される処理ステップについて、図25を参照してより詳しく説明
する。可能な削除及び復号は、注釈がテキストから生成された注釈であるかそれ
とも音声から生成された注釈であるかに依存するので、判定ブロックs501で
、注釈がテキストであるかそれとも音声であるかが判定される。注釈がテキスト
から生成された注釈である場合、音韻ループポインタi2は注釈音韻ai+1を指
し示さなければならない。次いで、処理は、第1及び第2の問合せに、注釈に対
する音韻の削除が存在するかどうかを判定するように動作できるステップs50
3、s505、及びs507に進む。存在する場合、j2及び/又はk2はそれ
ぞれ、j又はkに等しい。
【0115】 −j2がjに等しくなく、かつk2がkに等しくない場合、注釈に対する問合
せにおける削除は存在せず、処理はステップs509に進み、注釈音韻ai+1を
第1の問合せ音韻qi2として復号する対数確率がDELSCOREにコピーされ
る。次いで、処理はステップs511に進み、注釈音韻ai+1を第2の問合せ音
韻qk2として復号する対数確率がDELSCOREに足される。
【0116】 −j2はjに等しくなく、k2はkに等しいとシステムが判定した場合、処理
はステップs513からs515に進み、注釈音韻ai+1を削除する確率を求め
てDELSCOREにコピーすることと、注釈音韻ai+1を第1の問合せ音韻qi
2として復号する確率をDELSCOREに足すことがそれぞれ行われる。
【0117】 −j2がjに等しいと共にk2がkに等しいとシステムが判定した場合、処理
はステップs517及びs519に進み、システムは、第1の問合せと第2の問
合せの両方から注釈音韻ai+1を削除する対数確率を求め、結果をDELSCO
REに格納する。
【0118】 −j2はjに等しく、k2はkに等しくないとシステムが判定した場合、処理
は、注釈音韻ai+1を削除する対数確率をDELSCOREにコピーすることと
、注釈音韻ai+1を第2の問合せ音韻qk2として復号する対数確率をDELSC
OREに足すことをそれぞれ行うように動作できるステップs521及びs52
3に進む。
【0119】 システムは、ステップs501で、注釈が音声から生成されたものであると判
定した場合、i2、j2、及びk2をそれぞれi、j、及びkと比較することに
より、注釈又は2つの問合せからの音韻削除があるかどうかを(ステップs52
5からs537で)判定する。図25bから図25eに示されているように、注
釈が音声から生成されたものであるとき、8つの可能な状況の適切な復号確率及
び削除確率を判定するように動作する8つのメイン分岐がある。各状況で実行さ
れる処理は非常に類似しているので、1つの状況についてのみ説明する。
【0120】 具体的には、ステップs525、s527、及びs531で、(i2=iであ
るため)注釈からの削除が存在し、(j2≠jでありk2≠kであるため)2つ
の問合せからの削除は存在しないとシステムが判定した場合、処理はステップs
541に進み、音韻ループポインタrが1に初期設定される。音韻ループポイン
タrは、上記の第1の実施形態で説明した数式(4)と同様な数式の計算時にシ
ステムに知られている各音韻を処理するために使用される。次いで、処理はステ
ップs543に進み、システムは音韻ポインタrを、システムに知られている音
韻の数Nphonemes(この実施形態では43に等しい)と比較する。最初
、rはステップs541で1に設定される。したがって、処理はステップs54
5に進み、システムは、生じた音韻の対数確率prを求め、これを一時スコアT
EMPDELSCOREにコピーする。次いで、処理はステップs547に進み
、システムは、注釈中の音韻prを削除する対数確率を求め、これをTEMPD
ELSCOREに足す。次いで、処理はステップs549に進み、システムは、
音韻prを第1の問合せ音韻q1 j2として復号する対数確率を求め、これをTEM
PDELSCOREに足す。次いで、処理はステップs551に進み、システム
は、音韻prを第2の問合せ音韻q2 k2として復号する対数確率を求め、これをT
EMPDELSCOREに足す。次いで、処理はステップs553に進み、シス
テムは、TEMPDELSCOREとDELSCOREの対数加算を実行し、結
果をDELSCOREに格納する。次いで、処理はステップs555に進み、音
韻ポインタrが1だけ増分される。次いで、処理はステップs543に進み、シ
ステムに知られている次の音韻について同様な処理が実行される。システムに知
られている43個の音韻のそれぞれについてこの計算が実行された後、処理は終
了する。
【0121】 図25で実行された各処理ステップと図18で実行された各ステップを比較す
るとわかるように、復号及び削除に関するダイナミックプログラミングアルゴリ
ズム内で計算される項は、数式(4)に類似しているが、第2の問合せに関する
追加の確率項を有する。具体的には、この項は以下の形式を有する。
【0122】
【数15】 このことが予想されるのは、2つの問合せが互いに条件付きで独立しているから
である。
【0123】 全てのダイナミックプログラミングパスが終了ノードφeまで伝搬した後、第
1の実施形態で算出されたのと同じ正規化項(上記の数式(5)で与えられる)
を用いてこのアラインメントの総スコアが正規化される。これは、正規化項が注
釈のモデルとの類似性にのみ依存するからである。2つの問合せが全ての注釈に
一致した後、注釈の正規化されたスコアがランク付けされ、システムは、このラ
ンク付けに基づいて、注釈、又は入力問合せに最も近い注釈をユーザに出力する
【0124】 上述の第2の実施形態では、2つの入力問合せを格納されている注釈と比較し
た。当業者なら理解できるように、アルゴリズムは、任意の数の入力問合せに関
して適応させることができる。2つの問合せの場合について示したように、さら
に問合せを追加する場合には、この追加の問合せを考慮するためにアルゴリズム
にいくつかのループを追加するだけでよい。しかし、3つ以上の入力問合せを、
格納されている注釈と比較する実施形態では、プルーニングを用いて速度又はメ
モリに関する制約を満たすダイナミックプログラミングルーチンを使用すること
が必要になる場合がある。この場合、全てのパスの全ての確率を合計するのでは
なく、互いに交わるパスの最適なスコアが伝搬させられ、スコアの低いパスは終
了させられる。
【0125】 (代替実施形態) 当業者なら理解できるように、ある音韻シーケンスを他の音韻シーケンスと整
合させる上記の技術は、データ検索以外の用途に適用することができる。さらに
、当業者なら理解できるように、上述のシステムは音韻ラティス及び単語ラティ
ス中の音韻を使用したが、音節やカタカナ(日本語のアルファベット)のような
他の音韻状の単位を使用することができる。
【0126】 当業者なら理解できるように、2つの音韻シーケンスのダイナミックプログラ
ミングによる整合及びアラインメントに関する上記の説明は、一例としてのみ与
えられており、様々な修正を加えることができる。たとえば、ラティスポイント
を介してパスを伝搬させるラスタ走査技術を使用したが、ラティスポイントを介
してパスを漸進的に伝搬させる他の技術を使用することができる。さらに、当業
者なら理解できるように、上述のダイナミックプログラミング制約以外の制約を
使用して整合プロセスを制御することができる。
【0127】 上記の実施形態では、注釈は一般に問合せよりも長く、ダイナミックプログラ
ミングアラインメントアルゴリズムによって、問合せが注釈全体に整列させられ
た。他の実施形態では、アラインメントアルゴリズムは、開始位置から終了位置
へと問合せを注釈にわたってステップさせることによって突き合わせ、各ステッ
プにおいて、問合せを注釈の、問合せと概ね同じサイズの部分と比較することに
よって、問合せを注釈と比較してもよい。このような実施形態では、各ステップ
で、上述のダイナミックプログラミング技術と同様な技術を使用して、問合せが
注釈の対応する部分と整列させられる。この技術は図26aに示されており、結
果として得られたプロットには、図26bに示されているように問合せが各ステ
ップごとに注釈と突き合わされるときに問合せと現在の注釈とのアラインメント
に関するダイナミックプログラミングスコアがどのように変化するかが示されて
いる。図26bに示されているプロット中のピークは、注釈の、問合せと最もう
まく一致する部分を表している。次いで、問合せと各注釈との比較時に得られた
ピークDPスコアを比較することによって、問合せに最も近い注釈を判定するこ
とができる。
【0128】 上記の実施形態では、音韻ラティス注釈データ及び単語ラティス注釈データを
使用して写真に注釈付けした。当業者なら理解できるように、この音韻ラティス
データ及び単語ラティスデータを使用して多数の異なる種類のデータファイルに
注釈付けすることができる。たとえば、この種の注釈データは、患者のx線写真
、たとえばNMRスキャン、超音波スキャンなどの3Dビデオに注釈付けする医
療用途に使用することができる。これはまた、オーディオデータ又は地震データ
などIDデータに注釈付けするために使用することができる。
【0129】 上記の実施形態では、入力された音声信号から音韻シーケンスを生成する音声
認識シーケンスを使用した。当業者なら理解できるように、代替物を含む音韻ス
トリングに分解することのできる、出力された単語のシーケンス、即ち、単語ラ
ティスを生成する他の種類の音声認識システムと共に上記のシステムを使用して
、音韻ストリングを生成するレコグナイザをシミュレートすることができる。
【0130】 上記の実施形態では、挿入確率、削除確率、及び復号確率は、確率の最大尤度
推定値を使用して音声認識シーケンスの異聴統計から算出された。当業者なら理
解できるように、最大エントロピー技術のような他の技術を使用してこれらの確
率を推定することができる。適切な最大エントロピー技術の詳細は、John Skill
ing著、Kluwer Academic publishers刊「Maximum Entropy and Bayesian Method
s」と題する文献の45ページから52ページに記載されている。この文献の内
容は、引用によって本明細書に組み込まれる。
【0131】 上記の実施形態では、データベース29と自動音声認識ユニット51は共にユ
ーザ端末59内に位置している。当業者なら理解できるように、これは必須では
ない。図27には、データベース29及び探索エンジン53がリモートサーバ6
0内に位置しており、ユーザ端末59がネットワークインタフェースユニット6
7及び69ならびにデータネットワーク68(たとえば、インターネット)を介
してデータベース29にアクセスする実施形態が示されている。この実施形態で
は、ユーザ端末59が受信できるのはマイクロフォン7からの声の問合せだけで
ある。このような問合せは自動音声認識ユニット51によって音韻データ及び単
語データに変換される。次いで、このデータは、リモートサーバ60内に位置す
る探索エンジン53への、データネットワーク68を介したデータの送信を制御
する制御ユニット55に渡される。次いで、探索エンジン53は、上記の実施形
態で実行された探索と同様に探索を実行する。次いで、探索結果はデータネット
ワーク68を介して探索エンジン53から制御ユニット55に送り返される。次
いで、制御ユニット55は、ネットワークから受信された探索結果を検討し、適
切なデータをディスプレイ57上に表示し、それをユーザ39が見ることができ
るようにする。
【0132】 データベース29及び探索エンジン53をリモートサーバ60内に配置するだ
けでなく、自動音声認識ユニット51をリモートサーバ60内に配置することも
可能である。このような実施形態は図28に示されている。図示のように、この
実施形態では、ユーザから入力された声の問合せは、音声をデータネットワーク
68を介して効率的に転送できるように符号化するように動作できる音声符号化
ユニット73に、入力線61を介して渡される。次いで、符号化されたデータが
制御ユニット55に渡され、制御ユニットは、データをネットワーク68を介し
てリモートサーバ60に送信する。リモートサーバ60において、データは自動
音声認識ユニット51によって処理される。次いで、入力問合せに関して音声認
識ユニット51によって生成された音韻データ及び単語データが、データベース
29での探索に使用できるように探索エンジン53に渡される。次いで、探索エ
ンジン53によって生成された探索結果が、ネットワークインタフェース69及
びネットワーク68を介してユーザ端末59に送り返される。リモートサーバか
ら受信された探索結果は次いで、ネットワークインタフェースユニット67を介
して制御ユニット55に渡され、制御ユニット55は結果を分析し、ディスプレ
イ57上に適切なデータを表示し、それをユーザ39が見ることができるように
する。
【0133】 同様に、キーボードによるユーザからの入力のみを許容し、リモートサーバ内
に探索エンジン及びデータベースが位置しているユーザ端末59を設けることが
できる。このような実施形態では、リモートサーバ60内に音声表記ユニット7
5を配置してもよい。
【0134】 上記の実施形態では、ダイナミックプログラミングアルゴリズムを使用して問
合せ音韻シーケンスと注釈音韻シーケンスを整列させた。当業者なら理解できる
ように、任意のアラインメント技術を使用することができる。たとえば、全ての
可能なアラインメントを識別する簡単な技術を使用することができる。しかし、
ダイナミックプログラミングは標準処理ハードウェアを使用して実施するのが容
易であるので、ダイナミックプログラミングが好ましい。
【0135】 上記では、ダイナミックプログラミング技術を使用して2つ以上の音韻シーケ
ンスを比較する方法について説明した。しかし、図2及び図3に示されているよ
うに、注釈はラティスとして記憶することが好ましい。当業者なら理解できるよ
うに、上記の比較技術がこのようなラティスと共に働くには、ラティスによって
定義される音韻シーケンスを「平坦化」して、分岐を有さない単一の音韻シーケ
ンスを得なければならない。このための簡単な手法としては、ラティスによって
定義される全ての様々な可能な音韻シーケンスを識別し、次いでこれらの音韻シ
ーケンスのそれぞれを各問合せのシーケンスと比較する手法がある。しかし、ラ
ティスの共通の部分が各問合せのシーケンスと数回整合させられるので、この手
法は好ましくない。したがって、ラティス内の各音韻に関して利用できるタイム
スタンプ情報に従ってラティス内の各音韻を順次ラベル付けすることによってラ
ティスを平坦化することが好ましい。この場合、ダイナミックプログラミングア
ラインメント時に、各DPラティスポイントで異なるダイナミックプログラミン
グ制約が使用され、各パスは確実にラティス構造に従って伝搬する。
【0136】 以下の表には、図2に示されている音韻ラティスの部分で使用されるDP制約
が示されている。具体的には、第1の列は、ラティス内の各音韻に割り当てられ
る音韻番号(p1からp9)を示し、中央の列は、ラティス内の実際の音韻に対応
し、最後の列は、各音韻について、その音素で終わるパスが、ダイナミックプロ
グラミングの次の時点で伝搬することのできる音韻を示している。表には示され
ていないが、中央の列には、音韻が連結されるノードの詳細と、対応する音韻リ
ンクがさらに含まれる。
【0137】
【表1】
【0138】 たとえば、あるダイナミックプログラミングパスが時間順序音韻p4で終わる
場合、このダイナミックプログラミングパスは、音韻p4に留まることも、ある
いは時間順序音韻p5からp11のいずれかに伝搬することもできる。表に示され
ているように、ポイントの中には、パスが到達することのできる音韻が、時間順
序音韻シーケンスどおりに連続的に配置されないポイントがある。たとえば、時
間順序音韻p6で終わるダイナミックプログラミングパスの場合、このパスはこ
の音韻に留まることも、あるいは音韻p10,p12,p15,又はp16に進むことも
できる。ラティス内の音韻をこのように連続的に番号付けし、使用されるダイナ
ミックプログラミング制約をラティスに応じて変化させることによって、入力問
合せと注釈ラティスとのダイナミックプログラミング整合を効率的に行うことが
できる。さらに、当業者なら理解できるように、入力問合せもラティスを生成す
る場合、このラティスを同様に平坦化し、それに応じてダイナミックプログラミ
ング制約を調整してもよい。
【0139】 上記の実施形態では、注釈と問合せの両方に同じ音韻異聴確率を使用した。当
業者なら理解できるように、様々な認識システムを使用してこれらの音韻異聴確
率を生成する場合、注釈と問合せにそれぞれの異なる異聴確率を使用すべきであ
る。これらの異聴確率は、音韻シーケンスを生成するために使用された認識シス
テムに依存する。
【0140】 上記の実施形態では、注釈と問合せのいずれかをテキストから生成するときに
、キーボードから入力されたテキストに対応する標準音韻シーケンスが正しいも
のと仮定した。この場合、キーボードから入力される単語のスペルに間違いがな
く、また誤入力もないものと仮定されているので、上記の仮定が当てはまらない
場合もある。したがって、他の実施形態では、キーボードから入力問合せ及び/
又は注釈に異聴確率を使用してもよい。言い換えれば、数式(4)及び数式(1
2)は、注釈又は問合せ、あるいはその両方がテキストである場合にも使用され
る。使用される異聴確率が、ミススペルと誤入力のいずれか又はその両方の符号
化を試みてもよい。当業者なら理解できるように、誤入力に関する異聴確率は、
使用されるキーボードの種類に依存する。具体的には、単語を誤入力する異聴確
率はキーボードのレイアウトに依存する。たとえば、文字「d」がキーボードか
ら入力された場合、文字「d」のキーの周りのキーは誤入力確率が高く、一方、
「d」キーから離れた位置にあるキーは誤入力確率が比較的低い。上述のように
、これらの誤入力確率を単語のミススペルに関する異聴確率と共に使用しても、
あるいはそのような異聴確率で置き換えてもよい。このようなミススペル確率は
、多数の異なるユーザから入力されたドキュメントを分析し、通常生じる種類の
誤入力を監視することによって求めてもよい。このようなミススペル確率では、
誤入力によって起こる表記エラーも考慮することもできる。このような実施形態
では、使用されるダイナミックプログラミング制約によって、キーボードからの
入力への挿入及び/又は削除を可能にすべきである。たとえば、図11に示され
ている制約を使用することができる。
【0141】 他の場合には、各キーに複数の文字を割り当てるキーボード(たとえば、携帯
電話のキーボード)を介してテキストが入力され、ユーザは、各キーを繰り返し
押して、そのキーに割り当てられた文字を1つずつ確認しなければならない。こ
のような実施形態では、入力される文字と同じキーに割り当てられた文字が、他
のキーに関連する誤入力異聴確率よりも高い誤入力異聴確率を有するように、異
聴確率が調整される。これは、携帯電話を使用してテキストメモリを送信したこ
とのある人なら理解できるように、誤入力は、キーが所望の文字を入力するため
の正しい回数だけ押されなかったために起こることが多いからである。
【0142】 上記の実施形態では、制御ユニットは、上記の数式(4)又は数式(12)を
使用して各遷移の復号スコアを算出した。制御ユニットは、システムに知られて
いる全ての音韻をこれらの数式に従って合計する代わりに、この加算内の確率項
を最大にする未知の音韻prを識別し、この最大確率を、注釈及び問合せの対応
する音韻を復号する確率として使用するように構成してもよい。しかし、これは
、この加算内の確率項をどの音韻(pr)が最大にするかを判定する追加の計算
が必要になるので好ましくない。
【0143】 上述の第1の実施形態では、ダイナミックプログラミングアルゴリズムの間に
、整列させた各音韻対ごとに数式(4)を計算した。数式(4)の計算では、注
釈音韻及び問合せ音韻を、システムに知られている各音韻と比較した。当業者な
ら理解できるように、注釈音韻と問合せ音韻の所与の対については、数式(4)
で与えられる確率の多くがゼロに等しいか、又はゼロに非常に近くなる。したが
って、他の実施形態では、注釈音韻と問合せ音韻の対を比較的できるのは、事前
に異聴統計から決定された、知られている全ての音韻の部分集合だけである。こ
のような実施形態を実施する場合、数式(4)を使用して注釈音韻及び問合せ音
韻と比較する必要のあるモデル音韻を識別する参照テーブルを、注釈音韻及び問
合せ音韻を用いてアドレス指定することができる。
【0144】 上記の実施形態では、整列させられ整合された注釈と問合せの特徴は音声の単
位を表している。当業者なら理解できるように、上述の技術は、特徴のシーケン
スを生成した認識システムが不正確であるために問合せ及び注釈の特徴を混同す
る可能性がある他の用途で使用することができる。たとえば、上述の技術は、認
識システムがある入力文字を別の入力文字と混同する可能性が高い光学文字認識
システム又は手書き文字認識システムで使用することができる。
【0145】 上記では、いくつかの実施形態及び修正実施形態について説明した。当業者な
ら理解できるように、当業者に明らかな他の多数の実施形態及び修正実施形態が
ある。
【図面の簡単な説明】
【図1】 ユーザによるキーボードからの入力又は音声入力から生成された注釈データを
用いてデータファイルに注釈付けできるようにするユーザ端末を示す概略ブロッ
ク図である。
【図2】 データファイルに注釈付けするための、ユーザによるキーボードからの入力か
ら生成された音韻ラティス注釈データ及び単語ラティス注釈データの概略図であ
る。
【図3】 データファイルに注釈付けするための、ユーザによる音声入力から生成された
音韻ラティス注釈データ及び単語ラティス注釈データの概略図である。
【図4】 ユーザが、キーボードからの問合せ又は音声問合せによってデータベースから
情報を検索できるようにする、ユーザの端末の概略ブロック図である。
【図5a】 図4に示されているユーザ端末のフロー制御の一部を示す流れ図である。
【図5b】 図4に示されているユーザ端末のフロー制御の残りの部分を示す流れ図である
【図6a】 問合せと注釈の両方を生成したと仮定される基本的な統計モデルを示す概略図
である。
【図6b】 キーボードからの入力を表す第1の音韻シーケンスとユーザの音声入力を表す
第2の音韻シーケンスとを示し、かつユーザの音声入力によるキーボードからの
入力に対する音韻の挿入及び削除が存在する可能性を示す概略図である。
【図6c】 それぞれが音声入力を表す第1及び第2の音韻シーケンスと、対応する音声入
力で実際に発声されたものに対応する標準音韻シーケンスを表す第3の音韻シー
ケンスとを示し、対応する標準音韻シーケンスに対する、2つの音声入力への音
韻の挿入及び削除が存在する可能性を示す概略図である。
【図7】 注釈音韻シーケンス及び問合せ音韻シーケンスによって作成される探索空間を
開始ヌルノード及び終了ヌルノードと共に概略的に示す図である。
【図8】 横軸が注釈の音韻を表し、縦軸が問合せの音韻を表し、各ラティスポイントが
注釈音韻と問合せ音韻との間の可能な一致に対応するいくつかのラティスポイン
トを示す二次元プロットを示す図である。
【図9a】 注釈がキーボードからの入力であり、かつ問合せが音声入力から生成された問
合せであるときにダイナミックプログラミングによる整合プロセスで使用される
ダイナミックプログラミング制約を概略的に示す図である。
【図9b】 問合せがキーボードからの入力であり、かつ注釈が音声入力であるときにダイ
ナミックプログラミングによる整合プロセスで使用されるダイナミックプログラ
ミング制約を概略的に示す図である。
【図10】 音韻例用に記憶される削除確率及び復号確率を概略的に示す図である。
【図11】 注釈と問合せが共に音声入力であるときにダイナミックプログラミングによる
整合プロセスで使用されるダイナミックプログラミング制約を概略的に示す図で
ある。
【図12】 ダイナミックプログラミングによる整合プロセスで実行される主処理ステップ
を示す流れ図である。
【図13】 ヌル開始ノードから全ての可能な始点まで伝搬することによってダイナミック
プログラミングプロセスを開始するのに用いられる主処理ステップを示す流れ図
である。
【図14】 各ダイナミックプログラミングパスを始点から全ての可能な終点まで伝搬させ
るのに用いられる主処理ステップを示す流れ図である。
【図15】 各ダイナミックプログラミングパスを終点からヌル終了ノードまで伝搬させる
際に用いられる主処理ステップを示す流れ図である。
【図16a】 ダイナミックプログラミング制約を使用してパスを伝搬させる際に実行される
処理ステップの一部を示す流れ図である。
【図16b】 ダイナミックプログラミング制約を使用してパスを伝搬させる際に用いられる
残りの処理ステップを示す流れ図である。
【図17】 あるパスを始点から終点まで伝搬させる場合の遷移スコアを求める際に用いら
れる処理ステップを示す流れ図である。
【図18a】 注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられ
る処理ステップの一部を示す流れ図である。
【図18b】 注釈及び問合せの音韻を削除し復号する場合のスコアを求める際に用いられる
残りのステップを示す流れ図である。
【図19】 注釈音韻シーケンス及び2つの問合せ音韻シーケンスによって作成される探索
空間を開始ヌルノード及び終了ヌルノードと共に概略的に示す図である。
【図20】 ヌル開始ノードから全ての可能な始点まで伝搬することによってダイナミック
プログラミングプロセスを開始するのに用いられる主処理ステップを示す流れ図
である。
【図21】 各ダイナミックプログラミングパスを始点から全ての可能な終点まで伝搬させ
るのに用いられる主処理ステップを示す流れ図である。
【図22】 各ダイナミックプログラミングパスを終点からヌル終了ノードまで伝搬させる
際に用いられる主処理ステップを示す流れ図である。
【図23】 ダイナミックプログラミング制約を使用してパスを伝搬させる際に実行される
処理ステップを示す流れ図である。
【図24】 あるパスの始点から終点まで伝搬させる場合の遷移スコアを求める際に用いら
れる処理ステップを示す流れ図である。
【図25a】 注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられ
る処理ステップの第1の部分を示す流れ図である。
【図25b】 注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられ
る処理ステップの第2の部分を示す流れ図である。
【図25c】 注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられ
る処理ステップの第3の部分を示す流れ図である。
【図25d】 注釈及び問合せの音韻を削除し復号する場合のスコアを算出する際に用いられ
る処理ステップの第4の部分を示す流れ図である。
【図25e】 注釈及び問合せの音韻を削除し復号する場合のスコアを求める際に用いられる
残りのステップを示す流れ図である。
【図26a】 異なる技術を使用して問合せを各注釈と整列させる他の実施形態を概略的に示
す図である。
【図26b】 図26aに示す実施形態における問合せと注釈の比較に応じてダイナミックプ
ログラミングスコアがどのように変化するかを示すプロットを示す図である。
【図27】 入力音声問合せに応答して、リモートサーバ内に位置するデータベースからデ
ータファイルを検索するように動作できる他のユーザ端末の形態を示す概略ブロ
ック図である。
【図28】 ユーザが、入力音声問合せに応答して、リモートサーバ内に位置するデータベ
ースからデータを検索できるようにする、他のユーザ端末を示す図である。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/10 G10L 3/00 537E 15/12 533D 15/18 (31)優先権主張番号 0025143.9 (32)優先日 平成12年10月13日(2000.10.13) (33)優先権主張国 イギリス(GB) (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),CN,JP,K R,US (72)発明者 チャールズワース, ジェイソン, ピー ター, アンドリュー イギリス国 アールジー12 2エックスエ イチ, バークシャー, ブラックネル, ロンドン ロード, ザ ブラカンズ キヤノン リサーチ センター ヨーロッ パ リミテッド内 (72)発明者 樋口 麻子 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内 Fターム(参考) 5B075 ND14 PP07 PP28 QM08 5D015 HH02 HH04 KK02 LL12

Claims (123)

    【特許請求の範囲】
  1. 【請求項1】 第1及び第2の特徴のシーケンスを受信する手段と、 第1シーケンスの特徴を第2シーケンスの特徴と整列させ、いくつかの整列さ
    せた特徴対を形成する手段と、 各整列させた特徴対の各特徴を比較し、整列させた特徴対間の類似性を表す比
    較スコアを生成する手段と、 全ての整列させた特徴対について比較スコアを組み合わせ、第1及び第2の特
    徴のシーケンスとの間の類似性の程度を示す手段とを備える特徴比較装置であっ
    て、 前記比較スコアを生成する手段が、 各整列させた対について、整列させた対における第1のシーケンスの特徴を、
    1組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、前記第1の
    シーケンスの特徴と1組の特徴から得たそれぞれの特徴との間の類似性を表す対
    応する複数の中間比較スコアを示す第1の比較手段と、 整列させた各対について、整列させた対における第2のシーケンスの特徴を、
    1組の特徴から得た複数の特徴のそれぞれと比較し、前記第2のシーケンスの特
    徴と1組の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数
    の中間比較スコアを示す第2の比較手段と、 前記複数の中間比較スコアを組み合わせることにより、整列させた対について
    前記比較スコアを算出する手段と、 を備えることを特徴とする特徴比較装置。
  2. 【請求項2】 前記第1及び第2の比較手段が、第1のシーケンスの特徴及
    び第2のシーケンスの特徴のそれぞれを前記1組の所定の特徴の各特徴と比較す
    るように動作することを特徴とする請求項1に記載の装置。
  3. 【請求項3】 前記比較スコアを生成する手段が、整列させた特徴対の第2
    のシーケンスの特徴を整列させた特徴対の第1のシーケンスの特徴と混同する確
    率を表す整列させた特徴対の比較スコアを生成するように動作することを特徴と
    する請求項1又は2に記載の装置。
  4. 【請求項4】 前記第1及び第2の比較手段が、1組の所定の特徴から得ら
    れた対応する特徴を、整列させた対の特徴と混同する確率を示す中間比較スコア
    を求めるように動作することを特徴とする請求項3に記載の装置。
  5. 【請求項5】 前記計算手段が、(i)整列させた1対の特徴における第1
    及び第2のシーケンスの特徴を、該1組の所定の特徴における同じ特徴と比較す
    る際に得られた中間スコアを掛け合わせ、複数の掛け合わされた中間比較スコア
    を求め、(ii)結果として得られる掛け合わされた中間スコアを合計し、整列
    させた対の特徴の前記比較スコアを算出するように動作することを特徴とする請
    求項4に記載の装置。
  6. 【請求項6】 前記1組の所定の特徴における前記各特徴が、特徴のシーケ
    ンス内で生じる所定の確率を有し、前記計算手段が、掛け合わされた中間比較ス
    コアを生成するのに用いられる、1組の所定の特徴における特徴の各発生確率を
    用いて、前記掛け合わされた中間比較スコアのそれぞれを重み付けするように動
    作することを特徴とする請求項5に記載の装置。
  7. 【請求項7】 前記計算手段が、次式を計算するように動作し、 【数1】 上式で、qj及びaiがそれぞれ、整列させた第1及び第2のシーケンスの特徴
    からなる対であり、P(qj|pr)が、設定された特徴prを第1のシーケンス
    の特徴qjとして混同する確率であり、P(ai|pr)が、設定された確率prを
    第2のシーケンスの特徴aiとして混同する確率であり、P(pr)が、設定され
    た特徴prが特徴のシーケンスにおいて発生する確率を表すことを特徴とする請
    求項6に記載の装置。
  8. 【請求項8】 第1及び第2のシーケンスの特徴の異聴確率が事前に求めら
    れ、かつ前記異聴確率が、第1及び第2のシーケンスのそれぞれを生成するのに
    用いられた認識システムに依存することを特徴とする請求項7に記載の装置。
  9. 【請求項9】 前記中間スコアが対数確率を表し、前記算出手段が、それぞ
    れの中間スコアを足すことによって前記掛け算を行うように動作し、かつ対数の
    足し算を実行することによって前記掛け合わされたスコアの前記足し算を行うよ
    うに動作することを特徴とする請求項5乃至8のいずれか1項に記載の装置。
  10. 【請求項10】 前記組合せ手段が、整列させた特徴からなる全ての対の比
    較スコアを足して前記類似度を求めるように動作することを特徴とする請求項9
    に記載の装置。
  11. 【請求項11】 前記整列手段が、前記第1及び第2の特徴のシーケンスに
    おける特徴の削除及び挿入を識別するように動作し、前記比較スコアを生成する
    手段が、整列させた1対の特徴の近くで行われた、前記整列手段によって識別さ
    れた特徴の削除及び挿入に応じて、整列させた1対の特徴の前記比較スコアを生
    成するように動作することを特徴とする上記請求項のいずれか1項に記載の装置
  12. 【請求項12】 前記整列手段が、ダイナミックプログラミング技術を使用
    して前記第1及び第2の特徴のシーケンスを整列させるダイナミックプログラミ
    ング手段を備えることを特徴とする上記請求項のいずれか1項に記載の装置。
  13. 【請求項13】 前記ダイナミックプログラミング手段が、前記第1の特徴
    のシーケンスと第2の特徴のシーケンスとの間の複数の可能な整列を漸進的に判
    定するように動作し、前記比較スコアを生成する手段が、前記ダイナミックプロ
    グラミング手段によって判定された、整列させた特徴からなる可能な各対の比較
    スコアを求めるように動作することを特徴とする請求項12に記載の装置。
  14. 【請求項14】 前記比較スコアを生成する手段が、前記可能な整列が漸進
    的に判定される間に前記比較スコアを生成するように動作することを特徴とする
    請求項13に記載の装置。
  15. 【請求項15】 前記ダイナミックプログラミング手段が、前記第1の特徴
    のシーケンスと前記第2の特徴のシーケンスとの間の最適な整列を判定するよう
    に動作し、前記組合せ手段が、整列させた特徴からなる最適な対のみの比較スコ
    アを組み合わせることによって前記類似性を求めるように動作することを特徴と
    する請求項12、13、又は14に記載の装置。
  16. 【請求項16】 前記組合せ手段が、整列させた特徴からなる全ての可能な
    対について全ての比較スコアを組み合わせることによって前記類似度を求めるよ
    うに動作することを特徴とする請求項13又は14に記載の装置。
  17. 【請求項17】 前記第1及び第2の特徴のシーケンス内の各特徴が、前記
    1組の所定の特徴に属し、前記第1及び第2の比較手段が、前記1組の所定の特
    徴を互いに関係付ける所定のデータを使用して前記中間スコアを求めるように動
    作することを特徴とする上記請求項のいずれか1項に記載の装置。
  18. 【請求項18】 前記第1の比較手段によって使用される所定のデータが、
    第1の特徴のシーケンスを生成するのに用いられるシステムに依存し、前記第2
    の比較手段によって使用される所定のデータが、前記第1の比較手段によって使
    用される所定のデータと異なり、第2の特徴のシーケンスを生成するのに用いら
    れるシステムに依存することを特徴とする請求項17に記載の装置。
  19. 【請求項19】 所定の各データが、1組の特徴のそれぞれについて、その
    特徴を1組の特徴中の他の特徴と混同する確率を含むことを特徴とする請求項1
    7又は18に記載の装置。
  20. 【請求項20】 所定の各データが、1組の特徴のそれぞれについて、この
    特徴を特徴のシーケンスに挿入する確率をさらに含むことを特徴とする請求項1
    9に記載の装置。
  21. 【請求項21】 所定の各データが、1組の特徴のそれぞれについて、この
    特徴を特徴のシーケンスから削除する確率をさらに含むことを特徴とする請求項
    19又は20に記載の装置。
  22. 【請求項22】 前記第1及び第2の特徴のシーケンスが時間順次信号を表
    すことを特徴とする上記請求項のいずれか1項に記載の装置。
  23. 【請求項23】 前記第1及び第2の特徴のシーケンスがオーディオ信号を
    表すことを特徴とする上記請求項のいずれか1項に記載の装置。
  24. 【請求項24】 前記第1及び第2の特徴のシーケンスがテキスト及び/又
    は音声を表すことを特徴とする請求項23に記載の装置。
  25. 【請求項25】 前記各特徴が、テキスト又は音声の小単語単位を表すこと
    を特徴とする請求項24に記載の装置。
  26. 【請求項26】 前記各特徴が音韻を表すことを特徴とする請求項25に記
    載の装置。
  27. 【請求項27】 前記第1の特徴のシーケンスが、キーボードからの入力か
    ら生成された複数の小単語単位を含み、前記第1の比較手段が、誤入力確率及び
    /又はミススペル確率を使用して前記中間比較スコアを求めるように動作するこ
    とを特徴とする上記請求項のいずれか1項に記載の装置。
  28. 【請求項28】 前記第2の特徴のシーケンスが、音声入力から生成された
    小単語単位のシーケンスを含み、前記第2の比較手段が、誤認識確率を使用して
    前記中間スコアを求めるように動作することを特徴とする上記請求項のいずれか
    に記載の装置。
  29. 【請求項29】 前記受信手段が、3つ以上の特徴のシーケンスを受信する
    ように動作し、 前記整列手段が、受信された各特徴のシーケンスの特徴同士を整列させ、整列
    させた特徴からなるいくつかの群を形成し、 前記比較スコアを生成する手段が、整列させた特徴からなる各群中の特徴同士
    を比較し、整列させた特徴からなる各群間の類似性を表す比較スコアを生成する
    ように動作し、 前記組合せ手段が、整列させた特徴からなる全ての群の比較スコアを組み合わ
    せ、3つ以上の特徴のシーケンス間の類似度を求めるように動作することを特徴
    とする上記請求項のいずれか1項に記載の装置。
  30. 【請求項30】 前記整列手段が、特徴のシーケンスを互いに同時に整列さ
    せるように動作することを特徴とする請求項29に記載の装置。
  31. 【請求項31】 前記受信手段が、複数の第2の特徴のシーケンスを受信す
    るように動作し、前記整列手段が、前記第1の特徴のシーケンスをそれぞれの前
    記第2の特徴のシーケンスと整列させ、各整列ごとの、整列させた特徴からなる
    いくつかの対を形成し、前記組合せ手段が、各整列ごとの比較スコアを組み合わ
    せ、第1の特徴のシーケンスと前記複数の第2の特徴のシーケンスとの間のそれ
    ぞれの類似度を求めるように動作することを特徴とする上記請求項のいずれか1
    項に記載の装置。
  32. 【請求項32】 前記比較スコアを生成する手段から出力された前記複数の
    類似度を比較する手段と、前記第1の特徴のシーケンスに最も近い第2の特徴の
    シーケンスを示す信号を出力する手段とをさらに備えることを特徴とする請求項
    31に記載の装置。
  33. 【請求項33】 前記組合せ手段が、前記各類似度を正規化する正規化手段
    を備えることを特徴とする請求項31又は32に記載の装置。
  34. 【請求項34】 前記正規化手段が、対応する第2の特徴のシーケンスの長
    さに応じて変化するそれぞれの正規化スコアで割ることによって各類似度を正規
    化することを特徴とする請求項33に記載の装置。
  35. 【請求項35】 それぞれの正規化スコアが、対応する第2の特徴のシーケ
    ンスにおける特徴のシーケンスに応じて変化することを特徴とする請求項34に
    記載の装置。
  36. 【請求項36】 前記それぞれの正規化スコアが、前記第2の比較手段によ
    って算出された対応する中間比較スコアと共に変化することを特徴とする請求項
    34又は35に記載の装置。
  37. 【請求項37】 前記整列手段が、ダイナミックプログラミング技術を使用
    して前記第1の特徴のシーケンスと前記第2の特徴のシーケンスを整列させるダ
    イナミックプログラミング手段を備え、前記正規化手段が、前記ダイナミックプ
    ログラミング手段によって前記可能な整列が漸進的に算出される間にそれぞれの
    正規化スコアを算出するように動作することを特徴とする請求項33から36の
    いずれか1項に記載の装置。
  38. 【請求項38】 前記正規化手段が、整列させた特徴からなるそれぞれの可
    能な対について、次式を計算し、 【数2】 上式で、P(ai|pr)が、設定された特徴prを第2のシーケンスの特徴ai
    として混同する確率を表し、P(pr)が、設定された特徴prが特徴のシーケン
    スにおいて発生する確率を表すことを特徴とする請求項37に記載の装置。
  39. 【請求項39】 前記正規化手段が、整列させた特徴のそれぞれの対につい
    て算出された正規化項を掛け合わせることによって前記それぞれの正規化スコア
    を算出するように動作することを特徴とする請求項38に記載の装置。
  40. 【請求項40】 複数の情報エントリのそれぞれが、注釈の特徴のシーケン
    スを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリ
    を含むデータベースを探索する装置であって、 入力問合せの複数の表現を受信する手段と、 入力問合せの各表現を、表現を表す問合せの特徴のシーケンスに変換する手段
    と、 各表現の問合せの特徴を各注釈の注釈の特徴と比較し、1組の比較結果を求め
    る比較手段と、 各表現の問合せの特徴を同じ注釈の注釈の特徴と比較することによって得られ
    た比較結果を互いに組み合わせ、各注釈について、入力問合せと注釈との間の類
    似度を求める組合せ手段と、 前記組合せ手段によって全ての注釈について求められた類似度を使用して、前
    記データベースから検索すべき情報を識別する手段と、 を備えることを特徴とする装置。
  41. 【請求項41】 前記比較手段は、各表現の問合せの特徴を現在の注釈の特
    徴と同時に比較することを特徴とする請求項40に記載の装置。
  42. 【請求項42】 前記比較手段は、 各表現の問合せの特徴を現在の注釈の特徴と整列させ、各整列させた群が、各
    表現の問合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの
    群を形成する手段と、 整列させた特徴からなる各群の特徴同士を比較し、整列させた特徴からなる群
    の特徴間の類似性を表す比較スコアを生成する特徴比較器とを備え、 前記組合せ手段が、現在の注釈に関する整列させた特徴からなる全ての群の比
    較スコアを組み合わせ、入力問合せと現在の注釈との間の類似度を求めるように
    動作することを特徴とする請求項40又は41に記載の装置。
  43. 【請求項43】 前記特徴比較器が、整列させた各群中の特徴について、群
    中の特徴を1組の所定の特徴から得られた複数の特徴のそれぞれと比較し、前記
    群中の特徴と1組の特徴のそれぞれとの間の類似性を表す対応する複数の中間比
    較スコアを求める、整列させた特徴からなる各群中の各特徴用のそれぞれの特徴
    を比較する手段と、それぞれの特徴比較手段によって生成された複数の中間比較
    スコアを組み合わせることによって、整列させた群の前記比較スコアを算出する
    手段とを備えることを特徴とする請求項42に記載の装置。
  44. 【請求項44】 前記注釈のいくつか又は全ての音声注釈の特徴のシーケン
    スが、オーディオ注釈信号から生成されることを特徴とする請求項40から43
    のいずれか1項に記載の装置。
  45. 【請求項45】 前記注釈のいくつか又は全ての音声注釈の特徴のシーケン
    スが、テキスト注釈から生成されることを特徴とする請求項40から44のいず
    れか1項に記載の装置。
  46. 【請求項46】 前記変換手段が音声認識システムを備えることを特徴とす
    る請求項40から45のいずれか1項に記載の装置。
  47. 【請求項47】 1つ又は複数の前記情報エントリが、関連する注釈である
    ことを特徴とする請求項40から46のいずれか1項に記載の装置。
  48. 【請求項48】 複数の情報エントリのそれぞれが、特徴のシーケンスを含
    む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含む
    データベースを探索する装置であって、 特徴のシーケンスを含む入力問合せを受信する手段と、 問合せの特徴のシーケンスを各注釈の特徴と比較し、1組の比較結果を求める
    、請求項1から39のいずれかに記載の装置と、 前記比較結果を使用して前記データベースから検索すべき前記情報を識別する
    手段とを備えることを特徴とする装置。
  49. 【請求項49】 複数の情報エントリのそれぞれが、音声の特徴のシーケン
    スを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリ
    を含むデータベースを探索する装置であって、 音声の特徴のシーケンスを含む入力問合せを受信する手段と、 音声の特徴からなる前記問合せのシーケンスと各注釈の音声の特徴を比較し、
    1組の比較結果を求める比較手段と、 前記比較結果を使用して、前記データベースから検索すべき前記情報を識別す
    る手段とを備える装置において、 前記比較手段が、複数の異なる比較動作モードを有し、該装置が、 (i)音声の特徴からなる問合せのシーケンスがオーディオ信号から生成された
    シーケンスか、それともテキストから生成されたシーケンスか、及び(ii)現
    在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケンス
    か、それともテキストから生成されたシーケンスかを判定し、判定結果を出力す
    る手段と、 現在の注釈について、前記判定結果に応じて前記比較手段の動作モードを選択
    する手段と をさらに備えることを特徴とする装置。
  50. 【請求項50】 前記入力問合せと前記現在の注釈が共に音声から生成され
    たものであると前記判定手段が判定したときに、前記選択手段が、前記比較手段
    が請求項1から39のいずれかに記載の装置として働くように前記動作モードを
    選択するように動作することを特徴とする請求項49に記載の装置。
  51. 【請求項51】 1つ又は複数の前記情報エントリが、関連する注釈である
    ことを特徴とする請求項48から50のいずれか1項に記載の装置。
  52. 【請求項52】 特徴比較装置であって、 各シーケンスが、入力問合せの表現を表す、問合せの特徴からなる第1及び第
    2のシーケンスを受信する手段と、 注釈の特徴のシーケンスを受信する手段と、 各表現の問合せの特徴を注釈の特徴と整列させ、各整列させた群が各表現の問
    合せの特徴と注釈の特徴とを含む、特徴からなるいくつかの整列させた群を形成
    する手段と、 特徴からなる各整列させた群の特徴同士を比較し、整列させた群の特徴からな
    る群間の特徴間の類似性を表す比較スコアを生成する手段と、 特徴からなる全ての整列させた群の比較スコアを組み合わせ、入力問合せの表
    現と注釈との間の類似度を求める手段とを備える装置において、 前記比較スコアを生成する手段は、 整列させた各群について、特徴からなる整列させた群における第1の問合せの
    シーケンスの特徴を、1組の所定の特徴から取り出された複数の特徴のそれぞれ
    と比較し、前記第1の問合せのシーケンスの特徴と1組の特徴におけるそれぞれ
    の特徴との間の類似性を表す対応する複数の中間比較スコアを求める第1の特徴
    比較器と、 整列させた各群について、整列させた特徴からなる群における第2の問合せの
    シーケンスの特徴を、1組の特徴における前記複数の特徴のそれぞれと比較し、
    前記第2の問合せのシーケンスの特徴と1組の特徴におけるそれぞれの特徴との
    間の類似性を表す他の対応する複数の中間比較スコアを求める第2の特徴比較器
    と、 整列させた特徴からなる各群について、整列させた群における注釈の特徴を、
    1組の特徴における前記複数の特徴のそれぞれと比較し、前記注釈の特徴と1組
    の特徴から得たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比
    較スコアを示す第3の特徴比較器と、 前記複数の中間比較スコアを組み合わせることにより、整列させた群の前記比
    較スコアを算出する手段と、 を備えることを特徴とする特徴比較装置。
  53. 【請求項53】 複数の情報エントリのそれぞれが、音声注釈の特徴のシー
    ケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エン
    トリを含むデータベースを探索する装置であって、 入力音声問合せの複数の表現を受信する手段と、 入力問合せの各表現を、表現内の音声を表す音声問合せの特徴のシーケンスに
    変換する手段と、 各表現の音声注釈の特徴を各注釈の音声問合せの特徴と比較し、入力問合せと
    各注釈との間に類似度を求める手段と、 全ての注釈について組合せ手段によって求めた類似度を使用して、前記データ
    ベースから検索すべき前記情報を識別するための手段とを備える装置であって、 前記類似度を求める手段は複数の異なる比較動作モードを有し、該装置が、 現在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケ
    ンスか、それともテキストから生成されたシーケンスかを判定し、判定結果を出
    力する手段と、 現在の注釈について、前記判定結果に応じて前記類似度を求める手段の動作モ
    ードを選択する手段と、 をさらに備えることを特徴とする装置。
  54. 【請求項54】 特徴比較方法であって、 第1の特徴のシーケンス及び第2の特徴のシーケンスを受信するステップと、 第1のシーケンスの特徴を第2のシーケンスの特徴と整列させ、整列させた特
    徴からなるいくつかの対を形成するステップと、 整列させた特徴からなる各対の特徴同士を比較し、整列させた1対の特徴間の
    類似性を表す比較スコアを生成するステップと、 整列させた特徴からなる全ての対の比較スコアを組み合わせ、第1の特徴のシ
    ーケンスと第2の特徴のシーケンスとの間の類似度を求めるステップとを含む方
    法であって、 前記比較スコアを生成するステップは、 整列させた各対について、整列させた対における第1のシーケンスの特徴を、
    1組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、前記第1の
    シーケンスの特徴と1組の特徴におけるそれぞれの特徴との間の類似性を表す対
    応する複数の中間比較スコアを求める第1の比較ステップと、 整列させた各対について、整列させた対における第2のシーケンスの特徴を、
    1組の特徴における前記複数の特徴のそれぞれと比較し、前記第2のシーケンス
    の特徴と1組の特徴におけるそれぞれの特徴との間の類似性を表す他の対応する
    複数の中間比較スコアを求める第2の比較ステップと、 前記複数の中間比較スコアを組み合わせることにより、整列させた1対につい
    て前記比較スコアを算出するステップと、 を含むことを特徴とする特徴比較方法。
  55. 【請求項55】 前記第1及び第2のステップにおいて、各特徴が前記1組
    の所定の特徴に含まれる第1のシーケンスの特徴と第2のシーケンスの特徴が比
    較されることを特徴とする請求項54に記載の方法。
  56. 【請求項56】 前記比較スコアを生成するステップにおいて、整列させた
    対の第2のシーケンスの特徴を整列させた対の第1のシーケンスの特徴として混
    同する確率を表す、整列させた対の特徴の比較スコアが生成されることを特徴と
    する請求項54又は55に記載の方法。
  57. 【請求項57】 前記第1及び第2の比較ステップにおいて、1組の所定の
    特徴から得られた対応する特徴を、整列させた1対の特徴と混同する確率を示す
    中間比較スコアが求められることを特徴とする請求項56に記載の方法。
  58. 【請求項58】 前記計算ステップにおいて、(i)整列させた対の特徴に
    おける第1及び第2のシーケンスの特徴が、組の同じ特徴と比較する際に得られ
    た中間スコアと掛け合わされ、複数の掛け合わされた中間比較スコアが求められ
    、(ii)結果として得られる掛け合わされた中間スコアが合計され、整列させ
    た1対の前記比較スコアが算出されることを特徴とする請求項57に記載の方法
  59. 【請求項59】 前記1組の所定の特徴における前記各特徴が、特徴のシー
    ケンス内での所定の発生確率を有し、前記計算ステップにおいて、掛け合わされ
    た中間比較スコアを生成するのに用いられる、組の特徴の各発生確率を用いて、
    前記掛け合わされた中間比較スコアのそれぞれが重み付けされることを特徴とす
    る請求項58に記載の方法。
  60. 【請求項60】 前記計算ステップにおいて、次式が計算され、 【数3】 上式で、qj及びaiがそれぞれ、整列させた第1及び第2のシーケンスの特徴
    からなる対であり、P(qj|pr)が、設定された特徴prを第1のシーケンス
    の特徴qjとして混同する確率であり、P(ai|pr)が、設定された確率prを
    第2のシーケンスの特徴aiとして混同する確率であり、P(pr)が、設定され
    た特徴prが特徴のシーケンスにおいて発生する確率を表すことを特徴とする請
    求項59に記載の方法。
  61. 【請求項61】 第1及び第2のシーケンスの特徴の異聴確率が事前に決定
    され、かつ前記異聴確率が、第1及び第2のシーケンスのそれぞれを生成するの
    に用いられた認識システムに依存することを特徴とする請求項60に記載の方法
  62. 【請求項62】 前記中間スコアが対数確率を表し、前記算出ステップにお
    いて、それぞれの中間スコアを足すことによって前記掛け算が行われ、かつ対数
    の足し算を実行することによって前記掛け合わされたスコアの前記足し算が行わ
    れることを特徴とする請求項58から61のいずれか1項に記載の方法。
  63. 【請求項63】 前記組合せステップにおいて、整列させた全ての対の比較
    スコアを足して前記類似度が決定されることを特徴とする請求項62に記載の方
    法。
  64. 【請求項64】 前記整列ステップにおいて、前記第1及び第2の特徴のシ
    ーケンスにおける特徴の削除及び挿入が識別され、前記比較スコアを生成するス
    テップにおいて、整列させた1対の特徴の近くで行われた、前記整列ステップに
    よって識別された特徴の削除及び挿入に応じて、整列させた1対の特徴の前記比
    較スコアが生成されることを特徴とする請求項54から63のいずれか1項に記
    載の方法。
  65. 【請求項65】 前記整列ステップにおいて、ダイナミックプログラミング
    技術を使用して前記第1及び第2の特徴のシーケンスを整列させることを特徴と
    する請求項54から64のいずれか1項に記載の方法。
  66. 【請求項66】 前記整列ステップにおいて、前記第1の特徴のシーケンス
    と第2の特徴のシーケンスとの間の複数の可能な整列が漸進的に判定され、前記
    比較スコアを生成するステップにおいて、前記整列ステップによって判定された
    整列させた特徴からなる各可能な対の比較スコアが求められることを特徴とする
    請求項65に記載の方法。
  67. 【請求項67】 前記比較スコアを生成するステップにおいて、前記可能な
    整列が漸進的に判定される間に前記比較スコアが生成されることを特徴とする請
    求項66に記載の方法。
  68. 【請求項68】 前記整列ステップにおいて、前記第1の特徴のシーケンス
    と前記第2の特徴のシーケンスとの間の最適な整列が判定され、前記組合せステ
    ップが、整列させた特徴からなる最適な対のみの比較スコアを組み合わせること
    によって前記類似度を求めるように動作することを特徴とする請求項65、66
    、又は67に記載の方法。
  69. 【請求項69】 前記組合せステップにおいて、特徴からなる全ての可能な
    整列させた対の全ての比較スコアを組み合わせることによって前記類似度が求め
    られることを特徴とする請求項67又は68に記載の方法。
  70. 【請求項70】 前記第1及び第2の特徴のシーケンス内の各特徴が、前記
    1組の所定の特徴に属し、前記第1及び第2の比較ステップにおいて、前記1組
    の所定の特徴を互いに関係付ける所定のデータを使用して前記中間スコアを求め
    られることを特徴とする請求項54から69のいずれか1項に記載の方法。
  71. 【請求項71】 前記第1の比較ステップで使用される所定のデータが、第
    1の特徴のシーケンスを生成するのに用いられるシステムに依存し、前記第2の
    比較ステップで使用される所定のデータが、前記第1の比較ステップで使用され
    る所定のデータと異なり、第2の特徴のシーケンスを生成するのに用いられるシ
    ステムに依存することを特徴とする請求項70に記載の方法。
  72. 【請求項72】 所定の各データが、1組の特徴のそれぞれの特徴について
    、その特徴を1組の特徴中の他の特徴と混同する確率を含むことを特徴とする請
    求項70又は71に記載の方法。
  73. 【請求項73】 所定の各データが、1組の特徴のそれぞれについて、この
    特徴を特徴のシーケンスに挿入する確率をさらに含むことを特徴とする請求項7
    2に記載の方法。
  74. 【請求項74】 所定の各データが、1組の特徴のそれぞれについて、この
    特徴を特徴のシーケンスから削除する確率をさらに含むことを特徴とする請求項
    72又は73に記載の方法。
  75. 【請求項75】 前記第1及び第2の特徴のシーケンスが、時間順次信号を
    表すことを特徴とする請求項54から74のいずれかに記載の方法。
  76. 【請求項76】 前記第1及び第2の特徴のシーケンスがオーディオ信号を
    表すことを特徴とする請求項54から75のいずれか1項に記載の方法。
  77. 【請求項77】 前記第1及び第2の特徴のシーケンスが音声を表すことを
    特徴とする請求項76に記載の方法。
  78. 【請求項78】 前記各特徴が、音声の小単語単位を表すことを特徴とする
    請求項77に記載の方法。
  79. 【請求項79】 前記各特徴が音韻を表すことを特徴とする請求項78に記
    載の方法。
  80. 【請求項80】 前記第1の特徴のシーケンスが小単語単位を含み、前記第
    1の比較ステップにおいて、誤入力確率及び/又はミススペル確率を使用して前
    記中間比較スコアが求められることを特徴とする請求項54から79のいずれか
    1項に記載の方法。
  81. 【請求項81】 前記第2の特徴のシーケンスが、音声入力から生成された
    小単語単位のシーケンスを含み、前記第2の比較ステップにおいて、誤認識確率
    を使用して前記中間スコアが求められることを特徴とする請求項54から80の
    いずれか1項に記載の方法。
  82. 【請求項82】 前記受信ステップにおいて、3つ以上の特徴のシーケンス
    が受信され、 前記整列ステップにおいて、受信された各特徴のシーケンスの特徴同士が整列
    させられ、整列させた特徴からなるいくつかの群が形成され、 前記比較スコアを生成するステップにおいて、整列させた特徴からなる各群中
    の特徴同士が比較され、整列させた特徴からなる各群間の類似性を表す比較スコ
    アが生成され、 前記組合せステップにおいて、整列させた特徴からなる全ての群の比較スコア
    が組み合わされ、3つ以上の特徴のシーケンス間の類似度が求められることを特
    徴とする請求項54から81のいずれか1項に記載の方法。
  83. 【請求項83】 前記整列ステップにおいて、特徴のシーケンスが互いに同
    時に整列させられることを特徴とする請求項82に記載の方法。
  84. 【請求項84】 前記受信ステップにおいて、複数の第2の特徴のシーケン
    スが受信され、前記整列ステップにおいて、前記第1の特徴のシーケンスがそれ
    ぞれの前記第2の特徴のシーケンスと整列させられ、各整列ごとの、特徴からな
    るいくつかの整列させた対が形成され、前記組合せステップにおいて、各整列ご
    との比較スコアが組み合わされ、第1の特徴のシーケンスと前記複数の第2の特
    徴のシーケンスとの間のそれぞれの類似度が求められることを特徴とする請求項
    54から83のいずれか1項に記載の方法。
  85. 【請求項85】 前記組合せ手段から出力された前記複数の類似度を比較す
    るステップと、前記第1の特徴のシーケンスに最も類似の第2の特徴のシーケン
    スを示す信号を出力するステップとをさらに備えることを特徴とする請求項84
    に記載の方法。
  86. 【請求項86】 前記組合せステップにおいて、前記各類似度を正規化する
    正規化ステップを備えることを特徴とする請求項84又は85に記載の方法。
  87. 【請求項87】 前記正規化ステップにおいて、対応する第2の特徴のシー
    ケンスの長さに応じて変化するそれぞれの正規化スコアで、各類似度を割ること
    によって各類似度が正規化されることを特徴とする請求項86に記載の方法。
  88. 【請求項88】 それぞれの正規化スコアが、対応する第2の特徴のシーケ
    ンスにおける特徴のシーケンスに応じて変化することを特徴とする請求項87に
    記載の方法。
  89. 【請求項89】 前記それぞれの正規化スコアが、前記第2の比較ステップ
    で算出された対応する中間比較スコアと共に変化することを特徴とする請求項8
    7又は88に記載の方法。
  90. 【請求項90】 前記整列ステップにおいて、前記第1の特徴のシーケンス
    と前記第2の特徴のシーケンスとの間の複数の可能な整列が漸進的に判定され、
    前記比較スコアを生成するステップにおいて、前記整列ステップで判定された整
    列させた特徴の可能な各対の比較スコアが求められ、前記正規化ステップにおい
    て、前記整列ステップによって前記可能な整列が漸進的に算出される間にそれぞ
    れの正規化スコアが算出されることを特徴とする請求項86から89のいずれか
    1項に記載の方法。
  91. 【請求項91】 前記正規化ステップにおいて、整列させた特徴からなるそ
    れぞれの可能な対について、次式が計算され、 【数4】 上式で、P(ai|pr)が、設定された特徴prを第2のシーケンスの特徴ai
    として混同する確率を表し、P(pr)が、設定された特徴prが特徴のシーケン
    スにおいて発生する確率を表すことを特徴とする請求項90に記載の方法。
  92. 【請求項92】 前記正規化ステップにおいて、特徴のそれぞれの整列させ
    た対について算出された正規化項を掛け合わせることによって前記それぞれの正
    規化が算出されることを特徴とする請求項91に記載の方法。
  93. 【請求項93】 複数の情報エントリのそれぞれが、注釈の特徴のシーケン
    スを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリ
    を含むデータベースを探索する方法であって、 入力問合せの複数の表現を受信するステップと、 入力問合せの各表現を、表現を表す問合せの特徴のシーケンスに変換するステ
    ップと、 各表現の問合せの特徴を各注釈の注釈の特徴と比較し、1組の比較結果を求め
    るステップと、 各表現の問合せの特徴を同じ注釈の注釈の特徴と比較することによって得られ
    た比較結果を互いに組み合わせ、各注釈について、入力問合せと注釈との間の類
    似度を求めるステップと、 組合せステップによって全ての注釈について求められた類似度を使用して、前
    記データベースから検索すべき前記情報を識別するステップと、 を含むことを特徴とする方法。
  94. 【請求項94】 前記比較結果を求めるステップにおいて、各表現の問合せ
    の特徴が現在の注釈の特徴と同時に比較されることを特徴とする請求項93に記
    載の方法。
  95. 【請求項95】 前記比較結果を求めるステップは、 各表現の問合せの特徴を現在の注釈の特徴と整列させ、各整列させた群が、各
    表現の問合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの
    群を形成するステップと、 特徴比較器を使用して、整列させた特徴からなる各群の特徴同士を比較し、整
    列させた特徴からなる群の特徴間の類似性を表す比較スコアを生成するステップ
    とを含み、 前記組合せステップにおいて、現在の注釈に関する整列させた特徴からなる全
    ての群の比較スコアが組み合わされ、入力問合せと現在の注釈との間の前記類似
    度が求められることを特徴とする請求項93又は94に記載の方法。
  96. 【請求項96】 前記問合せの特徴のシーケンス及び前記注釈の特徴のシー
    ケンスがそれぞれ、オーディオ信号を表すことを特徴とする請求項93から95
    のいずれか1項に記載の方法。
  97. 【請求項97】 前記問合せの特徴のシーケンス及び前記注釈の特徴のシー
    ケンスがそれぞれ、音声を表すことを特徴とする請求項96に記載の方法。
  98. 【請求項98】 前記各特徴が音声の小単語単位を表すことを特徴とする請
    求項97に記載の方法。
  99. 【請求項99】 前記各特徴が音韻を表すことを特徴とする請求項98に記
    載の方法。
  100. 【請求項100】 前記注釈のいくつか又は全ての音声注釈の特徴のシーケ
    ンスが、オーディオ信号又はテキスト注釈から生成されることを特徴とする請求
    項93から99のいずれか1項に記載の方法。
  101. 【請求項101】 特徴比較方法であって、 第1の特徴のシーケンス及び第2の特徴のシーケンスを受信するステップと、 第1のシーケンスの特徴を第2のシーケンスの特徴と整列させるステップと、 整列させた特徴からなる各対を比較し、整列させた1対の特徴の比較スコアを
    生成するステップと、 整列させた特徴からなる全ての対の比較スコアを組み合わせ、第1の特徴のシ
    ーケンスと第2の特徴のシーケンスとの間の類似度を求めるステップとを含む方
    法であって、 前記比較スコアを生成するステップは、 第1のシーケンスの整列させた特徴を複数の可能な特徴のそれぞれと比較し、
    対応する複数の中間比較スコアを求める第1の比較ステップと、 第2のシーケンスの整列させた特徴を複数の可能な特徴のそれぞれと比較し、
    他の対応する複数の中間比較スコアを求める第2の比較ステップと、 前記複数の中間比較スコアを組み合わせ、整列させた1対の特徴の前記比較ス
    コアを求めるステップと、 を含むことを特徴とする特徴比較方法。
  102. 【請求項102】 複数の情報エントリのそれぞれが、特徴のシーケンスを
    含む関連する注釈を有する、検索すべき情報を識別する複数の情報エントリを含
    むデータベースを探索する方法であって、 特徴のシーケンスを含む入力問合せを受信するステップと、 請求項54から101のいずれかに記載された方法を使用して、問合せの特徴
    のシーケンスを各注釈の特徴と比較し、1組の比較結果を求めるステップと、 前記比較結果から、前記データベースから検索すべき前記情報を識別するステ
    ップと、 を含むことを特徴とする方法。
  103. 【請求項103】 複数の情報エントリのそれぞれが、音声の特徴のシーケ
    ンスを含む注釈を有する、検索すべき情報を識別する複数の情報エントリを含む
    データベースを探索する方法であって、 音声の特徴のシーケンスを含む入力問合せを受信するステップと、 音声の特徴からなる前記問合せのシーケンスと各注釈の音声の特徴を比較し、
    1組の比較結果を求めるステップと、 前記比較結果を使用して、前記データベースから検索すべき前記情報を識別す
    るステップとを含む方法において、 前記比較結果を求めるステップにおいて、複数の異なる比較技術を使用して前
    記比較を行うことができ、該方法が、 (i)音声の特徴からなる問合せのシーケンスがオーディオ信号から生成された
    シーケンスか、それともテキストから生成されたシーケンスか、及び(ii)現
    在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケンス
    か、それともテキストから生成されたシーケンスかを判定し、判定結果を出力す
    るステップと、 現在の注釈について、前記判定結果に応じて前記比較結果を求めるステップに
    おける前記比較を行うのに用いられる技術を選択するステップと、 をさらに含むことを特徴とする方法。
  104. 【請求項104】 前記入力問合せと前記現在の注釈が共に音声から生成さ
    れたものであると前記判定ステップが判定したときに、前記比較結果を求めるス
    テップにおいて、請求項54から101のいずれか1項に記載の方法が実行され
    ることを特徴とする請求項103に記載の方法。
  105. 【請求項105】 複数の情報エントリのそれぞれが、注釈の特徴のシーケ
    ンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エント
    リを含むデータベースを探索する方法であって、 入力問合せの複数の表現を受信するステップと、 入力問合せの各表現を、該表現を表わす問合せの特徴のシーケンスに変換する
    ステップと、 各表現の問合せの特徴を各注釈の特徴と比較し、1組の比較結果を求めるステ
    ップと、 各表現の問合せの特徴を同じ注釈の特徴と比較することによって得られた比較
    結果を組み合わせ、各注釈について、入力問合せと注釈との間の類似度を求める
    ステップと、 全ての注釈に対する組合せステップによって求められた類似度を使用して、前
    記データベースから検索すべき前記情報を識別するステップと、 を含むことを特徴とする方法。
  106. 【請求項106】 前記比較結果を求めるステップにおいて、各表現の問合
    せの特徴が現在の注釈の特徴と同時に比較されることを特徴とする請求項105
    に記載の方法。
  107. 【請求項107】 前記比較結果を求めるステップが、 各表現の問合せの特徴を現在の注釈の特徴と整列させ、各整列させた群が、各
    表現の問合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの
    群を形成するステップと、 特徴比較器を使用して、整列させた特徴からなる各群の特徴同士を比較し、整
    列させた特徴からなる群の特徴間の類似性を表す比較スコアを生成するステップ
    とを含み、 前記組合せステップにおいて、現在の注釈に関する整列させた特徴からなる全
    ての群の比較スコアが組み合わされ、入力問合せと現在の注釈との間の前記類似
    度が求められることを特徴とする請求項105又は106に記載の方法。
  108. 【請求項108】 前記特徴比較器が、整列させた群中の各特徴を、1組の
    所定の特徴から得られた複数の特徴のそれぞれと比較し、該群中の特徴と1組の
    特徴のそれぞれとの間の類似性を表す対応する複数の中間スコアを求め、生成さ
    れた複数の対応する中間比較スコアを組み合わせることによって、整列させた群
    の前記比較スコアを算出することを特徴とする請求項107に記載の装置。
  109. 【請求項109】 前記問合せの特徴のシーケンス及び前記注釈の特徴のシ
    ーケンスがそれぞれ、時間順次信号を表すことを特徴とする請求項105から1
    08のいずれか1項に記載の方法。
  110. 【請求項110】 前記問合せの特徴のシーケンス及び前記注釈の特徴のシ
    ーケンスがそれぞれ、オーディオ信号を表すことを特徴とする請求項105から
    109のいずれか1項に記載の方法。
  111. 【請求項111】 前記問合せの特徴のシーケンス及び前記注釈の特徴のシ
    ーケンスがそれぞれ音声を表すことを特徴とする請求項110に記載の装置。
  112. 【請求項112】 前記各特徴が、音声の小単語単位を表すことを特徴とす
    る請求項111に記載の方法。
  113. 【請求項113】 前記各特徴が音韻を表すことを特徴とする請求項112
    に記載の方法。
  114. 【請求項114】 いくつか又は全ての前記注釈の、音声注釈の特徴のシー
    ケンスが、オーディオ注釈信号から生成されることを特徴とする請求項105か
    ら113のいずれか1項に記載の方法。
  115. 【請求項115】 いくつか又は全ての前記注釈の、音声注釈の特徴のシー
    ケンスが、テキスト注釈から生成されることを特徴とする請求項105から11
    3のいずれか1項に記載の方法。
  116. 【請求項116】 前記変換ステップにおいて、音声認識システムが使用さ
    れることを特徴とする請求項105から115のいずれか1項に記載の方法。
  117. 【請求項117】 1つ又は複数の前記情報エントリが、関連する注釈であ
    ることを特徴とする請求項105から116のいずれか1項に記載の方法。
  118. 【請求項118】 特徴比較方法であって、 各シーケンスが、入力問合せの表現を表す、問合せの特徴からなる第1及び第
    2のシーケンスを受信するステップと、 注釈の特徴のシーケンスを受信するステップと、 各表現の問合せの特徴を注釈の特徴と整列させ、各整列させた群が各表現の問
    合せの特徴と注釈の特徴とを含む、整列させた特徴からなるいくつかの群を形成
    するステップと、 整列させた特徴からなる各群の特徴同士を比較し、整列させた群の特徴間の類
    似性を表す比較スコアを生成するステップと、 整列させた特徴からなる全ての群の比較スコアを組み合わせ、入力問合せの表
    現と注釈との間の類似度を求めるステップとを含む方法において、 前記比較スコアを生成するステップは、 整列させた各群について、整列させた群における第1の問合せのシーケンスの
    特徴を、1組の所定の特徴から取り出された複数の特徴のそれぞれと比較し、前
    記第1の問合せのシーケンスの特徴と1組の特徴におけるそれぞれの特徴との間
    の類似性を表す対応する複数の中間比較スコアを求めるステップと、 整列させた各群について、整列させた群における第2の問合せのシーケンスの
    特徴を、1組の特徴における前記複数の特徴のそれぞれと比較し、前記第2の問
    合せのシーケンスの特徴と1組の特徴におけるそれぞれの特徴との間の類似性を
    表す他の対応する複数の中間比較スコアを求めるステップと、 整列させた各群について、整列させた群における注釈の特徴を、1組の特徴に
    おける前記複数の特徴のそれぞれと比較し、前記注釈の特徴と1組の特徴から得
    たそれぞれの特徴との間の類似性を表す他の対応する複数の中間比較スコアを示
    すステップと、 前記複数の中間比較スコアを組み合わせることにより、整列させた群の前記比
    較スコアを算出するステップと、 を含むことを特徴とする特徴比較方法。
  119. 【請求項119】 複数の情報エントリのそれぞれが、音声注釈の特徴のシ
    ーケンスを含む関連する注釈を有する、検索すべき情報を識別する複数の情報エ
    ントリを含むデータベースを探索する方法であって、 入力音声問合せの複数の表現を受信するステップと、 入力問合せの各表現を、表現内の音声を表す音声問合せの特徴のシーケンスに
    変換するステップと、 音声問合せの特徴を各注釈の各表現の音声注釈の特徴と比較し、入力問合せと
    各注釈との間に類似度を求めるステップと、 全ての注釈に対する組合せステップによって求められた類似度を使用して、前
    記データベースから検索すべき前記情報を識別するステップとを含む方法であっ
    て、 前記類似度を求めるステップは複数の異なる比較動作モードを有し、該方法が
    、 現在の注釈の音声の特徴のシーケンスがオーディオ信号から生成されたシーケ
    ンスか、それともテキストから生成されたシーケンスかを判定し、判定結果を出
    力するステップと、 現在の注釈について、前記判定結果に応じて前記類似度を求めるステップの動
    作モードを選択するステップとをさらに含むことを特徴とする方法。
  120. 【請求項120】 1つ又は複数の前記情報エントリが、関連する注釈であ
    ることを特徴とする請求項102から119のいずれか1項に記載の方法。
  121. 【請求項121】 方法ステップが、それらが請求された順序で実施される
    ことを特徴とする請求項54から120のいずれか1項に記載の方法。
  122. 【請求項122】 プロセッサを請求項54から121のいずれか1項に記
    載の方法を実施するように制御する、プロセッサによって実施できる命令を記憶
    することを特徴とする記憶媒体。
  123. 【請求項123】 プロセッサを請求項54から121のいずれか1項に記
    載の方法を実施するように制御することを特徴とするプロセッサによって実施で
    きる命令。
JP2001534133A 1999-10-28 2000-10-25 パターン整合方法及び装置 Expired - Fee Related JP3689670B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
GBGB9925561.4A GB9925561D0 (en) 1999-10-28 1999-10-28 Pattern matching method and apparatus
GB9925560.6 1999-10-28
GBGB9925560.6A GB9925560D0 (en) 1999-10-28 1999-10-28 Pattern matching method and apparatus
GB9925561.4 1999-10-28
GB0025143.9 2000-10-13
GB0025143A GB2355836B (en) 1999-10-28 2000-10-13 Pattern matching method and apparatus
PCT/GB2000/004112 WO2001031627A2 (en) 1999-10-28 2000-10-25 Pattern matching method and apparatus

Publications (2)

Publication Number Publication Date
JP2003513383A true JP2003513383A (ja) 2003-04-08
JP3689670B2 JP3689670B2 (ja) 2005-08-31

Family

ID=27255934

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001534133A Expired - Fee Related JP3689670B2 (ja) 1999-10-28 2000-10-25 パターン整合方法及び装置

Country Status (6)

Country Link
US (2) US7212968B1 (ja)
EP (1) EP1228452B1 (ja)
JP (1) JP3689670B2 (ja)
CN (1) CN1329861C (ja)
DE (1) DE60036486T2 (ja)
WO (1) WO2001031627A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013068970A (ja) * 2005-12-08 2013-04-18 Nuance Communications Austria Gmbh 単語識別方法、単語識別装置、及びコンピュータ可読コード

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
GB0011798D0 (en) 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
FR2837969A1 (fr) * 2002-03-29 2003-10-03 France Telecom Procede de traduction de donnees autorisant une gestion de memoire simplifiee
US8793127B2 (en) * 2002-10-31 2014-07-29 Promptu Systems Corporation Method and apparatus for automatically determining speaker characteristics for speech-directed advertising or other enhancement of speech-controlled devices or services
GB2399983A (en) * 2003-03-24 2004-09-29 Canon Kk Picture storage and retrieval system for telecommunication system
GB2404040A (en) 2003-07-16 2005-01-19 Canon Kk Lattice matching
US7904296B2 (en) * 2003-07-23 2011-03-08 Nexidia Inc. Spoken word spotting queries
US7676739B2 (en) * 2003-11-26 2010-03-09 International Business Machines Corporation Methods and apparatus for knowledge base assisted annotation
US7401019B2 (en) * 2004-01-15 2008-07-15 Microsoft Corporation Phonetic fragment search in speech data
US8694317B2 (en) * 2005-02-05 2014-04-08 Aurix Limited Methods and apparatus relating to searching of spoken audio data
US7293022B2 (en) * 2005-04-14 2007-11-06 International Business Machines Corporation List update employing neutral sort keys
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
US7877256B2 (en) * 2006-02-17 2011-01-25 Microsoft Corporation Time synchronous decoding for long-span hidden trajectory model
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US7640161B2 (en) * 2006-05-12 2009-12-29 Nexidia Inc. Wordspotting system
US8255216B2 (en) * 2006-10-30 2012-08-28 Nuance Communications, Inc. Speech recognition of character sequences
US7912724B1 (en) * 2007-01-18 2011-03-22 Adobe Systems Incorporated Audio comparison using phoneme matching
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
WO2008106655A1 (en) * 2007-03-01 2008-09-04 Apapx, Inc. System and method for dynamic learning
GB0704772D0 (en) * 2007-03-12 2007-04-18 Mongoose Ventures Ltd Aural similarity measuring system for text
US20090299731A1 (en) * 2007-03-12 2009-12-03 Mongoose Ventures Limited Aural similarity measuring system for text
US8069044B1 (en) * 2007-03-16 2011-11-29 Adobe Systems Incorporated Content matching using phoneme comparison and scoring
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8436815B2 (en) 2007-05-25 2013-05-07 Microsoft Corporation Selective enabling of multi-input controls
US7788095B2 (en) * 2007-11-18 2010-08-31 Nice Systems, Ltd. Method and apparatus for fast search in call-center monitoring
US20100153112A1 (en) * 2008-12-16 2010-06-17 Motorola, Inc. Progressively refining a speech-based search
US20120036155A1 (en) * 2009-04-03 2012-02-09 Netcycler Oy On-line searching systems
US8719016B1 (en) 2009-04-07 2014-05-06 Verint Americas Inc. Speech analytics system and system and method for determining structured speech
US8321218B2 (en) * 2009-06-19 2012-11-27 L.N.T.S. Linguistech Solutions Ltd Searching in audio speech
US8494852B2 (en) * 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
CN102314876B (zh) * 2010-06-29 2013-04-10 株式会社理光 语音检索的方法和系统
CN102411563B (zh) 2010-09-26 2015-06-17 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
US20120209606A1 (en) * 2011-02-14 2012-08-16 Nice Systems Ltd. Method and apparatus for information extraction from interactions
US9093061B1 (en) 2011-04-14 2015-07-28 Canyon IP Holdings, LLC. Speech recognition with hierarchical networks
US8827710B2 (en) 2011-05-19 2014-09-09 Microsoft Corporation Realtime user guidance for freehand drawing
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
US9734151B2 (en) * 2012-10-31 2017-08-15 Tivo Solutions Inc. Method and system for voice based media search
US20150279351A1 (en) * 2012-12-19 2015-10-01 Google Inc. Keyword detection based on acoustic alignment
US9529907B2 (en) * 2012-12-31 2016-12-27 Google Inc. Hold back and real time ranking of results in a streaming matching system
US9880990B2 (en) 2013-03-14 2018-01-30 Microsoft Technology Licensing, Llc Leveraging previous instances of handwriting for handwriting beautification and other applications
CN104157285B (zh) * 2013-05-14 2016-01-20 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
US9536180B2 (en) 2013-12-30 2017-01-03 Google Inc. Text recognition based on recognition units
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
CN110675866B (zh) * 2014-04-22 2023-09-29 纳宝株式会社 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
KR20160056548A (ko) 2014-11-12 2016-05-20 삼성전자주식회사 질의 응답을 위한 디스플레이 장치 및 방법
US10558926B2 (en) * 2014-11-20 2020-02-11 Academia Sinica Statistical pattern generation for information extraction
EP3193328B1 (en) * 2015-01-16 2022-11-23 Samsung Electronics Co., Ltd. Method and device for performing voice recognition using grammar model
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10192555B2 (en) * 2016-04-28 2019-01-29 Microsoft Technology Licensing, Llc Dynamic speech recognition data evaluation
US10269353B2 (en) * 2016-08-30 2019-04-23 Tata Consultancy Services Limited System and method for transcription of spoken words using multilingual mismatched crowd unfamiliar with a spoken language
BR112020023552A2 (pt) * 2018-05-18 2021-02-09 Greeneden U.S. Holdings Ii, Llc métodos para treinar um modelo de confiança em um sistema de reconhecimento automático de fala e para converter entrada de fala em texto usando modelagem de confiança com uma abordagem multiclasse, e, sistema destinado a converter fala de entrada em texto.
CN109299223B (zh) * 2018-10-15 2020-05-15 百度在线网络技术(北京)有限公司 用于查询指令的方法及装置
CN113192501B (zh) * 2021-04-12 2022-04-22 青岛信芯微电子科技股份有限公司 一种指令词识别方法及装置

Family Cites Families (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4227176A (en) 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
JPS59226400A (ja) 1983-06-07 1984-12-19 松下電器産業株式会社 音声認識装置
US5131043A (en) 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
FR2554623B1 (fr) 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US4980918A (en) 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4903305A (en) 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
JP2739945B2 (ja) 1987-12-24 1998-04-15 株式会社東芝 音声認識方法
US5075896A (en) 1989-10-25 1991-12-24 Xerox Corporation Character and phoneme recognition based on probability clustering
US6236964B1 (en) 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
US5136655A (en) 1990-03-26 1992-08-04 Hewlett-Pacard Company Method and apparatus for indexing and retrieving audio-video data
US5202952A (en) 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5390278A (en) 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5333275A (en) 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
US5625554A (en) 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
EP0583559B1 (en) 1992-07-31 2004-02-25 International Business Machines Corporation Finding token sequences in a database of token strings
EP0597798A1 (en) 1992-11-13 1994-05-18 International Business Machines Corporation Method and system for utilizing audible search patterns within a multimedia presentation
AU5803394A (en) 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5467425A (en) 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
US5787414A (en) 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
EP0645757B1 (en) 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
JP2986345B2 (ja) 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
AU1210295A (en) * 1993-11-29 1995-06-13 Michael T. Rossides Input system for text retrieval
SE513456C2 (sv) 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
IT1272259B (it) 1994-05-30 1997-06-16 Texas Instruments Italia Spa Procedimento ed apparecchio per il riconoscimento dei caratteri
JP3260979B2 (ja) 1994-07-15 2002-02-25 株式会社リコー 文字認識方法
US5799267A (en) * 1994-07-22 1998-08-25 Siegel; Steven H. Phonic engine
US5737723A (en) 1994-08-29 1998-04-07 Lucent Technologies Inc. Confusable word detection in speech recognition
US5835667A (en) 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
EP0789901B1 (en) 1994-11-01 2000-01-05 BRITISH TELECOMMUNICATIONS public limited company Speech recognition
US5680605A (en) 1995-02-07 1997-10-21 Torres; Robert J. Method and apparatus for searching a large volume of data with a pointer-based device in a data processing system
MX9706407A (es) 1995-03-07 1997-11-29 British Telecomm Reconocimiento del lenguaje.
CA2170669A1 (en) 1995-03-24 1996-09-25 Fernando Carlos Neves Pereira Grapheme-to phoneme conversion with weighted finite-state transducers
US5675706A (en) 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US5729741A (en) 1995-04-10 1998-03-17 Golden Enterprises, Inc. System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions
EP0769184B1 (en) 1995-05-03 2000-04-26 Koninklijke Philips Electronics N.V. Speech recognition methods and apparatus on the basis of the modelling of new words
US6070140A (en) 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
JPH0916598A (ja) 1995-07-03 1997-01-17 Fujitsu Ltd エラー・パターンを用いた文字列修正システムおよび方法
US5721939A (en) 1995-08-03 1998-02-24 Xerox Corporation Method and apparatus for tokenizing text
US5684925A (en) 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5737489A (en) 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
JPH09128396A (ja) 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US6567778B1 (en) 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
GB2303955B (en) 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5870740A (en) 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US5708759A (en) 1996-11-19 1998-01-13 Kemeny; Emanuel S. Speech recognition using phoneme waveform parameters
US6172675B1 (en) 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
US5852822A (en) 1996-12-09 1998-12-22 Oracle Corporation Index-only tables with nested group keys
EP0849723A3 (en) 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
WO1998047084A1 (en) 1997-04-17 1998-10-22 Sharp Kabushiki Kaisha A method and system for object-based video description and linking
WO1999005681A1 (de) * 1997-07-23 1999-02-04 Siemens Aktiengesellschaft Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz
US6006182A (en) * 1997-09-22 1999-12-21 Northern Telecom Limited Speech recognition rejection method using generalized additive models
CA2303312A1 (en) 1997-09-24 1999-04-01 Guido Gallopyn Apparatus and method for distinguishing similar-sounding utterances in speech recognition
US6026398A (en) 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6061679A (en) 1997-11-25 2000-05-09 International Business Machines Corporation Creating and searching a data structure ordered by ranges of key masks associated with the data structure
US5983177A (en) 1997-12-18 1999-11-09 Nortel Networks Corporation Method and apparatus for obtaining transcriptions from multiple training utterances
US6289140B1 (en) 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
US6182039B1 (en) 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6243680B1 (en) 1998-06-15 2001-06-05 Nortel Networks Limited Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US6321226B1 (en) 1998-06-30 2001-11-20 Microsoft Corporation Flexible keyboard searching
US6192337B1 (en) 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US6490563B2 (en) 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
DE19842404A1 (de) 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
FR2786600B1 (fr) * 1998-11-16 2001-04-20 France Telecom Procede de recherche par le contenu de documents textuels utilisant la reconnaissance vocale
WO2000031723A1 (en) 1998-11-25 2000-06-02 Sony Electronics, Inc. Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system
US6243676B1 (en) * 1998-12-23 2001-06-05 Openwave Systems Inc. Searching and retrieving multimedia information
AU777693B2 (en) 1999-03-05 2004-10-28 Canon Kabushiki Kaisha Database annotation and retrieval
US6463413B1 (en) 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
GB2349260B (en) 1999-04-23 2003-05-28 Canon Kk Training apparatus and method
US6662180B1 (en) 1999-05-12 2003-12-09 Matsushita Electric Industrial Co., Ltd. Method for searching in large databases of automatically recognized text
US6535849B1 (en) * 2000-01-18 2003-03-18 Scansoft, Inc. Method and system for generating semi-literal transcripts for speech recognition systems
US6567816B1 (en) 2000-03-07 2003-05-20 Paramesh Sampatrai Desai Method, system, and program for extracting data from database records using dynamic code
US6535850B1 (en) 2000-03-09 2003-03-18 Conexant Systems, Inc. Smart training and smart scoring in SD speech recognition system with user defined vocabulary
GB0011798D0 (en) 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013068970A (ja) * 2005-12-08 2013-04-18 Nuance Communications Austria Gmbh 単語識別方法、単語識別装置、及びコンピュータ可読コード
US8666745B2 (en) 2005-12-08 2014-03-04 Nuance Communications, Inc. Speech recognition system with huge vocabulary

Also Published As

Publication number Publication date
DE60036486D1 (de) 2007-10-31
EP1228452B1 (en) 2007-09-19
JP3689670B2 (ja) 2005-08-31
US7212968B1 (en) 2007-05-01
US7295980B2 (en) 2007-11-13
EP1228452A2 (en) 2002-08-07
WO2001031627A2 (en) 2001-05-03
CN1409842A (zh) 2003-04-09
DE60036486T2 (de) 2008-06-12
US20070150275A1 (en) 2007-06-28
CN1329861C (zh) 2007-08-01
WO2001031627A3 (en) 2002-05-23

Similar Documents

Publication Publication Date Title
JP3689670B2 (ja) パターン整合方法及び装置
US7310600B1 (en) Language recognition using a similarity measure
US6882970B1 (en) Language recognition using sequence frequency
US7054812B2 (en) Database annotation and retrieval
US6873993B2 (en) Indexing method and apparatus
US7590605B2 (en) Lattice matching
JP3720068B2 (ja) 質問の転記方法及び装置
EP1205908B1 (en) Pronunciation of new input words for speech processing
US5832428A (en) Search engine for phrase recognition based on prefix/body/suffix architecture
US8793130B2 (en) Confidence measure generation for speech related searching
US9405823B2 (en) Spoken document retrieval using multiple speech transcription indices
WO2018157789A1 (zh) 一种语音识别的方法、计算机、存储介质以及电子装置
JP5241840B2 (ja) データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム
US20070179784A1 (en) Dynamic match lattice spotting for indexing speech content
JP3747171B2 (ja) 音声処理システム
JP2009238235A (ja) 言語モデルに基づく情報検索および音声認識
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
GB2355837A (en) Pattern matching
GB2355836A (en) Pattern matching
GB2355835A (en) Pattern matching
KR20020052196A (ko) 패턴 매칭 방법 및 장치
KR100817432B1 (ko) 문서 확장에 의한 음성 자료의 고속 검색 방법 및 시스템
Dzhambazov et al. Searching lyrical phrases in a-capella turkish makam recordings

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050603

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050613

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080617

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090617

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090617

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100617

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110617

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120617

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120617

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130617

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees