JP2001215986A - パターンマッチング方法及び装置 - Google Patents
パターンマッチング方法及び装置Info
- Publication number
- JP2001215986A JP2001215986A JP2000330611A JP2000330611A JP2001215986A JP 2001215986 A JP2001215986 A JP 2001215986A JP 2000330611 A JP2000330611 A JP 2000330611A JP 2000330611 A JP2000330611 A JP 2000330611A JP 2001215986 A JP2001215986 A JP 2001215986A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- sequence
- comparison
- subsequence
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 288
- 238000011524 similarity measure Methods 0.000 claims abstract description 48
- 230000008569 process Effects 0.000 claims description 139
- 238000012217 deletion Methods 0.000 claims description 51
- 230000037430 deletion Effects 0.000 claims description 51
- 238000003780 insertion Methods 0.000 claims description 43
- 230000037431 insertion Effects 0.000 claims description 43
- 239000013598 vector Substances 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 claims description 8
- 239000012634 fragment Substances 0.000 abstract description 5
- 238000012545 processing Methods 0.000 description 29
- 230000007704 transition Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 15
- 230000001186 cumulative effect Effects 0.000 description 14
- 230000001902 propagating effect Effects 0.000 description 13
- 230000000644 propagated effect Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 4
- 235000008694 Humulus lupulus Nutrition 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241000252794 Sphinx Species 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
(57)【要約】 (修正有)
【課題】 データベースから検索すべき情報を識別する
ために、入力問い合わせを格納されているいくつかの注
釈と比較するシステムを提供する。 【解決手段】 この比較技法は入力問い合わせをいくつ
かの固定サイズフラグメントに分割し、ダイナミックプ
ログラミング整合技法を使用して、それぞれのフラグメ
ントが各注釈の中で何度現れるかを識別する。次に、問
い合わせと注釈の双方におけるフラグメントの出現の頻
度を比較して、問い合わせと注釈との類似度の尺度を求
める。全ての注釈について求められた類似度尺度から、
検索すべき情報を判定する。
ために、入力問い合わせを格納されているいくつかの注
釈と比較するシステムを提供する。 【解決手段】 この比較技法は入力問い合わせをいくつ
かの固定サイズフラグメントに分割し、ダイナミックプ
ログラミング整合技法を使用して、それぞれのフラグメ
ントが各注釈の中で何度現れるかを識別する。次に、問
い合わせと注釈の双方におけるフラグメントの出現の頻
度を比較して、問い合わせと注釈との類似度の尺度を求
める。全ての注釈について求められた類似度尺度から、
検索すべき情報を判定する。
Description
【0001】本発明は、音素などの系列を整合する装置
及び方法に関する。本発明は、ユーザの入力問い合わせ
に応答して、関連する音素注釈を有する複数のデータフ
ァイルから構成されるデータベースを探索するために使
用できる。入力問い合わせは音声による問い合わせ又は
文字による問い合わせのいずれであっても良い。
及び方法に関する。本発明は、ユーザの入力問い合わせ
に応答して、関連する音素注釈を有する複数のデータフ
ァイルから構成されるデータベースを探索するために使
用できる。入力問い合わせは音声による問い合わせ又は
文字による問い合わせのいずれであっても良い。
【0002】情報のデータベースは良く知られており、
データベースから所望の情報が格納されている場所をい
かに速く、効率良く判定し、その情報をいかに速く、効
率良く検索するかということが問題になっている。既存
のデータベース探索ツールによれば、ユーザは文字によ
り入力されるキーワードを利用して、データベースを探
索することができる。この方法は短時間で効率良く情報
を検索できるが、この種の探索は映像データベースや、
音声データベースなどの様々な種類のデータベースには
適していない。
データベースから所望の情報が格納されている場所をい
かに速く、効率良く判定し、その情報をいかに速く、効
率良く検索するかということが問題になっている。既存
のデータベース探索ツールによれば、ユーザは文字によ
り入力されるキーワードを利用して、データベースを探
索することができる。この方法は短時間で効率良く情報
を検索できるが、この種の探索は映像データベースや、
音声データベースなどの様々な種類のデータベースには
適していない。
【0003】最近になって、そのような映像データベー
ス及び音声データベースに音声ファイル及び映像ファイ
ルの音声内容を音素転換した注釈を付け加えることが提
案されている。この場合、後にユーザの入力問い合わせ
の音素転換をデータベース中の音素注釈データと比較す
ることにより、データベースを検索することになる。音
素の系列を整合する技法として提案された方法では、ま
ず、問い合わせの中で、それぞれが重複する固定サイズ
フラグメントとして音素列から取り出される一組の特徴
を定義し、次に、問い合わせと注釈の双方におけるそれ
らの特徴の出現頻度を識別し、最後に、それらの出現頻
度の余弦尺度を使用して、問い合わせと注釈との類似度
の尺度を判定する。この種の音素比較技法の利点の1つ
は、問い合わせの言葉の系列が注釈の言葉の系列と厳密
には一致しないような状況に対応できることである。し
かし、特に、問い合わせと注釈が異なる速度で語られた
ために、問い合わせからは言葉の一部が削除されている
が、注釈からは削除されていない場合、又はその逆の場
合などにおいて、誤りを生じ易いという問題もある。
ス及び音声データベースに音声ファイル及び映像ファイ
ルの音声内容を音素転換した注釈を付け加えることが提
案されている。この場合、後にユーザの入力問い合わせ
の音素転換をデータベース中の音素注釈データと比較す
ることにより、データベースを検索することになる。音
素の系列を整合する技法として提案された方法では、ま
ず、問い合わせの中で、それぞれが重複する固定サイズ
フラグメントとして音素列から取り出される一組の特徴
を定義し、次に、問い合わせと注釈の双方におけるそれ
らの特徴の出現頻度を識別し、最後に、それらの出現頻
度の余弦尺度を使用して、問い合わせと注釈との類似度
の尺度を判定する。この種の音素比較技法の利点の1つ
は、問い合わせの言葉の系列が注釈の言葉の系列と厳密
には一致しないような状況に対応できることである。し
かし、特に、問い合わせと注釈が異なる速度で語られた
ために、問い合わせからは言葉の一部が削除されている
が、注釈からは削除されていない場合、又はその逆の場
合などにおいて、誤りを生じ易いという問題もある。
【0004】本発明の目的は、音素の系列を整合するた
めの従来に代わる技法を提供することである。
めの従来に代わる技法を提供することである。
【0005】1つの態様によれば、本発明は、第1の特
徴系列及び第2の特徴系列を受信する手段と、前記第1
の特徴系列の中で、複数の異なる第1の特徴部分列を識
別する手段と、前記異なる第1の特徴部分列の各々が前
記第1の特徴系列の中で現れる回数を判定し、それを出
力する第1の判定手段と、前記第2の特徴系列から複数
の第2の特徴部分列を定義する手段と、第1の特徴部分
列の各々を第2の特徴部分列の各々と比較することによ
り、前記異なる第1の特徴部分列の各々が前記第2の特
徴系列の中で現れる回数を判定し、それを出力する第2
の判定手段と、前記第1の判定手段から出力される回数
と前記第2の判定手段から出力される回数とを比較する
ことにより、第1の特徴系列と第2の特徴系列との類似
の尺度を計算する手段とを具備する特徴比較装置であっ
て、前記第2の判定手段は、複数の異なる特徴の類似度
を定義する類似度情報を含む所定のデータを使用して、
現在の第1の特徴部分列を第2の特徴部分列の各々と比
較し、一組の類似度尺度を求める手段と、一組の類似度
尺度の各々を所定の閾値と比較し、閾値比較結果を出力
する手段と、前記閾値比較結果に従って現在の第1の特
徴部分列と関連するカウントを増分する手段とを具備す
ることを特徴とする特徴比較装置を提供する。
徴系列及び第2の特徴系列を受信する手段と、前記第1
の特徴系列の中で、複数の異なる第1の特徴部分列を識
別する手段と、前記異なる第1の特徴部分列の各々が前
記第1の特徴系列の中で現れる回数を判定し、それを出
力する第1の判定手段と、前記第2の特徴系列から複数
の第2の特徴部分列を定義する手段と、第1の特徴部分
列の各々を第2の特徴部分列の各々と比較することによ
り、前記異なる第1の特徴部分列の各々が前記第2の特
徴系列の中で現れる回数を判定し、それを出力する第2
の判定手段と、前記第1の判定手段から出力される回数
と前記第2の判定手段から出力される回数とを比較する
ことにより、第1の特徴系列と第2の特徴系列との類似
の尺度を計算する手段とを具備する特徴比較装置であっ
て、前記第2の判定手段は、複数の異なる特徴の類似度
を定義する類似度情報を含む所定のデータを使用して、
現在の第1の特徴部分列を第2の特徴部分列の各々と比
較し、一組の類似度尺度を求める手段と、一組の類似度
尺度の各々を所定の閾値と比較し、閾値比較結果を出力
する手段と、前記閾値比較結果に従って現在の第1の特
徴部分列と関連するカウントを増分する手段とを具備す
ることを特徴とする特徴比較装置を提供する。
【0006】別の態様によれば、本発明は、第1の特徴
系列及び第2の特徴系列を受信する過程と、前記第1の
特徴系列の中で、複数の異なる第1の特徴部分列を識別
する過程と、前記異なる第1の特徴部分列の各々が前記
第1の特徴系列の中で現れる回数を判定し、それを出力
する第1の判定過程と、前記第2の特徴系列から複数の
第2の特徴部分列を定義する過程と、第1の特徴部分列
の各々を第2の特徴部分列の各々と比較することによ
り、前記異なる第1の特徴部分列の各々が前記第2の特
徴系列の中で現れる回数を判定し、それを出力する第2
の判定過程と、前記第1の判定過程から出力される回数
と前記第2の判定過程から出力される回数とを比較する
ことにより、第1の特徴系列と第2の特徴系列との類似
の尺度を計算する過程とから成る特徴比較方法であっ
て、前記第2の判定過程は、複数の異なる特徴の類似度
を定義する類似度情報を含む所定のデータを使用して、
現在の第1の特徴部分列を第2の特徴部分列の各々と比
較し、一組の類似度尺度を求める過程と、一組の類似度
尺度の各々を所定の閾値と比較し、閾値比較結果を出力
する過程と、前記閾値比較結果に従って現在の第1の特
徴部分列と関連するカウントを増分する過程とを含むこ
とを特徴とする特徴比較方法を提供する。
系列及び第2の特徴系列を受信する過程と、前記第1の
特徴系列の中で、複数の異なる第1の特徴部分列を識別
する過程と、前記異なる第1の特徴部分列の各々が前記
第1の特徴系列の中で現れる回数を判定し、それを出力
する第1の判定過程と、前記第2の特徴系列から複数の
第2の特徴部分列を定義する過程と、第1の特徴部分列
の各々を第2の特徴部分列の各々と比較することによ
り、前記異なる第1の特徴部分列の各々が前記第2の特
徴系列の中で現れる回数を判定し、それを出力する第2
の判定過程と、前記第1の判定過程から出力される回数
と前記第2の判定過程から出力される回数とを比較する
ことにより、第1の特徴系列と第2の特徴系列との類似
の尺度を計算する過程とから成る特徴比較方法であっ
て、前記第2の判定過程は、複数の異なる特徴の類似度
を定義する類似度情報を含む所定のデータを使用して、
現在の第1の特徴部分列を第2の特徴部分列の各々と比
較し、一組の類似度尺度を求める過程と、一組の類似度
尺度の各々を所定の閾値と比較し、閾値比較結果を出力
する過程と、前記閾値比較結果に従って現在の第1の特
徴部分列と関連するカウントを増分する過程とを含むこ
とを特徴とする特徴比較方法を提供する。
【0007】別の態様によれば、本発明は、第1の特徴
系列及び第2の特徴系列を受信する手段と、前記第1の
特徴系列の中で複数の異なる第1の特徴部分列を識別す
る手段と、前記第1の特徴系列の中で前記異なる第1の
部分列の各々が現れる回数を求める第1の回数判定手段
と、前記第2の特徴系列の中で前記異なる第1の部分列
の各々が現れる回数を求める第2の回数判定手段と、前
記第1及び第2の回数判定手段から得られた回数を利用
して、第1の特徴系列と第2の特徴系列との類似度を表
す類似度スコアを計算する手段とを具備する特徴比較装
置であって、前記特徴比較装置は、前記第2の特徴系列
の中の特徴部分列の総数を求める第3の回数判定手段を
更に具備することと、前記計算する手段は、前記第2の
回数判定手段から得られた回数及び第3の回数判定手段
から得られた回数を利用して、前記第1の部分列の各々
が前記第2の特徴系列の中で現れる確率の尺度を計算す
る第1の計算手段と、前記第1の回数判定手段から得ら
れた前記回数に従って、前記計算された確率尺度の積を
求めることにより、前記類似度スコアを計算する第2の
計算手段とを具備することを特徴とする特徴比較装置を
提供する。
系列及び第2の特徴系列を受信する手段と、前記第1の
特徴系列の中で複数の異なる第1の特徴部分列を識別す
る手段と、前記第1の特徴系列の中で前記異なる第1の
部分列の各々が現れる回数を求める第1の回数判定手段
と、前記第2の特徴系列の中で前記異なる第1の部分列
の各々が現れる回数を求める第2の回数判定手段と、前
記第1及び第2の回数判定手段から得られた回数を利用
して、第1の特徴系列と第2の特徴系列との類似度を表
す類似度スコアを計算する手段とを具備する特徴比較装
置であって、前記特徴比較装置は、前記第2の特徴系列
の中の特徴部分列の総数を求める第3の回数判定手段を
更に具備することと、前記計算する手段は、前記第2の
回数判定手段から得られた回数及び第3の回数判定手段
から得られた回数を利用して、前記第1の部分列の各々
が前記第2の特徴系列の中で現れる確率の尺度を計算す
る第1の計算手段と、前記第1の回数判定手段から得ら
れた前記回数に従って、前記計算された確率尺度の積を
求めることにより、前記類似度スコアを計算する第2の
計算手段とを具備することを特徴とする特徴比較装置を
提供する。
【0008】別の態様によれば、本発明は、各々が音声
特徴系列から構成される関連する注釈し且つ検索すべき
情報を識別する複数の情報エントリを含むデータベース
を探索する装置で、音声特徴系列から構成される入力問
い合わせを受信する手段と、問い合わせの音声特徴系列
を各注釈の特徴と比較して、一組の比較結果を提供する
手段と、前記比較結果を使用して、前記データベースか
ら検索すべき前記情報を識別する手段とを具備する装置
であって、請求項1から44のいずれか1項に記載の前
記装置は、複数の異なる比較動作モードを有し、且つ装
置は、(i)問い合わせの音声特徴系列がオーディオ信
号から生成されたか、又はテキストから生成されたかを
判定し、(ii)現在注釈の音声特徴系列がオーディオ信
号から生成されたか、又はテキストから生成されたかを
判定し、その判定結果を出力する手段と、現在注釈につ
いて、前記判定結果に応じて前記装置の動作モードを選
択する手段とを更に具備することを特徴とする装置を提
供する。
特徴系列から構成される関連する注釈し且つ検索すべき
情報を識別する複数の情報エントリを含むデータベース
を探索する装置で、音声特徴系列から構成される入力問
い合わせを受信する手段と、問い合わせの音声特徴系列
を各注釈の特徴と比較して、一組の比較結果を提供する
手段と、前記比較結果を使用して、前記データベースか
ら検索すべき前記情報を識別する手段とを具備する装置
であって、請求項1から44のいずれか1項に記載の前
記装置は、複数の異なる比較動作モードを有し、且つ装
置は、(i)問い合わせの音声特徴系列がオーディオ信
号から生成されたか、又はテキストから生成されたかを
判定し、(ii)現在注釈の音声特徴系列がオーディオ信
号から生成されたか、又はテキストから生成されたかを
判定し、その判定結果を出力する手段と、現在注釈につ
いて、前記判定結果に応じて前記装置の動作モードを選
択する手段とを更に具備することを特徴とする装置を提
供する。
【0009】以下、図1から図24を参照して本発明の
実施形態を説明する。
実施形態を説明する。
【0010】本発明の実施形態は専用ハードウェア回路
を使用して実現可能であるが、以下に説明する実施形態
は、パーソナルコンピュータ、ワークステーション、写
真複写機、ファクシミリ装置、パーソナルデジタルアシ
スタント(PDA)などの処理ハードウェアと関連して実
行されるコンピュータソフトウェア又はコードにおいて
実現される。
を使用して実現可能であるが、以下に説明する実施形態
は、パーソナルコンピュータ、ワークステーション、写
真複写機、ファクシミリ装置、パーソナルデジタルアシ
スタント(PDA)などの処理ハードウェアと関連して実
行されるコンピュータソフトウェア又はコードにおいて
実現される。
【0011】データファイル注釈 図1は、データベース29に格納すべきデータファイル
91に注釈を付けるためにユーザが活字注釈データ又は
音声注釈データをキーボード3及びマイクロホン7を介
して入力することができるユーザ端末装置59の形態を
示す。この実施形態では、データファイル91は、例え
ば、カメラにより生成される二次元画像から構成されて
いる。ユーザ端末装置59を使用して、ユーザ39はこ
の2D画像に、データベース29から2D画像を検索する
ために後に使用できる適切な注釈を付け加えることがで
きる。この実施形態においては、音素転換装置75によ
り、文字入力を音素(又は音素に類似する要素)・語の
束注釈に変換し、この注釈を制御装置55に供給する。
図2は、文字入力「picture of the Taj Mahal」に対し
て生成された音素・語束注釈データの形態を示す。図2
に示すように、音素・語束は、1つの入口ポイントと、
1つの出口ポイントとを有する非周期有向グラフであ
る。これはユーザの入力の様々に異なる構文を表す。図
示されているように、音素転換装置75は、文字入力に
対応すると考えることができる複数の異なる音素列を内
部音素辞書(図示せず)から識別する。
91に注釈を付けるためにユーザが活字注釈データ又は
音声注釈データをキーボード3及びマイクロホン7を介
して入力することができるユーザ端末装置59の形態を
示す。この実施形態では、データファイル91は、例え
ば、カメラにより生成される二次元画像から構成されて
いる。ユーザ端末装置59を使用して、ユーザ39はこ
の2D画像に、データベース29から2D画像を検索する
ために後に使用できる適切な注釈を付け加えることがで
きる。この実施形態においては、音素転換装置75によ
り、文字入力を音素(又は音素に類似する要素)・語の
束注釈に変換し、この注釈を制御装置55に供給する。
図2は、文字入力「picture of the Taj Mahal」に対し
て生成された音素・語束注釈データの形態を示す。図2
に示すように、音素・語束は、1つの入口ポイントと、
1つの出口ポイントとを有する非周期有向グラフであ
る。これはユーザの入力の様々に異なる構文を表す。図
示されているように、音素転換装置75は、文字入力に
対応すると考えることができる複数の異なる音素列を内
部音素辞書(図示せず)から識別する。
【0012】同様に、音声入力は自動音声認識装置51
により音素(又は音素に類似する要素)・語束注釈デー
タに変換され、このデータも制御装置55に供給され
る。自動音声認識装置51は、(i)入力発言に対して
音素束を生成し、(ii)次に、その音素束の中で語を識
別し、(iii)最後に、それら2つを組み合わせること
により、音素・語束注釈データを生成する。図3は、入
力発言「picture of theTaj Mahal」に対して生成され
た音素・語束注釈データの形態を示す。図示されている
ように、自動音声認識装置は、この入力発言に対応する
と考えることができる複数の異なる音素列を識別する。
音声認識技術においては良く知られているように、それ
らの異なる音素候補は、音声認識装置51により生成さ
れ、音声認識装置の出力の信頼性を示す独自の重みを有
していても良い。しかし、この実施形態では、音素のこ
のような重み付けは行われない。図3に示す通り、自動
音声認識装置51が音素束の中で識別する語は、音素束
データ構造の中に取り込まれている。先に挙げた語句の
例について示すように、自動音声認識装置51は「pict
ure」、「of」、「off」、「the」、「other」、「t
a」、「tar」、「jam」、「ah」、「hal」、「ha」及び
「al」を語として識別している。
により音素(又は音素に類似する要素)・語束注釈デー
タに変換され、このデータも制御装置55に供給され
る。自動音声認識装置51は、(i)入力発言に対して
音素束を生成し、(ii)次に、その音素束の中で語を識
別し、(iii)最後に、それら2つを組み合わせること
により、音素・語束注釈データを生成する。図3は、入
力発言「picture of theTaj Mahal」に対して生成され
た音素・語束注釈データの形態を示す。図示されている
ように、自動音声認識装置は、この入力発言に対応する
と考えることができる複数の異なる音素列を識別する。
音声認識技術においては良く知られているように、それ
らの異なる音素候補は、音声認識装置51により生成さ
れ、音声認識装置の出力の信頼性を示す独自の重みを有
していても良い。しかし、この実施形態では、音素のこ
のような重み付けは行われない。図3に示す通り、自動
音声認識装置51が音素束の中で識別する語は、音素束
データ構造の中に取り込まれている。先に挙げた語句の
例について示すように、自動音声認識装置51は「pict
ure」、「of」、「off」、「the」、「other」、「t
a」、「tar」、「jam」、「ah」、「hal」、「ha」及び
「al」を語として識別している。
【0013】図3に示すように、自動音声認識装置51
により生成された音素・語束(phoneme and word lattic
e)は1つの入口ポイントと、1つの出口ポイントとを有
する非周期有向グラフである。これは、ユーザが入力し
た注釈発言の様々に異なる構文(parses)を表す。それぞ
れの語を1つの選択肢と入れ替えなければならないとい
うことはなく、1つの語を2つ以上の語又は音素と入れ
替えることは可能であり、また、この構造全体が1つ又
は複数の語又は音素と置き換えられることもありうるた
め、これは単に複数の選択肢を含む語の系列ではない。
従って、音素・語束注釈データ内部におけるデータの密
度は、音声注釈入力に対してN個の最良語リストを生成
するシステムの場合のように指数関係で成長して行くの
ではなく、むしろ本質的には注釈データ全体を通して線
形のままである。
により生成された音素・語束(phoneme and word lattic
e)は1つの入口ポイントと、1つの出口ポイントとを有
する非周期有向グラフである。これは、ユーザが入力し
た注釈発言の様々に異なる構文(parses)を表す。それぞ
れの語を1つの選択肢と入れ替えなければならないとい
うことはなく、1つの語を2つ以上の語又は音素と入れ
替えることは可能であり、また、この構造全体が1つ又
は複数の語又は音素と置き換えられることもありうるた
め、これは単に複数の選択肢を含む語の系列ではない。
従って、音素・語束注釈データ内部におけるデータの密
度は、音声注釈入力に対してN個の最良語リストを生成
するシステムの場合のように指数関係で成長して行くの
ではなく、むしろ本質的には注釈データ全体を通して線
形のままである。
【0014】この実施形態では、自動音声認識装置51
又は音素変換装置75により生成される注釈(annotatio
n)データは通常は次のような形態を有する。
又は音素変換装置75により生成される注釈(annotatio
n)データは通常は次のような形態を有する。
【0015】ヘッダ(header) − 語であるか、音素であるか、それらの混合であるか
を示すフラグ − メモリ内の注釈データのブロックの所定の時点に対
する場所と関連する時間索引 − 使用される語集合(すなわち、辞書) − 使用される音素集合 − 語彙が関連する言語 − 音素確率データ ブロック(i) i=0,1,2..... ノードNj j=0,1,2..... − ブロックの開始からのノードの時間オフセット − 音素リンク(k) k=0,1,2..... ノードNj=Nk−Njに対するオフセット(NkはリンクKが
延出しているノードである) リンク(k)と関連する音素 − 語リンク(l) l=0,1,2..... ノードNj=Ni−Njに対するオフセット(Njはリンクlが
延出しているノードである) リンク(l)と関連する語 注釈データが語注釈データであるか、音素注釈データで
あるか、又はそれらの混合であるかを識別するフラグ
は、データベース中の全てのデータファイルが先に述べ
た音素と語の組み合わせ束注釈データを含むとは限ら
ず、そのような場合には、目的の注釈データを探索する
ために異なる探索方式を使用することになると考えられ
るために、提供される。
を示すフラグ − メモリ内の注釈データのブロックの所定の時点に対
する場所と関連する時間索引 − 使用される語集合(すなわち、辞書) − 使用される音素集合 − 語彙が関連する言語 − 音素確率データ ブロック(i) i=0,1,2..... ノードNj j=0,1,2..... − ブロックの開始からのノードの時間オフセット − 音素リンク(k) k=0,1,2..... ノードNj=Nk−Njに対するオフセット(NkはリンクKが
延出しているノードである) リンク(k)と関連する音素 − 語リンク(l) l=0,1,2..... ノードNj=Ni−Njに対するオフセット(Njはリンクlが
延出しているノードである) リンク(l)と関連する語 注釈データが語注釈データであるか、音素注釈データで
あるか、又はそれらの混合であるかを識別するフラグ
は、データベース中の全てのデータファイルが先に述べ
た音素と語の組み合わせ束注釈データを含むとは限ら
ず、そのような場合には、目的の注釈データを探索する
ために異なる探索方式を使用することになると考えられ
るために、提供される。
【0016】この実施形態では、所定の探索に際して探
索を注釈データの中央へジャンプさせるために、注釈デ
ータを複数のノードのブロックに分割している。従っ
て、ヘッダは、メモリ内の注釈データのブロックの場所
を開始時間と、ブロックの開始に対応する時間との間の
所定の時間オフセットと関連付ける時間索引を含む。
索を注釈データの中央へジャンプさせるために、注釈デ
ータを複数のノードのブロックに分割している。従っ
て、ヘッダは、メモリ内の注釈データのブロックの場所
を開始時間と、ブロックの開始に対応する時間との間の
所定の時間オフセットと関連付ける時間索引を含む。
【0017】また、ヘッダは使用される語集合(すなわ
ち、辞書)、使用される音素集合及びそれらの確率、語
彙が関連する言語を定義するデータも含む。更に、ヘッ
ダは、注釈データを生成するために使用される自動音声
認識システムと、注釈データの生成中に使用された装置
の適切な設定の詳細を含んでいても良い。
ち、辞書)、使用される音素集合及びそれらの確率、語
彙が関連する言語を定義するデータも含む。更に、ヘッ
ダは、注釈データを生成するために使用される自動音声
認識システムと、注釈データの生成中に使用された装置
の適切な設定の詳細を含んでいても良い。
【0018】ヘッダの後に続く注釈データのブロック
は、ブロック中のノードごとに、そのブロックの開始か
らのノードの時間オフセットと、そのノードを音素によ
り他のノードと結合する音素リンクと、そのノードを語
により他のノードと結合する語リンクとを識別する。各
々の音素リンクと語リンクは、リンクと関連する音素又
は語を識別する。また、現在ノードに対するオフセット
も識別する。例えば、ノードN50が音素リンクによりノ
ードN55にリンクしている場合、ノードN50に対するオフ
セットは5である。当業者には理解できるであろうが、
このようなオフセット表示を使用すると、連続する注釈
データを複数の別個のブロックに分割することが可能に
なる。
は、ブロック中のノードごとに、そのブロックの開始か
らのノードの時間オフセットと、そのノードを音素によ
り他のノードと結合する音素リンクと、そのノードを語
により他のノードと結合する語リンクとを識別する。各
々の音素リンクと語リンクは、リンクと関連する音素又
は語を識別する。また、現在ノードに対するオフセット
も識別する。例えば、ノードN50が音素リンクによりノ
ードN55にリンクしている場合、ノードN50に対するオフ
セットは5である。当業者には理解できるであろうが、
このようなオフセット表示を使用すると、連続する注釈
データを複数の別個のブロックに分割することが可能に
なる。
【0019】自動音声認識装置がその出力の信頼性を示
す重みを出力するような実施形態においては、そのよう
な重み付け、すなわち、信頼性スコアをデータ構造の中
に含めることにもなるであろう。すなわち、ノードごと
に、そのノードに到達する信頼性を示す信頼性スコアを
提供し、それぞれの音素リンクや、語リンクは、対応す
る音素又は語に与えられた重みに応じて遷移スコアを含
むと考えられる。その後、それらの重みを使用して、信
頼性スコアの低いペアを廃棄することにより、データフ
ァイルの探索及び検索を制御することになるであろう。
す重みを出力するような実施形態においては、そのよう
な重み付け、すなわち、信頼性スコアをデータ構造の中
に含めることにもなるであろう。すなわち、ノードごと
に、そのノードに到達する信頼性を示す信頼性スコアを
提供し、それぞれの音素リンクや、語リンクは、対応す
る音素又は語に与えられた重みに応じて遷移スコアを含
むと考えられる。その後、それらの重みを使用して、信
頼性スコアの低いペアを廃棄することにより、データフ
ァイルの探索及び検索を制御することになるであろう。
【0020】ユーザ入力に応答して、制御装置55はデ
ータベース29から適切な2Dファイルを検索し、生成
された音素・語注釈データをデータファイル91に付け
加える。この後、増補データファイルをデータベース2
9に戻す。この注釈付けステップの間、制御装置55
は、注釈データが正しいデータファイル91と関連して
いるかどうかをユーザが確認できるように、表示装置5
7に2D画像を表示するように動作する。
ータベース29から適切な2Dファイルを検索し、生成
された音素・語注釈データをデータファイル91に付け
加える。この後、増補データファイルをデータベース2
9に戻す。この注釈付けステップの間、制御装置55
は、注釈データが正しいデータファイル91と関連して
いるかどうかをユーザが確認できるように、表示装置5
7に2D画像を表示するように動作する。
【0021】以下に更に詳細に説明するが、このような
音素・語束注釈データを使用することにより、実行され
るデータベース29をすばやく、効率良く探索でき、デ
ータベースに格納されている所望の2D画像データファ
イルを識別し且つ検索することができる。これは、ま
ず、語データを使用してデータベース29中を探索し、
この探索で所要のデータファイルを提供できなければ、
より強固な音素データを使用してもう一度探索を実行す
ることにより実現できる。当業者には理解されるであろ
うが、音素は辞書とは無関係であり、システムは名前、
場所、外国語などの語彙から離れて問題に対処すること
ができるので、音素データの使用はより強固である。ま
た、音素データを使用すると、元の注釈が音声により入
力されており、本来の自動音声認識システムでは入力さ
れた注釈の語を理解できなかったような場合に、データ
ベース29に挿入されたデータファイルを検索すること
が可能になるため、システムは将来に対しても安心であ
る。
音素・語束注釈データを使用することにより、実行され
るデータベース29をすばやく、効率良く探索でき、デ
ータベースに格納されている所望の2D画像データファ
イルを識別し且つ検索することができる。これは、ま
ず、語データを使用してデータベース29中を探索し、
この探索で所要のデータファイルを提供できなければ、
より強固な音素データを使用してもう一度探索を実行す
ることにより実現できる。当業者には理解されるであろ
うが、音素は辞書とは無関係であり、システムは名前、
場所、外国語などの語彙から離れて問題に対処すること
ができるので、音素データの使用はより強固である。ま
た、音素データを使用すると、元の注釈が音声により入
力されており、本来の自動音声認識システムでは入力さ
れた注釈の語を理解できなかったような場合に、データ
ベース29に挿入されたデータファイルを検索すること
が可能になるため、システムは将来に対しても安心であ
る。
【0022】データファイル検索 図4は、この実施形態において、データベース29から
注釈付き2D画像を検索するために使用されるユーザ端
末装置59の形態を示すブロック線図である。このユー
ザ端末装置59は、例えば、パーソナルコンピュータ、
ハンドヘルド装置などであっても良い。図示されている
ように、この実施形態では、ユーザ端末装置59は注釈
付き2D画像のデータベース29と、自動音声認識装置
51と、音素転換装置75と、キーボード3と、マイク
ロホン7と、探索エンジン53と、制御装置55と、表
示装置57とを含む。操作中、ユーザはマイクロホン7
を介して音声による問い合わせを入力するか、又はキー
ボード3を介して文字による問い合わせを入力し、この
問い合わせは自動音声認識装置51又は音素転換装置7
5により処理されて、対応する音素・語データが生成さ
れる。このデータも音素・語束の形態をとっていて良い
が、それは不可欠ではない。次に、この音素・語データ
は制御装置55に入力される。制御装置55は、探索エ
ンジン53を使用してデータベース29の適切な探索を
開始するように動作することができる。探索エンジン5
3により生成された探索の結果は制御装置55に戻さ
れ、制御装置55は探索結果を解析し、適切な表示デー
タ(検索された2D画像など)を生成し、それを表示装
置57を介してユーザに対し表示する。
注釈付き2D画像を検索するために使用されるユーザ端
末装置59の形態を示すブロック線図である。このユー
ザ端末装置59は、例えば、パーソナルコンピュータ、
ハンドヘルド装置などであっても良い。図示されている
ように、この実施形態では、ユーザ端末装置59は注釈
付き2D画像のデータベース29と、自動音声認識装置
51と、音素転換装置75と、キーボード3と、マイク
ロホン7と、探索エンジン53と、制御装置55と、表
示装置57とを含む。操作中、ユーザはマイクロホン7
を介して音声による問い合わせを入力するか、又はキー
ボード3を介して文字による問い合わせを入力し、この
問い合わせは自動音声認識装置51又は音素転換装置7
5により処理されて、対応する音素・語データが生成さ
れる。このデータも音素・語束の形態をとっていて良い
が、それは不可欠ではない。次に、この音素・語データ
は制御装置55に入力される。制御装置55は、探索エ
ンジン53を使用してデータベース29の適切な探索を
開始するように動作することができる。探索エンジン5
3により生成された探索の結果は制御装置55に戻さ
れ、制御装置55は探索結果を解析し、適切な表示デー
タ(検索された2D画像など)を生成し、それを表示装
置57を介してユーザに対し表示する。
【0023】図5a及び図5bは、ユーザ端末装置59が
この実施形態においてどのように動作するかを示す流れ
図である。ステップS1では、ユーザ端末装置59はア
イドル状態にあり、ユーザ39からの入力問い合わせを
待っている。入力問い合わせを受信すると、ステップS
3で、自動音声認識装置51又は音素転換装置75によ
り、その入力問い合わせに関わる音素・語データを生成
する。次に、ステップS5では、制御装置55が探索エ
ンジン53に、入力問い合わせに対して生成された語デ
ータを使用してデータベース29の探索を実行すること
を命令する。この実施形態において採用される語探索
は、現時点でキー入力語探索に対して使用されているの
と同じ方式であるので、ここでは詳細に説明しない。ス
テップS7において、制御装置55が探索結果からユー
ザの入力問い合わせに対する一致が見出されたと識別し
たならば、制御装置55は探索結果を表示装置57を介
してユーザに対し出力する。
この実施形態においてどのように動作するかを示す流れ
図である。ステップS1では、ユーザ端末装置59はア
イドル状態にあり、ユーザ39からの入力問い合わせを
待っている。入力問い合わせを受信すると、ステップS
3で、自動音声認識装置51又は音素転換装置75によ
り、その入力問い合わせに関わる音素・語データを生成
する。次に、ステップS5では、制御装置55が探索エ
ンジン53に、入力問い合わせに対して生成された語デ
ータを使用してデータベース29の探索を実行すること
を命令する。この実施形態において採用される語探索
は、現時点でキー入力語探索に対して使用されているの
と同じ方式であるので、ここでは詳細に説明しない。ス
テップS7において、制御装置55が探索結果からユー
ザの入力問い合わせに対する一致が見出されたと識別し
たならば、制御装置55は探索結果を表示装置57を介
してユーザに対し出力する。
【0024】この実施形態では、次に、ユーザ端末装置
59はユーザに探索結果を考慮させ、結果がユーザの要
求している情報に相当するか否かに関するユーザの確認
を待つ。ユーザの要求に見合うものであれば、ステップ
S11で処理は終了に向かい、ユーザ端末装置59はア
イドル状態に戻り、次の入力問い合わせを待つ。これに
対し、ユーザが(例えば、適切な音声指令を入力するこ
とにより)探索結果は所望の情報に相当しないと指示し
た場合には、処理はステップS11からステップS13
に進み、探索エンジン53はデータベース29の音素探
索を実行する。しかし、この実施形態では、ステップS
13で実行される音素探索はデータベース29全体にわ
たる探索ではない。これは、データベース29の大きさ
により、その全体の探索には数時間を要する場合があり
うるからである。
59はユーザに探索結果を考慮させ、結果がユーザの要
求している情報に相当するか否かに関するユーザの確認
を待つ。ユーザの要求に見合うものであれば、ステップ
S11で処理は終了に向かい、ユーザ端末装置59はア
イドル状態に戻り、次の入力問い合わせを待つ。これに
対し、ユーザが(例えば、適切な音声指令を入力するこ
とにより)探索結果は所望の情報に相当しないと指示し
た場合には、処理はステップS11からステップS13
に進み、探索エンジン53はデータベース29の音素探
索を実行する。しかし、この実施形態では、ステップS
13で実行される音素探索はデータベース29全体にわ
たる探索ではない。これは、データベース29の大きさ
により、その全体の探索には数時間を要する場合があり
うるからである。
【0025】データベース全体を探索するのではなく、
ステップS13で実行される音素探索はステップS5で
実行された語探索の結果を利用して、データベース内
の、ユーザの入力問い合わせに相当すると思われる1つ
又は複数の部分を識別する。例えば、問い合わせが3つ
の語から形成されており、語探索では注釈の中で問い合
わせの語のうち1つ又は2つしか識別されなかった場合
には、識別された語の周辺にある注釈中の部分の音素探
索を実行することになる。この実施形態のステップS1
3において音素探索をどのように実行するかについて
は、後に更に詳細に説明する。
ステップS13で実行される音素探索はステップS5で
実行された語探索の結果を利用して、データベース内
の、ユーザの入力問い合わせに相当すると思われる1つ
又は複数の部分を識別する。例えば、問い合わせが3つ
の語から形成されており、語探索では注釈の中で問い合
わせの語のうち1つ又は2つしか識別されなかった場合
には、識別された語の周辺にある注釈中の部分の音素探
索を実行することになる。この実施形態のステップS1
3において音素探索をどのように実行するかについて
は、後に更に詳細に説明する。
【0026】音素探索を実行した後、ステップS15で
は、制御装置55は一致が見出されたか否かを識別す
る。一致が見出されていれば、処理はステップS17へ
進み、制御装置55は探索結果を表示装置57上でユー
ザに対し表示させる。この場合にも、システムは、その
探索結果が所望の情報に相当するか否かに関してユーザ
の確認を待つ。結果が正しければ、処理はステップS1
9から終了に向かい、ユーザ端末装置59はアイドル状
態に戻り、次の入力問い合わせを待つ。これに対し、ユ
ーザが探索結果は所望の情報に相当しないと指示した場
合には、処理はステップS19からステップS20へ進
み、制御装置55は表示装置57を介して、データベー
ス29全体について音素探索を実行すべきか否かをユー
ザに問うように動作する。この問い合わせに応答して、
ユーザがそのような探索を実行すべきであると指示すれ
ば、処理はステップS23へ進み、探索エンジンデータ
ベース全体の音素探索を実行する。
は、制御装置55は一致が見出されたか否かを識別す
る。一致が見出されていれば、処理はステップS17へ
進み、制御装置55は探索結果を表示装置57上でユー
ザに対し表示させる。この場合にも、システムは、その
探索結果が所望の情報に相当するか否かに関してユーザ
の確認を待つ。結果が正しければ、処理はステップS1
9から終了に向かい、ユーザ端末装置59はアイドル状
態に戻り、次の入力問い合わせを待つ。これに対し、ユ
ーザが探索結果は所望の情報に相当しないと指示した場
合には、処理はステップS19からステップS20へ進
み、制御装置55は表示装置57を介して、データベー
ス29全体について音素探索を実行すべきか否かをユー
ザに問うように動作する。この問い合わせに応答して、
ユーザがそのような探索を実行すべきであると指示すれ
ば、処理はステップS23へ進み、探索エンジンデータ
ベース全体の音素探索を実行する。
【0027】この探索が完了したならば、制御装置55
は、ステップS25で、ユーザの入力問い合わせに対す
る一致が見出されたか否かを識別する。一致が見出され
れば、処理はステップS27へ進み、制御装置55は探
索結果を表示装置57上でユーザに対し表示させる。探
索結果が正しい場合、処理はステップS29から終了に
向かい、ユーザ端末装置59はアイドル状態に戻り、次
の入力問い合わせを待つ。これに対し、ユーザが探索結
果は依然として所望の情報に相当していないと指示した
場合には、処理はステップS31へ進み、制御装置55
は表示装置57を介してユーザが探索問い合わせを定義
し直すか、又は修正することを望むか否かをユーザに問
い合わせる。ユーザが探索問い合わせを定義し直すこと
又は修正することを望んでいるならば、処理はステップ
S3に戻り、ユーザの次の入力問い合わせを同様にして
処理する。探索の定義のし直しや、修正を実行すべきで
ない場合には、探索結果とユーザの当初の入力問い合わ
せを放棄し、ユーザ端末装置59はアイドル状態に戻
り、次の入力問い合わせを待つ。
は、ステップS25で、ユーザの入力問い合わせに対す
る一致が見出されたか否かを識別する。一致が見出され
れば、処理はステップS27へ進み、制御装置55は探
索結果を表示装置57上でユーザに対し表示させる。探
索結果が正しい場合、処理はステップS29から終了に
向かい、ユーザ端末装置59はアイドル状態に戻り、次
の入力問い合わせを待つ。これに対し、ユーザが探索結
果は依然として所望の情報に相当していないと指示した
場合には、処理はステップS31へ進み、制御装置55
は表示装置57を介してユーザが探索問い合わせを定義
し直すか、又は修正することを望むか否かをユーザに問
い合わせる。ユーザが探索問い合わせを定義し直すこと
又は修正することを望んでいるならば、処理はステップ
S3に戻り、ユーザの次の入力問い合わせを同様にして
処理する。探索の定義のし直しや、修正を実行すべきで
ない場合には、探索結果とユーザの当初の入力問い合わ
せを放棄し、ユーザ端末装置59はアイドル状態に戻
り、次の入力問い合わせを待つ。
【0028】以上、この実施形態においてユーザ端末装
置59により探索が実行される方式を全般的に説明し
た。次に、探索エンジン53が音素探索をどのように実
行するかを更に詳細に説明すると共に、その探索戦略の
基礎となる動機を簡単に説明する。
置59により探索が実行される方式を全般的に説明し
た。次に、探索エンジン53が音素探索をどのように実
行するかを更に詳細に説明すると共に、その探索戦略の
基礎となる動機を簡単に説明する。
【0029】分類型問題としての情報検索 従来の分類手順においては、試験のデータをK個のクラ
スの中の1つのクラスに分類しなければならない。これ
は、クラスがわかっている他のデータに関する知識を利
用して実行される。分類型問題は、1からKまでの値を
とりうる「クラス」確率変数が存在することを前提とし
ている。そこで、最適の分類は、試験データが最も高い
確率で属すると考えられるクラスを識別することにより
見出される。訓練データは、クラスkのnk個のデータを
結果としてもたらすN回の生成プロセスにより生成され
るものと仮定する。このとき、ΣK K=1nk=Nである。ベ
クトル(n1,n2,...,nk)をnにより表し、訓練デ
ータをDにより表し、試験データをxで表すとき、従来
の分類型問題は、次の確率を最大にするkの値を判定す
るというものであった。
スの中の1つのクラスに分類しなければならない。これ
は、クラスがわかっている他のデータに関する知識を利
用して実行される。分類型問題は、1からKまでの値を
とりうる「クラス」確率変数が存在することを前提とし
ている。そこで、最適の分類は、試験データが最も高い
確率で属すると考えられるクラスを識別することにより
見出される。訓練データは、クラスkのnk個のデータを
結果としてもたらすN回の生成プロセスにより生成され
るものと仮定する。このとき、ΣK K=1nk=Nである。ベ
クトル(n1,n2,...,nk)をnにより表し、訓練デ
ータをDにより表し、試験データをxで表すとき、従来
の分類型問題は、次の確率を最大にするkの値を判定す
るというものであった。
【0030】
【数5】
【0031】分子の第2項は、より高い頻度で現れるク
ラスに対してより大きな重みを与えるクラスの優先確率
である。情報検索に関して言えば、各クラスは単一の訓
練データ(すなわち、注釈データ)を有する。従って、
情報検索の場合、上記の式の右側の第2項を無視するこ
とができる。同様に、P(x|D)はクラスごとに同じで
あり、そのため、分子を正規化しているだけであるの
で、分母も無視して良い。そこで、各クラスに対して上
記の式の分子の第1項の順序をランク付けするだけで、
クラスの順序を決定することができる。言い換えれば、
クラスkの訓練データをdkとするとき、全てのクラスに
ついてP(x|dk)を判定し、ランク付けすれば良い。
ラスに対してより大きな重みを与えるクラスの優先確率
である。情報検索に関して言えば、各クラスは単一の訓
練データ(すなわち、注釈データ)を有する。従って、
情報検索の場合、上記の式の右側の第2項を無視するこ
とができる。同様に、P(x|D)はクラスごとに同じで
あり、そのため、分子を正規化しているだけであるの
で、分母も無視して良い。そこで、各クラスに対して上
記の式の分子の第1項の順序をランク付けするだけで、
クラスの順序を決定することができる。言い換えれば、
クラスkの訓練データをdkとするとき、全てのクラスに
ついてP(x|dk)を判定し、ランク付けすれば良い。
【0032】この実施形態では、試験データxは入力問
い合わせを表し、クラスkの訓練データ(すなわち、
dk)はk番目の注釈を表す。図6aに示すように、問い合
わせと注釈の双方を生成した基礎統計モデル(M)が存
在するものと仮定する。一般的な場合では、このモデル
は3つの未知数、すなわち、モデル構造mと、問い合わ
せと注釈の双方に関わるそのモデル全体にわたる状態系
列sq及びsaと、出力分布Cとを有する。この場合、出力
分布は、入力音声から音素列を生成する音声認識システ
ムの特性を具現化したものであるので、出力分布につい
てはわかっている。後述するように、既知の発言の大型
データベースを音声認識システムに適用することによっ
て、出力分布を得ることができ、以下、これを混同統計
という。従って、状態系列とモデルを上記の確率に導入
すると(入力問い合わせの変数をqとし、注釈の変数をa
とする)、
い合わせを表し、クラスkの訓練データ(すなわち、
dk)はk番目の注釈を表す。図6aに示すように、問い合
わせと注釈の双方を生成した基礎統計モデル(M)が存
在するものと仮定する。一般的な場合では、このモデル
は3つの未知数、すなわち、モデル構造mと、問い合わ
せと注釈の双方に関わるそのモデル全体にわたる状態系
列sq及びsaと、出力分布Cとを有する。この場合、出力
分布は、入力音声から音素列を生成する音声認識システ
ムの特性を具現化したものであるので、出力分布につい
てはわかっている。後述するように、既知の発言の大型
データベースを音声認識システムに適用することによっ
て、出力分布を得ることができ、以下、これを混同統計
という。従って、状態系列とモデルを上記の確率に導入
すると(入力問い合わせの変数をqとし、注釈の変数をa
とする)、
【0033】
【数6】
【0034】これをベイズの方法を使用して展開する
と、次のようになる。
と、次のようになる。
【0035】
【数7】
【0036】上記の式は複雑に見えるが、状態系列sq及
びsaの集合の加算は標準ダイナミックプログラミングア
ルゴリズムを使用して実行できる。更に、各モデルの確
率は等しいと想定できるため、分子と分母の最終項は無
視でき、また、各状態系列の確率も等しいと想定できる
ので、状態系列項P(s|m,c)も無視して良い.更に、
基礎モデル構造は問い合わせとほぼ等しい長さを有する
音素の標準系列であると仮定することにより、挿入であ
れば、異なるモデルにわたる加算を排除できるが、一般
的な場合では、モデルの音素の標準系列はわかっていな
いので、これを可能な全ての音素にわたる加算と置き換
える。従って、状態系列の加算を無視すると、分子で
は、ダイナミックプログラミングアルゴリズム内部で評
価すべき項は次のようになる。
びsaの集合の加算は標準ダイナミックプログラミングア
ルゴリズムを使用して実行できる。更に、各モデルの確
率は等しいと想定できるため、分子と分母の最終項は無
視でき、また、各状態系列の確率も等しいと想定できる
ので、状態系列項P(s|m,c)も無視して良い.更に、
基礎モデル構造は問い合わせとほぼ等しい長さを有する
音素の標準系列であると仮定することにより、挿入であ
れば、異なるモデルにわたる加算を排除できるが、一般
的な場合では、モデルの音素の標準系列はわかっていな
いので、これを可能な全ての音素にわたる加算と置き換
える。従って、状態系列の加算を無視すると、分子で
は、ダイナミックプログラミングアルゴリズム内部で評
価すべき項は次のようになる。
【0037】
【数8】
【0038】また、分母(すなわち、正規化項)におい
ては、
ては、
【0039】
【数9】
【0040】式中、Npはシステムにわかっている音素の
総数、ai、qj及びprは、評価すべき現在DP束ポイントに
それぞれ対応する注釈音素、問い合わせ音素及びモデル
音素である。式(4)と式(5)を比較してみればわか
るように、分母で計算される確率項は分子でも計算され
る。従って、同じダイナミックプログラミングルーチン
の間に2つの項を累積することができる。判定される確
率を更に詳細に考えてみると、P(qj|pr,C)は混同統
計値が与えられた場合に標準音素prを問い合わせ音素qj
として複合する確率であり、P(ai|pr,C)は混同統計
値が与えられた場合に標準音素prを注釈音素aiとして複
合する確率であり、P(pr,C)は混同統計値が与えられ
た場合に無条件で起こる標準音素prの確率である。
総数、ai、qj及びprは、評価すべき現在DP束ポイントに
それぞれ対応する注釈音素、問い合わせ音素及びモデル
音素である。式(4)と式(5)を比較してみればわか
るように、分母で計算される確率項は分子でも計算され
る。従って、同じダイナミックプログラミングルーチン
の間に2つの項を累積することができる。判定される確
率を更に詳細に考えてみると、P(qj|pr,C)は混同統
計値が与えられた場合に標準音素prを問い合わせ音素qj
として複合する確率であり、P(ai|pr,C)は混同統計
値が与えられた場合に標準音素prを注釈音素aiとして複
合する確率であり、P(pr,C)は混同統計値が与えられ
た場合に無条件で起こる標準音素prの確率である。
【0041】上記の項に加えて、ダイナミックプログラ
ミング計算の各ポイントでは、モデルに対する問い合わ
せ又は注釈の挿入及び削除を扱う別の項を計算しなけれ
ばならない。当業者には理解できるであろうが、問い合
わせにおける挿入又は削除は注釈における挿入又は削除
と無関係であり、また、注釈における挿入又は削除も問
い合わせにおける挿入又は削除とは無関係である。従っ
て、それらの追加項は別個に取り扱われる。モデルに対
する注釈の挿入と削除も先の式(5)に挙げた正規化項
について考慮されなければならない。
ミング計算の各ポイントでは、モデルに対する問い合わ
せ又は注釈の挿入及び削除を扱う別の項を計算しなけれ
ばならない。当業者には理解できるであろうが、問い合
わせにおける挿入又は削除は注釈における挿入又は削除
と無関係であり、また、注釈における挿入又は削除も問
い合わせにおける挿入又は削除とは無関係である。従っ
て、それらの追加項は別個に取り扱われる。モデルに対
する注釈の挿入と削除も先の式(5)に挙げた正規化項
について考慮されなければならない。
【0042】図4及び図5の説明から当業者には理解さ
れるように、この実施形態では、注釈の音素データと問
い合わせの音素データは、共に、テキスト又は音声から
取り出されると考えられる。従って、考慮すべき状況は
次の四つである。 i)注釈と問い合わせが共にテキストから生成されてい
る場合。 ii)注釈はテキストから生成され、問い合わせは音声か
ら生成されている場合。 iii)注釈は音声から生成され、問い合わせはテキスト
から生成されている場合。 iv)問い合わせと注釈が共に音声から生成されている場
合。
れるように、この実施形態では、注釈の音素データと問
い合わせの音素データは、共に、テキスト又は音声から
取り出されると考えられる。従って、考慮すべき状況は
次の四つである。 i)注釈と問い合わせが共にテキストから生成されてい
る場合。 ii)注釈はテキストから生成され、問い合わせは音声か
ら生成されている場合。 iii)注釈は音声から生成され、問い合わせはテキスト
から生成されている場合。 iv)問い合わせと注釈が共に音声から生成されている場
合。
【0043】第1の状況は、注釈又は問い合わせの時間
圧縮/伸張がありえず、注釈と問い合わせとの比較がそ
れぞれ対応する音素系列の単純なブール比較により実行
される単純なケースである。
圧縮/伸張がありえず、注釈と問い合わせとの比較がそ
れぞれ対応する音素系列の単純なブール比較により実行
される単純なケースである。
【0044】第2の状況では、注釈が正確であると考
え、ダイナミックプログラミング整列によって、二者の
最良の整列を見出すべく、問い合わせの音素の挿入及び
削除は許容される。このケースを例示するために、図6
bは、注釈音素がテキストから生成された場合の注釈音
素(a0,a1,a2...とラベル付けされている)の系列
と、問い合わせ音素(q0,q1,q2...とラベル付けさ
れている)の系列との間で起こりうる整合を示す。点線
の矢印で示すように、注釈音素a0は問い合わせ音素q1と
整列し、注釈音素a1は問い合わせ音素q2と整列し、注釈
音素a2は問い合わせ音素q3と整列し、注釈音素a3は問い
合わせ音素q3と整列し、注釈音素a4は問い合わせ音素q4
と整列している。これらの整列のそれぞれについて、ダ
イナミックプログラミングルーチンは先の式(4)及び
(5)で挙げられた項を計算する。しかし、このケース
においては、モデル音素の標準系列が(注釈音素である
ために)既にわかっているので、式(4)及び(5)は
簡単になる。すなわち、注釈がモデルであり、分子はP
(qi|aj,C)として簡略化されるので、正規化項は1
つである。これらの復号項に加えて、ダイナミックプロ
グラミングルーチンは、注釈に対して問い合わせで挿入
されている音素(問い合わせ音素q1など)と、注釈に
対して問い合わせで削除されている音素(2つの注釈音
素a2及びa3と整合する問い合わせ音素q3により表さ
れている)とについて、関連する挿入と削除の確率を更
に計算する。
え、ダイナミックプログラミング整列によって、二者の
最良の整列を見出すべく、問い合わせの音素の挿入及び
削除は許容される。このケースを例示するために、図6
bは、注釈音素がテキストから生成された場合の注釈音
素(a0,a1,a2...とラベル付けされている)の系列
と、問い合わせ音素(q0,q1,q2...とラベル付けさ
れている)の系列との間で起こりうる整合を示す。点線
の矢印で示すように、注釈音素a0は問い合わせ音素q1と
整列し、注釈音素a1は問い合わせ音素q2と整列し、注釈
音素a2は問い合わせ音素q3と整列し、注釈音素a3は問い
合わせ音素q3と整列し、注釈音素a4は問い合わせ音素q4
と整列している。これらの整列のそれぞれについて、ダ
イナミックプログラミングルーチンは先の式(4)及び
(5)で挙げられた項を計算する。しかし、このケース
においては、モデル音素の標準系列が(注釈音素である
ために)既にわかっているので、式(4)及び(5)は
簡単になる。すなわち、注釈がモデルであり、分子はP
(qi|aj,C)として簡略化されるので、正規化項は1
つである。これらの復号項に加えて、ダイナミックプロ
グラミングルーチンは、注釈に対して問い合わせで挿入
されている音素(問い合わせ音素q1など)と、注釈に
対して問い合わせで削除されている音素(2つの注釈音
素a2及びa3と整合する問い合わせ音素q3により表さ
れている)とについて、関連する挿入と削除の確率を更
に計算する。
【0045】先に挙げた第3の状況は、問い合わせ音素
の系列が正確であると考えられ、ダイナミックプログラ
ミング整列によって、問い合わせに対する注釈の音素の
挿入と削除が考慮される点を除いて、第2の状況に類似
している。しかし、この状況においては、わかっている
のが問い合わせであるので、式(1)から式(5)を利
用することができない。そこで、この状況においては、
式(1)を次のように書き直すことができる。
の系列が正確であると考えられ、ダイナミックプログラ
ミング整列によって、問い合わせに対する注釈の音素の
挿入と削除が考慮される点を除いて、第2の状況に類似
している。しかし、この状況においては、わかっている
のが問い合わせであるので、式(1)から式(5)を利
用することができない。そこで、この状況においては、
式(1)を次のように書き直すことができる。
【0046】
【数10】
【0047】上記式(1)の対応する項と同様に、分子
の第2項と分母を共に無視することができる。上記式
(6)の分子の第1項を、式(1)の分子の第1項を展
開したのと同様にして展開することができる。しかし、
この状況では、問い合わせがモデルとしてみなされてい
るので、ダイナミックプログラミングルーチンの間に計
算される正規化項は1つに簡略化され、分子は単にP(a
i|qj,C)となる。先に述べた第2の状況と同様に、ダ
イナミックプログラミングルーチンは、問い合わせに対
して注釈で挿入された音素と、問い合わせに対して注釈
で削除された音素とについて関連する挿入及び削除の確
率を更に計算する。
の第2項と分母を共に無視することができる。上記式
(6)の分子の第1項を、式(1)の分子の第1項を展
開したのと同様にして展開することができる。しかし、
この状況では、問い合わせがモデルとしてみなされてい
るので、ダイナミックプログラミングルーチンの間に計
算される正規化項は1つに簡略化され、分子は単にP(a
i|qj,C)となる。先に述べた第2の状況と同様に、ダ
イナミックプログラミングルーチンは、問い合わせに対
して注釈で挿入された音素と、問い合わせに対して注釈
で削除された音素とについて関連する挿入及び削除の確
率を更に計算する。
【0048】最後に、第4の状況では、注釈と問い合わ
せの双方が音声から生成されており、双方の音素データ
の系列は、実際に話された言葉をテキストとして表現さ
れたモデル音素の未知の標準系列に対して挿入と削除を
含んでいる可能性がある。この状況を図6cに示す。図
6cは、注釈音素(ai,ai+1,ai+2...とラベル付け
されている)の系列と、問い合わせ音素(qj,qj+1,q
j+2...とラベル付けされている)の系列と、問い合
わせと注釈の双方により実際に話された言葉の音素の標
準系列をあらわす音素(pn,pn+1,pn+2...とラベル
付けされている)との間で起こりうる整合を示す。図6
cに示すように、この場合、ダイナミックプログラミン
グ整列技法により、注釈と問い合わせの双方における音
素の挿入(挿入音素ai+3及びqj+1により表されている)
と、注釈と問い合わせの双方からの音素の削除(音素a
i+1及びqj+2により表されており、それらは共に音素の
標準系列の2つの音素と整列している)の双方をモデル
音素の標準系列に対して考慮しなければならない。
せの双方が音声から生成されており、双方の音素データ
の系列は、実際に話された言葉をテキストとして表現さ
れたモデル音素の未知の標準系列に対して挿入と削除を
含んでいる可能性がある。この状況を図6cに示す。図
6cは、注釈音素(ai,ai+1,ai+2...とラベル付け
されている)の系列と、問い合わせ音素(qj,qj+1,q
j+2...とラベル付けされている)の系列と、問い合
わせと注釈の双方により実際に話された言葉の音素の標
準系列をあらわす音素(pn,pn+1,pn+2...とラベル
付けされている)との間で起こりうる整合を示す。図6
cに示すように、この場合、ダイナミックプログラミン
グ整列技法により、注釈と問い合わせの双方における音
素の挿入(挿入音素ai+3及びqj+1により表されている)
と、注釈と問い合わせの双方からの音素の削除(音素a
i+1及びqj+2により表されており、それらは共に音素の
標準系列の2つの音素と整列している)の双方をモデル
音素の標準系列に対して考慮しなければならない。
【0049】当業者には理解できるであろうが、音素の
モデル系列を計算に導入することにより、アルゴリズム
は問い合わせと注釈の双方における発音の変化により対
応しやすくなる。
モデル系列を計算に導入することにより、アルゴリズム
は問い合わせと注釈の双方における発音の変化により対
応しやすくなる。
【0050】以上、この実施形態が問い合わせ音素の系
列とデータベースの注釈音素の系列ととを整合させるこ
とにより、情報検索を実行する方法を全般的に説明し
た。この実施形態の動作をより良く理解するために、次
に、標準的なダイナミックプログラミングアルゴリズム
について簡単に説明し、その後、この実施形態で採用す
る特定のアルゴリズムを更に詳細に説明する。
列とデータベースの注釈音素の系列ととを整合させるこ
とにより、情報検索を実行する方法を全般的に説明し
た。この実施形態の動作をより良く理解するために、次
に、標準的なダイナミックプログラミングアルゴリズム
について簡単に説明し、その後、この実施形態で採用す
る特定のアルゴリズムを更に詳細に説明する。
【0051】DP探索の概要 当業者には知られているように、ダイナミックプログラ
ミングは、この実施形態では音素である特徴系列の最適
の整列を見出すために使用できる技法である。ダイナミ
ックプログラミングによれば、それぞれが注釈音素の系
列と、問い合わせ音素の系列との間で起こりうる整合を
表す複数のダイナミックプログラミング経路を同時に伝
搬することにより最適の整列を見出す。全ての経路は、
注釈と問い合わせの始まりであるスタートヌルノードか
ら始まり、注釈と問い合わせの終わりであるエンドヌル
ノードに到達するまで伝搬する。図7及び図8は、実行
される整合と、この経路伝搬を概略的に示す。すなわ
ち、図7は、水平軸が注釈を表し、垂直軸が問い合わせ
を表す方形座標図である。スタートヌルノードφsは左
上角に規定され、エンドヌルノードφeは右下角に規定
されている。図8に示すように、注釈の音素は水平軸に
沿って規定され、問い合わせの音素は垂直軸に沿って規
定されている。また、図8はいくつかの束ポイントも示
しており、各束ポイントは1つの注釈音素と1つの問い
合わせ音素との間で起こりうる整列を表している。例え
ば、束ポイント21は注釈音素a3と、問い合わせ音素q1
との間で起こりうる整列を示す。更に、図8は、注釈を
表す音素の系列と問い合わせを表す音素の系列との間で
起こりうる3つの整合を表し且つスタートヌルノードφ
sで始まり、複数の束ポイントを通ってエンドヌルノー
ドφeで終わる3つのダイナミックプログラミング経路m
1、m2及びm3を示す。先の式(2)及び(3)に戻る
と、これらのダイナミックプログラミング経路は、前述
の異なる状態系列sq及びssを表している。
ミングは、この実施形態では音素である特徴系列の最適
の整列を見出すために使用できる技法である。ダイナミ
ックプログラミングによれば、それぞれが注釈音素の系
列と、問い合わせ音素の系列との間で起こりうる整合を
表す複数のダイナミックプログラミング経路を同時に伝
搬することにより最適の整列を見出す。全ての経路は、
注釈と問い合わせの始まりであるスタートヌルノードか
ら始まり、注釈と問い合わせの終わりであるエンドヌル
ノードに到達するまで伝搬する。図7及び図8は、実行
される整合と、この経路伝搬を概略的に示す。すなわ
ち、図7は、水平軸が注釈を表し、垂直軸が問い合わせ
を表す方形座標図である。スタートヌルノードφsは左
上角に規定され、エンドヌルノードφeは右下角に規定
されている。図8に示すように、注釈の音素は水平軸に
沿って規定され、問い合わせの音素は垂直軸に沿って規
定されている。また、図8はいくつかの束ポイントも示
しており、各束ポイントは1つの注釈音素と1つの問い
合わせ音素との間で起こりうる整列を表している。例え
ば、束ポイント21は注釈音素a3と、問い合わせ音素q1
との間で起こりうる整列を示す。更に、図8は、注釈を
表す音素の系列と問い合わせを表す音素の系列との間で
起こりうる3つの整合を表し且つスタートヌルノードφ
sで始まり、複数の束ポイントを通ってエンドヌルノー
ドφeで終わる3つのダイナミックプログラミング経路m
1、m2及びm3を示す。先の式(2)及び(3)に戻る
と、これらのダイナミックプログラミング経路は、前述
の異なる状態系列sq及びssを表している。
【0052】図7に示す水平軸及び垂直軸の長さが異な
ることからわかるように、入力問い合わせは注釈の全て
の言葉を含んでいるとは限らない。例えば、注釈が「pi
cture of the Taj Mahal」である場合、ユーザは問い合
わせ「Taj Mahal」を入力するだけで、この絵を見つけ
るためのデータベース29を探索することも可能であ
る。この状況においては、最適の整列経路は、問い合わ
せが注釈と整合し始めるまで、上の水平軸に沿って進む
ことになるであろう。その後、束ポイントを通過し始め
て、下の水平軸に到達し、エンドノードで終わると考え
られる。このことは、図7に経路23により示されてい
る。しかし、当業者には理解されるであろうが、問い合
わせの言葉は注釈で現れるのと同じ順序で現れていなけ
ればならず、そうでないと、ダイナミックプログラミン
グ整列は機能しない。
ることからわかるように、入力問い合わせは注釈の全て
の言葉を含んでいるとは限らない。例えば、注釈が「pi
cture of the Taj Mahal」である場合、ユーザは問い合
わせ「Taj Mahal」を入力するだけで、この絵を見つけ
るためのデータベース29を探索することも可能であ
る。この状況においては、最適の整列経路は、問い合わ
せが注釈と整合し始めるまで、上の水平軸に沿って進む
ことになるであろう。その後、束ポイントを通過し始め
て、下の水平軸に到達し、エンドノードで終わると考え
られる。このことは、図7に経路23により示されてい
る。しかし、当業者には理解されるであろうが、問い合
わせの言葉は注釈で現れるのと同じ順序で現れていなけ
ればならず、そうでないと、ダイナミックプログラミン
グ整列は機能しない。
【0053】注釈音素の系列と、問い合わせ音素の系列
との類似度を判定するために、ダイナミックプログラミ
ングプロセスは、伝搬するダイナミックプログラミング
経路ごとに1つのスコアを保持する。このスコアは、そ
の経路に沿って整列した音素の相対的類似度によって決
まる。整合させるべき系列における音素の削除と挿入の
数を制限するために、ダイナミックプログラミングプロ
セスは、ダイナミックプログラミング経路が伝搬できる
道にいくつかの制約を設けている。当業者には理解され
るであろうが、それらのダイナミックプログラミング制
約は先に挙げた4つの状況のそれぞれで異なる。
との類似度を判定するために、ダイナミックプログラミ
ングプロセスは、伝搬するダイナミックプログラミング
経路ごとに1つのスコアを保持する。このスコアは、そ
の経路に沿って整列した音素の相対的類似度によって決
まる。整合させるべき系列における音素の削除と挿入の
数を制限するために、ダイナミックプログラミングプロ
セスは、ダイナミックプログラミング経路が伝搬できる
道にいくつかの制約を設けている。当業者には理解され
るであろうが、それらのダイナミックプログラミング制
約は先に挙げた4つの状況のそれぞれで異なる。
【0054】DP制約 注釈と問い合わせが共にテキストである場合 問い合わせ音素データと注釈音素データが共にテキスト
から生成されている場合、ダイナミックプログラミング
整列は2つの音素系列のブール整合に退行し、音素の削
除又は挿入は許容されない。
から生成されている場合、ダイナミックプログラミング
整列は2つの音素系列のブール整合に退行し、音素の削
除又は挿入は許容されない。
【0055】注釈がテキストであり、問い合わせは音声
である場合 注釈音素データがテキストから生成され、問い合わせ音
素データは音声から生成されている場合、注釈の側では
音素の削除や挿入は起こり得ないが、問い合わせにおい
ては注釈に対する音素の削除及び挿入がありうる。図9
aは、注釈がテキストから生成され、問い合わせは音声
から生成されている場合に、この実施形態で使用される
ダイナミックプログラミング制約を示す。図示するよう
に、ダイナミックプログラミング経路が注釈音素aiと問
い合わせ音素qjとの整列を表す束ポイント(i,j)で
終わっている場合、そのダイナミックプログラミング経
路は束ポイント(i+1,j)、(i+1,j+1)及び
(i+1,j+2)へ伝搬することができる。ポイント
(i+1,j)への伝搬は、文字入力による注釈と比較
して、話し言葉による問い合わせから1つの音素が削除
されている場合を表す。ポイント(i+1,j+1)へ
の伝搬は、注釈の次の音素と問い合わせの次の音素との
間の単純な復号がある状況を表す。また、ポイント(i
+1、j+2)への伝搬は、文字注釈と比較して、話し
言葉による問い合わせに音素qj+1が挿入されており、注
釈音素ai+1と問い合わせ音素qj+2との間に復号がある状
況を表す。
である場合 注釈音素データがテキストから生成され、問い合わせ音
素データは音声から生成されている場合、注釈の側では
音素の削除や挿入は起こり得ないが、問い合わせにおい
ては注釈に対する音素の削除及び挿入がありうる。図9
aは、注釈がテキストから生成され、問い合わせは音声
から生成されている場合に、この実施形態で使用される
ダイナミックプログラミング制約を示す。図示するよう
に、ダイナミックプログラミング経路が注釈音素aiと問
い合わせ音素qjとの整列を表す束ポイント(i,j)で
終わっている場合、そのダイナミックプログラミング経
路は束ポイント(i+1,j)、(i+1,j+1)及び
(i+1,j+2)へ伝搬することができる。ポイント
(i+1,j)への伝搬は、文字入力による注釈と比較
して、話し言葉による問い合わせから1つの音素が削除
されている場合を表す。ポイント(i+1,j+1)へ
の伝搬は、注釈の次の音素と問い合わせの次の音素との
間の単純な復号がある状況を表す。また、ポイント(i
+1、j+2)への伝搬は、文字注釈と比較して、話し
言葉による問い合わせに音素qj+1が挿入されており、注
釈音素ai+1と問い合わせ音素qj+2との間に復号がある状
況を表す。
【0056】注釈が音声であり、問い合わせはテキスト
である場合 注釈が音声から生成され、問い合わせはテキストから生
成されている場合には、問い合わせに関しては音素の挿
入又は削除はありえないが、問い合わせに対して注釈か
らの挿入や削除は起こりうる。図9bは、注釈が音声か
ら生成され、問い合わせはテキストから生成されている
場合にこの実施形態で使用されるダイナミックプログラ
ミング制約を示す。図示されているように、ダイナミッ
クプログラミング経路が注釈音素aiと、問い合わせ音素
qjとの整列を表す束ポイント(i,j)で終わる場合、
そのダイナミックプログラミング経路は束ポイント
(i,j+1)、(i+1,j+1)及び(i+2,j+
1)まで伝搬することができる。ポイント(i,j+
1)への伝搬は、文字入力による問い合わせと比較して
話し言葉の注釈から1つの音素が削除されている場合を
表し、ポイント(i+1,j+1)への伝搬は、注釈の
次の音素と問い合わせの次の音素との間に単純な復号が
存在している状況を表し、ポイント(i+2,j+1)
への伝搬は、文字入力による問い合わせと比較して話し
言葉の注釈に音素ai+1が挿入されており、注釈音素ai+2
と問い合わせ音素qj+1との間に復号が存在している状況
を表す。
である場合 注釈が音声から生成され、問い合わせはテキストから生
成されている場合には、問い合わせに関しては音素の挿
入又は削除はありえないが、問い合わせに対して注釈か
らの挿入や削除は起こりうる。図9bは、注釈が音声か
ら生成され、問い合わせはテキストから生成されている
場合にこの実施形態で使用されるダイナミックプログラ
ミング制約を示す。図示されているように、ダイナミッ
クプログラミング経路が注釈音素aiと、問い合わせ音素
qjとの整列を表す束ポイント(i,j)で終わる場合、
そのダイナミックプログラミング経路は束ポイント
(i,j+1)、(i+1,j+1)及び(i+2,j+
1)まで伝搬することができる。ポイント(i,j+
1)への伝搬は、文字入力による問い合わせと比較して
話し言葉の注釈から1つの音素が削除されている場合を
表し、ポイント(i+1,j+1)への伝搬は、注釈の
次の音素と問い合わせの次の音素との間に単純な復号が
存在している状況を表し、ポイント(i+2,j+1)
への伝搬は、文字入力による問い合わせと比較して話し
言葉の注釈に音素ai+1が挿入されており、注釈音素ai+2
と問い合わせ音素qj+1との間に復号が存在している状況
を表す。
【0057】注釈が音声であり且つ問い合わせも音声で
ある場合 注釈と問い合わせの双方が音声から生成されている場合
には、注釈と問い合わせのそれぞれが互いに対して音素
の挿入や削除を含んでいる可能性がある。図11は、注
釈音素と問い合わせ音素の双方が音声から生成されてい
る場合にこの実施形態で使用されるダイナミックプログ
ラミング制約を示す。すなわち、ダイナミックプログラ
ミング経路が注釈音素aiと問い合わせ音素qjとの整列を
表す束ポイント(i,j)で終わっている場合、そのダ
イナミックプログラミング経路は束ポイント(i+1,
j)、(i+2,j)、(i+3,j)、(i,j+1)、
(i+1,j+1)、(i+2,j+1)、(i,j+
2)、(i+1,j+2)及び(i,j+3)まで伝搬す
ることができる。従って、これらの伝搬は、実際に話さ
れたテキストに対応する未知のモデル音素の標準系列に
対して、注釈と問い合わせの双方における音素の挿入及
び削除を許容するものである。
ある場合 注釈と問い合わせの双方が音声から生成されている場合
には、注釈と問い合わせのそれぞれが互いに対して音素
の挿入や削除を含んでいる可能性がある。図11は、注
釈音素と問い合わせ音素の双方が音声から生成されてい
る場合にこの実施形態で使用されるダイナミックプログ
ラミング制約を示す。すなわち、ダイナミックプログラ
ミング経路が注釈音素aiと問い合わせ音素qjとの整列を
表す束ポイント(i,j)で終わっている場合、そのダ
イナミックプログラミング経路は束ポイント(i+1,
j)、(i+2,j)、(i+3,j)、(i,j+1)、
(i+1,j+1)、(i+2,j+1)、(i,j+
2)、(i+1,j+2)及び(i,j+3)まで伝搬す
ることができる。従って、これらの伝搬は、実際に話さ
れたテキストに対応する未知のモデル音素の標準系列に
対して、注釈と問い合わせの双方における音素の挿入及
び削除を許容するものである。
【0058】開始と終了のDP制約 この実施形態では、ダイナミックプログラミング整列動
作により、ダイナミックプログラミング経路はどの注釈
音素からでもスタートでき、どの注釈音素でも終了でき
る。その結果、問い合わせは注釈の全ての語を含んでい
る必要はないが、問い合わせの語は注釈の中で現れるの
と同じ順序で存在していなければならないということに
なる。
作により、ダイナミックプログラミング経路はどの注釈
音素からでもスタートでき、どの注釈音素でも終了でき
る。その結果、問い合わせは注釈の全ての語を含んでい
る必要はないが、問い合わせの語は注釈の中で現れるの
と同じ順序で存在していなければならないということに
なる。
【0059】DPスコア伝搬 前述のように、ダイナミックプログラミングプロセスは
それぞれのダイナミックプログラミング経路に対してス
コアを保持する。このスコアは、該当する経路に沿って
整列された音素の類似度によって決まる。従って、ポイ
ント(i,j)で終わる経路をそれらの他のポイントへ
伝搬させる場合、ダイナミックプログラミングプロセス
はポイント(i,j)で終わる経路の累積スコアにその
ようにすることの対応する「コスト」を追加し、追加後
のスコアはそのポイントと関連するスコア(SCORE
(i,j))に格納される。当業者には理解されるであ
ろうが、このコストは前述の挿入確率、削除確率及び復
号確率を含む。すなわち、挿入があった場合、累積スコ
アを所定の音素を挿入する確率と乗算し、削除があった
場合には、累積スコアを音素を削除させる確率と乗算
し、復号があった場合には、累積スコアを2つの音素を
復号する確率と乗算することになる。
それぞれのダイナミックプログラミング経路に対してス
コアを保持する。このスコアは、該当する経路に沿って
整列された音素の類似度によって決まる。従って、ポイ
ント(i,j)で終わる経路をそれらの他のポイントへ
伝搬させる場合、ダイナミックプログラミングプロセス
はポイント(i,j)で終わる経路の累積スコアにその
ようにすることの対応する「コスト」を追加し、追加後
のスコアはそのポイントと関連するスコア(SCORE
(i,j))に格納される。当業者には理解されるであ
ろうが、このコストは前述の挿入確率、削除確率及び復
号確率を含む。すなわち、挿入があった場合、累積スコ
アを所定の音素を挿入する確率と乗算し、削除があった
場合には、累積スコアを音素を削除させる確率と乗算
し、復号があった場合には、累積スコアを2つの音素を
復号する確率と乗算することになる。
【0060】これらの確率を計算できるようにするため
に、システムは可能な全ての音素の組み合わせについて
確率を格納している。この実施形態では、注釈又は問い
合わせにおける音素の削除を復号と同じように扱う。こ
れは削除を別の音素として単純に処理することで達成さ
れる。従って、システムにわかっている音素が43個で
ある場合には、システムは、考えうる音素の復号と削除
ごとに1つずつ、合わせて1892(=43×44)の
復号/削除確率を格納することになる。これを図10に
示す。図10は、音素/ax/について格納されている可
能な音素復号を示し、削除音素(φ)を可能性の1つと
して含む。当業者には理解されるであろうが、ある1つ
の音素に関する全ての復号確率を加算すると1になる。
これは、他に可能性がないからである。それらの復号/
削除確率に加えて、システムは、考えうる音素の挿入に
対して1つずつ、合わせて43の挿入確率を格納する。
後に説明するが、それらの確率はあらかじめ訓練データ
から判定される。
に、システムは可能な全ての音素の組み合わせについて
確率を格納している。この実施形態では、注釈又は問い
合わせにおける音素の削除を復号と同じように扱う。こ
れは削除を別の音素として単純に処理することで達成さ
れる。従って、システムにわかっている音素が43個で
ある場合には、システムは、考えうる音素の復号と削除
ごとに1つずつ、合わせて1892(=43×44)の
復号/削除確率を格納することになる。これを図10に
示す。図10は、音素/ax/について格納されている可
能な音素復号を示し、削除音素(φ)を可能性の1つと
して含む。当業者には理解されるであろうが、ある1つ
の音素に関する全ての復号確率を加算すると1になる。
これは、他に可能性がないからである。それらの復号/
削除確率に加えて、システムは、考えうる音素の挿入に
対して1つずつ、合わせて43の挿入確率を格納する。
後に説明するが、それらの確率はあらかじめ訓練データ
から判定される。
【0061】スコア伝搬を例示するために、いくつかの
例について考えてみる。注釈がテキストであり、問い合
わせは音声である場合、ポイント(i,j)からポイン
ト(i+1,j+2)に至る経路に関しては、音素qj+1
が注釈に対して挿入され、問い合わせ音素qj+2は注釈音
素ai+1と復号される。従って、ポイント(i+1,j+
2)まで伝搬されるスコアは次の式により表される。
例について考えてみる。注釈がテキストであり、問い合
わせは音声である場合、ポイント(i,j)からポイン
ト(i+1,j+2)に至る経路に関しては、音素qj+1
が注釈に対して挿入され、問い合わせ音素qj+2は注釈音
素ai+1と復号される。従って、ポイント(i+1,j+
2)まで伝搬されるスコアは次の式により表される。
【0062】
【数11】
【0063】式中、PI(qj+1|C)は話し言葉の問い合
わせに音素qj+1を挿入する確率であり、P(qj+2|
ai+1,C)は注釈音素ai+1を問い合わせ音素qj+2として
復号する確率を表す。
わせに音素qj+1を挿入する確率であり、P(qj+2|
ai+1,C)は注釈音素ai+1を問い合わせ音素qj+2として
復号する確率を表す。
【0064】注釈と問い合わせの双方が音声から生成さ
れており、ポイント(i,j)からポイント(i+2,j
+1)まで伝搬する場合には、注釈音素ai+1が問い合わ
せに対して挿入され、注釈音素ai+2と問い合わせ音素q
j+1との間に復号が存在する。従って、ポイント(i+
2,j+1)まで伝搬されるスコアは次の式により表さ
れる。
れており、ポイント(i,j)からポイント(i+2,j
+1)まで伝搬する場合には、注釈音素ai+1が問い合わ
せに対して挿入され、注釈音素ai+2と問い合わせ音素q
j+1との間に復号が存在する。従って、ポイント(i+
2,j+1)まで伝搬されるスコアは次の式により表さ
れる。
【0065】
【数12】
【0066】当業者には理解されるであろうが、この経
路伝搬の間、いくつかの経路は同じ束ポイントで出会
う。この実施形態では、互いに出会う経路と関連するス
コアを単に加算する。あるいは、それらのスコアを比較
し、最良のスコアを有する経路をたどり続ける一方、そ
の他の経路を放棄することも考えられる。しかし、ダイ
ナミックプログラミングプロセスは問い合わせの音素デ
ータと注釈の音素データとの類似度を表すスコアを求め
ることにのみ重点を置いているので、どの方法を取るか
はこの実施形態において本質的な問題ではない。それら
2つのデータの最良の整列がなんであるかを知ることに
は関心が持たれていない。
路伝搬の間、いくつかの経路は同じ束ポイントで出会
う。この実施形態では、互いに出会う経路と関連するス
コアを単に加算する。あるいは、それらのスコアを比較
し、最良のスコアを有する経路をたどり続ける一方、そ
の他の経路を放棄することも考えられる。しかし、ダイ
ナミックプログラミングプロセスは問い合わせの音素デ
ータと注釈の音素データとの類似度を表すスコアを求め
ることにのみ重点を置いているので、どの方法を取るか
はこの実施形態において本質的な問題ではない。それら
2つのデータの最良の整列がなんであるかを知ることに
は関心が持たれていない。
【0067】問い合わせと注釈の双方が音声から生成さ
れている場合、全ての経路をエンドノードφeまで伝搬
させ、問い合わせと現在注釈との類似度に関わる総スコ
アを判定した後、システムは、DPプロセスの間に累積し
ていた正規化項を使用してこのスコアを正規化する。次
に、システムは問い合わせを次の注釈と同様にして比較
する。問い合わせが全ての注釈と整合したならば、注釈
の正規化スコアをランク付けし、そのランキングに基づ
いて、システムは入力問い合わせに最も類似している注
釈をユーザに対し出力する。
れている場合、全ての経路をエンドノードφeまで伝搬
させ、問い合わせと現在注釈との類似度に関わる総スコ
アを判定した後、システムは、DPプロセスの間に累積し
ていた正規化項を使用してこのスコアを正規化する。次
に、システムは問い合わせを次の注釈と同様にして比較
する。問い合わせが全ての注釈と整合したならば、注釈
の正規化スコアをランク付けし、そのランキングに基づ
いて、システムは入力問い合わせに最も類似している注
釈をユーザに対し出力する。
【0068】DP探索の詳細な説明 次に、問い合わせ音素の系列を注釈音素の系列と整合さ
せるときにダイナミックプログラミング探索がどのよう
に実行されるかを更に詳細に説明する。図12を参照し
て説明すると、ステップS101では、システムはダイ
ナミックプログラミングスコアを初期設定する。次に、
ステップS103で、システムはヌルスタートノード
(φs)から全ての可能なスタートポイントへ経路を伝
搬させる。次に、ステップS105で、システムは前述
のダイナミックプログラミング制約を使用して、全ての
スタートポイントから全ての可能なエンドポイントへダ
イナミックプログラミング経路を伝搬させる。最後に、
ステップS107で、システムはエンドポイントで終了
した経路をヌルエンドノード(φe)へ伝搬させる。
せるときにダイナミックプログラミング探索がどのよう
に実行されるかを更に詳細に説明する。図12を参照し
て説明すると、ステップS101では、システムはダイ
ナミックプログラミングスコアを初期設定する。次に、
ステップS103で、システムはヌルスタートノード
(φs)から全ての可能なスタートポイントへ経路を伝
搬させる。次に、ステップS105で、システムは前述
のダイナミックプログラミング制約を使用して、全ての
スタートポイントから全ての可能なエンドポイントへダ
イナミックプログラミング経路を伝搬させる。最後に、
ステップS107で、システムはエンドポイントで終了
した経路をヌルエンドノード(φe)へ伝搬させる。
【0069】図13は、ダイナミックプログラミング経
路をヌルスタートノード(φs)から、ダイナミックプ
ログラミング制約により定義される全ての可能なスター
トポイントへ伝搬させるときにステップS103で実行
される処理ステップを更に詳細に示す。制約の一方は、
ダイナミックプログラミング経路はどの注釈音素からで
もスタートできるというものであり、もう1つの制約
は、問い合わせ音素の系列の中で許容されるホップの回
数を定義し、問い合わせがテキストであるか、又は音声
であるかによって異なる。すなわち、問い合わせがテキ
ストから生成されていれば、スタートポイントは探索ス
ペース内の束ポイントの第1列、すなわち、i=0から
Nann−1までのポイント(i,0)であり、問い合わせ
が音声から生成されている場合には、スタートポイント
は探索スペース内の束ポイントの初めの4列、すなわ
ち、i=0からNann−1のポイント(i,0)、(i,
1)、(i,2)及び(i,3)である。
路をヌルスタートノード(φs)から、ダイナミックプ
ログラミング制約により定義される全ての可能なスター
トポイントへ伝搬させるときにステップS103で実行
される処理ステップを更に詳細に示す。制約の一方は、
ダイナミックプログラミング経路はどの注釈音素からで
もスタートできるというものであり、もう1つの制約
は、問い合わせ音素の系列の中で許容されるホップの回
数を定義し、問い合わせがテキストであるか、又は音声
であるかによって異なる。すなわち、問い合わせがテキ
ストから生成されていれば、スタートポイントは探索ス
ペース内の束ポイントの第1列、すなわち、i=0から
Nann−1までのポイント(i,0)であり、問い合わせ
が音声から生成されている場合には、スタートポイント
は探索スペース内の束ポイントの初めの4列、すなわ
ち、i=0からNann−1のポイント(i,0)、(i,
1)、(i,2)及び(i,3)である。
【0070】次に、図13に示すステップを参照して、
これがどのようにして実現されるかを説明する。図示さ
れているように、ステップS111では、システムは入
力問い合わせがテキスト問い合わせであるか否かを判定
する。テキスト問い合わせであれば、処理はステップS
113へ進み、システムは、問い合わせがテキストであ
る場合に問い合わせ音素の系列の中で許容される「ホッ
プ」の最大数を定義する変数mxの値を1に設定する。次
に、処理はステップS115、S117及びS119へ進
む。これらのステップは、ヌルスタートノードから束ポ
イント(i,0)に至るまでの遷移スコアをi=0から
Nann−1のポイント(i、0)と関連するスコア(SCOR
E(i,0))に加算することにより、探索スペースの
第1列の束ポイントのそれぞれでダイナミックプログラ
ミング経路をスタートさせるように機能する。問い合わ
せがテキストである場合、これで図12に示すステップ
S103における処理は終了し、その後、処理はステッ
プS105へ進む。
これがどのようにして実現されるかを説明する。図示さ
れているように、ステップS111では、システムは入
力問い合わせがテキスト問い合わせであるか否かを判定
する。テキスト問い合わせであれば、処理はステップS
113へ進み、システムは、問い合わせがテキストであ
る場合に問い合わせ音素の系列の中で許容される「ホッ
プ」の最大数を定義する変数mxの値を1に設定する。次
に、処理はステップS115、S117及びS119へ進
む。これらのステップは、ヌルスタートノードから束ポ
イント(i,0)に至るまでの遷移スコアをi=0から
Nann−1のポイント(i、0)と関連するスコア(SCOR
E(i,0))に加算することにより、探索スペースの
第1列の束ポイントのそれぞれでダイナミックプログラ
ミング経路をスタートさせるように機能する。問い合わ
せがテキストである場合、これで図12に示すステップ
S103における処理は終了し、その後、処理はステッ
プS105へ進む。
【0071】ステップS111で、問い合わせがテキス
トではなく、従って、話し言葉入力から生成されたと判
定した場合には、システムはステップS121へ進み、
mxをダイナミックプログラミング制約により許容される
「ホップ(hops)」の最大数より1大きい値を有する定数
であるmxhopsに設定する。図9及び図10に示すよう
に、問い合わせが音声である場合には、経路は問い合わ
せ音素の系列に沿って最大で3つの音素をおいて離れて
いる問い合わせ音素まで飛び越す可能性がある。従っ
て、この実施形態では、問い合わせ中の音素の数が4以
上であれば、mxhopsは4の値を有し、変数mxは4と等し
くなるように設定される。4未満である場合には、mxは
問い合わせ中の音素の数と等しい値に設定される。次
に、処理はステップS123、S125、S127、S
129及びS131へ進む。これらのステップは、対応
する遷移確率を対応する束ポイントと関連するスコアに
加算することにより、探索スペースの初めの4列の束ポ
イントのそれぞれでダイナミックプログラミング経路を
スタートさせるように機能する。問い合わせが話し言葉
入力から生成されている場合には、これで図12に示す
ステップS103の処理は終了し、処理はステップS1
05へ進む。
トではなく、従って、話し言葉入力から生成されたと判
定した場合には、システムはステップS121へ進み、
mxをダイナミックプログラミング制約により許容される
「ホップ(hops)」の最大数より1大きい値を有する定数
であるmxhopsに設定する。図9及び図10に示すよう
に、問い合わせが音声である場合には、経路は問い合わ
せ音素の系列に沿って最大で3つの音素をおいて離れて
いる問い合わせ音素まで飛び越す可能性がある。従っ
て、この実施形態では、問い合わせ中の音素の数が4以
上であれば、mxhopsは4の値を有し、変数mxは4と等し
くなるように設定される。4未満である場合には、mxは
問い合わせ中の音素の数と等しい値に設定される。次
に、処理はステップS123、S125、S127、S
129及びS131へ進む。これらのステップは、対応
する遷移確率を対応する束ポイントと関連するスコアに
加算することにより、探索スペースの初めの4列の束ポ
イントのそれぞれでダイナミックプログラミング経路を
スタートさせるように機能する。問い合わせが話し言葉
入力から生成されている場合には、これで図12に示す
ステップS103の処理は終了し、処理はステップS1
05へ進む。
【0072】この実施形態では、システムはステップS
105で、探索スペースの束ポイントをラスタ状技法に
より行ごとに処理することにより、スタートポイントか
らエンドポイントまでのダイナミックプログラミング経
路を伝搬させる。このラスタ処理動作を制御するために
使用される制御アルゴリズムを図14に示す。ステップ
S151では、システムは注釈音素ループポインタiを
注釈中の音素の数(Nann)と比較する。当初、注釈音素
ループポインタiは0に設定されており、従って、処理
は初めにステップS153へ進み、問い合わせ音素ルー
プポインタjについて問い合わせ中の音素の総数(Nquer
y)に対して同様の比較を実行する。当初、ループポイ
ンタjも0に設定されており、従って、処理はステップ
S155へ進み、システムは前述のダイナミックプログ
ラミング制約を使用して、ポイント(i,j)で終わる
経路を伝搬させる。ステップS155でシステムが経路
を伝搬させる方法については、後に更に詳細に説明す
る。ステップS155の後、ステップS157で、ルー
プポインタjを1増分し、処理はステップS153に戻
る。問い合わせの全ての音素についてこの処理が完了し
たならば(これにより、束ポイントの現在行が処理され
る)、処理はステップS159へ進み、問い合わせ音素
ループポインタjを0にリセットし、且つ注釈音素ルー
プポインタiを1増分する。次に、処理はステップS1
51に戻り、束ポイントの次の行に対して同様の手続き
を実行する。束ポイントの最終行を処理し終わったなら
ば、処理はステップS161へ進み、注釈音素ループポ
インタiを0にリセットし、図12に示すステップS1
05の処理は終了する。
105で、探索スペースの束ポイントをラスタ状技法に
より行ごとに処理することにより、スタートポイントか
らエンドポイントまでのダイナミックプログラミング経
路を伝搬させる。このラスタ処理動作を制御するために
使用される制御アルゴリズムを図14に示す。ステップ
S151では、システムは注釈音素ループポインタiを
注釈中の音素の数(Nann)と比較する。当初、注釈音素
ループポインタiは0に設定されており、従って、処理
は初めにステップS153へ進み、問い合わせ音素ルー
プポインタjについて問い合わせ中の音素の総数(Nquer
y)に対して同様の比較を実行する。当初、ループポイ
ンタjも0に設定されており、従って、処理はステップ
S155へ進み、システムは前述のダイナミックプログ
ラミング制約を使用して、ポイント(i,j)で終わる
経路を伝搬させる。ステップS155でシステムが経路
を伝搬させる方法については、後に更に詳細に説明す
る。ステップS155の後、ステップS157で、ルー
プポインタjを1増分し、処理はステップS153に戻
る。問い合わせの全ての音素についてこの処理が完了し
たならば(これにより、束ポイントの現在行が処理され
る)、処理はステップS159へ進み、問い合わせ音素
ループポインタjを0にリセットし、且つ注釈音素ルー
プポインタiを1増分する。次に、処理はステップS1
51に戻り、束ポイントの次の行に対して同様の手続き
を実行する。束ポイントの最終行を処理し終わったなら
ば、処理はステップS161へ進み、注釈音素ループポ
インタiを0にリセットし、図12に示すステップS1
05の処理は終了する。
【0073】図15は、エンドポイントからエンドヌル
ノードφeへ経路を伝搬させるときに、図12に示すス
テップS107で実行される処理ステップを更に詳細に
示す。スタートヌルノードφsからの伝搬と同様に、
「エンドポイント」である束ポイントは、問い合わせが
テキストであるか、又は音声であるかによって決まるダ
イナミックプログラミング制約により定義される。更
に、この実施形態では、ダイナミックプログラミング制
約により、ダイナミックプログラミング経路は注釈音素
の系列に沿ったどのポイントからでも注釈から出ること
ができる。従って、問い合わせがテキストであれば、シ
ステムは束ポイントの最終列、すなわち、i=0からNa
nn−1のポイント(i,Nquery−1)で終わるダイナミ
ックプログラミング経路をエンドヌルノードφeまで伝
搬させることができる。しかし、問い合わせが音声から
生成されていた場合には、システムは束ポイントの終わ
りの4列、すなわち、i=0からNann−1のポイント
(i,Nquery−4)、(i,Nquery−3)、(i,Nque
ry−2)及び(i,Nquery−1)を伝搬するどの経路も
エンドヌルノードφeまで伝搬させることができる。
ノードφeへ経路を伝搬させるときに、図12に示すス
テップS107で実行される処理ステップを更に詳細に
示す。スタートヌルノードφsからの伝搬と同様に、
「エンドポイント」である束ポイントは、問い合わせが
テキストであるか、又は音声であるかによって決まるダ
イナミックプログラミング制約により定義される。更
に、この実施形態では、ダイナミックプログラミング制
約により、ダイナミックプログラミング経路は注釈音素
の系列に沿ったどのポイントからでも注釈から出ること
ができる。従って、問い合わせがテキストであれば、シ
ステムは束ポイントの最終列、すなわち、i=0からNa
nn−1のポイント(i,Nquery−1)で終わるダイナミ
ックプログラミング経路をエンドヌルノードφeまで伝
搬させることができる。しかし、問い合わせが音声から
生成されていた場合には、システムは束ポイントの終わ
りの4列、すなわち、i=0からNann−1のポイント
(i,Nquery−4)、(i,Nquery−3)、(i,Nque
ry−2)及び(i,Nquery−1)を伝搬するどの経路も
エンドヌルノードφeまで伝搬させることができる。
【0074】図15に示すように、プロセスはステップ
S171で始まり、システムは問い合わせがテキストで
あるか否かを判定する。テキストであれば、処理はステ
ップS173へ進み、問い合わせ音素ループポインタj
をNquery−1に設定する。次に、処理はステップS17
5へ進み、注釈音素ループポインタiを注釈中の音素の
数(Nann)と比較する。当初、注釈音素ループポインタ
iは0に設定されており、従って、処理はステップS1
77へ進み、システムはポイント(i,Nquery−1)か
らヌルエンドノードφeに至るまでの遷移スコアを計算
する。次に、この遷移スコアをポイント(i,Nquery−
1)で終わる経路の累積スコアと組み合わせ、それをSC
ORE(i,Nquery−1)に格納する。前述のように、こ
の実施形態では、遷移スコアと累積スコアは確率に基づ
くスコアであり、それらの確率を乗算することにより互
いに組み合わされる。しかし、この実施形態では、乗算
を実行する必要をなくし且つ高い浮動小数点精度の利用
を回避するために、システムは遷移スコア及び累積スコ
アとして対数確率を採用する。従って、ステップS17
9では、システムはポイント(i,Nquery−1)で終わ
る経路の累積スコアをステップS177で計算された遷
移スコアに加算し、その結果を一時スコアTEMPENDSCORE
にコピーする。
S171で始まり、システムは問い合わせがテキストで
あるか否かを判定する。テキストであれば、処理はステ
ップS173へ進み、問い合わせ音素ループポインタj
をNquery−1に設定する。次に、処理はステップS17
5へ進み、注釈音素ループポインタiを注釈中の音素の
数(Nann)と比較する。当初、注釈音素ループポインタ
iは0に設定されており、従って、処理はステップS1
77へ進み、システムはポイント(i,Nquery−1)か
らヌルエンドノードφeに至るまでの遷移スコアを計算
する。次に、この遷移スコアをポイント(i,Nquery−
1)で終わる経路の累積スコアと組み合わせ、それをSC
ORE(i,Nquery−1)に格納する。前述のように、こ
の実施形態では、遷移スコアと累積スコアは確率に基づ
くスコアであり、それらの確率を乗算することにより互
いに組み合わされる。しかし、この実施形態では、乗算
を実行する必要をなくし且つ高い浮動小数点精度の利用
を回避するために、システムは遷移スコア及び累積スコ
アとして対数確率を採用する。従って、ステップS17
9では、システムはポイント(i,Nquery−1)で終わ
る経路の累積スコアをステップS177で計算された遷
移スコアに加算し、その結果を一時スコアTEMPENDSCORE
にコピーする。
【0075】前述のように、2つ以上のダイナミックプ
ログラミング経路が同じポイントで出会う場合、それぞ
れの経路の累積スコアを全て加算する。従って、対数確
率を使用しているため、互いに出会う経路と関連するス
コアは効率良く変換されて確率に戻され、加算され、そ
の後、対数確率に再変換されることになる。この実施形
態では、この演算を「対数加算」演算と呼ぶ。これは周
知の技法であり、例えば、Lee,Kai−Fu著による文献
「Automatic Speech Recognition.The Development of
the(Sphinx) System」(Kluwer Academic Publisher
s刊、1989年、28ページ及び29ページ)でも説
明されている。
ログラミング経路が同じポイントで出会う場合、それぞ
れの経路の累積スコアを全て加算する。従って、対数確
率を使用しているため、互いに出会う経路と関連するス
コアは効率良く変換されて確率に戻され、加算され、そ
の後、対数確率に再変換されることになる。この実施形
態では、この演算を「対数加算」演算と呼ぶ。これは周
知の技法であり、例えば、Lee,Kai−Fu著による文献
「Automatic Speech Recognition.The Development of
the(Sphinx) System」(Kluwer Academic Publisher
s刊、1989年、28ページ及び29ページ)でも説
明されている。
【0076】ポイント(i,Nquery−1)からヌルエン
ドノードまで伝搬する経路は他のダイナミックプログラ
ミング経路と合流するので、システムはTEMPENDSCOREと
エンドノードに格納されているスコア(ENDSCOPE)との
対数加算を実行し、その結果をENDSCOREに格納する。次
に、処理はステップS183へ進み、注釈音素ループポ
インタiを1増分する。その後、処理はステップS17
5に戻り、束ポイントの最終行の次の束ポイントについ
て同様の処理を実行する。最終行の全ての束ポイントを
このようにして処理したならば、図12のステップS1
07で実行される処理は終了する。
ドノードまで伝搬する経路は他のダイナミックプログラ
ミング経路と合流するので、システムはTEMPENDSCOREと
エンドノードに格納されているスコア(ENDSCOPE)との
対数加算を実行し、その結果をENDSCOREに格納する。次
に、処理はステップS183へ進み、注釈音素ループポ
インタiを1増分する。その後、処理はステップS17
5に戻り、束ポイントの最終行の次の束ポイントについ
て同様の処理を実行する。最終行の全ての束ポイントを
このようにして処理したならば、図12のステップS1
07で実行される処理は終了する。
【0077】ステップS171で、システムが問い合わ
せはテキストではないと判定した場合には、処理はステ
ップS185へ進み、問い合わせ音素ループポインタj
を問い合わせの音素の数からmxhopsを引いた値、すなわ
ち、Nquery−4に設定する。次に、処理はステップS1
87へ進み、システムは、注釈音素ループポインタiが
注釈の音素の数(Nann)より小さいか否かを知るために
検査を実行する。当初、注釈音素ループポインタiは0
に設定されており、従って、処理はステップS189へ
進み、システムは、問い合わせ音素ループポインタjが
問い合わせの音素の数(Nquery)より小さいか否かを判
定する。当初、問い合わせループポインタjはNqueryよ
り小さいので、処理はステップS191へ進み、システ
ムは束ポイント(i,j)からヌルエンドノードφeまで
の遷移スコアを計算する。次に、ステップS193で、
この遷移スコアをポイント(i,j)で終わる経路の累
積スコアに加算し、その結果を一時スコアTEMPENDSCORE
にコピーする。次に、処理はステップS195へ進み、
システムはTEMPENDSCOREとENDSCOREとの対数加算を実行
し、その結果をENDSCOREに格納する。更に、処理はステ
ップS197へ進み、問い合わせ音素ループポインタj
を1増分し、処理はステップS189に戻る。その後、
問い合わせ音素ループポインタjが問い合わせの音素の
数(Nquery)と等しくなるように増分され終わるまで、
上記の処理ステップが繰り返される。次に、処理はステ
ップS199へ進み、問い合わせ音素ループポインタj
はNquery−4にリセットされ、注釈音素ループポインタ
iは1増分される。そこで、処理はステップS187に
戻る。その後、探索スペースの終わりの4列にある全て
の束ポイントがこのように処理され終わるまで、上記の
処理ステップが繰り返され、処理が完了した時点で、図
12に示すステップS107で実行される処理は終了す
る。
せはテキストではないと判定した場合には、処理はステ
ップS185へ進み、問い合わせ音素ループポインタj
を問い合わせの音素の数からmxhopsを引いた値、すなわ
ち、Nquery−4に設定する。次に、処理はステップS1
87へ進み、システムは、注釈音素ループポインタiが
注釈の音素の数(Nann)より小さいか否かを知るために
検査を実行する。当初、注釈音素ループポインタiは0
に設定されており、従って、処理はステップS189へ
進み、システムは、問い合わせ音素ループポインタjが
問い合わせの音素の数(Nquery)より小さいか否かを判
定する。当初、問い合わせループポインタjはNqueryよ
り小さいので、処理はステップS191へ進み、システ
ムは束ポイント(i,j)からヌルエンドノードφeまで
の遷移スコアを計算する。次に、ステップS193で、
この遷移スコアをポイント(i,j)で終わる経路の累
積スコアに加算し、その結果を一時スコアTEMPENDSCORE
にコピーする。次に、処理はステップS195へ進み、
システムはTEMPENDSCOREとENDSCOREとの対数加算を実行
し、その結果をENDSCOREに格納する。更に、処理はステ
ップS197へ進み、問い合わせ音素ループポインタj
を1増分し、処理はステップS189に戻る。その後、
問い合わせ音素ループポインタjが問い合わせの音素の
数(Nquery)と等しくなるように増分され終わるまで、
上記の処理ステップが繰り返される。次に、処理はステ
ップS199へ進み、問い合わせ音素ループポインタj
はNquery−4にリセットされ、注釈音素ループポインタ
iは1増分される。そこで、処理はステップS187に
戻る。その後、探索スペースの終わりの4列にある全て
の束ポイントがこのように処理され終わるまで、上記の
処理ステップが繰り返され、処理が完了した時点で、図
12に示すステップS107で実行される処理は終了す
る。
【0078】伝搬 図14に示すステップS155では、システムは、前述
のダイナミックプログラミング制約を使用して、束ポイ
ント(i,j)で終わる経路を伝搬させる。図16は、
この伝搬ステップを実行することに関連する処理ステッ
プを示すフローチャートである。図示されているよう
に、ステップS211では、システムは2つの変数mxi
及びmxjの値を設定し、且つ注釈音素ループポインタi
2及び問い合わせ音素ループポインタj2を初期設定す
る。ループポインタi2及びループポインタj2は、ポ
イント(i,j)で終わる経路が伝搬できる全ての束ポ
イントをたどるために規定されており、また、変数mxi
及び変数mxjは、i2及びj2がダイナミックプログラミ
ング制約により許容される値のみをとれるように保証す
るために規定されている。すなわち、mxiは、mxhopsが
注釈の音素の数以下であれば、iにmxhopsを加算した値
に設定され、そうでない場合には、mxiは注釈の音素の
数(Nann)と等しい値に設定される。同様に、mxjは、m
xhopsが問い合わせの音素の数以下であれば、jにmxhops
を加算した値に設定され、そうでない場合には、問い合
わせの音素の数(Nquery)と等しい値に設定される。最
後に、ステップS211では、システムは注釈音素ルー
プポインタi2を注釈音素ループポインタiの現在値と
等しくなるように初期設定すると共に、問い合わせ音素
ループポインタj2を問い合わせ音素ループポインタjの
現在値と等しくなるように初期設定する。
のダイナミックプログラミング制約を使用して、束ポイ
ント(i,j)で終わる経路を伝搬させる。図16は、
この伝搬ステップを実行することに関連する処理ステッ
プを示すフローチャートである。図示されているよう
に、ステップS211では、システムは2つの変数mxi
及びmxjの値を設定し、且つ注釈音素ループポインタi
2及び問い合わせ音素ループポインタj2を初期設定す
る。ループポインタi2及びループポインタj2は、ポ
イント(i,j)で終わる経路が伝搬できる全ての束ポ
イントをたどるために規定されており、また、変数mxi
及び変数mxjは、i2及びj2がダイナミックプログラミ
ング制約により許容される値のみをとれるように保証す
るために規定されている。すなわち、mxiは、mxhopsが
注釈の音素の数以下であれば、iにmxhopsを加算した値
に設定され、そうでない場合には、mxiは注釈の音素の
数(Nann)と等しい値に設定される。同様に、mxjは、m
xhopsが問い合わせの音素の数以下であれば、jにmxhops
を加算した値に設定され、そうでない場合には、問い合
わせの音素の数(Nquery)と等しい値に設定される。最
後に、ステップS211では、システムは注釈音素ルー
プポインタi2を注釈音素ループポインタiの現在値と
等しくなるように初期設定すると共に、問い合わせ音素
ループポインタj2を問い合わせ音素ループポインタjの
現在値と等しくなるように初期設定する。
【0079】システムが採用するダイナミックプログラ
ミング制約は、注釈がテキストであるか又は音声である
か及び問い合わせがテキストであるか又は音声であるか
によって決まるため、次のステップでは、注釈及び問い
合わせがどのようにして生成されたかを判定する。これ
は決定ブロックS213、S215及びS217により
実行される。注釈と問い合わせが共に音声から生成され
ている場合、束ポイント(i,j)で終わるダイナミッ
クプログラミング経路は図11に示すその他のポイント
へ伝搬でき、処理ステップS219からS235はこの
経路をそれらの他のポイントへ伝搬させるように機能す
る。すなわち、ステップS219では、システムは注釈
音素ループポインタi2を変数mxiと比較する。ステッ
プS211で、注釈音素ループポインタi2はiに設定
されており且つmxiはi+4と等しく設定されているの
で、処理はステップS221へ進み、問い合わせ音素ル
ープポインタj2について同様の比較を実行する。次
に、処理はステップS223へ進み、当初、i2はiと
等しく、j2はjと等しいので、経路が同じ束ポイント
(i,j)にとどまらないように保証する。従って、処
理は、まず、ステップS225へ進み、問い合わせ音素
ループポインタj2を1増分する。
ミング制約は、注釈がテキストであるか又は音声である
か及び問い合わせがテキストであるか又は音声であるか
によって決まるため、次のステップでは、注釈及び問い
合わせがどのようにして生成されたかを判定する。これ
は決定ブロックS213、S215及びS217により
実行される。注釈と問い合わせが共に音声から生成され
ている場合、束ポイント(i,j)で終わるダイナミッ
クプログラミング経路は図11に示すその他のポイント
へ伝搬でき、処理ステップS219からS235はこの
経路をそれらの他のポイントへ伝搬させるように機能す
る。すなわち、ステップS219では、システムは注釈
音素ループポインタi2を変数mxiと比較する。ステッ
プS211で、注釈音素ループポインタi2はiに設定
されており且つmxiはi+4と等しく設定されているの
で、処理はステップS221へ進み、問い合わせ音素ル
ープポインタj2について同様の比較を実行する。次
に、処理はステップS223へ進み、当初、i2はiと
等しく、j2はjと等しいので、経路が同じ束ポイント
(i,j)にとどまらないように保証する。従って、処
理は、まず、ステップS225へ進み、問い合わせ音素
ループポインタj2を1増分する。
【0080】次に、処理はステップS221に戻り、j
2の増分後の値をmxjと比較する。j2がmxjより小さけ
れば、処理はステップS223に戻り、処理はステップ
S227へ進み、注釈音素の系列と問い合わせ音素の系
列の双方に沿ってあまり大きなホップが起こるのを防止
する。これは、i2+j2がi+j+mxhopsより小さい場
合に限って経路が伝搬されるように保証することにより
行われる。これにより、図11に示す三角形を成す点の
組だけが処理されることになる。この条件が満たされれ
ば、処理はステップS229へ進み、システムは束ポイ
ント(i,j)から束ポイント(i2,j2)までの遷移
スコア(TRANSCORE)を計算する。次に、処理はステッ
プS231へ進み、システムはステップS229で判定
された遷移スコアをポイント(i,j)について格納さ
れている累積スコアに加算し、それを一時スコアTEMPSC
OREにコピーする。先に述べたように、この実施形態で
は、2つ以上のダイナミックプログラミング経路が同じ
束ポイントで出会う場合、それぞれの経路と関連する累
積スコアを互いに加算する。従って、ステップS233
では、システムは、TEMPSCOREとポイント(i2,j2)
について既に格納されている累積スコアとの対数加算を
実行し、その結果をSCORE(i2,j2)に格納する。次
に、処理はステップS225に戻り、問い合わせ音素ル
ープポインタj2を1増分し、処理はステップS221
に戻る。問い合わせ音素ループポインタj2がmxjの値に
達したならば、処理はステップS235へ進み、問い合
わせ音素ループポインタj2を初期値jにリセットし、且
つ注釈音素ループポインタi2を1増分する。次に、処
理はステップS219へ進み、処理は図11に示すポイ
ントの次の行に対して再び開始される。経路がポイント
(i,j)から図11に示す他の全てのポイントまで伝
搬したならば、処理は終了する。
2の増分後の値をmxjと比較する。j2がmxjより小さけ
れば、処理はステップS223に戻り、処理はステップ
S227へ進み、注釈音素の系列と問い合わせ音素の系
列の双方に沿ってあまり大きなホップが起こるのを防止
する。これは、i2+j2がi+j+mxhopsより小さい場
合に限って経路が伝搬されるように保証することにより
行われる。これにより、図11に示す三角形を成す点の
組だけが処理されることになる。この条件が満たされれ
ば、処理はステップS229へ進み、システムは束ポイ
ント(i,j)から束ポイント(i2,j2)までの遷移
スコア(TRANSCORE)を計算する。次に、処理はステッ
プS231へ進み、システムはステップS229で判定
された遷移スコアをポイント(i,j)について格納さ
れている累積スコアに加算し、それを一時スコアTEMPSC
OREにコピーする。先に述べたように、この実施形態で
は、2つ以上のダイナミックプログラミング経路が同じ
束ポイントで出会う場合、それぞれの経路と関連する累
積スコアを互いに加算する。従って、ステップS233
では、システムは、TEMPSCOREとポイント(i2,j2)
について既に格納されている累積スコアとの対数加算を
実行し、その結果をSCORE(i2,j2)に格納する。次
に、処理はステップS225に戻り、問い合わせ音素ル
ープポインタj2を1増分し、処理はステップS221
に戻る。問い合わせ音素ループポインタj2がmxjの値に
達したならば、処理はステップS235へ進み、問い合
わせ音素ループポインタj2を初期値jにリセットし、且
つ注釈音素ループポインタi2を1増分する。次に、処
理はステップS219へ進み、処理は図11に示すポイ
ントの次の行に対して再び開始される。経路がポイント
(i,j)から図11に示す他の全てのポイントまで伝
搬したならば、処理は終了する。
【0081】決定ブロックS213及びS215が注釈
はテキストであり、問い合わせは音声であると判定した
場合には、処理はステップS241からS251へ進
む。これらのステップは、ポイント(i,j)で終わる
経路を図9aに示すポイントへ伝搬させるように機能す
る。すなわち、ステップS241では、システムは、注
釈音素ループポインタiが注釈の最終音素を指示してい
るか否かを判定する。最終音素を指示していれば、注釈
にはそれ以上の音素は含まれていないので、処理は終了
する。注釈音素ループポインタiがNann−1より小さい
場合には、処理はステップS243へ進み、問い合わせ
音素ループポインタj2をmxjと比較する。当初、j2はm
xjより小さいため、処理はステップS245へ進み、シ
ステムはポイント(i,j)からポイント(i+1,j
2)までの遷移スコア(TRANSCORE)を計算する。次
に、この遷移スコアをポイント(i,j)で終わる経路
と関連する累積スコアに加算し、その結果を一時スコア
TEMPSCOREにコピーする。次に、ステップS249で
は、システムはTEMPSCOREとポイント(i+1,j2)と
関連する累積スコアとの対数加算を実行し、その結果を
SCORE(i+1,j2)に格納し、束ポイント(i+1,
j2)で出会う経路の経路スコアが組み合わされるよう
にする。次に、処理はステップS251へ進み、問い合
わせ音素ループポインタj2を1増分し、その後、処理
はステップS243に戻る。ポイント(i,j)で終わ
る経路を図9aに示す他のポイントまで伝搬させたなら
ば、j2はmxjと等しくなり、ポイント(i,j)で終わ
る経路の伝搬は終了する。
はテキストであり、問い合わせは音声であると判定した
場合には、処理はステップS241からS251へ進
む。これらのステップは、ポイント(i,j)で終わる
経路を図9aに示すポイントへ伝搬させるように機能す
る。すなわち、ステップS241では、システムは、注
釈音素ループポインタiが注釈の最終音素を指示してい
るか否かを判定する。最終音素を指示していれば、注釈
にはそれ以上の音素は含まれていないので、処理は終了
する。注釈音素ループポインタiがNann−1より小さい
場合には、処理はステップS243へ進み、問い合わせ
音素ループポインタj2をmxjと比較する。当初、j2はm
xjより小さいため、処理はステップS245へ進み、シ
ステムはポイント(i,j)からポイント(i+1,j
2)までの遷移スコア(TRANSCORE)を計算する。次
に、この遷移スコアをポイント(i,j)で終わる経路
と関連する累積スコアに加算し、その結果を一時スコア
TEMPSCOREにコピーする。次に、ステップS249で
は、システムはTEMPSCOREとポイント(i+1,j2)と
関連する累積スコアとの対数加算を実行し、その結果を
SCORE(i+1,j2)に格納し、束ポイント(i+1,
j2)で出会う経路の経路スコアが組み合わされるよう
にする。次に、処理はステップS251へ進み、問い合
わせ音素ループポインタj2を1増分し、その後、処理
はステップS243に戻る。ポイント(i,j)で終わ
る経路を図9aに示す他のポイントまで伝搬させたなら
ば、j2はmxjと等しくなり、ポイント(i,j)で終わ
る経路の伝搬は終了する。
【0082】決定ブロックS213及びS217が注釈は
音声であり、問い合わせはテキストであると判定した場
合には、処理は図16bに示すステップS255からS2
65へ進む。これらのステップは、ポイント(i,j)
で終わる経路を図9bに示す他のポイントへ伝搬させる
ように機能する。これは、まず、ステップS255で、
問い合わせ音素ループポインタjが問い合わせを表現す
る音素の系列の最終音素を指示していないかどうかを検
査することにより実行される。最終音素を指示していな
ければ、処理はステップS257へ進み、注釈音素ルー
プポインタi2をmxiと比較する。当初、i2はiの値
を有しており、注釈音素iが注釈を表現する音素の系列
の終わりにないとすれば、処理はステップS259へ進
み、ポイント(i,j)からポイント(i2、j+1)へ
移動するための遷移スコアを計算する。次に、処理はス
テップS261へ進み、この遷移スコアをポイント
(i,j)で終わる経路の累積スコアに加算し、その結
果を一次スコアTEMPSCOREにコピーする。次に、処理は
ステップS263へ進み、TEMPSCOREと、ポイント(i
2、j+1)について既に格納されている累積スコアと
の対数加算を実行し、その結果をSCORE(i2,j+1)
に格納する。次に、処理はステップS265へ進み、注
釈音素ループポインタi2を1増分し、処理はステップ
S257に戻る。その後、ポイント(i,j)で終わる
経路が図9bに示すその他のポイントのそれぞれへ伝搬
され終わるまで、これらの処理ステップが繰り返され
る。この時点で、ポイント(i,j)における経路の伝
搬は完了し、処理は終了する。
音声であり、問い合わせはテキストであると判定した場
合には、処理は図16bに示すステップS255からS2
65へ進む。これらのステップは、ポイント(i,j)
で終わる経路を図9bに示す他のポイントへ伝搬させる
ように機能する。これは、まず、ステップS255で、
問い合わせ音素ループポインタjが問い合わせを表現す
る音素の系列の最終音素を指示していないかどうかを検
査することにより実行される。最終音素を指示していな
ければ、処理はステップS257へ進み、注釈音素ルー
プポインタi2をmxiと比較する。当初、i2はiの値
を有しており、注釈音素iが注釈を表現する音素の系列
の終わりにないとすれば、処理はステップS259へ進
み、ポイント(i,j)からポイント(i2、j+1)へ
移動するための遷移スコアを計算する。次に、処理はス
テップS261へ進み、この遷移スコアをポイント
(i,j)で終わる経路の累積スコアに加算し、その結
果を一次スコアTEMPSCOREにコピーする。次に、処理は
ステップS263へ進み、TEMPSCOREと、ポイント(i
2、j+1)について既に格納されている累積スコアと
の対数加算を実行し、その結果をSCORE(i2,j+1)
に格納する。次に、処理はステップS265へ進み、注
釈音素ループポインタi2を1増分し、処理はステップ
S257に戻る。その後、ポイント(i,j)で終わる
経路が図9bに示すその他のポイントのそれぞれへ伝搬
され終わるまで、これらの処理ステップが繰り返され
る。この時点で、ポイント(i,j)における経路の伝
搬は完了し、処理は終了する。
【0083】最後に、決定ブロックS213及びS21
5が注釈と問い合わせの双方はテキストであると判定し
た場合には、処理は図16bに示すステップS271か
らS279へ進む。これらのステップは、言うまでもな
く、更に注釈音素と問い合わせ音素が存在する場合に、
ポイント(i,j)で終わる経路をポイント(i+1,j
+1)まで伝搬させるように機能する。すなわち、ステ
ップS271では、システムは、注釈音素ループポイン
タiが最終注釈音素を指示していないかどうかを判定す
る。最終注釈音素を指示していないのであれば、処理は
ステップS273へ進み、問い合わせ音素ループポイン
タjに関して問い合わせ音素の系列に対し同様の判定を
実行し、それ以上、注釈音素が存在しないか、又は問い
合わせ音素が存在しない場合には、そこで処理は終了す
る。しかし、更に別の注釈音素や、別の問い合わせ音素
が存在しているのであれば、処理はステップS275へ
進み、システムはポイント(i,j)からポイント(i
+1,j+1)までの遷移スコアを計算する。次に、ス
テップS277においてこの遷移スコアをポイント
(i,j)について既に格納されている累積スコアと加
算し、一次スコアTEMPSCOREに格納する。次に、処理は
ステップS279へ進み、システムはTEMPSCOREと、ポ
イント(i+1,j+1)について既に格納されている
累積スコアとの対数加算を実行し、その結果をSCORE
(i+1,j+1)にコピーする。当業者には理解され
るであろうが、この実施形態では、ダイナミックプログ
ラミング制約によって、経路は注釈を表す音素の系列の
中のどの音素からもスタートでき、従って、ポイント
(i+1,j+1)が既に関連するスコアを有している
ことも考えられるために、ステップS277及びS27
9が必要なのである。ステップS279の後、ポイント
(i,j)の伝搬は完了し、処理は終了する。
5が注釈と問い合わせの双方はテキストであると判定し
た場合には、処理は図16bに示すステップS271か
らS279へ進む。これらのステップは、言うまでもな
く、更に注釈音素と問い合わせ音素が存在する場合に、
ポイント(i,j)で終わる経路をポイント(i+1,j
+1)まで伝搬させるように機能する。すなわち、ステ
ップS271では、システムは、注釈音素ループポイン
タiが最終注釈音素を指示していないかどうかを判定す
る。最終注釈音素を指示していないのであれば、処理は
ステップS273へ進み、問い合わせ音素ループポイン
タjに関して問い合わせ音素の系列に対し同様の判定を
実行し、それ以上、注釈音素が存在しないか、又は問い
合わせ音素が存在しない場合には、そこで処理は終了す
る。しかし、更に別の注釈音素や、別の問い合わせ音素
が存在しているのであれば、処理はステップS275へ
進み、システムはポイント(i,j)からポイント(i
+1,j+1)までの遷移スコアを計算する。次に、ス
テップS277においてこの遷移スコアをポイント
(i,j)について既に格納されている累積スコアと加
算し、一次スコアTEMPSCOREに格納する。次に、処理は
ステップS279へ進み、システムはTEMPSCOREと、ポ
イント(i+1,j+1)について既に格納されている
累積スコアとの対数加算を実行し、その結果をSCORE
(i+1,j+1)にコピーする。当業者には理解され
るであろうが、この実施形態では、ダイナミックプログ
ラミング制約によって、経路は注釈を表す音素の系列の
中のどの音素からもスタートでき、従って、ポイント
(i+1,j+1)が既に関連するスコアを有している
ことも考えられるために、ステップS277及びS27
9が必要なのである。ステップS279の後、ポイント
(i,j)の伝搬は完了し、処理は終了する。
【0084】遷移スコア 図12に示すステップS103、S105及びS107
では、ダイナミックプログラミング経路を伝搬させ、こ
の伝搬の間、ステップS127、S117、S177、
S191、S229、S245、S259及びS275
では、1つのポイントから別のポイントまでの遷移スコ
アを計算する。これらのステップにおいては、システム
は、遷移のスタートポイントとエンドポイントに対し
て、適切な挿入確率、削除確率及び復号確率を計算す
る。これをこの実施形態でどのようにして実行するかを
以下に図17及び図18を参照して説明する。
では、ダイナミックプログラミング経路を伝搬させ、こ
の伝搬の間、ステップS127、S117、S177、
S191、S229、S245、S259及びS275
では、1つのポイントから別のポイントまでの遷移スコ
アを計算する。これらのステップにおいては、システム
は、遷移のスタートポイントとエンドポイントに対し
て、適切な挿入確率、削除確率及び復号確率を計算す
る。これをこの実施形態でどのようにして実行するかを
以下に図17及び図18を参照して説明する。
【0085】すなわち、図17は、束ポイント(i,
j)から束ポイント(i2,j2)まで伝搬する経路に関
して遷移スコアを計算するときの関連する一般処理ステ
ップを示す流れ図である。ステップS291では、シス
テムは、ポイント(i,j)とポイント(i2、j2)と
の間に挿入される注釈音素ごとに、挿入音素(先に述べ
た確率PI()の対数である)を挿入することのスコアを
計算し、これを適切なスコアINSERTSCOREに加算する。
次に、そりはステップS293へ進み、システムは、ポ
イント(i,j)とポイント(I2、j2)との間に挿入
される問い合わせ音素ごとに同様の計算を実行し、これ
をINSERTSCOREに加算する。しかし、(i,j)がスター
トヌルノードφsであるか、又は(i2,j2)がエンド
ヌルノードφeである場合には、システムは、挿入され
る問い合わせ音素に対しては挿入確率を計算するが、挿
入される注釈音素に対しては挿入確率を計算しない(い
ずれかの注釈音素で経路をスタートする又は終了するこ
とにペナルティはないからである)。先に述べた通り、
計算されるスコアは対数に基づく確率であるので、INSE
RTSCOREへのスコアの加算は、対応する挿入確率の乗算
に相当する。次に、処理はステップS295へ進み、シ
ステムは、ポイント(i,j)からポイント(i2,j
2)へ伝搬するときの削除及び/又は復号に関わるスコ
アを計算し、これらのスコアを加算し、その結果を適切
なスコアDELSCOREに格納する。次に、処理はステップS
297へ進み、システムはINSERTSCOREとDELSCOREを加
算し、その結果をTRANSCOREにコピーする。
j)から束ポイント(i2,j2)まで伝搬する経路に関
して遷移スコアを計算するときの関連する一般処理ステ
ップを示す流れ図である。ステップS291では、シス
テムは、ポイント(i,j)とポイント(i2、j2)と
の間に挿入される注釈音素ごとに、挿入音素(先に述べ
た確率PI()の対数である)を挿入することのスコアを
計算し、これを適切なスコアINSERTSCOREに加算する。
次に、そりはステップS293へ進み、システムは、ポ
イント(i,j)とポイント(I2、j2)との間に挿入
される問い合わせ音素ごとに同様の計算を実行し、これ
をINSERTSCOREに加算する。しかし、(i,j)がスター
トヌルノードφsであるか、又は(i2,j2)がエンド
ヌルノードφeである場合には、システムは、挿入され
る問い合わせ音素に対しては挿入確率を計算するが、挿
入される注釈音素に対しては挿入確率を計算しない(い
ずれかの注釈音素で経路をスタートする又は終了するこ
とにペナルティはないからである)。先に述べた通り、
計算されるスコアは対数に基づく確率であるので、INSE
RTSCOREへのスコアの加算は、対応する挿入確率の乗算
に相当する。次に、処理はステップS295へ進み、シ
ステムは、ポイント(i,j)からポイント(i2,j
2)へ伝搬するときの削除及び/又は復号に関わるスコ
アを計算し、これらのスコアを加算し、その結果を適切
なスコアDELSCOREに格納する。次に、処理はステップS
297へ進み、システムはINSERTSCOREとDELSCOREを加
算し、その結果をTRANSCOREにコピーする。
【0086】次に、図18を参照して、ポイント(i,
j)からポイント(i2,j2)まで伝搬するときの削除
スコア及び/又は復号スコアを判定するためにステップ
S295に含まれる処理について、更に詳細に説明す
る。どのような削除及び復号が起こりうるかは、注釈が
テキストから生成されたか否か及び問い合わせがテキス
トから生成されたか否かによって決まるので、決定ブロ
ックS301、S303及びS305は、注釈がテキスト
であるか又は音声であるか及び問い合わせがテキストで
あるか又は音声であるかを判定する。これらの決定ブロ
ックが注釈と問い合わせは共にテキストであると判定し
た場合、削除はなく、2つの音素の復号はステップS3
07でブール整合により実行される。注釈音素ai2が問
い合わせ音素qj2と同じであれば、処理はステップS3
09へ進み、TRANSCOREをlog[1](すなわち、0)と
等しく設定し、処理は終了する。しかし、注釈音素ai2
が問い合わせ音素qj2と同じでない場合には、処理はス
テップS311へ進み、TRANSCOREをlog[0]のシステ
ム近似である非常に大きな負の数に設定し、そこで処理
は終了する。
j)からポイント(i2,j2)まで伝搬するときの削除
スコア及び/又は復号スコアを判定するためにステップ
S295に含まれる処理について、更に詳細に説明す
る。どのような削除及び復号が起こりうるかは、注釈が
テキストから生成されたか否か及び問い合わせがテキス
トから生成されたか否かによって決まるので、決定ブロ
ックS301、S303及びS305は、注釈がテキスト
であるか又は音声であるか及び問い合わせがテキストで
あるか又は音声であるかを判定する。これらの決定ブロ
ックが注釈と問い合わせは共にテキストであると判定し
た場合、削除はなく、2つの音素の復号はステップS3
07でブール整合により実行される。注釈音素ai2が問
い合わせ音素qj2と同じであれば、処理はステップS3
09へ進み、TRANSCOREをlog[1](すなわち、0)と
等しく設定し、処理は終了する。しかし、注釈音素ai2
が問い合わせ音素qj2と同じでない場合には、処理はス
テップS311へ進み、TRANSCOREをlog[0]のシステ
ム近似である非常に大きな負の数に設定し、そこで処理
は終了する。
【0087】決定ブロックS301及びS305が注釈
は音声であり、問い合わせはテキストであると判定した
場合には、先に示した式(4)を簡略化した式を使用し
て、遷移スコアを判定する。この場合、処理はステップ
S303からステップS313へ進み、システムは、注
釈音素ループポインタi2が注釈音素ループポインタi
と等しいか否かを判定する。それらが等しければ、それ
は経路がポイント(i,j)からポイント(i,j+1)
まで伝搬したことを表している。従って、問い合わせ音
素qj+1は問い合わせ音素の系列に対して注釈音素の系列
から削除されている。そこで、ステップS317では、
システムは音素qj+1の削除の対数確率(すなわち、log
P(φ|qj+1,C))をDELSCOREにコピーし、処理は終了す
る。ステップS313で、システムがi2はiと等しく
ないと判定した場合、システムはポイント(i,j)で
終わる経路のポイント(i+1,j+1)、(i+2,j
+1)又は(i+3,j+3)のいずれか1つへの伝搬
を考慮している。どの場合にも、削除はなく、注釈音素
ai2と問い合わせ音素qj+1との挿入及び復号のみが存在
する。従って、ステップS315では、システムは問い
合わせ音素qj+1を注釈音素ai2として復号する対数確率
(すなわち、logP(ai2|qj+1,C))をDELSCOREにコピ
ーし、処理は終了する。
は音声であり、問い合わせはテキストであると判定した
場合には、先に示した式(4)を簡略化した式を使用し
て、遷移スコアを判定する。この場合、処理はステップ
S303からステップS313へ進み、システムは、注
釈音素ループポインタi2が注釈音素ループポインタi
と等しいか否かを判定する。それらが等しければ、それ
は経路がポイント(i,j)からポイント(i,j+1)
まで伝搬したことを表している。従って、問い合わせ音
素qj+1は問い合わせ音素の系列に対して注釈音素の系列
から削除されている。そこで、ステップS317では、
システムは音素qj+1の削除の対数確率(すなわち、log
P(φ|qj+1,C))をDELSCOREにコピーし、処理は終了す
る。ステップS313で、システムがi2はiと等しく
ないと判定した場合、システムはポイント(i,j)で
終わる経路のポイント(i+1,j+1)、(i+2,j
+1)又は(i+3,j+3)のいずれか1つへの伝搬
を考慮している。どの場合にも、削除はなく、注釈音素
ai2と問い合わせ音素qj+1との挿入及び復号のみが存在
する。従って、ステップS315では、システムは問い
合わせ音素qj+1を注釈音素ai2として復号する対数確率
(すなわち、logP(ai2|qj+1,C))をDELSCOREにコピ
ーし、処理は終了する。
【0088】決定ブロックS301及びS305が注釈
はテキストであり、問い合わせは音声であると判定した
場合には、先に挙げた式(4)の他方の簡略化形態を使
用して、遷移スコアを判定する。この場合、処理はステ
ップS305からステップS319へ進み、システム
は、問い合わせ音素ループポインタj2が問い合わせ音
素ループポインタjと等しいか否かを判定する。それら
が等しければ、システムはポイント(i,j)からポイ
ント(i+1,j)までの遷移スコアを計算している。
この場合、注釈音素ai+1は注釈音素の系列に対して問い
合わせ音素の系列から削除されている。従って、ステッ
プS321では、システムは注釈音素ai+1の削除の対数
確率(すなわち、log P(φ|ai+1,C))を判定して、DE
LSCOREにコピーし、処理は終了する。ステップS319
で、システムが問い合わせ音素ループポインタj2は問
い合わせ音素ループポインタjと等しくないと判定した
場合には、システムは、その時点で、ポイント(i,
j)からポイント(i+1,j+1)、(i+1,j+
2)又は(i+1,j+3)のいずれか1つへの遷移ス
コアを判定している。この場合、削除はなく、注釈音素
ai+1と問い合わせ音素qj2との間には挿入と復号のみが
存在する。従って、ステップS323では、システムは
注釈音素ai+1を問い合わせ音素qj2として復号する対数
確率(すなわち、logP(qj 2|ai+1,C))を判定して、
DELSCOREにコピーし、処理は終了する。
はテキストであり、問い合わせは音声であると判定した
場合には、先に挙げた式(4)の他方の簡略化形態を使
用して、遷移スコアを判定する。この場合、処理はステ
ップS305からステップS319へ進み、システム
は、問い合わせ音素ループポインタj2が問い合わせ音
素ループポインタjと等しいか否かを判定する。それら
が等しければ、システムはポイント(i,j)からポイ
ント(i+1,j)までの遷移スコアを計算している。
この場合、注釈音素ai+1は注釈音素の系列に対して問い
合わせ音素の系列から削除されている。従って、ステッ
プS321では、システムは注釈音素ai+1の削除の対数
確率(すなわち、log P(φ|ai+1,C))を判定して、DE
LSCOREにコピーし、処理は終了する。ステップS319
で、システムが問い合わせ音素ループポインタj2は問
い合わせ音素ループポインタjと等しくないと判定した
場合には、システムは、その時点で、ポイント(i,
j)からポイント(i+1,j+1)、(i+1,j+
2)又は(i+1,j+3)のいずれか1つへの遷移ス
コアを判定している。この場合、削除はなく、注釈音素
ai+1と問い合わせ音素qj2との間には挿入と復号のみが
存在する。従って、ステップS323では、システムは
注釈音素ai+1を問い合わせ音素qj2として復号する対数
確率(すなわち、logP(qj 2|ai+1,C))を判定して、
DELSCOREにコピーし、処理は終了する。
【0089】決定ブロックS301及びS303が注釈
と問い合わせの双方は音声から生成されていると判定し
た場合には、先の式(4)を使用して遷移スコアを判定
する。この場合、処理はステップS303からステップ
S325へ進み、システムは、注釈音素ループポインタ
i2が注釈音素ループポインタiと等しいか否かを判定
する。それらが等しければ、処理はステップS327へ
進み、音素ループポインタrを1に初期設定する。音素
ループポインタrは、先の式(4)の計算中にシステム
にわかっている可能な音素の各々をたどるために使用さ
れる。次に、処理はステップS329へ進み、システム
は音素ループポインタrをシステムにわかっている音素
の数Nphonemes(この実施形態では43に等しい)と比
較する。当初、rはステップS327で1に設定されて
いるので、処理はステップS331へ進み、システムは
出現する音素prの対数確率(すなわち、logP(pr|
C))を判定し、それを一時スコアTEMPDELSCOREにコピ
ーする。注釈音素ループポインタi2が注釈音素ループ
ポインタiと等しい場合、システムはポイント(i,
j)で終わる経路をポイント(i,j+1)、(i、j+
2)又は(i,j+3)のいずれか1つへ伝搬させてい
る。従って、問い合わせの中には、注釈にない音素が存
在している。そのため、ステップS333では、システ
ムは注釈から音素prが削除する対数確率(すなわち、lo
gP(φ|pr,C)をTEMPDELSCOREに加算する。次に、処
理はステップS335へ進み、システムは、音素prを問
い合わせ音素qj2として復号する対数確率(すなわち、
logP(qj2|pr,C))をTEMPDELSCOREに加算する。次
に、処理はステップS337へ進み、TEMPDELSCOREとDE
LSCOREとの対数加算を実行し、その結果をDELSCOREに格
納する。その後、処理はステップS339へ進み、音素
ループポインタrを1増分し、ステップS329に戻っ
て、システムにわかっている次の音素について同様の処
理を実行する。システムにわかっている43の音素のそ
れぞれについてこの計算を実行した後、処理は終了す
る。
と問い合わせの双方は音声から生成されていると判定し
た場合には、先の式(4)を使用して遷移スコアを判定
する。この場合、処理はステップS303からステップ
S325へ進み、システムは、注釈音素ループポインタ
i2が注釈音素ループポインタiと等しいか否かを判定
する。それらが等しければ、処理はステップS327へ
進み、音素ループポインタrを1に初期設定する。音素
ループポインタrは、先の式(4)の計算中にシステム
にわかっている可能な音素の各々をたどるために使用さ
れる。次に、処理はステップS329へ進み、システム
は音素ループポインタrをシステムにわかっている音素
の数Nphonemes(この実施形態では43に等しい)と比
較する。当初、rはステップS327で1に設定されて
いるので、処理はステップS331へ進み、システムは
出現する音素prの対数確率(すなわち、logP(pr|
C))を判定し、それを一時スコアTEMPDELSCOREにコピ
ーする。注釈音素ループポインタi2が注釈音素ループ
ポインタiと等しい場合、システムはポイント(i,
j)で終わる経路をポイント(i,j+1)、(i、j+
2)又は(i,j+3)のいずれか1つへ伝搬させてい
る。従って、問い合わせの中には、注釈にない音素が存
在している。そのため、ステップS333では、システ
ムは注釈から音素prが削除する対数確率(すなわち、lo
gP(φ|pr,C)をTEMPDELSCOREに加算する。次に、処
理はステップS335へ進み、システムは、音素prを問
い合わせ音素qj2として復号する対数確率(すなわち、
logP(qj2|pr,C))をTEMPDELSCOREに加算する。次
に、処理はステップS337へ進み、TEMPDELSCOREとDE
LSCOREとの対数加算を実行し、その結果をDELSCOREに格
納する。その後、処理はステップS339へ進み、音素
ループポインタrを1増分し、ステップS329に戻っ
て、システムにわかっている次の音素について同様の処
理を実行する。システムにわかっている43の音素のそ
れぞれについてこの計算を実行した後、処理は終了す
る。
【0090】ステップS325で、システムがi2はi
と等しくないと判定した場合には、処理はステップS3
41へ進み、システムは、問い合わせ音素ループポイン
タj2が問い合わせ音素ループポインタjと等しいか否か
を判定する。それらが等しければ、処理はステップS3
43へ進み、音素ループポインタrを1に初期設定す
る。次に、処理はステップS345へ進み、音素ループ
ポインタrをシステムにわかっている音素の総数(Nphon
emes)と比較する。当初、rはステップS343で1に
設定されているので、処理はステップS347へ進み、
出現する音素prの対数確率を判定し、それを一次スコア
TEMPDELSCOREにコピーする。次に、処理はステップS3
49へ進み、システムは、音素prを注釈音素ai2として
復号する対数確率を判定し、それをTEMPDELSCOREに加算
する。問い合わせ音素ループポインタj2が問い合わせ音
素ループポインタjと等しい場合、システムはポイント
(i,j)で終わる経路をポイント(i+1,j)、(i+
2、j)又は(i+3,j)のいずれか1つへ伝搬させてい
る。従って、注釈の中には問い合わせにない音素が存在
している。そこで、ステップS351では、システムは
音素prが問い合わせから削除する対数確率を判定し、そ
れをTEMPDELSCOREに加算する。次に、処理はステップS
353へ進み、システムはTEMPDELSCOREとDELSCOREとの
対数加算を実行し、その結果をDELSCOREに格納する。次
に、ステップS355で、音素ループポインタrを1増
分し、処理はステップS345に戻る。システムにわか
っている全ての音素についてステップS347からS3
53の処理が完了したならば、処理は終了する。
と等しくないと判定した場合には、処理はステップS3
41へ進み、システムは、問い合わせ音素ループポイン
タj2が問い合わせ音素ループポインタjと等しいか否か
を判定する。それらが等しければ、処理はステップS3
43へ進み、音素ループポインタrを1に初期設定す
る。次に、処理はステップS345へ進み、音素ループ
ポインタrをシステムにわかっている音素の総数(Nphon
emes)と比較する。当初、rはステップS343で1に
設定されているので、処理はステップS347へ進み、
出現する音素prの対数確率を判定し、それを一次スコア
TEMPDELSCOREにコピーする。次に、処理はステップS3
49へ進み、システムは、音素prを注釈音素ai2として
復号する対数確率を判定し、それをTEMPDELSCOREに加算
する。問い合わせ音素ループポインタj2が問い合わせ音
素ループポインタjと等しい場合、システムはポイント
(i,j)で終わる経路をポイント(i+1,j)、(i+
2、j)又は(i+3,j)のいずれか1つへ伝搬させてい
る。従って、注釈の中には問い合わせにない音素が存在
している。そこで、ステップS351では、システムは
音素prが問い合わせから削除する対数確率を判定し、そ
れをTEMPDELSCOREに加算する。次に、処理はステップS
353へ進み、システムはTEMPDELSCOREとDELSCOREとの
対数加算を実行し、その結果をDELSCOREに格納する。次
に、ステップS355で、音素ループポインタrを1増
分し、処理はステップS345に戻る。システムにわか
っている全ての音素についてステップS347からS3
53の処理が完了したならば、処理は終了する。
【0091】ステップS341で、システムが問い合わ
せ音素ループポインタj2は問い合わせ音素ループポイ
ンタjと等しくないと判定した場合には、処理はステッ
プS357へ進み、音素ループポインタrを1に初期設
定する。次に、処理はステップS359へ進み、システ
ムは音素カウンタポインタrをシステムにわかっている
音素の数(Nphonemes)と比較する。当初、rはステップ
S357で1に設定されているので、処理はステップS
361へ進み、システムは、出現する音素prの対数確率
を判定し、それを一次スコアTEMPDELSCOREにコピーす
る。問い合わせ音素ループポインタj2が問い合わせ音
素ループポインタjと等しくない場合、システムはポイ
ント(i,j)で終わる経路をポイント(i+1,j+
1)、(i+1,j+2)又は(i+2,j+1)のいずれか
1つへ伝搬させている。従って、削除はなく、挿入と復
号のみが存在する。そこで、処理はステップS363へ
進み、音素prを注釈音素ai2として復号する対数確率をT
EMPDELSCOREに加算する。次に、処理はステップS36
5へ進み、音素prを問い合わせ音素qj2として復号する
対数確率を判定し、TEMPDELSCOREに加算する。ステップ
S367では、システムはTEMPDELSCOREとDELSCOREとの
対数加算を実行し、その結果をDELSCOREに格納する。次
に、ステップS369で音素カウンタポインタrを1増
分し、処理はステップS359に戻る。システムにわか
っている全ての音素について処理ステップS361から
S367が実行されたならば、処理は終了する。
せ音素ループポインタj2は問い合わせ音素ループポイ
ンタjと等しくないと判定した場合には、処理はステッ
プS357へ進み、音素ループポインタrを1に初期設
定する。次に、処理はステップS359へ進み、システ
ムは音素カウンタポインタrをシステムにわかっている
音素の数(Nphonemes)と比較する。当初、rはステップ
S357で1に設定されているので、処理はステップS
361へ進み、システムは、出現する音素prの対数確率
を判定し、それを一次スコアTEMPDELSCOREにコピーす
る。問い合わせ音素ループポインタj2が問い合わせ音
素ループポインタjと等しくない場合、システムはポイ
ント(i,j)で終わる経路をポイント(i+1,j+
1)、(i+1,j+2)又は(i+2,j+1)のいずれか
1つへ伝搬させている。従って、削除はなく、挿入と復
号のみが存在する。そこで、処理はステップS363へ
進み、音素prを注釈音素ai2として復号する対数確率をT
EMPDELSCOREに加算する。次に、処理はステップS36
5へ進み、音素prを問い合わせ音素qj2として復号する
対数確率を判定し、TEMPDELSCOREに加算する。ステップ
S367では、システムはTEMPDELSCOREとDELSCOREとの
対数加算を実行し、その結果をDELSCOREに格納する。次
に、ステップS369で音素カウンタポインタrを1増
分し、処理はステップS359に戻る。システムにわか
っている全ての音素について処理ステップS361から
S367が実行されたならば、処理は終了する。
【0092】正規化 以上、式(3)の分子部分のみに関してダイナミックプ
ログラミングプロセスを説明した。従って、入力問い合
わせがデータベースの注釈音素の系列と整合された後、
式(3)の分母により定義される正規化項により、その
整合のスコア(ENDSCOREに格納されている)を正規化し
なければならない。先に述べた通り、分母項の計算は分
子の計算と同時に、すなわち、前述のダイナミックプロ
グラミングルーチンにおいて実行される。これは、分子
と分母との比較からわかるように、分母に必要とされる
項は全て分子で計算されるからである。しかし、注釈又
は問い合わせがテキストから生成されている場合には、
正規化は実行されないことに注意すべきである。この実
施形態では、長い注釈は短い注釈ほど大きな重みを与え
られず且つ共通音素を含む注釈は共通しない音素を含む
注釈ほど大きな重みを与えられないように、正規化は実
行される。この実施形態においては、注釈が基礎モデル
とどの程度まで良く整合しているかによって決まる項に
よりスコアを正規化することにより、これを実行する。
ログラミングプロセスを説明した。従って、入力問い合
わせがデータベースの注釈音素の系列と整合された後、
式(3)の分母により定義される正規化項により、その
整合のスコア(ENDSCOREに格納されている)を正規化し
なければならない。先に述べた通り、分母項の計算は分
子の計算と同時に、すなわち、前述のダイナミックプロ
グラミングルーチンにおいて実行される。これは、分子
と分母との比較からわかるように、分母に必要とされる
項は全て分子で計算されるからである。しかし、注釈又
は問い合わせがテキストから生成されている場合には、
正規化は実行されないことに注意すべきである。この実
施形態では、長い注釈は短い注釈ほど大きな重みを与え
られず且つ共通音素を含む注釈は共通しない音素を含む
注釈ほど大きな重みを与えられないように、正規化は実
行される。この実施形態においては、注釈が基礎モデル
とどの程度まで良く整合しているかによって決まる項に
よりスコアを正規化することにより、これを実行する。
【0093】訓練 上記の実施形態では、システムは1892の復号/削除
確率と、43の挿入確率(先の説明においては、混同統
計値という)とを使用して、音素整合動作においてダイ
ナミックプログラミング経路にスコアを付加していた。
この実施形態では、これらの確率は訓練セッションにお
いてあらかじめ判定され、メモリ(図示せず)に格納さ
れている。すなわち、この訓練セッションの間、音声認
識システムを使用して音声の音素復号を2つの方法で行
うのである。第1の方法においては、音声認識システム
に音声と、実際に話された言葉の双方を提供する。従っ
て、音声認識装置はこの情報を使用して、話し言葉の標
準音素系列を生成し、音声の理想の復号を得ることがで
きる。そこで、音声認識システムを使用して同じ音声を
復号するのであるが、このときには、実際に話された言
葉の知識はない(以下、これを自由復号という)。自由
復号から生成される音素系列は、次の点で、標準音素系
列とは異なる。 i)自由復号には誤りが伴い、標準系列には存在しない
音素が復号中に挿入されたり、あるいは、標準系列には
存在している音素が復号から省略されたりすることがあ
りうる。 ii)1つの音素を別の音素と混同することがありうる。 iii)音声認識システムが音声を完璧に復号しても、会
話の発音と標準発音との差異があるために、標準復号と
の違いが生じてしまうことがある。例えば、会話の音声
では「and」という言葉(標準形態は/ae//n//d/
及び/ax//n//d/)が/ax//n/又は/n/のみに
短縮される場合が多い。
確率と、43の挿入確率(先の説明においては、混同統
計値という)とを使用して、音素整合動作においてダイ
ナミックプログラミング経路にスコアを付加していた。
この実施形態では、これらの確率は訓練セッションにお
いてあらかじめ判定され、メモリ(図示せず)に格納さ
れている。すなわち、この訓練セッションの間、音声認
識システムを使用して音声の音素復号を2つの方法で行
うのである。第1の方法においては、音声認識システム
に音声と、実際に話された言葉の双方を提供する。従っ
て、音声認識装置はこの情報を使用して、話し言葉の標
準音素系列を生成し、音声の理想の復号を得ることがで
きる。そこで、音声認識システムを使用して同じ音声を
復号するのであるが、このときには、実際に話された言
葉の知識はない(以下、これを自由復号という)。自由
復号から生成される音素系列は、次の点で、標準音素系
列とは異なる。 i)自由復号には誤りが伴い、標準系列には存在しない
音素が復号中に挿入されたり、あるいは、標準系列には
存在している音素が復号から省略されたりすることがあ
りうる。 ii)1つの音素を別の音素と混同することがありうる。 iii)音声認識システムが音声を完璧に復号しても、会
話の発音と標準発音との差異があるために、標準復号と
の違いが生じてしまうことがある。例えば、会話の音声
では「and」という言葉(標準形態は/ae//n//d/
及び/ax//n//d/)が/ax//n/又は/n/のみに
短縮される場合が多い。
【0094】従って、多数の発言をその標準形態と、自
由復号形態とに復号すれば、ダイナミックプログラミン
グ方法を使用して、それら2つを整列させることができ
る。これにより、音素が標準的にはpであるべき場合
に、復号されたもののカウントdが求められる。この訓
練結果から、上記の復号確率、削除確率及び挿入確率を
次のようにして近似することができる。
由復号形態とに復号すれば、ダイナミックプログラミン
グ方法を使用して、それら2つを整列させることができ
る。これにより、音素が標準的にはpであるべき場合
に、復号されたもののカウントdが求められる。この訓
練結果から、上記の復号確率、削除確率及び挿入確率を
次のようにして近似することができる。
【0095】音素dが挿入音素である確率は次の式によ
り表される。
り表される。
【0096】
【数13】
【0097】式中、Idは自動音声認識システムが音素d
を挿入した回数、no dは標準系列に対して挿入された復
号音素の総数である。
を挿入した回数、no dは標準系列に対して挿入された復
号音素の総数である。
【0098】音素pを音素dとして復号する確率は次の式
により表される。
により表される。
【0099】
【数14】
【0100】式中、cdpはdがpであるべき場合に自動音
声認識システムがdを復号した回数、npはpであるべき場
合に自動音声認識システムが何かを復号した(削除を含
む)回数である。
声認識システムがdを復号した回数、npはpであるべき場
合に自動音声認識システムが何かを復号した(削除を含
む)回数である。
【0101】音素pが復号されているべき場合に何も復
号しない(すなわち、削除が存在する)確率は次の式に
より表される。
号しない(すなわち、削除が存在する)確率は次の式に
より表される。
【0102】
【数15】
【0103】式中、Opはpを復号しているべき場合に自
動音声認識装置が何も復号しなかった回数であり、npは
先の式の場合と同じである。
動音声認識装置が何も復号しなかった回数であり、npは
先の式の場合と同じである。
【0104】別の実施形態 当業者には理解されるであろうが、1つの音素の系列を
別の音素の系列と整合する上述の技法は、データ検索以
外の用途にも適用できる。更に、当業者には理解される
であろうが、上述のシステムは音素/語束の音素を使用
していたが、音節又はカタカナ(日本語のアルファベッ
トに相当する文字)などの別の音素に類似する単位を使
用しても良い。
別の音素の系列と整合する上述の技法は、データ検索以
外の用途にも適用できる。更に、当業者には理解される
であろうが、上述のシステムは音素/語束の音素を使用
していたが、音節又はカタカナ(日本語のアルファベッ
トに相当する文字)などの別の音素に類似する単位を使
用しても良い。
【0105】当業者には理解されるであろうが、先のダ
イナミックプログラミング整合及び2つの音素の系列の
整合の説明は単なる一例であり、様々な変形を実施でき
る。例えば、束ポイントを通って経路を伝搬させるため
にラスタ走査技法を採用していたが、束ポイントを通っ
て経路を漸進的に伝搬させる別の技法を採用することも
可能であろう。更に、当業者には理解されるであろう
が、先に説明した制約以外のダイナミックプログラミン
グ制約を使用して、整合プロセスを制御しても差し支え
ない。
イナミックプログラミング整合及び2つの音素の系列の
整合の説明は単なる一例であり、様々な変形を実施でき
る。例えば、束ポイントを通って経路を伝搬させるため
にラスタ走査技法を採用していたが、束ポイントを通っ
て経路を漸進的に伝搬させる別の技法を採用することも
可能であろう。更に、当業者には理解されるであろう
が、先に説明した制約以外のダイナミックプログラミン
グ制約を使用して、整合プロセスを制御しても差し支え
ない。
【0106】上記の実施形態では、注釈は概して問い合
わせより長く、ダイナミックプログラミング整合アルゴ
リズムは問い合わせを注釈全体と整列させていた。別の
実施形態においては、整合アルゴリズムは問い合わせを
注釈に沿って始めから終わりまでステップ配列し、その
ステップごとに、問い合わせを問い合わせとほぼ同じ大
きさの注釈の一部分と比較して行くことにより、問い合
わせを注釈と比較しても良い。そのような実施形態にお
いては、各ステップで、問い合わせは先に説明した技法
に類似するダイナミックプログラミング技法を使用して
注釈の対応する部分と整列されることになるであろう。
この技法を図19aに示す。図19bは、問い合わせが注
釈に沿ってステップ処理されるにつれて問い合わせと現
在注釈との整列に関するダイナミックプログラミングス
コアが変化する様子を示したものである。図19bのグ
ラフのピークは、問い合わせと最も良く整合する注釈の
部分を表す。この場合、問い合わせと各注釈部分との比
較の間に求められたピークDPスコアを比較することによ
り、問い合わせに最も類似している注釈を判定すること
ができる。
わせより長く、ダイナミックプログラミング整合アルゴ
リズムは問い合わせを注釈全体と整列させていた。別の
実施形態においては、整合アルゴリズムは問い合わせを
注釈に沿って始めから終わりまでステップ配列し、その
ステップごとに、問い合わせを問い合わせとほぼ同じ大
きさの注釈の一部分と比較して行くことにより、問い合
わせを注釈と比較しても良い。そのような実施形態にお
いては、各ステップで、問い合わせは先に説明した技法
に類似するダイナミックプログラミング技法を使用して
注釈の対応する部分と整列されることになるであろう。
この技法を図19aに示す。図19bは、問い合わせが注
釈に沿ってステップ処理されるにつれて問い合わせと現
在注釈との整列に関するダイナミックプログラミングス
コアが変化する様子を示したものである。図19bのグ
ラフのピークは、問い合わせと最も良く整合する注釈の
部分を表す。この場合、問い合わせと各注釈部分との比
較の間に求められたピークDPスコアを比較することによ
り、問い合わせに最も類似している注釈を判定すること
ができる。
【0107】上記の実施形態では、音素・語束注釈デー
タを使用して画像に注釈を追加していた。当業者には理
解されるであろうが、この音素・語束データを使用して
多くの異なる種類のデータファイルに注釈を付けること
ができる。例えば、この種の注釈データを医療の分野で
利用して、患者のX線写真、3D映像、NMR走査画像、超
音波走査画像などに注釈を付けることが可能である。ま
た、オーディオデータ又は地震データなどの1Dデータ
にも注釈を付けることができる。
タを使用して画像に注釈を追加していた。当業者には理
解されるであろうが、この音素・語束データを使用して
多くの異なる種類のデータファイルに注釈を付けること
ができる。例えば、この種の注釈データを医療の分野で
利用して、患者のX線写真、3D映像、NMR走査画像、超
音波走査画像などに注釈を付けることが可能である。ま
た、オーディオデータ又は地震データなどの1Dデータ
にも注釈を付けることができる。
【0108】上記の実施形態では、入力音声信号から音
素の系列を生成する音声認識システムを使用していた。
当業者には理解されるであろうが、上記のシステムを、
例えば、出力語の系列又は語束を生成する他の種類の音
声認識システムと共に使用しても良い。音素列を生成す
る認識装置をシミュレートするために、それらの語の系
列又は語束は後に対応する音素の列に分解されれば良
い。
素の系列を生成する音声認識システムを使用していた。
当業者には理解されるであろうが、上記のシステムを、
例えば、出力語の系列又は語束を生成する他の種類の音
声認識システムと共に使用しても良い。音素列を生成す
る認識装置をシミュレートするために、それらの語の系
列又は語束は後に対応する音素の列に分解されれば良
い。
【0109】上記の実施形態では、音声認識システムの
混同統計値から、確率の最大尤度推定値を使用して、挿
入確率、削除確率及び復号確率を計算していた。当業者
には理解されるであろうが、これらの確率を推定するた
めに、最大エントロピー技法などの他の技法を使用して
も良い。適切な最大エントロピー技法の詳細について
は、John Skilling著の文献「Maximum Entropy and Bay
esian Methods」(Kluwer Academic Publishers刊)の
45ページから52ページを参照のこと。尚、この文献
の内容は参考として本明細書に取り入れられている。
混同統計値から、確率の最大尤度推定値を使用して、挿
入確率、削除確率及び復号確率を計算していた。当業者
には理解されるであろうが、これらの確率を推定するた
めに、最大エントロピー技法などの他の技法を使用して
も良い。適切な最大エントロピー技法の詳細について
は、John Skilling著の文献「Maximum Entropy and Bay
esian Methods」(Kluwer Academic Publishers刊)の
45ページから52ページを参照のこと。尚、この文献
の内容は参考として本明細書に取り入れられている。
【0110】上記の実施形態では、データベース29と
自動音声認識装置51は共にユーザ端末装置59に配置
されていた。当業者には理解されるであろうが、これは
不可欠な構成ではない。図19は、データベース29及
び探索エンジン53が遠隔サーバ60に配置され、且つ
ユーザ端末装置59はネットワークインタフェース装置
67及び69と、データネットワーク68(インターネ
ットなど)とを介してデータベース29をアクセスする
実施形態を示す。この実施形態では、ユーザ端末装置5
9はマイクロホン7から音声による問い合わせを受信で
きるだけである。それらの問い合わせは自動音声認識装
置51により音素・語データに変換される。このデータ
は制御装置55に提供され、制御装置55はネットワー
ク68を介して遠隔サーバ60に配置された探索エンジ
ン53に至るデータの送信を制御する。そこで、探索エ
ンジン53は、先の実施形態で探索が実行されていたの
と同様の方式で探索を実行する。探索の結果は探索エン
ジン53からデータネットワーク68を介して制御装置
55に戻される。制御装置55はネットワークから戻さ
れた探索結果を考慮し、適切なデータを表示装置57に
表示し、ユーザ39は表示されたデータを見る。
自動音声認識装置51は共にユーザ端末装置59に配置
されていた。当業者には理解されるであろうが、これは
不可欠な構成ではない。図19は、データベース29及
び探索エンジン53が遠隔サーバ60に配置され、且つ
ユーザ端末装置59はネットワークインタフェース装置
67及び69と、データネットワーク68(インターネ
ットなど)とを介してデータベース29をアクセスする
実施形態を示す。この実施形態では、ユーザ端末装置5
9はマイクロホン7から音声による問い合わせを受信で
きるだけである。それらの問い合わせは自動音声認識装
置51により音素・語データに変換される。このデータ
は制御装置55に提供され、制御装置55はネットワー
ク68を介して遠隔サーバ60に配置された探索エンジ
ン53に至るデータの送信を制御する。そこで、探索エ
ンジン53は、先の実施形態で探索が実行されていたの
と同様の方式で探索を実行する。探索の結果は探索エン
ジン53からデータネットワーク68を介して制御装置
55に戻される。制御装置55はネットワークから戻さ
れた探索結果を考慮し、適切なデータを表示装置57に
表示し、ユーザ39は表示されたデータを見る。
【0111】データベース29と探索エンジン53を遠
隔サーバ60に配置するのみならず、自動音声認識装置
51を遠隔サーバ60に配置することも可能である。そ
のような実施形態を図20に示す。図示されているよう
に、この実施形態では、ユーザからの入力音声問い合わ
せは入力線61を介して音声符号化装置73に供給され
る。音声符号化装置73は、データネットワーク68を
介して効率良く転送できるように、音声を符号化するよ
うに動作する。符号化データは、この後、制御装置55
に提供され、制御装置55はデータをネットワーク68
を介して遠隔サーバ60へ伝送する。遠隔サーバ60に
おいて、データは自動音声認識装置51により処理され
る。入力問い合わせに対して音声認識装置51により生
成された音素・語データは探索エンジン53へ伝送さ
れ、データベース29を探索するために使用される。探
索エンジン53により生成された探索結果はネットワー
クインタフェース69及びネットワーク68を介してユ
ーザ端末装置59に戻される。その後、遠隔サーバから
戻された探索結果はネットワークインタフェース装置6
7を介して制御装置55へ伝送され、制御装置はその結
果を解析して、適切なデータを表示装置57に表示し、
ユーザ39はそのデータを見る。
隔サーバ60に配置するのみならず、自動音声認識装置
51を遠隔サーバ60に配置することも可能である。そ
のような実施形態を図20に示す。図示されているよう
に、この実施形態では、ユーザからの入力音声問い合わ
せは入力線61を介して音声符号化装置73に供給され
る。音声符号化装置73は、データネットワーク68を
介して効率良く転送できるように、音声を符号化するよ
うに動作する。符号化データは、この後、制御装置55
に提供され、制御装置55はデータをネットワーク68
を介して遠隔サーバ60へ伝送する。遠隔サーバ60に
おいて、データは自動音声認識装置51により処理され
る。入力問い合わせに対して音声認識装置51により生
成された音素・語データは探索エンジン53へ伝送さ
れ、データベース29を探索するために使用される。探
索エンジン53により生成された探索結果はネットワー
クインタフェース69及びネットワーク68を介してユ
ーザ端末装置59に戻される。その後、遠隔サーバから
戻された探索結果はネットワークインタフェース装置6
7を介して制御装置55へ伝送され、制御装置はその結
果を解析して、適切なデータを表示装置57に表示し、
ユーザ39はそのデータを見る。
【0112】同様に、ユーザからの文字入力のみを受容
するユーザ端末装置59を設けても良く、探索エンジン
とデータベースは遠隔サーバに配置される。このような
実施形態においては、音素転換装置75も遠隔サーバ6
0に配置して良い。
するユーザ端末装置59を設けても良く、探索エンジン
とデータベースは遠隔サーバに配置される。このような
実施形態においては、音素転換装置75も遠隔サーバ6
0に配置して良い。
【0113】上記の実施形態では、ダイナミックプログ
ラミングアルゴリズムを使用して、問い合わせ音素の系
列を注釈音素の系列と整列させていた。当業者には理解
されるであろうが、あらゆる整列技法を使用することが
できると考えられる。例えば、可能な全ての整列を識別
する原始的な技法を使用することも可能であろう。しか
し、標準処理ハードウェアを使用して容易に実現できる
という意味で、ダイナミックプログラミングを採用する
のが好ましい。
ラミングアルゴリズムを使用して、問い合わせ音素の系
列を注釈音素の系列と整列させていた。当業者には理解
されるであろうが、あらゆる整列技法を使用することが
できると考えられる。例えば、可能な全ての整列を識別
する原始的な技法を使用することも可能であろう。しか
し、標準処理ハードウェアを使用して容易に実現できる
という意味で、ダイナミックプログラミングを採用する
のが好ましい。
【0114】2つ以上の音素の系列をダイナミックプロ
グラミング技法を使用して比較する方法を説明した。し
かし、図2及び図3に示すように、注釈は束として格納
されるのが好ましい。当業者には理解されるであろう
が、上記の比較技法をそれらの束と組み合わせて機能さ
せるためには、束により定義される音素系列を分岐を持
たない1つの音素系列に「平坦化」しなければならな
い。これを実行するための原始的な方法は、束により定
義される全ての可能な異なる音素系列を識別し、それら
の系列の各々を各問い合わせ系列と比較するという方法
であろう。しかし、束の共通する部分が各問い合わせ系
列と何度か整合されてしまうので、これは好ましくな
い。そこで、束中の各音素に音素ごとに利用できるタイ
ムスタンプ情報に従って順次ラベル付けすることによ
り、束を平坦化するのが好ましい。そこで、ダイナミッ
クプログラミング整列の間、各DP束ポイントで異なるダ
イナミックプログラミング制約を使用して、経路が束構
造に従って伝搬するように保証する。
グラミング技法を使用して比較する方法を説明した。し
かし、図2及び図3に示すように、注釈は束として格納
されるのが好ましい。当業者には理解されるであろう
が、上記の比較技法をそれらの束と組み合わせて機能さ
せるためには、束により定義される音素系列を分岐を持
たない1つの音素系列に「平坦化」しなければならな
い。これを実行するための原始的な方法は、束により定
義される全ての可能な異なる音素系列を識別し、それら
の系列の各々を各問い合わせ系列と比較するという方法
であろう。しかし、束の共通する部分が各問い合わせ系
列と何度か整合されてしまうので、これは好ましくな
い。そこで、束中の各音素に音素ごとに利用できるタイ
ムスタンプ情報に従って順次ラベル付けすることによ
り、束を平坦化するのが好ましい。そこで、ダイナミッ
クプログラミング整列の間、各DP束ポイントで異なるダ
イナミックプログラミング制約を使用して、経路が束構
造に従って伝搬するように保証する。
【0115】以下の表は、図2に示す音素束の部分に対
して使用されるDP制約を示す。すなわち、第1列は束の
各音素に割り当てられる音素番号(p1からp9)を示し、
中央の列は束の実際の音素に対応し、最終列は、音素ご
とに、その音素で終わる経路が次のダイナミックプログ
ラミングタイムポイントで伝搬しうる音素を示す。図示
されてはいないが、中央の列は、音素が結合するノード
と、対応する音素リンクの詳細を更に含む。
して使用されるDP制約を示す。すなわち、第1列は束の
各音素に割り当てられる音素番号(p1からp9)を示し、
中央の列は束の実際の音素に対応し、最終列は、音素ご
とに、その音素で終わる経路が次のダイナミックプログ
ラミングタイムポイントで伝搬しうる音素を示す。図示
されてはいないが、中央の列は、音素が結合するノード
と、対応する音素リンクの詳細を更に含む。
【0116】
【表1】
【0117】例えば、ダイナミックプログラミング経路
が時間順に従って配列された音素p4で終わる場合、その
ダイナミックプログラミング経路は音素p4にとどまるこ
ともできるが、時間順に従った音素p5からp11のいずれ
かまで伝搬することも可能である。表に示す通り、いく
つかのポイントでは、経路が延出できる音素は時間順に
従った音素系列で連続して配列されていない。例えば、
時間順に従った音素p6で終わるダイナミックプログラミ
ング経路の場合、この経路はこの音素にとどまるか、又
は音素p10、p12、p15又はp16まで進むことができる。こ
のようにして束の音素を連続させて番号付けし、束に応
じて使用されるダイナミックプログラミング制約を変化
させることにより、入力問い合わせと、注釈束との効率
の良いダイナミックプログラミング整合を実現すること
ができる。更に、当業者には理解されるであろうが、入
力問い合わせも束を生成する場合には、これも同様にし
て平坦化し、それに応じてダイナミックプログラミング
制約を調整しても良い。
が時間順に従って配列された音素p4で終わる場合、その
ダイナミックプログラミング経路は音素p4にとどまるこ
ともできるが、時間順に従った音素p5からp11のいずれ
かまで伝搬することも可能である。表に示す通り、いく
つかのポイントでは、経路が延出できる音素は時間順に
従った音素系列で連続して配列されていない。例えば、
時間順に従った音素p6で終わるダイナミックプログラミ
ング経路の場合、この経路はこの音素にとどまるか、又
は音素p10、p12、p15又はp16まで進むことができる。こ
のようにして束の音素を連続させて番号付けし、束に応
じて使用されるダイナミックプログラミング制約を変化
させることにより、入力問い合わせと、注釈束との効率
の良いダイナミックプログラミング整合を実現すること
ができる。更に、当業者には理解されるであろうが、入
力問い合わせも束を生成する場合には、これも同様にし
て平坦化し、それに応じてダイナミックプログラミング
制約を調整しても良い。
【0118】上記の実施形態では、注釈と問い合わせの
双方に対して同じ音素混同確率を使用していた。当業者
には理解されるであろうが、それらを生成するために異
なる認識システムを使用する場合には、注釈と問い合わ
せに対して異なる音素混同確率を使用すべきである。そ
れらの混同確率は音素系列を生成するために使用された
認識システムによって異なるためである。
双方に対して同じ音素混同確率を使用していた。当業者
には理解されるであろうが、それらを生成するために異
なる認識システムを使用する場合には、注釈と問い合わ
せに対して異なる音素混同確率を使用すべきである。そ
れらの混同確率は音素系列を生成するために使用された
認識システムによって異なるためである。
【0119】上記の実施形態では、注釈又は問い合わせ
のいずれかがテキストから生成されている場合、文字入
力によるテキストに対応する音素の標準系列が正確であ
ると想定していた。この場合、文字で入力される語には
スペルミス又はタイプミスがないものと仮定しているの
で、そうとは言えないケースも出てくる。従って、別の
実施形態においては、文字入力による問い合わせ及び/
又は注釈に対しても混同確率を使用する。言い換えれ
ば、注釈又は問い合わせの一方、あるいはその双方がテ
キストであるときでも、式(4)及び(12)を使用す
ると考えられる。使用される混同確率は、スペルミス又
はタイプミスのいずれか一方、又はその双方を成文化し
ようとするものであっても良い。当業者には理解される
であろうが、タイプミスの混同確率は使用するキーボー
ドの種類によって異なる。すなわち、ある語のタイプミ
スを引き起こす混同確率はキーボードの配列によって決
まるのである。例えば、文字「d」を打つ場合、その文
字「d」のキーの周囲に位置するキーは高いタイプミス
確率を有し、「d」のキーから遠い位置にあるキーはそ
れより低いタイプミス確率を有する。先に述べた通り、
これらのタイプミス確率は語のスペルミスに関わる混同
確率と共に使用されても良いし、タイプミス確率の代わ
りにスペルミス確率を使用しても良い。このスペルミス
確率は、多数の異なるユーザから収集したタイプ打ち文
書を解析し、通常発生するスペルミスの種類を監視する
ことにより判定されても良い。そのようなスペルミス確
率は、キーの押し間違いに起因する変換の誤りを考慮に
入れても良い。そのような実施形態においては、使用さ
れるダイナミックプログラミング制約は文字入力の挿入
及び/又は削除も許容するものでなければならない。例
えば、図11に示す制約を使用できるであろう。
のいずれかがテキストから生成されている場合、文字入
力によるテキストに対応する音素の標準系列が正確であ
ると想定していた。この場合、文字で入力される語には
スペルミス又はタイプミスがないものと仮定しているの
で、そうとは言えないケースも出てくる。従って、別の
実施形態においては、文字入力による問い合わせ及び/
又は注釈に対しても混同確率を使用する。言い換えれ
ば、注釈又は問い合わせの一方、あるいはその双方がテ
キストであるときでも、式(4)及び(12)を使用す
ると考えられる。使用される混同確率は、スペルミス又
はタイプミスのいずれか一方、又はその双方を成文化し
ようとするものであっても良い。当業者には理解される
であろうが、タイプミスの混同確率は使用するキーボー
ドの種類によって異なる。すなわち、ある語のタイプミ
スを引き起こす混同確率はキーボードの配列によって決
まるのである。例えば、文字「d」を打つ場合、その文
字「d」のキーの周囲に位置するキーは高いタイプミス
確率を有し、「d」のキーから遠い位置にあるキーはそ
れより低いタイプミス確率を有する。先に述べた通り、
これらのタイプミス確率は語のスペルミスに関わる混同
確率と共に使用されても良いし、タイプミス確率の代わ
りにスペルミス確率を使用しても良い。このスペルミス
確率は、多数の異なるユーザから収集したタイプ打ち文
書を解析し、通常発生するスペルミスの種類を監視する
ことにより判定されても良い。そのようなスペルミス確
率は、キーの押し間違いに起因する変換の誤りを考慮に
入れても良い。そのような実施形態においては、使用さ
れるダイナミックプログラミング制約は文字入力の挿入
及び/又は削除も許容するものでなければならない。例
えば、図11に示す制約を使用できるであろう。
【0120】もう1つ考えられるケースは、それぞれの
キーに2つ以上の文字が割り当てられているキーボード
(例えば、携帯電話のキーボードなど)を介してテキス
トを入力した場合である。この場合には、ユーザは各キ
ーをくり返し押して、そのキーに割り当てられている複
数の文字を循環使用しなければならない。そのような実
施形態においては、入力文字と同じキーに割り当てられ
ている文字が他のキーと関連する文字より高いタイプミ
ス混同確率を有するように、混同確率が調整されると考
えられる。これは、テキストメッセージを送信するため
に携帯電話を使用した人は、誰でも、希望する文字を入
力するためにキーを正しい回数押さなかったときにタイ
プミスが多く起こることを了解しているからである。
キーに2つ以上の文字が割り当てられているキーボード
(例えば、携帯電話のキーボードなど)を介してテキス
トを入力した場合である。この場合には、ユーザは各キ
ーをくり返し押して、そのキーに割り当てられている複
数の文字を循環使用しなければならない。そのような実
施形態においては、入力文字と同じキーに割り当てられ
ている文字が他のキーと関連する文字より高いタイプミ
ス混同確率を有するように、混同確率が調整されると考
えられる。これは、テキストメッセージを送信するため
に携帯電話を使用した人は、誰でも、希望する文字を入
力するためにキーを正しい回数押さなかったときにタイ
プミスが多く起こることを了解しているからである。
【0121】上記の実施形態では、制御装置は先の式
(4)又は(12)を使用して遷移ごとに復号スコアを
計算していた。それらの式に従ってシステムにわかって
いる可能な全ての音素にわたり加算を実行する代わり
に、制御装置は、この加算の中で確率項を最大にする未
知の音素prを識別し、この最大確率を注釈と問い合わせ
の対応する音素を復号する確率として使用するように構
成されても良い。しかし、どの音素(pr)がこの加算の
中で確率項を最大にする音素であるかを判定するために
付加的な計算が必要になるという意味で、これは好まし
くない。
(4)又は(12)を使用して遷移ごとに復号スコアを
計算していた。それらの式に従ってシステムにわかって
いる可能な全ての音素にわたり加算を実行する代わり
に、制御装置は、この加算の中で確率項を最大にする未
知の音素prを識別し、この最大確率を注釈と問い合わせ
の対応する音素を復号する確率として使用するように構
成されても良い。しかし、どの音素(pr)がこの加算の
中で確率項を最大にする音素であるかを判定するために
付加的な計算が必要になるという意味で、これは好まし
くない。
【0122】先に説明した第1の実施形態では、ダイナ
ミックプログラミングアルゴリズムの間、音素の整列対
ごとに式(4)を計算していた。式(4)を計算する場
合、注釈音素及び問い合わせ音素をシステムにわかって
いる音素の各々と比較していた。当業者には理解される
であろうが、所定の注釈音素と問い合わせ音素の対に対
して、式(4)で与えられる確率の多くは0に等しい
か、又は0にごく近い。従って、別の実施形態において
は、注釈音素と問い合わせ音素の対を全ての既知の音素
のうち一部の音素の集合と比較するだけでも良い。この
一部の音素の集合は混同統計値からあらかじめ判定され
る。そのような実施形態を実現するために、注釈音素と
問い合わせ音素を使用して、式(4)を使用して注釈音
素及び問い合わせ音素と比較する必要があるモデル音素
を識別するルックアップテーブルをアドレッシングする
ことも可能であろう。
ミックプログラミングアルゴリズムの間、音素の整列対
ごとに式(4)を計算していた。式(4)を計算する場
合、注釈音素及び問い合わせ音素をシステムにわかって
いる音素の各々と比較していた。当業者には理解される
であろうが、所定の注釈音素と問い合わせ音素の対に対
して、式(4)で与えられる確率の多くは0に等しい
か、又は0にごく近い。従って、別の実施形態において
は、注釈音素と問い合わせ音素の対を全ての既知の音素
のうち一部の音素の集合と比較するだけでも良い。この
一部の音素の集合は混同統計値からあらかじめ判定され
る。そのような実施形態を実現するために、注釈音素と
問い合わせ音素を使用して、式(4)を使用して注釈音
素及び問い合わせ音素と比較する必要があるモデル音素
を識別するルックアップテーブルをアドレッシングする
ことも可能であろう。
【0123】Mグラム 先に説明したシステムでは、ダイナミックプログラミン
グアルゴリズムを使用して、問い合わせ全体を注釈全体
又は注釈のいくつかの部分と整列させていた。この実施
形態では、問い合わせをいくつかの部分に分割し、それ
ぞれの部分を注釈に沿って走査して、注釈の中の対応す
る部分を識別する。この一般的な技法はK.Ng及びV.
W.Zueにより提案されており、例えば、Proceedings of
Eurospeech1997に掲載された論文「Subwordunit r
epresentations for spoken document retrieval」の中
で論じられている。尚、この論文の内容は参考として本
明細書にも取り入れられている。
グアルゴリズムを使用して、問い合わせ全体を注釈全体
又は注釈のいくつかの部分と整列させていた。この実施
形態では、問い合わせをいくつかの部分に分割し、それ
ぞれの部分を注釈に沿って走査して、注釈の中の対応す
る部分を識別する。この一般的な技法はK.Ng及びV.
W.Zueにより提案されており、例えば、Proceedings of
Eurospeech1997に掲載された論文「Subwordunit r
epresentations for spoken document retrieval」の中
で論じられている。尚、この論文の内容は参考として本
明細書にも取り入れられている。
【0124】注釈に沿って走査される問い合わせの部分
はどのような大きさであっても良い。しかし、この部分
が1つの音素であると、各音素がそれぞれの注釈の中で
所定の回数現れることも起こりうるので、注釈を十分に
判別できない。音節ごとの部分では判別はより確かにな
ると思われるが、音節を問い合わせの中で識別するのは
容易ではない。Ng及びZueにより提案された技法はこれ
ら2つの方法の間を取ったものである。すなわち、この
技法は問い合わせ音素系列の互いに重なり合う固定サイ
ズのフラグメント、すなわち、Mグラムを使用して、一
組の特徴を取り出し、それらの特徴を注釈と比較するの
である。このことを図22に示す。図22は、4つのM
グラムM1(qi,qi+1,qi+2)、M2(qi+1,qi+2,q
i+3)、M3(qi+2,qi+3,qi+4)及びM4(qi+3,q
i+4,qi+5)に分割された音素qi、qi+1、qi+2、q
i+3、qi+4及びqi+5を有する問い合わせ音素列の一部
を示す。この例では、4つのMグラムM1からM4の各々が
一意性を有し、従って、3つの音素から成る一意の系列
を構成していると想定する。
はどのような大きさであっても良い。しかし、この部分
が1つの音素であると、各音素がそれぞれの注釈の中で
所定の回数現れることも起こりうるので、注釈を十分に
判別できない。音節ごとの部分では判別はより確かにな
ると思われるが、音節を問い合わせの中で識別するのは
容易ではない。Ng及びZueにより提案された技法はこれ
ら2つの方法の間を取ったものである。すなわち、この
技法は問い合わせ音素系列の互いに重なり合う固定サイ
ズのフラグメント、すなわち、Mグラムを使用して、一
組の特徴を取り出し、それらの特徴を注釈と比較するの
である。このことを図22に示す。図22は、4つのM
グラムM1(qi,qi+1,qi+2)、M2(qi+1,qi+2,q
i+3)、M3(qi+2,qi+3,qi+4)及びM4(qi+3,q
i+4,qi+5)に分割された音素qi、qi+1、qi+2、q
i+3、qi+4及びqi+5を有する問い合わせ音素列の一部
を示す。この例では、4つのMグラムM1からM4の各々が
一意性を有し、従って、3つの音素から成る一意の系列
を構成していると想定する。
【0125】従って、この実施形態においては、図5に
示すステップS13及びS21で音素探索を実行すると
きの第1のステップは、問い合わせ音素系列の中にある
全ての異なるMグラムと、問い合わせの中におけるそれ
らの出現頻度を、例えば、ブール探索を使用して識別す
る。この後、探索エンジン53は格納されているそれぞ
れの注釈における識別されたMグラムの出現頻度を判定
する。この実施形態では、これを実行するために、Mグ
ラムを注釈に沿って有効にステップ配列し、ステップご
とに、現在MグラムをそのMグラムと同じ大きさを有する
注釈の一部と比較することにより、それぞれのMグラム
を注釈全体に沿って整列させる。図22に示すMグラム
の場合、この動作は、各Mグラムを注釈音素a0、a1及びa
2と比較し、次に注釈音素a1、a2及びa3と比較し、次に
注釈音素a2、a3及びa4と比較し、それ以降も同様の動作
を続けることから成る。この実施形態においては、ステ
ップごとにブール比較を実行するのではなく、先に説明
したのと同様のダイナミックプログラミング比較技法を
使用して、現在Mグラムを注釈の現在部分と比較するの
である。すなわち、この実施形態で使用される比較技法
は先に挙げた式(4)と、混同統計値とを使用して、DP
比較の間にMグラム音素の1つと注釈音素の1つとの間
に起こりうる混同のスコアを判定する。当業者には理解
されるであろうが、それぞれの整列は問い合わせの3つ
の音素を現在注釈の3つの音素と整列させるだけである
ので、この実施形態で使用されるダイナミックプログラ
ミング制約を簡略化することができる。
示すステップS13及びS21で音素探索を実行すると
きの第1のステップは、問い合わせ音素系列の中にある
全ての異なるMグラムと、問い合わせの中におけるそれ
らの出現頻度を、例えば、ブール探索を使用して識別す
る。この後、探索エンジン53は格納されているそれぞ
れの注釈における識別されたMグラムの出現頻度を判定
する。この実施形態では、これを実行するために、Mグ
ラムを注釈に沿って有効にステップ配列し、ステップご
とに、現在MグラムをそのMグラムと同じ大きさを有する
注釈の一部と比較することにより、それぞれのMグラム
を注釈全体に沿って整列させる。図22に示すMグラム
の場合、この動作は、各Mグラムを注釈音素a0、a1及びa
2と比較し、次に注釈音素a1、a2及びa3と比較し、次に
注釈音素a2、a3及びa4と比較し、それ以降も同様の動作
を続けることから成る。この実施形態においては、ステ
ップごとにブール比較を実行するのではなく、先に説明
したのと同様のダイナミックプログラミング比較技法を
使用して、現在Mグラムを注釈の現在部分と比較するの
である。すなわち、この実施形態で使用される比較技法
は先に挙げた式(4)と、混同統計値とを使用して、DP
比較の間にMグラム音素の1つと注釈音素の1つとの間
に起こりうる混同のスコアを判定する。当業者には理解
されるであろうが、それぞれの整列は問い合わせの3つ
の音素を現在注釈の3つの音素と整列させるだけである
ので、この実施形態で使用されるダイナミックプログラ
ミング制約を簡略化することができる。
【0126】現在Mグラムと現在注釈の現在部分との整
列ごとにダイナミックプログラミングスコアを計算した
ならば、このスコアを先に説明した正規化と同様の方法
で正規化する。しかし、この実施形態では、スコアは現
在注釈の現在部分と、現在Mグラムの双方に関して正規
化される。更に、この実施形態では、計算される正規化
項は、未知の音素のモデル系列に対する削除と挿入を考
慮に入れない。言い換えれば、注釈音素aiと問い合わせ
音素qjとの整列に対して、システムは、
列ごとにダイナミックプログラミングスコアを計算した
ならば、このスコアを先に説明した正規化と同様の方法
で正規化する。しかし、この実施形態では、スコアは現
在注釈の現在部分と、現在Mグラムの双方に関して正規
化される。更に、この実施形態では、計算される正規化
項は、未知の音素のモデル系列に対する削除と挿入を考
慮に入れない。言い換えれば、注釈音素aiと問い合わせ
音素qjとの整列に対して、システムは、
【0127】
【数16】
【0128】を計算するのである。このような正規化項
の単純化は、この実施形態では、注釈の3つの音素と整
合すべき問い合わせの音素が3つだけであり、従って、
Mグラムの比較のたびに、音素の挿入又は削除が起こる
ということは有りそうもないという理由により実行可能
である。しかし、Mグラムの大きさが増せば、挿入や削
除を考慮した正規化項を使用する方が好ましいであろ
う。
の単純化は、この実施形態では、注釈の3つの音素と整
合すべき問い合わせの音素が3つだけであり、従って、
Mグラムの比較のたびに、音素の挿入又は削除が起こる
ということは有りそうもないという理由により実行可能
である。しかし、Mグラムの大きさが増せば、挿入や削
除を考慮した正規化項を使用する方が好ましいであろ
う。
【0129】現在注釈に沿って現在Mグラムを走査し終
わったとき、多数のDPスコアが計算されているはずであ
る。当業者には理解されるであろうが、計算されるDPス
コアの数はMグラムの大きさに対する現在注釈の長さ
と、ステップサイズ(通常は1音素である)とによって
決まる。そこで、現在注釈において現在Mグラムが出現
する回数は、DPスコアが所定の閾値を越える回数を数え
ることにより求められる。このことを図23に示す。図
23は、現在Mグラム(Mi)を現在注釈に沿ってステッ
プ配列した場合にDPスコアがどのように変化するかを、
使用される閾値と共に示す。図示されているように、M
グラムの音素の数をMとしたとき、2Mの閾値が適切な閾
値であることがわかった。図23に示す例の場合、DPス
コアは閾値を5回越えているので、現在注釈における現
在Mグラム(Mi)の出現回数は5回である。入力問い合
わせの全ての異なるMグラムを現在注釈を整列させたな
らば、各Mグラムが現在注釈と問い合わせの双方で現れ
る回数がわかる。これを図22に示す4つのMグラムに
ついて以下の表に示す。
わったとき、多数のDPスコアが計算されているはずであ
る。当業者には理解されるであろうが、計算されるDPス
コアの数はMグラムの大きさに対する現在注釈の長さ
と、ステップサイズ(通常は1音素である)とによって
決まる。そこで、現在注釈において現在Mグラムが出現
する回数は、DPスコアが所定の閾値を越える回数を数え
ることにより求められる。このことを図23に示す。図
23は、現在Mグラム(Mi)を現在注釈に沿ってステッ
プ配列した場合にDPスコアがどのように変化するかを、
使用される閾値と共に示す。図示されているように、M
グラムの音素の数をMとしたとき、2Mの閾値が適切な閾
値であることがわかった。図23に示す例の場合、DPス
コアは閾値を5回越えているので、現在注釈における現
在Mグラム(Mi)の出現回数は5回である。入力問い合
わせの全ての異なるMグラムを現在注釈を整列させたな
らば、各Mグラムが現在注釈と問い合わせの双方で現れ
る回数がわかる。これを図22に示す4つのMグラムに
ついて以下の表に示す。
【0130】
【表2】
【0131】この情報によって、出現頻度を比較するこ
とにより、入力問い合わせと現在注釈との類似度を表す
類似度スコアを計算することが可能になる。この実施形
態では、この類似度スコアは、入力問い合わせと現在注
釈における識別されたMグラムの出現頻度をベクトルと
して使用し、余弦尺度を利用して判定される。この技法
の基礎となる原理は、入力問い合わせが現在注釈に類似
しているならば、Mグラムの特徴の出現頻度は2つの音
素列について類似しているということである。従って、
Mグラムの出現頻度をベクトルであると考えれば(すな
わち、上記の表の第2列及び第3列をベクトルとして考え
れば)、入力問い合わせと現在注釈との間に高い類似性
が認められる場合、それらのベクトルが成す角度は小さ
くなるはずである。このことを二次元ベクトルa及びqに
関して図24に示す。図中、ベクトルの角度はθとして示
されている。上記の例では、ベクトルa及びqは四次元ベ
クトルになり(4つの異なるMグラムに対して1つず
つ)、類似度スコアは次の式から計算できる。
とにより、入力問い合わせと現在注釈との類似度を表す
類似度スコアを計算することが可能になる。この実施形
態では、この類似度スコアは、入力問い合わせと現在注
釈における識別されたMグラムの出現頻度をベクトルと
して使用し、余弦尺度を利用して判定される。この技法
の基礎となる原理は、入力問い合わせが現在注釈に類似
しているならば、Mグラムの特徴の出現頻度は2つの音
素列について類似しているということである。従って、
Mグラムの出現頻度をベクトルであると考えれば(すな
わち、上記の表の第2列及び第3列をベクトルとして考え
れば)、入力問い合わせと現在注釈との間に高い類似性
が認められる場合、それらのベクトルが成す角度は小さ
くなるはずである。このことを二次元ベクトルa及びqに
関して図24に示す。図中、ベクトルの角度はθとして示
されている。上記の例では、ベクトルa及びqは四次元ベ
クトルになり(4つの異なるMグラムに対して1つず
つ)、類似度スコアは次の式から計算できる。
【0132】
【数17】
【0133】次に、このスコアを現在注釈と関連付け、
探索の終了に至るまで格納する。同様にして入力問い合
わせを全ての注釈と比較したならば、制御装置はスコア
を考慮し、例えば、計算されたスコアを所定の閾値と比
較することにより、整合があるか否かを識別する。
探索の終了に至るまで格納する。同様にして入力問い合
わせを全ての注釈と比較したならば、制御装置はスコア
を考慮し、例えば、計算されたスコアを所定の閾値と比
較することにより、整合があるか否かを識別する。
【0134】あるいは、類似度スコアに余弦尺度を使用
する代わりに、入力問い合わせと現在注釈における識別
されたMグラムの出現頻度を使用して、多項類似度スコ
アを判定しても良い。この技法の基礎となる基本的な前
提は、Mグラムが特徴の閉じた集合を形成し、注釈のデ
ータベースと未知のクラスの問い合わせが、分類に基づ
く動作すべきシナリオを規定するということである。こ
の実施形態では、43の異なる音素が存在し、各Mグラ
ムは3つの音素を有する。その結果、集合の大きさは約
80,000(433)となる。しかし、以下に示すよう
に、実際には、現在問い合わせの中にあるMグラムを考
慮するだけで良い。
する代わりに、入力問い合わせと現在注釈における識別
されたMグラムの出現頻度を使用して、多項類似度スコ
アを判定しても良い。この技法の基礎となる基本的な前
提は、Mグラムが特徴の閉じた集合を形成し、注釈のデ
ータベースと未知のクラスの問い合わせが、分類に基づ
く動作すべきシナリオを規定するということである。こ
の実施形態では、43の異なる音素が存在し、各Mグラ
ムは3つの音素を有する。その結果、集合の大きさは約
80,000(433)となる。しかし、以下に示すよう
に、実際には、現在問い合わせの中にあるMグラムを考
慮するだけで良い。
【0135】問い合わせと現在注釈におけるMグラムの
出現頻度をベクトルであると考えて(すなわち、先の表
の第2列と第3列をベクトルとして考えて)、この技法
は、これら2つのベクトルが同じ多項モデル(θ)によ
り生成されたものと仮定する。更に、それぞれのMグラ
ムの出現頻度がその他の頻度とは無関係であると考える
ことにより、モデル(θ)が与えられたときのベクトル
の一方を生成する確率は次のようになる。
出現頻度をベクトルであると考えて(すなわち、先の表
の第2列と第3列をベクトルとして考えて)、この技法
は、これら2つのベクトルが同じ多項モデル(θ)によ
り生成されたものと仮定する。更に、それぞれのMグラ
ムの出現頻度がその他の頻度とは無関係であると考える
ことにより、モデル(θ)が与えられたときのベクトル
の一方を生成する確率は次のようになる。
【0136】
【数18】
【0137】式中、 は出現頻度のベクトル、xiはi
番目のMグラムの出現頻度、θ1、θ2...θmはモデル
パラメータ、mはシステム中の一意Mグラムの数(すなわ
ち、433)である。問い合わせにおけるMグラムの出
現頻度のベクトルを とし、現在注釈におけるMグラム
の出現頻度のベクトルを とするとき、従来の分類理
論から、それら2つのベクトルの類似度のスコアは次の
式により求められる。
番目のMグラムの出現頻度、θ1、θ2...θmはモデル
パラメータ、mはシステム中の一意Mグラムの数(すなわ
ち、433)である。問い合わせにおけるMグラムの出
現頻度のベクトルを とし、現在注釈におけるMグラム
の出現頻度のベクトルを とするとき、従来の分類理
論から、それら2つのベクトルの類似度のスコアは次の
式により求められる。
【0138】
【数19】
【0139】モデルの先験的確率P(θ)がパラメータ
αを有するディリクレ分布であると仮定すると、この式
は次のように展開される。
αを有するディリクレ分布であると仮定すると、この式
は次のように展開される。
【0140】
【数20】
【0141】これを一連のベータ積分及びガンマ関数と
して解くと、次のようになる。
して解くと、次のようになる。
【0142】
【数21】
【0143】式中、Aiは注釈におけるi番目のMグラム
の出現頻度、jは括弧内の項が問い合わせ中にi番目のM
グラムが出現するたびに計算されるように保証するため
に使用されるループカウンタ、Dは特徴で測定される注
釈の全長(すなわち、Σm i=1Ai)、jsは大括弧内の項
が計算されるたびに増分される指標である。この実施形
態では、PhilipGarnerの論文「On Topic Spotting and
Dialogue Move Recognition」(Computer Speech andLa
nguage,11:275−306,1997年)に記載さ
れている論拠に従って、mは433であり、αは0.1で
あるとみなされる。尚、この論文の内容は参考として本
明細書中に取り入れられている。通常は、αは0から1
であるが、先験的知識が豊富にあるような状況では、α
は1より大きくても良い。当業者には理解されるであろ
うが、式(17)の括弧内の項は注釈においてi番目の
Mグラムが現れる確率を表す尺度である。この式のα及
びmαは、Dが小さいときに確率の項が所定のレベルを下
回らないように保証するために規定されている。従っ
て、この実施形態では、入力問い合わせと各々の注釈と
の類似度について計算される類似度尺度は、単に、注釈
に現れるMグラムの確率の積である。
の出現頻度、jは括弧内の項が問い合わせ中にi番目のM
グラムが出現するたびに計算されるように保証するため
に使用されるループカウンタ、Dは特徴で測定される注
釈の全長(すなわち、Σm i=1Ai)、jsは大括弧内の項
が計算されるたびに増分される指標である。この実施形
態では、PhilipGarnerの論文「On Topic Spotting and
Dialogue Move Recognition」(Computer Speech andLa
nguage,11:275−306,1997年)に記載さ
れている論拠に従って、mは433であり、αは0.1で
あるとみなされる。尚、この論文の内容は参考として本
明細書中に取り入れられている。通常は、αは0から1
であるが、先験的知識が豊富にあるような状況では、α
は1より大きくても良い。当業者には理解されるであろ
うが、式(17)の括弧内の項は注釈においてi番目の
Mグラムが現れる確率を表す尺度である。この式のα及
びmαは、Dが小さいときに確率の項が所定のレベルを下
回らないように保証するために規定されている。従っ
て、この実施形態では、入力問い合わせと各々の注釈と
の類似度について計算される類似度尺度は、単に、注釈
に現れるMグラムの確率の積である。
【0144】実行される計算を例示するために、先の表
に挙げた出現の頻度に対して上記の式を評価する。従っ
て、この例では、Q(Qの上部に横線)はベクトル
〔1,1,2,1〕であり、A(Aの上部に横線)はベ
クトル[0,2,2,1]である。そこで、現在問い合
わせ及び現在注釈の類似度スコア(P(Q|A))は次
の通りである。
に挙げた出現の頻度に対して上記の式を評価する。従っ
て、この例では、Q(Qの上部に横線)はベクトル
〔1,1,2,1〕であり、A(Aの上部に横線)はベ
クトル[0,2,2,1]である。そこで、現在問い合
わせ及び現在注釈の類似度スコア(P(Q|A))は次
の通りである。
【0145】
【数22】
【0146】次に、このスコアを現在注釈と関連付け、
探索の終了に至るまで格納する。入力問い合わせを同様
にして全ての注釈と比較し終わったならば、制御装置は
スコアを考慮し、最大のスコアを有する注釈として、問
い合わせに最も良く整合する注釈を識別する。
探索の終了に至るまで格納する。入力問い合わせを同様
にして全ての注釈と比較し終わったならば、制御装置は
スコアを考慮し、最大のスコアを有する注釈として、問
い合わせに最も良く整合する注釈を識別する。
【0147】上記の実施形態では、問い合わせ音素の系
列から同じ大きさのMグラムを取り出していた。当業者
には理解されるであろうが、同じ問い合わせから異なる
大きさのMグラムを取り出しても良い。しかし、複雑さ
が増すため、そのような実施形態は好ましくない。
列から同じ大きさのMグラムを取り出していた。当業者
には理解されるであろうが、同じ問い合わせから異なる
大きさのMグラムを取り出しても良い。しかし、複雑さ
が増すため、そのような実施形態は好ましくない。
【0148】上記の実施形態では、特定のダイナミック
プログラミング整列及びスコア判定アルゴリズムを使用
して、問い合わせから取り出されたMグラムを対応する
注釈の部分と整列させていた。当業者には理解されるで
あろうが、ダイナミックプログラミング以外の技法を使
用して、Mグラムを注釈と整列させることも可能であ
り、各Mグラムと注釈の各部分との類似度を別の尺度で
表すことも可能である。例えば、Mグラムの特徴を1対
1の関係で注釈の対応する部分と整列させ、全ての未知
の音素にわたり加算するのではなく(すなわち、先の式
(4)を使用せずに)整列した注釈音素と対応するMグ
ラムの音素とを混同する確率を混同統計値を使用して計
算しても良い。
プログラミング整列及びスコア判定アルゴリズムを使用
して、問い合わせから取り出されたMグラムを対応する
注釈の部分と整列させていた。当業者には理解されるで
あろうが、ダイナミックプログラミング以外の技法を使
用して、Mグラムを注釈と整列させることも可能であ
り、各Mグラムと注釈の各部分との類似度を別の尺度で
表すことも可能である。例えば、Mグラムの特徴を1対
1の関係で注釈の対応する部分と整列させ、全ての未知
の音素にわたり加算するのではなく(すなわち、先の式
(4)を使用せずに)整列した注釈音素と対応するMグ
ラムの音素とを混同する確率を混同統計値を使用して計
算しても良い。
【0149】上記の実施形態では、各Mグラムを各注釈
に沿って始めから終わりまでステップ配列、すなわち、
走査していた。当業者には理解されるであろうが、各M
グラムを注釈の各部分とどのように又はどのような順序
で比較するかは重要ではない。重要なのは、問い合わせ
及びそれぞれの注釈の中で各Mグラムが現れる回数を首
尾一貫した方式で識別することである。更に、当業者に
は理解されるであろうが、問い合わせ及び注釈における
Mグラムの出現頻度を識別するためにダイナミックプロ
グラミング技法を使用することは不可欠ではない。例え
ば、Mグラムと注釈の対応する部分との厳密な整合を見
出すブール整合動作を実行することも可能であろう。し
かし、注釈と問い合わせの双方で同じ認識ミスが起こら
ない限り、この方法は注釈又は問い合わせのいずれか一
方における認識ミスを考慮に入れないため、好ましくな
い。
に沿って始めから終わりまでステップ配列、すなわち、
走査していた。当業者には理解されるであろうが、各M
グラムを注釈の各部分とどのように又はどのような順序
で比較するかは重要ではない。重要なのは、問い合わせ
及びそれぞれの注釈の中で各Mグラムが現れる回数を首
尾一貫した方式で識別することである。更に、当業者に
は理解されるであろうが、問い合わせ及び注釈における
Mグラムの出現頻度を識別するためにダイナミックプロ
グラミング技法を使用することは不可欠ではない。例え
ば、Mグラムと注釈の対応する部分との厳密な整合を見
出すブール整合動作を実行することも可能であろう。し
かし、注釈と問い合わせの双方で同じ認識ミスが起こら
ない限り、この方法は注釈又は問い合わせのいずれか一
方における認識ミスを考慮に入れないため、好ましくな
い。
【0150】上記の実施形態では、システムは入力問い
合わせにおけるいくつかの異なるMグラムを識別し、そ
の後、注釈におけるそれらのMグラムの出現頻度を判定
していた。当業者には理解されるであろうが、それぞれ
の注釈をデータベースにロードするとき、システムは起
こりうるMグラムそれぞれの出現頻度を識別するために
注釈を走査し、この数のベクトルを格納しておき、後に
検索動作でそのベクトルを利用しても良い。
合わせにおけるいくつかの異なるMグラムを識別し、そ
の後、注釈におけるそれらのMグラムの出現頻度を判定
していた。当業者には理解されるであろうが、それぞれ
の注釈をデータベースにロードするとき、システムは起
こりうるMグラムそれぞれの出現頻度を識別するために
注釈を走査し、この数のベクトルを格納しておき、後に
検索動作でそのベクトルを利用しても良い。
【0151】上記の実施形態では、問い合わせと各注釈
との類似度を、式(16)で定義したような確率尺度の
積を求めることにより判定していた。当業者には理解さ
れるであろうが、式(16)の大括弧の中で定義されて
いる確率尺度以外の確率尺度を使用しても良い。例え
ば、システムは確立尺度としてAi/Dを計算しても良
く、現在注釈が短く、従って、多くのMグラムを含んで
いないために確率の信頼性が低い場合には、何らかの所
定の定数を使用して、この確率尺度を調整しても良い。
との類似度を、式(16)で定義したような確率尺度の
積を求めることにより判定していた。当業者には理解さ
れるであろうが、式(16)の大括弧の中で定義されて
いる確率尺度以外の確率尺度を使用しても良い。例え
ば、システムは確立尺度としてAi/Dを計算しても良
く、現在注釈が短く、従って、多くのMグラムを含んで
いないために確率の信頼性が低い場合には、何らかの所
定の定数を使用して、この確率尺度を調整しても良い。
【0152】上記の実施形態では、整列され、整合した
注釈と問い合わせの特徴は音声の単位を表現していた。
当業者には理解されるであろうが、特徴系列を生成した
認識システムの不正確さのために問い合わせと注釈の特
徴が混同を引き起こす可能性のある他の用途にも上述の
技法を適用できる。例えば、1つの入力文字を別の文字
と間違える可能性がある光学式文字認識システム又は手
書き文字認識システムに、上述の技法を利用することが
可能であろう。以上、いくつかの実施形態とその変形例
を説明した。当業者には理解されるであろうが、当業者
には明白である実施形態及び変形例は他にも数多く存在
する。
注釈と問い合わせの特徴は音声の単位を表現していた。
当業者には理解されるであろうが、特徴系列を生成した
認識システムの不正確さのために問い合わせと注釈の特
徴が混同を引き起こす可能性のある他の用途にも上述の
技法を適用できる。例えば、1つの入力文字を別の文字
と間違える可能性がある光学式文字認識システム又は手
書き文字認識システムに、上述の技法を利用することが
可能であろう。以上、いくつかの実施形態とその変形例
を説明した。当業者には理解されるであろうが、当業者
には明白である実施形態及び変形例は他にも数多く存在
する。
【図1】 ユーザからの文字入力又は音声入力から生成
される注釈データによってデータファイルに注釈付けす
るために使用できるユーザ端末装置を示す概略ブロック
線図。
される注釈データによってデータファイルに注釈付けす
るために使用できるユーザ端末装置を示す概略ブロック
線図。
【図2】 データファイルに注釈付けするためにユーザ
による文字入力から生成される音素と語の束注釈データ
の概略図。
による文字入力から生成される音素と語の束注釈データ
の概略図。
【図3】 データファイルに注釈付けするためにユーザ
による音声入力から生成される音素と語の束注釈データ
の概略図。
による音声入力から生成される音素と語の束注釈データ
の概略図。
【図4】 ユーザが文字問い合わせ又は音声問い合わせ
によりデータベースから情報を検索するために使用でき
るユーザ端末装置の概略ブロック線図。
によりデータベースから情報を検索するために使用でき
るユーザ端末装置の概略ブロック線図。
【図5a】 図4に示すユーザ端末装置の制御の流れの
一部を示す流れ図。
一部を示す流れ図。
【図5b】 図4に示すユーザ端末装置の制御の流れの
残る部分を示す流れ図。
残る部分を示す流れ図。
【図6a】 問い合わせと注釈の双方を生成したと想定
される基礎統計モデルを示す概略図。
される基礎統計モデルを示す概略図。
【図6b】 文字入力を表す第1の音素の系列と、ユー
ザの音声入力を表す第2の音素の系列とを示し、且つ文
字入力に対してユーザの音声入力の音素の挿入及び削除
が起こりうる可能性を示す概略図。
ザの音声入力を表す第2の音素の系列とを示し、且つ文
字入力に対してユーザの音声入力の音素の挿入及び削除
が起こりうる可能性を示す概略図。
【図6c】 それぞれが音声入力を表す第1及び第2の
音素の系列と、対応する音声入力において実際に話され
た言葉に対応する音素の標準系列を表す第3の音素の系
列とを示し、且つ対応する音素の標準系列に対して2つ
の音声入力の音素の挿入及び削除が起こりうる可能性を
示す概略図。
音素の系列と、対応する音声入力において実際に話され
た言葉に対応する音素の標準系列を表す第3の音素の系
列とを示し、且つ対応する音素の標準系列に対して2つ
の音声入力の音素の挿入及び削除が起こりうる可能性を
示す概略図。
【図7】 注釈音素の系列及び問い合わせ音素の系列に
よりスタートヌルノード及びエンドヌルノードと共に作
成される探索スペースを概略的に示す図。
よりスタートヌルノード及びエンドヌルノードと共に作
成される探索スペースを概略的に示す図。
【図8】 水平軸が注釈の音素を表し、水平軸は問い合
わせの音素を表し、それぞれが1つの注釈音素と1つの
問い合わせ音素との間で起こりうる整合に対応するいく
つかの束ポイントを示す二次元図。
わせの音素を表し、それぞれが1つの注釈音素と1つの
問い合わせ音素との間で起こりうる整合に対応するいく
つかの束ポイントを示す二次元図。
【図9a】 注釈が文字入力であり且つ問い合わせは音
声入力である場合にダイナミックプログラミング整合プ
ロセスで採用されるダイナミックプログラミング制約を
概略的に示す図。
声入力である場合にダイナミックプログラミング整合プ
ロセスで採用されるダイナミックプログラミング制約を
概略的に示す図。
【図9b】 問い合わせが文字入力であり且つ注釈は音
声入力である場合にダイナミックプログラミング整合プ
ロセスで採用されるダイナミックプログラミング制約を
概略的に示す図。
声入力である場合にダイナミックプログラミング整合プ
ロセスで採用されるダイナミックプログラミング制約を
概略的に示す図。
【図10】 音素の一例について格納される削除と復号
の確率を概略的に示す図。
の確率を概略的に示す図。
【図11】 注釈と問い合わせが共に音声入力である場
合にダイナミックプログラミング整合プロセスで採用さ
れるダイナミックプログラミング制約を概略的に示す
図。
合にダイナミックプログラミング整合プロセスで採用さ
れるダイナミックプログラミング制約を概略的に示す
図。
【図12】 ダイナミックプログラミング整合プロセス
で実行される主処理ステップを示す流れ図。
で実行される主処理ステップを示す流れ図。
【図13】 ヌルスタートノードから可能な全てのスタ
ートポイントへ伝搬することによりダイナミックプログ
ラミングプロセスを開始するために採用される主処理ス
テップを示す流れ図。
ートポイントへ伝搬することによりダイナミックプログ
ラミングプロセスを開始するために採用される主処理ス
テップを示す流れ図。
【図14】 スタートポイントから可能な全てのエンド
ポイントまでのダイナミックプログラミング経路を伝搬
するために採用される主処理ステップを示す流れ図。
ポイントまでのダイナミックプログラミング経路を伝搬
するために採用される主処理ステップを示す流れ図。
【図15】 エンドポイントからヌルエンドノードに至
る経路を伝搬する際に採用される主処理ステップを示す
流れ図。
る経路を伝搬する際に採用される主処理ステップを示す
流れ図。
【図16a】 ダイナミックプログラミング制約を使用
して経路を伝搬する際に実行される処理ステップの一部
を示す流れ図。
して経路を伝搬する際に実行される処理ステップの一部
を示す流れ図。
【図16b】 ダイナミックプログラミング制約を使用
して経路を伝搬する際に関係する残りの処理ステップを
示す流れ図。
して経路を伝搬する際に関係する残りの処理ステップを
示す流れ図。
【図17】 1つの経路をスタートポイントからエンド
ポイントまで伝搬するために遷移スコアを判定する際に
関係する処理ステップを示す流れ図。
ポイントまで伝搬するために遷移スコアを判定する際に
関係する処理ステップを示す流れ図。
【図18a】 注釈音素及び問い合わせ音素の削除と復
号に関してスコアを計算する際に採用される処理ステッ
プの一部を示す流れ図。
号に関してスコアを計算する際に採用される処理ステッ
プの一部を示す流れ図。
【図18b】 注釈音素及び問い合わせ音素の削除と復
号に関してスコアを判定する際に採用される残りのステ
ップを示す流れ図。
号に関してスコアを判定する際に採用される残りのステ
ップを示す流れ図。
【図19a】 問い合わせを各注釈と整列させるために
異なる技法を採用する別の実施形態を概略的に示す図。
異なる技法を採用する別の実施形態を概略的に示す図。
【図19b】 図19aに示す実施形態において問い合わ
せと注釈との比較にともなってダイナミックプログラミ
ングスコアがどのように変化するかを示す図。
せと注釈との比較にともなってダイナミックプログラミ
ングスコアがどのように変化するかを示す図。
【図20】 入力音声問い合わせに応答して遠隔サーバ
に配置されたデータベースからデータファイルを検索す
るように動作する別のユーザ端末装置の形態を示す概略
ブロック線図。
に配置されたデータベースからデータファイルを検索す
るように動作する別のユーザ端末装置の形態を示す概略
ブロック線図。
【図21】 入力音声問い合わせに応答して遠隔サーバ
に配置されたデータベースからユーザがデータを検索で
きる別のユーザ端末装置を示す図。
に配置されたデータベースからユーザがデータを検索で
きる別のユーザ端末装置を示す図。
【図22】 1つの音素列と、その音素列から生成され
る4つのMグラムとの形態を示す概略ブロック線図。
る4つのMグラムとの形態を示す概略ブロック線図。
【図23】 図22に示すMグラムの1つと注釈音素の
系列との比較にともなってダイナミックプログラミング
スコアがどのように変化するかを示す図。
系列との比較にともなってダイナミックプログラミング
スコアがどのように変化するかを示す図。
【図24】 2つのベクトルと、それら2つのベクトル
が成す角度とを示す図。
が成す角度とを示す図。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06T 7/00 G10L 3/00 531F G10L 15/12 533A 15/18 537E 537H (31)優先権主張番号 GB0025202.3 (32)優先日 平成12年10月13日(2000.10.13) (33)優先権主張国 イギリス(GB) (72)発明者 ジェイソン ピーター アンドリュー チ ャールズワース イギリス国 ジーユー2 5ワイジェイ サリー, ギルドフォード, サリー リ サーチ パーク, オッカム ロード, オッカム コート 1 キヤノン リサー チ センター ヨーロッパ リミテッド 内 (72)発明者 樋口 麻子 東京都大田区下丸子3丁目30番2号 キヤ ノン株式会社内
Claims (120)
- 【請求項1】 第1の特徴系列及び第2の特徴系列を受
信する手段と、 前記第1の特徴系列の中で、複数の異なる第1の特徴部
分列を識別する手段と、 前記異なる第1の特徴部分列の各々が前記第1の特徴系
列の中で現れる回数を判定し、それを出力する第1の判
定手段と、 前記第2の特徴系列から複数の第2の特徴部分列を定義
する手段と、 第1の特徴部分列の各々を第2の特徴部分列の各々と比
較することにより、前記異なる第1の特徴部分列の各々
が前記第2の特徴系列の中で現れる回数を判定し、それ
を出力する第2の判定手段と、 前記第1の判定手段から出力される回数と前記第2の判
定手段から出力される回数とを比較することにより、第
1の特徴系列と第2の特徴系列との類似の尺度を計算す
る手段とを具備する特徴比較装置において、 前記第2の判定手段は、 複数の異なる特徴の類似度を定義する類似度情報を含む
所定のデータを使用して、現在の第1の特徴部分列を第
2の特徴部分列の各々と比較し、 一組の類似度尺度を求める手段と、 一組の類似度尺度の各々を所定の閾値と比較し、閾値比
較結果を出力する手段と、 前記閾値比較結果に従って現在の第1の特徴部分列と関
連するカウントを増分する手段とを具備することを特徴
とする特徴比較装置。 - 【請求項2】 前記第1の特徴部分列の各々は同数の特
徴を含む請求項1記載の特徴比較装置。 - 【請求項3】 前記第2の特徴部分列の各々は同数の特
徴を含む請求項1又は2記載の特徴比較装置。 - 【請求項4】 前記第2の特徴部分列は前記第1の特徴
部分列と同じ数の特徴を含む請求項1から3のいずれか
1項に記載の特徴比較装置。 - 【請求項5】 前記第1の判定手段は、第1の特徴部分
列の各々と、第1の特徴系列とのブール整合を実行する
手段と、現在の第1の特徴部分列が第1の特徴系列の中
の1つの特徴部分列と整合するたびに、現在の特徴部分
列と関連するカウントを増分する手段とを具備する請求
項1から4のいずれか1項に記載の特徴比較装置。 - 【請求項6】 前記第2の判定手段は、現在の第1の特
徴部分列の特徴を現在の第2の特徴部分列の特徴と整列
させて、いくつかの特徴の整列対を形成する手段を更に
具備し、前記比較する手段は、前記類似度情報を使用し
て特徴の整列対ごとに特徴を比較し、その整列対の特徴
の類似度を表す比較スコアを生成し、且つ前記比較する
手段は、全ての特徴の整列対の比較スコアを組み合わせ
て、現在の第1の特徴部分列と現在の第2の特徴部分列
との類似度の尺度を求める手段を更に具備する請求項1
から5のいずれか1項に記載の特徴比較装置。 - 【請求項7】 前記比較する手段は、 整列対ごとに、その整列対の中の第1の部分列特徴を一
組の所定の特徴から取り出された複数の特徴の各々と比
較して、前記第1の部分列特徴と前記一組の所定の特徴
から取り出された各々の特徴との類似度を表す対応する
複数の中間比較スコアを求める第1の比較手段と、 整列対ごとに、その整列対の中の第2の部分列特徴を前
記一組の所定の特徴から取り出された前記複数の特徴の
各々と比較して、前記第2の部分列特徴と前記一組の所
定の特徴から取り出された各々の特徴との類似度を表す
別の対応する複数の中間比較スコアを求める第2の比較
手段と、 前記複数の中間比較スコアを組み合わせることにより、
整列対について前記比較スコアを計算する手段とを具備
する請求項6記載の特徴比較装置。 - 【請求項8】 前記第1の比較手段及び前記第2の比較
手段は、整列対の第1の部分列特徴及び第2の部分列特
徴を前記一組の所定の特徴の各々の特徴とそれぞれ比較
するように動作する請求項7記載の特徴比較装置。 - 【請求項9】 前記比較手段は、特徴の1つの整列対に
ついて、その整列対の第2の部分列特徴をその整列対の
第1の部分列特徴と混同する確率を表す比較スコアを生
成するように動作する請求項7又は8記載の特徴比較装
置。 - 【請求項10】 前記第1の比較手段及び前記第2の比
較手段は、前記一組の所定の特徴から取り出された対応
する特徴を整列対の特徴と混同する確率を示す中間比較
スコアを求めるように動作する請求項9記載の特徴比較
装置。 - 【請求項11】 前記計算する手段は、(i)整列対の
第1及び第2の部分列特徴を前記一組の所定の特徴から
取り出された同じ特徴と比較したときに求められた中間
スコアを乗算して、複数の乗算中間比較スコアを求め、
且つ(ii)その結果得られた乗算中間比較スコアを加算
して、その整列対の前記比較スコアを計算するように動
作する請求項10記載の特徴比較装置。 - 【請求項12】 前記一組の所定の特徴の中の前記特徴
の各々は、特徴系列の中で所定の確率で現れる特徴であ
り、且つ前記計算する手段は、前記乗算中間比較スコア
の各々に、乗算中間比較スコアを生成するために使用さ
れた、前記一組の所定の特徴から取り出された特徴のそ
れぞれの出現確率を重み付けするように動作する請求項
11記載の特徴比較装置。 - 【請求項13】 整列対の第1及び第2の部分列特徴を
それぞれqj及びaiとし、一組の所定の特徴から取り出さ
れた特徴prを第1の部分列特徴qjと混同する確率をP(q
j|pr)とし、一組の所定の特徴から取り出された特徴p
rを第2の部分列特徴aiと混同する確率をP(ai|pr)と
し、且つ前記一組の所定の特徴から取り出された特徴pr
がある1つの特徴系列の中で現れる確率をP(pr)とす
るとき、前記計算する手段は、 【数1】 を計算するように動作する請求項12記載の特徴比較装
置。 - 【請求項14】 第1の部分列特徴と第2の部分列特徴
の混同確率は、あらかじめ、第1及び第2の系列それぞ
れを生成するために使用された認識システムに応じて判
定されている請求項13記載の特徴比較装置。 - 【請求項15】 前記中間スコアは対数確率を表し、且
つ前記計算手段は、それぞれの中間スコアを加算するこ
とにより前記乗算を実行するように動作すると共に、対
数加算計算を実行することにより前記乗算スコアの前記
加算を実行するように動作する請求項11から14のい
ずれか1項に記載の特徴比較装置。 - 【請求項16】 前記組み合わせる手段は、全ての整列
対の比較スコアを加算して、前記類似度尺度を判定する
ように動作する請求項15記載の特徴比較装置。 - 【請求項17】 前記整列させる手段は、前記第1及び
第2の特徴系列からの特徴の削除と、特徴の挿入とを識
別するように動作し、且つ前記比較する手段は、特徴の
1つの整列対の近傍で起こり、前記整列させる手段によ
り識別された特徴の削除及び特徴の挿入に応じて、その
整列対の前記比較スコアを生成するように動作する請求
項6から16のいずれか1項に記載の特徴比較装置。 - 【請求項18】 前記整列させる手段は、前記第1及び
第2の特徴系列をダイナミックプログラミング技法を使
用して整列させるダイナミックプログラミング手段を具
備する請求項6から17のいずれか1項に記載の特徴比
較装置。 - 【請求項19】 前記ダイナミックプログラミング手段
は、前記現在の第1の特徴部分列と、前記現在の第2の
特徴部分列との間で起こりうる複数の整列を漸進的に判
定するように動作し、且つ前記比較する手段は、前記ダ
イナミックプログラミング手段により判定された起こり
うる特徴の整列対のそれぞれについて比較スコアを判定
するように動作する請求項18記載の特徴比較装置。 - 【請求項20】 前記比較する手段は、前記起こりうる
整列を漸進的に判定している間に前記比較スコアを生成
するように動作する請求項19記載の特徴比較装置。 - 【請求項21】 前記ダイナミックプログラミング手段
は、前記現在の第1の特徴部分列と前記現在の第2の特
徴部分列との最適の整列を判定するように動作し、且つ
前記組み合わせる手段は、最適に整列された特徴の整列
対についてのみ比較スコアを組み合わせることにより、
前記類似度尺度を求めるように動作する請求項18、1
9又は20記載の特徴比較装置。 - 【請求項22】 前記組み合わせる手段は、起こりうる
全ての特徴の整列対について全ての比較スコアを組み合
わせることにより、前記類似度尺度を求めるように動作
する請求項19又は20記載の特徴比較装置。 - 【請求項23】 前記第1及び第2の特徴部分列の各々
の特徴は前記一組の所定の特徴に属し、且つ前記類似度
情報は、前記一組の所定の特徴の各々に対して、その特
徴をその組の他の特徴のそれぞれと混同する確率を含む
請求項7から22のいずれか1項に記載の特徴比較装
置。 - 【請求項24】 前記混同する確率は、あらかじめ、第
1及び第2の特徴部分列を生成するために使用されたシ
ステムに応じて判定されている請求項23記載の特徴比
較装置。 - 【請求項25】 前記所定のデータは、前記一組の所定
の特徴の中の特徴ごとに、その特徴を特徴系列に挿入す
る確率を更に含む請求項23又は24記載の特徴比較装
置。 - 【請求項26】 前記所定のデータは、前記一組の所定
の特徴の中の特徴ごとに、その特徴が特徴系列から削除
される確率を更に含む請求項23、24又は25記載の
特徴比較装置。 - 【請求項27】 前記第2の判定手段は、前記類似度尺
度の各々を正規化する正規化手段を更に具備する請求項
6から26のいずれか1項に記載の特徴比較装置。 - 【請求項28】 前記正規化手段は、対応する第1及び
第2の特徴部分列の長さに応じて変化するそれぞれ対応
する正規化スコアで各類似度尺度を除算することによ
り、各類似度尺度を正規化するように動作する請求項2
7記載の特徴比較装置。 - 【請求項29】 それぞれの正規化スコアは、対応する
第1及び第2の特徴部分列における特徴系列に応じて変
化する請求項27又は28記載の特徴比較装置。 - 【請求項30】 ダイナミックプログラミング手段は、
前記現在の第1の特徴部分列と前記現在の第2の特徴部
分列との間で起こりうる複数の整列を漸進的に判定する
ように動作し、前記比較する手段は、前記ダイナミック
プログラミング手段により判定された起こりうる特徴の
整列対の各々について比較スコアを判定するように動作
し、且つ前記正規化手段は、前記ダイナミックプログラ
ミング手段により前記起こりうる整列が漸進的に計算さ
れている間に、それぞれの正規化スコアを計算するよう
に動作する請求項27から29のいずれか1項に記載の
特徴比較装置。 - 【請求項31】 前記定義する手段は、前記複数の第2
の部分列を第2の特徴系列の連続する部分として定義す
るように動作する請求項1から30のいずれか1項に記
載の特徴比較装置。 - 【請求項32】 前記連続する部分は1つの特徴により
互いに分離されている請求項31記載の特徴比較装置。 - 【請求項33】 前記計算する手段は、前記第1の判定
手段から出力される回数を第1のベクトルとして処理し
且つ前記第2の判定手段から出力される回数を第2のベ
クトルとして処理し、それら2つのベクトルが成す角度
の余弦尺度を判定することにより、前記類似度の尺度を
計算する請求項1から32のいずれか1項に記載の特徴
比較装置。 - 【請求項34】 前記第1及び第2の特徴系列は時系列
順信号を表す請求項1から33のいずれか1項に記載の
特徴比較装置。 - 【請求項35】 前記第1及び第2の特徴系列はオーデ
ィオ信号を表す請求項1から34のいずれか1項に記載
の特徴比較装置。 - 【請求項36】 前記第1及び第2の特徴系列は音声を
表す請求項35記載の特徴比較装置。 - 【請求項37】 前記特徴の各々は音声の1つの部分語
単位を表す請求項36記載の特徴比較装置。 - 【請求項38】 前記特徴の各々は1つの音素を表す請
求項37記載の特徴比較装置。 - 【請求項39】 前記第1の特徴系列は文字入力から生
成される複数の部分語単位から構成され、且つ前記類似
度情報はタイプミスの確率及び/又はスペルミスの確率
を含む請求項1から38のいずれか1項に記載の特徴比
較装置。 - 【請求項40】 前記第2の特徴系列は話し言葉入力か
ら生成される部分語単位の系列であり、且つ前記類似度
情報は認識ミスの確率を含む請求項1から39のいずれ
か1項に記載の特徴比較装置。 - 【請求項41】 前記受信する手段は、複数の第2の特
徴系列を受信するように動作し、前記第2の判定手段
は、前記第1の特徴部分列の各々が前記第2の特徴系列
の各々の中に現れる回数を判定して、それを出力するよ
うに動作し、且つ前記計算する手段は、第1の特徴系列
と前記複数の第2の特徴系列との類似度の尺度をそれぞ
れ計算するように動作する請求項1から40のいずれか
1項に記載の特徴比較装置。 - 【請求項42】 前記計算する手段により出力される前
記複数の類似度尺度を比較し、前記第1の特徴系列に最
も類似している第2の特徴系列を示す信号を出力する手
段を更に具備する請求項41記載の特徴比較装置。 - 【請求項43】 第1の特徴系列及び第2の特徴系列を
受信する手段と、 前記第1の特徴系列の中で複数の異なる第1の特徴部分
列を識別する手段と、 前記第1の特徴系列の中で前記異なる第1の部分列の各
々が現れる回数を求める第1の回数判定手段と、 前記第2の特徴系列の中で前記異なる第1の部分列の各
々が現れる回数を求める第2の回数判定手段と、 前記第1及び第2の回数判定手段から得られた回数を利
用して、第1の特徴系列と第2の特徴系列との類似度を
表す類似度スコアを計算する手段とを具備する特徴比較
装置において、 前記特徴比較装置は、前記第2の特徴系列の中の特徴部
分列の総数を求める第3の回数判定手段を更に具備し、 前記計算する手段は、 前記第2の回数判定手段から得られた回数及び第3の回
数判定手段から得られた回数を利用して、前記第1の部
分列の各々が前記第2の特徴系列の中で現れる確率の尺
度を計算する第1の計算手段と、 前記第1の回数判定手段から得られた前記回数に従っ
て、前記計算された確率尺度の積を求めることにより、
前記類似度スコアを計算する第2の計算手段とを具備す
ることを特徴とする特徴比較装置。 - 【請求項44】 前記第2の特徴系列で現れる第1の部
分列ごとに前記第1の計算手段により計算される確率尺
度は、前記第2の特徴系列の中で第1の部分列が現れる
前記第2の回数判定手段の回数に比例し、且つ第2の特
徴系列の中における特徴部分列の前記第3の回数判定手
段の総数に反比例する請求項43記載の特徴比較装置。 - 【請求項45】 括弧内の項をi番目の部分列について
前記第1の計算手段により計算される確率尺度とし、第
2の特徴系列の中でi番目の部分列が現れる回数をAiと
し、第1の特徴系列の中でi番目の部分列が現れるたび
に括弧内の確率尺度が確実に乗算されるように保証する
ために使用されるループカウンタをjとし、前記第3の
回数判定手段により得られる、第2の特徴系列の中にお
ける特徴部分列の総数をDとし、括弧内の確率尺度が計
算されるたびに増分される指標をjsとし、中括弧内の確
率尺度が所定の下限を下回らないように保証するための
定数をα及びmαとするとき、前記計算する手段は、 【数2】 を計算することにより、類似度尺度を計算するように動
作する請求項43又は44記載の特徴比較装置。 - 【請求項46】 αは0から1の間である請求項45記
載の特徴比較装置。 - 【請求項47】 前記第1の回数判定手段は、前記第1
の特徴部分列の各々と第1の特徴系列とのブール整合を
実行する手段と、現在の第1の特徴部分列が第1の特徴
系列の中の1つの特徴部分列と整合するたびに、現在の
第1の特徴部分列と関連するカウントを増分する手段と
を具備する請求項43から46のいずれか1項に記載の
特徴比較装置。 - 【請求項48】 前記第2の回数判定手段は、前記第1
の特徴部分列の各々と第2の特徴系列とのブール整合を
実行する手段と、現在の第1の特徴部分列が第2の特徴
系列の中の1つの特徴部分列と整合するたびに、現在の
第1の特徴部分列と関連するカウントを増分する手段と
を具備する請求項43から46のいずれか1項に記載の
特徴比較装置。 - 【請求項49】 前記第2の特徴系列から複数の第2の
特徴部分列を定義する手段を更に具備し、前記第2の回
数判定手段は、第1の特徴部分列の各々を第2の特徴部
分列の各々と比較することにより前記回数を求めるよう
に動作する請求項43から47のいずれか1項に記載の
特徴比較装置。 - 【請求項50】 前記第2の回数判定手段は、 異なる特徴の類似度を定義する類似度情報を含む所定の
データを使用して、現在の第1の特徴部分列を第2の特
徴部分列の各々と比較して、一組の類似度尺度を求める
手段と、 一組の類似度尺度の各類似度尺度を所定の閾値と比較
し、閾値比較結果を出力する手段と、 前記閾値比較結果に応じて、現在の特徴部分列と関連す
るカウントを増分する手段とを具備する請求項49記載
の特徴比較装置。 - 【請求項51】 前記第2の回数判定手段は、現在の第
1の特徴部分列の特徴を現在の第2の特徴部分列の特徴
と整列させて、いくつかの特徴の整列対を形成する手段
を更に具備し、前記比較する手段は、前記類似度情報を
使用して、それぞれの特徴の整列対の特徴を比較し、整
列対の特徴の類似度を表す比較スコアを生成するように
動作し、且つ前記比較する手段は、全ての特徴の整列対
について比較スコアを組み合わせて、現在の第1の特徴
部分列と現在の第2の特徴部分列との類似度の尺度を求
める手段を更に具備する請求項50記載の特徴比較装
置。 - 【請求項52】 前記第1及び第2の特徴系列の各々の
特徴は一組の所定の特徴に属し、且つ前記一組の所定の
特徴から形成できる特徴部分列の数をmとする請求項4
5記載の特徴比較装置。 - 【請求項53】 前記受信する手段は複数の第2の特徴
系列を受信するように動作し、前記第2の回数判定手段
は、前記第2の特徴系列の各々の中で前記第1の特徴部
分列が現れる回数を求めるように動作し、且つ前記計算
する手段は、第1の特徴系列と前記複数の第2の特徴系
列との類似度の尺度をそれぞれ計算するように動作する
請求項43から52のいずれか1項に記載の特徴比較装
置。 - 【請求項54】 前記計算する手段により出力される前
記複数の類似度尺度を比較し、前記第1の特徴系列に最
も類似している第2の特徴系列を示す信号を出力する手
段を更に具備する請求項53記載の特徴比較装置。 - 【請求項55】 各々が特徴系列から構成される関連す
る注釈を有する、検索すべき情報を識別するための複数
の情報エントリを含むデータベースを探索する装置にお
いて、 特徴系列から構成される入力問い合わせを受信する手段
と、 問い合わせの特徴系列を各注釈の特徴と比較して、一組
の比較結果を提供する、請求項1から54のいずれか1
項に記載の装置と、 前記比較結果を使用して、前記データベースから検索す
べき前記情報を識別する手段とを具備する装置。 - 【請求項56】 各々が音声特徴系列から構成される関
連する注釈を有し且つ検索すべき情報を識別する複数の
情報エントリを含むデータベースを探索する装置であっ
て、 音声特徴系列から構成される入力問い合わせを受信する
手段と、 問い合わせの音声特徴系列を各注釈の特徴と比較して、
一組の比較結果を提供する、請求項1から54のいずれ
か1項に記載の装置と、 前記比較結果を使用して、前記データベースから検索す
べき前記情報を識別する手段とを具備する装置におい
て、 請求項1から54のいずれか1項に記載の前記装置は、
複数の異なる比較動作モードを有し、且つ装置は、 (i)問い合わせの音声特徴系列がオーディオ信号から
生成されたか、又はテキストから生成されたかを判定
し、(ii)現在注釈の音声特徴系列がオーディオ信号か
ら生成されたか、又はテキストから生成されたかを判定
し、その判定結果を出力する手段と、 現在注釈について、前記判定結果に応じて請求項1から
54のいずれか1項に記載の前記装置の動作モードを選
択する手段とを更に具備することを特徴とする装置。 - 【請求項57】 第1の特徴系列及び第2の特徴系列を
受信する過程と、 前記第1の特徴系列の中で、複数の異なる第1の特徴部
分列を識別する過程と、 前記異なる第1の特徴部分列の各々が前記第1の特徴系
列の中で現れる回数を判定し、それを出力する第1の判
定過程と、 前記第2の特徴系列から複数の第2の特徴部分列を定義
する過程と、 第1の特徴部分列の各々を第2の特徴部分列の各々と比
較することにより、前記異なる第1の特徴部分列の各々
が前記第2の特徴系列の中で現れる回数を判定し、それ
を出力する第2の判定過程と、 前記第1の判定過程から出力される回数と前記第2の判
定過程から出力される回数とを比較することにより、第
1の特徴系列と第2の特徴系列との類似の尺度を計算す
る過程とから成る特徴比較方法において、 前記第2の判定過程は、 複数の異なる特徴の類似度を定義する類似度情報を含む
所定のデータを使用して、現在の第1の特徴部分列を第
2の特徴部分列の各々と比較し、一組の類似度尺度を求
める過程と、 一組の類似度尺度の各々を所定の閾値と比較し、閾値比
較結果を出力する過程と、 前記閾値比較結果に従って現在の第1の特徴部分列と関
連するカウントを増分する過程とを含むことを特徴とす
る特徴比較方法。 - 【請求項58】 前記第1の特徴部分列の各々は同数の
特徴を含む請求項57記載の特徴比較方法。 - 【請求項59】 前記第2の特徴部分列の各々は同数の
特徴を含む請求項57又は58記載の特徴比較方法。 - 【請求項60】 前記第2の特徴部分列は前記第1の特
徴部分列と同じ数の特徴を含む請求項57から59のい
ずれか1項に記載の特徴比較方法。 - 【請求項61】 前記第1の判定過程は、現在の第1の
特徴部分列と、第1の特徴系列とのブール整合を実行す
る過程と、現在の第1の特徴部分列が第1の特徴系列の
中の1つの特徴部分列と整合するたびに、現在の特徴部
分列と関連するカウントを増分する過程とを含む請求項
57から60のいずれか1項に記載の特徴比較方法。 - 【請求項62】 前記第2の判定過程は、現在の第1の
特徴部分列の特徴を現在の第2の特徴部分列の特徴と整
列させて、いくつかの特徴の整列対を形成する過程を更
に含み、前記比較する過程は、前記類似度情報を使用し
て特徴の整列対ごとに特徴を比較し、その整列対の特徴
の類似度を表す比較スコアを生成し、且つ前記比較する
過程は、全ての特徴の整列対の比較スコアを組み合わせ
て、現在の第1の特徴部分列と現在の第2の特徴部分列
との類似度の尺度を求める過程を更に含むる請求項57
から61のいずれか1項に記載の特徴比較方法。 - 【請求項63】 前記比較する過程は、 整列対ごとに、その整列対の中の第1の部分列特徴を一
組の所定の特徴から取り出された複数の特徴の各々と比
較して、前記第1の部分列特徴と前記一組の所定の特徴
から取り出された各々の特徴との類似度を表す対応する
複数の中間比較スコアを求める第1の比較過程と、 整列対ごとに、その整列対の中の第2の部分列特徴を前
記一組の所定の特徴から取り出された前記複数の特徴の
各々と比較して、前記第2の部分列特徴と前記一組の所
定の特徴から取り出された各々の特徴との類似度を表す
別の対応する複数の中間比較スコアを求める第2の比較
過程と、 前記複数の中間比較スコアを組み合わせることにより、
整列対について前記比較スコアを計算する過程とを含む
請求項62記載の特徴比較方法。 - 【請求項64】 前記第1の比較過程及び前記第2の比
較過程は、整列対の第1の部分列特徴及び第2の部分列
特徴を前記一組の所定の特徴の各々の特徴とそれぞれ比
較するように動作する請求項63記載の特徴比較方法。 - 【請求項65】 前記比較過程は、特徴の1つの整列対
について、その整列対の第2の部分列特徴をその整列対
の第1の部分列特徴と混同する確率を表す比較スコアを
生成するように動作する請求項63又は64記載の特徴
比較方法。 - 【請求項66】 前記第1の比較過程及び前記第2の比
較過程は、前記一組の所定の特徴から取り出された対応
する特徴を整列対の特徴と混同する確率を示す中間比較
スコアを求めるように動作する請求項65記載の特徴比
較方法。 - 【請求項67】 前記計算する過程は、(i)整列対の
第1及び第2の部分列特徴を前記一組の所定の特徴から
取り出された同じ特徴と比較したときに求められた中間
スコアを乗算して、複数の乗算中間比較スコアを求める
過程と、(ii)その結果得られた乗算中間比較スコアを
加算して、その整列対の前記比較スコアを計算する過程
とを含む請求項66記載の特徴比較方法。 - 【請求項68】 前記一組の所定の特徴の中の前記特徴
の各々は、特徴系列の中で所定の確率で現れる特徴であ
り、且つ前記計算する過程は、前記乗算中間比較スコア
の各々に、乗算中間比較スコアを生成するために使用さ
れた前記一組の所定の特徴から取り出された特徴のそれ
ぞれの出現確率を重み付けする請求項67記載の特徴比
較方法。 - 【請求項69】 整列対の第1及び第2の部分列特徴を
それぞれqj及びaiとし、一組の所定の特徴から取り出さ
れた特徴prを第1の部分列特徴qjと混同する確率をP(q
j|pr)とし、一組の所定の特徴から取り出された特徴p
rを第2の部分列特徴aiと混同する確率をP(ai|pr)と
し、且つ前記一組の所定の特徴から取り出された特徴pr
がある1つの特徴系列の中で現れる確率をP(pr)とす
るとき、前記計算する過程は、 【数3】 を計算する請求項68記載の特徴比較方法。 - 【請求項70】 第1の部分列特徴と第2の部分列特徴
の混同確率は、あらかじめ、第1及び第2の系列それぞ
れを生成するために使用された認識システムに応じて判
定されている請求項69記載の特徴比較方法。 - 【請求項71】 前記中間スコアは対数確率を表し、且
つ前記計算する過程は、それぞれの中間スコアを加算す
ることにより前記乗算を実行すると共に、対数加算計算
を実行することにより前記乗算スコアの前記加算を実行
する請求項67から70のいずれか1項に記載の特徴比
較方法。 - 【請求項72】 前記組み合わせる過程は、全ての整列
対の比較スコアを加算して、前記類似度尺度を判定する
請求項71記載の特徴比較方法。 - 【請求項73】 前記整列させる過程は、前記第1及び
第2の特徴系列からの特徴の削除と、特徴の挿入とを識
別し、且つ前記比較する過程は、特徴の1つの整列対の
近傍で起こり、前記整列させる手段により識別された特
徴の削除及び挿入に応じて、その整列対の前記比較スコ
アを生成するように動作する請求項62から72のいず
れか1項に記載の特徴比較方法。 - 【請求項74】 前記整列させる過程は、前記第1及び
第2の特徴系列を整列させるためにダイナミックプログ
ラミング整列アルゴリズムを使用する請求項62から7
3のいずれか1項に記載の特徴比較方法。 - 【請求項75】 前記ダイナミックプログラミングアル
ゴリズムは、前記現在の第1の特徴部分列と、前記現在
の第2の特徴部分列との間で起こりうる複数の整列を漸
進的に判定し、且つ前記比較する過程は、前記ダイナミ
ックプログラミングアルゴリズムにより判定された起こ
りうる特徴の整列対のそれぞれについて比較スコアを判
定する請求項74記載の特徴比較方法。 - 【請求項76】 前記比較する過程は、前記起こりうる
整列を漸進的に判定している間に前記比較スコアを生成
する請求項75記載の特徴比較方法。 - 【請求項77】 前記ダイナミックプログラミングアル
ゴリズムは、前記現在の第1の特徴部分列と前記現在の
第2の特徴部分列との最適の整列を判定し、且つ前記組
み合わせる過程は、最適に整列された特徴の整列対につ
いてのみ比較スコアを組み合わせることにより、前記類
似度尺度を求める請求項74、75又は76記載の特徴
比較方法。 - 【請求項78】 前記組み合わせる過程は、起こりうる
全ての特徴の整列対について全ての比較スコアを組み合
わせることにより、前記類似度尺度を求める請求項75
又は76記載の特徴比較方法。 - 【請求項79】 前記第1及び第2の特徴部分列の各々
の特徴は前記一組の所定の特徴に属し、且つ前記類似度
情報は、前記一組の所定の特徴の各々に対して、その特
徴をその組の他の特徴のそれぞれと混同する確率を含む
請求項57から78のいずれか1項に記載の特徴比較方
法。 - 【請求項80】 前記混同する確率は、あらかじめ、第
1及び第2の特徴部分列を生成するために使用されたシ
ステムに応じて判定されている請求項67記載の特徴比
較方法。 - 【請求項81】 前記所定のデータは、前記一組の所定
の特徴の中の特徴ごとに、その特徴を特徴系列に挿入す
る確率を更に含む請求項79又は80記載の特徴比較方
法。 - 【請求項82】 前記所定のデータは、前記一組の所定
の特徴の中の特徴ごとに、その特徴が特徴系列から削除
される確率を更に含む請求項79又は80記載の特徴比
較方法。 - 【請求項83】 前記第2の判定過程は、前記類似度尺
度の各々を正規化する過程を更に含む請求項62から8
2のいずれか1項に記載の特徴比較方法。 - 【請求項84】 前記正規化する過程は、対応する第1
及び第2の特徴部分列の長さに応じて変化するそれぞれ
対応する正規化スコアで各類似度尺度を除算することに
より、各類似度尺度を正規化する請求項83記載の特徴
比較方法。 - 【請求項85】 それぞれの正規化スコアは、対応する
第1及び第2の特徴部分列における特徴系列に応じて変
化する請求項83又は84記載の特徴比較方法。 - 【請求項86】 前記整列させる過程は、前記第1の特
徴系列と前記第2の特徴系列とを整列させるためにダイ
ナミックプログラミング整列アルゴリズムを使用し、且
つ前記正規化する過程は、前記ダイナミックプログラミ
ングアルゴリズムにより前記起こりうる整列が漸進的に
計算されている間に、それぞれの正規化スコアを計算す
る請求項83から85のいずれか1項に記載の特徴比較
方法。 - 【請求項87】 前記定義する過程は、前記複数の第2
の部分列を第2の特徴系列の連続する部分として定義す
る請求項57から86のいずれか1項に記載の特徴比較
方法。 - 【請求項88】 前記連続する部分は1つの特徴により
互いに分離されている請求項87記載の特徴比較方法。 - 【請求項89】 前記計算する過程は、前記第1の判定
過程から出力される回数を第1のベクトルとして処理し
且つ前記第2の判定過程から出力される回数を第2のベ
クトルとして処理し、それら2つのベクトルが成す角度
の余弦尺度を判定することにより、前記類似度の尺度を
計算する請求項57から88のいずれか1項に記載の特
徴比較方法。 - 【請求項90】 前記第1及び第2の特徴系列は時系列
信号を表す請求項57から89のいずれか1項に記載の
特徴比較方法。 - 【請求項91】 前記第1及び第2の特徴系列はオーデ
ィオ信号を表す請求項57から90のいずれか1項に記
載の特徴比較方法。 - 【請求項92】 前記第1及び第2の特徴系列は音声を
表す請求項91記載の特徴比較方法。 - 【請求項93】 前記特徴の各々は音声の1つの部分語
単位を表す請求項92記載の特徴比較方法。 - 【請求項94】 前記特徴の各々は1つの音素を表す請
求項93記載の特徴比較方法。 - 【請求項95】 前記第1の特徴系列は文字入力から生
成される複数の部分語単位から構成され、且つ前記類似
度情報はタイプミスの確率及び/又はスペルミスの確率
を含む請求項57から94のいずれか1項に記載の特徴
比較方法。 - 【請求項96】 前記第2の特徴系列は話し言葉入力か
ら生成される部分語単位の系列であり、且つ前記類似度
情報は認識ミスの確率を含む請求項57から95のいず
れか1項に記載の特徴比較方法。 - 【請求項97】 前記受信する過程は、複数の第2の特
徴系列を受信するように動作し、前記第2の判定過程
は、前記第1の特徴部分列の各々が前記第2の特徴系列
の各々の中に現れる回数を判定して、それを出力し、且
つ前記計算する過程は、第1の特徴系列と前記複数の第
2の特徴系列との類似度の尺度をそれぞれ計算する請求
項57から96のいずれか1項に記載の特徴比較方法。 - 【請求項98】 前記計算する過程により出力される前
記複数の類似度尺度を比較する過程と、前記第1の特徴
系列に最も類似している第2の特徴系列を示す信号を出
力する過程とを更に含む請求項97記載の特徴比較方
法。 - 【請求項99】 第1の特徴系列及び第2の特徴系列を
受信する過程と、 前記第1の特徴系列の中で複数の異なる第1の特徴部分
列を識別する過程と、 前記第1の特徴系列の中で前記異なる第1の部分列の各
々が現れる回数を求める第1の回数判定過程と、 前記第2の特徴系列の中で前記異なる第1の部分列の各
々が現れる回数を求める第2の回数判定過程と、 前記第1及び第2の回数判定過程から得られた回数を利
用して、第1の特徴系列と第2の特徴系列との類似度を
表す類似度スコアを計算する過程とから成る特徴比較方
法において、 前記特徴比較方法は、前記第2の特徴系列の中の特徴部
分列の総数を求める第3の回数判定過程を更に含み、 前記計算する過程は、 前記第2の回数判定過程から得られた回数及び第3の回
数判定過程から得られた回数を利用して、前記第1の部
分列の各々が前記第2の特徴系列の中で現れる確率の尺
度を計算する第1の計算過程と、 前記第1の回数判定過程から得られた前記回数に従っ
て、前記計算された確率尺度の積を求めることにより、
前記類似度スコアを計算する第2の計算過程とを含むこ
とを特徴とする特徴比較方法。 - 【請求項100】 前記第2の特徴系列で現れる第1の
部分列ごとに前記第1の計算過程で計算される確率尺度
は、前記第2の特徴系列の中で第1の部分列が現れる前
記第2の回数判定過程の回数に比例し、且つ第2の特徴
系列の中における特徴部分列の前記第3の回数判定過程
の総数に反比例する請求項99記載の特徴比較方法。 - 【請求項101】 括弧内の項をi番目の部分列につい
て前記第1の計算過程で計算される確率尺度とし、第2
の特徴系列の中でi番目の部分列が現れる回数をAiと
し、第1の特徴系列の中でi番目の部分列が現れるたび
に括弧内の確率尺度が確実に乗算されるように保証する
ために使用されるループカウンタをjとし、第2の特徴
系列の中における特徴部分列の前記第3の回数判定手段
の総数をDとし、括弧内の確率尺度が計算されるたびに
増分される指標をjsとし、中括弧内の確率尺度が所定の
下限を下回らないように保証するための定数をα及びm
αとするとき、前記計算する過程は、 【数4】 を計算することにより、類似度尺度を計算する請求項9
9又は100記載の特徴比較方法。 - 【請求項102】 αは0から1の間である請求項10
1記載の特徴比較方法。 - 【請求項103】 前記第1の回数判定過程は、前記第
1の特徴部分列の各々と第1の特徴系列とのブール整合
を実行する過程と、現在の第1の特徴部分列が第1の特
徴系列の中の1つの特徴部分列と整合するたびに、現在
の第1の特徴部分列と関連するカウントを増分する過程
とを含む請求項99から102のいずれか1項に記載の
特徴比較方法。 - 【請求項104】 前記第2の回数判定過程は、前記第
1の特徴部分列の各々と第2の特徴系列とのブール整合
を実行する過程と、現在の第1の特徴部分列が第2の特
徴系列の中の1つの特徴部分列と整合するたびに、現在
の第1の特徴部分列と関連するカウントを増分する過程
とを含む請求項99から103のいずれか1項に記載の
特徴比較方法。 - 【請求項105】 前記第2の特徴系列から複数の第2
の特徴部分列を定義する過程を更に含み、前記第2の回
数判定過程は、第1の特徴部分列の各々を第2の特徴部
分列の各々と比較することにより前記回数を求める請求
項99から104のいずれか1項に記載の特徴比較方
法。 - 【請求項106】 前記第2の回数判定過程は、 異なる特徴の類似時度を定義する類似度情報を含む所定
のデータを使用して、現在の第1の特徴部分列を第2の
特徴部分列の各々と比較して、一組の類似度尺度を求め
る過程と、 一組の類似度尺度の各類似度尺度を所定の閾値と比較
し、閾値比較結果を出力する過程と、 前記閾値比較結果に応じて、現在の特徴部分列と関連す
るカウントを増分する過程とを含む請求項105記載の
特徴比較方法。 - 【請求項107】 前記第2の回数判定過程は、現在の
第1の特徴部分列の特徴を現在の第2の特徴部分列の特
徴と整列させて、いくつかの特徴の整列対を形成する過
程を更に含み、前記比較する過程は、前記類似度情報を
使用して、それぞれの特徴の整列対の特徴を比較し、整
列対の特徴の類似度を表す比較スコアを生成し、且つ前
記比較する過程は、全ての特徴の整列対について比較ス
コアを組み合わせて、現在の第1の特徴部分列と現在の
第2の特徴部分列との類似度の尺度を求める過程を更に
含む請求項106記載の特徴比較方法。 - 【請求項108】 前記第1及び第2の特徴系列の各々
の特徴は一組の所定の特徴に属し、且つ前記一組の所定
の特徴から形成できる特徴部分列の数をmとする請求項
101記載の特徴比較方法。 - 【請求項109】 前記受信する過程は複数の第2の特
徴系列を受信し、前記第2の回数判定過程は、前記第2
の特徴系列の各々の中で前記第1の特徴部分列が現れる
回数を求めて、それを出力し、且つ前記計算する過程
は、第1の特徴系列と前記複数の第2の特徴系列との類
似度の尺度をそれぞれ計算する請求項99から108の
いずれか1項に記載の特徴比較方法。 - 【請求項110】 前記計算する過程により出力される
前記複数の類似度尺度を比較し、前記第1の特徴系列に
最も類似している第2の特徴系列を示す信号を出力する
過程を更に含む請求項109記載の特徴比較方法。 - 【請求項111】 各々が特徴系列から構成される関連
する注釈を有する、検索すべき情報を識別するための複
数の情報エントリを含むデータベースを探索する方法に
おいて、 特徴系列から構成される入力問い合わせを受信する過程
と、 問い合わせの特徴系列を各注釈の特徴と比較して、一組
の比較結果を提供する、請求項57から110のいずれ
か1項に記載の方法と、 前記比較結果を使用して、前記データベースから検索す
べき前記情報を識別する過程とから成る方法。 - 【請求項112】 各々が音声特徴系列から構成される
関連する注釈を有し且つ検索すべき情報を識別する複数
の情報エントリを含むデータベースを探索する方法であ
って、 音声特徴系列から構成される入力問い合わせを受信する
過程と、 問い合わせの音声特徴系列を各注釈の特徴と比較して、
一組の比較結果を提供する、請求項57から110のい
ずれか1項に記載の方法と、 前記比較結果を使用して、前記データベースから検索す
べき前記情報を識別する過程とから成る方法において、 請求項57から110のいずれか1項に記載の前記方法
は、複数の異なる比較動作モードを有し、且つ方法は、 問い合わせの音声特徴系列がオーディオ信号から生成さ
れたか、又はテキストから生成されたかを判定し、現在
注釈の音声特徴系列がオーディオ信号から生成された
か、又はテキストから生成されたかを判定し、その判定
結果を出力する過程と、 現在注釈について、前記判定結果に応じて請求項57か
ら110いずれか1項に記載の前記方法の動作モードを
選択する過程とを更に含むことを特徴とする方法。 - 【請求項113】 前記情報エントリのうち1つ又は複
数は関連する注釈である請求項111又は112記載の
方法。 - 【請求項114】 請求項に記載の方法の各過程は請求
項において挙げた順序で実行される請求項57から11
3のいずれか1項に記載の方法。 - 【請求項115】 特徴比較方法を実行するためのプロ
セッサ実現可能なプロセスステップを格納するコンピュ
ータ読み取り可能な媒体であって、前記プロセスステッ
プは、 第1の特徴系列及び第2の特徴系列を受信する過程と、 前記第1の特徴系列の中で、複数の異なる第1の特徴部
分列を識別する過程と、 前記異なる第1の特徴部分列の各々が前記第1の特徴系
列の中で現れる回数を判定し、それを出力する第1の判
定過程と、 前記第2の特徴系列から複数の第2の特徴部分列を定義
する過程と、 第1の特徴部分列の各々を第2の特徴部分列の各々と比
較することにより、前記異なる第1の特徴部分列の各々
が前記第2の特徴系列の中で現れる回数を判定し、それ
を出力する第2の判定過程と、 前記第1の判定過程から出力される回数と前記第2の判
定過程から出力される回数とを比較することにより、第
1の特徴系列と第2の特徴系列との類似の尺度を計算す
る過程とから成る媒体において、 前記第2の判定過程は、 複数の異なる特徴の類似度を定義する類似度情報を含む
所定のデータを使用して、現在の第1の特徴部分列を第
2の特徴部分列の各々と比較し、一組の類似度尺度を求
める過程と、 一組の類似度尺度の各々を所定の閾値と比較し、閾値比
較結果を出力する過程と、 前記閾値比較結果に従って現在の第1の特徴部分列と関
連するカウントを増分する過程とを含むことを特徴とす
る媒体。 - 【請求項116】 特徴比較方法を実行するためのプロ
セッサ実現可能なプロセスステップを格納するコンピュ
ータ読み取り可能な媒体であって、前記プロセスステッ
プは、 第1の特徴系列及び第2の特徴系列を受信する過程と、 前記第1の特徴系列の中で複数の異なる第1の特徴部分
列を識別する過程と、 前記第1の特徴系列の中で前記異なる第1の部分列の各
々が現れる回数を求める第1の回数判定過程と、 前記第2の特徴系列の中で前記異なる第1の部分列の各
々が現れる回数を求める第2の回数判定過程と、 前記第1及び第2の回数判定過程から得られた回数を利
用して、第1の特徴系列と第2の特徴系列との類似度を
表す類似度スコアを計算する過程とから成る媒体におい
て、 前記プロセスステップは、前記第2の特徴系列の中の特
徴部分列の総数を求める第3の回数判定過程を更に含
み、 前記計算する過程は、 前記第2の回数判定過程から得られた回数及び第3の回
数判定過程から得られた回数を利用して、前記第1の部
分列の各々が前記第2の特徴系列の中で現れる確率の尺
度を計算する第1の計算過程と、 前記第1の回数判定過程から得られた前記回数に従っ
て、前記計算された確率尺度の積を求めることにより、
前記類似度スコアを計算する第2の計算過程とを含むこ
とを特徴とする媒体。 - 【請求項117】 各々が特徴系列から構成される関連
する注釈を有する、検索すべき情報を識別するための複
数の情報エントリを含むデータベースを探索する方法を
実行するためのプロセッサ実現可能な命令を格納するコ
ンピュータ読み取り可能な媒体において、前記プロセス
ステップは、 特徴系列から構成される入力問い合わせを受信する過程
と、 問い合わせの特徴系列を各注釈の特徴と比較して、一組
の比較結果を提供する、請求項115又は116記載の
コンピュータ読み取り可能な媒体に格納されたプロセス
ステップと、 前記比較結果を使用して、前記データベースから検索す
べき前記情報を識別する過程とを備えることを特徴とす
る記憶媒体。 - 【請求項118】 特徴比較方法を実行するためのプロ
セッサ実現可能な命令であって、プロセスステップは、 第1の特徴系列及び第2の特徴系列を受信する過程と、 前記第1の特徴系列の中で、複数の異なる第1の特徴部
分列を識別する過程と、 前記異なる第1の特徴部分列の各々が前記第1の特徴系
列の中で現れる回数を判定し、それを出力する第1の判
定過程と、 前記第2の特徴系列から複数の第2の特徴部分列を定義
する過程と、 第1の特徴部分列の各々を第2の特徴部分列の各々と比
較することにより、前記異なる第1の特徴部分列の各々
が前記第2の特徴系列の中で現れる回数を判定し、それ
を出力する第2の判定過程と、 前記第1の判定過程から出力される回数と前記第2の判
定過程から出力される回数とを比較することにより、第
1の特徴系列と第2の特徴系列との類似の尺度を計算す
る過程とから成るプロセッサ実現可能な命令において、 前記第2の判定過程は、 複数の異なる特徴の類似度を定義する類似度情報を含む
所定のデータを使用して、現在の第1の特徴部分列を第
2の特徴部分列の各々と比較し、一組の類似度尺度を求
める過程と、 一組の類似度尺度の各々を所定の閾値と比較し、閾値比
較結果を出力する過程と、 前記閾値比較結果に従って現在の第1の特徴部分列と関
連するカウントを増分する過程とを含むことを特徴とす
るプロセッサ実現可能な命令。 - 【請求項119】 特徴比較方法を実行するためのプロ
セッサ実現可能な命令であって、プロセスステップは、 第1の特徴系列及び第2の特徴系列を受信する過程と、 前記第1の特徴系列の中で複数の異なる第1の特徴部分
列を識別する過程と、 前記第1の特徴系列の中で前記異なる第1の部分列の各
々が現れる回数を求める第1の回数判定過程と、 前記第2の特徴系列の中で前記異なる第1の部分列の各
々が現れる回数を求める第2の回数判定過程と、 前記第1及び第2の回数判定過程から得られた回数を利
用して、第1の特徴系列と第2の特徴系列との類似度を
表す類似度スコアを計算する過程とから成るプロセッサ
実現可能な命令において、 前記プロセスステップは、前記第2の特徴系列の中の特
徴部分列の総数を求める第3の回数判定過程を更に含
み、前記計算する過程は、 前記第2の回数判定過程から得られた回数及び第3の回
数判定過程から得られた回数を利用して、前記第1の部
分列の各々が前記第2の特徴系列の中で現れる確率の尺
度を計算する第1の計算過程と、 前記第1の回数判定過程から得られた前記回数に従っ
て、前記計算された確率尺度の積を求めることにより、
前記類似度スコアを計算する第2の計算過程とを含むこ
とを特徴とするプロセッサ実現可能な命令。 - 【請求項120】 各々が特徴系列から構成される関連
する注釈を有する、検索すべき情報を識別するための複
数の情報エントリを含むデータベースを探索する方法を
実行するためのプロセッサ実現可能な命令において、プ
ロセスステップは、 特徴系列から構成される入力問い合わせを受信する過程
と、 問い合わせの特徴系列を各注釈の特徴と比較して、一組
の比較結果を提供する、請求項118又は119記載の
プロセスステップと、 前記比較結果を使用して、前記データベースから検索す
べき前記情報を識別する過程とから成るプロセッサ実現
可能な命令。
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GBGB9925574.7A GB9925574D0 (en) | 1999-10-28 | 1999-10-28 | Pattern matching method and apparatus |
GBGB9925576.2A GB9925576D0 (en) | 1999-10-28 | 1999-10-28 | Pattern matching method and apparatus |
GB0025202.3 | 2000-10-13 | ||
GB9925574.7 | 2000-10-13 | ||
GB9925576.2 | 2000-10-13 | ||
GB0025142.1 | 2000-10-13 | ||
GB0025202A GB2355837B (en) | 1999-10-28 | 2000-10-13 | Pattern matching method and apparatus |
GB0025142A GB2355835B (en) | 1999-10-28 | 2000-10-13 | Pattern matching method and apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001215986A true JP2001215986A (ja) | 2001-08-10 |
Family
ID=27447896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000330611A Withdrawn JP2001215986A (ja) | 1999-10-28 | 2000-10-30 | パターンマッチング方法及び装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6882970B1 (ja) |
JP (1) | JP2001215986A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7912699B1 (en) | 2004-08-23 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | System and method of lattice-based search for spoken utterance retrieval |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7310600B1 (en) * | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
US6993532B1 (en) * | 2001-05-30 | 2006-01-31 | Microsoft Corporation | Auto playlist generator |
US7542966B2 (en) * | 2002-04-25 | 2009-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for retrieving documents with spoken queries |
US7197494B2 (en) * | 2002-10-15 | 2007-03-27 | Microsoft Corporation | Method and architecture for consolidated database search for input recognition systems |
JP4587165B2 (ja) * | 2004-08-27 | 2010-11-24 | キヤノン株式会社 | 情報処理装置及びその制御方法 |
US8438142B2 (en) | 2005-05-04 | 2013-05-07 | Google Inc. | Suggesting and refining user input based on original user input |
US8694318B2 (en) * | 2006-09-19 | 2014-04-08 | At&T Intellectual Property I, L. P. | Methods, systems, and products for indexing content |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7680782B2 (en) * | 2006-10-18 | 2010-03-16 | International Business Machines Corporation | Method to generate semantically valid queries in the XQuery language |
US20080162125A1 (en) * | 2006-12-28 | 2008-07-03 | Motorola, Inc. | Method and apparatus for language independent voice indexing and searching |
US20080156173A1 (en) * | 2006-12-29 | 2008-07-03 | Harman International Industries, Inc. | Vehicle infotainment system with personalized content |
US7912724B1 (en) * | 2007-01-18 | 2011-03-22 | Adobe Systems Incorporated | Audio comparison using phoneme matching |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8069044B1 (en) * | 2007-03-16 | 2011-11-29 | Adobe Systems Incorporated | Content matching using phoneme comparison and scoring |
ATE479983T1 (de) * | 2007-10-24 | 2010-09-15 | Harman Becker Automotive Sys | Verfahren und system zur spracherkennung zum durchsuchen einer datenbank |
US8019748B1 (en) | 2007-11-14 | 2011-09-13 | Google Inc. | Web search refinement |
US7788095B2 (en) * | 2007-11-18 | 2010-08-31 | Nice Systems, Ltd. | Method and apparatus for fast search in call-center monitoring |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US8429176B2 (en) * | 2008-03-28 | 2013-04-23 | Yahoo! Inc. | Extending media annotations using collective knowledge |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US9852127B2 (en) | 2008-05-28 | 2017-12-26 | International Business Machines Corporation | Processing publishing rules by routing documents based on document conceptual understanding |
US10169546B2 (en) * | 2008-05-28 | 2019-01-01 | International Business Machines Corporation | Generating document processing workflows configured to route documents based on document conceptual understanding |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8548807B2 (en) * | 2009-06-09 | 2013-10-01 | At&T Intellectual Property I, L.P. | System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring |
US20110004473A1 (en) * | 2009-07-06 | 2011-01-06 | Nice Systems Ltd. | Apparatus and method for enhanced speech recognition |
US8190420B2 (en) * | 2009-08-04 | 2012-05-29 | Autonomy Corporation Ltd. | Automatic spoken language identification based on phoneme sequence patterns |
US8370286B2 (en) * | 2009-08-06 | 2013-02-05 | Yahoo! Inc. | System for personalized term expansion and recommendation |
EP2534585A4 (en) * | 2010-02-12 | 2018-01-24 | Google LLC | Compound splitting |
US8887136B2 (en) * | 2010-05-04 | 2014-11-11 | Synopsys, Inc. | Context-based evaluation of equations |
JP5404726B2 (ja) * | 2011-09-26 | 2014-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US9129605B2 (en) * | 2012-03-30 | 2015-09-08 | Src, Inc. | Automated voice and speech labeling |
US9311914B2 (en) * | 2012-09-03 | 2016-04-12 | Nice-Systems Ltd | Method and apparatus for enhanced phonetic indexing and search |
US9286408B2 (en) * | 2013-01-30 | 2016-03-15 | Hewlett-Packard Development Company, L.P. | Analyzing uniform resource locators |
US9190055B1 (en) * | 2013-03-14 | 2015-11-17 | Amazon Technologies, Inc. | Named entity recognition with personalized models |
US9245523B2 (en) * | 2013-07-25 | 2016-01-26 | Nice-Systems Ltd | Method and apparatus for expansion of search queries on large vocabulary continuous speech recognition transcripts |
US9536180B2 (en) | 2013-12-30 | 2017-01-03 | Google Inc. | Text recognition based on recognition units |
US9626703B2 (en) | 2014-09-16 | 2017-04-18 | Voicebox Technologies Corporation | Voice commerce |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US9747896B2 (en) | 2014-10-15 | 2017-08-29 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US10558926B2 (en) * | 2014-11-20 | 2020-02-11 | Academia Sinica | Statistical pattern generation for information extraction |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10089977B2 (en) * | 2015-07-07 | 2018-10-02 | International Business Machines Corporation | Method for system combination in an audio analytics application |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
CN109145145A (zh) | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 一种数据更新方法、客户端及电子设备 |
US11636173B2 (en) * | 2019-03-28 | 2023-04-25 | SK Hynix Inc. | Method for candidate selection and accelerator for performing candidate selection |
CN111147444B (zh) * | 2019-11-20 | 2021-08-06 | 维沃移动通信有限公司 | 一种交互方法及电子设备 |
Family Cites Families (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4227176A (en) | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
JPS59226400A (ja) | 1983-06-07 | 1984-12-19 | 松下電器産業株式会社 | 音声認識装置 |
US5131043A (en) | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
FR2554623B1 (fr) | 1983-11-08 | 1986-08-14 | Texas Instruments France | Procede d'analyse de la parole independant du locuteur |
US4980918A (en) | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US4903305A (en) | 1986-05-12 | 1990-02-20 | Dragon Systems, Inc. | Method for representing word models for use in speech recognition |
JP2739945B2 (ja) | 1987-12-24 | 1998-04-15 | 株式会社東芝 | 音声認識方法 |
US5075896A (en) | 1989-10-25 | 1991-12-24 | Xerox Corporation | Character and phoneme recognition based on probability clustering |
US6236964B1 (en) * | 1990-02-01 | 2001-05-22 | Canon Kabushiki Kaisha | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data |
US5136655A (en) | 1990-03-26 | 1992-08-04 | Hewlett-Pacard Company | Method and apparatus for indexing and retrieving audio-video data |
US5202952A (en) | 1990-06-22 | 1993-04-13 | Dragon Systems, Inc. | Large-vocabulary continuous speech prefiltering and processing system |
US5390278A (en) | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US5333275A (en) | 1992-06-23 | 1994-07-26 | Wheatley Barbara J | System and method for time aligning speech |
US5625554A (en) | 1992-07-20 | 1997-04-29 | Xerox Corporation | Finite-state transduction of related word forms for text indexing and retrieval |
ATE260486T1 (de) | 1992-07-31 | 2004-03-15 | Ibm | Auffindung von zeichenketten in einer datenbank von zeichenketten |
EP0597798A1 (en) | 1992-11-13 | 1994-05-18 | International Business Machines Corporation | Method and system for utilizing audible search patterns within a multimedia presentation |
US5467425A (en) * | 1993-02-26 | 1995-11-14 | International Business Machines Corporation | Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models |
DE69423838T2 (de) | 1993-09-23 | 2000-08-03 | Xerox Corp., Rochester | Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen |
JP2986345B2 (ja) | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
SE513456C2 (sv) | 1994-05-10 | 2000-09-18 | Telia Ab | Metod och anordning vid tal- till textomvandling |
IT1272259B (it) | 1994-05-30 | 1997-06-16 | Texas Instruments Italia Spa | Procedimento ed apparecchio per il riconoscimento dei caratteri |
JP3260979B2 (ja) * | 1994-07-15 | 2002-02-25 | 株式会社リコー | 文字認識方法 |
US5799267A (en) | 1994-07-22 | 1998-08-25 | Siegel; Steven H. | Phonic engine |
US5737723A (en) | 1994-08-29 | 1998-04-07 | Lucent Technologies Inc. | Confusable word detection in speech recognition |
US5835667A (en) | 1994-10-14 | 1998-11-10 | Carnegie Mellon University | Method and apparatus for creating a searchable digital video library and a system and method of using such a library |
DE69514382T2 (de) | 1994-11-01 | 2001-08-23 | British Telecommunications P.L.C., London | Spracherkennung |
US5680605A (en) | 1995-02-07 | 1997-10-21 | Torres; Robert J. | Method and apparatus for searching a large volume of data with a pointer-based device in a data processing system |
DE69615667T2 (de) | 1995-03-07 | 2002-06-20 | British Telecommunications P.L.C., London | Spracherkennung |
CA2170669A1 (en) | 1995-03-24 | 1996-09-25 | Fernando Carlos Neves Pereira | Grapheme-to phoneme conversion with weighted finite-state transducers |
US5675706A (en) | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
US5729741A (en) | 1995-04-10 | 1998-03-17 | Golden Enterprises, Inc. | System for storage and retrieval of diverse types of information obtained from different media sources which includes video, audio, and text transcriptions |
CN1130688C (zh) | 1995-05-03 | 2003-12-10 | 皇家菲利浦电子有限公司 | 基于新字建模的语音识别方法和装置 |
US5721939A (en) | 1995-08-03 | 1998-02-24 | Xerox Corporation | Method and apparatus for tokenizing text |
US5684925A (en) | 1995-09-08 | 1997-11-04 | Matsushita Electric Industrial Co., Ltd. | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity |
US5737489A (en) | 1995-09-15 | 1998-04-07 | Lucent Technologies Inc. | Discriminative utterance verification for connected digits recognition |
JPH09128396A (ja) * | 1995-11-06 | 1997-05-16 | Hitachi Ltd | 対訳辞書作成方法 |
US6567778B1 (en) | 1995-12-21 | 2003-05-20 | Nuance Communications | Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores |
US5960395A (en) | 1996-02-09 | 1999-09-28 | Canon Kabushiki Kaisha | Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming |
GB2303955B (en) | 1996-09-24 | 1997-05-14 | Allvoice Computing Plc | Data processing method and apparatus |
US5870740A (en) | 1996-09-30 | 1999-02-09 | Apple Computer, Inc. | System and method for improving the ranking of information retrieval results for short queries |
US5708759A (en) | 1996-11-19 | 1998-01-13 | Kemeny; Emanuel S. | Speech recognition using phoneme waveform parameters |
US5852822A (en) | 1996-12-09 | 1998-12-22 | Oracle Corporation | Index-only tables with nested group keys |
EP0849723A3 (en) | 1996-12-20 | 1998-12-30 | ATR Interpreting Telecommunications Research Laboratories | Speech recognition apparatus equipped with means for removing erroneous candidate of speech recognition |
WO1998047084A1 (en) | 1997-04-17 | 1998-10-22 | Sharp Kabushiki Kaisha | A method and system for object-based video description and linking |
WO1999005681A1 (de) | 1997-07-23 | 1999-02-04 | Siemens Aktiengesellschaft | Verfahren zum abspeichern von suchmerkmalen einer bildsequenz und zugriff auf eine bildfolge in der bildsequenz |
WO1999016051A1 (en) | 1997-09-24 | 1999-04-01 | Lernout & Hauspie Speech Products N.V | Apparatus and method for distinguishing similar-sounding utterances in speech recognition |
US6026398A (en) | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
US6061679A (en) | 1997-11-25 | 2000-05-09 | International Business Machines Corporation | Creating and searching a data structure ordered by ranges of key masks associated with the data structure |
US5983177A (en) | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
US6182039B1 (en) | 1998-03-24 | 2001-01-30 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using probabilistic language model based on confusable sets for speech recognition |
US6243680B1 (en) | 1998-06-15 | 2001-06-05 | Nortel Networks Limited | Method and apparatus for obtaining a transcription of phrases through text and spoken utterances |
US6321226B1 (en) | 1998-06-30 | 2001-11-20 | Microsoft Corporation | Flexible keyboard searching |
US6192337B1 (en) | 1998-08-14 | 2001-02-20 | International Business Machines Corporation | Apparatus and methods for rejecting confusible words during training associated with a speech recognition system |
DE19842404A1 (de) * | 1998-09-16 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente |
WO2000031723A1 (en) | 1998-11-25 | 2000-06-02 | Sony Electronics, Inc. | Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system |
KR100828884B1 (ko) | 1999-03-05 | 2008-05-09 | 캐논 가부시끼가이샤 | 데이터베이스 주석 및 검색 |
GB2349260B (en) | 1999-04-23 | 2003-05-28 | Canon Kk | Training apparatus and method |
US7212968B1 (en) | 1999-10-28 | 2007-05-01 | Canon Kabushiki Kaisha | Pattern matching method and apparatus |
US6567816B1 (en) | 2000-03-07 | 2003-05-20 | Paramesh Sampatrai Desai | Method, system, and program for extracting data from database records using dynamic code |
US6535850B1 (en) | 2000-03-09 | 2003-03-18 | Conexant Systems, Inc. | Smart training and smart scoring in SD speech recognition system with user defined vocabulary |
GB0011798D0 (en) | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
GB0023930D0 (en) | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
-
2000
- 2000-10-25 US US09/695,078 patent/US6882970B1/en not_active Expired - Fee Related
- 2000-10-30 JP JP2000330611A patent/JP2001215986A/ja not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7912699B1 (en) | 2004-08-23 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | System and method of lattice-based search for spoken utterance retrieval |
US8670977B2 (en) | 2004-08-23 | 2014-03-11 | At&T Intellectual Property Ii, L.P. | System and method of lattice-based search for spoken utterance retrieval |
US9286890B2 (en) | 2004-08-23 | 2016-03-15 | At&T Intellectual Property Ii, L.P. | System and method of lattice-based search for spoken utterance retrieval |
US9965552B2 (en) | 2004-08-23 | 2018-05-08 | Nuance Communications, Inc. | System and method of lattice-based search for spoken utterance retrieval |
Also Published As
Publication number | Publication date |
---|---|
US6882970B1 (en) | 2005-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2001215986A (ja) | パターンマッチング方法及び装置 | |
JP2001215987A (ja) | パターンマッチング方法及び装置 | |
EP1228452B1 (en) | Pattern matching method and apparatus | |
US7054812B2 (en) | Database annotation and retrieval | |
US6873993B2 (en) | Indexing method and apparatus | |
US7590605B2 (en) | Lattice matching | |
EP1205908B1 (en) | Pronunciation of new input words for speech processing | |
EP0830668B1 (en) | Systems and methods for word recognition | |
US6188976B1 (en) | Apparatus and method for building domain-specific language models | |
KR101224660B1 (ko) | 유사 문장 검색 장치, 검색 방법, 저장 매체, 자동 대화서비스 시스템 및 서비스 방법 | |
US20070179784A1 (en) | Dynamic match lattice spotting for indexing speech content | |
CN110866391A (zh) | 标题生成方法、装置、计算机可读存储介质和计算机设备 | |
KR101763407B1 (ko) | 음성 대화 시스템 및 그 시스템에서의 음성 대화 방법 | |
JP2002207496A (ja) | 音声処理システム | |
CN117827886B (zh) | 一种基于大语言模型的自然语句转sql语句的方法 | |
CN111666764A (zh) | 一种基于XLNet的自动摘要方法与装置 | |
JP3024045B2 (ja) | 自然言語に基づくデータ検索装置 | |
GB2355837A (en) | Pattern matching | |
GB2355836A (en) | Pattern matching | |
GB2355835A (en) | Pattern matching | |
EP1039395A2 (en) | Document retrieving apparatus and document retrieving method | |
KR20020052196A (ko) | 패턴 매칭 방법 및 장치 | |
Singh | Handling long-term dependencies and rare words in low-resource language modelling | |
CN117709349A (zh) | 一种基于多信息融合的短文本命名实体消歧方法 | |
JPH0765018A (ja) | キーワード自動抽出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080108 |