JP3252815B2 - 連続音声認識装置及び方法 - Google Patents
連続音声認識装置及び方法Info
- Publication number
- JP3252815B2 JP3252815B2 JP34515398A JP34515398A JP3252815B2 JP 3252815 B2 JP3252815 B2 JP 3252815B2 JP 34515398 A JP34515398 A JP 34515398A JP 34515398 A JP34515398 A JP 34515398A JP 3252815 B2 JP3252815 B2 JP 3252815B2
- Authority
- JP
- Japan
- Prior art keywords
- hypothesis
- arc
- speech
- storage unit
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 31
- 230000001360 synchronised effect Effects 0.000 claims description 6
- 239000002245 particle Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 101100537937 Caenorhabditis elegans arc-1 gene Proteins 0.000 description 3
- 230000008520 organization Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Description
及び方法に関し、特に認識の速度と精度の向上を図る連
続音声認識装置及び方法に関する。
アイシーエスエルピー1996(ICSLP1996)に掲載され
た、S・ オルトマン(S.Ortmanns)による、ランゲージモ
デル・ルックアヘッド・フォー・ラージ・ボキャブラリ
ー・スピーチ・レコグニション(LANGUAGE-MODEL LOOK-
AHEAD FOR LARGE VOCABULARY SPEECH RECOGNITIO
N)と題された論文が参照される。
は、仮説記憶部1と、仮説展開部3と、木構造辞書記憶
部4と、言語モデル部7と、音響モデル部8と、を備え
て構成されている。従来の音声認識装置は次のように動
作する。
書記憶部4は、認識対象となる単語を木構造辞書(図2
参照)として記憶し、音響モデル部8は、各フレ−ム毎
の音響モデルスコアを計算し、言語モデル部7は、言語
モデルスコアを計算する。
ル部8からの音響モデルスコアと言語モデル部7からの
言語モデルスコアを考慮して、木構造辞書記憶部4から
ア−クの構造を取得し、ア−ク上にある仮説を後続ア−
クへと展開する。図2を参照すると、木構造辞書におい
ては、ルート(根)からツリー構造で分岐する各アーク
をリーフ(終端アーク)まで辿ることで単語に到る構造
とされている。
フレームに分割し、音声始端フレームから音声終端フレ
ームまで、上記の展開(すなわち木構造辞書のア−ク上
にある仮説を後続ア−クへの展開)を繰り返し、最終的
に最もスコアのよい仮説が過去に通った単語(木構造辞
書の終端)を、認識結果とする。
の位置情報と、そこへ至るまでの履歴とスコアを有す
る。
として表した連続音声認識方式では、終端アーク以外で
は、現在仮説が展開されている単語が何であるかを特定
できない。
毎に計算されるが、本来、言語モデルスコアは、仮説が
木構造辞書の終端アークに到達した時にしかかけられな
い。
加算するために、ユニグラム言語モデルスコアの先読み
と、バイグラム言語モデルスコアの先読みという方法
が、上記文献に記載されている。
は、木構造辞書中の終端アークで確定する単語のユニグ
ラム言語モデルスコアのうち、最もスコアの良いものを
前のアークに付与し、該アーク上に存在する仮説の言語
モデルスコアとして、一時的に、該アークに付与された
ユニグラム言語モデルスコアを加算しておき、仮説が木
構造辞書の終端アークに到達して単語が確定した時に、
それまで使用していたユニグラム言語モデルスコアを捨
て、確定したバイグラム言語モデルスコアを加算する、
というものである。
みとは、コンテクストが決定し、新しい木構造辞書が作
成される際に、コンテクストに対する全ての単語につい
てのバイグラム言語モデルスコアを計算し、最も良いス
コアを有する言語モデルスコアを木構造辞書中の前の方
のアークに付与して、あるアーク上に存在する仮説の言
語モデルスコアとして、該アーク上に付与されたバイグ
ラム言語モデルスコアを加算する、というものである。
音声認識方式は、下記記載の問題点を有している。
コアの先読みを行った場合、膨大なメモリと計算量が必
要とされる、ということである。
の先読みを行う場合、新しくコンテクストが発生して木
構造辞書が作成される際に、木構造辞書の一部ではな
く、木構造辞書の全体を作成し、コンテクストに対する
全てのバイグラム言語モデルスコアを計算し、単語の確
定する木構造辞書中の全ての終端アークの言語モデルス
コアを前のアークに付与する、という処理を繰り返し、
全ての前のアークに言語モデルスコアを伝播させなくて
はならないため、である。
コアの先読みを行った場合、無駄な計算を行ってしま
う、ということである。
の先読みを行う場合、木構造辞書のアーク中には、コン
テクストに言語的に接続が許されない単語にしか発展し
ないものも存在し、仮説がそのようなアークにも展開さ
れてしまうため、無駄な計算を行ってしまうためであ
る。
ム同期ビームサーチ(このフレーム同期ビームサーチに
ついては、例えばアイトリプルイー・トランザクション
ズ・オン・シグナル・プロセッシング1992年2月掲
載(IEEE TRANSACTIONS ON SIGNAL PROCESSING FEBRUARY
1992)の、ヘルマン・ネイ(Hermann Ney)による、「デ
ータ ドリブン サーチ オーガナイゼーション フォー
コンティニュアス スピーチ リコグニション(Data Driv
en Search Organization for Continuous Speech Recog
nition)」と題する論文等の記載が参照される)を用い
て、厳密なバイグラム以上の言語モデルスコアの先読み
を行わなかった場合、すなわちコンテクストと木構造辞
書中の単語との言語的制約による接続可能性が先読みさ
れなかった場合、第二の問題点で説明したように、言語
的にコンテクストに接続が許されない単語に発展するア
ーク上にも仮説は展開される。
非常に良かった場合、言語的にコンテクストと接続が許
される単語に発展するアーク上の仮説が、全てビームか
ら外れて除去されてしまうということがある。
許されない後続単語しか持たないアーク上(図2の11
参照)にのみ仮説が存在し、これらの仮説が展開されて
単語が確定した際に、言語的にコンテクストとの接続が
許されないために、ビームから外れることとなる。
て次の単語に接続できず、これ以降に発声された音声に
対する認識処理が不可能となる。つまり、認識処理を行
うことができなくなり、認識結果を出力することができ
なくなってしまう。
てなされたものであって、その主たる目的は、連続音声
認識の認識速度と認識率を向上する連続音声認識装置及
び方法を提供することにある。
明の連続音声認識装置は、仮説を記憶する仮説記憶部
と、仮説を後続アークに展開してもよいか否かを判断す
る仮説展開判断手段と、仮説を展開し展開結果で前記仮
説記憶部に記憶させる仮説展開手段と、木構造辞書及び
その先行コンテクストを保持する木構造辞書記憶部と、
前記木構造辞書中の各ア−クにおいて、該アークよりも
後に存在する全ての後続単語について品詞の有無の情報
を記憶する後続単語品詞情報記憶部と、品詞同士の接続
情報を記憶する品詞接続情報記憶部と、仮説に言語モデ
ルスコアを付与する手段と、仮説に音響モデルスコアを
付与する手段とを備える。
に説明する。本発明の連続音声認識装置は、その好まし
い実施の形態において、木構造辞書中の各アークに、該
アークの全ての後続単語の品詞情報を保持する後続単語
品詞情報記憶手段と、木構造辞書のコンテクストと各ア
−クの後続単語との接続が可能かどうかを判断し、判断
結果によって、仮説を展開するか否かを判断して仮説展
開手段に指示する仮説展開判断手段と、を備え、仮説展
開手段では、仮説展開判断手段からの展開指示を受け、
音響モデルスコアと言語モデルスコアを考慮して、木構
造辞書記憶部からア−クの構造を取得し、該ア−ク上に
ある仮説を後続ア−クへと展開し展開結果を仮説記憶部
に記憶させる。
ストと(言語的に)接続しない単語へのアークには仮説
が展開されないように抑制し、不必要に仮説数を増加さ
せないため、連続音声認識の速度を向上する。また言語
的に接続しない単語への仮説のスコアが他のスコアに比
べて良い、という状況を発生させないようにしたため、
連続音声認識の認識率を向上している。
に説明する。図1は、本発明の一実施例の構成を示す図
であり、フレーム同期ビームサーチを用いた連続音声認
識装置の構成を示す図である。以下の説明では、フレ−
ム同期ビ−ムサ−チにおける1フレ−ム分の仮説の展開
の動作のみを示す。その他の動作はフレ−ム同期ビ−ム
サ−チに従うものとする。
音声認識のサ−チにおける仮説を記憶する。木構造辞書
記憶部4は、コンテクストと、認識対象とする全ての単
語を木構造辞書(図2参照)として記憶する。木構造辞書
は、コンテクスト毎に別々に記憶される。
の各ア−クの全ての後続単語の品詞情報を記憶する。品
詞情報の記憶の仕方として、例えば、品詞の出現頻度順
に、後続にその品詞が存在する(1)/存在しない(0)と
いうビット列として記憶するようにしてもよい。品詞が
256種類あるなら、各アークに対して256ビット記憶容量
が必要となる。なお、後続単語品詞情報は、全てのアー
クについて記憶する必要はない。
示すような、分岐直後のアークについてのみ記憶すれば
よい。なぜなら、分岐直後でないアークは、その直前の
アークと全く同じ後続単語品詞情報をもつはずだからで
ある。
に、分岐直後のアークについての後続単語品詞情報のみ
を記憶することによって、必要なメモリ量を削減するこ
とができる。
は、認識処理を実行する前に一度だけ作成して記憶して
おくだけでよい。なぜなら、認識処理実行時には、アー
クの後続単語が増加したり、減少したり、変化すること
はないからである。
に単語が追加されたときにも、各アークの後続単語品詞
情報は、一度だけ作成し直して記憶しておくだけでよ
い。
合には、コンテクストが決まり木構造辞書が生成される
度に、コンテクストに対する全てのバイグラム言語モデ
ルの計算と前のアークへの言語モデルスコアの付与の伝
播を行なわなくてはならないため、膨大な計算量が必要
となる。
々に記憶される木構造辞書とは異なり、各アークについ
て一つずつ記憶しておくだけでよい。
語品詞情報が必要となったときには、一つだけ記憶され
ている当該アークについての後続単語品詞情報を参照す
ればよいからである。
構造辞書に対して、各アークにバイグラム言語モデルス
コアを記憶することが必要とされているため、膨大な容
量のメモリが必要となるが、本発明の一実施例では、一
つ分の木構造辞書に対して、品詞の数だけのビット列を
記憶させるだけであるため、必要なメモリ容量が大幅に
削減される。
“名詞”、“動詞”、“形容詞”である場合、後続単語
の品詞情報の第1ビットが助詞がある(1)/ない(0)、
第2ビットが名詞がある(1)/ない(0)、・・・、等と
いう順序のビット列が記憶される。
の出現頻度順に記憶する必要はないが、以下では、出現
頻度順に記憶した場合について説明する。
詞、名詞、動詞、形容詞となる場合の、あるア−クの後
続単語に、“助詞”、“名詞”、“形容詞”があり、
“動詞”がないとしたときの、後続単語品詞情報のビッ
ト列の例を示す図である。
右側に接続が可能な全ての品詞の情報を記憶する。品詞
情報の記憶の仕方としては、例えば、後続単語品詞情報
記憶部5と同様に、品詞の出現頻度の高い順に、接続可
能(1)/接続不可能(0)というビット列として記憶す
る。
“助詞”、“名詞”、“動詞”、“形容詞”となる場合
の“助詞”の右側に、“助詞”、“動詞”が接続し、
“名詞”、“形容詞”が接続しないとしたときの、“助
詞”の品詞接続情報ビット列の例を示す図である。
から、ある仮説の存在する木構造辞書のコンテクストを
受け取り、後続単語品詞情報記憶部5から、該仮説を有
するア−クの直後のア−クの後続単語品詞情報を受け取
り、品詞接続情報記憶部6から、先に受け取ったコンテ
クストが属する品詞の右側に接続可能な品詞接続情報を
受け取り、後続単語品詞情報と品詞接続情報から、該仮
説を後続ア−クに展開してもよいかどうかを判断する。
ぞれ図3、図4に示すようなものである場合、その仮説
を後続ア−クに展開しても良いかどうかの判断は、図3
に示すビット列と、図4に示すビット列とのビット単位
での論理積(AND)をとり、その演算結果が“0”で
あるかどうかを調べればよい。
続ア−クへ仮説を展開してもよい、ということを意味
し、演算結果が“0”である場合、後続ア−クへ仮説を
展開してはならない、ということを意味する。
0以上の整数)のビットが“1”のとき、後続単語品詞
情報のN番目のビットが“1”のときにのみ、接続の許
された品詞の単語が、そのアークの後ろに存在するとい
うことを意味し、論理積が、“0”とならないからであ
る。
ており、計算機が32ビットのCPUを持つなら、全て
の後続単語品詞情報と品詞接続情報の論理積をとるため
には、256/32=8回の演算が必要となる。
詞の出現頻度の高い順にしておくことによって、論理積
が“0”でない結果を得るための演算回数の期待値を、
8以下に抑えることができる。
で、後続単語品詞情報と、品詞接続情報とを記憶してお
くことは高速化に寄与する。なお、品詞の出現頻度の高
い順序以外の順序で、後続単語品詞情報と品詞接続情報
を記憶しておき、互いに対応する品詞同士の接続チェッ
クを行うようにしてもよいことは勿論である。
に既に仮説が展開されている場合には、過去において接
続が可能と判断されたはずであるため、無条件にその後
続ア−クに仮説を展開してもよい。
2は、後続ア−クへの仮説の展開の可/不可を仮説展開
部に指示する。
後続ア−クへの仮説の展開の指示を受け、言語モデル部
7及び音響モデル部8から与えられたスコアを考慮し
て、木構造辞書記憶部4から後続アークへのアークの構
造を取得し、仮説を展開してもよいア−クへのみ、フレ
−ム同期ビ−ムサ−チに従って仮説を展開する。なお、
自分自身のアークに対する仮説の展開は無条件に行なっ
てよい。
ということは、過去においてそのアークへの仮説の展開
が許可されたということを意味するからである。
よれば、言語的なコンテクストと木構造辞書中の単語と
の接続可能性の先読みを行なう。
続可能性を先読みできる、バイグラム以上の厳密な言語
モデルスコアの先読みをしない限り、本発明は有効であ
り、バイグラム言語モデルスコアの先読みをするための
膨大な計算や、メモリ容量は必要ではない。
レ−ム分の仮説の展開の動作についてのフロ−チャ−ト
である。
在する全ての仮説についてのル−プ(繰り返し処理)を
開始する。
書のコンテクストを、木構造辞書記憶部4から取得す
る。
からコンテクストの品詞の品詞接続情報を取得する。
書中のア−クを仮説記憶部1から取得する。このとき取
得したア−クを、“ア−ク1”とする。
直後の後続ア−クについてのル−プを開始する。今選ば
れている直後の後続ア−クを、“ア−ク2”とする。
語品詞情報を、後続単語品詞情報記憶部5から取得す
る。
た品詞接続情報と、ステップS6で取得した後続単語品
詞情報とから、仮説を“ア−ク1”から“ア−ク2”へ
展開しても良いか否か判断する。もし、品詞接続情報に
記されている接続可能な品詞が“ア−ク2”の後ろにな
い場合、仮説は、“ア−ク2”へ展開してはならないと
判断され、ステップS9に分岐する。そうでなければ、
仮説は“ア−ク2”へ展開してもよいと判断され、次の
ステップS8に移る。
ステップS7の判断に従って、仮説が“ア−ク2”へ展
開される。
プが終了した場合、ステップS10へ移り、そうでない
場合には、ステップS5へ行く。
プが終了した場合、フレ−ム同期ビ−ムサ−チにおける
このフレ−ムの仮説の展開処理を終える。全仮説につい
てループが終了していない場合はステップS1に戻る。
なお、図5を参照して説明した各処理ステップは、音声
認識装置を構成するコンピュータ(CPU)のメモリ上
に格納された音声認識用プログラム(ソフトウェア)を
実行することで実現するようにしてもよい。この場合、
該プログラムをFD、CD−ROM、不揮発性メモリ等
の記憶媒体から読み出してメモリ上にロードしてCPU
で実行することで、本発明を実施することができる。
連続音声認識の認識率と速度とを向上する、という効果
を奏する。
接続しない単語への仮説の展開を抑制し、不必要に仮説
数を増加させないためであり、また言語的に接続しない
単語への仮説のスコアが他のスコアに比べて良い、とい
う状況を発生させないようにしたためである。
を示す図である。
(助詞の場合)を示す図である。
−チャ−トである。
図である。
語のみを持つアークの例 12 木構造辞書中の分岐直後のアークの例
Claims (10)
- 【請求項1】木構造辞書及びその先行コンテクストを記
憶する第1の記憶部と、 木構造辞書中の各アークについて、該アークの全ての後
続単語の品詞情報を保持する第2の記憶部と、品詞同士の接続情報を記憶する第3の記憶部と、 仮説を展開中の木構造辞書のコンテクストの品詞情報を
前記第1の記憶部から受け取り、前記仮説を有するア−
クの直後のア−クの全ての後続単語の品詞情報を、前記
第2の記憶部から受け取り、これらの情報から前記コン
テクストと後続単語が接続可能か否かについて、前記第
3の記憶部を参照して判断し、後続単語の一つでも接続
可能である場合には該後続アークへ仮説を展開するよう
に指示を出し、前記アークの後続の全ての単語が接続不
可能であるなら該後続アークへ仮説の展開を行わずに、
仮説を展開しないように指示を出す 仮説展開判断手段
と、 前記仮説展開判断手段から展開の指示を受けて仮説の展
開を行なう仮説展開手段と、を備え、 コンテクストと接続しない単語へのアークには仮説が展
開されないように制御することを特徴とする連続音声認
識装置。 - 【請求項2】仮説を記憶する仮説記憶部と、 仮説を後続アークに展開してもよいか否かを判断する仮
説展開判断手段と、 木構造辞書及びその先行コンテクストを保持する木構造
辞書記憶部と、 前記木構造辞書中の各ア−クにおいて、該アークよりも
後に存在する全ての後続単語について品詞の有無の情報
を記憶する後続単語品詞情報記憶部と、 品詞同士の接続情報を記憶する品詞接続情報記憶部と、 仮説に言語モデルスコアを付与する手段と、 仮説に音響モデルスコアを付与する手段と、 前記仮説展開判断手段からの展開指示を受け、前記音響
モデルスコアと前記言語モデルスコアを考慮して、前記
木構造辞書記憶部からア−クの構造を取得し、該ア−ク
上にある仮説を後続ア−クへと展開し展開結果を前記仮
説記憶部に記憶させる仮説展開手段と、 を備え、 前記品詞接続情報記憶部が、品詞同士の接続情報を品詞
の出現頻度順に記憶する ことを特徴とする連続音声認識
装置。 - 【請求項3】仮説を記憶する仮説記憶部と、 仮説を後続アークに展開してもよいか否かを判断する仮
説展開判断手段と、 木構造辞書及びその先行コンテクストを保持する木構造
辞書記憶部と、 前記木構造辞書中の各ア−クにおいて、該アークよりも
後に存在する全ての後続単語について品詞の有無の情報
を記憶する後続単語品詞情報記憶部と、 品詞同士の接続情報を記憶する品詞接続情報記憶部と 、仮説に言語モデルスコアを付与する手段と、 仮説に音響モデルスコアを付与する手段と、 前記仮説展開判断手段からの展開指示を受け、前記音響
モデルスコアと前記言語モデルスコアを考慮して、前記
木構造辞書記憶部からア−クの構造を取得し、該ア−ク
上にある仮説を後続ア−クへと展開し展開結果を前記仮
説記憶部に記憶させる仮説展開手段と、 を備え、 前記後続単語品詞情報記憶部が、前記木構造辞書中のア
ークにおいて、該アークより後に存在する全ての後続単
語について、各品詞の有無の情報を、品詞の出現頻度順
に記憶することを特徴とする連続音声認識装置。 - 【請求項4】仮説を記憶する仮説記憶部と、 仮説を後続アークに展開してもよいか否かを判断する仮
説展開判断手段と、 木構造辞書及びその先行コンテクストを保持する木構造
辞書記憶部と、 前記木構造辞書中の各ア−クにおいて、該アークよりも
後に存在する全ての後続単語について品詞の有無の情報
を記憶する後続単語品詞情報記憶部と、 品詞同士の接続情報を記憶する品詞接続情報記憶部と 、仮説に言語モデルスコアを付与する手段と、 仮説に音響モデルスコアを付与する手段と、 前記仮説展開判断手段からの展開指示を受け、前記音響
モデルスコアと前記言語モデルスコアを考慮して、前記
木構造辞書記憶部からア−クの構造を取得し、該ア−ク
上にある仮説を後続ア−クへと展開し展開結果を前記仮
説記憶部に記憶させる仮説展開手段と、 を備え、 前記後続単語品詞情報記憶部が、前記木構造辞書中のア
ークにおいて、分岐直後のアークについての後続単語品
詞情報だけを記憶することを特徴とする連続音声認識装
置。 - 【請求項5】仮説を記憶する仮説記憶部と、 仮説を後続アークに展開してもよいか否かを判断する仮
説展開判断手段と、 木構造辞書及びその先行コンテクストを保持する木構造
辞書記憶部と、 前記木構造辞書中の各ア−クにおいて、該アークよりも
後に存在する全ての後続単語について品詞の有無の情報
を記憶する後続単語品詞情報記憶部と、 品詞同士の接続情報を記憶する品詞接続情報記憶部と 、仮説に言語モデルスコアを付与する手段と、 仮説に音響モデルスコアを付与する手段と、 前記仮説展開判断手段からの展開指示を受け、前記音響
モデルスコアと前記言語モデルスコアを考慮して、前記
木構造辞書記憶部からア−クの構造を取得し、該ア−ク
上にある仮説を後続ア−クへと展開し展開結果を前記仮
説記憶部に記憶させる仮説展開手段と、 を備え、 前記仮説展開判断手段が、仮説を展開中の木構造辞書の
コンテクストの品詞情報を前記木構造辞書記憶部から受
け取り、前記仮説を有するア−クの直後のア−クの全て
の後続単語の品詞情報を、前記後続単語品詞情報記憶部
から受け取り、これらの情報から前記コンテクストと後
続単語が接続可能か否かについて、前記品詞接続情報記
憶部を参照して判断し、後続単語の一つでも接続可能で
ある場合には該後続アークへ仮説を展開するよう前記仮
説展開手段へ指示を出し、 前記アークの後続の全ての単語が接続不可能であるなら
該後続アークへ仮説の展開を行わずに、仮説を展開しな
いよう前記仮説展開手段へ指示を出す、ことを特徴とす
る連続音声認識装置。 - 【請求項6】仮説を記憶する仮説記憶部と、 仮説を後続アークに展開してもよいか否かを判断する仮
説展開判断手段と、 木構造辞書及びその先行コンテクストを保持する木構造
辞書記憶部と、 前記木構造辞書中の各ア−クにおいて、該アークよりも
後に存在する全ての後続単語について品詞の有無の情報
を記憶する後続単語品詞情報記憶部と、 品詞同士の接続情報を記憶する品詞接続情報記憶部と 、仮説に言語モデルスコアを付与する手段と、 仮説に音響モデルスコアを付与する手段と、 前記仮説展開判断手段からの展開指示を受け、前記音響
モデルスコアと前記言語モデルスコアを考慮して、前記
木構造辞書記憶部からア−クの構造を取得し、該ア−ク
上にある仮説を後続ア−クへと展開し展開結果を前記仮
説記憶部に記憶させる仮説展開手段と、 を備え、 前記仮説展開判断手段が、仮説が展開されようとしてい
る後続アークに、既に仮説が存在する場合には、品詞同
士の接続ルールを参照する処理を省略して、前記後続ア
ークに仮説を展開するように前記仮説展開手段に指示を
出す、ことを特徴とする連続音声認識装置。 - 【請求項7】木構造辞書及びその先行コンテクストを記
憶する第1の記憶部と、 木構造辞書中の各アークについて、該アークの全ての後
続単語の品詞情報を保持する第2の記憶部と、 品詞同士の接続情報を記憶する第3の記憶部と、を備え
た音声認識装置の連続音声認識方法であって、 仮説を展開中の木構造辞書のコンテクストの品詞情報を
前記第1の記憶部から受け取り、前記仮説を有するア−
クの直後のア−クの全ての後続単語の品詞情報 を、前記
第2の記憶部から受け取り、これらの情報から前記コン
テクストと後続単語が接続可能か否かについて、前記第
3の記憶部を参照して判断し、後続単語の一つでも接続
可能である場合には該後続アークへ仮説を展開するよう
に仮説展開処理に指示を出し、 前記アークの後続の全ての単語が接続不可能であるなら
該後続アークへ仮説の展開を行わずに、仮説を展開しな
いように前記仮説展開処理に指示を出し、 前記仮説展開処理では、前記展開の指示を受けて仮説の
展開を行い、 コンテクストと接続しない単語へのアーク
には仮説が展開されないように制御することを特徴とす
る連続音声認識方法。 - 【請求項8】仮説を記憶する仮説記憶部と、 木構造辞書及びその先行コンテクストを保持する木構造
辞書記憶部と、 前記木構造辞書中の各ア−クにおいて、該アークよりも
後に存在する全ての後続単語について品詞の有無の情報
を記憶する後続単語品詞情報記憶部と、 品詞同士の接続情報を品詞の出現頻度順に記憶する品詞
接続情報記憶部と、を備えた音声認識装置の連続音声認
識方法であって、 あるフレ−ム時刻に存在する全ての仮説について以下の
(a)〜(g)のステップを繰り返し、すなわち、 (a)前記仮説の属する木構造辞書のコンテクストを前
記木構造辞書記憶部から取得するステップ、 (b)前記品詞接続情報記憶部からコンテクストの品詞
の品詞接続情報を取得するステップ、 (c)仮説の属する木構造辞書中のア−クを前記仮説記
憶部から取得するステップ、 前記ア−クの全ての直後の後続ア−クについて以下の
(d)〜(f)のステップを繰り返し、すなわち、 (d)現在選択されている第1アークの直後の後続ア−
クを第2ア−クとし、第2ア−ク2の後続単語品詞情報
を前記後続単語品詞情報記憶部から取得するステップ、 (e)前記取得した品詞接続情報と、前記取得した後続
単語品詞情報とから、前記仮説を、第1ア−クから第2
ア−クへ展開しても良いか否か判断し、その際、前記品
詞接続情報に記されている接続可能な品詞が第2ア−ク
の後ろにない場合、前記仮説は前記第2ア−クへ展開し
てはならないと判断し、そうでなければ、前記仮説は第
2ア−クへ展開してもよいと判断するステップ、 (f)前記仮説が第2ア−クへ展開されるステップ、 (g)前記全ての仮説についてル−プが終了したか否か
判別し、終了した場合、フレ−ム同期ビ−ムサ−チにお
ける前記フレ−ムの仮説の展開処理を終えるように制御
するステップ、 を含む、ことを特徴とする連続音声認識方法。 - 【請求項9】前記後続単語品詞情報記憶部が、前記木構
造辞書中のアークにおいて、該アークより後に存在する
全ての後続単語について、各品詞の有無の情報を、品詞
の出現頻度順に記憶することを特徴とする請求項8記載
の連続音声認識方法。 - 【請求項10】仮説を記憶する仮説記憶部と、 木構造辞書及びその先行コンテクストを保持する木構造
辞書記憶部と、 前記木構造辞書中の各ア−クにおいて、該アークよりも
後に存在する全ての後続単語について品詞の有無の情報
を記憶する後続単語品詞情報記憶部と、 品詞同士の接続情報を品詞の出現頻度順に記憶する品詞
接続情報記憶部と、を備えた音声認識装置において、 あるフレ−ム時刻に存在する全ての仮説について以下の
(a)〜(g)の処理を繰り返し、 (a)前記仮説の属する木構造辞書のコンテクストを前
記木構造辞書記憶部から取得する処理、 (b)前記品詞接続情報記憶部からコンテクストの品詞
の品詞接続情報を取得する処理、 (c)仮説の属する木構造辞書中のア−クを前記仮説記
憶部から取得する処理、 前記ア−クの全ての直後の後続ア−クについて以下の
(d)〜(f)の処理を行い、 (d)現在選択されている第1アークの直後の後続ア−
クを第2ア−クとし、第2ア−ク2の後続単語品詞情報
を前記後続単語品詞情報記憶部から取得する処理、 (e)前記取得した品詞接続情報と、前記取得した後続
単語品詞情報とから、前記仮説を、第1ア−クから第2
ア−クへ展開しても良いか否か判断し、その際、前記品
詞接続情報に記されている接続可能な品詞が第2ア−ク
の後ろにない場合、前記仮説は前記第2ア−クへ展開し
てはならないと判断し、そうでなければ、前記仮説は第
2ア−クへ展開してもよいと判断する処理、 (f)仮説展開処理では、前記仮説を第2ア−クへ展開
する処理、 (g)前記全ての仮説についてル−プが終了した場合、
フレ−ム同期ビ−ムサ−チにおけるこのフレ−ムの仮説
の展開処理を終えるように制御する処理、 の上記(a)〜(g)の各処理を前記音声認識装置を構
成するコンピュータで実行させるためのプログラムを記
録した記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34515398A JP3252815B2 (ja) | 1998-12-04 | 1998-12-04 | 連続音声認識装置及び方法 |
US09/453,153 US6484141B1 (en) | 1998-12-04 | 1999-12-02 | Continuous speech recognition apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34515398A JP3252815B2 (ja) | 1998-12-04 | 1998-12-04 | 連続音声認識装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000172293A JP2000172293A (ja) | 2000-06-23 |
JP3252815B2 true JP3252815B2 (ja) | 2002-02-04 |
Family
ID=18374650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP34515398A Expired - Fee Related JP3252815B2 (ja) | 1998-12-04 | 1998-12-04 | 連続音声認識装置及び方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6484141B1 (ja) |
JP (1) | JP3252815B2 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6704553B1 (en) * | 1997-10-08 | 2004-03-09 | Thomas M. Eubanks | System and method for providing automatic tuning of a radio receiver and for providing automatic control of a CD/tape player |
WO2001065541A1 (fr) * | 2000-02-28 | 2001-09-07 | Sony Corporation | Dispositif de reconnaissance de la parole, procede de reconnaissance de la parole et support d'enregistrement |
JP4105841B2 (ja) * | 2000-07-11 | 2008-06-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
JP3581881B2 (ja) * | 2000-07-13 | 2004-10-27 | 独立行政法人産業技術総合研究所 | 音声補完方法、装置および記録媒体 |
JP4215418B2 (ja) * | 2001-08-24 | 2009-01-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム |
US20040190687A1 (en) * | 2003-03-26 | 2004-09-30 | Aurilab, Llc | Speech recognition assistant for human call center operator |
US8036893B2 (en) * | 2004-07-22 | 2011-10-11 | Nuance Communications, Inc. | Method and system for identifying and correcting accent-induced speech recognition difficulties |
JP2009075263A (ja) * | 2007-09-19 | 2009-04-09 | Kddi Corp | 音声認識装置およびコンピュータプログラム |
GB2453366B (en) * | 2007-10-04 | 2011-04-06 | Toshiba Res Europ Ltd | Automatic speech recognition method and apparatus |
US8306810B2 (en) * | 2008-02-12 | 2012-11-06 | Ezsav Inc. | Systems and methods to enable interactivity among a plurality of devices |
WO2009139230A1 (ja) * | 2008-05-16 | 2009-11-19 | 日本電気株式会社 | 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体 |
US8359192B2 (en) | 2008-11-19 | 2013-01-22 | Lemi Technology, Llc | System and method for internet radio station program discovery |
CN103903619B (zh) * | 2012-12-28 | 2016-12-28 | 科大讯飞股份有限公司 | 一种提高语音识别准确率的方法及系统 |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
WO2021015319A1 (ko) * | 2019-07-22 | 2021-01-28 | 엘지전자 주식회사 | 디스플레이 장치 및 그의 동작 방법 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4241329A (en) * | 1978-04-27 | 1980-12-23 | Dialog Systems, Inc. | Continuous speech recognition method for improving false alarm rates |
US4227177A (en) * | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
JP3425165B2 (ja) | 1992-09-22 | 2003-07-07 | 富士通株式会社 | 連続文音声認識装置 |
JPH06308994A (ja) | 1993-04-26 | 1994-11-04 | Nippon Telegr & Teleph Corp <Ntt> | 日本語音声認識方法 |
JP2905674B2 (ja) | 1993-10-04 | 1999-06-14 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 不特定話者連続音声認識方法 |
US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
US5615299A (en) * | 1994-06-20 | 1997-03-25 | International Business Machines Corporation | Speech recognition using dynamic features |
US5610812A (en) * | 1994-06-24 | 1997-03-11 | Mitsubishi Electric Information Technology Center America, Inc. | Contextual tagger utilizing deterministic finite state transducer |
US5870706A (en) * | 1996-04-10 | 1999-02-09 | Lucent Technologies, Inc. | Method and apparatus for an improved language recognition system |
US5878385A (en) * | 1996-09-16 | 1999-03-02 | Ergo Linguistic Technologies | Method and apparatus for universal parsing of language |
-
1998
- 1998-12-04 JP JP34515398A patent/JP3252815B2/ja not_active Expired - Fee Related
-
1999
- 1999-12-02 US US09/453,153 patent/US6484141B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US6484141B1 (en) | 2002-11-19 |
JP2000172293A (ja) | 2000-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3252815B2 (ja) | 連続音声認識装置及び方法 | |
CN108305634B (zh) | 解码方法、解码器及存储介质 | |
JP3414735B2 (ja) | 複合ワードを有する言語のための音声認識装置 | |
KR100486733B1 (ko) | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 | |
EP0867857B1 (en) | Enrolment in speech recognition | |
US8639507B2 (en) | Voice recognition system, voice recognition method, and program for voice recognition | |
US5875426A (en) | Recognizing speech having word liaisons by adding a phoneme to reference word models | |
WO2007097176A1 (ja) | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム | |
JPH11249677A (ja) | 音声合成装置の韻律制御方法 | |
US6980954B1 (en) | Search method based on single triphone tree for large vocabulary continuous speech recognizer | |
JP2002149643A (ja) | 日本語の表意文字の読み方を予測する方法 | |
KR101747873B1 (ko) | 음성인식을 위한 언어모델 생성 장치 및 방법 | |
JP2002221984A (ja) | 異種環境音声データの音声検索方法及び装置 | |
JPH08248980A (ja) | 音声認識装置 | |
US6772116B2 (en) | Method of decoding telegraphic speech | |
JP3027557B2 (ja) | 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体 | |
Zheng | A syllable-synchronous network search algorithm for word decoding in Chinese speech recognition | |
Lau | Subword lexical modelling for speech recognition | |
JP2004151527A (ja) | 音声合成装置、スタイル判定装置、音声合成方法、スタイル判定方法、およびプログラム | |
JP3525999B2 (ja) | 言語理解方法及び言語理解装置 | |
JP2905686B2 (ja) | 音声認識装置 | |
JP2002311982A (ja) | 韻律情報設定方法及び装置並びにプログラム及び記録媒体 | |
JP2002258884A (ja) | 音声合成方法および装置並びにプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3573889B2 (ja) | 音声出力装置 | |
JPH0695684A (ja) | 音声認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20011023 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071122 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081122 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081122 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091122 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101122 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111122 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111122 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121122 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121122 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131122 Year of fee payment: 12 |
|
LAPS | Cancellation because of no payment of annual fees |