JP2004012615A

JP2004012615A - 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体

Info

Publication number: JP2004012615A
Application number: JP2002163092A
Authority: JP
Inventors: Kenichi Kumagai; 熊谷　建一; Akira Tsuruta; 鶴田　彰
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2002-06-04
Filing date: 2002-06-04
Publication date: 2004-01-15

Abstract

【課題】少ない処理量で発話途中に認識結果を確定し、最適解を安定して得る。
【解決手段】タイミング推定部１３は、単語境界が存在する可能性が高いフレームを推定し、推定したフレームを始点フレームとした後ろ向き探索の実行命令を、後ろ向き探索部１４に出力する。その結果、正しい単語境界を始端ノードとした最適なタイミングで後ろ向き探索を行うことができ、最適解を安定して得ることができる。また、発話途中で認識結果を確定できる。さらに、後ろ向き探索部１４は、探索で得られたｎ‐ｂｅｓｔ単語列をマージしておき、以後の後ろ向き探索時においてはｎ‐ｂｅｓｔ単語列と単語候補との単語境界近傍の音響スコアと言語スコアのみを計算する。制限部１７は、前向き探索部１２に対して、出力された単語列以外の単語列に関連するアクティブな音素ノードを消去させて、前向き探索空間を制限する。こうして、認識に要する処理量を少なくする。
【選択図】　図１

Description

【０００１】
【発明の属する技術分野】
この発明は、連続的に発声された入力音声を認識する連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体に関する。
【０００２】
【従来の技術】
従来より、大語彙連続音声認識アルゴリズムとしてマルチパス探索を用いたものがよく知られている。図６は、マルチパス探索を用いた音声認識システム（鹿野清宏他，“音声認識システム”，オーム社，２００１）を示す。
【０００３】
話者の音声は、１文単位で音響分析部１に入力されてデジタル信号化される。そして、デジタル信号化された音声波形は、フレームと呼ばれる単位毎の特徴ベクトルの時系列に変換される。こうして変換された特徴ベクトルは、前向き探索部２に出力される。そうすると、前向き探索部２においては、予め学習によって作成された簡易な音響・言語モデルである簡易モデル４を用いて、ビタビアルゴリズムによって、上記入力された特徴ベクトルがどの音素列に似ているかを話者発話が終了するまで時間同期に探索することによって、単語候補を絞り込む。通常、前向き探索部２によって絞られた単語候補は、当該単語に関する始点フレーム（つまり開始時間）とスコアとで構成される「単語トレリス」と呼ばれる形式で、後ろ向き探索部３に入力される。
【０００４】
上記後ろ向き探索部３は、上記前向き探索部２から入力された単語トレリスを先読み情報として利用し、予め学習によって作成された高精度な音響・言語モデルである高精度モデル５を用いて、Ａ^＊探索によって後ろ向きに最尤単語列を探索する。こうして後ろ向き探索部３で得られた最尤単語列は、認識結果として出力されて発話者等に通知される。
【０００５】
すなわち、上記マルチパス探索を用いた音声認識システムにおいては、１パス目の処理の前向き探索によって候補を絞り込み、２パス目の処理の後ろ向き探索によって、１パス目の処理で絞られた候補を先読み情報として用いて詳細に照合を行うのである。したがって、認識に要する全体の処理量を小さくすることが可能なのである。
【０００６】
尚、上記単語トレリスとＡ^＊探索とを用いた後ろ向き探索の技術については、「李他，“単語トレリスインデックスを用いた段階的探索による大語彙連続音声認識”，信学論，ｖｏｌ．Ｊ８２‐Ｄ‐ＩＩ，Ｎｏ．１，１９９９」に詳しく説明されている。
【０００７】
【発明が解決しようとする課題】
しかしながら、上記従来のマルチパス探索を用いた音声認識システムには、以下のような問題がある。
【０００８】
すなわち、上記従来のマルチパス探索を用いた音声認識システムにおいては、１文単位の音声入力であり、発声後に高精度な音響・言語モデルを用いて最尤単語列を探索して認識結果を確定するようにしている。したがって、発声途中では音声認識結果を確定することができないという問題がある。また、長い１文を音声入力した場合には、前向き探索部２によって得られる単語候補を多く記憶しなければならないためにメモリ使用量が増加する。その結果、後ろ向き探索部３による探索空間も大きくなってしまい、最適解を探索し難くなるために発声後の処理が増加してしまうという問題もある。
【０００９】
このような問題を解決するために、一定時間毎に後ろ向き探索部の処理を行って認識結果を早期確定する方法「瀬川修他，“端点検出を行わない連続音声認識手法”，信学技報，ｐｐ．１０１‐１０６，２０００」や、最尤単語列逐次比較による早期確定方法「連続音声認識装置および記録媒体（特開２００１‐９２４９６号公報）」がある。しかしながら、これらの方法では、適切なタイミングで後ろ向き探索を実行していないので、認識率の劣化や無駄な計算量の増加を招いてしまう。
【００１０】
例えば、上記特開２００１‐９２４９６号公報に開示された最尤単語列逐次比較による早期確定方法の場合には、一定時間間隔でのある時刻で後ろ向き探索を実行して最尤単語列を求め、直前の後ろ向き探索で求められた最尤単語列と比較し、同じ単語列を安定単語結果として出力することによって、認識率の劣化を防いでいる。しかしながら、最適なタイミングで後ろ向き探索を実行していないために、誤った単語のノードを始端ノードとして後ろ向き探索が開始される場合が生ずる。その場合には、直前の後ろ向き探索時に求められた最尤単語列と現在の後ろ向き探索時に求められた最尤単語列とが一致する可能性は低くなる。したがって、認識結果を確定することができず、後ろ向き探索部による計算が無駄になってしまう。また、後ろ向き探索の対象となる音声区間が複数の探索時刻に関してオーパーラップするため、全体として音声認識処理に必要な計算時間が増加する。したがって、マルチパス探索を用いた音声認識システムにおける本来の利点すら損なってしまいかねない。
【００１１】
そこで、この発明の目的は、音声認識処理量を増やすことなく、発話途中に認識結果を確定でき、且つ、長文が音声入力されても最適解を安定して得ることができる連続音声認識装置および連続音声認識方法、この連続音声認識方法を実現できる連続音声認識プログラム、並びに、上記連続音声認識プログラムが記録されたプログラム記録媒体を提供することにある。
【００１２】
【課題を解決するための手段】
上記目的を達成するため、第１の発明の連続音声認識装置は、前向き探索部によって、音響分析部で得られた特徴ベクトルの時系列に基づいて前向き探索が行われて複数の単語候補が得られる。そして、この単語候補に基づいて、タイミング推定部によって、後ろ向き探索の実行タイミングが推定されて後ろ向き探索部に対して後ろ向き探索の実行が命令される。そうすると、上記後ろ向き探索部によって、上記複数の単語候補に対して後ろ向き探索が行われて単語列が生成される。そして、出力判定部によって、上記生成された単語列が認識結果として確定されて逐次出力されるようになっている。
【００１３】
こうして、上記後ろ向き探索部は、上記タイミング推定部によって推定された実行タイミングで後ろ向き探索を実行するので、無駄な後ろ向き探索の実行が防止される。さらに、発話途中で認識結果が確定されて出力される。したがって、長文が音声入力された場合でも最適解が安定して得られる。
【００１４】
また、１実施例の連続音声認識装置では、上記タイミング推定部を、上記前向き探索部で得られた単語候補に基づいて、単語境界が存在する可能性の高いフレームを推定する。そして、単語境界が存在する可能性の高いフレームを検知した際に上記実行命令を出力するようにしている。したがって、正しい単語境界を始端ノードとした最適なタイミングで後ろ向き探索が行われ、認識性能の劣化と無駄な計算処理とが回避される。
【００１５】
また、１実施例の連続音声認識装置では、上記タイミング推定部を、上記前向き探索で新たな最尤単語候補を得たフレームから次に新たな最尤単語候補を得るまで、上記最尤単語候補と第２候補以下の単語候補との認識スコアの差分を累積し、この得られた累積値に基づいて上記単語境界が存在する可能性の高いフレームを推定するようにしている。したがって、上記単語境界が存在する可能性の高いフレームの推定が容易に行われる。
【００１６】
また、１実施例の連続音声認識装置では、上記タイミング推定部を、上記前向き探索で得られた複数単語候補の開始フレームを求め、この求められた複数の開始フレームの分布に基づいて上記単語境界が存在する可能性の高いフレームを推定するようにしている。したがって、上記単語境界が存在する可能性の高いフレームの推定が容易に行われる。
【００１７】
また、１実施例の連続音声認識装置では、上記タイミング推定部を、上記音響分析部で抽出された韻律情報に基づいて、句境界が存在する可能性の高いフレームを推定し、上記単語境界が存在する可能性の高いフレームであり且つ句境界が存在する可能性の高いフレームを検知した際に上記実行命令を出力するようにしている。したがって、上記単語境界が存在する可能性の高いフレームの推定がさらに容易に行われる。
【００１８】
また、１実施例の連続音声認識装置では、上記前向き探索で得られた複数の単語候補を記憶・消去する記憶手段を備えて、上記出力判定部を、上記認識結果として出力された単語列と音声区間が同一である単語候補列を消去させる消去命令を上記記憶手段に出力するようにしている。したがって、上記記憶手段の記憶容量の増大が抑えられる。
【００１９】
また、１実施例の連続音声認識装置では、上記後ろ向き探索部を、直前の後ろ向き探索における探索区間に続く音声区間に関しては、後ろ向き探索処理を実行する一方、直前の後ろ向き探索における探索区間に関しては、上記直前の後ろ向き探索によって生成された単語列と上記音声区間での単語候補との単語境界近傍の音響スコアおよび言語スコアの算出処理を実行するようにしている。したがって、同一音声区間が複数の後ろ向き探索時にオーバーラップして探索されることが防止され、後ろ向き探索時の計算量の減少と処理時間の短縮とが図られる。
【００２０】
すなわち、発声後に後ろ向き探索を行う従来のマルチパス探索を用いた音声認識システムの場合と略同じ計算量によって、発話途中で認識結果が確定され且つ長文が音声入力された場合でも最適解が安定して得られる連続音声認識が行われるのである。
【００２１】
また、１実施例の連続音声認識装置では、上記出力判定部を、上記後ろ向き探索部によって実行される上記単語境界近傍の音響スコアおよび言語スコアの算出処理の結果に基づいて、上記直前の後ろ向き探索によって生成された最尤単語列を認識結果として確定するようにしている。したがって、発話途中で認識結果を確定して出力するに際して、発声後に後ろ向き探索を行う場合と同程度の高い認識性能が維持される。
【００２２】
また、第２の発明の連続音声認識方法は、音響分析で得られた特徴ベクトルの時系列に基づいて前向き探索を行って複数の単語候補を生成し、この生成された単語候補に基づいて後ろ向き探索の実行タイミングを推定して後ろ向き探索の実行命令を出力し、上記前向き探索で生成された複数の単語候補に対する後ろ向き探索を実行して単語列を生成し、この生成された単語列に基づいて認識結果を確定して逐次的に出力するようになっている。
【００２３】
こうして、上記推定された後ろ向き探索の適切な実行タイミングで後ろ向き探索を実行することによって、無駄な後ろ向き探索の実行が防止される。さらに、発話途中で認識結果が確定されて出力される。したがって、長文が音声入力された場合でも最適解が安定して得られる。
【００２４】
また、第３の発明の連続音声認識プログラムは、コンピュータを、請求項１における音響分析部，前向き探索部，タイミング推定部，後ろ向き探索部および出力判定部として機能させる。したがって、上記第１の発明の場合と同様に、適切な実行タイミングで後ろ向き探索を実行することによって、無駄な後ろ向き探索の実行が防止される。さらに、発話途中で認識結果が確定されて出力される。したがって、長文が音声入力された場合でも最適解が安定して得られる。
【００２５】
また、第４の発明のプログラム記録媒体は、上記第３の発明の連続音声認識プログラムが記録されている。したがって、コンピュータによって上記連続音声認識プログラムを読み出して実行することによって、適切な実行タイミングで後ろ向き探索が実行されて、無駄な後ろ向き探索の実行が防止される。さらに、発話途中で認識結果が確定されて出力される。したがって、長文が音声入力された場合でも最適解が安定して得られる。
【００２６】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。図１は、本実施の形態の連続音声認識装置におけるブロック図である。以下、図１に従って、本連続音声認識装置の構成について説明する。
【００２７】
音響分析部１１は、マイクロホン等の音声入力装置から入力されたアナログ音声信号を、内蔵するＡＤ変換器を用いてデジタル化しする。そして、フレーム毎にデジタル音声信号の音韻特徴を抽出し、抽出された音韻特徴を表す特徴ベクトルの時系列を前向き探索部１２に出力する。
【００２８】
そうすると、上記前向き探索部１２は、例えば、単語間の音響環境近似の音響モデルおよび単語バイグラムモデル等の簡易な確率統計モデル（図示せず）を用いて上述のような前向き探索を行って、開始時間とスコアとで構成される（つまり単語トレリス形式で表現された）単語候補を求める。そして、この求めた単語候補（単語トレリス）を、中間結果操作部１６のバッファにフレーム毎に追加記憶させる。さらに、上記求められた単語候補をタイミング推定部１３に出力する。
【００２９】
上記タイミング推定部１３は、上記単語候補に基づいて、フレームの信頼尺度を、フレーム毎に計算する。そして、算出された信頼尺度に基づいて、後ろ向き探索部１４を動作させるか否かを判断する。そして、動作させると判断した場合には、後ろ向き探索部１４に対して実行命令を出力する。
【００３０】
そうすると、上記後ろ向き探索部１４は、中間結果操作部１６のバッファに記憶された単語トレリスを読み出し、先読み情報として利用して高精度な音響・言語モデル（図示せず）を用いて後ろ向きにＡ^＊探索を行い、尤度が高い順にｎ個の単語列（ｎ‐ｂｅｓｔ単語列）を得る。その際に、上記探索された区間の単語列はマージされる。そして、マージされたｎ‐ｂｅｓｔ単語列を出力判定部１５に出力する。
【００３１】
上記出力判定部１５は、後ろ向き探索部１４から入力されたｎ‐ｂｅｓｔ単語列を直前の後ろ向き探索時に得られたｎ‐ｂｅｓｔ単語列としてバッファに格納する。そして、後ろ向き探索部１４が次回に探索を実行した際に、その探索結果と上記バッファに格納された直前の後ろ向き探索時に得られたｎ‐ｂｅｓｔ単語列とに基づいて、直前の探索時に得られた最尤単語列が現在の探索結果に起因して他の単語列に変るか否かを判断する。そして、変わらない場合には、直前の後ろ向き探索時に得られた最尤単語列を認識結果であると確定して、ディスプレイ装置（図示せず）等に出力する。さらに、中間結果操作部１６に、バッファに記憶されている単語トレリスのうち上記出力した単語列に相当する（つまりフレームが同じである）単語トレリスを消去させる記憶消去命令を出力する。こうして、出力された認識結果に相当する単語候補が、中間結果操作部１６によって消去される。さらに、制限部１７に、上記出力した単語列を表す情報を出力する。
【００３２】
上記制限部１７は、上記前向き探索部１２に、上記出力判定部１５によって出力された単語列以外の単語列に関連するアクティブな音素ノードを消去して前向き探索部１２の探索空間を制限させる探索空間制限命令を出力する。
【００３３】
図２は、図１に示す連続音声認識装置による連続音声認識処理動作を示すフローチャートである。以下、図２に従って、連続音声認識処理動作について説明する。
【００３４】
ステップＳ１で、上記音響分析部１１によって、１フレーム分の入力アナログ音声信号に対して音響分析が行われ、抽出された音韻特徴を表す特徴ベクトルが前向き探索部１２に出力される。ステップＳ２で、前向き探索部１２によって、簡易な確率統計モデルを用いた前向き探索が行われ、単語トレリス形式で表現された単語候補が求められ、中間結果操作部１６のバッファに追加格納される。ステップＳ３で、タイミング推定部１３によって、フレームの信頼尺度が計算される。そして、ステップＳ４で、算出された信頼尺度に基づいて、後ろ向き探索部１４を動作させるか否かが判別される。その結果、動作させる場合にはステップＳ５に進み、動作させない場合には上記ステップＳ１にリターンして、次のフレームの入力アナログ音声信号に対する処理に移行する。
【００３５】
ステップＳ５で、上記後ろ向き探索部１４によって、中間結果操作部１６のバッファに追加格納されている単語トレリスを先読み情報として後ろ向き探索が行われ、ｎ‐ｂｅｓｔ単語列が得られる。ステップＳ６で、出力判定部１５によって、後ろ向き探索部１４による探索結果に基づいて、直前の後ろ向き探索時に得られた最尤単語列が変るか否かを判別することによって、直前の後ろ向き探索時に得られた最尤単語列を認識結果として確定できるか否かが判別される。その結果、確定できる場合にはステップＳ７に進み、確定できない場合には上記ステップＳ１にリターンし、次のフレームの入力アナログ音声信号に対する処理に移行する。
【００３６】
ステップＳ７で、上記出力判定部１５によって、上記直前の後ろ向き探索時に得られた最尤単語列が認識結果として出力される。ステップＳ８で、音響分析部１１によって、次のフレームのアナログ音声信号の有無によって入力終了であるか否かが判別される。その結果、入力終了でない場合には、上記ステップＳ１にリターンして、次のフレームの入力アナログ音声信号に対する処理に移行する。一方、入力終了である場合には、連続音声認識処理動作を終了する。
【００３７】
次に、図２に示す連続音声認識処理動作における上記ステップＳ３およびステップＳ４において、タイミング推定部１３によって実行される現フレームの信頼尺度演算処理と後ろ向き探索部１４の動作判別処理とについて、さらに詳細に説明する。
【００３８】
図３は、上記タイミング推定部１３によって１フレーム毎に行われる信頼尺度演算および後ろ向き探索実行判別処理動作のフローチャートを示す。以下、図３に従って、スコアの差分あるいは韻律情報を利用した信頼尺度演算処理と、その演算結果に基づく後ろ向き探索実行の判別処理とについて説明する。前向き探索部１２からタイミング推定部１３に、あるフレーム（現フレーム）に得られた単語候補が入力されると、信頼尺度演算および後ろ向き探索実行判別処理動作がスタートする。
【００３９】
ステップＳ１１で、入力された現フレームの最尤単語候補が前フレームの最尤単語候補と同じであるか否かが判別される。その結果、同じであればステップＳ１３に進み、異なる場合にはステップＳ１２に進む。ステップＳ１２で、信頼尺度累積値が「０」に初期化され、実行フラグが「オフ」に初期化される。このように、最尤単語候補が変ったことを表す実行フラグを用いることによって、同一最尤単語候補から行われる無駄な後ろ向き探索が回避されるのである。
【００４０】
ステップＳ１３で、現フレームの信頼尺度が計算される。ここで、現フレームの信頼尺度計算の方法として、スコアの差分を利用する方法と、スコアの差分及び韻律情報を利用する方法とがある。上記スコアの差分のみを利用する場合には、次式

によって現フレームの信頼尺度を計算するのである。
【００４１】
また、上記スコアの差分および韻律情報を利用する場合には、単語候補だけではなく音響分析部１１によって抽出された音韻特徴の一つであるピッチ（基本周波数）を用いることによって韻律句認識を行い、韻律句スコアを算出する。そして、次式

但し、ｆ（ｔ），ｇ（ｔ）：単語の継続時間ｔに対して単調減少する関数
（例えば定数×ｅｘｐ（−ｔ）等）
によって現フレームの信頼尺度を計算するのである。尚、韻律句認識については「中井他，“ＦＯ生成モデルを用いたテンプレートに基づく連続音声の句境界検出”，信学論，ｖｏｌ．Ｊ８０‐Ｄ‐ＩＩ，Ｎｏ．１０，１９９９」で詳しく述べられている。
【００４２】
ステップＳ１４で、上記信頼尺度累積値に上記ステップＳ１３において算出された現フレームの信頼尺度が加算される。ステップＳ１５で、信頼尺度累積値が所定の閾値を超えているか否かが判別される。その結果、超えている場合には、現フレームは単語境界が存在する可能性が高いフレームであると判断してステップＳ１６に進む。一方、そうでなければ、信頼尺度演算および後ろ向き探索実行判別処理動作を終了する。ステップＳ１６で、上記実行フラグの内容がオフであるか否かが判別される。その結果、オフであれば、直前に実行された後ろ向き探索の始点フレームから現フレームまでの区間の後ろ向き探索は今だ実行されていないと判断して、ステップＳ１７に進む。一方、オンであれば信頼尺度演算および後ろ向き探索実行判別処理動作を終了する。
【００４３】
ステップＳ１７で、上記後ろ向き探索部１４に対して後ろ向き探索実行命令が出力される。さらに、実行フラグがオンされる。そうした後、信頼尺度演算および後ろ向き探索実行判別処理動作を終了する。
【００４４】
こうして、後ろ向き探索が実行されてはいない最尤単語候補が存在する場合であって、単語候補スコアの差分の累積値が閾値を越えた場合あるいは単語候補スコアの差分と韻律句スコアの差分との加算値の累積値が閾値を越えた場合（つまり現フレームは単語境界が存在する可能性が高いフレームであると判定された場合）に、後ろ向き探索を実行するのである。したがって、正しい単語境界を始端ノードとした最適なタイミングで後ろ向き探索を行うことができるのである。
【００４５】
次に、図３に示す信頼尺度演算および後ろ向き探索実行判別処理とは異なる信頼尺度演算および後ろ向き探索実行判別処理について説明する。図４は、前向き探索によって得られた単語候補の開始時刻を利用する信頼尺度演算および後ろ向き探索実行判別処理動作のフローチャートである。この方法を簡潔化するため、ある始点フレームｓを有する総ての単語候補をＷｓとおき、あるフレームに存在するＷｓの数をＮ（Ｗｓ）とおく。また、上記数Ｎ（Ｗｓ）が当該フレーム中でｎ番目に大きい場合にはＷｓの始点フレームをｓｎとおく。そして、前向き探索部１２からタイミング推定部１３に、あるフレーム（現フレーム）で得られた単語候補が複数入力されると、信頼尺度演算および後ろ向き探索実行判別処理動作がスタートする。
【００４６】
ステップＳ２１で、フレームの信頼尺度計算が次のようにして行われる。すなわち、現フレームにおいて最も出現頻度が大きい始点フレームｓ１を求め、その出現回数Ｎ（ｓ１）を上記信頼尺度として計算するのである。ステップＳ２２で、「ｃｕｒ＿ｓ１（現フレームで最大頻度である始点フレーム）」が「ｐｒｅ＿ｓ１（直前フレームで最大頻度である始点フレーム）」に等しいか否かが判別される。その結果、等しければステップＳ２４に進む一方、異なればステップＳ２３に進む。ステップＳ２３で、信頼尺度累積値が「０」に初期化され、実行フラグが「オフ」に初期化される。このように、直前フレームと現フレームとで最大頻度の始点フレームが異なる場合における現フレームでの最大頻度の始点フレームを新たな単語候補の開始フレームであると推定するのである。
【００４７】
ステップＳ２４で、上記信頼尺度累積値に上記ステップＳ２１において算出されたフレームの信頼尺度Ｎ（ｃｕｒ＿ｓ１）が加算される。ステップＳ２５で、信頼尺度累積値が所定の閾値を超えているか否かが判別される。その結果、超えている場合には、フレーム「ｃｕｒ＿ｓ１」は単語境界が存在する可能性が高いフレームであると判断してステップＳ２６に進む。一方、そうでなければ、信頼尺度演算および後ろ向き探索実行判別処理動作を終了する。ステップＳ２６で、上記実行フラグの内容がオフであるか否かが判別される。その結果、オフであれば、直前に実行された後ろ向き探索の始点フレームからフレーム「ｃｕｒ＿ｓ１」までの区間の後ろ向き探索は今だ実行されていないと判断して、ステップＳ２７に進む。一方、オンであれば信頼尺度演算および後ろ向き探索実行判別処理動作を終了する。
【００４８】
ステップＳ２７で、上記後ろ向き探索部１４に対して後ろ向き探索実行命令が出され、フレーム「ｃｕｒ＿ｓ１」からＡ^＊探索を実行させる。さらに、実行フラグがオンされる。そうした後、信頼尺度演算および後ろ向き探索実行判別処理動作を終了する。
【００４９】
こうして、後ろ向き探索が実行されてはいないフレームが存在する場合であって、単語候補の始点フレームのうちで最も出現頻度が高い始点フレームｓ１の出現回数Ｎ（ｓ１）の累積値が閾値を越えた場合（つまりフレーム「ｃｕｒ＿ｓ１」は単語境界が存在する可能性が高いフレームであると判定された場合）に、後ろ向き探索を実行するのである。したがって、正しい単語境界を始端ノードとした最適なタイミングで、後ろ向き探索を行うことができるのである。
【００５０】
尚、上述したように、図４に示す信頼尺度演算および後ろ向き探索実行判別処理動作においては、上記ステップＳ２７において、後ろ向き探索部１４にフレーム「ｃｕｒ＿ｓ１」から後ろ向き探索を実行させるようになっている。ところが、フレーム「ｃｕｒ＿ｓ１」以前の区間は既に後ろ向き探索が実行されてマージ状態である場合には、後に詳述するように、後ろ向き探索部１４による後ろ向き探索は実行されない。そして、そのままの状態でタイミング推定部１３による処理が継続されて行くのである。
【００５１】
従来、発声入力が終了したフレームあるいは一定フレーム間隔で、２パス目の後ろ向き探索処理を実行していたのに対して、本実施の形態においては、上記信頼尺度を用いて後ろ向き探索の実行タイミングを推定することで、正しい単語境界を始端ノードとした最適なタイミングで上記後ろ向き探索を実行できる。したがって、探索処理を安定化することができる。さらに、後ろ向き探索処理を発話途中で行うことによって、認識結果の早期確定も可能になるのである。
【００５２】
次に、上記後ろ向き探索部１４および出力判定部１５によって実行される処理について詳細に説明する。後ろ向き探索部１４は、タイミング推定部１３からの実行命令を受けると、指定フレームから直前に後ろ向き探索を実行した際の始端フレームまでを、中間結果操作部１６のバッファに格納されている単語トレリス上において後ろ向きにＡ^＊探索を行って、ｎ‐ｂｅｓｔ単語列を得る。その際に、直前に後ろ向き探索を実行した際の始端フレームより前の区間に関しては、既にｎ‐ｂｅｓｔ単語列が得られてマージされているために探索は行わない。但し、図５において、マージされたｎ‐ｂｅｓｔ単語列「その自然の」，「その資源の」，「その事件が」と指定フレーム（図５では現フレーム）までの前向き探索で得られた単語候補「知恵」，「自治」，「一致」とにおける単語境界近傍の音響スコアと言語スコアのみを計算するのである。
【００５３】
こうして、一度後ろ向き探索を実行したフレーム区間に関するｎ‐ｂｅｓｔ単語列をマージしておくことによって、このフレーム区間が次回の後ろ向き探索の際における対象区間とオーバーラップされないようにできる。したがって、探索区間のオーバーラップによる計算量増加を避けることができ、後ろ向き探索時に必要な演算時間の短縮を図ることができるのである。
【００５４】
そして、上記出力判定部１５は、後ろ向き探索部１４が指定フレームから後ろ向き探索を実行した際に、上述のようにして算出された単語境界近傍の音響スコアおよび言語スコアに起因して、直前の後ろ向き探索で得られた最尤単語列（図５における単語列「その自然の」）が他の単語列（図５における単語列「その資源の」，「その事件が」）に変らない場合には、直前の後ろ向き探索で得られた最尤単語列「その自然の」を正しい単語列であると判断して出力するのである。尚、他の単語列に変った場合には、変化前の最尤単語列を正しい単語列ではないと判断して出力しない。そして、変化後の最尤単語列（例えば、単語列「その資源の」）を次回の後ろ向き探索の対象に加えるのである。
【００５５】
上述したように、本実施の形態においては、上記タイミング推定部１３によって、上記前向き探索部１２で得られた単語候補に基づいてフレームの信頼尺度を求め、このフレームの信頼尺度に基づいて単語境界が存在する可能性が高いフレームを推定する。そして、この単語境界が存在する可能性が高いフレームを始点フレームとした後ろ向き探索の実行命令を、後ろ向き探索部１４に出力するようにしている。したがって、正しい単語境界を始端ノードとした最適なタイミングで後ろ向き探索を行うことができ、探索処理を安定化させることができるのである。さらに、後ろ向き探索処理を発話途中で行うので、認識結果の早期確定が可能になる。
【００５６】
その際に、上記タイミング推定部１３によるフレームの信頼尺度の算出は、前向き探索部１２によって新しい最尤単語が得られたフレームから次に新しい最尤単語が得られるまでの区間について、最尤単語候補と第２候補以下の単語候補との認識スコアの差分の平均値をフレーム毎に累積することで行っている。したがって、この信頼尺度を用いることによって、単語境界が存在する可能性が高いフレームを精度良く推定することができる。
【００５７】
あるいは、上記音響分析部１１によって抽出されたピッチに基づく韻律句認識を行って韻律句スコアを求め、上記区間に関して、最尤韻律句スコアとその他の韻律句スコアとの差分の平均の累積値を算出する。そして、上記単語候補スコアの差分の累積値と韻律句スコアの差分の累積値とを加算して現フレームの信頼尺度を算出している。この場合には、単語境界が存在する可能性が高いフレームの推定精度をさらに高めることができる。
【００５８】
あるいは、上記前向き探索部１２で得られた総ての単語候補の開始フレームを求め、最も出現頻度が大きい開始フレームが変ってから次に変るまでの区間について、上記最も出現頻度が大きい開始フレームの出現回数をフレーム毎に累積することで行っている。したがって、この信頼尺度を用いることによって、単語境界が存在する可能性が高いフレームを精度良く推定することができる。
【００５９】
また、上記後ろ向き探索部１４は、上記タイミング推定部１３による指定フレームから後ろ向き探索を行うことによってｎ‐ｂｅｓｔ単語列を得、このｎ‐ｂｅｓｔ単語列をマージしておく。そして、以後の後ろ向き探索時においては既にマージ化されている単語列に関しては探索を行わず、ｎ‐ｂｅｓｔ単語列と上記指定フレーム以降の単語候補との単語境界近傍の音響スコアと言語スコアのみを計算するようにしている。したがって、同一フレーム区間が複数の後ろ向き探索時にオーバーラップして探索されることが防止され、後ろ向き探索時の計算量の減少と処理時間の短縮とを図ることができるのである。
【００６０】
また、上記出力判定部１５によって、上記後ろ向き探索部１４による後ろ向き探索の結果に起因して、直前の後ろ向き探索によって得られた最尤単語列が他の単語列に変らない場合には、直前の後ろ向き探索で得られた最尤単語列を正しい単語列であると判定して出力する。したがって、発話途中で早期確定された認識結果を逐次出力することができるのである。さらに、出力した単語列と同じフレームの単語候補を中間結果操作部１６のバッファから削除するようにしている。したがって、上記バッファの容量増大を抑えることができる。
【００６１】
また、上記制限部１７によって、上記前向き探索部１２に対して、出力判定部１５から出力された単語列以外の単語列に関連するアクティブな音素ノードを消去させる探索空間制限命令を出力するようにしている。したがって、次フレームにおける前向き探索部１２の探索空間を制限して、前向き探索処理量延いては後ろ向き探索処理量を削減することができる。したがって、認識に要する全体の処理量を小さくすることができるのである。
【００６２】
ところで、上記実施の形態における音響分析部１１，前向き探索部１２，タイミング推定部１３，後ろ向き探索部１４，出力判定部１５，中間結果操作部１６および制限部１７としての機能は、プログラム記録媒体に記録された連続音声認識プログラムによって実現される。上記実施の形態におけるプログラム記録媒体は、ＲＯＭ（リード・オンリ・メモリ）（図示せず）でなるプログラムメディアである。または、外部補助記憶装置（図示せず）に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから連続音声認識プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、ＲＡＭ（ランダム・アクセス・メモリ）（図示せず）に設けられたプログラム記憶エリアにダウンロードし、このプログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアから上記ＲＡＭのプログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【００６３】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク，ハードディスク等の磁気ディスクやＣＤ（コンパクトディスク）‐ＲＯＭ，ＭＯ（光磁気）ディスク，ＭＤ（ミニディスク），ＤＶＤ（ディジタル多用途ディスク）等の光ディスクのディスク系、ＩＣ（集積回路）カードや光カード等のカード系、マスクＲＯＭ，ＥＰＲＯＭ（紫外線消去型ＲＯＭ），ＥＥＰＲＯＭ（電気的消去型ＲＯＭ），フラッシュＲＯＭ等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【００６４】
また、上記実施の形態における連続音声認識装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能な構成にすることも可能である。その場合には、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【００６５】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【００６６】
【発明の効果】
以上より明らかなように、第１の発明の連続音声認識装置は、前向き探索部で得られた単語候補に基づいて、タイミング推定部によって、後ろ向き探索の実行タイミングを推定して後ろ向き探索部に後ろ向き探索の実行を命令し、上記後ろ向き探索部によって、上記前向き探索で得られた複数の単語候補に対して後ろ向き探索を行って単語列を生成するので、適切な実行タイミングで後ろ向き探索を実行することができる。したがって、後ろ向き探索区間を短くすることが可能になると共に、無駄な後ろ向き探索の実行を防止して、音声認識処理量の増大を抑制しつつ認識率の劣化を防止することができる。
【００６７】
さらに、出力判定部によって、上記後ろ向き探索で生成された単語列に基づいて認識結果を確定し、逐次的に出力するので、発話途中で認識結果を確定して出力することができる。したがって、長文が音声入力された場合でも最適解を安定して得ることができる。
【００６８】
さらに、上記タイミング推定部を、単語境界が存在する可能性の高いフレームを推定し、単語境界が存在する可能性の高いフレームを検知した際に上記実行命令を出力するようにすれば、正しい単語境界を始端ノードとした最適なタイミングで後ろ向き探索を行うことができる。したがって、認識性能の劣化と無駄な計算処理とを回避することができる。
【００６９】
さらに、上記後ろ向き探索部を、直前の後ろ向き探索における探索区間に続く音声区間を後ろ向き探索するようにすれば、同一音声区間が複数の後ろ向き探索時にオーバーラップして探索されることを防止することができる。したがって、後ろ向き探索時の計算量の減少と処理時間の短縮とを図ることができ、マルチパス探索の利点を損なうことを防止できる。
【００７０】
また、第２の発明の連続音声認識方法は、音響分析で得られた特徴ベクトルの時系列に基づいて前向き探索を行って複数の単語候補を生成し、この生成された単語候補に基づいて後ろ向き探索の実行タイミングを推定して後ろ向き探索の実行命令を出力し、上記前向き探索で生成された複数の単語候補に対する後ろ向き探索を実行して単語列を生成するので、適切な実行タイミングで後ろ向き探索を行うことができる。したがって、無駄な後ろ向き探索の実行を防止することができる。
【００７１】
さらに、上記後ろ向き探索で生成された単語列に基づいて認識結果を確定し、逐次的に出力するので、発話途中で認識結果を確定して出力することができる。したがって、長文が音声入力された場合であっても最適解を安定して得ることができる。
【００７２】
また、第３の発明の連続音声認識プログラムは、コンピュータを、請求項１における音響分析部，前向き探索部，タイミング推定部，後ろ向き探索部及び出力判定部として機能させるので、適切な実行タイミングで後ろ向き探索を実行することができる。したがって、無駄な後ろ向き探索の実行を防止することができる。さらに、発話途中で認識結果を確定して出力することができ、長文が音声入力された場合でも最適解を安定して得ることができる。
【００７３】
また、第４の発明のプログラム記録媒体は、上記第３の発明の連続音声認識プログラムが記録されているので、コンピュータによって上記連続音声認識プログラムを読み出して実行することによって、適切な実行タイミングで後ろ向き探索を実行することができる。したがって、無駄な後ろ向き探索の実行を防止することができる。さらに、発話途中で認識結果を確定して出力することができ、長文が音声入力された場合でも最適解を安定して得ることができる。
【図面の簡単な説明】
【図１】この発明の連続音声認識装置におけるブロック図である。
【図２】図１に示す連続音声認識装置による連続音声認識処理動作を示すフローチャートである。
【図３】図１におけるタイミング推定部によって実行される信頼尺度演算および後ろ向き探索実行判別処理動作のフローチャートである。
【図４】図３とは異なる信頼尺度演算および後ろ向き探索実行判別処理動作のフローチャートである。
【図５】後ろ向き探索の一例を示す図である。
【図６】従来のマルチパス探索を用いた音声認識システムを示すブロック図である。
【符号の説明】
１１…音響分析部、
１２…前向き探索部、
１３…タイミング推定部、
１４…後ろ向き探索部、
１５…出力判定部、
１６…中間結果操作部、
１７…制限部。

Claims

連続的に発声された音声を認識する連続音声認識装置であって、
入力音声を分析して特徴ベクトルの時系列を得る音響分析部と、
上記特徴ベクトルの時系列に基づいて、確率統計モデルを用いた前向き探索を行って複数の単語候補を得る前向き探索部と、
上記前向き探索部によって得られた複数の単語候補に対して後ろ向き探索を行って単語列を生成する後ろ向き探索部と、
上記前向き探索部によって得られた単語候補に基づいて、上記後ろ向き探索の実行タイミングを推定して実行命令を出力し、上記後ろ向き探索部に後ろ向き探索を実行させるタイミング推定部と、
上記後ろ向き探索部によって生成された単語列に基づいて、認識結果を確定して逐次的に出力する出力判定部
を備えたことを特徴とする連続音声認識装置。
請求項１に記載の連続音声認識装置において、
上記タイミング推定部は、上記前向き探索部によって得られた単語候補に基づいて、単語境界が存在する可能性の高いフレームを推定し、単語境界が存在する可能性の高いフレームを検知した際に上記実行命令を出力するようになっていることを特徴とする連続音声認識装置。
請求項２に記載の連続音声認識装置において、
上記タイミング推定部は、上記前向き探索部によって新たな最尤単語候補を得たフレームから次に新たな最尤単語候補を得るまで、上記最尤単語候補と第２候補以下の単語候補との認識スコアの差分を累積し、この得られた累積値に基づいて上記単語境界が存在する可能性の高いフレームを推定するようになっていることを特徴とする連続音声認識装置。
請求項２に記載の連続音声認識装置において、
上記タイミング推定部は、上記前向き探索部によって得られた複数単語候補の開始フレームを求め、この求められた複数の開始フレームの分布に基づいて上記単語境界が存在する可能性の高いフレームを推定するようになっていることを特徴とする連続音声認識装置。
請求項２に記載の連続音声認識装置において、
上記タイミング推定部は、上記音響分析部によって特徴ベクトルの一つとして抽出された韻律情報に基づいて、句境界が存在する可能性の高いフレームを推定し、上記単語境界が存在する可能性の高いフレームであり且つ句境界が存在する可能性の高いフレームを検知した際に上記実行命令を出力するようになっていることを特徴とする連続音声認識装置。
請求項１に記載の連続音声認識装置において、
上記前向き探索部によって得られた複数の単語候補を記憶・消去する記憶手段を備えて、
上記出力判定部は、上記認識結果として出力された単語列と音声区間が同一である単語候補列を消去させる消去命令を上記記憶手段に出力するようになっていることを特徴とする連続音声認識装置。
請求項１に記載の連続音声認識装置において、
上記後ろ向き探索部は、
直前の後ろ向き探索における探索区間に続く音声区間に関しては、後ろ向き探索処理を実行する一方、
直前の後ろ向き探索における探索区間に関しては、上記直前の後ろ向き探索によって生成された単語列と上記音声区間での単語候補とにおける単語境界近傍の音響スコアおよび言語スコアの算出処理を実行する
ようになっていることを特徴とする連続音声認識装置。
請求項７に記載の連続音声認識装置において、
上記出力判定部は、上記後ろ向き探索部によって実行される上記算出処理の結果に基づいて、上記直前の後ろ向き探索によって生成された最尤単語列を認識結果として確定するようになっていることを特徴とする連続音声認識装置。
連続的に発声された音声を認識する連続音声認識方法であって、
入力音声に対する音響分析を行って特徴ベクトルの時系列を得るステップと、
上記特徴ベクトルの時系列に基づいて、確率統計モデルを用いた前向き探索を行って複数の単語候補を生成するステップと、
実行命令を受けて、上記前向き探索によって生成された複数の単語候補に対する後ろ向き探索を実行して単語列を生成するステップと、
上記前向き探索によって生成された単語候補に基づいて、上記後ろ向き探索の実行タイミングを推定して上記実行命令を出力し、上記後ろ向き探索を実行させるステップと、
上記後ろ向き探索によって生成された単語列に基づいて、認識結果を確定して逐次的に出力するステップ
を備えたことを特徴とする連続音声認識方法。
コンピュータを、
請求項１における音響分析部，前向き探索部，タイミング推定部，後ろ向き探索部および出力判定部
として機能させることを特徴とする連続音声認識プログラム
請求項１０に記載の連続音声認識プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。