JP2004012615A - 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 - Google Patents

連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 Download PDF

Info

Publication number
JP2004012615A
JP2004012615A JP2002163092A JP2002163092A JP2004012615A JP 2004012615 A JP2004012615 A JP 2004012615A JP 2002163092 A JP2002163092 A JP 2002163092A JP 2002163092 A JP2002163092 A JP 2002163092A JP 2004012615 A JP2004012615 A JP 2004012615A
Authority
JP
Japan
Prior art keywords
word
speech recognition
search
continuous speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002163092A
Other languages
English (en)
Inventor
Kenichi Kumagai
熊谷 建一
Akira Tsuruta
鶴田 彰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2002163092A priority Critical patent/JP2004012615A/ja
Publication of JP2004012615A publication Critical patent/JP2004012615A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】少ない処理量で発話途中に認識結果を確定し、最適解を安定して得る。
【解決手段】タイミング推定部13は、単語境界が存在する可能性が高いフレームを推定し、推定したフレームを始点フレームとした後ろ向き探索の実行命令を、後ろ向き探索部14に出力する。その結果、正しい単語境界を始端ノードとした最適なタイミングで後ろ向き探索を行うことができ、最適解を安定して得ることができる。また、発話途中で認識結果を確定できる。さらに、後ろ向き探索部14は、探索で得られたn‐best単語列をマージしておき、以後の後ろ向き探索時においてはn‐best単語列と単語候補との単語境界近傍の音響スコアと言語スコアのみを計算する。制限部17は、前向き探索部12に対して、出力された単語列以外の単語列に関連するアクティブな音素ノードを消去させて、前向き探索空間を制限する。こうして、認識に要する処理量を少なくする。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
この発明は、連続的に発声された入力音声を認識する連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体に関する。
【0002】
【従来の技術】
従来より、大語彙連続音声認識アルゴリズムとしてマルチパス探索を用いたものがよく知られている。図6は、マルチパス探索を用いた音声認識システム(鹿野清宏他,“音声認識システム”,オーム社,2001)を示す。
【0003】
話者の音声は、1文単位で音響分析部1に入力されてデジタル信号化される。そして、デジタル信号化された音声波形は、フレームと呼ばれる単位毎の特徴ベクトルの時系列に変換される。こうして変換された特徴ベクトルは、前向き探索部2に出力される。そうすると、前向き探索部2においては、予め学習によって作成された簡易な音響・言語モデルである簡易モデル4を用いて、ビタビアルゴリズムによって、上記入力された特徴ベクトルがどの音素列に似ているかを話者発話が終了するまで時間同期に探索することによって、単語候補を絞り込む。通常、前向き探索部2によって絞られた単語候補は、当該単語に関する始点フレーム(つまり開始時間)とスコアとで構成される「単語トレリス」と呼ばれる形式で、後ろ向き探索部3に入力される。
【0004】
上記後ろ向き探索部3は、上記前向き探索部2から入力された単語トレリスを先読み情報として利用し、予め学習によって作成された高精度な音響・言語モデルである高精度モデル5を用いて、A探索によって後ろ向きに最尤単語列を探索する。こうして後ろ向き探索部3で得られた最尤単語列は、認識結果として出力されて発話者等に通知される。
【0005】
すなわち、上記マルチパス探索を用いた音声認識システムにおいては、1パス目の処理の前向き探索によって候補を絞り込み、2パス目の処理の後ろ向き探索によって、1パス目の処理で絞られた候補を先読み情報として用いて詳細に照合を行うのである。したがって、認識に要する全体の処理量を小さくすることが可能なのである。
【0006】
尚、上記単語トレリスとA探索とを用いた後ろ向き探索の技術については、「李他,“単語トレリスインデックスを用いた段階的探索による大語彙連続音声認識”,信学論,vol.J82‐D‐II,No.1,1999」に詳しく説明されている。
【0007】
【発明が解決しようとする課題】
しかしながら、上記従来のマルチパス探索を用いた音声認識システムには、以下のような問題がある。
【0008】
すなわち、上記従来のマルチパス探索を用いた音声認識システムにおいては、1文単位の音声入力であり、発声後に高精度な音響・言語モデルを用いて最尤単語列を探索して認識結果を確定するようにしている。したがって、発声途中では音声認識結果を確定することができないという問題がある。また、長い1文を音声入力した場合には、前向き探索部2によって得られる単語候補を多く記憶しなければならないためにメモリ使用量が増加する。その結果、後ろ向き探索部3による探索空間も大きくなってしまい、最適解を探索し難くなるために発声後の処理が増加してしまうという問題もある。
【0009】
このような問題を解決するために、一定時間毎に後ろ向き探索部の処理を行って認識結果を早期確定する方法「瀬川修他,“端点検出を行わない連続音声認識手法”,信学技報,pp.101‐106,2000」や、最尤単語列逐次比較による早期確定方法「連続音声認識装置および記録媒体(特開2001‐92496号公報)」がある。しかしながら、これらの方法では、適切なタイミングで後ろ向き探索を実行していないので、認識率の劣化や無駄な計算量の増加を招いてしまう。
【0010】
例えば、上記特開2001‐92496号公報に開示された最尤単語列逐次比較による早期確定方法の場合には、一定時間間隔でのある時刻で後ろ向き探索を実行して最尤単語列を求め、直前の後ろ向き探索で求められた最尤単語列と比較し、同じ単語列を安定単語結果として出力することによって、認識率の劣化を防いでいる。しかしながら、最適なタイミングで後ろ向き探索を実行していないために、誤った単語のノードを始端ノードとして後ろ向き探索が開始される場合が生ずる。その場合には、直前の後ろ向き探索時に求められた最尤単語列と現在の後ろ向き探索時に求められた最尤単語列とが一致する可能性は低くなる。したがって、認識結果を確定することができず、後ろ向き探索部による計算が無駄になってしまう。また、後ろ向き探索の対象となる音声区間が複数の探索時刻に関してオーパーラップするため、全体として音声認識処理に必要な計算時間が増加する。したがって、マルチパス探索を用いた音声認識システムにおける本来の利点すら損なってしまいかねない。
【0011】
そこで、この発明の目的は、音声認識処理量を増やすことなく、発話途中に認識結果を確定でき、且つ、長文が音声入力されても最適解を安定して得ることができる連続音声認識装置および連続音声認識方法、この連続音声認識方法を実現できる連続音声認識プログラム、並びに、上記連続音声認識プログラムが記録されたプログラム記録媒体を提供することにある。
【0012】
【課題を解決するための手段】
上記目的を達成するため、第1の発明の連続音声認識装置は、前向き探索部によって、音響分析部で得られた特徴ベクトルの時系列に基づいて前向き探索が行われて複数の単語候補が得られる。そして、この単語候補に基づいて、タイミング推定部によって、後ろ向き探索の実行タイミングが推定されて後ろ向き探索部に対して後ろ向き探索の実行が命令される。そうすると、上記後ろ向き探索部によって、上記複数の単語候補に対して後ろ向き探索が行われて単語列が生成される。そして、出力判定部によって、上記生成された単語列が認識結果として確定されて逐次出力されるようになっている。
【0013】
こうして、上記後ろ向き探索部は、上記タイミング推定部によって推定された実行タイミングで後ろ向き探索を実行するので、無駄な後ろ向き探索の実行が防止される。さらに、発話途中で認識結果が確定されて出力される。したがって、長文が音声入力された場合でも最適解が安定して得られる。
【0014】
また、1実施例の連続音声認識装置では、上記タイミング推定部を、上記前向き探索部で得られた単語候補に基づいて、単語境界が存在する可能性の高いフレームを推定する。そして、単語境界が存在する可能性の高いフレームを検知した際に上記実行命令を出力するようにしている。したがって、正しい単語境界を始端ノードとした最適なタイミングで後ろ向き探索が行われ、認識性能の劣化と無駄な計算処理とが回避される。
【0015】
また、1実施例の連続音声認識装置では、上記タイミング推定部を、上記前向き探索で新たな最尤単語候補を得たフレームから次に新たな最尤単語候補を得るまで、上記最尤単語候補と第2候補以下の単語候補との認識スコアの差分を累積し、この得られた累積値に基づいて上記単語境界が存在する可能性の高いフレームを推定するようにしている。したがって、上記単語境界が存在する可能性の高いフレームの推定が容易に行われる。
【0016】
また、1実施例の連続音声認識装置では、上記タイミング推定部を、上記前向き探索で得られた複数単語候補の開始フレームを求め、この求められた複数の開始フレームの分布に基づいて上記単語境界が存在する可能性の高いフレームを推定するようにしている。したがって、上記単語境界が存在する可能性の高いフレームの推定が容易に行われる。
【0017】
また、1実施例の連続音声認識装置では、上記タイミング推定部を、上記音響分析部で抽出された韻律情報に基づいて、句境界が存在する可能性の高いフレームを推定し、上記単語境界が存在する可能性の高いフレームであり且つ句境界が存在する可能性の高いフレームを検知した際に上記実行命令を出力するようにしている。したがって、上記単語境界が存在する可能性の高いフレームの推定がさらに容易に行われる。
【0018】
また、1実施例の連続音声認識装置では、上記前向き探索で得られた複数の単語候補を記憶・消去する記憶手段を備えて、上記出力判定部を、上記認識結果として出力された単語列と音声区間が同一である単語候補列を消去させる消去命令を上記記憶手段に出力するようにしている。したがって、上記記憶手段の記憶容量の増大が抑えられる。
【0019】
また、1実施例の連続音声認識装置では、上記後ろ向き探索部を、直前の後ろ向き探索における探索区間に続く音声区間に関しては、後ろ向き探索処理を実行する一方、直前の後ろ向き探索における探索区間に関しては、上記直前の後ろ向き探索によって生成された単語列と上記音声区間での単語候補との単語境界近傍の音響スコアおよび言語スコアの算出処理を実行するようにしている。したがって、同一音声区間が複数の後ろ向き探索時にオーバーラップして探索されることが防止され、後ろ向き探索時の計算量の減少と処理時間の短縮とが図られる。
【0020】
すなわち、発声後に後ろ向き探索を行う従来のマルチパス探索を用いた音声認識システムの場合と略同じ計算量によって、発話途中で認識結果が確定され且つ長文が音声入力された場合でも最適解が安定して得られる連続音声認識が行われるのである。
【0021】
また、1実施例の連続音声認識装置では、上記出力判定部を、上記後ろ向き探索部によって実行される上記単語境界近傍の音響スコアおよび言語スコアの算出処理の結果に基づいて、上記直前の後ろ向き探索によって生成された最尤単語列を認識結果として確定するようにしている。したがって、発話途中で認識結果を確定して出力するに際して、発声後に後ろ向き探索を行う場合と同程度の高い認識性能が維持される。
【0022】
また、第2の発明の連続音声認識方法は、音響分析で得られた特徴ベクトルの時系列に基づいて前向き探索を行って複数の単語候補を生成し、この生成された単語候補に基づいて後ろ向き探索の実行タイミングを推定して後ろ向き探索の実行命令を出力し、上記前向き探索で生成された複数の単語候補に対する後ろ向き探索を実行して単語列を生成し、この生成された単語列に基づいて認識結果を確定して逐次的に出力するようになっている。
【0023】
こうして、上記推定された後ろ向き探索の適切な実行タイミングで後ろ向き探索を実行することによって、無駄な後ろ向き探索の実行が防止される。さらに、発話途中で認識結果が確定されて出力される。したがって、長文が音声入力された場合でも最適解が安定して得られる。
【0024】
また、第3の発明の連続音声認識プログラムは、コンピュータを、請求項1における音響分析部,前向き探索部,タイミング推定部,後ろ向き探索部および出力判定部として機能させる。したがって、上記第1の発明の場合と同様に、適切な実行タイミングで後ろ向き探索を実行することによって、無駄な後ろ向き探索の実行が防止される。さらに、発話途中で認識結果が確定されて出力される。したがって、長文が音声入力された場合でも最適解が安定して得られる。
【0025】
また、第4の発明のプログラム記録媒体は、上記第3の発明の連続音声認識プログラムが記録されている。したがって、コンピュータによって上記連続音声認識プログラムを読み出して実行することによって、適切な実行タイミングで後ろ向き探索が実行されて、無駄な後ろ向き探索の実行が防止される。さらに、発話途中で認識結果が確定されて出力される。したがって、長文が音声入力された場合でも最適解が安定して得られる。
【0026】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。図1は、本実施の形態の連続音声認識装置におけるブロック図である。以下、図1に従って、本連続音声認識装置の構成について説明する。
【0027】
音響分析部11は、マイクロホン等の音声入力装置から入力されたアナログ音声信号を、内蔵するAD変換器を用いてデジタル化しする。そして、フレーム毎にデジタル音声信号の音韻特徴を抽出し、抽出された音韻特徴を表す特徴ベクトルの時系列を前向き探索部12に出力する。
【0028】
そうすると、上記前向き探索部12は、例えば、単語間の音響環境近似の音響モデルおよび単語バイグラムモデル等の簡易な確率統計モデル(図示せず)を用いて上述のような前向き探索を行って、開始時間とスコアとで構成される(つまり単語トレリス形式で表現された)単語候補を求める。そして、この求めた単語候補(単語トレリス)を、中間結果操作部16のバッファにフレーム毎に追加記憶させる。さらに、上記求められた単語候補をタイミング推定部13に出力する。
【0029】
上記タイミング推定部13は、上記単語候補に基づいて、フレームの信頼尺度を、フレーム毎に計算する。そして、算出された信頼尺度に基づいて、後ろ向き探索部14を動作させるか否かを判断する。そして、動作させると判断した場合には、後ろ向き探索部14に対して実行命令を出力する。
【0030】
そうすると、上記後ろ向き探索部14は、中間結果操作部16のバッファに記憶された単語トレリスを読み出し、先読み情報として利用して高精度な音響・言語モデル(図示せず)を用いて後ろ向きにA探索を行い、尤度が高い順にn個の単語列(n‐best単語列)を得る。その際に、上記探索された区間の単語列はマージされる。そして、マージされたn‐best単語列を出力判定部15に出力する。
【0031】
上記出力判定部15は、後ろ向き探索部14から入力されたn‐best単語列を直前の後ろ向き探索時に得られたn‐best単語列としてバッファに格納する。そして、後ろ向き探索部14が次回に探索を実行した際に、その探索結果と上記バッファに格納された直前の後ろ向き探索時に得られたn‐best単語列とに基づいて、直前の探索時に得られた最尤単語列が現在の探索結果に起因して他の単語列に変るか否かを判断する。そして、変わらない場合には、直前の後ろ向き探索時に得られた最尤単語列を認識結果であると確定して、ディスプレイ装置(図示せず)等に出力する。さらに、中間結果操作部16に、バッファに記憶されている単語トレリスのうち上記出力した単語列に相当する(つまりフレームが同じである)単語トレリスを消去させる記憶消去命令を出力する。こうして、出力された認識結果に相当する単語候補が、中間結果操作部16によって消去される。さらに、制限部17に、上記出力した単語列を表す情報を出力する。
【0032】
上記制限部17は、上記前向き探索部12に、上記出力判定部15によって出力された単語列以外の単語列に関連するアクティブな音素ノードを消去して前向き探索部12の探索空間を制限させる探索空間制限命令を出力する。
【0033】
図2は、図1に示す連続音声認識装置による連続音声認識処理動作を示すフローチャートである。以下、図2に従って、連続音声認識処理動作について説明する。
【0034】
ステップS1で、上記音響分析部11によって、1フレーム分の入力アナログ音声信号に対して音響分析が行われ、抽出された音韻特徴を表す特徴ベクトルが前向き探索部12に出力される。ステップS2で、前向き探索部12によって、簡易な確率統計モデルを用いた前向き探索が行われ、単語トレリス形式で表現された単語候補が求められ、中間結果操作部16のバッファに追加格納される。ステップS3で、タイミング推定部13によって、フレームの信頼尺度が計算される。そして、ステップS4で、算出された信頼尺度に基づいて、後ろ向き探索部14を動作させるか否かが判別される。その結果、動作させる場合にはステップS5に進み、動作させない場合には上記ステップS1にリターンして、次のフレームの入力アナログ音声信号に対する処理に移行する。
【0035】
ステップS5で、上記後ろ向き探索部14によって、中間結果操作部16のバッファに追加格納されている単語トレリスを先読み情報として後ろ向き探索が行われ、n‐best単語列が得られる。ステップS6で、出力判定部15によって、後ろ向き探索部14による探索結果に基づいて、直前の後ろ向き探索時に得られた最尤単語列が変るか否かを判別することによって、直前の後ろ向き探索時に得られた最尤単語列を認識結果として確定できるか否かが判別される。その結果、確定できる場合にはステップS7に進み、確定できない場合には上記ステップS1にリターンし、次のフレームの入力アナログ音声信号に対する処理に移行する。
【0036】
ステップS7で、上記出力判定部15によって、上記直前の後ろ向き探索時に得られた最尤単語列が認識結果として出力される。ステップS8で、音響分析部11によって、次のフレームのアナログ音声信号の有無によって入力終了であるか否かが判別される。その結果、入力終了でない場合には、上記ステップS1にリターンして、次のフレームの入力アナログ音声信号に対する処理に移行する。一方、入力終了である場合には、連続音声認識処理動作を終了する。
【0037】
次に、図2に示す連続音声認識処理動作における上記ステップS3およびステップS4において、タイミング推定部13によって実行される現フレームの信頼尺度演算処理と後ろ向き探索部14の動作判別処理とについて、さらに詳細に説明する。
【0038】
図3は、上記タイミング推定部13によって1フレーム毎に行われる信頼尺度演算および後ろ向き探索実行判別処理動作のフローチャートを示す。以下、図3に従って、スコアの差分あるいは韻律情報を利用した信頼尺度演算処理と、その演算結果に基づく後ろ向き探索実行の判別処理とについて説明する。前向き探索部12からタイミング推定部13に、あるフレーム(現フレーム)に得られた単語候補が入力されると、信頼尺度演算および後ろ向き探索実行判別処理動作がスタートする。
【0039】
ステップS11で、入力された現フレームの最尤単語候補が前フレームの最尤単語候補と同じであるか否かが判別される。その結果、同じであればステップS13に進み、異なる場合にはステップS12に進む。ステップS12で、信頼尺度累積値が「0」に初期化され、実行フラグが「オフ」に初期化される。このように、最尤単語候補が変ったことを表す実行フラグを用いることによって、同一最尤単語候補から行われる無駄な後ろ向き探索が回避されるのである。
【0040】
ステップS13で、現フレームの信頼尺度が計算される。ここで、現フレームの信頼尺度計算の方法として、スコアの差分を利用する方法と、スコアの差分及び韻律情報を利用する方法とがある。上記スコアの差分のみを利用する場合には、次式
Figure 2004012615
によって現フレームの信頼尺度を計算するのである。
【0041】
また、上記スコアの差分および韻律情報を利用する場合には、単語候補だけではなく音響分析部11によって抽出された音韻特徴の一つであるピッチ(基本周波数)を用いることによって韻律句認識を行い、韻律句スコアを算出する。そして、次式
Figure 2004012615
但し、f(t),g(t):単語の継続時間tに対して単調減少する関数
(例えば定数×exp(−t)等)
によって現フレームの信頼尺度を計算するのである。尚、韻律句認識については「中井他,“FO生成モデルを用いたテンプレートに基づく連続音声の句境界検出”,信学論,vol.J80‐D‐II,No.10,1999」で詳しく述べられている。
【0042】
ステップS14で、上記信頼尺度累積値に上記ステップS13において算出された現フレームの信頼尺度が加算される。ステップS15で、信頼尺度累積値が所定の閾値を超えているか否かが判別される。その結果、超えている場合には、現フレームは単語境界が存在する可能性が高いフレームであると判断してステップS16に進む。一方、そうでなければ、信頼尺度演算および後ろ向き探索実行判別処理動作を終了する。ステップS16で、上記実行フラグの内容がオフであるか否かが判別される。その結果、オフであれば、直前に実行された後ろ向き探索の始点フレームから現フレームまでの区間の後ろ向き探索は今だ実行されていないと判断して、ステップS17に進む。一方、オンであれば信頼尺度演算および後ろ向き探索実行判別処理動作を終了する。
【0043】
ステップS17で、上記後ろ向き探索部14に対して後ろ向き探索実行命令が出力される。さらに、実行フラグがオンされる。そうした後、信頼尺度演算および後ろ向き探索実行判別処理動作を終了する。
【0044】
こうして、後ろ向き探索が実行されてはいない最尤単語候補が存在する場合であって、単語候補スコアの差分の累積値が閾値を越えた場合あるいは単語候補スコアの差分と韻律句スコアの差分との加算値の累積値が閾値を越えた場合(つまり現フレームは単語境界が存在する可能性が高いフレームであると判定された場合)に、後ろ向き探索を実行するのである。したがって、正しい単語境界を始端ノードとした最適なタイミングで後ろ向き探索を行うことができるのである。
【0045】
次に、図3に示す信頼尺度演算および後ろ向き探索実行判別処理とは異なる信頼尺度演算および後ろ向き探索実行判別処理について説明する。図4は、前向き探索によって得られた単語候補の開始時刻を利用する信頼尺度演算および後ろ向き探索実行判別処理動作のフローチャートである。この方法を簡潔化するため、ある始点フレームsを有する総ての単語候補をWsとおき、あるフレームに存在するWsの数をN(Ws)とおく。また、上記数N(Ws)が当該フレーム中でn番目に大きい場合にはWsの始点フレームをsnとおく。そして、前向き探索部12からタイミング推定部13に、あるフレーム(現フレーム)で得られた単語候補が複数入力されると、信頼尺度演算および後ろ向き探索実行判別処理動作がスタートする。
【0046】
ステップS21で、フレームの信頼尺度計算が次のようにして行われる。すなわち、現フレームにおいて最も出現頻度が大きい始点フレームs1を求め、その出現回数N(s1)を上記信頼尺度として計算するのである。ステップS22で、「cur_s1(現フレームで最大頻度である始点フレーム)」が「pre_s1(直前フレームで最大頻度である始点フレーム)」に等しいか否かが判別される。その結果、等しければステップS24に進む一方、異なればステップS23に進む。ステップS23で、信頼尺度累積値が「0」に初期化され、実行フラグが「オフ」に初期化される。このように、直前フレームと現フレームとで最大頻度の始点フレームが異なる場合における現フレームでの最大頻度の始点フレームを新たな単語候補の開始フレームであると推定するのである。
【0047】
ステップS24で、上記信頼尺度累積値に上記ステップS21において算出されたフレームの信頼尺度N(cur_s1)が加算される。ステップS25で、信頼尺度累積値が所定の閾値を超えているか否かが判別される。その結果、超えている場合には、フレーム「cur_s1」は単語境界が存在する可能性が高いフレームであると判断してステップS26に進む。一方、そうでなければ、信頼尺度演算および後ろ向き探索実行判別処理動作を終了する。ステップS26で、上記実行フラグの内容がオフであるか否かが判別される。その結果、オフであれば、直前に実行された後ろ向き探索の始点フレームからフレーム「cur_s1」までの区間の後ろ向き探索は今だ実行されていないと判断して、ステップS27に進む。一方、オンであれば信頼尺度演算および後ろ向き探索実行判別処理動作を終了する。
【0048】
ステップS27で、上記後ろ向き探索部14に対して後ろ向き探索実行命令が出され、フレーム「cur_s1」からA探索を実行させる。さらに、実行フラグがオンされる。そうした後、信頼尺度演算および後ろ向き探索実行判別処理動作を終了する。
【0049】
こうして、後ろ向き探索が実行されてはいないフレームが存在する場合であって、単語候補の始点フレームのうちで最も出現頻度が高い始点フレームs1の出現回数N(s1)の累積値が閾値を越えた場合(つまりフレーム「cur_s1」は単語境界が存在する可能性が高いフレームであると判定された場合)に、後ろ向き探索を実行するのである。したがって、正しい単語境界を始端ノードとした最適なタイミングで、後ろ向き探索を行うことができるのである。
【0050】
尚、上述したように、図4に示す信頼尺度演算および後ろ向き探索実行判別処理動作においては、上記ステップS27において、後ろ向き探索部14にフレーム「cur_s1」から後ろ向き探索を実行させるようになっている。ところが、フレーム「cur_s1」以前の区間は既に後ろ向き探索が実行されてマージ状態である場合には、後に詳述するように、後ろ向き探索部14による後ろ向き探索は実行されない。そして、そのままの状態でタイミング推定部13による処理が継続されて行くのである。
【0051】
従来、発声入力が終了したフレームあるいは一定フレーム間隔で、2パス目の後ろ向き探索処理を実行していたのに対して、本実施の形態においては、上記信頼尺度を用いて後ろ向き探索の実行タイミングを推定することで、正しい単語境界を始端ノードとした最適なタイミングで上記後ろ向き探索を実行できる。したがって、探索処理を安定化することができる。さらに、後ろ向き探索処理を発話途中で行うことによって、認識結果の早期確定も可能になるのである。
【0052】
次に、上記後ろ向き探索部14および出力判定部15によって実行される処理について詳細に説明する。後ろ向き探索部14は、タイミング推定部13からの実行命令を受けると、指定フレームから直前に後ろ向き探索を実行した際の始端フレームまでを、中間結果操作部16のバッファに格納されている単語トレリス上において後ろ向きにA探索を行って、n‐best単語列を得る。その際に、直前に後ろ向き探索を実行した際の始端フレームより前の区間に関しては、既にn‐best単語列が得られてマージされているために探索は行わない。但し、図5において、マージされたn‐best単語列「その自然の」,「その資源の」,「その事件が」と指定フレーム(図5では現フレーム)までの前向き探索で得られた単語候補「知恵」,「自治」,「一致」とにおける単語境界近傍の音響スコアと言語スコアのみを計算するのである。
【0053】
こうして、一度後ろ向き探索を実行したフレーム区間に関するn‐best単語列をマージしておくことによって、このフレーム区間が次回の後ろ向き探索の際における対象区間とオーバーラップされないようにできる。したがって、探索区間のオーバーラップによる計算量増加を避けることができ、後ろ向き探索時に必要な演算時間の短縮を図ることができるのである。
【0054】
そして、上記出力判定部15は、後ろ向き探索部14が指定フレームから後ろ向き探索を実行した際に、上述のようにして算出された単語境界近傍の音響スコアおよび言語スコアに起因して、直前の後ろ向き探索で得られた最尤単語列(図5における単語列「その自然の」)が他の単語列(図5における単語列「その資源の」,「その事件が」)に変らない場合には、直前の後ろ向き探索で得られた最尤単語列「その自然の」を正しい単語列であると判断して出力するのである。尚、他の単語列に変った場合には、変化前の最尤単語列を正しい単語列ではないと判断して出力しない。そして、変化後の最尤単語列(例えば、単語列「その資源の」)を次回の後ろ向き探索の対象に加えるのである。
【0055】
上述したように、本実施の形態においては、上記タイミング推定部13によって、上記前向き探索部12で得られた単語候補に基づいてフレームの信頼尺度を求め、このフレームの信頼尺度に基づいて単語境界が存在する可能性が高いフレームを推定する。そして、この単語境界が存在する可能性が高いフレームを始点フレームとした後ろ向き探索の実行命令を、後ろ向き探索部14に出力するようにしている。したがって、正しい単語境界を始端ノードとした最適なタイミングで後ろ向き探索を行うことができ、探索処理を安定化させることができるのである。さらに、後ろ向き探索処理を発話途中で行うので、認識結果の早期確定が可能になる。
【0056】
その際に、上記タイミング推定部13によるフレームの信頼尺度の算出は、前向き探索部12によって新しい最尤単語が得られたフレームから次に新しい最尤単語が得られるまでの区間について、最尤単語候補と第2候補以下の単語候補との認識スコアの差分の平均値をフレーム毎に累積することで行っている。したがって、この信頼尺度を用いることによって、単語境界が存在する可能性が高いフレームを精度良く推定することができる。
【0057】
あるいは、上記音響分析部11によって抽出されたピッチに基づく韻律句認識を行って韻律句スコアを求め、上記区間に関して、最尤韻律句スコアとその他の韻律句スコアとの差分の平均の累積値を算出する。そして、上記単語候補スコアの差分の累積値と韻律句スコアの差分の累積値とを加算して現フレームの信頼尺度を算出している。この場合には、単語境界が存在する可能性が高いフレームの推定精度をさらに高めることができる。
【0058】
あるいは、上記前向き探索部12で得られた総ての単語候補の開始フレームを求め、最も出現頻度が大きい開始フレームが変ってから次に変るまでの区間について、上記最も出現頻度が大きい開始フレームの出現回数をフレーム毎に累積することで行っている。したがって、この信頼尺度を用いることによって、単語境界が存在する可能性が高いフレームを精度良く推定することができる。
【0059】
また、上記後ろ向き探索部14は、上記タイミング推定部13による指定フレームから後ろ向き探索を行うことによってn‐best単語列を得、このn‐best単語列をマージしておく。そして、以後の後ろ向き探索時においては既にマージ化されている単語列に関しては探索を行わず、n‐best単語列と上記指定フレーム以降の単語候補との単語境界近傍の音響スコアと言語スコアのみを計算するようにしている。したがって、同一フレーム区間が複数の後ろ向き探索時にオーバーラップして探索されることが防止され、後ろ向き探索時の計算量の減少と処理時間の短縮とを図ることができるのである。
【0060】
また、上記出力判定部15によって、上記後ろ向き探索部14による後ろ向き探索の結果に起因して、直前の後ろ向き探索によって得られた最尤単語列が他の単語列に変らない場合には、直前の後ろ向き探索で得られた最尤単語列を正しい単語列であると判定して出力する。したがって、発話途中で早期確定された認識結果を逐次出力することができるのである。さらに、出力した単語列と同じフレームの単語候補を中間結果操作部16のバッファから削除するようにしている。したがって、上記バッファの容量増大を抑えることができる。
【0061】
また、上記制限部17によって、上記前向き探索部12に対して、出力判定部15から出力された単語列以外の単語列に関連するアクティブな音素ノードを消去させる探索空間制限命令を出力するようにしている。したがって、次フレームにおける前向き探索部12の探索空間を制限して、前向き探索処理量延いては後ろ向き探索処理量を削減することができる。したがって、認識に要する全体の処理量を小さくすることができるのである。
【0062】
ところで、上記実施の形態における音響分析部11,前向き探索部12,タイミング推定部13,後ろ向き探索部14,出力判定部15,中間結果操作部16および制限部17としての機能は、プログラム記録媒体に記録された連続音声認識プログラムによって実現される。上記実施の形態におけるプログラム記録媒体は、ROM(リード・オンリ・メモリ)(図示せず)でなるプログラムメディアである。または、外部補助記憶装置(図示せず)に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから連続音声認識プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、RAM(ランダム・アクセス・メモリ)(図示せず)に設けられたプログラム記憶エリアにダウンロードし、このプログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアから上記RAMのプログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【0063】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやCD(コンパクトディスク)‐ROM,MO(光磁気)ディスク,MD(ミニディスク),DVD(ディジタル多用途ディスク)等の光ディスクのディスク系、IC(集積回路)カードや光カード等のカード系、マスクROM,EPROM(紫外線消去型ROM),EEPROM(電気的消去型ROM),フラッシュROM等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【0064】
また、上記実施の形態における連続音声認識装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能な構成にすることも可能である。その場合には、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【0065】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【0066】
【発明の効果】
以上より明らかなように、第1の発明の連続音声認識装置は、前向き探索部で得られた単語候補に基づいて、タイミング推定部によって、後ろ向き探索の実行タイミングを推定して後ろ向き探索部に後ろ向き探索の実行を命令し、上記後ろ向き探索部によって、上記前向き探索で得られた複数の単語候補に対して後ろ向き探索を行って単語列を生成するので、適切な実行タイミングで後ろ向き探索を実行することができる。したがって、後ろ向き探索区間を短くすることが可能になると共に、無駄な後ろ向き探索の実行を防止して、音声認識処理量の増大を抑制しつつ認識率の劣化を防止することができる。
【0067】
さらに、出力判定部によって、上記後ろ向き探索で生成された単語列に基づいて認識結果を確定し、逐次的に出力するので、発話途中で認識結果を確定して出力することができる。したがって、長文が音声入力された場合でも最適解を安定して得ることができる。
【0068】
さらに、上記タイミング推定部を、単語境界が存在する可能性の高いフレームを推定し、単語境界が存在する可能性の高いフレームを検知した際に上記実行命令を出力するようにすれば、正しい単語境界を始端ノードとした最適なタイミングで後ろ向き探索を行うことができる。したがって、認識性能の劣化と無駄な計算処理とを回避することができる。
【0069】
さらに、上記後ろ向き探索部を、直前の後ろ向き探索における探索区間に続く音声区間を後ろ向き探索するようにすれば、同一音声区間が複数の後ろ向き探索時にオーバーラップして探索されることを防止することができる。したがって、後ろ向き探索時の計算量の減少と処理時間の短縮とを図ることができ、マルチパス探索の利点を損なうことを防止できる。
【0070】
また、第2の発明の連続音声認識方法は、音響分析で得られた特徴ベクトルの時系列に基づいて前向き探索を行って複数の単語候補を生成し、この生成された単語候補に基づいて後ろ向き探索の実行タイミングを推定して後ろ向き探索の実行命令を出力し、上記前向き探索で生成された複数の単語候補に対する後ろ向き探索を実行して単語列を生成するので、適切な実行タイミングで後ろ向き探索を行うことができる。したがって、無駄な後ろ向き探索の実行を防止することができる。
【0071】
さらに、上記後ろ向き探索で生成された単語列に基づいて認識結果を確定し、逐次的に出力するので、発話途中で認識結果を確定して出力することができる。したがって、長文が音声入力された場合であっても最適解を安定して得ることができる。
【0072】
また、第3の発明の連続音声認識プログラムは、コンピュータを、請求項1における音響分析部,前向き探索部,タイミング推定部,後ろ向き探索部及び出力判定部として機能させるので、適切な実行タイミングで後ろ向き探索を実行することができる。したがって、無駄な後ろ向き探索の実行を防止することができる。さらに、発話途中で認識結果を確定して出力することができ、長文が音声入力された場合でも最適解を安定して得ることができる。
【0073】
また、第4の発明のプログラム記録媒体は、上記第3の発明の連続音声認識プログラムが記録されているので、コンピュータによって上記連続音声認識プログラムを読み出して実行することによって、適切な実行タイミングで後ろ向き探索を実行することができる。したがって、無駄な後ろ向き探索の実行を防止することができる。さらに、発話途中で認識結果を確定して出力することができ、長文が音声入力された場合でも最適解を安定して得ることができる。
【図面の簡単な説明】
【図1】この発明の連続音声認識装置におけるブロック図である。
【図2】図1に示す連続音声認識装置による連続音声認識処理動作を示すフローチャートである。
【図3】図1におけるタイミング推定部によって実行される信頼尺度演算および後ろ向き探索実行判別処理動作のフローチャートである。
【図4】図3とは異なる信頼尺度演算および後ろ向き探索実行判別処理動作のフローチャートである。
【図5】後ろ向き探索の一例を示す図である。
【図6】従来のマルチパス探索を用いた音声認識システムを示すブロック図である。
【符号の説明】
11…音響分析部、
12…前向き探索部、
13…タイミング推定部、
14…後ろ向き探索部、
15…出力判定部、
16…中間結果操作部、
17…制限部。

Claims (11)

  1. 連続的に発声された音声を認識する連続音声認識装置であって、
    入力音声を分析して特徴ベクトルの時系列を得る音響分析部と、
    上記特徴ベクトルの時系列に基づいて、確率統計モデルを用いた前向き探索を行って複数の単語候補を得る前向き探索部と、
    上記前向き探索部によって得られた複数の単語候補に対して後ろ向き探索を行って単語列を生成する後ろ向き探索部と、
    上記前向き探索部によって得られた単語候補に基づいて、上記後ろ向き探索の実行タイミングを推定して実行命令を出力し、上記後ろ向き探索部に後ろ向き探索を実行させるタイミング推定部と、
    上記後ろ向き探索部によって生成された単語列に基づいて、認識結果を確定して逐次的に出力する出力判定部
    を備えたことを特徴とする連続音声認識装置。
  2. 請求項1に記載の連続音声認識装置において、
    上記タイミング推定部は、上記前向き探索部によって得られた単語候補に基づいて、単語境界が存在する可能性の高いフレームを推定し、単語境界が存在する可能性の高いフレームを検知した際に上記実行命令を出力するようになっていることを特徴とする連続音声認識装置。
  3. 請求項2に記載の連続音声認識装置において、
    上記タイミング推定部は、上記前向き探索部によって新たな最尤単語候補を得たフレームから次に新たな最尤単語候補を得るまで、上記最尤単語候補と第2候補以下の単語候補との認識スコアの差分を累積し、この得られた累積値に基づいて上記単語境界が存在する可能性の高いフレームを推定するようになっていることを特徴とする連続音声認識装置。
  4. 請求項2に記載の連続音声認識装置において、
    上記タイミング推定部は、上記前向き探索部によって得られた複数単語候補の開始フレームを求め、この求められた複数の開始フレームの分布に基づいて上記単語境界が存在する可能性の高いフレームを推定するようになっていることを特徴とする連続音声認識装置。
  5. 請求項2に記載の連続音声認識装置において、
    上記タイミング推定部は、上記音響分析部によって特徴ベクトルの一つとして抽出された韻律情報に基づいて、句境界が存在する可能性の高いフレームを推定し、上記単語境界が存在する可能性の高いフレームであり且つ句境界が存在する可能性の高いフレームを検知した際に上記実行命令を出力するようになっていることを特徴とする連続音声認識装置。
  6. 請求項1に記載の連続音声認識装置において、
    上記前向き探索部によって得られた複数の単語候補を記憶・消去する記憶手段を備えて、
    上記出力判定部は、上記認識結果として出力された単語列と音声区間が同一である単語候補列を消去させる消去命令を上記記憶手段に出力するようになっていることを特徴とする連続音声認識装置。
  7. 請求項1に記載の連続音声認識装置において、
    上記後ろ向き探索部は、
    直前の後ろ向き探索における探索区間に続く音声区間に関しては、後ろ向き探索処理を実行する一方、
    直前の後ろ向き探索における探索区間に関しては、上記直前の後ろ向き探索によって生成された単語列と上記音声区間での単語候補とにおける単語境界近傍の音響スコアおよび言語スコアの算出処理を実行する
    ようになっていることを特徴とする連続音声認識装置。
  8. 請求項7に記載の連続音声認識装置において、
    上記出力判定部は、上記後ろ向き探索部によって実行される上記算出処理の結果に基づいて、上記直前の後ろ向き探索によって生成された最尤単語列を認識結果として確定するようになっていることを特徴とする連続音声認識装置。
  9. 連続的に発声された音声を認識する連続音声認識方法であって、
    入力音声に対する音響分析を行って特徴ベクトルの時系列を得るステップと、
    上記特徴ベクトルの時系列に基づいて、確率統計モデルを用いた前向き探索を行って複数の単語候補を生成するステップと、
    実行命令を受けて、上記前向き探索によって生成された複数の単語候補に対する後ろ向き探索を実行して単語列を生成するステップと、
    上記前向き探索によって生成された単語候補に基づいて、上記後ろ向き探索の実行タイミングを推定して上記実行命令を出力し、上記後ろ向き探索を実行させるステップと、
    上記後ろ向き探索によって生成された単語列に基づいて、認識結果を確定して逐次的に出力するステップ
    を備えたことを特徴とする連続音声認識方法。
  10. コンピュータを、
    請求項1における音響分析部,前向き探索部,タイミング推定部,後ろ向き探索部および出力判定部
    として機能させることを特徴とする連続音声認識プログラム
  11. 請求項10に記載の連続音声認識プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。
JP2002163092A 2002-06-04 2002-06-04 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 Pending JP2004012615A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002163092A JP2004012615A (ja) 2002-06-04 2002-06-04 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002163092A JP2004012615A (ja) 2002-06-04 2002-06-04 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2004012615A true JP2004012615A (ja) 2004-01-15

Family

ID=30431658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002163092A Pending JP2004012615A (ja) 2002-06-04 2002-06-04 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2004012615A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169154A (ja) * 2008-01-17 2009-07-30 Kddi Corp 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体
WO2011007627A1 (ja) * 2009-07-17 2011-01-20 日本電気株式会社 音声処理装置および方法ならびに記憶媒体
WO2013125203A1 (ja) * 2012-02-21 2013-08-29 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム
US9672820B2 (en) 2013-09-19 2017-06-06 Kabushiki Kaisha Toshiba Simultaneous speech processing apparatus and method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169154A (ja) * 2008-01-17 2009-07-30 Kddi Corp 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体
WO2011007627A1 (ja) * 2009-07-17 2011-01-20 日本電気株式会社 音声処理装置および方法ならびに記憶媒体
JP5418596B2 (ja) * 2009-07-17 2014-02-19 日本電気株式会社 音声処理装置および方法ならびに記憶媒体
US9583095B2 (en) 2009-07-17 2017-02-28 Nec Corporation Speech processing device, method, and storage medium
WO2013125203A1 (ja) * 2012-02-21 2013-08-29 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム
US9672820B2 (en) 2013-09-19 2017-06-06 Kabushiki Kaisha Toshiba Simultaneous speech processing apparatus and method

Similar Documents

Publication Publication Date Title
JP4322815B2 (ja) 音声認識システム及び方法
US5884259A (en) Method and apparatus for a time-synchronous tree-based search strategy
US9043209B2 (en) Language model creation device
US5983180A (en) Recognition of sequential data using finite state sequence models organized in a tree structure
JP4414088B2 (ja) 音声認識において無音を使用するシステム
KR100845428B1 (ko) 휴대용 단말기의 음성 인식 시스템
JP3834169B2 (ja) 連続音声認識装置および記録媒体
JP5310563B2 (ja) 音声認識システム、音声認識方法、および音声認識用プログラム
JP4757936B2 (ja) パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
US20080201147A1 (en) Distributed speech recognition system and method and terminal and server for distributed speech recognition
EP0903730A2 (en) Search and rescoring method for a speech recognition system
JP5447373B2 (ja) 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
JP2002215187A (ja) 音声認識方法及びその装置
US20050075876A1 (en) Continuous speech recognition apparatus, continuous speech recognition method, continuous speech recognition program, and program recording medium
JP2003208195A5 (ja)
CN110189750B (zh) 词语检测系统、词语检测方法以及记录介质
JP2004012615A (ja) 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体
US20030061046A1 (en) Method and system for integrating long-span language model into speech recognition system
JP3171107B2 (ja) 音声認識装置
JP3440840B2 (ja) 音声認識方法及びその装置
JP4741452B2 (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
JP3559479B2 (ja) 連続音声認識方法
JP2999726B2 (ja) 連続音声認識装置
JP2002268673A (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
KR100557650B1 (ko) 문맥 종속 음소 지속시간 정보를 이용한 음성인식 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071204