JP3050180B2

JP3050180B2 - 音声認識装置

Info

Publication number: JP3050180B2
Application number: JP9227584A
Authority: JP
Inventors: 清一三木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1997-08-08
Filing date: 1997-08-08
Publication date: 2000-06-12
Anticipated expiration: 2017-08-08
Also published as: US6088672A; EP0896320A2; EP0896320A3; EP0896320B1; DE69834366T2; DE69834366D1; JPH1152980A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識装置に関
し、特に、二つ以上の発声に対し、それぞれ複数の音声
認識結果候補から全体として最適に認識結果列を選択し
て得るような音声認識装置に関する。

【０００２】

【従来の技術】例えば単語毎に発声し、各発声毎の認識
結果の候補から、言語モデルを用いて最適になるような
認識結果列を自動的に選択・表示するという音声認識装
置を考えることができる。

【０００３】これに対し、例えば特開平８−３２８５８
０号公報には、連続発声による認識結果の候補に対し、
一方向から動的計画法を用いて言語処理を行ない最適な
認識結果列を自動的に選択し、例えばオペレータの操作
により、ある単語が誤っていた場合に、その候補を削除
してもう一度一方向から動的計画法を用いて言語処理を
行なうことにより、次に適当な認識結果列を選択する単
語列認識方法及び装置が記載されている。

【０００４】上記公報に記載の技術を、離散単語発声に
よる認識結果の候補に適用することにより、ある発声に
対し、最適な候補だけでなく、二位、三位以下の候補を
求めることができる。上記公報に記載の技術を用いて、
ある発声（第ｉ番目の発声）の上位ｎ候補を自動的に求
める場合の動作の流れ図を図１１に示す。以下、図１１
を参照して前記公報に記載の技術を説明する。

【０００５】入力された音声は複数候補からなる音声認
識結果候補となり、認識結果保持部に蓄積される。次の
処理をｎ回繰り返すことで、認識結果保持部中、第ｉ番
目の発声に対し、上位ｎ個の候補を表示する。すなわ
ち、蓄積された全候補について左から右に向かって動的
計画法を用いて言語処理を行ない（ステップ１１０
１）、最適パスを求める。第ｉ番目の発声の音声認識候
補のうち、最適パスに含まれていた候補を表示し、それ
を音声認識候補から除く（ステップ１１０２）、という
処理である。

【０００６】このように、上記公報の記載の技術を用い
ることで、ある発声に対する音声認識結果候補の、上位
ｎ候補を表示することができる。

【０００７】ｎを音声認識結果候補数とすると、すべて
の音声認識結果候補について上記並べ替えを行なうこと
ができる。

【０００８】

【発明が解決しようとする課題】このように、従来技術
を用いることにより、単語毎に発声し、各発声毎の認識
結果の候補から、言語モデルを用いて最適な認識結果列
を自動的に選択・表示するような音声認識装置におい
て、ある発声に対する音声認識結果候補の、上位ｎ候補
を表示することができる。しかしながら、そのために
は、動的計画法を用いた言語処理をｎ回繰り返して行な
う必要があり、多大の計算量を必要とする、という問題
点を有している。

【０００９】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、蓄積された音声
認識結果候補の両端から、ある発声に向かって前後に動
的計画法を用いて言語処理を行なうことにより、言語処
理を１回行なうだけで、その発声に対する音声認識結果
候補を最適な順番に並べ替えることができる音声認識装
置を提供することにある。

【００１０】

【課題を解決するための手段】前記目的を達成するた
め、本発明の音声認識装置は、その概略を述べれば、単
語毎に発声し、各発声毎の認識結果の候補から、言語モ
デルを用いて最適な認識結果列を自動的に選択・表示す
るような音声認識装置において、ある発声に対する音声
認識結果候補の、言語処理を行なった後の最適な順各発
声毎の認識結果の候補から、順番に候補を並べ替えるよ
うにしたものである。

【００１１】より詳細には、本発明は、単語毎に発声さ
れた入力音声に対し複数の認識結果の候補を求め、言語
モデルを用いて、二つ以上の発声に対して、それぞれの
認識結果の候補中から選択し、全体として最適な認識結
果列を得るような音声認識装置において、ある一つの発
声に対し、該発声よりも前の発声の認識結果候補に対し
て前向きに動的計画法を用いて言語処理を行なうと共
に、該発声よりも後の発声の認識結果候補に対して後向
きに動的計画法を用いて言語処理を行ない、それぞれの
結果を用いて、該発声の各候補について、該候補を含む
最適パスの累積スコアを求めることにより、該発声の候
補の順位を並べ替える手段を備えたことを特徴とする。

【００１２】

【発明の実施の形態】本発明の実施の形態について図面
を参照して以下に説明する。

【００１３】図１は、本発明の音声認識装置の一つの実
施の形態の構成を示すブロック図である。単語毎に発声
された入力音声を音響処理部１０１で分析し、音響処理
部１０１で分析された入力音声と標準パターン記憶部１
０３に格納されている単語の標準パターンとを音声認識
部１０２で比較し、入力音声と各標準パターンとの音響
尤度を求める。

【００１４】音響処理部１０１は入力音声を分析し、パ
ラメータベクトル列に変換する。音響処理部１０１は、
例えば、フィルタバンク、フーリエ変換器、線径予測係
数型分析器などにより構成される。

【００１５】標準パターン記憶部１０３に格納されてい
る標準パターンは、パラメータベクトル列として表現さ
れている。標準パターンの中から、分析された入力音声
との音響尤度の高い複数が認識結果の候補として音声認
識部１０２で選ばれる。

【００１６】音声認識結果の候補は、発声された順番に
一定量、認識結果保持部１０４で記憶・蓄積される。発
声数が一定量を超えた場合には、認識結果保持部１０４
では、古い発声の音声認識結果候補から破棄される。

【００１７】文脈記憶部１０７は、一つ前の発声に対し
言語処理部１０６において前向きの動的計画法を用いた
言語処理により得られている累積スコアと、一つ前の発
声の認識結果候補を記憶する。文脈記憶部１０７の記憶
内容は、言語処理部１０６により更新される。

【００１８】ラティス構成部１０５は、認識結果保持部
１０４から与えられた音声認識結果候補及び文脈記憶部
１０７から与えられた、これまでの言語処理結果からラ
ティスを構成する。ラティスは、最左端に、文脈記憶部
１０７から与えられた一つ前の発声の認識結果候補を持
ち、それより右に認識結果保持部１０４から与えられた
音声認識結果候補を持つ。

【００１９】言語処理部１０６は、ラティス構成部１０
５から与えられるラティスに対し言語モデルを適用し、
特定の発声の音声認識結果候補を最適な順番に並べ替え
る。

【００２０】図２は、本発明の実施の形態をより詳細に
説明するための一実施例としてラティスの一例を示した
ものである。

【００２１】図３から図５を参照して、本発明の一実施
例として、言語処理部１０６が所定の発声に対する認識
結果候補を最適な順番に並べ替える例を具体的に説明す
る。なお、発声は、「現在／沖縄／で／開かれて／い
る」とし、最近の発生を「いる」とする。言語モデルと
して、単語ｂｉｇｒａｍを使用した場合の例を示す。実
際には、適用される言語モデルは、例えばｎ−ｇｒａｍ
モデルのように、動的計画法を用いて行なうことができ
るモデルであれば何でもよい。

【００２２】ラティスにおいて、最左端の候補をｗ＿
１、並べ替えを行なう所定の発声のそれをｗ＿２、最右
端のそれをｗ＿ｋ＋２、と表すこととする。

【００２３】図３は、ｋ＝２の例である。言語処理部１
０６では、すべてのｗ＿２に対し、次式（１）を求め
る。

【００２４】

【数１】

【００２５】ただし、Ｇ（ｗ＿１）は最左端の列の累積
スコア、ｌ（ｗ＿１，ｗ＿２）は単語ｂｉｇｒａｍモデ
ルにより定まる言語スコア（単語ｗ＿１の次に単語ｗ＿
２が生じる条件つき確率に比例するスコア）、ａ（ｗ＿
ｉ）は単語ｗ＿ｉの音響尤度、ｗは定数である。上式
（１）は左端から前向きに動的計画法を適用することに
より効率的に求めることができる。

【００２６】また、各ｗ＿２に対し、最右端から後ろ向
きに所定の発声まで、次式（２）を、動的計画法を適用
することにより求める。

【００２７】

【数２】

【００２８】所定の発声において、上記スコアＳ＿ｆ
（ｗ＿２）＋Ｓ＿ｂ（ｗ＿２）の大きい順に候補を入れ
換える。

【００２９】また、言語処理部１０６は、文脈記憶部１
０４に対し、各ｗ＿２と、Ｓ＿ｆ（ｗ＿２）を新たな累
積スコアＧ（ｗ＿２）として出力する。

【００３０】図３のラティスの各候補について、図４に
示すように、累積スコア及び音響尤度が与えられてお
り、各単語の組に、図５に示すように、言語スコアが与
えられているとし、上式（１）、（２）の重みｗ＝１と
する。

【００３１】また、言語スコアが０の場合はその単語間
の接続を許さないとすると、Ｓ＿ｆ（ｗ＿２）はそれぞ
れ以下のようになる。

【００３２】

【数３】

【００３３】同様に、Ｓ＿ｂ（ｗ＿２）はそれぞれ以下
のようになる。

【００３４】

【数４】

【００３５】Ｓ＿ｆ（ｗ＿２）＋Ｓ＿ｂ（ｗ＿２）の値
を大きい順に候補を入れ換えると、以下のようになる。

【００３６】

【数５】

【００３７】このように、動的計画法を一回適用するこ
とで、所定の発声（第二発声）の認識結果候補を最適な
順番に並べ換えることができる。図３は、所定の発声
（第二発声）の認識結果候補を最適な順番（「で」、
「れる」、「見る」の順）に並び替えた結果を示す。

【００３８】また、同時に、ラティスにおける最適単語
系列も求まるため、これを表示することで、発声に対し
て遅れのない音声認識装置を実現できる。

【００３９】上記最適単語系列のうち、所定の発声以降
の認識結果を用いて、既に結果が表示された発声に対し
ても、後から得られた認識結果を用いて書き換えること
で、認識結果の精度を向上させることができる。

【００４０】次に図６及び図７を参照して、本発明の別
の実施の形態について説明する。

【００４１】図６は、本発明の音声認識装置の別の実施
の形態の構成を示すブロック図である。この実施の形態
においては、認識結果保持部１０４に蓄積される音声認
識結果候補のみから、ラティスを構成する。

【００４２】図７に、ラティスの一例を示す。

【００４３】音声認識結果候補中の第ｉ番目の発声につ
いて、ラティスの最左端からその発声まで、前向きに動
的計画法を用いて言語処理を行ない、同時に、最右端か
らその発声まで、後向きに動的計画法を用いて言語処理
を行ない、それぞれによって得られた累積スコアの和を
比較し、候補を並べ替えることで、最適な順番に並び替
えられた音声認識結果候補を得ることができる。

【００４４】図７に示す例では、ｉ＝３である。ラティ
スの最左端のスコアは、例えば、言語モデルとして単語
ｂｉｇｒａｍを使用する場合は単語ｕｎｉｇｒａｍのよ
うに、ラティスの最左端のみから与えられるスコアを用
いることができる。これにより、文脈記憶部をなくすこ
とができる。また、蓄積された音声認識結果候補以前の
誤りの影響を受けない。

【００４５】

【発明の効果】以上説明したように、本発明によれば、
蓄積された音声認識結果候補の両端から、ある発声に向
かって前後に動的計画法を用いて言語処理を行なうこと
により、言語処理を１回行なうだけで、その発声に対す
る音声認識結果候補を最適な順番に並べ替え可能とする
音声認識装置を実現することができる、という効果を奏
する。

【図面の簡単な説明】

【図１】本発明の第一の実施の形態の構成を示すブロッ
ク図である。

【図２】本発明の第一の実施の形態における、ラティス
の一例を示す図である。

【図３】本発明の第一の実施の形態における、所定の発
声の上位ｎ候補を選択する方式の例を説明する図であ
る。

【図４】本発明の第一の実施の形態における、累積スコ
ア及び音響スコアの表を示す図である。

【図５】本発明の第一の実施の形態における、言語スコ
アの表を示す図である。

【図６】本発明の第二の実施の形態の構成を示すブロッ
ク図である。

【図７】本発明の第二の実施の形態における、ラティス
の一例を示す図である。

【図８】従来技術を用いた音声認識装置における、所定
の発声の上位ｎ候補を選択する際の動作の流れを示す図
である。

【符号の説明】

１０１音響処理部１０２音声認識部１０３標準パターン記憶部１０４認識結果保持部１０５ラティス構成部１０６言語処理部１０７文脈記憶部

フロントページの続き (56)参考文献特開平10−301597（ＪＰ，Ａ) 特開平８−328580（ＪＰ，Ａ) 欧州特許出願公開677835（ＥＰ，Ａ２) 欧州特許出願公開896320（ＥＰ，Ａ２) 情報処理学会研究報告［自然言語処理］Ｖｏｌ．94，Ｎｏ．47，ＮＬ−101, 「前向きＤＰ後向きＡ＊アルゴリズムを用いた確率的日本語形態素解析システム」ｐ．73−80，（1994／５／27) ＰｒｏｃｅｅｄｉｎｇｓｏｆＣｏｌｉｎｇ，15ｔｈ，Ｖｏｌ．１，”ＡＳｔｏｃａｈｓｔｉｃＪａｐａｎｅｓｅＭｏｒｐｈｏｌｏｇｉｃａｌＡｎａｌｙｚｅｒＵｓｉｎｇａＦｏｒｗａｒｄ−ＤＰＢａｃｋｗａｒｄ−Ａ＊Ｎ−ＢｅｓｔＳｅａｒｃｈＡｌｇｏｒｉｔｈｍ”，ｐ．210−207, （1994) 電子情報通信学会技術研究報告［言語理解とコミュニケーション］Ｖｏｌ. 90，Ｎｏ．116，ＮＬＣ90−８，「接続コスト最小法による形態素解析の提案と計算量の評価について」ｐ．17−24 （1990年７月３日発行) 日本音響学会平成９年度秋季研究発表会講演論文集▲Ｉ▼ ２−１−５「音声による文章入力のための言語モデル適用法の検討」ｐ．57−58（平成９年９月17 日発行) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/18 G10L 15/12 ＩＮＳＰＥＣ（ＤＩＡＬＯＧ) ＪＩＣＳＴファイル（ＪＯＩＳ) ＷＰＩ（ＤＩＡＬＯＧ)

Claims

(57)【特許請求の範囲】

【請求項１】単語毎に発声された入力音声に対し複数の
認識結果の候補を求め、言語モデルを用いて、二つ以上
の発声に対して、それぞれの認識結果の候補中から選択
し、全体として最適な認識結果列を得るような音声認識
装置において、ある一つの発声に対し、該発声よりも前の発声の認識結
果候補に対して前向きに動的計画法を用いて言語処理を
行なうと共に、該発声よりも後の発声の認識結果候補に
対して後向きに動的計画法を用いて言語処理を行ない、
それぞれの結果を用いて、該発声の各候補について該候
補を含む最適パスの累積スコアを求めることにより該発
声の各候補の順位を並べ替える手段を備えたことを特徴
とする音声認識装置。
【請求項２】単語毎に発声された入力音声を分析する音
響処理部と、予め分析された音声の標準パターンを持つ標準パターン
記憶部と、前記標準パターン記憶部に記憶された各標準パターンと
分析された入力音声との類似する度合を示す音響尤度を
求め、発声毎の認識結果の一つ以上の候補を音響尤度と
ともに出力する音声認識部と、前記音声認識部から出力された発声毎の認識結果の候補
を一定量蓄積し、それをまとめて出力する認識結果保持
部と、一つ前の発声に対し言語処理部において前向きの動的計
画法を用いた言語処理により得られている結果を記憶
し、これを出力する文脈記憶部と、前記認識結果保持部と前記文脈記憶部の出力からラティ
スを構成するラティス構成部と、前記ラティス構成部から出力されるラティスに対し該ラ
ティスの左端から特定の発声に向かって前向きに動的計
画法を用いて言語処理を行い、同時に、該ラティスの右
端から同じ発声に向かって後向きに動的計画法を用いて
言語処理を行ない、それぞれの結果を用いて、該発声の
各候補について、該候補を含む最適パスの累積スコアを
求めることにより、その発声の候補の順位を並べ替え、
前向きの動的計画法による前記処理の結果を前記文脈記
憶部に送出する言語処理部と、を備えたことを特徴とする音声認識装置。
【請求項３】単語毎に発声された入力音声を分析する音
響処理部と、予め分析された音声の標準パターンを持つ標準パターン
記憶部と、前記標準パターン記憶部に記憶された各標準パターンと
分析された入力音声との類似する度合を示す音響尤度を
求め、発声毎の認識結果の一つ以上の候補を音響尤度と
ともに出力する音声認識部と、音声認識部から出力された発声毎の認識結果の候補を一
定量蓄積し、それをまとめて出力する認識結果保持部
と、前記認識結果保持部の出力からラティスを構成するラテ
ィス構成部と、前記ラティス構成部から出力されるラティスに対し該ラ
ティスの左端から特定の発声に向かって前向きに動的計
画法を用いて言語処理を行ない、同時に、該ラティスの
右端から同じ発声に向かって後向きに動的計画法を用い
て言語処理を行ない、それぞれの結果を用いて、該発声
の各候補について、該候補を含む最適パスの累積スコア
を求めることにより、該発声の候補の順位を並べ替える
言語処理部と、を備えたことを特徴とする音声認識装置。
【請求項４】前記ラティス構成部が出力するラティスに
対し、該ラティス中の発声すべてについて言語処理を適
用した最適な認識結果列を得ることを特徴とする請求項
２又は３記載の音声認識装置。
【請求項５】言語処理により得られた最適な認識結果列
のうち、認識結果候補を最適な順番に並べ替えた発声を
含みそれ以降の発声に対する認識結果列を表示すること
により、発声に遅れることなく認識結果を表示し、か
つ、後続の発声で認識結果が更新されれば順次書き換え
ていくことを特徴とする請求項４記載の音声認識装置。