JPH06289893A

JPH06289893A - 音声認識装置

Info

Publication number: JPH06289893A
Application number: JP13565293A
Authority: JP
Inventors: Yasuo Nomura; 康夫野村; Asako Tamura; 朝子田村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1993-02-02
Filing date: 1993-06-07
Publication date: 1994-10-18
Anticipated expiration: 2018-09-08
Also published as: JP3443874B2

Abstract

(57)【要約】【目的】発話者の発話を限定することなく、音声の認
識率を向上させる。【構成】いま発話者によって、例えば”９時”と発話
された結果、音声認識部２において”１０時”と誤認識
されると、この単語の組（１０時，９時）が誤認識パタ
ーンとしてデータベース４に登録される。そして、次に
発話者によって”９時”と発話された結果、音声認識部
２において”１０時”と再び誤認識されると、ＣＰＵ３
がデータベース４に登録された誤認識パターンを参照し
て、”１０時”ではなく、”９時”を最終的な音声認識
結果として出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声を認識する場合に
用いて好適な音声認識装置に関する。

【０００２】

【従来の技術】従来の音声認識装置においては、例えば
入力された音声から特徴パラメータを抽出して入力パタ
ーンとし、あらかじめ用意した標準パターンとマッチン
グして、スコアの最も高い結果が得られた標準パターン
を、音声認識結果として出力するようになされている。

【０００３】なお、スコアとは、入力パターンとマッチ
ングした標準パターンの尤度であり、その値が大きいほ
ど、その標準パターンが入力パターンに類似しているこ
とを意味する。

【０００４】ところで、このような音声認識装置では、
音声の認識率を向上させるために、例えば音声が連続し
て入力されている間、一度認識した単語を認識対象から
除外するようになされている。

【０００５】

【発明が解決しようとする課題】しかしながら、この場
合、一連の音声の入力が終了するまで、同一の単語を複
数回使用する（発話する）ことができず、従って発話者
の発話を限定しなければならない課題があった。

【０００６】即ち、このような音声認識装置が装備され
た、例えばビデオテープレコーダなどに対して、録画予
約を音声により行う場合、録画の開始時刻と終了時刻は
分けて入力しなければならず、不便であった。

【０００７】そこで、現在の認識対象単語から、直前に
認識された単語のみを除外する方法がある。しかしなが
ら、この方法では、一度誤認識した単語を、他の単語を
はさんで再び誤認識する課題があった。

【０００８】本発明は、このような状況に鑑みてなされ
たものであり、発話者の発話を限定することなく、音声
の認識率を向上させるものである。

【０００９】

【課題を解決するための手段】本発明の音声認識装置
は、音声を入力する入力手段としてのマイク１と、マイ
ク１からの音声を認識し、認識候補とともに認識候補の
信頼度を出力する認識手段としての音声認識部２と、音
声認識部２が誤認識した誤認識候補を、正しい認識候補
と関連付けて記憶している記憶手段としてのデータベー
ス４と、音声認識部２からの認識候補が、データベース
４に誤認識候補として記憶されていた場合に、音声認識
部２からの認識候補の信頼度を変更する変更手段として
のプログラムの処理ステップＳ２４と、信頼度に対応し
て、音声認識部２からの認識候補を選択する選択手段と
してのプログラムの処理ステップＳ２５とを備えること
を特徴とする。

【００１０】この音声認識装置は、音声認識部２に、信
頼度が所定の閾値以上である認識候補を出力させるよう
にすることができる。

【００１１】さらに、この音声認識装置は、音声認識部
２に、信頼度の高い順に認識候補を出力させ、プログラ
ムの処理ステップＳ２４において、音声認識部２からの
認識候補のうち、誤認識候補としてデータベース４に記
憶されていたものの信頼度に１未満の係数を乗算させる
とともに、音声認識部２からの認識候補のうち、誤認識
候補に関連付けられた正しい認識候補としてデータベー
ス４に記憶されていたものの信頼度に１以上の係数を乗
算させるようにすることができる。

【００１２】また、この音声認識装置は、音声認識部２
がマイク１からの音声を、誤認識候補に誤認識した頻度
をカウントするカウント手段としてのプログラムの処理
ステップＳ１２またはＳ１３をさらに備えることがで
き、信頼度に乗算する係数を、プログラムの処理ステッ
プＳ１２またはＳ１３によりカウントされた頻度に基づ
いて変更するようにすることができる。

【００１３】また、この音声認識装置は、正しい認識候
補と誤認識候補との距離差を演算する演算手段としての
プログラムの処理ステップＳ３２またはＳ３３をさらに
備えることができ、信頼度に乗算する係数を、プログラ
ムの処理ステップＳ３２またはＳ３３により演算された
距離差に基づいて変更するようにすることができる。

【００１４】さらに、この音声認識装置は、発話者から
の発話に基づいて、音声認識部２が誤認識したか否かを
判定する判定手段としてのプログラムの処理ステップＳ
４をさらに備えることができ、データベース４に、プロ
グラムの処理ステップＳ４の判定結果に基づいて、音声
認識部２が誤認識した誤認識候補を、正しい認識候補と
関連付けて記憶させるようにすることができる。

【００１５】

【作用】上記構成の音声認識装置においては、データベ
ース４に、音声認識部２が誤認識した誤認識候補が、正
しい認識候補と関連付けて記憶されており、マイク１か
らの音声が認識され、認識候補とともに認識候補の信頼
度が出力されると、音声認識部２からの認識候補が、デ
ータベース４に誤認識候補として記憶されていた場合
に、音声認識部２からの認識候補の信頼度が変更され、
その信頼度に対応して、音声認識部２からの認識候補が
選択される。従って、誤認識候補としての音声認識部２
からの認識候補の信頼度を小さくするとともに、正しい
認識候補としての音声認識部２からの認識候補の信頼度
を大きくするようにすることができるので、音声の認識
率を向上させることができる。

【００１６】

【実施例】図１は、本発明の音声認識装置の一実施例の
構成を示すブロック図である。前述したように、音声認
識においては、一度誤認識された単語は、一般的に再び
同じように誤認識される。そこで、この音声認識装置に
おいては、ある単語Ｗ１を他の単語Ｗ２に誤認識した場
合に、その単語の組（Ｗ１，Ｗ２）を記憶しておき、即
ち誤認識したことを覚えておき、次に単語Ｗ１が発話さ
れたときに、単語Ｗ１を単語Ｗ２に再び誤認識すること
なく、正しく認識することができるようになされてい
る。

【００１７】マイク１は、音声を電気信号としての音声
信号に変換して、音声認識部２に出力する。音声認識部
２は、マイク１からの音声信号をＡ／Ｄ変換し、所定の
フレーム区間ごとに音声の特徴パラメータを抽出する。
さらに、音声認識部２は、標準パターンがあらかじめ登
録されたメモリ（図示せず）を内蔵しており、この標準
パターンと、マイク１からの音声信号から抽出した入力
パターンとしての音声の特徴パラメータとをマッチング
する。そして、音声認識部２は、入力パターンとマッチ
ングした標準パターンのうち、スコアの高い順に、例え
ば２つの標準パターンに対応する単語を、認識単語（認
識結果）としてＣＰＵ３に出力するとともに、各単語の
スコアを所定の値で正規化することにより、０乃至１の
範囲の値に変換して、その値（正規化値）を信頼度とし
てＣＰＵ３に出力する。

【００１８】ＣＰＵ３は、装置のモードが登録モードで
ある場合、音声認識部２が誤認識した誤認識単語Ｗ
_eを、正しい認識単語Ｗ_sと関連付け、その正しい認識単
語Ｗ_sを誤認識単語Ｗ_eに誤認識した頻度（回数）ととも
にデータベース４に供給して記憶させる。

【００１９】さらに、ＣＰＵ３は、装置のモードが認識
モードである場合、データベース４を参照し、例えば音
声認識部２からの２つの認識単語のうち、信頼度の最も
高い認識単語が、データベース４に誤認識単語として記
憶されており、かつ、音声認識部２からの２つの認識単
語のうち、信頼度の２番目に高い認識単語が、データベ
ース４に正しい認識単語として記憶されている場合、信
頼度の最も高い認識単語の信頼度に、例えば１未満の係
数を乗算して、その値を小さくするとともに、信頼度の
２番目に高い認識単語の信頼度に、例えば１以上の係数
を乗算して、その値を大きくする（但し、係数として１
が乗算された場合は、信頼度は変化しない）。

【００２０】そして、ＣＰＵ３は、音声認識部２からの
２つの認識単語のうち、信頼度の最も高い認識単語を、
最終的な認識結果として、例えばディスプレイやスピー
カ（いずれも図示せず）などに供給して出力させる。

【００２１】データベース４は、ＣＰＵ３からの正しい
認識単語Ｗ_s、その正しい認識単語Ｗ_sの誤認識結果とし
ての誤認識単語Ｗ_e、およびその正しい認識単語Ｗ_sを誤
認識単語Ｗ_eに誤認識した頻度Ｃを、例えば（誤認識単語Ｗ_e，正しい認識単語Ｗ_s，頻度Ｃ）のようなフォーマットで記憶する。

【００２２】次に、装置のモードが登録モードのときの
動作について説明する。この場合、まずマイク１に音声
が入力されると、電気信号としての音声信号に変換さ
れ、音声認識部２に出力される。音声認識部２は、マイ
ク１からの音声を認識し、信頼度の高い順に２つの認識
単語（認識結果）をＣＰＵ３に出力する。ＣＰＵ３は、
音声認識部２より出力された２つの単語のうち、信頼度
の最も高い単語を認識結果として、例えばディスプレイ
に供給して表示させる。

【００２３】ディスプレイに表示された単語Ｗ_aが、発
話者の発話した単語Ｗである場合、認識結果が正しいこ
とを装置に知らせるために、発話者は、例えば”ＯＫ”
などと発話する。すると、この単語”ＯＫ”は、マイク
１を介して音声認識部２に入力される。そして、単語”
ＯＫ”は、音声認識部２で音声認識され、ＣＰＵ３に出
力される。これにより、ＣＰＵ３は、認識結果が正しか
ったことを理解し、発話者からの新たな単語の発話を待
つ。

【００２４】一方、ディスプレイに表示された単語Ｗ_a
が、発話者の発話した単語Ｗではなかった場合、認識結
果が誤っていることを装置に知らせるために、発話者
は、例えば”違う”などと発話する。すると、この単
語”違う”は、マイク１を介して音声認識部２に入力さ
れる。そして、単語”違う”は、音声認識部２で音声認
識され、ＣＰＵ３に出力される。これにより、ＣＰＵ３
は、認識結果が誤っていたことを理解し、発話者に同じ
単語Ｗを再び発話するように促すメッセージをディスプ
レイに供給して表示させる。

【００２５】そして、発話者から単語Ｗが再び発話され
ると、この音声（単語Ｗ）は、マイク１を介して音声認
識部２に入力され、音声認識部２で音声認識されて、上
述したときと同様に、信頼度の高い順に２つの認識単語
（認識結果）がＣＰＵ３に出力される。ＣＰＵ３は、音
声認識部２より出力された２つの単語のうち、信頼度の
最も高い単語Ｗ_bを選択し、この単語Ｗ_bを正しい認識結
果と仮定してディスプレイに供給して表示させる。

【００２６】即ち、ＣＰＵ３では、図２に示すステップ
Ｓ１において、直前の認識結果としての単語Ｗ_aが、現
在の認識結果としての単語Ｗ_bに訂正され（単語Ｗ_bが単
語Ｗ_aに誤認識されたものと理解され）、ステップＳ２
に進む。ステップＳ２において、単語Ｗ_aが、誤認識単
語としてＣＰＵ３の内蔵するメモリ（図示せず）に一時
登録され、ステップＳ３に進み、現在の認識結果として
の単語Ｗ_bが、正しい認識結果と仮定され、ディスプレ
イに表示される。

【００２７】そして、ステップＳ４に進み、発話者によ
って単語”ＯＫ”が発話されたか、あるいは単語”違
う”が発話されたかが判定される。ステップＳ４におい
て、発話者によって単語”違う”が発話されたと判定さ
れた場合、即ちディスプレイに表示された単語が、発話
者の発話した単語Ｗでなかった場合、発話者に同じ単語
Ｗを再び発話するように促すメッセージがディスプレイ
に表示される。

【００２８】そして、発話者から単語Ｗが再び発話され
ると、その音声（単語Ｗ）が、音声認識部２で音声認識
され、認識結果（認識単語と信頼度）がＣＰＵ３に出力
されて、ステップＳ１からの処理が繰り返される。

【００２９】また、ステップＳ４において、発話者によ
って単語”ＯＫ”が発話されたと判定された場合、即ち
ディスプレイに表示された単語Ｗ_bが、発話者の発話し
た単語Ｗである場合、ステップＳ５に進み、ステップＳ
３で最終的に正しい認識結果と仮定された単語が、ＣＰ
Ｕ３の内蔵するメモリに記憶された誤認識単語それぞれ
に対する、発話者によって発話された正しい単語である
と決定され、ステップＳ３で最終的に正しい認識結果と
仮定された単語と、ＣＰＵ３の内蔵するメモリに記憶さ
れた誤認識単語それぞれとが関連付けられる。

【００３０】即ち、例えば発話者が、”９時”と発話し
たのにも拘らず、”１０時”と誤認識され、さらに”９
時”と発話し直したのにも拘らず、”１１時”と誤認識
された場合、”１０時”が、誤認識単語としてＣＰＵ３
のメモリに記憶され（ステップＳ２）、新たな認識単語
（認識結果）としての”１１時”が正しい認識単語と仮
定される（ステップＳ３）。

【００３１】そして、発話者が、さらに”９時”と発話
し直し、”９時”と正しく認識されると、正しい認識単
語と仮定されていた”１１時”が、誤認識単語としてＣ
ＰＵ３のメモリに記憶され（ステップＳ２）、新たな認
識単語としての”９時”が正しい認識単語（認識結果）
と仮定される（ステップＳ３）。

【００３２】その後、発話者によって単語”ＯＫ”が発
話されると（ステップＳ４）、ステップＳ３で最終的に
正しい認識結果と仮定された単語”９時”と、ＣＰＵ３
の内蔵するメモリに記憶された誤認識単語”１０
時”，”１１時”それぞれとが、例えば（誤認識単語、
正しい単語）の組で、（１０時、９時）（１１時、９時）のように関連付けられる。

【００３３】ここで、上述の正しい単語と、誤認識単語
の組（誤認識単語、正しい単語）を、以下誤認識パター
ンと記載する。

【００３４】そして、ステップＳ６に進み、誤認識パタ
ーンが、データベース４に登録される。

【００３５】このステップＳ６のデータベースに登録の
サブルーチンの詳細は、図３に示されている。まず図３
に示すステップＳ１１において、データベース４に、ス
テップＳ５で関連付けられた正しい単語と、誤認識単語
の組、つまり誤認識パターンと同一の誤認識パターンが
既に登録されているか否かが判定される。

【００３６】ステップＳ１１において、いまステップＳ
５で生成された誤認識パターンと同一の誤認識パターン
が、データベース４にまだ登録されていないと判定され
た場合、ステップＳ１２に進み、いまステップＳ５で生
成された誤認識パターンが生じた頻度（単語を誤認識単
語に誤認識した回数）が１とされ、誤認識パターンとと
もにデータベース４に登録されて、処理を終了する。

【００３７】また、ステップＳ１１において、いまステ
ップＳ５で生成された誤認識パターンと同一の誤認識パ
ターンが、データベース４に既に登録されていると判定
された場合、ステップＳ１３に進み、データベース４に
既に登録されている誤認識パターンの頻度が１だけイン
クリメントされ、処理を終了する。

【００３８】ステップＳ６（ステップＳ１１乃至Ｓ１
３）では、以上のようにして誤認識パターンが、データ
ベース４に登録され、処理を終了する。

【００３９】次に、装置のモードが認識モードの場合、
マイク１に音声が入力されると、電気信号としての音声
信号に変換され、音声認識部２に出力される。音声認識
部２は、マイク１からの音声を認識し、信頼度の高い順
に２つの認識単語（認識結果）をＣＰＵ３に出力する。
ＣＰＵ３では、まず図４のステップＳ２１において、音
声認識部２からの２つの認識単語を、信頼度とともに受
信する。そして、ステップＳ２２に進み、データベース
４を参照し、次のような判定を行う。すなわち、音声認
識部２からの２つの認識単語のうち、信頼度の最も高い
認識単語Ｗ_S1と同一の単語が、誤認識パターンの誤認識
単語として登録されており、音声認識部２からの２つの
認識単語のうち、信頼度が２番目に高い認識単語Ｗ_S2と
同一の単語が、上述の誤認識パターンの正しい単語とし
て登録されているか否かが判定される。

【００４０】ステップＳ２２において、信頼度の最も高
い認識単語Ｗ_S1と同一の単語が、誤認識パターンの誤認
識単語としてデータベース４に登録されていないと判定
されるか、または信頼度が２番目に高い認識単語Ｗ_S2と
同一の単語が、誤認識パターンの正しい単語として登録
されていないと判定された場合、ステップＳ２３および
Ｓ２４をスキップして、ステップＳ２５に進む。

【００４１】ステップＳ２２において、信頼度の最も高
い認識単語Ｗ_S1と同一の単語が、誤認識パターンの誤認
識単語としてデータベース４に登録されていると判定さ
れ、且つ信頼度が２番目に高い認識単語Ｗ_S2と同一の単
語が、上述の誤認識パターンの正しい単語として登録さ
れていると判定された場合、即ち、（認識単語Ｗ_S1、認
識単語Ｗ_S2）の組と同一の誤認識パターンＰがデータベ
ース４に登録されている場合、ステップＳ２３に進み、
（認識単語Ｗ_S1、認識単語Ｗ_S2）の組と同一の誤認識パ
ターンＰの頻度が所定の閾値以上であるか否かが判定さ
れる。

【００４２】ステップＳ２３において、（認識単語
Ｗ_S1、認識単語Ｗ_S2）の組と同一の誤認識パターンＰの
頻度が所定の閾値以上でないと判定された場合、ステッ
プＳ２４をスキップして、ステップＳ２５に進む。ステ
ップＳ２３において、（認識単語Ｗ_S1、認識単語Ｗ_S2）
の組と同一の誤認識パターンＰの頻度が所定の閾値以上
であると判定された場合、ステップＳ２４に進み、誤認
識パターンＰの誤認識単語と同一の認識単語Ｗ_S1の信頼
度に、１未満の係数（例えば、０．９など）が乗算さ
れ、認識単語Ｗ_S1の信頼度がダウンされるとともに、誤
認識パターンＰの正しい単語と同一の認識単語Ｗ_S2の信
頼度に、１以上の係数（例えば１．１など）が乗算さ
れ、認識単語Ｗ_S2の信頼度がアップされる。

【００４３】なお、信頼度に乗算される係数は、正の数
である。

【００４４】そして、ステップＳ２５に進み、音声認識
部２からの認識単語Ｗ_S1およびＷ_S2のうち、信頼度の高
い単語が最終的な音声認識結果として選択され、処理を
終了する。

【００４５】従って、例えばデータベース４に、所定の
閾値以上の頻度を有する誤認識パターンとして（１０
時，９時）が登録されており、いま発話者によって”９
時”と発話された結果、音声認識部２から、信頼度０．
９の認識単語”１０時”と、信頼度０．８の認識単語”
９時”が出力された場合、従来の装置では、信頼度の最
も高い認識単語”１０時”が最終的な認識結果とされ
る。

【００４６】即ち、この場合、従来の装置では、”９
時”が”１０時”と誤認識される。

【００４７】しかしながら、本実施例では、信頼度の最
も高い認識単語”１０時”と、信頼度が２番目に高い識
別単語”９時”の組（１０時，９時）は、データベース
４に登録された所定の閾値以上の頻度を有する誤認識パ
ターン（１０時，９時）と同一であるから、誤認識単語
と同一の認識単語”１０時”の信頼度０．９に、１未満
の係数としての０．９が乗算され、その信頼度が０．８
１にダウンされるとともに、誤認識パターンＰの正しい
単語と同一の認識単語”９時”の信頼度０．８に、１以
上の係数としての１．１が乗算され、その信頼度が０．
８８にアップされる。

【００４８】従って、この場合、第１候補としての認識
単語”１０時”の信頼度は０．８１となるとともに、第
２候補としての認識単語”９時”の信頼度は０．８８と
なるので、信頼度が高くなった第２候補としての認識単
語”９時”が最終的な音声認識結果とされる。

【００４９】即ち、この場合、音声が正しく認識され
る。

【００５０】なお、例えばデータベース４に、所定の閾
値以上の頻度を有する誤認識パターンとして（１０時，
９時）が登録されており、いま発話者によって、”９
時”ではなく”１０時”と発話された結果、音声認識部
２から、信頼度の高い順の２つの認識単語として認識単
語”１０時”と、”９時”が出力された場合、正しく”
１０時”と認識されているにも拘らず、この音声認識装
置では、正しい単語”１０時”の信頼度がダウンされる
とともに、誤った単語”９時”の信頼度がアップされる
ことになる。

【００５１】しかしながら、第１候補としての認識単語
（信頼度の最も高い認識単語）”１０時”が、音声認識
結果として正しい場合には、第１候補としての認識単
語”１０時”の信頼度は、第２候補としての認識単語
（信頼度の２番目に高い認識単語）”９時”の信頼度よ
り、一般的に十分大きくなるので、正しい単語”１０
時”の信頼度がダウンされるとともに、誤った単語”９
時”の信頼度がアップされても、その信頼度の大小関係
が逆転することはほとんどなく、従って音声が正しく認
識される。

【００５２】以上のように、ある単語Ｗ１を他の単語Ｗ
２に誤認識した場合に、その単語Ｗ１と、単語Ｗ１を単
語Ｗ２に誤認識したことを記憶しておくようにしたの
で、次に単語Ｗ１が発話されたときに、単語Ｗ１を単語
Ｗ２に再び誤認識することなく、正しく認識することが
できる。

【００５３】なお、本実施例においては、音声認識部２
で、音声から抽出する特徴パラメータについて言及しな
かったが、音声認識部２では、例えば線形予測係数や所
定の周波数帯域幅ごとのパワー、ケプストラム係数、パ
ーコール係数、フォルマント、ゼロクロス数などのあら
ゆる特徴パラメータを抽出するようにすることができ
る。

【００５４】さらに、音声認識部２では、音声から抽出
した特徴パラメータを、例えばベクトル量子化し、その
結果得られたシンボル系列を用いて音声認識を行うよう
にすることができる。

【００５５】また、本実施例においては、音声認識部２
での音声認識の方法については言及しなかったが、音声
認識部２では、例えばＤＰマッチング法やＨＭＭ法、特
開昭６０−２４９１９８、特開昭６０−２４９１９９、
または特開昭６０−２５２３９６などに開示されている
音声認識装置の音声認識アルゴリズムなど、あらゆる音
声認識アルゴリズムに基づいて、音声認識を行うように
することができる。

【００５６】さらに、本実施例では、音声認識部２か
ら、信頼度の高い順に２つ認識単語（認識結果）を出力
するようにしたが、例えば信頼度が所定の値より大きい
すべての認識単語（認識結果）を出力するようにするこ
とができる。

【００５７】また、本実施例においては、装置のモード
が登録モードの場合、図２のステップＳ４で、発話者か
ら発話された音声としての”ＯＫ”または”違う”によ
って、音声が正しく認識されたか、または誤認識された
かを判定するようにしたが、例えば装置に”ＯＫ”ボタ
ンまたは”違う”ボタンを設け、そのボタンの操作に基
づいて、音声が正しく認識されたか、または誤認識され
たかを判定するようにすることができる。

【００５８】さらに、本実施例では、装置のモードが登
録モードの場合と、認識モードの場合とに分けて説明し
たが、例えば装置のモードが認識モードの場合に、音声
が誤認識されたとき、装置のモードを一時登録モードに
して、データベース４に登録されている誤認識パターン
を更新するようにすることができる。

【００５９】また、ステップＳ２４で信頼度に乗算する
係数は、例えば誤認識パターンの頻度に基づいて、動的
に変化させることができる。

【００６０】即ち、誤認識の頻度が高い単語どうしの組
に対しては、正しい認識結果とされるべき単語の信頼度
に乗算する係数を、上述した１．１より大きくするとと
もに、誤認識結果とされるべき単語の信頼度に乗算する
係数を、上述した０．９より小さくする（但し、０より
大きい値）ようにすることができる。さらに、誤認識の
頻度が低い単語どうしの組に対しては、正しい認識結果
とされるべき単語の信頼度に乗算する係数を、上述した
１．１より小さくする（但し、１以上の値）とともに、
誤認識結果とされるべき単語の信頼度に乗算する係数
を、上述した０．９より大きくする（但し、１未満の
値）ようにすることができる。

【００６１】図５は、図２におけるステップＳ６のデー
タベースに登録のサブルーチンの他の実施例を示してい
る。その基本的処理は、図３に示した場合と同様である
が、ステップＳ３２とＳ３３における処理が、図３にお
けるステップＳ１２とＳ１３における処理と異なってい
る。

【００６２】即ち、ステップＳ３１において、データベ
ース４に、ステップＳ５（図２）で関連づけられた正し
い単語と誤認識単語の組、つまり誤認識パターンと同一
の誤認識パターンが既に登録されているか否かが判定さ
れる。

【００６３】ステップＳ３１において、いまステップＳ
５で生成された誤認識パターンと同一の誤認識パターン
が、データベース４にまだ登録されていないと判定され
た場合、ステップＳ３２に進み、いまステップＳ５で生
成された誤認識パターンが生じた頻度が１に設定され
る。このとき、正しい単語と、誤認識された単語との距
離の差が演算される。そして、この誤認識パターンと頻
度および距離差が、例えば次のようなフォーマットでデ
ータベース４に登録される。（誤認識単語Ｗ_e，正しい認識単語Ｗ_s，距離差Ｄ，頻度
Ｃ）

【００６４】尚、ここで、距離とは、入力音声と認識候
補の単語との距離を意味し、信頼度に逆比例するものと
考えることができる。即ち、信頼度が大きいとき、それ
だけその認識された候補が入力音声に近いのであるが、
距離の場合は、その値が小さいほど近いことになる。

【００６５】例えば、いま発話者が”９時”と発話し、
例えば図６に示すような認識が行われたとする。即ち、
この場合、入力”９時”が最も高い信頼度で”１０時”
として認識されている。この場合における入力”９時”
と、認識結果としての”１０時”との距離は８０であ
る。また、第２番目の信頼度を有する認識結果とし
て、”９時”が得られている。この認識結果としての”
９時”と、入力としての”９時”との距離は９０となっ
ている。従って、第１番目と第２番目の認識結果の距離
の差は、１０（＝９０−８０）である。

【００６６】発話者が”１０時”の認識に対して、”違
う”との入力を行った結果、今度は例えば図７に示すよ
うな認識結果が得られたとする。この場合においては、
最も高い信頼度の認識結果として”９時”が得られてい
るため、発話者は、例えば”ＯＫ”の入力を行う。この
場合、図６に示すように、”９時”が”１０時”として
１回誤認識されたことになるので、データベース４に
は、上述したフォーマットに従って、例えば次のような
情報が記憶される。（１０時，９時，１０，１）

【００６７】これは、上述したように、”９時”の入力
に対して”１０時”の誤認識が行われ、そのときにおけ
る距離差が１０であり、頻度が１であることを表してい
る。

【００６８】図５に戻って、ステップＳ３１において、
データベース４の中に、今回の誤認識パターンと同一の
パターンが既に存在すると判定された場合においては、
ステップＳ３３に進み、上述した誤認識パターンの頻度
を１だけインクリメントする。また、このとき同時に、
次式に従って距離差の平均値を演算し、記憶する。尚、
次式における頻度は、インクリメントする前の値であ
る。距離差平均値＝（頻度×記憶距離差＋今回の距離差）／
（頻度＋１）

【００６９】このように、データベース４に距離差も記
憶される実施例の場合、認識モード時における処理は、
例えば図８に示すように行われる。この図８のステップ
Ｓ４１，Ｓ４２，Ｓ４４，Ｓ４５，Ｓ４６は、図４にお
けるステップＳ２１乃至Ｓ２５と同様の処理である。即
ち、この実施例は、ステップＳ４２とステップＳ４４の
間に、ステップＳ４３の処理が加わっている点が、図４
における処理と異なっている。

【００７０】この実施例においては、ステップＳ４２に
おいて、信頼度の最も高い認識単語Ｗ_S1と同一の単語
が、誤認識パターンの誤認識単語としてデータベース４
に登録されていると判定され、かつ、信頼度が２番目に
高い認識単語Ｗ_S2と同一の単語が、上述の誤認識パター
ンの正しい単語として登録されていると判定された場
合、即ち、（認識単語Ｗ_S1，認識単語Ｗ_S2，距離差
Ｄ_R，Ｎ）の誤認識パターンＰがデータベース４に登録
されている場合、ステップＳ４３に進む。ステップＳ４
３においては、今回の認識単語Ｗ_S1とＷ_S2の距離差Ｄ_C
と、データベース４に記憶されている誤認識パターンＰ
の距離差Ｄ_Rとを比較し、前者の方が後者より小さい場
合にのみ、ステップＳ４４乃至Ｓ４６の処理、即ち、上
述した図４におけるステップＳ２３乃至Ｓ２５と同様の
処理を実行する。今回の距離差Ｄ_Cがデータベース４に
記憶されている距離差Ｄ_Rより小さくない場合において
は、ステップＳ４４とステップＳ４５の処理はスキップ
される。

【００７１】即ち、この実施例においては、今回の距離
差がデータベース４に記憶されている距離差より小さ
く、かつ、誤認識パターンの頻度が所定の閾値以上であ
る場合においてのみ、ステップＳ４５に進み、信頼度に
所定の係数を乗算して、その信頼度をアップまたはダウ
ンさせるようにしている。今回の距離差がデータベース
４に記憶されている距離差より小さくない場合において
は、このようなアップダウン修正を行わずに、もともと
の信頼度に応じて単語の選択処理が行われる。

【００７２】このようにすると、特定パターンの誤認識
をさらに抑制することができる。

【００７３】

【発明の効果】以上の如く、本発明の音声認識装置によ
れば、記憶手段に、認識手段が誤認識した誤認識候補
が、正しい認識候補と関連付けて記憶されており、入力
手段からの音声が認識され、認識候補とともに認識候補
の信頼度が出力されると、認識手段からの認識候補が、
記憶手段に誤認識候補として記憶されていた場合に、認
識手段からの認識候補の信頼度が変更され、その信頼度
に対応して、認識手段からの認識候補が選択される。従
って、誤認識候補としての認識手段からの認識候補の信
頼度を小さくするとともに、正しい認識候補としての認
識手段からの認識候補の信頼度を大きくするようにする
ことができるので、頻繁に生じる特定パターンの誤認識
を減少させることができる。

【図面の簡単な説明】

【図１】本発明の音声認識装置の一実施例の構成を示す
ブロック図である。

【図２】装置のモードが登録モードの場合の動作を説明
するフローチャートである。

【図３】図２のステップＳ６のより詳細を説明するフロ
ーチャートである。

【図４】装置のモードが認識モードの場合の動作を説明
するフローチャートである。

【図５】図２のステップＳ６の他の処理例を説明するフ
ローチャートである。

【図６】認識結果と距離の例を説明する図である。

【図７】認識結果と距離の他の例を説明する図である。

【図８】図５の処理により登録が行われた場合における
認識モードの動作を説明するフローチャートである。

【符号の説明】

１マイク２音声認識部３ＣＰＵ４データベース

Claims

【特許請求の範囲】

【請求項１】音声を入力する入力手段と、前記入力手段からの音声を認識し、認識候補とともに前
記認識候補の信頼度を出力する認識手段と、前記認識手段が誤認識した誤認識候補を、正しい認識候
補と関連付けて記憶している記憶手段と、前記認識手段からの認識候補が、前記記憶手段に誤認識
候補として記憶されていた場合に、前記認識手段からの
認識候補の信頼度を変更する変更手段と、前記信頼度に対応して、前記認識手段からの認識候補を
選択する選択手段とを備えることを特徴とする音声認識
装置。
【請求項２】前記認識手段は、前記信頼度が所定の閾
値以上である前記認識候補を出力することを特徴とする
請求項１に記載の音声認識装置。
【請求項３】前記変更手段は、前記認識手段からの認
識候補のうち、前記誤認識候補として前記記憶手段に記
憶されていたものの信頼度に１未満の係数を乗算すると
ともに、前記認識手段からの認識候補のうち、前記誤認
識候補に関連付けられた正しい認識候補として前記記憶
手段に記憶されていたものの信頼度に１以上の係数を乗
算することを特徴とする請求項１または２に記載の音声
認識装置。
【請求項４】前記認識手段が、前記入力手段からの音
声を、前記誤認識候補に誤認識した頻度をカウントする
カウント手段をさらに備え、前記信頼度に乗算する係数は、前記カウント手段により
カウントされた前記頻度に基づいて変更されることを特
徴とする請求項３に記載の音声認識装置。
【請求項５】前記正しい認識候補と前記誤認識候補と
の距離差を演算する演算手段をさらに備え、前記信頼度に乗算する係数は、前記演算手段により演算
された前記距離差に基づいて変更されることを特徴とす
る請求項３または４に記載の音声認識装置。
【請求項６】発話者からの発話に基づいて、前記認識
手段が誤認識したか否かを判定する判定手段をさらに備
え、前記記憶手段は、前記判定手段の判定結果に基づいて、
前記認識手段が誤認識した誤認識候補を、前記正しい認
識候補と関連付けて記憶することを特徴とする請求項１
乃至５のいずれかに記載の音声認識装置。