JP3443874B2 - 音声認識装置および方法 - Google Patents

音声認識装置および方法

Info

Publication number
JP3443874B2
JP3443874B2 JP13565293A JP13565293A JP3443874B2 JP 3443874 B2 JP3443874 B2 JP 3443874B2 JP 13565293 A JP13565293 A JP 13565293A JP 13565293 A JP13565293 A JP 13565293A JP 3443874 B2 JP3443874 B2 JP 3443874B2
Authority
JP
Japan
Prior art keywords
recognition
voice
candidate
word
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP13565293A
Other languages
English (en)
Other versions
JPH06289893A (ja
Inventor
康夫 野村
朝子 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP13565293A priority Critical patent/JP3443874B2/ja
Publication of JPH06289893A publication Critical patent/JPH06289893A/ja
Application granted granted Critical
Publication of JP3443874B2 publication Critical patent/JP3443874B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声を認識する場合に
用いて好適な音声認識装置および方法に関する。
【0002】
【従来の技術】従来の音声認識装置においては、例えば
入力された音声から特徴パラメータを抽出して入力パタ
ーンとし、あらかじめ用意した標準パターンとマッチン
グして、スコアの最も高い結果が得られた標準パターン
を、音声認識結果として出力するようになされている。
【0003】なお、スコアとは、入力パターンとマッチ
ングした標準パターンの尤度であり、その値が大きいほ
ど、その標準パターンが入力パターンに類似しているこ
とを意味する。
【0004】ところで、このような音声認識装置では、
音声の認識率を向上させるために、例えば音声が連続し
て入力されている間、一度認識した単語を認識対象から
除外するようになされている。
【0005】
【発明が解決しようとする課題】しかしながら、この場
合、一連の音声の入力が終了するまで、同一の単語を複
数回使用する(発話する)ことができず、従って発話者
の発話を限定しなければならない課題があった。
【0006】即ち、このような音声認識装置が装備され
た、例えばビデオテープレコーダなどに対して、録画予
約を音声により行う場合、録画の開始時刻と終了時刻は
分けて入力しなければならず、不便であった。
【0007】そこで、現在の認識対象単語から、直前に
認識された単語のみを除外する方法がある。しかしなが
ら、この方法では、一度誤認識した単語を、他の単語を
はさんで再び誤認識する課題があった。
【0008】本発明は、このような状況に鑑みてなされ
たものであり、発話者の発話を限定することなく、音声
の認識率を向上させるものである。
【0009】
【課題を解決するための手段】本発明の音声認識装置
は、音声を入力する入力手段と、入力手段からの音声を
認識し、認識候補とともに認識候補の信頼度を出力する
認識手段と、認識手段が誤認識した誤認識候補を、認識
手段が認識した正しい認識候補、並びに、入力手段から
の音声と正しい認識候補との距離と、入力手段からの音
声と誤認識候補との距離の差である第1の距離差に関連
付けて記憶する記憶手段と、認識手段により出力された
第1の認識候補および第2の認識候補が、記憶手段によ
り、互いに対応する誤認識候補および正しい認識候補と
して、それぞれ記憶されている場合に、入力手段からの
音声と第2の認識候補との距離と、入力手段からの音声
と第1の認識候補との距離の差である第2の距離差を演
算する演算手段と、記憶手段により記憶されている第1
の距離差と、演算手段により演算された第2の距離差と
に基づいて、認識手段により出力された認識候補の信頼
度を変更する変更手段と、信頼度に対応して、認識手段
からの認識候補を選択する選択手段とを備えることを特
徴とする。
【0010】この音声認識装置は、音声認識部2に、信
頼度が所定の閾値以上である認識候補を出力させるよう
にすることができる。
【0011】前記変更手段は、第2の距離差が第1の距
離差より小さい場合に、認識手段により出力された認識
候補の信頼度を変更するようにすることができる。
【0012】前記変更手段は、認識手段からの認識候補
のうち、誤認識候補として記憶手段により記憶されてい
たものの信頼度に1未満の係数を乗算するとともに、認
識手段からの認識候補のうち、誤認識候補に関連付けら
れた正しい認識候補として記憶手段により記憶されてい
たものの信頼度に1以上の係数を乗算するようにするこ
とができる。
【0013】前記認識手段が、入力手段からの音声を、
誤認識候補に誤認識した頻度をカウントするカウント手
段をさらに備え、信頼度に乗算する係数は、カウント手
段によりカウントされた頻度に基づいて変更されるよう
にすることができる。
【0014】前記カウント手段により頻度がカウントさ
れる毎に、演算手段により演算された第2の距離差に基
づいて、第1の距離差の平均値を算出する平均値算出手
段をさらに備え、記憶手段は、平均値算出手段により算
出された、新たな平均値を第1の距離差として記憶する
ようにすることができる。発話者からの発話に基づい
て、認識手段が誤認識したか否かを判定する判定手段を
さらに備え、記憶手段は、判定手段の判定結果に基づい
て、認識手段が誤認識した誤認識候補を、正しい認識候
補と関連付けて記憶するようにすることができる。 本発
明の音声認識方法は、音声を入力する入力ステップと、
入力ステップの処理からの音声を認識し、認識候補とと
もに認識候補の信頼度を出力する認識ステップと、認識
ステップの処理が誤認識した誤認識候補を、認識ステッ
プの処理が認識した正しい認識候補、並びに、入力ステ
ップの処理からの音声と正しい認識候補との距離と、入
力ステップの処理からの音声と誤認識候補との距離の差
である第1の距離差に関連付けて記憶するように制御す
る記憶制御ステップと、認識ステップの処理により出力
された第1の認識候補および第2の認識候補が、記憶制
御ステップの処理により、互いに対応する誤認識候補お
よび正しい認識候補として、それぞれ記憶が制御されて
いる場合に、入力ステップの処理からの音声と第2の認
識候補との距離と、入力ステップの処理からの音声と第
1の認識候補との距離の差である第2の距離差を演算す
る演算ステップと、記憶制御ステップにより記憶が制御
されている第1の距離差と、演算ステップにより演算さ
れた第2の距離差とに基づいて、認識ステップの処理に
より出力された認識候補の信頼度を変更する変更ステッ
プと、信頼度に対応して、認識ステップの処理からの認
識候補を選択する選択ステップとを含むことを特徴とす
る。
【0015】
【作用】上記構成の音声認識装置および方法において
は、誤認識された誤認識候補が、正しい認識候補、並び
に、入力された音声と正しい認識候補との距離と、入力
された音声と誤認識候補との距離の差である第1の距離
差に関連付けて記憶されており、入力された音声が認識
され、その認識候補とともに認識候補の信頼度が出力さ
れ、その出力された認識候補である第1の認識候補およ
び第2の認識候補が、互いに対応する誤認識候補および
正しい認識候補として、それぞれ記憶されている場合
に、入力された音声と第2の認識候補との距離と、入力
された音声と第1の認識候補との距離の差である第2の
距離差が演算され、第1の距離差と第2の距離差とに基
づいて、認識候補の信頼度が変更され、その変更された
信頼度に対応して、認識候補が選択される。
【0016】
【実施例】図1は、本発明の音声認識装置の一実施例の
構成を示すブロック図である。前述したように、音声認
識においては、一度誤認識された単語は、一般的に再び
同じように誤認識される。そこで、この音声認識装置に
おいては、ある単語W1を他の単語W2に誤認識した場
合に、その単語の組(W1,W2)を記憶しておき、即
ち誤認識したことを覚えておき、次に単語W1が発話さ
れたときに、単語W1を単語W2に再び誤認識すること
なく、正しく認識することができるようになされてい
る。
【0017】マイク1は、音声を電気信号としての音声
信号に変換して、音声認識部2に出力する。音声認識部
2は、マイク1からの音声信号をA/D変換し、所定の
フレーム区間ごとに音声の特徴パラメータを抽出する。
さらに、音声認識部2は、標準パターンがあらかじめ登
録されたメモリ(図示せず)を内蔵しており、この標準
パターンと、マイク1からの音声信号から抽出した入力
パターンとしての音声の特徴パラメータとをマッチング
する。そして、音声認識部2は、入力パターンとマッチ
ングした標準パターンのうち、スコアの高い順に、例え
ば2つの標準パターンに対応する単語を、認識単語(認
識結果)としてCPU3に出力するとともに、各単語の
スコアを所定の値で正規化することにより、0乃至1の
範囲の値に変換して、その値(正規化値)を信頼度とし
てCPU3に出力する。
【0018】CPU3は、装置のモードが登録モードで
ある場合、音声認識部2が誤認識した誤認識単語W
eを、正しい認識単語Wsと関連付け、その正しい認識単
語Wsを誤認識単語Weに誤認識した頻度(回数)ととも
にデータベース4に供給して記憶させる。
【0019】さらに、CPU3は、装置のモードが認識
モードである場合、データベース4を参照し、例えば音
声認識部2からの2つの認識単語のうち、信頼度の最も
高い認識単語が、データベース4に誤認識単語として記
憶されており、かつ、音声認識部2からの2つの認識単
語のうち、信頼度の2番目に高い認識単語が、データベ
ース4に正しい認識単語として記憶されている場合、信
頼度の最も高い認識単語の信頼度に、例えば1未満の係
数を乗算して、その値を小さくするとともに、信頼度の
2番目に高い認識単語の信頼度に、例えば1以上の係数
を乗算して、その値を大きくする(但し、係数として1
が乗算された場合は、信頼度は変化しない)。
【0020】そして、CPU3は、音声認識部2からの
2つの認識単語のうち、信頼度の最も高い認識単語を、
最終的な認識結果として、例えばディスプレイやスピー
カ(いずれも図示せず)などに供給して出力させる。
【0021】データベース4は、CPU3からの正しい
認識単語Ws、その正しい認識単語Wsの誤認識結果とし
ての誤認識単語We、およびその正しい認識単語Wsを誤
認識単語Weに誤認識した頻度Cを、例えば (誤認識単語We,正しい認識単語Ws,頻度C) のようなフォーマットで記憶する。
【0022】次に、装置のモードが登録モードのときの
動作について説明する。この場合、まずマイク1に音声
が入力されると、電気信号としての音声信号に変換さ
れ、音声認識部2に出力される。音声認識部2は、マイ
ク1からの音声を認識し、信頼度の高い順に2つの認識
単語(認識結果)をCPU3に出力する。CPU3は、
音声認識部2より出力された2つの単語のうち、信頼度
の最も高い単語を認識結果として、例えばディスプレイ
に供給して表示させる。
【0023】ディスプレイに表示された単語Waが、発
話者の発話した単語Wである場合、認識結果が正しいこ
とを装置に知らせるために、発話者は、例えば”OK”
などと発話する。すると、この単語”OK”は、マイク
1を介して音声認識部2に入力される。そして、単語”
OK”は、音声認識部2で音声認識され、CPU3に出
力される。これにより、CPU3は、認識結果が正しか
ったことを理解し、発話者からの新たな単語の発話を待
つ。
【0024】一方、ディスプレイに表示された単語Wa
が、発話者の発話した単語Wではなかった場合、認識結
果が誤っていることを装置に知らせるために、発話者
は、例えば”違う”などと発話する。すると、この単
語”違う”は、マイク1を介して音声認識部2に入力さ
れる。そして、単語”違う”は、音声認識部2で音声認
識され、CPU3に出力される。これにより、CPU3
は、認識結果が誤っていたことを理解し、発話者に同じ
単語Wを再び発話するように促すメッセージをディスプ
レイに供給して表示させる。
【0025】そして、発話者から単語Wが再び発話され
ると、この音声(単語W)は、マイク1を介して音声認
識部2に入力され、音声認識部2で音声認識されて、上
述したときと同様に、信頼度の高い順に2つの認識単語
(認識結果)がCPU3に出力される。CPU3は、音
声認識部2より出力された2つの単語のうち、信頼度の
最も高い単語Wbを選択し、この単語Wbを正しい認識結
果と仮定してディスプレイに供給して表示させる。
【0026】即ち、CPU3では、図2に示すステップ
S1において、直前の認識結果としての単語Waが、現
在の認識結果としての単語Wbに訂正され(単語Wbが単
語Waに誤認識されたものと理解され)、ステップS2
に進む。ステップS2において、単語Waが、誤認識単
語としてCPU3の内蔵するメモリ(図示せず)に一時
登録され、ステップS3に進み、現在の認識結果として
の単語Wbが、正しい認識結果と仮定され、ディスプレ
イに表示される。
【0027】そして、ステップS4に進み、発話者によ
って単語”OK”が発話されたか、あるいは単語”違
う”が発話されたかが判定される。ステップS4におい
て、発話者によって単語”違う”が発話されたと判定さ
れた場合、即ちディスプレイに表示された単語が、発話
者の発話した単語Wでなかった場合、発話者に同じ単語
Wを再び発話するように促すメッセージがディスプレイ
に表示される。
【0028】そして、発話者から単語Wが再び発話され
ると、その音声(単語W)が、音声認識部2で音声認識
され、認識結果(認識単語と信頼度)がCPU3に出力
されて、ステップS1からの処理が繰り返される。
【0029】また、ステップS4において、発話者によ
って単語”OK”が発話されたと判定された場合、即ち
ディスプレイに表示された単語Wbが、発話者の発話し
た単語Wである場合、ステップS5に進み、ステップS
3で最終的に正しい認識結果と仮定された単語が、CP
U3の内蔵するメモリに記憶された誤認識単語それぞれ
に対する、発話者によって発話された正しい単語である
と決定され、ステップS3で最終的に正しい認識結果と
仮定された単語と、CPU3の内蔵するメモリに記憶さ
れた誤認識単語それぞれとが関連付けられる。
【0030】即ち、例えば発話者が、”9時”と発話し
たのにも拘らず、”10時”と誤認識され、さらに”9
時”と発話し直したのにも拘らず、”11時”と誤認識
された場合、”10時”が、誤認識単語としてCPU3
のメモリに記憶され(ステップS2)、新たな認識単語
(認識結果)としての”11時”が正しい認識単語と仮
定される(ステップS3)。
【0031】そして、発話者が、さらに”9時”と発話
し直し、”9時”と正しく認識されると、正しい認識単
語と仮定されていた”11時”が、誤認識単語としてC
PU3のメモリに記憶され(ステップS2)、新たな認
識単語としての”9時”が正しい認識単語(認識結果)
と仮定される(ステップS3)。
【0032】その後、発話者によって単語”OK”が発
話されると(ステップS4)、ステップS3で最終的に
正しい認識結果と仮定された単語”9時”と、CPU3
の内蔵するメモリに記憶された誤認識単語”10
時”,”11時”それぞれとが、例えば(誤認識単語、
正しい単語)の組で、 (10時、9時) (11時、9時) のように関連付けられる。
【0033】ここで、上述の正しい単語と、誤認識単語
の組(誤認識単語、正しい単語)を、以下誤認識パター
ンと記載する。
【0034】そして、ステップS6に進み、誤認識パタ
ーンが、データベース4に登録される。
【0035】このステップS6のデータベースに登録の
サブルーチンの詳細は、図3に示されている。まず図3
に示すステップS11において、データベース4に、ス
テップS5で関連付けられた正しい単語と、誤認識単語
の組、つまり誤認識パターンと同一の誤認識パターンが
既に登録されているか否かが判定される。
【0036】ステップS11において、いまステップS
5で生成された誤認識パターンと同一の誤認識パターン
が、データベース4にまだ登録されていないと判定され
た場合、ステップS12に進み、いまステップS5で生
成された誤認識パターンが生じた頻度(単語を誤認識単
語に誤認識した回数)が1とされ、誤認識パターンとと
もにデータベース4に登録されて、処理を終了する。
【0037】また、ステップS11において、いまステ
ップS5で生成された誤認識パターンと同一の誤認識パ
ターンが、データベース4に既に登録されていると判定
された場合、ステップS13に進み、データベース4に
既に登録されている誤認識パターンの頻度が1だけイン
クリメントされ、処理を終了する。
【0038】ステップS6(ステップS11乃至S1
3)では、以上のようにして誤認識パターンが、データ
ベース4に登録され、処理を終了する。
【0039】次に、装置のモードが認識モードの場合、
マイク1に音声が入力されると、電気信号としての音声
信号に変換され、音声認識部2に出力される。音声認識
部2は、マイク1からの音声を認識し、信頼度の高い順
に2つの認識単語(認識結果)をCPU3に出力する。
CPU3では、まず図4のステップS21において、音
声認識部2からの2つの認識単語を、信頼度とともに受
信する。そして、ステップS22に進み、データベース
4を参照し、次のような判定を行う。すなわち、音声認
識部2からの2つの認識単語のうち、信頼度の最も高い
認識単語WS1と同一の単語が、誤認識パターンの誤認識
単語として登録されており、音声認識部2からの2つの
認識単語のうち、信頼度が2番目に高い認識単語WS2
同一の単語が、上述の誤認識パターンの正しい単語とし
て登録されているか否かが判定される。
【0040】ステップS22において、信頼度の最も高
い認識単語WS1と同一の単語が、誤認識パターンの誤認
識単語としてデータベース4に登録されていないと判定
されるか、または信頼度が2番目に高い認識単語WS2
同一の単語が、誤認識パターンの正しい単語として登録
されていないと判定された場合、ステップS23および
S24をスキップして、ステップS25に進む。
【0041】ステップS22において、信頼度の最も高
い認識単語WS1と同一の単語が、誤認識パターンの誤認
識単語としてデータベース4に登録されていると判定さ
れ、且つ信頼度が2番目に高い認識単語WS2と同一の単
語が、上述の誤認識パターンの正しい単語として登録さ
れていると判定された場合、即ち、(認識単語WS1、認
識単語WS2)の組と同一の誤認識パターンPがデータベ
ース4に登録されている場合、ステップS23に進み、
(認識単語WS1、認識単語WS2)の組と同一の誤認識パ
ターンPの頻度が所定の閾値以上であるか否かが判定さ
れる。
【0042】ステップS23において、(認識単語
S1、認識単語WS2)の組と同一の誤認識パターンPの
頻度が所定の閾値以上でないと判定された場合、ステッ
プS24をスキップして、ステップS25に進む。ステ
ップS23において、(認識単語WS1、認識単語WS2
の組と同一の誤認識パターンPの頻度が所定の閾値以上
であると判定された場合、ステップS24に進み、誤認
識パターンPの誤認識単語と同一の認識単語WS1の信頼
度に、1未満の係数(例えば、0.9など)が乗算さ
れ、認識単語WS1の信頼度がダウンされるとともに、誤
認識パターンPの正しい単語と同一の認識単語WS2の信
頼度に、1以上の係数(例えば1.1など)が乗算さ
れ、認識単語WS2の信頼度がアップされる。
【0043】なお、信頼度に乗算される係数は、正の数
である。
【0044】そして、ステップS25に進み、音声認識
部2からの認識単語WS1およびWS2のうち、信頼度の高
い単語が最終的な音声認識結果として選択され、処理を
終了する。
【0045】従って、例えばデータベース4に、所定の
閾値以上の頻度を有する誤認識パターンとして(10
時,9時)が登録されており、いま発話者によって”9
時”と発話された結果、音声認識部2から、信頼度0.
9の認識単語”10時”と、信頼度0.8の認識単語”
9時”が出力された場合、従来の装置では、信頼度の最
も高い認識単語”10時”が最終的な認識結果とされ
る。
【0046】即ち、この場合、従来の装置では、”9
時”が”10時”と誤認識される。
【0047】しかしながら、本実施例では、信頼度の最
も高い認識単語”10時”と、信頼度が2番目に高い識
別単語”9時”の組(10時,9時)は、データベース
4に登録された所定の閾値以上の頻度を有する誤認識パ
ターン(10時,9時)と同一であるから、誤認識単語
と同一の認識単語”10時”の信頼度0.9に、1未満
の係数としての0.9が乗算され、その信頼度が0.8
1にダウンされるとともに、誤認識パターンPの正しい
単語と同一の認識単語”9時”の信頼度0.8に、1以
上の係数としての1.1が乗算され、その信頼度が0.
88にアップされる。
【0048】従って、この場合、第1候補としての認識
単語”10時”の信頼度は0.81となるとともに、第
2候補としての認識単語”9時”の信頼度は0.88と
なるので、信頼度が高くなった第2候補としての認識単
語”9時”が最終的な音声認識結果とされる。
【0049】即ち、この場合、音声が正しく認識され
る。
【0050】なお、例えばデータベース4に、所定の閾
値以上の頻度を有する誤認識パターンとして(10時,
9時)が登録されており、いま発話者によって、”9
時”ではなく”10時”と発話された結果、音声認識部
2から、信頼度の高い順の2つの認識単語として認識単
語”10時”と、”9時”が出力された場合、正しく”
10時”と認識されているにも拘らず、この音声認識装
置では、正しい単語”10時”の信頼度がダウンされる
とともに、誤った単語”9時”の信頼度がアップされる
ことになる。
【0051】しかしながら、第1候補としての認識単語
(信頼度の最も高い認識単語)”10時”が、音声認識
結果として正しい場合には、第1候補としての認識単
語”10時”の信頼度は、第2候補としての認識単語
(信頼度の2番目に高い認識単語)”9時”の信頼度よ
り、一般的に十分大きくなるので、正しい単語”10
時”の信頼度がダウンされるとともに、誤った単語”9
時”の信頼度がアップされても、その信頼度の大小関係
が逆転することはほとんどなく、従って音声が正しく認
識される。
【0052】以上のように、ある単語W1を他の単語W
2に誤認識した場合に、その単語W1と、単語W1を単
語W2に誤認識したことを記憶しておくようにしたの
で、次に単語W1が発話されたときに、単語W1を単語
W2に再び誤認識することなく、正しく認識することが
できる。
【0053】なお、本実施例においては、音声認識部2
で、音声から抽出する特徴パラメータについて言及しな
かったが、音声認識部2では、例えば線形予測係数や所
定の周波数帯域幅ごとのパワー、ケプストラム係数、パ
ーコール係数、フォルマント、ゼロクロス数などのあら
ゆる特徴パラメータを抽出するようにすることができ
る。
【0054】さらに、音声認識部2では、音声から抽出
した特徴パラメータを、例えばベクトル量子化し、その
結果得られたシンボル系列を用いて音声認識を行うよう
にすることができる。
【0055】また、本実施例においては、音声認識部2
での音声認識の方法については言及しなかったが、音声
認識部2では、例えばDPマッチング法やHMM法、特
開昭60−249198、特開昭60−249199、
または特開昭60−252396などに開示されている
音声認識装置の音声認識アルゴリズムなど、あらゆる音
声認識アルゴリズムに基づいて、音声認識を行うように
することができる。
【0056】さらに、本実施例では、音声認識部2か
ら、信頼度の高い順に2つ認識単語(認識結果)を出力
するようにしたが、例えば信頼度が所定の値より大きい
すべての認識単語(認識結果)を出力するようにするこ
とができる。
【0057】また、本実施例においては、装置のモード
が登録モードの場合、図2のステップS4で、発話者か
ら発話された音声としての”OK”または”違う”によ
って、音声が正しく認識されたか、または誤認識された
かを判定するようにしたが、例えば装置に”OK”ボタ
ンまたは”違う”ボタンを設け、そのボタンの操作に基
づいて、音声が正しく認識されたか、または誤認識され
たかを判定するようにすることができる。
【0058】さらに、本実施例では、装置のモードが登
録モードの場合と、認識モードの場合とに分けて説明し
たが、例えば装置のモードが認識モードの場合に、音声
が誤認識されたとき、装置のモードを一時登録モードに
して、データベース4に登録されている誤認識パターン
を更新するようにすることができる。
【0059】また、ステップS24で信頼度に乗算する
係数は、例えば誤認識パターンの頻度に基づいて、動的
に変化させることができる。
【0060】即ち、誤認識の頻度が高い単語どうしの組
に対しては、正しい認識結果とされるべき単語の信頼度
に乗算する係数を、上述した1.1より大きくするとと
もに、誤認識結果とされるべき単語の信頼度に乗算する
係数を、上述した0.9より小さくする(但し、0より
大きい値)ようにすることができる。さらに、誤認識の
頻度が低い単語どうしの組に対しては、正しい認識結果
とされるべき単語の信頼度に乗算する係数を、上述した
1.1より小さくする(但し、1以上の値)とともに、
誤認識結果とされるべき単語の信頼度に乗算する係数
を、上述した0.9より大きくする(但し、1未満の
値)ようにすることができる。
【0061】図5は、図2におけるステップS6のデー
タベースに登録のサブルーチンの他の実施例を示してい
る。その基本的処理は、図3に示した場合と同様である
が、ステップS32とS33における処理が、図3にお
けるステップS12とS13における処理と異なってい
る。
【0062】即ち、ステップS31において、データベ
ース4に、ステップS5(図2)で関連づけられた正し
い単語と誤認識単語の組、つまり誤認識パターンと同一
の誤認識パターンが既に登録されているか否かが判定さ
れる。
【0063】ステップS31において、いまステップS
5で生成された誤認識パターンと同一の誤認識パターン
が、データベース4にまだ登録されていないと判定され
た場合、ステップS32に進み、いまステップS5で生
成された誤認識パターンが生じた頻度が1に設定され
る。このとき、正しい単語と、誤認識された単語との距
離の差が演算される。そして、この誤認識パターンと頻
度および距離差が、例えば次のようなフォーマットでデ
ータベース4に登録される。 (誤認識単語We,正しい認識単語Ws,距離差D,頻度
C)
【0064】尚、ここで、距離とは、入力音声と認識候
補の単語との距離を意味し、信頼度に逆比例するものと
考えることができる。即ち、信頼度が大きいとき、それ
だけその認識された候補が入力音声に近いのであるが、
距離の場合は、その値が小さいほど近いことになる。
【0065】例えば、いま発話者が”9時”と発話し、
例えば図6に示すような認識が行われたとする。即ち、
この場合、入力”9時”が最も高い信頼度で”10時”
として認識されている。この場合における入力”9時”
と、認識結果としての”10時”との距離は80であ
る。また、第2番目の信頼度を有する認識結果とし
て、”9時”が得られている。この認識結果としての”
9時”と、入力としての”9時”との距離は90となっ
ている。従って、第1番目と第2番目の認識結果の距離
の差は、10(=90−80)である。
【0066】発話者が”10時”の認識に対して、”違
う”との入力を行った結果、今度は例えば図7に示すよ
うな認識結果が得られたとする。この場合においては、
最も高い信頼度の認識結果として”9時”が得られてい
るため、発話者は、例えば”OK”の入力を行う。この
場合、図6に示すように、”9時”が”10時”として
1回誤認識されたことになるので、データベース4に
は、上述したフォーマットに従って、例えば次のような
情報が記憶される。 (10時,9時,10,1)
【0067】これは、上述したように、”9時”の入力
に対して”10時”の誤認識が行われ、そのときにおけ
る距離差が10であり、頻度が1であることを表してい
る。
【0068】図5に戻って、ステップS31において、
データベース4の中に、今回の誤認識パターンと同一の
パターンが既に存在すると判定された場合においては、
ステップS33に進み、上述した誤認識パターンの頻度
を1だけインクリメントする。また、このとき同時に、
次式に従って距離差の平均値を演算し、記憶する。尚、
次式における頻度は、インクリメントする前の値であ
る。 距離差平均値=(頻度×記憶距離差+今回の距離差)/
(頻度+1)
【0069】このように、データベース4に距離差も記
憶される実施例の場合、認識モード時における処理は、
例えば図8に示すように行われる。この図8のステップ
S41,S42,S44,S45,S46は、図4にお
けるステップS21乃至S25と同様の処理である。即
ち、この実施例は、ステップS42とステップS44の
間に、ステップS43の処理が加わっている点が、図4
における処理と異なっている。
【0070】この実施例においては、ステップS42に
おいて、信頼度の最も高い認識単語WS1と同一の単語
が、誤認識パターンの誤認識単語としてデータベース4
に登録されていると判定され、かつ、信頼度が2番目に
高い認識単語WS2と同一の単語が、上述の誤認識パター
ンの正しい単語として登録されていると判定された場
合、即ち、(認識単語WS1,認識単語WS2,距離差
R,N)の誤認識パターンPがデータベース4に登録
されている場合、ステップS43に進む。ステップS4
3においては、今回の認識単語WS1とWS2の距離差DC
と、データベース4に記憶されている誤認識パターンP
の距離差DRとを比較し、前者の方が後者より小さい場
合にのみ、ステップS44乃至S46の処理、即ち、上
述した図4におけるステップS23乃至S25と同様の
処理を実行する。今回の距離差DCがデータベース4に
記憶されている距離差DRより小さくない場合において
は、ステップS44とステップS45の処理はスキップ
される。
【0071】即ち、この実施例においては、今回の距離
差がデータベース4に記憶されている距離差より小さ
く、かつ、誤認識パターンの頻度が所定の閾値以上であ
る場合においてのみ、ステップS45に進み、信頼度に
所定の係数を乗算して、その信頼度をアップまたはダウ
ンさせるようにしている。今回の距離差がデータベース
4に記憶されている距離差より小さくない場合において
は、このようなアップダウン修正を行わずに、もともと
の信頼度に応じて単語の選択処理が行われる。
【0072】このようにすると、特定パターンの誤認識
をさらに抑制することができる。
【0073】以上の如く、本発明の音声認識装置および
方法によれば、誤認識候補としての認識候補の信頼度を
小さくするとともに、正しい認識候補としての認識候補
の信頼度を大きくするようにすることができるので、頻
繁に生じる特定パターンの誤認識をさらに抑制すること
ができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の一実施例の構成を示す
ブロック図である。
【図2】装置のモードが登録モードの場合の動作を説明
するフローチャートである。
【図3】図2のステップS6のより詳細を説明するフロ
ーチャートである。
【図4】装置のモードが認識モードの場合の動作を説明
するフローチャートである。
【図5】図2のステップS6の他の処理例を説明するフ
ローチャートである。
【図6】認識結果と距離の例を説明する図である。
【図7】認識結果と距離の他の例を説明する図である。
【図8】図5の処理により登録が行われた場合における
認識モードの動作を説明するフローチャートである。
【符号の説明】
1 マイク 2 音声認識部 3 CPU 4 データベース
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 15/22

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声を入力する入力手段と、 前記入力手段からの音声を認識し、認識候補とともに前
    記認識候補の信頼度を出力する認識手段と、前記認識手段が誤認識した誤認識候補を、前記認識手段
    が認識した正しい認識候補、並びに、前記入力手段から
    の音声と前記正しい認識候補との距離と、前記入力手段
    からの音声と前記誤認識候補との距離の差である第1の
    距離差に関連付けて記憶する記憶手段と、 前記認識手段により出力された第1の認識候補および第
    2の認識候補が、前記記憶手段により、互いに対応する
    前記誤認識候補および前記正しい認識候補として、それ
    ぞれ記憶されている場合に、前記入力手段からの音声と
    前記第2の認識候補との距離と、前記入力手段からの音
    声と前記第1の認識候補との距離の差である第2の距離
    差を演算する演算手段と、 前記記憶手段により記憶されている第1の距離差と、前
    記演算手段により演算された前記第2の距離差とに基づ
    いて、前記認識手段により出力された認識候補の信頼度
    を変更する変更手段と、 前記信頼度に対応して、前記認識手段からの認識候補を
    選択する選択手段とを備えることを特徴とする音声認識
    装置。
  2. 【請求項2】 前記認識手段は、前記信頼度が所定の閾
    値以上である前記認識候補を出力することを特徴とする
    請求項1に記載の音声認識装置。
  3. 【請求項3】 前記変更手段は、前記第2の距離差が前
    記第1の距離差より小さい場合に、前記認識手段により
    出力された認識候補の信頼度を変更する ことを特徴とす
    る請求項1に記載の音声認識装置。
  4. 【請求項4】 前記変更手段は、前記認識手段からの認
    識候補のうち、前記誤認識候補として前記記憶手段によ
    り記憶されていたものの信頼度に1未満の係数を乗算す
    るとともに、前記認識手段からの認識候補のうち、前記
    誤認識候補に関連付けられた正しい認識候補として前記
    記憶手段により記憶されていたものの信頼度に1以上の
    係数を乗算する ことを特徴とする請求項1に記載の音声
    認識装置。
  5. 【請求項5】 前記認識手段が、前記入力手段からの音
    声を、前記誤認識候補に誤認識した頻度をカウントする
    カウント手段をさらに備え、 前記信頼度に乗算する係数は、前記カウント手段により
    カウントされた前記頻度に基づいて変更される ことを特
    徴とする請求項1に記載の音声認識装置。
  6. 【請求項6】 前記カウント手段により頻度がカウント
    される毎に、前記演算手段により演算された前記第2の
    距離差に基づいて、前記第1の距離差の平均値を算出す
    る平均値算出手段をさらに備え、 前記記憶手段は、前記平均値算出手段により算出され
    た、新たな前記平均値を前記第1の距離差として記憶す
    ことを特徴とする請求項5に記載の音声認識装置。
  7. 【請求項7】 発話者からの発話に基づいて、前記認識
    手段が誤認識したか否かを判定する判定手段をさらに備
    え、 前記記憶手段は、前記判定手段の判定結果に基づいて、
    前記認識手段が誤認識した誤認識候補を、前記正しい認
    識候補と関連付けて記憶する ことを特徴とする請求項1
    に記載の音声認識装置。
  8. 【請求項8】 音声を入力する入力ステップと、 前記入力ステップの処理からの音声を認識し、認識候補
    とともに前記認識候補の信頼度を出力する認識ステップ
    と、 前記認識ステップの処理が誤認識した誤認識候補を、前
    記認識ステップの処理が認識した正しい認識候補、並び
    に、前記入力ステップの処理からの音声と前記正しい認
    識候補との距離と、前記入力ステップの処理からの音声
    と前記誤認識候補との距離の差である第1の距離差に関
    連付けて記憶するように制御する記憶制御ステップと、 前記認識ステップの処理により出力された第1の認識候
    補および第2の認識候補が、前記記憶制御ステップの処
    理により、互いに対応する前記誤認識候補および前記正
    しい認識候補として、それぞれ記憶が制御されている場
    合に、前記入力ステップの処理からの音声と前記第2の
    認識候補との距離と、前記入力ステップ の処理からの音
    声と前記第1の認識候補との距離の差である第2の距離
    差を演算する演算ステップと、 前記記憶制御ステップにより記憶が制御されている第1
    の距離差と、前記演算ステップにより演算された前記第
    2の距離差とに基づいて、前記認識ステップの処理によ
    り出力された認識候補の信頼度を変更する変更ステップ
    と、 前記信頼度に対応して、前記認識ステップの処理からの
    認識候補を選択する選択ステップとを含むことを特徴と
    する音声認識方法。
JP13565293A 1993-02-02 1993-06-07 音声認識装置および方法 Expired - Fee Related JP3443874B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13565293A JP3443874B2 (ja) 1993-02-02 1993-06-07 音声認識装置および方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP3742993 1993-02-02
JP5-37429 1993-02-02
JP13565293A JP3443874B2 (ja) 1993-02-02 1993-06-07 音声認識装置および方法

Publications (2)

Publication Number Publication Date
JPH06289893A JPH06289893A (ja) 1994-10-18
JP3443874B2 true JP3443874B2 (ja) 2003-09-08

Family

ID=26376548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13565293A Expired - Fee Related JP3443874B2 (ja) 1993-02-02 1993-06-07 音声認識装置および方法

Country Status (1)

Country Link
JP (1) JP3443874B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3582623B2 (ja) * 1996-08-09 2004-10-27 株式会社日立メディコ X線画像診断装置
JP2004240086A (ja) * 2003-02-05 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音声認識信頼性評価方法、装置、音声認識信頼性評価プログラム及びこのプログラムを記録した記録媒体
EP2842124A4 (en) * 2012-04-27 2015-12-30 Interactive Intelligence Inc IMPROVING THE RESULTS OF SPEECH RECOGNITION BASED ON NEGATIVE EXAMPLES (ANTI-WORDS)

Also Published As

Publication number Publication date
JPH06289893A (ja) 1994-10-18

Similar Documents

Publication Publication Date Title
US7113908B2 (en) Method for recognizing speech using eigenpronunciations
EP1355296B1 (en) Keyword detection in a speech signal
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US20020091522A1 (en) System and method for hybrid voice recognition
EP1159735B1 (en) Voice recognition rejection scheme
JP2955297B2 (ja) 音声認識システム
JPH11149294A (ja) 音声認識装置および音声認識方法
JPH0713591A (ja) 音声認識装置および音声認識方法
JPH10254475A (ja) 音声認識方法
JP3443874B2 (ja) 音声認識装置および方法
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
JP2003177779A (ja) 音声認識のための話者学習法
JP3285704B2 (ja) 音声対話のための音声認識方法及び装置
JPH06214596A (ja) 音声認識装置および話者適応化方法
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP6966374B2 (ja) 音声認識システム及びコンピュータプログラム
JP4282354B2 (ja) 音声認識装置
JPH11311994A (ja) 情報処理装置および方法、並びに提供媒体
JPH07230293A (ja) 音声認識装置
JP2004333703A (ja) 音声認識システムおよび音声認識の訂正・学習方法
JP2000214879A (ja) 音声認識装置の適応化方法
JPH06161488A (ja) 音声認識装置
JPH07248792A (ja) 音声認識装置
JP2995941B2 (ja) 不特定話者用音声認識装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030527

LAPS Cancellation because of no payment of annual fees