JPH11149295A

JPH11149295A - 音声認識装置

Info

Publication number: JPH11149295A
Application number: JP31562697A
Authority: JP
Inventors: Shigeki Aoshima; 滋樹青島
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 1997-11-17
Filing date: 1997-11-17
Publication date: 1999-06-02

Abstract

(57)【要約】【課題】音声認識装置を使っていくうちに、特定話者
の音声を認識する能力が向上するように図る。【解決手段】認識処理部１８は入力音声パターンの認
識処理により複数の認識候補を選定する。正解情報取得
部２６は、話者の判断に基づいて複数の認識候補の中か
ら正解候補を決定する。関連記憶部２４は、正解候補と
その正解候補が選ばれたときの入力音声パターンとを対
応づけて記憶している。関連記憶判定部２２は、関連記
憶部２４に記憶された過去の正解候補が、今回の複数の
認識候補の中に存在するか否かを調べる。存在する場合
には、過去の正解候補に対応する入力音声パターンと今
回の入力音声パターンが比較され、比較結果に基づい
て、認識処理部１８が選定した複数の認識候補の順位が
入れ替えられる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置、特
に、使っていくうちに特定話者の音声を認識する能力を
向上できる音声認識装置に関する。

【０００２】

【従来の技術】従来、話者の発声した音声を、パターン
マッチング処理により認識する装置が周知である。音声
認識装置は、各種の装置の入力手段として使うことがで
きる。例えば、車両に音声認識装置を設ければ、運転者
は音声コマンドの発声により車載機器を操作することが
でき、これにより操作性を向上し、運転者の負担を軽減
することが可能になる。

【０００３】従来の音声認識装置では、話者がマイクに
向かって発声すると、入力音声信号の音響分析が行わ
れ、特徴パラメータ（ケプストラム等）の入力音声パタ
ーンが生成される。そして、入力音声パターンと標準パ
ターンとのパターンマッチングが行われ、認識候補が定
められる。例えば単語認識を行う場合、認識対象の複数
の単語データが記憶されている。入力音声パターンと各
単語のマッチングが個別に行われ、マッチング結果のよ
い単語が認識候補に選定される。

【０００４】周知のように、音声案内装置には、「特定
話者タイプの装置」と「不特定話者タイプの装置」があ
る。前者の特定話者タイプの音声認識装置は、登録され
た特定の話者の音声を認識する装置であり、限られたユ
ーザが使う機器への音声入力のために用いられる。話者
は、予め自分の音声の特徴を認識装置に登録しておく。
一方、後者の不特定話者タイプの音声認識装置は、いろ
いろなユーザが使う機器への音声入力のために用いられ
る。一般的な広範囲の話者を考慮した標準パターンが、
入力音声パターンと比較される。周知のように、特定話
者の音声認識にはダイナミックプログラミング法（動的
計画法、以下ＤＰ法という）が適しており、不特定話者
の音声認識には、ヒドンマルコフモデル（隠れマルコフ
モデル、以下、ＨＭＭという）を使う手法が適してい
る。

【０００５】

【発明が解決しようとする課題】ここで、例として、音
声認識装置を車両に設け、車載機器を操作するための入
力装置として利用する場合を考える。車両は、主として
所有者に使われるが、所有者以外のユーザに使われるこ
ともある。所有者以外のユーザも使うことを想定する
と、不特定話者適応タイプの認識装置を設けることが好
ましい。しかし、所有者の音声の認識に関しては、不特
定話者タイプの装置は、特定話者タイプの装置と比較す
ると、低い認識能力しか持たない。逆に、特定話者タイ
プの装置は、所有者の音声認識に関して高い能力を持つ
ものの、所有者以外のユーザ（例えば、車両を借りた
人）の音声を好適に認識できない。このような従来技術
の事情を考えると、不特定の話者の音声を認識でき、か
つ、特定話者の音声を認識する高い能力をもつ音声認識
装置の提供が望まれる。しかしながら、このような装置
は従来は実現されていなかった。

【０００６】実際、車両の所有者が「トヨタ」と発声し
た場合に、音声認識装置が「トヨダ」と認識したとす
る。この誤認識は、話者が発声する度に、同様に発生す
る可能性が高い。所有者は、その車両が自分の持ち物で
あるにも関わらず毎回誤認識が発生するために苛立ちを
感じる。

【０００７】また、従来の特定話者タイプの音声認識装
置では、ユーザは、自分の音声の特徴を予め登録するた
めに、所定の基準単語を認識装置に向かって発声しなけ
ればならない。基準単語の発声は、車両の所有者にとっ
ては非常に面倒な作業であり、この作業の必要なこと
が、特定話者タイプの装置の不利な点である。基準単語
の発声など行わなくとも、特定話者の音声を認識する高
い能力をもつ装置の提供が望まれる。

【０００８】上記の課題は、車両に音声認識装置を適用
する場合には限られない。他の用途の音声認識装置にお
いても、一般のユーザの音声を認識しつつ主なユーザの
音声を高精度に認識することが望まれる。また、予め音
声を登録するといった面倒な作業をなくすことが望まれ
る。

【０００９】参考技術として、特開平２−２１４９９０
号公報のパターン認識後処理方式では、認識結果の誤り
を過去にユーザが訂正した際に訂正規則が記憶される。
そして、この訂正規則を利用することにより、以降のパ
ターン認識結果の誤りが自動訂正される。しかしがら、
この従来技術では、単に、過去に行われた認識候補の入
れ替え実績と同じように今回の認識候補の入れ替え作業
が行われるのであって、だれの音声が入力されたかに関
わらず同じ自動訂正が行われる。従って、車両所有者の
ような特定人の音声の正確な認識結果を得るための的確
な訂正処理はできない。

【００１０】本発明は上記課題に鑑みてなされたもので
あり、その目的は、使っていくうちに特定話者の音声を
認識する能力を向上でき、かつ、音声認識を効率よく行
える音声認識装置を提供することにある。

【００１１】

【課題を解決するための手段】（１）本発明の音声認識
装置は、発声入力された音声信号に基づいて入力音声パ
ターンを生成する音響処理手段と、前記入力音声パター
ンの認識処理により複数の認識候補を選定する認識処理
手段と、話者の判断に基づいて前記複数の認識候補の中
から正解候補を決定する正解候補決定手段と、正解候補
とその正解候補が選ばれたときの入力音声パターンとを
対応づけて記憶する正解記憶手段と、正解記憶手段に記
憶された過去の正解候補が今回の複数の認識候補の中に
ある場合に、その過去の正解候補に対応する入力音声パ
ターンと今回の入力音声パターンを比較して、比較結果
に基づいて認識候補の調整処理を行う候補調整手段と、
を含む。候補調整手段は、好ましくは、過去の正解候補
に対応する入力音声パターンと今回の入力音声パターン
との一致度を求め、所定の一致度が得られる場合に、前
記過去の正解候補を、前記複数の認識候補の中の優先候
補に定める。ここで、一致度は、例えば、２つの入力音
声パターンの類似度である。類似度は、周知のように、
２つのパターンの距離や尤度、それらに基づく認識得点
などによって表される。

【００１２】本発明では、複数の認識候補の中から正解
候補が決定されると、その正解候補と入力音声パターン
が対応づけて記憶される。その後の発声入力時に選定さ
れた複数の認識候補の中に、上記の過去の正解候補が存
在したとする。このとき、その過去の正解候補に対応す
る入力音声パターンと今回の入力音声パターンが比較さ
れる。同一話者により同一単語が発声された場合には、
比較対象の両入力音声パターン同士は顕著に類似する。
従って、上記の過去の正解候補が今回の正解候補でもあ
るか否かの判断を非常に正確に行うことができ、この判
断に基づいて認識候補の調整処理が行われる。例えば、
上述の如く、所定の一致度が得られた場合に、過去の正
解候補を今回の優先候補にする。また例えば、所定の一
致度が得られなければ、過去の正解候補が、今回の認識
候補から除外されてもよい。

【００１３】以上より、本発明によれば、ある話者が音
声認識装置を使っているうちに、その話者についての過
去の正解候補と入力音声パターンが蓄積される。そし
て、蓄積された学習データに基づいて、その話者の音声
の認識が高精度に行われる。従って、ある話者が本発明
の音声認識装置を使っているうちに、その話者の音声を
認識する能力を向上することが可能となる。その結果、
車両などのように、主として特定のユーザに使われる
が、それ以外のユーザも使うといった使用条件に適応す
る、好適な音声認識装置を実現できる。また、予めユー
ザによる音声登録作業がなくとも、そのユーザの音声を
認識する能力が、従来の特定話者タイプ装置と同等かそ
れ以上に高くなるように図ることができる。

【００１４】さらに、本発明によれば、上述のように、
過去と今回の入力音声パターンのマッチングの前に、今
回の認識候補の中に過去の正解候補が存在するか否かが
判断されている。存在する場合に、その過去の正解候補
に対応する入力音声パターンと今回の入力音声パターン
のマッチングが行われる。このように、記憶してある過
去の入力音声パターンから、比較対象となるべき入力音
声パターンが絞り込まれる。今回の入力音声パターン
を、記憶してある過去の入力音声パターンのすべてと個
別に比較するといったような無駄かつ膨大な処理は行わ
れない。また、今回の認識候補の中に過去の正解候補が
なければ、マッチングは行われない。このように、必要
なマッチングのみが行われ、不要なマッチングが行われ
ず、従って、処理の無駄が省かれ、簡単な処理で短時間
に認識候補の調整処理を行うことができる。

【００１５】

【発明の実施の形態】以下、本発明の好適な実施の形態
（以下、実施形態という）について、図面を参照し説明
する。本実施形態では、不特定話者用の音声認識装置に
本発明が適用されている。また、本実施形態では、一例
として、単語認識が行われる。

【００１６】図１は、本実施形態の音声認識装置の構成
を示すブロック図である。話者がマイク１０に向かって
発声すると、マイク１０からの入力音声信号は、Ａ／Ｄ
コンバータ１２でデジタル信号に変換され、音響処理部
１４に入力される。音響処理部１４では、音響分析が行
われ、特徴パラメータ（ケプストラム等）の入力音声パ
ターンが生成される。生成された入力音声パターンは、
特徴パラメータ登録部１６に格納される。特徴パラメー
タ登録部１６は、ＲＡＭ等の記憶手段であり、入力音声
パターンを一時的に記憶する。

【００１７】また、音響処理部１４は、入力音声パター
ンを認識処理部１８に供給する。認識処理部１８では、
入力音声パターンと標準パターンとのパターンマッチン
グが行われる。ここでは、ＨＭＭを使ったマッチング処
理が行われる。ＨＭＭは、確率手法を採用しており、話
者の個人差に起因する入力信号の変化に強く、不特定話
者の音声の認識に適する。認識用辞書記憶部２０には、
認識対象の複数の単語データが記憶されている。入力音
声パターンと各単語のマッチングが個別に行われ、マッ
チング結果が最もよい単語が第１位の認識候補に選定さ
れる。さらに下位の認識候補（単語）が、マッチングの
よい順に選定される。本実施形態では、所定の順位、例
えば１０位までの認識候補が選定される。

【００１８】認識処理部１８は、選定された認識候補
を、入力音声パターンとともに関連記憶判定部２２に送
る。関連記憶判定部２２および関連記憶部２４は、それ
ぞれ、本発明の候補調整手段および正解記憶手段に相当
する。関連記憶判定部２２は、関連記憶部２４に記憶さ
れた過去の蓄積データを用いて、後述するように認識候
補の調整処理を行う。

【００１９】調整後の認識候補は、正解情報取得部２６
に送られる。正解情報取得部２６は、話者の判断に基づ
いて、選定された複数の認識候補の中から正解候補を決
定する。この際、出力手段としてのスピーカ２８やディ
スプレイ３０、入力手段としての操作スイッチ３２が、
適宜、利用される。例えば、正解情報取得部２６は、ス
ピーカ２８を用いて第１位の認識候補を話者に伝え（ト
ークバック）、話者の反応（操作スイッチ３２の操作）
を待つ。話者は、第１位の認識候補が正解であると判断
したときは、反応を示さない。そこで、反応がなけれ
ば、第１位の認識候補がそのまま正解候補に定められ
る。また、反応があれば、他の認識候補がディスプレイ
３０に表示される。話者は、操作スイッチ３２を使っ
て、正解の認識候補を選ぶ。選ばれた認識候補が、正解
候補に決定される。このようにして、話者の判断に基づ
いて正解候補が決定される。なお、正解情報を取得する
ための手段には、上記の例の他に、任意の適当な周知の
手段を適用可能である。適切な取得手段は、音声認識装
置を設ける機器によっても異なる。

【００２０】決定された正解候補は、認識結果として出
力され、音声認識装置と接続された他の機器に送られ
る。また、正解候補は、関連記憶部２４に送られる。関
連記憶部２４には、さらに、特徴パラメータ登録部１６
から、入力音声パターンが送られる。関連記憶部２４
は、正解候補と入力音声パターンとを対応づけて記憶す
る。すなわち、関連記憶部２４内では、過去の正解候補
と、その正解候補に関する処理対象であった入力音声パ
ターンとが、学習データとして、１対１で対応してい
る。

【００２１】次に、関連記憶判定部２２の機能について
説明する。関連記憶判定部２２には、認識処理部１８で
選定された複数の認識候補が入力される。関連記憶判定
部２２は、この複数の認識候補の中に、すでに学習して
ある候補があるかないか、すなわち関連記憶部２４に記
憶された過去の正解候補があるか否かを判断する。正解
候補がある場合には、その正解候補に対応する過去の入
力音声パターンを関連記憶部２４から読み出す。そし
て、過去の入力音声パターンと今回の入力音声パターン
のマッチングが行われ、両パターンの類似度が求められ
る。類似度は、本発明の一致度に対応し、周知のよう
に、２つのパターンの距離や尤度、それらに基づく認識
得点などによって表される。同一話者により、学習済み
の単語と同一の単語が発声された場合には、顕著に高い
類似度が得られるはずである。そこで、この顕著に高い
類似度を想定して、所定の判断基準値が設定されてい
る。関連記憶判定部２２は、算出された類似度が判断基
準値以上であるか否かを判定する。

【００２２】類似度が所定値未満であれば、「比較対象
に選ばれた過去の正解候補が今回の正解候補である可能
性は低い」、と判断される。そこで、認識候補の順位の
変更を行うことなく、認識候補を正解情報取得部２６に
送る。

【００２３】一方、類似度が判断基準値以上であれば、
「比較対象に選ばれた過去の正解候補は今回の正解候補
でもある可能性が高い」、と判断される。そこで、その
過去の正解候補の単語を、今回の第１位の認識候補にす
る。今回の認識候補セットの中に複数の過去の正解候補
が存在し、そして、複数の正解候補についての類似度が
判定基準値を越えることがあり得る。この場合には、類
似度の高さに応じて、新しい順位が定められる。このよ
うに、本実施形態では、認識候補の調整処理として、判
断基準値以上の類似度が得られた場合に、該当する単語
が優先候補（順位の高い候補）とされる。そして、優先
候補の順位を上げるように候補順位の入れ替えが行われ
た後、認識候補が正解情報取得部２６に送られる。

【００２４】図２は、上記に説明した認識候補調整処理
の具体例を示している。ある話者が「トヨタ」と発声し
たとき、その話者の話し方の特性に起因して、認識処理
部１８では「トヨダ」が第１候補に、「トヨタ」は第３
候補に選ばれるとする。従来は、毎回、同様の誤認識が
行われるので、話者は、第３候補を正解候補として選択
する作業を行わなければならない。本実施形態では、す
でに、以前の発声入力の際に、正解候補「トヨタ」と入
力音声パターンが関連記憶部２４に記憶されている。そ
こで、今回の入力音声パターンと過去の入力音声パター
ンのマッチングが行われる。同じ話者が「トヨタ」と言
った場合には高い類似度が得られるので、順位の入れ替
えが行われ、「トヨタ」が第１位を獲得する。正解情報
取得部２６は、最初から正解の「トヨタ」を第１候補と
して話者に提示できる。なお、他の話者の発声では、同
一話者の発声の場合のような高い類似度は得られないの
で、従って、他の話者の発声時の安易な候補順位の入れ
替えは回避される。

【００２５】なお、本実施形態では、関連記憶判定部２
２において、ＤＰ法に従ったパターンマッチングが行わ
れる。ＤＰ法は、同一話者により発声された２つの音声
信号の比較に適しているからである。ただし、ここでの
マッチングには、ＤＰ法に限られず、任意のマッチング
手法、例えばＨＭＭを適用可能である。

【００２６】次に、図３を参照し、本実施形態の音声認
識処理フローを説明する。音響処理部１４により、入力
音声信号に対する音響分析が行われ、特徴パターンの入
力音声パターンが生成される（Ｓ１０）。この入力音声
パターンは、認識処理部１８に供給されるとともに、特
徴パラメータ登録部１６に登録される（Ｓ１２）。認識
処理部１８は、入力音声パターンの認識処理を行って、
認識候補を選定する（Ｓ１４）。そして、関連記憶判定
部２２は、選定された複数の認識候補の中に、関連記憶
された過去の正解候補があるか否かが判定される（Ｓ１
６）。過去の正解候補が存在しなければ、Ｓ２０へ進
む。過去の正解候補が存在すれば、関連記憶した特徴パ
ラメータの入力音声パターンが、今回の入力音声パター
ンと比較される（Ｓ１８）。比較結果の類似度に基づい
て、前述のように候補の順位が入れ替えられる。このよ
うな調整処理後の認識候補を用いて、正解情報を取得す
るための処理が行われる（Ｓ２０）。ここでは、正解情
報取得部２６により、前述したように、正解候補を決定
するための処理が行われる。そして、正解情報が得られ
たか否かが判断される（Ｓ２２）。例えば、話者のキャ
ンセル操作によって音声入力が中止されたり、リセット
操作によって始めから音声入力がやり直される場合に
は、正解情報が得られない。このような場合には、処理
が終了する。正解情報が取得された場合、この正解情報
は関連記憶部２４に送られる。そして、特徴パラメータ
のパターンと関連づけて、正解候補が記憶される（Ｓ２
４）。なお、すでに、同じ正解候補とその候補に対応す
る入力音声パターンが記憶されていることがしばしばあ
る。この場合には、正解候補および入力音声パターンが
更新される。そして、正解情報取得部２６により決定さ
れた正解候補は、認識結果として出力される（Ｓ２
６）。

【００２７】以上、本発明の好適な実施形態を説明し
た。以上に説明したように、本実施形態によれば、ある
話者が音声認識装置を使っているうちに、その話者につ
いての音声認識能力が向上する。従って、主として特定
のユーザに使われるが、それ以外のユーザにも使われる
といった使用条件に適応する、好適な音声認識装置を実
現できる。また、予めユーザによる音声登録作業がなく
とも、そのユーザの音声を認識する能力が、従来の特定
話者タイプ同等かそれ以上に高くなるように図ることが
できる。なお、従来以上の精度向上の理由は、同一話者
の同一単語についての判定を行っているからである。

【００２８】また、本実施形態によれば、関連記憶判定
部２２は、今回の認識候補の中に過去の正解候補が存在
するか否かを判断する。正解候補が見つかったら、その
候補に対応する過去の入力音声パターンが今回の入力音
声パターンと比較される。このように、比較対象となる
べき過去の入力音声パターンの選抜が行われる。記憶し
てある過去の入力音声パターンのすべてを比較対象にす
るような無駄かつ膨大な処理は行われない。また、今回
の認識候補の中に過去の正解候補がなければ、マッチン
グは行われない。以上より、必要なマッチングのみが行
われ、不要なマッチングが行われず、従って、処理の無
駄が省かれ、簡単な処理で短時間に認識候補の調整処理
を行うことができる。

【００２９】以下、本実施形態の変形例を説明する。

【００３０】（１）音声認識装置の認識対象は、単語に
限られない。例えば、文、文字、数字など、なんでもよ
い。

【００３１】（２）認識処理部１８や関連記憶判定部２
２のマッチング処理は、ＨＭＭやＤＰ法には限定され
ず、他の任意の手法を適用してよい。関連記憶判定部２
２にＨＭＭを採用することも、認識処理部１８にＤＰ法
を採用することも可能である。

【００３２】（３）例えば、車両用の音声認識装置を考
えると、複数の所有者により交代で車両が使われること
がある。例えば、家族の何人かが車両を使う場合であ
る。このような場合には、関連記憶部２４は、それぞれ
の話者についての蓄積データを別々に構築することが好
ましい。例えば、その時々のドライバーが識別され、そ
のドライバー用の記憶領域に正解候補や音声パターンが
格納される。ドライバーは、任意の手法で識別されてよ
く、音声パターンに基づいて識別されてもよい。同じ正
解候補に対応する音声パターンでも、ドライバーによっ
てパターンが異なる。この変形は、車両以外に認識装置
が適用された場合にも、もちろん、同様に適用可能であ
る。

【００３３】（４）特定話者用の音声認識装置に本発明
が適用されてもよい。従来の特定話者用の音声認識装置
では、予め基準単語の発声により話者の音声の特徴を登
録することが必要であった。本実施形態によれば、その
ような登録作業を行わなくともよい。

【００３４】（５）図１に示した各構成の機能は、ハー
ドウェアによって実現されてもよく、ソフトウェアによ
って実現されてもよい。

【図面の簡単な説明】

【図１】本発明の実施形態の音声認識装置の構成を示
すブロック図である。

【図２】認識候補の調整処理による順位の入れ替えの
例を示す図である。

【図３】図１の装置の音声認識処理のフローチャート
である。

【符号の説明】

１４音響処理部、１６特徴パラメータ登録部、１８
認識処理部、２０認識用辞書記憶部、２２関連記憶
判定部、２４関連記憶部、２６正解情報取得部、２
８スピーカ、３０ディスプレイ、３２操作スイッ
チ。

Claims

【特許請求の範囲】

【請求項１】発声入力された音声信号に基づいて入力
音声パターンを生成する音響処理手段と、前記入力音声パターンの認識処理により複数の認識候補
を選定する認識処理手段と、話者の判断に基づいて前記複数の認識候補の中から正解
候補を決定する正解候補決定手段と、正解候補とその正解候補が選ばれたときの入力音声パタ
ーンとを対応づけて記憶する正解記憶手段と、正解記憶手段に記憶された過去の正解候補が今回の複数
の認識候補の中にある場合に、その過去の正解候補に対
応する入力音声パターンと今回の入力音声パターンを比
較して、比較結果に基づいて認識候補の調整処理を行う
候補調整手段と、を含むことを特徴とする音声認識装置。
【請求項２】請求項１に記載の装置において、前記候補調整手段は、過去の正解候補に対応する入力音
声パターンと今回の入力音声パターンとの一致度を求
め、所定の一致度が得られる場合に、前記過去の正解候
補を、前記複数の認識候補の中の優先候補に定めること
を特徴とする音声認識装置。