JPH11149295A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH11149295A JPH11149295A JP31562697A JP31562697A JPH11149295A JP H11149295 A JPH11149295 A JP H11149295A JP 31562697 A JP31562697 A JP 31562697A JP 31562697 A JP31562697 A JP 31562697A JP H11149295 A JPH11149295 A JP H11149295A
- Authority
- JP
- Japan
- Prior art keywords
- correct answer
- recognition
- candidate
- input voice
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
(57)【要約】
【課題】 音声認識装置を使っていくうちに、特定話者
の音声を認識する能力が向上するように図る。 【解決手段】 認識処理部18は入力音声パターンの認
識処理により複数の認識候補を選定する。正解情報取得
部26は、話者の判断に基づいて複数の認識候補の中か
ら正解候補を決定する。関連記憶部24は、正解候補と
その正解候補が選ばれたときの入力音声パターンとを対
応づけて記憶している。関連記憶判定部22は、関連記
憶部24に記憶された過去の正解候補が、今回の複数の
認識候補の中に存在するか否かを調べる。存在する場合
には、過去の正解候補に対応する入力音声パターンと今
回の入力音声パターンが比較され、比較結果に基づい
て、認識処理部18が選定した複数の認識候補の順位が
入れ替えられる。
の音声を認識する能力が向上するように図る。 【解決手段】 認識処理部18は入力音声パターンの認
識処理により複数の認識候補を選定する。正解情報取得
部26は、話者の判断に基づいて複数の認識候補の中か
ら正解候補を決定する。関連記憶部24は、正解候補と
その正解候補が選ばれたときの入力音声パターンとを対
応づけて記憶している。関連記憶判定部22は、関連記
憶部24に記憶された過去の正解候補が、今回の複数の
認識候補の中に存在するか否かを調べる。存在する場合
には、過去の正解候補に対応する入力音声パターンと今
回の入力音声パターンが比較され、比較結果に基づい
て、認識処理部18が選定した複数の認識候補の順位が
入れ替えられる。
Description
【0001】
【発明の属する技術分野】本発明は、音声認識装置、特
に、使っていくうちに特定話者の音声を認識する能力を
向上できる音声認識装置に関する。
に、使っていくうちに特定話者の音声を認識する能力を
向上できる音声認識装置に関する。
【0002】
【従来の技術】従来、話者の発声した音声を、パターン
マッチング処理により認識する装置が周知である。音声
認識装置は、各種の装置の入力手段として使うことがで
きる。例えば、車両に音声認識装置を設ければ、運転者
は音声コマンドの発声により車載機器を操作することが
でき、これにより操作性を向上し、運転者の負担を軽減
することが可能になる。
マッチング処理により認識する装置が周知である。音声
認識装置は、各種の装置の入力手段として使うことがで
きる。例えば、車両に音声認識装置を設ければ、運転者
は音声コマンドの発声により車載機器を操作することが
でき、これにより操作性を向上し、運転者の負担を軽減
することが可能になる。
【0003】従来の音声認識装置では、話者がマイクに
向かって発声すると、入力音声信号の音響分析が行わ
れ、特徴パラメータ(ケプストラム等)の入力音声パタ
ーンが生成される。そして、入力音声パターンと標準パ
ターンとのパターンマッチングが行われ、認識候補が定
められる。例えば単語認識を行う場合、認識対象の複数
の単語データが記憶されている。入力音声パターンと各
単語のマッチングが個別に行われ、マッチング結果のよ
い単語が認識候補に選定される。
向かって発声すると、入力音声信号の音響分析が行わ
れ、特徴パラメータ(ケプストラム等)の入力音声パタ
ーンが生成される。そして、入力音声パターンと標準パ
ターンとのパターンマッチングが行われ、認識候補が定
められる。例えば単語認識を行う場合、認識対象の複数
の単語データが記憶されている。入力音声パターンと各
単語のマッチングが個別に行われ、マッチング結果のよ
い単語が認識候補に選定される。
【0004】周知のように、音声案内装置には、「特定
話者タイプの装置」と「不特定話者タイプの装置」があ
る。前者の特定話者タイプの音声認識装置は、登録され
た特定の話者の音声を認識する装置であり、限られたユ
ーザが使う機器への音声入力のために用いられる。話者
は、予め自分の音声の特徴を認識装置に登録しておく。
一方、後者の不特定話者タイプの音声認識装置は、いろ
いろなユーザが使う機器への音声入力のために用いられ
る。一般的な広範囲の話者を考慮した標準パターンが、
入力音声パターンと比較される。周知のように、特定話
者の音声認識にはダイナミックプログラミング法(動的
計画法、以下DP法という)が適しており、不特定話者
の音声認識には、ヒドンマルコフモデル(隠れマルコフ
モデル、以下、HMMという)を使う手法が適してい
る。
話者タイプの装置」と「不特定話者タイプの装置」があ
る。前者の特定話者タイプの音声認識装置は、登録され
た特定の話者の音声を認識する装置であり、限られたユ
ーザが使う機器への音声入力のために用いられる。話者
は、予め自分の音声の特徴を認識装置に登録しておく。
一方、後者の不特定話者タイプの音声認識装置は、いろ
いろなユーザが使う機器への音声入力のために用いられ
る。一般的な広範囲の話者を考慮した標準パターンが、
入力音声パターンと比較される。周知のように、特定話
者の音声認識にはダイナミックプログラミング法(動的
計画法、以下DP法という)が適しており、不特定話者
の音声認識には、ヒドンマルコフモデル(隠れマルコフ
モデル、以下、HMMという)を使う手法が適してい
る。
【0005】
【発明が解決しようとする課題】ここで、例として、音
声認識装置を車両に設け、車載機器を操作するための入
力装置として利用する場合を考える。車両は、主として
所有者に使われるが、所有者以外のユーザに使われるこ
ともある。所有者以外のユーザも使うことを想定する
と、不特定話者適応タイプの認識装置を設けることが好
ましい。しかし、所有者の音声の認識に関しては、不特
定話者タイプの装置は、特定話者タイプの装置と比較す
ると、低い認識能力しか持たない。逆に、特定話者タイ
プの装置は、所有者の音声認識に関して高い能力を持つ
ものの、所有者以外のユーザ(例えば、車両を借りた
人)の音声を好適に認識できない。このような従来技術
の事情を考えると、不特定の話者の音声を認識でき、か
つ、特定話者の音声を認識する高い能力をもつ音声認識
装置の提供が望まれる。しかしながら、このような装置
は従来は実現されていなかった。
声認識装置を車両に設け、車載機器を操作するための入
力装置として利用する場合を考える。車両は、主として
所有者に使われるが、所有者以外のユーザに使われるこ
ともある。所有者以外のユーザも使うことを想定する
と、不特定話者適応タイプの認識装置を設けることが好
ましい。しかし、所有者の音声の認識に関しては、不特
定話者タイプの装置は、特定話者タイプの装置と比較す
ると、低い認識能力しか持たない。逆に、特定話者タイ
プの装置は、所有者の音声認識に関して高い能力を持つ
ものの、所有者以外のユーザ(例えば、車両を借りた
人)の音声を好適に認識できない。このような従来技術
の事情を考えると、不特定の話者の音声を認識でき、か
つ、特定話者の音声を認識する高い能力をもつ音声認識
装置の提供が望まれる。しかしながら、このような装置
は従来は実現されていなかった。
【0006】実際、車両の所有者が「トヨタ」と発声し
た場合に、音声認識装置が「トヨダ」と認識したとす
る。この誤認識は、話者が発声する度に、同様に発生す
る可能性が高い。所有者は、その車両が自分の持ち物で
あるにも関わらず毎回誤認識が発生するために苛立ちを
感じる。
た場合に、音声認識装置が「トヨダ」と認識したとす
る。この誤認識は、話者が発声する度に、同様に発生す
る可能性が高い。所有者は、その車両が自分の持ち物で
あるにも関わらず毎回誤認識が発生するために苛立ちを
感じる。
【0007】また、従来の特定話者タイプの音声認識装
置では、ユーザは、自分の音声の特徴を予め登録するた
めに、所定の基準単語を認識装置に向かって発声しなけ
ればならない。基準単語の発声は、車両の所有者にとっ
ては非常に面倒な作業であり、この作業の必要なこと
が、特定話者タイプの装置の不利な点である。基準単語
の発声など行わなくとも、特定話者の音声を認識する高
い能力をもつ装置の提供が望まれる。
置では、ユーザは、自分の音声の特徴を予め登録するた
めに、所定の基準単語を認識装置に向かって発声しなけ
ればならない。基準単語の発声は、車両の所有者にとっ
ては非常に面倒な作業であり、この作業の必要なこと
が、特定話者タイプの装置の不利な点である。基準単語
の発声など行わなくとも、特定話者の音声を認識する高
い能力をもつ装置の提供が望まれる。
【0008】上記の課題は、車両に音声認識装置を適用
する場合には限られない。他の用途の音声認識装置にお
いても、一般のユーザの音声を認識しつつ主なユーザの
音声を高精度に認識することが望まれる。また、予め音
声を登録するといった面倒な作業をなくすことが望まれ
る。
する場合には限られない。他の用途の音声認識装置にお
いても、一般のユーザの音声を認識しつつ主なユーザの
音声を高精度に認識することが望まれる。また、予め音
声を登録するといった面倒な作業をなくすことが望まれ
る。
【0009】参考技術として、特開平2−214990
号公報のパターン認識後処理方式では、認識結果の誤り
を過去にユーザが訂正した際に訂正規則が記憶される。
そして、この訂正規則を利用することにより、以降のパ
ターン認識結果の誤りが自動訂正される。しかしがら、
この従来技術では、単に、過去に行われた認識候補の入
れ替え実績と同じように今回の認識候補の入れ替え作業
が行われるのであって、だれの音声が入力されたかに関
わらず同じ自動訂正が行われる。従って、車両所有者の
ような特定人の音声の正確な認識結果を得るための的確
な訂正処理はできない。
号公報のパターン認識後処理方式では、認識結果の誤り
を過去にユーザが訂正した際に訂正規則が記憶される。
そして、この訂正規則を利用することにより、以降のパ
ターン認識結果の誤りが自動訂正される。しかしがら、
この従来技術では、単に、過去に行われた認識候補の入
れ替え実績と同じように今回の認識候補の入れ替え作業
が行われるのであって、だれの音声が入力されたかに関
わらず同じ自動訂正が行われる。従って、車両所有者の
ような特定人の音声の正確な認識結果を得るための的確
な訂正処理はできない。
【0010】本発明は上記課題に鑑みてなされたもので
あり、その目的は、使っていくうちに特定話者の音声を
認識する能力を向上でき、かつ、音声認識を効率よく行
える音声認識装置を提供することにある。
あり、その目的は、使っていくうちに特定話者の音声を
認識する能力を向上でき、かつ、音声認識を効率よく行
える音声認識装置を提供することにある。
【0011】
【課題を解決するための手段】(1)本発明の音声認識
装置は、発声入力された音声信号に基づいて入力音声パ
ターンを生成する音響処理手段と、前記入力音声パター
ンの認識処理により複数の認識候補を選定する認識処理
手段と、話者の判断に基づいて前記複数の認識候補の中
から正解候補を決定する正解候補決定手段と、正解候補
とその正解候補が選ばれたときの入力音声パターンとを
対応づけて記憶する正解記憶手段と、正解記憶手段に記
憶された過去の正解候補が今回の複数の認識候補の中に
ある場合に、その過去の正解候補に対応する入力音声パ
ターンと今回の入力音声パターンを比較して、比較結果
に基づいて認識候補の調整処理を行う候補調整手段と、
を含む。候補調整手段は、好ましくは、過去の正解候補
に対応する入力音声パターンと今回の入力音声パターン
との一致度を求め、所定の一致度が得られる場合に、前
記過去の正解候補を、前記複数の認識候補の中の優先候
補に定める。ここで、一致度は、例えば、2つの入力音
声パターンの類似度である。類似度は、周知のように、
2つのパターンの距離や尤度、それらに基づく認識得点
などによって表される。
装置は、発声入力された音声信号に基づいて入力音声パ
ターンを生成する音響処理手段と、前記入力音声パター
ンの認識処理により複数の認識候補を選定する認識処理
手段と、話者の判断に基づいて前記複数の認識候補の中
から正解候補を決定する正解候補決定手段と、正解候補
とその正解候補が選ばれたときの入力音声パターンとを
対応づけて記憶する正解記憶手段と、正解記憶手段に記
憶された過去の正解候補が今回の複数の認識候補の中に
ある場合に、その過去の正解候補に対応する入力音声パ
ターンと今回の入力音声パターンを比較して、比較結果
に基づいて認識候補の調整処理を行う候補調整手段と、
を含む。候補調整手段は、好ましくは、過去の正解候補
に対応する入力音声パターンと今回の入力音声パターン
との一致度を求め、所定の一致度が得られる場合に、前
記過去の正解候補を、前記複数の認識候補の中の優先候
補に定める。ここで、一致度は、例えば、2つの入力音
声パターンの類似度である。類似度は、周知のように、
2つのパターンの距離や尤度、それらに基づく認識得点
などによって表される。
【0012】本発明では、複数の認識候補の中から正解
候補が決定されると、その正解候補と入力音声パターン
が対応づけて記憶される。その後の発声入力時に選定さ
れた複数の認識候補の中に、上記の過去の正解候補が存
在したとする。このとき、その過去の正解候補に対応す
る入力音声パターンと今回の入力音声パターンが比較さ
れる。同一話者により同一単語が発声された場合には、
比較対象の両入力音声パターン同士は顕著に類似する。
従って、上記の過去の正解候補が今回の正解候補でもあ
るか否かの判断を非常に正確に行うことができ、この判
断に基づいて認識候補の調整処理が行われる。例えば、
上述の如く、所定の一致度が得られた場合に、過去の正
解候補を今回の優先候補にする。また例えば、所定の一
致度が得られなければ、過去の正解候補が、今回の認識
候補から除外されてもよい。
候補が決定されると、その正解候補と入力音声パターン
が対応づけて記憶される。その後の発声入力時に選定さ
れた複数の認識候補の中に、上記の過去の正解候補が存
在したとする。このとき、その過去の正解候補に対応す
る入力音声パターンと今回の入力音声パターンが比較さ
れる。同一話者により同一単語が発声された場合には、
比較対象の両入力音声パターン同士は顕著に類似する。
従って、上記の過去の正解候補が今回の正解候補でもあ
るか否かの判断を非常に正確に行うことができ、この判
断に基づいて認識候補の調整処理が行われる。例えば、
上述の如く、所定の一致度が得られた場合に、過去の正
解候補を今回の優先候補にする。また例えば、所定の一
致度が得られなければ、過去の正解候補が、今回の認識
候補から除外されてもよい。
【0013】以上より、本発明によれば、ある話者が音
声認識装置を使っているうちに、その話者についての過
去の正解候補と入力音声パターンが蓄積される。そし
て、蓄積された学習データに基づいて、その話者の音声
の認識が高精度に行われる。従って、ある話者が本発明
の音声認識装置を使っているうちに、その話者の音声を
認識する能力を向上することが可能となる。その結果、
車両などのように、主として特定のユーザに使われる
が、それ以外のユーザも使うといった使用条件に適応す
る、好適な音声認識装置を実現できる。また、予めユー
ザによる音声登録作業がなくとも、そのユーザの音声を
認識する能力が、従来の特定話者タイプ装置と同等かそ
れ以上に高くなるように図ることができる。
声認識装置を使っているうちに、その話者についての過
去の正解候補と入力音声パターンが蓄積される。そし
て、蓄積された学習データに基づいて、その話者の音声
の認識が高精度に行われる。従って、ある話者が本発明
の音声認識装置を使っているうちに、その話者の音声を
認識する能力を向上することが可能となる。その結果、
車両などのように、主として特定のユーザに使われる
が、それ以外のユーザも使うといった使用条件に適応す
る、好適な音声認識装置を実現できる。また、予めユー
ザによる音声登録作業がなくとも、そのユーザの音声を
認識する能力が、従来の特定話者タイプ装置と同等かそ
れ以上に高くなるように図ることができる。
【0014】さらに、本発明によれば、上述のように、
過去と今回の入力音声パターンのマッチングの前に、今
回の認識候補の中に過去の正解候補が存在するか否かが
判断されている。存在する場合に、その過去の正解候補
に対応する入力音声パターンと今回の入力音声パターン
のマッチングが行われる。このように、記憶してある過
去の入力音声パターンから、比較対象となるべき入力音
声パターンが絞り込まれる。今回の入力音声パターン
を、記憶してある過去の入力音声パターンのすべてと個
別に比較するといったような無駄かつ膨大な処理は行わ
れない。また、今回の認識候補の中に過去の正解候補が
なければ、マッチングは行われない。このように、必要
なマッチングのみが行われ、不要なマッチングが行われ
ず、従って、処理の無駄が省かれ、簡単な処理で短時間
に認識候補の調整処理を行うことができる。
過去と今回の入力音声パターンのマッチングの前に、今
回の認識候補の中に過去の正解候補が存在するか否かが
判断されている。存在する場合に、その過去の正解候補
に対応する入力音声パターンと今回の入力音声パターン
のマッチングが行われる。このように、記憶してある過
去の入力音声パターンから、比較対象となるべき入力音
声パターンが絞り込まれる。今回の入力音声パターン
を、記憶してある過去の入力音声パターンのすべてと個
別に比較するといったような無駄かつ膨大な処理は行わ
れない。また、今回の認識候補の中に過去の正解候補が
なければ、マッチングは行われない。このように、必要
なマッチングのみが行われ、不要なマッチングが行われ
ず、従って、処理の無駄が省かれ、簡単な処理で短時間
に認識候補の調整処理を行うことができる。
【0015】
【発明の実施の形態】以下、本発明の好適な実施の形態
(以下、実施形態という)について、図面を参照し説明
する。本実施形態では、不特定話者用の音声認識装置に
本発明が適用されている。また、本実施形態では、一例
として、単語認識が行われる。
(以下、実施形態という)について、図面を参照し説明
する。本実施形態では、不特定話者用の音声認識装置に
本発明が適用されている。また、本実施形態では、一例
として、単語認識が行われる。
【0016】図1は、本実施形態の音声認識装置の構成
を示すブロック図である。話者がマイク10に向かって
発声すると、マイク10からの入力音声信号は、A/D
コンバータ12でデジタル信号に変換され、音響処理部
14に入力される。音響処理部14では、音響分析が行
われ、特徴パラメータ(ケプストラム等)の入力音声パ
ターンが生成される。生成された入力音声パターンは、
特徴パラメータ登録部16に格納される。特徴パラメー
タ登録部16は、RAM等の記憶手段であり、入力音声
パターンを一時的に記憶する。
を示すブロック図である。話者がマイク10に向かって
発声すると、マイク10からの入力音声信号は、A/D
コンバータ12でデジタル信号に変換され、音響処理部
14に入力される。音響処理部14では、音響分析が行
われ、特徴パラメータ(ケプストラム等)の入力音声パ
ターンが生成される。生成された入力音声パターンは、
特徴パラメータ登録部16に格納される。特徴パラメー
タ登録部16は、RAM等の記憶手段であり、入力音声
パターンを一時的に記憶する。
【0017】また、音響処理部14は、入力音声パター
ンを認識処理部18に供給する。認識処理部18では、
入力音声パターンと標準パターンとのパターンマッチン
グが行われる。ここでは、HMMを使ったマッチング処
理が行われる。HMMは、確率手法を採用しており、話
者の個人差に起因する入力信号の変化に強く、不特定話
者の音声の認識に適する。認識用辞書記憶部20には、
認識対象の複数の単語データが記憶されている。入力音
声パターンと各単語のマッチングが個別に行われ、マッ
チング結果が最もよい単語が第1位の認識候補に選定さ
れる。さらに下位の認識候補(単語)が、マッチングの
よい順に選定される。本実施形態では、所定の順位、例
えば10位までの認識候補が選定される。
ンを認識処理部18に供給する。認識処理部18では、
入力音声パターンと標準パターンとのパターンマッチン
グが行われる。ここでは、HMMを使ったマッチング処
理が行われる。HMMは、確率手法を採用しており、話
者の個人差に起因する入力信号の変化に強く、不特定話
者の音声の認識に適する。認識用辞書記憶部20には、
認識対象の複数の単語データが記憶されている。入力音
声パターンと各単語のマッチングが個別に行われ、マッ
チング結果が最もよい単語が第1位の認識候補に選定さ
れる。さらに下位の認識候補(単語)が、マッチングの
よい順に選定される。本実施形態では、所定の順位、例
えば10位までの認識候補が選定される。
【0018】認識処理部18は、選定された認識候補
を、入力音声パターンとともに関連記憶判定部22に送
る。関連記憶判定部22および関連記憶部24は、それ
ぞれ、本発明の候補調整手段および正解記憶手段に相当
する。関連記憶判定部22は、関連記憶部24に記憶さ
れた過去の蓄積データを用いて、後述するように認識候
補の調整処理を行う。
を、入力音声パターンとともに関連記憶判定部22に送
る。関連記憶判定部22および関連記憶部24は、それ
ぞれ、本発明の候補調整手段および正解記憶手段に相当
する。関連記憶判定部22は、関連記憶部24に記憶さ
れた過去の蓄積データを用いて、後述するように認識候
補の調整処理を行う。
【0019】調整後の認識候補は、正解情報取得部26
に送られる。正解情報取得部26は、話者の判断に基づ
いて、選定された複数の認識候補の中から正解候補を決
定する。この際、出力手段としてのスピーカ28やディ
スプレイ30、入力手段としての操作スイッチ32が、
適宜、利用される。例えば、正解情報取得部26は、ス
ピーカ28を用いて第1位の認識候補を話者に伝え(ト
ークバック)、話者の反応(操作スイッチ32の操作)
を待つ。話者は、第1位の認識候補が正解であると判断
したときは、反応を示さない。そこで、反応がなけれ
ば、第1位の認識候補がそのまま正解候補に定められ
る。また、反応があれば、他の認識候補がディスプレイ
30に表示される。話者は、操作スイッチ32を使っ
て、正解の認識候補を選ぶ。選ばれた認識候補が、正解
候補に決定される。このようにして、話者の判断に基づ
いて正解候補が決定される。なお、正解情報を取得する
ための手段には、上記の例の他に、任意の適当な周知の
手段を適用可能である。適切な取得手段は、音声認識装
置を設ける機器によっても異なる。
に送られる。正解情報取得部26は、話者の判断に基づ
いて、選定された複数の認識候補の中から正解候補を決
定する。この際、出力手段としてのスピーカ28やディ
スプレイ30、入力手段としての操作スイッチ32が、
適宜、利用される。例えば、正解情報取得部26は、ス
ピーカ28を用いて第1位の認識候補を話者に伝え(ト
ークバック)、話者の反応(操作スイッチ32の操作)
を待つ。話者は、第1位の認識候補が正解であると判断
したときは、反応を示さない。そこで、反応がなけれ
ば、第1位の認識候補がそのまま正解候補に定められ
る。また、反応があれば、他の認識候補がディスプレイ
30に表示される。話者は、操作スイッチ32を使っ
て、正解の認識候補を選ぶ。選ばれた認識候補が、正解
候補に決定される。このようにして、話者の判断に基づ
いて正解候補が決定される。なお、正解情報を取得する
ための手段には、上記の例の他に、任意の適当な周知の
手段を適用可能である。適切な取得手段は、音声認識装
置を設ける機器によっても異なる。
【0020】決定された正解候補は、認識結果として出
力され、音声認識装置と接続された他の機器に送られ
る。また、正解候補は、関連記憶部24に送られる。関
連記憶部24には、さらに、特徴パラメータ登録部16
から、入力音声パターンが送られる。関連記憶部24
は、正解候補と入力音声パターンとを対応づけて記憶す
る。すなわち、関連記憶部24内では、過去の正解候補
と、その正解候補に関する処理対象であった入力音声パ
ターンとが、学習データとして、1対1で対応してい
る。
力され、音声認識装置と接続された他の機器に送られ
る。また、正解候補は、関連記憶部24に送られる。関
連記憶部24には、さらに、特徴パラメータ登録部16
から、入力音声パターンが送られる。関連記憶部24
は、正解候補と入力音声パターンとを対応づけて記憶す
る。すなわち、関連記憶部24内では、過去の正解候補
と、その正解候補に関する処理対象であった入力音声パ
ターンとが、学習データとして、1対1で対応してい
る。
【0021】次に、関連記憶判定部22の機能について
説明する。関連記憶判定部22には、認識処理部18で
選定された複数の認識候補が入力される。関連記憶判定
部22は、この複数の認識候補の中に、すでに学習して
ある候補があるかないか、すなわち関連記憶部24に記
憶された過去の正解候補があるか否かを判断する。正解
候補がある場合には、その正解候補に対応する過去の入
力音声パターンを関連記憶部24から読み出す。そし
て、過去の入力音声パターンと今回の入力音声パターン
のマッチングが行われ、両パターンの類似度が求められ
る。類似度は、本発明の一致度に対応し、周知のよう
に、2つのパターンの距離や尤度、それらに基づく認識
得点などによって表される。同一話者により、学習済み
の単語と同一の単語が発声された場合には、顕著に高い
類似度が得られるはずである。そこで、この顕著に高い
類似度を想定して、所定の判断基準値が設定されてい
る。関連記憶判定部22は、算出された類似度が判断基
準値以上であるか否かを判定する。
説明する。関連記憶判定部22には、認識処理部18で
選定された複数の認識候補が入力される。関連記憶判定
部22は、この複数の認識候補の中に、すでに学習して
ある候補があるかないか、すなわち関連記憶部24に記
憶された過去の正解候補があるか否かを判断する。正解
候補がある場合には、その正解候補に対応する過去の入
力音声パターンを関連記憶部24から読み出す。そし
て、過去の入力音声パターンと今回の入力音声パターン
のマッチングが行われ、両パターンの類似度が求められ
る。類似度は、本発明の一致度に対応し、周知のよう
に、2つのパターンの距離や尤度、それらに基づく認識
得点などによって表される。同一話者により、学習済み
の単語と同一の単語が発声された場合には、顕著に高い
類似度が得られるはずである。そこで、この顕著に高い
類似度を想定して、所定の判断基準値が設定されてい
る。関連記憶判定部22は、算出された類似度が判断基
準値以上であるか否かを判定する。
【0022】類似度が所定値未満であれば、「比較対象
に選ばれた過去の正解候補が今回の正解候補である可能
性は低い」、と判断される。そこで、認識候補の順位の
変更を行うことなく、認識候補を正解情報取得部26に
送る。
に選ばれた過去の正解候補が今回の正解候補である可能
性は低い」、と判断される。そこで、認識候補の順位の
変更を行うことなく、認識候補を正解情報取得部26に
送る。
【0023】一方、類似度が判断基準値以上であれば、
「比較対象に選ばれた過去の正解候補は今回の正解候補
でもある可能性が高い」、と判断される。そこで、その
過去の正解候補の単語を、今回の第1位の認識候補にす
る。今回の認識候補セットの中に複数の過去の正解候補
が存在し、そして、複数の正解候補についての類似度が
判定基準値を越えることがあり得る。この場合には、類
似度の高さに応じて、新しい順位が定められる。このよ
うに、本実施形態では、認識候補の調整処理として、判
断基準値以上の類似度が得られた場合に、該当する単語
が優先候補(順位の高い候補)とされる。そして、優先
候補の順位を上げるように候補順位の入れ替えが行われ
た後、認識候補が正解情報取得部26に送られる。
「比較対象に選ばれた過去の正解候補は今回の正解候補
でもある可能性が高い」、と判断される。そこで、その
過去の正解候補の単語を、今回の第1位の認識候補にす
る。今回の認識候補セットの中に複数の過去の正解候補
が存在し、そして、複数の正解候補についての類似度が
判定基準値を越えることがあり得る。この場合には、類
似度の高さに応じて、新しい順位が定められる。このよ
うに、本実施形態では、認識候補の調整処理として、判
断基準値以上の類似度が得られた場合に、該当する単語
が優先候補(順位の高い候補)とされる。そして、優先
候補の順位を上げるように候補順位の入れ替えが行われ
た後、認識候補が正解情報取得部26に送られる。
【0024】図2は、上記に説明した認識候補調整処理
の具体例を示している。ある話者が「トヨタ」と発声し
たとき、その話者の話し方の特性に起因して、認識処理
部18では「トヨダ」が第1候補に、「トヨタ」は第3
候補に選ばれるとする。従来は、毎回、同様の誤認識が
行われるので、話者は、第3候補を正解候補として選択
する作業を行わなければならない。本実施形態では、す
でに、以前の発声入力の際に、正解候補「トヨタ」と入
力音声パターンが関連記憶部24に記憶されている。そ
こで、今回の入力音声パターンと過去の入力音声パター
ンのマッチングが行われる。同じ話者が「トヨタ」と言
った場合には高い類似度が得られるので、順位の入れ替
えが行われ、「トヨタ」が第1位を獲得する。正解情報
取得部26は、最初から正解の「トヨタ」を第1候補と
して話者に提示できる。なお、他の話者の発声では、同
一話者の発声の場合のような高い類似度は得られないの
で、従って、他の話者の発声時の安易な候補順位の入れ
替えは回避される。
の具体例を示している。ある話者が「トヨタ」と発声し
たとき、その話者の話し方の特性に起因して、認識処理
部18では「トヨダ」が第1候補に、「トヨタ」は第3
候補に選ばれるとする。従来は、毎回、同様の誤認識が
行われるので、話者は、第3候補を正解候補として選択
する作業を行わなければならない。本実施形態では、す
でに、以前の発声入力の際に、正解候補「トヨタ」と入
力音声パターンが関連記憶部24に記憶されている。そ
こで、今回の入力音声パターンと過去の入力音声パター
ンのマッチングが行われる。同じ話者が「トヨタ」と言
った場合には高い類似度が得られるので、順位の入れ替
えが行われ、「トヨタ」が第1位を獲得する。正解情報
取得部26は、最初から正解の「トヨタ」を第1候補と
して話者に提示できる。なお、他の話者の発声では、同
一話者の発声の場合のような高い類似度は得られないの
で、従って、他の話者の発声時の安易な候補順位の入れ
替えは回避される。
【0025】なお、本実施形態では、関連記憶判定部2
2において、DP法に従ったパターンマッチングが行わ
れる。DP法は、同一話者により発声された2つの音声
信号の比較に適しているからである。ただし、ここでの
マッチングには、DP法に限られず、任意のマッチング
手法、例えばHMMを適用可能である。
2において、DP法に従ったパターンマッチングが行わ
れる。DP法は、同一話者により発声された2つの音声
信号の比較に適しているからである。ただし、ここでの
マッチングには、DP法に限られず、任意のマッチング
手法、例えばHMMを適用可能である。
【0026】次に、図3を参照し、本実施形態の音声認
識処理フローを説明する。音響処理部14により、入力
音声信号に対する音響分析が行われ、特徴パターンの入
力音声パターンが生成される(S10)。この入力音声
パターンは、認識処理部18に供給されるとともに、特
徴パラメータ登録部16に登録される(S12)。認識
処理部18は、入力音声パターンの認識処理を行って、
認識候補を選定する(S14)。そして、関連記憶判定
部22は、選定された複数の認識候補の中に、関連記憶
された過去の正解候補があるか否かが判定される(S1
6)。過去の正解候補が存在しなければ、S20へ進
む。過去の正解候補が存在すれば、関連記憶した特徴パ
ラメータの入力音声パターンが、今回の入力音声パター
ンと比較される(S18)。比較結果の類似度に基づい
て、前述のように候補の順位が入れ替えられる。このよ
うな調整処理後の認識候補を用いて、正解情報を取得す
るための処理が行われる(S20)。ここでは、正解情
報取得部26により、前述したように、正解候補を決定
するための処理が行われる。そして、正解情報が得られ
たか否かが判断される(S22)。例えば、話者のキャ
ンセル操作によって音声入力が中止されたり、リセット
操作によって始めから音声入力がやり直される場合に
は、正解情報が得られない。このような場合には、処理
が終了する。正解情報が取得された場合、この正解情報
は関連記憶部24に送られる。そして、特徴パラメータ
のパターンと関連づけて、正解候補が記憶される(S2
4)。なお、すでに、同じ正解候補とその候補に対応す
る入力音声パターンが記憶されていることがしばしばあ
る。この場合には、正解候補および入力音声パターンが
更新される。そして、正解情報取得部26により決定さ
れた正解候補は、認識結果として出力される(S2
6)。
識処理フローを説明する。音響処理部14により、入力
音声信号に対する音響分析が行われ、特徴パターンの入
力音声パターンが生成される(S10)。この入力音声
パターンは、認識処理部18に供給されるとともに、特
徴パラメータ登録部16に登録される(S12)。認識
処理部18は、入力音声パターンの認識処理を行って、
認識候補を選定する(S14)。そして、関連記憶判定
部22は、選定された複数の認識候補の中に、関連記憶
された過去の正解候補があるか否かが判定される(S1
6)。過去の正解候補が存在しなければ、S20へ進
む。過去の正解候補が存在すれば、関連記憶した特徴パ
ラメータの入力音声パターンが、今回の入力音声パター
ンと比較される(S18)。比較結果の類似度に基づい
て、前述のように候補の順位が入れ替えられる。このよ
うな調整処理後の認識候補を用いて、正解情報を取得す
るための処理が行われる(S20)。ここでは、正解情
報取得部26により、前述したように、正解候補を決定
するための処理が行われる。そして、正解情報が得られ
たか否かが判断される(S22)。例えば、話者のキャ
ンセル操作によって音声入力が中止されたり、リセット
操作によって始めから音声入力がやり直される場合に
は、正解情報が得られない。このような場合には、処理
が終了する。正解情報が取得された場合、この正解情報
は関連記憶部24に送られる。そして、特徴パラメータ
のパターンと関連づけて、正解候補が記憶される(S2
4)。なお、すでに、同じ正解候補とその候補に対応す
る入力音声パターンが記憶されていることがしばしばあ
る。この場合には、正解候補および入力音声パターンが
更新される。そして、正解情報取得部26により決定さ
れた正解候補は、認識結果として出力される(S2
6)。
【0027】以上、本発明の好適な実施形態を説明し
た。以上に説明したように、本実施形態によれば、ある
話者が音声認識装置を使っているうちに、その話者につ
いての音声認識能力が向上する。従って、主として特定
のユーザに使われるが、それ以外のユーザにも使われる
といった使用条件に適応する、好適な音声認識装置を実
現できる。また、予めユーザによる音声登録作業がなく
とも、そのユーザの音声を認識する能力が、従来の特定
話者タイプ同等かそれ以上に高くなるように図ることが
できる。なお、従来以上の精度向上の理由は、同一話者
の同一単語についての判定を行っているからである。
た。以上に説明したように、本実施形態によれば、ある
話者が音声認識装置を使っているうちに、その話者につ
いての音声認識能力が向上する。従って、主として特定
のユーザに使われるが、それ以外のユーザにも使われる
といった使用条件に適応する、好適な音声認識装置を実
現できる。また、予めユーザによる音声登録作業がなく
とも、そのユーザの音声を認識する能力が、従来の特定
話者タイプ同等かそれ以上に高くなるように図ることが
できる。なお、従来以上の精度向上の理由は、同一話者
の同一単語についての判定を行っているからである。
【0028】また、本実施形態によれば、関連記憶判定
部22は、今回の認識候補の中に過去の正解候補が存在
するか否かを判断する。正解候補が見つかったら、その
候補に対応する過去の入力音声パターンが今回の入力音
声パターンと比較される。このように、比較対象となる
べき過去の入力音声パターンの選抜が行われる。記憶し
てある過去の入力音声パターンのすべてを比較対象にす
るような無駄かつ膨大な処理は行われない。また、今回
の認識候補の中に過去の正解候補がなければ、マッチン
グは行われない。以上より、必要なマッチングのみが行
われ、不要なマッチングが行われず、従って、処理の無
駄が省かれ、簡単な処理で短時間に認識候補の調整処理
を行うことができる。
部22は、今回の認識候補の中に過去の正解候補が存在
するか否かを判断する。正解候補が見つかったら、その
候補に対応する過去の入力音声パターンが今回の入力音
声パターンと比較される。このように、比較対象となる
べき過去の入力音声パターンの選抜が行われる。記憶し
てある過去の入力音声パターンのすべてを比較対象にす
るような無駄かつ膨大な処理は行われない。また、今回
の認識候補の中に過去の正解候補がなければ、マッチン
グは行われない。以上より、必要なマッチングのみが行
われ、不要なマッチングが行われず、従って、処理の無
駄が省かれ、簡単な処理で短時間に認識候補の調整処理
を行うことができる。
【0029】以下、本実施形態の変形例を説明する。
【0030】(1)音声認識装置の認識対象は、単語に
限られない。例えば、文、文字、数字など、なんでもよ
い。
限られない。例えば、文、文字、数字など、なんでもよ
い。
【0031】(2)認識処理部18や関連記憶判定部2
2のマッチング処理は、HMMやDP法には限定され
ず、他の任意の手法を適用してよい。関連記憶判定部2
2にHMMを採用することも、認識処理部18にDP法
を採用することも可能である。
2のマッチング処理は、HMMやDP法には限定され
ず、他の任意の手法を適用してよい。関連記憶判定部2
2にHMMを採用することも、認識処理部18にDP法
を採用することも可能である。
【0032】(3)例えば、車両用の音声認識装置を考
えると、複数の所有者により交代で車両が使われること
がある。例えば、家族の何人かが車両を使う場合であ
る。このような場合には、関連記憶部24は、それぞれ
の話者についての蓄積データを別々に構築することが好
ましい。例えば、その時々のドライバーが識別され、そ
のドライバー用の記憶領域に正解候補や音声パターンが
格納される。ドライバーは、任意の手法で識別されてよ
く、音声パターンに基づいて識別されてもよい。同じ正
解候補に対応する音声パターンでも、ドライバーによっ
てパターンが異なる。この変形は、車両以外に認識装置
が適用された場合にも、もちろん、同様に適用可能であ
る。
えると、複数の所有者により交代で車両が使われること
がある。例えば、家族の何人かが車両を使う場合であ
る。このような場合には、関連記憶部24は、それぞれ
の話者についての蓄積データを別々に構築することが好
ましい。例えば、その時々のドライバーが識別され、そ
のドライバー用の記憶領域に正解候補や音声パターンが
格納される。ドライバーは、任意の手法で識別されてよ
く、音声パターンに基づいて識別されてもよい。同じ正
解候補に対応する音声パターンでも、ドライバーによっ
てパターンが異なる。この変形は、車両以外に認識装置
が適用された場合にも、もちろん、同様に適用可能であ
る。
【0033】(4)特定話者用の音声認識装置に本発明
が適用されてもよい。従来の特定話者用の音声認識装置
では、予め基準単語の発声により話者の音声の特徴を登
録することが必要であった。本実施形態によれば、その
ような登録作業を行わなくともよい。
が適用されてもよい。従来の特定話者用の音声認識装置
では、予め基準単語の発声により話者の音声の特徴を登
録することが必要であった。本実施形態によれば、その
ような登録作業を行わなくともよい。
【0034】(5)図1に示した各構成の機能は、ハー
ドウェアによって実現されてもよく、ソフトウェアによ
って実現されてもよい。
ドウェアによって実現されてもよく、ソフトウェアによ
って実現されてもよい。
【図1】 本発明の実施形態の音声認識装置の構成を示
すブロック図である。
すブロック図である。
【図2】 認識候補の調整処理による順位の入れ替えの
例を示す図である。
例を示す図である。
【図3】 図1の装置の音声認識処理のフローチャート
である。
である。
14 音響処理部、16 特徴パラメータ登録部、18
認識処理部、20認識用辞書記憶部、22 関連記憶
判定部、24 関連記憶部、26 正解情報取得部、2
8 スピーカ、30 ディスプレイ、32 操作スイッ
チ。
認識処理部、20認識用辞書記憶部、22 関連記憶
判定部、24 関連記憶部、26 正解情報取得部、2
8 スピーカ、30 ディスプレイ、32 操作スイッ
チ。
Claims (2)
- 【請求項1】 発声入力された音声信号に基づいて入力
音声パターンを生成する音響処理手段と、 前記入力音声パターンの認識処理により複数の認識候補
を選定する認識処理手段と、 話者の判断に基づいて前記複数の認識候補の中から正解
候補を決定する正解候補決定手段と、 正解候補とその正解候補が選ばれたときの入力音声パタ
ーンとを対応づけて記憶する正解記憶手段と、 正解記憶手段に記憶された過去の正解候補が今回の複数
の認識候補の中にある場合に、その過去の正解候補に対
応する入力音声パターンと今回の入力音声パターンを比
較して、比較結果に基づいて認識候補の調整処理を行う
候補調整手段と、 を含むことを特徴とする音声認識装置。 - 【請求項2】 請求項1に記載の装置において、 前記候補調整手段は、過去の正解候補に対応する入力音
声パターンと今回の入力音声パターンとの一致度を求
め、所定の一致度が得られる場合に、前記過去の正解候
補を、前記複数の認識候補の中の優先候補に定めること
を特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31562697A JPH11149295A (ja) | 1997-11-17 | 1997-11-17 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31562697A JPH11149295A (ja) | 1997-11-17 | 1997-11-17 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11149295A true JPH11149295A (ja) | 1999-06-02 |
Family
ID=18067636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP31562697A Pending JPH11149295A (ja) | 1997-11-17 | 1997-11-17 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11149295A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7627474B2 (en) | 2006-02-09 | 2009-12-01 | Samsung Electronics Co., Ltd. | Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons |
JP2011232668A (ja) * | 2010-04-30 | 2011-11-17 | Clarion Co Ltd | 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法 |
CN104967771A (zh) * | 2015-04-30 | 2015-10-07 | 广东欧珀移动通信有限公司 | 一种控制摄像头的方法及移动终端 |
-
1997
- 1997-11-17 JP JP31562697A patent/JPH11149295A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7627474B2 (en) | 2006-02-09 | 2009-12-01 | Samsung Electronics Co., Ltd. | Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons |
JP2011232668A (ja) * | 2010-04-30 | 2011-11-17 | Clarion Co Ltd | 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法 |
CN104967771A (zh) * | 2015-04-30 | 2015-10-07 | 广东欧珀移动通信有限公司 | 一种控制摄像头的方法及移动终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4709663B2 (ja) | ユーザ適応型の音声認識方法及び音声認識装置 | |
JP3943492B2 (ja) | ディクテーションとコマンドの区別を向上させる方法 | |
US7228275B1 (en) | Speech recognition system having multiple speech recognizers | |
EP0965978B9 (en) | Non-interactive enrollment in speech recognition | |
US7089184B2 (en) | Speech recognition for recognizing speaker-independent, continuous speech | |
JP3826032B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US6836758B2 (en) | System and method for hybrid voice recognition | |
EP1739546A2 (en) | Automobile interface | |
EP2051241B1 (en) | Speech dialog system with play back of speech output adapted to the user | |
EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
US20070156405A1 (en) | Speech recognition system | |
KR20100083572A (ko) | 신호처리장치 및 신호처리장치에서의 음성 인식 방법 | |
EP1525577B1 (en) | Method for automatic speech recognition | |
JPH0876785A (ja) | 音声認識装置 | |
WO2005004111A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
JP2002358096A (ja) | リストからの一パターンの一実現変形例にそれぞれが厳密に関連付けられたパターン認識システムのパラメータを訓練する方法及びシステム | |
US20030216918A1 (en) | Voice recognition apparatus and voice recognition program | |
JPH11149294A (ja) | 音声認識装置および音声認識方法 | |
JPH11149295A (ja) | 音声認識装置 | |
US7003465B2 (en) | Method for speech recognition, apparatus for the same, and voice controller | |
JPH06214596A (ja) | 音声認識装置および話者適応化方法 | |
JP3112037B2 (ja) | 音声認識装置 | |
US7231352B2 (en) | Method for computer-supported speech recognition, speech recognition system and control device for controlling a technical system and telecommunications device | |
JP2004046106A (ja) | 音声認識装置及び音声認識プログラム | |
JP2003263193A (ja) | 音声認識システムで話者の交代を自動検出する方法 |