JP4282354B2 - Voice recognition device - Google Patents
Voice recognition device Download PDFInfo
- Publication number
- JP4282354B2 JP4282354B2 JP2003087565A JP2003087565A JP4282354B2 JP 4282354 B2 JP4282354 B2 JP 4282354B2 JP 2003087565 A JP2003087565 A JP 2003087565A JP 2003087565 A JP2003087565 A JP 2003087565A JP 4282354 B2 JP4282354 B2 JP 4282354B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- recognition
- recognition result
- dictionary
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、ユーザからの入力音声に対して、辞書を用いて単語認識を行う音声認識装置に関し、特に、ユーザからの入力音声に対して単語認識および音素認識を行い、これらの認識結果に基づいた音声認識を行うことで認識率を向上した音声認識装置に関する。
【0002】
【従来の技術】
人間の話した音声を言葉として認識する音声認識装置が各種方面で実用化されている。この音声認識装置は、例えば、工場における各種装置に対応する指示をはなれた場所から音声で指示する入力装置として実用化されており、また、自動車のナビゲーション装置において、目的地や指示情報等を音声入力する場合の音声入力装置としても実用化されている。このような音声認識装置では、一般に入力された音声を特定するために、予め認識対象となる音声の周波数分布を分析することで、例えば、スペクトルや基本周波数の時系列情報等を特徴として抽出し、そのパターンを各単語に対応させて格納する音声認識用単語辞書を備えている。
【0003】
認識するべき音声が入力されると、入力された音声の周波数パターンと辞書に格納された各単語のパターンをパターンマッチングにより比較照合し、各単語に対する類似度を算出する。つぎに算出された類似度が最も高い単語(パターンが最も近い単語)を、入力された音声であると認識し、その単語を出力するようにしている。つまり、入力された単語の周波数分布のパターンがどの単語パターンに最もよく似ているかを調べることによって、入力音声を判定している。
【0004】
このような音声認識において、さらに、出力された認識結果に対する話者からの応答に基づいて一致率の履歴を更新し、より一層認識率を高めた音声認識装置が提案されている(特許文献1参照)。
【0005】
【特許文献1】
特開平8−160986号公報
【0006】
【発明が解決しようとする課題】
このような単語認識に基づく音声認識は、特に、カーナビゲーション装置等において音声に基づいたコマンド入力時に利用されている。このような音声認識においては、特定の単語が認識されにくい状況や、誤認識されやすい状況等が生じるが、これらの状況は、類似した単語が辞書に登録されている場合に特に生じやすい。従って、このような状況は、辞書に登録する単語が類似しないように選定することによりある程度回避することができるが、認識結果は話者により異なることから、多くの話者についてテストを行い、単語の登録と削除を繰り返す等、時間をかけて辞書の最適化を行う必要があり、実用的な使用に適した、高認識率を有する音声認識装置が望まれている。
【0007】
そこで、本発明の目的は、単語認識用辞書の最適化を行うことにより、単語認識の性能を向上させ、音声認識の認識率を高めた音声認識装置を提供することにある。
【0008】
【課題を解決するための手段】
以上の目的を達成するために、請求項1記載の発明は、ユーザからの入力音声に対して、辞書を用いて単語認識を行う音声認識装置であって、入力音声に対して単語認識と音素認識とを行い、これにより得られた単語認識結果と音素認識結果とが不一致であり、かつ、当該単語認識結果が正解である場合であって、かつ、当該音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、他の単語に対する類似度との関係が所定の条件を満たす場合に、当該音素認識結果を、当該正解となる単語認識結果に対応する単語に対する同義語として辞書へ登録することを特徴とする。
【0009】
また、請求項2記載の発明は、前記所定の条件とは、前記音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、前記他の単語に対する類似度との差が所定値以上であることを特徴とする。
【0010】
また、請求項3記載の発明は、前記所定の条件とは、前記音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、前記他の単語に対する類似度との比が所定値以上であることを特徴とする。
【0011】
また、請求項4記載の発明は、前記同義語と認識された前記音素認識結果が、同じ単語認識結果の同義語として所定回数または所定確率で認識された場合に、当該同義語を前記辞書に登録することを特徴とする。
【0012】
また、請求項5記載の発明は、当該辞書に複数個の同義語が存在する場合に、単語認識時における、前記辞書に登録された同義語毎の検索回数と正解回数とを計数し、当該同義語が正解となる確率が所定値を下回ったときに、当該同義語を前記辞書より削除することを特徴とする。
【0013】
また、請求項6記載の発明は、前記音声入力に基づいた単語認識の後に、前記ユーザによる操作が、あらかじめ定められた正解後の操作の候補と一致した場合に、当該単語認識結果を正解と判定することを特徴とする。
【0014】
また、請求項7記載の発明は、ユーザからの入力音声を入力する音声入力部と、前記入力音声に対して単語認識を行う単語認識部と、前記入力音声に対して音素認識とを行う音素認識部と、前記単語認識部により得られた単語認識結果と、前記音素認識部により得られた音素認識結果との不一致であり、かつ、当該単語認識結果が正解である場合に、当該音素認識結果を、当該正解となる単語認識結果に対応する単語に対する同義語として辞書へ登録するかどうかを判定する辞書登録部とを備え、前記辞書登録部は、前記音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、前記他の単語に対する類似度との差が所定値以上または、前記音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、前記他の単語に対する類似度との比が所定値以上である場合に、当該音素認識結果を同義語として認識して仮登録し、さらに、同じ単語認識結果に対して前記同義語と認識された前記音素認識結果に対する仮登録回数を計数し、当該仮登録回数が所定値以上であった場合に、当該音素認識結果を辞書に登録し、次回の音声認識処理に利用することを特徴とする。
【0015】
【発明の実施の形態】
以下、本発明の実施態様による音声認識装置について説明する。
【0016】
図1は本実施態様の音声認識装置1の構成を示す機能ブロック図である。
【0017】
音声認識装置1は、制御部2,音声入力部3,単語認識部4、音素認識部5及び辞書管理部6から構成されている。制御部2は、例えばナビゲーション装置等の外部装置と接続されて、外部装置からの音声認識コマンド情報等を入力し、さらに、音声認識装置1における最終的な音声認識結果を外部装置に送信する。また、制御部2は音声認識装置全体の制御をも行っている。音声入力部3は、例えばマイク等から構成されており、制御部2による制御に基づいてユーザの音声を入力する。単語認識部4は、ユーザからの入力音声を単語を基本単位として認識処理し、入力音声に対する最適な単語を選択するものである。具体的には、辞書管理部6に備えられ、あらかじめ単語(単語モデル)が登録されている単語辞書を用いて、入力音声と単語辞書における候補(単語)との類似度を算出し、最も類似度の高い候補を選択することにより、入力音声を候補中の単語として認識する。さらに、音素認識部5は、ユーザからの入力音声を音素に分け、最も近い音素を選択することにより、入力音声を任意の文字列からなる単語として認識するものである。辞書管理部は、単語認識用の単語辞書を管理し、候補となる単語の登録、削除、統計等を行うものである。なお、上述した構成要素に加えて、音声認識結果等をユーザに表示する表示部をさらに設けていても良い。
【0018】
次に、上述した本実施態様の音声認識装置の動作について図2を参照して説明する。
【0019】
図2は本実施態様の音声認識装置の音声認識動作を示すフローチャートである。ここでは、例としてカーナビゲーション装置における音声認識装置について説明する。すなわち、図1における外部装置としてカーナビゲーション装置が用いられるが、本発明の音声認識装置はカーナビゲーション装置に限定されるものではなく、音声認識の必要なあらゆる装置に適応可能であることは言うまでもない。
【0020】
まず、制御部2はカーナビゲーション装置からの指示に従って、音声入力部3へ音声入力の指示を行う。制御部2からの指示に基づいて、音声入力部3はユーザからの入力音声を取得し、単語認識部4及び音素認識部5の各々へ入力音声を出力する(S1)。
【0021】
音声認識は、単語認識部4と音素認識部5での認識結果による総合的な判断に基づいて行われる。すなわち、入力音声に基づいて単語認識部4での単語認識結果と、音素認識部5での音素認識結果とが一致したかどうかが判断され、一致した場合は、これをユーザに表示して次の音声認識を行うが、一致していなければ本実施態様の同義語登録処理に移る。従って、本実施態様の同義語登録(辞書登録)処理は、単語認識結果と音素認識結果とが不一致であり、かつ、単語認識結果が正解の場合に行われる。
【0022】
さて、音声入力部3により入力音声が取得されると(S1)、単語認識部4および音素認識部5では、各々、音声入力部3からの入力音声に対して単語認識処理および音素認識処理を行う(S2)。具体的には、単語認識部4では、辞書管理部6に備えられている単語辞書を用いて、入力音声と単語辞書内の単語(単語モデル)とを比較し、これにより最も高い類似度を有する単語を単語認識結果として辞書管理部6へ出力する。なお、認識処理としては、入力音声に対する特徴抽出処理により得られた特徴データと、あらかじめ単語辞書に登録された単語の特徴データとの照合により入力音声の単語認識(照合)が行われている。また、音素認識部5では、入力音声を各音素に分けて、各音素毎に音素認識を行い、得られる単語を音素認識結果として辞書管理部6へ出力する。これらの単語認識処理と音素認識処理とは同時に並行して行われている。
【0023】
次に、辞書管理部6では、単語認識部4の単語認識結果が正解か否かの判定が行われる(S3)。以下に単語認識結果の正解判定について説明する。
【0024】
通常、カーナビゲーションの音声認識において、コマンドは階層化されており、走査には幾つかのステップが必要となる。従って、単語認識結果をユーザに通知した後、ユーザが続けて次の階層のコマンドの発話を行うか、あるいは、ユーザが次のステップの操作を行う等、その後の操作があらかじめ定められた正解後の操作の候補と一致した場合は、単語認識結果を正解と判定する(S3:Y)。一方、単語認識結果をユーザに通知した後、ユーザからもう一度同じ単語認識を行うか、あるいは、キャンセルの操作を行う等、その後の操作があらかじめ定められた正解後の操作の候補と一致しなかった場合には(S3:N)、単語認識結果を不正解と判定する。
【0025】
ここで、単語認識の判定の結果、単語認識結果が不正解の場合(S3:N)は、辞書管理部6は通常の辞書管理処理(S8)へ移行する。この場合、ユーザに音声認識処理の失敗を報知するエラーメッセージを出力するか、あるいは、再度の音声入力を催促する等して、単語認識処理が不正解である旨伝えてもよい。一方、単語認識結果が正解の場合(S3:Y)、すなわち、単語を基本単位とする音声認識が正解であった場合は、辞書管理部6は単語認識結果と音素認識結果による単語とが一致するか否かの判定を行う(S4)。
【0026】
判定の結果、単語認識結果と音素認識結果とが一致した場合(S4:Y)、辞書管理部6は辞書管理処理(S8)へ移行する。一方、単語認識結果と音素認識結果とが一致しなかった場合(S4:N)、辞書管理部6は音素結果が単語認識結果の同義語として適当であるかどうかの判定を行う(S5)。この判定処理は、具体的には、音素認識結果を単語として登録することによる他の単語への影響を調べることで行われる。単語認識の過程において得られた類似度において、音素認識結果に基づいて得られた単語の、ステップS3で正解と判定された単語に対する類似度と、他の単語に対する類似度との差もしくは比が所定の値を超えておれば、同義語として登録することによる他の単語への影響が小さいので、同義語として認識する(S5:Y)。
【0027】
判定の結果、同義語と認識されなかった場合(S5:N)、辞書管理部6は辞書管理処理(S8)へ移行する。一方、同義語と判定された場合(S5:Y)、同義語の辞書への登録の判定を行う(S6)。この登録の判定処理は以下のようにして行われる。
【0028】
ある同義語について、同じ単語認識結果(単語)の同義語と認識された回数をカウントしておく。回数が所定の値を超え、且つ、選択される確立が所定の値を超えたときに、単語認識結果の同義語として辞書へ登録する(S7)。
【0029】
次に、辞書管理部6は辞書管理処理(S8)を行い、この処理を終了する。辞書管理(S8)は、単語認識の結果から単語毎の統計情報を算出し、不要な単語の削除等を行う処理である。単語認識において検索された単語は検索回数をカウントし、正解として選択された単語は正解回数をカウントされる。ここで、複数の同義語があり、そのうち正解として選択される確立が所定の値を下回った単語は辞書から削除される。
【0030】
以上のような動作で単語認識を繰り返すことにより、単語認識用の単語辞書が最適化されていくことになる。なお、ステップS3とステップS4とは前後を入れ替えてそれらの処理を行っても同様な結果が得られる。
【0031】
ここで、上述した音声認識装置を、テレビ受像機能、ラジオ受信機能並びに電話機能等が備えられているカーナビ装置に接続して利用する場合を例として、上述の同義語辞書登録処理をより詳細に説明する。
【0032】
コマンドの階層化の例として、例えば、第一の発話の階層に「ラジオ」、「デンワ」、「テレビ」が登録されている場合を考える。この時、「テレビ」に対する第二の発話の階層の辞書には、チャンネルが登録されており、「ラジオ」に対する第二の発話の階層の辞書には、放送局名が登録されており、「デンワ」に対する第二の発話の階層の辞書には、電話番号が登録されているものとする。ここで、第一の発話の後にユーザーが行う操作(第二の発話)と、音声入力の第一の発話による認識結果に基づいて推測される、第二の発話の階層の辞書に登録されている内容とが一致した場合、第一の発話による認識結果を正解と判定する。例えば、ユーザの第一の発話に基づいた認識結果が「テレビ」であった場合、ユーザの第二の発話がチャンネルを示すものであったときは、この場合の認識結果「テレビ」は正解と判定される。ここで、第一の発話による認識結果(単語)の、正解の単語に対する類似度と他の単語に対する類似度との関係が所定の関係(例えば、類似度の差が所定値以上(例えば、0.5以上)か、あるいは類似度の比が所定値以上(例えば2倍以上)であれば、この第一の発話による認識結果(単語)を正解の単語に対する同義語として適当と判定し、仮登録する。これは、この第一の発話による認識結果(単語)を同義語として判定することによって、他の単語の誤認識を招くようでは困るので、類似度が所定条件を満たす単語のみを適当と判断するからである。
【0033】
さらに、この様に同義語として判定(仮登録)された単語に対して、同義語として判定された回数が所定回数(例えば、3回)以上であり、かつ、同義語のうちその単語が選択された確率が所定値(例えば、50%)以上であれば、辞書に登録と判定される。これは、高い確率で選択される同義語は辞書で利用できるからである。
【0034】
一方、同義語の何れかが正解として選択された回数が所定数(例えば、10回)以上であり、かつ、同義語のうちその単語が正解として選択された確率が所定値(例えば、30%)未満であれば、その単語を辞書より削除する。
【0035】
以上のような音声認識装置の設定の基で、いま、ユーザーがカーナビ装置に備えられたテレビの6チャンネルを見ようとした場合、ユーザの第一の発話は「テレビ」であり、この第一の発話に基づいた音素認識結果が「テレイ」、単語認識結果が「テレビ」であったとする。また、この時、単語認識の過程で得られる類似度が、「テレビ」が0.8、「デンワ」が0.3および「ラジオ」が0.2であったとする。さらに、ユーザの第二の発話が「ロクチャンネル」であったとき、単語認識結果が「ロクチャンネル」であったとする。
【0036】
これらの状況下での同義語登録処理を図2を参照にして説明する。
【0037】
まず、ユーザーが第一の音声認識結果に対してキャンセル等を行わず、続けて正常に第二の音声認識が行われたことから、辞書登録部6は第一の発話に対する単語認識結果「テレビ」を正解と判定する(S3:Y)。次に、辞書登録部6は音素認識結果「テレイ」と単語認識結果「テレビ」とが一致するかどうかを判定する(S4)。この場合、不一致であるので(S4:N)、辞書登録部6は単語認識の過程における類似度を比較する。すなわち、音素認識結果「テレイ」が、正解の単語「テレビ」の同義語として登録可能かどうかを調べる。ここでは、正解の単語「テレビ」に対する類似度が0.8であるのに対して、他の単語「デンワ」、「ラジオ」に対する類似度が正解の単語の類似度の50%以下(0.3/0.8、0.2/0.8)であることから、誤認識の影響は小さく、「テレイ」を「テレビ」の同義語として適当であると判定し(S5:Y)、同義語「テレイ」を記録する(仮登録)。
【0038】
本音声認識装置の使用により以上のような動作(ステップS3,S4,S5)が繰り返されて、「テレイ」に対する仮登録の回数が計数されていくことになる。仮登録された同義語およびそれらの仮登録回数は、辞書管理部6内に設けられた(あるいは、別途備えられた)所定のメモリー領域に一時的に記録されることになる。この繰り返し動作の結果、音素認識結果が「テレビ」であり、かつ、単語認識結果が「テレビ」となった回数が2回であり、音素認識結果が「テレイ」であり、かつ、単語認識結果が「テレビ」となった回数が3回となったとする。この場合、「テレイ」が同義語と判定された回数が3回(以上)となり、かつ、同じ単語の同義語(「テレビ」、「テレイ」)のうち「テレイ」が選択される確率が50%以上(3/5=60%)であることから、「テレイ」を「テレビ」の同義語として辞書に登録すると判定し(S6)、辞書に登録する(S7)。
【0039】
その結果、辞書には、「ラジオ」、「デンワ」、「テレビ」、「テレイ」が登録されることになる。ただし、「テレビ」と「テレイ」とは同じコマンドをあらわしている。
【0040】
さらに、以上のような動作(ステップS3乃至ステップS7)が繰り返された結果、単語認識過程において「テレビ」と「テレイ」の何れかが正解として選択された回数が10回で、そのうち「テレビ」が正解となった回数が2回、「テレイ」が正解となった回数が8回であっとする。この場合、同義語の何れか(「テレビ」または「テレイ」)が正解として選択された回数が(2+8=)10回で、かつ、同義語のうち「テレビ」が選択された回数が30%未満(2/10=20%)であるので、同義語「テレビ」は辞書から削除されることになる。
【0041】
従って、辞書には、「ラジオ」、「デンワ」および「テレイ」が登録されることになる。ただし、「テレイ」は「テレビ」を意味するコマンドを表している。
【0042】
上述したように、本実施態様の音声認識装置の利用を繰り返すことで、必要性の高い同義語は辞書へ登録し、必要性が低い同義語は辞書から削除されるという動作が行われていくことになり、結果として辞書が最適化され、認識率を向上することになる。従って、本実施態様では、もともと辞書になく意味を持たないような単語(例えば「テレイ」)でも認識率を向上するものであれば、その単語に意味を与えて辞書に登録することが可能となり、ユーザ固有の発話に対しても正確な音声認識を行うことが可能となる。
【0043】
【発明の効果】
本発明によれば、使用しながら単語認識用辞書を最適化することができ、設計コストが低減できる。また、話者によって、認識されにくい単語や誤認識されやすい単語が現れる場合でも、単語の認識の性能を向上させることができる。
【図面の簡単な説明】
【図1】本実施態様による音声認識装置の構成を示した機能ブロック図である。
【図2】図1で示した音声認識装置による音声認識動作を示したフローチャートである。
【符号の説明】
1 音声認識装置
2 制御部
3 音声入力部
4 単語認識部
5 音素認識部
6 辞書管理部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition apparatus that performs word recognition on input speech from a user using a dictionary, and in particular, performs word recognition and phoneme recognition on input speech from a user, and based on these recognition results. The present invention relates to a speech recognition apparatus that improves the recognition rate by performing speech recognition.
[0002]
[Prior art]
Speech recognition devices that recognize speech spoken by humans as words have been put into practical use in various fields. This voice recognition device has been put to practical use as an input device that gives voice instructions from places where instructions corresponding to various devices in a factory are separated, and in a car navigation device, destinations, instruction information, etc. are voiced. It has also been put to practical use as a voice input device for input. In such a speech recognition device, in order to identify the input speech in general, the frequency distribution of the speech to be recognized is analyzed in advance to extract, for example, the time series information of the spectrum and the fundamental frequency as features. And a speech recognition word dictionary for storing the pattern corresponding to each word.
[0003]
When the speech to be recognized is input, the frequency pattern of the input speech is compared with the pattern of each word stored in the dictionary by pattern matching, and the similarity to each word is calculated. Next, the word having the highest degree of similarity calculated (the word having the closest pattern) is recognized as the input voice, and the word is output. That is, the input speech is determined by examining which word pattern is most similar to the frequency distribution pattern of the input word.
[0004]
In such speech recognition, a speech recognition apparatus has been proposed in which the matching rate history is further updated based on the response from the speaker to the output recognition result to further increase the recognition rate (Patent Document 1). reference).
[0005]
[Patent Document 1]
JP-A-8-160986 gazette
[Problems to be solved by the invention]
Such speech recognition based on word recognition is used particularly when a command based on speech is input in a car navigation device or the like. In such speech recognition, there are situations in which a specific word is difficult to recognize, and situations in which it is easy to be erroneously recognized. These situations are particularly likely to occur when similar words are registered in the dictionary. Therefore, this situation can be avoided to some extent by selecting the words to be registered in the dictionary so that they are not similar. However, since the recognition results differ depending on the speakers, many speakers are tested and the words It is necessary to optimize the dictionary over time, such as repeating registration and deletion, and a speech recognition device having a high recognition rate suitable for practical use is desired.
[0007]
Accordingly, an object of the present invention is to provide a speech recognition device that improves the performance of word recognition and increases the recognition rate of speech recognition by optimizing a dictionary for word recognition.
[0008]
[Means for Solving the Problems]
In order to achieve the above object, an invention according to claim 1 is a speech recognition apparatus that performs word recognition on a speech input from a user by using a dictionary, the word recognition and phoneme being performed on the input speech. The word recognition result and the phoneme recognition result thus obtained are inconsistent, and the word recognition result is correct , and the phoneme recognition result is the correct answer. When the relationship between the similarity to a word corresponding to the word recognition result and the similarity to another word satisfies a predetermined condition, the phoneme recognition result is used as a synonym for the word corresponding to the correct word recognition result. It is characterized by registering as a dictionary .
[0009]
In the invention according to claim 2, the predetermined condition is that the difference between the similarity of the phoneme recognition result to the word corresponding to the correct word recognition result and the similarity to the other word is It is more than a predetermined value.
[0010]
According to a third aspect of the present invention, the predetermined condition is that the ratio of the similarity of the phoneme recognition result to the word corresponding to the correct word recognition result and the similarity to the other word is It is more than a predetermined value.
[0011]
According to a fourth aspect of the present invention, when the phoneme recognition result recognized as the synonym is recognized as a synonym of the same word recognition result a predetermined number of times or with a predetermined probability, the synonym is stored in the dictionary. It is characterized by registering.
[0012]
The invention according to
[0013]
Further, in the invention described in
[0014]
According to a seventh aspect of the present invention, there is provided a voice input unit that inputs an input voice from a user, a word recognition unit that performs word recognition on the input voice, and a phoneme that performs phoneme recognition on the input voice. A recognition unit, a word recognition result obtained by the word recognition unit, and a phoneme recognition result obtained by the phoneme recognition unit are inconsistent and the word recognition result is correct, the phoneme recognition A dictionary registration unit that determines whether to register a result in the dictionary as a synonym for a word corresponding to the word recognition result that is the correct answer, and the dictionary registration unit is the correct answer of the phoneme recognition result The difference between the similarity to the word corresponding to the word recognition result and the similarity to the other word is a predetermined value or more, or the similarity to the word corresponding to the correct word recognition result of the phoneme recognition result When the ratio of the similarity to the other word is equal to or greater than a predetermined value, the phoneme recognition result is recognized as a synonym and temporarily registered, and further, the same word recognition result is recognized as the synonym. The number of temporary registrations for the phoneme recognition result is counted, and when the number of temporary registrations is equal to or greater than a predetermined value, the phoneme recognition result is registered in a dictionary and used for the next speech recognition process. To do.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, a speech recognition apparatus according to an embodiment of the present invention will be described.
[0016]
FIG. 1 is a functional block diagram showing the configuration of the speech recognition apparatus 1 of this embodiment.
[0017]
The speech recognition apparatus 1 includes a control unit 2, a speech input unit 3, a word recognition unit 4, a
[0018]
Next, the operation of the speech recognition apparatus of this embodiment described above will be described with reference to FIG.
[0019]
FIG. 2 is a flowchart showing the speech recognition operation of the speech recognition apparatus according to this embodiment. Here, a voice recognition device in a car navigation device will be described as an example. That is, although the car navigation device is used as the external device in FIG. 1, the voice recognition device of the present invention is not limited to the car navigation device, and it goes without saying that it can be applied to any device that requires voice recognition. .
[0020]
First, the control unit 2 instructs the voice input unit 3 to input a voice in accordance with an instruction from the car navigation device. Based on the instruction from the control unit 2, the voice input unit 3 acquires the input voice from the user, and outputs the input voice to each of the word recognition unit 4 and the phoneme recognition unit 5 (S1).
[0021]
Speech recognition is performed based on comprehensive judgment based on recognition results in the word recognition unit 4 and the
[0022]
When the input speech is acquired by the speech input unit 3 (S1), the word recognition unit 4 and the
[0023]
Next, the
[0024]
Normally, in car navigation voice recognition, commands are hierarchized, and scanning requires several steps. Therefore, after notifying the user of the word recognition result, the user continues to utter the next level command, or the user performs the next step, etc. If the result matches the operation candidate, the word recognition result is determined to be correct (S3: Y). On the other hand, after notifying the user of the word recognition result, the user did the same word recognition again, or performed a cancel operation, and the subsequent operations did not match the predetermined correct operation candidates. In this case (S3: N), the word recognition result is determined to be incorrect.
[0025]
Here, as a result of the word recognition determination, if the word recognition result is incorrect (S3: N), the
[0026]
As a result of the determination, if the word recognition result and the phoneme recognition result match (S4: Y), the
[0027]
As a result of the determination, if it is not recognized as a synonym (S5: N), the
[0028]
The number of times that a synonym is recognized as a synonym of the same word recognition result (word) is counted. When the number of times exceeds a predetermined value and the selected probability exceeds a predetermined value, it is registered in the dictionary as a synonym for the word recognition result (S7).
[0029]
Next, the
[0030]
By repeating the word recognition by the operation as described above, the word recognition word dictionary is optimized. Note that the same result can be obtained even if step S3 and step S4 are interchanged before and after the processing.
[0031]
Here, the synonym dictionary registration process described above will be described in more detail, taking as an example the case where the voice recognition apparatus described above is used by being connected to a car navigation apparatus equipped with a television reception function, a radio reception function, a telephone function, and the like. explain.
[0032]
As an example of command hierarchization, consider a case where “radio”, “denwa”, and “television” are registered in the first utterance layer, for example. At this time, the channel is registered in the second utterance hierarchy dictionary for “TV”, and the broadcasting station name is registered in the second utterance hierarchy dictionary for “radio”. It is assumed that a telephone number is registered in the dictionary of the second utterance hierarchy for “Denwa”. Here, it is registered in the dictionary of the second utterance hierarchy, which is inferred based on the operation (second utterance) performed by the user after the first utterance and the recognition result by the first utterance of the voice input. If the content matches, the recognition result of the first utterance is determined to be correct. For example, if the recognition result based on the first utterance of the user is “TV” and the second utterance of the user indicates a channel, the recognition result “TV” in this case is correct. Determined. Here, in the recognition result (word) of the first utterance, the relationship between the similarity to the correct word and the similarity to other words is a predetermined relationship (for example, the difference in similarity is greater than or equal to a predetermined value (for example, 0 .5 or higher) or the similarity ratio is equal to or higher than a predetermined value (for example, twice or higher), it is determined that the recognition result (word) by the first utterance is appropriate as a synonym for the correct word, and This is because it is not necessary to misrecognize other words by determining the recognition result (word) from the first utterance as a synonym, so only words that satisfy the predetermined condition are appropriate. It is because it judges.
[0033]
Furthermore, the number of times that a synonym is determined (provisionally registered) as a synonym in this way is equal to or more than a predetermined number (for example, three times), and the word is selected from the synonyms. If the probability is greater than or equal to a predetermined value (for example, 50%), it is determined to be registered in the dictionary. This is because synonyms selected with high probability can be used in the dictionary.
[0034]
On the other hand, the number of times any one of the synonyms is selected as a correct answer is equal to or more than a predetermined number (for example, 10 times), and the probability that the word is selected as a correct word among the synonyms is a predetermined value (for example, 30%). ), The word is deleted from the dictionary.
[0035]
Based on the settings of the voice recognition device as described above, when the user tries to watch 6 channels of the TV provided in the car navigation device, the user's first utterance is “TV”. Assume that the phoneme recognition result based on the utterance is “Tele” and the word recognition result is “TV”. At this time, it is assumed that the similarity obtained in the word recognition process is 0.8 for “TV”, 0.3 for “Denwa”, and 0.2 for “Radio”. Furthermore, when the user's second utterance is “Roku Channel”, the word recognition result is “Roku Channel”.
[0036]
The synonym registration process under these circumstances will be described with reference to FIG.
[0037]
First, since the user did not cancel the first speech recognition result and the second speech recognition was normally performed continuously, the
[0038]
By using this voice recognition apparatus, the above-described operations (steps S3, S4, S5) are repeated, and the number of temporary registrations for “Tele” is counted. The temporarily registered synonyms and the number of temporary registrations thereof are temporarily recorded in a predetermined memory area provided in the dictionary management unit 6 (or provided separately). As a result of this repeated operation, the phoneme recognition result is “TV”, the word recognition result is “TV” twice, the phoneme recognition result is “Tele”, and the word recognition result Suppose that the number of times “TV” became three. In this case, the number of times “terei” is determined to be a synonym is three (or more), and the probability that “terei” is selected from synonyms (“TV” and “terei”) of the same word is 50. % Or more (3/5 = 60%), it is determined that “Tele” is registered in the dictionary as a synonym for “TV” (S6), and is registered in the dictionary (S7).
[0039]
As a result, “radio”, “denwa”, “television”, and “tele” are registered in the dictionary. However, “TV” and “Tele” represent the same command.
[0040]
Furthermore, as a result of repeating the above operations (steps S3 to S7), the number of times “TV” or “Tele” is selected as the correct answer in the word recognition process is 10 times, of which “TV” 2 is the correct number of times, and 8 is the number of times that “Telei” is the correct answer. In this case, the number of times any one of the synonyms (“TV” or “Tele”) is selected as the correct answer is (2 + 8 =) 10 times, and the number of times that “TV” is selected among the synonyms is 30%. Is less than (2/10 = 20%), the synonym “TV” is deleted from the dictionary.
[0041]
Therefore, “radio”, “denwa”, and “tele” are registered in the dictionary. However, “Tele” represents a command meaning “TV”.
[0042]
As described above, by repeating the use of the speech recognition apparatus of this embodiment, an operation is performed in which synonyms with high necessity are registered in the dictionary and synonyms with low necessity are deleted from the dictionary. As a result, the dictionary is optimized and the recognition rate is improved. Therefore, in this embodiment, even a word that does not have a meaning originally in the dictionary (for example, “terre”) can be registered in the dictionary by giving meaning to the word as long as it improves the recognition rate. In addition, accurate speech recognition can be performed for user-specific utterances.
[0043]
【The invention's effect】
According to the present invention, the word recognition dictionary can be optimized while being used, and the design cost can be reduced. Moreover, even when a word that is difficult to recognize or easily misrecognized by a speaker appears, the performance of word recognition can be improved.
[Brief description of the drawings]
FIG. 1 is a functional block diagram showing a configuration of a speech recognition apparatus according to an embodiment.
FIG. 2 is a flowchart showing a speech recognition operation by the speech recognition apparatus shown in FIG.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Voice recognition apparatus 2 Control part 3 Voice input part 4
Claims (7)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003087565A JP4282354B2 (en) | 2003-03-27 | 2003-03-27 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003087565A JP4282354B2 (en) | 2003-03-27 | 2003-03-27 | Voice recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004294803A JP2004294803A (en) | 2004-10-21 |
JP4282354B2 true JP4282354B2 (en) | 2009-06-17 |
Family
ID=33401926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003087565A Expired - Fee Related JP4282354B2 (en) | 2003-03-27 | 2003-03-27 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4282354B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4608670B2 (en) * | 2004-12-13 | 2011-01-12 | 日産自動車株式会社 | Speech recognition apparatus and speech recognition method |
JP4816409B2 (en) * | 2006-01-10 | 2011-11-16 | 日産自動車株式会社 | Recognition dictionary system and updating method thereof |
JP2007226098A (en) * | 2006-02-27 | 2007-09-06 | Denso Corp | Speech recognition device |
JP7124442B2 (en) * | 2018-05-23 | 2022-08-24 | 富士電機株式会社 | System, method and program |
-
2003
- 2003-03-27 JP JP2003087565A patent/JP4282354B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004294803A (en) | 2004-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7974843B2 (en) | Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer | |
US6836758B2 (en) | System and method for hybrid voice recognition | |
US8438028B2 (en) | Nametag confusability determination | |
US8639508B2 (en) | User-specific confidence thresholds for speech recognition | |
EP1936606B1 (en) | Multi-stage speech recognition | |
JP4709663B2 (en) | User adaptive speech recognition method and speech recognition apparatus | |
EP2308042B1 (en) | Method and device for generating vocabulary entries from acoustic data | |
US9881609B2 (en) | Gesture-based cues for an automatic speech recognition system | |
JP5706384B2 (en) | Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program | |
US20100076764A1 (en) | Method of dialing phone numbers using an in-vehicle speech recognition system | |
US20170294188A1 (en) | Apparatus, method for voice recognition, and non-transitory computer-readable storage medium | |
US20160111090A1 (en) | Hybridized automatic speech recognition | |
US20110144987A1 (en) | Using pitch during speech recognition post-processing to improve recognition accuracy | |
US9530414B2 (en) | Speech recognition using a database and dynamic gate commands | |
US9473094B2 (en) | Automatically controlling the loudness of voice prompts | |
US20150255063A1 (en) | Detecting vanity numbers using speech recognition | |
US20150310853A1 (en) | Systems and methods for speech artifact compensation in speech recognition systems | |
US9542939B1 (en) | Duration ratio modeling for improved speech recognition | |
US20170270923A1 (en) | Voice processing device and voice processing method | |
JP4282354B2 (en) | Voice recognition device | |
CN112201275A (en) | Voiceprint segmentation method, voiceprint segmentation device, voiceprint segmentation equipment and readable storage medium | |
US20070129945A1 (en) | Voice quality control for high quality speech reconstruction | |
JP2002215184A (en) | Speech recognition device and program for the same | |
JP5201973B2 (en) | Voice search device | |
KR102392992B1 (en) | User interfacing device and method for setting wake-up word activating speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060216 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090310 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090317 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120327 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130327 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140327 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |