JP4475380B2 - Speech recognition apparatus and speech recognition program - Google Patents
Speech recognition apparatus and speech recognition program Download PDFInfo
- Publication number
- JP4475380B2 JP4475380B2 JP2003132640A JP2003132640A JP4475380B2 JP 4475380 B2 JP4475380 B2 JP 4475380B2 JP 2003132640 A JP2003132640 A JP 2003132640A JP 2003132640 A JP2003132640 A JP 2003132640A JP 4475380 B2 JP4475380 B2 JP 4475380B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- standby
- candidate
- candidates
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、マイクなどを介して入力された人間の音声を認識する音声認識手法に関する。
【0002】
【従来の技術】
一般的に、音声認識装置は、ユーザの発話に基づいて生成された音声入力信号を音響的に分析し、予め用意された複数の候補の単語モデルと比較してそれぞれの音響的尤度(類似度)を算出し、音響的尤度の最も高い候補(「1位候補」と呼ぶ。)を認識結果として決定する。また、1位候補の認識信頼度が十分に高くない場合は、音声認識装置は、正しい認識結果が無いと判定し、「もう一度発話して下さい」などとトークバックしてユーザの再発話を促し、再度認識処理を行う。
【0003】
従来の音声認識装置は、認識結果の信頼度が低く、ユーザに再発話を要求する場合でも、前回と同じ候補を用いて再度認識処理を行っていた。よって、ユーザが前回と同じ言い方で発話を繰り返せば、認識結果は前回と同じとなってしまうため、結局、再発話に対する認識率はあまり改善されない。
【0004】
【発明が解決しようとする課題】
このような点を改善した音声認識手法の1つが特許第3112037号公報に記載されている。この音声認識手法は、ユーザの1回目の発話に対する認識処理で十分に信頼度の高い認識結果が得られない場合には、信頼度の高い幾つかの候補に絞り込みを行いユーザに再発話を促す。さらに、1回目の発話に対する認識処理において得られた信頼度が上位である候補について、それらの同意味語を候補に加えてユーザに再発話を促し、再度の認識処理を行う。
【0005】
しかし、この方法では1回目の認識結果により絞り込まれた上位候補中に正解が含まれていない場合には認識を行うことができなくなってしまう。また、上位候補の同意味語を候補に加えたとしても、ユーザが再発話において前回と同じ単語を使用した場合は、同意味語を候補に加えた意味がなくなってしまう。
【0006】
また、別の音声認識手法が特開平11−119792号公報に記載されている。この公報に記載の方法では、音響的に相互に類似したコマンド(「類似タイプコマンド」と呼んでいる。)のセットと、それに対応する言い換えコマンドのセットを予め定義して記憶しておく。例えば類似タイプコマンドとして「窓を上げる」と「窓を下げる」がある場合、これに対する言い換えコマンドとして「窓を開ける」と「窓を閉める」を用意しておく。そして、ユーザが類似タイプコマンドを発話したときには、それに対する言い換えコマンドを使用して再度発話するように要求する。
【0007】
しかし、この方法では、類似タイプコマンドとそれに対応する言い換えコマンドとの対応関係を予め規定し、メモリなどに記憶しておく必要がある。よって、システムで使用するコマンドが多数になると、そのために必要とされる記憶容量が増大し、コストの上昇などを招く。
【0008】
本発明は、以上の点に鑑みてなされたものであり、ユーザに対する再発話の要求をなるべく少なくし、効率的かつ正確な認識を可能とする音声認識装置及びプログラムを提供することを課題とする。
【0009】
【課題を解決するための手段】
本発明の1つの観点によれば、音声認識装置は、ユーザの音声入力を受け取る音声入力手段と、予め設定された待ち受け単語グループ中の各待ち受け単語とのマッチング処理により、前記音声入力に対応する複数の単語候補を決定する認識処理を行う認識処理手段と、前記複数の単語候補中に正解が含まれるか否かを判定する判定手段と、前記複数の単語候補及びそれらの同意単語候補の各々について、各単語候補を構成する音素を分析する手段を具備する設定手段と、を備え、前記設定手段は、前記複数の単語候補中に正解が含まれないと前記判定手段が判定した場合に、前記複数の単語候補及びそれらの同意単語候補から、少なくとも前記単語候補に対応する同意単語候補を一つのグループとした場合の前記単語候補毎に設定される各グループ間において、(1)音素の重複が少ない組み合わせを抽出し、(2)前記抽出された組み合わせのうち、相対的に総音素数が多い組み合わせとなるように前記各グループで1つの候補を決定し、次回の認識処理において使用される前記待ち受け単語グループに設定することを特徴とする。なお前記設定手段は、前記複数の単語候補中に正解が含まれないと前記判定手段が判定した場合に、前記複数の単語候補及びそれらの同意単語候補から、前記単語候補およびその同意単語候補を一つのグループとして、前記各グループ間でそれぞれ候補を決定することが好ましい。
【0010】
上記の音声認識装置は、コマンドなどのユーザによる音声入力を受け取り、予め設定された待ち受け単語とのマッチング処理により、ユーザによる音声入力に対応する単語候補を決定する。そして、その単語候補中に正解が含まれるか否かを判定する。正解が含まれると判定手段が判定した場合、その単語候補が認識結果として出力される。一方、正解が含まれないと判定手段が判定した場合、それら単語候補と、各単語候補と意味が同一である同意単語候補とのうちから、少なくとも単語候補に対応する同意単語候補を一つのグループとした場合の前記単語候補毎に設定される各グループ間において、(1)音素の重複が少ない組み合わせを抽出し、(2)前記抽出された組み合わせのうち、相対的に総音素数が多い組み合わせとなるように各グループ間で候補を決定し、これらが次回の認識処理において使用される。よって、同意単語を含む単語候補中から、識別しやすい単語候補を利用して次回の認識処理が行われるので、ユーザによる再発話の認識率を向上させることができる。
【0011】
上記の音声認識装置の一態様では、前記設定手段は、前記複数の単語候補及びそれらの同意単語候補の各々について、各単語候補を構成する音素を分析する手段と、音素の重複が最も少ない単語候補の組み合わせを前記待ち受け単語として設定する手段と、を有することができる。
【0012】
この態様によれば、同意単語候補を含む単語候補を、それらの構成要素である音素の面から分析し、音素の重複が最も少ない単語候補の組み合わせを待ち受け単語として使用する。よって、音声認識処理上、相互に区別しやすい状態で認識処理を行うことができる。
【0013】
上記の音声認識装置の他の一態様では、前記設定手段は、前記複数の単語候補及びそれらの同意単語候補の各々について、各単語候補を構成する音素を分析する手段と、音素の重複が最も少なく、かつ、総音素数が最も多い単語候補の組み合わせを前記待ち受け単語として設定する手段と、を有することができる。
【0014】
この態様によれば、同意単語候補を含む単語候補を、それらの構成要素である音素の面から分析し、音素の重複が最も少なく、かつ、総音素数が最も多い単語候補の組み合わせを待ち受け単語として使用する。よって、音声認識処理上、さらに区別しやすい状態で認識処理を行うことができる。
【0015】
上記の音声認識装置の他の一態様では、前記設定手段は、前記ユーザの音声入力が、前記待ち受け単語に含まれる単語候補以外の単語候補に対応することを意味する待ち受け誤り単語を前記待ち受け単語グループに含めることができる。よって、現在の待ち受け単語が正解を含んでいない場合にはユーザはその待ち受け誤り単語を発話することになるので、現在の待ち受け単語が正解を含んでいるか否かを判定することができる。
【0016】
上記の音声認識装置のさらに他の一態様では、前記設定手段は、過去に使用した待ち受け単語グループを記憶する記憶手段を有し、前記判定手段が前記待ち受け誤り単語を正解と判定した場合、前記設定手段は、前記記憶手段に記憶されている1回前の待ち受け単語グループを、次回の認識処理において使用する待ち受け単語グループに設定することができる。これにより、現在の待ち受け単語グループに正解が含まれていない場合には、待ち受け単語の範囲を広げて、正解を探すことができる。
【0017】
上記の音声認識装置のさらに他の一態様では、前記待ち受け誤り単語は、「その他」、またはその同義語とすることができる。
【0018】
上記の音声認識装置のさらに他の一態様では、前記ユーザの音声入力が前記待ち受け誤り単語であった場合には、その時点における前記待ち受け単語グループ中の単語候補のうち、前記待ち受け誤り単語に対応する単語候補以外の単語候補を、次回の待ち受け単語グループに含める単語候補から除外することができる。待ち受け誤り単語は、現在の待ち受け単語グループ中の単語候補には正解が無いことを示すので、それらを次回の待ち受け単語グループに含める意味はない。よって、それら正解でないことがわかっている単語候補を次回の単語候補から除外することにより単語候補を絞り込み、効率的に正解を得ることができるようになる。
【0019】
上記の音声認識装置のさらに他の一態様は、前記複数の単語候補中に正解が含まれないと前記判定手段が判定した場合に、前記設定手段が設定した待ち受け単語グループに属する待ち受け単語を、合成音声出力又は文字表示の少なくとも一方により前記ユーザに通知する通知手段を備えることができる。これにより、待ち受け単語が合成音声によりユーザに知らされるので、ユーザは再発話すべき単語を容易に知ることができる。
【0020】
上記の音声認識装置のさらに他の一態様では、前記判定手段は、前記認識処理が繰り返されるたびに、前記単語候補を正解と判定する基準を緩和していくことができる。これにより、認識処理を繰り返すにつれて正解を得やすくし、認識処理の効率を上げることができる。なお、1つの好適な例では、前記判定手段は、前記単語候補の信頼度が所定のしきい値以上である場合に当該単語候補を正解であると判定し、前記認識処理が繰り返されるたびに、前記しきい値を低下させていくことができる。
【0021】
上記の音声認識装置のさらに他の一態様では、前記設定手段は、前記複数の単語候補、それらの同意単語候補及び前記待ち受け誤り単語から、最も識別しやすい候補の組み合わせを決定し、次回の認識処理において使用される前記待ち受け単語グループに設定することができる。よって、音声認識処理上、さらに区別しやすい状態で認識処理を行うことができる。
【0022】
本発明の他の観点では、コンピュータにより実行される音声認識プログラムは、前記コンピュータを、ユーザの音声入力を受け取る音声入力手段、予め設定された待ち受け単語グループ中の各待ち受け単語とのマッチング処理により、前記音声入力に対応する複数の単語候補を決定する認識処理を行う認識処理手段、前記複数の単語候補中に正解が含まれるか否かを判定する手段、前記複数の単語候補及びそれらの同意単語候補の各々について、各単語候補を構成する音素を分析する手段を具備する設定手段、として機能させ、かつ、前記設定手段をして、前記複数の単語候補中に正解が含まれないと前記判定手段が判定した場合に、前記複数の単語候補及びそれらの同意単語候補から、少なくとも前記単語候補に対応する同意単語候補を一つのグループとした場合の各グループ間において(1)音素の重複が少ない組み合わせを抽出し、(2)前記抽出された組み合わせのうち、相対的に総音素数が多い組み合わせとなるように前記各グループで1つの候補を決定し、次回の認識処理において使用される前記待ち受け単語グループに設定するよう機能させる。
【0023】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施の形態について説明する。
【0024】
[音声認識装置の構成]
図1に、本発明の実施形態にかかる音声認識装置の機能的構成を示す。図1において、音声認識装置10は、サブワード音響モデル記憶部1と、辞書2と、単語モデル生成部3と、音響分析部4と、認識処理部5と、付加情報収集部6と、認識信頼度演算部7と、再発話制御部8と、合成音声生成部9と、スピーカ11と、マイク12と、スイッチSW1とを備える。
【0025】
サブワード音響モデル記憶部1は、予め学習された音素などの、サブワード単位の音響モデルを記憶している。ここで、「音素」とは、ある一つの言語で用いる音を弁別機能の見地から分析・規定した最小単位であり、子音、母音などに分類される。また、「サブワード」とは、個々の単語を構成する単位であり、サブワードの集合により1つの単語が構成される。サブワード音響モデル記憶部1には、母音、子音などの各音素に対応するサブワード音響モデルが記憶されている。例えば「あか(aka)」という単語の場合、これを構成するサブワードは"a"、"k"、"a"である。
【0026】
辞書2には、音声認識の対象となる単語に関する単語情報が記憶されている。具体的には、複数の単語に対して、その単語を構成するサブワードの組み合わせが記憶されている。例えば「あか」という単語については、それを構成するサブワードが"a"、"k"、"a"であることが情報として記憶されている。
【0027】
単語モデル生成部3は、各単語の音響モデルである単語モデルを生成する。具体的には、ある単語について、辞書2に記憶されている単語情報と、サブワード音響モデル記憶部1に記憶されているサブワード音響モデルとを利用して、その単語の単語モデルを生成する。例えば「あか」という単語の場合、辞書2には「あか」という単語がサブワード"a"、"k"、"a"により構成されることが単語情報として記憶されている。また、サブワード"a"、"k"、"a"に対応するサブワード音響モデルがサブワード音響モデル記憶部1に記憶されている。よって、単語モデル生成部3は、辞書2を参照して単語「あか」を構成するサブワードを調べ、それらに対応するサブワード音響モデルをサブワード音響モデル記憶部1から取得して組み合わせることにより単語「あか(aka)」の単語モデルを生成する。
【0028】
音響分析部4は、マイク12を介して音声認識装置10に入力された発話音声信号を音響的に分析して特徴ベクトル系列に変換する。認識処理部5は、音響分析部4により得られた発話音声の特徴ベクトルと、単語モデル生成部3が生成した複数の単語モデルとを照合し(マッチング処理)、ユーザの発話音声に対する各単語モデルの音響的尤度を計算する。この際に照合される単語モデルを「単語候補」とも呼ぶ。認識処理部5は、予め決められた複数の単語候補をユーザの発話音声に対応する特徴ベクトル系列とマッチングし、各単語候補についての音響的尤度をそれぞれ算出する。
【0029】
実際には、ユーザがある単語を発話する際には、その状況においてユーザが発話するであろうと予測される幾つかの単語が単語候補として決定される(これを、「待ち受け単語」とも呼ぶ)。そして、ユーザの発話に対応する特徴ベクトル系列が得られると、それを予め決定された単語候補(待ち受け単語)とマッチングし、各単語候補に対する音響的尤度を個別に算出する。
【0030】
付加情報収集部6は、ユーザの過去の発話履歴などの付加情報を収集する。本発明の音声入力装置がカーナビゲーション装置のコマンド入力部に使用される場合には、付加情報にはカーナビゲーション装置を搭載した車両の位置情報などが含まれる。認識信頼度演算部7は、認識処理部5により算出されたユーザ発話に対する各単語候補の音響的尤度を元にして、各単語候補の認識信頼度を計算する。認識信頼度は、その単語候補が、ユーザが実際に発話した単語とどの程度の確からしさで一致しているかを示す指標である。認識信頼度が高いほど、その単語候補がユーザの発話した単語と一致している確率、即ち正解である確率が高い。認識信頼度が低いほど、その単語候補が正解である確率が低い。
【0031】
具体的には、認識信頼度演算部7は、認識処理部5により算出された各単語候補の音響的尤度に対して、付加情報収集部6で得られた付加情報を用いて重み付けを行い、ユーザの発話音声に対する各単語候補の認識信頼度を算出する。例えば、付加情報収集部6が収集した付加情報に、そのユーザが過去にある単語を頻繁に発話しているという履歴がある場合には、それと同一の単語候補の認識信頼度は高く設定される。また、車両の現在位置に関連する単語が発話された場合には、その単語の信頼度を高く設定することができる。なお、上記の認識信頼度の算出方法は一例であり、本発明では、他の各種の認識信頼度の算出方法を使用することができる。
【0032】
再発話制御部8は本発明の中心的な役割を果たす要素であり、再発話における単語候補の制御などを行う。図2に再発話制御部8の内部構成を示す。図2に示すように、再発話制御部8は、信頼度分析部81と、候補選択部82と、待ち受け単語選択部83と、1位候補情報抽出部84と、合成音声情報生成部85と、スイッチSW2とを備える。
【0033】
再発話制御部8には、認識信頼度演算部7から信頼度情報20が入力される。この信頼度情報20は、ユーザの発話に対する複数の単語候補を示す単語候補情報と、それら各単語候補について認識信頼度演算部7が算出した認識信頼度情報とを含む。即ち、信頼度情報20は、どの単語候補がどの程度の信頼度を有するかを示している。
【0034】
信頼度分析部81は、信頼度情報20に含まれる複数の単語候補のうち、最も高い信頼度を有する単語候補(以下、「1位単語候補」と呼ぶ。)を認識結果と決定してよいか否か、即ち、1位単語候補を正解として良いか否かを判定する。この判定は、例えば1位単語候補の信頼度と2位単語候補の信頼度とを利用して行うことができる。即ち、1位単語候補の信頼度が十分高く、ある所定のしきい値α以上であること(条件1)、及び、1位単語候補の信頼度と2位単語候補の信頼度との差が十分に大きく、ある所定のしきい値β以上であること(条件2)の2つの条件を具備する場合には、その1位単語候補を正解と判定する。一方、条件1及び2のいずれか一方でも具備されない場合は、その1位単語候補を正解とはしない。なお、1位単語候補を正解と判定する方法は、上記以外の方法を採用することもできる。例えば、上位の所定数n個の単語候補の信頼度を使用して、1位単語候補が正解であるか否かを判定することもできる。
【0035】
1位単語候補が正解であると判定した場合、認識度分析部81は、図1に示すスイッチSW1及び図2に示すスイッチSW2をいずれも端子T1に接続する制御信号をスイッチSW1及びSW2に供給する。一方、1位単語候補が正解でないと判定した場合、認識度分析部81はスイッチSW1及びSW2をともに端子T2に接続する制御信号をスイッチSW1及びSW2に供給する。
【0036】
1位候補情報抽出部84は、信頼度分析部81が1位単語候補を正解であると判定した場合に、認識信頼度演算部7からスイッチSW2を介して信頼度情報20を受け取る。そして、1位単語候補が正解であることを示す情報、正解と判定された1位候補単語が何であるかを示す情報、及び、1位単語候補に対応する発音情報などを合成音声情報生成部85へ供給する。また、1位候補情報抽出部84は、1位候補単語が何であるかを示す情報を、認識結果として外部へ出力する。
【0037】
合成音声情報生成部85は、1位単語候補が正解である場合には、1位候補情報抽出部84からの情報に基づいて、認識結果をユーザへ通知するための合成音声情報を生成して合成音声生成部9へ出力する。
【0038】
図1に示す合成音声生成部9は、合成音声情報生成部85から入力された合成音声情報に基づいて、正解と判定された単語を含む合成音声を生成し、スピーカ11から出力することにより認識結果をユーザへ通知する。認識結果をユーザへ通知するとは、例えば正解と判定された単語候補が「あか」である場合、「あかですね?」などの合成音声を出力することを意味する。これによりユーザは認識結果の確認を行う。なお、本実施形態では、スピーカ11からの音声出力によりユーザに認識結果を通知する方法を採用しているが、そのかわりに又はそれに加えて、ディスプレイなどにより視覚的にユーザに認識結果を通知するように構成することもできる。
【0039】
一方、1位候補が正解でないと認識度分析部81が判定した場合には、音声認識装置10はユーザに再発話を要求することになる。その場合、スイッチSW2は端子T2に接続され、信頼度情報20が候補選択部82に供給される。また、スイッチSW1も端子T2に接続され、待ち受け単語選択部83が単語モデル生成部3に接続される。候補選択部82は、信頼度が算出された全ての単語候補のうちから、信頼度の高い幾つかの単語候補(以下、「正解単語候補」と呼ぶ。)に絞り込みを行う。例えば、1位単語候補との信頼度の差が所定のしきい値γ以下である単語候補を正解単語候補に設定する。そして、決定された正解単語候補の識別情報を待ち受け単語選択部83へ供給する。
【0040】
待ち受け単語選択部83は、ユーザの再発話に対する待ち受け単語グループ(即ち、ユーザの再発話に対する認識処理において単語候補として使用する単語の組み合わせ)を決定する。この最も典型的な方法は、候補選択部82が選択した正解単語候補を待ち受け単語に設定する方法である。これにより、前回の発話の認識処理において、認識信頼度が高かった候補が待ち受け単語に設定される。しかし、これでは、ユーザの前回の発話と再発話とがまったく同一であった場合(例えば、繰り返し「あか」と発話した場合)には前回の発話と同様に認識結果を正解と判定できなくなる可能性がある。そこで、本発明では、再発話において待ち受け単語として使用される単語を、正解単語候補の同義語などであって認識処理により識別しやすい別な単語とすることにより、再発話における認識率を高めるようにしている。即ち、待ち受け単語選択部83は、候補選択部82から供給される正解単語候補に基づいて、それらの同義語などであって識別しやすい単語の組み合わせを再発話用の待ち受け単語として設定する。ここで、「識別しやすい単語の組み合わせ」の1つの好適な例は、正解単語候補の同義語であって、音素の重複が少なく(条件A)、かつ、総音素数が多い(条件B)単語の組み合わせである。これは、音声認識の観点から単語同士を音響的に比較した場合、一般的に音素の重複が少なく、かつ、単語の音素数が多いほど、単語の識別が容易になるからである。
【0041】
これについて、より詳しく説明する。辞書2には、1つの単語について意味が同じで発音の異なる同義語(同意単語)を用意しておく。いま、候補選択部82が選択した正解候補単語が「あか(aka)」と「あお(ao)」の2つであったと仮定する。また、「あか」の同意単語として「れっど(reqdo)」が辞書2内に記憶されており、「あお」の同意単語として「ぶるー(buruu)」が辞書2に記憶されていると仮定する。この場合、「あか」と「あお」とでは音素"a"が重複し、「れっど」と「あお」では音素"o"が重複するので、条件Aによれば、識別しやすい単語の組み合わせは「あか」と「ぶるー」、又は、「れっど」と「ぶるー」となる。そして、さらに条件Bを考慮すると、これらの組み合わせのうちでは、「れっど」と「ぶるー」の組み合わせの方が総音素数が多いので、最終的に「れっど」と「ぶるー」の組み合わせが待ち受け単語に設定される。また、別の例として、例えば「あお」の同意単語としてさらに「みずいろ(mizuiro)」が辞書2に記憶されている場合には、同一音素の数が最も少ない組み合わせのなかで総音素数がもっとも多い「あか」と「みずいろ」の組み合わせが待ち受け単語に設定される。このように、本発明では、正解単語候補及びそれらの同意単語のうち、最も識別しやすい組み合わせを次回の再発話に対する待ち受け単語に設定する。これにより、再発話の認識処理における認識精度を改善することができる。
【0042】
また、本発明では、再発話の際に、再発話を促すトークバックに含まれる単語が正解の単語以外であることを示す「その他」、「それ以外」、「ちがう」などの単語を、再発話を促すトークバックに含めることを特徴とする。これにより、再発話を促すトークバックでユーザに尋ねた単語中に正解が含まれていない場合には、音声認識装置10はそれを知ることができる。例えば、初回発話の結果、正解候補単語が「あか」と「あお」に絞られ、さらに上述のように最終的に「あか」と「みずいろ」が待ち受け単語に決定されたとする。その場合、再発話を促すトークバックでは、音声認識装置10はユーザに例えば「「あか」ですか、「みずいろ」ですか、「その他」ですか?」と尋ねる。これに対してユーザが「その他」と再発話したとすれば、ユーザの発話した単語は「あか」でも「みずいろ」でもないことがわかる。そして、音声認識装置10は前回の絞り込みが誤りだったことを認識し、「あか」、「みずいろ」以外の単語候補を探すことが可能となる。
【0043】
こうして、待ち受け単語選択部83は、再発話用の待ち受け単語の数、発音、意味(元単語の読み)などを含む情報を待ち受け単語情報83aとしてスイッチSW1を介して単語モデル生成部3に供給するとともに、合成音声情報生成部85に供給する。その場合、単語モデル生成部3は、待ち受け単語情報83aに含まれる待ち受け単語の単語モデルを生成し、再発話の認識処理において認識処理部5によるマッチング処理に使用させる。即ち、前述の例では、再発話された単語の認識処理において「あか」、「みずいろ」、「その他」の単語モデルがマッチング処理の対象となる。また、合成音声情報生成部85は、待ち受け単語情報83aに基づき、再発話を促すトークバックとして「「あか」ですか、「みずいろ」ですか、「その他」ですか?」という合成音声情報を生成する。この合成音声情報は、合成音声生成部9によりスピーカ11から合成音声として出力される。
【0044】
こうして、音声認識装置10は、再発話の際にはトークバック中に、正解候補単語のうち識別しやすい組み合わせの単語を含め、さらに、それら以外の単語を示す「その他」などの単語を含めてユーザに再発話を促す。これにより、再発話時の認識精度を上げることができる。
【0045】
なお、再発話後の認識処理においても依然として1位単語候補を正解と判定できない場合は、さらに同様の再発話処理を繰り返すことができる。また、再発話処理においては、信頼度分析部81が1位単語候補を正解と判定する際に使用するしきい値を徐々に緩和して、正解との判定がされやすくなるようにすることもできる。
【0046】
また、再発話(複数回の場合を含む)において単語「その他」に対応する単語候補が正解であると判定された場合、即ち、ユーザがトークバック中で指定された現在の待ち受け候補単語中に正解が無いと判断した場合には、待ち受け単語選択部83は、待ち受け単語を1回前の発話時の状態に戻す。この理由は以下の通りである。例えばm回目の発話に対する認識処理において1位単語候補が正解でないと判定された場合、(m+1)回目の発話に対する待ち受け単語は、候補選択部82により上位候補のみに絞り込みがなされている。しかし、(m+1)回目の発話でユーザが「その他」と発話したということは、その際に設定されている待ち受け単語中には正解の単語が無いということであり、絞り込みが誤りであった(待ち受け誤り)ということを意味している。よって、待ち受け単語を絞り込み以前の状態(m回目の発話時の状態)に戻して単語候補の範囲を広げ、必要であれば再発話を促すのである。
【0047】
この場合、信頼度分析部81はスイッチSW1及びSW2を端子T2に接続する。待ち受け単語選択部83は、次回の発話用の待ち受け単語グループを決定する際に、前回の待ち受け単語グループを記憶する。即ち、待ち受け単語選択部83は、過去の待ち受け単語グループを全て記憶しておき、待ち受け誤りの場合には、1回前の待ち受け単語グループを次回の再発話及び認識処理において使用する。
【0048】
こうして、必要に応じて再発話を繰り返し、最終的に信頼度分析部81が、ある1位単語候補を正解であると判定すると、その1位単語候補は認識結果として音声認識装置10から外部装置へと送られる。外部装置とは、音声認識装置10による認識結果をコマンドなどとして使用する装置である。例えば、前述のようにカーナビゲーション装置の入力部に音声認識装置10を使用する場合、認識結果はカーナビゲーション装置のコントローラなどに供給され、その内容(コマンド)に対応する処理が実行される。
【0049】
[音声認識処理]
次に、図3を参照して、上記の音声認識装置10により実行される音声認識処理について説明する。図3は音声認識処理のフローチャートである。
【0050】
まず、ステップS1において、ユーザによる初回発話を認識するための初期設定を行う。具体的には、再発話制御部8は、スイッチSW1を端子T1側に接続し、認識を行う単語候補情報が格納された辞書2内の全単語を、初回発話に対する待ち受け単語として設定する。そして、発話カウンタcを1に設定する。なお、発話カウンタは、認識を行う発話に対する待ち受け単語グループを示す。つまり、発話カウンタc=1は初回発話に対する待ち受け単語グループ(上記の例では、辞書2に格納された全単語)に対応し、発話カウンタc=2は初回発話後に1回絞り込みを行った後の待ち受け単語グループに対応する。
【0051】
次に、ステップS2において、待ち受け単語グループに基づいて、単語モデル生成部3がサブワード音響モデル記憶部1内に記憶されているサブワード音響モデルを使用して、単語モデルを生成する。これにより、初回発話に対する待ち受け単語グループに対応する単語モデルが全て用意されたことになる。
【0052】
次に、ステップS3において音声認識処理が行われる。即ち、ユーザによる発話が行われ、対応する発話音声信号がマイク12を介して音響分析部4に入力される。音響分析部4は発話音声信号の音響分析を行い、その特徴ベクトル系列を得る。そして、認識処理部5は、発話音声信号の特徴ベクトルと、ステップS2において用意された各単語モデルとのマッチング処理を行い、両者間の音響的尤度を単語モデル毎に算出する。
【0053】
次に、ステップS4において、認識信頼度演算部7は、ステップS3で算出された各単語候補についての音響的尤度を、付加情報収集部6が収集した付加情報を用いて重み付けすることにより、各単語候補の認識信頼度を算出する。なお、付加情報は、例えばユーザの過去の発話履歴やナビゲーション装置を搭載した車両の位置情報などである。
【0054】
次に、ステップS5において、信頼度分析部81は、各単語候補の認識信頼度に基づいて、最も認識信頼度が高い1位単語候補が正解であるか否かを分析する。この分析は、前述のように、例えば1位単語候補の信頼度と2位単語候補の信頼度を利用して行うことができる。
【0055】
次に、ステップS6において、信頼度分析部81は、ステップS5における分析の結果に基づいて1位単語候補が正解であるか否かを判定する。1位単語候補が正解であると判定された場合、処理はステップS7に進む。一方、1位単語候補が正解ではないと判定された場合、処理はステップS14へ進む。
【0056】
ステップS6において1位単語候補が正解であると判定された場合、ステップS7において、信頼度分析部81は、その1位単語候補が「その他」に対応する単語であるか否かを判別する。前述のように「その他」に対応する単語候補は、待ち受け単語の絞り込みを行った結果、正解の単語が待ち受け単語に含まれなくなった場合に、待ち受け単語グループを修正するために使用される。1位単語候補が「その他」に対応している場合、処理はステップS10へ進む。1位単語候補が「その他」に対応していない場合、処理はステップS8へ進む。
【0057】
ステップS8に処理が進んだ場合、それは1位単語候補が正解であり、かつ、「その他」の単語候補ではないことを意味する。即ち、その1位単語候補を認識結果として良いことになる。よって、1位候補情報抽出部84は信頼度情報20から1位単語候補を抽出し、1位単語候補が正解であることを示す情報、正解と判定された1位候補単語が何であるかを示す情報、及び、1位単語候補に対応する発音情報などを合成音声情報生成部85へ供給するとともに、正解と判定された1位候補単語が何であるかを示す情報を外部へ認識結果として出力する。
【0058】
ステップS9では、1位単語候補に対応する発音情報に基づいて、合成音声情報生成部85が合成音声情報を生成して合成音声生成部9へ供給し、合成音声生成部9がスピーカ11から1位単語候補の読みを合成音声として出力する。例えば、1位単語候補が「あか」である場合、スピーカからは「あかですね?」というように、ユーザに対して認識結果の通知がなされる。
【0059】
一方、ステップS6において、1位単語候補が正解でないと判定された場合、ステップS14において候補選択部82が正解単語候補を選択する。具体的には、候補選択部82は、1位単語候補の認識信頼度などを利用して正解単語候補を選択する。この処理により、次回発話時の認識処理において使用される単語候補の絞り込みがなされる。
【0060】
次に、ステップS15において、候補選択部82により選択された正解単語候補に基づいて、待ち受け単語選択部83は、識別しやすく発音の異なる単語の組み合わせを生成する。具体的には、待ち受け単語選択部83は、正解候補単語に対応する同意単語の組み合わせのうち、同一音素の数が最も少なく、総音素数の多い単語候補を待ち受け単語として決定する。そして、それらの待ち受け単語を含む待ち受け単語グループを設定する。なお、この待ち受け単語グループ中には、上記の単語の他に、「その他」に対応する単語が含められる。そして、待ち受け単語選択部83は、それらの待ち受け単語に対応する単語情報を辞書2から取得して単語モデル生成部3へ送り、対応する単語モデルを生成させる。こうして、待ち受け単語グループが更新される。
【0061】
また、待ち受け単語選択部83は、更新前の待ち受け単語グループを記憶する。これは、次回の発話においてユーザが「その他」と発話した場合には、1回前の待ち受け単語グループを再度使用する必要が生じるからである。また、待ち受け単語選択部83は、選択した待ち受け単語グループを合成音声情報生成部85へも供給する。
【0062】
ステップS16においては、合成音声情報生成部85及び合成音声生成部9が、再発話を促すトークバックとして、ステップS15で決定された待ち受け単語の合成音声を出力する。例えば、ステップS15において待ち受け単語が「あか」、「あお」、「その他」に決定されたとすると、再発話を促すトークバックとして「あかですか、あおですか、その他ですか?」などの合成音声が出力される。
【0063】
次に、ステップS17において、発話カウンタcを1だけ増加する。その結果、増加後の発話カウンタcは、待ち受け単語グループが、前回の待ち受け単語グループに対して1回の更新後の状態に移行したことを示すようになる。そして、処理はステップS2へ戻り、ステップS15で決定された待ち受け単語グループに含まれる単語の単語モデルが生成され、再発話に対する認識処理が行われる。
【0064】
また、ステップS7において、1位単語候補が「その他」に対応すると判定された場合、それは、その際の待ち受け単語グループ中に正解の単語が含まれていない、即ち待ち受け誤りであることを示している。よって、処理はステップS10へ進み、発話カウンタcの値が1であるか否かを判定する。発話カウンタc=1である場合、現在の認識処理は初回発話に対して行われたものであり、その際の待ち受け単語の組み合わせは、辞書に含まれる全ての単語候補に設定されている。よって、ユーザが発話した単語がもともと辞書2に含まれていないことになる。この場合は、候補なしとして認識処理を終了する。
【0065】
一方、発話カウンタcが1でない場合、処理はステップS11へ進む。ステップS11では、待ち受け単語選択部83は、発話カウンタcの値から1を減算し、先に記憶しておいた前回の待ち受け単語グループを設定する。ユーザが「その他」と発話したということは、正解の単語が現在の待ち受け単語グループ中に含まれていないわけであるから、1回前の認識処理において使用した待ち受け単語グループに戻して再度認識処理を行うのである。なお、待ち受け単語選択部83はステップS14において、待ち受け単語の更新を行った際に、更新前の状態の待ち受け単語グループを記憶しているので、これを読み出して設定すればよい。その際、待ち受け単語選択部83は、「その他」に対応する単語(「待ち受け誤り単語」とも呼ぶ。)が待ち受け単語グループに含まれるようにする。
【0066】
次に、ステップS12において、待ち受け単語選択部83は、そのようにして決定された待ち受け単語グループを単語モデル生成部3及び合成音声情報生成部85へ供給する。単語モデル生成部3は、それらの待ち受け単語に対応する単語モデルを生成し、次回の認識処理において使用できるようにする。また、合成音声情報生成部85及び合成音声生成部9は、供給された待ち受け単語の情報を使用して、対応する単語の合成音声出力を行う。
【0067】
以上のようにして、1位単語候補が正解と判定され、認識結果として出力される(ステップS9)か、又は、候補なしとして認識処理が終了される(ステップS10:Yes)まで、ユーザの発話内容に応じて待ち受け単語グループが更新されつつ認識処理が行われる。1位単語候補の信頼度が正解と判定できる程度まで高くない場合には、信頼度などに基づいて待ち受け単語の絞り込みが行われ、さらに、絞り込まれた単語の同意単語であって音響的に識別しやすい組み合わせの単語を次回の発話時の待ち受け単語として設定することにより待ち受け単語グループが更新される。従って、再発話による認識率を改善することができ、ユーザの発話音声を迅速かつ効率的に認識することが可能となる。
【0068】
[変形例]
図2に示す再発話制御部8においては、信頼度分析部81は、1位単語候補及び2位単語候補を用いて1位単語候補が正解であるか否かを決定していた。その代わりに、信頼度分析部81は、認識信頼度が上位n個の単語候補を使用して1位単語候補が正解であるか否かを決定するように構成することができる。その場合には、1位単語候補が正解であるか否かを決定する処理中に、認識信頼度が上位であるn個の単語候補が決定される。よって、それら認識信頼度が上位であるn個の単語候補が決定された時点で、それらを絞り込み後の正解単語候補とすることができる。こうすれば、候補選択部82の処理を信頼度分析部81が行うことができ、候補選択部82を省略することができる。その場合、正解単語候補の情報は信頼度分析部81から待ち受け単語選択部83へ入力されることになる。
【0069】
図3に示す音声認識処理においては、ステップS7で1位単語候補が「その他」に対応すると判定され、かつ、ステップS8で発話カウンタcが1でないと判定された場合、発話カウンタを1だけ減算して、前回の待ち受け単語グループを次回発話で使用するように設定している。しかし、ステップS7の判定がYesであるということは、前回の待ち受け単語グループ中に正解の単語が無かったことを示しているのであるから、次回の待ち受け単語グループ中にそれらの単語を含めることに意味はない。例えば、「あか」、「あお」、「その他」という待ち受け単語グループを使用した発話において、ユーザが「その他」と発話したということは、ユーザの発話した単語は「あか」、「あお」のいずれでもない。よって、待ち受け単語選択部83は、ステップS11で取得した1回前の待ち受け単語グループ中から、「あか」、「あお」及びそれらの同義語を除いて待ち受け単語グループを設定することができる。これにより、正解ではないことが明白である単語を待ち受け単語グループから除くことにより、認識処理のさらなる効率化が可能となる。
【0070】
なお、上記の音声認識装置10を構成する各要素をコンピュータプログラムとして構成し、コンピュータを備える機器において実行することにより、上記の音声認識装置を実現することが可能である。例えば、コンピュータを備えるカーナビゲーション装置やAV機器などにおいて、上記のコンピュータプログラムを使用することにより、音声入力機能を実現することが可能となる。
【0071】
なお、上記実施形態においては、正解単語候補及びそれらの同意単語のうち、最も識別しやすい組み合わせを次回の再発話に対する待ち受け単語に設定したが、正解単語候補の同意単語のみから最も識別しやすい組み合わせを決定してもよい。
【0072】
また、正解単語候補及びそれらの同意単語に、再発話を促すトークバックに含まれる単語が正解の単語以外であることを示す待ち受け誤り単語も加えて、最も識別しやすい組み合わせを決定してもよい。
【0073】
【発明の効果】
以上説明したように、本発明によれば、認識結果が誤りである可能性が高い場合は、ユーザに再発話を促すことにより、誤認識の可能性を減少させることができる。また、ある発話に対する認識結果が正解であると判定できない場合、その際に使用した待ち受け単語と同意単語であって、音響的に識別が容易な単語を次回の発話の際の待ち受け単語に設定することにより、同じ認識結果が繰り返されることがなくなり、次回の発話による認識率が改善される。また、再発話を促す確認のトークバック中に、現在の待ち受け単語以外の単語を示す「その他」などの単語を含めることにより、正解ではない単語を除去していくことができ、効率的かつ迅速に正解に至ることが可能となる。
【図面の簡単な説明】
【図1】本発明の実施形態にかかる音声認識装置の概略構成を示すブロック図である。
【図2】図1に示す再発話制御部の内部構成を示すブロック図である。
【図3】図1に示す音声認識装置による音声認識処理を示すフローチャートである。
【符号の説明】
1 サブワード音響モデル記憶部
2 辞書
3 単語モデル生成部
4 音響分析部
5 認識処理部
6 付加情報収集部
7 認識信頼度演算部
8 再発話制御部
9 合成音声生成部
10 音声認識装置
11 スピーカ
12 マイク
81 信頼度分析部
82 候補選択部
83 待ち受け単語選択部
84 1位候補情報抽出部
85 合成音声情報生成部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition method for recognizing human speech input via a microphone or the like.
[0002]
[Prior art]
In general, the speech recognition apparatus acoustically analyzes a speech input signal generated based on a user's utterance, and compares each acoustic likelihood (similarity) with a plurality of candidate word models prepared in advance. Degree) and the candidate having the highest acoustic likelihood (referred to as “first candidate”) is determined as the recognition result. If the recognition reliability of the first candidate is not sufficiently high, the speech recognition device determines that there is no correct recognition result, and talks back, such as “Please speak again” to prompt the user to speak again. The recognition process is performed again.
[0003]
The conventional speech recognition apparatus has low reliability of the recognition result, and performs the recognition process again using the same candidate as the previous time even when the user is requested to re-utter. Therefore, if the user repeats the utterance in the same way as the previous time, the recognition result will be the same as the previous time, so that the recognition rate for the recurrent utterance is not improved so much.
[0004]
[Problems to be solved by the invention]
One of speech recognition methods that improve such a point is described in Japanese Patent No. 3112037. In this speech recognition method, when a sufficiently reliable recognition result is not obtained in the recognition process for the first utterance of the user, narrowing down to a few candidates with high reliability and prompting the user to speak again . Further, with respect to a candidate having a higher degree of reliability obtained in the recognition process for the first utterance, those synonyms are added to the candidate to prompt the user to speak again, and the recognition process is performed again.
[0005]
However, in this method, if the correct answer is not included in the top candidates narrowed down by the first recognition result, the recognition cannot be performed. Further, even if a higher-ranked synonym is added to a candidate, if the user uses the same word as the previous one in a recurrent utterance, the meaning of adding the synonym to the candidate is lost.
[0006]
Another speech recognition method is described in Japanese Patent Application Laid-Open No. 11-119792. In the method described in this publication, a set of acoustically similar commands (referred to as “similar type commands”) and a corresponding paraphrase command set are defined and stored in advance. For example, when there are “raise window” and “lower window” as similar type commands, “open window” and “close window” are prepared as paraphrase commands. When the user utters a similar type command, the user requests to speak again using a paraphrase command for the utterance.
[0007]
However, in this method, it is necessary to preliminarily define the correspondence between the similar type command and the paraphrase command corresponding thereto and store it in a memory or the like. Therefore, when a large number of commands are used in the system, the storage capacity required for that purpose increases, leading to an increase in cost.
[0008]
The present invention has been made in view of the above points, and it is an object of the present invention to provide a speech recognition apparatus and a program that enable efficient and accurate recognition while minimizing the number of requests for recurrent speech to the user. .
[0009]
[Means for Solving the Problems]
According to one aspect of the present invention, the speech recognition apparatus responds to the speech input by a matching process between speech input means for receiving the speech input of the user and each standby word in a preset standby word group. Recognition processing means for performing recognition processing for determining a plurality of word candidates; determination means for determining whether or not a correct answer is included in the plurality of word candidates; and each of the plurality of word candidates and their consent word candidates And setting means comprising means for analyzing the phonemes constituting each word candidate, and when the determination means determines that the correct answer is not included in the plurality of word candidates, Each group set for each word candidate in the case where at least the consent word candidates corresponding to the word candidates are grouped from the plurality of word candidates and the consent word candidates. In between the-loop, (1) phoneme of overlapping small (2) Among the extracted combinations, Relative total sound Elementary One candidate is determined for each group so as to have a large number of combinations, and is set to the standby word group used in the next recognition process. When the determination unit determines that a correct answer is not included in the plurality of word candidates, the setting unit determines the word candidate and the consent word candidate from the plurality of word candidates and their consent word candidates. It is preferable to determine candidates between the groups as one group.
[0010]
The voice recognition apparatus receives voice input by the user such as a command, and determines word candidates corresponding to the voice input by the user by matching processing with a preset standby word. Then, it is determined whether or not a correct answer is included in the word candidate. When the determination unit determines that the correct answer is included, the word candidate is output as a recognition result. On the other hand, if the determination unit determines that the correct answer is not included, at least one of the word candidates and the consent word candidate having the same meaning as each word candidate, the consent word candidate corresponding to the word candidate is grouped into one group. (1) There is little overlap of phonemes between groups set for each word candidate (2) Among the extracted combinations, Relative total sound Elementary Candidates are determined between the groups so that there are many combinations, and these are used in the next recognition process. Therefore, since the next recognition process is performed using easy-to-identify word candidates from among the word candidates including the consent word, it is possible to improve the recognition rate of recurrent speech by the user.
[0011]
In one aspect of the speech recognition apparatus, the setting unit includes a unit that analyzes a phoneme constituting each word candidate for each of the plurality of word candidates and their consent word candidates, and a word having the least phoneme overlap. Means for setting a combination of candidates as the standby word.
[0012]
According to this aspect, word candidates including consent word candidates are analyzed from the aspect of phonemes that are their constituent elements, and a combination of word candidates having the smallest phoneme overlap is used as a standby word. Therefore, the recognition processing can be performed in a state where it is easy to distinguish from each other in the speech recognition processing.
[0013]
In another aspect of the speech recognition apparatus described above, the setting unit includes: a unit that analyzes a phoneme constituting each word candidate for each of the plurality of word candidates and their consent word candidates; And a means for setting a combination of word candidates having a small total number of phonemes as the standby word.
[0014]
According to this aspect, word candidates including consent word candidates are analyzed from the aspect of phonemes that are their constituent elements, and a combination of word candidates with the smallest phoneme overlap and the largest total phoneme number is set as a standby word. Use as Therefore, the recognition process can be performed in a state in which the voice recognition process is easier to distinguish.
[0015]
In another aspect of the above speech recognition apparatus, the setting means determines a standby error word that means that the user's voice input corresponds to a word candidate other than the word candidate included in the standby word as the standby word. Can be included in a group. Therefore, when the current standby word does not include the correct answer, the user utters the standby error word, so it can be determined whether or not the current standby word includes the correct answer.
[0016]
In still another aspect of the speech recognition apparatus, the setting unit includes a storage unit that stores a standby word group used in the past, and when the determination unit determines that the standby error word is correct, The setting means can set the previous standby word group stored in the storage means to the standby word group used in the next recognition process. As a result, when the correct answer is not included in the current standby word group, the range of the standby words can be expanded to search for the correct answer.
[0017]
In still another aspect of the speech recognition apparatus, the standby error word may be “other” or a synonym thereof.
[0018]
In still another aspect of the speech recognition apparatus, when the user's speech input is the standby error word, the standby error word corresponds to the word candidate in the standby word group at that time. It is possible to exclude word candidates other than the word candidates to be included from the word candidates to be included in the next standby word group. Since the standby error word indicates that there is no correct answer in the word candidates in the current standby word group, it does not make sense to include them in the next standby word group. Therefore, by excluding those word candidates that are known not to be correct from the next word candidates, it is possible to narrow down the word candidates and obtain a correct answer efficiently.
[0019]
Still another aspect of the speech recognition apparatus described above is, when the determination unit determines that a correct answer is not included in the plurality of word candidates, standby words belonging to the standby word group set by the setting unit, Notification means for notifying the user by at least one of synthesized speech output or character display can be provided. Thereby, since the standby word is notified to the user by the synthesized speech, the user can easily know the word to be re-spoken.
[0020]
In still another aspect of the speech recognition apparatus, the determination unit can relax a criterion for determining the word candidate as correct each time the recognition process is repeated. As a result, the correct answer can be easily obtained as the recognition process is repeated, and the efficiency of the recognition process can be increased. In one preferable example, the determination unit determines that the word candidate is correct when the reliability of the word candidate is equal to or higher than a predetermined threshold, and each time the recognition process is repeated. The threshold value can be lowered.
[0021]
In still another aspect of the above speech recognition apparatus, the setting unit determines a combination of candidates that are most easily identified from the plurality of word candidates, their consent word candidates, and the standby error word, and performs next recognition. The standby word group used in the processing can be set. Therefore, the recognition process can be performed in a state in which the voice recognition process is easier to distinguish.
[0022]
In another aspect of the present invention, a speech recognition program executed by a computer uses the computer to perform a matching process with each standby word in a preset standby word group by using a voice input unit that receives a user's voice input. Recognition processing means for performing recognition processing for determining a plurality of word candidates corresponding to the voice input, means for determining whether or not a correct answer is included in the plurality of word candidates, the plurality of word candidates and their agreed words For each of the candidates, the determination means is configured to function as a setting unit including a unit that analyzes a phoneme constituting each word candidate, and the determination unit determines that a correct answer is not included in the plurality of word candidates. When the means determines, at least one consent word candidate corresponding to the word candidate is selected from the plurality of word candidates and their consent word candidates. Among the groups in the case of the groups (1) phonemes overlap small (2) Among the extracted combinations, Relative total sound Elementary One candidate is determined in each group so as to have a large number of combinations, and functions are set to the standby word group used in the next recognition process.
[0023]
DETAILED DESCRIPTION OF THE INVENTION
Preferred embodiments of the present invention will be described below with reference to the drawings.
[0024]
[Configuration of voice recognition device]
FIG. 1 shows a functional configuration of a speech recognition apparatus according to an embodiment of the present invention. In FIG. 1, a
[0025]
The subword acoustic
[0026]
The
[0027]
The word
[0028]
The
[0029]
In practice, when a user utters a word, several words that the user is expected to utter in that situation are determined as word candidates (this is also referred to as a “standby word”). . When a feature vector sequence corresponding to the user's utterance is obtained, it is matched with a predetermined word candidate (standby word), and the acoustic likelihood for each word candidate is calculated individually.
[0030]
The additional information collection unit 6 collects additional information such as the user's past utterance history. When the voice input device of the present invention is used for a command input unit of a car navigation device, the additional information includes position information of a vehicle on which the car navigation device is mounted. The recognition
[0031]
Specifically, the recognition
[0032]
The recurrent
[0033]
The
[0034]
The
[0035]
When it is determined that the first word candidate is correct, the recognition
[0036]
The first candidate
[0037]
When the first word candidate is correct, the synthesized voice
[0038]
The synthesized
[0039]
On the other hand, when the recognition
[0040]
The standby
[0041]
This will be described in more detail. In the
[0042]
Further, in the present invention, in the case of recurrent utterance, words such as “other”, “other”, and “different” indicating that the word included in the talkback prompting recurrent utterance is other than the correct word are recurred. It is characterized by including it in the talkback that encourages the talk. Thereby, when the correct answer is not included in the word asked to the user by the talkback prompting the recurrent speech, the
[0043]
In this way, the standby
[0044]
In this way, the
[0045]
If the first word candidate cannot be determined to be correct in the recognition process after re-utterance, the same re-utterance process can be repeated. In the re-utterance process, the threshold value used when the
[0046]
Further, when it is determined that the word candidate corresponding to the word “others” is correct in the recurrent utterance (including the case of multiple times), that is, in the current standby candidate word designated by the user during the talkback If it is determined that there is no correct answer, the standby
[0047]
In this case, the
[0048]
Thus, if necessary, the recurrent utterance is repeated, and when the
[0049]
[Voice recognition processing]
Next, the speech recognition process executed by the
[0050]
First, in step S1, initial setting for recognizing the first utterance by the user is performed. Specifically, the recurrent
[0051]
Next, in step S <b> 2, based on the standby word group, the word
[0052]
Next, voice recognition processing is performed in step S3. That is, the user speaks, and the corresponding speech signal is input to the
[0053]
Next, in step S4, the recognition
[0054]
Next, in step S5, the
[0055]
Next, in step S6, the
[0056]
When it is determined in step S6 that the first word candidate is correct, in step S7, the
[0057]
When the process proceeds to step S8, it means that the first word candidate is correct and is not an “other” word candidate. That is, the first word candidate is good as a recognition result. Therefore, the first candidate
[0058]
In step S9, based on the pronunciation information corresponding to the first word candidate, the synthesized speech
[0059]
On the other hand, if it is determined in step S6 that the first word candidate is not correct, the
[0060]
Next, in step S15, based on the correct word candidate selected by the
[0061]
The standby
[0062]
In step S16, the synthesized speech
[0063]
Next, in step S17, the utterance counter c is incremented by one. As a result, the increased utterance counter c indicates that the standby word group has shifted to the state after one update with respect to the previous standby word group. Then, the process returns to step S2, a word model of words included in the standby word group determined in step S15 is generated, and a recognition process for the recurrent utterance is performed.
[0064]
If it is determined in step S7 that the first word candidate corresponds to “others”, it indicates that the word in the standby word group at that time does not include the correct word, that is, a standby error. Yes. Therefore, the process proceeds to step S10, and it is determined whether or not the value of the utterance counter c is 1. When the utterance counter c = 1, the current recognition process is performed for the first utterance, and the combinations of standby words at that time are set for all word candidates included in the dictionary. Therefore, the word spoken by the user is not originally included in the
[0065]
On the other hand, if the utterance counter c is not 1, the process proceeds to step S11. In step S11, the standby
[0066]
Next, in step S <b> 12, the standby
[0067]
As described above, the user's utterance is determined until the first word candidate is determined to be the correct answer and is output as a recognition result (step S9) or the recognition process is terminated as no candidate (step S10: Yes). Recognition processing is performed while the standby word group is updated according to the content. If the reliability of the first word candidate is not high enough to determine that it is correct, the standby words are narrowed down based on the reliability, etc., and further, the consensus word of the narrowed word is acoustically identified The standby word group is updated by setting the easy-to-use combination words as standby words for the next utterance. Therefore, the recognition rate due to recurrent speech can be improved, and the user's speech can be recognized quickly and efficiently.
[0068]
[Modification]
In the recurrent
[0069]
In the speech recognition processing shown in FIG. 3, when it is determined in step S7 that the first word candidate corresponds to “others” and it is determined in step S8 that the utterance counter c is not 1, the utterance counter is decremented by 1. The previous standby word group is set to be used in the next utterance. However, if the determination in step S7 is “Yes”, it means that there is no correct word in the previous standby word group, so that these words are included in the next standby word group. There is no meaning. For example, in the utterance using the standby word group “Aka”, “Ao”, “Other”, the user uttered “Other” means that the user uttered the word “Aka” or “Ao”. not. Therefore, the standby
[0070]
In addition, it is possible to implement | achieve said speech recognition apparatus by comprising each element which comprises said
[0071]
In the above embodiment, among the correct word candidates and their consent words, the most easily identified combination is set as the standby word for the next recurrent utterance. May be determined.
[0072]
In addition to the correct word candidates and their agreed words, a standby error word indicating that the word included in the talkback for prompting recurrent speech is other than the correct word may be added to determine the most easily identifiable combination. .
[0073]
【The invention's effect】
As described above, according to the present invention, when there is a high possibility that the recognition result is erroneous, the possibility of misrecognition can be reduced by prompting the user to speak again. Also, if the recognition result for a certain utterance cannot be determined to be correct, the standby word used at that time and the consent word, which are acoustically easy to identify, are set as the standby word for the next utterance. Thus, the same recognition result is not repeated, and the recognition rate by the next utterance is improved. In addition, by including words such as “others” indicating words other than the current standby word in the confirmation talkback prompting recurrent speech, it is possible to remove words that are not correct, thereby efficiently and quickly. It is possible to reach a correct answer.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a schematic configuration of a speech recognition apparatus according to an embodiment of the present invention.
2 is a block diagram showing an internal configuration of a recurrent speech control unit shown in FIG. 1. FIG.
FIG. 3 is a flowchart showing voice recognition processing by the voice recognition apparatus shown in FIG. 1;
[Explanation of symbols]
1 Subword acoustic model storage
2 Dictionary
3 Word model generator
4 Acoustic analysis section
5 recognition processing section
6 Additional information collection department
7 Recognition reliability calculator
8 Recurrence control unit
9 Synthetic speech generator
10 Voice recognition device
11 Speaker
12 Microphone
81 Reliability Analysis Department
82 Candidate selection part
83 Standby word selector
84 1st candidate information extraction part
85 Synthetic voice information generator
Claims (10)
予め設定された待ち受け単語グループ中の各待ち受け単語とのマッチング処理により、前記音声入力に対応する複数の単語候補を決定する認識処理を行う認識処理手段と、
前記複数の単語候補中に正解が含まれるか否かを判定する判定手段と、
前記複数の単語候補及びそれらの同意単語候補の各々について、各単語候補を構成する音素を分析する手段を具備する設定手段と、を備え、
前記設定手段は、前記複数の単語候補中に正解が含まれないと前記判定手段が判定した場合に、前記複数の単語候補及びそれらの同意単語候補から、少なくとも前記単語候補に対応する同意単語候補を一つのグループとした場合の前記単語候補毎に設定される各グループ間において、(1)音素の重複が少ない組み合わせを抽出し、(2)前記抽出された組み合わせのうち、相対的に総音素数が多い組み合わせとなるように前記各グループで1つの候補を決定し、次回の認識処理において使用される前記待ち受け単語グループに設定することを特徴とする音声認識装置。Voice input means for receiving the user's voice input;
Recognition processing means for performing recognition processing for determining a plurality of word candidates corresponding to the voice input by matching processing with each standby word in a preset standby word group;
Determining means for determining whether or not a correct answer is included in the plurality of word candidates;
Setting means comprising means for analyzing the phonemes constituting each word candidate for each of the plurality of word candidates and their consent word candidates;
The setting means, when the determination means determines that a correct answer is not included in the plurality of word candidates, the consent word candidate corresponding to at least the word candidate from the plurality of word candidates and their consent word candidates the between each group the set for each word candidate in the case of the one group, (1) extracts the combination phonemes overlap has little, (2) among combinations the extracted relatively total said to be a combination sound prime number is often determines one candidate in each group, the speech recognition apparatus characterized by setting the standby word group is used in the next recognition processing.
前記判定手段が前記待ち受け誤り単語を正解と判定した場合、前記設定手段は、前記記憶手段に記憶されている1回前の待ち受け単語グループを、次回の認識処理において使用する待ち受け単語グループに設定することを特徴とする請求項3に記載の音声認識装置。The setting means includes storage means for storing standby word groups used in the past,
When the determination unit determines that the standby error word is correct, the setting unit sets the previous standby word group stored in the storage unit as a standby word group to be used in the next recognition process. The speech recognition apparatus according to claim 3.
ユーザの音声入力を受け取る音声入力手段、
予め設定された待ち受け単語グループ中の各待ち受け単語とのマッチング処理により、前記音声入力に対応する複数の単語候補を決定する認識処理を行う認識処理手段、
前記複数の単語候補中に正解が含まれるか否かを判定する手段、
前記複数の単語候補及びそれらの同意単語候補の各々について、各単語候補を構成する音素を分析する手段を具備する設定手段、として機能させ、
かつ、前記設定手段をして、前記複数の単語候補中に正解が含まれないと前記判定手段が判定した場合に、前記複数の単語候補及びそれらの同意単語候補から、少なくとも前記単語候補に対応する同意単語候補を一つのグループとした場合の各グループ間において(1)音素の重複が少ない組み合わせを抽出し、(2)前記抽出された組み合わせのうち、相対的に総音素数が多い組み合わせとなるように前記各グループで1つの候補を決定し、次回の認識処理において使用される前記待ち受け単語グループに設定するよう機能させることを特徴とする音声認識プログラム。A speech recognition program executed by a computer comprising:
Voice input means for receiving the voice input of the user,
A recognition processing means for performing a recognition process for determining a plurality of word candidates corresponding to the voice input by a matching process with each standby word in a preset standby word group;
Means for determining whether or not a correct answer is included in the plurality of word candidates;
For each of the plurality of word candidates and their consent word candidates, function as setting means comprising means for analyzing the phonemes constituting each word candidate,
And when the determination means determines that the correct answer is not included in the plurality of word candidates, the setting means corresponds to at least the word candidates from the plurality of word candidates and their consent word candidates agree word candidates among the groups in the case of a single group (1) extracts the combination overlap has little of phonemes, (2) among combinations the extracted, often relatively Sooto prime number A speech recognition program that functions to determine one candidate in each group so as to be combined and to set the candidate word group to be used in the next recognition process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003132640A JP4475380B2 (en) | 2002-05-15 | 2003-05-12 | Speech recognition apparatus and speech recognition program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002140550 | 2002-05-15 | ||
JP2003132640A JP4475380B2 (en) | 2002-05-15 | 2003-05-12 | Speech recognition apparatus and speech recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004046106A JP2004046106A (en) | 2004-02-12 |
JP4475380B2 true JP4475380B2 (en) | 2010-06-09 |
Family
ID=31719386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003132640A Expired - Lifetime JP4475380B2 (en) | 2002-05-15 | 2003-05-12 | Speech recognition apparatus and speech recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4475380B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1895508B1 (en) | 2005-06-21 | 2010-10-06 | Pioneer Corporation | Speech recognizing device, information processing device, speech recognizing method, program, and recording medium |
JP4735958B2 (en) * | 2005-07-21 | 2011-07-27 | 日本電気株式会社 | Text mining device, text mining method, and text mining program |
JP4666648B2 (en) * | 2006-09-01 | 2011-04-06 | 本田技研工業株式会社 | Voice response system, voice response program |
JP5370335B2 (en) * | 2010-10-26 | 2013-12-18 | 日本電気株式会社 | Speech recognition support system, speech recognition support device, user terminal, method and program |
WO2017130486A1 (en) * | 2016-01-28 | 2017-08-03 | ソニー株式会社 | Information processing device, information processing method, and program |
CN106297797B (en) | 2016-07-26 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | Method for correcting error of voice identification result and device |
WO2018047421A1 (en) * | 2016-09-09 | 2018-03-15 | ソニー株式会社 | Speech processing device, information processing device, speech processing method, and information processing method |
-
2003
- 2003-05-12 JP JP2003132640A patent/JP4475380B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2004046106A (en) | 2004-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5963903A (en) | Method and system for dynamically adjusted training for speech recognition | |
KR100679044B1 (en) | Method and apparatus for speech recognition | |
US6535850B1 (en) | Smart training and smart scoring in SD speech recognition system with user defined vocabulary | |
US20220343895A1 (en) | User-defined keyword spotting | |
JPH11175090A (en) | Speaker clustering processor and voice recognition device | |
WO1998000834A9 (en) | Method and system for dynamically adjusted training for speech recognition | |
US20030216918A1 (en) | Voice recognition apparatus and voice recognition program | |
JPWO2005096271A1 (en) | Speech recognition apparatus and speech recognition method | |
JP6481939B2 (en) | Speech recognition apparatus and speech recognition program | |
JP4475380B2 (en) | Speech recognition apparatus and speech recognition program | |
JPH11149294A (en) | Voice recognition device and voice recognition method | |
JP3444108B2 (en) | Voice recognition device | |
JP3914709B2 (en) | Speech recognition method and system | |
JPS63186299A (en) | Word voice recognition equipment | |
JP2001175276A (en) | Speech recognizing device and recording medium | |
JPH08241096A (en) | Speech recognition method | |
JP2980382B2 (en) | Speaker adaptive speech recognition method and apparatus | |
JPH0997095A (en) | Speech recognition device | |
JP2000305590A (en) | Speech recognition method | |
JP2003345384A (en) | Method, device, and program for voice recognition | |
JP3231365B2 (en) | Voice recognition device | |
JP3291073B2 (en) | Voice recognition method | |
JPH0455518B2 (en) | ||
JPH0247758B2 (en) | ||
US20090125297A1 (en) | Automatic generation of distractors for special-purpose speech recognition grammars |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060420 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091215 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20091215 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20091215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100223 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100302 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130319 Year of fee payment: 3 |