JP2004029354A - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents
音声認識装置、音声認識方法及び音声認識プログラム Download PDFInfo
- Publication number
- JP2004029354A JP2004029354A JP2002185131A JP2002185131A JP2004029354A JP 2004029354 A JP2004029354 A JP 2004029354A JP 2002185131 A JP2002185131 A JP 2002185131A JP 2002185131 A JP2002185131 A JP 2002185131A JP 2004029354 A JP2004029354 A JP 2004029354A
- Authority
- JP
- Japan
- Prior art keywords
- word
- registration
- utterance
- result
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】発声登録単語が単語辞書内の単語に類似している場合でも、ユーザに類似度の判定結果を提示し、ユーザーの登録操作を受け付けることにより、登録操作の作業性を向上させると共に、音声認識率を向上させる。
【解決手段】音声認識部6は、入力音声の音声認識を行って認識結果の単語を出力する。単語登録パターン作成部7は、入力音声から発声登録単語を作成する。発声登録判定部8は、作成された発声登録単語が認識結果の単語と類似しているか否かを判定する。この判定結果は全体制御部1によってモニタ11及びスピーカ12によってユーザに提示される。ユーザは、提示によって発声登録単語を登録すべきか否かを判断することができる。ユーザは提示された判定結果を参照しながら、全体制御部1によって提供されるGUIによって登録作業を行う。これにより、登録操作の作業性を向上させることができ、類似した単語であっても登録可能とすることにより、音声認識精度を向上させることができる。
【選択図】 図1
【解決手段】音声認識部6は、入力音声の音声認識を行って認識結果の単語を出力する。単語登録パターン作成部7は、入力音声から発声登録単語を作成する。発声登録判定部8は、作成された発声登録単語が認識結果の単語と類似しているか否かを判定する。この判定結果は全体制御部1によってモニタ11及びスピーカ12によってユーザに提示される。ユーザは、提示によって発声登録単語を登録すべきか否かを判断することができる。ユーザは提示された判定結果を参照しながら、全体制御部1によって提供されるGUIによって登録作業を行う。これにより、登録操作の作業性を向上させることができ、類似した単語であっても登録可能とすることにより、音声認識精度を向上させることができる。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、音声による単語登録が可能な音声認識装置、音声認識方法及び音声認識プログラムに関する。
【0002】
【従来の技術】
近年、音声認識技術の性能向上に伴い、実環境における音声認識エンジンの実用が活発になってきている。特に、カーナビゲーションシステムやモバイル機器など入力装置が限定されるような状況において、音声認識への期待は大きい。
【0003】
音声認識装置においては、音素モデルを基に作成した認識対象語彙と入力音声から抽出した特徴量とを比較し、比較結果の数値(以下、尤度という)が最も高い値の語彙を音声認識結果として出力する。この場合において、音声認識結果の精度を向上させるために、音声認識装置は、用途に応じて、種々の認識対象語彙を収録した語彙辞書(単語辞書)を利用する。
【0004】
単語辞書には、音声認識エンジンが適用されるシステムに応じた単語が予めシステム単語として登録されている。更に、ユーザの発声によって登録される単語(以下、発声登録単語という)も単語辞書に登録されている。このように、ユーザの音声によって単語登録(発声登録)を行うことにより、単語辞書をユーザに適したものにして、音声認識精度を向上させることができる。なお、「単語」という言葉は、通常の意味の単語だけではなく、文章や語句、単語列のような、複数の語の組み合わせも含むものとする。
【0005】
発声登録は、入力された音声に対して音素モデルを用いた音声認識を行い、これによって得られた音素系列に基づいて単語登録パターンを作成し、登録するものである。この場合において、ユーザの発声登録操作による発声登録を無制限に行うと、異なる単語であっても類似した単語登録パターンで登録される虞がある。
【0006】
一般に日本語連続音声認識では音素/b/, /d/, /g/ のような類似子音の識別、「正しい言い方」のような同じ母音が連続する場合の識別が困難であることや、言語にもよるが/ok(u)rimas(u)/等のような無声化母音、/kaigi/ における/g/ の鼻音化/ng/ 、前後音素環境による発音変化や、周囲騒音が強いと発声形態が変わるロンバード効果によって、認識が難しい場合があることが指摘されている。
【0007】
このような音声認識システムにおいて、例えば「灘(なだ)」と「奈良(なら)」を発声登録した場合、音声認識装置の性能やユーザの癖などによって、生成される発声登録単語が、例えば共に「なな」のようになり、完全に一致してしまう場合も起こりうる。このため、無制限に発声登録を許可すると、類似性の高い単語同士の誤認識を誘発しやすく、2つの単語を区別することができなくなってしまうことがある。
【0008】
そこで、特開平8−110790号公報(以下、文献1という)においては、発声登録を制限する方法が開示されている。即ち、文献1においては、辞書内の単語と新たに発声登録しようとする単語の類似性を判定し、類似性が高い場合には、一律、登録できない旨の情報をユーザに提示するのである。
【0009】
【発明が解決しようとする課題】
ところで、一般的な音声認識の単語辞書は、上述したように、ユーザの発声登録によって辞書に追加した発声登録単語と、辞書に予め登録されているシステム単語とを含んでいる。システム単語の一部に、ユーザにとって認識率の悪い単語が存在する場合には、ユーザは、自分の発声でその単語を発声登録しようと試みることが考えられる。例えば「東(ひがし)」というシステム単語を「しがし」と発声する癖のあるユーザにとっては、「東」の認識率は悪いので、ユーザは「東」を「しがし」という発声で登録しようとする。
【0010】
しかしながら、文献1の方法を採用すると、ユーザが「しがし」という文字列で発声登録をした場合でも、この単語登録パターンは辞書内の「東」と類似していると判定される。従って、文献1の方法を採用した場合には、「しがし」を発声登録することはできず、ユーザは「東」の認識率の悪さを改善することはできない。
【0011】
ところで、発声登録単語のように音声で単語を登録する場合には、ユーザの発声スタイルの経時変化という問題にも対処しなければならない。人間が全く同じ言葉を2度発声しても、音声認識装置が出力する発声登録単語は全く同じになるとは限らない。例えば、加齢による声質の変化や調音様式の変化といった要因により、2度の発声の時間間隔が長くなるにつれ、一般的には、2つの発声に対する発声登録単語の違いが大きくなる傾向にある。
【0012】
経時変化が大きい場合には、発声登録単語を再登録すれば問題はないが、経時変化があまり大きくない場合や発声の揺らぎ等の場合には、発声登録単語は、過去に登録した同一語に対する発声登録単語と大差ではないが、認識には影響を与える可能性がある。
【0013】
このような場合、なるべく最近の発声を登録したほうが認識性能は高くなるが、文献1の方法では、過去に登録した単語に対し再登録を試みた場合、過去に登録した発声登録単語との類似性が高く、登録不能である可能性が高い。このため、再登録に際して、発声前に過去に登録した発声登録単語を一旦削除した後、発声登録を行う必要があり、再登録が煩雑である。
【0014】
また、過去に同一単語を登録したか否かに確証をもてないユーザにとっては、一度その単語を発声し、システムに登録できなかったことによって、はじめて過去に同一単語が登録されていたことを知ることになる。この場合にも、一旦、過去の発声登録単語を削除し、再度発声し直さなければならず、ユーザの再登録操作は煩雑である。
【0015】
本発明は、発声登録単語に対してその種別に応じた登録処理を可能とすることにより、ユーザの登録操作の作業性を向上させると共に、音声認識率を向上させることができる音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。
【0016】
【課題を解決するための手段】
本発明の請求項1に係る音声認識装置は、入力音声を音響分析する音響分析部と、単語辞書を格納した単語辞書格納部と、前記音響分析部による音響分析結果と前記単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識部と、音響モデルを格納する音響モデル格納部と、前記音響モデルを用いて前記音響分析部による音響分析結果から発声登録単語を生成する単語登録パターン作成部と、音声登録モード時に、前記音声認識部の認識結果の単語と前記単語登録パターン作成部からの発声登録単語との類似度を判定する判定手段と、前記判定手段による前記類似度の判定結果に従って、前記単語登録パターン作成部からの発声登録単語の登録の可否を決定する制御手段と、前記音声認識部の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって前記判定手段における前記類似度の判定基準を変更する変更手段とを具備したものであり、
本意発明の請求項2に係る音声認識装置は、入力音声を音響分析する音響分析部と、単語辞書を格納した単語辞書格納部と、前記音響分析部による音響分析結果と前記単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識部と、音響モデルを格納する音響モデル格納部と、前記音響モデルを用いて前記音響分析部による音響分析結果から発声登録単語を生成する単語登録パターン作成部と、音声登録モード時に、前記音声認識部の認識結果の単語と前記単語登録パターン作成部からの発声登録単語との類似度を判定する判定手段と、前記判定手段による前記類似度の判定結果を提示する提示手段とを具備したものである。
【0017】
本発明の請求項1において、音響分析部は、入力音声を音響分析する。音声認識部は、音響分析結果と単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する。一方、単語登録パターン作成部は、音響モデルを用いて音響分析部による音響分析結果から発声登録単語を生成する。判定手段は、音声登録モード時には、音声認識部の認識結果の単語と単語登録パターン作成部からの発声登録単語との類似度を判定する。この類似度の判定に際して、変更手段は、音声認識部の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって判定基準を変更する。制御手段は、この類似度の判定結果に従って、単語登録パターン作成部からの発声登録単語の登録の可否を決定する。これにより、システムに応じた発声登録処理が可能となり、音声認識精度が向上する。
【0018】
本発明の請求項2において、音響分析部は、入力音声を音響分析し、音声認識部は、音響分析結果と単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する。一方、単語登録パターン作成部によって、音響分析結果から発声登録単語が生成される。判定手段は、音声登録モード時には、音声認識部の認識結果の単語と単語登録パターン作成部からの発声登録単語との類似度を判定する。この類似度の判定結果は、提示手段によって提示される。この提示を参照することで、ユーザは、発声登録処理として選択すべき処理を容易に認識することができる。
【0019】
なお、装置に係る本発明は方法に係る発明としても成立する。
【0020】
また、装置に係る本発明は、コンピュータに当該発明に相当する処理を実現させるためのプログラムとしても成立する。
【0021】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は本発明の第1の実施の形態に係る音声認識装置を示すブロック図である。
【0022】
本実施の形態は発声登録に際して、発声登録しようとする発声登録単語に類似した単語(以下、発声登録単語の類似単語ともいう)が単語辞書中に存在する場合には、発声登録単語の類似単語の種別に応じて、例えば、発声単語がシステム単語に類似しているか既登録の発声登録単語に類似しているかに応じて、類似度の登録判定基準を変更すると共に、登録の可否を含む登録処理を切換え、ユーザに登録作業についての情報を提示することにより、音声登録の作業性を向上させると共に、音声認識精度を向上させるようにしたものである。
【0023】
なお、発声単語の類似単語の種別として、本実施の形態は、システム単語と既登録の発声登録単語との2種別の例を説明するが、発声登録単語の類似単語の種別としては種々の種別が考えられ、例えば、システム単語の一部の単語とそれ以外の単語という2種別、システム単語の一部、それ以外のシステム単語、既登録の発声登録単語の3種別等の各種種別があり、本実施の形態の2種別の場合と同様に適用可能である。
【0024】
図1において、全体制御部1は、装置全体の制御を行う。例えば、全体制御部1は、各構成部間のデータの授受の制御、音声入出力の制御、ユーザの指示入力の受付、モニタ11の画面表示の制御、スピーカ12の音響出力の制御等の装置全体の制御を行う。また、全体制御部1には入力音声も入力されるようになっている。全体制御部1は、発声登録モード時には、入力音声の音声波形を一時的に記憶するようになっている。
【0025】
スイッチ2a,2bは、全体制御部1に制御されて、音声登録モードと音声認識モードとの切換えを行う。入力音声は音響分析部3に与えられるようになっている。音響分析部3は、入力された音声を音響分析して、分析結果をスイッチ2aを介して出力する。例えば、音声分析部3は、入力された音声を一定時間間隔(フレーム)毎に音響分析し、分析結果としてケプストラムやパワスペクトル等の音声特徴量の時系列及び音声の開始時刻、終了時刻を出力する。
【0026】
スイッチ2a,2bは連動制御され、発声登録モード時には端子Rを選択し、音声認識モード時には端子Sを選択する。音響モデル格納部4は、音響(音素)モデルを格納する。単語辞書格納部5は、システム単語及びユーザによる発声登録単語を含む単語辞書を格納する。
【0027】
音声認識部6は、音響分析部3によって分析された特徴量が与えられて、単語辞書格納部5内の単語辞書に登録されている単語の特徴量パターンとの間でパターンマッチングを行い、尤度が最も高い値の語彙を認識結果の単語として出力する。なお、音声認識部6は、最も尤度の高い語彙から尤度の高い順に、認識結果を複数出力するものであってもよい。また、音声認識部6は、入力音声に該当する単語が単語辞書中に存在しないと判定した場合には、認識結果がないこと表す出力を行う。
【0028】
一方、単語登録パターン作成部7は、発声登録モードにおいて動作し、音響モデル格納部4の音響モデルを用いて、音響分析部3が出力した特徴量を音素系列に変換して、入力音声に符合する発声登録単語及びその音響スコア等の付加的な情報を出力する。
【0029】
音声認識部6からの認識単語はスイッチ2bを介して発声登録判定部8に与えられ、単語登録パターン作成部7からの発声登録単語は直接発声登録判定部8に与えられる。発声登録判定部8は、発声登録モードにおいて動作し、音声認識部6の認識結果によって、入力音声がシステム単語と既登録の発声登録単語とのいずれに類似しているかを判定し、判定結果に応じて、入力音声を発声登録するか否かの登録判定基準を変更するようになっている。
【0030】
入力音声がシステム単語に類似していると判定した場合に、例えば、登録(類似)判定基準を厳しく設定すると、システム単語に類似した発声登録単語の登録が行われにくくなる。逆に、システム単語に対する類似判定基準を緩く設定すると、システム単語のバリエーションとして発声登録単語を登録しやすくなる。
【0031】
また、入力音声が既登録の発声登録単語に類似していると判定した場合に、例えば、登録(類似)判定基準を厳しく設定すると、発声登録単語に類似した発声登録単語の登録が行われにくくなる。逆に、既登録の発声登録単語に対する類似判定基準を緩く設定すると、入力音声に基づく発声登録単語で既登録の発声登録単語を登録、置換しやすくなり、新たな発声登録単語の登録数を増やしやすくなる。
【0032】
このように類似度の判定基準を変更することで、音声認識装置を用いるシステムの種類に最適な発声登録処理を設定することができ、音声認識精度を向上させることができる。
【0033】
なお、音声登録判定部8による音声認識部6の認識結果がシステム単語であるか発声登録単語であるかの判定方法としては種々の方法が考えられる。例えば、各単語に発声登録単語であるかシステム単語であるかを示すフラグを付与しておく方法、各単語にID番号を割り当て、システム単語にはある値以下のID番号を割り当て、発声登録単語に対してはその値よりも大きいID番号を割り当てる方法等もある。
【0034】
音声格納部9は、発声登録判定部8から発声登録可と判定されて発声登録された単語の音声波形が、全体制御部1から供給されるようになっている。音声格納部9は、供給される音声波形を割り当てられたIDと共に格納すると共に、格納されている音声波形を全体制御部1に出力することができるようになっている。全体制御部1は、音声格納部9に書込み又は音声格納部9から読出す音声波形をスピーカ12に与えることで、音声を音響出力させることができるようになっている。なお、音声格納部9は必ずしも必須の構成要素ではない。
【0035】
次に、このように構成された実施の形態の動作について図2乃至図11を参照して説明する。図2は音声認識モード時の動作を示すフローチャートであり、図3は音声登録モード時の動作を示すフローチャートである。図4及び図9は図1中の発声登録判定部8の判定処理を説明するためのフローチャートである。図5、図7及び図10はモニタ11の画面表示を示す説明図であり、図6、図8及び図11はスピーカ12からの音響出力を示す説明図である。
【0036】
いま、音声認識モードであるものとする。先ず図2のステップS1 において、入力音声は音響分析部3に与えられて音響分析される。音響分析部3は、入力音声から得た音声特徴量の時系列をスイッチ2aを介して音声認識部6に出力する。音声認識部6は、ステップS2 において、入力音声の音声特徴量の時系列と単語辞書格納部5に格納されている語彙の音声特徴量とを照合し、認識結果として出力する(ステップS3 )。
【0037】
音声認識部6からの認識結果はスイッチ2bを介して全体制御部1に与えられる。こうして、全体制御部1において、音声認識結果を所定のアプリケーションに用いることができる。
【0038】
次に、発声登録モードが指定されるものとする。この場合には図3のフローが採用される。
【0039】
即ち、入力音声は、ステップS1 において、音響分析部3に与えられて音響分析される。音響分析部3からの入力音声の特徴量時系列は、スイッチ2aを介して、音声認識部6及び単語登録パターン作成部7に与えられる。音声認識部6においては、音声認識モード時と同様に、単語辞書の登録語彙との間で特徴量時系列のパターンマッチングを行って、認識結果として出力する。
【0040】
一方、単語登録パターン生成部7は、入力された音声特徴量に対して発声登録単語を出力する(ステップS5 )。なお、発声登録単語の作成方法は、文献1に記載の方法を用いればよい。また、音響分析部3からの音声特徴量の時系列は音声認識部6にも与えられており、音声認識部6はパターンマッチングによって、尤度が高い登録語彙を単語辞書から抽出して認識結果として出力する(ステップS2 )。
【0041】
音声認識部6からの認識結果である登録単語は、スイッチ2bを介して発声登録判定部8に与えられる。また、単語登録パターン作成部7からの発声登録単語も発声登録判定部8に与えられる。発声登録判定部8は、ステップS6 において、発声登録単語を単語辞書に登録するか否かの登録判定を行う。
【0042】
先ず、発声登録判定部8は、音声認識部6からの認識結果によって、入力音声がシステム単語に類似しているか既存の発声登録単語に類似しているかを判定する。なお、ここでは、認識結果の単語は1個であるか又は0個である例について説明する。即ち、図4のステップS11において、発声登録判定部8は、音声認識部6からの認識結果の単語数が0であるか1であるかを判定する。0である場合、即ち、音声認識部6において、発声登録単語に類似した単語が登録されていないものと判定された場合には、発声登録判定部8は、処理をステップS16に移行して、単語登録パターン作成部7からの発声登録単語を登録すべき旨の処理を行う。発声登録判定部8は、発声登録単語を単語辞書格納部5に与えて、ユーザによる発声登録単語として登録する。
【0043】
音声認識部6からの認識結果の単語数が1である場合には、発声登録判定部8は、認識結果の登録単語がシステム単語である否かを判定する。システム単語である場合には、入力発声に基づく発声登録単語は、システム単語に類似している可能性があるものとしてステップS13に処理を移行する。ステップS13では、システム単語用の類似度判定基準を用いて、入力発声に基づく発声登録単語と対応するシステム単語との類似度を判定する。
【0044】
一方、ステップS12でシステム単語ではないものと判定された場合には、入力発声に基づく発声登録単語は、ユーザ登録による既登録の発声登録単語に類似している可能性があるものとしてステップS14に処理を移行する。ステップS14では、発声登録単語用の類似度判定基準を用いて、入力発声に基づく発声登録単語と対応する既登録の発声登録単語との類似度を判定する。
【0045】
なお、発声登録判定部8による発声登録単語と認識結果の単語との類似度の計算は、例えば、類似度=(発声登録単語の音響スコア―認識結果の単語の音響スコア)と定義することによって求めてもよい。この定義の場合には、差の絶対値が小さいほど、類似性が高いことを意味する。また、この定義では、類似度が負になる場合には、認識結果の単語のスコアのほうが発声登録単語のスコアよりも高いので、発声登録単語は登録しないようにする方法を採用してもよい。
【0046】
なお、これらの音響スコアは、通常の音声認識方法でよく用いられるViterbiスコアであり、発声登録単語作成時及び音声認識時に計算されるものである。音声認識方法やViterbiスコア等については、中川聖一著『確率モデルによる音声認識』電子情報通信学会に詳述されている。
【0047】
ステップS13,S14において、類似度の判定基準がシステム単語用と既登録の発声登録単語用とで切換えられており、音声認識システムが適用される各アプリケーションに適した設定での類似度判定が可能である。
【0048】
発声登録判定部8は、ステップS13,S14において、入力発声に基づく発声登録単語が、単語辞書内の単語に類似していないと判定した場合には、処理をステップS16に移行して、単語登録パターン作成部7からの発声登録単語を登録すべき旨の処理を行う。
【0049】
一方、発声登録判定部8は、ステップS13,S14において入力発声に基づく発声登録単語が、単語辞書内の単語に類似していると判定した場合には、処理をステップS17に移行する。ステップS17では、ユーザに類似度の判定結果を提示すると共に、ユーザの操作を容易にするための、例えばGUI(グラフィカルユーザインターフェース)を提供する。
【0050】
即ち、発声登録判定部8の判定結果は全体制御部1に供給される。全体制御部1は、発声登録単語がシステム単語に類似していると判定された場合、既登録の発声登録単語に類似していると判定された場合又は登録単語には類似していないと判定された場合に応じて異なる提示を行う。
【0051】
いま、発声登録単語がシステム単語に類似していることを示す判定結果が全体制御部1に供給されるものとする。この場合には、発声登録単語は、音声認識部6による認識結果の単語と同一単語である可能性もあり、また、認識結果の単語に類似した別単語である可能性もある。
【0052】
全体制御部1は、類似度の判定結果に基づく提示を行う。例えば、全体制御部1は、モニタ11に図5に示す登録制御画面61を表示させる。図5の登録制御画面61は、発声登録単語が単語IDが10のシステム単語である「東」であることが示されており、また、発声登録判定部8の判定結果である類似度が80/100であることが示されている。そして、登録制御画面61上には、ユーザの指示を受け付けるための、「登録音声再生」ボタン62、「関連付けて登録」ボタン63、「登録する」ボタン64及び「登録しない」ボタン65が表示されている。なお、モニタ11の表示画面はタッチパネルを構成しており、ボタン62〜65の表示上をユーザが指等で触れることによって、ボタンに応じた処理が行われる。
【0053】
ボタン62に対するタッチ操作が行われると、全体制御部1は、単語辞書格納部5から単語IDが10の単語「東」を読出して、音声波形を生成し、スピーカ12に供給する。これにより、スピーカ12は「ひがし」と音声出力する。
【0054】
ボタン63が操作されると、全体制御部1は、発声登録判定部8に、発声登録単語を単語IDが10の単語「東」に関連付けて登録するように指示を出す。この場合には、発声登録判定部8は、システム単語「東」に関連付けて、発声登録単語を単語辞書格納部5の単語辞書に登録する。こうして、この場合には、ユーザはその認識結果のバリエーションとして、今回得られた発声登録単語を登録することができる。即ち、この場合には、この発声登録単語が認識された場合には、そのシステム単語が認識された時と同じ動作をするように設定される。例えば、音声認識装置に単語IDと動作の対応を関連付けたテーブルを設け、システム単語と関連付けて登録する発声登録単語のIDと対応するシステム単語の動作との対応を登録することによって実現可能である。
【0055】
ボタン64が操作されると、全体制御部1は、発声登録判定部8に、発声登録単語の登録を指示する。この場合には、発声登録判定部8は、発声登録単語を単語辞書格納部5の単語辞書に登録する。なお、この場合には、発声登録単語に対して、新たな特定の動作を割り当てることが可能である。そして、ボタン65が操作されると、全体制御部1は、発声登録判定部8に、発声登録単語を登録しないことを指示する。
【0056】
なお、全体制御部1は、発声登録モードの場合には、一連の登録判定を行う前に、格納している入力音声を再生し、一旦、ユーザにこの音声に対しこのまま登録処理を続けてよいか確認することも可能である。これにより、発声を間違えた場合や咳払い等の非音声が混入した場合等において、その後の処理が無駄に続けられることを防止することができる。
【0057】
また、全体制御部1は、類似度の判定結果をスピーカ12によって音響出力することで、発声登録操作を音声によって継続することも可能である。図6はこの場合にスピーカ12から出力される音響を示している。図6において、“装置”はスピーカ12からの音響出力を示しており、“ユーザ”はこの音響出力に対するユーザの操作入力音声の例を示している。
【0058】
図6の例では、全体制御部1は、先ず、類似度の判定結果である「発声された音声と類似度の高い単語があります。単語IDは10、単語名は東 類似度は80です。」を音響出力させる。ユーザが「音声再生。」と入力すると、全体制御部1は、図示しないマイクロフォンからの音声入力を受け付けて、記憶している発声登録単語の入力音声を再生する。発声登録単語は、スピーカ12から音響出力される。図6の例では、全体制御部1は、登録しようとする入力音声を再生する旨の音声出力をした後、記録されている入力音声を音響出力する。図6の例では、ユーザが登録しようとする「ひがし」の単語の前に、「き…」というノイズが混入していることが示されている。
【0059】
図6の例では、ユーザはこの音声を発声登録単語として登録しない旨の音声入力を行っている。これに対し、全体制御部1は、登録を中止してよいか否かの確認のための音声出力を出力し、これに対するユーザの応答に従って、全体制御部1は、発声登録単語の登録中止を宣言している。
【0060】
なお、図6の例ではユーザが登録を希望しない場合の例を説明したが、図5の画面表示の場合と同様に、「登録音声再生」、「関連付けて登録」、「登録する」及び「登録しない」等の処理も可能であることは明らかである。
【0061】
なお、音声対話を行う場合には、全体制御部1は、一旦認識結果、発声登録単語を記憶し、音声認識装置を発声登録モードから音声認識モードに切り替え、対話終了後、再び発声登録モードに戻し、登録操作を継続する。
【0062】
このように、図6に示す音声対話を採用することによって、画面表示が不可能なシステムにおいても、ユーザに提示する情報及びユーザからの指示を受けることができる。
【0063】
次に、発声登録単語が既登録の発声登録単語に類似していることを示す判定結果が全体制御部1に供給されるものとする。この場合にも、発声登録単語は、音声認識部6による認識結果の単語と同一単語である可能性もあり、また、認識結果の単語に類似した別単語である可能性もある。
【0064】
全体制御部1は、この場合にも、類似度の判定結果に基づく提示を行う。例えば、全体制御部1は、モニタ11に図7に示す登録制御画面81を表示させる。図7の登録制御画面81は、発声登録単語が単語IDが10032の発声登録単語であることが示されている。発声登録単語は文字列として画面表示することはできないことがあり、登録制御画面81においては、発声登録単語の登録日時(2002年1月11日 10時15分)が表示されている。また、発声登録判定部8の判定結果である類似度が90/100であることが示されている。即ち、登録制御画面81上には、発声登録単語に関する情報が表示される。
【0065】
なお、図7の例では単語名として、「発声登録単語」を表示させたが、入力音声に基づいて解析した発声登録単語をモデル化された状態でそのまま表示するようにしてもよい。この場合には、発声登録単語のモデル化の手法によっても異なるが、無意味なカナ文字列や意味不明な記号列になる可能性もある。
【0066】
そして、登録制御画面61上には、ユーザの指示を受け付けるための、「類似単語音声再生」ボタン82、「登録音声再生」ボタン83、「登録する」ボタン84、「登録しない」ボタン85及び「置換する」ボタン86も表示されている。
【0067】
ボタン62に対するタッチ操作が行われると、全体制御部1は、単語辞書格納部5から単語IDが10の単語「東」を読出して、音声波形を生成し、スピーカ12に供給する。これにより、スピーカ12は「ひがし」と音声出力する。
【0068】
入力した発声登録単語が、既登録の発声登録単語の類似している可能性がある場合には、ユーザは認識結果のバリエーションとして、今回入力した発声登録単語を登録したい場合もあれば、過去に登録した発声登録単語を現在のものと置換したい場合等が予想される。
【0069】
この理由から、登録制御画面81においては、「置換する」ボタン86が設けられている。なお、「登録音声再生」ボタン83、「登録する」ボタン84及び「登録しない」ボタン85操作時の動作は、夫々図5の「登録音声再生」ボタン62、「登録する」ボタン64及び「登録しない」ボタン65操作時と同様である。
【0070】
ボタン82が操作されると、全体制御部1は、発声登録判定部8に対して記録されている既登録の発声登録単語の再生を指示する。発声登録判定部8は、音声格納部9から認識結果である既登録の発声登録単語の音声波形を読出して、全体制御部1に出力する。全体制御部1は、既登録の発声登録単語の音声波形をスピーカ12に与えて音響出力させる。これにより、ユーザは今回入力した発声単語に類似していると判定された既登録の発声登録単語の音声を聞くことができ、登録処理の判断に用いることができる。
【0071】
ボタン86が操作されると、全体制御部1は、今回入力された発声単語を既登録の発声登録単語と置き換えるように発声登録判定部8に指示を与える。発声登録判定部8は、単語辞書格納部5に対して単語IDが10032の発声登録単語を削除し、単語登録パターン作成部7からの発声登録単語を単語IDが10032の発声登録単語として格納させる。この場合には、発声登録判定部8は、登録日時についても更新するようになっている。
【0072】
また、全体制御部1は、発声登録単語が既登録の発声登録単語に類似している場合においても、類似度の判定結果をスピーカ12によって音響出力することで、発声登録操作を音声によって継続することも可能である。図8はこの場合にスピーカ12から出力される音響の例を示している。図8において、“装置”はスピーカ12からの音響出力を示しており、“ユーザ”はこの音響出力に対するユーザの操作入力音声の例を示している。
【0073】
図8の例では、全体制御部1は、先ず、類似度の判定結果を音響出力させる。ユーザが「類似単語音声再生。」と入力すると、全体制御部1は、図示しないマイクロフォンからの音声入力を受け付けて、音声格納部9に記録されている発声登録単語の音声波形の再生を指示する。今回の入力音声に類似している既登録の発声登録単語は、スピーカ12から音響出力される。図8の例では、全体制御部1は、発声登録単語の類似単語を再生する旨の音声出力をした後、記録されている既登録の発声登録単語を音響出力する。図8の例では、既登録の発声登録単語は「みなみ」であることが示されている。これにより、ユーザが既登録の発声登録単語を記憶していない場合でも、ユーザは容易に確認して、登録処理の判断に利用することができる。
【0074】
図8の例では、ユーザは入力音声を既登録の発声登録単語と置換する旨の音声入力を行っている。これに対し、全体制御部1は、置換を行ってよいか否かの確認のための音声出力を出力し、これに対するユーザの応答に従って、全体制御部1は、発声登録単語の置換処理を行い、置換処理が終了するとその旨を音声出力している。
【0075】
なお、図8の例においても、図7の各ボタン82乃至86の操作時と同様の処理が可能であることは明らかである。
【0076】
次に、発声登録単語がシステム単語及び既登録の発声登録単語に類似していないことを示す判定結果が全体制御部1に供給されるものとする。この場合には、入力音声に基づく発声登録単語は、これまでに登録されていない単語である可能性が高いので、全体制御部1は、上述したステップS16において、発声登録単語を無条件に登録する。
【0077】
なお、この場合には、入力された音声が、発声や言い淀みやいい直しを含んだ不適切な発声である可能性があることを考慮して、発声登録単語が単語辞書に存在する単語に類似しないと判定された場合でも、ユーザにこの発声登録単語についての登録判断を問い合わせるようにしてもよい。
【0078】
ところで、図4のフローチャートは音声認識部6による認識結果の単語が1又は0個の例であった。しかし、音声認識部6からは認識結果として複数の単語が得られることがある。図9はこの場合に発声登録判定部8において採用されるフローチャートを示している。図9において図4と同一の手順には同一符号を付して説明を省略する。
【0079】
ステップS21では認識結果の個数を示すNが0(認識結果の単語が存在しない)でないか否かが判定される。認識結果の単語が存在しない場合には、発声登録判定部8は発声登録単語を登録する。次のステップS22では、変数kを1に、nを0に初期化する。ステップS23において、認識結果の個数Nの全てについての処理が終わった否かを判定し、終わっていない場合には、次のステップS12においてシステム単語か否かの判定を行う。
【0080】
ステップS12乃至S15の処理は図4と同様であり、発声登録単語がシステム単語に類似しているか既登録の発声登録単語に類似しているかが判定される。図9の例では、発声登録単語に類似した単語が単語辞書に存在する場合には、ステップS25においてその発声登録単語を類似単語バッファに格納する。また、変数nをインクリメントする。
【0081】
次にステップS26においてkをインクリメントして、処理をステップS23に戻す。以後同様にして、全ての認識単語についての処理を行い、ステップS27において類似単語バッファ内に発声登録単語が格納されているか否かを判定する。類似単語バッファ内に発声登録単語が格納されている場合には、ステップS28において、類似単語バッファに格納されているn個の認識結果をユーザに提示して、以後の登録処理についての問い合わせを行う。
【0082】
図10はこの場合において全体制御部1による画面表示例を示している。図10に示す登録制御画面101は、入力音声に基づく発声登録単語に類似していると判定された単語辞書内の単語の一覧102を有している。一覧102は、発声登録単語の類似単語の単語ID、単語名及び類似度を示しており、類似度順に配列されている。図10の例では、単語IDが15で単語名が“ちゅうしゃじょう”で類似度が91のシステム単語、単語IDが10002の既登録の発声登録単語で類似度が87の単語、単語IDが108で単語名が“かいしゃ”で類似度が83のシステム単語及び単語IDが10048の既登録の発声登録単語で類似度が79の単語が、発声登録単語の類似単語であることが示されている。
【0083】
上述したように、登録制御画面101を表示するモニタ11は、タッチパネルを構成しており、一覧102中の各行の単語に対する選択操作を行うことにより、全体制御部1は、図5又は図7の登録制御画面61,81に表示を切換えるようになっている。即ち、単語IDが5又は108の単語についての表示エリアに対するタッチ操作によって、全体制御部1は登録制御画面61を表示させ、単語IDが10002又は10047の単語についての表示エリアに対するタッチ操作によって、全体制御部1は登録制御画面81を表示させる。
【0084】
また、登録制御画面101は、ユーザの指示を受け付けるための、「登録音声再生」ボタン103、「登録する」ボタン104及び「登録しない」ボタン105が表示されている。これらのボタンは、図6の「登録音声再生」ボタン62、「登録する」ボタン64及び「登録しない」ボタン65と同様である。
【0085】
また、全体制御部1は、類似度の判定結果をスピーカ12によって音響出力することで、発声登録操作を音声によって継続することも可能である。図11は発声登録単語の類似単語が複数存在する場合にスピーカ12から出力される音響を示している。図11においても、“装置”はスピーカ12からの音響出力を示しており、“ユーザ”はこの音響出力に対するユーザの操作入力音声の例を示している。
【0086】
図11の例は図10に対応したものであり、全体制御部1は、先ず、発声登録単語の類似単語が複数存在することを示す音声出力をスピーカ12から出力させる。これに対して、類似度順での提示をユーザが音声入力によって希望すると、全体制御部1は、類似度順に、図10の一覧102の内容を音声にて出力する。
【0087】
ユーザが「2番再生」と音声入力すると、全体制御部1は、図示しないマイクロフォンからの音声入力を受け付けて、単語IDが10002の既登録の発声登録単語の再生を指示する。これにより、発声登録判定部8は、音声格納部9から単語IDが10002の既登録の発声登録単語の音声波形を読出して全体制御部1に与える。こうして、全体制御部1は、「2番、“ちゅうけい(中継)”」を音声出力させる。
【0088】
図11の例では、ユーザは入力音声に基づく発声登録単語を既登録の発声登録単語を残したまま、登録するように音声入力操作を行っている。これに対し、全体制御部1は、登録を行ってよいか否かの確認のための音声出力を出力し、これに対するユーザの応答に従って、全体制御部1は、発声登録単語の登録処理を行い、登録処理が終了するとその旨を音声出力している。
【0089】
なお、図11の例においても、図5、図7及び図10の各ボタン操作時と同様の処理が可能であることは明らかである。
【0090】
このように本実施の形態においては、入力音声に対する認識結果に応じて、発声登録単語の類似度判定基準、即ち、登録基準を変更しており、音声認識装置を適用するシステムに最適な発声登録を可能にすることができる。また、発声登録単語の類似単語が存在する場合には、類似単語の存在をユーザに提示すると共に、GUIによって、ユーザに以後の登録処理操作環境を提供しており、発声登録作業を著しく効率化することができる。しかも、ユーザに提示する登録処理方法を、類似単語がシステム単語であるか既登録の発声登録単語であるかによって切換えており、類似単語の種類に応じた登録を行うことによって、音声認識精度を向上させることができる。
【0091】
なお、上記実施の形態においては、類似単語がシステム単語である場合の動作、既登録の発声登録単語である場合の動作及び類似単語が存在しない場合の動作の3つの動作について規定しているが、いずれか1つ又は2つの動作のみを実行させるようにしてもよいことは明らかである。
【0092】
また、登録制御画面61,81,101によって表示する情報としては、図5,図7,図10に示した情報以外の情報も考えられる。例えば、これらの例では登録しようとする発声登録単語そのものについての情報は表示されていないが、発声登録単語についての情報を、必要ならば付属情報、例えば、発声登録単語であることを示すフラグ、あるいはID番号等を付加し、更に、一時的に全体制御部1に格納された音声波形データに音声波形データ用のIDを割り当て、このIDも発声登録単語に付加して画面表示させるようにしてもよい。また、これらの情報を単語辞書に登録するようにしてもよい。また、システム単語に類似した発声登録単語を登録する場合には、システム単語に類似した単語であることを示す情報も付加して登録する。
【0093】
【発明の効果】
以上説明したように本発明によれば、発声登録単語に対してその種別に応じた登録処理を可能とすることにより、ユーザの登録操作の作業性を向上させると共に、音声認識率を向上させることができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る音声認識装置を示すブロック図。
【図2】音声認識モード時の動作を示すフローチャート。
【図3】音声登録モード時に動作を示すフローチャート。
【図4】図1中の発声登録判定部8の判定処理を説明するためのフローチャート。
【図5】モニタ11の画面表示を示す説明図。
【図6】スピーカ12からの音響出力を示す説明図。
【図7】モニタ11の画面表示を示す説明図。
【図8】スピーカ12からの音響出力を示す説明図。
【図9】図1中の発声登録判定部8の判定処理を説明するためのフローチャート。
【図10】モニタ11の画面表示を示す説明図。
【図11】スピーカ12からの音響出力を示す説明図。
【符号の説明】
1…全体制御部、3…音響分析部、4…音響モデル格納部、5…単語辞書格納部、6…音声認識部、7…単語登録パターン作成部、8…発声登録判定部、9…音声格納部、11…モニタ、12…スピーカ。
【発明の属する技術分野】
本発明は、音声による単語登録が可能な音声認識装置、音声認識方法及び音声認識プログラムに関する。
【0002】
【従来の技術】
近年、音声認識技術の性能向上に伴い、実環境における音声認識エンジンの実用が活発になってきている。特に、カーナビゲーションシステムやモバイル機器など入力装置が限定されるような状況において、音声認識への期待は大きい。
【0003】
音声認識装置においては、音素モデルを基に作成した認識対象語彙と入力音声から抽出した特徴量とを比較し、比較結果の数値(以下、尤度という)が最も高い値の語彙を音声認識結果として出力する。この場合において、音声認識結果の精度を向上させるために、音声認識装置は、用途に応じて、種々の認識対象語彙を収録した語彙辞書(単語辞書)を利用する。
【0004】
単語辞書には、音声認識エンジンが適用されるシステムに応じた単語が予めシステム単語として登録されている。更に、ユーザの発声によって登録される単語(以下、発声登録単語という)も単語辞書に登録されている。このように、ユーザの音声によって単語登録(発声登録)を行うことにより、単語辞書をユーザに適したものにして、音声認識精度を向上させることができる。なお、「単語」という言葉は、通常の意味の単語だけではなく、文章や語句、単語列のような、複数の語の組み合わせも含むものとする。
【0005】
発声登録は、入力された音声に対して音素モデルを用いた音声認識を行い、これによって得られた音素系列に基づいて単語登録パターンを作成し、登録するものである。この場合において、ユーザの発声登録操作による発声登録を無制限に行うと、異なる単語であっても類似した単語登録パターンで登録される虞がある。
【0006】
一般に日本語連続音声認識では音素/b/, /d/, /g/ のような類似子音の識別、「正しい言い方」のような同じ母音が連続する場合の識別が困難であることや、言語にもよるが/ok(u)rimas(u)/等のような無声化母音、/kaigi/ における/g/ の鼻音化/ng/ 、前後音素環境による発音変化や、周囲騒音が強いと発声形態が変わるロンバード効果によって、認識が難しい場合があることが指摘されている。
【0007】
このような音声認識システムにおいて、例えば「灘(なだ)」と「奈良(なら)」を発声登録した場合、音声認識装置の性能やユーザの癖などによって、生成される発声登録単語が、例えば共に「なな」のようになり、完全に一致してしまう場合も起こりうる。このため、無制限に発声登録を許可すると、類似性の高い単語同士の誤認識を誘発しやすく、2つの単語を区別することができなくなってしまうことがある。
【0008】
そこで、特開平8−110790号公報(以下、文献1という)においては、発声登録を制限する方法が開示されている。即ち、文献1においては、辞書内の単語と新たに発声登録しようとする単語の類似性を判定し、類似性が高い場合には、一律、登録できない旨の情報をユーザに提示するのである。
【0009】
【発明が解決しようとする課題】
ところで、一般的な音声認識の単語辞書は、上述したように、ユーザの発声登録によって辞書に追加した発声登録単語と、辞書に予め登録されているシステム単語とを含んでいる。システム単語の一部に、ユーザにとって認識率の悪い単語が存在する場合には、ユーザは、自分の発声でその単語を発声登録しようと試みることが考えられる。例えば「東(ひがし)」というシステム単語を「しがし」と発声する癖のあるユーザにとっては、「東」の認識率は悪いので、ユーザは「東」を「しがし」という発声で登録しようとする。
【0010】
しかしながら、文献1の方法を採用すると、ユーザが「しがし」という文字列で発声登録をした場合でも、この単語登録パターンは辞書内の「東」と類似していると判定される。従って、文献1の方法を採用した場合には、「しがし」を発声登録することはできず、ユーザは「東」の認識率の悪さを改善することはできない。
【0011】
ところで、発声登録単語のように音声で単語を登録する場合には、ユーザの発声スタイルの経時変化という問題にも対処しなければならない。人間が全く同じ言葉を2度発声しても、音声認識装置が出力する発声登録単語は全く同じになるとは限らない。例えば、加齢による声質の変化や調音様式の変化といった要因により、2度の発声の時間間隔が長くなるにつれ、一般的には、2つの発声に対する発声登録単語の違いが大きくなる傾向にある。
【0012】
経時変化が大きい場合には、発声登録単語を再登録すれば問題はないが、経時変化があまり大きくない場合や発声の揺らぎ等の場合には、発声登録単語は、過去に登録した同一語に対する発声登録単語と大差ではないが、認識には影響を与える可能性がある。
【0013】
このような場合、なるべく最近の発声を登録したほうが認識性能は高くなるが、文献1の方法では、過去に登録した単語に対し再登録を試みた場合、過去に登録した発声登録単語との類似性が高く、登録不能である可能性が高い。このため、再登録に際して、発声前に過去に登録した発声登録単語を一旦削除した後、発声登録を行う必要があり、再登録が煩雑である。
【0014】
また、過去に同一単語を登録したか否かに確証をもてないユーザにとっては、一度その単語を発声し、システムに登録できなかったことによって、はじめて過去に同一単語が登録されていたことを知ることになる。この場合にも、一旦、過去の発声登録単語を削除し、再度発声し直さなければならず、ユーザの再登録操作は煩雑である。
【0015】
本発明は、発声登録単語に対してその種別に応じた登録処理を可能とすることにより、ユーザの登録操作の作業性を向上させると共に、音声認識率を向上させることができる音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。
【0016】
【課題を解決するための手段】
本発明の請求項1に係る音声認識装置は、入力音声を音響分析する音響分析部と、単語辞書を格納した単語辞書格納部と、前記音響分析部による音響分析結果と前記単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識部と、音響モデルを格納する音響モデル格納部と、前記音響モデルを用いて前記音響分析部による音響分析結果から発声登録単語を生成する単語登録パターン作成部と、音声登録モード時に、前記音声認識部の認識結果の単語と前記単語登録パターン作成部からの発声登録単語との類似度を判定する判定手段と、前記判定手段による前記類似度の判定結果に従って、前記単語登録パターン作成部からの発声登録単語の登録の可否を決定する制御手段と、前記音声認識部の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって前記判定手段における前記類似度の判定基準を変更する変更手段とを具備したものであり、
本意発明の請求項2に係る音声認識装置は、入力音声を音響分析する音響分析部と、単語辞書を格納した単語辞書格納部と、前記音響分析部による音響分析結果と前記単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識部と、音響モデルを格納する音響モデル格納部と、前記音響モデルを用いて前記音響分析部による音響分析結果から発声登録単語を生成する単語登録パターン作成部と、音声登録モード時に、前記音声認識部の認識結果の単語と前記単語登録パターン作成部からの発声登録単語との類似度を判定する判定手段と、前記判定手段による前記類似度の判定結果を提示する提示手段とを具備したものである。
【0017】
本発明の請求項1において、音響分析部は、入力音声を音響分析する。音声認識部は、音響分析結果と単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する。一方、単語登録パターン作成部は、音響モデルを用いて音響分析部による音響分析結果から発声登録単語を生成する。判定手段は、音声登録モード時には、音声認識部の認識結果の単語と単語登録パターン作成部からの発声登録単語との類似度を判定する。この類似度の判定に際して、変更手段は、音声認識部の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって判定基準を変更する。制御手段は、この類似度の判定結果に従って、単語登録パターン作成部からの発声登録単語の登録の可否を決定する。これにより、システムに応じた発声登録処理が可能となり、音声認識精度が向上する。
【0018】
本発明の請求項2において、音響分析部は、入力音声を音響分析し、音声認識部は、音響分析結果と単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する。一方、単語登録パターン作成部によって、音響分析結果から発声登録単語が生成される。判定手段は、音声登録モード時には、音声認識部の認識結果の単語と単語登録パターン作成部からの発声登録単語との類似度を判定する。この類似度の判定結果は、提示手段によって提示される。この提示を参照することで、ユーザは、発声登録処理として選択すべき処理を容易に認識することができる。
【0019】
なお、装置に係る本発明は方法に係る発明としても成立する。
【0020】
また、装置に係る本発明は、コンピュータに当該発明に相当する処理を実現させるためのプログラムとしても成立する。
【0021】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は本発明の第1の実施の形態に係る音声認識装置を示すブロック図である。
【0022】
本実施の形態は発声登録に際して、発声登録しようとする発声登録単語に類似した単語(以下、発声登録単語の類似単語ともいう)が単語辞書中に存在する場合には、発声登録単語の類似単語の種別に応じて、例えば、発声単語がシステム単語に類似しているか既登録の発声登録単語に類似しているかに応じて、類似度の登録判定基準を変更すると共に、登録の可否を含む登録処理を切換え、ユーザに登録作業についての情報を提示することにより、音声登録の作業性を向上させると共に、音声認識精度を向上させるようにしたものである。
【0023】
なお、発声単語の類似単語の種別として、本実施の形態は、システム単語と既登録の発声登録単語との2種別の例を説明するが、発声登録単語の類似単語の種別としては種々の種別が考えられ、例えば、システム単語の一部の単語とそれ以外の単語という2種別、システム単語の一部、それ以外のシステム単語、既登録の発声登録単語の3種別等の各種種別があり、本実施の形態の2種別の場合と同様に適用可能である。
【0024】
図1において、全体制御部1は、装置全体の制御を行う。例えば、全体制御部1は、各構成部間のデータの授受の制御、音声入出力の制御、ユーザの指示入力の受付、モニタ11の画面表示の制御、スピーカ12の音響出力の制御等の装置全体の制御を行う。また、全体制御部1には入力音声も入力されるようになっている。全体制御部1は、発声登録モード時には、入力音声の音声波形を一時的に記憶するようになっている。
【0025】
スイッチ2a,2bは、全体制御部1に制御されて、音声登録モードと音声認識モードとの切換えを行う。入力音声は音響分析部3に与えられるようになっている。音響分析部3は、入力された音声を音響分析して、分析結果をスイッチ2aを介して出力する。例えば、音声分析部3は、入力された音声を一定時間間隔(フレーム)毎に音響分析し、分析結果としてケプストラムやパワスペクトル等の音声特徴量の時系列及び音声の開始時刻、終了時刻を出力する。
【0026】
スイッチ2a,2bは連動制御され、発声登録モード時には端子Rを選択し、音声認識モード時には端子Sを選択する。音響モデル格納部4は、音響(音素)モデルを格納する。単語辞書格納部5は、システム単語及びユーザによる発声登録単語を含む単語辞書を格納する。
【0027】
音声認識部6は、音響分析部3によって分析された特徴量が与えられて、単語辞書格納部5内の単語辞書に登録されている単語の特徴量パターンとの間でパターンマッチングを行い、尤度が最も高い値の語彙を認識結果の単語として出力する。なお、音声認識部6は、最も尤度の高い語彙から尤度の高い順に、認識結果を複数出力するものであってもよい。また、音声認識部6は、入力音声に該当する単語が単語辞書中に存在しないと判定した場合には、認識結果がないこと表す出力を行う。
【0028】
一方、単語登録パターン作成部7は、発声登録モードにおいて動作し、音響モデル格納部4の音響モデルを用いて、音響分析部3が出力した特徴量を音素系列に変換して、入力音声に符合する発声登録単語及びその音響スコア等の付加的な情報を出力する。
【0029】
音声認識部6からの認識単語はスイッチ2bを介して発声登録判定部8に与えられ、単語登録パターン作成部7からの発声登録単語は直接発声登録判定部8に与えられる。発声登録判定部8は、発声登録モードにおいて動作し、音声認識部6の認識結果によって、入力音声がシステム単語と既登録の発声登録単語とのいずれに類似しているかを判定し、判定結果に応じて、入力音声を発声登録するか否かの登録判定基準を変更するようになっている。
【0030】
入力音声がシステム単語に類似していると判定した場合に、例えば、登録(類似)判定基準を厳しく設定すると、システム単語に類似した発声登録単語の登録が行われにくくなる。逆に、システム単語に対する類似判定基準を緩く設定すると、システム単語のバリエーションとして発声登録単語を登録しやすくなる。
【0031】
また、入力音声が既登録の発声登録単語に類似していると判定した場合に、例えば、登録(類似)判定基準を厳しく設定すると、発声登録単語に類似した発声登録単語の登録が行われにくくなる。逆に、既登録の発声登録単語に対する類似判定基準を緩く設定すると、入力音声に基づく発声登録単語で既登録の発声登録単語を登録、置換しやすくなり、新たな発声登録単語の登録数を増やしやすくなる。
【0032】
このように類似度の判定基準を変更することで、音声認識装置を用いるシステムの種類に最適な発声登録処理を設定することができ、音声認識精度を向上させることができる。
【0033】
なお、音声登録判定部8による音声認識部6の認識結果がシステム単語であるか発声登録単語であるかの判定方法としては種々の方法が考えられる。例えば、各単語に発声登録単語であるかシステム単語であるかを示すフラグを付与しておく方法、各単語にID番号を割り当て、システム単語にはある値以下のID番号を割り当て、発声登録単語に対してはその値よりも大きいID番号を割り当てる方法等もある。
【0034】
音声格納部9は、発声登録判定部8から発声登録可と判定されて発声登録された単語の音声波形が、全体制御部1から供給されるようになっている。音声格納部9は、供給される音声波形を割り当てられたIDと共に格納すると共に、格納されている音声波形を全体制御部1に出力することができるようになっている。全体制御部1は、音声格納部9に書込み又は音声格納部9から読出す音声波形をスピーカ12に与えることで、音声を音響出力させることができるようになっている。なお、音声格納部9は必ずしも必須の構成要素ではない。
【0035】
次に、このように構成された実施の形態の動作について図2乃至図11を参照して説明する。図2は音声認識モード時の動作を示すフローチャートであり、図3は音声登録モード時の動作を示すフローチャートである。図4及び図9は図1中の発声登録判定部8の判定処理を説明するためのフローチャートである。図5、図7及び図10はモニタ11の画面表示を示す説明図であり、図6、図8及び図11はスピーカ12からの音響出力を示す説明図である。
【0036】
いま、音声認識モードであるものとする。先ず図2のステップS1 において、入力音声は音響分析部3に与えられて音響分析される。音響分析部3は、入力音声から得た音声特徴量の時系列をスイッチ2aを介して音声認識部6に出力する。音声認識部6は、ステップS2 において、入力音声の音声特徴量の時系列と単語辞書格納部5に格納されている語彙の音声特徴量とを照合し、認識結果として出力する(ステップS3 )。
【0037】
音声認識部6からの認識結果はスイッチ2bを介して全体制御部1に与えられる。こうして、全体制御部1において、音声認識結果を所定のアプリケーションに用いることができる。
【0038】
次に、発声登録モードが指定されるものとする。この場合には図3のフローが採用される。
【0039】
即ち、入力音声は、ステップS1 において、音響分析部3に与えられて音響分析される。音響分析部3からの入力音声の特徴量時系列は、スイッチ2aを介して、音声認識部6及び単語登録パターン作成部7に与えられる。音声認識部6においては、音声認識モード時と同様に、単語辞書の登録語彙との間で特徴量時系列のパターンマッチングを行って、認識結果として出力する。
【0040】
一方、単語登録パターン生成部7は、入力された音声特徴量に対して発声登録単語を出力する(ステップS5 )。なお、発声登録単語の作成方法は、文献1に記載の方法を用いればよい。また、音響分析部3からの音声特徴量の時系列は音声認識部6にも与えられており、音声認識部6はパターンマッチングによって、尤度が高い登録語彙を単語辞書から抽出して認識結果として出力する(ステップS2 )。
【0041】
音声認識部6からの認識結果である登録単語は、スイッチ2bを介して発声登録判定部8に与えられる。また、単語登録パターン作成部7からの発声登録単語も発声登録判定部8に与えられる。発声登録判定部8は、ステップS6 において、発声登録単語を単語辞書に登録するか否かの登録判定を行う。
【0042】
先ず、発声登録判定部8は、音声認識部6からの認識結果によって、入力音声がシステム単語に類似しているか既存の発声登録単語に類似しているかを判定する。なお、ここでは、認識結果の単語は1個であるか又は0個である例について説明する。即ち、図4のステップS11において、発声登録判定部8は、音声認識部6からの認識結果の単語数が0であるか1であるかを判定する。0である場合、即ち、音声認識部6において、発声登録単語に類似した単語が登録されていないものと判定された場合には、発声登録判定部8は、処理をステップS16に移行して、単語登録パターン作成部7からの発声登録単語を登録すべき旨の処理を行う。発声登録判定部8は、発声登録単語を単語辞書格納部5に与えて、ユーザによる発声登録単語として登録する。
【0043】
音声認識部6からの認識結果の単語数が1である場合には、発声登録判定部8は、認識結果の登録単語がシステム単語である否かを判定する。システム単語である場合には、入力発声に基づく発声登録単語は、システム単語に類似している可能性があるものとしてステップS13に処理を移行する。ステップS13では、システム単語用の類似度判定基準を用いて、入力発声に基づく発声登録単語と対応するシステム単語との類似度を判定する。
【0044】
一方、ステップS12でシステム単語ではないものと判定された場合には、入力発声に基づく発声登録単語は、ユーザ登録による既登録の発声登録単語に類似している可能性があるものとしてステップS14に処理を移行する。ステップS14では、発声登録単語用の類似度判定基準を用いて、入力発声に基づく発声登録単語と対応する既登録の発声登録単語との類似度を判定する。
【0045】
なお、発声登録判定部8による発声登録単語と認識結果の単語との類似度の計算は、例えば、類似度=(発声登録単語の音響スコア―認識結果の単語の音響スコア)と定義することによって求めてもよい。この定義の場合には、差の絶対値が小さいほど、類似性が高いことを意味する。また、この定義では、類似度が負になる場合には、認識結果の単語のスコアのほうが発声登録単語のスコアよりも高いので、発声登録単語は登録しないようにする方法を採用してもよい。
【0046】
なお、これらの音響スコアは、通常の音声認識方法でよく用いられるViterbiスコアであり、発声登録単語作成時及び音声認識時に計算されるものである。音声認識方法やViterbiスコア等については、中川聖一著『確率モデルによる音声認識』電子情報通信学会に詳述されている。
【0047】
ステップS13,S14において、類似度の判定基準がシステム単語用と既登録の発声登録単語用とで切換えられており、音声認識システムが適用される各アプリケーションに適した設定での類似度判定が可能である。
【0048】
発声登録判定部8は、ステップS13,S14において、入力発声に基づく発声登録単語が、単語辞書内の単語に類似していないと判定した場合には、処理をステップS16に移行して、単語登録パターン作成部7からの発声登録単語を登録すべき旨の処理を行う。
【0049】
一方、発声登録判定部8は、ステップS13,S14において入力発声に基づく発声登録単語が、単語辞書内の単語に類似していると判定した場合には、処理をステップS17に移行する。ステップS17では、ユーザに類似度の判定結果を提示すると共に、ユーザの操作を容易にするための、例えばGUI(グラフィカルユーザインターフェース)を提供する。
【0050】
即ち、発声登録判定部8の判定結果は全体制御部1に供給される。全体制御部1は、発声登録単語がシステム単語に類似していると判定された場合、既登録の発声登録単語に類似していると判定された場合又は登録単語には類似していないと判定された場合に応じて異なる提示を行う。
【0051】
いま、発声登録単語がシステム単語に類似していることを示す判定結果が全体制御部1に供給されるものとする。この場合には、発声登録単語は、音声認識部6による認識結果の単語と同一単語である可能性もあり、また、認識結果の単語に類似した別単語である可能性もある。
【0052】
全体制御部1は、類似度の判定結果に基づく提示を行う。例えば、全体制御部1は、モニタ11に図5に示す登録制御画面61を表示させる。図5の登録制御画面61は、発声登録単語が単語IDが10のシステム単語である「東」であることが示されており、また、発声登録判定部8の判定結果である類似度が80/100であることが示されている。そして、登録制御画面61上には、ユーザの指示を受け付けるための、「登録音声再生」ボタン62、「関連付けて登録」ボタン63、「登録する」ボタン64及び「登録しない」ボタン65が表示されている。なお、モニタ11の表示画面はタッチパネルを構成しており、ボタン62〜65の表示上をユーザが指等で触れることによって、ボタンに応じた処理が行われる。
【0053】
ボタン62に対するタッチ操作が行われると、全体制御部1は、単語辞書格納部5から単語IDが10の単語「東」を読出して、音声波形を生成し、スピーカ12に供給する。これにより、スピーカ12は「ひがし」と音声出力する。
【0054】
ボタン63が操作されると、全体制御部1は、発声登録判定部8に、発声登録単語を単語IDが10の単語「東」に関連付けて登録するように指示を出す。この場合には、発声登録判定部8は、システム単語「東」に関連付けて、発声登録単語を単語辞書格納部5の単語辞書に登録する。こうして、この場合には、ユーザはその認識結果のバリエーションとして、今回得られた発声登録単語を登録することができる。即ち、この場合には、この発声登録単語が認識された場合には、そのシステム単語が認識された時と同じ動作をするように設定される。例えば、音声認識装置に単語IDと動作の対応を関連付けたテーブルを設け、システム単語と関連付けて登録する発声登録単語のIDと対応するシステム単語の動作との対応を登録することによって実現可能である。
【0055】
ボタン64が操作されると、全体制御部1は、発声登録判定部8に、発声登録単語の登録を指示する。この場合には、発声登録判定部8は、発声登録単語を単語辞書格納部5の単語辞書に登録する。なお、この場合には、発声登録単語に対して、新たな特定の動作を割り当てることが可能である。そして、ボタン65が操作されると、全体制御部1は、発声登録判定部8に、発声登録単語を登録しないことを指示する。
【0056】
なお、全体制御部1は、発声登録モードの場合には、一連の登録判定を行う前に、格納している入力音声を再生し、一旦、ユーザにこの音声に対しこのまま登録処理を続けてよいか確認することも可能である。これにより、発声を間違えた場合や咳払い等の非音声が混入した場合等において、その後の処理が無駄に続けられることを防止することができる。
【0057】
また、全体制御部1は、類似度の判定結果をスピーカ12によって音響出力することで、発声登録操作を音声によって継続することも可能である。図6はこの場合にスピーカ12から出力される音響を示している。図6において、“装置”はスピーカ12からの音響出力を示しており、“ユーザ”はこの音響出力に対するユーザの操作入力音声の例を示している。
【0058】
図6の例では、全体制御部1は、先ず、類似度の判定結果である「発声された音声と類似度の高い単語があります。単語IDは10、単語名は東 類似度は80です。」を音響出力させる。ユーザが「音声再生。」と入力すると、全体制御部1は、図示しないマイクロフォンからの音声入力を受け付けて、記憶している発声登録単語の入力音声を再生する。発声登録単語は、スピーカ12から音響出力される。図6の例では、全体制御部1は、登録しようとする入力音声を再生する旨の音声出力をした後、記録されている入力音声を音響出力する。図6の例では、ユーザが登録しようとする「ひがし」の単語の前に、「き…」というノイズが混入していることが示されている。
【0059】
図6の例では、ユーザはこの音声を発声登録単語として登録しない旨の音声入力を行っている。これに対し、全体制御部1は、登録を中止してよいか否かの確認のための音声出力を出力し、これに対するユーザの応答に従って、全体制御部1は、発声登録単語の登録中止を宣言している。
【0060】
なお、図6の例ではユーザが登録を希望しない場合の例を説明したが、図5の画面表示の場合と同様に、「登録音声再生」、「関連付けて登録」、「登録する」及び「登録しない」等の処理も可能であることは明らかである。
【0061】
なお、音声対話を行う場合には、全体制御部1は、一旦認識結果、発声登録単語を記憶し、音声認識装置を発声登録モードから音声認識モードに切り替え、対話終了後、再び発声登録モードに戻し、登録操作を継続する。
【0062】
このように、図6に示す音声対話を採用することによって、画面表示が不可能なシステムにおいても、ユーザに提示する情報及びユーザからの指示を受けることができる。
【0063】
次に、発声登録単語が既登録の発声登録単語に類似していることを示す判定結果が全体制御部1に供給されるものとする。この場合にも、発声登録単語は、音声認識部6による認識結果の単語と同一単語である可能性もあり、また、認識結果の単語に類似した別単語である可能性もある。
【0064】
全体制御部1は、この場合にも、類似度の判定結果に基づく提示を行う。例えば、全体制御部1は、モニタ11に図7に示す登録制御画面81を表示させる。図7の登録制御画面81は、発声登録単語が単語IDが10032の発声登録単語であることが示されている。発声登録単語は文字列として画面表示することはできないことがあり、登録制御画面81においては、発声登録単語の登録日時(2002年1月11日 10時15分)が表示されている。また、発声登録判定部8の判定結果である類似度が90/100であることが示されている。即ち、登録制御画面81上には、発声登録単語に関する情報が表示される。
【0065】
なお、図7の例では単語名として、「発声登録単語」を表示させたが、入力音声に基づいて解析した発声登録単語をモデル化された状態でそのまま表示するようにしてもよい。この場合には、発声登録単語のモデル化の手法によっても異なるが、無意味なカナ文字列や意味不明な記号列になる可能性もある。
【0066】
そして、登録制御画面61上には、ユーザの指示を受け付けるための、「類似単語音声再生」ボタン82、「登録音声再生」ボタン83、「登録する」ボタン84、「登録しない」ボタン85及び「置換する」ボタン86も表示されている。
【0067】
ボタン62に対するタッチ操作が行われると、全体制御部1は、単語辞書格納部5から単語IDが10の単語「東」を読出して、音声波形を生成し、スピーカ12に供給する。これにより、スピーカ12は「ひがし」と音声出力する。
【0068】
入力した発声登録単語が、既登録の発声登録単語の類似している可能性がある場合には、ユーザは認識結果のバリエーションとして、今回入力した発声登録単語を登録したい場合もあれば、過去に登録した発声登録単語を現在のものと置換したい場合等が予想される。
【0069】
この理由から、登録制御画面81においては、「置換する」ボタン86が設けられている。なお、「登録音声再生」ボタン83、「登録する」ボタン84及び「登録しない」ボタン85操作時の動作は、夫々図5の「登録音声再生」ボタン62、「登録する」ボタン64及び「登録しない」ボタン65操作時と同様である。
【0070】
ボタン82が操作されると、全体制御部1は、発声登録判定部8に対して記録されている既登録の発声登録単語の再生を指示する。発声登録判定部8は、音声格納部9から認識結果である既登録の発声登録単語の音声波形を読出して、全体制御部1に出力する。全体制御部1は、既登録の発声登録単語の音声波形をスピーカ12に与えて音響出力させる。これにより、ユーザは今回入力した発声単語に類似していると判定された既登録の発声登録単語の音声を聞くことができ、登録処理の判断に用いることができる。
【0071】
ボタン86が操作されると、全体制御部1は、今回入力された発声単語を既登録の発声登録単語と置き換えるように発声登録判定部8に指示を与える。発声登録判定部8は、単語辞書格納部5に対して単語IDが10032の発声登録単語を削除し、単語登録パターン作成部7からの発声登録単語を単語IDが10032の発声登録単語として格納させる。この場合には、発声登録判定部8は、登録日時についても更新するようになっている。
【0072】
また、全体制御部1は、発声登録単語が既登録の発声登録単語に類似している場合においても、類似度の判定結果をスピーカ12によって音響出力することで、発声登録操作を音声によって継続することも可能である。図8はこの場合にスピーカ12から出力される音響の例を示している。図8において、“装置”はスピーカ12からの音響出力を示しており、“ユーザ”はこの音響出力に対するユーザの操作入力音声の例を示している。
【0073】
図8の例では、全体制御部1は、先ず、類似度の判定結果を音響出力させる。ユーザが「類似単語音声再生。」と入力すると、全体制御部1は、図示しないマイクロフォンからの音声入力を受け付けて、音声格納部9に記録されている発声登録単語の音声波形の再生を指示する。今回の入力音声に類似している既登録の発声登録単語は、スピーカ12から音響出力される。図8の例では、全体制御部1は、発声登録単語の類似単語を再生する旨の音声出力をした後、記録されている既登録の発声登録単語を音響出力する。図8の例では、既登録の発声登録単語は「みなみ」であることが示されている。これにより、ユーザが既登録の発声登録単語を記憶していない場合でも、ユーザは容易に確認して、登録処理の判断に利用することができる。
【0074】
図8の例では、ユーザは入力音声を既登録の発声登録単語と置換する旨の音声入力を行っている。これに対し、全体制御部1は、置換を行ってよいか否かの確認のための音声出力を出力し、これに対するユーザの応答に従って、全体制御部1は、発声登録単語の置換処理を行い、置換処理が終了するとその旨を音声出力している。
【0075】
なお、図8の例においても、図7の各ボタン82乃至86の操作時と同様の処理が可能であることは明らかである。
【0076】
次に、発声登録単語がシステム単語及び既登録の発声登録単語に類似していないことを示す判定結果が全体制御部1に供給されるものとする。この場合には、入力音声に基づく発声登録単語は、これまでに登録されていない単語である可能性が高いので、全体制御部1は、上述したステップS16において、発声登録単語を無条件に登録する。
【0077】
なお、この場合には、入力された音声が、発声や言い淀みやいい直しを含んだ不適切な発声である可能性があることを考慮して、発声登録単語が単語辞書に存在する単語に類似しないと判定された場合でも、ユーザにこの発声登録単語についての登録判断を問い合わせるようにしてもよい。
【0078】
ところで、図4のフローチャートは音声認識部6による認識結果の単語が1又は0個の例であった。しかし、音声認識部6からは認識結果として複数の単語が得られることがある。図9はこの場合に発声登録判定部8において採用されるフローチャートを示している。図9において図4と同一の手順には同一符号を付して説明を省略する。
【0079】
ステップS21では認識結果の個数を示すNが0(認識結果の単語が存在しない)でないか否かが判定される。認識結果の単語が存在しない場合には、発声登録判定部8は発声登録単語を登録する。次のステップS22では、変数kを1に、nを0に初期化する。ステップS23において、認識結果の個数Nの全てについての処理が終わった否かを判定し、終わっていない場合には、次のステップS12においてシステム単語か否かの判定を行う。
【0080】
ステップS12乃至S15の処理は図4と同様であり、発声登録単語がシステム単語に類似しているか既登録の発声登録単語に類似しているかが判定される。図9の例では、発声登録単語に類似した単語が単語辞書に存在する場合には、ステップS25においてその発声登録単語を類似単語バッファに格納する。また、変数nをインクリメントする。
【0081】
次にステップS26においてkをインクリメントして、処理をステップS23に戻す。以後同様にして、全ての認識単語についての処理を行い、ステップS27において類似単語バッファ内に発声登録単語が格納されているか否かを判定する。類似単語バッファ内に発声登録単語が格納されている場合には、ステップS28において、類似単語バッファに格納されているn個の認識結果をユーザに提示して、以後の登録処理についての問い合わせを行う。
【0082】
図10はこの場合において全体制御部1による画面表示例を示している。図10に示す登録制御画面101は、入力音声に基づく発声登録単語に類似していると判定された単語辞書内の単語の一覧102を有している。一覧102は、発声登録単語の類似単語の単語ID、単語名及び類似度を示しており、類似度順に配列されている。図10の例では、単語IDが15で単語名が“ちゅうしゃじょう”で類似度が91のシステム単語、単語IDが10002の既登録の発声登録単語で類似度が87の単語、単語IDが108で単語名が“かいしゃ”で類似度が83のシステム単語及び単語IDが10048の既登録の発声登録単語で類似度が79の単語が、発声登録単語の類似単語であることが示されている。
【0083】
上述したように、登録制御画面101を表示するモニタ11は、タッチパネルを構成しており、一覧102中の各行の単語に対する選択操作を行うことにより、全体制御部1は、図5又は図7の登録制御画面61,81に表示を切換えるようになっている。即ち、単語IDが5又は108の単語についての表示エリアに対するタッチ操作によって、全体制御部1は登録制御画面61を表示させ、単語IDが10002又は10047の単語についての表示エリアに対するタッチ操作によって、全体制御部1は登録制御画面81を表示させる。
【0084】
また、登録制御画面101は、ユーザの指示を受け付けるための、「登録音声再生」ボタン103、「登録する」ボタン104及び「登録しない」ボタン105が表示されている。これらのボタンは、図6の「登録音声再生」ボタン62、「登録する」ボタン64及び「登録しない」ボタン65と同様である。
【0085】
また、全体制御部1は、類似度の判定結果をスピーカ12によって音響出力することで、発声登録操作を音声によって継続することも可能である。図11は発声登録単語の類似単語が複数存在する場合にスピーカ12から出力される音響を示している。図11においても、“装置”はスピーカ12からの音響出力を示しており、“ユーザ”はこの音響出力に対するユーザの操作入力音声の例を示している。
【0086】
図11の例は図10に対応したものであり、全体制御部1は、先ず、発声登録単語の類似単語が複数存在することを示す音声出力をスピーカ12から出力させる。これに対して、類似度順での提示をユーザが音声入力によって希望すると、全体制御部1は、類似度順に、図10の一覧102の内容を音声にて出力する。
【0087】
ユーザが「2番再生」と音声入力すると、全体制御部1は、図示しないマイクロフォンからの音声入力を受け付けて、単語IDが10002の既登録の発声登録単語の再生を指示する。これにより、発声登録判定部8は、音声格納部9から単語IDが10002の既登録の発声登録単語の音声波形を読出して全体制御部1に与える。こうして、全体制御部1は、「2番、“ちゅうけい(中継)”」を音声出力させる。
【0088】
図11の例では、ユーザは入力音声に基づく発声登録単語を既登録の発声登録単語を残したまま、登録するように音声入力操作を行っている。これに対し、全体制御部1は、登録を行ってよいか否かの確認のための音声出力を出力し、これに対するユーザの応答に従って、全体制御部1は、発声登録単語の登録処理を行い、登録処理が終了するとその旨を音声出力している。
【0089】
なお、図11の例においても、図5、図7及び図10の各ボタン操作時と同様の処理が可能であることは明らかである。
【0090】
このように本実施の形態においては、入力音声に対する認識結果に応じて、発声登録単語の類似度判定基準、即ち、登録基準を変更しており、音声認識装置を適用するシステムに最適な発声登録を可能にすることができる。また、発声登録単語の類似単語が存在する場合には、類似単語の存在をユーザに提示すると共に、GUIによって、ユーザに以後の登録処理操作環境を提供しており、発声登録作業を著しく効率化することができる。しかも、ユーザに提示する登録処理方法を、類似単語がシステム単語であるか既登録の発声登録単語であるかによって切換えており、類似単語の種類に応じた登録を行うことによって、音声認識精度を向上させることができる。
【0091】
なお、上記実施の形態においては、類似単語がシステム単語である場合の動作、既登録の発声登録単語である場合の動作及び類似単語が存在しない場合の動作の3つの動作について規定しているが、いずれか1つ又は2つの動作のみを実行させるようにしてもよいことは明らかである。
【0092】
また、登録制御画面61,81,101によって表示する情報としては、図5,図7,図10に示した情報以外の情報も考えられる。例えば、これらの例では登録しようとする発声登録単語そのものについての情報は表示されていないが、発声登録単語についての情報を、必要ならば付属情報、例えば、発声登録単語であることを示すフラグ、あるいはID番号等を付加し、更に、一時的に全体制御部1に格納された音声波形データに音声波形データ用のIDを割り当て、このIDも発声登録単語に付加して画面表示させるようにしてもよい。また、これらの情報を単語辞書に登録するようにしてもよい。また、システム単語に類似した発声登録単語を登録する場合には、システム単語に類似した単語であることを示す情報も付加して登録する。
【0093】
【発明の効果】
以上説明したように本発明によれば、発声登録単語に対してその種別に応じた登録処理を可能とすることにより、ユーザの登録操作の作業性を向上させると共に、音声認識率を向上させることができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る音声認識装置を示すブロック図。
【図2】音声認識モード時の動作を示すフローチャート。
【図3】音声登録モード時に動作を示すフローチャート。
【図4】図1中の発声登録判定部8の判定処理を説明するためのフローチャート。
【図5】モニタ11の画面表示を示す説明図。
【図6】スピーカ12からの音響出力を示す説明図。
【図7】モニタ11の画面表示を示す説明図。
【図8】スピーカ12からの音響出力を示す説明図。
【図9】図1中の発声登録判定部8の判定処理を説明するためのフローチャート。
【図10】モニタ11の画面表示を示す説明図。
【図11】スピーカ12からの音響出力を示す説明図。
【符号の説明】
1…全体制御部、3…音響分析部、4…音響モデル格納部、5…単語辞書格納部、6…音声認識部、7…単語登録パターン作成部、8…発声登録判定部、9…音声格納部、11…モニタ、12…スピーカ。
Claims (20)
- 入力音声を音響分析する音響分析部と、
単語辞書を格納した単語辞書格納部と、
前記音響分析部による音響分析結果と前記単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識部と、
音響モデルを格納する音響モデル格納部と、
前記音響モデルを用いて前記音響分析部による音響分析結果から発声登録単語を生成する単語登録パターン作成部と、
音声登録モード時に、前記音声認識部の認識結果の単語と前記単語登録パターン作成部からの発声登録単語との類似度を判定する判定手段と、
前記判定手段による前記類似度の判定結果に従って、前記単語登録パターン作成部からの発声登録単語の登録の可否を決定する制御手段と、
前記音声認識部の認識結果の単語の種別によって前記判定手段における前記類似度の判定基準を変更する変更手段とを具備したことを特徴とする音声認識装置。 - 前記変更手段は、前記音声認識部の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって前記判定手段における前記類似度の判定基準を変更することを特徴とする請求項1に記載の音声認識装置。
- 入力音声を音響分析する音響分析部と、
単語辞書を格納した単語辞書格納部と、
前記音響分析部による音響分析結果と前記単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識部と、
音響モデルを格納する音響モデル格納部と、
前記音響モデルを用いて前記音響分析部による音響分析結果から発声登録単語を生成する単語登録パターン作成部と、
音声登録モード時に、前記音声認識部の認識結果の単語と前記単語登録パターン作成部からの発声登録単語との類似度を判定する判定手段と、
前記判定手段による前記類似度の判定結果を提示する提示手段とを具備したことを特徴とする音声認識装置。 - 前記提示手段は、画面表示又は音声によって前記判定結果の提示を行うことを特徴とする請求項3に記載の音声認識装置。
- 前記単語登録パターン作成部からの発声登録単語について前記判定手段による前記類似度の判定結果に従った登録処理を受け付ける制御手段を更に具備したことを特徴とする請求項3又は4のいずれか一方に記載の音声認識装置。
- 前記制御手段は、前記音
声認識部の認識結果の単語の種別によって前記判定手段における前記類似度の判定結果に従った登録処理を切換えることを特徴とする請求項5に記載の音声認識装置。 - 前記制御手段は、前記音声認識部の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって前記判定手段における前記類似度の判定結果に従った登録処理を切換えることを特徴とする請求項5に記載の音声認識装置。
- 前記制御手段は、前記提示手段の提示に際して、前記判定結果に従って可能な登録処理を受け付けるユーザインターフェースを提供することを特徴とする請求項5又は6のいずれか一方に記載の音声認識装置。
- 入力音声を音響分析する音響分析処理と、
前記音響分析処理による音響分析結果と単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識処理と、
音響モデルを用いて前記音響分析処理による音響分析結果から発声登録単語を生成する単語登録パターン作成処理と、
音声登録モード時に、前記音声認識処理の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかを判定する処理と、
前記音声認識処理の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって判定基準を変更しながら、前記認識結果の単語と前記発声登録単語との類似度を判定する判定処理と、
前記判定処理による前記類似度の判定結果に従って、前記単語登録パターン作成部からの発声登録単語の登録の可否を決定する制御処理とを具備したことを特徴とする音声認識方法。 - 入力音声を音響分析する音響分析処理と、
前記音響分析処理による音響分析結果と単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識処理と、
音響モデルを用いて前記音響分析処理による音響分析結果から発声登録単語を生成する単語登録パターン作成処理と、
前記認識結果の単語と前記発声登録単語との類似度を判定する判定処理と、
前記判定処理による前記類似度の判定結果を提示する提示処理とを具備したことを特徴とする音声認識方法。 - 前記提示処理は、画面表示又は音声によって前記判定結果の提示を行うことを特徴とする請求項10に記載の音声認識方法。
- 前記単語登録パターン作成処理による発声登録単語について前記判定処理による前記類似度の判定結果に従った登録処理を受け付ける制御処理を更に具備したことを特徴とする請求項10又は11に記載の音声認識方法。
- 前記制御処理は、前記音声認識処理の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって前記判定処理における前記類似度の判定結果に従った登録処理を切換えることを特徴とする請求項12に記載の音声認識方法。
- 前記制御処理は、前記提示処理の提示に際して、前記判定結果に従って可能な登録処理を受け付けるユーザインターフェースを提供することを特徴とする請求項12又は13のいずれか一方に記載の音声認識方法。
- 前記制御処理は、前記判定結果に従って可能な登録処理として、前記音声認識処理の認識結果の単語が所定の単語である場合には、前記発声登録単語を登録する処理、前記発声登録単語を前記所定の単語と関連付けて登録する処理、前記発声登録単語を登録しない処理を設定することを特徴とする請求項14に記載の音声認識方法。
- 前記制御処理は、前記判定結果に従って可能な登録処理として、前記音声認識処理の認識結果の単語が既登録の発声登録単語である場合には、前記発声登録単語を登録する処理、前記発声登録単語を前記既登録の発声登録単語と置換登録する処理、前記発声登録単語を登録しない処理を設定することを特徴とする請求項14に記載の音声認識方法。
- 前記制御処理は、前記判定結果に従って可能な登録処理として、前記音声認識処理の認識結果の単語が既登録の発声登録単語である場合には、前記発声登録単語を登録する処理、前記発声登録単語を前記所定の単語と関連付けて登録する処理、前記発声登録単語を前記既登録の発声登録単語と置換登録する処理、前記発声登録単語を登録しない処理を設定することを特徴とする請求項14に記載の音声認識方法。
- 前記提示処理は、前記音声認識処理の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかの情報を含むことを特徴とする請求項10に記載の音声認識方法。
- コンピュータに、
入力音声を音響分析する音響分析処理と、
前記音響分析処理による音響分析結果と単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識処理と、
音響モデルを用いて前記音響分析処理による音響分析結果から発声登録単語を生成する単語登録パターン作成処理と、
音声登録モード時に、前記音声認識処理の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかを判定する処理と、
前記音声認識処理の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって判定基準を変更しながら、前記認識結果の単語と前記発声登録単語との類似度を判定する判定処理と、
前記判定処理による前記類似度の判定結果に従って、前記単語登録パターン作成部からの発声登録単語の登録の可否を決定する制御処理とを実行させるための音声認識プログラム。 - コンピュータに、
入力音声を音響分析する音響分析処理と、
前記音響分析処理による音響分析結果と単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識処理と、
音響モデルを用いて前記音響分析処理による音響分析結果から発声登録単語を生成する単語登録パターン作成処理と、
前記認識結果の単語と前記発声登録単語との類似度を判定する判定処理と、
前記判定処理による前記類似度の判定結果を提示する提示処理とを実行させるための音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002185131A JP2004029354A (ja) | 2002-06-25 | 2002-06-25 | 音声認識装置、音声認識方法及び音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002185131A JP2004029354A (ja) | 2002-06-25 | 2002-06-25 | 音声認識装置、音声認識方法及び音声認識プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004029354A true JP2004029354A (ja) | 2004-01-29 |
Family
ID=31180867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002185131A Pending JP2004029354A (ja) | 2002-06-25 | 2002-06-25 | 音声認識装置、音声認識方法及び音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004029354A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005241716A (ja) * | 2004-02-24 | 2005-09-08 | Kawai Musical Instr Mfg Co Ltd | 自然楽器の楽音判定装置におけるモデル作成装置およびモデル作成用プログラム |
JP2008003371A (ja) * | 2006-06-23 | 2008-01-10 | Alpine Electronics Inc | 車載用音声認識装置及び音声コマンド登録方法 |
JP2010072098A (ja) * | 2008-09-16 | 2010-04-02 | Internatl Business Mach Corp <Ibm> | 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
JP2010224301A (ja) * | 2009-03-24 | 2010-10-07 | Denso Corp | 音声認識システム |
JP2010237351A (ja) * | 2009-03-31 | 2010-10-21 | Nec Corp | ユーザ辞書作成システム、方法、及び、プログラム |
WO2016009646A1 (en) | 2014-07-16 | 2016-01-21 | Sony Corporation | Apparatus, method, non-transitory computer-readable medium and system |
JP2016130800A (ja) * | 2015-01-14 | 2016-07-21 | シャープ株式会社 | システム、サーバ、電子機器、サーバの制御方法、およびプログラム |
US9830908B2 (en) | 2014-11-20 | 2017-11-28 | Samsung Electronics Co., Ltd. | Display apparatus and method for registration of user command |
-
2002
- 2002-06-25 JP JP2002185131A patent/JP2004029354A/ja active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005241716A (ja) * | 2004-02-24 | 2005-09-08 | Kawai Musical Instr Mfg Co Ltd | 自然楽器の楽音判定装置におけるモデル作成装置およびモデル作成用プログラム |
JP4609921B2 (ja) * | 2004-02-24 | 2011-01-12 | 株式会社河合楽器製作所 | 自然楽器の楽音判定装置におけるモデル作成装置およびモデル作成用プログラム |
JP2008003371A (ja) * | 2006-06-23 | 2008-01-10 | Alpine Electronics Inc | 車載用音声認識装置及び音声コマンド登録方法 |
JP2010072098A (ja) * | 2008-09-16 | 2010-04-02 | Internatl Business Mach Corp <Ibm> | 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
JP2010224301A (ja) * | 2009-03-24 | 2010-10-07 | Denso Corp | 音声認識システム |
JP2010237351A (ja) * | 2009-03-31 | 2010-10-21 | Nec Corp | ユーザ辞書作成システム、方法、及び、プログラム |
WO2016009646A1 (en) | 2014-07-16 | 2016-01-21 | Sony Corporation | Apparatus, method, non-transitory computer-readable medium and system |
US9830908B2 (en) | 2014-11-20 | 2017-11-28 | Samsung Electronics Co., Ltd. | Display apparatus and method for registration of user command |
US10381004B2 (en) | 2014-11-20 | 2019-08-13 | Samsung Electronics Co., Ltd. | Display apparatus and method for registration of user command |
US10885916B2 (en) | 2014-11-20 | 2021-01-05 | Samsung Electronics Co., Ltd. | Display apparatus and method for registration of user command |
US11495228B2 (en) | 2014-11-20 | 2022-11-08 | Samsung Electronics Co., Ltd. | Display apparatus and method for registration of user command |
US11900939B2 (en) | 2014-11-20 | 2024-02-13 | Samsung Electronics Co., Ltd. | Display apparatus and method for registration of user command |
JP2016130800A (ja) * | 2015-01-14 | 2016-07-21 | シャープ株式会社 | システム、サーバ、電子機器、サーバの制御方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4604178B2 (ja) | 音声認識装置及び方法ならびにプログラム | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
JP4444396B2 (ja) | 音声認識におけるポジション操作 | |
JP4510953B2 (ja) | 音声認識におけるノンインタラクティブ方式のエンロールメント | |
JP4570176B2 (ja) | ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム | |
US7415411B2 (en) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers | |
JP2005331882A (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
JP2002304190A (ja) | 発音変化形生成方法及び音声認識方法 | |
WO2001052237A1 (fr) | Appareil, methode et support d'apprentissage de langues etrangeres | |
WO2007055233A1 (ja) | 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム | |
JP2003316386A (ja) | 音声認識方法および音声認識装置および音声認識プログラム | |
JP2006201749A (ja) | 音声による選択装置、及び選択方法 | |
JP3803029B2 (ja) | 音声認識装置 | |
US20080154591A1 (en) | Audio Recognition System For Generating Response Audio by Using Audio Data Extracted | |
JP4236597B2 (ja) | 音声認識装置、音声認識プログラムおよび記録媒体。 | |
JP4634156B2 (ja) | 音声対話方法および音声対話装置 | |
JP2010197644A (ja) | 音声認識システム | |
JP2004029354A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US20030055642A1 (en) | Voice recognition apparatus and method | |
JP4283133B2 (ja) | 音声認識装置 | |
JP4296290B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2009116075A (ja) | 音声認識装置 | |
JPH1083195A (ja) | 入力言語認識装置及び入力言語認識方法 | |
JP2005157166A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2009116107A (ja) | 情報処理装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050628 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050905 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060704 |