JP2004029354A

JP2004029354A - 音声認識装置、音声認識方法及び音声認識プログラム

Info

Publication number: JP2004029354A
Application number: JP2002185131A
Authority: JP
Inventors: Mitsuyoshi Tatemori; 舘森　三慶
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-06-25
Filing date: 2002-06-25
Publication date: 2004-01-29

Abstract

【課題】発声登録単語が単語辞書内の単語に類似している場合でも、ユーザに類似度の判定結果を提示し、ユーザーの登録操作を受け付けることにより、登録操作の作業性を向上させると共に、音声認識率を向上させる。
【解決手段】音声認識部６は、入力音声の音声認識を行って認識結果の単語を出力する。単語登録パターン作成部７は、入力音声から発声登録単語を作成する。発声登録判定部８は、作成された発声登録単語が認識結果の単語と類似しているか否かを判定する。この判定結果は全体制御部１によってモニタ１１及びスピーカ１２によってユーザに提示される。ユーザは、提示によって発声登録単語を登録すべきか否かを判断することができる。ユーザは提示された判定結果を参照しながら、全体制御部１によって提供されるＧＵＩによって登録作業を行う。これにより、登録操作の作業性を向上させることができ、類似した単語であっても登録可能とすることにより、音声認識精度を向上させることができる。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声による単語登録が可能な音声認識装置、音声認識方法及び音声認識プログラムに関する。
【０００２】
【従来の技術】
近年、音声認識技術の性能向上に伴い、実環境における音声認識エンジンの実用が活発になってきている。特に、カーナビゲーションシステムやモバイル機器など入力装置が限定されるような状況において、音声認識への期待は大きい。
【０００３】
音声認識装置においては、音素モデルを基に作成した認識対象語彙と入力音声から抽出した特徴量とを比較し、比較結果の数値（以下、尤度という）が最も高い値の語彙を音声認識結果として出力する。この場合において、音声認識結果の精度を向上させるために、音声認識装置は、用途に応じて、種々の認識対象語彙を収録した語彙辞書（単語辞書）を利用する。
【０００４】
単語辞書には、音声認識エンジンが適用されるシステムに応じた単語が予めシステム単語として登録されている。更に、ユーザの発声によって登録される単語（以下、発声登録単語という）も単語辞書に登録されている。このように、ユーザの音声によって単語登録（発声登録）を行うことにより、単語辞書をユーザに適したものにして、音声認識精度を向上させることができる。なお、「単語」という言葉は、通常の意味の単語だけではなく、文章や語句、単語列のような、複数の語の組み合わせも含むものとする。
【０００５】
発声登録は、入力された音声に対して音素モデルを用いた音声認識を行い、これによって得られた音素系列に基づいて単語登録パターンを作成し、登録するものである。この場合において、ユーザの発声登録操作による発声登録を無制限に行うと、異なる単語であっても類似した単語登録パターンで登録される虞がある。
【０００６】
一般に日本語連続音声認識では音素／ｂ／，　／ｄ／，　／ｇ／　のような類似子音の識別、「正しい言い方」のような同じ母音が連続する場合の識別が困難であることや、言語にもよるが／ｏｋ（ｕ）ｒｉｍａｓ（ｕ）／等のような無声化母音、／ｋａｉｇｉ／　における／ｇ／　の鼻音化／ｎｇ／　、前後音素環境による発音変化や、周囲騒音が強いと発声形態が変わるロンバード効果によって、認識が難しい場合があることが指摘されている。
【０００７】
このような音声認識システムにおいて、例えば「灘（なだ）」と「奈良（なら）」を発声登録した場合、音声認識装置の性能やユーザの癖などによって、生成される発声登録単語が、例えば共に「なな」のようになり、完全に一致してしまう場合も起こりうる。このため、無制限に発声登録を許可すると、類似性の高い単語同士の誤認識を誘発しやすく、２つの単語を区別することができなくなってしまうことがある。
【０００８】
そこで、特開平８−１１０７９０号公報（以下、文献１という）においては、発声登録を制限する方法が開示されている。即ち、文献１においては、辞書内の単語と新たに発声登録しようとする単語の類似性を判定し、類似性が高い場合には、一律、登録できない旨の情報をユーザに提示するのである。
【０００９】
【発明が解決しようとする課題】
ところで、一般的な音声認識の単語辞書は、上述したように、ユーザの発声登録によって辞書に追加した発声登録単語と、辞書に予め登録されているシステム単語とを含んでいる。システム単語の一部に、ユーザにとって認識率の悪い単語が存在する場合には、ユーザは、自分の発声でその単語を発声登録しようと試みることが考えられる。例えば「東（ひがし）」というシステム単語を「しがし」と発声する癖のあるユーザにとっては、「東」の認識率は悪いので、ユーザは「東」を「しがし」という発声で登録しようとする。
【００１０】
しかしながら、文献１の方法を採用すると、ユーザが「しがし」という文字列で発声登録をした場合でも、この単語登録パターンは辞書内の「東」と類似していると判定される。従って、文献１の方法を採用した場合には、「しがし」を発声登録することはできず、ユーザは「東」の認識率の悪さを改善することはできない。
【００１１】
ところで、発声登録単語のように音声で単語を登録する場合には、ユーザの発声スタイルの経時変化という問題にも対処しなければならない。人間が全く同じ言葉を２度発声しても、音声認識装置が出力する発声登録単語は全く同じになるとは限らない。例えば、加齢による声質の変化や調音様式の変化といった要因により、２度の発声の時間間隔が長くなるにつれ、一般的には、２つの発声に対する発声登録単語の違いが大きくなる傾向にある。
【００１２】
経時変化が大きい場合には、発声登録単語を再登録すれば問題はないが、経時変化があまり大きくない場合や発声の揺らぎ等の場合には、発声登録単語は、過去に登録した同一語に対する発声登録単語と大差ではないが、認識には影響を与える可能性がある。
【００１３】
このような場合、なるべく最近の発声を登録したほうが認識性能は高くなるが、文献１の方法では、過去に登録した単語に対し再登録を試みた場合、過去に登録した発声登録単語との類似性が高く、登録不能である可能性が高い。このため、再登録に際して、発声前に過去に登録した発声登録単語を一旦削除した後、発声登録を行う必要があり、再登録が煩雑である。
【００１４】
また、過去に同一単語を登録したか否かに確証をもてないユーザにとっては、一度その単語を発声し、システムに登録できなかったことによって、はじめて過去に同一単語が登録されていたことを知ることになる。この場合にも、一旦、過去の発声登録単語を削除し、再度発声し直さなければならず、ユーザの再登録操作は煩雑である。
【００１５】
本発明は、発声登録単語に対してその種別に応じた登録処理を可能とすることにより、ユーザの登録操作の作業性を向上させると共に、音声認識率を向上させることができる音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。
【００１６】
【課題を解決するための手段】
本発明の請求項１に係る音声認識装置は、入力音声を音響分析する音響分析部と、単語辞書を格納した単語辞書格納部と、前記音響分析部による音響分析結果と前記単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識部と、音響モデルを格納する音響モデル格納部と、前記音響モデルを用いて前記音響分析部による音響分析結果から発声登録単語を生成する単語登録パターン作成部と、音声登録モード時に、前記音声認識部の認識結果の単語と前記単語登録パターン作成部からの発声登録単語との類似度を判定する判定手段と、前記判定手段による前記類似度の判定結果に従って、前記単語登録パターン作成部からの発声登録単語の登録の可否を決定する制御手段と、前記音声認識部の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって前記判定手段における前記類似度の判定基準を変更する変更手段とを具備したものであり、
本意発明の請求項２に係る音声認識装置は、入力音声を音響分析する音響分析部と、単語辞書を格納した単語辞書格納部と、前記音響分析部による音響分析結果と前記単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識部と、音響モデルを格納する音響モデル格納部と、前記音響モデルを用いて前記音響分析部による音響分析結果から発声登録単語を生成する単語登録パターン作成部と、音声登録モード時に、前記音声認識部の認識結果の単語と前記単語登録パターン作成部からの発声登録単語との類似度を判定する判定手段と、前記判定手段による前記類似度の判定結果を提示する提示手段とを具備したものである。
【００１７】
本発明の請求項１において、音響分析部は、入力音声を音響分析する。音声認識部は、音響分析結果と単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する。一方、単語登録パターン作成部は、音響モデルを用いて音響分析部による音響分析結果から発声登録単語を生成する。判定手段は、音声登録モード時には、音声認識部の認識結果の単語と単語登録パターン作成部からの発声登録単語との類似度を判定する。この類似度の判定に際して、変更手段は、音声認識部の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって判定基準を変更する。制御手段は、この類似度の判定結果に従って、単語登録パターン作成部からの発声登録単語の登録の可否を決定する。これにより、システムに応じた発声登録処理が可能となり、音声認識精度が向上する。
【００１８】
本発明の請求項２において、音響分析部は、入力音声を音響分析し、音声認識部は、音響分析結果と単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する。一方、単語登録パターン作成部によって、音響分析結果から発声登録単語が生成される。判定手段は、音声登録モード時には、音声認識部の認識結果の単語と単語登録パターン作成部からの発声登録単語との類似度を判定する。この類似度の判定結果は、提示手段によって提示される。この提示を参照することで、ユーザは、発声登録処理として選択すべき処理を容易に認識することができる。
【００１９】
なお、装置に係る本発明は方法に係る発明としても成立する。
【００２０】
また、装置に係る本発明は、コンピュータに当該発明に相当する処理を実現させるためのプログラムとしても成立する。
【００２１】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は本発明の第１の実施の形態に係る音声認識装置を示すブロック図である。
【００２２】
本実施の形態は発声登録に際して、発声登録しようとする発声登録単語に類似した単語（以下、発声登録単語の類似単語ともいう）が単語辞書中に存在する場合には、発声登録単語の類似単語の種別に応じて、例えば、発声単語がシステム単語に類似しているか既登録の発声登録単語に類似しているかに応じて、類似度の登録判定基準を変更すると共に、登録の可否を含む登録処理を切換え、ユーザに登録作業についての情報を提示することにより、音声登録の作業性を向上させると共に、音声認識精度を向上させるようにしたものである。
【００２３】
なお、発声単語の類似単語の種別として、本実施の形態は、システム単語と既登録の発声登録単語との２種別の例を説明するが、発声登録単語の類似単語の種別としては種々の種別が考えられ、例えば、システム単語の一部の単語とそれ以外の単語という２種別、システム単語の一部、それ以外のシステム単語、既登録の発声登録単語の３種別等の各種種別があり、本実施の形態の２種別の場合と同様に適用可能である。
【００２４】
図１において、全体制御部１は、装置全体の制御を行う。例えば、全体制御部１は、各構成部間のデータの授受の制御、音声入出力の制御、ユーザの指示入力の受付、モニタ１１の画面表示の制御、スピーカ１２の音響出力の制御等の装置全体の制御を行う。また、全体制御部１には入力音声も入力されるようになっている。全体制御部１は、発声登録モード時には、入力音声の音声波形を一時的に記憶するようになっている。
【００２５】
スイッチ２ａ，２ｂは、全体制御部１に制御されて、音声登録モードと音声認識モードとの切換えを行う。入力音声は音響分析部３に与えられるようになっている。音響分析部３は、入力された音声を音響分析して、分析結果をスイッチ２ａを介して出力する。例えば、音声分析部３は、入力された音声を一定時間間隔（フレーム）毎に音響分析し、分析結果としてケプストラムやパワスペクトル等の音声特徴量の時系列及び音声の開始時刻、終了時刻を出力する。
【００２６】
スイッチ２ａ，２ｂは連動制御され、発声登録モード時には端子Ｒを選択し、音声認識モード時には端子Ｓを選択する。音響モデル格納部４は、音響（音素）モデルを格納する。単語辞書格納部５は、システム単語及びユーザによる発声登録単語を含む単語辞書を格納する。
【００２７】
音声認識部６は、音響分析部３によって分析された特徴量が与えられて、単語辞書格納部５内の単語辞書に登録されている単語の特徴量パターンとの間でパターンマッチングを行い、尤度が最も高い値の語彙を認識結果の単語として出力する。なお、音声認識部６は、最も尤度の高い語彙から尤度の高い順に、認識結果を複数出力するものであってもよい。また、音声認識部６は、入力音声に該当する単語が単語辞書中に存在しないと判定した場合には、認識結果がないこと表す出力を行う。
【００２８】
一方、単語登録パターン作成部７は、発声登録モードにおいて動作し、音響モデル格納部４の音響モデルを用いて、音響分析部３が出力した特徴量を音素系列に変換して、入力音声に符合する発声登録単語及びその音響スコア等の付加的な情報を出力する。
【００２９】
音声認識部６からの認識単語はスイッチ２ｂを介して発声登録判定部８に与えられ、単語登録パターン作成部７からの発声登録単語は直接発声登録判定部８に与えられる。発声登録判定部８は、発声登録モードにおいて動作し、音声認識部６の認識結果によって、入力音声がシステム単語と既登録の発声登録単語とのいずれに類似しているかを判定し、判定結果に応じて、入力音声を発声登録するか否かの登録判定基準を変更するようになっている。
【００３０】
入力音声がシステム単語に類似していると判定した場合に、例えば、登録（類似）判定基準を厳しく設定すると、システム単語に類似した発声登録単語の登録が行われにくくなる。逆に、システム単語に対する類似判定基準を緩く設定すると、システム単語のバリエーションとして発声登録単語を登録しやすくなる。
【００３１】
また、入力音声が既登録の発声登録単語に類似していると判定した場合に、例えば、登録（類似）判定基準を厳しく設定すると、発声登録単語に類似した発声登録単語の登録が行われにくくなる。逆に、既登録の発声登録単語に対する類似判定基準を緩く設定すると、入力音声に基づく発声登録単語で既登録の発声登録単語を登録、置換しやすくなり、新たな発声登録単語の登録数を増やしやすくなる。
【００３２】
このように類似度の判定基準を変更することで、音声認識装置を用いるシステムの種類に最適な発声登録処理を設定することができ、音声認識精度を向上させることができる。
【００３３】
なお、音声登録判定部８による音声認識部６の認識結果がシステム単語であるか発声登録単語であるかの判定方法としては種々の方法が考えられる。例えば、各単語に発声登録単語であるかシステム単語であるかを示すフラグを付与しておく方法、各単語にＩＤ番号を割り当て、システム単語にはある値以下のＩＤ番号を割り当て、発声登録単語に対してはその値よりも大きいＩＤ番号を割り当てる方法等もある。
【００３４】
音声格納部９は、発声登録判定部８から発声登録可と判定されて発声登録された単語の音声波形が、全体制御部１から供給されるようになっている。音声格納部９は、供給される音声波形を割り当てられたＩＤと共に格納すると共に、格納されている音声波形を全体制御部１に出力することができるようになっている。全体制御部１は、音声格納部９に書込み又は音声格納部９から読出す音声波形をスピーカ１２に与えることで、音声を音響出力させることができるようになっている。なお、音声格納部９は必ずしも必須の構成要素ではない。
【００３５】
次に、このように構成された実施の形態の動作について図２乃至図１１を参照して説明する。図２は音声認識モード時の動作を示すフローチャートであり、図３は音声登録モード時の動作を示すフローチャートである。図４及び図９は図１中の発声登録判定部８の判定処理を説明するためのフローチャートである。図５、図７及び図１０はモニタ１１の画面表示を示す説明図であり、図６、図８及び図１１はスピーカ１２からの音響出力を示す説明図である。
【００３６】
いま、音声認識モードであるものとする。先ず図２のステップＳ１　において、入力音声は音響分析部３に与えられて音響分析される。音響分析部３は、入力音声から得た音声特徴量の時系列をスイッチ２ａを介して音声認識部６に出力する。音声認識部６は、ステップＳ２　において、入力音声の音声特徴量の時系列と単語辞書格納部５に格納されている語彙の音声特徴量とを照合し、認識結果として出力する（ステップＳ３　）。
【００３７】
音声認識部６からの認識結果はスイッチ２ｂを介して全体制御部１に与えられる。こうして、全体制御部１において、音声認識結果を所定のアプリケーションに用いることができる。
【００３８】
次に、発声登録モードが指定されるものとする。この場合には図３のフローが採用される。
【００３９】
即ち、入力音声は、ステップＳ１　において、音響分析部３に与えられて音響分析される。音響分析部３からの入力音声の特徴量時系列は、スイッチ２ａを介して、音声認識部６及び単語登録パターン作成部７に与えられる。音声認識部６においては、音声認識モード時と同様に、単語辞書の登録語彙との間で特徴量時系列のパターンマッチングを行って、認識結果として出力する。
【００４０】
一方、単語登録パターン生成部７は、入力された音声特徴量に対して発声登録単語を出力する（ステップＳ５　）。なお、発声登録単語の作成方法は、文献１に記載の方法を用いればよい。また、音響分析部３からの音声特徴量の時系列は音声認識部６にも与えられており、音声認識部６はパターンマッチングによって、尤度が高い登録語彙を単語辞書から抽出して認識結果として出力する（ステップＳ２　）。
【００４１】
音声認識部６からの認識結果である登録単語は、スイッチ２ｂを介して発声登録判定部８に与えられる。また、単語登録パターン作成部７からの発声登録単語も発声登録判定部８に与えられる。発声登録判定部８は、ステップＳ６　において、発声登録単語を単語辞書に登録するか否かの登録判定を行う。
【００４２】
先ず、発声登録判定部８は、音声認識部６からの認識結果によって、入力音声がシステム単語に類似しているか既存の発声登録単語に類似しているかを判定する。なお、ここでは、認識結果の単語は１個であるか又は０個である例について説明する。即ち、図４のステップＳ１１において、発声登録判定部８は、音声認識部６からの認識結果の単語数が０であるか１であるかを判定する。０である場合、即ち、音声認識部６において、発声登録単語に類似した単語が登録されていないものと判定された場合には、発声登録判定部８は、処理をステップＳ１６に移行して、単語登録パターン作成部７からの発声登録単語を登録すべき旨の処理を行う。発声登録判定部８は、発声登録単語を単語辞書格納部５に与えて、ユーザによる発声登録単語として登録する。
【００４３】
音声認識部６からの認識結果の単語数が１である場合には、発声登録判定部８は、認識結果の登録単語がシステム単語である否かを判定する。システム単語である場合には、入力発声に基づく発声登録単語は、システム単語に類似している可能性があるものとしてステップＳ１３に処理を移行する。ステップＳ１３では、システム単語用の類似度判定基準を用いて、入力発声に基づく発声登録単語と対応するシステム単語との類似度を判定する。
【００４４】
一方、ステップＳ１２でシステム単語ではないものと判定された場合には、入力発声に基づく発声登録単語は、ユーザ登録による既登録の発声登録単語に類似している可能性があるものとしてステップＳ１４に処理を移行する。ステップＳ１４では、発声登録単語用の類似度判定基準を用いて、入力発声に基づく発声登録単語と対応する既登録の発声登録単語との類似度を判定する。
【００４５】
なお、発声登録判定部８による発声登録単語と認識結果の単語との類似度の計算は、例えば、類似度＝（発声登録単語の音響スコア―認識結果の単語の音響スコア）と定義することによって求めてもよい。この定義の場合には、差の絶対値が小さいほど、類似性が高いことを意味する。また、この定義では、類似度が負になる場合には、認識結果の単語のスコアのほうが発声登録単語のスコアよりも高いので、発声登録単語は登録しないようにする方法を採用してもよい。
【００４６】
なお、これらの音響スコアは、通常の音声認識方法でよく用いられるＶｉｔｅｒｂｉスコアであり、発声登録単語作成時及び音声認識時に計算されるものである。音声認識方法やＶｉｔｅｒｂｉスコア等については、中川聖一著『確率モデルによる音声認識』電子情報通信学会に詳述されている。
【００４７】
ステップＳ１３，Ｓ１４において、類似度の判定基準がシステム単語用と既登録の発声登録単語用とで切換えられており、音声認識システムが適用される各アプリケーションに適した設定での類似度判定が可能である。
【００４８】
発声登録判定部８は、ステップＳ１３，Ｓ１４において、入力発声に基づく発声登録単語が、単語辞書内の単語に類似していないと判定した場合には、処理をステップＳ１６に移行して、単語登録パターン作成部７からの発声登録単語を登録すべき旨の処理を行う。
【００４９】
一方、発声登録判定部８は、ステップＳ１３，Ｓ１４において入力発声に基づく発声登録単語が、単語辞書内の単語に類似していると判定した場合には、処理をステップＳ１７に移行する。ステップＳ１７では、ユーザに類似度の判定結果を提示すると共に、ユーザの操作を容易にするための、例えばＧＵＩ（グラフィカルユーザインターフェース）を提供する。
【００５０】
即ち、発声登録判定部８の判定結果は全体制御部１に供給される。全体制御部１は、発声登録単語がシステム単語に類似していると判定された場合、既登録の発声登録単語に類似していると判定された場合又は登録単語には類似していないと判定された場合に応じて異なる提示を行う。
【００５１】
いま、発声登録単語がシステム単語に類似していることを示す判定結果が全体制御部１に供給されるものとする。この場合には、発声登録単語は、音声認識部６による認識結果の単語と同一単語である可能性もあり、また、認識結果の単語に類似した別単語である可能性もある。
【００５２】
全体制御部１は、類似度の判定結果に基づく提示を行う。例えば、全体制御部１は、モニタ１１に図５に示す登録制御画面６１を表示させる。図５の登録制御画面６１は、発声登録単語が単語ＩＤが１０のシステム単語である「東」であることが示されており、また、発声登録判定部８の判定結果である類似度が８０／１００であることが示されている。そして、登録制御画面６１上には、ユーザの指示を受け付けるための、「登録音声再生」ボタン６２、「関連付けて登録」ボタン６３、「登録する」ボタン６４及び「登録しない」ボタン６５が表示されている。なお、モニタ１１の表示画面はタッチパネルを構成しており、ボタン６２〜６５の表示上をユーザが指等で触れることによって、ボタンに応じた処理が行われる。
【００５３】
ボタン６２に対するタッチ操作が行われると、全体制御部１は、単語辞書格納部５から単語ＩＤが１０の単語「東」を読出して、音声波形を生成し、スピーカ１２に供給する。これにより、スピーカ１２は「ひがし」と音声出力する。
【００５４】
ボタン６３が操作されると、全体制御部１は、発声登録判定部８に、発声登録単語を単語ＩＤが１０の単語「東」に関連付けて登録するように指示を出す。この場合には、発声登録判定部８は、システム単語「東」に関連付けて、発声登録単語を単語辞書格納部５の単語辞書に登録する。こうして、この場合には、ユーザはその認識結果のバリエーションとして、今回得られた発声登録単語を登録することができる。即ち、この場合には、この発声登録単語が認識された場合には、そのシステム単語が認識された時と同じ動作をするように設定される。例えば、音声認識装置に単語ＩＤと動作の対応を関連付けたテーブルを設け、システム単語と関連付けて登録する発声登録単語のＩＤと対応するシステム単語の動作との対応を登録することによって実現可能である。
【００５５】
ボタン６４が操作されると、全体制御部１は、発声登録判定部８に、発声登録単語の登録を指示する。この場合には、発声登録判定部８は、発声登録単語を単語辞書格納部５の単語辞書に登録する。なお、この場合には、発声登録単語に対して、新たな特定の動作を割り当てることが可能である。そして、ボタン６５が操作されると、全体制御部１は、発声登録判定部８に、発声登録単語を登録しないことを指示する。
【００５６】
なお、全体制御部１は、発声登録モードの場合には、一連の登録判定を行う前に、格納している入力音声を再生し、一旦、ユーザにこの音声に対しこのまま登録処理を続けてよいか確認することも可能である。これにより、発声を間違えた場合や咳払い等の非音声が混入した場合等において、その後の処理が無駄に続けられることを防止することができる。
【００５７】
また、全体制御部１は、類似度の判定結果をスピーカ１２によって音響出力することで、発声登録操作を音声によって継続することも可能である。図６はこの場合にスピーカ１２から出力される音響を示している。図６において、“装置”はスピーカ１２からの音響出力を示しており、“ユーザ”はこの音響出力に対するユーザの操作入力音声の例を示している。
【００５８】
図６の例では、全体制御部１は、先ず、類似度の判定結果である「発声された音声と類似度の高い単語があります。単語ＩＤは１０、単語名は東　類似度は８０です。」を音響出力させる。ユーザが「音声再生。」と入力すると、全体制御部１は、図示しないマイクロフォンからの音声入力を受け付けて、記憶している発声登録単語の入力音声を再生する。発声登録単語は、スピーカ１２から音響出力される。図６の例では、全体制御部１は、登録しようとする入力音声を再生する旨の音声出力をした後、記録されている入力音声を音響出力する。図６の例では、ユーザが登録しようとする「ひがし」の単語の前に、「き…」というノイズが混入していることが示されている。
【００５９】
図６の例では、ユーザはこの音声を発声登録単語として登録しない旨の音声入力を行っている。これに対し、全体制御部１は、登録を中止してよいか否かの確認のための音声出力を出力し、これに対するユーザの応答に従って、全体制御部１は、発声登録単語の登録中止を宣言している。
【００６０】
なお、図６の例ではユーザが登録を希望しない場合の例を説明したが、図５の画面表示の場合と同様に、「登録音声再生」、「関連付けて登録」、「登録する」及び「登録しない」等の処理も可能であることは明らかである。
【００６１】
なお、音声対話を行う場合には、全体制御部１は、一旦認識結果、発声登録単語を記憶し、音声認識装置を発声登録モードから音声認識モードに切り替え、対話終了後、再び発声登録モードに戻し、登録操作を継続する。
【００６２】
このように、図６に示す音声対話を採用することによって、画面表示が不可能なシステムにおいても、ユーザに提示する情報及びユーザからの指示を受けることができる。
【００６３】
次に、発声登録単語が既登録の発声登録単語に類似していることを示す判定結果が全体制御部１に供給されるものとする。この場合にも、発声登録単語は、音声認識部６による認識結果の単語と同一単語である可能性もあり、また、認識結果の単語に類似した別単語である可能性もある。
【００６４】
全体制御部１は、この場合にも、類似度の判定結果に基づく提示を行う。例えば、全体制御部１は、モニタ１１に図７に示す登録制御画面８１を表示させる。図７の登録制御画面８１は、発声登録単語が単語ＩＤが１００３２の発声登録単語であることが示されている。発声登録単語は文字列として画面表示することはできないことがあり、登録制御画面８１においては、発声登録単語の登録日時（２００２年１月１１日　１０時１５分）が表示されている。また、発声登録判定部８の判定結果である類似度が９０／１００であることが示されている。即ち、登録制御画面８１上には、発声登録単語に関する情報が表示される。
【００６５】
なお、図７の例では単語名として、「発声登録単語」を表示させたが、入力音声に基づいて解析した発声登録単語をモデル化された状態でそのまま表示するようにしてもよい。この場合には、発声登録単語のモデル化の手法によっても異なるが、無意味なカナ文字列や意味不明な記号列になる可能性もある。
【００６６】
そして、登録制御画面６１上には、ユーザの指示を受け付けるための、「類似単語音声再生」ボタン８２、「登録音声再生」ボタン８３、「登録する」ボタン８４、「登録しない」ボタン８５及び「置換する」ボタン８６も表示されている。
【００６７】
ボタン６２に対するタッチ操作が行われると、全体制御部１は、単語辞書格納部５から単語ＩＤが１０の単語「東」を読出して、音声波形を生成し、スピーカ１２に供給する。これにより、スピーカ１２は「ひがし」と音声出力する。
【００６８】
入力した発声登録単語が、既登録の発声登録単語の類似している可能性がある場合には、ユーザは認識結果のバリエーションとして、今回入力した発声登録単語を登録したい場合もあれば、過去に登録した発声登録単語を現在のものと置換したい場合等が予想される。
【００６９】
この理由から、登録制御画面８１においては、「置換する」ボタン８６が設けられている。なお、「登録音声再生」ボタン８３、「登録する」ボタン８４及び「登録しない」ボタン８５操作時の動作は、夫々図５の「登録音声再生」ボタン６２、「登録する」ボタン６４及び「登録しない」ボタン６５操作時と同様である。
【００７０】
ボタン８２が操作されると、全体制御部１は、発声登録判定部８に対して記録されている既登録の発声登録単語の再生を指示する。発声登録判定部８は、音声格納部９から認識結果である既登録の発声登録単語の音声波形を読出して、全体制御部１に出力する。全体制御部１は、既登録の発声登録単語の音声波形をスピーカ１２に与えて音響出力させる。これにより、ユーザは今回入力した発声単語に類似していると判定された既登録の発声登録単語の音声を聞くことができ、登録処理の判断に用いることができる。
【００７１】
ボタン８６が操作されると、全体制御部１は、今回入力された発声単語を既登録の発声登録単語と置き換えるように発声登録判定部８に指示を与える。発声登録判定部８は、単語辞書格納部５に対して単語ＩＤが１００３２の発声登録単語を削除し、単語登録パターン作成部７からの発声登録単語を単語ＩＤが１００３２の発声登録単語として格納させる。この場合には、発声登録判定部８は、登録日時についても更新するようになっている。
【００７２】
また、全体制御部１は、発声登録単語が既登録の発声登録単語に類似している場合においても、類似度の判定結果をスピーカ１２によって音響出力することで、発声登録操作を音声によって継続することも可能である。図８はこの場合にスピーカ１２から出力される音響の例を示している。図８において、“装置”はスピーカ１２からの音響出力を示しており、“ユーザ”はこの音響出力に対するユーザの操作入力音声の例を示している。
【００７３】
図８の例では、全体制御部１は、先ず、類似度の判定結果を音響出力させる。ユーザが「類似単語音声再生。」と入力すると、全体制御部１は、図示しないマイクロフォンからの音声入力を受け付けて、音声格納部９に記録されている発声登録単語の音声波形の再生を指示する。今回の入力音声に類似している既登録の発声登録単語は、スピーカ１２から音響出力される。図８の例では、全体制御部１は、発声登録単語の類似単語を再生する旨の音声出力をした後、記録されている既登録の発声登録単語を音響出力する。図８の例では、既登録の発声登録単語は「みなみ」であることが示されている。これにより、ユーザが既登録の発声登録単語を記憶していない場合でも、ユーザは容易に確認して、登録処理の判断に利用することができる。
【００７４】
図８の例では、ユーザは入力音声を既登録の発声登録単語と置換する旨の音声入力を行っている。これに対し、全体制御部１は、置換を行ってよいか否かの確認のための音声出力を出力し、これに対するユーザの応答に従って、全体制御部１は、発声登録単語の置換処理を行い、置換処理が終了するとその旨を音声出力している。
【００７５】
なお、図８の例においても、図７の各ボタン８２乃至８６の操作時と同様の処理が可能であることは明らかである。
【００７６】
次に、発声登録単語がシステム単語及び既登録の発声登録単語に類似していないことを示す判定結果が全体制御部１に供給されるものとする。この場合には、入力音声に基づく発声登録単語は、これまでに登録されていない単語である可能性が高いので、全体制御部１は、上述したステップＳ１６において、発声登録単語を無条件に登録する。
【００７７】
なお、この場合には、入力された音声が、発声や言い淀みやいい直しを含んだ不適切な発声である可能性があることを考慮して、発声登録単語が単語辞書に存在する単語に類似しないと判定された場合でも、ユーザにこの発声登録単語についての登録判断を問い合わせるようにしてもよい。
【００７８】
ところで、図４のフローチャートは音声認識部６による認識結果の単語が１又は０個の例であった。しかし、音声認識部６からは認識結果として複数の単語が得られることがある。図９はこの場合に発声登録判定部８において採用されるフローチャートを示している。図９において図４と同一の手順には同一符号を付して説明を省略する。
【００７９】
ステップＳ２１では認識結果の個数を示すＮが０（認識結果の単語が存在しない）でないか否かが判定される。認識結果の単語が存在しない場合には、発声登録判定部８は発声登録単語を登録する。次のステップＳ２２では、変数ｋを１に、ｎを０に初期化する。ステップＳ２３において、認識結果の個数Ｎの全てについての処理が終わった否かを判定し、終わっていない場合には、次のステップＳ１２においてシステム単語か否かの判定を行う。
【００８０】
ステップＳ１２乃至Ｓ１５の処理は図４と同様であり、発声登録単語がシステム単語に類似しているか既登録の発声登録単語に類似しているかが判定される。図９の例では、発声登録単語に類似した単語が単語辞書に存在する場合には、ステップＳ２５においてその発声登録単語を類似単語バッファに格納する。また、変数ｎをインクリメントする。
【００８１】
次にステップＳ２６においてｋをインクリメントして、処理をステップＳ２３に戻す。以後同様にして、全ての認識単語についての処理を行い、ステップＳ２７において類似単語バッファ内に発声登録単語が格納されているか否かを判定する。類似単語バッファ内に発声登録単語が格納されている場合には、ステップＳ２８において、類似単語バッファに格納されているｎ個の認識結果をユーザに提示して、以後の登録処理についての問い合わせを行う。
【００８２】
図１０はこの場合において全体制御部１による画面表示例を示している。図１０に示す登録制御画面１０１は、入力音声に基づく発声登録単語に類似していると判定された単語辞書内の単語の一覧１０２を有している。一覧１０２は、発声登録単語の類似単語の単語ＩＤ、単語名及び類似度を示しており、類似度順に配列されている。図１０の例では、単語ＩＤが１５で単語名が“ちゅうしゃじょう”で類似度が９１のシステム単語、単語ＩＤが１０００２の既登録の発声登録単語で類似度が８７の単語、単語ＩＤが１０８で単語名が“かいしゃ”で類似度が８３のシステム単語及び単語ＩＤが１００４８の既登録の発声登録単語で類似度が７９の単語が、発声登録単語の類似単語であることが示されている。
【００８３】
上述したように、登録制御画面１０１を表示するモニタ１１は、タッチパネルを構成しており、一覧１０２中の各行の単語に対する選択操作を行うことにより、全体制御部１は、図５又は図７の登録制御画面６１，８１に表示を切換えるようになっている。即ち、単語ＩＤが５又は１０８の単語についての表示エリアに対するタッチ操作によって、全体制御部１は登録制御画面６１を表示させ、単語ＩＤが１０００２又は１００４７の単語についての表示エリアに対するタッチ操作によって、全体制御部１は登録制御画面８１を表示させる。
【００８４】
また、登録制御画面１０１は、ユーザの指示を受け付けるための、「登録音声再生」ボタン１０３、「登録する」ボタン１０４及び「登録しない」ボタン１０５が表示されている。これらのボタンは、図６の「登録音声再生」ボタン６２、「登録する」ボタン６４及び「登録しない」ボタン６５と同様である。
【００８５】
また、全体制御部１は、類似度の判定結果をスピーカ１２によって音響出力することで、発声登録操作を音声によって継続することも可能である。図１１は発声登録単語の類似単語が複数存在する場合にスピーカ１２から出力される音響を示している。図１１においても、“装置”はスピーカ１２からの音響出力を示しており、“ユーザ”はこの音響出力に対するユーザの操作入力音声の例を示している。
【００８６】
図１１の例は図１０に対応したものであり、全体制御部１は、先ず、発声登録単語の類似単語が複数存在することを示す音声出力をスピーカ１２から出力させる。これに対して、類似度順での提示をユーザが音声入力によって希望すると、全体制御部１は、類似度順に、図１０の一覧１０２の内容を音声にて出力する。
【００８７】
ユーザが「２番再生」と音声入力すると、全体制御部１は、図示しないマイクロフォンからの音声入力を受け付けて、単語ＩＤが１０００２の既登録の発声登録単語の再生を指示する。これにより、発声登録判定部８は、音声格納部９から単語ＩＤが１０００２の既登録の発声登録単語の音声波形を読出して全体制御部１に与える。こうして、全体制御部１は、「２番、“ちゅうけい（中継）”」を音声出力させる。
【００８８】
図１１の例では、ユーザは入力音声に基づく発声登録単語を既登録の発声登録単語を残したまま、登録するように音声入力操作を行っている。これに対し、全体制御部１は、登録を行ってよいか否かの確認のための音声出力を出力し、これに対するユーザの応答に従って、全体制御部１は、発声登録単語の登録処理を行い、登録処理が終了するとその旨を音声出力している。
【００８９】
なお、図１１の例においても、図５、図７及び図１０の各ボタン操作時と同様の処理が可能であることは明らかである。
【００９０】
このように本実施の形態においては、入力音声に対する認識結果に応じて、発声登録単語の類似度判定基準、即ち、登録基準を変更しており、音声認識装置を適用するシステムに最適な発声登録を可能にすることができる。また、発声登録単語の類似単語が存在する場合には、類似単語の存在をユーザに提示すると共に、ＧＵＩによって、ユーザに以後の登録処理操作環境を提供しており、発声登録作業を著しく効率化することができる。しかも、ユーザに提示する登録処理方法を、類似単語がシステム単語であるか既登録の発声登録単語であるかによって切換えており、類似単語の種類に応じた登録を行うことによって、音声認識精度を向上させることができる。
【００９１】
なお、上記実施の形態においては、類似単語がシステム単語である場合の動作、既登録の発声登録単語である場合の動作及び類似単語が存在しない場合の動作の３つの動作について規定しているが、いずれか１つ又は２つの動作のみを実行させるようにしてもよいことは明らかである。
【００９２】
また、登録制御画面６１，８１，１０１によって表示する情報としては、図５，図７，図１０に示した情報以外の情報も考えられる。例えば、これらの例では登録しようとする発声登録単語そのものについての情報は表示されていないが、発声登録単語についての情報を、必要ならば付属情報、例えば、発声登録単語であることを示すフラグ、あるいはＩＤ番号等を付加し、更に、一時的に全体制御部１に格納された音声波形データに音声波形データ用のＩＤを割り当て、このＩＤも発声登録単語に付加して画面表示させるようにしてもよい。また、これらの情報を単語辞書に登録するようにしてもよい。また、システム単語に類似した発声登録単語を登録する場合には、システム単語に類似した単語であることを示す情報も付加して登録する。
【００９３】
【発明の効果】
以上説明したように本発明によれば、発声登録単語に対してその種別に応じた登録処理を可能とすることにより、ユーザの登録操作の作業性を向上させると共に、音声認識率を向上させることができるという効果を有する。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態に係る音声認識装置を示すブロック図。
【図２】音声認識モード時の動作を示すフローチャート。
【図３】音声登録モード時に動作を示すフローチャート。
【図４】図１中の発声登録判定部８の判定処理を説明するためのフローチャート。
【図５】モニタ１１の画面表示を示す説明図。
【図６】スピーカ１２からの音響出力を示す説明図。
【図７】モニタ１１の画面表示を示す説明図。
【図８】スピーカ１２からの音響出力を示す説明図。
【図９】図１中の発声登録判定部８の判定処理を説明するためのフローチャート。
【図１０】モニタ１１の画面表示を示す説明図。
【図１１】スピーカ１２からの音響出力を示す説明図。
【符号の説明】
１…全体制御部、３…音響分析部、４…音響モデル格納部、５…単語辞書格納部、６…音声認識部、７…単語登録パターン作成部、８…発声登録判定部、９…音声格納部、１１…モニタ、１２…スピーカ。

Claims

入力音声を音響分析する音響分析部と、
単語辞書を格納した単語辞書格納部と、
前記音響分析部による音響分析結果と前記単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識部と、
音響モデルを格納する音響モデル格納部と、
前記音響モデルを用いて前記音響分析部による音響分析結果から発声登録単語を生成する単語登録パターン作成部と、
音声登録モード時に、前記音声認識部の認識結果の単語と前記単語登録パターン作成部からの発声登録単語との類似度を判定する判定手段と、
前記判定手段による前記類似度の判定結果に従って、前記単語登録パターン作成部からの発声登録単語の登録の可否を決定する制御手段と、
前記音声認識部の認識結果の単語の種別によって前記判定手段における前記類似度の判定基準を変更する変更手段とを具備したことを特徴とする音声認識装置。
前記変更手段は、前記音声認識部の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって前記判定手段における前記類似度の判定基準を変更することを特徴とする請求項１に記載の音声認識装置。
入力音声を音響分析する音響分析部と、
単語辞書を格納した単語辞書格納部と、
前記音響分析部による音響分析結果と前記単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識部と、
音響モデルを格納する音響モデル格納部と、
前記音響モデルを用いて前記音響分析部による音響分析結果から発声登録単語を生成する単語登録パターン作成部と、
音声登録モード時に、前記音声認識部の認識結果の単語と前記単語登録パターン作成部からの発声登録単語との類似度を判定する判定手段と、
前記判定手段による前記類似度の判定結果を提示する提示手段とを具備したことを特徴とする音声認識装置。
前記提示手段は、画面表示又は音声によって前記判定結果の提示を行うことを特徴とする請求項３に記載の音声認識装置。
前記単語登録パターン作成部からの発声登録単語について前記判定手段による前記類似度の判定結果に従った登録処理を受け付ける制御手段を更に具備したことを特徴とする請求項３又は４のいずれか一方に記載の音声認識装置。
前記制御手段は、前記音
声認識部の認識結果の単語の種別によって前記判定手段における前記類似度の判定結果に従った登録処理を切換えることを特徴とする請求項５に記載の音声認識装置。
前記制御手段は、前記音声認識部の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって前記判定手段における前記類似度の判定結果に従った登録処理を切換えることを特徴とする請求項５に記載の音声認識装置。
前記制御手段は、前記提示手段の提示に際して、前記判定結果に従って可能な登録処理を受け付けるユーザインターフェースを提供することを特徴とする請求項５又は６のいずれか一方に記載の音声認識装置。
入力音声を音響分析する音響分析処理と、
前記音響分析処理による音響分析結果と単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識処理と、
音響モデルを用いて前記音響分析処理による音響分析結果から発声登録単語を生成する単語登録パターン作成処理と、
音声登録モード時に、前記音声認識処理の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかを判定する処理と、
前記音声認識処理の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって判定基準を変更しながら、前記認識結果の単語と前記発声登録単語との類似度を判定する判定処理と、
前記判定処理による前記類似度の判定結果に従って、前記単語登録パターン作成部からの発声登録単語の登録の可否を決定する制御処理とを具備したことを特徴とする音声認識方法。
入力音声を音響分析する音響分析処理と、
前記音響分析処理による音響分析結果と単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識処理と、
音響モデルを用いて前記音響分析処理による音響分析結果から発声登録単語を生成する単語登録パターン作成処理と、
前記認識結果の単語と前記発声登録単語との類似度を判定する判定処理と、
前記判定処理による前記類似度の判定結果を提示する提示処理とを具備したことを特徴とする音声認識方法。
前記提示処理は、画面表示又は音声によって前記判定結果の提示を行うことを特徴とする請求項１０に記載の音声認識方法。
前記単語登録パターン作成処理による発声登録単語について前記判定処理による前記類似度の判定結果に従った登録処理を受け付ける制御処理を更に具備したことを特徴とする請求項１０又は１１に記載の音声認識方法。
前記制御処理は、前記音声認識処理の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって前記判定処理における前記類似度の判定結果に従った登録処理を切換えることを特徴とする請求項１２に記載の音声認識方法。
前記制御処理は、前記提示処理の提示に際して、前記判定結果に従って可能な登録処理を受け付けるユーザインターフェースを提供することを特徴とする請求項１２又は１３のいずれか一方に記載の音声認識方法。
前記制御処理は、前記判定結果に従って可能な登録処理として、前記音声認識処理の認識結果の単語が所定の単語である場合には、前記発声登録単語を登録する処理、前記発声登録単語を前記所定の単語と関連付けて登録する処理、前記発声登録単語を登録しない処理を設定することを特徴とする請求項１４に記載の音声認識方法。
前記制御処理は、前記判定結果に従って可能な登録処理として、前記音声認識処理の認識結果の単語が既登録の発声登録単語である場合には、前記発声登録単語を登録する処理、前記発声登録単語を前記既登録の発声登録単語と置換登録する処理、前記発声登録単語を登録しない処理を設定することを特徴とする請求項１４に記載の音声認識方法。
前記制御処理は、前記判定結果に従って可能な登録処理として、前記音声認識処理の認識結果の単語が既登録の発声登録単語である場合には、前記発声登録単語を登録する処理、前記発声登録単語を前記所定の単語と関連付けて登録する処理、前記発声登録単語を前記既登録の発声登録単語と置換登録する処理、前記発声登録単語を登録しない処理を設定することを特徴とする請求項１４に記載の音声認識方法。
前記提示処理は、前記音声認識処理の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかの情報を含むことを特徴とする請求項１０に記載の音声認識方法。
コンピュータに、
入力音声を音響分析する音響分析処理と、
前記音響分析処理による音響分析結果と単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識処理と、
音響モデルを用いて前記音響分析処理による音響分析結果から発声登録単語を生成する単語登録パターン作成処理と、
音声登録モード時に、前記音声認識処理の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかを判定する処理と、
前記音声認識処理の認識結果の単語がシステム単語であるか既登録の発声登録単語であるかによって判定基準を変更しながら、前記認識結果の単語と前記発声登録単語との類似度を判定する判定処理と、
前記判定処理による前記類似度の判定結果に従って、前記単語登録パターン作成部からの発声登録単語の登録の可否を決定する制御処理とを実行させるための音声認識プログラム。
コンピュータに、
入力音声を音響分析する音響分析処理と、
前記音響分析処理による音響分析結果と単語辞書に登録された単語との照合によって音声認識を行い認識結果を出力する音声認識処理と、
音響モデルを用いて前記音響分析処理による音響分析結果から発声登録単語を生成する単語登録パターン作成処理と、
前記認識結果の単語と前記発声登録単語との類似度を判定する判定処理と、
前記判定処理による前記類似度の判定結果を提示する提示処理とを実行させるための音声認識プログラム。