JP3708747B2

JP3708747B2 - 音声認識方法

Info

Publication number: JP3708747B2
Application number: JP10963299A
Authority: JP
Inventors: 光章渡邉
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 1999-04-16
Filing date: 1999-04-16
Publication date: 2005-10-19
Anticipated expiration: 2019-04-16
Also published as: JP2000305590A

Description

【０００１】
【発明の属する技術分野】
本発明は音声認識方法に係わり、特に、音声辞書を備え、入力音声と類似する音声を音声辞書より検索して入力音声を認識する音声認識方法に関する。
【０００２】
【従来の技術】
カーナビゲーションシステムでは近年、リモコンでの操作に替わって、音声認識装置を利用して操作することが盛んに行われるようになってきている。音声認識装置は通常、ユーザーがある特定の単語を発生するとその単語を認識し、それに合わせたトークバックを行う。ユーザーは、トークバックにより認識内容の確認を行い、もし、トークバックの内容がユーザーの発声内容と異なる場合には、再度入力を行うようにする。
【０００３】
【発明が解決しようとする課題】
音声認識装置の認識率は向上してきているが、現在の認識エンジンの能力では、大語彙化した場合どうしても誤認識がさけられない。誤認識した際の対応の代表例として、「戻り」操作がある。これは、認識結果を破棄して、再度入力し直すというものである。しかし、この方法だとシステム側で誤認識をしたにも関わらず、ユーザーがそれをリカバーせねばならないことになる。よって、あくまで機械を操作しているという感覚が拭えない。
又、誤認識に対して場合によっては何度も同じ単語を発声せねばならなくなるため、認識率が感覚的に実際より低く感じられてしまう。仮に、データ的には７０％の認識率があったとしても、ユーザーにはほとんど認識できていないように感じられる。
さらに、音声認識装置が完全なブラックボックスであると同時に、複数の認識候補中の１つのみ提示するため、他の認識候補内に正解があったとしてもそれがユーザーからはわからずに、ただ“認識しない”というイメージのみが残る。
【０００４】
以上から本発明の目的は、音声認識装置側で持っている複数の認識候補を有効に活用し、ユーザーによる再入力の回数を極力減らし、感覚的な認識率を向上させることである。
本発明の別の目的は、認識候補をいくつか示すことで、音声認識の内部処理について感知できるようにしてユーザに音声認識装置に対する安心感を与えるることである。
本発明の別の目的は、第１位の認識候補とカテゴリーが異なる単語のうち入力音声と音的に似た単語をすばやく探索することである。
【０００５】
【課題を解決するための手段】
本発明は、入力音声と類似する音声を音声辞書より検索して入力音声を認識する音声認識方法において、 (1) 音声辞書をカテゴリー別に構成し、かつ、各カテゴリーに対する他のカテゴリーの重みを設定しておき、 (2) 入力音声に類似する複数の認識候補を検索し、 (3) 類似度が最高の第１位認識候補が属するカテゴリーに対する他の認識候補が属するカテゴリーの重みを求め、 (4) 各認識候補の類似度に重み付けして得られる重み付け類似度に基づいて第１位認識候補からの距離を識別し、 (5) 該第１位認識候補の提示に対して入力音声との距離の大小を示す応答があった時、該応答が入力音声との距離小であることを示す応答であれば、該第１位認識候補からの距離が小さい前記認識候補を提示し、該応答が入力音声との距離大であることを示す応答であれば、該第１位認識候補からの距離が大きい前記認識候補を提示する。たとえば、前記応答が入力音声との距離小であることを示す応答(「違う」)であれば、距離が小さい認識候補を提示し、前記応答が入力音声との距離大であることを示す応答(「全く違う」)であれば、距離が大きい認識候補を提示する。
以上のようにすれば、音声認識装置側で持っている認識候補を有効に活用し、ユーザによる再入力の回数を極力減らし、感覚的な認識率を向上させることができる。又、認識候補をいくつか示すことで、音声認識の内部処理について感知できるようにしてユーザに音声認識装置に対する安心感を与えることができる。更に、第１位の認識候補とカテゴリーが異なる単語のうち入力音声と音的に似た単語をすばやく探索することができる。
【０００６】
【発明の実施の形態】
（ａ）本発明の概略
認識候補が複数個あがってきた場合、音声認識装置はそれらの認識候補それぞれに対して、スコア値（類似度）の差および辞書構成に応じた重みをつけることで、認識候補間の距離を決定する。その上で音声認識装置は、まずスコア値（重み付け類似度）がもっとも高いものを第１位候補として、ユーザに提示する（トークバックによる）。ユーザーはその提示された単語で良いか、違うか、全く違うかを答える。(1) 「良い」という返事が返ってくれば、音声認識装置は提示した単語を音声入力単語とみなし、所定の処理を実行する。(2) 「違う」という返事が返ってくれば、音声認識装置は提示した単語に距離的に近い認識候補を第２候補として提示する。(3) 一方、「全く違う」という返事が返ってくれば、音声認識装置は、提示した単語から距離的に遠い認識候補を第２候補として提示する。以後、第２候補の提示に対するユーザの応答に応じて同様の処理を繰り返し、提示すべき適当な単語が認識候補に存在しなくなった時、初めて、音声認識装置はユーザーに再入力を促す。
【０００７】
（ｂ）システム構成
図１は本発明のシステム構成図であり、１１はナビゲーションユニット、２１は音声認識装置である。音声認識装置２１において、３１は話者音声を検出するマイクロホン、３２はカテゴリー別に単語音声を辞書化して有する音声辞書、３３は入力音声と類似する複数の認識候補を音声辞書より検索して出力する認識エンジン、３４は複数の認識候補のうち所定の候補を選択する認識候補選択部、３５は選択された認識候補の音声を合成して出力（トークバック）する合成エンジン、３６は合成音声を出力するスピーカである。
図２は音声辞書における認識単語のカテゴリー構成と重み値の説明図である。音声辞書は、▲１▼コマンド（ナビゲーション装置に対する指示）、▲２▼施設、▲３▼地名、▲４▼数字（電話番号）．．．等のカテゴリー別に大分類され、更に各カテゴリーは階層的に中分類カテゴリー、小分類カテゴリーに細分類されている。例えば、地名は、「地名→都道府県→市町村」と階層的に分類されている。重み値は同じ小分類カテゴリーに属すれば「１」で最も大きく、以下、中分類が同じであるか、大分類が同じであるか等に応じて小さくなっている。図２では、「いわき市」に対する重み値を小数点数値で示している。
【０００８】
（ｃ）音声認識処理
図３は本発明の音声認識処理のフロー図、図４は認識候補順序決定処理フロー図である。
音声を入力すると（ステップ１０１）、認識エンジン３３は音声辞書３２より入力音声に類似する１以上の認識候補を検索し、検索した認識候補の識別コード、類似度（スコア）、所属するカテゴリー（大分類／中分類／小分類カテゴリー）を認識候補選択部３４に入力する（ステップ１０２）。認識候補選択部３４は複数の認識候補が入力すると、各認識候補の類似度（スコア）と重み値を考慮して認識候補順を決定する（ステップ１０３）。すなわち、図４に示すように、類似度が最高の第１位認識候補を決定し（ステップ１０３ａ）、第１位認識候補が属するカテゴリーと他の認識候補が属するカテゴリーを考慮して該他の認識候補の重み値を決定する（ステップ１０３ｂ）。しかる後、各認識候補のスコアに重み値を乗算し、重み付けスコアの大きい順に認識候補を並べる。重み付けスコアの差は認識候補間の距離であるから、第１位認識候補を先頭にして以下第１位認識候補との距離が小さいものから認識候補を順に並べて認識候補順を決定する（ステップ１０３ｃ）。
【０００９】
ついで、認識候補選択部３４は第１位認識候補を音声出力するよう合成エンジン３５に指示し、合成エンジンは第１位認識候補の音声を合成出力（トークバック）する（ステップ１０４）。ユーザはトークバックされた音声で良いか、違うか、全く違うか判断し（ステップ１０５）、良ければナビゲーションユニット１１のキー操作（音声入力も可能）で「良い」を入力する。これにより、認識候補選択部３４は、現在着目している認識候補の識別コードをナビゲーションユニット１１に入力する（ステップ１０６）。
【００１０】
一方、トークバックされた音声が入力音声と異なれば、ユーザは違いの度合いを判断する。入力音声の大分類カテゴリーとトークバック音声の大分類カテゴリーが異なれば、音的に似ていても違い感が強く「全く違う」という感じになり、カテゴリーが同じであれば違い感は弱く単に「違う」とい感じになる。この違い感に基づいてユーザはキー操作あるいは音声で「違う」あるいは「全く違う」を入力する（ステップ１０５）。「違う」が入力すると、認識候補選択部３４は、第１位認識候補から所定距離内に認識候補が存在するかチェックし（ステップ１０７）、存在すれば、該認識候補を音声出力するよう合成エンジン３５に指示し、合成エンジンは該認識候補の音声をトークバックする（ステップ１０４）。以後、ステップ１０５でユーザはトークバックされた音声で良いか、違うか、全く違うかの判断を行い、該判断により所定の処理を繰り返えす。
【００１１】
ステップ１０７において、第１位認識候補から所定距離内に認識候補が存在しなければ、認識候補選択部３４は、音声の再入力を音声応答あるいはランプ等で指示し（ステップ１０８）、以後、始めに戻り、音声の再入力を行う。
ステップ１０５において、「全く違う」が入力すると、認識候補選択部３４は、第１位認識候補から所定距離以上離れた認識候補が存在するかチェックし（ステップ１０９）、存在すれば、第１位認識候補と異なるカテゴリーに属する認識候補のうち第１位認識候補から最短距離の認識候補を探し、新たな第１位認識候補とする（ステップ１１０）。
【００１２】
ついで、ステップ１０３に戻り、旧の第１位認識候補が属するカテゴリーの候補をのぞき、残った認識候補について新たな第１位認識候補に基いて認識候補順を再決定する（ステップ１０３）。ついで、新たな第１位認識候補の音声をトークバックする（ステップ１０４）。以後、ステップ１０５でユーザはトークバックされた音声で良いか、違うか、全く違うかの判断を行い、該判断により所定の処理を繰り返えす。
ステップ１０９において、第１位認識候補から所定距離以上離れた認識候補が存在しなくなれば、認識候補選択部３４は、音声の再入力を音声応答あるいはランプ等で指示し（ステップ１０８）、以後、始めに戻り、ユーザは音声の再入力を行う。
【００１３】
（ｄ）音声認識の具体例
図５は、音声入力された時の音声認識処理の説明図であり、辞書構成は図２に示すカテゴリー構成に区分されているものとし、又、認識対象単語は１つのカテゴリーに限定されず、全カテゴリー内の単語を検索対象とする。又、「いわき市」から各カテゴリー迄の重み値は図２内の数値で示し、「ゴルフ場」から所定のカテゴリー迄の重み値は図６内の数値で示している。
【００１４】
図５（ａ）は音声入力された時、認識エンジン３３が検索した認識候補（認識単語）とその類似度（スコア）を示すものである。尚、認識単語とそのスコアは本発明の音声認識方法を理解するための単なる例示にすぎない。
図５（ｂ）は、スコア最大の第１位認識候補「好間工業団地」が所在する「いわき市」から各認識候補が属するカテゴリー迄の重み値をスコアに乗算して得られる重み付けスコアを示すものである。カテゴリー「いわき市」に属する認識単語（好間工業団地）に対する重みは1.0であり、また「いわき市」に対する他のカテゴリーの重みは図２内の数値で示す通りである。この重み値は、認識単語のカテゴリーを作成する際に設計者が、任意に設定できる。又、重み値は大分類カテゴリーが同じであるか、中分類カテゴリーが同じであるか、小分類カテゴリーが同じであるか等に基づいて計算するように構成することもできる。
図５（ｃ）は、重み付けスコア順に各認識候補を並べたもので、所定距離（例えば40)より大きければ「全く違う認識候補」となり、所定距離以内であれば「違う認識候補」となる。
【００１５】
図５（ｄ）は、「全く違う」が入力されたとき、残った認識候補のスコアに重みを乗算した重み付けスコアを示すものである。「全く違う」が入力されたとき、それまでの第１位認識候補「好間工業団地」が属する大分類カテゴリーに属する候補を全て除き（図６斜線部）、残った別カテゴリーに属する認識候補をスコア順に並べ、かつ、スコア最大の認識候補「〜ゴルフ場」を新たな第１位認識候補とし、該第１位認識候補が属するカテゴリーから各認識候補が属するカテゴリー迄の重み値(図６参照）をスコアに乗算する。図５（ｄ）はこのようにして得られた重み付けスコアを示している。
図５（ｅ）は重み付けスコア順に各認識候補を並べたもので、所定距離（=40)より大きければ「全く違う認識候補」となり、所定距離以内であれば「違う認識候補」となる。
【００１６】
音声認識装置２１は、音声入力されると１以上の類似音声を音声辞書より検索し（図５（ａ））、スコア最大の第１位認識候補「好間工業団地」が所在する「いわき市」から各認識候補が属するカテゴリー迄の重み値をスコアに乗算し（図５（ｂ））、得られる重み付けスコア順に各認識候補を並べる（図５（ｃ））。ついで、音声認識装置２１は、第１位認識候補である「好間工業団地」をトークバックし、ユーザが「違う」を入力すれば、次に「栄町」をトークバックし、再びユーザが「違う」を入力すれば、「郡山」をトークバックし、更に、ユーザが「違う」を入力すれば最早候補がないため音声再入力をユーザに促す。尚、トークバックに対してユーザが「良」いを入力すれば音声認識処理は終了する。
【００１７】
又、音声認識装置２１は、トークバックに対してユーザが「全く違う」を入力すれば、第１位認識候補「好間工業団地」が属する大分類カテゴリーに属する候補を全て除き、残った認識候補の中から、第１位認識候補より最短距離の認識候補「〜ゴルフ場」を選び、新たな第１位認識候補とする。そして、再度カテゴリー間の重みを決定し、重み付けスコアを計算する（図５（ｄ））。しかる後、重み付けスコア順に並べて認識候補順を再構成する（図５（ｅ））。以後、音声認識装置２１は新たな第１認識候補「〜ゴルフ場」をトークバックし、ユーザが「違う」を入力すれば、次に「日赤病院」をトークバックし、再びユーザが「違う」を入力すれば最早候補がないため音声再入力をユーザに促す。尚、トークバックに対してユーザが「良」いを入力すれば音声認識処理は終了する。
以上では、「良い」、「違う」、「全く違う」を入力した場合であるが、別の単語を入力するようにもできる。例えば、「違う」の替わりに、「おしい」や、「近い」等を入力できる。
以上、本発明を実施例により説明したが、本発明は請求の範囲に記載した本発明の主旨に従い種々の変形が可能であり、本発明はこれらを排除するものではない。
【００１８】
【発明の効果】
以上本発明によれば、認識候補に距離という値を持たせ、ユーザーの返答に合わせ、その値を用いて適当な認識候補を選択・提示するようにしたから、従来の第一候補のみを一度提示する方法に比べ、音声認識装置側で持っている複数の認識候補を有効に活用するため、ユーザーによる再入力の回数を極力減らし、感覚的な認識率を向上させることができる。
又、本発明によれば、大語彙辞書を認識対象とした場合、カテゴリーは異なるが音的に似た単語を、従来のいちいち再入力する方法に比べ早く探索できる。
又、本発明によれば、認識候補をいくつか示すことで、音声認識の内部処理を感知できるようにしているため、ユーザーに音声認識装置に対する安心感を与えることができる。
【図面の簡単な説明】
【図１】本発明のシステム構成図である。
【図２】音声辞書における認識単語のカテゴリー構成と重み値の説明図である。
【図３】本発明の音声認識処理のフロー図である。
【図４】認識候補順序決定処理フロー図である。
【図５】音声認識処理の説明図である。
【図６】「全く違う」を入力した後の再構成された重み値の例である。
【符号の説明】
１１・・ナビゲーションユニット
２１・・音声認識装置
３１・・マイクロホン
３２・・音声辞書
３３・・認識エンジン
３４・・認識候補選択部
３５・・合成エンジン
３６・・スピーカ

Claims

入力音声と類似する音声を音声辞書より検索して入力音声を認識する音声認識方法において、
音声辞書をカテゴリー別に構成し、かつ、各カテゴリーに対する他のカテゴリーの重みを設定しておき、
入力音声に類似する複数の認識候補を検索し、
類似度が最高の第１位認識候補が属するカテゴリーに対する他の認識候補が属するカテゴリーの重みを求め、
各認識候補の類似度に重み付けして得られる重み付け類似度に基づいて第１位認識候補からの距離を識別し、該第１位認識候補の提示に対して入力音声との距離の大小を示す応答があった時、該応答が入力音声との距離小であることを示す応答であれば、該第１位認識候補からの距離が小さい前記認識候補を提示し、該応答が入力音声との距離大であることを示す応答であれば、該第１位認識候補からの距離が大きい前記認識候補を提示する、
ことを特徴とする音声認識方法。