JP4056711B2

JP4056711B2 - 音声認識装置

Info

Publication number: JP4056711B2
Application number: JP2001077910A
Authority: JP
Inventors: 健大野; 沖彦中山
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2001-03-19
Filing date: 2001-03-19
Publication date: 2008-03-05
Anticipated expiration: 2021-03-19
Also published as: US7076425B2; US20020133338A1; JP2002278588A

Description

【０００１】
【発明の属する技術分野】
本発明は、利用者が発話した音声を言葉として認識する装置に関する。
【０００２】
【従来の技術】
利用者の発話する音声を認識してナビゲーション装置などの各種電子機器の入力操作を行う音声認識装置が知られている（例えば、特開２０００−１９３４７９号公報、特開２０００−２０３３５７号公報など参照）。
【０００３】
この種の音声認識装置は、各種電子機器の入力操作に必要な言葉を予め記憶しておき（以下、これらを認識対象語と呼ぶ）、これらの認識対象語と利用者が発話した言葉とを照合し、利用者が発話した言葉と認識対象語との一致度を判定することによって、一致度が最も高い認識対象語を利用者が発話した言葉として認識している。つまり、利用者が各種電子機器の音声による入力操作に用いることができる言葉は認識対象語に限られているため、利用者は認識対象語を記憶したり、操作マニュアルを確認して発話する必要がある。
【０００４】
そこで、上述した従来の音声認識装置では、利用者が音声入力操作に用いることができる認識対象語、あるいは利用者の入力が予想される認識対象語を予めモニターに表示することによって、めんどうな認識対象語を覚えたり、いちいち操作マニュアルを確認する手間を省き、利用者の使い勝手を向上させるとともに、記憶されている認識対象語の中から利用者の発話した言葉と照合する認識対象語をモニターに表示されている認識対象語に限定することによって、認識率を向上させるという、改善がなされている。
【０００５】
【発明が解決しようとする課題】
ところが、音声認識装置を例えばナビゲーション装置の音声入力操作に用いる場合には、地域名や駅名などの目的地を音声入力するための認識対象語はその数が多いので、すべてをモニターに表示することができず、一部のみを表示することになるが、利用者の発話した言葉と照合する認識対象語をモニターに表示されている認識対象語のみに限定することはできない。したがって、目的地などの数の多い認識対象語との照合により一致度を判定する場合には、認識率が低下したり、一致度の演算処理に時間がかかることになる。
【０００６】
また、利用者の声の質や話し方などの個人差、雑音の有無などの周囲環境の差によって、正しい認識対象語との一致を判定することができず、誤認することがある。
【０００７】
数多くの認識対象語の中から利用者の発した言葉を一致検索するときには、モニターに表示されている認識対象語も、表示されていない認識対象語も照合対象となるが、モニターに表示されている認識対象語の中から誤認が発生する場合と、表示されていない認識対象語の中から誤認が発生する場合とでは、利用者に与える影響が異なるという問題がある。利用者が発した言葉に一致する認識対象語がモニターに表示されているときに、上述した利用者の個人差や周囲環境の差などによって誤認が発生し、利用者の発した言葉を認識できないことがあると、モニターに表示されていない認識対象語に対する誤認よりも利用者により強い違和感を与えるおそれがある。
【０００８】
本発明の目的は、モニターに表示されている認識対象語に対する認識率を向上させることにある。
【０００９】
【課題を解決するための手段】
（１）請求項１の発明は、音声を入力する音声入力手段と、複数の認識対象語を記憶する記憶手段と、前記記憶手段に記憶されている複数の認識対象語の内の、所定個数の認識対象語を表示する表示手段と、前記表示手段に表示されていない認識対象語に対しては、０より高い重み付けを行い、前記表示手段に表示されている認識対象語に対しては、常に前記表示手段に表示されていない認識対象語に対する重み付けよりも高い重み付けを行う重み付け手段と、前記重み付け手段による重み付け後の認識対象語と前記入力手段により入力された音声との一致度を演算する演算手段とを備え、一致度の演算結果に基づいて入力した音声を認識する。
（２）請求項２の音声認識装置は、前記記憶手段が複数の認識対象語を所定の順に記憶しており、前記表示手段は、前記記憶手段に前記所定の順に記憶されている複数の認識対象語の中から、前記所定個数の認識対象語を含む範囲（表示範囲）の認識対象語を前記所定の順に表示する。
（３）請求項３の音声認識装置は、前記重み付け手段によって、前記表示範囲外の認識対象語に対して、前記表示範囲から遠ざかるにしたがって前記表示範囲の認識対象語に対する重みから徐々に重みを低減する。
（４）請求項４の音声認識装置は、前記表示範囲を変更する変更手段を備え、前記重み付け手段によって、前記変更手段により前記表示範囲の変更が行われた場合のみ、前記表示範囲の認識対象語に対して前記表示範囲外の認識対象語よりも高い重み付けを行うようにしたものである。
（５）請求項５の音声認識装置は、前記表示範囲を変更する変更手段を備え、前記重み付け手段によって、前記変更手段による前記表示範囲の変更にともなって前記表示範囲に現れた認識対象語の順に応じて重み付けを行い、前記表示範囲に最後に現れた認識対象語に最も高い重み付けを行うようにしたものである。
（６）請求項６の音声認識装置は、前記表示範囲を変更する変更手段を備え、前記重み付け手段によって、前記表示範囲の認識対象語に対して前記表示範囲外の認識対象語よりも高い重み付けを行うとともに、前記表示範囲の変更方向に存在する表示範囲外の認識対象語に対しては、前記表示範囲から遠ざかるにしたがって前記表示範囲の認識対象語に対する重みから徐々に重みを低減するようにしたものである。
（７）請求項７の音声認識装置は、前記演算手段により演算された一致度が高い順に所定個数の認識対象語を抽出する抽出手段を備え、前記抽出手段により抽出された認識対象語を前記表示手段に表示して最終的な認識対象語を選択可能にしたものである。
（８）請求項８の音声認識装置は、前記抽出手段により抽出された認識対象語の中に前記表示範囲外の認識対象語が含まれていない場合は、前記抽出された認識対象語の内の最も一致度の低い認識対象語と前記表示範囲外の最も一致度の高い認識対象語とを入れ替える入れ替え手段を備える。
【００１０】
【発明の効果】
（１）請求項１の発明によれば、表示手段に表示されている認識対象語に対する認識率を表示手段に表示されていない認識対象語よりも向上させることができ、利用者が発話した言葉に一致する認識対象語が表示手段に表示されているにも拘わらず、認識されないために利用者に強い違和感を与えることを避けることができる。
（２）請求項２の発明によれば、例えば五十音順などの所定の順に表示することができ、表示手段の認識対象語の表示画面をスクロールして表示範囲を変更するときに、どちらの方向へどの程度変更すればよいかを直感でき、操作性がよくなる。
（３）請求項３の発明によれば、利用者が表示範囲を正確に把握している必要がなく、表示範囲を変更するときに所望の認識対象語を概ね表示範囲に近づけるだけで、表示範囲に入っていなくても認識される確立が高くなり、表示範囲の設定操作に対する利用者の負担を軽減することができる。
（４）請求項４の発明によれば、所望の認識対象語を表示手段に表示してから発話することにより高い認識率が得られるので、面倒な操作を敢えて行う利用者を充分に満足させることができる。
（５）利用者が表示手段の認識対象語の表示画面をスクロールして表示範囲の変更を行う場合、通常は所望の認識対象語が表示されたら変更操作を止めるので、最後に表示された認識対象語またはその近くに所望の認識対象語がある場合が多い。請求項５の発明によれば、表示範囲に現れた順に応じて重み付けを行い、表示範囲に最後に現れた語に最も高い重みを付けることによって、高い認識率が得られる。
（６）地域名や駅名などの目的地のように認識対象語が多い場合は例えば５０音順などの所定の順序に並べられていることが多く、利用者は意図する認識対象語がある方向へ認識対象語の表示画面をスクロールして表示範囲を変更する。このとき、利用者の意図する認識対象語がスクロール方向すなわち表示範囲の変更方向に存在する確立は高く、反対方向に存在する確立は低い。したがって、請求項６の発明によれば、所望の認識対象語が認識される確立を向上させることができる。
（７）請求項７の発明によれば、表示手段に表示されている認識対象語に対する認識率をさらに向上させることができる。
（８）請求項８の発明によれば、利用者の発話が不明瞭なために、表示範囲外に利用者の発話言葉と一致する認識対象語があるにも拘わらず、その認識対象語が重み付け後の一致度上位の認識対象語の中に含まれないという事態を避けることができ、利用者の発話が不明瞭な場合でも、最終的に選別される認識対象語の中に利用者の発話言葉に対応する認識対象語が含まれる確立が高くなり、認識率を向上させることができる。
【００１１】
【発明の実施の形態】
本願発明の音声認識装置をナビゲーション装置に応用した一実施の形態を説明する。なお、本願発明はナビゲーション装置以外の多くの装置に応用することができる。
【００１２】
《発明の第１の実施の形態》
図１に第１の実施の形態の構成を示す。ナビゲーションユニット１は、音声により入力操作を行うための音声認識ユニット２を備えており、現在地を検出するとともに目的地までの誘導経路を探索し、それらを現在地周辺の道路地図上に重畳してモニター１ａに表示する。ナビゲーションユニット１には、衛星航法により現在位置を検出するＧＰＳアンテナ３と、ナビゲーションユニット１を手動操作するためのナビリモコン４が接続される。ナビリモコン４には、モニター１ａの表示内容を操作するためのジョイスティック４ａと、利用者が発話の開始と終了、および発話の取り消しを指示するための発話／取り消しスイッチ４ｂが設けられる。また、音声認識ユニット２には、利用者が発した音声を入力するためのマイク５と、利用者に音声で応答するためのスピーカー６が接続される。
【００１３】
図２は、図１に示す音声認識ユニット２の詳細を示す。音声認識ユニット２は、ＣＰＵ２ａやメモリ２ｂなどから構成される信号処理装置２ｃの他に、マイク５からのアナログ音声入力信号をデジタル信号に変換するＡ／Ｄコンバーター２ｄ、デジタル音声出力信号をアナログ信号に変換するＤ／Ａコンバーター２ｅ、アナログ音声出力信号を増幅する出力アンプ２ｆ、ナビゲーションユニット１とデータ通信を行うための入出力デバイス２ｇ、認識対象語を記憶する外部記憶装置２ｈなどを備えている。
【００１４】
図３は、第１の実施の形態の音声認識処理プログラムを示すフローチャートである。この処理プログラムは音声認識ユニット２のメモリ２ｂに格納される。利用者がナビリモコン４の発話／取り消しスイッチ４ｂを長押しすると、ナビゲーションユニット１は入力デバイス２ｇを介して音声認識ユニット２の信号処理装置２ｃへ発話開始信号を送信する。信号処理装置２ｃのＣＰＵ２ａは、発話開始信号を受信すると図３に示す処理プログラムの実行を開始する。
【００１５】
なお、この第１の実施の形態では、利用者との対話によりＪＲの「板橋」駅を目的地に設定する音声認識処理を例に上げて説明する。また、この例では、図４に示すような目的地として用いられる地域名や駅名などの認識対象語がナビゲーションユニット１に記憶されており、それらの認識対象語の中から利用者がナビリモコン４のジョイスティック４ａを操作して、図５に示すような所定個数の認識対象語を含む任意の範囲（以下、表示範囲と呼ぶ）をモニター１ａに表示する場合を説明する。
【００１６】
なお、音声認識対象語は、通常、上述した目的地などの種類ごとに五十音順に記憶されており、表示範囲の認識対象語は五十音順にモニター１ａに表示される。ジョイスティック４ａによりモニター１ａの認識対象語の表示画面をスクロールして表示範囲を変更したときは、変更後の表示範囲がナビゲーションユニット１のメモリに記憶され、次回にその種類の認識対象語を表示する場合には記憶範囲が読み出され、最初にその範囲の認識対象語がモニター１ａに表示される。
【００１７】
ステップ１において、現在の入力モードで用いられる認識対象語と、それらの認識対象語の内のどれがモニター１ａに表示されているかをナビゲーションユニット１から入力し、認識対象語として確定する。この例では現在、目的地の入力モードが設定されているので、図４に示すような目的地として用いられる地域名や駅名などのすべての認識対象語をナビゲーションユニット１から入力するとともに、それらの認識対象語の内のモニター１ａに表示されている認識対象語を入力し、認識対象語として確定する。確定した認識対象語は外部記憶装置２ｈに記憶する。ステップ２で、音声認識処理を開始した旨を利用者に知らせるために、外部記憶装置２ｈに記憶してある告知音信号をＤ／Ａコンバーター２ｅおよび出力アンプ２ｆを介してスピーカー６へ出力し、放送する。
【００１８】
ステップ３では、利用者が発話した音声の取り込みを開始する。すなわち、マイク５で入力した利用者の音声をＡ／Ｄコンバーター２ｄを介して信号処理装置２ｃへ入力し、外部記憶装置２ｈに収録する。信号処理装置２ｃは、発話／取り消しスイッチ４ｂが操作されるまでは、常にマイク５で入力しＡ／Ｄコンバーター２ｄでデジタル信号に変換した雑音の平均パワーを演算している。発話／取り消しスイッチ４ｂが操作されると、それまでの平均パワーと現在の瞬間パワーとを比較し、現在の瞬間パワーが平均パワーに比べて所定値以上増加したら、利用者が発話したと判断し、音声の取り込みを開始する。
【００１９】
ステップ４で、取り込んだ音声区間部分と外部記憶装置２ｈのすべての認識対象語とを照合し、一致度の演算を開始する。一致度は、取り込んだ音声区間部分と認識対象語とがどの程度似ているかを示す値で、スコアとして得られる。この実施の形態では、スコアの値が大きいほど一致度が高いものとする。なお、ステップ４で一致度の演算を行っている間も、並列処理により音声の取り込みを継続する。ステップ５において、音声信号の瞬間パワーが所定値以下となり、その状態が所定時間続いたら利用者の発話が終了したと判断し、音声の取り込みを終了する。
【００２０】
ステップ６で一致度（スコア）の演算の終了を待って各認識対象語の一致度に重み付けを行い、一致度の高い認識対象語を抽出する。具体的には、図４に示すように、モニター１ａに表示されているすべての認識対象語（表示範囲の認識対象語）に対しては、モニター１ａに表示されていないすべての認識対象語（以下、表示範囲外の認識対象語と呼ぶ）よりも高い重みを付ける。この例では、表示範囲外の認識対象語に対しては１．０の重みを付け、表示範囲の認識対象語に対しては１．０よりも高い重みを付ける。そして、各認識対象語の一致度（スコア）に重みを乗じ、重み付け後の認識対象語の中から一致度（スコア）の高い上位３個を選別し、ナビゲーションユニット１へ出力する。
【００２１】
なお、表示範囲の認識対象語に対する重みと、表示範囲外の認識対象語に対する重みは、この実施の形態の値に限定されないが、少なくとも表示範囲の認識対象語に対する重みは、表示範囲外の認識対象語に対する重みよりも大きな値とする。これらの重みは実験により最適な値を設定するのが望ましい。
【００２２】
ナビゲーションユニット１は、図６に示すように、音声認識ユニット２から受信した一致度の高い３個の認識対象語をモニター１ａに表示する。これらの認識対象語の内の「板橋」は当初、図５に示すようにモニター１ａに表示されていた表示範囲の認識対象語であり、演算結果の一致度（スコア）はそれほど高くなかったが、表示範囲の認識対象語として高い重み付けをされた結果、一致度（スコア）の上位３個の中に入ったものである。
【００２３】
図７は、モニター１ａに表示された一致度の高い３個の認識対象語の中から、利用者が音声認識装置１との対話によって目的地を選択する手順を示す。音声認識装置１の信号処理装置２ｃは、一致度の最も高い認識対象語「田端（たばた）」を音声信号に変換し、Ｄ／Ａコンバーター２ｅおよび出力アンプ２ｆを介してスピーカー６から放送する。この放送を聞いた利用者は、「田端」は目的地に設定しようとしている駅名ではないので、ナビリモコン４の発話／取り消しスイッチ４ｂの短押しを行う。ナビゲーションユニット１は発話／取り消しスイッチ４ｂの短押し操作を検出し、音声認識ユニット２へ取り消し信号を送信する。
【００２４】
取り消し信号を受信した音声認識ユニット２の信号処理装置２ｃは、一致度（スコア）が第２順位の「板橋（いたばし）」を音声信号に変換し、Ｄ／Ａコンバーター２ｅおよび出力アンプ２ｆを介してスピーカー６から放送する。この放送を聞いた利用者は、「板橋」は目的地に設定しようとしている駅名であり、「目的地設定」という発話を行い、目的地を確定する。音声認識ユニット２の信号処理装置２ｃは利用者からの「目的地設定」の音声入力を認識し、「板橋」を利用者が確定した目的地としてナビゲーションユニット１へ送信する。ナビゲーションユニット１は「板橋」を目的地として設定する。
【００２５】
このように、利用者によってモニター１ａに表示された認識対象語、すなわち表示範囲の認識対象語に含まれる言葉「板橋」を発話したときに、この「板橋」が一致度（スコア）の高い上位３個の認識対象語に含まれる確立が高くなり、発話した言葉が表示範囲の認識対象語の一つとしてモニター１ａに表示されているにも拘わらず、発話した言葉が認識されずに利用者に違和感を与えることが避けられる。
【００２６】
《発明の第２の実施の形態》
各認識対象語の一致度に対する他の重み付け方向を説明する。なお、この第２の実施の形態の構成は図１および図２に示す第１の実施の形態の構成と同様であり、説明を省略する。また、この第２の実施の形態の動作についても、重み付け方法以外は図３に示す第１の実施の形態の動作を同様であり、説明を省略する。
【００２７】
上述した第１の実施の形態では、図４に示すように、表示範囲のすべての認識対象語「軍畑」〜「稲城長沼」に対しては１．０よりも高い所定の重みを付け、表示範囲外のすべての認識対象語に対しては１．０の重みを付ける方法を説明した。この第２の実施の形態では、図８に示すように、表示範囲のすべての認識対象語に対しては１．０よりも高い所定の重みを付ける。一方、表示範囲外の認識対象語に対しては、図８に示すように、表示範囲から遠ざかるにしたがって表示範囲の認識対象語の重みから徐々に重みを低減し、最終的に１．０の重みとする。
【００２８】
これにより、利用者が表示範囲を正確に把握している必要がなく、例えば図５に示すような目的地選択画面において利用者がジョイスティック４ａにより表示範囲を変更できる場合に、所望の認識対象語を概ね表示範囲に近づけるだけで、表示範囲に入っていなくても認識される確立が高くなり、所望の認識対象語を確実にモニター１ａに表示しなければ認識確立を上げることができない上述した第１の実施の形態に比べ、表示範囲の設定操作に対する利用者の負担を軽減することができる。
【００２９】
《発明の第３の実施の形態》
上述した第１の実施の形態では、表示範囲の認識対象語に対して表示範囲外の認識対象語に対する重みよりも高い重みを付け、各認識対象語の一致度（スコア）に重みを乗じ、重み付け後の認識対象語の中から一致度（スコア）の高い上位３個を選別して表示する例を示した。この第３の実施の形態では、最終的に選別された一致度上位３個の認識対象語の中に、表示範囲外の認識対象語が含まれていない場合は、重み付け後の表示範囲外の認識対象語の中から最も一致度（スコア）が高い語を抽出し、表示範囲の一致度上位３個の認識対象語の内の最も一致度（スコア）の低い語と入れ替える。
【００３０】
これにより、利用者の発話が不明瞭なために、表示範囲外に利用者の発話言葉と一致する認識対象語があるにも拘わらず、その認識対象語が重み付け後の一致度上位３個の認識対象語の中に含まれないという事態を避けることができ、利用者の発話が不明瞭な場合でも、最終的に選別される認識対象語の中に利用者の発話言葉に対応する認識対象語が含まれる確立が高くなり、認識率を向上させることができる。
【００３１】
さらに具体的には、図５に示す目的地選択画面において、利用者が「あっ、亀有」というような不要語を含む言葉を発話した場合に、発話語が「あ」から始まっているために最終的な選別結果に「亀有」が含まれないことがあるが、この第３の実施の形態の選別方法によれば、最終的な選別結果に「亀有」が含まれる確立が高くなる。
【００３２】
なお、この第３の実施の形態の構成は図１および図２に示す第１の実施の形態の構成と同様であり、説明を省略する。また、この第３の実施の形態の動作は、重み付け後の一致度上位３個の選別方法を除き、図３に示す第１の実施の形態の動作と同様であり、説明を省略する。
【００３３】
《発明の第４の実施の形態》
上述した第１の実施の形態では、表示範囲に含まれるか否かによって認識対象語に異なる重み付けを行う例を示したが、この第４の実施の形態では、認識対象語に対する重み付けを行わない。
【００３４】
この第４の実施の形態では、認識対象語に重み付けを行わず、利用者の発話言葉と照合して演算した一致度（スコア）が上位３個の認識対象語を選別し、その選別した認識対象語の中に表示範囲の内と外の両方の認識対象語が含まれているかどうかを確認する。一致度上位３個の認識対象語の中に表示範囲と表示範囲外の両方の認識対象語が混在しておらず、表示範囲内または表示範囲外のいずれか一方の認識対象語のみが含まれている場合は、選別結果に含まれていない方の認識対象語の中から一致度（スコア）が最も高い語を抽出し、選別結果の認識対象語の中の最も一致度（スコア）の低い語と入れ替える。
【００３５】
これにより、利用者が発話した言葉に対応する認識対象語が表示されているにも拘わらず、その認識対象語が最終的に選別されず、利用者に強い違和感を与えるような事態を避けることができ、利用者の発話が不明瞭な場合でも、最終的に選別される認識対象語の中に利用者の発話言葉に対応する認識対象語が含まれる確立が高くなり、認識率を向上させることができる。
【００３６】
なお、この第４の実施の形態の構成は図１および図２に示す第１の実施の形態の構成と同様であり、説明を省略する。また、この第３の実施の形態の動作は、一致度上位３個の認識対象語の選別方法を除き、図３に示す第１の実施の形態の動作と同様であり、説明を省略する。
【００３７】
《発明の第５の実施の形態》
利用者が音声認識による操作を行う前に表示範囲の変更を行った場合のみ、表示範囲の認識対象語に対して表示範囲外の認識対象語に対する重みよりも高い重みを設定する、第５の実施の形態を説明する。なお、この第５の実施の形態の構成は図１および図２に示す第１の実施の形態の構成と同様であり、説明を省略する。
【００３８】
図９は、第５の実施の形態の音声認識処理プログラムを示すフローチャートである。なお、図３に示す第１の実施の形態の音声認識処理と同様な処理を行うステップに対しては同一のステップ番号を付して相違点を中心に説明する。
【００３９】
音声認識処理開始後のステップ１１において、ナビゲーションユニット１の操作履歴を取得する。このとき、発話／取り消しスイッチ４ｂの操作から遡って所定数の操作の履歴を取得する。ジョイスティック４ａにより認識対象語の表示範囲が変更されていた場合には、操作（ジョイスティック操作）とその結果（表示範囲変更）の両方が履歴として残されている。信号処理装置２ｃはそれらの操作履歴をメモリ２ｂに記憶する。
【００４０】
一致度演算終了後のステップ６Ａにおいて、まずメモリ２ｂに記憶されている操作履歴から発話／取り消しスイッチ４ｂを操作する前の操作内容を確認する。発話／取り消しスイッチ４ｂの操作前に表示範囲の変更操作が行われた記録がある場合は、第１の実施の形態で上述したように、表示範囲の認識対象語に対しては１．０よりも高い所定の重みを付け、表示範囲外の認識対象語に対しては１．０の重みを付ける。そして、各認識対象語の一致度（スコア）に重みを乗じ、重み付け後の認識対象語の中から一致度（スコア）の高い上位３個を選別する。一方、発話／取り消しスイッチ４ｂの操作前に表示範囲の変更操作が行われていない場合は、認識対象語に対する重み付けを行わず、表示範囲と表示範囲外のすべての認識対象語の中から一致度が高い上位３個の認識対象語を選別する。
【００４１】
この第５の実施の形態によれば、利用者が所望の認識対象語をモニター１ａに表示してから発話した場合のみ、表示範囲の認識対象語に表示範囲外の認識対象語よりも高い重みを付け、表示範囲の認識対象語に対する認識率を向上させる。しかし、利用者が所望の認識対象語をモニター１ａに表示する操作を行わずに発話した場合は、表示範囲の認識対象語に対する重み付けを行わず、表示範囲と表示範囲外のすべての認識対象語を平等に取り扱う。これにより、所望の認識対象語をモニター１ａに表示してから発話するので高い認識率が得られ、面倒な操作を敢えて行う利用者を充分に満足させることができる。
【００４２】
《発明の第６の実施の形態》
表示範囲の大幅な変更を行った後に表示範囲の小幅な変更を行い、その後に音声認識による操作を行う場合のみ、表示範囲の認識対象語に対して表示範囲外の認識対象語に対する重みよりも高い重みを設定する、第６の実施の形態を説明する。なお、この第６の実施の形態の構成は図１および図２に示す第１の実施の形態の構成と同様であり、説明を省略する。
【００４３】
この第６の実施の形態の動作は、図９に示す第５の実施の形態の動作の内のステップ６Ａの一部が異なるのみであり、図示を省略する。一致度演算終了後のステップ６Ａにおいて、まずメモリ２ｂに記憶されている操作履歴から発話／取り消しスイッチ４ｂを操作する前の操作内容を確認する。発話／取り消しスイッチ４ｂの操作前に、表示範囲の大幅な変更操作が行われ、その後に表示範囲の小幅な変更操作が行われた記録がある場合は、第１の実施の形態で上述したように、表示範囲の認識対象語に対しては１．０よりも高い所定の重みを付け、表示範囲外の認識対象語に対しては１．０の重みを付ける。そして、各認識対象語の一致度（スコア）に重みを乗じ、重み付け後の認識対象語の中から一致度（スコア）の高い上位３個を選別する。一方、発話／取り消しスイッチ４ｂの操作前に表示範囲の変更操作が行われていない場合は、認識対象語に対する重み付けを行わず、表示範囲と表示範囲外のすべての認識対象語の中から一致度が高い上位３個の認識対象語を選別する。
【００４４】
この第６の実施の形態では、１回の表示範囲の変更操作において、例えば、表示範囲の認識対象語がすべて入れ替わる変更を表示範囲の大幅な変更とし、表示範囲の一部の認識対象語が入れ替わる変更を表示範囲の小幅な変更とする。
【００４５】
この第６の実施の形態によれば、所望の認識対象語をモニター１ａに確実に表示してから発話するという、面倒な操作を敢えて行う利用者に報いるだけの充分に高い認識率が得られる。
【００４６】
《発明の第７の実施の形態》
利用者が音声認識による操作を行う前に、表示範囲の変更を行った場合のみ、表示範囲の認識対象語に対して表示範囲外の認識対象語に対する重みよりも高い重みを、表示範囲の変更方向に応じて設定するようにした第７の実施の形態を説明する。なお、この第７の実施の形態の構成は図１および図２に示す第１の実施の形態の構成と同様であり、説明を省略する。
【００４７】
この第７の実施の形態の動作は、図９に示す第５の実施の形態の動作の内のステップ６Ａの一部が異なるのみであり、図示を省略する。一致度演算終了後のステップ６Ａにおいて、まずメモリ２ｂに記憶されている操作履歴から発話／取り消しスイッチ４ｂを操作する前の操作内容を確認する。発話／取り消しスイッチ４ｂの操作前に表示範囲の変更操作が行われた記録がある場合は、図１０に示すように、表示範囲の認識対象語に対して１．０よりも高い重みを、ジョイスティック４ａによる表示範囲のスクロール方向、すなわち表示範囲の変更方向にある認識対象語ほど高い重みを付け、表示範囲外の認識対象語に対しては１．０の重みを付ける。そして、各認識対象語の一致度（スコア）に重みを乗じ、重み付け後の認識対象語の中から一致度（スコア）の高い上位３個を選別する。一方、発話／取り消しスイッチ４ｂの操作前に表示範囲の変更操作が行われていない場合は、認識対象語に対する重み付けを行わず、表示範囲と表示範囲外のすべての認識対象語の中から一致度が高い上位３個の認識対象語を選別する。
【００４８】
例えば図１１に示すような地域名や駅名などの目的地の表示画面において、ジョイスティック４ａにより目的地の表示範囲をスクロールする場合、所望の認識対象語が現れたらスクロールを止めることから、最後に現れた目的地、つまり認識対象語か、もしくはその近傍の認識対象語が利用者の所望の認識対象語である。この第７の実施の形態では、表示範囲のすべての認識対象語の重みを一律に設定せず、スクロール方向すなわち表示範囲の変更方向にある認識対象語ほど高い重みを設定する。換言すれば、表示範囲に現れた順に応じて重み付けを行い、最後に表示範囲に現れた認識対象語に対して最も高い重みを設定する。図１１に示す表示範囲の例では、利用者の所望の目的地（認識対象語）「市ヶ谷」は、スクロールを止めたときに最後に現れた目的地の近くにあり、高い重みが設定されるため、認識結果として現れる確立を高くすることができる。
【００４９】
《発明の第８の実施の形態》
利用者が音声認識による操作を行う前に、表示範囲の変更を行った場合のみ、表示範囲の認識対象語に対して表示範囲外の認識対象語に対する重みよりも高い重みを設定するとともに、表示範囲外の認識対象語の内の表示範囲の変更方向にある認識対象語に対しては、表示範囲から遠ざかるにしたがって表示範囲の認識対象語の重みから徐々に重みを低減するようにした第８の実施の形態を説明する。なお、この第８の実施の形態の構成は図１および図２に示す第１の実施の形態の構成と同様であり、説明を省略する。
【００５０】
この第８の実施の形態の動作は、図９に示す第５の実施の形態の動作の内のステップ６Ａの一部が異なるのみであり、図示を省略する。一致度演算終了後のステップ６Ａにおいて、まずメモリ２ｂに記憶されている操作履歴から発話／取り消しスイッチ４ｂを操作する前の操作内容を確認する。発話／取り消しスイッチ４ｂの操作前に表示範囲の変更操作が行われた記録がある場合は、図１２に示すように、表示範囲の目的地（認識対象語）に対して１．０よりも高い所定の重みを設定するとともに、表示範囲外の目的地（認識対象語）の内のジョイスティック４ａによる表示範囲のスクロール方向、すなわち表示範囲の変更方向にある目的地（認識対象語）に対しては、表示範囲から遠ざかるにしたがって表示範囲の目的地（認識対象語）の重みから徐々に重みを低減し、最終的に１．０の重みに収束させる。そして、各認識対象語の一致度（スコア）に重みを乗じ、重み付け後の認識対象語の中から一致度（スコア）の高い上位３個を選別する。一方、発話／取り消しスイッチ４ｂの操作前に表示範囲の変更操作が行われていない場合は、認識対象語に対する重み付けを行わず、表示範囲と表示範囲外のすべての認識対象語の中から一致度が高い上位３個の認識対象語を選別する。
【００５１】
地域名や駅名などの目的地のように認識対象語が多い場合は５０音順に並べられていることが多く、利用者はジョイスティックや方向キーにより利用者の意図する認識対象語がある方向へ画面をスクロールする。このとき、利用者の意図する認識対象語がスクロール方向に存在する確立は高く、反対方向に存在する確立は低い。そこで、この第８の実施の形態では、表示範囲のスクロール方向、つまり表示範囲の変更方向にある表示範囲外の認識対象語に対しては、表示範囲から遠ざかるにしたがって表示範囲の認識対象語の重みから徐々に重みを低減し、最終的に１．０の重みに収束させる。一方、スクロール操作により表示範囲を通り過ぎてしまった認識対象語、つまり表示範囲の変更方向と反対の方向の表示範囲外の認識対象語に対しては、利用者の意図する認識対象語である可能性が低い語と見なし、１．０の重みを付ける。これにより、所望の認識対象語が認識される確立を向上させることができる。
【００５２】
以上の実施の形態の構成において、マイク５が音声入力手段を、外部記憶装置２ｈが記憶手段を、モニター１ａが表示手段を、音声入力ユニット２のＣＰＵ２ａが重み付け手段、演算手段、変更手段、抽出手段および入れ替え手段をそれぞれ構成する。
【図面の簡単な説明】
【図１】第１の実施の形態の構成を示す図である。
【図２】図１に示す音声認識ユニットの詳細を示す図である。
【図３】第１の実施の形態の音声認識処理プログラムを示すフローチャートである。
【図４】第１の実施の形態の認識対象語の重み付け方法を示す図である。
【図５】表示範囲の認識対象語の表示例を示す図である。
【図６】重み付け後の一致度上位３個の認識対象語の表示例を示す図である。
【図７】一致度の高い認識対象語からいずれかを選択する手順を示す図である。
【図８】第２の実施の形態の認識対象語の重み付け方法を示す図である。
【図９】第５の実施の形態の音声認識処理プログラムを示すフローチャートである。
【図１０】第７の実施の形態の認識対象語の重み付け方法を示す図である。
【図１１】目的地表示画面のスクロール時の様子を説明するための図である。
【図１２】第８の実施の形態の認識対象語の重み付け方法を示す図である。
【符号の説明】
１ナビゲーションユニット
１ａモニター
２音声認識ユニット
２ａＣＰＵ
２ｂメモリ
２ｃ信号処理装置
２ｄＡ／Ｄコンバーター
２ｅＤ／Ａコンバーター
２ｆ出力アンプ
２ｇ入力デバイス
２ｈ外部記憶装置
３ＧＰＳアンテナ
４ナビリモコン
４ａジョイスティック
４ｂ発話／取り消しスイッチ
５マイク
６スピーカー

Claims

音声を入力する音声入力手段と、
複数の認識対象語を記憶する記憶手段と、
前記記憶手段に記憶されている複数の認識対象語の内の、所定個数の認識対象語を表示する表示手段と、
前記表示手段に表示されていない認識対象語に対しては、０より高い重み付けを行い、前記表示手段に表示されている認識対象語に対しては、常に前記表示手段に表示されていない認識対象語に対する重み付けよりも高い重み付けを行う重み付け手段と、
前記重み付け手段による重み付け後の認識対象語と前記入力手段により入力された音声との一致度を演算する演算手段とを備え、
一致度の演算結果に基づいて入力した音声を認識することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記記憶手段は複数の認識対象語を所定の順に記憶しており、
前記表示手段は、前記記憶手段に前記所定の順に記憶されている複数の認識対象語の中から、前記所定個数の認識対象語を含む範囲（以下、表示範囲と呼ぶ）の認識対象語を前記所定の順に表示することを特徴とする音声認識装置。
請求項２に記載の音声認識装置において、
前記重み付け手段は、前記表示範囲外の認識対象語に対して、前記表示範囲から遠ざかるにしたがって前記表示範囲の認識対象語に対する重みから徐々に重みを低減することを特徴とする音声認識装置。
請求項２に記載の音声認識装置において、
前記表示範囲を変更する変更手段を備え、
前記重み付け手段は、前記変更手段により前記表示範囲の変更が行われた場合のみ、前記表示範囲の認識対象語に対して前記表示範囲外の認識対象語よりも高い重み付けを行うことを特徴とする音声認識装置。
請求項２に記載の音声認識装置において、
前記表示範囲を変更する変更手段を備え、
前記重み付け手段は、前記変更手段による前記表示範囲の変更にともなって前記表示範囲に現れた認識対象語の順に応じて重み付けを行い、前記表示範囲に最後に現れた認識対象語に最も高い重み付けを行うことを特徴とする音声認識装置。
請求項２に記載の音声認識装置において、
前記表示範囲を変更する変更手段を備え、
前記重み付け手段は、前記表示範囲の認識対象語に対して前記表示範囲外の認識対象語よりも高い重み付けを行うとともに、前記表示範囲の変更方向に存在する表示範囲外の認識対象語に対しては、前記表示範囲から遠ざかるにしたがって前記表示範囲の認識対象語に対する重みから徐々に重みを低減することを特徴とする音声認識装置。
請求項１〜６のいずれか１項に記載の音声認識装置において、
前記演算手段により演算された一致度が高い順に所定個数の認識対象語を抽出する抽出手段を備え、
前記抽出手段により抽出された認識対象語を前記表示手段に表示して最終的な認識対象語を選択可能にしたことを特徴とする音声認識装置。
請求項７に記載の音声認識装置において、
前記抽出手段により抽出された認識対象語の中に前記表示範囲外の認識対象語が含まれていない場合は、前記抽出された認識対象語の内の最も一致度の低い認識対象語と前記表示範囲外の最も一致度の高い認識対象語とを入れ替える入れ替え手段を備えることを特徴とする音声認識装置。