JP2002278588A

JP2002278588A - 音声認識装置

Info

Publication number: JP2002278588A
Application number: JP2001077910A
Authority: JP
Inventors: Takeshi Ono; 健大野; Okihiko Nakayama; 沖彦中山
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2001-03-19
Filing date: 2001-03-19
Publication date: 2002-09-27
Anticipated expiration: 2021-03-19
Also published as: US20020133338A1; US7076425B2; JP4056711B2

Abstract

(57)【要約】【課題】モニターに表示されいる認識対象語に対する
認識率を向上させる。【解決手段】音声を入力する音声入力手段５と、複数
の認識対象語を記憶する記憶手段と、記憶手段に記憶さ
れている複数の認識対象語の内の、所定個数の認識対象
語を表示する表示手段１ａと、表示手段１ａに表示され
る認識対象語に対して表示手段１ａに表示されない認識
対象語よりも高い重み付けを行う重み付け手段２と、重
み付け手段２による重み付け後の認識対象語と入力手段
５により入力された音声との一致度を演算する演算手段
２とを備え、一致度の演算結果に基づいて入力した音声
を認識する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、利用者が発話した
音声を言葉として認識する装置に関する。

【０００２】

【従来の技術】利用者の発話する音声を認識してナビゲ
ーション装置などの各種電子機器の入力操作を行う音声
認識装置が知られている（例えば、特開２０００−１９
３４７９号公報、特開２０００−２０３３５７号公報な
ど参照）。

【０００３】この種の音声認識装置は、各種電子機器の
入力操作に必要な言葉を予め記憶しておき（以下、これ
らを認識対象語と呼ぶ）、これらの認識対象語と利用者
が発話した言葉とを照合し、利用者が発話した言葉と認
識対象語との一致度を判定することによって、一致度が
最も高い認識対象語を利用者が発話した言葉として認識
している。つまり、利用者が各種電子機器の音声による
入力操作に用いることができる言葉は認識対象語に限ら
れているため、利用者は認識対象語を記憶したり、操作
マニュアルを確認して発話する必要がある。

【０００４】そこで、上述した従来の音声認識装置で
は、利用者が音声入力操作に用いることができる認識対
象語、あるいは利用者の入力が予想される認識対象語を
予めモニターに表示することによって、めんどうな認識
対象語を覚えたり、いちいち操作マニュアルを確認する
手間を省き、利用者の使い勝手を向上させるとともに、
記憶されている認識対象語の中から利用者の発話した言
葉と照合する認識対象語をモニターに表示されている認
識対象語に限定することによって、認識率を向上させる
という、改善がなされている。

【０００５】

【発明が解決しようとする課題】ところが、音声認識装
置を例えばナビゲーション装置の音声入力操作に用いる
場合には、地域名や駅名などの目的地を音声入力するた
めの認識対象語はその数が多いので、すべてをモニター
に表示することができず、一部のみを表示することにな
るが、利用者の発話した言葉と照合する認識対象語をモ
ニターに表示されている認識対象語のみに限定すること
はできない。したがって、目的地などの数の多い認識対
象語との照合により一致度を判定する場合には、認識率
が低下したり、一致度の演算処理に時間がかかることに
なる。

【０００６】また、利用者の声の質や話し方などの個人
差、雑音の有無などの周囲環境の差によって、正しい認
識対象語との一致を判定することができず、誤認するこ
とがある。

【０００７】数多くの認識対象語の中から利用者の発し
た言葉を一致検索するときには、モニターに表示されて
いる認識対象語も、表示されていない認識対象語も照合
対象となるが、モニターに表示されている認識対象語の
中から誤認が発生する場合と、表示されていない認識対
象語の中から誤認が発生する場合とでは、利用者に与え
る影響が異なるという問題がある。利用者が発した言葉
に一致する認識対象語がモニターに表示されているとき
に、上述した利用者の個人差や周囲環境の差などによっ
て誤認が発生し、利用者の発した言葉を認識できないこ
とがあると、モニターに表示されていない認識対象語に
対する誤認よりも利用者により強い違和感を与えるおそ
れがある。

【０００８】本発明の目的は、モニターに表示されいる
認識対象語に対する認識率を向上させることにある。

【０００９】

【課題を解決するための手段】（１）請求項１の発明
は、音声を入力する音声入力手段と、複数の認識対象語
を記憶する記憶手段と、前記記憶手段に記憶されている
複数の認識対象語の内の、所定個数の認識対象語を表示
する表示手段と、前記表示手段に表示される認識対象語
に対して前記表示手段に表示されない認識対象語よりも
高い重み付けを行う重み付け手段と、前記重み付け手段
による重み付け後の認識対象語と前記入力手段により入
力された音声との一致度を演算する演算手段とを備え、
一致度の演算結果に基づいて入力した音声を認識する。（２）請求項２の音声認識装置は、前記記憶手段が複
数の認識対象語を所定の順に記憶しており、前記表示手
段は、前記記憶手段に前記所定の順に記憶されている複
数の認識対象語の中から、前記所定個数の認識対象語を
含む範囲（表示範囲）の認識対象語を前記所定の順に表
示する。（３）請求項３の音声認識装置は、前記重み付け手段
によって、前記表示範囲外の認識対象語に対して、前記
表示範囲から遠ざかるにしたがって前記表示範囲の認識
対象語に対する重みから徐々に重みを低減する。（４）請求項４の音声認識装置は、前記表示範囲を変
更する変更手段を備え、前記重み付け手段によって、前
記変更手段により前記表示範囲の変更が行われた場合の
み、前記表示範囲の認識対象語に対して前記表示範囲外
の認識対象語よりも高い重み付けを行うようにしたもの
である。（５）請求項５の音声認識装置は、前記表示範囲を変
更する変更手段を備え、前記重み付け手段によって、前
記変更手段により前記表示範囲の大幅な変更が行われた
後に前記表示範囲の小幅な変更が行われた場合のみ、前
記表示範囲の認識対象語に対して前記表示範囲外の認識
対象語よりも高い重み付けを行うようにしたものであ
る。（６）請求項６の音声認識装置は、前記表示範囲を変
更する変更手段を備え、前記重み付け手段によって、前
記変更手段による前記表示範囲の変更にともなって前記
表示範囲に現れた認識対象語の順に応じて重み付けを行
い、前記表示範囲に最後に現れた認識対象語に最も高い
重み付けを行うようにしたものである。（７）請求項７の音声認識装置は、前記表示範囲を変
更する変更手段を備え、前記重み付け手段によって、前
記表示範囲の認識対象語に対して前記表示範囲外の認識
対象語よりも高い重み付けを行うとともに、前記表示範
囲の変更方向に存在する表示範囲外の認識対象語に対し
ては、前記表示範囲から遠ざかるにしたがって前記表示
範囲の認識対象語に対する重みから徐々に重みを低減す
るようにしたものである。（８）請求項８の音声認識装置は、前記演算手段によ
り演算された一致度が高い順に所定個数の認識対象語を
抽出する抽出手段を備え、前記抽出手段により抽出され
た認識対象語を前記表示手段に表示して最終的な認識対
象語を選択可能にしたものである。（９）請求項９の音声認識装置は、前記抽出手段によ
り抽出された認識対象語の中に前記表示範囲外の認識対
象語が含まれていない場合は、前記抽出された認識対象
語の内の最も一致度の低い認識対象語と前記表示範囲外
の最も一致度の高い認識対象語とを入れ替える入れ替え
手段を備える。

【００１０】

【発明の効果】（１）請求項１の発明によれば、表示
手段に表示されている認識対象語に対する認識率を向上
させることができ、利用者が発話した言葉に一致する認
識対象語が表示手段に表示されているにも拘わらず、認
識されないために利用者に強い違和感を与えることを避
けることができる。（２）請求項２の発明によれば、例えば五十音順など
の所定の順に表示することができ、表示手段の認識対象
語の表示画面をスクロールして表示範囲を変更するとき
に、どちらの方向へどの程度変更すればよいかを直感で
き、操作性がよくなる。（３）請求項３の発明によれば、利用者が表示範囲を
正確に把握している必要がなく、表示範囲を変更すると
きに所望の認識対象語を概ね表示範囲に近づけるだけ
で、表示範囲に入っていなくても認識される確立が高く
なり、表示範囲の設定操作に対する利用者の負担を軽減
することができる。（４）請求項４の発明によれば、所望の認識対象語を
表示手段に表示してから発話することにより高い認識率
が得られるので、面倒な操作を敢えて行う利用者を充分
に満足させることができる。（５）請求項５の発明によれば、所望の認識対象語を
確実に表示手段に表示してから発話することにより高い
認識率が得られるので、面倒な操作を敢えて行う利用者
を充分に満足させることができる。（６）利用者が表示手段の認識対象語の表示画面をス
クロールして表示範囲の変更を行う場合、通常は所望の
認識対象語が表示されたら変更操作を止めるので、最後
に表示された認識対象語またはその近くに所望の認識対
象語がある場合が多い。請求項６の発明によれば、表示
範囲に現れた順に応じて重み付けを行い、表示範囲に最
後に現れた語に最も高い重みを付けることによって、高
い認識率が得られる。（７）地域名や駅名などの目的地のように認識対象語
が多い場合は例えば５０音順などの所定の順序に並べら
れていることが多く、利用者は意図する認識対象語があ
る方向へ認識対象語の表示画面をスクロールして表示範
囲を変更する。このとき、利用者の意図する認識対象語
がスクロール方向すなわち表示範囲の変更方向に存在す
る確立は高く、反対方向に存在する確立は低い。したが
って、請求項７の発明によれば、所望の認識対象語が認
識される確立を向上させることができる。（８）請求項８の発明によれば、表示手段に表示され
ている認識対象語に対する認識率をさらに向上させるこ
とができる。（９）請求項９の発明によれば、利用者の発話が不明
瞭なために、表示範囲外に利用者の発話言葉と一致する
認識対象語があるにも拘わらず、その認識対象語が重み
付け後の一致度上位の認識対象語の中に含まれないとい
う事態を避けることができ、利用者の発話が不明瞭な場
合でも、最終的に選別される認識対象語の中に利用者の
発話言葉に対応する認識対象語が含まれる確立が高くな
り、認識率を向上させることができる。

【００１１】

【発明の実施の形態】本願発明の音声認識装置をナビゲ
ーション装置に応用した一実施の形態を説明する。な
お、本願発明はナビゲーション装置以外の多くの装置に
応用することができる。

【００１２】《発明の第１の実施の形態》図１に第１の
実施の形態の構成を示す。ナビゲーションユニット１
は、音声により入力操作を行うための音声認識ユニット
２を備えており、現在地を検出するとともに目的地まで
の誘導経路を探索し、それらを現在地周辺の道路地図上
に重畳してモニター１ａに表示する。ナビゲーションユ
ニット１には、衛星航法により現在位置を検出するＧＰ
Ｓアンテナ３と、ナビゲーションユニット１を手動操作
するためのナビリモコン４が接続される。ナビリモコン
４には、モニター１ａの表示内容を操作するためのジョ
イスティック４ａと、利用者が発話の開始と終了、およ
び発話の取り消しを指示するための発話／取り消しスイ
ッチ４ｂが設けられる。また、音声認識ユニット２に
は、利用者が発した音声を入力するためのマイク５と、
利用者に音声で応答するためのスピーカー６が接続され
る。

【００１３】図２は、図１に示す音声認識ユニット２の
詳細を示す。音声認識ユニット２は、ＣＰＵ２ａやメモ
リ２ｂなどから構成される信号処理装置２ｃの他に、マ
イク５からのアナログ音声入力信号をデジタル信号に変
換するＡ／Ｄコンバーター２ｄ、デジタル音声出力信号
をアナログ信号に変換するＤ／Ａコンバーター２ｅ、ア
ナログ音声出力信号を増幅する出力アンプ２ｆ、ナビゲ
ーションユニット１とデータ通信を行うための入出力デ
バイス２ｇ、認識対象語を記憶する外部記憶装置２ｈな
どを備えている。

【００１４】図３は、第１の実施の形態の音声認識処理
プログラムを示すフローチャートである。この処理プロ
グラムは音声認識ユニット２のメモリ２ｂに格納され
る。利用者がナビリモコン４の発話／取り消しスイッチ
４ｂを長押しすると、ナビゲーションユニット１は入力
デバイス２ｇを介して音声認識ユニット２の信号処理装
置２ｃへ発話開始信号を送信する。信号処理装置２ｃの
ＣＰＵ２ａは、発話開始信号を受信すると図３に示す処
理プログラムの実行を開始する。

【００１５】なお、この第１の実施の形態では、利用者
との対話によりＪＲの「板橋」駅を目的地に設定する音
声認識処理を例に上げて説明する。また、この例では、
図４に示すような目的地として用いられる地域名や駅名
などの認識対象語がナビゲーションユニット１に記憶さ
れており、それらの認識対象語の中から利用者がナビリ
モコン４のジョイスティック４ａを操作して、図５に示
すような所定個数の認識対象語を含む任意の範囲（以
下、表示範囲と呼ぶ）をモニター１ａに表示する場合を
説明する。

【００１６】なお、音声認識対象語は、通常、上述した
目的地などの種類ごとに五十音順に記憶されており、表
示範囲の認識対象語は五十音順にモニター１ａに表示さ
れる。ジョイスティック４ａによりモニター１ａの認識
対象語の表示画面をスクロールして表示範囲を変更した
ときは、変更後の表示範囲がナビゲーションユニット１
のメモリに記憶され、次回にその種類の認識対象語を表
示する場合には記憶範囲が読み出され、最初にその範囲
の認識対象語がモニター１ａに表示される。

【００１７】ステップ１において、現在の入力モードで
用いられる認識対象語と、それらの認識対象語の内のど
れがモニター１ａに表示されているかをナビゲーション
ユニット１から入力し、認識対象語として確定する。こ
の例では現在、目的地の入力モードが設定されているの
で、図４に示すような目的地として用いられる地域名や
駅名などのすべての認識対象語をナビゲーションユニッ
ト１から入力するとともに、それらの認識対象語の内の
モニター１ａに表示されている認識対象語を入力し、認
識対象語として確定する。確定した認識対象語は外部記
憶装置２ｈに記憶する。ステップ２で、音声認識処理を
開始した旨を利用者に知らせるために、外部記憶装置２
ｈに記憶してある告知音信号をＤ／Ａコンバーター２ｅ
および出力アンプ２ｆを介してスピーカー６へ出力し、
放送する。

【００１８】ステップ３では、利用者が発話した音声の
取り込みを開始する。すなわち、マイク５で入力した利
用者の音声をＡ／Ｄコンバーター２ｄを介して信号処理
装置２ｃへ入力し、外部記憶装置２ｈに収録する。信号
処理装置２ｃは、発話／取り消しスイッチ４ｂが操作さ
れるまでは、常にマイク５で入力しＡ／Ｄコンバーター
２ｄでデジタル信号に変換した雑音の平均パワーを演算
している。発話／取り消しスイッチ４ｂが操作される
と、それまでの平均パワーと現在の瞬間パワーとを比較
し、現在の瞬間パワーが平均パワーに比べて所定値以上
増加したら、利用者が発話したと判断し、音声の取り込
みを開始する。

【００１９】ステップ４で、取り込んだ音声区間部分と
外部記憶装置２ｈのすべての認識対象語とを照合し、一
致度の演算を開始する。一致度は、取り込んだ音声区間
部分と認識対象語とがどの程度似ているかを示す値で、
スコアとして得られる。この実施の形態では、スコアの
値が大きいほど一致度が高いものとする。なお、ステッ
プ４で一致度の演算を行っている間も、並列処理により
音声の取り込みを継続する。ステップ５において、音声
信号の瞬間パワーが所定値以下となり、その状態が所定
時間続いたら利用者の発話が終了したと判断し、音声の
取り込みを終了する。

【００２０】ステップ６で一致度（スコア）の演算の終
了を待って各認識対象語の一致度に重み付けを行い、一
致度の高い認識対象語を抽出する。具体的には、図４に
示すように、モニター１ａに表示されているすべての認
識対象語（表示範囲の認識対象語）に対しては、モニタ
ー１ａに表示されていないすべての認識対象語（以下、
表示範囲外の認識対象語と呼ぶ）よりも高い重みを付け
る。この例では、表示範囲外の認識対象語に対しては
１．０の重みを付け、表示範囲の認識対象語に対しては
１．０よりも高い重みを付ける。そして、各認識対象語
の一致度（スコア）に重みを乗じ、重み付け後の認識対
象語の中から一致度（スコア）の高い上位３個を選別
し、ナビゲーションユニット１へ出力する。

【００２１】なお、表示範囲の認識対象語に対する重み
と、表示範囲外の認識対象語に対する重みは、この実施
の形態の値に限定されないが、少なくとも表示範囲の認
識対象語に対する重みは、表示範囲外の認識対象語に対
する重みよりも大きな値とする。これらの重みは実験に
より最適な値を設定するのが望ましい。

【００２２】ナビゲーションユニット１は、図６に示す
ように、音声認識ユニット２から受信した一致度の高い
３個の認識対象語をモニター１ａに表示する。これらの
認識対象語の内の「板橋」は当初、図５に示すようにモ
ニター１ａに表示されていた表示範囲の認識対象語であ
り、演算結果の一致度（スコア）はそれほど高くなかっ
たが、表示範囲の認識対象語として高い重み付けをされ
た結果、一致度（スコア）の上位３個の中に入ったもの
である。

【００２３】図７は、モニター１ａに表示された一致度
の高い３個の認識対象語の中から、利用者が音声認識装
置１との対話によって目的地を選択する手順を示す。音
声認識装置１の信号処理装置２ｃは、一致度の最も高い
認識対象語「田端（たばた）」を音声信号に変換し、Ｄ
／Ａコンバーター２ｅおよび出力アンプ２ｆを介してス
ピーカー６から放送する。この放送を聞いた利用者は、
「田端」は目的地に設定しようとしている駅名ではない
ので、ナビリモコン４の発話／取り消しスイッチ４ｂの
短押しを行う。ナビゲーションユニット１は発話／取り
消しスイッチ４ｂの短押し操作を検出し、音声認識ユニ
ット２へ取り消し信号を送信する。

【００２４】取り消し信号を受信した音声認識ユニット
２の信号処理装置２ｃは、一致度（スコア）が第２順位
の「板橋（いたばし）」を音声信号に変換し、Ｄ／Ａコ
ンバーター２ｅおよび出力アンプ２ｆを介してスピーカ
ー６から放送する。この放送を聞いた利用者は、「板
橋」は目的地に設定しようとしている駅名であり、「目
的地設定」という発話を行い、目的地を確定する。音声
認識ユニット２の信号処理装置２ｃは利用者からの「目
的地設定」の音声入力を認識し、「板橋」を利用者が確
定した目的地としてナビゲーションユニット１へ送信す
る。ナビゲーションユニット１は「板橋」を目的地とし
て設定する。

【００２５】このように、利用者によってモニター１ａ
に表示された認識対象語、すなわち表示範囲の認識対象
語に含まれる言葉「板橋」を発話したときに、この「板
橋」が一致度（スコア）の高い上位３個の認識対象語に
含まれる確立が高くなり、発話した言葉が表示範囲の認
識対象語の一つとしてモニター１ａに表示されているに
も拘わらず、発話した言葉が認識されずに利用者に違和
感を与えることが避けられる。

【００２６】《発明の第２の実施の形態》各認識対象語
の一致度に対する他の重み付け方向を説明する。なお、
この第２の実施の形態の構成は図１および図２に示す第
１の実施の形態の構成と同様であり、説明を省略する。
また、この第２の実施の形態の動作についても、重み付
け方法以外は図３に示す第１の実施の形態の動作を同様
であり、説明を省略する。

【００２７】上述した第１の実施の形態では、図４に示
すように、表示範囲のすべての認識対象語「軍畑」〜
「稲城長沼」に対しては１．０よりも高い所定の重みを
付け、表示範囲外のすべての認識対象語に対しては１．
０の重みを付ける方法を説明した。この第２の実施の形
態では、図８に示すように、表示範囲のすべての認識対
象語に対しては１．０よりも高い所定の重みを付ける。
一方、表示範囲外の認識対象語に対しては、図８に示す
ように、表示範囲から遠ざかるにしたがって表示範囲の
認識対象語の重みから徐々に重みを低減し、最終的に
１．０の重みとする。

【００２８】これにより、利用者が表示範囲を正確に把
握している必要がなく、例えば図５に示すような目的地
選択画面において利用者がジョイスティック４ａにより
表示範囲を変更できる場合に、所望の認識対象語を概ね
表示範囲に近づけるだけで、表示範囲に入っていなくて
も認識される確立が高くなり、所望の認識対象語を確実
にモニター１ａに表示しなければ認識確立を上げること
ができない上述した第１の実施の形態に比べ、表示範囲
の設定操作に対する利用者の負担を軽減することができ
る。

【００２９】《発明の第３の実施の形態》上述した第１
の実施の形態では、表示範囲の認識対象語に対して表示
範囲外の認識対象語に対する重みよりも高い重みを付
け、各認識対象語の一致度（スコア）に重みを乗じ、重
み付け後の認識対象語の中から一致度（スコア）の高い
上位３個を選別して表示する例を示した。この第３の実
施の形態では、最終的に選別された一致度上位３個の認
識対象語の中に、表示範囲外の認識対象語が含まれてい
ない場合は、重み付け後の表示範囲外の認識対象語の中
から最も一致度（スコア）が高い語を抽出し、表示範囲
の一致度上位３個の認識対象語の内の最も一致度（スコ
ア）の低い語と入れ替える。

【００３０】これにより、利用者の発話が不明瞭なため
に、表示範囲外に利用者の発話言葉と一致する認識対象
語があるにも拘わらず、その認識対象語が重み付け後の
一致度上位３個の認識対象語の中に含まれないという事
態を避けることができ、利用者の発話が不明瞭な場合で
も、最終的に選別される認識対象語の中に利用者の発話
言葉に対応する認識対象語が含まれる確立が高くなり、
認識率を向上させることができる。

【００３１】さらに具体的には、図５に示す目的地選択
画面において、利用者が「あっ、亀有」というような不
要語を含む言葉を発話した場合に、発話語が「あ」から
始まっているために最終的な選別結果に「亀有」が含ま
れないことがあるが、この第３の実施の形態の選別方法
によれば、最終的な選別結果に「亀有」が含まれる確立
が高くなる。

【００３２】なお、この第３の実施の形態の構成は図１
および図２に示す第１の実施の形態の構成と同様であ
り、説明を省略する。また、この第３の実施の形態の動
作は、重み付け後の一致度上位３個の選別方法を除き、
図３に示す第１の実施の形態の動作と同様であり、説明
を省略する。

【００３３】《発明の第４の実施の形態》上述した第１
の実施の形態では、表示範囲に含まれるか否かによって
認識対象語に異なる重み付けを行う例を示したが、この
第４の実施の形態では、認識対象語に対する重み付けを
行わない。

【００３４】この第４の実施の形態では、認識対象語に
重み付けを行わず、利用者の発話言葉と照合して演算し
た一致度（スコア）が上位３個の認識対象語を選別し、
その選別した認識対象語の中に表示範囲の内と外の両方
の認識対象語が含まれているかどうかを確認する。一致
度上位３個の認識対象語の中に表示範囲と表示範囲外の
両方の認識対象語が混在しておらず、表示範囲内または
表示範囲外のいずれか一方の認識対象語のみが含まれて
いる場合は、選別結果に含まれていない方の認識対象語
の中から一致度（スコア）が最も高い語を抽出し、選別
結果の認識対象語の中の最も一致度（スコア）の低い語
と入れ替える。

【００３５】これにより、利用者が発話した言葉に対応
する認識対象語が表示されているにも拘わらず、その認
識対象語が最終的に選別されず、利用者に強い違和感を
与えるような事態を避けることができ、利用者の発話が
不明瞭な場合でも、最終的に選別される認識対象語の中
に利用者の発話言葉に対応する認識対象語が含まれる確
立が高くなり、認識率を向上させることができる。

【００３６】なお、この第４の実施の形態の構成は図１
および図２に示す第１の実施の形態の構成と同様であ
り、説明を省略する。また、この第３の実施の形態の動
作は、一致度上位３個の認識対象語の選別方法を除き、
図３に示す第１の実施の形態の動作と同様であり、説明
を省略する。

【００３７】《発明の第５の実施の形態》利用者が音声
認識による操作を行う前に表示範囲の変更を行った場合
のみ、表示範囲の認識対象語に対して表示範囲外の認識
対象語に対する重みよりも高い重みを設定する、第５の
実施の形態を説明する。なお、この第５の実施の形態の
構成は図１および図２に示す第１の実施の形態の構成と
同様であり、説明を省略する。

【００３８】図９は、第５の実施の形態の音声認識処理
プログラムを示すフローチャートである。なお、図３に
示す第１の実施の形態の音声認識処理と同様な処理を行
うステップに対しては同一のステップ番号を付して相違
点を中心に説明する。

【００３９】音声認識処理開始後のステップ１１におい
て、ナビゲーションユニット１の操作履歴を取得する。
このとき、発話／取り消しスイッチ４ｂの操作から遡っ
て所定数の操作の履歴を取得する。ジョイスティック４
ａにより認識対象語の表示範囲が変更されていた場合に
は、操作（ジョイスティック操作）とその結果（表示範
囲変更）の両方が履歴として残されている。信号処理装
置２ｃはそれらの操作履歴をメモリ２ｂに記憶する。

【００４０】一致度演算終了後のステップ６Ａにおい
て、まずメモリ２ｂに記憶されている操作履歴から発話
／取り消しスイッチ４ｂを操作する前の操作内容を確認
する。発話／取り消しスイッチ４ｂの操作前に表示範囲
の変更操作が行われた記録がある場合は、第１の実施の
形態で上述したように、表示範囲の認識対象語に対して
は１．０よりも高い所定の重みを付け、表示範囲外の認
識対象語に対しては１．０の重みを付ける。そして、各
認識対象語の一致度（スコア）に重みを乗じ、重み付け
後の認識対象語の中から一致度（スコア）の高い上位３
個を選別する。一方、発話／取り消しスイッチ４ｂの操
作前に表示範囲の変更操作が行われていない場合は、認
識対象語に対する重み付けを行わず、表示範囲と表示範
囲外のすべての認識対象語の中から一致度が高い上位３
個の認識対象語を選別する。

【００４１】この第５の実施の形態によれば、利用者が
所望の認識対象語をモニター１ａに表示してから発話し
た場合のみ、表示範囲の認識対象語に表示範囲外の認識
対象語よりも高い重みを付け、表示範囲の認識対象語に
対する認識率を向上させる。しかし、利用者が所望の認
識対象語をモニター１ａに表示する操作を行わずに発話
した場合は、表示範囲の認識対象語に対する重み付けを
行わず、表示範囲と表示範囲外のすべての認識対象語を
平等に取り扱う。これにより、所望の認識対象語をモニ
ター１ａに表示してから発話するので高い認識率が得ら
れ、面倒な操作を敢えて行う利用者を充分に満足させる
ことができる。

【００４２】《発明の第６の実施の形態》表示範囲の大
幅な変更を行った後に表示範囲の小幅な変更を行い、そ
の後に音声認識による操作を行う場合のみ、表示範囲の
認識対象語に対して表示範囲外の認識対象語に対する重
みよりも高い重みを設定する、第６の実施の形態を説明
する。なお、この第６の実施の形態の構成は図１および
図２に示す第１の実施の形態の構成と同様であり、説明
を省略する。

【００４３】この第６の実施の形態の動作は、図９に示
す第５の実施の形態の動作の内のステップ６Ａの一部が
異なるのみであり、図示を省略する。一致度演算終了後
のステップ６Ａにおいて、まずメモリ２ｂに記憶されて
いる操作履歴から発話／取り消しスイッチ４ｂを操作す
る前の操作内容を確認する。発話／取り消しスイッチ４
ｂの操作前に、表示範囲の大幅な変更操作が行われ、そ
の後に表示範囲の小幅な変更操作が行われた記録がある
場合は、第１の実施の形態で上述したように、表示範囲
の認識対象語に対しては１．０よりも高い所定の重みを
付け、表示範囲外の認識対象語に対しては１．０の重み
を付ける。そして、各認識対象語の一致度（スコア）に
重みを乗じ、重み付け後の認識対象語の中から一致度
（スコア）の高い上位３個を選別する。一方、発話／取
り消しスイッチ４ｂの操作前に表示範囲の変更操作が行
われていない場合は、認識対象語に対する重み付けを行
わず、表示範囲と表示範囲外のすべての認識対象語の中
から一致度が高い上位３個の認識対象語を選別する。

【００４４】この第６の実施の形態では、１回の表示範
囲の変更操作において、例えば、表示範囲の認識対象語
がすべて入れ替わる変更を表示範囲の大幅な変更とし、
表示範囲の一部の認識対象語が入れ替わる変更を表示範
囲の小幅な変更とする。

【００４５】この第６の実施の形態によれば、所望の認
識対象語をモニター１ａに確実に表示してから発話する
という、面倒な操作を敢えて行う利用者に報いるだけの
充分に高い認識率が得られる。

【００４６】《発明の第７の実施の形態》利用者が音声
認識による操作を行う前に、表示範囲の変更を行った場
合のみ、表示範囲の認識対象語に対して表示範囲外の認
識対象語に対する重みよりも高い重みを、表示範囲の変
更方向に応じて設定するようにした第７の実施の形態を
説明する。なお、この第７の実施の形態の構成は図１お
よび図２に示す第１の実施の形態の構成と同様であり、
説明を省略する。

【００４７】この第７の実施の形態の動作は、図９に示
す第５の実施の形態の動作の内のステップ６Ａの一部が
異なるのみであり、図示を省略する。一致度演算終了後
のステップ６Ａにおいて、まずメモリ２ｂに記憶されて
いる操作履歴から発話／取り消しスイッチ４ｂを操作す
る前の操作内容を確認する。発話／取り消しスイッチ４
ｂの操作前に表示範囲の変更操作が行われた記録がある
場合は、図１０に示すように、表示範囲の認識対象語に
対して１．０よりも高い重みを、ジョイスティック４ａ
による表示範囲のスクロール方向、すなわち表示範囲の
変更方向にある認識対象語ほど高い重みを付け、表示範
囲外の認識対象語に対しては１．０の重みを付ける。そ
して、各認識対象語の一致度（スコア）に重みを乗じ、
重み付け後の認識対象語の中から一致度（スコア）の高
い上位３個を選別する。一方、発話／取り消しスイッチ
４ｂの操作前に表示範囲の変更操作が行われていない場
合は、認識対象語に対する重み付けを行わず、表示範囲
と表示範囲外のすべての認識対象語の中から一致度が高
い上位３個の認識対象語を選別する。

【００４８】例えば図１１に示すような地域名や駅名な
どの目的地の表示画面において、ジョイスティック４ａ
により目的地の表示範囲をスクロールする場合、所望の
認識対象語が現れたらスクロールを止めることから、最
後に現れた目的地、つまり認識対象語か、もしくはその
近傍の認識対象語が利用者の所望の認識対象語である。
この第７の実施の形態では、表示範囲のすべての認識対
象語の重みを一律に設定せず、スクロール方向すなわち
表示範囲の変更方向にある認識対象語ほど高い重みを設
定する。換言すれば、表示範囲に現れた順に応じて重み
付けを行い、最後に表示範囲に現れた認識対象語に対し
て最も高い重みを設定する。図１１に示す表示範囲の例
では、利用者の所望の目的地（認識対象語）「市ヶ谷」
は、スクロールを止めたときに最後に現れた目的地の近
くにあり、高い重みが設定されるため、認識結果として
現れる確立を高くすることができる。

【００４９】《発明の第８の実施の形態》利用者が音声
認識による操作を行う前に、表示範囲の変更を行った場
合のみ、表示範囲の認識対象語に対して表示範囲外の認
識対象語に対する重みよりも高い重みを設定するととも
に、表示範囲外の認識対象語の内の表示範囲の変更方向
にある認識対象語に対しては、表示範囲から遠ざかるに
したがって表示範囲の認識対象語の重みから徐々に重み
を低減するようにした第８の実施の形態を説明する。な
お、この第８の実施の形態の構成は図１および図２に示
す第１の実施の形態の構成と同様であり、説明を省略す
る。

【００５０】この第８の実施の形態の動作は、図９に示
す第５の実施の形態の動作の内のステップ６Ａの一部が
異なるのみであり、図示を省略する。一致度演算終了後
のステップ６Ａにおいて、まずメモリ２ｂに記憶されて
いる操作履歴から発話／取り消しスイッチ４ｂを操作す
る前の操作内容を確認する。発話／取り消しスイッチ４
ｂの操作前に表示範囲の変更操作が行われた記録がある
場合は、図１２に示すように、表示範囲の目的地（認識
対象語）に対して１．０よりも高い所定の重みを設定す
るとともに、表示範囲外の目的地（認識対象語）の内の
ジョイスティック４ａによる表示範囲のスクロール方
向、すなわち表示範囲の変更方向にある目的地（認識対
象語）に対しては、表示範囲から遠ざかるにしたがって
表示範囲の目的地（認識対象語）の重みから徐々に重み
を低減し、最終的に１．０の重みに収束させる。そし
て、各認識対象語の一致度（スコア）に重みを乗じ、重
み付け後の認識対象語の中から一致度（スコア）の高い
上位３個を選別する。一方、発話／取り消しスイッチ４
ｂの操作前に表示範囲の変更操作が行われていない場合
は、認識対象語に対する重み付けを行わず、表示範囲と
表示範囲外のすべての認識対象語の中から一致度が高い
上位３個の認識対象語を選別する。

【００５１】地域名や駅名などの目的地のように認識対
象語が多い場合は５０音順に並べられていることが多
く、利用者はジョイスティックや方向キーにより利用者
の意図する認識対象語がある方向へ画面をスクロールす
る。このとき、利用者の意図する認識対象語がスクロー
ル方向に存在する確立は高く、反対方向に存在する確立
は低い。そこで、この第８の実施の形態では、表示範囲
のスクロール方向、つまり表示範囲の変更方向にある表
示範囲外の認識対象語に対しては、表示範囲から遠ざか
るにしたがって表示範囲の認識対象語の重みから徐々に
重みを低減し、最終的に１．０の重みに収束させる。一
方、スクロール操作により表示範囲を通り過ぎてしまっ
た認識対象語、つまり表示範囲の変更方向と反対の方向
の表示範囲外の認識対象語に対しては、利用者の意図す
る認識対象語である可能性が低い語と見なし、１．０の
重みを付ける。これにより、所望の認識対象語が認識さ
れる確立を向上させることができる。

【００５２】以上の実施の形態の構成において、マイク
５が音声入力手段を、外部記憶装置２ｈが記憶手段を、
モニター１ａが表示手段を、音声入力ユニット２のＣＰ
Ｕ２ａが重み付け手段、演算手段、変更手段、抽出手段
および入れ替え手段をそれぞれ構成する。

【図面の簡単な説明】

【図１】第１の実施の形態の構成を示す図である。

【図２】図１に示す音声認識ユニットの詳細を示す図
である。

【図３】第１の実施の形態の音声認識処理プログラム
を示すフローチャートである。

【図４】第１の実施の形態の認識対象語の重み付け方
法を示す図である。

【図５】表示範囲の認識対象語の表示例を示す図であ
る。

【図６】重み付け後の一致度上位３個の認識対象語の
表示例を示す図である。

【図７】一致度の高い認識対象語からいずれかを選択
する手順を示す図である。

【図８】第２の実施の形態の認識対象語の重み付け方
法を示す図である。

【図９】第５の実施の形態の音声認識処理プログラム
を示すフローチャートである。

【図１０】第７の実施の形態の認識対象語の重み付け
方法を示す図である。

【図１１】目的地表示画面のスクロール時の様子を説
明するための図である。

【図１２】第８の実施の形態の認識対象語の重み付け
方法を示す図である。

【符号の説明】

１ナビゲーションユニット１ａモニター２音声認識ユニット２ａＣＰＵ２ｂメモリ２ｃ信号処理装置２ｄＡ／Ｄコンバーター２ｅＤ／Ａコンバーター２ｆ出力アンプ２ｇ入力デバイス２ｈ外部記憶装置３ＧＰＳアンテナ４ナビリモコン４ａジョイスティック４ｂ発話／取り消しスイッチ５マイク６スピーカー

Claims

【特許請求の範囲】

【請求項１】音声を入力する音声入力手段と、複数の認識対象語を記憶する記憶手段と、前記記憶手段に記憶されている複数の認識対象語の内
の、所定個数の認識対象語を表示する表示手段と、前記表示手段に表示される認識対象語に対して前記表示
手段に表示されない認識対象語よりも高い重み付けを行
う重み付け手段と、前記重み付け手段による重み付け後の認識対象語と前記
入力手段により入力された音声との一致度を演算する演
算手段とを備え、一致度の演算結果に基づいて入力した音声を認識するこ
とを特徴とする音声認識装置。
【請求項２】請求項１に記載の音声認識装置において、前記記憶手段は複数の認識対象語を所定の順に記憶して
おり、前記表示手段は、前記記憶手段に前記所定の順に記憶さ
れている複数の認識対象語の中から、前記所定個数の認
識対象語を含む範囲（以下、表示範囲と呼ぶ）の認識対
象語を前記所定の順に表示することを特徴とする音声認
識装置。
【請求項３】請求項２に記載の音声認識装置において、前記重み付け手段は、前記表示範囲外の認識対象語に対
して、前記表示範囲から遠ざかるにしたがって前記表示
範囲の認識対象語に対する重みから徐々に重みを低減す
ることを特徴とする音声認識装置。
【請求項４】請求項２に記載の音声認識装置において、前記表示範囲を変更する変更手段を備え、前記重み付け手段は、前記変更手段により前記表示範囲
の変更が行われた場合のみ、前記表示範囲の認識対象語
に対して前記表示範囲外の認識対象語よりも高い重み付
けを行うことを特徴とする音声認識装置。
【請求項５】請求項２に記載の音声認識装置において、前記表示範囲を変更する変更手段を備え、前記重み付け手段は、前記変更手段により前記表示範囲
の大幅な変更が行われた後に前記表示範囲の小幅な変更
が行われた場合のみ、前記表示範囲の認識対象語に対し
て前記表示範囲外の認識対象語よりも高い重み付けを行
うことを特徴とする音声認識装置。
【請求項６】請求項２に記載の音声認識装置において、前記表示範囲を変更する変更手段を備え、前記重み付け手段は、前記変更手段による前記表示範囲
の変更にともなって前記表示範囲に現れた認識対象語の
順に応じて重み付けを行い、前記表示範囲に最後に現れ
た認識対象語に最も高い重み付けを行うことを特徴とす
る音声認識装置。
【請求項７】請求項２に記載の音声認識装置において、前記表示範囲を変更する変更手段を備え、前記重み付け手段は、前記表示範囲の認識対象語に対し
て前記表示範囲外の認識対象語よりも高い重み付けを行
うとともに、前記表示範囲の変更方向に存在する表示範
囲外の認識対象語に対しては、前記表示範囲から遠ざか
るにしたがって前記表示範囲の認識対象語に対する重み
から徐々に重みを低減することを特徴とする音声認識装
置。
【請求項８】請求項１〜７のいずれかの項に記載の音声
認識装置において、前記演算手段により演算された一致度が高い順に所定個
数の認識対象語を抽出する抽出手段を備え、前記抽出手段により抽出された認識対象語を前記表示手
段に表示して最終的な認識対象語を選択可能にしたこと
を特徴とする音声認識装置。
【請求項９】請求項８に記載の音声認識装置において、前記抽出手段により抽出された認識対象語の中に前記表
示範囲外の認識対象語が含まれていない場合は、前記抽
出された認識対象語の内の最も一致度の低い認識対象語
と前記表示範囲外の最も一致度の高い認識対象語とを入
れ替える入れ替え手段を備えることを特徴とする音声認
識装置。