JP4056711B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP4056711B2
JP4056711B2 JP2001077910A JP2001077910A JP4056711B2 JP 4056711 B2 JP4056711 B2 JP 4056711B2 JP 2001077910 A JP2001077910 A JP 2001077910A JP 2001077910 A JP2001077910 A JP 2001077910A JP 4056711 B2 JP4056711 B2 JP 4056711B2
Authority
JP
Japan
Prior art keywords
recognition target
display range
target word
recognition
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001077910A
Other languages
English (en)
Other versions
JP2002278588A (ja
Inventor
健 大野
沖彦 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2001077910A priority Critical patent/JP4056711B2/ja
Priority to US10/087,980 priority patent/US7076425B2/en
Publication of JP2002278588A publication Critical patent/JP2002278588A/ja
Application granted granted Critical
Publication of JP4056711B2 publication Critical patent/JP4056711B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Description

【0001】
【発明の属する技術分野】
本発明は、利用者が発話した音声を言葉として認識する装置に関する。
【0002】
【従来の技術】
利用者の発話する音声を認識してナビゲーション装置などの各種電子機器の入力操作を行う音声認識装置が知られている(例えば、特開2000−193479号公報、特開2000−203357号公報など参照)。
【0003】
この種の音声認識装置は、各種電子機器の入力操作に必要な言葉を予め記憶しておき(以下、これらを認識対象語と呼ぶ)、これらの認識対象語と利用者が発話した言葉とを照合し、利用者が発話した言葉と認識対象語との一致度を判定することによって、一致度が最も高い認識対象語を利用者が発話した言葉として認識している。つまり、利用者が各種電子機器の音声による入力操作に用いることができる言葉は認識対象語に限られているため、利用者は認識対象語を記憶したり、操作マニュアルを確認して発話する必要がある。
【0004】
そこで、上述した従来の音声認識装置では、利用者が音声入力操作に用いることができる認識対象語、あるいは利用者の入力が予想される認識対象語を予めモニターに表示することによって、めんどうな認識対象語を覚えたり、いちいち操作マニュアルを確認する手間を省き、利用者の使い勝手を向上させるとともに、記憶されている認識対象語の中から利用者の発話した言葉と照合する認識対象語をモニターに表示されている認識対象語に限定することによって、認識率を向上させるという、改善がなされている。
【0005】
【発明が解決しようとする課題】
ところが、音声認識装置を例えばナビゲーション装置の音声入力操作に用いる場合には、地域名や駅名などの目的地を音声入力するための認識対象語はその数が多いので、すべてをモニターに表示することができず、一部のみを表示することになるが、利用者の発話した言葉と照合する認識対象語をモニターに表示されている認識対象語のみに限定することはできない。したがって、目的地などの数の多い認識対象語との照合により一致度を判定する場合には、認識率が低下したり、一致度の演算処理に時間がかかることになる。
【0006】
また、利用者の声の質や話し方などの個人差、雑音の有無などの周囲環境の差によって、正しい認識対象語との一致を判定することができず、誤認することがある。
【0007】
数多くの認識対象語の中から利用者の発した言葉を一致検索するときには、モニターに表示されている認識対象語も、表示されていない認識対象語も照合対象となるが、モニターに表示されている認識対象語の中から誤認が発生する場合と、表示されていない認識対象語の中から誤認が発生する場合とでは、利用者に与える影響が異なるという問題がある。利用者が発した言葉に一致する認識対象語がモニターに表示されているときに、上述した利用者の個人差や周囲環境の差などによって誤認が発生し、利用者の発した言葉を認識できないことがあると、モニターに表示されていない認識対象語に対する誤認よりも利用者により強い違和感を与えるおそれがある。
【0008】
本発明の目的は、モニターに表示されいる認識対象語に対する認識率を向上させることにある。
【0009】
【課題を解決するための手段】
(1) 請求項1の発明は、音声を入力する音声入力手段と、複数の認識対象語を記憶する記憶手段と、前記記憶手段に記憶されている複数の認識対象語の内の、所定個数の認識対象語を表示する表示手段と、前記表示手段に表示されていない認識対象語に対しては、0より高い重み付けを行い、前記表示手段に表示されている認識対象語に対しては、常に前記表示手段に表示されていない認識対象語に対する重み付けよりも高い重み付けを行う重み付け手段と、前記重み付け手段による重み付け後の認識対象語と前記入力手段により入力された音声との一致度を演算する演算手段とを備え、一致度の演算結果に基づいて入力した音声を認識する。
(2) 請求項2の音声認識装置は、前記記憶手段が複数の認識対象語を所定の順に記憶しており、前記表示手段は、前記記憶手段に前記所定の順に記憶されている複数の認識対象語の中から、前記所定個数の認識対象語を含む範囲(表示範囲)の認識対象語を前記所定の順に表示する。
(3) 請求項3の音声認識装置は、前記重み付け手段によって、前記表示範囲外の認識対象語に対して、前記表示範囲から遠ざかるにしたがって前記表示範囲の認識対象語に対する重みから徐々に重みを低減する。
(4) 請求項4の音声認識装置は、前記表示範囲を変更する変更手段を備え、前記重み付け手段によって、前記変更手段により前記表示範囲の変更が行われた場合のみ、前記表示範囲の認識対象語に対して前記表示範囲外の認識対象語よりも高い重み付けを行うようにしたものである。
(5) 請求項5の音声認識装置は、前記表示範囲を変更する変更手段を備え、前記重み付け手段によって、前記変更手段による前記表示範囲の変更にともなって前記表示範囲に現れた認識対象語の順に応じて重み付けを行い、前記表示範囲に最後に現れた認識対象語に最も高い重み付けを行うようにしたものである。
(6) 請求項6の音声認識装置は、前記表示範囲を変更する変更手段を備え、前記重み付け手段によって、前記表示範囲の認識対象語に対して前記表示範囲外の認識対象語よりも高い重み付けを行うとともに、前記表示範囲の変更方向に存在する表示範囲外の認識対象語に対しては、前記表示範囲から遠ざかるにしたがって前記表示範囲の認識対象語に対する重みから徐々に重みを低減するようにしたものである。
(7) 請求項7の音声認識装置は、前記演算手段により演算された一致度が高い順に所定個数の認識対象語を抽出する抽出手段を備え、前記抽出手段により抽出された認識対象語を前記表示手段に表示して最終的な認識対象語を選択可能にしたものである。
(8) 請求項8の音声認識装置は、前記抽出手段により抽出された認識対象語の中に前記表示範囲外の認識対象語が含まれていない場合は、前記抽出された認識対象語の内の最も一致度の低い認識対象語と前記表示範囲外の最も一致度の高い認識対象語とを入れ替える入れ替え手段を備える。
【0010】
【発明の効果】
(1) 請求項1の発明によれば、表示手段に表示されている認識対象語に対する認識率を表示手段に表示されていない認識対象語よりも向上させることができ、利用者が発話した言葉に一致する認識対象語が表示手段に表示されているにも拘わらず、認識されないために利用者に強い違和感を与えることを避けることができる。
(2) 請求項2の発明によれば、例えば五十音順などの所定の順に表示することができ、表示手段の認識対象語の表示画面をスクロールして表示範囲を変更するときに、どちらの方向へどの程度変更すればよいかを直感でき、操作性がよくなる。
(3) 請求項3の発明によれば、利用者が表示範囲を正確に把握している必要がなく、表示範囲を変更するときに所望の認識対象語を概ね表示範囲に近づけるだけで、表示範囲に入っていなくても認識される確立が高くなり、表示範囲の設定操作に対する利用者の負担を軽減することができる。
(4) 請求項4の発明によれば、所望の認識対象語を表示手段に表示してから発話することにより高い認識率が得られるので、面倒な操作を敢えて行う利用者を充分に満足させることができる。
) 利用者が表示手段の認識対象語の表示画面をスクロールして表示範囲の変更を行う場合、通常は所望の認識対象語が表示されたら変更操作を止めるので、最後に表示された認識対象語またはその近くに所望の認識対象語がある場合が多い。請求項の発明によれば、表示範囲に現れた順に応じて重み付けを行い、表示範囲に最後に現れた語に最も高い重みを付けることによって、高い認識率が得られる。
) 地域名や駅名などの目的地のように認識対象語が多い場合は例えば50音順などの所定の順序に並べられていることが多く、利用者は意図する認識対象語がある方向へ認識対象語の表示画面をスクロールして表示範囲を変更する。このとき、利用者の意図する認識対象語がスクロール方向すなわち表示範囲の変更方向に存在する確立は高く、反対方向に存在する確立は低い。したがって、請求項の発明によれば、所望の認識対象語が認識される確立を向上させることができる。
) 請求項の発明によれば、表示手段に表示されている認識対象語に対する認識率をさらに向上させることができる。
) 請求項の発明によれば、利用者の発話が不明瞭なために、表示範囲外に利用者の発話言葉と一致する認識対象語があるにも拘わらず、その認識対象語が重み付け後の一致度上位の認識対象語の中に含まれないという事態を避けることができ、利用者の発話が不明瞭な場合でも、最終的に選別される認識対象語の中に利用者の発話言葉に対応する認識対象語が含まれる確立が高くなり、認識率を向上させることができる。
【0011】
【発明の実施の形態】
本願発明の音声認識装置をナビゲーション装置に応用した一実施の形態を説明する。なお、本願発明はナビゲーション装置以外の多くの装置に応用することができる。
【0012】
《発明の第1の実施の形態》
図1に第1の実施の形態の構成を示す。ナビゲーションユニット1は、音声により入力操作を行うための音声認識ユニット2を備えており、現在地を検出するとともに目的地までの誘導経路を探索し、それらを現在地周辺の道路地図上に重畳してモニター1aに表示する。ナビゲーションユニット1には、衛星航法により現在位置を検出するGPSアンテナ3と、ナビゲーションユニット1を手動操作するためのナビリモコン4が接続される。ナビリモコン4には、モニター1aの表示内容を操作するためのジョイスティック4aと、利用者が発話の開始と終了、および発話の取り消しを指示するための発話/取り消しスイッチ4bが設けられる。また、音声認識ユニット2には、利用者が発した音声を入力するためのマイク5と、利用者に音声で応答するためのスピーカー6が接続される。
【0013】
図2は、図1に示す音声認識ユニット2の詳細を示す。音声認識ユニット2は、CPU2aやメモリ2bなどから構成される信号処理装置2cの他に、マイク5からのアナログ音声入力信号をデジタル信号に変換するA/Dコンバーター2d、デジタル音声出力信号をアナログ信号に変換するD/Aコンバーター2e、アナログ音声出力信号を増幅する出力アンプ2f、ナビゲーションユニット1とデータ通信を行うための入出力デバイス2g、認識対象語を記憶する外部記憶装置2hなどを備えている。
【0014】
図3は、第1の実施の形態の音声認識処理プログラムを示すフローチャートである。この処理プログラムは音声認識ユニット2のメモリ2bに格納される。利用者がナビリモコン4の発話/取り消しスイッチ4bを長押しすると、ナビゲーションユニット1は入力デバイス2gを介して音声認識ユニット2の信号処理装置2cへ発話開始信号を送信する。信号処理装置2cのCPU2aは、発話開始信号を受信すると図3に示す処理プログラムの実行を開始する。
【0015】
なお、この第1の実施の形態では、利用者との対話によりJRの「板橋」駅を目的地に設定する音声認識処理を例に上げて説明する。また、この例では、図4に示すような目的地として用いられる地域名や駅名などの認識対象語がナビゲーションユニット1に記憶されており、それらの認識対象語の中から利用者がナビリモコン4のジョイスティック4aを操作して、図5に示すような所定個数の認識対象語を含む任意の範囲(以下、表示範囲と呼ぶ)をモニター1aに表示する場合を説明する。
【0016】
なお、音声認識対象語は、通常、上述した目的地などの種類ごとに五十音順に記憶されており、表示範囲の認識対象語は五十音順にモニター1aに表示される。ジョイスティック4aによりモニター1aの認識対象語の表示画面をスクロールして表示範囲を変更したときは、変更後の表示範囲がナビゲーションユニット1のメモリに記憶され、次回にその種類の認識対象語を表示する場合には記憶範囲が読み出され、最初にその範囲の認識対象語がモニター1aに表示される。
【0017】
ステップ1において、現在の入力モードで用いられる認識対象語と、それらの認識対象語の内のどれがモニター1aに表示されているかをナビゲーションユニット1から入力し、認識対象語として確定する。この例では現在、目的地の入力モードが設定されているので、図4に示すような目的地として用いられる地域名や駅名などのすべての認識対象語をナビゲーションユニット1から入力するとともに、それらの認識対象語の内のモニター1aに表示されている認識対象語を入力し、認識対象語として確定する。確定した認識対象語は外部記憶装置2hに記憶する。ステップ2で、音声認識処理を開始した旨を利用者に知らせるために、外部記憶装置2hに記憶してある告知音信号をD/Aコンバーター2eおよび出力アンプ2fを介してスピーカー6へ出力し、放送する。
【0018】
ステップ3では、利用者が発話した音声の取り込みを開始する。すなわち、マイク5で入力した利用者の音声をA/Dコンバーター2dを介して信号処理装置2cへ入力し、外部記憶装置2hに収録する。信号処理装置2cは、発話/取り消しスイッチ4bが操作されるまでは、常にマイク5で入力しA/Dコンバーター2dでデジタル信号に変換した雑音の平均パワーを演算している。発話/取り消しスイッチ4bが操作されると、それまでの平均パワーと現在の瞬間パワーとを比較し、現在の瞬間パワーが平均パワーに比べて所定値以上増加したら、利用者が発話したと判断し、音声の取り込みを開始する。
【0019】
ステップ4で、取り込んだ音声区間部分と外部記憶装置2hのすべての認識対象語とを照合し、一致度の演算を開始する。一致度は、取り込んだ音声区間部分と認識対象語とがどの程度似ているかを示す値で、スコアとして得られる。この実施の形態では、スコアの値が大きいほど一致度が高いものとする。なお、ステップ4で一致度の演算を行っている間も、並列処理により音声の取り込みを継続する。ステップ5において、音声信号の瞬間パワーが所定値以下となり、その状態が所定時間続いたら利用者の発話が終了したと判断し、音声の取り込みを終了する。
【0020】
ステップ6で一致度(スコア)の演算の終了を待って各認識対象語の一致度に重み付けを行い、一致度の高い認識対象語を抽出する。具体的には、図4に示すように、モニター1aに表示されているすべての認識対象語(表示範囲の認識対象語)に対しては、モニター1aに表示されていないすべての認識対象語(以下、表示範囲外の認識対象語と呼ぶ)よりも高い重みを付ける。この例では、表示範囲外の認識対象語に対しては1.0の重みを付け、表示範囲の認識対象語に対しては1.0よりも高い重みを付ける。そして、各認識対象語の一致度(スコア)に重みを乗じ、重み付け後の認識対象語の中から一致度(スコア)の高い上位3個を選別し、ナビゲーションユニット1へ出力する。
【0021】
なお、表示範囲の認識対象語に対する重みと、表示範囲外の認識対象語に対する重みは、この実施の形態の値に限定されないが、少なくとも表示範囲の認識対象語に対する重みは、表示範囲外の認識対象語に対する重みよりも大きな値とする。これらの重みは実験により最適な値を設定するのが望ましい。
【0022】
ナビゲーションユニット1は、図6に示すように、音声認識ユニット2から受信した一致度の高い3個の認識対象語をモニター1aに表示する。これらの認識対象語の内の「板橋」は当初、図5に示すようにモニター1aに表示されていた表示範囲の認識対象語であり、演算結果の一致度(スコア)はそれほど高くなかったが、表示範囲の認識対象語として高い重み付けをされた結果、一致度(スコア)の上位3個の中に入ったものである。
【0023】
図7は、モニター1aに表示された一致度の高い3個の認識対象語の中から、利用者が音声認識装置1との対話によって目的地を選択する手順を示す。音声認識装置1の信号処理装置2cは、一致度の最も高い認識対象語「田端(たばた)」を音声信号に変換し、D/Aコンバーター2eおよび出力アンプ2fを介してスピーカー6から放送する。この放送を聞いた利用者は、「田端」は目的地に設定しようとしている駅名ではないので、ナビリモコン4の発話/取り消しスイッチ4bの短押しを行う。ナビゲーションユニット1は発話/取り消しスイッチ4bの短押し操作を検出し、音声認識ユニット2へ取り消し信号を送信する。
【0024】
取り消し信号を受信した音声認識ユニット2の信号処理装置2cは、一致度(スコア)が第2順位の「板橋(いたばし)」を音声信号に変換し、D/Aコンバーター2eおよび出力アンプ2fを介してスピーカー6から放送する。この放送を聞いた利用者は、「板橋」は目的地に設定しようとしている駅名であり、「目的地設定」という発話を行い、目的地を確定する。音声認識ユニット2の信号処理装置2cは利用者からの「目的地設定」の音声入力を認識し、「板橋」を利用者が確定した目的地としてナビゲーションユニット1へ送信する。ナビゲーションユニット1は「板橋」を目的地として設定する。
【0025】
このように、利用者によってモニター1aに表示された認識対象語、すなわち表示範囲の認識対象語に含まれる言葉「板橋」を発話したときに、この「板橋」が一致度(スコア)の高い上位3個の認識対象語に含まれる確立が高くなり、発話した言葉が表示範囲の認識対象語の一つとしてモニター1aに表示されているにも拘わらず、発話した言葉が認識されずに利用者に違和感を与えることが避けられる。
【0026】
《発明の第2の実施の形態》
各認識対象語の一致度に対する他の重み付け方向を説明する。なお、この第2の実施の形態の構成は図1および図2に示す第1の実施の形態の構成と同様であり、説明を省略する。また、この第2の実施の形態の動作についても、重み付け方法以外は図3に示す第1の実施の形態の動作を同様であり、説明を省略する。
【0027】
上述した第1の実施の形態では、図4に示すように、表示範囲のすべての認識対象語「軍畑」〜「稲城長沼」に対しては1.0よりも高い所定の重みを付け、表示範囲外のすべての認識対象語に対しては1.0の重みを付ける方法を説明した。この第2の実施の形態では、図8に示すように、表示範囲のすべての認識対象語に対しては1.0よりも高い所定の重みを付ける。一方、表示範囲外の認識対象語に対しては、図8に示すように、表示範囲から遠ざかるにしたがって表示範囲の認識対象語の重みから徐々に重みを低減し、最終的に1.0の重みとする。
【0028】
これにより、利用者が表示範囲を正確に把握している必要がなく、例えば図5に示すような目的地選択画面において利用者がジョイスティック4aにより表示範囲を変更できる場合に、所望の認識対象語を概ね表示範囲に近づけるだけで、表示範囲に入っていなくても認識される確立が高くなり、所望の認識対象語を確実にモニター1aに表示しなければ認識確立を上げることができない上述した第1の実施の形態に比べ、表示範囲の設定操作に対する利用者の負担を軽減することができる。
【0029】
《発明の第3の実施の形態》
上述した第1の実施の形態では、表示範囲の認識対象語に対して表示範囲外の認識対象語に対する重みよりも高い重みを付け、各認識対象語の一致度(スコア)に重みを乗じ、重み付け後の認識対象語の中から一致度(スコア)の高い上位3個を選別して表示する例を示した。この第3の実施の形態では、最終的に選別された一致度上位3個の認識対象語の中に、表示範囲外の認識対象語が含まれていない場合は、重み付け後の表示範囲外の認識対象語の中から最も一致度(スコア)が高い語を抽出し、表示範囲の一致度上位3個の認識対象語の内の最も一致度(スコア)の低い語と入れ替える。
【0030】
これにより、利用者の発話が不明瞭なために、表示範囲外に利用者の発話言葉と一致する認識対象語があるにも拘わらず、その認識対象語が重み付け後の一致度上位3個の認識対象語の中に含まれないという事態を避けることができ、利用者の発話が不明瞭な場合でも、最終的に選別される認識対象語の中に利用者の発話言葉に対応する認識対象語が含まれる確立が高くなり、認識率を向上させることができる。
【0031】
さらに具体的には、図5に示す目的地選択画面において、利用者が「あっ、亀有」というような不要語を含む言葉を発話した場合に、発話語が「あ」から始まっているために最終的な選別結果に「亀有」が含まれないことがあるが、この第3の実施の形態の選別方法によれば、最終的な選別結果に「亀有」が含まれる確立が高くなる。
【0032】
なお、この第3の実施の形態の構成は図1および図2に示す第1の実施の形態の構成と同様であり、説明を省略する。また、この第3の実施の形態の動作は、重み付け後の一致度上位3個の選別方法を除き、図3に示す第1の実施の形態の動作と同様であり、説明を省略する。
【0033】
《発明の第4の実施の形態》
上述した第1の実施の形態では、表示範囲に含まれるか否かによって認識対象語に異なる重み付けを行う例を示したが、この第4の実施の形態では、認識対象語に対する重み付けを行わない。
【0034】
この第4の実施の形態では、認識対象語に重み付けを行わず、利用者の発話言葉と照合して演算した一致度(スコア)が上位3個の認識対象語を選別し、その選別した認識対象語の中に表示範囲の内と外の両方の認識対象語が含まれているかどうかを確認する。一致度上位3個の認識対象語の中に表示範囲と表示範囲外の両方の認識対象語が混在しておらず、表示範囲内または表示範囲外のいずれか一方の認識対象語のみが含まれている場合は、選別結果に含まれていない方の認識対象語の中から一致度(スコア)が最も高い語を抽出し、選別結果の認識対象語の中の最も一致度(スコア)の低い語と入れ替える。
【0035】
これにより、利用者が発話した言葉に対応する認識対象語が表示されているにも拘わらず、その認識対象語が最終的に選別されず、利用者に強い違和感を与えるような事態を避けることができ、利用者の発話が不明瞭な場合でも、最終的に選別される認識対象語の中に利用者の発話言葉に対応する認識対象語が含まれる確立が高くなり、認識率を向上させることができる。
【0036】
なお、この第4の実施の形態の構成は図1および図2に示す第1の実施の形態の構成と同様であり、説明を省略する。また、この第3の実施の形態の動作は、一致度上位3個の認識対象語の選別方法を除き、図3に示す第1の実施の形態の動作と同様であり、説明を省略する。
【0037】
《発明の第5の実施の形態》
利用者が音声認識による操作を行う前に表示範囲の変更を行った場合のみ、表示範囲の認識対象語に対して表示範囲外の認識対象語に対する重みよりも高い重みを設定する、第5の実施の形態を説明する。なお、この第5の実施の形態の構成は図1および図2に示す第1の実施の形態の構成と同様であり、説明を省略する。
【0038】
図9は、第5の実施の形態の音声認識処理プログラムを示すフローチャートである。なお、図3に示す第1の実施の形態の音声認識処理と同様な処理を行うステップに対しては同一のステップ番号を付して相違点を中心に説明する。
【0039】
音声認識処理開始後のステップ11において、ナビゲーションユニット1の操作履歴を取得する。このとき、発話/取り消しスイッチ4bの操作から遡って所定数の操作の履歴を取得する。ジョイスティック4aにより認識対象語の表示範囲が変更されていた場合には、操作(ジョイスティック操作)とその結果(表示範囲変更)の両方が履歴として残されている。信号処理装置2cはそれらの操作履歴をメモリ2bに記憶する。
【0040】
一致度演算終了後のステップ6Aにおいて、まずメモリ2bに記憶されている操作履歴から発話/取り消しスイッチ4bを操作する前の操作内容を確認する。発話/取り消しスイッチ4bの操作前に表示範囲の変更操作が行われた記録がある場合は、第1の実施の形態で上述したように、表示範囲の認識対象語に対しては1.0よりも高い所定の重みを付け、表示範囲外の認識対象語に対しては1.0の重みを付ける。そして、各認識対象語の一致度(スコア)に重みを乗じ、重み付け後の認識対象語の中から一致度(スコア)の高い上位3個を選別する。一方、発話/取り消しスイッチ4bの操作前に表示範囲の変更操作が行われていない場合は、認識対象語に対する重み付けを行わず、表示範囲と表示範囲外のすべての認識対象語の中から一致度が高い上位3個の認識対象語を選別する。
【0041】
この第5の実施の形態によれば、利用者が所望の認識対象語をモニター1aに表示してから発話した場合のみ、表示範囲の認識対象語に表示範囲外の認識対象語よりも高い重みを付け、表示範囲の認識対象語に対する認識率を向上させる。しかし、利用者が所望の認識対象語をモニター1aに表示する操作を行わずに発話した場合は、表示範囲の認識対象語に対する重み付けを行わず、表示範囲と表示範囲外のすべての認識対象語を平等に取り扱う。これにより、所望の認識対象語をモニター1aに表示してから発話するので高い認識率が得られ、面倒な操作を敢えて行う利用者を充分に満足させることができる。
【0042】
《発明の第6の実施の形態》
表示範囲の大幅な変更を行った後に表示範囲の小幅な変更を行い、その後に音声認識による操作を行う場合のみ、表示範囲の認識対象語に対して表示範囲外の認識対象語に対する重みよりも高い重みを設定する、第6の実施の形態を説明する。なお、この第6の実施の形態の構成は図1および図2に示す第1の実施の形態の構成と同様であり、説明を省略する。
【0043】
この第6の実施の形態の動作は、図9に示す第5の実施の形態の動作の内のステップ6Aの一部が異なるのみであり、図示を省略する。一致度演算終了後のステップ6Aにおいて、まずメモリ2bに記憶されている操作履歴から発話/取り消しスイッチ4bを操作する前の操作内容を確認する。発話/取り消しスイッチ4bの操作前に、表示範囲の大幅な変更操作が行われ、その後に表示範囲の小幅な変更操作が行われた記録がある場合は、第1の実施の形態で上述したように、表示範囲の認識対象語に対しては1.0よりも高い所定の重みを付け、表示範囲外の認識対象語に対しては1.0の重みを付ける。そして、各認識対象語の一致度(スコア)に重みを乗じ、重み付け後の認識対象語の中から一致度(スコア)の高い上位3個を選別する。一方、発話/取り消しスイッチ4bの操作前に表示範囲の変更操作が行われていない場合は、認識対象語に対する重み付けを行わず、表示範囲と表示範囲外のすべての認識対象語の中から一致度が高い上位3個の認識対象語を選別する。
【0044】
この第6の実施の形態では、1回の表示範囲の変更操作において、例えば、表示範囲の認識対象語がすべて入れ替わる変更を表示範囲の大幅な変更とし、表示範囲の一部の認識対象語が入れ替わる変更を表示範囲の小幅な変更とする。
【0045】
この第6の実施の形態によれば、所望の認識対象語をモニター1aに確実に表示してから発話するという、面倒な操作を敢えて行う利用者に報いるだけの充分に高い認識率が得られる。
【0046】
《発明の第7の実施の形態》
利用者が音声認識による操作を行う前に、表示範囲の変更を行った場合のみ、表示範囲の認識対象語に対して表示範囲外の認識対象語に対する重みよりも高い重みを、表示範囲の変更方向に応じて設定するようにした第7の実施の形態を説明する。なお、この第7の実施の形態の構成は図1および図2に示す第1の実施の形態の構成と同様であり、説明を省略する。
【0047】
この第7の実施の形態の動作は、図9に示す第5の実施の形態の動作の内のステップ6Aの一部が異なるのみであり、図示を省略する。一致度演算終了後のステップ6Aにおいて、まずメモリ2bに記憶されている操作履歴から発話/取り消しスイッチ4bを操作する前の操作内容を確認する。発話/取り消しスイッチ4bの操作前に表示範囲の変更操作が行われた記録がある場合は、図10に示すように、表示範囲の認識対象語に対して1.0よりも高い重みを、ジョイスティック4aによる表示範囲のスクロール方向、すなわち表示範囲の変更方向にある認識対象語ほど高い重みを付け、表示範囲外の認識対象語に対しては1.0の重みを付ける。そして、各認識対象語の一致度(スコア)に重みを乗じ、重み付け後の認識対象語の中から一致度(スコア)の高い上位3個を選別する。一方、発話/取り消しスイッチ4bの操作前に表示範囲の変更操作が行われていない場合は、認識対象語に対する重み付けを行わず、表示範囲と表示範囲外のすべての認識対象語の中から一致度が高い上位3個の認識対象語を選別する。
【0048】
例えば図11に示すような地域名や駅名などの目的地の表示画面において、ジョイスティック4aにより目的地の表示範囲をスクロールする場合、所望の認識対象語が現れたらスクロールを止めることから、最後に現れた目的地、つまり認識対象語か、もしくはその近傍の認識対象語が利用者の所望の認識対象語である。この第7の実施の形態では、表示範囲のすべての認識対象語の重みを一律に設定せず、スクロール方向すなわち表示範囲の変更方向にある認識対象語ほど高い重みを設定する。換言すれば、表示範囲に現れた順に応じて重み付けを行い、最後に表示範囲に現れた認識対象語に対して最も高い重みを設定する。図11に示す表示範囲の例では、利用者の所望の目的地(認識対象語)「市ヶ谷」は、スクロールを止めたときに最後に現れた目的地の近くにあり、高い重みが設定されるため、認識結果として現れる確立を高くすることができる。
【0049】
《発明の第8の実施の形態》
利用者が音声認識による操作を行う前に、表示範囲の変更を行った場合のみ、表示範囲の認識対象語に対して表示範囲外の認識対象語に対する重みよりも高い重みを設定するとともに、表示範囲外の認識対象語の内の表示範囲の変更方向にある認識対象語に対しては、表示範囲から遠ざかるにしたがって表示範囲の認識対象語の重みから徐々に重みを低減するようにした第8の実施の形態を説明する。なお、この第8の実施の形態の構成は図1および図2に示す第1の実施の形態の構成と同様であり、説明を省略する。
【0050】
この第8の実施の形態の動作は、図9に示す第5の実施の形態の動作の内のステップ6Aの一部が異なるのみであり、図示を省略する。一致度演算終了後のステップ6Aにおいて、まずメモリ2bに記憶されている操作履歴から発話/取り消しスイッチ4bを操作する前の操作内容を確認する。発話/取り消しスイッチ4bの操作前に表示範囲の変更操作が行われた記録がある場合は、図12に示すように、表示範囲の目的地(認識対象語)に対して1.0よりも高い所定の重みを設定するとともに、表示範囲外の目的地(認識対象語)の内のジョイスティック4aによる表示範囲のスクロール方向、すなわち表示範囲の変更方向にある目的地(認識対象語)に対しては、表示範囲から遠ざかるにしたがって表示範囲の目的地(認識対象語)の重みから徐々に重みを低減し、最終的に1.0の重みに収束させる。そして、各認識対象語の一致度(スコア)に重みを乗じ、重み付け後の認識対象語の中から一致度(スコア)の高い上位3個を選別する。一方、発話/取り消しスイッチ4bの操作前に表示範囲の変更操作が行われていない場合は、認識対象語に対する重み付けを行わず、表示範囲と表示範囲外のすべての認識対象語の中から一致度が高い上位3個の認識対象語を選別する。
【0051】
地域名や駅名などの目的地のように認識対象語が多い場合は50音順に並べられていることが多く、利用者はジョイスティックや方向キーにより利用者の意図する認識対象語がある方向へ画面をスクロールする。このとき、利用者の意図する認識対象語がスクロール方向に存在する確立は高く、反対方向に存在する確立は低い。そこで、この第8の実施の形態では、表示範囲のスクロール方向、つまり表示範囲の変更方向にある表示範囲外の認識対象語に対しては、表示範囲から遠ざかるにしたがって表示範囲の認識対象語の重みから徐々に重みを低減し、最終的に1.0の重みに収束させる。一方、スクロール操作により表示範囲を通り過ぎてしまった認識対象語、つまり表示範囲の変更方向と反対の方向の表示範囲外の認識対象語に対しては、利用者の意図する認識対象語である可能性が低い語と見なし、1.0の重みを付ける。これにより、所望の認識対象語が認識される確立を向上させることができる。
【0052】
以上の実施の形態の構成において、マイク5が音声入力手段を、外部記憶装置2hが記憶手段を、モニター1aが表示手段を、音声入力ユニット2のCPU2aが重み付け手段、演算手段、変更手段、抽出手段および入れ替え手段をそれぞれ構成する。
【図面の簡単な説明】
【図1】 第1の実施の形態の構成を示す図である。
【図2】 図1に示す音声認識ユニットの詳細を示す図である。
【図3】 第1の実施の形態の音声認識処理プログラムを示すフローチャートである。
【図4】 第1の実施の形態の認識対象語の重み付け方法を示す図である。
【図5】 表示範囲の認識対象語の表示例を示す図である。
【図6】 重み付け後の一致度上位3個の認識対象語の表示例を示す図である。
【図7】 一致度の高い認識対象語からいずれかを選択する手順を示す図である。
【図8】 第2の実施の形態の認識対象語の重み付け方法を示す図である。
【図9】 第5の実施の形態の音声認識処理プログラムを示すフローチャートである。
【図10】 第7の実施の形態の認識対象語の重み付け方法を示す図である。
【図11】 目的地表示画面のスクロール時の様子を説明するための図である。
【図12】 第8の実施の形態の認識対象語の重み付け方法を示す図である。
【符号の説明】
1 ナビゲーションユニット
1a モニター
2 音声認識ユニット
2a CPU
2b メモリ
2c 信号処理装置
2d A/Dコンバーター
2e D/Aコンバーター
2f 出力アンプ
2g 入力デバイス
2h 外部記憶装置
3 GPSアンテナ
4 ナビリモコン
4a ジョイスティック
4b 発話/取り消しスイッチ
5 マイク
6 スピーカー

Claims (8)

  1. 音声を入力する音声入力手段と、
    複数の認識対象語を記憶する記憶手段と、
    前記記憶手段に記憶されている複数の認識対象語の内の、所定個数の認識対象語を表示する表示手段と、
    前記表示手段に表示されていない認識対象語に対しては、0より高い重み付けを行い、前記表示手段に表示されている認識対象語に対しては、常に前記表示手段に表示されていない認識対象語に対する重み付けよりも高い重み付けを行う重み付け手段と、
    前記重み付け手段による重み付け後の認識対象語と前記入力手段により入力された音声との一致度を演算する演算手段とを備え、
    一致度の演算結果に基づいて入力した音声を認識することを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記記憶手段は複数の認識対象語を所定の順に記憶しており、
    前記表示手段は、前記記憶手段に前記所定の順に記憶されている複数の認識対象語の中から、前記所定個数の認識対象語を含む範囲(以下、表示範囲と呼ぶ)の認識対象語を前記所定の順に表示することを特徴とする音声認識装置。
  3. 請求項2に記載の音声認識装置において、
    前記重み付け手段は、前記表示範囲外の認識対象語に対して、前記表示範囲から遠ざかるにしたがって前記表示範囲の認識対象語に対する重みから徐々に重みを低減することを特徴とする音声認識装置。
  4. 請求項2に記載の音声認識装置において、
    前記表示範囲を変更する変更手段を備え、
    前記重み付け手段は、前記変更手段により前記表示範囲の変更が行われた場合のみ、前記表示範囲の認識対象語に対して前記表示範囲外の認識対象語よりも高い重み付けを行うことを特徴とする音声認識装置。
  5. 請求項2に記載の音声認識装置において、
    前記表示範囲を変更する変更手段を備え、
    前記重み付け手段は、前記変更手段による前記表示範囲の変更にともなって前記表示範囲に現れた認識対象語の順に応じて重み付けを行い、前記表示範囲に最後に現れた認識対象語に最も高い重み付けを行うことを特徴とする音声認識装置。
  6. 請求項2に記載の音声認識装置において、
    前記表示範囲を変更する変更手段を備え、
    前記重み付け手段は、前記表示範囲の認識対象語に対して前記表示範囲外の認識対象語よりも高い重み付けを行うとともに、前記表示範囲の変更方向に存在する表示範囲外の認識対象語に対しては、前記表示範囲から遠ざかるにしたがって前記表示範囲の認識対象語に対する重みから徐々に重みを低減することを特徴とする音声認識装置。
  7. 請求項1〜6のいずれか1項に記載の音声認識装置において、
    前記演算手段により演算された一致度が高い順に所定個数の認識対象語を抽出する抽出手段を備え、
    前記抽出手段により抽出された認識対象語を前記表示手段に表示して最終的な認識対象語を選択可能にしたことを特徴とする音声認識装置。
  8. 請求項7に記載の音声認識装置において、
    前記抽出手段により抽出された認識対象語の中に前記表示範囲外の認識対象語が含まれていない場合は、前記抽出された認識対象語の内の最も一致度の低い認識対象語と前記表示範囲外の最も一致度の高い認識対象語とを入れ替える入れ替え手段を備えることを特徴とする音声認識装置。
JP2001077910A 2001-03-19 2001-03-19 音声認識装置 Expired - Fee Related JP4056711B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001077910A JP4056711B2 (ja) 2001-03-19 2001-03-19 音声認識装置
US10/087,980 US7076425B2 (en) 2001-03-19 2002-03-05 Voice recognition device with larger weights assigned to displayed words of recognition vocabulary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001077910A JP4056711B2 (ja) 2001-03-19 2001-03-19 音声認識装置

Publications (2)

Publication Number Publication Date
JP2002278588A JP2002278588A (ja) 2002-09-27
JP4056711B2 true JP4056711B2 (ja) 2008-03-05

Family

ID=18934592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001077910A Expired - Fee Related JP4056711B2 (ja) 2001-03-19 2001-03-19 音声認識装置

Country Status (2)

Country Link
US (1) US7076425B2 (ja)
JP (1) JP4056711B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100679042B1 (ko) * 2004-10-27 2007-02-06 삼성전자주식회사 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
JP4667138B2 (ja) * 2005-06-30 2011-04-06 キヤノン株式会社 音声認識方法及び音声認識装置
JP4804052B2 (ja) * 2005-07-08 2011-10-26 アルパイン株式会社 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
JPWO2010013369A1 (ja) 2008-07-30 2012-01-05 三菱電機株式会社 音声認識装置
US10083688B2 (en) * 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
JP6987447B2 (ja) * 2017-11-03 2022-01-05 アルパイン株式会社 音声認識装置
JP6790003B2 (ja) * 2018-02-05 2020-11-25 株式会社東芝 編集支援装置、編集支援方法及びプログラム
US20220366911A1 (en) * 2021-05-17 2022-11-17 Google Llc Arranging and/or clearing speech-to-text content without a user providing express instructions

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5329609A (en) * 1990-07-31 1994-07-12 Fujitsu Limited Recognition apparatus with function of displaying plural recognition candidates
JPH06337695A (ja) 1993-05-27 1994-12-06 Toshiba Corp 音声認識装置
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
JP4279909B2 (ja) 1997-08-08 2009-06-17 ドーサ アドバンスズ エルエルシー 音声認識装置における認識対象表示方式
US6192343B1 (en) * 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
JP3818352B2 (ja) 1998-12-25 2006-09-06 アイシン・エィ・ダブリュ株式会社 ナビゲーション装置及び記憶媒体
JP3670150B2 (ja) 1999-01-14 2005-07-13 日産車体株式会社 音声操作装置
JP3899719B2 (ja) 1999-01-29 2007-03-28 株式会社豊田自動織機 容量可変型圧縮機の制御弁
JP3563018B2 (ja) * 2000-07-21 2004-09-08 シャープ株式会社 音声認識装置および音声認識方法、並びに、プログラム記録媒体

Also Published As

Publication number Publication date
US7076425B2 (en) 2006-07-11
US20020133338A1 (en) 2002-09-19
JP2002278588A (ja) 2002-09-27

Similar Documents

Publication Publication Date Title
JP4304952B2 (ja) 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
CN106796786B (zh) 语音识别系统
WO2013005248A1 (ja) 音声認識装置およびナビゲーション装置
JP2004510239A (ja) ディクテーションとコマンドの区別を向上させる方法
JP4056711B2 (ja) 音声認識装置
JP2009230068A (ja) 音声認識装置及びナビゲーションシステム
AU760377B2 (en) A method and a system for voice dialling
JP2009265307A (ja) 音声認識装置及びこれを用いる車両システム
US7177806B2 (en) Sound signal recognition system and sound signal recognition method, and dialog control system and dialog control method using sound signal recognition system
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP4624825B2 (ja) 音声対話装置および音声対話方法
JP3849283B2 (ja) 音声認識装置
JP2000338991A (ja) 認識率信頼性表示機能付き音声操作電話装置及びその音声認識方法
CN111199738B (zh) 语音识别装置、语音识别方法以及语音识别程序
US20070294086A1 (en) Speech recognition apparatus and navigation system
JP2007183516A (ja) 音声対話装置及び音声認識方法
US20150192425A1 (en) Facility search apparatus and facility search method
KR100749088B1 (ko) 대화형 네비게이션 시스템 및 그 제어방법
JP2003177788A (ja) 音声対話システムおよびその方法
JP4498902B2 (ja) 音声認識装置
JP3291347B2 (ja) 音声認識装置
JPH11184495A (ja) 音声認識装置
JP2001075589A (ja) 音声認識方法及び音声認識装置
JP2018091911A (ja) 音声対話システム及び音声対話方法
JP4941494B2 (ja) 音声認識システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050221

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071212

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101221

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111221

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees