JP4736404B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP4736404B2
JP4736404B2 JP2004327568A JP2004327568A JP4736404B2 JP 4736404 B2 JP4736404 B2 JP 4736404B2 JP 2004327568 A JP2004327568 A JP 2004327568A JP 2004327568 A JP2004327568 A JP 2004327568A JP 4736404 B2 JP4736404 B2 JP 4736404B2
Authority
JP
Japan
Prior art keywords
voice
danger
voice recognition
amount
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004327568A
Other languages
English (en)
Other versions
JP2006138994A (ja
Inventor
充伸 神沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2004327568A priority Critical patent/JP4736404B2/ja
Publication of JP2006138994A publication Critical patent/JP2006138994A/ja
Application granted granted Critical
Publication of JP4736404B2 publication Critical patent/JP4736404B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は音声認識装置に係る。
従来、特定の条件が満足された場合に自動的にオンとなるスイッチを備えた音声認識装置が知られている。例えば、下記特許文献1には、使用者の体の所定部位の位置を検出し、その検出位置が設定された位置条件に合致した場合に音声認識装置のスイッチをオンにする構成が記載されている。
特開2000−338995号公報
しかしながら、上記特許文献1に記載された音声認識装置においては、使用者の体の所定部位が設定された位置条件に合致していなくても使用者が装置のスイッチをオンにしたい場合も起こりうるし、逆に、使用者の体の所定部位が設定された位置条件に合致し、装置が動作していても音声が入力されない場合も起こりうるので、装置は効果的かつ効率的に使用されない場合も起こりうる。
本発明は上記の問題に鑑みてなされたものであり、本発明の目的は、危険が検知されたときには必ず動作し、効果的かつ効率的に使用される音声認識装置を提供することにある。
音声入力手段によって入力された音声を情報信号に変換する音声認識手段と、検知手段が移動体の運転に関する危険を検知したときに該音声認識手段の動作を開始させるスイッチ手段とを有することを特徴とする音声認識装置を構成する。
検知手段は、例えば、使用者の機器に対する入力操作の情報処理に関する量が予め定められた閾値を超えた場合や、機器から使用者に対して提示される情報に関する量が予め定められた閾値を超えた場合、また使用者が操作する機器の個数が予め定められた長さの時間区間内で1を超えたときに、危険を検知したと判断する。
また、検知手段は、例えば、使用者によって少なくとも1つの機器の操作が継続的に行われており、更に、情報提示が行われたときや、使用者によって継続的に行われている少なくとも1つの機器の操作に関する情報処理量が予め定められた閾値を越えており、更に、上記とは別の機器の操作が行われたとき、また使用者によって継続的に行われている少なくとも1つの機器の操作に関する情報処理量が予め定められた閾値を越えており、更に、情報提示が行われたときに、危険を検知したと判断する。
また、検知手段は、例えば、センサ手段が該移動体の進行方向に障害物を検知したときや、センサ手段が該移動体の周囲に物体を検知したとき、また情報手段が該移動体の後進動作を検知しときに、危険を検知したと判断する。
また、検知手段は、例えば、情報手段が、該移動体を所定の位置に留める動作を検知したときや、使用者の視線が該移動体の進行方向以外の方向に向いたことを該視線検知手段が検知したときに、危険を検知したと判断する。
本発明の実施によって、危険が検知されたときには必ず動作し、効果的かつ効率的に使用される音声認識装置を提供することが可能となる。
本発明に係る音声認識装置は、検知手段によって危険が検知されたときに音声認識手段の動作を開始させるスイッチ手段を有し、危険の可能性がある場合は、使用者によって処理される情報量が増加するので、該スイッチ手段が自動的にオンとなるように、手動スイッチ以外の入力モードを増やした構成となっている。
以下に、本発明の実施の形態を図面を用いて詳細に説明する。
図1は本発明の基本構成を説明する図であり、図2は本発明に係る音声認識装置の構成を説明する図である。
図1において、音声を入力する音声入力手段である音入力手段10は、図2のマイクロフォン200と増幅装置210とAD変換装置220に対応し、入力された音声を音声信号に変換して音声認識手段20へ入力する。マイクロフォン200としては、一般的なマイクロフォンを用いればよく、マイクロフォン200とAD変換装置220との間にフィルタ(アンチエリアシングフィルタ)を設けて音声中の非目的成分を弱めることが望ましい。AD変換装置220としては、一般的なAD変換器を用いればよい。AD変換装置220によって音声信号は離散音声信号となり、音声認識手段20へ入力される。
図1の音声認識手段20は、図2の演算装置240と記憶装置250に対応し、音入力手段10から入力された音声信号を情報信号に変換する。このようにして、音声認識手段20は入力された音声を情報信号である操作信号R100に変換し、操作対象機器に対して送出する。演算装置240としては、CPU、MPU、DSP、FPGAなどと、一般的な動作回路を組み合わせたものが使用され、記憶装置250としては、キャッシュメモリ、メインメモリ、HDD、CD、MD、DVD、光ディスク、FDDなど、一般的な記憶媒体が使用される。
図1の検知手段30は、図2の演算装置240と記憶装置250とセンサ270に対応し、危険を検知する。センサ270は、電波、光、超音波による一般的な物体を検知するセンサであり、光による検知の場合には、電子式カメラ、例えば、連続的な画像を検知することができる一般的な電子式カメラとAD変換装置の組合せなどによって構成される。
図1のスイッチ手段40は、図2のスイッチ260と演算装置240と記憶装置250とに対応し、検知手段30によって危険が検知されたら音声認識手段20の認識動作を開始させる。スイッチ260としては、タッチパネル、キーボード、ジョグダイアル、PTTスイッチ(Push To Talk Switch)、その他、各種スイッチが単独、或いは組み合わせて用いられる。
検知手段30によって危険が検知されたら、スイッチ手段40がオンとなり、音声認識手段20の認識動作が開始される。図2のタイマ280によって終了が告知されたら音声認識手段20の認識動作が停止される。また、スイッチ260(例えば、PTTスイッチ)のオン/オフ動作と演算装置240から出力される動作開始/停止信号とが併用される。すなわち、手動スイッチと自動スイッチとが併用される。
ここで用いる音声認識手段20は、動作中、使用者の音声入力を常に待ち受け、音入力が検知されたとき、それが音声であることを検知して、音声であった場合に音声認識処理を行う機能が必要となる。このため、車室内のような雑音が多い環境では雑音除去機能や音声と雑音を区別する機能を有していることが望ましい。
本実施の形態によって、危険の可能性があった場合、音声認識手段20が動作状態になるので、使用者の手がふさがっていても、使用者は、音声を用いて機器操作することができるため、危険可能性を回避または低減することができる。
図3は、図1に示した本発明の基本構成に、次発話予測手段が付加されている場合を説明する図である。図において、音入力手段110と音声認識手段120と検知手段130とは、それぞれ、図1における音入力手段10と音声認識手段20と検知手段30と同一のものである。
次発話予測手段140は、図2の演算装置240と記憶装置250とに対応し、検知手段130によって危険と判断されたとき、検知手段130から得られる検知信号の内容から使用者の次発話を予測し、記憶手段150に記憶されている複数の言語辞書の中から適切な照合用の言語辞書を選択する。言語辞書は、音声入力された言語を操作信号と対応させるものである。
記憶手段150は、図2の記憶装置250に対応し、複数の言語辞書を記憶する。音声認識手段120は、音声入力手段110によって入力された音声を次発話予測手段140によって選択された照合用の言語辞書と照合して情報信号に変換する。なお、図1におけるスイッチ手段40は、図3において、図示を省略してある。
図3に示した構成において、音声入力手段110によって入力された音声と対照される照合用の言語辞書を記憶する領域を記憶手段150中に設け、次発話予測手段140が、その領域に記憶されている言語辞書を、各時点において適切な照合用の言語辞書で置き換えるようにすればよい。このような照合用の言語辞書の入れ替えによって、照合用の言語辞書の動的変更が可能となるため、緊急時の音声認識精度が向上する。
照合用の言語辞書の動的変更の事例としては次のようなものがある。
(1)車両操作中の機器操作に必要なコマンド(ACC、ウィンカ、空調機、レーンキープ、電話などに関するコマンド)を上位階層にする。
(2)緊急対応のコマンド(ブレーキ(オートマ装置の踏み間違い対応)、ワイパ、車外電子式カメラ切替、クラクション(鳴らし方がわからない場合もある)、機器停止などに関するコマンド)を上位階層にする。
(3)必要の無いコマンド(動作させてはいけないコマンドや目的地設定、経由地設定、メール入力などに関するコマンド)をインセンシティブにする。
このようにして、危険を検知したとき、照合用の言語辞書を入れ替え、認識率を高めることができる。
図4は、図1に示した本発明の基本構成に、センサ手段61、情報手段62および視線検知手段63が付加されている場合を説明する図である。図において、図1に示した構成要素と同一のものには同一の符号を付し、その説明を省略する。
センサ手段61は、図2のセンサ270に対応し、センサ270は、電波、光、超音波による一般的な物体を検知するセンサであり、光による検知の場合には、電子式カメラ、例えば、連続的な画像を検知することができる一般的な電子式カメラとAD変換装置の組合せがセンサ270として用いられる。このセンサ手段61は、本音声認識装置が移動体(例えば車体)に設置された場合に、その移動体周辺の物体、例えば、移動体の進行方向に存在する障害物、移動体の周囲に存在する物体などを検知する。
情報手段62は、図2の演算装置240と記憶装置250とに対応し、本音声認識装置が移動体(例えば車体)に設置された場合に、その移動体の移動体の操作情報、例えば、ステアリング、アクセル、ブレーキ、窓、空調機、オーディオ機器の操作状態などに関する情報を検知する。
視線検知手段63は、図2の演算装置240と記憶装置250とセンサ270とに対応し、本音声認識装置が移動体(例えば車体)に設置された場合に、使用者の視線を検知する。
センサ手段61が出力する検知信号、情報手段62が出力する操作状態に関する信号および視線検知手段63が出力する視線検知信号は検知手段30に入力される。
図5は、図3に示した本発明の基本構成に、図4の場合と同様に、センサ手段61、情報手段62および視線検知手段63が付加されている場合を示している。この場合に、付加された各手段の動作は、図4の場合と同様であるので、その説明を省略する。
図4または5に示した構成によって、次のような場合に、検知手段30または130が危険を検知したと判断することが可能となる。
(1)センサ手段61が移動体の進行方向に障害物を検知したとき。
(2)センサ手段61が移動体の周囲に物体を検知したとき。
(3)情報手段62が移動体の後進動作を検知したとき。
(4)情報手段62が、移動体を所定に位置に留める動作(移動体が車体の場合は駐車する動作)を検知したとき。
(5)使用者の視線が移動体の進行方向以外の方向に向いたことを視線検知手段63が検知したとき。
上記(1)の場合は、進行方向の物体に衝突しないように注意することで情報処理量が増加し、危険になる可能性があるので、危険と判断し、スイッチ手段40をオンにして、音声認識手段20または120の動作を開始させる。障害物を検知するセンサ手段61としては、超音波センサ、電子式カメラなどを用いることができる。
上記(2)の場合は、周囲の物体に気付いた場合に情報処理量が増加し、危険となる可能性があるので、危険と判断し、スイッチ手段40をオンにして、音声認識手段20または120の動作を開始させる。
上記(3)の場合は、単独の操作で負荷が高い場合の例であり、後進の場合は運転負荷が高いため、危険と判断し、スイッチ手段40をオンにして、音声認識手段20または120の動作を開始させる。このように、運転者が多重課題に取り組んでいる場合は、自動的に音声を用いて機器操作ができるようにする。このことにより、運転者の情報処理能力のオーバーフローによる危険可能性を回避、または低減できる。
上記(4)の場合は、単独の操作で負荷が高い場合の他の例であり、例えば、駐車動作を危険と定義し、その危険が検知されればスイッチ手段40をオンにして、音声認識手段20または120の動作を開始させる。
上記(5)の場合は、車両走行中に使用者の視線が進行方向以外に向いている場合は使用者に対して高い負荷がかかっている可能性が高いので、進行方向以外に視線を向ける動作を危険と定義し、その危険が検知されればスイッチ手段40をオンにして、音声認識手段20または120の動作を開始させる。視線検知手段63として電子式カメラが必要となる。
図6は、図1に示した本発明の基本構成に、時間計測手段70が付加されている場合を説明する図である。図において、図1に示した構成要素と同一のものには同一の符号を付し、その説明を省略する。
時間計測手段70は、図2のタイマ280に対応し、予め定められた一定時間が経過したらスイッチ手段40に告知する。時間計測手段70としては時間が計測できるものであれば良い。
このような構成を用いることにより、予め定められた一定時間経過中に音声入力が無い場合はスイッチ手段40を待機状態(危険が検知されるまではオフ状態にあり、危険が検知されるとオン状態になる状態)にすることができる。これによって、長時間、音声認識装置をオンにしておくと誤動作の可能性が高くなるため、一定時間内に入力が無い場合にはオフにし、音声認識装置の誤動作を防ぐすることができる。
また、本構成に加えて、図3の次発話予測手段140が具備されている場合には、予め定められた一定時間経過中に音声入力が無い場合は次発話予測手段140によって選択された照合用の言語辞書を一つ前に選択された照合用の言語辞書で置き換えることができる。これによって、照合用の言語辞書の状態が複雑に推移することで使用者が混乱することを防ぐことができる。
図7は、図1に示した本発明の基本構成に、音出力手段80が付加されている場合を説明する図である。図において、図1に示した構成要素と同一のものには同一の符号を付し、その説明を省略する。音出力手段80は、一般的なスピーカ、アンプ、DA変換装置および上記の演算装置、記憶装置を組み合わせて構成される。これによって、使用者に対し、音声認識装置の動作有無、言語辞書の変更内容などをガイダンス音を用いて告知する。例えば、スイッチ手段40のオン動作およびオフ動作ならびに照合用の言語辞書の変更があった場合にガイダンス音を作成して出力することができる。
このようにして、使用者に対して音声認識システムの状態を知らせることで、使用者の操作誤りを防ぐことができ、音を用いることで、使用者は表示を見なくとも変更内容を認知することができる。
図8は、図1に示した本発明の基本構成の動作フローを示すフロー図である。図中、S210〜S270はそれぞれのステップを表す。
各ステップの動作は以下の通りである。
S210:システムの初期化、メモリへの読込作業を行う。
S220:PTTスイッチのオン/オフを判断。オンの場合はS225へ進み、オフの場合はS230へ進む。
S225:音声認識手段によって音声認識処理を開始する。
S230:検知手段によって危険を検知する。危険が検知されたらS240へ進み、危険が検知されなければS220へ戻る。
S240:音声認識手段を起動し入力待ち受け状態とする。同時に、タイマtを初期化し時間計測を開始する。
S250:音声入力を検知する。音声入力が検知された場合はS255へ進み、音声入力が検知されない場合はS260へ進む。
S255:タイマtを初期化(再び0からカウント)し、S250へ戻る。
S260:タイマtが予め定められた最大待機時間を超えた場合はS270へ進み、超えていない場合はS250へ戻る。
S270:音声認識手段を停止し、音声入力待ち受け状態を解除する。
図9は、図3に示した本発明の構成例の動作フローを示すフロー図である。図中、S210〜S238はそれぞれのステップを表す。
ステップS210の動作は図8の場合と同じであり、ステップS232〜S238の動作は以下の通りである。
S232:使用者による操作情報、システムから使用者に提示される提示情報を取得する。
S233:予め設定された危険の条件を満たしていればS238へ進み、満たしていない場合はS232へ戻る。
S238:「危険」の判断をスイッチ手段40および次発話予測手段140へ送出する。
図10は、図3に示した本発明の構成例において、音声入力手段110によって入力された音声と対照される照合用の言語辞書を記憶する領域を記憶手段150中に設け、次発話予測手段140が、その領域に記憶されている言語辞書を、各時点において適切な照合用の言語辞書で置き換える場合の動作フローを示すフロー図である。
新しく付加されたステップS245、S275の動作は以下の通りである。
S245:危険と判断された情報に基づき、時刻n-1の言語辞書1を時刻nの言語辞書1に変更する。ここに、言語辞書1は照合用の言語辞書である。
S275:時刻nの言語辞書1を、時刻n-1の言語辞書1へ戻す。
なお、D111は時刻0における言語辞書1であり、D141は時刻nにおける言語辞書1であり、D151は時刻n-1における言語辞書1である。
本発明において、危険を検知する一つの方法として、危険に関連する量を求め、その量が予め定められた閾値を超えた場合に、危険を検知したと判断する方法を用いることができる。この方法を、仮に、閾値監視法と呼び、上記危険に関連する量を閾値監視対象と呼ぶ。この閾値監視法の具体例および照合用の言語辞書の変更例を実施例として以下に説明する。
(実施例1)
図11は、ステアリングに関する閾値監視法を説明する図である。図の縦軸は2つあり、その1つはステアリングの操舵角である切角θであり、他の1つは切角θの変化率Δθであり、横軸は時刻である。この場合に、θおよびΔθが閾値監視対象であり、使用者の機器に対する入力操作の情報処理に関する量に該当する。
検知手段30または130が危険と判断する場合の例を以下に示す。
(1)時刻t21〜t22間は、Δθが閾値Aを超えたとみなして危険と判断する。
(2)時刻t11〜t12間は、Δθが閾値Cを超えたとみなして、他の操作が行われたときには危険と判断する。
(3)時刻t41〜t42間は、切角θの絶対値が閾値Aを超えたとみなして危険と判断する。
(4)時刻t31〜t32間は、切角θの絶対値が閾値Cを超えたとみなして、他の操作が行われたときには危険と判断する。ただし、θに関する閾値A、Cと、Δθ関する閾値A、Cとは、それぞれ相異なるものとする。
Δθとしては、下記式(1.1)、(1.2)、(1.3)で表される∂θを用いることができる。
Figure 0004736404
上記式(1.1)においては一つ前の信号との差分を用い、式(1.2)においてはN個前の信号から1つ前の信号の期待値との差分を用い、式(1.3)においてはi番目の信号とi番目の信号の予測値(線形予測、テイラー展開など)との差分を用いている。
閾値を超えたときは危険と判断される量すなわち閾値監視対象として、下記式(1.4)で表される情報エントロピー(情報量の期待値)を用いてもよい。
Figure 0004736404
ここに、jは∂θminから∂θmaxまでをブロック分割したときのブロック番号、pはブロックjにおける∂θの出現確率を表す。この情報エントロピーが閾値を超えたときは危険と判断する。
図12は、アクセルに関する操作量を閾値監視対象とする場合を説明する図である。図の縦軸は2つあり、その1つはスロットル開度Sであり、他の1つはスロットル開度Sの変化率の絶対値ΔSであり、横軸は時刻である。この場合に、SおよびΔSが閾値監視対象であり、使用者の機器に対する入力操作の情報処理に関する量に該当する。
検知手段30または130が危険と判断する場合の例を以下に示す。
(1)時刻t61〜t62間は、ΔSが閾値Aを超えたとみなして危険と判断する。
(2)時刻t51〜t52間は、ΔSが閾値Cを超えたとみなして、他の操作が行われたときには危険と判断する。
(3)時刻t81〜t82間は、Sが閾値Aを超えたとみなして危険と判断する。
(4)時刻t71〜t72間は、Sが閾値Cを超えたとみなして、他の操作が行われたときには危険と判断する。ただし、Sに関する閾値A、Cと、ΔSに関する閾値A、Cとは、それぞれ相異なるものとする。
ΔSとしては、下記式(2.1)、(2.2)、(2.3)で表される∂Sを用いることができる。
Figure 0004736404
上記式(2.1)においては一つ前の信号との差分を用い、式(2.2)においてはN個前の信号から1つ前の信号の期待値との差分を用い、式(2.3)においてはi番目の信号とi番目の信号の予測値(線形予測、テイラー展開など)との差分を用いている。
また、上記式(1.4)をこの場合に当て嵌めて得る情報エントロピーが閾値を超えたときは危険と判断してもよい。
図13は、ブレーキに関する操作量を閾値監視対象とする場合を説明する図である。図の縦軸は2つあり、その1つはブレーキ踏込量bであり、他の1つはブレーキ踏込量bの変化率Δbであり、横軸は時刻である。この場合に、bおよびΔbが閾値監視対象であり、使用者の機器に対する入力操作の情報処理に関する量に該当する。
検知手段30または130が危険と判断する場合の例を以下に示す。
(1)時刻ta1〜ta2間は、Δbが閾値Aを超えたとみなして危険と判断する。
(2)時刻t91〜t92間は、Δbが閾値Cを超えたとみなして、他の操作が行われたときには危険と判断する。
また、図12の場合と同様に、bが閾値Aを超えたとみなして危険と判断し、bが閾値Cを超えたとみなして、他の操作が行われたときには危険と判断する。ただし、bに関する閾値A、Cと、Δbに関する閾値A、Cとは、それぞれ相異なるものとする。
Δbとしては、下記式(3.1)、(3.2)、(3.3)で表される∂bを用いることができる。
Figure 0004736404
上記式(3.1)においては一つ前の信号との差分を用い、式(3.2)においてはN個前の信号から1つ前の信号の期待値との差分を用い、式(3.3)においてはi番目の信号とi番目の信号の予測値(線形予測、テイラー展開など)との差分を用いている。
また、上記式(1.4)をこの場合に当て嵌めて得る情報エントロピーが閾値を超えたときは危険と判断してもよい。
使用者の機器に対する入力操作の情報処理に関する量としては、一般に、例えば、操作回数、操作時間、入力された情報量、入力されたコマンドの量、単位時間当たりの操作回数、操作時間、入力された情報量、入力されたコマンドの量、入力情報に関する情報エントロピー、操作対象数などが候補として挙げられる。
上記のようにして、操作対象機器の操作量から危険を定義できる。
上記の閾値Cを用いる危険の判断のように、使用者によって継続的に行われている少なくとも1つの機器の操作に関する情報処理量が予め定められた閾値(いまの場合はC)を越えており、更に、上記とは別の機器の操作が行われたとき、検知手段30または130が危険と判断する。すなわち、使用者が1つ以上の課題を行い、かつ、該課題が使用者にとって負荷が高いとき、更に、別の機器操作が行われると閾値監視対象が閾値Aを超える可能性があるので、このような場合は予め音声認識手段20または120を動作させる。なお、上記の各場合において、同じ閾値監視対象に対する閾値Aは閾値Cよりも大きいとする。このようにして、操作対象機器が増加する可能性がある場合に危険を定義できる。
また、この閾値Cを用いる危険の判断の場合に、使用者によって継続的に行われている少なくとも1つの機器の操作に関する情報処理量が予め定められた閾値(いまの場合はC)を越えており、更に、情報提示が行われたとき、検知手段30または130が危険を検知したと判断してもよい。すなわち、使用者が1つ以上の課題を行い、かつ、該課題が使用者にとって負荷が高いとき、更に、情報提示が行われたとき、使用者は高い負荷の複数の課題を行う可能性があるため、音声認識を動作させる。このようにして、使用者による情報処理量が増加する可能性がある場合に危険を定義できる。
なお、上記の例においては、閾値監視対象として、それぞれ、1種類を用いているが、2種類以上、例えば、ステアリングの操舵角、スロットル開度、ブレーキ踏込量のうちの2つを、単位を合わせて、合計したものを閾値監視対象として用いてもよい。
(実施例2)
本実施例においては、使用者の機器に対する入力操作の情報処理に関する量である情報処理量を閾値監視対象とし、その情報処理量を予め作成してある表によって計算し、その情報処理量が閾値を超えたときは、検知手段30または130が危険を検知したと判断する。すなわち、
(1)予め情報処理量(予想される平均値、最大値など)を記憶しておく。
(2)操作に関する情報から情報処理量を下記例のように計算する。
情報処理量算出のために使用する表の一例を表1に示す。
Figure 0004736404
閾値監視は、例えば、次のようにする。すなわち、
閾値設定:閾値=25とする。
(例1)60km/hで直進している。表1より、
ハンドル操作の情報処理量=5
アクセル操作の情報処理量=5
合計情報処理量 5+5=10<25=閾値となり、危険と判断せず。
(例2)60km/hで直進走行中にカーナビの操作を開始した。表1より、
ハンドル操作の情報処理量=5
アクセル操作の情報処理量=5
カーナビ操作の情報処理量=20
合計情報処理量 (5+5)+20=30>25=閾値となり、危険と判断する。
また、本実施例の方法を実施例1の方法と併用してもよく、その場合には、閾値監視対象となる量の単位を一致させておく必要があり、そのためには、例えば、情報エントロピー、情報量などを用いればよい。
(実施例3)
本実施例においては、操作対象機器数または操作の種類によって危険を判断する。例えば、
(例3)定速走行中、予め定められた長さの時間区間(短く設定する)内で、ワイパー操作ボタンを触ることと、移動に関する操作以外の機器の操作とが検出された。この場合には、操作対象数=2>1とし、検知手段30または130が危険を検知したと判断する。
(例4)ギアレバーがリバースに設定された。この場合には、運転操作のための情報処理量が多く、かつ、視線も進行方向以外を確認する必要があるので、危険と判断する。
例3と同様に、予め定められた長さの時間区間に操作対象となる機器が2つを超えたとき、危険と判断する。例えば、運転中にオーディオ機器を操作するなどの場合に、検知手段30または130が危険を検知したと判断する。
上記のようにして、操作対象機器の数から危険を定義できる。
(実施例4)
本実施例においては、操作対象数と情報提示数とを用いて危険を判断する。すなわち、閾値監視対象を操作対象数と情報提示数との合計とする。例えば、
(例5)走行中にVICS情報(道路交通情報通信システムによる情報)が提示された。この場合には、操作対象数+情報提示数=2>1となり、危険と判断する。
このように、使用者によって少なくとも1つの機器の操作が継続的に行われており、更に、情報提示が行われたとき、検知手段30または130が危険を検知したと判断する。
このように、使用者が機器操作中に、新たな情報提示があった場合は、使用者が複数の課題を同時に行う可能性があるため、音声認識を動作させる。ここで「機器」とは、個別のスイッチに対応する機器(カーナビ画面をスクロールさせるためのジョイスティックなど)、一つの目的のために複数の操作が必要な機器(車両運転に関する機器、アクセル、ブレーキ、ステアリングなど)の何れにも対応する。
上記のようにして、操作対象機器および使用者に対して提示される情報から危険を定義できる。
(実施例5)
図14は、情報提示量を閾値監視対象とする場合を説明する図である。この場合には、情報提示量として、例えば、機器から使用者に対して提示される情報に関する量を用いる。図の縦軸は2つあり、その1つは情報提示量Iであり、他の1つは情報提示量Iの変化率ΔIであり、横軸は時刻である。情報提示量としては、単位時間当たりの音声情報に含まれるチャンク数または言語情報におけるビット数などを採用することができる。
情報提示量I、またはその変化率ΔIが閾値Bを越えたとき、検知手段30または130が危険を検知したと判断する。ただし、Iに関する閾値Bと、ΔIに関する閾値Bとは相異なるものとする。
ΔIとしては、下記式(4.1)、(4.2)、(4.3)で表される∂Iを用いることができる。
Figure 0004736404
上記式(4.1)においては一つ前の信号との差分を用い、式(4.2)においてはN個前の信号から1つ前の信号の期待値との差分を用い、式(4.3)においてはi番目の信号とi番目の信号の予測値(線形予測、テイラー展開など)との差分を用いている。
また、上記式(1.4)をこの場合に当て嵌めて得る情報エントロピーが閾値を超えたときは危険と判断してもよい。
上記のように、本実施例においては、提示される情報量を計算して一定の閾値を超えた場合には危険と判断する。ここで、提示情報量大は使用者の情報処理量大を意味するものではない。しかしながら、「提示情報量小のときよりも提示情報量大のときの方が、使用者の情報処理量が大きくなる可能性が高い」ことは言える。情報に関する量とは、例えば、提示回数、提示時間、提示された情報量、提示された情報のチャンク(主観的な情報のまとまり)数、提示された情報の内容(新旧、車両走行などへの関与)、同時に提示された情報の数などが候補として挙げられる。なお、チャンクの説明は、例えば、ホームページhttp://www.geocities.co.jp/CollegeLife-Cafe/1677/psychology/glossary/psychoword_TAGYOU_LABEL.html#chunkに記載されている。
上記のようにして、使用者に対する情報提示量から危険を定義できる。
なお、上記機器から使用者に対して提示される情報に関する量の構成成分としては、ガイダンス音の提示量、提示時間または提示内容、もしくは、表示の提示量、提示内容または提示時間などを用いることができる。
なお、上記の例においては、閾値監視対象として、それぞれ、1種類を用いているが、2種類以上、例えば、ガイダンス音の提示量、提示時間または提示内容、もしくは、表示の提示量、提示内容または提示時間のうちの2つを、単位を合わせて、合計したものを閾値監視対象として用いてもよい。
(実施例6)
本実施例は照合用の言語辞書の変更の具体例である。
図15は、次発話予測された語彙(辞書形式となっている)を追加する場合を示している。図において、N番目の照合用の言語辞書であるネットワーク文法言語辞書には、シフトがバックに設定された場合に予測される次発話予測語彙(ハザード、ウィンカ右、ウィンカ左、オーディオOFF)が存在していないので、シフトがバックに設定された場合には、その次発話予測語彙がN番目のネットワーク文法言語辞書の第1階層に追加され、N+1番目の照合用の言語辞書であるネットワーク文法言語辞書が作成される。
図16は、照合用の言語辞書の内容を次発話予測された語彙と入れ替える場合を示している。図において、N番目のネットワーク文法言語辞書には、シフトがバックに設定された場合に予測される次発話予測語彙(ハザード、ウィンカ右、ウィンカ左、オーディオOFF)が存在していないので、シフトがバックに設定された場合には、その次発話予測語彙がN番目のネットワーク文法言語辞書の第1階層に追加され、それ以外の語彙はインセンシティブになり、N+1番目のネットワーク文法言語辞書が作成される。
危険が予測されているときは、システムによる誤認識が使用者にとって致命的な混乱を引き起こす可能性がある。このため、危険が、危険を予測していないときより少なくなる(待ち受け語彙が少ないほど一般に認識率が高くなる)ように語彙を変更したい。そこで、本例では、次発話予測された語彙だけを用いるように変更している。別の手法としては、N番目のネットワーク文法言語辞書における語彙よりN+1番目のネットワーク文法言語辞書における語彙が少なくなることで、目的を達成することができる。
図17は、次発話予測された語彙の出現確率が高くなるように変更する場合を示している。図において、N番目のネットワーク文法言語辞書に、シフトがバックに設定された場合に予測される次発話予測語彙(ハザード、ウィンカ右、ウィンカ左、オーディオOFF)は存在しているが、その出現確率は他の語彙と変わらないので、シフトがバックに設定された場合には、その次発話予測語彙が、N+1番目のネットワーク文法言語辞書においては、その出現確率が高くなるように変更されている。このように、次発話予測された語彙の出現確率が高くなるように変更することで、次発話予測された語彙の誤認識率を低下させることができる。
その他の方法として、予め定められた一定の時間経過中に、使用者による音声入力が無い場合は、次発話予測手段140によって選択された照合用の言語辞書であるN番目の辞書を一つ前に選択された照合用の言語辞書であるN−1番目の辞書で置き換えることによっても、語彙の誤認識率を低下させることができる。この場合には、音声認識装置が時間計測手段70を有している必要がある。
以上の説明から明らかなように、本発明の実施によって、PTTスイッチを動作させることなく音声入力が可能となることから、運転中にハンドフリーでの操作が可能となる。また、音声認識のための言語辞書を状況に応じて入れ替えることで、認識精度を向上させることができる。
音声認識による入力システムの長所の一つとして、他の入力モードとの並列化が挙げられる。本発明では、これらのシーンを積極的に抽出して、他の入力モードとの並列化が必要な場合に音声認識装置を動作させる。ここで、並列化が必要な場合とは、使用者に要求される情報処理量が増加した場合(操作対象の増加、情報提示内容の変化)と定義し、情報処理量を検知する検知手段を適用する。
本発明の基本構成を説明するブロック図である。 本発明に係る音声認識装置の構成を説明する図である。 本発明の次発話予測手段を有する構成例を説明するブロック図である。 本発明のセンサ手段を有する構成例を説明するブロック図である。 本発明の次発話予測手段とセンサ手段とを有する構成例を説明するブロック図である。 本発明の時間計測手段を有する構成例を説明するブロック図である。 本発明の音出力手段を有する構成例を説明するブロック図である。 本発明の基本構成の動作フローを示すフロー図である。 本発明の次発話予測手段を有する構成の動作フローを示すフロー図である。 本発明の次発話予測手段を有する構成における言語辞書変更の動作フローを示すフロー図である。 ステアリング操作に関する閾値監視の例を示す図である。 スロットル操作に関する閾値監視の例を示す図である。 ブレーキ操作に関する閾値監視の例を示す図である。 情報提示量に関する閾値監視の例を示す図である。 言語辞書変更例を示す図である。 言語辞書変更例を示す図である。 言語辞書変更例を示す図である。
符号の説明
10:音入力手段、20:音声認識手段、30:検知手段、40:スイッチ手段、61:センサ手段、62:情報手段、63:視線検知手段、70:時間計測手段、80:音出力手段、110:音入力手段、120:音声認識手段、130:検知手段、140:次発話予測手段、150:記憶手段、200:マイクロフォン、210:増幅装置、220:AD変換装置、240:演算装置、250:記憶装置、260:スイッチ、270:センサ、280:タイマ。

Claims (11)

  1. 音声を入力する音声入力手段と、該音声入力手段によって入力された音声を情報信号に変換する音声認識手段とを有し、更に、移動体の運転に関する危険を検知する検知手段と、該検知手段が危険を検知したときに該音声認識手段の動作を開始させるスイッチ手段とを有し、
    使用者の機器に対する入力操作の情報処理に関する量が予め定められた閾値を超えた場合に前記検知手段が危険を検知したと判断することを特徴とする音声認識装置。
  2. 音声を入力する音声入力手段と、該音声入力手段によって入力された音声を情報信号に変換する音声認識手段とを有し、更に、移動体の運転に関する危険を検知する検知手段と、該検知手段が危険を検知したときに該音声認識手段の動作を開始させるスイッチ手段とを有し、
    機器から使用者に対して提示される情報に関する量が予め定められた閾値を超えた場合に前記検知手段が危険を検知したと判断することを特徴とする音声認識装置。
  3. 音声を入力する音声入力手段と、該音声入力手段によって入力された音声を情報信号に変換する音声認識手段とを有し、更に、移動体の運転に関する危険を検知する検知手段と、該検知手段が危険を検知したときに該音声認識手段の動作を開始させるスイッチ手段とを有し、
    使用者が操作する機器の個数が予め定められた長さの時間区間内で1を超えたときに前記検知手段が危険を検知したと判断することを特徴とする音声認識装置。
  4. 音声を入力する音声入力手段と、該音声入力手段によって入力された音声を情報信号に変換する音声認識手段とを有し、更に、移動体の運転に関する危険を検知する検知手段と、該検知手段が危険を検知したときに該音声認識手段の動作を開始させるスイッチ手段とを有し、
    使用者によって継続的に行われている少なくとも1つの機器の操作に関する情報処理量が予め定められた閾値を越えており、更に、上記とは別の機器の操作が行われたときに前記検知手段が危険を検知したと判断することを特徴とする音声認識装置。
  5. 音声を入力する音声入力手段と、該音声入力手段によって入力された音声を情報信号に変換する音声認識手段とを有し、更に、移動体の運転に関する危険を検知する検知手段と、該検知手段が危険を検知したときに該音声認識手段の動作を開始させるスイッチ手段とを有し、
    使用者によって継続的に行われている少なくとも1つの機器の操作に関する情報処理量が予め定められた閾値を越えており、更に、情報提示が行われたときに前記検知手段が危険を検知したと判断することを特徴とする音声認識装置。
  6. 請求項1〜の何れか一項に記載の音声認識装置において、複数の言語辞書を前記危険の種類に対応付けて記憶する記憶手段と、前記検知手段が危険を検知したときに該検知手段から得られる検知信号の内容である危険の種類に応じて該複数の言語辞書の中から照合用の言語辞書を選択する次発話予測手段とが具備され、前記音声認識手段は前記音声入力手段によって入力された音声を該次発話予測手段によって選択された照合用の言語辞書と照合して情報信号に変換することを特徴とする音声認識装置。
  7. 請求項1に記載の音声認識装置おいて、ステアリングの操舵角、スロットル開度またはブレーキ踏込量が前記使用者の機器に対する入力操作の情報処理に関する量の構成成分となっていることを特徴とする音声認識装置。
  8. 請求項2に記載の音声認識装置おいて、ガイダンス音の提示量、提示時間または提示内容、もしくは、表示の提示量、提示内容または提示時間が前記機器から使用者に対して提示される情報に関する量の構成成分となっていることを特徴とする音声認識装置。
  9. 請求項1〜の何れか一項に記載の音声認識装置において、時間を計測する時間計測手段が具備され、予め定められた一定時間経過中に音声入力が無い場合は前記スイッチ手段を待機状態にすることを特徴とする音声認識装置。
  10. 請求項に記載の音声認識装置において、時間を計測する時間計測手段が具備され、予め定められた一定時間経過中に音声入力が無い場合は前記次発話予測手段によって選択された照合用の言語辞書を一つ前に選択された照合用の言語辞書で置き換えることを特徴とする音声認識装置。
  11. 請求項1〜10の何れか一項に記載の音声認識装置において、前記スイッチ手段のオン動作およびオフ動作ならびに前記照合用の言語辞書の変更があった場合にガイダンス音を作成して出力する音出力手段が具備されていることを特徴とする音声認識装置。
JP2004327568A 2004-11-11 2004-11-11 音声認識装置 Active JP4736404B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004327568A JP4736404B2 (ja) 2004-11-11 2004-11-11 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004327568A JP4736404B2 (ja) 2004-11-11 2004-11-11 音声認識装置

Publications (2)

Publication Number Publication Date
JP2006138994A JP2006138994A (ja) 2006-06-01
JP4736404B2 true JP4736404B2 (ja) 2011-07-27

Family

ID=36619877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004327568A Active JP4736404B2 (ja) 2004-11-11 2004-11-11 音声認識装置

Country Status (1)

Country Link
JP (1) JP4736404B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4973722B2 (ja) * 2009-02-03 2012-07-11 株式会社デンソー 音声認識装置、音声認識方法、及びナビゲーション装置
JP6363987B2 (ja) * 2015-12-24 2018-07-25 日本電信電話株式会社 音声処理システム、音声処理装置および音声処理プログラム
JP6806627B2 (ja) * 2017-05-18 2021-01-06 マレリ株式会社 情報制御装置
JP6401821B1 (ja) * 2017-05-23 2018-10-10 カルソニックカンセイ株式会社 運転負荷推定装置
MX2021001243A (es) * 2018-08-06 2021-03-31 Nissan Motor Dispositivo de dialogo por voz, sistema de dialogo por voz, y metodo de control para sistema de dialogo por voz.
CN113270099B (zh) * 2021-06-29 2023-08-29 深圳市欧瑞博科技股份有限公司 智能语音提取方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002055696A (ja) * 2000-08-11 2002-02-20 Mitsubishi Motors Corp 車両用音声操作装置
JP2003195891A (ja) * 2001-12-27 2003-07-09 Denso Corp 電子機器
JP2004061252A (ja) * 2002-07-26 2004-02-26 Equos Research Co Ltd 車載装置、データ作成装置、及びデータ作成プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2807242B2 (ja) * 1988-11-28 1998-10-08 株式会社東芝 音声認識装置
JP3119510B2 (ja) * 1991-10-28 2000-12-25 株式会社リコー 音声認識装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002055696A (ja) * 2000-08-11 2002-02-20 Mitsubishi Motors Corp 車両用音声操作装置
JP2003195891A (ja) * 2001-12-27 2003-07-09 Denso Corp 電子機器
JP2004061252A (ja) * 2002-07-26 2004-02-26 Equos Research Co Ltd 車載装置、データ作成装置、及びデータ作成プログラム

Also Published As

Publication number Publication date
JP2006138994A (ja) 2006-06-01

Similar Documents

Publication Publication Date Title
US9230538B2 (en) Voice recognition device and navigation device
JP6604151B2 (ja) 音声認識制御システム
US7684907B2 (en) Driver assistance system for a road vehicle
JP4802522B2 (ja) 音声入力装置および音声入力方法
JP5677650B2 (ja) 音声認識装置
US20080235017A1 (en) Voice interaction device, voice interaction method, and voice interaction program
JP6173477B2 (ja) ナビゲーション用サーバ、ナビゲーションシステムおよびナビゲーション方法
WO2011129335A1 (ja) オペレーティングシステム及びオペレーティング方法
US20170270916A1 (en) Voice interface for a vehicle
US8024116B2 (en) Vehicle stray determination apparatus and destination guide apparatus
US20230102157A1 (en) Contextual utterance resolution in multimodal systems
US10023051B2 (en) Vehicle and method of controlling the same
JP4736404B2 (ja) 音声認識装置
WO2007049596A1 (ja) 情報記録装置、情報記録方法、情報記録プログラムおよびコンピュータに読み取り可能な記録媒体
JP2008309966A (ja) 音声入力処理装置および音声入力処理方法
JP5277704B2 (ja) 音声認識装置及びこれを用いる車両システム
JP2010039099A (ja) 音声認識および車載装置
JP2003108191A (ja) 音声対話装置
JP4770374B2 (ja) 音声認識装置
JP6936772B2 (ja) 情報提供装置
JP2006215418A (ja) 音声入力装置及び音声入力方法
JP2008145676A (ja) 音声認識装置及び車両ナビゲーション装置
JP2007327913A (ja) 施設検索装置
JP2008026464A (ja) 車両用音声認識装置
WO2023073856A1 (ja) 音声出力装置、音声出力方法、プログラム及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100917

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110418

R150 Certificate of patent or registration of utility model

Ref document number: 4736404

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3