図1は、本発明の実施形態にかかる音声認識装置が適用されたナビゲーション装置の全体構成を示すブロック図である。本実施形態にかかる音声認識装置は、例えば、ナビゲーション装置1の操作をユーザの発話によって行うための音声認識機能を担っている。ナビゲーション装置1は車両に搭載されており、自車両周辺の地図情報および地名情報を表示したり、ユーザの所望する目的地までの経路を表示したりする。このナビゲーション装置1では、ユーザが発話した音声を認識し、この認識結果に応じて、目的地の設定といった種々の作業内容を行うことができる。
マイク2は、ユーザが発話する音声を取得し、取得した音声に応じたアナログ信号を出力する。マイク2から出力されるアナログ信号は、A/Dコンバータ3によってデジタル信号に変換され、後述する信号処理部10に入力される。
発話スイッチ4は、目的地の設定といった各種の作業内容を行うことを前提に、音声認識処理の開始を指示するトリガー信号を、後述する信号処理部10に対して出力する。発話スイッチ4は、例えば、オン・オフが切り換え可能なスイッチで構成されており、このスイッチをオンすることによりトリガー信号が出力され、信号処理部10が音声認識処理を行うためのスタンバイ状態へと切り替わる。
ディスプレイ5は、ユーザの発話に対する応答である応答メッセージ、ナビゲーション用の地図情報、各種のメニュー項目を表示するための装置である。ディスプレイ5としては、例えば、CRTや液晶といった周知の表示装置を使用することができる。ディスプレイ5は、後述する信号処理部10によって制御され、信号処理部10からの制御信号に応じて各種の情報を表示する。
スピーカ6は、ユーザに対するシステム側からの問い掛け、ユーザの発話に対する応答である応答メッセージ、ナビゲーション用の情報などを音声案内として出力する。スピーカ6は、信号処理部10によって制御されており、信号処理部10からの制御信号がD/Aコンバータ7によって変換されたアナログ信号に応じて音声案内を出力する。
信号処理部10は、ナビゲーション装置1を統合的に制御する機能を担っている。また、信号処理部10は、音声認識に関する種々の処理、具体的には、ユーザへの問い掛けと、この問い掛けに応じてマイク2から入力される音声信号に基づいた音声認識とを行うことにより、ユーザとの対話処理を通じて所定の作業内容、例えば、目的地の設定を行う。ここで、本実施形態の特徴の一つとして、信号処理部10は、ユーザへの問い掛けに応じて、マイク2から非言語が入力された場合には、この非言語が入力された際の状況に応じて、非言語の入力の有効性を判断する。そして、有効性の判断結果に応じて、作業内容を確認するか、それとも保留するか、或いは、実行するかといった作業内容の進行状況が決定される。ここで、非言語が入力される状態とは、典型的に、ユーザからの発話がない状態(すなわち、ユーザが黙ってしまい音声入力がない状態)が該当するが、これ以外にも、ユーザが発話したとしても認識不可能なレベルの言語が入力された状態も該当する。信号処理部10としては、例えば、CPU10a、メモリ10b、入出力インターフェース(図示せず)を主体に構成されるマイクロコンピュータを用いることができる。この信号処理部10のメモリ10bには、音声信号を認識する際に参照される認識対象文が記憶されている。
信号処理部10には、音声認識を行うために、上述したマイク2および発話スイッチ4の他にも、録画部7、車両挙動測定部8からの信号が入力されている。
録画部7は、ユーザ(典型的には、ドライバ)の顔を含む所定の領域を撮像し、ドライバの顔が映し出された画像を出力する。録画部7としては、CCD、CMOSといった周知の撮像手段を用いることができる。
車両挙動測定部8は、車両の走行環境、走行状態など情報を測定し、これを車両挙動情報として出力する。本実施形態において測定される車両の挙動としては、例えば、GPS(Global Positioning System)を用いたカーナビゲーションシステムによって認識される現在地および地図情報(以下「ナビ情報」という)、アクセル操作量(例えば、アクセルペダルの踏込量)やブレーキ操作量(例えば、ブレーキペダルの踏込量)、方向指示器の動作状態などが挙げられる。
また、信号処理部10は、必要に応じて、外部記憶部9に記憶されている情報を参照する。この外部記憶部9は、作業内容に対するリスクを保持するデータベース(後述するリスク辞書9a(図2参照))と、システムとユーザとの間で行われた直前の対話状態を保持するデータベース(後述する対話状態保持部9b(図2参照))とを有している。対話状態保持部9bは、システム側からのユーザに対する問い掛けが、例えば、「神奈川県の何という施設ですか?」といったユーザからの情報を引き出す対話型と、例えば、「追浜駅でよろしいですか?」というようなユーザの意思を確認する確認型とのどちらのタイプであるかを保持する。
図2は、信号処理部10の構成を示すブロック図である。信号処理部10は、これを機能的に捉えた場合、有効性判断ユニット11と、信頼度計算ユニット12と、処理ユニット13とを主体に構成されている。
有効性判断ユニット11は、ユーザからの発話が非言語だった場合に、この非言語を取得した際のユーザの運転負荷状態と、作業内容を実行することによって生じるリスクと、非言語が入力される前提としてなされた音声案内(システム側からの問い掛け)のきっかけとなった音声認識に対する信頼度とを統合的に考慮することで、非言語の入力の有効性を判断し、この判断結果に応じて作業内容の進行状態を決定する。
具体的には、運転負荷測定部111は、ユーザ(典型的には、ドライバ)の運転負荷を特定し、これが高いのかそれとも低いのかを判定する機能を担っており、計算部111aと判定部111bとで構成される(なお、運転負荷の判定に関する詳細については後述する)。計算部111aは、録画部7から出力されるドライバの顔状態、および、車両挙動測定部8から出力される車両の挙動の少なくとも一方の情報に基づいて、ドライバの運転負荷を特定する。判定部111bは、計算部111aによって特定されたドライバの運転負荷に基づいて、運転負荷の高低を判定する。
リスク測定部112は、作業内容に対するリスクが高いのかそれとも低いのかを判定する機能を担っており、計算部112aと判定部112bとで構成される(なお、リスクの判定に関する詳細については後述する)。計算部112aは、「県名検索」「施設名検索」など各作業内容に対するリスクを規定したリスク辞書9aと、対話状態を保持する対話状態保持部9bを参照し、各作業内容に対するリスクを特定する。判定部112bは、計算部112aによって特定されたリスクに基づいて、作業内容に対するリスクの高低を判定する。
信頼度測定部113は、ユーザが発話した単語を認識した際の確からしさを示す信頼度が高いのかそれとも低いのかを判定する機能を担っており、保持部113aと、判定部113bとで構成される。保持部113aは、後述する信頼度計算ユニット12によって計算される信頼度を保持する。判定部113bは、保持部113aが保持する発話信頼度を参照し、これを所定の閾値と大小関係を比較することにより、発話信頼度の高低を判定する。
有効性判断部114は、運転負荷、リスクおよび信頼度である3つのパラメータの高低から、非言語の入力の有効性を判断する。
処理ユニット13は、有効性判断ユニット11によって判断された有効性と、システムが実行する作業内容の進行状況を決定し、これを実行する。
信頼度計算ユニット12は、信頼度を計算する。ユーザの発話に対する音声認識処理では、信号処理部10のメモリ10bに記憶されている各認識対象文とマッチング処理が行われ、音響的な近似度合いを示す音響尤度が算出される。ここで、音響尤度とは認識結果から得られる音声信号列がYである場合、ユーザが発話した音声信号列がWである事後確率で定義される値であり、「音声信号列に関する仮説Wに対して、音声信号列Yが観測される事前確率」と「音声信号列Wが発話される確率」との積算値と、音声信号列Yが観測される確率との比のうち最大確率である。信号処理部10は、この音響尤度が高いものから順に上位N個の認識対象文の候補を抽出する。
このような音声認識処理を前提として、信頼度計算ユニット12は、抽出された上位N個の認識対象文のそれぞれを対象として、音響尤度と、その単語の出現頻度とに基づいて、事後確立に基づく尺度として信頼度を演算する。すなわち、この信頼度は、ある単語が発話された可能性を示す。信頼度は、ユーザの発話毎に算出され、信頼度測定部113の保持部113aによって保持される。なお、信頼度の算出手法の詳細については、例えば、特開2004−251998号公報に開示されているので、必要ならば参照されたい。
図3は、本実施形態にかかる音声認識処理の手順を示すフローチャートである。このフローチャートに示す処理は、ユーザによって発話スイッチ4が操作され、トリガー信号が信号処理部10に入力されることによって実行される。
まず、ステップ1(S1)において、ユーザの発話があったか否かが判断される。具体的には、発話スイッチ4の操作後、ユーザが発話すると、マイク2から出力されたアナログ信号は、A/Dコンバータ3でデジタル信号に変換され、信号処理部10に入力される。ここで、信号処理部10は、発話スイッチ4の操作がなされるまで、デジタル信号の平均パワーを演算している。信号処理部10は、発話スイッチ4からトリガー信号が入力された後、この平均パワーと比較して、デジタル信号の瞬間パワーが平均パワー(或いは、平均パワー+所定値)以上であるか否かを判断することにより、ユーザの発話があったか否かを判断する。デジタル信号の瞬間パワーが平均パワー以上である場合には、このステップ1において肯定判定され(ユーザの発話あり)、音声信号の取り込みを開始した上で、ステップ2(S2)に進む。一方、デジタル信号の瞬間パワーが平均パワーよりも小さい場合には、ステップ1において否定判定され(ユーザの発話なし)、後述するステップ7(S7)に進む。
ステップ2において、音声認識処理が行われる。取り込まれた音声信号(デジタル信号)は、信号処理部10のメモリ10bに記憶されている各認識対象文を処理対象として、マッチング処理が行われ、個々の認識対象文に対する音響的な近似度合いを示す音響尤度が算出される。そして、信号処理部10は、この音響尤度が高いものから順に上位N個の認識対象文を、認識対象文の候補として抽出する。デジタル化された音声信号の瞬時パワーが平均パワーよりも小さい状態が所定時間継続した場合、信号処理部10は、ユーザの発話が終了したと判断し、音声信号の取り込みを終了する。
ステップ3(S3)において、ある単語が発話された可能性を示す信頼度が算出される。この信頼度は、抽出された上位N個の認識対象文の候補をそれぞれ対象として、音響尤度と、その認識対象文の出現頻度とに基づいて算出される。算出された信頼度は、信頼度測定部113の保持部113aに記憶される。
ステップ4(S4)において、算出された個々の認識対象文の候補に関する信頼度に基づいて、その信頼度が最も高い認識対象文の候補を理解結果として選択する。そして、この理解結果と、現在の作業内容とに基づいて、ユーザへの応答である応答メッセージを生成する。
ステップ5(S5)において、出力処理として、生成された応答メッセージがディスプレイ5に表示される、または、スピーカ6から音声案内として出力される。
ステップ6(S6)において、目的地設定といった作業内容に関する一連のタスクが全て完了しているか否かが判断される。このステップ6において肯定判定された場合、すなわち、タスクが完了している場合には、本処理を終了する。これに対して、ステップ6において否定判定された場合、すなわち、タスクが完了していない場合には、上述したステップ1に戻る。
一方、ステップ1の否定判定に続くステップ7では、非言語を取得した時のユーザの運転負荷と、作業内容の実行後のリスクと、非言語取得以前の発話信頼度とから、非言語の入力の有効性を判断する。そして、この判断結果に応じて作業内容の進行状態を決定する。
具体的には、この有効性判断では、運転負荷、リスク、信頼度の3つ要素のそれぞれに、その度合いが高いのかそれとも低いのかを関連付けられてなる8状態に基づいて処理を行う。
(運転負荷判定)
運転負荷は、運転に要求される様々な要素が同時に起こるときに高く設定される。ドライバの運転負荷は、録画部7からの出力結果に基づいて、通常時の顔画像と比較することで直接的にドライバの運転負荷を測定したり、車両挙動測定部8からの出力結果に基づいて、車両の走行環境、走行状態などの情報から間接的にドライバの運転負荷を測定したりすることができる。
運転負荷が大きくなる例としては、交差点での右左折、車線変更、高速道路での合流などが挙げられる。例えば、交差点での右折では、対向車線の直進車、右折先前方の歩行者の有無、目前にある信号など、また、左折時では、巻き込み確認などドライバが注意すべき点が多数ある。また、車線変更の場合、自分の前後車の状況判断、進入する車線の状況確認や車線間を走行する二輪車の有無などドライバが注意すべき点が多数ある。さらに、高速道路での合流の場合、本線の走行車線の状況に応じた自車両の速度調節などドライバが注意すべき点がある。このように、ドライバが注意すべきシーンが多数あると運転負荷を高く設定し、ドライバが注意すべきシーンが少ないときは運転負荷を低く設定する。
このようなシーンの検出手段としては、GPS(Global Positioning System)を用いたカーナビゲーションシステムによって認識される現在地および地図情報(以下「ナビ情報」という)、アクセル操作量(例えば、アクセルペダルの踏込量)やブレーキ操作量(例えば、ブレーキペダルの踏込量)、方向指示器の動作状態を、車両挙動測定部8によって検出する。交差点で右左折する場合、ナビ情報から「現在地が交差点である」、方向指示器から「方向指示器がアクティブである」という情報を、車両挙動測定部8から計算部111aが取得すると、計算部111aは「自車両は交差点を右左折する」と特定する。そして、この計算部111aの特定結果に基づいて、判定部111bは運転負荷が高いと判定する。また、一般道での車線変更の場合、ナビ情報から「ここは交差点ではない」、方向指示器から「方向指示器がアクティブである」という情報を、車両挙動測定部8から計算部111aが取得すると、計算部111aは「自車両は車線変更を行う」と特定する。そして、この計算部111aの特定結果に基づいて、判定部111bは運転負荷が高いと判定する。さらに、高速道路の合流時は、ナビ情報から「ここは高速道路の分岐点である」、方向指示器から「方向指示器がアクティブ」という情報を、車両挙動測定部8から計算部111aが取得すると、計算部111aは「自車両は高速道路で合流する」と特定する。そして、この計算部111aの特定結果に基づいて、判定部111bは運転負荷が高いと判定する。また、高速道路での車線変更の場合、ナビ情報から「ここは高速道路である」、アクセル操作量から「一定以上の速度が出ている」、方向指示器から「方向指示器がアクティブ」という情報を車両挙動測定部8から計算部111aが取得すると、計算部111aは「自車両は車線変更を行う」と判断する。そして、この計算部111aの特定結果に基づいて、判定部111bは、運転負荷が高いと判定する。
また、録画部7からの出力結果に基づいて、通常時の顔画像と比較して、ドライバの顔の動きが頻繁な場合には、左右確認等を行っている可能性があるので、運転負荷が高いと判断する。
(リスク判定)
作業内容に対するリスクを判定する場合、非言語を取得する直前の音声案内にどのような情報が含まれているかが重要である。システムの問い掛けに対してユーザが発話する対話型の音声認識において、非言語を取得した場合、「何県ですか?」のようなユーザから情報を引き出す状態である対話型と、「○○を設定してもよろしいですか?」のようなユーザの確認を得て、対話の最終段階として確認作業を行う状態である確認型の2つに分類できる。
例えば、目的地設定を行う場合、施設(ジャンル)、住所、電話番号、郵便番号などを用いた検索方法が考えられる。ここで、それぞれの検索方法に関するリスクの判定手法を示す。
まず、「目的地を変更しますか」といったように、目的地を変更する場合など、ユーザが目的地を設定するときに既に目的地が設定されている場合には、その作業内容に対するリスクは高い。なぜならば、一度設定されている目的地を変更した場合、これが誤った作業である場合には、再度目的地を設定するという煩雑な作業が必要とされるからである。また、このようなケースにおいても、GPS(Global Positioning System)等から車両位置情報を測定し、設定された目的地と現在地の位置関係から、車両が目的地方向に向いている場合、そのリスクは高く、一方、車両が目的地と逆方向に向いている場合、そのリスクは低い。
施設検索において、非言語入力時の対話状態が対話型である場合には、目的地を確定するために、ユーザとシステムとの間の対話が途中段階となっており、その時点での情報を用いて目的地設定を行うことは困難である。そのため、このような作業内容については、そのリスクを高く設定する。一方、非言語入力時の対話状態が確認型である場合には、目的地を確定するために、ユーザとシステムとの間の対話が最終段階となっており、そこに至るまでの対話において、システムが応答した目的地候補に対してユーザはそれを理解している。そのため、このような作業内容については、目的地設定を自動で行うことができると考えられるため、そのリスクは低く設定する。
住所検索において、非言語入力時の対話状態が対話型である場合には、目的地を確定するために、ユーザとシステムとの間の対話が途中段階となっているものの、その時点での情報を用いて目的地設定を行うことは可能である。例えば、ユーザの「神奈川県横須賀市」の発話に対して、システムが「神奈川県横須賀市役所」を目的地に設定することは可能である。しかしながら、ユーザの意図とは異なる目的地を設定してしまう可能性があり、また異なる目的地を一度設定しまうと、再度目的地を設定し直す必要がある。そのため、このような作業内容については、そのリスクが高く設定される。一方、非言語入力時の対話状態が確認型である場合には、目的地を確定するために、ユーザとシステムとの対話が最終段階となっており、そこに至るまでの対話において、システムが応答した住所を自動で目的地に設定することは可能である。しかし、入力された住所がナビゲーション用の地図データベースに登録されていない可能性もあり、その場合は付近の住所が目的地に設定されてしまう。そのため、このような作業内容については、そのリスクが高く設定される。
また、電話番号、郵便番号検索において、非言語入力時の対話状態が対話型である場合には、目的地を確定するために、ユーザとシステムとの間の対話が途中段階となっているものの、その時点での情報を用いて目的地設定を行うことは可能である。例えば、電話番号検索の場合、ユーザの「046」の発話に対して、システムが「神奈川県横須賀市役所」を目的地に設定することはできる。しかし、ユーザの意図とは異なる目的地を設定してしまう可能性があり、また異なる目的地を設定してしまった場合には、再度目的地を設定し直す必要がある。そのため、このような作業内容については、そのリスクが高く設定される。一方、非言語入力時の対話状態が確認型である場合には、目的地を確定するために、ユーザとシステムとの間の対話が最終段階となっており、そこに至るまでの対話において、システムが案内した電話番号または郵便番号から目的地を設定することは可能である。しかし、入力された電話番号や郵便番号が地図データベースに登録されていない可能性もある。そのため、このような作業内容については、そのリスクが高く設定される。
また、目的地設定においてジャンルや住所を用いた検索方法だけでなく、自宅やよく行く住所など予めシステムに登録しておいた場所や、目的地設定の履歴データから目的地を設定する方法がある。その場合、非言語取得時の対話状態が対話型である場合には、作業内容について、そのリスクが高く設定され、一方、対話状態が確認型である場合には、作業内容について、そのリスクが低く設定される。
地図表示の拡大や縮小などのサイズの変更、ヘディングアップやノースアップなどの地図の向きの変更、2D(平面地図)や3D(バードビュー)などの地図表示形式の変更などを行う場合、その作業内容をシステムが自動で行っても、ユーザにとってのリスクは大きくない。そのため、このような作業内容については、リスクが低く設定される。
以上、例示したように、ユーザとの対話処理を通じて行われるシステムの全ての作業内容について、そのリスクを予め定義することで、上述したリスク辞書9aが構築されている。リスク測定部112の計算部112aは、対話状態保持部9bから現在の対話状態を読み込むとともに、現在の作業内容に該当するリスクを読み込む。そして、この読み込んだ結果を判定部112bに対して出力し、判定部112bは、リスクが高いのかそれとも低いのかを判定する。
(発話信頼度)
信頼度測定部113の判定部113bは、非言語が入力される以前に行われた音声認識に関する信頼度、すなわち、保持部113aに保持されている信頼度を参照し、この値が所定の判定値よりも大きい場合には、信頼度が高いと判定し、一方、この値が所定の判定値よりも小さい場合には、信頼度が低いと判定する。
図4は、3つのパラメータに関する高低2通りの組み合せによってできる8状態に関する有効性判断処理について説明する説明図である。第1のケースでは、運転負荷、リスクおよび信頼度がそれぞれ高いケースを想定する。このケースでは、運転負荷が軽減するまで作業内容を保留し、運転負荷が軽減したことを条件に、非言語の入力の前提となる音声案内を再度行う。
図5は、第1のケースに関する信号処理部10の対話処理を説明するタイミングチャートである。具体的には、タイミング1a〜タイミング10aに示すように、ユーザとシステムとの間で一連の対話が行われる。例えば、タイミング4aに示すように、「神奈川県の施設名称をどうぞ」というシステムの問い掛けに対して、ユーザ側の発話がないとする(タイミング5aに示す非言語入力)。このケースでは、ドライバの運転負荷が高いためシステムがドライバに発話を促すような音声案内を行うことは運転負荷をより高めてしまう可能性があり好ましくない。また、作業内容に対するリスクが高いため作業内容を自動で実行することは難しい。そのため、運転負荷が軽減するまで作業内容を保留し、運転負荷が軽減したことを条件として、タイミング6aに示すように、非言語の入力の前提となる音声案内(すなわち、タイミング4aに示す音声案内)を再度行う。
第2のケースでは、運転負荷およびリスクがそれぞれ高く、信頼度のみが低いケースを想定する。このケースでは、運転負荷が軽減するまで作業内容を保留し、運転負荷が低減したことを条件に、非言語の入力の前提となる音声案内を再度行う。
図6は、第2のケースに関する信号処理部10の対話処理を説明するタイミングチャートである。具体的には、タイミング1b〜タイミング10bに示すように、ユーザとシステムとの間で一連の対話が行われる。ここでは、音声認識の信頼度が低いケースであり、タイミング3bにおける「神奈川県」というユーザの発話に対して、タイミング4bに示すように、例えば、「香川県の施設名称をどうぞ」というシステムの問い掛けが行われる。この問い掛けに対して、ユーザ側の発話がないとする(タイミング5bに示す非言語入力)。このケースでは、運転負荷が高いためシステムがドライバに発話を促すような音声案内を行うことは運転負荷をより高めてしまう可能性があり好ましくない。また、作業内容に対するリスクが高いため、その作業内容を自動で実行することも好ましくない。そのため、ユーザの運転負荷が軽減するまで作業内容を保留し、運転負荷が軽減したことを条件として、タイミング6bに示すように、非言語の入力の前提となる音声案内(タイミング4bと同様の音声案内)を再度行う。
第3のケースでは、運転負荷および信頼度がそれぞれ高く、リスクのみが低いケースを想定する。このケースでは、作業内容に対するリスクが低いのみであるため、その作業内容を自動で実行する。
図7は、第3のケースに関する信号処理部10の対話処理を説明するタイミングチャートである。具体的には、タイミング1c〜タイミング8cに示すように、ユーザとシステムとの間で一連の対話が行われる。ここで、例えば、タイミング6cに示すように、「追浜駅でよろしいですか?」というシステムの問い掛けに対して、ユーザ側の発話がないとする(タイミング7cに示す非言語入力)。このケースでは、ドライバの運転負荷が高いものの、作業内容に対するリスクが低いため、非言語の入力に応じて自動で作業内容を実行する。この場合、タイミング8cに示すように、信号処理部10は、例えば、「追浜駅に目的地を設定します」といった音声案内を行い、音声認識を終了する。ドライバの運転負荷が高い場合、ドライバに発話を促すような音声案内を行うことは、運転負荷をより高めてしまう可能性があるため好ましくない。しかしながら、作業内容に対するリスクが低く、音声認識に対する信頼度が高いので、作業内容を自動で実行する。
第4のケースでは、運転負荷のみが高く、リスクおよび信頼度がそれぞれ低いケースを想定する。このケースでは、運転負荷が軽減するまで作業内容を保留し、運転負荷が低減した時に、非言語の入力の前提となる音声案内を再度行う。
図8は、第4のケースに関する信号処理部10の対話処理を説明するタイミングチャートである。具体的には、タイミング1d以降(同図には、タイミング10dまで)に示すように、ユーザとシステムとの間で一連の対話が行われる。音声認識の信頼度が低いケースでは、タイミング5dにおける「追浜駅」というユーザの発話に対して、タイミング6dに示すように、例えば、「奥多摩駅でよろしいですか?」というシステムの問い掛けが行われる。この問い掛けに対して、ユーザ側の発話がないとする(タイミング7dに示す非言語入力)。このケースでは、作業内容に対するリスクが低いものの、音声認識に対する信頼度も低いため、運転負荷が軽減するまで作業内容を保留し、運転負荷が軽減したことを条件として、タイミング8dに示すように、非言語の入力の前提となる音声案内(タイミング6dと同様の音声案内)を再度行うようにする。このように、ドライバの運転負荷が高いためシステムがドライバに発話を促すような音声案内を行うことは、運転負荷をより高めてしまう可能性があるため好ましくない。また、作業内容に対するリスクは低いが、音声認識に対する信頼度も低いため、作業内容を自動で実行することは難しい。そのため、運転負荷が軽減するまで作業内容を保留し、運転負荷が軽減することを条件として、再度音声案内を行うようにする。
第5のケースでは、運転負荷のみが低く、リスクおよび信頼度がそれぞれ高いケースを想定する。このケースでは、作業内容の確認を行うこととし、対話状態が対話型であれば、ユーザが発話する例を提示して音声案内を再度行い、一方、確認型であれば返答方法を示して音声案内を再度行う。
図9は、第5のケースに関する信号処理部10の対話処理を説明するタイミングチャートである。具体的には、タイミング1e〜タイミング12eに示すように、ユーザとシステムとの間で一連の対話が行われる。例えば、タイミング4eで示すように、「神奈川県の施設名称をどうぞ」というシステムの問い掛けに対して、ユーザ側の発話がないとする(タイミング5eに示す非言語入力)。このケースでは、運転負荷が高いわけでもなく、単に、システムの音声案内に対する返答方法が分からない、或いは、目的地やジャンルの名称が分からないためユーザが非言語を入力したことが考えられる。そのため、システムはユーザから情報を引き出すような音声案内を行うこととする。対話状態が対話型である場合、例えば、施設名称の入力方法が分からないユーザには、タイミング6eに示すように、「駅・レストラン・遊園地などジャンル名をどうぞ」といったように、ユーザに答え方を誘導するような音声案内を行う。また、非言語の入力の前提となる音声案内が確認型である場合、非言語の入力の前提となる音声案内を再度行い、また同時に「はい/いいえでお答え下さい」などの例を音声案内として行うことにより、ユーザが聞き逃した場合や、返答方法が分からない場合であっても設定作業を先に進めることができる。
第6のケースでは、運転負荷および信頼度がそれぞれ低く、リスクのみが高いケースを想定する。このケースでは、作業内容の確認を行うこととし、対話状態が対話型であれば、直前の音声認識の結果に対する確認を行い、確認型であれば返答方法を示し音声案内を再度行う。
図10は、第6のケースに関する信号処理部10の対話処理を説明するタイミングチャートである。具体的には、タイミング1f以降(同図には、タイミング10fまで)に示すように、ユーザとシステムとの間で一連の対話が行われる。音声認識に対する信頼度が低いケースでは、タイミング3fにおける「神奈川県」というユーザの発話に対して、タイミング4fに示すように、例えば、「香川県の施設名称をどうぞ」というシステムの問い掛けが行われる。この問い掛けに対して、ユーザ側の発話がないとする(タイミング5fに示す非言語入力)。このケースでは、システムの音声案内に対して返答方法、或いは、訂正方法が分からないためユーザが非言語を入力したと考えることができる。すなわち、直前のユーザの発話に対する認識結果の信頼度が低いため、その認識結果に対して確認を行う必要がある。対話状態が対話型である場合、例えば、タイミング6fに示すように、「香川県でよろしいですか? はい/いいえでお答えください」というように、直前の認識結果を確認することで、認識結果が合っているか否かをユーザに確認することができる。また、対話状態が確認型である場合、非言語の入力の前提となる音声案内を再度行い、また同時に「はい/いいえでお答え下さい」などの例を示すことで、ユーザが聞き逃した場合であっても、返答方法が分からない場合であっても作業内容を進行させることができる。
第7のケースでは、運転負荷およびリスクがそれぞれ低く、信頼度のみが高いケースを想定する。このケースでは、作業内容を自動で実行する。
図11は、第7のケースに関する信号処理部10の対話処理を説明するタイミングチャートである。具体的には、タイミング1g〜タイミング8gに示すように、ユーザとシステムとの間で一連の対話が行われる。ここでは、タイミング5gにおける「追浜駅」というユーザの発話に対して、タイミング6gに示すように、例えば、「追浜駅でよろしいですか?」というシステムの問い掛けが行われる。この問い掛けに対して、ユーザ側の発話がないとする(タイミング7dに示す非言語入力)。このケースでは、システムの音声案内に対してユーザは答えることはできるが、答えることが面倒であったりすることが考えられる。また、作業内容に対するリスクが低く、また、音声認識に対する信頼度が高いため、作業内容を自動で実行することが可能となる。
第8のケースでは、運転負荷、リスクおよび信頼度がそれぞれ低いケースを想定する。このケースでは、作業内容の確認を行うこととし、返答方法などの例を示して音声案内を再度行う。
図12は、第8のケースに関する信号処理部10の対話処理を説明するタイミングチャートである。具体的には、タイミング1h以降(同図には、タイミング10hまで)に示すように、ユーザとシステムとの間で一連の対話が行われる。信頼度が低いケースでは、タイミング5dにおける「追浜駅」というユーザの発話に対して、タイミング6dに示すように、例えば、「奥多摩駅でよろしいですか?」というシステムの問い掛けが行われる。この問い掛けに対して、ユーザ側の発話がないとする(タイミング7dに示す非言語入力)。このケースでは、音声案内に対して答え方が分からず、ユーザが戸惑ったため非言語を入力したと考えられる。また、作業内容に対するリスクが低く、また、音声認識に対する信頼度が低いため、非言語の入力の前提となる音声案内を再度行い、同時に「はい/いいえでお答え下さい」などの例を示す。これにより、ユーザが音声案内を聞き逃した場合であったり、返答方法が分からない場合であったりしても、作業内容を進行させることができる。
このように本実施形態において、音声認識装置は、ユーザが発話した音声を取得して、音声信号を出力する音声信号取得手段(例えば、マイク2)と、ユーザへの問い掛けと、この問い掛けに応じて音声信号取得部から入力される音声信号に基づいた音声認識とを行うことにより、ユーザとの対話処理を通じて所定の作業内容を行う処理手段(例えば、信号処理部10)とを有している。ここで、処理手段は、ユーザへの問い掛けに応じて、音声信号取得手段から非言語が入力された場合には、この非言語が入力された際の状況に応じて、非言語の入力の有効性を判断し、有効性の判断結果に応じて、作業内容の確認、作業内容の保留、および、作業内容の実行のいずれかを判断する。
かかる構成によれば、使用者が黙ってしまうなどの「非言語」がシステムに入力された場合であっても、その場の状況に応じて、非言語の入力の有効性を判断することにより、その判断結果に応じて、作業内容の実行、作業内容の確認、および、作業内容の保留を判断する。そのため、最初から音声認識をやり直すといったように、発話回数や処理時間の低減を図ることができ、ユーザにとって使い勝手のよい音声認識を行うことができる。
また、本実施形態において、処理手段は、有効性の判断を、ユーザの運転負荷の程度によって行う。かかる構成によれば、運転負荷が高い状況では、作業内容を保留する、また、運転負荷が低い状況であれば、作業内容を実行、確認するといった判断を行うことができる。これにより、ユーザの状態に合った適切な処理を行うことができる。
また、本実施形態において、処理手段は、有効性の判断を、作業内容を実行した後のリスクの程度によって行う。かかる構成によれば、リスクが高い状況では、作業内容を保留、確認する、リスクが低い状況であれば、作業内容を実行するといった判断を行うことができる。これにより、使用者の状態にあった適切な処理を行うことができる。
また、本実施形態において、処理手段は、有効性の判断を、音声認識の信頼度の程度によって行う。かかる構成によれば、信頼度が高い状況では、作業内容を実行する、信頼度が低い状況では、作業内容を保留、確認するといった判断を行うことができる。これにより、ユーザの状態に合った適切な処理を行うことが出来る。
また、本実施形態において、処理手段は、ユーザの運転負荷を、少なくとも車両の走行環境または走行状態に基づいて特定する。これにより、ユーザの運転負荷を精度よく特定することが可能となり、有効性の判断を正確に行うことができる。
また、本実施形態において、処理手段は、ユーザの運転負荷を、ユーザの顔の状態に基づいて特定する。これにより、ユーザの運転負荷を精度よく特定することが可能となり、有効性の判断を正確に行うことができる。
また、本実施形態において、処理手段は、作業内容を実行した後のリスクを、ユーザとの対話状態に基づいて特定する。これにより、リスクを精度よく特定することが可能となり、有効性の判断を正確に行うことができる。
また、本実施形態において、処理手段は、作業内容を実行した後のリスクを、個々の作業内容毎に予め関連付けられたリスクデータベースを参照することより特定する。これにより、リスクを精度よく特定することが可能となり、有効性の判断を正確に行うことができる。
なお、上述した実施形態では、運転負荷、リスク、信頼度の3つのパラメータを総合的に評価して、作業内容を実行するか、確認するか、それとも保留するかといった判断を行った。しかしながら、本発明はこれに限定されるものではなく、個々のパラメータを単独で用いて、作業内容に関する処理を判断してもよい。
また、本発明の音声認識装置は、ナビゲーション装置の操作を音声認識によって行うのみならず、車両に搭載されたオーディオボリュームの上げ下げ、室内温度の上げ下げといった種々の操作に適用することができる。例えば、また、音声案内のボリュームの上げ下げや、室内設定温度の上げ下げなどを行う場合、その作業をシステムが自動で行ってもユーザにとってリスクは大きくないため、リスクは低く設定する。FMからAMへの変更やMDからCDへの変更などといったオーディオ関連操作の場合、その作業をシステムが自動で行ってもユーザにとってのリスクは大きくないため、リスクは低く判定する。しかし、オーディオ関連操作の場合、ユーザがよく聞くラジオ放送局を予めシステムに登録する機能があるが、その登録済みの局を変更する作業を自動で行ってしまうのはリスクは大きいため、登録局を変更する作業はリスクは高く判定するといった如くである。