JP4910563B2

JP4910563B2 - 音声認識装置

Info

Publication number: JP4910563B2
Application number: JP2006221023A
Authority: JP
Inventors: 英治外塚; 実冨樫; 健大野; 大介斎藤; 景子桂川
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2006-08-14
Filing date: 2006-08-14
Publication date: 2012-04-04
Anticipated expiration: 2026-08-14
Also published as: JP2008046299A

Description

本発明は、音声認識装置に関する。

ナビゲーション装置の目的地設定といったようにある作業内容について、音声認識装置を利用してこれを行う場合、車環境では、エンジンやエアコンの動作音、オーディオ、タイヤと路面間で生じるロードノイズなど、車環境特有のノイズが多数あるため、ユーザの発話区間を定めることが非常に困難となる。

例えば、特許文献１に開示されている音声認識装置では、発話区間はユーザが発話スイッチを押した動作時から、システムに予め設定された待受時間が経過するまでの区間を発話区間として音声認識を行う。発話スイッチが押されて音声入力が可能となった後に所定時間以上の無音区間があった場合、音声入力が不可能な状態に遷移する。

また、例えば、特許文献２に開示されている音声認識装置では、発話スイッチを押したときに、周囲の雑音レベルを計算し、その雑音レベルが閾値以下である場合に、音声認識を開始する。音声認識を開始し一定時間経過するまで音声認識を続け、一定時間経過すると認識処理が中止される。
特開２００４−１０９４６８号公報特開昭６０−１０４９９９号公報

しかしながら、発話区間は予めシステムが設定した時間しか考慮しておらず、操作方法や発話語彙が分からない、或いは、運転に集中しているといったように、発話したくてもできない場合には、ユーザの意図に反して音声認識が終了してしまうという問題点がある。また、音声認識が終了した場合には、再度最初から作業内容を行う必要があるため、発話回数や処理時間が多くなってしまうという問題がある。

本発明はかかる事情に鑑みてなされたものであり、その目的は、ユーザにとって使い勝手のよい音声認識処理を行うことである。

かかる課題を解決するために、本発明は、音声信号取得手段と、処理手段とを有する音声認識装置を提供する。ここで、音声信号取得手段は、ユーザが発話した音声を取得して、音声信号を出力する。処理手段は、ユーザへの問い掛けと、この問い掛けに応じて音声信号取得部から入力される音声信号に基づいた音声認識とを行うことにより、ユーザとの対話処理を通じて所定の作業内容を行う。この場合、処理手段は、ユーザへの問い掛けに応じて、音声信号取得手段から非言語が入力された場合には、この非言語が入力された際の状況に基づいて、非言語の入力の有効性を判断し、有効性の判断結果に応じて、作業内容の実行、作業内容の確認、および、作業内容の保留のいずれかを判断する。

本発明によれば、使用者が黙ってしまうなどの「非言語」がシステムに入力された場合であっても、その場の状況に応じて、非言語の入力の有効性を判断することにより、その判断結果に応じて、作業内容の実行、作業内容の確認、および、作業内容の保留を判断することができる。そのため、最初から音声認識をやり直すといったように、発話回数や処理時間の低減を図ることができ、ユーザにとって使い勝手のよい音声認識を行うことができる。

図１は、本発明の実施形態にかかる音声認識装置が適用されたナビゲーション装置の全体構成を示すブロック図である。本実施形態にかかる音声認識装置は、例えば、ナビゲーション装置１の操作をユーザの発話によって行うための音声認識機能を担っている。ナビゲーション装置１は車両に搭載されており、自車両周辺の地図情報および地名情報を表示したり、ユーザの所望する目的地までの経路を表示したりする。このナビゲーション装置１では、ユーザが発話した音声を認識し、この認識結果に応じて、目的地の設定といった種々の作業内容を行うことができる。

マイク２は、ユーザが発話する音声を取得し、取得した音声に応じたアナログ信号を出力する。マイク２から出力されるアナログ信号は、Ａ／Ｄコンバータ３によってデジタル信号に変換され、後述する信号処理部１０に入力される。

発話スイッチ４は、目的地の設定といった各種の作業内容を行うことを前提に、音声認識処理の開始を指示するトリガー信号を、後述する信号処理部１０に対して出力する。発話スイッチ４は、例えば、オン・オフが切り換え可能なスイッチで構成されており、このスイッチをオンすることによりトリガー信号が出力され、信号処理部１０が音声認識処理を行うためのスタンバイ状態へと切り替わる。

ディスプレイ５は、ユーザの発話に対する応答である応答メッセージ、ナビゲーション用の地図情報、各種のメニュー項目を表示するための装置である。ディスプレイ５としては、例えば、ＣＲＴや液晶といった周知の表示装置を使用することができる。ディスプレイ５は、後述する信号処理部１０によって制御され、信号処理部１０からの制御信号に応じて各種の情報を表示する。

スピーカ６は、ユーザに対するシステム側からの問い掛け、ユーザの発話に対する応答である応答メッセージ、ナビゲーション用の情報などを音声案内として出力する。スピーカ６は、信号処理部１０によって制御されており、信号処理部１０からの制御信号がＤ／Ａコンバータ７によって変換されたアナログ信号に応じて音声案内を出力する。

信号処理部１０は、ナビゲーション装置１を統合的に制御する機能を担っている。また、信号処理部１０は、音声認識に関する種々の処理、具体的には、ユーザへの問い掛けと、この問い掛けに応じてマイク２から入力される音声信号に基づいた音声認識とを行うことにより、ユーザとの対話処理を通じて所定の作業内容、例えば、目的地の設定を行う。ここで、本実施形態の特徴の一つとして、信号処理部１０は、ユーザへの問い掛けに応じて、マイク２から非言語が入力された場合には、この非言語が入力された際の状況に応じて、非言語の入力の有効性を判断する。そして、有効性の判断結果に応じて、作業内容を確認するか、それとも保留するか、或いは、実行するかといった作業内容の進行状況が決定される。ここで、非言語が入力される状態とは、典型的に、ユーザからの発話がない状態（すなわち、ユーザが黙ってしまい音声入力がない状態）が該当するが、これ以外にも、ユーザが発話したとしても認識不可能なレベルの言語が入力された状態も該当する。信号処理部１０としては、例えば、ＣＰＵ１０ａ、メモリ１０ｂ、入出力インターフェース（図示せず）を主体に構成されるマイクロコンピュータを用いることができる。この信号処理部１０のメモリ１０ｂには、音声信号を認識する際に参照される認識対象文が記憶されている。

信号処理部１０には、音声認識を行うために、上述したマイク２および発話スイッチ４の他にも、録画部７、車両挙動測定部８からの信号が入力されている。

録画部７は、ユーザ（典型的には、ドライバ）の顔を含む所定の領域を撮像し、ドライバの顔が映し出された画像を出力する。録画部７としては、ＣＣＤ、ＣＭＯＳといった周知の撮像手段を用いることができる。

車両挙動測定部８は、車両の走行環境、走行状態など情報を測定し、これを車両挙動情報として出力する。本実施形態において測定される車両の挙動としては、例えば、ＧＰＳ（Global Positioning System）を用いたカーナビゲーションシステムによって認識される現在地および地図情報（以下「ナビ情報」という）、アクセル操作量（例えば、アクセルペダルの踏込量）やブレーキ操作量（例えば、ブレーキペダルの踏込量）、方向指示器の動作状態などが挙げられる。

また、信号処理部１０は、必要に応じて、外部記憶部９に記憶されている情報を参照する。この外部記憶部９は、作業内容に対するリスクを保持するデータベース（後述するリスク辞書９ａ（図２参照））と、システムとユーザとの間で行われた直前の対話状態を保持するデータベース（後述する対話状態保持部９ｂ（図２参照））とを有している。対話状態保持部９ｂは、システム側からのユーザに対する問い掛けが、例えば、「神奈川県の何という施設ですか？」といったユーザからの情報を引き出す対話型と、例えば、「追浜駅でよろしいですか？」というようなユーザの意思を確認する確認型とのどちらのタイプであるかを保持する。

図２は、信号処理部１０の構成を示すブロック図である。信号処理部１０は、これを機能的に捉えた場合、有効性判断ユニット１１と、信頼度計算ユニット１２と、処理ユニット１３とを主体に構成されている。

有効性判断ユニット１１は、ユーザからの発話が非言語だった場合に、この非言語を取得した際のユーザの運転負荷状態と、作業内容を実行することによって生じるリスクと、非言語が入力される前提としてなされた音声案内（システム側からの問い掛け）のきっかけとなった音声認識に対する信頼度とを統合的に考慮することで、非言語の入力の有効性を判断し、この判断結果に応じて作業内容の進行状態を決定する。

具体的には、運転負荷測定部１１１は、ユーザ（典型的には、ドライバ）の運転負荷を特定し、これが高いのかそれとも低いのかを判定する機能を担っており、計算部１１１ａと判定部１１１ｂとで構成される（なお、運転負荷の判定に関する詳細については後述する）。計算部１１１ａは、録画部７から出力されるドライバの顔状態、および、車両挙動測定部８から出力される車両の挙動の少なくとも一方の情報に基づいて、ドライバの運転負荷を特定する。判定部１１１ｂは、計算部１１１ａによって特定されたドライバの運転負荷に基づいて、運転負荷の高低を判定する。

リスク測定部１１２は、作業内容に対するリスクが高いのかそれとも低いのかを判定する機能を担っており、計算部１１２ａと判定部１１２ｂとで構成される（なお、リスクの判定に関する詳細については後述する）。計算部１１２ａは、「県名検索」「施設名検索」など各作業内容に対するリスクを規定したリスク辞書９ａと、対話状態を保持する対話状態保持部９ｂを参照し、各作業内容に対するリスクを特定する。判定部１１２ｂは、計算部１１２ａによって特定されたリスクに基づいて、作業内容に対するリスクの高低を判定する。

信頼度測定部１１３は、ユーザが発話した単語を認識した際の確からしさを示す信頼度が高いのかそれとも低いのかを判定する機能を担っており、保持部１１３ａと、判定部１１３ｂとで構成される。保持部１１３ａは、後述する信頼度計算ユニット１２によって計算される信頼度を保持する。判定部１１３ｂは、保持部１１３ａが保持する発話信頼度を参照し、これを所定の閾値と大小関係を比較することにより、発話信頼度の高低を判定する。

有効性判断部１１４は、運転負荷、リスクおよび信頼度である３つのパラメータの高低から、非言語の入力の有効性を判断する。

処理ユニット１３は、有効性判断ユニット１１によって判断された有効性と、システムが実行する作業内容の進行状況を決定し、これを実行する。

信頼度計算ユニット１２は、信頼度を計算する。ユーザの発話に対する音声認識処理では、信号処理部１０のメモリ１０ｂに記憶されている各認識対象文とマッチング処理が行われ、音響的な近似度合いを示す音響尤度が算出される。ここで、音響尤度とは認識結果から得られる音声信号列がＹである場合、ユーザが発話した音声信号列がＷである事後確率で定義される値であり、「音声信号列に関する仮説Ｗに対して、音声信号列Ｙが観測される事前確率」と「音声信号列Ｗが発話される確率」との積算値と、音声信号列Ｙが観測される確率との比のうち最大確率である。信号処理部１０は、この音響尤度が高いものから順に上位Ｎ個の認識対象文の候補を抽出する。

このような音声認識処理を前提として、信頼度計算ユニット１２は、抽出された上位Ｎ個の認識対象文のそれぞれを対象として、音響尤度と、その単語の出現頻度とに基づいて、事後確立に基づく尺度として信頼度を演算する。すなわち、この信頼度は、ある単語が発話された可能性を示す。信頼度は、ユーザの発話毎に算出され、信頼度測定部１１３の保持部１１３ａによって保持される。なお、信頼度の算出手法の詳細については、例えば、特開２００４−２５１９９８号公報に開示されているので、必要ならば参照されたい。

図３は、本実施形態にかかる音声認識処理の手順を示すフローチャートである。このフローチャートに示す処理は、ユーザによって発話スイッチ４が操作され、トリガー信号が信号処理部１０に入力されることによって実行される。

まず、ステップ１（Ｓ１）において、ユーザの発話があったか否かが判断される。具体的には、発話スイッチ４の操作後、ユーザが発話すると、マイク２から出力されたアナログ信号は、Ａ／Ｄコンバータ３でデジタル信号に変換され、信号処理部１０に入力される。ここで、信号処理部１０は、発話スイッチ４の操作がなされるまで、デジタル信号の平均パワーを演算している。信号処理部１０は、発話スイッチ４からトリガー信号が入力された後、この平均パワーと比較して、デジタル信号の瞬間パワーが平均パワー（或いは、平均パワー＋所定値）以上であるか否かを判断することにより、ユーザの発話があったか否かを判断する。デジタル信号の瞬間パワーが平均パワー以上である場合には、このステップ１において肯定判定され（ユーザの発話あり）、音声信号の取り込みを開始した上で、ステップ２（Ｓ２）に進む。一方、デジタル信号の瞬間パワーが平均パワーよりも小さい場合には、ステップ１において否定判定され（ユーザの発話なし）、後述するステップ７（Ｓ７）に進む。

ステップ２において、音声認識処理が行われる。取り込まれた音声信号（デジタル信号）は、信号処理部１０のメモリ１０ｂに記憶されている各認識対象文を処理対象として、マッチング処理が行われ、個々の認識対象文に対する音響的な近似度合いを示す音響尤度が算出される。そして、信号処理部１０は、この音響尤度が高いものから順に上位Ｎ個の認識対象文を、認識対象文の候補として抽出する。デジタル化された音声信号の瞬時パワーが平均パワーよりも小さい状態が所定時間継続した場合、信号処理部１０は、ユーザの発話が終了したと判断し、音声信号の取り込みを終了する。

ステップ３（Ｓ３）において、ある単語が発話された可能性を示す信頼度が算出される。この信頼度は、抽出された上位Ｎ個の認識対象文の候補をそれぞれ対象として、音響尤度と、その認識対象文の出現頻度とに基づいて算出される。算出された信頼度は、信頼度測定部１１３の保持部１１３ａに記憶される。

ステップ４（Ｓ４）において、算出された個々の認識対象文の候補に関する信頼度に基づいて、その信頼度が最も高い認識対象文の候補を理解結果として選択する。そして、この理解結果と、現在の作業内容とに基づいて、ユーザへの応答である応答メッセージを生成する。

ステップ５（Ｓ５）において、出力処理として、生成された応答メッセージがディスプレイ５に表示される、または、スピーカ６から音声案内として出力される。

ステップ６（Ｓ６）において、目的地設定といった作業内容に関する一連のタスクが全て完了しているか否かが判断される。このステップ６において肯定判定された場合、すなわち、タスクが完了している場合には、本処理を終了する。これに対して、ステップ６において否定判定された場合、すなわち、タスクが完了していない場合には、上述したステップ１に戻る。

一方、ステップ１の否定判定に続くステップ７では、非言語を取得した時のユーザの運転負荷と、作業内容の実行後のリスクと、非言語取得以前の発話信頼度とから、非言語の入力の有効性を判断する。そして、この判断結果に応じて作業内容の進行状態を決定する。

具体的には、この有効性判断では、運転負荷、リスク、信頼度の３つ要素のそれぞれに、その度合いが高いのかそれとも低いのかを関連付けられてなる８状態に基づいて処理を行う。

（運転負荷判定）
運転負荷は、運転に要求される様々な要素が同時に起こるときに高く設定される。ドライバの運転負荷は、録画部７からの出力結果に基づいて、通常時の顔画像と比較することで直接的にドライバの運転負荷を測定したり、車両挙動測定部８からの出力結果に基づいて、車両の走行環境、走行状態などの情報から間接的にドライバの運転負荷を測定したりすることができる。

運転負荷が大きくなる例としては、交差点での右左折、車線変更、高速道路での合流などが挙げられる。例えば、交差点での右折では、対向車線の直進車、右折先前方の歩行者の有無、目前にある信号など、また、左折時では、巻き込み確認などドライバが注意すべき点が多数ある。また、車線変更の場合、自分の前後車の状況判断、進入する車線の状況確認や車線間を走行する二輪車の有無などドライバが注意すべき点が多数ある。さらに、高速道路での合流の場合、本線の走行車線の状況に応じた自車両の速度調節などドライバが注意すべき点がある。このように、ドライバが注意すべきシーンが多数あると運転負荷を高く設定し、ドライバが注意すべきシーンが少ないときは運転負荷を低く設定する。

このようなシーンの検出手段としては、ＧＰＳ（Global Positioning System）を用いたカーナビゲーションシステムによって認識される現在地および地図情報（以下「ナビ情報」という）、アクセル操作量（例えば、アクセルペダルの踏込量）やブレーキ操作量（例えば、ブレーキペダルの踏込量）、方向指示器の動作状態を、車両挙動測定部８によって検出する。交差点で右左折する場合、ナビ情報から「現在地が交差点である」、方向指示器から「方向指示器がアクティブである」という情報を、車両挙動測定部８から計算部１１１ａが取得すると、計算部１１１ａは「自車両は交差点を右左折する」と特定する。そして、この計算部１１１ａの特定結果に基づいて、判定部１１１ｂは運転負荷が高いと判定する。また、一般道での車線変更の場合、ナビ情報から「ここは交差点ではない」、方向指示器から「方向指示器がアクティブである」という情報を、車両挙動測定部８から計算部１１１ａが取得すると、計算部１１１ａは「自車両は車線変更を行う」と特定する。そして、この計算部１１１ａの特定結果に基づいて、判定部１１１ｂは運転負荷が高いと判定する。さらに、高速道路の合流時は、ナビ情報から「ここは高速道路の分岐点である」、方向指示器から「方向指示器がアクティブ」という情報を、車両挙動測定部８から計算部１１１ａが取得すると、計算部１１１ａは「自車両は高速道路で合流する」と特定する。そして、この計算部１１１ａの特定結果に基づいて、判定部１１１ｂは運転負荷が高いと判定する。また、高速道路での車線変更の場合、ナビ情報から「ここは高速道路である」、アクセル操作量から「一定以上の速度が出ている」、方向指示器から「方向指示器がアクティブ」という情報を車両挙動測定部８から計算部１１１ａが取得すると、計算部１１１ａは「自車両は車線変更を行う」と判断する。そして、この計算部１１１ａの特定結果に基づいて、判定部１１１ｂは、運転負荷が高いと判定する。

また、録画部７からの出力結果に基づいて、通常時の顔画像と比較して、ドライバの顔の動きが頻繁な場合には、左右確認等を行っている可能性があるので、運転負荷が高いと判断する。

（リスク判定）
作業内容に対するリスクを判定する場合、非言語を取得する直前の音声案内にどのような情報が含まれているかが重要である。システムの問い掛けに対してユーザが発話する対話型の音声認識において、非言語を取得した場合、「何県ですか？」のようなユーザから情報を引き出す状態である対話型と、「○○を設定してもよろしいですか？」のようなユーザの確認を得て、対話の最終段階として確認作業を行う状態である確認型の２つに分類できる。

例えば、目的地設定を行う場合、施設（ジャンル）、住所、電話番号、郵便番号などを用いた検索方法が考えられる。ここで、それぞれの検索方法に関するリスクの判定手法を示す。

まず、「目的地を変更しますか」といったように、目的地を変更する場合など、ユーザが目的地を設定するときに既に目的地が設定されている場合には、その作業内容に対するリスクは高い。なぜならば、一度設定されている目的地を変更した場合、これが誤った作業である場合には、再度目的地を設定するという煩雑な作業が必要とされるからである。また、このようなケースにおいても、ＧＰＳ（Global Positioning System）等から車両位置情報を測定し、設定された目的地と現在地の位置関係から、車両が目的地方向に向いている場合、そのリスクは高く、一方、車両が目的地と逆方向に向いている場合、そのリスクは低い。

施設検索において、非言語入力時の対話状態が対話型である場合には、目的地を確定するために、ユーザとシステムとの間の対話が途中段階となっており、その時点での情報を用いて目的地設定を行うことは困難である。そのため、このような作業内容については、そのリスクを高く設定する。一方、非言語入力時の対話状態が確認型である場合には、目的地を確定するために、ユーザとシステムとの間の対話が最終段階となっており、そこに至るまでの対話において、システムが応答した目的地候補に対してユーザはそれを理解している。そのため、このような作業内容については、目的地設定を自動で行うことができると考えられるため、そのリスクは低く設定する。

住所検索において、非言語入力時の対話状態が対話型である場合には、目的地を確定するために、ユーザとシステムとの間の対話が途中段階となっているものの、その時点での情報を用いて目的地設定を行うことは可能である。例えば、ユーザの「神奈川県横須賀市」の発話に対して、システムが「神奈川県横須賀市役所」を目的地に設定することは可能である。しかしながら、ユーザの意図とは異なる目的地を設定してしまう可能性があり、また異なる目的地を一度設定しまうと、再度目的地を設定し直す必要がある。そのため、このような作業内容については、そのリスクが高く設定される。一方、非言語入力時の対話状態が確認型である場合には、目的地を確定するために、ユーザとシステムとの対話が最終段階となっており、そこに至るまでの対話において、システムが応答した住所を自動で目的地に設定することは可能である。しかし、入力された住所がナビゲーション用の地図データベースに登録されていない可能性もあり、その場合は付近の住所が目的地に設定されてしまう。そのため、このような作業内容については、そのリスクが高く設定される。

また、電話番号、郵便番号検索において、非言語入力時の対話状態が対話型である場合には、目的地を確定するために、ユーザとシステムとの間の対話が途中段階となっているものの、その時点での情報を用いて目的地設定を行うことは可能である。例えば、電話番号検索の場合、ユーザの「０４６」の発話に対して、システムが「神奈川県横須賀市役所」を目的地に設定することはできる。しかし、ユーザの意図とは異なる目的地を設定してしまう可能性があり、また異なる目的地を設定してしまった場合には、再度目的地を設定し直す必要がある。そのため、このような作業内容については、そのリスクが高く設定される。一方、非言語入力時の対話状態が確認型である場合には、目的地を確定するために、ユーザとシステムとの間の対話が最終段階となっており、そこに至るまでの対話において、システムが案内した電話番号または郵便番号から目的地を設定することは可能である。しかし、入力された電話番号や郵便番号が地図データベースに登録されていない可能性もある。そのため、このような作業内容については、そのリスクが高く設定される。

また、目的地設定においてジャンルや住所を用いた検索方法だけでなく、自宅やよく行く住所など予めシステムに登録しておいた場所や、目的地設定の履歴データから目的地を設定する方法がある。その場合、非言語取得時の対話状態が対話型である場合には、作業内容について、そのリスクが高く設定され、一方、対話状態が確認型である場合には、作業内容について、そのリスクが低く設定される。

地図表示の拡大や縮小などのサイズの変更、ヘディングアップやノースアップなどの地図の向きの変更、２Ｄ（平面地図）や３Ｄ（バードビュー）などの地図表示形式の変更などを行う場合、その作業内容をシステムが自動で行っても、ユーザにとってのリスクは大きくない。そのため、このような作業内容については、リスクが低く設定される。

以上、例示したように、ユーザとの対話処理を通じて行われるシステムの全ての作業内容について、そのリスクを予め定義することで、上述したリスク辞書９ａが構築されている。リスク測定部１１２の計算部１１２ａは、対話状態保持部９ｂから現在の対話状態を読み込むとともに、現在の作業内容に該当するリスクを読み込む。そして、この読み込んだ結果を判定部１１２ｂに対して出力し、判定部１１２ｂは、リスクが高いのかそれとも低いのかを判定する。

（発話信頼度）
信頼度測定部１１３の判定部１１３ｂは、非言語が入力される以前に行われた音声認識に関する信頼度、すなわち、保持部１１３ａに保持されている信頼度を参照し、この値が所定の判定値よりも大きい場合には、信頼度が高いと判定し、一方、この値が所定の判定値よりも小さい場合には、信頼度が低いと判定する。

図４は、３つのパラメータに関する高低２通りの組み合せによってできる８状態に関する有効性判断処理について説明する説明図である。第１のケースでは、運転負荷、リスクおよび信頼度がそれぞれ高いケースを想定する。このケースでは、運転負荷が軽減するまで作業内容を保留し、運転負荷が軽減したことを条件に、非言語の入力の前提となる音声案内を再度行う。

図５は、第１のケースに関する信号処理部１０の対話処理を説明するタイミングチャートである。具体的には、タイミング１ａ〜タイミング１０ａに示すように、ユーザとシステムとの間で一連の対話が行われる。例えば、タイミング４ａに示すように、「神奈川県の施設名称をどうぞ」というシステムの問い掛けに対して、ユーザ側の発話がないとする（タイミング５ａに示す非言語入力）。このケースでは、ドライバの運転負荷が高いためシステムがドライバに発話を促すような音声案内を行うことは運転負荷をより高めてしまう可能性があり好ましくない。また、作業内容に対するリスクが高いため作業内容を自動で実行することは難しい。そのため、運転負荷が軽減するまで作業内容を保留し、運転負荷が軽減したことを条件として、タイミング６ａに示すように、非言語の入力の前提となる音声案内（すなわち、タイミング４ａに示す音声案内）を再度行う。

第２のケースでは、運転負荷およびリスクがそれぞれ高く、信頼度のみが低いケースを想定する。このケースでは、運転負荷が軽減するまで作業内容を保留し、運転負荷が低減したことを条件に、非言語の入力の前提となる音声案内を再度行う。

図６は、第２のケースに関する信号処理部１０の対話処理を説明するタイミングチャートである。具体的には、タイミング１ｂ〜タイミング１０ｂに示すように、ユーザとシステムとの間で一連の対話が行われる。ここでは、音声認識の信頼度が低いケースであり、タイミング３ｂにおける「神奈川県」というユーザの発話に対して、タイミング４ｂに示すように、例えば、「香川県の施設名称をどうぞ」というシステムの問い掛けが行われる。この問い掛けに対して、ユーザ側の発話がないとする（タイミング５ｂに示す非言語入力）。このケースでは、運転負荷が高いためシステムがドライバに発話を促すような音声案内を行うことは運転負荷をより高めてしまう可能性があり好ましくない。また、作業内容に対するリスクが高いため、その作業内容を自動で実行することも好ましくない。そのため、ユーザの運転負荷が軽減するまで作業内容を保留し、運転負荷が軽減したことを条件として、タイミング６ｂに示すように、非言語の入力の前提となる音声案内（タイミング４ｂと同様の音声案内）を再度行う。

第３のケースでは、運転負荷および信頼度がそれぞれ高く、リスクのみが低いケースを想定する。このケースでは、作業内容に対するリスクが低いのみであるため、その作業内容を自動で実行する。

図７は、第３のケースに関する信号処理部１０の対話処理を説明するタイミングチャートである。具体的には、タイミング１ｃ〜タイミング８ｃに示すように、ユーザとシステムとの間で一連の対話が行われる。ここで、例えば、タイミング６ｃに示すように、「追浜駅でよろしいですか？」というシステムの問い掛けに対して、ユーザ側の発話がないとする（タイミング７ｃに示す非言語入力）。このケースでは、ドライバの運転負荷が高いものの、作業内容に対するリスクが低いため、非言語の入力に応じて自動で作業内容を実行する。この場合、タイミング８ｃに示すように、信号処理部１０は、例えば、「追浜駅に目的地を設定します」といった音声案内を行い、音声認識を終了する。ドライバの運転負荷が高い場合、ドライバに発話を促すような音声案内を行うことは、運転負荷をより高めてしまう可能性があるため好ましくない。しかしながら、作業内容に対するリスクが低く、音声認識に対する信頼度が高いので、作業内容を自動で実行する。

第４のケースでは、運転負荷のみが高く、リスクおよび信頼度がそれぞれ低いケースを想定する。このケースでは、運転負荷が軽減するまで作業内容を保留し、運転負荷が低減した時に、非言語の入力の前提となる音声案内を再度行う。

図８は、第４のケースに関する信号処理部１０の対話処理を説明するタイミングチャートである。具体的には、タイミング１ｄ以降（同図には、タイミング１０ｄまで）に示すように、ユーザとシステムとの間で一連の対話が行われる。音声認識の信頼度が低いケースでは、タイミング５ｄにおける「追浜駅」というユーザの発話に対して、タイミング６ｄに示すように、例えば、「奥多摩駅でよろしいですか？」というシステムの問い掛けが行われる。この問い掛けに対して、ユーザ側の発話がないとする（タイミング７ｄに示す非言語入力）。このケースでは、作業内容に対するリスクが低いものの、音声認識に対する信頼度も低いため、運転負荷が軽減するまで作業内容を保留し、運転負荷が軽減したことを条件として、タイミング８ｄに示すように、非言語の入力の前提となる音声案内（タイミング６ｄと同様の音声案内）を再度行うようにする。このように、ドライバの運転負荷が高いためシステムがドライバに発話を促すような音声案内を行うことは、運転負荷をより高めてしまう可能性があるため好ましくない。また、作業内容に対するリスクは低いが、音声認識に対する信頼度も低いため、作業内容を自動で実行することは難しい。そのため、運転負荷が軽減するまで作業内容を保留し、運転負荷が軽減することを条件として、再度音声案内を行うようにする。

第５のケースでは、運転負荷のみが低く、リスクおよび信頼度がそれぞれ高いケースを想定する。このケースでは、作業内容の確認を行うこととし、対話状態が対話型であれば、ユーザが発話する例を提示して音声案内を再度行い、一方、確認型であれば返答方法を示して音声案内を再度行う。

図９は、第５のケースに関する信号処理部１０の対話処理を説明するタイミングチャートである。具体的には、タイミング１ｅ〜タイミング１２ｅに示すように、ユーザとシステムとの間で一連の対話が行われる。例えば、タイミング４ｅで示すように、「神奈川県の施設名称をどうぞ」というシステムの問い掛けに対して、ユーザ側の発話がないとする（タイミング５ｅに示す非言語入力）。このケースでは、運転負荷が高いわけでもなく、単に、システムの音声案内に対する返答方法が分からない、或いは、目的地やジャンルの名称が分からないためユーザが非言語を入力したことが考えられる。そのため、システムはユーザから情報を引き出すような音声案内を行うこととする。対話状態が対話型である場合、例えば、施設名称の入力方法が分からないユーザには、タイミング６ｅに示すように、「駅・レストラン・遊園地などジャンル名をどうぞ」といったように、ユーザに答え方を誘導するような音声案内を行う。また、非言語の入力の前提となる音声案内が確認型である場合、非言語の入力の前提となる音声案内を再度行い、また同時に「はい／いいえでお答え下さい」などの例を音声案内として行うことにより、ユーザが聞き逃した場合や、返答方法が分からない場合であっても設定作業を先に進めることができる。

第６のケースでは、運転負荷および信頼度がそれぞれ低く、リスクのみが高いケースを想定する。このケースでは、作業内容の確認を行うこととし、対話状態が対話型であれば、直前の音声認識の結果に対する確認を行い、確認型であれば返答方法を示し音声案内を再度行う。

図１０は、第６のケースに関する信号処理部１０の対話処理を説明するタイミングチャートである。具体的には、タイミング１ｆ以降（同図には、タイミング１０ｆまで）に示すように、ユーザとシステムとの間で一連の対話が行われる。音声認識に対する信頼度が低いケースでは、タイミング３ｆにおける「神奈川県」というユーザの発話に対して、タイミング４ｆに示すように、例えば、「香川県の施設名称をどうぞ」というシステムの問い掛けが行われる。この問い掛けに対して、ユーザ側の発話がないとする（タイミング５ｆに示す非言語入力）。このケースでは、システムの音声案内に対して返答方法、或いは、訂正方法が分からないためユーザが非言語を入力したと考えることができる。すなわち、直前のユーザの発話に対する認識結果の信頼度が低いため、その認識結果に対して確認を行う必要がある。対話状態が対話型である場合、例えば、タイミング６ｆに示すように、「香川県でよろしいですか？はい／いいえでお答えください」というように、直前の認識結果を確認することで、認識結果が合っているか否かをユーザに確認することができる。また、対話状態が確認型である場合、非言語の入力の前提となる音声案内を再度行い、また同時に「はい／いいえでお答え下さい」などの例を示すことで、ユーザが聞き逃した場合であっても、返答方法が分からない場合であっても作業内容を進行させることができる。

第７のケースでは、運転負荷およびリスクがそれぞれ低く、信頼度のみが高いケースを想定する。このケースでは、作業内容を自動で実行する。

図１１は、第７のケースに関する信号処理部１０の対話処理を説明するタイミングチャートである。具体的には、タイミング１ｇ〜タイミング８ｇに示すように、ユーザとシステムとの間で一連の対話が行われる。ここでは、タイミング５ｇにおける「追浜駅」というユーザの発話に対して、タイミング６ｇに示すように、例えば、「追浜駅でよろしいですか？」というシステムの問い掛けが行われる。この問い掛けに対して、ユーザ側の発話がないとする（タイミング７ｄに示す非言語入力）。このケースでは、システムの音声案内に対してユーザは答えることはできるが、答えることが面倒であったりすることが考えられる。また、作業内容に対するリスクが低く、また、音声認識に対する信頼度が高いため、作業内容を自動で実行することが可能となる。

第８のケースでは、運転負荷、リスクおよび信頼度がそれぞれ低いケースを想定する。このケースでは、作業内容の確認を行うこととし、返答方法などの例を示して音声案内を再度行う。

図１２は、第８のケースに関する信号処理部１０の対話処理を説明するタイミングチャートである。具体的には、タイミング１ｈ以降（同図には、タイミング１０ｈまで）に示すように、ユーザとシステムとの間で一連の対話が行われる。信頼度が低いケースでは、タイミング５ｄにおける「追浜駅」というユーザの発話に対して、タイミング６ｄに示すように、例えば、「奥多摩駅でよろしいですか？」というシステムの問い掛けが行われる。この問い掛けに対して、ユーザ側の発話がないとする（タイミング７ｄに示す非言語入力）。このケースでは、音声案内に対して答え方が分からず、ユーザが戸惑ったため非言語を入力したと考えられる。また、作業内容に対するリスクが低く、また、音声認識に対する信頼度が低いため、非言語の入力の前提となる音声案内を再度行い、同時に「はい／いいえでお答え下さい」などの例を示す。これにより、ユーザが音声案内を聞き逃した場合であったり、返答方法が分からない場合であったりしても、作業内容を進行させることができる。

このように本実施形態において、音声認識装置は、ユーザが発話した音声を取得して、音声信号を出力する音声信号取得手段（例えば、マイク２）と、ユーザへの問い掛けと、この問い掛けに応じて音声信号取得部から入力される音声信号に基づいた音声認識とを行うことにより、ユーザとの対話処理を通じて所定の作業内容を行う処理手段（例えば、信号処理部１０）とを有している。ここで、処理手段は、ユーザへの問い掛けに応じて、音声信号取得手段から非言語が入力された場合には、この非言語が入力された際の状況に応じて、非言語の入力の有効性を判断し、有効性の判断結果に応じて、作業内容の確認、作業内容の保留、および、作業内容の実行のいずれかを判断する。

かかる構成によれば、使用者が黙ってしまうなどの「非言語」がシステムに入力された場合であっても、その場の状況に応じて、非言語の入力の有効性を判断することにより、その判断結果に応じて、作業内容の実行、作業内容の確認、および、作業内容の保留を判断する。そのため、最初から音声認識をやり直すといったように、発話回数や処理時間の低減を図ることができ、ユーザにとって使い勝手のよい音声認識を行うことができる。

また、本実施形態において、処理手段は、有効性の判断を、ユーザの運転負荷の程度によって行う。かかる構成によれば、運転負荷が高い状況では、作業内容を保留する、また、運転負荷が低い状況であれば、作業内容を実行、確認するといった判断を行うことができる。これにより、ユーザの状態に合った適切な処理を行うことができる。

また、本実施形態において、処理手段は、有効性の判断を、作業内容を実行した後のリスクの程度によって行う。かかる構成によれば、リスクが高い状況では、作業内容を保留、確認する、リスクが低い状況であれば、作業内容を実行するといった判断を行うことができる。これにより、使用者の状態にあった適切な処理を行うことができる。

また、本実施形態において、処理手段は、有効性の判断を、音声認識の信頼度の程度によって行う。かかる構成によれば、信頼度が高い状況では、作業内容を実行する、信頼度が低い状況では、作業内容を保留、確認するといった判断を行うことができる。これにより、ユーザの状態に合った適切な処理を行うことが出来る。

また、本実施形態において、処理手段は、ユーザの運転負荷を、少なくとも車両の走行環境または走行状態に基づいて特定する。これにより、ユーザの運転負荷を精度よく特定することが可能となり、有効性の判断を正確に行うことができる。

また、本実施形態において、処理手段は、ユーザの運転負荷を、ユーザの顔の状態に基づいて特定する。これにより、ユーザの運転負荷を精度よく特定することが可能となり、有効性の判断を正確に行うことができる。

また、本実施形態において、処理手段は、作業内容を実行した後のリスクを、ユーザとの対話状態に基づいて特定する。これにより、リスクを精度よく特定することが可能となり、有効性の判断を正確に行うことができる。

また、本実施形態において、処理手段は、作業内容を実行した後のリスクを、個々の作業内容毎に予め関連付けられたリスクデータベースを参照することより特定する。これにより、リスクを精度よく特定することが可能となり、有効性の判断を正確に行うことができる。

なお、上述した実施形態では、運転負荷、リスク、信頼度の３つのパラメータを総合的に評価して、作業内容を実行するか、確認するか、それとも保留するかといった判断を行った。しかしながら、本発明はこれに限定されるものではなく、個々のパラメータを単独で用いて、作業内容に関する処理を判断してもよい。

また、本発明の音声認識装置は、ナビゲーション装置の操作を音声認識によって行うのみならず、車両に搭載されたオーディオボリュームの上げ下げ、室内温度の上げ下げといった種々の操作に適用することができる。例えば、また、音声案内のボリュームの上げ下げや、室内設定温度の上げ下げなどを行う場合、その作業をシステムが自動で行ってもユーザにとってリスクは大きくないため、リスクは低く設定する。ＦＭからＡＭへの変更やＭＤからＣＤへの変更などといったオーディオ関連操作の場合、その作業をシステムが自動で行ってもユーザにとってのリスクは大きくないため、リスクは低く判定する。しかし、オーディオ関連操作の場合、ユーザがよく聞くラジオ放送局を予めシステムに登録する機能があるが、その登録済みの局を変更する作業を自動で行ってしまうのはリスクは大きいため、登録局を変更する作業はリスクは高く判定するといった如くである。

本発明の実施形態にかかる音声認識装置が適用されたナビゲーション装置の全体構成を示すブロック図信号処理部１０の構成を示すブロック図本実施形態にかかる音声認識処理の手順を示すフローチャート３つのパラメータに関する高低２通りの組み合せによってできる８状態の有効性判断処理について説明する説明図第１のケースに関する信号処理部１０の対話処理を説明するタイミングチャート第２のケースに関する信号処理部１０の対話処理を説明するタイミングチャート第３のケースに関する信号処理部１０の対話処理を説明するタイミングチャート第４のケースに関する信号処理部１０の対話処理を説明するタイミングチャート第５のケースに関する信号処理部１０の対話処理を説明するタイミングチャート第６のケースに関する信号処理部１０の対話処理を説明するタイミングチャート第７のケースに関する信号処理部１０の対話処理を説明するタイミングチャート第８のケースに関する信号処理部１０の対話処理を説明するタイミングチャート

符号の説明

１ナビゲーション装置
２マイク
３コンバータ
４発話スイッチ
５ディスプレイ
６スピーカ
７コンバータ
７録画部
８車両挙動測定部
９外部記憶部
９ａリスク辞書
９ｂ対話状態保持部
１０信号処理部
１０ａＣＰＵ
１０ｂメモリ
１１有効性判断ユニット
１２処理ユニット
１３信頼度計算ユニット
１１１運転負荷測定部
１１１ａ計算部
１１１ｂ判定部
１１２リスク測定部
１１２ａ計算部
１１２ｂ判定部
１１３信頼度測定部
１１３ａ保持部
１１３ｂ判定部
１１４有効性判断部

Claims

音声認識装置において、
ユーザが発話した音声を取得して、音声信号を出力する音声信号取得手段と、
ユーザへの問い掛けと、当該問い掛けに応じて前記音声信号取得部から入力される音声信号に基づいた音声認識とを行うことにより、ユーザとの対話処理を通じて所定の作業内容を行う処理手段とを有し、
前記処理手段は、前記ユーザへの問い掛けに応じて、前記音声信号取得手段から入力された音声信号の強度が基準値未満である場合には、当該音声信号が入力された際の状況に基づいて、前記音声信号の入力の有効性を判断し、前記有効性の判断結果に応じて、前記作業内容の実行、前記作業内容の確認、および、前記作業内容の保留のいずれかを判断し、
前記処理手段は、前記作業内容の保留を判断する場合、ユーザの運転負荷が所定値以下に軽減するまで前記作業内容を保留し、ユーザの運転負荷が所定値以下に軽減したことを条件として再度前記ユーザへの問い掛けを行う
ことを特徴とする音声認識装置。
前記処理手段は、前記有効性の判断を、ユーザの運転負荷の程度によって行うことを特徴とする請求項１に記載された音声認識装置。
前記処理手段は、前記有効性の判断を、前記作業内容を実行した後のリスクの程度によって行うことを特徴とする請求項１または２に記載された音声認識装置。
前記処理手段は、前記有効性の判断を、音声認識の信頼度の程度によって行うことを特徴とする請求項１から３のいずれか一項に記載された音声認識装置。
前記処理手段は、前記ユーザの運転負荷を、少なくとも車両の走行環境または走行状態に基づいて特定することを特徴とする請求項２に記載された音声認識装置。
前記処理手段は、前記ユーザの運転負荷を、ユーザの顔の状態に基づいて特定することを特徴とする請求項２に記載された音声認識装置。
前記処理手段は、前記作業内容を実行した後のリスクを、ユーザとの対話状態に基づいて特定することを特徴とする請求項３に記載された音声認識装置。
前記処理手段は、前記作業内容を実行した後のリスクを、個々の作業内容毎に予め関連付けられたリスクデータベースを参照することより特定することを特徴とする請求項３に記載された音声認識装置。