JP2022054671A

JP2022054671A - 音声対話装置、音声対話システム、および、音声対話方法

Info

Publication number: JP2022054671A
Application number: JP2020161829A
Authority: JP
Inventors: 修久木元; Osamu Kukimoto; 栄地 ▲瀬▼戸; Eiji Seto
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2022-04-07

Abstract

【課題】音声対話装置を利用するユーザの利便性を向上しつつ、ユーザが装置に対して不信感を抱き難くする音声対話装置、音声対話システム及び音声対話方法を提供する。【解決手段】音声対話システム１００において、ユーザと対話を行う音声対話装置１の制御部１３は、ユーザの発話が自装置に対する発話である可能性を示す判定値を求める判定値算出部と、前記ユーザに応答する場合に、前記判定値に基づいて応答の種類を変化させる応答処理部と、を備える。【選択図】図１

Description

本発明は、音声対話装置、音声対話システム、および、音声対話方法に関する。

従来、ユーザと対話を行う音声対話装置が知られる。従来の音声対話装置においては、ユーザが、ボタンを押したり、ウェイクワードと呼ばれる所定のワードを発声したりすることにより、音声対話装置が対話を開始させる構成となっている（例えば特許文献１参照）。

国際公開第２０２０／００３７８５号

音声対話装置が、発話を行ったユーザの振舞いの特徴を捉えて、ユーザの発話が自装置に向けられたものであるか否かを判断可能な構成とすると、例えばウェイクワードを言わずとも、音声対話装置との対話を開始させることができる。なお、この場合のユーザの振舞いとしては、例えば話し方や顔の動きが挙げられる。

しかしながら、ユーザの振舞いの特徴を捉えてユーザの発話が自装置に向けられたものであるか否かを判定することは難しく、ユーザの期待に沿った応答ができない可能性がある。この場合、ユーザは、装置との対話に失敗したと感じてしまい、装置を使用する意欲を損なう可能性がある。

本発明は、上記の点に鑑み、音声対話装置を利用するユーザの利便性を向上しつつ、ユーザが装置に対して不信感を抱き難くすることができる技術を提供することを目的とする。

上記目的を達成するために本発明の音声対話装置は、ユーザと対話を行う音声対話装置であって、前記ユーザの発話が自装置に対する発話である可能性を示す判定値を求める判定値算出部と、前記ユーザに応答する場合に、前記判定値に基づいて応答の種類を変化させる応答処理部と、を備える構成（第１の構成）になっている。

上記第１の構成の音声対話装置において、前記応答処理部は、前記判定値が第１閾値以上である場合に前記ユーザに応答する処理を行い、前記判定値が前記第１閾値より小さい場合に前記ユーザに応答する処理を行わない構成（第２の構成）であってよい。

上記第２の構成の音声対話装置において、前記応答処理部は、前記判定値が前記第１閾値以上且つ第２閾値以下である第１の場合と、前記判定値が前記第２閾値より大きい第２の場合とで前記応答の種類を変化させる構成（第３の構成）であってよい。

上記第３の構成の音声対話装置において、前記第１の場合における前記応答は、前記ユーザの要望を確認する応答であり、前記第２の場合における前記応答は、前記ユーザの要望に応える応答である構成（第４の構成）であってよい。

上記第３又は第４の構成の音声対話装置において、前記応答処理部は、前記第１の場合であっても、前記ユーザの発話のドメインが第１のドメインでない場合には、前記ユーザに応答する処理を行わない構成（第５の構成）であってよい。

上記第２から第５のいずれかの構成の音声対話装置において、前記応答処理部は、前記判定値が前記第１閾値より小さい場合でも、前記ユーザの発話のドメインが第２のドメインである場合には、前記ユーザに応答する処理を行う構成（第６の構成）であってよい。

上記第１から第６のいずれかの構成の音声対話装置において、前記判定値は、前記ユーザの発話音声と、前記ユーザの発話時における動きとの少なくともいずれか一方に基づいて求められる構成（第７の構成）であってよい。

上記目的を達成するために本発明の音声対話システムは、上記第１から第７のいずれかの構成の音声対話装置と、前記ユーザの音声を音声信号に変換して前記音声対話装置へと出力するマイクロホンと、前記音声対話装置から出力される音声信号を音声に変換して前記ユーザに向けて放音するスピーカと、を備える構成（第８の構成）になっている。

上記第８の構成の音声対話システムは、前記ユーザを撮影し、撮影した画像の情報を前記音声対話装置に出力するカメラを更に備える構成（第９の構成）であってよい。

上記目的を達成するために本発明の音声対話方法は、ユーザと対話を行う音声対話装置における音声対話方法であって、前記ユーザの発話が前記音声対話装置に対する発話である可能性を示す判定値を求める判定値算出工程と、前記ユーザに応答する場合に、前記判定値に基づいて応答の種類を変化させる応答処理工程と、を備える構成（第１０の構成）になっている。

本発明によれば、音声対話装置を利用するユーザの利便性を向上しつつ、ユーザが装置に対して不信感を抱き難くすることができる。

音声対話システムの構成を示すブロック図音声対話装置が備える制御部の機能を示すブロック図音声対話装置の動作例を示すフローチャート音声対話装置の動作の第１変形例を示すフローチャート音声対話装置の動作の第２変形例を示すフローチャート

以下、本発明の例示的な実施形態について、図面を参照しながら詳細に説明する。

＜１．音声対話システム＞
図１は、本発明の実施形態に係る音声対話システム１００の構成を示すブロック図である。本実施形態の音声対話システム１００は、一例として車両に適用される。車両には、例えば自動車や電車等の車輪のついた乗り物が広く含まれてよい。本発明の音声対話システム１００は、船舶や航空機等の車両以外の人を載せる移動体や、家屋や施設等の移動体以外のものに適用されてもよい。

図１に示すように、音声対話システム１００は、音声対話装置１と、マイクロホン２と、スピーカ３とを備える。また、音声対話システム１００は、カメラ４と、サーバ装置５とを更に備える。なお、音声対話システム１００は、カメラ４とサーバ装置５との少なくともいずれか一方を備えなくてもよい。

音声対話装置１は、ユーザと対話を行う。本実施形態では、ユーザは、運転者等の車両の乗員である。音声対話装置１は、車両の適所に配置される車両用対話装置である。音声対話装置１は、ユーザの発話に対して、適宜、応答を行う。応答には、ユーザの発話に対する音声による回答が含まれる。また、応答には、ユーザの発話に対する回答を画面表示する等、音声以外の手段を利用した回答が含まれてもよい。ユーザの発話に対する回答を画面表示する構成の場合には、音声対話システム１００には、モニタが含まる。

本明細書における「対話」には、ユーザと装置との音声によるやりとりのみならず、ユーザからの音声による指示に対して、装置が音声以外の手段を利用して応答する場合が含まれてよい。

マイクロホン２は、ユーザが発生した音声を集音する。マイクロホン２は、車両の適所に配置される。マイクロホン２は、音声対話装置１と有線又は無線にて接続される。マイクロホン２は、ユーザの音声を音声信号に変換して音声対話装置１へと出力する。なお、マイクロホン２は、音声対話装置１に含まれてもよい。

スピーカ３は、音声対話装置１と有線又は無線にて接続される。スピーカ３は、音声対話装置１から出力される音声信号を音声に変換してユーザに向けて放音する。スピーカ３も、マイクロホン２と同様に、車両の適所に配置される。なお、スピーカ３は、音声対話装置１に含まれてもよい。

カメラ４は、音声対話装置１と有線又は無線にて接続される。カメラ４は、ユーザを撮影し、撮影した画像の情報を音声対話装置１に出力する。カメラ４は、例えば、車両の座席に座るユーザの全体を撮影可能に車両の適所に配置される。また、例えば、カメラ４は、車両の座席に座るユーザの顔を撮影可能に車両の適所に配置される。なお、カメラ４は、音声対話装置１に含まれてもよい。

サーバ装置５は、インターネット等のネットワークに接続されたコンピュータ装置である。本実施形態のサーバ装置５は、人工知能（ＡＩ：Artificial Intelligence）を備える。サーバ装置５は、ネットワークに接続された任意の他のコンピュータ装置から様々な情報の提供を受けることができる。音声対話装置１は、ネットワークを介してサーバ装置５と情報のやりとりを行うことができる。

本実施形態の音声対話システム１００では、詳細は後述するように、ユーザがウェイクワードを発しなくても、音声対話装置１がユーザとの対話を開始させることができる。また、音声対話装置１は、ユーザの発話が自装置に向けた発話であるか否かの判定が難しい場合には、ユーザに対して意図の確認を行う構成となっているために、ユーザが音声対話装置１との対話に失敗したと感じ難くすることができる。

また、本実施形態の音声対話システム１００では、音声対話装置１が、ユーザの音声のみならず、カメラ４から取得されるユーザの画像情報をも考慮してユーザとの対話に関わる判断を行うことができる。このため、本実施形態の音声対話システム１００によれば、ユーザの発話が音声対話装置１に向けた発話であるか否かの判定の確度を向上させることができ、ユーザが音声対話装置１との対話に失敗したと感じ難くすることができる。

なお、音声対話装置１は、ユーザによるボタンの押下や、ウェイクワードの発声によってユーザとの対話を開始させる機能を備えてもよい。このように構成することにより、音声対話装置１と対話を行いたいユーザの好みに合わせて装置の利用方法を選択することができ、ユーザの利便性を向上することができる。

＜２．音声対話装置＞
次に、音声対話装置１について詳細に説明する。図１に示すように、音声対話装置１は、音声認識部１１と、画像処理部１２と、制御部１３と、記憶部１４と、通信部１５と、を備える。

音声認識部１１は、半導体集積回路により構成される。音声認識部１１は、例えばＡＩチップにより構成される。音声認識部１１は、入力された音声信号によりユーザの発話を検出する。音声認識部１１は、検出したユーザの発話音声をテキストデータ（文字列データ）に変換したり、音声の特徴を抽出したりする。音声の特徴には、例えば、音量、音高（ピッチ）、抑揚（イントネーション）等が含まれてよい。音声認識部１１は、制御部１３と接続される。音声認識部１１は、変換により得られたテキストデータ、および、音声の特徴を示すデータを含む音声に関わる情報を制御部１３に出力する。

画像処理部１２は、カメラ４で撮影された画像のデータを入力される。画像処理部１２は、半導体集積回路により構成される。画像処理部１２は、例えばＡＩチップにより構成される。画像処理部１２は、入力された画像データからユーザの振舞い（動作）に関わる特徴を抽出する。ユーザの振舞いに関わる特徴には、例えば、ユーザの姿勢変化、顔の向きの変化（詳細には顔の回転や顔の上下動）等が含まれてよい。画像処理部１２は、制御部１３と接続される。画像処理部１２は、ユーザの振舞いに関わる特徴を示すデータを含む撮影画像情報を制御部１３に出力する。

制御部１３は、音声対話装置１の全体を統括的に制御するコントローラである。制御部１３は、例えば、ＣＰＵ（Central Processing Unit）を含むコンピュータであってよい。制御部１３によって実現される各種の機能は、コンピュータが記憶部１４に記憶されるプログラムに従って演算処理を実行することにより実現される。

記憶部１４は、例えば、ＲＡＭ（Random Access Memory）やフラッシュメモリ等の半導体メモリ素子、ハードディスク、或いは、光ディスク等の可搬型の記録媒体を用いる記憶装置等で構成される。記憶部１４は、ファームウェアとしてのプログラムや各種のデータを記憶する。

通信部１５は、制御部１３と接続される。通信部１５は、無線通信を利用してネットワーク経由でサーバ装置５と接続され、サーバ装置５と双方向通信を行う。すなわち、制御部１３は、通信部１５を利用して、サーバ装置５と情報のやりとりを行うことができる。

図２は、本発明の実施形態に係る音声対話装置１が備える制御部１３の機能を示すブロック図である。制御部１３は、それを構成するコンピュータがプログラムに従って演算処理を行うことによって発揮する機能として、判定値算出部１３１と、応答処理部１３２とを備える。換言すると、音声対話装置１は、判定値算出部１３１と、応答処理部１３２とを備える。

なお、判定値算出部１３１および応答処理部１３２のうちの少なくともいずれか一方は、ＡＳＩＣ（Application Specific Integrated Circuit）又はＦＰＧＡ（Field Programmable Gate Array）等のハードウェアで構成されてもよい。また、判定値算出部１３１および応答処理部１３２は、概念的な構成要素である。１つの構成要素が実行する機能を複数の構成要素に分散させたり、複数の構成要素が有する機能を１つの構成要素に統合させたりしてよい。また、上述の音声認識部１１の少なくとも一部の機能や、画像処理部１２の少なくとも一部の機能が、制御部１３の機能に含まれてもよい。

判定値算出部１３１は、ユーザの発話が自装置１に対する発話である可能性を示す判定値を求める。判定値は、例えば百分率で表される。例えば、判定値算出部１３１は、ユーザの発話が自装置１に対する発話である可能性が高いほど判定値を大きな値とする。判定値は、ユーザの発話音声と、ユーザの発話時における動きとの少なくともいずれか一方に基づいて求められる。音声対話装置１に対して話しかける際のユーザの口調や動きには、多くの人の間で同様の傾向が見られるために、ユーザの発話音声や発話時の動きを利用することにより、判定値の信頼性を向上することができる。

本実施形態では、判定値は、ユーザの発話音声と、ユーザの発話時における動きとの両方に基づいて求められる。詳細には、判定値算出部１３１は、音声認識部１１から入力されるユーザの発話における音声の特徴と、画像処理部１２から入力されるユーザの発話時の動きの特徴とに基づいて判定値を求める。

ユーザの発話における音声の特徴には、例えば、音量、音高（ピッチ）、抑揚（イントネーション）等が含まれる。例えば、ユーザは、音声対話装置１に向けての発話である場合、はっきりと聞き取りやすく話す傾向がある。このため、例えば、ユーザが他の同乗者と話している時の音量の値よりユーザの発話音声の音量の値が大きい場合、判定値が大きくなる。ユーザの発話は、音声対話装置１に向けての発話である場合、抑揚が少なくなる傾向がある。このために、発話音声の抑揚が少なければ少ないほど、判定値が大きくなる。

また、ユーザの発話時の動きの特徴には、例えば、ユーザの姿勢変化や顔の向きの変化等が含まれる。例えば、ユーザは、音声対話装置１に向けて発話する場合、音声対話装置１やマイクロホン２の方をちらっと見る傾向がある。このために、ユーザの姿勢が音声対話装置１やマイクロホン２の方向へ近づくように移動した時や、顔の向きの変化からユーザが音声対話装置１やマイクロホン２の方を向いたと判断される場合には、判定値が大きくなる。

判定値算出部１３１は、例えばディープラーニング等の手法により機械学習を行った学習済みモデル（ニューラルネットワーク）を用いて判定値を求める。学習済みモデルは、例えばユーザが音声対話装置１に対して話しかけている場合の大量のデータと、音声対話装置１に対して話しかけていない場合の大量のデータとを用いて機械学習を行わせることによって得られる。なお、音声対話装置１に対して話しかけていない場合としては、例えば、ユーザが独り言を言っている場合や、ユーザが車両の他の乗員と会話している場合等が挙げられる。

学習済みモデルを利用する判定値算出部１３１は、音声認識部１１で認識したユーザの発話音声の特徴を示す少なくとも一つの特徴量（抑揚等）と、ユーザの発話前後における動きの特徴を示す少なくとも一つの特徴量（顔の回転速度等）とを入力されることにより、判定値を算出する。

応答処理部１３２は、判定値算出部１３１により求められた判定値に基づいて処理を行う。本実施形態では、応答処理部１３２は、判定値が第１閾値以上である場合にユーザに応答する処理を行い、判定値が第１閾値より小さい場合にユーザに応答する処理を行わない。第１閾値は、ユーザの発話が音声対話装置１に向けられた発話でないとの判定を可能とするために設定される値であり、実験やシミュレーションにより求められる。判定値が第１閾値より小さい場合には、ユーザの発話が音声対話装置１に向けられた発話でないと判定される。本構成のように判定値と第１閾値とを比較してユーザに応答するか否かを決める構成とすることにより、ユーザが望まない場合にユーザの発話に応答するといった事態が生じることを抑制することができる。

ユーザに応答する場合の処理には、例えば、ユーザの発話音声の解読処理、音声の解読により理解されたユーザの要望を解決する解決処理、および、解決処理の成果をユーザに伝達する伝達処理が含まれる。解読処理には、例えばユーザの発話意図の解析処理が含まれる。解決処理には、例えばインターネットを利用した検索処理が含まれる。伝達処理には、例えば音声応答や表示応答が含まれる。上述のように、本明細書では、音声応答のみならず、表示応答も対話を構成する要素である。

応答処理に含まれる各種の処理は、応答処理部１３２によって全て行われてもよいが、本実施形態では、一部の処理がサーバ装置５によって行われる。サーバ装置５は、ユーザの発話の音声信号を音声対話装置１から受信し、受信した音声信号に対し詳細音声認識処理及び自然言語処理等を行うことでユーザの発話意図を認識する。また、サーバ装置５は、認識したユーザの要望に応えるための成果データを生成し、当該成果データを音声対話装置１に送信する。応答処理部１３２は、受信した成果データに基づいてユーザに対する応答を行う。

本実施形態では、応答処理部１３２は、ユーザに応答する場合に、判定値に基づいて応答の種類を変化させる。具体的には、応答処理部１３２は、判定値に基づきユーザの発話が自装置１に向けた発話である可能性が高いと判定される場合と、判定値に基づきユーザの発話が自装置１に向けた発話か否かの判定が難しい場合との２つの場合に、ユーザに対して応答する。そして、当該２つの場合で、応答の種類を変化させる。

本実施形態の音声対話装置１では、判定値を利用することによって、ユーザがウェイクワードを発しなくてもユーザとの対話を開始させることができるために、ユーザの利便性を向上することができる。また、本実施形態の音声対話装置１においては、ユーザの発話が自装置１に向けた発話である可能性が高い場合と、ユーザの発話が自装置１に向けた発話であるか否かの判定が難しい場合とで、応答の種類を変えて応答を行うことが可能になっている。このために、ユーザが音声対話装置１との対話に失敗したと感じ難くすることができる。

図３は、本発明の実施形態に係る音声対話装置１の動作例を示すフローチャートである。例えば、音声対話装置１は、車両のＡＣＣがオンされることによって動作を開始する。

ステップＳ１では、制御部１３（例えば判定値算出部１３１）により、ユーザの発話が検出されたか否かの確認が行われる。ユーザの発話の検出は、音声認識部１１により行われる。ユーザの発話が検出された場合（ステップＳ１でＹｅｓ）、次のステップＳ２に処理が進められる。一方、ユーザの発話が検出されていない場合には（ステップＳ１でＮｏ）、ステップＳ１の処理が繰り返される。

ステップＳ２では、判定値算出部１３１が判定値を算出する。判定値算出部１３１は、上述のように機械学習を行った学習済みモデルを用いて判定値を求める。学習済みモデルに所定の特徴量が入力されることにより、判定値が求められる。例えば、学習済みモデルには、音声認識部１１で認識したユーザの発話音声の特徴を示す少なくとも一つの特徴量（抑揚等）と、ユーザの発話前後における動きの特徴を示す少なくとも一つの特徴量（顔の回転速度等）とが入力される。なお、ユーザの動きの特徴を示す特徴量は、画像処理部１２から得られる。判定値算出部１３１により判定値が求められると、次のステップＳ３に処理が進められる。

ステップＳ３では、応答処理部１３２により、算出した判定値が第１閾値より小さいか否かが確認される。上述のように、第１閾値は、ユーザの発話が音声対話装置１に向けた発話でないとの判定を可能とするために設定される。応答処理部１３２は、判定値が第１閾値より小さい場合（ステップＳ３でＹｅｓ）、次のステップＳ４に処理を進める。一方、応答処理部１３２は、判定値が第１閾値以上である場合（ステップＳ３でＮｏ）、ステップＳ５に処理を進める。

ステップＳ４では、応答処理部１３２が、ユーザの発話に対する応答処理を行わないことに決定する。これは、判定値によって、ユーザの発話が自装置１に向けた発話でないと判断できるからである。ステップＳ４の処理の完了により、検出したユーザの発話に対する処理は終了となる。例えば、ユーザの発話が「トイレに行く？」といった雑談口調（他の乗員に向けた発話）である場合、判定値は第１閾値より小さくなり、ステップＳ４の処理が行われることになる。すなわち、同乗者に問いかける運転者の発話に対して、音声対話装置１を無反応とすることができる。

ステップＳ５では、応答処理部１３２により、算出した判定値が第２閾値以下であるか否かが確認される。第２閾値は、第１閾値より大きな値であり、ユーザの発話が音声対話装置１に向けた発話であるとの判定を可能とするために設定される。第２閾値も、第１閾値と同様に、実験やシミュレーションにより求められる。応答処理部１３２は、判定値が第２閾値以下である場合（ステップＳ５でＹｅｓ）、次のステップＳ６に処理を進める。一方、応答処理部１３２は、判定値が第２閾値より大きい場合（ステップＳ５でＮｏ）、ステップＳ８に処理を進める。

ステップＳ６では、応答処理部１３２が、ユーザの発話に対して、ユーザの要望を確認する応答処理を行う。ステップＳ６の処理は、ユーザの発話が音声対話装置１に向けた発話であるか否かを判定値によって決めるのが難しい場合があることを考慮して設けられた処理である。応答処理部１３２は、サーバ装置５を利用して、ユーザの発話内容を理解して、ユーザの要望を確認する応答を行う。応答処理部１３２の処理にしたがって、スピーカ３からユーザに対して確認応答が発せられる。

例えば、ユーザ（ここでは運転者）の「トイレに行きたい」といった発話が、音声対話装置１に向けた発話であるか、同乗者に向けた発話であるかの判断がつきにくい場合がある。この場合、判定値は、第１閾値以上且つ第２閾値以下となる。このような場合に、本実施形態では、ステップＳ６に処理が進められて、音声対話装置１は、例えば、「周辺の休憩施設を検索しましょうか？」といった応答を行う。ステップＳ６の処理が完了すると、次のステップＳ７に処理が進められる。

ステップＳ７では、応答処理部１３２が、ステップＳ６で行った確認に対してユーザから指示（要望）があったか否かを確認する。詳細には、ユーザの指示については、音声認識部１１で検出される。応答処理部１３２は、音声認識部１１にて一定時間内にユーザの発話を認識した場合に、ユーザの指示があったと判断する。ユーザからの指示があった場合（ステップＳ７でＹｅｓ）、応答処理部１３２はステップＳ８に処理を進める。一方、ユーザからの指示がなかった場合（ステップＳ７でＮｏ）、ステップＳ４に処理が進められる。すなわち、ユーザからの指示がない場合には、応答処理部１３２は、ユーザに対して応答をしないことに決定する。

ステップＳ８では、応答処理部１３２が、ユーザの発話に対して、ユーザの要望に応える応答処理を行う。ステップＳ５の処理の結果、判定値が第２閾値より大きい場合には、ユーザの発話が自装置１に向けた発話であると判断される。このために、応答処理部１３２は、サーバ装置５を利用して、ユーザの発話内容を理解して、ユーザの要望に応える処理を行う。例えば、ユーザの発話が指示口調で「トイレに行きたい」である場合、判定値は第２閾値より大きくなり、応答処理部１３２の処理によって、スピーカ３から「周辺の休憩施設を検索します」といった音声が発せられ、それに続いて検索結果が通知される。検索結果の通知は、音声又は画面表示を利用する構成であってよい。ステップＳ８の処理の完了により、検出したユーザの発話に対する処理は終了となる。

なお、ステップＳ７でユーザから指示があった場合にも、ユーザに応答する必要があるために、応答処理部１３２は、サーバ装置５を利用して、ユーザの発話内容を理解して、ユーザの要望に応える処理を行う。例えば、ステップＳ６における要望確認（「周辺の休憩施設を検索しましょうか？」）に対するユーザの発話が「お願い」であった場合、休憩施設の検索結果が通知される。

以上のように、本実施形態では、応答処理部１３２は、判定値が第１閾値以上且つ第２閾値以下である第１の場合と、判定値が第２閾値より大きい第２の場合とで応答の種類を変化させる。これによれば、ユーザの発話が音声対話装置１に向けた発話である可能性が高い場合と、ユーザの発話が音声対話装置１に向けた発話であるか否かの判定が難しい場合とで、応答の種類を変えて応答が行われることなり、ユーザの発話に対して適切な応答を行うことができる。

そして、本実施形態では、第１の場合における応答は、ユーザの要望を確認する応答であり、第２の場合における応答は、ユーザの要望に応える応答である。このような構成では、ユーザの発話が、音声対話装置１に向けた発話である可能性が高い場合に、ユーザの要望に応じた適切な応答を素早く行うことができる。また、ユーザの発話が、音声対話装置１に向けた発話であるか否かの判断が難しい場合には、ユーザの要望が確認される。すなわち、ユーザが望まないのに音声対話装置１が勝手に応答したり、ユーザが回答を要望しているのに音声対話装置１が応答を行わなかったりすることを生じ難くすることができる。このために、本実施形態の構成によれば、ユーザが音声対話装置１との対話に失敗したと感じる可能性を低減することができる。

＜３．変形例＞
（３－１．第１変形例）
図４は、音声対話装置１の動作の第１変形例を示すフローチャートである。図４に示す第１変形例のフローチャートは、上述した図３に示すフローチャートと概ね同様である。図３と同じ部分については、特に説明の必要がない場合には説明を省略する。

第１変形例においては、図３におけるステップＳ５の処理と、ステップＳ６の処理との間に、ステップＳ５１の処理が行われる。ステップＳ５１では、応答処理部１３２により、ユーザの発話のドメインが第１のドメインであるか否かが確認される。発話のドメインは、詳細には、発話のトピック（話題）である。ユーザの発話のドメインは、ユーザの発話の意図を理解し、理解した発話の意図に応じて決められる。例えば、ユーザが「ちょっと寒いよね。」と発言した場合、ユーザの発話のドメインは「空調」に分類される。

第１のドメインは、予め決められた特定のドメインである。第１のドメインは、例えば、車室内の環境や、車両によって移動可能な場所等、車両の機能を利用して状況を変更できる事に関する。第１のドメインには、一種類のドメインのみが含まれる構成でもよいが、複数種類のドメインが含まれる構成であってもよい。第１のドメインには、例えば、音楽、空調、および、飲食のうちの少なくともいずれか一つが含まれてよい。第１のドメインは、例えば、デフォルトで設定されていたり、ユーザによって設定されたりする。

なお、ユーザの発話のドメインについては、応答処理部１３２自身によって特定されてもよいが、サーバ装置５により特定されてもよい。後者の場合には、応答処理部１３２は、サーバ装置５により特定されたドメインを取得して、ユーザの発話のドメインが第１のドメインであるか否かを判断する。

ユーザの発話のドメインが第１のドメインである場合（ステップＳ５１でＹｅｓ）、ステップＳ６に処理が進められる。すなわち、ユーザの発話のドメインが第１のドメインである場合には、ユーザの要望を確認する応答処理が行われる。一方、ユーザの発話のドメインが第１のドメインでない場合には（ステップＳ５１でＮｏ）、ステップＳ４に処理が進められる。すなわち、ユーザの発話のドメインが第１のドメインでない場合には、ユーザの発話に対する応答処理が行われない。

以上からわかるように、第１変形例では、応答処理部１３２は、判定値が第１閾値以上且つ第２閾値以下である第１の場合であっても、ユーザの発話のドメインが第１のドメインでない場合には、ユーザに応答する処理を行わない。このような構成とすれば、ユーザの発話が音声対話装置１に向けられた発話であるか否かの判断が難しい全ての場合においてユーザに発話の意図を確認するのではなく、特定のトピックの場合にのみユーザの意図を確認する構成とできる。このようにすれば、音声対話装置１によるユーザへの確認頻度が過度になることを抑制することができ、ユーザが音声対話装置１を快適に利用することができる。

（３－２．第２変形例）
図５は、音声対話装置１の動作の第２変形例を示すフローチャートである。図５に示す第２変形例のフローチャートは、上述した図３に示すフローチャートと概ね同様である。図３と同じ部分については、特に説明の必要がない場合には説明を省略する。

第２変形例においては、図３におけるステップＳ３の処理と、ステップＳ４の処理との間に、ステップＳ３１の処理が行われる。ステップＳ３１では、応答処理部１３２により、ユーザの発話のドメインが第２のドメインであるか否かが確認される。第２のドメインは、予め決められた特定のドメインである。第２のドメインは、例えば緊急性を要する事に関する。第２のドメインには、一種類のドメインのみが含まれる構成でもよいが、複数種類のドメインが含まれる構成であってもよい。第２のドメインには、例えば、お手洗いおよび病気のうちの少なくともいずれか一つが含まれてよい。第２のドメインは、例えば、デフォルトで設定されていたり、ユーザによって設定されたりする。

なお、ユーザの発話のドメインについては、応答処理部１３２自身によって特定されてもよいが、サーバ装置５により特定されてもよい。後者の場合には、応答処理部１３２は、サーバ装置５により特定されたドメインを取得して、ユーザの発話のドメインが第２のドメインであるか否かを判断する。

ユーザの発話のドメインが第２のドメインである場合（ステップＳ３１でＹｅｓ）、ステップＳ６に処理が進められる。すなわち、ユーザの発話のドメインが第２のドメインである場合には、ユーザの要望を確認する応答処理が行われる。一方、ユーザの発話のドメインが第２のドメインでない場合には（ステップＳ３１でＮｏ）、ステップＳ４に処理が進められる。すなわち、ユーザの発話のドメインが第２のドメインでない場合には、ユーザの発話に対する応答処理は行われない。

以上からわかるように、第２変形例では、応答処理部１３２は、判定値が第１閾値より小さい場合でも、ユーザの発話のドメインが第２のドメインである場合には、ユーザに応答する処理を行う。例えば、ユーザ（例えば運転者）が「トイレ行く？」と同乗者に聞いた場合でも、音声対話装置１は、「周辺の休憩施設を検索しましょうか？」といった確認応答を行う。このように、本変形例の構成によれば、特定の場合に音声対話装置１が積極的にユーザに対して提案を行う構成とできる。すなわち、本変形例によれば、提案型の音声対話装置を提供することができ、ユーザが便利に感じることを期待できる。

＜４．留意事項＞
本明細書中に開示されている種々の技術的特徴は、上記実施形態のほか、その技術的創作の主旨を逸脱しない範囲で種々の変更を加えることが可能である。すなわち、上記実施形態は、全ての点で例示であって、制限的なものではないと考えられるべきであり、本発明の技術的範囲は、上記実施形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲と均等の意味及び範囲内に属する全ての変更が含まれると理解されるべきである。また、本明細書中に示される複数の実施形態及び変形例は可能な範囲で適宜組み合わせて実施されてよい。

１・・・音声対話装置
２・・・マイクロホン
３・・・スピーカ
４・・・カメラ
１００・・・音声対話システム
１３１・・・判定値算出部
１３２・・・応答処理部

Claims

ユーザと対話を行う音声対話装置であって、
前記ユーザの発話が自装置に対する発話である可能性を示す判定値を求める判定値算出部と、
前記ユーザに応答する場合に、前記判定値に基づいて応答の種類を変化させる応答処理部と、
を備える、音声対話装置。
前記応答処理部は、前記判定値が第１閾値以上である場合に前記ユーザに応答する処理を行い、前記判定値が前記第１閾値より小さい場合に前記ユーザに応答する処理を行わない、請求項１に記載の音声対話装置。
前記応答処理部は、前記判定値が前記第１閾値以上且つ第２閾値以下である第１の場合と、前記判定値が前記第２閾値より大きい第２の場合とで前記応答の種類を変化させる、請求項２に記載の音声対話装置。
前記第１の場合における前記応答は、前記ユーザの要望を確認する応答であり、前記第２の場合における前記応答は、前記ユーザの要望に応える応答である、請求項３に記載の音声対話装置。
前記応答処理部は、前記第１の場合であっても、前記ユーザの発話のドメインが第１のドメインでない場合には、前記ユーザに応答する処理を行わない、請求項３又は４に記載の音声対話装置。
前記応答処理部は、前記判定値が前記第１閾値より小さい場合でも、前記ユーザの発話のドメインが第２のドメインである場合には、前記ユーザに応答する処理を行う、請求項２から５のいずれか１項に記載の音声対話装置。
前記判定値は、前記ユーザの発話音声と、前記ユーザの発話時における動きとの少なくともいずれか一方に基づいて求められる、請求項１から６のいずれか１項に記載の音声対話装置。
請求項１から７のいずれか１項に記載の音声対話装置と、
前記ユーザの音声を音声信号に変換して前記音声対話装置へと出力するマイクロホンと、
前記音声対話装置から出力される音声信号を音声に変換して前記ユーザに向けて放音するスピーカと、
を備える、音声対話システム。
前記ユーザを撮影し、撮影した画像の情報を前記音声対話装置に出力するカメラを更に備える、請求項８に記載の音声対話システム。
ユーザと対話を行う音声対話装置における音声対話方法であって、
前記ユーザの発話が前記音声対話装置に対する発話である可能性を示す判定値を求める判定値算出工程と、
前記ユーザに応答する場合に、前記判定値に基づいて応答の種類を変化させる応答処理工程と、
を備える、音声対話方法。