JP2020077135A

JP2020077135A - 制御装置、エージェント装置及びプログラム

Info

Publication number: JP2020077135A
Application number: JP2018209285A
Authority: JP
Inventors: 顕至大熊; Akito Okuma; ▲ウェイ▼峰章; Wei Feng Zhang
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2020-05-21
Also published as: CN111144539A; US20200143810A1

Abstract

【課題】例えば、周囲に他人が存在する場合、ユーザによっては、起動ワードを発話することにためらいを感じることがある。【解決手段】制御装置が、ユーザの音声により示される要求を取得し、当該要求に応じた処理を実行する要求処理装置のユーザインタフェースとして機能するエージェント装置を制御する。制御装置が、ユーザの注視点を特定する注視点特定部と、注視点が、（ｉ）ユーザへの情報の伝達に利用されるエージェントの一部、又は、（ｉｉ）エージェントの画像を表示若しくは投影する画像出力部の一部に位置する場合、エージェント装置の状態を、エージェントを介した応答処理を開始するための起動要求を処理するスタンバイ状態から、エージェントを介して起動要求以外の要求を処理する起動状態に変更することを決定する状態決定部とを備える。【選択図】図１

Description

本発明は、制御装置、エージェント装置及びプログラムに関する。

擬人化されたエージェントを介したユーザとのインタラクションに基づいて、各種の処理を実行するエージェント装置が知られている。（例えば、特許文献１〜２を参照されたい）。
［先行技術文献］
［特許文献］
［特許文献１］特開平０５−１９９９９６号公報
［特許文献２］特開２００６−１８９３９４号公報

エージェント装置は、スタンバイ状態において事前に設定された起動ワードを待ち受ける。そして、起動ワードが認識されたことに応じて、対話エンジンが起動し、音声認識処理が開始される。しかしながら、例えば、周囲に他人が存在する場合、ユーザによっては、起動ワードを発話することにためらいを感じることがある。

本発明の第１の態様においては、制御装置が提供される。上記の制御装置は、例えば、エージェント装置を制御する。上記のエージェント装置は、例えば、要求処理装置のユーザインタフェースとして機能する。上記の要求処理装置は、例えば、ユーザの音声により示される要求を取得し、当該要求に応じた処理を実行する。上記の制御装置は、例えば、ユーザの注視点を特定する注視点特定部を備える。上記の制御装置は、例えば、注視点が、（ｉ）ユーザへの情報の伝達に利用されるエージェントの一部、又は、（ｉｉ）エージェントの画像を表示若しくは投影する画像出力部の一部に位置する場合、エージェント装置の状態を、エージェントを介した応答処理を開始するための起動要求を処理するスタンバイ状態から、エージェントを介して起動要求以外の要求を処理する起動状態に変更することを決定する状態決定部を備える。

上記の制御装置において、エージェントは、顔を有してよい。上記の制御装置において、状態決定部は、注視点がエージェントの顔の一部に位置する場合、エージェント装置の状態を、スタンバイ状態から起動状態に変更することを決定してよい。上記の制御装置において、顔の一部は、目であってよい。上記の制御装置は、ユーザにメッセージを伝達することを決定するメッセージ制御部を備えてよい。上記の制御装置において、メッセージ制御部は、注視点がエージェントの顔の一部に位置する場合、ユーザの発話を促すためのメッセージを伝達することを決定してよい。

上記の制御装置において、エージェントは、顔を有してよい。上記の制御装置は、エージェントの顔又は視線の向きを制御する顔制御部を備えてよい。上記の制御装置において、顔制御部は、注視点の位置が予め定められた方向変更条件を満足する場合、エージェントの顔又は視線がユーザの方向を向くように、エージェントの顔又は視線の向きを制御してよい。

上記の制御装置は、（ｉ）エージェント又は（ｉｉ）画像出力部と、ユーザとの相対位置を示す相対位置情報を取得する相対位置情報取得部を備えてよい。上記の制御装置において、顔制御部は、相対位置情報に基づいて、エージェントの顔又は視線の向きを決定してよい。

本発明の第２の態様においては、エージェント装置が提供される。上記のエージェント装置は、例えば、要求処理装置のユーザインタフェースとして機能する。上記の要求処理装置は、例えば、ユーザの音声により示される要求を取得し、当該要求に応じた処理を実行する。上記のエージェント装置は、例えば、上記の制御装置を備える。上記のエージェント装置は、例えば、（ｉ）エージェントとして機能するロボット、又は、（ｉｉ）画像出力部を備える。

本発明の第３の態様においては、プログラムが提供される。上記のプログラムを格納する非一時的コンピュータ可読媒体が提供されてもよい。上記のプログラムは、コンピュータを、上記の制御装置として機能させるためのプログラムであってよい。上記のプログラムは、コンピュータに、上記の制御装置における情報処理方法を実行させるためのプログラムであってよい。

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

対話型エージェントシステム１００のシステム構成の一例を概略的に示す。車両１１０の内部構成の一例を概略的に示す。入出力制御部２７２の内部構成の一例を概略的に示す。イベント検出部３４０の内部構成の一例を概略的に示す。起動イベント検出部４３０の内部構成の一例を概略的に示す。応答管理部３５０の内部構成の一例を概略的に示す。エージェント情報格納部３６０の内部構成の一例を概略的に示す。支援サーバ１２０の内部構成の一例を概略的に示す。要求決定部８４２の内部構成の一例を概略的に示す。応答情報生成部８４６の内部構成の一例を概略的に示す。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。なお、図面において、同一または類似の部分には同一の参照番号を付して、重複する説明を省く場合がある。

［対話型エージェントシステム１００の概要］
図１は、対話型エージェントシステム１００のシステム構成の一例を概略的に示す。本実施形態において、対話型エージェントシステム１００は、車両１１０と、支援サーバ１２０とを備える。本実施形態において、車両１１０は、応答システム１１２と、通信システム１１４とを有する。

対話型エージェントシステム１００は、要求処理装置の一例であってよい。車両１１０又は車両１１０に搭載された情報出力機器は、エージェント装置の一例であってよい。応答システム１１２は、エージェント装置の一例であってよい。支援サーバ１２０は、中継装置の一例であってよい。

本実施形態において、車両１１０及び支援サーバ１２０は、通信ネットワーク１０を介して、互いに情報を送受することができる。また、車両１１０と、車両１１０のユーザ２０が利用する通信端末３０とが、通信ネットワーク１０を介して情報を送受してもよく、支援サーバ１２０と、通信端末３０とが、通信ネットワーク１０を介して情報を送受してもよい。

本実施形態において、通信ネットワーク１０は、有線通信の伝送路であってもよく、無線通信の伝送路であってもよく、無線通信の伝送路及び有線通信の伝送路の組み合わせであってもよい。通信ネットワーク１０は、無線パケット通信網、インターネット、Ｐ２Ｐネットワーク、専用回線、ＶＰＮ、電力線通信回線などを含んでもよい。通信ネットワーク１０は、（ｉ）携帯電話回線網などの移動体通信網を含んでもよく、（ｉｉ）無線ＭＡＮ（例えば、ＷｉＭＡＸ（登録商標）である。）、無線ＬＡＮ（例えば、ＷｉＦｉ（登録商標）である。）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｚｉｇｂｅｅ（登録商標）、ＮＦＣ（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）などの無線通信網を含んでもよい。

本実施形態において、ユーザ２０は、車両１１０の利用者であってよい。ユーザ２０は、車両１１０の運転者であってもよく、当該運転者の同乗者であってもよい。ユーザ２０は、車両１１０の所有者であってもよく、車両１１０の占有者であってもよい。車両１１０の占有者は、車両１１０のレンタルサービス又はシェアサービスの利用者であってもよい。

本実施形態において、通信端末３０は、車両１１０及び支援サーバ１２０の少なくとも一方と情報を送受することができればよく、その詳細については特に限定されない。通信端末３０としては、パーソナルコンピュータ、携帯端末などが例示される。携帯端末としては、携帯電話、スマートフォン、ＰＤＡ、タブレット、ノートブック・コンピュータ又はラップトップ・コンピュータ、ウエアラブル・コンピュータなどが例示される。

通信端末３０は、１又は複数の通信方式に対応していてもよい。通信方式としては、移動体通信方式、無線ＭＡＮ方式、無線ＬＡＮ方式、無線ＰＡＮ方式などが例示される。移動体通信方式としては、ＧＳＭ（登録商標）方式、３Ｇ方式、ＬＴＥ方式、４Ｇ方式、５Ｇ方式などが例示される。無線ＭＡＮ方式としては、ＷｉＭＡＸ（登録商標）が例示される。無線ＬＡＮ方式としては、ＷｉＦｉ（登録商標）が例示される。無線ＰＡＮ方式としては、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｚｉｇｂｅｅ（登録商標）、ＮＦＣ（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）などが例示される。

本実施形態において、対話型エージェントシステム１００は、ユーザ２０の音声及びジェスチャの少なくとも一方により示される要求を取得し、当該要求に応じた処理を実行する。ジェスチャとしては、身振り、手振り、仕草、顔の向き、視線の向き、顔の表情などが例示される。また、対話型エージェントシステム１００は、上記の処理の結果をユーザ２０に伝達する。対話型エージェントシステム１００は、対話型エージェントシステム１００のインタフェースとして機能するエージェントと、ユーザ２０との間の対話型のインストラクションを介して、上記の要求の取得及び結果の伝達を実行してよい。

エージェントは、ユーザ２０への情報の伝達に利用される。ユーザ２０と、エージェントとのインタラクションにより、言語情報だけでなく、非言語情報も伝達され得る。これにより、より円滑な情報伝達が達成され得る。エージェントは、ソフトウエアエージェントであってもよく、ハードウエアエージェントであってもよい。なお、エージェントは、ＡＩアシスタントと称される場合もある。

ソフトウエアエージェントは、コンピュータにより実現される擬人化エージェントであってよい。上記のコンピュータは、通信端末３０及び車両１１０の少なくとも一方に搭載されたコンピュータであってよい。擬人化エージェントは、例えば、コンピュータの表示装置又は投影装置上に表示又は投影され、ユーザ２０とコミュニケーションを図ることができる。擬人化エージェントは、音声により、ユーザ２０とコミュニケーションを図ってもよい。ハードウエアエージェントは、ロボットであってよい。ロボットは、ヒューマノイド型のロボットであってもよく、ペット型のロボットであってもよい。

エージェントは、顔を有してもよい。「顔」には、人間又は動物の顔だけでなく、顔の同等物が含まれてもよい。顔の同等物は、顔と同様の機能を有するものであってよい。顔の機能としては、感情を伝達する機能、注視点を示す機能などが例示される。

エージェントは、目を有してもよい。「目」には、人間又は動物の眼だけでなく、眼の同等物が含まれてもよい。眼の同等物は、眼と同様の機能を有するものであってよい。眼の機能としては、感情を伝達する機能、注視点を示す機能などが例示される。

なお、「対話」には、言語情報によるコミュニケーションだけでなく、非言語情報によるコミュニケーションが含まれてよい。言語情報によるコミュニケーションとしては、（ｉ）会話、（ｉｉ）手話、（ｉｉｉ）ジェスチャと、当該ジェスチャによる伝達内容とが予め定義されたサイン又はサイン音などが例示される。非言語情報によるコミュニケーションとしては、身振り、手振り、仕草、顔の向き、視線の向き、顔の表情などが例示される。

本実施形態において、対話型エージェントシステム１００は、支援サーバ１２０に実装された対話エンジン（図示されていない。クラウド型対話エンジンと称される場合がある。）を利用して、ユーザ２０の要求に対して応答する。なお、他の実施形態において、対話型エージェントシステム１００は、応答システム１１２に実装された対話エンジン（図示されていない。ローカル型対話エンジンと称される場合がある。）と、支援サーバ１２０に実装されたクラウド型対話エンジンとを備えてもよい。

ローカル型対話エンジン及びクラウド型対話エンジンは、物理的に異なる対話エンジンであってよい。ローカル型対話エンジン及びクラウド型対話エンジンは、性能の異なる対話エンジンであってよい。一実施形態において、ローカル型対話エンジンが認識できる要求の種類の数は、クラウド型対話エンジンが認識できる要求の種類の数よりも少ない。他の実施形態において、ローカル型対話エンジンが処理できる要求の種類の数は、クラウド型対話エンジンが認識できる処理の種類の数よりも少ない。

対話型エージェントシステム１００は、車両１１０及び支援サーバ１２０の間の通信状態に基づいて、ローカル型対話エンジン及びクラウド型対話エンジンの何れの対話エンジンを利用するかを決定してもよい。例えば、通信状態が比較的良好である場合、対話型エージェントシステム１００は、クラウド型対話エンジンを利用して、ユーザ２０の要求に応答する。一方、通信状態が比較的不良である場合、対話型エージェントシステム１００は、ローカル型対話エンジンを利用して、ユーザ２０の要求に応答する。これにより、車両１１０及び支援サーバ１２０の間の通信状態に応じて、ローカル型対話エンジンと、クラウド型対話エンジンとが切り替えられ得る。

対話型エージェントシステム１００は、応答システム１１２の状態に基づいて、エージェントの様態を決定してよい。これにより、応答システム１１２の状態に応じて、エージェントの様態が切り替わり得る。応答システム１１２の状態としては、（ｉ）応答システム１１２が停止している状態（ＯＦＦ状態と称される場合がある）、（ｉｉ）応答システム１１２が作動している状態（ＯＮ状態と称される場合がある）であって、対話エンジンによる応答処理を開始するための要求（起動要求と称される場合がある。）を待ち受けている状態（スタンバイ状態と称される場合がある。）、（ｉｉｉ）ＯＮ状態であって、対話エンジンによる応答処理が実行されている状態（起動状態と称される場合がある。）などが例示される。

スタンバイ状態は、起動要求を受け付け、当該起動要求を処理するための状態であってもよい。起動状態は、エージェントを介して起動要求以外の要求を処理するための状態であってもよい。

起動要求は、エージェントを起動させるための要求であってもよく、エージェントを介した応答処理を開始するための要求であってもよく、対話エンジンの音声認識機能又はジェスチャ認識機能を起動又は有効化するための要求であってもよい。起動要求は、応答システム１１２の状態を、スタンバイ状態から起動状態に変更するための要求であってよい。起動要求は、起動ワード、トリガーフレーズなどと称される場合がある。起動要求は、音声に限定されない。起動要求は、予め定められたジェスチャであってもよく、起動要求を入力するための操作がなされたことであってもよい。

上記の応答システム１１２の状態の少なくとも１つは、さらに細分化されていてもよい。例えば、対話エンジンによる応答処理が実行されている状態は、ローカル型対話エンジンがユーザ２０の要求を処理している状態と、クラウド型対話エンジンがユーザ２０の要求を処理している状態とに細分化され得る。これにより、例えば、対話型エージェントシステム１００は、ローカル型対話エンジンがユーザ２０の要求を処理している場合と、クラウド型対話エンジンがユーザ２０の要求を処理している場合とで、エージェントの様態を切り替えることができる。

エージェントの様態としては、エージェントとして利用されるキャラクタの種類、当該キャラクタの外観、当該キャラクタの声、及び、インタラクションの様態の少なくとも１つが例示される。キャラクタとしては、実在する人物、動物又は物体をモデルにしたキャラクタ、歴史上の人物、動物又は物体をモデルにしたキャラクタ、架空の又は空想上の人物、動物又は物体をモデルにしたキャラクタなどが例示される。上記の物体は、有体物であってもよく、無体物であってもよい。キャラクタは、上記の人物、動物又は物体の一部をモデルにしたキャラクタであってもよい。

外観としては、（ｉ）形状、模様、色彩及びこれらの組み合わせ、（ｉｉ）デフォルメ、誇張又は変形の手法及び程度、並びに、（ｉｉｉ）画像の画風の少なくとも１つが例示される。形状としては、容姿、髪型、服装、アクセサリ、表情及び姿勢の少なくとも１つが例示される。デフォルメの手法としては、頭身比率の変更、パーツの配置の変更、パーツの簡素化などが例示される。画風としては、画像全体の色合い、タッチなどが例示される。タッチとしては、写実的なタッチ、イラスト風のタッチ、漫画風のタッチ、アメリカンコミック風のタッチ、劇画風のタッチ、シリアスなタッチ、コメディ調のタッチなどが例示される。

例えば、同一のキャラクタであっても、年齢によって外観が異なる場合がある。幼少期、青年期、壮年期、中年期、老年期、及び、晩年期の少なくとも２つにおいて、キャラクタの外観が異なってもよい。また、同一のキャラクタであっても、デフォルメの程度が進行するにつれて、外観が幼く見える場合がある。例えば、同一のキャラクタの外観の画像であって、頭身比率の異なる２つの画像を比較すると、頭身比率が小さい画像中のキャラクタは、頭身比率が大きい画像中のキャラクタよりも幼く見える。

声としては、声質、声色（トーンと称される場合がある）、及び、声の高さ（ピッチと称される場合がある）の少なくとも１つが例示される。インタラクションの様態としては、応答時の話し方及び仕草の少なくとも一方が例示される。話し方としては、声量、口調、テンポ、１回あたりの発話の長さ、間の取り方、抑揚のつけ方、強弱のつけ方、相槌の打ち方、癖、及び、話題の展開方法の少なくとも１つが例示される。なお、ユーザ２０及びエージェントの間のインタラクションが手話により実現される場合の話し方の具体例は、ユーザ２０及びエージェントの間のインタラクションが会話により実現される場合の話し方の具体例と同様であってよい。

なお、本実施形態においては、応答システム１１２が車両１１０に実装された対話型の車両用運転支援装置である場合を例として、対話型エージェントシステム１００の詳細が説明される。しかしながら、対話型エージェントシステム１００は本実施形態に限定されない。他の実施形態において、応答システム１１２が実装される機器は車両に限定されない。応答システム１１２は、据付式の機器、移動式の機器（移動体と称される場合がある）、又は、携帯式若しくは可搬式の機器に実装されてよい。応答システム１１２は、情報を出力する機能と、通信機能とを備えた機器に実装されることが好ましい。例えば、応答システム１１２は、通信端末３０に実装され得る。応答システム１１２が実装された機器は、エージェント装置、制御装置及び要求処理装置の一例であってよい。

据付式の機器としては、デスクトップ型のＰＣ、テレビ、スピーカ、冷蔵庫などの電化製品が例示される。移動式の機器としては、車両、作業機械、船舶、飛行体などが例示される。携帯式若しくは可搬式の機器としては、携帯電話、スマートフォン、ＰＤＡ、タブレット、ノートブック・コンピュータ又はラップトップ・コンピュータ、ウエアラブル・コンピュータ、モバイルバッテリなどが例示される。

［対話型エージェントシステム１００の各部の概要］
本実施形態において、車両１１０は、ユーザ２０の移動に利用される。車両１１０としては、自動車、自動二輪車などが例示される。自動二輪車としては、（ｉ）バイク、（ｉｉ）三輪バイク、（ｉｉｉ）セグウェイ（登録商標）、動力ユニット付きキックボード（登録商標）、動力ユニット付きスケートボードのような、動力ユニットを有する立ち乗り二輪車などが例示される。

本実施形態において、応答システム１１２は、ユーザ２０の音声及びジェスチャの少なくとも一方により示される要求を取得する。応答システム１１２は、上記の要求に応じた処理を実行する。また、応答システム１１２は、上記の処理の結果をユーザ２０に伝達する。

一実施形態において、応答システム１１２は、（ｉ）ユーザ２０が車両１１０に搭載された機器に入力した要求、又は、（ｉｉ）ユーザ２０が通信端末３０に搭載された機器に入力した要求を取得する。応答システム１１２は、ユーザ２０が通信端末３０に搭載された機器に入力した要求を、通信システム１１４を介して取得してよい。応答システム１１２は、車両１１０に搭載された情報出力機器を介して、上記の要求に対する応答を、ユーザ２０に提示する。

他の実施形態において、応答システム１１２は、（ｉ）ユーザ２０が車両１１０に搭載された機器に入力した要求、又は、（ｉｉ）ユーザ２０が通信端末３０に搭載された機器に入力した要求を取得する。応答システム１１２は、ユーザ２０が通信端末３０に搭載された機器に入力した要求を、通信システム１１４を介して取得してよい。応答システム１１２は、上記の要求に対する応答を、通信システム１１４を介して通信端末３０に送信する。通信端末３０は、応答システム１１２から取得した情報を、ユーザ２０に提示する。

応答システム１１２は、ローカル型対話エンジン及びクラウド型対話エンジンの少なくとも一方を利用して、ユーザ２０からの要求に応答してよい。応答システム１１２は、ローカル型対話エンジン及びクラウド型対話エンジンの何れの対話エンジンを利用して上記の要求に応答するかを決定してよい。例えば、応答システム１１２は、車両１１０及び支援サーバ１２０の間の通信状態に基づいて、ローカル型対話エンジン及びクラウド型対話エンジンの何れの対話エンジンを利用するかを決定する。

応答システム１１２は、ローカル型対話エンジンのユーザインタフェースとして機能してよい。応答システム１１２は、クラウド型対話エンジンのユーザインタフェースとして機能してよい。

本実施形態において、通信システム１１４は、通信ネットワーク１０を介して、車両１１０と、支援サーバ１２０との間で情報を送受する。通信システム１１４は、有線通信又は近距離無線通信により、車両１１０と、通信端末３０との間で情報を送受してもよい。

例えば、通信システム１１４は、応答システム１１２がユーザ２０から取得したユーザ２０に関する情報を、支援サーバ１２０に送信する。通信システム１１４は、通信端末３０がユーザ２０から取得したユーザ２０に関する情報を、支援サーバ１２０に送信してよい。通信システム１１４は、車両１１０に搭載された機器から車両１１０に関する情報を取得し、車両１１０に関する情報を支援サーバ１２０に送信してよい。通信システム１１４は、通信端末３０から通信端末３０に関する情報を取得し、通信端末３０に関する情報を支援サーバ１２０に送信してもよい。

また、通信システム１１４は、クラウド型対話エンジンが出力した情報を、支援サーバ１２０から受信する。通信システム１１４は、クラウド型対話エンジンが出力した情報を、応答システム１１２に転送する。通信システム１１４は、応答システム１１２が出力した情報を、通信端末３０に送信してもよい。

本実施形態において、支援サーバ１２０は、支援サーバ１２０のコンピュータを、クラウド型対話エンジンとして機能させるためのプログラムを実行する。これにより、支援サーバ１２０の上で、クラウド型対話エンジンが動作する。

本実施形態において、支援サーバ１２０は、通信ネットワーク１０を介して、ユーザ２０の音声及びジェスチャの少なくとも一方により示される要求を取得する。支援サーバ１２０は、上記の要求に応じた処理を実行する。また、支援サーバ１２０は、通信ネットワーク１０を介して、上記の処理の結果を応答システム１１２に通知する。

［対話型エージェントシステム１００の各部の具体的な構成］
対話型エージェントシステム１００の各部は、ハードウエアにより実現されてもよく、ソフトウエアにより実現されてもよく、ハードウエア及びソフトウエアにより実現されてもよい。対話型エージェントシステム１００の各部は、その少なくとも一部が、単一のサーバによって実現されてもよく、複数のサーバによって実現されてもよい。対話型エージェントシステム１００の各部は、その少なくとも一部が、仮想マシン上又はクラウドシステム上で実現されてもよい。対話型エージェントシステム１００の各部は、その少なくとも一部が、パーソナルコンピュータ又は携帯端末によって実現されてもよい。携帯端末としては、携帯電話、スマートフォン、ＰＤＡ、タブレット、ノートブック・コンピュータ又はラップトップ・コンピュータ、ウエアラブル・コンピュータなどが例示される。対話型エージェントシステム１００の各部は、ブロックチェーンなどの分散型台帳技術又は分散型ネットワークを利用して、情報を格納してもよい。

対話型エージェントシステム１００を構成する構成要素の少なくとも一部がソフトウエアにより実現される場合、当該ソフトウエアにより実現される構成要素は、一般的な構成の情報処理装置において、当該構成要素に関する動作を規定したプログラムを起動することにより実現されてよい。上記の情報処理装置は、例えば、（ｉ）ＣＰＵ、ＧＰＵなどのプロセッサ、ＲＯＭ、ＲＡＭ、通信インタフェースなどを有するデータ処理装置と、（ｉｉ）キーボード、タッチパネル、カメラ、マイク、各種センサ、ＧＰＳ受信機などの入力装置と、（ｉｉｉ）表示装置、スピーカ、振動装置などの出力装置と、（ｉｖ）メモリ、ＨＤＤなどの記憶装置（外部記憶装置を含む。）とを備える。

上記の情報処理装置において、上記のデータ処理装置又は記憶装置は、プログラムを格納してよい。上記のプログラムは、非一時的なコンピュータ可読記録媒体に格納されてよい。上記のプログラムは、プロセッサによって実行されることにより、上記の情報処理装置に、当該プログラムによって規定された動作を実行させる。

プログラムは、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリ、ハードディスクなどのコンピュータ読み取り可能な媒体に記憶されていてもよく、ネットワークに接続された記憶装置に記憶されていてもよい。プログラムは、コンピュータ読み取り可能な媒体又はネットワークに接続された記憶装置から、対話型エージェントシステム１００の少なくとも一部を構成するコンピュータにインストールされてよい。プログラムが実行されることにより、コンピュータが、対話型エージェントシステム１００の各部の少なくとも一部として機能してもよい。

コンピュータを対話型エージェントシステム１００の各部の少なくとも一部として機能させるプログラムは、対話型エージェントシステム１００の各部の動作を規定したモジュールを備えてよい。これらのプログラム又はモジュールは、データ処理装置、入力装置、出力装置、記憶装置等に働きかけて、コンピュータを対話型エージェントシステム１００の各部として機能させたり、コンピュータに対話型エージェントシステム１００の各部における情報処理方法を実行させたりする。

プログラムに記述された情報処理は、当該プログラムがコンピュータに読込まれることにより、当該プログラムに関連するソフトウエアと、対話型エージェントシステム１００の各種のハードウエア資源とが協働した具体的手段として機能する。そして、上記の具体的手段が、本実施形態におけるコンピュータの使用目的に応じた情報の演算又は加工を実現することにより、当該使用目的に応じた対話型エージェントシステム１００が構築される。

［車両１１０の各部の概要］
図２は、車両１１０の内部構成の一例を概略的に示す。本実施形態において、車両１１０は、入力部２１０と、出力部２２０と、通信部２３０と、センス部２４０と、駆動部２５０と、付帯設備２６０と、制御部２７０とを備える。本実施形態において、制御部２７０は、入出力制御部２７２と、車両制御部２７４と、通信制御部２７６とを有する。本実施形態において、応答システム１１２は、入力部２１０、出力部２２０及び入出力制御部２７２により構成される。また、通信システム１１４は、通信部２３０及び通信制御部２７６により構成される。

出力部２２０は、画像出力部の一例であってよい。通信部２３０は、要求送信部の一例であってよい。制御部２７０は、制御装置及び求処理装置の一例であってよい。入出力制御部２７２は、制御装置の一例であってよい。

本実施形態において、入力部２１０は、情報の入力を受け付ける。例えば、入力部２１０は、ユーザ２０からの要求を受け付ける。入力部２１０は、通信端末３０を介して、ユーザ２０からの要求を受け付けてもよい。

一実施形態において、入力部２１０は、車両１１０の操作に関する要求を受け付ける。車両１１０の操作に関する要求としては、センス部２４０の操作又は設定に関する要求、駆動部２５０の操作又は設定に関する要求、付帯設備２６０の操作又は設定に関する要求などが例示される。設定に関する要求としては、設定を変更するための要求、設定を確認するための要求などが例示される。他の実施形態において、入力部２１０は、ユーザ２０の音声及びジェスチャの少なくとも一方により示される要求を受け付ける。

入力部２１０としては、キーボード、ポインティングデバイス、タッチパネル、操作ボタン、マイク、カメラ、センサ、３次元スキャナ、視線計測器、ハンドル、アクセル、ブレーキ、シフトレバーなどが例示される。入力部２１０は、ナビゲーション装置の一部を構成してよい。

本実施形態において、出力部２２０は情報を出力する。出力部２２０は、例えば、ユーザ２０からの要求に対する対話型エージェントシステム１００の応答を、ユーザ２０に提示する。出力部２２０は、通信端末３０を介して、上記の応答をユーザ２０に提示してもよい。出力部２２０としては、画像出力装置、音声出力装置、振動発生装置、超音波発生装置などが例示される。出力部２２０は、ナビゲーション装置の一部を構成してよい。

画像出力装置は、エージェントの画像を表示又は投影する。画像は、静止画像であってもよく、動画像（映像と称される場合がある。）であってもよい。画像は、平面画像であってもよく、立体画像であってもよい。立体画像の方式は、特に限定されるものではないが、２眼立体方式、インテグラル方式、ホログラフィー方式などが例示される。

画像出力装置としては、表示装置、投影装置、印刷装置などが例示される。音声出力装置としては、スピーカ、ヘッドホン、イヤホンなどが例示される。スピーカは、指向性を有してもよく、指向性の向きを調整又は変更する機能を有してもよい。

本実施形態において、通信部２３０は、通信ネットワーク１０を介して、車両１１０と、支援サーバ１２０との間で情報を送受する。通信部２３０は、有線通信又は近距離無線通信により、車両１１０と、通信端末３０との間で情報を送受してもよい。通信部２３０は、１又は複数の通信方式に対応していてもよい。

本実施形態において、センス部２４０は、車両１１０の状態を検出又は監視する１又は複数のセンサを含む。１又は複数のセンサのそれぞれは、任意の内界センサであってもよく、任意の外界センサであってもよい。１又は複数のセンス部２４０の少なくとも一部は、入力部２１０として利用されてもよい。例えば、センス部２４０は、車両１１０の内部を撮像するカメラ、車両１１０の内部の音声を収集するマイク、車両１１０の外部を撮像するカメラ、及び、車両１１０の外部の音声を収集するマイクの少なくとも１つを含む。上記のカメラ又はマイクは、入力部２１０として利用されてよい。

車両１１０の状態としては、速度、加速度、傾斜、振動、騒音、駆動部２５０の作動状況、付帯設備２６０の作動状況、安全装置の作動状況、自動運転装置の作動状況、異常の発生状況、現在位置、移動経路、外気の温度、外気の湿度、外気の圧力、内部空間の温度、内部空間の湿度、内部空間の圧力、周囲の物体との相対位置、周囲の物体との相対速度などが例示される。安全装置としては、ＡＢＳ（ＡｎｔｉｌｏｃｋＢｒａｋｅＳｙｓｔｅｍ）、エアバッグ、自動ブレーキ、衝突回避装置などが例示される。

本実施形態において、駆動部２５０は、車両１１０を駆動する。駆動部２５０は、制御部２７０からの命令に応じて、車両１１０を駆動してよい。駆動部２５０は、内燃機関によって動力を発生させてもよく、電動機によって動力を発生させてもよい。

本実施形態において、付帯設備２６０は、車両１１０に搭載される機器のうち、駆動部２５０以外の機器であってよい。付帯設備２６０は、制御部２７０からの命令に従って作動してよい。付帯設備２６０は、ユーザ２０の操作に従って作動してもよい。付帯設備２６０としては、保安機器、座席調整機器、施錠管理機器、窓開閉機器、照明機器、空調機器、ナビゲーション機器、音響機器、映像機器などが例示される。

本実施形態において、制御部２７０は、車両１１０の各部を制御する。制御部２７０は、応答システム１１２を制御してもよい。制御部２７０は、通信システム１１４を制御してもよい。制御部２７０は、入力部２１０、出力部２２０、通信部２３０、センス部２４０、駆動部２５０及び付帯設備２６０の少なくとも１つを制御してもよい。また、制御部２７０の各部は、互いに情報を送受してよい。

本実施形態において、入出力制御部２７２は、車両１１０における情報の入出力を制御する。例えば、入出力制御部２７２は、ユーザ２０と、車両１１０との間における情報の伝達を制御する。入出力制御部２７２は、入力部２１０及び出力部２２０の少なくとも一方の動作を制御してよい。入出力制御部２７２は、応答システム１１２の動作を制御してもよい。

例えば、入出力制御部２７２は、入力部２１０を介して、ユーザ２０からの要求を含む情報を取得する。入出力制御部２７２は、上記の要求に対する応答を決定する。入出力制御部２７２は、応答の内容及び様態の少なくとも一方を決定してよい。入出力制御部２７２は、上記の応答に関する情報を出力する。一実施形態において、入出力制御部２７２は、出力部２２０を介して、上記の応答を含む情報をユーザ２０に提示する。他の実施形態において、入出力制御部２７２は、通信部２３０を介して、上記の応答を含む情報を通信端末３０に送信する。通信端末３０は、上記の応答を含む情報をユーザ２０に提示する。

入出力制御部２７２は、ローカル型対話エンジン及びクラウド型対話エンジンのすくなくとも一方を利用して、上記の要求に対する応答を決定してよい。これにより、入出力制御部２７２は、応答システム１１２を、ローカル型対話エンジンのユーザインタフェースとして機能させることができる。また、入出力制御部２７２は、応答システム１１２を、クラウド型対話エンジンのユーザインタフェースとして機能させることができる。

入出力制御部２７２は、車両１１０及び支援サーバ１２０の間の通信状態を示す情報（通信情報と称される場合がある。）に基づいて、ローカル型対話エンジン及びクラウド型対話エンジンの何れの対話エンジンにおける処理の実行結果に基づいて応答するかを決定してもよい。なお、入出力制御部２７２は、複数のローカル型対話エンジンを利用してもよく、複数のクラウド型対話エンジンを利用してもよい。この場合、入出力制御部２７２は、少なくとも通信情報に基づいて、どの対話エンジンにおける処理の実行結果に基づいて応答するかを決定してよい。入出力制御部２７２は、発話者又は運転者に応じて、どの対話エンジンにおける処理の実行結果に基づいて応答するかを決定してもよい。入出力制御部２７２は、同乗者の有無に応じて、どの対話エンジンにおける処理の実行結果に基づいて応答するかを決定してもよい。

入出力制御部２７２は、例えば、通信制御部２７６から、通信情報を取得する。なお、通信情報は、（ｉ）通信部２３０、入出力制御部２７２又は通信制御部２７６と、支援サーバ１２０との間の通信状態を示す情報であってもよく、（ｉｉ）通信部２３０、入出力制御部２７２又は通信制御部２７６と、通信ネットワーク１０との間の通信状態を示す情報であってもよく、（ｉｉｉ）通信ネットワーク１０の通信状態を示す情報であってもよく、（ｉｖ）通信ネットワーク１０と、支援サーバ１２０との間の通信状態を示す情報であってもよく、（ｖ）車両１１０及び支援サーバ１２０の少なくとも一方における通信障害の有無を示す情報であってもよい。

入出力制御部２７２は、１又は複数のイベントの発生を検出し、検出されたイベントの種類に基づいて、応答システム１１２の動作を制御してもよい。一実施形態において、入出力制御部２７２は、起動要求の入力を検出する。起動要求の入力が検出された場合、入出力制御部２７２は、例えば、応答システム１１２の状態を、スタンバイ状態から起動状態に変更することを決定する。

他の実施形態において、入出力制御部２７２が、ユーザ２０の通信端末３０にメッセージを送信すべきイベント（伝言イベントと称される場合がある。）の発生を検出する。伝言イベントの発生が検出された場合、入出力制御部２７２は、例えば、通信ネットワーク１０を介して、ユーザ２０の通信端末３０に音声メッセージを送信することを決定する。

一実施形態において、音声メッセージは、音声通話サービス又はIP電話サービスを利用して、通信端末３０に送信される。他の実施形態において、音声メッセージは、メールサービス、ソーシャル・ネットワーキング・サービス、メッセンジャーサービスなどを利用して、音声データの電子ファイルとして、通信端末３０に送信される。

入出力制御部２７２は、ユーザ２０からの要求に応答するときのエージェントの様態を制御してよい。一実施形態において、入出力制御部２７２は、通信情報に基づいて、エージェントの様態を制御する。例えば、入出力制御部２７２は、車両１１０及び支援サーバ１２０の間の通信状態が予め定められた条件を満足する場合と、車両１１０及び支援サーバ１２０の間の通信状態が上記の条件を満足しない場合とで、エージェントの様態を切り替える。予め定められた条件は、通信状態が予め定められた特定の状態よりも良好であるという条件であってよい。

他の実施形態において、入出力制御部２７２は、ユーザ２０からの要求を処理した対話エンジンを示す情報に基づいて、エージェントの様態を制御する。例えば、入出力制御部２７２は、ローカル型対話エンジンにおける処理の実行結果に基づいて応答する場合と、クラウド型対話エンジンにおける処理の実行結果に基づいて応答する場合とで、エージェントの様態を切り替える。なお、上述のとおり、通信情報に基づいて、どの対話エンジンにおける処理の実行結果に基づいて応答するかが決定されてもよい。

他の実施形態において、入出力制御部２７２は、（ｉ）ユーザ２０による要求の伝達手段を示す情報、（ｉｉ）ユーザ２０による要求の伝え方を示す情報、並びに、（ｉｉｉ）要求伝達時のユーザ２０の心理状態、覚醒状態及び健康状態の少なくとも１つを示す情報の少なくとも１つに基づいて、エージェントの様態を制御する。要求の伝達手段としては、発話、手話、手話以外のジェスチャなどが例示される。手話以外のジェスチャとしては、手又は指の動作により定義されたサイン、頭部の動作により定義されたサイン、視線により定義されたサイン、顔表情により定義されたサインなどが例示される。

要求の伝え方としては、要求伝達時のユーザ２０の様子、要求の伝達に要した時間の長さ、要求の明確性の程度などが例示される。要求伝達時のユーザ２０の様子としては、（ｉ）発話又は手話の口調、癖、テンポ、及び、間の取り方、（ｉｉ）発話のアクセント、イントネーション、及び、声量、（ｉｉｉ）エージェント又は出力部２２０と、ユーザとの相対位置、並びに、（ｉｖ）注視点の位置の少なくとも１つが例示される。要求の明確性の程度としては、要求が端的に伝達されているか否か、要求を伝達するためのメッセージが冗長的であるか否かなどが例示される。

さらに他の実施形態において、入出力制御部２７２は、車両１１０の状態を示す情報に基づいて、エージェントの様態を制御する。車両１１０の状態は、車両１１０の移動状態、車両１１０の各部の動作状態、及び、車両１１０の内部空間の状態の少なくとも１つであってよい。

車両１１０の移動状態としては、現在位置、移動経路、速度、加速度、傾斜、振動、騒音、渋滞の有無又は程度、連続運転時間、急加速の有無又は頻度、急減速の有無又は頻度などが例示される。車両１１０の各部の動作状態としては、駆動部２５０の作動状況、付帯設備２６０の作動状況、安全装置の作動状況、自動運転装置の作動状況などが例示される。作動状況としては、正常動作中、停止中、メンテナンス中、異常発生中などが例示される。作動状況には、特定の機能の作動の有無又は頻度が含まれてもよい。車両１１０の内部空間の状態としては、内部空間の温度、湿度、圧力、特定の化学物質の濃度、内部空間に存在するユーザ２０の人数、内部空間に存在する複数のユーザ２０の人間関係などが例示される。内部空間に存在するユーザ２０の人数を示す情報は、同乗者の有無を示す情報の一例であってよい。

本実施形態において、車両制御部２７４は、車両１１０の動作を制御する。例えば、車両制御部２７４は、センス部２４０が出力した情報を取得する。車両制御部２７４は、駆動部２５０及び付帯設備２６０の少なくとも一方の動作を制御してよい。車両制御部２７４は、センス部２４０が出力した情報に基づいて、駆動部２５０及び付帯設備２６０の少なくとも一方の動作を制御してもよい。

本実施形態において、通信制御部２７６は、車両１１０と外部の機器との間の通信を制御する。通信制御部２７６は、通信部２３０の動作を制御してよい。通信制御部２７６は、通信インタフェースであっってもよい。通信制御部２７６は、１又は複数の通信方式に対応してよい。通信制御部２７６は、車両１１０及び支援サーバ１２０の間の通信状態を検出又は監視してよい。通信制御部２７６は、上記の検出又は監視の結果に基づいて、通信情報を生成してよい。例えば、通信情報により示される通信状態が予め定められた条件を満足する場合、通信状態が良好であると判定され得る。一方、通信情報により示される通信状態が上記の予め定められた条件を満足しない場合、通信状態が不良であると判定され得る。予め定められた条件としては、通信が可能であるという条件、電波状況が特定の状況よりも良好であるという条件、通信品質が特定の品質よりも良好であるという条件などが例示される。

通信情報としては、通信の可否、電波状況、通信品質、通信方式の種類、及び、通信キャリアの種類などに関する情報が例示される。電波状況としては、電波受信レベル、電波強度、ＲＳＣＰ（ＲｅｃｅｉｖｅｄＳｉｇｎａｌＣｏｄｅＰｏｗｅｒ）、ＣＩＤ（ＣｅｌｌＩＤ）などが例示される。通信品質としては、通信速度、データ通信のスループット、データ通信のレイテンシなどが例示される。

通信の可否に関し、例えば、通信ネットワーク１０、通信システム１１４及び支援サーバ１２０の少なくとも１つにおいて通信障害が発生している場合に、通信が可能でない（通信不可と称される場合がある。）と判断される。電波受信レベルが予め定められたレベルよりも小さい場合（例えば、圏外である場合）に、通信不可と判断されてもよい。通信の可否は、特定の電波状況又は通信品質に関する情報を取得する処理（試行と称される場合がある。）を複数回繰り返した結果に基づいて、判断されてもよい。

一実施形態によれば、予め定められた回数の試行のうち、電波状況又は通信品質が予め定められた第１の閾値よりも良好であった試行の割合が、予め定められた第２の閾値よりも大きい場合に、通信が可能である（通信可能と称される場合がある。）と判断される。それ以外の場合は、通信不可と判断される。他の実施形態によれば、予め定められた回数の試行のうち、電波状況又は通信品質が予め定められた第１の閾値よりも不良であった試行の割合が、予め定められた第２の閾値よりも大きい場合に、通信不可と判断される。それ以外の場合は、通信可能と判断される。

［入出力制御部２７２の各部の概要］
図３は、入出力制御部２７２の内部構成の一例を概略的に示す。本実施形態において、入出力制御部２７２は、音声情報取得部３１２と、画像情報取得部３１４と、操作情報取得部３１６と、車両情報取得部３１８と、通信情報取得部３２２と、転送部３３０と、イベント検出部３４０と、応答管理部３５０と、エージェント情報格納部３６０とを備える。

イベント検出部３４０は、注視点特定部の一例であってよい。イベント検出部３４０は、イベント検出部の一例であってよい。応答管理部３５０は、状態決定部、メッセージ制御部、顔制御部、及び、相対位置情報取得部の一例であってよい。応答管理部３５０は、表情制御部、同乗者特定部、及び、心理情報取得部の一例であってよい。応答管理部３５０は、伝達決定部、及び、内容決定部の一例であってよい。応答管理部３５０は、特徴情報取得部、様態決定部、及び、移動体情報取得部の一例であってよい。

本実施形態において、音声情報取得部３１２は、入力部２１０から、入力部２１０に入力された音声に関する情報（音声情報と称される場合がある。）を取得する。音声情報取得部３１２は、通信部２３０を介して、通信端末３０の入力装置に入力された音声に関する情報（音声情報と称される場合がある。）を取得してもよい。例えば、音声情報取得部３１２は、ユーザ２０の音声に関する情報を取得する。音声情報としては、音声が記録された音声データ、当該音声が記録された時刻を示す情報などが例示される。音声情報取得部３１２は、音声情報を転送部３３０に出力してよい。

本実施形態において、画像情報取得部３１４は、入力部２１０から、入力部２１０が取得した画像に関する情報（画像情報と称される場合がある。）を取得する。画像情報取得部３１４は、通信部２３０を介して、通信端末３０の入力装置が取得した画像に関する情報（画像情報と称される場合がある。）を取得してもよい。例えば、画像情報取得部３１４は、ユーザ２０を撮像した画像に関する情報を取得する。画像情報としては、画像が記録された画像データ、当該画像が記録された時刻を示す情報などが例示される。画像情報取得部３１４は、画像情報を転送部３３０に出力してよい。

本実施形態において、操作情報取得部３１６は、入力部２１０から、ユーザ２０による車両１１０の操作に関する情報（操作情報と称される場合がある。）を取得する。車両１１０の操作としては、駆動部２５０に関する操作、及び、付帯設備２６０に関する操作の少なくとも一方が例示される。一実施形態において、操作情報取得部３１６は、操作情報を転送部３３０に出力する。他の実施形態において、操作情報取得部３１６は、操作情報を車両制御部２７４に出力する。

駆動部２５０に関する操作としては、ハンドル操作、アクセル操作、ブレーキ操作、運転モードの変更に関する操作などが例示される。付帯設備２６０に関する操作としては、付帯設備２６０のＯＮ／ＯＦＦに関する操作、付帯設備２６０の設定に関する操作、付帯設備２６０の動作に関する操作、などが例示される。より具体的には、方向指示器に関する操作、ワイパーに関する操作、ウインドウォッシャー液の吐出に関する操作、ドアの施錠に関する操作、窓の開閉に関する操作、空調機器又は照明機器のＯＮ／ＯＦＦに関する操作、空調機器又は照明機器の設定に関する操作、ナビゲーション機器、音響機器又は映像機器のＯＮ／ＯＦＦに関する操作、ナビゲーション機器、音響機器又は映像機器の設定に関する操作、ナビゲーション機器、音響機器又は映像機器の動作の開始又は終了に関する操作などが例示される。

本実施形態において、車両情報取得部３１８は、センス部２４０から、車両１１０の状態を示す情報（車両情報と称される場合がある。）を取得する。一実施形態において、車両情報取得部３１８は、車両情報を転送部３３０に出力する。他の実施形態において、車両情報取得部３１８は、車両情報を車両制御部２７４に出力してよい。

本実施形態において、通信情報取得部３２２は、通信制御部２７６から、通信情報を取得する。一実施形態において、通信情報取得部３２２は、通信情報を応答管理部３５０に出力する。他の実施形態において、通信情報取得部３２２は、通信情報を転送部３３０又はイベント検出部３４０に出力してよい。

本実施形態において、転送部３３０は、音声情報、画像情報、操作情報及び車両情報の少なくとも１つを、イベント検出部３４０及び支援サーバ１２０の少なくとも一方に転送する。転送部３３０は、応答管理部３５０からの命令に従って、各種情報の転送先を決定してよい。転送部３３０は、操作情報を車両制御部２７４に転送してよい。転送部３３０は、操作情報及び車両情報を車両制御部２７４に転送してよい。

なお、本実施形態においては、通信情報取得部３２２が応答管理部３５０に通信情報を出力し、応答管理部３５０が、通信情報に基づいて、音声情報、画像情報、操作情報、車両情報などの転送先を決定する場合を例として、入出力制御部２７２の詳細が説明される。しかしながら、入出力制御部２７２は本実施形態に限定されない。他の実施形態において、通信情報取得部３２２は、転送部３３０に通信情報を出力し、転送部３３０が、通信情報に基づいて、音声情報、画像情報、操作情報、車両情報などの転送先を決定してもよい。

本実施形態において、イベント検出部３４０は、１又は複数のイベントの発生を検出する。イベント検出部３４０は、予め定められた種類のイベントの発生を検出してよい。イベントの発生が検出された場合、イベント検出部３４０は、検出されたイベントの種類を示す情報を、応答管理部３５０に出力してよい。イベント検出部３４０の詳細は後述される。

本実施形態において、応答管理部３５０は、ユーザ２０からの要求に対する応答を管理する。応答管理部３５０は、ローカル型対話エンジン及びクラウド型対話エンジンの利用を管理してよい。例えば、応答管理部３５０は、転送部３３０の動作を制御して、ローカル型対話エンジン及びクラウド型対話エンジンの利用を管理する。応答管理部３５０は、応答の内容及び様態の少なくとも一方を管理してよい。

例えば、ユーザ２０からの要求が検索又は調査に関する要求である場合、応答管理部３５０は、出力部２２０から出力される応答メッセージの内容を管理する。応答管理部３５０は、エージェントが応答メッセージを出力するときのエージェントの様態を管理してよい。応答管理部３５０は、エージェント情報格納部３６０に格納された情報を参照して、出力部２２０から出力される音声及び画像の少なくとも一方を生成してよい。なお、ユーザ２０からの要求が車両１１０の制御に関する要求である場合、応答管理部３５０は、当該要求に応じて車両１１０を制御するための命令を、車両制御部２７４に出力してよい。応答管理部３５０の詳細は後述される。

本実施形態において、エージェント情報格納部３６０は、エージェントに関する各種の情報を格納する。エージェント情報格納部３６０の詳細は後述される。

図４は、入力部２１０の一部とともに、イベント検出部３４０の内部構成の一例を概略的に示す。本実施形態において、入力部２１０は、視線計測部４１２と、校正部４１４とを備える。本実施形態において、イベント検出部３４０は、注視点検出部４２０と、起動イベント検出部４３０と、ユーザ数検出部４４０と、伝言イベント検出部４５０とを備える。

注視点検出部４２０は、注視点特定部の一例であってよい。ユーザ数検出部４４０は、同乗者判定部及び相対位置情報取得部の一例であってよい。伝言イベント検出部４５０は、送信イベント検出部の一例であってよい。

本実施形態において、視線計測部４１２は、１又は複数のユーザ２０の視線を計測する。視線計測部４１２は、公知のアイトラッキング技術又は将来的に開発された任意のアイトラッキング技術を利用して、視線を計測してよい。アイトラッキング技術は、サーチコイル法、眼球電位法などの接触型の技術であってもよく、強膜反射法、角膜反射法などの非接触型の技術であってもよい。

視線計測部４１２は、非接触型の視線計測装置であることが好ましい。この場合、視線計測部４１２は、例えば、被験者の眼に弱い光（例えば、赤外光である。）を照射する光照射部（図示されていない。）と、被験者の眼を撮像する撮像部（図示されていない。）とを備える。撮像部は、被験者の頭部を撮像してもよい。視線計測部４１２は、例えば、出力部２２０の近傍に配される。これにより、ユーザ２０がエージェントを注視している場合に、ユーザ２０の注視点が精度よく測定される。視線計測部４１２は、被験者の視線に関する情報（アイトラッキングデータと称される場合がある。）を、注視点検出部４２０に出力する。

本実施形態において、校正部４１４は、視線計測部４１２を校正する。より具体的には、校正部４１４は、被験者に合わせて視線計測部４１２の設定を調整する。一実施形態において、視線計測部４１２は、被験者の視線をトラッキングする工程又は動作モードとは別に、校正部４１４が、被験者に合わせて視線計測部４１２の設定を調整する工程又は動作モードを有する。他の実施形態において、校正部４１４は、視線計測部４１２がユーザ２０の視線をトラッキングしている間に、自動的に視線計測部４１２を校正する。

本実施形態において、注視点検出部４２０は、入力部２１０の視線計測部４１２から、アイトラッキングデータを取得する。注視点検出部４２０は、アイトラッキングデータを解析して、ユーザ２０の注視点を特定してよい。注視点検出部４２０は、特定された注視点の位置を示す情報を、起動イベント検出部４３０及び伝言イベント検出部４５０の少なくとも一方に出力してよい。

本実施形態において、起動イベント検出部４３０は、各種の起動要求を検出する。起動イベント検出部４３０の詳細は後述される。

本実施形態において、ユーザ数検出部４４０は、エージェント又は出力部２２０の周囲に存在するユーザ２０の人数を検出する。上記の周囲の範囲は、応答システム１１２が、当該範囲内に存在しているユーザの音声又はジェスチャを判別することのできる程度の大きさを有してよい。ユーザ数検出部４４０は、ユーザ２０の人数を示す情報を、応答管理部３５０に出力してよい。

ユーザ数検出部４４０は、例えば、入力部２１０の撮像装置（図示されていない。）から、ユーザ２０が撮像された画像の画像データを取得する。ユーザ数検出部４４０は、画像データを解析して、エージェント又は出力部２２０の周囲に存在する１又は複数のユーザ２０を検出してよい。これにより、ユーザ数検出部４４０は、エージェント又は出力部２２０の周囲に存在するユーザ２０の人数を検出することができる。

本実施形態において、応答システム１１２は、移動体の一例である車両１１０に搭載されている。そこで、ユーザ数検出部４４０は、検出された１又は複数のユーザ２０を、車両１１０の運転者と、同乗者とに区別してよい。これにより、ユーザ数検出部４４０は、車両１１０の同乗者の有無を判定することができる。ユーザ数検出部４４０は、車両１１０の同乗者の有無を示す情報を、応答管理部３５０及び伝言イベント検出部４５０の少なくとも一方に出力してよい。

また、ユーザ数検出部４４０は、画像データを解析して、（ｉ）エージェント又は（ｉｉ）出力部２２０と、１又は複数のユーザ２０のそれぞれとの相対位置を特定してもよい。エージェント又は出力部２２０と、入力部２１０の撮像装置との相対位置は既知であるので、注視点検出部４２０は、（ｉ）上記の画像データを解析して得られた、入力部２１０の撮像装置及びユーザ２０との相対位置と、（ｉｉ）エージェント又は出力部２２０、及び、入力部２１０の撮像装置の相対位置とに基づいて、（ｉ）エージェント又は（ｉｉ）出力部２２０と、ユーザ２０との相対位置を特定又は取得することができる。ユーザ数検出部４４０は、（ｉ）エージェント又は（ｉｉ）出力部２２０と、ユーザ２０との相対位置を示す情報（相対位置情報と称される場合がある。）を、応答管理部３５０に出力してよい。

本実施形態において、伝言イベント検出部４５０は、ユーザ２０の通信端末３０にメッセージを送信すべきイベント（伝言イベントと称される場合がある。）の発生を検出する。伝言イベント検出部４５０は、ユーザ２０にメッセージを伝達すべき場合であって、出力部２２０を利用してユーザ２０にメッセージを伝達することが困難であると判定した場合に、伝言イベントの発生を検出してよい。

例えば、伝言イベント検出部４５０は、操作情報取得部３１６から、操作情報を取得する。伝言イベント検出部４５０は、操作情報を監視して、予め定められた種類の操作に関する情報の有無を判定する。予め定められた種類の操作が検出された場合、伝言イベント検出部４５０は、ユーザ２０にメッセージを伝達すべきであると判定する。

上記の操作としては、車両１１０のドアを施錠又は解錠するための動作、車両１１０を始動させるための動作などが例示される。これにより、例えば、車両１１０に対して不正な操作がなされた場合、車両１１０から物理的に離れた位置にいるユーザ２０の通信端末３０に、その旨を示すメッセージが通知され得る。

例えば、伝言イベント検出部４５０は、車両情報取得部３１８から、車両情報を取得する。伝言イベント検出部４５０は、車両情報を監視して、車両１１０が予め定められた種類の状態にあることか否かを判定する。車両１１０が予め定められた種類の状態にあると判定された場合、伝言イベント検出部４５０は、ユーザ２０にメッセージを伝達すべきであると判定する。

上記の状態としては、車両１１０の機能に異常が生じている状態、車両１１０の消耗品の交換時期が接近している状態、特定のユーザ２０以外の人物が車両１１０を操作している状態、車内の温度が予め定められた値を超えている状態、車内に人又は動物が存在するにもかかわらず、車内の温度が予め定められた値を超えている状態などが例示される。これにより、例えば、車両１１０に何らかの異常が生じている場合に、車両１１０から物理的に離れた位置にいるユーザ２０の通信端末３０に、その旨を示すメッセージが通知され得る。

例えば、伝言イベント検出部４５０は、ユーザ数検出部４４０から、エージェント又は出力部２２０の周囲におけるユーザ２０の検出結果を示す情報を取得する。ユーザ数検出部４４０がエージェント又は出力部２２０の周囲にユーザ２０を検出していない場合、伝言イベント検出部４５０は、出力部２２０を利用してユーザ２０にメッセージを伝達することが困難であると判定する。

例えば、伝言イベント検出部４５０は、通信制御部２７６から、通信部２３０と、通信端末３０との間で、有線通信又は近距離無線通信が確立することができるか否かを示す情報を取得する。通信部２３０及び通信端末３０との間で、有線通信又は近距離無線通信が確立されない場合、伝言イベント検出部４５０は、出力部２２０を利用してユーザ２０にメッセージを伝達することが困難であると判定する。

なお、本実施形態においては、イベント検出部３４０が、起動イベントと、伝言イベントとを検出する場合を例として、イベント検出部３４０の詳細が説明された。しかしながら、イベント検出部３４０は、本実施形態に限定されない。他の実施形態において、イベント検出部３４０は、起動イベント若しくは伝言イベントとともに、又は、起動イベント若しくは伝言イベントに代えて、他の種類のイベントを検出してよい。例えば、応答システム１１２における応答処理を中止又は中断するための要求（中止要求と称される場合がある）の入力を検出する。

図５は、起動イベント検出部４３０の内部構成の一例を概略的に示す。本実施形態において、起動イベント検出部４３０は、アイコンタクト検出部５２０と、起動フレーズ検出部５３０と、起動操作検出部５４０とを備える。

本実施形態において、アイコンタクト検出部５２０は、視線による起動要求を検出する。アイコンタクト検出部５２０は、注視点検出部４２０から、ユーザ２０の注視点の位置を示す情報を取得する。アイコンタクト検出部５２０は、ユーザ２０の注視点の位置に基づいて、起動要求を検出してよい。例えば、注視点が、（ｉ）エージェントの一部、又は、（ｉｉ）出力部２２０の一部に位置する場合、アイコンタクト検出部５２０は、起動要求を検出する。注視点が（ｉ）エージェントの一部又は（ｉｉ）出力部２２０の一部に位置する時間の長さが、予め定められた値よりも大きい場合、アイコンタクト検出部５２０は、起動要求を検出してもよい。

これにより、ユーザ２０は、ジェスチャにより起動要求を入力することができる。そのため、ユーザ２０は、周囲に他人が存在する場合であっても、ためらいを感じることなく、応答システム１１２又はエージェントを起動して、エージェントとのインタラクションを開始することができる。

エージェントの一部は、エージェントの顔の一部であってよい。エージェントの顔の一部は、目であってもよい。これにより、ユーザ２０は、ユーザ２０及びエージェントのアイコンタクトにより、応答システム１１２又はエージェントを起動することができる。

本実施形態において、起動フレーズ検出部５３０は、音声による起動要求を検出する。音声による起動要求は、予め定められた起動ワード又は起動フレーズであってよい。本実施形態において、起動操作検出部５４０は、操作ボタン又は操作パネルの操作による起動要求を検出する。操作パネルはタッチパネルであってもよい。

図６は、応答管理部３５０の内部構成の一例を概略的に示す。本実施形態において、応答管理部３５０は、転送制御部６２０と、応答決定部６３０と、音声合成部６４２と、画像生成部６４４と、命令生成部６５０と、伝言管理部６６０とを備える。本実施形態において、応答決定部６３０は、起動管理部６３２と、応答情報取得部６３８とを有する。

起動管理部６３２は、状態決定部の一例であってよい。応答情報取得部６３８は、顔制御部、相対位置情報取得部の一例であってよい。応答情報取得部６３８は、表情制御部の一例であってよい。音声合成部６４２は、音声メッセージ生成部の一例であってよい。伝言管理部６６０は、伝達決定部、内容決定部及び要求送信部の一例であってよい。

本実施形態において、転送制御部６２０は、転送部３３０の動作を制御する。転送制御部６２０は、転送部３３０の動作を制御するための命令を生成し、当該命令を転送部３３０に送信してよい。転送制御部６２０は、転送部３３０の設定を変更するための命令を生成し、当該命令を転送部３３０に送信してもよい。

例えば、本実施形態において、応答システム１１２が起動してスタンバイ状態に移行すると、起動管理部６３２は、イベント検出部３４０が起動要求を検出することができるように、転送部３３０を制御する。具体的には、起動管理部６３２は、応答システム１１２がスタンバイ状態に移行したことを示す情報を、転送制御部６２０に出力する。

転送制御部６２０は、応答システム１１２がスタンバイ状態に移行したことを示す情報を取得すると、音声情報、画像情報、操作情報及び車両情報の少なくとも１つを、イベント検出部３４０に転送することを指示する命令を、転送部３３０に送信する。転送制御部６２０は、（ｉ）音声情報及び画像情報の一方と、（ｉｉ）音声情報及び画像情報の他方、操作情報及び車両情報の少なくとも１つとをイベント検出部３４０に転送することを指示する命令を、転送部３３０に送信してもよい。

また、起動イベント検出部４３０が起動要求を検出した場合、転送制御部６２０は、音声情報、画像情報、操作情報及び車両情報の少なくとも１つを、支援サーバ１２０に転送することを指示する命令を、転送部３３０に送信する。転送制御部６２０は、（ｉ）音声情報及び画像情報の一方と、（ｉｉ）音声情報及び画像情報の他方、操作情報及び車両情報の少なくとも１つとをイベント検出部３４０に転送することを指示する命令を、転送部３３０に送信してもよい。

転送制御部６２０は、操作情報が転送部３３０に入力された場合に、当該操作情報が車両制御部２７４に転送されるように、上記の命令を生成してもよい。これにより、車両１１０の操作に対するレスポンスが向上する。

本実施形態において、応答決定部６３０は、応答システム１１２による応答処理を管理する。例えば、応答決定部６３０は、応答処理が開始又は終了するタイミングを決定する。また、応答決定部６３０は、ユーザ２０からの要求に対する応答を決定する。応答決定部６３０は、転送制御部６２０を介して、転送部３３０の動作を制御してもよい。

本実施形態において、起動管理部６３２は、応答システム１１２による応答処理が開始又は終了するタイミグを管理する。具体的には、起動管理部６３２は、起動イベント検出部４３０から、起動要求が検出されたことを示す情報を取得する。起動管理部６３２は、起動要求が検出されたことを示す情報を取得すると、応答システム１１２の状態を、スタンバイ状態から起動状態に変更することを決定する。

これにより、一実施形態において、エージェントが顔を有する場合において、ユーザ２０の注視点がエージェントの顔の一部に位置するとき、起動管理部６３２は、応答システム１１２の状態を、スタンバイ状態から起動状態に変更することを決定することができる。他の実施形態において、エージェントが顔を有する場合において、注視点がエージェントの顔の一部に位置する時間の長さが、予め定められた値よりも大きいとき、起動管理部６３２は、応答システム１１２の状態を、スタンバイ状態から起動状態に変更することを決定することができる。顔の一部は、目であってよい。

同様に、起動管理部６３２は、起動イベント検出部４３０から、中止要求が検出されたことを示す情報を取得する。起動管理部６３２は、起動要求が検出されたことを示す情報を取得すると、応答システム１１２の状態を、起動状態からスタンバイ状態に変更することを決定する。

本実施形態において、応答情報取得部６３８は、支援サーバ１２０から、ユーザ２０の要求に対する応答に関する情報を取得する。応答に関する情報は、応答の内容を示す情報、及び、応答の様態を示す情報の少なくとも一方を含んでよい。応答の内容を示す情報は、出力部２２０から出力される情報の内容を示す情報、及び、車両１１０の操作の内容を示す情報の少なくとも一方を含んでよい。

応答情報取得部６３８は、例えば、上記の応答に関する情報のうち、出力部２２０を介して出力される情報に関するものを、音声合成部６４２及び画像生成部６４４の少なくとも一方に出力する。応答情報取得部６３８は、例えば、上記の応答に関する情報のうち、車両１１０の操作に関するものを、命令生成部６５０に出力する。

音声合成部６４２は、ユーザ２０の要求に応答する音声メッセージを生成する。音声合成部６４２は、応答情報取得部６３８から、ユーザ２０の要求に対する応答に関する情報を取得する。例えば、音声合成部６４２は、応答の内容を示す情報に基づいて、音声メッセージを生成する。音声合成部６４２は、応答の内容を示す情報と、応答の様態を示す情報とに基づいて、音声メッセージを生成してもよい。音声合成部６４２は、生成された音声メッセージを出力部２２０に出力してよい。

画像生成部６４４は、ユーザ２０の要求に応答する画像（応答画像と称される場合がある。）を生成する。画像生成部６４４は、ユーザ２０の要求に応答するエージェントのアニメーション画像を生成してよい。画像生成部６４４は、応答情報取得部６３８から、ユーザ２０の要求に対する応答に関する情報を取得する。例えば、画像生成部６４４は、応答の内容を示す情報に基づいて、応答画像を生成する。画像生成部６４４は、応答の内容を示す情報と、応答の様態を示す情報とに基づいて、応答画像を生成してもよい。画像生成部６４４は、生成された応答画像を出力部２２０に出力してよい。

なお、本実施形態においては、エージェントがソフトウエアエージェントであり、画像生成部６４４が、エージェントのアニメーション画像を生成する場合を例として、応答管理部３５０の詳細が説明された。しかしながら、応答管理部３５０は本実施形態に限定されない。他の実施形態において、エージェントがハードウエアエージェントである場合、応答管理部３５０は、エージェントの各部の駆動を制御する駆動制御部を有してよく、駆動制御部は、応答情報取得部６３８が取得した応答の内容及び様態の少なくとも一方を示す情報に基づいて、エージェントを駆動してよい。

命令生成部６５０は、車両１１０を操作するための命令を生成する。命令生成部６５０は、応答情報取得部６３８から、ユーザ２０の要求に対する応答に関する情報を取得する。例えば、命令生成部６５０は、応答の内容を示す情報に基づいて、車両１１０の操作の種類を決定する。命令生成部６５０は、応答の様態を示す情報に基づいて、操作量又は操作モードを決定してよい。命令生成部６５０は、生成された命令を車両制御部２７４に出力してよい。

本実施形態において、伝言管理部６６０は、車両１１０又は応答システム１１２から、ユーザ２０の通信端末３０に送信されるメッセージを管理する。例えば、伝言管理部６６０は、伝言イベント検出部４５０から、伝言イベントが検出されたことを示す情報を取得する。伝言イベントの発生が検出された場合、伝言管理部６６０は、通信ネットワーク１０を介して、ユーザ２０の通信端末３０に音声メッセージを送信することを決定する。

伝言管理部６６０は、上記のメッセージの内容を決定してよい。伝言管理部６６０は、検出された伝言イベントの種類に基づいてメッセージの内容の少なくとも一部を決定してよい。

例えば、伝言管理部６６０は、伝言イベントの種類を示す情報と、当該イベントが検出されたときに送信されるメッセージの内容を示す情報とが対応付けられたデータベースを有する。伝言管理部６６０は、上記のデータベースに格納された情報を参照して、上記のメッセージの内容を決定してよい。伝言管理部６６０は、その内容が予め定められた１又は複数の定型メッセージを利用して、上記のメッセージの内容を決定してよい。

一実施形態において、定型メッセージは、その一部の内容を動的に編集することができるように構成されている。伝言管理部６６０は、定型メッセージの一部を編集して、上記のメッセージの内容を決定する。他の実施形態において、伝言管理部６６０は、複数の定型メッセージを組み合わせて、上記のメッセージの内容を決定する。いくつかの定型メッセージは、その一部の内容を動的に編集することができるように構成されていてよい。

メッセージの内容が決定されると、伝言管理部６６０は、車両１１０又は応答システム１１２に対応づけられたキャラクタの声の音声情報を利用して、音声メッセージを生成する。例えば、伝言管理部６６０は、メッセージの内容を示す情報を音声合成部６４２に送信して、当該メッセージを音声メッセージに変換することを要求する。

メッセージの内容を示す情報は、メッセージの内容を示すテキスト情報であってもよく、その内容が予め定められた１又は複数の定型メッセージのそれぞれを識別するための識別情報であってもよい。音声合成部６４２は、例えば、上記のキャラクタの声の音声情報と、メッセージの内容を示す情報とを合成して、音声メッセージを生成する。キャラクタの声の音声情報は、例えば、エージェント情報格納部３６０に格納されている。

伝言管理部６６０は、生成された音声メッセージの伝達方法を決定してよい。音声メッセージの伝達方法としては、（ｉ）車両１１０の通信部２３０及び通信端末３０の間の有線通信又は近距離無線通信を利用して伝達する方法、（ｉｉ）支援サーバ１２０を介して伝達する方法などが例示される。

音声メッセージが、支援サーバ１２０を介して伝達される場合、一実施形態において、伝言管理部６６０は、音声メッセージの送信を要求する中継要求を、支援サーバ１２０に送信する。伝言管理部６６０は、上記の中継要求とともに、メッセージの音声データを、支援サーバ１２０に送信してよい。他の実施形態において、伝言管理部６６０は、音声メッセージの生成及び送信を要求する中継要求を、支援サーバ１２０に送信する。伝言管理部６６０は、上記の中継要求とともに、メッセージの内容を示す情報と、キャラクタを特定するための情報とを、支援サーバ１２０に送信してよい。

伝言管理部６６０は、音声通話サービス又はＩＰ電話サービスを利用して、音声メッセージを通信端末３０に送信することを決定してよい。伝言管理部６６０は、メールサービス、ソーシャル・ネットワーキング・サービス、メッセンジャーサービスなどのデータ通信サービスを利用して、音声データの電子ファイルとして、音声メッセージを通信端末３０に送信することを決定してもよい。

図７は、エージェント情報格納部３６０の内部構成の一例を概略的に示す。本実施形態において、エージェント情報格納部３６０は、設定データ格納部７２２と、音声データ格納部７３２と、画像データ格納部７３４とを備える。音声データ格納部７３２は、音声情報格納部の一例であってよい。

本実施形態において、設定データ格納部７２２は、各エージェントの設定に関する情報を格納する。設定としては、年齢、性別、性格、ユーザ２０に与える印象などが例示される。本実施形態において、音声データ格納部７３２は、各エージェントの音声を合成するための情報（音声情報と称される場合がある。）を格納する。例えば、音声データ格納部７３２は、キャラクタごとに、コンピュータが当該キャラクタの声でメッセージを読み上げるためのデータを格納する。本実施形態において、画像データ格納部７３４は、各エージェントの画像を生成するための情報を格納する。例えば、画像データ格納部７３４は、キャラクタごとに、コンピュータが、当該キャラクタのアニメーション画像を動的に生成するためのデータを格納する。

［支援サーバ１２０の各部の概要］
図８は、支援サーバ１２０の内部構成の一例を概略的に示す。本実施形態において、支援サーバ１２０は、通信部８２０と、通信制御部８３０と、要求処理部８４０とを備える。本実施形態において、要求処理部８４０は、要求決定部８４２と、実行部８４４と、応答情報生成部８４６と、設定情報格納部８４８と、伝言サービス提供部８５０とを有する。

応答情報生成部８４６は、メッセージ制御部の一例であってよい。設定情報格納部８４８は、ユーザ情報格納部及び履歴格納部の一例であってよい。伝言サービス提供部８５０は、中継装置の一例であってよい。

本実施形態の支援サーバ１２０によれば、ハードウエアと、ソフトウエアとの協働により、クラウド型対話エンジンが実現される。また、本実施形態において、支援サーバ１２０は、エージェントからユーザ２０への伝言を中継する伝言サービスを提供する。

本実施形態において、通信部８２０は、通信ネットワーク１０を介して、車両１１０及び通信端末３０の少なくとも一方と、支援サーバ１２０との間で情報を送受する。通信部８２０は、通信部２３０と同様の構成を有してよい。

本実施形態において、通信制御部８３０は、支援サーバ１２０と外部の機器との間の通信を制御する。通信制御部８３０は、通信部８２０の動作を制御してよい。通信制御部８３０は、通信制御部２７６と同様の構成を有してよい。

本実施形態において、要求処理部８４０は、ユーザ２０からの要求を取得し、当該要求に応じた処理を実行する。要求処理部８４０は、上記の要求に対する応答を決定する。例えば、要求処理部８４０は、応答の内容及び様態の少なくとも一方を決定する。要求処理部８４０は、上記の決定結果に基づいて、応答に関する情報を生成する。要求処理部８４０は、応答に関する情報を、車両１１０の応答管理部３５０に出力してよい。

本実施形態において、要求処理部８４０は、車両１１０のエージェントからユーザ２０へのメッセージを中継する伝言サービスを提供する。上記のメッセージは、車両１１０のエージェントとして利用されているキャラクタの声で読み上げられてよい。これにより、ユーザ２０がメッセージを受け取った場合、ユーザ２０は、どのデバイスからのメッセージであるかを直感的に判断することができる。例えば、単一のユーザ２０が、複数のデバイスを有しており、デバイスごとに、エージェントとして異なるキャラクタが設定されている場合、上記の特徴はより大きな効果を奏する。

本実施形態において、要求決定部８４２は、通信ネットワーク１０を介して、車両１１０から、車両１１０の転送部３３０に入力された情報の少なくとも一部を取得する。要求決定部８４２は、車両１１０から取得された情報を解析して、ユーザ２０の要求を認識する。要求決定部８４２は、認識された要求のうち、伝言要求が認識された場合、当該伝言要求を伝言サービス提供部８５０に出力してよい。要求決定部８４２は、その他の要求が認識された場合、当該要求を実行部８４４に出力してよい。要求決定部８４２の詳細は後述される。

本実施形態において、実行部８４４は、要求決定部８４２から、認識された要求の種類を示す情報を取得する。実行部８４４は、認識された要求の種類に応じた処理を実行してよい。実行部８４４は、設定情報格納部８４８に格納された情報を参照して、上記の処理を決定してよい。実行部８４４は、例えば、実行結果を示す情報を、応答情報生成部８４６に出力する。実行部８４４は、処理が実行されたことを示す情報を、応答情報生成部８４６に出力してもよい。

本実施形態において、応答情報生成部８４６は、ユーザ２０からの要求に対する応答を決定する。応答情報生成部８４６は、応答の内容及び様態の少なくとも一方を決定してよい。応答情報生成部８４６は、決定された応答の内容及び様態の少なくとも一方を示す情報（応答情報と称される場合がある。）を生成してよい。応答情報生成部８４６は、生成された応答情報を、車両１１０の応答管理部３５０に出力してよい。

応答の内容としては、出力部２２０から出力される応答メッセージの種類又は内容、車両制御部２７４に送信される命令の種類又は内容などが例示される。応答メッセージとして、１又は複数の定型メッセージが用意されている場合、応答メッセージの種類は、１又は複数の定型メッセージのそれぞれを識別するための識別情報であってよい。命令の種類は、車両制御部２７４において実行可能な１又は複数の命令のそれぞれを識別するための識別情報であってよい。

応答の様態としては、出力部２２０が応答メッセージを出力するときのエージェントの様態、車両制御部２７４による車両１１０の制御の様態などが例示される。上述のとおり、エージェントの様態としては、エージェントとして利用されるキャラクタの種類、当該キャラクタの外観、当該キャラクタの声、及び、インタラクションの様態の少なくとも１つが例示される。車両１１０の制御の様態としては、急加速、急減速、急ハンドルなどの急な操作を抑制する態様などが例示される。

本実施形態において、設定情報格納部８４８は、要求処理部８４０の各部の処理に利用される各種の情報を格納する。一実施形態において、設定情報格納部８４８は、ユーザ２０の要求の種類を識別するための識別情報と、当該要求を認識するための特徴を示す特徴情報とを対応付けて格納する。設定情報格納部８４８は、ユーザ２０の要求の種類及び内容の少なくとも一方を示す情報と、当該要求に応じた処理の内容及び様態の少なくとも一方を示す情報とを対応付けて格納してもよい。設定情報格納部８４８は、ユーザ２０の要求の種類を識別するための識別情報と、当該要求を認識するための特徴を示す特徴情報と、当該要求に応じた処理の内容及び様態の少なくとも一方を示す情報とを対応付けて格納してもよい。

他の実施形態において、設定情報格納部８４８は、（ｉ）各ユーザを識別するためのユーザ識別情報と、（ｉｉ）各ユーザへの情報の伝達に利用されるエージェントのキャラクタの声の音声情報又は当該音声情報を特定するための情報とを対応付けて格納する。設定情報格納部８４８は、（ｉ）各ユーザを識別するためのユーザ識別情報と、（ｉｉ）各エージェント又は応答システム１１２が搭載された各デバイスを識別するためのデバイス識別情報と、（ｉｉｉ）各エージェントのキャラクタの声、又は、各デバイスがユーザへの情報の伝達に利用するエージェントのキャラクタの声の、音声情報又は当該音声情報を特定するための情報とを対応付けて格納してもよい。

さらに他の実施形態において、設定情報格納部８４８は、（ｉ）メッセージの内容を示す情報と、（ｉｉ）当該メッセージが伝達されたときの各ユーザの心理状態を示す情報とを対応づけて格納する。設定情報格納部８４８は、（ｉ）各ユーザを識別するためのユーザ識別情報と、（ｉｉ）メッセージの内容を示す情報と、（ｉｉｉ）当該メッセージが伝達されたときの各ユーザの心理状態を示す情報とを対応づけて格納してもよい。

本実施形態において、伝言サービス提供部８５０は、車両１１０のエージェントからユーザ２０へのメッセージを中継する伝言サービスを提供する。

図９は、要求決定部８４２の内部構成の一例を概略的に示す。本実施形態において、要求決定部８４２は、入力情報取得部９２０と、音声認識部９３２と、ジェスチャ認識部９３４と、推定部９４０とを備える。本実施形態において、推定部９４０は、要求推定部９４２と、ユーザ状態推定部９４４と、車両状態推定部９４６とを有する。

ユーザ状態推定部９４４は、心理情報取得部及び特徴情報取得部の一例であってよい。車両状態推定部９４６は、移動体情報取得部の一例であってよい。

本実施形態において、入力情報取得部９２０は、要求処理部８４０の入力となる情報を取得する。例えば、入力情報取得部９２０は、音声情報取得部３１２が取得した音声情報、及び、画像情報取得部３１４が取得した画像情報の少なくとも一方を取得する。入力情報取得部９２０は、音声情報取得部３１２が取得した音声情報、画像情報取得部３１４が取得した画像情報、操作情報取得部３１６が取得した操作情報、及び、車両情報取得部３１８が取得した車両情報の少なくとも１つを取得してもよい。入力情報取得部９２０は、（ｉ）音声情報及び画像情報の一方と、（ｉｉ）音声情報及び画像情報の他方、操作情報、並びに、車両情報の少なくとも１つとを取得してもよい。

本実施形態において、入力情報取得部９２０は、取得された音声情報を音声認識部９３２に転送する。入力情報取得部９２０は、取得された画像情報をジェスチャ認識部９３４に転送する。入力情報取得部９２０は、取得された操作情報を推定部９４０に転送する。入力情報取得部９２０は、取得された車両情報を推定部９４０に転送する。入力情報取得部９２０は、取得された操作情報及び車両情報の少なくとも一方を、音声認識部９３２及びジェスチャ認識部の少なくとも一方に転送してもよい。

本実施形態において、音声認識部９３２は、音声情報を解析して、ユーザ２０の発話の内容を特定する。音声認識部９３２は、ユーザ２０の発話の内容を示す情報を、推定部９４０に出力する。音声認識部９３２は、発話の内容を解析して要求を認識する処理を実行してもよく、当該処理を実行しなくてもよい。

本実施形態において、ジェスチャ認識部９３４は、画像情報を解析して、ユーザ２０により示された１又は複数のジェスチャを抽出する。ジェスチャ認識部９３４は、抽出されたジェスチャを示す情報を、推定部９４０に出力する。ジェスチャ認識部９３４は、抽出されたジェスチャを解析して要求を認識する処理を実行してもよく、当該処理を実行しなくてもよい。

本実施形態において、推定部９４０は、ユーザ２０からの要求を認識又は推定する。推定部９４０は、ユーザ２０の状態を認識又は推定してよい。推定部９４０は、車両１１０の状態を認識又は推定してよい。

本実施形態において、要求推定部９４２は、ユーザ２０からの要求を認識又は推定する。一実施形態において、要求推定部９４２は、音声認識部９３２から、ユーザ２０の発話の内容を示す情報を取得する。要求推定部９４２は、ユーザ２０の発話の内容を解析して、ユーザ２０の要求を認識又は推定する。他の実施形態において、要求推定部９４２は、ジェスチャ認識部９３４から、画像情報の解析により抽出されたジェスチャを示す情報を取得する。要求推定部９４２は、抽出されたジェスチャを解析して、ユーザ２０の要求を認識又は推定する。

要求推定部９４２は、音声情報又は画像情報に加えて、音声情報及び画像情報以外の情報を利用して、ユーザ２０からの要求を認識又は推定してもよい。例えば、要求推定部９４２は、入力情報取得部９２０から、操作情報及び車両情報の少なくとも一方を取得する。要求推定部９４２は、ユーザ状態推定部９４４から、ユーザ２０の状態を示す情報を取得してもよい。要求推定部９４２は、車両状態推定部９４６から、車両１１０の状態を示す情報を取得してもよい。これらの情報が利用されることで、要求推定部９４２における認識又は推定の精度が向上し得る。

要求推定部９４２は、認識された要求の種類を示す情報を、実行部８４４に出力してよい。要求推定部９４２は、音声情報又は画像情報を解析したにもかかわらず要求を認識することができなかった場合、要求の認識が不能であることを示す情報を、応答情報生成部８４６に出力してよい。

本実施形態において、ユーザ状態推定部９４４は、ユーザ２０の状態を認識又は推定する。ユーザ状態推定部９４４は、音声情報、画像情報、操作情報及び車両情報の少なくとも１つに基づいて、ユーザ２０の状態を認識又は推定する。これにより、ユーザ状態推定部９４４は、ユーザ２０の状態を示す情報を取得することができる。ユーザ２０の状態としては、ユーザ２０の心理状態、覚醒状態及び健康状態の少なくとも１つが例示される。

ユーザ状態推定部９４４は、ユーザ２０の状態を示す情報を、要求推定部９４２に出力してよい。これにより、要求推定部９４２は、例えば要求の候補を絞ることができるので、要求推定部９４２の推定精度が向上し得る。

ユーザ状態推定部９４４は、ユーザ２０の状態を示す情報を、応答情報生成部８４６に出力してもよい。例えば、ユーザ状態推定部９４４は、音声情報、画像情報などを解析して、ユーザ２０が要求を伝達するときのユーザ２０の様子の特徴を示す情報（特徴情報と称される場合がある。）を抽出する。特徴情報は、声量、口調、テンポ、１回あたりの発話の長さ、間の取り方、抑揚のつけ方、強弱のつけ方、相槌の打ち方、癖、及び、話題の展開方法の少なくとも１つの特徴を示す情報であってよい。ユーザ状態推定部９４４は、特徴情報を、応答情報生成部８４６に出力してよい。

本実施形態において、車両状態推定部９４６は、車両１１０の状態を認識又は推定する。車両状態推定部９４６は、音声情報、画像情報、操作情報及び車両情報の少なくとも１つに基づいて、車両１１０の状態を認識又は推定する。上述のとおり、車両１１０の状態は、車両１１０の移動状態、車両１１０の各部の動作状態、及び、車両１１０の内部空間の状態の少なくとも１つであってよい。車両状態推定部９４６は、ユーザ数検出部４４０と同様の処理を実行してもよい。

車両状態推定部９４６は、車両１１０の状態を示す情報を、要求推定部９４２に出力してよい。これにより、要求推定部９４２は、例えば要求の候補を絞ることができるので、要求推定部９４２の推定精度が向上し得る。

車両状態推定部９４６は、車両１１０の状態を示す情報を、ユーザ状態推定部９４４に出力してよい。これにより、ユーザ状態推定部９４４は、車両１１０の状態を考慮して、ユーザ２０の状態を推定することができるので、推定精度が向上し得る。例えば、急加速、急減速、急ハンドルなどの頻度が大きい場合には、注意不足、怒り、いらつきなどの心理状態が推定される。また、車両１１０が蛇行している場合には、覚醒状態の低下、健康上の問題などが推定される。

図１０は、応答情報生成部８４６の内部構成の一例を概略的に示す。本実施形態において、応答情報生成部８４６は、応答内容決定部１０３４と、応答様態決定部１０３６とを備える。

応答内容決定部１０３４は、メッセージ制御部の一例であってよい。応答様態決定部１０３６は、顔制御部、相対位置情報取得部、表情制御部、特徴情報取得部、心理情報取得部、移動体情報取得部、及び、様態決定部の一例であってよい。

本実施形態において、応答内容決定部１０３４は、ユーザ２０からの要求に対する応答の内容を決定する。応答の内容としては、要求に応じて実行されるべき処理の種類、インタラクションの内容などが例示される。インタラクションの内容としては、対話の具体的な内容、エージェントの動作の具体的な内容などが例示される。応答内容決定部１０３４は、応答の内容を示す情報を、応答管理部３５０に出力してよい。

例えば、応答内容決定部１０３４は、ユーザ２０にメッセージを伝達することを決定する。応答内容決定部１０３４は、出力部２２０の近傍に位置する１又は複数のユーザ２０にメッセージを伝達することを決定してよい。

メッセージの種類は限定されない。メッセージとしては、ユーザ２０のジェスチャにより示された起動要求が受け付けられたことを示すメッセージ、ユーザ２０の現在の状態を示すメッセージ、ユーザ２０に注意を促すためのメッセージなどが例示される。

なお、応答内容決定部１０３４は、（ｉ）出力部２２０を介してユーザ２０にメッセージを伝達するか、又は、（ｉｉ）ユーザ２０の通信端末３０を介してユーザ２０にメッセージを伝達するかを決定してよい。応答内容決定部１０３４は、（ｉ）通信部２３０及び通信端末３０の間に確立された有線通信若しくは近距離無線通信により、通信端末３０にメッセージを送信するか、又は、（ｉｉ）通信ネットワーク１０及び支援サーバ１２０を介して、通信端末３０にメッセージを送信するかを決定してもよい。

応答内容決定部１０３４は、特定の条件が満足された場合に、ユーザ２０にメッセージを伝達することを決定してよい。この場合において、設定情報格納部８４８は、上記の条件の種類又は内容を示す情報と、メッセージの種類又は内容を示す情報とが対応づけて格納していてもよい。

例えば、応答内容決定部１０３４は、応答システム１１２のイベント検出部３４０から、ユーザ２０の注視点の位置を示す情報を取得する。応答内容決定部１０３４は、注視点の位置又は当該位置の変動が特定の条件を満足する場合に、当該条件に応じたメッセージを、ユーザ２０に伝達することを決定する。

一実施形態において、注視点の位置がエージェントの顔の一部に位置する場合、応答内容決定部１０３４は、ユーザ２０の発話を促すためのメッセージを伝達することを決定する。ユーザ２０の発話を促すためのメッセージとしては、「何か御用ですか？」、「何かお困りですか？」、「どうしましたか？」などのメッセージが例示される。ユーザ２０の発話を促すためのメッセージは、挨拶であってもよく、起動要求が受け付けられたことを示すメッセージであってもよい。

上述のとおり、注視点の位置がエージェントの顔の一部に位置する場合、起動イベント検出部４３０が起動要求を検出する。そこで、エージェントがユーザ２０の発話を促すためのメッセージを出力することで、ユーザ２０は、起動要求が受け付けられたことを理解することができる。

他の実施形態において、注視点の位置が予め定められた条件（注意喚起条件と称される場合がある。）を満足する場合、応答内容決定部１０３４は、運転に集中することを促すためのメッセージを伝達することを決定する。上記の条件としては、注視点が特定の範囲内に位置するという条件、予め定められた期間に渡って、注視点が特定の範囲内にとどまっているという条件などが例示される。上記の特定の範囲は、入力部２１０又は出力部２２０の一部又は近傍であってよい。上記の特定の範囲は、車両１１０の車内に配されたティスプレイ又はその近傍であってよい。

例えば、ユーザ２０が車両１１０の運転者である場合、注意喚起条件としては、（ｉ）車両１１０の移動中に、注視点が車両１１０の進行方向前方に位置していないという条件、（ｉｉ）車両１１０の移動中に、注視点が車両１１０の進行方向前方に位置していない時間の長さが予め定められた閾値より長いという条件、（ｉｉｉ）車両１１０の移動中に、注視点が出力部２２０の表示装置の近傍に位置しているという条件、（ｉｖ）車両１１０の移動中に、注視点が出力部２２０の表示装置の近傍に位置している時間の長さが予め定められた閾値より長いという条件などが例示される。

この場合において、応答内容決定部１０３４は、ユーザ数検出部４４０から、同乗者の有無を示す情報を取得してよい。同乗者が存在すると判定された場合において、注視点の位置が注意喚起条件を満足するとき、応答内容決定部１０３４は、運転者の集中力が低下している可能性のあることを示すメッセージを、同乗者に伝達することを決定してよい。

応答内容決定部１０３４は、設定情報格納部８４８にアクセスして、過去に同種のメッセージが伝達されたときのユーザ２０の心理状態を示す情報を取得してよい。応答内容決定部１０３４は、上記のユーザ２０の心理状態を示す情報を参照して、運転者であるユーザ２０にメッセージを伝達するか、同乗者である他のユーザ２０にメッセージを伝達するかを決定してよい。

本実施形態において、応答様態決定部１０３６は、ユーザ２０からの要求に対する応答の様態を決定する。上述のとおり出力部２２０が応答メッセージを出力するときのエージェントの様態、車両制御部２７４による車両１１０の制御の様態などが例示される。応答様態決定部１０３６は、ユーザ２０の動作又は様子に合わせて、応答の様態を決定してよい。応答様態決定部１０３６は、応答の様態を示す情報を、応答管理部３５０に出力してよい。

［ユーザ２０の注視点に基づく、エージェントのインタラクション］
本実施形態において、応答様態決定部１０３６は、特定の条件が満足された場合に、エージェントの顔又は視線の向きを制御することを決定する。同様に、応答様態決定部１０３６は、特定の条件が満たされた場合に、エージェントの表情を制御することを決定してよい。

例えば、応答様態決定部１０３６は、ユーザ２０の注視点の位置又は当該位置の変動が特定の条件（方向変更条件と称される場合がある。）を満足する場合に、エージェントの顔又は視線がユーザ２０の方向を向くように、エージェントの顔又は視線の向きを制御することを決定する。なお、応答様態決定部１０３６は、ユーザ２０の注視点が、（ｉ）エージェントの一部（例えば目である）、又は、（ｉｉ）エージェントの画像を表示若しくは投影する出力部２２０の一部に位置する場合に、エージェントの顔又は視線がユーザの方向を向くように、エージェントの顔又は視線の向きを制御することを決定してもよい。

これにより、ユーザ２０は、エージェントがユーザ２０の視線を感じて、ユーザ２０の方を向いたような感覚を覚える。また、ユーザ２０及びエージェントのアイコンタクトが実現され得る。さらに、例えば、ユーザ２０がジェスチャにより起動要求を入力した場合であっても、ユーザ２０は、当該起動要求が受け付けられたことを直感的に理解することができる。

同様に、応答様態決定部１０３６は、ユーザ２０の注視点の位置又は当該位置の変動が特定の条件（表情変更条件と称される場合がある。）を満足する場合に、エージェントの表情を変更することを決定する。なお、応答様態決定部１０３６は、ユーザ２０の注視点が、（ｉ）エージェントの一部（例えば目である）、又は、（ｉｉ）エージェントの画像を表示若しくは投影する出力部２２０の一部に位置する場合に、エージェントの表情を変更することを決定してもよい。

これにより、例えば、ユーザ２０がジェスチャにより起動要求を入力した場合であっても、ユーザ２０は、当該起動要求が受け付けられたことを直感的に理解することができる。なお、起動要求が受け付けられた場合、応答システム１１２は、音及び光の少なくとも一方により、起動要求が受け付けられたことを提示してよい。

応答様態決定部１０３６は、例えば、ユーザ数検出部４４０から、（ｉ）エージェント又は（ｉｉ）出力部２２０と、ユーザ２０との相対位置を示す情報（相対位置情報と称される場合がある。）を取得する。応答様態決定部１０３６は、相対位置情報に基づいて、エージェントの顔又は視線の向きを決定してよい。これにより、応答様態決定部１０３６は、エージェントの顔又は視線がユーザ２０の方向を向くように、エージェントの動作を制御することができる。

エージェント又は出力部２２０の周囲に複数のユーザ２０が存在する場合、応答様態決定部１０３６は、予め定められた優先順位に従って、エージェントの顔又は視線が、どのユーザ２０の方向を向くように、エージェントの動作を制御するかを決定してよい。応答様態決定部１０３６は、例えば、ユーザ数検出部４４０から、エージェント又は出力部２２０の周囲に存在する１又は複数のユーザ２０に関する情報を取得してよい。

例えば、応答様態決定部１０３６は、各ユーザの声量、各ユーザの顔の向き、各ユーザの視線の向き、車両１１０の状態、及び、各ユーザの座席配置の少なくとも１つに基づいて、上記の優先順位を決定してよい。応答様態決定部１０３６は、声が大きいユーザを優先することを決定してよい。応答様態決定部１０３６は、顔が、よりエージェントの方を向いているユーザを優先することを決定してよい。

例えば、車両１１０が移動中である場合、応答様態決定部１０３６は、助手席に配されたユーザ２０、運転席に配されたユーザ２０、後部座席に配されたユーザ２０の順に優先順位を決定する。一方、車両１１０が停車中である場合、応答様態決定部１０３６は、運転席に配されたユーザ２０を優先することを決定してよい。

［対話時のユーザ２０の様子に基づく、エージェントのインタラクション］
本実施形態において、応答様態決定部１０３６は、ユーザ２０が要求を伝達するときのユーザ２０の様子に基づいて、応答時のエージェントの様態を決定する。例えば、応答様態決定部１０３６は、ユーザ状態推定部９４４から、特徴情報を取得する。応答様態決定部１０３６は、特徴情報によりユーザ２０の特徴に基づいて、エージェントの様態を決定してよい。

一実施形態において、応答様態決定部１０３６は、エージェントが、複数の会話をとおして、又は、一定期間をとおして、同一又は類似の様態で応答するように、エージェントを制御する。他の実施形態において、応答様態決定部１０３６は、エージェントが、要求ごとに、当該要求に応じた様態で応答するように、エージェントを制御する。

上述のとおり、エージェントの様態は、応答時のエージェントのインタラクションの様態であってよい。エージェントのインタラクションの様態は、声の大きさ、口調、テンポ、１回あたりの発話の長さ、間の取り方、抑揚のつけ方、強弱のつけ方、相槌の打ち方、口癖、及び、話題の展開方法の少なくとも１つであってよい。エージェントがユーザ２０の様子に合わせた様態で応答することにより、自然で親密な会話が実現される。

応答様態決定部１０３６は、エージェントのインタラクションの様態が、特徴情報により示されるユーザ２０の様子と同一又は類似するように、エージェントの様態を決定してよい。例えば、ユーザ２０の口調がゆっくりであれば、エージェントがゆっくりした口調で応答するように、エージェントを制御する。ユーザ２０による指示が単語である場合、又は、ユーザ２０による指示の文字数が予め定められた値より少ない場合、エージェントが端的に応答するように、エージェントを制御する。

例えば、ユーザ２０が楽曲ＡＢＣの再生を要求する時に、ユーザ２０が、「ＡＢＣを再生してくれる？」と丁寧に要求すると、エージェントも、「わかりました。ＡＢＣを再生します。」のように丁寧に応答する。このとき、ユーザ２０の心理状態によっては、エージェントが、「わかりました。ＡＢＣを再生します。ところで、最近は、ＸＹＺという曲も人気があるようですよ」と、ユーザ２０の心理状態に応じた楽曲を推奨する場合がある。一方、ユーザ２０が、「ＡＢＣを再生」と端的に要求すると、エージェントも、「ＡＢＣを再生します」と端的に応答する。

応答様態決定部１０３６は、ユーザ状態推定部９４４から、ユーザ２０の心理状態を示す情報を取得してもよい。応答様態決定部１０３６は、ユーザ２０の心理状態に基づいてエージェントの様態を決定してよい。例えば、ユーザ２０が、怒り、いらつき、焦りなど、冷静さの程度が予め定められた値よりも小さい感情を抱いている場合、エージェントが冷静に応答するように、エージェントを制御する。ユーザ２０が楽しい又は嬉しいといった感情を抱いている場合、エージェントが明るく応答するように、エージェントを制御する。

ユーザ２０が車両１１０の運転者である場合、応答様態決定部１０３６は、車両状態推定部９４６から、車両１１０の動作の状態を示す情報を取得してよい。応答様態決定部１０３６は、車両１１０の動作の状態に基づいて、エージェントの様態を決定してもよい。例えば、応答様態決定部１０３６は、車両１１０のスピードに応じて、エージェントの様態を決定する。応答様態決定部１０３６は、渋滞の程度に応じて、エージェントの様態を決定してよい。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。また、技術的に矛盾しない範囲において、特定の実施形態について説明した事項を、他の実施形態に適用することができる。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

１０通信ネットワーク、２０ユーザ、３０通信端末、１００対話型エージェントシステム、１１０車両、１１２応答システム、１１４通信システム、１２０支援サーバ、２１０入力部、２２０出力部、２３０通信部、２４０センス部、２５０駆動部、２６０付帯設備、２７０制御部、２７２入出力制御部、２７４車両制御部、２７６通信制御部、３１２音声情報取得部、３１４画像情報取得部、３１６操作情報取得部、３１８車両情報取得部、３２２通信情報取得部、３３０転送部、３４０イベント検出部、３５０応答管理部、３６０エージェント情報格納部、４１２視線計測部、４１４校正部、４２０注視点検出部、４３０起動イベント検出部、４４０ユーザ数検出部、４５０伝言イベント検出部、５２０アイコンタクト検出部、５３０起動フレーズ検出部、５４０起動操作検出部、６２０転送制御部、６３０応答決定部、６３２起動管理部、６３８応答情報取得部、６４２音声合成部、６４４画像生成部、６５０命令生成部、６６０伝言管理部、７２２設定データ格納部、７３２音声データ格納部、７３４画像データ格納部、８２０通信部、８３０通信制御部、８４０要求処理部、８４２要求決定部、８４４実行部、８４６応答情報生成部、８４８設定情報格納部、８５０伝言サービス提供部、９２０入力情報取得部、９３２音声認識部、９３４ジェスチャ認識部、９４０推定部、９４２要求推定部、９４４ユーザ状態推定部、９４６車両状態推定部、１０３４応答内容決定部、１０３６応答様態決定部

Claims

ユーザの音声により示される要求を取得し、当該要求に応じた処理を実行する要求処理装置のユーザインタフェースとして機能するエージェント装置を制御する制御装置であって、
前記ユーザの注視点を特定する注視点特定部と、
前記注視点が、（ｉ）前記ユーザへの情報の伝達に利用されるエージェントの一部、又は、（ｉｉ）前記エージェントの画像を表示若しくは投影する画像出力部の一部に位置する場合、前記エージェント装置の状態を、前記エージェントを介した応答処理を開始するための起動要求を処理するスタンバイ状態から、前記エージェントを介して前記起動要求以外の要求を処理する起動状態に変更することを決定する状態決定部と、
を備える、制御装置。
前記エージェントは、顔を有し、
前記状態決定部は、前記注視点が前記エージェントの顔の一部に位置する場合、前記エージェント装置の状態を、前記スタンバイ状態から前記起動状態に変更することを決定する、
請求項１に記載の制御装置。
前記顔の一部は、目である、
請求項２に記載の制御装置。
前記ユーザにメッセージを伝達することを決定するメッセージ制御部をさらに備え、
前記メッセージ制御部は、
前記注視点が前記エージェントの顔の一部に位置する場合、
前記ユーザの発話を促すためのメッセージを伝達することを決定する、
請求項２又は請求項３に記載の制御装置。
前記エージェントは、顔を有し、
前記制御装置は、前記エージェントの顔又は視線の向きを制御する顔制御部をさらに備え、
前記顔制御部は、前記注視点の位置が予め定められた方向変更条件を満足する場合、前記エージェントの顔又は視線が前記ユーザの方向を向くように、前記エージェントの顔又は視線の向きを制御する、
請求項１から請求項３までの何れか一項に記載の制御装置。
（ｉ）前記エージェント又は（ｉｉ）前記画像出力部と、前記ユーザとの相対位置を示す相対位置情報を取得する相対位置情報取得部をさらに備え、
前記顔制御部は、前記相対位置情報に基づいて、前記エージェントの顔又は視線の向きを決定する、
請求項５に記載の制御装置。
ユーザの音声により示される要求を取得し、当該要求に応じた処理を実行する要求処理装置のユーザインタフェースとして機能するエージェント装置であって、
請求項１から請求項６までの何れか一項に記載の制御装置と、
（ｉ）前記エージェントとして機能するロボット、又は、（ｉｉ）前記画像出力部と、
を備える、エージェント装置。
コンピュータを、請求項１から請求項６までの何れか一項に記載の制御装置として機能させるための、プログラム。