JP7310547B2

JP7310547B2 - 情報処理装置及び情報処理方法

Info

Publication number: JP7310547B2
Application number: JP2019198449A
Authority: JP
Inventors: 充伸神沼; ギヨームロペズ
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-07-19
Anticipated expiration: 2039-10-31
Also published as: JP2021071606A

Description

本発明は、情報処理装置及び情報処理方法に関する。

ユーザと対話する音声対話システムに用いられる技術として、音声認識が不十な状態を検出した場合、ユーザとの対話における主導権をユーザからシステムへ切り替える技術が知られている（非特許文献１）。

Diane J. Litman, Marilyn A. Walker and Michael S. Kearns, "Automatic Detection of Poor Speech Recognition at the Dialogue Level", AT&T Labs Research

特開２００７－１３３７２８号公報米国特許出願公開第２００５－００１０３９３号明細書

しかしながら、上記従来の技術では、音声認識が不十分な状態が検出されない限り、対話の主導権が切り替わらないため、ユーザの心理的傾向に合わせて対話を開始することが難しい、という問題がある。

本発明が解決しようとする課題は、ユーザの心理的傾向に合わせて対話を開始することができる情報処理装置及び情報処理方法を提供することである。

本発明は、ユーザの心理的傾向に関する情報を取得し、ユーザと対話するための音声データを出力し、ユーザの心理的傾向に応じて、ユーザとシステムとの対話における主導権をユーザ又はシステムのいずれかに設定し、主導権に関する設定結果に応じて、音声データの出力処理を制御することで、上記課題を解決する。

本発明によれば、ユーザの心理的傾向に合わせて対話を開始することができる。

図１は、第１実施形態に係る情報処理装置を含む音声対話システムのブロック構成図である。図２は、コントローラが実行する情動的共感性尺度の測定処理を示すフローチャートである。図３は、情動的共感性尺度を測定するのに適したシーンの一例である。図４は、プロセッサが実行する音声対話制御の制御手順を示すフローチャートである。図５は、ユーザが車両に搭載されたハンズフリー通話機能を使用して電話をかける場面での対話例である。図５（Ａ）は、対話の主導権がユーザの場合の対話例である。図５（Ｂ）は、対話の主導権が音声対話システムの場合の対話例である。図６は、ユーザが情報検索システムに情報検索させる場面での対話例である。図６（Ａ）は、対話の主導権がユーザの場合の対話例である。図６（Ｂ）は、対話の主導権が音声対話システムの場合の対話例である。図７は、対話の主導権を握る主体の主導レベルの違いによって異なる対話が行われることを説明するための図である。図７（Ａ）は、ユーザ主導の対話の一例である。図７（Ｂ）は、ユーザ主導の対話の他の例である。図７（Ｃ）は、システム主導の対話の一例である。図８は、第２実施形態に係る情報処理装置を含む音声対話システムのブロック構成図である。図９は、第３実施形態に係る情報処理装置を含む音声対話システムのブロック構成図である。

<<第１実施形態>>
以下、本発明の実施形態を図面に基づいて説明する。本実施形態では、本発明の実施形態に係る情報処理装置を、車両に搭載された音声対話システムに適用した場合を例にして説明する。本実施形態に係る情報処理装置の実施の形態は限定されず、本実施形態に係る情報処理装置は車両と情報の授受が可能な携帯端末又はサーバに適用することもできる。また本実施形態では、音声対話システムと対話するユーザとして、車両の運転者を例に挙げて説明するが、ユーザは運転者以外の他の乗員であってもよい。

図１は、音声対話システム１００のブロック構成を示す図である。本実施形態の音声対話システム１００は、車両に搭載されたシステムであって、ユーザと音声で対話するシステムである。図１に示すように、音声対話システム１００は、入力装置１、出力装置２、センサ群３、心理推定システム４、情報処理装置５、及び対話辞書データベース６を備える。これらの装置及びシステムは、有線通信又は無線通信により互いに情報の授受が行われる。例えば、これらの装置及びシステムは、ＣＡＮ(Controller Area Network）その他の車載ＬＡＮによって接続されている。

入力装置１は、ユーザが音声対話システム１００に対して情報を入力するための装置である。入力装置１としては、例えば、音声入力が可能なマイクが挙げられる。ユーザは、入力装置１を介して、音声対話システム１００に対して指示をしたり、又は音声対話システム１００から出力される音声データに対して返答したりすることができる。入力装置１に入力された音声データは、情報処理装置５に出力される。

本実施形態における音声対話の方式としては、プッシュ・トゥ・トーク（PTT：Push to Talk）が挙げられる。音声対話の方式がプッシュ・トゥ・トークの場合、ユーザが送信ボタンを押している間に、音声データの送信状態になる。入力装置１には、ユーザが操作可能なボタンであって、音声データの送信状態にするための送信ボタンが付属機器として設けられていてもよい。なお、送信ボタンは、付属機器としてではなく、入力装置１とは別に設けてもよい。

出力装置２は、ユーザに対して、音声データを出力するための装置である。出力装置２としては、例えば、音声出力が可能なスピーカが挙げられる。出力装置２には、情報処理装置５から音声データが入力される。ユーザは、出力装置２から出力される音声によって、音声対話システム１００から出力される情報を理解することができる。

センサ群３は、車両の走行環境に関する情報を検出する装置で構成されている。センサ群３は、例えば、車両の走行状態を検出する走行状態検出装置、車両の現在位置を検出する位置検出装置、及び車両の周囲の状況を検出する周囲検出装置で構成される。

走行状態検出装置としては、例えば、車速センサ、エンジン回転センサ、アクセル開度センサ、ブレーキ開度センサ、操舵角センサ、シフトレバーセンサが挙げられる。走行状態検出装置は、車両の走行状態を検出し、検出結果を運転情報として心理推定システム４に出力する。運転情報は、車両の運転操作に関する情報である。本実施形態では、車両の運転主体は人間である。運転情報には、例えば、車速、エンジンの回転数、アクセル量、ブレーキ量、操舵角、ギア状態が含まれる。なお、走行状態検出装置は、運転操作に応じた車両の走行状態を検出できる装置であればよく、上記例にて挙げた以外の装置を含んでいてもよい。

位置検出装置としては、例えば、ＧＰＳ(Global Positioning System)が挙げられ、位置検出装置は、地図情報を参照することで車両の現在位置を検出し、検出結果を位置情報として心理推定システム４に出力する。位置情報は、車両の位置に関する情報である。位置情報には、例えば、車両が走行している地域、車両が走行している道路の情報（例えば、道路の種別、停止線及び交差点の位置情報など）、車両が走行している車線の位置が含まれる。なお、位置検出装置は、車両の位置を検出できる装置であればよく、上記例にて挙げた以外の装置を含んでいてもよい。

周囲検出装置としては、例えば、カメラ、レーダーが挙げられ、周囲検出装置は、車両の周囲の状況を検出し、検出結果を周囲情報として心理推定システム４に出力する。周囲検出装置は、車両の周辺に位置する対象物を検出する。対象物は、車線境界線、センターライン、路面標識、中央分離帯、ガードレール、縁石、高速道路の側壁、道路標識、信号機、横断歩道、工事現場、事故現場、交通制限を含む。対象物は、自車両以外の自動車（他車両）、オートバイ、自転車、歩行者を含む。周囲検出装置は、検出結果を周囲情報として心理推定システム４に出力する。周囲情報は、車両の周囲に関する情報である。周囲情報には、例えば、車両の周囲の撮像画像、車両と対象物との相対距離および相対速度が含まれる。なお、周囲検出装置は、車両の周囲情報を検出できる装置であればよく、上記例にて挙げた以外の装置を含んでいてもよい。

心理推定システム４は、音声対話システム１００と対話するユーザの心理的傾向を推定するシステムである。本実施形態では、心理推定システム４は、ユーザの心理的傾向として、他人に対するユーザの共感性を推定する。本実施形態では、心理推定システム４は、情動的共感性尺度（EES：Emotional Empathy Scale）と呼ばれる心理尺度の一種を測定することで、ユーザの心理的傾向を推定する。

情動的共感性尺度とは、他人に対してユーザが共感しやすいか否か、又は共感しやすい傾向を有するか否かを客観的に評価するための基準である。情動的共感性尺度が高いユーザは、一定の水準よりも、他人に対して共感性を有する傾向のユーザである。また他人に対して共感しやすいユーザは、他人とのコミュニケーションにおいて意思の疎通を図りやすいユーザとされており、情動的共感性尺度が高いユーザは、一定の水準よりも、他人とコミュニケーションが取りやすい特性を有するユーザでもある。

一方、情動的共感性尺度が低いユーザは、一定の水準よりも、他人に対して共感性を有しない傾向のユーザである。また他人に対して共感しづらいユーザは、他人とのコミュニケーションにおいて意思の疎通を図りにくいユーザとされており、情動的共感性尺度が低いユーザは、一定の水準よりも、他人とコミュニケーションが取りづらい特性を有するユーザでもある。なお、上記説明における一定の水準は、説明の便宜上用いたものであって、水準の大きさや水準の求め方などを特に限定するものではない。また他人とコミュニケーションを取る方法は多岐にわたるが、本実施形態では、対話（口頭）でのコミュニケーションとする。

図１に示すように、心理推定システム４は、コントローラ４１とデータベース４２を備えている。コントローラ４１は、ハードウェア及びソフトウェアを備えたコンピュータにより構成され、車両の運転者（ユーザ）の情動的共感性尺度を測定する機能を備える。データベース４２は、センサ群３による検出結果を記憶する記憶装置である。センサ群３による検出結果には、上述した運転情報、位置情報、周囲情報が含まれる。また本実施形態では、データベース４２には、センサ群３の検出結果のうち、コントローラ４１により抽出された特定の走行シーンでの検出結果が入力され、データベース４２は、特定の走行シーンにおける検出結果を蓄積する。なお、特定の走行シーンとは、情動的共感性尺度の測定に適した走行シーンである。特定シーンの具体例等については後述する。

次に、図２を用いて、本実施形態における情動的共感性尺度の測定方法について説明する。本実施形態では、コントローラ４１は、特定のシーンにおける車両の運転者が行う運転操作に基づいて、情動的共感性尺度を推定する（非特許文献２：Kaminuma, Atsunobu; Nankaku, Yoshihiko : AUTOMATIC DRIVER CHARACTERISTICS ESTIMATION USING DRIVING SIGNALS : Nissan Research Center, Nissan Motor. Co,. LTD, Japan, Nagoya Institute of Technology, Japanを参照）。図２は、コントローラ４１が実行する情動的共感性尺度の測定処理を示すフローチャートである。図２で示されるフローチャートの処理は、コントローラ４１により、所定の周期毎に実行される。

ステップＳ１では、コントローラ４１は、センサ群３が検出した検出結果を取得する。このステップで取得する検出結果は、センサ群３によってリアルタイムに検出された結果である。ステップＳ２では、コントローラ４１は、ステップＳ１で取得した検出結果に基づき、車両の現在の走行シーンを特定する。コントローラ４１は、車両の位置情報及び周囲情報に基づき、車両の走行シーンを特定する。例えば、コントローラ４１は、車両が走行している場所、車両の周囲に位置する対象物の状況などを特定する。

ステップＳ３では、コントローラ４１は、ステップＳ２で特定された走行シーンが対象シーンに該当するか否かを判定する。対象シーンとは、情動的共感性尺度を測定するのに適した走行シーンであって、予め定められた走行シーンである。対象シーンとしては、例えば、信号機が存在しない横断歩道又は交差点において、歩行者が横断歩道又は交差点を渡ろうとするシーン、車両がＴ字路を右折するシーン等が挙げられる。例えば、コントローラ４１は、車両が走行している場所が対象シーンにおける場所と一致するか否かを判定する。また例えば、コントローラ４１は、周囲に位置する対象物の種別及び状態が対象シーンにおける対象物の種別及び状態と一致するか否かを判定する。コントローラ４１は、車両が走行する場所及び周囲の状況を対象シーンに照らし合わせることで、現在の走行シーンが対象シーンに該当するか否かを判定する。コントローラ４１により肯定的な判定がされた場合、ステップＳ４に進む。一方、コントローラ４１により否定的な判定がされた場合、情動的共感性尺度の測定処理を終了する。なお、対象シーンは、上記例に挙げた特定のシーンに限定されず、その他の特定のシーンであってもよい。また対象シーンの数も特に限定されない。

ステップＳ３で肯定的な判定がされた場合、ステップＳ４に進む。ステップＳ４では、コントローラ４１は、データベース４２からセンサ履歴を取得する。センサ履歴には、対象シーンにおけるセンサ群３の検出結果として、対象シーンでの運転情報、位置情報、及び周囲情報が含まれる。なお、家族で所有している一台の車両を複数人で運転する場合等、運転の対象者が複数存在する場合、コントローラ４１は、現在の運転者が運転した際のセンサ履歴を取得する。また、対象シーンが複数存在する場合、コントローラ４１は、ステップＳ２で特定された走行シーンでのセンサ履歴を取得する。

ステップＳ５では、コントローラ４１は、ステップＳ１で取得したセンサ群３の検出結果と、ステップＳ４で取得したセンサ履歴をマージする処理（集計処理）を実行する。現在の検出結果だけではなく、過去分の検出結果を集計することで、運転者の一時的な感情に基づく情動的共感性尺度ではなく、運転者の本質的な心理的傾向に基づく情動的共感性尺度を測定することができる。

ステップＳ６では、コントローラ４１は、ステップＳ５の処理結果に基づき、運転者の情動的共感性尺度を測定する。図３を用いて、情動的共感性尺度の測定例について説明する。図３は、情動的共感性尺度を測定するのに適したシーンの一例である。図３に示すシーンは、信号機が存在しない横断歩道を歩行者Ｈが横断するシーンであって、車両Ｖがこの横断歩道に接近するシーンである。車両Ｖの運転者は、ブレーキ操作を実行するものとし、図３に示すシーンから所定時間が経過した後、車両Ｖは横断歩道の手前で停止するものとする。

図３に示すシーンにおいて、コントローラ４１は、車両Ｖの運転者が行ったブレーキ操作に基づいて、運転者の情動的共感性尺度を測定する。具体的には、コントローラ４１は、車両Ｖが停止するまでの間に行われたブレーキ操作の回数に基づき、運転者の情動的共感性尺度を測定する。

コントローラ４１は、運転情報から、車両Ｖが停止するまでの間に、一回のブレーキ操作が行われたことを特定した場合、複数回のブレーキ操作が行われた場合よりも、運転者の情動的共感性尺度を高く測定する。これは、一回のブレーキ操作で車両Ｖを停止させた運転者は、躊躇することなく車両Ｖの走行よりも歩行者Ｈの横断を優先させる運転者であるため、自分よりも他人を優先しやすく、他人に共感しやすい運転者という観点に基づく。一方、コントローラ４１は、運転情報から、車両Ｖが停止するまでの間に、複数回のブレーキ操作（いわゆるポンピングブレーキ）が行われたことを特定した場合、一回のブレーキ操作が行われた場合よりも、運転者の情動的共感性尺度を低く測定する。これは、複数回のブレーキ操作で車両Ｖを停止させた運転者は、歩行者Ｈの横断を気にしつつも、歩行者Ｈの行動次第では、歩行者Ｈが横断する前に車両Ｖを走行させようとする運転者であるため、他人よりも自分を優先しやすく、他人に共感しづらい運転者という観点に基づく。上記のように、停止するまでのブレーキ操作に限らず、例えば、車両Ｖの周囲検出装置によって検知した周囲情報に基づいて、将来車両Ｖが安全上あるいは法規上停止すべき停止位置を検知し、運転者が停止位置において停止したか否かに基づいて、情動的共感性尺度を測定してもよい。この場合、停止位置において運転者が車両Ｖを停止させた場合には情動的共感性尺度を高く測定し、停止位置において運転者が車両Ｖを停止させなかった場合には情動的共感性尺度を低く測定する。

コントローラ４１は、現在の運転操作だけでなく、センサ履歴として記録されている過去の運転操作も含めて、運転者の情動的共感性尺度を測定する。図３の例において、例えば、コントローラ４１は、対象シーンでの現在の運転操作と過去の運転操作において、車両Ｖの停止までのブレーキ操作が一回行われた割合を算出する。コントローラ４１は、算出した割合が高いほど、運転者の情動的共感性尺度を高く測定する。なお、上述の情動的共感性尺度の測定方法は、一例であって他の方法であってもよい。例えば、コントローラ４１は、対象シーンでの現在の運転操作と過去の運転操作において、車両Ｖの停止までのブレーキ操作が複数回行われた割合を算出し、算出した割合が高いほど、運転者の情動的共感性尺度を低く測定してもよい。また例えば、コントローラ４１は、現在の運転操作を過去の運転操作に対して重み付けを行い、現在の運転操作を情動的共感性尺度に高く反映させるようにしてもよい。また例えば、対象シーンごとに測定用のモデルが予め構築されている場合、コントローラ４１は、現在の運転操作と測定用のモデルとを用いて、情動的共感性尺度を測定してもよい。

図２に示すステップＳ６の処理が終了すると、情動的共感性尺度の測定処理は終了する。なお、ステップＳ６の処理が終了した後、コントローラ４１は、ステップＳ１で取得したセンサの出力結果を、データベース４２に記憶させ、対象シーンでの運転情報、位置情報、及び周囲情報をデータベース４２に蓄積させる。

再び、図１に戻り、音声対話システム１００の構成について説明する。対話辞書データベース６は、情報処理装置５が応答文を生成するための対話辞書を格納している。対話辞書には、応答文（定型文）、単語（語彙）、文法の情報、応答のタイミングが予め記録されており、対話辞書は各情報を格納するデータベースでもある。また対話辞書には、ユーザからの入力情報に対する応答文のサンプル（応答文例）が予め記録されている。応答文のサンプルとしては、例えば、「＜人名＞に＜コマンド＞します。」、「＜検索結果＞件、見つかりました。」等のように、＜人名＞、＜コマンド＞、＜検索結果＞のキーワードを代入することで、応答文を完成できるテンプレートが挙げられる。応答文のサンプルは、入力情報の種別に応じて複数記録されている。対話辞書データベース６は、情報処理装置５からのアクセスに応じて、対話辞書として記録された各種情報を情報処理装置５に出力する。上述したデータベースを用いる手法以外に、機械学習アルゴリズムを用いることも可能である。例えば、当該機械学習アルゴリズムは、後述するユーザの主導レベル、または、システムの主導レベルに応じた、応答文を生成して出力するよう構成される。

図１に示すように、本実施形態では、対話辞書データベース６には、ユーザ主導用の対話辞書６３と、システム主導用の対話辞書６６がそれぞれ格納されている。

ユーザ主導用の対話辞書６３は、ユーザとの対話における主導権をユーザに設定した場合に、ユーザとの対話に必要な単語等が記録された対話辞書である。本実施形態では、ユーザ主導用の対話辞書６３は、対話辞書６１及び対話辞書６２を含む。対話辞書６１は、ユーザの主導権の高さを示すユーザの主導レベルが比較的高い場合に用いられる対話辞書であり、対話辞書６２は、ユーザの主導レベルが比較的低い場合に用いられる対話辞書である。対話の主導レベルについては後述する。

システム主導用の対話辞書６６は、ユーザとの対話における主導権を音声対話システム１００に設定した場合に、ユーザとの対話に必要な単語等が記録された対話辞書である。本実施形態では、システム主導用の対話辞書６６は、対話辞書６４及び対話辞書６５を含む。対話辞書６４は、音声対話システム１００の主導権の高さを示すシステムの主導レベルが比較的高い場合に用いられる対話辞書であり、対話辞書６５は、システムの主導レベルが比較的低い場合に用いられる対話辞書である。

各対話辞書には、異なる応答文（定型文）、単語（語彙）、文法の情報、応答のタイミング、応答文のサンプル、及び対話シナリオが記録されている。対話シナリオとは、対話の進行を規定した筋書であって、ユーザからの指示内容又はコマンド内容ごとに用意されている。後述する情報処理装置５は、対話シナリオに従った応答となるように、対話制御を行う。各対話辞書の違いについては、後述するユーザとの対話例を用いて説明する。

対話辞書データベース６には、情報処理装置５から選択信号が入力され、対話辞書データベース６は、選択信号がいずれかの対話辞書を示すかを判別し、対応する対話辞書の情報を情報処理装置５に出力する。これにより、対話の主導権及びその主導レベルに応じて、情報処理装置５は、ユーザに対して異なる応答をすることができる。なお、図１では、ユーザ主導用の対話辞書６３として、対話辞書６１及び対話辞書６２を示し、システム主導用の対話辞書６６として、対話辞書６３及び対話辞書６４を示しているが、ユーザ主導用の対話辞書６３とシステム主導用の対話辞書６６の数は特に限定されず、対話辞書データベース６は、少なくとも一つずつの対話辞書を含んでいればよい。すなわち、ユーザ主導用の対話辞書６１は、対話辞書６２及び対話辞書６３に加えて、ユーザの主導レベルに応じた一又は複数の対話辞書を含んでいてもよい。またシステム主導用の対話辞書６６は、対話辞書６４及び対話辞書６５に加えて、システムの主導レベルに応じた一又は複数の対話辞書を含んでいてもよい。

本実施形態の情報処理装置５は、ハードウェア及びソフトウェアを備えたコンピュータにより構成され、プログラムを格納したＲＯＭ（Read Only Memory）と、このＲＯＭに格納されたプログラムを実行するＣＰＵ（Central Processing Unit）と、アクセス可能な記憶装置として機能するＲＡＭ（Random Access Memory）とから構成されている。なお、動作回路としては、ＣＰＵに代えて又はこれとともに、ＭＰＵ（Micro Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）などを用いることができる。図１に示すプロセッサ５０はＣＰＵに相当し、また図１に示す記憶装置５６はＲＯＭ及びＲＡＭに相当する。

図１に示すように、プロセッサ５０には、取得部５１と、入力部５２と、出力部５３と、設定部５４と、制御部５５が含まれ、これらのブロックは、ＲＯＭに確立されたソフトウェアによって、後述する各機能を実現する。

取得部５１は、ユーザの心理的傾向に関する情報を取得する。本実施形態では、取得部５１は、心理推定システム４から、ユーザの情動的共感性尺度を取得する。取得部５１により取得されたユーザの情動的共感性尺度は、設定部５４での主導権設定処理に用いられる。

入力部５２には、入力装置１からユーザの発話に基づく音声データが入力される。入力部５２に入力されたユーザの音声データは、制御部５５での音声認識処理及び自然言語理解処理に用いられる。なお、情報処理装置５が車両の外部に設けられたサーバに適用された場合、入力部５２は、車両と通信可能な通信装置を介して、入力装置１からユーザの音声データを取得する。

出力部５３は、ユーザと対話するための音声データを出力装置２に出力する。出力部５３には、制御部５５から音声データが入力され、出力部５３は、制御部５５から音声データが入力されたタイミングで音声データを出力する。ユーザとの対話において、出力装置２から音声が出力されるタイミングは、制御部５５により制御される。

設定部５４は、ユーザの心理的傾向に応じて、ユーザ又は音声対話システム１００のいずれかに対話の主導権を設定する。以降の説明では、説明の便宜上、ユーザに対話の主導権が設定され、ユーザが対話の主導権を握ることを、ユーザ主導（User Initiative)と称し、また音声対話システム１００に対話の主導権が設定され、音声対話システム１００が対話の主導権を握ることを、システム主導(System Initiative)と称することもある。主導権の違いによる対話の違いについては、後述する。

設定部５４は、ユーザの情動的共感性尺度と閾値を比較することで、ユーザ又は音声対話システム１００のいずれかに対話の主導権を設定する。設定部５４は、ユーザの情動的共感性尺度が閾値よりも高い場合、対話の主導権をユーザに設定し、情動的共感性尺度が閾値よりも低い場合、対話の主導権を音声対話システム１００に設定する。閾値は、対話の主導権を設定するための閾値であって、予め定められた閾値である。情動的共感性尺度と対話の主導権の関係は、以下の観点に基づくものである。

情動的共感性尺度が比較的高く、他人に対して共感性を有する傾向のユーザは、自分よりも他人を優先する傾向があるユーザであるため、対話シナリオに従った内容で音声入力することができ、対話の主導権をユーザにしても音声対話システム１００との間でスムーズな対話を行えるという観点に基づく。一方、情動的共感性尺度が比較的低く、他人に対して共感性を有しない傾向のユーザは、他人よりも自分を優先する傾向があるユーザであるため、対話シナリオに従った内容で音声入力することが難しく、対話の主導権を音声対話システム１００にした方が音声対話システム１００との間でスムーズな対話を行えるという観点に基づく。

設定部５４は、対話の主導権を設定するのに加えて、ユーザの情動的共感性尺度に応じて、主導権の高さを設定する。例えば、設定部５４は、ユーザの情動的共感性尺度が閾値よりも高く、ユーザに対話の主導権を設定した場合、さらにユーザの情動的共感性尺度に応じて、ユーザ主導での主導レベル（スコア、得点、点数ともいう）を設定する。例えば、設定部５４は、ユーザの情動的共感性尺度が高いほど、ユーザ主導における主導レベルを高く設定する。後述する制御部５５は、主導レベルが高い場合、主導レベルが低い場合に比べて、ユーザが対話を主導する割合が高くなるように、対話の制御を行う。

また例えば、設定部５４は、ユーザの情動的共感性尺度が閾値よりも低く、システムに対話の主導権を設定した場合、さらにユーザの情動的共感性尺度に応じて、システム主導での主導レベルを設定する。例えば、設定部５４は、ユーザの情動的共感性尺度が低いほど、システム主導における主導レベルを高く設定する。後述する制御部５５は、主導レベルが高い場合、主導レベルが低い場合に比べて、音声対話システム１００が対話を主導する割合が高くなるように、対話の制御を行う。このように、ユーザ主導又はシステム主導を設定するだけでなく、さらに主導レベルを設定することで、例えば、複数のユーザ間でユーザの情動的共感性尺度にばらつきが生じたとしても、各ユーザの情動的共感性尺度に応じて、ユーザ毎に異なる対話制御を行うことができる。

制御部５５は、音声認識処理と、自然言語理解処理と、対話制御処理と、応答文生成処理と、音声合成処理を実行する。制御部５５は、音声認識処理により、ユーザの音声データをテキストデータ（文字列）に変換する。また制御部５５は、音声認識処理により、音声データから声の高さ等の特徴を抽出し、発話したユーザを特定する。次に、制御部５５は、自然言語理解処理により、変換されたテキストデータから、音声対話システム１００が応答するために必要な内容を理解する。例えば、「Ａ駅周辺にあるカフェを探して」という入力に対して、制御部５５は、文字列を単語単位及び文節単位に分解し、「Ａ駅」が実在する駅名であること、「カフェ」がコーヒーなどを提供する飲食店であること、カフェについて尋ねていること、を理解する。なお、音声認識処理技術と自然言語理解技術について、情報処理装置５には本願出願時に知られた各技術を適用できる。

制御部５５は、対話制御処理により、対話の主導権を握る主体及びその主導レベルに応じて、対話の制御を行う。対話の制御は、対話の起点の制御、応答内容の制御を含む。つまり、制御部５５は、対話の主導権を握る主体及びその主導レベルに応じて、対話の流れを制御する。具体的に、制御部５５は、設定部５４により設定された対話の主導権の主体及びその主導レベルに応じて、対話辞書データベース６から、対応する対話辞書を選択する。制御部５５は、選択した対話辞書に記録された応答のタイミング及び対話シナリオに従って、以降の処理を実行することで、ユーザに対して応答する。また制御部５５は、自然言語理解処理によって理解したユーザの発話内容に対する応答文サンプルを、対話辞書から選択するとともに、応答文サンプルに代入するためのキーワードを特定する。なお、キーワードの特定処理は、情報処理装置５で実行する必要はなく、例えば、制御部５５は、情報処理装置５の外部に設けられた情報検索システム等から、ユーザへの応答に必要なキーワードを取得してもよい。

制御部５５は、応答文生成処理により、応答内容を表す具体的な文を生成する。制御部５５は、対話制御処理により得られた応答文のサンプルと、応答文のサンプルに必要なキーワードを用いて応答文を生成する。具体的には、制御部５５は、応答文のサンプルのうちキーワードに対応する箇所に、特定されたキーワードを代入することで、応答文を生成する。

制御部５５は、音声合成処理により、応答文生成処理により得られた応答文のテキストデータを音声データに変換する。音声合成処理は、音声合成（TTS: Text to Speech)と呼ばれる処理である。制御部５５は、音声合成処理により得られた音声データを出力部５３に出力する。

図４は、プロセッサ５０が実行する音声対話制御の制御手順を示すフローチャートである。

ステップＳ１１では、プロセッサ５０は、音声対話ＵＩ(User Interface）を起動させる。例えば、ユーザが車両のイグニッションスイッチを操作することで、車両が走行可能な状態に移行すると、プロセッサ５０は、音声対話システム１００と対話するためのアプリケーションを起動させる。ステップＳ１２では、プロセッサ５０は、心理推定システム４から車両に乗車中のユーザの情動的共感性尺度に関する情報を取得する。

ステップＳ１３では、プロセッサ５０は、ステップＳ１２で取得した情動的共感性尺度の情報に基づいて、ユーザと音声対話システム１００との対話における主導権を設定する。例えば、プロセッサ５０は、ユーザの情動的共感性尺度と所定の閾値を比較する。プロセッサ５０は、ユーザの情動的共感性尺度が閾値よりも高い場合、対話の主導権をユーザに設定し、ユーザの情動的共感性尺度が閾値よりも低い場合、対話の主導権を音声対話システム１００に設定する。またこのステップにおいて、プロセッサ５０は、対話の主導権を設定するとともに、ユーザの情動的共感性尺度に応じて、主導権を握る主体の主導レベルを設定する。なお、所定の閾値とは、対話の主導権を設定するための閾値であって、予め定められた閾値である。

ステップＳ１４では、プロセッサ５０は、ステップＳ１３で設定された主導権及びその主導レベルに応じて、対話辞書データベース６に格納された複数の対話辞書の中から一の対話辞書を選択する。例えば、対話の主導権がユーザに設定され、その主導レベルが比較的高い場合、プロセッサ５０は、ユーザ主導用の対話辞書６３のうち、ユーザの主導レベルが比較的高い場合に用いられる対話辞書６１を選択する。

ステップＳ１５では、プロセッサ５０は、音声対話を開始する。例えば、音声対話の方式がプシュ・トゥ・トークの場合、音声対話システム１００が音声入力を受け付ける状態にするために、ユーザは送信ボタンを押す。プロセッサ５０は、ユーザによって送信ボタンが押されたことをトリガとして、音声対話が開始されることを検知する。

このステップにおいて、プロセッサ５０は、ステップＳ１３で設定された対話の主導権に応じて、対話の起点をユーザの発話に基づく音声データにするか、又は音声対話システム１００からユーザに対して出力される音声データにするかを設定する。対話の起点に関する情報は、対話辞書に記録されているため、プロセッサ５０は、ステップＳ１４で選択した対話辞書に従って、対話の起点をいずれかの音声データにするかを設定する。

例えば、ステップＳ１３で対話の主導権をユーザに設定した場合、プロセッサ５０は、ステップＳ１４で選択されたユーザ主導用の対話辞書６３に従って、対話の起点をユーザからの発話に基づく音声データに設定する。この場合、プロセッサ５０は、ユーザによって送信ボタンが押されたことを検知すると、出力装置２から音声データを出力させることなく、ユーザからの音声入力を待つ状態、いわゆる待機状態に移行する。これにより、ユーザが対話を開始しようと送信ボタンを押すと、ユーザは自身の好きなタイミングで発話することが可能になり、対話の起点をユーザにすることができる。その結果、ユーザが主導権を握る対話をスムーズに開始することができる。

一方、例えば、ステップＳ１３で対話の主導権を音声対話システム１００に設定した場合、プロセッサ５０は、ステップＳ１４で選択されたシステム主導用の対話辞書に従って、対話の起点を音声対話システム１００から出力される音声データに設定する。この場合、プロセッサ５０は、ユーザによって送信ボタンが押されたことを検知すると、「コマンドをどうぞ」という音声データを自動的に生成して、出力装置２に出力する。これにより、ユーザが対話を開始しようと送信ボタンを押すと、音声対話システム１００側から、指示を促す音声が出力されることになり、対話の起点を音声対話システム１００にすることができる。その結果、音声対話システム１００が主導権を握る対話をスムーズに開始することができる。

ステップＳ１６では、プロセッサ５０は、ステップＳ１５で音声対話が開始されたことをきっかけにして、音声認識処理を実行し、ユーザの音声データをテキストデータ（文字列）に変換する。またプロセッサ５０は、音声データからユーザの声の特徴を抽出し、発話したユーザを特定する。

ステップＳ１７では、プロセッサ５０は、ステップＳ１６での処理で得られたテキストデータに自然言語理解処理を実行し、応答するために必要な内容を理解する。ステップＳ１８では、プロセッサ５０は、対話制御処理を実行し、ステップＳ１４で選択された対話辞書の中から応答文サンプルを選定するとともに、応答文サンプルに必要なキーワードを特定する。

ステップＳ１９では、プロセッサ５０は、応答文生成処理を実行する。プロセッサ５０は、ステップＳ１８の処理で得られた応答文サンプルに対して、キーワードを代入することで、応答文を生成する。

ステップＳ２０では、プロセッサ５０は、音声合成処理を実行し、ステップＳ１９の処理で得られた応答文を音声データに変換する。プロセッサ５０は、変換された音声データを出力装置２に出力する。これにより、ユーザの発話に対して、音声対話システム１００は、音声で応答することができる。

ステップＳ２１では、プロセッサ５０は、ユーザとの音声対話が終了したか否かを判定する。音声対話の終了条件は特に限定されないが、例えば、プロセッサ５０は、ステップＳ２０で音声データを出力してから所定時間が経過するまでにユーザからの音声入力がない場合、音声対話が終了したと判定する。また例えば、プロセッサ５０は、音声対話を終了せるためのキーワードをステップＳ１６で認識した場合、ステップＳ１７～ステップＳ２０までの処理を実行せずに、音声対話が終了したと判定してもよい。音声対話が終了したと判定された場合、音声対話処理は終了する。一方、音声対話が終了していないと判定された場合、ステップＳ１６に戻り、以降、音声対話が終了するまでステップＳ１６～ステップＳ２０の処理を繰り返し実行する。

次に、図５～図８を用いて、本実施形態に係るプロセッサ５０の音声対話制御によって行われる対話例について説明する。図５は、ユーザが車両に備わるハンズフリー通話機能を使用して電話をかける場面での対話例である。図５（Ａ）は、対話の主導権がユーザの場合の対話例を示し、図５（Ｂ）は、対話の主導権が音声対話システム１００の場合の対話例を示す。図５（Ａ）及び図５（Ｂ）の対話例において、ユーザは対話を開始するために送信ボタンを押すものとする。

図５（Ａ）及び図５（Ｂ）に示す対話例を比較すると、最終的に音声対話システム１００からは「Ａさんに電話します。」という音声データが出力されているが、この音声データが出力されるまでの対話が異なっている。図５（Ａ）では、送信ボタンが押された際に、音声対話システム１００がユーザの発話を待機する状態から始まる。一方、図５（Ｂ）では、送信ボタンが押された際に、ユーザに指示を促す音声データ（「コマンドをどうぞ。」）が出力される状態から始まる。

情動的共感性尺度が比較的高く、他人に対する共感性を有する傾向のユーザは、自分よりも他人を優先させる傾向にあるため、対話シナリオを把握し、対話シナリオで規定された情報を適切に音声入力することができる。そのため、送信ボタンが押された後に、指示を促す音声データを出力しなくても、ユーザは対話シナリオに規定されたコマンドと各コマンドに付随する情報を音声入力することができる。例えば、電話をかけるための対話シナリオが、コマンド及び相手先の音声入力が必要なシナリオの場合、図５（Ａ）に示すように、ユーザは、コマンド及び相手先の情報を１回で音声入力することができ、音声対話システム１００との対話をスムーズに行うことができる。

一方、情動的共感性尺度が比較的低く、他人に対する共感性を有しない傾向のユーザは、他人よりも自分を優先させる傾向にあるため、対話シナリオを把握することを煩わしく感じ、対話シナリオの内容を適切に音声入力することが難しいとされている。そのため、例えば、送信ボタンが押された後に、指示を促す音声データが出力されない場合、ユーザは対話シナリオで規定された情報とは関係ない情報を音声入力する恐れがある。この場合、自身が発話した内容を正しいと思い込むユーザは、誤った情報での音声入力を繰り返してしまい、音声対話システム１００との間でスムーズな対話をすることができない。

しかしながら、本実施形態に係る情報処理装置５によれば、ユーザの情動的共感性尺度に応じた対話辞書を用いることで、送信ボタンが押された際に、指示を促す音声データを出力して、対話シナリオに沿った音声入力をユーザに促すことができる。図５（Ｂ）の例では、ユーザは、音声対話システム１００からの音声に応答する形で、対話シナリオで規定されたコマンドを音声入力することができる。さらに、ユーザは、音声対話システム１００からの音声に応答する形で、コマンドに必要な情報を音声入力することができる。対話シナリオの内容を把握するのが困難なユーザであっても、対話シナリオに従って、音声対話システム１００との対話をスムーズに行うことができる。

図６は、ユーザが情報検索システムに情報検索させる場面での対話例である。図６（Ａ）は、対話の主導権がユーザの場合の対話例を示し、図６（Ｂ）は、対話の主導権が音声対話システム１００の場合の対話例を示す。図６（Ａ）及び図６（Ｂ）は、ユーザが初めの検索条件で得られた検索結果に対して検索条件の変更を行う場面での対話例である。

図６（Ａ）の対話例では、ユーザは、検索条件の条件として「Ｂ駅周辺」及び「カフェ」を音声入力する。そして、音声対話システム１００が情報検索システムで得られた検索結果を音声データとして出力すると、ユーザは、検索条件を変更するために、「Ｃ駅周辺」で検索するよう音声入力する。他人に対する共感性を有する傾向のユーザは、検索結果が出力された後に検索条件の変更ができること、及び検索条件として規定されたキーワード（例えば、駅名）を予め把握しているため、検索結果のみを音声データとして出力した場合でも、自発的に検索条件を変更することができ、音声対話システム１００との対話をスムーズに行うことができる。

一方、他人に対する共感性を有しない傾向のユーザは、検索結果が出力された後に検索条件が変更できること、及び検索条件として規定されたキーワードを予め把握していることは難しく、自発的に検索条件を変更するのは難しいとされている。そのため、例えば、検索結果のみを音声データとして出力した場合、ユーザは検索条件を適切に変更できない恐れがある。この場合、検索条件の変更方法を理解していないユーザは、誤った情報での音声入力を繰り返してしまい、音声対話システム１００との間でスムーズな対話をすることができない。

しかしながら、本実施形態に係る情報処理装置５によれば、ユーザの情動的共感性尺度に応じた対話辞書を用いることで、検索結果に加えて、具体的な検索条件の変更方法を音声データとして出力することができる。図６（Ｂ）の例では、ユーザは、検索結果とともに、具体的な検索条件の変更方法を知ることができるため、自身が所望する情報を得るために適切に検索条件を変更することができる。自発的に検索条件を変更することが困難なユーザであっても、音声対話システム１００との対話をスムーズに行うことができる。なお、対話辞書に検索条件の変更方法だけでなく、検索結果の絞り込み方法が記録されている場合には、検索結果に加えて、具体的な絞り込み方法を音声データとして出力するため、ユーザは、自身が所望する情報を得るために適切に検索結果を絞り込むことができる。

図７は、対話の主導権を握る主体の主導レベルの違いによって異なる対話をすることができることを説明するための図である。図７（Ａ）～図７（Ｃ）は、図６の場面と同様に、ユーザが情報検索システムに情報検索させる場面での対話例である。図７（Ａ）及び図７（Ｂ）に示す対話例は、ユーザ主導の対話例であって、主導レベルがそれぞれ異なる対話例である。また図７（Ｃ）に示す対話例は、システム主導の対話例である。なお、図７（Ａ）～図７（Ｃ）の例では、図７（Ａ）～図７（Ｃ）の順で、ユーザの情動的共感性尺度は小さくなるものとする。また図７（Ａ）～図７（Ｃ）において、ユーザの情動的共感性尺度に応じた音声対話システム１００が出力する特徴的な音声データには下線を付している。

図７（Ａ）に示すように、ユーザの情動的共感性尺度が比較的高い場合には、本実施形態に係る情報処理装置５によれば、ユーザの情動的共感性尺度に応じた対話辞書を用いることで、検索結果に加えて、検索条件を変更できることを音声データとして出力することができる。また図７（Ｂ）に示すように、図７（Ａ）に示すユーザよりも情動的共感性尺度が低い場合には、本実施形態に係る情報処理装置５によれば、ユーザの情動的共感性尺度に応じた対話辞書を用いることで、検索結果に加えて、検索結果の絞り込み方法を音声データとして出力することができる。さらに、図７（Ｃ）に示すように、図７（Ｂ）に示すユーザよりも情動的共感性尺度が低い場合には、本実施形態に係る情報処理装置５によれば、ユーザの情動的共感性尺度に応じた対話辞書を用いることで、検索結果に加えて、検索結果の絞り込み方法を音声データとして出力することができる。また絞り込みの結果に加えて、具体的に情報検索システムが絞り込んだ条件を音声データとして出力することができる。さらに絞り込みの結果に対して、ユーザが肯定語（「はい」、「Ｙｅｓ」）又は否定語（「いいえ」、「Ｎｏ」）で返答可能な質問（具体的な絞り込みの条件の提示）を音声データとして出力することができる。このように、ユーザの情動的共感性尺度に応じて、応答内容を変更することができるため、ユーザの心理的傾向にかかわらず、ユーザは音声対話システム１００とスムーズに対話することができる。

以上のように本実施形態に係る情報処理装置５は、ユーザと対話する音声対話システム１００に用いられる情報処理装置であって、ユーザの心理的傾向の尺度である情動的共感性尺度を取得する取得部５１と、ユーザと対話するための音声データを出力する出力部５３と、ユーザの情動的共感性尺度に応じて、ユーザと音声対話システム１００との対話における主導権をユーザ又は音声対話システム１００のいずれかに設定する設定部５４と、設定部５４による設定結果に応じて、出力部５３からの出力される音声データを制御する制御部５５とを備える。ユーザの情動的共感性尺度に応じて対話の主導権を設定し、設定結果に応じて音声データの出力処理を制御するため、ユーザの心理的傾向に合わせて対話を開始することができる。

また、本実施形態では、制御部５５は、設定部５４により音声対話システム１００に対話の主導権を設定した場合、対話の起点を出力部５３から出力される音声データとする。これにより、音声対話システム１００がユーザの発話よりも先行して音声データを出力することが可能になり、音声対話システム１００が主導権を握るような対話をスムーズに開始することができる。

さらに、本実施形態では、制御部５５は、設定部５４により音声対話システム１００に対話の主導権を設定した場合、ユーザに対して指示を促す音声データを出力部５３から出力させる。これにより、情動的共感性尺度が比較的低く、他人に対する共感性を有しない傾向のユーザであっても、指示に従って音声入力することで対話シナリオに従った対話をすることができる。その結果、対話シナリオが複雑多岐な場合でも、音声対話システム１００との対話において対話が滞ることを抑制でき、音声対話システム１００の設計自由度の拡張を図ることができる。

加えて、本実施形態では、制御部５５は、設定部５４により音声対話システム１００に対話の主導権を設定した場合、ユーザが肯定語又は否定語で返答可能な質問を含む音声データを出力部５３から出力させる。これにより、情動的共感性尺度が比較的低く、他人に対する共感性を有しない傾向のユーザであっても、肯定語又は否定語で音声入力することで対話シナリオに従った対話をすることができる。その結果、対話シナリオが複雑多岐な場合でも、音声対話システム１００との対話において対話が滞ることを抑制でき、音声対話システム１００の設計自由度の拡張を図ることができる。

また、本実施形態では、制御部５５は、設定部５４により音声対話システム１００に対話の主導権を設定した場合、ユーザからの指示に対する回答以外の情報含む音声データを出力部５３から出力させる。これにより、情動的共感性尺度が比較的低く、他人に対する共感性を有しない傾向のユーザであっても、図６（Ｂ）の例に示すように、ユーザ自身が所望する情報を入手するまでの対話をスムーズに行うことができる。

さらに、本実施形態に係る情報処理装置５は、ユーザの発話に基づく音声データが入力される入力部５２を備え、制御部５５は、設定部５４によりユーザに対話の主導権を設定した場合、対話の起点を入力部５２に入力される音声データとする。これにより、ユーザの発話に起因して対話を開始することが可能になり、ユーザが主導権を握るような対話をスムーズに開始することができる。

加えて、本実施形態では、制御部５５は、設定部５４によりユーザに対話の主導権を設定した場合、ユーザからの指示に対する回答のみの音声データを出力部５３から出力させる。これにより、情動的共感性尺度が比較的高く、他人に対する共感性を有する傾向のユーザは、図６（Ａ）の例に示すように、ユーザは自身が所望する情報を入手するまでのやり取りの回数を少なくすることができる。その結果、音声対話システム１００に対して感じるユーザの利便性及び信頼性を向上させることができる。

また、本実施形態では、ユーザの心理的傾向は、ユーザが他人に対して共感性を有するか否かの傾向、又は、他人とのコミュニケーションにおいて意思の疎通を図りやすく、他人とコミュニケーションを取りやすいか否かの傾向である。これにより、他人よりも自分を優先させる傾向のユーザ及び自分よりも他人を優先させる傾向のユーザそれぞれに対して、各ユーザの心理的傾向に合わせた対話をすることができる。

さらに、本実施形態では、設定部５４は、ユーザの心理的傾向が他人に対して共感性を有しない傾向、又は他人とコミュニケーションを取りやすい特性を有しない傾向の場合、音声対話システム１００に対話の主導権を設定する。これにより、他人よりも自分を優先させる傾向のユーザに対して、音声対話システム１００が対話の主導を握るように対話制御することができ、ユーザの心理的傾向に合わせた対話をすることができる。

加えて、本実施形態では、設定部５４は、ユーザの心理的傾向が他人に対する共感性を有する傾向、又は他人とコミュニケーションを取りやすい特性を有しない傾向の場合、ユーザに対話の主導権を設定する。これにより、自分よりも他人を優先させる傾向のユーザに対して、ユーザが対話の主導を握るように対話制御することができ、ユーザの心理的傾向に合わせた対話をすることができる。

また、本実施形態では、設定部５４は、ユーザの心理的傾向を示す情動的共感性尺度と所定の閾値を比較することで、対話主導権をユーザ又は音声対話システム１００のいずれかに設定する。これにより、ユーザの心理的傾向という可視化が困難なパラメータであっても、ユーザの心理的傾向に合わせて対話の主導権を設定することができ、その結果、ユーザの心理的傾向に合わせて対話をすることができる。

さらに、本実施形態では、制御部５５は、ユーザの情動的共感性尺度に応じて、ユーザ主導用の対話辞書６３又はシステム主導用の対話辞書６６を選択し、選択した対話辞書に基づく音声データを出力部５３から出力させる。ユーザ主導用の対話辞書６３は、ユーザが対話の主導権を握る場合にユーザとの対話に必要な単語を含むデータベースであり、システム主導用の対話辞書６６は、音声対話システム１００が対話の主導権を握る場合にユーザとの対話に必要な単語を含むデータベースである。ユーザの情動的共感性尺度に応じた対話辞書を用いて、ユーザと対話することができるため、ユーザの心理的傾向に合わせて対話をすることができる。

<<第２実施形態>>
次に、第２実施形態に係る情報処理装置１５を含む音声対話システム２００について説明する。図８は、音声対話システム２００のブロック構成を示す図である。

本実施形態の音声対話システム２００は、心理推定システム４を含まない点、専用入力装置１１を含む点、及びプロセッサ１５０に機能が追加された点以外は、第１実施形態の音声対話システム１００と同様の構成を備えている。そのため、図８では、第１実施形態と同じ構成には図１に示す符号と同じ符号を付しており、第１実施形態と同じ構成については、既述の説明を援用する。

本実施形態の音声対話システム２００では、ユーザの心理的傾向の推定方法が、第１実施形態の音声対話システム１００と異なっている。本実施形態では、ユーザが専用入力装置１１を介して、情動的共感性尺度を測定するための質問紙に回答することで、情報処理装置１５がユーザの情動的共感性尺度を測定する。そして、情報処理装置１５は、推定されたユーザの情動的共感性尺度に応じて、第１実施形態と同様に、対話辞書を用いた対話制御を実行する。

専用入力装置１１は、ユーザが手動で操作可能な装置であり、ユーザの情動的共感性尺度を測定する際に使用される専用の装置である。専用入力装置１１の形態は特に限定されず、例えば、専用入力装置１１には、タッチパネルが設けられている。専用入力装置１１が質問紙に含まれる質問項目をタッチパネルに表示させると、ユーザは、タッチパネルを操作して質問項目を回答する。質問紙は、情動的共感性尺度を測定するのに必要な複数の質問項目を含む。複数の質問項目は、予め準備された質問項目である。専用入力装置１１に入力された質問紙に対するユーザの回答は、情報処理装置１５に出力され、推定部１５７の測定処理に用いられる。なお、情動的共感性尺度を測定するための全ての質問項目をユーザに回答させることに限定されず、複数の質問項目から抽出された質問項目をユーザに回答させてもよい。

また本実施形態では、専用入力装置１１は、車両に設けられており、ユーザは、例えば、納車後に初めて車両に乗車するタイミングで、専用入力装置１１を操作する。なお、ユーザが質問紙に回答するタイミングは、特に限定されず、その他のタイミングであってもよい。また質問紙は、専用入力装置１１に予め記録されていてもよいし、情報処理装置１５の記憶装置５６に予め記録され、ユーザが専用入力装置１１を操作することを検知すると、情報処理装置１５が専用入力装置１１に質問紙を出力してもよい。

本実施形態の情報処理装置１５は、プロセッサ１５０と記憶装置５６で構成されており、プロセッサ１５０は、第１実施形態のプロセッサ５０を比べて、取得部５１の代わりに取得部１５１を含む点、及び推定部１５７を含む点以外は同様のブロックを有している。

取得部１５１は、推定部１５７からユーザの情動的共感性尺度を取得する。取得部１５１により取得されたユーザの情動的共感性尺度は、設定部５４での主導権設定処理に用いられる。

推定部１５７は、ユーザの心理的傾向を推定する。推定部１５７は、第１実施形態の心理推定システム４に相当する機能を有しているが、情動的共感性尺度の測定方法が心理推定システム４とは異なっている。本実施形態の推定部１５７は、専用入力装置１１に入力される質問紙に対するユーザの回答を取得し、質問紙に対するユーザの回答に基づいて、ユーザの情動的共感性尺度を測定する。例えば、推定部１５７は、ユーザの回答結果に応じた点数表を有しており、質問項目ごとに点数を付けることで、ユーザの情動的共感性尺度を測定する。なお、質問紙を用いてユーザの情動的共感性尺度を測定する方法は一例であって、推定部１５７には、本願出願時に知られた質問紙を用いたユーザの情動的共感性尺度の測定方法を適用することができる。推定部１５７により測定されたユーザの情動的共感性尺度は、取得部１５１に出力される。

以上のように、本実施形態では、取得部１５１は、専用入力装置１１を介してユーザにより入力された質問紙に対するユーザの回答を取得し、推定部１５７は、取得部１５１により取得されたユーザの回答に基づいて、ユーザの情動的共感性尺度を測定する。質問紙に対するユーザの回答から情動的共感性尺度を測定することができるため、ユーザの情動的共感性尺度を精度良く測定することができる。その結果、ユーザの心理的傾向を精度良く推定することができる。

なお、本実施形態では、専用入力装置１１が車両に設けられている構成を例に挙げて説明したが、専用入力装置１１は、車両の外部に設けられていてもよい。例えば、専用入力装置１１は、ユーザが使用するパソコンであってもよい。この場合、パソコンと情報処理装置１５の間では、有線通信又は無線通信により互いに情報の授受が可能となっている。情報処理装置１５は、通信装置を介して、ユーザがパソコンに入力した質問紙に対する回答を取得してもよい。

<<第３実施形態>>
次に、第３実施形態に係る情報処理装置１５を含む音声対話システム２００について説明する。図９は、音声対話システム３００のブロック構成を示す図である。

本実施形態の音声対話システム３００は、専用入力装置１１を含まない点、及びプロセッサ２５０の取得部２５１、推定部２５７の機能が異なる点以外は、第２実施形態の音声対話システム２００と同様の構成を備えている。そのため、図９では、第１実施形態及び第２実施形態と同じ構成には図１又は図８に示す符号と同じ符号を付しており、第１実施形態及び第２実施形態と同じ構成については、既述の説明を援用する。

本実施形態の音声対話システム３００では、ユーザの心理的傾向の推定方法が、第１実施形態の音声対話システム１００及び第２実施形態の音声対話システム２００と異なっている。本実施形態では、情動的共感性尺度を測定するための質問紙を音声データとして出力し、ユーザが音声入力により質問紙に回答することで、情報処理装置２５がユーザの情動的共感性尺度を測定する。そして、情報処理装置２５は、推定されたユーザの情動的共感性尺度に応じて、第１実施形態と同様に、対話辞書を用いた対話制御を実行する。

取得部２５１は、推定部２５７からユーザの情動的共感性尺度を取得する。取得部２５１により取得されたユーザの情動的共感性尺度は、設定部５４での主導権設定処理に用いられる。

推定部２５７は、第２実施形態の推定部１５７と同様に、ユーザの心理的傾向を推定する。推定部２５７は、ユーザが乗車中の所定のタイミングで、情動的共感性尺度を測定するための質問紙のテキストデータを取得する。推定部２５７は、取得したテキストデータを音声データに変換し、出力部５３から質問紙の音声データを出力させる。例えば、推定部２５７は、記憶装置５６に予め記録された質問紙のテキストデータを取得する。推定部２５７は、音声合成処理を実行し、質問紙のテキストデータを音声データに変換する。推定部２５７は、音声合成処理により得られた音声データを出力部５３に出力する。これにより、音声対話システム３００から情動的共感性尺度を測定するために必要な質問がユーザに出力される。

ユーザが質問に口頭で回答すると、ユーザの発話に基づく音声データが入力装置１を介して、入力部５２に入力される。推定部２５７は、全ての質問項目を一つずつ音声データとして出力する。そして、推定部２５７は、各質問項目に対するユーザの回答が入力されたことを確認すると、質問紙に対するユーザの回答である音声データに基づいて、ユーザの情動的共感性尺度を測定する。推定部１５７により測定されたユーザの情動的共感性尺度は、取得部１５１に出力される。

以上のように、本実施形態に係る情報処理装置２５では、推定部２５７は、ユーザの情動的共感性尺度を測定するための質問を出力部５３から出力させ、入力部５２に入力される、質問に対するユーザの回答である音声データに基づいて、ユーザの情動的共感性尺度を測定する。乗車中のユーザとの音声対話によって、ユーザの情動的共感性尺度を測定することができるため、例えば、ユーザと音声対話システム３００との間で雑談が行われている場面において、雑談の中の一つに質問紙に含まれる質問をすることができる。ユーザは、心理的傾向を推定されることを意識することなく、リラックスした状態で回答することができ、ユーザが本質的に有する情動的共感性尺度を測定することができる。その結果、ユーザの心理的傾向を精度良く推定することができる。

なお、以上に説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。

例えば、上述の第１実施形態では、心理推定システム４がユーザの運転操作に基づいて、ユーザの情動的共感性尺度を測定する構成を例に挙げて説明したが、情報処理装置が心理推定システム４のコントローラ４１の機能及びデータベース４２を備えていてもよい。この場合、情報処理装置は、ユーザの心理的傾向を推定する推定部を備える。取得部５１は、センサ群３から、ユーザにより行われた運転操作の情報である運転情報を取得し、推定部は、ユーザの運転操作に基づいて、ユーザの情動的共感性尺度を測定する。これにより、既述のとおり、心理的傾向が表れる運転操作に基づいてユーザの情動的共感性尺度を測定することができ、ユーザの心理的傾向に合わせて対話を開始することができる。

また例えば、上述の第１実施形態～第３実施形態では、ユーザの心理的傾向を推定するために、情動的共感性尺度を用いた構成を例に挙げて説明したが、情動的共感性尺度と同程度の測定結果となる他の心理尺度を用いてもよい。例えば、上述の第２実施形態又は第３実施形態において、α係数が０．８以上の心理尺度を情動的共感性尺度の代替尺度として用いてもよい。α係数は、情動的共感性尺度を測定するために使用された質問項目に対して、どの程度一貫性や信頼性があるかを示す係数である。

また例えば、上述の第１実施形態では、運転者（ユーザ）の現在の運転操作及び過去の運転操作に基づいて、ユーザの情動的共感性尺度を測定する構成を例に挙げて説明したが、ユーザの現在の運転操作のみに基づいて、リアルタイムにユーザの情動的共感性尺度を測定してもよい。この場合、ユーザの現在の運転操作に応じた測定結果になるため、ユーザが一時的に有する心理的傾向に合わせて対話を開始することができる。また、ユーザの過去の運転操作のみに基づいて、予めユーザの情動的共感性尺度を測定し、ユーザの情動的共感性尺度を記憶装置５６に記憶させてもよい。この場合、ユーザの過去の運転操作に応じた測定結果になるため、ユーザが本質的に有する心理的傾向に合わせて対話を開始することができる。

また例えば、上述の第１実施形態では、図７を用いて、主導レベルに応じて異なる対話内容を実現できることを説明したが、主導レベルに応じた処理は対話の内容に限られない。例えば、情報処理装置は、主導レベルに応じて対話の起点を制御してもよい。制御部５５は、設定部５４により音声対話システム１００に対話の主導権を設定した場合、ユーザに対話の主導権を設定した場合に比べて、出力部５３から出力される音声データを起点とする対話の頻度が多くなるように、出力部５３から出力される音声データを制御してもよい。また制御部５５は、設定部５４によりユーザに対話の主導権を設定した場合、音声対話システム１００に対話の主導権を設定した場合に比べて、入力部５２に入力される音声データを起点とする対話の頻度が多くなるように、出力部５３から出力される音声データを制御してもよい。これにより、主導レベルに応じて対話の起点となる音声データの頻度が変わり、例えば、音声対話システム１００に対話の主導権を設定した場合、出力部５３から出力される音声データを起点とする対話の回数を、その主導レベルに対応させることができる。その結果、ユーザの心理的傾向に合わせた対話を継続的に行うことができる。

また例えば、上述の第１実施形態～第３実施形態では、ユーザの心理的傾向を示す情動的共感性尺度を、心理推定システム４、推定部１５７、又は推定部２５７から取得する構成を例に挙げて説明したが、ユーザの情動的共感性尺度が測定された後、測定結果をＲＯＭ等で構成される記憶部に記憶させてもよい。そして、設定部５４は、記憶部に記憶されたユーザの情動的共感性尺度を用いて、対話の主導権を設定してもよい。これにより、ユーザの情動的共感性尺度の測定処理を、ユーザが乗車する度に行うことを防ぐことができ、ユーザの心理的傾向に合わせた対話を開始するまでの時間を短縮することができる。

また例えば、上述の第１実施形態～第３実施形態では、対話辞書データベース６が情報処理装置５、情報処理装置１５、又は情報処理装置２５に含まれない構成を例に挙げて説明したが、情報処理装置が対話辞書データベース６を備えていてもよい。また対話辞書データベース６は、車両以外の場所に設けられていてもよい。例えば、対話辞書データベース６は、サーバに設けられており、情報処理装置は通信装置を介して情報の授受を行ってもよい。

１００…音声対話システム
１…入力装置
２…出力装置
３…センサ群
４…心理推定システム
４１…コントローラ
４２…データベース
５…情報処理装置
５０…プロセッサ
５１…取得部
５２…入力部
５３…出力部
５４…設定部
５５…制御部
５６…記憶装置
６…対話辞書データベース
６１…対話辞書
６２…対話辞書
６４…対話辞書
６５…対話辞書

Claims

ユーザと対話するシステムに用いられる情報処理装置であって、
前記ユーザの心理的傾向に関する情報を取得する取得部と、
前記ユーザと対話するための音声データを出力する出力部と、
前記ユーザの心理的傾向に応じて、前記ユーザと前記システムとの対話における主導権を前記ユーザ又は前記システムのいずれかに設定する設定部と、
前記設定部による設定結果に応じて、前記出力部を制御する制御部と、を備える情報処理装置。
前記制御部は、前記システムに前記主導権を設定した場合、前記対話の起点を前記出力部から出力される前記音声データとする請求項１に記載の情報処理装置。
前記制御部は、前記システムに前記主導権を設定した場合、前記ユーザに対して指示を促す前記音声データを前記出力部から出力させる請求項１又は２に記載の情報処理装置。
前記制御部は、前記システムに前記主導権を設定した場合、前記ユーザが肯定語又は否定語で返答可能な質問を含む前記音声データを前記出力部から出力させる請求項１～３の何れかに記載の情報処理装置。
前記制御部は、前記システムに前記主導権を設定した場合、前記ユーザに前記主導権を設定した場合よりも、前記出力部から出力される前記音声データを起点とする前記対話の頻度が多くなるように、前記出力部を制御する請求項２に記載の情報処理装置。
前記制御部は、前記システムに前記主導権を設定した場合、前記ユーザからの指示に対する回答以外の情報を含む前記音声データを前記出力部から出力させる請求項１～５の何れかに記載の情報処理装置。
前記ユーザの発話に基づく音声データが入力される入力部を備え、
前記制御部は、前記ユーザに前記主導権を設定した場合、前記対話の起点を前記入力部に入力される前記音声データとする請求項１～６の何れかに記載の情報処理装置。
前記制御部は、前記ユーザに前記主導権を設定した場合、前記ユーザからの指示に対する回答のみの前記音声データを前記出力部から出力させる請求項１～７の何れかに記載の情報処理装置。
前記制御部は、前記ユーザに前記主導権を設定した場合、前記システムに前記主導権を設定した場合よりも、前記入力部に入力される前記音声データを起点とする前記対話の頻度が多くなるように、前記出力部を制御する請求項７に記載の情報処理装置。
前記心理的傾向は、前記ユーザが他人に対して共感性を有するか否かの傾向、又は前記ユーザが他人とコミュニケーションを取りやすい特性を有するか否かの傾向である請求項１～９の何れかに記載の情報処理装置。
前記設定部は、前記ユーザの心理的傾向が前記共感性を有しない傾向、又は前記他人とコミュニケーションを取りやすい前記特性を有しない傾向の場合、前記システムに前記主導権を設定する請求項１０に記載の情報処理装置。
前記設定部は、前記ユーザの心理的傾向が前記共感性を有する傾向、又は前記他人とコミュニケーションを取りやすい前記特性を有する傾向の場合、前記ユーザに前記主導権を設定する請求項１０又は１１に記載の情報処理装置。
前記ユーザの心理的傾向を推定する推定部を備え、
前記取得部は、車両に設けられたセンサから、前記ユーザが行う運転操作の情報を取得し、
前記推定部は、前記ユーザの運転操作に基づいて、前記ユーザの前記心理的傾向を推定する請求項１～１２の何れかに記載の情報処理装置。
前記ユーザの心理的傾向を推定する推定部を備え、
前記取得部は、前記ユーザが操作可能な所定の装置を介して、前記心理的傾向を推定するための質問に対する前記ユーザの回答を取得し、
前記推定部は、前記ユーザの回答に基づいて、前記ユーザの前記心理的傾向を推定する請求項１～１２の何れかに記載の情報処理装置。
前記ユーザの発話に基づく音声データが入力される入力部と、
前記ユーザの心理的傾向を推定する推定部を備え、
前記推定部は、
前記心理的傾向を推定するための質問を前記出力部から出力させ、
前記入力部に入力された、前記質問に対する前記ユーザの回答である音声データに基づいて、前記ユーザの心理的傾向を推定する請求項１～１２の何れか記載の情報処理装置。
前記ユーザの心理的傾向の推定結果を記憶する記憶部を備える請求項１３～１５の何れかに記載の情報処理装置。
前記設定部は、前記ユーザの心理的傾向を示す前記ユーザの心理尺度と所定の閾値とを比較することで、前記主導権を前記ユーザ又は前記システムのいずれかに設定する請求項１～１６の何れかに記載の情報処理装置。
前記制御部は、
前記ユーザの心理尺度に応じて、第１対話辞書又は第２対話辞書を選択し、
選択した対話辞書に基づく前記音声データを前記出力部から出力させ、
前記第１対話辞書は、前記ユーザに前記主導権を設定する場合に前記ユーザとの対話に必要な単語を含むデータベースであり、
前記第２対話辞書は、前記システムに前記主導権を設定する場合に前記ユーザとの対話に必要な単語を含むデータベースである請求項１７に記載の情報処理装置。
プロセッサに実行させ、ユーザと対話するシステムに用いられる情報処理方法であって、
前記ユーザの心理的傾向に関する情報を取得し、
前記ユーザと対話するための音声データを出力し、
前記ユーザの心理的傾向に応じて、前記ユーザと前記システムとの対話における主導権を前記ユーザ又は前記システムのいずれかに設定し、
前記主導権に関する設定結果に応じて、前記音声データの出力処理を制御する情報処理方法。