<<第1実施形態>>
以下、本発明の実施形態を図面に基づいて説明する。本実施形態では、本発明の実施形態に係る情報処理装置を、車両に搭載された音声対話システムに適用した場合を例にして説明する。本実施形態に係る情報処理装置の実施の形態は限定されず、本実施形態に係る情報処理装置は車両と情報の授受が可能な携帯端末又はサーバに適用することもできる。また本実施形態では、音声対話システムと対話するユーザとして、車両の運転者を例に挙げて説明するが、ユーザは運転者以外の他の乗員であってもよい。
図1は、音声対話システム100のブロック構成を示す図である。本実施形態の音声対話システム100は、車両に搭載されたシステムであって、ユーザと音声で対話するシステムである。図1に示すように、音声対話システム100は、入力装置1、出力装置2、センサ群3、心理推定システム4、情報処理装置5、及び対話辞書データベース6を備える。これらの装置及びシステムは、有線通信又は無線通信により互いに情報の授受が行われる。例えば、これらの装置及びシステムは、CAN(Controller Area Network)その他の車載LANによって接続されている。
入力装置1は、ユーザが音声対話システム100に対して情報を入力するための装置である。入力装置1としては、例えば、音声入力が可能なマイクが挙げられる。ユーザは、入力装置1を介して、音声対話システム100に対して指示をしたり、又は音声対話システム100から出力される音声データに対して返答したりすることができる。入力装置1に入力された音声データは、情報処理装置5に出力される。
本実施形態における音声対話の方式としては、プッシュ・トゥ・トーク(PTT:Push to Talk)が挙げられる。音声対話の方式がプッシュ・トゥ・トークの場合、ユーザが送信ボタンを押している間に、音声データの送信状態になる。入力装置1には、ユーザが操作可能なボタンであって、音声データの送信状態にするための送信ボタンが付属機器として設けられていてもよい。なお、送信ボタンは、付属機器としてではなく、入力装置1とは別に設けてもよい。
出力装置2は、ユーザに対して、音声データを出力するための装置である。出力装置2としては、例えば、音声出力が可能なスピーカが挙げられる。出力装置2には、情報処理装置5から音声データが入力される。ユーザは、出力装置2から出力される音声によって、音声対話システム100から出力される情報を理解することができる。
センサ群3は、車両の走行環境に関する情報を検出する装置で構成されている。センサ群3は、例えば、車両の走行状態を検出する走行状態検出装置、車両の現在位置を検出する位置検出装置、及び車両の周囲の状況を検出する周囲検出装置で構成される。
走行状態検出装置としては、例えば、車速センサ、エンジン回転センサ、アクセル開度センサ、ブレーキ開度センサ、操舵角センサ、シフトレバーセンサが挙げられる。走行状態検出装置は、車両の走行状態を検出し、検出結果を運転情報として心理推定システム4に出力する。運転情報は、車両の運転操作に関する情報である。本実施形態では、車両の運転主体は人間である。運転情報には、例えば、車速、エンジンの回転数、アクセル量、ブレーキ量、操舵角、ギア状態が含まれる。なお、走行状態検出装置は、運転操作に応じた車両の走行状態を検出できる装置であればよく、上記例にて挙げた以外の装置を含んでいてもよい。
位置検出装置としては、例えば、GPS(Global Positioning System)が挙げられ、位置検出装置は、地図情報を参照することで車両の現在位置を検出し、検出結果を位置情報として心理推定システム4に出力する。位置情報は、車両の位置に関する情報である。位置情報には、例えば、車両が走行している地域、車両が走行している道路の情報(例えば、道路の種別、停止線及び交差点の位置情報など)、車両が走行している車線の位置が含まれる。なお、位置検出装置は、車両の位置を検出できる装置であればよく、上記例にて挙げた以外の装置を含んでいてもよい。
周囲検出装置としては、例えば、カメラ、レーダーが挙げられ、周囲検出装置は、車両の周囲の状況を検出し、検出結果を周囲情報として心理推定システム4に出力する。周囲検出装置は、車両の周辺に位置する対象物を検出する。対象物は、車線境界線、センターライン、路面標識、中央分離帯、ガードレール、縁石、高速道路の側壁、道路標識、信号機、横断歩道、工事現場、事故現場、交通制限を含む。対象物は、自車両以外の自動車(他車両)、オートバイ、自転車、歩行者を含む。周囲検出装置は、検出結果を周囲情報として心理推定システム4に出力する。周囲情報は、車両の周囲に関する情報である。周囲情報には、例えば、車両の周囲の撮像画像、車両と対象物との相対距離および相対速度が含まれる。なお、周囲検出装置は、車両の周囲情報を検出できる装置であればよく、上記例にて挙げた以外の装置を含んでいてもよい。
心理推定システム4は、音声対話システム100と対話するユーザの心理的傾向を推定するシステムである。本実施形態では、心理推定システム4は、ユーザの心理的傾向として、他人に対するユーザの共感性を推定する。本実施形態では、心理推定システム4は、情動的共感性尺度(EES:Emotional Empathy Scale)と呼ばれる心理尺度の一種を測定することで、ユーザの心理的傾向を推定する。
情動的共感性尺度とは、他人に対してユーザが共感しやすいか否か、又は共感しやすい傾向を有するか否かを客観的に評価するための基準である。情動的共感性尺度が高いユーザは、一定の水準よりも、他人に対して共感性を有する傾向のユーザである。また他人に対して共感しやすいユーザは、他人とのコミュニケーションにおいて意思の疎通を図りやすいユーザとされており、情動的共感性尺度が高いユーザは、一定の水準よりも、他人とコミュニケーションが取りやすい特性を有するユーザでもある。
一方、情動的共感性尺度が低いユーザは、一定の水準よりも、他人に対して共感性を有しない傾向のユーザである。また他人に対して共感しづらいユーザは、他人とのコミュニケーションにおいて意思の疎通を図りにくいユーザとされており、情動的共感性尺度が低いユーザは、一定の水準よりも、他人とコミュニケーションが取りづらい特性を有するユーザでもある。なお、上記説明における一定の水準は、説明の便宜上用いたものであって、水準の大きさや水準の求め方などを特に限定するものではない。また他人とコミュニケーションを取る方法は多岐にわたるが、本実施形態では、対話(口頭)でのコミュニケーションとする。
図1に示すように、心理推定システム4は、コントローラ41とデータベース42を備えている。コントローラ41は、ハードウェア及びソフトウェアを備えたコンピュータにより構成され、車両の運転者(ユーザ)の情動的共感性尺度を測定する機能を備える。データベース42は、センサ群3による検出結果を記憶する記憶装置である。センサ群3による検出結果には、上述した運転情報、位置情報、周囲情報が含まれる。また本実施形態では、データベース42には、センサ群3の検出結果のうち、コントローラ41により抽出された特定の走行シーンでの検出結果が入力され、データベース42は、特定の走行シーンにおける検出結果を蓄積する。なお、特定の走行シーンとは、情動的共感性尺度の測定に適した走行シーンである。特定シーンの具体例等については後述する。
次に、図2を用いて、本実施形態における情動的共感性尺度の測定方法について説明する。本実施形態では、コントローラ41は、特定のシーンにおける車両の運転者が行う運転操作に基づいて、情動的共感性尺度を推定する(非特許文献2:Kaminuma, Atsunobu; Nankaku, Yoshihiko : AUTOMATIC DRIVER CHARACTERISTICS ESTIMATION USING DRIVING SIGNALS : Nissan Research Center, Nissan Motor. Co,. LTD, Japan, Nagoya Institute of Technology, Japanを参照)。図2は、コントローラ41が実行する情動的共感性尺度の測定処理を示すフローチャートである。図2で示されるフローチャートの処理は、コントローラ41により、所定の周期毎に実行される。
ステップS1では、コントローラ41は、センサ群3が検出した検出結果を取得する。このステップで取得する検出結果は、センサ群3によってリアルタイムに検出された結果である。ステップS2では、コントローラ41は、ステップS1で取得した検出結果に基づき、車両の現在の走行シーンを特定する。コントローラ41は、車両の位置情報及び周囲情報に基づき、車両の走行シーンを特定する。例えば、コントローラ41は、車両が走行している場所、車両の周囲に位置する対象物の状況などを特定する。
ステップS3では、コントローラ41は、ステップS2で特定された走行シーンが対象シーンに該当するか否かを判定する。対象シーンとは、情動的共感性尺度を測定するのに適した走行シーンであって、予め定められた走行シーンである。対象シーンとしては、例えば、信号機が存在しない横断歩道又は交差点において、歩行者が横断歩道又は交差点を渡ろうとするシーン、車両がT字路を右折するシーン等が挙げられる。例えば、コントローラ41は、車両が走行している場所が対象シーンにおける場所と一致するか否かを判定する。また例えば、コントローラ41は、周囲に位置する対象物の種別及び状態が対象シーンにおける対象物の種別及び状態と一致するか否かを判定する。コントローラ41は、車両が走行する場所及び周囲の状況を対象シーンに照らし合わせることで、現在の走行シーンが対象シーンに該当するか否かを判定する。コントローラ41により肯定的な判定がされた場合、ステップS4に進む。一方、コントローラ41により否定的な判定がされた場合、情動的共感性尺度の測定処理を終了する。なお、対象シーンは、上記例に挙げた特定のシーンに限定されず、その他の特定のシーンであってもよい。また対象シーンの数も特に限定されない。
ステップS3で肯定的な判定がされた場合、ステップS4に進む。ステップS4では、コントローラ41は、データベース42からセンサ履歴を取得する。センサ履歴には、対象シーンにおけるセンサ群3の検出結果として、対象シーンでの運転情報、位置情報、及び周囲情報が含まれる。なお、家族で所有している一台の車両を複数人で運転する場合等、運転の対象者が複数存在する場合、コントローラ41は、現在の運転者が運転した際のセンサ履歴を取得する。また、対象シーンが複数存在する場合、コントローラ41は、ステップS2で特定された走行シーンでのセンサ履歴を取得する。
ステップS5では、コントローラ41は、ステップS1で取得したセンサ群3の検出結果と、ステップS4で取得したセンサ履歴をマージする処理(集計処理)を実行する。現在の検出結果だけではなく、過去分の検出結果を集計することで、運転者の一時的な感情に基づく情動的共感性尺度ではなく、運転者の本質的な心理的傾向に基づく情動的共感性尺度を測定することができる。
ステップS6では、コントローラ41は、ステップS5の処理結果に基づき、運転者の情動的共感性尺度を測定する。図3を用いて、情動的共感性尺度の測定例について説明する。図3は、情動的共感性尺度を測定するのに適したシーンの一例である。図3に示すシーンは、信号機が存在しない横断歩道を歩行者Hが横断するシーンであって、車両Vがこの横断歩道に接近するシーンである。車両Vの運転者は、ブレーキ操作を実行するものとし、図3に示すシーンから所定時間が経過した後、車両Vは横断歩道の手前で停止するものとする。
図3に示すシーンにおいて、コントローラ41は、車両Vの運転者が行ったブレーキ操作に基づいて、運転者の情動的共感性尺度を測定する。具体的には、コントローラ41は、車両Vが停止するまでの間に行われたブレーキ操作の回数に基づき、運転者の情動的共感性尺度を測定する。
コントローラ41は、運転情報から、車両Vが停止するまでの間に、一回のブレーキ操作が行われたことを特定した場合、複数回のブレーキ操作が行われた場合よりも、運転者の情動的共感性尺度を高く測定する。これは、一回のブレーキ操作で車両Vを停止させた運転者は、躊躇することなく車両Vの走行よりも歩行者Hの横断を優先させる運転者であるため、自分よりも他人を優先しやすく、他人に共感しやすい運転者という観点に基づく。一方、コントローラ41は、運転情報から、車両Vが停止するまでの間に、複数回のブレーキ操作(いわゆるポンピングブレーキ)が行われたことを特定した場合、一回のブレーキ操作が行われた場合よりも、運転者の情動的共感性尺度を低く測定する。これは、複数回のブレーキ操作で車両Vを停止させた運転者は、歩行者Hの横断を気にしつつも、歩行者Hの行動次第では、歩行者Hが横断する前に車両Vを走行させようとする運転者であるため、他人よりも自分を優先しやすく、他人に共感しづらい運転者という観点に基づく。上記のように、停止するまでのブレーキ操作に限らず、例えば、車両Vの周囲検出装置によって検知した周囲情報に基づいて、将来車両Vが安全上あるいは法規上停止すべき停止位置を検知し、運転者が停止位置において停止したか否かに基づいて、情動的共感性尺度を測定してもよい。この場合、停止位置において運転者が車両Vを停止させた場合には情動的共感性尺度を高く測定し、停止位置において運転者が車両Vを停止させなかった場合には情動的共感性尺度を低く測定する。
コントローラ41は、現在の運転操作だけでなく、センサ履歴として記録されている過去の運転操作も含めて、運転者の情動的共感性尺度を測定する。図3の例において、例えば、コントローラ41は、対象シーンでの現在の運転操作と過去の運転操作において、車両Vの停止までのブレーキ操作が一回行われた割合を算出する。コントローラ41は、算出した割合が高いほど、運転者の情動的共感性尺度を高く測定する。なお、上述の情動的共感性尺度の測定方法は、一例であって他の方法であってもよい。例えば、コントローラ41は、対象シーンでの現在の運転操作と過去の運転操作において、車両Vの停止までのブレーキ操作が複数回行われた割合を算出し、算出した割合が高いほど、運転者の情動的共感性尺度を低く測定してもよい。また例えば、コントローラ41は、現在の運転操作を過去の運転操作に対して重み付けを行い、現在の運転操作を情動的共感性尺度に高く反映させるようにしてもよい。また例えば、対象シーンごとに測定用のモデルが予め構築されている場合、コントローラ41は、現在の運転操作と測定用のモデルとを用いて、情動的共感性尺度を測定してもよい。
図2に示すステップS6の処理が終了すると、情動的共感性尺度の測定処理は終了する。なお、ステップS6の処理が終了した後、コントローラ41は、ステップS1で取得したセンサの出力結果を、データベース42に記憶させ、対象シーンでの運転情報、位置情報、及び周囲情報をデータベース42に蓄積させる。
再び、図1に戻り、音声対話システム100の構成について説明する。対話辞書データベース6は、情報処理装置5が応答文を生成するための対話辞書を格納している。対話辞書には、応答文(定型文)、単語(語彙)、文法の情報、応答のタイミングが予め記録されており、対話辞書は各情報を格納するデータベースでもある。また対話辞書には、ユーザからの入力情報に対する応答文のサンプル(応答文例)が予め記録されている。応答文のサンプルとしては、例えば、「<人名>に<コマンド>します。」、「<検索結果>件、見つかりました。」等のように、<人名>、<コマンド>、<検索結果>のキーワードを代入することで、応答文を完成できるテンプレートが挙げられる。応答文のサンプルは、入力情報の種別に応じて複数記録されている。対話辞書データベース6は、情報処理装置5からのアクセスに応じて、対話辞書として記録された各種情報を情報処理装置5に出力する。上述したデータベースを用いる手法以外に、機械学習アルゴリズムを用いることも可能である。例えば、当該機械学習アルゴリズムは、後述するユーザの主導レベル、または、システムの主導レベルに応じた、応答文を生成して出力するよう構成される。
図1に示すように、本実施形態では、対話辞書データベース6には、ユーザ主導用の対話辞書63と、システム主導用の対話辞書66がそれぞれ格納されている。
ユーザ主導用の対話辞書63は、ユーザとの対話における主導権をユーザに設定した場合に、ユーザとの対話に必要な単語等が記録された対話辞書である。本実施形態では、ユーザ主導用の対話辞書63は、対話辞書61及び対話辞書62を含む。対話辞書61は、ユーザの主導権の高さを示すユーザの主導レベルが比較的高い場合に用いられる対話辞書であり、対話辞書62は、ユーザの主導レベルが比較的低い場合に用いられる対話辞書である。対話の主導レベルについては後述する。
システム主導用の対話辞書66は、ユーザとの対話における主導権を音声対話システム100に設定した場合に、ユーザとの対話に必要な単語等が記録された対話辞書である。本実施形態では、システム主導用の対話辞書66は、対話辞書64及び対話辞書65を含む。対話辞書64は、音声対話システム100の主導権の高さを示すシステムの主導レベルが比較的高い場合に用いられる対話辞書であり、対話辞書65は、システムの主導レベルが比較的低い場合に用いられる対話辞書である。
各対話辞書には、異なる応答文(定型文)、単語(語彙)、文法の情報、応答のタイミング、応答文のサンプル、及び対話シナリオが記録されている。対話シナリオとは、対話の進行を規定した筋書であって、ユーザからの指示内容又はコマンド内容ごとに用意されている。後述する情報処理装置5は、対話シナリオに従った応答となるように、対話制御を行う。各対話辞書の違いについては、後述するユーザとの対話例を用いて説明する。
対話辞書データベース6には、情報処理装置5から選択信号が入力され、対話辞書データベース6は、選択信号がいずれかの対話辞書を示すかを判別し、対応する対話辞書の情報を情報処理装置5に出力する。これにより、対話の主導権及びその主導レベルに応じて、情報処理装置5は、ユーザに対して異なる応答をすることができる。なお、図1では、ユーザ主導用の対話辞書63として、対話辞書61及び対話辞書62を示し、システム主導用の対話辞書66として、対話辞書63及び対話辞書64を示しているが、ユーザ主導用の対話辞書63とシステム主導用の対話辞書66の数は特に限定されず、対話辞書データベース6は、少なくとも一つずつの対話辞書を含んでいればよい。すなわち、ユーザ主導用の対話辞書61は、対話辞書62及び対話辞書63に加えて、ユーザの主導レベルに応じた一又は複数の対話辞書を含んでいてもよい。またシステム主導用の対話辞書66は、対話辞書64及び対話辞書65に加えて、システムの主導レベルに応じた一又は複数の対話辞書を含んでいてもよい。
本実施形態の情報処理装置5は、ハードウェア及びソフトウェアを備えたコンピュータにより構成され、プログラムを格納したROM(Read Only Memory)と、このROMに格納されたプログラムを実行するCPU(Central Processing Unit)と、アクセス可能な記憶装置として機能するRAM(Random Access Memory)とから構成されている。なお、動作回路としては、CPUに代えて又はこれとともに、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)などを用いることができる。図1に示すプロセッサ50はCPUに相当し、また図1に示す記憶装置56はROM及びRAMに相当する。
図1に示すように、プロセッサ50には、取得部51と、入力部52と、出力部53と、設定部54と、制御部55が含まれ、これらのブロックは、ROMに確立されたソフトウェアによって、後述する各機能を実現する。
取得部51は、ユーザの心理的傾向に関する情報を取得する。本実施形態では、取得部51は、心理推定システム4から、ユーザの情動的共感性尺度を取得する。取得部51により取得されたユーザの情動的共感性尺度は、設定部54での主導権設定処理に用いられる。
入力部52には、入力装置1からユーザの発話に基づく音声データが入力される。入力部52に入力されたユーザの音声データは、制御部55での音声認識処理及び自然言語理解処理に用いられる。なお、情報処理装置5が車両の外部に設けられたサーバに適用された場合、入力部52は、車両と通信可能な通信装置を介して、入力装置1からユーザの音声データを取得する。
出力部53は、ユーザと対話するための音声データを出力装置2に出力する。出力部53には、制御部55から音声データが入力され、出力部53は、制御部55から音声データが入力されたタイミングで音声データを出力する。ユーザとの対話において、出力装置2から音声が出力されるタイミングは、制御部55により制御される。
設定部54は、ユーザの心理的傾向に応じて、ユーザ又は音声対話システム100のいずれかに対話の主導権を設定する。以降の説明では、説明の便宜上、ユーザに対話の主導権が設定され、ユーザが対話の主導権を握ることを、ユーザ主導(User Initiative)と称し、また音声対話システム100に対話の主導権が設定され、音声対話システム100が対話の主導権を握ることを、システム主導(System Initiative)と称することもある。主導権の違いによる対話の違いについては、後述する。
設定部54は、ユーザの情動的共感性尺度と閾値を比較することで、ユーザ又は音声対話システム100のいずれかに対話の主導権を設定する。設定部54は、ユーザの情動的共感性尺度が閾値よりも高い場合、対話の主導権をユーザに設定し、情動的共感性尺度が閾値よりも低い場合、対話の主導権を音声対話システム100に設定する。閾値は、対話の主導権を設定するための閾値であって、予め定められた閾値である。情動的共感性尺度と対話の主導権の関係は、以下の観点に基づくものである。
情動的共感性尺度が比較的高く、他人に対して共感性を有する傾向のユーザは、自分よりも他人を優先する傾向があるユーザであるため、対話シナリオに従った内容で音声入力することができ、対話の主導権をユーザにしても音声対話システム100との間でスムーズな対話を行えるという観点に基づく。一方、情動的共感性尺度が比較的低く、他人に対して共感性を有しない傾向のユーザは、他人よりも自分を優先する傾向があるユーザであるため、対話シナリオに従った内容で音声入力することが難しく、対話の主導権を音声対話システム100にした方が音声対話システム100との間でスムーズな対話を行えるという観点に基づく。
設定部54は、対話の主導権を設定するのに加えて、ユーザの情動的共感性尺度に応じて、主導権の高さを設定する。例えば、設定部54は、ユーザの情動的共感性尺度が閾値よりも高く、ユーザに対話の主導権を設定した場合、さらにユーザの情動的共感性尺度に応じて、ユーザ主導での主導レベル(スコア、得点、点数ともいう)を設定する。例えば、設定部54は、ユーザの情動的共感性尺度が高いほど、ユーザ主導における主導レベルを高く設定する。後述する制御部55は、主導レベルが高い場合、主導レベルが低い場合に比べて、ユーザが対話を主導する割合が高くなるように、対話の制御を行う。
また例えば、設定部54は、ユーザの情動的共感性尺度が閾値よりも低く、システムに対話の主導権を設定した場合、さらにユーザの情動的共感性尺度に応じて、システム主導での主導レベルを設定する。例えば、設定部54は、ユーザの情動的共感性尺度が低いほど、システム主導における主導レベルを高く設定する。後述する制御部55は、主導レベルが高い場合、主導レベルが低い場合に比べて、音声対話システム100が対話を主導する割合が高くなるように、対話の制御を行う。このように、ユーザ主導又はシステム主導を設定するだけでなく、さらに主導レベルを設定することで、例えば、複数のユーザ間でユーザの情動的共感性尺度にばらつきが生じたとしても、各ユーザの情動的共感性尺度に応じて、ユーザ毎に異なる対話制御を行うことができる。
制御部55は、音声認識処理と、自然言語理解処理と、対話制御処理と、応答文生成処理と、音声合成処理を実行する。制御部55は、音声認識処理により、ユーザの音声データをテキストデータ(文字列)に変換する。また制御部55は、音声認識処理により、音声データから声の高さ等の特徴を抽出し、発話したユーザを特定する。次に、制御部55は、自然言語理解処理により、変換されたテキストデータから、音声対話システム100が応答するために必要な内容を理解する。例えば、「A駅周辺にあるカフェを探して」という入力に対して、制御部55は、文字列を単語単位及び文節単位に分解し、「A駅」が実在する駅名であること、「カフェ」がコーヒーなどを提供する飲食店であること、カフェについて尋ねていること、を理解する。なお、音声認識処理技術と自然言語理解技術について、情報処理装置5には本願出願時に知られた各技術を適用できる。
制御部55は、対話制御処理により、対話の主導権を握る主体及びその主導レベルに応じて、対話の制御を行う。対話の制御は、対話の起点の制御、応答内容の制御を含む。つまり、制御部55は、対話の主導権を握る主体及びその主導レベルに応じて、対話の流れを制御する。具体的に、制御部55は、設定部54により設定された対話の主導権の主体及びその主導レベルに応じて、対話辞書データベース6から、対応する対話辞書を選択する。制御部55は、選択した対話辞書に記録された応答のタイミング及び対話シナリオに従って、以降の処理を実行することで、ユーザに対して応答する。また制御部55は、自然言語理解処理によって理解したユーザの発話内容に対する応答文サンプルを、対話辞書から選択するとともに、応答文サンプルに代入するためのキーワードを特定する。なお、キーワードの特定処理は、情報処理装置5で実行する必要はなく、例えば、制御部55は、情報処理装置5の外部に設けられた情報検索システム等から、ユーザへの応答に必要なキーワードを取得してもよい。
制御部55は、応答文生成処理により、応答内容を表す具体的な文を生成する。制御部55は、対話制御処理により得られた応答文のサンプルと、応答文のサンプルに必要なキーワードを用いて応答文を生成する。具体的には、制御部55は、応答文のサンプルのうちキーワードに対応する箇所に、特定されたキーワードを代入することで、応答文を生成する。
制御部55は、音声合成処理により、応答文生成処理により得られた応答文のテキストデータを音声データに変換する。音声合成処理は、音声合成(TTS: Text to Speech)と呼ばれる処理である。制御部55は、音声合成処理により得られた音声データを出力部53に出力する。
図4は、プロセッサ50が実行する音声対話制御の制御手順を示すフローチャートである。
ステップS11では、プロセッサ50は、音声対話UI(User Interface)を起動させる。例えば、ユーザが車両のイグニッションスイッチを操作することで、車両が走行可能な状態に移行すると、プロセッサ50は、音声対話システム100と対話するためのアプリケーションを起動させる。ステップS12では、プロセッサ50は、心理推定システム4から車両に乗車中のユーザの情動的共感性尺度に関する情報を取得する。
ステップS13では、プロセッサ50は、ステップS12で取得した情動的共感性尺度の情報に基づいて、ユーザと音声対話システム100との対話における主導権を設定する。例えば、プロセッサ50は、ユーザの情動的共感性尺度と所定の閾値を比較する。プロセッサ50は、ユーザの情動的共感性尺度が閾値よりも高い場合、対話の主導権をユーザに設定し、ユーザの情動的共感性尺度が閾値よりも低い場合、対話の主導権を音声対話システム100に設定する。またこのステップにおいて、プロセッサ50は、対話の主導権を設定するとともに、ユーザの情動的共感性尺度に応じて、主導権を握る主体の主導レベルを設定する。なお、所定の閾値とは、対話の主導権を設定するための閾値であって、予め定められた閾値である。
ステップS14では、プロセッサ50は、ステップS13で設定された主導権及びその主導レベルに応じて、対話辞書データベース6に格納された複数の対話辞書の中から一の対話辞書を選択する。例えば、対話の主導権がユーザに設定され、その主導レベルが比較的高い場合、プロセッサ50は、ユーザ主導用の対話辞書63のうち、ユーザの主導レベルが比較的高い場合に用いられる対話辞書61を選択する。
ステップS15では、プロセッサ50は、音声対話を開始する。例えば、音声対話の方式がプシュ・トゥ・トークの場合、音声対話システム100が音声入力を受け付ける状態にするために、ユーザは送信ボタンを押す。プロセッサ50は、ユーザによって送信ボタンが押されたことをトリガとして、音声対話が開始されることを検知する。
このステップにおいて、プロセッサ50は、ステップS13で設定された対話の主導権に応じて、対話の起点をユーザの発話に基づく音声データにするか、又は音声対話システム100からユーザに対して出力される音声データにするかを設定する。対話の起点に関する情報は、対話辞書に記録されているため、プロセッサ50は、ステップS14で選択した対話辞書に従って、対話の起点をいずれかの音声データにするかを設定する。
例えば、ステップS13で対話の主導権をユーザに設定した場合、プロセッサ50は、ステップS14で選択されたユーザ主導用の対話辞書63に従って、対話の起点をユーザからの発話に基づく音声データに設定する。この場合、プロセッサ50は、ユーザによって送信ボタンが押されたことを検知すると、出力装置2から音声データを出力させることなく、ユーザからの音声入力を待つ状態、いわゆる待機状態に移行する。これにより、ユーザが対話を開始しようと送信ボタンを押すと、ユーザは自身の好きなタイミングで発話することが可能になり、対話の起点をユーザにすることができる。その結果、ユーザが主導権を握る対話をスムーズに開始することができる。
一方、例えば、ステップS13で対話の主導権を音声対話システム100に設定した場合、プロセッサ50は、ステップS14で選択されたシステム主導用の対話辞書に従って、対話の起点を音声対話システム100から出力される音声データに設定する。この場合、プロセッサ50は、ユーザによって送信ボタンが押されたことを検知すると、「コマンドをどうぞ」という音声データを自動的に生成して、出力装置2に出力する。これにより、ユーザが対話を開始しようと送信ボタンを押すと、音声対話システム100側から、指示を促す音声が出力されることになり、対話の起点を音声対話システム100にすることができる。その結果、音声対話システム100が主導権を握る対話をスムーズに開始することができる。
ステップS16では、プロセッサ50は、ステップS15で音声対話が開始されたことをきっかけにして、音声認識処理を実行し、ユーザの音声データをテキストデータ(文字列)に変換する。またプロセッサ50は、音声データからユーザの声の特徴を抽出し、発話したユーザを特定する。
ステップS17では、プロセッサ50は、ステップS16での処理で得られたテキストデータに自然言語理解処理を実行し、応答するために必要な内容を理解する。ステップS18では、プロセッサ50は、対話制御処理を実行し、ステップS14で選択された対話辞書の中から応答文サンプルを選定するとともに、応答文サンプルに必要なキーワードを特定する。
ステップS19では、プロセッサ50は、応答文生成処理を実行する。プロセッサ50は、ステップS18の処理で得られた応答文サンプルに対して、キーワードを代入することで、応答文を生成する。
ステップS20では、プロセッサ50は、音声合成処理を実行し、ステップS19の処理で得られた応答文を音声データに変換する。プロセッサ50は、変換された音声データを出力装置2に出力する。これにより、ユーザの発話に対して、音声対話システム100は、音声で応答することができる。
ステップS21では、プロセッサ50は、ユーザとの音声対話が終了したか否かを判定する。音声対話の終了条件は特に限定されないが、例えば、プロセッサ50は、ステップS20で音声データを出力してから所定時間が経過するまでにユーザからの音声入力がない場合、音声対話が終了したと判定する。また例えば、プロセッサ50は、音声対話を終了せるためのキーワードをステップS16で認識した場合、ステップS17~ステップS20までの処理を実行せずに、音声対話が終了したと判定してもよい。音声対話が終了したと判定された場合、音声対話処理は終了する。一方、音声対話が終了していないと判定された場合、ステップS16に戻り、以降、音声対話が終了するまでステップS16~ステップS20の処理を繰り返し実行する。
次に、図5~図8を用いて、本実施形態に係るプロセッサ50の音声対話制御によって行われる対話例について説明する。図5は、ユーザが車両に備わるハンズフリー通話機能を使用して電話をかける場面での対話例である。図5(A)は、対話の主導権がユーザの場合の対話例を示し、図5(B)は、対話の主導権が音声対話システム100の場合の対話例を示す。図5(A)及び図5(B)の対話例において、ユーザは対話を開始するために送信ボタンを押すものとする。
図5(A)及び図5(B)に示す対話例を比較すると、最終的に音声対話システム100からは「Aさんに電話します。」という音声データが出力されているが、この音声データが出力されるまでの対話が異なっている。図5(A)では、送信ボタンが押された際に、音声対話システム100がユーザの発話を待機する状態から始まる。一方、図5(B)では、送信ボタンが押された際に、ユーザに指示を促す音声データ(「コマンドをどうぞ。」)が出力される状態から始まる。
情動的共感性尺度が比較的高く、他人に対する共感性を有する傾向のユーザは、自分よりも他人を優先させる傾向にあるため、対話シナリオを把握し、対話シナリオで規定された情報を適切に音声入力することができる。そのため、送信ボタンが押された後に、指示を促す音声データを出力しなくても、ユーザは対話シナリオに規定されたコマンドと各コマンドに付随する情報を音声入力することができる。例えば、電話をかけるための対話シナリオが、コマンド及び相手先の音声入力が必要なシナリオの場合、図5(A)に示すように、ユーザは、コマンド及び相手先の情報を1回で音声入力することができ、音声対話システム100との対話をスムーズに行うことができる。
一方、情動的共感性尺度が比較的低く、他人に対する共感性を有しない傾向のユーザは、他人よりも自分を優先させる傾向にあるため、対話シナリオを把握することを煩わしく感じ、対話シナリオの内容を適切に音声入力することが難しいとされている。そのため、例えば、送信ボタンが押された後に、指示を促す音声データが出力されない場合、ユーザは対話シナリオで規定された情報とは関係ない情報を音声入力する恐れがある。この場合、自身が発話した内容を正しいと思い込むユーザは、誤った情報での音声入力を繰り返してしまい、音声対話システム100との間でスムーズな対話をすることができない。
しかしながら、本実施形態に係る情報処理装置5によれば、ユーザの情動的共感性尺度に応じた対話辞書を用いることで、送信ボタンが押された際に、指示を促す音声データを出力して、対話シナリオに沿った音声入力をユーザに促すことができる。図5(B)の例では、ユーザは、音声対話システム100からの音声に応答する形で、対話シナリオで規定されたコマンドを音声入力することができる。さらに、ユーザは、音声対話システム100からの音声に応答する形で、コマンドに必要な情報を音声入力することができる。対話シナリオの内容を把握するのが困難なユーザであっても、対話シナリオに従って、音声対話システム100との対話をスムーズに行うことができる。
図6は、ユーザが情報検索システムに情報検索させる場面での対話例である。図6(A)は、対話の主導権がユーザの場合の対話例を示し、図6(B)は、対話の主導権が音声対話システム100の場合の対話例を示す。図6(A)及び図6(B)は、ユーザが初めの検索条件で得られた検索結果に対して検索条件の変更を行う場面での対話例である。
図6(A)の対話例では、ユーザは、検索条件の条件として「B駅周辺」及び「カフェ」を音声入力する。そして、音声対話システム100が情報検索システムで得られた検索結果を音声データとして出力すると、ユーザは、検索条件を変更するために、「C駅周辺」で検索するよう音声入力する。他人に対する共感性を有する傾向のユーザは、検索結果が出力された後に検索条件の変更ができること、及び検索条件として規定されたキーワード(例えば、駅名)を予め把握しているため、検索結果のみを音声データとして出力した場合でも、自発的に検索条件を変更することができ、音声対話システム100との対話をスムーズに行うことができる。
一方、他人に対する共感性を有しない傾向のユーザは、検索結果が出力された後に検索条件が変更できること、及び検索条件として規定されたキーワードを予め把握していることは難しく、自発的に検索条件を変更するのは難しいとされている。そのため、例えば、検索結果のみを音声データとして出力した場合、ユーザは検索条件を適切に変更できない恐れがある。この場合、検索条件の変更方法を理解していないユーザは、誤った情報での音声入力を繰り返してしまい、音声対話システム100との間でスムーズな対話をすることができない。
しかしながら、本実施形態に係る情報処理装置5によれば、ユーザの情動的共感性尺度に応じた対話辞書を用いることで、検索結果に加えて、具体的な検索条件の変更方法を音声データとして出力することができる。図6(B)の例では、ユーザは、検索結果とともに、具体的な検索条件の変更方法を知ることができるため、自身が所望する情報を得るために適切に検索条件を変更することができる。自発的に検索条件を変更することが困難なユーザであっても、音声対話システム100との対話をスムーズに行うことができる。なお、対話辞書に検索条件の変更方法だけでなく、検索結果の絞り込み方法が記録されている場合には、検索結果に加えて、具体的な絞り込み方法を音声データとして出力するため、ユーザは、自身が所望する情報を得るために適切に検索結果を絞り込むことができる。
図7は、対話の主導権を握る主体の主導レベルの違いによって異なる対話をすることができることを説明するための図である。図7(A)~図7(C)は、図6の場面と同様に、ユーザが情報検索システムに情報検索させる場面での対話例である。図7(A)及び図7(B)に示す対話例は、ユーザ主導の対話例であって、主導レベルがそれぞれ異なる対話例である。また図7(C)に示す対話例は、システム主導の対話例である。なお、図7(A)~図7(C)の例では、図7(A)~図7(C)の順で、ユーザの情動的共感性尺度は小さくなるものとする。また図7(A)~図7(C)において、ユーザの情動的共感性尺度に応じた音声対話システム100が出力する特徴的な音声データには下線を付している。
図7(A)に示すように、ユーザの情動的共感性尺度が比較的高い場合には、本実施形態に係る情報処理装置5によれば、ユーザの情動的共感性尺度に応じた対話辞書を用いることで、検索結果に加えて、検索条件を変更できることを音声データとして出力することができる。また図7(B)に示すように、図7(A)に示すユーザよりも情動的共感性尺度が低い場合には、本実施形態に係る情報処理装置5によれば、ユーザの情動的共感性尺度に応じた対話辞書を用いることで、検索結果に加えて、検索結果の絞り込み方法を音声データとして出力することができる。さらに、図7(C)に示すように、図7(B)に示すユーザよりも情動的共感性尺度が低い場合には、本実施形態に係る情報処理装置5によれば、ユーザの情動的共感性尺度に応じた対話辞書を用いることで、検索結果に加えて、検索結果の絞り込み方法を音声データとして出力することができる。また絞り込みの結果に加えて、具体的に情報検索システムが絞り込んだ条件を音声データとして出力することができる。さらに絞り込みの結果に対して、ユーザが肯定語(「はい」、「Yes」)又は否定語(「いいえ」、「No」)で返答可能な質問(具体的な絞り込みの条件の提示)を音声データとして出力することができる。このように、ユーザの情動的共感性尺度に応じて、応答内容を変更することができるため、ユーザの心理的傾向にかかわらず、ユーザは音声対話システム100とスムーズに対話することができる。
以上のように本実施形態に係る情報処理装置5は、ユーザと対話する音声対話システム100に用いられる情報処理装置であって、ユーザの心理的傾向の尺度である情動的共感性尺度を取得する取得部51と、ユーザと対話するための音声データを出力する出力部53と、ユーザの情動的共感性尺度に応じて、ユーザと音声対話システム100との対話における主導権をユーザ又は音声対話システム100のいずれかに設定する設定部54と、設定部54による設定結果に応じて、出力部53からの出力される音声データを制御する制御部55とを備える。ユーザの情動的共感性尺度に応じて対話の主導権を設定し、設定結果に応じて音声データの出力処理を制御するため、ユーザの心理的傾向に合わせて対話を開始することができる。
また、本実施形態では、制御部55は、設定部54により音声対話システム100に対話の主導権を設定した場合、対話の起点を出力部53から出力される音声データとする。これにより、音声対話システム100がユーザの発話よりも先行して音声データを出力することが可能になり、音声対話システム100が主導権を握るような対話をスムーズに開始することができる。
さらに、本実施形態では、制御部55は、設定部54により音声対話システム100に対話の主導権を設定した場合、ユーザに対して指示を促す音声データを出力部53から出力させる。これにより、情動的共感性尺度が比較的低く、他人に対する共感性を有しない傾向のユーザであっても、指示に従って音声入力することで対話シナリオに従った対話をすることができる。その結果、対話シナリオが複雑多岐な場合でも、音声対話システム100との対話において対話が滞ることを抑制でき、音声対話システム100の設計自由度の拡張を図ることができる。
加えて、本実施形態では、制御部55は、設定部54により音声対話システム100に対話の主導権を設定した場合、ユーザが肯定語又は否定語で返答可能な質問を含む音声データを出力部53から出力させる。これにより、情動的共感性尺度が比較的低く、他人に対する共感性を有しない傾向のユーザであっても、肯定語又は否定語で音声入力することで対話シナリオに従った対話をすることができる。その結果、対話シナリオが複雑多岐な場合でも、音声対話システム100との対話において対話が滞ることを抑制でき、音声対話システム100の設計自由度の拡張を図ることができる。
また、本実施形態では、制御部55は、設定部54により音声対話システム100に対話の主導権を設定した場合、ユーザからの指示に対する回答以外の情報含む音声データを出力部53から出力させる。これにより、情動的共感性尺度が比較的低く、他人に対する共感性を有しない傾向のユーザであっても、図6(B)の例に示すように、ユーザ自身が所望する情報を入手するまでの対話をスムーズに行うことができる。
さらに、本実施形態に係る情報処理装置5は、ユーザの発話に基づく音声データが入力される入力部52を備え、制御部55は、設定部54によりユーザに対話の主導権を設定した場合、対話の起点を入力部52に入力される音声データとする。これにより、ユーザの発話に起因して対話を開始することが可能になり、ユーザが主導権を握るような対話をスムーズに開始することができる。
加えて、本実施形態では、制御部55は、設定部54によりユーザに対話の主導権を設定した場合、ユーザからの指示に対する回答のみの音声データを出力部53から出力させる。これにより、情動的共感性尺度が比較的高く、他人に対する共感性を有する傾向のユーザは、図6(A)の例に示すように、ユーザは自身が所望する情報を入手するまでのやり取りの回数を少なくすることができる。その結果、音声対話システム100に対して感じるユーザの利便性及び信頼性を向上させることができる。
また、本実施形態では、ユーザの心理的傾向は、ユーザが他人に対して共感性を有するか否かの傾向、又は、他人とのコミュニケーションにおいて意思の疎通を図りやすく、他人とコミュニケーションを取りやすいか否かの傾向である。これにより、他人よりも自分を優先させる傾向のユーザ及び自分よりも他人を優先させる傾向のユーザそれぞれに対して、各ユーザの心理的傾向に合わせた対話をすることができる。
さらに、本実施形態では、設定部54は、ユーザの心理的傾向が他人に対して共感性を有しない傾向、又は他人とコミュニケーションを取りやすい特性を有しない傾向の場合、音声対話システム100に対話の主導権を設定する。これにより、他人よりも自分を優先させる傾向のユーザに対して、音声対話システム100が対話の主導を握るように対話制御することができ、ユーザの心理的傾向に合わせた対話をすることができる。
加えて、本実施形態では、設定部54は、ユーザの心理的傾向が他人に対する共感性を有する傾向、又は他人とコミュニケーションを取りやすい特性を有しない傾向の場合、ユーザに対話の主導権を設定する。これにより、自分よりも他人を優先させる傾向のユーザに対して、ユーザが対話の主導を握るように対話制御することができ、ユーザの心理的傾向に合わせた対話をすることができる。
また、本実施形態では、設定部54は、ユーザの心理的傾向を示す情動的共感性尺度と所定の閾値を比較することで、対話主導権をユーザ又は音声対話システム100のいずれかに設定する。これにより、ユーザの心理的傾向という可視化が困難なパラメータであっても、ユーザの心理的傾向に合わせて対話の主導権を設定することができ、その結果、ユーザの心理的傾向に合わせて対話をすることができる。
さらに、本実施形態では、制御部55は、ユーザの情動的共感性尺度に応じて、ユーザ主導用の対話辞書63又はシステム主導用の対話辞書66を選択し、選択した対話辞書に基づく音声データを出力部53から出力させる。ユーザ主導用の対話辞書63は、ユーザが対話の主導権を握る場合にユーザとの対話に必要な単語を含むデータベースであり、システム主導用の対話辞書66は、音声対話システム100が対話の主導権を握る場合にユーザとの対話に必要な単語を含むデータベースである。ユーザの情動的共感性尺度に応じた対話辞書を用いて、ユーザと対話することができるため、ユーザの心理的傾向に合わせて対話をすることができる。
<<第2実施形態>>
次に、第2実施形態に係る情報処理装置15を含む音声対話システム200について説明する。図8は、音声対話システム200のブロック構成を示す図である。
本実施形態の音声対話システム200は、心理推定システム4を含まない点、専用入力装置11を含む点、及びプロセッサ150に機能が追加された点以外は、第1実施形態の音声対話システム100と同様の構成を備えている。そのため、図8では、第1実施形態と同じ構成には図1に示す符号と同じ符号を付しており、第1実施形態と同じ構成については、既述の説明を援用する。
本実施形態の音声対話システム200では、ユーザの心理的傾向の推定方法が、第1実施形態の音声対話システム100と異なっている。本実施形態では、ユーザが専用入力装置11を介して、情動的共感性尺度を測定するための質問紙に回答することで、情報処理装置15がユーザの情動的共感性尺度を測定する。そして、情報処理装置15は、推定されたユーザの情動的共感性尺度に応じて、第1実施形態と同様に、対話辞書を用いた対話制御を実行する。
専用入力装置11は、ユーザが手動で操作可能な装置であり、ユーザの情動的共感性尺度を測定する際に使用される専用の装置である。専用入力装置11の形態は特に限定されず、例えば、専用入力装置11には、タッチパネルが設けられている。専用入力装置11が質問紙に含まれる質問項目をタッチパネルに表示させると、ユーザは、タッチパネルを操作して質問項目を回答する。質問紙は、情動的共感性尺度を測定するのに必要な複数の質問項目を含む。複数の質問項目は、予め準備された質問項目である。専用入力装置11に入力された質問紙に対するユーザの回答は、情報処理装置15に出力され、推定部157の測定処理に用いられる。なお、情動的共感性尺度を測定するための全ての質問項目をユーザに回答させることに限定されず、複数の質問項目から抽出された質問項目をユーザに回答させてもよい。
また本実施形態では、専用入力装置11は、車両に設けられており、ユーザは、例えば、納車後に初めて車両に乗車するタイミングで、専用入力装置11を操作する。なお、ユーザが質問紙に回答するタイミングは、特に限定されず、その他のタイミングであってもよい。また質問紙は、専用入力装置11に予め記録されていてもよいし、情報処理装置15の記憶装置56に予め記録され、ユーザが専用入力装置11を操作することを検知すると、情報処理装置15が専用入力装置11に質問紙を出力してもよい。
本実施形態の情報処理装置15は、プロセッサ150と記憶装置56で構成されており、プロセッサ150は、第1実施形態のプロセッサ50を比べて、取得部51の代わりに取得部151を含む点、及び推定部157を含む点以外は同様のブロックを有している。
取得部151は、推定部157からユーザの情動的共感性尺度を取得する。取得部151により取得されたユーザの情動的共感性尺度は、設定部54での主導権設定処理に用いられる。
推定部157は、ユーザの心理的傾向を推定する。推定部157は、第1実施形態の心理推定システム4に相当する機能を有しているが、情動的共感性尺度の測定方法が心理推定システム4とは異なっている。本実施形態の推定部157は、専用入力装置11に入力される質問紙に対するユーザの回答を取得し、質問紙に対するユーザの回答に基づいて、ユーザの情動的共感性尺度を測定する。例えば、推定部157は、ユーザの回答結果に応じた点数表を有しており、質問項目ごとに点数を付けることで、ユーザの情動的共感性尺度を測定する。なお、質問紙を用いてユーザの情動的共感性尺度を測定する方法は一例であって、推定部157には、本願出願時に知られた質問紙を用いたユーザの情動的共感性尺度の測定方法を適用することができる。推定部157により測定されたユーザの情動的共感性尺度は、取得部151に出力される。
以上のように、本実施形態では、取得部151は、専用入力装置11を介してユーザにより入力された質問紙に対するユーザの回答を取得し、推定部157は、取得部151により取得されたユーザの回答に基づいて、ユーザの情動的共感性尺度を測定する。質問紙に対するユーザの回答から情動的共感性尺度を測定することができるため、ユーザの情動的共感性尺度を精度良く測定することができる。その結果、ユーザの心理的傾向を精度良く推定することができる。
なお、本実施形態では、専用入力装置11が車両に設けられている構成を例に挙げて説明したが、専用入力装置11は、車両の外部に設けられていてもよい。例えば、専用入力装置11は、ユーザが使用するパソコンであってもよい。この場合、パソコンと情報処理装置15の間では、有線通信又は無線通信により互いに情報の授受が可能となっている。情報処理装置15は、通信装置を介して、ユーザがパソコンに入力した質問紙に対する回答を取得してもよい。
<<第3実施形態>>
次に、第3実施形態に係る情報処理装置15を含む音声対話システム200について説明する。図9は、音声対話システム300のブロック構成を示す図である。
本実施形態の音声対話システム300は、専用入力装置11を含まない点、及びプロセッサ250の取得部251、推定部257の機能が異なる点以外は、第2実施形態の音声対話システム200と同様の構成を備えている。そのため、図9では、第1実施形態及び第2実施形態と同じ構成には図1又は図8に示す符号と同じ符号を付しており、第1実施形態及び第2実施形態と同じ構成については、既述の説明を援用する。
本実施形態の音声対話システム300では、ユーザの心理的傾向の推定方法が、第1実施形態の音声対話システム100及び第2実施形態の音声対話システム200と異なっている。本実施形態では、情動的共感性尺度を測定するための質問紙を音声データとして出力し、ユーザが音声入力により質問紙に回答することで、情報処理装置25がユーザの情動的共感性尺度を測定する。そして、情報処理装置25は、推定されたユーザの情動的共感性尺度に応じて、第1実施形態と同様に、対話辞書を用いた対話制御を実行する。
取得部251は、推定部257からユーザの情動的共感性尺度を取得する。取得部251により取得されたユーザの情動的共感性尺度は、設定部54での主導権設定処理に用いられる。
推定部257は、第2実施形態の推定部157と同様に、ユーザの心理的傾向を推定する。推定部257は、ユーザが乗車中の所定のタイミングで、情動的共感性尺度を測定するための質問紙のテキストデータを取得する。推定部257は、取得したテキストデータを音声データに変換し、出力部53から質問紙の音声データを出力させる。例えば、推定部257は、記憶装置56に予め記録された質問紙のテキストデータを取得する。推定部257は、音声合成処理を実行し、質問紙のテキストデータを音声データに変換する。推定部257は、音声合成処理により得られた音声データを出力部53に出力する。これにより、音声対話システム300から情動的共感性尺度を測定するために必要な質問がユーザに出力される。
ユーザが質問に口頭で回答すると、ユーザの発話に基づく音声データが入力装置1を介して、入力部52に入力される。推定部257は、全ての質問項目を一つずつ音声データとして出力する。そして、推定部257は、各質問項目に対するユーザの回答が入力されたことを確認すると、質問紙に対するユーザの回答である音声データに基づいて、ユーザの情動的共感性尺度を測定する。推定部157により測定されたユーザの情動的共感性尺度は、取得部151に出力される。
以上のように、本実施形態に係る情報処理装置25では、推定部257は、ユーザの情動的共感性尺度を測定するための質問を出力部53から出力させ、入力部52に入力される、質問に対するユーザの回答である音声データに基づいて、ユーザの情動的共感性尺度を測定する。乗車中のユーザとの音声対話によって、ユーザの情動的共感性尺度を測定することができるため、例えば、ユーザと音声対話システム300との間で雑談が行われている場面において、雑談の中の一つに質問紙に含まれる質問をすることができる。ユーザは、心理的傾向を推定されることを意識することなく、リラックスした状態で回答することができ、ユーザが本質的に有する情動的共感性尺度を測定することができる。その結果、ユーザの心理的傾向を精度良く推定することができる。
なお、以上に説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。
例えば、上述の第1実施形態では、心理推定システム4がユーザの運転操作に基づいて、ユーザの情動的共感性尺度を測定する構成を例に挙げて説明したが、情報処理装置が心理推定システム4のコントローラ41の機能及びデータベース42を備えていてもよい。この場合、情報処理装置は、ユーザの心理的傾向を推定する推定部を備える。取得部51は、センサ群3から、ユーザにより行われた運転操作の情報である運転情報を取得し、推定部は、ユーザの運転操作に基づいて、ユーザの情動的共感性尺度を測定する。これにより、既述のとおり、心理的傾向が表れる運転操作に基づいてユーザの情動的共感性尺度を測定することができ、ユーザの心理的傾向に合わせて対話を開始することができる。
また例えば、上述の第1実施形態~第3実施形態では、ユーザの心理的傾向を推定するために、情動的共感性尺度を用いた構成を例に挙げて説明したが、情動的共感性尺度と同程度の測定結果となる他の心理尺度を用いてもよい。例えば、上述の第2実施形態又は第3実施形態において、α係数が0.8以上の心理尺度を情動的共感性尺度の代替尺度として用いてもよい。α係数は、情動的共感性尺度を測定するために使用された質問項目に対して、どの程度一貫性や信頼性があるかを示す係数である。
また例えば、上述の第1実施形態では、運転者(ユーザ)の現在の運転操作及び過去の運転操作に基づいて、ユーザの情動的共感性尺度を測定する構成を例に挙げて説明したが、ユーザの現在の運転操作のみに基づいて、リアルタイムにユーザの情動的共感性尺度を測定してもよい。この場合、ユーザの現在の運転操作に応じた測定結果になるため、ユーザが一時的に有する心理的傾向に合わせて対話を開始することができる。また、ユーザの過去の運転操作のみに基づいて、予めユーザの情動的共感性尺度を測定し、ユーザの情動的共感性尺度を記憶装置56に記憶させてもよい。この場合、ユーザの過去の運転操作に応じた測定結果になるため、ユーザが本質的に有する心理的傾向に合わせて対話を開始することができる。
また例えば、上述の第1実施形態では、図7を用いて、主導レベルに応じて異なる対話内容を実現できることを説明したが、主導レベルに応じた処理は対話の内容に限られない。例えば、情報処理装置は、主導レベルに応じて対話の起点を制御してもよい。制御部55は、設定部54により音声対話システム100に対話の主導権を設定した場合、ユーザに対話の主導権を設定した場合に比べて、出力部53から出力される音声データを起点とする対話の頻度が多くなるように、出力部53から出力される音声データを制御してもよい。また制御部55は、設定部54によりユーザに対話の主導権を設定した場合、音声対話システム100に対話の主導権を設定した場合に比べて、入力部52に入力される音声データを起点とする対話の頻度が多くなるように、出力部53から出力される音声データを制御してもよい。これにより、主導レベルに応じて対話の起点となる音声データの頻度が変わり、例えば、音声対話システム100に対話の主導権を設定した場合、出力部53から出力される音声データを起点とする対話の回数を、その主導レベルに対応させることができる。その結果、ユーザの心理的傾向に合わせた対話を継続的に行うことができる。
また例えば、上述の第1実施形態~第3実施形態では、ユーザの心理的傾向を示す情動的共感性尺度を、心理推定システム4、推定部157、又は推定部257から取得する構成を例に挙げて説明したが、ユーザの情動的共感性尺度が測定された後、測定結果をROM等で構成される記憶部に記憶させてもよい。そして、設定部54は、記憶部に記憶されたユーザの情動的共感性尺度を用いて、対話の主導権を設定してもよい。これにより、ユーザの情動的共感性尺度の測定処理を、ユーザが乗車する度に行うことを防ぐことができ、ユーザの心理的傾向に合わせた対話を開始するまでの時間を短縮することができる。
また例えば、上述の第1実施形態~第3実施形態では、対話辞書データベース6が情報処理装置5、情報処理装置15、又は情報処理装置25に含まれない構成を例に挙げて説明したが、情報処理装置が対話辞書データベース6を備えていてもよい。また対話辞書データベース6は、車両以外の場所に設けられていてもよい。例えば、対話辞書データベース6は、サーバに設けられており、情報処理装置は通信装置を介して情報の授受を行ってもよい。