JP6993314B2

JP6993314B2 - 対話システム、装置、及びプログラム

Info

Publication number: JP6993314B2
Application number: JP2018211609A
Authority: JP
Inventors: 崇志沼田; 康博朝; 伸宏福田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2022-01-13
Anticipated expiration: 2038-11-09
Also published as: US20200152225A1; JP2020076923A; US11276420B2

Description

対話インタフェースを介したユーザとの対話を実現する対話システムに関する。

ヒトと対話するロボット及びＣＧ等の対話インタフェースが、ヒトの発話に対して傾聴的な応答を提示することによって、ヒトの共感を誘起することができれば、そのヒトの発話欲求を誘起し、持続的な対話を実現できる。

対話インタフェースは、ヒトの表情及び音声等の対話におけるヒトの行動に関連する情報を対話信号として取得し、対話信号から特徴量（対話特徴量）を算出し、その対話特徴量に基づいて、対話インタフェースを介して出力する表情及び音声を決定することによって、ヒトの共感を誘起する対話を実現する。

対話インタフェースに関する技術として、特許文献１に記載の技術が知られている。特許文献１には、「インタラクション状態量算出部は、ユーザの発話における話者交替潜時、発話区間のピッチ、パワーまたはモーラを含むインタラクション状態量を検出する。コミュニケーション同調制御部は、ユーザとロボットシステムとのコミュニケーション同調ずれ量を算出し、同調モデルを表す状態方程式による連続的な引き込み制御によりコミュニケーション同調ずれ量を最小化すると同時に、インタラクションルールによる離散的な引き込み制御により、ユーザのインタラクション状態量をロボットシステムのそれに近づけていく、または、ロボットシステムのインタラクション状態量をユーザのインタラクション状態量に近づけつつユーザのインタラクション状態量をロボットシステムのそれに近づけていく。」対話システムが開示されている。

特許文献１に記載の対話システムは、インタラクション状態量のずれ量を最小化することによって、持続的なコミュニケーションを実現している。

特開２０１２－１８１６９７号公報

しかし、発明者の実験によれば、対話インタフェース（対話ロボット）が、ずれ量を最小化するようなユーザの模倣を行っても、ユーザの共感を増強できない場合があることがわかった。具体的には、対話ロボットがユーザの発話に応じて頷きの動作を出力することによって発話量を増加できるが、ユーザの笑顔を抑制することがわかった。そのため、特許文献１の対話システムでは、ユーザの共感を誘起できない場合がある。

図１８Ａは、対話ロボットの頷き回数と発話中のユーザの笑顔回数との間の関係を評価したグラフである。

横軸は、対話ロボットの頷き回数を表している。縦軸は、ユーザの笑顔回数の変化を表す。当該変化は、ユーザの発話に応じて対話ロボットが頷き動作を出力した場合のユーザの笑顔回数から、ユーザが発話に応じて対話ロボットが頷き動作を出力しなかった場合のユーザの笑顔回数を減算した値（差）として算出される。

図１８Ａに示すように、発明者は、対話ロボットの頷き回数が多い場合、ユーザの笑顔回数が減る傾向があるという有意な負の相関関係を確認した。

図１８Ｂは、対話ロボットの頷き回数と発話中のユーザの笑顔時間との間の関係を評価したグラフである。

横軸は、対話ロボットの頷き回数を表している。縦軸は、ユーザの笑顔時間を表している。

図１８Ｂに示すように、発明者は、対話ロボットの頷き回数が多い場合、ユーザの笑顔時間が減る傾向があるという有意な負の相関関係を確認した。

これらの実験結果より、ユーザの発話に応じて頷きの動作を出力した場合、ユーザの笑顔を抑制する可能性があることがわかった。

ユーザの共感を効果的に誘起するためには、単に発話を促進し、ユーザの話しやすさを増強するだけでなく、話す楽しさも増強する必要がある。このような話しやすさと話す楽しさといった、ヒトの共感に影響する複数の特徴量（共感特徴量）を考慮して、対話インタフェースの出力を制御することが望ましい。

本発明は、ヒトの共感を効果的に誘起する対話インタフェースを実現する技術を提供することを目的とする。

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、ユーザと対話を行う対話インタフェースを提供する対話システムであって、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される接続デバイスを有する計算機と、前記ユーザの状態に関連する情報を取得する情報取得装置と、を備え、前記記憶装置は、前記対話インタフェースに対する前記ユーザの共感の程度を示す指標である第二特徴量の種別と、前記対話インタフェースが前記ユーザに対して行う応答行動の傾向を定義する傾聴パターンとを対応づけたデータを管理する傾聴パターン定義情報を格納し、前記演算装置は、前記情報取得装置が取得した情報に基づいて、前記ユーザの発話における状態変化を評価するための指標である第一特徴量を少なくとも一つ算出し、前記少なくとも一つの第一特徴量に基づいて、前記複数の第二特徴量を算出し、前記複数の第二特徴量の中からターゲット第二特徴量を選択し、前記傾聴パターン定義情報を参照して、前記ターゲット第二特徴量に対応する前記傾聴パターンを選択し、前記少なくとも一つの第一特徴量及び前記選択された傾聴パターンに基づいて前記対話インタフェースを制御するための出力情報を生成し、前記出力情報に基づいて、前記対話インタフェースを制御する。

本発明の一形態によれば、ユーザの共感を誘起し、持続的な対話を実現できる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

実施例１の対話システムの構成例を示す図である。実施例１の計算機の構成例を説明する図である。実施例１の対話信号情報のデータ構造の一例を示す図である。実施例１の対話特徴量情報のデータ構造の一例を示す図である。実施例１の共感特徴量情報のデータ構造の一例を示す図である。実施例１の発話情報のデータ構造の一例を示す図である。実施例１の傾聴パターン定義情報のデータ構造の一例を示す図である。実施例１の出力情報のデータ構造の一例を示す図である。実施例１の対話信号処理モジュールが実行する処理を説明するフローチャートである。実施例１の出力情報生成モジュールが実行する処理を説明するフローチャートである。実施例１の対話システムにおける共感特徴量の変化と傾聴パターンとの関係を説明する図である。実施例１の第１変形例の対話システムの構成例を示す図である。実施例２の対話システムの構成例を示す図である。実施例２の計算機が保持する感情信号情報のデータ構造の一例を示す図である。実施例２の計算機が保持する感情特徴量情報のデータ構造の一例を示す図である。実施例２の対話信号処理モジュールが実行する処理を説明するフローチャートである。実施例２の対話信号処理モジュールが実行する処理を説明するフローチャートである。実施例１、２の計算機に対する設定を行うためのＧＵＩの一例を示す図である。対話ロボットの頷き回数と発話中のユーザの笑顔回数との間の関係を評価したグラフである。対話ロボットの頷き回数と発話中のユーザの笑顔時間との間の関係を評価したグラフである。

以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。

以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。

本明細書等における「第１」、「第２」、「第３」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。

図面等において示す各構成の位置、大きさ、形状、及び範囲等は、発明の理解を容易にするため、実際の位置、大きさ、形状、及び範囲等を表していない場合がある。したがって、本発明では、図面等に開示された位置、大きさ、形状、及び範囲等に限定されない。

実施例１では、ユーザとの対話を実現する対話インタフェースを提供する計算機が、対話信号（対話情報）に基づいて対話特徴量を算出し、対話特徴量に基づいて共感特徴量を算出する。また、計算機は、共感特徴量に基づいて傾聴パターンを選択し、傾聴パターン及び対話特徴量に基づいて対話インタフェースの制御内容を定義する出力情報を生成する。対話インタフェースは、出力情報に基づいて所定の発話及び動作等の応答行動を行う。

ここで、実施例１における用語について説明する。

「対話信号」は、対話におけるユーザの行動に関連する情報（外部から把握可能なユーザの状態の情報）を含む信号である。例えば、眼、顔、身体、及びユーザの周囲の環境等の画像、音声、ユーザの身体の一部の加速度、並びに、瞳孔径等、ユーザに関する情報である。実施例１では、ユーザの眼球画像、顔画像、及び音声の３種類の情報が対話信号として取得される。

「対話特徴量」は、対話信号に基づいて算出される、ユーザの行動を評価するための指標（外部から把握可能なユーザの変化を評価するための指標）である。例えば、ユーザの視線、表情、及び発話量等が対話特徴量として算出される。

「共感特徴量」は、対話インタフェースに対するユーザの共感の程度を評価するための指標である。実施例１では、話しやすさを示す値及び話す楽しさを示す値が共感特徴量として算出される。

「傾聴パターン」は、対話インタフェースの傾聴のパターンである。ここで、「対話インタフェースの傾聴」は、対話インタフェースの応答行動の傾向を表す。実施例１では、積極的傾聴パターン及び消極的傾聴パターンの２種類の傾聴パターンが設定される。後述するように、計算機は、共感特徴量に基づいて傾聴パターンを選択する。積極的傾聴パターンは、対話インタフェースに対するユーザの「話しやすさ」を増強することを目的とした傾聴パターンである。消極的傾聴パターンは、対話インタフェースに対するユーザの「楽しさ」を増強することを目的とした傾聴パターンである。

「応答行動」は、対話インタフェースがユーザに対して行う行動であり、対話インタフェースを構成する表示装置に表示される人物画像又はロボットの動き及び発話等である。

図１は、実施例１の対話システムの構成例を示す図である。

計算機１００、対話信号取得装置１１０、１２０、及び対話出力装置１３０、１４０から構成される。

計算機１００は、対話信号を用いて出力情報２１６（図２参照）を生成し、出力情報２１６に基づいて対話出力装置１３０、１４０を制御する。計算機１００には、マウス、キーボード、タッチパネル等の入力装置１５０が接続される。

対話出力装置１３０、１４０は対話インタフェースとして機能する装置である。実施例１では、対話出力装置１３０は音声を再生するスピーカであり、対話出力装置１４０は所定の動作を行うロボットであるものとする。なお、対話出力装置１３０、１４０を一つの装置として実現してもよい。

対話信号取得装置１１０、１２０は、対話信号を取得する装置である。具体的には対話信号取得装置１１０は、画像を対話信号として取得し、対話信号取得装置１２０は、音声を対話信号として取得する。

なお、同一種類の対話信号を取得する対話信号取得装置が対話システムに複数含まれる場合、対話信号に対話信号取得装置の識別情報を含めてもよい。

なお、ユーザに装着する角度センサ及び加速度センサを対話信号取得装置として用いてもよい。当該センサが取得した値は、顔の向き及び身体の動きを算出するために用いることができる。

入力装置１５０は、外部信号を入力するための装置である。ここで、外部信号は、計算機１００を制御するため信号であって、対話信号を除いた信号を外部信号として扱う。

ここで、計算機１００のソフトウェア構成の概要について説明する。計算機１００は、対話信号処理モジュール１０１及び出力情報生成モジュール１０２を有し、また、情報群１０３を保持する。なお、計算機１００は、計算機１００が保持する情報及び計算機１００が生成する情報を提示する機能を実現するモジュールを有してもよい。

対話信号処理モジュール１０１は、出力情報２１６を生成するために用いる各種情報を算出する。具体的には、以下のような処理が実行される。

対話信号処理モジュール１０１は、対話信号から対話データを算出し、対話データに基づいて対話特徴量を算出する。対話信号処理モジュール１０１は、対話特徴量に基づいて共感特徴量を算出する。対話データに基づいて対話特徴量を算出するアルゴリズム、及び対話特徴量に基づいて共感特徴量を算出するアルゴリズムは予め設定されているものとする。

なお、対話特徴量及び共感特徴量の関係は、ユーザへの主観アンケートの調査結果等を用いた学習処理を実行することによって求めてもよい。この場合、計算機１００に機械学習を実行する学習モジュールを追加し、また、学習処理に使用するデータベースを用意する。当該データベースは、対話特徴量及び共感特徴量を対応づけたデータを格納する。データベースのデータ量が学習処理に必要なデータ量より小さい場合、対話システムは、データの収集又は作成をユーザに指示する機能を有してもよい。

対話信号処理モジュール１０１は、共感特徴量に基づいて傾聴パターンを選択する。共感特徴量に基づいて傾聴パターンを選択するアルゴリズムは予め設定されているものとする。また、対話信号処理モジュール１０１は、対話データに基づいてユーザの発話内容を解析し、解析結果に基づいて対話インタフェースから出力する発話内容を決定する。対話インタフェースから出力する発話内容を決定するアルゴリズムは予め設定されているものとする。

出力情報生成モジュール１０２は、対話特徴量、発話内容、及び傾聴パターンに基づいて出力情報２１６を生成し、出力情報２１６に基づいて対話インタフェースを制御する。

なお、本発明は対話データに基づいて対話特徴量を算出するアルゴリズムに限定されない。一種類の対話データに基づいて一種類の対話特徴量を算出するアルゴリズムでもよいし、複数種類の対話データに基づいて一種類の対話特徴量を算出するアルゴリズムでもよいし、また、一種類の対話データに基づいて複数種類の対話特徴量を算出するアルゴリズムでもよい。

なお、本発明は共感特徴量を算出するアルゴリズムに限定されない。一種類の対話特徴量に基づいて一種類の共感特徴量を算出するアルゴリズムでもよいし、複数種類の対話特徴量に基づいて一種類の共感特徴量を算出するアルゴリズムでもよいし、また、一種類の対話特徴量に基づいて複数種類の共感特徴量を算出するアルゴリズムでもよい。

なお、本発明は傾聴パターンを選択するアルゴリズムに限定されない。一種類の共感特徴量に基づいて傾聴パターンを選択するアルゴリズムでもよいし、複数種類の共感特徴量に基づいて傾聴パターンを選択するアルゴリズムでもよい。例えば、最も小さい共感特徴量を増強させるための傾聴パターンを選択するアルゴリズムが考えられる。

なお、本発明は対話インタフェースから出力する発話内容を決定するアルゴリズムに限定されない。

なお、図１では、一つの計算機１００が各モジュールを有しているが、複数の計算機に各モジュールを配置してもよい。また、図１では、対話信号取得装置１１０、１２０と計算機１００とを別々の装置として記載しているが、計算機１００が対話信号取得装置１１０、１２０を含んでもよい。

なお、計算機１００が有する各モジュールは、二つ以上のモジュールを一つのモジュールにまとめてもよいし、一つのモジュールを機能毎に複数のモジュールに分けてもよい。

図２は、実施例１の計算機１００の構成例を説明する図である。

計算機１００は、演算装置２０１、記憶装置２０２、入力インタフェース２０３、及び出力インタフェース２０４を有する。

演算装置２０１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）及びＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のハードウェアであり、記憶装置２０２に格納されるプログラムを実行する。演算装置２０１は、プログラムにしたがって動作することによって、所定のモジュールとして機能する。本実施例では、演算装置２０１は、対話信号処理モジュール１０１及び出力情報生成モジュール１０２として機能する。

記憶装置２０２は、メモリ等のハードウェアであり、演算装置２０１が実行するプログラム及び当該プログラムが使用する情報を格納する。また、記憶装置２０２はワークエリアを含む。記憶装置２０２に格納されるプログラム及び情報については後述する。なお、計算機１００は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）及びＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置を有してもよい。

入力インタフェース２０３は、対話信号及び外部信号の入力を受け付けるハードウェアである。ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）規格の接続線を介して信号を入力する装置と接続される場合、ＵＳＢ端子を有するインタフェースが入力インタフェース２０３になり、ネットワークを介して信号を入力する装置と接続される場合、ポートを有するインタフェースが入力インタフェース２０３となる。

出力インタフェース２０４は、各種情報を出力するハードウェアである。情報を出力する装置がディスプレイの場合、ＶＧＡ端子又はＨＤＭＩ端子（ＨＤＭＩは登録商標）等の端子を有するインタフェースが出力インタフェース２０４となり、情報を出力する装置がスピーカの場合、ＵＳＢ端子を有するインタフェースが出力インタフェース２０４となる。

ここで、記憶装置２０２に格納されるプログラム及び情報について説明する。記憶装置２０２は、対話信号処理モジュール１０１及び出力情報生成モジュール１０２を実現するプログラムを格納する。また、記憶装置２０２は、対話信号情報２１１、対話特徴量情報２１２、共感特徴量情報２１３、発話情報２１４、傾聴パターン定義情報２１５、及び出力情報２１６を格納する。

対話信号情報２１１は対話信号を管理する情報である。対話信号情報２１１のデータ構造の一例は図３を用いて説明する。対話特徴量情報２１２は対話特徴量を管理する情報である。対話特徴量情報２１２のデータ構造の一例は図４を用いて説明する。共感特徴量情報２１３は共感特徴量を管理する情報である。共感特徴量情報２１３のデータ構造の一例は図５を用いて説明する。発話情報２１４はヒトの発話内容を管理する情報である。発話情報２１４のデータ構造の一例は図６を用いて説明する。傾聴パターン定義情報２１５は傾聴パターンを管理する情報である。傾聴パターン定義情報２１５のデータ構造の一例は図７を用いて説明する。出力情報２１６は対話インタフェースを制御するための情報である。出力情報２１６のデータ構造の一例は図８を用いて説明する。

図３は、実施例１の対話信号情報２１１のデータ構造の一例を示す図である。

対話信号情報２１１は、ＩＤ３０１、信号名３０２、取得時間３０３、及びポインタ３０４から構成されるエントリを含む。一つのエントリが一つの対話信号に対応する。なお、エントリの構造は一例であってこれに限定されない。一部のフィールドが含まれていなくてもよいし、また、他のフィールドが含まれてもよい。

ＩＤ３０１は、対話信号情報２１１のエントリを一意に識別するための識別情報を格納するフィールドである。

信号名３０２は、対話信号の種別を示す情報を格納するフィールドである。例えば、信号名３０２には「画像信号」等が格納される。なお、同一種類の対話信号を取得する対話信号取得装置が対話システムに含まれる場合、信号名３０２には、どの対話信号取得装置が取得した対話信号かを区別できる値を格納してもよい。

取得時間３０３は、対話信号の取得時間を格納するフィールドである。取得時間３０３には、例えば、対話信号の取得の開始時間を基準とした時間が格納される。

ポインタ３０４は、取得された対話信号が格納される記憶領域のポインタを格納するフィールドである。

なお、ポインタ３０４の代わりに、取得された対話信号を格納するフィールドを設けてもよい。当該フィールドには、例えば、画像及び音声等が格納される。なお、当該フィールドには、画像を変換してられる座標及びＲＧＢ値の組合せ、並びに、正規化処理等が行われた音声が格納されてもよい。

なお、対話信号から複数の信号を抽出してもよい。例えば、対話信号が画像である場合、当該画像から眼球画像及び顔画像等を抽出し、対話信号情報２１１に各画像のエントリを追加してよい。眼球画像及び顔画像は、眼球及び顔に関する特徴量に基づいて抽出されてもよいし、画像の特徴量を用いた統計処理に基づいて抽出されてもよいし、また、画像の特徴量を識別器に入力することによって抽出されてもよい。

図４は、実施例１の対話特徴量情報２１２のデータ構造の一例を示す図である。

対話特徴量情報２１２は、ＩＤ４０１、参照ＩＤ４０２、対話特徴量種別４０３、及び対話特徴量４０４から構成されるエントリを含む。一つのエントリが一つの対話特徴量に対応する。なお、エントリの構造は一例であってこれに限定されない。一部のフィールドが含まれていなくてもよいし、また、他のフィールドが含まれてもよい。

ＩＤ４０１は、対話特徴量情報２１２のエントリを一意に識別するための識別情報を格納するフィールドである。

参照ＩＤ４０２は、対話特徴量の算出時に用いた対話信号の識別情報を格納するフィールドである。参照ＩＤ４０２にはＩＤ３０１の値が格納される。

対話特徴量種別４０３は、対話特徴量の種別を示す情報を格納するフィールドである。例えば、対話特徴量種別４０３には、「視線」、「顔の向き」、「身体の動き」、「表情」、及び「発話量」等が格納される。なお、対話特徴量には、種別とは別に識別番号が設定されているものとする。

対話特徴量４０４は、算出された対話特徴量を格納するフィールドである。

対話特徴量種別４０３が「視線」である場合、対話特徴量４０４にはユーザの視線の座標等が格納され、対話特徴量種別４０３が「顔の向き」である場合、対話特徴量４０４にはユーザの顔の傾け角度等が格納され、対話特徴量種別４０３が「身体の動き」である場合、対話特徴量４０４にはユーザの身体の移動量等が格納される。

ユーザの視線の座標は、空間上の任意の基準点を原点とする座標でもよいし、対話出力装置１４０の設置位置を原点とする座標でもよい。顔の傾け角度は、鼻尖及び顔の輪郭から算出された特徴点間の距離の変化又は左右差等に基づいて算出される。単位時間当たりの身体の移動量は、身体の輪郭から算出された特徴点の移動距離の総和等に基づいて算出される。

対話特徴量種別４０３が「表情」である場合、対話特徴量４０４には喜び、悲しみ、怒り、驚き等のユーザの表情の種別が格納される。ユーザの表情は、事前に用意したユーザの表情の画像と、取得したユーザの表情の画像との類似度に基づいて算出できる。また、ユーザの表情の種別は、眼、口、輪郭等の特徴点の位置又は特徴点間の距離の変化等に基づいて算出できる。

対話特徴量種別４０３が「発話量」である場合、対話特徴量４０４には単位時間当たりの発話エネルギー量等が格納される。単位時間当たりの発話エネルギー量は、ユーザの音声の一定時間当たりの音量等の値の二乗和等を用いて算出することができる。なお、発話の速度及び発話のリズム等が対話特徴量として算出されてもよい。また、発話内容に含まれる単語及び表現等に基づいて対話特徴量を算出してもよい。

なお、算出される対話特徴量は、共感特徴量の算出に用いるものに限定されない。応答行動を決定するために用いる対話特徴量が算出されてもよい。

なお、各対話特徴量を比較するために、最小値を０とし、最大値を１００とする規格化処理が行われた値が対話特徴量４０４に格納されてもよい。

図５は、実施例１の共感特徴量情報２１３のデータ構造の一例を示す図である。

共感特徴量情報２１３は、ＩＤ５０１、参照ＩＤ５０２、共感特徴量種別５０３、及び共感特徴量５０４から構成されるエントリを含む。一つのエントリが一つの共感特徴量に対応する。なお、エントリの構造は一例であってこれに限定されない。一部のフィールドが含まれていなくてもよいし、また、他のフィールドが含まれてもよい。

ＩＤ５０１は、共感特徴量情報２１３のエントリを一意に識別するための識別情報を格納するフィールドである。

参照ＩＤ５０２は、共感特徴量の算出時に用いた対話特徴量の識別情報を格納するフィールドである。参照ＩＤ５０２にはＩＤ４０１の値が格納される。

共感特徴量種別５０３は、共感特徴量の種別を示す情報を格納するフィールドである。本実施例の共感特徴量種別５０３には、「話しやすさ」及び「楽しさ」のいずれかが格納される。なお、共感特徴量には、種別とは別に識別番号が設定されているものとする。

共感特徴量５０４は、算出された共感特徴量を格納するフィールドである。

共感特徴量を算出する方法としては、対話特徴量を共感特徴量として算出する方法、及び、専門家が設定した計算式に基づいて算出する方法が考えられる。例えば、共感特徴量種別５０３が「話しやすさ」である場合、発話量に基づいて共感特徴量が算出され、共感特徴量種別５０３が「楽しさ」である場合、表情に基づいて共感特徴量が算出される。

また、複数の対話特徴量を用いて共感特徴量を算出する方法としては、各対話特徴量の和、又は、規格化された各対話特徴量の平均値を共感特徴量として算出する方法が考えられる。例えば、複数の対話特徴量に対する主成分分析から得られた第一主成分を「話しやすさ」の共感特徴量として算出し、第二主成分を「楽しさ」の共感特徴量として算出する。

なお、各共感特徴量を比較するために、最小値を０とし、最大値を１００とする規格化処理が行われた値が共感特徴量５０４に格納されてもよい。

図６は、実施例１の発話情報２１４のデータ構造の一例を示す図である。

発話情報２１４は、入力発話内容６０１及び参照ＩＤ６０２から構成されるエントリを含む。一つのエントリがユーザの発話内容に対応する。なお、エントリの構造は一例であってこれに限定されない。一部のフィールドが含まれていなくてもよいし、また、他のフィールドが含まれてもよい。

入力発話内容６０１は、音声に関する対話信号を分析することによって特定されたユーザの発話内容を格納するフィールドである。

参照ＩＤ６０２は、発話内容を特定するために用いた対話信号の識別情報を格納するフィールドである。参照ＩＤ６０２にはＩＤ３０１の値が格納される。

図７は、実施例１の傾聴パターン定義情報２１５のデータ構造の一例を示す図である。

傾聴パターン定義情報２１５は、ＩＤ７０１、共感特徴量種別７０２、及び傾聴パターン７０３から構成されるエントリを含む。一つのエントリが一つの共感特徴量及び傾聴パターンの組に対応する。なお、エントリの構造は一例であってこれに限定されない。一部のフィールドが含まれていなくてもよいし、また、他のフィールドが含まれてもよい。

ＩＤ７０１は、傾聴パターン定義情報２１５のエントリを一意に識別するための識別情報を格納するフィールドである。

共感特徴量種別７０２は、傾聴パターンの選択基準となる共感特徴量の識別情報を格納するフィールドである。

傾聴パターン７０３は、傾聴パターンを格納するフィールドである。実施例１の傾聴パターンは、対話インタフェースの応答行動における制御項目及び調整値の組から構成される。

共感特徴量及び傾聴パターンの組合せは、専門家が決定してもよいし、履歴を用いたロジスティック回帰分析及びサポートベクターマシン等のアルゴリズムに基づく機械学習により決定してもよい。また、傾聴パターンにおける制御項目及び調整値の組合せは、専門家が決定してもよいし、履歴を用いた機械学習に基づいて決定してもよい。

機械学習に基づいて前述の組合せを決定する場合、計算機１００に機械学習を実行する学習モジュールを追加し、また、機械学習に使用するデータベースを用意する。当該データベースは、傾聴パターン及び共感特徴量の変化量を対応づけたデータを格納する。共感特徴量の変化量は、傾聴パターンを用いた出力情報２１６に基づく応答処理の前後の共感特徴量を減算することによって算出できる。

データベースのデータ量が学習処理に必要なデータ量より小さい場合、対話システムは、データの収集又は作成をユーザに指示する機能を有してもよい。例えば、対話システムは、ユーザに対して過去に行った対話の記憶を想起するように指示し、特定の共感特徴量を変化させるために視覚刺激、聴覚刺激、及び嗅覚刺激等をユーザに与えて、傾聴パターン及び共感特徴量の変化に関するデータを取得してもよい。

なお、ユーザ単位で学習処理を実行することによって、ユーザ毎の傾聴パターンを生成することもできる。

機械学習によって生成された傾聴パターン定義情報２１５を用いることによって、ユーザの共感をより効果的に誘起し、より持続的な対話及び多情報の対話を実現できる。

図８は、実施例１の出力情報２１６のデータ構造の一例を示す図である。

出力情報２１６は、出力装置８０１、制御項目８０２、及び制御値８０３から構成されるエントリを含む。一つのエントリが一つの応答行動に対応する。なお、エントリの構造は一例であってこれに限定されない。一部のフィールドが含まれていなくてもよいし、また、他のフィールドが含まれてもよい。

出力装置８０１は、応答行動を行う対話出力装置１３０、１４０の識別情報を格納するフィールドである。実施例１では、対話特徴量及び傾聴パターンに基づいて対話出力装置１４０が制御され、発話内容に基づいて対話出力装置１３０が制御される。

制御項目８０２は、応答行動における対話インタフェースの制御対象を示す値を格納するフィールドである。例えば、ロボットの視線が制御対象である場合、制御項目８０２には「眼球」が格納され、ロボットの表情が制御対象である場合、制御項目８０２には「表情」が格納され、スピーカからの音声の出力が制御対象である場合、制御項目８０２には「発話内容」が格納され、スピーカから出力される音声の声調が制御対象である場合、制御項目８０２には「声調」が格納される。また、他の制御項目としては、発話の速度及びリズム等が考えられる。

制御値８０３は、制御項目８０２に対応する対話インタフェースの制御対象を制御するための値を格納するフィールドである。

なお、視線の移動に伴って音声を出力するための応答行動が行われてもよい。

図９は、実施例１の対話信号処理モジュール１０１が実行する処理を説明するフローチャートである。

対話信号処理モジュール１０１は、イベントが発生したか否かを判定する（ステップＳ１０１）。例えば、ユーザの動きが検出された場合、又は、ユーザの発話が検出された場合にイベントが発生したと判定される。また、ユーザが入力装置１５０を用いて処理の開始を指示した操作が行われた場合、対話信号処理モジュール１０１は、イベントが発生したと判定する。

イベントが発生していないと判定された場合、対話信号処理モジュール１０１は、イベントの発生まで待ち状態に移行する。

イベントが発生したと判定された場合、対話信号処理モジュール１０１は、対話信号取得装置１１０、１２０を介して対話信号を取得する（ステップＳ１０２）。

このとき、対話信号処理モジュール１０１は、取得した対話信号を記憶装置２０２に格納する。対話信号処理モジュール１０１は、対話信号情報２１１を初期化し、取得された対話信号の数だけ対話信号情報２１１にエントリを追加する。対話信号処理モジュール１０１は、追加されたエントリの各フィールドに値を設定する。

なお、対話信号処理モジュール１０１は、必要な対話信号が全て取得されるまで、ステップＳ１０２の処理を繰り返し実行してもよい。また、タイマを設定している場合には、対話信号処理モジュール１０１は、タイマが経過するまで対話信号の取得を継続してもよい。

なお、同一種類の対話信号を取得する対話信号取得装置が対話システムに複数含まれる場合、各対話信号取得装置の一定期間における対話信号の相関等を対話信号情報２１１に格納する対話信号として算出してもよい。

次に、対話信号処理モジュール１０１は、変数ｉを初期化する（ステップＳ１０３）。

具体的には、対話信号処理モジュール１０１は変数ｉに「１」を設定する。ここで、変数ｉは対話特徴量の識別番号を表す変数である。

次に、対話信号処理モジュール１０１は、変数ｉに対応する対話特徴量が発話に関する対話特徴量であるか否かを判定する（ステップＳ１０４）。

変数ｉに対応する対話特徴量が発話に関する対話特徴量であると判定された場合、対話信号処理モジュール１０１は、発話情報２１４を生成する（ステップＳ１０５）。具体的には、以下のような処理が実行される。

（処理Ａ１）対話信号処理モジュール１０１は、対話信号情報２１１から音声に対応する対話信号を取得する。対話信号処理モジュール１０１は、発話情報２１４にエントリを追加する。さらに、対話信号処理モジュール１０１は、参照ＩＤ６０２に、取得された対話信号の識別情報を設定する。

（処理Ａ２）対話信号処理モジュール１０１は、各対話信号に対して分析処理を実行することによって、音声をテキストデータに変換する。対話信号処理モジュール１０１は、テキストデータを入力発話内容６０１に設定する。

以上がステップＳ１０５の処理の説明である。

次に、対話信号処理モジュール１０１は、取得した対話信号に基づいて、変数ｉに対応する対話特徴量を算出する（ステップＳ１０６）。その後、対話信号処理モジュール１０１はステップＳ１０７に進む。ステップＳ１０４の判定結果がＹＥＳである場合、音声を用いた対話特徴量が算出される。

ステップＳ１０４において、変数ｉに対応する対話特徴量が発話に関する対話特徴量でないと判定された場合、対話信号処理モジュール１０１は、取得した対話信号に基づいて対話特徴量を算出する（ステップＳ１０６）。その後、対話信号処理モジュール１０１はステップＳ１０７に進む。ステップＳ１０４の判定結果がＮＯである場合、画像を用いた対話特徴量が算出される。ここで、画像を用いた対話特徴量の算出方法について説明する。

（処理Ｂ１）変数ｉに対応する対話特徴量が「視線」に関する対話特徴量である場合、対話信号処理モジュール１０１は、複数の画像（対話信号）の各々から眼球の画像を抽出する。対話信号処理モジュール１０１は、抽出された複数の画像を用いて、「視線」に関する対話特徴量を算出する。

（処理Ｂ２）対話信号処理モジュール１０１は、対話特徴量情報２１２にエントリを追加する。対話信号処理モジュール１０１は、追加されたエントリのＩＤ４０１に識別情報を設定し、参照ＩＤ４０２に眼球の画像の算出時に用いた画像の識別番号を設定する。また、対話信号処理モジュール１０１は、追加されたエントリの対話特徴量種別４０３に「視線」を設定し、対話特徴量４０４に算出された対話特徴量を設定する。

「顔の向き」に関する対話特徴量及び「身体の動き」に関する対話特徴量も同様の処理で算出される。ただし、「顔の向き」に関する対話特徴量を算出する場合には、（処理Ｂ１）において顔全体の画像が抽出され、「身体の動き」に関する対話特徴量を算出する場合には、（処理Ｂ１）において全身の画像が抽出される。以上が、画像を用いた対話特徴量の算出方法の説明である。

ステップＳ１０７では、対話信号処理モジュール１０１は、全ての対話特徴量の算出が完了したか否かを判定する（ステップＳ１０７）。

全ての対話特徴量の算出が完了していないと判定された場合、対話信号処理モジュール１０１は、変数ｉに「１」を加算し（ステップＳ１０８）、その後、ステップＳ１０４に戻る。

全ての対話特徴量の算出が完了したと判定された場合、対話信号処理モジュール１０１は、変数ｊを初期化する（ステップＳ１０９）。

具体的には、対話信号処理モジュール１０１は変数ｊに「１」を設定する。ここで、変数ｊは共感特徴量の識別番号を表す変数である。

次に、対話信号処理モジュール１０１は、変数ｊに対応する共感特徴量を算出する（ステップＳ１１０）。

このとき、対話信号処理モジュール１０１は、共感特徴量情報２１３にエントリを追加し、追加されたエントリのＩＤ５０１に識別情報を設定する。対話信号処理モジュール１０１は、追加されたエントリの参照ＩＤ５０２に共感特徴量を算出するために用いた対話特徴量に対応するエントリの識別情報を設定する。また、対話信号処理モジュール１０１は、追加されたエントリの共感特徴量種別５０３に名称を設定し、共感特徴量５０４に算出された共感特徴量を設定する。

次に、対話信号処理モジュール１０１は、全ての共感特徴量の算出が完了したか否かを判定する（ステップＳ１１１）。

全ての共感特徴量の算出が完了していないと判定された場合、対話信号処理モジュール１０１は、変数ｊに「１」を加算し（ステップＳ１１２）、その後、ステップＳ１１０に戻る。

全ての共感特徴量の算出が完了したと判定された場合、対話信号処理モジュール１０１は、共感特徴量及び傾聴パターン定義情報２１５に基づいて、傾聴パターンを選択する（ステップＳ１１３）。その後、対話信号処理モジュール１０１は出力情報生成モジュール１０２を呼び出し、処理を終了する。

「話しやすさ」に関する共感特徴量及び「楽しさ」に関する共感特徴量が算出されている場合、対話信号処理モジュール１０１は、以下のような処理を実行する。

対話信号処理モジュール１０１は、「話しやすさ」に関する共感特徴量及び「楽しさ」に関する共感特徴量を比較し、値が小さい方の共感特徴量をターゲット共感特徴量として選択する。対話信号処理モジュール１０１は、傾聴パターン定義情報２１５を参照し、共感特徴量種別７０２に、選択された共感特徴量の名称が設定されたエントリを選択する。

実施例１では、最も小さい共感特徴量を増強するための傾聴パターンが選択される。これによって、対話インタフェースは、ユーザの共感を効果的に誘起するための応答行動を行うことができる。

図１０は、実施例１の出力情報生成モジュール１０２が実行する処理を説明するフローチャートである。

出力情報生成モジュール１０２は、対話信号処理モジュール１０１から呼び出された場合、以下で説明する処理を開始する。

出力情報生成モジュール１０２は、出力情報２１６を生成する（ステップＳ２０１）。具体的には、以下のような処理が実行される。

（処理Ｃ１）出力情報生成モジュール１０２は、対話特徴量に基づいて、対話インタフェースの動作を制御するための制御値を算出する。例えば、出力情報生成モジュール１０２は、ユーザの動作を模倣するための制御値又はユーザの動作と相反する動作を行うための制御値を算出する。

（処理Ｃ２）出力情報生成モジュール１０２は、発話情報２１４の入力発話内容６０１に基づいてユーザに出力する発話内容（出力発話内容）を生成する。実施例１では、出力情報生成モジュール１０２は、ユーザの発話を促す発話内容又はユーザの発話に応答する発話内容を生成する。例えば、出力情報生成モジュール１０２は、ユーザの共感を共起するために、ユーザの発話内容に含まれる単語を含む発話内容を生成する。

出力発話内容を生成する方法としては、言語データベース等を用いる方法及び過去の発話内容の履歴を用いる方法等が考えられる。なお、出力発内容を生成する場合、出力情報生成モジュール１０２は、入力発話内容６０１とともに対話特徴量を参照してもよい。

（処理Ｃ３）出力情報生成モジュール１０２は、傾聴パターンに基づいて補正対象の制御項目の制御値を補正する。傾聴パターンに含まれる制御項目が補正対象の制御項目である。例えば、出力情報生成モジュール１０２は、視線に関する制御値に、傾聴パターンに含まれる視線の値を乗算することによって、視線に関する制御値を補正する。

（処理Ｃ４）出力情報生成モジュール１０２は、制御値及び出力発話内容を含む出力情報２１６を生成する。

以上がステップＳ２０１の処理の説明である。

次に、出力情報生成モジュール１０２は、出力情報２１６に基づいて対話インタフェースを制御することによって、応答行動を実行する（ステップＳ２０２）。

このとき、出力情報生成モジュール１０２は、前回生成された出力情報２１６の制御値と今回生成された出力情報２１６とを比較し、制御値の差が大きい制御項目については変化の程度が緩やかになるように対話インタフェースを制御してもよい。例えば、前回生成された出力情報２１６の頷きの制御値が０より大きく、かつ、今回生成された出力情報２１６の頷きの制御値が０である場合、出力情報生成モジュール１０２は、発話量に応じて頷きの動作の大きさを徐々に小さくし、又は、頷く頻度を徐々に低下させるように、対話インタフェースを制御する。

前回生成された出力情報２１６の任意の制御項目の制御値が、今回生成された出力情報２１６では０となっている場合、出力情報生成モジュール１０２は、前回生成された出力情報２１６の制御値に基づいて同じ応答行動を行うように対話インタフェースを制御してもよいし、任意の応答行動を行うように対話インタフェースを制御してもよい。

図１１は、実施例１の対話システムにおける共感特徴量の変化と傾聴パターンとの関係を説明する図である。

ここでは、対話信号処理モジュール１０１は、「話しやすさ」に関する共感特徴量及び「楽しさ」に関する共感特徴量を比較し、値が小さい方の共感特徴量をターゲット共感特徴量として選択するものとする。

図１１は、「楽しさ」に関する共感特徴量が縦軸、「話しやすさ」に関する共感特徴量が横軸となる共感特徴量空間に対応するグラフを示す。

グラフ（Ａ）では、特徴量空間におけるユーザの状態はポイント１１０１であるものとする。この場合、「楽しさ」に関する共感特徴量がターゲット共感特徴量として選択される。したがって、対話信号処理モジュール１０１は積極的傾聴パターンを選択する。積極的傾聴パターンに基づく対話インタフェースの制御によって、「楽しさ」に関する共感特徴量が増加する。例えば、ユーザの状態はポイント１１０１からポイント１１０２に示すように変化する。

積極的傾聴パターンに基づく対話インタフェースの制御によって、グラフ（Ｂ）に示すような共感特徴量の関係に変化した場合、対話信号処理モジュール１０１は、「話しやすさ」に関する共感特徴量をターゲット共感特徴量として選択する。したがって、対話信号処理モジュール１０１は消極的傾聴パターンを選択する。消極的傾聴パターンに基づく対話インタフェースの制御によって、「話しやすさ」に関する共感特徴量が増加する。例えば、ユーザの状態はポイント１１０２からポイント１１０３に示すように変化する。

消極的傾聴パターンに基づく対話インタフェースの制御によって、グラフ（Ｃ）に示すような共感特徴量の関係に変化した場合、対話信号処理モジュール１０１は、「楽しさ」に関する共感特徴量をターゲット共感特徴量として選択する。したがって、対話信号処理モジュール１０１は積極的傾聴パターンを選択する。積極的傾聴パターンに基づく対話インタフェースの制御によって、「楽しさ」に関する共感特徴量が増加する。例えば、ユーザの状態はポイント１１０３からポイント１１０４に示すように変化する。

実施例１の対話システムによれば、計算機１００は、傾聴パターンに基づいて対話インタフェースの制御内容を決定し、当該制御内容に基づいて対話インタフェースを制御することによって、ユーザの共感を効果的に誘起し、持続的な対話及び多情報の対話を実現できる。

（実施例１の第１変形例）
専用の対話信号取得装置１１０、１２０と、対話インタフェースを実現する専用の対話出力装置１３０、１４０を用いなくても同様の対話システムを実現できる。例えば、対話信号取得装置１１０、１２０及び対話出力装置１３０、１４０と同等の機能を有するスマートフォン及びタブレット端末を用いればよい。この場合、スマートフォン及びタブレット端末には、対話インタフェースを実現するためのソフトウェアがインストールされる。

図１２は、実施例１の第１変形例の対話システムの構成例を示す図である。

図１２に示す対話システムは、計算機１００及びスマートフォン１２００から構成される。スマートフォン１２００は、無線通信を用いて計算機１００と接続する。

スマートフォン１２００は、カメラ１２０１、ディスプレイ１２０２、マイク１２０３、スピーカ１２０４、及びボタン１２０５を有する。また、スマートフォン１２００は、図示しない演算装置、記憶装置、及び通信装置を有する。

カメラ１２０１及びマイク１２０３は、対話信号取得装置１１０、１２０として機能する。ディスプレイ１２０２に表示される画像１２１０及びスピーカ１２０４は、対話出力装置１３０、１４０として機能する。

また、スマートフォン１２００が計算機１００の機能及び情報を含むように構成してもよい。

（実施例１の第２変形例）
対話インタフェースの応答行動における制御項目及び調整値の組を傾聴パターンとして設定していたが、これに限定されない。制御項目及び算出フラグの組を傾聴パターンとして設定してもよい。算出フラグは、制御項目の制御値を算出するか否かを示すフラグである。例えば、制御項目の制御値を算出する場合、算出フラグを「１」とし、制御項目の制御値を算出しない場合、算出フラグを「０」とする。

この場合、ステップＳ２０１の処理内容が一部異なる。

（処理Ｃ’１）出力情報生成モジュール１０２は、傾聴パターンに基づいて制御値を算出する制御項目を特定する。出力情報生成モジュール１０２は、対話特徴量に基づいて、特定された制御項目の制御値を算出する。

（処理Ｃ’２）出力情報生成モジュール１０２は、発話情報２１４の入力発話内容６０１に基づいてユーザに出力する発話内容（出力発話内容）を生成する。

（処理Ｃ’３）出力情報生成モジュール１０２は、制御値及び出力発話内容を含む出力情報２１６を生成する。

傾聴パターンに基づいて制御値を算出する制御項目を絞り込むことができるため、出力情報２１６の生成に要する計算コストを削減することができる。

実施例２は、感情信号（感情情報）から算出される感情特徴量を用いて共感特徴量を算出する点が異なる。以下、実施例１との差異を中心に実施例２について説明する。

ここで、実施例２における用語について説明する。

「感情信号」は、ユーザの感情に関連する情報（外部から把握できないユーザの状態の情報）を含む信号である。例えば、感情信号は、脳波信号及び脳血流信号等の脳活動を評価するための信号、並びに、心拍動間隔及び発汗量等の自律神経活動を評価するための信号等の生体信号である。

「感情特徴量」は、ユーザの感情変化を評価するための指標（外部から把握できないユーザの変化を評価するための指標）である。例えば、生体信号が感情信号として取得される場合、心電図から算出される心拍数、及び脳波から算出されるＰ３００振幅等の事象関連電位等の生体特徴量が感情特徴量として算出される。また、感情信号からユーザの心理状態を示す値を算出し、当該値の変化量に基づいて感情特徴量を算出できる。ユーザの心理状態を示す値の変化量に基づいた生体特徴量は、例えば、現在の心拍数が安静時の心拍数より大きい場合大きい値となり、現在の心拍数が安静時の心拍数より小さい場合小さい値となる。

なお、感情信号に基づいて感情特徴量を算出するアルゴリズムは予め設定されているものとする。

図１３は、実施例２の対話システムの構成例を示す図である。

実施例２の対話システムは感情信号を取得する感情信号取得装置１３０１、１３０２を含む。感情信号取得装置１３０１は、脳波及び脳波血流等を示す生体信号を取得する。感情信号取得装置１３０１は、例えば、近赤外分光装置である。感情信号取得装置１３０２は、心拍等を示す生体信号を取得する。感情信号取得装置１３０２は、例えば、心電計である。

実施例２の情報群１０３は、感情信号情報１４００及び感情特徴量情報１５００を含む。

図１４は、実施例２の計算機１００が保持する感情信号情報１４００のデータ構造の一例を示す図である。

感情信号情報１４００は、ＩＤ１４０１、信号名１４０２、取得時間１４０３、及びポインタ１４０４から構成されるエントリを含む。一つのエントリが一つの感情信号に対応する。

ＩＤ１４０１は、感情信号情報１４００のエントリを一意に識別するための識別情報を格納するフィールドである。

信号名１４０２は、感情信号の種別等を識別するための情報を格納するフィールドである。実施例２では、感情信号を取得した取得装置の名称が信号名１４０２に格納される。なお、感情信号に含まれるデータの種別が格納されてもよい。

取得時間１４０３は、感情信号の取得時間を格納するフィールドである。取得時間１４０３には、例えば、感情信号の取得の開始時間を基準とした時間が格納される。

ポインタ１４０４は、取得された感情信号が格納される記憶領域のポインタを格納するフィールドである。なお、ポインタ１４０４の代わりに、取得された感情信号を格納するフィールドを設けてもよい。

図１５は、実施例２の計算機１００が保持する感情特徴量情報１５００のデータ構造の一例を示す図である。

感情特徴量情報１５００は、ＩＤ１５０１、参照ＩＤ１５０２、感情特徴量種別１５０３、及び感情特徴量１５０４から構成されるエントリを含む。一つのエントリが一つの感情特徴量に対応する。

ＩＤ１５０１は、感情特徴量情報１５００のエントリを一意に識別するための識別情報を格納するフィールドである。

参照ＩＤ１５０２は、感情特徴量の算出時に用いた感情信号の識別情報を格納するフィールドである。参照ＩＤ１５０２にはＩＤ１４０１の値が格納される。

感情特徴量種別１５０３は、感情特徴量の名称を格納するフィールドである。感情特徴量種別１５０３には、例えば、「心拍数」等が格納される。なお、感情特徴量には、名称とは別に識別番号が設定されているものとする。

感情特徴量１５０４は、算出された感情特徴量を格納するフィールドである。

なお、各感情特徴量を比較するために、最小値を０とし、最大値を１００とする規格化処理が行われた値が感情特徴量１５０４に格納されてもよい。例えば、単位時間あたりの心拍数が安静時の心拍数の２倍以上であれば１００、単位時間あたりの心拍数が安静時の心拍数以下であれば０となるような変換が考えられる。

なお、同一種類の感情信号を取得する感情信号取得装置が複数存在する場合、例えば、各感情信号から算出された感情特徴量の平均値が感情特徴量１５０４に格納される。

図１６Ａ及び図１６Ｂは、実施例２の対話信号処理モジュール１０１が実行する処理を説明するフローチャートである。

ステップＳ１０１、ステップＳ１０３からステップＳ１０８の処理は実施例１と同一である。

ステップＳ１０２では、対話信号処理モジュール１０１は、対話信号取得装置１１０から対話信号を取得し、感情信号取得装置１３０１、１３０２から感情信号を取得する（ステップＳ１０２）。

ステップＳ１０７の判定結果がＹＥＳである場合、対話信号処理モジュール１０１は、変数ｋを初期化する（ステップＳ１５１）。

具体的には、対話信号処理モジュール１０１は変数ｋに「１」を設定する。ここで、変数ｋは感情特徴量の識別番号を表す変数である。

次に、対話信号処理モジュール１０１は、取得した感情信号に基づいて、変数ｋに対応する感情特徴量を算出する（ステップＳ１５２）。

次に、対話信号処理モジュール１０１は、全ての感情特徴量の算出が完了したか否かを判定する（ステップＳ１５３）。

全ての感情特徴量の算出が完了していないと判定された場合、対話信号処理モジュール１０１は、変数ｋに「１」を加算し（ステップＳ１５４）、その後、ステップＳ１５２に戻る。

全ての感情特徴量の算出が完了したと判定された場合、対話信号処理モジュール１０１は、ステップＳ１０９に進む。ステップＳ１０９、及びステップＳ１１１からステップＳ１１３までの処理は実施例１と同一である。

ステップＳ１１０では、対話信号処理モジュール１０１は、感情特徴量に基づいて共感特徴量を算出する。なお、感情特徴量に基づいて共感特徴量を算出するアルゴリズムは予め設定されているものとする。

なお、対話信号及び感情信号が一致してもよい。また、対話特徴量が感情特徴量と一致してもよい。

なお、対話信号及び感情信号は別々に取得されているが、対話信号から感情信号を抽出してもよい。この場合、対話システムには感情信号取得装置１３０１、１３０２が含まれない。例えば、対話信号から眼球画像が抽出された場合、計算機１００は、ユーザの瞳孔の径（瞳孔径）を用いて、自律神経活動の変化を評価する値を算出できる。

なお、対話特徴量及び感情特徴量を組み合わせに基づいて、傾斜パターンを選択するアルゴリズムも採用することができる。

実施例２の対話システムによれば、計算機１００は、ユーザの感情変化を評価するための指標である感情特徴量に基づいて傾聴パターンを選択できる。これによって、ユーザの共感を効果的に誘起し、持続的な対話及び多情報の対話を実現できる。

実施例３では、各実施例において、計算機１００に対する設定を行うためのＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）について説明する。

図１７は、実施例１、２の計算機１００に対する設定を行うためのＧＵＩの一例を示す図である。

図１７に示すＧＵＩ１７００は、情報の設定を行うためのＧＵＩであり、対話特徴量設定欄１７１０、感情特徴量設定欄１７２０、共感特徴量設定欄１７３０、傾聴パターン設定欄１７４０、学習処理設定欄１７５０、選択アルゴリズム設定欄１７６０、及び保存ボタン１７７０を含む。

対話特徴量設定欄１７１０は、対話特徴量を設定するための欄であり、設定数表示欄１７１１、ラジオボタン１７１２、及び設定フィールド群１７１３を含む。対話特徴量設定欄１７１０に値を入力することによって、算出する対話特徴量を計算機１００に設定できる。

設定数表示欄１７１１は、設定された対話特徴量の種類の数を表示する欄である。

ラジオボタン１７１２は、対話特徴量を設定する場合に操作されるボタンである。ラジオボタン１７１２を操作することによって、設定フィールド群１７１３への入力が可能となる。

設定フィールド群１７１３は、対話信号の種別及び対話特徴量の種別を設定するフィールドを含む。なお、設定フィールド群１７１３には他のフィールドが含まれてもよい。

感情特徴量設定欄１７２０は、感情特徴量を設定するための欄であり、設定数表示欄１７２１、ラジオボタン１７２２、及び設定フィールド群１７２３を含む。感情特徴量設定欄１７２０に値を入力することによって、算出する感情特徴量を計算機１００に設定できる。

設定数表示欄１７２１は、設定された感情特徴量の種類の数を表示する欄である。

ラジオボタン１７２２は、感情特徴量を設定する場合に操作されるボタンである。ラジオボタン１７２２を操作することによって、設定フィールド群１７２３への入力が可能となる。

設定フィールド群１７２３は、感情信号の種別及び感情特徴量の種別を設定するフィールドを含む。なお、設定フィールド群１７２３には他のフィールドが含まれてもよい。

共感特徴量設定欄１７３０は、共感特徴量を設定するための欄であり、設定数表示欄１７３１、ラジオボタン１７３２、及び設定フィールド群１７３３を含む。共感特徴量設定欄１７３０に値を入力することによって、算出する共感特徴量を計算機１００に設定できる。

設定数表示欄１７３１は、設定された共感特徴量の種類の数を表示する欄である。

ラジオボタン１７３２は、共感特徴量を設定する場合に操作されるボタンである。ラジオボタン１７３２を操作することによって、設定フィールド群１７３３への入力が可能となる。

設定フィールド群１７３３は、共感特徴量の種別を設定するフィールド、共感特徴量の算出に使用する特徴量の種別を設定するフィールド、及び追加ボタンを含む。追加ボタンは、共感特徴量の算出に使用する特徴量の種別を設定するフィールドを追加するための操作ボタンである。

なお、設定フィールド群１７３３には他のフィールドが含まれてもよい。共感特徴量の算出に使用する特徴量としては、対話特徴量及び共感特徴量のいずれかが設定される。なお、複数の対話特徴量を設定してもよいし、複数の感情特徴量を設定してもよい。また、対話特徴量及び感情特徴量を組み合わせてもよい。

傾聴パターン設定欄１７４０は、傾聴パターンを設定するための欄であり、設定数表示欄１７４１、ラジオボタン１７４２、及び設定フィールド群１７４３を含む。傾聴パターン設定欄１７４０に値を入力することによって、傾聴パターン定義情報２１５を計算機１００に設定できる。

設定数表示欄１７４１は、設定された傾聴パターンの数を表示する欄である。

ラジオボタン１７４２は、傾聴パターンを設定する場合に操作されるボタンである。ラジオボタン１７４２を操作することによって、設定フィールド群１７４３への入力が可能となる。

設定フィールド群１７４３は、制御項目及び制御値を設定するためのフィールド、並びに、追加ボタンを含む。追加ボタンはフィールドを追加するための操作ボタンである。

学習処理設定欄１７５０は、傾聴パターンの学習方法を設定する欄であり、設定表示欄１７５１及び設定ラジオボタン群を含む。学習処理設定欄１７５０に値を入力することによって、学習方法を設定できる。

図１７では、学習データの有無を選択するラジオボタン、及び使用する学習データを選択するラジオボタンが含まれる。設定表示欄１７５１には、設定ラジオボタン群の操作結果が表示される。

選択アルゴリズム設定欄１７６０は、傾聴パターンを選択するアルゴリズムを選択する欄である。選択アルゴリズム設定欄１７６０には、アルゴリズムを入力する欄が含むまれる。図１７ではプルダウン形式の欄が表示される。

保存ボタン１７７０は、各設定欄の入力を保存する場合に操作されるボタンである。

なお、傾聴パターン設定欄１７４０が操作されている場合、学習処理設定欄１７５０の操作ができないように制御される。また、学習処理設定欄１７５０が操作されている場合、傾聴パターン設定欄１７４０が制御できないように制御される。

ＧＵＩ１７００を用いることによって、特徴量、傾聴パターン、傾聴パターンの選択方法等を設定するために必要な情報を容易に設定でき、また、設定した値の確認及び変更が容易にできる。

なお、ＧＵＩ１７００は、表示モード及び編集モードを切り替えるボタンを含んでもよい。なお、図１７に示すＧＵＩ１７００は一例であり、これに限定されるものではない。

特許請求の範囲に記載した以外の発明の観点の代表的なものとして、次のものがあげられる。
（１）ユーザとの対話を行う対話インタフェースを提供する対話システムの制御方法であって、
前記対話システムは、演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される接続インタフェースを有する計算機と、前記ユーザの状態に関連する情報を取得する情報取得装置と、を含み、
前記記憶装置は、前記対話インタフェースに対する前記ユーザの共感の程度を示す指標である第二特徴量の種別と、前記対話インタフェースの対話における応答行動の傾向を定義する傾聴パターンとを対応づけたデータを管理する傾聴パターン定義情報を格納し、
前記対話システムの制御方法は、
前記演算装置が、前記情報取得装置が取得した情報に基づいて、前記ユーザの発話における状態変化を評価するための指標である第一特徴量を少なくとも一つ算出する第１のステップと、
前記演算装置が、前記少なくとも一つの第一特徴量に基づいて、前記複数の第二特徴量を算出する第２のステップと、
前記演算装置が、前記複数の第二特徴量の中から、ターゲット第二特徴量を選択する第３のステップと、
前記演算装置が、前記傾聴パターン定義情報を参照して、前記ターゲット第二特徴量に対応する前記傾聴パターンを選択する第４のステップと、
前記演算装置が、前記少なくとも一つの第一特徴量及び前記選択された傾聴パターンに基づいて前記対話インタフェースを制御するための出力情報を生成する第５のステップと、
前記演算装置が、前記出力情報に基づいて、前記対話インタフェースを制御する第６のステップと、を含むことを特徴とする対話システムの制御方法。
（２）（１）に記載の対話システムの制御方法であって、
前記第３のステップは、前記演算装置が、前記複数の第二特徴量の値の大きさに基づいて前記ターゲット第二特徴量を選択するステップを含むことを特徴とする対話システムの制御方法。
（３）（１）に記載の対話システムの制御方法であって、
前記第５のステップは、
前記演算装置が、前記第一特徴量に基づいて、前記対話インタフェースの複数の制御項目の各々の制御値を算出するステップと、
前記演算装置が、前記傾聴パターンに基づいて少なくとも一つの前記制御項目の前記制御値を補正するステップと、
前記演算装置が、前記複数の制御項目の制御値を含む前記出力情報を生成するステップと、を含むことを特徴とする対話システムの制御方法。
（４）（１）に記載のプログラムであって、
前記第５のステップは、
前記演算装置が、前記傾聴パターンに基づいて、前記対話インタフェースの複数の制御項目の中から制御対象の制御項目を特定するステップと、
前記演算装置が、前記第一特徴量に基づいて、前記特定された制御項目の制御値を算出するステップと、
前記演算装置が、前記特定された制御項目の制御値を含む前記出力情報を生成するステップと、を含むことを特徴とする対話システムの制御方法。
（５）（１）に記載の対話システムの制御方法であって、
前記傾聴パターンは、前記ターゲット第二特徴量を変化させるために応答行動を実現するための前記インタフェースの複数の制御項目及び調整値から構成されることを特徴とする対話システムの制御方法。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｐｙｔｈｏｎ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

１００計算機
１０１対話信号処理モジュール
１０２出力情報生成モジュール
１１０、１２０対話信号取得装置
１３０、１４０対話出力装置
１５０入力装置
２０１演算装置
２０２記憶装置
２０３入力インタフェース
２０４出力インタフェース
２１１対話信号情報
２１２対話特徴量情報
２１３共感特徴量情報
２１４発話情報
２１５傾聴パターン定義情報
２１６出力情報
１２００スマートフォン
１２０１カメラ
１２０２ディスプレイ
１２０３マイク
１２０４スピーカ
１２０５ボタン
１２１０画像
１３０１、１３０２感情信号取得装置
１４００感情信号情報
１５００感情特徴量情報
１７００ＧＵＩ

Claims

ユーザと対話を行う対話インタフェースを提供する対話システムであって、
演算装置、前記演算装置に接続される記憶装置、及び前記演算装置に接続される接続デバイスを有する計算機と、前記ユーザの状態に関連する情報を取得する情報取得装置と、を備え、
前記記憶装置は、前記対話インタフェースに対する前記ユーザの共感の程度を示す指標である第二特徴量の種別と、前記対話インタフェースが前記ユーザに対して行う応答行動の傾向を定義する傾聴パターンとを対応づけたデータを管理する傾聴パターン定義情報を格納し、
前記演算装置は、
前記情報取得装置が取得した情報に基づいて、前記ユーザの発話における状態変化を評価するための指標である第一特徴量を少なくとも一つ算出し、
前記少なくとも一つの第一特徴量に基づいて、前記複数の第二特徴量を算出し、
前記複数の第二特徴量の中からターゲット第二特徴量を選択し、
前記傾聴パターン定義情報を参照して、前記ターゲット第二特徴量に対応する前記傾聴パターンを選択し、
前記少なくとも一つの第一特徴量及び前記選択された傾聴パターンに基づいて前記対話インタフェースを制御するための出力情報を生成し、
前記出力情報に基づいて、前記対話インタフェースを制御することを特徴とする対話システム。
請求項１に記載の対話システムであって、
前記演算装置は、前記複数の第二特徴量の値の大きさに基づいて前記ターゲット第二特徴量を選択することを特徴とする対話システム。
請求項１に記載の対話システムであって、
前記演算装置は、
前記少なくとも一つの第一特徴量に基づいて、前記対話インタフェースの複数の制御項目の制御値を算出し、
前記傾聴パターンに基づいて少なくとも一つの前記制御項目の制御値を補正し、
前記複数の制御項目の制御値を含む前記出力情報を生成することを特徴とする対話システム。
請求項１に記載の対話システムであって、
前記演算装置は、
前記傾聴パターンに基づいて、前記対話インタフェースの複数の制御項目の中から制御対象の制御項目を特定し、
前記少なくとも一つの第一特徴量に基づいて、前記特定された制御項目の制御値を算出し、
前記特定された制御項目の制御値を含む前記出力情報を生成することを特徴とする対話システム。
請求項１に記載の対話システムであって、
前記傾聴パターンは、任意の第二特徴量を変化させる前記応答行動を実現するための前記対話インタフェースの複数の制御項目及び調整値から構成されることを特徴とする対話システム。
ユーザと対話を行う対話インタフェースを提供する装置であって、
演算装置、前記演算装置に接続される記憶装置、及び前記ユーザの状態に関連する情報を取得する情報取得装置を備え、
前記記憶装置は、前記対話インタフェースに対する前記ユーザの共感の程度を示す指標である第二特徴量の種別と、前記対話インタフェースが前記ユーザに対して行う応答行動の傾向を定義する傾聴パターンとを対応づけたデータを管理する傾聴パターン定義情報を格納し、
前記装置は、
前記情報取得装置が取得した情報に基づいて、前記ユーザの発話における状態変化を評価するための指標である第一特徴量を少なくとも一つ算出し、
前記少なくとも一つの第一特徴量に基づいて、前記複数の第二特徴量を算出し、
前記複数の第二特徴量の中からターゲット第二特徴量を選択し、
前記傾聴パターン定義情報を参照して、前記ターゲット第二特徴量に対応する前記傾聴パターンを選択し、
前記少なくとも一つの第一特徴量及び前記選択された傾聴パターンに基づいて前記対話インタフェースを制御するための出力情報を生成し、
前記出力情報に基づいて、前記対話インタフェースを制御することを特徴とする装置。
請求項６に記載の装置であって、
前記複数の第二特徴量の値の大きさに基づいて前記ターゲット第二特徴量を選択することを特徴とする装置。
請求項６に記載の装置であって、
前記少なくとも一つの第一特徴量に基づいて、前記対話インタフェースの複数の制御項目の制御値を算出し、
前記傾聴パターンに基づいて少なくとも一つの前記制御項目の制御値を補正し、
前記複数の制御項目の制御値を含む前記出力情報を生成することを特徴とする装置。
請求項６に記載の装置であって、
前記傾聴パターンに基づいて、前記対話インタフェースの複数の制御項目の中から制御対象の制御項目を特定し、
前記少なくとも一つの第一特徴量に基づいて、前記特定された制御項目の制御値を算出し、
前記特定された制御項目の制御値を含む前記出力情報を生成することを特徴とする装置。
請求項６に記載の装置であって、
前記傾聴パターンは、任意の第二特徴量を変化させる前記応答行動を実現するための前記対話インタフェースの複数の制御項目及び調整値から構成されることを特徴とする装置。
ユーザと対話を行う対話インタフェースを提供する計算機に実行させるためのプログラムであって、
前記計算機は、
演算装置、前記演算装置に接続される記憶装置、及び前記ユーザの状態に関連する情報を取得する情報取得装置を有し、
前記対話インタフェースに対する前記ユーザの共感の程度を示す指標である第二特徴量の種別と、前記対話インタフェースが前記ユーザに対して行う応答行動の傾向を定義する傾聴パターンとを対応づけたデータを管理する傾聴パターン定義情報を保持し、
前記プログラムは、
前記情報取得装置が取得した情報に基づいて、前記ユーザの発話における状態変化を評価するための指標である第一特徴量を少なくとも一つ算出する第１の手順と、
前記少なくとも一つの第一特徴量に基づいて、前記複数の第二特徴量を算出する第２の手順と、
前記複数の第二特徴量の中からターゲット第二特徴量を選択する第３の手順と、
前記傾聴パターン定義情報を参照して、前記ターゲット第二特徴量に対応する前記傾聴パターンを選択する第４の手順と、
前記少なくとも一つの第一特徴量及び前記選択された傾聴パターンに基づいて前記対話インタフェースを制御するための出力情報を生成する第５の手順と、
前記出力情報に基づいて、前記対話インタフェースを制御する第６の手順と、を前記計算機に実行させることを特徴とするプログラム。
請求項１１に記載のプログラムであって、
前記第３の手順は、前記複数の第二特徴量の値の大きさに基づいて前記ターゲット第二特徴量を選択する手順を含むことを特徴とするプログラム。
請求項１１に記載のプログラムであって、
前記第５の手順は、
前記少なくとも一つの第一特徴量に基づいて、前記対話インタフェースの複数の制御項目の制御値を算出する手順と、
前記傾聴パターンに基づいて少なくとも一つの前記制御項目の制御値を補正する手順と、
前記複数の制御項目の制御値を含む前記出力情報を生成する手順と、を含むことを特徴とするプログラム。
請求項１１に記載のプログラムであって、
前記第５の手順は、
前記傾聴パターンに基づいて、前記対話インタフェースの複数の制御項目の中から制御対象の制御項目を特定する手順と、
前記少なくとも一つの第一特徴量に基づいて、前記特定された制御項目の制御値を算出する手順と、
前記特定された制御項目の制御値を含む前記出力情報を生成する手順と、を含むことを特徴とするプログラム。