JP5930946B2

JP5930946B2 - 対話状態推定装置、対話状態推定方法、およびプログラム

Info

Publication number: JP5930946B2
Application number: JP2012252982A
Authority: JP
Inventors: 史朗熊野; 大塚　和弘; 和弘大塚; 昌史松田; 淳司大和
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-11-19
Filing date: 2012-11-19
Publication date: 2016-06-08
Anticipated expiration: 2032-11-19
Also published as: JP2014102606A

Description

この発明は、複数の対話者間の共感状態を推定する対話状態推定技術に関する。

対面での対話は、情報の伝達や共有、他者の気持ちの理解、意思決定などを行う際の最も基本的な形態のコミュニケーションである。しかし、うまく対話を行うことは必ずしも容易なことではなく、意思疎通における些細な齟齬から対人関係を損じることも少なくない。そのため、機械を介した対話や対話エージェントといった情報技術による対話の質や効率の改善が望まれている。これを実現するためには、表情やジェスチャといった対話者の行動を認識するのみならず、対話二者間の感情状態を含む対話状態なども理解する必要がある。自動対話分析の研究も行動の自動認識から始まったが、近年ではこれらの推定へと移行してきている。

対話の状態を理解するために重要なのは、対話の状態によってどのような行動が表出され、それがどのように相手に受け止められて共有されるかという、相互作用の過程に焦点を当てることである。例えば感情推定であれば、従来研究の多くは、この相互作用を考慮せずに一人の人物のみに注目し、その人物がどのような感情を抱いているのかを推定しようとしてきた。

人が他者の対話状態を推定する際には二種類の手掛かりを利用していると考えられる。静的な手掛かりと動的な手掛かりである。静的な手掛かりとは、どのような行動がどれ程の強さで表出されているか、それらが二者の間でどのように組み合わさっているかといった情報である。動的な手掛かりとは、二者がどのような時間差で行動を表出しあっているかの情報である。一人の人物のみに注目する場合とは異なり、対話者はお互いに感情を伝えるためにリズムよく行動を表出し合うため、この動的な手掛かりに注目することも重要である。しかし、この二者間の相互作用のダイナミクスと、そのときの外部観察者の対話状態の解釈との関わりをモデル化し、それに基づき対話状態の解釈を推定する技術は存在しなかった。

関連研究として、心理学分野においては、以前より笑顔や怒りの顔画像といった感情を喚起する刺激が与えられたときに、その受け手となる人の顔にどのような反応が現れるのかについての研究が行われてきた。例えば、刺激となる顔画像に対して受け手の表情が無意識的に表出される場合には瞬時に行われるのに対し、意図的に異なる表情を表出しようとすると表出までに時間を要することが確認されている。また、受け手の無意識的な表情は、刺激となる人物すなわち与え手と、その刺激に対して反応する人物すなわち受け手との間の人間関係に依存することも確認されている。例えば、二者が協調的な関係にあれば、与え手の行動に同調した受け手の反応（例えば笑顔に対して笑顔）が返される傾向が強いのに対して、競合的な関係であれば反対の反応（例えば笑顔に対してしかめ面）が返される傾向が強いとされている。要するに、行動の一致／不一致およびその応答時間と二者間の関係には深い関係がある。

対話二者間の共感／反感を自動で推定する技術として、対話している二者の共感／反感が外部観察者の集団からどのように解釈されるかを推定することが提案されている（特許文献１および非特許文献１参照）。非特許文献１では、外部観察者毎に解釈が異なることをコミュニケーションの必然と考え、外部観察者集団の中での解釈のばらつき、すなわち、共感／反感／どちらでもない、の3状態それぞれの得票率を推定するという問題を設定している。非特許文献１では対話二者間での表情が瞬間的にどのように組み合わさっているのかという静的な表情の共起関係を利用して、外部観察者の解釈を推定している。

特開２０１２−１８５７２７号公報

熊野史朗, 大塚和弘, 三上弾, 大和淳司, "複数人対話を対象とした表情と視線に基づく共感／反感の推定モデルとその評価", 電子情報通信学会技術報告，ヒューマンコミュニケーション基礎研究会, HCS 111(214), pp. 33-38，2011.

しかしながら、非特許文献１に記載された従来技術では、頭部ジェスチャや対話者の発話の有無といった他の行動チャネルや、タイミングについてのモデル化は行っておらず、特に、二者のうちの一者が首を傾げたり、微笑みに対して遅れて微笑んだりといった反感に見えやすい場面について正しい推定が困難であった。

この発明の目的は、外部観察者から見て、対話中の二者が共感しているかどうかという対話状態を推定することである。特に、従来モデル化できていなかった、様々な行動チャネルを介した二者間の相互作用や、一人の人物の行動表出という働きかけに対する相手の反応時間によって変化する共感解釈を正しく推定することである。つまり、様々な行動チャネルと行動の時間差および一致性に基づく対話二者間の共感解釈を精度よく推定することができる対話状態推定技術を提供することである。

上記の課題を解決するために、この発明の対話状態推定装置は、複数の対話者の頭部を撮影した映像を入力とし、映像中の対話者の行動を検出して時系列にラベル付けした行動時系列を出力する行動認識部と、複数の対話者の頭部を撮影した学習用映像を入力として行動認識部が出力した学習用行動時系列と、学習用映像に基づいて共感解釈を時系列にラベル付けした学習用共感解釈時系列とに基づいて、行動の時間差と行動の一致性とに基づく共感解釈の尤度を表すタイミングモデルを含むモデルパラメタを学習するパラメタ学習部と、複数の対話者の頭部を撮影した推定用映像を入力として行動認識部が出力した推定用行動時系列に基づいて、モデルパラメタを用いて推定用映像中の対話者間の共感解釈を推定する事後確率推定部とを含む。

この発明の対話状態推定技術によれば、外部観察者から見える対話二者間の共感性の状態を推定することができるようになる。特に、瞬時の対話二者間の行動の組み合わせに着目する静的モデルのみを使用した場合と比べ、それらの行動がどの程度の時間差で一致するか不一致であるかというタイミングに関わるモデルを導入することにより推定精度が向上する。

対話状態推定装置の機能構成を例示する図。パラメタ学習部の機能構成を例示する図。学習フェーズの処理フローを例示する図。推定フェーズの処理フローを例示する図。時間差関数を説明する図。対話者の行動と共感解釈の時間差を説明する図。変化タイミング関数を説明する図。変化タイミング関数の有効範囲を説明する図。変化タイミング関数の有効範囲を説明する図。実験結果を説明する図。

［発明の概要］
実施形態の説明に先立ち、この発明の概要について説明する。

＜発明のポイント＞
この発明の対話状態推定技術における一番のポイントは、対話二者間での与え手の行動表出とそれに対する受け手の反応表出との間での行動の時間差と、対話二者間でそれらの行動が一致しているか否かを示す一致性によって、その二者を見た外部観察者がその対話の状態をどう解釈するのかを確率的にモデル化したことである。この背後にあるのは、外部観察者が二者の間の対話状態を解釈する際に、人が相手の働きかけに対してどのように反応するかというこれまでに得られている心理学分野の知見を、意識的あるいは無意識的に利用しているであろうという仮説である。このモデルにより、対話二者の行動の時系列が与えられたときに、外部観察者の集団が各時刻において共感状態をどう解釈するのかの得票率が推定できる。

例えば、一方の対話者が微笑み、他方の対話者もその微笑みに対する反応として微笑みを返すという場面において、反応の微笑みが迅速に行われれば、外部観察者にはその反応が自発的で両者は共感などの肯定的な関係にあると見えやすい。一方で、反応の微笑みが少し遅れれば、外部観察者にはその反応はわざとらしく両者は反感などの否定的な関係にあると見えやすい。さらに、外部観察者の共感の解釈は、微笑みに対して微笑みを返すというように行動が一致しているのか、微笑みに対して苦笑を返すというように行動が不一致なのかによっても影響を受ける。この発明では、このような対話二者間の行動の時間差と行動の一致性という関係を確率的にモデル化する。

この発明のもう一つのポイントは、様々な行動チャネルについて、瞬間的な対話二者間の行動の組み合わせと外部観察者の共感解釈との間の関係性をモデル化したことである。行動チャネルとは対話者の行動の種類である。例えば特許文献１では、行動チャネルとして対話者の表情と視線のみをモデル化しているが、この発明では頭部ジェスチャや発話有無など他の任意の行動チャネルをモデル化することが可能である。これにより、例えば与え手の微笑みに対して受け手が頷づいたり首を傾げたりするような場面に対して外部観察者が共感や反感を解釈するような場合にも、共感解釈をより精度よく推定できるようになる。

［実施形態］
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜構成＞
図１を参照して、この実施形態の対話状態推定装置１の構成例について説明する。対話状態推定装置１は入力部１０と行動認識部２０と共感解釈付与部３０とパラメタ学習部４０と事後確率推定部５０と出力部６０と学習用映像記憶部７０と推定用映像記憶部７２とモデルパラメタ記憶部７４とを備える。学習用映像記憶部７０と推定用映像記憶部７２は、例えば、ＲＡＭ（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリなどの半導体メモリ素子により構成される補助記憶装置、などにより構成することができる。モデルパラメタ記憶部７４は、学習用映像記憶部７０と同様に構成してもよいし、リレーショナルデータベースやキーバリューストアなどのミドルウェア、などにより構成してもよい。

図２を参照して、この実施形態のパラメタ学習部４０の構成例について説明する。パラメタ学習部４０は事前分布学習部４２とタイミングモデル学習部４４と静的モデル学習部４６とを備える。

＜学習フェーズ＞
図３を参照して、対話状態推定装置１の学習フェーズにおける動作例を説明する。

入力部１０へ学習用映像が入力される（ステップＳ１１）。学習用映像は、複数の人物が対話する状況を撮影した映像であり、少なくとも対話者の頭部が撮影されていなければならない。学習用映像の撮影は、各対話者について一台のカメラを用意して、複数のカメラにより撮影した映像を多重化した映像でもよいし、魚眼レンズを用いるなどした全方位カメラ一台で対話者全員を撮影した映像であってもよい。入力された学習用映像は学習用映像記憶部７０に記憶される。

行動認識部２０は学習用映像記憶部７０に記憶されている学習用映像を入力として、学習用映像に撮影された各対話者の行動として、表情、視線、頭部ジェスチャ、発話有無などを検出し、その結果生成された対話者の行動の時系列を出力する（ステップＳ２１）。この実施形態では、表情、視線、頭部ジェスチャ、および発話有無の4つの行動チャネルを認識対象とする。表情は、感情を表す主要な経路である。この実施形態では、無表情／微笑／哄笑／苦笑／思考中／その他、の6状態を対象とする。視線は、感情を誰に伝えようとしているのか、また他者の行動を観察していることを表している。この実施形態では、他者のうちの誰か一人（状態数は対話者の数）／誰も見ていない、を対象とする。表情と視線の認識方法は、特許文献１もしくは非特許文献１に記載の方法を用いればよい。頭部ジェスチャは、しばしば他者の意見に対する態度の表明として表出される。この実施形態では、なし／頷き／首ふり／傾げ／これらの組み合わせ、の4状態を対象とする。頭部ジェスチャの認識方法は、周知のいかなる方法も用いることができる。例えば「江尻康, 小林哲則, “対話中における頭部ジェスチャの認識”, 電子情報通信学会技術研究報告, PRMU2002-61, pp.31-36, Jul.2002.（参考文献１）」に記載の方法を用いればよい。発話有無は、話し手／聞き手という対話役割の主要な指標となる。この実施形態では、発話／沈黙、の2状態を対象とする。発話有無の認識方法は、映像中の音声パワーを検出してあらかじめ定めた閾値を超えた場合に発話していると判断すればよい。もしくは映像中の対話者の口元の動きを検出することで発話の有無を検出してもよい。それぞれの行動は一台の装置ですべて認識してもよいし、行動ごとに別々の装置を用いて認識しても構わない。例えば、表情の認識であれば、行動認識装置の一例として「特許４９４２１９７号公報（参考文献２）」を使用すればよい。なお、行動認識部２０は、共感解釈付与部３０と同様に人手によるラベル付けを行い、その結果を出力するとしても構わない。

共感解釈付与部３０は学習用映像記憶部７０に記憶されている学習用映像に基づいて複数の外部観察者が共感解釈をラベル付けした学習用共感解釈時系列を出力する（ステップＳ３０）。学習用共感解釈時系列は、学習用映像を複数の外部観察者に提示して、各時刻における対話二者間の共感解釈を外部観察者が人手によりラベル付けした時系列である。この実施形態では、二者間の対話状態として、共感／反感／どちらでもない、の3状態を対象とする。二者間の対話状態とは、同調圧力（自分とは異なる同じ意見を大勢の他者が持っているときにそれに従わなければならないと感じること）に深く関わり、合意形成や人間関係を構築する上での基本要素である。また、外部観察者が解釈するこれらの状態のことをまとめて共感解釈と呼ぶ。すなわち、この実施形態における対話状態解釈とは共感解釈である。

行動認識部２０の出力する学習用行動時系列と共感解釈付与部３０の出力する学習用共感解釈時系列とはパラメタ学習部４０に入力される。パラメタ学習部４０は、外部観察者の共感解釈と対話者の行動とを関連付けるモデルパラメタを学習する。モデルパラメタは、対話者間の共感解釈の事前分布と、対話者間の行動の時間差と対話者間の行動の一致性とに基づく共感解釈の尤度を表すタイミングモデルと、対話者間の行動の共起性に基づく共感解釈の尤度を表す静的モデルとを含む。

パラメタ学習部４０の備える事前分布学習部４２は、学習用共感解釈時系列を用いて事前分布を学習する（ステップＳ４２）。パラメタ学習部４０の備えるタイミングモデル学習部４４は、学習用行動時系列と学習用共感解釈時系列とを用いてタイミングモデルを学習する（ステップＳ４４）。パラメタ学習部４０の備える静的モデル学習部４６は、学習用行動時系列と学習用共感解釈時系列とを用いて静的モデルを学習する（ステップＳ４６）。得られたモデルパラメタはモデルパラメタ記憶部７４に記憶される。

＜＜モデルの概要＞＞
この実施形態のモデルについて詳述する。この実施形態では、外部観察者が与える共感解釈は対話二者の組み合わせ毎に独立であることを仮定する。よって、以下では対話者が二人のみの場合を想定する。なお、対話者が三人以上の場合には、それぞれの対話二者の組み合わせのみに注目して学習と推定を行えばよい。

この実施形態では、対話者の行動の時系列Bが与えられたときの各時刻tでの外部観察者の共感解釈eの事後確率分布P(e_t|B)を、ナイーブベイズモデルを用いてモデル化し、その推定を行う。ナイーブベイズモデルは従属変数（ここでは共感解釈）と各説明変数（ここでは各対話者の行動）との間の確率的依存関係が説明変数間で独立であることを仮定する。ナイーブベイズモデルはシンプルであるにも関わらず多くの分野で高い推定性能を示すことが確認された優れたモデルである。この発明においてナイーブベイズモデルを用いる利点は二つある。一つは、行動チャネル間の全ての共起（例えば、表情、視線、頭部ジェスチャ、および発話有無の全てが同時に発生した状態）をモデル化しないため、過学習を避けやすいという点である。これは、対象とする変数空間に対して学習サンプルが少ない場合に特に有効である。もう一つは、観測情報としての行動チャネルの追加や削除が容易という点である。

この実施形態におけるナイーブベイズモデルでは、事後確率分布P(e_t|B)は式（１）のように定義される。

ここで、P(dt_t ^b|c_t ^b,e_t)はタイミングモデルであり、時刻tの周辺で行動チャネルbについて二者間の行動が時間差dt_t ^bで一致性c_t ^bであるときに外部観察者の共感解釈がeとなる尤度を表す。一致性cとは、二者間で行動が一致しているか否かを表す二値状態のことであり、対話二者の行動のカテゴリが同じか否かで判断する。P(b_t,e_t)は静的モデルであり、時刻tのその瞬間において行動チャネルbが対話二者間でどう共起しているのかをモデル化している。これら二つのモデルについては以下で順に説明する。P(e_t)は共感解釈eの事前分布であり、行動を考えないときに各共感解釈eがどれくらいの確率で生成されるかを表す。

＜＜タイミングモデル＞＞
この実施形態における行動チャネルbについてのタイミングモデルは式（２）のように定義される。

式（２）から明らかなように、このタイミングモデルは、対話二者の行動間の時間差がdtでありその一致性がcであるときの共感解釈eの尤度を表す時間差関数P(dt~_t ^b|c_t ^b,e_t)と、その相互作用の近辺で共感解釈eがどのタイミングで変化するかを表す変化タイミング関数π_tから構成されている。

なお、この実施形態では、それぞれの行動チャネルについてその行動チャネル内で二者間のタイミングモデルを構築したが、行動チャネル間のモデルを構築しても構わない。例えば、表情と頭部ジェスチャとの間の時間差dtと一致性cと、共感解釈eとの関係をモデル化することができる。ただしこの場合は、一致性cを決める際に各行動チャネルについて、例えば、肯定的／中立的／否定的といった、異なる行動チャネルの間でも一致性cを判断できるカテゴリ群を新たに導入する必要がある。これらのカテゴリについては、映像から行動チャネルを検出する際に認識してもよいし、一旦行動チャネルごとに異なるカテゴリ群で認識しておいて、表情が微小なら肯定的といったようにそれらのラベルを後から肯定的／中立的／否定的に分類し直しても構わない。

＜＜時間差関数＞＞
時間差関数P(dt~_t ^b|c_t ^b,e_t)は、対話二者間の行動が行動チャネルbにおいて一致しているか否かを示す一致性cとその時間差dtによって共感解釈eがどの種類となりやすいかの尤度を表す。この実施形態では、外部観察者の共感解釈の時系列をヒストグラム化した際のビン番号dt~_t ^bを使用している。ビンサイズについては例えば200ミリ秒とする。

図３にこの実施形態の時間差関数の一例を表す。時間差関数P(dt~_t ^b|c_t ^b,e_t)は対話者の行動の一致性cと時間差のビン番号dt~_t ^bとにより共感解釈eの尤度を決定する。図３（Ａ）は対話者間の行動が一致する場合の時間差関数の一例であり、図３（Ｂ）は対話者間の行動が不一致の場合の時間差関数の一例である。例えば、対話者間の行動が一致する場合に、与え手の行動表出から受け手の反応表出の時間差が500ミリ秒であった場合には、共感解釈eが「共感」である尤度が約0.3、「どちらでもない」である尤度が約0.2、「反感」である尤度が約0.5となる。時間差関数は外部観察者がラベル付けした共感解釈の時系列を時間差ビン単位で集計し、共感解釈eのカテゴリ毎にすべての時間差ビンにおける尤度の総和が1となるように正規化することで求める。

＜＜変化タイミング関数＞＞
変化タイミング関数πはどのタイミングで共感解釈eが変化するかを表す。別の見方をすると、変化タイミング関数πは時間差関数がどの範囲にわたってどの程度の強さで式（１）における共感解釈eの推定に寄与するかを決定する。

この実施形態では変化タイミング関数を式（３）のようにモデル化する。

ここで、t_aは対象の相互作用における与え手の行動表出開始の時刻を表す。また、時刻t'は与え手の行動表出開始の時刻をt'=0とし、受け手の反応表出開始時刻をt'=1としたときの相互作用中での相対時間を表し、t'=(t-t_a)/dtとして計算される。

π=0は、式（１）で表される事後確率分布P(e_t|B)において、タイミングモデルP(dt_t ^b|c_t ^b,e_t)が全く寄与しないことを表す。π=1は、事後確率分布P(e_t|B)において、タイミングモデルP(dt_t ^b|c_t ^b,e_t)が完全に寄与することを表す。

条件dt>Lは、与え手の行動表出に対して受け手の反応表出が遅すぎることを表す。例えば、この実施形態では閾値Lを2秒とする。これは、話し手の語彙的に重要なフレーズに対する聞き手の表情表出がおよそ500〜2,500ミリ秒の範囲で起こるという研究結果を参考にした値であり、どの行動チャネルにおいても概ねこの範囲に収まるという仮定に基づく。上記の研究結果についての詳細は、「G. R. Jonsdottir, J. Gratch, E. Fast, and K. R. Thorisson, “Fluid semantic back-channel feedback in dialogue: Challenges & progress”, International Conference Intelligent Virtual Agents (IVA), pp. 154-160, 2007.（参考文献３）」を参照されたい。

条件t-t_a>Wは、時刻tがそれ以前の直近で表出された与え手の表情表出からの時間経過が長いことを意味する。対話二者間でお互いに行動を表出して相互作用が行われると、それから一定の間は外部観察者の共感解釈がそのタイミングに影響を受けるが、その後しばらく次の相互作用が行われなければその影響はなくなるということをモデル化したものである。閾値Wは正の値であればどのような値でもよく、二者対話のように対象の二者間で絶えず相互作用が発生する場合には無限大としても問題無い。しかし、大人数での対話で主に一人が話しているといった状況で、その中のある二人の聞き手の間での相互作用といったように、必ずしも相互作用が頻繁とは限らない場合には閾値Wが長すぎる場合も考えられる。この実施形態では経験的に閾値Wを4秒とする。これは、閾値Wを4秒付近に設定した場合に推定精度が最も高くなったという実験結果に基づくものである。

図６に共感解釈、与え手の行動表出、および受け手の反応表出の一例を示す。図６の塗りつぶしパターンは行動もしくは共感解釈のカテゴリの違いを表す。αとβの値については例えばα=0.2、β=0.8と設定する。これらの値は後述する実験において、式（３）の変化タイミング関数πが累積確率を最も近似するように定めたものである。

図７に変化タイミング関数πの一例を示す。グラフ上にプロットした点は、実際に女性4名の対話グループ4つ（計16名）の対話データに対して計9名の外部観察者が与えた共感解釈のラベルおいて、そのラベルが相対時刻t'中のどこで変化したかの累積確率を表す。この変化タイミング関数によってよく近似できていることが見て取れる。但し、αとβはこの値に限らなくてもよく、α+β=1、0≦α≦1、0≦β≦1を満たすようにする。簡単な設定としては，「α=0、β=1」でもかまわない。

図８，９は変化タイミング関数の有効範囲の一例を模式的に表した図である。黒の塗りつぶしは行動が検出されていない状態、白の塗りつぶしと斜めのハッチングは行動のカテゴリを表している。共感解釈の縦のハッチングは共感であること、横のハッチングは反感であることを表している。図８（Ａ）は対話者間の行動が一致した場合についての有効範囲を表している。与え手の行動と受け手の反応が一致しているため「共感」が閾値Wの間だけ継続している。図８（Ｂ）は対話者間の行動が不一致であった場合についての有効範囲を表している。与え手の行動と受け手の反応が不一致であるため「反感」が閾値Wの間だけ継続している。図８（Ｃ）は与え手の行動表出に対して受け手の反応表出が遅すぎる、すなわちdt>Lであるために変化タイミング関数が有効範囲外となっている状況を表している。この場合は全体を通して「どちらでもない」状態が継続している。図９は対話二者が交互に行動を表出したときの有効範囲である。基本的な考え方は図８（Ａ）〜（Ｃ）と同様である。

＜＜静的モデル＞＞
静的モデルP(b_t|e_t)は、時刻tに行動チャネルbについて対話二者間で特定の行動が共起した場合に、共感解釈eがどの程度の尤度で生成されるかをモデル化したものである。

モデル化の方法は、表情と視線については特許文献１および非特許文献１にて提案されているため、これらの文献の記載に従えばよく、対話二者間の視線状態のモデルと、その視線状態毎の表情の状態との共起のモデルとを組み合わせればよい。ここで、二者間の視線状態とは、例えば、相互凝視／片側凝視／相互そらし、の3状態が考えられる。

頭部ジェスチャについての静的モデルはP(g|e)で表される。ここで、gは二者間での頭部ジェスチャの組み合わせ状態を表す。対象とする頭部ジェスチャの状態数をN_gとすると、二者間での頭部ジェスチャの組み合わせの状態数はN_g×N_gとなる。カテゴリとして任意の種類と数を対象としても構わないが、数が多すぎると学習サンプル数が少ない場合に過学習に陥りやすい。その場合は、最初に用意したカテゴリをさらにクラスタリングによりグルーピングしても構わない。例えば、その方法の一つとしてSequential Backward Selection (SBS)が挙げられる。例えば頭部ジェスチャのカテゴリを対象とする場合、頭部ジェスチャのみを用いた推定、すなわち事後確率をP(e|B):=P(e)P(g'|e)として、すべてのカテゴリから推定精度が最高になるように選択した二つのカテゴリを統合して一つにまとめる。これを推定精度が悪化する直前まで繰り返すことで一つずつカテゴリ数を減らしていけばよい。ここで、g’はグルーピング後における二者間での頭部ジェスチャの組み合わせ状態である。発話有無についても頭部ジェスチャと同様に二者間の共起をモデル化する。

＜＜モデルの学習方法＞＞
この実施形態では、いずれのモデルについても離散状態として記述されているため、学習フェーズではその離散状態が学習サンプル中に何回出現したかの頻度を取り、最後にその頻度を正規化（確率化）すればよい。

このとき、モデルを準備する方針として、モデルパラメタの学習に使用する学習用映像に撮影された対話者の集団と、対話状態を推定したい推定用映像に撮影された対話者の集団が同一であれば、対話二者毎にそれぞれ独立にパラメタを学習し、ある対話二者についての推定にはその対話二者のデータから学習したパラメタを用いるとすればよい。他方、学習用映像に撮影された対話者の集団と、推定用映像に撮影された対話者の集団が異なる場合には、対話二者を区別せずに一つのモデルを学習し、その一つのモデルを使用して推定したい対話二者についての推定を行えばよい。

＜推定フェーズ＞
図４を参照して、対話状態推定装置１の推定フェーズにおける動作例を説明する。

入力部１０へ推定用映像が入力される（ステップＳ１２）。推定用映像は、複数の人物が対話する状況を撮影した映像であり、少なくとも対話者の頭部が撮影されていなければならない。また、推定用映像は学習用映像とは異なる未知の映像である。推定用映像の撮影方法は上述の学習フェーズにおける学習用映像の撮影方法と同様である。入力された推定用映像は推定用映像記憶部７２に記憶される。

行動認識部２０は推定用映像記憶部７２に記憶されている推定用映像を入力として、推定用映像に撮影された各対話者の行動として、表情、視線、頭部ジェスチャ、発話有無などを検出し、その結果生成された対話者の行動の時系列Bを出力する（ステップＳ２２）。行動の認識方法は上述の学習フェーズにおける行動の認識方法と同様であるので、ここでは説明を省略する。

行動認識部２０の出力する推定用行動時系列Bは事後確率推定部５０に入力される。事後確率推定部５０は、モデルパラメタ記憶部７４に記憶されているモデルパラメタを用いて、推定用行動時系列Bから時刻tにおける対話者間の共感解釈の事後確率分布P(e_t|B)を推定する（ステップＳ５０）。事後確率推定部５０は、推定用映像に基づいて生成された対話者の行動の時系列Bと、パラメタ学習部４０で学習した事前分布とタイミングモデルと静的モデルの各パラメタを含むモデルパラメタとを入力として、上記の式（１）に従って、時刻tにおける共感解釈eの事後確率分布P(e_t|B)を計算する。

出力部６０は、対話者間の共感解釈eの事後確率分布P(e_t|B)を出力する（ステップＳ６０）。共感解釈の推定結果を確率分布ではなく一つの種類として出力する必要がある場合には、事後確率が最も高い共感解釈の種類、すなわちe~_t=argmaxP(e_t|B)を対話状態値e~_tとして併せて出力すればよい。

＜実験結果＞
この発明の効果を確認するために実験を行った。対話者4名によって、二者択一の議題に対してグループで一つの意見を決めるという合意形成型の対話を対象とした。初対面かつ同年代(20代〜30代)の女性計16名を4つの対話グループに分け、全10対話74分間の対話映像を評価データとして使用した。すべての対話はIEEE1394カメラを用いてフレームレート30fpsにて撮影された。外部観察者は20代〜30代の日本人女性9名が参加した。全員がお互いとも対話者16名とも面識がなかった。行動の時系列は、1名の外部観察者が、映像中の各対話者について、表情、視線、頭部ジェスチャ、および発話有無をフレーム単位でラベル付けした。

9名の外部観察者のうち5名は全10対話について共感解釈のラベル付けを行い、4名は4対話についてのみラベル付けを行った。ラベル付けはフレーム単位で行い、フレームの時間解像度は映像と等しく30fpsとした。ただし、フレーム毎に解釈をしてラベル付けするのではなく、まず映像を再生して共感解釈が変化するフレームを抽出し、そのフレームで区切られる区間中のすべてのフレームに同一のラベルを付与させた。

図３，１０に実験結果を示す。図３は、与え手の表情表出と受け手の表情表出の相互作用について、正規化された外部観察者の共感解釈の頻度を、0〜1,200ミリ秒までの時間差dtについて示している。時間差のビンサイズは200ミリ秒としている。図３（Ａ）は与え手の表情と受け手の表情が一致する場合であり、図３（Ｂ）は与え手の表情と受け手の表情が不一致の場合である。図３（Ａ）に示す通り、対話二者の表情が一致する場合、表情表出の時間差が300ミリ秒であれば「共感」あるいは「どちらでもない」と解釈されやすい。一方、500〜700ミリ秒の時間差では「共感」とは解釈されにくい。また、図３（Ｂ）に示す通り、対話二者の表情が不一致の場合、300ミリ秒の時間差では「反感」と感じやすい。一方、500〜700ミリ秒の時間差では「共感」「反感」「どちらでもない」の間に大きな違いは見られない。図１０（Ａ）にこれらの結果をまとめた。外部観察者の共感解釈は対話二者間の行動の時間差と一致性に深く関連していることがわかる。

図１０（Ｂ）に対話状態推定装置１を用いて推定された事後確率分布P(e_t|B)を、外部観察者の集団による共感解釈の分布、すなわち得票率と比較することで定量的に評価した結果を示す。行動の時系列Bについては上記の通り、1名の外部観察者がラベル付けした結果を既知の情報として用いた。ここでは、未知の対話グループに対してどの程度正しく推定できるかを評価するために、leave-one-conversation-group-outクロス検定を行った。

二つの分布の間の類似を測る尺度として、分布間の重なり合う部分の面積overlap area (OA)を用いる。OAは完全に正しい推定のときに1となり、最悪の場合には0となる。ここでは、OAをフレーム平均と分布タイプ平均について算出した。分布タイプとは、正解の分布（得票率）の形状のことである。ここでは、共感優勢(Type 1 (Emp-dom))、どちらでもない優勢(Type 2 (Nei-dom))、反感優勢(Type 3 (Ant-dom))、共感劣勢(Type 4 (Emp-inf))、どちらでもない劣勢(Type 5 (Nei-inf))、反感劣勢(Type 6 (Ant-inf))、および拮抗(Type 7 (Flat))の７種類を対象とした。分布タイプに関する詳細は、「S. Kumano, K. Otsuka, D. Mikami, M. Matsuda and J. Yamato, “Understanding communicative emotions from collective external observations”, Proc. CHI ’12 extended abstracts on Human factors in computing systems, pp. 2201-2206, 2012.（参考文献４）」を参照されたい。

図１０（Ｂ）に、全フレームに対する平均OAを、参考文献４に記載された従来のモデル（表中では「従来手法(F+X)」）と、タイミングモデルなしのモデル（表中では「提案NB(F+X+G+U)」）と、タイミングモデルありのモデル（表中では「提案NB(F+X+G+U+Ft)」）とを併せて示す。各モデルの括弧内の記号は推定に使用する要素の種類を表しており、Fは表情、Xは視線、Gは頭部ジェスチャ、Uは発話有無、Ftは表情タイミングである。従来手法と提案NBとの比較から、頭部ジェスチャと発話有無の静的モデルの導入が、フレーム平均および分布タイプ平均の両方の推定精度向上に寄与していることがわかる。また、提案NB(F+X+G+U)と提案NB(F+X+G+U+Ft)との比較から、タイミングモデルの導入により、反感優勢分布(Ant-dom)についての推定精度を向上させていることがわかる。

＜効果＞
この発明により推定される共感解釈の事後分布などの結果によって期待される効果は以下のようなものである。まず、推定される共感解釈の事後確率分布P(e_t|B)は、ある一人の外部観察者に対象の二者の対話映像を提示した際に、それぞれの種類の共感解釈（ここでは、共感／どちらでもない／反感、の3種類）を抱く確率である。あるいは、外部観察者が複数の場合は、彼らが与える各共感解釈の種類の得票率を表す。対話状態値e_tはある一人の外部観察者がどう解釈するかの推定結果である。事後確率分布P(e_t|B)がばらついた分布となっているほど、その対話の場面を観察した人物（例えば、その対話中の傍参与者（話し手でもなく、話し手が直接語りかけている聞き手でもない人物））の間で共感解釈が異なる可能性が高いことを意味する。すなわちそれは、対話二者の相互作用が共感解釈についての曖昧性を多く含んでおり、誤解が生じたり意思疎通が困難であったりする可能性が高いことを意味する。その対話を仕切っている、あるいは支援している人物（例えば、ファシリテータや対話エージェント）がこの対話の状態を活用すれば、その対話をより充実させて満足や納得のいくものに変えることができると期待される。

このようにこの発明の対話状態推定技術によれば、タイミングモデルを導入することで対話二者間の行動の一致性やその時間差によって変化する外部観察者の共感解釈を正しく推定できる。また従来の対話状態推定技術と比較してより多くの行動チャネルを利用することができる。したがって、対話者間の対話状態の推定精度が向上する。

［プログラム、記録媒体］
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１対話状態推定装置
１０入力部
２０行動認識部
３０共感解釈付与部
４０パラメタ学習部
４２事前分布学習部
４４タイミングモデル学習部
４６静的モデル学習部
５０事後確率推定部
６０出力部
７０学習用映像記憶部
７２推定用映像記憶部
７４モデルパラメタ記憶部

Claims

複数の対話者の頭部を撮影した映像を入力とし、前記映像中の対話者の行動を検出して時系列にラベル付けした行動時系列を出力する行動認識部と、
複数の対話者の頭部を撮影した学習用映像を入力として前記行動認識部が出力した学習用行動時系列と、前記学習用映像に基づいて共感解釈を時系列にラベル付けした学習用共感解釈時系列とに基づいて、共感解釈の事前分布、行動の時間差と行動の一致性とに基づく共感解釈の尤度を表すタイミングモデル、および行動の共起性に基づく共感解釈の尤度を表す静的モデルを含むモデルパラメタを学習するパラメタ学習部と、
複数の対話者の頭部を撮影した推定用映像を入力として前記行動認識部が出力した推定用行動時系列に基づいて、前記モデルパラメタを用いて前記推定用映像中の対話者間の共感解釈を推定する事後確率推定部と、
を含み、
前記事後確率推定部は、eを前記共感解釈とし、tを時刻とし、Bを前記推定用行動時系列とし、P(e _t )を前記事前分布とし、bを前記行動の種類である行動チャネルとし、dtを前記時間差とし、cを前記一致性とし、P(dt _t ^b |c _t ^b ,e _t )を前記タイミングモデルとし、P(b _t ,e _t )を前記静的モデルとし、以下の式により表される事後確率分布P(e _t |B)を求めるものである、

対話状態推定装置。
１つの行動の種類（以下、「行動チャネル」という）は複数の行動の状態を取り、対話者は複数の行動の状態（ただし、行動の状態が２の場合を除く）を取る行動チャネルを少なくとも１つ用いるとして、
複数の対話者の頭部を撮影した映像を入力とし、前記映像中の対話者が用いる行動チャネルに関する行動の状態を検出して時系列にラベル付けした行動時系列を出力する行動認識部と、
複数の対話者の頭部を撮影した学習用映像を入力として前記行動認識部が出力した学習用行動時系列と、前記学習用映像に基づいて共感解釈を時系列にラベル付けした学習用共感解釈時系列とに基づいて、行動の状態の切り替わり時刻の差を示す行動の時間差と、前記切り替わり後の対話者間の行動の状態が一致しているか否かを示す行動の一致性とに基づく共感解釈の尤度を表すタイミングモデルを含むモデルパラメタを学習するパラメタ学習部と、
複数の対話者の頭部を撮影した推定用映像を入力として前記行動認識部が出力した推定用行動時系列に基づいて、前記モデルパラメタを用いて前記推定用映像中の対話者間の共感解釈を推定する事後確率推定部と、
を含む対話状態推定装置。
請求項２に記載の対話状態推定装置であって、
前記パラメタ学習部は、共感解釈の事前分布、前記タイミングモデル、および行動の共起性に基づく共感解釈の尤度を表す静的モデルを含む前記モデルパラメタを学習する
ことを特徴とする対話状態推定装置。
請求項１から３のいずれかに記載の対話状態推定装置であって、
前記パラメタ学習部は、行動の時間差と行動の一致性とに基づいて共感解釈の尤度を表す時間差関数と、行動の時間差に応じた重みを表す変化タイミング関数とにより表される前記タイミングモデルを学習する
ことを特徴とする対話状態推定装置。
請求項４に記載の対話状態推定装置であって、
eを前記共感解釈とし、tを時刻とし、bを前記行動の種類である行動チャネルとし、dtを前記時間差とし、cを前記一致性とし、dt~を前記学習用共感解釈時系列をヒストグラム化したときのビン番号とし、P(dt~_t ^b|c_t ^b,e_t)を前記時間差関数とし、πを前記変化タイミング関数とし、
前記パラメタ学習部は、以下の式により表される前記タイミングモデルP(dt_t ^b|c_t ^b,e_t)を含む前記モデルパラメタを学習する

ことを特徴とする対話状態推定装置。
請求項１に記載の対話状態推定装置であって、
前記行動認識部は、前記対話者の頭部の動作を示す頭部ジェスチャと、前記対話者が発話しているか否かを示す発話有無との少なくとも一つを前記行動として検出する
ことを特徴とする対話状態推定装置。
請求項２から５のいずれかに記載の対話状態推定装置であって、
前記行動認識部は、少なくとも前記対話者の頭部の動作を示す頭部ジェスチャを前記行動として検出する
ことを特徴とする対話状態推定装置。
複数の対話者の頭部を撮影した学習用映像を入力とし、前記学習用映像中の対話者の行動を検出して時系列にラベル付けした学習用行動時系列を出力する学習用行動認識ステップと、
前記学習用行動時系列と、前記学習用映像に基づいて共感解釈を時系列にラベル付けした学習用共感解釈時系列とに基づいて、共感解釈の事前分布と、行動の時間差と行動の一致性とに基づく共感解釈の尤度を表すタイミングモデル、および行動の共起性に基づく共感解釈の尤度を表す静的モデルを含むモデルパラメタを学習するパラメタ学習ステップと、
複数の対話者の頭部を撮影した推定用映像を入力とし、前記推定用映像中の対話者の行動を検出して時系列にラベル付けした推定用行動時系列を出力する推定用行動認識ステップと、
前記推定用行動時系列に基づいて、前記モデルパラメタを用いて前記推定用映像中の対話者間の共感解釈を推定する事後確率推定ステップと、
を含み、
前記事後確率推定ステップは、eを前記共感解釈とし、tを時刻とし、Bを前記推定用行動時系列とし、P(e _t )を前記事前分布とし、bを前記行動の種類である行動チャネルとし、dtを前記時間差とし、cを前記一致性とし、P(dt _t ^b |c _t ^b ,e _t )を前記タイミングモデルとし、P(b _t ,e _t )を前記静的モデルとし、以下の式により表される事後確率分布P(e _t |B)を求めるものである、

対話状態推定方法。
１つの行動の種類（以下、「行動チャネル」という）は複数の行動の状態を取り、対話者は複数の行動の状態（ただし、行動の状態が２の場合を除く）を取る行動チャネルを少なくとも１つ用いるとして、
複数の対話者の頭部を撮影した学習用映像を入力とし、前記学習用映像中の対話者が用いる行動チャネルに関する行動の状態を検出して時系列にラベル付けした学習用行動時系列を出力する学習用行動認識ステップと、
前記学習用行動時系列と、前記学習用映像に基づいて共感解釈を時系列にラベル付けした学習用共感解釈時系列とに基づいて、行動の状態の切り替わり時刻の差を示す行動の時間差と、前記切り替わり後の対話者間の行動の状態が一致しているか否かを示す行動の一致性とに基づく共感解釈の尤度を表すタイミングモデルを含むモデルパラメタを学習するパラメタ学習ステップと、
複数の対話者の頭部を撮影した推定用映像を入力とし、前記推定用映像中の対話者が用いる行動チャネルに関する行動の状態を検出して時系列にラベル付けした推定用行動時系列を出力する推定用行動認識ステップと、
前記推定用行動時系列に基づいて、前記モデルパラメタを用いて前記推定用映像中の対話者間の共感解釈を推定する事後確率推定ステップと、
を含む対話状態推定方法。
請求項１から７のいずれかに記載の対話状態推定装置としてコンピュータを機能させるためのプログラム。