JP4804801B2

JP4804801B2 - 会話構造推定方法、プログラム、および記録媒体

Info

Publication number: JP4804801B2
Application number: JP2005164395A
Authority: JP
Inventors: 和弘大塚; 淳司大和
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-06-03
Filing date: 2005-06-03
Publication date: 2011-11-02
Anticipated expiration: 2025-06-03
Also published as: JP2006338529A

Description

本発明は、複数の人物の行動を自動的に計測、または認識を行う技術に関し、その中でも特に、複数の人物が会話を行う状況を対象とし、観測される人物の行動からその場において生じている会話の構造を自動的に推定する会話構造推定方法、プログラム、および記録媒体に関する。

複数人物による対面会話において、各参加者は「話し手」、「受け手」、「傍参与者」といった役割を担い、それらが時間ともに移り変わることが知られている。このような会話中の役割分担やその時間変化といった会話の構造を自動的に抽出することは、会議映像のアーカイブ構築のための自動インデクシング、自動映像編集などを実現する上での基礎的な課題である。

このような会話中の人物の役割のうち、従来は、言語的な情報伝達を中心的に担うと考えられる「話し手」が主に注目されており、各人物の発話の状態などを音響信号として捉えて、複数の会話参加者のうち、話し手が誰であるかを同定する技術が提案されている（例えば特許文献１参照）。

しかしながら会話は、「話し手」のみでは成立せず、話し手の発話が誰に向けられたかという会話の構造に関する情報も重要であることが、近年徐々に認識され始めており、これまで会話構造を推定する手がかりとして、会話参加者の視線の振る舞いなどの非言語的な情報が有用であると示唆されている（特許文献２参照）。また、特許文献３においては、話し手の視線の分配量によって、話し手が話し掛けている相手が一人か複数かを判断できるという実験結果を示しているが、視線を自動的に計測する方法は提案していない。

一方、非特許文献４によって、従来、視線の方向として、頭部の方向を代わりに検出して用いる方法が提案されているが、会話の構造を推定するものではない。
A. Gard, V. Pavlovic, and J. M.Rehg,"Boosted learning in dynamic Bayesian networks for multimodal speaker detection," Proc. IEEE, Vol.91, No.9, 2003. N. Jovanovic and R. Akker,"Towards automatic addressee identification in multiparty dialogues,"Proc. SIGdial, pp.89-92, 2004. Y. Takemae, K. Otsuka, and N. Mukawa,"An analysis of speakers' gaze behavior for automatic addressee identification in multiparty conversation and its application to video editting,"Proc. of IEEE International Workshop on Robot and Human Interactive Communication(IEEE/RO-MAN2004), pp.581-586, 2004. R. Stiefelhagen et a1.,"Modeling focus of attention for meeting index based on multiple cues," IEEE Trans. Neural Networks, vo1.13, No.4, 2002.

以上のように従来技術では、会話参加者の役割やその時間変化といった会話の構造を自動的に推定することはできなかった。

そこでこの発明は、複数の人物が対面で会話を行う場面を対象として、会話参加者の行動を計測することにより、会話の構造を自動的に推定する会話構造推定方法、プログラム、および記録媒体を提供することを目的としている。

本発明は、上述の課題を解決すべくなされたもので、会話構造推定装置における会話構造推定方法であって、頭部方向計測処理部が、会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、発話有無計測処理部が、前記各人物の発話の有無を検出する発話有無計測ステップと、初期値設定部が、各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第１の状況、参加者のうちの二者の間のみで会話が進行している第２の状況、および前記第１および第２の状況以外の第３の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、会話構造情報更新部が、前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、視線パターン更新部が、前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、統計量計算部が、前記会話構造情報更新部による前記会話構造情報更新ステップと前記視線パターン更新部による前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、を有することを特徴とする会話構造推定方法である。
このように、視線方向と発話の有無の情報を組み合わせることにより、発話の有無の情報のみからでは知ることのできない、話し手の発話が向けられている相手などの会話の構造を推定することが可能となる。また、現状では、会話を妨げることなく人の視線方向を装置等により直接計測することは困難であるが、その視線方向を直接計測するのではなく、比較的計測が容易な頭部の方向から近似的に視線の方向を推定するため、自然な会話を妨げることなく、会話の構造を外部観測によって推定することが可能となる。

また本発明は、前記初期値設定ステップにおける、予め定められた事前分布は、会話構造情報が前記第１の状況を示す場合には、前記一人の人物の視線方向の分布を一様とし、前記他の参加者全員の視線方向が前記一人の人物に対して高い値をとる分布とし、会話構造情報が前記第２の状況を示す場合には、前記二者の間において相互凝視状態となる視線方向についての確率が高い値をとり、前記二者以外の人物の視線方向の分布を一様とし、会話構造情報が前記第３の状況を示す場合には、前記各人物の視線方向の分布を一様とすることを特徴とする。
そのため、複数人物による会話中において、誰が誰に向かって話し掛けているかという情報が推定できることにより、会話を撮影した映像に対してインデックスを付与するなど多種多様な応用へと発明技術を適用することができる。

また、個別の人物の役割を統合して得られる会話の場を支配する情報伝達のパターンを推定することに相当し、これにより会話を撮影した映像に対してインデックスを付与するなど多種多様な応用へと発明技術を適用することができる。

また、ある頭部方向を向いているときの視線の曖昧さや、視線方向と発話の有無の情報、及び、会話の構造との間の曖昧さなどの不確実性を確率的な表現法を用いて適切に取り扱うことができる。また、頭部方向から視線方向を推定する問題と、視線方向と発話の有無の情報から会話の構造を推定する問題、及び、確率モデルのパラメータを推定する問題を、同時に統合的に解くことにより、解の不確実性が相補的に解消され、これら個別の問題を独立に解く場合と比較して、より正確に視線の方向や会話の構造を推定することが可能となる。

また、会話の構造に依存して特定の視線の振る舞いや発話の状態が現れるといった人間の特性をモデルに取り入れることができ、このような人間の特性として、例えば、ある話し手が他の人に向かって話しをする場合には、その受け手に対して視線が投げかけられ、また、受け手の人物は話しての方を良く見る。また、話し手は発話をする確率が高いといった特性が上げられる。このようなモデルを用いることにより、観測された人間の行動から会話の構造が正確に推定できるようになる。

また、同時事後確率分布の厳密な計算が困難である本発明のような多くの未知変数を含む確率モデルについても、近似的に解を得ることが可能となる。

また本発明は、前記各人物の頭部方向は、会話参加者の頭部に装着された磁気式センサーを用いて計測することを特徴とする。
これにより正確に３次元空間中における各会話参加者の頭部の座標、及び、回転角を、高い時間分解能で計測することが可能となり、このことは、時間的に綿密な会話構造の推定を可能とするものである。

また本発明は、前記各人物の発話の有無は、前記各人物に装着されたマイクロフォンより得られる音響信号の大きさに基づいて検出することを特徴とする。
これにより、各会話参加者毎に個別の発話状況を検出することが可能となり、精度の高い会話構造の推定が可能となる。

また本発明は、会話構造推定装置のコンピュータに、会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、前記各人物の発話の有無を検出する発話有無計測ステップと、各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第１の状況、参加者のうちの二者の間のみで会話が進行している第２の状況、および前記第１および第２の状況以外の第３の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、前記会話構造情報更新ステップと前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、を実行させるためのプログラムである。

また本発明は、会話構造推定装置のコンピュータに、会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、前記各人物の発話の有無を検出する発話有無計測ステップと、各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第１の状況、参加者のうちの二者の間のみで会話が進行している第２の状況、および前記第１および第２の状況以外の第３の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、前記会話構造情報更新ステップと前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。

本発明によれば、複数人物の対面会話を対象とし、会話中の人物の頭部方向及び発話状態を計測し、これらの計測された情報と、視線方向、会話の構造に関する確率モデルに基づいて、各時点における会話の構造、視線方向、及びモデルのパラメータを同時推定している。そのため、会話中における話し手、受け手、傍参与者といった各参会者の役割と、それらの時間変化として表される会話の構造を自動的に推定することができる。

以下、本発明の一実施形態による会話構造推定方法を図面を参照して説明する。図１は同実施形態による会話構造推定装置の構成を示すブロック図である。この図において、符号１０１は頭部方向計測部、１０２は発話状態計測部、１０３は観測データ記億部、１０４はパラメータ記億部、１０５はサンプル集合記億部、１０６はギブスサンプラー、１０７は統計量計算部、１０８は出力部である。

そして頭部方向計測部１０１は各参加者に装着された磁気式センサ（または地磁気センサ）などであり、例えば、地磁気によるＮ極と頭部の方向の関係によって所定の方向を基準とした頭部の方向を計測する。また発話状態計測部１０２は例えば、各参加者に装着されたピンマイクロフォンなどであり、当該マイクロフォンより得られる音響信号の大きさに基づいて発音の有無を計測する。また観測データ記億部１０３は、ある時間区間について、頭部方向計測部１０１及び発話状態計測部１０２より得られたデータを記憶する。またパラメータ記億部１０４は会話モデルのハイパーパラメータの値を記憶している。またサンプル集合記億部１０５は、ギブスサンプラー１０６によって生成されるサンプルの集合を記憶する。またギブスサンプラー１０６は、観測データ記億部１０３に記憶された観測データ、及び、パラメータ記億部１０４に記憶されたモデルのハイパーパラメータの値を入力とし、未知変数の同時事後確率分布を表すサンプル集合を生成し、その値を、サンプル集合記億部１０５に記憶させる。また統計量計算部１０７は、サンプル集合記億部１０５に記録されたサンプル集合より、未知変数に関する統計量を計算する。また出力部１０８は、統計量計算部１０７により計算された統計量を、ディスプレイなどに出力する。

図２は会話構造推定装置の処理フローを示す図である。
次に図２を用いて会話構造推定装置の処理フローについて説明する。
まず、ある時間区間において(１≦ｔ≦Ｔ)、一定時間間隔で各参加者の頭部方向を頭部方向計測部１０１が計測する（ステップＳ５０１）。また発話状態計測部１０２が同様に、ある時間区間において(１≦ｔ≦Ｔ)、一定時間間隔で各参加者の発話状態を計測（音声を取得）する（ステップＳ５０２）。これらの計測した情報が観測データ記憶部１０３に記録される。上記ステップＳ５０１とステップＳ５０２の計測は各計測部においてｔ＜Ｔを判定（ステップＳ５０３）して、ｔ＜Ｔとなるまで繰り返される。次に、パラメータ記億部１０４に記憶されているパラメータの値を用いて、ギブスサンプラー１０６の初期化を行う（ステップＳ５０４）。統いて、各変数について全条件付事後分布からのサンプリング(乱数発生)を行い、変数の値を更新するという処理を行う（ステップＳ５０５）。そして全ての変数についてステップＳ５０４の処理により更新したか否かを判断し（ステップＳ５０６）、その結果全ての変数について更新した場合には、次に反復回数が既定値に達したか否かを判定する（ステップＳ５０７）。そして既定値に達した場合には、サンプル集合記億部１０５に記憶されているサンプル集合を用いて、各変数についての統計量を計算する（ステップＳ５０８）。

次に、上記会話構造推定装置の処理フローについてより詳細に説明する。
図３は会話参加者の相対位置を示す図である。
図３が示すように、本実施形態の会話構造推定方法において対象となる会話参加者はそれぞれ図３のような相対座標に着席して位置し、会話を行うものとする。ここで人物の人数Ｎは、Ｎ≧３とする。また、推定対象とする時間区間は、一定時間間隔で離散化されており、 t = 1，２・・，Ｔとする。そして時刻ｔにおける人物ｉの視線方向をＸ_ｉ，ｔと表す。また人物ｉが人物ｊの顔に視線を向けている場合の視線方向Ｘ_ｉｊ＝ｊとし、誰の方も見ていない場合をＸ_ｉｊ＝ｉと表す。また各人の視線方向をまとめたものを視線パターンと呼び、Ｘａ_ｔ＝｛Ｘ_１，ｔ，Ｘ_２，ｔ，・・・，Ｘ_Ｎ，ｔ｝と表し、対象時間区間における各時間間隔の視線パターンの系列をＸａ_１：ｔ＝｛Ｘ_１，Ｘ_２，・・・，Ｘ_Ｎ｝のように表すとする。

また、ある時刻ｔにおける会話の構造をＳ_ｔと表す。一人の人物ｉが他の参加者全員に話し掛けている場合の構造を

と記す。この構造のことを「収束構造」と呼ぶ。また参加者の中の二人の人物ｉ，ｊの間のみで会話が進行している状況、つまり、人物ｉと人物ｊの二人が話し手または受け手となる場合のことを「二者結合」と呼び、記号

で表す。さらに、これらの構造以外の構造のことを「発散構造」と呼び、記号Ｓ_ｔ＝Ｒ^０と表記する。Ｎ（≧３）人の会話においては、上記の３種類の構造について、対象人物の組み合わせを考慮した、Ｍ＝Ｎ＋_ＮＣ_２＋１個の構造が存在するものとし、各時刻において、何れかの会話状態

をとるものとする。対象時間範囲における会話状態の系列をＳ_１：ｔ＝｛Ｓ_１，Ｓ_２，・・・，Ｓ_Ｔ｝と表す。

まず、上述したようにステップＳ５０１において頭部方向計測部１０１が、各時刻ｔにおける各参加者ｉの頭部方向ｈ_ｉ，ｔを計測する。この計測値は、図３のように、頭部の水平方向の回転角（Ｘ軸正方向を基準とする）であり、人物を上方から見た場合の座標軸との成す角度として計測されるものとする。対象時間区間における頭部方向の計測値の集合をＨ_１：ｔ＝｛Ｈ_１，・・・，Ｈ_Ｔ｝，Ｈ_ｔ＝｛ｈ_１，ｔ，・・・，ｈ_Ｎ，ｔ｝のように表す。また、上述したようにステップＳ５０２において発話状態計測部１０２は、各時刻ｔにおける各参加者ｉの発話状態ｕ_ｉ，ｔを計測する。この発話状態は発話の有無であり、当該発話の有無を０または１の２値により表す。対象時間区間における発話の観測データは、Ｕ_１：ｔ＝｛Ｕ_１，・・・，Ｕ_Ｔ｝，Ｕ_ｔ＝｛ｕ_１，ｔ，・・・，ｕ_Ｎ，ｔ｝と表す。そしてこれらの観測データが観測データ記憶部１０３に記録される。

図４は会話モデルを示す図である。
会話モデルとしては、図４のような動的ベイジアンネットを用いることができる。この会話モデルにおいては、会話の構造は、初期確率

及び、状態遷移確率

を持つマルコフ過程に従うと仮定する。これらのパラメータをまとめて、

のように表記する。また、視線パターンＸａ_ｔは、会話構造に依存した生成確率Ｐ（Ｘａ_ｔ｜Ｓ_ｔ）及び、遷移確率Ｐ（Ｘａ_ｔ｜Ｘａ_ｔ−１，Ｓ_ｔ−１）に従い出現するものと仮定し、その尤度は

のように定義する。ただし、ここでは、各人物の視線方向は、会話構造が与えられたときに条件付独立であると仮定している。視線方向についてのパラメータを

のように表記する。また、ある視線パターンＸａ_ｔにおける頭部方向Ｈ_ｔの尤度分布は、ガウス関数を用いて

のように表す。
ただし、ここでμ_ｉｊ，σ^２ _ｉｊは、人物ｉが人物ｊを見る時の頭部方向の尤度分布の平均と分散をそれぞれ表す。また、各会話参加者は、会話状態に依存したベルヌーイ過程に従い発話を行うと仮定し、発話の尤度を

とし、発話を行う確率を

のように表す。

上記の会話モデルに基づき、本発明では、全ての未知変数、つまり、会話構造の系列Ｓ_１：Ｔ，視線パターンの系列Ｘａ_１：Ｔ、及び会話モデルのパラメータ

を、観測データ

より算出して推定することを目標とする。本発明の一実施例では、ギブスサンプラー１０６は、ベイズ流のアプローチを採用し、これらの未知変数についての同時事後確率分布を、ギブスサンプリングと呼ばれる方法を用いて計算する。ギブスサンプリングでは、まず、事前確率分布からのサンプリングにより各変数についての初期値を設定し、その後、各変数について、全条件付事後確率分布からのサンプリングを行い、変数の値を更新するという処理を繰り返し実行する。十分な回数、反復が行われた後のサンプル集合が、未知変数の同時事後確率分布を近似するものと考え、そのサンプル集合より、統計量計算部１０７が未知変数についての統計量を計算する。

また本実施例においては、各未知変数について事前確率分布の形状として共役事前分布を採用する。会話構造の初期確率、状態遷移確率、視線パターンの生成確率、状態遷移確率の事前分布は、それぞれ独立なディリクレー分布に従うものとする。また、頭部方向の尤度分布の平均、及び、分散の事前分布は、それぞれ、ガウス分布、及び、逆カイニ乗分布に従うものとする。また、発話確率の事前分布はベータ分布に従うものとする。

各会話構造特有の視線パターン、発話状態を設定するために、これらの事前分布の形状をハイパーパラメータの値として設定する。例えば、一人の人物ｉが他の参加者全員に話し掛けている場合の構造

において、話し手ｉの視線方向の分布は一様とし、受け手ｊ（≠ｉ）の視線方向は、話し手に対して高い値をとるよう設定する。また発話確率は、話し手ｉについてのみ高い値をとるものとする。また二者結合の構造

の場合には、対象となるペア（ｉ，ｊ）の人物間において相互凝視状態となるような視線方向についての確率が高い値をとり、このペア以外の人物の視線方向の分布は一様とする。さらに、発話確率はこのペアの人物について高い値をとるように設定する。さらに、発散構造Ｒ^０においては、各人の視線方向の分布は一様とし、また、発話確率は低い値をもつものとする。このように設定した値を、パラメータ記億部１０４が記憶している。

そして上述のステップＳ５０５においてギブスサンプラー１０６は、ギブスサンプリングを実行する。まず、未知変数

の各々について、パラメータ記億部１０４に記憶されている値によって定められる事前分布から乱数を発生させ(サンプリング)、その値を変数の値として設定する。ここでパラメータ記億部１０４に記憶されている値とは、事前確率分布の形状をあらわすパラメータのことであり、具体的には、会話構造の初期確率については、その事前分布であるディリクレー分布のパラメータの値、会話構造の状態遷移確率については，その事前分布であるディリクレー分布のパラメータの値、視線パターンの生成確率については、その事前分布であるディリクレー分布のパラメータの値、視線パターンの状態遷移確率については、その事前分布であるディリクレー分布のパラメータの値、頭部方向の尤度分布（ガウス分布）の平均値については、その事前分布であるガウス分布の平均と分散の値、頭部方向の尤度分布（ガウス分布）の分散については、その事前分布である逆カイ二乗分布の自由度と尺度パラメータの値である。

統いてギブスサンプラー１０６は、各未知変数について、それぞれ、全条件付事後分布からのサンプリングを行い、各変数の値を更新する。また、反復回数ｑが一定回以上ｑ≧Ｑ´の場合、その結果の値を、サンプル集会記億部１０５に記憶させる。全条件付事後分布は、自然共役分布とするので、それぞれの事前分布と同じ関数形を持ち、会話状態の初期確率、状態遷移確率、視線パターンの生成確率、状態遷移確率の事前分布は、それぞれ独立なディリクレー分布となる。また、頭部方向の尤度分布の平均、及び、分散の全条件付事後分布は、それぞれ、ガウス分布、及び、逆カイニ乗分布となる。また、発話確率については、ベータ分布となる。さらに、各時刻の会話構造の全条件付事後分布は、

のようになり、この分布からのサンプリングにより状態が更新される。さらに、各時刻の視線パターンについては、全条件付事後分布

からのサンプリングにより状態が更新される。

ギブスサンプラー１０６は、ギブスサンプリングをＱ回反復、実行すると、その算出結果として得られる各未知変数の値をサンプル集合記憶部１０５に記録する。算出結果として得られた各未知変数の値は、q番目の反復回の結果とした場合には、Ｘａ_１：ｔ ^（ｑ）、Ｓａ_１：ｔ ^（ｑ）、φ^（ｑ）＜式（１７）における未知変数のｑ番目の反復回に対応する値＞のそれぞれの値である。そしてその後、統計量計算部１０７によって、サンプル集合記億部１０５からサンプル集合（ギプスサンプラー１０６によって出力された各未知変数の値）が読み出され、各未知変数についての推定値が計算される。例えば、会話構造と視線パターンについては、最大事後確率推定値が

のように計算される。ここで、

、その他の場合

である。また、そのほかの未知変数については、最小二乗誤差推定値が、

のように計算される。

以下では、上記の実施例により得られる結果の一部を説明する。
図３のような配置にある４人による会話を対象に、時間間隔1/30秒、10000フレーム(約５．６分)の時間区間について本発明方法を適用した。

図５は観測データ（頭部方向及び発話の有無）の一部を示す図である。
図５には、頭部方向計測部１０１、及び発話状態計測部１０２により計測され、観測データ記億部１０３に記憶された観測データの一部を示す。

図６は推定結果（視線方向、及び、会話の構造）の一部を示す図である。
推定結果の値の提示法の一つとして図６のような時系列ダイアグラムとして，各時刻における会話構造の推定値を表示する形態が考えられる。この図は各時刻において，会話に中心的に関与している人が誰であるかを示している。また図６は、ギブスサンプラー１０６によりＱ＝７００（Ｑ´＝５００）回の反復処理が行われた後に、上述の統計量計算部１０７の処理を経て、出力部１０８へ出力された推定結果の例を示しており、各参加者（人物１〜人物４＝Ｐ１〜Ｐ４）の他の参加者への視線方向と、会話の構造（会話の有無）を示している。

この図６は、次のような手順を全時刻において実施することで得られる。
まず、各時刻tにおいての会話状態の推定値Ｓｂ_ｔが人物ｉへの収束構造，つまり、Ｓｂ_ｔ＝Ｒ_ｉ ^Ｃ＜式（１）に同じ＞の場合、出力部１０８は、この人物ｉの位置にバンドを表示させている（Ｓｂは推定値を表す）。また会話状態の推定値Ｓｂ_ｔが、人物ｉとｊの二者結合の場合、つまりＳｂ_ｔ＝Ｒ_{（ｉ，ｊ）} ^ＤＬ＜式（２）に同じ＞の場合、出力部１０８は、この二人の人物ｉとｊの位置にそれぞれバンドを表示させている。また会話状態の推定値Ｓｂ_ｔが発散構造の場合には、出力部１０８はその時刻ではバンドの表示をしない。

また図６以外の会話構造の推定結果の提示方法としては、出力部１０８は、各時刻において、会話に中心的に関与している人が誰であるかを、対応する人物の映像を切り替えて表示することにより提示することも可能である。このような映像を視聴することにより、会話に参加していない人物でもその会話の構造を容易に把握することができ、会話内容をより的確に理解することが可能となる。

そしてこの図６の各参加者の視線方向のグラフにおいては、会話構造推定装置によって推定された各人物の視線方向(実線)と、人手でラベル付けされた実際の視線方向の正解データ(破線)とが重ね合わされている。両者の比較より、両者の一致率は、平均して約７割と妥当な推定精度が得られた。また、図６の会話構造の推定結果を示す部分においては、各時刻毎のバンドを見たとき、黒い一重のバンドがある時刻においては、そのバンドが存在する番号ｉの人物が話し手となる収束構造

をもち、二重のバンドがある時刻は、そのバンドが存在する二つの番号ｉ，ｊの人物による二者結合

の構造をもつ。また、バンドが存在しない時刻は、発散の構造Ｒ^０をもつ。
つまり図６の会話構造のグラフにおいては、各時刻においてＰ１〜Ｐ４の一人の人物についてバンドが存在する場合には、会話構造は集束構造であり、また二人の人物についてバンドが存在する場合には会話構造は二者結合であり、また３人以上の人物についてバンドが存在する場合には発散構造であることを示している。

また図６においては、推定された会話状態が人物ｉへの収束構造、つまりＳｂ_ｔ＝Ｒ_ｉ ^Ｃ＜式（１）に同じ＞の場合、この中心人物ｉが話し手と判断され、その他の人物が受け手と判断される。また、推定された会話状態が人物ｉとｊの二者結合の場合、つまりＳｂ_ｔ＝Ｒ_{（ｉ，ｊ）} ^ＤＬ＜式（２）に同じ＞の場合、この二人の人物ｉとｊが、話し手及び受け手と判断される（どちらが話し手でどちらが受け手かは区別しない）。その他の人物は傍参与者と判断される。推定された会話状態が発散構造の場合、このグループによる会話が生じていないと判断されるため、その場には、話し手、受け手、傍参与者は存在しないと判断される。

図７は３時刻における会話参加者の画像である。
図８は３時刻における視線の方向、及び、推定された会話構造を示す図である。
次に、より具体的に会話構造の時間遷移の様子を説明するために、３時刻(ｔ_１＝３１０，ｔ_２＝４８５，ｔ_３＝５７８)の各参加者を写した画像を図７に示し、その各時点における視線パターン、及び、推定された会話構造を図８に示す。

図８において、グラフ中の細い矢印は推定された視線方向を示し、太い矢印は正解の視線方向を示す。まず、時刻ｔ_１付近において、人物４が他の全員に向かって意見を表明している。その後、時刻ｔ_２付近において、人物２が人物４の発言に対して、同意を表明する発話を行い、それに対して、人物４も注意を向け、人物４と人物２の間のみで会話が進行し、他の人物１及び３は傍参与者となった。その後、時刻ｔ_３付近において、人物２に発話権が移り、傍参与者だった人物３も人物２へ注意を向けて人物２の話を聞く体制に入った。これらの会話の進展が、図８に示すように視線方向の推移として正しく推定され、さらに、このような会話の状況変化に適合する形で、会話構造の状態が推定された。

このように本発明によって、このように会話の進行ととも移り変わる各参加者の視線方向、及び、会話における役割が推定され、適切に会話の構造が推定できることがわかる。

以上で説明したように、本発明では、複数人物の対面会話を対象とし、会話中の人物の頭部方向及び発話状態を計測し、これらの計測された情報と、視線方向、会話の構造に関する確率モデルに基づいて、各時点における会話の構造、視線方向、及びモデルのパラメータを同時推定している。そのため、会話中における話し手、受け手、傍参与者といった各参会者の役割と、それらの時間変化として表される会話の構造を自動的に推定することができる。

なお上述の会話構造推定装置は内部に、コンピュータシステムを有している。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。

また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

本発明の一実施形態による会話構造推定装置の構成を示すブロック図である。本発明の一実施形態による会話構造推定装置の処理フローを示す図である。本発明の一実施形態による会話参加者の相対位置を示す図である。本発明の一実施形態による会話モデルを示す図である。本発明の一実施形態による観測データ（頭部方向及び発話の有無）の一部を示す図である。本発明の一実施形態による推定結果（視線方向、及び、会話の構造）の一部を示す図である。本発明の一実施例における会話の構造の遷移を説明するための３時刻における会話参加者の画像である。本発明の一実施例における会話の構造の遷移を説明するための３時刻における視線の方向、及び、推定された会話構造を示す図である。

符号の説明

１・・・会話構造推定装置
１０１・・・頭部方向計測部
１０２・・・発話状態計測部
１０３・・・観測データ記憶部
１０４・・・パラメータ記憶部
１０５・・・ギブスサンプラー
１０６・・・サンプル集合記憶部
１０７・・・統計量計算部
１０８・・・出力部

Claims

会話構造推定装置における会話構造推定方法であって、
頭部方向計測処理部が、会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、
発話有無計測処理部が、前記各人物の発話の有無を検出する発話有無計測ステップと、
初期値設定部が、各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第１の状況、参加者のうちの二者の間のみで会話が進行している第２の状況、および前記第１および第２の状況以外の第３の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、
会話構造情報更新部が、前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、
視線パターン更新部が、前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、
統計量計算部が、前記会話構造情報更新部による前記会話構造情報更新ステップと前記視線パターン更新部による前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、
を有することを特徴とする会話構造推定方法。
前記初期値設定ステップにおける、予め定められた事前分布は、
会話構造情報が前記第１の状況を示す場合には、前記一人の人物の視線方向の分布を一様とし、前記他の参加者全員の視線方向が前記一人の人物に対して高い値をとる分布とし、
会話構造情報が前記第２の状況を示す場合には、前記二者の間において相互凝視状態となる視線方向についての確率が高い値をとり、前記二者以外の人物の視線方向の分布を一様とし、
会話構造情報が前記第３の状況を示す場合には、前記各人物の視線方向の分布を一様とする
ことを特徴とする請求項１に記載の会話構造推定方法。
前記各人物の頭部方向は、
会話参加者の頭部に装着された磁気式センサーを用いて計測する
ことを特徴とする請求項１または請求項２に記載の会話構造推定方法。
前記各人物の発話の有無は、
前記各人物に装着されたマイクロフォンより得られる音響信号の大きさに基づいて検出する
ことを特徴とする請求項１から請求項３のいずれかに記載の会話構造推定方法。
会話構造推定装置のコンピュータに、
会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、
前記各人物の発話の有無を検出する発話有無計測ステップと、
各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第１の状況、参加者のうちの二者の間のみで会話が進行している第２の状況、および前記第１および第２の状況以外の第３の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、
前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、
前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、
前記会話構造情報更新ステップと前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、
を実行させるためのプログラム。
会話構造推定装置のコンピュータに、
会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、
前記各人物の発話の有無を検出する発話有無計測ステップと、
各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第１の状況、参加者のうちの二者の間のみで会話が進行している第２の状況、および前記第１および第２の状況以外の第３の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、
前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、
前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、
前記会話構造情報更新ステップと前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、
を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。