JP4804801B2 - 会話構造推定方法、プログラム、および記録媒体 - Google Patents

会話構造推定方法、プログラム、および記録媒体 Download PDF

Info

Publication number
JP4804801B2
JP4804801B2 JP2005164395A JP2005164395A JP4804801B2 JP 4804801 B2 JP4804801 B2 JP 4804801B2 JP 2005164395 A JP2005164395 A JP 2005164395A JP 2005164395 A JP2005164395 A JP 2005164395A JP 4804801 B2 JP4804801 B2 JP 4804801B2
Authority
JP
Japan
Prior art keywords
conversation
line
structure information
conversation structure
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005164395A
Other languages
English (en)
Other versions
JP2006338529A (ja
Inventor
和弘 大塚
淳司 大和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005164395A priority Critical patent/JP4804801B2/ja
Publication of JP2006338529A publication Critical patent/JP2006338529A/ja
Application granted granted Critical
Publication of JP4804801B2 publication Critical patent/JP4804801B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、複数の人物の行動を自動的に計測、または認識を行う技術に関し、その中でも特に、複数の人物が会話を行う状況を対象とし、観測される人物の行動からその場において生じている会話の構造を自動的に推定する会話構造推定方法、プログラム、および記録媒体に関する。
複数人物による対面会話において、各参加者は「話し手」、「受け手」、「傍参与者」といった役割を担い、それらが時間ともに移り変わることが知られている。このような会話中の役割分担やその時間変化といった会話の構造を自動的に抽出することは、会議映像のアーカイブ構築のための自動インデクシング、自動映像編集などを実現する上での基礎的な課題である。
このような会話中の人物の役割のうち、従来は、言語的な情報伝達を中心的に担うと考えられる「話し手」が主に注目されており、各人物の発話の状態などを音響信号として捉えて、複数の会話参加者のうち、話し手が誰であるかを同定する技術が提案されている(例えば特許文献1参照)。
しかしながら会話は、「話し手」のみでは成立せず、話し手の発話が誰に向けられたかという会話の構造に関する情報も重要であることが、近年徐々に認識され始めており、これまで会話構造を推定する手がかりとして、会話参加者の視線の振る舞いなどの非言語的な情報が有用であると示唆されている(特許文献2参照)。また、特許文献3においては、話し手の視線の分配量によって、話し手が話し掛けている相手が一人か複数かを判断できるという実験結果を示しているが、視線を自動的に計測する方法は提案していない。
一方、非特許文献4によって、従来、視線の方向として、頭部の方向を代わりに検出して用いる方法が提案されているが、会話の構造を推定するものではない。
A. Gard, V. Pavlovic, and J. M.Rehg,"Boosted learning in dynamic Bayesian networks for multimodal speaker detection," Proc. IEEE, Vol.91, No.9, 2003. N. Jovanovic and R. Akker,"Towards automatic addressee identification in multiparty dialogues,"Proc. SIGdial, pp.89-92, 2004. Y. Takemae, K. Otsuka, and N. Mukawa,"An analysis of speakers' gaze behavior for automatic addressee identification in multiparty conversation and its application to video editting,"Proc. of IEEE International Workshop on Robot and Human Interactive Communication(IEEE/RO-MAN2004), pp.581-586, 2004. R. Stiefelhagen et a1.,"Modeling focus of attention for meeting index based on multiple cues," IEEE Trans. Neural Networks, vo1.13, No.4, 2002.
以上のように従来技術では、会話参加者の役割やその時間変化といった会話の構造を自動的に推定することはできなかった。
そこでこの発明は、複数の人物が対面で会話を行う場面を対象として、会話参加者の行動を計測することにより、会話の構造を自動的に推定する会話構造推定方法、プログラム、および記録媒体を提供することを目的としている。
本発明は、上述の課題を解決すべくなされたもので、会話構造推定装置における会話構造推定方法であって、頭部方向計測処理部が、会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、発話有無計測処理部が、前記各人物の発話の有無を検出する発話有無計測ステップと、初期値設定部が、各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第1の状況、参加者のうちの二者の間のみで会話が進行している第2の状況、および前記第1および第2の状況以外の第3の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、会話構造情報更新部が、前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、視線パターン更新部が、前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、統計量計算部が、前記会話構造情報更新部による前記会話構造情報更新ステップと前記視線パターン更新部による前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、を有することを特徴とする会話構造推定方法である。
このように、視線方向と発話の有無の情報を組み合わせることにより、発話の有無の情報のみからでは知ることのできない、話し手の発話が向けられている相手などの会話の構造を推定することが可能となる。また、現状では、会話を妨げることなく人の視線方向を装置等により直接計測することは困難であるが、その視線方向を直接計測するのではなく、比較的計測が容易な頭部の方向から近似的に視線の方向を推定するため、自然な会話を妨げることなく、会話の構造を外部観測によって推定することが可能となる。
また本発明は、前記初期値設定ステップにおける、予め定められた事前分布は、会話構造情報が前記第1の状況を示す場合には、前記一人の人物の視線方向の分布を一様とし、前記他の参加者全員の視線方向が前記一人の人物に対して高い値をとる分布とし、会話構造情報が前記第2の状況を示す場合には、前記二者の間において相互凝視状態となる視線方向についての確率が高い値をとり、前記二者以外の人物の視線方向の分布を一様とし、会話構造情報が前記第3の状況を示す場合には、前記各人物の視線方向の分布を一様とすることを特徴とする。
そのため、複数人物による会話中において、誰が誰に向かって話し掛けているかという情報が推定できることにより、会話を撮影した映像に対してインデックスを付与するなど多種多様な応用へと発明技術を適用することができる。
た、個別の人物の役割を統合して得られる会話の場を支配する情報伝達のパターンを推定することに相当し、これにより会話を撮影した映像に対してインデックスを付与するなど多種多様な応用へと発明技術を適用することができる。
た、ある頭部方向を向いているときの視線の曖昧さや、視線方向と発話の有無の情報、及び、会話の構造との間の曖昧さなどの不確実性を確率的な表現法を用いて適切に取り扱うことができる。また、頭部方向から視線方向を推定する問題と、視線方向と発話の有無の情報から会話の構造を推定する問題、及び、確率モデルのパラメータを推定する問題を、同時に統合的に解くことにより、解の不確実性が相補的に解消され、これら個別の問題を独立に解く場合と比較して、より正確に視線の方向や会話の構造を推定することが可能となる。
た、会話の構造依存して特定の視線の振る舞いや発話の状態が現れるといった人間の特性をモデルに取り入れることができ、このような人間の特性として、例えば、ある話し手が他の人に向かって話しをする場合には、その受け手に対して視線が投げかけられ、また、受け手の人物は話しての方を良く見る。また、話し手は発話をする確率が高いといった特性が上げられる。このようなモデルを用いることにより、観測された人間の行動から会話の構造が正確に推定できるようになる。
た、同時事後確率分布の厳密な計算が困難である本発明のような多くの未知変数を含む確率モデルについても、近似的に解を得ることが可能となる。
また本発明は、前記各人物の頭部方向は、会話参加者の頭部装着された磁気式センサーを用いて計測することを特徴とする。
これにより正確に3次元空間中における各会話参加者の頭部の座標、及び、回転角を、高い時間分解能で計測することが可能となり、このことは、時間的に綿密な会話構造の推定を可能とするものである。
また本発明は、前記各人物の発話の有無は、前記各人物に装着されたマイクロフォンより得られる音響信号の大きさに基づいて検出することを特徴とする。
これにより、各会話参加者毎に個別の発話状況を検出することが可能となり、精度の高い会話構造の推定が可能となる。
また本発明は、会話構造推定装置のコンピュータに、会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、前記各人物の発話の有無を検出する発話有無計測ステップと、各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第1の状況、参加者のうちの二者の間のみで会話が進行している第2の状況、および前記第1および第2の状況以外の第3の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、前記会話構造情報更新ステップと前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、を実行させるためのプログラムである。
また本発明は、会話構造推定装置のコンピュータに、会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、前記各人物の発話の有無を検出する発話有無計測ステップと、各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第1の状況、参加者のうちの二者の間のみで会話が進行している第2の状況、および前記第1および第2の状況以外の第3の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、前記会話構造情報更新ステップと前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
本発明によれば、複数人物の対面会話を対象とし、会話中の人物の頭部方向及び発話状態を計測し、これらの計測された情報と、視線方向、会話の構造に関する確率モデルに基づいて、各時点における会話の構造、視線方向、及びモデルのパラメータを同時推定している。そのため、会話中における話し手、受け手、傍参与者といった各参会者の役割と、それらの時間変化として表される会話の構造を自動的に推定することができる。
以下、本発明の一実施形態による会話構造推定方法を図面を参照して説明する。図1は同実施形態による会話構造推定装置の構成を示すブロック図である。この図において、符号101は頭部方向計測部、102は発話状態計測部、103は観測データ記億部、104はパラメータ記億部、105はサンプル集合記億部、106はギブスサンプラー、107は統計量計算部、108は出力部である。
そして頭部方向計測部101は各参加者に装着された磁気式センサ(または地磁気センサ)などであり、例えば、地磁気によるN極と頭部の方向の関係によって所定の方向を基準とした頭部の方向を計測する。また発話状態計測部102は例えば、各参加者に装着されたピンマイクロフォンなどであり、当該マイクロフォンより得られる音響信号の大きさに基づいて発音の有無を計測する。また観測データ記億部103は、ある時間区間について、頭部方向計測部101及び発話状態計測部102より得られたデータを記憶する。またパラメータ記億部104は会話モデルのハイパーパラメータの値を記憶している。またサンプル集合記億部105は、ギブスサンプラー106によって生成されるサンプルの集合を記憶する。またギブスサンプラー106は、観測データ記億部103に記憶された観測データ、及び、パラメータ記億部104に記憶されたモデルのハイパーパラメータの値を入力とし、未知変数の同時事後確率分布を表すサンプル集合を生成し、その値を、サンプル集合記億部105に記憶させる。また統計量計算部107は、サンプル集合記億部105に記録されたサンプル集合より、未知変数に関する統計量を計算する。また出力部108は、統計量計算部107により計算された統計量を、ディスプレイなどに出力する。
図2は会話構造推定装置の処理フローを示す図である。
次に図2を用いて会話構造推定装置の処理フローについて説明する。
まず、ある時間区間において(1≦t≦T)、一定時間間隔で各参加者の頭部方向を頭部方向計測部101が計測する(ステップS501)。また発話状態計測部102が同様に、ある時間区間において(1≦t≦T)、一定時間間隔で各参加者の発話状態を計測(音声を取得)する(ステップS502)。これらの計測した情報が観測データ記憶部103に記録される。上記ステップS501とステップS502の計測は各計測部においてt<Tを判定(ステップS503)して、t<Tとなるまで繰り返される。次に、パラメータ記億部104に記憶されているパラメータの値を用いて、ギブスサンプラー106の初期化を行う(ステップS504)。統いて、各変数について全条件付事後分布からのサンプリング(乱数発生)を行い、変数の値を更新するという処理を行う(ステップS505)。そして全ての変数についてステップS504の処理により更新したか否かを判断し(ステップS506)、その結果全ての変数について更新した場合には、次に反復回数が既定値に達したか否かを判定する(ステップS507)。そして既定値に達した場合には、サンプル集合記億部105に記憶されているサンプル集合を用いて、各変数についての統計量を計算する(ステップS508)。
次に、上記会話構造推定装置の処理フローについてより詳細に説明する。
図3は会話参加者の相対位置を示す図である。
図3が示すように、本実施形態の会話構造推定方法において対象となる会話参加者はそれぞれ図3のような相対座標に着席して位置し、会話を行うものとする。ここで人物の人数Nは、N≧3とする。また、推定対象とする時間区間は、一定時間間隔で離散化されており、 t = 1,2・・,Tとする。そして時刻tにおける人物iの視線方向をXi,tと表す。また人物iが人物jの顔に視線を向けている場合の視線方向Xij=jとし、誰の方も見ていない場合をXij=iと表す。また各人の視線方向をまとめたものを視線パターンと呼び、Xa={X1,t,X2,t,・・・,XN,t}と表し、対象時間区間における各時間間隔の視線パターンの系列をXa1:t={X,X,・・・,X}のように表すとする。
また、ある時刻tにおける会話の構造をSと表す。一人の人物iが他の参加者全員に話し掛けている場合の構造を
Figure 0004804801
と記す。この構造のことを「収束構造」と呼ぶ。また参加者の中の二人の人物i,jの間のみで会話が進行している状況、つまり、人物iと人物jの二人が話し手または受け手となる場合のことを「二者結合」と呼び、記号
Figure 0004804801
で表す。さらに、これらの構造以外の構造のことを「発散構造」と呼び、記号S=Rと表記する。N(≧3)人の会話においては、上記の3種類の構造について、対象人物の組み合わせを考慮した、M=N++1個の構造が存在するものとし、各時刻において、何れかの会話状態
Figure 0004804801
をとるものとする。対象時間範囲における会話状態の系列をS1:t={S,S,・・・,S}と表す。
まず、上述したようにステップS501において頭部方向計測部101が、各時刻tにおける各参加者iの頭部方向hi,tを計測する。この計測値は、図3のように、頭部の水平方向の回転角(X軸正方向を基準とする)であり、人物を上方から見た場合の座標軸との成す角度として計測されるものとする。対象時間区間における頭部方向の計測値の集合をH1:t={H,・・・,H},H={h1,t,・・・,hN,t}のように表す。また、上述したようにステップS502において発話状態計測部102は、各時刻tにおける各参加者iの発話状態ui,tを計測する。この発話状態は発話の有無であり、当該発話の有無を0または1の2値により表す。対象時間区間における発話の観測データは、U1:t={U,・・・,U},U={u1,t,・・・,uN,t}と表す。そしてこれらの観測データが観測データ記憶部103に記録される。
図4は会話モデルを示す図である。
会話モデルとしては、図4のような動的ベイジアンネットを用いることができる。この会話モデルにおいては、会話の構造は、初期確率
Figure 0004804801
及び、状態遷移確率
Figure 0004804801
を持つマルコフ過程に従うと仮定する。これらのパラメータをまとめて、
Figure 0004804801
のように表記する。また、視線パターンXaは、会話構造に依存した生成確率P(Xa|S)及び、遷移確率P(Xa|Xat−1,St−1)に従い出現するものと仮定し、その尤度は
Figure 0004804801
Figure 0004804801
のように定義する。ただし、ここでは、各人物の視線方向は、会話構造が与えられたときに条件付独立であると仮定している。視線方向についてのパラメータを
Figure 0004804801
のように表記する。また、ある視線パターンXaにおける頭部方向Hの尤度分布は、ガウス関数を用いて
Figure 0004804801
のように表す。
ただし、ここでμij,σ ijは、人物iが人物jを見る時の頭部方向の尤度分布の平均と分散をそれぞれ表す。また、各会話参加者は、会話状態に依存したベルヌーイ過程に従い発話を行うと仮定し、発話の尤度を
Figure 0004804801
とし、発話を行う確率を
Figure 0004804801
のように表す。
上記の会話モデルに基づき、本発明では、全ての未知変数、つまり、会話構造の系列S1:T,視線パターンの系列Xa1:T、及び会話モデルのパラメータ
Figure 0004804801
を、観測データ
Figure 0004804801
より算出して推定することを目標とする。本発明の一実施例では、ギブスサンプラー106は、ベイズ流のアプローチを採用し、これらの未知変数についての同時事後確率分布を、ギブスサンプリングと呼ばれる方法を用いて計算する。ギブスサンプリングでは、まず、事前確率分布からのサンプリングにより各変数についての初期値を設定し、その後、各変数について、全条件付事後確率分布からのサンプリングを行い、変数の値を更新するという処理を繰り返し実行する。十分な回数、反復が行われた後のサンプル集合が、未知変数の同時事後確率分布を近似するものと考え、そのサンプル集合より、統計量計算部107が未知変数についての統計量を計算する。
また本実施例においては、各未知変数について事前確率分布の形状として共役事前分布を採用する。会話構造の初期確率、状態遷移確率、視線パターンの生成確率、状態遷移確率の事前分布は、それぞれ独立なディリクレー分布に従うものとする。また、頭部方向の尤度分布の平均、及び、分散の事前分布は、それぞれ、ガウス分布、及び、逆カイニ乗分布に従うものとする。また、発話確率の事前分布はベータ分布に従うものとする。
各会話構造特有の視線パターン、発話状態を設定するために、これらの事前分布の形状をハイパーパラメータの値として設定する。例えば、一人の人物iが他の参加者全員に話し掛けている場合の構造
Figure 0004804801
において、話し手iの視線方向の分布は一様とし、受け手j(≠i)の視線方向は、話し手に対して高い値をとるよう設定する。また発話確率は、話し手iについてのみ高い値をとるものとする。また二者結合の構造
Figure 0004804801
の場合には、対象となるペア(i,j)の人物間において相互凝視状態となるような視線方向についての確率が高い値をとり、このペア以外の人物の視線方向の分布は一様とする。さらに、発話確率はこのペアの人物について高い値をとるように設定する。さらに、発散構造Rにおいては、各人の視線方向の分布は一様とし、また、発話確率は低い値をもつものとする。このように設定した値を、パラメータ記億部104が記憶している。
そして上述のステップS505においてギブスサンプラー106は、ギブスサンプリングを実行する。まず、未知変数
Figure 0004804801
の各々について、パラメータ記億部104に記憶されている値によって定められる事前分布から乱数を発生させ(サンプリング)、その値を変数の値として設定する。ここでパラメータ記億部104に記憶されている値とは、事前確率分布の形状をあらわすパラメータのことであり、具体的には、会話構造の初期確率については、その事前分布であるディリクレー分布のパラメータの値、会話構造の状態遷移確率については,その事前分布であるディリクレー分布のパラメータの値、視線パターンの生成確率については、その事前分布であるディリクレー分布のパラメータの値、視線パターンの状態遷移確率については、その事前分布であるディリクレー分布のパラメータの値、頭部方向の尤度分布(ガウス分布)の平均値については、その事前分布であるガウス分布の平均と分散の値、頭部方向の尤度分布(ガウス分布)の分散については、その事前分布である逆カイ二乗分布の自由度と尺度パラメータの値である。
統いてギブスサンプラー106は、各未知変数について、それぞれ、全条件付事後分布からのサンプリングを行い、各変数の値を更新する。また、反復回数qが一定回以上q≧Q´の場合、その結果の値を、サンプル集会記億部105に記憶させる。全条件付事後分布は、自然共役分布とするので、それぞれの事前分布と同じ関数形を持ち、会話状態の初期確率、状態遷移確率、視線パターンの生成確率、状態遷移確率の事前分布は、それぞれ独立なディリクレー分布となる。また、頭部方向の尤度分布の平均、及び、分散の全条件付事後分布は、それぞれ、ガウス分布、及び、逆カイニ乗分布となる。また、発話確率については、ベータ分布となる。さらに、各時刻の会話構造の全条件付事後分布は、
Figure 0004804801
のようになり、この分布からのサンプリングにより状態が更新される。さらに、各時刻の視線パターンについては、全条件付事後分布
Figure 0004804801
からのサンプリングにより状態が更新される。
ギブスサンプラー106は、ギブスサンプリングをQ回反復、実行すると、その算出結果として得られる各未知変数の値をサンプル集合記憶部105に記録する。算出結果として得られた各未知変数の値は、q番目の反復回の結果とした場合には、Xa1:t (q)、Sa1:t (q)、φ(q)<式(17)における未知変数のq番目の反復回に対応する値>のそれぞれの値である。そしてその後、統計量計算部107によって、サンプル集合記億部105からサンプル集合(ギプスサンプラー106によって出力された各未知変数の値)が読み出され、各未知変数についての推定値が計算される。例えば、会話構造と視線パターンについては、最大事後確率推定値が
Figure 0004804801
のように計算される。ここで、
Figure 0004804801
、その他の場合
Figure 0004804801
である。また、そのほかの未知変数については、最小二乗誤差推定値が、
Figure 0004804801
のように計算される。
以下では、上記の実施例により得られる結果の一部を説明する。
図3のような配置にある4人による会話を対象に、時間間隔1/30秒、10000フレーム(約5.6分)の時間区間について本発明方法を適用した。
図5は観測データ(頭部方向及び発話の有無)の一部を示す図である。
図5には、頭部方向計測部101、及び発話状態計測部102により計測され、観測データ記億部103に記憶された観測データの一部を示す。
図6は推定結果(視線方向、及び、会話の構造)の一部を示す図である。
推定結果の値の提示法の一つとして図6のような時系列ダイアグラムとして,各時刻における会話構造の推定値を表示する形態が考えられる。この図は各時刻において,会話に中心的に関与している人が誰であるかを示している。また図6は、ギブスサンプラー106によりQ=700(Q´=500)回の反復処理が行われた後に、上述の統計量計算部107の処理を経て、出力部108へ出力された推定結果の例を示しており、各参加者(人物1〜人物4=P1〜P4)の他の参加者への視線方向と、会話の構造(会話の有無)を示している。
この図6は、次のような手順を全時刻において実施することで得られる。
まず、各時刻tにおいての会話状態の推定値Sbが人物iへの収束構造,つまり、Sb=R <式(1)に同じ>の場合、出力部108は、この人物iの位置にバンドを表示させている(Sbは推定値を表す)。また会話状態の推定値Sbが、人物iとjの二者結合の場合、つまりSb=R(i,j) DL<式(2)に同じ>の場合、出力部108は、この二人の人物iとjの位置にそれぞれバンドを表示させている。また会話状態の推定値Sbが発散構造の場合には、出力部108はその時刻ではバンドの表示をしない。
また図6以外の会話構造の推定結果の提示方法としては、出力部108は、各時刻において、会話に中心的に関与している人が誰であるかを、対応する人物の映像を切り替えて表示することにより提示することも可能である。このような映像を視聴することにより、会話に参加していない人物でもその会話の構造を容易に把握することができ、会話内容をより的確に理解することが可能となる。
そしてこの図6の各参加者の視線方向のグラフにおいては、会話構造推定装置によって推定された各人物の視線方向(実線)と、人手でラベル付けされた実際の視線方向の正解データ(破線)とが重ね合わされている。両者の比較より、両者の一致率は、平均して約7割と妥当な推定精度が得られた。また、図6の会話構造の推定結果を示す部分においては、各時刻毎のバンドを見たとき、黒い一重のバンドがある時刻においては、そのバンドが存在する番号iの人物が話し手となる収束構造
Figure 0004804801
をもち、二重のバンドがある時刻は、そのバンドが存在する二つの番号i,jの人物による二者結合
Figure 0004804801
の構造をもつ。また、バンドが存在しない時刻は、発散の構造Rをもつ。
つまり図6の会話構造のグラフにおいては、各時刻においてP1〜P4の一人の人物についてバンドが存在する場合には、会話構造は集束構造であり、また二人の人物についてバンドが存在する場合には会話構造は二者結合であり、また3人以上の人物についてバンドが存在する場合には発散構造であることを示している。
また図6においては、推定された会話状態が人物iへの収束構造、つまりSb=R <式(1)に同じ>の場合、この中心人物iが話し手と判断され、その他の人物が受け手と判断される。また、推定された会話状態が人物iとjの二者結合の場合、つまりSb=R(i,j) DL<式(2)に同じ>の場合、この二人の人物iとjが、話し手及び受け手と判断される(どちらが話し手でどちらが受け手かは区別しない)。その他の人物は傍参与者と判断される。推定された会話状態が発散構造の場合、このグループによる会話が生じていないと判断されるため、その場には、話し手、受け手、傍参与者は存在しないと判断される。
図7は3時刻における会話参加者の画像である。
図8は3時刻における視線の方向、及び、推定された会話構造を示す図である。
次に、より具体的に会話構造の時間遷移の様子を説明するために、3時刻(t=310,t=485,t=578)の各参加者を写した画像を図7に示し、その各時点における視線パターン、及び、推定された会話構造を図8に示す。
図8において、グラフ中の細い矢印は推定された視線方向を示し、太い矢印は正解の視線方向を示す。まず、時刻t付近において、人物4が他の全員に向かって意見を表明している。その後、時刻t付近において、人物2が人物4の発言に対して、同意を表明する発話を行い、それに対して、人物4も注意を向け、人物4と人物2の間のみで会話が進行し、他の人物1及び3は傍参与者となった。その後、時刻t付近において、人物2に発話権が移り、傍参与者だった人物3も人物2へ注意を向けて人物2の話を聞く体制に入った。これらの会話の進展が、図8に示すように視線方向の推移として正しく推定され、さらに、このような会話の状況変化に適合する形で、会話構造の状態が推定された。
このように本発明によって、このように会話の進行ととも移り変わる各参加者の視線方向、及び、会話における役割が推定され、適切に会話の構造が推定できることがわかる。
以上で説明したように、本発明では、複数人物の対面会話を対象とし、会話中の人物の頭部方向及び発話状態を計測し、これらの計測された情報と、視線方向、会話の構造に関する確率モデルに基づいて、各時点における会話の構造、視線方向、及びモデルのパラメータを同時推定している。そのため、会話中における話し手、受け手、傍参与者といった各参会者の役割と、それらの時間変化として表される会話の構造を自動的に推定することができる。
なお上述の会話構造推定装置は内部に、コンピュータシステムを有している。そして、上述した処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
本発明の一実施形態による会話構造推定装置の構成を示すブロック図である。 本発明の一実施形態による会話構造推定装置の処理フローを示す図である。 本発明の一実施形態による会話参加者の相対位置を示す図である。 本発明の一実施形態による会話モデルを示す図である。 本発明の一実施形態による観測データ(頭部方向及び発話の有無)の一部を示す図である。 本発明の一実施形態による推定結果(視線方向、及び、会話の構造)の一部を示す図である。 本発明の一実施例における会話の構造の遷移を説明するための3時刻における会話参加者の画像である。 本発明の一実施例における会話の構造の遷移を説明するための3時刻における視線の方向、及び、推定された会話構造を示す図である。
符号の説明
1・・・会話構造推定装置
101・・・頭部方向計測部
102・・・発話状態計測部
103・・・観測データ記憶部
104・・・パラメータ記憶部
105・・・ギブスサンプラー
106・・・サンプル集合記憶部
107・・・統計量計算部
108・・・出力部

Claims (6)

  1. 会話構造推定装置における会話構造推定方法であって、
    頭部方向計測処理部が、会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、
    発話有無計測処理部が、前記各人物の発話の有無を検出する発話有無計測ステップと、
    初期値設定部が、各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第1の状況、参加者のうちの二者の間のみで会話が進行している第2の状況、および前記第1および第2の状況以外の第3の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、
    会話構造情報更新部が、前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、
    視線パターン更新部が、前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、
    統計量計算部が、前記会話構造情報更新部による前記会話構造情報更新ステップと前記視線パターン更新部による前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、
    を有することを特徴とする会話構造推定方法。
  2. 前記初期値設定ステップにおける、予め定められた事前分布は、
    会話構造情報が前記第1の状況を示す場合には、前記一人の人物の視線方向の分布を一様とし、前記他の参加者全員の視線方向が前記一人の人物に対して高い値をとる分布とし、
    会話構造情報が前記第2の状況を示す場合には、前記二者の間において相互凝視状態となる視線方向についての確率が高い値をとり、前記二者以外の人物の視線方向の分布を一様とし、
    会話構造情報が前記第3の状況を示す場合には、前記各人物の視線方向の分布を一様とする
    ことを特徴とする請求項1に記載の会話構造推定方法。
  3. 前記各人物の頭部方向は、
    会話参加者の頭部装着された磁気式センサーを用いて計測する
    ことを特徴とする請求項1または請求項に記載の会話構造推定方法。
  4. 前記各人物の発話の有無は、
    前記各人物に装着されたマイクロフォンより得られる音響信号の大きさに基づいて検出する
    ことを特徴とする請求項1から請求項のいずれかに記載の会話構造推定方法。
  5. 会話構造推定装置のコンピュータに、
    会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、
    前記各人物の発話の有無を検出する発話有無計測ステップと、
    各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第1の状況、参加者のうちの二者の間のみで会話が進行している第2の状況、および前記第1および第2の状況以外の第3の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、
    前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、
    前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、
    前記会話構造情報更新ステップと前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、
    を実行させるためのプログラム。
  6. 会話構造推定装置のコンピュータに、
    会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、
    前記各人物の発話の有無を検出する発話有無計測ステップと、
    各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第1の状況、参加者のうちの二者の間のみで会話が進行している第2の状況、および前記第1および第2の状況以外の第3の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、
    前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、
    前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、
    前記会話構造情報更新ステップと前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、
    実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2005164395A 2005-06-03 2005-06-03 会話構造推定方法、プログラム、および記録媒体 Active JP4804801B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005164395A JP4804801B2 (ja) 2005-06-03 2005-06-03 会話構造推定方法、プログラム、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005164395A JP4804801B2 (ja) 2005-06-03 2005-06-03 会話構造推定方法、プログラム、および記録媒体

Publications (2)

Publication Number Publication Date
JP2006338529A JP2006338529A (ja) 2006-12-14
JP4804801B2 true JP4804801B2 (ja) 2011-11-02

Family

ID=37559007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005164395A Active JP4804801B2 (ja) 2005-06-03 2005-06-03 会話構造推定方法、プログラム、および記録媒体

Country Status (1)

Country Link
JP (1) JP4804801B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2012304B1 (en) * 2007-07-06 2012-09-05 Zero To One Technology Methods for electronically analysing a dialogue and corresponding systems
JP5134525B2 (ja) * 2008-12-19 2013-01-30 日本電信電話株式会社 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム
JP4934158B2 (ja) * 2009-02-16 2012-05-16 日本電信電話株式会社 映像音声処理装置、映像音声処理方法、映像音声処理プログラム
US20130054377A1 (en) * 2011-08-30 2013-02-28 Nils Oliver Krahnstoever Person tracking and interactive advertising
JP6415932B2 (ja) * 2014-11-05 2018-10-31 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP6545950B2 (ja) * 2014-12-03 2019-07-17 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP6238246B2 (ja) * 2015-04-16 2017-11-29 本田技研工業株式会社 会話処理装置、および会話処理方法
JP2020038433A (ja) * 2018-09-03 2020-03-12 Zホールディングス株式会社 画像解析装置、画像解析方法、およびプログラム
WO2020240730A1 (ja) * 2019-05-29 2020-12-03 三菱電機株式会社 受話者推定装置、受話者推定方法、及び受話者推定プログラム
JP2019208215A (ja) * 2019-06-20 2019-12-05 日本電信電話株式会社 推定装置、推定方法、およびプログラム
JP7309095B2 (ja) * 2021-05-20 2023-07-14 三菱電機株式会社 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3879793B2 (ja) * 1998-03-11 2007-02-14 富士ゼロックス株式会社 発言構造検出表示装置
JP2004248125A (ja) * 2003-02-17 2004-09-02 Nippon Telegr & Teleph Corp <Ntt> 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2006338529A (ja) 2006-12-14

Similar Documents

Publication Publication Date Title
JP4804801B2 (ja) 会話構造推定方法、プログラム、および記録媒体
Tao et al. Gating neural network for large vocabulary audiovisual speech recognition
US10424317B2 (en) Method for microphone selection and multi-talker segmentation with ambient automated speech recognition (ASR)
US9626970B2 (en) Speaker identification using spatial information
EP2847763B1 (en) Audio user interaction recognition and context refinement
US20170308164A1 (en) Audio user interaction recognition and application interface
Donley et al. Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments
WO2022039967A1 (en) Training speech recognition systems using word sequences
JP5989603B2 (ja) 推定装置、推定方法、およびプログラム
JP2018063313A (ja) 話者数推定装置、話者数推定方法、およびプログラム
ES2339293T3 (es) Diferenciacion de habla.
JP2017049364A (ja) 発話状態判定装置、発話状態判定方法、及び判定プログラム
JP2012113442A (ja) 会議分析システム及び会議分析方法並びにそのプログラム
CN112967731B (zh) 一种消除语音回声的方法、装置及计算机可读介质
JP6545950B2 (ja) 推定装置、推定方法、およびプログラム
Inoue et al. Speaker diarization using eye-gaze information in multi-party conversations
JP6383349B2 (ja) コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
CN115516553A (zh) 用于多麦克风自动临床文档化的系统和方法
Bissig et al. RTDS: real-time discussion statistics
JP6363986B2 (ja) コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
Park et al. Multistream diarization fusion using the minimum variance Bayesian information criterion
Wu et al. Multi-speaker Direction of Arrival Estimation Using Audio and Visual Modalities with Convolutional Neural Network
Milne et al. Use of artificial intelligence in room acoustics prediction using a photograph
CN117668284A (zh) 一种发言者的识别方法、装置、设备及存储介质
JP2021110910A (ja) マルチチャンネル発話区間推定装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070815

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110810

R151 Written notification of patent or utility model registration

Ref document number: 4804801

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140819

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350