JP4804801B2 - 会話構造推定方法、プログラム、および記録媒体 - Google Patents
会話構造推定方法、プログラム、および記録媒体 Download PDFInfo
- Publication number
- JP4804801B2 JP4804801B2 JP2005164395A JP2005164395A JP4804801B2 JP 4804801 B2 JP4804801 B2 JP 4804801B2 JP 2005164395 A JP2005164395 A JP 2005164395A JP 2005164395 A JP2005164395 A JP 2005164395A JP 4804801 B2 JP4804801 B2 JP 4804801B2
- Authority
- JP
- Japan
- Prior art keywords
- conversation
- line
- structure information
- conversation structure
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
A. Gard, V. Pavlovic, and J. M.Rehg,"Boosted learning in dynamic Bayesian networks for multimodal speaker detection," Proc. IEEE, Vol.91, No.9, 2003. N. Jovanovic and R. Akker,"Towards automatic addressee identification in multiparty dialogues,"Proc. SIGdial, pp.89-92, 2004. Y. Takemae, K. Otsuka, and N. Mukawa,"An analysis of speakers' gaze behavior for automatic addressee identification in multiparty conversation and its application to video editting,"Proc. of IEEE International Workshop on Robot and Human Interactive Communication(IEEE/RO-MAN2004), pp.581-586, 2004. R. Stiefelhagen et a1.,"Modeling focus of attention for meeting index based on multiple cues," IEEE Trans. Neural Networks, vo1.13, No.4, 2002.
このように、視線方向と発話の有無の情報を組み合わせることにより、発話の有無の情報のみからでは知ることのできない、話し手の発話が向けられている相手などの会話の構造を推定することが可能となる。また、現状では、会話を妨げることなく人の視線方向を装置等により直接計測することは困難であるが、その視線方向を直接計測するのではなく、比較的計測が容易な頭部の方向から近似的に視線の方向を推定するため、自然な会話を妨げることなく、会話の構造を外部観測によって推定することが可能となる。
そのため、複数人物による会話中において、誰が誰に向かって話し掛けているかという情報が推定できることにより、会話を撮影した映像に対してインデックスを付与するなど多種多様な応用へと発明技術を適用することができる。
これにより正確に3次元空間中における各会話参加者の頭部の座標、及び、回転角を、高い時間分解能で計測することが可能となり、このことは、時間的に綿密な会話構造の推定を可能とするものである。
これにより、各会話参加者毎に個別の発話状況を検出することが可能となり、精度の高い会話構造の推定が可能となる。
次に図2を用いて会話構造推定装置の処理フローについて説明する。
まず、ある時間区間において(1≦t≦T)、一定時間間隔で各参加者の頭部方向を頭部方向計測部101が計測する(ステップS501)。また発話状態計測部102が同様に、ある時間区間において(1≦t≦T)、一定時間間隔で各参加者の発話状態を計測(音声を取得)する(ステップS502)。これらの計測した情報が観測データ記憶部103に記録される。上記ステップS501とステップS502の計測は各計測部においてt<Tを判定(ステップS503)して、t<Tとなるまで繰り返される。次に、パラメータ記億部104に記憶されているパラメータの値を用いて、ギブスサンプラー106の初期化を行う(ステップS504)。統いて、各変数について全条件付事後分布からのサンプリング(乱数発生)を行い、変数の値を更新するという処理を行う(ステップS505)。そして全ての変数についてステップS504の処理により更新したか否かを判断し(ステップS506)、その結果全ての変数について更新した場合には、次に反復回数が既定値に達したか否かを判定する(ステップS507)。そして既定値に達した場合には、サンプル集合記億部105に記憶されているサンプル集合を用いて、各変数についての統計量を計算する(ステップS508)。
図3は会話参加者の相対位置を示す図である。
図3が示すように、本実施形態の会話構造推定方法において対象となる会話参加者はそれぞれ図3のような相対座標に着席して位置し、会話を行うものとする。ここで人物の人数Nは、N≧3とする。また、推定対象とする時間区間は、一定時間間隔で離散化されており、 t = 1,2・・,Tとする。そして時刻tにおける人物iの視線方向をXi,tと表す。また人物iが人物jの顔に視線を向けている場合の視線方向Xij=jとし、誰の方も見ていない場合をXij=iと表す。また各人の視線方向をまとめたものを視線パターンと呼び、Xat={X1,t,X2,t,・・・,XN,t}と表し、対象時間区間における各時間間隔の視線パターンの系列をXa1:t={X1,X2,・・・,XN}のように表すとする。
会話モデルとしては、図4のような動的ベイジアンネットを用いることができる。この会話モデルにおいては、会話の構造は、初期確率
ただし、ここでμij,σ2 ijは、人物iが人物jを見る時の頭部方向の尤度分布の平均と分散をそれぞれ表す。また、各会話参加者は、会話状態に依存したベルヌーイ過程に従い発話を行うと仮定し、発話の尤度を
図3のような配置にある4人による会話を対象に、時間間隔1/30秒、10000フレーム(約5.6分)の時間区間について本発明方法を適用した。
図5には、頭部方向計測部101、及び発話状態計測部102により計測され、観測データ記億部103に記憶された観測データの一部を示す。
推定結果の値の提示法の一つとして図6のような時系列ダイアグラムとして,各時刻における会話構造の推定値を表示する形態が考えられる。この図は各時刻において,会話に中心的に関与している人が誰であるかを示している。また図6は、ギブスサンプラー106によりQ=700(Q´=500)回の反復処理が行われた後に、上述の統計量計算部107の処理を経て、出力部108へ出力された推定結果の例を示しており、各参加者(人物1〜人物4=P1〜P4)の他の参加者への視線方向と、会話の構造(会話の有無)を示している。
まず、各時刻tにおいての会話状態の推定値Sbtが人物iへの収束構造,つまり、Sbt=Ri C<式(1)に同じ>の場合、出力部108は、この人物iの位置にバンドを表示させている(Sbは推定値を表す)。また会話状態の推定値Sbtが、人物iとjの二者結合の場合、つまりSbt=R(i,j) DL<式(2)に同じ>の場合、出力部108は、この二人の人物iとjの位置にそれぞれバンドを表示させている。また会話状態の推定値Sbtが発散構造の場合には、出力部108はその時刻ではバンドの表示をしない。
つまり図6の会話構造のグラフにおいては、各時刻においてP1〜P4の一人の人物についてバンドが存在する場合には、会話構造は集束構造であり、また二人の人物についてバンドが存在する場合には会話構造は二者結合であり、また3人以上の人物についてバンドが存在する場合には発散構造であることを示している。
図8は3時刻における視線の方向、及び、推定された会話構造を示す図である。
次に、より具体的に会話構造の時間遷移の様子を説明するために、3時刻(t1=310,t2=485,t3=578)の各参加者を写した画像を図7に示し、その各時点における視線パターン、及び、推定された会話構造を図8に示す。
101・・・頭部方向計測部
102・・・発話状態計測部
103・・・観測データ記憶部
104・・・パラメータ記憶部
105・・・ギブスサンプラー
106・・・サンプル集合記憶部
107・・・統計量計算部
108・・・出力部
Claims (6)
- 会話構造推定装置における会話構造推定方法であって、
頭部方向計測処理部が、会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、
発話有無計測処理部が、前記各人物の発話の有無を検出する発話有無計測ステップと、
初期値設定部が、各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第1の状況、参加者のうちの二者の間のみで会話が進行している第2の状況、および前記第1および第2の状況以外の第3の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、
会話構造情報更新部が、前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、
視線パターン更新部が、前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、
統計量計算部が、前記会話構造情報更新部による前記会話構造情報更新ステップと前記視線パターン更新部による前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、
を有することを特徴とする会話構造推定方法。 - 前記初期値設定ステップにおける、予め定められた事前分布は、
会話構造情報が前記第1の状況を示す場合には、前記一人の人物の視線方向の分布を一様とし、前記他の参加者全員の視線方向が前記一人の人物に対して高い値をとる分布とし、
会話構造情報が前記第2の状況を示す場合には、前記二者の間において相互凝視状態となる視線方向についての確率が高い値をとり、前記二者以外の人物の視線方向の分布を一様とし、
会話構造情報が前記第3の状況を示す場合には、前記各人物の視線方向の分布を一様とする
ことを特徴とする請求項1に記載の会話構造推定方法。 - 前記各人物の頭部方向は、
会話参加者の頭部に装着された磁気式センサーを用いて計測する
ことを特徴とする請求項1または請求項2に記載の会話構造推定方法。 - 前記各人物の発話の有無は、
前記各人物に装着されたマイクロフォンより得られる音響信号の大きさに基づいて検出する
ことを特徴とする請求項1から請求項3のいずれかに記載の会話構造推定方法。 - 会話構造推定装置のコンピュータに、
会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、
前記各人物の発話の有無を検出する発話有無計測ステップと、
各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第1の状況、参加者のうちの二者の間のみで会話が進行している第2の状況、および前記第1および第2の状況以外の第3の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、
前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、
前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、
前記会話構造情報更新ステップと前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、
を実行させるためのプログラム。 - 会話構造推定装置のコンピュータに、
会話に参加している各人物の頭部方向を計測する頭部方向計測ステップと、
前記各人物の発話の有無を検出する発話有無計測ステップと、
各時刻における前記各人物の視線方向の集合である視線パターンと、前記各時刻において、一人の人物が他の参加者全員に話しかけている第1の状況、参加者のうちの二者の間のみで会話が進行している第2の状況、および前記第1および第2の状況以外の第3の状況のうちいずれかの状況を示す会話構造情報と、の初期値として、予め定められた事前分布から発生させた乱数を設定する初期値設定ステップと、
前記各時刻における会話構造情報について、該会話構造情報を除く全ての会話構造情報と視線パターンと前記計測した頭部方向と前記検出した発話の有無とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における会話構造情報を更新する会話構造情報更新ステップと、
前記各時刻における視線パターンについて、該視線パターンを除く全ての視線パターンと前記計測した頭部方向と前記検出した発話の有無と前記会話構造情報とを条件として固定した条件付事後確率分布から発生させた乱数で、前記各時刻における視線パターンを更新する視線パターン更新ステップと、
前記会話構造情報更新ステップと前記視線パターン更新ステップとの所定回数の反復実行により得られる、前記各時刻における会話構造情報と視線パターンのうち、最頻出の会話構造情報および視線パターンを、該時刻における会話構造情報および視線パターンとして推定する統計量計算ステップと、
を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005164395A JP4804801B2 (ja) | 2005-06-03 | 2005-06-03 | 会話構造推定方法、プログラム、および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005164395A JP4804801B2 (ja) | 2005-06-03 | 2005-06-03 | 会話構造推定方法、プログラム、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006338529A JP2006338529A (ja) | 2006-12-14 |
JP4804801B2 true JP4804801B2 (ja) | 2011-11-02 |
Family
ID=37559007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005164395A Active JP4804801B2 (ja) | 2005-06-03 | 2005-06-03 | 会話構造推定方法、プログラム、および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4804801B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2012304B1 (en) * | 2007-07-06 | 2012-09-05 | Zero To One Technology | Methods for electronically analysing a dialogue and corresponding systems |
JP5134525B2 (ja) * | 2008-12-19 | 2013-01-30 | 日本電信電話株式会社 | 方向情報分布推定装置、音源数推定装置、音源方向測定装置、音源分離装置、それらの方法、それらのプログラム |
JP4934158B2 (ja) * | 2009-02-16 | 2012-05-16 | 日本電信電話株式会社 | 映像音声処理装置、映像音声処理方法、映像音声処理プログラム |
US20130054377A1 (en) * | 2011-08-30 | 2013-02-28 | Nils Oliver Krahnstoever | Person tracking and interactive advertising |
JP6415932B2 (ja) * | 2014-11-05 | 2018-10-31 | 日本電信電話株式会社 | 推定装置、推定方法、およびプログラム |
JP6545950B2 (ja) * | 2014-12-03 | 2019-07-17 | 日本電信電話株式会社 | 推定装置、推定方法、およびプログラム |
JP6238246B2 (ja) * | 2015-04-16 | 2017-11-29 | 本田技研工業株式会社 | 会話処理装置、および会話処理方法 |
JP2020038433A (ja) * | 2018-09-03 | 2020-03-12 | Zホールディングス株式会社 | 画像解析装置、画像解析方法、およびプログラム |
WO2020240730A1 (ja) * | 2019-05-29 | 2020-12-03 | 三菱電機株式会社 | 受話者推定装置、受話者推定方法、及び受話者推定プログラム |
JP2019208215A (ja) * | 2019-06-20 | 2019-12-05 | 日本電信電話株式会社 | 推定装置、推定方法、およびプログラム |
JP7309095B2 (ja) * | 2021-05-20 | 2023-07-14 | 三菱電機株式会社 | 受話者推定装置、受話者推定方法、及び受話者推定プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3879793B2 (ja) * | 1998-03-11 | 2007-02-14 | 富士ゼロックス株式会社 | 発言構造検出表示装置 |
JP2004248125A (ja) * | 2003-02-17 | 2004-09-02 | Nippon Telegr & Teleph Corp <Ntt> | 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体 |
-
2005
- 2005-06-03 JP JP2005164395A patent/JP4804801B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2006338529A (ja) | 2006-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4804801B2 (ja) | 会話構造推定方法、プログラム、および記録媒体 | |
Tao et al. | Gating neural network for large vocabulary audiovisual speech recognition | |
US10424317B2 (en) | Method for microphone selection and multi-talker segmentation with ambient automated speech recognition (ASR) | |
US9626970B2 (en) | Speaker identification using spatial information | |
EP2847763B1 (en) | Audio user interaction recognition and context refinement | |
US20170308164A1 (en) | Audio user interaction recognition and application interface | |
Donley et al. | Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments | |
WO2022039967A1 (en) | Training speech recognition systems using word sequences | |
JP5989603B2 (ja) | 推定装置、推定方法、およびプログラム | |
JP2018063313A (ja) | 話者数推定装置、話者数推定方法、およびプログラム | |
ES2339293T3 (es) | Diferenciacion de habla. | |
JP2017049364A (ja) | 発話状態判定装置、発話状態判定方法、及び判定プログラム | |
JP2012113442A (ja) | 会議分析システム及び会議分析方法並びにそのプログラム | |
CN112967731B (zh) | 一种消除语音回声的方法、装置及计算机可读介质 | |
JP6545950B2 (ja) | 推定装置、推定方法、およびプログラム | |
Inoue et al. | Speaker diarization using eye-gaze information in multi-party conversations | |
JP6383349B2 (ja) | コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム | |
CN115516553A (zh) | 用于多麦克风自动临床文档化的系统和方法 | |
Bissig et al. | RTDS: real-time discussion statistics | |
JP6363986B2 (ja) | コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム | |
Park et al. | Multistream diarization fusion using the minimum variance Bayesian information criterion | |
Wu et al. | Multi-speaker Direction of Arrival Estimation Using Audio and Visual Modalities with Convolutional Neural Network | |
Milne et al. | Use of artificial intelligence in room acoustics prediction using a photograph | |
CN117668284A (zh) | 一种发言者的识别方法、装置、设备及存储介质 | |
JP2021110910A (ja) | マルチチャンネル発話区間推定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110802 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110810 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4804801 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140819 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |