JP2016092601A - 推定装置、推定方法、およびプログラム - Google Patents
推定装置、推定方法、およびプログラム Download PDFInfo
- Publication number
- JP2016092601A JP2016092601A JP2014224962A JP2014224962A JP2016092601A JP 2016092601 A JP2016092601 A JP 2016092601A JP 2014224962 A JP2014224962 A JP 2014224962A JP 2014224962 A JP2014224962 A JP 2014224962A JP 2016092601 A JP2016092601 A JP 2016092601A
- Authority
- JP
- Japan
- Prior art keywords
- information
- speaker
- utterance
- time
- gaze target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
注視対象検出装置111−jは、参加者Ujが誰を注視しているか(注視対象)を検出し、参加者Ujおよび注視対象Gj(t)を表す情報を推定装置1に送る装置である。ただし、tは離散時間を表す。例えば、注視対象検出装置111−jは、公知の視線計測装置などを用い、参加者Ujが誰を注視しているかを検出する。一般的に市販されている視線計測装置では、参加者Ujの眼球に赤外光を当てその反射から眼球の向きを測定する。さらに、そのような装置は参加者Ujの視野に類似したシーンをカメラで撮影し、参加者Ujの眼球の向きとカメラ画像を用いて、カメラ画像中の注視位置を座標値として出力する。そのような装置を利用した場合、カメラ画像中から他の参加者Uw(ただし、w=1,…,N、w≠j)の領域を抽出し、視線計測装置で測定された注視位置がその領域に含まれるかを判定することで、参加者Ujがどの参加者を注視しているかを検出する。なお、他の参加者Uwが参加者Ujの遠隔に存在する遠隔コミュニケーション環境下では、参加者Uwが映し出されるモニター内の位置が参加者Uwの領域とされる。参加者Uwの領域検出は、画像処理による顔検出やオプティカルフローを利用するなど、どのような手法をとっても構わない。またその他、参加者Ujの注視対象を推定する手法として、画像処理やモーションキャプチャなどを用いて取得される参加者Ujの頭部情報と、マイクロホンで取得される参加者の音声情報を用いて、参加者Ujの注視対象を判定する技術を利用するなど(例えば、特開2006−338529号公報参照)、一般的に考えられるどのような手法をとっても構わない。
音声情報取得装置112−s(ただし、s=1,…,N)は、参加者Usの音声情報を取得し、取得した音声情報Xs(t)を表す情報を推定装置1に送る装置である。ただし、tは離散時間を表す。例えば、音声情報取得装置112−sは、マイクロホンを使用して参加者Usの音声情報Xs(t)を取得する。
発話単位抽出部11は、音声情報Xs(t)を入力とし、音声情報Xsから雑音成分を除去して発話成分のみを抽出し、それから発話区間Tsを取得する。本形態では、1つの発話区間Tsを、2つのTdミリ秒連続した無音区間で囲まれた、発話成分が存在する少なくとも1つの区間を含む時間区間と定義する。例えば、Tdを200ミリ秒としたとき、参加者Usについて、(a)500ミリ秒の無音、(b)200ミリ秒の発話、(c)50ミリ秒の無音、(d)150ミリ秒の発話、(e)150ミリ秒の無音、(f)400ミリ秒の発話、(g)250ミリ秒の無音、の連続した発話データがあったとき、500ミリ秒の無音区間(a)と250ミリ秒の無音区間(g)の間に挟まれた950ミリ秒の発話区間(b)〜(f)が1つ生成される。つまり、本形態の1つの発話区間Tsは、Tdミリ秒連続した2つの無音区間の間に、発話成分が存在する区間で囲まれた別のTdミリ秒連続した無音区間を含まない。本形態では、この発話区間Tsを参加者Usの発話の1つの単位と規定し、ある発話区間Tsの終了時に、同じ参加者Usが続けて発話をするか(すなわち継続するか)、あるいは他の参加者Uwの誰が発話をするのか(すなわち発話交替するか)を判定する。なお、Tdは状況に応じて自由に決定できる。ただし、Tdを長くすると実際の発話終了から発話区間終了を判定するまでの時間が長くなるため、一般的な日常会話であればTd=200〜500ミリ秒程度とするのが適当である。
注視対象ラベル生成部12は、注視対象情報G1(t),…,GN(t)、発話区間Ts、および話者情報Usを入力とし、発話区間終了前後における注視対象ラベル情報θk(ただし、k=1,…,K、Kは注視対象ラベルの総数)を生成して出力する。注視対象ラベル情報は、発話区間Tsの終了時点Tseに対応する時間区間における参加者の注視対象を表す情報である。本形態では、終了時点Tseを含む有限の時間区間における参加者Ujの注視対象をラベル付けした注視対象ラベル情報θkを例示する。例えば、発話区間Tsの終了時点Tseよりも前の時点Tse−Tbから終了時点Tseよりも後の時点Tse+Taまでの区間に出現した注視行動を扱う。Tb,Taは0以上の任意の値でよいが、目安として、Tbは0秒〜2.0秒、Taは0秒〜3.0秒程度にするのが適当である。
・ラベルS:話者(すなわち、話者である参加者Usを表す)
・ラベルLξ:非話者(ただし、ξは互いに異なる非話者である参加者を識別し、ξ=1,…,N−1である。例えば、ある参加者が、非話者U2、非話者U3、の順に注視をしていたとき、非話者U2にL1というラベル、非話者U3にL2というラベルが割り当てられる。)
・ラベルX:誰も見ていない
注視対象遷移パターン生成部13は、注視対象ラベル情報θkを入力とし、各参加者Ujの注視対象遷移パターンfjを生成する。注視対象遷移パターンの生成は、注視対象ラベルRGLを構成要素として、時間的な順序を考慮した遷移n−gramを生成して行う。ここで、nは正の整数である。例えば、図2の例を考えると、参加者U1の注視対象ラベルL1とL2Mとから生成される注視対象遷移パターンf1はL1−L2Mである。同様にして、参加者U2の注視対象遷移パターンf2はL1−SM、参加者U3の注視対象遷移パターンf3はS、参加者U4の注視対象遷移パターンf4はXとなる。
時間構造情報生成部14は、注視対象ラベル情報θkを入力とし、注視対象ラベルごとの時間構造情報Θkを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、(1)注視対象ラベルの時間長、(2)注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、(3)注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。
・INT1(=ET_RGL−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLと終了時刻ET_RGLの間隔
・INT2(=ST_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の開始時刻ST_Uよりもどれくらい前であったか
・INT3(=ET_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT4(=ET_RGL−ST_U):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の開始時刻ST_Uよりもどれくらい後であったか
・INT5(=ET_U−ET_RGL):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT6(=ST_RGL−ST_RGL’):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT7(=ET_RGL’−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい前であったか
・INT8(=ET_RGL−ST_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT9(=ET_RGL−ET_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい後であったか
・INT1=ET_SL1−ST_SL1
・INT2=ST_U−ST_SL1
・INT3=ET_U−ST_SL1
・INT4=ET_SL1−ST_U
・INT5=ET_U−ET_SL1
・INT6=ST_SL1−ST_LL1
・INT7=ET_LL1−ST_SL1
・INT8=ET_SL1−ST_LL1
・INT9=ET_SL1−ET_LL1
学習データ記憶部151には、発話者Us、注視対象遷移パターンfj、時間構造情報Θk、次発話者Us+1、および次発話開始タイミングTubがセットとなったデータセットが複数保持されている。これらの情報は、事前に複数の参加者間で行われるコミュニケーションを収録したものを収集して、上述の方法により生成したものである。あるいは、注視対象遷移パターン生成部13から送られてきた注視対象遷移パターンfj,時間構造情報生成部14から送られてきた時間構造情報Θk,発話区間Ts,発話者Us,次発話者Us+1,および次発話タイミングTubを表す情報の一部またはすべてが逐次記憶される。
次発話者算出部152は、発話単位抽出部11で得られた話者情報Us、注視対象遷移パターン生成部13で得られた注視対象遷移パターンfj、時間構造情報生成部14で得られた時間構造情報Θkを入力とし、これらを用いて次発話者となる参加者US+1を算出する。
・話者情報Us
・各参加者U1,…,U4の注視対象遷移パターンf1,…,f4
・各注視対象ラベル情報θ1,…,θ6の時間構造情報Θ1,…,Θ6
このとき、目的変数は、
・次発話者となる参加者US+1(U1,…,U4のいずれか)
である。
次発話開始タイミング算出部153は、次発話者算出部152で得られた次発話者US+1、発話単位抽出部11で得られた話者情報Us、注視対象遷移パターン生成部13で得られた注視対象遷移パターンfj、時間構造情報生成部14で得られた時間構造情報Θkを入力とし、これらを用いて次発話の開始するタイミングTubを算出する。話者情報Usは注視対象遷移パターン生成部13もしくは時間構造情報生成部14のいずれから受け取ってもよい。次発話の開始するタイミングTubは、ある時点を起点とした次の発話の開始時刻ST_Uまでの時間間隔である。例えば、ある時点の絶対時点(実時刻)をαとし、次の発話開始時点の絶対時点をβとすると、次発話開始タイミングTubはβ−αである。
・話者情報Us
・次発話者情報US+1
・各参加者U1,…,U4の注視対象遷移パターンf1,…,f4
・各注視対象ラベル情報θ1,…,θ6の時間構造情報Θ1,…,Θ6
このとき、目的変数は、
・次発話者情報US+1が発話を開始するタイミングTub(次の発話の開始時刻ST_Uを任意の時刻を基点とした時間間隔)
である。
・話者情報Us
・各参加者U1,…,U4の注視対象遷移パターンf1,…,f4
・各注視対象ラベル情報θ1,…,θ6の時間構造情報Θ1,…,Θ6
目的変数は、
・参加者U1,…,U4のうちいずれかが発話を開始するタイミングTub
となる。すなわち、次発話者US+1と次発話開始タイミングTubの両方を得る場合と比較すると、次発話者情報US+1を入力として持たない予測モデルとなる。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
11 発話単位抽出部
12 注視対象ラベル生成部
13 注視対象遷移パターン生成部
14 時間構造情報生成部
15 推定部
151 学習データ記憶部
152 次発話者算出部
153 次発話開始タイミング算出部
Claims (6)
- 発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の視線行動の時間的な関係を表す時間構造情報を得る時間構造情報生成部と、
上記発話区間の話者を表す話者情報および上記時間構造情報の少なくとも一部に基づいて、上記発話区間の次の発話区間の話者を示す次発話者情報および上記発話区間の次の発話区間の開始タイミングを示す次発話開始タイミング情報の少なくとも一方を得る推定部と、
を含む推定装置。 - 請求項1に記載の推定装置であって、
上記発話区間の終了時点に対応する時間区間における上記コミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを得る注視対象遷移パターン生成部をさらに含み、
上記推定部は、上記話者情報、上記時間構造情報の少なくとも一部、および上記注視対象遷移パターンに基づいて、上記次発話者情報および上記次発話開始タイミング情報の少なくとも一方を得るものである
推定装置。 - 請求項1または2に記載の推定装置であって、
上記推定部は、上記話者情報および上記時間構造情報の少なくとも一部に対応する特徴量を学習した予測モデルを機械学習し、上記予測モデルを用いて上記次発話者情報および上記次発話開始タイミング情報の少なくとも一方を得るものである
推定装置。 - 請求項1または2に記載の推定装置であって、
上記推定部は、上記話者情報および上記時間構造情報の少なくとも一部に対応する情報の閾値判定によって、上記次発話者情報および上記次発話開始タイミング情報の少なくとも一方を得るものである
推定装置。 - 時間構造情報生成部が、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の視線行動の時間的な関係を表す時間構造情報を得る時間構造情報生成ステップと、
推定部が、上記発話区間の話者を表す話者情報および上記時間構造情報の少なくとも一部に基づいて、上記発話区間の次の発話区間の話者を示す次発話者情報および上記発話区間の次の発話区間の開始タイミングを示す次発話開始タイミング情報の少なくとも一方を得る推定ステップと、
を含む推定方法。 - 請求項1から4のいずれかに記載の推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014224962A JP6415932B2 (ja) | 2014-11-05 | 2014-11-05 | 推定装置、推定方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014224962A JP6415932B2 (ja) | 2014-11-05 | 2014-11-05 | 推定装置、推定方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016092601A true JP2016092601A (ja) | 2016-05-23 |
JP6415932B2 JP6415932B2 (ja) | 2018-10-31 |
Family
ID=56019085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014224962A Active JP6415932B2 (ja) | 2014-11-05 | 2014-11-05 | 推定装置、推定方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6415932B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000350192A (ja) * | 1999-04-14 | 2000-12-15 | Canon Inc | 画像処理装置 |
JP2004515982A (ja) * | 2000-12-05 | 2004-05-27 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | テレビ会議及び他の適用においてイベントを予測する方法及び装置 |
JP2006338529A (ja) * | 2005-06-03 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | 会話構造推定方法 |
JP2007147762A (ja) * | 2005-11-24 | 2007-06-14 | Fuji Xerox Co Ltd | 発話者予測装置および発話者予測方法 |
-
2014
- 2014-11-05 JP JP2014224962A patent/JP6415932B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000350192A (ja) * | 1999-04-14 | 2000-12-15 | Canon Inc | 画像処理装置 |
JP2004515982A (ja) * | 2000-12-05 | 2004-05-27 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | テレビ会議及び他の適用においてイベントを予測する方法及び装置 |
JP2006338529A (ja) * | 2005-06-03 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | 会話構造推定方法 |
JP2007147762A (ja) * | 2005-11-24 | 2007-06-14 | Fuji Xerox Co Ltd | 発話者予測装置および発話者予測方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6415932B2 (ja) | 2018-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tao et al. | End-to-end audiovisual speech recognition system with multitask learning | |
US11017779B2 (en) | System and method for speech understanding via integrated audio and visual based speech recognition | |
JP5989603B2 (ja) | 推定装置、推定方法、およびプログラム | |
KR102611751B1 (ko) | 키 문구 사용자 인식의 증강 | |
Ahuja et al. | To react or not to react: End-to-end visual pose forecasting for personalized avatar during dyadic conversations | |
Morency et al. | A probabilistic multimodal approach for predicting listener backchannels | |
JP6923827B2 (ja) | コミュニケーションスキル評価システム、装置、方法、及びプログラム | |
Niewiadomski et al. | Automated laughter detection from full-body movements | |
WO2019161196A2 (en) | System and method for disambiguating a source of sound based on detected lip movement | |
Greenwood et al. | Predicting head pose in dyadic conversation | |
Ben-Youssef et al. | Early detection of user engagement breakdown in spontaneous human-humanoid interaction | |
JP2011186521A (ja) | 感情推定装置および感情推定方法 | |
WO2024032159A1 (zh) | 多人机交互场景下的说话对象检测 | |
Hirayama et al. | Info-concierge: Proactive multi-modal interaction through mind probing | |
Oliveira et al. | An active audition framework for auditory-driven HRI: Application to interactive robot dancing | |
Chu et al. | Multimodal real-time contingency detection for HRI | |
WO2018135304A1 (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP6480351B2 (ja) | 発話制御システム、発話制御装置及び発話制御プログラム | |
Mancini et al. | Laugh when you’re winning | |
JP6415932B2 (ja) | 推定装置、推定方法、およびプログラム | |
Türker et al. | Audio-Visual Prediction of Head-Nod and Turn-Taking Events in Dyadic Interactions. | |
JP6545950B2 (ja) | 推定装置、推定方法、およびプログラム | |
Tahir et al. | Real-time sociometrics from audio-visual features for two-person dialogs | |
Tesema et al. | Addressee detection using facial and audio features in mixed human–human and human–robot settings: A deep learning framework | |
US11475911B2 (en) | Estimation device, estimation method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180313 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181002 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181003 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6415932 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |