JP2016092601A - 推定装置、推定方法、およびプログラム - Google Patents

推定装置、推定方法、およびプログラム Download PDF

Info

Publication number
JP2016092601A
JP2016092601A JP2014224962A JP2014224962A JP2016092601A JP 2016092601 A JP2016092601 A JP 2016092601A JP 2014224962 A JP2014224962 A JP 2014224962A JP 2014224962 A JP2014224962 A JP 2014224962A JP 2016092601 A JP2016092601 A JP 2016092601A
Authority
JP
Japan
Prior art keywords
information
speaker
utterance
time
gaze target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014224962A
Other languages
English (en)
Other versions
JP6415932B2 (ja
Inventor
亮 石井
Akira Ishii
亮 石井
和弘 大塚
Kazuhiro Otsuka
和弘 大塚
史朗 熊野
Shiro Kumano
史朗 熊野
淳司 大和
Atsushi Yamato
淳司 大和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014224962A priority Critical patent/JP6415932B2/ja
Publication of JP2016092601A publication Critical patent/JP2016092601A/ja
Application granted granted Critical
Publication of JP6415932B2 publication Critical patent/JP6415932B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定する。【解決手段】時間構造情報生成部14は、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の視線行動の時間的な関係を表す時間構造情報を得る。推定部15は、発話区間の話者を表す話者情報および時間構造情報の少なくとも一部に基づいて、発話区間の次の発話区間の話者を示す次発話者情報および発話区間の次の発話区間の開始タイミングを示す次発話開始タイミング情報の少なくとも一方を得る。【選択図】図1

Description

本発明は、複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定するための技術に関する。
多人数の遠隔コミュニケーションにおいて、顔や人物の様子が見えない、映像があっても意図が読めない、遅延によって発話のタイミングがずれるといった諸問題から、発話の衝突が頻繁に起こるという問題がある。そのため、音声や映像の情報を解析し次に話し始める人物(次発話者)を推定する技術や、推定結果から参加者に次発話者を通知することで発話衝突を軽減する手法が提案されている。例えば、特許文献1では、参加者の動作や同調リズムから次発話者を推定している。また、特許文献2では、人間の注視行動に着目し、発話者以外の参加者が見ていた被注視対象者を次発話者と決定している。
特開2012−146072号公報 特開2006−338493号公報
しかしながら、これらの次発話者推定手法は、推定精度が低く不十分なものである。特許文献1の手法では、参加者の動作や同調リズムから次発話者が推定可能であるとしているが、具体的な計算方法は明記されていない。また、特許文献2の手法では、話者以外の参加者が見ていた被注視対象者を次発話者と決定している。しかしながら、必ず次発話者を他の参加者が注視するとは限らないため、精度に課題がある。また、いつ次発話者が話し始めるかといった厳密なタイミングを推定する試みは行われていなかった。
本発明はこのような点に鑑みてなされたものであり、複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定することを課題とする。
上記の課題を解決するために、本発明の推定装置は、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の視線行動の時間的な関係を表す時間構造情報を得る時間構造情報生成部と、発話区間の話者を表す話者情報および時間構造情報の少なくとも一部に基づいて、発話区間の次の発話区間の話者を示す次発話者情報および発話区間の次の発話区間の開始タイミングを示す次発話開始タイミング情報の少なくとも一方を得る推定部と、を含む。
本発明では、複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定することができる。
図1は、推定装置の機能構成を例示したブロック図である。 図2は、注視対象遷移パターンを例示したブロック図である。 図3は、時間構造情報を例示したブロック図である。
図面を参照して本発明の実施形態を説明する。
実施形態の推定装置および方法では、複数の参加者間で行われる会話を含むコミュニケーションにおいて、発話終了前後の参加者の視線行動と次に話し始める参加者や話し始めるタイミングに強い関連性があることを利用する。参加者の音声情報から発話単位を自動的に生成し、参加者全員ないしは複数の参加者の発話単位付きの視線行動を入力とし、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象を表す注視対象ラベルから、注視対象の移り変わり(遷移)を表す注視対象遷移パターンと、視線行動の時間的な関係を表す時間構造情報とを生成する。その注視対象遷移パターンと時間構造情報とを用いて次に発話を開始する参加者およびタイミングの少なくとも一方を高精度で推定する。
本形態で取り扱うコミュニケーションは、参加者間での対面コミュニケーションであってもよいし、テレビ電話やビデオチャットなど映像を用いた遠隔コミュニケーションであってもよい。また、対面コミュニケーションを行う複数の参加者の遠隔地に遠隔コミュニケーションを行う他の参加者が存在し、対面コミュニケーションおよび遠隔コミュニケーションの両方が行われるものであってもよい。また、参加者は人間と同等なコミュニケーション能力を保有した会話ヒューマノイドなどの対話システムでもよい。コミュニケーションの参加人数は2人以上であれば、特に制約はない。
本形態では、参加者の視線行動の情報として、(1)参加者の注視対象の移り変わりを表す遷移パターン、(2)視線行動と前の発話者との時間的な関係や、視線行動の持続時間、複数人の視線行動の時間的な関係、などに着目する。以下では、上記(2)の情報を視線行動のタイミング構造情報もしくは時間構造情報と呼ぶ。例えば、タイミング構造情報のうち、ある視線行動の組でどちらが先に行動を開始もしくは終了したかという情報は、次発話者を決めるうえで非常に有用な情報となる。具体的には、ある参加者が話者と視線交差をしたときに、その参加者が先に話者から視線を外した場合、その参加者が次発話者となる確率が非常に高くなる。逆に、その参加者よりも先に話者が視線を外した場合は、その参加者が次発話者となる確率は低くなる。このように、視線行動および視線行動の移り変わり(遷移)だけでなく、視線行動の時間的な関係は次発話者や次発話開始のタイミングを予測する上で有用な情報である。
図1に例示するように、本形態のシステムは、推定装置1、N個の注視対象検出装置111−1〜N、および音声情報取得装置112−1〜Nを有する。推定装置1は、発話単位抽出部11、注視対象ラベル生成部12、注視対象遷移パターン生成部13、時間構造情報生成部14、および推定部15を有する。推定部15は、学習データ記憶部151、次発話者算出部152、および次発話開始タイミング算出部153を有する。Nは2以上の整数であり、コミュニケーションの参加者U〜Uの人数を表す。
注視対象検出装置111−jおよび音声情報取得装置112−jは、各参加者U(ただし、j=1,…,N)の注視対象の検出および音声情報の取得を行う。対面コミュニケーション環境下で本システムを利用する場合、すべての注視対象検出装置111−1〜Nおよび音声情報取得装置112−1〜Nは、参加者U〜Uが対面コミュニケーションを行う場所に配置され、それらで得られた情報が推定装置1に直接送られる。遠隔コミュニケーション環境下で本システムを利用する場合、各注視対象検出装置111−jおよび各音声情報取得装置112−jは、各参加者Uが存在する各拠点に配置され、それらで得られた情報がネットワーク経由で推定装置1に送信される。対面コミュニケーションおよび遠隔コミュニケーションの両方が行われる環境下で本システムを利用する場合、各参加者Uが存在する場所に注視対象検出装置111−jおよび音声情報取得装置112−jが配置され、それらで得られた情報がネットワーク経由または直接に推定装置1に送られる。
本システムは、注視対象検出装置111−1〜N、音声情報取得装置112−1〜N、発話単位抽出部11、注視対象ラベル生成部12、注視対象遷移パターン生成部13、時間構造情報生成部14、および推定部15が実行する一連の処理を繰り返し行うことで、常時、次発話者もしくは次発話開始タイミングの推定を行う。
[注視対象検出装置111−j]
注視対象検出装置111−jは、参加者Uが誰を注視しているか(注視対象)を検出し、参加者Uおよび注視対象G(t)を表す情報を推定装置1に送る装置である。ただし、tは離散時間を表す。例えば、注視対象検出装置111−jは、公知の視線計測装置などを用い、参加者Uが誰を注視しているかを検出する。一般的に市販されている視線計測装置では、参加者Uの眼球に赤外光を当てその反射から眼球の向きを測定する。さらに、そのような装置は参加者Uの視野に類似したシーンをカメラで撮影し、参加者Uの眼球の向きとカメラ画像を用いて、カメラ画像中の注視位置を座標値として出力する。そのような装置を利用した場合、カメラ画像中から他の参加者U(ただし、w=1,…,N、w≠j)の領域を抽出し、視線計測装置で測定された注視位置がその領域に含まれるかを判定することで、参加者Uがどの参加者を注視しているかを検出する。なお、他の参加者Uが参加者Uの遠隔に存在する遠隔コミュニケーション環境下では、参加者Uが映し出されるモニター内の位置が参加者Uの領域とされる。参加者Uの領域検出は、画像処理による顔検出やオプティカルフローを利用するなど、どのような手法をとっても構わない。またその他、参加者Uの注視対象を推定する手法として、画像処理やモーションキャプチャなどを用いて取得される参加者Uの頭部情報と、マイクロホンで取得される参加者の音声情報を用いて、参加者Uの注視対象を判定する技術を利用するなど(例えば、特開2006−338529号公報参照)、一般的に考えられるどのような手法をとっても構わない。
[音声情報取得装置112−s]
音声情報取得装置112−s(ただし、s=1,…,N)は、参加者Uの音声情報を取得し、取得した音声情報X(t)を表す情報を推定装置1に送る装置である。ただし、tは離散時間を表す。例えば、音声情報取得装置112−sは、マイクロホンを使用して参加者Uの音声情報X(t)を取得する。
[発話単位抽出部11]
発話単位抽出部11は、音声情報X(t)を入力とし、音声情報Xから雑音成分を除去して発話成分のみを抽出し、それから発話区間Tを取得する。本形態では、1つの発話区間Tを、2つのTdミリ秒連続した無音区間で囲まれた、発話成分が存在する少なくとも1つの区間を含む時間区間と定義する。例えば、Tdを200ミリ秒としたとき、参加者Uについて、(a)500ミリ秒の無音、(b)200ミリ秒の発話、(c)50ミリ秒の無音、(d)150ミリ秒の発話、(e)150ミリ秒の無音、(f)400ミリ秒の発話、(g)250ミリ秒の無音、の連続した発話データがあったとき、500ミリ秒の無音区間(a)と250ミリ秒の無音区間(g)の間に挟まれた950ミリ秒の発話区間(b)〜(f)が1つ生成される。つまり、本形態の1つの発話区間Tは、Tdミリ秒連続した2つの無音区間の間に、発話成分が存在する区間で囲まれた別のTdミリ秒連続した無音区間を含まない。本形態では、この発話区間Tを参加者Uの発話の1つの単位と規定し、ある発話区間Tの終了時に、同じ参加者Uが続けて発話をするか(すなわち継続するか)、あるいは他の参加者Uの誰が発話をするのか(すなわち発話交替するか)を判定する。なお、Tdは状況に応じて自由に決定できる。ただし、Tdを長くすると実際の発話終了から発話区間終了を判定するまでの時間が長くなるため、一般的な日常会話であればTd=200〜500ミリ秒程度とするのが適当である。
また、発話単位抽出部11は、抽出した発話区間Tsに対して誰が発話者であるのかを示す話者情報Uを取得する。話者情報は、複数のマイクロホンを用いて、マイクロホンごとに収音される音声の時間差や、音の大きさ、音声的特徴などを使って抽出可能であり、一般的に考えられるあらゆる手段を用いてよい。
発話単位抽出部11は、以上のように得た発話区間Tとそれに対応する参加者Uを表す情報(誰が発話したかを表す話者情報)を注視対象ラベル生成部12へ出力する。
[注視対象ラベル生成部12]
注視対象ラベル生成部12は、注視対象情報G(t),…,G(t)、発話区間T、および話者情報Uを入力とし、発話区間終了前後における注視対象ラベル情報θ(ただし、k=1,…,K、Kは注視対象ラベルの総数)を生成して出力する。注視対象ラベル情報は、発話区間Tの終了時点Tseに対応する時間区間における参加者の注視対象を表す情報である。本形態では、終了時点Tseを含む有限の時間区間における参加者Uの注視対象をラベル付けした注視対象ラベル情報θを例示する。例えば、発話区間Tの終了時点Tseよりも前の時点Tse−Tから終了時点Tseよりも後の時点Tse+Tまでの区間に出現した注視行動を扱う。T,Tは0以上の任意の値でよいが、目安として、Tは0秒〜2.0秒、Tは0秒〜3.0秒程度にするのが適当である。
注視対象ラベル生成部12は、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルS:話者(すなわち、話者である参加者Uを表す)
・ラベルLξ:非話者(ただし、ξは互いに異なる非話者である参加者を識別し、ξ=1,…,N−1である。例えば、ある参加者が、非話者U、非話者U、の順に注視をしていたとき、非話者UにLというラベル、非話者UにLというラベルが割り当てられる。)
・ラベルX:誰も見ていない
ラベルがSまたはLξのときには、相互注視(視線交差)が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、S,LξM(下付き添え字の「ξM」はξを表す)のように、ラベルS,Lξの末尾にMラベルを付与する。
図2に注視対象ラベルの具体例を示す。図2はN=4の例であり、発話区間T,Ts+1と各参加者の注視対象が時系列に示されている。図2の例では、参加者Uが発話した後、発話交替が起き、新たに参加者Uが発話をした際の様子を示している。ここでは、話者である参加者Uが参加者Uを注視した後、参加者Uを注視している。Tse−Tの時点からTse+Tの時点までの区間では、参加者Uが参加者Uを見ていたとき、参加者Uは参加者Uを見ている。これは、参加者Uと参加者Uとで相互注視が起きていることを表す。この場合、参加者Uの注視対象情報G(t)から生成される注視対象ラベルはLとL2Mの2つとなる。上述の区間では、参加者Uは参加者Uを注視した後、話者である参加者Uを注視している。この場合、参加者Uの注視対象ラベルはLとSの2つとなる。また、上述の区間では、参加者Uは話者である参加者Uを注視している。この場合、参加者Uの注視対象ラベルはSとなる。また、上述の区間では、参加者Uは誰も見ていない。この場合、参加者Uの注視対象ラベルはXとなる。したがって、図2の例では、K=6である。
注視対象ラベル生成部12は、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰(R∈{S,L})のどの注視対象ラベル(GL∈{S,S,L,L1M,L,L2M,…})であるかを示す記号としてRGL、その開始時刻をST_RGL、終了時刻をET_RGLと定義する。ただし、Rは参加者の発話状態(話者か非話者か)を表し、Sは話者、Lは非話者である。例えば、図2の例において、参加者Uの最初の注視対象ラベルはSL1であり、その開始時刻はST_SL1、終了時刻はET_SL1である。注視対象ラベル情報θは注視対象ラベルRGL、開始時刻ST_RGL、および終了時刻ET_RGLを含む情報である。
注視対象ラベル生成部12は、以上のように得た注視対象ラベル情報θを注視対象遷移パターン生成部13および時間構造情報生成部14へ出力する。
[注視対象遷移パターン生成部13]
注視対象遷移パターン生成部13は、注視対象ラベル情報θを入力とし、各参加者Uの注視対象遷移パターンfを生成する。注視対象遷移パターンの生成は、注視対象ラベルRGLを構成要素として、時間的な順序を考慮した遷移n−gramを生成して行う。ここで、nは正の整数である。例えば、図2の例を考えると、参加者Uの注視対象ラベルLとL2Mとから生成される注視対象遷移パターンfはL−L2Mである。同様にして、参加者Uの注視対象遷移パターンfはL−S、参加者Uの注視対象遷移パターンfはS、参加者Uの注視対象遷移パターンfはXとなる。
注視対象遷移パターン生成部13は、以上のように得た注視対象遷移パターンfを推定部15へ出力する。注視対象遷移パターンfは、例えば発話区間Ts+1が開始された後に、発話区間Tおよびその発話者U、発話区間Ts+1に該当する発話を行う次発話者Us+1、および次発話開始タイミングTubを表す情報とともに学習データ記憶部151に送られる。
[時間構造情報生成部14]
時間構造情報生成部14は、注視対象ラベル情報θを入力とし、注視対象ラベルごとの時間構造情報Θを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、(1)注視対象ラベルの時間長、(2)注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、(3)注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。
時間構造情報の具体的なパラメータを以下に示す。以下では、発話区間の開始時刻をST_U、発話区間の終了時刻をET_Uと定義する。
・INT1(=ET_RGL−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLと終了時刻ET_RGLの間隔
・INT2(=ST_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の開始時刻ST_Uよりもどれくらい前であったか
・INT3(=ET_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT4(=ET_RGL−ST_U):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の開始時刻ST_Uよりもどれくらい後であったか
・INT5(=ET_U−ET_RGL):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT6(=ST_RGL−ST_RGL’):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT7(=ET_RGL’−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい前であったか
・INT8(=ET_RGL−ST_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT9(=ET_RGL−ET_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい後であったか
なお、INT6〜INT9については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図2の例では、注視対象ラベル情報は全部で6つ(L,L2M,L,S,S,X)あるため、INT6〜INT9は、それぞれ6×5=30個のデータが生成される。
時間構造情報Θは注視対象ラベル情報θについてのパラメータINT1〜INT9からなる情報である。図3を用いて時間構造情報Θを構成する上記の各パラメータを具体的に示す。図3は、話者である参加者U(R=S)の注視対象ラベルLについての時間構造情報を示したものである。すなわち、RGL=SL1における時間構造情報である。なお、INT6〜INT9については、図示を簡略化するために、参加者Uの注視対象ラベルL、すなわちRGL=LL1との関係のみを示す。図3の例では、INT1〜INT9は以下のように求められることがわかる。
・INT1=ET_SL1−ST_SL1
・INT2=ST_U−ST_SL1
・INT3=ET_U−ST_SL1
・INT4=ET_SL1−ST_U
・INT5=ET_U−ET_SL1
・INT6=ST_SL1−ST_LL1
・INT7=ET_LL1−ST_SL1
・INT8=ET_SL1−ST_LL1
・INT9=ET_SL1−ET_LL1
時間構造情報生成部14は、以上のように得た時間構造情報Θを推定部15へ出力する。時間構造情報Θは、例えば次の発話区間Ts+1が開始された後に、発話区間Tおよびその発話者U、発話区間Ts+1に該当する発話を行う次発話者Us+1、および次発話開始タイミングTubを表す情報とともに学習データ記憶部151に送られる。学習データ記憶部151では、注視対象遷移パターン生成部13から送られた注視対象遷移パターンfと併合され、Θ,f,T,U,Us+1,Tubを表す情報の一部またはすべてが学習データ記憶部151に保持される。また、次発話者算出部152、次発話開始タイミング算出部153には、発話区間Tの終了時点Tseよりも後の時点Tse+Tで、Θ,f,T,Uが送られる。
[学習データ記憶部151]
学習データ記憶部151には、発話者U、注視対象遷移パターンf、時間構造情報Θ、次発話者Us+1、および次発話開始タイミングTubがセットとなったデータセットが複数保持されている。これらの情報は、事前に複数の参加者間で行われるコミュニケーションを収録したものを収集して、上述の方法により生成したものである。あるいは、注視対象遷移パターン生成部13から送られてきた注視対象遷移パターンf,時間構造情報生成部14から送られてきた時間構造情報Θ,発話区間T,発話者U,次発話者Us+1,および次発話タイミングTubを表す情報の一部またはすべてが逐次記憶される。
[次発話者算出部152]
次発話者算出部152は、発話単位抽出部11で得られた話者情報U、注視対象遷移パターン生成部13で得られた注視対象遷移パターンf、時間構造情報生成部14で得られた時間構造情報Θを入力とし、これらを用いて次発話者となる参加者US+1を算出する。
次発話者の算出方法としては、例えば、(1)注視対象遷移パターンfと、時間構造情報ΘのパラメータINT1〜INT9のうち少なくとも一つとを用いて、ある注視対象遷移パターンfが出現した際にあらかじめ定められた次発話者US+1を決定するような条件判定、(2)時間構造情報ΘのパラメータINT1〜INT9のいずれかがあらかじめ定めた閾値を超えた際に次発話者US+1を決定するなどの閾値判定、または、(3)サポートベクターマシンに代表されるような機械学習の一般的な手法により次発話者US+1を予測する判定手法、などを用いることができる。
(2)閾値判定を用いる手法の具体例としては、以下のとおりである。ここでは、話者である参加者Uの注視対象ラベルがL1M(非話者と相互注視)であり、非話者である参加者Uの注視対象ラベルがS(話者と相互注視)であるときを考える。このとき、話者の注視対象ラベルSL1M(下付き添え字の「L1M」はL1Mを表し、下付き添え字の「1M」は1を表す)の終了時刻ET_SL1Mが非話者の注視対象ラベルLSM(下付き添え字の「SM」はSを表す)の終了時刻ET_LSMよりもどれくらい後であったかを示すパラメータINT9は、次発話者が非話者である参加者Uになるとき(すなわち発話交替が起きるとき)は正の値を取り、次発話者が話者である参加者Uであるとき(すなわち発話継続するとき)は負の値を取る傾向にある。この性質を利用して、INT9<α(αは任意の閾値)が成り立つときに、次発話者は現在の話者である参加者Uと判定する。
(3)機械学習を用いる判定手法の具体例を図2の注視対象データを用いて以下に示す。次発話者算出部152は、学習データ記憶部151に記憶されたデータセットから以下の特徴量を読み込み、これらを学習データとして、次発話者の予測モデルを学習する。
・話者情報U
・各参加者U,…,Uの注視対象遷移パターンf,…,f
・各注視対象ラベル情報θ,…,θの時間構造情報Θ,…,Θ
このとき、目的変数は、
・次発話者となる参加者US+1(U,…,Uのいずれか)
である。
予測モデルの学習は、本形態の推定装置を利用する際に最初に一度だけ行ってもよいし、随時オンラインでデータを収集しながら学習データ記憶部151に新たなデータが追加されるたび、逐次行ってもよい。または、所定の契機ごとに行われてもよい。機械学習手法はどのようなものを利用してもよい。例えば、SVM(Support Vector Machine)、GMM(Gaussian Mixture Model)、HMM(Hidden Markov Model)等の一般的な手法を用いればよい。
次発話者算出部152は、話者情報U、注視対象遷移パターンf、および時間構造情報Θを、上記のように学習した予測モデルに入力して次発話者US+1を得、その次発話者US+1を表す推定情報を予測結果として出力する。
[次発話開始タイミング算出部153]
次発話開始タイミング算出部153は、次発話者算出部152で得られた次発話者US+1、発話単位抽出部11で得られた話者情報U、注視対象遷移パターン生成部13で得られた注視対象遷移パターンf、時間構造情報生成部14で得られた時間構造情報Θを入力とし、これらを用いて次発話の開始するタイミングTubを算出する。話者情報Uは注視対象遷移パターン生成部13もしくは時間構造情報生成部14のいずれから受け取ってもよい。次発話の開始するタイミングTubは、ある時点を起点とした次の発話の開始時刻ST_Uまでの時間間隔である。例えば、ある時点の絶対時点(実時刻)をαとし、次の発話開始時点の絶対時点をβとすると、次発話開始タイミングTubはβ−αである。
次発話開始タイミングの算出方法としては、例えば、(1)注視対象遷移パターンfと、時間構造情報ΘのパラメータINT1〜INT9のうち少なくとも一つとを用いて、ある注視対象遷移パターンfが出現した際にあらかじめ定められた発話開始タイミングTubを決定するような条件判定、(2)時間構造情報ΘのパラメータINT1〜INT9に対応した、次発話開始タイミングの関数式(例えば、INT1を引数としてタイミングTを出力するT=F(INT1)などの関数)を、あらかじめ一般的な会話データを利用して作成しておき利用する算出手法、または、(3)サポートベクターマシンに代表されるような機械学習の一般的な手法により次発話開始タイミングTubを予測する算出手法、などを用いることができる。
(3)機械学習を用いる算出手法の具体例を図2の注視対象データを用いて以下に示す。次発話開始タイミング算出部153は、学習データ記憶部151に記憶されたデータセットから以下の特徴量を読み込み、これらを学習データとして、次発話開始タイミングの予測モデルを学習する。
・話者情報U
・次発話者情報US+1
・各参加者U,…,Uの注視対象遷移パターンf,…,f
・各注視対象ラベル情報θ,…,θの時間構造情報Θ,…,Θ
このとき、目的変数は、
・次発話者情報US+1が発話を開始するタイミングTub(次の発話の開始時刻ST_Uを任意の時刻を基点とした時間間隔)
である。
予測モデルの学習は、本形態の推定装置を利用する際に最初に一度だけ行ってもよいし、随時オンラインでデータを収集しながら学習データ記憶部151に新たなデータが追加されるたび、逐次行ってもよい。または、所定の契機ごとに行われてもよい。機械学習手法はどのようなものを利用してもよい。例えば、SVM(Support Vector Machine)、GMM(Gaussian Mixture Model)、HMM(Hidden Markov Model)等の一般的な手法を用いればよい。
次発話開始タイミング算出部153は、話者情報U、注視対象遷移パターンf、および時間構造情報Θを、上記のように学習した予測モデルに入力して次発話開始タイミングTubを得、その次発話開始タイミングTubを表す推定情報を予測結果として出力する。また、次発話開始タイミング算出部153は、発話者U、注視対象遷移パターンf、時間構造情報Θ、次発話者US+1、および次発話開始タイミングTubをセットにして学習データ記憶部151に記憶し、以降に行われる予測モデルの学習に利用できるようにする。
本形態では、推定部15が次発話者算出部152および次発話開始タイミング算出部153をいずれも有し、次発話者US+1および発話開始タイミングTubを出力する構成を説明した。しかしながら、推定部15が次発話者算出部152および次発話開始タイミング算出部153のいずれか一方のみを有するように構成することも可能である。すなわち、推定部15は、話者情報U、注視対象遷移パターンf、および時間構造情報Θを入力とし、次発話者US+1もしくは次発話開始タイミングTubの少なくとも一方を表す推定情報を予測結果として出力する構成としてもよい。
例えば、推定部15が次発話開始タイミングTubのみを表す推定情報を予測結果として出力する構成では、次発話開始タイミング算出部153は次発話者US+1を利用することができない。そのため、次発話開始タイミングTubは、次発話者は特定されないが参加者のうち誰かが発話を開始するタイミングとなる。このとき、図2の注視対象データを用いて次発話開始タイミングの予測モデルを具体的に例示すると、以下の特徴量を学習データとし、
・話者情報U
・各参加者U,…,Uの注視対象遷移パターンf,…,f
・各注視対象ラベル情報θ,…,θの時間構造情報Θ,…,Θ
目的変数は、
・参加者U,…,Uのうちいずれかが発話を開始するタイミングTub
となる。すなわち、次発話者US+1と次発話開始タイミングTubの両方を得る場合と比較すると、次発話者情報US+1を入力として持たない予測モデルとなる。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
以上により、高精度に次発話者および次発話開始のタイミングをリアルタイムで予測推定可能となる。この次発話開始のタイミング推定はさまざまなシーンで利用可能であり、例えば、遅延のある遠隔コミュニケーションシステムにおいて、予測結果を基にユーザに次発話者を提示することで発話回避をさせることや、コミュニケーションロボットがユーザの発話開始を予測しながらタイミングよく発話をするための基盤的な技術となる。
1 推定装置
11 発話単位抽出部
12 注視対象ラベル生成部
13 注視対象遷移パターン生成部
14 時間構造情報生成部
15 推定部
151 学習データ記憶部
152 次発話者算出部
153 次発話開始タイミング算出部

Claims (6)

  1. 発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の視線行動の時間的な関係を表す時間構造情報を得る時間構造情報生成部と、
    上記発話区間の話者を表す話者情報および上記時間構造情報の少なくとも一部に基づいて、上記発話区間の次の発話区間の話者を示す次発話者情報および上記発話区間の次の発話区間の開始タイミングを示す次発話開始タイミング情報の少なくとも一方を得る推定部と、
    を含む推定装置。
  2. 請求項1に記載の推定装置であって、
    上記発話区間の終了時点に対応する時間区間における上記コミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを得る注視対象遷移パターン生成部をさらに含み、
    上記推定部は、上記話者情報、上記時間構造情報の少なくとも一部、および上記注視対象遷移パターンに基づいて、上記次発話者情報および上記次発話開始タイミング情報の少なくとも一方を得るものである
    推定装置。
  3. 請求項1または2に記載の推定装置であって、
    上記推定部は、上記話者情報および上記時間構造情報の少なくとも一部に対応する特徴量を学習した予測モデルを機械学習し、上記予測モデルを用いて上記次発話者情報および上記次発話開始タイミング情報の少なくとも一方を得るものである
    推定装置。
  4. 請求項1または2に記載の推定装置であって、
    上記推定部は、上記話者情報および上記時間構造情報の少なくとも一部に対応する情報の閾値判定によって、上記次発話者情報および上記次発話開始タイミング情報の少なくとも一方を得るものである
    推定装置。
  5. 時間構造情報生成部が、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の視線行動の時間的な関係を表す時間構造情報を得る時間構造情報生成ステップと、
    推定部が、上記発話区間の話者を表す話者情報および上記時間構造情報の少なくとも一部に基づいて、上記発話区間の次の発話区間の話者を示す次発話者情報および上記発話区間の次の発話区間の開始タイミングを示す次発話開始タイミング情報の少なくとも一方を得る推定ステップと、
    を含む推定方法。
  6. 請求項1から4のいずれかに記載の推定装置としてコンピュータを機能させるためのプログラム。
JP2014224962A 2014-11-05 2014-11-05 推定装置、推定方法、およびプログラム Active JP6415932B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014224962A JP6415932B2 (ja) 2014-11-05 2014-11-05 推定装置、推定方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014224962A JP6415932B2 (ja) 2014-11-05 2014-11-05 推定装置、推定方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2016092601A true JP2016092601A (ja) 2016-05-23
JP6415932B2 JP6415932B2 (ja) 2018-10-31

Family

ID=56019085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014224962A Active JP6415932B2 (ja) 2014-11-05 2014-11-05 推定装置、推定方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6415932B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000350192A (ja) * 1999-04-14 2000-12-15 Canon Inc 画像処理装置
JP2004515982A (ja) * 2000-12-05 2004-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テレビ会議及び他の適用においてイベントを予測する方法及び装置
JP2006338529A (ja) * 2005-06-03 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 会話構造推定方法
JP2007147762A (ja) * 2005-11-24 2007-06-14 Fuji Xerox Co Ltd 発話者予測装置および発話者予測方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000350192A (ja) * 1999-04-14 2000-12-15 Canon Inc 画像処理装置
JP2004515982A (ja) * 2000-12-05 2004-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テレビ会議及び他の適用においてイベントを予測する方法及び装置
JP2006338529A (ja) * 2005-06-03 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 会話構造推定方法
JP2007147762A (ja) * 2005-11-24 2007-06-14 Fuji Xerox Co Ltd 発話者予測装置および発話者予測方法

Also Published As

Publication number Publication date
JP6415932B2 (ja) 2018-10-31

Similar Documents

Publication Publication Date Title
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
US11017779B2 (en) System and method for speech understanding via integrated audio and visual based speech recognition
JP5989603B2 (ja) 推定装置、推定方法、およびプログラム
KR102611751B1 (ko) 키 문구 사용자 인식의 증강
Ahuja et al. To react or not to react: End-to-end visual pose forecasting for personalized avatar during dyadic conversations
Morency et al. A probabilistic multimodal approach for predicting listener backchannels
JP6923827B2 (ja) コミュニケーションスキル評価システム、装置、方法、及びプログラム
Niewiadomski et al. Automated laughter detection from full-body movements
WO2019161196A2 (en) System and method for disambiguating a source of sound based on detected lip movement
Greenwood et al. Predicting head pose in dyadic conversation
Ben-Youssef et al. Early detection of user engagement breakdown in spontaneous human-humanoid interaction
JP2011186521A (ja) 感情推定装置および感情推定方法
WO2024032159A1 (zh) 多人机交互场景下的说话对象检测
Hirayama et al. Info-concierge: Proactive multi-modal interaction through mind probing
Oliveira et al. An active audition framework for auditory-driven HRI: Application to interactive robot dancing
Chu et al. Multimodal real-time contingency detection for HRI
WO2018135304A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP6480351B2 (ja) 発話制御システム、発話制御装置及び発話制御プログラム
Mancini et al. Laugh when you’re winning
JP6415932B2 (ja) 推定装置、推定方法、およびプログラム
Türker et al. Audio-Visual Prediction of Head-Nod and Turn-Taking Events in Dyadic Interactions.
JP6545950B2 (ja) 推定装置、推定方法、およびプログラム
Tahir et al. Real-time sociometrics from audio-visual features for two-person dialogs
Tesema et al. Addressee detection using facial and audio features in mixed human–human and human–robot settings: A deep learning framework
US11475911B2 (en) Estimation device, estimation method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181003

R150 Certificate of patent or registration of utility model

Ref document number: 6415932

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150