JP6415932B2

JP6415932B2 - 推定装置、推定方法、およびプログラム

Info

Publication number: JP6415932B2
Application number: JP2014224962A
Authority: JP
Inventors: 石井　亮; 亮石井; 大塚　和弘; 和弘大塚; 史朗熊野; 淳司大和
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-11-05
Filing date: 2014-11-05
Publication date: 2018-10-31
Anticipated expiration: 2034-11-05
Also published as: JP2016092601A

Description

本発明は、複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定するための技術に関する。

多人数の遠隔コミュニケーションにおいて、顔や人物の様子が見えない、映像があっても意図が読めない、遅延によって発話のタイミングがずれるといった諸問題から、発話の衝突が頻繁に起こるという問題がある。そのため、音声や映像の情報を解析し次に話し始める人物（次発話者）を推定する技術や、推定結果から参加者に次発話者を通知することで発話衝突を軽減する手法が提案されている。例えば、特許文献１では、参加者の動作や同調リズムから次発話者を推定している。また、特許文献２では、人間の注視行動に着目し、発話者以外の参加者が見ていた被注視対象者を次発話者と決定している。

特開２０１２−１４６０７２号公報特開２００６−３３８４９３号公報

しかしながら、これらの次発話者推定手法は、推定精度が低く不十分なものである。特許文献１の手法では、参加者の動作や同調リズムから次発話者が推定可能であるとしているが、具体的な計算方法は明記されていない。また、特許文献２の手法では、話者以外の参加者が見ていた被注視対象者を次発話者と決定している。しかしながら、必ず次発話者を他の参加者が注視するとは限らないため、精度に課題がある。また、いつ次発話者が話し始めるかといった厳密なタイミングを推定する試みは行われていなかった。

本発明はこのような点に鑑みてなされたものであり、複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定することを課題とする。

上記の課題を解決するために、本発明の推定装置は、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の視線行動の時間的な関係を表す時間構造情報を得る時間構造情報生成部と、発話区間の話者を表す話者情報および時間構造情報の少なくとも一部に基づいて、発話区間の次の発話区間の話者を示す次発話者情報および発話区間の次の発話区間の開始タイミングを示す次発話開始タイミング情報の少なくとも一方を得る推定部と、を含む。

本発明では、複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定することができる。

図１は、推定装置の機能構成を例示したブロック図である。図２は、注視対象遷移パターンを例示したブロック図である。図３は、時間構造情報を例示したブロック図である。

図面を参照して本発明の実施形態を説明する。

実施形態の推定装置および方法では、複数の参加者間で行われる会話を含むコミュニケーションにおいて、発話終了前後の参加者の視線行動と次に話し始める参加者や話し始めるタイミングに強い関連性があることを利用する。参加者の音声情報から発話単位を自動的に生成し、参加者全員ないしは複数の参加者の発話単位付きの視線行動を入力とし、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象を表す注視対象ラベルから、注視対象の移り変わり（遷移）を表す注視対象遷移パターンと、視線行動の時間的な関係を表す時間構造情報とを生成する。その注視対象遷移パターンと時間構造情報とを用いて次に発話を開始する参加者およびタイミングの少なくとも一方を高精度で推定する。

本形態で取り扱うコミュニケーションは、参加者間での対面コミュニケーションであってもよいし、テレビ電話やビデオチャットなど映像を用いた遠隔コミュニケーションであってもよい。また、対面コミュニケーションを行う複数の参加者の遠隔地に遠隔コミュニケーションを行う他の参加者が存在し、対面コミュニケーションおよび遠隔コミュニケーションの両方が行われるものであってもよい。また、参加者は人間と同等なコミュニケーション能力を保有した会話ヒューマノイドなどの対話システムでもよい。コミュニケーションの参加人数は２人以上であれば、特に制約はない。

本形態では、参加者の視線行動の情報として、（１）参加者の注視対象の移り変わりを表す遷移パターン、（２）視線行動と前の発話者との時間的な関係や、視線行動の持続時間、複数人の視線行動の時間的な関係、などに着目する。以下では、上記（２）の情報を視線行動のタイミング構造情報もしくは時間構造情報と呼ぶ。例えば、タイミング構造情報のうち、ある視線行動の組でどちらが先に行動を開始もしくは終了したかという情報は、次発話者を決めるうえで非常に有用な情報となる。具体的には、ある参加者が話者と視線交差をしたときに、その参加者が先に話者から視線を外した場合、その参加者が次発話者となる確率が非常に高くなる。逆に、その参加者よりも先に話者が視線を外した場合は、その参加者が次発話者となる確率は低くなる。このように、視線行動および視線行動の移り変わり（遷移）だけでなく、視線行動の時間的な関係は次発話者や次発話開始のタイミングを予測する上で有用な情報である。

図１に例示するように、本形態のシステムは、推定装置１、Ｎ個の注視対象検出装置１１１−１〜Ｎ、および音声情報取得装置１１２−１〜Ｎを有する。推定装置１は、発話単位抽出部１１、注視対象ラベル生成部１２、注視対象遷移パターン生成部１３、時間構造情報生成部１４、および推定部１５を有する。推定部１５は、学習データ記憶部１５１、次発話者算出部１５２、および次発話開始タイミング算出部１５３を有する。Ｎは２以上の整数であり、コミュニケーションの参加者Ｕ_１〜Ｕ_Ｎの人数を表す。

注視対象検出装置１１１−ｊおよび音声情報取得装置１１２−ｊは、各参加者Ｕ_ｊ（ただし、ｊ＝１，…，Ｎ）の注視対象の検出および音声情報の取得を行う。対面コミュニケーション環境下で本システムを利用する場合、すべての注視対象検出装置１１１−１〜Ｎおよび音声情報取得装置１１２−１〜Ｎは、参加者Ｕ_１〜Ｕ_Ｎが対面コミュニケーションを行う場所に配置され、それらで得られた情報が推定装置１に直接送られる。遠隔コミュニケーション環境下で本システムを利用する場合、各注視対象検出装置１１１−ｊおよび各音声情報取得装置１１２−ｊは、各参加者Ｕ_ｊが存在する各拠点に配置され、それらで得られた情報がネットワーク経由で推定装置１に送信される。対面コミュニケーションおよび遠隔コミュニケーションの両方が行われる環境下で本システムを利用する場合、各参加者Ｕ_ｊが存在する場所に注視対象検出装置１１１−ｊおよび音声情報取得装置１１２−ｊが配置され、それらで得られた情報がネットワーク経由または直接に推定装置１に送られる。

本システムは、注視対象検出装置１１１−１〜Ｎ、音声情報取得装置１１２−１〜Ｎ、発話単位抽出部１１、注視対象ラベル生成部１２、注視対象遷移パターン生成部１３、時間構造情報生成部１４、および推定部１５が実行する一連の処理を繰り返し行うことで、常時、次発話者もしくは次発話開始タイミングの推定を行う。

［注視対象検出装置１１１−ｊ］
注視対象検出装置１１１−ｊは、参加者Ｕ_ｊが誰を注視しているか（注視対象）を検出し、参加者Ｕ_ｊおよび注視対象Ｇ_ｊ（ｔ）を表す情報を推定装置１に送る装置である。ただし、ｔは離散時間を表す。例えば、注視対象検出装置１１１−ｊは、公知の視線計測装置などを用い、参加者Ｕ_ｊが誰を注視しているかを検出する。一般的に市販されている視線計測装置では、参加者Ｕ_ｊの眼球に赤外光を当てその反射から眼球の向きを測定する。さらに、そのような装置は参加者Ｕ_ｊの視野に類似したシーンをカメラで撮影し、参加者Ｕ_ｊの眼球の向きとカメラ画像を用いて、カメラ画像中の注視位置を座標値として出力する。そのような装置を利用した場合、カメラ画像中から他の参加者Ｕ_ｗ（ただし、ｗ＝１，…，Ｎ、ｗ≠ｊ）の領域を抽出し、視線計測装置で測定された注視位置がその領域に含まれるかを判定することで、参加者Ｕ_ｊがどの参加者を注視しているかを検出する。なお、他の参加者Ｕ_ｗが参加者Ｕ_ｊの遠隔に存在する遠隔コミュニケーション環境下では、参加者Ｕ_ｗが映し出されるモニター内の位置が参加者Ｕ_ｗの領域とされる。参加者Ｕ_ｗの領域検出は、画像処理による顔検出やオプティカルフローを利用するなど、どのような手法をとっても構わない。またその他、参加者Ｕ_ｊの注視対象を推定する手法として、画像処理やモーションキャプチャなどを用いて取得される参加者Ｕ_ｊの頭部情報と、マイクロホンで取得される参加者の音声情報を用いて、参加者Ｕ_ｊの注視対象を判定する技術を利用するなど（例えば、特開２００６−３３８５２９号公報参照）、一般的に考えられるどのような手法をとっても構わない。

［音声情報取得装置１１２−ｓ］
音声情報取得装置１１２−ｓ（ただし、ｓ＝１，…，Ｎ）は、参加者Ｕ_ｓの音声情報を取得し、取得した音声情報Ｘ_ｓ（ｔ）を表す情報を推定装置１に送る装置である。ただし、ｔは離散時間を表す。例えば、音声情報取得装置１１２−ｓは、マイクロホンを使用して参加者Ｕ_ｓの音声情報Ｘ_ｓ（ｔ）を取得する。

［発話単位抽出部１１］
発話単位抽出部１１は、音声情報Ｘ_ｓ（ｔ）を入力とし、音声情報Ｘ_ｓから雑音成分を除去して発話成分のみを抽出し、それから発話区間Ｔ_ｓを取得する。本形態では、１つの発話区間Ｔ_ｓを、２つのＴｄミリ秒連続した無音区間で囲まれた、発話成分が存在する少なくとも１つの区間を含む時間区間と定義する。例えば、Ｔｄを２００ミリ秒としたとき、参加者Ｕ_ｓについて、（ａ）５００ミリ秒の無音、（ｂ）２００ミリ秒の発話、（ｃ）５０ミリ秒の無音、（ｄ）１５０ミリ秒の発話、（ｅ）１５０ミリ秒の無音、（ｆ）４００ミリ秒の発話、（ｇ）２５０ミリ秒の無音、の連続した発話データがあったとき、５００ミリ秒の無音区間（ａ）と２５０ミリ秒の無音区間（ｇ）の間に挟まれた９５０ミリ秒の発話区間（ｂ）〜（ｆ）が１つ生成される。つまり、本形態の１つの発話区間Ｔ_ｓは、Ｔｄミリ秒連続した２つの無音区間の間に、発話成分が存在する区間で囲まれた別のＴｄミリ秒連続した無音区間を含まない。本形態では、この発話区間Ｔ_ｓを参加者Ｕ_ｓの発話の１つの単位と規定し、ある発話区間Ｔ_ｓの終了時に、同じ参加者Ｕ_ｓが続けて発話をするか（すなわち継続するか）、あるいは他の参加者Ｕ_ｗの誰が発話をするのか（すなわち発話交替するか）を判定する。なお、Ｔｄは状況に応じて自由に決定できる。ただし、Ｔｄを長くすると実際の発話終了から発話区間終了を判定するまでの時間が長くなるため、一般的な日常会話であればＴｄ＝２００〜５００ミリ秒程度とするのが適当である。

また、発話単位抽出部１１は、抽出した発話区間Ｔ_sに対して誰が発話者であるのかを示す話者情報Ｕ_ｓを取得する。話者情報は、複数のマイクロホンを用いて、マイクロホンごとに収音される音声の時間差や、音の大きさ、音声的特徴などを使って抽出可能であり、一般的に考えられるあらゆる手段を用いてよい。

発話単位抽出部１１は、以上のように得た発話区間Ｔ_ｓとそれに対応する参加者Ｕ_ｓを表す情報（誰が発話したかを表す話者情報）を注視対象ラベル生成部１２へ出力する。

［注視対象ラベル生成部１２］
注視対象ラベル生成部１２は、注視対象情報Ｇ_１（ｔ），…，Ｇ_Ｎ（ｔ）、発話区間Ｔ_ｓ、および話者情報Ｕ_ｓを入力とし、発話区間終了前後における注視対象ラベル情報θ_ｋ（ただし、ｋ＝１，…，Ｋ、Ｋは注視対象ラベルの総数）を生成して出力する。注視対象ラベル情報は、発話区間Ｔ_ｓの終了時点Ｔ_ｓｅに対応する時間区間における参加者の注視対象を表す情報である。本形態では、終了時点Ｔ_ｓｅを含む有限の時間区間における参加者Ｕ_ｊの注視対象をラベル付けした注視対象ラベル情報θ_ｋを例示する。例えば、発話区間Ｔ_ｓの終了時点Ｔ_ｓｅよりも前の時点Ｔ_ｓｅ−Ｔ_ｂから終了時点Ｔ_ｓｅよりも後の時点Ｔ_ｓｅ＋Ｔ_ａまでの区間に出現した注視行動を扱う。Ｔ_ｂ，Ｔ_ａは０以上の任意の値でよいが、目安として、Ｔ_ｂは０秒〜２．０秒、Ｔ_ａは０秒〜３．０秒程度にするのが適当である。

注視対象ラベル生成部１２は、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルＳ：話者（すなわち、話者である参加者Ｕ_ｓを表す）
・ラベルＬ_ξ：非話者（ただし、ξは互いに異なる非話者である参加者を識別し、ξ＝１，…，Ｎ−１である。例えば、ある参加者が、非話者Ｕ_２、非話者Ｕ_３、の順に注視をしていたとき、非話者Ｕ_２にＬ_１というラベル、非話者Ｕ_３にＬ_２というラベルが割り当てられる。）
・ラベルＸ：誰も見ていない

ラベルがＳまたはＬ_ξのときには、相互注視（視線交差）が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、Ｓ_Ｍ，Ｌ_ξＭ（下付き添え字の「_ξＭ」はξ_Ｍを表す）のように、ラベルＳ，Ｌ_ξの末尾にＭラベルを付与する。

図２に注視対象ラベルの具体例を示す。図２はＮ＝４の例であり、発話区間Ｔ_ｓ，Ｔ_ｓ＋１と各参加者の注視対象が時系列に示されている。図２の例では、参加者Ｕ_１が発話した後、発話交替が起き、新たに参加者Ｕ_２が発話をした際の様子を示している。ここでは、話者である参加者Ｕ_１が参加者Ｕ_４を注視した後、参加者Ｕ_２を注視している。Ｔ_ｓｅ−Ｔ_ｂの時点からＴ_ｓｅ＋Ｔ_ａの時点までの区間では、参加者Ｕ_１が参加者Ｕ_２を見ていたとき、参加者Ｕ_２は参加者Ｕ_１を見ている。これは、参加者Ｕ_１と参加者Ｕ_２とで相互注視が起きていることを表す。この場合、参加者Ｕ_１の注視対象情報Ｇ_１（ｔ）から生成される注視対象ラベルはＬ_１とＬ_２Ｍの２つとなる。上述の区間では、参加者Ｕ_２は参加者Ｕ_４を注視した後、話者である参加者Ｕ_１を注視している。この場合、参加者Ｕ_２の注視対象ラベルはＬ_１とＳ_Ｍの２つとなる。また、上述の区間では、参加者Ｕ_３は話者である参加者Ｕ_１を注視している。この場合、参加者Ｕ_３の注視対象ラベルはＳとなる。また、上述の区間では、参加者Ｕ_４は誰も見ていない。この場合、参加者Ｕ_４の注視対象ラベルはＸとなる。したがって、図２の例では、Ｋ＝６である。

注視対象ラベル生成部１２は、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰（Ｒ∈｛Ｓ，Ｌ｝）のどの注視対象ラベル（ＧＬ∈｛Ｓ，Ｓ_Ｍ，Ｌ_１，Ｌ_１Ｍ，Ｌ_２，Ｌ_２Ｍ，…｝）であるかを示す記号としてＲ_ＧＬ、その開始時刻をＳＴ＿Ｒ_ＧＬ、終了時刻をＥＴ＿Ｒ_ＧＬと定義する。ただし、Ｒは参加者の発話状態（話者か非話者か）を表し、Ｓは話者、Ｌは非話者である。例えば、図２の例において、参加者Ｕ_１の最初の注視対象ラベルはＳ_Ｌ１であり、その開始時刻はＳＴ＿Ｓ_Ｌ１、終了時刻はＥＴ＿Ｓ_Ｌ１である。注視対象ラベル情報θ_ｋは注視対象ラベルＲ_ＧＬ、開始時刻ＳＴ＿Ｒ_ＧＬ、および終了時刻ＥＴ＿Ｒ_ＧＬを含む情報である。

注視対象ラベル生成部１２は、以上のように得た注視対象ラベル情報θ_ｋを注視対象遷移パターン生成部１３および時間構造情報生成部１４へ出力する。

［注視対象遷移パターン生成部１３］
注視対象遷移パターン生成部１３は、注視対象ラベル情報θ_ｋを入力とし、各参加者Ｕ_ｊの注視対象遷移パターンｆ_ｊを生成する。注視対象遷移パターンの生成は、注視対象ラベルＲ_ＧＬを構成要素として、時間的な順序を考慮した遷移ｎ−ｇｒａｍを生成して行う。ここで、ｎは正の整数である。例えば、図２の例を考えると、参加者Ｕ_１の注視対象ラベルＬ_１とＬ_２Ｍとから生成される注視対象遷移パターンｆ_１はＬ_１−Ｌ_２Ｍである。同様にして、参加者Ｕ_２の注視対象遷移パターンｆ_２はＬ_１−Ｓ_Ｍ、参加者Ｕ_３の注視対象遷移パターンｆ_３はＳ、参加者Ｕ_４の注視対象遷移パターンｆ_４はＸとなる。

注視対象遷移パターン生成部１３は、以上のように得た注視対象遷移パターンｆ_ｊを推定部１５へ出力する。注視対象遷移パターンｆ_ｊは、例えば発話区間Ｔ_ｓ＋１が開始された後に、発話区間Ｔ_ｓおよびその発話者Ｕ_ｓ、発話区間Ｔ_ｓ＋１に該当する発話を行う次発話者Ｕ_ｓ＋１、および次発話開始タイミングＴ_ｕｂを表す情報とともに学習データ記憶部１５１に送られる。

［時間構造情報生成部１４］
時間構造情報生成部１４は、注視対象ラベル情報θ_ｋを入力とし、注視対象ラベルごとの時間構造情報Θ_ｋを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、（１）注視対象ラベルの時間長、（２）注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、（３）注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。

時間構造情報の具体的なパラメータを以下に示す。以下では、発話区間の開始時刻をＳＴ＿Ｕ、発話区間の終了時刻をＥＴ＿Ｕと定義する。
・ＩＮＴ１（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬと終了時刻ＥＴ＿Ｒ_ＧＬの間隔
・ＩＮＴ２（＝ＳＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ３（＝ＥＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ４（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｕ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい後であったか
・ＩＮＴ５（＝ＥＴ＿Ｕ−ＥＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ６（＝ＳＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ７（＝ＥＴ＿Ｒ_ＧＬ’−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい前であったか
・ＩＮＴ８（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ９（＝ＥＴ＿Ｒ_ＧＬ−ＥＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか

なお、ＩＮＴ６〜ＩＮＴ９については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図２の例では、注視対象ラベル情報は全部で６つ（Ｌ_１，Ｌ_２Ｍ，Ｌ_１，Ｓ_Ｍ，Ｓ，Ｘ）あるため、ＩＮＴ６〜ＩＮＴ９は、それぞれ６×５＝３０個のデータが生成される。

時間構造情報Θ_ｋは注視対象ラベル情報θ_ｋについてのパラメータＩＮＴ１〜ＩＮＴ９からなる情報である。図３を用いて時間構造情報Θ_ｋを構成する上記の各パラメータを具体的に示す。図３は、話者である参加者Ｕ_１（Ｒ＝Ｓ）の注視対象ラベルＬ_１についての時間構造情報を示したものである。すなわち、Ｒ_ＧＬ＝Ｓ_Ｌ１における時間構造情報である。なお、ＩＮＴ６〜ＩＮＴ９については、図示を簡略化するために、参加者Ｕ_２の注視対象ラベルＬ_１、すなわちＲ_ＧＬ＝Ｌ_Ｌ１との関係のみを示す。図３の例では、ＩＮＴ１〜ＩＮＴ９は以下のように求められることがわかる。
・ＩＮＴ１＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ２＝ＳＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ３＝ＥＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ４＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｕ
・ＩＮＴ５＝ＥＴ＿Ｕ−ＥＴ＿Ｓ_Ｌ１
・ＩＮＴ６＝ＳＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ７＝ＥＴ＿Ｌ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ８＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ９＝ＥＴ＿Ｓ_Ｌ１−ＥＴ＿Ｌ_Ｌ１

時間構造情報生成部１４は、以上のように得た時間構造情報Θ_ｋを推定部１５へ出力する。時間構造情報Θ_ｋは、例えば次の発話区間Ｔ_ｓ＋１が開始された後に、発話区間Ｔ_ｓおよびその発話者Ｕ_ｓ、発話区間Ｔ_ｓ＋１に該当する発話を行う次発話者Ｕ_ｓ＋１、および次発話開始タイミングＴ_ｕｂを表す情報とともに学習データ記憶部１５１に送られる。学習データ記憶部１５１では、注視対象遷移パターン生成部１３から送られた注視対象遷移パターンｆ_ｊと併合され、Θ_ｋ，ｆ_ｊ，Ｔ_ｓ，Ｕ_ｓ，Ｕ_ｓ＋１，Ｔ_ｕｂを表す情報の一部またはすべてが学習データ記憶部１５１に保持される。また、次発話者算出部１５２、次発話開始タイミング算出部１５３には、発話区間Ｔ_ｓの終了時点Ｔ_ｓｅよりも後の時点Ｔ_ｓｅ＋Ｔ_ａで、Θ_ｋ，ｆ_ｊ，Ｔ_ｓ，Ｕ_ｓが送られる。

［学習データ記憶部１５１］
学習データ記憶部１５１には、発話者Ｕ_ｓ、注視対象遷移パターンｆ_ｊ、時間構造情報Θ_ｋ、次発話者Ｕ_ｓ＋１、および次発話開始タイミングＴ_ｕｂがセットとなったデータセットが複数保持されている。これらの情報は、事前に複数の参加者間で行われるコミュニケーションを収録したものを収集して、上述の方法により生成したものである。あるいは、注視対象遷移パターン生成部１３から送られてきた注視対象遷移パターンｆ_ｊ，時間構造情報生成部１４から送られてきた時間構造情報Θ_ｋ，発話区間Ｔ_ｓ，発話者Ｕ_ｓ，次発話者Ｕ_ｓ＋１，および次発話タイミングＴ_ｕｂを表す情報の一部またはすべてが逐次記憶される。

［次発話者算出部１５２］
次発話者算出部１５２は、発話単位抽出部１１で得られた話者情報Ｕ_ｓ、注視対象遷移パターン生成部１３で得られた注視対象遷移パターンｆ_ｊ、時間構造情報生成部１４で得られた時間構造情報Θ_ｋを入力とし、これらを用いて次発話者となる参加者Ｕ_Ｓ＋１を算出する。

次発話者の算出方法としては、例えば、（１）注視対象遷移パターンｆ_ｊと、時間構造情報Θ_ｋのパラメータＩＮＴ1〜ＩＮＴ９のうち少なくとも一つとを用いて、ある注視対象遷移パターンｆ_ｊが出現した際にあらかじめ定められた次発話者Ｕ_Ｓ＋１を決定するような条件判定、（２）時間構造情報Θ_ｋのパラメータＩＮＴ1〜ＩＮＴ９のいずれかがあらかじめ定めた閾値を超えた際に次発話者Ｕ_Ｓ＋１を決定するなどの閾値判定、または、（３）サポートベクターマシンに代表されるような機械学習の一般的な手法により次発話者Ｕ_Ｓ＋１を予測する判定手法、などを用いることができる。

（２）閾値判定を用いる手法の具体例としては、以下のとおりである。ここでは、話者である参加者Ｕ_１の注視対象ラベルがＬ_１Ｍ（非話者と相互注視）であり、非話者である参加者Ｕ_２の注視対象ラベルがＳ_Ｍ（話者と相互注視）であるときを考える。このとき、話者の注視対象ラベルＳ_Ｌ１Ｍ（下付き添え字の「_Ｌ１Ｍ」はＬ_１Ｍを表し、下付き添え字の「_１Ｍ」は１_Ｍを表す）の終了時刻ＥＴ＿Ｓ_Ｌ１Ｍが非話者の注視対象ラベルＬ_ＳＭ（下付き添え字の「_ＳＭ」はＳ_Ｍを表す）の終了時刻ＥＴ＿Ｌ_ＳＭよりもどれくらい後であったかを示すパラメータＩＮＴ９は、次発話者が非話者である参加者Ｕ_２になるとき（すなわち発話交替が起きるとき）は正の値を取り、次発話者が話者である参加者Ｕ_１であるとき（すなわち発話継続するとき）は負の値を取る傾向にある。この性質を利用して、ＩＮＴ９＜α（αは任意の閾値）が成り立つときに、次発話者は現在の話者である参加者Ｕ_１と判定する。

（３）機械学習を用いる判定手法の具体例を図２の注視対象データを用いて以下に示す。次発話者算出部１５２は、学習データ記憶部１５１に記憶されたデータセットから以下の特徴量を読み込み、これらを学習データとして、次発話者の予測モデルを学習する。
・話者情報Ｕ_ｓ
・各参加者Ｕ_１，…，Ｕ_４の注視対象遷移パターンｆ_１，…，ｆ_４
・各注視対象ラベル情報θ_１，…，θ_６の時間構造情報Θ_１，…，Θ_６
このとき、目的変数は、
・次発話者となる参加者Ｕ_Ｓ＋１（Ｕ_１，…，Ｕ_４のいずれか）
である。

予測モデルの学習は、本形態の推定装置を利用する際に最初に一度だけ行ってもよいし、随時オンラインでデータを収集しながら学習データ記憶部１５１に新たなデータが追加されるたび、逐次行ってもよい。または、所定の契機ごとに行われてもよい。機械学習手法はどのようなものを利用してもよい。例えば、ＳＶＭ（Support Vector Machine）、ＧＭＭ（Gaussian Mixture Model）、ＨＭＭ（Hidden Markov Model）等の一般的な手法を用いればよい。

次発話者算出部１５２は、話者情報Ｕ_ｓ、注視対象遷移パターンｆ_ｊ、および時間構造情報Θ_ｋを、上記のように学習した予測モデルに入力して次発話者Ｕ_Ｓ＋１を得、その次発話者Ｕ_Ｓ＋１を表す推定情報を予測結果として出力する。

［次発話開始タイミング算出部１５３］
次発話開始タイミング算出部１５３は、次発話者算出部１５２で得られた次発話者Ｕ_Ｓ＋１、発話単位抽出部１１で得られた話者情報Ｕ_ｓ、注視対象遷移パターン生成部１３で得られた注視対象遷移パターンｆ_ｊ、時間構造情報生成部１４で得られた時間構造情報Θ_ｋを入力とし、これらを用いて次発話の開始するタイミングＴ_ｕｂを算出する。話者情報Ｕ_ｓは注視対象遷移パターン生成部１３もしくは時間構造情報生成部１４のいずれから受け取ってもよい。次発話の開始するタイミングＴ_ｕｂは、ある時点を起点とした次の発話の開始時刻ＳＴ＿Ｕまでの時間間隔である。例えば、ある時点の絶対時点（実時刻）をαとし、次の発話開始時点の絶対時点をβとすると、次発話開始タイミングＴ_ｕｂはβ−αである。

次発話開始タイミングの算出方法としては、例えば、（１）注視対象遷移パターンｆ_ｊと、時間構造情報Θ_ｋのパラメータＩＮＴ1〜ＩＮＴ９のうち少なくとも一つとを用いて、ある注視対象遷移パターンｆ_ｊが出現した際にあらかじめ定められた発話開始タイミングＴ_ｕｂを決定するような条件判定、（２）時間構造情報Θ_ｋのパラメータＩＮＴ1〜ＩＮＴ９に対応した、次発話開始タイミングの関数式（例えば、ＩＮＴ１を引数としてタイミングＴを出力するＴ＝Ｆ（ＩＮＴ１）などの関数）を、あらかじめ一般的な会話データを利用して作成しておき利用する算出手法、または、（３）サポートベクターマシンに代表されるような機械学習の一般的な手法により次発話開始タイミングＴ_ｕｂを予測する算出手法、などを用いることができる。

（３）機械学習を用いる算出手法の具体例を図２の注視対象データを用いて以下に示す。次発話開始タイミング算出部１５３は、学習データ記憶部１５１に記憶されたデータセットから以下の特徴量を読み込み、これらを学習データとして、次発話開始タイミングの予測モデルを学習する。
・話者情報Ｕ_ｓ
・次発話者情報Ｕ_Ｓ＋１
・各参加者Ｕ_１，…，Ｕ_４の注視対象遷移パターンｆ_１，…，ｆ_４
・各注視対象ラベル情報θ_１，…，θ_６の時間構造情報Θ_１，…，Θ_６
このとき、目的変数は、
・次発話者情報Ｕ_Ｓ＋１が発話を開始するタイミングＴ_ｕｂ（次の発話の開始時刻ＳＴ＿Ｕを任意の時刻を基点とした時間間隔）
である。

次発話開始タイミング算出部１５３は、話者情報Ｕ_ｓ、注視対象遷移パターンｆ_ｊ、および時間構造情報Θ_ｋを、上記のように学習した予測モデルに入力して次発話開始タイミングＴ_ｕｂを得、その次発話開始タイミングＴ_ｕｂを表す推定情報を予測結果として出力する。また、次発話開始タイミング算出部１５３は、発話者Ｕ_ｓ、注視対象遷移パターンｆ_ｊ、時間構造情報Θ_ｋ、次発話者Ｕ_Ｓ＋１、および次発話開始タイミングＴ_ｕｂをセットにして学習データ記憶部１５１に記憶し、以降に行われる予測モデルの学習に利用できるようにする。

本形態では、推定部１５が次発話者算出部１５２および次発話開始タイミング算出部１５３をいずれも有し、次発話者Ｕ_Ｓ＋１および発話開始タイミングＴ_ｕｂを出力する構成を説明した。しかしながら、推定部１５が次発話者算出部１５２および次発話開始タイミング算出部１５３のいずれか一方のみを有するように構成することも可能である。すなわち、推定部１５は、話者情報Ｕ_ｓ、注視対象遷移パターンｆ_ｊ、および時間構造情報Θ_ｋを入力とし、次発話者Ｕ_Ｓ＋１もしくは次発話開始タイミングＴ_ｕｂの少なくとも一方を表す推定情報を予測結果として出力する構成としてもよい。

例えば、推定部１５が次発話開始タイミングＴ_ｕｂのみを表す推定情報を予測結果として出力する構成では、次発話開始タイミング算出部１５３は次発話者Ｕ_Ｓ＋１を利用することができない。そのため、次発話開始タイミングＴ_ｕｂは、次発話者は特定されないが参加者のうち誰かが発話を開始するタイミングとなる。このとき、図２の注視対象データを用いて次発話開始タイミングの予測モデルを具体的に例示すると、以下の特徴量を学習データとし、
・話者情報Ｕ_ｓ
・各参加者Ｕ_１，…，Ｕ_４の注視対象遷移パターンｆ_１，…，ｆ_４
・各注視対象ラベル情報θ_１，…，θ_６の時間構造情報Θ_１，…，Θ_６
目的変数は、
・参加者Ｕ_１，…，Ｕ_４のうちいずれかが発話を開始するタイミングＴ_ｕｂ
となる。すなわち、次発話者Ｕ_Ｓ＋１と次発話開始タイミングＴ_ｕｂの両方を得る場合と比較すると、次発話者情報Ｕ_Ｓ＋１を入力として持たない予測モデルとなる。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

以上により、高精度に次発話者および次発話開始のタイミングをリアルタイムで予測推定可能となる。この次発話開始のタイミング推定はさまざまなシーンで利用可能であり、例えば、遅延のある遠隔コミュニケーションシステムにおいて、予測結果を基にユーザに次発話者を提示することで発話回避をさせることや、コミュニケーションロボットがユーザの発話開始を予測しながらタイミングよく発話をするための基盤的な技術となる。

１推定装置
１１発話単位抽出部
１２注視対象ラベル生成部
１３注視対象遷移パターン生成部
１４時間構造情報生成部
１５推定部
１５１学習データ記憶部
１５２次発話者算出部
１５３次発話開始タイミング算出部

Claims

発話区間の終了時点に対応する時間区間における複数のコミュニケーション参加者の視線行動それぞれの時間的な関係を表す時間構造情報を得る時間構造情報生成部と、
上記発話区間の話者を表す話者情報および上記時間構造情報の少なくとも一部に基づいて、上記発話区間の次の発話区間の話者を示す次発話者情報および上記発話区間の次の発話区間の開始タイミングを示す次発話開始タイミング情報の少なくとも一方を得る推定部と、
を含み、
上記時間的な関係は、当該視線行動の上記発話区間に対する時間的な前後関係または同時関係、もしくは、当該視線行動の他の視線行動に対する時間的な前後関係または同時関係である、
推定装置。
請求項１に記載の推定装置であって、
上記視線行動は、二名の上記コミュニケーション参加者が互いを注視対象とする相互注視が起きたことを表す情報を含む、
推定装置。
請求項１または２に記載の推定装置であって、
上記発話区間の終了時点に対応する時間区間における複数の上記コミュニケーション参加者それぞれの注視対象の遷移を表す注視対象遷移パターンを得る注視対象遷移パターン生成部をさらに含み、
上記推定部は、上記話者情報、上記時間構造情報の少なくとも一部、および上記注視対象遷移パターンに基づいて、上記次発話者情報および上記次発話開始タイミング情報の少なくとも一方を得るものである
推定装置。
時間構造情報生成部が、発話区間の終了時点に対応する時間区間における複数のコミュニケーション参加者の視線行動それぞれの時間的な関係を表す時間構造情報を得る時間構造情報生成ステップと、
推定部が、上記発話区間の話者を表す話者情報および上記時間構造情報の少なくとも一部に基づいて、上記発話区間の次の発話区間の話者を示す次発話者情報および上記発話区間の次の発話区間の開始タイミングを示す次発話開始タイミング情報の少なくとも一方を得る推定ステップと、
を含み、
上記時間的な関係は、当該視線行動の上記発話区間に対する時間的な前後関係または同時関係、もしくは、当該視線行動の他の視線行動に対する時間的な前後関係または同時関係である、
推定方法。
請求項１から３のいずれかに記載の推定装置としてコンピュータを機能させるためのプログラム。