JP2014238525A

JP2014238525A - 推定装置、推定方法、およびプログラム

Info

Publication number: JP2014238525A
Application number: JP2013121552A
Authority: JP
Inventors: 石井　亮; Akira Ishii; 亮石井; 大塚　和弘; Kazuhiro Otsuka; 和弘大塚; 史朗熊野; Shiro Kumano; 昌史松田; Masashi Matsuda; 淳司大和; Atsushi Yamato
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-06-10
Filing date: 2013-06-10
Publication date: 2014-12-18
Anticipated expiration: 2033-06-10
Also published as: JP5989603B2

Abstract

【課題】複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定する。【解決手段】発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを得、注視対象遷移パターンに所定の学習モデルを適用し、発話区間の次の発話区間の話者を推定するための次話者推定情報、および、発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報、の少なくとも一方を得る。【選択図】図１

Description

本発明は、複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定するための技術に関する。

複数の参加者間で行われるコミュニケーションにおいて、音声や映像の情報を解析して次に話し始める参加者（次発話者）を推定する手法や、推定結果から参加者に次発話者を通知することで発話衝突を軽減する手法が提案されている（例えば、特許文献１，２等参照）。

特開２００６−３３８４９３号公報特開２０１２−１４６０７２号公報

しかしながら、これらの次発話者推定手法は、推定精度が低く不十分なものである。特許文献２の手法では、参加者の動作や同調リズムから次発話者が推定可能であるとしているが、具体的な計算方法は明記されていない。また、特許文献１の手法では、話者以外の参加者が見ていた被注視対象者を次発話者と決定している。しかしながら、必ず次発話者を他の参加者が注視するとは限らないため、精度に課題がある。また、いつ次発話者が話し始めるかといった厳密なタイミングを推定する試みは行われていなかった。

本発明はこのような点に鑑みてなされたものであり、複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定することを課題とする。

本発明では、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを得、注視対象遷移パターンに所定の学習モデルを適用し、発話区間の次の発話区間の話者を推定するための次話者推定情報、および、発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報、の少なくとも一方を得る。

本発明では、複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定することができる。

図１は、実施形態の推定装置の機能構成を説明するためのブロック図である。図２は、発話区間と注視対象遷移パターンとの関係を例示するためのブロック図である。図３Ａは、注視対象の遷移を表すパターンと発話区間の終了時点を基点とした次の発話開始時点との関係を表す第１発話開始時点モデル、および、注視対象の遷移を表すパターンと遷移後の注視行動の開始時点を基点とした次の発話開始時点との関係を表す第２発話開始時点モデルを例示するため図である。図３Ｂは、注視対象遷移パターンに対応する前記第１発話開始時点モデル、および、注視対象遷移パターンに対応する第２発話開始時点モデル、の少なくとも一方を用いて、次の発話開始タイミングを推定する方法を例示するための図である。

図面を参照して本発明の実施形態を説明する。以下では既に説明した機能構成および処理に対して同じ参照番号を用いて重複した説明を省略する。
＜第１実施形態＞
第１実施形態では、複数の参加者間で行われる会話を含むコミュニケーションにおいて、発話終了前後の参加者の注視対象の遷移と次話者が誰になるかといったこととに強い相関があることを利用する。参加者の音声情報から発話単位を自動的に生成し、参加者全員ないしは複数の参加者の発話単位付きの視線行動を入力とし、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを生成する。そのパターンと所定の学習モデルとを用いて次発話者を高精度で推定する。本形態の学習モデルは、注視対象の遷移を表すパターンと次の発話区間の話者との関係を表すモデル（次話者モデル）である。以下では、確率モデルを学習モデルとして用いる例を示す。ただし、これは本発明を限定するものではない。また、本形態で取り扱うコミュニケーションは、参加者間での対面コミュニケーションであってもよいし、テレビ電話やビデオチャットなど映像を用いた遠隔コミュニケーションであってもよい。また、対面コミュニケーションを行う複数の参加者の遠隔地に遠隔コミュニケーションを行う他の参加者が存在し、対面コミュニケーションおよび遠隔コミュニケーションの両方が行われるものであってもよい。また、参加者は人間と同等なコミュニケーション能力を保有したコミュニケーションロボットでも良い。コミュニケーションの参加人数については２人以上であれば、特に制約はない。

図１に例示するように、本形態のシステムは、推定装置１、Ｎ個の注視対象検出装置１１１−１〜Ｎ、および音声情報取得装置１１２−１〜Ｎを有し、推定装置１は、発話単位生成部１１、注視対象遷移パターン生成部１２、および推定部１３を有し、推定部１３は、次発話者算出部１３１、および学習モデル情報記憶部１３２を有する。Ｎは２以上の整数であり、コミュニケーションの参加者Ｕ_１〜Ｕ_Ｎの人数を表す。注視対象検出装置１１１−ｊおよび音声情報取得装置１１２−ｊは、各参加者Ｕ_ｊ（ただし、ｊ＝１，...，Ｎ）の注視対象の検出および音声情報の取得を行う。対面コミュニケーション環境下で本システムを利用する場合、注視対象検出装置１１１−１〜Ｎおよび音声情報取得装置１１２−１〜Ｎは、参加者Ｕ_１〜Ｕ_Ｎが対面コミュニケーションを行う場所に配置され、それらで得られた情報が推定装置１に直接送られる。遠隔コミュニケーション環境下で本システムを利用する場合、各注視対象検出装置１１１−ｊおよび音声情報取得装置１１２−ｊは、各参加者Ｕ_ｊが存在する各拠点に配置され、それらで得られた情報がネットワーク経由で推定装置１に送信される。対面コミュニケーションおよび遠隔コミュニケーションの両方が行われる環境下で本システムを利用する場合、各参加者Ｕ_ｊが存在する場所に注視対象検出装置１１１−ｊおよび音声情報取得装置１１２−ｊが配置され、それらで得られた情報がネットワーク経由または直接に推定装置１に送られる。

本システムは、注視対象検出装置１１１−１〜Ｎ、音声情報取得装置１１２−１〜Ｎ、発話単位生成部１１、注視対象遷移パターン生成部１２、および推定部１３が実行する一連の処理を繰り返し行うことで、常時、次発話者の推定を行う。

［注視対象検出装置１１１−ｊ］
注視対象検出装置１１１−ｊは、参加者Ｕ_ｊが誰を注視しているか（注視対象）を検出し、参加者Ｕ_ｊおよび注視対象Ｇ_ｊ（ｔ）を表す情報を推定装置１に送る装置である。例えば、注視対象検出装置１１１−ｊは、公知の視線計測装置などを用い、参加者Ｕ_ｊが誰を注視しているかを検出する。一般的に市販されている視線計測装置では、参加者Ｕ_ｊの眼球に赤外光を当てその反射から眼球の向きを測定する。さらに、そのような装置は参加者Ｕ_ｊの視野に類似したシーンをカメラで撮影し、参加者Ｕ_ｊの眼球の向きとカメラ画像を用いて、カメラ画像中の注視位置を座標値として出力する。そのような装置を利用した場合、カメラ画像中から他の参加者Ｕ_ｗ（ただし、ｗ＝１，...，Ｎ（ｗ≠ｊ））の領域を抽出し、視線計測装置で測定された注視位置がその領域に含まれるかを判定することで、参加者Ｕ_ｊがどの参加者を注視しているかを検出する。なお、参加者Ｕ_ｗが参加者Ｕ_ｊの遠隔に存在する遠隔コミュニケーション環境下では、参加者Ｕ_ｗが映し出されるモニター内の位置が参加者Ｕ_ｗの領域とされる。参加者Ｕ_ｗの領域検出は、画像処理による顔検出やオプティカルフローを利用するなど、どのような手法をとっても構わない。またその他、参加者Ｕ_ｊの注視対象を推定する手法として、画像処理やモーションキャプチャなどを用いて取得される参加者Ｕ_ｊの頭部情報と、マイクロホンで取得される参加者の音声情報を用いて、参加者Ｕ_ｊの注視対象を判定する技術を利用するなど（例えば、特開２００６−３３８５２９号公報参照）、一般的に考えられるどのような手法をとっても構わない。

［音声情報取得装置１１２−ｓ］
音声情報取得装置１１２−ｓ（ただし、ｓ＝１，...，Ｎ）は、参加者Ｕ_ｓの音声情報を取得し、取得した音声情報Ｘ_ｓ（ｔ）を表す情報を推定装置１に送る装置である。ただし、ｔは離散時間を表す。例えば、音声情報取得装置１１２−ｓは、マイクロホンを使用して参加者Ｕ_ｓの音声情報Ｘ_ｓ（ｔ）を取得する。

［発話単位生成部１１］
発話単位生成部１１は、音声情報Ｘ_ｓ（ｔ）を入力とし、音声情報Ｘ_ｓから雑音成分を除去して発話成分のみを抽出し、それから発話区間Ｔ_ｓを得て出力する。本形態では、１つの発話区間Ｔ_ｓを、Ｔｄ［ｍｓ］連続した無音区間で囲まれた、発話成分が存在する区間を含む時間区間と定義する。すなわち、本形態の１つの発話区間Ｔ_ｓは、２つのＴｄ［ｍｓ］連続した無音区間と、それらに囲まれた発話成分が存在する区間とからなる時間区間である。たとえば、Ｔｄを200msとしたとき、参加者Ｕ_ｓが、500msの無音，200msの発話、50msの無音、150msの発話、150msの無音、400msの発話、250msの無音、の連続した発話データがあったとき、500msの無音区間と250msの無音区間の間に挟まれた950msの発話区間が一つ生成される。本形態の１つの発話区間Ｔ_ｓは、Ｔｄ［ｍｓ］連続した２つの無音区間の間に、発話成分が存在する区間で囲まれた別のＴｄ［ｍｓ］連続した無音区間を含まない。本形態では、この発話区間Ｔ_ｓを参加者Ｕ_ｓの発話の一つの単位と規定し、ある発話区間Ｔ_ｓの終了時に、同じ参加者Ｕ_ｓが続けて発話をするか（すなわち継続するか）、あるいは他の参加者Ｕ_ｗの誰が発話をするのか（すなわち発話交替するか）を判定する。なお、Ｔｄは、状況に応じて自由に決定できる。ただし、Ｔｄを長くすると、実際の発話終了から発話区間終了を判定するまでの時間が長くなるため、一般的な日常会話であればＴｄ＝２００〜５００ｍｓ程度とするのが適当である。発話単位生成部１１は、以上のように得た発話区間Ｔ_ｓとそれに対応する参加者Ｕ_ｓを表す情報（誰が発話したかを表す情報）を出力する。

［注視対象遷移パターン生成部１２］
注視対象遷移パターン生成部１２は、参加者Ｕ_ｊおよび注視対象Ｇ_ｊ（ｔ）を表す情報、および発話区間Ｔ_ｓとそれに対応する参加者Ｕ_ｓを表す情報を入力とし、発話区間終了前後における各参加者Ｕ_ｊの注視対象遷移パターンｆ_ｊを生成して出力する。注視対象遷移パターンｆ_ｊは、発話区間Ｔ_ｓの終了時点Ｔ_ｓｅに対応する時間区間における参加者Ｕ_ｊの注視対象の遷移を表す。本形態では、終了時点Ｔ_ｓｅを含む有限の時間区間における参加者Ｕ_ｊの注視対象の遷移を表す注視対象遷移パターンｆ_ｊを例示する。この場合、例えば_、発話区間Ｔ_ｓの終了時点Ｔ_ｓｅよりも前の時点Ｔ_ｓｅ−Ｔ_ｂから終了時点Ｔ_ｓｅよりも後の時点Ｔ_ｓｅ＋Ｔ_ａまでの区間に出現した注視行動を扱う。Ｔ_ｂ，Ｔ_ａは０以上の任意の値で良いが、目安として、Ｔ_ｂは０ｓ〜２．０ｓ、Ｔ_ａは０ｓ〜３．０ｓ程度にするのが適当である。

注視対象遷移パターン生成部１２は、上述した区間の中に含まれる注視対象から遷移ｎ−ｇｒａｍを生成する。ｎは正の整数である。このとき、注視対象遷移パターン生成部１２は、注視対象を以下のように種別に分類し、ラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルＳ：話者（すなわち、話者である参加者Ｕ_ｓを表す）
・ラベルＬ_ξ：非話者（ただし、ξは互いに異なる非話者である参加者を識別し、ξ＝１，...，Ｎ−１である。たとえば、ある参加者が、非話者Ｕ_２、非話者Ｕ_３、の順に注視をしていたとき、非話者Ｕ_２にＬ_１というラベル、非話者Ｕ_３にＬ_２というラベルが割り当てられる。）
・ラベルＸ：誰も見ていない
注視対象遷移パターン生成部１２は、各参加者Ｕ_ｊ（ただし、ｊ＝１，...，Ｎ）に対し、上述した区間の中に含まれる注視対象のラベルの遷移ｎ−ｇｒａｍを生成し、参加者Ｕ_ｊの注視対象遷移パターンｆ_ｊとして出力する。

図２に具体例を示す。図２はＮ＝４の例であり、発話区間と注視対象が時系列に示されており、参加者Ｕ_１が発話した後、発話交替が起き、新たに参加者Ｕ_２が発話をした際の様子を示している。図２の例では、話者である参加者Ｕ_１が参加者Ｕ_３を注視した後、参加者Ｕ_２を注視していた。この場合、時点Ｔ_ｓｅ−Ｔ_ｂから時点Ｔ_ｓｅ＋Ｔ_ａまでの区間での参加者Ｕ_１の注視対象は、非話者Ｕ_３、非話者Ｕ_２であり、参加者Ｕ_１の注視対象遷移パターンｆ_１はＬ_１−Ｌ_２となる。また、上述の区間では、参加者Ｕ_２は参加者Ｕ_４を注視した後、誰も見ていない。この場合、この区間で参加者Ｕ_２の注視対象遷移パターンｆ_２はＬ_１−Ｘとなる。また、上述の区間では、参加者Ｕ_３は話者である参加者Ｕ_１のみを注視している。この場合、この区間での参加者Ｕ_３の注視対象遷移パターンｆ_３はＳとなる。また、上述の区間では、参加者Ｕ_４は誰も見ていない。この場合、この区間での参加者Ｕ_４の注視対象遷移パターンｆ_４はＸとなる。

［学習モデル情報記憶部１３２］
学習モデル情報記憶部１３２は、発話区間での注視対象の遷移を表すパターンと次の発話区間の話者との関係を表す学習モデルを格納している。本形態の学習モデルは確率モデルであり、注視対象遷移パターンｆ_ｊが出現した際に発話継続／発話交替が行わる確率を表す第１確率モデル、および注視対象遷移パターンｆ_ｊが出現した際に話者以外の各参加者Ｕ_ｉが次発話者となるかの確率を表す第２確率モデルを含む。これらは、事前に収録された会話から、注視対象遷移パターンと次話者との関係がどれくらいの確率で発生するかを統計的に算出することで得られたものである。以下に具体例を示す。

この例の第１確率モデルは、話者交替時に話者である参加者Ｕ_ｓの注視対象遷移パターンｆ_ｓが出現する確率Ｐ（ｆ_ｓ｜ｔｔ）、話者継続時に話者の注視対象遷移パターンｆ_ｓが出現する確率Ｐ（ｆ_ｓ｜ｎｔｔ）、話者交替時に非話者の注視対象遷移パターンｆ_φ（ｒ）（ただし、ｒ＝１，，...，Ｎ−１）が出現する確率Ｐ（ｆ_φ（ｒ）｜ｔｔ）、話者継続時に非話者の注視対象遷移パターンｆ_φ（ｒ）が出現する確率Ｐ（ｆ_φ（ｒ）｜ｎｔｔ）、および話者交替が起こる確率Ｐ（ｔｔ）を含む。ただし、ｔｔは話者交代を表すラベル、ｎｔｔは話者継続を表すラベル、Ｐ（α）はαが起こる事前確率であり、Ｐ（α｜β）はβが発生した場合にαが起こる事後確率である。

この例の第２確率モデルは、注視対象遷移パターンに応じて、参加者Ｕ_ｉ（ただし、ｉ≠ｓ、ｉ＝１，...，Ｎ）が次話者になる確率を表す。具体的には、この例の第２確率モデルは、話者の注視対象遷移パターンｆ_ｓに基づく参加者Ｕ_ｉが次話者になる確率Ｐ（ｎｓ_ｉ｜ｆ_ｓ）、および非話者の注視対象遷移パターンｆ_φ（ｒ）に基づく参加者Ｕ_ｉが次話者になる確率Ｐ（ｎｓ_ｉ｜ｆ_φ（ｒ））を含む。ｎｓ_ｉは、次話者が非話者である参加者Ｕ_ｉであることを表すラベルである。

［次発話者算出部１３１］
次発話者算出部１３１は、注視対象遷移パターン生成部１２で得られた注視対象遷移パターンｆ_１，...，ｆ_Ｎを入力とし、注視対象遷移パターンｆ_１，...，ｆ_Ｎに学習モデル情報記憶部１３２に格納された学習モデルを適用し、次話者を推定するための情報（次話者推定情報）を得て、次話者を推定する。具体的には、（Ａ）話者が交替するか（話者継続するか）否かを判定し、（Ｂ）話者交替であると判定された場合、次話者が誰であるかを判定する。

まず（Ａ）について詳しく述べる。本形態では、それぞれの参加者Ｕ_ｊの注視行動が独立に発生する事象であると仮定し、単純確率モデルを用いて話者交替するかを判定する。話者交替が行われる確率Ｐ（ｔｔ｜ｆ_ｓ，ｆ_φ（１），...，ｆ_{φ（Ｎ−１）}）および話者継続が行われる確率Ｐ（ｎｔｔ｜ｆ_ｓ，ｆ_φ（１），...，ｆ_{φ（Ｎ−１）}）（次話者推定情報）は、学習モデル情報記憶部１３２に格納されたＰ（ｔｔ）およびＰ（ｎｔｔ）＝１−Ｐ（ｔｔ）、ならびに、注視対象遷移パターン生成部１２で得られた注視対象遷移パターンｆ_１，...，ｆ_Ｎに対応する学習モデル情報記憶部１３２に格納されたＰ（ｆ_ｓ｜ｔｔ）、Ｐ（ｆ_ｓ｜ｎｔｔ）、Ｐ（ｆ_φ（ｒ）｜ｔｔ）、Ｐ（ｆ_φ（ｒ）｜ｎｔｔ）を用い、式（１）、（２）で算出可能である。

次発話者算出部１３１は、式（１）（２）によって算出したＰ（ｔｔ｜ｆ_ｓ，ｆ_φ（１），...，ｆ_{φ（Ｎ−１）}）およびＰ（ｎｔｔ｜ｆ_ｓ，ｆ_φ（１），...，ｆ_{φ（Ｎ−１）}）を用い、話者交替であるか話者継続であるかを判定する。例えば、次発話者算出部１３１は、Ｐ（ｔｔ｜ｆ_ｓ，ｆ_φ（１），...，ｆ_{φ（Ｎ−１）}）＞Ｐ（ｎｔｔ｜ｆ_ｓ，ｆ_φ（１），...，ｆ_{φ（Ｎ−１）}）が成り立てば話者交替と判定し、そうでなければ話者継続と判定する。或いは、定数等である係数γ（ただし、γ≠０）およびδについてＰ（ｔｔ｜ｆ_ｓ，ｆ_φ（１），...，ｆ_{φ（Ｎ−１）}）＞γ×Ｐ（ｎｔｔ｜ｆ_ｓ，ｆ_φ（１），...，ｆ_{φ（Ｎ−１）}）＋δが成り立てば話者交替と判定し、そうでなければ話者継続と判定してもよい。話者継続が行われると判定した場合、次発話者算出部１３１は、次話者が参加者Ｕ_ｓであることを表すラベルｎｓを出力する。

話者交替が行われると判定した場合、次発話者算出部１３１は、（Ｂ）次話者が誰であるかを判定する。（Ｂ）について詳しく述べる。それぞれの参加者Ｕ_１，...，Ｕ_Ｎの注視行動が独立に発生する事象であると仮定する。次話者が非話者である参加者Ｕ_ｉである確率Ｐ（ｎｓ_ｉ）（次話者推定情報）は、注視対象遷移パターン生成部１２で得られた注視対象遷移パターンｆ_１，...，ｆ_Ｎに対応する学習モデル情報記憶部１３２に格納されたＰ（ｎｓ_ｉ｜ｆ_ｓ）およびＰ（ｎｓ_ｉ｜ｆ_φ（ｒ））を用い、式（３）で算出可能である。

次発話者算出部１３１は、式（３）によって確率Ｐ（ｎｓ_ｉ）を算出し、確率Ｐ（ｎｓ_ｉ）が最も大きな参加者Ｕ_ｉを次発話者であると判定し、次話者が参加者Ｕ_ｉであることを表すラベルｎｓを出力する。或いは、或る閾値以上の大きさの確率Ｐ（ｎｓ_ｉ）に対応する参加者Ｕ_ｉを次発話者の候補として判定し、当該次発話者の候補を表すラベルを出力してもよい。或いは、大きい順番で選択した複数個の確率Ｐ（ｎｓ_ｉ）に対応する参加者Ｕ_ｉを次発話者の候補として判定し、当該次発話者の候補を表すラベルを出力してもよい。

＜第２実施形態＞
第２実施形態は、第１実施形態の変形例である。第２実施形態では、第１実施形態に加え、さらに発話終了前後の参加者の注視対象の遷移が次の発話が開始されるタイミングと相関があることを利用し、注視対象遷移パターンと所定の学習モデルとを用いて次の発話（次発話）の開始タイミングを高精度で推定する。

本形態の学習モデルは、第１実施形態で説明したモデルに加え、注視対象の遷移を表すパターンと、発話区間の終了時点を基点とした次の発話開始時点と、の関係を表す第１発話開始時点モデル、および、注視対象の遷移を表すパターンと、遷移後の注視行動の開始時点を基点とした次の発話開始時点と、の関係を表す第２発話開始時点モデル、の少なくとも一方を含む。なお、「或る時点を基点とした次の発話開始時点」とは、或る時点に対する相対的な発話開始時点を意味し、言い換えると、或る時点を０とした場合の次の発話開始時点を意味する。すなわち、或る時点の絶対時点（実時刻）をαとし、次の発話開始時点の絶対時点をβとすると、「或る時点を基点とした次の発話開始時点」はβ−αである。さらに、本形態の学習モデルが、発話区間の終了時点を基点とした次の発話開始時点を表す第３発話開始時点モデルを含んでもよい。第３発話開始時点モデルは、注視対象の遷移を表すパターンに依存しない。たとえば、第３発話開始時点モデルは、すべての発話区間の終了時点を基点とした次の発話開始時点の平均を表すモデル（例えば、当該平均の確率分布を表すモデル）である。また、学習モデルとして、第１発話開始時点モデルのみを用いてもよいし、第２発話開始時点モデルのみを用いてもよいし、第１発話開始時点モデルと第２発話開始時点モデルとを用いてもよいし、第１発話開始時点モデルと第３発話開始時点モデルとを用いてもよいし、第２発話開始時点モデルと第３発話開始時点モデルとを用いてもよいし、第１発話開始時点モデルと第２発話開始時点モデルと第３発話開始時点モデルとを用いてもよい。しかしながら、第１発話開始時点モデルまたは第２発話開始時点モデルの一方を用いないよりも、これらの両方を用いたほうが、次の発話開始タイミングの推定精度が高い。また、第３発話開始時点モデルを用いないよりも、これを用いたほうが、次の発話開始タイミングの推定精度が高い。

以下では一例として、学習モデルが第１発話開始時点モデルと第２発話開始時点モデルと第３発話開始時点モデルのすべてを含む例を説明する。以下で例示する第１発話開始時点モデルは、注視対象の遷移を表すパターンに応じた、当該発話区間の終了時点を基点とした次の発話開始時点の確率分布を表す。以下で例示する第２発話開始時点モデルは、注視対象の遷移を表すパターンに応じた、注視行動の開始後を基点とした次の発話開始時点の確率分布を表す。以下で例示する第３発話開始時点モデルは、発話区間の終了時点を基点とした次の発話開始時点の確率分布を表す。ただし、これらは本発明を限定するものではない。以下、第１実施形態との相違点を説明する。

図１に例示するように、本形態のシステムの第１実施形態のシステムに対する相違点は、第１実施形態の推定装置１に替えて推定装置２を備える点である。本形態の推定装置２は、発話単位生成部１１、注視対象遷移パターン生成部２２、および推定部２３を有し、推定部２３は、次発話者算出部１３１、タイミング算出部２３３、および学習モデル情報記憶部２３２を有する。

本システムは、注視対象検出装置１１１−１〜Ｎ、音声情報取得装置１１２−１〜Ｎ、発話単位生成部１１、注視対象遷移パターン生成部２２、次発話者算出部１３１、およびタイミング算出部２３３が実行する一連の処理を繰り返し行うことで、常時、次発話者の推定および次の発話開始タイミングの推定を行う。

［注視対象遷移パターン生成部２２］
注視対象遷移パターン生成部２２が第１実施形態の注視対象遷移パターン生成部１２と相違する点は、注視対象遷移パターン生成部２２が、注視対象遷移パターンｆ_ｊに加え、さらに各参加者Ｕ_ｊの注視対象の遷移後の注視行動が開始された時点ｔ_２，ｊを出力する点である。例えば図３では、参加者Ｕ_１の注視対象を表すラベルがＬ_１からＬ_２に遷移しており、遷移後のＬ_２が表す視対象への注視行動が開始された時点ｔ_２，１が出力される。なお、時点Ｔ_ｓｅ−Ｔ_ｂから時点Ｔ_ｓｅ＋Ｔ_ａまでの区間での注視対象の遷移がない場合には、時点ｔ_２，ｊは生成されない。。その他は注視対象遷移パターン生成部１２と同じである。

［学習モデル情報記憶部２３２］
学習モデル情報記憶部２３２は、第１実施形態で説明した学習モデルに加え、さらに、上述した第１〜３発話開始時点モデルを学習モデルとして格納している。ここで例示する第１〜３発話開始時点モデルは確率分布を表す確率密度関数である。すなわち、この例の第１発話開始時点モデルは、注視対象遷移パターンｖに応じた、当該発話区間の終了時点ｔ_１を基点とした次の発話開始時点ｔ−ｔ_１の確率分布を表す確率密度関数ｋ_ｖ（ｔ−ｔ_１）である。ただし、ｔは絶対時点を表す。この例の第２発話開始時点モデルは、注視対象遷移パターンｖに応じた、遷移後の注視行動が開始された時点ｔ_２を基点とした発話開始時点ｔ−ｔ_２の確率分布を表す確率密度関数ｇ_ｖ（ｔ−ｔ_２）である。なお、本形態の確率密度関数ｋ_ｖ（ｔ−ｔ_１）およびｇ_ｖ（ｔ−ｔ_２）は、注視対象遷移パターンｖごとに、参加者が話者であったか非話者であったかという２つの発話状態と、話者交替時か話者継続時かといった話者交替の２つの状態と、の組み合わせからなる４種類の状態のそれぞれに対して生成されたものである。すなわち、本形態では、注視対象遷移パターンｖごとに４種類ずつの確率密度関数ｋ_ｖ（ｔ−ｔ_１）およびｇ_ｖ（ｔ−ｔ_２）が生成され、それらが互いに区別される。例えば、話者交替時に、話者Ｕ_１，非話者Ｕ_２の注視対象遷移パターンｆ_１，ｆ_２が共にＬ_１−Ｌ_２でも、この注視対象遷移パターンｆ_１に応じたｋ_ｆ１（ｔ−ｔ_１）と、この注視対象遷移パターンｆ_２に応じたｋ_ｆ２（ｔ−ｔ_１）とは、互いに区別される。同様に、この注視対象遷移パターンｆ_１に応じたｇ_ｆ１（ｔ−ｔ_２）と、この注視対象遷移パターンｆ_２に応じたｇ_ｆ２（ｔ−ｔ_２）とは、互いに区別される。また、話者交替時における参加者Ｕ_１の注視対象遷移パターンｆ_１と、話者継続時における参加者Ｕ_１の注視対象遷移パターンｆ_１とが共にＬ_１−Ｌ_２でも、これらの視対象遷移パターンｆ_１に応じたｋ_ｆ１（ｔ−ｔ_１）は区別される。同様に、これらの視対象遷移パターンｆ_１に応じたｇ_ｆ１（ｔ−ｔ_２）は区別される。また、この例の第３発話開始時点モデルは、発話区間の終了時点ｔ_１を基点とした次の発話開始時点ｔ−ｔ_１の確率分布を表す確率密度関数ｈ（ｔ−ｔ_１）である。この確率密度関数ｈ（ｔ−ｔ_１）は、注視対象遷移パターンにかかわらず、すべてのｔ−ｔ_１についての確率分布を表すものである。これらの確率密度関数は、会話データから事前に集計され、生成されたものである。確率密度関数は、より実際の分布に近い各種関数（たとえば、ガンマ分布など）に近似されてもよい。

［タイミング算出部２３３］
タイミング算出部２３３は、次発話者算出部１３１で話者交替であるか否かが判定された場合に、発話単位生成部１１で得られた発話区間Ｔ_ｓの終了時点ｔ_１，ｓ、次発話者算出部１３１で得られた次話者を表すラベルｎｓ、ならびに注視対象遷移パターン生成部２２で得られた注視対象遷移パターンｆ_１，...，ｆ_Ｎおよび遷移後の注視行動が開始された時点ｔ_２，１，...，ｔ_２，Ｎを入力とし、それらを学習モデル情報記憶部２３２に格納された学習モデルに適用し、発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報を得、次の発話開始タイミングを推定する。すなわち、注視行動が発話のタイミングに影響を与えると考えられるため、タイミング算出部２３３は、入力された注視対象遷移パターンｆ_１，...，ｆ_Ｎに応じた発話区間の終了から次発話開始までの時間を統計的に集計し、それによって得られる確率分布を基に次の発話開始タイミングを推定する。以下にその処理を具体的に説明する。

タイミング算出部２３３は、学習モデル情報記憶部２３２から、確率密度関数ｈ（ｔ−ｔ_１）、ならびに、参加者Ｕ_１，...，Ｕ_Ｎのそれぞれが話者であったか非話者であったかと話者交替時か話者継続時かと入力された注視対象遷移パターンｆ_１，...，ｆ_Ｎとに対応する確率密度関数ｋ_ｆ１（ｔ−ｔ_１），...，ｋ_ｆＮ（ｔ−ｔ_１）および確率密度関数ｇ_ｆ１（ｔ−ｔ_２），...，ｇ_ｆＮ（ｔ−ｔ_２）を抽出する。なお、下付き添え字のｆ１，...，ｆＮは、それぞれｆ_１，...，ｆ_Ｎを表す。参加者Ｕ_１，...，Ｕ_Ｎのそれぞれが話者であったか非話者であったかは、１つ前の繰り返し処理においてタイミング算出部２３３に入力されたラベルｎｓから特定できる。話者交替時か話者継続時かは、１つ前の繰り返し処理においてタイミング算出部２３３に入力されたラベルｎｓと、今回の繰り返し処理においてタイミング算出部２３３に入力されたラベルｎｓとから特定できる。図３Ａの例では、参加者Ｕ_１が話者であり、参加者Ｕ_１からＵ_２への話者交替が起こり、参加者Ｕ_１の注視対象遷移パターンｆ_１がＬ_１−Ｌ_２である。そのため、確率密度関数ｈ（ｔ−ｔ_１）が抽出されるとともに、「話者」「話者交替時」および「ｆ_１がＬ_１−Ｌ_２」に対応するｋ_ｆ１（ｔ−ｔ_１）およびｇ_ｆ１（ｔ−ｔ_２）が抽出される。他の参加者Ｕ_２，...，Ｕ_Ｎについても同様にｋ_ｆ２（ｔ−ｔ_１），...，ｋ_ｆＮ（ｔ−ｔ_１）および確率密度関数ｇ_ｆ２（ｔ−ｔ_２），...，ｇ_ｆＮ（ｔ−ｔ_１）が抽出される。

タイミング算出部２３３は、入力された発話区間Ｔ_ｓの終了時点ｔ_１，ｓ、および遷移後の注視行動が開始された時点ｔ_２，１，...，ｔ_２，Ｎを、抽出したｈ（ｔ−ｔ_１），ｋ_ｆ１（ｔ−ｔ_１），...，ｋ_ｆＮ（ｔ−ｔ_１），ｇ_ｆ１（ｔ−ｔ_２），...，ｇ_ｆＮ（ｔ−ｔ_２）に代入して得られるｈ（ｔ−ｔ_１，ｓ），ｋ_ｆ１（ｔ−ｔ_１，ｓ），...，ｋ_ｆＮ（ｔ−ｔ_１，ｓ），ｇ_ｆ１（ｔ−ｔ_２，１），...，ｇ_ｆＮ（ｔ−ｔ_２，Ｎ），ｈ（ｔ−ｔ_１）から、混合分布を表す確率密度関数Ｐｓ（ｔ）（発話開始タイミング推定情報）を生成し、その混合分布のピークに対応する時点ｔを発話開始タイミングとする。時点ｔ_２，ｊが生成されていない場合にはｇ_ｆｊ（ｔ−ｔ_２，ｊ）＝１とする。確率密度関数Ｐｓ（ｔ）は、例えば、以下の式（４）で算出できる。

タイミング算出部２３３は、Ｐｓ（ｔ）が最大になる時点ｔを次発話発生時点（次の発話開始タイミング）とし、この次発話発生時点を表すラベルＴ_ｕｂ（発話開始タイミング情報）を出力する。或いは、或る閾値以上の大きさの確率Ｐｓ（ｔ）に対応する時点ｔを次発話発生時点の候補とし、当該次発話発生時点の候補を表すラベルを出力してもよい。或いは、大きい順番で選択した複数個の確率Ｐｓ（ｔ）に対応する時点ｔを次発話発生時点の候補とし、当該次発話発生時点の候補を表すラベルを出力してもよい。

＜第３実施形態＞
第３実施形態は第２実施形態の変形例であり、第２実施形態との相違点は、第１発話開始時点モデルおよび第２発話開始時点モデルの少なくとも一方が、発話区間で非話者であって次の発話区間で話者となる者と、発話区間で非話者であって次の発話区間で非話者となる者と、を互いに異なる注視対象として扱ったモデル（詳細分類モデル）である点である。これにより、次の発話開始タイミングの推定精度がさらに向上する。なお、第１発話開始時点モデルまたは第２発話開始時点モデルの一方のみが詳細分類モデルであってもよいが、第１発話開始時点モデルおよび第２発話開始時点モデルの両方が詳細分類モデルであるほうが、次の発話開始タイミングの推定精度が高いため、好ましい。以下では一例として、学習モデルが第１発話開始時点モデルと第２発話開始時点モデルと第３発話開始時点モデルのすべてを含み、第１発話開始時点モデルおよび第２発話開始時点モデルの両方が詳細分類モデルである例を示す。以下では第２実施形態との相違点のみを説明する。

図１に例示するように、本形態のシステムの第２実施形態のシステムに対する相違点は、第２実施形態の推定装置２に替えて推定装置３を備える点である。本形態の推定装置３は、発話単位生成部１１、注視対象遷移パターン生成部２２、および推定部３３を有し、推定部３３は、次発話者算出部１３１、タイミング算出部３３３、および学習モデル情報記憶部３３２を有する。

本システムは、注視対象検出装置１１１−１〜Ｎ、音声情報取得装置１１２−１〜Ｎ、発話単位生成部１１、注視対象遷移パターン生成部２２、次発話者算出部１３１、およびタイミング算出部３３３が実行する一連の処理を繰り返し行うことで、常時、次発話者の推定および次の発話開始タイミングの推定を行う。

［学習モデル情報記憶部３３２］
学習モデル情報記憶部３３２は、第１実施形態で説明した学習モデルに加え、さらに、第１〜３発話開始時点モデルを学習モデルとして格納している。ただし、第１発話開始時点モデルおよび第２発話開始時点モデルの両方が詳細分類モデルである点が第２実施形態と相違する。すなわち、この例の第１発話開始時点モデルも、注視対象遷移パターンｖに応じた、当該発話区間の終了時点ｔ_１を基点とした次の発話開始時点ｔ−ｔ_１の確率分布を表す確率密度関数ｋ_ｖ（ｔ−ｔ_１）である。また、この例の第２発話開始時点モデルも、注視対象遷移パターンｖに応じた、遷移後の注視行動が開始された時点ｔ_２を基点とした話開始時点ｔ−ｔ_２の確率分布を表す確率密度関数ｇ_ｖ（ｔ−ｔ_２）である。これらの確率密度関数も、会話データから事前に集計され、生成されたものである。ただし、本形態の注視対象遷移パターンｖは、発話区間で非話者であって次の発話区間で話者となる者と、発話区間で非話者であって次の発話区間で非話者となる者と、を互いに異なる注視対象として扱ったものである。すなわち、以下のような注視対象を表すラベルの遷移ｎ−ｇｒａｍを注視対象遷移パターンｖとして生成されたものである。
・ラベルＳ：話者（すなわち、話者である参加者Ｕ_ｓを表す）
・ラベルＮＳ：次話者である非話者（すなわち、非話者のうち次話者となる参加者Ｕ_ｎｓを表す）
・ラベルＮＬ_ι：次話者でない非話者（ただし、ιは次話者でない互いに異なる非話者を識別し、ι＝１，...，Ｎ−１である。たとえば、ある参加者が、非話者Ｕ_２、非話者Ｕ_３、の順に注視をしており、非話者Ｕ_２が次話者であるとき、非話者Ｕ_２にＮＳというラベル、非話者Ｕ_３にＮＬ_１というラベルが割り当てられる。）
・ラベルＸ：誰も見ていない
また、本形態の確率密度関数ｋ_ｖ（ｔ−ｔ_１）およびｇ_ｖ（ｔ−ｔ_２）は、上記の注視対象遷移パターンｖごとに、参加者が話者であったか非話者であったかという２つの発話状態のそれぞれに対して生成されたものである。すなわち、本形態では、注視対象遷移パターンｖごとに２種類ずつの確率密度関数ｋ_ｖ（ｔ−ｔ_１）およびｇ_ｖ（ｔ−ｔ_２）が生成され、それらが互いに区別される。例えば、話者Ｕ_１，非話者Ｕ_２の注視対象遷移パターンｆ_１，ｆ_２が共にＮＬ_１−ＮＬ_２でも、この注視対象遷移パターンｆ_１に応じたｋ_ｆ１（ｔ−ｔ_１）と、この注視対象遷移パターンｆ_２に応じたｋ_ｆ２（ｔ−ｔ_１）とは、互いに区別される。同様に、この注視対象遷移パターンｆ_１に応じたｇ_ｆ１（ｔ−ｔ_２）と、この注視対象遷移パターンｆ_２に応じたｇ_ｆ２（ｔ−ｔ_２）とは、互いに区別される。

［タイミング算出部３３３］
タイミング算出部３３３は、次発話者算出部１３１で話者交替であると判定された場合に、発話単位生成部１１で得られた発話区間Ｔ_ｓの終了時点ｔ_１，ｓ、次発話者算出部１３１で得られた次話者を表すラベルｎｓ、参加者Ｕ_ｊおよび注視対象Ｇ_ｊ（ｔ）を表す情報、および発話区間Ｔ_ｓとそれに対応する参加者（話者）Ｕ_ｓを表す情報、および注視対象遷移パターン生成部２２で得られた遷移後の注視行動が開始された時点ｔ_２，１，...，ｔ_２，Ｎを入力とし、それらを学習モデル情報記憶部３３２に格納された学習モデルに適用し、発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報を得、次の発話開始タイミングを推定する。以下にその処理を具体的に説明する。

第１実施形態で説明した通り、入力された注視対象遷移パターンｆ_ｊは、発話区間で非話者であって次の発話区間で話者となる者と、発話区間で非話者であって次の発話区間で非話者となる者とを区別したものではない。そのため、タイミング算出部３３３は、参加者Ｕ_ｊおよび注視対象Ｇ_ｊ（ｔ）を表す情報、発話区間Ｔ_ｓとそれに対応する参加者（話者）Ｕ_ｓを表す情報、および次話者を表すラベルｎｓを用い、発話区間Ｔ_ｓの終了時点Ｔ_ｓｅに対応する時間区間における参加者Ｕ_ｊの注視対象の遷移を表す注視対象遷移パターンｆ_ｊ’を生成する。ただし、本形態では、各参加者Ｕ_ｊについて、上述したラベルＳ，ＮＳ，ＮＬ_ι，Ｘで識別された注視対象の遷移ｎ−ｇｒａｍを生成し、それを参加者Ｕ_ｊの注視対象遷移パターンｆ_ｊ’として出力する。なお、注視対象の参加者が次話者であるか否かは、次話者を表すラベルｎｓによって特定する。

タイミング算出部３３３は、学習モデル情報記憶部３３２から、確率密度関数ｈ（ｔ−ｔ_１）、ならびに、参加者Ｕ_１，...，Ｕ_Ｎのそれぞれが話者であったか非話者であったかと注視対象遷移パターンｆ_１’，...，ｆ_Ｎ’とに対応する確率密度関数ｋ_ｆ１’（ｔ−ｔ_１），...，ｋ_ｆＮ’（ｔ−ｔ_１）および確率密度関数ｇ_ｆ１’（ｔ−ｔ_２），...，ｇ_ｆＮ’（ｔ−ｔ_２）を抽出する。参加者Ｕ_１，...，Ｕ_Ｎのそれぞれが話者であったか非話者であったかは、１つ前の繰り返し処理においてタイミング算出部２３３に入力されたラベルｎｓから特定できる。図３Ａの例では、参加者Ｕ_１が話者であり、参加者Ｕ_１の注視対象遷移パターンｆ_１’がＮＬ_１−ＮＳである。そのため、確率密度関数ｈ（ｔ−ｔ_１）が抽出されるとともに、「話者」および「ｆ_１’がＮＬ_１−ＮＳ」に対応するｋ_ｆ１’（ｔ−ｔ_１）およびｇ_ｆ１’（ｔ−ｔ_２）が抽出される。他の参加者Ｕ_２，...，Ｕ_Ｎについても同様にｋ_ｆ２’（ｔ−ｔ_１），...，ｋ_ｆＮ’（ｔ−ｔ_１）および確率密度関数ｇ_ｆ２’（ｔ−ｔ_２），...，ｇ_ｆＮ’（ｔ−ｔ_１）が抽出される。

タイミング算出部３３３は、入力された発話区間Ｔ_ｓの終了時点ｔ_１，ｓ、および遷移後の注視行動が開始された時点ｔ_２，１，...，ｔ_２，Ｎを、抽出したｈ（ｔ−ｔ_１），ｋ_ｆ１’（ｔ−ｔ_１），...，ｋ_ｆＮ’（ｔ−ｔ_１），ｇ_ｆ１’（ｔ−ｔ_２），...，ｇ_ｆＮ’（ｔ−ｔ_２）に代入して得られるｈ（ｔ−ｔ_１，ｓ），ｋ_ｆ１’（ｔ−ｔ_１，ｓ），...，ｋ_ｆＮ’（ｔ−ｔ_１，ｓ），ｇ_ｆ１’（ｔ−ｔ_２，１），...，ｇ_ｆＮ’（ｔ−ｔ_２，Ｎ），ｈ（ｔ−ｔ_１）から、混合分布を表す確率密度関数Ｐｓ（ｔ）（発話開始タイミング推定情報）を生成し、その混合分布のピークに対応する時点ｔを発話開始タイミングとする。確率密度関数Ｐｓ（ｔ）は、例えば、以下の式（５）で算出できる。

タイミング算出部３３３は、Ｐｓ（ｔ）が最大になる時点ｔを次発話発生時点（次の発話開始タイミング）とし、この次発話発生時点を表すラベルＴ_ｕｂ（発話開始タイミング情報）を出力する。或いは、或る閾値以上の大きさの確率Ｐｓ（ｔ）に対応する時点ｔを次発話発生時点の候補とし、当該次発話発生時点の候補を表すラベルを出力してもよい。或いは、大きい順番で選択した複数個の確率Ｐｓ（ｔ）に対応する時点ｔを次発話発生時点の候補とし、当該次発話発生時点の候補を表すラベルを出力してもよい。

＜その他の変形例＞
本発明は上述の実施の形態に限定されるものではない。例えば、発話単位生成部１１が推定装置の外部に構成され、推定装置が発話単位生成部１１を含まない構成であってもよい。

上述の各実施形態では、２つ以上のＴｄ［ｍｓ］連続した無音区間で囲まれた区間とそれらで囲まれた発話成分が存在する区間とからなり、Ｔｄ［ｍｓ］連続した２つの無音区間の間に、発話成分が存在する区間で囲まれた別のＴｄ［ｍｓ］連続した無音区間を含まないこととした。しかしながら、２つ以上のＴｄ［ｍｓ］連続した無音区間で囲まれた区間とそれらで囲まれた発話成分が存在する区間とからなり、Ｔｄ［ｍｓ］連続した２つの無音区間の間に、発話成分が存在する区間で囲まれた別のＴｄ［ｍｓ］連続した無音区間を含むもの１つの発話区間Ｔ_ｊとしてもよい。

上述の各実施形態では、終了時点Ｔ_ｓｅを含む有限の時間区間における参加者Ｕ_ｊの注視対象の遷移を表すパターンを注視対象遷移パターンｆ_ｊとした。しかしながら、終了時点Ｔ_ｓｅの近傍の時間区間における参加者Ｕ_ｊの注視対象の遷移を表す情報を、注視対象遷移パターンｆ_ｊとしてもよい。

第１実施形態では、話者継続するか話者交替するかを推定し、話者交替であると判定された場合に次話者が誰となるのかの推定を行った。しかしながら、話者継続するか話者交替するかのみを推定し、その結果が出力されてもよい。

第２，３実施形態では、学習モデルが第１発話開始時点モデルｋ_ｖ（ｔ−ｔ_１）と第２発話開始時点モデルｇ_ｖ（ｔ−ｔ_２）と第３発話開始時点モデルｈ（ｔ−ｔ_１）とを含み、タイミング算出部２３３，３３４が式（４）のＰｓ（ｔ）から次発話発生時点やその候補を得た。しかしながら、学習モデルが第１発話開始時点モデルｋ_ｖ（ｔ−ｔ_１）と第３発話開始時点モデルｈ（ｔ−ｔ_１）とを含むが第２発話開始時点モデルｇ_ｖ（ｔ−ｔ_２）を含まず、タイミング算出部２３３が式（４）に替えて式（６）を用いてもよいし、タイミング算出部３３３が式（５）に替えて式（７）を用いてもよい。

或いは、学習モデルが第１発話開始時点モデルｋ_ｖ（ｔ−ｔ_１）を含むが第２発話開始時点モデルｇ_ｖ（ｔ−ｔ_２）と第３発話開始時点モデルｈ（ｔ−ｔ_１）とを含まず、タイミング算出部２３３が式（４）に替えて式（８）を用いてもよいし、タイミング算出部３３３が式（５）に替えて式（９）を用いてもよい。

或いは、学習モデルが第２発話開始時点モデルｇ_ｖ（ｔ−ｔ_２）と第３発話開始時点モデルｈ（ｔ−ｔ_１）とを含むが第１発話開始時点モデルｋ_ｖ（ｔ−ｔ_１）を含まず、タイミング算出部２３３が式（４）に替えて式（１０）を用いてもよいし、タイミング算出部３３３が式（５）に替えて式（１１）を用いてもよい。

或いは、学習モデルが第１発話開始時点モデルｋ_ｖ（ｔ−ｔ_１）と第２発話開始時点モデルｇ_ｖ（ｔ−ｔ_２）とを含むが第３発話開始時点モデルｈ（ｔ−ｔ_１）を含まず、タイミング算出部２３３が式（４）に替えて式（１２）を用いてもよいし、タイミング算出部３３３が式（５）に替えて式（１３）を用いてもよい。

或いは、学習モデルが第２発話開始時点モデルｇ_ｖ（ｔ−ｔ_２）を含むが第１発話開始時点モデルｋ_ｖ（ｔ−ｔ_１）と第３発話開始時点モデルｈ（ｔ−ｔ_１）を含まず、タイミング算出部２３３が式（４）に替えて式（１４）を用いてもよいし、タイミング算出部３３３が式（５）に替えて式（１５）を用いてもよい。

また、第３実施形態では、一例として、第１発話開始時点モデルおよび第２発話開始時点モデルの両方が詳細分類モデルである例を示した。しかし、前述のように第１発話開始時点モデルのみが詳細分類モデルであってもよいし、第２発話開始時点モデルのみが詳細分類モデルであってもよい。例えば、第１発話開始時点モデルのみが詳細分類モデルである場合、タイミング算出部３３３が式（５）に替えて式（１６）または（１７）を用いてもよい。

また例えば、第２発話開始時点モデルのみが詳細分類モデルである場合、タイミング算出部３３３が式（５）に替えて式（１８）または（１９）を用いてもよい。

また、タイミング算出部２３３，３３３は、Ｐｓ（ｔ）を求めてから次発話発生時点やその候補を得てもよいが、必ずしもＰｓ（ｔ）を求める必要はない。すなわち、タイミング算出部２３３，３３３は、Ｐｓ（ｔ）を得ることなく次発話発生時点やその候補を得てもよい。例えば、タイミング算出部２３３，３３３は、Ｐｓ（ｔ）を得ることなくＰｓ（ｔ）のｔについても微分結果から発話発生時点を得てもよいし、そのように得た発話発生時点を含む有限の時間区間を次発話発生時点の候補としてもよい。

また、各実施形態では、推定装置１３〜３３が次話者推定情報を用いた次発話者の推定や、発話開始タイミング推定情報を用いた発話開始タイミングの推定を行うこととしたが、推定装置１３〜３３がそれらを推定するための次話者推定情報（例えば、確率Ｐ（ｎｓ_ｉ））や発話開始タイミング推定情報（混合分布を表す確率密度関数）をそのまま出力してもよい。

また、各実施形態では、学習モデルとして確率モデルを用いる例を示した。しかしながら、サポートベクターマシーンに代表されるような機械学習の一般的な手法を用いてもよい。その場合には、例えば、注視対象の遷移を表すパターンを特徴量とし、事前に会話データを用いた学習によって、注視対象の遷移を表すパターンと次発話（発話区間の次の発話区間の話者）や次発話開始のタイミング（発話区間の次の発話開始タイミング）との関係をモデル化しておくことで実現できる。

上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

上述した各装置は、例えば、ＣＰＵ（central processing unit）、ＲＡＭ（random-access memory）等を有する汎用または専用のコンピュータに所定のプログラムが読み込まれることによって構成される。このプログラムには各装置が有すべき機能の処理内容が記述され、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

以上により、高精度に次話者および次発話開始のタイミングをリアルタイムで予測推定可能となる。この次発話と次発話開始のタイミング推定はさまざまなシーンで利用可能であり、例えば、遅延のある遠隔コミュニケーションシステムにおいて、予測結果を基にユーザに次発話者を提示することで発話回避をさせることや、コミュニケーションロボットがユーザの発話開始を予測しながらタイミングよく発話をするための基盤的な技術となる。

１〜３推定装置
１２，２２注視対象遷移パターン生成部
１３，２３，３３推定部

Claims

発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを得る注視対象遷移パターン生成部と、
前記注視対象遷移パターンに所定の学習モデルを適用し、前記発話区間の次の発話区間の話者を推定するための次話者推定情報、および、前記発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報、の少なくとも一方を得る推定部と、
を有する推定装置。
請求項１の推定装置であって、
前記学習モデルは、前記注視対象の遷移を表すパターンと次の発話区間の話者との関係を表す次話者モデルを含む、推定装置。
請求項１または２の推定装置であって、
前記学習モデルは、
前記注視対象の遷移を表すパターンと、前記発話区間の終了時点を基点とした次の発話開始時点と、の関係を表す第１発話開始時点モデル、および、
前記注視対象の遷移を表すパターンと、遷移後の注視行動の開始時点を基点とした次の発話開始時点と、の関係を表す第２発話開始時点モデル、
の少なくとも一方を含む、推定装置。
請求項３の推定装置であって、
前記第１発話開始時点モデルおよび前記第２発話開始時点モデルの少なくとも一方は、前記発話区間で非話者であって次の発話区間で話者となる者と、前記発話区間で非話者であって次の発話区間で非話者となる者と、を互いに異なる前記注視対象として扱ったモデルである、推定装置。
請求項１から４の何れかの推定装置であって、
前記時間区間は、前記発話区間の終了時点を含む有限の時間区間である、推定装置。
注視対象遷移パターン生成部で、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを得る注視対象遷移パターン生成ステップと、
推定部で、前記注視対象遷移パターンに所定の学習モデルを適用し、前記発話区間の次の発話区間の話者を推定するための次話者推定情報、および、前記発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報、の少なくとも一方を得る推定ステップと、
を有する推定方法。
請求項１から５の何れかの推定装置としてコンピュータを機能させるためのプログラム。