JP2016042345A

JP2016042345A - 推定装置、その方法およびプログラム

Info

Publication number: JP2016042345A
Application number: JP2014224963A
Authority: JP
Inventors: 石井　亮; Akira Ishii; 亮石井; 大塚　和弘; Kazuhiro Otsuka; 和弘大塚; 史朗熊野; Shiro Kumano; 淳司大和; Atsushi Yamato
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-08-13
Filing date: 2014-11-05
Publication date: 2016-03-31

Abstract

【課題】次発話に関する情報の推定を安定的に高精度に行う。
【解決手段】発話区間を表す発話区間情報、参加者のうち何れが当該発話区間での発話者であるかを表す発話者情報、および当該参加者の呼吸情報を入力とし、当該参加者の吸い込み区間での息の吸い込み量、吸い込み区間の長さ、当該吸い込み区間での息の吸い込み量の時間変化、および当該発話区間と当該吸い込み区間との時間関係の少なくとも一部に基づき、当該参加者のうち何れが次発話者であるか、および当該次発話者の発話タイミングの少なくとも一方を表す推定情報を得て出力する。
【選択図】図１

Description

本発明は、次発話に関する情報を推定する技術に関する。

多人数の遠隔コミュニケーションにおいて、顔や人物の様子が見えない、映像があっても意図が読めない、遅延によって発話のタイミングがずれるといった諸問題から、発話の衝突が頻繁に起こるという問題がある。そのため、音声や映像の情報を解析し次に話し始める人物（次発話者）を推定する技術や、推定結果からユーザに次発話者を通知することで発話衝突を軽減する手法が提案されている。例えば、特許文献１では、ユーザの動作や同調リズムから次発話者が推定可能であるとしているが、具体的な計算方法は明記されていない。また、特許文献２では、人間の注視行動に着目し、発話者以外のユーザが見ていた被注視対象者を次発話者と決定している。非特許文献１では、発話者と非発話者の注視行動の遷移パターンを用いて、次発話者および発話のタイミングを予測している。

特開２０１２−１４６０７２号公報特開２００６−３３８４９３号公報

石井亮, 大塚和弘, 熊野史朗, 松田昌史, 大和淳司，"複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測"，人工知能学会研究会資料，SIG-SLUD-B301-06, pp.27-34, 2013．

しかしながら、従来の手法は推定精度が十分ではない。また、必ずしも視線計測を安定的に行えるわけではない。

本発明の課題は次発話に関する情報の推定を安定的に高精度に行うことである。

発話区間を表す発話区間情報、参加者のうち何れが当該発話区間での発話者であるかを表す発話者情報、および当該参加者の呼吸情報を入力とし、当該参加者の吸い込み区間での息の吸い込み量、吸い込み区間の長さ、息の吸い込み量の時間変化、および当該発話区間と当該吸い込み区間との時間関係の少なくとも一部に基づき、当該参加者のうち何れが次発話者であるか、および当該次発話者の発話タイミングの少なくとも一方を表す推定情報を得て出力する。

本発明では、次発話に関する情報の推定を安定的に高精度に行うことができる。

図１は第１実施形態および第２実施形態の推定装置を例示したブロック図である。図２は次発話者／発話タイミング推定部を例示したブロック図である。図３Ａは息の吸い込み区間を例示するための図であり、図３Ｂは息の吸い込みパラメータを例示するための図である。図４は第３実施形態の推定装置を例示したブロック図である。図５は注視対象遷移パターンを例示するためのブロック図である。図６は時間構造情報を例示するためのブロック図である。

以下、図面を参照して本発明の実施形態を説明する。

［第１実施形態］
会話の参加者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の参加者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際（発話者継続時）には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際（発話者交替時）には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本形態では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。すなわち、発話区間を表す発話区間情報、参加者のうち何れが当該発話区間での発話者であるかを表す発話者情報、および当該参加者の呼吸情報を入力とし、当該参加者の吸い込み区間での息の吸い込み量、吸い込み区間の長さ、息の吸い込み量の時間変化、および当該発話区間と当該吸い込み区間との時間関係の少なくとも一部に基づき、当該参加者のうち何れが次発話者であるか、および当該次発話者の発話タイミングの少なくとも一方を表す推定情報を得て出力する。この推定情報は、当該吸い込み区間での息の吸い込み量、吸い込み区間の長さ、当該吸い込み区間での息の吸い込み量の時間変化、および当該発話区間と当該吸い込み区間との時間関係の何れか１つのみから得られてもよいし、これらの複数から得られてもよいし、これらのすべてから得られてもよい。

＜構成＞
図１に例示するように、本形態の推定装置１は、吸い込み区間抽出部１３、発話単位抽出部１４、次発話者／発話タイミング推定部１５、およびデータベース記憶部１６を有する。吸い込み区間抽出部１３はＡ個（Ａは１以上の整数、例えばＡ≧２）の呼吸動作計測装置１１−１〜１１−Ａからの情報の取得が可能なように構成されており、発話単位抽出部１４はＡ個の音声情報取得装置１２−１〜１２−Ａからの情報の取得が可能なように構成されている。図２に例示するように、本形態の次発話者／発話タイミング推定部１５は、モデル生成部１５１，１５３、およびモデル適用部１５２，１５４を有する。

推定装置１は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）やＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。呼吸動作計測装置１１−ａ（ただし、ａ＝１，…，Ａ）は、人物の呼吸動作を計測し、その計測結果を呼吸情報として出力する装置である。呼吸動作計測装置１１−ａの例は、胸部や腹部にバンドを巻き、その伸縮度合を呼吸の深さとして取得するバンド式の呼吸計測装置、気流の通路に気流速計や気流量計を配置して呼吸情報を取得する装置、呼気あるいは呼気容量を計測する装置、胸郭運動を機械的あるいは電気的に検出して、排気量変化を求める装置などである（例えば、参考文献１：山越憲一、戸川達男、「生体用センサと計測装置」、コロナ社、2000年）。音声情報取得装置１２−ａ（ただし、ａ＝１，…，Ａ）は、受音した音声を表す音声情報を出力する装置であり、例えば、マイクロホンである。例えば、遠隔コミュニケーション環境下で本システムを利用する場合、各拠点に最低でも、呼吸動作計測装置１１−ａおよび音声情報取得装置１２−ａが配置される。吸い込み区間抽出部１３および発話単位抽出部１４は、例えば、ネットワーク経由で呼吸動作計測装置１１−ａおよび音声情報取得装置１２−ａとデータを送受信する。対面コミュニケーション環境下で本システムを利用する場合、呼吸動作計測装置１１−ａおよび音声情報取得装置１２−ａが推定装置１の近傍に配置され、これらが有線または無線を通じてデータを送受信する。あるいは、呼吸動作計測装置１１−１〜１１−Ａおよび音声情報取得装置１２−１〜１２−Ａの一部がネットワーク経由で呼吸動作計測装置１１−ａおよび音声情報取得装置１２−ａとデータを送受信し、他が有線または無線を通じて呼吸動作計測装置１１−ａおよび音声情報取得装置１２−ａとデータを送受信してもよい。

＜動作＞
本形態の推定装置１の動作を説明する。

以下では、Ａ人の参加者Ｐ_１，…，Ｐ_Ａが対面コミュニケーションを行う状況を想定する。参加者Ｐ_ａ（ただし、ａ＝１，…，Ａ）には呼吸動作計測装置１１−ａおよび音声情報取得装置１２−ａが装着される。参加者の人数Ａには制約はない。通常、会話は２人以上の参加者によってなされるためＡ≧２であるが（例えばＡ＝４）、対話システム（会話ロボットなどコミュニケーション機能を有する一般的なシステム）がコミュニケーションに加わる場合にはＡ＝１であってもよいし、Ａ≧２であってもよい。また、同一人物に複数の呼吸動作計測装置を利用しても良い。このような場合、参加者Ｐ_ａに利用される複数の呼吸動作計測装置を総称して呼吸動作計測装置１１−ａと表現することにする。

呼吸動作計測装置１１−ａ（ただし、ａ＝１，…，Ａ）は、参加者Ｐ_ａの呼吸動作をリアルタイムで計測し、各離散時刻ｔでの計測結果を表す呼吸情報Ｂ_ａ，ｔを得て出力する。前述のように呼吸動作計測装置１１−ａの呼吸計測方式に限定はないが、以下ではバンド式の呼吸計測装置を呼吸動作計測装置１１−ａとして用いる。バンド式の呼吸装置では、バンドの伸縮の強さによって呼吸の深さの度合いを示す値を出力する。息の吸い込みが大きいほどバンドの伸びが大きくなり、逆に息の吐き出しが大きいほどバンドの縮みが大きくなる（バンドの伸びが小さくなる）。以降、この値をＲＳＰ値と呼ぶ。なお、ＲＳＰ値は、バンドの伸縮の強さに応じて参加者Ｐ_ａごとに異なる大きさを取る。そこで、これに起因するＰ_ａごとのＲＳＰ値の相違を排除するために、各参加者Ｐ_ａのＲＳＰ値の平均値μ_ａと標準偏差値δ_ａを用いて、μ_ａ+δ_ａが１、μ_ａ−δ_ａが−１になるように参加者Ｐ_ａごとにＲＳＰ値を正規化した。これによって、すべての参加者Ｐ_ａの呼吸動作データを同一に分析することが可能となる。なお正規化の方法は本説明の方法に限らない。このような正規化は吸い込み区間抽出部１３で行われてもよいが、以下ではこのような正規化が各呼吸動作計測装置１１−ａで行われ、各呼吸動作計測装置１１−ａが正規化されたＲＳＰ値を呼吸情報Ｂ_ａ，ｔとして出力することにする。また、同一人物に複数の呼吸動作計測装置が装着される場合、参加者Ｐ_ａに装着された呼吸動作計測装置１１−ａで得られた呼吸情報（またはそれらの正規化値）の平均値その他の関数値を呼吸情報Ｂ_ａ，ｔとする。呼吸情報Ｂ_ａ，ｔは、逐次、吸い込み区間抽出部１３に送られる。

音声情報取得装置１２−ａ（ただし、ａ＝１，…，Ａ）は、参加者Ｐ_ａの音声をリアルタイムで取得し、各離散時刻ｔでの参加者Ｐ_ａの音声を表す音声情報Ｖ_ａ，ｔを得て出力する。音声情報Ｖ_ａ，ｔは、逐次、発話単位抽出部１４に送られる。

発話単位抽出部１４は、入力された音声情報Ｖ_ａ，ｔ（ただし、ａ＝１，…，Ａ）から雑音を除去し、さらに発話区間Ｕ_ｋ（ただし、ｋは発話区間Ｕ_ｋの識別子）とその発話者Ｐ_ｕｋとを抽出して出力する。ただし、「Ｐ_ｕｋ」の下付き添え字はｕ_ｋ＝１，…，Ａを表す。本形態では、１つの発話区間Ｕ_ｋをＴｄ［ｍｓ］連続した無音区間で囲まれた区間と定義し、この発話区間Ｕ_ｋを発話の一つの単位と規定する。Ｔｄは状況に応じて自由に決定できる。ただし、Ｔｄを長くすると、実際の発話終了から発話区間終了を判定するまでの時間が長くなるため、一般的な日常会話であれば２００〜５００ｍｓ程度とするのが適当である。発話単位抽出部１４は、各発話区間Ｕ_ｋを表す発話区間情報、およびその発話者Ｐ_ｕｋを表す発話者情報（参加者Ｐ_１，…，Ｐ_Ａのうち何れが発話区間Ｕ_ｋでの発話者Ｐ_ｕｋであるかを表す発話者情報）を得るたびに、それらを逐次、吸い込み区間抽出部１３に送る。

吸い込み区間抽出部１３は、各呼吸動作計測装置１１−ａ（ただし、ａ＝１，…，Ａ）から呼吸情報Ｂ_ａ，ｔが送られるたびに、各参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋを抽出し、さらに息の吸い込みに関するパラメータλ_ａ，ｋを取得して出力する。

息の吸い込み区間とは、息を吐いている状態から、息を吸い込みだす開始位置と、息を吸い込み終わる終了位置との間の区間を示す（図３Ａ参照）。息の吸い込みの区間を抽出する方法の一例をあげる。ある時点の前の数フレームでＲＳＰ値が連続して減少し、その時点の後の数フレームでＲＳＰ値が連続して上昇したとき、その時点を息の吸い込みの開始位置とする。また、息の吸い込みの開始位置より後のある時点の後の数フレームで連続してＲＳＰ値が連続して減少したとき、その時点を息の吸い込みの終了位置とする。これにより抽出された開始時刻と終了時刻の間の区間を息の吸い込みの区間と定義する。なお、フレームとは離散時間によって規定される時間区間を意味する。また、息の吸い込み区間を抽出する際に、波形の微小なノイズによって、正確に開始位置と終了位置が抽出できない可能性があるため、その前処理として数フレームのウィンドウ幅を設定してＲＳＰ値に移動平均処理を行い、移動平均処理後のＲＳＰ値から開始位置と終了位置とを抽出してもよい。

図３Ａを用いて息の吸い込み区間Ｉ_ａ，ｋの算出方法を例示する。ここで参加者Ｐ_ａの離散時刻ｔでのＲＳＰ値をＲ_ａ，ｔと表記する。ＲＳＰ値Ｒ_ａ，ｔは呼吸情報Ｂ_ａ，ｔに相当する。図３Ａに例示するように、例えば、

が成り立つとき、離散時刻ｔ＝ｔ_ｓ（ｋ）の前２フレームでＲＳＰ値Ｒ_ａ，ｔが連続して減少し、その後２フレームでＲＳＰ値Ｒ_ａ，ｔが連続して上昇しているから、離散時刻ｔ_ｓ（ｋ）を息の吸い込みの開始位置とする。さらに

が成り立つとき、離散時刻ｔ＝ｔ_ｅ（ｋ）の前２フレームのＲＳＰ値Ｒ_ａ，ｔが連続して上昇し、その後２フレームのＲＳＰ値Ｒ_ａ，ｔが連続して減少しているから、離散時刻ｔ_ｅ（ｋ）を息の吸い込みの終了位置とする。このとき、参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋはｔ_ｓ（ｋ）からｔ_ｅ（ｋ）までの区間となり、息の吸い込み区間の長さはｔ_ｅ（ｋ）−ｔ_ｓ（ｋ）となる。なお、息の吸い込み区間の抽出には他の手段を用いても良い。

吸い込み区間抽出部１３は、息の吸い込み区間Ｉ_ａ，ｋが抽出されると、息の吸い込み区間Ｉ_ａ，ｋ、呼吸情報Ｂ_ａ，ｔ、および発話区間Ｕ_ｋの少なくとも一部を用い、息の吸い込みに関するパラメータλ’_ａ，ｋを抽出する。パラメータλ’_ａ，ｋは、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込みの量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部を表す。パラメータλ’_ａ，ｋは、これらの一つのみを表してもよいし、これらのうち複数を表してもよいし、これらすべてを表してもよい。パラメータλ’_ａ，ｋは、例えば以下のパラメータＭＩＮ_ａ，ｋ，ＭＡＸ_ａ，ｋ，ＡＭＰ_ａ，ｋ，ＤＵＲ_ａ，ｋ，ＳＬＯ_ａ，ｋ，ＩＮＴ１_ａ，ｋの少なくとも一部を含む。パラメータλ’_ａ，ｋは、これらの１つのみを含んでいてもよいし、これらのうち複数を含んでいてもよいし、これらのすべてを含んでいてもよい。
・ＭＩＮ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み開始時のＲＳＰ値Ｒ_ａ，ｔ、すなわち、息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの最小値。
・ＭＡＸ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み終了時のＲＳＰ値Ｒ_ａ，ｔ、すなわち、息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの最大値。
・ＡＭＰ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋのＲＳＰ値Ｒ_ａ，ｔの振幅、すなわち、ＭＡＸ_ａ，ｋ−ＭＩＮ_ａ，ｋで算出される値。吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量を表す。
・ＤＵＲ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋの長さ、すなわち、息の吸い込み区間Ｉ_ａ，ｋの終了位置の離散時刻ｔ_ｅ（ｋ）から開始位置の離散時刻ｔ_ｓ（ｋ）を減じて得られる値ｔ_ｅ（ｋ）−ｔ_ｓ（ｋ）。
・ＳＬＯ_ａ，ｋ：参加者Ｐ_ａの息の吸い込み区間Ｉ_ａ，ｋにおけるＲＳＰ値Ｒ_ａ，ｔの単位時間当たりの傾きの平均値、すなわち、ＡＭＰ_ａ，ｋ／ＤＵＲ_ａ，ｋで算出される値。吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化を表す。
・ＩＮＴ１_ａ，ｋ：手前の発話区間Ｕ_ｋの終了時刻ｔ_{ｕｅ（ｋ）}（発話区間末）から参加者Ｐ_ａの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ｉ_ａ，ｋの開始位置の離散時刻ｔ_ｓ（ｋ）から発話区間Ｕ_ｋの終了時刻ｔ_{ｕｅ（ｋ）}を減じて得られる値ｔ_ｓ（ｋ）−ｔ_{ｕe（ｋ）}。発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係を表す。

次発話者の発話区間Ｕ_ｋ＋１を表す情報が吸い込み区間抽出部１３に入力されると、吸い込み区間抽出部１３は、さらに以下のパラメータＩＮＴ２_ａ，ｋを生成してもよい。
・ＩＮＴ２_ａ，ｋ：参加者Ｐ_ａの息の吸い込み終了時から次発話者の発話区間Ｕ_ｋ＋１が開始されるまでの間隔、すなわち、次発話者の発話区間Ｕ_ｋ＋１の開始時刻ｔ_{ｕｓ（ｋ＋１）}から息の吸い込み区間Ｉ_ａ，ｋの終了位置の離散時刻ｔ_ｅ（ｋ）を減じて得られる値ｔ_{ｕｓ（ｋ＋１）}−ｔ_ｅ（ｋ）。発話区間Ｕ_ｋ＋１と吸い込み区間Ｉ_ａ，ｋとの時間関係を表す。パラメータλ’_ａ，ｋにＩＮＴ２_ａ，ｋを加えたものをパラメータλ_ａ，ｋと表記する。

パラメータλ’_ａ，ｋは、例えば息の吸い込み区間Ｉ_ａ，ｋが抽出され、息の吸い込み区間Ｉ_ａ，ｋが得られた時点で（発話区間Ｕ_ｋ＋１が開始される前に）、次発話者／発話タイミング推定部１５に、Ｐ_ｕｋ、Ｕ_kと共に送られ、次発話者（発話区間Ｕ_ｋ＋１の発話者）およびその発話タイミングを予測するために使用される。

パラメータλ_ａ，ｋは、例えば発話区間Ｕ_ｋ＋１を表す情報が吸い込み区間抽出部１３に入力され、パラメータλ_ａ，ｋが得られた以降（発話区間Ｕ_ｋ＋１が開始された後）に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１およびその発話者Ｐ_ｕｋ＋１とその発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベース記憶部１６に送られる。次発話者Ｐ_ｕｋ＋１の発話タイミングとは、発話区間Ｕ_ｋ＋１の何れかの時点またはそれに対応する時点であればよい。発話タイミングＴ_ｕｋ＋１は、発話区間Ｕ_ｋ＋１の開始時刻ｔ_{ｕｓ（ｋ＋１）}であってもよいし、時刻ｔ_{ｕｓ（ｋ＋１）}＋γ（ただし、γは正または負の定数）であってもよいし、発話区間Ｕ_ｋ＋１の終了時刻ｔ_{ｕｅ（ｋ＋１）}であってもよいし、時刻ｔ_{ｕｅ（ｋ＋１）}＋γであってもよいし、発話区間Ｕ_ｋ＋１の中心時刻ｔ_{ｕｓ（ｋ＋１）}＋（ｔ_{ｕｅ（ｋ＋１）}−ｔ_{ｕｓ（ｋ＋１）}）／２であってもよい。λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベース記憶部１６に保持され、次発話者／発話タイミング推定部１５で発話区間Ｕ_ｋ＋１よりも後の次発話者とその発話タイミングを予測するために使用される。なお事前に、過去の会話データから同様の情報をデータベース記憶部１６に保持しておいてもよい。これにより、より多くのデータを次発話者／発話タイミング推定部１５での処理に利用することができる。

次発話者／発話タイミング推定部１５は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_k、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に基づき、参加者Ｐ_１，…，Ｐ_Ａのうち何れが次発話者Ｐ_ｕｋ＋１であるか、および次発話者Ｐ_ｕｋ＋１の発話タイミングの少なくとも一方を表す推定情報を得て出力する。ただし、「Ｐ_ｕｋ＋１」の下付き添え字「ｕｋ＋１」はｕ_ｋ＋１を表す。発話区間Ｕ_ｋの発話者Ｐ_ｕｋが発話区間Ｕ_ｋ＋１でも発話を行う場合（発話継続する場合）、次発話者は発話区間Ｕ_ｋの発話者Ｐ_ｕｋと同一である。一方、発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者が発話区間Ｕ_ｋ＋１でも発話を行う場合（すなわち発話交替する場合）、次発話者は発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者である。なお、推定情報は次発話者Ｐ_ｕｋ＋１またはその発話タイミングの一方のみを表してもよいが、以下では推定情報がこれら両方を表す場合を説明する。

本形態の場合、次発話者／発話タイミング推定部１５は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_k、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報を得て出力する。特徴量ｆ_ａ，ｋは、発話者情報Ｐ_ｕｋ、発話区間Ｕ_k、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の１つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。モデルの機械学習には、例えば、過去の吸い込み区間Ｉ_ａ，ｉ（ただし、ｉ＜ｋ）での息の吸い込み量、吸い込み区間Ｉ_ａ，ｉの長さ、吸い込み区間Ｉ_ａ，ｉでの息の吸い込み量の時間変化、および発話区間Ｕ_ｉと吸い込み区間Ｉ_ａ，ｉとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋ、ならびに発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｋ，Ｐ_ｕｋ＋１の情報が学習データとして用いられる。

次発話者／発話タイミング推定部１５の処理を例示する。この例では、次発話者Ｐ_ｕｋ＋１を推定するモデルである次発話者推定モデルと、次発話者Ｐ_ｕｋ＋１の発話タイミングを推定するモデルである発話タイミング推定モデルとが生成され、それぞれのモデルを用いて次発話者Ｐ_ｕｋ＋１とその発話タイミングが推定される。

≪次発話者推定モデル≫
次発話者推定モデルの学習データとして、データベース記憶部１６から読み出した過去のパラメータλ_ａ，ｉ（ただし、ａ＝１，…，Ａであり、ｉ＜ｋである）の少なくとも一部、および発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｉ，Ｐ_ｕｉ＋１を表す情報がモデル生成部１５１（図２）に入力される。モデル生成部１５１は、パラメータλ_ａ，ｉの少なくとも一部に対応する特徴量Ｆ１_ａ，ｉおよびＵ_ｉ，Ｕ_ｉ＋１，Ｐ_ｕｉ，Ｐ_ｕｉ＋１を学習データとして、次発話者推定モデルを機械学習する。機械学習は一度だけ行われてもよいし、データベース記憶部１６に新たなデータが追加されるたび、または所定の契機ごとに行われてもよい。また、次発話者推定モデルには、例えば、ＳＶＭ（Support Vector Machine）、ＧＭＭ（Gaussian Mixture Model）、ＨＭＭ（Hidden Markov Model）等を用いることができる。生成された次発話者推定モデルを表す情報（モデルパラメータ等）は、モデル適用部１５２に送られる。

モデル適用部１５２には、さらに吸い込み区間抽出部１３から出力されたパラメータλ’_ａ，ｋの少なくとも一部が入力される。モデル適用部１５２は、入力されたパラメータλ’_ａ，ｋの少なくとも一部に対応する特徴量Ｆ１_ａ，ｋを次発話者推定モデルに適用し、それによって推定された次発話Ｐ_ｕｋ＋１を表す情報を「推定情報」の一部として出力する。なお、次発話Ｐ_ｕｋ＋１を表す情報は、何れかの参加者Ｐ_ａを確定的に表すものであってもよいし、確率的に表すものであってもよい。

≪発話タイミング推定モデル≫
発話タイミング推定モデルの学習データとして、データベース記憶部１６から読み出した過去のパラメータλ_ａ，ｉ（ただし、ａ＝１，…，Ａであり、ｉ＜ｋである）の少なくとも一部、発話区間Ｕ_ｉ，Ｕ_ｉ＋１およびそれらの発話者Ｐ_ｕｉ，Ｐ_ｕｉ＋１、および発話区間Ｕ_ｉ＋１の発話開始タイミングＴ_ｕｉ＋１を表す情報がモデル生成部１５３（図２）に入力される。モデル生成部１５３は、パラメータλ_ａ，ｉの少なくとも一部に対応する特徴量Ｆ２_ａ，ｉおよびＵ_ｉ，Ｕ_ｉ＋１，Ｐ_ｕｉ，Ｐ_ｕｉ＋１，Ｔ_ｕｉ＋１を学習データとして、発話タイミング推定モデルを機械学習する。機械学習は一度だけ行われてもよいし、データベース記憶部１６に新たなデータが追加されるたび、または所定の契機ごとに行われてもよい。また、次発話者推定モデルには、例えば、ＳＶＭ、ＧＭＭ、ＨＭＭ等を用いることができる。生成された発話タイミング推定モデルを表す情報は、モデル適用部１５４に送られる。

モデル適用部１５４には、注視対象遷移パターン生成部１９または時間構造情報生成部２０から得られる発話者Ｐ_ｕｋ、吸い込み区間抽出部１３から出力されたパラメータλ’_ａ，ｋの少なくとも一部、およびモデル適用部１５２の出力結果である次発話者Ｐ_ｕｋ＋１が入力される。モデル適用部１５４は、入力されたパラメータλ’_ａ，ｋの少なくとも一部に対応する特徴量Ｆ２_ａ，ｋを発話タイミング推定モデルに適用し、それによって推定された次の発話区間Ｕ_ｋ＋１の発話タイミングＴ_ｕｋ＋１（例えば、発話区間Ｕ_ｋ＋１の開始時刻）を表す情報を「推定情報」の一部として出力する。なお、発話タイミングを表す情報は、何れかの発話タイミングを確定的に表すものであってもよいし、確率的に表すものであってもよい。

以上によって推定情報が逐次的に得られて出力される。なお、上述の例では、互いに独立した次発話者推定モデルと発話タイミング推定モデルを用いて次発話およびその発話タイミングを推定したが、１つのモデルを用いて次発話およびその発話タイミングを推定してもよい。

［第２実施形態］
本形態は第１実施形態の変形例であり、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する情報の閾値判定によって推定情報を得る形態である。以下では第１実施形態との相違点を中心に説明し、共通する部分については同じ参照番号を用いて説明を簡略化する。

＜構成＞
図１に例示するように、本形態の推定装置２は、吸い込み区間抽出部１３、発話単位抽出部１４、次発話者／発話タイミング推定部２５、およびデータベース記憶部１６を有する。推定装置２は、例えば、前述のようなコンピュータが所定のプログラムを実行することで構成される装置である。

＜動作＞
本形態の推定装置２の動作を説明する。第１実施形態との相違点は、次発話者／発話タイミング推定部１５の処理に代えて、次発話者／発話タイミング推定部２５の処理が実行される点である。以下では次発話者／発話タイミング推定部２５の処理のみを説明する。

次発話者／発話タイミング推定部２５は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_k、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する情報（処理情報）の閾値判定によって推定情報を得て出力する。閾値判定とは、処理情報と閾値との比較を含む処理である。閾値は定数であってもよいし、処理情報の何れかであってもよい。すなわち、閾値判定は処理情報間での比較であってもよい。また、処理情報の例は、パラメータλ’_ａ，ｋの一部またはすべて、もしくはパラメータλ’_ａ，ｋの一部またはすべての関数値である。例えば、パラメータＩＮＴ１_ｕｋ，ｋは発話区間Ｕ_ｋの発話者Ｐ_ｕｋが発話者継続する場合に短くなる傾向がある。ただし、「ＩＮＴ１_ｕｋ，ｋ」の下付き添え字は「ｕ_ｋ，ｋ」を表す。そのため、次発話者／発話タイミング推定部２５は、ＩＮＴ１_ｕｋ，ｋを入力とし、任意の正の閾値αを用いてＩＮＴ１_ｕｋ，ｋ＜αが成り立つときに、発話者継続が生じるとし、発話区間Ｕ_ｋ＋１の次発話者Ｐ_ｕｋ＋１が発話区間Ｕ_ｋの発話者Ｐ_ｕｋと同一であると判定し、次発話者Ｐ_ｕｋ＋１が発話者Ｐ_ｕｋである旨を推定情報の少なくとも一部として出力してもよい。一方、次発話者／発話タイミング推定部２５は、ＩＮＴ１_ｕｋ，ｋ＜αが成り立たない場合には発話者継続が生じない（発話者交替）とし、発話区間Ｕ_ｋの発話者Ｐ_ｕｋ以外の参加者Ｐ_ａを次発話者Ｐ_ｕｋ＋１と推定してもよい。発話者交替時には、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。そのため、次発話者／発話タイミング推定部２５は、発話者交替と推定した場合には、さらにＰ_１，…，Ｐ_Ａのうち、ＡＭＰ_ａ，ｋを最大化するＰ_ａを次発話者Ｐ_ｕｋ＋１と推定し、その旨を推定情報の少なくとも一部として出力してもよい。あるいはＡＭＰ_ａ，ｋに代えてＳＬＯ_ａ，ｋを最大化するＰ_ａを次発話者Ｐ_ｕｋ＋１と推定してもよい。あるいは、ＡＭＰ_ａ，ｋおよびＳＬＯ_ａ，ｋの少なくとも一方に対応する広義単調増加関数値を最大化するＰ_ａを次発話者Ｐ_ｕｋ＋１と推定してもよい。また、次発話者／発話タイミング推定部２５は、推定した次発話者Ｐ_ｕｋ＋１の過去のパラメータＩＮＴ２_{ｕｋ＋１，ｉ}の平均値やその関数値等を次発話者Ｐ_ｕｋ＋１の発話タイミングとし、それを推定情報の少なくとも一部として出力してもよい。なお、過去のパラメータＩＮＴ２_{ｕｋ＋１，ｉ}は、データベース記憶部１６に格納されたものである。その他、次発話者／発話タイミング推定部２５は、ＩＮＴ１_ｕｋ，ｋ＜αの判定を行うことなく、Ｐ_１，…，Ｐ_Ａのうち、ＡＭＰ_ａ，ｋもしくはＳＬＯ_ａ，ｋ、またはＡＭＰ_ａ，ｋおよびＳＬＯ_ａ，ｋの少なくとも一方に対応する広義単調増加関数値を最大化するＰ_ａを次発話者Ｐ_ｕｋ＋１と推定してもよい。

［第３実施形態］
第３実施形態では、複数の参加者間で行われる会話を含むコミュニケーションにおいて、発話終了前後の参加者の視線行動と次に話し始める参加者や話し始めるタイミングに強い関連性があることを利用する。参加者の音声情報から発話単位を自動的に生成し、参加者全員ないしは複数の参加者の発話単位付きの視線行動を入力とし、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象を表す注視対象ラベルから、注視対象の移り変わり（遷移）を表す注視対象遷移パターンと、視線行動の時間的な関係を表す時間構造情報とを生成する。会話の参加者の呼吸動作に加えて注視対象遷移パターンと時間構造情報の少なくとも一方を用いることで、次に発話を開始する参加者およびタイミングの少なくとも一方をより高精度で推定する。

例えば、話者交替時には、発話末付近で現在の話者と視線交差を行った人物が次発話者になる傾向があることが知られている。現在の話者が発話末に視線を向けることは次の発話を促していると解釈される。しかしながら、必ずしも視線を向けられた参加者が次の発話を行うとは限らない。その参加者が必ずしも次に発話をしたいと考えているとは限らないからである。一方、呼吸動作については、話者交替時には、次発話者が発話に先立って大きく息を吸い込むといった特徴的な吸気を行うことが知られている。しかしながら、本人が息を吸い込んで発話をしようとしても、現在の話者が視線を他の参加者に向けてしまった場合は発話が行えないこともある。例えば、複数の参加者が発話をしようとして同時に息を吸い込んだ際には、現在の話者が視線を向けた方の参加者が次の発話を開始する傾向がある。このように、視線は他者からの発話の期待や促進といった発話行動に対する外的な要因となり、一方で、呼吸は本人が発話を開始する前に起こす内発的な動作である。このような、異なる性質を持つ視線と呼吸の２つの情報を同時に利用することで、高精度に次発話者や次発話開始タイミングを予測することができる。

以下では上記の実施形態との相違点を中心に説明し、共通する部分については同じ参照番号を用いて説明を簡略化する。

＜構成＞
図４に例示するように、本形態の推定装置３は、吸い込み区間抽出部１３、発話単位抽出部１４、注視対象ラベル生成部１８、注視対象遷移パターン生成部１９、時間構造情報生成部２０、次発話者／発話タイミング推定部３５、およびデータベース記憶部３６を有する。注視対象ラベル生成部１８はＡ個（Ａは１以上の整数、例えばＡ≧２）の注視対象検出装置１７−１〜１７−Ａからの情報の取得が可能なように構成されている。推定装置３は、例えば、前述のようなコンピュータが所定のプログラムを実行することで構成される装置である。

＜動作＞
本形態の推定装置３の動作を説明する。

参加者Ｐ_ａ（ただし、ａ＝１，…，Ａ）には、呼吸動作計測装置１１−ａおよび音声情報取得装置１２−ａに加えて、注視対象検出装置１７−ａが装着される。同一人物に複数の注視対象検出装置を利用しても良い。このような場合、参加者Ｐ_ａに利用される複数の注視対象検出装置を総称して注視対象検出装置１７−ａと表現することにする。

注視対象検出装置１７−ａ（ただし、ａ＝１，…，Ａ）は、参加者Ｐ_ａが誰を注視しているか（注視対象）を検出し、参加者Ｐ_ａおよび各離散時刻ｔでの注視対象Ｇ_ａ，ｔを表す情報を推定装置３に送る装置である。例えば、注視対象検出装置１７−ａは、公知の視線計測装置などを用い、参加者Ｐ_ａが誰を注視しているかを検出する。一般的に市販されている視線計測装置では、参加者Ｐ_ａの眼球に赤外光を当てその反射から眼球の向きを測定する。さらに、そのような装置は参加者Ｐ_ａの視野に類似したシーンをカメラで撮影し、参加者Ｐ_ａの眼球の向きとカメラ画像を用いて、カメラ画像中の注視位置を座標値として出力する。そのような装置を利用した場合、カメラ画像中から他の参加者Ｐ_ｗ（ただし、ｗ＝１，…，Ｎ、ｗ≠ａ）の領域を抽出し、視線計測装置で測定された注視位置がその領域に含まれるかを判定することで、参加者Ｐ_ａがどの参加者を注視しているかを検出する。なお、他の参加者Ｐ_ｗが参加者Ｐ_ａの遠隔に存在する遠隔コミュニケーション環境下では、参加者Ｐ_ｗが映し出されるモニター内の位置が参加者Ｐ_ｗの領域とされる。参加者Ｐ_ｗの領域検出は、画像処理による顔検出やオプティカルフローを利用するなど、どのような手法をとっても構わない。またその他、参加者Ｐ_ａの注視対象を推定する手法として、画像処理やモーションキャプチャなどを用いて取得される参加者Ｐ_ａの頭部情報と、マイクロホンで取得される参加者の音声情報を用いて、参加者Ｐ_ａの注視対象を判定する技術を利用するなど（例えば、特開２００６−３３８５２９号公報参照）、一般的に考えられるどのような手法をとっても構わない。

発話単位抽出部１４は、入力された音声情報Ｖ_ａ，ｔから抽出した発話区間Ｕ_ｋとその発話者Ｐ_ｕｋとを吸い込み区間抽出部１３に加えて注視対象ラベル生成部１８へ出力する。

注視対象ラベル生成部１８は、注視対象情報Ｇ_１，ｔ，…，Ｇ_Ａ，ｔ、発話区間Ｕ_ｋ、および話者情報Ｐ_ｕｋを入力とし、発話区間終了前後における注視対象ラベル情報θ_ｖ，ｋ（ただし、ｖ＝１，…，Ｖ、Ｖは注視対象ラベルの総数）を生成して出力する。注視対象ラベル情報は、発話区間Ｕ_ｋの終了時点Ｔ_ｓｅに対応する時間区間における参加者の注視対象を表す情報である。本形態では、終了時点Ｔ_ｓｅを含む有限の時間区間における参加者Ｐ_ａの注視対象をラベル付けした注視対象ラベル情報θ_ｖ，ｋを例示する。この場合、例えば、発話区間Ｕ_ｋの終了時点Ｔ_ｓｅよりも前の時点Ｔ_ｓｅ−Ｔ_ｂから終了時点Ｔ_ｓｅよりも後の時点Ｔ_ｓｅ＋Ｔ_ａまでの区間に出現した注視行動を扱う。Ｔ_ｂ，Ｔ_ａは０以上の任意の値でよいが、目安として、Ｔ_ｂは０秒〜２．０秒、Ｔ_ａは０秒〜３．０秒程度にするのが適当である。

注視対象ラベル生成部１８は、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルＳ：話者（すなわち、話者である参加者Ｐ_ｕｋを表す）
・ラベルＬ_ξ：非話者（ただし、ξは互いに異なる非話者である参加者を識別し、ξ＝１，…，Ａ−１である。例えば、ある参加者が、非話者Ｐ_２、非話者Ｐ_３、の順に注視をしていたとき、非話者Ｐ_２にＬ_１というラベル、非話者Ｐ_３にＬ_２というラベルが割り当てられる。）
・ラベルＸ：誰も見ていない

ラベルがＳまたはＬ_ξのときには、相互注視（視線交差）が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、Ｓ_Ｍ，Ｌ_ξＭ（下付き添え字の「_ξＭ」はξ_Ｍを表す）のように、ラベルＳ，Ｌ_ξの末尾にＭラベルを付与する。

図５に注視対象ラベルの具体例を示す。図５はＡ＝４の例であり、発話区間Ｕ_ｋ，Ｕ_ｋ＋１と各参加者の注視対象が時系列に示されている。図５の例では、参加者Ｐ_１が発話した後、発話交替が起き、新たに参加者Ｐ_２が発話をした際の様子を示している。ここでは、話者である参加者Ｐ_１が参加者Ｐ_４を注視した後、参加者Ｐ_２を注視している。Ｔ_ｓｅ−Ｔ_ｂの時点からＴ_ｓｅ＋Ｔ_ａの時点までの区間では、参加者Ｐ_１が参加者Ｐ_２を見ていたとき、参加者Ｐ_２は参加者Ｐ_１を見ている。これは、参加者Ｐ_１と参加者Ｐ_２とで相互注視が起きていることを表す。この場合、参加者Ｐ_１の注視対象情報Ｇ_１，ｔから生成される注視対象ラベルはＬ_１とＬ_２Ｍの２つとなる。上述の区間では、参加者Ｐ_２は参加者Ｐ_４を注視した後、話者である参加者Ｐ_１を注視している。この場合、参加者Ｐ_２の注視対象ラベルはＬ_１とＳ_Ｍの２つとなる。また、上述の区間では、参加者Ｐ_３は話者である参加者Ｐ_１を注視している。この場合、参加者Ｐ_３の注視対象ラベルはＳとなる。また、上述の区間では、参加者Ｐ_４は誰も見ていない。この場合、参加者Ｐ_４の注視対象ラベルはＸとなる。したがって、図５の例では、Ｖ＝６である。

注視対象ラベル生成部１８は、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰（Ｒ∈｛Ｓ，Ｌ｝）のどの注視対象ラベル（ＧＬ∈｛Ｓ，Ｓ_Ｍ，Ｌ_１，Ｌ_１Ｍ，Ｌ_２，Ｌ_２Ｍ，…｝）であるかを示す記号としてＲ_ＧＬ、その開始時刻をＳＴ＿Ｒ_ＧＬ、終了時刻をＥＴ＿Ｒ_ＧＬと定義する。ただし、Ｒは参加者の発話状態（話者か非話者か）を表し、Ｓは話者、Ｌは非話者である。例えば、図５の例において、参加者Ｐ_１の最初の注視対象ラベルはＳ_Ｌ１であり、その開始時刻はＳＴ＿Ｓ_Ｌ１、終了時刻はＥＴ＿Ｓ_Ｌ１である。注視対象ラベル情報θ_ｖ，ｋは注視対象ラベルＲ_ＧＬ、開始時刻ＳＴ＿Ｒ_ＧＬ、および終了時刻ＥＴ＿Ｒ_ＧＬを含む情報である。

注視対象ラベル生成部１８は、以上のように得た注視対象ラベル情報θ_ｖ，ｋを注視対象遷移パターン生成部１９および時間構造情報生成部２０へ出力する。

注視対象遷移パターン生成部１９は、注視対象ラベル情報θ_ｖ，ｋを用いて、各参加者Ｐ_ａの注視対象遷移パターンＥ_ａ，ｋを生成する。注視対象遷移パターンの生成は、注視対象ラベルＲ_ＧＬを構成要素として、時間的な順序を考慮した遷移ｎ−ｇｒａｍを生成して行う。ここで、ｎは正の整数である。例えば、図５の例を考えると、参加者Ｐ_１の注視対象ラベルから生成される注視対象遷移パターンＥ_１，ｋはＬ_１−Ｌ_２Ｍである。同様にして、参加者Ｐ_２の注視対象遷移パターンＥ_２，ｋはＬ_１−Ｓ_Ｍ、参加者Ｐ_３の注視対象遷移パターンＥ_３，ｋはＳ、参加者Ｐ_４の注視対象遷移パターンＥ_４，ｋはＸとなる。

注視対象遷移パターン生成部１９は、以上のように得た注視対象遷移パターンＥ_ａ，ｋを次発話者／発話タイミング推定部３５へ出力する。注視対象遷移パターンＥ_ａ，ｋは、例えば発話区間Ｕ_ｋ＋１が開始された後に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１に該当する発話を行う次発話者Ｐ_ｕｋ＋１および次発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベース記憶部３６に送られる。データベース記憶部３６では、吸い込み区間抽出部１３から送られたパラメータλ_ａ，ｋと併合され、Ｅ_ａ，ｋ，λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベース記憶部３６に保持される。

時間構造情報生成部２０は、注視対象ラベル情報θ_ｖ，ｋを入力とし、注視対象ラベルごとの時間構造情報Θ_ｖ，ｋを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、（１）注視対象ラベルの時間長、（２）注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、（３）注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。

具体的な時間構造情報のパラメータを以下に示す。以下では、発話区間の開始時刻をＳＴ＿Ｕ、発話区間の終了時刻をＥＴ＿Ｕと定義する。
・ＩＮＴ１（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬと終了時刻ＥＴ＿Ｒ_ＧＬの間隔
・ＩＮＴ２（＝ＳＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ３（＝ＥＴ＿Ｕ−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ４（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｕ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の開始時刻ＳＴ＿Ｕよりもどれくらい後であったか
・ＩＮＴ５（＝ＥＴ＿Ｕ−ＥＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが発話区間の終了時刻ＥＴ＿Ｕよりもどれくらい前であったか
・ＩＮＴ６（＝ＳＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ７（＝ＥＴ＿Ｒ_ＧＬ’−ＳＴ＿Ｒ_ＧＬ）：注視対象ラベルＲ_ＧＬの開始時刻ＳＴ＿Ｒ_ＧＬが他の注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい前であったか
・ＩＮＴ８（＝ＥＴ＿Ｒ_ＧＬ−ＳＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の開始時刻ＳＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか
・ＩＮＴ９（＝ＥＴ＿Ｒ_ＧＬ−ＥＴ＿Ｒ_ＧＬ’）：注視対象ラベルＲ_ＧＬの終了時刻ＥＴ＿Ｒ_ＧＬが注視対象ラベルＲ_ＧＬ’の終了時刻ＥＴ＿Ｒ_ＧＬ’よりもどれくらい後であったか

なお、ＩＮＴ６〜ＩＮＴ９については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図５の例では、注視対象ラベル情報は全部で６つ（Ｌ１，Ｌ２_Ｍ，Ｌ１，Ｓ_Ｍ，Ｓ，Ｘ）あるため、ＩＮＴ６〜ＩＮＴ９は、それぞれ６×５＝３０個のデータが生成される。

時間構造情報Θ_ｖ，ｋは注視対象ラベル情報θ_ｖ，ｋについてのパラメータＩＮＴ１〜ＩＮＴ９からなる情報である。時間構造情報Θ_ｖ，ｋを構成する上記の各パラメータについて、図６を用いて具体的に示す。図６は、話者である参加者Ｐ_１（Ｒ＝Ｓ）の注視対象ラベルＬ１についての時間構造情報を示したものである。すなわち、Ｒ_ＧＬ＝Ｓ_Ｌ１における時間構造情報である。なお、ＩＮＴ６〜ＩＮＴ９については、図示を簡略化するために、参加者Ｐ_２の注視対象ラベルＬ１、すなわちＲ_ＧＬ＝Ｌ_Ｌ１との関係のみを示す。図６の例では、ＩＮＴ１〜ＩＮＴ９は以下のように求められることがわかる。
・ＩＮＴ１＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ２＝ＳＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ３＝ＥＴ＿Ｕ−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ４＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｕ
・ＩＮＴ５＝ＥＴ＿Ｕ−ＥＴ＿Ｓ_Ｌ１
・ＩＮＴ６＝ＳＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ７＝ＥＴ＿Ｌ_Ｌ１−ＳＴ＿Ｓ_Ｌ１
・ＩＮＴ８＝ＥＴ＿Ｓ_Ｌ１−ＳＴ＿Ｌ_Ｌ１
・ＩＮＴ９＝ＥＴ＿Ｓ_Ｌ１−ＥＴ＿Ｌ_Ｌ１

時間構造情報生成部２０は、以上のように得た時間構造情報Θ_ｖ，ｋを次発話者／発話タイミング推定部３５へ出力する。時間構造情報Θ_ｖ，ｋは、例えば発話区間Ｕ_ｋ＋１が開始された後に、発話区間Ｕ_ｋおよびその発話者Ｐ_ｕｋ、発話区間Ｕ_ｋ＋１に該当する発話を行う次発話者Ｐ_ｕｋ＋１および次発話開始タイミングＴ_ｕｋ＋１を表す情報とともにデータベース記憶部３６に送られる。データベース記憶部３６では、吸い込み区間抽出部１３から送られたパラメータλ_ａ，ｋと併合され、Θ_ｖ，ｋ，λ_ａ，ｋ，Ｕ_ｋ，Ｐ_ｕｋ，Ｕ_ｋ＋１，Ｐ_ｕｋ＋１，Ｔ_ｕｋ＋１を表す情報の一部またはすべてがデータベース記憶部３６に保持される。

次発話者／発話タイミング推定部３５は、注視対象遷移パターンＥ_ａ，ｋ、時間構造情報Θ_ｖ，ｋ、発話者情報Ｐ_ｕｋ、発話区間Ｕ_k、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に基づき、参加者Ｐ_１，…，Ｐ_Ａのうち何れが次発話者Ｐ_ｕｋ＋１であるか、および次発話者Ｐ_ｕｋ＋１の発話タイミングの少なくとも一方を表す推定情報を得て出力する。

本形態の場合、次発話者／発話タイミング推定部３５は、注視対象遷移パターンＥ_ａ，ｋ、時間構造情報Θ_ｖ，ｋ、発話者情報Ｐ_ｕｋ、発話区間Ｕ_k、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報を得て出力する。特徴量ｆ_ａ，ｋは、注視対象遷移パターンＥ_ａ，ｋ、時間構造情報Θ_ｖ，ｋ、発話者情報Ｐ_ｕｋ、発話区間Ｕ_k、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係の１つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。

本形態では、次発話者／発話タイミング推定部３５が、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係に加えて、注視対象遷移パターンＥ_ａ，ｋおよび時間構造情報Θ_ｖ，ｋの両方を用いて次発話者Ｐ_ｕｋ＋１とその発話タイミングを推定する構成を説明した。しかし、注視対象遷移パターンＥ_ａ，ｋおよび時間構造情報Θ_ｖ，ｋは少なくとも一方を利用して次発話者Ｐ_ｕｋ＋１とその発話タイミングを推定することも可能である。

例えば、次発話者／発話タイミング推定部３５は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係、および注視対象遷移パターンＥ_ａ，ｋの少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、そのモデルを用いて特徴量に対する推定情報を得て出力してもよい。

また、例えば、次発話者／発話タイミング推定部３５は、発話者情報Ｐ_ｕｋ、発話区間Ｕ_ｋ、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋとの時間関係、および時間構造情報Θ_ｖ，ｋの少なくとも一部に対応する特徴量ｆ_ａ，ｋに対する推定情報を得るためのモデルを機械学習し、そのモデルを用いて特徴量に対する推定情報を得て出力してもよい。

本形態では、機械学習の手法により次発話者および次発話開始タイミングの少なくとも一方を推定する構成を説明したが、第２実施形態に示したように、閾値判定によって推定情報を得る形態とすることができる。すなわち、参加者Ｐ_ａの吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量、吸い込み区間Ｉ_ａ，ｋの長さ、吸い込み区間Ｉ_ａ，ｋでの息の吸い込み量の時間変化、および発話区間Ｕ_ｋと吸い込み区間Ｉ_ａ，ｋ、注視対象遷移パターンＥ_ａ，ｋ、および時間構造情報Θ_ｖ，ｋの少なくとも一部に対応する情報の閾値判定によってあらかじめ定めた次発話者および次発話開始タイミングの少なくとも一方を表す推定情報を得る。このとき、注視対象遷移パターンＥ_ａ，ｋおよび時間構造情報Θ_ｖ，ｋの少なくとも一方を利用して次発話者とその発話タイミングを推定することも可能である。

第１実施形態および第２実施形態では呼吸情報を単独で利用して次発話者とその発話タイミングを予測していたが、第３実施形態では視線行動と呼吸動作を両方用いたマルチモーダル情報処理を行うことで、より高精度に次発話者とその発話タイミングを予測する。また、それに加えて、次発話者が他の参加者から望まれて発話を行ったのか、自主的に発話を開始したのかといった発話要因を予測することができる。

［その他の変形例等］
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

本発明は、例えば、人間同士の対面コミュニケーション、テレビ電話やビデオチャットなど映像を用いた遠隔地間のコミュニケーション、およびロボットとのコミュニケーションでの次発話者の推定やその発話タイミングの推定に用いることができる。本発明を適用することにより、高精度に次発話者およびその発話開始タイミングをリアルタイムで予測推定可能となる。この次発話者およびその発話開始タイミングの推定は様々なシーンで利用可能である。例えば、遅延のある遠隔コミュニケーションシステムにおいて、予測結果を基に参加者に次発話者を提示することで発話回避をさせることや、コミュニケーションロボットが参加者の発話開始を予測しながらタイミングよく発話をするための基盤的な技術となる。

１，２，３推定装置
１１呼吸動作計測装置
１２音声情報取得装置
１３吸い込み区間抽出部
１４発話単位抽出部
１５，２５，３５次発話者／発話タイミング推定部
１６，３６データベース記憶部
１７注視対象検出装置
１８注視対象ラベル生成部
１９時間構造情報生成部
２０注視対象遷移パターン生成部

Claims

発話区間を表す発話区間情報、参加者のうち何れが前記発話区間での発話者であるかを表す発話者情報、および前記参加者の呼吸情報を入力とし、
前記参加者の吸い込み区間での息の吸い込み量、前記吸い込み区間の長さ、前記吸い込み区間での息の吸い込み量の時間変化、および前記発話区間と前記吸い込み区間との時間関係の少なくとも一部に基づき、前記参加者のうち何れが次発話者であるか、および前記次発話者の発話タイミングの少なくとも一方を表す推定情報を得て出力する、推定装置。
請求項１の推定装置であって、
前記吸い込み区間での息の吸い込み量、前記吸い込み区間の長さ、前記吸い込み区間での息の吸い込み量の時間変化、および前記発話区間と前記吸い込み区間との時間関係の少なくとも一部に対応する特徴量に対する前記推定情報を得るためのモデルを機械学習し、前記モデルを用いて前記特徴量に対する前記推定情報を得て出力する、推定装置。
請求項１の推定装置であって、
前記吸い込み区間での息の吸い込み量、前記吸い込み区間の長さ、前記吸い込み区間での息の吸い込み量の時間変化、および前記発話区間と前記吸い込み区間との時間関係の少なくとも一部に対応する情報の閾値判定によって前記推定情報を得て出力する、推定装置。
請求項１の推定装置であって、
前記発話区間情報、前記発話者情報、前記参加者の呼吸情報、および前記参加者の視線行動を入力とし、
前記参加者の吸い込み区間での息の吸い込み量、前記吸い込み区間の長さ、前記吸い込み区間での息の吸い込み量の時間変化、および前記発話区間と前記吸い込み区間との時間関係の少なくとも一部に加え、前記発話区間の終了時点に対応する時間区間における前記参加者の注視対象の遷移パターン、および前記参加者の視線行動の時間的な関係の少なくとも一部に基づき、前記推定情報を得て出力する、推定装置。
請求項４の推定装置であって、
前記吸い込み区間での息の吸い込み量、前記吸い込み区間の長さ、前記吸い込み区間での息の吸い込み量の時間変化、前記発話区間と前記吸い込み区間との時間関係の少なくとも一部に加え、前記発話区間の終了時点に対応する時間区間における前記参加者の注視対象の遷移パターン、および前記参加者の視線行動の時間的な関係の少なくとも一部に対応する特徴量に対する前記推定情報を得るためのモデルを機械学習し、前記モデルを用いて前記特徴量に対する前記推定情報を得て出力する、推定装置。
請求項４の推定装置であって、
前記吸い込み区間での息の吸い込み量、前記吸い込み区間の長さ、前記吸い込み区間での息の吸い込み量の時間変化、前記発話区間と前記吸い込み区間との時間関係の少なくとも一部に加え、前記発話区間の終了時点に対応する時間区間における前記参加者の注視対象の遷移パターン、および前記参加者の視線行動の時間的な関係の少なくとも一部に対応する情報の閾値判定によって前記推定情報を得て出力する、推定装置。
発話区間を表す発話区間情報、参加者のうち何れが前記発話区間での発話者であるかを表す発話者情報、および前記参加者の呼吸情報を入力とし、
前記参加者の吸い込み区間での息の吸い込み量、前記吸い込み区間の長さ、前記吸い込み区間での息の吸い込み量の時間変化、および前記発話区間と前記吸い込み区間との時間関係の少なくとも一部に基づき、前記参加者のうち何れが次発話者であるか、および前記次発話者の発話タイミングの少なくとも一方を表す推定情報を得て出力する、推定方法。
請求項１から６の何れかの推定装置としてコンピュータを機能させるためのプログラム。