JP2016042345A - 推定装置、その方法およびプログラム - Google Patents

推定装置、その方法およびプログラム Download PDF

Info

Publication number
JP2016042345A
JP2016042345A JP2014224963A JP2014224963A JP2016042345A JP 2016042345 A JP2016042345 A JP 2016042345A JP 2014224963 A JP2014224963 A JP 2014224963A JP 2014224963 A JP2014224963 A JP 2014224963A JP 2016042345 A JP2016042345 A JP 2016042345A
Authority
JP
Japan
Prior art keywords
inhalation
section
utterance
information
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014224963A
Other languages
English (en)
Inventor
石井 亮
Akira Ishii
亮 石井
大塚 和弘
Kazuhiro Otsuka
和弘 大塚
史朗 熊野
Shiro Kumano
史朗 熊野
淳司 大和
Atsushi Yamato
淳司 大和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014224963A priority Critical patent/JP2016042345A/ja
Publication of JP2016042345A publication Critical patent/JP2016042345A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】次発話に関する情報の推定を安定的に高精度に行う。
【解決手段】発話区間を表す発話区間情報、参加者のうち何れが当該発話区間での発話者であるかを表す発話者情報、および当該参加者の呼吸情報を入力とし、当該参加者の吸い込み区間での息の吸い込み量、吸い込み区間の長さ、当該吸い込み区間での息の吸い込み量の時間変化、および当該発話区間と当該吸い込み区間との時間関係の少なくとも一部に基づき、当該参加者のうち何れが次発話者であるか、および当該次発話者の発話タイミングの少なくとも一方を表す推定情報を得て出力する。
【選択図】図1

Description

本発明は、次発話に関する情報を推定する技術に関する。
多人数の遠隔コミュニケーションにおいて、顔や人物の様子が見えない、映像があっても意図が読めない、遅延によって発話のタイミングがずれるといった諸問題から、発話の衝突が頻繁に起こるという問題がある。そのため、音声や映像の情報を解析し次に話し始める人物(次発話者)を推定する技術や、推定結果からユーザに次発話者を通知することで発話衝突を軽減する手法が提案されている。例えば、特許文献1では、ユーザの動作や同調リズムから次発話者が推定可能であるとしているが、具体的な計算方法は明記されていない。また、特許文献2では、人間の注視行動に着目し、発話者以外のユーザが見ていた被注視対象者を次発話者と決定している。非特許文献1では、発話者と非発話者の注視行動の遷移パターンを用いて、次発話者および発話のタイミングを予測している。
特開2012−146072号公報 特開2006−338493号公報
石井亮, 大塚和弘, 熊野史朗, 松田昌史, 大和淳司,"複数人対話における注視遷移パターンに基づく次話者と発話タイミングの予測",人工知能学会研究会資料,SIG-SLUD-B301-06, pp.27-34, 2013.
しかしながら、従来の手法は推定精度が十分ではない。また、必ずしも視線計測を安定的に行えるわけではない。
本発明の課題は次発話に関する情報の推定を安定的に高精度に行うことである。
発話区間を表す発話区間情報、参加者のうち何れが当該発話区間での発話者であるかを表す発話者情報、および当該参加者の呼吸情報を入力とし、当該参加者の吸い込み区間での息の吸い込み量、吸い込み区間の長さ、息の吸い込み量の時間変化、および当該発話区間と当該吸い込み区間との時間関係の少なくとも一部に基づき、当該参加者のうち何れが次発話者であるか、および当該次発話者の発話タイミングの少なくとも一方を表す推定情報を得て出力する。
本発明では、次発話に関する情報の推定を安定的に高精度に行うことができる。
図1は第1実施形態および第2実施形態の推定装置を例示したブロック図である。 図2は次発話者/発話タイミング推定部を例示したブロック図である。 図3Aは息の吸い込み区間を例示するための図であり、図3Bは息の吸い込みパラメータを例示するための図である。 図4は第3実施形態の推定装置を例示したブロック図である。 図5は注視対象遷移パターンを例示するためのブロック図である。 図6は時間構造情報を例示するためのブロック図である。
以下、図面を参照して本発明の実施形態を説明する。
[第1実施形態]
会話の参加者の呼吸動作は次発話者と発話のタイミングに深い関連性がある。このことを利用して、会話の参加者の呼吸動作をリアルタイムに計測し、計測された呼吸動作から発話の開始直前に行われる特徴的な呼吸動作を検出し、この呼吸動作を基に次発話者とその発話タイミングを高精度に算出する。具体的には、発話開始直前におこなわれる呼吸動作の特徴として、発話を行っている発話者は、継続して発話する際(発話者継続時)には、発話終了直後にすぐに急激に息を吸い込む。逆に発話者が次に発話を行わない際(発話者交替時)には、発話者継続時に比べて、発話終了時から間を空けて、ゆっくりと息を吸い込む。また、発話者交替時に、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。このような発話の前におこなわれる呼吸は、発話開始に対しておおよそ決められたタイミングで行われる。このように、発話の直前に次発話者は特徴的な息の吸い込みを行うため、このような息の吸い込みの情報は、次発話者とその発話タイミングを予測するのに有用である。本形態では、人物の息の吸い込みに着目し、息の吸い込み量や吸い込み区間の長さ、タイミングなどの情報を用いて、次発話者と発話タイミングを予測する。すなわち、発話区間を表す発話区間情報、参加者のうち何れが当該発話区間での発話者であるかを表す発話者情報、および当該参加者の呼吸情報を入力とし、当該参加者の吸い込み区間での息の吸い込み量、吸い込み区間の長さ、息の吸い込み量の時間変化、および当該発話区間と当該吸い込み区間との時間関係の少なくとも一部に基づき、当該参加者のうち何れが次発話者であるか、および当該次発話者の発話タイミングの少なくとも一方を表す推定情報を得て出力する。この推定情報は、当該吸い込み区間での息の吸い込み量、吸い込み区間の長さ、当該吸い込み区間での息の吸い込み量の時間変化、および当該発話区間と当該吸い込み区間との時間関係の何れか1つのみから得られてもよいし、これらの複数から得られてもよいし、これらのすべてから得られてもよい。
<構成>
図1に例示するように、本形態の推定装置1は、吸い込み区間抽出部13、発話単位抽出部14、次発話者/発話タイミング推定部15、およびデータベース記憶部16を有する。吸い込み区間抽出部13はA個(Aは1以上の整数、例えばA≧2)の呼吸動作計測装置11−1〜11−Aからの情報の取得が可能なように構成されており、発話単位抽出部14はA個の音声情報取得装置12−1〜12−Aからの情報の取得が可能なように構成されている。図2に例示するように、本形態の次発話者/発話タイミング推定部15は、モデル生成部151,153、およびモデル適用部152,154を有する。
推定装置1は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。呼吸動作計測装置11−a(ただし、a=1,…,A)は、人物の呼吸動作を計測し、その計測結果を呼吸情報として出力する装置である。呼吸動作計測装置11−aの例は、胸部や腹部にバンドを巻き、その伸縮度合を呼吸の深さとして取得するバンド式の呼吸計測装置、気流の通路に気流速計や気流量計を配置して呼吸情報を取得する装置、呼気あるいは呼気容量を計測する装置、胸郭運動を機械的あるいは電気的に検出して、排気量変化を求める装置などである(例えば、参考文献1:山越憲一、戸川達男、「生体用センサと計測装置」、コロナ社、2000年)。音声情報取得装置12−a(ただし、a=1,…,A)は、受音した音声を表す音声情報を出力する装置であり、例えば、マイクロホンである。例えば、遠隔コミュニケーション環境下で本システムを利用する場合、各拠点に最低でも、呼吸動作計測装置11−aおよび音声情報取得装置12−aが配置される。吸い込み区間抽出部13および発話単位抽出部14は、例えば、ネットワーク経由で呼吸動作計測装置11−aおよび音声情報取得装置12−aとデータを送受信する。対面コミュニケーション環境下で本システムを利用する場合、呼吸動作計測装置11−aおよび音声情報取得装置12−aが推定装置1の近傍に配置され、これらが有線または無線を通じてデータを送受信する。あるいは、呼吸動作計測装置11−1〜11−Aおよび音声情報取得装置12−1〜12−Aの一部がネットワーク経由で呼吸動作計測装置11−aおよび音声情報取得装置12−aとデータを送受信し、他が有線または無線を通じて呼吸動作計測装置11−aおよび音声情報取得装置12−aとデータを送受信してもよい。
<動作>
本形態の推定装置1の動作を説明する。
以下では、A人の参加者P,…,Pが対面コミュニケーションを行う状況を想定する。参加者P(ただし、a=1,…,A)には呼吸動作計測装置11−aおよび音声情報取得装置12−aが装着される。参加者の人数Aには制約はない。通常、会話は2人以上の参加者によってなされるためA≧2であるが(例えばA=4)、対話システム(会話ロボットなどコミュニケーション機能を有する一般的なシステム)がコミュニケーションに加わる場合にはA=1であってもよいし、A≧2であってもよい。また、同一人物に複数の呼吸動作計測装置を利用しても良い。このような場合、参加者Pに利用される複数の呼吸動作計測装置を総称して呼吸動作計測装置11−aと表現することにする。
呼吸動作計測装置11−a(ただし、a=1,…,A)は、参加者Pの呼吸動作をリアルタイムで計測し、各離散時刻tでの計測結果を表す呼吸情報Ba,tを得て出力する。前述のように呼吸動作計測装置11−aの呼吸計測方式に限定はないが、以下ではバンド式の呼吸計測装置を呼吸動作計測装置11−aとして用いる。バンド式の呼吸装置では、バンドの伸縮の強さによって呼吸の深さの度合いを示す値を出力する。息の吸い込みが大きいほどバンドの伸びが大きくなり、逆に息の吐き出しが大きいほどバンドの縮みが大きくなる(バンドの伸びが小さくなる)。以降、この値をRSP値と呼ぶ。なお、RSP値は、バンドの伸縮の強さに応じて参加者Pごとに異なる大きさを取る。そこで、これに起因するPごとのRSP値の相違を排除するために、各参加者PのRSP値の平均値μと標準偏差値δを用いて、μが1、μ−δが−1になるように参加者PごとにRSP値を正規化した。これによって、すべての参加者Pの呼吸動作データを同一に分析することが可能となる。なお正規化の方法は本説明の方法に限らない。このような正規化は吸い込み区間抽出部13で行われてもよいが、以下ではこのような正規化が各呼吸動作計測装置11−aで行われ、各呼吸動作計測装置11−aが正規化されたRSP値を呼吸情報Ba,tとして出力することにする。また、同一人物に複数の呼吸動作計測装置が装着される場合、参加者Pに装着された呼吸動作計測装置11−aで得られた呼吸情報(またはそれらの正規化値)の平均値その他の関数値を呼吸情報Ba,tとする。呼吸情報Ba,tは、逐次、吸い込み区間抽出部13に送られる。
音声情報取得装置12−a(ただし、a=1,…,A)は、参加者Pの音声をリアルタイムで取得し、各離散時刻tでの参加者Pの音声を表す音声情報Va,tを得て出力する。音声情報Va,tは、逐次、発話単位抽出部14に送られる。
発話単位抽出部14は、入力された音声情報Va,t(ただし、a=1,…,A)から雑音を除去し、さらに発話区間U(ただし、kは発話区間Uの識別子)とその発話者Pukとを抽出して出力する。ただし、「Puk」の下付き添え字はu=1,…,Aを表す。本形態では、1つの発話区間UをTd[ms]連続した無音区間で囲まれた区間と定義し、この発話区間Uを発話の一つの単位と規定する。Tdは状況に応じて自由に決定できる。ただし、Tdを長くすると、実際の発話終了から発話区間終了を判定するまでの時間が長くなるため、一般的な日常会話であれば200〜500ms程度とするのが適当である。発話単位抽出部14は、各発話区間Uを表す発話区間情報、およびその発話者Pukを表す発話者情報(参加者P,…,Pのうち何れが発話区間Uでの発話者Pukであるかを表す発話者情報)を得るたびに、それらを逐次、吸い込み区間抽出部13に送る。
吸い込み区間抽出部13は、各呼吸動作計測装置11−a(ただし、a=1,…,A)から呼吸情報Ba,tが送られるたびに、各参加者Pの息の吸い込み区間Ia,kを抽出し、さらに息の吸い込みに関するパラメータλa,kを取得して出力する。
息の吸い込み区間とは、息を吐いている状態から、息を吸い込みだす開始位置と、息を吸い込み終わる終了位置との間の区間を示す(図3A参照)。息の吸い込みの区間を抽出する方法の一例をあげる。ある時点の前の数フレームでRSP値が連続して減少し、その時点の後の数フレームでRSP値が連続して上昇したとき、その時点を息の吸い込みの開始位置とする。また、息の吸い込みの開始位置より後のある時点の後の数フレームで連続してRSP値が連続して減少したとき、その時点を息の吸い込みの終了位置とする。これにより抽出された開始時刻と終了時刻の間の区間を息の吸い込みの区間と定義する。なお、フレームとは離散時間によって規定される時間区間を意味する。また、息の吸い込み区間を抽出する際に、波形の微小なノイズによって、正確に開始位置と終了位置が抽出できない可能性があるため、その前処理として数フレームのウィンドウ幅を設定してRSP値に移動平均処理を行い、移動平均処理後のRSP値から開始位置と終了位置とを抽出してもよい。
図3Aを用いて息の吸い込み区間Ia,kの算出方法を例示する。ここで参加者Pの離散時刻tでのRSP値をRa,tと表記する。RSP値Ra,tは呼吸情報Ba,tに相当する。図3Aに例示するように、例えば、
Figure 2016042345
が成り立つとき、離散時刻t=ts(k)の前2フレームでRSP値Ra,tが連続して減少し、その後2フレームでRSP値Ra,tが連続して上昇しているから、離散時刻ts(k)を息の吸い込みの開始位置とする。さらに
Figure 2016042345
が成り立つとき、離散時刻t=te(k)の前2フレームのRSP値Ra,tが連続して上昇し、その後2フレームのRSP値Ra,tが連続して減少しているから、離散時刻te(k)を息の吸い込みの終了位置とする。このとき、参加者Pの息の吸い込み区間Ia,kはts(k)からte(k)までの区間となり、息の吸い込み区間の長さはte(k)−ts(k)となる。なお、息の吸い込み区間の抽出には他の手段を用いても良い。
吸い込み区間抽出部13は、息の吸い込み区間Ia,kが抽出されると、息の吸い込み区間Ia,k、呼吸情報Ba,t、および発話区間Uの少なくとも一部を用い、息の吸い込みに関するパラメータλ’a,kを抽出する。パラメータλ’a,kは、参加者Pの吸い込み区間Ia,kでの息の吸い込みの量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部を表す。パラメータλ’a,kは、これらの一つのみを表してもよいし、これらのうち複数を表してもよいし、これらすべてを表してもよい。パラメータλ’a,kは、例えば以下のパラメータMINa,k,MAXa,k,AMPa,k,DURa,k,SLOa,k,INT1a,kの少なくとも一部を含む。パラメータλ’a,kは、これらの1つのみを含んでいてもよいし、これらのうち複数を含んでいてもよいし、これらのすべてを含んでいてもよい。
・MINa,k:参加者Pの息の吸い込み開始時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最小値。
・MAXa,k:参加者Pの息の吸い込み終了時のRSP値Ra,t、すなわち、息の吸い込み区間Ia,kのRSP値Ra,tの最大値。
・AMPa,k:参加者Pの息の吸い込み区間Ia,kのRSP値Ra,tの振幅、すなわち、MAXa,k−MINa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量を表す。
・DURa,k:参加者Pの息の吸い込み区間Ia,kの長さ、すなわち、息の吸い込み区間Ia,kの終了位置の離散時刻te(k)から開始位置の離散時刻ts(k)を減じて得られる値te(k)−ts(k)
・SLOa,k:参加者Pの息の吸い込み区間Ia,kにおけるRSP値Ra,tの単位時間当たりの傾きの平均値、すなわち、AMPa,k/DURa,kで算出される値。吸い込み区間Ia,kでの息の吸い込み量の時間変化を表す。
・INT1a,k:手前の発話区間Uの終了時刻tue(k)(発話区間末)から参加者Pの息の吸い込みが開始されるまでの間隔、すなわち、息の吸い込み区間Ia,kの開始位置の離散時刻ts(k)から発話区間Uの終了時刻tue(k)を減じて得られる値ts(k)−tue(k)。発話区間Uと吸い込み区間Ia,kとの時間関係を表す。
次発話者の発話区間Uk+1を表す情報が吸い込み区間抽出部13に入力されると、吸い込み区間抽出部13は、さらに以下のパラメータINT2a,kを生成してもよい。
・INT2a,k:参加者Pの息の吸い込み終了時から次発話者の発話区間Uk+1が開始されるまでの間隔、すなわち、次発話者の発話区間Uk+1の開始時刻tus(k+1)から息の吸い込み区間Ia,kの終了位置の離散時刻te(k)を減じて得られる値tus(k+1)−te(k)。発話区間Uk+1と吸い込み区間Ia,kとの時間関係を表す。パラメータλ’a,kにINT2a,kを加えたものをパラメータλa,kと表記する。
パラメータλ’a,kは、例えば息の吸い込み区間Ia,kが抽出され、息の吸い込み区間Ia,kが得られた時点で(発話区間Uk+1が開始される前に)、次発話者/発話タイミング推定部15に、Puk、Ukと共に送られ、次発話者(発話区間Uk+1の発話者)およびその発話タイミングを予測するために使用される。
パラメータλa,kは、例えば発話区間Uk+1を表す情報が吸い込み区間抽出部13に入力され、パラメータλa,kが得られた以降(発話区間Uk+1が開始された後)に、発話区間Uおよびその発話者Puk、発話区間Uk+1およびその発話者Puk+1とその発話開始タイミングTuk+1を表す情報とともにデータベース記憶部16に送られる。次発話者Puk+1の発話タイミングとは、発話区間Uk+1の何れかの時点またはそれに対応する時点であればよい。発話タイミングTuk+1は、発話区間Uk+1の開始時刻tus(k+1)であってもよいし、時刻tus(k+1)+γ(ただし、γは正または負の定数)であってもよいし、発話区間Uk+1の終了時刻tue(k+1)であってもよいし、時刻tue(k+1)+γであってもよいし、発話区間Uk+1の中心時刻tus(k+1)+(tue(k+1)−tus(k+1))/2であってもよい。λa,k,U,Puk,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベース記憶部16に保持され、次発話者/発話タイミング推定部15で発話区間Uk+1よりも後の次発話者とその発話タイミングを予測するために使用される。なお事前に、過去の会話データから同様の情報をデータベース記憶部16に保持しておいてもよい。これにより、より多くのデータを次発話者/発話タイミング推定部15での処理に利用することができる。
次発話者/発話タイミング推定部15は、発話者情報Puk、発話区間Uk、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に基づき、参加者P,…,Pのうち何れが次発話者Puk+1であるか、および次発話者Puk+1の発話タイミングの少なくとも一方を表す推定情報を得て出力する。ただし、「Puk+1」の下付き添え字「uk+1」はuk+1を表す。発話区間Uの発話者Pukが発話区間Uk+1でも発話を行う場合(発話継続する場合)、次発話者は発話区間Uの発話者Pukと同一である。一方、発話区間Uの発話者Puk以外の参加者が発話区間Uk+1でも発話を行う場合(すなわち発話交替する場合)、次発話者は発話区間Uの発話者Puk以外の参加者である。なお、推定情報は次発話者Puk+1またはその発話タイミングの一方のみを表してもよいが、以下では推定情報がこれら両方を表す場合を説明する。
本形態の場合、次発話者/発話タイミング推定部15は、発話者情報Puk、発話区間Uk、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報を得て出力する。特徴量fa,kは、発話者情報Puk、発話区間Uk、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の1つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。モデルの機械学習には、例えば、過去の吸い込み区間Ia,i(ただし、i<k)での息の吸い込み量、吸い込み区間Ia,iの長さ、吸い込み区間Ia,iでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,iとの時間関係の少なくとも一部に対応する特徴量fa,k、ならびに発話区間U,Ui+1およびそれらの発話者Puk,Puk+1の情報が学習データとして用いられる。
次発話者/発話タイミング推定部15の処理を例示する。この例では、次発話者Puk+1を推定するモデルである次発話者推定モデルと、次発話者Puk+1の発話タイミングを推定するモデルである発話タイミング推定モデルとが生成され、それぞれのモデルを用いて次発話者Puk+1とその発話タイミングが推定される。
≪次発話者推定モデル≫
次発話者推定モデルの学習データとして、データベース記憶部16から読み出した過去のパラメータλa,i(ただし、a=1,…,Aであり、i<kである)の少なくとも一部、および発話区間U,Ui+1およびそれらの発話者Pui,Pui+1を表す情報がモデル生成部151(図2)に入力される。モデル生成部151は、パラメータλa,iの少なくとも一部に対応する特徴量F1a,iおよびU,Ui+1,Pui,Pui+1を学習データとして、次発話者推定モデルを機械学習する。機械学習は一度だけ行われてもよいし、データベース記憶部16に新たなデータが追加されるたび、または所定の契機ごとに行われてもよい。また、次発話者推定モデルには、例えば、SVM(Support Vector Machine)、GMM(Gaussian Mixture Model)、HMM(Hidden Markov Model)等を用いることができる。生成された次発話者推定モデルを表す情報(モデルパラメータ等)は、モデル適用部152に送られる。
モデル適用部152には、さらに吸い込み区間抽出部13から出力されたパラメータλ’a,kの少なくとも一部が入力される。モデル適用部152は、入力されたパラメータλ’a,kの少なくとも一部に対応する特徴量F1a,kを次発話者推定モデルに適用し、それによって推定された次発話Puk+1を表す情報を「推定情報」の一部として出力する。なお、次発話Puk+1を表す情報は、何れかの参加者Pを確定的に表すものであってもよいし、確率的に表すものであってもよい。
≪発話タイミング推定モデル≫
発話タイミング推定モデルの学習データとして、データベース記憶部16から読み出した過去のパラメータλa,i(ただし、a=1,…,Aであり、i<kである)の少なくとも一部、発話区間U,Ui+1およびそれらの発話者Pui,Pui+1、および発話区間Ui+1の発話開始タイミングTui+1を表す情報がモデル生成部153(図2)に入力される。モデル生成部153は、パラメータλa,iの少なくとも一部に対応する特徴量F2a,iおよびU,Ui+1,Pui,Pui+1,Tui+1を学習データとして、発話タイミング推定モデルを機械学習する。機械学習は一度だけ行われてもよいし、データベース記憶部16に新たなデータが追加されるたび、または所定の契機ごとに行われてもよい。また、次発話者推定モデルには、例えば、SVM、GMM、HMM等を用いることができる。生成された発話タイミング推定モデルを表す情報は、モデル適用部154に送られる。
モデル適用部154には、注視対象遷移パターン生成部19または時間構造情報生成部20から得られる発話者Puk、吸い込み区間抽出部13から出力されたパラメータλ’a,kの少なくとも一部、およびモデル適用部152の出力結果である次発話者Puk+1が入力される。モデル適用部154は、入力されたパラメータλ’a,kの少なくとも一部に対応する特徴量F2a,kを発話タイミング推定モデルに適用し、それによって推定された次の発話区間Uk+1の発話タイミングTuk+1(例えば、発話区間Uk+1の開始時刻)を表す情報を「推定情報」の一部として出力する。なお、発話タイミングを表す情報は、何れかの発話タイミングを確定的に表すものであってもよいし、確率的に表すものであってもよい。
以上によって推定情報が逐次的に得られて出力される。なお、上述の例では、互いに独立した次発話者推定モデルと発話タイミング推定モデルを用いて次発話およびその発話タイミングを推定したが、1つのモデルを用いて次発話およびその発話タイミングを推定してもよい。
[第2実施形態]
本形態は第1実施形態の変形例であり、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する情報の閾値判定によって推定情報を得る形態である。以下では第1実施形態との相違点を中心に説明し、共通する部分については同じ参照番号を用いて説明を簡略化する。
<構成>
図1に例示するように、本形態の推定装置2は、吸い込み区間抽出部13、発話単位抽出部14、次発話者/発話タイミング推定部25、およびデータベース記憶部16を有する。推定装置2は、例えば、前述のようなコンピュータが所定のプログラムを実行することで構成される装置である。
<動作>
本形態の推定装置2の動作を説明する。第1実施形態との相違点は、次発話者/発話タイミング推定部15の処理に代えて、次発話者/発話タイミング推定部25の処理が実行される点である。以下では次発話者/発話タイミング推定部25の処理のみを説明する。
次発話者/発話タイミング推定部25は、発話者情報Puk、発話区間Uk、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する情報(処理情報)の閾値判定によって推定情報を得て出力する。閾値判定とは、処理情報と閾値との比較を含む処理である。閾値は定数であってもよいし、処理情報の何れかであってもよい。すなわち、閾値判定は処理情報間での比較であってもよい。また、処理情報の例は、パラメータλ’a,kの一部またはすべて、もしくはパラメータλ’a,kの一部またはすべての関数値である。例えば、パラメータINT1uk,kは発話区間Uの発話者Pukが発話者継続する場合に短くなる傾向がある。ただし、「INT1uk,k」の下付き添え字は「uk,k」を表す。そのため、次発話者/発話タイミング推定部25は、INT1uk,kを入力とし、任意の正の閾値αを用いてINT1uk,k<αが成り立つときに、発話者継続が生じるとし、発話区間Uk+1の次発話者Puk+1が発話区間Uの発話者Pukと同一であると判定し、次発話者Puk+1が発話者Pukである旨を推定情報の少なくとも一部として出力してもよい。一方、次発話者/発話タイミング推定部25は、INT1uk,k<αが成り立たない場合には発話者継続が生じない(発話者交替)とし、発話区間Uの発話者Puk以外の参加者Pを次発話者Puk+1と推定してもよい。発話者交替時には、次に発話をおこなう次発話者は、発話を行わない非発話者に比べて大きく息を吸い込む。そのため、次発話者/発話タイミング推定部25は、発話者交替と推定した場合には、さらにP,…,Pのうち、AMPa,kを最大化するPを次発話者Puk+1と推定し、その旨を推定情報の少なくとも一部として出力してもよい。あるいはAMPa,kに代えてSLOa,kを最大化するPを次発話者Puk+1と推定してもよい。あるいは、AMPa,kおよびSLOa,kの少なくとも一方に対応する広義単調増加関数値を最大化するPを次発話者Puk+1と推定してもよい。また、次発話者/発話タイミング推定部25は、推定した次発話者Puk+1の過去のパラメータINT2uk+1,iの平均値やその関数値等を次発話者Puk+1の発話タイミングとし、それを推定情報の少なくとも一部として出力してもよい。なお、過去のパラメータINT2uk+1,iは、データベース記憶部16に格納されたものである。その他、次発話者/発話タイミング推定部25は、INT1uk,k<αの判定を行うことなく、P,…,Pのうち、AMPa,kもしくはSLOa,k、またはAMPa,kおよびSLOa,kの少なくとも一方に対応する広義単調増加関数値を最大化するPを次発話者Puk+1と推定してもよい。
[第3実施形態]
第3実施形態では、複数の参加者間で行われる会話を含むコミュニケーションにおいて、発話終了前後の参加者の視線行動と次に話し始める参加者や話し始めるタイミングに強い関連性があることを利用する。参加者の音声情報から発話単位を自動的に生成し、参加者全員ないしは複数の参加者の発話単位付きの視線行動を入力とし、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象を表す注視対象ラベルから、注視対象の移り変わり(遷移)を表す注視対象遷移パターンと、視線行動の時間的な関係を表す時間構造情報とを生成する。会話の参加者の呼吸動作に加えて注視対象遷移パターンと時間構造情報の少なくとも一方を用いることで、次に発話を開始する参加者およびタイミングの少なくとも一方をより高精度で推定する。
例えば、話者交替時には、発話末付近で現在の話者と視線交差を行った人物が次発話者になる傾向があることが知られている。現在の話者が発話末に視線を向けることは次の発話を促していると解釈される。しかしながら、必ずしも視線を向けられた参加者が次の発話を行うとは限らない。その参加者が必ずしも次に発話をしたいと考えているとは限らないからである。一方、呼吸動作については、話者交替時には、次発話者が発話に先立って大きく息を吸い込むといった特徴的な吸気を行うことが知られている。しかしながら、本人が息を吸い込んで発話をしようとしても、現在の話者が視線を他の参加者に向けてしまった場合は発話が行えないこともある。例えば、複数の参加者が発話をしようとして同時に息を吸い込んだ際には、現在の話者が視線を向けた方の参加者が次の発話を開始する傾向がある。このように、視線は他者からの発話の期待や促進といった発話行動に対する外的な要因となり、一方で、呼吸は本人が発話を開始する前に起こす内発的な動作である。このような、異なる性質を持つ視線と呼吸の2つの情報を同時に利用することで、高精度に次発話者や次発話開始タイミングを予測することができる。
以下では上記の実施形態との相違点を中心に説明し、共通する部分については同じ参照番号を用いて説明を簡略化する。
<構成>
図4に例示するように、本形態の推定装置3は、吸い込み区間抽出部13、発話単位抽出部14、注視対象ラベル生成部18、注視対象遷移パターン生成部19、時間構造情報生成部20、次発話者/発話タイミング推定部35、およびデータベース記憶部36を有する。注視対象ラベル生成部18はA個(Aは1以上の整数、例えばA≧2)の注視対象検出装置17−1〜17−Aからの情報の取得が可能なように構成されている。推定装置3は、例えば、前述のようなコンピュータが所定のプログラムを実行することで構成される装置である。
<動作>
本形態の推定装置3の動作を説明する。
参加者P(ただし、a=1,…,A)には、呼吸動作計測装置11−aおよび音声情報取得装置12−aに加えて、注視対象検出装置17−aが装着される。同一人物に複数の注視対象検出装置を利用しても良い。このような場合、参加者Pに利用される複数の注視対象検出装置を総称して注視対象検出装置17−aと表現することにする。
注視対象検出装置17−a(ただし、a=1,…,A)は、参加者Pが誰を注視しているか(注視対象)を検出し、参加者Pおよび各離散時刻tでの注視対象Ga,tを表す情報を推定装置3に送る装置である。例えば、注視対象検出装置17−aは、公知の視線計測装置などを用い、参加者Pが誰を注視しているかを検出する。一般的に市販されている視線計測装置では、参加者Pの眼球に赤外光を当てその反射から眼球の向きを測定する。さらに、そのような装置は参加者Pの視野に類似したシーンをカメラで撮影し、参加者Pの眼球の向きとカメラ画像を用いて、カメラ画像中の注視位置を座標値として出力する。そのような装置を利用した場合、カメラ画像中から他の参加者P(ただし、w=1,…,N、w≠a)の領域を抽出し、視線計測装置で測定された注視位置がその領域に含まれるかを判定することで、参加者Pがどの参加者を注視しているかを検出する。なお、他の参加者Pが参加者Pの遠隔に存在する遠隔コミュニケーション環境下では、参加者Pが映し出されるモニター内の位置が参加者Pの領域とされる。参加者Pの領域検出は、画像処理による顔検出やオプティカルフローを利用するなど、どのような手法をとっても構わない。またその他、参加者Pの注視対象を推定する手法として、画像処理やモーションキャプチャなどを用いて取得される参加者Pの頭部情報と、マイクロホンで取得される参加者の音声情報を用いて、参加者Pの注視対象を判定する技術を利用するなど(例えば、特開2006−338529号公報参照)、一般的に考えられるどのような手法をとっても構わない。
発話単位抽出部14は、入力された音声情報Va,tから抽出した発話区間Uとその発話者Pukとを吸い込み区間抽出部13に加えて注視対象ラベル生成部18へ出力する。
注視対象ラベル生成部18は、注視対象情報G1,t,…,GA,t、発話区間U、および話者情報Pukを入力とし、発話区間終了前後における注視対象ラベル情報θv,k(ただし、v=1,…,V、Vは注視対象ラベルの総数)を生成して出力する。注視対象ラベル情報は、発話区間Uの終了時点Tseに対応する時間区間における参加者の注視対象を表す情報である。本形態では、終了時点Tseを含む有限の時間区間における参加者Pの注視対象をラベル付けした注視対象ラベル情報θv,kを例示する。この場合、例えば、発話区間Uの終了時点Tseよりも前の時点Tse−Tから終了時点Tseよりも後の時点Tse+Tまでの区間に出現した注視行動を扱う。T,Tは0以上の任意の値でよいが、目安として、Tは0秒〜2.0秒、Tは0秒〜3.0秒程度にするのが適当である。
注視対象ラベル生成部18は、注視対象の参加者を以下のような種別に分類し、注視対象のラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルS:話者(すなわち、話者である参加者Pukを表す)
・ラベルLξ:非話者(ただし、ξは互いに異なる非話者である参加者を識別し、ξ=1,…,A−1である。例えば、ある参加者が、非話者P、非話者P、の順に注視をしていたとき、非話者PにLというラベル、非話者PにLというラベルが割り当てられる。)
・ラベルX:誰も見ていない
ラベルがSまたはLξのときには、相互注視(視線交差)が起きたか否かという情報を付与する。本形態では、相互注視が起きた際には、S,LξM(下付き添え字の「ξM」はξを表す)のように、ラベルS,Lξの末尾にMラベルを付与する。
図5に注視対象ラベルの具体例を示す。図5はA=4の例であり、発話区間U,Uk+1と各参加者の注視対象が時系列に示されている。図5の例では、参加者Pが発話した後、発話交替が起き、新たに参加者Pが発話をした際の様子を示している。ここでは、話者である参加者Pが参加者Pを注視した後、参加者Pを注視している。Tse−Tの時点からTse+Tの時点までの区間では、参加者Pが参加者Pを見ていたとき、参加者Pは参加者Pを見ている。これは、参加者Pと参加者Pとで相互注視が起きていることを表す。この場合、参加者Pの注視対象情報G1,tから生成される注視対象ラベルはLとL2Mの2つとなる。上述の区間では、参加者Pは参加者Pを注視した後、話者である参加者Pを注視している。この場合、参加者Pの注視対象ラベルはLとSの2つとなる。また、上述の区間では、参加者Pは話者である参加者Pを注視している。この場合、参加者Pの注視対象ラベルはSとなる。また、上述の区間では、参加者Pは誰も見ていない。この場合、参加者Pの注視対象ラベルはXとなる。したがって、図5の例では、V=6である。
注視対象ラベル生成部18は、注視対象ラベルごとの開始時刻、終了時刻も取得する。ここで、誰(R∈{S,L})のどの注視対象ラベル(GL∈{S,S,L,L1M,L,L2M,…})であるかを示す記号としてRGL、その開始時刻をST_RGL、終了時刻をET_RGLと定義する。ただし、Rは参加者の発話状態(話者か非話者か)を表し、Sは話者、Lは非話者である。例えば、図5の例において、参加者Pの最初の注視対象ラベルはSL1であり、その開始時刻はST_SL1、終了時刻はET_SL1である。注視対象ラベル情報θv,kは注視対象ラベルRGL、開始時刻ST_RGL、および終了時刻ET_RGLを含む情報である。
注視対象ラベル生成部18は、以上のように得た注視対象ラベル情報θv,kを注視対象遷移パターン生成部19および時間構造情報生成部20へ出力する。
注視対象遷移パターン生成部19は、注視対象ラベル情報θv,kを用いて、各参加者Pの注視対象遷移パターンEa,kを生成する。注視対象遷移パターンの生成は、注視対象ラベルRGLを構成要素として、時間的な順序を考慮した遷移n−gramを生成して行う。ここで、nは正の整数である。例えば、図5の例を考えると、参加者Pの注視対象ラベルから生成される注視対象遷移パターンE1,kはL−L2Mである。同様にして、参加者Pの注視対象遷移パターンE2,kはL−S、参加者Pの注視対象遷移パターンE3,kはS、参加者Pの注視対象遷移パターンE4,kはXとなる。
注視対象遷移パターン生成部19は、以上のように得た注視対象遷移パターンEa,kを次発話者/発話タイミング推定部35へ出力する。注視対象遷移パターンEa,kは、例えば発話区間Uk+1が開始された後に、発話区間Uおよびその発話者Puk、発話区間Uk+1に該当する発話を行う次発話者Puk+1および次発話開始タイミングTuk+1を表す情報とともにデータベース記憶部36に送られる。データベース記憶部36では、吸い込み区間抽出部13から送られたパラメータλa,kと併合され、Ea,k,λa,k,U,Puk,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベース記憶部36に保持される。
時間構造情報生成部20は、注視対象ラベル情報θv,kを入力とし、注視対象ラベルごとの時間構造情報Θv,kを生成する。時間構造情報は参加者の視線行動の時間的な関係を表す情報であり、(1)注視対象ラベルの時間長、(2)注視対象ラベルと発話区間の開始時刻または終了時刻との間隔、(3)注視対象ラベルの開始時刻または終了時刻と他の注視対象ラベルの開始時刻または終了時刻との間隔、をパラメータとして持つ。
具体的な時間構造情報のパラメータを以下に示す。以下では、発話区間の開始時刻をST_U、発話区間の終了時刻をET_Uと定義する。
・INT1(=ET_RGL−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLと終了時刻ET_RGLの間隔
・INT2(=ST_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の開始時刻ST_Uよりもどれくらい前であったか
・INT3(=ET_U−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT4(=ET_RGL−ST_U):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の開始時刻ST_Uよりもどれくらい後であったか
・INT5(=ET_U−ET_RGL):注視対象ラベルRGLの終了時刻ET_RGLが発話区間の終了時刻ET_Uよりもどれくらい前であったか
・INT6(=ST_RGL−ST_RGL’):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT7(=ET_RGL’−ST_RGL):注視対象ラベルRGLの開始時刻ST_RGLが他の注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい前であったか
・INT8(=ET_RGL−ST_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の開始時刻ST_RGL’よりもどれくらい後であったか
・INT9(=ET_RGL−ET_RGL’):注視対象ラベルRGLの終了時刻ET_RGLが注視対象ラベルRGL’の終了時刻ET_RGL’よりもどれくらい後であったか
なお、INT6〜INT9については、すべての参加者の注視対象ラベルとの組み合わせに対して取得する。図5の例では、注視対象ラベル情報は全部で6つ(L1,L2,L1,S,S,X)あるため、INT6〜INT9は、それぞれ6×5=30個のデータが生成される。
時間構造情報Θv,kは注視対象ラベル情報θv,kについてのパラメータINT1〜INT9からなる情報である。時間構造情報Θv,kを構成する上記の各パラメータについて、図6を用いて具体的に示す。図6は、話者である参加者P(R=S)の注視対象ラベルL1についての時間構造情報を示したものである。すなわち、RGL=SL1における時間構造情報である。なお、INT6〜INT9については、図示を簡略化するために、参加者Pの注視対象ラベルL1、すなわちRGL=LL1との関係のみを示す。図6の例では、INT1〜INT9は以下のように求められることがわかる。
・INT1=ET_SL1−ST_SL1
・INT2=ST_U−ST_SL1
・INT3=ET_U−ST_SL1
・INT4=ET_SL1−ST_U
・INT5=ET_U−ET_SL1
・INT6=ST_SL1−ST_LL1
・INT7=ET_LL1−ST_SL1
・INT8=ET_SL1−ST_LL1
・INT9=ET_SL1−ET_LL1
時間構造情報生成部20は、以上のように得た時間構造情報Θv,kを次発話者/発話タイミング推定部35へ出力する。時間構造情報Θv,kは、例えば発話区間Uk+1が開始された後に、発話区間Uおよびその発話者Puk、発話区間Uk+1に該当する発話を行う次発話者Puk+1および次発話開始タイミングTuk+1を表す情報とともにデータベース記憶部36に送られる。データベース記憶部36では、吸い込み区間抽出部13から送られたパラメータλa,kと併合され、Θv,k,λa,k,U,Puk,Uk+1,Puk+1,Tuk+1を表す情報の一部またはすべてがデータベース記憶部36に保持される。
次発話者/発話タイミング推定部35は、注視対象遷移パターンEa,k、時間構造情報Θv,k、発話者情報Puk、発話区間Uk、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に基づき、参加者P,…,Pのうち何れが次発話者Puk+1であるか、および次発話者Puk+1の発話タイミングの少なくとも一方を表す推定情報を得て出力する。
本形態の場合、次発話者/発話タイミング推定部35は、注視対象遷移パターンEa,k、時間構造情報Θv,k、発話者情報Puk、発話区間Uk、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、モデルを用いて特徴量に対する推定情報を得て出力する。特徴量fa,kは、注視対象遷移パターンEa,k、時間構造情報Θv,k、発話者情報Puk、発話区間Uk、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係の1つのみに対応してもよいし、これらのうち複数に対応してもよいし、すべてに対応してもよい。
本形態では、次発話者/発話タイミング推定部35が、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係に加えて、注視対象遷移パターンEa,kおよび時間構造情報Θv,kの両方を用いて次発話者Puk+1とその発話タイミングを推定する構成を説明した。しかし、注視対象遷移パターンEa,kおよび時間構造情報Θv,kは少なくとも一方を利用して次発話者Puk+1とその発話タイミングを推定することも可能である。
例えば、次発話者/発話タイミング推定部35は、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係、および注視対象遷移パターンEa,kの少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、そのモデルを用いて特徴量に対する推定情報を得て出力してもよい。
また、例えば、次発話者/発話タイミング推定部35は、発話者情報Puk、発話区間U、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,kとの時間関係、および時間構造情報Θv,kの少なくとも一部に対応する特徴量fa,kに対する推定情報を得るためのモデルを機械学習し、そのモデルを用いて特徴量に対する推定情報を得て出力してもよい。
本形態では、機械学習の手法により次発話者および次発話開始タイミングの少なくとも一方を推定する構成を説明したが、第2実施形態に示したように、閾値判定によって推定情報を得る形態とすることができる。すなわち、参加者Pの吸い込み区間Ia,kでの息の吸い込み量、吸い込み区間Ia,kの長さ、吸い込み区間Ia,kでの息の吸い込み量の時間変化、および発話区間Uと吸い込み区間Ia,k、注視対象遷移パターンEa,k、および時間構造情報Θv,kの少なくとも一部に対応する情報の閾値判定によってあらかじめ定めた次発話者および次発話開始タイミングの少なくとも一方を表す推定情報を得る。このとき、注視対象遷移パターンEa,kおよび時間構造情報Θv,kの少なくとも一方を利用して次発話者とその発話タイミングを推定することも可能である。
第1実施形態および第2実施形態では呼吸情報を単独で利用して次発話者とその発話タイミングを予測していたが、第3実施形態では視線行動と呼吸動作を両方用いたマルチモーダル情報処理を行うことで、より高精度に次発話者とその発話タイミングを予測する。また、それに加えて、次発話者が他の参加者から望まれて発話を行ったのか、自主的に発話を開始したのかといった発話要因を予測することができる。
[その他の変形例等]
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
本発明は、例えば、人間同士の対面コミュニケーション、テレビ電話やビデオチャットなど映像を用いた遠隔地間のコミュニケーション、およびロボットとのコミュニケーションでの次発話者の推定やその発話タイミングの推定に用いることができる。本発明を適用することにより、高精度に次発話者およびその発話開始タイミングをリアルタイムで予測推定可能となる。この次発話者およびその発話開始タイミングの推定は様々なシーンで利用可能である。例えば、遅延のある遠隔コミュニケーションシステムにおいて、予測結果を基に参加者に次発話者を提示することで発話回避をさせることや、コミュニケーションロボットが参加者の発話開始を予測しながらタイミングよく発話をするための基盤的な技術となる。
1,2,3 推定装置
11 呼吸動作計測装置
12 音声情報取得装置
13 吸い込み区間抽出部
14 発話単位抽出部
15,25,35 次発話者/発話タイミング推定部
16,36 データベース記憶部
17 注視対象検出装置
18 注視対象ラベル生成部
19 時間構造情報生成部
20 注視対象遷移パターン生成部

Claims (8)

  1. 発話区間を表す発話区間情報、参加者のうち何れが前記発話区間での発話者であるかを表す発話者情報、および前記参加者の呼吸情報を入力とし、
    前記参加者の吸い込み区間での息の吸い込み量、前記吸い込み区間の長さ、前記吸い込み区間での息の吸い込み量の時間変化、および前記発話区間と前記吸い込み区間との時間関係の少なくとも一部に基づき、前記参加者のうち何れが次発話者であるか、および前記次発話者の発話タイミングの少なくとも一方を表す推定情報を得て出力する、推定装置。
  2. 請求項1の推定装置であって、
    前記吸い込み区間での息の吸い込み量、前記吸い込み区間の長さ、前記吸い込み区間での息の吸い込み量の時間変化、および前記発話区間と前記吸い込み区間との時間関係の少なくとも一部に対応する特徴量に対する前記推定情報を得るためのモデルを機械学習し、前記モデルを用いて前記特徴量に対する前記推定情報を得て出力する、推定装置。
  3. 請求項1の推定装置であって、
    前記吸い込み区間での息の吸い込み量、前記吸い込み区間の長さ、前記吸い込み区間での息の吸い込み量の時間変化、および前記発話区間と前記吸い込み区間との時間関係の少なくとも一部に対応する情報の閾値判定によって前記推定情報を得て出力する、推定装置。
  4. 請求項1の推定装置であって、
    前記発話区間情報、前記発話者情報、前記参加者の呼吸情報、および前記参加者の視線行動を入力とし、
    前記参加者の吸い込み区間での息の吸い込み量、前記吸い込み区間の長さ、前記吸い込み区間での息の吸い込み量の時間変化、および前記発話区間と前記吸い込み区間との時間関係の少なくとも一部に加え、前記発話区間の終了時点に対応する時間区間における前記参加者の注視対象の遷移パターン、および前記参加者の視線行動の時間的な関係の少なくとも一部に基づき、前記推定情報を得て出力する、推定装置。
  5. 請求項4の推定装置であって、
    前記吸い込み区間での息の吸い込み量、前記吸い込み区間の長さ、前記吸い込み区間での息の吸い込み量の時間変化、前記発話区間と前記吸い込み区間との時間関係の少なくとも一部に加え、前記発話区間の終了時点に対応する時間区間における前記参加者の注視対象の遷移パターン、および前記参加者の視線行動の時間的な関係の少なくとも一部に対応する特徴量に対する前記推定情報を得るためのモデルを機械学習し、前記モデルを用いて前記特徴量に対する前記推定情報を得て出力する、推定装置。
  6. 請求項4の推定装置であって、
    前記吸い込み区間での息の吸い込み量、前記吸い込み区間の長さ、前記吸い込み区間での息の吸い込み量の時間変化、前記発話区間と前記吸い込み区間との時間関係の少なくとも一部に加え、前記発話区間の終了時点に対応する時間区間における前記参加者の注視対象の遷移パターン、および前記参加者の視線行動の時間的な関係の少なくとも一部に対応する情報の閾値判定によって前記推定情報を得て出力する、推定装置。
  7. 発話区間を表す発話区間情報、参加者のうち何れが前記発話区間での発話者であるかを表す発話者情報、および前記参加者の呼吸情報を入力とし、
    前記参加者の吸い込み区間での息の吸い込み量、前記吸い込み区間の長さ、前記吸い込み区間での息の吸い込み量の時間変化、および前記発話区間と前記吸い込み区間との時間関係の少なくとも一部に基づき、前記参加者のうち何れが次発話者であるか、および前記次発話者の発話タイミングの少なくとも一方を表す推定情報を得て出力する、推定方法。
  8. 請求項1から6の何れかの推定装置としてコンピュータを機能させるためのプログラム。
JP2014224963A 2014-08-13 2014-11-05 推定装置、その方法およびプログラム Pending JP2016042345A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014224963A JP2016042345A (ja) 2014-08-13 2014-11-05 推定装置、その方法およびプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014164754 2014-08-13
JP2014164754 2014-08-13
JP2014224963A JP2016042345A (ja) 2014-08-13 2014-11-05 推定装置、その方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2016042345A true JP2016042345A (ja) 2016-03-31

Family

ID=55592054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014224963A Pending JP2016042345A (ja) 2014-08-13 2014-11-05 推定装置、その方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2016042345A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018077791A (ja) * 2016-11-11 2018-05-17 日本電信電話株式会社 推定方法及び推定システム
WO2021153201A1 (ja) * 2020-01-31 2021-08-05 ソニーグループ株式会社 情報処理装置及び情報処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249773A (ja) * 1998-02-27 1999-09-17 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP2012027880A (ja) * 2010-07-28 2012-02-09 Hitachi Ltd 情報分析方法、計算機システム及び情報分析プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11249773A (ja) * 1998-02-27 1999-09-17 Toshiba Corp マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
JP2012027880A (ja) * 2010-07-28 2012-02-09 Hitachi Ltd 情報分析方法、計算機システム及び情報分析プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石井 亮: "複数人対話における注視遷移パターンに基づく次話者と発話開始タイミングの予測", 電子情報通信学会論文誌A, vol. 97, no. 6, JPN6017050293, 1 June 2014 (2014-06-01), pages 453 - 468, ISSN: 0003825013 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018077791A (ja) * 2016-11-11 2018-05-17 日本電信電話株式会社 推定方法及び推定システム
WO2021153201A1 (ja) * 2020-01-31 2021-08-05 ソニーグループ株式会社 情報処理装置及び情報処理方法

Similar Documents

Publication Publication Date Title
US20190080803A1 (en) Assessment of a Pulmonary Condition by Speech Analysis
JP2017118364A (ja) コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム
Rahman et al. mconverse: Inferring conversation episodes from respiratory measurements collected in the field
US20130043977A1 (en) Methods and systems for speaker identity verification
JP6923827B2 (ja) コミュニケーションスキル評価システム、装置、方法、及びプログラム
US20220054039A1 (en) Breathing measurement and management using an electronic device
JP6775387B2 (ja) 推定方法及び推定システム
JP5989603B2 (ja) 推定装置、推定方法、およびプログラム
US11717181B2 (en) Adaptive respiratory condition assessment
JP2011186521A (ja) 感情推定装置および感情推定方法
JP2016012216A (ja) 会議分析装置、方法及びプログラム
JP6363987B2 (ja) 音声処理システム、音声処理装置および音声処理プログラム
JP6480351B2 (ja) 発話制御システム、発話制御装置及び発話制御プログラム
JP2016042345A (ja) 推定装置、その方法およびプログラム
JP6445473B2 (ja) 会話支援システム、会話支援装置及び会話支援プログラム
Urbain et al. Multimodal analysis of laughter for an interactive system
JP6383349B2 (ja) コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP6887035B1 (ja) 制御システム、制御装置、制御方法及びコンピュータプログラム
JP6545950B2 (ja) 推定装置、推定方法、およびプログラム
JP6363986B2 (ja) コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP6335157B2 (ja) 会話支援システム、会話支援装置及び会話支援プログラム
JP2013246517A (ja) 非言語情報収集装置および非言語情報収集プログラム
US11475911B2 (en) Estimation device, estimation method and program
JP5768667B2 (ja) 非言語情報解析装置および非言語情報解析プログラム並びに非言語情報解析方法
JP2017122815A (ja) 会話支援システム、会話支援装置及び会話支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180104

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180626