JP2014238525A - 推定装置、推定方法、およびプログラム - Google Patents

推定装置、推定方法、およびプログラム Download PDF

Info

Publication number
JP2014238525A
JP2014238525A JP2013121552A JP2013121552A JP2014238525A JP 2014238525 A JP2014238525 A JP 2014238525A JP 2013121552 A JP2013121552 A JP 2013121552A JP 2013121552 A JP2013121552 A JP 2013121552A JP 2014238525 A JP2014238525 A JP 2014238525A
Authority
JP
Japan
Prior art keywords
utterance
speaker
gaze target
model
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013121552A
Other languages
English (en)
Other versions
JP5989603B2 (ja
Inventor
石井 亮
Akira Ishii
亮 石井
大塚 和弘
Kazuhiro Otsuka
和弘 大塚
史朗 熊野
Shiro Kumano
史朗 熊野
昌史 松田
Masashi Matsuda
昌史 松田
淳司 大和
Atsushi Yamato
淳司 大和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013121552A priority Critical patent/JP5989603B2/ja
Publication of JP2014238525A publication Critical patent/JP2014238525A/ja
Application granted granted Critical
Publication of JP5989603B2 publication Critical patent/JP5989603B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Position Input By Displaying (AREA)

Abstract

【課題】複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定する。【解決手段】発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを得、注視対象遷移パターンに所定の学習モデルを適用し、発話区間の次の発話区間の話者を推定するための次話者推定情報、および、発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報、の少なくとも一方を得る。【選択図】図1

Description

本発明は、複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定するための技術に関する。
複数の参加者間で行われるコミュニケーションにおいて、音声や映像の情報を解析して次に話し始める参加者(次発話者)を推定する手法や、推定結果から参加者に次発話者を通知することで発話衝突を軽減する手法が提案されている(例えば、特許文献1,2等参照)。
特開2006−338493号公報 特開2012−146072号公報
しかしながら、これらの次発話者推定手法は、推定精度が低く不十分なものである。特許文献2の手法では、参加者の動作や同調リズムから次発話者が推定可能であるとしているが、具体的な計算方法は明記されていない。また、特許文献1の手法では、話者以外の参加者が見ていた被注視対象者を次発話者と決定している。しかしながら、必ず次発話者を他の参加者が注視するとは限らないため、精度に課題がある。また、いつ次発話者が話し始めるかといった厳密なタイミングを推定する試みは行われていなかった。
本発明はこのような点に鑑みてなされたものであり、複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定することを課題とする。
本発明では、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを得、注視対象遷移パターンに所定の学習モデルを適用し、発話区間の次の発話区間の話者を推定するための次話者推定情報、および、発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報、の少なくとも一方を得る。
本発明では、複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定することができる。
図1は、実施形態の推定装置の機能構成を説明するためのブロック図である。 図2は、発話区間と注視対象遷移パターンとの関係を例示するためのブロック図である。 図3Aは、注視対象の遷移を表すパターンと発話区間の終了時点を基点とした次の発話開始時点との関係を表す第1発話開始時点モデル、および、注視対象の遷移を表すパターンと遷移後の注視行動の開始時点を基点とした次の発話開始時点との関係を表す第2発話開始時点モデルを例示するため図である。図3Bは、注視対象遷移パターンに対応する前記第1発話開始時点モデル、および、注視対象遷移パターンに対応する第2発話開始時点モデル、の少なくとも一方を用いて、次の発話開始タイミングを推定する方法を例示するための図である。
図面を参照して本発明の実施形態を説明する。以下では既に説明した機能構成および処理に対して同じ参照番号を用いて重複した説明を省略する。
<第1実施形態>
第1実施形態では、複数の参加者間で行われる会話を含むコミュニケーションにおいて、発話終了前後の参加者の注視対象の遷移と次話者が誰になるかといったこととに強い相関があることを利用する。参加者の音声情報から発話単位を自動的に生成し、参加者全員ないしは複数の参加者の発話単位付きの視線行動を入力とし、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを生成する。そのパターンと所定の学習モデルとを用いて次発話者を高精度で推定する。本形態の学習モデルは、注視対象の遷移を表すパターンと次の発話区間の話者との関係を表すモデル(次話者モデル)である。以下では、確率モデルを学習モデルとして用いる例を示す。ただし、これは本発明を限定するものではない。また、本形態で取り扱うコミュニケーションは、参加者間での対面コミュニケーションであってもよいし、テレビ電話やビデオチャットなど映像を用いた遠隔コミュニケーションであってもよい。また、対面コミュニケーションを行う複数の参加者の遠隔地に遠隔コミュニケーションを行う他の参加者が存在し、対面コミュニケーションおよび遠隔コミュニケーションの両方が行われるものであってもよい。また、参加者は人間と同等なコミュニケーション能力を保有したコミュニケーションロボットでも良い。コミュニケーションの参加人数については2人以上であれば、特に制約はない。
図1に例示するように、本形態のシステムは、推定装置1、N個の注視対象検出装置111−1〜N、および音声情報取得装置112−1〜Nを有し、推定装置1は、発話単位生成部11、注視対象遷移パターン生成部12、および推定部13を有し、推定部13は、次発話者算出部131、および学習モデル情報記憶部132を有する。Nは2以上の整数であり、コミュニケーションの参加者U〜Uの人数を表す。注視対象検出装置111−jおよび音声情報取得装置112−jは、各参加者U(ただし、j=1,...,N)の注視対象の検出および音声情報の取得を行う。対面コミュニケーション環境下で本システムを利用する場合、注視対象検出装置111−1〜Nおよび音声情報取得装置112−1〜Nは、参加者U〜Uが対面コミュニケーションを行う場所に配置され、それらで得られた情報が推定装置1に直接送られる。遠隔コミュニケーション環境下で本システムを利用する場合、各注視対象検出装置111−jおよび音声情報取得装置112−jは、各参加者Uが存在する各拠点に配置され、それらで得られた情報がネットワーク経由で推定装置1に送信される。対面コミュニケーションおよび遠隔コミュニケーションの両方が行われる環境下で本システムを利用する場合、各参加者Uが存在する場所に注視対象検出装置111−jおよび音声情報取得装置112−jが配置され、それらで得られた情報がネットワーク経由または直接に推定装置1に送られる。
本システムは、注視対象検出装置111−1〜N、音声情報取得装置112−1〜N、発話単位生成部11、注視対象遷移パターン生成部12、および推定部13が実行する一連の処理を繰り返し行うことで、常時、次発話者の推定を行う。
[注視対象検出装置111−j]
注視対象検出装置111−jは、参加者Uが誰を注視しているか(注視対象)を検出し、参加者Uおよび注視対象G(t)を表す情報を推定装置1に送る装置である。例えば、注視対象検出装置111−jは、公知の視線計測装置などを用い、参加者Uが誰を注視しているかを検出する。一般的に市販されている視線計測装置では、参加者Uの眼球に赤外光を当てその反射から眼球の向きを測定する。さらに、そのような装置は参加者Uの視野に類似したシーンをカメラで撮影し、参加者Uの眼球の向きとカメラ画像を用いて、カメラ画像中の注視位置を座標値として出力する。そのような装置を利用した場合、カメラ画像中から他の参加者U(ただし、w=1,...,N(w≠j))の領域を抽出し、視線計測装置で測定された注視位置がその領域に含まれるかを判定することで、参加者Uがどの参加者を注視しているかを検出する。なお、参加者Uが参加者Uの遠隔に存在する遠隔コミュニケーション環境下では、参加者Uが映し出されるモニター内の位置が参加者Uの領域とされる。参加者Uの領域検出は、画像処理による顔検出やオプティカルフローを利用するなど、どのような手法をとっても構わない。またその他、参加者Uの注視対象を推定する手法として、画像処理やモーションキャプチャなどを用いて取得される参加者Uの頭部情報と、マイクロホンで取得される参加者の音声情報を用いて、参加者Uの注視対象を判定する技術を利用するなど(例えば、特開2006−338529号公報参照)、一般的に考えられるどのような手法をとっても構わない。
[音声情報取得装置112−s]
音声情報取得装置112−s(ただし、s=1,...,N)は、参加者Uの音声情報を取得し、取得した音声情報X(t)を表す情報を推定装置1に送る装置である。ただし、tは離散時間を表す。例えば、音声情報取得装置112−sは、マイクロホンを使用して参加者Uの音声情報X(t)を取得する。
[発話単位生成部11]
発話単位生成部11は、音声情報X(t)を入力とし、音声情報Xから雑音成分を除去して発話成分のみを抽出し、それから発話区間Tを得て出力する。本形態では、1つの発話区間Tを、Td[ms]連続した無音区間で囲まれた、発話成分が存在する区間を含む時間区間と定義する。すなわち、本形態の1つの発話区間Tは、2つのTd[ms]連続した無音区間と、それらに囲まれた発話成分が存在する区間とからなる時間区間である。たとえば、Tdを200msとしたとき、参加者Uが、500msの無音,200msの発話、50msの無音、150msの発話、150msの無音、400msの発話、250msの無音、の連続した発話データがあったとき、500msの無音区間と250msの無音区間の間に挟まれた950msの発話区間が一つ生成される。本形態の1つの発話区間Tは、Td[ms]連続した2つの無音区間の間に、発話成分が存在する区間で囲まれた別のTd[ms]連続した無音区間を含まない。本形態では、この発話区間Tを参加者Uの発話の一つの単位と規定し、ある発話区間Tの終了時に、同じ参加者Uが続けて発話をするか(すなわち継続するか)、あるいは他の参加者Uの誰が発話をするのか(すなわち発話交替するか)を判定する。なお、Tdは、状況に応じて自由に決定できる。ただし、Tdを長くすると、実際の発話終了から発話区間終了を判定するまでの時間が長くなるため、一般的な日常会話であればTd=200〜500ms程度とするのが適当である。発話単位生成部11は、以上のように得た発話区間Tとそれに対応する参加者Uを表す情報(誰が発話したかを表す情報)を出力する。
[注視対象遷移パターン生成部12]
注視対象遷移パターン生成部12は、参加者Uおよび注視対象G(t)を表す情報、および発話区間Tとそれに対応する参加者Uを表す情報を入力とし、発話区間終了前後における各参加者Uの注視対象遷移パターンfを生成して出力する。注視対象遷移パターンfは、発話区間Tの終了時点Tseに対応する時間区間における参加者Uの注視対象の遷移を表す。本形態では、終了時点Tseを含む有限の時間区間における参加者Uの注視対象の遷移を表す注視対象遷移パターンfを例示する。この場合、例えば発話区間Tの終了時点Tseよりも前の時点Tse−Tから終了時点Tseよりも後の時点Tse+Tまでの区間に出現した注視行動を扱う。T,Tは0以上の任意の値で良いが、目安として、Tは0s〜2.0s、Tは0s〜3.0s程度にするのが適当である。
注視対象遷移パターン生成部12は、上述した区間の中に含まれる注視対象から遷移n−gramを生成する。nは正の整数である。このとき、注視対象遷移パターン生成部12は、注視対象を以下のように種別に分類し、ラベリングを行う。なお、ラベルの記号に意味はなく、判別できればどのような表記でも構わない。
・ラベルS:話者(すなわち、話者である参加者Uを表す)
・ラベルLξ:非話者(ただし、ξは互いに異なる非話者である参加者を識別し、ξ=1,...,N−1である。たとえば、ある参加者が、非話者U、非話者U、の順に注視をしていたとき、非話者UにLというラベル、非話者UにLというラベルが割り当てられる。)
・ラベルX:誰も見ていない
注視対象遷移パターン生成部12は、各参加者U(ただし、j=1,...,N)に対し、上述した区間の中に含まれる注視対象のラベルの遷移n−gramを生成し、参加者Uの注視対象遷移パターンfとして出力する。
図2に具体例を示す。図2はN=4の例であり、発話区間と注視対象が時系列に示されており、参加者Uが発話した後、発話交替が起き、新たに参加者Uが発話をした際の様子を示している。図2の例では、話者である参加者Uが参加者Uを注視した後、参加者Uを注視していた。この場合、時点Tse−Tから時点Tse+Tまでの区間での参加者Uの注視対象は、非話者U、非話者Uであり、参加者Uの注視対象遷移パターンfはL−Lとなる。また、上述の区間では、参加者Uは参加者Uを注視した後、誰も見ていない。この場合、この区間で参加者Uの注視対象遷移パターンfはL−Xとなる。また、上述の区間では、参加者Uは話者である参加者Uのみを注視している。この場合、この区間での参加者Uの注視対象遷移パターンfはSとなる。また、上述の区間では、参加者Uは誰も見ていない。この場合、この区間での参加者Uの注視対象遷移パターンfはXとなる。
[学習モデル情報記憶部132]
学習モデル情報記憶部132は、発話区間での注視対象の遷移を表すパターンと次の発話区間の話者との関係を表す学習モデルを格納している。本形態の学習モデルは確率モデルであり、注視対象遷移パターンfが出現した際に発話継続/発話交替が行わる確率を表す第1確率モデル、および注視対象遷移パターンfが出現した際に話者以外の各参加者Uが次発話者となるかの確率を表す第2確率モデルを含む。これらは、事前に収録された会話から、注視対象遷移パターンと次話者との関係がどれくらいの確率で発生するかを統計的に算出することで得られたものである。以下に具体例を示す。
この例の第1確率モデルは、話者交替時に話者である参加者Uの注視対象遷移パターンfが出現する確率P(f|tt)、話者継続時に話者の注視対象遷移パターンfが出現する確率P(f|ntt)、話者交替時に非話者の注視対象遷移パターンfφ(r)(ただし、r=1,,...,N−1)が出現する確率P(fφ(r)|tt)、話者継続時に非話者の注視対象遷移パターンfφ(r)が出現する確率P(fφ(r)|ntt)、および話者交替が起こる確率P(tt)を含む。ただし、ttは話者交代を表すラベル、nttは話者継続を表すラベル、P(α)はαが起こる事前確率であり、P(α|β)はβが発生した場合にαが起こる事後確率である。
この例の第2確率モデルは、注視対象遷移パターンに応じて、参加者U(ただし、i≠s、i=1,...,N)が次話者になる確率を表す。具体的には、この例の第2確率モデルは、話者の注視対象遷移パターンfに基づく参加者Uが次話者になる確率P(ns|f)、および非話者の注視対象遷移パターンfφ(r)に基づく参加者Uが次話者になる確率P(ns|fφ(r))を含む。nsは、次話者が非話者である参加者Uであることを表すラベルである。
[次発話者算出部131]
次発話者算出部131は、注視対象遷移パターン生成部12で得られた注視対象遷移パターンf,...,fを入力とし、注視対象遷移パターンf,...,fに学習モデル情報記憶部132に格納された学習モデルを適用し、次話者を推定するための情報(次話者推定情報)を得て、次話者を推定する。具体的には、(A)話者が交替するか(話者継続するか)否かを判定し、(B)話者交替であると判定された場合、次話者が誰であるかを判定する。
まず(A)について詳しく述べる。本形態では、それぞれの参加者Uの注視行動が独立に発生する事象であると仮定し、単純確率モデルを用いて話者交替するかを判定する。話者交替が行われる確率P(tt|f,fφ(1),...,fφ(N−1))および話者継続が行われる確率P(ntt|f,fφ(1),...,fφ(N−1))(次話者推定情報)は、学習モデル情報記憶部132に格納されたP(tt)およびP(ntt)=1−P(tt)、ならびに、注視対象遷移パターン生成部12で得られた注視対象遷移パターンf,...,fに対応する学習モデル情報記憶部132に格納されたP(f|tt)、P(f|ntt)、P(fφ(r)|tt)、P(fφ(r)|ntt)を用い、式(1)、(2)で算出可能である。
Figure 2014238525

Figure 2014238525
次発話者算出部131は、式(1)(2)によって算出したP(tt|f,fφ(1),...,fφ(N−1))およびP(ntt|f,fφ(1),...,fφ(N−1))を用い、話者交替であるか話者継続であるかを判定する。例えば、次発話者算出部131は、P(tt|f,fφ(1),...,fφ(N−1))>P(ntt|f,fφ(1),...,fφ(N−1))が成り立てば話者交替と判定し、そうでなければ話者継続と判定する。或いは、定数等である係数γ(ただし、γ≠0)およびδについてP(tt|f,fφ(1),...,fφ(N−1))>γ×P(ntt|f,fφ(1),...,fφ(N−1))+δが成り立てば話者交替と判定し、そうでなければ話者継続と判定してもよい。話者継続が行われると判定した場合、次発話者算出部131は、次話者が参加者Uであることを表すラベルnsを出力する。
話者交替が行われると判定した場合、次発話者算出部131は、(B)次話者が誰であるかを判定する。(B)について詳しく述べる。それぞれの参加者U,...,Uの注視行動が独立に発生する事象であると仮定する。次話者が非話者である参加者Uである確率P(ns)(次話者推定情報)は、注視対象遷移パターン生成部12で得られた注視対象遷移パターンf,...,fに対応する学習モデル情報記憶部132に格納されたP(ns|f)およびP(ns|fφ(r))を用い、式(3)で算出可能である。
Figure 2014238525
次発話者算出部131は、式(3)によって確率P(ns)を算出し、確率P(ns)が最も大きな参加者Uを次発話者であると判定し、次話者が参加者Uであることを表すラベルnsを出力する。或いは、或る閾値以上の大きさの確率P(ns)に対応する参加者Uを次発話者の候補として判定し、当該次発話者の候補を表すラベルを出力してもよい。或いは、大きい順番で選択した複数個の確率P(ns)に対応する参加者Uを次発話者の候補として判定し、当該次発話者の候補を表すラベルを出力してもよい。
<第2実施形態>
第2実施形態は、第1実施形態の変形例である。第2実施形態では、第1実施形態に加え、さらに発話終了前後の参加者の注視対象の遷移が次の発話が開始されるタイミングと相関があることを利用し、注視対象遷移パターンと所定の学習モデルとを用いて次の発話(次発話)の開始タイミングを高精度で推定する。
本形態の学習モデルは、第1実施形態で説明したモデルに加え、注視対象の遷移を表すパターンと、発話区間の終了時点を基点とした次の発話開始時点と、の関係を表す第1発話開始時点モデル、および、注視対象の遷移を表すパターンと、遷移後の注視行動の開始時点を基点とした次の発話開始時点と、の関係を表す第2発話開始時点モデル、の少なくとも一方を含む。なお、「或る時点を基点とした次の発話開始時点」とは、或る時点に対する相対的な発話開始時点を意味し、言い換えると、或る時点を0とした場合の次の発話開始時点を意味する。すなわち、或る時点の絶対時点(実時刻)をαとし、次の発話開始時点の絶対時点をβとすると、「或る時点を基点とした次の発話開始時点」はβ−αである。さらに、本形態の学習モデルが、発話区間の終了時点を基点とした次の発話開始時点を表す第3発話開始時点モデルを含んでもよい。第3発話開始時点モデルは、注視対象の遷移を表すパターンに依存しない。たとえば、第3発話開始時点モデルは、すべての発話区間の終了時点を基点とした次の発話開始時点の平均を表すモデル(例えば、当該平均の確率分布を表すモデル)である。また、学習モデルとして、第1発話開始時点モデルのみを用いてもよいし、第2発話開始時点モデルのみを用いてもよいし、第1発話開始時点モデルと第2発話開始時点モデルとを用いてもよいし、第1発話開始時点モデルと第3発話開始時点モデルとを用いてもよいし、第2発話開始時点モデルと第3発話開始時点モデルとを用いてもよいし、第1発話開始時点モデルと第2発話開始時点モデルと第3発話開始時点モデルとを用いてもよい。しかしながら、第1発話開始時点モデルまたは第2発話開始時点モデルの一方を用いないよりも、これらの両方を用いたほうが、次の発話開始タイミングの推定精度が高い。また、第3発話開始時点モデルを用いないよりも、これを用いたほうが、次の発話開始タイミングの推定精度が高い。
以下では一例として、学習モデルが第1発話開始時点モデルと第2発話開始時点モデルと第3発話開始時点モデルのすべてを含む例を説明する。以下で例示する第1発話開始時点モデルは、注視対象の遷移を表すパターンに応じた、当該発話区間の終了時点を基点とした次の発話開始時点の確率分布を表す。以下で例示する第2発話開始時点モデルは、注視対象の遷移を表すパターンに応じた、注視行動の開始後を基点とした次の発話開始時点の確率分布を表す。以下で例示する第3発話開始時点モデルは、発話区間の終了時点を基点とした次の発話開始時点の確率分布を表す。ただし、これらは本発明を限定するものではない。以下、第1実施形態との相違点を説明する。
図1に例示するように、本形態のシステムの第1実施形態のシステムに対する相違点は、第1実施形態の推定装置1に替えて推定装置2を備える点である。本形態の推定装置2は、発話単位生成部11、注視対象遷移パターン生成部22、および推定部23を有し、推定部23は、次発話者算出部131、タイミング算出部233、および学習モデル情報記憶部232を有する。
本システムは、注視対象検出装置111−1〜N、音声情報取得装置112−1〜N、発話単位生成部11、注視対象遷移パターン生成部22、次発話者算出部131、およびタイミング算出部233が実行する一連の処理を繰り返し行うことで、常時、次発話者の推定および次の発話開始タイミングの推定を行う。
[注視対象遷移パターン生成部22]
注視対象遷移パターン生成部22が第1実施形態の注視対象遷移パターン生成部12と相違する点は、注視対象遷移パターン生成部22が、注視対象遷移パターンfに加え、さらに各参加者Uの注視対象の遷移後の注視行動が開始された時点t2,jを出力する点である。例えば図3では、参加者Uの注視対象を表すラベルがLからLに遷移しており、遷移後のLが表す視対象への注視行動が開始された時点t2,1が出力される。なお、時点Tse−Tから時点Tse+Tまでの区間での注視対象の遷移がない場合には、時点t2,jは生成されない。。その他は注視対象遷移パターン生成部12と同じである。
[学習モデル情報記憶部232]
学習モデル情報記憶部232は、第1実施形態で説明した学習モデルに加え、さらに、上述した第1〜3発話開始時点モデルを学習モデルとして格納している。ここで例示する第1〜3発話開始時点モデルは確率分布を表す確率密度関数である。すなわち、この例の第1発話開始時点モデルは、注視対象遷移パターンvに応じた、当該発話区間の終了時点tを基点とした次の発話開始時点t−tの確率分布を表す確率密度関数k(t−t)である。ただし、tは絶対時点を表す。この例の第2発話開始時点モデルは、注視対象遷移パターンvに応じた、遷移後の注視行動が開始された時点tを基点とした発話開始時点t−tの確率分布を表す確率密度関数g(t−t)である。なお、本形態の確率密度関数k(t−t)およびg(t−t)は、注視対象遷移パターンvごとに、参加者が話者であったか非話者であったかという2つの発話状態と、話者交替時か話者継続時かといった話者交替の2つの状態と、の組み合わせからなる4種類の状態のそれぞれに対して生成されたものである。すなわち、本形態では、注視対象遷移パターンvごとに4種類ずつの確率密度関数k(t−t)およびg(t−t)が生成され、それらが互いに区別される。例えば、話者交替時に、話者U,非話者Uの注視対象遷移パターンf,fが共にL−Lでも、この注視対象遷移パターンfに応じたkf1(t−t)と、この注視対象遷移パターンfに応じたkf2(t−t)とは、互いに区別される。同様に、この注視対象遷移パターンfに応じたgf1(t−t)と、この注視対象遷移パターンfに応じたgf2(t−t)とは、互いに区別される。また、話者交替時における参加者Uの注視対象遷移パターンfと、話者継続時における参加者Uの注視対象遷移パターンfとが共にL−Lでも、これらの視対象遷移パターンfに応じたkf1(t−t)は区別される。同様に、これらの視対象遷移パターンfに応じたgf1(t−t)は区別される。また、この例の第3発話開始時点モデルは、発話区間の終了時点tを基点とした次の発話開始時点t−tの確率分布を表す確率密度関数h(t−t)である。この確率密度関数h(t−t)は、注視対象遷移パターンにかかわらず、すべてのt−tについての確率分布を表すものである。これらの確率密度関数は、会話データから事前に集計され、生成されたものである。確率密度関数は、より実際の分布に近い各種関数(たとえば、ガンマ分布など)に近似されてもよい。
[タイミング算出部233]
タイミング算出部233は、次発話者算出部131で話者交替であるか否かが判定された場合に、発話単位生成部11で得られた発話区間Tの終了時点t1,s、次発話者算出部131で得られた次話者を表すラベルns、ならびに注視対象遷移パターン生成部22で得られた注視対象遷移パターンf,...,fおよび遷移後の注視行動が開始された時点t2,1,...,t2,Nを入力とし、それらを学習モデル情報記憶部232に格納された学習モデルに適用し、発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報を得、次の発話開始タイミングを推定する。すなわち、注視行動が発話のタイミングに影響を与えると考えられるため、タイミング算出部233は、入力された注視対象遷移パターンf,...,fに応じた発話区間の終了から次発話開始までの時間を統計的に集計し、それによって得られる確率分布を基に次の発話開始タイミングを推定する。以下にその処理を具体的に説明する。
タイミング算出部233は、学習モデル情報記憶部232から、確率密度関数h(t−t)、ならびに、参加者U,...,Uのそれぞれが話者であったか非話者であったかと話者交替時か話者継続時かと入力された注視対象遷移パターンf,...,fとに対応する確率密度関数kf1(t−t),...,kfN(t−t)および確率密度関数gf1(t−t),...,gfN(t−t)を抽出する。なお、下付き添え字のf1,...,fNは、それぞれf,...,fを表す。参加者U,...,Uのそれぞれが話者であったか非話者であったかは、1つ前の繰り返し処理においてタイミング算出部233に入力されたラベルnsから特定できる。話者交替時か話者継続時かは、1つ前の繰り返し処理においてタイミング算出部233に入力されたラベルnsと、今回の繰り返し処理においてタイミング算出部233に入力されたラベルnsとから特定できる。図3Aの例では、参加者Uが話者であり、参加者UからUへの話者交替が起こり、参加者Uの注視対象遷移パターンfがL−Lである。そのため、確率密度関数h(t−t)が抽出されるとともに、「話者」「話者交替時」および「fがL−L」に対応するkf1(t−t)およびgf1(t−t)が抽出される。他の参加者U,...,Uについても同様にkf2(t−t),...,kfN(t−t)および確率密度関数gf2(t−t),...,gfN(t−t)が抽出される。
タイミング算出部233は、入力された発話区間Tの終了時点t1,s、および遷移後の注視行動が開始された時点t2,1,...,t2,Nを、抽出したh(t−t),kf1(t−t),...,kfN(t−t),gf1(t−t),...,gfN(t−t)に代入して得られるh(t−t1,s),kf1(t−t1,s),...,kfN(t−t1,s),gf1(t−t2,1),...,gfN(t−t2,N),h(t−t)から、混合分布を表す確率密度関数Ps(t)(発話開始タイミング推定情報)を生成し、その混合分布のピークに対応する時点tを発話開始タイミングとする。時点t2,jが生成されていない場合にはgfj(t−t2,j)=1とする。確率密度関数Ps(t)は、例えば、以下の式(4)で算出できる。
Figure 2014238525
タイミング算出部233は、Ps(t)が最大になる時点tを次発話発生時点(次の発話開始タイミング)とし、この次発話発生時点を表すラベルTub(発話開始タイミング情報)を出力する。或いは、或る閾値以上の大きさの確率Ps(t)に対応する時点tを次発話発生時点の候補とし、当該次発話発生時点の候補を表すラベルを出力してもよい。或いは、大きい順番で選択した複数個の確率Ps(t)に対応する時点tを次発話発生時点の候補とし、当該次発話発生時点の候補を表すラベルを出力してもよい。
<第3実施形態>
第3実施形態は第2実施形態の変形例であり、第2実施形態との相違点は、第1発話開始時点モデルおよび第2発話開始時点モデルの少なくとも一方が、発話区間で非話者であって次の発話区間で話者となる者と、発話区間で非話者であって次の発話区間で非話者となる者と、を互いに異なる注視対象として扱ったモデル(詳細分類モデル)である点である。これにより、次の発話開始タイミングの推定精度がさらに向上する。なお、第1発話開始時点モデルまたは第2発話開始時点モデルの一方のみが詳細分類モデルであってもよいが、第1発話開始時点モデルおよび第2発話開始時点モデルの両方が詳細分類モデルであるほうが、次の発話開始タイミングの推定精度が高いため、好ましい。以下では一例として、学習モデルが第1発話開始時点モデルと第2発話開始時点モデルと第3発話開始時点モデルのすべてを含み、第1発話開始時点モデルおよび第2発話開始時点モデルの両方が詳細分類モデルである例を示す。以下では第2実施形態との相違点のみを説明する。
図1に例示するように、本形態のシステムの第2実施形態のシステムに対する相違点は、第2実施形態の推定装置2に替えて推定装置3を備える点である。本形態の推定装置3は、発話単位生成部11、注視対象遷移パターン生成部22、および推定部33を有し、推定部33は、次発話者算出部131、タイミング算出部333、および学習モデル情報記憶部332を有する。
本システムは、注視対象検出装置111−1〜N、音声情報取得装置112−1〜N、発話単位生成部11、注視対象遷移パターン生成部22、次発話者算出部131、およびタイミング算出部333が実行する一連の処理を繰り返し行うことで、常時、次発話者の推定および次の発話開始タイミングの推定を行う。
[学習モデル情報記憶部332]
学習モデル情報記憶部332は、第1実施形態で説明した学習モデルに加え、さらに、第1〜3発話開始時点モデルを学習モデルとして格納している。ただし、第1発話開始時点モデルおよび第2発話開始時点モデルの両方が詳細分類モデルである点が第2実施形態と相違する。すなわち、この例の第1発話開始時点モデルも、注視対象遷移パターンvに応じた、当該発話区間の終了時点tを基点とした次の発話開始時点t−tの確率分布を表す確率密度関数k(t−t)である。また、この例の第2発話開始時点モデルも、注視対象遷移パターンvに応じた、遷移後の注視行動が開始された時点tを基点とした話開始時点t−tの確率分布を表す確率密度関数g(t−t)である。これらの確率密度関数も、会話データから事前に集計され、生成されたものである。ただし、本形態の注視対象遷移パターンvは、発話区間で非話者であって次の発話区間で話者となる者と、発話区間で非話者であって次の発話区間で非話者となる者と、を互いに異なる注視対象として扱ったものである。すなわち、以下のような注視対象を表すラベルの遷移n−gramを注視対象遷移パターンvとして生成されたものである。
・ラベルS:話者(すなわち、話者である参加者Uを表す)
・ラベルNS:次話者である非話者(すなわち、非話者のうち次話者となる参加者Unsを表す)
・ラベルNLι:次話者でない非話者(ただし、ιは次話者でない互いに異なる非話者を識別し、ι=1,...,N−1である。たとえば、ある参加者が、非話者U、非話者U、の順に注視をしており、非話者Uが次話者であるとき、非話者UにNSというラベル、非話者UにNLというラベルが割り当てられる。)
・ラベルX:誰も見ていない
また、本形態の確率密度関数k(t−t)およびg(t−t)は、上記の注視対象遷移パターンvごとに、参加者が話者であったか非話者であったかという2つの発話状態のそれぞれに対して生成されたものである。すなわち、本形態では、注視対象遷移パターンvごとに2種類ずつの確率密度関数k(t−t)およびg(t−t)が生成され、それらが互いに区別される。例えば、話者U,非話者Uの注視対象遷移パターンf,fが共にNL−NLでも、この注視対象遷移パターンfに応じたkf1(t−t)と、この注視対象遷移パターンfに応じたkf2(t−t)とは、互いに区別される。同様に、この注視対象遷移パターンfに応じたgf1(t−t)と、この注視対象遷移パターンfに応じたgf2(t−t)とは、互いに区別される。
[タイミング算出部333]
タイミング算出部333は、次発話者算出部131で話者交替であると判定された場合に、発話単位生成部11で得られた発話区間Tの終了時点t1,s、次発話者算出部131で得られた次話者を表すラベルns、参加者Uおよび注視対象G(t)を表す情報、および発話区間Tとそれに対応する参加者(話者)Uを表す情報、および注視対象遷移パターン生成部22で得られた遷移後の注視行動が開始された時点t2,1,...,t2,Nを入力とし、それらを学習モデル情報記憶部332に格納された学習モデルに適用し、発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報を得、次の発話開始タイミングを推定する。以下にその処理を具体的に説明する。
第1実施形態で説明した通り、入力された注視対象遷移パターンfは、発話区間で非話者であって次の発話区間で話者となる者と、発話区間で非話者であって次の発話区間で非話者となる者とを区別したものではない。そのため、タイミング算出部333は、参加者Uおよび注視対象G(t)を表す情報、発話区間Tとそれに対応する参加者(話者)Uを表す情報、および次話者を表すラベルnsを用い、発話区間Tの終了時点Tseに対応する時間区間における参加者Uの注視対象の遷移を表す注視対象遷移パターンf’を生成する。ただし、本形態では、各参加者Uについて、上述したラベルS,NS,NLι,Xで識別された注視対象の遷移n−gramを生成し、それを参加者Uの注視対象遷移パターンf’として出力する。なお、注視対象の参加者が次話者であるか否かは、次話者を表すラベルnsによって特定する。
タイミング算出部333は、学習モデル情報記憶部332から、確率密度関数h(t−t)、ならびに、参加者U,...,Uのそれぞれが話者であったか非話者であったかと注視対象遷移パターンf’,...,f’とに対応する確率密度関数kf1’(t−t),...,kfN’(t−t)および確率密度関数gf1’(t−t),...,gfN’(t−t)を抽出する。参加者U,...,Uのそれぞれが話者であったか非話者であったかは、1つ前の繰り返し処理においてタイミング算出部233に入力されたラベルnsから特定できる。図3Aの例では、参加者Uが話者であり、参加者Uの注視対象遷移パターンf’がNL−NSである。そのため、確率密度関数h(t−t)が抽出されるとともに、「話者」および「f’がNL−NS」に対応するkf1’(t−t)およびgf1’(t−t)が抽出される。他の参加者U,...,Uについても同様にkf2’(t−t),...,kfN’(t−t)および確率密度関数gf2’(t−t),...,gfN’(t−t)が抽出される。
タイミング算出部333は、入力された発話区間Tの終了時点t1,s、および遷移後の注視行動が開始された時点t2,1,...,t2,Nを、抽出したh(t−t),kf1’(t−t),...,kfN’(t−t),gf1’(t−t),...,gfN’(t−t)に代入して得られるh(t−t1,s),kf1’(t−t1,s),...,kfN’(t−t1,s),gf1’(t−t2,1),...,gfN’(t−t2,N),h(t−t)から、混合分布を表す確率密度関数Ps(t)(発話開始タイミング推定情報)を生成し、その混合分布のピークに対応する時点tを発話開始タイミングとする。確率密度関数Ps(t)は、例えば、以下の式(5)で算出できる。
Figure 2014238525
タイミング算出部333は、Ps(t)が最大になる時点tを次発話発生時点(次の発話開始タイミング)とし、この次発話発生時点を表すラベルTub(発話開始タイミング情報)を出力する。或いは、或る閾値以上の大きさの確率Ps(t)に対応する時点tを次発話発生時点の候補とし、当該次発話発生時点の候補を表すラベルを出力してもよい。或いは、大きい順番で選択した複数個の確率Ps(t)に対応する時点tを次発話発生時点の候補とし、当該次発話発生時点の候補を表すラベルを出力してもよい。
<その他の変形例>
本発明は上述の実施の形態に限定されるものではない。例えば、発話単位生成部11が推定装置の外部に構成され、推定装置が発話単位生成部11を含まない構成であってもよい。
上述の各実施形態では、2つ以上のTd[ms]連続した無音区間で囲まれた区間とそれらで囲まれた発話成分が存在する区間とからなり、Td[ms]連続した2つの無音区間の間に、発話成分が存在する区間で囲まれた別のTd[ms]連続した無音区間を含まないこととした。しかしながら、2つ以上のTd[ms]連続した無音区間で囲まれた区間とそれらで囲まれた発話成分が存在する区間とからなり、Td[ms]連続した2つの無音区間の間に、発話成分が存在する区間で囲まれた別のTd[ms]連続した無音区間を含むもの1つの発話区間Tとしてもよい。
上述の各実施形態では、終了時点Tseを含む有限の時間区間における参加者Uの注視対象の遷移を表すパターンを注視対象遷移パターンfとした。しかしながら、終了時点Tseの近傍の時間区間における参加者Uの注視対象の遷移を表す情報を、注視対象遷移パターンfとしてもよい。
第1実施形態では、話者継続するか話者交替するかを推定し、話者交替であると判定された場合に次話者が誰となるのかの推定を行った。しかしながら、話者継続するか話者交替するかのみを推定し、その結果が出力されてもよい。
第2,3実施形態では、学習モデルが第1発話開始時点モデルk(t−t)と第2発話開始時点モデルg(t−t)と第3発話開始時点モデルh(t−t)とを含み、タイミング算出部233,334が式(4)のPs(t)から次発話発生時点やその候補を得た。しかしながら、学習モデルが第1発話開始時点モデルk(t−t)と第3発話開始時点モデルh(t−t)とを含むが第2発話開始時点モデルg(t−t)を含まず、タイミング算出部233が式(4)に替えて式(6)を用いてもよいし、タイミング算出部333が式(5)に替えて式(7)を用いてもよい。
Figure 2014238525
或いは、学習モデルが第1発話開始時点モデルk(t−t)を含むが第2発話開始時点モデルg(t−t)と第3発話開始時点モデルh(t−t)とを含まず、タイミング算出部233が式(4)に替えて式(8)を用いてもよいし、タイミング算出部333が式(5)に替えて式(9)を用いてもよい。
Figure 2014238525
或いは、学習モデルが第2発話開始時点モデルg(t−t)と第3発話開始時点モデルh(t−t)とを含むが第1発話開始時点モデルk(t−t)を含まず、タイミング算出部233が式(4)に替えて式(10)を用いてもよいし、タイミング算出部333が式(5)に替えて式(11)を用いてもよい。
Figure 2014238525
或いは、学習モデルが第1発話開始時点モデルk(t−t)と第2発話開始時点モデルg(t−t)とを含むが第3発話開始時点モデルh(t−t)を含まず、タイミング算出部233が式(4)に替えて式(12)を用いてもよいし、タイミング算出部333が式(5)に替えて式(13)を用いてもよい。
Figure 2014238525
或いは、学習モデルが第2発話開始時点モデルg(t−t)を含むが第1発話開始時点モデルk(t−t)と第3発話開始時点モデルh(t−t)を含まず、タイミング算出部233が式(4)に替えて式(14)を用いてもよいし、タイミング算出部333が式(5)に替えて式(15)を用いてもよい。
Figure 2014238525
また、第3実施形態では、一例として、第1発話開始時点モデルおよび第2発話開始時点モデルの両方が詳細分類モデルである例を示した。しかし、前述のように第1発話開始時点モデルのみが詳細分類モデルであってもよいし、第2発話開始時点モデルのみが詳細分類モデルであってもよい。例えば、第1発話開始時点モデルのみが詳細分類モデルである場合、タイミング算出部333が式(5)に替えて式(16)または(17)を用いてもよい。
Figure 2014238525
また例えば、第2発話開始時点モデルのみが詳細分類モデルである場合、タイミング算出部333が式(5)に替えて式(18)または(19)を用いてもよい。
Figure 2014238525
また、タイミング算出部233,333は、Ps(t)を求めてから次発話発生時点やその候補を得てもよいが、必ずしもPs(t)を求める必要はない。すなわち、タイミング算出部233,333は、Ps(t)を得ることなく次発話発生時点やその候補を得てもよい。例えば、タイミング算出部233,333は、Ps(t)を得ることなくPs(t)のtについても微分結果から発話発生時点を得てもよいし、そのように得た発話発生時点を含む有限の時間区間を次発話発生時点の候補としてもよい。
また、各実施形態では、推定装置13〜33が次話者推定情報を用いた次発話者の推定や、発話開始タイミング推定情報を用いた発話開始タイミングの推定を行うこととしたが、推定装置13〜33がそれらを推定するための次話者推定情報(例えば、確率P(ns))や発話開始タイミング推定情報(混合分布を表す確率密度関数)をそのまま出力してもよい。
また、各実施形態では、学習モデルとして確率モデルを用いる例を示した。しかしながら、サポートベクターマシーンに代表されるような機械学習の一般的な手法を用いてもよい。その場合には、例えば、注視対象の遷移を表すパターンを特徴量とし、事前に会話データを用いた学習によって、注視対象の遷移を表すパターンと次発話(発話区間の次の発話区間の話者)や次発話開始のタイミング(発話区間の次の発話開始タイミング)との関係をモデル化しておくことで実現できる。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
上述した各装置は、例えば、CPU(central processing unit)、RAM(random-access memory)等を有する汎用または専用のコンピュータに所定のプログラムが読み込まれることによって構成される。このプログラムには各装置が有すべき機能の処理内容が記述され、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記録装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。
上記実施形態では、コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されたが、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。
以上により、高精度に次話者および次発話開始のタイミングをリアルタイムで予測推定可能となる。この次発話と次発話開始のタイミング推定はさまざまなシーンで利用可能であり、例えば、遅延のある遠隔コミュニケーションシステムにおいて、予測結果を基にユーザに次発話者を提示することで発話回避をさせることや、コミュニケーションロボットがユーザの発話開始を予測しながらタイミングよく発話をするための基盤的な技術となる。
1〜3推定装置
12,22 注視対象遷移パターン生成部
13,23,33 推定部

Claims (7)

  1. 発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを得る注視対象遷移パターン生成部と、
    前記注視対象遷移パターンに所定の学習モデルを適用し、前記発話区間の次の発話区間の話者を推定するための次話者推定情報、および、前記発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報、の少なくとも一方を得る推定部と、
    を有する推定装置。
  2. 請求項1の推定装置であって、
    前記学習モデルは、前記注視対象の遷移を表すパターンと次の発話区間の話者との関係を表す次話者モデルを含む、推定装置。
  3. 請求項1または2の推定装置であって、
    前記学習モデルは、
    前記注視対象の遷移を表すパターンと、前記発話区間の終了時点を基点とした次の発話開始時点と、の関係を表す第1発話開始時点モデル、および、
    前記注視対象の遷移を表すパターンと、遷移後の注視行動の開始時点を基点とした次の発話開始時点と、の関係を表す第2発話開始時点モデル、
    の少なくとも一方を含む、推定装置。
  4. 請求項3の推定装置であって、
    前記第1発話開始時点モデルおよび前記第2発話開始時点モデルの少なくとも一方は、前記発話区間で非話者であって次の発話区間で話者となる者と、前記発話区間で非話者であって次の発話区間で非話者となる者と、を互いに異なる前記注視対象として扱ったモデルである、推定装置。
  5. 請求項1から4の何れかの推定装置であって、
    前記時間区間は、前記発話区間の終了時点を含む有限の時間区間である、推定装置。
  6. 注視対象遷移パターン生成部で、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを得る注視対象遷移パターン生成ステップと、
    推定部で、前記注視対象遷移パターンに所定の学習モデルを適用し、前記発話区間の次の発話区間の話者を推定するための次話者推定情報、および、前記発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報、の少なくとも一方を得る推定ステップと、
    を有する推定方法。
  7. 請求項1から5の何れかの推定装置としてコンピュータを機能させるためのプログラム。
JP2013121552A 2013-06-10 2013-06-10 推定装置、推定方法、およびプログラム Active JP5989603B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013121552A JP5989603B2 (ja) 2013-06-10 2013-06-10 推定装置、推定方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013121552A JP5989603B2 (ja) 2013-06-10 2013-06-10 推定装置、推定方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2014238525A true JP2014238525A (ja) 2014-12-18
JP5989603B2 JP5989603B2 (ja) 2016-09-07

Family

ID=52135706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013121552A Active JP5989603B2 (ja) 2013-06-10 2013-06-10 推定装置、推定方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5989603B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017116747A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 音声処理システム、音声処理装置および音声処理プログラム
JP2017116716A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP2017117161A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP2017118364A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム
JP2017121680A (ja) * 2016-01-06 2017-07-13 日本電信電話株式会社 発話制御システム、発話制御装置及び発話制御プログラム
JP2018077791A (ja) * 2016-11-11 2018-05-17 日本電信電話株式会社 推定方法及び推定システム
WO2023084570A1 (ja) * 2021-11-09 2023-05-19 日本電信電話株式会社 発話推定装置、発話推定方法及び発話推定プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000352996A (ja) * 1999-03-26 2000-12-19 Canon Inc 情報処理装置
JP2005122128A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000352996A (ja) * 1999-03-26 2000-12-19 Canon Inc 情報処理装置
JP2005122128A (ja) * 2003-09-25 2005-05-12 Fuji Photo Film Co Ltd 音声認識システム及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017116747A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 音声処理システム、音声処理装置および音声処理プログラム
JP2017116716A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP2017117161A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム
JP2017118364A (ja) * 2015-12-24 2017-06-29 日本電信電話株式会社 コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム
JP2017121680A (ja) * 2016-01-06 2017-07-13 日本電信電話株式会社 発話制御システム、発話制御装置及び発話制御プログラム
JP2018077791A (ja) * 2016-11-11 2018-05-17 日本電信電話株式会社 推定方法及び推定システム
WO2023084570A1 (ja) * 2021-11-09 2023-05-19 日本電信電話株式会社 発話推定装置、発話推定方法及び発話推定プログラム

Also Published As

Publication number Publication date
JP5989603B2 (ja) 2016-09-07

Similar Documents

Publication Publication Date Title
JP5989603B2 (ja) 推定装置、推定方法、およびプログラム
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
US9293133B2 (en) Improving voice communication over a network
US20190237076A1 (en) Augmentation of key phrase user recognition
US20190079724A1 (en) Intercom-style communication using multiple computing devices
Hung et al. Estimating dominance in multi-party meetings using speaker diarization
US20150058004A1 (en) Augmented multi-tier classifier for multi-modal voice activity detection
Minotto et al. Multimodal multi-channel on-line speaker diarization using sensor fusion through SVM
JPWO2011064938A1 (ja) 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
KR20190129731A (ko) 음성대화 시스템, 음성대화 방법 및 프로그램
CN115376187A (zh) 一种多人机交互场景下说话对象检测装置及方法
JPWO2011007497A1 (ja) 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
JP6629172B2 (ja) 対話制御装置、その方法及びプログラム
JP2013257418A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP4775961B2 (ja) 映像を用いた発音の推定方法
Gebre et al. Motion history images for online speaker/signer diarization
Tahir et al. Real-time sociometrics from audio-visual features for two-person dialogs
JP2020067562A (ja) ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法
JPWO2019093123A1 (ja) 情報処理装置および電子機器
JP6545950B2 (ja) 推定装置、推定方法、およびプログラム
WO2019156079A1 (ja) 推定装置、推定方法、およびプログラム
Hayamizu et al. Group emotion estimation using Bayesian network based on facial expression and prosodic information
JP6415932B2 (ja) 推定装置、推定方法、およびプログラム
JP2021072497A (ja) 分析装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160531

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160810

R150 Certificate of patent or registration of utility model

Ref document number: 5989603

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150