JP2014238525A - 推定装置、推定方法、およびプログラム - Google Patents
推定装置、推定方法、およびプログラム Download PDFInfo
- Publication number
- JP2014238525A JP2014238525A JP2013121552A JP2013121552A JP2014238525A JP 2014238525 A JP2014238525 A JP 2014238525A JP 2013121552 A JP2013121552 A JP 2013121552A JP 2013121552 A JP2013121552 A JP 2013121552A JP 2014238525 A JP2014238525 A JP 2014238525A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- speaker
- gaze target
- model
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Position Input By Displaying (AREA)
Abstract
Description
<第1実施形態>
第1実施形態では、複数の参加者間で行われる会話を含むコミュニケーションにおいて、発話終了前後の参加者の注視対象の遷移と次話者が誰になるかといったこととに強い相関があることを利用する。参加者の音声情報から発話単位を自動的に生成し、参加者全員ないしは複数の参加者の発話単位付きの視線行動を入力とし、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを生成する。そのパターンと所定の学習モデルとを用いて次発話者を高精度で推定する。本形態の学習モデルは、注視対象の遷移を表すパターンと次の発話区間の話者との関係を表すモデル(次話者モデル)である。以下では、確率モデルを学習モデルとして用いる例を示す。ただし、これは本発明を限定するものではない。また、本形態で取り扱うコミュニケーションは、参加者間での対面コミュニケーションであってもよいし、テレビ電話やビデオチャットなど映像を用いた遠隔コミュニケーションであってもよい。また、対面コミュニケーションを行う複数の参加者の遠隔地に遠隔コミュニケーションを行う他の参加者が存在し、対面コミュニケーションおよび遠隔コミュニケーションの両方が行われるものであってもよい。また、参加者は人間と同等なコミュニケーション能力を保有したコミュニケーションロボットでも良い。コミュニケーションの参加人数については2人以上であれば、特に制約はない。
注視対象検出装置111−jは、参加者Ujが誰を注視しているか(注視対象)を検出し、参加者Ujおよび注視対象Gj(t)を表す情報を推定装置1に送る装置である。例えば、注視対象検出装置111−jは、公知の視線計測装置などを用い、参加者Ujが誰を注視しているかを検出する。一般的に市販されている視線計測装置では、参加者Ujの眼球に赤外光を当てその反射から眼球の向きを測定する。さらに、そのような装置は参加者Ujの視野に類似したシーンをカメラで撮影し、参加者Ujの眼球の向きとカメラ画像を用いて、カメラ画像中の注視位置を座標値として出力する。そのような装置を利用した場合、カメラ画像中から他の参加者Uw(ただし、w=1,...,N(w≠j))の領域を抽出し、視線計測装置で測定された注視位置がその領域に含まれるかを判定することで、参加者Ujがどの参加者を注視しているかを検出する。なお、参加者Uwが参加者Ujの遠隔に存在する遠隔コミュニケーション環境下では、参加者Uwが映し出されるモニター内の位置が参加者Uwの領域とされる。参加者Uwの領域検出は、画像処理による顔検出やオプティカルフローを利用するなど、どのような手法をとっても構わない。またその他、参加者Ujの注視対象を推定する手法として、画像処理やモーションキャプチャなどを用いて取得される参加者Ujの頭部情報と、マイクロホンで取得される参加者の音声情報を用いて、参加者Ujの注視対象を判定する技術を利用するなど(例えば、特開2006−338529号公報参照)、一般的に考えられるどのような手法をとっても構わない。
音声情報取得装置112−s(ただし、s=1,...,N)は、参加者Usの音声情報を取得し、取得した音声情報Xs(t)を表す情報を推定装置1に送る装置である。ただし、tは離散時間を表す。例えば、音声情報取得装置112−sは、マイクロホンを使用して参加者Usの音声情報Xs(t)を取得する。
発話単位生成部11は、音声情報Xs(t)を入力とし、音声情報Xsから雑音成分を除去して発話成分のみを抽出し、それから発話区間Tsを得て出力する。本形態では、1つの発話区間Tsを、Td[ms]連続した無音区間で囲まれた、発話成分が存在する区間を含む時間区間と定義する。すなわち、本形態の1つの発話区間Tsは、2つのTd[ms]連続した無音区間と、それらに囲まれた発話成分が存在する区間とからなる時間区間である。たとえば、Tdを200msとしたとき、参加者Usが、500msの無音,200msの発話、50msの無音、150msの発話、150msの無音、400msの発話、250msの無音、の連続した発話データがあったとき、500msの無音区間と250msの無音区間の間に挟まれた950msの発話区間が一つ生成される。本形態の1つの発話区間Tsは、Td[ms]連続した2つの無音区間の間に、発話成分が存在する区間で囲まれた別のTd[ms]連続した無音区間を含まない。本形態では、この発話区間Tsを参加者Usの発話の一つの単位と規定し、ある発話区間Tsの終了時に、同じ参加者Usが続けて発話をするか(すなわち継続するか)、あるいは他の参加者Uwの誰が発話をするのか(すなわち発話交替するか)を判定する。なお、Tdは、状況に応じて自由に決定できる。ただし、Tdを長くすると、実際の発話終了から発話区間終了を判定するまでの時間が長くなるため、一般的な日常会話であればTd=200〜500ms程度とするのが適当である。発話単位生成部11は、以上のように得た発話区間Tsとそれに対応する参加者Usを表す情報(誰が発話したかを表す情報)を出力する。
注視対象遷移パターン生成部12は、参加者Ujおよび注視対象Gj(t)を表す情報、および発話区間Tsとそれに対応する参加者Usを表す情報を入力とし、発話区間終了前後における各参加者Ujの注視対象遷移パターンfjを生成して出力する。注視対象遷移パターンfjは、発話区間Tsの終了時点Tseに対応する時間区間における参加者Ujの注視対象の遷移を表す。本形態では、終了時点Tseを含む有限の時間区間における参加者Ujの注視対象の遷移を表す注視対象遷移パターンfjを例示する。この場合、例えば、発話区間Tsの終了時点Tseよりも前の時点Tse−Tbから終了時点Tseよりも後の時点Tse+Taまでの区間に出現した注視行動を扱う。Tb,Taは0以上の任意の値で良いが、目安として、Tbは0s〜2.0s、Taは0s〜3.0s程度にするのが適当である。
・ラベルS:話者(すなわち、話者である参加者Usを表す)
・ラベルLξ:非話者(ただし、ξは互いに異なる非話者である参加者を識別し、ξ=1,...,N−1である。たとえば、ある参加者が、非話者U2、非話者U3、の順に注視をしていたとき、非話者U2にL1というラベル、非話者U3にL2というラベルが割り当てられる。)
・ラベルX:誰も見ていない
注視対象遷移パターン生成部12は、各参加者Uj(ただし、j=1,...,N)に対し、上述した区間の中に含まれる注視対象のラベルの遷移n−gramを生成し、参加者Ujの注視対象遷移パターンfjとして出力する。
学習モデル情報記憶部132は、発話区間での注視対象の遷移を表すパターンと次の発話区間の話者との関係を表す学習モデルを格納している。本形態の学習モデルは確率モデルであり、注視対象遷移パターンfjが出現した際に発話継続/発話交替が行わる確率を表す第1確率モデル、および注視対象遷移パターンfjが出現した際に話者以外の各参加者Uiが次発話者となるかの確率を表す第2確率モデルを含む。これらは、事前に収録された会話から、注視対象遷移パターンと次話者との関係がどれくらいの確率で発生するかを統計的に算出することで得られたものである。以下に具体例を示す。
次発話者算出部131は、注視対象遷移パターン生成部12で得られた注視対象遷移パターンf1,...,fNを入力とし、注視対象遷移パターンf1,...,fNに学習モデル情報記憶部132に格納された学習モデルを適用し、次話者を推定するための情報(次話者推定情報)を得て、次話者を推定する。具体的には、(A)話者が交替するか(話者継続するか)否かを判定し、(B)話者交替であると判定された場合、次話者が誰であるかを判定する。
第2実施形態は、第1実施形態の変形例である。第2実施形態では、第1実施形態に加え、さらに発話終了前後の参加者の注視対象の遷移が次の発話が開始されるタイミングと相関があることを利用し、注視対象遷移パターンと所定の学習モデルとを用いて次の発話(次発話)の開始タイミングを高精度で推定する。
注視対象遷移パターン生成部22が第1実施形態の注視対象遷移パターン生成部12と相違する点は、注視対象遷移パターン生成部22が、注視対象遷移パターンfjに加え、さらに各参加者Ujの注視対象の遷移後の注視行動が開始された時点t2,jを出力する点である。例えば図3では、参加者U1の注視対象を表すラベルがL1からL2に遷移しており、遷移後のL2が表す視対象への注視行動が開始された時点t2,1が出力される。なお、時点Tse−Tbから時点Tse+Taまでの区間での注視対象の遷移がない場合には、時点t2,jは生成されない。。その他は注視対象遷移パターン生成部12と同じである。
学習モデル情報記憶部232は、第1実施形態で説明した学習モデルに加え、さらに、上述した第1〜3発話開始時点モデルを学習モデルとして格納している。ここで例示する第1〜3発話開始時点モデルは確率分布を表す確率密度関数である。すなわち、この例の第1発話開始時点モデルは、注視対象遷移パターンvに応じた、当該発話区間の終了時点t1を基点とした次の発話開始時点t−t1の確率分布を表す確率密度関数kv(t−t1)である。ただし、tは絶対時点を表す。この例の第2発話開始時点モデルは、注視対象遷移パターンvに応じた、遷移後の注視行動が開始された時点t2を基点とした発話開始時点t−t2の確率分布を表す確率密度関数gv(t−t2)である。なお、本形態の確率密度関数kv(t−t1)およびgv(t−t2)は、注視対象遷移パターンvごとに、参加者が話者であったか非話者であったかという2つの発話状態と、話者交替時か話者継続時かといった話者交替の2つの状態と、の組み合わせからなる4種類の状態のそれぞれに対して生成されたものである。すなわち、本形態では、注視対象遷移パターンvごとに4種類ずつの確率密度関数kv(t−t1)およびgv(t−t2)が生成され、それらが互いに区別される。例えば、話者交替時に、話者U1,非話者U2の注視対象遷移パターンf1,f2が共にL1−L2でも、この注視対象遷移パターンf1に応じたkf1(t−t1)と、この注視対象遷移パターンf2に応じたkf2(t−t1)とは、互いに区別される。同様に、この注視対象遷移パターンf1に応じたgf1(t−t2)と、この注視対象遷移パターンf2に応じたgf2(t−t2)とは、互いに区別される。また、話者交替時における参加者U1の注視対象遷移パターンf1と、話者継続時における参加者U1の注視対象遷移パターンf1とが共にL1−L2でも、これらの視対象遷移パターンf1に応じたkf1(t−t1)は区別される。同様に、これらの視対象遷移パターンf1に応じたgf1(t−t2)は区別される。また、この例の第3発話開始時点モデルは、発話区間の終了時点t1を基点とした次の発話開始時点t−t1の確率分布を表す確率密度関数h(t−t1)である。この確率密度関数h(t−t1)は、注視対象遷移パターンにかかわらず、すべてのt−t1についての確率分布を表すものである。これらの確率密度関数は、会話データから事前に集計され、生成されたものである。確率密度関数は、より実際の分布に近い各種関数(たとえば、ガンマ分布など)に近似されてもよい。
タイミング算出部233は、次発話者算出部131で話者交替であるか否かが判定された場合に、発話単位生成部11で得られた発話区間Tsの終了時点t1,s、次発話者算出部131で得られた次話者を表すラベルns、ならびに注視対象遷移パターン生成部22で得られた注視対象遷移パターンf1,...,fNおよび遷移後の注視行動が開始された時点t2,1,...,t2,Nを入力とし、それらを学習モデル情報記憶部232に格納された学習モデルに適用し、発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報を得、次の発話開始タイミングを推定する。すなわち、注視行動が発話のタイミングに影響を与えると考えられるため、タイミング算出部233は、入力された注視対象遷移パターンf1,...,fNに応じた発話区間の終了から次発話開始までの時間を統計的に集計し、それによって得られる確率分布を基に次の発話開始タイミングを推定する。以下にその処理を具体的に説明する。
第3実施形態は第2実施形態の変形例であり、第2実施形態との相違点は、第1発話開始時点モデルおよび第2発話開始時点モデルの少なくとも一方が、発話区間で非話者であって次の発話区間で話者となる者と、発話区間で非話者であって次の発話区間で非話者となる者と、を互いに異なる注視対象として扱ったモデル(詳細分類モデル)である点である。これにより、次の発話開始タイミングの推定精度がさらに向上する。なお、第1発話開始時点モデルまたは第2発話開始時点モデルの一方のみが詳細分類モデルであってもよいが、第1発話開始時点モデルおよび第2発話開始時点モデルの両方が詳細分類モデルであるほうが、次の発話開始タイミングの推定精度が高いため、好ましい。以下では一例として、学習モデルが第1発話開始時点モデルと第2発話開始時点モデルと第3発話開始時点モデルのすべてを含み、第1発話開始時点モデルおよび第2発話開始時点モデルの両方が詳細分類モデルである例を示す。以下では第2実施形態との相違点のみを説明する。
学習モデル情報記憶部332は、第1実施形態で説明した学習モデルに加え、さらに、第1〜3発話開始時点モデルを学習モデルとして格納している。ただし、第1発話開始時点モデルおよび第2発話開始時点モデルの両方が詳細分類モデルである点が第2実施形態と相違する。すなわち、この例の第1発話開始時点モデルも、注視対象遷移パターンvに応じた、当該発話区間の終了時点t1を基点とした次の発話開始時点t−t1の確率分布を表す確率密度関数kv(t−t1)である。また、この例の第2発話開始時点モデルも、注視対象遷移パターンvに応じた、遷移後の注視行動が開始された時点t2を基点とした話開始時点t−t2の確率分布を表す確率密度関数gv(t−t2)である。これらの確率密度関数も、会話データから事前に集計され、生成されたものである。ただし、本形態の注視対象遷移パターンvは、発話区間で非話者であって次の発話区間で話者となる者と、発話区間で非話者であって次の発話区間で非話者となる者と、を互いに異なる注視対象として扱ったものである。すなわち、以下のような注視対象を表すラベルの遷移n−gramを注視対象遷移パターンvとして生成されたものである。
・ラベルS:話者(すなわち、話者である参加者Usを表す)
・ラベルNS:次話者である非話者(すなわち、非話者のうち次話者となる参加者Unsを表す)
・ラベルNLι:次話者でない非話者(ただし、ιは次話者でない互いに異なる非話者を識別し、ι=1,...,N−1である。たとえば、ある参加者が、非話者U2、非話者U3、の順に注視をしており、非話者U2が次話者であるとき、非話者U2にNSというラベル、非話者U3にNL1というラベルが割り当てられる。)
・ラベルX:誰も見ていない
また、本形態の確率密度関数kv(t−t1)およびgv(t−t2)は、上記の注視対象遷移パターンvごとに、参加者が話者であったか非話者であったかという2つの発話状態のそれぞれに対して生成されたものである。すなわち、本形態では、注視対象遷移パターンvごとに2種類ずつの確率密度関数kv(t−t1)およびgv(t−t2)が生成され、それらが互いに区別される。例えば、話者U1,非話者U2の注視対象遷移パターンf1,f2が共にNL1−NL2でも、この注視対象遷移パターンf1に応じたkf1(t−t1)と、この注視対象遷移パターンf2に応じたkf2(t−t1)とは、互いに区別される。同様に、この注視対象遷移パターンf1に応じたgf1(t−t2)と、この注視対象遷移パターンf2に応じたgf2(t−t2)とは、互いに区別される。
タイミング算出部333は、次発話者算出部131で話者交替であると判定された場合に、発話単位生成部11で得られた発話区間Tsの終了時点t1,s、次発話者算出部131で得られた次話者を表すラベルns、参加者Ujおよび注視対象Gj(t)を表す情報、および発話区間Tsとそれに対応する参加者(話者)Usを表す情報、および注視対象遷移パターン生成部22で得られた遷移後の注視行動が開始された時点t2,1,...,t2,Nを入力とし、それらを学習モデル情報記憶部332に格納された学習モデルに適用し、発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報を得、次の発話開始タイミングを推定する。以下にその処理を具体的に説明する。
本発明は上述の実施の形態に限定されるものではない。例えば、発話単位生成部11が推定装置の外部に構成され、推定装置が発話単位生成部11を含まない構成であってもよい。
12,22 注視対象遷移パターン生成部
13,23,33 推定部
Claims (7)
- 発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを得る注視対象遷移パターン生成部と、
前記注視対象遷移パターンに所定の学習モデルを適用し、前記発話区間の次の発話区間の話者を推定するための次話者推定情報、および、前記発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報、の少なくとも一方を得る推定部と、
を有する推定装置。 - 請求項1の推定装置であって、
前記学習モデルは、前記注視対象の遷移を表すパターンと次の発話区間の話者との関係を表す次話者モデルを含む、推定装置。 - 請求項1または2の推定装置であって、
前記学習モデルは、
前記注視対象の遷移を表すパターンと、前記発話区間の終了時点を基点とした次の発話開始時点と、の関係を表す第1発話開始時点モデル、および、
前記注視対象の遷移を表すパターンと、遷移後の注視行動の開始時点を基点とした次の発話開始時点と、の関係を表す第2発話開始時点モデル、
の少なくとも一方を含む、推定装置。 - 請求項3の推定装置であって、
前記第1発話開始時点モデルおよび前記第2発話開始時点モデルの少なくとも一方は、前記発話区間で非話者であって次の発話区間で話者となる者と、前記発話区間で非話者であって次の発話区間で非話者となる者と、を互いに異なる前記注視対象として扱ったモデルである、推定装置。 - 請求項1から4の何れかの推定装置であって、
前記時間区間は、前記発話区間の終了時点を含む有限の時間区間である、推定装置。 - 注視対象遷移パターン生成部で、発話区間の終了時点に対応する時間区間におけるコミュニケーション参加者の注視対象の遷移を表す注視対象遷移パターンを得る注視対象遷移パターン生成ステップと、
推定部で、前記注視対象遷移パターンに所定の学習モデルを適用し、前記発話区間の次の発話区間の話者を推定するための次話者推定情報、および、前記発話区間の次の発話開始タイミングを推定するための発話開始タイミング推定情報、の少なくとも一方を得る推定ステップと、
を有する推定方法。 - 請求項1から5の何れかの推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013121552A JP5989603B2 (ja) | 2013-06-10 | 2013-06-10 | 推定装置、推定方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013121552A JP5989603B2 (ja) | 2013-06-10 | 2013-06-10 | 推定装置、推定方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014238525A true JP2014238525A (ja) | 2014-12-18 |
JP5989603B2 JP5989603B2 (ja) | 2016-09-07 |
Family
ID=52135706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013121552A Active JP5989603B2 (ja) | 2013-06-10 | 2013-06-10 | 推定装置、推定方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5989603B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017116747A (ja) * | 2015-12-24 | 2017-06-29 | 日本電信電話株式会社 | 音声処理システム、音声処理装置および音声処理プログラム |
JP2017116716A (ja) * | 2015-12-24 | 2017-06-29 | 日本電信電話株式会社 | コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム |
JP2017117161A (ja) * | 2015-12-24 | 2017-06-29 | 日本電信電話株式会社 | コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム |
JP2017118364A (ja) * | 2015-12-24 | 2017-06-29 | 日本電信電話株式会社 | コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム |
JP2017121680A (ja) * | 2016-01-06 | 2017-07-13 | 日本電信電話株式会社 | 発話制御システム、発話制御装置及び発話制御プログラム |
JP2018077791A (ja) * | 2016-11-11 | 2018-05-17 | 日本電信電話株式会社 | 推定方法及び推定システム |
WO2023084570A1 (ja) * | 2021-11-09 | 2023-05-19 | 日本電信電話株式会社 | 発話推定装置、発話推定方法及び発話推定プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352996A (ja) * | 1999-03-26 | 2000-12-19 | Canon Inc | 情報処理装置 |
JP2005122128A (ja) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
-
2013
- 2013-06-10 JP JP2013121552A patent/JP5989603B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352996A (ja) * | 1999-03-26 | 2000-12-19 | Canon Inc | 情報処理装置 |
JP2005122128A (ja) * | 2003-09-25 | 2005-05-12 | Fuji Photo Film Co Ltd | 音声認識システム及びプログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017116747A (ja) * | 2015-12-24 | 2017-06-29 | 日本電信電話株式会社 | 音声処理システム、音声処理装置および音声処理プログラム |
JP2017116716A (ja) * | 2015-12-24 | 2017-06-29 | 日本電信電話株式会社 | コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム |
JP2017117161A (ja) * | 2015-12-24 | 2017-06-29 | 日本電信電話株式会社 | コミュニケーションスキル評価システム、コミュニケーションスキル評価装置及びコミュニケーションスキル評価プログラム |
JP2017118364A (ja) * | 2015-12-24 | 2017-06-29 | 日本電信電話株式会社 | コミュニケーションシステム、コミュニケーション装置およびコミュニケーションプログラム |
JP2017121680A (ja) * | 2016-01-06 | 2017-07-13 | 日本電信電話株式会社 | 発話制御システム、発話制御装置及び発話制御プログラム |
JP2018077791A (ja) * | 2016-11-11 | 2018-05-17 | 日本電信電話株式会社 | 推定方法及び推定システム |
WO2023084570A1 (ja) * | 2021-11-09 | 2023-05-19 | 日本電信電話株式会社 | 発話推定装置、発話推定方法及び発話推定プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5989603B2 (ja) | 2016-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5989603B2 (ja) | 推定装置、推定方法、およびプログラム | |
Tao et al. | End-to-end audiovisual speech recognition system with multitask learning | |
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US9293133B2 (en) | Improving voice communication over a network | |
US20190237076A1 (en) | Augmentation of key phrase user recognition | |
US20190079724A1 (en) | Intercom-style communication using multiple computing devices | |
Hung et al. | Estimating dominance in multi-party meetings using speaker diarization | |
US20150058004A1 (en) | Augmented multi-tier classifier for multi-modal voice activity detection | |
Minotto et al. | Multimodal multi-channel on-line speaker diarization using sensor fusion through SVM | |
JPWO2011064938A1 (ja) | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム | |
KR20190129731A (ko) | 음성대화 시스템, 음성대화 방법 및 프로그램 | |
CN115376187A (zh) | 一种多人机交互场景下说话对象检测装置及方法 | |
JPWO2011007497A1 (ja) | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム | |
JP6629172B2 (ja) | 対話制御装置、その方法及びプログラム | |
JP2013257418A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP4775961B2 (ja) | 映像を用いた発音の推定方法 | |
Gebre et al. | Motion history images for online speaker/signer diarization | |
Tahir et al. | Real-time sociometrics from audio-visual features for two-person dialogs | |
JP2020067562A (ja) | ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 | |
JPWO2019093123A1 (ja) | 情報処理装置および電子機器 | |
JP6545950B2 (ja) | 推定装置、推定方法、およびプログラム | |
WO2019156079A1 (ja) | 推定装置、推定方法、およびプログラム | |
Hayamizu et al. | Group emotion estimation using Bayesian network based on facial expression and prosodic information | |
JP6415932B2 (ja) | 推定装置、推定方法、およびプログラム | |
JP2021072497A (ja) | 分析装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150619 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160531 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160714 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160810 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5989603 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |