JP6545950B2 - 推定装置、推定方法、およびプログラム - Google Patents
推定装置、推定方法、およびプログラム Download PDFInfo
- Publication number
- JP6545950B2 JP6545950B2 JP2014244994A JP2014244994A JP6545950B2 JP 6545950 B2 JP6545950 B2 JP 6545950B2 JP 2014244994 A JP2014244994 A JP 2014244994A JP 2014244994 A JP2014244994 A JP 2014244994A JP 6545950 B2 JP6545950 B2 JP 6545950B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- speech
- speaker
- head movement
- movement information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Description
<第一実施形態>
第一実施形態では、複数の参加者間で行われる会話を含むコミュニケーションにおいて、発話終了前後の参加者の頭部動作と次発話者および次発話開始タイミングとに強い相関があることを利用する。本実施形態で取り扱う頭部動作は、頭部の前後,左右,上下の3自由度の位置の変化、および3自由度の回転角度の変化の計6自由度の情報の少なくとも1つに基づき得られる。6自由度の情報は、例えば、頭部計測装置(ヘッドトラッカ)で計測され、図1のような座標系で、3次元位置(X,Y,Z)と3自由度の回転角度(azimuth,elevation,roll)の6自由度の位置および回転情報として定義され、それぞれの座標値で位置と回転角度が表される。
図2は本形態のシステムの機能ブロック図を、図3はその処理フローの例を示す。図2に例示するように、本形態のシステムは、推定装置100、N個の頭部状態検出装置101−1〜N、および音声情報取得装置102−1〜Nを有し、推定装置100は、発話単位生成部103、頭部動作情報生成部104、および推定部110を有する。推定部110は、次発話者算出部106、発話開始タイミング算出部107および次発話者およびタイミング情報保存データベース105を有する。Nは2以上の整数であり、コミュニケーションの参加者U1〜UNの人数を表す。頭部状態検出装置101−jおよび音声情報取得装置102−jは、各参加者Uj(ただし、j=1,…,N)の頭部状態の検出および音声情報の取得を行う。対面コミュニケーション環境下で本システムを利用する場合、頭部状態検出装置101−1〜Nおよび音声情報取得装置102−1〜Nは、参加者U1〜UNが対面コミュニケーションを行う場所に配置され、それらで得られた情報が推定装置100に直接送られる。遠隔コミュニケーション環境下で本システムを利用する場合、各頭部状態検出装置101−jおよび音声情報取得装置102−jは、各参加者Ujが存在する各拠点に配置され、それらで得られた情報がネットワーク経由で推定装置100に送信される。対面コミュニケーションおよび遠隔コミュニケーションの両方が行われる環境下で本システムを利用する場合、各参加者Ujが存在する場所に頭部状態検出装置101−jおよび音声情報取得装置102−jが配置され、それらで得られた情報がネットワーク経由または直接に推定装置100に送られる。
頭部状態検出装置101−jは、各参加者Ujの頭部状態Gj(t)を検出し(s101)、参加者Ujおよび頭部状態Gj(t)を表す情報を推定部110に送る。ただし、tは離散時間を表す。頭部状態とは、例えば、3自由度の頭部位置、3自由度の回転角度のうち、少なくとも一つにより表される状態である。例えば、公知の頭部計測装置(ヘッドトラッカ)などを利用して頭部状態を取得する。頭部計測装置(ヘッドトラッカ)には、磁気センサを利用したもの、光学マーカーを頭部に装着し、その位置をカメラで捉えるもの、画像処理による顔検出処理を用いるものなどさまざま方法が広く利用されている。これら、どのような手法を用いても良い。ここで取得される、頭部状態は、頭部の前後,左右,上下の3自由度の位置,および3自由度の回転角度の計6自由度の情報である。例えば、頭部状態は、図1のような座標系で、3次元位置(X,Y,Z)と3自由度の回転角度(azimuth, elevation, roll)の6自由度の頭部位置・回転角度として定義され、それぞれの座標値で頭部位置と回転角度が表される。以降、本説明では、図1の座標系での頭部位置・回転角度を頭部状態として取得することを前提に説明する。
音声情報取得装置102−s(ただし、s=1,...,N)は、参加者Usの音声情報を取得し(s102)、取得した音声情報Xs(t)を表す情報を推定装置100に送る装置である。例えば、音声情報取得装置102−sは、マイクロホンを使用して参加者Usの音声情報Xs(t)を取得する。
発話単位生成部103は、音声情報Xs(t)を入力とし、音声情報Xsから雑音成分を除去して発話成分のみを抽出し、それから発話区間Tsを得て(s103)、出力する。なお、本実施形態では、発話区間Tsを発話開始時刻と発話終了時刻を表す情報とする。抽出された発話区間Tsに対して誰が発話者であるかを示す話者情報を取得し、発話区間Tsと合わせて出力する。なお、本実施形態ではN人の参加者Usにそれぞれ1個の音声情報取得装置102−sを割り当てているが、N人の参加者Usに対してM(≠N)個の音声情報取得装置を割り当ててもよい。例えば、M個の音声情報取得装置で取得した音声情報に参加者Us全員分(つまりN人分)の音声が含まれている場合には、音声情報取得装置ごとに集音される音声の時間差、音の大きさや、音声的特徴などを使って、各参加者Usの音声を抽出する。他にも一般的に考えられるあらゆる手段を用いてよい。本形態では、1つの発話区間Tsを、Td[ms]連続した無音区間で囲まれた、発話成分が存在する区間を含む時間区間と定義する。すなわち、本形態の1つの発話区間Tsは、2つのTd[ms]連続した無音区間に囲まれた発話成分が存在する区間からなる時間区間である。たとえば、Tdを200msとしたとき、参加者Usが、500msの無音,200msの発話、50msの無音、150msの発話、150msの無音、400msの発話、250msの無音、の連続した発話データがあったとき、500msの無音区間と250msの無音区間の間に挟まれた950msの発話区間が一つ生成される。本形態の1つの発話区間Tsは、Td[ms]連続した2つの無音区間の間に、発話成分が存在する区間で囲まれた別のTd[ms]連続した無音区間を含まない。本形態では、この発話区間Tsを参加者Usの発話の一つの単位と規定し、ある発話区間Tsの終了時に、(1)次にどの参加者が発話をするか、(2)発話開始がいつになるのかを判定する。なお、Tdは、状況に応じて自由に決定できる。ただし、Tdを長くすると、実際の発話終了から発話区間終了を判定するまでの時間が長くなるため、一般的な日常会話であればTd=200〜500ms程度とするのが適当である。発話単位生成部103は、以上のように得た発話区間Tsとそれに対応する話者情報(誰が発話したかを表す情報)を頭部動作情報生成部104に出力する。上述の方法により、発話区間Tsを求めるので、発話区間Tsは対応する発話が終了した後(少なくとも最後に発話成分を抽出してからTd[ms]連続した無音区間の経過後)に生成される。
頭部動作情報生成部104は、参加者Ujおよび頭部状態Gj(t)を表す情報、および発話区間Tsとその話者情報とを入力とし、発話区間終了前後における各参加者Ujの頭部動作を表す頭部動作情報fjを生成して(s104)、出力する。頭部動作情報fjは、発話区間Tsの終了時刻Tseに対応する時間区間における参加者Ujの頭部の動作を表す。本形態では、終了時刻Tseを含む有限の時間区間における参加者Ujの頭部動作情報fjを例示する(図4参照)。例えば、頭部動作情報生成部104は、入力された参加者Ujおよび頭部状態Gj(t)を表す情報の中から、発話区間Tsの終了前後における現発話者、非話者の6自由度の頭部位置(X,Y,Z)、回転角度(azimuth, elevation, roll)を含む頭部状態を抽出し、各々の座標値・回転角度の変化量、振幅、周波数を生成する(図4参照)。
・AC(平均変化量):頭部位置または回転角度の任意の単位時間当たりの変化量の平均。例えば、1秒間の変化量の平均。
・AM(平均振幅):頭部位置または回転角度の変化を波の振動とみなしたときの波の振幅の平均。
・FQ(平均周波数):頭部位置または回転角度の変化を波の振動とみなしたときの波の周波数の平均。
次発話者およびタイミング情報保存データベース105は、頭部動作情報生成部104で取得された情報が保持されるデータベースであり、少なくとも、頭部動作情報、およびその頭部動作情報に対する、次の発話区間(発話の開始時刻を発話開始タイミング情報ともいう)とその話者情報(次発話者を表す情報)が保持されている。これらの情報は、次発話者算出部106、発話開始タイミング算出部107において予測モデルを構築する際の学習データや判別パラメータを設定する際に利用される。なお事前に、過去の会話データから同様の情報(頭部動作情報、次発話者および発話開始タイミング情報)を保持しておくことで、より多くのデータを次発話者算出部106、発話開始タイミング算出部107の処理に利用することができる。
次発話者算出部106は、次発話者およびタイミング情報保存データベース105から送られる、過去の各発話の話者情報とその各発話に対する全参加者の頭部動作情報とその各発話の次の発話の発話者(つまり、次発話者)と、頭部動作情報生成部104から送られる現在の発話区間Tsの話者情報と全員分の頭部動作情報とを用いて、次発話者を算出し(S106)、出力する。
例えば、XとZにおけるACは、話者交替時の非話者に比べて、次発話者の方が大きい傾向にある。このような傾向を利用して、任意の閾値α、βを用いて、XにおけるAC>α、かつ/または、ZにおけるAC>βが成り立つときに、上記条件を満たす頭部動作情報に対応する参加者が次発話者になると判定する。なお、次発話者およびタイミング情報保存データベース105から送られる、過去の各発話の話者情報とその各発話に対する全参加者の頭部動作情報とその各発話の次の発話の発話者(つまり、次発話者)は、閾値を決める際に用いる。
まず、次発話者の予測モデル構築のための学習データとして、以下の特徴量を用いて学習を行う。
・誰が話者か(話者情報)
・次発話をおこなった参加者
・全参加者の頭部動作の各座標位置と回転角度についてのAC、AM、FQの内少なくとも一つ以上(全てを用いてもちろん良い)
また、予測対象は、
・次発話をおこなった参加者
である。学習データは、次発話者およびタイミング情報保存データベース105から取得されるデータである。学習は、使用する際に最初に一度だけ行っても良いし、次発話者およびタイミング情報保存データベース105でデータがオンラインで増加するに応じて、毎回、または、所定の回数、データを受け取る度に行ってもよい。
・誰が話者か(現在の話者情報)
・全参加者の頭部動作の各座標位置と回転角度についてのAC、AM、FQの内少なくとも一つ以上(全てを用いてもちろん良い、予測モデルを構築する際に用いたものを用いるのが望ましい)
発話開始タイミング算出部107では、次発話者およびタイミング情報保存データベース105から送られる、過去の各発話の話者情報とその各発話に対する全参加者の頭部動作情報とその各発話の次の発話の発話開始時刻(つまり、発話開始タイミング情報)と、頭部動作情報生成部104から送られる現在の発話区間Tsの示す発話終了時刻と、発話区間Tsの話者情報と全員分の頭部動作情報fjとを用いて、現在の発話に対する次の発話の開始時刻(発話開始タイミング情報)を算出し(S107)、出力する。このとき,次発話者算出部106から出力される予測結果である次発話者が誰であるかという情報(次発話者の推定値)を開始時刻の算出に用いても良い。以後、説明では、この情報も利用することを前提とする。
例えば、XにおけるACと、発話の終了時刻Tseから次発話の開始時刻Tss'までの間隔Tss'-Tseとの間に所定の関係がある場合、閾値を複数個設け、α1≦AC<α2であれば間隔Tss'-Tse=a1とし、α2≦AC<α3であれば間隔Tss'-Tse=a2とし、α3≦AC<α4であれば間隔Tss'-Tse=a3とする。例えば、間隔Tss'-TseとACとが正の比例関係を持つのであれば、a1<a2<a3とする。このようにして、頭部動作情報と閾値との大小関係に基づき、発話区間の次の発話開始タイミングを決定する。なお、次発話者およびタイミング情報保存データベース105から送られる、過去の各発話の話者情報とその各発話に対する全参加者の頭部動作情報とその各発話の次の発話の開始時刻(つまり、発話開始タイミング情報)とは、閾値を決める際に用いる。
例えば、参加者を現発話者、次発話者、非発話者、全参加者に分類して,各々におけるACの値に対して、発話の終了時刻Tseから次発話の開始時刻Tss'までの間隔Tss'-Tseの過去の情報を用いて、Tss'-Tse=f(AC)の関係を定式化しておく。たとえば、時間間隔間隔Tss'-TseとACとが正の比例関係を持つのであれば、Tss'-Tse= γ*AC(γは任意の値)で算出することも考えらる。これに、限らずACと間隔Tss'-Tseの関係を表すあらゆる近似式が利用できる。現在の発話に対する各頭部動作情報のACから、関係式Tss'-Tse=f(AC)により、発話の終了時刻から次発話の開始時刻までの間隔を求め、現在の発話の終了時刻に求めた間隔を加えることで、次発話の開始時刻(発話開始タイミング情報)を算出する。なお、次発話者およびタイミング情報保存データベース105から送られる、過去の各発話の話者情報とその各発話に対する全参加者の頭部動作情報とその各発話の次の発話の開始時刻(つまり、発話開始タイミング情報)とは、関係式を求める際に用いる。
まず、次発話者の発話開始タイミングの予測モデル構築のための学習データとして、以下の特徴量を用いて学習を行う。
・誰が話者か(話者情報)
・次発話をおこなった参加者
・全参加者の頭部動作の各座標位置と回転角度についてのAC、AM、FQの内少なくとも一つ以上(全てを用いてもちろん良い)
また、予測対象は、
・現在の発話の終了時刻Tseから次発話の開始時刻Tss'までの間隔Tss'-Tse
である。学習データは、次発話者およびタイミング情報保存データベース105から取得されるデータである。学習は、使用する際に最初に一度だけ行っても良いし、次発話者およびタイミング情報保存データベース105でデータがオンラインで増加するに応じて、毎回、または、所定の回数、データを受け取る度に行ってもよい。
・誰が話者か(現在の話者情報)
・次発話者算出部106で出力される次発話をおこなう参加者(次発話者)
・全参加者の頭部動作の各座標位置と回転角度についてのAC、AM、FQの内少なくとも一つ以上(全てを用いてもちろん良い、予測モデルを構築する際に用いたものを用いるのが望ましい)
このような構成により、複数の参加者間で行われるコミュニケーションにおいて、次に話し始める参加者およびタイミングの少なくとも一方を推定することができる。高精度に次発話者および次発話開始のタイミングをリアルタイムで予測推定可能となる。この次発話者と次発話の開始タイミングの推定は様々なシーンで利用可能であり、たとえば、遅延のある遠隔コミュニケーションシステムにおいて、予測結果を基に参加者に次発話者を提示することで発話回避をさせることや、コミュニケーションロボットが参加者の発話開始を予測しながらタイミングよく発話をするための基盤的な技術となる。
本実施形態では、平均変化量AC、平均振幅AM、平均周波数FQを用いているが、必ずしも平均値を用いる必要はない。頭部動作と次発話者および発話開始タイミングとに強い相関があることを利用すればよいため、例えば、例えば、変化量、振幅、周波数の最小値、最大値、最頻値等の代表値を用いてもよい。
Claims (8)
- 発話区間の終了時刻に対応する時間区間におけるコミュニケーション参加者の頭部動作を表す頭部動作情報を得る頭部動作情報生成部と、
前記頭部動作情報に基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定する推定部と、
を有し、
前記推定部は、全参加者の頭部位置、回転角度を含む頭部状態から生成される各々の座標値・回転角度の(1)変化を波と捉えた時の振幅、(2)変化を波と捉えた時の周波数の少なくとも何れかから得られる頭部動作情報に基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定する、
推定装置。 - 発話区間の終了時刻に対応する時間区間におけるコミュニケーション参加者の頭部動作を表す頭部動作情報を得る頭部動作情報生成部と、
前記頭部動作情報に基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定する推定部と、を有し、
前記推定部は、全参加者の頭部位置、回転角度を含む頭部状態から生成される各々の座標値・回転角度の(1)変化量、(2)変化を波と捉えた時の振幅、(3)変化を波と捉えた時の周波数の少なくとも何れかから得られる頭部動作情報に基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定し、
前記推定部は、(1)過去の各発話の話者情報と、(2)その各発話の次の発話の発話者、または、その各発話の次の発話の開始時刻と、(3)その各発話に対する全参加者の頭部動作情報とを特徴量とし、その各発話の次の発話の発話者、または、その各発話の次の発話の開始時刻の少なくとも一方を予測対象として機械学習により事前に学習した予測モデルに基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定する、
推定装置。 - 発話区間の終了時刻に対応する時間区間におけるコミュニケーション参加者の頭部動作を表す頭部動作情報を得る頭部動作情報生成部と、
前記頭部動作情報に基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定する推定部と、を有し、
前記推定部は、全参加者の頭部位置、回転角度を含む頭部状態から生成される各々の座標値・回転角度の(1)変化量、(2)変化を波と捉えた時の振幅、(3)変化を波と捉えた時の周波数の少なくとも何れかから得られる頭部動作情報に基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定し、
前記推定部は、(1)過去の各発話の話者情報と、(2)その各発話の次の発話の発話者、または、その各発話の次の発話の開始時刻と、(3)その各発話に対する全参加者の頭部動作情報とを特徴量とし、その各発話の次の発話の発話者、または、その各発話の次の発話の開始時刻の少なくとも一方を予測対象として機械学習により事前に学習した予測モデルに基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定し、
前記推定部は、前記頭部動作情報生成部が逐次得た頭部動作情報の一部または全てを用いて、前記予測モデルを更新する、
推定装置。 - 請求項1の推定装置であって、
前記推定部は、前記頭部動作情報と閾値との大小関係に基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定する、
推定装置。 - 発話区間の終了時刻に対応する時間区間におけるコミュニケーション参加者の頭部動作を表す頭部動作情報を得る頭部動作情報生成ステップと、
前記頭部動作情報に基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定する推定ステップと、
を有し、
前記推定ステップは、全参加者の頭部位置、回転角度を含む頭部状態から生成される各々の座標値・回転角度の(1)変化を波と捉えた時の振幅、(2)変化を波と捉えた時の周波数の少なくとも何れかから得られる頭部動作情報に基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定する、
推定方法。 - 発話区間の終了時刻に対応する時間区間におけるコミュニケーション参加者の頭部動作を表す頭部動作情報を得る頭部動作情報生成ステップと、
前記頭部動作情報に基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定する推定ステップと、を有し、
前記推定ステップは、全参加者の頭部位置、回転角度を含む頭部状態から生成される各々の座標値・回転角度の(1)変化量、(2)変化を波と捉えた時の振幅、(3)変化を波と捉えた時の周波数の少なくとも何れかから得られる頭部動作情報に基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定し、
前記推定ステップは、(1)過去の各発話の話者情報と、(2)その各発話の次の発話の発話者、または、その各発話の次の発話の開始時刻と、(3)その各発話に対する全参加者の頭部動作情報とを特徴量とし、その各発話の次の発話の発話者、または、その各発話の次の発話の開始時刻の少なくとも一方を予測対象として機械学習により事前に学習した予測モデルに基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定する、
推定方法。 - 発話区間の終了時刻に対応する時間区間におけるコミュニケーション参加者の頭部動作を表す頭部動作情報を得る頭部動作情報生成ステップと、
前記頭部動作情報に基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定する推定ステップと、を有し、
前記推定ステップは、全参加者の頭部位置、回転角度を含む頭部状態から生成される各々の座標値・回転角度の(1)変化量、(2)変化を波と捉えた時の振幅、(3)変化を波と捉えた時の周波数の少なくとも何れかから得られる頭部動作情報に基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定し、
前記推定ステップは、(1)過去の各発話の話者情報と、(2)その各発話の次の発話の発話者、または、その各発話の次の発話の開始時刻と、(3)その各発話に対する全参加者の頭部動作情報とを特徴量とし、その各発話の次の発話の発話者、または、その各発話の次の発話の開始時刻の少なくとも一方を予測対象として機械学習により事前に学習した予測モデルに基づき、前記発話区間の次の発話区間の話者、または、前記発話区間の次の発話開始タイミングの少なくとも一方を推定し、
前記推定ステップは、前記頭部動作情報生成部が逐次得た頭部動作情報の一部または全てを用いて、前記予測モデルを更新する、
推定方法。 - 請求項1から請求項4の何れかの推定装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014244994A JP6545950B2 (ja) | 2014-12-03 | 2014-12-03 | 推定装置、推定方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014244994A JP6545950B2 (ja) | 2014-12-03 | 2014-12-03 | 推定装置、推定方法、およびプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019114348A Division JP2019208215A (ja) | 2019-06-20 | 2019-06-20 | 推定装置、推定方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016111426A JP2016111426A (ja) | 2016-06-20 |
JP6545950B2 true JP6545950B2 (ja) | 2019-07-17 |
Family
ID=56124676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014244994A Active JP6545950B2 (ja) | 2014-12-03 | 2014-12-03 | 推定装置、推定方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6545950B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6775387B2 (ja) * | 2016-11-11 | 2020-10-28 | 日本電信電話株式会社 | 推定方法及び推定システム |
JP2019139387A (ja) * | 2018-02-07 | 2019-08-22 | 日本電信電話株式会社 | 推定装置、推定方法、およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6894714B2 (en) * | 2000-12-05 | 2005-05-17 | Koninklijke Philips Electronics N.V. | Method and apparatus for predicting events in video conferencing and other applications |
JP4804801B2 (ja) * | 2005-06-03 | 2011-11-02 | 日本電信電話株式会社 | 会話構造推定方法、プログラム、および記録媒体 |
JP2007147762A (ja) * | 2005-11-24 | 2007-06-14 | Fuji Xerox Co Ltd | 発話者予測装置および発話者予測方法 |
JP5143114B2 (ja) * | 2009-12-02 | 2013-02-13 | 日本電信電話株式会社 | 発話の予備動作検出及び伝達方法及び装置及びプログラム |
-
2014
- 2014-12-03 JP JP2014244994A patent/JP6545950B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016111426A (ja) | 2016-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6761598B2 (ja) | 感情推定システム、感情推定モデル生成システム | |
JP5608678B2 (ja) | パーティクルフィルタリングを利用した音源位置の推定 | |
JP5724125B2 (ja) | 音源定位装置 | |
Alexandridis et al. | Multiple sound source location estimation in wireless acoustic sensor networks using DOA estimates: The data-association problem | |
Dorfan et al. | Tree-based recursive expectation-maximization algorithm for localization of acoustic sources | |
CN110875060A (zh) | 语音信号处理方法、装置、系统、设备和存储介质 | |
JP6413741B2 (ja) | 振動発生源推定装置、方法およびプログラム | |
JPWO2018047804A1 (ja) | 異常検出装置、異常検出方法、及び記録媒体 | |
JP4804801B2 (ja) | 会話構造推定方法、プログラム、および記録媒体 | |
JP5989603B2 (ja) | 推定装置、推定方法、およびプログラム | |
US20180188104A1 (en) | Signal detection device, signal detection method, and recording medium | |
CN107393549A (zh) | 时延估计方法及装置 | |
JP6545950B2 (ja) | 推定装置、推定方法、およびプログラム | |
JP2018077791A (ja) | 推定方法及び推定システム | |
WO2019156079A1 (ja) | 推定装置、推定方法、およびプログラム | |
JP2017049364A (ja) | 発話状態判定装置、発話状態判定方法、及び判定プログラム | |
Blauth et al. | Voice activity detection and speaker localization using audiovisual cues | |
JP2022550785A (ja) | 視覚物体追跡方法、視覚物体追跡システム、学習方法、及び学習システム | |
WO2023084715A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2019208215A (ja) | 推定装置、推定方法、およびプログラム | |
JP2012113442A (ja) | 会議分析システム及び会議分析方法並びにそのプログラム | |
Jing et al. | Acoustic source tracking based on adaptive distributed particle filter in distributed microphone networks | |
Talantzis et al. | Audio-visual person tracking: a practical approach | |
JP7084887B2 (ja) | 広告成果評価方法、装置およびプログラム | |
JP2016042345A (ja) | 推定装置、その方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180313 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181030 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20181226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190620 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6545950 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |