JP5215826B2 - 複数信号区間推定装置とその方法とプログラム - Google Patents
複数信号区間推定装置とその方法とプログラム Download PDFInfo
- Publication number
- JP5215826B2 JP5215826B2 JP2008303615A JP2008303615A JP5215826B2 JP 5215826 B2 JP5215826 B2 JP 5215826B2 JP 2008303615 A JP2008303615 A JP 2008303615A JP 2008303615 A JP2008303615 A JP 2008303615A JP 5215826 B2 JP5215826 B2 JP 5215826B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- probability
- region
- speaker
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Description
Tranter,S.E.and Reynolds,D.A.,"An overview of automatic speaker diarization systems,"IEEE Trans.on Audio,Speech,and Language Processing,vol.14,pp.1557-1565,2006. Araki,S.,Fujimoto,M.,Ishizuka,K.,Sawada,H.,and Makino,S."A DOA based speaker diarization system for real meetings,"Proceedings of the 5th Joint Workshop on Hands-free Speech Communication and Microphone Arrays,pp.29-32,2008.
この発明の複数信号区間推定装置は、複数のマイクロホンと1台以上のカメラを備えたセンサ部を中心とした平面空間をR個の離散的な領域に分割し、各領域r=1,2,…,Rにおいて、談話参加者の有無を2値で表すqr(qr=0ならば領域rには談話参加者が不在、qr=1ならば領域rに談話参加者が存在)と発話の有無を2値で表すar(ar=0ならば領域rでは発話が無く、ar=1ならば領域rで発話が有る)を導入する。また、領域rから得られる音響信号の周波数スペクトルXr、領域rから得られる音響信号の空間パワー分布をDr、及び領域rから得られる観測映像信号をVrとし、それらの観測が得られたときにqr=1かつar=1となる条件付確率p(ar=1,qr=1|Xr,Dr,Vr)を求め、これを閾値処理することにより、センサ部から見てどの方向にいつ発話があったかを推定する。なお、センサ部から見てどの方向にいつ発話があったかを推定するための閾値処理を行う際に利用する閾値や、センサ部を中心とした平面空間をR個に分割するためのRの値については予め定めておき、例えば複数信号区間推定装置内の記憶部(図1には不記載)に予め記録しておくこととしても良い。
このようにこの発明によれば、映像信号Vrから求めた談話参加者の存在確率p(qr=1|Vr)を、音響信号から求めた音声の存在確率p(ar=1|Xr)と発話者の存在確率p(ar=1,qr=1|Dr)とを統合して発話した確率を算出するので、談話参加者が発話のない状況で移動した場合であっても談話参加者の位置を追跡することが可能になる。また、3つの確率値を統合する(複数個の確率値を算出する際、1つの確率値を算出する毎に算出した確率値に対して閾値処理等の判断処理を行うのではなく、3つの確率値をすべて算出して算出した確率値全てを利用する)ので、1つの確率値の信頼度が低い場合でもその信頼度の低さがボトルネックになることがない。
同じ参照符号を付し、説明は繰り返さない。
ローを示す。複数信号区間推定装置100は、センサ部3と、音声信号区間推定部4と、
発話者方向推定部5と、顔位置検出部6と、情報統合部7とを具備する。センサ部3を除
く各部は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラ
ムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
号を出力する(ステップS3、図2)。音響信号は、例えば同一の水平面上に配置された3本のマイクロホンで収音された音を16kHzでサンプリングしたディジタル信号である。映像信号は、例えばセンサ部3を中心とした空間の全方位を撮影できるように配置された1台以上のカメラで撮影された30フレーム/秒のディジタル信号である。
2msの時間長の信号を窓関数を乗じることで1フレームとして切り出される。例えば式
(7)に示すハニング窓w(n)を乗じて切り出す。
例えば512点である。このフレームとして切り出された観測信号に対し、離散フーリエ
変換を行い、時間領域の信号波形から周波数領域の周波数スペクトルに変換する。i番目
のフレームの観測信号をxi(n)とすると、その周波数スペクトルXi(k)は式(8)で求められる。
図3に音声信号区間推定部4の機能構成例を示す。音声信号区間推定部4は、事前・事後SN比算出手段40と、尤度比Λ算出手段41と、音声存在確率算出手段42を備える。事前・事後SN比算出手段40は、周波数スペクトルXi(k)を用いて、カルマンフィルタ等を利用することによって雑音信号のフレームiにおけるパワーλi N(k)を推定し、これを元に式(9)に示す事後信号対雑音比(事後SN比)γi(k)と式(10)に示す事前信号対雑音比(事前SN比)ξi(k)を求める。
ある。これらの尤度の比を取ることで、尤度比Λi(k)が計算される(式(13))。
とが出来ないため、事前SN比ξi(k)を上記の手段で求めている。尤度比Λ算出手段41は、このようにして得られた尤度比Λi(k)を例えば全周波数kに対して平均した値を尤度比Λiとして出力する(式(15))。
図4に発話者方向推定部5の機能構成例を示す。発話者方向推定部5は、信号到来方向
算出手段50と、分類手段51と、発話者存在確率算出手段52を備える。信号到来方向
算出手段50は、周波数スペクトルXi(k)を入力として、各周波数ビン(k)において信号到来方向を算出する。まず、式(17)に示す音響信号の到達時間差τi m(k)と式(18)に示す到達時間差ベクトルτi(k)→を求める。(変数名の表記は式中の表記が正しい。)
(k)と仰角φi(k)で出力する。以後、簡単のために方位角のみを信号到来方向として用いる。
て与え、例えば15度を用いる。なお、このThresholdも予め定めて複数信号区間推定装
置100内の記録部に記録しておき、分類手段が記録部から読み出すこととしても良い。
なお、各クラスタは、後述するように音声の存在確率が高いフレームにおいて推定された
空間パワー分布に基づいて生成することも可能である。
存在確率p(ar=1,qr=1|Dr)を式(21)で算出する。
す。Cnはn番目の話者が存在するクラスタを表す。例えば、n番目の話者が領域r1〜
r2に存在する場合、領域r1〜r2がCnとなる。
図5に顔位置検出部6の機能構成例を示す。顔位置検出部6は、顔位置検出・追跡手段
60と談話参加者存在確率算出手段61を備え、映像信号を入力として談話参加者の存在
確率p(qr=1|Vr)を推定する。
位をカバーした映像信号を入力として談話参加者の顔の重心の方向θnを出力する。談話
参加者の顔の重心方向は、例えば参考文献「Mateo Lozano, O. and Otsuka, k,“Simultaneous and fast 3D tracking of multiple faces in video sequences by using a particle filter”J.Signal Processing Systems,DOI 10.1007/s11265-008-0250-2,in press」に記載されたテンプレートマッチングとパーティクルフィルタを用いた顔検出・追跡方法を用いることで求めることが可能である。
情報統合部7は、音声信号区間推定部4で推定した音声の存在確率と、発話者方向推定
部5で推定した発話者の存在確率と、顔位置検出部6が推定した談話参加者の存在確率を
入力とし、各確率値を統合することで特定領域において談話参加者が発話した確率p(a
r=1,qr=1|Xr,Dr,Vr)を算出する。
号区間推定装置160は、実施例1の発話者方向推定部5と音声信号区間推定部4の動作
を変更したものである。
を複数の領域に分割し、各領域における音響信号の空間パワー分布を算出して各領域にお
ける発話者の存在確率を推定する。発話者方向推定部60は、まず、信号到来方向算出手
段50が出力する方位角θi(k)を用いて、一定範囲から到来する信号のみを抽出するため式(26)に示す時間周波数マスクMaski(k,r)を生成する。
方向の一定範囲を表すインデックスである(r=1…R)。一定範囲の信号を抜き出すた
めには、aに例えば0を用い、bには例えば1を用いる。
音声の存在確率を推定する。実施例2の情報統合部7は、空間パワー分布を用いて談話参
加者が発話した確率p(ar=1,qr=1|Xr,Dr,Vr)を求める。
るか否かを判定させる目的信号有無判別部8を設けるようにしても良い。目的信号有無判
別部8は、発話の有無を判定する発話閾値Tを持ち、談話参加者が発話した確率p(ar
=1,qr=1|Xr,Dr,Vr)が発話閾値Tを超えていれば、談話参加者が領域rで発話しているとして“1”を出力し、超えていなければ発話が無いとして“0”を出力する。このような目的信号有無判別部8を設けた方が、複数信号区間推定装置としてより使い易いものにすることが出来る。なお、発話閾値Tは固定値でも良いし、時間と共に変化する値にしても良い。
この発明の効果を確認する目的で、3本のマイクロホンと2台のカメラを用いて観測し
た音響信号と映像信号を、この発明の複数信号区間推定装置100で分析する評価実験を
行った。実験条件を説明する。図7に音響信号と映像信号の収録環境を示す。残響時間が
約350msの会議室内で円卓70を囲んで談話する4名音響信号と映像信号を収録した。円卓70の中央に3本の全指向性マイクロホン1a,1b,1cを例えば1辺が4cmの正三角形の頂点にそれぞれ配置し、その正三角形を中心として魚眼レンズを装備した2台のカメラ2a,2bを、全方位がカバー出来るように配置した。
Thresholdは15度とした。評価尺度としては話者決定不正解率(DER:Diarization
Error Rate)を用いた。DERは、誤検出時間(FST:False-alarm Speech Time)、誤棄却時間(MST:Missed Speech Time)、話者誤り時間(SET:Speaker Error Time)の3種の誤り時間を合計し、それを総発話時間で除算する式(28)で求めた。
(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R
(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
Claims (9)
- 同一の水平面上に配置された複数のマイクロホンと1台以上のカメラを備えるセンサ部と、
上記マイクロホンからの音響信号を周波数分析して得られる周波数ビン毎のスペクトルを用いて雑音信号のパワーを推定し、当該雑音信号のパワーから当該周波数ビン毎のスペクトルが目的信号を含まない尤度と雑音信号中に目的信号を含む尤度との比である尤度比を求め、当該尤度比から求めた当該周波数ビン毎のスペクトルにおける音声の存在確率を、上記水平面の全領域における音声の存在確率とする音声信号区間推定部と、
上記周波数ビン毎のスペクトルについて、上記複数のマイクロホン中の予め定めた基準マイクロホンで観測された音響信号に対応するスペクトルと上記基準マイクロホン以外の上記複数のマイクロホンの各々で観測された音響信号に対応するスペクトルとの位相差および上記複数のマイクロホンの配置情報を用いて、上記基準マイクロホンから見た上記周波数ビンに対応する音響信号の到来方向を求める信号到来方向算出部と、
上記水平面の全領域を上記基準マイクロホンを中心とする複数の領域に分割したときの各領域rについて、上記周波数ビンに対応する音響信号の到来方向を用いて当該領域rから到来する音響信号のパワーを推定し、推定した各領域rから到来する音響信号のパワーに基づいて上記複数の領域rを予め定めた数のクラスタに分類し、上記各領域rにおける発話者の存在確率を、当該領域rを含むクラスタのうち、上記基準マイクロホンから見た当該話者を表すクラスタの重心の方向と、上記基準マイクロホンから見た上記周波数ビンに対応する音響信号の到来方向との差が所定の閾値より小さくなるような上記周波数ビンの数に比例する値を、上記各領域rにおける発話者の存在確率として推定する発話者方向推定部と、
上記カメラからの映像信号を入力として、上記基準マイクロホンから見た談話参加者の顔の方向角θn V (τ)を求め、引数を上記基準マイクロホンから見た領域rの方向角とするガウス分布関数の平均に上記顔の方向角θn V (τ)を代入した値を、上記各領域rにおける上記談話参加者の存在確率として推定する顔位置検出部と、
上記水平面の全領域における音声の存在確率と上記各領域rにおける発話者の存在確率と上記各領域rにおける上記顔位置検出部が検出した談話参加者の存在確率とを統合した確率値を、当該領域rに上記顔位置検出部が検出した談話参加者が存在しかつ当該談話参加者が発話した確率として算出する情報統合部と、
を具備する複数信号区間推定装置。 - 請求項1記載の複数信号区間推定装置において、
上記情報統合部は、
(a)上記水平面の全領域における音声の存在確率と上記各領域rにおける発話者の存在確率と上記各領域rにおける談話参加者の存在確率との積である確率値、または、
(b)上記水平面の全領域における音声の存在確率と上記各領域rにおける発話者の存在確率と上記各領域rにおける談話参加者の存在確率とを所定の重みを付して掛け合わせた値である確率値、または、
(c)上記水平面の全領域における音声の存在確率の対数と上記各領域rにおける発話者の存在確率の対数と上記各領域rにおける談話参加者の存在確率の対数とを所定の重みを付して足し合わせた値である確率値、
のいずれかを、上記水平面の全領域における音声の存在確率と上記各領域rにおける発話者の存在確率と上記各領域rにおける談話参加者の存在確率とを統合した確率値とする、
ことを特徴とする複数信号区間推定装置。 - 請求項2記載の複数信号区間推定装置において、
上記周波数ビンの番号をkとし、上記マイクロホンからの音響信号のフレーム番号をiとしたとき、
上記音声信号区間推定部は、
上記雑音信号のパワーをλi N(k)とし、上記周波数ビン毎のスペクトルXi(k)と上記雑音信号のパワーとの比である事後信号対雑音比γi(k)と、上記事後信号対雑音比γi(k)から定数を減じた値である事前信号対雑音比ξi(k)とを求める事前・事後SN比算出手段と、
上記周波数ビン毎のスペクトルXi(k)が目的信号を含まない尤度であるp(Xi(k)|H0)と雑音信号中に目的信号を含む尤度であるp(Xi(k)|H1)とを、ξi(k)=λi S(k)/λi N(k)として、
により算出し、
により、周波数ビン毎の尤度比Λ i (k)を算出し、求めた周波数ビン毎の尤度比Λ i (k)の全ての周波数ビンについての総和を上記尤度比Λi として求める尤度比Λ算出手段と、
当該尤度比Λiから
であるp(ar=1|Xi)を上記センサ部を中心とする上記水平面の全領域を複数の領域rに分割したときの当該各領域rにおける音声の存在確率とする音声存在確率算出手段と、
を備えることを特徴とする複数信号区間推定装置。 - 請求項1乃至3の何れか1項に記載した複数信号区間推定装置において、
上記領域rに上記顔位置検出部が検出した談話参加者が存在しかつ当該談話参加者が発話した確率が予め定めた閾値を越えていれば上記各領域において上記顔位置検出部が検出した談話参加者が発話していると判定し、当該確率が上記予め定めた閾値を超えていなければ発話が無いと判定する目的信号有無判別部を、
更に具備することを特徴とする複数信号区間推定装置。 - センサ部が、同一の水平面上に配置された複数のマイクロホンと1台以上のカメラにより音響信号と映像信号を観測するセンシング過程と、
音声信号区間推定部が、上記マイクロホンからの音響信号を周波数分析して得られる周波数ビン毎のスペクトルを用いて雑音信号のパワーを推定し、当該雑音信号のパワーから当該周波数ビン毎のスペクトルが目的信号を含まない尤度と雑音信号中に目的信号を含む尤度との比である尤度比を求め、当該尤度比から求めた当該周波数ビン毎のスペクトルにおける音声の存在確率を、上記水平面の全領域における音声の存在確率とする音声信号区間推定過程と、
信号到来方向算出部が、上記周波数ビン毎のスペクトルについて、上記複数のマイクロホン中の予め定めた基準マイクロホンで観測された音響信号に対応するスペクトルと上記基準マイクロホン以外の上記複数のマイクロホンの各々で観測された音響信号に対応するスペクトルとの位相差および上記複数のマイクロホンの配置情報を用いて、上記基準マイクロホンから見た上記周波数ビンに対応する音響信号の到来方向を求める信号到来方向算出過程と、
発話者方向推定部が、上記水平面の全領域を上記基準マイクロホンを中心とする複数の領域に分割したときの各領域rについて、上記周波数ビンに対応する音響信号の到来方向を用いて当該領域rから到来する音響信号のパワーを推定し、推定した各領域rから到来する音響信号のパワーに基づいて上記複数の領域rを予め定めた数のクラスタに分類し、上記各領域rにおける発話者の存在確率を、当該領域rを含むクラスタのうち、上記基準マイクロホンから見た当該話者を表すクラスタの重心の方向と、上記基準マイクロホンから見た上記周波数ビンに対応する音響信号の到来方向との差が所定の閾値より小さくなるような上記周波数ビンの数に比例する値を、上記各領域rにおける発話者の存在確率として推定する発話者方向推定過程と、
顔位置検出部が、上記カメラからの映像信号を入力として、上記基準マイクロホンから見た談話参加者の顔の方向角θn V (τ)を求め、引数を上記基準マイクロホンから見た領域rの方向角とするガウス分布関数の平均に上記顔の方向角θn V (τ)を代入した値を、上記各領域rにおける上記談話参加者の存在確率として推定する顔位置検出過程と、
情報統合部が、上記水平面の全領域における音声の存在確率と上記各領域rにおける発話者の存在確率と上記各領域rにおける上記顔位置検出部が検出した談話参加者の存在確率とを統合した確率値を、当該領域rに上記顔位置検出部が検出した談話参加者が存在しかつ当該談話参加者が発話した確率として算出する情報統合過程と、
を含む複数信号区間推定方法。 - 請求項5記載の複数信号区間推定方法において、
上記情報統合過程は、
(a)上記水平面の全領域における音声の存在確率と上記各領域rにおける発話者の存在確率と上記各領域rにおける談話参加者の存在確率との積である確率値、または、
(b)上記水平面の全領域における音声の存在確率と上記各領域rにおける発話者の存在確率と上記各領域rにおける談話参加者の存在確率とを所定の重みを付して掛け合わせた値である確率値、または、
(c)上記水平面の全領域における音声の存在確率の対数と上記各領域rにおける発話者の存在確率の対数と上記各領域rにおける談話参加者の存在確率の対数とを所定の重みを付して足し合わせた値である確率値、
のいずれかを、上記水平面の全領域における音声の存在確率と上記各領域rにおける発話者の存在確率と上記各領域rにおける談話参加者の存在確率とを統合した確率値とする過程である、
ことを特徴とする複数信号区間推定方法。 - 請求項6記載の複数信号区間推定方法において、
上記周波数ビンの番号をkとし、上記マイクロホンからの音響信号のフレーム番号をiとしたとき、
上記音声信号区間推定過程は、
上記雑音信号のパワーをλi N(k)とし、上記周波数ビン毎のスペクトルXi(k)と上記雑音信号のパワーとの比である事後信号対雑音比γi(k)と、上記事後信号対雑音比γi(k)から定数を減じた値である事前信号対雑音比ξi(k)とを求める事前・事後SN比算出ステップと、
上記周波数ビン毎のスペクトルXi(k)が目的信号を含まない尤度であるp(Xi(k)|H0)と雑音信号中に目的信号を含む尤度であるp(Xi(k)|H1)とを、ξi(k)=λi S(k)/λi N(k)として、
により算出し、
により、周波数ビン毎の尤度比Λ i (k)を算出し、求めた周波数ビン毎の尤度比Λ i (k)の全ての周波数ビンについての総和を上記尤度比Λi として求める尤度比Λ算出ステップと、
当該尤度比Λiから
であるp(ar=1|Xi)を上記センサ部を中心とする上記水平面の全領域を複数の領域rに分割したときの当該各領域rにおける音声の存在確率とする音声存在確率算出ステップ手段と、
を含むことを特徴とする複数信号区間推定方法。 - 請求項5乃至7の何れか1項に記載した複数信号区間推定方法において、
上記領域rに上記顔位置検出部が検出した談話参加者が存在しかつ当該談話参加者が発話した確率が予め定めた閾値を越えていれば上記各領域において上記顔位置検出部が検出した談話参加者が発話していると判定し、当該確率が上記予め定めた閾値を超えていなければ発話が無いと判定する目的信号有無判別過程を、
更に含むことを特徴とする複数信号区間推定方法。 - 請求項1乃至4の何れかに記載した複数信号区間推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008303615A JP5215826B2 (ja) | 2008-11-28 | 2008-11-28 | 複数信号区間推定装置とその方法とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008303615A JP5215826B2 (ja) | 2008-11-28 | 2008-11-28 | 複数信号区間推定装置とその方法とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010130411A JP2010130411A (ja) | 2010-06-10 |
JP5215826B2 true JP5215826B2 (ja) | 2013-06-19 |
Family
ID=42330450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008303615A Expired - Fee Related JP5215826B2 (ja) | 2008-11-28 | 2008-11-28 | 複数信号区間推定装置とその方法とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5215826B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12033654B2 (en) | 2019-10-30 | 2024-07-09 | Panasonic Intellectual Property Management Co., Ltd. | Sound pickup device and sound pickup method |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6248930B2 (ja) * | 2012-07-13 | 2017-12-20 | ソニー株式会社 | 情報処理システムおよびプログラム |
IN2015DN00484A (ja) | 2012-07-27 | 2015-06-26 | Sony Corp | |
WO2014032738A1 (en) | 2012-09-03 | 2014-03-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for providing an informed multichannel speech presence probability estimation |
JP6853163B2 (ja) * | 2017-11-27 | 2021-03-31 | 日本電信電話株式会社 | 話者方向推定装置、話者方向推定方法、およびプログラム |
WO2020084170A1 (en) * | 2018-10-26 | 2020-04-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Directional loudness map based audio processing |
-
2008
- 2008-11-28 JP JP2008303615A patent/JP5215826B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12033654B2 (en) | 2019-10-30 | 2024-07-09 | Panasonic Intellectual Property Management Co., Ltd. | Sound pickup device and sound pickup method |
Also Published As
Publication number | Publication date |
---|---|
JP2010130411A (ja) | 2010-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9595259B2 (en) | Sound source-separating device and sound source-separating method | |
Vesperini et al. | A neural network based algorithm for speaker localization in a multi-room environment | |
US9286889B2 (en) | Improving voice communication over a network | |
US10535361B2 (en) | Speech enhancement using clustering of cues | |
CN112088315A (zh) | 多模式语音定位 | |
JP4964204B2 (ja) | 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 | |
JP5215826B2 (ja) | 複数信号区間推定装置とその方法とプログラム | |
US11869481B2 (en) | Speech signal recognition method and device | |
JP6467736B2 (ja) | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム | |
JP2009271183A (ja) | 複数信号区間推定装置とその方法と、プログラムとその記録媒体 | |
Tao et al. | Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection. | |
JP4490076B2 (ja) | 物体追跡方法、物体追跡装置、プログラム、および、記録媒体 | |
WO2013132216A1 (en) | Method and apparatus for determining the number of sound sources in a targeted space | |
Gebre et al. | Motion history images for online speaker/signer diarization | |
Pasha et al. | Blind speaker counting in highly reverberant environments by clustering coherence features | |
Inoue et al. | Speaker diarization using eye-gaze information in multi-party conversations | |
EP3819655A1 (en) | Determination of sound source direction | |
Bergh et al. | Multi-speaker voice activity detection using a camera-assisted microphone array | |
US10332545B2 (en) | System and method for temporal and power based zone detection in speaker dependent microphone environments | |
Liu et al. | A unified network for multi-speaker speech recognition with multi-channel recordings | |
Tachioka et al. | Ensemble integration of calibrated speaker localization and statistical speech detection in domestic environments | |
JP6059112B2 (ja) | 音源分離装置とその方法とプログラム | |
Lee et al. | Space-time voice activity detection | |
US20220272447A1 (en) | Conference device with voice direction estimation | |
JP5134477B2 (ja) | 目的信号区間推定装置、目的信号区間推定方法、目的信号区間推定プログラム及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101214 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5215826 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160308 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |