JP2010054733A - 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 - Google Patents

複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 Download PDF

Info

Publication number
JP2010054733A
JP2010054733A JP2008218677A JP2008218677A JP2010054733A JP 2010054733 A JP2010054733 A JP 2010054733A JP 2008218677 A JP2008218677 A JP 2008218677A JP 2008218677 A JP2008218677 A JP 2008218677A JP 2010054733 A JP2010054733 A JP 2010054733A
Authority
JP
Japan
Prior art keywords
speaker
frame
signal
model
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008218677A
Other languages
English (en)
Other versions
JP4964204B2 (ja
Inventor
Akiko Araki
章子 荒木
Kentaro Ishizuka
健太郎 石塚
Masakiyo Fujimoto
雅清 藤本
Tomohiro Nakatani
智広 中谷
Shoji Makino
昭二 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008218677A priority Critical patent/JP4964204B2/ja
Publication of JP2010054733A publication Critical patent/JP2010054733A/ja
Application granted granted Critical
Publication of JP4964204B2 publication Critical patent/JP4964204B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】音声の収録中に話者位置の移動が生じても、同一話者には同一インデックスを付与することを可能とする。
【解決手段】周波数領域変換部110が観測信号を所定長のフレームに順次切り出して当該フレームごとに周波数領域に変換し、音声区間推定部120が周波数領域の観測信号に基づき、各フレームが音声区間に該当するか否かを推定し、到来方向推定部130が周波数領域の観測信号に基づき、当該周波数領域の観測信号の到来方向を各フレームごとに推定し、到来方向分類部140が音声区間に該当すると推定された各フレームを、到来方向の類似性に基づき話者ごとのクラスタに分類する。そして、話者同定部250が所定の時刻までに同一クラスタに分類された各フレームの周波数領域の観測信号に基づき、当該クラスタに係る話者のモデルをクラスタごとに作成し、当該所定の時刻以降の観測信号の話者を各話者のモデルに基づき推定する。
【選択図】図1

Description

本発明は、信号処理の技術分野に属する。特に、複数人の音声信号が混在している音響データについて、各人の音声信号が発せられている区間を推定する複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体に関する。
複数人による会話などを複数のマイクで収録し、「いつ、誰が話したか」を推定する音声区間検出技術は、例えば会議録自動作成において、各発言に発話者を自動的に付与したり、会議収録データに話者情報を付与して録音データの検索や頭出しを容易にしたりする際に有用である。
従来の音声区間検出技術としては、例えば特許文献1や非特許文献1などで開示されている方法が挙げられる。図11に従来技術による複数信号区間推定装置100の機能構成例を、図12にその処理フロー例を示す。複数信号区間推定装置100は、周波数領域変換部110と音声区間推定部120と到来方向推定部130と到来方向分類部140とから構成される。
周波数領域変換部110は、M本のマイクによりそれぞれ収録した時間領域の観測信号xj(t)(j=1、・・・、M)を、例えば32msごとに窓関数で切り出して(切り出した1区間を以下、「フレーム」という)、切り出した各フレーム(インデックスをτとする)についてフーリエ変換等によりそれぞれ周波数領域の観測信号xj(f,τ) (f=1、・・・、L)に変換する(S1)。
音声区間推定部120は、周波数領域変換部110で周波数領域に変換された観測信号の各フレームに音声が存在するか否かを、音声存在確率を計算することにより推定する(S2)。音声存在確率の計算に際しては、例えば非特許文献2、非特許文献3に記載された方法が利用できる。前者で説明すると、該当フレームにおける音声存在確率pV(τ)を次式により求める。
Figure 2010054733
ここで、λN(f)は周波数fにおけるノイズの平均パワー(音声が明らかに存在しない録音ファイルの冒頭区間などで求める)、x(f,τ)はM本のマイクにおける周波数領域の観測信号x1(f,τ)〜xM(f,τ)の中から任意に選んだいずれか1本についての周波数領域の観測信号である。なお、x(f,τ)はすべてのマイクの振幅の平均値として次のように求めても構わない。
Figure 2010054733
音声区間推定部120は、式(1)により求めた音声存在確率pV(τ)をそのまま出力してもよいし、pV(τ)がある閾値より大きければそのフレームは音声区間PSであると判定し、小さければ非音声(ノイズ)区間PNと判定して結果を出力してもよい。
到来方向推定部130は、周波数領域変換部110で周波数領域に変換された観測信号の到来方向を各フレームごと又は各フレームの各周波数成分ごとにを推定する(S3)。具体的には、観測信号のマイクjとマイクj´とからの到来時間差q´jj′を全てのマイクペアについて求め、それらを並べた縦ベクトルとマイクの座標系とから音声到来方向ベクトルを推定する。
各フレームごとに到来時間差q´jj′を計算する手法として、非特許文献4にて開示されているGCC−PHATと呼ばれる手法がある。この手法においては到来時間差q´jj′(τ)を次式に従い算出する。
Figure 2010054733
これをすべてのマイクペアjj´について求めて、それらを並べた縦ベクトルをvq´(τ)とする。なお、すべてのマイクペアを用いる代わりに、ある基準マイクを決め、基準マイクとその他のマイクに関するすべてのペアを用いてもよい。音声到来方向ベクトルvq(τ)は、vq´(τ)と音速cとマイクの座標系VDとから次式により推定する。
vq(τ)=c・VD+・vq´(τ) (4)
ここで、はMoore-Penroseの疑似逆行列を表し、vdjがマイクjの座標を[x,y,z]と並べたベクトルであるとき、VD=[vd1−vdj,・・・,vdM−vdj]Tである。このように求めた音声到来方向ベクトルvq(τ)は、到来方向の水平角がθ、仰角がφとすると、次式のように表すことができる。
vq(τ)=[cosθ・cosφ,sinθ・cosφ,sinφ]T (5)
各フレームの各周波数成分ごとに到来時間差q´jj′を計算する場合は、マイクjとマイクj´との到来時間差q´jj′(f,τ)を次式に従い算出する。
Figure 2010054733
これをすべてのマイクペアjj´について求めて(又は上記のように基準マイクに対して求めて)、それらを並べた縦ベクトルをvq´(f,τ)とし、式(4)と同様にして音声到来方向ベクトルvq (f,τ)を推定する。
なお、音声区間推定部120の処理と到来方向推定部130の処理とは並行して行ってもよいし、音声区間推定部120の処理により音声区間を推定した上で、その音声区間に該当するフレームに絞って到来方向推定部130の処理を行うこととしてもよい。
到来方向分類部140は、音声区間PSに該当する各フレームについて、音声到来方向(ベクトルvq(τ) 又はvq(f,τ))が類似するものを各話者区間Pk(k=1、・・・、N)としてクラスタリングを行い、すべてのクラスタについて、クラスタのインデックスkとそのクラスタに属するすべてのフレームのインデックスτとの組を出力する(S4)。
Figure 2010054733
クラスタリング手法としては、公知のk−means法や階層的クラスタリングを用いてもよいし、オンラインクラスタリングを用いてもよい(非特許文献5参照)。このクラスタリング処理で分類されたクラスタCkが、そのクラスタを形成しているクラスタメンバ(ベクトルvq(τ) 又はvq(f,τ))から求められるセントロイドで示される角度方向にいる話者kに相当し、このクラスタメンバに該当する各フレームτが話者kによる話者区間Pkを構成する。
なお、上記の説明では、到来方向推定部130はマイク間の到達時間差ベクトルvq´(τ)又はvq´(f,τ)を推定した上で、更に音声到来方向ベクトルvq (τ)又はvq (f,τ)を推定しているが、単に到達時間差ベクトルを推定するだけでも構わない。従って、この場合は図13に示すように、到来方向推定部130が到来時間差推定部131として構成され、到来方向分類部140が到来時間差分類部141としてvq (τ)又はvq (f,τ)の代わりにvq´(τ)又はvq´(f,τ)を分類するように構成すればよい。
特表2000−512108号公報 S.Araki, M.Fujimoto, K.Ishizuka, H.Sawada and S.Makino, "Speaker indexing and speech enhancement in real meetings/conversations," IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP-2008), 2008, p.93-96 J.Sohn, N.S.Kim and W.Sung,"A Statistical Model-Based Voice Activity Detection," IEEE Signal Processing letters, 1999, vol.6, no.1, p.1-3 藤本、石塚、中谷、「複数の音声区間検出法の適応的統合の検討と考察」、電子情報通信学会 音声研究会、2007、SP2007-97、p.7-12 C.H.Knapp and G.C.Carter,"The generalized correlation method for estimation of time delay," IEEE Trans. Acoust. Speech and Signal Processing, 1976, vol.24, no.4, p.320-327 R.O.Duda, P.E.Hart and D.G.Stork,"Pattern Classification," 2nd edition, Wiley Interscience, 2000
従来技術では、音声の到来方向情報のみにより話者識別を行っていたため、ある位置に居た話者が他の位置に移動してしまった場合に、同じ話者であるにもかかわらず新しい話者と識別したり、新しい話者であるにもかかわらず以前にその位置にいた別の話者として誤識別したりする問題があった。
本発明の目的は、音声の収録中に話者位置の移動が生じても、移動前と移動後において、同一話者には同一インデックスを付与することのできる、複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体を提供することにある。
本発明の複数信号区間推定装置は、複数のマイクによりそれぞれ収録された、複数の話者による発話音声が含まれる観測信号から、それぞれの話者の発話区間を推定するものであり、周波数領域変換部と音声区間推定部と到来方向推定部と到来方向分類部と話者同定部とを備える。
周波数領域変換部は、観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する。
音声区間推定部は、周波数領域に変換された観測信号に基づき、各フレームが音声区間に該当するか否かを推定する。
到来方向推定部は、周波数領域に変換された観測信号に基づき、当該観測信号の到来方向を各フレームごとに推定する。
到来方向分類部は、音声区間に該当すると推定された各フレームを、到来方向の類似性に基づき話者ごとのクラスタに分類する。
そして話者同定部は、所定の時刻までに同一クラスタに分類された各フレームの周波数領域に変換された観測信号に基づき、当該クラスタに係る話者のモデルをクラスタごとに作成し、当該所定の時刻以降の観測信号の話者を、各話者のモデルに基づき推定する。
本発明の複数信号区間推定装置によれば、複数の話者に対する話者区間の推定にあたり、音声の到来方向の推定と分類に加え、話者の同一性の判定が可能となる。そのため、音声の収録中に話者位置の移動が生じても、移動前と移動後において、同一話者には同一のインデックスを付与することができる。
〔第1実施形態〕
図1(実線部分)に本発明の複数信号区間推定装置200の機能構成例を、図2(実線部分)にその処理フロー例を示す。複数信号区間推定装置200は、背景技術にて説明した周波数領域変換部110、音声区間推定部120、到来方向推定部130、及び到来方向分類部140と、話者同定部250とから構成される。また、話者同定部250の処理は図11に示したフローのS4に続いて行われる。従って、ここでは背景技術として説明した内容の説明は必要最小限とし、話者同定部250での処理に重点を置いて説明する。
図3(実線部分)に話者同定部250の機能構成例を示す。話者同定部250は、特徴抽出手段251とモデル学習手段252と尤度計算手段253とから構成される。
話者同定部250の処理においては、観測信号の収録開始から所定の時刻ttrainまでは話者の位置の移動が無かったと仮定し、その間に作成されたクラスタから、各話者のモデルMを作成することとする。そして、時刻ttrain以降は話者の位置の移動があり得たと仮定し、時刻ttrain以降のすべての音声セグメント(同一クラスタに分類された連続フレーム)について、その発話者が時刻ttrain以前に発話したどの話者であるかを、観測信号の当初部分(収録開始から時刻ttrainまで)で作成した各話者のモデルに基づき判定する。このように各話者のモデルを観測信号の当初部分で作成することで、時刻ttrain以降については、事前に話者のモデルを用意することなく話者の同定を行うことができる。なお、ttrainは同定の対象となる話者全員が少なくとも一度発話した時点以降の時刻に設定する。
特徴抽出手段251は、M本のマイクにおける周波数領域の観測信号x1(f,τ)〜xM(f,τ)の中から任意に選んだいずれか1本の観測信号x(f,τ)の音声特徴量ベクトルvf(τ)を、各フレームごとに計算する(S5)。音声特徴量ベクトルvf(τ)としては、たとえば12次元のMFCC(Mel-Frequency Cepstrum Coefficient)を利用できる。また、自己相関法などで推定した基本周波数F0(τ)を併用し、音声特徴量ベクトルvf(τ)の一成分として含ませてもよい。
モデル学習手段252は、到来方向分類部140にて同一クラスタC(話者数Nのとき、k=1、・・・、N)に分類されたフレームのうち、観測信号の収録開始から所定の時刻ttrainまでの各フレームに係る音声特徴量ベクトルvf(τ)を用いて、話者kのモデル、すなわちモデルパラメータφを作成して出力するとともに、所定の時刻ttrainまでの各フレームのインデックスτとそれらがそれぞれ属するクラスタに係る話者のインデックスkとの組を出力する(S6)。なお、同一話者のフレームが連続する場合は、各フレームのインデックスを出力する代わりに、連続フレームの始点と終点の時刻を出力してもよい。
話者のモデルとしては、ここでは混合正規分布(GMM: Gaussian Mixture Model)を用いる場合を例示するが、他の話者同定や話者認識の方法(隠れマルコフモデルやベクトル量子化等)を用いてもよい。GMMのガウシアンの数をMとした時、モデルMのモデルパラメータをφ=(平均μk,m、共分散行列Σk,m、ガウシアン重みwk,m)と置くと、GMMは次式のように表すことができる。
Figure 2010054733
ここで、pk,m(vf(τ))は話者kのm番目の多次元(次元数dは音声特徴量ベクトルの次元と同じ)ガウシアンを表している。Mは例えば10とする。モデルパラメータφは、EMアルゴリズムなどを用いて、所定の時刻ttrainまでのクラスタCに属する全てのフレームに基づき、次式によって求められる対数尤度Lが最大となるφの値として計算することができる。
Figure 2010054733
ここで、EMアルゴリズムは、「汪他、”計算統計I〜確率計算の新しい手法〜”、岩波書店、2003、p158-162」等にて公知の技術である。
なお、モデル学習部では、モデルパラメータφの推定精度を高める上で、各フレームτは互いに接続されていることが望ましい。そこで、接続されていない場合の処理方法の一例を説明する。図4(a)は観測信号の到来方向の時系列の例である。この例は、収録開始から時刻ttrainまでの間に到来方向がθ→θ→θ→θ→θの順に推移しており、つまり話者1→話者2→話者3→話者2→話者1の順に発話している場合である。このうち、話者3は短時間の隙間を挟んで計3回発話している。このように短時間(例えば300ms以下)の隙間があるような場合には、図4(b)に示すように音声区間が連続しているとみなしてモデルを学習するのが望ましい。また、話者1と話者2については、共に1回目の発話と2回目の発話との間が広くなっている。このような場合には、図4(b)に示すように1回目の発話と2回目の発話が一体的にされたものとみなしてモデルを学習する。なお、モデル学習手段252が出力するインデックスτは接続前のτであることに注意が必要である。
尤度計算手段253は、所定の時刻ttrain以降に同一クラスタに分類された互いに接続されたフレーム(以下、「セグメント」という)の音声特徴量について、モデル学習手段252において作成した全ての話者のモデルに対する尤度を計算して、最大尤度をとるモデルに係る話者のインデックスkと当該セグメントに含まれる全てのフレームのインデックスτとを出力する(S7)。なお、同一話者のフレームが連続する場合は、各フレームのインデックスを出力する代わりに、連続フレームの始点と終点の時刻を出力してもよい。
話者のモデルとしてGMMを用いた場合、各話者のモデルに当該セグメントに含まれる全てのフレームτの音声特徴量ベクトルvf(τ)を代入して、式(10)により対数尤度を計算し、最も大きな対数尤度をとるモデルのインデックスkを当該セグメントの話者インデックスとして付与する。なお、話者の同定は必ずしもセグメントごとに行う必要はなく、フレームごとに行っても構わない。この場合、対数尤度の計算は式(10)のΣを外した式により行う。
以上のように本発明においては、複数の話者に対する話者区間の推定にあたり、音声の到来方向の推定と分類に加え、話者の同定を行う。そのため、音声の収録中に話者位置の移動が生じても、移動前と移動後において、同一話者には同一のインデックスを付与することができる。
〔第2実施形態〕
第1実施形態においては、特徴抽出手段251における処理に際し、周波数領域変換部110から出力された周波数領域の観測信号x(f,τ)をそのまま使用していた。しかし、実際の会議の場では複数の発話者がしばしば同時に発話するが、各フレームではいずれかの1名の話者の発話として識別する必要があり、その他の話者の発話は雑音成分となるため、同時発話されたフレームτにおける観測信号x(f,τ)をそのまま使用すると、SN比の小ささにより特徴抽出を適切に行えずに話者モデルの推定精度が劣化する場合がある。そこで第2実施形態では、このSN比を向上させるための機能構成・処理方法を示す。
第1実施形態との機能構成上の相違は図1において、更に点線部分の構成、つまり音声強調部260が加わる点にあり、処理フロー上の相違は、図2において更に点線部分の処理が加わる点にある。
音声強調部260においては、それぞれの話者kの発話信号成分を強調する。ここでは、複数のマイクにおける観測信号を用いた公知のビームフォーミング的手法(例えば、参考文献1参照)を用いてもよいし、1本のマイクにおける観測信号に対して処理をする方法(例えば、Wiener Filter)による雑音除去的な手法を用いてもよい。
〔参考文献1〕S. Araki, H. Sawada and S. Makino, "Blind Speech Separation in a MeetingSituation with Maximum SNR beamformers," proc. of ICASSP2007, 2007, vol.I, p.41-45
参考文献1のSN比最大化型ビームフォーマの場合には、周波数領域変換部110からのM本のマイクにおける周波数領域の観測信号による観測信号ベクトルvx(f,τ)=[x1(f,τ)、・・・、xM(f,τ)]と、到来方向分類部140からの各クラスタCに属するフレームτの情報とから、各フレームτが属するクラスタCに係る話者kの発話信号成分を強調した周波数領域信号y(f,τ)を生成し(S8)、これをx(f,τ)の代わりに特徴抽出手段251での処理に用いる。
このように第1実施形態の構成に音声強調部260による処理を加えることで、特徴抽出手段251に入力する各話者kの発話信号成分のSN比を向上することができ、話者モデルの推定精度を高めることができる。
〔第3実施形態〕
上記の実施形態では、モデルパラメータφを時刻ttrainまでの観測信号により求めて、それを時刻ttrain以降の話者同定処理に固定的に適用する。しかし、会話が収録される音響環境は通常、経時的に変化するものであり、求めたモデルパラメータφが経時的にその環境に相応しくなくなる場合がある。
第3実施形態はそのような事態を回避するための構成であり、処理フロー例を図5に示す。S7にて時刻ttrain以降のセグメントに対して話者インデックスkを付与した後、そのセグメントに属する各フレームの音声特徴量ベクトルvf(τ)を、図3の一点鎖線に示すように尤度計算手段254からモデル学習手段253にフィードバックし、これらの音声特徴量ベクトルvf(τ)を用いて、式(10)により改めてφを計算してモデルパラメータを更新する(S9)。更新は逐次行っても、所定の更新間隔を置いて行っても構わない。
このように構成することで、会話が収録される音響環境が経時的に変化しても、適切なモデルパラメータにより話者の同定処理を行うことができる。
〔第4実施形態〕
上記の各実施形態では、尤度計算手段253における話者の同定を、各話者のモデルMに同定対象セグメントに含まれる全てのフレームτの音声特徴量ベクトルvf(τ)を代入して対数尤度を計算し、対数尤度が最大となるモデルのインデックスkを当該セグメントの話者インデックスとするというルールの下で行う。しかし、このようなルールの下では、新たに参加した話者による発話があった場合においても、当初から参加している話者のモデルのいずれかが最大対数尤度をとることになるため、そのモデルの話者であると同定されてしまう。
第4実施形態はそのような事態を回避するための構成である。処理フロー例を図6に示す。尤度計算手段253において、所定の時刻ttrain以降の各セグメントについて音声特徴量ベクトルを各話者のモデルに代入して対数尤度を計算し(S7−1)、最大の対数尤度が所定の閾値より小さいか否かを判断し、閾値より大きい場合には、最大尤度をとるモデルに係る話者のインデックスkと当該セグメントに含まれる全てのフレームのインデックスτとを出力し(S7−2)、閾値より小さい場合には、新たな話者が参加したと判断して新たな話者インデックスを当該セグメントに付与するとともに、そのセグメントに属する各フレームの音声特徴量ベクトルvf(τ)を、図3の一点鎖線に示すように尤度計算手段254からモデル学習手段253にフィードバックし、これらの音声特徴量ベクトルvf(τ)を用いて、式(10)によりφを計算して新たな話者のモデルパラメータとして追加する(S10)。
このように構成することで、新たな話者が参加した場合においても、それを検知してその話者のモデルを生成することにより、以降、その話者についても同定処理を行うことができる。
〔第5実施形態〕
上記の各実施形態は、モデルパラメータを時刻ttrainまでの観測信号により求めて、それを用いて時刻ttrain以降の話者同定処理を行う構成である。しかし、発話が想定される複数の話者音声を予め入手できる場合には、それに基づき事前に各話者のモデルを準備しておき、この事前に準備したモデルを用いて話者同定処理を行うことが可能である。
第5実施形態はそのような場合の構成であり、話者同定部250を例えば図7のように構成することにより実現できる。上記の各実施形態との機能構成上の相違は、図3におけるモデル学習手段252が、予め準備した話者のモデルパラメータが記憶された話者モデルDB264に置き換わる点にある。
このように構成することで、モデルパラメータを学習により求める必要が無くなるため、音声の収録当初から尤度計算手段253において話者同定が可能になる。また、話者のモデルパラメータに話者の氏名情報を関連付けてDBに記憶させておくことで、話者インデックスkに方向情報に加え話者の氏名情報も持たせることができる。
上記の各実施形態の複数信号区間推定装置の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、上述の各種処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
〔効果の確認〕
発明の効果を確認するため、図8で示すような3本のマイクを用いた測定環境において、4名参加による5分間の会議データについての話者区間推定実験を行った。会議においては、まず男女各2名の話者がそれぞれ男1、女1、男2、女2の位置に着席して始めに自己紹介をし、その後、各話者が順番に位置PPに移動して発言を行った。自己紹介は収録開始から120秒までの間に行われたものとし、ttrainを120秒として収録開始から120秒までの観測信号を話者同定モデルの作成に用い、120秒以降について話者同定を行った。なお、短時間フーリエ変換のフレーム長は64ms、フレームシフト長は32msとした。
評価指標としては、diarization error rate(DER)を利用した。
Figure 2010054733
ここで、DERは誤棄却(missed speaker time: MST、誰かが話しているにもかかわらず話していないと判定した時間長)、誤受理(false alarm speaker time:FAT、誰も話していないにもかかわらず誰かが話していると判定した時間長)、話者誤り(speaker error time: SET、話者を誤って判定した時間長)の3つの誤検出を含む指標となっている。つまりこの指標においては、DER値が小さい方が話者区間推定の精度が高いことを示しており、特に本発明においては話者を正しく判定できているかが問題となるため、効果の程度はSETに顕著に現れるはずである。
図9(a)に確認結果を示す。図10は結果を図解したものであり、(a)は正解を示したもの、(b)は従来の方法による推定結果、 (c)は本発明の方法による推定結果である。なお、男1、女1、男2、女2の到来方向はそれぞれ100°、50°、−50°、−100°であり、位置PPは−160°の到来方向にあり、また、男1が話者1に、女1が話者2に、男2が話者3に、女2が話者4にそれぞれ対応する。図10(b)からわかるように、従来の方法では位置PPの話者を話者1〜4以外の別の話者5と推定しており、図9(a)に示すとおりSETが大きくなっている。これに対し、本発明の方法ではほぼ全ての時間区間で−160°方向の話者の区別を図10(a)と同様にできており、図9(a)に示すとおりSETが改善し、全体の性能であるDER値も改善していることがわかる。
また、10組の話者組み合わせにおける会議シミュレーションを行った結果を図9(b)に示す。これは、音声信号と図8の測定環境で測定したインパルス応答とを用いて作成した会議シミュレーションデータを用いたものである。図9(b)においてシミュレーション1は各話者の音声間の重なりが無い場合であり、シミュレーション2は各話者の音声間の重なりがある場合の結果であるが、いずれの場合においてもDER、SETに関し本発明の方法が従来方法より優れた結果を示すことがわかる。
本発明は、複数話者の音声信号が混在している音響データから各話者の音声区間を推定する必要があるシステムや装置等に利用することができ、特に音声の収録中に話者位置の移動が生じる場合に有効である。
第1、2実施形態の複数信号区間推定装置の機能構成例を示す図 第1、2実施形態の複数信号区間推定装置の処理フロー例を示す図 第1〜4実施形態の複数信号区間推定装置の話者同定部の機能構成例を示す図 フレームが接続されていない場合に接続して処理をする方法を説明する図 第3実施形態の複数信号区間推定装置の処理フロー例を示す図 第4実施形態の複数信号区間推定装置の処理フロー例を示す図 第5実施形態の複数信号区間推定装置の機能構成例を示す図 効果の確認に用いた測定環境を示す図 効果の確認結果を示す表 効果の確認結果の根拠データを示す図 従来技術の複数信号区間推定装置の機能構成例を示す図 従来技術の複数信号区間推定装置の処理フロー例を示す図 従来技術の複数信号区間推定装置の別の機能構成例を示す図

Claims (12)

  1. 複数のマイクによりそれぞれ収録された、複数の話者による発話音声が含まれる観測信号から、それぞれの話者の発話区間を推定する複数信号区間推定装置であって、
    上記観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する周波数領域変換部と、
    周波数領域に変換された上記観測信号(以下、「周波数領域観測信号」という)に基づき、各フレームが音声区間に該当するか否かを推定する音声区間推定部と、
    上記周波数領域観測信号に基づき、当該周波数領域観測信号の到来方向を各フレームごとに推定する到来方向推定部と、
    上記音声区間に該当すると推定された各フレームを、上記到来方向の類似性に基づき上記話者ごとのクラスタに分類する到来方向分類部と、
    所定の時刻までに同一クラスタに分類された各フレームの上記周波数領域観測信号に基づき、当該クラスタに係る上記話者のモデルをクラスタごとに作成し、当該所定の時刻以降の上記観測信号の話者を、各話者のモデルに基づき推定する話者同定部と、
    を備えることを特徴とする複数信号区間推定装置。
  2. 請求項1に記載の複数信号区間推定装置において、
    上記話者同定部は、
    上記周波数領域観測信号の各フレームの音声特徴量を計算する特徴抽出手段と、
    上記所定の時刻までに同一クラスタに分類された各フレームの音声特徴量を用いて、当該クラスタに係る上記話者のモデルを各クラスタごとに作成して出力するとともに、上記所定の時刻までの各フレームのインデックスと当該各フレームが属するクラスタに係る話者のインデックスとの組を出力するモデル学習手段と、
    上記所定の時刻以降に同一クラスタに分類された互いに接続された フレーム(以下、「セグメント」という)の音声特徴量について、上記話者のモデルに対する尤度を各モデルごとに計算し、最大尤度をとるモデルに係る話者のインデックスを当該セグメントに付与して、当該セグメントに含まれる各フレームのインデックスとともに出力する尤度計算手段と、
    を備えることを特徴とする複数信号区間推定装置。
  3. 複数のマイクによりそれぞれ収録された、複数の話者による発話音声が含まれる観測信号から、それぞれの話者の発話区間を推定する複数信号区間推定装置であって、
    上記観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する周波数領域変換部と、
    周波数領域に変換された上記観測信号(以下、「周波数領域観測信号」という)に基づき、各フレームが音声区間に該当するか否かを推定する音声区間推定部と、
    上記周波数領域観測信号に基づき、当該周波数領域観測信号の到来方向を各フレームごとに推定する到来方向推定部と、
    上記音声区間に該当すると推定された各フレームを、上記到来方向の類似性に基づき上記話者ごとのクラスタに分類する到来方向分類部と、
    上記周波数領域観測信号に基づき、上記クラスタに係る上記話者ごとに強調した信号(以下、「強調信号」という)を生成する音声強調部と、
    所定の時刻までの上記強調信号に基づき、上記話者のモデルを話者ごとに作成し、当該所定の時刻以降の上記観測信号の話者を、各話者のモデルに基づき推定する話者同定部と、
    を備えることを特徴とする複数信号区間推定装置。
  4. 請求項3に記載の複数信号区間推定装置において、
    上記話者同定部は、
    上記強調信号の各フレームの音声特徴量を計算する特徴抽出手段と、
    上記所定の時刻までの上記強調信号の各フレームの音声特徴量を用いて、上記話者のモデルを各話者ごとに作成して出力するとともに、上記所定の時刻までの各フレームのインデックスと当該各フレームが属するクラスタに係る話者のインデックスとの組を出力するモデル学習手段と、
    上記所定の時刻以降に同一クラスタに分類された互いに接続されたフレーム(以下、「セグメント」という)の音声特徴量について、上記話者のモデルに対する尤度を各モデルごとに計算し、最大尤度をとるモデルに係る話者のインデックスを当該セグメントに付与して、当該セグメントに含まれる各フレームのインデックスとともに出力する尤度計算手段と、
    を備えることを特徴とする複数信号区間推定装置。
  5. 複数のマイクによりそれぞれ収録された、複数の話者による発話音声が含まれる観測信号から、それぞれの話者の発話区間を推定する複数信号区間推定方法であって、
    上記観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する周波数領域変換ステップと、
    周波数領域に変換された上記観測信号(以下、「周波数領域観測信号」という)に基づき、各フレームが音声区間に該当するか否かを推定する音声区間推定ステップと、
    上記周波数領域観測信号に基づき、当該周波数領域観測信号の到来方向を各フレームごとに推定する到来方向推定ステップと、
    上記音声区間に該当すると推定された各フレームを、上記到来方向の類似性に基づき上記話者ごとのクラスタに分類する到来方向分類ステップと、
    所定の時刻までに同一クラスタに分類された各フレームの上記周波数領域観測信号に基づき、当該クラスタに係る上記話者のモデルをクラスタごとに作成し、当該所定の時刻以降の上記観測信号の話者を、各話者のモデルに基づき推定する話者同定ステップと、
    を実行することを特徴とする複数信号区間推定方法。
  6. 請求項5に記載の複数信号区間推定装置において、
    上記話者同定ステップは、
    上記周波数領域観測信号の各フレームの音声特徴量を計算する特徴抽出サブステップと、
    上記所定の時刻までに同一クラスタに分類された各フレームの音声特徴量を用いて、当該クラスタに係る上記話者のモデルを各クラスタごとに作成して出力するとともに、上記所定の時刻までの各フレームのインデックスと当該各フレームが属するクラスタに係る話者のインデックスとの組を出力するモデル学習サブステップと、
    上記所定の時刻以降に同一クラスタに分類された互いに接続されたフレーム(以下、「セグメント」という)の音声特徴量について、上記話者のモデルに対する尤度を各モデルごとに計算し、最大尤度をとるモデルに係る話者のインデックスを当該セグメントに付与して、当該セグメントに含まれる各フレームのインデックスとともに出力する尤度計算サブステップと、
    を実行することを特徴とする複数信号区間推定方法。
  7. 複数のマイクによりそれぞれ収録された、複数の話者による発話音声が含まれる観測信号から、それぞれの話者の発話区間を推定する複数信号区間推定方法であって、
    上記観測信号を所定長のフレームに順次切り出し、当該フレームごとに周波数領域に変換する周波数領域変換ステップと、
    周波数領域に変換された上記観測信号(以下、「周波数領域観測信号」という)に基づき、各フレームが音声区間に該当するか否かを推定する音声区間推定ステップと、
    上記周波数領域観測信号に基づき、当該周波数領域観測信号の到来方向を各フレームごとに推定する到来方向推定ステップと、
    上記音声区間に該当すると推定された各フレームを、上記到来方向の類似性に基づき上記話者ごとのクラスタに分類する到来方向分類ステップと、
    上記周波数領域観測信号に基づき、上記話者ごとに強調した信号(以下、「強調信号」という)を生成する音声強調ステップと、
    所定の時刻までの上記強調信号に基づき、上記話者のモデルを話者ごとに作成し、当該所定の時刻以降の上記観測信号の話者を、各話者のモデルに基づき推定する話者同定ステップと、
    を実行することを特徴とする複数信号区間推定方法。
  8. 請求項7に記載の複数信号区間推定方法において、
    上記話者同定ステップは、
    上記強調信号の各フレームの音声特徴量を計算する特徴抽出サブステップと、
    上記所定の時刻までの上記強調信号の各フレームの音声特徴量を用いて、上記話者のモデルを話者ごとに作成して出力するとともに、上記所定の時刻までの各フレームのインデックスと当該各フレームが属するクラスタに係る話者のインデックスとの組を出力するモデル学習サブステップと、
    上記所定の時刻以降に同一クラスタに分類された互いに接続されたフレーム(以下、「セグメント」という)の音声特徴量について、上記話者のモデルに対する尤度を各モデルごとに計算し、最大尤度をとるモデルに係る話者のインデックスを当該セグメントに付与して、当該セグメントに含まれる各フレームのインデックスとともに出力する尤度計算サブステップと、
    を実行することを特徴とする複数信号区間推定方法。
  9. 請求項6又は8のいずれかに記載の複数信号区間推定方法において、
    更に、上記尤度計算サブステップにて上記セグメントに話者のインデックスを付与した後、そのセグメントに属する各フレームの音声特徴量に基づき改めて当該話者のモデルを作成して、当該話者のモデルを更新するモデル更新ステップ
    を実行することを特徴とする複数信号区間推定方法。
  10. 請求項6、8又は9のいずれかに記載の複数信号区間推定方法において、
    更に、計算した上記最大尤度が所定の閾値より小さい場合に、新たな話者が参加したと判断し、当該新たな話者のインデックスを上記セグメントに付与するとともに、そのセグメントに属する各フレームの音声特徴量に基づき当該新たな話者のモデルを作成するモデル追加ステップ
    を実行することを特徴とする複数信号区間推定方法。
  11. 請求項1〜4のいずれかに記載した装置としてコンピュータを機能させるためのプログラム。
  12. 請求項11に記載したプログラムを記録したコンピュータが読み取り可能な記録媒体。
JP2008218677A 2008-08-27 2008-08-27 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体 Active JP4964204B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008218677A JP4964204B2 (ja) 2008-08-27 2008-08-27 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008218677A JP4964204B2 (ja) 2008-08-27 2008-08-27 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2010054733A true JP2010054733A (ja) 2010-03-11
JP4964204B2 JP4964204B2 (ja) 2012-06-27

Family

ID=42070738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008218677A Active JP4964204B2 (ja) 2008-08-27 2008-08-27 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4964204B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015060006A (ja) * 2013-09-17 2015-03-30 株式会社東芝 音声処理装置、方法、及びプログラム
JP2015516091A (ja) * 2012-07-09 2015-06-04 ▲華▼▲為▼終端有限公司Huawei Device Co., Ltd. 声紋特徴モデルを更新するための方法及び端末
KR101780932B1 (ko) * 2016-02-25 2017-09-27 주식회사 셀바스에이아이 음성 인식 성능을 향상시키기 위한 컴퓨터 프로그램 및 장치
JP2018189985A (ja) * 2018-08-02 2018-11-29 株式会社東芝 電子機器および電子機器の制御方法
CN111429935A (zh) * 2020-02-28 2020-07-17 北京捷通华声科技股份有限公司 一种语音话者分离方法和装置
US10832685B2 (en) 2015-09-15 2020-11-10 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product
WO2021220789A1 (ja) * 2020-04-30 2021-11-04 株式会社日立製作所 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法
WO2021246304A1 (ja) * 2020-06-01 2021-12-09 ソニーグループ株式会社 信号処理装置、信号処理方法およびプログラム
JP2022086961A (ja) * 2020-11-30 2022-06-09 ネイバー コーポレーション 話者埋め込みに基づく音声活動検出を利用した話者ダイアライゼーション方法、システム、およびコンピュータプログラム
JP2022530903A (ja) * 2019-04-29 2022-07-04 北京声智科技有限公司 自動利得制御方法及びその装置、読取可能な記録媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230290355A1 (en) * 2020-07-10 2023-09-14 Amosense Co., Ltd. Device for processing voice and operation method thereof

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318026A (ja) * 2003-04-14 2004-11-11 Tomohito Nakagawa セキュリティペットロボット及びその装置に関する信号処理方法
JP2005202014A (ja) * 2004-01-14 2005-07-28 Sony Corp 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP2007322523A (ja) * 2006-05-30 2007-12-13 Toshiba Corp 音声翻訳装置及びその方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318026A (ja) * 2003-04-14 2004-11-11 Tomohito Nakagawa セキュリティペットロボット及びその装置に関する信号処理方法
JP2005202014A (ja) * 2004-01-14 2005-07-28 Sony Corp 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP2007322523A (ja) * 2006-05-30 2007-12-13 Toshiba Corp 音声翻訳装置及びその方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015516091A (ja) * 2012-07-09 2015-06-04 ▲華▼▲為▼終端有限公司Huawei Device Co., Ltd. 声紋特徴モデルを更新するための方法及び端末
US9685161B2 (en) 2012-07-09 2017-06-20 Huawei Device Co., Ltd. Method for updating voiceprint feature model and terminal
US9460714B2 (en) 2013-09-17 2016-10-04 Kabushiki Kaisha Toshiba Speech processing apparatus and method
JP2015060006A (ja) * 2013-09-17 2015-03-30 株式会社東芝 音声処理装置、方法、及びプログラム
US10832685B2 (en) 2015-09-15 2020-11-10 Kabushiki Kaisha Toshiba Speech processing device, speech processing method, and computer program product
KR101780932B1 (ko) * 2016-02-25 2017-09-27 주식회사 셀바스에이아이 음성 인식 성능을 향상시키기 위한 컴퓨터 프로그램 및 장치
JP2018189985A (ja) * 2018-08-02 2018-11-29 株式会社東芝 電子機器および電子機器の制御方法
JP2022530903A (ja) * 2019-04-29 2022-07-04 北京声智科技有限公司 自動利得制御方法及びその装置、読取可能な記録媒体
JP7333972B2 (ja) 2019-04-29 2023-08-28 北京声智科技有限公司 自動利得制御方法及びその装置、読取可能な記録媒体
CN111429935A (zh) * 2020-02-28 2020-07-17 北京捷通华声科技股份有限公司 一种语音话者分离方法和装置
CN111429935B (zh) * 2020-02-28 2023-08-29 北京捷通华声科技股份有限公司 一种语音话者分离方法和装置
WO2021220789A1 (ja) * 2020-04-30 2021-11-04 株式会社日立製作所 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法
JP7471139B2 (ja) 2020-04-30 2024-04-19 株式会社日立製作所 話者ダイアライゼーション装置、及び話者ダイアライゼーション方法
WO2021246304A1 (ja) * 2020-06-01 2021-12-09 ソニーグループ株式会社 信号処理装置、信号処理方法およびプログラム
JP2022086961A (ja) * 2020-11-30 2022-06-09 ネイバー コーポレーション 話者埋め込みに基づく音声活動検出を利用した話者ダイアライゼーション方法、システム、およびコンピュータプログラム

Also Published As

Publication number Publication date
JP4964204B2 (ja) 2012-06-27

Similar Documents

Publication Publication Date Title
JP4964204B2 (ja) 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
EP3707716B1 (en) Multi-channel speech separation
Barker et al. The third ‘CHiME’speech separation and recognition challenge: Analysis and outcomes
US11138977B1 (en) Determining device groups
JP4875656B2 (ja) 信号区間推定装置とその方法と、プログラムとその記録媒体
JP6703460B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
JP4746533B2 (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP5328744B2 (ja) 音声認識装置及び音声認識方法
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
JP2012211768A (ja) 音源定位装置
Tao et al. Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection.
CN109473102A (zh) 一种机器人秘书智能会议记录方法及系统
Grondin et al. WISS, a speaker identification system for mobile robots
KR100969138B1 (ko) 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치
Nakadai et al. A robot referee for rock-paper-scissors sound games
Jeon et al. Acoustic surveillance of hazardous situations using nonnegative matrix factorization and hidden Markov model
Espi et al. Acoustic event detection in speech overlapping scenarios based on high-resolution spectral input and deep learning
Giannoulis et al. The Athena-RC system for speech activity detection and speaker localization in the DIRHA smart home
Tachioka et al. Ensemble integration of calibrated speaker localization and statistical speech detection in domestic environments
JP5672175B2 (ja) 話者判別装置、話者判別プログラム及び話者判別方法
JP2021162685A (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JP5044581B2 (ja) 複数信号強調装置とその方法と、プログラム
Tachioka et al. Dereverberation method with reverberation time estimation using floored ratio of spectral subtraction
JP6059112B2 (ja) 音源分離装置とその方法とプログラム
JP5672155B2 (ja) 話者判別装置、話者判別プログラム及び話者判別方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100726

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120321

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120327

R150 Certificate of patent or registration of utility model

Ref document number: 4964204

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350