JP2010181467A

JP2010181467A - 複数信号強調装置とその方法と、プログラム

Info

Publication number: JP2010181467A
Application number: JP2009022698A
Authority: JP
Inventors: Akiko Araki; 章子荒木; Kentaro Ishizuka; 健太郎石塚; Masakiyo Fujimoto; 雅清藤本; Tomohiro Nakatani; 智広中谷
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-02-03
Filing date: 2009-02-03
Publication date: 2010-08-19
Anticipated expiration: 2029-02-03
Also published as: JP5044581B2

Abstract

【課題】音声強調性能を向上させる。
【解決手段】この発明の複数信号強調装置の他話者相関行列計算部は、観測信号ｘ_ｂ（ｆ,ｔ）とクラスタデータＣ_ｂ（ｔ）と話者組み合わせ情報ｐ（ｂ）とを入力として、強調対象話者ｋ以外の観測信号ｘ_ｂ（ｆ,ｔ）の相関行列である他話者相関行列の計算値と、他話者相関行列保持部を参照して同じ話者組み合わせの過去の他話者相関行列とから、他話者相関行列を求める。強調対象話者相関行列計算部は、強調対象話者ｋの観測信号ｘ_ｂ（ｆ,ｔ）の相関行列である強調対象話者相関行列を計算する。係数計算部は、他話者相関行列と、強調対象話者相関行列と、を入力として強調対象話者ｋに関するＳＮ比最大化ビームフォーマの係数を計算する。
【選択図】図１

Description

この発明は、複数個の源信号に対してノイズが重畳した信号を、複数個のセンサで観測した時に、それぞれの源信号を強調する信号処理技術に関する。例えば、話者が複数人いる状況で、その中の１人あるいは複数人の音声及びノイズが重畳した信号を、複数個のマイクロホンで観測した時に、それぞれの話者音声信号を強調する複数信号強調装置と、その方法とプログラムに関する。

話者が複数人いる状況で、その中の１人あるいは複数話者音声及びノイズが重畳した信号を、複数のマイクロホンで観測した時に、それぞれの話者音声信号を強調する技術としては、例えば特許文献１に開示された技術が知られている。図６に、その技術を用いた複数信号強調装置６００の機能構成例を示して動作を説明する。複数信号強調装置６００は、周波数変換部１、複数信号区間推定部２、信号強調部３、を備える。周波数領域変換部１は、Ｍ本のマイクロホンによりそれぞれ収録した時間領域の観測信号ｘ（ｔ）＝[ｘ_１（ｔ）,…,ｘ_Ｍ（ｔ）]^Ｔを、例えば３２ｍｓ毎に窓関数で切り出して、切り出した各フレームｔについて短時間フーリエ変換により周波数毎の時系列信号である観測信号ベクトルｘ（ｆ,ｔ）＝[ｘ_１（ｆ,ｔ）,…,ｘ_Ｍ（ｆ,ｔ）]^Ｔに変換する。複数信号区間推定部２は、観測信号ベクトルｘ（ｆ,ｔ）を入力として、各話者の発話区間を推定する。

発話区間を推定する音声検出技術としては、例えば特許文献２や非特許文献１に開示されている方法が知られている。その方法で発話区間を推定する複数信号区間推定部２は、音声区間推定部２１、到来方向推定部２２、到来方向分類部２３、を備える。その動作フローを図７に示す。音声区間推定部２１は、各話者の発話区間を、観測信号ベクトルｘ（ｆ,ｔ）の各フレームｔに音声が存在するか否かを音声存在確率を計算することにより推定する（ステップＳ２１）。音声存在確率の計算に際しては、例えば非特許文献２、非特許文献３に記載された方法が利用できる。前者で説明すると、当該フレームにおける音声存在確率ｐ_ｖ（ｔ）を式（１）により求める。

ここで、λ_Ｎ（ｆ）は周波数ｆにおけるノイズの平均パワー（音声が明らかに存在しない録音ファイルの冒頭区間などで求める）、ｘ_ｊ（ｆ,ｔ）はＭ本のマイクロホンにおける周波数領域の観測信号ｘ_１（ｆ,ｔ）〜ｘ_Ｍ（ｆ,ｔ）の中から任意に選んだ何れか１本についての周波数領域の観測信号である。なお、ｘ_ｊ（ｆ,ｔ）は全てのマイクロホンの振幅の平均値として次のように求めても構わない（式２）。

音声区間推定部２１は、式（１）により求めた音声存在確率ｐ_ｖ（ｔ）をそのまま出力しても良いし、ｐ_ｖ（ｔ）がある閾値より大きければそのフレームは音声区間Ｐ_Ｓであると判定し、小さければ非音声（ノイズ）区間Ｐ_Ｎと判定して出力しても良い。

到来方向推定部２２は、観測信号ベクトルｘ（ｆ,ｔ）の到来方向を各フレーム毎又は各フレームの各周波数成分毎に推定する（ステップＳ２２）。具体的には、観測信号のマイクロホンｊとｊ′とから到来時間差ｑ′_ｊｊ′を全てのマイクロホンペアについて求め、それらを並べた縦ベクトルとマイクロホンの座標系とから音声到来方向ベクトルを推定する。

各フレーム毎に到来時間差ｑ′_ｊｊ′を計算する手法として、非特許文献４にて開示されているＧＣＣ−ＰＨＡＴと呼ばれる手法がある。この手法においては到来時間差ｑ′_ｊｊ′（ｔ）を次式に従い算出する。

これを全てのマイクロホンペアｊｊ′について求めて、それらを並べた縦ベクトルをｖｑ′（ｔ）とする。なお、全てのマイクロホンペアを用いる代わりに、ある基準マイクロホンを決め、基準マイクロホンとその他のマイクロホンに関する全てのペアを用いても良い。音声到来方向ベクトルｖｑ（ｔ）は、ｖｑ′（ｔ）と音速ｃとマイクロホンの座標系ＶＤとから次式により推定する。

ここで、＋はMoore−Penroseの擬似逆行列を表し、ｖｄ_ｊがマイクロホンｊの座標を[ｘ,ｙ,ｚ]と並べたベクトルであるとき、ＶＤ＝[ｖｄ_１−ｖｄ_ｊ,…,ｖｄ_M−ｖｄ_ｊ]^Tである。このように求めた音声到来方向ベクトルｖｑ（ｔ）は、到来方向の水平角がθ、仰角がφとすると、次式のように表すことができる。

各フレームの各周波数成分毎に到来時間差ｑ′_ｊｊ′を計算する場合は、マイクロホンｊとｊ′との到来時間差ｑ′_ｊｊ′（ｆ,ｔ）を次式に従い算出する。

これを全てのマイクロホンペアｊｊ′について求めて（又は上記のように基準マイクロホンに対して求めて）、それらを並べた縦ベクトルをｖｑ′（ｆ,ｔ）とし、式（４）と同様にして音声到来方向ベクトルｖｑ（ｆ,ｔ）を推定する。

なお、音声区間推定部２１の処理と到来方向推定部２２の処理とは並行して行っても良いし、音声区間推定部２１の処理により音声区間を推定した上で、その音声区間に該当するフレームに絞って到来方向推定部２２の処理を行うようにしても良い。

到来方向分類部２３は、音声区間Ｐ_Ｓに該当する各フレームについて、音声到来方向（ベクトルｖｑ（ｔ）又はｖｑ（ｆ,ｔ））が類似するものを各話者区間Ｐ_ｋ（ｋ＝１,…,Ｎ）としてクラスタリングを行い、全てのクラスタについて、クラスタのインデックスｋとそのクラスタに属する全てのフレームのインデックスｔとの組を出力する（ステップＳ２３）。

クラスタリング手法としては、公知のｋ−ｍｅａｎｓ法や階層的クラスタリングを用いても良いし、オンラインクラスタリングを用いても良い（非特許文献５参照）。このクラスタリング処理で分類されたクラスタＣ_ｋが、そのクラスタを形成しているクラスタメンバ（ベクトルｖｑ（ｔ）又はｖｑ（ｆ,ｔ））から求められるセントロイドで示される角度方向にいる話者ｋに相当し、クラスタメンバに該当する各フレームｔが話者ｋによる話者区間Ｐ_ｋを構成する。

なお、上記の説明では、到来方向推定部２２はマイクロホン間の到達時間差ベクトルｖｑ′（ｔ）又はｖｑ′（ｆ,ｔ）を推定した上で、更に音声到来方向ベクトルｖｑ（ｔ）又はｖｑ（ｆ,ｔ）を推定しているが、単に到達時間差ベクトルを推定するだけでも構わない。従って、この場合は図８に示すように、到来方向推定部２２が到来時間差推定部８２として構成され、到来方向分類部２３が到来方向時間差分類部８３としてｖｑ（ｔ）又はｖｑ（ｆ,ｔ）の代わりにｖｑ′（ｔ）又はｖｑ′（ｆ,ｔ）を分類するように構成すれば良い。

以上述べたように複数信号区間推定部２は、音声区間推定部２１で音声であると推定された時間区間と、到来方向推定部２２で推定された各時刻ｔにおける到来方向とを、到来方向分類部２３に入力し、到来方向分類部２３にて、音声区間における到来方向を分類することで、各話者の発話区間を推定する。ここで、各話者の発話区間は、各時刻において誰が話したか、という情報として０以上Ｎ（Ｎは検出された話者数）以下の整数値を取るクラスタ情報Ｃ（ｔ）として出力される。Ｃ（ｔ）が１以上の値ｋを取れば、その時間区間ｔにはｋ番目の話者が存在することを表す。時間区間ｔが音声区間ではないノイズ区間の場合は、Ｃ（ｔ）＝０とする。

次に信号強調部３において、各話者ｋ毎に、音声強調を行う。信号強調部３は、目的話者/他話者分類部３１、ＲＩ計算部３２、ＲＴ計算部３３、係数計算部３４、強調信号計算部３５、時間領域変換部３６を備える。音声強調方法としては、ここでは、ＳＮ比ビームフォーマを用いる方法を示す（非特許文献６）。信号強調部３では、検出された各話者ｋ毎にＳＮ比最大化ビームフォーマｗ_ｋ（ｆ）を構成し、そのＳＮ比最大化ビームフォーマを用いて強調音声ｙ_ｋ（ｆ,ｔ）＝ｗ_ｋ ^Ｈ（ｆ）ｘ（ｆ,ｔ）を得る。すなわち、ここでのＳＮ比最大化ビームフォーマは、出力信号ｙ_ｋ（ｆ,ｔ）中の話者ｋの信号成分と、ノイズ成分＋他話者成分の比λ（ｆ）（ＳＮ比）を、最大化するｗ（ｆ）をビームフォーマの係数とする。

ここで、Ｒ_Ｔｋ（ｆ）とＲ_Ｉｋ（ｆ）はそれぞれ、話者ｋ区間{ｔ｜Ｃ（ｔ）＝ｋ}の観測信号の相関行列と、話者ｋ区間{ｔ｜Ｃ（ｔ）≠ｋ}以外の観測信号の相関行列であり、ｗ_ｋ ^Ｈはビームフォーマの共役転置である。Ｅ[・]_{Ｃ（ｔ）＝ｋ}はＣ（ｔ）＝ｋを満たす時間区間についての平均を取る操作である。

まず、目的話者/他話者分類部３１において、各話者毎に話者区間ｋ区間{ｔ｜Ｃ（ｔ）＝ｋ｝と話者ｋ以外の区間{ｔ｜Ｃ（ｔ）≠ｋ｝を決定する。次にＲＩ計算部３２とＲＴ計算部３３において、式（９）と式（１０）をそれぞれ計算する。
式（８）をｗ_ｋ（ｆ）で微分し０と置くと、式（１１）の関係が得られる。

最大のＳＮ比λ（ｆ）は、式（１１）で与えられた一般化固有値問題における最大固有値で与えられ、その最大固有値に対応する固有ベクトルｅ（ｆ）を計算することで話者ｋに関するＳＮ比最大化ビームフォーマの係数を得ることができる。

係数計算部３４は、式（１１）と式（１２）とから話者ｋに関するＳＮ比最大化ビームフォーマの係数を求める。なお、ＳＮ比最大化ビームフォーマは、ゲインに関して不定性を持つ。これをこのまま音声信号のような広帯域信号に適用すると、出力がｗ_ｋ（ｆ）の周波数特性により歪んでしまう。そこで、係数計算部３４は、更に観測信号とビームフォーマｗ_ｋ（ｆ）の出力信号との誤差を最小にする補正フィルタａ（ｆ）を用意し、これでビームフォーマｗ_ｋ（ｆ）を補正する。観測信号と補正後の出力信号の誤差は式（１３）で表せる。

式（１３）を最小にする補正フィルタａ（ｆ）は∂Ｇ（ａ（ｆ））/∂ａ（ｆ）をゼロと置くことで式（１４）で計算できる。

ここでＲｘ（ｆ）＝Ｅ｛ｘ(ｆ,ｔ)ｘ^Ｈ（ｆ,ｔ）｝は、観測信号の全時間区間における相関行列である。ビームフォーマの補正は、ａ（ｆ）のある任意のＪ番目の要素ａ_Ｊ（ｆ）を用いて式（１５）に示すように行う。この補正されたビームフォーマを観測信号ベクトルに作用させることにより、話者ｋに関する強調音声ｙ_ｋ（ｆ,ｔ）を得る。

強調信号計算部３５で、強調音声ｙ_ｋ（ｆ,ｔ）を全ての話者ｋについて求め、強調音声信号ベクトルｙ（ｆ,ｔ）＝[ｙ_１（ｆ,ｔ），…,ｙ_Ｎ（ｆ,ｔ）]^Ｔを得る。最後に時間領域変換部３６において、逆短時間フーリエ変換を用いて、強調音声信号ベクトルｙ（ｆ,ｔ）＝[ｙ_１（ｆ，ｔ）,…,ｙ_Ｎ（ｆ,ｔ）]^Ｔを時間領域の信号ｙ（ｔ）＝[ｙ_１（ｔ）,…,ｙ_Ｎ（ｔ）]^Ｔに変換する。

特開２００８−２０３４７４号公報特表２０００−５１２１０８号公報

S.Araki, M.Fujimoto, K.Ishizuka, H.Sawada and S.Makino, "Speker indexing and speech enhancement in real meetings/conversations," IEEE International Conference on Acoustics,Speech, and Signal Processing(ICASSP-2008), 2008, p.93-96 J.Sohn, N.S.Kim and W.Sung,"A Statistical Model-Based Voice Activity Detection," IEEE Signal Processing letters, 1999, vol.6, no.1, p.1-3 藤本、石塚、中谷、「複数の音声区間検出法の適応的統合の検討と考察」、電子情報通信学会音声研究会、2007、SP2007-97、ｐ.7-12 C.H.Knapp and G.C.Carter,"The generalized correlation method for estimation of time delay," IEEE Trans. Acoust. Speech and Signal Processing, 1976, vol.24, no.4, p.320-327 R.O.Duda, P.E.Hart and D.G.Stork,"Pattern Classification," 2ndedition, Wiley Interscience, 2000 H. L. Van Trees, "Optimum Array Processing," John Wiley & Sons, 2002.

従来の方法では、式（９）や式（１０）に示した平均操作を、収録したデータ全体に対して行うことが普通である。よって、音声収録中に話者の位置がほとんど変化しない状況で、且つ、マイクロホンの数が話者数よりも多い場合には良好に動作する。しかし、収録中に話者の位置が変化する場合や、マイクロホンの数が話者数よりも少ない場合には、性能が劣化することが知られている。この原因は、ＳＮ比最大化ビームフォーマが、マイクロホンの数引く１個の他話者音声しか抑圧できないことによる。

マイクロホンの数が話者数よりも少ない場合の対処の方法として、音声データを例えば５秒毎のブロックに区切ることで、各ブロックでの話者数がマイクロホン数よりも少なくなることを想定し、ブロック毎にＳＮ比最大化ビームフォーマの係数を推定する例が示されている（特許文献１）。しかし、５秒のような短いブロックでは、ＳＮ比最大化ビームフォーマの係数ｗ_ｋ（ｆ）の推定精度が落ちてしまい高い音声強調性能が得られない課題がある。

この発明はこの点に鑑みてなされたものであり、マイクロホン数が話者数よりも少ない場合の強調手法であるブロック処理において、高い精度でＳＮ比最大化ビームフォーマの係数を推定し、高い音声強調性能を得ることができる複数信号強調装置とその方法と、そのプログラムを提供することを目的とする。

この発明の複数信号強調装置は、複数のマイクロホンで観測された観測信号を周波数領域変換部と、複数話者のそれぞれの話者の発話区間を推定してクラスタ情報Ｃ（ｔ）を出力する複数信号区間推定部と、話者の発話区間の発話音声信号を強調する信号強調部とを備える。信号強調部は、ブロック分割部と、話者組み合わせ推定部と、話者組み合わせ保持部と、他話者相関行列計算部と、他話者相関行列保持部と、強調対象話者検出部と、強調対象話者相関行列計算部と、強調対象話者相関行列保持部と、係数計算部と、を具備する。

ブロック分割部は、周波数領域の信号ｘ（ｆ,ｔ）と、クラスタ情報Ｃ（ｔ）とを入力として、所定時間長毎のブロックに区切った観測信号ｘ_ｂ（ｆ,ｔ）とクラスタデータＣ_ｂ（ｔ）とを出力する。話者組み合わせ推定部は、ブロックに区切ったクラスタデータＣ_ｂ（ｔ）内に存在する話者番号を調べ、それを話者組み合わせ情報ｐ（ｂ）として出力する。話者組み合わせ保持部は、話者組み合わせ情報ｐ（ｂ）を記録する。他話者相関行列計算部は、観測信号ｘ_ｂ（ｆ,ｔ）と、クラスタデータＣ_ｂ（ｔ）と、話者組み合わせ情報ｐ（ｂ）とを入力として、強調対象話者ｋ以外の観測信号ｘ_ｂ（ｆ,ｔ）の相関行列である他話者相関行列の計算値と、他話者相関行列保持部を参照して同じ話者組み合わせの過去の他話者相関行列とから、他話者相関行列を求める。強調対象話者検出部は、ブロックに区切ったクラスタデータＣ_ｂ（ｔ）内に強調対象話者ｋの発話があるか否かを判断する。強調対象話者相関行列計算部は、強調対象話者ｋの観測信号ｘ_ｂ（ｆ,ｔ）の相関行列である強調対象話者相関行列を計算する。強調対象話者相関行列保持部は、強調対象話者相関行列を記録する。係数計算部は、他話者相関行列と、強調対象話者相関行列とを入力として強調対象話者ｋに関するＳＮ比最大化ビームフォーマの係数を計算する。

この発明によれば、他話者相関行列計算が、計算対象のブロックの強調対象話者以外の観測信号の相関行列の計算値と、計算対象のブロックと同じ話者組み合わせの過去の他話者相関行列とから、他話者相関行列を求める。そして、強調対象話者相関行列計算部で計算した強調対象話者相関行列と、その他話者相関行列とから強調対象話者に関するＳＮ比最大化ビームフォーマの係数を計算する。したがって、過去のブロックのデータを適切に選択してＳＮ比最大化ビームフォーマ係数の推定を行うので、特に、マイクロホン数が話者数よりも少ない場合の強調手法であるブロック処理において、高い精度の音声強調性能を得ることができる。

この発明の複数信号強調装置１００の機能構成例を示す図。信号強調部５０の機能構成例を示す図。信号強調部５０の動作フローを示す図。複数信号強調装置１００の出力の一例を示す図。実験の状況を示す図。従来の複数信号強調装置６００の機能構成例を示す図。複数信号区間推定部２の動作フローを示す図。複数信号区間推定部２の変形例の機能構成を示す図。

以下に、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は省略する。

図１にこの発明の複数信号強調装置１００の機能構成例を示す。複数信号強調装置１００は、周波数領域変換部１、複数信号区間推定部２、信号強調部５０を備える。周波数領域変換部１と複数信号区間推定部２は、従来技術の複数信号強調装置６００と同じものである。複数信号強調装置１００は、信号強調部５０に特徴がある。

図２に信号強調部５０の機能構成例を示す。信号強調部５０は、ブロック分割部５１、話者組み合わせ推定部５２、強調対象話者検出部５３、話者組み合わせ保持部５４、他話者相関行列計算部５５、他話者相関行列保持部５６、強調対象話者相関行列計算部５７、強調対象話者相関行列保持部５８、係数計算部５９、強調信号計算部６０、時間領域変換部６１、制御部６２を備える。複数信号強調装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

ブロック分割部５１は、周波数領域変換部１が出力する周波数領域の信号ｘ（ｆ,ｔ）と、複数信号区間推定部２が出力するクラスタ情報Ｃ（ｔ）とを入力として、所定時間長のブロックに区切った観測信号ｘ_ｂ（ｆ,ｔ）とクラスタデータＣ_ｂ（ｔ）とを出力する。話者組み合わせ推定部５２は、ブロックに区切ったクラスタデータＣ_ｂ（ｔ）内に存在する話者番号を調べ、それを話者組み合わせ情報ｐ（ｂ）として出力する。話者組み合わせ保持部５４は、話者組み合わせ情報ｐ（ｂ）を記録する。

他話者相関行列計算部５５は、観測信号ｘ_ｂ（ｆ,ｔ）と、クラスタデータＣ_ｂ（ｔ）と、組み合わせ情報ｐ（ｂ）とを入力として、強調対象話者ｋ以外の観測信号ｘ_ｂ（ｆ,ｔ）の相関行列である他話者相関行列の計算値と、他話者相関行列保持部５６を参照して話者組み合わせと同じ組み合わせの過去の他話者相関行列とから他話者相関行列を求める。求めた他話者相関行列は、他話者相関行列保持部５６に記録される。

強調対象話者検出部５３は、ブロックに区切ったクラスタデータＣ_ｂ（ｔ）内に強調対象話者ｋの発話があるか否かを判断する。強調対象話者相関行列計算部５７は、強調対象話者ｋの観測信号ｘ_ｂ（ｆ,ｔ）の相関行列である強調対象話者相関行列を計算する。計算された強調対象話者相関行列は、強調対象話者相関行列保持部５８に記録される。係数計算部５９は、他話者相関行列と、強調対象話者相関行列とを入力として強調対象話者ｋに関するＳＮ比最大化ビームフォーマの係数を計算する。話者組み合わせ推定部５２から、強調対象話者相関行列保持部５８にかけては、この実施例の主要部であり詳細は後述する。

強調信号計算部６０と時間領域変換部６１については、従来の強調信号計算部３５及び時間領域変換部３６と同じものである。制御部６２は、各部の時系列的な動作等を制御するものである。

複数信号強調装置１００によれば、話者組み合わせ情報ｐ（ｂ）に基づいて、過去の同じ話者組み合わせの他話者相関行列を利用して、強調対象話者ｋに関するＳＮ比最大化ビームフォーマの係数を計算するので、高い精度で音声強調性能を得ることができる。

図３に信号強調部５０の動作フローを示し、更に詳細に動作を説明する。周波数領域の信号ｘ（ｆ,ｔ）とクラスタ情報Ｃ（ｔ）は、ブロック分割部５１において、例えば５秒毎のブロックに区切られる（ステップＳ５１）。ブロックに区切られたクラスタデータＣ_ｂ（ｔ）は、話者組み合わせ推定部５２と、強調対象話者検出部５３と、他話者相関行列計算部５５と、強調対象話者相関行列計算部５７とに入力される。ブロックに区切られた観測信号ｘ_ｂ（ｆ,ｔ）は、他話者相関行列計算部５５と、強調対象話者相関行列計算部５７と、強調信号計算部６０に入力される。

話者組み合わせ推定部５２は、各ブロックで話された話者組み合わせを推定する（ステップＳ５２０）。現時点のブロックｂの時間区間（ブロック長が５秒であればその５秒）におけるクラスタデータＣ_ｂ（ｔ）について、全てのｔでそのブロックでの発話者を調べ、一度でも登場した話者番号ｋを昇順（或いは降順）に並べ、その話者の組み合わせをそのブロックの話者組み合わせ情報ｐ（ｂ）＝＊とする。＊は話者組み合わせラベルである。

話者組み合わせラベルは、新たな話者組み合わせが検出される毎に新しいラベルが付与される。話者組み合わせ保持部５４に保持されている話者組み合わせ情報と、そのブロックで得られた話者組み合わせ情報を比較することで、同じ話者組み合わせが過去にあったか否かを判定する（ステップＳ５２１）。話者組み合わせ保持部５４に同じ話者組み合わせがある場合、その組み合わせに付与されたラベルと同じラベルを話者組み合わせ情報ｐ（ｂ）に付与する。過去に同じ組み合わせが無い場合は、新しいラベルをその話者組み合わせ情報ｐ（ｂ）に付与する。

図４に、そのようにして生成された話者組み合わせ情報ｐ（ｂ）の一例を示す。図４の横軸は時刻ｔであり、縦軸は話者番号であり１〜４はそれぞれの話者を意味する。太線で表す時刻ｔにその話者番号に対応する話者の発話があったことを示している。ブロックｂ＝１の話者組み合わせ情報はｐ（１）＝Ａである。図４において、同じ組み合わせの話者のブロックは、ラベルＡが付与されたｂ＝１とｂ＝３とｂ＝７、ラベルＢのｂ＝２とｂ＝４、ラベルＣのｂ＝５とｂ＝６である。

話者組み合わせ推定部５２が、同じ話者組み合わせが過去になかったと判定した場合（ステップＳ５２１のＮ）、新しいラベルを話者組み合わせ情報ｐ（ｂ）に付与して話者組み合わせ保持部５４に記録する（ステップＳ５４１）。そして、他話者相関行列計算部５５は、話者ｋ以外の観測信号ｘ_ｂ（ｆ,ｔ）の相関行列である他話者相関行列Ｒ^ｂ _Ｉｋ（ｆ）を、全ての話者ｋに対して式（１７）で計算する。また、強調対象話者相関行列計算部５７は、話者ｋの観測信号ｘ_ｂ（ｆ,ｔ）の相関行列である強調対象話者相関行列Ｒ^ｂ _Ｔｋ（ｆ）を、全ての話者ｋに対して式（１８）で計算する（ステップＳ５５３,Ｓ５７１）。

ここで添え字のｐはラベルである。それぞれの計算結果は、式（１９）のように他話者相関行列保持部５６に、式（２０）のように強調対象話者相関行列保持部５８、に記録される。式（１９）の過去の他話者相関行列Ｒ^ｐ _Ｉｋ（ｆ）は話者組み合わせ毎、つまりラベル毎に記録され、式（２０）のＲ^ｐｒｅｖ _Ｔｋ（ｆ）には最も新しい強調対象話者相関行列が記録される。

話者組み合わせ推定部５２が、同じ話者組み合わせが過去にあったと判定した場合（ステップＳ５２１のＹ）、そのラベルと同じラベルを話者組み合わせ情報ｐ（ｂ）に付与して話者組み合わせ保持部５４に記録する（ステップＳ５４０）。そして、他話者相関行列計算部５５は、式（１７）で話者ｋ以外の観測信号ｘ_ｂ（ｆ,ｔ）の相関行列である他話者相関行列Ｒ^ｂ _Ｉｋ（ｆ）を求め、更に他話者相関行列保持部５６に記録されている過去の他話者相関行列Ｒ^ｐ _Ｉｋ（ｆ）のうち、同じラベルｐを持つものを読み出して式（２１）で他話者相関行列を更新する（ステップＳ５５０）。

ここでαは０より大きく１以下の値をとる忘却係数である。更新された他話者相関行列Ｒ^ｂ _Ｉｋ（ｆ）は出力されると共に、式（１９）のように過去の他話者相関行列Ｒ^ｐ _Ｉｋ（ｆ）として他話者相関行列保持部５６に記録される。

次に、強調対象話者検出部５３において、ブロックｂで話者ｋが話しているか否かを判断する（ステップＳ５５１）。話者ｋが話している場合（ステップＳ５５１のＹ）、強調対象話者相関行列計算部５７は、式（１８）で話者ｋの観測信号ｘ_ｂ（ｆ,ｔ）の相関行列である強調対象話者相関行列Ｒ^ｂ _Ｔｋ（ｆ）を計算して出力する。そして計算した強調対象話者相関行列Ｒ^ｂ _Ｔｋ（ｆ）を、最も新しい強調対象話者相関行列Ｒ^ｐｒｅｖ _Ｔｋ（ｆ）として強調対象話者相関行列保持部５８に記録する（ステップＳ５５２）。

話者ｋが話していない場合（ステップＳ５５１のＮ）、強調対象話者相関行列計算部５７は、強調対象話者相関行列保持部５８に記録されている話者ｋの最も新しい強調対象話者相関行列Ｒ^ｐｒｅｖ _Ｔｋ（ｆ）を読み出して、ブロックｂの強調対象話者相関行列Ｒ^ｂ _Ｔｋ（ｆ）として出力する（式（２２））。

以上述べた強調対象話者相関行列Ｒ^ｂ _Ｔｋ（ｆ）と他話者相関行列Ｒ^ｂ _Ｉｋ（ｆ）を得る動作を、全ての話者ｋ及び全てのブロックｂについて終了するまで行う（ステップＳ６２３のＹ）。この話者ｋとブロックｂについての繰り返し動作の制御は、制御部６２が行う。なお、図３の動作フローは、ブロック分割部５１が全ての周波数領域の信号ｘ（ｆ,ｔ）と、クラスタ情報Ｃ（ｔ）を所定時間長のブロックに区切った後に、話者組み合わせ推定部５２等が動作する例を示したが、ブロック単位で強調音声信号ベクトルを求めるようにしても良い。

図４を用いて話者ｋ＝２の強調音声を作ることを例に、信号強調部５０の動作を具体的に説明する。図４においてブロックｂ＝４では、話者ｋ＝２は話していない。しかし、話者ｋ＝１とｋ＝４の二人が発話しているので、それらの声を抑圧することが必要である。そこでブロックｂ＝４において式（１７）で計算した他話者相関行列Ｒ^ｂ _Ｉｋ（ｆ）と、過去の同じ話者組み合わせであるブロックｂ＝２で計算され他話者相関行列保持部５６に記録された過去の他話者相関行列Ｒ^ｐ _Ｉｋ（ｆ）とを用いて、ブロックｂ＝４の他話者相関行列Ｒ^ｂ _Ｉｋ（ｆ）を計算する（式（２１））。

強調対象話者相関行列Ｒ^ｂ _Ｔｋ（ｆ）は、直前のブロックｂ＝３で既に得られている最も新しい強調対象話者相関行列Ｒ^ｐｒｅｖ _Ｔｋ（ｆ）を用いる（式（２２））。このようにしてブロックｂ＝４における他話者相関行列Ｒ^ｐ _Ｉｋ（ｆ）と、強調対象話者相関行列Ｒ^ｂ _Ｔｋ（ｆ）の値が計算される。次に、係数計算部５９において話者ｋ＝２に関するＳＮ比最大化ビームフォーマの係数を計算する。

なお、ＳＮ比最大化ビームフォーマの係数を求める方法は、ブロック毎に行う点が異なるのみで、従来技術の式（８）〜式（１６）で説明した方法と同じである。また、強調信号計算部６０の動作も式（２３）に示すようにブロック毎に行う点が異なるのみで基本的な動作は同じである。これは式（２３）を、式（１６）と比較することで明らかである。

以上の動作を全ての話者ｋについて行い、強調音声信号ベクトルｙ^ｂ（ｆ,ｔ）＝[ｙ^ｂ _１（ｆ,ｔ）,…,ｙ^ｂ _Ｎ（ｆ,ｔ）]^Ｔを得る。そして、時間領域変換部６１において、逆短時間フーリエ変換を用いて、強調音声信号ベクトルｙ^ｂ（ｆ,ｔ）＝[ｙ^ｂ _１（ｆ,ｔ）,…,ｙ^ｂ _Ｎ（ｆ,ｔ）]^Ｔを、時間領域の信号ｙ^ｂ（ｔ）＝[ｙ^ｂ _１（ｔ）,…,ｙ^ｂ _Ｎ（ｔ）]^Ｔに変換する。以上の動作を全てのブロックｂについて行う。

なお、図４において、話者ｋ＝３はブロックｂ＝５で初めて登場する。この場合、ブロックｂ＝５では、図３のステップＳ５２１のＮ以降の動作を行う。もし、それ以前のブロックについても、強調音声相当のものが必要であれば、ブロックｂ＝１〜４までについては、ｙ_３（ｔ）＝０とするか、誰も話していない区間の観測信号をその区間長分つなげて代用する。

このように複数信号強調装置１００によれば、同じ話者組み合わせの過去のブロックの他話者相関行列Ｒ^ｐ _Ｉｋ（ｆ）と、最も新しい強調対象話者相関行列Ｒ^ｐｒｅｖ _Ｔｋ（ｆ）とから、強調対象話者ｋに関するＳＮ比最大化ビームフォーマの係数を計算するので、高い精度の音声強調性能を得ることができる。

〔変形例１〕
実施例１の強調対象話者相関行列計算部５７は、計算対象のブロックｂに強調対象話者ｋの発話がある場合、そのブロックで計算した話者ｋの強調対象話者相関行列Ｒ^ｂ _Ｔｋ（ｆ）を用いていた。また、計算対象のブロックに強調対象話者ｋの発話が無い場合は、過去のブロックで計算された最も新しい強調対象話者相関行列Ｒ^ｐｒｅｖ _Ｔｋ（ｆ）を用いていた。この強調対象話者相関行列Ｒ^ｂ _Ｔｋ（ｆ）を、実施例１の他話者相関行列と同じように過去に話者ｋが話したブロックの相関行列の全てを用いて計算するようにしても良い。つまり、図３の動作フローのステップＳ５５１で強調対象話者ｋが話している場合に、強調対象話者相関行列計算部５７は、式（１８）で強調対象話者相関行列Ｒ^ｂ _Ｔｋ（ｆ）を計算して出力する。そして、強調対象話者相関行列保持部５８に記録されている最も新しい強調対象話者相関行列Ｒ^ｐｒｅｖ _Ｔｋ（ｆ）を式（２４）に示すように更新する。このようにすることで、強調対象話者相関行列Ｒ^ｂ _Ｔｋ（ｆ）についても、過去のブロックの相関行列が生かされ、音声強調性能の更なる向上が期待できる。

ここでα′は０より大きく１以下の忘却係数である。
〔実験結果〕
この発明の効果を確認する目的で、従来の複数信号強調装置６００と、この発明の複数信号強調装置１００の音声強調性能の比較を行った。実験は、図５に示す凡そ３ｍ×４ｍの会議スペース内のテーブルの上に置かれた３個のマイクロホンアレーで観測した４人の会議状況を模擬した観測信号ｘ（ｆ,ｔ）を用いて行った。その観測信号ｘ（ｆ,ｔ）を、複数信号強調装置６００でブロック処理が有無の場合と、複数信号強調装置１００で音声強調処理を行った場合を比較した。ブロック長は５秒間とした。音声強調性能をＳＩＮＲ（Signal-to-Interference plus Noise-ratio）で評価した結果を表１に示す。

従来法のブロック処理ありのＳＩＮＲ＝６.５ｄＢに対して、この発明のＳＩＮＲ＝７.３ｄＢとこの発明の方が０.８ｄＢ良い結果が得られた。このようにこの発明の音声強調方法の方が、より高い性能で音声強調が出来ることが分かる。

以上説明したこの発明の複数信号強調装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、ブロック長を５秒間として説明したが、このブロック長を可変するようにしても良い。そうすることで会議の状況に会わせた音声強調を行うことができる。

また、複数信号区間推定部２における複数信号区間の推定を、音声の到来方向を分類する例で説明したが、これを音声の特徴量を分類する方法でおこなっても良い。音声特徴量を用いて音声の到来方向を分類すると、会議中の話者移動に対してより柔軟に対応することが可能になる。また、音声特徴量と音声の到来方向とを組み合わせても良い。その方法は、例えば参考文献「J.P.Pardo,X.Anguera,and C.Wooters,“Speaker diarization for multiple distant microphone meetings:mixing acoustic features and interchannel time-differences,”in Proc. of ICSLP‘Sept.2006,pp. 2194-2197.」に示されている。

上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ-ＲＡＭ（Random Access Memory）、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ-Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてフラッシュメモリー等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数のマイクロホンで観測された観測信号を周波数領域の信号x（ｆ,ｔ）に変換する周波数領域変換部と、
複数話者のそれぞれの話者の発話区間を推定してクラスタ情報Ｃ（ｔ）を出力する複数信号区間推定部と、
上記話者の発話区間の発話音声信号を強調する信号強調部と、を備える複数信号強調装置において、
上記信号強調部は、
上記周波数領域の信号x（ｆ,ｔ）と、上記クラスタ情報Ｃ（ｔ）とを入力として、所定時間長毎のブロックに区切った観測信号x_ｂ（ｆ,ｔ）とクラスタデータＣ_ｂ（ｔ）とを出力するブロック分割部と、
上記ブロックに区切ったクラスタデータＣ_ｂ（ｔ）内に存在する話者番号を調べ、それを話者組み合わせ情報ｐ（ｂ）として出力する話者組み合わせ推定部と、
上記話者組み合わせ情報ｐ（ｂ）を記録する話者組み合わせ保持部と、
上記観測信号ｘ_ｂ（ｆ,ｔ）と、上記クラスタデータＣ_ｂ（ｔ）と、上記話者組み合わせ情報ｐ（ｂ）とを入力として、強調対象話者ｋ以外の上記観測信号ｘ_ｂ（ｆ,ｔ）の相関行列である他話者相関行列の計算値と、他話者相関行列保持部を参照して上記話者組み合わせと同じ組み合わせの過去の上記他話者相関行列とから、他話者相関行列を求める他話者相関行列計算部と、
上記他話者相関行列を記録する上記他話者相関行列保持部と、
上記ブロックに区切ったクラスタデータＣ_ｂ（ｔ）内に強調対象話者ｋの発話があるか否かを判断する強調対象話者検出部と、
上記強調対象話者ｋの上記観測信号ｘ_ｂ（ｆ,ｔ）の相関行列である強調対象話者相関行列を計算する強調対象話者相関行列計算部と、
上記強調対象話者相関行列を記録する強調対象話者相関行列保持部と、
上記他話者相関行列と、上記強調対象話者相関行列とを入力として強調対象話者ｋに関するＳＮ比最大化ビームフォーマの係数を計算する係数計算部と、
を具備することを特徴とする複数信号強調装置。
請求項１に記載した複数信号強調装置において、
上記他話者相関行列計算部は、計算対象とする上記ブロックの他話者相関行列に、そのブロックと同じ話者組み合わせの過去の他話者相関行列に１以下の忘却係数を乗算して加算した値を、上記ブロックの他話者相関行列として出力するものであることを特徴とする複数信号強調装置。
請求項１又は２に記載した複数信号強調装置において、
強調対象話者相関行列計算部は、計算対象とする上記ブロックに強調対象話者ｋの発話が含まれていない場合、そのブロックの強調対象話者ｋについての相関行列を、過去のブロックで既に得られている強調対象話者相関行列に置換して出力するものであることを特徴とする複数信号強調装置。
周波数領域変換部が、複数のマイクロホンで観測された観測信号を周波数領域の信号ｘ（ｆ,ｔ）に変換する周波数領域変換過程と、
複数信号区間推定部が、複数話者のそれぞれの話者の発話区間を推定してクラスタ情報Ｃ（ｔ）を出力する複数信号区間推定過程と、
信号強調部が、上記話者の発話区間の発話音声信号を強調する信号強調過程とから成る複数信号強調方法において、
上記信号強調過程は、
ブロック分割部が、上記周波数領域の信号ｘ（ｆ,ｔ）と、上記クラスタ情報Ｃ（ｔ）とを入力として、所定時間長毎のブロックに区切った観測信号ｘ_ｂ（ｆ,ｔ）とクラスタデータＣ_ｂ（ｔ）とを出力するブロック分割ステップと、
話者組み合わせ推定部が、上記ブロックに区切ったクラスタデータＣ_ｂ（ｔ）内に存在する話者番号を調べ、それを話者組み合わせ情報ｐ（ｂ）として出力する話者組み合わせ推定ステップと、
話者組み合わせ保持部が、上記話者組み合わせ情報ｐ（ｂ）を記録する話者組み合わせ保持ステップと、
他話者相関行列計算部が、上記観測信号ｘ_ｂ（ｆ,ｔ）と、上記クラスタデータＣ_ｂ（ｔ）と、上記話者組み合わせ情報ｐ（ｂ）とを入力として、強調対象話者ｋ以外の上記観測信号ｘ_ｂ（ｆ,ｔ）の相関行列である他話者相関行列の計算値と、他話者相関行列保持部を参照して上記話者組み合わせと同じ組み合わせの過去の上記他話者相関行列とから、他話者相関行列を求める他話者相関行列計算ステップと、
他話者相関行列保持部が、上記他話者相関行列を記録する他話者相関行列保持ステップと、
強調対象話者検出部が、上記ブロックに区切ったクラスタデータＣ_ｂ（ｔ）内に強調対象話者ｋの発話があるか否かを判断する強調対象話者検出過程と、
強調対象話者相関行列計算部が、上記強調対象話者ｋの上記観測信号ｘ_ｂ（ｆ,ｔ）の相関行列である強調対象話者相関行列を計算する強調対象話者相関行列計算ステップと、
強調対象話者相関行列保持部が、上記強調対象話者相関行列を記録する強調対象話者相関行列保持ステップと、
係数計算部が、上記他話者相関行列と、上記強調対象話者相関行列とを入力として強調対象話者ｋに関するＳＮ比最大化ビームフォーマの係数を計算する係数計算ステップと、
を含むことを特徴とする複数信号強調方法。
請求項４に記載した複数信号強調方法において、
上記他話者相関行列計算ステップは、計算対象とする上記ブロックの他話者相関行列に、そのブロックと同じ話者組み合わせの過去の他話者相関行列に１以下の忘却係数を乗算して加算した値を、上記ブロックの他話者相関行列として出力するステップであることを特徴とする複数信号強調方法。
請求項４又は５に記載した複数信号強調方法において、
上記強調対象話者相関行列保持ステップは、計算対象とする上記ブロックに強調対象話者ｋの発話が含まれていない場合、そのブロックの強調対象話者ｋについての相関行列を、過去のブロックで既に得られている強調対象話者相関行列に置換して出力するステップであることを特徴とする複数信号強調方法。
請求項１乃至３の何れかに記載した複数信号強調装置としてコンピュータを機能させる装置プログラム。