JP2010181467A - 複数信号強調装置とその方法と、プログラム - Google Patents

複数信号強調装置とその方法と、プログラム Download PDF

Info

Publication number
JP2010181467A
JP2010181467A JP2009022698A JP2009022698A JP2010181467A JP 2010181467 A JP2010181467 A JP 2010181467A JP 2009022698 A JP2009022698 A JP 2009022698A JP 2009022698 A JP2009022698 A JP 2009022698A JP 2010181467 A JP2010181467 A JP 2010181467A
Authority
JP
Japan
Prior art keywords
speaker
correlation matrix
signal
unit
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009022698A
Other languages
English (en)
Other versions
JP5044581B2 (ja
Inventor
Akiko Araki
章子 荒木
Kentaro Ishizuka
健太郎 石塚
Masakiyo Fujimoto
雅清 藤本
Tomohiro Nakatani
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009022698A priority Critical patent/JP5044581B2/ja
Publication of JP2010181467A publication Critical patent/JP2010181467A/ja
Application granted granted Critical
Publication of JP5044581B2 publication Critical patent/JP5044581B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音声強調性能を向上させる。
【解決手段】この発明の複数信号強調装置の他話者相関行列計算部は、観測信号x(f,t)とクラスタデータC(t)と話者組み合わせ情報p(b)とを入力として、強調対象話者k以外の観測信号x(f,t)の相関行列である他話者相関行列の計算値と、他話者相関行列保持部を参照して同じ話者組み合わせの過去の他話者相関行列とから、他話者相関行列を求める。強調対象話者相関行列計算部は、強調対象話者kの観測信号x(f,t)の相関行列である強調対象話者相関行列を計算する。係数計算部は、他話者相関行列と、強調対象話者相関行列と、を入力として強調対象話者kに関するSN比最大化ビームフォーマの係数を計算する。
【選択図】図1

Description

この発明は、複数個の源信号に対してノイズが重畳した信号を、複数個のセンサで観測した時に、それぞれの源信号を強調する信号処理技術に関する。例えば、話者が複数人いる状況で、その中の1人あるいは複数人の音声及びノイズが重畳した信号を、複数個のマイクロホンで観測した時に、それぞれの話者音声信号を強調する複数信号強調装置と、その方法とプログラムに関する。
話者が複数人いる状況で、その中の1人あるいは複数話者音声及びノイズが重畳した信号を、複数のマイクロホンで観測した時に、それぞれの話者音声信号を強調する技術としては、例えば特許文献1に開示された技術が知られている。図6に、その技術を用いた複数信号強調装置600の機能構成例を示して動作を説明する。複数信号強調装置600は、周波数変換部1、複数信号区間推定部2、信号強調部3、を備える。周波数領域変換部1は、M本のマイクロホンによりそれぞれ収録した時間領域の観測信号x(t)=[x(t),…,x(t)]を、例えば32ms毎に窓関数で切り出して、切り出した各フレームtについて短時間フーリエ変換により周波数毎の時系列信号である観測信号ベクトルx(f,t)=[x(f,t),…,x(f,t)]に変換する。複数信号区間推定部2は、観測信号ベクトルx(f,t)を入力として、各話者の発話区間を推定する。
発話区間を推定する音声検出技術としては、例えば特許文献2や非特許文献1に開示されている方法が知られている。その方法で発話区間を推定する複数信号区間推定部2は、音声区間推定部21、到来方向推定部22、到来方向分類部23、を備える。その動作フローを図7に示す。音声区間推定部21は、各話者の発話区間を、観測信号ベクトルx(f,t)の各フレームtに音声が存在するか否かを音声存在確率を計算することにより推定する(ステップS21)。音声存在確率の計算に際しては、例えば非特許文献2、非特許文献3に記載された方法が利用できる。前者で説明すると、当該フレームにおける音声存在確率p(t)を式(1)により求める。
Figure 2010181467
ここで、λ(f)は周波数fにおけるノイズの平均パワー(音声が明らかに存在しない録音ファイルの冒頭区間などで求める)、x(f,t)はM本のマイクロホンにおける周波数領域の観測信号x(f,t)〜x(f,t)の中から任意に選んだ何れか1本についての周波数領域の観測信号である。なお、x(f,t)は全てのマイクロホンの振幅の平均値として次のように求めても構わない(式2)。
Figure 2010181467
音声区間推定部21は、式(1)により求めた音声存在確率p(t)をそのまま出力しても良いし、p(t)がある閾値より大きければそのフレームは音声区間Pであると判定し、小さければ非音声(ノイズ)区間Pと判定して出力しても良い。
到来方向推定部22は、観測信号ベクトルx(f,t)の到来方向を各フレーム毎又は各フレームの各周波数成分毎に推定する(ステップS22)。具体的には、観測信号のマイクロホンjとj′とから到来時間差q′jj′を全てのマイクロホンペアについて求め、それらを並べた縦ベクトルとマイクロホンの座標系とから音声到来方向ベクトルを推定する。
各フレーム毎に到来時間差q′jj′を計算する手法として、非特許文献4にて開示されているGCC−PHATと呼ばれる手法がある。この手法においては到来時間差q′jj′(t)を次式に従い算出する。
Figure 2010181467
これを全てのマイクロホンペアjj′について求めて、それらを並べた縦ベクトルをvq′(t)とする。なお、全てのマイクロホンペアを用いる代わりに、ある基準マイクロホンを決め、基準マイクロホンとその他のマイクロホンに関する全てのペアを用いても良い。音声到来方向ベクトルvq(t)は、vq′(t)と音速cとマイクロホンの座標系VDとから次式により推定する。
Figure 2010181467
ここで、+はMoore−Penroseの擬似逆行列を表し、vdがマイクロホンjの座標を[x,y,z]と並べたベクトルであるとき、VD=[vd−vd,…,vdM−vd]Tである。このように求めた音声到来方向ベクトルvq(t)は、到来方向の水平角がθ、仰角がφとすると、次式のように表すことができる。
Figure 2010181467
各フレームの各周波数成分毎に到来時間差q′jj′を計算する場合は、マイクロホンjとj′との到来時間差q′jj′(f,t)を次式に従い算出する。
Figure 2010181467
これを全てのマイクロホンペアjj′について求めて(又は上記のように基準マイクロホンに対して求めて)、それらを並べた縦ベクトルをvq′(f,t)とし、式(4)と同様にして音声到来方向ベクトルvq(f,t)を推定する。
なお、音声区間推定部21の処理と到来方向推定部22の処理とは並行して行っても良いし、音声区間推定部21の処理により音声区間を推定した上で、その音声区間に該当するフレームに絞って到来方向推定部22の処理を行うようにしても良い。
到来方向分類部23は、音声区間Pに該当する各フレームについて、音声到来方向(ベクトルvq(t)又はvq(f,t))が類似するものを各話者区間P(k=1,…,N)としてクラスタリングを行い、全てのクラスタについて、クラスタのインデックスkとそのクラスタに属する全てのフレームのインデックスtとの組を出力する(ステップS23)。
Figure 2010181467
クラスタリング手法としては、公知のk−means法や階層的クラスタリングを用いても良いし、オンラインクラスタリングを用いても良い(非特許文献5参照)。このクラスタリング処理で分類されたクラスタCが、そのクラスタを形成しているクラスタメンバ(ベクトルvq(t)又はvq(f,t))から求められるセントロイドで示される角度方向にいる話者kに相当し、クラスタメンバに該当する各フレームtが話者kによる話者区間Pを構成する。
なお、上記の説明では、到来方向推定部22はマイクロホン間の到達時間差ベクトルvq′(t)又はvq′(f,t)を推定した上で、更に音声到来方向ベクトルvq(t)又はvq(f,t)を推定しているが、単に到達時間差ベクトルを推定するだけでも構わない。従って、この場合は図8に示すように、到来方向推定部22が到来時間差推定部82として構成され、到来方向分類部23が到来方向時間差分類部83としてvq(t)又はvq(f,t)の代わりにvq′(t)又はvq′(f,t)を分類するように構成すれば良い。
以上述べたように複数信号区間推定部2は、音声区間推定部21で音声であると推定された時間区間と、到来方向推定部22で推定された各時刻tにおける到来方向とを、到来方向分類部23に入力し、到来方向分類部23にて、音声区間における到来方向を分類することで、各話者の発話区間を推定する。ここで、各話者の発話区間は、各時刻において誰が話したか、という情報として0以上N(Nは検出された話者数)以下の整数値を取るクラスタ情報C(t)として出力される。C(t)が1以上の値kを取れば、その時間区間tにはk番目の話者が存在することを表す。時間区間tが音声区間ではないノイズ区間の場合は、C(t)=0とする。
次に信号強調部3において、各話者k毎に、音声強調を行う。信号強調部3は、目的話者/他話者分類部31、RI計算部32、RT計算部33、係数計算部34、強調信号計算部35、時間領域変換部36を備える。音声強調方法としては、ここでは、SN比ビームフォーマを用いる方法を示す(非特許文献6)。信号強調部3では、検出された各話者k毎にSN比最大化ビームフォーマw(f)を構成し、そのSN比最大化ビームフォーマを用いて強調音声y(f,t)=w (f)x(f,t)を得る。すなわち、ここでのSN比最大化ビームフォーマは、出力信号y(f,t)中の話者kの信号成分と、ノイズ成分+他話者成分の比λ(f)(SN比)を、最大化するw(f)をビームフォーマの係数とする。
Figure 2010181467
ここで、RTk(f)とRIk(f)はそれぞれ、話者k区間{t|C(t)=k}の観測信号の相関行列と、話者k区間{t|C(t)≠k}以外の観測信号の相関行列であり、w はビームフォーマの共役転置である。E[・]C(t)=kはC(t)=kを満たす時間区間についての平均を取る操作である。
まず、目的話者/他話者分類部31において、各話者毎に話者区間k区間{t|C(t)=k}と話者k以外の区間{t|C(t)≠k}を決定する。次にRI計算部32とRT計算部33において、式(9)と式(10)をそれぞれ計算する。
式(8)をw(f)で微分し0と置くと、式(11)の関係が得られる。
Figure 2010181467
最大のSN比λ(f)は、式(11)で与えられた一般化固有値問題における最大固有値で与えられ、その最大固有値に対応する固有ベクトルe(f)を計算することで話者kに関するSN比最大化ビームフォーマの係数を得ることができる。
Figure 2010181467
係数計算部34は、式(11)と式(12)とから話者kに関するSN比最大化ビームフォーマの係数を求める。なお、SN比最大化ビームフォーマは、ゲインに関して不定性を持つ。これをこのまま音声信号のような広帯域信号に適用すると、出力がw(f)の周波数特性により歪んでしまう。そこで、係数計算部34は、更に観測信号とビームフォーマw(f)の出力信号との誤差を最小にする補正フィルタa(f)を用意し、これでビームフォーマw(f)を補正する。観測信号と補正後の出力信号の誤差は式(13)で表せる。
Figure 2010181467
式(13)を最小にする補正フィルタa(f)は∂G(a(f))/∂a(f)をゼロと置くことで式(14)で計算できる。
Figure 2010181467
ここでRx(f)=E{x(f,t)x(f,t)}は、観測信号の全時間区間における相関行列である。ビームフォーマの補正は、a(f)のある任意のJ番目の要素a(f)を用いて式(15)に示すように行う。この補正されたビームフォーマを観測信号ベクトルに作用させることにより、話者kに関する強調音声y(f,t)を得る。
Figure 2010181467
強調信号計算部35で、強調音声y(f,t)を全ての話者kについて求め、強調音声信号ベクトルy(f,t)=[y(f,t),…,y(f,t)]を得る。最後に時間領域変換部36において、逆短時間フーリエ変換を用いて、強調音声信号ベクトルy(f,t)=[y(f,t),…,y(f,t)]を時間領域の信号y(t)=[y(t),…,y(t)]に変換する。
特開2008−203474号公報 特表2000−512108号公報
S.Araki, M.Fujimoto, K.Ishizuka, H.Sawada and S.Makino, "Speker indexing and speech enhancement in real meetings/conversations," IEEE International Conference on Acoustics,Speech, and Signal Processing(ICASSP-2008), 2008, p.93-96 J.Sohn, N.S.Kim and W.Sung,"A Statistical Model-Based Voice Activity Detection," IEEE Signal Processing letters, 1999, vol.6, no.1, p.1-3 藤本、石塚、中谷、「複数の音声区間検出法の適応的統合の検討と考察」、電子情報通信学会 音声研究会、2007、SP2007-97、p.7-12 C.H.Knapp and G.C.Carter,"The generalized correlation method for estimation of time delay," IEEE Trans. Acoust. Speech and Signal Processing, 1976, vol.24, no.4, p.320-327 R.O.Duda, P.E.Hart and D.G.Stork,"Pattern Classification," 2ndedition, Wiley Interscience, 2000 H. L. Van Trees, "Optimum Array Processing," John Wiley & Sons, 2002.
従来の方法では、式(9)や式(10)に示した平均操作を、収録したデータ全体に対して行うことが普通である。よって、音声収録中に話者の位置がほとんど変化しない状況で、且つ、マイクロホンの数が話者数よりも多い場合には良好に動作する。しかし、収録中に話者の位置が変化する場合や、マイクロホンの数が話者数よりも少ない場合には、性能が劣化することが知られている。この原因は、SN比最大化ビームフォーマが、マイクロホンの数引く1個の他話者音声しか抑圧できないことによる。
マイクロホンの数が話者数よりも少ない場合の対処の方法として、音声データを例えば5秒毎のブロックに区切ることで、各ブロックでの話者数がマイクロホン数よりも少なくなることを想定し、ブロック毎にSN比最大化ビームフォーマの係数を推定する例が示されている(特許文献1)。しかし、5秒のような短いブロックでは、SN比最大化ビームフォーマの係数w(f)の推定精度が落ちてしまい高い音声強調性能が得られない課題がある。
この発明はこの点に鑑みてなされたものであり、マイクロホン数が話者数よりも少ない場合の強調手法であるブロック処理において、高い精度でSN比最大化ビームフォーマの係数を推定し、高い音声強調性能を得ることができる複数信号強調装置とその方法と、そのプログラムを提供することを目的とする。
この発明の複数信号強調装置は、複数のマイクロホンで観測された観測信号を周波数領域変換部と、複数話者のそれぞれの話者の発話区間を推定してクラスタ情報C(t)を出力する複数信号区間推定部と、話者の発話区間の発話音声信号を強調する信号強調部とを備える。信号強調部は、ブロック分割部と、話者組み合わせ推定部と、話者組み合わせ保持部と、他話者相関行列計算部と、他話者相関行列保持部と、強調対象話者検出部と、強調対象話者相関行列計算部と、強調対象話者相関行列保持部と、係数計算部と、を具備する。
ブロック分割部は、周波数領域の信号x(f,t)と、クラスタ情報C(t)とを入力として、所定時間長毎のブロックに区切った観測信号x(f,t)とクラスタデータC(t)とを出力する。話者組み合わせ推定部は、ブロックに区切ったクラスタデータC(t)内に存在する話者番号を調べ、それを話者組み合わせ情報p(b)として出力する。話者組み合わせ保持部は、話者組み合わせ情報p(b)を記録する。他話者相関行列計算部は、観測信号x(f,t)と、クラスタデータC(t)と、話者組み合わせ情報p(b)とを入力として、強調対象話者k以外の観測信号x(f,t)の相関行列である他話者相関行列の計算値と、他話者相関行列保持部を参照して同じ話者組み合わせの過去の他話者相関行列とから、他話者相関行列を求める。強調対象話者検出部は、ブロックに区切ったクラスタデータC(t)内に強調対象話者kの発話があるか否かを判断する。強調対象話者相関行列計算部は、強調対象話者kの観測信号x(f,t)の相関行列である強調対象話者相関行列を計算する。強調対象話者相関行列保持部は、強調対象話者相関行列を記録する。係数計算部は、他話者相関行列と、強調対象話者相関行列とを入力として強調対象話者kに関するSN比最大化ビームフォーマの係数を計算する。
この発明によれば、他話者相関行列計算が、計算対象のブロックの強調対象話者以外の観測信号の相関行列の計算値と、計算対象のブロックと同じ話者組み合わせの過去の他話者相関行列とから、他話者相関行列を求める。そして、強調対象話者相関行列計算部で計算した強調対象話者相関行列と、その他話者相関行列とから強調対象話者に関するSN比最大化ビームフォーマの係数を計算する。したがって、過去のブロックのデータを適切に選択してSN比最大化ビームフォーマ係数の推定を行うので、特に、マイクロホン数が話者数よりも少ない場合の強調手法であるブロック処理において、高い精度の音声強調性能を得ることができる。
この発明の複数信号強調装置100の機能構成例を示す図。 信号強調部50の機能構成例を示す図。 信号強調部50の動作フローを示す図。 複数信号強調装置100の出力の一例を示す図。 実験の状況を示す図。 従来の複数信号強調装置600の機能構成例を示す図。 複数信号区間推定部2の動作フローを示す図。 複数信号区間推定部2の変形例の機能構成を示す図。
以下に、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は省略する。
図1にこの発明の複数信号強調装置100の機能構成例を示す。複数信号強調装置100は、周波数領域変換部1、複数信号区間推定部2、信号強調部50を備える。周波数領域変換部1と複数信号区間推定部2は、従来技術の複数信号強調装置600と同じものである。複数信号強調装置100は、信号強調部50に特徴がある。
図2に信号強調部50の機能構成例を示す。信号強調部50は、ブロック分割部51、話者組み合わせ推定部52、強調対象話者検出部53、話者組み合わせ保持部54、他話者相関行列計算部55、他話者相関行列保持部56、強調対象話者相関行列計算部57、強調対象話者相関行列保持部58、係数計算部59、強調信号計算部60、時間領域変換部61、制御部62を備える。複数信号強調装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
ブロック分割部51は、周波数領域変換部1が出力する周波数領域の信号x(f,t)と、複数信号区間推定部2が出力するクラスタ情報C(t)とを入力として、所定時間長のブロックに区切った観測信号x(f,t)とクラスタデータC(t)とを出力する。話者組み合わせ推定部52は、ブロックに区切ったクラスタデータC(t)内に存在する話者番号を調べ、それを話者組み合わせ情報p(b)として出力する。話者組み合わせ保持部54は、話者組み合わせ情報p(b)を記録する。
他話者相関行列計算部55は、観測信号x(f,t)と、クラスタデータC(t)と、組み合わせ情報p(b)とを入力として、強調対象話者k以外の観測信号x(f,t)の相関行列である他話者相関行列の計算値と、他話者相関行列保持部56を参照して話者組み合わせと同じ組み合わせの過去の他話者相関行列とから他話者相関行列を求める。求めた他話者相関行列は、他話者相関行列保持部56に記録される。
強調対象話者検出部53は、ブロックに区切ったクラスタデータC(t)内に強調対象話者kの発話があるか否かを判断する。強調対象話者相関行列計算部57は、強調対象話者kの観測信号x(f,t)の相関行列である強調対象話者相関行列を計算する。計算された強調対象話者相関行列は、強調対象話者相関行列保持部58に記録される。係数計算部59は、他話者相関行列と、強調対象話者相関行列とを入力として強調対象話者kに関するSN比最大化ビームフォーマの係数を計算する。話者組み合わせ推定部52から、強調対象話者相関行列保持部58にかけては、この実施例の主要部であり詳細は後述する。
強調信号計算部60と時間領域変換部61については、従来の強調信号計算部35及び時間領域変換部36と同じものである。制御部62は、各部の時系列的な動作等を制御するものである。
複数信号強調装置100によれば、話者組み合わせ情報p(b)に基づいて、過去の同じ話者組み合わせの他話者相関行列を利用して、強調対象話者kに関するSN比最大化ビームフォーマの係数を計算するので、高い精度で音声強調性能を得ることができる。
図3に信号強調部50の動作フローを示し、更に詳細に動作を説明する。周波数領域の信号x(f,t)とクラスタ情報C(t)は、ブロック分割部51において、例えば5秒毎のブロックに区切られる(ステップS51)。ブロックに区切られたクラスタデータC(t)は、話者組み合わせ推定部52と、強調対象話者検出部53と、他話者相関行列計算部55と、強調対象話者相関行列計算部57とに入力される。ブロックに区切られた観測信号x(f,t)は、他話者相関行列計算部55と、強調対象話者相関行列計算部57と、強調信号計算部60に入力される。
話者組み合わせ推定部52は、各ブロックで話された話者組み合わせを推定する(ステップS520)。現時点のブロックbの時間区間(ブロック長が5秒であればその5秒)におけるクラスタデータC(t)について、全てのtでそのブロックでの発話者を調べ、一度でも登場した話者番号kを昇順(或いは降順)に並べ、その話者の組み合わせをそのブロックの話者組み合わせ情報p(b)=*とする。*は話者組み合わせラベルである。
話者組み合わせラベルは、新たな話者組み合わせが検出される毎に新しいラベルが付与される。話者組み合わせ保持部54に保持されている話者組み合わせ情報と、そのブロックで得られた話者組み合わせ情報を比較することで、同じ話者組み合わせが過去にあったか否かを判定する(ステップS521)。話者組み合わせ保持部54に同じ話者組み合わせがある場合、その組み合わせに付与されたラベルと同じラベルを話者組み合わせ情報p(b)に付与する。過去に同じ組み合わせが無い場合は、新しいラベルをその話者組み合わせ情報p(b)に付与する。
図4に、そのようにして生成された話者組み合わせ情報p(b)の一例を示す。図4の横軸は時刻tであり、縦軸は話者番号であり1〜4はそれぞれの話者を意味する。太線で表す時刻tにその話者番号に対応する話者の発話があったことを示している。ブロックb=1の話者組み合わせ情報はp(1)=Aである。図4において、同じ組み合わせの話者のブロックは、ラベルAが付与されたb=1とb=3とb=7、ラベルBのb=2とb=4、ラベルCのb=5とb=6である。
話者組み合わせ推定部52が、同じ話者組み合わせが過去になかったと判定した場合(ステップS521のN)、新しいラベルを話者組み合わせ情報p(b)に付与して話者組み合わせ保持部54に記録する(ステップS541)。そして、他話者相関行列計算部55は、話者k以外の観測信号x(f,t)の相関行列である他話者相関行列R Ik(f)を、全ての話者kに対して式(17)で計算する。また、強調対象話者相関行列計算部57は、話者kの観測信号x(f,t)の相関行列である強調対象話者相関行列R Tk(f)を、全ての話者kに対して式(18)で計算する(ステップS553,S571)。
Figure 2010181467
ここで添え字のpはラベルである。それぞれの計算結果は、式(19)のように他話者相関行列保持部56に、式(20)のように強調対象話者相関行列保持部58、に記録される。式(19)の過去の他話者相関行列R Ik(f)は話者組み合わせ毎、つまりラベル毎に記録され、式(20)のRprev Tk(f)には最も新しい強調対象話者相関行列が記録される。
話者組み合わせ推定部52が、同じ話者組み合わせが過去にあったと判定した場合(ステップS521のY)、そのラベルと同じラベルを話者組み合わせ情報p(b)に付与して話者組み合わせ保持部54に記録する(ステップS540)。そして、他話者相関行列計算部55は、式(17)で話者k以外の観測信号x(f,t)の相関行列である他話者相関行列R Ik(f)を求め、更に他話者相関行列保持部56に記録されている過去の他話者相関行列R Ik(f)のうち、同じラベルpを持つものを読み出して式(21)で他話者相関行列を更新する(ステップS550)。
Figure 2010181467
ここでαは0より大きく1以下の値をとる忘却係数である。更新された他話者相関行列R Ik(f)は出力されると共に、式(19)のように過去の他話者相関行列R Ik(f)として他話者相関行列保持部56に記録される。
次に、強調対象話者検出部53において、ブロックbで話者kが話しているか否かを判断する(ステップS551)。話者kが話している場合(ステップS551のY)、強調対象話者相関行列計算部57は、式(18)で話者kの観測信号x(f,t)の相関行列である強調対象話者相関行列R Tk(f)を計算して出力する。そして計算した強調対象話者相関行列R Tk(f)を、最も新しい強調対象話者相関行列Rprev Tk(f)として強調対象話者相関行列保持部58に記録する(ステップS552)。
話者kが話していない場合(ステップS551のN)、強調対象話者相関行列計算部57は、強調対象話者相関行列保持部58に記録されている話者kの最も新しい強調対象話者相関行列Rprev Tk(f)を読み出して、ブロックbの強調対象話者相関行列R Tk(f)として出力する(式(22))。
Figure 2010181467
以上述べた強調対象話者相関行列R Tk(f)と他話者相関行列R Ik(f)を得る動作を、全ての話者k及び全てのブロックbについて終了するまで行う(ステップS623のY)。この話者kとブロックbについての繰り返し動作の制御は、制御部62が行う。なお、図3の動作フローは、ブロック分割部51が全ての周波数領域の信号x(f,t)と、クラスタ情報C(t)を所定時間長のブロックに区切った後に、話者組み合わせ推定部52等が動作する例を示したが、ブロック単位で強調音声信号ベクトルを求めるようにしても良い。
図4を用いて話者k=2の強調音声を作ることを例に、信号強調部50の動作を具体的に説明する。図4においてブロックb=4では、話者k=2は話していない。しかし、話者k=1とk=4の二人が発話しているので、それらの声を抑圧することが必要である。そこでブロックb=4において式(17)で計算した他話者相関行列R Ik(f)と、過去の同じ話者組み合わせであるブロックb=2で計算され他話者相関行列保持部56に記録された過去の他話者相関行列R Ik(f)とを用いて、ブロックb=4の他話者相関行列R Ik(f)を計算する(式(21))。
強調対象話者相関行列R Tk(f)は、直前のブロックb=3で既に得られている最も新しい強調対象話者相関行列Rprev Tk(f)を用いる(式(22))。このようにしてブロックb=4における他話者相関行列R Ik(f)と、強調対象話者相関行列R Tk(f)の値が計算される。次に、係数計算部59において話者k=2に関するSN比最大化ビームフォーマの係数を計算する。
なお、SN比最大化ビームフォーマの係数を求める方法は、ブロック毎に行う点が異なるのみで、従来技術の式(8)〜式(16)で説明した方法と同じである。また、強調信号計算部60の動作も式(23)に示すようにブロック毎に行う点が異なるのみで基本的な動作は同じである。これは式(23)を、式(16)と比較することで明らかである。
Figure 2010181467
以上の動作を全ての話者kについて行い、強調音声信号ベクトルy(f,t)=[y (f,t),…,y (f,t)]を得る。そして、時間領域変換部61において、逆短時間フーリエ変換を用いて、強調音声信号ベクトルy(f,t)=[y (f,t),…,y (f,t)]を、時間領域の信号y(t)=[y (t),…,y (t)]に変換する。以上の動作を全てのブロックbについて行う。
なお、図4において、話者k=3はブロックb=5で初めて登場する。この場合、ブロックb=5では、図3のステップS521のN以降の動作を行う。もし、それ以前のブロックについても、強調音声相当のものが必要であれば、ブロックb=1〜4までについては、y(t)=0とするか、誰も話していない区間の観測信号をその区間長分つなげて代用する。
このように複数信号強調装置100によれば、同じ話者組み合わせの過去のブロックの他話者相関行列R Ik(f)と、最も新しい強調対象話者相関行列Rprev Tk(f)とから、強調対象話者kに関するSN比最大化ビームフォーマの係数を計算するので、高い精度の音声強調性能を得ることができる。
〔変形例1〕
実施例1の強調対象話者相関行列計算部57は、計算対象のブロックbに強調対象話者kの発話がある場合、そのブロックで計算した話者kの強調対象話者相関行列R Tk(f)を用いていた。また、計算対象のブロックに強調対象話者kの発話が無い場合は、過去のブロックで計算された最も新しい強調対象話者相関行列Rprev Tk(f)を用いていた。この強調対象話者相関行列R Tk(f)を、実施例1の他話者相関行列と同じように過去に話者kが話したブロックの相関行列の全てを用いて計算するようにしても良い。つまり、図3の動作フローのステップS551で強調対象話者kが話している場合に、強調対象話者相関行列計算部57は、式(18)で強調対象話者相関行列R Tk(f)を計算して出力する。そして、強調対象話者相関行列保持部58に記録されている最も新しい強調対象話者相関行列Rprev Tk(f)を式(24)に示すように更新する。このようにすることで、強調対象話者相関行列R Tk(f)についても、過去のブロックの相関行列が生かされ、音声強調性能の更なる向上が期待できる。
Figure 2010181467
ここでα′は0より大きく1以下の忘却係数である。
〔実験結果〕
この発明の効果を確認する目的で、従来の複数信号強調装置600と、この発明の複数信号強調装置100の音声強調性能の比較を行った。実験は、図5に示す凡そ3m×4mの会議スペース内のテーブルの上に置かれた3個のマイクロホンアレーで観測した4人の会議状況を模擬した観測信号x(f,t)を用いて行った。その観測信号x(f,t)を、複数信号強調装置600でブロック処理が有無の場合と、複数信号強調装置100で音声強調処理を行った場合を比較した。ブロック長は5秒間とした。音声強調性能をSINR(Signal-to-Interference plus Noise-ratio)で評価した結果を表1に示す。
Figure 2010181467
従来法のブロック処理ありのSINR=6.5dBに対して、この発明のSINR=7.3dBとこの発明の方が0.8dB良い結果が得られた。このようにこの発明の音声強調方法の方が、より高い性能で音声強調が出来ることが分かる。
以上説明したこの発明の複数信号強調装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、ブロック長を5秒間として説明したが、このブロック長を可変するようにしても良い。そうすることで会議の状況に会わせた音声強調を行うことができる。
また、複数信号区間推定部2における複数信号区間の推定を、音声の到来方向を分類する例で説明したが、これを音声の特徴量を分類する方法でおこなっても良い。音声特徴量を用いて音声の到来方向を分類すると、会議中の話者移動に対してより柔軟に対応することが可能になる。また、音声特徴量と音声の到来方向とを組み合わせても良い。その方法は、例えば参考文献「J.P.Pardo,X.Anguera,and C.Wooters,“Speaker diarization for multiple distant microphone meetings:mixing acoustic features and interchannel time-differences,”in Proc. of ICSLP‘Sept.2006,pp. 2194-2197.」に示されている。
上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 複数のマイクロホンで観測された観測信号を周波数領域の信号x(f,t)に変換する周波数領域変換部と、
    複数話者のそれぞれの話者の発話区間を推定してクラスタ情報C(t)を出力する複数信号区間推定部と、
    上記話者の発話区間の発話音声信号を強調する信号強調部と、を備える複数信号強調装置において、
    上記信号強調部は、
    上記周波数領域の信号x(f,t)と、上記クラスタ情報C(t)とを入力として、所定時間長毎のブロックに区切った観測信号x(f,t)とクラスタデータC(t)とを出力するブロック分割部と、
    上記ブロックに区切ったクラスタデータC(t)内に存在する話者番号を調べ、それを話者組み合わせ情報p(b)として出力する話者組み合わせ推定部と、
    上記話者組み合わせ情報p(b)を記録する話者組み合わせ保持部と、
    上記観測信号x(f,t)と、上記クラスタデータC(t)と、上記話者組み合わせ情報p(b)とを入力として、強調対象話者k以外の上記観測信号x(f,t)の相関行列である他話者相関行列の計算値と、他話者相関行列保持部を参照して上記話者組み合わせと同じ組み合わせの過去の上記他話者相関行列とから、他話者相関行列を求める他話者相関行列計算部と、
    上記他話者相関行列を記録する上記他話者相関行列保持部と、
    上記ブロックに区切ったクラスタデータC(t)内に強調対象話者kの発話があるか否かを判断する強調対象話者検出部と、
    上記強調対象話者kの上記観測信号x(f,t)の相関行列である強調対象話者相関行列を計算する強調対象話者相関行列計算部と、
    上記強調対象話者相関行列を記録する強調対象話者相関行列保持部と、
    上記他話者相関行列と、上記強調対象話者相関行列とを入力として強調対象話者kに関するSN比最大化ビームフォーマの係数を計算する係数計算部と、
    を具備することを特徴とする複数信号強調装置。
  2. 請求項1に記載した複数信号強調装置において、
    上記他話者相関行列計算部は、計算対象とする上記ブロックの他話者相関行列に、そのブロックと同じ話者組み合わせの過去の他話者相関行列に1以下の忘却係数を乗算して加算した値を、上記ブロックの他話者相関行列として出力するものであることを特徴とする複数信号強調装置。
  3. 請求項1又は2に記載した複数信号強調装置において、
    強調対象話者相関行列計算部は、計算対象とする上記ブロックに強調対象話者kの発話が含まれていない場合、そのブロックの強調対象話者kについての相関行列を、過去のブロックで既に得られている強調対象話者相関行列に置換して出力するものであることを特徴とする複数信号強調装置。
  4. 周波数領域変換部が、複数のマイクロホンで観測された観測信号を周波数領域の信号x(f,t)に変換する周波数領域変換過程と、
    複数信号区間推定部が、複数話者のそれぞれの話者の発話区間を推定してクラスタ情報C(t)を出力する複数信号区間推定過程と、
    信号強調部が、上記話者の発話区間の発話音声信号を強調する信号強調過程とから成る複数信号強調方法において、
    上記信号強調過程は、
    ブロック分割部が、上記周波数領域の信号x(f,t)と、上記クラスタ情報C(t)とを入力として、所定時間長毎のブロックに区切った観測信号x(f,t)とクラスタデータC(t)とを出力するブロック分割ステップと、
    話者組み合わせ推定部が、上記ブロックに区切ったクラスタデータC(t)内に存在する話者番号を調べ、それを話者組み合わせ情報p(b)として出力する話者組み合わせ推定ステップと、
    話者組み合わせ保持部が、上記話者組み合わせ情報p(b)を記録する話者組み合わせ保持ステップと、
    他話者相関行列計算部が、上記観測信号x(f,t)と、上記クラスタデータC(t)と、上記話者組み合わせ情報p(b)とを入力として、強調対象話者k以外の上記観測信号x(f,t)の相関行列である他話者相関行列の計算値と、他話者相関行列保持部を参照して上記話者組み合わせと同じ組み合わせの過去の上記他話者相関行列とから、他話者相関行列を求める他話者相関行列計算ステップと、
    他話者相関行列保持部が、上記他話者相関行列を記録する他話者相関行列保持ステップと、
    強調対象話者検出部が、上記ブロックに区切ったクラスタデータC(t)内に強調対象話者kの発話があるか否かを判断する強調対象話者検出過程と、
    強調対象話者相関行列計算部が、上記強調対象話者kの上記観測信号x(f,t)の相関行列である強調対象話者相関行列を計算する強調対象話者相関行列計算ステップと、
    強調対象話者相関行列保持部が、上記強調対象話者相関行列を記録する強調対象話者相関行列保持ステップと、
    係数計算部が、上記他話者相関行列と、上記強調対象話者相関行列とを入力として強調対象話者kに関するSN比最大化ビームフォーマの係数を計算する係数計算ステップと、
    を含むことを特徴とする複数信号強調方法。
  5. 請求項4に記載した複数信号強調方法において、
    上記他話者相関行列計算ステップは、計算対象とする上記ブロックの他話者相関行列に、そのブロックと同じ話者組み合わせの過去の他話者相関行列に1以下の忘却係数を乗算して加算した値を、上記ブロックの他話者相関行列として出力するステップであることを特徴とする複数信号強調方法。
  6. 請求項4又は5に記載した複数信号強調方法において、
    上記強調対象話者相関行列保持ステップは、計算対象とする上記ブロックに強調対象話者kの発話が含まれていない場合、そのブロックの強調対象話者kについての相関行列を、過去のブロックで既に得られている強調対象話者相関行列に置換して出力するステップであることを特徴とする複数信号強調方法。
  7. 請求項1乃至3の何れかに記載した複数信号強調装置としてコンピュータを機能させる装置プログラム。
JP2009022698A 2009-02-03 2009-02-03 複数信号強調装置とその方法と、プログラム Active JP5044581B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009022698A JP5044581B2 (ja) 2009-02-03 2009-02-03 複数信号強調装置とその方法と、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009022698A JP5044581B2 (ja) 2009-02-03 2009-02-03 複数信号強調装置とその方法と、プログラム

Publications (2)

Publication Number Publication Date
JP2010181467A true JP2010181467A (ja) 2010-08-19
JP5044581B2 JP5044581B2 (ja) 2012-10-10

Family

ID=42763078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009022698A Active JP5044581B2 (ja) 2009-02-03 2009-02-03 複数信号強調装置とその方法と、プログラム

Country Status (1)

Country Link
JP (1) JP5044581B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019202966A1 (ja) * 2018-04-16 2019-10-24 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP2020003751A (ja) * 2018-07-02 2020-01-09 株式会社東芝 音信号処理装置、音信号処理方法、およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008060635A (ja) * 2006-08-29 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体
JP2008158035A (ja) * 2006-12-21 2008-07-10 Nippon Telegr & Teleph Corp <Ntt> 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP2008203474A (ja) * 2007-02-20 2008-09-04 Nippon Telegr & Teleph Corp <Ntt> 多信号強調装置、方法、プログラム及びその記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008060635A (ja) * 2006-08-29 2008-03-13 Nippon Telegr & Teleph Corp <Ntt> ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体
JP2008158035A (ja) * 2006-12-21 2008-07-10 Nippon Telegr & Teleph Corp <Ntt> 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP2008203474A (ja) * 2007-02-20 2008-09-04 Nippon Telegr & Teleph Corp <Ntt> 多信号強調装置、方法、プログラム及びその記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019202966A1 (ja) * 2018-04-16 2019-10-24 ソニー株式会社 信号処理装置および方法、並びにプログラム
JPWO2019202966A1 (ja) * 2018-04-16 2021-04-22 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP7279710B2 (ja) 2018-04-16 2023-05-23 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
JP2020003751A (ja) * 2018-07-02 2020-01-09 株式会社東芝 音信号処理装置、音信号処理方法、およびプログラム

Also Published As

Publication number Publication date
JP5044581B2 (ja) 2012-10-10

Similar Documents

Publication Publication Date Title
JP7191793B2 (ja) 信号処理装置、信号処理方法、及びプログラム
Schwartz et al. Multi-microphone speech dereverberation and noise reduction using relative early transfer functions
US11869481B2 (en) Speech signal recognition method and device
JP4746533B2 (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
JP4891801B2 (ja) 多信号強調装置、方法、プログラム及びその記録媒体
JP4964204B2 (ja) 複数信号区間推定装置、複数信号区間推定方法、そのプログラムおよび記録媒体
JP4875656B2 (ja) 信号区間推定装置とその方法と、プログラムとその記録媒体
JP2004274763A (ja) マイクロホンアレイ構造、ビーム形成装置およびビーム形成方法、ならびに音源方向推定装置および方法
JP6622159B2 (ja) 信号処理システム、信号処理方法およびプログラム
Xiao et al. The NTU-ADSC systems for reverberation challenge 2014
JP5566846B2 (ja) ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法
CN104485108A (zh) 一种基于多说话人模型的噪声与说话人联合补偿方法
KR20210137146A (ko) 큐의 클러스터링을 사용한 음성 증강
Jin et al. Multi-channel noise reduction for hands-free voice communication on mobile phones
JP2007047427A (ja) 音声処理装置
Chazan et al. DNN-based concurrent speakers detector and its application to speaker extraction with LCMV beamforming
US20130253923A1 (en) Multichannel enhancement system for preserving spatial cues
JP5044581B2 (ja) 複数信号強調装置とその方法と、プログラム
KR20190073852A (ko) 우도 최대화를 이용한 빔포밍 방법
KR101658001B1 (ko) 강인한 음성 인식을 위한 실시간 타겟 음성 분리 방법
JP6567479B2 (ja) 信号処理装置、信号処理方法およびプログラム
Kim et al. Speech feature mapping based on switching linear dynamic system
Malek et al. Speaker extraction using LCMV beamformer with DNN-based SPP and RTF identification scheme
CN110675890A (zh) 声音信号处理装置以及声音信号处理方法
Saruwatari et al. Semi-blind speech extraction for robot using visual information and noise statistics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101214

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120703

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120713

R150 Certificate of patent or registration of utility model

Ref document number: 5044581

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150720

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350