JP4891801B2

JP4891801B2 - 多信号強調装置、方法、プログラム及びその記録媒体

Info

Publication number: JP4891801B2
Application number: JP2007038819A
Authority: JP
Inventors: 章子荒木; 宏澤田; 昭二牧野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-02-20
Filing date: 2007-02-20
Publication date: 2012-03-07
Anticipated expiration: 2027-02-20
Also published as: JP2008203474A

Description

本発明は、信号処理の技術分野に関する。特に、源信号が複数個あり、それらの源信号に対してさらにノイズが重畳した信号を複数個のセンサで観測した時に、それぞれの源信号を強調する技術に関する。例えば、話者が複数人いる状況で、その中の１人又は複数人の話者の音声に対してさらにノイズが重畳した信号を複数個のマイクロホンで観測した時に、それぞれの話者の音声信号を強調する技術に関する。

源信号が１個あり、その源信号に対してさらにノイズが重畳した信号を複数個のセンサｍ（ｍ＝１，…，Ｍ）で観測した時に、源信号を強調する技術としては、ＳＮ比最大化ビームフォーマがある（例えば、非特許文献１参照。）。
センサｍでの観測信号をｘ_ｍ（ｔ）とし、その短時間フーリエ変換をｘ_ｍ（ｆ，ｔ）とする。また、ビームフォーマの係数をｗ_ｍ（ｆ）、その係数に基づくビームフォーマの出力ｙ（ｆ，ｔ）を、

とする。ここで、［・］^＊は、・の共役複素数、［・］^Ｈは、・の共役転置、［・］^Ｔは、・の転置であり、Ｗ（ｆ）＝［ｗ_１（ｆ），…，ｗ_Ｍ（ｆ）］^Ｔ、Ｘ（ｆ，ｔ）＝［ｘ_１（ｆ，ｔ），…，ｘ_ｍ（ｆ，ｔ）］^Ｔである。

このとき、ビームフォーマの出力信号ｙ（ｆ，ｔ）中の源信号成分とノイズ成分との比（すなわち、ＳＮ比）

を最大化するＷ（ｆ）をＳＮ比最大化ビームフォーマの係数とする。ここで、Ｒ_Ｔ（ｆ）は、源信号のみの時間区間Ρ_Ｔにおける観測信号の相関行列、Ｒ_Ｎ（ｆ）は、ノイズのみの時間区間Ρ_Ｎにおける観測信号の相関行列である。すなわち、｜Ρ｜を、Ρに属する時間フレーム数とすると、

である。

上記式（１）で定まるＳＮ比λ（ｆ）をＷ（ｆ）で微分した式＝０として、その式を変形すると次式の関係が得られる。

上記ＳＮ比λ（ｆ）を最大化することは、上記式で与えられた一般化固有値問題における最大固有値を求めることと等しい。そして、最大固有値に対応する固有ベクトルＥ（ｆ）が、ＳＮ比最大化ビームフォーマの係数Ｗ（ｆ）を与える。

例えば、源信号が音声信号である場合を考える。上述のＳＮ比最大ビームフォーマを音声に応用した例として、非特許文献２に記載した技術が存在する。非特許文献２では、ノイズのみの時間区間Ρ_Ｎにおける観測信号の相関行列Ｒ_Ｎ（ｆ）を音声がない区間において推定し、音声のみの時間区間Ρ_Ｔにおける観測信号の相関行列Ｒ_Ｔ（ｆ）の代わりに全ての時間区間における観測信号の相関行列を利用する。
H.L.Van Trees,"Optimum Array Processing" John Wiley & Sons,2002. R.Haeb-Unbach and E.Warsitz,"Adaptive filter-and-sum beamforming in spatially correlated noise",Proc.IWAENC 2005,pp.125-128,2005.

背景技術に記載した音声強調方法は、１人の話者の音声だけにノイズが乗った場合にはうまく動作する。しかし、複数の話者の音声にノイズが乗った場合には、それぞれの話者の音声を強調することができない。

話者が３人おりマイクが３個ある環境で、背景技術に記載した音声強調方法を行った場合の実験結果を図９に示す。図９のｓ１〜ｓ３は各話者の音声信号、ｘ１はマイク１’における観測信号、ｙ１は背景技術に記載した音声強調方法によって強調された音声信号を示す。なお、図９の各図において、縦軸は信号の振幅、横軸は時間（秒）である。この結果をみると、ノイズについては低減が見られるが、それぞれの話者音声を強調することはできていないことが分かる。

本発明は、複数の源信号にノイズが乗った信号が複数のセンサで観測される状況において、各源信号をそれぞれ強調することを課題とする。

この発明の一態様による多信号強調装置によれば、複数の信号源から発生し複数のセンサで観測された一定の時間長Ｔ _１の時間領域信号を、一定の時間長Ｔ _２（Ｔ _１＞Ｔ _２）のフレーム毎に周波数領域変換した周波数領域信号を用いて、上記一定の時間長Ｔ _１のうち、ノイズのみを含む区間を推定するノイズ区間推定手段と、上記一定の時間長Ｔ _１のうち上記推定されたノイズのみを含む区間以外の区間に係る、上記フレーム毎の周波数領域信号から特徴量を算出し、その特徴量をクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する信号分類手段と、上記分類結果を用いて、上記周波数領域信号を、複数の信号源毎に強調する信号強調手段と、を有し、上記信号分類手段は、上記特徴量をオンラインクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する手段を含み、上記信号強調手段は、ある信号源ｋに分類された周波数領域信号についての相関行列と、それ以外の周波数領域信号についての相関行列とを用いて定義される固有値問題の最大固有値に対応する固有ベクトルであるＳＮ比最大化ビームフォーマの係数を求める係数計算手段と、求まったＳＮ比最大化ビームフォーマの係数の共役転置を、上記フレーム毎の周波数領域信号に乗算した値を計算することにより、上記ある信号源について強調された信号を求める強調手段と、を含む。
この発明の他の一態様による多信号強調装置によれば、複数の信号源から発生し複数のセンサで観測された一定の時間長Ｔ _１の時間領域信号を、一定の時間長Ｔ _２（Ｔ _１＞Ｔ _２）のフレーム毎に周波数領域変換した周波数領域信号を用いて、上記一定の時間長Ｔ _１のうち、ノイズのみを含む区間を推定するノイズ区間推定手段と、上記一定の時間長Ｔ _１のうち上記推定されたノイズのみを含む区間以外の区間に係る、上記フレーム毎の周波数領域信号から特徴量を算出し、その特徴量をクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する信号分類手段と、上記分類結果を用いて、上記周波数領域信号を、複数の信号源毎に強調する信号強調手段と、を有し、上記信号分類手段は、上記特徴量をオンラインクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する手段を含み、上記信号強調手段は、上記特徴量についてのクラスタリングにより生じた各クラスタのセントロイドから、信号源ｋ毎にステアリングベクトルＶ _ｋ（ｆ）を求めるステアリングベクトル生成手段と、ある信号源ｋに分類された周波数領域信号についての相関行列をＲ _ｋ（ｆ）、それ以外の周波数領域信号についての相関行列をＲ _¬ｋ（ｆ）、・ ^Ｈを行列・の共役転置として、上記ステアリングベクトルＶ _ｋ（ｆ）から、下記式により定義される適応ビームフォーマの係数Ｗ _ｋ（ｆ）を求める係数計算手段と、求まった適応ビームフォーマの係数の共役転置を、上記フレーム毎の周波数領域信号に乗算した値を計算することにより、上記ある信号源について強調された信号を求める強調手段と、を含む。

観測信号からノイズ区間のみを推定してＳＮ比最大化ビームフォーマを構成するのではなく、信号区間（ノイズ区間以外の区間）をさらに信号源毎に分類し、各信号源毎に信号区間とノイズ区間（その信号源以外の信号源から発生した信号のみを含む区間を含む）を推定し、それに基づいてビームフォーマを構成することで、各源信号をそれぞれ強調することができる。
また、例えば、発話者が入れ変わる会議のような信号源の数が不明である状況においても、各源信号をそれぞれ強調することができる。

本発明による多信号強調装置、方法、プログラム及びその記録媒体を、信号源が話者であり、源信号が音声信号であり、センサがマイクである場合を例に挙げて説明をする。

［全体の基本構成］
図１と図５を参照して、本発明による多信号強調装置１０について説明をする。図１は、多信号強調装置１０の機能構成を示すブロック図である。図５は、多信号強調装置１０の処理の流れを例示するフローチャートである。

多信号強調装置１０は、周波数領域変換部１、ノイズ区間推定部２、信号分類部３、信号強調部４、時間領域変換部５を有する。
複数の話者ｋ（ｋ＝１，…，Ｋ、Ｋは任意の自然数）の発話にノイズが乗った信号が、複数のマイクｍ（ｍ＝１，…，Ｍ、Ｍは任意の自然数）によって観測される。
周波数領域変換部１は、各マイクｍによって観測された時間領域の観測信号ｘ_ｍ（ｔ）を要素とする時間領域の観測信号ベクトルＸ（ｔ）＝［ｘ_１（ｔ），…，ｘ_Ｍ（ｔ）］^Ｔを、短時間フーリエ変換により、周波数毎の時系列信号である観測信号Ｘ（ｆ，ｔ）＝［ｘ_１（ｆ，ｔ），…，ｘ_Ｍ（ｆ，ｔ）］^Ｔに変換する（ステップＳ１）。

次に、ノイズ区間推定部２は、誰も発話していないノイズ区間Ρ_Ｎを推定する（ステップＳ２）。
次に、信号分類部３は、話者の何れかが発話している区間Ρ_ｓ＝Ρ−Ρ_Ｎにおける観測信号ベクトルＸ（ｆ，ｔ）を分類し、それぞれの区間がどの話者の発話区間であるかを分類する（ステップＳ３）。ここで、Ρは全ての時間区間を表す。分類結果は０以上Ｋ以下の整数値を取るクラスタ情報Ｃ（ｔ）で表され、Ｃ（ｔ）が１以上の値ｋを取れば、その時間区間ｔにはｋ番目の話者が存在することを表す。ここで、Ｋは、話者の数を表す。Ｃ（ｔ）＝０であれば、その時間区間（フレーム）ｔはノイズ区間Ｐ_Ｎに含まれていることを表す。

次に、信号強調部４は、各話者ｋ毎に、クラスタ情報Ｃ（ｔ）を用いてＳＮ比最大化ビームフォーマを構成する。そのＳＮ比最大化ビームフォーマに観測信号ベクトルＸ（ｆ，ｔ）を入力して、強調音声信号ｙ_ｋ（ｆ，ｔ）を得る。これを全ての話者ｋについて行い、強調音声信号ベクトルＹ（ｆ，ｔ）＝［ｙ_１（ｆ，ｔ），…，ｙ_Ｋ（ｆ，ｔ）］^Ｔを得る（ステップＳ４）。

最後に、時間領域変換部５は、逆短時間フーリエ変換を用いて、周波数領域の強調音声信号ベクトルＹ（ｆ，ｔ）を時間領域信号Ｙ（ｔ）＝［ｙ_１（ｔ），…，ｙ_Ｋ（ｔ）］^Ｔに変換する（ステップＳ５）。

以下、多信号強調装置１０の各部の機能について詳細に説明をする。
［周波数領域変換部］
Ｋ人の話者の発話にノイズが重畳した音声信号は、Ｍ個のマイクで一定の時間長Ｔ_１観測される。周波数領域変換部１は、各マイクｍで観測された時間領域の観測信号ｘ_ｍ（ｔ）を、一定の時間長Ｔ_２（Ｔ_１＞Ｔ_２）のフレームｔ毎にフーリエ変換して、周波数領域の観測信号ｘ_ｍ（ｆ，ｔ）を生成する（ステップＳ１）。生成された周波数領域の観測信号ｘ_ｍ（ｆ，ｔ）は、ノイズ区間推定部２、信号分類部３、信号強調部４にそれぞれ出力される。

上記一定の時間長Ｔ_１は、任意の時間長であるが、例えば５秒〜３０秒とする。また、後述するように、時間長Ｔ_１の中では、話者の数Ｋがマイクの数Ｍよりも小さくなるように、上記一定の時間長Ｔ_１を定めてもよい。また、Ｔ_２ごとにバッファリングして、逐次的に本発明による処理をしても良い。逐次的に処理をすることにより、一定の時間長Ｔ_１の録音を待たないオンライン処理が可能になる。上記一定の時間長Ｔ_２は、Ｔ_１未満の任意の時間長であるが、例えば６４ミリ秒、１２８ミリ秒とする。

［ノイズ区間推定部］
ノイズ区間推定部２は、上記一定の時間長Ｔ_１のうち、ノイズ区間Ρ_Ｎを推定する（ステップＳ２）。これは、後述する信号分類部３において、ノイズによる誤分類を避けるために重要である。推定されたノイズ区間Ρ_Ｎについての情報は、信号分類部３に出力される。ノイズ区間Ρ_Ｎとは、誰も発話していない区間、すなわちノイズのみを含む区間のことである。なお、本明細書では、一定の時間長Ｔ_１のうちノイズ区間Ρ_Ｎではない区間のことを、非ノイズ区間又は音声区間と呼ぶことがある。

ノイズ区間推定部２は、具体的には、観測信号のパワーを用いて、フレームｔ毎に、ノイズ区間か非ノイズ区間かを判別する。これには、既存の音声区間検出技術を用いることができるが、本実施形態では、参考文献１に記載した音声区間検出技術を用いる例を示す。

以下、図２を参照して、参考文献１に記載した音声区間検出技術によってノイズ区間の推定を行うノイズ区間推定部２の機能構成を説明する。図２は、ノイズ区間推定部２の機能構成を例示するブロック図である。ノイズ区間推定部２は、例えば、ＳＮ比計算部２１、非線形変換部２２、判定部２３、非線形変換部２４、判定部２５、更新部２１０を有する。

ＳＮ比計算部２１内の記憶部２６には、周波数ｆ毎のノイズパワーの推定値σ（ｆ）が予め格納される。ノイズパワーの推定値σ（ｆ）は、適当な初期値（例えば０．０１とする。）としても良いし、録音の冒頭数秒の区間等の明らかな無音声区間（誰も発話していない区間）において推定しても良い。σ（ｆ）を適当な初期値としても良いのは、後述するように必要に応じてσ（ｆ）を更新することができるためである。

ＳＮ比計算部２１は、周波数領域の観測信号ｘ_ｍ（ｆ，ｔ）と、記憶部２６から読み出したノイズパワーの推定値σ（ｆ）とを用いて、下記の式により、周波数ｆとフレームｔの全ての組合せ毎に、すなわち、時間周波数スロット（ｆ，ｔ）毎に事後ＳＮ比γ（ｆ，ｔ）を計算して、非線形変換部２２に出力する。

ここで、ｘ_Ｊ（ｆ，ｔ）は、あるマイクＪにおける周波数領域の観測信号でも良いし、マイク１からマイクＭまでの振幅の平均値ｘ_Ｊ（ｆ，ｔ）＝（１／Ｍ）Σ_ｍ＝１ ^Ｍ｜ｘ_ｍ（ｆ，ｔ）｜でも良い。

図２は、ＳＮ比計算部２１が、あるフレームｔにおいて、考慮する周波数の最小値ｆ_ｍｉｎから最大値ｆ_ｍａｘまでの各周波数ｆ毎の事後ＳＮ比γ（ｆ，ｔ）を計算して、非線形変換部２２に出力している状況を表す。
非線形変換部２２は、事後ＳＮ比にある種の非線形変換を施した後、考慮する全ての周波数における平均値Λ（ｔ）を計算して、判定部２３に出力する（詳しくは参考文献１参照。）。

ここで、Ｆは考慮する周波数の集合であり、｜Ｆ｜はその集合Ｆの要素の数である。

判定部２３は、平均値Λ（ｔ）と、記憶部２７から読み出した所定の閾値η（例えば１とする。）とを比較して、平均値Λ（ｔ）の方が小さければ、そのフレームｔはノイズ区間Ρ_Ｎに属すると判断し、所定の閾値ηの方が大きければ、そのフレームｔは音声区間に属すると判断する。このようにして全てのフレームｔについて上記判定を行うことにより生成されたノイズ区間Ｐ_Ｎについての情報は、信号分類部３に出力される。

なお、ノイズパワーの推定値σ（ｆ）は、ノイズの変動に対処するため、時々刻々更新していくことが望ましい。そのためには、時間周波数スロット（ｆ，ｔ）毎にノイズ判定を行う。すなわち、まず、ノイズパワー更新部２０の非線形変換部２４が、時間周波数スロット（ｆ，ｔ）毎に次式で定まる値Λ’（ｆ，ｔ）を計算して、判定部２５に出力する。

判定部２５は、時間周波数スロット（ｆ，ｔ）毎に得られたΛ’（ｆ，ｔ）と、判定部２９から読み出した所定の閾値η’（例えば、１とする。）とを比較して、Λ’（ｆ，ｔ）の方が小さければ、その時間周波数スロット（ｆ，ｔ）を、ノイズスロットΡ’_Ｎとする。ノイズスロットΡ’_Ｎに関する情報は更新部２１０に出力される。

更新部２１０は、ＳＮ比計算部２１の記憶部２６から読み出したノイズパワーの推定値σ（ｔ）を、更新部２１０の記憶部２８から読み出したαを用いて、例えば、次式に従って更新する。

ここで、０＜α≦１は忘却係数であり、一般に１に近い値を取る。更新されたノイズパワーの推定値σ（ｔ）は、ＳＮ比計算部２１の記憶部２６に格納される。その後、この更新されたノイズパワーの推定値σ（ｔ）に基づいて上述の処理が行われる。
上記閾値ηとη’は、本発明の実施環境に応じて適切な結果が得られるように適宜設定される値である。

〔参考文献１〕J.Sohn,N.S.Kim,and W.Sung,”A statistical model-based voice activity detection”, IEEE Signal Processing Letters, vo1.6, no.1, pp.1-3, 1999.
［信号分類部］
信号分類部３は、音声区間Ρ_Ｓ＝Ρ―Ρ_Ｎにおける観測信号ベクトルＸ（ｆ，ｔ）について、それぞれの区間が誰の発話区聞であるかを分類する（ステップＳ３）。

具体的には、信号分類部３は、上記一定の時間長Ｔ_１の区間Ρのうち上記推定されたノイズのみを含む区間Ρ_Ｎ以外の区間Ρ_Ｓに係る、フレームｔ毎の周波数領域信号ｘ（ｆ，ｔ）からある特徴量を算出し、その特徴量をクラスタリングすることにより、フレームｔ毎の周波数領域信号ｘ（ｆ，ｔ）を話者毎に分類して、その分類結果Ｃ（ｔ）を信号強調部４に出力する。

図３は、信号分類部３の機能構成を例示するブロック図である。また、図６は、信号分類部３の処理の流れを例示するフローチャートである。信号分類部３は、図３に例示するように、例えば、到来時間差推定部３１、信号源方向推定部３２、分類部３４を有する。
まず、分類部３４が、ノイズ区間推定部２において推定されたノイズ区間Ρ_Ｎを参照して、

とする。すなわち、ノイズ区間Ρ_Ｎに含まれるフレームｔについての分類結果Ｃ（ｔ）をＣ（ｔ）＝０とする（ステップＳ３１）。

次に、音声区間Ρ_Ｓについて、以下の手順で話者毎の発話区間に分類する。本実施例では、特徴量としてマイク間の信号の到来時間差を用いて、その到来時間差から、発話者方向を推定し、その方向を分類することで発話区間分類を行う方法を説明する。
まず、到来時間差推定部３１は、音声区間Ρ_ｓに属する全てのフレームｔについての、マイクｊとマイクｊ’についての信号の到来時間差τ_ｊｊ’（ｔ）を、以下の式に従って算出して、信号源方向推定部３２に出力する（ステップＳ３２）。

これは、いわゆるＧＣＣ−ＰＨＡＴと呼ばれる方法である（例えば、参考文献２参照。）。
〔参考文献２〕C.H.Knapp and G.C.Carter, ”The generalized correlation method for estimation of time delay”, IEEE Trans. Acoust.Speech and Signal Processing, vol.24, no.4, pp.320-327, 1976.

信号の到来時間差τ_ｊｊ’（ｔ）を全てのマイクペアｊｊ’について求め、それらを並べた縦ベクトルをΤ（ｔ）＝［τ_１２（ｔ），…，τ_ｊｊ’（ｔ），…，τ_{（Ｍ―１）Ｍ}（ｔ）］^Ｔとする。また全てのマイクペアを用いる代わりに、ある基準となるマイクｊを決め、その基準マイクｊとその他のマイクｊ’に関する全てのペアｊｊ’を用いることもできる。

次に、信号源方向推定部３２が、到来時間差Τ（ｔ）とマイク位置ベクトル情報を用いて、フレームｔ毎に発話者方向Ｑ（ｔ）を推定する（ステップＳ３３）。マイクｊの位置情報が、３次元縦ベクトルｄ_ｊで与えられているとする。またマイク座標系から見た発話者方向をＱ＝［ｃｏｓθｃｏｓφ，ｓｉｎθｃｏｓφ，ｓｉｎφ］^Ｔの３次元縦ベクトルで表す。ここでθは方位角、φは仰角を表す。マイクペアｊｊ’に関する到来時間差τ_ｊｊ’は、ｃを信号の速度（ここでは、音速）とし、２つのマイクｊとｊ’についてのマイク位置情報ｄ_ｊ−ｄ_ｊ’と、発話者方向ベクトルＱ（ｔ）とを用いると

の関係にある。これを全てのマイクペアで考えると、

となる。ここで、Ｄ＝［ｄ_１−ｄ_２，…，ｄ_ｊ−ｄ_ｊ，…，ｄ_Ｍ―１−ｄ_Ｍ］^Ｔである。Ｔの要素であるτ_ｊｊ’（ｔ）と、Ｄの要素であるｄ_ｊ−ｄ_ｊ’とは、同じマイクペア順序で並んでいれば良い。

上記式をＱ（ｔ）について解くと、フレームｔにおける話者方向ベクトルＱ（ｔ）は、

となる。ここで、［・］⁻は、・のＭｏｏｒｅ−Ｐｅｎｒｏｓｅの一般化逆行列を表す。詳しくは、特願第2006-019627号の記載を参照のこと。また、特願第2006-019627号に記載した他の信号の到来方向の推定技術を用いても良い。

信号源方向推定部３２は、上記式により、フレームｔ毎の話者方向ベクトルＱ（ｔ）を求める。フレームｔ毎の話者方向ベクトルＱ（ｔ）は、下記の式により正規化されて、分類部３４に出力される。なお、正規化しないで、上記式により求めた話者方向ベクトルＱ（ｔ）をそのまま、分類部３４に出力しても良い。

次に、分類部３４が、各フレームｔ∈Ρ_ｓにおける話者方向ベクトルＱ（ｔ）を、クラスタリングにより、話者別に分類する（ステップＳ３４）。ここでは、発話者数が未知である場合に対応するために、オンラインクラスタリングを採用する。オンラインクラスタリングのフローチャートの例を図７に示す。図７は、オンラインクラスタリングの処理の流れを例示するフローチャートである。ここでのポイントは、クラスタリングを１クラスタから始め、既存のクラスタのセントロイドからある閾値ｚ以上離れたデータが来た時に、そのデータをセントロイドとして新しいクラスタを生成する点である。

＜ステップＳ３４１＞
まず、更新ステップサイズβ（例えば、β＝０．１とする。）と、閾値ｚ（例えば、ｚ＝０．２とする。）を設定する（ステップＳ３４１）。更新ステップサイズβと閾値ｚは、本発明を実施する環境に応じて適宜実験的に定めるべき値である。

＜ステップＳ３４２＞
Ρ_ｓの最初のフレームｔに係る話者方向ベクトルＱ（ｔ）を、第１のセントロイドｃ_１とする（ステップＳ３４２）。

＜ステップＳ３４３＞
ｔをインクリメントして、次のフレームｔ∈Ρ_ｓに移る（ステップＳ３４３）。

＜ステップＳ３４４＞
フレームｔの話者方向ベクトルＱ（ｔ）に最も近いクラスタｋを見つける（ステップＳ３４４）。すなわち、

となるクラスタｋを見つける。

＜ステップＳ３４５＞
‖Ｑ（ｔ）―ｃ_ｋ‖と、閾値ｚとを比較する（ステップＳ３４５）。‖Ｑ（ｔ）―ｃ_ｋ‖の方が小さければ、ステップＳ３４６の処理を行う。そうでなければ、ステップＳ３４８の処理を行う。

＜ステップＳ３４６＞
更新ステップサイズβを用いて、セントロイドｃ_ｋを更新して、正規化する（ステップＳ３４６）。具体的には、下式の処理を行う。

＜ステップＳ３４７＞
フレームｔに係るクラスタ情報Ｃ（ｔ）を、Ｃ（ｔ）＝ｋとする（ステップＳ３４７）。その後、ステップＳ３４１０の処理を行う。

＜ステップＳ３４８＞
ステップＳ３４５において‖Ｑ（ｔ）―ｃ_ｋ‖が閾値ｚ以上と判断された場合には、新しいセントロイドｃ_{ｍａｘ（ｋ）＋１}

を生成する（ステップＳ３４８）。

＜ステップＳ３４９＞
フレームｔに係るクラスタ情報Ｃ（ｔ）を、Ｃ（ｔ）＝ｍａｘ（ｋ）＋１とする（ステップＳ３４９）。

＜ステップＳ３４１０＞
ｔがΡ_ｓの最後のフレームｔ_ｌａｓｔであるかどうかを判断する。ｔ＝ｔ_ｌａｓｔでない場合には、ステップＳ３４３の処理を行う。ｔ＝ｔ_ｌａｓｔである場合には、ステップＳ３４の処理は終了する。
上記のクラスタリングの結果として、フレームｔ毎のクラスタ情報Ｃ（ｔ）が得られる。Ｃ（ｔ）＝ｋの時、その時間フレームｔにはｋ番目の話者の音声が存在することを意味する。Ｃ（ｔ）＝０の時、その時間フレームｔは、ノイズ区間Ρ_Ｎであることを意味する。

オンラインクラスタリングでは、アウトライヤー（外れ値）により、メンバー数の非常に少ないクラスタができることがある。その場合は、図７に破線で示すように、ステップＳ３４の処理の最後に、ステップＳ３４１１を設けて、メンバー数がある閾値を下回るクラスタは除外し、ある閾値以上のメンバーを持つクラスタのみを残すことが望ましい。

［信号強調部］
信号強調部４は、検出された各話者ｋ毎にＳＮ比最大化ビームフォーマの係数Ｗ_ｋ（ｆ）を構成し、そのＳＮ比最大化ビームフォーマの係数を用いて強調音声Ｙ（ｆ，ｔ）を得る（ステップＳ４）。
ここでのＳＮ比最大化ビームフォーマは、出力信号Ｙ（ｆ，ｔ）中の話者ｋの信号成分と、ノイズ成分＋他話者成分の比を最大化するビームフォーマとして設計される。これは、式（１）のＲ_Ｔ（ｆ）とＲ_Ｎ（ｆ）の代わりに、話者ｋの音声区間｛ｔ｜Ｃ（ｔ）＝ｋ｝の観測信号の相関行列Ｒ_ｋ（ｆ）と、話者ｋの音声区間以外の区間｛ｔ｜Ｃ（ｔ）≠ｋ｝の観測信号の相関行列Ｒ_¬ｋ（ｆ）とをそれぞれ用いることで実現される。すなわち、

として、λ（ｆ）を最大化するＷ_ｋ（ｆ）をＳＮ比最大化ビームフォーマの係数とする。ここで、Ｅ［・］_{ｃ（ｔ）＝ｋ}は、Ｃ（ｔ）＝ｋを満たす時間区間についての平均を取る操作を示す。同様に、Ｅ［・］_{ｃ（ｔ）≠ｋ}は、Ｃ（ｔ）≠ｋを満たす時間区間についての平均を取る操作を示す。

上記式（１’’）をＷ_ｋ（ｆ）で微分した式＝０として、式変形をすると、

という関係が得られる。最大のＳＮ比λ（ｆ）は、上記式で与えられた一般化固有値問題における最大固有値で与えられ、その最大固有値に対応する固有ベクトルＥ（ｆ）を計算することで話者ｋに関するＳＮ比最大化ビームフォーマの係数Ｗ_ｋ（ｆ）を得ることができる。すなわち、

である。ＳＮ比最大化ビームフォーマの係数Ｗ_ｋ（ｆ）の共役転置Ｗ_ｋ ^Ｈ（ｆ）に、周波数領域の観測信号ベクトルＸ（ｆ，ｔ）を乗算した値を計算することで、話者ｋについての強調信号ｙ_ｋ（ｆ，ｔ）を得る。

図４に、上記の処理を行う信号強調部４の機能構成を示す。図４は、信号強調部４の機能構成を例示する図である。信号強調部４は、例えば、相関行列計算部４１、係数計算部４２、強調部４３、制御部４７を有する。また、図８に信号強調部４の処理の流れを例示するフローチャートを示す。

＜ステップＳ４１＞
制御部４７は、ｋ＝１とする（ステップＳ４１）。

＜ステップＳ４２＞
相関行列計算部４１は、上記式（２）と（３）に基づいて、相関行列Ｒ_ｋ（ｆ）、Ｒ_¬ｋ（ｆ）をそれぞれ計算して、係数計算部４２に出力する（ステップＳ４２）。

＜ステップＳ４３＞
係数計算部４２は、相関行列Ｒ_ｋ（ｆ）、Ｒ_¬ｋ（ｆ）を用いて、上記式（４）で与えられた一般化固有値問題を解き、λ（ｆ）を最大化する固有ベクトルＥ（ｆ）を求める。そして、Ｅ（ｆ）を、ＳＮ比最大化ビームフォーマの係数Ｗ_ｋ（ｆ）として、強調部４３に出力する（ステップＳ４３）。係数計算部４２は、ステップＳ４２とステップＳ４３の処理を繰り返すことにより最終的に、全ての周波数ｆについてＳＮ比最大化ビームフォーマＷ_ｋ（ｆ）を求める。

＜ステップＳ４４＞
強調部４３は、上記式（５）に基づいて、周波数領域の観測信号ベクトルＸ（ｆ，ｔ）と、ＳＮ比最大化ビームフォーマの係数Ｗ_ｋ（ｆ）とを用いて、話者ｋについての強調信号ｙ_ｋ（ｆ，ｔ）を求める（ステップＳ４４）。強調部４３は、最終的に、全ての時間周波数スロット（ｆ，ｔ）について、各話者ｋについての強調信号ｙ_ｋ（ｆ，ｔ）を要素とする全ての話者ｋについての強調信号ベクトルＹ（ｆ，ｔ）＝［ｙ_１（ｆ，ｔ），…，ｙ_ｋ（ｆ，ｔ），…，ｙ_Ｋ（ｆ，ｔ）］^Ｔを生成して、時間領域変換部５（図１参照）に出力する。

＜ステップＳ４５＞
制御部４７は、ｋと話者の数Ｋとを比較する（ステップＳ４５）。ここで、「話者の数Ｋ」とは、話者数が既知の場合、話者の数Ｋ＝その既知の話者の数（自然数）であり、話者数が未知の場合、話者の数Ｋ＝ｍａｘＣ（ｔ）である。ｋ＝Ｋであれば、ステップＳ４の処理は終了する。そうでなければ、ステップＳ４６の処理を行う。

＜ステップＳ４６＞
制御部４７は、ｋを１だけインクリメントする（ステップＳ４６）。その後、ステップＳ４２の処理を行う。このようにして、全ての話者ｋ（ｋ＝１，…，Ｋ）について強調信号ｙ_ｋ（ｆ，ｔ）を求める。

なお、ＳＮ比最大化ビームフォーマは、ゲインに関して不定性を持つ。すなわち、周波数ｆによりゲインの量が異なる場合がある。これを本実施例では、観測信号とＳＮ比最大化ビームフォーマＷ_ｋ（ｆ）の出力信号との誤差を最小にする補正フィルタＡ（ｆ）を用意し、これでＳＮ比最大化ビームフォーマＷ_ｋ（ｆ）を補正することで解決する。ここで、補正フィルタＡ（ｆ）は、Ａ（ｆ）＝［ａ_１（ｆ），…，ａ_ｍ（ｆ），…，ａ_Ｍ（ｆ）］^Ｔである。周波数領域の観測信号Ｘ（ｆ，ｔ）と補正後の出力信号Ａ（ｆ）ｙ_ｋ（ｆ，ｔ）の誤差Ｇ（Ａ（ｆ））は、

と計算することができる。ここで、Ｅ｛・｝は、時間についての平均を取る操作を意味する。誤差Ｇ（Ａ（ｆ））を最小にする補正フィルタＡ（ｆ）は、Ｇ（Ａ（ｆ））をＡ（ｆ）で偏微分した式∂Ｇ（Ａ（ｆ））／∂Ａ（ｆ）を０と置き、式変形をすることで、

と計算することができる。ここで、Ｒ_Ｘ（ｆ）は、Ｒ_Ｘ（ｆ）＝Ｅ｛Ｘ（ｆ，ｔ）Ｘ^Ｈ（ｆ，ｔ）｝であり、周波数領域の観測信号の全時間区間における相関行列である。

ＳＮ比最大化ビームフォーマの係数の補正は、Ａ（ｆ）のある任意のＪ番目の要素ａ_Ｊ（ｆ）を用いて、

により行う。

具体的には、図４に破線で示した補正部４５のフィルタ計算部４６が、係数計算部４２、４２’が計算したＳＮ比最大化ビームフォーマの係数Ｗ_ｋ（ｆ）と、周波数領域の観測信号ベクトルＸ（ｆ，ｔ）とを用いて、上記式（６）によって、補正フィルタＡ（ｆ）を計算する（ステップＳ４７、図８参照）。そして、補正部４５が、上記式（７）によって、ＳＮ比最大化ビームフォーマの係数Ｗ_ｋ（ｆ）の補正を行い、補正後のＳＮ比最大化ビームフォーマの係数Ｗ_ｋ（ｆ）を強調部４３に出力する（ステップＳ４８）。強調部４３は、この補正されたＳＮ比最大化ビームフォーマの係数Ｗ_ｋ（ｆ）を周波数領域の観測信号ベクトルＸ（ｆ，ｔ）に作用させることにより、強調信号Ｙ（ｆ，ｔ）を得る。

このように、ＳＮ比最大化ビームフォーマの係数Ｗ_ｋ（ｆ）を補正することにより、周波数特性の歪みを防止することができる。この効果は、音声信号のような広帯域な信号に対して本発明を適用する場合に顕著である。

［時間領域変換部］
最後に、時間領域変換部５は、逆短時間フーリエ変換を用いて、周波数領域の強調音声信号ベクトルＹ（ｆ，ｔ）を、時間領域信号Ｙ（ｔ）＝［ｙ_１（ｔ），…，ｙ_Ｋ（ｔ）］^Ｔに変換して、出力する（ステップＳ５）。

［実験結果］
図１１に示す環境で、３つのマイクで３人の話者の発話を３０秒間観測し、その観測信号に対して本発明による多信号強調方法を適用した実験結果を示す。図１１に示すように、プロジェクタやＰＣ等が配置された部屋の中心に楕円形の机があり、その机の上に、各マイク１’を含む３つのマイクが、一辺の長さが４ｃｍの正三角形の頂点に位置するように配置されている。各マイクは、その正三角形の中心方向とは反対方向に向いている。また、各マイクと机の間にはタオルが敷かれている。話者１’’〜話者３’’は、上記机を取り囲むように位置している。

話者の発話区間およびマイク１’における観測信号は図９のｓ１〜ｓ３、ｘ１と同じである。図１０は、本発明による音声強調の結果を示している。従来法（図９のｙ１）では、それぞれの話者音声を強調することはできなかったが、本発明による多信号強調方法により、ノイズおよび他話者音声を抑圧し、それぞれの話者音声を強調することができていることが分かる。

［変形例等］
既に周波数領域に変換されている観測信号ｘ_ｍ（ｆ，ｔ）に対して、本発明による多信号強調方法を行ってもよい。また、信号を強調した後に、時間領域の信号に必ずしも変換しなくてもよい。
分類部３４’が、発話者方向Ｑ（ｆ）をクラスタリングするかわりに、図３と図６に破線で示すように、到来時間差τ_ｊｊ’をクラスタリングすることにより、分類結果Ｃ（ｔ）を得ても良い。

また、図３に一点鎖線で示すように、分類部３４’’が、下式で定まる各マイクでの振幅情報ｘ_ｊ ^＃（ｔ）

を併用したものをクラスタリングにより分類しても良い。すなわち、これを全てのマイクについて並べた縦ベクトルをＸ^＃（ｔ）とし、到来時間差ベクトルΤ（ｔ）とＸ^＃（ｔ）を並べたベクトル［Ｘ^＃（ｔ）^Ｔ，Τ（ｔ）^Ｔ］^Ｔをクラスタリングすることにより、分類結果Ｃ（ｔ）を得ても良い。

また、話者の数Ｋが既知の場合は、分類部３４が、ｋ−ｍｅａｎｓクラスタリングを用いることもできる。
また、ＳＮ比最大化ビームフォーマの代わりに、任意の信号強調手段を用いても良い。ＳＮ比最大化ビームフォーマに代えて、適応ビームフォーマを用いる例を説明する。
この場合、信号分類部３の到来時間差推定部３１（図３参照）が、ある基準となるマイクｊを決め、その基準マイクｊとその他のマイクｊ’に係る全てのマイクペアｊｊ’についての信号の到来時間差τ_ｊｊ’を、上記式（１’）に基づいて計算する。

分類部３４’’’（図３参照）は、信号の到来時間差τ_ｊｊ’をクラスタリングして、各クラスタｋのセントロイドＣ_ｋ＝［ｃ_ｋ１，…，ｃ_ｋｍ，…，ｃ_ｋＭ］^Ｔを求めて、信号強調部４に出力する。なお、発話者の方向ベクトルＱ（ｔ）を分類する場合には、発話者の方向ベクトルＱ（ｔ）をクラスタリングしたときの、セントロイドＣ_ｋを、

によって変換する。ここで、Ｄとｃは、上記式（Ａ）のＤとｃと同じものである。この変換されたセントロイドＣ_ｋを、信号強調部４に出力する。

信号強調部４のステアリングベクトル生成部４４（図４参照）は、上記各クラスタのセントロイドＣ_ｋを用いて、下記式より、適応ビームフォーマで必要なステアリングベクトルＶ_ｋ（ｆ）を計算して、係数計算部４２’に出力する（ステップＳ４９、図８参照）。

係数計算部４２’は、ステアリングベクトルＶ_ｋ（ｆ）を用いて、適応ビームフォーマの係数Ｗ_ｋ（ｆ）を下記式により求めて、強調部４３に出力する。

ここで、Ｒ_¬ｋ（ｆ）は、話者ｋの音声区間以外の区間｛ｔ｜Ｃ（ｔ）≠ｋ｝の観測信号の相関行列である。
強調部４３は、ＳＮ比最大化ビームフォーマと同様に、適応ビームフォーマの係数Ｗ_ｋ（ｆ）を用いて、上記式（５）より強調信号Ｙ（ｆ，ｔ）を生成する。

なお、上記したＳＮ比最大化ビームフォーマの係数Ｗ_ｋ（ｆ）の補正を、上述の適応ビームフォーマの係数Ｗ_ｋ（ｆ）についても同様に行うことができる。ステアリングベクトルＶ_ｋ（ｆ）の推定の精度が良い場合には、適応ビームフォーマの係数Ｗ_ｋ（ｆ）の補正は必須ではない。しかし、ステアリングベクトルＶ_ｋ（ｆ）の推定の精度が悪い場合には、適応ビームフォーマの係数Ｗ_ｋ（ｆ）の補正を行うことにより、周波数特性の歪みを効果的に防止することができる利点がある。

ＳＮ比最大化ビームフォーマは、全録音区間Ｔ_１（例えば、３０秒）で設計するのではなく、全録音区間Ｔ_１を所定のブロックＴ_１ ^’（例えば、５秒毎のブロック）に区切って設計してもよい。これは、マイク数Ｍより話者数Ｋが多いが、それぞれのブロックＴ_１ ^’ではマイク数Ｍ以下の人数しか発話しないことが仮定できる会議などの場で有効である。この効果を示す例を図１２〜図１４に示す。図１２〜図１４は、話者が４人、マイクが３つの場合の実験データである。図１２のｓ１〜ｓ４はそれぞれ原音声の振幅、ｘ１はマイク１’で収音された混合音声を示す。図１３のｙ１〜ｙ４はそれぞれ、全録音区間Ｔ_１（３０秒）で設計された本発明によるＳＮ比最大化ビームフォーマによって強調された音声を表す。図１４は、ブロック毎（ブロックの時間長Ｔ_１ ^’は５秒）に設計された本発明によるＳＮ比最大化ビームフォーマによって強調された音声を表す。図１３に示すように、全録音区間Ｔ_１でＳＮ比最大化ビームフォーマを設計すると、ＳＮ比最大化ビームフォーマはマイク数−１個の他話者音声しか抑圧できないため、この例のように、話者数４＞マイク数３の場合には音声強調性能があまり良くない。一方、ブロック毎（ここでは５秒ブロック）に区切ってＳＮ比最大化ビームフォーマを設計すると、各ブロックでは話者数がマイク数より少ないため、図１４に示すようにより良い音声の強調ができることが分かる。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図１５に例示するコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ
−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

多信号強調装置１０の機能構成を示すブロック図。ノイズ区間推定部２の機能構成を例示するブロック図。信号分類部３の機能構成を例示するブロック図。信号強調部４の機能構成を例示するブロック図。多信号強調装置１０の処理の流れを例示するフローチャート。信号分類部３の処理の流れを例示するフローチャート。オンラインクラスタリングの処理の流れを例示するフローチャート。信号強調部４の処理の流れを例示するフローチャート。話者が３人おりマイクが３個ある環境で、背景技術に記載した音声強調方法を行った場合の実験結果を示す図。ｓ１〜ｓ３は各話者の音声信号、ｘ１はマイク１’における観測信号、ｙ１は背景技術に記載した音声強調方法によって強調された音声信号を示す。本発明による音声強調の結果を示す図。ｙ１、ｙ２、ｙ３は強調音声であり、それぞれ、図９のｓ１、ｓ２、ｓ３に対応している。本発明の効果を示すための実験の条件を示す図。ｓ１〜ｓ４はそれぞれ原音声信号を示す図。ｘ１はあるマイクで収音された混合音声を示す図。ｙ１〜ｙ４はそれぞれ、全録音区間（３０秒）で設計された本発明によるＳＮ比最大化ビームフォーマによって強調された音声を示す図。ｙ１〜ｙ４はそれぞれ、図１２のＳ１〜Ｓ４に対応している。ブロック毎（ブロックの時間長は５秒）に設計された本発明によるＳＮ比最大化ビームフォーマによって強調された音声を示す図。ｙ１〜ｙ４はそれぞれ、図１２のＳ１〜Ｓ４に対応している。本発明による多信号強調装置をコンピュータにより実施する場合の機能構成を例示する図。

Claims

複数の信号源から発生し複数のセンサで観測された一定の時間長Ｔ_１の時間領域信号を、一定の時間長Ｔ_２（Ｔ_１＞Ｔ_２）のフレーム毎に周波数領域変換した周波数領域信号を用いて、上記一定の時間長Ｔ_１のうち、ノイズのみを含む区間を推定するノイズ区間推定手段と、
上記一定の時間長Ｔ_１のうち上記推定されたノイズのみを含む区間以外の区間に係る、上記フレーム毎の周波数領域信号から特徴量を算出し、その特徴量をクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する信号分類手段と、
上記分類結果を用いて、上記周波数領域信号を、複数の信号源毎に強調する信号強調手段と、
を有し、
上記信号分類手段は、上記特徴量をオンラインクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する手段を含み、
上記信号強調手段は、
ある信号源に分類された周波数領域信号についての相関行列と、それ以外の周波数領域信号についての相関行列とを用いて定義される固有値問題の最大固有値に対応する固有ベクトルであるＳＮ比最大化ビームフォーマの係数を求める係数計算手段と、
求まったＳＮ比最大化ビームフォーマの係数の共役転置を、上記フレーム毎の周波数領域信号に乗算した値を計算することにより、上記ある信号源について強調された信号を求める強調手段と、
を含む、
ことを特徴とする多信号強調装置。
請求項１に記載の多信号強調装置において、
上記ある信号源に分類された周波数領域信号についての相関行列をＲ _ｋ（ｆ）とし、上記それ以外の周波数領域信号についての相関行列をＲ _¬ｋ（ｆ）とし、上記最大固有値をλ（ｆ）とし、上記ＳＮ比最大化ビームフォーマの係数をＷ _ｋ（ｆ）として、
上記固有値問題は、Ｒ _ｋ（ｆ）Ｗ _ｋ（ｆ）＝λ（ｆ）Ｒ _¬ｋ（ｆ）Ｗ _ｋ（ｆ）である、
ことを特徴とする多信号強調装置。
複数の信号源から発生し複数のセンサで観測された一定の時間長Ｔ_１の時間領域信号を、一定の時間長Ｔ_２（Ｔ_１＞Ｔ_２）のフレーム毎に周波数領域変換した周波数領域信号を用いて、上記一定の時間長Ｔ_１のうち、ノイズのみを含む区間を推定するノイズ区間推定手段と、
上記一定の時間長Ｔ_１のうち上記推定されたノイズのみを含む区間以外の区間に係る、上記フレーム毎の周波数領域信号から特徴量を算出し、その特徴量をクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する信号分類手段と、
上記分類結果を用いて、上記周波数領域信号を、複数の信号源毎に強調する信号強調手段と、
を有し、
上記信号分類手段は、上記特徴量をオンラインクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する手段を含み、
上記信号強調手段は、
上記特徴量についてのクラスタリングにより生じた各クラスタのセントロイドから、信号源ｋ毎にステアリングベクトルＶ _ｋ（ｆ）を求めるステアリングベクトル生成手段と、
ある信号源ｋに分類された周波数領域信号についての相関行列をＲ _ｋ（ｆ）、それ以外の周波数領域信号についての相関行列をＲ _¬ｋ（ｆ）、・ ^Ｈを行列・の共役転置として、上記ステアリングベクトルＶ _ｋ（ｆ）から、下記式により定義される適応ビームフォーマの係数Ｗ _ｋ（ｆ）を求める係数計算手段と、

求まった適応ビームフォーマの係数の共役転置を、上記フレーム毎の周波数領域信号に乗算した値を計算することにより、上記ある信号源について強調された信号を求める強調手段と、
を含む、
ことを特徴とする多信号強調装置。
請求項１から３の何れかに記載の多信号強調装置において、
上記信号強調手段は、さらに上記フレーム毎の周波数領域信号と上記強調された信号との差が最小になるように、上記ＳＮ比最大化ビームフォーマの係数又は適応ビームフォーマの係数を補正する手段を含む、
ことを特徴とする多信号強調装置。
請求項１から３の何れかに記載の多信号強調装置において、
上記特徴量は、複数のセンサペアについての到来時間差であり、
上記信号分類手段は、上記フレーム毎の周波数領域信号の位相情報から、上記複数のセンサペアについての到来時間差を推定する到来時間差推定手段を含む、
ことを特徴とする多信号強調装置。
請求項１から３の何れかに記載の多信号強調装置において、
上記特徴量は、複数のセンサペアについての到来時間差ではなく、信号源の方向ベクトルであり、
上記信号分類手段は、さらに、信号の速さと、センサの位置情報を表す行列の一般化逆行列と、上記推定された到来時間差を要素とするベクトルとの積で定まるベクトルを求めることにより、信号源の方向ベクトルを推定する信号源方向推定手段を含む、
ことを特徴とする多信号強調装置。
ノイズ区間推定手段が、複数の信号源から発生し複数のセンサで観測された一定の時間長Ｔ_１の時間領域信号を、一定の時間長Ｔ_２（Ｔ_１＞Ｔ_２）のフレーム毎に周波数領域変換した周波数領域信号を用いて、上記一定の時間長Ｔ_１のうち、ノイズのみを含む区間を推定するノイズ区間推定ステップと、
信号分類手段が、上記一定の時間長Ｔ_１のうち上記推定されたノイズのみを含む区間以外の区間に係る、上記フレーム毎の周波数領域信号から特徴量を算出し、その特徴量をクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する信号分類ステップと、
信号強調手段が、上記分類結果を用いて、上記周波数領域信号を、複数の信号源毎に強調する信号強調ステップと、
を有し、
上記信号分類ステップは、上記特徴量をオンラインクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類するステップを含み、上記信号強調ステップは、
ある信号源に分類された周波数領域信号についての相関行列と、それ以外の周波数領域信号についての相関行列とを用いて定義される固有値問題の最大固有値に対応する固有ベクトルであるＳＮ比最大化ビームフォーマの係数を求める係数計算ステップと、
求まったＳＮ比最大化ビームフォーマの係数の共役転置を、上記フレーム毎の周波数領域信号に乗算した値を計算することにより、上記ある信号源について強調された信号を求める強調ステップと、
を含む、
ことを特徴とする多信号強調方法。
ノイズ区間推定手段が、複数の信号源から発生し複数のセンサで観測された一定の時間長Ｔ_１の時間領域信号を、一定の時間長Ｔ_２（Ｔ_１＞Ｔ_２）のフレーム毎に周波数領域変換した周波数領域信号を用いて、上記一定の時間長Ｔ_１のうち、ノイズのみを含む区間を推定するノイズ区間推定ステップと、
信号分類手段が、上記一定の時間長Ｔ_１のうち上記推定されたノイズのみを含む区間以外の区間に係る、上記フレーム毎の周波数領域信号から特徴量を算出し、その特徴量をクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する信号分類ステップと、
信号強調手段が、上記分類結果を用いて、上記周波数領域信号を、複数の信号源毎に強調する信号強調ステップと、
を有し、
上記信号分類ステップは、上記特徴量をオンラインクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類するステップを含み、
上記信号強調ステップは、
上記特徴量についてのクラスタリングにより生じた各クラスタのセントロイドから、信号源ｋ毎にステアリングベクトルＶ _ｋ（ｆ）を求めるステアリングベクトル生成ステップと、
ある信号源ｋに分類された周波数領域信号についての相関行列をＲ _ｋ（ｆ）、それ以外の周波数領域信号についての相関行列をＲ _¬ｋ（ｆ）、・ ^Ｈを行列・の共役転置として、上記ステアリングベクトルＶ _ｋ（ｆ）から、下記式により定義される適応ビームフォーマの係数Ｗ _ｋ（ｆ）を求める係数計算ステップと、

求まった適応ビームフォーマの係数の共役転置を、上記フレーム毎の周波数領域信号に乗算した値を計算することにより、上記ある信号源について強調された信号を求める強調ステップと、
を含む、
ことを特徴とする多信号強調方法。
請求項１から６の何れかに記載の多信号強調装置としてコンピュータを機能させるための多信号強調プログラム。
請求項９記載の多信号強調プログラムを記録したコンピュータ読み取り可能な記録媒体。