JP2010049083A

JP2010049083A - 音響信号強調装置とその方法と、プログラムと記録媒体

Info

Publication number: JP2010049083A
Application number: JP2008214065A
Authority: JP
Inventors: Takuya Yoshioka; 拓也吉岡; Tomohiro Nakatani; 智広中谷; Masato Miyoshi; 正人三好
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-08-22
Filing date: 2008-08-22
Publication date: 2010-03-04
Anticipated expiration: 2028-08-22
Also published as: JP4960933B2

Abstract

【課題】残響時間がフレーム幅を越える場合でも音源分離を可能にする。
【解決手段】この発明の音響信号強調装置は、帯域分割部と、パラメータ推定部と、残響除去部と、音源分離部と、帯域合成部とを具備する。帯域分割部は、時間領域の観測音響信号を所定数の周波数帯域毎の観測信号に分割する。パラメータ推定部は、周波数帯域毎の観測信号を入力として所定フレーム数前までの残響成分を推定するための回帰行列の推定値と、音源信号を推定するための分離行列の推定値とを生成する。残響除去部は、周波数帯域毎の観測信号に回帰行列を畳み込み演算して残響成分を求める。そして、求めた残響成分を周波数帯域毎の観測信号から減算して残響除去信号を生成する。音源分離部は、残響除去信号に分離行列を乗算して音源信号の推定値を生成する。帯域合成部は、音源信号の推定値を合成して時間領域の強調音響信号に変換する。
【選択図】図１

Description

この発明は、例えば音声認識システムやテレビ会議システム等に利用可能な音響信号強調装置とその方法と、プログラムと記録媒体に関する。

従来の音源分離技術による音響信号強調装置の一般的な構成について、図６を参照して説明する。以後の説明では、各音源から発せられた音の信号を音源信号、マイクロホンで観測された音の信号を観測信号と呼ぶ。特に断らない限り、これらは周波数帯域毎の狭帯域信号を表すものとする。時間領域の信号は、観測音響信号、などのように「音響」という語を付記して表す。音響信号強調装置６００は、帯域分割部６０、パラメータ推定部６２、音源分離部６４、帯域合成部６６を備える。帯域分割部６０は、マイクロホンや音声ファイル等から入力される標本化かつ量子化された時間領域の観測音響信号を、周波数帯域毎の観測信号ｙ_ｔ，ｐ ^(ｍ)に分割する。ｍ，ｔ，ｐはそれぞれマイクロホン、時間、周波数帯域のインデックスを示す。全てのマイクロホンによる観測信号を式（１）のようにベクトル形式で表す。

ここでＭはマイクロホンの個数、τは非共役転置を表す。従来の音源分離技術は、観測信号ベクトルｙ_ｔ，ｐを式（２）により生成されたと仮定する。

ここでＨは共役転置、-Ｈは逆行列の共役転置、ｓ_ｔ、ｐは真の音源信号からなるベクトル、Ｗ_ｐは真の分離行列である。音源信号ベクトルは、ｓ_ｔ，ｐ ^（ｍ）をｍ番目の音源信号として式（３）で定義する。

パラメータ推定部６２は、全ての時間、周波数帯域に渡る観測信号ベクトル{ｙ_ｔ、ｐ}_{0≦ｔ≦Ｔ-1，0≦ｐ≦Ｐ-1}から、各周波数帯域の分離行列Ｗ_ｐの推定値Ｗ_ｐ＾を計算する。音源分離部６４は、各周波数帯域について、各周波数帯域の分離行列の推定値Ｗ_ｐ＾を式（４）に示すように各周波数帯域の観測音響信号ベクトルｙ_ｔ，ｐに適用することで、各周波数帯域の音源信号ベクトルｓ_ｔ，ｐの推定値ｓ_ｔ，ｐ＾を計算する。

帯域合成部６６は、音源信号ベクトルの推定値を合成して時間領域の強調音響信号を計算する。帯域分割部６０は、短時間フーリエ変換やポリフェーズフィルタバンク分析を用いて観測音響信号を周波数帯域毎の観測信号ｙ_ｔ，ｐ ^（ｍ）に分割する。帯域合成部６６は、帯域分割部６０が短時間フーリエ変換を用いた場合はオーバーラップ加算合成を実行し、帯域分割部６０がポリフェーズフィルタバンク分析を用いた場合はポリフェーズフィルタバンク合成を実行する。以後、帯域分割部６０を短時間フーリエ変換で行う場合を例に説明するが、帯域分割部６０には他の時間周波数解析方法を用いても良い。

例えば、非特許文献１に開示された従来の音源分離技術では、パラメータ推定部６２が各音源信号ｓ_ｔ，ｐ ^（１），‥‥，ｓ_ｔ，ｐ ^（ｍ）を互いに統計的に独立であると仮定して、ｓ_ｔ，ｐ ^（１）＾，‥‥，ｓ_ｔ，ｐ ^（ｍ）＾の間の独立性が最大になるように各周波数帯域の分離行列Ｗ_ｐの推定値Ｗ_ｐ＾を計算する。
牧野昭二、荒木章子、向井良、澤田宏「畳み込み混合のブラインド音源分離」システム/制御/情報、Vol.48,No.10,pp.401-408,2004

従来の音響信号強調装置では、残響時間が短時間フーリエ変換のフレーム幅を超える場合に、干渉信号の残響成分が除去されない問題点があった。干渉信号の残響成分を除去する目的で、フレーム内に残響成分が含まれるように、フレーム幅を増やす方法が考えられる。しかし、単純にフレーム幅を増やしても、帯域分割部６０における分割数が増えることで音源信号間の独立性の仮定が成り立たなくなるため、各分離行列の推定が困難になることが知られている。この現象は、例えば参考文献「Araki, S., Mukai, R., Makino, S., Nishikawa, T and Saruwatari, H.: The fundamental limitation of frequency domain blind source separation for convolutivemixtures of speech, IEEE Trans. Speech, Audio Process., Vol. 11,No. 2, pp. 109-1166,2003」に報告されている。

この発明は、このような問題点に鑑みてなされたものであり、残響時間が短時間フーリエ変換のフレーム幅を越える場合でも音源分離が可能な音響信号強調装置とその方法と、プログラムと記録媒体を提供することを目的とする。

この発明の音響信号強調装置は、帯域分割部と、パラメータ推定部と、残響除去部と、音源分離部と、帯域合成部とを具備する。帯域分割部は、時間領域の観測音響信号を所定数の周波数帯域毎の観測信号に分割する。パラメータ推定部は、周波数帯域毎の観測信号を入力として所定フレーム数前までの残響成分を推定するための回帰行列の推定値と、音源信号に分離するための分離行列の推定値とを生成する。残響除去部は、周波数帯域毎の観測信号に回帰行列を畳み込み演算して残響成分を求める。そして、求めた残響成分を周波数帯域毎の観測信号から減算して残響除去信号を生成する。音源分離部は、周波数帯域毎の残響除去信号に分離行列を乗算して音源信号の推定値を生成する。帯域合成部は、音源信号の推定値を合成して時間領域の強調音響信号を生成する。

この発明の音響信号強調装置は、残響除去部で残響を除去した後の残響除去信号に、分離行列を乗算して音源分離を実施する。したがって、残響時間がフレーム幅を越える場合でも音源分離することが可能になる。また、強調後の音響信号は残響成分が抑圧されているため、より高品質な強調音響信号を得ることが出来る。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
〔この発明の基本的な考え〕
実施例の説明の前に、この発明の音響信号強調方法の基本的な考えについて説明する。この発明では、観測信号ｙ_ｔ，ｐを式（２）ではなく式（５）で生成されたと仮定する。

つまり、観測信号ｙ_ｔ，ｐを未知のパラメータＧ_ｋ，ｐとＷ_ｐと音源信号ｓ_ｔ，ｐとから生成されるものとモデル化している。このモデルは、音源信号ｓ_ｔ，ｐが混合行列Ｗ_ｐ ^-Ｈによって混合されてｘ_ｔ，ｐとなり、さらにパラメータＧ_ｋ，ｐをｋ次の回帰行列にもつＭ入力Ｍ出力の自己回帰系によって残響が重畳されて観測信号ｙ_ｔ，ｐとなることを意味している。この発明のパラメータ推定部は、観測信号ｙ_ｔ，ｐから全ての周波数帯域ｐ（０≦ｐ≦Ｐ-1）に渡って、Ｇ_ｋ，ｐとＷ_ｐとを推定する。Ｋ_ｐは、ｐ番目の周波数帯域における残響の長さに対応し、これを残響除去フレーム数と称する。

パラメータ推定部で推定された各周波数帯域の回帰行列の推定値をＧ_ｋ，ｐ＾、分離行列の推定値をＷ_ｐ＾とおくと、この発明は、式（７）と式（８）に示すようにして音源信号を推定する。

この発明は、式（７）に示すように観測信号ｙ_ｔ，ｐに回帰行列の推定値Ｇ_ｋ，ｐ＾を畳み込み演算して残響成分を求め、その残響成分を観測信号から減算して残響除去信号ｘ_ｔ，ｐ＾を求める。そして残響除去信号ｘ_ｔ，ｐ＾に分離行列の推定値Ｗ_ｐ＾を乗算して音源分離を実施する。よって、残響時間がフレーム幅を越える場合でも音源分離することが可能になる。

図１にこの発明の音響信号強調装置１００の機能構成例を示す。その動作フローを図２に示す。音響信号強調装置１００は、帯域分割部６０と、パラメータ推定部１２と、強調信号計算部１４と、帯域合成部６６とを備える。帯域分割部６０と帯域合成部６６とは、従来の音響信号強調装置６００と同じものである。音響信号強調装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現される。

帯域分割部６０は、時間領域の観測音響信号を所定数の周波数帯域毎の観測信号ｙ_ｔ，ｐに分割する（ステップＳ６０）。パラメータ推定部１２は、観測信号ｙ_ｔ，ｐを入力として所定フレーム数前までの残響成分を推定するための回帰行列の推定値Ｇ_ｋ，ｐ＾と、音源信号を推定するための分離行列の推定値Ｗ_ｐ＾とを生成する（ステップＳ１２）。ここで、所定フレーム数前とは、上記した残響除去フレーム数Ｋ_ｐのことであり、この値は外部から設定されるようにしても良いし、パラメータ推定部１２の内部に予め固定値として設定しておいても良い。

回帰行列Ｇ_ｋ，ｐ＾と分離行列Ｗ_ｐ＾の推定値は、式（９）に示す対数尤度関数を最大化するＧ_ｋ，ｐ及びＷ_ｐの値として求められる。

ただし、Θは全ての未知パラメータの集合であり、それぞれ次のように定義される。

式（１１）の_ｓΘは、以後に説明する音源信号の全極パラメータの集合である。また、式（１２）の_ｗΘと式（１３）の_ｇΘは、それぞれ分離行列と回帰行列の集合である。また、式（９）に現れる_ｓΛ_ｔについては後述する。

式（９）の導出過程を説明する。まず、推定する音源信号S_ｔ，ｐ ^（ｍ）の確率密度関数を求める。この発明では各音源信号の短時間パワースペクトル密度は、Ｑ次の全極型の関数で与えられると仮定する。すなわち、ω∈[-π，π]を角周波数、第ｔフレームにおけるｍ番目の音源信号のパワースペクトル密度を_ｓλ_ｔ ^（ｍ）（ω）と書くと、音源信号のパワースペクトル密度_ｓλ_ｔ ^（ｍ）（ω）は式（１４）で与えられる。

ここで、ａ_ｔ，ｋ ^（ｍ）は線形予測係数、_ｓｖ_ｔ ^（ｍ）は予測残差パワーである。また、ａ_ｔ，1 ^（ｍ），…，ａ_ｔ，Ｑ ^（ｍ）と_ｓｖ_ｔ ^（ｍ）をまとめて全極パラメータと呼ぶ。更に、音源信号ベクトルｓ_ｔ，ｐの共分散行列をＭ次元対角行列_ｓΛ_ｔ（ω）を用いて式（１６）のように表す。つまり、複数の音源信号間に相関が無いと仮定している。

音源信号Ｓ_ｔ，ｐ ^（ｍ）は、平均０、分散_ｓλ_ｔ ^（ｍ）（２πｐ/Ｐ）の複素正規分布に従うので、音源信号Ｓ_ｔ，ｐ ^（ｍ）の確率密度関数は、式（１７）で与えられる。

Ｎ{ｘ；μ，Σ}は、平均μ、共分散行列Σの複素正規分布に従う確率変数ｘの確率密度
関数を表す。例えば、ｘがＤ次元ベクトルである場合、Ｎ{ｘ；μ，Σ}は具体的には式（１８）で与えられる。

ここで、任意のマイクロホン番号ｍについて、（ｔ₁，ｐ₁）＝（ｔ₂，ｐ₂）でなければ、Ｓ_ｔ1，ｐ1 ^（ｍ）とＳ_ｔ2，ｐ2 ^（ｍ）は統計的に独立である。また、ｍ₁≠ｍ₂、すなわちマイクロホン番号が異なるならばＳ_ｔ1，ｐ1 ^（ｍ1）とＳ_ｔ2，ｐ2 ^（ｍ2）は常に統計的に独立である。

式（６）と式（１７）とから、ｘ_ｔ，ｐの確率密度関数は式（１９）のように書ける。

よって式（５）により、過去の観測信号が与えられた下での観測信号ｙ_ｔ，ｐの条件付確率密度関数は、式（２０）で与えられることが分かる。

したがって、全ての観測信号ｙについての確率密度関数は式（２１）で表せる。

式（２１）の両辺の対数を取ることで対数尤度関数、式（９）が導かれる。式（９）の
対数尤度関数は全極パラメータ_ｓΘにも依存するため、パラメータ推定部１２は、分離行列_ｗΘと回帰行列_ｇΘだけではなく、全てのパラメータΘ＝{_ｓΘ，_ｗΘ，_ｇΘ}を推定する。すなわち、式（９）を最大化するΘ＾＝{_ｓΘ＾，_ｗΘ＾，_ｇΘ＾}を未知パラメータΘの推定値として求める。式（９）を最大化する未知パラメータの推定値Θ＾の求め方には様々な方法を採用することが出来る。例えば、最急降下法や準ニュートン法等の任意の最適化法を用いる。これらの最適化法は周知であるので、その説明は省略する。パラメータ推定部１２は、未知パラメータΘ＾の内の分離行列の推定値_ｗΘ＾と、回帰行列の推定値_ｇΘ＾とを強調信号計算部１４に供給する（ステップＳ１２）。

強調信号計算部１４を構成する残響除去部１４１は、帯域分割部６０が出力する周波数
帯域毎に分割された観測信号ｙ_ｔ，ｐに回帰行列の推定値Ｇ_ｋ，ｐ＾を畳み込み演算して残響成分を求め、観測信号ｙ_ｔ，ｐから残響成分を減算して残響除去信号ｘ_ｔ，ｐを生成する（式（７））（ステップＳ１４１）。音源分離部１４２は、残響除去信号ｘ_ｔ，ｐに分離行列の推定値Ｗ_ｐ＾を乗算（式（８））して音源信号の推定値を生成する（ステップＳ１４２）。帯域合成部６６は、音源信号の推定値を合成して時間領域の強調音響信号を生成する（ステップＳ６６）。このようにして生成された強調音響信号は、観測信号から残響成分を除去した後の残響除去信号を音源分離したものなので、残響時間がフレーム幅を越える場合でも音源分離された音響信号になる。また、強調後の音響信号は残響成分が抑圧されているため、より高品質な強調音響信号を得ることが出来る。

なお、残響を除去する所定フレーム数（残響除去フレーム数Ｋ_ｐ）を一つの固定値として説明したが、この値を周波数帯域の中心周波数に対応させて可変しても良い。周波数帯域によって残響時間が異なることは良く知られている。室内音響の分野においては、５００Ｈｚ以下の周波数帯域の残響時間が長いので、その周波数帯域については所定フレーム数を大きく設定し、それ以外の周波数帯域の所定フレーム数を小さく設定する方法が考えられる。パラメータ推定部１２内に所定フレーム数可変手段１２０を備え、所定フレーム数可変手段１２０が、周波数帯域に応じて所定フレーム数を可変して設定することで、残響を効率的に除去することが可能になる。つまり、計算量を削減する効果が得られる。

次に、最急降下法等の従来の一般的な最適化アルゴリズムではない方法で、未知パラメ
ータΘを推定する実施例２を説明する。図３に実施例２のパラメータ推定部３０の機能構
成例を示す。その動作フローを図４に示す。パラメータ推定部３０は、未知パラメータΘ
の推定に特化した効率的なアルゴリズムを用いて、分離行列の推定値_ｗΘ＾と、回帰行列の推定値_ｇΘ＾とを生成するものである。

パラメータ推定部３０は、観測信号記録部３０１と、パラメータ推定値初期化部３０２と、全極パラメータ推定値更新部３０３と、音源信号パワースペクトル推定値更新部３０４と、回帰行列推定値更新部３０５と、分離行列推定値更新部３０６と、収束判定部３０７とを備える。観測信号記録部３０１は、帯域分割部６０で所定数の周波数帯域に分割された観測信号を記録する。観測信号記録部３０１は、観測区間中の全ての観測信号を記録すると共に記録した観測信号を、全極パラメータ推定値更新部３０３と回帰行列推定値更新部３０５と分離行列推定値更新部３０６とに時系列順に出力する。

パラメータ推定値初期化部３０２は、回帰行列の推定値_ｇΘ＾と分離行列の推定値_ｗΘ＾の初期値を設定する（ステップＳ３０２）。また、繰り返し回数のインデックスｉを０とする。回帰行列の推定値の初期値_ｇΘ＾^（０）は、零行列に設定する。分離行列の推定値_ｗΘ＾^（０）は、単位行列に設定する。これらは、残響と音源信号の混合がともに存在しない設定を初期値とすることを意味している。

全極パラメータ推定値更新部３０３は、観測信号と、回帰行列の初期値_ｇΘ＾^（０）と分離行列の初期値_ｗΘ＾^（０）又は更新された回帰行列の推定値_ｇΘ＾^（ｉ）と分離行列の初期値_ｗΘ＾^（ｉ）を入力として、全極パラメータ推定値_ｓΘ＾^{（ｉ＋1）}を式（２２）に従って更新する（ステップＳ３０３）。

式（２２）に示す全極パラメータの更新則について説明する。今、回帰行列の一時的な推定値_ｇΘ＾^（ｉ）と分離行列の一時的な推定値_ｗΘ＾^（ｉ）は既知である。その推定値を用いて式（７）と式（８）により音源信号ベクトルｓ_ｔ，ｐの推定値を計算する。
こうして得られる各音源信号の推定値をＳ_ｔ，ｐ＾^{（ｍ）（ｉ＋１）}と書く。ｍ番目の音源信号のｔ番目のフレームにおける全極パラメータの更新された推定値ａ＾_ｔ，１ ^{（ｍ）（ｉ＋１）}，…，ａ＾_ｔ，Ｑ ^{（ｍ）（ｉ＋１）}，_ｓｖ_ｔ＾^{（ｍ）（ｉ＋１）}は、各音源信号の推定値Ｓ_ｔ，ｐ＾^{（ｍ）（ｉ＋１）}に線形予測分析を適用することで求められる。

全てのマイクロホン番号ｍ（１≦ｍ≦Ｍ）及びフレーム番号ｔ（０≦ｔ≦Ｔ-１）に渡ってＳ_ｔ，ｐ＾^（ｍ）に線形予測分析を適用することで式（２３）に示す更新された全極パラメータ_ｓΘ＾^{（ｉ＋1）}を得ることが出来る。

更新された全極パラメータ_ｓΘ＾^{（ｉ＋1）}は、音源信号パワースペクトル推定値更新部３０４に入力される。音源信号パワースペクトル推定値更新部３０４は、全極パラメータ_ｓΘ＾^{（ｉ＋1）}を入力として音源信号のパワースペクトル密度の推定値_ｓΛ_ｔ＾^{（ｉ＋１）}（ω）を更新する（ステップＳ３０４）。音源信号のパワースペクトル密度の推定値_ｓΛ_ｔ＾^{（ｉ＋１）}（ω）は、入力された全極パラメータ_ｓΘ＾^{（ｉ＋1）}から式（１４）と式（１５）と式（１６）とを用いて更新される。すなわち、_ｓΛ_ｔ＾^{（ｉ＋１）}（ω）は、式（２４）で計算される。

更新された音源信号のパワースペクトル密度の推定値_ｓΛ_ｔ＾^{（ｉ＋１）}（ω）は、回帰行列推定値更新部３０５に入力される。

回帰行列推定値更新部３０５は、音源信号のパワースペクトル密度の推定値_ｓΛ_ｔ＾^{（ｉ＋１）}（ω）と、分離行列の初期値_ｗΘ＾^（０）又は更新された分離行列の推定値_ｗΘ＾^(ｉ)と、観測信号とを入力として回帰行列の推定値_ｇΘ＾^{（ｉ＋1）}を式（２７）に従って更新する（ステップＳ３０５）。

式（２７）に示す回帰行列の更新則について説明する。まずｐ番目の周波数帯域における回帰行列の各成分を式（２８）に示すように単一のベクトルにまとめる。

右下の添え字は行列の大きさを表す。ここで、ｇ_ｋ，ｐ ^（ｍ）はＧ_ｋ，ｐのｍ番目の列を表すものとする。以降、ｇ_ｐを回帰行列の成分ベクトルと称する。成分ベクトルｇ_ｐの全周波数帯域に渡る集合{ｇ_ｐ}_{０≦ｐ≦Ｐ-1}は回帰行列_ｇΘに一致する。

次にｐ番目の周波数帯域における１フレーム前の観測信号行列Ｙ_{ｔ−１，ｐ}を式（３０）に示すように定義する。

これらを用いて、回帰行列の成分ベクトルの更新後の推定値ｇ_ｐ＾^{（ｉ＋１）}は式（３２）で計算出来る。

式（３０）を全ての周波数帯域番号ｐ（０≦ｐ≦Ｐ−１）に渡って計算することで回帰
行列の推定値_ｇΘ＾^{（ｉ＋1）}を更新することが出来る。こうして求めた_ｇΘ＾^{（ｉ＋1）}が式（２５）の解である。更新した回帰行列の推定値_ｇΘ＾^{（ｉ＋1）}は、分離行列推定値更新部３０６に入力される。
分離行列推定値更新部３０６は、回帰行列の推定値_ｇΘ＾^{（ｉ＋1）}と、音源信号のパワースペクトル密度の推定値と、観測信号とを入力として分離行列の推定値_ｗΘ＾^{（ｉ＋1）}を式（４）に従って更新する（ステップＳ３０６）。

式（３３）に示す分離行列の更新則について説明する。式（３４）は例えば準ニュートン法を用いて解くことが出来る。マイクロホンの数が２本（Ｍ＝２、ステレオ録音）の場合、より効率的な閉形式のアルゴリズムが存在する。ここでは、そのアルゴリズムを用いて分離行列の推定値_ｗΘ＾^{（ｉ＋1）}を更新する例を説明する。

まず、式（７）で求められる残響除去信号ｘ_ｔ，ｐ＾^{（ｉ＋１）}の共分散行列Ｒ_ｐを、マイクロホン毎に式（３４）と式（３５）のように定義する。

この場合、分離行列の推定値_ｗΘ＾^{（ｉ＋1）}は次に示すアルゴリズムで求めることが出来る。

まず、式（３６）を満たす行列Ｒ_ｐ ^（1）の逆平方根Ｖ_ｐを計算する。

ここで、Ｉ_２は二次元単位行列を表す。次に式（３７）を満たすユニタリ行列Ｅ_ｐと、それに付随して定まるｄ_ｐ ^（１）とｄ_ｐ ^（２）を計算する。

Ｅ_ｐは、具体的にはＶ_ｐ ^ＨＲ_ｐ ^（２）Ｖ_ｐを固有値分解することで求められる。そして、Ｖ_ｐ、Ｅ_ｐ、ｄ_ｐ ^（２）を用いてＷ_ｐ ^{（ｉ＋１）}＾を式（３８）で計算する。

式（３６）を全ての周波数帯域番号ｐ（０≦ｐ≦Ｐ−１）に渡って計算することで、分離行列の推定値_ｗΘ＾^{（ｉ＋1）}を得る。こうして求めた_ｗΘ＾^{（ｉ＋1）}が式（３１）の解である。

また、以上説明したアルゴリズムの変わりに公知の音源分離技術を用いて分離行列の推定値_ｗΘ＾^{（ｉ＋1）}を求めても良い。公知の音源分離技術としては、FastICA、ベル＝セイノフスキーのアルゴリズム、チコツキ＝ウンベハウエンのアルゴリズム、ＪＡＤＥ等が利用出来る。ここに上げた音源分離技術は、例えば参考文献「A.Hyvarinen, J.Karhunen,E. Oja,根元幾（訳）、川勝真喜（訳）“詳解独立成分分析信号解析の新しい世界”東京電機大学出版局、2005」に記載されている。

以上のようにして更新された回帰行列の推定値_ｇΘ＾^{（ｉ＋1）}と、分離行列の推定値_ｗΘ＾^{（ｉ＋1）}とが、収束したか否かを収束判定部３０７が判定する（ステップＳ３０７）。収束しているか否かを判定する方法としては、例えば繰り返し回数ｉが所定数に到達していれば収束していると判定しても良いし、繰り返しによって得られる対数尤度関数（式（９））の値の増分が、所定の閾値よりも小さければ収束していると判定しても良い。収束するまでステップＳ３０３〜ステップＳ３０６の動作が繰り返され、収束した回帰行列の推定値_ｇΘ＾^{（ｉ＋1）}と、分離行列の推定値_ｗΘ＾^{（ｉ＋1）}とが、強調信号計算部１４に出力される。それと同時に、パラメータ推定値記録部３０８に両パラメータを記録しても良い。

〔実験結果〕
この発明の音響信号強調方法の効果を確認する目的で実験を行った。実験条件を説明する。音源信号は、ＡＳＪ-ＪＮＡＳデータベースから男女各１話者の音声を抽出した。この音源信号を残響時間が約０.６秒の部屋で互いに異なる位置から再生し、２個のマイクロホンで録音した。録音時の標本化周波数は８ｋＨｚとした。音響信号強調装置は、実施例２で説明した構成とした。帯域分割部には、ポリフェーズフィルタバンク分析を用いた。帯域分割数は２５６、間引き率は１２８とした。

音響信号の極の個数はＱ＝１２とした。残響除去フレーム数Ｋ_ｐは、１５００Ｈｚ未満の周波数帯域ではＫ_ｐ＝４０、それ以上の周波数帯域では周波数が高くなる程小さな値に設定した。収束判定は、繰り返し回数が３回で収束しているものとした。その結果を示す音響信号の波形を図５に示す。図５の縦軸は振幅、横軸は時間（秒）である。図５（ａ）が一方のマイクロホンで録音した観測音響信号、図５（ｂ）が従来の音源分離技術で強調された女性話者の音声、図５（ｃ）が従来の音源分離技術で強調された男性話者の音声、図５（ｄ）がこの発明で強調した女性話者の音声、図５（ｅ）がこの発明で強調した男性話者の音声、図５（ｆ）が女性話者の音源信号、図５（ｇ）が男性話者の音源信号である。

従来の音源分離技術による強調音声と、この発明による強調音声とを比較すると、男女共にこの発明の音響信号強調方法の方が残響成分を抑圧して、より良好に音源分離を達成していることが見て取れる。例えば、男性話者は冒頭約１秒の間発話していない。しかし、従来技術は図５（ｃ）の冒頭１秒間に現れているように女性話者の干渉音声を除去出来ていない。一方、この発明による男性話者の強調音声を示す図５（ｅ）の同一の区間の女性の音声は、十分抑圧されている。このようにこの発明の音響信号強調方法は、従来技術よりも干渉音声を除去することが出来た。なお、図５に示した実験のＳＮ比の平均改善率を比較すると従来技術の２.１ｄＢに対してこの発明は４.９ｄＢであった。このようにこの発明の音響信号強調装置によれば、高品質な強調音響信号を得ることが出来る。

なお、この発明の技術思想に基づく音響信号強調装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ-ＲＡＭ（Random Access Memory）、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ-Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてフラッシュメモリー等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この発明の音響信号強調装置１００の機能構成例を示す図。音響信号強調装置１００の動作フローを示す図。パラメータ推定部３０の機能構成例を示す図。パラメータ推定部３０の動作フローを示す図。音響信号強調装置１００を用いた音源分離実験の結果を示す図であり、（ａ）は観測音響信号を示す図、（ｂ）は従来の音源分離技術で強調した女性話者の音声を示す図、（ｃ）は従来の音源分離技術で強調した男性話者の音声を示す図、（ｄ）はこの発明で強調した女性話者の音声を示す図、（ｅ）はこの発明で強調した男性話者の音声を示す図、（ｆ）は女性話者の音源信号を示す図、（ｇ）は男性話者の音源信号を示す図である。従来の音響信号強調装置６００の機能構成例を示す図。

Claims

時間領域の観測音響信号を所定数の周波数帯域毎の観測信号に分割する帯域分割部と、
上記観測信号を入力として所定フレーム数前までの残響成分を推定するための回帰行列の推定値と、音源信号に分離するための分離行列の推定値とを生成するパラメータ推定部と、
上記観測信号に上記回帰行列を畳み込み演算して残響成分を求め、上記残響成分を上記観測信号から減算して残響除去信号を生成する残響除去部と、
上記残響除去信号に上記分離行列を乗算して音源信号の推定値を生成する音源分離部と、
上記音源信号の推定値を合成して時間領域の強調音響信号を生成する帯域合成部と、
を具備する音響信号強調装置。
請求項１に記載した音響信号強調装置において、
上記パラメータ推定部は、
上記観測信号を記録する観測信号記録部と、
上記回帰行列の推定値と上記分離行列の推定値の初期値を設定するパラメータ推定値初期化部と、
上記初期値又は上記回帰行列の推定値と上記分離行列の推定値と、上記観測信号とを入力として全極パラメータ推定値を更新する全極パラメータ推定値更新部と、
上記全極パラメータ推定値を入力として音源信号のパワースペクトル密度の推定値を更新する音源信号パワースペクトル推定値更新部と、
上記音源信号のパワースペクトル密度の推定値と上記分離行列の推定値と上記観測信号とを入力として上記回帰行列の推定値を更新する回帰行列推定値更新部と、
上記回帰行列の推定値と上記音源信号のパワースペクトル密度の推定値と上記観測信号とを入力として上記分離行列の推定値を更新する分離行列推定値更新部と、
上記回帰行列の推定値と上記分離行列の推定値が収束したか否かを判定する収束判定部と、
を備えることを特徴とする音響信号強調装置。
請求項２に記載した音響信号強調装置において、
上記分離行列推定値更新部は、
上記分離行列の推定値を、音源分離技術における分離行列の計算法を用いて更新するものであることを特徴とする音響信号強調装置。
請求項１乃至３の何れかに記載した音響信号強調装置において、
上記パラメータ推定部は、上記所定フレーム数を上記観測信号の周波数帯域に応じて可変する所定フレーム数可変手段を備えることを特徴とする音響信号強調装置。
帯域分割部が、時間領域の観測音響信号を所定数の周波数帯域毎の観測信号に分割する帯域分割過程と、
パラメータ推定部が、上記観測信号を入力として所定フレーム数前までの残響成分を推定するための回帰行列の推定値と、音源信号に分離するための分離行列の推定値とを生成するパラメータ推定過程と、
残響除去部が、上記観測信号に上記回帰行列を畳み込み演算して残響成分を求め、上記残響成分を上記観測信号から減算して残響除去信号を生成する残響除去過程と、
音源分離部が、上記残響除去信号に上記分離行列を乗算して音源信号の推定値を生成する音源分離過程と、
帯域合成部が、上記音源信号の推定値を合成して時間領域の強調音響信号を生成する帯域合成過程と、
を含む音響信号強調方法。
請求項５に記載した音響信号強調方法において、
上記パラメータ推定過程は、
パラメータ推定値初期化部が、上記回帰行列の推定値と上記分離行列の推定値の初期値を設定するパラメータ推定値初期化ステップと、
全極パラメータ推定値更新部が、上記初期値又は上記回帰行列の推定値と上記分離行列の推定値と、上記観測信号とを入力として全極パラメータ推定値を更新する全極パラメータ推定値更新ステップと、
音源信号パワースペクトル推定値更新部が、上記全極パラメータ推定値を入力として音源信号のパワースペクトル密度の推定値を更新する音源信号パワースペクトル推定値更新ステップと、
回帰行列推定値更新部が、上記音源信号のパワースペクトル密度の推定値と上記分離行列の推定値と上記観測信号とを入力として上記回帰行列の推定値を更新する回帰行列推定値更新ステップと、
分離行列推定値更新部が、上記回帰行列の推定値と上記音源信号のパワースペクトル密度の推定値と上記観測信号とを入力として上記分離行列の推定値を更新する分離行列推定値更新ステップと、
収束判定部が、上記回帰行列の推定値と上記分離行列の推定値が収束したか否かを判定する収束判定ステップと、
を含むことを特徴とする音響信号強調方法。
請求項６に記載した音響信号強調方法において、
上記分離行列推定値更新過程は、
上記分離行列の推定値を、音源分離技術における分離行列の計算法を用いて更新する過程であることを特徴とする音響信号強調方法。
請求項５乃至７の何れかに記載した音響信号強調方法において、
上記パラメータ推定過程は、上記所定フレーム数を上記観測信号の周波数帯域に応じて可変する所定フレーム数可変ステップを含むことを特徴とする音響信号強調方法。
請求項１乃至４の何れかに記載した音響信号強調装置としてコンピュータを機能させるための装置プログラム。
請求項９に記載した何れかの装置プログラムを記録したコンピュータで読み取り可能な記録媒体。