JP2010049083A - 音響信号強調装置とその方法と、プログラムと記録媒体 - Google Patents

音響信号強調装置とその方法と、プログラムと記録媒体 Download PDF

Info

Publication number
JP2010049083A
JP2010049083A JP2008214065A JP2008214065A JP2010049083A JP 2010049083 A JP2010049083 A JP 2010049083A JP 2008214065 A JP2008214065 A JP 2008214065A JP 2008214065 A JP2008214065 A JP 2008214065A JP 2010049083 A JP2010049083 A JP 2010049083A
Authority
JP
Japan
Prior art keywords
signal
estimated value
sound source
matrix
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008214065A
Other languages
English (en)
Other versions
JP4960933B2 (ja
Inventor
Takuya Yoshioka
拓也 吉岡
Tomohiro Nakatani
智広 中谷
Masato Miyoshi
正人 三好
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008214065A priority Critical patent/JP4960933B2/ja
Publication of JP2010049083A publication Critical patent/JP2010049083A/ja
Application granted granted Critical
Publication of JP4960933B2 publication Critical patent/JP4960933B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】残響時間がフレーム幅を越える場合でも音源分離を可能にする。
【解決手段】この発明の音響信号強調装置は、帯域分割部と、パラメータ推定部と、残響除去部と、音源分離部と、帯域合成部とを具備する。帯域分割部は、時間領域の観測音響信号を所定数の周波数帯域毎の観測信号に分割する。パラメータ推定部は、周波数帯域毎の観測信号を入力として所定フレーム数前までの残響成分を推定するための回帰行列の推定値と、音源信号を推定するための分離行列の推定値とを生成する。残響除去部は、周波数帯域毎の観測信号に回帰行列を畳み込み演算して残響成分を求める。そして、求めた残響成分を周波数帯域毎の観測信号から減算して残響除去信号を生成する。音源分離部は、残響除去信号に分離行列を乗算して音源信号の推定値を生成する。帯域合成部は、音源信号の推定値を合成して時間領域の強調音響信号に変換する。
【選択図】図1

Description

この発明は、例えば音声認識システムやテレビ会議システム等に利用可能な音響信号強調装置とその方法と、プログラムと記録媒体に関する。
従来の音源分離技術による音響信号強調装置の一般的な構成について、図6を参照して説明する。以後の説明では、各音源から発せられた音の信号を音源信号、マイクロホンで観測された音の信号を観測信号と呼ぶ。特に断らない限り、これらは周波数帯域毎の狭帯域信号を表すものとする。時間領域の信号は、観測音響信号、などのように「音響」という語を付記して表す。音響信号強調装置600は、帯域分割部60、パラメータ推定部62、音源分離部64、帯域合成部66を備える。帯域分割部60は、マイクロホンや音声ファイル等から入力される標本化かつ量子化された時間領域の観測音響信号を、周波数帯域毎の観測信号yt,p (m)に分割する。m,t,pはそれぞれマイクロホン、時間、周波数帯域のインデックスを示す。全てのマイクロホンによる観測信号を式(1)のようにベクトル形式で表す。
Figure 2010049083
ここでMはマイクロホンの個数、τは非共役転置を表す。従来の音源分離技術は、観測信号ベクトルyt,pを式(2)により生成されたと仮定する。
Figure 2010049083
ここでHは共役転置、-Hは逆行列の共役転置、st、pは真の音源信号からなるベクトル、Wは真の分離行列である。音源信号ベクトルは、st,p (m)をm番目の音源信号として式(3)で定義する。
Figure 2010049083
パラメータ推定部62は、全ての時間、周波数帯域に渡る観測信号ベクトル{yt、p}0≦t≦T-1,0≦p≦P-1から、各周波数帯域の分離行列Wの推定値W^を計算する。音源分離部64は、各周波数帯域について、各周波数帯域の分離行列の推定値W^を式(4)に示すように各周波数帯域の観測音響信号ベクトルyt,pに適用することで、各周波数帯域の音源信号ベクトルst,pの推定値st,p^を計算する。
Figure 2010049083
帯域合成部66は、音源信号ベクトルの推定値を合成して時間領域の強調音響信号を計算する。帯域分割部60は、短時間フーリエ変換やポリフェーズフィルタバンク分析を用いて観測音響信号を周波数帯域毎の観測信号yt,p (m)に分割する。帯域合成部66は、帯域分割部60が短時間フーリエ変換を用いた場合はオーバーラップ加算合成を実行し、帯域分割部60がポリフェーズフィルタバンク分析を用いた場合はポリフェーズフィルタバンク合成を実行する。以後、帯域分割部60を短時間フーリエ変換で行う場合を例に説明するが、帯域分割部60には他の時間周波数解析方法を用いても良い。
例えば、非特許文献1に開示された従来の音源分離技術では、パラメータ推定部62が各音源信号st,p (1),‥‥,st,p (m)を互いに統計的に独立であると仮定して、st,p (1)^,‥‥,st,p (m)^の間の独立性が最大になるように各周波数帯域の分離行列Wの推定値W^を計算する。
牧野昭二、荒木章子、向井良、澤田宏「畳み込み混合のブラインド音源分離」システム/制御/情報、Vol.48,No.10,pp.401-408,2004
従来の音響信号強調装置では、残響時間が短時間フーリエ変換のフレーム幅を超える場合に、干渉信号の残響成分が除去されない問題点があった。干渉信号の残響成分を除去する目的で、フレーム内に残響成分が含まれるように、フレーム幅を増やす方法が考えられる。しかし、単純にフレーム幅を増やしても、帯域分割部60における分割数が増えることで音源信号間の独立性の仮定が成り立たなくなるため、各分離行列の推定が困難になることが知られている。この現象は、例えば参考文献「Araki, S., Mukai, R., Makino, S., Nishikawa, T and Saruwatari, H.: The fundamental limitation of frequency domain blind source separation for convolutivemixtures of speech, IEEE Trans. Speech, Audio Process., Vol. 11,No. 2, pp. 109-1166,2003」に報告されている。
この発明は、このような問題点に鑑みてなされたものであり、残響時間が短時間フーリエ変換のフレーム幅を越える場合でも音源分離が可能な音響信号強調装置とその方法と、プログラムと記録媒体を提供することを目的とする。
この発明の音響信号強調装置は、帯域分割部と、パラメータ推定部と、残響除去部と、音源分離部と、帯域合成部とを具備する。帯域分割部は、時間領域の観測音響信号を所定数の周波数帯域毎の観測信号に分割する。パラメータ推定部は、周波数帯域毎の観測信号を入力として所定フレーム数前までの残響成分を推定するための回帰行列の推定値と、音源信号に分離するための分離行列の推定値とを生成する。残響除去部は、周波数帯域毎の観測信号に回帰行列を畳み込み演算して残響成分を求める。そして、求めた残響成分を周波数帯域毎の観測信号から減算して残響除去信号を生成する。音源分離部は、周波数帯域毎の残響除去信号に分離行列を乗算して音源信号の推定値を生成する。帯域合成部は、音源信号の推定値を合成して時間領域の強調音響信号を生成する。
この発明の音響信号強調装置は、残響除去部で残響を除去した後の残響除去信号に、分離行列を乗算して音源分離を実施する。したがって、残響時間がフレーム幅を越える場合でも音源分離することが可能になる。また、強調後の音響信号は残響成分が抑圧されているため、より高品質な強調音響信号を得ることが出来る。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
〔この発明の基本的な考え〕
実施例の説明の前に、この発明の音響信号強調方法の基本的な考えについて説明する。この発明では、観測信号yt,pを式(2)ではなく式(5)で生成されたと仮定する。
Figure 2010049083
つまり、観測信号yt,pを未知のパラメータGk,pとWと音源信号st,pとから生成されるものとモデル化している。このモデルは、音源信号st,pが混合行列W -Hによって混合されてxt,pとなり、さらにパラメータGk,pをk次の回帰行列にもつM入力M出力の自己回帰系によって残響が重畳されて観測信号yt,pとなることを意味している。この発明のパラメータ推定部は、観測信号yt,pから全ての周波数帯域p(0≦p≦P-1)に渡って、Gk,pとWとを推定する。Kは、p番目の周波数帯域における残響の長さに対応し、これを残響除去フレーム数と称する。
パラメータ推定部で推定された各周波数帯域の回帰行列の推定値をGk,p^、分離行列の推定値をW^とおくと、この発明は、式(7)と式(8)に示すようにして音源信号を推定する。
Figure 2010049083
この発明は、式(7)に示すように観測信号yt,pに回帰行列の推定値Gk,p^を畳み込み演算して残響成分を求め、その残響成分を観測信号から減算して残響除去信号xt,p^を求める。そして残響除去信号xt,p^に分離行列の推定値W^を乗算して音源分離を実施する。よって、残響時間がフレーム幅を越える場合でも音源分離することが可能になる。
図1にこの発明の音響信号強調装置100の機能構成例を示す。その動作フローを図2に示す。音響信号強調装置100は、帯域分割部60と、パラメータ推定部12と、強調信号計算部14と、帯域合成部66とを備える。帯域分割部60と帯域合成部66とは、従来の音響信号強調装置600と同じものである。音響信号強調装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現される。
帯域分割部60は、時間領域の観測音響信号を所定数の周波数帯域毎の観測信号yt,pに分割する(ステップS60)。パラメータ推定部12は、観測信号yt,pを入力として所定フレーム数前までの残響成分を推定するための回帰行列の推定値Gk,p^と、音源信号を推定するための分離行列の推定値W^とを生成する(ステップS12)。ここで、所定フレーム数前とは、上記した残響除去フレーム数Kのことであり、この値は外部から設定されるようにしても良いし、パラメータ推定部12の内部に予め固定値として設定しておいても良い。
回帰行列Gk,p^と分離行列W^の推定値は、式(9)に示す対数尤度関数を最大化するGk,p及びWの値として求められる。
Figure 2010049083
ただし、Θは全ての未知パラメータの集合であり、それぞれ次のように定義される。
Figure 2010049083
式(11)のΘは、以後に説明する音源信号の全極パラメータの集合である。また、式(12)のΘと式(13)のΘは、それぞれ分離行列と回帰行列の集合である。また、式(9)に現れるΛについては後述する。
式(9)の導出過程を説明する。まず、推定する音源信号St,p (m)の確率密度関数を求める。この発明では各音源信号の短時間パワースペクトル密度は、Q次の全極型の関数で与えられると仮定する。すなわち、ω∈[-π,π]を角周波数、第tフレームにおけるm番目の音源信号のパワースペクトル密度をλ (m)(ω)と書くと、音源信号のパワースペクトル密度λ (m)(ω)は式(14)で与えられる。
Figure 2010049083
ここで、at,k (m)は線形予測係数、 (m)は予測残差パワーである。また、at,1 (m),…,at,Q (m) (m)をまとめて全極パラメータと呼ぶ。更に、音源信号ベクトルst,pの共分散行列をM次元対角行列Λ(ω)を用いて式(16)のように表す。つまり、複数の音源信号間に相関が無いと仮定している。
Figure 2010049083
音源信号St,p (m)は、平均0、分散λ (m)(2πp/P)の複素正規分布に従うので、音源信号St,p (m)の確率密度関数は、式(17)で与えられる。
Figure 2010049083
N{x;μ,Σ}は、平均μ、共分散行列Σの複素正規分布に従う確率変数xの確率密度
関数を表す。例えば、xがD次元ベクトルである場合、N{x;μ,Σ}は具体的には式(18)で与えられる。
Figure 2010049083
ここで、任意のマイクロホン番号mについて、(t1,p1)=(t2,p2)でなければ、St1,p1 (m)とSt2,p2 (m)は統計的に独立である。また、m1≠m2、すなわちマイクロホン番号が異なるならばSt1,p1 (m1)とSt2,p2 (m2)は常に統計的に独立である。
式(6)と式(17)とから、xt,pの確率密度関数は式(19)のように書ける。
Figure 2010049083
よって式(5)により、過去の観測信号が与えられた下での観測信号yt,pの条件付確率密度関数は、式(20)で与えられることが分かる。
Figure 2010049083
したがって、全ての観測信号yについての確率密度関数は式(21)で表せる。
Figure 2010049083
式(21)の両辺の対数を取ることで対数尤度関数、式(9)が導かれる。式(9)の
対数尤度関数は全極パラメータΘにも依存するため、パラメータ推定部12は、分離行列Θと回帰行列Θだけではなく、全てのパラメータΘ={Θ,Θ,Θ}を推定する。すなわち、式(9)を最大化するΘ^={Θ^,Θ^,Θ^}を未知パラメータΘの推定値として求める。式(9)を最大化する未知パラメータの推定値Θ^の求め方には様々な方法を採用することが出来る。例えば、最急降下法や準ニュートン法等の任意の最適化法を用いる。これらの最適化法は周知であるので、その説明は省略する。パラメータ推定部12は、未知パラメータΘ^の内の分離行列の推定値Θ^と、回帰行列の推定値Θ^とを強調信号計算部14に供給する(ステップS12)。
強調信号計算部14を構成する残響除去部141は、帯域分割部60が出力する周波数
帯域毎に分割された観測信号yt,pに回帰行列の推定値Gk,p^を畳み込み演算して残響成分を求め、観測信号yt,pから残響成分を減算して残響除去信号xt,pを生成する(式(7))(ステップS141)。音源分離部142は、残響除去信号xt,pに分離行列の推定値W^を乗算(式(8))して音源信号の推定値を生成する(ステップS142)。帯域合成部66は、音源信号の推定値を合成して時間領域の強調音響信号を生成する(ステップS66)。このようにして生成された強調音響信号は、観測信号から残響成分を除去した後の残響除去信号を音源分離したものなので、残響時間がフレーム幅を越える場合でも音源分離された音響信号になる。また、強調後の音響信号は残響成分が抑圧されているため、より高品質な強調音響信号を得ることが出来る。
なお、残響を除去する所定フレーム数(残響除去フレーム数K)を一つの固定値として説明したが、この値を周波数帯域の中心周波数に対応させて可変しても良い。周波数帯域によって残響時間が異なることは良く知られている。室内音響の分野においては、500Hz以下の周波数帯域の残響時間が長いので、その周波数帯域については所定フレーム数を大きく設定し、それ以外の周波数帯域の所定フレーム数を小さく設定する方法が考えられる。パラメータ推定部12内に所定フレーム数可変手段120を備え、所定フレーム数可変手段120が、周波数帯域に応じて所定フレーム数を可変して設定することで、残響を効率的に除去することが可能になる。つまり、計算量を削減する効果が得られる。
次に、最急降下法等の従来の一般的な最適化アルゴリズムではない方法で、未知パラメ
ータΘを推定する実施例2を説明する。図3に実施例2のパラメータ推定部30の機能構
成例を示す。その動作フローを図4に示す。パラメータ推定部30は、未知パラメータΘ
の推定に特化した効率的なアルゴリズムを用いて、分離行列の推定値Θ^と、回帰行列の推定値Θ^とを生成するものである。
パラメータ推定部30は、観測信号記録部301と、パラメータ推定値初期化部302と、全極パラメータ推定値更新部303と、音源信号パワースペクトル推定値更新部304と、回帰行列推定値更新部305と、分離行列推定値更新部306と、収束判定部307とを備える。観測信号記録部301は、帯域分割部60で所定数の周波数帯域に分割された観測信号を記録する。観測信号記録部301は、観測区間中の全ての観測信号を記録すると共に記録した観測信号を、全極パラメータ推定値更新部303と回帰行列推定値更新部305と分離行列推定値更新部306とに時系列順に出力する。
パラメータ推定値初期化部302は、回帰行列の推定値Θ^と分離行列の推定値Θ^の初期値を設定する(ステップS302)。また、繰り返し回数のインデックスiを0とする。回帰行列の推定値の初期値Θ^(0)は、零行列に設定する。分離行列の推定値Θ^(0)は、単位行列に設定する。これらは、残響と音源信号の混合がともに存在しない設定を初期値とすることを意味している。
全極パラメータ推定値更新部303は、観測信号と、回帰行列の初期値Θ^(0)と分離行列の初期値Θ^(0)又は更新された回帰行列の推定値Θ^(i)と分離行列の初期値Θ^(i)を入力として、全極パラメータ推定値Θ^(i+1)を式(22)に従って更新する(ステップS303)。
Figure 2010049083
式(22)に示す全極パラメータの更新則について説明する。今、回帰行列の一時的な推定値Θ^(i)と分離行列の一時的な推定値Θ^(i)は既知である。その推定値を用いて式(7)と式(8)により音源信号ベクトルst,pの推定値を計算する。
こうして得られる各音源信号の推定値をSt,p(m)(i+1)と書く。m番目の音源信号のt番目のフレームにおける全極パラメータの更新された推定値a^t,1 (m)(i+1),…,a^t,Q (m)(i+1)(m)(i+1)は、各音源信号の推定値St,p(m)(i+1)に線形予測分析を適用することで求められる。
全てのマイクロホン番号m(1≦m≦M)及びフレーム番号t(0≦t≦T-1)に渡ってSt,p(m)に線形予測分析を適用することで式(23)に示す更新された全極パラメータΘ^(i+1)を得ることが出来る。
Figure 2010049083
更新された全極パラメータΘ^(i+1)は、音源信号パワースペクトル推定値更新部304に入力される。音源信号パワースペクトル推定値更新部304は、全極パラメータΘ^(i+1)を入力として音源信号のパワースペクトル密度の推定値Λ(i+1)(ω)を更新する(ステップS304)。音源信号のパワースペクトル密度の推定値Λ(i+1)(ω)は、入力された全極パラメータΘ^(i+1)から式(14)と式(15)と式(16)とを用いて更新される。すなわち、Λ(i+1)(ω)は、式(24)で計算される。
Figure 2010049083
更新された音源信号のパワースペクトル密度の推定値Λ(i+1)(ω)は、回帰行列推定値更新部305に入力される。
回帰行列推定値更新部305は、音源信号のパワースペクトル密度の推定値Λ(i+1)(ω)と、分離行列の初期値Θ^(0)又は更新された分離行列の推定値Θ^(i)と、観測信号とを入力として回帰行列の推定値Θ^(i+1)を式(27)に従って更新する(ステップS305)。
Figure 2010049083
式(27)に示す回帰行列の更新則について説明する。まずp番目の周波数帯域における回帰行列の各成分を式(28)に示すように単一のベクトルにまとめる。
Figure 2010049083
右下の添え字は行列の大きさを表す。ここで、gk,p (m)はGk,pのm番目の列を表すものとする。以降、gを回帰行列の成分ベクトルと称する。成分ベクトルgの全周波数帯域に渡る集合{g}0≦p≦P-1は回帰行列Θに一致する。
次にp番目の周波数帯域における1フレーム前の観測信号行列Yt−1,pを式(30)に示すように定義する。
Figure 2010049083
これらを用いて、回帰行列の成分ベクトルの更新後の推定値g(i+1)は式(32)で計算出来る。
Figure 2010049083
式(30)を全ての周波数帯域番号p(0≦p≦P−1)に渡って計算することで回帰
行列の推定値Θ^(i+1)を更新することが出来る。こうして求めたΘ^(i+1)が式(25)の解である。更新した回帰行列の推定値Θ^(i+1)は、分離行列推定値更新部306に入力される。
分離行列推定値更新部306は、回帰行列の推定値Θ^(i+1)と、音源信号のパワースペクトル密度の推定値と、観測信号とを入力として分離行列の推定値Θ^(i+1)を式(4)に従って更新する(ステップS306)。
Figure 2010049083
式(33)に示す分離行列の更新則について説明する。式(34)は例えば準ニュートン法を用いて解くことが出来る。マイクロホンの数が2本(M=2、ステレオ録音)の場合、より効率的な閉形式のアルゴリズムが存在する。ここでは、そのアルゴリズムを用いて分離行列の推定値Θ^(i+1)を更新する例を説明する。
まず、式(7)で求められる残響除去信号xt,p(i+1)の共分散行列Rを、マイクロホン毎に式(34)と式(35)のように定義する。
Figure 2010049083
この場合、分離行列の推定値Θ^(i+1)は次に示すアルゴリズムで求めることが出来る。
まず、式(36)を満たす行列R (1)の逆平方根Vを計算する。
Figure 2010049083
ここで、Iは二次元単位行列を表す。次に式(37)を満たすユニタリ行列Eと、それに付随して定まるd (1)とd (2)を計算する。
Figure 2010049083
は、具体的にはV (2)を固有値分解することで求められる。そして、V、E、d (2)を用いてW (i+1)^を式(38)で計算する。
Figure 2010049083
式(36)を全ての周波数帯域番号p(0≦p≦P−1)に渡って計算することで、分離行列の推定値Θ^(i+1)を得る。こうして求めたΘ^(i+1)が式(31)の解である。
また、以上説明したアルゴリズムの変わりに公知の音源分離技術を用いて分離行列の推定値Θ^(i+1)を求めても良い。公知の音源分離技術としては、FastICA、ベル=セイノフスキーのアルゴリズム、チコツキ=ウンベハウエンのアルゴリズム、JADE等が利用出来る。ここに上げた音源分離技術は、例えば参考文献「A.Hyvarinen, J.Karhunen,E. Oja,根元幾(訳)、川勝真喜(訳)“詳解独立成分分析信号解析の新しい世界”東京電機大学出版局、2005」に記載されている。
以上のようにして更新された回帰行列の推定値Θ^(i+1)と、分離行列の推定値Θ^(i+1)とが、収束したか否かを収束判定部307が判定する(ステップS307)。収束しているか否かを判定する方法としては、例えば繰り返し回数iが所定数に到達していれば収束していると判定しても良いし、繰り返しによって得られる対数尤度関数(式(9))の値の増分が、所定の閾値よりも小さければ収束していると判定しても良い。収束するまでステップS303〜ステップS306の動作が繰り返され、収束した回帰行列の推定値Θ^(i+1)と、分離行列の推定値Θ^(i+1)とが、強調信号計算部14に出力される。それと同時に、パラメータ推定値記録部308に両パラメータを記録しても良い。
〔実験結果〕
この発明の音響信号強調方法の効果を確認する目的で実験を行った。実験条件を説明する。音源信号は、ASJ-JNASデータベースから男女各1話者の音声を抽出した。この音源信号を残響時間が約0.6秒の部屋で互いに異なる位置から再生し、2個のマイクロホンで録音した。録音時の標本化周波数は8kHzとした。音響信号強調装置は、実施例2で説明した構成とした。帯域分割部には、ポリフェーズフィルタバンク分析を用いた。帯域分割数は256、間引き率は128とした。
音響信号の極の個数はQ=12とした。残響除去フレーム数Kは、1500Hz未満の周波数帯域ではK=40、それ以上の周波数帯域では周波数が高くなる程小さな値に設定した。収束判定は、繰り返し回数が3回で収束しているものとした。その結果を示す音響信号の波形を図5に示す。図5の縦軸は振幅、横軸は時間(秒)である。図5(a)が一方のマイクロホンで録音した観測音響信号、図5(b)が従来の音源分離技術で強調された女性話者の音声、図5(c)が従来の音源分離技術で強調された男性話者の音声、図5(d)がこの発明で強調した女性話者の音声、図5(e)がこの発明で強調した男性話者の音声、図5(f)が女性話者の音源信号、図5(g)が男性話者の音源信号である。
従来の音源分離技術による強調音声と、この発明による強調音声とを比較すると、男女共にこの発明の音響信号強調方法の方が残響成分を抑圧して、より良好に音源分離を達成していることが見て取れる。例えば、男性話者は冒頭約1秒の間発話していない。しかし、従来技術は図5(c)の冒頭1秒間に現れているように女性話者の干渉音声を除去出来ていない。一方、この発明による男性話者の強調音声を示す図5(e)の同一の区間の女性の音声は、十分抑圧されている。このようにこの発明の音響信号強調方法は、従来技術よりも干渉音声を除去することが出来た。なお、図5に示した実験のSN比の平均改善率を比較すると従来技術の2.1dBに対してこの発明は4.9dBであった。このようにこの発明の音響信号強調装置によれば、高品質な強調音響信号を得ることが出来る。
なお、この発明の技術思想に基づく音響信号強調装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明の音響信号強調装置100の機能構成例を示す図。 音響信号強調装置100の動作フローを示す図。 パラメータ推定部30の機能構成例を示す図。 パラメータ推定部30の動作フローを示す図。 音響信号強調装置100を用いた音源分離実験の結果を示す図であり、(a)は観測音響信号を示す図、(b)は従来の音源分離技術で強調した女性話者の音声を示す図、(c)は従来の音源分離技術で強調した男性話者の音声を示す図、(d)はこの発明で強調した女性話者の音声を示す図、(e)はこの発明で強調した男性話者の音声を示す図、(f)は女性話者の音源信号を示す図、(g)は男性話者の音源信号を示す図である。 従来の音響信号強調装置600の機能構成例を示す図。

Claims (10)

  1. 時間領域の観測音響信号を所定数の周波数帯域毎の観測信号に分割する帯域分割部と、
    上記観測信号を入力として所定フレーム数前までの残響成分を推定するための回帰行列の推定値と、音源信号に分離するための分離行列の推定値とを生成するパラメータ推定部と、
    上記観測信号に上記回帰行列を畳み込み演算して残響成分を求め、上記残響成分を上記観測信号から減算して残響除去信号を生成する残響除去部と、
    上記残響除去信号に上記分離行列を乗算して音源信号の推定値を生成する音源分離部と、
    上記音源信号の推定値を合成して時間領域の強調音響信号を生成する帯域合成部と、
    を具備する音響信号強調装置。
  2. 請求項1に記載した音響信号強調装置において、
    上記パラメータ推定部は、
    上記観測信号を記録する観測信号記録部と、
    上記回帰行列の推定値と上記分離行列の推定値の初期値を設定するパラメータ推定値初期化部と、
    上記初期値又は上記回帰行列の推定値と上記分離行列の推定値と、上記観測信号とを入力として全極パラメータ推定値を更新する全極パラメータ推定値更新部と、
    上記全極パラメータ推定値を入力として音源信号のパワースペクトル密度の推定値を更新する音源信号パワースペクトル推定値更新部と、
    上記音源信号のパワースペクトル密度の推定値と上記分離行列の推定値と上記観測信号とを入力として上記回帰行列の推定値を更新する回帰行列推定値更新部と、
    上記回帰行列の推定値と上記音源信号のパワースペクトル密度の推定値と上記観測信号とを入力として上記分離行列の推定値を更新する分離行列推定値更新部と、
    上記回帰行列の推定値と上記分離行列の推定値が収束したか否かを判定する収束判定部と、
    を備えることを特徴とする音響信号強調装置。
  3. 請求項2に記載した音響信号強調装置において、
    上記分離行列推定値更新部は、
    上記分離行列の推定値を、音源分離技術における分離行列の計算法を用いて更新するものであることを特徴とする音響信号強調装置。
  4. 請求項1乃至3の何れかに記載した音響信号強調装置において、
    上記パラメータ推定部は、上記所定フレーム数を上記観測信号の周波数帯域に応じて可変する所定フレーム数可変手段を備えることを特徴とする音響信号強調装置。
  5. 帯域分割部が、時間領域の観測音響信号を所定数の周波数帯域毎の観測信号に分割する帯域分割過程と、
    パラメータ推定部が、上記観測信号を入力として所定フレーム数前までの残響成分を推定するための回帰行列の推定値と、音源信号に分離するための分離行列の推定値とを生成するパラメータ推定過程と、
    残響除去部が、上記観測信号に上記回帰行列を畳み込み演算して残響成分を求め、上記残響成分を上記観測信号から減算して残響除去信号を生成する残響除去過程と、
    音源分離部が、上記残響除去信号に上記分離行列を乗算して音源信号の推定値を生成する音源分離過程と、
    帯域合成部が、上記音源信号の推定値を合成して時間領域の強調音響信号を生成する帯域合成過程と、
    を含む音響信号強調方法。
  6. 請求項5に記載した音響信号強調方法において、
    上記パラメータ推定過程は、
    パラメータ推定値初期化部が、上記回帰行列の推定値と上記分離行列の推定値の初期値を設定するパラメータ推定値初期化ステップと、
    全極パラメータ推定値更新部が、上記初期値又は上記回帰行列の推定値と上記分離行列の推定値と、上記観測信号とを入力として全極パラメータ推定値を更新する全極パラメータ推定値更新ステップと、
    音源信号パワースペクトル推定値更新部が、上記全極パラメータ推定値を入力として音源信号のパワースペクトル密度の推定値を更新する音源信号パワースペクトル推定値更新ステップと、
    回帰行列推定値更新部が、上記音源信号のパワースペクトル密度の推定値と上記分離行列の推定値と上記観測信号とを入力として上記回帰行列の推定値を更新する回帰行列推定値更新ステップと、
    分離行列推定値更新部が、上記回帰行列の推定値と上記音源信号のパワースペクトル密度の推定値と上記観測信号とを入力として上記分離行列の推定値を更新する分離行列推定値更新ステップと、
    収束判定部が、上記回帰行列の推定値と上記分離行列の推定値が収束したか否かを判定する収束判定ステップと、
    を含むことを特徴とする音響信号強調方法。
  7. 請求項6に記載した音響信号強調方法において、
    上記分離行列推定値更新過程は、
    上記分離行列の推定値を、音源分離技術における分離行列の計算法を用いて更新する過程であることを特徴とする音響信号強調方法。
  8. 請求項5乃至7の何れかに記載した音響信号強調方法において、
    上記パラメータ推定過程は、上記所定フレーム数を上記観測信号の周波数帯域に応じて可変する所定フレーム数可変ステップを含むことを特徴とする音響信号強調方法。
  9. 請求項1乃至4の何れかに記載した音響信号強調装置としてコンピュータを機能させるための装置プログラム。
  10. 請求項9に記載した何れかの装置プログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2008214065A 2008-08-22 2008-08-22 音響信号強調装置とその方法と、プログラムと記録媒体 Active JP4960933B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008214065A JP4960933B2 (ja) 2008-08-22 2008-08-22 音響信号強調装置とその方法と、プログラムと記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008214065A JP4960933B2 (ja) 2008-08-22 2008-08-22 音響信号強調装置とその方法と、プログラムと記録媒体

Publications (2)

Publication Number Publication Date
JP2010049083A true JP2010049083A (ja) 2010-03-04
JP4960933B2 JP4960933B2 (ja) 2012-06-27

Family

ID=42066205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008214065A Active JP4960933B2 (ja) 2008-08-22 2008-08-22 音響信号強調装置とその方法と、プログラムと記録媒体

Country Status (1)

Country Link
JP (1) JP4960933B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015519614A (ja) * 2012-06-18 2015-07-09 ゴーアテック インコーポレイテッドGoertek Inc シングルチャンネル音声残響除去方法及びその装置
JP2016156944A (ja) * 2015-02-24 2016-09-01 日本電信電話株式会社 モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム
JP2018504642A (ja) * 2015-02-15 2018-02-15 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ源の分離
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
JPWO2021024474A1 (ja) * 2019-08-08 2021-02-11
CN112863537A (zh) * 2021-01-04 2021-05-28 北京小米松果电子有限公司 一种音频信号处理方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10150343A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> 反響消去方法および装置
JP2007235875A (ja) * 2006-03-03 2007-09-13 Nippon Telegr & Teleph Corp <Ntt> 伝達経路推定方法、残響除去方法、音源分離方法、これらの装置、プログラム、記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10150343A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> 反響消去方法および装置
JP2007235875A (ja) * 2006-03-03 2007-09-13 Nippon Telegr & Teleph Corp <Ntt> 伝達経路推定方法、残響除去方法、音源分離方法、これらの装置、プログラム、記録媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015519614A (ja) * 2012-06-18 2015-07-09 ゴーアテック インコーポレイテッドGoertek Inc シングルチャンネル音声残響除去方法及びその装置
JP2018504642A (ja) * 2015-02-15 2018-02-15 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ源の分離
US10192568B2 (en) 2015-02-15 2019-01-29 Dolby Laboratories Licensing Corporation Audio source separation with linear combination and orthogonality characteristics for spatial parameters
JP2016156944A (ja) * 2015-02-24 2016-09-01 日本電信電話株式会社 モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム
JPWO2021024474A1 (ja) * 2019-08-08 2021-02-11
WO2021024474A1 (ja) * 2019-08-08 2021-02-11 日本電信電話株式会社 Psd最適化装置、psd最適化方法、プログラム
JP7173355B2 (ja) 2019-08-08 2022-11-16 日本電信電話株式会社 Psd最適化装置、psd最適化方法、プログラム
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN112863537A (zh) * 2021-01-04 2021-05-28 北京小米松果电子有限公司 一种音频信号处理方法、装置及存储介质

Also Published As

Publication number Publication date
JP4960933B2 (ja) 2012-06-27

Similar Documents

Publication Publication Date Title
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
Tan et al. Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios
US7895038B2 (en) Signal enhancement via noise reduction for speech recognition
JP5227393B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
JP2021036297A (ja) 信号処理装置、信号処理方法、及びプログラム
US9536538B2 (en) Method and device for reconstructing a target signal from a noisy input signal
JP5568530B2 (ja) 音源分離装置とその方法とプログラム
CN111696568B (zh) 一种半监督瞬态噪声抑制方法
JP4960933B2 (ja) 音響信号強調装置とその方法と、プログラムと記録媒体
JPWO2007100137A1 (ja) 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体
EP3685378B1 (en) Signal processor and method for providing a processed audio signal reducing noise and reverberation
US9520138B2 (en) Adaptive modulation filtering for spectral feature enhancement
JP4977062B2 (ja) 残響除去装置とその方法と、そのプログラムと記録媒体
Simon et al. A general framework for online audio source separation
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
JP5351856B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP5438704B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法とプログラム
Kim et al. Sound source separation algorithm using phase difference and angle distribution modeling near the target.
US11790929B2 (en) WPE-based dereverberation apparatus using virtual acoustic channel expansion based on deep neural network
JP6827908B2 (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP5731929B2 (ja) 音声強調装置とその方法とプログラム
JP2018049228A (ja) 音響処理装置および音響処理方法
JP6553561B2 (ja) 信号解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100726

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120323

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150330

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4960933

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350