JP6106611B2 - モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム - Google Patents
モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム Download PDFInfo
- Publication number
- JP6106611B2 JP6106611B2 JP2014007246A JP2014007246A JP6106611B2 JP 6106611 B2 JP6106611 B2 JP 6106611B2 JP 2014007246 A JP2014007246 A JP 2014007246A JP 2014007246 A JP2014007246 A JP 2014007246A JP 6106611 B2 JP6106611 B2 JP 6106611B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- noise
- covariance matrix
- matrix
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
拡散性雑音とは、多数の雑音源、または空間的な広がりをもつ雑音源により生じる、様々な方向から到来する雑音を指す。多数の雑音源による拡散性雑音の例としては、食堂での人々の話し声や食器の音があり、空間的な広がりをもつ雑音源による拡散性雑音の例としては、電車内での車体の振動による雑音がある。このような拡散性雑音は、ビームフォーミングのような、従来の雑音抑圧技術による抑圧が困難であり、雑音抑圧技術の適用範囲を大幅に制限する要因となっていた。また、拡散性雑音は、少数の点音源から生じる雑音と比べて、モデル化がより難しく、実環境における音声強調技術の応用範囲を大きく制限する要因となっていた。
本実施形態では、観測信号から拡散性雑音抑圧時に用いるモデルパラメータを推定する。なお、拡散性雑音抑圧とは,上述の拡散性雑音を抑圧する技術である。
本実施形態では、特に断りのない限り、各信号を短時間フーリエ変換(short-time Fouriertransform:STFT)などの時間周波数領域で表現する。フレームの総数をIで表し、フレームの番号をi∈{1,…,I}で表す。また、本実施形態では、簡潔さのため、周波数ビンの番号の表示を省略するが、この省略が混乱をもたらすおそれは小さい。本実施形態では、周波数ビン毎に独立に処理を行うからである。
yi=xi+vi (b1)
つまり、観測信号yiを、拡散性雑音viと拡散性雑音を含まない信号(ノイズフリー信号)である音源信号xiとの和でモデル化する。ここで、簡単のため、音源信号xiと拡散性雑音viとについて、以下の仮定を置く。
・時間的独立性:{xi}I i=1は独立な系列である。すなわち、任意の相異なるi、jに対し(i∈{1,…,I}、j∈{1,…,I}、i≠j)、音源信号xiと音源信号xjとは独立である。また、{vi}I i=1も独立な系列である。
・相互独立性:{xi}I i=1と{vi}I i=1とは、互いに独立である。すなわち、任意のi、jに対し(i∈{1,…,I}、j∈{1,…,I})、音源信号xiと拡散性雑音vjとは独立である。
・ガウス性:音源信号xiと拡散性雑音viとは、平均が0の複素ガウス分布に従う。
ここで、平均μ∈CM、共分散行列Σ∈CM×Mの複素ガウス分布の確率密度関数は、次式で与えられる。
・短時間定常性:音源信号xtuおよび拡散性雑音vtuの共分散行列は、ブロックの番号tには依存するが、各ブロック内でのフレームの番号uには依存せず、Φx t、Φv t∈CM×Mと置ける。
(参考文献1) N.Q.K. Duong, E. Vincent, and R. Gribonval, “Under-determined reverberant audio source separation using a full-rank spatial covariance model”, IEEE Trans. ASLP, Sep. 2010, vol. 18, no. 7, pp. 1830-1840.
(参考文献2)H.L. Van Trees, "Optimum Array Processing", John Wiley & Sons, NewYork, 2002.
(参考文献3)K.U. Simmer, J. Bitzer, and C. Marro, “Post-filtering techniques”, in
Microphone Arrays, M. Brandstein and D.Ward, Eds., pp. 39-60. Springer, Berlin Heidelberg, 2001.
(参考文献4)S. Doclo and M. Moonen, “GSVD-based optimal filtering for single and multimicrophone speech enhancement”, IEEE Trans. SP, Sep. 2002, vol. 50, no. 9,pp. 2230-2244.
これは、ガウス分布の平均と最頻値が一致することに起因する。
共分散行列Φx tとΦv tとをモデル化するために、本実施形態では、信号と雑音の空間的な性質を利用する。
(参考文献5)N. Ito, "Robust Microphone Array Signal Processing against Diffuse Noise", Ph.D. thesis, the University of Tokyo, 2012.
拡散性雑音は、不特定多数の音源に起因するため、方向依存性は小さく、等方的とみなせる。そこで、この等方性のモデルとして、非特許文献1及び参考文献5では、「拡散性雑音の二点間のクロススペクトルは、その二点間の方向には依存せず、その距離のみで決まる」と仮定する。この仮定のもとで、「Φv tは、M×Mエルミート行列全体がなす実ベクトル空間Hの、ある低次元部分空間Vに属する」ことが示せる(非特許文献1及び参考文献5参照)。本実施形態においても非特許文献1及び参考文献5と同じ拡散性雑音のモデルを仮定する。すなわち、我々の拡散性雑音モデルは、次式で表される。
Φv t∈V (b14)
Vは、行列がなすベクトル空間Hの部分空間であるから、行列部分空間と呼ぶ。換言すると、Vは、行列のなす線型空間における部分空間である。
(参考文献6)N. Ito, H. Shimizu, N. Ono, and S. Sagayama, “Diffuse noise suppression using crystal-shaped microphone arrays”, 2011, vol. 19, no. 7, pp. 2101-2110.
また、波長に比べ十分距離の大きい2点間では、拡散性雑音は無相関である、と仮定すると、マイクロホン間の距離を大きくした極限で、空間的無相関雑音(spatially uncorrelated noise)モデル
従来技術の課題についてより詳細に説明する。
本実施形態では、非特許文献1のように、ユークリッド距離の平方の総和(b20)を最小化するのではなく、最尤法により音源信号の共分散行列Φx tと拡散性雑音の共分散行列Φv tとを推定する。後述のように、この最尤推定は、次式のコスト関数の最小化と等価である。
(参考文献8)K. Yoshii, R. Tomioka, D. Mochihashi, and M. Goto, “Infinite positive semidefinite tensor factorization for source separation of mixture signals”, in Proc. International Conference on Machine Learning (ICML), Jun. 2013, pp. 576-584.
(参考文献9)B. Kulis, M. Sustik, and I. Dhillon, “Low-rank kernel learning with Bregman matrix divergences”, Journal of Machine Learning Research, Feb. 2009, vol. 10, pp. 341-376.
(参考文献10)F. Itakura and S. Saito, “Analysis synthesis telephony based on the maximum likelihood method”, in Rep. 6th International Congress on Acoustics, 1968, pp. C-17-C-20.
前述のように、本実施形態では、最尤法によりΘ:={{Φx t}T t=1,{Φv t}T t=1}={{φx t}T t=1,B,{Φv t}T t=1}を推定する((b13)参照)。目的関数である対数尤度は、次式により与えられる。
(参考文献11)A.P. Dempster, N.M. Laird, and D.B. Rubin, “Maximum likelihood from incomplete data via the EM algorithm”, Journal of the Royal Statistical Society: Series B (Methodological), 1977, vol. 39, no. 1, pp. 1-38.
EMアルゴリズムは、次のEステップとMステップを交互に反復するものであり、(b27)の局所解への収束が保証される。
・Eステップ:現在のパラメータの推定値Θ'と(b10)とを用いて、音源信号xtuの事後確率p(xtu|ytu;Θ')を計算する。本実施形態における(b10)はガウス分布であり、平均μx|y tuおよび共分散行列Φx|y tにより完全に決定されるため、Θ'と(b8)(b9)とを用いて、推定値(μx|y tu)'および(Φx|y t)'を計算すれば十分である。ただし、(・)'は、現在のパラメータの推定値Θ'を用いて計算することを示す。
・Mステップ:Eステップで得た事後確率p(xtu|ytu;Θ')に関する、同時分布の対数logp(xtu,ytu;Θ)の期待値として定義されるQ関数
[Eステップ]
図1は第一実施形態に係るモデル推定装置100の機能ブロック図、図2はその処理フローの例を示す図である。モデル推定装置100は、周波数領域変換部110、事後確率更新部120、パラメータ更新部130、パラメータ保持部140を含む。また、事後確率更新部120、パラメータ更新部130、パラメータ保持部140をまとめて、モデル推定部150と称する。
周波数領域変換部110は、M個のマイクロホンで取得した、時間領域の観測信号~yτ (m)(m=1,…,M)を受け取り、これらの値を用いて、短時間フーリエ変換などの時間周波数変換により、周波数領域の観測信号ytを計算し(s110)、事後確率更新部120及びパラメータ更新部130に出力する。ここで、M>1であり、yの上の〜は時間領域における表現であることを表し、τは時間領域におけるサンプルの番号である。また、前述の通り、フレームは、ブロックの番号tとブロック内でのフレームの番号uとによって指定し、周波数ビンの番号は省略している。
事後確率更新部120は、周波数領域の観測信号ytuを受け取り、パラメータ保持部140から現在のパラメータ(要は、EMアルゴリズムの反復処理によって更新する中で、現在のパラメータであることを意味し、「直近に求めたパラメータ」「最新のパラメータ」と言い換えてもよい)の集合の推定値Θ'を取り出す。これらの値を用いて、観測信号ytuが与えられたときの音源信号xtuの事後確率p(xtu|ytu;Θ')を更新し、パラメータ更新部130に出力する。上述の通り、ガウス分布の場合、実際には、事後確率の平均μx|y tuおよび共分散行列Φx|y tを更新して出力すれば十分である。
パラメータ更新部130は、観測信号ytuと、事後確率更新部120で計算した事後確率の平均μx|y tuと共分散行列Φx|y tとを受け取る。また、パラメータ保持部140から現在のパラメータの集合の推定値Θ'を取り出す。パラメータ更新部130は、これらの値を用いて、パラメータの集合Θを更新して、パラメータ保持部140に出力する。また、所定の更新回数を終了している場合には(s2)、更新したパラメータの集合Θを最終的なパラメータの推定値として出力する。なお、更新の対象をパラメータの集合Θと呼び、その際に用いる、過去に求めた(更新した)パラメータの集合を推定値Θ'と呼ぶ。以下、パラメータ更新部130における処理を、詳細に説明する。図1に示すように、パラメータ更新部130は、信号パワー更新手段131、信号コヒーレンス行列更新手段132、信号共分散行列更新手段133、雑音共分散行列更新手段134を含む。
パラメータ保持部140は、パラメータ更新部130での更新処理により得られたパラメータの集合Θを受け取り、保持し(s140)、事後確率更新部120とパラメータ更新部130とにおける次回の処理の際に提供する。
このような構成により、従来技術よりも推定精度よく雑音抑圧時に用いるモデルパラメータの推定することができる。
第一実施形態と異なる部分を中心に説明する。
平均計算部260は、周波数領域変換部110から出力された観測信号ytuとモデル推定部から出力されたパラメータの集合Θ:={{Φx t}T t=1,{Φv t}T t=1}を用いて、式(b52)により、
観測信号ytuが与えられたときの音源信号xtuの事後確率の平均μx|y tuを得て出力する。
時間領域変換部270は、平均計算部260の出力である事後確率の平均μx|y tuを受け取り、この値に対し、逆短時間フーリエ変換(inverse STFT)などの時間周波数変換の逆変換を適用し、時間領域における音源信号の推定値である、時間領域の信号^xτ∈RMに変換し(s270)、これを雑音抑圧装置200の出力値として出力する。
以上のように、本実施形態では、非特許文献1におけるようなユークリッド距離の平方ではなく、より音響信号に適したマルチチャネル板倉-齋藤ダイバージェンスを用いることにより、対数的な音響信号に、より適した処理を行うことが可能である。さらに、本実施形態は、観測信号の確率的生成モデルに基づくため、確率的生成モデルに基づく他の音声強調手法(例:音源分離(参考文献1及び7参照)、残響除去(参考文献12参照)との統合に向いている(つまり、第一実施形態で求めたモデルパラメータは拡散性雑音状況下の音源分離、残響除去等の技術に用いることができる)。
(参考文献12)T. Nakatani, T. Yoshioka, K. Kinoshita, M. Miyoshi, and B.-H. Juang, “Speech dereverberation based on variance-normalized delayed linear prediction”, IEEE Trans. ASLP, Sep. 2010, vol. 18, no. 7, pp. 1717-1731.
このような統合により、様々な音響的事象を含む実環境において、広く適用可能な新しい音声強調の枠組みを構築することができると期待されるため、大きな利点である。
本実施形態の効果を確かめるため実験を行った。観測信号としては、REVERB challenge(参考文献13参照)のデータベース中の、AMI_WSJ20-Array1-*_T10c030x.wav(*=1,…,8)を用いた。
(参考文献13)K. Kinoshita, M. Delcroix, T. Yoshioka, T. Nakatani, E.A.P. Habets,R. Hab-Umbach, V. Leutnant, A. Sehr, W. Kellermann, R. Maas, S. Gannot, and B. Raj, "The REVERB challenge: A common evaluation framework for dereverberation and recognition of reverberant speech", in Proc. WASPAA, Oct. 2013.
第一実施形態と異なる部分を中心に説明する。なお、必要に応じて、第一実施形態で定義した記号の一部を再定義する。
本実施形態では、特に断りのない限り、各信号を短時間フーリエ変換(short-time Fourier transform: STFT)などの時間周波数領域で表現する。フレームの総数をTで表し、フレームの番号をt∈{1,…,T}で表す。
・yt∈CM:M個のマイクロホンによる観測信号
・rt∈CM:残響の影響を含む、ノイズフリー信号
・xt∈CM:残響の影響を含まない、クリーン信号、すなわち、音源から発せられる直接音と初期反射成分とからなる信号
・vt∈CM:拡散性雑音
・Gk∈CM×M:残響をモデル化する自己回帰過程の予測係数行列(k∈{1,…,K}はタップの番号、Kは予測次数)
このとき、観測信号のモデルは、数学的には次式により表現できる。
・時間的独立性:{xt}1≦t≦Tは独立な系列である。すなわち、任意の相異なるt,t'に対し(t∈{1,…,T}、t'∈{1,…,T}、t≠t')、xtとxt'とは独立である。また、{vt}1≦t≦Tも独立な系列である。
・相互独立性:2つの系列{xt}1≦t≦T,{vt}1≦t≦Tは、互いに独立である。すなわち、任意のt,t'に対し(t∈{1,…,T}、t'∈{1,…,T})、xtとvt'とは独立である。
・ガウス性:xtおよびvtは、平均がともに0、共分散行列がΦx tおよびΦv tの複素ガウス分布に従う。
Θ:={Θx,Θv,Θg} (c6)
Θx:={Φx t}1≦t≦T (c7)
Θv:={Φv t}1≦t≦T (c8)
Θg:={Gk}1≦k≦K (c9)
の推定であり、音声強調技術の性能は、その推定精度に大きく左右される。
上述の通り、観測信号の生成モデルを立てることが、共分散行列Φx tとΦv tのモデル化に帰着する。非特許文献1では、信号と拡散性雑音の空間的な性質が利用されている。
・実数値雑音共分散(real-valued noise covariance)モデル
上記の目的を実現するために、本実施形態では、最尤法によりモデルパラメータ(クリーン信号の共分散行列、拡散性雑音の共分散行列、予測係数行列)を推定する。この最尤法は、ユークリッド距離に基づく尺度と比べ、音声により適した尺度である、板倉-齋藤行列ダイバージェンス(参考文献7〜9)の最小化と等価である。すでに説明した通り、非特許文献1は残響が存在しない場合、すなわち本実施形態のモデルにおいてGk=0とした場合において、ユークリッド距離に基づいてモデルパラメータを推定するものであった。比較のため、非特許文献1と同じ条件であるGk=0の場合について述べると、本実施形態における最尤推定は、次式のコスト関数の最小化と等価である。
<目的関数>
本実施形態では、パラメータの集合Θ:={{φx t}1≦t≦T,Bx,{φv t}1≦t≦T,{Gk}1≦k≦K}を推定するために、最尤法に基づき、次式の対数尤度を最大化する。
~yu=~ru+~vu (c23)
FH~ru=~xu (c24)
ここで、~ru,~vu,~xuは、~yuと同様に定義する。つまり、
~ru:=[rTu T…r1u T]T∈CMT×1
~vu:=[vTu T…v1u T]T∈CMT×1
~xu:=[xTu T…x1u T]T∈CMT×1
である。また、F∈CMT×MTは、ブロックテプリッツ行列であって、T2個のM×M行列をブロックに持ち、(i,j)番目のブロックは次式で与えられる。
p(~xu;Θ)=NC(~xu;0,~Φx) (c26)
p(~vu;Θ)=NC(~vu;0,~Φv) (c27)
ここで、~Φx∈CMT×MTは、ブロック対角行列であって、T2個のM×M行列をブロックに持ち、i∈{1,…,T}番目の対角ブロックはΦx T-i+1に等しい。~Φvも同様に定義される。つまり、以下のように表される。
R:={rtu}1≦t≦T,1≦u≦Uを隠れ変数とみなし、expectation-maximization(EM)アルゴリズムにより(参考文献11)、パラメータの集合Θの更新式を導くことができる。パラメータの集合Θの現在の推定値をΘ'で表すと、Q関数は、
式(c45)のQ関数を、各パラメータに関して最大化することにより、Mステップにおける更新式が得られる。信号パワーφx tに関する偏微分より、
~G=D-1N (c58)
ただし、DおよびNは、次式により定義される。
[Eステップ]
図6は第三実施形態に係るモデル推定装置300の機能ブロック図、図7はその処理フローの例を示す図である。
事後確率更新部320は、周波数領域変換部110で計算した、周波数領域の観測信号ytuを受け取り、パラメータ保持部140に保持されている、現在のパラメータの集合の推定値Θ'を取り出し、これらの値を用いて、観測信号ytuが与えられたときのノイズフリー信号rtuの事後確率の平均μr|y tuおよび共分散行列Φr|y tt'を更新し、更新した値をパラメータ更新部330に出力する。
パラメータ更新部330は、事後確率更新部320で計算した事後確率の平均μr|y tuと共分散行列Φr|y tt'、ならびに、観測信号ytuを受け取り、パラメータ保持部140から保持されている現在のパラメータの集合の推定値Θ'を取り出し、これらの値を用いて、パラメータの集合Θを更新し、パラメータの集合Θをパラメータ保持部140に格納する。また、所定の更新回数を終了している場合には(s2)、更新したパラメータの集合Θを最終的なパラメータの推定値として出力する。以下、パラメータ更新部330における処理を、詳細に説明する。
~G←D-1N (c80)
により~Gを更新する。(c52)の定義より、~GはGkを統合した行列なので、~Gを更新することはGkも同時に更新することを意味する。
このような構成により、従来技術よりも推定精度よく音声強調時に用いるモデルパラメータの推定することができる。
第三実施形態と異なる部分を中心に説明する。本実施形態では、第三実施形態に係るモデル推定装置によって推定されたモデルパラメータを用いて、雑音と残響の影響が除去されたクリーン信号を推定する音声強調装置400について説明する。
平均計算部450は、周波数領域変換部110から出力された観測信号ytuとモデル推定部150から出力されたパラメータの集合Θを受け取り、式(c66)及び式(c43)により、観測信号ytuが与えられたときのノイズフリー信号rtuの事後確率の平均μr|y tuを得て出力する(s450)。
強調音声生成部460は、平均計算部450から出力された事後確率の平均μr|y tuおよびモデル推定部150から出力されたパラメータの集合Θを受け取り、これらの値を用いて、次式により、強調音声^xtuを生成(計算)し(s460)、時間領域変換部470に出力する。
最後に、時間領域変換部470は、強調音声^xtuに対し、逆短時間フーリエ変換(inverse STFT)などの時間周波数変換の逆変換を適用し、時間領域におけるクリーン信号の推定値である、時間領域の信号^xτ∈RMに変換し(s470)、音声強調装置400の出力値として出力する。
以上のように、本実施形態では、非特許文献1におけるようなユークリッド距離の平方ではなく、より音響信号に適した板倉-齋藤行列ダイバージェンスを用いることにより、対数的な音響信号に、より適した処理を行うことが可能である。さらに、本実施形態は、観測信号の確率的生成モデルに基づくため、確率的生成モデルに基づく他の音声強調手法(例:音源分離、参考文献1、7参照)との統合に向いている。このような統合により、様々な音響的事象を含む実環境において、広く適用可能な新しい音声強調の枠組みを構築することができると期待されるため、大きな利点である。
本実施形態の効果を確認するために、本実施形態の音声強調方法による、雑音および残響抑圧実験をおこなった。
第四実施形態と異なる部分を中心に説明する。
時間領域変換部570は、平均計算部450の出力である事後確率の平均μr|y tuを受け取り、この値に対し、逆短時間フーリエ変換(inverse STFT)などの時間周波数変換の逆変換を適用し、時間領域におけるノイズフリー信号の推定値である、時間領域の信号^rτ∈RMに変換し(s570)、これを雑音抑圧装置500の出力値として出力する。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (17)
- 観測信号を、非定常の拡散性雑音と前記拡散性雑音を含まない信号であるノイズフリー信号との和でモデル化するものとし、モデル化するときのモデルパラメータは拡散性雑音の共分散行列を特定するモデルパラメータと、ノイズフリー信号の共分散行列を特定するモデルパラメータとを含み、
観測信号から得られる共分散行列と、拡散性雑音の共分散行列とノイズフリー信号の共分散行列との和との板倉-齋藤距離が小さくなるように、前記モデルパラメータを更新するモデル推定部を含む、
モデル推定装置。 - 観測信号を、非定常の拡散性雑音と前記拡散性雑音を含まない信号であるノイズフリー信号との和でモデル化するものとし、1つ以上のフレームからなるブロックの番号をt∈{1,…,T}とし、ブロック内のフレームの番号をu∈{1,…,U}とし、ブロックtごとの観測信号ytuの共分散行列をΦy tとし、ブロックtごとのノイズフリー信号xtuの共分散行列をΦx tとし、ブロックtごとの拡散性雑音vtuの共分散行列をΦv tとし、
観測信号ytから得られる共分散行列Φy tと、Φx t+Φv tとの板倉-齋藤距離の、すべてのブロックtについての総和が小さくなるように、前記共分散行列Φx tと前記共分散行列Φv tとを更新するモデル推定部を含み、
前記ノイズフリー信号は音源信号である、
モデル推定装置。 - フレームごとの観測信号を非定常の拡散性雑音と拡散性雑音を含まない信号であるノイズフリー信号との和でモデル化するものとし、1つ以上のフレームからなる時間区間をブロックとして、
複数ブロック分の観測信号から得られる共分散行列と、複数ブロック分の拡散性雑音の共分散行列と複数ブロック分のノイズフリー信号の共分散行列との和と、の板倉-齋藤距離が小さくなるように、前記複数ブロック分の拡散性雑音の共分散行列を特定するパラメータと前記複数ブロック分のノイズフリー信号の共分散行列を特定するパラメータとを更新するモデル推定部を含み、
前記ノイズフリー信号は、音源から発せられる直接音と初期反射成分とからなる信号であるクリーン信号に残響が重畳された信号であり、
前記複数ブロック分のノイズフリー信号の共分散行列を特定するパラメータは、フレームごとの前記ノイズフリー信号に含まれる残響をK次の自己回帰過程によりモデル化したときの自己回帰過程の予測係数行列Gk(k=1,2,…,K)と、フレームごとの前記クリーン信号の共分散行列と、を含む、
モデル推定装置。 - 請求項1または2または3記載のモデル推定装置であって、
前記拡散性雑音の共分散行列は、フレームごとに、行列のなす線型空間における部分空間Vに属するとしてモデル化されたものである、
モデル推定装置。 - 請求項2記載のモデル推定装置であって、
観測信号をモデル化するときのモデルパラメータの集合をΘとし、前記モデル推定部は、モデルパラメータの集合Θが与えられたときの前記観測信号ytuの集合Yと前記音源信号xtuの集合Xとの同時分布の対数log(p(X,Y;Θ))の前記集合Xに関する期待値が最大となるように、前記共分散行列Φx tと前記共分散行列Φv tとを更新する、
モデル推定装置。 - 請求項5記載のモデル推定装置であって、
前記モデル推定部は、
前記観測信号ytuと現在の前記共分散行列Φx tと前記共分散行列Φv tとを用いて、
行列・のエルミート転置を・Hとし、観測信号を取得する際に用いるマイクロホンの個数をMとし、行列・の対角成分の和をTr[・]とし、空間的な特性を表すパラメータを表す信号コヒーレンス行列をBとし、前記平均μx|y tuと前記共分散行列Φx|y tとを用いて、
前記^Φx tと前記信号パワーφx tとを用いて、
前記信号パワーφx tと前記信号コヒーレンス行列Bとを用いて、
前記部分空間Vの正規直交基底を{Qd}1≦d≦Dとし、m∈{1,…,M}とし、n∈{1,…,M}とし、m番目のマイクロホンとn番目のマイクロホンとの距離をLmnとし、音速をcとし、前記観測信号ytuに対応する周波数をfとし、sinc関数をsinc(・)とし、(m,n)成分として
モデル推定装置。 - 請求項3記載のモデル推定装置であって、
観測信号をモデル化するときのモデルパラメータの集合をΘとし、前記モデル推定部は、モデルパラメータの集合Θが与えられたときの前記観測信号の集合Yと前記ノイズフリー信号の集合Rとの同時分布の対数log(p(R,Y;Θ))の前記集合Rに関する期待値が最大となるように、前記モデルパラメータの各々を更新する、
モデル推定装置。 - 請求項7記載のモデル推定装置であって、
前記ブロックの番号をt∈{1,…,T}(Tはブロックの総数)とし、ブロック内のフレームの番号をu∈{1,…,U}とし、観測信号ytuのブロックtごとの共分散行列をΦy tとし、クリーン信号xtuのブロックtごとの共分散行列をΦx tとし、拡散性雑音vtuのブロックtごとの共分散行列をΦv tとし、行列・のエルミート転置を・Hとし、
k∈{1,…,K}とし、i∈{1,…,T}とし、単位行列をIとし、所定の遅延をΔとし、j∈{1,…,T}とし、行列FはT2個のM×M行列をブロックに持つブロックテプリッツ行列であり、前記Fの(i,j)番目のブロックは
前記複数ブロック分のノイズフリー信号の共分散行列はF-H~ΦxF-1である、
モデル推定装置。 - 請求項8記載のモデル推定装置であって、
前記モデル推定部は、
行列・の転置を・Tとし、~yu:=[yTu T…y1u T]Tとし、t'∈{1,…,T}とし、現在の前記予測係数行列Gkを用いて前記Fを更新し、現在の前記共分散行列Φx tを用いて前記~Φxを更新し、前記Fと前記~Φxとを用いて、
~G:=[G1 T…GK T]Tとし、行列・の対角成分の和をTr[・]とし、空間的な特性を表すパラメータを表す信号コヒーレンス行列をBxとし、前記平均μtu r|yと前記共分散行列Φtt' r|yとを用いて、
前記^Φx tと前記信号パワーφx tとを用いて、
前記信号パワーφx tと前記信号コヒーレンス行列Bxとを用いて、
前記共分散行列Φv tは、行列のなす線型空間における部分空間Vに属するとしてモデル化されたものであり、部分空間Vの正規直交基底を{Qd}1≦d≦Dとし、m∈{1,…,M}とし、n∈{1,…,M}とし、m番目のマイクロホンとn番目のマイクロホンとの距離をLmnとし、音速をcとし、前記観測信号ytuに対応する周波数をfとし、sinc関数をsinc(・)とし、(m,n)成分として
前記Ψtt'と前記信号パワーφx tとを用いて、
モデル推定装置。 - 請求項2または3のモデル推定装置により推定されたモデルパラメータと、前記観測信号ytuとを用いて、前記観測信号ytuが与えられたときの前記ノイズフリー信号の事後確率の平均を求める平均計算部と、
前記事後確率の平均を時間領域の信号に変換し、時間領域における前記ノイズフリー信号の推定値を求める時間領域変換部と、を含む
雑音抑圧装置。 - 請求項3または8または9のいずれかのモデル推定装置により推定されたモデルパラメータと、前記観測信号ytuとを用いて、前記観測信号ytuが与えられたときの前記ノイズフリー信号の事後確率の平均μr|y tuを求める平均計算部と、
請求項3または8または9のいずれかのモデル推定装置により推定された前記予測係数行列Gkと前記平均計算部で求めた事後確率の平均μtu r|yとを用いて、前記観測信号ytuが与えられたときの前記クリーン信号の事後確率の平均^xtuを計算する強調音声生成部と、
前記平均^xtuを時間領域の信号に変換し、時間領域における前記クリーン信号の推定値を求める時間領域変換部と、を含む
音声強調装置。 - 観測信号を、非定常の拡散性雑音と前記拡散性雑音を含まない信号であるノイズフリー信号との和でモデル化するものとし、モデル化するときのモデルパラメータは拡散性雑音の共分散行列を特定するモデルパラメータと、ノイズフリー信号の共分散行列を特定するモデルパラメータとを含み、
観測信号から得られる共分散行列と、拡散性雑音の共分散行列とノイズフリー信号の共分散行列との和との板倉-齋藤距離が小さくなるように、前記モデルパラメータを更新するモデル推定ステップを含む、
モデル推定方法。 - 観測信号を、非定常の拡散性雑音と前記拡散性雑音を含まない信号であるノイズフリー信号との和でモデル化するものとし、1つ以上のフレームからなるブロックの番号をt∈{1,…,T}とし、ブロック内のフレームの番号をu∈{1,…,U}とし、ブロックtごとの観測信号ytuの共分散行列をΦy tとし、ブロックtごとのノイズフリー信号xtuの共分散行列をΦx tとし、ブロックtごとの拡散性雑音vtuの共分散行列をΦv tとし、
観測信号ytから得られる共分散行列Φy tと、Φx t+Φv tとの板倉-齋藤距離の、すべてのブロックtについての総和が小さくなるように、前記共分散行列Φx tと前記共分散行列Φv tとを更新するモデル推定ステップを含み、
前記ノイズフリー信号は音源信号である、
モデル推定方法。 - フレームごとの観測信号を非定常の拡散性雑音と拡散性雑音を含まない信号であるノイズフリー信号との和でモデル化するものとし、1つ以上のフレームからなる時間区間をブロックとして、
複数ブロック分の観測信号から得られる共分散行列と、複数ブロック分の拡散性雑音の共分散行列と複数ブロック分のノイズフリー信号の共分散行列との和と、の板倉-齋藤距離が小さくなるように、前記複数ブロック分の拡散性雑音の共分散行列を特定するパラメータと前記複数ブロック分のノイズフリー信号の共分散行列を特定するパラメータとを更新するモデル推定ステップを含み、
前記ノイズフリー信号は、音源から発せられる直接音と初期反射成分とからなる信号であるクリーン信号に残響が重畳された信号であり、
前記複数ブロック分のノイズフリー信号の共分散行列を特定するパラメータは、フレームごとの前記ノイズフリー信号に含まれる残響をK次の自己回帰過程によりモデル化したときの自己回帰過程の予測係数行列Gk(k=1,2,…,K)と、フレームごとの前記クリーン信号の共分散行列と、を含む、
モデル推定方法。 - 請求項13のモデル推定方法により推定されたモデルパラメータと、前記観測信号ytuとを用いて、前記観測信号ytuが与えられたときの前記ノイズフリー信号の事後確率の平均を求める平均計算ステップと、
前記事後確率の平均を時間領域の信号に変換し、時間領域における前記ノイズフリー信号の推定値を求める時間領域変換ステップと、を含む
雑音抑圧方法。 - 請求項14のモデル推定方法により推定されたモデルパラメータと、前記観測信号ytuとを用いて、前記観測信号ytuが与えられたときの前記ノイズフリー信号の事後確率の平均μr|y tuを求める平均計算ステップと、
請求項14のモデル推定方法により推定された前記予測係数行列Gkと前記平均計算ステップで求めた事後確率の平均μtu r|yとを用いて、前記クリーン信号の事後確率の平均^xtuを計算する強調音声生成ステップと、
前記平均^xtuを時間領域の信号に変換し、時間領域における前記クリーン信号の推定値を求める時間領域変換ステップと、を含む
音声強調方法。 - 請求項1〜9の何れかのモデル推定装置、または、請求項10の雑音抑圧装置、または、請求項11の音声強調装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014007246A JP6106611B2 (ja) | 2014-01-17 | 2014-01-17 | モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014007246A JP6106611B2 (ja) | 2014-01-17 | 2014-01-17 | モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015135437A JP2015135437A (ja) | 2015-07-27 |
JP6106611B2 true JP6106611B2 (ja) | 2017-04-05 |
Family
ID=53767299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014007246A Active JP6106611B2 (ja) | 2014-01-17 | 2014-01-17 | モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6106611B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6448567B2 (ja) * | 2016-02-23 | 2019-01-09 | 日本電信電話株式会社 | 音響信号解析装置、音響信号解析方法、及びプログラム |
JP7450911B2 (ja) | 2019-12-05 | 2024-03-18 | 国立大学法人 東京大学 | 音響解析装置、音響解析方法及び音響解析プログラム |
CN112307961B (zh) * | 2020-10-30 | 2024-02-20 | 魏运 | 混合光纤入侵信号的处理方法及装置 |
JP7552742B2 (ja) | 2021-02-15 | 2024-09-18 | 日本電信電話株式会社 | 音源分離装置、音源分離方法、およびプログラム |
CN114299978A (zh) * | 2021-12-07 | 2022-04-08 | 阿里巴巴(中国)有限公司 | 音频信号的处理方法、装置、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB8608289D0 (en) * | 1986-04-04 | 1986-05-08 | Pa Consulting Services | Noise compensation in speech recognition |
JP2705061B2 (ja) * | 1987-03-13 | 1998-01-26 | 松下電器産業株式会社 | 音声認識方法 |
JP2010210758A (ja) * | 2009-03-09 | 2010-09-24 | Univ Of Tokyo | 音声を含む信号の処理方法及び装置 |
JP2012027196A (ja) * | 2010-07-22 | 2012-02-09 | Nippon Telegr & Teleph Corp <Ntt> | 信号分析装置、方法、及びプログラム |
JP5634959B2 (ja) * | 2011-08-08 | 2014-12-03 | 日本電信電話株式会社 | 雑音/残響除去装置とその方法とプログラム |
-
2014
- 2014-01-17 JP JP2014007246A patent/JP6106611B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015135437A (ja) | 2015-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Complex spectral mapping for single-and multi-channel speech enhancement and robust ASR | |
Delcroix et al. | Strategies for distant speech recognitionin reverberant environments | |
US11894010B2 (en) | Signal processing apparatus, signal processing method, and program | |
US8160273B2 (en) | Systems, methods, and apparatus for signal separation using data driven techniques | |
Drude et al. | Integrating Neural Network Based Beamforming and Weighted Prediction Error Dereverberation. | |
JP6106611B2 (ja) | モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム | |
Schwartz et al. | An expectation-maximization algorithm for multimicrophone speech dereverberation and noise reduction with coherence matrix estimation | |
Nesta et al. | Blind source extraction for robust speech recognition in multisource noisy environments | |
CN110998723B (zh) | 使用神经网络的信号处理装置及信号处理方法、记录介质 | |
Casebeer et al. | Meta-AF: Meta-learning for adaptive filters | |
Habets et al. | Dereverberation | |
Li et al. | Multichannel online dereverberation based on spectral magnitude inverse filtering | |
Sainath et al. | Raw multichannel processing using deep neural networks | |
Song et al. | An integrated multi-channel approach for joint noise reduction and dereverberation | |
Astudillo et al. | Integration of beamforming and uncertainty-of-observation techniques for robust ASR in multi-source environments | |
CN101322183B (zh) | 信号失真消除装置、方法 | |
JP6142402B2 (ja) | 音響信号解析装置、方法、及びプログラム | |
US20230306980A1 (en) | Method and System for Audio Signal Enhancement with Reduced Latency | |
Cho et al. | Bayesian feature enhancement using independent vector analysis and reverberation parameter re-estimation for noisy reverberant speech recognition | |
US11790929B2 (en) | WPE-based dereverberation apparatus using virtual acoustic channel expansion based on deep neural network | |
Sehr et al. | Towards robust distant-talking automatic speech recognition in reverberant environments | |
Parchami et al. | Speech reverberation suppression for time-varying environments using weighted prediction error method with time-varying autoregressive model | |
Wang et al. | Speech Enhancement Control Design Algorithm for Dual‐Microphone Systems Using β‐NMF in a Complex Environment | |
Delcroix et al. | Multichannel speech enhancement approaches to DNN-based far-field speech recognition | |
Heitkaemper et al. | A study on online source extraction in the presence of changing speaker positions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160107 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6106611 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |