JP5227393B2 - 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体 - Google Patents
残響除去装置、残響除去方法、残響除去プログラム、および記録媒体 Download PDFInfo
- Publication number
- JP5227393B2 JP5227393B2 JP2010501968A JP2010501968A JP5227393B2 JP 5227393 B2 JP5227393 B2 JP 5227393B2 JP 2010501968 A JP2010501968 A JP 2010501968A JP 2010501968 A JP2010501968 A JP 2010501968A JP 5227393 B2 JP5227393 B2 JP 5227393B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- dereverberation
- frequency
- filter
- observation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Circuit For Audible Band Transducer (AREA)
- Filters That Use Time-Delay Elements (AREA)
Description
(1)残響信号除去を前処理として用いる音声認識システム
(2)残響信号除去により音声の明瞭度を向上させるTV会議システムなどの通信システム
(3)講演の録音に含まれる残響信号を除去することで、録音された音声の明瞭度を向上させる再生システム
(4)残響信号を除去することで、聞き取りやすさを向上させる補聴器
(5)人が発した声に反応して機械にコマンドを渡す機械制御インターフェース、および機械と人間の対話装置
(6)音響コンテンツの収音時に残響信号を含んで、収音された音響信号の音質を改善するポストプロダクションシステム
(7)音楽コンテンツの残響信号を除去したり、付加したりすることで、音楽コンテンツの音響制御を行う音響エフェクタ
図1に従来の残響除去装置100の機能構成例を示す(以下、「従来技術1」という。)。残響除去装置100は、推定部104、除去部106、音源モデル記憶部108により構成される。音源モデル記憶部108には、残響信号を含まない音響信号の短時間区間の波形を有限状態機械でモデル化しておくと共に各状態の波形の特徴を信号の自己相関関数で表現した音源モデルを記憶させておく。また、時間領域で観測信号に残響除去フィルタを適用する演算と上記音源モデルに基づき、観測信号から残響除去された信号(理想的な目的信号)の尤もらしさを表現した最適化関数を定義しておく。この最適化関数は、残響除去フィルタ係数と音源モデルの状態時系列をパラメータとして持ち、より適切なフィルタ係数および状態時系列を与えることで、より大きな値をとる関数として設計されている。
以下の説明では、入力される時間領域の観測信号をxt (1),...,xt (q),...,xt (Q)とする。ただし、xの右下の添え字「t」は、離散時刻のインデックスを示し、右上のq(q=1,...,Q)は収音手段(例えば、「マイクロホン」)のインデックスを示す。以下ではインデックスがqのマイクロホンを第qチャネルのマイクロホンと示す。このことは以下、同様とする。
観測信号xt (q)が入力されると、推定部104は、当該観測信号xt (q)と上記最適化関数を用いて、残響除去フィルタを推定する。具体的には、推定部104は、上記最適化関数の値を最大にするパラメータを求めることで、残響除去フィルタを推定する。除去部106は、推定した残響除去フィルタに観測信号を畳み込むことで、観測信号から残響信号を除去した信号を出力する。この信号を目的信号と呼ぶ。
図2に従来の残響除去装置200の機能構成例を示す(以下、「従来技術2」という。)。残響除去装置200は、観測信号をU個の周波数帯域に分割する分割部202、当該周波数帯域毎の記憶部204u(u=0,...,U−1)、当該周波数帯域毎の除去部206u、統合部208により構成される。
分割部202は、観測信号をサブバンド分割することで、U個の周波数帯域毎に分割されたサブバンド信号を求める。当該分割されたサブバンド信号は時間領域の信号である。また、サブバンド分割の際に、ダウンサンプリング(サンプルの間引き)を行う場合がある。以下の説明では、サブバンド信号をx’n,u (q)とする。ただし、nをダウンサンプリング後のサンプルのインデックスとし、uを周波数帯域のインデックス(u=0,...,U−1)とする。以下では、第qチャネルのマイクロホンで収音された観測信号xt (q)のu番目の周波数帯域のサブバンド信号x’n,u (q)について説明する。
上述の通り、U個の周波数帯域毎に、除去部206u(u=0,...,U−1)、記憶部204uは設けられている。記憶部204uには、残響除去フィルタが記憶されている。残響除去フィルタは、予め測定しておいた音源から各マイクロホンまでの室内伝達関数を利用して、この室内伝達関数、分割部202によるサブバンド分割処理、除去部206uによる残響除去処理、統合部208による統合処理の各処理を順次適用した際に得られるシステム全体の入出力関数が、なるべく単位インパルス関数になるように、二乗誤差最小基準に基づき、予め残響除去フィルタの係数を定めておく。
除去部206uはサブバンド信号x’n,u (q)に残響除去フィルタを畳み込むことで、サブバンド信号から残響信号を除去する。サブバンド信号から残響信号が除去された周波数帯域毎のサブバンド信号を周波数別目的信号s〜 n,uとする。そして、統合部208は、周波数別目的信号sn,u 〜(u=0,...,U−1)を統合して、目的信号st 〜を求める。
残響除去装置100、200の詳細は、非特許文献1、2、3に記載されている。
T.Nakatani,B.H.Juang,T.Yoshioka,K.Kinoshita,M.Delcroix,and M.Miyoshi,″Study on speech dereverberation with autocorrelation codebook,″Proc.IEEE International Conference on Acoustics,Speech,and Signal Processing(ICASSP−2007),vol.I,pp.193−196,April 2007. T.Nakatani,B.H.Juang,T.Yoshioka,K.Kinoshita,M.Miyoshi,″Importance of energy and spectral features in Gaussian source model for speech dereverberation,″WASPAA−2007,2007 N.D.Gaubitch,M.R.P.Thomas,P.A.Naylor,"Subband Method for Multichannel Least Squares Equalization of Room Transfer Functions,"Proc.IEEE Workshop on Applications of Signal Processing to Audio and Acoustics(WASPAA−2007),pp.14−17,2007.
なお、以下の説明では、共分散行列H(r)とは、従来技術1で扱う観測信号に関する共分散行列であることを示す。ここで、1つの音響信号を2つのマイクロホンで収音したとすると、Xt−1=[x− t−1 (1),...,x− t−K (1),x− t−1 (2),...,x− t−K (2)]であり、x− t (1)はxt (1)の長さNの短時間フレームからなる列ベクトルx− t (1)=[xt (1),xt+1 (1),...,xt+N−1 (1)]Tであり、xt (1)、xt (2)はそれぞれ第1チャネル、第2チャネルのマイクロホンで収音された観測信号とする。Tは行列、ベクトルの転置を示す。Kは予測フィルタ(推定する残響除去フィルタ)の長さである。また、rtは音響信号の短時間フレームからなる列ベクトルs− t=[st,st+1,...,st+N−1]Tに関する共分散行列rt=E{s− ts− t T}であり、E{・}は期待値関数を示す。一般にrtは既知ではないので、音源モデル記憶部108に記憶されている音源モデルに基づき、推定部104が求めた推定値で代替される。
一般に、予測フィルタ長Kは理論的には少なくとも、室内インパルス応答長と同じ長さでなければならない。従って、共分散行列H(r)のサイズが非常に大きくなる。一方、音響信号が定常信号と仮定すると、上記の共分散行列を相関行列と近似できるため、高速フーリエ変換などの高速な計算方法を用いることが出来るが、音声信号などの時変信号にこの仮定を用いると、残響除去の計算精度が悪くなるという問題があった。このように、残響除去装置100で精度良く残響除去を行うためには膨大な計算時間を必要とし、また高速に残響除去を行うためには、音響信号が時変信号である場合の残響除去の精度が悪くなるという問題があった。
また上記従来技術2の残響除去装置200では、残響除去フィルタ(室内伝達関数の逆フィルタ)を予め推定しておかなければならず、あらかじめ室内伝達関数を求めておく必要があった。しかも、室内伝達関数の逆フィルタを用いて、残響除去を行う処理方法は、室内伝達関数の誤差に極めて敏感であり、ある程度以上の誤差が室内伝達関数に含まれていると、残響除去処理によりかえって、音響信号の歪みが増大してしまうという問題があった。さらに室内伝達関数は音源の位置や室温の変化に敏感であり、音源の位置や室温が事前に正確に特定できない場合には、正確な室内伝達関数を定めることはできなかった。このように、残響除去装置200では、予め精度の良い室内伝達関数を用意する必要があり、しかも、1つの条件下で求めた室内伝達関数は極めて限られた条件でしか残響除去に利用することができなかった。
そこで本発明は次のように残響除去を行う。記憶部に、音響信号を確率密度関数として表現する音源モデルが記憶されている。音響信号を収音して得られた観測信号は複数の周波数帯域のそれぞれに対応する周波数別観測信号に変換される。そして、各周波数帯域における音響信号と観測信号と残響除去フィルタとの関係を表す残響モデルと音源モデルに基づき、各周波数別観測信号を用いて各周波数帯域に対応する残響除去フィルタが推定される。各周波数別観測信号に各残響除去フィルタを適用して、各周波数帯域に対応する周波数別目的信号が求められ、各周波数別目的信号が統合される。
図2は、従来技術2の残響除去装置の機能構成例を示したブロック図である。
図3は、実施例1の残響除去装置の機能構成例を示したブロック図である。
図4は、実施例1の残響除去装置の主な処理を示したフローチャートである。
図5は、実施例2の残響除去装置の機能構成例を示したブロック図である。
図6は、実施例2の残響除去装置の主な処理を示したフローチャートである。
図7は、実施例3の残響除去装置の機能構成例を示したブロック図である。
図8は、実施例4の残響除去装置の機能構成例を示したブロック図である。
図9は、実験結果を示す図である。
図10Aは、単一のマイクロホンを用いて実施例4に基づき残響除去の効果を実証した実験における観測信号のスペクトルグラムを示す図である。
図10Bは、単一のマイクロホンを用いて実施例4に基づき残響除去の効果を実証した実験結果のスペクトルグラムを示す図である。
分割部302は、観測信号を周波数帯域毎に分割しながら、観測信号のサンプル数を減少させることで、周波数別観測信号を出力する。この実施例1の分割部302は、観測信号に対して短時間分析窓を時間シフトしながら適用するとともに、周波数領域に変換することで周波数帯域毎に分割する。
音源モデル記憶部304には、周波数別観測信号の特徴を周波数帯域毎に表現した音源モデルが記憶されている。
推定部306uは周波数帯域毎に設けられており、推定部306uは音源モデルに関連して定義される観測信号の最適化関数に基づき、周波数別観測信号から残響除去フィルタを推定する。
除去部308uは周波数帯域毎に設けられており、周波数別観測信号と残響除去フィルタとを用いて、周波数帯域毎に周波数別目的信号を求める。この実施例1の除去部308uは、残響除去フィルタを前記周波数別観測信号に畳み込むことで、周波数別目的信号を求める。
統合部310は、周波数別目的信号を統合することで、後述する目的信号を出力する。この実施例1の統合部310は、周波数別目的信号を統合し、全周波数帯域を1つにまとめた時間領域の信号に変換することで、後述する目的信号を出力する。
まず、音響信号stと観測信号xt (q)との関係を説明する。音源から各マイクロホンへの室内伝達関数が共通ゼロ点を持たないと仮定し、音源に一番近いマイクロホンをq=1(第1チャネルのマイクロホン)とする。音響信号と観測信号の関係は以下の式(11)のように表すことができる。また、詳細は、「M.Miyoshi,“Estimating AR parameter−sets for linear−recurrent signals in convolutive mixtures,”Proc.ICA−2003,pp.585−589,2003.」に記載されている。
h0 (1)は音源からq=1のマイクロホンへの室内インパルス応答の1タップ目の値であり、ct (q)は予測係数と呼び、推定部306uで推定される残響除去フィルタの係数であり、τは離散時間のインデックスであり、Kは上述のように、予測フィルタ長(従来技術1で推定する残響除去フィルタのサイズ)である。
ここで、音響信号のゲインを無視すると、右辺の第2項h0 (1)stは音響信号stを定数倍した信号であるので、この信号を推定すべき音響信号stと見なすことが出来る。これにより式(11)は以下の式(12)のように書き換えることが出来る。
式(12)では、現在の観測信号xt (q)は、過去の観測信号の時系列xt−τ (q)から予測され、音響信号stは、予測の残差信号とみなされる。なお、式(12)の前提として、第1チャネルのマイクロホン(q=1)が音源に一番近いと仮定したが、この条件を満たしていない場合も、同じ式(12)を用いて、観測信号と音響信号との関係を表すことができる。すなわち、第1チャネルのマイクロホン(q=1)以外のマイクロホンの観測信号に十分な遅延を導入することで、仮想的に音源からの音が最初に到達するマイクロホンを第1チャネルのマイクロホン(q=1)にすることができ、第1チャネルのマイクロホンを音源に最も近いマイクロホンとして扱うことが出来る。このため、例えば、マイクロホンqに導入する遅延時間をd(q)タップとすると、式(12)の表現のままで、q=1以外の予測係数{c1 (q),c2 (q),...,cK (q)}の先頭からd(q)タップに固定値0が代入されていると考えることで、観測信号と音響信号との関係を上記式(12)同様に表すことができる。
観測信号xt (q)が分割部302に入力されると、観測信号を周波数帯域毎に分割しながら、観測信号のサンプル数を減少させることで、周波数別観測信号を出力する(ステップS2)。そして、実施例1の分割部302は、観測信号に対して短時間分析窓を時間シフトながら適用するとともに、周波数領域に変換することで周波数帯域毎に分割する。例えば、分割部302は、短時間フーリエ変換を行う。以下では、分割部302は短時間フーリエ変換を行うとして、具体的に説明する。
次に上記式(12)を一般化して、以下の式(12’)を考える。
ここで、dは現在の観測信号を予測する過去の観測信号に遅延を導入する定数である。d=1としたとき、式(12)と一致する。一方、d>1としたときは、上記式(12’)は観測信号と音響信号の関係を厳密には表現できなくなる。何故なら、現在の時刻tから過去にさかのぼって、dタップの音響信号に由来する信号は上記式(12’)の右辺の過去の信号系列中に含まれていなくなるため、その時間区間の音響信号に由来して現在の観測信号に含まれている残響信号は、過去の観測信号の線形結合では表現できないことになる。「その時間区間の音響信号に由来して現在の観測信号に含まれている残響信号」は室内インパルス応答の最初のdタップに相当する初期反射音に対応する。従って、上記式(12’)においては残差信号中に音響信号以外にこの初期反射音が含まれていることを想定している。これを明らかにするために残差信号をst 〜と記述している。なお、この明細書では、記号Aα 〜は、記号Aの真上に記号〜が付された組み合わせ文字を表す。
<周波数信号に対する畳み込み演算>
次に上記式(12’)の右辺第1項に含まれる時間領域における畳込みに相当する演算を、周波数領域信号に対して計算する方法を説明する。まず、ある音響信号xtにフィルタ長Kのある残響除去フィルタctを時間領域で畳み込んで得られる信号をytとする。時刻t0で始まるytから、窓関数により短時間フレームを時間窓で切り出した信号はz変換領域で、以下の式(13)のように表現できる。
WN(y(z)zt0)=WN(c(z)・x(z)zt0) (13)
ただし、y(z)=c(z)・x(z)とし、「・」は畳込みを示し、WN()は時間領域における長さNの窓関数に相当する関数とした。WN(c(z))はc(z)中の−N+1次から0次の項を取り出し、窓の形に比例して各係数を変更し、窓の外の項を除外する。zt0は時刻t0で始まる短時間フレームを窓関数の中に移動する時間シフトオペレータである。
更に、時刻tにおけるフィルタ係数ctから長さMのフレームを切り出すことを、ct,M(z)=WM R(c(z)zt)と表現し、WM R()を長さMの短時間分析窓(方形窓)を表すものとする。そうすると明らかにc(z)=ΣτcτM,M(z)となる。上記式(13)は以下のように書き換えることが出来る。
ここで、式(14)中のΣτcτM,M(z)z−τMは、c(z)(式(13)参照)に対応するものであり、式(16)中のxt0−M+1−τM,M+N−1(z)はx(z)(式(13)参照)に対応するものである。
また、KR=<K/M>とし、<K/M>はK/M以上の最小の整数を表す。KRは推定部306uで推定される残響除去フィルタのフィルタ長(タップ数)となる。式(15)において、窓関数の引数に含まれる項のうち、窓の外の項を除去することで式(16)が導かれる。
式(16)中の「cτM,M(z)xt0−M+1−τM,M+N−1(z)」は、時間領域におけるフィルタ係数cτのτMタップ目から長さMのフレームを切り出したものと、時間領域の観測信号xtの時刻t0−M+1−τM時点から長さMのフレームを切り出したもの、それぞれをz領域で乗算したものである。z領域における乗算は畳込み演算に相当するので、上記観測信号xtとフィルタ係数ctの各フレームの時間領域における畳込み演算を表現していることになる。またcτM,M(z)のフレーム長はM、xt0−M+1−τM,M+N−1(z)のフレーム長はM+N−1であるので、短時間フーリエ変換のポイント数(周波数帯域の数)UがU≧2M+N−2の時、時間領域の畳込みは短時間フーリエ変換領域の積で厳密に表現される。ここで、音響信号処理でしばしば用いられる近似を利用する。すなわち、短時間分析窓に含まれる信号とフィルタの畳込みは、当該フィルタの長さMが短時間分析窓長Nに比して十分に短い時は、短時間フーリエ変換領域において、その信号とフィルタの積で近似できる。この近似を利用すると、式(16)はz領域の単位円上(短時間フーリエ変換領域に相当)で以下の式(17)のように書き換えることが出来る。
短時間フーリエ変換表現を用いると、式(17)は以下の式(18)のようになる。
ここで、nとτは短時間フレームのインデックスであり、Yn、Cn、Xnはそれぞれ、y(z)、c(z)、x(z)に対応する時間領域信号から時間窓で切り出した信号の短時間フーリエ変換後の各周波数帯域の値を要素に持つベクトルであり、diag(X)はベクトルXの成分を対角成分に持つ対角行列である。なお、本明細書では、短時間フーリエ変換を以下で表す。ここで、tτは、フレームτの最初のサンプルの離散時間インデックスを表す。
式(18)より、時間領域の畳込み演算は、周波数別観測信号の周波数帯域毎の畳込み演算として計算できる。式(17)においては、Mはフレームシフトに相当する値なので、この近似計算においては、フレームシフトMは窓関数WN()の窓長Nに比して十分に小さい値であることが必要である。
以上で<補足説明:周波数信号に対する畳み込み演算>を終わる。
上記式(12’)の両辺に式(16)を用いて例えば短時間フーリエ変換を施すことで、以下の式(22)を得る。
式(22)は式(22a)に等価である。
ここで、Dは式(22)の遅延dに対応し、周波数信号における過去の観測信号に導入する遅延をフレーム数で表したものである。隣接するフレームの周波数信号は、時間領域において相互に重なりを持つ。このため、フレームnの観測信号(式(22)の左辺Xn (1))に含まれる音響信号の一部は、その直前のフレームに対応する観測信号にも含まれていることになる。したがって、式(22)において、直前のフレームを含む過去の観測信号を用いてXn (1)を予測すると、音響信号の一部をも予測できてしまう。観測信号の予測可能な部分は、残差信号には含まれないため、音響信号の一部は残響除去によって除去されることになる。これを防ぐために、周波数信号を用いる本発明では、式(22)のように、現在の観測信号を予測する際に直前のフレームの観測信号を用いず、ある程度の遅延D以上はなれた過去の観測信号だけを用いるようにする。なおd=DMを満たす時、上記式(12’)と式(22)は一致する。以下の説明では、式(22)を観測信号と音響信号の関係を表現する式として本実施形態を説明する。式(22)において、Xn (q)は第qチャネルのマイクロホンで収音された時間領域信号に関する短時間フーリエ変換に相当する。短時間フーリエ変換は、式(19)、(20)に従う。ここで、nはフレーム番号を表す。また、周波数帯域u(u=0,...,U−1)での周波数別観測信号はXn,u (q)と表される。このXn,u (q)を求めるために、分割部302は、短時間分析窓をMサンプルずつ時間シフトしながら適用するとともに、周波数領域に変換する。これにより、周波数帯域毎に分割した周波数別観測信号Xn,u (q)が得られる。
また、後ほど詳細を説明する推定部306uは、周波数別観測信号Xn,u (q)から残響除去のための残響除去フィルタを推定する。当該残響除去フィルタの係数である予測係数Cτ (q)が得られると、目的信号(初期反射音を含む音響信号)S〜 nを以下のように推定できる。
式(23)は周波数帯域ごとにSn 〜=[Sn,0 〜,Sn,1 〜,...,Sn,U−1 〜]の各要素について以下の式(24)のようにも表すことができる。
ここで式(25)−(28)を用いると、式(24)は式(29)のようにも表すことができる。
ただしTはベクトルおよび行列の転置を示す。この実施例では、Cuをu番目の周波数帯域の残響除去フィルタという。なお、式(29)中のBn−D,uCu Tは、各チャネル毎にBn,u (q)とCu (q)を畳み込んで得られる信号を、全てのqに関して加算した信号に相当する。推定部306uで残響除去フィルタCuが推定され、除去部308uが式(29)に基づき、残響信号を除去する。
また、0D−1を全ての要素が0のD−1次元の行ベクトルとすると、残響除去フィルタWuは以下のようにも定義できる。
Wu=[1,0D−1,Cu (1),0,0D−1,Cu (2),...,0,0D−1,Cu (Q)]この場合、除去部308uにより以下の式に基づき残響信号を除去する。
以上のように、推定部306uが残響除去フィルタCuまたはWuを推定できると、除去部308uは式(29)または式(30)に基づき、残響信号を除去できる。次に、残響除去フィルタの推定の説明の前に、音源モデルについて説明する。
音源モデル記憶部304には、周波数別観測信号の特徴を周波数帯域毎に表現した音源モデルが記憶されている。
この実施例の音源モデルは、音響信号の取りうる値の傾向を確率分布で表現する。そして、この確率分布に基づき最適化関数を定義する。音源モデルは例えば、時変正規分布が有効であり、求める周波数別信号Sn 〜の確率密度関数は以下のように定義される。
p(Sn 〜)=N(Sn 〜;0,Ψn) (31)
Ψn∈ΩΨ (32)
ここで、N(Sn 〜;0,Ψn)は平均0、音源モデルの共分散行列Ψn=E(Sn 〜(Sn 〜)*T)の多次元複素正規分布を表し、Ψnは短時間フレームnごとに異なる値、もしくは同じ値をとる。以下の説明では、Ψnをモデル共分散行列といい、モデル共分散行列Ψnは、短時間フレームnごとに異なる値をとる対角行列であると仮定する。また、「*」は、複素共役を表す。ΩΨはΨnが取りうる値全てを含む集合(すなわち、Ψnのパラメータ空間)を表す。ψn,u 2=E(Sn,u 〜Sn,u 〜*T)をΨnのu番目の対角要素を表すものとすると、Ψnは対角行列なので、確率密度関数は、各周波数帯域ごとに独立に
p(Sn,u 〜)=N(Sn,u 〜;0,ψn,u 2) (33)
とできる。
周波数帯域毎の推定部306uは、音源モデルに関連して定義される観測信号の最適化関数に基づき、周波数別観測信号から残響除去フィルタを推定する(ステップS4)。残響除去フィルタの推定の詳細を具体的に説明する。
残響除去フィルタCuは、上記式(25)に示すように、全てのマイクロホンに関する観測信号の予測係数Cu (q)からなるベクトルで表される。予測係数Cu (q)は周波数領域の予測係数である。ψu 2はモデル共分散行列の第u対角要素の時系列を表し、ψu 2={ψn,u 2}と示す。また、θu={Cu、ψu 2}を推定パラメータの集合を表すものとする。更に、全周波数帯域の推定パラメータ全体の集合をθ={θ0,θ1,...,θU−1}と表す。そして、各周波数帯域ごとの最適化関数として対数尤度関数Lu(θu)および全周波数帯域にわたる最適化関数として対数尤度関数L(θ)を以下のように定義する。
式(34)は、式(29)(33)に基づき、以下の式(36)のように表すことができる。
式(35)の左辺を最大化するパラメータを推定することで、残響除去フィルタの予測係数Cu (q)を求めることが出来る。式(35)の最大化は、以下の最適アルゴリズムにより実現できる。
1.全ての周波数帯域uに関して初期値を例えば以下の式(37)のように定める。
2.以下の2つの式を収束するまで繰り返す。
2−1.全ての周波数帯域uに関して、Cn,u (q)を固定して、最適化関数L(θ)を最大化するように、モデル共分散行列Ψnを更新する。
2−2.Ψnを固定して、全ての周波数帯域uに関して、最適化関数Lu(θu)を最大化するように、残響除去フィルタCuを更新する。
ただし、上記アルゴリズムの表記において、パラメータAの値をBに更新する操作を「A→B」と記述した。また、「+」はムーアペンローズの擬似逆行列を表す。なお、上記アルゴリズム中で計算する必要がある観測信号に関する共分散行列H’(ψn,u 2)は以下の式(40)のようになる。
この最適化アルゴリズムに基づき、最終的に得られたCuを元に残響除去フィルタを構成する。除去部308uは、式(29)または式(30)に基づき、当該残響除去フィルタCuまたはWuを周波数別観測信号Xn,u (q)に畳み込むことで、Xn,u (q)から残響信号を除去して、周波数別目的信号Sn,u 〜を求める(ステップS12)。
そして、統合部310が周波数帯域毎の周波数別目的信号Sn,u 〜を統合すると共に、時間領域に変換することで目的信号st 〜を出力する(ステップS14)。具体的には、短時間フーリエ変換のフレームの時系列を時間領域信号に変換する一般的な方法を用いることが出来る。すなわち、各フレームnごとにSn 〜=[Sn,0 〜,Sn,1 〜,...,Sn,U−1 〜]に短時間逆フーリエ変換を適用して各フレームの時間信号を得ると共に、各フレームの信号をオーバラップ加算することで目的信号st 〜を得る。フレームτの短時間逆フーリエ変換は式(40a)で表される。オーバラップ加算は、短時間逆フーリエ変換を適用して得られる各フレームの時間信号に何らかの時間窓を適用するとともに、分割部で用いたのと同じフレームシフト幅Mで信号を加算することで実現される。具体的な計算式は式(40b)で表される。ここで、wt Iは長さNの時間窓、floor(a)はa以下の最大の整数を表す。
この実施例1の残響除去装置300の効果を説明する。この残響除去装置300による観測信号xt (q)(q=1,...,Q)から残響除去処理を各周波数帯域ごとの演算として近似計算できる。Mサンプルずつ時間シフトさせながら長さNの短時間分析窓を適用して周波数領域信号への変換を行うことで、各周波数帯域毎の残響除去フィルタの長さを短くすることが出来る。そして、残響除去フィルタの推定に必要な共分散行列のサイズを小さくできる。その理由を説明すると、一般的に、残響除去フィルタのサイズと、当該残響除去フィルタを求めるために用いる共分散行列のサイズは等しい。そして、Mサンプルずつ時間シフトさせながらNサンプル分切り取って(長さNの短時間分析窓を適用して)、周波数領域変換処理を行っているので、従来技術1と比較して畳み込まれる残響除去フィルタのサイズも小さくなる。従って、共分散行列のサイズも小さくなる。このことは、式(1)、式(40)からも明らかである。つまり、式(1)に示す共分散行列H(r)のサイズと、式(40)に示す共分散行列H’(ψn,u 2)のサイズを比較すると、従来技術1の共分散行列H(r)のサイズは予測フィルタ長(室内インパルス応答長)Kに依存する。しかし、本実施例1で用いた共分散行列H’(ψn,u 2)は、KR(つまり、<K/M>)に依存する。何故なら、式(35)に示すように、共分散行列H’(ψn,u 2)を構成するBn−D,u (q)の要素の数(タップ数)は、KR−D個だからである。従って、従来技術1と比べると、本実施例1で用いる共分散行列のサイズが小さくできることが理解できよう。残響除去フィルタの推定では共分散行列の計算に加えて、その逆行列の計算が必要であり、これらにかかる計算コストは、残響除去処理全体の計算コストの大部分を占める。更に、この両方の計算コストは、共分散行列のサイズを小さくすることで縮小できる。以上のようにして本実施例では、残響除去処理全体の計算コストを大幅に削減できる。
実施例2の残響除去装置400について説明する。図5に残響除去装置400の機能構成例を示し、図6に主な処理の流れを示す。残響除去装置400は、残響除去装置300と比較して、除去部308uが除去部407uに代替されている点で異なる。除去部407uは、周波数帯域毎の残響信号生成手段408u、周波数帯域毎の残響信号周波数別パワー生成手段410u、周波数帯域毎の観測信号周波数別パワー生成手段412u、周波数帯域毎の減算手段414u、により構成される。
分割部302により観測信号が周波数帯域毎に分割され(ステップS2)、推定部306uにより、周波数帯域毎の残響除去フィルタが推定されると(ステップS4)、残響信号生成手段408uは、残響除去フィルタと周波数別観測信号Xn,u (q)を用いて、周波数別残響信号Rn,uを生成する(ステップS22)。具体的には、例えば以下の式(41)により周波数別残響信号Rn,uを求める。
残響信号周波数別パワー生成手段410uは、周波数別残響信号Rn,uの周波数別パワー|Rn,u|2を求める(ステップS24)。一方、観測信号周波数別パワー生成手段412uが例えば、第1チャネルのマイクロホンで収音された周波数別観測信号の周波数別パワー|X(1) n,u|2を求める(ステップS26)。そして、減算手段414uが、周波数別残響信号の周波数別パワーと周波数別観測信号の周波数別パワーの差を計算することで差信号|X(1) n,u|2−|Rn,u|2を求め、当該差信号の計算に用いた周波数別観測信号X(1) n,uと当該差信号に基づき、周波数別目的信号を求める(ステップS28)。例えば以下の式に基づき周波数別目的信号Sn,u 〜を求める。
ただし、max{A,B}は、A、Bのうち大きいほうを選択する関数とし、G0は、G0>0であり、パワー減算で信号のエネルギーを抑圧する下限を定めるフロアリング定数とする。そして、統合部416が当該周波数別目的信号を時間領域に変換することで、目的信号st 〜を求める(ステップS30)。
この残響除去装置400は、実施例1の残響除去装置300より残響除去フィルタに推定誤差が含まれていても音質の劣化の少ない残響除去を行うことが出来る。
また、従来技術の残響除去処理は、時間領域でしか動作させることが出来なかった。しかし、実施例1、2で説明した残響除去装置300、400は、周波数領域で動作させるので、ブラインド音源分離やウィーナフィルタなど、周波数領域で動作する他の多くの有用な音声強調技術と組み合わせることが出来る。
サブバンド分割した信号をサブバンド信号とし、サブバンドの数をVとし、サブバンドのインデックスをv(v=0,...,V−1)とする。推定部506vは各サブバンド信号ごとに残響除去フィルタを推定し、除去部508vは各サブバンド信号ごとに残響を除去する。統合部510により統合されることで目的信号st 〜を求める。分割部502によるサブバンド分割処理、統合部510による統合処理は、「M.R.Portnoff,“Implementation of the digital phase vocoder using the fast Fourier transform,”IEEE Trans.ASSP,vol.24,No.3,pp.243−248,1976.(以下、「非特許文献A」という。)」や「J.P.Reilly,M.Wilbur,M.Seibert,and N.Ahmadvand,“The complex subband decomposition and its application to the decimation of large adaptive filtering problems,”IEEE Trans.Signal Processing,vol.50,no.11,pp.2730−2743,Nov.2002」などに記載されている。以下の説明では、非特許文献Aの技術を用いて説明する。当該非特許文献Aには、後述する式(50)が記載されている。また、主な処理の流れは、図4と同様なので、省略する。
まず、音響信号と観測信号の関係を説明する。分割部502は、観測信号にサブバンド分割を行い、V個の周波数帯域毎(サブバンド)に分割する。この分割を非特許文献Aの定義に従い、式で表すと以下の式(50)のようになる。
ここで、各サブバンドにおいて、観測信号の周波数シフトおよび低域通過フィルタを適用して得られる信号のサンプルインデックスをt(サブバンド処理される前の観測信号の離散時刻と同じ)とし、第qチャネルのマイクロホンで収音された観測信号に関するv(v=0,...,V−1)番目のサブバンドのt番目のサンプルをxt,v (q)とする。e−j2πvτ/Vはv番目のサブバンドに対応する周波数シフト演算子であり、hτは長さ2Nh+1の低域通過フィルタの係数である。そして、式(50)を上記式(12’)の両辺に適応すると以下の式を得る。
ここで式(51)の右辺のst,v 〜は初期反射音を含む音響信号にサブバンド分割処理を適用して得られる信号である。本実施例ではst,v 〜を求めるべき目的信号として扱う。そして、分割部502は、サブバンド分割を行うと共に各サブバンド信号に対してダウンサンプリングを行う。例えば第1チャネルのマイクロホンで収音された観測信号xt,v (1)および音響信号st,vの各時系列をγ個のサンプル間隔でダウンサンプリング(サンプルの間引き)を行った信号のサンプルのインデックスをbとし、ダウンサンプリング後に得られるサブバンド信号をxb,v’(q)やsb,v 〜’と示す。ダウンサンプリングされた信号のサンプルインデックスbに対応する、ダウンサンプリングする前の信号のサンプルインデックスをtbとする。そうすると、以下の式(52)のように表すことができる。
一方、hτは低域通過フィルタなのでこの低域通過フィルタのカットオフ周波数の2倍以上のサンプリング周波数でダウンサンプリングが行われる場合は、アップサンプリングにより高精度にダウンサンプリングする前の信号に復元できる。このアップサンプリングは、例えば以下の手順で行われる。
手順1.ダウンサンプリングされた信号の各サンプル間に、γ−1個の「0」を挿入する。
手順2.低域通過フィルタを適用する。
手順2.では有限長インパルス応答フィルタを用いることが一般的である。これはアップサンプリングにより復元される信号は、ダウンサンプリングされた信号の線形結合で表現できることを意味する。
この関係を用いると式(52)の右辺の記載xtb−τ,v (q)は以下の式(53)のように表現できる。
βτ,kはアップサンプリングにおける低域通過フィルタの係数に対応して決まる係数、k0はアップサンプリングに用いる低域通過フィルタのフィルタリングの遅延、k0+k1+1はアップサンプリングに用いる低域通過フィルタのフィルタ長に相当する。式(53)を式(52)に代入して整理すると、以下の式(54)を得る。
ここで、αk,v (q)は、式(53)を式(52)に代入して整理した時に、x’b−k,v (q)の項の係数となるものを表している。d’はαk,v (q)によるフィルタリングの遅延を示し、K’はαk,v (q)によるフィルタリングのフィルタ長を示す。式(52)(53)および間引き間隔γの関係に基づき、d’≒d/γ―k0、K’≒K/γ+k1と定めることが出来る。d’≧1の場合、式(54)は各サブバンド信号に対して、αk,v (q)を予測係数(推定部506vで推定される残響除去フィルタの係数)として、過去の観測信号から現在の観測信号を予測した場合の残差信号が初期反射音を含む音響信号となる関係を表している。以下の説明では、式(54)を各サブバンド信号における観測信号と音響信号との関係を表す式として扱う。
ここで式(55)−(58)を定着する。
この場合、式(54)は、式(59)のように表現することができる。
この実施例3では、αvをv番目のサブバンド信号に対する残響除去フィルタとし、除去部508vは上記式(59)に基づき残響信号の除去を行う。なお、0d’−1を全ての要素が0のd’−1次元の行ベクトルとすると、残響除去フィルタwvは以下の式(60)のようにも表すことができる。
この場合、除去部508vは式(61)に基づき、残響信号の除去を行う。
次に、推定部506vによる残響除去フィルタの推定手法について説明する。この実施例の音源モデル記憶部504に記憶されている音源モデルは、実施例1、2同様、音響信号の取りうる傾向を確率分布で表現しており、これに基づき最適化関数を定義する。音源モデルとしては、例えば、時変正規分布が有効である。以下の説明では、最も単純な音源モデルとして、各サブバンド間で信号が独立であるモデルを導入する。また、各サブバンド信号は周波数スペクトルが平坦で、信号のエネルギーのみが時間的に変化する時変白色正規過程であると仮定する。
上記式(31)(32)同様、パラメータ空間を定義し、以下のように変更する。このとき、sb 〜’=[sb,0 〜’,sb,1 〜’,...,sb,V−1 〜’]Tの確率密度関数は以下のように定義できる。
p(sb 〜’)=N(sb 〜’;0,Ψb’) (31’)
Ψb’∈ΩΨ’ (32’)
ここで、N(sb 〜’;0,Ψb’)は平均0、音源モデルの共分散行列Ψb’=E(sb 〜’(sb 〜’)*T)の多次元複素正規分布を表し、Ψb’はサンプルbごとに異なる値、もしくは同じ値をとる。以下の説明では、Ψb’をモデル共分散行列と呼び、モデル共分散行列Ψb’は、サンプルごとに異なる値をとる対角行列であると仮定する。ΩΨ’はΨb’が取りうる値全てを含む集合(すなわち、Ψb’のパラメータ空間)を表す。ψb,v’2=E(sb,v 〜’(sb,v 〜’)*)はΨb’のv番目の対角要素である。Ψb’は対角行列なので、確率密度関数は、各サブバンドごとに独立にp(sb,v 〜’)=N(sb,v 〜’;0,ψb,v’2)とできる。ψv’2はモデル共分散行列の第v対角要素の時系列を表し、ψv’2={ψb,v’2}と示す。また、θv={αv,ψv’2}をサブバンドvに関する推定パラメータの集合を表すものとする。更に、全サブバンドの推定パラメータ全体の集合をθ’={θ0,θ1,...,θV−1}と表す。そして、各サブバンドごとの最適化関数として対数尤度関数Lv(θv)および全サブバンドにわたる最適化関数として対数尤度関数L’(θ’)を以下のように定義する。
式(63)は式(59)、式(31’)に基づき、式(64)のように表すことができる。
式(64)を最大化するパラメータを推定することで、残響除去フィルタの係数の推定値を得ることができる。式(64)の最大化は、以下の最適化アルゴリズムにより実現できる。
1.全てのサブバンドvに関して、初期値を以下の式(65)のように定める。
2.以下の2つの式を収束するまで繰り返す。
2−1.全てのサブバンドvに関して、αb,v (q)を固定して、最適化関数L’(θ’)を最大化するように、モデル共分散行列Ψb’を更新する。
2−2.Ψb’を固定して、全てのサブバンドvに関して、最適化関数Lv(θv)を最大化するように、残響除去フィルタ係数αvを更新する。
最終的に得られたαvをもとに推定部506vは残響除去フィルタを構成し、除去部508vは上記式当該残響除去フィルタにより上記式(59)または(61)に基づいて残響信号を除去することで、周波数別目的信号sb,v 〜’を求める。そして、統合部510は、周波数別目的信号sb,v 〜’をアップサンプリング処理と共に各サブバンド信号を統合することで、目的信号st 〜を求める。
以上説明したように、サブバンド処理では、観測信号を周波数帯域ごとの時間領域信号に分割後にγ個間隔でダウンサンプリングすることで各周波数帯域の時間領域信号のサンプリング周波数を1/γにすることが出来る。
本実施例では、各周波数帯域毎の時間領域信号に対して個別に残響除去処理を行い、これらを統合することで、全周波数帯域にわたる残響除去を実現する。時間領域の信号に対して、ダウンサンプリングする場合としない場合を比較すると、ダウンサンプリングする場合の方が残響除去フィルタの推定に扱う共分散行列のサイズを小さく出来る。何故なら、共分散行列のサイズは、残響除去フィルタのフィルタ長で決まるものであり、残響除去フィルタのフィルタ長Kは部屋のインパルス応答のタップ数に対応して決まるものであり、物理的に同じ時間長のインパルス応答はサンプリング周波数が小さくなると少ないタップ数になるためである。換言すれば、γ個間隔でダウンサンプリングを行うことで、残響除去フィルタのフィルタ長はK’(=K/γ+k1)になり、従来技術の残響除去フィルタのフィルタ長Kより小さくなる。
残響除去フィルタのフィルタ長が小さくなると、上述したように、残響除去フィルタ推定の際に用いる共分散行列のサイズを小さく出来るので、残響除去フィルタの推定処理の計算コストを削減できる。
また、当該ダウンサンプリングが、低域通過フィルタのカットオフ周波数の2倍以上のサンプリング周波数で行われる場合は、当該ダウンサンプリング処理と共に行ったサブバンド分割処理により求められたサブバンド信号は、アップサンプリングにより高精度に復元できるという性質を有する。従って、統合部510による統合処理の際にアップサンプリングをしても、目的信号が劣化することはない。
残響信号生成手段608vは、残響除去フィルタαvと観測信号xt,v (q)を用いて、周波数別残響信号rb,vを求める。具体的には以下の式(70)により求められる。
rb,v=Fb−d’,v・αv T (70)
そして、残響信号周波数別パワー生成手段610vが、周波数別残響信号の周波数別パワー|rb,v|2を求める。また、観測信号周波数別パワー生成手段612vが、第1チャネルのマイクロホンにより収音された観測信号xb,v (1)の周波数別パワー|xb,v (1)|2を求める。そして、減算手段614vが、周波数別残響信号の周波数別パワーと周波数別観測信号の周波数別パワーの差を計算することで差信号|xb,v (1)|2−|rb,v|2を求め、当該差信号の計算に用いた周波数別観測信号xb,v (1)と当該差信号に基づき、周波数別目的信号を求める(ステップS28)。例えば以下の式に基づき周波数別目的信号sb,v 〜’を求める。例えば、以下の式により周波数別目的信号sb,v 〜’は求められる。
ただし、max{A,B}は、A、Bのうち大きいほうを選択する関数とし、G0は、G0>0であり、パワー減算で信号のエネルギーを抑圧する下限を定めるフロアリング定数とする。
そして、それぞれの周波数別目的信号sb,v’〜(v=0,...,V−1)は統合部510により統合され、目的信号st 〜として出力される。
残響除去装置600のような構成にすることで、残響除去装置500と比較して、残響除去フィルタの推定誤差の影響をあまり受けることなく残響信号の除去を行うことが出来る。
[音源モデルの具体例]
以下に、実施例1から5に関する音源モデルの具体例について、集合ΩΨ、ΩΨ’の例を示して説明する。主として、実施例1、2、5について説明する。実施例3、4については以下の説明中の各記号について以下の読み替えを行うことで具体例を構成できることから説明を省略する。
ΩΨ→ΩΨ’
Ψu→Ψv’
ψn,u→ψb,v’
Xn,u (q)→xb,v (q)’
Sn,u 〜→sb,v 〜’
Bn,u→Fb,v
D→d’
Cu→αv
in→ib
式(38)→式(66)
式(39)→式(67)
306u→506v
(1)1つ目の具体例として、集合ΩΨが任意の正定値対角行列からなる集合とする。これは、ψn,u 2が任意の正の値をとることが出来ることを意味する。このとき上記最適化アルゴリズムの中で、式(38)の更新式は、全ての周波数帯域で個別に計算される以下の更新式(80)に置き換えることが出来る。なお、式(39)の更新式については変更はない。
(2)2つ目の具体例を説明する。非特許文献1記載の技術と同様に、音響信号の波形を有限状態機械でモデル化する場合について説明する。このとき、集合ΩΨは有限個の正定値対角行列からなる集合となる。各行列は、観測信号の短時間信号に対応する周波数領域信号が取りうる有限個の状態のそれぞれに対応する共分散行列になる。これらの有限個の行列は、事前に残響を含まない環境で収音された音響信号の周波数領域信号やその共分散行列をクラスタリングするなどの手法に基づき構成することが出来る。また、有限個の行列の数をZとし、そのインデックスをi(i=1,...,Z)とし、状態iに対応する共分散行列をΨ(i)とする。
そうすると、上記繰り返しアルゴリズムの中で推定すべきパラメータは、共分散行列の代わりにインデックスの値となる。以下、時刻nの状態をinとし、状態inに対応する共分散行列をΨ(in)とし、共分散行列Ψ(in)の対角要素をψu 2(in)とする。各時刻における音源モデルの状態inは、各周波数帯域毎に決まる値ではなく、全周波数帯域に対して1つ決まる値である。このため、対数尤度関数をもとに定められる最適化関数は、全周波数帯域に対して以下の式(81)のように定義できる。
ここで、推定パラメータθ={C,I}は、inの時系列I={i1,i2・・・}と各周波数帯域ごとの予測係数C={C0,C1,...,CU−1}から構成されているものとする。この最適化関数に基づき、前記最適化アルゴリズムのうち、式(38)の更新式は、全周波数帯域に関する以下の更新式(82)に置き換えることが出来る。なお、式(39)の更新式については変更はない。
式(38)から式(82)への置き換えにより、推定部306uはより正確に、残響除去フィルタの推定を行うことが出来る。
(3)3つ目の具体例を説明する。(2)で説明した状態inを確率変数と仮定することで、より精密な音源モデルに基づく最適化関数を構成することが出来る。一例として、状態inが一次のマルコフ過程でモデル化できる場合を説明する。マルコフ過程の仮定によりp(I)=p(i)Πnp(in|in−1)と出来る。音源モデルのパラメータは、任意の状態i、jに対するp(i)、p(i|j)、および各状態における共分散行列Ψ(i)であり、これらのパラメータは残響を含まない環境で収音された音響信号と共に事前に用意できる。このとき残響信号の除去のための最適化関数は、以下の式のようになる。
式(83)の最適化関数における推定パラメータθは有限状態機械で定義した推定パラメータと同じである。式(83)の最適化関数は上記最適化アルゴリズムにおいて、式(38)の状態の更新式のみを以下の更新式で置き換えることで容易に最大化できる。
なお、上記式(84)の最大化は、公知の技術であるダイナミックプログラミングを用いることで、効率的に計算できる。
実施例1〜5の説明において、観測信号、音響信号の関係を導いた上記式(12’)では異なるマイクロホン間で室内伝達関数が共通ゼロ点を持たないこと、また、マイクロホンの本数は2本以上必要であることを仮定した。しかし、本発明で構成した実施例1から5に基づく残響除去法ではこれらの仮定が成立していない場合においても、良好な残響除去が実現できるこが実験的に確認されている。
単一のマイクロホンを用いて実施例4に基づき残響除去装置の効果を実証した実験結果について説明する。対象となる音声は、女性一名が発した5単語の発話列で構成される音声信号である。観測信号は残響のある部屋で測定された1チャンネル室内インパルス応答を畳み込むことで合成した。残響時間(RT60)は0.5秒である。図10に観測信号(図10A)と本実施例を適用して得られた信号(図10B)のスペクトルグラムを示す。図には、最初の2単語のみを表示している。図10より、残響が効果的に抑制されていることが確認できる。
従って、本発明は、マイクロホンの数がQ=1の場合やマイクロホン間で室内伝達関数が共通ゼロ点を持つ場合にも適用できる。また、上記従来技術1の場合、音源に最も近いマイクロホンを第1チャネルのマイクロホンとして既知である仮定したが、本発明の技術の場合は、音源に最も近いマイクロホンが既知であるという仮定は必要としないことが実験的に確認されている。
また、実施例1〜5の分割部の処理は、上述では、短時間フーリエ変換、サブバンド分割を用いた。その他の周波数領域に分割する手法として、観測信号のサンプル数を減少させるようにさえすれば、ウェーブレット変換や離散コサイン変換などを用いても良い。また、それらの変換が周波数帯域の間の信号が無相関にならないような変換であっても相関を近似的に無視することで、同様の効果を得ることができる。
また、残響除去フィルタCu、αv、の最適化のために、上記式(39)(Cuの推定の場合)、上記式(67)(αvの推定の場合)を計算する代わりに、適応フィルタでしばしば用いられる逐次推定アルゴリズムを用いることも出来る。そのような最適化手法としては、公知の技術であるLMS(Least Mean Square)法、RLS(Recursive Least Squares)法、最急降下法、共役勾配法、などが知られている。これにより、1回の繰り返しに必要な計算量を大幅に縮小できる。従って、少ない計算コストで実時間内に少なくとも1回以上の繰り返し推定を行うことが出来る。このため、比較的安価なDSP(Digital Signal Processor)を用いても、実時間処理を実現できる。1回の繰り返しだけでは必ずしも精度の高い残響除去フィルタは得られないが、時間の経過と共に逐次的に推定精度を改善できる。
<ハードウェア構成>
本実施例で説明した、プログラムで機能させる残響除去装置は、CPU(Central Processing Unit)、入力部、出力部、補助記憶装置、RAM(Random Access Memory)、ROM(Read Only Memory)及びバスを有している(何れも図示せず)。
CPUは、読み込まれた各種プログラムに従って様々な演算処理を実行する。補助記憶装置は、例えば、ハードディスク、MO(Magneto−Optical disc)、半導体メモリ等であり、RAMは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)等である。また、バスは、CPU、入力部、出力部、補助記憶装置、RAM及びROMを通信可能に接続している。
<ハードウェアとソフトウェアとの協働>
本実施例の残響除去装置は、上述のようなハードウェアに所定のプログラムが読み込まれ、CPUがそれを実行することによって構築される。以下、このように構築される各装置の機能構成を説明する。
残響除去装置の入力部、出力部は、所定のプログラムが読み込まれたCPUの制御のもと駆動するLANカード、モデム等の通信装置である。分割部、推定部、処理部は、所定のプログラムがCPUに読み込まれ、実行されることによって構築される演算部である。音源モデル記憶部は上記補助記憶装置として機能する。
[実験結果]
本実施例の残響除去装置の効果を実証した実験結果について説明する。この実験では、実施例1で説明した残響除去装置300と従来技術で説明した残響除去装置100を比較した。対象となる音声は、5単語の発話列で構成される音声信号であり、男性と女性、各一名が発した合計2種類の発話列からなる。観測信号は残響のある部屋で測定された2チャネル室内インパルス応答を畳み込むことで合成した、残響時間(RT60)は0.5秒である。残響除去は各発話列に対して行い、その性能は残響除去後の信号のケプストラム歪み(cepstrum distortion、以下、単に「CD」と示す。)と残響除去処理の実時間性(real time factor、以下単に「RTF」と示す。)を用いて残響除去性能を評価した。CDは以下で定義される。
ここで、ck^とckはおのおの評価する音声信号とクリーン音声信号のケプストラム係数で、D=12とした。この評価尺度で、エネルギー時間パターンとスペクトル包絡の両方に関して、信号に含まれる歪みを評価できる。RTFは(残響除去処理に要した時間)/(観測信号の時間)とした。実験に用いた残響除去法は何れもリナックスコンピュータ上でプログラミング言語マトラブで実装した。標本化周波数は8kHz、短時間分析窓長Nは256とした。
図9にグラフで示した実験結果を示す。縦軸がCDを示し、横軸(対数表示)がRTFを示す。残響除去装置300(実施例1)については、折れ線で示しており、フレームシフトMの値を256、128、64、32、16、8の場合についてのRTF、CDの関係を示す。残響除去装置100(従来技術1)については、×印を付す。観測信号は破線で示し、CDの値が約4.1である。
図9から残響除去装置100では、RTF90に対してCDが約2.4である。これに対し、残響除去装置300では例えばM=64の場合は、CDが従来技術とほぼ等しい約2.4であるにも関わらず、RTFが約2.5となっている。この結果より、残響除去装置300は残響除去装置100よりも優れていることが理解できよう。また、残響除去装置300では、RTFが増加するにつれて、CDが減少していることも理解できよう。
発明の効果
本発明によると、観測信号が複数の周波数帯域のそれぞれに対応する周波数別観測信号に変換され、各周波数別観測信号を用いて各周波数帯域に対応する残響除去フィルタが推定される。各周波数帯域に対応する残響除去フィルタの次数は、観測信号をそのまま用いた場合の残響除去フィルタの次数よりも小さい。これに呼応して、共分散行列のサイズが小さくなるため、残響除去フィルタの推定に係る計算コストを低減することができる。また、各周波数別観測信号を用いて残響除去フィルタを推定するから、予め室内伝達関数が既知である必要が無い。
Claims (8)
- 音源から発せられた音響信号を収音して得られた観測信号に残響除去フィルタを適用することでこの観測信号から残響信号を除去する残響除去装置であって、
音響信号を確率密度関数として表現する音源モデルを記憶している音源モデル記憶部と、
上記観測信号を複数の周波数帯域のそれぞれに対応する周波数別観測信号に変換する分割部と、
現在の観測信号を、所定の遅延を持つ過去の観測信号に残響除去フィルタを適用して得られる信号に音響信号を加算して得られる信号として表現する自己回帰モデルと、上記音源モデルに基づき、各上記周波数別観測信号を用いて各上記周波数帯域に対応する残響除去フィルタを求める推定部と、
各上記周波数別観測信号に上記推定部によって得られた各上記残響除去フィルタを適用して、各上記周波数帯域に対応する周波数別目的信号を求める除去部と、
各上記周波数別目的信号を統合する統合部と
を含む残響除去装置。 - 請求項1に記載の残響除去装置であって、
上記音源モデルは、平均0且つ周波数帯域間で相関を持たない時変複素正規分布モデルである
ことを特徴とする残響除去装置。 - 請求項2に記載の残響除去装置であって、
上記推定部は、上記周波数別目的信号の分散を推定し、この推定された周波数別目的信号の分散で正規化された各上記周波数別観測信号の共分散行列を用いて上記残響除去フィルタを推定する
ことを特徴とする残響除去装置。 - 音源から発せられた音響信号を収音して得られた観測信号に残響除去フィルタを適用することでこの観測信号から残響信号を除去する残響除去方法であって、
音源モデル記憶部に音響信号を確率密度関数として表現する音源モデルが記憶されており、
上記観測信号を複数の周波数帯域のそれぞれに対応する周波数別観測信号に変換する分割ステップと、
現在の観測信号を、所定の遅延を持つ過去の観測信号に残響除去フィルタを適用して得られる信号に音響信号を加算して得られる信号として表現する自己回帰モデルと、上記音源モデルに基づき、各上記周波数別観測信号を用いて各上記周波数帯域に対応する残響除去フィルタを求める推定ステップと、
各上記周波数別観測信号に上記推定ステップで得られた各上記残響除去フィルタを適用して、各上記周波数帯域に対応する周波数別目的信号を求める除去ステップと、
各上記周波数別目的信号を統合する統合ステップと
を含む残響除去方法。 - 請求項4に記載の残響除去方法であって、
上記音源モデルは、平均0且つ周波数帯域間で相関を持たない時変複素正規分布モデルである
ことを特徴とする残響除去方法。 - 請求項5に記載の残響除去方法であって、
上記推定ステップでは、上記周波数別目的信号の分散を推定し、この推定された周波数別目的信号の分散で正規化された各上記周波数別観測信号の共分散行列を用いて上記残響除去フィルタを推定する
ことを特徴とする残響除去方法。 - 請求項1から請求項3のいずれかに記載の残響除去装置としてコンピュータを動作させる残響除去プログラム。
- 請求項1から請求項3のいずれかに記載の残響除去装置としてコンピュータを動作させるプログラムを記録したコンピュータが読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010501968A JP5227393B2 (ja) | 2008-03-03 | 2009-02-27 | 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008052175 | 2008-03-03 | ||
JP2008052175 | 2008-03-03 | ||
PCT/JP2009/054231 WO2009110578A1 (ja) | 2008-03-03 | 2009-02-27 | 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体 |
JP2010501968A JP5227393B2 (ja) | 2008-03-03 | 2009-02-27 | 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009110578A1 JPWO2009110578A1 (ja) | 2011-07-14 |
JP5227393B2 true JP5227393B2 (ja) | 2013-07-03 |
Family
ID=41056130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010501968A Active JP5227393B2 (ja) | 2008-03-03 | 2009-02-27 | 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8467538B2 (ja) |
JP (1) | JP5227393B2 (ja) |
CN (1) | CN102084667B (ja) |
WO (1) | WO2009110578A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10152986B2 (en) | 2017-02-14 | 2018-12-11 | Kabushiki Kaisha Toshiba | Acoustic processing apparatus, acoustic processing method, and computer program product |
JPWO2020121590A1 (ja) * | 2018-12-14 | 2021-10-14 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、およびプログラム |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007130026A1 (en) * | 2006-05-01 | 2007-11-15 | Nippon Telegraph And Telephone Corporation | Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics |
US8582781B2 (en) * | 2009-01-20 | 2013-11-12 | Koplar Interactive Systems International, L.L.C. | Echo modulation methods and systems |
US9037458B2 (en) | 2011-02-23 | 2015-05-19 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for spatially selective audio augmentation |
JP5699844B2 (ja) * | 2011-07-28 | 2015-04-15 | 富士通株式会社 | 残響抑制装置および残響抑制方法並びに残響抑制プログラム |
JP5915281B2 (ja) * | 2012-03-14 | 2016-05-11 | ヤマハ株式会社 | 音響処理装置 |
CN102592606B (zh) * | 2012-03-23 | 2013-07-31 | 福建师范大学福清分校 | 一种补偿小空间听音声环境的均衡信号处理方法 |
US8886526B2 (en) * | 2012-05-04 | 2014-11-11 | Sony Computer Entertainment Inc. | Source separation using independent component analysis with mixed multi-variate probability density function |
JP6036141B2 (ja) * | 2012-10-11 | 2016-11-30 | ヤマハ株式会社 | 音響処理装置 |
CN103033815B (zh) * | 2012-12-19 | 2014-11-05 | 中国科学院声学研究所 | 基于混响协方差矩阵的距离扩展目标的检测方法和装置 |
WO2014132102A1 (en) | 2013-02-28 | 2014-09-04 | Nokia Corporation | Audio signal analysis |
US9729967B2 (en) * | 2013-03-08 | 2017-08-08 | Board Of Trustees Of Northern Illinois University | Feedback canceling system and method |
CN105122359B (zh) * | 2013-04-10 | 2019-04-23 | 杜比实验室特许公司 | 语音去混响的方法、设备和系统 |
US9997170B2 (en) | 2014-10-07 | 2018-06-12 | Samsung Electronics Co., Ltd. | Electronic device and reverberation removal method therefor |
US9390723B1 (en) * | 2014-12-11 | 2016-07-12 | Amazon Technologies, Inc. | Efficient dereverberation in networked audio systems |
DE102015201073A1 (de) * | 2015-01-22 | 2016-07-28 | Sivantos Pte. Ltd. | Verfahren und Vorrichtung zur Rauschunterdrückung basierend auf Inter-Subband-Korrelation |
CN106339514A (zh) * | 2015-07-06 | 2017-01-18 | 杜比实验室特许公司 | 从活动的音频源估计回响能量成分 |
WO2017007848A1 (en) * | 2015-07-06 | 2017-01-12 | Dolby Laboratories Licensing Corporation | Estimation of reverberant energy component from active audio source |
DE112017006486T5 (de) | 2016-12-23 | 2019-09-12 | Synaptics Incorporated | Online-enthallungsalgorithmus basierend auf gewichtetem vorhersagefehler für lärmbehaftete zeitvariante umgebungen |
WO2018119467A1 (en) * | 2016-12-23 | 2018-06-28 | Synaptics Incorporated | Multiple input multiple output (mimo) audio signal processing for speech de-reverberation |
DE102017200597B4 (de) * | 2017-01-16 | 2020-03-26 | Sivantos Pte. Ltd. | Verfahren zum Betrieb eines Hörsystems und Hörsystem |
CN108533246A (zh) * | 2017-03-02 | 2018-09-14 | 通用电气公司 | 超声探测装置和方法 |
CN106919108B (zh) * | 2017-03-23 | 2019-02-01 | 南京富岛信息工程有限公司 | 一种红外热轴音频通道信号测量方法 |
WO2019026973A1 (ja) * | 2017-08-04 | 2019-02-07 | 日本電信電話株式会社 | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム |
EP3460795A1 (en) | 2017-09-21 | 2019-03-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal processor and method for providing a processed audio signal reducing noise and reverberation |
JP6728250B2 (ja) * | 2018-01-09 | 2020-07-22 | 株式会社東芝 | 音響処理装置、音響処理方法およびプログラム |
US10762914B2 (en) | 2018-03-01 | 2020-09-01 | Google Llc | Adaptive multichannel dereverberation for automatic speech recognition |
JP7167640B2 (ja) * | 2018-11-08 | 2022-11-09 | 日本電信電話株式会社 | 最適化装置、最適化方法、およびプログラム |
JP7351401B2 (ja) * | 2020-02-26 | 2023-09-27 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、およびプログラム |
CN111933170B (zh) * | 2020-07-20 | 2024-03-29 | 歌尔科技有限公司 | 语音信号的处理方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09321860A (ja) * | 1996-03-25 | 1997-12-12 | Nippon Telegr & Teleph Corp <Ntt> | 残響除去方法及び装置 |
JP2004274234A (ja) * | 2003-03-06 | 2004-09-30 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体 |
JP2006243676A (ja) * | 2005-03-07 | 2006-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号分析装置およびその方法、プログラム、記録媒体 |
WO2007130026A1 (en) * | 2006-05-01 | 2007-11-15 | Nippon Telegraph And Telephone Corporation | Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774562A (en) * | 1996-03-25 | 1998-06-30 | Nippon Telegraph And Telephone Corp. | Method and apparatus for dereverberation |
US7035790B2 (en) * | 2000-06-02 | 2006-04-25 | Canon Kabushiki Kaisha | Speech processing system |
-
2009
- 2009-02-27 CN CN200980106824.4A patent/CN102084667B/zh active Active
- 2009-02-27 JP JP2010501968A patent/JP5227393B2/ja active Active
- 2009-02-27 US US12/919,694 patent/US8467538B2/en active Active
- 2009-02-27 WO PCT/JP2009/054231 patent/WO2009110578A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09321860A (ja) * | 1996-03-25 | 1997-12-12 | Nippon Telegr & Teleph Corp <Ntt> | 残響除去方法及び装置 |
JP2004274234A (ja) * | 2003-03-06 | 2004-09-30 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体 |
JP2006243676A (ja) * | 2005-03-07 | 2006-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号分析装置およびその方法、プログラム、記録媒体 |
WO2007130026A1 (en) * | 2006-05-01 | 2007-11-15 | Nippon Telegraph And Telephone Corporation | Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10152986B2 (en) | 2017-02-14 | 2018-12-11 | Kabushiki Kaisha Toshiba | Acoustic processing apparatus, acoustic processing method, and computer program product |
JPWO2020121590A1 (ja) * | 2018-12-14 | 2021-10-14 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、およびプログラム |
JP7115562B2 (ja) | 2018-12-14 | 2022-08-09 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、およびプログラム |
US11894010B2 (en) | 2018-12-14 | 2024-02-06 | Nippon Telegraph And Telephone Corporation | Signal processing apparatus, signal processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
US8467538B2 (en) | 2013-06-18 |
CN102084667A (zh) | 2011-06-01 |
CN102084667B (zh) | 2014-01-29 |
JPWO2009110578A1 (ja) | 2011-07-14 |
WO2009110578A1 (ja) | 2009-09-11 |
US20110002473A1 (en) | 2011-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5227393B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体 | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
Nakatani et al. | Blind speech dereverberation with multi-channel linear prediction based on short time Fourier transform representation | |
JP4195267B2 (ja) | 音声認識装置、その音声認識方法及びプログラム | |
KR100549133B1 (ko) | 노이즈 감소 방법 및 장치 | |
EP2877993B1 (en) | Method and device for reconstructing a target signal from a noisy input signal | |
CN108429995B (zh) | 音响处理装置、音响处理方法以及存储介质 | |
WO2020121590A1 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
JP4977062B2 (ja) | 残響除去装置とその方法と、そのプログラムと記録媒体 | |
US9129608B2 (en) | Temporal interpolation of adjacent spectra | |
KR102410850B1 (ko) | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 | |
CN110998723A (zh) | 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序 | |
JP4348393B2 (ja) | 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
JP2016143042A (ja) | 雑音除去装置及び雑音除去プログラム | |
JP2010049083A (ja) | 音響信号強調装置とその方法と、プログラムと記録媒体 | |
Rombouts et al. | QRD-based unconstrained optimal filtering for acoustic noise reduction | |
JP4977100B2 (ja) | 残響除去装置、残響除去方法、そのプログラムおよび記録媒体 | |
CN109243476B (zh) | 混响语音信号中后混响功率谱的自适应估计方法及装置 | |
JP5129794B2 (ja) | 目的信号強調装置とその方法と、プログラム | |
US11790929B2 (en) | WPE-based dereverberation apparatus using virtual acoustic channel expansion based on deep neural network | |
JP7348812B2 (ja) | 雑音抑制装置、雑音抑制方法及び音声入力機器 | |
JP6827908B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JP4514153B2 (ja) | 音響装置 | |
KR100863184B1 (ko) | 간섭 및 반향신호 제거를 위한 다단계 암묵 디콘볼루션방법 | |
Yoshioka et al. | Statistical models for speech dereverberation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110908 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121211 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130315 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5227393 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |