JP5172797B2 - 残響抑圧装置とその方法と、プログラムと記録媒体 - Google Patents

残響抑圧装置とその方法と、プログラムと記録媒体 Download PDF

Info

Publication number
JP5172797B2
JP5172797B2 JP2009189879A JP2009189879A JP5172797B2 JP 5172797 B2 JP5172797 B2 JP 5172797B2 JP 2009189879 A JP2009189879 A JP 2009189879A JP 2009189879 A JP2009189879 A JP 2009189879A JP 5172797 B2 JP5172797 B2 JP 5172797B2
Authority
JP
Japan
Prior art keywords
narrowband
signal
dereverberation
power
anechoic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009189879A
Other languages
English (en)
Other versions
JP2011043547A (ja
Inventor
拓也 吉岡
弘和 亀岡
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009189879A priority Critical patent/JP5172797B2/ja
Publication of JP2011043547A publication Critical patent/JP2011043547A/ja
Application granted granted Critical
Publication of JP5172797B2 publication Critical patent/JP5172797B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、マイクロホン或いはマイクロホンアレイで観測した残響を含む音声から、残響成分を抑圧する残響抑圧装置とその方法と、プログラムと記録媒体に関する。
一般的に、残響抑圧装置は、それ単体、若しくはマルチオーディオ、デジタル補聴器、テレビ会議システム、自動音声認識システム等の一部として用いられる。従来の残響抑圧装置800を、図10を参照して説明する。残響抑圧装置800は、図示しないM個のマイクロホンに対応する数のフィルタバンク分析部801〜80Mと、周波数帯域の数L個に対応する数の主処理部810〜81L-1と、フィルタバンク合成部82と、を備える。図10においては、主処理部810のみ、内部の機能構成を示している。
M個のマイクロホンで観測された音声信号(以降、広帯域観測信号と称する)y1(n),…,y(n)が、それぞれのマイクロホンに対応するフィルタバンク分析部801〜80Mに入力される。m番目のマイクロホンに対応するフィルタバンク分析部80mは、広帯域観測信号ym(n)を、狭帯域毎の間引かれた狭帯域観測信号ym t,kに分割して出力する。ここで、tは間引き後の時間インデックス、kは周波数帯域のインデックスであり、それぞれ0≦t≦N−1、0≦k≦L−1である。
帯域分割数L個だけ、主処理部810〜81L-1が設けられる。k番目の周波数帯域に対応する主処理部81kには、当該狭帯域における全てのマイクロホンによる観測信号y1 t,k,…,yM t,k、及びステアリングベクトルhkが入力され、当該狭帯域における残響が抑圧された信号(以後、狭帯域残響抑圧信号と称する)st,kを出力する。かくして、810〜81L-1から、それぞれ狭帯域残響抑圧信号st,0,…,st,L-1が出力される。フィルタバンク合成部82は、狭帯域残響抑圧信号st,0〜st,L-1を合成して広帯域残響抑圧信号s(n)を出力する。
主処理部810〜81L-1を構成する方法には、大別して、例えば非特許文献1に開示された室内伝達系の逆フィルタに基づく方法と、非特許文献2に開示されたスペクトル減算や利得制御フィルタ(WienerフィルタやEphraim-Malahフィルタ等)に基づく方法がある。この発明は、話者の移動などに伴う室内伝達系の変化に頑健であるという特長を持つ後者の方法に属する。
図11に、非特許文献2に記載されたk番目の周波数帯域に対応する主処理部81kの機能構成を示す。主処理部81kは、固定ビームフォーマ811k、残響時間駆動型予測利得算出器812k、スペクトル減算器813k、を備える。
ステアリングベクトルhkは、図示しない話者方向推定器によって推定された話者方向、あるいは予め入力された話者方向に基づいて式(1)に従って計算される。
ここで、jは虚数単位、Tは非共役転置、τmは信号が話者位置からm番目のマイクロホン位置に伝播するのに要する遅延である。非特許文献2では、話者はマイクロホンの正面に居ると仮定して、ステアリングベクトルhkは周波数帯域のインデックスkに依存しないでhk=[1,…,1]に固定されている。話者方向推定器には公知の技術を用いることができる。
固定ビームフォーマ811kは、ステアリングベクトルhkと狭帯域観測信号y1 t, k,…,yM t, kを入力として、ステアリングベクトルhkが示す方向から到来する信号成分が強調された狭帯域ビームフォーマ出力信号xt,kを計算する。なお、単一マイクロホンの場合(M=1)は、固定ビームフォーマ811kは省略する。
残響時間駆動型予測利得算出器812kは、狭帯域観測信号y1 t, k,…,yM t, kと、部屋の残響時間Tを入力として、式(2)に示す残響成分の予測利得gkを計算する。
ここで、Tは狭帯域信号の標本化周期、Dは予め与えられる定数である。
スペクトル減算器813kは、予測利得gkと、ステアリングベクトルhkを用いて時刻tにおける狭帯域ビームフォーマ出力信号xt,kに含まれる残響成分のパワースペクトルvt,kを式(3)で計算する。そして、狭帯域ビームフォーマ出力信号xt,kに含まれる残響成分を抑圧した狭帯域残響抑圧信号st,kを式(4)で計算して出力する。
ただし、yt,k=[y1 t,k,…,yM t,k]T、右肩添え字Hは共役転置、GMINは予め与えられたフロアリング係数であり0.001程度に設定される。式(3)は、時刻tにおける狭帯域ビームフォーマ出力信号xt,kに含まれる残響成分のパワーvt,kが、D時刻過去の狭帯域観測信号yt-D,kに対して、予測利得gkを乗じて求められることを意味する。
この明細書では以後、狭帯域観測信号y1 t,k,…,yM t,kと、そのベクトルyt,kを共に単に狭帯域観測信号と呼んで区別しない。
T.Nakatani, T.Yoshioka,K.Kinoshita,M.Miyoshi,and B-H.Juang,"Blind speech dereverberation with multichannel linear prediction based on short time fourier transform representation,"in Proc.Int’l Conf.Acoust.,Speech,Signal Process.,2008,pp.85-88. E.A.P.Habets,"Multi-channel speech dereverberation based on a statistical model of late reverberation,"on Proc.Int’l Conf.Acoust.,Speech,Signal Process.,vol.IV,2005,pp.173-176.
従来技術では、式(2)に示すように、残響成分の予測利得gkを計算するのに残響時間Tを必要とした。つまり、部屋の残響時間Tが分からないと残響を抑圧することが出来なかった。また、残響時間Tの測定値が無い場合は、広帯域観測信号或いは狭帯域観測信号から残響時間Tを求めることになるが、精度の良い推定は困難である。
この発明は、このような問題点に鑑みてなされたものであり、残響時間T無しで予測利得gkを求め、残響を抑圧する残響抑圧装置とその方法と、プログラムと記録媒体を提供することを目的とする。
この発明の残響抑圧装置は、マイクロホンによって観測された広帯域音声信号を狭帯域観測信号に分割して出力するフィルタバンク分析部と、上記狭帯域観測信号とステアリングベクトルを入力としてその狭帯域観測信号に含まれる残響成分を抑圧した狭帯域残響抑圧信号を出力する主処理部と、上記狭帯域残響抑圧信号を広帯域信号に合成して広帯域残響抑圧信号を出力するフィルタバンク合成部とから成る。
その主処理部は、出力信号駆動型予測利得算出器と、利得制御フィルタと、音声パワースペクトル推定器と、切り替え器と、を具備する。出力信号駆動型予測利得算出器は、狭帯域観測信号と、ステアリングベクトルと、狭帯域残響抑圧信号とその誤差分散とを入力とし、最尤推定値として残響成分の予測利得を計算する。利得制御フィルタは、予測利得と、ステアリングベクトルと、狭帯域無響音声信号のパワーの推定値と、狭帯域ビームフォーマ出力信号を入力として狭帯域ビームフォーマ出力信号に含まれる残響成分を抑圧した狭帯域残響抑圧信号と誤差分散とを出力する。
音声パワースペクトル推定器は、狭帯域無響音声信号のパワーに関する事前分布と、入力される狭帯域残響抑圧信号とその誤差分散とから、最大事後確率推定によって、狭帯域無響音声信号のパワーの推定値を計算する。切り替え器は、狭帯域残響抑圧信号と誤差分散とを入力として、その入力回数が予め定めた所定の回数(以降、所定回数と称する)に達していなければ当該狭帯域残響抑圧信号と誤差分散とを出力信号駆動型予測利得算出器と音声パワースペクトル推定器に出力し、その入力回数が所定回数に達すれば上記狭帯域残響抑圧信号をフィルタバンク合成部に出力する。
この発明の残響抑圧装置によれば、音声パワースペクトル推定器において、狭帯域残響抑圧信号とその誤差分散と、狭帯域無響音声信号のパワーに関する事前分布とを用いて、狭帯域無響音声信号のパワーの推定値を最大事後確率推定によって計算する。この最大事後確率推定は、切り替え器への狭帯域残響抑圧信号と誤差分散の入力回数が所定回数に達するまで繰り返されるが、その繰り返し動作で計算される狭帯域残響抑圧信号は、繰り返しの度に、無響音声らしくなる。言い換えれば、残響がより抑圧された狭帯域信号になる。予測利得もまた、繰り返しの度に、最尤推定によってこの狭帯域残響抑圧信号に適合するように更新される。このようにして、この発明の残響抑圧装置は、残響時間を用いること無く、予測利得の計算と残響の抑圧を可能にする。
ある無響音声のパワースペクトログラムを示す図。 図1の無響音声のパワーの大きさに関するヒストグラムを示す図。 一般化逆ガンマ分布の確率密度関数を示す図。 この発明の残響抑圧装置100の機能構成例を示す図 主処理部110kの機能構成例を示す図。 主処理部110kの動作フローを示す図。 主処理部210kの機能構成例を示す図。 主処理部210kの動作フローを示す図。 実験結果を示す図。 従来の残響抑圧装置800の機能構成を示す図。 残響抑圧装置800の主処理部81kの機能構成を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。また、以下の説明において、テキスト中で使用する記号「〜」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。
実施例の説明の前にこの発明の考えについて説明する。
〔この発明の考え〕
この発明は、狭帯域無響音声信号のパワーの分布の仕方に着目することで、残響時間情報TRを用いること無く残響を抑圧するようにしたものである。
狭帯域無響音声信号のパワーは、時間周波数平面上に疎に分布することが知られている。このことを例示するために、図1に、男性の口元にマイクロホンを配置させ、ある音素バランス文を発話させた狭帯域無響音声信号のパワーを、時間周波数平面上に示す(これは、無響音声のパワースペクトログラムと呼ばれるものである)。横軸は時間(秒)、縦軸は周波数(kHz)である。図中の白い部分がパワーの大きい時間周波数点を表し、背景も含めて黒い部分がパワーの小さな時間周波数点を表している。
図1では、黒い領域に示されたパワーが小さな時間周波数領域が大部分を占め、パワーの大きな白い領域は部分的である。このことを確認するために、図1の狭帯域無響音声信号のパワーの大きさに関するヒストグラムを、図2に示す。図2の横軸は正規化したパワー、縦軸は正規化した出現頻度である。小さなパワーの出現頻度が著しく高く、パワーの増加に伴って出現頻度が低下する特性を示す。このことは、狭帯域無響音声信号のパワーが、ほとんどの時間周波数領域で0に近い値を持つ、すなわち疎に分布することを意味している。
このヒストグラムの形状は、例えば一般化逆ガンマ分布及びその特殊形である逆ガンマ分布の確率密度関数の形状に非常に類似している。図3に、一般化逆ガンマ分布の確率密度関数を示す。確率変数値をパワーの大きさに、確率密度関数値を出現頻度に対応させてみると、狭帯域無響音声信号のパワーの分布が、一般化逆ガンマ分布を用いて良く表現されることが読み取れる。
そこで、この発明の残響抑圧装置は、狭帯域残響抑圧信号の音声パワーの分布が、既知の狭帯域無響音声信号のパワーの分布に近づくように残響抑圧動作を繰り返すことで、残響を抑圧するようにしたものである。よって、この考えによれば、残響時間情報TRを用いること無く残響を抑圧することが出来る。
図4にこの発明の残響抑圧装置100の機能構成例を示す。残響抑圧装置100は、M個のマイクロホンによって観測された広帯域観測信号を狭帯域の観測信号に分割して出力するフィルタバンク分析部801〜80M と、狭帯域観測信号とステアリングベクトルを入力として残響抑圧信号の推定値を生成する主処理部1100〜110L-1と、残響抑圧信号の推定値を広帯域信号に合成して出力するフィルタバンク合成部82とから成る残響抑圧装置である。基本的な構成は、従来技術で説明した残響抑圧装置800と同じであり、主処理部1100〜110L-1の機能構成のみが異なる。図4では、主処理部1100のみの内部の機能構成例を図示している。残響抑圧装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
残響抑圧装置100のk番目の周波数帯域に対応する主処理部110kは、固定ビームフォーマ811kと、出力信号駆動型予測利得算出器111kと、利得制御フィルタ112kと、切り替え器113kと、音声パワースペクトル推定器114kとを具備する。参照符号から明らかなように、固定ビームフォーマ811kは、従来の残響抑圧装置800と同じものである。固定ビームフォーマ811kはマイクロホンが1個の場合(M=1の場合)は省略されるため、図4においては破線で示している。
固定ビームフォーマ811kは、狭帯域観測信号y1 t,k,…,yM t,kとステアリングベクトルhkを入力として音声信号の到来方向の信号成分が強調された狭帯域ビームフォーマ出力信号xt,kを出力する。固定ビームフォーマ811には、遅延和ビームフォーマや超指向性ビームフォーマなど公知のビームフォーマ技術を用いることができる。この実施例では、遅延和ビームフォーマを用いることを想定している。超指向性ビームフォーマを用いた例は実施例2に示す。
出力信号駆動型予測利得算出器111は、ステアリングベクトルhと、狭帯域残響抑圧信号st,kとその誤差分散rt,kとを入力とし、最尤推定値として残響成分の予測利得gを計算する。利得制御フィルタ112は、予測利得gと、ステアリングベクトルhと、狭帯域無響音声信号のパワーの推定値と、狭帯域ビームフォーマ出力信号xt,kとを入力として狭帯域ビームフォーマ出力信号xt,kに含まれる残響成分を抑圧した狭帯域残響抑圧信号st,kとその誤差分散rt,kとを出力する。
音声パワースペクトル推定器114は、狭帯域無響音声信号のパワーの事前分布と、入力される狭帯域残響抑圧信号st,kとその誤差分散rt,kとから最大事後確率推定値として狭帯域無響音声信号のパワーbt,kを計算する。切り替え器113は、狭帯域残響抑圧信号st,kとその誤差分散rt,kとを入力として、その入力回数が所定回数に達していなければ当該狭帯域残響抑圧信号st,kと誤差分散rt,kとを、出力駆動型予測利得算出器111と音声パワースペクトル推定器114に出力し、その入力回数が所定数に達すれば入力された狭帯域残響抑圧信号st,kをフィルタバンク合成部82に出力する。
以上述べたように、残響抑圧装置100の音声パワースペクトル推定器114は、利得制御フィルタ112で残響成分が抑圧される狭帯域残響抑圧信号st,kとその誤差分散rt,kとから、狭帯域無響音声信号のパワーの事前分布を用いて、所定回数に達するまで繰り返し狭帯域無響音声信号のパワーの推定値bt,kを更新する。同時にこの繰り返し動作の中で、予測利得gも、狭帯域残響抑圧信号st,kに適合するように最尤推定されるため、st,kがより無響音声らしくなるように更新される。このように動作することで、残響抑圧装置100は、残響時間TRを用いることなく、予測利得gを計算し、狭帯域観測信号yt,kに含まれる残響成分を抑圧することが出来る。
図5に、この実施例1の主要部である主処理部110kの機能構成例を示してその動作を更に詳しく説明する。図6にその動作フローを示す。主処理部110kは、出力信号駆動型予測利得算出器111kと、利得制御フィルタ112kと、切り替え器113kと、音声パワースペクトル推定器114kを備える。
出力信号駆動型予測利得算出器111kは、狭帯域残響抑圧信号st,k、その誤差分散rt,k、ステアリングベクトルhk、狭帯域観測信号yt,kが入力されると、予測誤差gkを最尤推定によって求める(ステップS111)。固定ビームフォーマ811kが、遅延和ビームフォーマである場合、予測利得gkは式(6)で計算される。
利得制御フィルタ112kは、出力信号駆動型予測利得算出器111kから供給される予測利得gkと、ステアリングベクトルhkと、狭帯域観測信号ベクトルyt-D,kとを用いて、時刻tにおける狭帯域ビームフォーマ出力信号xt,kに含まれる残響成分のパワーvt,kを上記した式(3)で計算する。そして、このパワーvt,kと、音声パワースペクトル推定器114kから供給される狭帯域無響音声信号のパワーの推定値bt,kとに基づいて公知の利得制御技術であるWienerフィルタやEphraim-Malahフィルタ等を用いて、狭帯域ビームフォーマ出力信号xt,k中の残響成分を抑圧した狭帯域残響抑圧信号st,kとその誤差分散rt,kとを計算する(ステップS112)。
利得制御フィルタ112kが用いる利得をGt,kと置くと、狭帯域残響抑圧信号st,kは式(7)、誤差分散rt,kは式(8)で計算できる。
利得Gt,kは、例えばWienerフィルタの場合は式(9)に示すように定義される。
切り替え器113kは、内部カウンタ113akを備え、その計数値は利得制御フィルタ112kが出力する狭帯域残響抑圧信号st,kと誤差分散rt,kとが入力される度にカウントアップする。切り替え器113kは、その計数値が所定回数に達していなければ入力される狭帯域残響抑圧信号st,kと誤差分散rt,kとを、出力信号駆動型予測利得算出器111kと音声パワースペクトル推定器114kに出力する(ステップS113のNO)。そして、所定回数に達すれば狭帯域残響抑圧信号st,kをフィルタバンク合成部82(図1)に出力する(ステップS113のYES)。
音声パワースペクトル推定器114kは、狭帯域残響抑圧信号st,kと誤差分散rt,kとが入力されると、狭帯域無響音声信号のパワーの事前分布を用いて、狭帯域無響音声信号のパワーの推定値bt,kを最大事後確率推定によって求める。この実施例では、狭帯域無響音声信号のパワーの事前分布として逆ガンマ分布を用いる。この場合、狭帯域無響音声信号のパワーの推定値bt,kは式(10)で計算される。
ここで、θは逆ガンマ分布の尺度パラメータ、κはその形状パラメータであり、これらの値は音声の一般的な性質のみに基づき、部屋の残響時間とは無関係に決定できるものである。
以上のように各機能が動作することで、出力信号駆動型予測利得算出器111kと音声パワースペクトル推定器114kは、繰り返し動作することになる。つまり、切り替え器113kに狭帯域残響抑圧信号st,kと誤差分散rt,kとが入力される回数が所定回数に達するまでは、各繰り返しにおいて式(6)で更新された予測利得gkと、式(10)で更新された狭帯域無響音声信号のパワーの推定値bt,kとによって、利得制御フィルタ112kが狭帯域ビームフォーマ出力信号xt,k中の残響成分を抑圧する動作を繰り返す。この繰り返し動作によって、残響時間TRを用いることなく狭帯域観測信号yt,kに含まれる残響成分を抑圧することが可能になる。
図7に、狭帯域無響音声信号のパワーの事前分布として一般化逆ガンマ分布を用いた主処理部210kの機能構成例を示す。なお、主処理部210kは、固定ビームフォーマを超指向性ビームフォーマ211kで構成した例である。図8にその動作フローを示す。
超指向性ビームフォーマ211kは、ステアリングベクトルhkと狭帯域観測信号ベクトルyt,kを入力として式(11)によって狭帯域ビームフォーマ出力信号xt,kを計算する(ステップS211)。
ここで、Γkは事前に与えられるコヒーレンス行列である。第k周波数帯域のコヒーレンス行列Γkは式(12)と(13)に示すように定められる。
ここで、dm1,m2はマイクロホンm1とm2の間の距離、cは音速、fkは第k周波数帯域の中心周波数である。この超指向性ビームフォーマ211kによれば、上記した遅延和ビームフォーマよりもビーム幅をより狭くすることができるので、雑音が存在する場合により頑健に残響抑圧装置を動作させることが可能である。
出力信号駆動型予測利得算出器212kは、狭帯域残響抑圧信号st,k、その誤差分散rt,k、ステアリングベクトルhk、狭帯域観測信号yt,kが入力されると、予測利得gkを最尤推定によって求める(ステップS212)。この実施例では、固定ビームフォーマとして超指向性ビームフォーマを用いるが、この場合、予測利得gkは式(14)で計算される。
この実施例では、音声パワースペクトル推定器213kは、狭帯域無響音声信号のパワーの事前分布を一般化逆ガンマ分布とし、狭帯域残響抑圧信号st,kとその誤差分散rt,kを入力として、狭帯域無響音声信号のパワーの推定値bt,kを式(15)で計算する(ステップS213)。
ここで、bt,k は音声パワースペクトル推定器213k内に記録された繰り返し動作の一回前の狭帯域無響音声信号のパワーの推定値である。κは一般化逆ガンマ分布の第一形状パラメータ、ρは第二形状パラメータ、θはその尺度パラメータである。
〔実験結果〕
この発明による実施形態2の残響抑圧方法を組み込んだ残響抑圧装置を用いて、この発明の効果を確認する実験を行った。残響抑圧装置100は、プログラムで実現し、コンピュータ上で実行させた。
その実験条件を説明する。この確認実験では、単一のマイクロホンを用いた(M=1)、306名(男性153名、女性153名)の話者による発話を用いた。それぞれの話者につき5種類の発話を用いたので、総発話数は1830個である。これら5種類の発話は、発話長が1秒〜5秒まで1秒おきに異なる。
各発話の広帯域信号に対して残響時間が約0.5秒の部屋で収録したインパルス応答を畳み込むことで、残響を含む広帯域観測信号を模擬的に作成した。広帯域信号の標本化周波数は16kHzで、処理対象の音声の帯域は50Hz〜7kHzとした。帯域分割数L=256、定数D=8、フロアリング係数GMIN=0、狭帯域信号の標本化周期Ts=8msec、一般化ガンマ分布の尺度パラメータθ=2、同分布の形状パラメータκ=1.5+ρ/θρ, ρ=0.05とした。
図9に実験結果を示す。横軸は発話長(秒)、縦軸は、広帯域残響抑圧信号s(n)と広帯域無響音声信号との間のケプストラム距離を表す。破線が残響抑圧処理前のケプストラム距離、実線がこの発明の残響抑圧処理方法による残響抑圧後のケプストラム距離である。
ケプストラム距離と聴感上の残響感には正の相関があることが知られている。よって、ケプストラム距離が小さい程、残響がよく抑圧されていることを示唆する。図9は、残響時間Tを用いないこの発明の残響抑圧装置でも残響抑圧が可能であることを示している。
以上述べたように、この発明の残響抑圧装置は、残響時間Tの情報が無くても残響の抑圧を可能にする。なお、狭帯域無響音声信号のパワーの事前分布として、逆ガンマ分布と一般化逆ガンマ分布を用いる実施例を説明したが、これらの分布に限らず、例えば混合ガウス分布なども事前分布として用いることができる。
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. マイクロホンによって観測された広帯域音声信号を狭帯域観測信号に分割して出力するフィルタバンク分析部と、上記狭帯域観測信号とステアリングベクトルを入力としてその狭帯域観測信号に含まれる残響成分を抑圧した狭帯域残響抑圧信号を出力する主処理部と、上記狭帯域残響抑圧信号を広帯域信号に合成して広帯域残響抑圧信号を出力するフィルタバンク合成部とから成る残響抑圧装置であって、
    上記主処理部は、
    上記狭帯域観測信号と、上記ステアリングベクトルと、狭帯域残響抑圧信号とその誤差分散と、を入力とし残響成分の予測利得を最尤推定により計算する出力信号駆動型予測利得算出器と、
    上記予測利得と、上記ステアリングベクトルと、狭帯域ビームフォーマ出力信号と、上記狭帯域観測信号と、狭帯域無響音声信号のパワーの推定値とを入力として、上記狭帯域ビームフォーマ出力信号に含まれる残響成分を抑圧した上記狭帯域残響抑圧信号と上記誤差分散とを出力する利得制御フィルタと、
    上記狭帯域残響抑圧信号とその誤差分散とを入力として、狭帯域無響音声信号のパワーの事前分布を用いて、上記狭帯域無響音声信号のパワーの推定値を最大事後確率推定により計算する音声パワースペクトル推定器と、
    上記狭帯域残響抑圧信号と上記誤差分散とを入力として、その入力回数が所定回数に達していなければ当該狭帯域残響抑圧信号と誤差分散とを上記出力信号駆動型予測利得算出器と上記音声パワースペクトル推定器に出力し、その入力回数が所定回数に達すれば入力された狭帯域残響抑圧信号を上記フィルタバンク合成部に出力する切り替え器と、
    を具備する残響抑圧装置。
  2. 請求項1に記載の残響抑圧装置において、
    上記音声パワースペクトル推定器は、
    上記狭帯域無響音声信号のパワーの事前分布として逆ガンマ分布を用い、
    上記狭帯域無響音声信号のパワーの推定値を、
    上記狭帯域残響抑圧信号の絶対値の自乗に、上記誤差分散と上記逆ガンマ分布の尺度パラメータの逆数を加算し、その加算した値を、上記逆ガンマ分布の形状パラメータで除算した値として計算するものであることを特徴とする残響抑圧装置。
  3. 請求項1に記載の残響抑圧装置において、
    上記音声パワースペクトル推定器は、
    上記狭帯域無響音声信号のパワーの事前分布として一般化逆ガンマ分布を用い、
    狭帯域無響音声信号のパワーの推定値を、上記狭帯域残響抑圧信号と、その誤差分散と、上記一般化逆ガンマ分布の2種類の形状パラメータと尺度パラメータθを用いて計算するものであることを特徴とする残響抑圧装置。
  4. マイクロホンによって観測された広帯域音声信号を狭帯域観測信号に分割して出力するフィルタバンク分析過程と、上記狭帯域観測信号とステアリングベクトルを入力としてその狭帯域観測信号に含まれる残響成分を抑圧した狭帯域残響抑圧信号を出力する主処理過程と、上記狭帯域残響抑圧信号を広帯域信号に合成して広帯域残響抑圧信号を出力するフィルタバンク合成過程とを備える残響抑圧方法であって、
    上記主処理過程は、
    出力信号駆動型予測利得算出器が、上記狭帯域観測信号と、上記ステアリングベクトルと、狭帯域残響抑圧信号とその誤差分散と、を入力とし残響成分の予測利得を最尤推定により計算する出力信号駆動型予測利得算出ステップと、
    利得制御フィルタが、上記予測利得と、上記ステアリングベクトルと、狭帯域ビームフォーマ出力信号と、上記狭帯域観測信号と、狭帯域無響音声信号のパワーの推定値とを入力として、上記狭帯域ビームフォーマ出力信号に含まれる残響成分を抑圧した上記狭帯域残響抑圧信号と上記誤差分散とを出力する利得制御フィルタリングステップと、
    音声パワースペクトル推定器が、上記狭帯域残響抑圧信号とその誤差分散とを入力として、狭帯域無響音声信号のパワーの事前分布を用いて、上記狭帯域無響音声信号のパワーの推定値を最大事後確率推定により計算する音声パワースペクトル推定ステップと、
    切り替え器が、上記狭帯域残響抑圧信号と上記誤差分散とを入力として、その入力回数が所定回数に達していなければ当該狭帯域残響抑圧信号と誤差分散とを上記出力信号駆動型予測利得算出器と上記音声パワースペクトル推定器に出力し、その入力回数が所定回数に達すれば入力された狭帯域残響抑圧信号を上記フィルタバンク合成過程に出力する切り替えステップと、
    を含む残響抑圧方法。
  5. 請求項4に記載の残響抑圧方法において、
    上記音声パワースペクトル推定ステップは、
    上記狭帯域無響音声信号のパワーの事前分布として逆ガンマ分布を用い、
    上記狭帯域無響音声信号のパワーの推定値を、
    上記狭帯域残響抑圧信号の絶対値の自乗に、上記誤差分散と上記逆ガンマ分布の尺度パラメータの逆数を加算し、その加算した値を、上記逆ガンマ分布の形状パラメータで除算した値として計算するものであることを特徴とする残響抑圧方法。
  6. 請求項4に記載の残響抑圧方法において、
    上記音声パワースペクトル推定ステップは、
    上記狭帯域無響音声信号のパワーの事前分布として一般化逆ガンマ分布を用い、
    上記狭帯域無響音声信号のパワーの推定値を、上記狭帯域残響抑圧信号と、その誤差分散と、上記一般化逆ガンマ分布の2種類の形状パラメータと尺度パラメータθを用いて計算するものであることを特徴とする残響抑圧方法。
  7. 請求項1乃至3の何れかに記載した残響抑圧装置としてコンピュータを機能させるためのプログラム。
  8. 請求項7に記載した何れかのプログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2009189879A 2009-08-19 2009-08-19 残響抑圧装置とその方法と、プログラムと記録媒体 Active JP5172797B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009189879A JP5172797B2 (ja) 2009-08-19 2009-08-19 残響抑圧装置とその方法と、プログラムと記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009189879A JP5172797B2 (ja) 2009-08-19 2009-08-19 残響抑圧装置とその方法と、プログラムと記録媒体

Publications (2)

Publication Number Publication Date
JP2011043547A JP2011043547A (ja) 2011-03-03
JP5172797B2 true JP5172797B2 (ja) 2013-03-27

Family

ID=43831042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009189879A Active JP5172797B2 (ja) 2009-08-19 2009-08-19 残響抑圧装置とその方法と、プログラムと記録媒体

Country Status (1)

Country Link
JP (1) JP5172797B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6677662B2 (ja) 2017-02-14 2020-04-08 株式会社東芝 音響処理装置、音響処理方法およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6954745B2 (en) * 2000-06-02 2005-10-11 Canon Kabushiki Kaisha Signal processing system
JP4910568B2 (ja) * 2006-08-25 2012-04-04 株式会社日立製作所 紙擦れ音除去装置
WO2009110574A1 (ja) * 2008-03-06 2009-09-11 日本電信電話株式会社 信号強調装置、その方法、プログラム及び記録媒体
JP5129794B2 (ja) * 2009-08-11 2013-01-30 日本電信電話株式会社 目的信号強調装置とその方法と、プログラム

Also Published As

Publication number Publication date
JP2011043547A (ja) 2011-03-03

Similar Documents

Publication Publication Date Title
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
JP6480644B1 (ja) マルチチャネル音声認識のための適応的オーディオ強化
EP1993320B1 (en) Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium
Kuklasiński et al. Maximum likelihood PSD estimation for speech enhancement in reverberation and noise
JP6279181B2 (ja) 音響信号強調装置
JP6169910B2 (ja) 音声処理装置
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
Xiao et al. The NTU-ADSC systems for reverberation challenge 2014
JPWO2020121590A1 (ja) 信号処理装置、信号処理方法、およびプログラム
Hendriks et al. Optimal near-end speech intelligibility improvement incorporating additive noise and late reverberation under an approximation of the short-time SII
Sadjadi et al. Blind spectral weighting for robust speaker identification under reverberation mismatch
JP5645419B2 (ja) 残響除去装置
EP4260315B1 (en) Method and system for dereverberation of speech signals
Chetupalli et al. Late reverberation cancellation using bayesian estimation of multi-channel linear predictors and student's t-source prior
KR20220022286A (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
JPWO2007094463A1 (ja) 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体
JP5172797B2 (ja) 残響抑圧装置とその方法と、プログラムと記録媒体
JP5129794B2 (ja) 目的信号強調装置とその方法と、プログラム
Chhetri et al. Speech Enhancement: A Survey of Approaches and Applications
JP7426686B2 (ja) 音声認識性能の予測システム、学習モデルの構築方法、及び、音声認識性能の予測方法
Ji et al. Coherence-Based Dual-Channel Noise Reduction Algorithm in a Complex Noisy Environment.
Haeb‐Umbach et al. Reverberant speech recognition
Kavalekalam et al. Model based binaural enhancement of voiced and unvoiced speech
Prasad et al. Two microphone technique to improve the speech intelligibility under noisy environment
US20230306980A1 (en) Method and System for Audio Signal Enhancement with Reduced Latency

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110721

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110825

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121226

R150 Certificate of patent or registration of utility model

Ref document number: 5172797

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350