JP2022160311A - 雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム、及び収音方法 - Google Patents
雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム、及び収音方法 Download PDFInfo
- Publication number
- JP2022160311A JP2022160311A JP2021064978A JP2021064978A JP2022160311A JP 2022160311 A JP2022160311 A JP 2022160311A JP 2021064978 A JP2021064978 A JP 2021064978A JP 2021064978 A JP2021064978 A JP 2021064978A JP 2022160311 A JP2022160311 A JP 2022160311A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- input
- power
- probability
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 76
- 238000004364 calculation method Methods 0.000 claims abstract description 77
- 230000008859 change Effects 0.000 claims abstract description 12
- 239000000872 buffer Substances 0.000 claims description 102
- 230000006870 function Effects 0.000 claims description 56
- 230000007704 transition Effects 0.000 claims description 37
- 238000012935 Averaging Methods 0.000 claims description 36
- 239000000284 extract Substances 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 12
- 238000003672 processing method Methods 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 12
- 230000001629 suppression Effects 0.000 description 12
- 230000015654 memory Effects 0.000 description 7
- 230000007774 longterm Effects 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
【課題】 推定パラメータの調整なしに、入力音声の急な変化に左右されずに雑音パワーを推定する。【解決手段】 本発明は、入力信号中に含まれる雑音成分を推定する雑音推定装置に関する。入力パワーの定常確率を算出する定常確率算出手段と、推定雑音パワー若しくは推定雑音パワーに基づく値と、平均入力パワーとの比が所定の定常判定範囲に収まるかを判定した環境移行判定結果を算出し、定常確率算出手段は、環境が移行したと判定した時には定常確率を所定の値とし、環境は移行していないと判定した時には入力パワーを過去の推定雑音パワーで除した事後SNRに基づき定常確率を算出する定常確率算出関数によって定常確率を算出することを特徴とする。【選択図】 図1
Description
本発明は、雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム、及び収音方法に関し、例えば、入力信号に含まれる雑音成分の推定結果を用いて、入力信号に重畳された雑音成分を抑圧する方法に適用し得る。
自然環境において雑音はいたる所に存在するため、一般に実世界で観測される音声は種々の発信元からの雑音を含む。雑音を含んで観測された入力信号から音声だけを強調させるために、様々な雑音抑圧方法が開発されている。これらのうちのほとんどは、抑圧すべき雑音を推定する方法と、雑音を抑圧するフィルタを計算する方法とを有する。従来の入力信号から雑音を抑圧する音声処理装置では、周波数領域で雑音のパワーを推定するものがある。
従来、最も単純な雑音推定方法の例として、入力スペクトルを音声が存在しない区間で平均する方法がある。しかし、このような従来の雑音推定方法は、事前に音声が存在しない区間を推定しなければならない。そのため、音声が存在する区間を推定する音声区間検出(Voice Activity Detection:VAD)という技術も盛んに開発されているが、完全なVADは未だ達成されていない。雑音推定処理において、音声区間の推定を誤ると、推定雑音が目的音声を含んでしまうため、強調音声や残留雑音を歪ませるという問題が生じる。また、上述のような雑音推定方法では、雑音区間でしか雑音を推定しないため、長い音声区間があると雑音の変化に追従できないという欠点もある。
このような背景から、音声区間でも雑音の推定を継続する雑音推定方法として、従来、非特許文献1、非特許文献2、及び特許文献1の記載技術がある。いずれの文献も雑音抑圧方法(音声強調方法とも言う)に関する。
非特許文献1に記載の従来の雑音推定方法は、入力パワーの時間方向のピークが目的音声の存在を表す一方で、谷が平滑化した雑音パワーの推定に使えるという発見に基づいている。具体的には、現在から所定時間過去までの入力パワーの最小値を、第1の推定雑音パワーとする。しかし、第1の推定雑音パワーはバイアスを有しており、真の雑音パワーよりも小さくなる性質を持つ。このバイアスは、第1の推定雑音パワーの期待値から推定され、得られたバイアス推定値を用いて第1の推定雑音パワーを補正して、第2の推定雑音パワー(最終的な推定値)を得る。
特許文献1に記載の従来の雑音推定方法は、入力パワーに適切な重み係数を乗じて、得られた加重入力パワーを所定時間分だけ記憶しておき、記憶した加重入力パワーの平均値を推定雑音パワーとする。適切な重み係数は、現在の入力パワーを直前の推定雑音パワーで除した事後SNR(SNRはSignal-to-Noise Ratio)に基づいて算出される。具体的には、事後SNRが所定の値G1以下では重み係数を1とし、事後SNRがG1以上では事後SNRに反比例するように重み係数を設定し、事後SNRが所定の値G2以上では重み係数を0とする。また、重み係数が0の場合には、加重入力パワーは記憶しない。
非特許文献2に記載の従来の雑音推定方法は、目的音声と雑音の複素スペクトルの分布がいずれも平均ゼロの複素正規分布に従うという仮説に基づいて、雑音の複素スペクトルの分散の最尤推定値を推定雑音パワーとする。この仮説に基づくと、入力音声の複素スペクトルの分布は、音声の複素スペクトルの分散と雑音の複素スペクトルの分散の和を分散とする平均ゼロの複素正規分布となる。ここに現在の入力が劣化音声と雑音のどちらであるかに関する隠れ変数を導入して、忘却係数を伴ったオンラインEM(Expectation Maximization)アルゴリズムを適用することで、雑音の複素スペクトルの最尤推定値を算出する。
R.Martin、"Spectral Subtraction Based on Minimum Statistics"、in Proceedings of 7th European Signal Processing Conference、1994、pp.1182-1185 M.Souden、M.Delcroix、K.Kinsoshita、T.Yoshioka、andT.Nakatani、"Noise Power Spectral Density Tracking:A Maximum Likelihood Perspective"、IEEE Signal Processing Letters、Vol.19、No.8、2012、pp.495-498
しかしながら、従来の雑音推定方法には以下に述べるような問題点が存在する。
非特許文献1の方法は、雑音が急に大きくなった場合に、推定雑音パワーが遅れて急激に大きくなるという課題を有している。具体的には、雑音が大きくなってから所定時間の間は、推定雑音パワーは小さいままである。そして、雑音が大きくなってから所定時間後に、推定雑音パワーは瞬間的に増大する。
特許文献1の方法は、音声伝送におけるパケット損失やエコー対策のためのボイススイッチなどによって入力音声が一時的に小さくなる現象が起きると、入力音声が元に戻っても推定雑音パワーはしばらく小さいままとなる課題を有している。すなわち、小さい入力音声は事後SNRがG1より小さくなるので雑音パワーの推定に使われ続け、推定雑音パワーが小さくなる。その状態で入力音声が大きくなると、事後SNRがG2より大きくなるので雑音パワーの推定に使われなくなり、推定雑音パワーは更新されなくなる。
非特許文献2の方法は、この雑音推定方法で用いられているオンラインEMアルゴリズムには、忘却係数を大きくすると安定性が増して追従が遅くなり、忘却係数を小さくすると追従が速くなって安定性が下がるという、追従の速さと最尤推定の安定性とのトレードオフがあるという課題を有している。該忘却係数は観測環境の雑音レベルに合わせて設定する必要があるため、実用性に乏しい。
以上のように、従来の雑音推定方法は、入力音声が急に大きくなると推定雑音パワーが不適切なタイミングで瞬間的に大きくなったり、入力音声が一時的に小さくなると推定雑音パワーが小さいままとなったり、推定パラメータを環境に合わせて調整が必要になったりする課題があった。
そのため、推定パラメータの調整なしに、入力音声の急な変化に左右されずに雑音パワーを推定できる雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム、及び収音方法が望まれている。
第1の本発明は、音声と雑音が混合された入力信号中に含まれる雑音成分を推定して推定雑音パワーを得る雑音推定装置において、(1)前記入力信号の入力パワーと過去の前記推定雑音パワーから前記入力パワーの定常確率を算出する定常確率算出手段と、(2)前記入力パワーを所定の第1のサンプル数だけ保持する入力バッファと前記定常確率を前記第1のサンプル数だけ保持する確率バッファを前記定常確率が所定の定常確率閾値より大きい場合に限り更新するバッファ更新手段と、(3)前記確率バッファに保持されている前記定常確率を重み係数として前記入力バッファに保持されている前記入力パワーの加重平均をとることで前記推定雑音パワーを算出する加重平均手段と、(4)前記入力パワーを所定の第2のサンプル数だけ保持して平均することで平均入力パワーを算出する入力平均手段と、(5)前記推定雑音パワー若しくは前記推定雑音パワーに基づく値と、前記平均入力パワーとの比が所定の定常判定範囲に収まるかを判定した環境移行判定結果を算出する環境移行判定手段とを備え、(6)前記定常確率算出手段は、前記環境移行判定手段が環境が移行したと判定した時には前記定常確率を所定の値とし、前記環境移行判定手段が環境は移行していないと判定した時には前記入力パワーを過去の前記推定雑音パワーで除した事後SNRに基づき前記定常確率を算出する定常確率算出関数によって前記定常確率を算出することを特徴とする。
第2の本発明の雑音推定プログラムは、音声と雑音が混合された入力信号中に含まれる雑音成分を推定して推定雑音パワーを得る雑音推定装置に搭載されたコンピュータを、(1)前記入力信号の入力パワーと過去の前記推定雑音パワーから前記入力パワーの定常確率を算出する定常確率算出手段と、(2)前記入力パワーを所定の第1のサンプル数だけ保持する入力バッファと前記定常確率を前記第1のサンプル数だけ保持する確率バッファを前記定常確率が所定の定常確率閾値より大きい場合に限り更新するバッファ更新手段と、(3)前記確率バッファに保持されている前記定常確率を重み係数として前記入力バッファに保持されている前記入力パワーの加重平均をとることで前記推定雑音パワーを算出する加重平均手段と、(4)前記入力パワーを所定の第2のサンプル数だけ保持して平均することで平均入力パワーを算出する入力平均手段と、(5)前記推定雑音パワー若しくは前記推定雑音パワーに基づく値と、前記平均入力パワーとの比が所定の定常判定範囲に収まるかを判定した環境移行判定結果を算出する環境移行判定手段として機能させ、(6)前記定常確率算出手段は、前記環境移行判定手段が環境が移行したと判定した時には前記定常確率を所定の値とし、前記環境移行判定手段が環境は移行していないと判定した時には前記入力パワーを過去の前記推定雑音パワーで除した事後SNRに基づき前記定常確率を算出する定常確率算出関数によって前記定常確率を算出することを特徴とする。
第3の本発明は、音声と雑音が混合された入力信号中に含まれる雑音成分を推定して推定雑音パワーを得る雑音推定装置が行う雑音推定方法において、(1)前記雑音推定装置は、定常確率算出手段、バッファ更新手段、加重平均手段、入力平均手段、環境移行判定手段を備え、(2)前記定常確率算出手段は、前記入力信号の入力パワーと過去の前記推定雑音パワーから前記入力パワーの定常確率を算出し、(3)前記バッファ更新手段は、前記入力パワーを所定の第1のサンプル数だけ保持する入力バッファと前記定常確率を前記第1のサンプル数だけ保持する確率バッファを前記定常確率が所定の定常確率閾値より大きい場合に限り更新し、(4)前記加重平均手段は、前記確率バッファに保持されている前記定常確率を重み係数として前記入力バッファに保持されている前記入力パワーの加重平均をとることで前記推定雑音パワーを算出し、(5)前記入力平均手段は、前記入力パワーを所定の第2のサンプル数だけ保持して平均することで平均入力パワーを算出し、(6)前記環境移行判定手段は、前記推定雑音パワー若しくは前記推定雑音パワーに基づく値と、前記平均入力パワーとの比が所定の定常判定範囲に収まるかを判定した環境移行判定結果を算出し、(7)前記定常確率算出手段は、前記環境移行判定手段が環境が移行したと判定した時には前記定常確率を所定の値とし、前記環境移行判定手段が環境は移行していないと判定した時には前記入力パワーを過去の前記推定雑音パワーで除した事後SNRに基づき前記定常確率を算出する定常確率算出関数によって前記定常確率を算出することを特徴とする。
第4の本発明は、音声と雑音が混合された入力信号から前記音声を収音する収音装置において、(1)前記入力信号に含まれる雑音成分を推定する雑音推定部と、(2)前記雑音推定部の推定結果を用いて、前記入力信号から前記音声信号を抽出して収音する収音部とを備え、(3)前記雑音推定部として、第1の本発明の雑音推定装置を適用したことを特徴とする収音装置。
第5の本発明の雑音推定プログラムは、音声と雑音が混合された入力信号から前記音声を収音する収音装置に搭載されたコンピュータを、(1)前記入力信号に含まれる雑音成分を推定する雑音推定部と、(2)前記雑音推定部の推定結果を用いて、前記入力信号から前記音声信号を抽出して収音する収音部として機能させるものであって、(3)前記雑音推定部は、第1の本発明の雑音推定装置として機能することを特徴とする。
第6の本発明は、音声と雑音が混合された入力信号から前記音声を収音する収音装置が行う収音方法において、(1)雑音推定部及び収音部を備え、(2)前記雑音推定部は、第3の本発明の雑音推定方法により前記入力信号に含まれる雑音成分を推定し、(3)前記収音部は、前記雑音推定部の推定結果を用いて、前記入力信号から前記音声信号を抽出して収音することを特徴とする。
本発明によれば、推定パラメータの調整なしに、入力音声の急な変化に左右されずに雑音パワーを推定することができる。
(A)第1の実施形態
以下、本発明による雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム及び収音方法の第1の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の雑音推定装置、雑音推定プログラム、及び雑音推定方法を、雑音推定手段に適用した例について説明する。
以下、本発明による雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム及び収音方法の第1の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の雑音推定装置、雑音推定プログラム、及び雑音推定方法を、雑音推定手段に適用した例について説明する。
(A-1)第1の実施形態の構成
図2は、この実施形態の収音装置1の機能的構成について示したブロック図である。なお、図2における括弧内の符号は後述する第2~第4の実施形態で用いられる符号である。
図2は、この実施形態の収音装置1の機能的構成について示したブロック図である。なお、図2における括弧内の符号は後述する第2~第4の実施形態で用いられる符号である。
収音装置1は、マイクロホンMにより捕捉される音響信号から、目的音を収音する収音処理を行う装置である。
この実施形態の例では、マイクロホンMは図示しない電話端末の受話器に搭載されているものとする。この場合、マイクロホンMにより捕捉される音響信号には、例えば、目的音としての音声(例えば、近端話者の音声)と非目的音としての雑音(例えば、背景雑音等)が含まれる。そして、この実施形態の例では、収音装置1は図示しない電話端末に搭載され、マイクロホンMにより捕捉される音響信号から、非目的音(例えば、背景雑音等の雑音)を除去して目的音(例えば、近端話者の音声)を収音する処理を行う。
次に、収音装置1の内部構成について説明する。
この実施形態において、収音装置1は、信号入力部10、雑音抑圧処理部20、信号出力部30、及び雑音推定部40を備える。
収音装置1は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置1は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の雑音推定プログラムを含む収音プログラム)をインストールすることにより構成するようにしてもよい。
信号入力部10は、マイクロホンMから供給されるアナログの音響信号をデジタル信号に変換してコンピュータ200に供給する機能を担っている。以下では、マイクロホンMにより捕捉され、信号入力部10によりデジタル変換された音響信号を入力信号xと呼ぶものとする。
雑音推定部40は、入力信号xに含まれる雑音(非目的音)を推定する機能を担っている。以下では、雑音推定部40が推定した雑音(推定した雑音の信号)を「推定雑音」と呼ぶものとする。
雑音抑圧処理部20は、雑音推定部40が推定した推定雑音を用いて、入力信号xに含まれる雑音成分を抑圧した信号(以下、「雑音抑圧済信号」と呼ぶ)を出力する機能を担っている。
信号出力部30は、当該収音装置1の収音結果(この実施形態では、雑音抑圧処理部20が出力する雑音抑圧済信号を出力する機能を担っている。
図3は、収音装置1のハードウェア構成の例について示したブロック図である。なお、図3における括弧内の符号は後述する第2の実施形態で用いられる符号である。
図3では、収音装置1をソフトウェア(コンピュータ)を用いて構成する際の構成について示している。なお、図3において、括弧内の符号は後述する第2~第4の実施形態で用いられる符号である。
図3に示す収音装置1は、ハードウェア的な構成要素として、少なくとも信号入力部10と、プログラム(実施形態の雑音推定プログラムを含む収音プログラム)がインストールされたコンピュータ400を有している。
信号入力部10は、例えば、D/Aコンバータを用いて構成することができる。なお、コンピュータ400自体にD/Aコンバータが搭載されていれば、信号入力部10を別途設ける必要はない。
コンピュータ400は、信号入力部10から供給される音響信号(デジタル音響信号)に所定の処理を施して出力する処理を行う。この実施形態では、コンピュータ400には、少なくとも雑音抑圧処理部20、信号出力部30、及び雑音推定部40に相当するプログラム(この実施形態の収音プログラム)がインストールされているものとする。なお、この実施形態の収音プログラムには、雑音推定部40に相当する雑音推定プログラムが含まれている。
なお、コンピュータ400は、収音プログラム専用のコンピュータとしてもよいし、他の機能(例えば、電話端末が受信した遠端信号(受話信号)を図示しないスピーカから出力する機能)のプログラムと共用される構成としてもよい。
図3に示すコンピュータ400は、プロセッサ401、一次記憶部402、及び二次記憶部403を有している。一次記憶部402は、プロセッサ401の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM等の高速動作するメモリが適用される。二次記憶部403は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASH(登録商標)メモリやHDD等の不揮発性メモリが適用される。この実施形態のコンピュータ400では、プロセッサ401が起動する際、二次記憶部403に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部402上に展開して実行する。
なお、コンピュータ400の具体的な構成は図3の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部402が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次メモリについては除外した構成としてもよい。
次に、雑音推定部40の内部構成について図4を用いて説明する。
図4は、雑音推定部40の機能的構成について示したブロック図である。なお、図4における括弧内の符号は後述する第2の実施形態で用いられる符号である。
雑音推定部40は、帯域分割手段41と、K個のパワー算出手段42(42-1~42-K)と、K個の雑音推定手段43(43-1~43-K)とを有している。
そして、図1は、それぞれの雑音推定手段43(43-1~43-K)の内部構成について示した説明図である。この実施形態では、雑音推定手段43-1~43-Kの内部は全て図1を用いて示すことができる構成となっているものとする。なお、図1における括弧内の符号は後述する第2の実施形態で用いられる符号である。
図1に示すように、雑音推定手段43は、定常確率算出手段101、バッファ更新手段102、加重平均手段103、入力平均手段104、及び環境移行判定手段105を有している。
雑音推定部40を構成する各要素(雑音推定手段43を構成する各要素を含む)の詳細な機能(動作)については後述する。
(A-2)第1の実施形態の動作
次に、上述した構成を有する第1の実施形態の収音装置1(雑音推定部40)の動作を、図1を参照しながら説明する。
次に、上述した構成を有する第1の実施形態の収音装置1(雑音推定部40)の動作を、図1を参照しながら説明する。
帯域分割手段41は、入力信号xを周波数解析して周波数スペクトル(以下、「入力スペクトル」とも呼ぶ)を算出し、得られた入力スペクトルをK個に分割して、分割した入力スペクトル(以下、「周波数帯域信号」と呼ぶ)を、パワー算出手段42-1~42-K(以下、総称してパワー算出手段42として説明する)に与える。周波数解析には、例えば、高速フーリエ変換(Fast Fourier Transform:FFT)やウェーブレット変換やフィルタバンクなどを適用することができるが、FFTが好適である。
入力信号xは、例えば、電話端末のマイクにより捕捉される音響信号である。電話端末のマイクにより捕捉される音響信号には、例えば、目的音としての話者の音声と非目的音としての雑音(例えば、背景雑音等)が含まれる。
パワー算出手段42-1~42-Kは、それぞれ入力された周波数帯域信号に基づく入力パワーを算出し、雑音推定手段43-1~43-Kに与える。各パワー算出手段42では、パワーの算出方法として、種々の算出方法を適用することができる。各パワー算出手段42は、例えば、絶対値の2乗若しくは絶対値を入力パワーとして算出するようにしても良い。以下では、各パワー算出手段42(42-1~42-K)が出力する入力パワーを、PX(PX_1~PX_K)と表すものとする。
各雑音推定手段43(43-1~43-K)は、各パワー算出手段42(21~2K)から供給される入力パワーPX(PX_1~PX_K)に含まれる雑音成分のパワーを推定し、その結果(以下、「推定雑音パワー」とも呼ぶ)を出力する。以下では、各雑音推定手段43(43―1~43―K)が出力する推定雑音パワーを、PN(PN_1~PN_K)と表すものとする。
各雑音推定手段43(43ー1~43ーK)が、推定雑音パワーPN(PN_1~PN_K)を出力する際の方式(例えば、信号形式やデータ形式)や出力先については限定されないものである。例えば、雑音推定手段43(43ー1~43ーK)は、入力パワーPXの目的音を強調(雑音を抑圧)する図示しない音声処理方法等に推定雑音パワーPN(PN_1~PN_K)を供給するようにしてもよい。また、収音装置1は、上述のような音声処理方法の一部として構成するようにしてもよい。
次に、各雑音推定手段43(43ー1~43ーK)の動作を、図1を参照しながら説明する。
以下では、雑音推定手段43ー1~43ーKの動作は、処理する信号の帯域が異なること以外は同様であるため、以下では任意の雑音推定手段43(雑音推定手段43ー1~43ーKのいずれか)に、任意の帯域の入力パワーPX(PN_1~PN_Kのいずれか)が供給された場合の動作について説明する。
雑音推定手段43は、与えられた入力パワーPXを、定常確率算出手段101、バッファ更新手段102、および入力平均手段104に与える。
定常確率算出手段101は、入力パワーPXと所定のDサンプル過去の推定雑音パワーPNDと後述の環境移行判定結果Eに基づいて定常確率SPを算出し、得られた定常確率SPをバッファ更新手段102に与える。Dの具体的な数値についても後述する。
環境移行判定結果Eは、詳細は環境移行判定手段105の動作の説明で後述するが、この実施形態の例では、環境が大きく移行(背景雑音や入力信号自身が著しく小さくなったり大きくなったりした状態が長期間継続)した場合には環境が移行したと判定してTrueが設定され、そうでない場合には環境は移行していないと判定してFalseが設定されるものとする。
所定の遅延サンプル数Dは、例えば、D=1とするのが好適であるが、D>1としても良い。また、所定の遅延サンプル数Dは、事前に決めておくことが好適であるが、途中で変更できるようにしても良い。
この実施形態の例では、環境移行判定結果EがTrueの場合、定常確率SPは所定の値として1.0とするものとする。なお、上記のSPの所定の値については任意の値を設定可能である。また、この実施形態の例では、環境移行判定結果EがFalseの場合、定常確率SPは、事後SNR Gに基づいて算出されるものとする。さらに、この実施形態の例では、事後SNRは、(1)式で算出するものとする。定常確率SPは、後述する定常確率算出関数によって算出するものとする。
この実施形態の例において、定常確率算出関数は、事後SNR Gに対する定常確率SPの関数であり、定常確率算出手段101に予め設定されているものとする。また、この実施形態の例において、定義域(G)は0.0以上の実数、値域(SP)は0.0以上1.0以下の実数であるものとする。さらに、この実施形態において、定常確率算出関数の形状は山形、すなわち、所定のGの値G0に対して、0.0≦G≦G0の区間で定常確率算出関数は広義単調増加し、G0≦Gの区間で定常確率算出関数は広義単調減少するものとする。
この実施形態の例において、G0は、特に限定されるものではなく、Gの定義域の範囲で任意の値を取ることができる。ただし、この実施形態の例において、定常確率算出関数は定常であるほど高い確率を出力する関数であるから、G0=1.0(すなわち、PX=PND)とするのが最も好適である。
定常確率算出関数の例を図5および図6に示す。
図5は、Gに対して滑らかに定義した定常確率算出関数の例である。
図5に示す定常確率算出関数において、SP=1.0となるG(G0)は、特に限定されるものではないが、例えばG=1.0とする。G→+∞でSP→0.0に漸近収束するのが好適である。
図4は、対数尺度上で設計した定常確率算出関数である。
図4に示すように、両軸とも対数尺度上で定常確率算出関数を設計することで、PX<PNDのときとPX>PNDのときの関係がフェアになるとともに、全定義域上で定常確率算出関数を容易に定義できる。
バッファ更新手段102は、定常確率SPが所定の定常確率閾値SP0より大きい場合に、入力パワーPXと定常確率SPとに基づいて入力バッファBXと確率バッファBPを更新し、得られた入力バッファBXと確率バッファBPを加重平均手段103に与える。
また、バッファ更新手段102では、定常確率閾値SP0は十分小さい値(例えば、0.1以下程度)としなければならない。その理由は、加重平均手段103の説明にて後述する。例えば、定常確率閾値SP0は0.01程度の値が好適である。
入力バッファBXは、入力パワーPXを過去から現在までT1サンプル保持するバッファである。第1のサンプル数T1は、任意の値としてよいが、用途に応じて100ミリ秒~数秒に相当する長さとする。第1のサンプル数T1を短くすると(例えば100ミリ秒相当)、推定対象の雑音の変化への追従が早くなるが、例えばゆっくり発話された音声を雑音として誤って推定する危険性がある。一方、第1のサンプル数T1を長くすると(例えば8秒相当)、入力信号中の定常成分を正確に推定できるが、雑音環境が急に変化した場合(例えば、静かな部屋から騒々しい戸外に出た場合、空調を一斉にON/OFFした場合など)にすぐに追従できない。したがって、第1のサンプル数T1は、200ミリ秒~1秒に相当する長さとするのが好適である。
確率バッファBPは、定常確率SPを過去から現在までT1サンプル保持するバッファである。確率バッファBPのバッファ長は、入力バッファBXのバッファ長と同じである。
バッファ更新手段102は、一番古い入力パワーPXを入力バッファBXから削除して新たに与えられた入力パワーPXを入力バッファBXに格納する。同様に、バッファ更新手段102は、一番古い定常確率SPを確率バッファBPから削除して新たに与えられた定常確率SPを確率バッファBPに格納する。なお、定常確率SPが定常確率閾値SP0より大きい場合には、入力バッファBXと確率バッファBPは更新しない。
加重平均手段103は、入力バッファBXと確率バッファBPに基づいて推定雑音パワーPNを算出し、得られた推定雑音パワーPNを定常確率算出手段101と環境移行判定手段105と雑音推定手段100の出力に与える。
加重平均手段103は、確率バッファBPに保持されている定常確率SPを重み係数として、入力バッファBXに保持されている入力パワーPXの加重平均を計算することで、推定雑音パワーPNを算出する。すなわち、入力バッファBXと確率バッファBPのi番目(i=1~T1)の値をそれぞれ入力パワーPX_iと定常確率SP_iとすると、推定雑音パワーPNは(2)式で算出される。
加重平均によって推定雑音パワーPNを算出する方法には、以下のようなメリットがある。すなわち、定常確率SPが高い入力パワーPXには大きな重みがかけられるので、推定雑音パワーPNの算出に大きな影響力を持つ。一方、定常確率SPが低い入力パワーPXには小さな重みがかけられるので、推定雑音パワーPNの算出への影響力は小さく、ほとんど無視される。雑音推定部40において、定常確率SPが小さい入力パワーPXを完全に無視してしまうと(例えば、特許文献1は、事後SNRが所定の値より大きいと無視すると)、パケットロスやボイススイッチによって入力信号が一時的に小さくなった後で戻った際に追従できない問題が生じる。そこで、雑音推定部40では、定常確率SPが小さい入力パワーPXを小さな影響力で考慮することで、安定した推定を継続することが可能となる。
また、バッファ更新手段102において、定常確率閾値SP0は小さな値としなければならないと述べた。もしSP0を大きい値とすると、上述の安定した推定を継続する本発明のメリットを損なう。
環境移行判定手段105が環境が移行していると判定している間は、定常確率SP_kには十分小さい値(例えば、0.1以下程度)が設定され続けることによって、(2)式にしたがって算出される推定雑音パワーPNは入力パワーPXの単純な平均となり、速やかに移行後の環境に追従することができる。
入力平均手段104は、入力パワーPXを過去から現在までT2サンプル保持して平均し、得られた平均入力パワーAPXを環境移行判定手段105に与える。第2のサンプル数T2の値については、後述する。
環境移行判定手段105は、平均入力パワーAPXと推定雑音パワーPNとの比が所定の定常判定範囲Rに収まっているかを判定して環境移行判定結果Eを設定し、得られた環境移行判定結果Eを定常確率算出手段101に与える。
定常判定範囲Rの処理方法(定義方法とその利用方法)は、次の2通りが考えられる。
第1の定常判定範囲Rの処理方法は、定常判定範囲を正の2値(R1<R2)のベクトルと定義し、(3)式を用いて環境移行判定結果Eを算出する方法である。
環境移行判定手段105において、上記の2通りの処理方法は、どちらを用いても問題ないが、設定の簡便さから、第2の処理方法を用いるのが好適である。その場合、定常判定範囲Rは例えば6デシベルとするのが好適である。
環境移行判定手段105の役割は、入力信号Xの特性が著しく変化した場合(例えば、完全な無音になった場合や、オーディオ機器の接続誤りによる異常な大音量が入った場合)に、多少の遅延をもって速やかに推定雑音パワーPNを入力パワーPXに追従させることである。入力信号Xの特性が著しく変化して入力パワーPXが著しく変化した場合、定常確率SPは小さな値を取り続けることとなり、入力バッファBXと確率バッファBPとが更新されないデッドロック状態に陥る。この問題を回避するために、環境移行判定手段105は、入力パワーPXの長期平均を算出する。雑音抑圧の対象でない非定常な成分(目的成分と呼ぶ)の時間方向の割合は少ない場合が多いことから、長期平均を取ることで目的成分の影響を除去できる。そこで、環境移行判定手段105では、この長期平均を平均入力パワーAPXとし、比較的短い期間の雑音パワーの平均の推定値である推定雑音パワーPNとを比較することで、環境の移行を検出することができる。したがって、環境移行判定手段105において、平均入力パワーAPXを得るための第2のサンプル数T2は、例えば5~20秒が好適な値である。なお、本発明とは関係なく、平均入力パワーAPXを推定雑音パワーPNとする方法もあるが、これでは環境の小さな変化への追従性能が大きく損なわれることから、好適な方法ではない。
(A-3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
第1の実施形態によれば、以下のような効果を奏することができる。
第1の実施の収音装置1(雑音推定手段43A)において、雑音推定に必要なパラメータは、第1のサンプル数T1と第2のサンプル数T2と遅延サンプル数Dだけなので、推定パラメータの調整が不要な推定雑音方法を提供することができる。
また、第1の実施の収音装置1(雑音推定手段43A)では、雑音が急に大きくなった場合にも、定常確率を重み係数とする加重平均を用いるので、確率的に変化する雑音パワーのうち低頻度で出現する小さい雑音パワーを使って少しずつ追従するので、急激に大きくなることがない。
さらに、第1の実施の収音装置1(雑音推定手段43A)では、入力音声が急に小さくなった場合は非定常とみなすので、一時的に小さくなった入力音声に過剰追従することがなく、推定雑音パワーが小さいままとなる問題は生じない。
さらにまた、第1の実施の収音装置1(雑音推定手段43A)では、入力音声に含まれる定常な雑音成分のみを推定することを目的としているため、環境に合わせて推定パラメータを調整する必要がない。
また、第1の実施の収音装置1(雑音推定手段43A)では、環境が移行して、推定雑音パワーが平均入力パワーから逸脱した値となった場合には、第1のサンプル数の間は定常確率を所定値(例えば、1.0)とすることで迅速に新しい環境に追従する。
以上のように、第1の実施の収音装置1(雑音推定手段43A)では、定常確率を重み係数とする加重平均を用いて雑音パワーを推定するので、雑音が急激に変化しても、推定雑音パワーは急激に変化せず、さらに推定雑音パワーが小さいままや大きいままとどまることなく、環境が著しく変化してもデッドロック状態に陥らず、安定して推定可能な雑音推定方法を提供することができる。
(B)第2の実施形態
以下、本発明による雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム及び収音方法の第2の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の雑音推定装置、雑音推定プログラム、及び雑音推定方法を、雑音推定手段に適用した例について説明する。
以下、本発明による雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム及び収音方法の第2の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の雑音推定装置、雑音推定プログラム、及び雑音推定方法を、雑音推定手段に適用した例について説明する。
(B-1)第2の実施形態の構成
第2の実施形態の収音装置1Aの構成についても上述の図1~図4を用いて示すことができる。
第2の実施形態の収音装置1Aの構成についても上述の図1~図4を用いて示すことができる。
以下では、第2の実施形態の収音装置1Aの構成について、第1の実施形態との差異を説明する。
第2の実施形態の収音装置1Aでは、雑音推定部40が雑音推定部40Aに置き換わっている。また、第2の実施形態の雑音推定部40Aでは、雑音推定手段43(43-1~43-K)が雑音推定手段43A(43A-1~43A-K)に置き換わっている。さらに、第2の実施形態の雑音推定部40A(43A-1~43A-K)では、加重平均手段103が、加重平均手段103Aに置き換わっている。
第1の実施形態の雑音推定部40では、推定雑音パワーPNの推定バイアスを考慮していなかった。仮に、第1の実施形態の雑音推定部40において、推定雑音パワーPNを雑音区間の入力パワーPXの平均として算出していれば、推定バイアスは生じない。しかし、第1の実施形態の雑音推定部40では、推定雑音パワーPNを入力パワーPXの定常確率SPによる加重平均として算出している。これにより、第1の実施形態の雑音推定部40では、特に雑音区間における入力パワーPXに対して、推定バイアスを引き起こす恐れがある。
そこで、第2の実施形態の雑音推定手段43A(加重平均手段103A)では、事前に推定バイアスを調査し、当該推定バイアスを補正しながら推定雑音パワーPNを推定する。
(B-2)第2の実施形態の動作
次に、上述した構成を有する第2の実施形態の収音装置1Aの動作について、第1の実施形態との差異を説明する。
次に、上述した構成を有する第2の実施形態の収音装置1Aの動作について、第1の実施形態との差異を説明する。
上述の通り、第2の実施形態では、雑音推定手段43Aを構成する加重平均手段103Aの動作が第1の実施形態と異なる。上述野通り、雑音推定手段43A(加重平均手段103A)は、事前に推定バイアスを調査し、当該推定バイアスを補正しながら推定雑音パワーPNを推定する点で第1の実施形態と異なっている。
加重平均手段103Aにおいて、推定バイアスBは、シミュレーションによって算出できる。この実施形態では、定常確率算出手段101における定常確率算出関数において、定常確率算出関数の出力(定常確率SP)が定常確率閾値SP0以上となる定義域(事後SNR G)を、均一または一様にランダムに用意し、用意された定義域の値の集合Gtestのすべての元に対して定常確率算出関数を計算し、得られた地域の値の集合SPtestのすべての元と、対応するGtestの元との加重平均を(2)式と同様に算出する。第2の実施形態では、このとき、得られた加重平均値が、推定バイアスBとなる。
加重平均手段103Aは、入力バッファBXと確率バッファBPと推定バイアスBとに基づいて(5)式により推定雑音パワーPNを算出し、得られた推定雑音パワーPNを定常確率算出手段101と環境移行判定手段105と雑音推定手段100の出力に与える。
(B-3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて以下のような効果を奏することができる。
第2の実施形態によれば、第1の実施形態の効果に加えて以下のような効果を奏することができる。
第2の実施形態の収音装置1A(雑音推定手段43A)では、推定雑音パワーの推定バイアスが補正されるので、より安定的に雑音パワーを推定できる雑音推定方法を提供することができる。
(C)第3の実施形態
以下、本発明による雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム及び収音方法の第3の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の雑音推定装置、雑音推定プログラム、及び雑音推定方法を、雑音推定手段に適用した例について説明する。
以下、本発明による雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム及び収音方法の第3の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の雑音推定装置、雑音推定プログラム、及び雑音推定方法を、雑音推定手段に適用した例について説明する。
(C-1)第3の実施形態の構成
第3の実施形態の収音装置1Bの構成についても上述の図2、図3を用いて示すことができる。
第3の実施形態の収音装置1Bの構成についても上述の図2、図3を用いて示すことができる。
以下では、第3の実施形態の収音装置1Bの構成について、第1の実施形態との差異を中心に説明する。
第3の実施形態の収音装置1Bでは、雑音推定部40が雑音推定部40Bに置き換わっている。
図7は、第3の実施形態に係る雑音推定部40Bの機能的構成について示したブロック図である。
図7では、上述の図4と同一部分又は対応部分には、同一符号又は対応符号を付している。なお、図7において、括弧内の符号は、後述する第4の実施形態でのみ用いられる符号である。
図7に示す通り、雑音推定部40Bは、帯域分割手段41、パワー算出手段42及び雑音推定手段43Bを有している。
雑音推定部40Bでは、パワー算出手段42及び雑音推定手段43Bは、帯域(周波数)ごとに分割された要素ではなく、全ての帯域についてまとめて処理する構成となっている点で第1の実施形態と異なっている。
パワー算出手段42については、全ての帯域についてまとめて一つの要素で処理する構成となっているだけで、実質的な信号処理は第1の実施形態と同様である。
雑音推定手段43Bは、全ての帯域についてまとめて一つの要素で処理する構成となっているだけでなく、実質的な信号処理についても第1の実施形態と異なっている。
図8は、第3の実施形態に係る雑音推定手段43Bの機能的な構成について示したブロック図である。なお、図8において、括弧内の符号は、後述する第4の実施形態でのみ用いられる符号である。
図8では、上述の図1と同一部分又は対応部分に同一符号又は対応符号を付している。
そして、第3の実施形態の雑音推定部40Bでは、定常確率算出手段101、バッファ更新手段102、加重平均手段103、入力平均手段104、及び環境移行判定手段105が、それぞれ定常確率算出手段101B、バッファ更新手段102B、加重平均手段103B、入力平均手段104B、及び環境移行判定手段105Bに置き換わっている点で第1の実施形態と異なっている。また、第3の実施形態の雑音推定部40Bでは、初期状態制御手段106及び推定雑音平均手段107が追加されている点で、第1の実施形態と異なっている。
(C-2)第3の実施形態の動作
次に、上述した構成を有する第3の実施形態の収音装置1Bの動作について、第1の実施形態との差異を中心に説明する。
次に、上述した構成を有する第3の実施形態の収音装置1Bの動作について、第1の実施形態との差異を中心に説明する。
上記の通り、第3の実施形態では、実質的には雑音推定手段43Bが異なっているので、雑音推定手段43Bの動作を中心に説明する。
帯域分割手段41は、入力信号xを周波数解析して入力スペクトルを算出し、得られた入力スペクトルをK個に分割して、分割した周波数帯域信号を、パワー算出手段42に与える。
パワー算出手段42は、入力された周波数帯域信号に基づく入力パワーをK個の帯域ごとに算出し、入力パワーPX(PX_1~PX_K)として雑音推定手段43に与える。パワー算出手段42では、パワーの算出方法として、種々の算出方法を適用することができる。パワー算出手段42は、例えば、絶対値の2乗若しくは絶対値を入力パワーとして算出するようにしても良い。
雑音推定手段43は、パワー算出手段42から供給される入力パワーPX(PX_1~PX_K)に含まれる雑音成分のパワーを推定し、その結果(推定雑音パワーPN(PN_1~PN_K)を出力する。
雑音推定手段43Bが、推定雑音パワーPN(PN_1~PN_K)を出力する際の方式(例えば、信号形式やデータ形式)や出力先については限定されないものである。例えば、雑音推定手段43は、入力パワーPXの目的音を強調(雑音を抑圧)する図示しない音声処理方法等に推定雑音パワーPN(PN_1~PN_K)を供給するようにしてもよい。また、収音装置1は、上述のような音声処理方法の一部として構成するようにしてもよい。
雑音推定手段43Bは、パワー算出手段42から供給される入力パワーPX(PX_1~PX_K)に含まれる雑音成分のパワーを推定し、その結果として推定雑音パワーPN(PN_1~PN_K)を取得する。
次に、雑音推定手段43の動作について、図8を参照しながら説明する。
雑音推定手段43は、与えられた入力パワーPX(PX_1~PX_K)を、定常確率算出手段101B、バッファ更新手段102B、および入力平均手段104Bに与える。
初期状態制御手段106は、後述の環境移行判定結果Eに基づいて初期状態カウンタICを更新し、定常確率算出手段101Bに与える。
なお、環境移行判定結果Eの設定方法は第1の実施形態と同様とすることができるので詳しい説明を省略する。
初期状態制御手段106は、雑音推定手段43の動作開始時と、与えられた環境移行判定結果EがTrueとなった場合には、初期状態カウンタICを後述の第1のサンプル数T1に設定し、そうでない場合には、初期状態カウンタICを更新しない。
初期状態カウンタICは、雑音推定手段43の動作開始時には初期状態制御手段106によって準備されるが、それ以降は定常確率算出手段101Bより与えられる。
定常確率算出手段101Bは、帯域k(k=1~K)ごとに、入力パワーPX_kと所定のDサンプル過去の推定雑音パワーPND_kと後述の初期状態カウンタICとに基づいて定常確率SP_kを算出し、得られた定常確率SP_kをバッファ更新手段102Bに与え、さらに初期状態カウンタICを更新して初期状態制御手段106に与える。
なお、Dの設定方法については、第1の実施形態と同様とすることができるので、詳しい説明を省略する。
この実施形態の例において、定常確率算出手段101Bは、初期状態カウンタICが0より大きい場合、定常確率SP_kに所定の値として1.0を設定し、初期状態カウンタICを1小さく(デクリメント)するものとする。なお、上記のSP_kに設定する所定の値については任意の値を設定可能である。
また、この実施形態の例において、初期状態カウンタICが0の場合、定常確率SP_kは、事後SNRG(G_k)に基づいて算出されるものとする。さらに、この実施形態の例において、事後SNRは、(6)式で算出されるものとする。さらにまた、この実施形態の例において、定常確率SP(SP_k)は、後述する定常確率算出関数によって算出するものとする。また、この実施形態の例において、初期状態カウンタICは更新されないものとする。
この実施形態の例において、定常確率算出関数は、事後SNR G_kに対する定常確率SP_kの関数であり、事前に決めておくものとする。また、この実施形態の例において、定義域(G_k)は0.0以上の実数、値域(SP_k)は0.0以上1.0以下の実数であるものとする。さらに、この実施形態の例において、定常確率算出関数の形状は山形、すなわち、所定のG_kの値G0に対して、0.0≦G_k≦G0の区間で定常確率算出関数は広義単調増加し、G0≦G_kの区間で定常確率算出関数は広義単調減少する。
この実施形態の例において、G0は、特に限定されるものではなく、G_kの定義域の範囲で任意の値を取ることができる。ただし、この実施形態の例において、定常確率算出関数は定常であるほど高い確率を出力する関数であるから、G0=1.0(すなわち、PX_k=PND_k)とするのが最も好適である。
この実施形態における定常確率算出関数の例についても、上述の図9、図10を用いて示すことができる。
図9は、G_kに対して滑らかに定義した定常確率算出関数の例である。
図9に示す定常確率算出関数において、SP_k=1.0となるG_k(G0)は、特に限定されるものではないが、例えばG0=1.0とする。図9に示す定常確率算出関数において、G_k→+∞でSP_k→0.0に漸近収束するのが好適である。
図10は、対数尺度上で設計した定常確率算出関数の例である。
図10に示すように、両軸とも対数尺度上で定常確率算出関数を設計することで、PX_k<PND_kのときとPX_k>PND_kのときの関係がフェアになるとともに、全定義域上で定常確率算出関数を容易に定義できる。
バッファ更新手段102Bは、帯域k(k=1~K)ごとに、定常確率SP_kが所定の定常確率閾値SP0より大きい場合に限り、入力パワーPX_kと定常確率SP_kとに基づいて入力バッファBX_kと確率バッファBP_kを更新し、得られた入力バッファBX_kと確率バッファBP_kを加重平均手段103Cに与える。なお、バッファ更新手段102Bにおいて、上記の比較および更新の動作は、帯域k(k=1~K)ごとに独立に行う。例えば、バッファ更新手段102Bにおいて、ある時刻において、2つのバッファは、ある帯域では更新されるが、別の帯域では更新されないということもあり得る。
また、バッファ更新手段102Bでは、定常確率閾値SP0は十分小さい値(例えば、0.1以下程度)としなければならない。その理由は、加重平均手段103Cの説明にて後述する。例えば、定常確率閾値SP0は0.01が好適である。
入力バッファBX_kは、入力パワーPX_kを過去から現在までT1サンプル保持するバッファである。第1のサンプル数T1は、任意の値としてよいが、用途に応じて100ミリ秒~数秒に相当する長さとする。第1のサンプル数T1を短くすると(例えば100ミリ秒相当)、推定対象の雑音の変化への追従が早くなるが、例えばゆっくり発話された音声を雑音として誤って推定する危険性がある。一方、第1のサンプル数T1を長くすると(例えば8秒相当)、入力信号中の定常成分を正確に推定できるが、雑音環境が急に変化した場合(例えば、静かな部屋から騒々しい戸外に出た場合、空調を一斉にON/OFFした場合など)にすぐに追従できない。したがって、第1のサンプル数T1は、200ミリ秒~1秒に相当する長さとするのが好適である。
確率バッファBP_kは、定常確率SP_kを過去から現在までT1サンプル保持するバッファである。確率バッファBP_kのバッファ長は、入力バッファBX_kのバッファ長と同じである。
バッファ更新手段102Bは、(7)式にしたがって帯域k(k=1~K)ごとに、一番古い入力パワーPX_kを入力バッファBX_kから削除して新たに与えられた入力パワーPX_kを入力バッファBXに格納する。同様に、バッファ更新手段102Bは、(8)式にしたがって帯域k(k=1~K)ごとに、一番古い定常確率SP_kを確率バッファBP_kから削除して新たに与えられた定常確率SP_kを確率バッファBP_kに格納する。なお、定常確率SP_kが定常確率閾値SP0より大きい場合には、入力バッファBX_kと確率バッファBP_kは更新しない。
加重平均手段103Cは、帯域k(k=1~K)ごとに、入力バッファBX_kと確率バッファBP_kに基づいて推定雑音パワーPN_kを算出し、得られた推定雑音パワーPN_kを定常確率算出手段101Bと推定雑音平均手段107と雑音推定手段43Cの出力に与える。
また、加重平均手段103Cは、(9)式にしたがって、確率バッファBP_kに保持されている定常確率SP_kを重み係数として、入力バッファBX_kに保持されている入力パワーPX_kの加重平均を計算することで、推定雑音パワーPN_kを算出する。
加重平均によって推定雑音パワーPN_kを算出する方法には、以下のようなメリットがある。すなわち、定常確率SP_kが高い入力パワーPX_kには大きな重みがかけられるので、推定雑音パワーPN_kの算出に大きな影響力を持つ。一方、定常確率SPが低い入力パワーPX_kには小さな重みがかけられるので、推定雑音パワーPN_kの算出への影響力は小さく、ほとんど無視される。ここで、定常確率SP_kが小さい入力パワーPX_kを完全に無視してしまうと(例えば、特許文献1は、事後SNRが所定の値より大きいと無視する)、パケットロスやボイススイッチによって入力信号が一時的に小さくなった後で戻った際に追従できない問題が生じる。そこで、定常確率SP_kが小さい入力パワーPX_kを小さな影響力で考慮することで、安定した推定を継続することが可能となる。
また、バッファ更新手段102Bにおいて、定常確率閾値SP0は所定より小さな値としなければならないと述べた。もしSP0を所定より大きい値とすると、上述の安定した推定を継続する本発明のメリットを損なう。
環境移行判定手段105Bが環境が移行していると判定した場合には、初期状態制御手段106と定常確率算出手段101Bによって、第1のサンプル数T1の間、定常確率SP_kに1.0が設定され続けることによって、(9)式にしたがって算出される推定雑音パワーPN_kは入力パワーPX_k(入力バッファBX_k)の単純な平均となり、速やかに移行後の環境に追従することができる。
入力平均手段104Bは、(10)式にしたがって、入力パワーPX_kのK個の帯域を平均し、その帯域平均値を過去から現在までT2サンプル保持して平均して平均入力パワーAPXを算出し、得られた平均入力パワーAPXを環境移行判定手段105Bに与える。第2のサンプル数T2の値については、後述する。
推定雑音平均手段107は、推定雑音パワーPN_kのK個の帯域を平均し、得られた平均雑音パワーAPNを環境移行判定手段105Bに与える。
環境移行判定手段105Bは、平均入力パワーAPXと平均雑音パワーAPNとの比が所定の定常判定範囲Rに収まっているかを判定して環境移行判定結果Eを設定し、得られた環境移行判定結果Eを定常確率算出手段101Bに与える。
なお、この実施形態において、定常判定範囲Rの処理方法(定義方法とその利用方法)については、次の2通りが考えられる。
定常判定範囲Rの第1の処理方法は、定常判定範囲を正の2値(R1<R2)のベクトルと定義し、(11)式を用いて環境移行判定結果Eを算出する方法である。
環境移行判定手段105Bにおいて、上記の2通りの処理方法は、どちらを用いても問題ないが,設定の簡便さから,2つ目の方法を用いるのが好適である。その場合,定常判定範囲Rは例えば6デシベルとするのが好適である。
環境移行判定手段105Bの役割は、入力信号xの特性が著しく変化した状態が継続する場合(例えば、完全な無音になった場合や、オーディオ機器の接続誤りによる異常な大音量が入った場合、またそれらの状態から通常の状態に復旧した場合)に、多少の遅延をもって速やかに推定雑音パワーPN_kを入力パワーPX_kに追従させることである。
入力信号xの特性が著しく変化して入力パワーPX_kが著しく変化した場合、定常確率SP_kは小さな値を取り続けることとなり、入力バッファBX_kと確率バッファBP_kとが更新されないデッドロック状態に陥る。この問題を回避するために、環境移行判定手段105Bは、入力パワーPX_kの長期平均を算出する。雑音抑圧の対象でない非定常な成分(目的成分と呼ぶ)の時間方向の割合は少ない場合が多いことから、環境移行判定手段105Bでは、入力パワーPX_kの帯域平均値の長期平均を取ることで目的成分の影響を除去できる。
環境移行判定手段105Bでは、この長期平均を平均入力パワーAPXとし、比較的短い期間の雑音パワーの平均の推定値である推定雑音パワーPN_kの帯域平均値と比較することで、環境の移行を検出することができる。したがって、環境移行判定手段105Bにおいて、平均入力パワーAPXを得るための第2のサンプル数T2は十分長くしなければならず、例えば5~20秒が好適な値である。
(C-3)第3の実施形態の効果
第3の実施形態によれば、以下のような効果を奏することができる。
第3の実施形態によれば、以下のような効果を奏することができる。
第3の実施形態の収音装置1B(雑音推定手段43B)では、雑音が急に大きくなった場合にも、定常確率を重み係数とする加重平均を用いるので、確率的に変化する雑音パワーのうち低頻度で出現する小さい雑音パワーを使って少しずつ追従するので、急激に大きくなることがない。
また、第3の実施形態の収音装置1B(雑音推定手段43B)では、入力音声が急に小さくなった場合は非定常とみなすので、一時的に小さくなった入力音声に過剰追従することがなく、推定雑音パワーが小さいままとなる課題は生じない。
さらに、第3の実施形態の収音装置1B(雑音推定手段43B)では、入力音声に含まれる定常な雑音成分のみを推定することを目的としているため、環境に合わせて推定パラメータを調整する必要がない。
さらにまた、第3の実施形態の収音装置1B(雑音推定手段43B)では、環境が移行して、推定雑音パワーが平均入力パワーから逸脱した値となった場合には、第1のサンプル数の間は定常確率を1.0とすることで迅速に新しい環境に追従する。
以上から、第3の実施形態の収音装置1B(雑音推定手段43B)では、推定パラメータの調整なしに、入力音声の急な変化や変化に左右されずに雑音パワーを推定できる。
(D)第4の実施形態
以下、本発明による雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム及び収音方法の第4の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の雑音推定装置、雑音推定プログラム、及び雑音推定方法を、雑音推定手段に適用した例について説明する。
以下、本発明による雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム及び収音方法の第4の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の雑音推定装置、雑音推定プログラム、及び雑音推定方法を、雑音推定手段に適用した例について説明する。
(D-1)第4の実施形態の構成
第4の実施形態の収音装置1Cの構成についても上述の図2、図3を用いて示すことができる。また、第4の実施形態に係る収音装置1Cを構成する雑音推定手段43Cの機能的構成についても図8を用いて示すことができる。
第4の実施形態の収音装置1Cの構成についても上述の図2、図3を用いて示すことができる。また、第4の実施形態に係る収音装置1Cを構成する雑音推定手段43Cの機能的構成についても図8を用いて示すことができる。
以下では、第4の実施形態の収音装置1Cの構成について、第3の実施形態との差異を説明する。
第4の実施形態の収音装置1Cでは、雑音推定部40Bが雑音推定部40Cに置き換わっている。また、第4の実施形態の雑音推定部40Cでは、雑音推定手段43Bが雑音推定手段43Cに置き換わっている。さらに、第4の実施形態の雑音推定部40Cでは、加重平均手段103Bが、加重平均手段103Cに置き換わっている。
第3の実施形態の雑音推定手段43Bでは、推定雑音パワーPN_kの推定バイアスを考慮していなかった。仮に、第3の実施形態の雑音推定手段43Bにおいて、推定雑音パワーPN_kを雑音区間の入力パワーPX_kの平均として算出していれば、推定バイアスは生じない。しかし、第3の実施形態の雑音推定手段43Bでは、推定雑音パワーPN_kを入力パワーPX_kの定常確率SPによる加重平均として算出しているため、雑音区間における入力パワーPX_kに対して、推定バイアスを引き起こす恐れがある。
そこで、第4の実施形態の雑音推定手段43Cでは、事前に推定バイアスを調査し、当該推定バイアスを補正しながら推定雑音パワーPN_kを推定する。
(D-2)第4の実施形態の動作
次に、上述した構成を有する第4の実施形態の収音装置1Cの動作について、第3の実施形態との差異を説明する。
次に、上述した構成を有する第4の実施形態の収音装置1Cの動作について、第3の実施形態との差異を説明する。
上記の通り、第4の実施形態の雑音推定手段43Cでは、事前に推定バイアスを調査し、当該推定バイアスを補正しながら推定雑音パワーPN_kを推定する点で第3の実施形態と異なっている。
第4の実施形態において、推定バイアスBは、シミュレーションによって算出するようにしてもよい。例えば、まず、定常確率算出手段101で用いられる定常確率算出関数において、定常確率算出関数の出力(定常確率SP)が定常確率閾値SP0以上となる定義域(事後SNRG)を、均一または一様にランダムに用意し、用意された定義域の値の集合Gtestのすべての元に対して定常確率算出関数を計算し、得られた値の集合SPtestのすべての元と、対応するGtestの元との加重平均を(9)式と同様に算出する。そして、(13)式により得られた加重平均値を、推定バイアスBとするようにしてもよい。
具体的には、加重平均手段103Cは、入力バッファBX_kと確率バッファBP_kと推定バイアスBとに基づいて(13)式により推定雑音パワーPN_kを算出し、得られた推定雑音パワーPN_kを定常確率算出手段101と推定雑音平均手段107と雑音推定手段100の出力に与える。
(D-3)第4の実施形態の効果
第4の実施形態によれば、第3の実施形態の効果に加えて以下のような効果を奏することができる。
第4の実施形態によれば、第3の実施形態の効果に加えて以下のような効果を奏することができる。
第4の実施形態の収音装置1C(雑音推定部40C)では、推定雑音パワーの推定バイアスが補正されるので、より安定的に雑音パワーを推定できる雑音推定方法を提供することができる。
(E)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(E-1)上記の実施形態では、説明を簡易とするため設置するマイクロホンは1つであるものとして説明するが、複数のマイクロホンを配置する構成としてもよいし、複数のマイクロホンMを用いたマイクロホンアレイを配置する構成としても良い。その場合、雑音推定部(雑音推定手段)は、複数のマイクロホンからの各入力信号について雑音推定の処理を行うことになる。
(E-2)上記の各実施形態では、雑音推定部を収音装置に搭載する例について説明したが、雑音推定部が搭載される装置は限定されないものである。また、雑音推定部又は雑音推定手段を単独の装置(雑音推定装置)として構成するようにしてもよい。
したがって、上記の各実施形態において、雑音推定部(雑音推定手段)が取得した推定雑音パワーPN(PN_1~PN_K)の出力先や出力方式(例えば、データ形式や出力インタフェース)については限定されないものであり、雑音推定部(雑音推定手段)の用途に応じた出力方式で、雑音推定部の用途に応じた出力先に出力するようにしてもよい。例えば、雑音推定部(雑音推定手段)は、コンピュータが備えるインタフェース(例えば、回路上の信号線やシリアルインタフェース等)を用いて出力するようにしてもよいし、有線又は無線による通信インタフェース(例えば、有線/無線LANインタフェースや、種々のシリアルインタフェース等)を用いて出力するようにしてもよい。
(E-3)上記の各実施形態の収音装置、信号入力部、雑音抑圧部、及び雑音推定部において、雑音抑圧部の処理を周波数領域で行う場合には帯域分割手段を雑音抑圧部の内部に有する必要があるが、雑音推定部における帯域分割手段の構成または帯域分割手段の出力を共有するようにしても良い。例えば、信号入力部の内部に帯域分割手段を含め、当該帯域分割手段の出力を信号入力部の出力として雑音抑圧部および雑音推定部に供給するようにしても良い。
1…収音装置、M…マイクロホン、10…信号入力部、20…雑音抑圧処理部、30…信号出力部、40…雑音推定部、41…帯域分割手段、42、42-1~42-K…パワー算出手段、43、43-1~43-K…雑音推定手段、101…定常確率算出手段、102…バッファ更新手段、103…加重平均手段、104…入力平均手段、105…環境移行判定手段。
Claims (10)
- 音声と雑音が混合された入力信号中に含まれる雑音成分を推定して推定雑音パワーを得る雑音推定装置において、
前記入力信号の入力パワーと過去の前記推定雑音パワーから前記入力パワーの定常確率を算出する定常確率算出手段と、
前記入力パワーを所定の第1のサンプル数だけ保持する入力バッファと前記定常確率を前記第1のサンプル数だけ保持する確率バッファを前記定常確率が所定の定常確率閾値より大きい場合に限り更新するバッファ更新手段と、
前記確率バッファに保持されている前記定常確率を重み係数として前記入力バッファに保持されている前記入力パワーの加重平均をとることで前記推定雑音パワーを算出する加重平均手段と、
前記入力パワーを所定の第2のサンプル数だけ保持して平均することで平均入力パワーを算出する入力平均手段と、
前記推定雑音パワー若しくは前記推定雑音パワーに基づく値と、前記平均入力パワーとの比が所定の定常判定範囲に収まるかを判定した環境移行判定結果を算出する環境移行判定手段とを備え、
前記定常確率算出手段は、前記環境移行判定手段が環境が移行したと判定した時には前記定常確率を所定の値とし、前記環境移行判定手段が環境は移行していないと判定した時には前記入力パワーを過去の前記推定雑音パワーで除した事後SNRに基づき前記定常確率を算出する定常確率算出関数によって前記定常確率を算出する
ことを特徴とする雑音推定装置。 - 前記定常確率算出関数は、前記定常確率算出関数が最大となるピーク事後SNRを境として、前記ピーク事後SNR以下の事後SNRに対しては広義単調増加し、前記ピーク事後SNR以上の事後SNRに対しては広義単調減少する関数であることを特徴とする請求項1に記載の雑音推定装置。
- 前記入力平均手段は、前記入力パワーの全帯域の平均値を所定の第二のサンプル数だけ保持して平均することで前記平均入力パワーを算出し、
前記推定雑音パワーの全帯域を平均することで平均雑音パワーを算出する推定雑音平均手段をさらに備え、
前記環境移行判定手段は、前記平均雑音パワーと前記平均入力パワーとの比が所定の定常判定範囲に収まるかを判定し、
初回実行時と前記環境移行判定手段が環境が移行したと判定した時から前記第1のサンプル数の間は前記定常確率算出手段へ初期状態で動作するように制御する初期状態制御手段をさらに備える
ことを特徴とする請求項1又は2に記載の雑音推定装置。 - 前記環境移行判定手段は、環境が移行したと判定した後、前記第1のサンプル数の間は環境が移行したという判定状態を継続することを特徴とする、請求項2に記載の雑音推定装置。
- 前記加重平均手段は、予め算出された推定バイアスを用いて、前記定常確率を重み係数として前記入力パワーの加重平均を補正して前記推定雑音パワーとする、請求項1~4のいずれかに記載の雑音推定装置。
- 音声と雑音が混合された入力信号中に含まれる雑音成分を推定して推定雑音パワーを得る雑音推定装置に搭載されたコンピュータを、
前記入力信号の入力パワーと過去の前記推定雑音パワーから前記入力パワーの定常確率を算出する定常確率算出手段と、
前記入力パワーを所定の第1のサンプル数だけ保持する入力バッファと前記定常確率を前記第1のサンプル数だけ保持する確率バッファを前記定常確率が所定の定常確率閾値より大きい場合に限り更新するバッファ更新手段と、
前記確率バッファに保持されている前記定常確率を重み係数として前記入力バッファに保持されている前記入力パワーの加重平均をとることで前記推定雑音パワーを算出する加重平均手段と、
前記入力パワーを所定の第2のサンプル数だけ保持して平均することで平均入力パワーを算出する入力平均手段と、
前記推定雑音パワー若しくは前記推定雑音パワーに基づく値と、前記平均入力パワーとの比が所定の定常判定範囲に収まるかを判定した環境移行判定結果を算出する環境移行判定手段として機能させ、
前記定常確率算出手段は、前記環境移行判定手段が環境が移行したと判定した時には前記定常確率を所定の値とし、前記環境移行判定手段が環境は移行していないと判定した時には前記入力パワーを過去の前記推定雑音パワーで除した事後SNRに基づき前記定常確率を算出する定常確率算出関数によって前記定常確率を算出する
ことを特徴とする雑音推定プログラム。 - 音声と雑音が混合された入力信号中に含まれる雑音成分を推定して推定雑音パワーを得る雑音推定装置が行う雑音推定方法において、
前記雑音推定装置は、定常確率算出手段、バッファ更新手段、加重平均手段、入力平均手段、環境移行判定手段を備え、
前記定常確率算出手段は、前記入力信号の入力パワーと過去の前記推定雑音パワーから前記入力パワーの定常確率を算出し、
前記バッファ更新手段は、前記入力パワーを所定の第1のサンプル数だけ保持する入力バッファと前記定常確率を前記第1のサンプル数だけ保持する確率バッファを前記定常確率が所定の定常確率閾値より大きい場合に限り更新し、
前記加重平均手段は、前記確率バッファに保持されている前記定常確率を重み係数として前記入力バッファに保持されている前記入力パワーの加重平均をとることで前記推定雑音パワーを算出し、
前記入力平均手段は、前記入力パワーを所定の第2のサンプル数だけ保持して平均することで平均入力パワーを算出し、
前記環境移行判定手段は、前記推定雑音パワー若しくは前記推定雑音パワーに基づく値と、前記平均入力パワーとの比が所定の定常判定範囲に収まるかを判定した環境移行判定結果を算出し、
前記定常確率算出手段は、前記環境移行判定手段が環境が移行したと判定した時には前記定常確率を所定の値とし、前記環境移行判定手段が環境は移行していないと判定した時には前記入力パワーを過去の前記推定雑音パワーで除した事後SNRに基づき前記定常確率を算出する定常確率算出関数によって前記定常確率を算出する
ことを特徴とする雑音推定方法。 - 音声と雑音が混合された入力信号から前記音声を収音する収音装置において、
前記入力信号に含まれる雑音成分を推定する雑音推定部と、
前記雑音推定部の推定結果を用いて、前記入力信号から前記音声信号を抽出して収音する収音部とを備え、
前記雑音推定部として、請求項1~5のいずれかに記載の雑音推定装置を適用したこと
を特徴とする収音装置。 - 音声と雑音が混合された入力信号から前記音声を収音する収音装置に搭載されたコンピュータを、
前記入力信号に含まれる雑音成分を推定する雑音推定部と、
前記雑音推定部の推定結果を用いて、前記入力信号から前記音声信号を抽出して収音する収音部として機能させるものであって、
前記雑音推定部は、請求項1~5のいずれかに記載の雑音推定装置として機能する
ことを特徴とする収音プログラム。 - 音声と雑音が混合された入力信号から前記音声を収音する収音装置が行う収音方法において、
雑音推定部及び収音部を備え、
前記雑音推定部は、請求項7に記載の雑音推定方法により前記入力信号に含まれる雑音成分を推定し、
前記収音部は、前記雑音推定部の推定結果を用いて、前記入力信号から前記音声信号を抽出して収音する
ことを特徴とする収音方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021064978A JP2022160311A (ja) | 2021-04-06 | 2021-04-06 | 雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム、及び収音方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021064978A JP2022160311A (ja) | 2021-04-06 | 2021-04-06 | 雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム、及び収音方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022160311A true JP2022160311A (ja) | 2022-10-19 |
Family
ID=83657737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021064978A Pending JP2022160311A (ja) | 2021-04-06 | 2021-04-06 | 雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム、及び収音方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022160311A (ja) |
-
2021
- 2021-04-06 JP JP2021064978A patent/JP2022160311A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111418010B (zh) | 一种多麦克风降噪方法、装置及终端设备 | |
US9431023B2 (en) | Monaural noise suppression based on computational auditory scene analysis | |
JP6361156B2 (ja) | 雑音推定装置、方法及びプログラム | |
KR101120679B1 (ko) | 이득-제한된 잡음 억제 | |
TWI463817B (zh) | 可適性智慧雜訊抑制系統及方法 | |
CN109087663B (zh) | 信号处理器 | |
JP6169849B2 (ja) | 音響処理装置 | |
US11587575B2 (en) | Hybrid noise suppression | |
US9854368B2 (en) | Method of operating a hearing aid system and a hearing aid system | |
JPWO2002080148A1 (ja) | 雑音抑圧装置 | |
KR20090122251A (ko) | 스피치 개선을 위한 노이즈 분산 추정기 | |
TW200842824A (en) | Speech enhancement employing a perceptual model | |
CN105280193B (zh) | 基于mmse误差准则的先验信噪比估计方法 | |
CN113539285A (zh) | 音频信号降噪方法、电子装置和存储介质 | |
JP2004341339A (ja) | 雑音抑圧装置 | |
JP2005258158A (ja) | ノイズ除去装置 | |
JP2022160311A (ja) | 雑音推定装置、雑音推定プログラム、雑音推定方法、収音装置、収音プログラム、及び収音方法 | |
Mohammed | A new simple adaptive noise cancellation scheme based on ALE and NLMS filter | |
Banchhor et al. | GUI based performance analysis of speech enhancement techniques | |
JP7139822B2 (ja) | 雑音推定装置、雑音推定プログラム、雑音推定方法、及び収音装置 | |
KR100901367B1 (ko) | 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법 | |
JP7380361B2 (ja) | 雑音推定装置、雑音推定プログラム、雑音推定方法、及び収音装置 | |
JP6361148B2 (ja) | 雑音推定装置、方法及びプログラム | |
CN113611319A (zh) | 基于语音成分实现的风噪抑制方法、装置、设备及系统 | |
US20210174820A1 (en) | Signal processing apparatus, voice speech communication terminal, signal processing method, and signal processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240214 |