JP2017078847A - 残留ノイズの抑制 - Google Patents

残留ノイズの抑制 Download PDF

Info

Publication number
JP2017078847A
JP2017078847A JP2016174112A JP2016174112A JP2017078847A JP 2017078847 A JP2017078847 A JP 2017078847A JP 2016174112 A JP2016174112 A JP 2016174112A JP 2016174112 A JP2016174112 A JP 2016174112A JP 2017078847 A JP2017078847 A JP 2017078847A
Authority
JP
Japan
Prior art keywords
signal
audio signal
preprocessed audio
envelope
portions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016174112A
Other languages
English (en)
Inventor
ダニエル ヨウ スンギュブ
Daniel Yoo Sungyub
ダニエル ヨウ スンギュブ
シエ チン
Jin Xie
シエ チン
ジェイン カピル
Jain Kapil
ジェイン カピル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Marvell World Trade Ltd
Original Assignee
Marvell World Trade Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Marvell World Trade Ltd filed Critical Marvell World Trade Ltd
Publication of JP2017078847A publication Critical patent/JP2017078847A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

【課題】入力音声信号からいくらかのノイズを除去することにより前処理済音声信号を決定する段階を含む方法を提供する。【解決手段】スピーチを含む、前処理済音声信号の複数の部分は、残留ノイズを含む、前処理済音声信号の複数の部分と分離される。残留ノイズを含む複数の部分にわたって前処理済音声信号を抑制することにより増幅信号を決定し、スピーチを含む複数の部分にわたって前処理済音声信号を維持する段階を含む。【選択図】図1A

Description

[関連出願の相互参照] 本開示は、2015年9月23日に出願された米国仮特許出願第62/222,541号の優先権を主張し、当該仮特許出願の開示はその全体が参照により本明細書に組み込まれる。
本開示は、概して、前処理済音声信号からの残留ノイズを抑制するために使用される複数の技術に関する。より明確には、複数のスピーチ部分を含む前処理済音声信号に対して、開示された複数の技術が使用され、複数のスピーチ部分を歪ませることなく、複数のスピーチ部分の間の、前処理済音声信号の複数の部分からの残留ノイズを抑制する。
音声受信器、例えば、モバイルデバイスのマイクは、(i)モバイルデバイスのユーザが話すと予期される、"スピーチの方向"に沿って音声受信器に到達するスピーチ信号(または単にスピーチ)、および(ii)(大部分で)スピーチの方向とは異なる他の方向に沿った環境雑音を受信することができる。典型的に、スピーチは、無音部分と分離される複数の発声を含む。かくして、マイクは、音声受信器に、(複数の発声の間の無音を"埋める"環境雑音のみに対応する)複数の環境雑音部分と分離される、(複数の発声と環境雑音との組み合わせに対応する)雑音の多いスピーチの複数の部分を含む音声信号を提供する。音声受信器は、従来の複数の技術を使用して、スピーチを歪ませることなく音声信号からの環境雑音を抑制することができ、従ってスピーチの方向に沿って音声受信器で受信されたかのような"スピーチビーム"を形成する。スピーチビームは、本明細書で前処理済音声信号と呼ばれるが、(抑制済環境雑音のみに対応する)複数の残留ノイズ部分と分離される、(複数の発声と抑制済環境雑音との組み合わせに対応する)複数のスピーチ部分を含む。入力音声信号に含まれるスピーチは、前処理済音声信号の、複数のスピーチ部分で小さな歪みで再現され得、これにより、ユーザが前処理済音声信号を聞く場合に、スピーチの歪みは、目立たないが、前処理済音声信号の、複数の残留ノイズ部分は、ユーザにとって騒々しく聞こえることがある。
本開示において、複数の残留ノイズ部分と分離される複数のスピーチ部分を含む前処理済音声信号に対して、複数のスピーチ部分を歪ませることなく複数の残留ノイズ部分にわたって前処理済音声信号を抑制するべく使用され得る技術が説明される。
本開示の一の態様は、入力音声信号からいくらかのノイズを除去することにより前処理済音声信号を決定する段階を含む方法として実装され得る。ここで、前処理済音声信号の、スピーチを含む複数の部分が、前処理済音声信号の、残留ノイズを含む複数の部分と分離される。さらに、方法は、残留ノイズを含む複数の部分にわたって前処理済音声信号を抑制することと、スピーチを含む複数の部分にわたって前処理済音声信号を維持することにより増幅信号を決定する段階を含む。
複数の実装は、以下の特徴のうち1又は複数を含み得る。いくつかの実装において、方法は、前処理済音声信号のエンベロープが、第1の閾値信号よりも小さいまたはそれと等しい時間に対応するように、前処理済音声信号の残留ノイズを含む複数の部分を決定する段階と、および前処理済音声信号のエンベロープが、第1の閾値信号よりも大きい時間に対応するように、前処理済信号の、スピーチを含む複数の部分を決定する段階とを含み得る。
いくつかの場合において、第1の閾値信号の値は、前処理済音声信号のエンベロープの最大値の5%から20%の範囲内であり得る。いくつかの場合において、方法は、前処理済音声信号に対して使用される増幅器のゲインを制御するためのゲイン信号を、(i)前処理済音声信号の、スピーチを含む複数の部分に対する最大ゲイン値に等しい値、および(ii)最大ゲイン値よりも小さく、前処理済音声信号の、残留ノイズを含む複数の部分に対する閾値比よりも大きいまたはそれと等しい少なくとも1つの値、に設定する段階を含み得る。例えば、閾値比の値は、最大ゲイン値の最大値の1%から5%であり得る。
いくつかの場合において、方法は、前処理済音声信号に対して非線形フィルタを使用してフィルタリング済信号を決定する段階、および第1の閾値信号を、バイアス係数にバイアスがかけられたフィルタリング済信号として決定し、第2の閾値信号を、閾値比によりバイアスがかけられた第1の閾値信号として決定する段階を含み得る。前処理済音声信号の、残留ノイズを含む複数の部分に対するゲイン信号の複数の値は、(i)前処理済音声信号のエンベロープが第2の閾値信号よりも大きいまたはそれと等しい場合の、第1の閾値信号に対する前処理済音声信号のエンベロープの比、および(ii)前処理済音声信号のエンベロープが第2の閾値信号よりも小さい場合の、第1の閾値信号に対する第2の閾値信号の比、を含み得る。例えば、バイアス係数は、前処理済音声信号のエンベロープの最大値の5%から20%の範囲内であり得る。また、前処理済音声信号に対して非線形フィルタを使用するフィルタリング済信号を決定する段階は、カットオフ周波数を有するローパスフィルタを前処理済音声信号の振幅に対して使用する段階、フィルタリング済信号がエンベロープ限界の正の値より大きく増加する場合に、フィルタリング済信号の増加をエンベロープ限界の正の値まで制限する段階、およびフィルタリング済信号がエンベロープ限界の負の値より大きく減少する場合に、フィルタリング済信号の減少をエンベロープ限界の負の値まで制限する段階、を含み得る。
いくつかの場合において、方法は、(i)前処理済音声信号のエンベロープが増加する場合に、カットオフ周波数を有するローパスフィルタを前処理済音声信号の振幅に対して使用することと、(ii)前処理済音声信号のエンベロープが減少する場合に、前処理済音声信号のエンベロープをリリース時間によりスケーリングすることとにより前処理済音声信号のエンベロープを決定する段階を含み得る。
いくつかの実装において、入力音声信号は、スピーチと環境雑音とを含み得る。そのような場合に、方法は、(i)スピーチおよび環境雑音の両方を含む、入力音声信号の複数の部分からいくらかのノイズを除去する段階に基づき、前処理済音声信号の、スピーチを含む複数の部分、および(ii)環境雑音のみを含む、入力音声信号の複数の部分からいくらかのノイズを除去する段階に基づき、前処理済音声信号の、残留ノイズを含む複数の部分、を取得する段階を含み得る。
本開示の別の態様は、前処理済音声信号から、ゲイン信号に基づき増幅信号を決定する増幅器を含む信号処理システムとして実装され得る。前処理済音声信号は、複数の残留ノイズ部分と分離される複数のスピーチ部分を含む。さらに、信号処理システムは、(i)前処理済音声信号のエンベロープが第1の閾値信号に最大で等しい時間に対応するように、前処理済音声信号の複数の残留ノイズ部分を決定し、(ii)前処理済音声信号のエンベロープが第1の閾値信号よりも大きい時間に対応するように、前処理済音声信号の複数のスピーチ部分を決定し、(iii)ゲイン信号を(1)前処理済音声信号の複数のスピーチ部分に対する最大ゲイン値に等しい値、および(2)最大ゲイン値よりも小さく、前処理済音声信号の複数の残留ノイズ部分に対する閾値比よりも大きいまたはそれと等しい少なくとも1つの値に設定する、ゲイン抑制器を含む。
複数の実装は、以下の特徴のうち1又は複数を含み得る。いくつかの実装において、第1の閾値信号の値は、前処理済音声信号のエンベロープの最大値の5%から20%の範囲内であり得る。いくつかの実装において、閾値比の値は、最大ゲイン値の最大値の1%から5%の範囲内であり得る。
いくつかの実装において、信号処理システムは、前処理済音声信号からフィルタリング済信号を決定する非線形フィルタ、および(i)バイアス係数により重み付けされたフィルタリング済信号としての第1の閾値信号、および(ii)閾値比により重み付けされた第1の閾値信号としての第2の閾値信号を生成する閾値生成器を含み得る。ここで、前処理済音声信号の、複数の残留ノイズ部分に対するゲイン信号の少なくとも1つの値は、
(1)前処理済音声信号のエンベロープが第2の閾値信号よりも大きいまたはそれと等しい場合に、第1の閾値信号に対する前処理済音声信号のエンベロープの比、および(2)前処理済音声信号のエンベロープが第2の閾値信号よりも小さい場合に、第1の閾値信号に対する第2の閾値信号の比、を含み得る。いくつかの場合において、バイアス係数は、前処理済音声信号のエンベロープの最大値の5%から20%の範囲内であり得る。いくつかの場合において、フィルタリング済信号を決定するべく、非線形フィルタは、第1のカットオフ周波数に基づき前処理済音声信号の振幅をローパスフィルタし、フィルタリング済信号がエンベロープ限界の正の値より大きく増加する場合に、フィルタリング済信号の増加をエンベロープ限界の正の値まで制限し、フィルタリング済信号がエンベロープ限界の負の値より大きく減少する場合に、フィルタリング済信号の減少をエンベロープ限界の負の値まで制限することができる。
いくつかの実装において、信号処理システムは、エンベロープが増加する場合に、カットオフ周波数に基づき、前処理済音声信号の振幅をローパスフィルタし、エンベロープが減少する場合に、リリース時間でエンベロープをスケーリングするエンベロープ生成器を含み得る。
いくつかの実装において、信号処理システムは、ハードウェアプロセッサと、ハードウェアプロセッサにより実行された場合に、信号処理システムにゲイン抑制器を使用させる命令をエンコードされた記憶媒体とを含み得る。いくつかの実装において、信号処理システムは、システムオンチップであり得る。
いくつかの実装において、信号処理システムは、スピーチおよび環境雑音を含む入力音声信号を受信し、スピーチおよび環境雑音の両方を含む、入力音声信号の複数の部分からいくらかのノイズを除去することにより前処理済音声信号の複数のスピーチ部分を取得し、環境雑音のみを含む、入力音声信号の複数の部分からいくらかのノイズを除去することにより前処理済音声信号の複数の残留ノイズ部分を取得するビーム形成器を含み得る。
開示された技術は、以下の潜在的な複数の利点のうち1又は複数をもたらし得る。例えば、スピーチの方向から受信されたスピーチと他の方向から受信された環境雑音とを含む音声信号が処理され得る。第1の信号処理段階は、環境雑音の抑制済バージョンを表わす残留ノイズを含む前処理済音声信号を取得する。開示された技術は、前処理済音声信号に含まれる残留ノイズが抑制され、前処理済音声信号に含まれるスピーチが歪みが小さく維持された処理済音声信号を取得するべく使用され得る。かくして、処理済音声信号をユーザが聞く場合に、スピーチの歪みは、目立たない。
開示されている複数の技術の1又は複数の実装の詳細が、以下の添付図面および説明の中で記載されている。他の特徴、態様、説明および潜在的な利点が、説明、図面および特許請求の範囲から明らかになるであろう。
信号処理システムの例を示す。
図1Aの信号処理システムに入力され、図1Aの信号処理システムから出力される信号の態様を示す。 図1Aの信号処理システムに入力され、図1Aの信号処理システムから出力される信号の態様を示す。
ゲイン制御器の例を示す。
エンベロープ生成器により実行される処理の例のフロー図である。
図3Aのエンベロープ生成器に入力され、図3Aのエンベロープ生成器から出力される信号の態様を示す。 図3A のエンベロープ生成器に入力され、図3Aのエンベロープ生成器から出力される信号の態様を示す。
非線形フィルタにより実行される処理の例のフロー図である。
閾値生成器により実行される処理の例のフロー図である。
ゲイン抑制器により実行される処理の例のフロー図である。
図6Aのゲイン抑制器に入力され、図6Aのゲイン抑制器から出力される信号の態様を示す。 図6Aのゲイン抑制器に入力され、図6Aのゲイン抑制器から出力される信号の態様を示す。
ゲイン制御器の実装の例を示す。
信号処理システムの別の例を示す。
図8の信号処理システムにより実行される処理のフロー図である。
図9の処理を用いて入力および出力される信号の態様を示す。 図9の処理を用いて入力および出力される信号の態様を示す。 図9の処理を用いて入力および出力される信号の態様を示す。 図9の処理を用いて入力および出力される信号の態様を示す。 図9の処理を用いて入力および出力される信号の態様を示す。 図9の処理を用いて入力および出力される信号の態様を示す。 図9の処理を用いて入力および出力される信号の態様を示す。 図9の処理を用いて入力および出力される信号の態様を示す。 図9の処理を用いて入力および出力される信号の態様を示す。
図8の信号処理システムのビーム形成器および残留ノイズ抑制器の実装の例である。
開示された技術に係るシステム、装置および方法の特定の例示的な態様は、本明細書中に以下の説明および添付の図に関して説明される。しかしながら、これらの態様は、開示されている技術の原理が使用され得る様々な方法を示すが、これらの方法のほんのいくつかであり、開示されている技術は、全てのそのような態様およびそれらの均等物を含むことが意図されている。開示されている複数の技術の他の複数の利点および複数の新規の特徴は、図と併せて考えられた場合に以下の詳細な説明から明らかになるだろう。
図1Aは、増幅器110およびゲイン制御器120を含む信号処理システム100の例を示す。増幅器110は、制御可能なゲインを有し、入力ポート102、出力ポート104およびゲイン制御部106を含む。ゲイン制御器120は、入力ポート(inP)および出力ポート(outP)を含む。ゲイン制御器120の入力ポートは、増幅器110の入力ポート102にリンクされ、ゲイン制御器の出力ポートは、増幅器のゲイン制御部106にリンクされる。
入力ポート102で受信される前処理済音声信号101は、複数のスピーチ部分および複数の残留ノイズ部分を含む。図1Bは、複数のスピーチ部分103(例えば、矢印で示された大きいrms変動を有する信号のバースト)および複数の残留ノイズ部分105(例えば、楕円で示された小さなrms変動を有する信号の複数の部分)を含む前処理済音声信号101の例を示す。信号処理システム100は、複数の残留ノイズ部分105にわたって前処理済音声信号101を抑制し、複数のスピーチ部分103にわたって前処理済音声信号を歪んでいない状態で維持するように構成される。かくして、図1Aに示される信号処理システムは、残留ノイズ抑制器100とも呼ばれる。
図2に関して以下で説明されるように、ゲイン制御器120は、前処理済音声信号101にアクセスし、前処理済音声信号から決定された情報に基づきゲイン信号121を生成する。増幅器110が、前処理済音声信号101を増幅する間、増幅器のゲインは、ゲイン信号121に基づきゲイン制御器120により制御される。このように、増幅器110は、複数のスピーチ部分(前処理済音声信号101の、歪んでいない、抑制されない複数のスピーチ部分103に対応する)および抑制済複数の残留ノイズ部分(前処理済音声信号の、残留ノイズの抑制済複数の部分105に対応する)を含む処理済音声信号111を出力する。そのような処理済音声信号111の例が、図1Cに示される。処理済音声信号111は、複数のスピーチ部分103(例えば、図1Bで示される前処理済音声信号101の、同一の複数のスピーチ部分103)および抑制済複数の残留ノイズ部分115(例えば、楕円で示され、図1Bに示される、前処理済音声信号の、複数の残留ノイズ部分105のrms変動よりも6dB小さいrms変動を有する信号の複数の部分)を含む。
図2は、ゲイン制御器120の実装を示す。ゲイン制御器120は、入力ポート(inP)および出力ポート(outP)を有する。ゲイン制御器120は、入力ポート(inP)を通じて前処理済音声信号101(図1Bに示される)にアクセスし、出力ポート(outP)は、ゲイン信号121を発する。ゲイン制御器120は、エンベロープ生成器222および非線形フィルタ224を含み、それぞれ入力ポート(inP)にリンクされる。ゲイン制御器120は、さらに、出力ポート(outP)およびエンベロープ生成器222の両方にリンクされるゲイン抑制器228を含む。また、ゲイン制御器120は、非線形フィルタ224およびゲイン抑制器228の両方にリンクされる閾値生成器226を含む。
エンベロープ生成器222は前処理済音声信号101のエンベロープ123を(図3Aに関連して以下で説明されるように)決定する。非線形フィルタ224は、前処理済音声信号101を(図4に関連して以下で説明されるように)フィルタリングし、フィルタリング済信号125を取得する。閾値生成器226は、フィルタリング済信号125を(図5に関連して以下で説明されるように)使用し、第1の閾値信号127および第2の閾値信号129を生成する。ゲイン抑制器228は、エンベロープ123と、第1の閾値信号127および第2の閾値信号129のうち少なくとも1つとを使用し、(i)前処理済音声信号101の、複数の残留ノイズ部分105を識別し、(ii)前処理済音声信号の、複数の残留ノイズ部分に対して、前処理済音声信号の複数のスピーチ部分に対するゲイン信号の複数の値よりも小さい値を有するゲイン信号121を生成する。このように、ゲイン信号121は、増幅器110のゲインを制御するべく使用され、前処理済音声信号101を、その複数の残留ノイズ部分105にわたって抑制し、前処理済音声信号を、その複数のスピーチ部分103にわたって抑制されない、歪んでいない状態にする。
図3Aは、前処理済音声信号101のエンベロープ123を決定するエンベロープ生成器222により実行される処理322の例のフロー図である。図3Aのフロー図で、前処理済音声信号101は、記号SRNで示される。かくして、SRN(k)は、前処理済音声信号SRNのk番目のサンプルに対応し、「k=0…N」である。サンプル(N+1)の総数は、総サンプリング時間Tおよびサンプリング周波数fに基づき決定されてよい(例えば、「(N+1)=T」である)。図3Bは、サンプリング周波数f=8kHzを使用してサンプリング時間T=17秒にわたって決定された前処理済音声信号SRN(101ともラベルされる)の例を示し、ここでは前処理済音声信号SRNのサンプルの総数は、13.6×10サンプルである。
さらに図3Aのフロー図で、前処理済音声信号SRNのエンベロープ123は、記号Eで示される。かくして、E(k)は、エンベロープEのk番目のサンプルに対応する(「k=0…N」である)。複数のスピーチ部分103の歪みを最小化し、前処理済音声信号SRNの複数の残留ノイズ部分105の抑制を最大化するべく、前処理済音声信号のエンベロープEは、以下で説明されるようにアタック時間定数CATおよびリリース時間定数CRTに基づき決定される。
310で、エンベロープEのゼロ番目のサンプル、すなわち、E(0)は、初期値に初期化される。例えば、E(0)の初期値は、ゼロに初期化され得る。別の例として、E(0)の初期値は、前処理済音声信号SRN(0)のゼロ番目のサンプルの振幅に設定され得、すなわち、E(0)=abs(SRN(0))である。
ループ315は、エンベロープEの残りのサンプルを決定するべく使用される。それぞれの反復は、エンベロープE(k)のサンプルを決定するべく次のように使用される。
320で、前処理済音声信号SRN(k)のk番目のサンプルの振幅が、先行する(priori)(k−1)番目のサンプルであるエンベロープE(k−1)よりも小さいかどうか、「abs(SRN(k))<E(k−1)」が決定される。320で実行された決定の結果が真である場合、前処理済音声信号SRNのエンベロープEが減少していると推定される。かくして、330で、前処理済音声信号SRNのエンベロープEは、リリース時間定数CRTによりスケーリングされる。例えば、エンベロープE(k)のk番目のサンプルは、以下のように決定される。
この時点で、ループ315の次の反復がエンベロープE(k+1)等の以降のサンプルを決定するべくトリガされる。
しかしながら、320で実行された決定の結果が偽である場合、前処理済音声信号SRNのエンベロープEが増加していると推定される。かくして、340で、前処理済音声信号SRNのエンベロープEは、不等式0≦CAT≦1を満たす、アタック時間定数CATの値に依存する、第1のカットオフ周波数fC1を有する第1のローパスフィルタを使用して、フィルタリングされる。このように、エンベロープE(k)のk番目のサンプルは、音声信号N(k)のk番目のサンプルおよびひとつ前のサンプルであるエンベロープE(k−1)の振幅の加重和として次のように決定される。
アタック時間定数CATの小さい値は、低速の第1のローパスフィルタに関連付けられている第1のカットオフ周波数fC1の小さい値に対応する。アタック時間定数CATの大きい値は、高速の第1のローパスフィルタに関連付けられている第1のカットオフ周波数fC1の大きい値に対応する。
この時点で、ループ315の次の反復がエンベロープE(k+1)等の以降のサンプルを決定するべくトリガされる。図3Cは、図3Bに示される前処理済音声信号SRNに対する処理322を用いることにより決定されるエンベロープE(123ともラベルされる)を示す。この例で、(図3Cに示される)エンベロープ123は、それが関連する前処理済音声信号101(図3Bに示される)に比較的よく続き、第(2)式に対応している第1のローパスフィルタが高速のフィルタであることを示唆する。
図4は、前処理済音声信号101をフィルタリングし、フィルタリング済信号125を取得するする、非線形フィルタ224により実行される処理424の例のフロー図である。図4のフロー図で、フィルタリング済信号125は、記号Eで示され、前処理済音声信号101は、記号SRNで示される。かくして、E(k)およびSRN(k)は、フィルタリング済信号Eおよび前処理済音声信号SRNのk番目のサンプルにそれぞれ対応する(「k=0…N」である)。
410で、フィルタリング済信号E(0)のゼロ番目のサンプルは、初期値に初期化される。例えば、E(0)の初期値は、ゼロに初期化され得る。別の例として、E(0)の初期値は、前処理済音声信号SRN(0)のゼロ番目のサンプルの振幅に設定され得、すなわち、E(0)=abs(SRN(0))である。
ループ415は、フィルタリング済信号Eの残りのサンプルを決定するべく使用される。それぞれの反復は、フィルタリング済信号E(k)のサンプルを決定するべく次のように使用される。
420で、フィルタリング済信号E(k)のk番目のサンプルは、前処理済音声信号SRN(k)のk番目のサンプルおよびフィルタリング済信号E(k−1)のひとつ前のサンプルの振幅の加重和として決定される。 例えば、フィルタリング済信号E(k)のk番目のサンプルは、次のように決定され、
ここで、αは、重みであり、0≦α≦1である。
430で、フィルタリング済信号の変化ΔEは、例えば、次に基づき決定される。
440で、フィルタリング済信号がエンベロープ限界の正の値より大きく増加するかどうか、「ΔE>+E」が決定され、エンベロープ限界の振幅は、Eである。440で実行された決定の結果が真である場合、450で、フィルタリング済信号の変化ΔEは、エンベロープ限界の正の値まで制限され、これにより、フィルタリング済信号E(k)のk番目のサンプルは、以下のように決定される。
この時点で、ループ415の次の反復がフィルタリング済信号E(k+1)等の以降のサンプルを決定するべくトリガされる。
しかしながら、440で実行された決定の結果が偽である場合、460で、フィルタリング済信号がエンベロープ限界の負の値より大きく減少するかどうか、「ΔE<-E」が決定される。460で実行された決定の結果が真である場合、470で、フィルタリング済信号の変化ΔEは、エンベロープ限界の負の値まで制限され、これにより、フィルタリング済信号E(k)のk番目のサンプルは、以下のように決定される。
この時点で、ループ415の次の反復が第2のフィルタリング済信号E(k+1)等の以降のサンプルを決定するべくトリガされる。さらに、460で実行された決定の結果が偽である場合、ループ415の次の反復がフィルタリング済信号E(k+1)等の以降のサンプルを決定するべくさらにトリガされる。
440で実行される決定および460で実行される決定の結果の両方が偽である場合に、フィルタリング済信号の変化ΔEの振幅は、エンベロープ限界の振幅よりも小さく、すなわち、abs(ΔE)≦Eである。前述の不等式が満たされる場合にのみ、フィルタリング済信号E(k)のk番目のサンプルの値は、420で、第(3)式に従って決定された状態を維持する。図3Aに関して上で説明されたように、第3式に従った実行420は、第2のカットオフ周波数がfC2である、第2のローパスフィルタを使用して前処理済音声信号SRNの振幅をフィルタリングする段階に対応し、ここで第2のカットオフ周波数fC2の値は、重みαの値に依存する。さらに、abs(ΔE)≦Eの条件が満たされる場合に、非線形フィルタ224により使用される第2のローパスフィルタの重みαの値は、エンベロープ生成器222により使用される第1のローパスフィルタのアタック時間定数CATの値よりも小さくまたは最大で等しくなるよう選択され、これにより、第2のローパスフィルタは、第1のローパスフィルタよりも低速または最大で第1のローパスフィルタと同じくらい高速である。
処理424のフロー図は、次の疑似コードの部分を使用してまとめられ得る。
図5は、閾値生成器226により実行される。フィルタリング済信号125に基づき第1の閾値信号127および第2の閾値信号129を生成する処理526の例のフロー図である。図5のフロー図で、第1の閾値信号127は、記号Thで示され、第2の閾値信号129は、記号Thで示され、フィルタリング済信号125は、記号Eで示される。かくして、Th(k)、Th(k)およびE(k)は、第1の閾値信号Th、第2の閾値信号Thおよびフィルタリング済信号Eのk番目のサンプルにそれぞれ対応し、k=0…Nである。ループ505は、第1の閾値信号Thおよび第2の閾値信号Thのサンプルを決定するべく使用される。それぞれの反復は、第1の閾値信号Th(k)のサンプルおよび第2の閾値信号Th(k)のサンプルを決定するべく次のように使用される。
510で、フィルタリング済信号Eは、バイアス係数Bを使用してバイアスがかけられ、これにより、第1の閾値Th(k)のk番目のサンプルは、以下のように決定される。
第1の閾値信号Thは、抑制されるべき前処理済音声信号SRNのエンベロープEのレベルを決定するべくゲイン抑制器228により使用されるであろう。換言すれば、第1の閾値信号は、前処理済音声信号SRNの複数の残留ノイズ部分105と複数のスピーチ部分103とを区別するべく使用されるであろう。かくして、図6Aに関して以下で説明されるように、バイアス係数Bは、抑制されるべき前処理済音声信号SRNのエンベロープEのレベルを決定するのに、第(7)式に従った調整パラメータとして使用され得る。例えば、バイアス係数Bは、前処理済音声信号SRNのエンベロープEの最大値の5%から20%の範囲内であり得る。
いくつかの実装において、第1の閾値信号は、同一の定数に設定され得、例えば、Th(k)=Thであり、全てに対してk=1…Nである。この場合、定数Thは、例えば、バイアス係数Bになり得る。
520で、第1の閾値信号Thは、閾値比Rを使用してバイアスされ得、これにより、第2の閾値Th(k)のk番目のサンプルは、以下のように決定される。
第2の閾値信号Thは、抑制されるべき前処理済音声信号SRNのエンベロープEの量を決定するべくゲイン抑制器228により使用されるであろう。換言すれば、第2の閾値信号は、前処理済音声信号SRNの複数の残留ノイズ部分105にわたる、前処理済音声信号SRNの完全な抑制を防ぐべく使用されるであろう。これにより、増幅器110により出力される処理済音声信号111は、複数のスピーチ部分103間の完全な無音の複数の部分を含まない。かくして、閾値比Rは、第(8)式に従って調整パラメータとして使用され得、抑制されるべき前処理済音声信号SRNのエンベロープEの量を決定する。例えば、閾値比Rは、0.1から0.9の範囲内であり得る。
いくつかの実装において、バイアス係数B、または閾値比R、またはその両方を調整する段階は、ゲイン制御器120の製造の前の設計時間に実行される。いくつかの実装において、バイアス係数B、または閾値比R、またはその両方を調整する段階は、ゲイン制御器120の出荷の前の製造時(例えば、それ自身により、または残留ノイズ抑制器100の一部としての何れか)に実行される。いくつかの実装において、バイアス係数B、または閾値比R、またはその両方を調整する段階は、ゲイン制御器120のユーザインタフェースを通じてユーザにより、またはアプリケーションプログラミングインタフェース(API)を通じてゲイン制御器とインタラクトする別の処理により、ランタイムに(すなわち、現場で)実行される。
図6Aは、(i)前処理済音声信号101の複数のスピーチ部分103および複数の残留ノイズ部分105を識別し、(ii)前処理済音声信号の複数の残留ノイズ部分に対して、前処理済音声信号の複数のスピーチ部分に対するゲイン信号の複数の値よりも小さい値を有するゲイン信号121を生成する、ゲイン抑制器228により実行される処理628の例のフロー図である。処理628のフロー図で、ゲイン信号121は、記号Gで示され、前処理済音声信号101のエンベロープ123は、記号Eで示され、第1の閾値信号127は、記号Thで示され、第2の閾値信号129は、記号Thで示される。かくして、G(k)、E(k)、Th(k)およびTh(k)は、ゲイン信号G、エンベロープE、第1の閾値信号Thおよび第2の閾値信号Thにk番目のサンプルにそれぞれ対応し、k=0…Nである。ループ605は、少なくともゲイン信号Gの複数のサンプルを決定するべく使用される。それぞれの反復は、ゲイン信号G(k)の少なくとも1つのサンプルを決定するべく次のように使用される。
610で、ゲイン信号G(k)のk番目のサンプルに関連付けられているサンプリング時間が、残留ノイズ105に対応する、前処理済音声信号SRNのエンベロープEの一部に属するかどうかが決定される。この決定をするべく、第1の閾値信号Thのk番目のサンプルの値がエンベロープE(k)のk番目のサンプルの値よりも大きいかどうか、すなわち、E(k)<Th(k)が試験される。図6Bは、前処理済音声信号SRNのエンベロープE(123ともラベルされる)、第1の閾値信号Th(127ともラベルされる)および第2の閾値信号Th(129ともラベルされる)のオーバレイを示すグラフ660である。610で実行されるテストがグラフ660に示される信号に適用される場合に、前処理済音声信号SRNのエンベロープEが残留ノイズ105に対応する複数の部分を含むことが決定され得る。グラフ660で、これらの複数の残留ノイズ部分105は、エンベロープEの複数の値が第1の閾値信号Thを下回る複数のサンプリング時間に関連付けられている。対照的に、スピーチ103に対応する、前処理済音声信号SRNのエンベロープEの複数の部分は、エンベロープEの複数の値が第1の閾値信号Thを上回る複数のサンプリング時間に関連付けられている。
再び図6Aを参照すると、610で実行されるテストの結果が偽である場合、ゲインサンプルG(k)に関連付けられているサンプリング時間が、残留ノイズ105に対応する、前処理済音声信号SRNのエンベロープEの一部に属さないことが決定される。かくして、620で、ゲイン信号G(k)のk番目のサンプルの値は、例えば、最大ゲイン値GMAXに設定され得る。図6Aで示される例で、GMAX=1である。このように、複数の残留ノイズ部分105とは異なる、前処理済音声信号101の複数の部分(例えば、前処理済音声信号の複数のスピーチ部分103)は、抑制されないであろう。この時点で、ループ605の次の反復がゲイン信号Q(k+1)等の以降のサンプルの値を決定するべくトリガされる。図6Cは、増幅器110に入力される前処理済音声信号101の関数として、その増幅器から出力される処理済音声信号111を示すグラフ670である。ここで、処理628を用いてゲイン抑制器228により生成されるゲイン信号Gは、前処理済音声信号101の関数として処理済音声信号111の傾斜を表す。第1の閾値信号Thよりも大きい前処理済音声信号101の複数の値に対して、ゲイン信号Gは、1に設定される。
再び図6Aを参照すると、610で実行されるテストの結果が真である場合、630で、第2の閾値信号Th(k)のk番目のサンプルの値がエンベロープE(k)のk番目のサンプルの値よりも小さいかどうか、すなわち、E(k)≧Th(k)が決定される。630で実行される決定の結果が真である場合、640で、ゲイン信号G(k)のk番目のサンプルの値が、第1の閾値信号Th(k)のk番目のサンプルの値に対するエンベロープE(k)のk番目のサンプルの値の比に次のように設定される。
610でE(k)<Th(k)が満たされると決定されているので、第(9)式により、ゲイン信号G(k)のk番目のサンプルの値は確実に1より小さくなる。このように、残留ノイズに実際に対応する前処理済音声信号101の複数の部分は、抑制されるであろう。この時点で、ループ605の次の反復がゲイン信号G(k+1)等の以降のサンプルを決定するべくトリガされる。
図6B−6Cで示唆されるように、第1の閾値信号Thは、ゲイン抑制器125の調整パラメータを表す。例えば、第1の閾値信号Thのより大きい複数の値に対して、ゲイン信号Gのより大きな望まれない抑制、従って前処理済音声信号101の、複数のスピーチ部分103のより多くの歪みがあり得るが、しかしながら、前処理済音声信号の、複数の残留ノイズ部分105のより多くの抑制があり得る。逆に、第1の閾値信号Thのより小さい複数の値に対して、ゲイン信号Gのより小さな望まれない抑制、従って前処理済音声信号101、の複数のスピーチ部分103のより少ない歪みがあり得るが、しかしながら、前処理済音声信号の、複数の残留ノイズ部分105のより少ない抑制があり得る。いくつかの実装において、第1の閾値信号Thを調整する段階は、ゲイン制御器120の製造の前の設計時間に実行される。いくつかの実装において、第1の閾値信号Thを調整する段階は、ゲイン制御器120の出荷の前の製造時(例えば、それ自身により、または残留ノイズ抑制器100の一部としての何れか)に実行される。いくつかの実装において、第1の閾値信号Thを調整する段階は、ゲイン制御器120のユーザインタフェースを通じてユーザにより、またはアプリケーションプログラミングインタフェース(API)を通じてゲイン制御器とインタラクトする別の処理により、ランタイムに(すなわち、現場で)実行される。
再び図6Aを参照すると、630で実行される決定の結果が偽である場合、650で、ゲイン信号G(k)のk番目のサンプルの値が、第1の閾値信号Thのk番目のサンプルの値に対する第2の閾値信号Th(k)のk番目のサンプルの値の比に、次のように設定される。
第2の閾値信号Thが、第(8)式に従って、バイアス係数が、閾値比Rである第1の閾値信号Th1のバイアスがかけられた値になるべく決定されるので、ゲイン信号G(k)のk番目のサンプルは、第2の閾値信号Thよりも小さい前処理済音声信号101の、複数の残留ノイズ部分105の複数の値に対して以下のように表され得る。
前述の条件に対応するサンプリング時間は、図6Bで前処理済音声信号101の、複数の残留ノイズ部分105を表す楕円の中で特定され得る。さらに、第(8)式に関して上で説明されたように、閾値比Rは、1よりも小さい値を有し、これにより、前処理済音声信号101の、複数の残留ノイズ部分105のこれらの複数のサブ部分もまた抑制されるであろう。この時点で、ループ605の次の反復がゲイン信号G(k+1)等の以降のサンプルを決定するべくトリガされる。
再び図6Cのグラフ670を参照すると、前処理済音声信号101の、複数の残留ノイズ部分105に対応する、第1の閾値信号Thよりも小さい前処理済音声信号101の、エンベロープ123の複数の値に対して、ゲイン信号Gは、1よりも小さい。このように、前処理済音声信号101の複数の残留ノイズ部分105は、増幅器110により抑制されるであろう。さらに、前処理済音声信号101の、複数の残留ノイズ部分105の振幅の小さい複数の信号サブ部分に対応する、第2の閾値信号Thよりもさらに小さい前処理済音声信号101のエンベロープ123の複数の値に対して、ゲイン信号Gは、(第(10')式に関して上で説明されたように、1よりも小さい、「R<1」である)閾値比Rに等しい最大値を有する。かくして、このゲイン信号Gの値は、増幅器110に、前処理済音声信号101の複数の残留ノイズ部分105に対して最も小さい抑制を与えさせる。さらに、前処理済音声信号101の、複数の残留ノイズ部分105の振幅の大きい複数の信号サブ部分に対応する、第1の閾値信号Thと第2の閾値信号Thとの間にある前処理済音声信号101のエンベロープ123の複数の値に対して、ゲイン信号Gは、0と閾値比Rとの間の小さい値を有する。そのようなゲイン信号Gの小さい複数の値は、増幅器110に、前処理済音声信号101の、複数の残留ノイズ部分105に対して大きい抑制を与えさせる。
いくつかの実装において、図7に示されるように、残留ノイズ抑制器100がソフトウェアで実装され得る。ここで、コンピューティング装置760は、デジタル信号プロセッサ762と、複数の残留ノイズ抑制器命令100iをエンコードする記憶媒体764(例えば、メモリ、ハードドライブ等)とを含み、これらの複数の命令は、デジタル信号プロセッサにより実行された場合に、コンピューティング装置に処理322、424、526および628の一部として増幅器110およびゲイン制御器120により実行される少なくともいくつかのオペレーションを実行させる。いくつかの実装において、コンピューティング装置760は、システムオンチップ(SOC)実装等の1又は複数の集積回路装置を使用して実装される。
図1Aに関して上記された、残留ノイズ抑制器100が前処理済信号101を決定する他の信号処理システムと共に使用される複数の応用が以下で開示される。
図8は、ビーム形成器802と、図1Aに関して上記された残留ノイズ抑制器100とを含む信号処理システム800の例を示す。ここで、ビーム形成器802は、前処理済音声信号101を決定し、残留ノイズ抑制器100は、さらに前処理済音声信号を処理する。
ビーム形成器802は、(i)スピーチの方向に沿って信号処理システム800に到達するスピーチ、および(ii)(大部分で)スピーチの方向とは異なる他の方向に沿った環境雑音を受信するように構成される2つの入力ポート805Aおよび805Bを有する。典型的に、スピーチは、無音と分離される発声を含む。かくして、入力ポート805Aおよび805Bに含まれるそれぞれのマイクは、受信されるスピーチおよび環境雑音を入力音声信号801Aおよび801Bに変換する。かくして、入力音声信号801A、801Bのそれぞれは、(複数の発声の間の無音を"埋める"環境雑音のみに対応する)複数の環境雑音部分と分離される、(複数の発声と環境雑音との組み合わせに対応する)雑音の多いスピーチの複数の部分を含む。ビーム形成器802は、入力音声信号801A、801Bからの環境雑音を抑制し、入力音声信号の複数のスピーチ部分を、歪んでいない状態で維持するように構成される。かくして、ビーム形成器802は、入力音声信号801A、801Bを指向性フィルタリングし、前処理済音声信号101を出力する。換言すれば、ビーム形成器802は、スピーチに関連付けられているスピーチの方向に沿って、入力ポート805A、805Bに到達するビームに対応する、前処理済音声信号101を出力する。さらに、前処理済音声信号101は、複数のスピーチ部分と、それらの複数のスピーチ部分を分離する複数の残留ノイズ部分とを含む。残留ノイズ抑制器100は、(i)前処理済音声信号101を受信し、(ii)さらに複数の残留ノイズ部分にわたって前処理済音声信号を抑制し、複数のスピーチ部分にわたって前処理済音声信号を歪んでいない状態で維持する。かくして、残留ノイズ抑制器100は、残留ノイズが抑制済処理済音声信号111を出力する。
いくつかの実装において、入力ポート805A、805Bは、さらに複数のアナログ―デジタル変換回路(ADC)を含み、これによりビーム形成器802により処理されるべき入力音声信号801A、801Bは、デジタル信号である。そのような場合に、ADCのサンプリング率は、例えば、f=8kHzまたは16kHzであり得、入力ポート805A、805Bにより受信されるスピーチは、十分にサンプリングされ得る。
ビーム形成器802は、入力ポート805A、805Bにリンクされる平均化器810と、平均化器810にリンクされる減算器834とを含む。ビーム形成器802は、さらに減算器824Aと、平均化器810および減算器824Aの両方にリンクされるゲインおよび位相ループ820Aと、入力ポート805Aおよび減算器824Aの両方にリンクされる遅延822Aとを含む。また、ビーム形成器802は、減算器834にリンクされる加算器832と、減算器824Aおよび加算器832の両方にリンクされるノイズキャンセル適応(NCA:noise cancelation adaptive)フィルタ830Aとを含む。さらに、ビーム形成器802は、減算器824Bと、平均化器810および減算器824Bの両方にリンクされるゲインおよび位相ループ820Bと、入力ポート805Bおよび減算器824Bの両方にリンクされる遅延822Bと、減算器824Bおよび加算器832の両方にリンクされるNCAフィルタ830Bとを含む。いくつかの実施形態において、ビーム形成器802は、2016年3月1日に発行された米国特許第9,276,618号に説明されたシステムおよび手法に従って実装され、当該特許はその全体が参照により本明細書に組み込まれる。
残留ノイズ抑制器100の複数の構成要素は、図1Aおよび図2に関連して上で詳細に説明された。図8で示される例で、残留ノイズ抑制器100の入力ポート102は、ビーム形成器802の減算器834にリンクされる。
信号処理システム800は、複数の音声信号からの環境雑音を抑制するべく、複数の抑制の段階を使用して処理900を実行するべく実装されるよう、その複数の機能的な態様が以下で説明される。図9は、処理900のフロー図である。
910で、ビーム形成器802は、複数の残留ノイズ部分105と分離される複数のスピーチ部分103を含む前処理済音声信号101を決定する。前処理済音声信号101を決定するべく、ビーム形成器802は、以下の操作を実行する。
912で、ビーム形成器802は、それぞれスピーチおよび環境雑音を含む入力音声信号805A、805Bを受信する。スピーチの方向に沿ってビーム形成器802の入力ポート805A、805Bに到達するスピーチは、実質的に同時に入力ポートにより受信され、一方、スピーチの方向とは異なる方向に沿って入力ポートに到達する環境雑音は、異なる時間で入力ポートにより受信される。このように、入力音声信号801A、801Bの、複数のスピーチ部分は、互いに同位相であり、一方入力音声信号の、複数の環境雑音部分は、互いに反位相、または互いに対して遅延している。図10Aは、例えば、パブで発せられた複数のスピーチ部分103、および複数の環境雑音部分804を含む入力音声信号801Aの例を示す。図11Aは、例えば、走行中の車の中で発せられた複数のスピーチ部分、および複数の環境雑音部分804'を含む入力音声信号801A'の別の例を示す。図12Aは、さらに、例えば、街路で発せられた複数のスピーチ部分、および複数の環境雑音部分804"を含む入力音声信号801A"の別の例を示す。
以下で説明されるように、914で、ビーム形成器802は、入力音声信号801A、801Bから環境雑音804の一部を抑制する。図8を参照すると、平均化器810は、入力音声信号801A、801Bを平均化し、平均入力音声信号815を取得する。ゲインおよび位相ループ820Aは、平均入力音声信号815の振幅および位相を調整し、入力音声信号801A、801Bの複数のスピーチ部分103の表現である調整された平均入力音声信号の第1のインスタンスを取得する。遅延822Aは、入力音声信号801Aの遅延を調整し、第1の調整された入力音声信号を取得する。次に、減算器824Aは、第1の調整された入力音声信号からの調整された平均入力音声信号の第1のインスタンスを減算し、入力音声信号801A、801Bの複数の環境雑音部分804の表現である(基準ノイズの第1のインスタンスである)第1のノイズを示す信号825Aを取得する。ゲインおよび位相ループ820Bは、平均入力音声信号815の振幅および位相を調整し、入力音声信号801A、801Bの複数のスピーチ部分103の別の表現である調整された平均入力音声信号の第2のインスタンスを取得する。遅延822Bは、入力音声信号801Bの遅延を調整し、第2の調整された入力音声信号を取得する。次に、減算器824Bは、第2の調整された入力音声信号からの調整された平均入力音声信号の第2のインスタンスを減算し、入力音声信号801A、801Bの複数の環境雑音部分804の別の表現であり(基準ノイズの第2のインスタンスである)第2のノイズを示す信号825Bを取得する。NCAフィルタ830Aは、基準ノイズ825Aをフィルタリングしフィルタリング済基準ノイズの第1のインスタンスを取得する。NCAフィルタ830Bは、基準ノイズ825Bをフィルタリングし、フィルタリング済基準ノイズの第2のインスタンスを取得する。次に、加算器832は、フィルタリング済基準ノイズの第1および第2のインスタンスを加算し、入力音声信号801A、801Bの複数の環境雑音部分804の再構築されたバージョンである再構築されたノイズ信号835を取得する。減算器834は、平均入力音声信号815から再構築されたノイズ信号835を減算し、前処理済音声信号101を取得する。
前処理済音声信号101は、(歪みなく再現された平均入力音声信号815の複数のスピーチ部分に対応する)複数のスピーチ部分および複数のスピーチ部分を分離する複数の残留ノイズ部分105を含む。前処理済音声信号101の、複数の残留ノイズ部分105は、平均入力音声信号815がビーム形成器802により抑制されている複数の環境雑音部分804に対応する。図10Bは、複数のスピーチ部分103、および複数の残留ノイズ部分105を含む前処理済音声信号101の例を示し、後者は、図10Aに示される、パブで発せられた複数の環境雑音部分804に対応する。図11Bは、複数のスピーチ部分、および複数の残留ノイズ部分105'を含む前処理済音声信号101'の例を示し、後者は、図11Aに示される、走行中の車の中で発せられた複数の環境雑音部分804'に対応する。図12Bは、複数のスピーチ部分、および複数の残留ノイズ部分105"を含む、前処理済音声信号101"のさらに別の例を示し、後者は、図12Aに示される、街路で発せられた複数の環境雑音部分804"に対応する。前述の例のそれぞれで、ビーム形成器802は、それぞれの複数の環境雑音部分801A、801A'、801A"にわたって入力音声信号801A、801A'、801A"の約3dBの抑制をもたらし、前処理済音声信号101、101'、101"の、対応する複数の残留ノイズ部分105、105'、105"を取得する。
処理900は、続いて、920で、残留ノイズ抑制器100が、前処理済音声信号101から処理済音声信号111を決定する。残留ノイズ抑制器100が処理済信号111を決定するべく増幅器110を使用するので、処理済信号111は、増幅信号111とも呼ばれる。処理済音声信号111を決定するべく、残留ノイズ抑制器100は、以下の操作を実行する。
922で、残留ノイズ抑制器100は、前処理済音声信号101の複数のスピーチ部分103および複数の残留ノイズ部分105を決定する。922を実行するべく、残留ノイズ抑制器100は、図1Aおよび図2に関連して上記されたゲイン制御器120を使用する。ゲイン制御器120は、図3A、4、5および6Aに関連して上記されたように、複数の処理322、424、526および処理628のオペレーション610を用いて、前処理済音声信号101の複数のスピーチ部分103および複数の残留ノイズ部分105を決定する。
924で、残留ノイズ抑制器100は、ゲイン信号121に基づき、増幅器110のゲインを制御し、(i)複数のスピーチ部分103にわたって前処理済音声信号101を歪んでいない状態で再現し、(ii)複数の残留ノイズ部分105にわたって前処理済音声信号を抑制する。残留ノイズ抑制器100は、図6Aに関連して上記されたように、処理628のオペレーション620−650に従って、ゲイン制御器120を使用することによりゲイン信号121を生成する。
さらに、残留ノイズ抑制器100により出力される処理済音声信号111は、(歪みおよび抑制なく再現された前処理済音声信号101の複数のスピーチ部分に対応する)複数のスピーチ部分103および複数のスピーチ部分を分離する抑制済複数の残留ノイズ部分115を含む。処理済音声信号111の抑制済複数の残留ノイズ部分115は、平均入力音声信号815がビーム形成器802により抑制済複数の環境雑音部分804に対応し、前処理済音声信号101は、残留ノイズ抑制器100により抑制されている。
図10Cは、複数のスピーチ部分103、および抑制済複数の残留ノイズ部分115を含む処理済音声信号111の例を示し、後者は、図10Aに示される、パブで発せられた複数の環境雑音部分804に対応する。図11Cは、複数のスピーチ部分、および抑制済複数の残留ノイズ部分115'を含む処理済音声信号111'の例を示し、後者は、図11Aに示される、走行中の車の中で発せられた複数の環境雑音部分804'に対応する。図12Cは、複数のスピーチ部分、および抑制済複数の残留ノイズ部分115"を含む、処理済音声信号111"の例を示し、後者は、図12Aに示される、街路で発せられた複数の環境雑音部分804"に対応する。前述の例のそれぞれで、残留ノイズ抑制器100は、それぞれの複数の残留ノイズ部分105、105'、105"にわたって前処理済音声信号101、101'、101"の追加の約6dBの抑制をもたらし、処理済音声信号111、111'、111"の、対応する複数の抑制済残留ノイズ部分115、115'、115"を取得する。
いくつかの実装において、信号処理システム800のビーム形成器802および残留ノイズ抑制器100は、図13に示されるように、ソフトウェアで実装され得る。ここで、コンピューティング装置1360は、デジタル信号プロセッサ1362と、ビーム形成器命令802iおよび残留ノイズ抑制器命令100iをエンコードする記憶媒体1364(例えば、メモリ、ハードドライブ等)とを含み、これらの複数の命令は、デジタル信号プロセッサにより実行された場合に、コンピューティング装置に処理900の一部としてビーム形成器802および残留ノイズ抑制器140により実行される少なくともいくつかのオペレーションを実行させる。いくつかの実装において、コンピューティング装置1360は、システムオンチップ(SOC)実装等の1又は複数の集積回路装置を使用して実装される。
いくつかの実施形態が上記で詳細に説明され、様々な変更形態が可能である。本明細書で説明される複数の機能的なオペレーションを含む、開示されている主題は、電子回路、コンピュータ、ファームウェア、ソフトウェア、またはそれらの複数の組み合わせで実装され得、本明細書で開示される構造的な手段およびその構造的な均等物は、1又は複数の制御器および埋め込みコードを含み得る、システムオンチップ(SOC)実装を含む。
本明細書は、多くの具体的事項を含むが、これらは、特許請求され得ることの範囲に対する限定として解釈されるべきではなく、むしろ具体的な複数の実施形態に特有であり得る複数の特徴の複数の説明として解釈されるべきである。また、本明細書において別個の実施形態の文脈で説明される特定の複数の特徴は、単一の実施形態において組み合わせて実装されることもできる。逆に、単一の実施形態の文脈で説明される様々な特徴は、別個に、または任意の好適なサブコンビネーションでも複数の実施形態において実装され得る。さらに、複数の特徴は、特定の組み合わせで動作するものとして上記され、そのようなものとして初めに特許請求され得るが、いくつかの場合、特許請求される組み合わせの1又は複数の特徴は、組み合わせから除去することができ、特許請求される組み合わせは、サブコンビネーションまたはサブコンビネーションの変形例を対象としてもよい。
同様に、複数のオペレーションは、特定の順序で図面において図示されるが、これは、所望の結果を実現するべく、そのような複数のオペレーションが示される特定の順序もしくは連続した順序で実行され、または図示される全てのオペレーションが実行されることを要求するものとして理解されるべきでない。特定の状況において、マルチタスクおよび並列処理が有利であり得る。さらに、上記の複数の実施形態における様々なシステムコンポーネントの分離は、全ての実施形態においてそのような分離を必要とするものと理解されるべきではない。
他の実施形態が、以下の特許請求の範囲の範囲内に含まれる。

Claims (20)

  1. 入力音声信号からいくらかのノイズを除去することにより前処理済音声信号を決定する段階であって、前記前処理済音声信号の、スピーチを含む複数の部分が、前記前処理済音声信号の、残留ノイズを含む複数の部分と分離される、前処理済音声信号を決定する段階と、
    前記残留ノイズを含む複数の部分にわたって前記前処理済音声信号を抑制することと、
    前記スピーチを含む複数の部分にわたって前記前処理済音声信号を維持することと、により増幅信号を決定する段階と
    を備える方法。
  2. 前記前処理済音声信号のエンベロープが、第1の閾値信号以下となる時間に対応するように、前記前処理済音声信号の、前記残留ノイズを含む複数の部分を決定する段階と、
    前記前処理済音声信号の前記エンベロープが、前記第1の閾値信号よりも大きい時間に対応するように、前記前処理済音声信号の、前記スピーチを含む複数の部分を決定する段階とをさらに備える請求項1に記載の方法。
  3. 前記第1の閾値信号の値は、前記前処理済音声信号の前記エンベロープの最大値の5%から20%の範囲内である請求項2に記載の方法。
  4. 前記前処理済音声信号に対して使用される増幅器のゲインを制御するためのゲイン信号を、
    前記前処理済音声信号の、前記スピーチを含む複数の部分に対する最大ゲイン値に等しい値と、
    前記最大ゲイン値よりも小さく、前記前処理済音声信号の、前記残留ノイズを含む複数の部分に対する閾値比以上となる少なくとも1つの値と、に設定する段階をさらに備える請求項2または3に記載の方法。
  5. 前記閾値比の値は、前記最大ゲイン値の最大値の1%から5%である請求項4に記載の方法。
  6. 前記前処理済音声信号に対して非線形フィルタを使用してフィルタリング済信号を決定する段階と、
    前記第1の閾値信号を、バイアス係数にバイアスがかけられた前記フィルタリング済信号として決定し、第2の閾値信号を、閾値比によりバイアスがかけられた前記第1の閾値信号として決定する段階と
    をさらに備え、
    前記前処理済音声信号の、前記残留ノイズを含む複数の部分に対する前記ゲイン信号の複数の値は、
    前記前処理済音声信号の前記エンベロープが前記第2の閾値信号よりも大きいまたはそれと等しい場合の、前記第1の閾値信号に対する前記前処理済音声信号の前記エンベロープの比と、
    前記前処理済音声信号の前記エンベロープが前記第2の閾値信号よりも小さい場合の、前記第1の閾値信号に対する前記第2の閾値信号の比と、を含む請求項4に記載の方法。
  7. 前記バイアス係数は、前記前処理済音声信号の前記エンベロープの最大値の5%から20%の範囲内である請求項6に記載の方法。
  8. 前記前処理済音声信号に対して前記非線形フィルタを使用する前記フィルタリング済信号を前記決定する段階は、
    カットオフ周波数を有するローパスフィルタを前記前処理済音声信号の振幅に対して使用する段階と、
    前記フィルタリング済信号がエンベロープ限界の正の値より大きく増加する場合に、前記フィルタリング済信号の増加を前記エンベロープ限界の前記正の値まで制限する段階と、
    前記フィルタリング済信号が前記エンベロープ限界の負の値より大きく減少する場合に、前記フィルタリング済信号の減少を前記エンベロープ限界の前記負の値まで制限する段階と
    を有する請求項6または7に記載の方法。
  9. 前記前処理済音声信号の前記エンベロープが増加する場合に、カットオフ周波数を有するローパスフィルタを前記前処理済音声信号の振幅に対して使用することと、
    前記前処理済音声信号の前記エンベロープが減少する場合に、前記前処理済音声信号の前記エンベロープをリリース時間によりスケーリングすることと
    により前記前処理済音声信号の前記エンベロープを決定する段階をさらに備える請求項2から8のいずれか一項に記載の方法。
  10. 前記入力音声信号は、スピーチと、環境雑音とを含み、
    前記スピーチおよび前記環境雑音の両方を含む、前記入力音声信号の複数の部分からいくらかのノイズを除去する段階に基づき、前記前処理済音声信号の、前記スピーチを含む複数の部分を取得し、
    前記環境雑音のみを含む、前記入力音声信号の複数の部分からいくらかのノイズを除去する段階に基づき、前記前処理済音声信号の、前記残留ノイズを含む複数の部分を取得する
    段階をさらに備える請求項1から9のいずれか一項に記載の方法。
  11. 前処理済音声信号から、ゲイン信号に基づき増幅信号を決定する増幅器であって、前記前処理済音声信号は、複数の残留ノイズ部分と分離される複数のスピーチ部分を含む、増幅器と、
    ゲイン抑制器であって、
    前記前処理済音声信号のエンベロープが第1の閾値信号以下となる時間に対応するように、前記前処理済音声信号の、前記複数の残留ノイズ部分を決定し、
    前記前処理済音声信号の前記エンベロープが前記第1の閾値信号よりも大きくなる時間に対応するように、前記前処理済音声信号の、前記複数のスピーチ部分を決定し、
    前記ゲイン信号を、
    前記前処理済音声信号の、前記複数のスピーチ部分に対する最大ゲイン値に等しい値と、
    前記最大ゲイン値よりも小さく、前記前処理済音声信号の、前記複数の残留ノイズ部分に対する閾値比以上となる少なくとも1つの値とに設定する、ゲイン抑制器と
    を備える
    信号処理システム。
  12. 前記第1の閾値信号の値は、前記前処理済音声信号の前記エンベロープの最大値の5%から20%の範囲内である請求項11に記載の信号処理システム。
  13. 前記閾値比の値は、前記最大ゲイン値の最大値の1%から5%の範囲内である請求項11または12に記載の信号処理システム。
  14. 前記前処理済音声信号からのフィルタリング済信号を決定する非線形フィルタと、
    閾値生成器であって、
    バイアス係数により重み付けされた前記フィルタリング済信号として前記第1の閾値信号を生成し、
    前記閾値比により重み付けされた前記第1の閾値信号として第2の閾値信号を生成する閾値生成器とを備え、
    前記前処理済音声信号の、前記複数の残留ノイズ部分に対する前記ゲイン信号の前記少なくとも1つの値は、
    前記前処理済音声信号の前記エンベロープが前記第2の閾値信号以上となる場合に、前記第1の閾値信号に対する前記前処理済音声信号の前記エンベロープの比を含み、
    前記前処理済音声信号の前記エンベロープが前記第2の閾値信号よりも小さい場合に、前記第1の閾値信号に対する前記第2の閾値信号の比を含む請求項11から13のいずれか一項に記載の信号処理システム。
  15. 前記バイアス係数は、前記前処理済音声信号の前記エンベロープの最大値の5%から20%の範囲内である請求項14に記載の信号処理システム。
  16. 前記フィルタリング済信号を決定するべく、前記非線形フィルタは、
    第1のカットオフ周波数に基づき前記前処理済音声信号の振幅をローパスフィルタし、
    前記フィルタリング済信号がエンベロープ限界の正の値より大きく増加する場合に、前記フィルタリング済信号の増加を前記エンベロープ限界の前記正の値まで制限し、
    前記フィルタリング済信号が前記エンベロープ限界の負の値より大きく減少する場合に、前記フィルタリング済信号の減少を前記エンベロープ限界の前記負の値まで制限する請求項14または15に記載の信号処理システム。
  17. 前記エンベロープが増加する場合に、カットオフ周波数に基づき、前記前処理済音声信号の振幅をローパスフィルタし、前記エンベロープが減少する場合に、リリース時間で前記エンベロープをスケーリングするエンベロープ生成器を備える請求項16に記載の信号処理システム。
  18. ハードウェアプロセッサと、
    前記ハードウェアプロセッサにより実行された場合に、前記信号処理システムに前記ゲイン抑制器を使用させる命令をエンコードされた記憶媒体とを備える請求項11から17のいずれか一項に記載の信号処理システム。
  19. 前記システムは、システムオンチップである請求項11から18のいずれか一項に記載の信号処理システム。
  20. スピーチおよび環境雑音を含む入力音声信号を受信し、
    前記スピーチおよび前記環境雑音の両方を含む、前記入力音声信号の複数の部分からいくらかのノイズを除去することにより前記前処理済音声信号の、前記複数のスピーチ部分を取得し、
    前記環境雑音のみを含む、前記入力音声信号の複数の部分からいくらかのノイズを除去することにより前記前処理済音声信号の、前記複数の残留ノイズ部分を取得する
    ビーム形成器をさらに備える請求項11から19のいずれか一項に記載の信号処理システム。
JP2016174112A 2015-09-23 2016-09-06 残留ノイズの抑制 Pending JP2017078847A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562222541P 2015-09-23 2015-09-23
US62/222,541 2015-09-23

Publications (1)

Publication Number Publication Date
JP2017078847A true JP2017078847A (ja) 2017-04-27

Family

ID=58282936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016174112A Pending JP2017078847A (ja) 2015-09-23 2016-09-06 残留ノイズの抑制

Country Status (2)

Country Link
US (1) US10079031B2 (ja)
JP (1) JP2017078847A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120226B (zh) * 2018-02-06 2021-09-03 成都鼎桥通信技术有限公司 一种专网集群终端语音尾噪消除方法和设备
US10553236B1 (en) * 2018-02-27 2020-02-04 Amazon Technologies, Inc. Multichannel noise cancellation using frequency domain spectrum masking
US20200184987A1 (en) * 2020-02-10 2020-06-11 Intel Corporation Noise reduction using specific disturbance models

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPS102902A0 (en) * 2002-03-13 2002-04-11 Hearworks Pty Ltd A method and system for reducing potentially harmful noise in a signal arranged to convey speech
US8223988B2 (en) * 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
FR2944640A1 (fr) * 2009-04-17 2010-10-22 France Telecom Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal.
EP2528358A1 (en) * 2011-05-23 2012-11-28 Oticon A/S A method of identifying a wireless communication channel in a sound system
US20140270219A1 (en) * 2013-03-15 2014-09-18 CSR Technology, Inc. Method, apparatus, and manufacture for beamforming with fixed weights and adaptive selection or resynthesis
US9276618B1 (en) 2013-05-03 2016-03-01 Marvell International Ltd. Systems and methods for sidelobe cancellation
US9847082B2 (en) * 2013-08-23 2017-12-19 Honeywell International Inc. System for modifying speech recognition and beamforming using a depth image

Also Published As

Publication number Publication date
US20170084289A1 (en) 2017-03-23
US10079031B2 (en) 2018-09-18

Similar Documents

Publication Publication Date Title
US7680652B2 (en) Periodic signal enhancement system
US8170879B2 (en) Periodic signal enhancement system
EP2987316B1 (en) Echo cancellation
EP3114683B1 (en) Audio signal processing
US7610196B2 (en) Periodic signal enhancement system
US8447044B2 (en) Adaptive LPC noise reduction system
US20040078200A1 (en) Noise reduction in subbanded speech signals
US10553236B1 (en) Multichannel noise cancellation using frequency domain spectrum masking
JP4689269B2 (ja) 静的スペクトルパワー依存型音響強調システム
WO2006122389A1 (en) Adaptive gain control system
EP3389477B1 (en) Suppression of breath in audio signals
JPWO2012038998A1 (ja) 雑音抑圧装置
JP6283413B2 (ja) 適応型残留フィードバック抑制
US20010038699A1 (en) Automatic directional processing control for multi-microphone system
US9137611B2 (en) Method, system and computer program product for estimating a level of noise
JP2017078847A (ja) 残留ノイズの抑制
US20100017203A1 (en) Automatic level control of speech signals
JP5975290B2 (ja) ハウリング抑圧装置、補聴器、ハウリング抑圧方法、及び集積回路
US8243955B2 (en) System for attenuating noise in an input signal
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출
US9940946B2 (en) Sharp noise suppression
US20130054233A1 (en) Method, System and Computer Program Product for Attenuating Noise Using Multiple Channels
EP3952335A1 (en) Echo suppression device, echo suppression method, and echo suppression program
CN109308907B (zh) 单信道降噪
JP2006126841A (ja) 周期信号増強システム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20200407