JP2017078847A

JP2017078847A - 残留ノイズの抑制

Info

Publication number: JP2017078847A
Application number: JP2016174112A
Authority: JP
Inventors: ダニエルヨウスンギュブ; Daniel Yoo Sungyub; シエチン; Jin Xie; ジェインカピル; Jain Kapil
Original assignee: Marvell World Trade Ltd
Current assignee: Marvell World Trade Ltd
Priority date: 2015-09-23
Filing date: 2016-09-06
Publication date: 2017-04-27
Also published as: US20170084289A1; US10079031B2

Abstract

【課題】入力音声信号からいくらかのノイズを除去することにより前処理済音声信号を決定する段階を含む方法を提供する。【解決手段】スピーチを含む、前処理済音声信号の複数の部分は、残留ノイズを含む、前処理済音声信号の複数の部分と分離される。残留ノイズを含む複数の部分にわたって前処理済音声信号を抑制することにより増幅信号を決定し、スピーチを含む複数の部分にわたって前処理済音声信号を維持する段階を含む。【選択図】図１Ａ

Description

［関連出願の相互参照］本開示は、２０１５年９月２３日に出願された米国仮特許出願第６２／２２２，５４１号の優先権を主張し、当該仮特許出願の開示はその全体が参照により本明細書に組み込まれる。

本開示は、概して、前処理済音声信号からの残留ノイズを抑制するために使用される複数の技術に関する。より明確には、複数のスピーチ部分を含む前処理済音声信号に対して、開示された複数の技術が使用され、複数のスピーチ部分を歪ませることなく、複数のスピーチ部分の間の、前処理済音声信号の複数の部分からの残留ノイズを抑制する。

音声受信器、例えば、モバイルデバイスのマイクは、（ｉ）モバイルデバイスのユーザが話すと予期される、"スピーチの方向"に沿って音声受信器に到達するスピーチ信号（または単にスピーチ）、および（ｉｉ）（大部分で）スピーチの方向とは異なる他の方向に沿った環境雑音を受信することができる。典型的に、スピーチは、無音部分と分離される複数の発声を含む。かくして、マイクは、音声受信器に、（複数の発声の間の無音を"埋める"環境雑音のみに対応する）複数の環境雑音部分と分離される、（複数の発声と環境雑音との組み合わせに対応する）雑音の多いスピーチの複数の部分を含む音声信号を提供する。音声受信器は、従来の複数の技術を使用して、スピーチを歪ませることなく音声信号からの環境雑音を抑制することができ、従ってスピーチの方向に沿って音声受信器で受信されたかのような"スピーチビーム"を形成する。スピーチビームは、本明細書で前処理済音声信号と呼ばれるが、（抑制済環境雑音のみに対応する）複数の残留ノイズ部分と分離される、（複数の発声と抑制済環境雑音との組み合わせに対応する）複数のスピーチ部分を含む。入力音声信号に含まれるスピーチは、前処理済音声信号の、複数のスピーチ部分で小さな歪みで再現され得、これにより、ユーザが前処理済音声信号を聞く場合に、スピーチの歪みは、目立たないが、前処理済音声信号の、複数の残留ノイズ部分は、ユーザにとって騒々しく聞こえることがある。

本開示において、複数の残留ノイズ部分と分離される複数のスピーチ部分を含む前処理済音声信号に対して、複数のスピーチ部分を歪ませることなく複数の残留ノイズ部分にわたって前処理済音声信号を抑制するべく使用され得る技術が説明される。

本開示の一の態様は、入力音声信号からいくらかのノイズを除去することにより前処理済音声信号を決定する段階を含む方法として実装され得る。ここで、前処理済音声信号の、スピーチを含む複数の部分が、前処理済音声信号の、残留ノイズを含む複数の部分と分離される。さらに、方法は、残留ノイズを含む複数の部分にわたって前処理済音声信号を抑制することと、スピーチを含む複数の部分にわたって前処理済音声信号を維持することにより増幅信号を決定する段階を含む。

複数の実装は、以下の特徴のうち１又は複数を含み得る。いくつかの実装において、方法は、前処理済音声信号のエンベロープが、第１の閾値信号よりも小さいまたはそれと等しい時間に対応するように、前処理済音声信号の残留ノイズを含む複数の部分を決定する段階と、および前処理済音声信号のエンベロープが、第１の閾値信号よりも大きい時間に対応するように、前処理済信号の、スピーチを含む複数の部分を決定する段階とを含み得る。

いくつかの場合において、第１の閾値信号の値は、前処理済音声信号のエンベロープの最大値の５％から２０％の範囲内であり得る。いくつかの場合において、方法は、前処理済音声信号に対して使用される増幅器のゲインを制御するためのゲイン信号を、（ｉ）前処理済音声信号の、スピーチを含む複数の部分に対する最大ゲイン値に等しい値、および（ｉｉ）最大ゲイン値よりも小さく、前処理済音声信号の、残留ノイズを含む複数の部分に対する閾値比よりも大きいまたはそれと等しい少なくとも１つの値、に設定する段階を含み得る。例えば、閾値比の値は、最大ゲイン値の最大値の１％から５％であり得る。

いくつかの場合において、方法は、前処理済音声信号に対して非線形フィルタを使用してフィルタリング済信号を決定する段階、および第１の閾値信号を、バイアス係数にバイアスがかけられたフィルタリング済信号として決定し、第２の閾値信号を、閾値比によりバイアスがかけられた第１の閾値信号として決定する段階を含み得る。前処理済音声信号の、残留ノイズを含む複数の部分に対するゲイン信号の複数の値は、（ｉ）前処理済音声信号のエンベロープが第２の閾値信号よりも大きいまたはそれと等しい場合の、第１の閾値信号に対する前処理済音声信号のエンベロープの比、および（ｉｉ）前処理済音声信号のエンベロープが第２の閾値信号よりも小さい場合の、第１の閾値信号に対する第２の閾値信号の比、を含み得る。例えば、バイアス係数は、前処理済音声信号のエンベロープの最大値の５％から２０％の範囲内であり得る。また、前処理済音声信号に対して非線形フィルタを使用するフィルタリング済信号を決定する段階は、カットオフ周波数を有するローパスフィルタを前処理済音声信号の振幅に対して使用する段階、フィルタリング済信号がエンベロープ限界の正の値より大きく増加する場合に、フィルタリング済信号の増加をエンベロープ限界の正の値まで制限する段階、およびフィルタリング済信号がエンベロープ限界の負の値より大きく減少する場合に、フィルタリング済信号の減少をエンベロープ限界の負の値まで制限する段階、を含み得る。

いくつかの場合において、方法は、（ｉ）前処理済音声信号のエンベロープが増加する場合に、カットオフ周波数を有するローパスフィルタを前処理済音声信号の振幅に対して使用することと、（ｉｉ）前処理済音声信号のエンベロープが減少する場合に、前処理済音声信号のエンベロープをリリース時間によりスケーリングすることとにより前処理済音声信号のエンベロープを決定する段階を含み得る。

いくつかの実装において、入力音声信号は、スピーチと環境雑音とを含み得る。そのような場合に、方法は、（ｉ）スピーチおよび環境雑音の両方を含む、入力音声信号の複数の部分からいくらかのノイズを除去する段階に基づき、前処理済音声信号の、スピーチを含む複数の部分、および（ｉｉ）環境雑音のみを含む、入力音声信号の複数の部分からいくらかのノイズを除去する段階に基づき、前処理済音声信号の、残留ノイズを含む複数の部分、を取得する段階を含み得る。

本開示の別の態様は、前処理済音声信号から、ゲイン信号に基づき増幅信号を決定する増幅器を含む信号処理システムとして実装され得る。前処理済音声信号は、複数の残留ノイズ部分と分離される複数のスピーチ部分を含む。さらに、信号処理システムは、（ｉ）前処理済音声信号のエンベロープが第１の閾値信号に最大で等しい時間に対応するように、前処理済音声信号の複数の残留ノイズ部分を決定し、（ｉｉ）前処理済音声信号のエンベロープが第１の閾値信号よりも大きい時間に対応するように、前処理済音声信号の複数のスピーチ部分を決定し、（ｉｉｉ）ゲイン信号を（１）前処理済音声信号の複数のスピーチ部分に対する最大ゲイン値に等しい値、および（２）最大ゲイン値よりも小さく、前処理済音声信号の複数の残留ノイズ部分に対する閾値比よりも大きいまたはそれと等しい少なくとも１つの値に設定する、ゲイン抑制器を含む。

複数の実装は、以下の特徴のうち１又は複数を含み得る。いくつかの実装において、第１の閾値信号の値は、前処理済音声信号のエンベロープの最大値の５％から２０％の範囲内であり得る。いくつかの実装において、閾値比の値は、最大ゲイン値の最大値の１％から５％の範囲内であり得る。

いくつかの実装において、信号処理システムは、前処理済音声信号からフィルタリング済信号を決定する非線形フィルタ、および（ｉ）バイアス係数により重み付けされたフィルタリング済信号としての第１の閾値信号、および（ｉｉ）閾値比により重み付けされた第１の閾値信号としての第２の閾値信号を生成する閾値生成器を含み得る。ここで、前処理済音声信号の、複数の残留ノイズ部分に対するゲイン信号の少なくとも１つの値は、
（１）前処理済音声信号のエンベロープが第２の閾値信号よりも大きいまたはそれと等しい場合に、第１の閾値信号に対する前処理済音声信号のエンベロープの比、および（２）前処理済音声信号のエンベロープが第２の閾値信号よりも小さい場合に、第１の閾値信号に対する第２の閾値信号の比、を含み得る。いくつかの場合において、バイアス係数は、前処理済音声信号のエンベロープの最大値の５％から２０％の範囲内であり得る。いくつかの場合において、フィルタリング済信号を決定するべく、非線形フィルタは、第１のカットオフ周波数に基づき前処理済音声信号の振幅をローパスフィルタし、フィルタリング済信号がエンベロープ限界の正の値より大きく増加する場合に、フィルタリング済信号の増加をエンベロープ限界の正の値まで制限し、フィルタリング済信号がエンベロープ限界の負の値より大きく減少する場合に、フィルタリング済信号の減少をエンベロープ限界の負の値まで制限することができる。

いくつかの実装において、信号処理システムは、エンベロープが増加する場合に、カットオフ周波数に基づき、前処理済音声信号の振幅をローパスフィルタし、エンベロープが減少する場合に、リリース時間でエンベロープをスケーリングするエンベロープ生成器を含み得る。

いくつかの実装において、信号処理システムは、ハードウェアプロセッサと、ハードウェアプロセッサにより実行された場合に、信号処理システムにゲイン抑制器を使用させる命令をエンコードされた記憶媒体とを含み得る。いくつかの実装において、信号処理システムは、システムオンチップであり得る。

いくつかの実装において、信号処理システムは、スピーチおよび環境雑音を含む入力音声信号を受信し、スピーチおよび環境雑音の両方を含む、入力音声信号の複数の部分からいくらかのノイズを除去することにより前処理済音声信号の複数のスピーチ部分を取得し、環境雑音のみを含む、入力音声信号の複数の部分からいくらかのノイズを除去することにより前処理済音声信号の複数の残留ノイズ部分を取得するビーム形成器を含み得る。

開示された技術は、以下の潜在的な複数の利点のうち１又は複数をもたらし得る。例えば、スピーチの方向から受信されたスピーチと他の方向から受信された環境雑音とを含む音声信号が処理され得る。第１の信号処理段階は、環境雑音の抑制済バージョンを表わす残留ノイズを含む前処理済音声信号を取得する。開示された技術は、前処理済音声信号に含まれる残留ノイズが抑制され、前処理済音声信号に含まれるスピーチが歪みが小さく維持された処理済音声信号を取得するべく使用され得る。かくして、処理済音声信号をユーザが聞く場合に、スピーチの歪みは、目立たない。

開示されている複数の技術の１又は複数の実装の詳細が、以下の添付図面および説明の中で記載されている。他の特徴、態様、説明および潜在的な利点が、説明、図面および特許請求の範囲から明らかになるであろう。

信号処理システムの例を示す。

図１Ａの信号処理システムに入力され、図１Ａの信号処理システムから出力される信号の態様を示す。図１Ａの信号処理システムに入力され、図１Ａの信号処理システムから出力される信号の態様を示す。

ゲイン制御器の例を示す。

エンベロープ生成器により実行される処理の例のフロー図である。

図３Ａのエンベロープ生成器に入力され、図３Ａのエンベロープ生成器から出力される信号の態様を示す。図３Ａのエンベロープ生成器に入力され、図３Ａのエンベロープ生成器から出力される信号の態様を示す。

非線形フィルタにより実行される処理の例のフロー図である。

閾値生成器により実行される処理の例のフロー図である。

ゲイン抑制器により実行される処理の例のフロー図である。

図６Ａのゲイン抑制器に入力され、図６Ａのゲイン抑制器から出力される信号の態様を示す。図６Ａのゲイン抑制器に入力され、図６Ａのゲイン抑制器から出力される信号の態様を示す。

ゲイン制御器の実装の例を示す。

信号処理システムの別の例を示す。

図８の信号処理システムにより実行される処理のフロー図である。

図９の処理を用いて入力および出力される信号の態様を示す。図９の処理を用いて入力および出力される信号の態様を示す。図９の処理を用いて入力および出力される信号の態様を示す。図９の処理を用いて入力および出力される信号の態様を示す。図９の処理を用いて入力および出力される信号の態様を示す。図９の処理を用いて入力および出力される信号の態様を示す。図９の処理を用いて入力および出力される信号の態様を示す。図９の処理を用いて入力および出力される信号の態様を示す。図９の処理を用いて入力および出力される信号の態様を示す。

図８の信号処理システムのビーム形成器および残留ノイズ抑制器の実装の例である。

開示された技術に係るシステム、装置および方法の特定の例示的な態様は、本明細書中に以下の説明および添付の図に関して説明される。しかしながら、これらの態様は、開示されている技術の原理が使用され得る様々な方法を示すが、これらの方法のほんのいくつかであり、開示されている技術は、全てのそのような態様およびそれらの均等物を含むことが意図されている。開示されている複数の技術の他の複数の利点および複数の新規の特徴は、図と併せて考えられた場合に以下の詳細な説明から明らかになるだろう。

図１Ａは、増幅器１１０およびゲイン制御器１２０を含む信号処理システム１００の例を示す。増幅器１１０は、制御可能なゲインを有し、入力ポート１０２、出力ポート１０４およびゲイン制御部１０６を含む。ゲイン制御器１２０は、入力ポート（ｉｎＰ）および出力ポート（ｏｕｔＰ）を含む。ゲイン制御器１２０の入力ポートは、増幅器１１０の入力ポート１０２にリンクされ、ゲイン制御器の出力ポートは、増幅器のゲイン制御部１０６にリンクされる。

入力ポート１０２で受信される前処理済音声信号１０１は、複数のスピーチ部分および複数の残留ノイズ部分を含む。図１Ｂは、複数のスピーチ部分１０３（例えば、矢印で示された大きいｒｍｓ変動を有する信号のバースト）および複数の残留ノイズ部分１０５（例えば、楕円で示された小さなｒｍｓ変動を有する信号の複数の部分）を含む前処理済音声信号１０１の例を示す。信号処理システム１００は、複数の残留ノイズ部分１０５にわたって前処理済音声信号１０１を抑制し、複数のスピーチ部分１０３にわたって前処理済音声信号を歪んでいない状態で維持するように構成される。かくして、図１Ａに示される信号処理システムは、残留ノイズ抑制器１００とも呼ばれる。

図２に関して以下で説明されるように、ゲイン制御器１２０は、前処理済音声信号１０１にアクセスし、前処理済音声信号から決定された情報に基づきゲイン信号１２１を生成する。増幅器１１０が、前処理済音声信号１０１を増幅する間、増幅器のゲインは、ゲイン信号１２１に基づきゲイン制御器１２０により制御される。このように、増幅器１１０は、複数のスピーチ部分（前処理済音声信号１０１の、歪んでいない、抑制されない複数のスピーチ部分１０３に対応する）および抑制済複数の残留ノイズ部分（前処理済音声信号の、残留ノイズの抑制済複数の部分１０５に対応する）を含む処理済音声信号１１１を出力する。そのような処理済音声信号１１１の例が、図１Ｃに示される。処理済音声信号１１１は、複数のスピーチ部分１０３（例えば、図１Ｂで示される前処理済音声信号１０１の、同一の複数のスピーチ部分１０３）および抑制済複数の残留ノイズ部分１１５（例えば、楕円で示され、図１Ｂに示される、前処理済音声信号の、複数の残留ノイズ部分１０５のｒｍｓ変動よりも６ｄＢ小さいｒｍｓ変動を有する信号の複数の部分）を含む。

図２は、ゲイン制御器１２０の実装を示す。ゲイン制御器１２０は、入力ポート（ｉｎＰ）および出力ポート（ｏｕｔＰ）を有する。ゲイン制御器１２０は、入力ポート（ｉｎＰ）を通じて前処理済音声信号１０１（図１Ｂに示される）にアクセスし、出力ポート（ｏｕｔＰ）は、ゲイン信号１２１を発する。ゲイン制御器１２０は、エンベロープ生成器２２２および非線形フィルタ２２４を含み、それぞれ入力ポート（ｉｎＰ）にリンクされる。ゲイン制御器１２０は、さらに、出力ポート（ｏｕｔＰ）およびエンベロープ生成器２２２の両方にリンクされるゲイン抑制器２２８を含む。また、ゲイン制御器１２０は、非線形フィルタ２２４およびゲイン抑制器２２８の両方にリンクされる閾値生成器２２６を含む。

エンベロープ生成器２２２は前処理済音声信号１０１のエンベロープ１２３を（図３Ａに関連して以下で説明されるように）決定する。非線形フィルタ２２４は、前処理済音声信号１０１を（図４に関連して以下で説明されるように）フィルタリングし、フィルタリング済信号１２５を取得する。閾値生成器２２６は、フィルタリング済信号１２５を（図５に関連して以下で説明されるように）使用し、第１の閾値信号１２７および第２の閾値信号１２９を生成する。ゲイン抑制器２２８は、エンベロープ１２３と、第１の閾値信号１２７および第２の閾値信号１２９のうち少なくとも１つとを使用し、（ｉ）前処理済音声信号１０１の、複数の残留ノイズ部分１０５を識別し、（ｉｉ）前処理済音声信号の、複数の残留ノイズ部分に対して、前処理済音声信号の複数のスピーチ部分に対するゲイン信号の複数の値よりも小さい値を有するゲイン信号１２１を生成する。このように、ゲイン信号１２１は、増幅器１１０のゲインを制御するべく使用され、前処理済音声信号１０１を、その複数の残留ノイズ部分１０５にわたって抑制し、前処理済音声信号を、その複数のスピーチ部分１０３にわたって抑制されない、歪んでいない状態にする。

図３Ａは、前処理済音声信号１０１のエンベロープ１２３を決定するエンベロープ生成器２２２により実行される処理３２２の例のフロー図である。図３Ａのフロー図で、前処理済音声信号１０１は、記号Ｓ_ＲＮで示される。かくして、Ｓ_ＲＮ（ｋ）は、前処理済音声信号Ｓ_ＲＮのｋ番目のサンプルに対応し、「ｋ＝０…Ｎ」である。サンプル（Ｎ＋１）の総数は、総サンプリング時間Ｔ_Ｓおよびサンプリング周波数ｆ_Ｓに基づき決定されてよい（例えば、「（Ｎ＋１）＝Ｔ_Ｓｆ_Ｓ」である）。図３Ｂは、サンプリング周波数ｆ_Ｓ＝８ｋＨｚを使用してサンプリング時間Ｔ_Ｓ＝１７秒にわたって決定された前処理済音声信号Ｓ_ＲＮ（１０１ともラベルされる）の例を示し、ここでは前処理済音声信号Ｓ_ＲＮのサンプルの総数は、１３．６×１０^４サンプルである。

さらに図３Ａのフロー図で、前処理済音声信号Ｓ_ＲＮのエンベロープ１２３は、記号Ｅで示される。かくして、Ｅ（ｋ）は、エンベロープＥのｋ番目のサンプルに対応する（「ｋ＝０…Ｎ」である）。複数のスピーチ部分１０３の歪みを最小化し、前処理済音声信号Ｓ_ＲＮの複数の残留ノイズ部分１０５の抑制を最大化するべく、前処理済音声信号のエンベロープＥは、以下で説明されるようにアタック時間定数Ｃ_ＡＴおよびリリース時間定数Ｃ_ＲＴに基づき決定される。

３１０で、エンベロープＥのゼロ番目のサンプル、すなわち、Ｅ（０）は、初期値に初期化される。例えば、Ｅ（０）の初期値は、ゼロに初期化され得る。別の例として、Ｅ（０）の初期値は、前処理済音声信号Ｓ_ＲＮ（０）のゼロ番目のサンプルの振幅に設定され得、すなわち、Ｅ（０）＝ａｂｓ（Ｓ_ＲＮ（０））である。

ループ３１５は、エンベロープＥの残りのサンプルを決定するべく使用される。それぞれの反復は、エンベロープＥ（ｋ）のサンプルを決定するべく次のように使用される。

３２０で、前処理済音声信号Ｓ_ＲＮ（ｋ）のｋ番目のサンプルの振幅が、先行する（ｐｒｉｏｒｉ）（ｋ−１）番目のサンプルであるエンベロープＥ（ｋ−１）よりも小さいかどうか、「ａｂｓ（Ｓ_ＲＮ（ｋ））＜Ｅ（ｋ−１）」が決定される。３２０で実行された決定の結果が真である場合、前処理済音声信号Ｓ_ＲＮのエンベロープＥが減少していると推定される。かくして、３３０で、前処理済音声信号Ｓ_ＲＮのエンベロープＥは、リリース時間定数Ｃ_ＲＴによりスケーリングされる。例えば、エンベロープＥ（ｋ）のｋ番目のサンプルは、以下のように決定される。
この時点で、ループ３１５の次の反復がエンベロープＥ（ｋ＋１）等の以降のサンプルを決定するべくトリガされる。

しかしながら、３２０で実行された決定の結果が偽である場合、前処理済音声信号Ｓ_ＲＮのエンベロープＥが増加していると推定される。かくして、３４０で、前処理済音声信号Ｓ_ＲＮのエンベロープＥは、不等式０≦ＣＡＴ≦１を満たす、アタック時間定数Ｃ_ＡＴの値に依存する、第１のカットオフ周波数ｆ_Ｃ１を有する第１のローパスフィルタを使用して、フィルタリングされる。このように、エンベロープＥ（ｋ）のｋ番目のサンプルは、音声信号Ｎ_Ｒ（ｋ）のｋ番目のサンプルおよびひとつ前のサンプルであるエンベロープＥ（ｋ−１）の振幅の加重和として次のように決定される。
アタック時間定数Ｃ_ＡＴの小さい値は、低速の第１のローパスフィルタに関連付けられている第１のカットオフ周波数ｆ_Ｃ１の小さい値に対応する。アタック時間定数Ｃ_ＡＴの大きい値は、高速の第１のローパスフィルタに関連付けられている第１のカットオフ周波数ｆ_Ｃ１の大きい値に対応する。

この時点で、ループ３１５の次の反復がエンベロープＥ（ｋ＋１）等の以降のサンプルを決定するべくトリガされる。図３Ｃは、図３Ｂに示される前処理済音声信号Ｓ_ＲＮに対する処理３２２を用いることにより決定されるエンベロープＥ（１２３ともラベルされる）を示す。この例で、（図３Ｃに示される）エンベロープ１２３は、それが関連する前処理済音声信号１０１（図３Ｂに示される）に比較的よく続き、第（２）式に対応している第１のローパスフィルタが高速のフィルタであることを示唆する。

図４は、前処理済音声信号１０１をフィルタリングし、フィルタリング済信号１２５を取得するする、非線形フィルタ２２４により実行される処理４２４の例のフロー図である。図４のフロー図で、フィルタリング済信号１２５は、記号Ｅ_Ｓで示され、前処理済音声信号１０１は、記号Ｓ_ＲＮで示される。かくして、Ｅ_Ｓ（ｋ）およびＳ_ＲＮ（ｋ）は、フィルタリング済信号Ｅ_Ｓおよび前処理済音声信号Ｓ_ＲＮのｋ番目のサンプルにそれぞれ対応する（「ｋ＝０…Ｎ」である）。

４１０で、フィルタリング済信号Ｅ_Ｓ（０）のゼロ番目のサンプルは、初期値に初期化される。例えば、Ｅ_Ｓ（０)の初期値は、ゼロに初期化され得る。別の例として、Ｅ_Ｓ（０)の初期値は、前処理済音声信号Ｓ_ＲＮ（０）のゼロ番目のサンプルの振幅に設定され得、すなわち、Ｅ_Ｓ（０)＝ａｂｓ（Ｓ_ＲＮ（０））である。

ループ４１５は、フィルタリング済信号Ｅ_Ｓの残りのサンプルを決定するべく使用される。それぞれの反復は、フィルタリング済信号Ｅ_Ｓ（ｋ）のサンプルを決定するべく次のように使用される。

４２０で、フィルタリング済信号Ｅ_Ｓ（ｋ）のｋ番目のサンプルは、前処理済音声信号Ｓ_ＲＮ（ｋ）のｋ番目のサンプルおよびフィルタリング済信号Ｅ_Ｓ（ｋ−１）のひとつ前のサンプルの振幅の加重和として決定される。例えば、フィルタリング済信号Ｅ_Ｓ（ｋ）のｋ番目のサンプルは、次のように決定され、
ここで、αは、重みであり、０≦α≦１である。

４３０で、フィルタリング済信号の変化ΔＥ_Ｓは、例えば、次に基づき決定される。

４４０で、フィルタリング済信号がエンベロープ限界の正の値より大きく増加するかどうか、「ΔＥ_Ｓ＞＋Ｅ_Ｌ」が決定され、エンベロープ限界の振幅は、Ｅ_Ｌである。４４０で実行された決定の結果が真である場合、４５０で、フィルタリング済信号の変化ΔＥ_Ｓは、エンベロープ限界の正の値まで制限され、これにより、フィルタリング済信号Ｅ_Ｓ（ｋ）のｋ番目のサンプルは、以下のように決定される。
この時点で、ループ４１５の次の反復がフィルタリング済信号Ｅ_Ｓ（ｋ＋１）等の以降のサンプルを決定するべくトリガされる。

しかしながら、４４０で実行された決定の結果が偽である場合、４６０で、フィルタリング済信号がエンベロープ限界の負の値より大きく減少するかどうか、「ΔＥ_Ｓ＜-Ｅ_Ｌ」が決定される。４６０で実行された決定の結果が真である場合、４７０で、フィルタリング済信号の変化ΔＥ_Ｓは、エンベロープ限界の負の値まで制限され、これにより、フィルタリング済信号Ｅ_Ｓ（ｋ）のｋ番目のサンプルは、以下のように決定される。
この時点で、ループ４１５の次の反復が第２のフィルタリング済信号Ｅ_Ｓ（ｋ＋１）等の以降のサンプルを決定するべくトリガされる。さらに、４６０で実行された決定の結果が偽である場合、ループ４１５の次の反復がフィルタリング済信号Ｅ_Ｓ（ｋ＋１）等の以降のサンプルを決定するべくさらにトリガされる。

４４０で実行される決定および４６０で実行される決定の結果の両方が偽である場合に、フィルタリング済信号の変化ΔＥ_Ｓの振幅は、エンベロープ限界の振幅よりも小さく、すなわち、ａｂｓ（ΔＥ_Ｓ）≦Ｅ_Ｌである。前述の不等式が満たされる場合にのみ、フィルタリング済信号Ｅ_Ｓ（ｋ）のｋ番目のサンプルの値は、４２０で、第（３）式に従って決定された状態を維持する。図３Ａに関して上で説明されたように、第３式に従った実行４２０は、第２のカットオフ周波数がｆ_Ｃ２である、第２のローパスフィルタを使用して前処理済音声信号Ｓ_ＲＮの振幅をフィルタリングする段階に対応し、ここで第２のカットオフ周波数ｆ_Ｃ２の値は、重みαの値に依存する。さらに、ａｂｓ（ΔＥ_Ｓ）≦Ｅ_Ｌの条件が満たされる場合に、非線形フィルタ２２４により使用される第２のローパスフィルタの重みαの値は、エンベロープ生成器２２２により使用される第１のローパスフィルタのアタック時間定数Ｃ_ＡＴの値よりも小さくまたは最大で等しくなるよう選択され、これにより、第２のローパスフィルタは、第１のローパスフィルタよりも低速または最大で第１のローパスフィルタと同じくらい高速である。

処理４２４のフロー図は、次の疑似コードの部分を使用してまとめられ得る。

図５は、閾値生成器２２６により実行される。フィルタリング済信号１２５に基づき第１の閾値信号１２７および第２の閾値信号１２９を生成する処理５２６の例のフロー図である。図５のフロー図で、第１の閾値信号１２７は、記号Ｔｈ_１で示され、第２の閾値信号１２９は、記号Ｔｈ_２で示され、フィルタリング済信号１２５は、記号Ｅ_Ｓで示される。かくして、Ｔｈ_１（ｋ）、Ｔｈ_２（ｋ）およびＥ_Ｓ（ｋ）は、第１の閾値信号Ｔｈ_１、第２の閾値信号Ｔｈ_２およびフィルタリング済信号Ｅ_Ｓのｋ番目のサンプルにそれぞれ対応し、ｋ＝０…Ｎである。ループ５０５は、第１の閾値信号Ｔｈ_１および第２の閾値信号Ｔｈ_２のサンプルを決定するべく使用される。それぞれの反復は、第１の閾値信号Ｔｈ_１（ｋ）のサンプルおよび第２の閾値信号Ｔｈ_２（ｋ）のサンプルを決定するべく次のように使用される。

５１０で、フィルタリング済信号Ｅ_Ｓは、バイアス係数Ｂを使用してバイアスがかけられ、これにより、第１の閾値Ｔｈ_１（ｋ）のｋ番目のサンプルは、以下のように決定される。

第１の閾値信号Ｔｈ_１は、抑制されるべき前処理済音声信号Ｓ_ＲＮのエンベロープＥのレベルを決定するべくゲイン抑制器２２８により使用されるであろう。換言すれば、第１の閾値信号は、前処理済音声信号Ｓ_ＲＮの複数の残留ノイズ部分１０５と複数のスピーチ部分１０３とを区別するべく使用されるであろう。かくして、図６Ａに関して以下で説明されるように、バイアス係数Ｂは、抑制されるべき前処理済音声信号Ｓ_ＲＮのエンベロープＥのレベルを決定するのに、第（７）式に従った調整パラメータとして使用され得る。例えば、バイアス係数Ｂは、前処理済音声信号Ｓ_ＲＮのエンベロープＥの最大値の５％から２０％の範囲内であり得る。

いくつかの実装において、第１の閾値信号は、同一の定数に設定され得、例えば、Ｔｈ_１（ｋ）＝Ｔｈ_１であり、全てに対してｋ＝１…Ｎである。この場合、定数Ｔｈ_１は、例えば、バイアス係数Ｂになり得る。

５２０で、第１の閾値信号Ｔｈ_１は、閾値比Ｒを使用してバイアスされ得、これにより、第２の閾値Ｔｈ_２（ｋ）のｋ番目のサンプルは、以下のように決定される。

第２の閾値信号Ｔｈ_２は、抑制されるべき前処理済音声信号Ｓ_ＲＮのエンベロープＥの量を決定するべくゲイン抑制器２２８により使用されるであろう。換言すれば、第２の閾値信号は、前処理済音声信号Ｓ_ＲＮの複数の残留ノイズ部分１０５にわたる、前処理済音声信号Ｓ_ＲＮの完全な抑制を防ぐべく使用されるであろう。これにより、増幅器１１０により出力される処理済音声信号１１１は、複数のスピーチ部分１０３間の完全な無音の複数の部分を含まない。かくして、閾値比Ｒは、第（８）式に従って調整パラメータとして使用され得、抑制されるべき前処理済音声信号Ｓ_ＲＮのエンベロープＥの量を決定する。例えば、閾値比Ｒは、０．１から０．９の範囲内であり得る。

いくつかの実装において、バイアス係数Ｂ、または閾値比Ｒ、またはその両方を調整する段階は、ゲイン制御器１２０の製造の前の設計時間に実行される。いくつかの実装において、バイアス係数Ｂ、または閾値比Ｒ、またはその両方を調整する段階は、ゲイン制御器１２０の出荷の前の製造時（例えば、それ自身により、または残留ノイズ抑制器１００の一部としての何れか）に実行される。いくつかの実装において、バイアス係数Ｂ、または閾値比Ｒ、またはその両方を調整する段階は、ゲイン制御器１２０のユーザインタフェースを通じてユーザにより、またはアプリケーションプログラミングインタフェース（ＡＰＩ）を通じてゲイン制御器とインタラクトする別の処理により、ランタイムに（すなわち、現場で）実行される。

図６Ａは、（ｉ）前処理済音声信号１０１の複数のスピーチ部分１０３および複数の残留ノイズ部分１０５を識別し、（ｉｉ）前処理済音声信号の複数の残留ノイズ部分に対して、前処理済音声信号の複数のスピーチ部分に対するゲイン信号の複数の値よりも小さい値を有するゲイン信号１２１を生成する、ゲイン抑制器２２８により実行される処理６２８の例のフロー図である。処理６２８のフロー図で、ゲイン信号１２１は、記号Ｇで示され、前処理済音声信号１０１のエンベロープ１２３は、記号Ｅで示され、第１の閾値信号１２７は、記号Ｔｈ_１で示され、第２の閾値信号１２９は、記号Ｔｈ_２で示される。かくして、Ｇ（ｋ）、Ｅ（ｋ）、Ｔｈ_１（ｋ）およびＴｈ_２（ｋ）は、ゲイン信号Ｇ、エンベロープＥ、第１の閾値信号Ｔｈ_１および第２の閾値信号Ｔｈ_２にｋ番目のサンプルにそれぞれ対応し、ｋ＝０…Ｎである。ループ６０５は、少なくともゲイン信号Ｇの複数のサンプルを決定するべく使用される。それぞれの反復は、ゲイン信号Ｇ（ｋ）の少なくとも１つのサンプルを決定するべく次のように使用される。

６１０で、ゲイン信号Ｇ（ｋ）のｋ番目のサンプルに関連付けられているサンプリング時間が、残留ノイズ１０５に対応する、前処理済音声信号Ｓ_ＲＮのエンベロープＥの一部に属するかどうかが決定される。この決定をするべく、第１の閾値信号Ｔｈ_１のｋ番目のサンプルの値がエンベロープＥ（ｋ）のｋ番目のサンプルの値よりも大きいかどうか、すなわち、Ｅ（ｋ）＜Ｔｈ_１（ｋ）が試験される。図６Ｂは、前処理済音声信号Ｓ_ＲＮのエンベロープＥ（１２３ともラベルされる）、第１の閾値信号Ｔｈ_１（１２７ともラベルされる）および第２の閾値信号Ｔｈ_２（１２９ともラベルされる）のオーバレイを示すグラフ６６０である。６１０で実行されるテストがグラフ６６０に示される信号に適用される場合に、前処理済音声信号Ｓ_ＲＮのエンベロープＥが残留ノイズ１０５に対応する複数の部分を含むことが決定され得る。グラフ６６０で、これらの複数の残留ノイズ部分１０５は、エンベロープＥの複数の値が第１の閾値信号Ｔｈ_１を下回る複数のサンプリング時間に関連付けられている。対照的に、スピーチ１０３に対応する、前処理済音声信号Ｓ_ＲＮのエンベロープＥの複数の部分は、エンベロープＥの複数の値が第１の閾値信号Ｔｈ_１を上回る複数のサンプリング時間に関連付けられている。

再び図６Ａを参照すると、６１０で実行されるテストの結果が偽である場合、ゲインサンプルＧ（ｋ）に関連付けられているサンプリング時間が、残留ノイズ１０５に対応する、前処理済音声信号Ｓ_ＲＮのエンベロープＥの一部に属さないことが決定される。かくして、６２０で、ゲイン信号Ｇ（ｋ）のｋ番目のサンプルの値は、例えば、最大ゲイン値Ｇ_ＭＡＸに設定され得る。図６Ａで示される例で、Ｇ_ＭＡＸ＝１である。このように、複数の残留ノイズ部分１０５とは異なる、前処理済音声信号１０１の複数の部分（例えば、前処理済音声信号の複数のスピーチ部分１０３）は、抑制されないであろう。この時点で、ループ６０５の次の反復がゲイン信号Ｑ（ｋ＋１）等の以降のサンプルの値を決定するべくトリガされる。図６Ｃは、増幅器１１０に入力される前処理済音声信号１０１の関数として、その増幅器から出力される処理済音声信号１１１を示すグラフ６７０である。ここで、処理６２８を用いてゲイン抑制器２２８により生成されるゲイン信号Ｇは、前処理済音声信号１０１の関数として処理済音声信号１１１の傾斜を表す。第１の閾値信号Ｔｈ_１よりも大きい前処理済音声信号１０１の複数の値に対して、ゲイン信号Ｇは、１に設定される。

再び図６Ａを参照すると、６１０で実行されるテストの結果が真である場合、６３０で、第２の閾値信号Ｔｈ_２（ｋ）のｋ番目のサンプルの値がエンベロープＥ（ｋ）のｋ番目のサンプルの値よりも小さいかどうか、すなわち、Ｅ（ｋ）≧Ｔｈ_２（ｋ）が決定される。６３０で実行される決定の結果が真である場合、６４０で、ゲイン信号Ｇ（ｋ）のｋ番目のサンプルの値が、第１の閾値信号Ｔｈ_１（ｋ）のｋ番目のサンプルの値に対するエンベロープＥ（ｋ）のｋ番目のサンプルの値の比に次のように設定される。
６１０でＥ（ｋ）＜Ｔｈ_１（ｋ）が満たされると決定されているので、第（９）式により、ゲイン信号Ｇ（ｋ）のｋ番目のサンプルの値は確実に１より小さくなる。このように、残留ノイズに実際に対応する前処理済音声信号１０１の複数の部分は、抑制されるであろう。この時点で、ループ６０５の次の反復がゲイン信号Ｇ（ｋ＋１）等の以降のサンプルを決定するべくトリガされる。

図６Ｂ−６Ｃで示唆されるように、第１の閾値信号Ｔｈ_１は、ゲイン抑制器１２５の調整パラメータを表す。例えば、第１の閾値信号Ｔｈ_１のより大きい複数の値に対して、ゲイン信号Ｇのより大きな望まれない抑制、従って前処理済音声信号１０１の、複数のスピーチ部分１０３のより多くの歪みがあり得るが、しかしながら、前処理済音声信号の、複数の残留ノイズ部分１０５のより多くの抑制があり得る。逆に、第１の閾値信号Ｔｈ_１のより小さい複数の値に対して、ゲイン信号Ｇのより小さな望まれない抑制、従って前処理済音声信号１０１、の複数のスピーチ部分１０３のより少ない歪みがあり得るが、しかしながら、前処理済音声信号の、複数の残留ノイズ部分１０５のより少ない抑制があり得る。いくつかの実装において、第１の閾値信号Ｔｈ_１を調整する段階は、ゲイン制御器１２０の製造の前の設計時間に実行される。いくつかの実装において、第１の閾値信号Ｔｈ_１を調整する段階は、ゲイン制御器１２０の出荷の前の製造時（例えば、それ自身により、または残留ノイズ抑制器１００の一部としての何れか）に実行される。いくつかの実装において、第１の閾値信号Ｔｈ_１を調整する段階は、ゲイン制御器１２０のユーザインタフェースを通じてユーザにより、またはアプリケーションプログラミングインタフェース（ＡＰＩ）を通じてゲイン制御器とインタラクトする別の処理により、ランタイムに（すなわち、現場で）実行される。

再び図６Ａを参照すると、６３０で実行される決定の結果が偽である場合、６５０で、ゲイン信号Ｇ（ｋ）のｋ番目のサンプルの値が、第１の閾値信号Ｔｈ_１のｋ番目のサンプルの値に対する第２の閾値信号Ｔｈ_２（ｋ）のｋ番目のサンプルの値の比に、次のように設定される。

第２の閾値信号Ｔｈ_２が、第（８）式に従って、バイアス係数が、閾値比Ｒである第１の閾値信号Ｔｈ１のバイアスがかけられた値になるべく決定されるので、ゲイン信号Ｇ（ｋ）のｋ番目のサンプルは、第２の閾値信号Ｔｈ_２よりも小さい前処理済音声信号１０１の、複数の残留ノイズ部分１０５の複数の値に対して以下のように表され得る。
前述の条件に対応するサンプリング時間は、図６Ｂで前処理済音声信号１０１の、複数の残留ノイズ部分１０５を表す楕円の中で特定され得る。さらに、第（８）式に関して上で説明されたように、閾値比Ｒは、１よりも小さい値を有し、これにより、前処理済音声信号１０１の、複数の残留ノイズ部分１０５のこれらの複数のサブ部分もまた抑制されるであろう。この時点で、ループ６０５の次の反復がゲイン信号Ｇ（ｋ＋１）等の以降のサンプルを決定するべくトリガされる。

再び図６Ｃのグラフ６７０を参照すると、前処理済音声信号１０１の、複数の残留ノイズ部分１０５に対応する、第１の閾値信号Ｔｈ_１よりも小さい前処理済音声信号１０１の、エンベロープ１２３の複数の値に対して、ゲイン信号Ｇは、１よりも小さい。このように、前処理済音声信号１０１の複数の残留ノイズ部分１０５は、増幅器１１０により抑制されるであろう。さらに、前処理済音声信号１０１の、複数の残留ノイズ部分１０５の振幅の小さい複数の信号サブ部分に対応する、第２の閾値信号Ｔｈ_２よりもさらに小さい前処理済音声信号１０１のエンベロープ１２３の複数の値に対して、ゲイン信号Ｇは、（第（１０'）式に関して上で説明されたように、１よりも小さい、「Ｒ＜１」である）閾値比Ｒに等しい最大値を有する。かくして、このゲイン信号Ｇの値は、増幅器１１０に、前処理済音声信号１０１の複数の残留ノイズ部分１０５に対して最も小さい抑制を与えさせる。さらに、前処理済音声信号１０１の、複数の残留ノイズ部分１０５の振幅の大きい複数の信号サブ部分に対応する、第１の閾値信号Ｔｈ_１と第２の閾値信号Ｔｈ_２との間にある前処理済音声信号１０１のエンベロープ１２３の複数の値に対して、ゲイン信号Ｇは、０と閾値比Ｒとの間の小さい値を有する。そのようなゲイン信号Ｇの小さい複数の値は、増幅器１１０に、前処理済音声信号１０１の、複数の残留ノイズ部分１０５に対して大きい抑制を与えさせる。

いくつかの実装において、図７に示されるように、残留ノイズ抑制器１００がソフトウェアで実装され得る。ここで、コンピューティング装置７６０は、デジタル信号プロセッサ７６２と、複数の残留ノイズ抑制器命令１００ｉをエンコードする記憶媒体７６４（例えば、メモリ、ハードドライブ等）とを含み、これらの複数の命令は、デジタル信号プロセッサにより実行された場合に、コンピューティング装置に処理３２２、４２４、５２６および６２８の一部として増幅器１１０およびゲイン制御器１２０により実行される少なくともいくつかのオペレーションを実行させる。いくつかの実装において、コンピューティング装置７６０は、システムオンチップ（ＳＯＣ）実装等の１又は複数の集積回路装置を使用して実装される。

図１Ａに関して上記された、残留ノイズ抑制器１００が前処理済信号１０１を決定する他の信号処理システムと共に使用される複数の応用が以下で開示される。

図８は、ビーム形成器８０２と、図１Ａに関して上記された残留ノイズ抑制器１００とを含む信号処理システム８００の例を示す。ここで、ビーム形成器８０２は、前処理済音声信号１０１を決定し、残留ノイズ抑制器１００は、さらに前処理済音声信号を処理する。

ビーム形成器８０２は、（ｉ）スピーチの方向に沿って信号処理システム８００に到達するスピーチ、および（ｉｉ）（大部分で）スピーチの方向とは異なる他の方向に沿った環境雑音を受信するように構成される２つの入力ポート８０５Ａおよび８０５Ｂを有する。典型的に、スピーチは、無音と分離される発声を含む。かくして、入力ポート８０５Ａおよび８０５Ｂに含まれるそれぞれのマイクは、受信されるスピーチおよび環境雑音を入力音声信号８０１Ａおよび８０１Ｂに変換する。かくして、入力音声信号８０１Ａ、８０１Ｂのそれぞれは、（複数の発声の間の無音を"埋める"環境雑音のみに対応する）複数の環境雑音部分と分離される、（複数の発声と環境雑音との組み合わせに対応する）雑音の多いスピーチの複数の部分を含む。ビーム形成器８０２は、入力音声信号８０１Ａ、８０１Ｂからの環境雑音を抑制し、入力音声信号の複数のスピーチ部分を、歪んでいない状態で維持するように構成される。かくして、ビーム形成器８０２は、入力音声信号８０１Ａ、８０１Ｂを指向性フィルタリングし、前処理済音声信号１０１を出力する。換言すれば、ビーム形成器８０２は、スピーチに関連付けられているスピーチの方向に沿って、入力ポート８０５Ａ、８０５Ｂに到達するビームに対応する、前処理済音声信号１０１を出力する。さらに、前処理済音声信号１０１は、複数のスピーチ部分と、それらの複数のスピーチ部分を分離する複数の残留ノイズ部分とを含む。残留ノイズ抑制器１００は、（ｉ）前処理済音声信号１０１を受信し、（ｉｉ）さらに複数の残留ノイズ部分にわたって前処理済音声信号を抑制し、複数のスピーチ部分にわたって前処理済音声信号を歪んでいない状態で維持する。かくして、残留ノイズ抑制器１００は、残留ノイズが抑制済処理済音声信号１１１を出力する。

いくつかの実装において、入力ポート８０５Ａ、８０５Ｂは、さらに複数のアナログ―デジタル変換回路（ＡＤＣ）を含み、これによりビーム形成器８０２により処理されるべき入力音声信号８０１Ａ、８０１Ｂは、デジタル信号である。そのような場合に、ＡＤＣのサンプリング率は、例えば、ｆ_Ｓ＝８ｋＨｚまたは１６ｋＨｚであり得、入力ポート８０５Ａ、８０５Ｂにより受信されるスピーチは、十分にサンプリングされ得る。

ビーム形成器８０２は、入力ポート８０５Ａ、８０５Ｂにリンクされる平均化器８１０と、平均化器８１０にリンクされる減算器８３４とを含む。ビーム形成器８０２は、さらに減算器８２４Ａと、平均化器８１０および減算器８２４Ａの両方にリンクされるゲインおよび位相ループ８２０Ａと、入力ポート８０５Ａおよび減算器８２４Ａの両方にリンクされる遅延８２２Ａとを含む。また、ビーム形成器８０２は、減算器８３４にリンクされる加算器８３２と、減算器８２４Ａおよび加算器８３２の両方にリンクされるノイズキャンセル適応（ＮＣＡ：ｎｏｉｓｅｃａｎｃｅｌａｔｉｏｎａｄａｐｔｉｖｅ）フィルタ８３０Ａとを含む。さらに、ビーム形成器８０２は、減算器８２４Ｂと、平均化器８１０および減算器８２４Ｂの両方にリンクされるゲインおよび位相ループ８２０Ｂと、入力ポート８０５Ｂおよび減算器８２４Ｂの両方にリンクされる遅延８２２Ｂと、減算器８２４Ｂおよび加算器８３２の両方にリンクされるＮＣＡフィルタ８３０Ｂとを含む。いくつかの実施形態において、ビーム形成器８０２は、２０１６年３月１日に発行された米国特許第９，２７６，６１８号に説明されたシステムおよび手法に従って実装され、当該特許はその全体が参照により本明細書に組み込まれる。

残留ノイズ抑制器１００の複数の構成要素は、図１Ａおよび図２に関連して上で詳細に説明された。図８で示される例で、残留ノイズ抑制器１００の入力ポート１０２は、ビーム形成器８０２の減算器８３４にリンクされる。

信号処理システム８００は、複数の音声信号からの環境雑音を抑制するべく、複数の抑制の段階を使用して処理９００を実行するべく実装されるよう、その複数の機能的な態様が以下で説明される。図９は、処理９００のフロー図である。

９１０で、ビーム形成器８０２は、複数の残留ノイズ部分１０５と分離される複数のスピーチ部分１０３を含む前処理済音声信号１０１を決定する。前処理済音声信号１０１を決定するべく、ビーム形成器８０２は、以下の操作を実行する。

９１２で、ビーム形成器８０２は、それぞれスピーチおよび環境雑音を含む入力音声信号８０５Ａ、８０５Ｂを受信する。スピーチの方向に沿ってビーム形成器８０２の入力ポート８０５Ａ、８０５Ｂに到達するスピーチは、実質的に同時に入力ポートにより受信され、一方、スピーチの方向とは異なる方向に沿って入力ポートに到達する環境雑音は、異なる時間で入力ポートにより受信される。このように、入力音声信号８０１Ａ、８０１Ｂの、複数のスピーチ部分は、互いに同位相であり、一方入力音声信号の、複数の環境雑音部分は、互いに反位相、または互いに対して遅延している。図１０Ａは、例えば、パブで発せられた複数のスピーチ部分１０３、および複数の環境雑音部分８０４を含む入力音声信号８０１Ａの例を示す。図１１Ａは、例えば、走行中の車の中で発せられた複数のスピーチ部分、および複数の環境雑音部分８０４'を含む入力音声信号８０１Ａ'の別の例を示す。図１２Ａは、さらに、例えば、街路で発せられた複数のスピーチ部分、および複数の環境雑音部分８０４"を含む入力音声信号８０１Ａ"の別の例を示す。

以下で説明されるように、９１４で、ビーム形成器８０２は、入力音声信号８０１Ａ、８０１Ｂから環境雑音８０４の一部を抑制する。図８を参照すると、平均化器８１０は、入力音声信号８０１Ａ、８０１Ｂを平均化し、平均入力音声信号８１５を取得する。ゲインおよび位相ループ８２０Ａは、平均入力音声信号８１５の振幅および位相を調整し、入力音声信号８０１Ａ、８０１Ｂの複数のスピーチ部分１０３の表現である調整された平均入力音声信号の第１のインスタンスを取得する。遅延８２２Ａは、入力音声信号８０１Ａの遅延を調整し、第１の調整された入力音声信号を取得する。次に、減算器８２４Ａは、第１の調整された入力音声信号からの調整された平均入力音声信号の第１のインスタンスを減算し、入力音声信号８０１Ａ、８０１Ｂの複数の環境雑音部分８０４の表現である（基準ノイズの第１のインスタンスである）第１のノイズを示す信号８２５Ａを取得する。ゲインおよび位相ループ８２０Ｂは、平均入力音声信号８１５の振幅および位相を調整し、入力音声信号８０１Ａ、８０１Ｂの複数のスピーチ部分１０３の別の表現である調整された平均入力音声信号の第２のインスタンスを取得する。遅延８２２Ｂは、入力音声信号８０１Ｂの遅延を調整し、第２の調整された入力音声信号を取得する。次に、減算器８２４Ｂは、第２の調整された入力音声信号からの調整された平均入力音声信号の第２のインスタンスを減算し、入力音声信号８０１Ａ、８０１Ｂの複数の環境雑音部分８０４の別の表現であり（基準ノイズの第２のインスタンスである）第２のノイズを示す信号８２５Ｂを取得する。ＮＣＡフィルタ８３０Ａは、基準ノイズ８２５Ａをフィルタリングしフィルタリング済基準ノイズの第１のインスタンスを取得する。ＮＣＡフィルタ８３０Ｂは、基準ノイズ８２５Ｂをフィルタリングし、フィルタリング済基準ノイズの第２のインスタンスを取得する。次に、加算器８３２は、フィルタリング済基準ノイズの第１および第２のインスタンスを加算し、入力音声信号８０１Ａ、８０１Ｂの複数の環境雑音部分８０４の再構築されたバージョンである再構築されたノイズ信号８３５を取得する。減算器８３４は、平均入力音声信号８１５から再構築されたノイズ信号８３５を減算し、前処理済音声信号１０１を取得する。

前処理済音声信号１０１は、（歪みなく再現された平均入力音声信号８１５の複数のスピーチ部分に対応する）複数のスピーチ部分および複数のスピーチ部分を分離する複数の残留ノイズ部分１０５を含む。前処理済音声信号１０１の、複数の残留ノイズ部分１０５は、平均入力音声信号８１５がビーム形成器８０２により抑制されている複数の環境雑音部分８０４に対応する。図１０Ｂは、複数のスピーチ部分１０３、および複数の残留ノイズ部分１０５を含む前処理済音声信号１０１の例を示し、後者は、図１０Ａに示される、パブで発せられた複数の環境雑音部分８０４に対応する。図１１Ｂは、複数のスピーチ部分、および複数の残留ノイズ部分１０５'を含む前処理済音声信号１０１'の例を示し、後者は、図１１Ａに示される、走行中の車の中で発せられた複数の環境雑音部分８０４'に対応する。図１２Ｂは、複数のスピーチ部分、および複数の残留ノイズ部分１０５"を含む、前処理済音声信号１０１"のさらに別の例を示し、後者は、図１２Ａに示される、街路で発せられた複数の環境雑音部分８０４"に対応する。前述の例のそれぞれで、ビーム形成器８０２は、それぞれの複数の環境雑音部分８０１Ａ、８０１Ａ'、８０１Ａ"にわたって入力音声信号８０１Ａ、８０１Ａ'、８０１Ａ"の約３ｄＢの抑制をもたらし、前処理済音声信号１０１、１０１'、１０１"の、対応する複数の残留ノイズ部分１０５、１０５'、１０５"を取得する。

処理９００は、続いて、９２０で、残留ノイズ抑制器１００が、前処理済音声信号１０１から処理済音声信号１１１を決定する。残留ノイズ抑制器１００が処理済信号１１１を決定するべく増幅器１１０を使用するので、処理済信号１１１は、増幅信号１１１とも呼ばれる。処理済音声信号１１１を決定するべく、残留ノイズ抑制器１００は、以下の操作を実行する。

９２２で、残留ノイズ抑制器１００は、前処理済音声信号１０１の複数のスピーチ部分１０３および複数の残留ノイズ部分１０５を決定する。９２２を実行するべく、残留ノイズ抑制器１００は、図１Ａおよび図２に関連して上記されたゲイン制御器１２０を使用する。ゲイン制御器１２０は、図３Ａ、４、５および６Ａに関連して上記されたように、複数の処理３２２、４２４、５２６および処理６２８のオペレーション６１０を用いて、前処理済音声信号１０１の複数のスピーチ部分１０３および複数の残留ノイズ部分１０５を決定する。

９２４で、残留ノイズ抑制器１００は、ゲイン信号１２１に基づき、増幅器１１０のゲインを制御し、（ｉ）複数のスピーチ部分１０３にわたって前処理済音声信号１０１を歪んでいない状態で再現し、（ｉｉ）複数の残留ノイズ部分１０５にわたって前処理済音声信号を抑制する。残留ノイズ抑制器１００は、図６Ａに関連して上記されたように、処理６２８のオペレーション６２０−６５０に従って、ゲイン制御器１２０を使用することによりゲイン信号１２１を生成する。

さらに、残留ノイズ抑制器１００により出力される処理済音声信号１１１は、（歪みおよび抑制なく再現された前処理済音声信号１０１の複数のスピーチ部分に対応する）複数のスピーチ部分１０３および複数のスピーチ部分を分離する抑制済複数の残留ノイズ部分１１５を含む。処理済音声信号１１１の抑制済複数の残留ノイズ部分１１５は、平均入力音声信号８１５がビーム形成器８０２により抑制済複数の環境雑音部分８０４に対応し、前処理済音声信号１０１は、残留ノイズ抑制器１００により抑制されている。

図１０Ｃは、複数のスピーチ部分１０３、および抑制済複数の残留ノイズ部分１１５を含む処理済音声信号１１１の例を示し、後者は、図１０Ａに示される、パブで発せられた複数の環境雑音部分８０４に対応する。図１１Ｃは、複数のスピーチ部分、および抑制済複数の残留ノイズ部分１１５'を含む処理済音声信号１１１'の例を示し、後者は、図１１Ａに示される、走行中の車の中で発せられた複数の環境雑音部分８０４'に対応する。図１２Ｃは、複数のスピーチ部分、および抑制済複数の残留ノイズ部分１１５"を含む、処理済音声信号１１１"の例を示し、後者は、図１２Ａに示される、街路で発せられた複数の環境雑音部分８０４"に対応する。前述の例のそれぞれで、残留ノイズ抑制器１００は、それぞれの複数の残留ノイズ部分１０５、１０５'、１０５"にわたって前処理済音声信号１０１、１０１'、１０１"の追加の約６ｄＢの抑制をもたらし、処理済音声信号１１１、１１１'、１１１"の、対応する複数の抑制済残留ノイズ部分１１５、１１５'、１１５"を取得する。

いくつかの実装において、信号処理システム８００のビーム形成器８０２および残留ノイズ抑制器１００は、図１３に示されるように、ソフトウェアで実装され得る。ここで、コンピューティング装置１３６０は、デジタル信号プロセッサ１３６２と、ビーム形成器命令８０２ｉおよび残留ノイズ抑制器命令１００ｉをエンコードする記憶媒体１３６４（例えば、メモリ、ハードドライブ等）とを含み、これらの複数の命令は、デジタル信号プロセッサにより実行された場合に、コンピューティング装置に処理９００の一部としてビーム形成器８０２および残留ノイズ抑制器１４０により実行される少なくともいくつかのオペレーションを実行させる。いくつかの実装において、コンピューティング装置１３６０は、システムオンチップ（ＳＯＣ）実装等の１又は複数の集積回路装置を使用して実装される。

いくつかの実施形態が上記で詳細に説明され、様々な変更形態が可能である。本明細書で説明される複数の機能的なオペレーションを含む、開示されている主題は、電子回路、コンピュータ、ファームウェア、ソフトウェア、またはそれらの複数の組み合わせで実装され得、本明細書で開示される構造的な手段およびその構造的な均等物は、１又は複数の制御器および埋め込みコードを含み得る、システムオンチップ（ＳＯＣ）実装を含む。

本明細書は、多くの具体的事項を含むが、これらは、特許請求され得ることの範囲に対する限定として解釈されるべきではなく、むしろ具体的な複数の実施形態に特有であり得る複数の特徴の複数の説明として解釈されるべきである。また、本明細書において別個の実施形態の文脈で説明される特定の複数の特徴は、単一の実施形態において組み合わせて実装されることもできる。逆に、単一の実施形態の文脈で説明される様々な特徴は、別個に、または任意の好適なサブコンビネーションでも複数の実施形態において実装され得る。さらに、複数の特徴は、特定の組み合わせで動作するものとして上記され、そのようなものとして初めに特許請求され得るが、いくつかの場合、特許請求される組み合わせの１又は複数の特徴は、組み合わせから除去することができ、特許請求される組み合わせは、サブコンビネーションまたはサブコンビネーションの変形例を対象としてもよい。

同様に、複数のオペレーションは、特定の順序で図面において図示されるが、これは、所望の結果を実現するべく、そのような複数のオペレーションが示される特定の順序もしくは連続した順序で実行され、または図示される全てのオペレーションが実行されることを要求するものとして理解されるべきでない。特定の状況において、マルチタスクおよび並列処理が有利であり得る。さらに、上記の複数の実施形態における様々なシステムコンポーネントの分離は、全ての実施形態においてそのような分離を必要とするものと理解されるべきではない。

他の実施形態が、以下の特許請求の範囲の範囲内に含まれる。

Claims

入力音声信号からいくらかのノイズを除去することにより前処理済音声信号を決定する段階であって、前記前処理済音声信号の、スピーチを含む複数の部分が、前記前処理済音声信号の、残留ノイズを含む複数の部分と分離される、前処理済音声信号を決定する段階と、
前記残留ノイズを含む複数の部分にわたって前記前処理済音声信号を抑制することと、
前記スピーチを含む複数の部分にわたって前記前処理済音声信号を維持することと、により増幅信号を決定する段階と
を備える方法。
前記前処理済音声信号のエンベロープが、第１の閾値信号以下となる時間に対応するように、前記前処理済音声信号の、前記残留ノイズを含む複数の部分を決定する段階と、
前記前処理済音声信号の前記エンベロープが、前記第１の閾値信号よりも大きい時間に対応するように、前記前処理済音声信号の、前記スピーチを含む複数の部分を決定する段階とをさらに備える請求項１に記載の方法。
前記第１の閾値信号の値は、前記前処理済音声信号の前記エンベロープの最大値の５％から２０％の範囲内である請求項２に記載の方法。
前記前処理済音声信号に対して使用される増幅器のゲインを制御するためのゲイン信号を、
前記前処理済音声信号の、前記スピーチを含む複数の部分に対する最大ゲイン値に等しい値と、
前記最大ゲイン値よりも小さく、前記前処理済音声信号の、前記残留ノイズを含む複数の部分に対する閾値比以上となる少なくとも１つの値と、に設定する段階をさらに備える請求項２または３に記載の方法。
前記閾値比の値は、前記最大ゲイン値の最大値の１％から５％である請求項４に記載の方法。
前記前処理済音声信号に対して非線形フィルタを使用してフィルタリング済信号を決定する段階と、
前記第１の閾値信号を、バイアス係数にバイアスがかけられた前記フィルタリング済信号として決定し、第２の閾値信号を、閾値比によりバイアスがかけられた前記第１の閾値信号として決定する段階と
をさらに備え、
前記前処理済音声信号の、前記残留ノイズを含む複数の部分に対する前記ゲイン信号の複数の値は、
前記前処理済音声信号の前記エンベロープが前記第２の閾値信号よりも大きいまたはそれと等しい場合の、前記第１の閾値信号に対する前記前処理済音声信号の前記エンベロープの比と、
前記前処理済音声信号の前記エンベロープが前記第２の閾値信号よりも小さい場合の、前記第１の閾値信号に対する前記第２の閾値信号の比と、を含む請求項４に記載の方法。
前記バイアス係数は、前記前処理済音声信号の前記エンベロープの最大値の５％から２０％の範囲内である請求項６に記載の方法。
前記前処理済音声信号に対して前記非線形フィルタを使用する前記フィルタリング済信号を前記決定する段階は、
カットオフ周波数を有するローパスフィルタを前記前処理済音声信号の振幅に対して使用する段階と、
前記フィルタリング済信号がエンベロープ限界の正の値より大きく増加する場合に、前記フィルタリング済信号の増加を前記エンベロープ限界の前記正の値まで制限する段階と、
前記フィルタリング済信号が前記エンベロープ限界の負の値より大きく減少する場合に、前記フィルタリング済信号の減少を前記エンベロープ限界の前記負の値まで制限する段階と
を有する請求項６または７に記載の方法。
前記前処理済音声信号の前記エンベロープが増加する場合に、カットオフ周波数を有するローパスフィルタを前記前処理済音声信号の振幅に対して使用することと、
前記前処理済音声信号の前記エンベロープが減少する場合に、前記前処理済音声信号の前記エンベロープをリリース時間によりスケーリングすることと
により前記前処理済音声信号の前記エンベロープを決定する段階をさらに備える請求項２から８のいずれか一項に記載の方法。
前記入力音声信号は、スピーチと、環境雑音とを含み、
前記スピーチおよび前記環境雑音の両方を含む、前記入力音声信号の複数の部分からいくらかのノイズを除去する段階に基づき、前記前処理済音声信号の、前記スピーチを含む複数の部分を取得し、
前記環境雑音のみを含む、前記入力音声信号の複数の部分からいくらかのノイズを除去する段階に基づき、前記前処理済音声信号の、前記残留ノイズを含む複数の部分を取得する
段階をさらに備える請求項１から９のいずれか一項に記載の方法。
前処理済音声信号から、ゲイン信号に基づき増幅信号を決定する増幅器であって、前記前処理済音声信号は、複数の残留ノイズ部分と分離される複数のスピーチ部分を含む、増幅器と、
ゲイン抑制器であって、
前記前処理済音声信号のエンベロープが第１の閾値信号以下となる時間に対応するように、前記前処理済音声信号の、前記複数の残留ノイズ部分を決定し、
前記前処理済音声信号の前記エンベロープが前記第１の閾値信号よりも大きくなる時間に対応するように、前記前処理済音声信号の、前記複数のスピーチ部分を決定し、
前記ゲイン信号を、
前記前処理済音声信号の、前記複数のスピーチ部分に対する最大ゲイン値に等しい値と、
前記最大ゲイン値よりも小さく、前記前処理済音声信号の、前記複数の残留ノイズ部分に対する閾値比以上となる少なくとも１つの値とに設定する、ゲイン抑制器と
を備える
信号処理システム。
前記第１の閾値信号の値は、前記前処理済音声信号の前記エンベロープの最大値の５％から２０％の範囲内である請求項１１に記載の信号処理システム。
前記閾値比の値は、前記最大ゲイン値の最大値の１％から５％の範囲内である請求項１１または１２に記載の信号処理システム。
前記前処理済音声信号からのフィルタリング済信号を決定する非線形フィルタと、
閾値生成器であって、
バイアス係数により重み付けされた前記フィルタリング済信号として前記第１の閾値信号を生成し、
前記閾値比により重み付けされた前記第１の閾値信号として第２の閾値信号を生成する閾値生成器とを備え、
前記前処理済音声信号の、前記複数の残留ノイズ部分に対する前記ゲイン信号の前記少なくとも１つの値は、
前記前処理済音声信号の前記エンベロープが前記第２の閾値信号以上となる場合に、前記第１の閾値信号に対する前記前処理済音声信号の前記エンベロープの比を含み、
前記前処理済音声信号の前記エンベロープが前記第２の閾値信号よりも小さい場合に、前記第１の閾値信号に対する前記第２の閾値信号の比を含む請求項１１から１３のいずれか一項に記載の信号処理システム。
前記バイアス係数は、前記前処理済音声信号の前記エンベロープの最大値の５％から２０％の範囲内である請求項１４に記載の信号処理システム。
前記フィルタリング済信号を決定するべく、前記非線形フィルタは、
第１のカットオフ周波数に基づき前記前処理済音声信号の振幅をローパスフィルタし、
前記フィルタリング済信号がエンベロープ限界の正の値より大きく増加する場合に、前記フィルタリング済信号の増加を前記エンベロープ限界の前記正の値まで制限し、
前記フィルタリング済信号が前記エンベロープ限界の負の値より大きく減少する場合に、前記フィルタリング済信号の減少を前記エンベロープ限界の前記負の値まで制限する請求項１４または１５に記載の信号処理システム。
前記エンベロープが増加する場合に、カットオフ周波数に基づき、前記前処理済音声信号の振幅をローパスフィルタし、前記エンベロープが減少する場合に、リリース時間で前記エンベロープをスケーリングするエンベロープ生成器を備える請求項１６に記載の信号処理システム。
ハードウェアプロセッサと、
前記ハードウェアプロセッサにより実行された場合に、前記信号処理システムに前記ゲイン抑制器を使用させる命令をエンコードされた記憶媒体とを備える請求項１１から１７のいずれか一項に記載の信号処理システム。
前記システムは、システムオンチップである請求項１１から１８のいずれか一項に記載の信号処理システム。
スピーチおよび環境雑音を含む入力音声信号を受信し、
前記スピーチおよび前記環境雑音の両方を含む、前記入力音声信号の複数の部分からいくらかのノイズを除去することにより前記前処理済音声信号の、前記複数のスピーチ部分を取得し、
前記環境雑音のみを含む、前記入力音声信号の複数の部分からいくらかのノイズを除去することにより前記前処理済音声信号の、前記複数の残留ノイズ部分を取得する
ビーム形成器をさらに備える請求項１１から１９のいずれか一項に記載の信号処理システム。