JP2013506878A - オーディオ信号の雑音抑制 - Google Patents
オーディオ信号の雑音抑制 Download PDFInfo
- Publication number
- JP2013506878A JP2013506878A JP2012532370A JP2012532370A JP2013506878A JP 2013506878 A JP2013506878 A JP 2013506878A JP 2012532370 A JP2012532370 A JP 2012532370A JP 2012532370 A JP2012532370 A JP 2012532370A JP 2013506878 A JP2013506878 A JP 2013506878A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- audio signal
- estimate
- electronic device
- noise estimate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/24—Signal processing not specific to the method of recording or reproducing; Circuits therefor for reducing noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Abstract
オーディオ信号の雑音を抑制するための電子デバイスが記述される。電子デバイスは、プロセッサと、メモリに記憶された命令とを含む。電子デバイスは、入力オーディオ信号を受信し、定常雑音推定、非定常雑音推定、および、超過雑音推定に基づいて、総合雑音推定を計算する。電子デバイスは、さらに、入力の信号対雑音比(SNR)および1または複数のSNR限界に基づいて適応係数を計算する。スペクトル拡張利得関数を用いて、利得のセットがさらに計算される。スペクトル拡張利得関数は、総合雑音推定および適応係数に基づく。電子デバイスは、さらに、利得のセットを入力オーディオ信号に適応して、雑音抑制済みオーディオ信号を生成し、その雑音抑制済みオーディオ信号を提供する。
Description
[関連出願]
本出願は、2009年10月1日に出願された「Enhanced Noise Suppression with Single Input Audio Signal」と題する米国仮出願第61/247,888号に関し、それからの優先権を主張する。
本出願は、2009年10月1日に出願された「Enhanced Noise Suppression with Single Input Audio Signal」と題する米国仮出願第61/247,888号に関し、それからの優先権を主張する。
[技術分野]
本開示は一般的に電子デバイスに関する。より詳細には、本開示は、オーディオ信号の雑音を抑制することに関する。
本開示は一般的に電子デバイスに関する。より詳細には、本開示は、オーディオ信号の雑音を抑制することに関する。
[背景]
過去数十年で、電子デバイスの使用は一般的になった。特に、電子技術における進歩は、益々複雑で有益な電子デバイスのコストを削減した。コストの削減と消費者の需要は、電子デバイスの使用を急激に増加させ、それらは、実際、現在の社会においてユビキタスである。電子デバイスの使用が拡大するにつれ、電子デバイスの新しく且つ改善された特徴に対する需要も増加してきた。より具体的には、機能を、より迅速に、より効率的に、または、より高品質で実行する電子デバイスが求められることが多い。
過去数十年で、電子デバイスの使用は一般的になった。特に、電子技術における進歩は、益々複雑で有益な電子デバイスのコストを削減した。コストの削減と消費者の需要は、電子デバイスの使用を急激に増加させ、それらは、実際、現在の社会においてユビキタスである。電子デバイスの使用が拡大するにつれ、電子デバイスの新しく且つ改善された特徴に対する需要も増加してきた。より具体的には、機能を、より迅速に、より効率的に、または、より高品質で実行する電子デバイスが求められることが多い。
多くの電子デバイスが、外部入力を取り込むか、あるいは受信する。例えば、多くの電子デバイスは、サウンド(例えば、オーディオ信号)を取り込む。例えば、電子デバイスは、オーディオ信号を使用してサウンドを記録しうる。オーディオ信号は、サウンドを再生するためにも使用されうる。いくつかの電子デバイスは、オーディオ信号を処理して、それらをある方法で高める。多くの電子デバイスは、さらに、電磁信号を送信および/または受信する。これらの電磁信号のうちのいくつかは、オーディオ信号を表すことができる。
サウンドは、騒がしい環境で取り込まれることが多い。これが生じた場合、電子デバイスは、しばしば、所望サウンドに加えて雑音を取り込む。例えば、携帯電話のユーザは、バックグラウンド雑音が著しいロケーション(例えば、車中、電車の中、騒がしいレストラン、屋外など)で電話を掛けうる。そのような雑音も取り込まれると、結果として生じるオーディオ信号の品質は低下しうる。例えば、取り込まれたサウンドが、劣化したオーディオ信号を使用して再生されると、所望サウンドが破損して、雑音と区別することが難しくなる可能性がある。この論述が示すように、オーディオ信号の雑音を抑制するための改善されたシステムおよび方法が有益でありうる。
[詳細な説明]
本明細書で使用される場合、「基地局(base station)」という用語は、一般的に、通信ネットワークへのアクセスを提供することができる通信デバイスを表す。通信ネットワークの例は、電話ネットワーク(例えば、公衆電話交換ネットワーク(PSTN)またはセルラ電話ネットワークなどの「陸線」ネットワーク)、インターネット、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、メトロポリタンエリアネットワーク(MAN)などを含むがそれらに限定されない。基地局の例は、例えば、セルラ電話基地局またはノード、アクセスポイント、無線ゲートウェイ、無線ルータを含む。基地局は、IEEE(Institute of Electrical and Electronics Engineers)802.11a、802.11b、802.11g、802.11n、802.11ac(例えば、「Wi−Fi(Wireless Fidelity)」)標準などの特定の業界標準に従って動作しうる。基地局が従いうる標準の別の例は、IEEE 802.16(例えば、「WiMAX(Worldwide Interoperability for Microwave Access)」、第3世代パートナーシッププロジェクト(3GPP)、3GPPロングタームエボリューション(LTE)、および、その他(ここでは、基地局がノードB、発展型ノードB(eNB)と呼ばれうる)など)を含む。本明細書に開示されるシステムおよび方法のいくつかは、1または複数の標準の観点から記述されるが、このシステムおよび方法は、多数のシステムおよび/または標準に適用可能であるため、これによって、本開示の範囲が制限されるべきではない。
本明細書で使用される場合、「基地局(base station)」という用語は、一般的に、通信ネットワークへのアクセスを提供することができる通信デバイスを表す。通信ネットワークの例は、電話ネットワーク(例えば、公衆電話交換ネットワーク(PSTN)またはセルラ電話ネットワークなどの「陸線」ネットワーク)、インターネット、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、メトロポリタンエリアネットワーク(MAN)などを含むがそれらに限定されない。基地局の例は、例えば、セルラ電話基地局またはノード、アクセスポイント、無線ゲートウェイ、無線ルータを含む。基地局は、IEEE(Institute of Electrical and Electronics Engineers)802.11a、802.11b、802.11g、802.11n、802.11ac(例えば、「Wi−Fi(Wireless Fidelity)」)標準などの特定の業界標準に従って動作しうる。基地局が従いうる標準の別の例は、IEEE 802.16(例えば、「WiMAX(Worldwide Interoperability for Microwave Access)」、第3世代パートナーシッププロジェクト(3GPP)、3GPPロングタームエボリューション(LTE)、および、その他(ここでは、基地局がノードB、発展型ノードB(eNB)と呼ばれうる)など)を含む。本明細書に開示されるシステムおよび方法のいくつかは、1または複数の標準の観点から記述されるが、このシステムおよび方法は、多数のシステムおよび/または標準に適用可能であるため、これによって、本開示の範囲が制限されるべきではない。
本明細書で使用される場合、「無線通信デバイス(wireless communication device)」という用語は、一般的に、基地局に無線で接続されうる通信デバイス(例えば、アクセス端末、クライアントデバイス、クライアント局など)を表す。無線通信デバイスは、別名、モバイルデバイス、モバイル局、加入者局、ユーザ機器(UE)、リモート局、アクセス端末、モバイル端末、端末、ユーザ端末、加入者ユニットなどと呼ばれうる。無線通信デバイスの例は、ラップトップまたはデスクトップコンピュータ、セルラ電話、スマートフォン、無線モデム、電子リーダ、タブレットデバイス、ゲーミングシステムなどを含む。無線通信デバイスは、基地局に関して上に記述されたような1または複数の業界標準に従って動作しうる。このように、「無線通信デバイス(wireless communication device)」という一般用語は、業界標準に従った様々な名称(例えば、アクセス端末、ユーザ機器(UE)、リモート局など)で記述される無線通信デバイスを含みうる。
音声通信は、無線通信デバイスによって行われることが多い1つの機能である。近年、無線通信デバイスの音声品質を向上させるために、多数の信号処理解法が提示されてきた。いくつかの解法は、送信またはアップリンク側でしか有効ではない。ダウンリンク側での音声品質の改善は、単一入力オーディオ信号だけを使用して雑音抑制を提供することができる解法を要求しうる。本明細書に開示されるシステムおよび方法は、単一入力信号を使用し、入力信号の定常(stationary)雑音と非定常(non-stationary)雑音の両方を抑制するために、改善された能力を提供しうる強化された雑音抑制を提示する。
本明細書に開示されるシステムおよび方法は、一般的に、電子デバイス(例えば、無線通信デバイス)の音声品質を改善するために使用される信号処理解法の分野に関する。より詳細には、本明細書に開示されるシステムおよび方法は、雑音(例えば、環境騒音、バックグラウンド雑音)を抑制することと、所望信号の品質を改善することに焦点を当てる。
電子デバイス(例えば、無線通信デバイス、音声レコーダなど)において、改善された音声品質は、望ましいものであり、かつ、有益である。音声品質は、電子デバイスを使用する間、環境騒音の存在に影響されることが多い。騒がしいシナリオにおいて音声品質を改善するための1つのアプローチは、複数のマイクロフォンを電子デバイスに備え、高性能の信号処理技術を使用して、環境雑音から所望信号を分離することである。しかしながら、これは、特定のシナリオ(例えば、無線通信デバイスのアップリンク側)でのみ有効でありうる。別のシナリオ(例えば、電子デバイスが1つのマイクロフォンしか有さない場合、無線通信デバイスのダウンリンク側)において、唯一の利用可能なオーディオ信号は、モノフォニック(例えば、「モノ(mono)」あるいはモノラル)信号である。このようなシナリオの場合、信号の雑音を抑制するために、単一入力信号処理解法だけが使用されうる。
通信デバイス(例えば、1種類の電子デバイス)に関して、遠端からの雑音は、ダウンリンクの音声品質に影響を及ぼしうる。さらに、アップリンクにおける単一または複数のマイクロフォン雑音抑制は、無線通信デバイスの近端ユーザに対して直接的な利益を供給しない可能性がある。さらに、いくつかの通信デバイス(例えば、陸線電話)は、いずれの雑音抑制も有さない可能性がある。いくつかのデバイスは、単一マイクロフォン定常雑音抑制を提供する。このように、遠端雑音抑制は、それが、非定常雑音抑制を提供する場合に有益でありうる。この文脈において、遠端雑音抑制は、雑音を抑制し、通信デバイスの音声品質を改善するために、ダウンリンク経路に組み込まれうる。
これまでの多くの単一入力雑音抑制解法は、モータ雑音、熱雑音、エンジン雑音などの定常雑音しか抑制することができない。すなわち、それらは、非定常雑音を抑制することができない可能性がある。さらに、単一入力雑音抑制解法は、雑音抑制の量がある範囲以上に増加した場合、所望信号の品質を損なうことが多い。音声通信システムにおいて、雑音を抑制すると同時に音声品質を維持することは、特にダウンリンク側で有益でありうる。既存の単一入力雑音抑制技術の多くが、この目的には不適切である。
本明細書に開示されるシステムおよび方法は、単一または複数の入力に対して使用されうる雑音抑制を提供し、所望信号の品質を維持すると同時に定常雑音および非定常雑音の両方の抑制を提供しうる。本明細書のシステムおよび方法は、スピーチ適応スペクトル拡張(および/または、圧縮、すなわち「コンパンディング」)技術を用いて、出力信号の改善された品質を提供する。これらは、狭帯域(narrow-band)、広帯域(wide-band)、あるいは、任意のサンプリングレートの入力に適用されうる。加えて、これらは、音声およびミュージックの両方の入力信号の雑音を抑制するために使用されうる。本明細書で開示されるシステムおよび方法のアプリケーションのうちのいくつかは、無線(またはモバイル)通信においてダウンリンク音声品質を改善するための単一または複数のマイクロフォン雑音抑制、音声およびオーディオ記録のための雑音抑制、その他を含む。
オーディオ信号の雑音を抑制するための電子デバイスが開示される。電子デバイスは、プロセッサと、メモリに記憶された命令とを含む。電子デバイスは、入力オーディオ信号を受信し、定常雑音推定1(stationary noise estimate)、非定常雑音推定(non-stationary noise estimate)、および、超過雑音推定(excess noise estimate)に基づいて総合雑音推定(overall noise estimate)を計算する。電子デバイスは、さらに、入力の信号対雑音比(SNR)および1または複数のSNR限界(SNR Limit)に基づいて、適応係数(adaptive factor)を計算する。利得のセットは、スペクトル拡張利得関数(spectral expansion function)を使用して計算される。スペクトル拡張利得関数は、総合雑音推定および適応係数に基づく。電子デバイスは、雑音抑制済みオーディオ信号を生成するために、利得のセットを入力オーディオ信号に適用し、この雑音抑制済みオーディオ信号を提供する。
電子デバイスは、さらに、定常雑音推定、非定常雑音推定、および、超過雑音推定に対する重みを計算しうる。定常雑音推定は、入力オーディオ信号の電力レベルを追跡することによって計算されうる。入力オーディオ信号の電力レベルを追跡することは、スライディングウィンドウ(sliding window)を使用して実現されうる。
非定常雑音推定は、長期推定(long-term estimate)でありうる。超過雑音推定は、短期推定(short-term estimate)でありうる。スペクトル拡張利得関数は、さらに、短期SNR推定に基づきうる。スペクトル拡張利得関数は、基数(base)と指数(exponent)を含みうる。基数は、総合雑音推定で割った入力信号電力を含み、指数は、適応係数で割った所望雑音抑制レベルを含みうる。
電子デバイスは、入力オーディオ信号をいくつかの周波数ビン(frequency bin)に圧縮しうる。圧縮は、複数の周波数ビンにわたってデータを平均化することを含みうる。この場合、1または複数のより低い周波数ビンにおける低い方の周波数データは、1または複数の高い周波数ビンにおける高い方の周波数データよりも圧縮されない。
電子デバイスは、さらに、入力オーディオ信号の離散フーリエ変換(DFT)を計算し、雑音抑制済みオーディオ信号の離散逆フーリエ変換(IDFT)を計算する。電子デバイスは、無線通信デバイスでありうる。電子デバイスは、基地局でありうる。電子デバイスは、雑音抑制済みオーディオ信号をメモリに記憶しうる、入力オーディオ信号は、リモートの無線通信デバイスから受信されうる。1または複数のSNR限界は、異なるSNR領域に対して別々に利得を決定するのに使用される複数のターニングポイント(turning point)でありうる。
ここで、G(n,k)は利得のセットであり、nはフレーム番号であり、kはビン番号(bin number)であり、Bは所望の雑音抑制限界であり、Aは適応係数であり、bはBに基づく係数であり、A(n,k)は入力大きさ推定であり、Aon(n,k)は、総合雑音推定である。超過雑音推定は、次の式に従って計算されうる:
ここで、Aen(n,k)は超過雑音推定であり、nはフレーム番号であり、kはビン番号であり、βNSは所望の雑音抑制限界であり、A(n,k)は入力大きさ推定であり、γcnは結合スケーリング係数あり、Acn(n,k)は結合雑音推定(combined noise estimate)である。
ここで、Aon(n,k)は、総合雑音推定であり、nはフレーム番号であり、kはビン番号であり、γcnは結合スケーリング係数であり、Acn(n,k)は、結合雑音推定であり、γenは超過雑音スケーリング係数(excess noise scaling factor)であり、Aen(n,k)は超過雑音推定である。入力オーディオ信号は、複数の周波数帯域に分割される広帯域オーディオ信号であり、雑音抑制は、その複数の周波数帯域の各々で行われる。
電子デバイスは、定常雑音推定、結合雑音推定、入力のSNR、および、利得のセットを平滑化しうる。
オーディオ信号の雑音を抑制するための方法が、さらに開示される。方法は、入力オーディオ信号を受信することと、電子デバイス上で、定常雑音推定、非定常雑音推定、超過雑音推定に基づいて総合雑音推定を計算することとを含む。方法は、さらに、入力の信号対雑音比(SNR)および1または複数のSNR限界に基づいて適応係数を計算することを含む。方法は、さらに、電子デバイス上で、スペクトル拡張利得関数を使用して利得のセットを計算することを含む。スペクトル拡張利得関数は、総合雑音推定および適応係数に基づく。方法は、さらに、雑音抑制済みオーディオ信号を生成するために、利得のセットを入力オーディオ信号に適用することと、この雑音抑制済みオーディオ信号を提供することとを含む。
オーディオ信号の雑音を抑制するためのコンピュータプログラムプロダクトが、さらに開示される。コンピュータプログラムプロダクトは、非一時的なコンピュータ可読媒体上に命令を含む。この命令は、入力オーディ信号を受信するためのコードと、定常雑音推定、非定常雑音推定、超過雑音推定に基づいて総合雑音推定を計算するためのコードとを含む。命令は、さらに、入力の信号対雑音比(SNR)、および、1または複数のSNR限界に基づいて適応係数を計算するためのコードと、スペクトル拡張利得関数を使用して利得のセットを計算するためのコードとを含む。スペクトル拡張利得関数は、総合雑音推定および適応係数に基づく。命令はさらに、雑音抑制済みオーディオ信号を生成するために、利得のセットを入力オーディオ信号に適用するためのコードと、この雑音抑制済みオーディオ信号を提供するためのコードとを含む。
オーディオ信号の雑音を抑制するための装置が、さらに開示される。装置は、入力オーディオ信号を受信するための手段と、定常雑音推定、非定常雑音推定、超過雑音推定に基づいて総合雑音推定を計算するための手段とを含む。装置は、さらに、入力の信号対雑音比(SNR)および1または複数のSNR限界に基づいて適応係数を計算するための手段と、スペクトル拡張利得関数を使用して利得のセットを計算するための手段とを含む。スペクトル拡張利得関数は、総合雑音推定および適応係数に基づく。装置は、さらに、雑音抑制済みオーディオ信号を生成するために、利得のセットを入力オーディオ信号に適用するための手段と、この雑音抑制済みオーディオ信号を提供するための手段とを含む。
本明細書に開示されるシステムおよび方法は、少なくとも1つのオーディオ入力信号を取得し、雑音抑制済み出力信号を提供する電子デバイス上の雑音抑制モジュールを記述する。すなわち、雑音抑制モジュールは、バックグラウンド雑音を抑制し、オーディオ信号の音声品質を改善しうる。雑音抑制モジュールは、ハードウェア、ソフトウェア、または、両方の組み合わせとして実現されうる。モジュールは、入力信号に離散フーリエ変換(DFT)を行い(それを周波数ドメインに変換するために)、入力信号のDFTに適用可能な利得のセットを計算するために(例えば、各周波数ビンで)、入力の大きさスペクトルで動作する(例えば、利得のセットを使用して入力信号のDFTをスケーリングすることによって)。雑音抑制済み出力は、適用された利得を用いて入力信号に逆DFT(IDFT)を行うことによって同期されうる。
本明細書に開示されるシステムおよび方法は、定常雑音および非定常雑音の両方の抑制を供給しうる。これを達成するために、いくつか(例えば、3つ)の異なるタイプの雑音電力推定が、各周波数ビンで計算され、そのビンでの総合雑音推定を産出するために結合されうる。例えば、定常雑音スペクトル推定の推定は、最小統計技術を用い、さらに、ある時間期間にわたって入力スペクトルの最小値(例えば、最小電力レベル)を追跡することによって計算される。検出器は、入力信号における所望信号の存在を検出するために用いられうる。検出器の出力は、非定常雑音スペクトル推定を形成するために使用されうる。非定常雑音推定は、検出器の決定に基づいて入力スペクトル推定を理知的に平均化することによって獲得されうる。例えば、非定常雑音推定は、スピーチが存在しない間は速やかに更新され、スピーチが存在する間はゆっくりと更新されうる。超過雑音推定は、スピーチが検出されない場合に、スペクトル内の残余雑音から計算されうる。雑音推定のスケーリング係数は、入力データの信号対雑音比(SNR)に基づいて引き出されうる。スペクトル平均化は、さらに、可聴帯域をシミュレートするため、且つ、アルゴリズムの計算的な負担を減らすために、入力スペクトル推定をより少ない周波数ビンに圧縮するために用いられうる。
本明細書に開示されるシステムおよび方法は、スピーチ適応スペクトル拡張(および/または、圧縮、すなわち「コンパンディング」)技術を用いて、入力スペクトルに適用されるべき利得のセットを生成する。入力スペクトル推定および雑音スペクトル推定は、入力の信号対雑音比(SNR)推定を計算するために使用される。SNR推定は、利得のセットを計算するために使用される。雑音抑制の積極性は、入力のSNR推定に基づいて自動的に調整されうる。特に、雑音抑制は、入力のSNRが低い場合に増加し(例えば、「積極的にされ」)、入力のSNRが高い場合に減少しうる。利得のセットは、さらに、出力信号の不連続性およびアーティファクトを減らすために、時間および/または周波数にわたって平滑化されうる。利得のセットは、入力信号のDFTに適用されうる。雑音抑制済み時間ドメインデータを再構築するために、適用された利得を用いて、周波数ドメイン入力信号に対してIDFTが行われうる。このアプローチは、所望のスピーチまたは音声に対する著しい劣化なく、雑音を適切に抑制しうる。
広帯域信号の場合、フィルタバンクが用いられ、入力信号を周波数帯域のセットに分割しうる。雑音抑制は、入力信号の雑音を抑制するために、全ての帯域に適用されうる。
ここで、様々な構成は、同様の参照番号が機能的に同様のエレメントを指しうる複数の図に関して記述される。本明細書において全体的に記述され、図に示されるシステムおよび方法は、多種多様な異なる構成で配列および設計されうる。このように、図に示されるような、いくつかの構成についてのより詳細な次の記述は、請求される範囲を限定することを目的としておらず、システムおよび方法の単なる例である。
図1は、オーディオ信号104の雑音108を抑制するためのシステムおよび方法が実現されうる電子デバイス102の1つの例を示すブロック図である。電子デバイス102は、雑音抑制モジュール110を含みうる。雑音抑制モジュール110は、ハードウェアとして、ソフトウェアとして、または、ハードウェアとソフトウェアの組み合わせとして実現されうる。雑音抑制モジュール110は、オーディオ信号104を受信または取得し、雑音抑制済みオーディオ信号120を出力する。オーディオ信号104は、音声106(例えば、スピーチ、音声エネルギ、音声信号、または、別の所望信号)と、雑音108(例えば、雑音エネルギ、または、雑音を引き起こす信号)とを含みうる。
雑音抑制モジュール110は、音声106を維持しつつ、オーディオ信号104の雑音108を抑制しうる。雑音抑制モジュール110は、利得計算モジュール112を含みうる。利得計算モジュール112は、オーディオ信号104に適用されうる利得のセットを計算し、雑音抑制済みオーディオ信号120を生成する。利得計算モジュール112は、利得のセットを計算するために、スペクトル拡張利得関数114を使用しうる。スペクトル拡張利得関数114は、総合雑音推定116および/または適応係数118を使用して、利得のセットを計算しうる。換言すると、スペクトル拡張利得関数114は、総合雑音推定116および適応係数118に基づきうる。
図2は、オーディオ信号204の雑音を抑制するためのシステムおよび方法が実現されうる電子デバイス202の1つの例を示すブロック図である。電子デバイス202の例は、オーディオ(例えば、音声)レコーダ、音声カムコーダ、カメラ、パーソナルコンピュータ、ラップトップコンピュータ、携帯情報端末(PDA)、セルラ電話、スマートフォン、ミュージックプレーヤ、ゲームコンソール、および、補聴器などを含む。
電子デバイス202は、1または複数のマイクロフォン222、雑音抑制モジュール210、および、メモリ224を含みうる。マイクロフォン222は、音響信号(例えば、サウンド)を電子信号に変換するために使用されるデバイスでありうる。マイクロフォン222の例は、センサまたはトランスデューサを含む。マイクロフォンのいくつかのタイプは、ダイナミック、コンデンサ、リボン、静電気、カーボン、キャパシタ、圧電性、および、光ファイバマイクロフォンなどを含む。雑音抑制モジュール210は、オーディオ信号204の雑音を抑制し、雑音抑制済みオーディオ信号220を生成する。メモリ224は、雑音抑制モジュール210によって生成された電子信号またはデータ(例えば、雑音抑制済みオーディオ信号220)を記憶するために使用されるデバイスでありうる。メモリ224の例は、ハードディスクドライブ、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、フラッシュメモリなどを含む。メモリ224は、雑音抑制済みオーディオ信号220を記憶するために使用されうる。
図3は、オーディオ信号の雑音を抑制するためのシステムおよび方法が実現されうる無線通信デバイス326の1つの構成を示すブロック図である。無線通信デバイス326は、別のデバイス(例えば、基地局、アクセスポイント、別の無線通信デバイスなど)と通信するために使用される電子デバイス102でありうる。無線通信デバイス326の例は、セルラ電話、ラップトップコンピュータ、スマートフォン、電子リーダ、PDA、ネットブック、ミュージックプレーヤなどを含む。無線通信デバイス326は、1または複数のスピーカ328、雑音抑制モジュールA 310a、ボコーダ/デコーダ330、モデム332、および、1または複数のアンテナ334を含みうる。無線通信デバイス326は、さらに、ボコーダ/エンコーダ336、雑音抑制モジュールB 310b、および、1または複数のマイクロフォン322を含みうる。
無線通信デバイス326は、オーディオ信号を取り込み、オーディオ信号の雑音を抑制し、および/または、オーディオ信号を送信するように構成されうる。1つの構成において、マイクロフォン322は、音響信号(例えば、スピーチまたは音声を含む)を取り込み、それをオーディオ信号B 304bに変換する。オーディオ信号B 304bは、オーディオ信号B 304bの雑音(例えば、環境雑音またはバックグラウンドの雑音)を抑制しうる雑音抑制モジュールB 310bに入力され、それによって、雑音抑制済みオーディオ信号B 320bを生成しうる。雑音抑制済みオーディオ信号B 320bは、無線送信に備えて、符号化された雑音抑制済みオーディオ信号340を生成するボコーダ/エンコーダ336に入力されうる。モデム332は、無線送信のために、符号化された雑音抑制済みオーディオ信号340を変調しうる。次に、無線通信デバイス326は、1または複数のアンテナ334を使用して変調信号を送信しうる。
無線通信デバイス326は、加えて、または、代替として、オーディオ信号を受信し、オーディオ信号の雑音を抑制し、および/または、オーディオ信号を音響的に再生するように構成されうる。1つの構成において、無線通信デバイス326は、1または複数のアンテナ334を使用して変調信号を受信する。無線通信デバイス326は、モデム332を使用して、受信された変調信号を復調し、符号化オーディオ信号338を生成しうる。符号化オーディオ信号338は、ボコーダ/デコーダモジュール330を使用して復号され、オーディオ信号A 304aが生成されうる。次に、雑音抑制モジュールA 310aは、オーディオ信号A 304aの雑音を抑制し、結果として雑音抑制済みオーディオ信号A 320aが生じる。次に、雑音抑制済みオーディオ信号A 304aは、1または複数のスピーカ328を使用して音響信号に変換されうる(例えば、出力または再生される)。
図4は、オーディオ信号の雑音を抑制するためのシステムおよび方法が実現されうる無線通信デバイス426のより具体的な別の構成を示すブロック図である。無線通信デバイス426は、オーディオ信号を受信および/または出力するために(例えば、1または複数のスピーカ428を使用して)使用されるいくつかのモジュールを含みうる。例えば、無線通信デバイス426は、1または複数のスピーカ428、デジタル/アナログ変換器(DAC)442、第1のオーディオフロントエンド(AFE)モジュール444、第1の自動利得制御(AGC)モジュール450、雑音抑制モジュールA 410a、デコーダ430を含みうる。無線通信デバイス426は、さらに、オーディオ信号を取り込み、それを送信用にフォーマットするために使用されるいくつかのモジュールを含みうる。例えば、無線通信デバイス426は、1または複数のマイクロフォン422、アナログ/デジタル変換器(ADC)452、第2のオーディオフロントエンド(AFE)454モジュール、エコーキャンセラモジュール446、雑音抑制モジュールB 410b、第2の自動利得制御(AGC)モジュール456、エンコーダ436を含みうる。無線通信デバイス426は、さらに、オーディオ信号を送信しうる。
無線通信デバイス426は、符号化されたオーディオ信号A 438aを受信しうる。無線通信デバイス426は、デコーダ430を使用して、符号化されたオーディオ信号A 438aを復号し、オーディオ信号A 404aを生成しうる。雑音抑制モジュールA 410aは、ダウンリンクオーディオのバックグラウンド雑音を抑制するために、デコーダ430の後に実現されうる。すなわち、雑音抑制モジュールA 410aは、オーディオ信号A 404aの雑音を抑制し、それによって、雑音抑制済みオーディオ信号A 420aを生成しうる。第1のAGCモジュール450は、雑音抑制済みオーディオ信号A 420aの大きさまたはボリュームを調整または制御し、第1のAGC出力468を生成しうる。第1のAGC出力468は、第1のオーディオフロントエンドモジュール444およびエコーキャンセラモジュール446に入力されうる。第1のオーディオフロントエンドモジュール444は、第1のAGC出力468を受信し、デジタル雑音抑制済みオーディオ信号462を生成する。一般的に、オーディオフロントエンドモジュール444および454は、基本的なフィルタリングおよび利得動作を、取り込まれたマイクロフォン信号(例えば、オーディオ信号B 404b、デジタルオーディオ信号470)、および/または、DAC 442に向かうダウンリンク信号(例えば、第1のAGC出力468)に対して行いうる。デジタル雑音抑制済みオーディオ信号462は、DAC 442によって、アナログ雑音抑制済みオーディオ信号460に変換されうる。アナログ雑音抑制済みオーディオ信号460は、1または複数のスピーカ428によって出力されうる。1または複数のスピーカ428は、一般的に、(電子)オーディオ信号を音響信号またはサウンドに変換する。
無線通信デバイス426は、1または複数のマイクロフォン422を使用して、オーディオ信号B 404bを取り込みうる。1または複数のマイクロフォン422は、例えば、音響信号(例えば、音声、スピーチ、雑音などを含む)をオーディオ信号B 404bに変換しうる。オーディオ信号B 404bは、ADC 452を使用してデジタルオーディオ信号470に変換されるアナログ信号でありうる。第2のオーディオフロントエンド454は、AFE出力472を生成する。AFE出力472は、エコーキャンセラモジュール446に入力されうる。エコーキャンセラモジュール446は、送信のために、信号のエコーを抑制しうる。例えば、エコーキャンセラモジュール446は、エコーキャンセラ出力464を生成する。雑音抑制モジュールB 410bは、エコーキャンセラ出力464の雑音を抑制し、それによって、雑音抑制済みオーディオ信号B 420bを生成しうる。第2のAGCモジュール456は、雑音抑制済みオーディオ信号B 420bの大きさまたはボリュームを調整することによって第2のAGC出力信号474を生成しうる。第2のAGC出力信号474は、さらに、エンコーダ436によって符号化され、符号化されたオーディオ信号B 438bが生成されうる。符号化されたオーディオ信号B 428bは、さらに、処理および/または送信されうる。随意的に、無線通信デバイス426は(1つの構成において)、送信のために、オーディオ信号B 404bの雑音を抑制しない可能性がある。
図4に示される無線通信デバイス426において、雑音抑制モジュールA 410aが、受信されたオーディオ信号(例えば、オーディオ信号A 404a)の雑音を抑制しうることは観察されうる。これは、無線通信デバイス426が、(後に)抑制されうる雑音を含むオーディオ信号404a、または、雑音抑制を有さない別のデバイス(例えば、「陸線」電話)からのオーディオ信号404aを受信する場合に有益でありうる。
図5は、オーディオ信号の雑音を抑制するためのシステムおよび方法が実現されうる無線通信デバイス526および基地局584の複数の構成を示すブロック図である。無線通信デバイスA 526aは、1または複数のマイクロフォン522、送信機A 578a、および、1または複数のアンテナ534aを含みうる。無線通信デバイスA 526aは、さらに、受信機を含みうる(便宜上、示されない)。1または複数のマイクロフォン522は、音響信号をオーディオ信号504aに変換する。送信機A 578aは、1または複数のアンテナ534aを使用して電磁信号を(例えば、基地局584に)送信する。無線通信デバイスA 526aは、さらに、基地局584から電磁信号を受信しうる。
基地局584は、1または複数のアンテナ582、受信機A 580a、送信機B 578bを含みうる。受信機A 580aおよび送信機B 578bは、集合的に、トランシーバ586と呼ばれうる。受信機A 580aは、1または複数のアンテナ582を使用して、電磁信号を(例えば、無線通信デバイスA 526aおよび/または無線通信デバイスB 526bから)受信する。送信機B 578bは、1または複数のアンテナ582を使用して電磁信号を(例えば、無線通信デバイスB 526b、および/または、無線通信デバイスA 526aに)送信する。
無線通信デバイスB 526bは、1または複数のスピーカ528、受信機B 580b、1または複数のアンテナ534bを含みうる。無線通信デバイスB 526bは、さらに、1または複数のアンテナ534bを使用して電磁信号を送信するための送信機を含みうる(便宜上示されない)。受信機B 580bは、1または複数のアンテナ534bを使用して電磁信号を受信する。1または複数のスピーカ528は、電子オーディオ信号を音響信号に変換する。
1つの構成において、アップリンク雑音抑制がオーディオ信号504aに対して行われる。この構成において、無線通信デバイスA 526aは、雑音抑制モジュールA 510aを含む。雑音抑制モジュールA 510aは、オーディオ信号504aの雑音を抑制し、雑音抑制済みオーディオ信号520aを生成する。雑音抑制済みオーディオ信号520aは、送信機A 578a、および、1または複数のアンテナ534aを使用して基地局584に送信される。基地局584は、雑音抑制済みオーディオ信号520aを受信し、トランシーバ586、および、1または複数のアンテナ582を使用して、それ520aを、無線通信デバイスB 526bに送信する。無線通信デバイスB 526bは、受信機B 580b、および、1または複数のアンテナ534bを使用して、雑音抑制済みオーディオ信号520cを受信する。次に、雑音抑制済みオーディオ信号520cは、1または複数のスピーカ528によって音響信号に変換されうる(例えば、出力される)。
別の構成において、雑音抑制が基地局584で行われる。この構成において、無線通信デバイスA 526aは、1または複数のマイクロフォン522を使用してオーディオ信号504aを取り込み、それ504aを、送信機A 578a、および、1または複数のアンテナ534aを使用して基地局584に送信する。基地局584は、1または複数のアンテナ582および受信機A 580aを使用してオーディオ信号504bを受信する。雑音抑制モジュールC 510cは、オーディオ信号504bの雑音を抑制し、雑音抑制済みオーディオ信号520bを生成する。雑音抑制済みオーディオ信号520bは、送信機B 578bおよび1または複数のアンテナ582を使用して無線通信デバイスB 526bに送信される。無線通信デバイスB 526bは、雑音抑制済みオーディオ信号520cを受信するために、1または複数のアンテナ534bおよび受信機B 580bを使用する。次に、雑音抑制済みオーディオ信号520cは、1または複数のスピーカ528を使用して出力される。
さらに別の構成において、ダウンリンク雑音抑制が、オーディオ信号504cに対して行われる。この構成において、オーディオ信号504aは、1または複数のマイクロフォン522を使用して無線通信デバイスA 526aで取り込まれ、送信機A 578a、および、1または複数のアンテナ534aを使用して基地局584に送信される。基地局584は、トランシーバ586、および、1または複数のアンテナ582を使用してオーディオ信号504aを受信して送信する。無線通信デバイスB 526bは、1または複数のアンテナ534bおよび受信機B 580bを使用してオーディオ信号504cを受信する。雑音抑制モジュールB 510bは、オーディオ信号504cの雑音を抑制し、1または複数のスピーカ528を使用して音響信号に変換された雑音抑制済みオーディオ信号520cを生成する。
別の構成も可能である。すなわち、雑音抑制510は、送信側の無線通信デバイス526a、基地局584、および/または、受信側の無線通信デバイス526bのあらゆる組み合わせで実行されうる。例えば、雑音抑制510は、送信側の無線通信デバイス526aおよび受信側の無線通信デバイス526bの両方によって行われうる。あるいは、雑音抑制は、送信側の無線通信デバイス526aおよび基地局584によって行われうる。あるいは、雑音抑制は、基地局584および受信側の無線通信デバイス526bによって行われうる。さらに、雑音抑制は、送信側の無線通信デバイス526a、基地局584、および、受信側の無線通信デバイス526bによって行われうる。
図6は、オーディオ信号604の複数の帯域690での雑音抑制を示すブロック図である。全体的に、図6は、広帯域オーディオ信号604に適用されている雑音抑制610を示す。この場合、オーディオ信号604は、まず、異なる周波数帯域690に対応する出力のセットを生成するために、分析フィルタバンク688を通過する。各帯域690は、雑音抑制610の別々のセットに従属されうる(例えば、利得の別々のセットは、周波数帯域690ごとに計算される)。次に、各帯域の雑音抑制済み出力603は、合成フィルタバンク696を使用して結合され、広帯域の雑音抑制済み出力信号620が生成される。この手順に関するさらなる詳細が下に提供される。
1つの構成において、オーディオ信号604は、雑音抑制610のために、2つ以上の帯域690へと分割されうる。これは、特に、オーディオ信号604が、広帯域オーディオ信604の場合に有益でありうる。分析フィルタバンク688は、オーディオ信号604を2つ以上の(周波数)帯域690に分割するために使用されうる。分析フィルタバンク688は、例えば、複数の無限インパルス応答(IIR)フィルタとして実現されうる。1つの構成において、分析フィルタバンク688は、オーディオ信号604を、帯域A 690aおよび帯域B 690bという2つの帯域に分離する。例えば、帯域A 690aは、より低い周波数コンポーネントを含む帯域B 690bよりも高い周波数コンポーネントを含む「高帯域」でありうる。図6は、帯域A 690aおよび帯域B 690bしか示さないが、別の構成において、分析フィルタバンク688は、オーディオ信号604を2つよりも多くの帯域690に分離しうる。
雑音抑制610は、オーディオ信号604の各帯域690で行われうる。例えば、DFT A 692aは、帯域A 690aを、周波数ドメインに変換して、周波数ドメイン信号A 698aを生成する。次に、雑音抑制A 610aは、周波数ドメイン信号A 698aに適用され、周波数ドメイン雑音抑制済み信号A 601aを生成しうる。周波数ドメイン雑音抑制済み信号A 610aは、IDFT A 694aを使用して、雑音抑制済み信号A 603(時間ドメインの)へと変換されうる。
同様に、帯域B 690bのDFT B 692bが計算され、周波数ドメイン信号B 698bを生成しうる。雑音抑制B 610bは、周波数ドメイン信号B 698bに適用され、周波数ドメイン雑音抑制済み信号B 601bが生成される。IDFT B 694bは、周波数ドメイン雑音抑制済み信号B 610bを時間ドメインに変換し、結果として、雑音抑制済み信号B 603bが生じる。次に、雑音抑制済み信号A 603a、および、B 603bは、合成フィルタバンク696へと入力されうる。合成フィルタバンク696は、雑音抑制済み信号A 603a、および、B 603bを、単一の雑音抑制済みオーディオ信号620へと結合または合成する。
図7は、オーディオ信号の雑音を抑制するための方法700の1つの構成を示すフロー図である。電子デバイス102は、オーディオ信号を獲得しうる(702)。1つの構成において、電子デバイス102は、マイクロフォンを使用して、オーディオ信号を獲得する(702)。別の構成において、電子デバイス102は、オーディオ信号を別の電子デバイス(例えば、無線通信デバイス、基地局など)から受信することによって、オーディオ信号を獲得する(702)。電子デバイスは、定常雑音推定、非定常雑音推定、および、超過雑音推定に基づいて総合雑音推定を計算しうる(704)。様々な雑音推定を計算することについてのさらなる詳細が下に提供される。
電子デバイス102は、さらに、入力の信号対雑音比(SNR)および1または複数のSNR限界に基づいて適応係数を計算しうる(706)。入力のSNRは、例えば、オーディオ信号に基づいて獲得されうる。入力のSNRおよびSNR限界についてのさらなる詳細が下に提供される。
電子デバイス102は、スペクトル拡張利得関数を使用して利得のセットを計算しうる(708)。スペクトル拡張利得関数は、総合雑音推定および/または適応係数に基づきうる。一般的に、スペクトル拡張は、信号の大きさに(例えば、所与の周波数での)基づいて、そのダイナミックレンジを拡張しうる。電子デバイス102は、利得のセットをオーディオ信号に適用し、雑音抑制済みオーディオ信号を生成しうる(710)。次に、電子デバイス102は、雑音抑制済みオーディオ信号を提供しうる(712)。1つの構成において、電子デバイスは、音響信号に変換することによって(例えば、スピーカを使用して)、雑音抑制済みオーディオ信号を提供する(712)。別の構成において、電子デバイス102は、別の電子デバイス(例えば、無線通信デバイス、基地局など)に送信することによって、雑音抑制済みオーディオ信号を提供する(712)。さらに別の構成において、電子デバイス102は、メモリに記憶することによって雑音抑制済みオーディオ信号を提供する(712)。
図8は、オーディオ信号の雑音を抑制するための方法800のより具体的な構成を示すフロー図である。電子デバイス102は、オーディオ信号を獲得しうる(802)。上で論述されたように、電子デバイス102は、マイクロフォンを使用してオーディオ信号を取り込むことによって、または、オーディオ信号を受信することによって(例えば、別の電子デバイスから)、オーディオ信号を獲得しうる(802)。電子デバイス102は、オーディオ信号のDFTを計算し、周波数ドメインオーディオ信号を生成しうる(804)。例えば、電子デバイス102は、高速フーリエ変換(FFT)アルゴリズムを使用して、オーディ信号のDFTを計算しうる(804)。電子デバイス102は、周波数ドメインオーディオ信号の大きさまたは電力を計算しうる(806)。電子デバイス102は、周波数ドメインオーディオ信号の大きさまたは電力を、より少ない周波数ビンに圧縮しうる(808)この圧縮(808)についてのさらなる詳細が下に提供される。
電子デバイス102は、周波数ドメインオーディオ信号の大きさまたは電力に基づいて定常雑音推定を計算しうる(810)。例えば、電子デバイス102は、最小追跡アプローチを使用して、オーディオ信号の定常雑音を推定しうる。随意的に、定常雑音推定は、電子デバイス102によって平滑化されうる(812)。
電子デバイス102は、音声活動検出器(VAD)を使用して、周波数ドメインオーディオ信号の大きさまたは電力に基づいて非定常雑音推定を計算しうる(814)。例えば、電子デバイス102は、VAD非アクティブ期間(例えば、音声またはスピーチが検出されない場合)と比較して、VADアクティブ期間(例えば、音声またはスピーチが検出される場合)の間に、異なる平滑化または平均化係数を使用して周波数ドメインオーディオ信号の大きさまたは電力の移動平均を計算しうる。より具体的に、平滑化係数は、VADを使用して、音声が検出されなかった場合よりも音声が検出された場合に大きくありうる。
電子デバイス102は、周波数ドメインオーディオ信号の大きさまたは電力、定常雑音推定、非定常雑音推定に基づいて、対数SNRを計算しうる(816)。例えば、電子デバイス102は、定常雑音推定と非定常雑音推定とに基づいて結合雑音推定を計算する。電子デバイス102は、対数SNRを生成するために、結合雑音推定に対する、周波数ドメインオーディオ信号の大きさまたは電力の比の対数を取りうる。
電子デバイス102は、定常雑音推定と非定常雑音推定とに基づいて超過雑音推定を計算しうる(818)。例えば、電子デバイス102は、ゼロから、結合雑音スケーリング係数と結合雑音推定との積が差し引かれたターゲット雑音抑制限界と周波数ドメインオーディオ信号の大きさまたは電力との積までの間の最大値を計算または決定する(例えば、定数雑音推定および非定数雑音推定に基づいて)。超過雑音推定の計算(818)もVADを使用しうる。例えば、超過雑音推定は、VADが非アクティブの場合(例えば、音声またはスピーチが検出されない場合)にのみ計算されうる。あるいは、または、加えて、超過雑音推定は、VADがアクティブの場合にゼロであり、VADが非アクティブの場合に非ゼロであるスケーリングまたは重み係数と乗算されうる。
電子デバイス102は、定常雑音推定、非定常雑音推定、および、超過雑音推定に基づいて総合雑音推定を計算しうる(820)。例えば、総合雑音推定は、結合雑音推定(例えば、定常および非定常雑音推定に基づく)と、結合雑音スケーリング(または、過剰減算)係数との積を、超過雑音推定と超過雑音スケーリングまたは重み係数との積に加算することによって計算される。上で論述されたように、超過雑音スケーリングまたは重み係数は、VADがアクティブの場合にゼロであり、VADが非アクティブの場合に非ゼロでありうる。このように、超過雑音推定は、VADがアクティブの場合、総合雑音推定に寄与しない可能性がある。
電子デバイス102は、対数SNR、および、1または複数のSNR限界に基づいて適応係数を計算しうる(822)。例えば、対数SNRがSNR限界よりも大きい場合、適応係数は、対数SNRとバイアス値とを用いて計算されうる(822)。対数SNRが、SNR限界以下の場合、適応係数は、雑音抑制限界に基づいて計算されうる(822)。さらに、複数のSNR限界が使用されうる。例えば、SNR限界は、利得曲線(下により詳細に論述される)が、SNRが制限よりも大きい場合に対してSNRが限界より小さい場合にどのような反応を示すべきかを決定するターニングポイントである。いくつかの構成において、複数のターニングポイントまたはSNR限界は、適応係数(従って、利得のセット)が異なるSNR領域に対して別々に決定されるように使用されうる。
電子デバイス102は、周波数ドメインオーディオ信号の大きさまたは電力、総合雑音推定、および、適応係数に基づいてスペクトル拡張利得関数を使用して利得のセットを計算しうる(824)。利得のセットおよびスペクトル拡張利得関数についてのさらなる詳細が下に提供される。電子デバイス102は、随意的に、時間的および/または周波数平滑化(826)を利得のセットに適用しうる。
電子デバイス102は、周波数ビンを圧縮解除しうる(828)。例えば、電子デバイス102は、圧縮解除された周波数ビンを補間しうる。1つの構成において、同一の圧縮利得が、圧縮周波数ビンに対応する全ての周波数に対して使用される。電子デバイスは、随意的に、不連続性を減らすために、複数の周波数にわたって(圧縮解除された)利得のセットを平滑化しうる(830)。
電子デバイス102は、利得のセットを周波数ドメインオーディオ信号に適用し、周波数ドメイン雑音抑制済みオーディオ信号を生成しうる(832)。例えば、電子デバイス102は、周波数ドメインオーディオ信号を利得のセットと乗算しうる。次に、電子デバイス102は、周波数ドメイン雑音抑制済みオーディオ信号のIDFT(例えば、高速逆フーリエ変換(IFFT))を計算し、雑音抑制済オーディオ信号(時間ドメインの)を生成しうる(834)。電子デバイス102は、雑音抑制済みオーディオ信号を提供しうる(836)。例えば、電子デバイス102は、雑音抑制済みオーディオ信号を、基地局または無線通信デバイスのような別の電子デバイスに送信しうる。あるいは、電子デバイス102は、雑音抑制済みオーディオ信号を音響信号に変換すること(例えば、スピーカを使用して雑音抑制済みオーディオ信号を出力すること)によって、雑音抑制済みオーディオ信号を提供しうる(836)。電子デバイスは、さらに、あるいは、代替として、メモリに記憶することによって、雑音抑制済みオーディオ信号を提供しうる(836)。
図9は、雑音抑制モジュール910の1つの構成を示すブロック図である。雑音抑制モジュール910のより一般的な説明は、図9に関連して提供される。雑音抑制モジュール910に含まれる可能なインプリメンテーションまたは機能に関するさらなる詳細が以下に提供される。雑音抑制モジュール910が、ハードウェア、ソフトウェア、または、両方の組み合わせで実現されうることに注意されたい。
雑音抑制モジュール910は、周波数ドメイン雑音抑制技術を用いて、オーディオ信号904の品質を改善する。オーディオ信号904は、まず、DFT(例えば、FFT)922動作を適用することによって、周波数ドメインオーディオ信号905に変換されうる。スペクトル大きさまたは電力推定909は、大きさ/電力計算モジュール907によって計算されうる。例えば、周波数ドメインオーディオ信号905の絶対電力が計算され、オーディオ信号904のスペクトル大きさ推定909を生成するために、この絶対電力の平方根が計算される。
より具体的には、X(n、f)は、時間フレームnおよび周波数ビンfにおける周波数ドメインオーディオ信号905(例えば、オーディオ信号904の複合DFTまたはFFT 992)を表すとする。入力オーディオ信号904は、長さNのフレームまたはブロックへとセグメント化されうる。例えば、N=10ミリ秒(ms)または20msなどでありうる。DFT 992動作は、オーディオ信号904を周波数ドメインに変換するために、例えば、それ904に対して128ポイントまたは256ポイントFFTを行うことによって実行され、周波数ドメインオーディオ信号905を生成しうる。
雑音抑制モジュール910は、オーディオ信号904の(例えば、周波数ドメインオーディオ信号X(n、f)の)大きさスペクトル推定S(n、f)909で動作する。あるいは、雑音抑制モジュール910は、直接、電力スペクトル推定P(n、f)909、あるいは、電力スペクトル推定P(n、f)の任意の別の電力で動作しうる。換言すると、雑音抑制モジュール910は、スペクトル大きさまたは電力909推定を使用して動作しうる。
スペクトル推定909は、周波数ビンの数をより少ない数のビンへと減らすために圧縮されうる。すなわち、ビン圧縮モジュール911は、スペクトル大きさ/電力推定909を圧縮し、圧縮スペクトル大きさ/電力推定913を生成しうる。これは、(例えば、必ずしもバークスケールではなく)対数スケールで行われうる。可聴帯域が複数の周波数にわたって対数的に増加するため、スペクトル圧縮は、スペクトル大きさ推定またはデータ909を複数の周波数にわたって対数的に圧縮911することにより、単純な方法で行われうる。スペクトル大きさ/電力909をより少ない周波数ビンに圧縮することは、計算複雑性を減らしうる。しかしながら、周波数ビン圧縮911が随意的であること、および、雑音抑制モジュール910が、圧縮されていないスペクトル大きさ/電力推定909を用いて動作しうることに注意されたい。
スペクトル大きさ推定909または圧縮スペクトル大きさ推定913から、定常雑音推定919、非定常雑音推定923、超過雑音推定939という3つのタイプの雑音スペクトル推定が計算されうる。例えば、定常雑音推定モジュール915は、圧縮スペクトル大きさ913を使用して、定常雑音推定919を生成する。定常雑音推定919は、平滑化917を使用して随意的に平滑化されうる。
非定常雑音推定923および超過雑音推定939は、所望信号の存在を検出するのに検出器925を用いることによって計算されうる。例えば、所望信号は、音声である必要はなく、音声活動検出器(VAD)以外の別のタイプの検出器925が使用されうる。音声通信システムの場合、VAD 925は、音声またはスピーチを検出するために用いられる。例えば、非定常雑音推定モジュール921は、圧縮スペクトル大きさ913およびVAD信号927を使用して、非定常雑音推定923を計算する。VAD 925は、例えば、ブラウズトークモードで使用されるような時間ドメイン単一マイクロフォンVADでありうる。
定常雑音推定919および非定常雑音推定923は、SNR推定モジュール929によって使用され、スペクトル大きさ/電力909、または、圧縮スペクトル大きさ/電力913のSNR推定931(例えば、対数SNR 931)が計算されうる。SNR推定931は、過剰減算係数計算モジュール933によって使用され、積極性または過剰減算係数935が計算されうる。過剰減算係数935、定常雑音推定919、非定常雑音推定923、VAD信号927は、超過雑音推定モジュール937によって使用され、超過雑音推定929が計算されうる。
定常雑音推定919、非定常雑音推定923、超過雑音推定939は、理知的に結合され、総合雑音推定916が形成されうる。換言すると、総合雑音推定916は、定常雑音推定919、非定常雑音推定923、超過雑音推定939に基づいて総合雑音推定モジュール941によって計算されうる。過剰減算係数935は、さらに、総合雑音推定916の計算に使用されうる。
総合雑音推定916は、スピーチ適応918スペクトル拡張914(例えば、コンパンディング)ベースの利得計算912に使用されうる。例えば、利得計算モジュール912は、スペクトル拡張関数914を含みうる。スペクトル拡張関数914は、適応係数918を使用しうる。適応係数918は、1または複数のSNR限界943およびSNR推定931を使用して計算されうる。利得計算モジュール912は、スペクトル拡張関数、圧縮スペクトル大きさ913、および、総合雑音推定916を使用して利得のセット945を計算しうる。
利得のセット945は、時間および周波数にわたる利得945の急速な変化によって引き起こされる不連続性を減らすために、随意的に平滑化されうる。例えば、時間/周波数平滑化モジュール947は、時間および/または周波数にわたって、利得のセット945を随意的に平滑化し、平滑化(圧縮)された利得949を生成しうる。1つの構成において、時間平滑化モジュール947は、式(3)に示されるような変化を減らすために、時間またはフレームにわたって指数平均化(例えば、IIR利得平均化)を使用しうる。
は、時間的に平滑化された利得のセットであり、αtは平滑化定数である。
所望の信号が音声である場合、VAD 925の決定に基づいて平滑化定数αtを決定するこが有益でありうる。例えば、スピーチまたは音声が検出された場合、スピーチを維持してアーティファクトを減らすために、利得が急速に変化することが可能にされうる。スピーチまたは音声が検出された場合、平滑化定数は、0<αt≦0.6の範囲内に設定されうる。雑音だけの期間(スピーチまたは音声が検出されない場合)について、利得は、0.5<αt≦1の範囲内の平滑化定数を用いて平滑化されうることが多い。これは、雑音だけの期間の間に雑音残余の品質を改善しうる。加えて、平滑化定数αtは、さらに、アタック・アンド・リリース・タイム(attack and release time)に基づいて変更されうる。利得945が突然増えると、平滑化定数αtは、より早い追跡を可能にするために、より低くされうる。利得945が減少すると、平滑化定数αtが増やされ、利得がゆっくりと下がることを可能にする。これは、スピーチまたは音声アクティブ期間の間、スピーチまたは音声のより良い維持を提供しうる。
利得のセット945は、加えて、または、あるいは、複数の周波数にわたって利得不連続性を減らすために、複数の周波数にわたって平滑化されうる。周波数平滑化への1つのアプローチは、式(4)に示されるように、複数の周波数にわたって有限インパルス応答(FIR)フィルタを利得に適用することである。
は、周波数に平滑化された利得のセットである。平滑化フィルタは、例えば、[1−2×a、a、1−2×a]のような対称的な3タップフィルタである。この場合、より小さいaの値は、より高い平滑化を提供し、より大きいaの値はより粗い平滑化を提供する。加えて、平滑化定数aは、より低い周波数が、粗く平滑化され、より高い周波数がより高品質に平滑化されるように、周波数に依存しうる。例えば、0〜1000Hzの場合、a=0.9であり、1000〜2000Hzの場合、a=0.8であり、2000〜4000Hzの場合、a=0.7であり、より高い周波数の場合、a=0.6である。このように、利得のセット945は、時間および/または周波数で随意的に平滑化され、平滑化(圧縮)された利得949を生成しうる。複数の周波数にわたるFIR利得平滑化の別の例は、式(5)に示される。
便宜上、時間/周波数平滑化モジュール947の出力は、「平滑化(圧縮)された利得」949と表されるが、時間/周波数平滑化モジュール947は、圧縮されていない利得で動作し、圧縮されていない平滑化利得949を生成しうることに注意されたい。
利得のセット945または平滑化された(圧縮)利得949は、利得を圧縮解除するためにビン圧縮解除モジュール951に入力され、それによって、圧縮解除された利得のセット953を生成しうる(例えば、周波数ビンの圧縮解除された数に)。すなわち、計算された利得のセット945、または、平滑化された利得949は、スペクトル的に圧縮解除951され(例えば、より少ない数の周波数ビンから、ビン圧縮911前の元々周波数ビンの数に)、元の周波数のセットの圧縮解除利得953を生成しうる。これは、補間技術を使用して行われうる。第0のオーダの補間を有する1つの例は、同一の圧縮利得を、その圧縮ビンに対応する全ての周波数に対して使用することを含み、それは、式(6)に示される:
および949は、fk−1からfkの間の全ての周波数fに適用される。周波数ビン圧縮911が随意的であるため、周波数ビン圧縮解除951も随意的である。
に適用され、平滑化された(圧縮解除)利得957を生成しうる。周波数平滑化955は、不連続性を減らしうる。周波数平滑化モジュール955は、式(7)に示されるように、利得のセット945、949、953を平滑化し、周波数平滑化利得957を生成しうる:
は、平滑化された利得のセットを表し、αf0は、平滑化または平均化係数であり、mは圧縮解除されたビン番号である。周波数平滑化955が、圧縮および/または圧縮解除されていない利得のセット945、949を平滑化するために適用されうることに注意されたい。
利得のセット(例えば、平滑化された(圧縮解除)利得967)は、圧縮解除された利得953、平滑化された利得949(ビン圧縮911なく)、または、利得945(ビン圧縮911なく)は、利得適用モジュール959によって周波数ドメインオーディオ信号905に適用されうる。例えば、平滑化利得
は、式(8)に示されるように、周波数ドメインオーディオ信号905(例えば、入力データの複合FFT)と乗算され、周波数ドメイン雑音抑制済みオーディオ信号961(例えば、雑音抑制済みFFTデータ)を獲得しうる:
式(8)において、Y(n,f)は、周波数ドメイン雑音抑制済みオーディオ信号961であり、X(n,f)は、周波数ドメインオーディオ信号905である。周波数ドメイン雑音抑制オーディオ信号961はIDFT(例えば、逆FFTまたはIFFT)994にかけられ、雑音抑制済みオーディオ信号920(時間ドメインで)を生成しうる。
簡潔には、本明細書において開示されるシステムおよび方法は、オーディオ信号904の雑音を抑制するために、異なる周波数において雑音レベル推定915、921、937、941を計算することと、入力スペクトル大きさデータ909、913から利得のセット945を計算することとを含みうる。本明細書において開示されるシステムおよび方法は、オーディオ/音声記録および音声通信のような様々なアプリケーションに対して、例えば、単一マイクロフォン雑音抑制器、あるいは、フロントエンド雑音抑制器として使用されうる。
図10は、ビン圧縮1011の1つの例を示すブロック図である。ビン圧縮モジュール1011は、多数の周波数「ビン」においてスペクトル大きさ/電力信号1009を受信し、それをより少ない数の圧縮周波数ビン1067に圧縮しうる。圧縮された周波数ビン1067は、出力圧縮周波数ビン1013として出力されうる。上に記述されたように、ビン圧縮1011は、雑音抑制910を行う際の計算複雑性を減らしうる。
一般的に、DFT 922(例えば、FFT)の長さはNfで表されるとする。例えば、Nfは、音声アプリケーションの場合、128または256などでありうる。Nfの周波数ビンにわたるスペクトル大きさデータ1009は、スペクトル大きさデータ1009を隣接の周波数ビンにわたって平均化することによって、より少ない数のビンのセットを占めるように圧縮される。
元の周波数1063のセットから圧縮周波数(ビン)1067のセットへのマッピングの例が図10に示される。この例において、より低い周波数(1000ヘルツ(Hz)より低い)のデータは、より低い周波数に対して高い解像度処理を提供するために維持される。より高い周波数について、隣接周波数ビンデータは、隣接ビンで平均化され、より平滑なスペクトル推定を提供しうる。図10に示される例は、周波数1063に従って圧縮ビン1067に圧縮される未圧縮の周波数ビンを示す。例えば、スペクトル大きさ推定1009の128個の周波数ビンまたはデータポイントは、示される圧縮に従って、48個の圧縮周波数ビン1067に圧縮されうる。圧縮1011は、マッピングおよび/または平均化を通して達成されうる。より詳細に、0〜1000Hzの間の周波数ビン1063の各々は、圧縮周波数ビン1067に1:1で(1065a)マッピングされうる。よって、周波数ビン1〜16は、圧縮周波数ビン1〜16となる。1000Hz〜2000Hzの場合、周波数ビン17〜32の各2つは平均化され、圧縮周波数ビン1067 17〜24に2:1で(1065b)マッピングされうる。同様に、2000Hzから300Hzの場合、周波数ビン33〜48は平均化され、圧縮周波数ビン1067 25〜32に2:1で(1065c)マッピングされうる。3000Hzから4000Hzの場合、周波数ビン49〜64の各4つは平均化され、圧縮周波数ビン1067 33〜36に4:1で(1065d)マッピングされる。同様に、4000Hz〜5000Hzの場合、ビン65〜80は、4:1(1065e)で圧縮されて圧縮ビン37〜40となり、5000Hz〜6000Hzの場合、ビン81〜96は、4:1で(1065f)圧縮されて圧縮ビン41〜44となる。6000Hz〜7000Hzの場合、8:1で(1065g)、ビン97〜112は圧縮ビン45〜46となり、7000Hz〜8000Hzの場合、8:1で(1065h)、ビン113〜128はビン47から48となる。
式(9)において、fは周波数を表し、Nkは、圧縮ビンkにおける線形周波数ビンの数を表す。この平均化は、人間の聞くことにおける聴覚処理を粗くシミュレートしうる。すなわち、人間の蝸牛にある聴覚処理フィルタは、帯域幅が周波数と共に益々増える帯域パスフィルタのセットとして作られうる。フィルタの帯域幅は、聴覚の「臨界帯域」と呼ばれることが多い。入力データ1009のスペクトル圧縮は、さらに、平均化によって入力スペクトル推定の変化を減らす助けとなりうる。それは、さらに、雑音抑制910アルゴリズムの計算負担の削減を促進しうる。スペクトルデータの圧縮に使用される特定のタイプの平均化が重要なわけではないことに注意されたい。このように、本明細書のシステムおよび方法は、いずれかの特定の種類のスペクトル圧縮に限定されない。
図11は、本明細書に開示されるシステムおよび方法に従って、超過雑音推定および総合雑音推定を計算することのより具体的なインプリメンテーションを示すブロック図である。雑音抑制アルゴリズムは、入力信号の雑音の推定を抑制するために、それを要求しうる。入力信号の雑音は、定常雑音および非定常雑音のカテゴリに分類されうる。雑音の統計値が、ある時間にわたって定常である場合、この雑音は定常雑音に分類されうる。定常雑音の例は、エンジン雑音、モータ雑音、熱雑音などを含む。非定常雑音の統計的特性は、時間で変化することである。本明細書に開示されるシステムおよび方法に従って、定常および非定常雑音コンポーネントは、別々に推定され、総合雑音推定を形成するために結合されうる。
図11に示されるインプリメンテーションにおいて、電子デバイス102は、入力信号1104から定常雑音推定を計算する。これは、いくつかの方法で達成されうる。例えば、定常雑音は、最小統計値アプローチを使用して、定常雑音推定モジュール1115によって計算されうる。このアプローチにおいて、スペクトル大きさデータA(n,k)1113(これは、圧縮されうる、あるいうは、圧縮されていない可能性がある)は、長さNs1173(例えば、Ns=1秒)の期間にセグメント化され、この期間の間の最小スペクトル大きさは、最小探索モジュール1171によって探索および決定される。最小探索1171は、定常雑音フロア推定Asn(m,K)1177を決定するために、各期間で繰り返される。このように、定常雑音推定Asn(m,k)1177は、式(10)に従って決定されうる:
式(10)において、mは定常雑音探索ブロックのインデックスであり、nは、ブロック内のサンプルのインデックスであり、kは、周波数ビン番号であり、A(n,k)1133は、サンプルnおよびビンkにおけるスペクトル大きさ推定である。式(10)に従って、最小探索1171は、Ns1173のサンプルのブロックにわたって行われ、Asn(m,k)1177において更新される。代替として、時間セグメントNs1173は、いくつかのサブウィンドウに細分化されうる。第1に、各サブウィンドウの最小値が計算されうる。次に、全ての時間セグメントNs1173についての総合最小値が決定されうる。このアプローチによって、より短いインターバルで(例えば、サブウィンドウ毎に)定常雑音フロア推定Asn(m,k)1177を更新することができ、それにより、より早い追跡の性能を有しうる。例えば、スペクトル大きさ推定1113の電力を追跡することは、スライディングウィンドウで実現されうる。このスライディングウィンドウインプリメンテーションにおいて、T秒の推定期間の全長は、各々が、T/nss秒の時間期間を有するnss個のサブセクションに分割されうる。この方法において、定常雑音推定Asn(m,k)1177は、T秒ごとではなく、T/nss秒ごとに更新されうる。
随意的に、入力大きさ推定A(n,k)1113は、定常雑音フロア推定1115の前に、入力平滑化モジュール1118によって時間で平滑化されうる。すなわち、スペクトル大きさ推定A(n,k)1113または平滑化されたスペクトル大きさ推定
は、定常雑音推定モジュール1115に入力されうる。定常雑音フロア推定Asn(m、k)1177は、さらに、式(11)に示されるように、定常雑音平滑化モジュール1117によって、ある時間にわたって随意的に平滑化さr、推定の変化を減らしうる。
は、平滑化された定常雑音推定である。αs1175は、例えば、0.5から0.8の間の値(例えば、0.7)に設定されうる。つまり、定常雑音推定モジュール1115は、定常雑音推定Asn(m,k)1177、または、随意的に平滑化された定常雑音推定
を出力しうる。
定常雑音推定Asn(m,k)1177(あるいは、随意的に平滑化された定常雑音推定1119)は、最小追跡の性質により雑音レベルを十分に推定しない可能性がある。この不十分な推定を補償するために、定常雑音推定1177および1119は、定常雑音スケーリングまたは重み係数γsn1179によってスケーリングされうる。定常雑音スケーリングまたは重み係数γsn1179は、それが雑音抑制に使用される前に、1よりも大きい数で定常雑音推定1177、1119を(乗算1181aを通して)スケーリングするために使用されうる。例えば、定常雑音スケーリング係数γsn1179は、1.25、1.4、あるいは、1.5などでありうる。
電子デバイス102は、さらに、非定常雑音推定Ann(n,k)1123を計算する。非定常雑音推定Ann(n,k)1123は、非定常雑音推定モジュール1121によって計算されうる。定常雑音推定技術は、効果的に、エンジン雑音、モータ雑音などの単調な雑音だけのレベルを取り込む。しかしながら、これらは、バブル雑音などの雑音を効果的に取り込まないことが多い。より良い雑音推定は、検出器1125を使用することによって行われうる。音声通信の場合、所望信号はスピーチまたは音声である。音声活動検出器(VAD)1125は、スピーチまたは音声を含む入力オーディオ信号1104の一部と、雑音しか含まない他の部分とを識別するために用いられうる。この情報を用いて、より迅速な雑音追跡が可能な雑音推定が計算されうる。
例えば、非定常平均化/平滑化モジュール1193は、VAD 1125のアクティブおよび非アクティブ期間の間に異なる平滑化係数αn1197を用いて入力スペクトル大きさA(n,k)1113の移動平均を計算する。このアプローチは式(12)に示される:
式(12)において、αn1197は、非定常平滑化または平均化係数である。加えて、または、あるいは、定常雑音推定Asn(m,k)1177は、雑音電力レベルが、利得計算に対して過剰推定されないように、非定常雑音推定Ann(n,k)1123から差し引かれうる。
平滑化係数αn1197は、VAD 1125がアクティブの場合に(例えば、音声/スピーチを示している場合)に大きく、VAD 1125が非アクティブ(スピーチ/音声を示していない)の場合に、より小さくなるように選択されうる。例えば、VAD 1125が非アクティブの場合にαn=0.9であり、VAD 1125がアクティブの場合にαn=0.9999である(大きい信号電力を有する)。さらに、平滑化係数1197は、小さい信号電力(例えば、αn=0.9999)を有するアクティブスピーチ期間の間ゆっくりと非定常雑音推定1123を更新するために設定されうる。これは、雑音だけの期間の間、雑音変化のより迅速なトラッキングを可能にする。これにより、VAD 1125がアクティブの場合に、非定常雑音推定Ann(n,k)1123における所望信号の取り込みを減らしうる。平滑化係数αn1197は、Ann(n,k)1123が、「長期の(long-term)」非定常雑音推定と考えられうるように、比較的高い値(例えば、1に近い値)に設定されうる。すなわち、非定常雑音平均化係数αn1197が高く設定された場合、Ann(n,k)1123は、比較的長い期間にわたってゆっくりと変化しうる。
非定常平滑化1193は、アタック・アンド・リリース・タイム1195を平均化手順に組み込むことで、より高性能になりうる。例えば、入力が突然高くなると、平均化係数αn1197は、突然の増加がスピーチまたは音声の存在によるものでありうるため、非定常雑音レベル推定Ann(n,k)1123におけるこの突然の増加を防ぐために、高い値に増やされうる。入力が、非定常雑音推定Ann(n,k)1123と比較して下がると、平均化係数αn1197は、雑音変化のより迅速なトラッキングを可能にするために低くされうる。
電子デバイス102は、理知的に、定常雑音推定1177、1119と、非定常雑音推定Ann(n,k)1123とを結合し、雑音抑制に使用されうる結合雑音推定Acn(n,k)1191を生成しうる。すなわち、結合雑音推定Acn(n,k)1191は、結合雑音推定モジュール1187を使用して計算されうる。例えば、1つの結合アプローチは、式(13)に示されるように、2つの雑音推定1119および1123に重みを加え、それらを合計して、結合雑音推定Acn(n,k)1191を得る:
式(13)において、γnnは、非定常雑音スケーリングまたは重み係数である(図11に示されない)。非定常雑音推定Ann(n,k)1123は、すでに、定常雑音推定1177を含みうる。このように、このアプローチは、不必要に、雑音レベルを過剰推定しうる。あるいは、結合雑音推定Acn(n、k)1191は、式(14)に示されるように決定されうる。
式(14)において、スケーリングまたは過剰減算係数γsn1179は、定常雑音推定1177、1119と、非定常雑音推定Ann(n、k)1123の最大値1189aの発見前に、定常雑音推定1177、1119をスケールアップするために使用されうる。定常雑音スケーリングまたは過剰減算係数γsn1179は、ターニングパラメータとして構成され、デフォルトで2に設定されうる。随意的に、結合雑音推定Acn(n,k)1191は、平滑化1122を使用して平滑化されうる(例えば、LogSNR 1131を決定するために使用される前に)。
加えて、結合雑音推定Acn(n,k)1191は、さらに、雑音抑制性能を改善するために、スケーリングされうる。結合雑音推定スケーリング係数γcn1135(過剰減算係数または総合雑音過剰減算係数とも呼ばれる)は、入力オーディオ信号1104の信号対雑音比(SNR)に基づいて、過剰減算係数計算モジュール1133によって決定されうる。対数SNR推定モジュール1129は、式(15)に示されるように、入力スペクトル大きさA(n,k)1113および結合雑音推定Acn(n,k)1191に基づいて、対数SNR推定(便宜上、LogSNR 1131とも呼ばれうる)を決定しうる。
随意的に、LogSNR 1131は、結合雑音スケーリング、過剰減算、または、重み係数γcn1135の決定に使用される前に、平滑化1120されうる。SNRが低い場合に、より多くの雑音を除去するために、結合雑音スケーリング係数γcn1135が高い値に設定されるように、結合雑音スケーリングまたは過剰減算係数γcn1135が選択されうる。さらに、SNRが高い場合、結合雑音スケーリングまたは過剰減算係数γcn1135は、ユニティ(unity)に近く設定され、より少ない雑音を除去し、出力において、より多くのスピーチまたは音声を保存する。結合雑音スケーリング係数γcn 1135を、LogSNR 1131の関数として決定するための式の1つの例が式(17)に示される:
式(17)において、LogSNR 1131は、最小値(例えば、0dB)から最大値(例えば、20dB)の間の値の範囲内に限定されうる。さらに、γmax1185は、LogSNR 1131が0dB以下の場合に使用される最大スケーリングまたは重み係数でありうる。mn1183は、γcn1135がLogSNR 1131によってどれだけ変化するかを決定するスロープ係数である。
雑音推定は、さらに、VAD 1125が非アクティブの場合に超過雑音推定Aen(n,k)1124を使用することで改善されうる。例えば、20dBの雑音抑制が出力において望まれる場合でも、雑音抑制アルゴリズムが、このレベルの抑制を常に達成できるわけではない。超過雑音推定Aen(n,k)1124の使用は、雑音抑制の改善を促進し、この望まれるターゲット雑音抑制目標を達成しうる。超過雑音推定Aen(n,k)1124は、式(18)に示されるように、超過雑音推定モジュール1126によって計算されうる。
式(18)において、βNS1199は、所望またはターゲット雑音抑制限界である。例えば、20dBの抑制が望まれる場合、βNS=0.1である。式(18)に示されるように、スペクトル大きさ推定A(n,k)1113は、雑音抑制限界βNS 1199によって重み付けされるか、スケーリングされうる(例えば、乗算1181cを通して)。結合雑音推定Acn(n,k)1191は、結合雑音スケーリング、重みまたは過剰減算係数γcn1135と乗算され(1181b)、γcnAcn(n,k)1106が産出されうる。この重み付けまたはスケーリングされた結合雑音推定γcnAcn(n,k)1106は、超過雑音推定モジュール1126によって、重み付けまたはスケーリングされたスペクトル大きさ推定βNSA(n,k)1102から差し引かれうる(1108a)この差の最大値1189bおよび定数1110(例えば、ゼロ)は、さらに、超過雑音推定モジュール1126によって決定され、超過雑音推定Aen(n,k)1124を産出しうる。超過雑音推定Aen(n,k)1124が「短期」推定とみなされることに注意されたい。超過雑音推定Aen(n,k)1124は、それ1124が、迅速に変化すること、および、アクティブスピーチが存在しない場合に雑音統計値を追跡することを許可されるため、「短期」推定とみなされる。
超過雑音推定Aen(n,k)1124は、VAD 1125が非アクティブの場合(例えば、スピーチが検出されない場合)にのみ計算されうる。これは、超過雑音スケーリングまたは重み係数γen1114を通して達成されうる。すなわち、超過雑音スケーリングまたは重み係数γen1114は、VAD 1125決定の関数でありうる。1つの構成において、γen計算モジュール1112は、VAD 1125がアクティブの場合(スピーチまたは音声が検出された場合)にγen=0に、VAD 1125が非アクティブの場合(スピーチまたは音声が検出されない場合)に0≦γen≦1に設定する。
超過雑音推定Aen(n,k)1124は、超過雑音スケーリングまたは重み係数γen 1114と乗算され(1181d)、γenAen(n,k)を獲得しうる。γenAen(n,k)は、総合雑音推定モジュール1141によって、スケーリングまたは重み付けされた結合雑音推定γcnAcn(n,k)1106に加算され(1108b)、総合雑音推定Aon(n,k)1116が獲得されうる。総合雑音推定Aon(n,k)1116は、式(19)に示されるように表されうる:
総合雑音推定Aon(n,k)1116は、入力スペクトル大きさデータA(n,k)1113に適用するための利得のセットを計算するために使用されうる。利得計算についてのさらなる詳細は下に提供される。別の構成において、総合雑音推定Aon(n,k)1116は、式(20)に従って計算されうる:
図12は、過剰減算係数を決定するのに使用されうるより具体的な機能を示す図である。過剰減算または結合雑音スケーリング係数γcn1235は、より多くのノイズを除去するために、LogSNR 1231が低い場合に結合雑音スケーリング係数γcn1235がより高い値に設定されるように決定されうる。さらに、LogSNR 1231が高い場合、結合雑音スケーリング係数γcn1135は、より低い値に(例えば、ユニティに近く)設定され、より少ない雑音を除去し、出力においてより多くのスピーチまたは音声を保存する。式(21)は、過剰減算または結合雑音スケーリング係数γcn1235を、LogSNR 1231の関数として決定するための式の別の例を示す。
において、LogSNR 1231は、最小値(例えば、0dB)から最大値SNRmax1230(例えば、20dB)の値の範囲内に制限されうる。γmax1285は、LogSNR 1231が0dB以下の場合に使用される最大スケーリングまたは重み係数である。加えて、γmin1228は、LogSNR 1231が20dB以上の場合に使用される最小スケーリングまたは重み係数である。mn 1283は、γcn1235がLogSNR 1231によってどれだけ変化するかを決定するスロープ係数である。
図13は、利得計算モジュール1312のより具体的なインプリメンテーションを示すブロック図である。本明細書に開示されるシステムおよび方法に従って、雑音抑制アルゴリズムは、雑音を抑制するために入力オーディオ信号に適用されうる周波数依存利得G(n,k)1345のセットを決定する。雑音を抑制するための別のアプローチ(例えば、従来のスペクトル減算またはウィーナフィルタリング)が使用されている。しかしながら、これらのアプローチは、入力SNRが低い場合、または、雑音抑制が積極的に調整される場合に、非常に多くのアーティファクトをもたらしうる。
本明細書のシステムおよび方法は、オーディオ信号104の雑音を抑制しながらスピーチまたは音声品質の維持を促進しうるスピーチ適応スペクトル拡張またはコンパンディングベースの利得設計を開示する。利得計算モジュール1312は、スペクトル拡張関数1314を使用して、利得G(n,k)1345のセットを計算しうる。スペクトル拡張利得関数1314は、総合雑音推定Aon(n,k)1316および適応係数1318に基づきうる。
適応係数A 1318は、入力SNR(例えば、便宜上、LogSNR 1331と呼ばれうる対数SNR)、1または複数のSNR限界1343、および、バイアス1356に基づいて計算されうる。適応係数A 1318は、式(22)に示されるように計算されうる:
において、バイアス1356は、音声品質選好に基づいて適応係数A 1318の値をシフトするために使用されうる小さい数である。例えば、0≦バイアス≦5である。SNR_Limit 1343は、入力SNR(例えば、LogSNR 1331)がリミット以上の場合と比較して、リミット未満の場合に、利得曲線がどのような反応を示すべきかを決定または判定するターニングポイントである。LogSNR 1331は、上の式(15)または(16)で示されたように計算されうる。図11に関して記述されたように、スペクトル大きさ推定A(n,k)1313は、平滑化され1118(例えば、平滑化されたスペクトル大きさ推定
1169を生成するために)、結合雑音推定Acn(n,k)1191は、平滑化されうる(1122)。これは、随意的に、スペクトル大きさ推定A(n,k)1313の前に起こりうる。さらに、結合雑音推定Acn(n,k)1191が使用され、式(15)または(16)に示されるように、LogSNR 1331を計算する。さらに、LogSNR 1331自体は、図11に関して上で論述されたように、随意的に平滑化1120されうる。平滑化1118、1122、1120は、LogSNR 1331が使用される前に行われ、適応係数A 1318を計算しうる適応係数A 1318は、それが、上の式(15)または(16)で示されたように(随意的に平滑化された)スペクトル大きさ推定A(n,k)1313、結合雑音推定Acn(n,k)1191、および/または、非定常雑音推定Ann(n,k)1123に依存しうるLogSNR 1331に依存するため、「適応的」と呼ばれうる。
利得計算モジュール1312は、入力SNRの関数として設計され、SNRが低い場合により低く、SNRが高い場合により高く設定されうる。例えば、入力スペクトル大きさA(n,k)1313および総合雑音推定Aon(n,k)1316は、式(23)に示されるように、利得のセットG(n,k)1345を計算するために使用されうる:
式(23)において、B 1354は、dBで表された所望雑音抑制リミット(例えば、B=20dB)であり、雑音抑制の量に対するユーザ選好に従って設定されうる。b1350は利得の最小境界であり、b計算モジュール1352により、次の式に従って計算されうる:
は、それが全ての雑音推定を使用するため、短期であるとみなされ、ある時間にわたってそれほど平滑ではない可能性がある。しかしながら、適応係数A 1318を計算するために使用されるLogSNR 1331(式(22)に示される)は、ゆっくりと変化し、より平滑でありうる。
である。入力SNR(例えば、LogSNR 1331)がSNR_Limit 1343よりも大きい場合、利得は拡張され、スピーチまたは音声アーティファクトを最小化するために、ユニティに近づけられる。スペクトル拡張利得関数1314は、複数のSNR_Lmimit 1343またはターニングポイントをもたらすためにさらに変更され、それによって、利得G(n,k)1345は、異なるSNR領域に対して別々に決定されうる。スペクトル拡張利得関数1314は、音声品質および雑音抑制レベルの選好に基づいて利得曲線を調整するために柔軟性を提供する。
は、瞬間的なSNRの変化を追跡するため、より平滑な(および/または)平滑化されたLogSNR 1331よりも、ある時間にわたってより迅速に変化しうる。適応係数A 1318は、上に示されたようにLogSNR 1331の関数に比例して変化する。
1334は、指数関数1336の基数を形成する。適応係数A 1318の逆数1332bと乗算された(1381b)所望の雑音抑制限界B 1354の積(例えば、B/A)1358は、指数関数1336の指数1340(例えば、B/A)を形成する。指数関数出力
1344が獲得される。最小関数1346の第2の項は、定数1348(例えば、1)でありうる。利得のセットG(n,k)1345を決定するために、最小関数1346は、第1の項と第2の定数1348項の最小値を決定する:
図14は、電子デバイス1402で利用されうる様々なコンポーネントを示す。示されるコンポーネントは、同一の物理構造内に、あるいは、離れたハウジングまたは構造に位置づけられうる。図1および2に関して論述された電子デバイス102、202は、電子デバイス1402に類似して構成されうる。電子デバイス1402は、プロセッサ1466を含む。プロセッサ1466は、汎用のシングルチップまたはマルチチッププロセッサ(例えば、ARM)、専用マイクロプロセッサ(例えば、デジタル信号プロセッサ(DSP))、マイクロコントローラ、プログラマブルゲートアレイなどでありうる。プロセッサ1466は、中央処理装置(CPU)と呼ばれうる。単一のプロセッサ1466だけが、図14の電子デバイス1402に示されるが、代替の構成において、プロセッサの組み合わせ(例えば、ARMとDSP)が使用されうる。
電子デバイス1402は、プロセッサ1466と電子通信状態にあるメモリ1460を含みうる。すなわち、プロセッサ1466は、メモリ1460から情報を読み取ること、および/または、メモリ1460に情報を書き込むことができる。メモリ1460は、電子情報を記憶することができる任意の電子コンポーネントでありうる。メモリ1460は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、磁気ディスク記憶媒体、光記憶媒体、RAMのフラッシュメモリデバイス、プロセッサに含まれるオンボードメモリ、プログラマブル読み取り専用メモリ(PROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、電気的消去可能PROM(EEPROM)、レジスタ、その他、および、それらの組み合わせでありうる。
データ1464aおよび命令1462aは、メモリ1460に記憶されうる。命令1462aは、1または複数のプログラム、ルーティン、サブルーティン、機能、手順などを含みうる。命令1462aは、単一のコンピュータ可読ステートメントまたは多数のコンピュータ可読ステートメントを含みうる。命令1462aは、上に記述された方法700、800を実現するために、プロセッサ1466によって実行可能である。命令1462aを実行することは、メモリ1460に記憶されたデータ1464aの使用を含みうる。図14は、プロセッサ1466にロードされているいくつかの命令1462bおよびデータ1464bを示す。
電子デバイス1402は、さらに、別の通信デバイスと通信するために1または複数の通信インターフェース1468を含みうる。通信インターフェース1468は、有線通信テクノロジ、無線通信テクノロジ、あるいは、両方に基づきうる。通信インターフェース1468の異なるタイプの例は、シリアルポート、パラレルポート、USB、イーサネット(登録商標)アダプタ、IEEE 1394バスインターフェース、小コンピュータシステムインターフェース(SCSI)バスインターフェース、赤外線(IR)通信ポート、ブルートゥース無線通信アダプタ、その他を含みうる。
電子デバイス1402は、さらに、1または複数の入力デバイス1470および1または複数の出力デバイス1472を含みうる。異なる種類の入力デバイス1470の例は、キーボード、マウス、マイクロフォン、リモート制御デバイス、バトン、ジョイスティック、トラックボール、タッチパッド、ライトペン、その他を含む。出力デバイス1472の異なる種類の例は、スピーカ、プリンタ、その他を含む。電子デバイス1402に典型的に含まれうる出力デバイスの1つの特定の例は、ディスプレイデバイス1474である。本明細書に開示される構成で使用されるディスプレイデバイス1474は、ブラウン管(CRT)、液晶ディスプレイ(LCD)、発光ダイオード(LED)、ガスプラズマ、エレクトロルミネセンスなどの任意の適切な画像プロジェクション技術を利用しうる。ディスプレイコントローラ1476は、さらに、メモリ1460に記憶されたデータを、ディスプレイデバイス1474上に表示されるテキスト、グラフィックス、および/または、動画に(適宜)変換するために提供されうる。
電子デバイス1402の様々なコンポーネントは、電力バス、制御信号バス、状態信号バス、データバスなどを含みうる1または複数のバスによって互いに結合されうる。簡略化のために、様々なバスが、バスシステム1478として図14に示される。図14は、電子デバイス1402の1つの可能な構成しか示さないことに注意されたい。様々な別のアーキテクチャおよびコンポーネントが利用されうる。
図15は、無線通信デバイス1526に含まれうる特定のコンポーネントを示す。前に記述された無線通信デバイス326、426、526a〜bは、図15に示される無線通信デバイス1526と類似して構成されうる。無線通信デバイス1526は、プロセッサ1566を含む。プロセッサ1566は、汎用のシングルチップまたはマルチチップマイクロプロセッサ(例えば、ARM)、専用マイクロプロセッサ(例えば、デジタル信号プロセッサ(DSP))、マイクロコントローラ、プログラマブルゲートアレイなどでありうる。プロセッサ1566は、中央処理装置(CPU)と呼ばれうる。単一のプロセッサ1566しか、図15の無線通信デバイス1526に示されないが、代替の構成において、プロセッサの組み合わせ(例えば、ARMとDSP)が使用されうる。
無線通信デバイス1526は、さらに、プロセッサ1566と電気的に通信状態にあるメモリ1560を含みうる(すなわち、プロセッサ1566は、メモリ1560から情報を読み取ること、および/または、メモリ1560に情報を書き込むことが可能である)。メモリ1560は、電子情報を記憶することができる任意の電子コンポーネントでありうる。メモリ1560は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、磁気ディスク記憶媒体、光記憶媒体、RAMのフラッシュメモリデバイス、プロセッサに含まれるオンボードメモリ、プログラマブル読み取り専用メモリ(PROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、電気的消去可能PROM(EEPROM)、レジスタ、その他、および、それらの組み合わせでありうる。
データ1564aおよび命令1562aは、メモリ1560に記憶されうる。命令1562aは、1または複数のプログラム、ルーティン、サブルーティン、機能、手順などを含みうる。命令1562aは、単一のコンピュータ可読ステートメントまたは多数のコンピュータ可読ステートメントを含みうる。命令1562aは、上に記述された方法700および800を実現するために、プロセッサ1566によって実行可能でありうる。命令1562aを実行することは、メモリ1560に記憶されるデータ1564aの使用を含みうる。図15は、プロセッサ1566にロードされているいくつかの命令1562bおよびデータ1564bを示す。
無線通信デバイス1526は、さらに、無線通信デバイス1526とリモートロケーション(例えば、基地局または別の無線通信デバイス)との間での信号の送受信を可能にするための送信機1582および受信機1584を含みうる。送信機1582および受信機1584は、集合的に、トランシーバ1580と呼ばれうる。アンテナ1534は、トランシーバ1580に電気的に結合されうる。無線通信デバイス1526は、さらに、複数の送信機、複数の受信機、複数のトランシーバ、および/または、複数のアンテナを含みうる(示されない)。
無線通信デバイス1526の様々なコンポーネントは、電力バス、制御信号バス、状態信号バス、データバスなどを含みうる1または複数のバスによって互いに結合されうる。簡潔さのために、様々なバスが、バスシステム1578として図15に示される。
図16は、基地局1684に含まれうる特定のコンポーネントを示す。前に論述された基地局584は、図16に示されうる基地局1684と類似に構成されうる。基地局1684は、プロセッサ1666を含む。プロセッサ1666は、汎用のシングルチップまたはマルチチップマイクロプロセッサ(例えば、ARM)、専用マイクロプロセッサ(例えば、デジタル信号プロセッサ(DSP))、マイクロコントローラ、プログラマブルゲートアレイなどでありうる。プロセッサ1666は、中央処理装置(CPU)と呼ばれうる。単一のプロセッサ1666のみが、図16の基地局1684に示されるが、代替の構成において、プロセッサの組み合わせ(例えば、ARMとDSP)が使用されうる。
基地局1684は、さらに、プロセッサ1666と電気的に通信状態にあるメモリ1660を含みうる(すなわち、プロセッサ1666は、メモリ1660から情報を読み取ること、および/または、メモリ1660に情報を書き込むことが可能である)。メモリ1660は、電子情報を記憶することができる任意の電子コンポーネントでありうる。メモリ1660は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、磁気ディスク記憶媒体、光記憶媒体、RAMのフラッシュメモリデバイス、プロセッサに含まれるオンボードメモリ、プログラマブル読み取り専用メモリ(PROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、電気的消去可能PROM(EEPROM)、レジスタ、その他、および、それらの組み合わせでありうる。
データ1664aおよび命令1662aは、メモリ1660に記憶されうる。命令1662aは、1または複数のプログラム、ルーティン、サブルーティン、機能、手順などを含みうる。命令1662aは、単一のコンピュータ可読ステートメントまたは多数のコンピュータ可読ステートメントを含みうる。命令1662aは、本明細書に記述された方法700および800を実現するために、プロセッサ1666によって実行可能でありうる。命令1662aを実行することは、メモリ1660に記憶されるデータ1664aの使用を含みうる。図16は、プロセッサ1666にロードされているいくつかの命令1662bおよびデータ1664bを示す。
基地局1684は、さらに、基地局1684とリモートロケーション(例えば、無線通信デバイス)との間での信号の送受信を可能にするための送信機1678および受信機1680を含みうる。送信機1678および受信機1680は、集合的に、トランシーバ1686と呼ばれうる。アンテナ1682は、トランシーバ1686に電気的に結合されうる。基地局1684は、さらに、複数の送信機、複数の受信機、複数のトランシーバ、および/または、複数のアンテナを含みうる(示されない)。
基地局1684の様々なコンポーネントは、電力バス、制御信号バス、状態信号バス、データバスなどを含みうる1または複数のバスによって互いに結合されうる。簡潔さのために、様々なバスが、バスシステム1688として図16に示される。
上の記述において、参照番号は、様々な用語を伴って使用されることがある。用語が参照番号を伴って使用される場合、これは、1または複数の図に示される特定のエレメントを指すことを意味する。用語が参照番号なしに使用される場合、これは、一般的に、任意の特定の図への限定なくその用語を指すことを意味する。
本明細書に開示されるシステムおよび方法に従って、回路は、電子デバイスにおいて、入力オーディオ信号を受信することに適応しうる。同じ回路、異なる回路、あるいは、同じまたは異なる回路の第2のセクションは、定常雑音推定、非定常雑音推定、および、超過雑音推定に基づいて総合雑音推定を計算することに適応しうる。加えて、同一の回路、異なる回路、または、同一または異なる回路の第3のセクションは、入力の信号対雑音比(SNR)と1または複数のSNR限界とに基づいて適応係数を計算することに適応しうる。同一または異なる回路の第4のセクションは、スペクトル拡張利得関数を使用して利得のセットを計算することに適応しうる。ここで、スペクトル拡張利得関数は、総合雑音推定および適応係数に基づく。利得のセットを計算することに適応した回路の一部は、総合雑音推定を計算することに適応した回路の一部、および/または、適応係数を計算することに適応した回路の一部に結合されるか、あるいは、それは、同一の回路でありうる。同一または異なる回路の第5のセクションは、雑音抑制済みオーディオ信号を生成するために、利得のセットを入力オーディオ信号に適用することに適応しうる。利得のセットを入力オーディオ信号に適用することに適応された回路の一部は、第1のセクションおよび/または第4のセクションに結合されるか、あるいは、それは、同一の回路でありうる。同一または異なる回路の第6のセクションは、雑音抑制済み信号を提供することに適応しうる。第6のセクションは、有利に、回路の第5のセクションに結合されるか、あるいは、それは、第5のセクションとして同一の回路として組み込まれうる。
「決定すること(determining)」という用語は、広範囲の動作を包含し、それにより、「決定すること」は、計算すること(calculating)、算出すること(computing)、処理すること(processing)、導き出すこと(deriving)、探索すること(investigating)、ルックアップすることlooking up)(例えば、表、データベースまたは別のデータ構造をルックアップすること)、確認すること(ascertaining)などを含みうる。さらに、「決定すること」は、受信すること(receiving)(例えば、情報を受信すること)、アクセスすること(accessing)(例えば、メモリのデータにアクセスすること)などを含むことができる。さらに、「決定すること」は、解決すること(resolving)、選択すること(selecting)、選ぶこと(choosing)、確立すること(establishing)などを含むことができる。
「〜に基づいて(based on)」という表現は、そうでないと明確に示されない限り、「〜だけに基づいて(based only on)」を意味しない。換言すると、「〜に基づいて」という表現は、「〜だけに基づいて(based only on)」および「少なくとも〜に基づいて(based at least on)」の両方を表す。
本明細書に記述された関数は、プロセッサ可読またはコンピュータ可読媒体上の1または複数の命令として記憶されうる。「コンピュータ可読媒体(computer-readable medium)」という用語は、コンピュータまたはプロセッサによってアクセス可能な任意の利用可能な媒体を指す。それに制限されない例として、そのような媒体は、RAM、ROM、EEPROM、フラッシュメモリ、CD−ROMまたは他の光学ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは、コンピュータによってアクセスされることができ、命令やデータ構造形で所望のプログラムコードを搬送または記憶するために使用される任意の別媒体を備えうる。ディスク(disk)とディスク(disc)は、本明細書で使用される場合、コンパクトディスク(CD)、レーザディスク、光ディスク、デジタル多用途ディスク(DVD)、フロッピー(登録商標)ディスク、ブルーレイ(登録商標)ディスクを含む。ディスク(disk)は通常磁気作用によってデータを再生し、ディスク(disc)はレーザーで光学的にデータを再生する。コンピュータ可読媒体が、有形、かつ、非一時的であることに注意されたい。「コンピュータプログラムプロダクト(computer-program product)」という用語は、計算デバイスまたはプロセッサによって実行、処理、または計算されうるコードまたは命令(例えば、「プログラム」)と結合して計算デバイスまたはプロセッサを指す。本明細書において使用される場合、「コード(code)」という用語は、計算デバイスまたはプロセッサによって実行可能であるソフトウェア、命令、コードまたはデータを指し、
ソフトウェアまたは命令は、さらに、送信媒体を通して送信されうる。例えば、同軸ケーブル、光ファイバーケーブル、撚線対、デジタル加入者回線(DSL)、または赤外線、無線、マイクロ波などの無線テクノロジを使用してウェブサイト、サーバ、または他のリモートソースからソフトウェアが送信されると、この同軸ケーブル、光ファイバーケーブル、撚線対、DSL、または赤外線、無線、マイクロ波などの無線テクノロジは媒体の定義に含まれる。
ソフトウェアまたは命令は、さらに、送信媒体を通して送信されうる。例えば、同軸ケーブル、光ファイバーケーブル、撚線対、デジタル加入者回線(DSL)、または赤外線、無線、マイクロ波などの無線テクノロジを使用してウェブサイト、サーバ、または他のリモートソースからソフトウェアが送信されると、この同軸ケーブル、光ファイバーケーブル、撚線対、DSL、または赤外線、無線、マイクロ波などの無線テクノロジは媒体の定義に含まれる。
本明細書に開示された方法は、記述された方法を達成するための1または複数のステップあるいは動作を備える。方法のステップおよび/または動作は、本明細書の範囲を逸脱することなく互いに交換可能である。換言すると、ステップまたは動作の特定の順序が、記述されている方法の適切な動作のために要求されていない限り、この特定のステップおよび/または動作の順序および/または用途は、特許請求の範囲を逸脱することなく変更されうる。
特許請求の範囲が、上に示された通り設定およびコンポーネントに限定されないことは理解されるべきである。様々な変更、変化、および変形が、特許請求の範囲を逸脱することなく、上に記述されたシステム、方法および装置の配列、動作、および詳細に行われる。
Claims (50)
- オーディオ信号の雑音を抑制するための電子デバイスであって、
プロセッサと、
前記プロセッサと電気的に通信状態にあるメモリと、
前記メモリ内の命令と、
を備え、
前記命令は、
入力オーディオ信号を受信し、
定常雑音推定、非定常雑音推定、超過雑音推定に基づいて総合雑音推定を計算し、
入力の信号対雑音比(SNR)と、1または複数のSNR限界とに基づいて適応係数を計算し、
スペクトル拡張利得関数を使用して利得のセットを計算し、ここにおいて、前記スペクトル拡張利得関数は、前記総合雑音推定および前記適応係数に基づき、
雑音抑制済みオーディオ信号を生成するために、前記利得のセットを前記入力オーディオ信号に適用し、
前記雑音抑制済みオーディオ信号を提供する
ように実行可能である、電子デバイス。 - 前記命令は、さらに、前記定常雑音推定、前記非定常雑音推定、および、前記超過雑音推定に対する重みを計算するように実行可能である、請求項1に記載の電子デバイス。
- 前記定常雑音推定は、前記入力オーディオ信号の電力レベルを追跡することによって計算される、請求項1に記載の電子デバイス。
- 前記入力オーディオ信号の電力レベルを追跡することは、スライディングウィンドウを使用して実現される、請求項3に記載の電子デバイス。
- 前記非定常雑音推定は、長期推定を備える、請求項1に記載の電子デバイス。
- 前記超過雑音推定は、短期推定を備える、請求項1に記載の電子デバイス。
- 前記スペクトル拡張利得関数は、さらに、短期SNR推定に基づく、請求項1に記載の電子デバイス。
- 前記スペクトル拡張利得関数は、基数および指数を備え、前記基数は、前記総合雑音推定で割った入力信号電力を備え、前記指数は、前記適応係数で割った所望の雑音抑制レベルを備える、請求項1に記載の電子デバイス。
- 前記命令は、さらに、前記入力オーディオ信号をいくつかの周波数ビンに圧縮するように実行可能である、請求項1に記載の電子デバイス。
- 前記圧縮は、複数の周波数ビンにわたってデータを平均化することを備え、1または複数のより低い周波数ビンのより低い周波数データは、1または複数のより高い周波数ビンのより高い周波数データよりも圧縮されない、請求項9に記載の電子デバイス。
- 前記命令は、
前記入力オーディオ信号の離散フーリエ変換(DFT)を計算し、
前記雑音抑制済みオーディオ信号の離散逆フーリエ変換(IDFT)を計算する
ように実行可能である、請求項1に記載の電子デバイス。 - 前記電子デバイスは、無線通信デバイスを備える、請求項1に記載の電子デバイス。
- 前記電子デバイスは、基地局を備える、請求項1に記載の電子デバイス。
- 前記命令は、さらに、前記雑音抑制済みオーディオ信号を前記メモリに記憶するように実行可能である、請求項1に記載の電子デバイス。
- 前記入力オーディオ信号は、リモート無線通信デバイスから受信される、請求項1に記載の電子デバイス。
- 前記1または複数のSNR限界は、異なるSNR領域に対して別々に利得を決定するための複数のターニングポイントである、請求項1に記載の電子デバイス。
- 前記入力オーディオ信号は、複数の周波数帯域に分割される広帯域オーディオ信号であり、雑音抑制は、前記複数の周波数帯域の各々に対して実行される、請求項1に記載の電子デバイス。
- 前記命令は、さらに、前記定常雑音推定、結合雑音推定、入力SNR、および、前記利得のセットを平滑化するように実行可能である、請求項1に記載の電子デバイス。
- オーディオ信号の雑音を抑制するための方法であって、
入力オーディオ信号を受信することと、
電子デバイスにおいて、定常雑音推定、非定常雑音推定、超過雑音推定に基づいて総合雑音推定を計算することと、
前記電子デバイスにおいて、入力の信号対雑音比(SNR)と、1または複数のSNR限界とに基づいて適応係数を計算することと、
前記電子デバイスにおいて、スペクトル拡張利得関数を使用して利得のセットを計算することと、ここにおいて、前記スペクトル拡張利得関数は、前記総合雑音推定および前記適応係数に基づき、
雑音抑制済みオーディオ信号を生成するために、前記利得のセットを前記入力オーディオ信号に適用することと、
前記雑音抑制済みオーディオ信号を提供することと
を備える、方法。 - 前記定常雑音推定、前記非定常雑音推定、および、前記超過雑音推定に対する重みを計算することをさらに備える、請求項22に記載の方法。
- 前記定常雑音推定は、前記入力オーディオ信号の電力レベルを追跡することによって計算される、請求項22に記載の方法。
- 前記入力オーディオ信号を追跡することは、スライディングウィンドウを使用して実現される、請求項24に記載の方法。
- 前記非定常雑音推定は、長期推定を備える、請求項22に記載の方法。
- 前記超過雑音推定は、短期推定を備える、請求項22に記載の方法。
- 前記スペクトル拡張利得関数は、さらに、短期SNR推定に基づく、請求項22に記載の方法。
- 前記スペクトル拡張利得関数は、基数および指数を備え、前記基数は、前記総合雑音推定で割った入力信号電力を備え、前記指数は、前記適応係数で割った所望の雑音抑制レベルを備える、請求項22に記載の方法。
- 前記入力オーディオ信号を多数の周波数ビンに圧縮することをさらに備える、請求項22に記載の方法。
- 前記圧縮は、複数の周波数ビンにわたってデータを平均化することを備え、1または複数のより低い周波数ビンのより低い周波数データは、1または複数のより高い周波数ビンのより高い周波数データよりも圧縮されない、請求項30に記載の方法。
- 前記入力オーディオ信号の離散フーリエ変換(DFT)を計算することと、
前記雑音抑制済みオーディオ信号の離散逆フーリエ変換(IDFT)を計算することと
をさらに備える、請求項22に記載の方法。 - 前記電子デバイスは、無線通信デバイスを備える、請求項22に記載の方法。
- 前記電子デバイスは、基地局を備える、請求項22に記載の方法。
- 前記雑音抑制済みオーディオ信号を前記メモリに記憶することをさらに備える、請求項22に記載の方法。
- 前記入力オーディオ信号は、リモート無線通信デバイスから受信される、請求項22に記載の方法。
- 前記1または複数のSNR限界は、異なるSNR領域に対して別々に利得を決定するための複数のターニングポイントである、請求項22に記載の方法。
- 前記入力オーディオ信号は、複数の周波数帯域に分割される広帯域オーディオ信号であり、雑音抑制は、前記複数の周波数帯域の各々に対して実行される、請求項22に記載の方法。
- 前記定常雑音推定、結合雑音推定、入力SNR、および利得のセットを平滑化することをさらに備える、請求項22に記載の方法。
- 命令を記憶する非一時的なコンピュータ可読媒体を備える、オーディオ信号の雑音を抑制するためのコンピュータプログラムプロダクトであって、前記命令は、
入力オーディオ信号を受信するためのコードと、
定常雑音推定、非定常雑音推定、超過雑音推定に基づいて総合雑音推定を計算するためのコードと、
入力の信号対雑音比(SNR)と、1または複数のSNR限界とに基づいて適応係数を計算するためのコードと、
スペクトル拡張利得関数を使用して利得のセットを計算するためのコードと、ここにおいて、前記スペクトル拡張利得関数は、前記総合雑音推定および前記適応係数に基づき、
雑音抑制済みオーディオ信号を生成するために、前記利得のセットを前記入力オーディオ信号に適用するためのコードと、
前記雑音抑制済みオーディオ信号を提供するためのコードと
を備える、コンピュータプログラムプロダクト。 - オーディオ信号の雑音を抑制するための装置であって、
入力オーディオ信号を受信するための手段と、
定常雑音推定、非定常雑音推定、超過雑音推定に基づいて総合雑音推定を計算するための手段と、
入力の信号対雑音比(SNR)と、1または複数のSNR限界とに基づいて適応係数を計算するための手段と、
スペクトル拡張利得関数を使用して利得のセットを計算するための手段と、ここにおいて、前記スペクトル拡張利得関数は、前記総合雑音推定および前記適応係数に基づき、
雑音抑制済みオーディオ信号を生成するために、前記利得のセットを前記入力オーディオ信号に適用するための手段と、
前記雑音抑制済みオーディオ信号を提供するための手段と
を備える、装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US24788809P | 2009-10-01 | 2009-10-01 | |
US61/247,888 | 2009-10-01 | ||
US12/782,147 | 2010-05-18 | ||
US12/782,147 US8571231B2 (en) | 2009-10-01 | 2010-05-18 | Suppressing noise in an audio signal |
PCT/US2010/051209 WO2011041738A2 (en) | 2009-10-01 | 2010-10-01 | Suppressing noise in an audio signal |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013506878A true JP2013506878A (ja) | 2013-02-28 |
Family
ID=43823186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012532370A Pending JP2013506878A (ja) | 2009-10-01 | 2010-10-01 | オーディオ信号の雑音抑制 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8571231B2 (ja) |
EP (1) | EP2483888A2 (ja) |
JP (1) | JP2013506878A (ja) |
KR (1) | KR20120090075A (ja) |
CN (1) | CN102549659A (ja) |
WO (1) | WO2011041738A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2014112023A1 (ja) * | 2013-01-17 | 2017-01-19 | 日本電気株式会社 | 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム |
Families Citing this family (95)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9142221B2 (en) * | 2008-04-07 | 2015-09-22 | Cambridge Silicon Radio Limited | Noise reduction |
DE102009036610B4 (de) * | 2009-07-09 | 2017-11-16 | Sivantos Pte. Ltd. | Filterbankanordnung für eine Hörvorrichtung |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
GB2479354A (en) * | 2010-04-06 | 2011-10-12 | Zarlink Semoconductor Inc | Zoom motor noise reduction |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
US9245538B1 (en) * | 2010-05-20 | 2016-01-26 | Audience, Inc. | Bandwidth enhancement of speech signals assisted by noise reduction |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
JP5589631B2 (ja) * | 2010-07-15 | 2014-09-17 | 富士通株式会社 | 音声処理装置、音声処理方法および電話装置 |
CN102541574A (zh) * | 2010-12-13 | 2012-07-04 | 鸿富锦精密工业(深圳)有限公司 | 应用程序开启系统及方法 |
KR20120080409A (ko) * | 2011-01-07 | 2012-07-17 | 삼성전자주식회사 | 잡음 구간 판별에 의한 잡음 추정 장치 및 방법 |
US10218327B2 (en) * | 2011-01-10 | 2019-02-26 | Zhinian Jing | Dynamic enhancement of audio (DAE) in headset systems |
US8983833B2 (en) * | 2011-01-24 | 2015-03-17 | Continental Automotive Systems, Inc. | Method and apparatus for masking wind noise |
SE537359C2 (sv) * | 2011-02-24 | 2015-04-14 | Craj Dev Ltd | Enhet för hörselhjälpmedelssystem |
US20120300959A1 (en) * | 2011-05-26 | 2012-11-29 | Leonard Marshall | Ribbon microphone with usb output |
WO2012161717A1 (en) * | 2011-05-26 | 2012-11-29 | Advanced Bionics Ag | Systems and methods for improving representation by an auditory prosthesis system of audio signals having intermediate sound levels |
EP2563027A1 (de) * | 2011-08-22 | 2013-02-27 | Siemens AG Österreich | Verfahren zum Schützen von Dateninhalten |
US20130066638A1 (en) * | 2011-09-09 | 2013-03-14 | Qnx Software Systems Limited | Echo Cancelling-Codec |
US20130101063A1 (en) * | 2011-10-19 | 2013-04-25 | Nec Laboratories America, Inc. | Dft-based channel estimation systems and methods |
CN103177729B (zh) * | 2011-12-21 | 2016-04-06 | 宇龙计算机通信科技(深圳)有限公司 | 基于lte的语音发送、接收处理方法及终端 |
JP2013148724A (ja) * | 2012-01-19 | 2013-08-01 | Sony Corp | 雑音抑圧装置、雑音抑圧方法およびプログラム |
US9064497B2 (en) * | 2012-02-22 | 2015-06-23 | Htc Corporation | Method and apparatus for audio intelligibility enhancement and computing apparatus |
US9015044B2 (en) | 2012-03-05 | 2015-04-21 | Malaspina Labs (Barbados) Inc. | Formant based speech reconstruction from noisy signals |
US9384759B2 (en) | 2012-03-05 | 2016-07-05 | Malaspina Labs (Barbados) Inc. | Voice activity detection and pitch estimation |
US9437213B2 (en) * | 2012-03-05 | 2016-09-06 | Malaspina Labs (Barbados) Inc. | Voice signal enhancement |
US20130235985A1 (en) * | 2012-03-08 | 2013-09-12 | E. Daniel Christoff | System to improve and expand access to land based telephone lines and voip |
US20150287406A1 (en) * | 2012-03-23 | 2015-10-08 | Google Inc. | Estimating Speech in the Presence of Noise |
US8892046B2 (en) * | 2012-03-29 | 2014-11-18 | Bose Corporation | Automobile communication system |
JP6027804B2 (ja) * | 2012-07-23 | 2016-11-16 | 日本放送協会 | 雑音抑圧装置およびそのプログラム |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
JP6179087B2 (ja) * | 2012-10-24 | 2017-08-16 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム |
JP6098114B2 (ja) | 2012-10-26 | 2017-03-22 | アイコム株式会社 | 中継装置および通信システム |
JP6135106B2 (ja) * | 2012-11-29 | 2017-05-31 | 富士通株式会社 | 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム |
JP6174856B2 (ja) * | 2012-12-27 | 2017-08-02 | キヤノン株式会社 | 雑音抑制装置、その制御方法、及びプログラム |
CN103916790A (zh) * | 2012-12-31 | 2014-07-09 | 广州励丰文化科技股份有限公司 | 智能音箱的控制方法 |
CN103916747A (zh) * | 2012-12-31 | 2014-07-09 | 广州励丰文化科技股份有限公司 | 高保真有源一体化扬声器 |
CN103916754A (zh) * | 2012-12-31 | 2014-07-09 | 广州励丰文化科技股份有限公司 | 基于多dsp系统的有源扬声器 |
CN103916791A (zh) * | 2012-12-31 | 2014-07-09 | 广州励丰文化科技股份有限公司 | 有源一体化音箱控制方法 |
CN103916750A (zh) * | 2012-12-31 | 2014-07-09 | 广州励丰文化科技股份有限公司 | 具有多dsp系统的有源音箱 |
CN103916751A (zh) * | 2012-12-31 | 2014-07-09 | 广州励丰文化科技股份有限公司 | 具有较低本底噪音的高品质有源一体化音箱 |
CN103916756A (zh) * | 2012-12-31 | 2014-07-09 | 广州励丰文化科技股份有限公司 | 具有多dsp处理器的有源一体化音箱 |
CN103916758A (zh) * | 2012-12-31 | 2014-07-09 | 广州励丰文化科技股份有限公司 | 网络型扬声器的遥控方法 |
CN103916761A (zh) * | 2012-12-31 | 2014-07-09 | 广州励丰文化科技股份有限公司 | 具有多数字信号处理器的有源音箱的控制方法 |
CN103916739A (zh) * | 2012-12-31 | 2014-07-09 | 广州励丰文化科技股份有限公司 | 智能降噪高保真有源一体化音箱 |
CN103916786A (zh) * | 2012-12-31 | 2014-07-09 | 广州励丰文化科技股份有限公司 | 智能降噪高保真有源一体化扬声器 |
CN103916755A (zh) * | 2012-12-31 | 2014-07-09 | 广州励丰文化科技股份有限公司 | 具有多数字信号处理器系统的有源一体化音箱 |
FR3002679B1 (fr) * | 2013-02-28 | 2016-07-22 | Parrot | Procede de debruitage d'un signal audio par un algorithme a gain spectral variable a durete modulable dynamiquement |
US20140270249A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression |
US20140278393A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US10306389B2 (en) | 2013-03-13 | 2019-05-28 | Kopin Corporation | Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods |
US9312826B2 (en) | 2013-03-13 | 2016-04-12 | Kopin Corporation | Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction |
MY173488A (en) * | 2013-04-05 | 2020-01-28 | Dolby Int Ab | Companding apparatus and method to reduce quantization noise using advanced spectral extension |
US10741194B2 (en) * | 2013-04-11 | 2020-08-11 | Nec Corporation | Signal processing apparatus, signal processing method, signal processing program |
US9818424B2 (en) | 2013-05-06 | 2017-11-14 | Waves Audio Ltd. | Method and apparatus for suppression of unwanted audio signals |
GB201309771D0 (en) | 2013-05-31 | 2013-07-17 | Microsoft Corp | Echo removal |
GB201309777D0 (en) * | 2013-05-31 | 2013-07-17 | Microsoft Corp | Echo suppression |
GB201309779D0 (en) | 2013-05-31 | 2013-07-17 | Microsoft Corp | Echo removal |
GB201309773D0 (en) | 2013-05-31 | 2013-07-17 | Microsoft Corp | Echo removal |
FR3008533A1 (fr) * | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
US9449615B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Externally estimated SNR based modifiers for internal MMSE calculators |
US9449610B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Speech probability presence modifier improving log-MMSE based noise suppression performance |
CN104681034A (zh) * | 2013-11-27 | 2015-06-03 | 杜比实验室特许公司 | 音频信号处理 |
CN104753607B (zh) * | 2013-12-31 | 2017-07-28 | 鸿富锦精密工业(深圳)有限公司 | 消除移动装置干扰信号的方法以及电子设备 |
JP6337519B2 (ja) * | 2014-03-03 | 2018-06-06 | 富士通株式会社 | 音声処理装置、雑音抑圧方法、およびプログラム |
US9552829B2 (en) * | 2014-05-01 | 2017-01-24 | Bellevue Investments Gmbh & Co. Kgaa | System and method for low-loss removal of stationary and non-stationary short-time interferences |
US20150339262A1 (en) * | 2014-05-20 | 2015-11-26 | Kaiser Optical Systems Inc. | Output signal-to-noise with minimal lag effects using input-specific averaging factors |
WO2015191470A1 (en) | 2014-06-09 | 2015-12-17 | Dolby Laboratories Licensing Corporation | Noise level estimation |
GB2527126B (en) | 2014-06-13 | 2019-02-06 | Elaratek Ltd | Noise cancellation with dynamic range compression |
CN104157295B (zh) * | 2014-08-22 | 2018-03-09 | 中国科学院上海高等研究院 | 用于检测及抑制瞬态噪声的方法 |
DE112015003945T5 (de) | 2014-08-28 | 2017-05-11 | Knowles Electronics, Llc | Mehrquellen-Rauschunterdrückung |
DE112015004185T5 (de) | 2014-09-12 | 2017-06-01 | Knowles Electronics, Llc | Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
GB2525947B (en) * | 2014-10-31 | 2016-06-22 | Imagination Tech Ltd | Automatic tuning of a gain controller |
WO2016123560A1 (en) | 2015-01-30 | 2016-08-04 | Knowles Electronics, Llc | Contextual switching of microphones |
EP3754961A1 (en) | 2015-06-16 | 2020-12-23 | Dolby Laboratories Licensing Corp. | Post-teleconference playback using non-destructive audio transport |
US11631421B2 (en) * | 2015-10-18 | 2023-04-18 | Solos Technology Limited | Apparatuses and methods for enhanced speech recognition in variable environments |
WO2017080835A1 (en) | 2015-11-10 | 2017-05-18 | Dolby International Ab | Signal-dependent companding system and method to reduce quantization noise |
CN105338462B (zh) * | 2015-12-12 | 2018-11-27 | 中国计量科学研究院 | 一种重现助听器插入增益的实现方法 |
GB201713946D0 (en) * | 2017-06-16 | 2017-10-18 | Cirrus Logic Int Semiconductor Ltd | Earbud speech estimation |
EP3474280B1 (en) * | 2017-10-19 | 2021-07-07 | Goodix Technology (HK) Company Limited | Signal processor for speech signal enhancement |
JP7123134B2 (ja) * | 2017-10-27 | 2022-08-22 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | デコーダにおけるノイズ減衰 |
CN107786709A (zh) * | 2017-11-09 | 2018-03-09 | 广东欧珀移动通信有限公司 | 通话降噪方法、装置、终端设备及计算机可读存储介质 |
US10043530B1 (en) * | 2018-02-08 | 2018-08-07 | Omnivision Technologies, Inc. | Method and audio noise suppressor using nonlinear gain smoothing for reduced musical artifacts |
US10043531B1 (en) | 2018-02-08 | 2018-08-07 | Omnivision Technologies, Inc. | Method and audio noise suppressor using MinMax follower to estimate noise |
CN110351644A (zh) * | 2018-04-08 | 2019-10-18 | 苏州至听听力科技有限公司 | 一种自适应声音处理方法及装置 |
CN110493695A (zh) * | 2018-05-15 | 2019-11-22 | 群腾整合科技股份有限公司 | 一种音频补偿系统 |
EP3618457A1 (en) * | 2018-09-02 | 2020-03-04 | Oticon A/s | A hearing device configured to utilize non-audio information to process audio signals |
KR20210151831A (ko) * | 2019-04-15 | 2021-12-14 | 돌비 인터네셔널 에이비 | 오디오 코덱에서의 대화 향상 |
CN110060695A (zh) * | 2019-04-24 | 2019-07-26 | 百度在线网络技术(北京)有限公司 | 信息交互方法、装置、服务器和计算机可读介质 |
CN112151053B (zh) * | 2019-06-11 | 2024-04-16 | 北京汇钧科技有限公司 | 语音增强方法、系统、电子设备和存储介质 |
CN111564161B (zh) * | 2020-04-28 | 2023-07-07 | 世邦通信股份有限公司 | 智能抑制噪音的声音处理装置、方法、终端设备及可读介质 |
US11321047B2 (en) * | 2020-06-11 | 2022-05-03 | Sorenson Ip Holdings, Llc | Volume adjustments |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10161694A (ja) * | 1996-11-28 | 1998-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 帯域分割型雑音低減方法 |
JP2007226264A (ja) * | 2007-04-23 | 2007-09-06 | Mitsubishi Electric Corp | 雑音抑圧装置 |
JP2008216721A (ja) * | 2007-03-06 | 2008-09-18 | Nec Corp | 雑音抑圧の方法、装置、及びプログラム |
JP2008293038A (ja) * | 1995-12-12 | 2008-12-04 | Nokia Corp | 音声活性検出装置及び移動局並びに音声活性検出方法 |
WO2010089976A1 (ja) * | 2009-02-09 | 2010-08-12 | パナソニック株式会社 | 補聴器 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2354858A1 (en) | 2001-08-08 | 2003-02-08 | Dspfactory Ltd. | Subband directional audio signal processing using an oversampled filterbank |
JP4410098B2 (ja) | 2002-05-23 | 2010-02-03 | アナログ デバイスズ インコーポレイテッド | 等化用遅延時間推定 |
US7283956B2 (en) | 2002-09-18 | 2007-10-16 | Motorola, Inc. | Noise suppression |
JP4765461B2 (ja) | 2005-07-27 | 2011-09-07 | 日本電気株式会社 | 雑音抑圧システムと方法及びプログラム |
KR100784456B1 (ko) | 2005-12-08 | 2007-12-11 | 한국전자통신연구원 | Gmm을 이용한 음질향상 시스템 |
KR100785776B1 (ko) | 2005-12-09 | 2007-12-18 | 한국전자통신연구원 | Ip 버전 6 라우터에서 패킷 처리 장치 및 그 방법 |
CN101320559B (zh) * | 2007-06-07 | 2011-05-18 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
US8990073B2 (en) * | 2007-06-22 | 2015-03-24 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
US8175871B2 (en) * | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
US8457976B2 (en) * | 2009-01-30 | 2013-06-04 | Qnx Software Systems Limited | Sub-band processing complexity reduction |
-
2010
- 2010-05-18 US US12/782,147 patent/US8571231B2/en not_active Expired - Fee Related
- 2010-10-01 WO PCT/US2010/051209 patent/WO2011041738A2/en active Application Filing
- 2010-10-01 CN CN2010800437526A patent/CN102549659A/zh active Pending
- 2010-10-01 JP JP2012532370A patent/JP2013506878A/ja active Pending
- 2010-10-01 EP EP10821374A patent/EP2483888A2/en not_active Withdrawn
- 2010-10-01 KR KR1020127011262A patent/KR20120090075A/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008293038A (ja) * | 1995-12-12 | 2008-12-04 | Nokia Corp | 音声活性検出装置及び移動局並びに音声活性検出方法 |
JPH10161694A (ja) * | 1996-11-28 | 1998-06-19 | Nippon Telegr & Teleph Corp <Ntt> | 帯域分割型雑音低減方法 |
JP2008216721A (ja) * | 2007-03-06 | 2008-09-18 | Nec Corp | 雑音抑圧の方法、装置、及びプログラム |
JP2007226264A (ja) * | 2007-04-23 | 2007-09-06 | Mitsubishi Electric Corp | 雑音抑圧装置 |
WO2010089976A1 (ja) * | 2009-02-09 | 2010-08-12 | パナソニック株式会社 | 補聴器 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2014112023A1 (ja) * | 2013-01-17 | 2017-01-19 | 日本電気株式会社 | 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20110081026A1 (en) | 2011-04-07 |
WO2011041738A3 (en) | 2011-07-14 |
KR20120090075A (ko) | 2012-08-16 |
WO2011041738A2 (en) | 2011-04-07 |
US8571231B2 (en) | 2013-10-29 |
EP2483888A2 (en) | 2012-08-08 |
CN102549659A (zh) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013506878A (ja) | オーディオ信号の雑音抑制 | |
JP5763212B2 (ja) | 制約付きのラウドスピーカ・エクスカーションを用いたラウドネスの最大化 | |
JP5727025B2 (ja) | 音声アクティビティ検出のための、システム、方法、および装置 | |
US9420370B2 (en) | Audio processing device and audio processing method | |
JP4836720B2 (ja) | ノイズサプレス装置 | |
EP2987314B1 (en) | Echo suppression | |
US11961504B2 (en) | System and method for data augmentation of feature-based voice data | |
JP6073456B2 (ja) | 音声強調装置 | |
CN108133712B (zh) | 一种处理音频数据的方法和装置 | |
US9485572B2 (en) | Sound processing device, sound processing method, and program | |
US9924266B2 (en) | Audio signal processing | |
JP2008309955A (ja) | ノイズサプレス装置 | |
US9832299B2 (en) | Background noise reduction in voice communication | |
US20120207327A1 (en) | Processing Audio Signals | |
JP6547451B2 (ja) | 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム | |
US9871497B2 (en) | Processing audio signal to produce enhanced audio signal | |
US20130044890A1 (en) | Information processing device, information processing method and program | |
WO2023040322A1 (zh) | 回声消除方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130326 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130723 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20131217 |