JP5269785B2 - 音声変換器の線形及び非線形歪みを補償するためのニューラル・ネットワーク・フィルタリング技術 - Google Patents

音声変換器の線形及び非線形歪みを補償するためのニューラル・ネットワーク・フィルタリング技術 Download PDF

Info

Publication number
JP5269785B2
JP5269785B2 JP2009522798A JP2009522798A JP5269785B2 JP 5269785 B2 JP5269785 B2 JP 5269785B2 JP 2009522798 A JP2009522798 A JP 2009522798A JP 2009522798 A JP2009522798 A JP 2009522798A JP 5269785 B2 JP5269785 B2 JP 5269785B2
Authority
JP
Japan
Prior art keywords
linear
transfer function
signal
nonlinear
inverse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009522798A
Other languages
English (en)
Other versions
JP2009545914A (ja
Inventor
ドミトリー ヴィー シュムンク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
DTS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS Inc filed Critical DTS Inc
Publication of JP2009545914A publication Critical patent/JP2009545914A/ja
Application granted granted Critical
Publication of JP5269785B2 publication Critical patent/JP5269785B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution

Description

本発明は、音声変換器の補償に関し、より具体的には、スピーカ、マイクロフォン、又はパワーアンプ、及び放送アンテナといった音声変換器の線形及び非線形歪みを補償するための方法に関する。
音声スピーカは、均一かつ予測可能な入力/出力(I/O)応答特徴を示すことが好ましい。理想的には、スピーカの入力に結合されたアナログ音声信号は、リスナの耳に与えられるものである。現実には、リスナの耳に到達する音声信号は、スピーカ自体(例えば、その構成及びその中の成分の相互作用)によって、及び音声信号がリスナの耳に到達するのに移動しなくてはならないリスニング環境(例えば、リスナの位置、部屋の音響特徴、その他)によって生じる何らかの歪みが元の音声信号に加わる。所望のスピーカ応答を与えるためには、スピーカ自体によって生じる歪みを最小化するように、スピーカの製造中に実行される多くの技術がある。付加的には、さらに歪みを減少させるために、スピーカを機械的にハンド・チューニングするための技術がある。
Levyによる特許文献1は、メモリ内に格納された特徴付けデータ、及び、スピーカ関連歪みとリスニング環境歪みを補償する入力音声信号に対して変換機能をデジタル的に実行するデジタル信号処理(DSP)を用いる、プログラム可能スピーカを説明する。製造環境において、非嵌入システム及びスピーカを調整する方法は、プログラム可能スピーカの入力に、基準信号及び制御信号を適用することにより実行される。マイクロフォンは、スピーカの出力において入力基準信号に対応する可聴信号を検出し、それを、入力基準信号をスピーカからの可聴出力信号と比較することにより、スピーカの周波数応答を分析するテスタにフィードバックする。比較の結果に応じて、テスタは、新しい特徴付けデータをもつ更新デジタル制御信号をスピーカに与え、それは次いでスピーカのメモリ内に格納され、入力基準信号に変換関数を再び実行するのに用いられる。調整フィードバック・サイクルは、入力基準信号及びスピーカからの可聴出力信号が、テスタによって判断される所望の周波数応答を示すまで続く。消費者環境においては、マイクロフォンは、選択されたリスニング環境内に置かれ、調整デバイスは、選択されたリスニング環境内のマイクロフォンによって検出された歪み効果を補償するように、特徴付けデータを更新するのに再び用いられる。Levyは、スピーカ及びリスニング環境の歪みを補償するのに、信号処理の分野では周知である逆変換を与えるための技術に依存する。
歪みは、線形及び非線形成分の両方を含む。“クリッピング”といった非線形歪みは、入力音声信号の振幅の関数であるのに対して線形歪みはそうではない。既知の補償技術は、問題の線形部分に対処して非線形成分を無視するか、又はその逆のいずれかである。線形歪みは主要な成分であることができるが、非線形歪みは、入力信号に存在しない付加的なスペクトル成分を生成する。結果として、補償は精密でなく、従って特定の高性能音声用途には好適でない。
問題の線形部分を解決するのには、多くの手法がある。最も単純な方法は、一揃いの帯域フィルタに独立した利得制御を与えるイコライザである。より緻密な技術は、位相及び振幅両方の修正を含む。例えば、非特許文献1は、ある周波数において誤差をバイアスする加重及び規則化条件を可能にする、周波数領域逆フィルタリング手法を説明する。この方法は、所望の周波数特徴を与えるのには良いが、逆応答の時間領域特徴にわたる制御がなく、例えば、周波数領域計算は、最終(スピーカを通じて修正及び再生される)信号におけるプレエコーを減少できない。
非線形歪みを補償するための技術は、それほど開発されていない。非特許文献2は、非線形歪み測定と、スピーカ及び他の変換器における信号歪みの物理的原因である非線形性との間の関係を説明する。非特許文献3は、スピーカの非線形性を推測するのに、周波数領域ボルテラ・カーネルに基づいた逆変換を用いる。逆変換は、前方周波数領域カーネルから逆変換ボルテラ・カーネルを分析的に計算することにより取得される。この手法は固定信号(例えば1組の正弦波)には良いが、音声信号の過渡的な非固定領域において、重大な非線形性が発生する可能性がある。
米国特許第6,766,025号
Norcross他著「Adaptive Strategies for Inverse Filtering」 Audio Engineering Society 2005年の10月7−10日 Klippel他著「Loudspeaker Nonlinearities − Causes, Parameters, Symptoms」 AES 2005年10月7日―10日 Bard他著「Compensation of Nonlinearities of horn loudspeakes」 AES 2005年10月7日―10日
以下は、本発明のいくつかの態様の基本的な理解を提供するための本発明の要約である。この要約は、本発明の重要又は重大な要素を識別すること、又は本発明の範囲を描くことを意図するものではない。その唯一の目的は、さらに詳細な説明及び定義的な特許請求の範囲の前置きとして、本発明のいくつかの概念を簡潔な形態で提示することである。
本発明は、スピーカといった音声変換器の線形及び非線形歪みを補償するための効率的で、頑強で、精密なフィルタリング技術を提供する。これらの技術は、音声変換器が逆伝達関数を計算するように特徴付ける方法と、再現のためにそれらの逆伝達関数を実施する方法の両方を含む。好ましい実施形態では、逆伝達関数は、線形及び非線形ニューラル・ネットワークによって与えられるような時間領域算出を用いて抽出され、これは通常の周波数領域又はモデリングをベースとした手法と比較して、音声信号及び変換器の特性を、より正確に示す。好ましい手法は線形及び非線形両方の歪みを補償することであるが、ニューラル・ネットワーク・フィルタリング技術は、独立して適用することができる。同じ技術はまた、変換器の歪み、及び、リスニング、レコーディング、又は放送環境を補償するように適応させることもできる。
例示的な実施形態では、線形試験信号は、音声変換器を通して再生され、同期して記録される。元の及び記録された試験信号は、前方線形伝達関数を抽出するよう処理され、例えば、時間、周波数、及び時間/周波数領域技術の両方を用いて、ノイズを減少させることが好ましい。変換の時間スケーリング特性を活用する、前方変換の‘スナップショット’への、ウェーブレット変換の並行適用は、変換器インパルス応答の特性に特に良好に適する。逆線形伝達関数は計算され、線形フィルタの係数にマップされる。好ましい実施形態では、線形ニューラル・ネットワークは、線形伝達関数を反転するように訓練され、それによって、ネットワーク加重がフィルタ係数に直接マップされる。時間及び周波数両方の領域制約は、誤差関数により伝達関数上に置いて、プレエコー及び過剰増幅のような課題に対処することができる。
非線形試験信号は音声変換器に適用され、同期的に記録される。記録された信号は、線形フィルタを通過して、デバイスの線形歪みを除去するのが好ましい。ノイズ減少技術はまた、記録された信号にも適用できる。記録された信号は次いで、非線形試験信号から減じられ、非線形歪みの推定を与え、そこから、前方及び逆非線形伝達関数が算出される。好ましい実施形態では、非線形ニューラル・ネットワークは、試験信号及び非線形歪みにおいて訓練されて、前方非線形伝達関数を推定する。逆変換は、試験信号を、非線形ニューラル・ネットワークを通して再帰的に通過させ、加重応答を試験信号から減じることによって求められる。再帰式の加重係数は、例えば、最小平均二乗誤差手法によって最適化される。この手法で用いられる時間領域表示は、音声信号の過渡領域において非線形性を扱うのに適している。
再現では、音声信号は、その伝達関数が音声再現デバイスの逆線形伝達関数の推定である線形フィルタに適用されて、線形予補償された音声信号が与えられる。線形に予補償された音声信号は次いで、その伝達関数が逆非線形伝達関数の推定である、非線形フィルタに適用される。非線形フィルタは、音声信号を、訓練された非線形ニューラル・ネットワーク及び最適化された再帰式に再帰的に通過させることによって、好適に実施される。効率性を改善するために、非線形ニューラル・ネットワーク及び再帰式は、シングルパス再生ニューラル・ネットワークを訓練するモデルとして用いられる。スピーカ又は増幅放送アンテナといった出力変換器に対しては、線形と非線形に予補償された信号は、変換器に送られる。マイクロフォンといった入力変換器に対しては、線形及び非線形補償は、変換器の出力に適用される。
本発明のこれら及び他の特徴及び利点は、添付の図面をと併せて、好ましい実施形態の以下の詳細な説明から、当業者には明らかになるであろう。
音声再現デバイスで再生するために音声信号を予補償するように逆線形及び非線形伝達関数を算出するブロック図である。 音声再現デバイスで再生するために音声信号を予補償するように逆線形及び非線形伝達関数を算出するフロー図である。 前方線形伝達関数を抽出してノイズ減少をし、線形ニューラル・ネットワークを用いて、逆線形伝達関数を算出するためのフロー図である。 周波数領域フィルタリング、及びスナップショットの再構築を説明する図である。 周波数領域フィルタリング、及びスナップショットの再構築を説明する図である。 結果として生じた前方線形伝達関数の周波数プロットである。 前方線形伝達関数のスナップショットへの、ウェーブレット変換の並行適用を説明する図である。 前方線形伝達関数のスナップショットへの、ウェーブレット変換の並行適用を説明する図である。 前方線形伝達関数のスナップショットへの、ウェーブレット変換の並行適用を説明する図である。 前方線形伝達関数のスナップショットへの、ウェーブレット変換の並行適用を説明する図である。 ノイズ減少された前方線形伝達関数のプロットである。 ノイズ減少された前方線形伝達関数のプロットである。 前方線形変換を反転する、単層単ニューロン・ニューラル・ネットワークの図である。 非線形ニューラル・ネットワークを用いて前方非線形伝達関数を抽出し、再帰減算式を用いて逆非線形伝達関数を算出するためのフロー図である。 非線形ニューラル・ネットワークの図である。 スピーカの線形及び非線形歪みを補償するよう構成された音声システムのブロック図である。 スピーカの線形及び非線形歪みを補償するように構成された音声システムのブロック図である。 再生中、線形及び非線形歪みに対して音声信号を補償するためのフロー図である。 再生中、線形及び非線形歪みに対して音声信号を補償するためのフロー図である。 元の及び補償されたスピーカの周波数応答のプロットである。 補償前のスピーカのインパルス応答のプロットである。 補償後のスピーカのインパルス応答のプロットである。
本発明は、スピーカ、増幅放送アンテナ又おそらくはマイクロフォンといった、音声変換器の線形及び非線形歪みを補償するための、効率的で、頑強で、精密なフィルタリング技術を提供する。これらの技術は、逆伝達関数を算出する音声変換器を特徴付ける方法と、再生、放送、又は記録中に、再現のためにそれらの逆伝達関数を実施する方法の両方を含む。好ましい実施形態では、逆伝達関数は、線形及び非線形ニューラル・ネットワークによって与えられるような時間領域計算を用いて抽出され、これは通常の周波数領域又はモデリング・ベースの手法と比較して、より正確に音声信号及び音声変換器の特性を正確に表わす。好ましい手法は線形及び非線形歪みの両方を補償することであるが、ニューラル・ネットワーク・フィルタリング技術は、独立して適用することができる。同技術はまた、スピーカと、リスニング、放送、又は記録環境の歪みを補償するのに適応させることもできる。
ここで用いられる“音声変換器”という用語は、1つのシステムからの動力により動作して、別のシステムに別の形態の動力を供給する何らかのデバイスを指し、動力の1つの形態は電気であり、別の物は音響又は電気であり、音声信号を再現する。変換器は、スピーカ又は増幅アンテナといった出力変換器、又はマイクロフォンといった入力変換器でよい。本発明の例示的な実施形態は、ここで、電気的入力音声信号を可聴音響信号に転換する拡声器について説明する。
スピーカの歪み特性を特徴付けるための試験設定、及び逆伝達関数を算出する方法は、図1aと図1bに図解される。試験設定は、好適には、コンピュータ10と、サウンド・カード12と、試験されるスピーカ14と、マイクロフォン16とを含む。コンピュータは、音声試験信号18を生成して、サウンド・カード12に送り、それは次いでスピーカを駆動させる。マイクロフォン16は、可聴信号を取り出して、電気信号に変換して戻す。サウンド・カードは、記録された音声信号20を、分析のためにコンピュータに戻すように送る。完全二重化サウンド・カードは、試験信号の再生及び記録が共有クロック信号に関して実行されて、信号が単一サンプル期間内で時間配列され、故に完全に同期化されるように好適に用いられる。
本発明の技術は、再生から記録までの信号経路において、どのような歪みの源も特徴付けて補償する。従って、マイクロフォンによって誘起されるどのような歪みもわずかであるように、高性能マイクロフォンが用いられる。試験される変換器がマイクロフォンである場合には、望ましくない歪みの源を無効にするのに、高性能スピーカが用いられることに留意されたい。スピーカのみを特徴付けるためには、“リスニング環境”は、いずれの反響又は他の歪みの源を最小化するように構成するべきである。代替的には、例えば消費者のホームシアタのスピーカを特徴付けるのに同じ技術を用いることができる。後者の場合、消費者のレシーバ又はスピーカ・システムは、試験を実行し、データを分析し、再生のためにスピーカを構成するように構成されなくてはならない。
同じ試験設定は、スピーカの線形及び非線形歪み特性の両方を特徴付けるのに用いることができる。コンピュータは、異なる音声試験信号18を生成して、記録された音声信号20に異なる分析を実行する。線形試験信号のスペクトルコンテンツは、スピーカに対して、完全に分析された周波数域及び全振幅範囲をカバーすべきである。例示的な試験信号は、(a)0Hzから24kHzの周波数において700ミリ秒の線形上昇、0Hzの周波数への700ミリ秒の線形下降、次いでその繰り返し、及び、(b)0Hzから24kHzの周波数において300ミリ秒の線形上昇、0Hzの周波数への300ミリ秒の線形下降、次いでその繰り返し、という2つの一続きの線形の完全周波数チャープで構成される。チャープの両種は、信号の全持続期間にわたり、同時に信号内に存在する。チャープは、時間領域において、鋭い開始及びゆっくりとした減衰を生成するように、振幅によって変調される。振幅変調の各期間の長さは任意であり、およそ0ミリ秒から150ミリ秒の範囲に及ぶ。好ましくは、非線形試験信号は、種々の振幅及び沈黙の期間のトーン及びノイズを含むべきである。ニューラル・ネットワークの首尾よい訓練のためには、信号に十分な可変性があるべきである。例示的な非線形試験信号は、同様の方法ではあるが、(a)0Hzから24kHzの周波数において4秒の線形上昇、周波数の下降なし、チャープの次の期間は0Hzから再開する、及び、(b)0Hzの周波数への250ミリ秒の線形下降、という異なる時間パラメータで構築される。この信号におけるチャープは、任意の振幅変更によって変調される。振幅の速度は、8ミリ秒で、0からフルスケールまでの速さとすることができる。線形及び非線形試験信号の両方は、同期目的(例えば単一のフルスケール・ピーク)のために用いることができるある種のマーカーを含むことが好ましいが、これは必須ではない。
図1bに説明されるように、逆伝達関数を抽出するためには、コンピュータは、線形試験信号の同期された再生及び記録を実行する(ステップ30)。コンピュータは、試験信号及び記録された信号の両方を処理して、線形伝達関数を抽出する(ステップ32)。“インパルス応答”としても知られる線形伝達関数は、デルタ関数又はインパルスの適用に対するスピーカの応答を特徴付ける。コンピュータは、逆線形伝達関数を算出して、係数をFIRフィルタといった線形フィルタの係数にマップする(ステップ34)。逆線形伝達関数は、いくつもの方法で獲得できるが、以下に詳しく述べるように、線形ニューラル・ネットワークによって与えられるような時間領域計算の使用が、音声信号及びスピーカの特性を最も正確に示す。
コンピュータは、非線形試験信号の同期された再生及び記録を抽出する(ステップ36)。このステップは、線形伝達関数が、線形試験信号が記録されるのと同時に抽出された又はオフラインにされた後で実行できる。好ましい実施形態では、FIRフィルタが記録された信号に適用されて、線形歪み成分を除去する(ステップ38)。必ずしも必要ではないが、広範な試験は、線形歪みの除去は、特徴付け、従って非線形歪みの逆伝達関数を、大きく改善させることを示す。コンピュータは、フィルタ処理された信号から試験信号を減じて、非線形歪み成分のみの推定を与える(ステップ40)。コンピュータは次いで、非線形歪み信号を処理して、非線形伝達関数を抽出し(ステップ42)、逆非線形伝達関数を算出する(ステップ44)。両方の伝達関数は、時間領域計算を用いて算出されることが好ましい。
我々のシミュレーション及び試験は、線形及び非線形歪み成分の両方に対する逆伝達関数の抽出が、スピーカ及びその歪み補償の特徴付けを改善することを示した。さらに、解決策の非線形部分の性能は、特徴付けの前に、典型的には主要な線形歪みを除去することによって大きく改善される。最後に、逆伝達関数を算出するための時間領域計算の使用もまた、性能を改善する。
線形歪みの特徴付け
前方及び逆線形伝達関数を抽出するための例示的な実施形態は、図2乃至図6に図解される。問題の第1の部分は、前方線形伝達関数の良好な推定を与えることである。これは、インパルスを単純にスピーカに適用し応答を測定するステップ、又は記録されて試験された信号のスペクトルの比率の逆変換を取るステップを含む多数の方法で実現できる。しかしながら、時間、周波数、及び/又は、時間/周波数ノイズ減少技術の組み合わせを用いた後者の手法の修正は、はるかに鮮明な前方線形伝達関数を与えることを見出した。例示的な実施形態では、3つのノイズ減少技術全てが採用されるが、それらのどの1つ又は2つを、所与の適用例に用いてもよい。
コンピュータは、記録された試験信号の多重期間を平均化して、ランダムな源からノイズを減少させる(ステップ50)。コンピュータは次いで、各セグメントはスピーカのインパルス応答の持続期間を超えなくてはならないという制約により、試験及び記録された信号を、できるだけ多くのセグメントMに分割する(ステップ52)。この制約が満たされない場合には、スピーカのインパルス応答の部分は重なり、それらを分離することは不可能となる。コンピュータは、例えばFFTを実行することにより試験及び記録されたセグメントのスペクトルを算出し(ステップ54)、次いで、対応する試験スペクトルに対する記録されたスペクトルの比率を形成して、スピーカのインパルス応答の周波数領域で、M個の‘スナップショット’を形成する(ステップ56)。コンピュータは、M個のスナップショットにわたり各々のスペクトル・ラインをフィルタ処理し、そのスペクトル・ラインに対して全てが同様の振幅応答を有するN<M個のスナップショットのサブセットを選択する(ステップ58)。この“最良−N個平均化”は、ノイズのある環境における典型的な音声信号では、対応スペクトル・ラインが‘総’ノイズによってほとんど影響を受けない1組のスナップショットが通常は存在するという我々の知識に基づいている。そのため、このプロセスは、ノイズを、ただ減少させる代わりに実際に回避する。例示的な実施形態では、最良−N個平均化アルゴリズムは(各スペクトル・ラインに対して)、
1.使用可能なスナップショットにわたり、スペクトル・ラインに対する平均を計算する。
2.N個のスナップショットしかない場合には、停止する。
3.>N個のスナップショットがある場合には、スペクトル・ラインの値が、計算された平均から最も遠いスナップショットを見つけ、さらなる計算からスナップショットを除去する。
4.ステップ1から続行する。
各々のスペクトル・ラインに対するプロセスの出力は、最良スペクトル・ライン値をもつN個のスナップショットのサブセットである。コンピュータは次いで、各々のサブセットで列挙されたスナップショットからスペクトル・ラインをマップして、N個のスナップショットを再構築する(ステップ60)。
簡単な例が図3aと図3bに与えられ、最良−N個平均化及びスナップショット再構築のステップを図解する。図の左側は、M=10セグメントに対応する10個の’スナップショット‘70である。この例では、各スナップショットのスペクトル72は、平均化アルゴリズムに対して5本のスペクトル・ライン74及びN=4によって表される。最良−4平均化の出力は、各々のライン(ライン1、ライン2、・・・ライン5)に対するスナップショットのサブセットである(ステップ76)。第1のスナップショット’スナップ1‘78は、ライン1、ライン2、・・・ライン5の各々における第1の入力であるスナップショットに対して、スペクトル・ラインを加えることによって再構築される。第2のスナップショット’スナップ2‘は、各々のラインにおける第2の入力であるスナップショットに対してスペクトル・ラインを加えることにより再構築され、以下同様である(ステップ80)。
このプロセスは、アルゴリズム的には以下のように表すことができる。
S(i,j)=FFT(記録されたセグメント(i,j))/FFT(試験セグメント(i,j))であり、ここでS()はスナップショット70、I=l−Mセグメント、j=l−Pスペクトル・ラインであり、
ライン(j,k)=F(S(i,j))であり、ここでF()は最良−4個平均化アルゴリズム、k=lからNであり、
RS(k,j)=ライン(j,k)であり、ここでRS()は再構築されたスナップショットである。
最良−4平均化の結果は、図3cに表される。表されるように、各々のスペクトル・ラインに対する全スナップショットの単純な平均化から作成されたスペクトル82には、非常にノイズがある。‘音調’ノイズは、スナップショットのいくつかでは非常に強い。比較すると、最良−4平均化によって作成されたスペクトル84は、非常にノイズが少ない。このスムーズな周波数応答は、基になる伝達関数を曖昧にし、逆効果である、より多くのスナップショットを単純に平均化した結果ではないことに留意することが重要である。むしろ、スムーズな周波数応答は、周波数領域においてノイズのソースを理知的に回避し、従って基になる情報を保持しながらノイズ・レベルを減少させた結果である。
コンピュータは、N個の周波数領域のスナップショットの各々に、逆FFTを実行して、N個の時間領域スナップショットを与える(ステップ90)。この時点で、N個の時間領域スナップショットは、単純に互いに平均化して、前方線形伝達関数を出力することができる。しかしながら例示的な実施形態では、付加的なウェーブレット・フィルタリング・プロセス(ステップ92)がN個のスナップショットに実行されて、ウェーブレット変換の時間/周波数表現における多重タイムスケールにおいて局所化することができるノイズを減少させる。ウェーブレット・フィルタリングはまた、フィルタ処理された結果における‘リンギング’の最低量をもたらす。
1つの手法は、単一のウェーブレット変換を、平均化された時間領域スナップショット上に実行し、‘近似’係数を送って、所定のエネルギー・レベルに対する‘詳細’係数をゼロに閾値化し、次いで、前方線形伝達関数を抽出するように逆変換を行う。この手法はウェーブレット変換の異なる分解レベルで‘詳細’係数に一般的に見出されるノイズを減少させる。
図4a乃至図4dに表されるより良い手法は、N個のスナップショット94の各々を用いて、各々のスナップショットに対して2D係数マップ96を形成する’並行’ウェーブレット変換を実施し、出力マップ98においてどの係数がゼロに設定されているかを判断するのに、各々の変換されたスナップショット係数の統計を活用する。係数がN個のスナップショットにわたり比較的均一である場合には、ノイズ・レベルはおそらく低く、その係数は平均化されて送られるべきである。反対に、係数の分散又は偏差が大きい場合には、それはノイズの良いインジケータである。従って1つの手法は、偏差の尺度を、閾値と比較することである。偏差が閾値を超える場合には、その係数はゼロに設定される。この基本原理は全係数に適用でき、その場合、ノイズがあると仮定されゼロに設定された、いくつかの’詳細’係数は保持され、別の方法により送られた、いくつかの’近似’係数はゼロに設定され、従って最終の前方線形伝達関数100においてノイズが減少される。代替的には、’詳細’係数の全てはゼロに設定でき、統計はノイズのある近似係数を捕えるのに用いられる。別の実施形態では、統計は、各々の係数の周りの近隣の変形の尺度とすることができる。
ノイズ減少技術の有効性は、図5a及び図5bに図解され、典型的なスピーカの最終の前方線形伝達関数100の周波数応答102を表す。表されるように、周波数応答は、高度に詳細で鮮明である。
前方線形伝達関数の精度を保持するために、スピーカ及びそのインパルス応答の時間及び周波数領域特性に柔軟に適応することができる、FIRフィルタを合成する伝達関数を反転させる方法が必要である。これを達成するために、我々は、ニューラル・ネットワークを選択した。線形起動関数の使用は、ニューラル・ネットワーク構成の選択を線形であるように制約する。線形ニューラル・ネットワークの加重は、前方線形伝達関数100を入力として、及びターゲット・インパルス応答をターゲットとして用いて訓練され、スピーカの逆線形伝達関数A()の推定値を与える(ステップ104)。誤差関数は、所望の時間領域制約又は周波数領域特徴のいずれかを与えるように制約することができる。訓練されると、ノードからの加重は、線形FIRフィルタの係数にマップされる(ステップ106)。
ニューラル・ネットワークの多くの既知のタイプが好適である。ニューラル・ネットワーク構成及び訓練アルゴリズムにおける技術の現状は、フィードフォワード・ネットワーク(各々の層が前の層からの入力を受け取るだけの階層型ネットワーク)を良い候補とする。既存の訓練アルゴリズムは、安定した結果及び良好な一般化を与える。
図6に表されるように、単層の単ニューロン・ニューラル・ネットワーク117は、逆線形伝達関数を求めるのに十分である。時間領域前方線形伝達関数100は、遅延ライン118を通じてニューロンに適用される。層は、FIRフィルタをN個のタップと合成するように、N個の遅延要素を有する。各々のニューロン120は、単に遅延された入力を通す遅延要素の加重和を算出する。起動関数122は線形であるため、加重和は、ニューラル・ネットワークの出力として通される。例示的な実施形態では、1024−1フィードフォワード・ネットワーク構成(1024遅延要素及び1ニューロン)は、512−ポイントの時間領域前方伝達関数及び1024−タップFIRフィルタに対してうまく機能する。1つ又はそれ以上の隠れ層を含む、より高機能なネットワークを用いてもよい。これはいくらかの柔軟性を加えるが、加重をFIR係数にマップするために、訓練アルゴリズム及び隠れ層から入力層への加重の逆伝搬法に修正を必要とする。
オフラインで監視される弾性逆伝搬法訓練アルゴリズムは、時間領域前方線形伝達関数がニューロンに送られる加重を調整する。監視される学習では、訓練プロセスにおけるニューラル・ネットワーク性能を測定ために、ニューロンの出力をターゲット値と比較する。前方伝達関数を反転させるためには、ターゲット・シーケンスは、単一の“インパルス”を含み、ここですべての全ターゲット値Tiは、1に設定された1つを除いて、ゼロである(単位利得)。比較は、平均平方誤差(MSE)といった数学的測定基準の手段によって実行される。標準的なMSEの式は、
Figure 0005269785
であり、ここでNは出力ニューロンの数であり、Oiはニューロン出力値であり、Tiはターゲット値のシーケンスである。訓練アルゴリズムは、加重のすべてを調整するように、ネットワークを通じて、誤差を“逆伝搬”する。プロセスは、MSEが最小化されて、加重が解法に向けて収束するまで繰り返される。これらの加重は、次いでFIRフィルタにマップされる。
ニューラル・ネットワークは時間領域計算を実行するため、即ち出力値及びターゲット値は時間領域にあるため、時間領域制約は逆伝達関数の特性を改善するように誤差関数に適用することができる。例えば、プレエコーは心理音響的な現象であり、非常に目立つアーチファクトが、時間を逆行して不鮮明になる時間領域過渡電流のエネルギーから録音において聞こえる。その持続時間と振幅を制御することにより、その可聴性を低くすることができ、そうでなければ、‘前方一時マスキング’の存在により完全に聞こえないようにすることができる。
プレエコーを補償する1つの方法は、時間の関数として、誤差関数を加重することである。例えば、制約されたMSEは
Figure 0005269785
によって求められる。プレエコーに対応する時間t<0、及びt<0での誤差は、より重く加重すべきであると仮定できる。例えば、
D(−inf:−1)=100
及び
D(o:inf)=1
である。逆伝搬法アルゴリズムは、次いで、ニューロン加重Wiを、この加重されたMSEw関数を最小化するように最適化する。加重は、一時マスキング曲線をたどるよう調整でき、及び、個々の誤差加重の他にも誤差測定関数に制約を課す方法がある(例えば選択された範囲にわたり複合誤差を制約する)。
選択された範囲A:Bにわたる複合誤差を制約する代替的な例は、
Figure 0005269785

Figure 0005269785
で与えられ、ここで、
SSEABは何らかの範囲A:Bにわたる和平方誤差、
iはネットワーク出力値、
iはターゲット値、
Limは何らかの既定制限、
Errは最終誤差(又は測定)値
である。
ニューラル・ネットワークは時間領域計算であるが、望ましい周波数特徴を保証するために周波数領域制約をネットワーク上に配置できる。例えば、“過度増幅”は、スピーカ応答が深いノッチを有する周波数で、逆伝達関数において発生することがある。過度増幅は、時間領域応答においてリンギングを生じさせる。過度増幅を防ぐためには、全周波数に対して元来1に等しいターゲット・インパルスの周波数のエンベロープは、元のスピーカ応答が深いノッチを有する周波数で減衰されて、元の物とターゲットとの間の最大振幅は、db限度の幾らか下になるようにする。制約されたMSEは、
Figure 0005269785
T‘=F-1[Af・F(T)]
により求められ、ここで、
T‘は制約されたターゲット・ベクトル、
Tは元のターゲット・ベクトル、
Oはネットワーク出力ベクトル、
F()はフーリエ変換を示し、
-1()は逆フーリエ変換を示し、
fはターゲット減衰係数、
Nはターゲット・ベクトルにおけるサンプルの数である。
これが、時間領域における過度増幅及び連続リンギングを回避する。
代替的には、誤差関数に対する誤差の寄与は、スペクトル的に加重できる。そのような制約を課す1つの方法は、個々の誤差を算出し、それら個々の誤差にFTTを実行し、次いで、例えば高周波数成分に、より加重を置くといった何らかの測定基準を用いて、その結果をゼロと比較することである。例えば、制約された誤差関数は、
Figure 0005269785
により与えられ、ここで
f−スペクトル加重
O−ネットワーク出力ベクトル
T−元のターゲット・ベクトル
F()−フーリエ変換を示す
Err−最終誤差(又は測定基準)値
N−スペクトル・ラインの数
である。
時間及び周波数領域制約は、両方の制約に組み入れるように誤差関数を変更することにより、又は誤差関数を単純に加え合わせて合計を最小化することによるいずれかで同時に適用することができる。
前方線形伝達関数、及び、時間及び周波数領域制約の両方を支持する時間領域線形ニューラル・ネットワークを抽出するためのノイズ減少技術の組み合わせは、逆線形伝達関数を実行して、再生中のスピーカの線形歪みを予補償する、FIRフィルタを合成するための頑強で精密な技術を提供する。
非線形歪みの特徴付け
前方及び逆線形伝達関数を抽出するための例示的な実施形態は、図7に図解される。上で説明されるように、FIRフィルタは、線形歪み成分を効果的に除去するように記録された非線形試験信号に適用されるのが好ましい。これは厳密に必要というわけではないが、逆非線形フィルタリングの性能を非常に向上させることがわかった。従来のノイズ減少技術(ステップ130)は、ランダムな、及び他のノイズ源を減少させるのに適用できるが、多くの場合は不要である。
問題の非線形部分を扱うために、我々は、非線形前方伝達関数を推定するニューラル・ネットワークを用いる(ステップ132)。図8に表されるように、フィードフォワード・ネットワーク110は、一般的には、入力層112と、1つ又はそれ以上の隠れ層114と、出力層116とを含む。起動関数は、標準的な非線形tanh()関数であるのが好適である。非線形ニューラル・ネットワークの加重は、元の非線形試験信号I115を遅延ライン118への入力として用い、非線形歪み信号を出力層におけるターゲットとして用いて訓練されて、前方非線形伝達関数F()の推定を与える。時間及び/又は周波数領域制約はまた、変換器の特定のタイプによって必要とされる誤差関数に適用することもできる。例示的な実施形態では、64−16−1フィードフォワード・ネットワークが、8秒の試験信号で訓練された。時間領域ニューラル・ネットワークの算出は、音声信号の過渡領域において発生する可能性がある重大な非線形性を示す非常に良好な働きをし、周波数領域ボルテラ・カーネルよりもはるかに優れている。
非線形伝達関数を反転させるために、我々は、非線形ニューラル・ネットワークを用いて、前方非線形伝達関数F()を試験信号Iに再帰的に適用し、Cjがj番目の再帰反復の加重係数である一次近似Cj*F(I)を試験信号Iから減じて、スピーカに対する逆非線形伝達関数RF()を推定する(ステップ134)。加重係数Cjは、例えば、通常の最小二乗最小化アルゴリズムを用いて最適化される。
単一反復(再帰なし)に対する逆伝達関数の式は、単純に、
Y=I−C1*F(I)
である。言い換えれば、線形歪みが好適に除去された入力音声信号Iを、前方伝達関数F()に通過させ、それを音声信号Iから減ずることにより、スピーカの非線形歪みに対して“予補償”された信号Yが生成される。音声信号Yがスピーカを通過すると、効果は取り消される。あいにく、効果は、厳密に取り消されるのではなく、典型的には非線形残留信号が残る。2又はそれ以上の回数だけ再帰的に反復し、従って最適化するより多くの加重係数Ciを有することにより、式は、非線形残留を、ゼロにより近く推し進めることができる。性能を向上させる2つ又は3つの反復のみが示される。
例えば、3つの反復公式は、
Y=I−C3*F(I−C2*F(I−C1*F(I)))
により与えられる。Iは線形歪みを予補償したと仮定すると、実際のスピーカ出力は
Y+F(Y)
である。非線形歪みを効果的に除去するために、
Y+F(Y)−I=0
を解き、係数C1、C2、及びC3を解く。
再生には2つの選択肢がある。訓練されたニューラル・ネットワークの加重及び再帰式の加重係数Ciを、非線形ニューラル・ネットワークと再帰式を単純に複製するように、スピーカ又はレシーバに与えることができる。算出上、より効率的な手法は、逆非線形伝達関数を直接算出する“再生ニューラル・ネットワーク”(PNN)を訓練するために、訓練されたニューラル・ネットワーク及び再帰式を用いることである(ステップ136)。PNNはまた、フィードフォワード・ネットワークでもあり、元のネットワークと同じ構成(例えば層及びニューロン)を有することができる。PNNは、元のネットワークを訓練するのに用いられたのと同じ入力信号及びターゲットと同じ再帰式の出力を用いて、訓練することができる。代替的には、異なる入力信号は、ネットワーク及び再帰式、その入力信号、及びPNNを訓練するのに用いた、結果としてもたらされる出力を通過することができる。明白な利点は、逆伝達関数が、ネットワークを通る複数(例えば3)の通過の代わりに、ニューラル・ネットワークの単一の通過で実行できることである。
歪み補償及び再現
スピーカの線形及び非線形歪み特徴を補償するために、逆線形及び非線形伝達関数は、スピーカを通したその再生の前に、音声信号に実際に適用されなくてはならない。これは、多数の異なるハードウェア構成、及び逆伝達関数の異なる適用により達成することができ、その2つは、図9a乃至9b、及び10a乃至10cに図解される。
図9aに表されるように、低音、中音域及び高周波のための、3つの増幅器152及び変換器154の組立体を有するスピーカ150もまた、スピーカ歪みを取り消す又は少なくとも減少するように入力音声信号を予補償する、処理機能156及びメモリ158が与えられる。標準的なスピーカでは、音声信号は、音声信号を低音、中音域及び高周波数出力変換器にマップするクロスオーバ・ネットワークに適用される。この例示的な実施形態では、スピーカの低音、中音域及び高周波数成分の各々は、それらの線形及び非線形歪み特性について個々に特徴付けられる。フィルタ係数160及びニューラル・ネットワーク加重162は、各々のスピーカ成分に対するメモリ158内に格納される。これらの係数及び加重は、特定のスピーカを特徴付けるように実行されるサービスとして、又はウェブサイトからそれらをダウンロードしてメモリ内に移すことによりエンドユーザによって、製造時にメモリ内に格納できる。プロセッサ156は、フィルタ係数をFIRフィルタ164にロードし、加重をPNN166にロードする。図10aに表されるように、プロセッサは、線形歪みに対して予補償するようにFIRフィルタを音声インに適用し(ステップ168)、次いで、非線形歪みに対して予補償するようにその信号をPNNに適用する(ステップ170)。代替的には、ネットワーク加重及び再帰式係数は、プロセッサに格納及びロード可能である。図10bに表されるように、プロセッサは、線形歪みに対して予補償するようにFIRフィルタを音声インに適用し(ステップ172)、次いで、非線形歪みに対してそれを予補償するように、その信号をNNに(ステップ174)に適用し、再帰式(ステップ176)に適用する。
図9bに表されるように、音声レシーバ180は、クロスオーバ・ネットワーク184を有する従来のスピーカ182、及び、低音、中音域及び高周波のための増幅器/変換器に対して、予補償を実行するように構成することができる。フィルタ係数190及びネットワーク加重192を格納するためのメモリ188と、FIRフィルタ196及びPNN198を実施するためのプロセッサ194とは、音声デコーダ200のための別個の又は付加的な構成部品として表されるが、この機能性を音声デコーダの中に設計することは十分に実現可能である。音声デコーダは、テレビ放送又はDVDからエンコードした音声信号を受信し、それをデコードし、それぞれのスピーカに向けられるステレオ(L、R)又はマルチチャンネル(L、R、C、Ls、Rs、LFE)のチャンネルへと分離する。表されるように、各チャンネルに対して、プロセッサは、FIRフィルタ及びPPNを音声信号に適用し、予補償された信号をそれぞれのスピーカ182に向ける。
前に述べたように、スピーカ自体又は音声レシーバは、マイクロフォン入力と、スピーカを特徴付け、ニューラル・ネットワークを訓練して、再生に必要とされる係数及び加重を与える処理及びアルゴリズム機能とが与えられる。これは、そのスピーカの歪み特性に加えて、各々の個々のスピーカの特定のリスニング環境の線形及び非線形歪みを補償するという利点を与える。
逆伝達関数を用いる予補償は、説明されるスピーカ又は増幅されたアンテナといったあらゆる出力音声変換器にも有効である。しかしながら、マイクロフォンといった何らかの入力変換器の場合には、例えば可聴信号から電気信号への変換“後”に何らかの補償が実行されなくてはならない。ニューラル・ネットワークその他を訓練するための分析は変更されない。再現又は再生のための合成は、変換後に発生することを除いては、非常に類似している。
試験及び結果
線形及び非線形歪み成分を別個に特徴付け、補償することを示す一般的な手法、及び時間領域ニューラル・ネットワークをベースとした解決策の有効性は、典型的なスピーカに対して測定された周波数及び時間領域インパルス応答により確認される。インパルスは、修正されて又は修正なしでスピーカに適用され、インパルス応答が記録される。図11に表されるように、無修正インパルス応答のスペクトル210は、0Hzからおよそ22kHzまでの音声帯域にわたり、非常に不均一である。比較すると、修正インパルス応答のスペクトル212は、帯域全体にわたり、非常に平らである。図12aに表されるように、無修正時間領域インパルス応答220は、相当量のリンギングを含む。リンギングが、長時間であるか又は振幅が高いかのいずれかである場合には、人間の耳には、信号に加えられた反響として、又は信号の着色(スペクトル特徴における変化)として知覚することができる。図12bに表されるように、修正時間領域インパルス応答222は、非常に明瞭である。明瞭なインパルスは、システムの周波数特徴が、図10に表されるように、単位利得に近いことを示す。このことは、信号に着色、反響、又は他の歪みを加えないため、望ましい。
本発明のいくつかの例示的な実施形態が表され説明されてきたが、当業者は、幾多の変形態様及び代替的な実施形態に気付くであろう。そのような変形態様及び代替的な実施形態が検討され、添付の特許請求の範囲に定義されるように、本発明の精神と範囲からかけ離れることなく為されることができる。

Claims (19)

  1. 音声変換器上で再現するために音声信号を予補償するように、音声変換器の逆線形及び非線形伝達関数を求めるための方法であって、
    a)前記音声変換器を通して、線形試験信号の同期された再生及び記録を行い、
    b)前記音声変換器に対する前方線形伝達関数を、前記線形試験信号及び記録されたその形態から抽出し、
    c)前記変換器に対して逆線形伝達関数A()の推定を与えるように、前記前方線形伝達関数を反転させ、
    d)前記逆線形伝達関数を線形フィルタの対応係数にマッピングし、
    e)前記変換器を通して、非線形試験信号Iの同期された再生及び記録を行い、
    f)前記線形フィルタを前記記録された非線形試験信号に適用し、その結果を元の非線形試験信号から減じて、前記変換器の非線形歪みを推定し、
    g)前方非線形伝達関数F()を前記非線形歪みから抽出し、
    h)前記変換器に対して逆非線形伝達関数RF()の推定を与えるように、前記前方非線形伝達関数を反転させる、
    ステップを含むことを特徴とする方法。
  2. 前記線形試験信号の再生及び記録は、共有クロック信号に関して実行されて、前記信号は単一のサンプル期間内で時間配列されるようになることを特徴とする請求項1に記載の方法。
  3. 前記試験信号は周期的なものであり、前記前方線形伝達関数は、
    複数の期間の前記記録された信号を、平均化された記録された信号に平均化し、
    前記平均化された記録された信号及び前記線形試験信号を、同様の複数のM個の時間セグメントに分割し、
    各々が複数のスペクトル・ラインを有する同様の複数のスナップショットを形成するように、同様の記録されたセグメント及び試験セグメントを周波数変換及び分配し、
    すべてがそのスペクトル・ラインに対して同様の振幅応答を有するN<M個のスナップショットのサブセットを選択するように、各々のスナップショットをフィルタリングし、 N個のスナップショットを再構築するように、各々のサブセットにおいて列挙された前記スナップショットから前記スペクトル・ラインをマッピングし、
    前記前方線形伝達関数のN個の時間領域スナップショットを与えるように、前記再構築されたスナップショットを逆変換し、
    前記前方線形伝達関数を抽出するように、前記N個の時間領域スナップショットをウェーブレット・フィルタリングする、
    ことによって抽出されることを特徴とする請求項1に記載の方法。
  4. 前記平均化された記録された信号は、各々のセグメントは前記変換器インパルス応答の持続期間を超えなくてはならないという制約により、可能な限り多くのセグメントに分割されることを特徴とする請求項3に記載の方法。
  5. 前記ウェーブレット・フィルタは、
    各々の時間領域スナップショットを、2−D係数マップにウェーブレット変換し、
    前記マップにわたり、前記係数の統計を算出し、
    前記統計に基づいて、前記2−D係数マップにおいて係数を選択的にゼロにし、
    前記2D係数マップを平均化されたマップに平均化し、
    前記平均化されたマップを、前記前方線形伝達関数に逆ウェーブレット変換する、
    ことによって並行して適用されることを特徴とする請求項3に記載の方法。
  6. 前記統計は、前記異なるマップからの、同じ位置における係数間の偏差を測定し、前記係数は前記偏差が閾値を超えた場合にはゼロにされることを特徴とする請求項5に記載の方法。
  7. 前記前方線形変換は、逆線形伝達関数A()を推定するために、前記前方線形伝達関数を入力として用い、ターゲット・インパルス信号をターゲットとして用いて、線形ニューラル・ネットワークの前記加重を訓練することにより反転されることを特徴とする請求項1に記載の方法。
  8. 前記加重は誤差関数により訓練され、時間領域制約を前記誤差関数に置くことをさらに含むことを特徴とする請求項7に記載の方法。
  9. 前記時間領域制約は、プレエコー部分でより重く誤差を加重することを特徴とする請求項8に記載の方法。
  10. 前記加重は誤差関数により訓練され、周波数領域制約を前記誤差関数に置くことをさらに含むことを特徴とする請求項7に記載の方法。
  11. 前記周波数領域制約は、前記ターゲット・インパルス信号のエンベロープを減衰させて、該ターゲット・インパルス信号と前記元のインパルス応答との間の最大差異が、何らかの予め設定された限度でクリップされるようにすることを特徴とする請求項10に記載の方法。
  12. 前記周波数領域制約は、前記誤差関数の前記スペクトル成分を異なって加重することを特徴とする請求項10に記載の方法。
  13. 前記線形ニューラル・ネットワークは、前記入力を通過するN個の遅延要素と、前記遅延された入力の各々に対するN個の加重と、該遅延された入力の加重和を出力として算出する単一のニューロンとを含むことを特徴とする請求項7に記載の方法。
  14. 前記前方非線形伝達関数F()は、前記元の非線形試験信号Iを入力として用い、前記非線形歪みをターゲットとして用いて、非線形ニューラル・ネットワークの前記加重を訓練することにより抽出されることを特徴とする請求項1に記載の方法。
  15. 前記前方非線形伝達関数F()が前記試験信号Iに再帰的に適用され、Cjがj番目の再帰反復係数であり、jが1よりも大きい場合に、Cj*F(I)が試験信号Iから減じられて、前記逆非線形伝達関数RF()が推定されることを特徴とする請求項1に記載の方法。
  16. 音声変換器上での再現のために、音声信号Xを予補償する方法であって、
    a)線形予補償音声信号X‘=A(X)を与えるように、前記音声信号Xを、その伝達関数が前記変換器の逆線形伝達関数A()の推定である線形フィルタに適用し、
    b)予補償音声信号Y=RF(X‘)を与えるように、前記線形予補償音声信号X’を、その伝達関数が前記変換器の前記逆非線形伝達関数RF()の推定である非線形フィルタに適用し、
    c)前記予補償された音声信号Yを前記変換器に向ける、
    ステップを含むことを特徴とする方法。
  17. 前記線形フィルタは、その伝達関数が前記変換器の逆線形伝達関数を推定する線形ニューラル・ネットワークの加重から、その係数がマップされるFIRフィルタを含むことを特徴とする請求項16に記載の方法。
  18. 前記非線形フィルタは、
    X‘を入力として、その伝達関数F()が前記変換器の前記前方非線形伝達関数の表現であるニューラル・ネットワークに適用して、該変換器により生成される前記非線形歪みの推定F(X‘)を出力し、
    前記予補償された音声信号Y=RF(X‘)を生成するために、Cjがj番目の再帰反復の加重係数である場合に、加重された非線形歪みCj*F(X‘)を音声信号Iから再帰的に減ずる、
    ことにより実施されることを特徴とする請求項16に記載の方法。
  19. 前記非線形フィルタは、
    X‘を、その伝達関数RF()が前記逆非線形伝達関数の推定である非線形再生ニューラル・ネットワークに通して、予補償された音声信号Y=RF(X‘)を生成する、
    ことにより実施され、前記伝達関数RF()は、F()が前記変換器の前方非線形伝達関数であり、Cjがj番目の再帰反復の加重係数である場合に、音声信号IからCj*F(I)の前記再帰減算をエミュレートするように訓練されることを特徴とする請求項16に記載の方法。
JP2009522798A 2006-08-01 2007-07-25 音声変換器の線形及び非線形歪みを補償するためのニューラル・ネットワーク・フィルタリング技術 Expired - Fee Related JP5269785B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/497,484 2006-08-01
US11/497,484 US7593535B2 (en) 2006-08-01 2006-08-01 Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer
PCT/US2007/016792 WO2008016531A2 (en) 2006-08-01 2007-07-25 Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2012243521A Division JP5362894B2 (ja) 2006-08-01 2012-11-05 音声変換器の線形及び非線形歪みを補償するためのニューラル・ネットワーク・フィルタリング技術

Publications (2)

Publication Number Publication Date
JP2009545914A JP2009545914A (ja) 2009-12-24
JP5269785B2 true JP5269785B2 (ja) 2013-08-21

Family

ID=38997647

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009522798A Expired - Fee Related JP5269785B2 (ja) 2006-08-01 2007-07-25 音声変換器の線形及び非線形歪みを補償するためのニューラル・ネットワーク・フィルタリング技術
JP2012243521A Expired - Fee Related JP5362894B2 (ja) 2006-08-01 2012-11-05 音声変換器の線形及び非線形歪みを補償するためのニューラル・ネットワーク・フィルタリング技術

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2012243521A Expired - Fee Related JP5362894B2 (ja) 2006-08-01 2012-11-05 音声変換器の線形及び非線形歪みを補償するためのニューラル・ネットワーク・フィルタリング技術

Country Status (7)

Country Link
US (1) US7593535B2 (ja)
EP (1) EP2070228A4 (ja)
JP (2) JP5269785B2 (ja)
KR (1) KR101342296B1 (ja)
CN (1) CN101512938A (ja)
TW (1) TWI451404B (ja)
WO (1) WO2008016531A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7330682B2 (ja) 2018-01-23 2023-08-22 ザ・ボーイング・カンパニー 連続繊維成分およびチョップド繊維成分の両方を有する複合部品の製造

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7940198B1 (en) * 2008-04-30 2011-05-10 V Corp Technologies, Inc. Amplifier linearizer
US8027547B2 (en) * 2007-08-09 2011-09-27 The United States Of America As Represented By The Secretary Of The Navy Method and computer program product for compressing and decompressing imagery data
US20100266142A1 (en) * 2007-12-11 2010-10-21 Nxp B.V. Prevention of audio signal clipping
EP2361476B1 (en) * 2008-11-03 2015-06-03 Brüel & Kjaer Sound & Vibration Measurement A/S Test system with digital calibration generator
WO2011034520A1 (en) * 2009-09-15 2011-03-24 Hewlett-Packard Development Company, L.P. System and method for modifying an audio signal
KR101600355B1 (ko) * 2009-09-23 2016-03-07 삼성전자주식회사 오디오 동기화 방법 및 그 장치
JP4892077B2 (ja) 2010-05-07 2012-03-07 株式会社東芝 音響特性補正係数算出装置及びその方法、並びに音響特性補正装置
CN101894561B (zh) * 2010-07-01 2015-04-08 西北工业大学 一种基于小波变换和变步长最小均方算法的语音降噪方法
US8675881B2 (en) * 2010-10-21 2014-03-18 Bose Corporation Estimation of synthetic audio prototypes
US9078077B2 (en) 2010-10-21 2015-07-07 Bose Corporation Estimation of synthetic audio prototypes with frequency-based input signal decomposition
ES2385393B1 (es) * 2010-11-02 2013-07-12 Universitat Politècnica De Catalunya Equipo de diagnóstico de altavoces y procedimiento de utilización de éste mediante el uso de transformada wavelet.
US8369486B1 (en) * 2011-01-28 2013-02-05 Adtran, Inc. Systems and methods for testing telephony equipment
CN102866296A (zh) 2011-07-08 2013-01-09 杜比实验室特许公司 估计非线性失真的方法和系统、调节参数的方法和系统
US8774399B2 (en) * 2011-12-27 2014-07-08 Broadcom Corporation System for reducing speakerphone echo
JP5284517B1 (ja) * 2012-06-07 2013-09-11 株式会社東芝 測定装置およびプログラム
WO2013182901A1 (en) * 2012-06-07 2013-12-12 Actiwave Ab Non-linear control of loudspeakers
CN103916733B (zh) * 2013-01-05 2017-09-26 中国科学院声学研究所 基于均方误差最小准则的声能量对比控制方法及系统
DE102013012811B4 (de) * 2013-08-01 2024-02-22 Wolfgang Klippel Anordnung und Verfahren zur Identifikation und Korrektur der nichtlinearen Eigenschaften elektromagnetischer Wandler
US9565497B2 (en) 2013-08-01 2017-02-07 Caavo Inc. Enhancing audio using a mobile device
US10375476B2 (en) 2013-11-13 2019-08-06 Om Audio, Llc Signature tuning filters
JP6420353B2 (ja) * 2014-02-18 2018-11-07 ドルビー・インターナショナル・アーベー 周波数依存的減衰段をチューニングするための装置及び方法
US20170178664A1 (en) * 2014-04-11 2017-06-22 Analog Devices, Inc. Apparatus, systems and methods for providing cloud based blind source separation services
US9668074B2 (en) * 2014-08-01 2017-05-30 Litepoint Corporation Isolation, extraction and evaluation of transient distortions from a composite signal
US9978388B2 (en) * 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
EP3010251B1 (en) * 2014-10-15 2019-11-13 Nxp B.V. Audio system
US20160111107A1 (en) * 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System
US9565231B1 (en) * 2014-11-11 2017-02-07 Sprint Spectrum L.P. System and methods for providing multiple voice over IP service modes to a wireless device in a wireless network
CN105827321B (zh) * 2015-01-05 2018-06-01 富士通株式会社 多载波光通信系统中的非线性补偿方法、装置和系统
US9866180B2 (en) 2015-05-08 2018-01-09 Cirrus Logic, Inc. Amplifiers
US9779759B2 (en) * 2015-09-17 2017-10-03 Sonos, Inc. Device impairment detection
US10757519B2 (en) * 2016-02-23 2020-08-25 Harman International Industries, Incorporated Neural network-based parameter estimation of loudspeakers
US10425730B2 (en) * 2016-04-14 2019-09-24 Harman International Industries, Incorporated Neural network-based loudspeaker modeling with a deconvolution filter
CN105976027A (zh) * 2016-04-29 2016-09-28 北京比特大陆科技有限公司 数据处理方法和装置、芯片
CN114550687A (zh) 2016-10-21 2022-05-27 Dts公司 失真感测、防失真、以及失真察觉低音增强
US10127921B2 (en) * 2016-10-31 2018-11-13 Harman International Industries, Incorporated Adaptive correction of loudspeaker using recurrent neural network
US10296831B2 (en) 2017-05-03 2019-05-21 Virginia Tech Intellectual Properties, Inc. Learning radio signals using radio signal transformers
CN110998723B (zh) * 2017-08-04 2023-06-27 日本电信电话株式会社 使用神经网络的信号处理装置及信号处理方法、记录介质
CN111201569B (zh) 2017-10-25 2023-10-20 三星电子株式会社 电子装置及其控制方法
TWI672644B (zh) * 2018-03-27 2019-09-21 鴻海精密工業股份有限公司 人工神經網路
US10944440B2 (en) * 2018-04-11 2021-03-09 Booz Allen Hamilton Inc. System and method of processing a radio frequency signal with a neural network
US11039244B2 (en) 2018-06-06 2021-06-15 Dolby Laboratories Licensing Corporation Manual characterization of perceived transducer distortion
CN109362016B (zh) * 2018-09-18 2021-05-28 北京小鸟听听科技有限公司 音频播放设备及其测试方法和测试装置
WO2020086771A1 (en) 2018-10-24 2020-04-30 Gracenote, Inc. Methods and apparatus to adjust audio playback settings based on analysis of audio characteristics
CN109687843B (zh) * 2018-12-11 2022-10-18 天津工业大学 一种基于线性神经网络的稀疏二维fir陷波滤波器的设计方法
CN110931031A (zh) * 2019-10-09 2020-03-27 大象声科(深圳)科技有限公司 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法
CN116305886A (zh) * 2019-10-31 2023-06-23 佳禾智能科技股份有限公司 基于神经网络滤波器的自适应前馈式主动降噪方法、计算机可读存储介质、电子设备
KR20210061696A (ko) * 2019-11-20 2021-05-28 엘지전자 주식회사 음향 입출력 장치의 검사 방법
US11532318B2 (en) 2019-11-29 2022-12-20 Neural DSP Technologies Oy Neural modeler of audio systems
KR102114335B1 (ko) * 2020-01-03 2020-06-18 주식회사 지브이코리아 인공지능모델을 이용한 음향 조율 시스템이 적용된 오디오 앰프
CN111370028A (zh) * 2020-02-17 2020-07-03 厦门快商通科技股份有限公司 一种语音失真检测方法及系统
TWI789577B (zh) * 2020-04-01 2023-01-11 同響科技股份有限公司 音訊資料重建方法及系統
CN112820315B (zh) * 2020-07-13 2023-01-06 腾讯科技(深圳)有限公司 音频信号处理方法、装置、计算机设备及存储介质
US11622194B2 (en) * 2020-12-29 2023-04-04 Nuvoton Technology Corporation Deep learning speaker compensation
WO2022209171A1 (ja) * 2021-03-31 2022-10-06 ソニーグループ株式会社 信号処理装置、信号処理方法およびプログラム
US11182675B1 (en) * 2021-05-18 2021-11-23 Deep Labs Inc. Systems and methods for adaptive training neural networks
US11765537B2 (en) * 2021-12-01 2023-09-19 Htc Corporation Method and host for adjusting audio of speakers, and computer readable medium
CN114615610B (zh) * 2022-03-23 2023-05-16 东莞市晨新电子科技有限公司 音频补偿式耳机的音频补偿方法、系统和电子设备
CN114813635B (zh) * 2022-06-28 2022-10-04 华谱智能科技(天津)有限公司 煤炉燃烧参数的优化方法及电子设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5185805A (en) * 1990-12-17 1993-02-09 David Chiang Tuned deconvolution digital filter for elimination of loudspeaker output blurring
JP2797035B2 (ja) 1991-01-31 1998-09-17 日本ビクター株式会社 ニューラルネットによる波形処理装置及びその設計方法
JPH05235792A (ja) * 1992-02-18 1993-09-10 Fujitsu Ltd 適応等化器
JP4034853B2 (ja) * 1996-10-23 2008-01-16 松下電器産業株式会社 歪み除去装置、マルチプロセッサ及びアンプ
US6766025B1 (en) 1999-03-15 2004-07-20 Koninklijke Philips Electronics N.V. Intelligent speaker training using microphone feedback and pre-loaded templates
US6601054B1 (en) * 1999-08-16 2003-07-29 Maryland Technology Corporation Active acoustic and structural vibration control without online controller adjustment and path modeling
US7263144B2 (en) 2001-03-20 2007-08-28 Texas Instruments Incorporated Method and system for digital equalization of non-linear distortion
US20030018599A1 (en) * 2001-04-23 2003-01-23 Weeks Michael C. Embedding a wavelet transform within a neural network
TWI223792B (en) * 2003-04-04 2004-11-11 Penpower Technology Ltd Speech model training method applied in speech recognition
KR20050023841A (ko) * 2003-09-03 2005-03-10 삼성전자주식회사 비선형 왜곡 저감 방법 및 장치
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US20050271216A1 (en) * 2004-06-04 2005-12-08 Khosrow Lashkari Method and apparatus for loudspeaker equalization
TWI397901B (zh) * 2004-12-21 2013-06-01 Dolby Lab Licensing Corp 控制音訊信號比響度特性之方法及其相關裝置與電腦程式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7330682B2 (ja) 2018-01-23 2023-08-22 ザ・ボーイング・カンパニー 連続繊維成分およびチョップド繊維成分の両方を有する複合部品の製造

Also Published As

Publication number Publication date
KR101342296B1 (ko) 2013-12-16
US20080037804A1 (en) 2008-02-14
JP5362894B2 (ja) 2013-12-11
TWI451404B (zh) 2014-09-01
TW200820220A (en) 2008-05-01
KR20090038480A (ko) 2009-04-20
JP2009545914A (ja) 2009-12-24
EP2070228A4 (en) 2011-08-24
WO2008016531A2 (en) 2008-02-07
US7593535B2 (en) 2009-09-22
EP2070228A2 (en) 2009-06-17
CN101512938A (zh) 2009-08-19
WO2008016531A3 (en) 2008-11-27
JP2013051727A (ja) 2013-03-14
WO2008016531A4 (en) 2009-01-15

Similar Documents

Publication Publication Date Title
JP5269785B2 (ja) 音声変換器の線形及び非線形歪みを補償するためのニューラル・ネットワーク・フィルタリング技術
RU2626987C2 (ru) Устройство и способ для улучшения воспринимаемого качества воспроизведения звука путем объединения активного шумоподавления и компенсации воспринимаемого шума
JP5993373B2 (ja) ラウドスピーカを通した音声のスペクトル的色付けのない最適なクロストーク除去
AU2007313442B2 (en) System and method for compensating memoryless non-linear distortion of an audio transducer
EP3080975B1 (en) Echo cancellation
WO2015085924A1 (zh) 一种扬声器自动均衡方法
JP5595422B2 (ja) 臨界バンドに分けられたインパルス応答データから逆フィルタを決定する方法
JP2011530218A (ja) 電子音響チャンネルの適応制御とイコライゼーションの方法
US6697492B1 (en) Digital signal processing acoustic speaker system
JP4522509B2 (ja) オーディオ装置
JPWO2009008068A1 (ja) 自動音場補正装置
JP2012100117A (ja) 音響処理装置及び方法
Nakajima et al. Non-linear distortion reduction for a loudspeaker based on recursive source equalization
Rocha A Frequency-Domain Method For Active Acoustic Cancellation Of Known Audio Sources
MASSARANI Transfer-Function Measurement with Sweeps

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120604

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120830

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120906

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130508

R150 Certificate of patent or registration of utility model

Ref document number: 5269785

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees