JP7055542B2

JP7055542B2 - トランジェント位置検出を使用したオーディオ信号の後処理のための装置

Info

Publication number: JP7055542B2
Application number: JP2019553970A
Authority: JP
Inventors: サッシャディスヒ; クリスティアンウーレ; パトリックガンプ; ダニエルリヒター; オリヴァーヘルムート; ユールゲンヘレ; ペータープロカイン; アントニオスカランプルニオティス; ユリアハーヴェンシュタイン
Original assignee: フラウンホッファー－ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2017-03-31
Filing date: 2018-03-28
Publication date: 2022-04-18
Anticipated expiration: 2038-03-28
Also published as: RU2734781C1; WO2018177608A1; BR112019020515A2; CN110832581A; US11373666B2; EP3602549B1; US20200020349A1; EP3602549A1; CN110832581B; EP3382700A1; JP2020512598A

Description

本願発明は、オーディオ信号処理に関し、かつ特に符号化アーチファクトを除去することによりオーディオ品質を高めるためのオーディオ信号後処理に関する。

オーディオ符号化は、心理音響的知識を使用してオーディオ信号における冗長性および無関係性を利用することを扱う信号圧縮の領域である。低ビットレート状態で、望ましくないアーチファクトがオーディオ信号にしばしば導入される。突出したアーチファクトはトランジェント信号成分によりトリガされる一時的なプレエコーおよびポストエコーである。

特に、ブロックベースのオーディオ処理において、例えば周波数領域変換符号化器内のスペクトル係数の量子化雑音は、１ブロックの全期間にわたって広がるので、これらプレエコーおよびポストエコーが生じる。ギャップ充填、パラメトリック空間オーディオ、または帯域幅拡張などのセミパラメトリック符号化ツールも、パラメーター駆動調整がサンプルの時間ブロック内で通常起こるため、パラメータ帯域に制限されたエコーアーチファクトにつながる可能性がある。

本願発明は、知覚変換符号化によって導入されたトランジェント現象の主観的な品質低下を低減または軽減する非誘導型ポストプロセッサに関する。

コーデック内のプレエコーおよびポストエコーアーチファクトを防ぐための最先端のアプローチには、変換コーデックのブロック切替および一時的なノイズ整形が含まれる。コーデックチェーンの背後にあるポストプロセッシング技術を使用して、プレエコーおよびポストエコーのアーチファクトを抑制する最先端のアプローチが非特許文献１に公開されている。

[1] Imen Samaali, Mania Turki-Hadj Alauane, Gael Mahe, "Temporal Envelope Correction for Attack Restoration in Low Bit-Rate Audio Coding", 17th European Signal Processing Conference (EUSIPCO 2009) , Scotland, August 24-28, 2009;および

[2] Jimmy Lapierre and Roch Lefebvre, "Pre-Echo Noise Reduction In Frequency-Domain Audio Codecs", ICASSP 2017, New Orleans.

アプローチの最初のクラスは、コーデックチェーン内に挿入する必要があるが、以前に符号化されたアイテム（アーカイブされたサウンド素材など）に事後的に適用することはできない。２番目のアプローチは本質的にデコーダにポストプロセッサとして実装されるが、エンコーダ側で元の入力信号から派生した制御情報が依然必要である。

本願発明の目的は、オーディオ信号の後処理のための改善された概念を提供することである。

この目的は、請求項１のオーディオ信号を後処理するための装置、請求項１７のオーディオ信号を後処理する方法、または請求項１８のコンピュータプログラムによって達成される。

本願発明の態様は、このようなより早い符号化／復号化操作は、知覚品質を低下させるが、トランジェントを完全に除去するわけではないので、より早い符号化および復号化を受けたオーディオ信号においてトランジェントが依然として局在化され得るという発見に基づいている。従って、オーディオ信号またはオーディオ信号の時間周波数表現を使用してトランジェント部分の時間的な位置を推定するためのトランジェント位置推定器が提供される。本願発明によれば、オーディオ信号の時間周波数表現を操作して、トランジェント位置の前の時間的位置における時間周波数表現のプレエコーを低減または除去するか、または実装に応じてトランジェント部分のアタックが増幅されるように、トランジェント位置での時間周波数表現、および、トランジェント位置の後に続き、時間周波数表現の整形を実行する。

本願発明によれば、検出されたトランジェント位置に基づいて、オーディオ信号の時間周波数表現内で信号操作が実行される。従って、非常に正確なトランジェント位置検出と、一方では対応する有用なプレエコー低減、そして他方では、アタックの増幅は、最終的な周波数時間変換により、フレーム全体での操作の自動スムージング／分散が行われるように周波数領域における処理演算によりおよび複数のフレームでのオーバーラップ加算演算により得られる。最終的に、これにより、オーディオ信号の操作による可聴クリック音が回避され、当然ながら、プレエコーのない、または一方のプレエコーの量が少なく、および／または他方のトランジェント部分についてシャープになったアタックを有するオーディオ信号が改善される。

好ましい実施形態は、知覚変換符号化によって導入されたトランジェントの主観的な品質低下を低減または軽減する非誘導型ポストプロセッサに関する。

本願発明のさらなる態様によれば、トランジェント位置推定器を特に必要とせずにトランジェント改善処理が実行される。この態様では、オーディオ信号を一連のスペクトルフレームを含むスペクトル表現に変換するための時間スペクトル変換器が使用される。次に、予測分析器は、スペクトルフレーム内の周波数にわたる予測の予測フィルタデータを計算し、前記予測フィルタデータによって制御される後続の整形フィルタは、スペクトルフレームを整形して、スペクトルフレーム内のトランジェント部分を強化する。オーディオ信号の後処理は、整形されたスペクトルフレームを含む一連のスペクトルフレームを時間領域に戻すためのスペクトル時間変換で完了する。

従って、時間領域の処理による可聴クリックなどが回避されるように、時間領域の表現ではなくスペクトル表現内で修正が行われる。さらに、スペクトルフレーム内の周波数に対する予測の予測フィルタリングデータを計算する予測分析器が使用されるという事実により、オーディオ信号の対応する時間領域エンベロープは、後続の整形によって自動的に影響を受ける。特に、整形は、スペクトル領域内での処理と、周波数に対する予測が使用されるという事実により、オーディオ信号の時間領域エンベロープが強化され、すなわち、時間領域エンベロープには、より高いピークとより深い谷があるようになされる。換言すれば、スムージングの反対は、実際にトランジェントを示す必要なく、トランジェントを自動的に強化する整形によって実行される。

おそらく、２種類の予測フィルタが導出される。第１の予測フィルタデータは、平坦化フィルタ特性の予測フィルタデータであり、第２の予測フィルタデータは、整形フィルタ特性の予測フィルタデータである。換言すれば、平坦化フィルタ特性は逆フィルタ特性であり、整形フィルタ特性は予測合成フィルタ特性である。しかしながら、これらのフィルタデータは両方とも、スペクトルフレーム内の周波数にわたって予測を実行することによって導出される。好ましくは、異なるフィルタ係数の導出のための時定数は異なるため、第１の予測フィルタ係数の計算には第１の時定数が使用され、第２の予測フィルタ係数の計算には第２の時定数が使用され、第２の時定数は第１の時定数より大きい。この処理は、再び、トランジェント信号部分が非トランジェント信号部分よりもはるかに影響を受けることを自動的に確認する。換言すれば、処理は明示的なトランジェント検出方法に依存しないが、異なる時定数に基づく平坦化とその後の整形により、非トランジェント部分よりもトランジェント部分の影響がはるかに大きくなる。

従って、本願発明によれば、周波数にわたる予測の適用により、（平滑化ではなく）時間領域エンベロープが強化される、自動的なトランジェント改善処理が得られる。

本願発明の実施形態は、さらなるガイダンス情報を必要とせずに動作する、以前に符号化された音声素材のポストプロセッサとして設計される。従って、これらの実施形態は、アーカイブされる前にこのアーカイブされた音声素材に適用された知覚符号化によって損なわれたアーカイブされた音声素材に適用することができる。

第１の態様の好ましい実施例は以下の主な処理ステップからなる。
信号内のトランジェント位置をガイドなしで検出して、トランジェント位置を見つける
トランジェントに先行するプレエコー期間と強度の推定
プレエコーアーチファクトをミュートするための適切な時間的ゲイン曲線の導出
トランジェント前の適応された時間ゲインカーブによる推定プレエコーのダッキング／ダンピング（プレエコーを緩和するため）
アタック時、アタックの分散を緩和
トーンまたはその他の準定常スペクトル帯域のダッキングからの除外

第２の態様の好ましい実施形態は、以下の主要な処理ステップからなる。
信号内のトランジェント位置をガイドなしで検出して、トランジェント位置を見つける（この手順はオプション）
周波数領域線形予測係数（FD-LPC）平坦化フィルタと後続のFD-LPC整形フィルタとの適用によるアタックエンベロープの鮮鋭化、平坦化フィルタは平滑化された時間エンベロープを表し、整形フィルタは平滑性の低い時間エンベロープを表し、両方のフィルタの予測ゲインが補償される。

好ましい実施形態は、マルチステップ処理チェーンの最後のステップとして無誘導のトランジェント強化を実装するポストプロセッサの実施形態である。他の強化技術、例えば、無誘導帯域幅拡張、スペクトルギャップ充填などを適用する場合、以前の強化ステージから導入される信号修正を含みかつ有効であるようにトランジェント強化はチェーンの最後にあることが好ましい。

本願発明のすべての態様は、ポストプロセッサとして実装することができ、１つ、２つ、または３つのモジュールを直列に計算するか、計算効率のために共通モジュール（例えば（Ｉ）ＳＴＦＴ、トランジェント検出、トーン検出）を共有することができる。

本明細書で説明される２つの態様は、オーディオ信号の後処理のために互いに独立して、または一緒に使用できることに留意されたい。トランジェント位置検出とプレエコー低減およびアタック増幅に依存する第１の態様は、第２の態様なしで信号を強化するために使用できる。それに対応して、周波数にわたるＬＰＣ分析と周波数領域内の対応する整形フィルタリングに基づく第２の態様は、必ずしもトランジェント検出に依存せず、明示的なトランジェント位置検出器なしでトランジェントを自動的に強化する。この実施形態は、トランジェント位置検出器によって強化できるが、そのようなトランジェント位置検出器は必ずしも必要ではない。さらに、第２の態様は、第１の態様とは独立して適用できる。さらに、他の実施形態では、第２の態様は、第１の態様によって後処理されたオーディオ信号に適用できることを強調する必要がある。しかしながら、順序は次のように行うことができる。すなわち、最初のステップで第２の態様が適用され、その後、オーディオ信号を後処理してそのオーディオ品質を改善するために以前に導入された符号化アーチファクトを除去することにより第１の態様が適用される。

さらに、第１の態様には基本的に２つのサブ態様があることに注意されたい。第１のサブ態様は、トランジェント位置検出に基づくプレエコー低減であり、第２のサブ態様は、トランジェント位置検出に基づくアタック増幅である。好ましくは、両方のサブ態様は直列に組合わされ、さらにより好ましくは、プレエコー低減が最初に実行され、次にアタック増幅が実行される。しかしながら、他の実施形態では、２つの異なるサブアスペクトは、互いに独立して実装でき、場合によっては第２のサブアスペクトと組合せることができる。従って、プレエコーの低減は、アタックを増幅することなく、予測ベースのトランジェント強化処理と組合せることができる。他の実装では、プレエコー低減は実行されないが、必ずしもトランジェント位置検出を必要としない後続のＬＰＣベースのトランジェント整形とともにアタック増幅が実行される。

組合わされた実施形態では、サブアスペクトと第２のアスペクトとの両方を含む第１のアスペクトが特定の順序で実行され、この順序は第１にプレエコー低減の実行、第２にアタック増幅の実行、および第３に周波数上のスペクトルフレームの予測に基づくＬＰＣベースのアタック／トランジェント強化処理の実行からなる。

本願発明の好ましい実施例は、添付の図面に関連して以下に議論されている。

図１は第１の態様によるブロック図である。図２ａはトーン推定器に基づく第１の態様の好ましい実装を示す図である。図２ｂはプレエコー幅推定に基づく第１の態様の好ましい実現を示す図である。図２ｃはプレエコー閾値推定に基づく第１の態様の好ましい実施形態を示す図である。図２ｄはプレエコー低減／除去に関する第１のサブ態様の好ましい実施形態を示す図である。図３ａは第１のサブ態様の好ましい実装を示す図である。図３ｂは第１のサブ態様の好ましい実装を示す図である。図４は第１のサブ態様のさらに好ましい実装を示す図である。図５は本願発明の第１の態様の２つのサブ態様を示す図である。図６ａは第２のサブ態様上の概観を示す図である。図６ｂはトランジェント部分および持続部分への分割に依存する第２のサブ態様の好ましい実装を示す図である。図６ｃは図６ｂの分割のさらなる実施例を示す図である。図６ｄは第２のサブ態様のさらなる実現を示す図である。図６ｅは第２のサブ態様のさらなる実施例を示す図である。図７は本願発明の第２の態様の実施例のブロック図を示す図である。図８ａは２つの異なるフィルタデータに基づく第２の態様の好ましい実装を示す図である。図８ｂは２つの異なる予測フィルタデータの計算についての第２の態様の好ましい実施例を示す図である。図８ｃは図７の整形フィルタの好ましい実装を示す図である。図８ｄは図７の整形フィルタのさらなる実装を示す図である。図８ｅは本願発明の第２の態様のさらなる実施例を示す図である。図８ｆは異なる時定数を有するＬＰＣフィルタ推定についての好ましい実装を示す図である。図９は本願発明の第１の態様の第１のサブ態様および第２のサブ態様に依存し、さらに、本願発明の第１の態様に基づく手順の出力に基づいて実行される本願発明の第２の態様に付加的に依存する後処理手順についての好ましい実装の概要を示す図である。図１０ａはトランジェント位置検出器の好ましい実装を示す図である。図１０ｂは図１０ａの検出関数計算についての好ましい実装を示す図である。図１０ｃは図１０ａの開始ピッカーの好ましい実現を示す図である。図１１はトランジェント強化ポストプロセッサとして第１のおよび／または第２の態様に関連する本願発明の一般的な設定を示す図である。図１２－１は移動平均フィルタリングを示す図である。図１２－２は、単極再帰平均およびハイパスフィルタリングを示す図である。図１２－３は、時間信号予測および残差を示す図である。図１２－４は、予測誤差の自己相関を示す図である。図１２－５は、ＬＰＣを有するスペクトルエンベロープ推定を示す図である。図１２－６は、ＬＰＣを有する時間エンベロープ推定を示す図である。図１２－７は、アタックトランジェント対周波数領域トランジェントを示す図である。図１２－８は、「周波数領域トランジェント」のスペクトルを示す図である。図１２－９は、トランジェント、開始およびアタックの間の区別を示す図である。図１２－１０は、静かで同時のマスキングにおける絶対的な閾値を示す図である。図１２－１１は、時間的なマスキングを示す図である。図１２－１２は知覚オーディオエンコーダの一般的な構造を示す図である。図１２－１３は知覚オーディオデコーダの一般的な構造を示す図である。図１２－１４は知覚オーディオ符号化における帯域幅制限を示す図である。図１２－１５は劣化したアタック特性を示す図である。図１２－１６はプレエコーアーチファクトを示す図である。図１３－１はトランジェント強化アルゴリズムを示す図である。図１３－２はトランジェント検出：検出関数（カスタネット）を示す図である。図１３－３はトランジェント検出：検出関数（ファンク）を示す図である。図１３－４はプレエコー低減方法のブロック図を示す図である。図１３－５はトーン成分の検出を示す図である。図１３－６はプレエコー幅推定－図式的アプローチを示す図である。図１３－７はプレエコー幅推定－例を示す図である。図１３－８はプレエコー幅推定－検出関数を示す図である。図１３－９はプレエコー低減－スペクトル図（カスタネット）を示す図である。図１３－１０はプレエコー閾値検出（カスタネット）を示す図である。図１３－１１はトーン成分についてのプレエコー閾値検出を示す図である。図１３－１２はプレエコー低減についてのパラメータ減衰曲線を示す図である。図１３－１３はプレマスキング閾値のモデルを示す図である。図１３－１４はプレエコー低減後の目標の大きさの計算を示す図である。図１３－１５はプレエコー低減－スペクトログラム（グロッケンシュピール）を示す図である。図１３－１６は適応トランジェントアタック強化を示す図である。図１３－１７は適応トランジェントアタック強化についての減衰曲線を示す図である。図１３－１８は自己相関窓関数を示す図である。図１３－１９はＬＰＣ整形フィルタの時間領域伝達関数を示す図である。図１３－２０はＬＰＣエンベロープ整形－入出力信号を示す図である。

図１はトランジェント位置検出を使用するオーディオ信号を後処理するための装置を示す。特に、後処理をするための装置は一般的な枠組みに関して図１１に示されるように掲載される。特に図１１は１０で示される低下したオーディオ信号の入力を示す。この入力はトランジェント強化ポストプロセッサ２０に送られて、トランジェント強化ポストプロセッサ２０は図１１に３０で示された強化されたオーディオ信号を出力する。

図１に示されたポストプロセッシング２０のための装置はオーディオ信号を時間周波数表現に変換するための変換器１００を含む。さらに装置はトランジェント位置の時間的位置を推定するためのトランジェント位置推定器１２０を含む。トランジェント位置推定器１２０は変換器１００およびトランジェント位置推定１２０の間の接続により示される時間周波数表現を使用するか時間領域内のオーディオ信号を使用して動作する。この選択は図１における破線により示される。さらに、装置は時間周波数表現を操作するための信号操作器１４０を含む。信号操作器１４０はトランジェント位置の時間的に前の位置での時間周波数表現におけるプレエコーを低減または除去するように構成されており、トランジェント位置はトランジェント位置推定器１２０により示されている。選択的にあるいは付加的に、信号操作器１４０はトランジェント位置のアタックが増幅されるようにトランジェント位置において変換器１００および信号操作器１４０の間の線により描かれるように時間周波数表現の整形を実行するように構成されている。

このように、図１における後処理のための装置はプレエコーを低減または除去するおよび／または時間周波数表現を整形してトランジェント位置のアタックを増幅する。

図２ａはトーン推定器２００を示す。特に、図１の信号操作器１４０は時間的にトランジェント位置に先行する時間周波数表現におけるトーン信号成分を検出するためのこの種のトーン推定器２００を含む。特に、信号操作器１４０はトーン信号成分が検出される周波数において信号操作がトーン信号成分が検出されない周波数と比べて低減されあるいは遮断されるように周波数選択方法においてプレエコー低減または除去を適用するように構成されている。この実施例において、ブロック２２０により示されたようにプレエコー低減／除去は、トーン信号成分が検出される或るフレームの周波数位置において周波数選択的にオンオフが切替えられるかあるいは少なくとも徐々に減少される。これは一般的にトーン信号成分が同時にプレエコーまたはトランジェントとなり得ないのでトーン信号成分が操作されないことを確実にする。それどころか、トーン成分は、特定のフレームに関して、ピークエネルギーを持つ特定の周波数ビンであり、このフレーム内の他の周波数は低エネルギーしかない一方、これは、トランジェントの典型的な性質は、トランジェントが多くの周波数ビンに同時に影響を与える広帯域効果であるという事実による。

さらに、図２ｂに示されるように、信号操作器１４０は、プレエコー幅推定器２４０を含む。このブロックはトランジェント位置に先行するプレエコーの時間幅を推定するように構成されている。この推定はプレエコーを低減あるいは除去する努力においてトランジェント位置の前の正しい時間部分が信号操作器１４０により操作されることを確認する。時間的なプレエコー幅の推定は複数の後続のオーディオ信号フレームを含む時間周波数表現におけるプレエコー開始フレームを決定するためのオーディオ信号の時間上の信号エネルギーの発達に基づく。典型的に、時間上のオーディオ信号の信号エネルギーのこの種の発達は、増加するあるいは一定の信号エネルギーであるが、時間上のエネルギー発達の低下にはよらない。

図２ｂは、プレエコー低減または除去または図２ｄに述べられているようにプレエコー“ダッキング”が実行される本願発明の第１の態様の第１のサブ態様に従うポストプロセッシングの好ましい実施例のブロック図を示す。

障害のあるオーディオ信号が入力１０に供給され、このオーディオ信号は特定のブロック長で動作しオーバーラップブロックで動作する短時間フーリエ変換分析器として好ましくは実装された変換器１００に入力される。

さらに、図２ａで述べられたようにトーン推定器２００はプレエコーを低減または除去するためにブロック１００によって生成された時間周波数表現にプレエコー回避カーブ１６０を適用するために備わったプレエコー回避ステージ３２０を制御するために備わっている。ブロック３２０の出力は周波数時間変換器３７０を使用して時間領域に再び変換される。この周波数時間変換器は好ましくはブロッキングアーチファクトを回避するために各ブロックから次のブロックまでフェードイン／フェードアウトするためのオーバーラップ加算演算を演算する逆短時間フーリエ変換合成ブロックとして実装されている。

ブロック３７０の結果は強化されたオーディオ信号３０の出力である。

好ましくは、プレエコー回避曲線ブロック１６０は図２ｂのブロック２４０により決定されたプレエコー幅または図３ａ、図３ｂ、図４に関連して議論されたように他のプレエコー特性等のプレエコーに関連する特性を集めるプレエコー推定器１５０により制御されている。

好ましくは、図３ａにおいて概説したように、プレエコー回避曲線１６０はブロック１００により生成されたように複数の時間フレームの各周波数ビンについて特定の周波数領域重み付け係数を有する重み付けマトリクスであると見なすことができる。図３ａは図２ｄのプレエコー回避演算３２０に対応するスペクトル重み付け器３２０を制御する図２ｄのブロック１６０に対応するスペクトル重み付けマトリクス計算機３００を制御するプレエコー閾値推定器２６０を示す。

好ましくは、プレエコー閾値推定器２６０は、プレエコー幅によって制御され、時間周波数表現に関する情報も受信する。同じことは、スペクトル重み付けマトリクス計算機３００にも、そしてもちろん、最終的に、プレエコーが低減または除去される周波数領域出力信号を生成するために重み係数マトリクスを時間周波数表現に適用するスペクトル重み付け器３２０にも当てはまる。好ましくは、スペクトル重み付けマトリクス計算機３００は７００Ｈｚ以上および好ましくは８００Ｈｚ以上である特定の周波数範囲において動作する。さらに、スペクトル重み付けマトリクス計算機３００は図１の変換器１００により適用されたようにプレエコー領域のみにオーバーラップ加算特性に依存するように重み付け係数の計算に制限される。さらに、プレエコー閾値推定器２６０は例えば図２ｂのブロック２４０により決定されたようにプレエコー幅内で時間周波数表現におけるスペクトル値についてプレエコー閾値を推定するように構成され、プレエコー閾値はプレエコー低減または除去に続いて生じるべき、すなわち、プレエコーなしで真の信号増幅に対応すべき対応するスペクトル値の増幅閾値を示す。

おそらく、プレエコー閾値推定器２６０はプレエコー幅の開始からトランジェント位置までの増加特性を有する重み付け曲線を使用してプレエコー閾値を決定するように構成されている。特にこの種の重み付け曲線はＭ_preによって示されたプレエコー幅に基づいて図３ｂにおけるブロック３５０によって決定される。次に、この重み付け曲線C_mはブロック３４０でスペクトル値に適用され、ブロック３３０によりスペクトル値が以前に平滑化されている。次にブロック３６０に示されるように、最小は全ての周波数インデックスkについて閾値として選択される。このように、好ましい実施例に従って、プレエコー閾値推定器２６０は時間周波数表現の複数の後続フレームにわたる時間周波数表現を平滑化３３０し、かつプレエコー幅の開始からトランジェント位置までの増加特性を有する重み付け曲線を使用する平滑化された時間周波数表現を重み付け（３４０）するように構成されている。この増加特性は通常「信号」、すなわちプレエコーアーチファクトのない信号の特定のエネルギーの増減が可能なことが確認される。

さらなる実施例において、信号操作器１４０は時間周波数表現のスペクトル値についての個々のスペクトル重みを計算するためのスペクトル重み計算機３００,１６０を使用するように構成されている。さらに、スぺクトル重み付け器３２０はスペクトル重みを使用する時間周波数表現の重み付けスペクトル値を備えて操作された時間周波数表現を得る。このように、操作は重みを使用することによりおよび図１の変換器１００により生成されたように個々の時間／周波数ビンを重み付けすることにより周波数領域内で実行される。

特に、スペクトル重みは、図４に示された特定の実施例において示されたように計算される。スペクトル重み付け器３２０は第１の入力として時間周波数表現X_k,mを受信し第２の入力としてスペクトル重みを受信する。これらのスペクトル重みはともにこのブロックへの入力である現実のスペクトル値および目標のスペクトル値を使用して生のスペクトル重みを決定するように構成された生の重み計算機４５０により計算されている。生の重み計算機は後に示される式４．１８に示されるように演算を行うが、一方で実際の値に依存し、他方で目標値に依存する他の実装も有用である。さらに、その代わりにあるいはそれに加えて、スペクトル重みはアーチファクトを回避するためにかつ１フレームから他へ強すぎる変化を避けるために経時的に平滑化される。

好ましくは、生の重み計算機４５０への目標値はプレマスキングモデラー４２０により具体的に計算される。プレマスキングモデラー４２０は好ましくは後に定義される式４．２６に従って好ましくは動作するが、心理音響効果に依存する他の実装も使用でき、トランジェントについて典型的に生じるプレマスキング特性に特に依存する。プレマスキングモデラー４２０は一方で特にプレマスキングタイプ音響効果に依存するマスクを計算するマスク推定器４１０により制御される。一実施例において、マスク推定器４１０は後に記述される式４．２１に従って動作するが、代わりに他のマスク推定器は心理音響プレマスク効果に依存して適用できる。

さらに、減衰器４３０は、プレエコー幅の開始で複数のフレーム上の減衰曲線を使用してプレエコーの低減または制限をフェードインするために使用される。この減衰曲線はあるフレームにおける現実の値によりおよび決定されたプレエコー閾値th_kにより好ましくは制御される。減衰器４３０は、プレエコー低減／制限がすぐに開始されるのではなくスムーズにフェードインされる旨を確認する。好ましい実装は式４．２０に関連して後に示されるが、他の減衰操作は同様に有用である。好ましくは、減衰器４３０は例えばプレエコー幅推定器２４０により決定されるようにプレエコー幅M_preにより制御される減衰曲線推定器４４０により制御される。後に議論される式４．１９に従って減衰曲線推定器の実施例が動作するが、他の実施例も同様に有用である。最後に、現実の値とともに、ある重みが時間周波数表現に適用されかつ特に好ましい平滑に続く特定の時間／周波数ビンに適用されるブロック４５０により決定できるように、ブロック４１０、４２０、４３０、４４０によるこれら全ての動作はある目標値を計算するのに有用である。

自然に、目標値はプレマスキング心理音響効果なしでかついかなる減衰もなしで決定できる。目標値はちょうど閾値th_kであるが、ブロック４１０、４２０、４３０、４４０により実行される特定の計算はスペクトルの重み３２０の出力信号における改良されたプレエコー軽減を生じることが見いだされた。

このように、プレエコー閾値以下の増幅度を有するスペクトル値が信号操作により影響されないように目標スペクトル値を決定することあるいはプレエコー領域のスペクトル値のダンピングがプレマスキングモデル４１０に基づき減少するようにプレマスキングモデル４１０,４２０を使用して目標スペクトル値を決定することは好ましい。

好ましくは、変換器１００内で実行されるアルゴリズムは時間周波数表現が複素スペクトル値を含むように行われる。しかしながら、一方、信号操作器はブロック３２０の操作に続いて振幅値のみ変化し、位相は操作前と同じように実数値スペクトル重み値を複素スペクトル値に適用するように構成される。

図５は図１の信号操作器１４０の好ましい実装を示す。特に、信号操作器１４０は２２０で示されたトランジェント位置の前で動作するプレエコー低減器／除去器またはブロック５００により示されたようにトランジェント位置の後で／トランジェント位置で動作するアタックアンプを含む。両ブロック２２０、５００はトランジェント位置推定器１２０により決定されたようにトランジェント位置により制御される。本願発明の第１の態様に従って、プレエコー低減器２２０は第１のサブ態様に対応し、ブロック５００は第２のサブ態様に対応する。両方の態様は互いに選択的に、すなわち、図５の破線で示されたように、他の態様なしで使用できる。しかしながら、他方、図５に示された特定の順序における両方の操作、すなわち、プレエコー低減器２２０が稼働しており、プレエコー低減器／除去器２２０の出力がアタックアンプ５００に入力されること、が使用されることが好ましい。

図６ａはアタックアンプ５００の好ましい実施例を示す。また、アタックアンプ５００はスペクトル重み計算機６１０および後続のスペクトル重み付け器６２０を含む。このように、信号操作器は時間周波数表現のトランジェントフレーム内の５００のスペクトル値を増幅し、好ましくは時間周波数表現内のトランジェントフレームに続く１つ以上のフレーム内のスぺクトル値を付加的に増幅するように構成される。

好ましくは、信号操作器１４０は最小周波数上のスペクトル値を増幅のみ行うように構成され、この最小周波数は２５０Ｈｚ以上２ｋＨｚ以下である。トランジェント位置の開始でのアタックは一般に信号の全高周波数範囲にわたって広がるので、増幅は上側境界周波数まで行える。

好ましくは、信号操作器１４０および、特に、図５のアタックアンプ５００は一方はトランジェント部分、他方は持続部分内でフレームを分割するための分割器６３０を含む。トランジェント部分はスペクトル重み付けをなされ、さらにスペクトル重み付けはトランジェント部分に関する情報に依存して計算される。次に、トランジェント部分のみがスペクトル的に重み付けられ、かつ一方で図６ｂにおけるブロック６１０,６２０の結果およびドライバ６３０による出力としての持続部分はアタックが増幅されるオーディオ信号を出力するための結合器６４０内で最終的に結合される。このように、信号操作器１４０はトランジェント位置での時間周波数表現を持続部分とトランジェント部分とに分割６３０し、好ましくは同様にトランジェント位置に続くフレームをさらに分割するように構成される。信号操作器１４０はトランジェント部分の増幅のみを行い持続部分の増幅または操作は行わないように構成されている。

上述したように、信号操作器１４０はブロック６８０により示されたようにフェードアウト特性６８５を使用して時間的にトランジェント位置に続く時間周波数表現の時間部分をも増幅するように構成されている。特に、スペクトル重み計算機６１０はフェードアウト曲線G_m６８５に関して一方ではトランジェント部分に関し他方では持続部分に関する情報を受信し、さらに好ましくはスペクトル値X_k,mに対応する増幅度に関する情報を受信する重み係数決定器６８０を含む。好ましくは、重み係数決定器６８０は後で説明される式４．２９に従って動作するが、トランジェント部分、持続部分およびフェードアウト特性６８５に関する情報による他の実施例が同様に使用される。

重み係数決定６８０に続いて、周波数にわたる平滑がブロック６９０において実行され、次に、ブロック６９０の出力において、個々の周波数値についての重み係数は時間／周波数表現をスペクトル的に重み付けするためにスペクトル重み付け器６２０により使用される用意がある。好ましくは、フェードアウト特性６８５の最大値により例えば決定されたように増幅された部分が決定され３００％と１５０％の間である。好ましい実施形態では、2.2の最大増幅率が使用され、これは、いくつかのフレームにわたって値１まで減少し、図１３－１７に示されるように、このような減少は、例えば、６０フレーム後に得られる。図１３－１７は指数関数的減衰の一種を示し、他の減衰、例えば線形減衰やコサイン減衰が同様に使用できる。

好ましくは、信号操作１４０の結果は図２ｄに示されたスペクトル時間変換器３７０を使用して周波数領域から時間領域に変換される。好ましくは、スペクトル時間変換器３７０は時間周波数表現の少なくとも２つの隣接フレームを含むオーバーラップ加算演算を適用するが、３または４フレームのオーバーラップが使用されるマルチオーバーラップ手順が同様に使用できる。

好ましくは、一方の変換器５５０および他方の他の変換器３７０は１ないし３ｍｓの間の同じホップサイズまたは２ないし６ｍｓの間のウィンドウ長を有する分析ウィンドウを適用する。さらに、好ましくは、一方ではオーバーラップ範囲、他方ではホップサイズ、または時間周波数変換器１００および周波数時間変換器３７０により適用されたウィンドウは互いに等しい。

図７は本願発明の第２の態様に従うオーディオ信号の後処理２０のための装置を示す。装置はオーディオ信号を一連のスペクトルフレームを含むスペクトル表現に変換するための時間スペクトル変換器７００を含む。さらに、スペクトルフレーム内の周波数にわたって予測についての予測フィルタデータを計算するための予測分析器７２０が使用される。周波数にわたって動作する予測分析器７２０はフレームについてのフィルタデータを生成しかつフレームのためのこのフィルタデータはスペクトルフレーム内のトランジェント部分を強化するための整形フィルタ７４０フレームにより使用される。整形フィルタ７４０の出力は整形されたスペクトルフレームを含む一連のスペクトルフレームを時間領域に変換するためのスペクトル時間変換器７６０に転送される。

好ましくは、一方では予測分析器７２０または他方では整形フィルタ７４０は明確なトランジェント位置検出なしに動作する。代わりにブロック７２０により適用された周波数にわたる予測によりおよびブロック７４０により生成されたトランジェント位置を強化するための整形によりオーディオ信号の時間エンベロープは特定のトランジェント検出なしにトランジェント部分が自動的に強化されるように操作される。しかしながら、場合によっては、ブロック７２０,７４０を明示的なトランジェント位置検出によってサポートして、非トランジェント部分でオーディオ信号に何らかのアーチファクトが加えられていないことを確認することもできる。

好ましくは、予測分析器７２０は図８ａに示されたようにフィルタ特性７４０ａを平坦化するための第１の予測フィルタデータ７２０ａおよびフィルタ特性７４０ｂを整形するための第２の予測フィルタデータ７２０ｂを計算するように構成される。特に予測分析器７２０は入力として一連のフレームの完全なフレームを受信し、平坦化されたフィルタデータ特性を得るか整形フィルタ特性を生成するかのために周波数にわたって予測分析のための操作を実行する。フィルタ特性の平坦化は最終的にＦＩＲ（有限インパルス応答）によって表わせる逆フィルタと類似するフィルタ特性であり、整形についての第２のフィルタデータは７４０ｂで示される合成またはＩＩＲフィルタ特性（ＩＩＲ＝有限インパルス応答）に対応する。

好ましくは、第２のフィルタデータ７２０ｂにより示された整形の程度は第１のフィルタデータにより示された平坦化７２０ａの度合いよりも大きく、その結果、両方の特性７４０ａ,７４０ｂを持つ整形フィルタの応用に続いて元の時間エンベロープよりも平坦度が小さい時間エンベロープにおいて生じる信号の一種の“オーバー整形”が得られる。これはまさにトランジェント強化に必要なものである。

図８ａは、２つの異なるフィルタ特性、１つの整形フィルタおよび１つの平坦化フィルタが計算される状況を示し、他の実施形態は、単一の整形フィルタ特性に依存する。これは、当然ながら、先行する平坦化を行わずに信号を整形することができ、最終的には、自動的に改善されたトランジェントを有するオーバー整形信号が再び得られるという事実に起因する。このオーバー整形の効果は、トランジェント位置検出器によって制御することができるが、このトランジェント位置検出器は、トランジェント部分よりも少ない非トランジェント部分に自動的に影響を与える信号操作の好ましい実施のために必要とされない。両方の手続は、周波数にわたる予測はオーディオ信号のトランジェント性質を強化するために操作された時間領域信号の時間エンベロープに関する情報を得るために予測分析器７２０により適用されるという事実に十分に依存する。

この実施例において、自己相関信号８００は図８ｂにおける８００で示されたスペクトルフレームから計算される。第１の時定数を有するウィンドウはブロック８０２に示されたようにブロック８００の結果をウィンドウ生成するために使用される。さらに、第１の時定数より大きい第２の時定数を有するウィンドウはブロック８０４に示されたようにブロック８００によって得られた自己相関信号をウィンドウ生成するために使用される。結果よりブロック８０２から得られた信号、第１の予測フィルタデータはレビンソン・ダービン(Levinson-Durbin)再帰を適用することにより好ましくはブロック８０６により示されたように計算される。同様に、第２の予測フィルタデータ８０８はより大きい時定数を有するブロック８０４から計算される。再び、ブロック８０８は好ましくは同じLevinson-Durbinアルゴリズムを使用する。

自己相関信号が２つの異なる時定数を有するウィンドウでウィンドウ処理されるという事実により、－自動的な－トランジェント強化が得られる。典型的に、ウィンドウ生成は異なる時定数信号の１つの信号のクラス上に影響を有するのみであるが、信号の他の信号のクラス上に影響をもたらさないようになされる。トランジェント信号は２つの異なる時定数により現実に影響される一方、非トランジェント信号は、第２の大きな時定数を用いてウィンドウ生成すると、第１の時定数を用いてウィンドウ生成するのとほぼ同じ出力が得られるような自己相関信号を有する。図１３および図１８に関しては、これは、非トランジェント信号が、大きい時間遅延においていかなる有意なピークも有さず、従って、２つの異なる時定数を使用しても、これらの信号に関していかなる差も生じないという事実に起因する。しかしながら、これはトランジェント信号とは異なる。トランジェント信号は、より大きいタイムラグでピークを持っているため、実際には、図１３および図１８の１３００で示されるようにより大きいタイムラグでピークを持つ自己相関信号に異なる時定数を適用し、例えば、異なる時定数を持つ異なるウィンドウ生成操作の異なる出力を生じる。

実装によれば、整形フィルタは多くの異なる方法により実装できる。１つの方法が図８ｃに示され、８０９で示されたように第１のフィルタデータ８０６により制御された一連の平坦化サブフィルタでありかつ８１０で示されたように第２のフィルタデータ８０８により制御される整形サブフィルタであり段階的に実装されたゲイン補償器８１１である。

しかしながら、２つの異なるフィルタ特性およびゲイン補償は１つの整形フィルタ７４０内で実装でき、整形フィルタ７４０の結合されたフィルタ特性は、一方では第１および第２のフィルタデータの両方に依存するフィルタ特性結合器８２０によって計算され、そしてさらに、他方では、最終的に同様に利得補償機能８１１も実装するために、第１のフィルタデータおよび第２のフィルタデータの利得に依存する。従って、結合フィルタが適用される図８ｄの実施形態に関して、フレームは単一の整形フィルタ７４０に入力され、出力は一方で両方のフィルタ特性を有し、他方でその上で実装されて利得補償機能を有する整形されたフレームである。

図８ｅは本願発明の第２の態様のさらなる実装を示し、図８ｄの結合整形フィルタ７４０の機能は図８ｃと一致して示されているが、図８ｅは現実に３つの分離ステージ８０９,８１０,８１１の実装であり得るが、同時に、分子と分母を備えたフィルタ特性を持つ単一のフィルタを使用して実際に実装される論理表現として見ることができ、分子は逆／平坦化フィルタ特性を有し分母は合成特性を有し、さらに後で決定される式４．３３に示すように、ゲイン補償が含まれる。

図８ｆは、図８ｂのブロック８０２,８０４によって得られたウィンドウ化の機能性を示し、ここで、r (k) は自己相関信号であり、w_lagはウィンドウ、r'(k) はウィンドウ化の出力、すなわち、ブロック８０２,８０４の出力であり、さらに、最後に、ウィンドウ関数が例示的に示されており、これは、図８ｆのａについてのある値を使用することによって設定され得る、二つの異なる時定数を有する指数関数減衰フィルタを表す。

このように、Levinson-Durbin再帰に先行する自己相関値にウィンドウを適用することは、局所時間的ピークでの時間サポートの拡張を生じる。特に、ガウス窓を使用する拡張は、図８ｆに示されている。ここでの実施形態は、異なる値４ａの選択を介して後続の整形フィルタよりも局所非平坦エンベロープでの時間サポートのより大きな拡張を有する時間平坦化フィルタを導出するというアイデアに依存する。これらのフィルタを一緒に使用すると、信号の時間的なアタックがシャープになる。その結果、フィルタリングされたスペクトル領域のスペクトルエネルギーが保存されるように、フィルタの予測利得に対する補償が存在する。

このように、アタック整形に基づく周波数領域ＬＰＣの信号フローが図８ａから図８ｅまでに示されるように得られる。

図９は図９におけるブロック１００から３７０までに示された第１の態様と続いて、ブロック７００から７６０に示された続いて実行される第２の態様との両方に依存する実施例の好ましい実装を示す。好ましくは、第２の態様は例えば５１２のフレームサイズで５０％オーバーラップする大きなフレームサイズを使用する分離時間スペクトル変換に依存する。他方、第１の態様はトランジェント位置検出のためのより良い時間解像度を持つための小さいフレームサイズに依存する。この種の小さいフレームサイズは、例えば１２８サンプルのフレームサイズで５０％オーバーラップする。しかしながら、一般的に、フレームサイズのアスペクトがより大きい(時間分解能は低いが周波数分解能は高い)一方、第１のアスペクトの時間分解能が対応するより低い周波数分解能でより高い第１のアスペクトと第２のアスペクトに対して別々の時間スペクトル変換を使用することが好ましい。

図１０ａは図１のトランジェント位置推定器１２０の好ましい実装を示す。トランジェント位置推定器１２０は従来技術として実装できるが、好ましい実施例において、最終的にフレームにおけるトランジェント開始の存在を示す各フレームの２進値が得られるように検出関数計算機１０００および後に接続された開始ピッカーに依存する。

検出関数計算機１０００は図１０ｂに示されたいくつかのステップに依存する。これらはブロック１０２０においてエネルギー値の合計である。ブロック１０３０において時間エンベロープの計算が実行される。続いて、ステップ１０４０において各バンドパス信号時間エンベロープのハイパスフィルタリングが実行される。ステップ１０５０において周波数方向におけるハイパスフィルタ結果信号の合計が実行され、ブロック１０６０において最終的に検出関数が得られるように、時間的ポストマスキングについてのアカウントが実行される。

図１０ｃはブロック１０６０により得られたように検出機能から開始ピッキングの好ましい方法を示す。ステップ１１１０において、極大値（ピーク）は検出機能（function）において発見される。ブロック１１２０において、閾値比較は或る最小閾値上であるさらなる遂行についてピークを保つだけのために遂行される。

ブロック１１３０において、各ピークの周囲の領域はこの領域から関連するピークを決定するためにより大きなピークについてスキャンされる。ピークの周囲の領域はピークの前の多くのl_bフレームおよびピークの後の多くのl_aフレームを拡張する（extends）。

ブロック１１４０において、最終的にトランジェント開始フレームインデックスm_iが決定されるように閉じたピークが廃棄される。

続いて、提案されたトランジェント強化方法において利用される技術的および聴覚的概念が開示される。最初に、選択されたフィルタリング操作と線形予測に関するいくつかの基本的なデジタル信号処理技術を紹介し、次にトランジェントの定義を行う。次に、オーディオコンテンツの知覚符号化において利用される音響マスキングの心理音響概念が説明される。この部分は本願発明による強化方法の対象となる汎用知覚オーディオコーデックおよび誘導された圧縮アーチファクトの短い説明と近い。

線形予測
線形予測（ＬＰ）はオーディオのエンコードのために有用な方法である。いくつかの過去の研究は音声生成過程[11, 12, 13]をモデル化できる能力を部分的に記述する一方、他は一般にオーディオ信号の分析のためにそれを適用する[14, 15, 16, 17] 。次のセクションは[11, 12, 13, 15, 18]に基づく。

時間および周波数領域におけるエンベロープ評価
フィルタ係数が時間信号上で計算された場合、ＬＰＣフィルタの重要な特徴は、周波数領域における信号の特徴をモデル化するその能力である。時系列の予測と同等で、線形予測はシーケンスのスペクトルを近似する。予測次数に依存してＬＰＣフィルタは信号周波数応答のより詳細なあるいはあまり詳細でないエンベロープを計算するのに使用できる。以下のセクションは[11, 12, 13, 14, 16, 17, 20, 21]に基づく。

トランジェント
文字通り、トランジェントの多くの異なる定義が見いだせる。ある人はそれを開始またはアタック［22、23、24、25］と呼ぶが、他の人はこれらの用語を使ってトランジェントを説明する［26、27］。このセクションはトランジェントを定義しこの開示の目的についてそれらを特徴付ける異なるアプローチを記述することを目的とする。

MasriおよびBateman[28]はトランジェントをトランジェントの開始の前後の信号セグメントは非相関性が高い信号時間エンベロープ内における急激な変化として記述する。打楽器のトランジェント事象を含む狭い時間フレームの周波数スペクトルはしばしば図２．７（ｂ）におけるカスタネットトランジェントのスペクトログラムに見られる全周波数にわたって大きなエネルギーバーストを示す。他の文献[23,29,25]はいくつかの隣接する周波数帯域において同時に出現するエネルギーの激しい増加を伴って時間フレームに対応する信号の時間周波数表現におけるトランジェントをも特徴付ける。RodetおよびJaillet[25]はさらに信号の全体的なエネルギーは主に低周波領域に集中しているため、このエネルギーの急激な増加はより高い周波数で特に顕著であると述べている。

Suresh Babuら[27]はさらにアタックトランジェントと周波数領域トランジェントとの間を区別する。これらは、前述のように、時間領域のエネルギー変化ではなく、隣接する時間フレーム間のスペクトルエンベロープの急激な変化によって周波数領域のトランジェントを特徴付ける。これらの信号事象は例えばバイオリンのような湾曲した楽器や人の会話により提供された音のピッチを変化することにより生成できる。図１２－７はアタックトランジェントおよび周波数領域トランジェントの間の相違を示す。(c)における信号はバイオリンにより生成されたオーディオ信号を表す。垂直破線は存在する信号のピッチ変化の瞬間、すなわち新たなトーンの開始や周波数領域トランジェントをそれぞれ示す。(a)のカスタネットによるアタックトランジェントとは対照的に、この新しいノートの開始は、信号振幅の顕著な変化を引き起こさない。スペクトル内容のこの変化の瞬間は(d)におけるスペクトログラムに見ることができる。しかしながら、トランジェントの前後のスペクトルの相違は一方は前の時間フレームのスペクトルであり他方は周波数領域トランジェントの開始後の図１２－７（ｃ）におけるバイオリン信号の２つのスペクトルを示す図２．８においてより明白である。ハーモニック成分は２つのスペクトルの間で異なることが際立つ。しかしながら、周波数領域トランジェントの知覚符号化はこの論文に示される復元アルゴリズムにより対処されかつそれ故無視される。これ以降、トランジェントという言い回しはアタックトランジェントのみを表すように使用される。

トランジェント、開始およびアタックの相違
トランジェント、開始およびアタックの概念の間の相違は、この論文に採用されるBelloら[26]に見出すことができる。これらの語句の相違はカスタネットにより生成されるトランジェント信号の例を使用して図１２－９に示される。
・一般に、トランジェントの概念は依然著者らにより包括的に定義されていないが、それらは区別可能な瞬間よりも短い瞬間として特徴付けている。このトランジェント周期において信号の増幅は相対的に予測不能な方法で急速に立ち上がる。しかしながら、それは、増幅後のトランジェントの終了がそのピークに達するところで正確に定義されない。それらのかなり非公式な定義において、増幅減衰の部分をトランジェント間隔に含む。この特性評価により、アコースティック楽器はトランジェントを生成し、その間、それらは励起し（例えば、ギターの弦が弾かれたり、スネアドラムが叩かれたとき）、その後、減衰する。この最初の減衰の後、次のより遅い信号減衰は、楽器本体の共振周波数によってのみ引き起こされる。
・開始は、信号の振幅が上昇し始める瞬間である。この文献について、開始はトランジェントの開始時間として定義される。
・トランジェントのアタックは増幅度が増大する間の開始とピークとの間のトランジェント内の期間である。

心理音響学
このセクションでは、知覚オーディオ符号化と、後で説明するトランジェント強化アルゴリズムで使用される心理音響概念への基本的な入門を提供する。心理音響学の目的は、“音響信号の測定可能な物理的特性と、これらの音響が聴取者に呼び起こす内部知覚”との関係を記述することである[32]。人間の聴覚には限界があり、オーディオコンテンツの符号化プロセスで知覚オーディオ符号化器がこれを活用して、符号化されたオーディオ信号のビットレートを大幅に低減できる。知覚的オーディオ符号化の目標は、デコードされたオーディオ信号が元の信号に正確にまたはできるだけ近く聞こえるようにオーディオ素材をエンコードすることであるが[1]、それでもいくつかの可聴符号化アーチファクトが生じる可能性がある。これらのアーティファクトの起源を理解するために必要な背景と、知覚オーディオ符号化器によって使用される心理音響モデルがこのセクションでどのように提供されるかを説明する。読者は、心理音響学に関するより詳細な説明について[33、34]を参照されたい。

同時マスキング
同時マスキングとは、両方の音の周波数が近い場合に、強い音（マスカー）が同時に聞こえると、１つの音（マスキー）が人間の聞き手に聞こえない心理音響現象を指す。この現象を説明するために広く使用されている例は、道路脇の２人の間の会話である。干渉するノイズがないため、お互いを完全に知覚できるが、車やトラックが通過する場合は、お互いを理解し続けるために、声量を上げる必要がある。

同時マスキングの概念は、人間の聴覚システムの機能を調べることで説明できる。プローブ音が聴取者に提示されると、蝸牛内の基底膜（BM）に沿って進行波を誘発し、楕円形のウィンドウの基部から端の頂点まで広がる[17]。楕円形のウィンドウから始まり、進行波の垂直変位は最初ゆっくりと上昇し、特定の位置で最大値に達し、その後急激に低下する[33、34]。最大変位の位置は、刺激の周波数に依存する。BMは、ベースで狭くて硬く、頂点で約３倍広くて硬くない。このように、BMに沿ったすべての位置は特定の周波数に最も敏感であり、高周波信号成分はベースの近くで最大変位を引き起こし、BMの頂点の近くで低周波数を引き起こす。この特定の周波数は、しばしば特性周波数（CF）と呼ばれる[33、34、35、36]。このように、蝸牛は、聴覚フィルタと呼ばれる非対称周波数応答を持つ非常にオーバーラップし合ったバンドパスフィルタのバンクを備えた周波数分析器と見なすことができる[17、33、34、37]。これらの聴覚フィルタの通過帯域は、臨界帯域幅と呼ばれる不均一な帯域幅を示す。臨界帯域の概念は、最初に[38、39] 1933年にFletcherによって導入された。彼は、ノイズ信号と同時に提示されるプローブ音の可聴性は、プローブ音に周波数が近いノイズエネルギーの量にのみ依存すると推測した。この周波数領域の信号対雑音比（SNR）が特定のしきい値を下回る場合、つまりノイズ信号のエネルギーがプローブ音のエネルギーよりもある程度高い場合、プローブ信号は人間の聴者には不可聴となる[17、33、34]。しかしながら、同時マスキングは１つの単一の臨界帯域内でのみ発生するわけではない。実際、臨界帯域のCFにあるマスカーは、この臨界帯域の境界の外側にあるマスキーの可聴性にも影響を及ぼすが、その程度はそれほど大きくはない[17]。同時マスキング効果を図１２－１０に示す。破曲線は、“他の音がない場合に人間の聴者が狭帯域音を検出するために必要な最小音圧レベルを説明する”静かな状態でのしきい値を表す[32]。黒い曲線は、暗い灰色のバーとして描かれた狭帯域ノイズマスカーに対応する同時マスキング閾値である。音圧レベルがマスキーの特定の周波数での同時マスキング閾値よりも小さい場合、プローブ音（薄い灰色のバー）はマスカーによってマスクされる。

時間マスキング
マスキングは、マスカーとマスキーが同時に提示される場合だけでなく、時間的に分離されている場合にも有効である。プローブ音は、マスカーが存在する期間の前後にマスクすることができ[40]、これは、プレマスキングおよびポストマスキングと呼ばれる。時間的なマスキング効果の図を図２．１１に示す。マスキング音の開始前にプレマスキングが行われ、マスキング音は、t の負の値に対して示される。プレマスキング期間の後、同時マスキングが有効になり、マスカーがオンになった直後にオーバーシュート効果があり、同時マスキング閾値が一時的に増加する[37]。マスカーがオフになった後（t の正の値を示す）、ポストマスキングが有効になる。プレマスキングは、提示された音の知覚を生成するために聴覚システムが必要とする統合時間で説明できる[40]。さらに、より大きな音は、より弱い音よりも聴覚システムによってより速く処理される[33]。プレマスキングが発生する期間は、特定の聴者のトレーニング量に大きく依存し[17, 34] 、最大20ミリ秒[33]持続するが、マスカー開始前の1～5ミリ秒の期間でのみ重要である[17, 37] 。ポストマスキングの量は、マスカーとプローブ音の両方の周波数、マスカーのレベルと持続時間、およびプローブ音とマスカーがオフになる瞬間の間の期間に依存する[17, 34]。Moore[34]によると、ポストマスキングは少なくとも20ミリ秒間有効であり、他の研究では約200ミリ秒までのさらに長い持続時間を示す[33]。さらに、PainterとSpaniasは、ポストマスキングは「マスカーとプローブの周波数関係が変化したときに観察できる同時マスキングと同様の周波数依存の動作も示す」と述べている[17, 34]。

知覚オーディオ符号化
知覚オーディオ符号化の目的はオーディオ信号を、結果として生じるビットレートが元のオーディオと比較して可能な限り小さくなるが、再構成された（復号化された）信号が非圧縮信号[1, 17, 32, 37, 41, 42]と区別されるべきでない透過的な音質を維持するように圧縮することである。これは人間の聴覚システムのいくつかの制限を利用して入力信号から冗長かつ無関係な情報を除去することで行われる。冗長性は例えば後続の信号サンプル、スペクトル係数または異なる音声チャンネル間の相関を利用することによりおよび適当なエントロピー符号化により除去できる一方、非相関性はスペクトル係数の量子化により処理することが可能である。

知覚オーディオ符号化器の一般的構造
モノラル知覚オーディオ符号化器の基本的構造は、図１２－１２に描かれている。最初に、入力オーディオ信号は分析フィルタバンクを適用することで周波数領域表現に変換される。このようにして、受信したスペクトル係数を「周波数成分に応じて」選択的に量子化することができる[32]。量子化ブロックはスペクトル係数の連続値を値の離散セットにまるめて符号化オーディオ信号におけるデータ量を削減する。このようにして、復号化器において元の信号の正確な値を再構成することは不可能であるので、圧縮は非可逆となる。この量子化誤差の導入は量子化雑音として言及される付加雑音信号とみなすことができる。量子化は、各分析ウィンドウにおける各スペクトル係数について時間および同時マスキング閾値を計算する知覚モデルの出力により導かれる。静寂下における絶対的閾値は“１６ビット整数値における±１最下位ビットのピークの大きさを有する４ｋＨｚの信号がヒアリングでの絶対的閾値である”[31]ことを仮定することにより利用することも可能である。ビット割当てブロックにおいて、これらのマスキング閾値は含まれる量子化雑音が人間の聴者が非可聴になるように必要なビットの数を決定するのに使用される。さらに、計算されたマスキング閾値を下回るスペクトル係数（およびそれ故人間の聴覚上の認識に無関係である）は送信されるべき必要がなく０に量子化できる。量子化されたスペクトル係数は従って信号データにおける冗長性を削減する（例えばハフマン符号化または算術符号化により）エントロピー符号化される。最終的に符号化オーディオ信号のみならず量子化スケール係数に類似の付加サイド情報は単一ビットストリームを形成するようにマルチプレックスされ、レシーバに送信される。レシーバ側でのオーディオ復号化器（図１２－１３参照）は入力ビットストリームをデマルチプレックスすることにより逆演算を行い、スケール係数を転送するとともにスペクトル値を再構成し、合成フィルタバンクをエンコーダの分析フィルタバンクに相補的に適用し、結果物としての出力時間信号を再構成する。

トランジェント符号化アーチファクト
復号化オーディオ信号の透過サウンド品質を生成するための知覚オーディオ符号化の目標にもかかわらず、それは依然可聴アーチファクトを示す。トランジェントの認識された品質に影響するこれらのアーチファクトのいくつかは後述する。

バーディーと帯域幅の制限
オーディオ信号ブロックの量子化について提供するために、ビット割当てプロセスについて利用できるビットの量は限られている。１つのフレームのビット要求が高すぎる場合、いくつかのスペクトル係数をゼロに量子化することにより削除できる[1、43、44]。これは、本質的に一部の高周波コンテンツの一時的な損失を引き起こし、主に低ビットレートコーディングの場合、または非常に要求の厳しい信号、たとえば頻繁なトランジェント事象を伴う信号を処理する場合に問題になる。ビットの割当てはブロックごとに異なるため、スペクトル係数の周波数成分は１つのフレームで削除され、次のフレームに存在する場合がある。誘導されたスペクトルのギャップは“バーディー”と呼ばれ、図２．１４の下側の図で見ることができる。特に、トランジェントのエンコードは、これらの信号部分のエネルギーが周波数スペクトル全体に拡散するため、バーディアーチファクトを生成する傾向がある。一般的なアプローチは、エンコード処理の前にオーディオ信号の帯域幅を制限し、ＬＦコンテンツの量子化に利用可能なビットを節約することであり、これは図２．１４の符号化信号でも示されている。このトレードオフは、一般に許容される帯域幅の一定の損失よりも、バーディーが知覚される音質に大きな影響を与えるため、適している。しかしながら、帯域幅の制限があっても、依然バーディーが発生する可能性はある。後で説明するトランジェント強化方法自体は、スペクトルギャップの修正や符号化信号の帯域幅の拡大を目的とするものではないが、高周波の損失はエネルギーの減少とトランジェントアタックの劣化を引き起こし（図１２－１５を参照）、これは、後で説明するアタック強化方法の対象である。

プレエコー
他の共通の圧縮アーチファクトはいわゆるプレエコーである[1, 17, 20, 43, 44]。プレエコーは、信号ブロックの終わり近くで信号エネルギーの急激な増加（すなわちトランジェント現象）が発生した場合に発生する。トランジェント信号部分に含まれる実質的なエネルギーは広範囲の周波数に分散され、これにより心理音響モデルで比較的高いマスキングしきい値が推定され、スペクトル係数の量子化に数ビットのみが割当てられる。その後、追加された大量の量子化ノイズは、復号化プロセスで信号ブロックの期間全体に広がる。定常信号の場合、量子化ノイズは完全にマスクされていると見なされるが、トランジェントを含む信号ブロックの場合、量子化ノイズはトランジェント開始に先行し、“プレマスキング[...]期間を超えて延長する場合”[1]トランジェント開始に先行して聞こえる可能性がある。プレエコーを扱ういくつかの提案された方法があるが、これらのアーチファクトは依然現在の研究の対象となる。図１２－１６は、カスタネットトランジェントについてのプレエコーアーチファクトの例を示す。点線の黒い曲線は、トランジェント開始前に実質的な信号エネルギーがない元の信号の波形である。従って、符号化された信号のトランジェントに先行する誘導プレエコー（灰色の曲線）は同時にマスクされず、元の信号と直接比較しなくても知覚できる。プレエコーノイズの補足的な低減のために提案された方法は、後に提示される。

過去数年にわたって提案されたトランジェントの品質を強化するいくつかのアプローチが存在する。これらの強化方法は、オーディオコーデックに統合された方法と、デコードされたオーディオ信号に関する後処理モジュールとして機能する方法に分類できる。以前の研究の概観およびトランジェント強化のみならずトランジェント事象の検出に関する方法は以下に示される。

他の検出方法は、信号波形の予測可能性を使用して、トランジェントと定常状態の信号部分とを区別するために、時間領域での線形予測に基づいている[45]。線形予測を使用する１つの方法は、２００６年にLeeとKuo [46]によって提案された。入力信号をいくつかのサブバンドに分解して、結果の各狭帯域信号の検出関数を計算する。検出関数は、式（２．１０）に従って逆フィルタで狭帯域信号をフィルタリングした後の出力として取得される。後続のピーク選択アルゴリズムは、結果の予測誤差信号の極大値を各サブバンド信号の開始時間候補として決定し、それを使用して広帯域信号についての単一のトランジェント開始時間を決定する。

トランジェント検出
実施例において、トランジェントの強化についての方法は常に信号を修正するよりもトランジェント事象にもっぱら適用される。従って、トランジェントの瞬間が検出される。この作業のためにトランジェント検出方法が実装され、個々のオーディオ信号が別々に調整される。これは、このセクションで後述するトランジェント検出方法の特定のパラメータとしきい値とが、特定のサウンドファイルごとに特別に調整され、トランジェント信号部分の最適な検出が行われることを意味する。この検出の結果は各フレームについての２進値であり、トランジェント開始の存在を示す。

実装されたトランジェント検出方法は２つの分離したステージに分割できる。好適な検出機能の計算およびその入力信号として検出機能を使用する開始ピッキング方法である。トランジェント検出のリアルタイム処理アルゴリズムへの組込みについて後続のプレエコー低減方法が検出されたトランジェント開始に先行する時間間隔において動作するので、適切な先読みが必要である。

プレエコー低減
この強化ステージの目的はトランジェントの開始前の或る期間において可聴であるプレエコーとして知られる符号化アーチファクトを低減することである。プレエコー低減アルゴリズムの概観は図４．４において示される。プレエコー低減ステージは入力信号としてＳＴＦＴ分析X_k,m（１００）後の出力のみならず以前に検出されたトランジェント開始フレームインデックスm_iを得る。最悪の場合、プレエコーはトランジェント事象の前に（コーデックサンプリングレートにかかわらず２０４８サンプルである）エンコーダ側で長いブロック分析ウィンドウの長さまでに開始する。ウィンドウの時間間隔は特定のエンコーダのサンプリング周波数に依存する。最悪の場合のシナリオに関し、８ｋHｚの最小コーデックサンプリング周波数が仮定される。復号化されリサンプリングされた入力信号s_nについて４４．１ｋHzのサンプリングレートで長い分析ウィンドウの長さ（およびそれゆえにプレエコー領域のポテンシャル範囲）は時間信号s_nのN_long = 2048・44.1 kHz/8 kHz = 11290サンプル（または256 ms）に対応する。この章で記述された強化方法は時間周波数表現X_k,m上で機能するので、N_longはM_long = ( N_long - L)/( N - L) = (11290 -64)/ (128 -64) = 176フレームに変換されるべきである。NおよびLは図１３－１におけるフレームサイズおよびＳＴＦＴ分析ブロック（１００）のオーバーラップである。M_longはプレエコー幅の上側境界としてセットされ、かつ検出されたトランジェント開始フレームm_iの前のプレエコー開始フレームについてサーチ領域を制限するために使用される。この作業について、リサンプリングの前の復号化された信号のサンプリングレートが検証データ（ground truth）として得られ、プレエコー幅についての上側境界がエンコードs_nに使用された特定のコーデックに適合される。

プレエコーの現実の幅を評価する前に、トランジェントに先行するトーン周波数成分が検出される（２００）。その後、プレエコー幅がトランジェントフレームの前のM_longフレームの領域内で決定（２４０）される。この評価とともにプレエコー領域における信号エンベロープについての閾値が計算（２６０）でき、その大きさの値がこの閾値を超えるこれらのスペクトル係数におけるエネルギーを減少させる。最終的なプレエコー低減について、X_k,mのプレエコー領域要素ごとに乗算される各ｋおよびｍについての乗算係数を含むスペクトル重みマトリクスが計算される（４５０）。

トランジェントに先行するトーン信号成分の検出
次のサブセクションで説明するように、トランジェント開始前のトーン周波数成分に対応する後続の検出されたスペクトル係数は、次のプレエコー幅の推定に使用される。プレエコーアーチファクトは現在のトーン成分によってマスクされる可能性が高いため、これらのトーンスペクトル係数のエネルギー削減をスキップするために、次のプレエコー削減アルゴリズムでそれらを使用することも有益である。しかしながら、場合によっては、トーン係数のスキップにより、検出されたトーン周波数の近くのいくつかの周波数で可聴エネルギーが増加するという形で追加のアーチファクトが導入されるため、この実施形態におけるプレエコー低減方法ではこの方法は省略されている。

図１３－６は、プレエコー推定方法の概略図を示す。推定方法は、誘導されたプレエコーがトランジェントの開始前に時間エンベロープの振幅を増加させるという仮定に従う。これは、図１３－６の２つの垂直破線の間の領域に示されている。符号化されたオーディオ信号の復号化プロセスでは、量子化ノイズは合成ブロック全体に均等に拡散されるのではなく、使用される窓関数の特定の形式によって整形される。従って、誘導されたプレエコーは、振幅の急激な増加ではなく、緩やかな上昇を引き起こす。プレエコーの開始前に、信号には無音または前に発生した別の音響事象の持続部分のような他の信号成分が含まれている場合がある。そのため、プレエコー幅推定法の目的は、信号振幅の上昇が、誘導された量子化雑音、つまりプレエコーアーチファクトの開始に対応する時点を見つけることである。

トランジェントアタックの強化
このセクションで議論された方法は低下したトランジェントアタックを強化するとともにトランジェント事象の増幅を強調することが目的である。

特に第２の態様に関するさらなる実施例は、以下に開示される。

１．オーディオ信号を後処理（２０）するための装置であって、オーディオ信号を一連のスペクトルフレームを含むスペクトル表現に変換するための時間スペクトル変換器（７００）と、
スペクトルフレーム内の周波数上の予測のための予測フィルタデータを計算するための予測分析器（７２０）と、
スペクトルフレームを整形して前記スペクトルフレーム内でトランジェント部分を強調するための予測フィルタデータにより制御される整形フィルタ（７４０）と、
整形されたスペクトルフレームを含む一連のスペクトルフレームを時間領域に変換するためのスペクトル時間変換器（７６０）とを含む。

２．実施例１に記載の装置において、前記予測分析器（７２０）は、フィルタ特性（７４０ａ）を平坦化するための第１の予測フィルタデータ（７２０ａ）およびフィルタ特性（７４０ｂ）を整形するための第２の予測フィルタデータ（７２０ｂ）を計算するように構成されている。

３．実施例２に記載の装置において、前記予測分析器（７２０）は、第１の時定数を使用して前記第１の予測フィルタデータ（７２０ａ）を計算し、前記第１の時定数より大きい第２の時定数（７２０ｂ）を使用して第２の予測フィルタデータを計算するように構成されている。

４．実施例２または３に記載の装置において、前記平坦化フィルタ特性（７４０ａ）は、スペクトルフレームに適用されるとき、前記スペクトルフレームの時間エンベロープに比べてより平坦な時間エンベロープを有する修正されたスペクトルフレームをもたらす分析ＦＩＲフィルタ特性または全零フィルター特性であるかあるいは、
前記整形フィルタ特性（７４０ｂ）は、スペクトルフレームに適用されるとき、前記スペクトルフレームの時間エンベロープに比べてより平坦度の少ない時間エンベロープを有する修正されたスペクトルフレームをもたらす合成ＩＩＲフィルタ特性または全極フィルタ特性である。

５．先行する実施例の１つに記載の装置において、
前記予測分析器（７２０）は、
前記スペクトルフレームから自己相関信号を計算（８００）し、
第１の時定数または前記第１の時定数より大きい第２の時定数を有するウィンドウを使用して自己相関信号にウィンドウ（８０２,８０４）をかけ、
前記第１の時定数を使用して窓かけされた窓かけされた自己相関信号から第１の予測フィルタデータを計算（８０６,８０８）するかあるいは前記第２の時定数を使用して窓かけされた窓かけされた自己相関信号から第２の予測フィルタ係数を計算するように構成され、かつ
前記整形フィルタ（７４０）は前記第２の予測フィルタ係数または前記第２の予測フィルタ係数および前記第１の予測フィルタ係数を使用する前記スペクトルフレームを整形するように構成されている。

６．先行する実施例の１つに記載の装置において、
前記整形フィルタ（７４０）は直列接続された２つの制御可能なサブフィルタ（８０９，８１０）を含み、前記第１のサブフィルタ（８０９）は平坦化フィルタ特性を有する平坦化フィルタであり、第２のサブフィルタ（８１０）は整形フィルタ特性を有する整形フィルタであり、
前記サブフィルタ（８０９，８１０）は前記予測分析器（７２０）により導出される前記予測フィルタデータによりともに制御されるか、あるいは
前記整形フィルタ（７４０）は平坦化特性および整形特性を組み合わせる（８２０）ことにより導出される混合されたフィルタ特性を有するフィルタであり、
前記混合された特性は前記予測分析器（７２０）から導出された前記予測フィルタデータにより制御される。

７．実施例６に記載の装置において、
前記予測分析器（７２０）は、前記整形フィルタ（７４０）のための予測フィルタデータが前記平坦化フィルタ特性についての前記予測フィルタデータを使用することで得られる平坦化度合いよりも高い整形度合いを生じるように前記予測フィルタデータを決定するように構成される。

８．先行する実施例の１つに記載の装置において、
前記予測分析器（７２０）は前記スペクトルフレームから導出されるフィルタリングされた自己相関信号にLevinson-Durbinのアルゴリズムを適用する（８０６，８０８）ように構成されている。

９．先行する実施例の１つに記載の装置において、
前記整形フィルタ（７４０）は整形されたスペクトルフレームのエネルギーが時間スペクトル変換器（７００）により生成された前記スペクトルフレームエネルギーに等しいか前記スペクトルフレームのエネルギーの±２０％の許容差範囲内であるようにゲイン補償を適用するように構成されている。

１０．先行する実施例の１つに記載の装置において、
前記整形フィルタ（７４０）は、平坦化ゲインを有する平坦化フィルタ特性（７４０ａ）および整形ゲインを有する整形フィルタ特性（７４０ｂ）を適用するように構成されており、かつ
前記整形フィルタ（７４０）は、平坦化ゲインおよび整形ゲインの影響を補償するためのゲイン補償を行うように構成されている。

１１．実施例６に記載の装置において、
前記予測分析器（７２０）は平坦化ゲインおよび整形ゲインを計算するように構成されており、
前記直列接続された前記２つの制御可能なサブフィルタ（８０９，８１０）は、分離ゲイン段（８１１）または前記平坦化ゲインおよび／または前記整形ゲインから導出されたゲインを適用するための前記２つのサブフィルタの少なくとも１つに含まれたゲイン機能をさらに含むか、あるいは
組合された特性を有する前記フィルタ（７４０）は、前記平坦化ゲインおよび／または前記整形ゲインから導出されたゲインを適用するように構成されている。

１２．実施例５に記載の装置において、
前記ウィンドウは、パラメータとしてのタイムラグを有するガウス窓を含む。

１３．先行する実施例の１つに記載の装置において、
前記予測分析器（７２０）は、前記予測フィルタデータにより制御された前記整形フィルタ（７４０）がトランジェント部分を含む前記複数のフレームのための信号操作を実行するように、かつ
前記整形フィルタ（７４０）が、トランジェント部分を含まない前記複数のフレームのうちの更に他のフレームについては、前記フレームに対する信号操作を実行しないか、前記フレームに対する信号操作よりも小さい信号操作を実行するように、
複数のフレームについて前記予測フィルタデータを計算するように構成されている。

１４．先行する実施例の１つに記載の装置において、
前記スペクトル時間変換器（７６０）は、前記スペクトル表現の少なくとも２つの隣接したフレームを含むオーバーラップ加算操作を適用するように構成されている。

１５．先行する実施例の１つに記載の装置において、
前記時間スペクトル変換器（７００）は、３ないし８ｍｓ間のホップサイズまたは６ないし１６ｍｓ間のウインドウ長を有する分析ウィンドウを適用するように構成されるか、あるいは、
前記スペクトル時間変換器（７６０）は、重畳するウィンドウの重畳の大きさや、３ないし８ｍｓの間の変換器が使用するホップの大きさに対応する重畳範囲を使用するか、６ないし１６ｍｓの間のウインドウ長を有する合成ウインドウを使用するか、前記分析ウインドウと前記合成ウインドウとが同一であるように構成されている。

１６．実施例２または３に記載の装置において、
平坦化フィルタ特性（７４０ａ）は、前記スペクトルフレームに適用されたとき、前記スペクトルフレームの時間エンベロープと比較してフラッター時間エンベロープを有する修正スペクトルフレームをもたらす逆フィルタ特性である、あるいは
前記整形フィルタ特性（７４０ｂ）は、前記スペクトルフレームに適用されたとき、前記スペクトルフレームの時間エンベロープと比較して少ない平坦化時間エンベロープを有する修正スペクトルフレームをもたらす合成フィルタ特性である。

１７．先行する実施例の１つに記載の装置において、
前記予測分析器（７２０）は、整形フィルタ特性（７４０ｂ）についての予測フィルタデータを計算するように構成され、かつ前記整形フィルタ（７４０）は前記時間スペクトル変換器（７００）により例えば前述の平坦化を行うことなく得られるように構成されている。

１８．先行する実施例の１つに記載の装置において、
前記整形フィルタ（７４０）は最大時間分解能以下の前記スペクトルフレームの時間エンベロープに従う整形動作を表すように構成され、かつ前記整形フィルタ（７４０）は前記整形動作に関連する前記時間分解能よりも小さい時間分解能に従って平坦化動作なしまたは平坦化動作を表すように構成されている。

１９．オーディオ信号を後処理する（２０）ための方法であって、
前記オーディオ信号を一連のスペクトルフレームを含むスペクトル表現に変換する（７００）ステップと、
スペクトルフレーム内の周波数上の予測についての予測フィルタデータを計算する（７２０）ステップと、
前記予測フィルタデータに応答して整形し（７４０）、前記スペクトルフレーム内のトランジェント部分を強調するステップと、
整形されたスペクトルフレームを含む一連のスペクトルフレームを時間領域に変換する（７６０）ステップとを含む。

２０．コンピュータまたはプロセッサ上で実行されるとき、請求項１９の方法を実行するためのコンピュータプログラムである。

いくつかの態様は装置の文脈で説明されたが、これらの態様は対応する方法の説明も表し、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で説明される態様は、対応するブロックまたはアイテムまたは対応する装置の特徴の説明も表す。

特定の実装要件に応じて、本願発明の実施形態は、ハードウェアまたはソフトウェアで実装することができる。実装は、それぞれの方法が実行されるように、プログラム可能なコンピューターシステムと連携することができるデジタル記憶媒体、たとえば記憶され電気的に可読な制御信号を有するフロッピーディスク（登録商標）、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実行できる。

本願発明によるいくつかの実施形態は、本明細書に記載の方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読取り可能な制御信号を有するデータキャリアを含む。

一般に、本願発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の１つを実行するように動作する。プログラムコードは、例えば、機械読み取り可能なキャリアに保存されてもよい。

他の実施形態は、機械可読キャリアまたは非一時的記憶媒体に記憶された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

換言すれば、本願発明の方法の実施形態は、それ故、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

従って、本願発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを記録したデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。

従って、本願発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号シーケンスは、たとえば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。

さらなる実施形態は、本明細書に記載の方法の１つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。

さらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の１つを実行するためにマイクロプロセッサと協働してもよい。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。

上述の実施例は、本願発明の原理を単に説明しているにすぎない。本明細書に記載の配置および詳細の修正および変更は、他の当業者には明らかであることを理解されたい。従って、本明細書の実施形態の説明および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ制限されることが意図されている。

参考文献

[1] K. Brandenburg, "MP3 and AAC explained," in Audio Engineering Society Conference:
17th International Conference: High-Quality Audio Coding, September 1999.

[2] K. Brandenburg and G. Stoll, "ISO/MPEG-1 audio: A generic standard for coding
of high-quality digital audio," J. Audio Eng. Soc., vol. 42, pp. 780-792, October 1994.

[3] ISO/IEC 11172-3, "MPEG-1: Coding of moving pictures and associated audio
for digital storage media at up to about 1.5 mbit/s - part 3: Audio," international
standard, ISO/IEC, 1993. JTC1/SC29/WG11.

[4] ISO/IEC 13818-1, "Information technology - generic coding of moving pictures
and associated audio information: Systems," international standard, ISO/IEC, 2000. ISO/IEC JTC1/SC29.

[5] J. Herre and J. D. Johnston, "Enhancing the performance of perceptual audio
coders by using temporal noise shaping (TNS)," in 101st Audio Engineering Society
Convention, no. 4384, AES, November 1996.

[6] B. Edler, "Codierung von audiosignalen mit uberlappender transformation und
adaptiven fensterfunktionen," Frequenz - Zeitschrift fur Telekommunikation,
vol. 43, pp. 253-256, September 1989.

[7] I. Samaali, M. T.-H. Alouane, and G. Mahe, "Temporal envelope correction for attack
restoration im low bit-rate audio coding," in 17th European Signal Processing
Conference (EUSIPCO), (Glasgow, Scotland), IEEE, August 2009.

[8] J. Lapierre and R. Lefebvre, "Pre-echo noise reduction in frequency-domain audio
codecs," in 42nd IEEE International Conference on Acoustics, Speech and Signal
Processing, pp. 686-690, IEEE, March 2017.

[9] A. V. Oppenheim and R. W. Schafer, Discrete-Time Signal Processing. Harlow,
UK: Pearson Education Limited, 3. ed., 2014.

[10] J. G. Proakis and D. G. Manolakis, Digital Signal Processing - Principles, Algorithms,
and Applications. New Jersey, US: Pearson Education Limited, 4. ed., 2007.

[11] J. Benesty, J. Chen, and Y. Huang, Springer handbook of speech processing, ch. 7.
Linear Prediction, pp. 121-134. Berlin: Springer, 2008.

[12] J. Makhoul, "Spectral analysis of speech by linear prediction," in IEEE Transactions
on Audio and Electroacoustics, vol. 21, pp. 140-148, IEEE, June 1973.

[13] J. Makhoul, "Linear prediction: A tutorial review," in Proceedings of the IEEE,
vol. 63, pp. 561-580, IEEE, April 2000.

[14] M. Athineos and D. P.W. Ellis, "Frequency-domain linear prediction for temporal
features," in IEEE Workshop on Automatic Speech Recognition and Understanding,
pp. 261-266, IEEE, November 2003.

[15] F. Keiler, D. Arfib, and U. Zolzer, "Efficient linear prediction for digital audio
effects," in COST G-6 Conference on Digital Audio Effects (DAFX-00), (Verona,
Italy), December 2000.

[16] J. Makhoul, "Spectral linear prediction: Properties and applications," in IEEE
Transactions on Acoustics, Speech, and Signal Processing, vol. 23, pp. 283-296,
IEEE, June 1975.

[17] T. Painter and A. Spanias, "Perceptual coding of digital audio," in Proceedings of
the IEEE, vol. 88, April 2000.

[18] J. Makhoul, "Stable and efficient lattice methods for linear prediction," in
IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-25,
pp. 423-428, IEEE, October 1977.

[19] N. Levinson, "The wiener rms (root mean square) error criterion in filter design
and prediction," Journal of Mathematics and Physics, vol. 25, pp. 261-278, April
1946.

[20] J. Herre, "Temporal noise shaping, qualtization and coding methods in perceptual
audio coding: A tutorial introduction," in Audio Engineering Society Conference:
17th International Conference: High-Quality Audio Coding, vol. 17, AES, August
1999.

[21] M. R. Schroeder, "Linear prediction, entropy and signal analysis," IEEE ASSP
Magazine, vol. 1, pp. 3-11, July 1984.

[22] L. Daudet, S. Molla, and B. Torresani, "Transient detection and encoding using
wavelet coeffcient trees," Colloques sur le Traitement du Signal et des Images,
September 2001.

[23] B. Edler and O. Niemeyer, "Detection and extraction of transients for audio coding,"
in Audio Engineering Society Convention 120, no. 6811, (Paris, France), May 2006.

[24] J. Kliewer and A. Mertins, "Audio subband coding with improved representation
of transient signal segments," in 9th European Signal Processing Conference, vol. 9, (Rhodes), pp. 1-4, IEEE, September 1998.

[25] X. Rodet and F. Jaillet, "Detection and modeling of fast attack transients," in
Proceedings of the International Computer Music Conference, (Havana, Cuba),
pp. 30-33, 2001.

[26] J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, and M. Davies, "A tutorial on
onset detection in music signals," IEEE Transactions on Speech and Audio Processing,
vol. 13, pp. 1035-1047, September 2005.

[27] V. Suresh Babu, A. K. Malot, V. Vijayachandran, and M. Vinay, "Transient detection
for transform domain coders," in Audio Engineering Society Convention 116, no. 6175, (Berlin, Germany), May 2004.

[28] P. Masri and A. Bateman, "Improved modelling of attack transients in music
analysis-resynthesis," in International Computer Music Conference, pp. 100-103,
January 1996.

[29] M. D. Kwong and R. Lefebvre, "Transient detection of audio signals based on an
adaptive comb filter in the frequency domain," in Conference on Signals, Systems
and Computers, 2004. Conference Record of the Thirty-Seventh Asilomar, vol. 1,
pp. 542-545, IEEE, November 2003.

[30] X. Zhang, C. Cai, and J. Zhang, "A transient signal detection technique based
on flatness measure," in 6th International Conference on Computer Science and
Education, (Singapore), pp. 310-312, IEEE, August 2011.

[31] J. D. Johnston, "Transform coding of audio signals using perceptual noise criteria,"
IEEE Journal on Selected Areas in Communications, vol. 6, pp. 314-323,
February 1988.

[32] J. Herre and S. Disch, Academic press library in Signal processing, vol. 4, ch. 28.
Perceptual Audio Coding, pp. 757-799. Academic press, 2014.

[33] H. Fastl and E. Zwicker, Psychoacoustics - Facts and Models. Heidelberg:
Springer, 3. ed., 2007.

[34] B. C. J. Moore, An Introduction to the Psychology of Hearing. London: Emerald,
6. ed., 2012.

[35] P. Dallos, A. N. Popper, and R. R. Fay, The Cochlea. New York: Springer, 1. ed.,
1996.

[36] W. M. Hartmann, Signals, Sound, and Sensation. Springer, 5. ed., 2005.

[37] K. Brandenburg, C. Faller, J. Herre, J. D. Johnston, and B. Kleijn, "Perceptual
coding of high-quality digital audio," in IEEE Transactions on Acoustics, Speech,
and Signal Processing, vol. 101, pp. 1905-1919, IEEE, September 2013.

[38] H. Fletcher andW. A. Munson, "Loudness, its definition, measurement and calculation," The Bell System Technical Journal, vol. 12, no. 4, pp. 377-430, 1933.

[39] H. Fletcher, "Auditory patterns," Reviews of Modern Physics, vol. 12, no. 1,
pp. 47-65, 1940.

[40] M. Bosi and R. E. Goldberg, Introduction to Digital Audio Coding and Standards.
Kluwer Academic Publishers, 1. ed., 2003.
[41] P. Noll, "MPEG digital audio coding," IEEE Signal Processing Magazine, vol. 14,
pp. 59-81, September 1997.

[42] D. Pan, "A tutorial on MPEG/audio compression," IEEE MultiMedia, vol. 2, no. 2,
pp. 60-74, 1995.

[43] M. Erne, "Perceptual audio coders "what to listen for"," in 111st Audio Engineering
Society Convention, no. 5489, AES, September 2001.

[44] C.-M. Liu, H.-W. Hsu, and W. Lee, "Compression artifacts in perceptual audio
coding," in IEEE Transactions on Audio, Speech, and Language Processing,
vol. 16, pp. 681-695, IEEE, May 2008.

[45] L. Daudet, "A review on techniques for the extraction of transients in musical
signals," in Proceedings of the Third international conference on Computer Music,
pp. 219-232, September 2005.

[46] W.-C. Lee and C.-C. J. Kuo, "Musical onset detection based on adaptive linear
prediction," in IEEE International Conference on Multimedia and Expo, (Toronto,
Ontario), pp. 957-960, IEEE, July 2006.

[47] M. Link, "An attack processing of audio signals for optimizing the temporal characteristics of a low bit-rate audio coding system," in Audio Engineering Society
Convention, vol. 95, October 1993.

[48] T. Vaupel, Ein Beitrag zur Transformationscodierung von Audiosignalen unter
Verwendung der Methode der "Time Domain Aliasing Cancellation (TDAC)" und
einer Signalkompandierung im Zeitbereich. Ph.d. thesis, Universitat Duisburg,
Duisburg, Germany, April 1991.

[49] G. Bertini, M. Magrini, and T. Giunti, "A time-domain system for transient enhancement in recorded music," in 14th European Signal Processing Conference
(EUSIPCO), (Florence, Italy), IEEE, September 2013.

[50] C. Duxbury, M. Sandler, and M. Davies, "A hybrid approach to musical note onset
detection," in Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02),
(Hamburg, Germany), pp. 33-38, September 2002.

[51] A. Klapuri, "Sound onset detection by applying psychoacoustic knowledge," in
Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal
Processing, March 1999.

[52] S. L. Goh and D. P. Mandic, "Nonlinear adaptive prediction of complex-valued
signals by complex-valued PRNN," in IEEE Transactions on Signal Processing,
vol. 53, pp. 1827-1836, IEEE, May 2005.

[53] S. Haykin and L. Li, "Nonlinear adaptive prediction of nonstationary signals," in
IEEE Transactions on Signal Processing, vol. 43, pp. 526-535, IEEE, February
1995.

[54] D. P. Mandic, S. Javidi, S. L. Goh, and K. Aihara, "Complex-valued prediction of
wind profile using augmented complex statistics," in Renewable Energy, vol. 34,
pp. 196-201, Elsevier Ltd., January 2009.

[55] B. Edler, "Parametrization of a pre-masking model." Personal communication,
November 22, 2016.

[56] ITU-R Recommendation BS.1116-3, "Method for the subjective assessment of
small impairments in audio systems," recommendation, International Telecommunication
Union, Geneva, Switzerland, February 2015.

[57] ITU-R Recommendation BS.1534-3, "Method for the subjective assessment of
intermediate quality level of audio systems," recommendation, International
Telecommunication Union, Geneva, Switzerland, October 2015.

[58] ITU-R Recommendation BS.1770-4, "Algorithms to measure audio programme
loudness and true-peak audio level," recommendation, International Telecommunication
Union, Geneva, Switzerland, October 2015.

[59] S. M. Ross, Introduction to Probability and Statistics for Engineers and Scientists. Elsevier, 3. ed., 2004.

Claims

オーディオ信号を時間周波数表現に変換するための変換器（１００）と、
前記オーディオ信号または前記時間周波数表現を使用して、トランジェント部分の時間上の位置を推定するためのトランジェント位置推定器（１２０）と、
前記時間周波数表現を操作するための信号操作器（１４０）と、
を備える、前記オーディオ信号を後処理（２０）するための装置であって、
前記信号操作器は時間的に前記トランジェント位置の前の位置における時間周波数表現内のプレエコーを低減（２２０）または除去するように構成され、前記信号操作器（１４０）は、プレエコー幅内の前記時間周波数表現内のスペクトル値についてプレエコー閾値を推定するためのプレエコー閾値推定器（２６０）を含み、前記プレエコー閾値は前記プレエコーの低減または除去後の対応するスペクトル値の振幅閾値を示し、前記プレエコー閾値推定器（２６０）は、前記プレエコー幅の開始から前記トランジェント位置まで増加特性を有する重み付け曲線を使用して前記プレエコー閾値を決定するように構成される、または、
前記信号操作器（１４０）は前記トランジェント位置の前記時間周波数表現の整形（５００）を行って前記トランジェント部分のアタックを増幅させるように構成され、前記信号操作器（１４０）は前記トランジェント位置の前記時間周波数表現を持続部分と前記トランジェント部分とに分割（６３０）するように構成され、前記信号操作器（１４０）は前記トランジェント部分のみを増幅して前記持続部分を増幅しないように構成され、前記信号操作器（１４０）は前記持続部分と増幅された前記トランジェント部分とを結合（６４０）して後処理済オーディオ信号を得るように構成される、
オーディオ信号を後処理（２０）するための装置。
前記信号操作器（１４０）は、前記トランジェント部分に時間的に先行する前記時間周波数表現におけるトーン信号成分を検出するためのトーン推定器（２００）を備え、
前記信号操作器（１４０）は、トーン信号成分が検出された周波数において、前記トーン信号成分が検出されなかった周波数と比較して前記信号操作が低減またはスイッチオフされるように前記プレエコー低減または除去（２２０）を周波数選択的に適用するように構成される、請求項１に記載の装置。
前記信号操作器（１４０）は、前記トランジェント位置に先行する前記プレエコー幅の時間的な幅を前記オーディオ信号の信号エネルギーの経時的な展開に基づいて推定して、前記時間周波数表現における複数の後続するオーディオ信号フレームを含むプレエコー開始フレームを決定するように構成されるプレエコー幅推定器（２４０）を含む、請求項１または２に記載の装置。
前記プレエコー閾値推定器（２６０）は、
前記時間周波数表現を前記時間周波数表現の後続する複数のフレーム上に平滑化（３３０）し、また、
前記プレエコー幅の開始から前記トランジェント位置までの前記増加特性を有する前記重み付け曲線を使用して平滑化された前記時間周波数表現を重み付け（３４０）するように構成される、請求項１ないし３の１項に記載の装置。
前記信号操作器（１４０）は、
前記時間周波数表現のスペクトル値のための個々のスペクトル重み付けを計算するためのスペクトル重み付け計算機（３００，１６０）と、
前記スペクトル重み付けを使用して前記時間周波数表現のスペクトル値を重み付けして、操作された時間周波数表現を得るためのスペクトル重み付け器（３２０）と、
を含む、請求項１ないし４の１項に記載の装置。
前記スペクトル重み付け計算機（３００）は、
実際のスペクトル値とターゲットスペクトル値とを使用して生のスペクトル重み付けを決定（４５０）する、または、
前記時間周波数表現のフレーム内で前記生のスペクトル重み付けを周波数的に平滑化（４６０）する、または、
前記プレエコー幅の開始における複数のフレームに対して減衰曲線を使用して前記プレエコーの低減または除去を漸増（４３０）させる、または、
プレエコー閾値未満の振幅を有する前記スペクトル値が前記信号操作の影響を受けないように前記ターゲットスペクトル値を決定（４２０）する、あるいは、
前記プレエコー幅におけるスペクトル値のダンピングがプレマスキングモデル（４１０）に基づいて低減されるように前記プレマスキングモデル（４１０）を使用して前記ターゲットスペクトル値を決定（４２０）する
ように構成される、請求項５に記載の装置。
前記時間周波数表現は複素スペクトル値を含み、
前記信号操作器（１４０）は実数値のスペクトル重み付け値を前記複素スペクトル値に適用する
ように構成される、請求項１ないし６の１項に記載の装置。
前記信号操作器（１４０）は、前記時間周波数表現のトランジェントフレーム内のスペクトル値を増幅（５００）するように構成される、請求項１ないし７の１項に記載の装置。
前記信号操作器（１４０）は、最小周波数を超えるスペクトル値のみを増幅するように構成され、前記最小周波数は２５０Ｈｚよりも大きく２ｋＨｚよりも小さい、請求項１ないし８の１項に記載の装置。
前記信号操作器（１４０）は、減衰特性（６８５）を使用して、前記トランジェント位置に時間的に後続する前記時間周波数表現の時間部分も増幅するように構成される、請求項１ないし９の１項に記載の装置。
スペクトル値は前記持続部分と前記トランジェント部分を含み、
前記信号操作器（１４０）は前記スペクトル値のためのスペクトル重み付け係数を、前記スペクトル値の持続部分、増幅された前記トランジェント部分および前記スペクトル値の大きさを使用して計算（６８０）するように構成され、前記増幅されたトランジェント部分の増幅量はあらかじめ定められ、且つ３００％と１５０％の間である、あるいは、
前記スペクトル重み付け係数は周波数にわたって平滑化（６９０）される、請求項１ないし１０の１項に記載の装置。
前記時間周波数表現の少なくとも隣接したフレームにかかわるオーバーラップ加算演算を使用して、操作された時間周波数表現を時間領域に変換するためのスペクトル時間変換器（３７０）をさらに含む、請求項１ないし１１の１項に記載の装置。
前記変換器（１００）は、１～３ｍｓのホップサイズまたはウィンドウ長２～６ｍｓの分析ウィンドウを適用するように構成される、または
操作された時間周波数表現を時間領域に変換するためのスペクトル時間変換器（３７０）をさらに含み、前記スペクトル時間変換器（３７０）は、オーバーラップウィンドウのオーバーラップサイズに相当する、または前記変換器（１００）が使用する１～３ｍｓのホップサイズに相当するオーバーラップ範囲を使用、あるいはウィンドウ長２～６ｍｓの合成ウィンドウを使用するように構成される、あるいは前記分析ウィンドウと前記合成ウィンドウとは互いに同一である、請求項１ないし１１のいずれかに記載の装置。
オーディオ信号を時間周波数表現に変換するステップ（１００）と、
前記オーディオ信号または前記時間周波数表現を使用してトランジェント部分の時間上のトランジェント位置を推定するステップ（１２０）と、
時間的に前記トランジェント位置の前の位置における前記時間周波数表現内のプレエコーを低減（２２０）または除去するために前記時間周波数表現を操作するステップ（１４０）であって、前記操作するステップ（１４０）は、プレエコー幅内の前記時間周波数表現内のスペクトル値についてプレエコー閾値を推定するステップを含み、前記プレエコー閾値は前記プレエコーの低減または除去後の対応するスペクトル値の振幅閾値を示し、前記推定するステップは、前記プレエコー幅の開始から前記トランジェント位置まで増加特性を有する重み付け曲線を使用して前記プレエコー閾値を決定するステップを含む、操作するステップ（１４０）、または、
前記トランジェント位置の前記時間周波数表現の整形（５００）を行って前記トランジェント部分のアタックを増幅させるために前記時間周波数表現を操作するステップ（１４０）であって、前記操作するステップ（１４０）は、前記トランジェント位置の前記時間周波数表現を持続部分と前記トランジェント部分とに分割するステップ（６３０）と、前記トランジェント部分のみを増幅して前記持続部分を増幅しないステップと、前記持続部分と増幅された前記トランジェント部分とを結合（６４０）して後処理済オーディオ信号を得るステップとを含む、操作するステップ（１４０）と、
を含む、
前記オーディオ信号を後処理（２０）するための方法。
コンピュータまたはプロセッサ上で動作するときに、請求項１４に記載の方法を実行するためのコンピュータプログラム。