JP7055542B2 - トランジェント位置検出を使用したオーディオ信号の後処理のための装置 - Google Patents

トランジェント位置検出を使用したオーディオ信号の後処理のための装置 Download PDF

Info

Publication number
JP7055542B2
JP7055542B2 JP2019553970A JP2019553970A JP7055542B2 JP 7055542 B2 JP7055542 B2 JP 7055542B2 JP 2019553970 A JP2019553970 A JP 2019553970A JP 2019553970 A JP2019553970 A JP 2019553970A JP 7055542 B2 JP7055542 B2 JP 7055542B2
Authority
JP
Japan
Prior art keywords
time
transient
signal
spectral
echo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019553970A
Other languages
English (en)
Other versions
JP2020512598A (ja
Inventor
サッシャ ディスヒ
クリスティアン ウーレ
パトリック ガンプ
ダニエル リヒター
オリヴァー ヘルムート
ユールゲン ヘレ
ペーター プロカイン
アントニオス カランプルニオティス
ユリア ハーヴェンシュタイン
Original Assignee
フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2020512598A publication Critical patent/JP2020512598A/ja
Application granted granted Critical
Publication of JP7055542B2 publication Critical patent/JP7055542B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

本願発明は、オーディオ信号処理に関し、かつ特に符号化アーチファクトを除去することによりオーディオ品質を高めるためのオーディオ信号後処理に関する。
オーディオ符号化は、心理音響的知識を使用してオーディオ信号における冗長性および無関係性を利用することを扱う信号圧縮の領域である。低ビットレート状態で、望ましくないアーチファクトがオーディオ信号にしばしば導入される。突出したアーチファクトはトランジェント信号成分によりトリガされる一時的なプレエコーおよびポストエコーである。
特に、ブロックベースのオーディオ処理において、例えば周波数領域変換符号化器内のスペクトル係数の量子化雑音は、1ブロックの全期間にわたって広がるので、これらプレエコーおよびポストエコーが生じる。ギャップ充填、パラメトリック空間オーディオ、または帯域幅拡張などのセミパラメトリック符号化ツールも、パラメーター駆動調整がサンプルの時間ブロック内で通常起こるため、パラメータ帯域に制限されたエコーアーチファクトにつながる可能性がある。
本願発明は、知覚変換符号化によって導入されたトランジェント現象の主観的な品質低下を低減または軽減する非誘導型ポストプロセッサに関する。
コーデック内のプレエコーおよびポストエコーアーチファクトを防ぐための最先端のアプローチには、変換コーデックのブロック切替および一時的なノイズ整形が含まれる。コーデックチェーンの背後にあるポストプロセッシング技術を使用して、プレエコーおよびポストエコーのアーチファクトを抑制する最先端のアプローチが非特許文献1に公開されている。
[1] Imen Samaali, Mania Turki-Hadj Alauane, Gael Mahe, "Temporal Envelope Correction for Attack Restoration in Low Bit-Rate Audio Coding", 17th European Signal Processing Conference (EUSIPCO 2009) , Scotland, August 24-28, 2009;および
[2] Jimmy Lapierre and Roch Lefebvre, "Pre-Echo Noise Reduction In Frequency-Domain Audio Codecs", ICASSP 2017, New Orleans.
アプローチの最初のクラスは、コーデックチェーン内に挿入する必要があるが、以前に符号化されたアイテム(アーカイブされたサウンド素材など)に事後的に適用することはできない。2番目のアプローチは本質的にデコーダにポストプロセッサとして実装されるが、エンコーダ側で元の入力信号から派生した制御情報が依然必要である。
本願発明の目的は、オーディオ信号の後処理のための改善された概念を提供することである。
この目的は、請求項1のオーディオ信号を後処理するための装置、請求項17のオーディオ信号を後処理する方法、または請求項18のコンピュータプログラムによって達成される。
本願発明の態様は、このようなより早い符号化/復号化操作は、知覚品質を低下させるが、トランジェントを完全に除去するわけではないので、より早い符号化および復号化を受けたオーディオ信号においてトランジェントが依然として局在化され得るという発見に基づいている。従って、オーディオ信号またはオーディオ信号の時間周波数表現を使用してトランジェント部分の時間的な位置を推定するためのトランジェント位置推定器が提供される。本願発明によれば、オーディオ信号の時間周波数表現を操作して、トランジェント位置の前の時間的位置における時間周波数表現のプレエコーを低減または除去するか、または実装に応じてトランジェント部分のアタックが増幅されるように、トランジェント位置での時間周波数表現、および、トランジェント位置の後に続き、時間周波数表現の整形を実行する。
本願発明によれば、検出されたトランジェント位置に基づいて、オーディオ信号の時間周波数表現内で信号操作が実行される。従って、非常に正確なトランジェント位置検出と、一方では対応する有用なプレエコー低減、そして他方では、アタックの増幅は、最終的な周波数時間変換により、フレーム全体での操作の自動スムージング/分散が行われるように周波数領域における処理演算によりおよび複数のフレームでのオーバーラップ加算演算により得られる。最終的に、これにより、オーディオ信号の操作による可聴クリック音が回避され、当然ながら、プレエコーのない、または一方のプレエコーの量が少なく、および/または他方のトランジェント部分についてシャープになったアタックを有するオーディオ信号が改善される。
好ましい実施形態は、知覚変換符号化によって導入されたトランジェントの主観的な品質低下を低減または軽減する非誘導型ポストプロセッサに関する。
本願発明のさらなる態様によれば、トランジェント位置推定器を特に必要とせずにトランジェント改善処理が実行される。この態様では、オーディオ信号を一連のスペクトルフレームを含むスペクトル表現に変換するための時間スペクトル変換器が使用される。次に、予測分析器は、スペクトルフレーム内の周波数にわたる予測の予測フィルタデータを計算し、前記予測フィルタデータによって制御される後続の整形フィルタは、スペクトルフレームを整形して、スペクトルフレーム内のトランジェント部分を強化する。オーディオ信号の後処理は、整形されたスペクトルフレームを含む一連のスペクトルフレームを時間領域に戻すためのスペクトル時間変換で完了する。
従って、時間領域の処理による可聴クリックなどが回避されるように、時間領域の表現ではなくスペクトル表現内で修正が行われる。さらに、スペクトルフレーム内の周波数に対する予測の予測フィルタリングデータを計算する予測分析器が使用されるという事実により、オーディオ信号の対応する時間領域エンベロープは、後続の整形によって自動的に影響を受ける。特に、整形は、スペクトル領域内での処理と、周波数に対する予測が使用されるという事実により、オーディオ信号の時間領域エンベロープが強化され、すなわち、時間領域エンベロープには、より高いピークとより深い谷があるようになされる。換言すれば、スムージングの反対は、実際にトランジェントを示す必要なく、トランジェントを自動的に強化する整形によって実行される。
おそらく、2種類の予測フィルタが導出される。第1の予測フィルタデータは、平坦化フィルタ特性の予測フィルタデータであり、第2の予測フィルタデータは、整形フィルタ特性の予測フィルタデータである。換言すれば、平坦化フィルタ特性は逆フィルタ特性であり、整形フィルタ特性は予測合成フィルタ特性である。しかしながら、これらのフィルタデータは両方とも、スペクトルフレーム内の周波数にわたって予測を実行することによって導出される。好ましくは、異なるフィルタ係数の導出のための時定数は異なるため、第1の予測フィルタ係数の計算には第1の時定数が使用され、第2の予測フィルタ係数の計算には第2の時定数が使用され、第2の時定数は第1の時定数より大きい。この処理は、再び、トランジェント信号部分が非トランジェント信号部分よりもはるかに影響を受けることを自動的に確認する。換言すれば、処理は明示的なトランジェント検出方法に依存しないが、異なる時定数に基づく平坦化とその後の整形により、非トランジェント部分よりもトランジェント部分の影響がはるかに大きくなる。
従って、本願発明によれば、周波数にわたる予測の適用により、(平滑化ではなく)時間領域エンベロープが強化される、自動的なトランジェント改善処理が得られる。
本願発明の実施形態は、さらなるガイダンス情報を必要とせずに動作する、以前に符号化された音声素材のポストプロセッサとして設計される。従って、これらの実施形態は、アーカイブされる前にこのアーカイブされた音声素材に適用された知覚符号化によって損なわれたアーカイブされた音声素材に適用することができる。
第1の態様の好ましい実施例は以下の主な処理ステップからなる。
信号内のトランジェント位置をガイドなしで検出して、トランジェント位置を見つける
トランジェントに先行するプレエコー期間と強度の推定
プレエコーアーチファクトをミュートするための適切な時間的ゲイン曲線の導出
トランジェント前の適応された時間ゲインカーブによる推定プレエコーのダッキング/ダンピング(プレエコーを緩和するため)
アタック時、アタックの分散を緩和
トーンまたはその他の準定常スペクトル帯域のダッキングからの除外
第2の態様の好ましい実施形態は、以下の主要な処理ステップからなる。
信号内のトランジェント位置をガイドなしで検出して、トランジェント位置を見つける(この手順はオプション)
周波数領域線形予測係数(FD-LPC)平坦化フィルタと後続のFD-LPC整形フィルタとの適用によるアタックエンベロープの鮮鋭化、平坦化フィルタは平滑化された時間エンベロープを表し、整形フィルタは平滑性の低い時間エンベロープを表し、両方のフィルタの予測ゲインが補償される。
好ましい実施形態は、マルチステップ処理チェーンの最後のステップとして無誘導のトランジェント強化を実装するポストプロセッサの実施形態である。他の強化技術、例えば、無誘導帯域幅拡張、スペクトルギャップ充填などを適用する場合、以前の強化ステージから導入される信号修正を含みかつ有効であるようにトランジェント強化はチェーンの最後にあることが好ましい。
本願発明のすべての態様は、ポストプロセッサとして実装することができ、1つ、2つ、または3つのモジュールを直列に計算するか、計算効率のために共通モジュール(例えば(I)STFT、トランジェント検出、トーン検出)を共有することができる。
本明細書で説明される2つの態様は、オーディオ信号の後処理のために互いに独立して、または一緒に使用できることに留意されたい。トランジェント位置検出とプレエコー低減およびアタック増幅に依存する第1の態様は、第2の態様なしで信号を強化するために使用できる。それに対応して、周波数にわたるLPC分析と周波数領域内の対応する整形フィルタリングに基づく第2の態様は、必ずしもトランジェント検出に依存せず、明示的なトランジェント位置検出器なしでトランジェントを自動的に強化する。この実施形態は、トランジェント位置検出器によって強化できるが、そのようなトランジェント位置検出器は必ずしも必要ではない。さらに、第2の態様は、第1の態様とは独立して適用できる。さらに、他の実施形態では、第2の態様は、第1の態様によって後処理されたオーディオ信号に適用できることを強調する必要がある。しかしながら、順序は次のように行うことができる。すなわち、最初のステップで第2の態様が適用され、その後、オーディオ信号を後処理してそのオーディオ品質を改善するために以前に導入された符号化アーチファクトを除去することにより第1の態様が適用される。
さらに、第1の態様には基本的に2つのサブ態様があることに注意されたい。第1のサブ態様は、トランジェント位置検出に基づくプレエコー低減であり、第2のサブ態様は、トランジェント位置検出に基づくアタック増幅である。好ましくは、両方のサブ態様は直列に組合わされ、さらにより好ましくは、プレエコー低減が最初に実行され、次にアタック増幅が実行される。しかしながら、他の実施形態では、2つの異なるサブアスペクトは、互いに独立して実装でき、場合によっては第2のサブアスペクトと組合せることができる。従って、プレエコーの低減は、アタックを増幅することなく、予測ベースのトランジェント強化処理と組合せることができる。他の実装では、プレエコー低減は実行されないが、必ずしもトランジェント位置検出を必要としない後続のLPCベースのトランジェント整形とともにアタック増幅が実行される。
組合わされた実施形態では、サブアスペクトと第2のアスペクトとの両方を含む第1のアスペクトが特定の順序で実行され、この順序は第1にプレエコー低減の実行、第2にアタック増幅の実行、および第3に周波数上のスペクトルフレームの予測に基づくLPCベースのアタック/トランジェント強化処理の実行からなる。
本願発明の好ましい実施例は、添付の図面に関連して以下に議論されている。
図1は第1の態様によるブロック図である。 図2aはトーン推定器に基づく第1の態様の好ましい実装を示す図である。 図2bはプレエコー幅推定に基づく第1の態様の好ましい実現を示す図である。 図2cはプレエコー閾値推定に基づく第1の態様の好ましい実施形態を示す図である。 図2dはプレエコー低減/除去に関する第1のサブ態様の好ましい実施形態を示す図である。 図3aは第1のサブ態様の好ましい実装を示す図である。 図3bは第1のサブ態様の好ましい実装を示す図である。 図4は第1のサブ態様のさらに好ましい実装を示す図である。 図5は本願発明の第1の態様の2つのサブ態様を示す図である。 図6aは第2のサブ態様上の概観を示す図である。 図6bはトランジェント部分および持続部分への分割に依存する第2のサブ態様の好ましい実装を示す図である。 図6cは図6bの分割のさらなる実施例を示す図である。 図6dは第2のサブ態様のさらなる実現を示す図である。 図6eは第2のサブ態様のさらなる実施例を示す図である。 図7は本願発明の第2の態様の実施例のブロック図を示す図である。 図8aは2つの異なるフィルタデータに基づく第2の態様の好ましい実装を示す図である。 図8bは2つの異なる予測フィルタデータの計算についての第2の態様の好ましい実施例を示す図である。 図8cは図7の整形フィルタの好ましい実装を示す図である。 図8dは図7の整形フィルタのさらなる実装を示す図である。 図8eは本願発明の第2の態様のさらなる実施例を示す図である。 図8fは異なる時定数を有するLPCフィルタ推定についての好ましい実装を示す図である。 図9は本願発明の第1の態様の第1のサブ態様および第2のサブ態様に依存し、さらに、本願発明の第1の態様に基づく手順の出力に基づいて実行される本願発明の第2の態様に付加的に依存する後処理手順についての好ましい実装の概要を示す図である。 図10aはトランジェント位置検出器の好ましい実装を示す図である。 図10bは図10aの検出関数計算についての好ましい実装を示す図である。 図10cは図10aの開始ピッカーの好ましい実現を示す図である。 図11はトランジェント強化ポストプロセッサとして第1のおよび/または第2の態様に関連する本願発明の一般的な設定を示す図である。 図12-1は移動平均フィルタリングを示す図である。 図12-2は、単極再帰平均およびハイパスフィルタリングを示す図である。 図12-3は、時間信号予測および残差を示す図である。 図12-4は、予測誤差の自己相関を示す図である。 図12-5は、LPCを有するスペクトルエンベロープ推定を示す図である。 図12-6は、LPCを有する時間エンベロープ推定を示す図である。 図12-7は、アタックトランジェント対周波数領域トランジェントを示す図である。 図12-8は、「周波数領域トランジェント」のスペクトルを示す図である。 図12-9は、トランジェント、開始およびアタックの間の区別を示す図である。 図12-10は、静かで同時のマスキングにおける絶対的な閾値を示す図である。 図12-11は、時間的なマスキングを示す図である。 図12-12は知覚オーディオエンコーダの一般的な構造を示す図である。 図12-13は知覚オーディオデコーダの一般的な構造を示す図である。 図12-14は知覚オーディオ符号化における帯域幅制限を示す図である。 図12-15は劣化したアタック特性を示す図である。 図12-16はプレエコーアーチファクトを示す図である。 図13-1はトランジェント強化アルゴリズムを示す図である。 図13-2はトランジェント検出:検出関数(カスタネット)を示す図である。 図13-3はトランジェント検出:検出関数(ファンク)を示す図である。 図13-4はプレエコー低減方法のブロック図を示す図である。 図13-5はトーン成分の検出を示す図である。 図13-6はプレエコー幅推定-図式的アプローチを示す図である。 図13-7はプレエコー幅推定-例を示す図である。 図13-8はプレエコー幅推定-検出関数を示す図である。 図13-9はプレエコー低減-スペクトル図(カスタネット)を示す図である。 図13-10はプレエコー閾値検出(カスタネット)を示す図である。 図13-11はトーン成分についてのプレエコー閾値検出を示す図である。 図13-12はプレエコー低減についてのパラメータ減衰曲線を示す図である。 図13-13はプレマスキング閾値のモデルを示す図である。 図13-14はプレエコー低減後の目標の大きさの計算を示す図である。 図13-15はプレエコー低減-スペクトログラム(グロッケンシュピール)を示す図である。 図13-16は適応トランジェントアタック強化を示す図である。 図13-17は適応トランジェントアタック強化についての減衰曲線を示す図である。 図13-18は自己相関窓関数を示す図である。 図13-19はLPC整形フィルタの時間領域伝達関数を示す図である。 図13-20はLPCエンベロープ整形-入出力信号を示す図である。
図1はトランジェント位置検出を使用するオーディオ信号を後処理するための装置を示す。特に、後処理をするための装置は一般的な枠組みに関して図11に示されるように掲載される。特に図11は10で示される低下したオーディオ信号の入力を示す。この入力はトランジェント強化ポストプロセッサ20に送られて、トランジェント強化ポストプロセッサ20は図11に30で示された強化されたオーディオ信号を出力する。
図1に示されたポストプロセッシング20のための装置はオーディオ信号を時間周波数表現に変換するための変換器100を含む。さらに装置はトランジェント位置の時間的位置を推定するためのトランジェント位置推定器120を含む。トランジェント位置推定器120は変換器100およびトランジェント位置推定120の間の接続により示される時間周波数表現を使用するか時間領域内のオーディオ信号を使用して動作する。この選択は図1における破線により示される。さらに、装置は時間周波数表現を操作するための信号操作器140を含む。信号操作器140はトランジェント位置の時間的に前の位置での時間周波数表現におけるプレエコーを低減または除去するように構成されており、トランジェント位置はトランジェント位置推定器120により示されている。選択的にあるいは付加的に、信号操作器140はトランジェント位置のアタックが増幅されるようにトランジェント位置において変換器100および信号操作器140の間の線により描かれるように時間周波数表現の整形を実行するように構成されている。
このように、図1における後処理のための装置はプレエコーを低減または除去するおよび/または時間周波数表現を整形してトランジェント位置のアタックを増幅する。
図2aはトーン推定器200を示す。特に、図1の信号操作器140は時間的にトランジェント位置に先行する時間周波数表現におけるトーン信号成分を検出するためのこの種のトーン推定器200を含む。特に、信号操作器140はトーン信号成分が検出される周波数において信号操作がトーン信号成分が検出されない周波数と比べて低減されあるいは遮断されるように周波数選択方法においてプレエコー低減または除去を適用するように構成されている。この実施例において、ブロック220により示されたようにプレエコー低減/除去は、トーン信号成分が検出される或るフレームの周波数位置において周波数選択的にオンオフが切替えられるかあるいは少なくとも徐々に減少される。これは一般的にトーン信号成分が同時にプレエコーまたはトランジェントとなり得ないのでトーン信号成分が操作されないことを確実にする。それどころか、トーン成分は、特定のフレームに関して、ピークエネルギーを持つ特定の周波数ビンであり、このフレーム内の他の周波数は低エネルギーしかない一方、これは、トランジェントの典型的な性質は、トランジェントが多くの周波数ビンに同時に影響を与える広帯域効果であるという事実による。
さらに、図2bに示されるように、信号操作器140は、プレエコー幅推定器240を含む。このブロックはトランジェント位置に先行するプレエコーの時間幅を推定するように構成されている。この推定はプレエコーを低減あるいは除去する努力においてトランジェント位置の前の正しい時間部分が信号操作器140により操作されることを確認する。時間的なプレエコー幅の推定は複数の後続のオーディオ信号フレームを含む時間周波数表現におけるプレエコー開始フレームを決定するためのオーディオ信号の時間上の信号エネルギーの発達に基づく。典型的に、時間上のオーディオ信号の信号エネルギーのこの種の発達は、増加するあるいは一定の信号エネルギーであるが、時間上のエネルギー発達の低下にはよらない。
図2bは、プレエコー低減または除去または図2dに述べられているようにプレエコー“ダッキング”が実行される本願発明の第1の態様の第1のサブ態様に従うポストプロセッシングの好ましい実施例のブロック図を示す。
障害のあるオーディオ信号が入力10に供給され、このオーディオ信号は特定のブロック長で動作しオーバーラップブロックで動作する短時間フーリエ変換分析器として好ましくは実装された変換器100に入力される。
さらに、図2aで述べられたようにトーン推定器200はプレエコーを低減または除去するためにブロック100によって生成された時間周波数表現にプレエコー回避カーブ160を適用するために備わったプレエコー回避ステージ320を制御するために備わっている。ブロック320の出力は周波数時間変換器370を使用して時間領域に再び変換される。この周波数時間変換器は好ましくはブロッキングアーチファクトを回避するために各ブロックから次のブロックまでフェードイン/フェードアウトするためのオーバーラップ加算演算を演算する逆短時間フーリエ変換合成ブロックとして実装されている。
ブロック370の結果は強化されたオーディオ信号30の出力である。
好ましくは、プレエコー回避曲線ブロック160は図2bのブロック240により決定されたプレエコー幅または図3a、図3b、図4に関連して議論されたように他のプレエコー特性等のプレエコーに関連する特性を集めるプレエコー推定器150により制御されている。
好ましくは、図3aにおいて概説したように、プレエコー回避曲線160はブロック100により生成されたように複数の時間フレームの各周波数ビンについて特定の周波数領域重み付け係数を有する重み付けマトリクスであると見なすことができる。図3aは図2dのプレエコー回避演算320に対応するスペクトル重み付け器320を制御する図2dのブロック160に対応するスペクトル重み付けマトリクス計算機300を制御するプレエコー閾値推定器260を示す。
好ましくは、プレエコー閾値推定器260は、プレエコー幅によって制御され、時間周波数表現に関する情報も受信する。同じことは、スペクトル重み付けマトリクス計算機300にも、そしてもちろん、最終的に、プレエコーが低減または除去される周波数領域出力信号を生成するために重み係数マトリクスを時間周波数表現に適用するスペクトル重み付け器320にも当てはまる。好ましくは、スペクトル重み付けマトリクス計算機300は700Hz以上および好ましくは800Hz以上である特定の周波数範囲において動作する。さらに、スペクトル重み付けマトリクス計算機300は図1の変換器100により適用されたようにプレエコー領域のみにオーバーラップ加算特性に依存するように重み付け係数の計算に制限される。さらに、プレエコー閾値推定器260は例えば図2bのブロック240により決定されたようにプレエコー幅内で時間周波数表現におけるスペクトル値についてプレエコー閾値を推定するように構成され、プレエコー閾値はプレエコー低減または除去に続いて生じるべき、すなわち、プレエコーなしで真の信号増幅に対応すべき対応するスペクトル値の増幅閾値を示す。
おそらく、プレエコー閾値推定器260はプレエコー幅の開始からトランジェント位置までの増加特性を有する重み付け曲線を使用してプレエコー閾値を決定するように構成されている。特にこの種の重み付け曲線はMpreによって示されたプレエコー幅に基づいて図3bにおけるブロック350によって決定される。次に、この重み付け曲線Cmはブロック340でスペクトル値に適用され、ブロック330によりスペクトル値が以前に平滑化されている。次にブロック360に示されるように、最小は全ての周波数インデックスkについて閾値として選択される。このように、好ましい実施例に従って、プレエコー閾値推定器260は時間周波数表現の複数の後続フレームにわたる時間周波数表現を平滑化330し、かつプレエコー幅の開始からトランジェント位置までの増加特性を有する重み付け曲線を使用する平滑化された時間周波数表現を重み付け(340)するように構成されている。この増加特性は通常「信号」、すなわちプレエコーアーチファクトのない信号の特定のエネルギーの増減が可能なことが確認される。
さらなる実施例において、信号操作器140は時間周波数表現のスペクトル値についての個々のスペクトル重みを計算するためのスペクトル重み計算機300,160を使用するように構成されている。さらに、スぺクトル重み付け器320はスペクトル重みを使用する時間周波数表現の重み付けスペクトル値を備えて操作された時間周波数表現を得る。このように、操作は重みを使用することによりおよび図1の変換器100により生成されたように個々の時間/周波数ビンを重み付けすることにより周波数領域内で実行される。
特に、スペクトル重みは、図4に示された特定の実施例において示されたように計算される。スペクトル重み付け器320は第1の入力として時間周波数表現Xk,mを受信し第2の入力としてスペクトル重みを受信する。これらのスペクトル重みはともにこのブロックへの入力である現実のスペクトル値および目標のスペクトル値を使用して生のスペクトル重みを決定するように構成された生の重み計算機450により計算されている。生の重み計算機は後に示される式4.18に示されるように演算を行うが、一方で実際の値に依存し、他方で目標値に依存する他の実装も有用である。さらに、その代わりにあるいはそれに加えて、スペクトル重みはアーチファクトを回避するためにかつ1フレームから他へ強すぎる変化を避けるために経時的に平滑化される。
好ましくは、生の重み計算機450への目標値はプレマスキングモデラー420により具体的に計算される。プレマスキングモデラー420は好ましくは後に定義される式4.26に従って好ましくは動作するが、心理音響効果に依存する他の実装も使用でき、トランジェントについて典型的に生じるプレマスキング特性に特に依存する。プレマスキングモデラー420は一方で特にプレマスキングタイプ音響効果に依存するマスクを計算するマスク推定器410により制御される。一実施例において、マスク推定器410は後に記述される式4.21に従って動作するが、代わりに他のマスク推定器は心理音響プレマスク効果に依存して適用できる。
さらに、減衰器430は、プレエコー幅の開始で複数のフレーム上の減衰曲線を使用してプレエコーの低減または制限をフェードインするために使用される。この減衰曲線はあるフレームにおける現実の値によりおよび決定されたプレエコー閾値thkにより好ましくは制御される。減衰器430は、プレエコー低減/制限がすぐに開始されるのではなくスムーズにフェードインされる旨を確認する。好ましい実装は式4.20に関連して後に示されるが、他の減衰操作は同様に有用である。好ましくは、減衰器430は例えばプレエコー幅推定器240により決定されるようにプレエコー幅Mpreにより制御される減衰曲線推定器440により制御される。後に議論される式4.19に従って減衰曲線推定器の実施例が動作するが、他の実施例も同様に有用である。最後に、現実の値とともに、ある重みが時間周波数表現に適用されかつ特に好ましい平滑に続く特定の時間/周波数ビンに適用されるブロック450により決定できるように、ブロック410、420、430、440によるこれら全ての動作はある目標値を計算するのに有用である。
自然に、目標値はプレマスキング心理音響効果なしでかついかなる減衰もなしで決定できる。目標値はちょうど閾値thkであるが、ブロック410、420、430、440により実行される特定の計算はスペクトルの重み320の出力信号における改良されたプレエコー軽減を生じることが見いだされた。
このように、プレエコー閾値以下の増幅度を有するスペクトル値が信号操作により影響されないように目標スペクトル値を決定することあるいはプレエコー領域のスペクトル値のダンピングがプレマスキングモデル410に基づき減少するようにプレマスキングモデル410,420を使用して目標スペクトル値を決定することは好ましい。
好ましくは、変換器100内で実行されるアルゴリズムは時間周波数表現が複素スペクトル値を含むように行われる。しかしながら、一方、信号操作器はブロック320の操作に続いて振幅値のみ変化し、位相は操作前と同じように実数値スペクトル重み値を複素スペクトル値に適用するように構成される。
図5は図1の信号操作器140の好ましい実装を示す。特に、信号操作器140は220で示されたトランジェント位置の前で動作するプレエコー低減器/除去器またはブロック500により示されたようにトランジェント位置の後で/トランジェント位置で動作するアタックアンプを含む。両ブロック220、500はトランジェント位置推定器120により決定されたようにトランジェント位置により制御される。本願発明の第1の態様に従って、プレエコー低減器220は第1のサブ態様に対応し、ブロック500は第2のサブ態様に対応する。両方の態様は互いに選択的に、すなわち、図5の破線で示されたように、他の態様なしで使用できる。しかしながら、他方、図5に示された特定の順序における両方の操作、すなわち、プレエコー低減器220が稼働しており、プレエコー低減器/除去器220の出力がアタックアンプ500に入力されること、が使用されることが好ましい。
図6aはアタックアンプ500の好ましい実施例を示す。また、アタックアンプ500はスペクトル重み計算機610および後続のスペクトル重み付け器620を含む。このように、信号操作器は時間周波数表現のトランジェントフレーム内の500のスペクトル値を増幅し、好ましくは時間周波数表現内のトランジェントフレームに続く1つ以上のフレーム内のスぺクトル値を付加的に増幅するように構成される。
好ましくは、信号操作器140は最小周波数上のスペクトル値を増幅のみ行うように構成され、この最小周波数は250Hz以上2kHz以下である。トランジェント位置の開始でのアタックは一般に信号の全高周波数範囲にわたって広がるので、増幅は上側境界周波数まで行える。
好ましくは、信号操作器140および、特に、図5のアタックアンプ500は一方はトランジェント部分、他方は持続部分内でフレームを分割するための分割器630を含む。トランジェント部分はスペクトル重み付けをなされ、さらにスペクトル重み付けはトランジェント部分に関する情報に依存して計算される。次に、トランジェント部分のみがスペクトル的に重み付けられ、かつ一方で図6bにおけるブロック610,620の結果およびドライバ630による出力としての持続部分はアタックが増幅されるオーディオ信号を出力するための結合器640内で最終的に結合される。このように、信号操作器140はトランジェント位置での時間周波数表現を持続部分とトランジェント部分とに分割630し、好ましくは同様にトランジェント位置に続くフレームをさらに分割するように構成される。信号操作器140はトランジェント部分の増幅のみを行い持続部分の増幅または操作は行わないように構成されている。
上述したように、信号操作器140はブロック680により示されたようにフェードアウト特性685を使用して時間的にトランジェント位置に続く時間周波数表現の時間部分をも増幅するように構成されている。特に、スペクトル重み計算機610はフェードアウト曲線Gm685に関して一方ではトランジェント部分に関し他方では持続部分に関する情報を受信し、さらに好ましくはスペクトル値Xk,mに対応する増幅度に関する情報を受信する重み係数決定器680を含む。好ましくは、重み係数決定器680は後で説明される式4.29に従って動作するが、トランジェント部分、持続部分およびフェードアウト特性685に関する情報による他の実施例が同様に使用される。
重み係数決定680に続いて、周波数にわたる平滑がブロック690において実行され、次に、ブロック690の出力において、個々の周波数値についての重み係数は時間/周波数表現をスペクトル的に重み付けするためにスペクトル重み付け器620により使用される用意がある。好ましくは、フェードアウト特性685の最大値により例えば決定されたように増幅された部分が決定され300%と150%の間である。好ましい実施形態では、2.2の最大増幅率が使用され、これは、いくつかのフレームにわたって値1まで減少し、図13-17に示されるように、このような減少は、例えば、60フレーム後に得られる。図13-17は指数関数的減衰の一種を示し、他の減衰、例えば線形減衰やコサイン減衰が同様に使用できる。
好ましくは、信号操作140の結果は図2dに示されたスペクトル時間変換器370を使用して周波数領域から時間領域に変換される。好ましくは、スペクトル時間変換器370は時間周波数表現の少なくとも2つの隣接フレームを含むオーバーラップ加算演算を適用するが、3または4フレームのオーバーラップが使用されるマルチオーバーラップ手順が同様に使用できる。
好ましくは、一方の変換器550および他方の他の変換器370は1ないし3msの間の同じホップサイズまたは2ないし6msの間のウィンドウ長を有する分析ウィンドウを適用する。さらに、好ましくは、一方ではオーバーラップ範囲、他方ではホップサイズ、または時間周波数変換器100および周波数時間変換器370により適用されたウィンドウは互いに等しい。
図7は本願発明の第2の態様に従うオーディオ信号の後処理20のための装置を示す。装置はオーディオ信号を一連のスペクトルフレームを含むスペクトル表現に変換するための時間スペクトル変換器700を含む。さらに、スペクトルフレーム内の周波数にわたって予測についての予測フィルタデータを計算するための予測分析器720が使用される。周波数にわたって動作する予測分析器720はフレームについてのフィルタデータを生成しかつフレームのためのこのフィルタデータはスペクトルフレーム内のトランジェント部分を強化するための整形フィルタ740フレームにより使用される。整形フィルタ740の出力は整形されたスペクトルフレームを含む一連のスペクトルフレームを時間領域に変換するためのスペクトル時間変換器760に転送される。
好ましくは、一方では予測分析器720または他方では整形フィルタ740は明確なトランジェント位置検出なしに動作する。代わりにブロック720により適用された周波数にわたる予測によりおよびブロック740により生成されたトランジェント位置を強化するための整形によりオーディオ信号の時間エンベロープは特定のトランジェント検出なしにトランジェント部分が自動的に強化されるように操作される。しかしながら、場合によっては、ブロック720,740を明示的なトランジェント位置検出によってサポートして、非トランジェント部分でオーディオ信号に何らかのアーチファクトが加えられていないことを確認することもできる。
好ましくは、予測分析器720は図8aに示されたようにフィルタ特性740aを平坦化するための第1の予測フィルタデータ720aおよびフィルタ特性740bを整形するための第2の予測フィルタデータ720bを計算するように構成される。特に予測分析器720は入力として一連のフレームの完全なフレームを受信し、平坦化されたフィルタデータ特性を得るか整形フィルタ特性を生成するかのために周波数にわたって予測分析のための操作を実行する。フィルタ特性の平坦化は最終的にFIR(有限インパルス応答)によって表わせる逆フィルタと類似するフィルタ特性であり、整形についての第2のフィルタデータは740bで示される合成またはIIRフィルタ特性(IIR=有限インパルス応答)に対応する。
好ましくは、第2のフィルタデータ720bにより示された整形の程度は第1のフィルタデータにより示された平坦化720aの度合いよりも大きく、その結果、両方の特性740a,740bを持つ整形フィルタの応用に続いて元の時間エンベロープよりも平坦度が小さい時間エンベロープにおいて生じる信号の一種の“オーバー整形”が得られる。これはまさにトランジェント強化に必要なものである。
図8aは、2つの異なるフィルタ特性、1つの整形フィルタおよび1つの平坦化フィルタが計算される状況を示し、他の実施形態は、単一の整形フィルタ特性に依存する。これは、当然ながら、先行する平坦化を行わずに信号を整形することができ、最終的には、自動的に改善されたトランジェントを有するオーバー整形信号が再び得られるという事実に起因する。このオーバー整形の効果は、トランジェント位置検出器によって制御することができるが、このトランジェント位置検出器は、トランジェント部分よりも少ない非トランジェント部分に自動的に影響を与える信号操作の好ましい実施のために必要とされない。両方の手続は、周波数にわたる予測はオーディオ信号のトランジェント性質を強化するために操作された時間領域信号の時間エンベロープに関する情報を得るために予測分析器720により適用されるという事実に十分に依存する。
この実施例において、自己相関信号800は図8bにおける800で示されたスペクトルフレームから計算される。第1の時定数を有するウィンドウはブロック802に示されたようにブロック800の結果をウィンドウ生成するために使用される。さらに、第1の時定数より大きい第2の時定数を有するウィンドウはブロック804に示されたようにブロック800によって得られた自己相関信号をウィンドウ生成するために使用される。結果よりブロック802から得られた信号、第1の予測フィルタデータはレビンソン・ダービン(Levinson-Durbin)再帰を適用することにより好ましくはブロック806により示されたように計算される。同様に、第2の予測フィルタデータ808はより大きい時定数を有するブロック804から計算される。再び、ブロック808は好ましくは同じLevinson-Durbinアルゴリズムを使用する。
自己相関信号が2つの異なる時定数を有するウィンドウでウィンドウ処理されるという事実により、-自動的な-トランジェント強化が得られる。典型的に、ウィンドウ生成は異なる時定数信号の1つの信号のクラス上に影響を有するのみであるが、信号の他の信号のクラス上に影響をもたらさないようになされる。トランジェント信号は2つの異なる時定数により現実に影響される一方、非トランジェント信号は、第2の大きな時定数を用いてウィンドウ生成すると、第1の時定数を用いてウィンドウ生成するのとほぼ同じ出力が得られるような自己相関信号を有する。図13および図18に関しては、これは、非トランジェント信号が、大きい時間遅延においていかなる有意なピークも有さず、従って、2つの異なる時定数を使用しても、これらの信号に関していかなる差も生じないという事実に起因する。しかしながら、これはトランジェント信号とは異なる。トランジェント信号は、より大きいタイムラグでピークを持っているため、実際には、図13および図18の1300で示されるようにより大きいタイムラグでピークを持つ自己相関信号に異なる時定数を適用し、例えば、異なる時定数を持つ異なるウィンドウ生成操作の異なる出力を生じる。
実装によれば、整形フィルタは多くの異なる方法により実装できる。1つの方法が図8cに示され、809で示されたように第1のフィルタデータ806により制御された一連の平坦化サブフィルタでありかつ810で示されたように第2のフィルタデータ808により制御される整形サブフィルタであり段階的に実装されたゲイン補償器811である。
しかしながら、2つの異なるフィルタ特性およびゲイン補償は1つの整形フィルタ740内で実装でき、整形フィルタ740の結合されたフィルタ特性は、一方では第1および第2のフィルタデータの両方に依存するフィルタ特性結合器820によって計算され、そしてさらに、他方では、最終的に同様に利得補償機能811も実装するために、第1のフィルタデータおよび第2のフィルタデータの利得に依存する。従って、結合フィルタが適用される図8dの実施形態に関して、フレームは単一の整形フィルタ740に入力され、出力は一方で両方のフィルタ特性を有し、他方でその上で実装されて利得補償機能を有する整形されたフレームである。
図8eは本願発明の第2の態様のさらなる実装を示し、図8dの結合整形フィルタ740の機能は図8cと一致して示されているが、図8eは現実に3つの分離ステージ809,810,811の実装であり得るが、同時に、分子と分母を備えたフィルタ特性を持つ単一のフィルタを使用して実際に実装される論理表現として見ることができ、分子は逆/平坦化フィルタ特性を有し分母は合成特性を有し、さらに後で決定される式4.33に示すように、ゲイン補償が含まれる。
図8fは、図8bのブロック802,804によって得られたウィンドウ化の機能性を示し、ここで、r (k) は自己相関信号であり、wlagはウィンドウ、r'(k) はウィンドウ化の出力、すなわち、ブロック802,804の出力であり、さらに、最後に、ウィンドウ関数が例示的に示されており、これは、図8fのaについてのある値を使用することによって設定され得る、二つの異なる時定数を有する指数関数減衰フィルタを表す。
このように、Levinson-Durbin再帰に先行する自己相関値にウィンドウを適用することは、局所時間的ピークでの時間サポートの拡張を生じる。特に、ガウス窓を使用する拡張は、図8fに示されている。ここでの実施形態は、異なる値4aの選択を介して後続の整形フィルタよりも局所非平坦エンベロープでの時間サポートのより大きな拡張を有する時間平坦化フィルタを導出するというアイデアに依存する。これらのフィルタを一緒に使用すると、信号の時間的なアタックがシャープになる。その結果、フィルタリングされたスペクトル領域のスペクトルエネルギーが保存されるように、フィルタの予測利得に対する補償が存在する。
このように、アタック整形に基づく周波数領域LPCの信号フローが図8aから図8eまでに示されるように得られる。
図9は図9におけるブロック100から370までに示された第1の態様と続いて、ブロック700から760に示された続いて実行される第2の態様との両方に依存する実施例の好ましい実装を示す。好ましくは、第2の態様は例えば512のフレームサイズで50%オーバーラップする大きなフレームサイズを使用する分離時間スペクトル変換に依存する。他方、第1の態様はトランジェント位置検出のためのより良い時間解像度を持つための小さいフレームサイズに依存する。この種の小さいフレームサイズは、例えば128サンプルのフレームサイズで50%オーバーラップする。しかしながら、一般的に、フレームサイズのアスペクトがより大きい(時間分解能は低いが周波数分解能は高い)一方、第1のアスペクトの時間分解能が対応するより低い周波数分解能でより高い第1のアスペクトと第2のアスペクトに対して別々の時間スペクトル変換を使用することが好ましい。
図10aは図1のトランジェント位置推定器120の好ましい実装を示す。トランジェント位置推定器120は従来技術として実装できるが、好ましい実施例において、最終的にフレームにおけるトランジェント開始の存在を示す各フレームの2進値が得られるように検出関数計算機1000および後に接続された開始ピッカーに依存する。
検出関数計算機1000は図10bに示されたいくつかのステップに依存する。これらはブロック1020においてエネルギー値の合計である。ブロック1030において時間エンベロープの計算が実行される。続いて、ステップ1040において各バンドパス信号時間エンベロープのハイパスフィルタリングが実行される。ステップ1050において周波数方向におけるハイパスフィルタ結果信号の合計が実行され、ブロック1060において最終的に検出関数が得られるように、時間的ポストマスキングについてのアカウントが実行される。
図10cはブロック1060により得られたように検出機能から開始ピッキングの好ましい方法を示す。ステップ1110において、極大値(ピーク)は検出機能(function)において発見される。ブロック1120において、閾値比較は或る最小閾値上であるさらなる遂行についてピークを保つだけのために遂行される。
ブロック1130において、各ピークの周囲の領域はこの領域から関連するピークを決定するためにより大きなピークについてスキャンされる。ピークの周囲の領域はピークの前の多くのlbフレームおよびピークの後の多くのlaフレームを拡張する(extends)。
ブロック1140において、最終的にトランジェント開始フレームインデックスmiが決定されるように閉じたピークが廃棄される。
続いて、提案されたトランジェント強化方法において利用される技術的および聴覚的概念が開示される。最初に、選択されたフィルタリング操作と線形予測に関するいくつかの基本的なデジタル信号処理技術を紹介し、次にトランジェントの定義を行う。次に、オーディオコンテンツの知覚符号化において利用される音響マスキングの心理音響概念が説明される。この部分は本願発明による強化方法の対象となる汎用知覚オーディオコーデックおよび誘導された圧縮アーチファクトの短い説明と近い。
Figure 0007055542000001
Figure 0007055542000002
Figure 0007055542000003
線形予測
線形予測(LP)はオーディオのエンコードのために有用な方法である。いくつかの過去の研究は音声生成過程[11, 12, 13]をモデル化できる能力を部分的に記述する一方、他は一般にオーディオ信号の分析のためにそれを適用する[14, 15, 16, 17] 。次のセクションは[11, 12, 13, 15, 18]に基づく。
Figure 0007055542000004
Figure 0007055542000005
Figure 0007055542000006
Figure 0007055542000007
Figure 0007055542000008
Figure 0007055542000009
Figure 0007055542000010
Figure 0007055542000011
Figure 0007055542000012
Figure 0007055542000013
Figure 0007055542000014
Figure 0007055542000015
Figure 0007055542000016
時間および周波数領域におけるエンベロープ評価
フィルタ係数が時間信号上で計算された場合、LPCフィルタの重要な特徴は、周波数領域における信号の特徴をモデル化するその能力である。時系列の予測と同等で、線形予測はシーケンスのスペクトルを近似する。予測次数に依存してLPCフィルタは信号周波数応答のより詳細なあるいはあまり詳細でないエンベロープを計算するのに使用できる。以下のセクションは[11, 12, 13, 14, 16, 17, 20, 21]に基づく。
Figure 0007055542000017
Figure 0007055542000018
Figure 0007055542000019
Figure 0007055542000020
Figure 0007055542000021
Figure 0007055542000022
トランジェント
文字通り、トランジェントの多くの異なる定義が見いだせる。ある人はそれを開始またはアタック[22、23、24、25]と呼ぶが、他の人はこれらの用語を使ってトランジェントを説明する[26、27]。このセクションはトランジェントを定義しこの開示の目的についてそれらを特徴付ける異なるアプローチを記述することを目的とする。
Figure 0007055542000023
MasriおよびBateman[28]はトランジェントをトランジェントの開始の前後の信号セグメントは非相関性が高い信号時間エンベロープ内における急激な変化として記述する。打楽器のトランジェント事象を含む狭い時間フレームの周波数スペクトルはしばしば図2.7(b)におけるカスタネットトランジェントのスペクトログラムに見られる全周波数にわたって大きなエネルギーバーストを示す。他の文献[23,29,25]はいくつかの隣接する周波数帯域において同時に出現するエネルギーの激しい増加を伴って時間フレームに対応する信号の時間周波数表現におけるトランジェントをも特徴付ける。RodetおよびJaillet[25]はさらに信号の全体的なエネルギーは主に低周波領域に集中しているため、このエネルギーの急激な増加はより高い周波数で特に顕著であると述べている。
Figure 0007055542000024
Suresh Babuら[27]はさらにアタックトランジェントと周波数領域トランジェントとの間を区別する。これらは、前述のように、時間領域のエネルギー変化ではなく、隣接する時間フレーム間のスペクトルエンベロープの急激な変化によって周波数領域のトランジェントを特徴付ける。これらの信号事象は例えばバイオリンのような湾曲した楽器や人の会話により提供された音のピッチを変化することにより生成できる。図12-7はアタックトランジェントおよび周波数領域トランジェントの間の相違を示す。(c)における信号はバイオリンにより生成されたオーディオ信号を表す。垂直破線は存在する信号のピッチ変化の瞬間、すなわち新たなトーンの開始や周波数領域トランジェントをそれぞれ示す。(a)のカスタネットによるアタックトランジェントとは対照的に、この新しいノートの開始は、信号振幅の顕著な変化を引き起こさない。スペクトル内容のこの変化の瞬間は(d)におけるスペクトログラムに見ることができる。しかしながら、トランジェントの前後のスペクトルの相違は一方は前の時間フレームのスペクトルであり他方は周波数領域トランジェントの開始後の図12-7(c)におけるバイオリン信号の2つのスペクトルを示す図2.8においてより明白である。ハーモニック成分は2つのスペクトルの間で異なることが際立つ。しかしながら、周波数領域トランジェントの知覚符号化はこの論文に示される復元アルゴリズムにより対処されかつそれ故無視される。これ以降、トランジェントという言い回しはアタックトランジェントのみを表すように使用される。
トランジェント、開始およびアタックの相違
トランジェント、開始およびアタックの概念の間の相違は、この論文に採用されるBelloら[26]に見出すことができる。これらの語句の相違はカスタネットにより生成されるトランジェント信号の例を使用して図12-9に示される。
・一般に、トランジェントの概念は依然著者らにより包括的に定義されていない が、それらは区別可能な瞬間よりも短い瞬間として特徴付けている。このトラ ンジェント周期において信号の増幅は相対的に予測不能な方法で急速に立ち上 がる。しかしながら、それは、増幅後のトランジェントの終了がそのピークに 達するところで正確に定義されない。それらのかなり非公式な定義において、 増幅減衰の部分をトランジェント間隔に含む。この特性評価により、アコース ティック楽器はトランジェントを生成し、その間、それらは励起し(例えば、 ギターの弦が弾かれたり、スネアドラムが叩かれたとき)、その後、減衰する 。この最初の減衰の後、次のより遅い信号減衰は、楽器本体の共振周波数によ ってのみ引き起こされる。
・開始は、信号の振幅が上昇し始める瞬間である。この文献について、開始はト ランジェントの開始時間として定義される。
・トランジェントのアタックは増幅度が増大する間の開始とピークとの間のトランジェント内の期間である。
心理音響学
このセクションでは、知覚オーディオ符号化と、後で説明するトランジェント強化アルゴリズムで使用される心理音響概念への基本的な入門を提供する。心理音響学の目的は、“音響信号の測定可能な物理的特性と、これらの音響が聴取者に呼び起こす内部知覚”との関係を記述することである[32]。人間の聴覚には限界があり、オーディオコンテンツの符号化プロセスで知覚オーディオ符号化器がこれを活用して、符号化されたオーディオ信号のビットレートを大幅に低減できる。知覚的オーディオ符号化の目標は、デコードされたオーディオ信号が元の信号に正確にまたはできるだけ近く聞こえるようにオーディオ素材をエンコードすることであるが[1]、それでもいくつかの可聴符号化アーチファクトが生じる可能性がある。これらのアーティファクトの起源を理解するために必要な背景と、知覚オーディオ符号化器によって使用される心理音響モデルがこのセクションでどのように提供されるかを説明する。読者は、心理音響学に関するより詳細な説明について[33、34]を参照されたい。
同時マスキング
同時マスキングとは、両方の音の周波数が近い場合に、強い音(マスカー)が同時に聞こえると、1つの音(マスキー)が人間の聞き手に聞こえない心理音響現象を指す。この現象を説明するために広く使用されている例は、道路脇の2人の間の会話である。干渉するノイズがないため、お互いを完全に知覚できるが、車やトラックが通過する場合は、お互いを理解し続けるために、声量を上げる必要がある。
同時マスキングの概念は、人間の聴覚システムの機能を調べることで説明できる。プローブ音が聴取者に提示されると、蝸牛内の基底膜(BM)に沿って進行波を誘発し、楕円形のウィンドウの基部から端の頂点まで広がる[17]。楕円形のウィンドウから始まり、進行波の垂直変位は最初ゆっくりと上昇し、特定の位置で最大値に達し、その後急激に低下する[33、34]。最大変位の位置は、刺激の周波数に依存する。BMは、ベースで狭くて硬く、頂点で約3倍広くて硬くない。このように、BMに沿ったすべての位置は特定の周波数に最も敏感であり、高周波信号成分はベースの近くで最大変位を引き起こし、BMの頂点の近くで低周波数を引き起こす。この特定の周波数は、しばしば特性周波数(CF)と呼ばれる[33、34、35、36]。このように、蝸牛は、聴覚フィルタと呼ばれる非対称周波数応答を持つ非常にオーバーラップし合ったバンドパスフィルタのバンクを備えた周波数分析器と見なすことができる[17、33、34、37]。これらの聴覚フィルタの通過帯域は、臨界帯域幅と呼ばれる不均一な帯域幅を示す。臨界帯域の概念は、最初に[38、39] 1933年にFletcherによって導入された。彼は、ノイズ信号と同時に提示されるプローブ音の可聴性は、プローブ音に周波数が近いノイズエネルギーの量にのみ依存すると推測した。この周波数領域の信号対雑音比(SNR)が特定のしきい値を下回る場合、つまりノイズ信号のエネルギーがプローブ音のエネルギーよりもある程度高い場合、プローブ信号は人間の聴者には不可聴となる[17、33、34]。しかしながら、同時マスキングは1つの単一の臨界帯域内でのみ発生するわけではない。実際、臨界帯域のCFにあるマスカーは、この臨界帯域の境界の外側にあるマスキーの可聴性にも影響を及ぼすが、その程度はそれほど大きくはない[17]。同時マスキング効果を図12-10に示す。破曲線は、“他の音がない場合に人間の聴者が狭帯域音を検出するために必要な最小音圧レベルを説明する”静かな状態でのしきい値を表す[32]。黒い曲線は、暗い灰色のバーとして描かれた狭帯域ノイズマスカーに対応する同時マスキング閾値である。音圧レベルがマスキーの特定の周波数での同時マスキング閾値よりも小さい場合、プローブ音(薄い灰色のバー)はマスカーによってマスクされる。
時間マスキング
マスキングは、マスカーとマスキーが同時に提示される場合だけでなく、時間的に分離されている場合にも有効である。プローブ音は、マスカーが存在する期間の前後にマスクすることができ[40]、これは、プレマスキングおよびポストマスキングと呼ばれる。時間的なマスキング効果の図を図2.11に示す。マスキング音の開始前にプレマスキングが行われ、マスキング音は、t の負の値に対して示される。プレマスキング期間の後、同時マスキングが有効になり、マスカーがオンになった直後にオーバーシュート効果があり、同時マスキング閾値が一時的に増加する[37]。マスカーがオフになった後(t の正の値を示す)、ポストマスキングが有効になる。プレマスキングは、提示された音の知覚を生成するために聴覚システムが必要とする統合時間で説明できる[40]。さらに、より大きな音は、より弱い音よりも聴覚システムによってより速く処理される[33]。プレマスキングが発生する期間は、特定の聴者のトレーニング量に大きく依存し[17, 34] 、最大20ミリ秒[33]持続するが、マスカー開始前の1~5ミリ秒の期間でのみ重要である[17, 37] 。ポストマスキングの量は、マスカーとプローブ音の両方の周波数、マスカーのレベルと持続時間、およびプローブ音とマスカーがオフになる瞬間の間の期間に依存する[17, 34]。Moore[34]によると、ポストマスキングは少なくとも20ミリ秒間有効であり、他の研究では約200ミリ秒までのさらに長い持続時間を示す[33]。さらに、PainterとSpaniasは、ポストマスキングは「マスカーとプローブの周波数関係が変化したときに観察できる同時マスキングと同様の周波数依存の動作も示す」と述べている[17, 34]。
知覚オーディオ符号化
知覚オーディオ符号化の目的はオーディオ信号を、結果として生じるビットレートが元のオーディオと比較して可能な限り小さくなるが、再構成された(復号化された)信号が非圧縮信号[1, 17, 32, 37, 41, 42]と区別されるべきでない透過的な音質を維持するように圧縮することである。これは人間の聴覚システムのいくつかの制限を利用して入力信号から冗長かつ無関係な情報を除去することで行われる。冗長性は例えば後続の信号サンプル、スペクトル係数または異なる音声チャンネル間の相関を利用することによりおよび適当なエントロピー符号化により除去できる一方、非相関性はスペクトル係数の量子化により処理することが可能である。
知覚オーディオ符号化器の一般的構造
モノラル知覚オーディオ符号化器の基本的構造は、図12-12に描かれている。最初に、入力オーディオ信号は分析フィルタバンクを適用することで周波数領域表現に変換される。このようにして、受信したスペクトル係数を「周波数成分に応じて」選択的に量子化することができる[32]。量子化ブロックはスペクトル係数の連続値を値の離散セットにまるめて符号化オーディオ信号におけるデータ量を削減する。このようにして、復号化器において元の信号の正確な値を再構成することは不可能であるので、圧縮は非可逆となる。この量子化誤差の導入は量子化雑音として言及される付加雑音信号とみなすことができる。量子化は、各分析ウィンドウにおける各スペクトル係数について時間および同時マスキング閾値を計算する知覚モデルの出力により導かれる。静寂下における絶対的閾値は“16ビット整数値における±1最下位ビットのピークの大きさを有する4kHzの信号がヒアリングでの絶対的閾値である”[31]ことを仮定することにより利用することも可能である。ビット割当てブロックにおいて、これらのマスキング閾値は含まれる量子化雑音が人間の聴者が非可聴になるように必要なビットの数を決定するのに使用される。さらに、計算されたマスキング閾値を下回るスペクトル係数(およびそれ故人間の聴覚上の認識に無関係である)は送信されるべき必要がなく0に量子化できる。量子化されたスペクトル係数は従って信号データにおける冗長性を削減する(例えばハフマン符号化または算術符号化により)エントロピー符号化される。最終的に符号化オーディオ信号のみならず量子化スケール係数に類似の付加サイド情報は単一ビットストリームを形成するようにマルチプレックスされ、レシーバに送信される。レシーバ側でのオーディオ復号化器(図12-13参照)は入力ビットストリームをデマルチプレックスすることにより逆演算を行い、スケール係数を転送するとともにスペクトル値を再構成し、合成フィルタバンクをエンコーダの分析フィルタバンクに相補的に適用し、結果物としての出力時間信号を再構成する。
トランジェント符号化アーチファクト
復号化オーディオ信号の透過サウンド品質を生成するための知覚オーディオ符号化の目標にもかかわらず、それは依然可聴アーチファクトを示す。トランジェントの認識された品質に影響するこれらのアーチファクトのいくつかは後述する。
バーディーと帯域幅の制限
オーディオ信号ブロックの量子化について提供するために、ビット割当てプロセスについて利用できるビットの量は限られている。1つのフレームのビット要求が高すぎる場合、いくつかのスペクトル係数をゼロに量子化することにより削除できる[1、43、44]。これは、本質的に一部の高周波コンテンツの一時的な損失を引き起こし、主に低ビットレートコーディングの場合、または非常に要求の厳しい信号、たとえば頻繁なトランジェント事象を伴う信号を処理する場合に問題になる。ビットの割当てはブロックごとに異なるため、スペクトル係数の周波数成分は1つのフレームで削除され、次のフレームに存在する場合がある。誘導されたスペクトルのギャップは“バーディー”と呼ばれ、図2.14の下側の図で見ることができる。特に、トランジェントのエンコードは、これらの信号部分のエネルギーが周波数スペクトル全体に拡散するため、バーディアーチファクトを生成する傾向がある。一般的なアプローチは、エンコード処理の前にオーディオ信号の帯域幅を制限し、LFコンテンツの量子化に利用可能なビットを節約することであり、これは図2.14の符号化信号でも示されている。このトレードオフは、一般に許容される帯域幅の一定の損失よりも、バーディーが知覚される音質に大きな影響を与えるため、適している。しかしながら、帯域幅の制限があっても、依然バーディーが発生する可能性はある。後で説明するトランジェント強化方法自体は、スペクトルギャップの修正や符号化信号の帯域幅の拡大を目的とするものではないが、高周波の損失はエネルギーの減少とトランジェントアタックの劣化を引き起こし(図12-15を参照)、これは、後で説明するアタック強化方法の対象である。
プレエコー
他の共通の圧縮アーチファクトはいわゆるプレエコーである[1, 17, 20, 43, 44]。プレエコーは、信号ブロックの終わり近くで信号エネルギーの急激な増加(すなわちトランジェント現象)が発生した場合に発生する。トランジェント信号部分に含まれる実質的なエネルギーは広範囲の周波数に分散され、これにより心理音響モデルで比較的高いマスキングしきい値が推定され、スペクトル係数の量子化に数ビットのみが割当てられる。その後、追加された大量の量子化ノイズは、復号化プロセスで信号ブロックの期間全体に広がる。定常信号の場合、量子化ノイズは完全にマスクされていると見なされるが、トランジェントを含む信号ブロックの場合、量子化ノイズはトランジェント開始に先行し、“プレマスキング[...]期間を超えて延長する場合”[1]トランジェント開始に先行して聞こえる可能性がある。プレエコーを扱ういくつかの提案された方法があるが、これらのアーチファクトは依然現在の研究の対象となる。図12-16は、カスタネットトランジェントについてのプレエコーアーチファクトの例を示す。点線の黒い曲線は、トランジェント開始前に実質的な信号エネルギーがない元の信号の波形である。従って、符号化された信号のトランジェントに先行する誘導プレエコー(灰色の曲線)は同時にマスクされず、元の信号と直接比較しなくても知覚できる。プレエコーノイズの補足的な低減のために提案された方法は、後に提示される。
過去数年にわたって提案されたトランジェントの品質を強化するいくつかのアプローチが存在する。これらの強化方法は、オーディオコーデックに統合された方法と、デコードされたオーディオ信号に関する後処理モジュールとして機能する方法に分類できる。以前の研究の概観およびトランジェント強化のみならずトランジェント事象の検出に関する方法は以下に示される。
Figure 0007055542000025
Figure 0007055542000026
Figure 0007055542000027
Figure 0007055542000028
他の検出方法は、信号波形の予測可能性を使用して、トランジェントと定常状態の信号部分とを区別するために、時間領域での線形予測に基づいている[45]。線形予測を使用する1つの方法は、2006年にLeeとKuo [46]によって提案された。入力信号をいくつかのサブバンドに分解して、結果の各狭帯域信号の検出関数を計算する。検出関数は、式(2.10)に従って逆フィルタで狭帯域信号をフィルタリングした後の出力として取得される。後続のピーク選択アルゴリズムは、結果の予測誤差信号の極大値を各サブバンド信号の開始時間候補として決定し、それを使用して広帯域信号についての単一のトランジェント開始時間を決定する。
Figure 0007055542000029
Figure 0007055542000030
Figure 0007055542000031
Figure 0007055542000032
トランジェント検出
実施例において、トランジェントの強化についての方法は常に信号を修正するよりもトランジェント事象にもっぱら適用される。従って、トランジェントの瞬間が検出される。この作業のためにトランジェント検出方法が実装され、個々のオーディオ信号が別々に調整される。これは、このセクションで後述するトランジェント検出方法の特定のパラメータとしきい値とが、特定のサウンドファイルごとに特別に調整され、トランジェント信号部分の最適な検出が行われることを意味する。この検出の結果は各フレームについての2進値であり、トランジェント開始の存在を示す。
実装されたトランジェント検出方法は2つの分離したステージに分割できる。好適な検出機能の計算およびその入力信号として検出機能を使用する開始ピッキング方法である。トランジェント検出のリアルタイム処理アルゴリズムへの組込みについて後続のプレエコー低減方法が検出されたトランジェント開始に先行する時間間隔において動作するので、適切な先読みが必要である。
Figure 0007055542000033
Figure 0007055542000034
Figure 0007055542000035
Figure 0007055542000036
Figure 0007055542000037
Figure 0007055542000038
プレエコー低減
この強化ステージの目的はトランジェントの開始前の或る期間において可聴であるプレエコーとして知られる符号化アーチファクトを低減することである。プレエコー低減アルゴリズムの概観は図4.4において示される。プレエコー低減ステージは入力信号としてSTFT分析Xk,m(100)後の出力のみならず以前に検出されたトランジェント開始フレームインデックスmiを得る。最悪の場合、プレエコーはトランジェント事象の前に(コーデックサンプリングレートにかかわらず2048サンプルである)エンコーダ側で長いブロック分析ウィンドウの長さまでに開始する。ウィンドウの時間間隔は特定のエンコーダのサンプリング周波数に依存する。最悪の場合のシナリオに関し、8kHzの最小コーデックサンプリング周波数が仮定される。復号化されリサンプリングされた入力信号snについて44.1kHzのサンプリング レートで長い分析ウィンドウの長さ(およびそれゆえにプレエコー領域のポテンシャル範囲)は時間信号snのNlong = 2048・44.1 kHz/8 kHz = 11290サンプル(または256 ms)に対応する。この章で記述された強化方法は時間周波数表現Xk,m上で機能するので、NlongはMlong = ( Nlong - L)/( N - L) = (11290 -64)/ (128 -64) = 176フレームに変換されるべきである。NおよびLは図13-1におけるフレームサイズおよびSTFT分析ブロック(100)のオーバーラップである。Mlongはプレエコー幅の上側境界としてセットされ、かつ検出されたトランジェント開始フレームmiの前のプレエコー開始フレームについてサーチ領域を制限するために使用される。この作業について、リサンプリングの前の復号化された信号のサンプリングレートが検証データ(ground truth)として得られ、プレエコー幅についての上側境界がエンコードsnに使用された特定のコーデックに適合される。
プレエコーの現実の幅を評価する前に、トランジェントに先行するトーン周波数成分が検出される(200)。その後、プレエコー幅がトランジェントフレームの前のMlongフレームの領域内で決定(240)される。この評価とともにプレエコー領域における信号エンベロープについての閾値が計算(260)でき、その大きさの値がこの閾値を超えるこれらのスペクトル係数におけるエネルギーを減少させる。最終的なプレエコー低減について、Xk,mのプレエコー領域要素ごとに乗算される各kおよびmについての乗算係数を含むスペクトル重みマトリクスが計算される(450)。
トランジェントに先行するトーン信号成分の検出
次のサブセクションで説明するように、トランジェント開始前のトーン周波数成分に対応する後続の検出されたスペクトル係数は、次のプレエコー幅の推定に使用される。プレエコーアーチファクトは現在のトーン成分によってマスクされる可能性が高いため、これらのトーンスペクトル係数のエネルギー削減をスキップするために、次のプレエコー削減アルゴリズムでそれらを使用することも有益である。しかしながら、場合によっては、トーン係数のスキップにより、検出されたトーン周波数の近くのいくつかの周波数で可聴エネルギーが増加するという形で追加のアーチファクトが導入されるため、この実施形態におけるプレエコー低減方法ではこの方法は省略されている。
Figure 0007055542000039
Figure 0007055542000040
Figure 0007055542000041
Figure 0007055542000042
Figure 0007055542000043
Figure 0007055542000044
Figure 0007055542000045
図13-6は、プレエコー推定方法の概略図を示す。推定方法は、誘導されたプレエコーがトランジェントの開始前に時間エンベロープの振幅を増加させるという仮定に従う。これは、図13-6の2つの垂直破線の間の領域に示されている。符号化されたオーディオ信号の復号化プロセスでは、量子化ノイズは合成ブロック全体に均等に拡散されるのではなく、使用される窓関数の特定の形式によって整形される。従って、誘導されたプレエコーは、振幅の急激な増加ではなく、緩やかな上昇を引き起こす。プレエコーの開始前に、信号には無音または前に発生した別の音響事象の持続部分のような他の信号成分が含まれている場合がある。そのため、プレエコー幅推定法の目的は、信号振幅の上昇が、誘導された量子化雑音、つまりプレエコーアーチファクトの開始に対応する時点を見つけることである。
Figure 0007055542000046
Figure 0007055542000047
Figure 0007055542000048
Figure 0007055542000049
Figure 0007055542000050
Figure 0007055542000051
Figure 0007055542000052
Figure 0007055542000053
Figure 0007055542000054
Figure 0007055542000055
Figure 0007055542000056
Figure 0007055542000057
Figure 0007055542000058
Figure 0007055542000059
Figure 0007055542000060
Figure 0007055542000061
Figure 0007055542000062
Figure 0007055542000063
Figure 0007055542000064
Figure 0007055542000065
トランジェントアタックの強化
このセクションで議論された方法は低下したトランジェントアタックを強化するとともにトランジェント事象の増幅を強調することが目的である。
Figure 0007055542000066
Figure 0007055542000067
Figure 0007055542000068
Figure 0007055542000069
Figure 0007055542000070
Figure 0007055542000071
Figure 0007055542000072
Figure 0007055542000073
Figure 0007055542000074
Figure 0007055542000075
Figure 0007055542000076
特に第2の態様に関するさらなる実施例は、以下に開示される。
1.オーディオ信号を後処理(20)するための装置であって、オーディオ信号を一連のスペクトルフレームを含むスペクトル表現に変換するための時間スペクトル変換器(700)と、
スペクトルフレーム内の周波数上の予測のための予測フィルタデータを計算するための予測分析器(720)と、
スペクトルフレームを整形して前記スペクトルフレーム内でトランジェント部分を強調するための予測フィルタデータにより制御される整形フィルタ(740)と、
整形されたスペクトルフレームを含む一連のスペクトルフレームを時間領域に変換するためのスペクトル時間変換器(760)とを含む。
2.実施例1に記載の装置において、前記予測分析器(720)は、フィルタ特性(740a)を平坦化するための第1の予測フィルタデータ(720a)およびフィルタ特性(740b)を整形するための第2の予測フィルタデータ(720b)を計算するように構成されている。
3.実施例2に記載の装置において、前記予測分析器(720)は、第1の時定数を使用して前記第1の予測フィルタデータ(720a)を計算し、前記第1の時定数より大きい第2の時定数(720b)を使用して第2の予測フィルタデータを計算するように構成されている。
4.実施例2または3に記載の装置において、前記平坦化フィルタ特性(740a)は、スペクトルフレームに適用されるとき、前記スペクトルフレームの時間エンベロープに比べてより平坦な時間エンベロープを有する修正されたスペクトルフレームをもたらす分析FIRフィルタ特性または全零フィルター特性であるかあるいは、
前記整形フィルタ特性(740b)は、スペクトルフレームに適用されるとき、前記スペクトルフレームの時間エンベロープに比べてより平坦度の少ない時間エンベロープを有する修正されたスペクトルフレームをもたらす合成IIRフィルタ特性または全極フィルタ特性である。
5.先行する実施例の1つに記載の装置において、
前記予測分析器(720)は、
前記スペクトルフレームから自己相関信号を計算(800)し、
第1の時定数または前記第1の時定数より大きい第2の時定数を有するウィンドウを使用して自己相関信号にウィンドウ(802,804)をかけ、
前記第1の時定数を使用して窓かけされた窓かけされた自己相関信号から第1の予測フィルタデータを計算(806,808)するかあるいは前記第2の時定数を使用して窓かけされた窓かけされた自己相関信号から第2の予測フィルタ係数を計算するように構成され、かつ
前記整形フィルタ(740)は前記第2の予測フィルタ係数または前記第2の予測フィルタ係数および前記第1の予測フィルタ係数を使用する前記スペクトルフレームを整形するように構成されている。
6.先行する実施例の1つに記載の装置において、
前記整形フィルタ(740)は直列接続された2つの制御可能なサブフィルタ(809,810)を含み、前記第1のサブフィルタ(809)は平坦化フィルタ特性を有する平坦化フィルタであり、第2のサブフィルタ(810)は整形フィルタ特性を有する整形フィルタであり、
前記サブフィルタ(809,810)は前記予測分析器(720)により導出される前記予測フィルタデータによりともに制御されるか、あるいは
前記整形フィルタ(740)は平坦化特性および整形特性を組み合わせる(820)ことにより導出される混合されたフィルタ特性を有するフィルタであり、
前記混合された特性は前記予測分析器(720)から導出された前記予測フィルタデータにより制御される。
7.実施例6に記載の装置において、
前記予測分析器(720)は、前記整形フィルタ(740)のための予測フィルタデータが前記平坦化フィルタ特性についての前記予測フィルタデータを使用することで得られる平坦化度合いよりも高い整形度合いを生じるように前記予測フィルタデータを決定するように構成される。
8.先行する実施例の1つに記載の装置において、
前記予測分析器(720)は前記スペクトルフレームから導出されるフィルタリングされた自己相関信号にLevinson-Durbinのアルゴリズムを適用する(806,808)ように構成されている。
9.先行する実施例の1つに記載の装置において、
前記整形フィルタ(740)は整形されたスペクトルフレームのエネルギーが時間スペクトル変換器(700)により生成された前記スペクトルフレームエネルギーに等しいか前記スペクトルフレームのエネルギーの±20%の許容差範囲内であるようにゲイン補償を適用するように構成されている。
10.先行する実施例の1つに記載の装置において、
前記整形フィルタ(740)は、平坦化ゲインを有する平坦化フィルタ特性(740a)および整形ゲインを有する整形フィルタ特性(740b)を適用するように構成されており、かつ
前記整形フィルタ(740)は、平坦化ゲインおよび整形ゲインの影響を補償するためのゲイン補償を行うように構成されている。
11.実施例6に記載の装置において、
前記予測分析器(720)は平坦化ゲインおよび整形ゲインを計算するように構成されており、
前記直列接続された前記2つの制御可能なサブフィルタ(809,810)は、分離ゲイン段(811)または前記平坦化ゲインおよび/または前記整形ゲインから導出されたゲインを適用するための前記2つのサブフィルタの少なくとも1つに含まれたゲイン機能をさらに含むか、あるいは
組合された特性を有する前記フィルタ(740)は、前記平坦化ゲインおよび/または前記整形ゲインから導出されたゲインを適用するように構成されている。
12.実施例5に記載の装置において、
前記ウィンドウは、パラメータとしてのタイムラグを有するガウス窓を含む。
13.先行する実施例の1つに記載の装置において、
前記予測分析器(720)は、前記予測フィルタデータにより制御された前記整形フィルタ(740)がトランジェント部分を含む前記複数のフレームのための信号操作を実行するように、かつ
前記整形フィルタ(740)が、トランジェント部分を含まない前記複数のフレームのうちの更に他のフレームについては、前記フレームに対する信号操作を実行しないか、前記フレームに対する信号操作よりも小さい信号操作を実行するように、
複数のフレームについて前記予測フィルタデータを計算するように構成されている。
14.先行する実施例の1つに記載の装置において、
前記スペクトル時間変換器(760)は、前記スペクトル表現の少なくとも2つの隣接したフレームを含むオーバーラップ加算操作を適用するように構成されている。
15.先行する実施例の1つに記載の装置において、
前記時間スペクトル変換器(700)は、3ないし8ms間のホップサイズまたは6ないし16ms間のウインドウ長を有する分析ウィンドウを適用するように構成されるか、あるいは、
前記スペクトル時間変換器(760)は、重畳するウィンドウの重畳の大きさや、3ないし8msの間の変換器が使用するホップの大きさに対応する重畳範囲を使用するか、6ないし16msの間のウインドウ長を有する合成ウインドウを使用するか、前記分析ウインドウと前記合成ウインドウとが同一であるように構成されている。
16.実施例2または3に記載の装置において、
平坦化フィルタ特性(740a)は、前記スペクトルフレームに適用されたとき、前記スペクトルフレームの時間エンベロープと比較してフラッター時間エンベロープを有する修正スペクトルフレームをもたらす逆フィルタ特性である、あるいは
前記整形フィルタ特性(740b)は、前記スペクトルフレームに適用されたとき、前記スペクトルフレームの時間エンベロープと比較して少ない平坦化時間エンベロープを有する修正スペクトルフレームをもたらす合成フィルタ特性である。
17.先行する実施例の1つに記載の装置において、
前記予測分析器(720)は、整形フィルタ特性(740b)についての予測フィルタデータを計算するように構成され、かつ前記整形フィルタ(740)は前記時間スペクトル変換器(700)により例えば前述の平坦化を行うことなく得られるように構成されている。
18.先行する実施例の1つに記載の装置において、
前記整形フィルタ(740)は最大時間分解能以下の前記スペクトルフレームの時間エンベロープに従う整形動作を表すように構成され、かつ前記整形フィルタ(740)は前記整形動作に関連する前記時間分解能よりも小さい時間分解能に従って平坦化動作なしまたは平坦化動作を表すように構成されている。
19.オーディオ信号を後処理する(20)ための方法であって、
前記オーディオ信号を一連のスペクトルフレームを含むスペクトル表現に変換する(700)ステップと、
スペクトルフレーム内の周波数上の予測についての予測フィルタデータを計算する(720)ステップと、
前記予測フィルタデータに応答して整形し(740)、前記スペクトルフレーム内のトランジェント部分を強調するステップと、
整形されたスペクトルフレームを含む一連のスペクトルフレームを時間領域に変換する(760)ステップとを含む。
20.コンピュータまたはプロセッサ上で実行されるとき、請求項19の方法を実行するためのコンピュータプログラムである。
いくつかの態様は装置の文脈で説明されたが、これらの態様は対応する方法の説明も表し、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で説明される態様は、対応するブロックまたはアイテムまたは対応する装置の特徴の説明も表す。
特定の実装要件に応じて、本願発明の実施形態は、ハードウェアまたはソフトウェアで実装することができる。実装は、それぞれの方法が実行されるように、プログラム可能なコンピューターシステムと連携することができるデジタル記憶媒体、たとえば記憶され電気的に可読な制御信号を有するフロッピーディスク(登録商標)、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行できる。
本願発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読取り可能な制御信号を有するデータキャリアを含む。
一般に、本願発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するように動作する。プログラムコードは、例えば、機械読み取り可能なキャリアに保存されてもよい。
他の実施形態は、機械可読キャリアまたは非一時的記憶媒体に記憶された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
換言すれば、本願発明の方法の実施形態は、それ故、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
従って、本願発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを記録したデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
従って、本願発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号シーケンスは、たとえば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書に記載の方法の1つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協働してもよい。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。
上述の実施例は、本願発明の原理を単に説明しているにすぎない。本明細書に記載の配置および詳細の修正および変更は、他の当業者には明らかであることを理解されたい。従って、本明細書の実施形態の説明および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ制限されることが意図されている。
参考文献
[1] K. Brandenburg, "MP3 and AAC explained," in Audio Engineering Society Conference:
17th International Conference: High-Quality Audio Coding, September 1999.

[2] K. Brandenburg and G. Stoll, "ISO/MPEG-1 audio: A generic standard for coding
of high-quality digital audio," J. Audio Eng. Soc., vol. 42, pp. 780-792, October 1994.

[3] ISO/IEC 11172-3, "MPEG-1: Coding of moving pictures and associated audio
for digital storage media at up to about 1.5 mbit/s - part 3: Audio," international
standard, ISO/IEC, 1993. JTC1/SC29/WG11.

[4] ISO/IEC 13818-1, "Information technology - generic coding of moving pictures
and associated audio information: Systems," international standard, ISO/IEC, 2000. ISO/IEC JTC1/SC29.

[5] J. Herre and J. D. Johnston, "Enhancing the performance of perceptual audio
coders by using temporal noise shaping (TNS)," in 101st Audio Engineering Society
Convention, no. 4384, AES, November 1996.

[6] B. Edler, "Codierung von audiosignalen mit uberlappender transformation und
adaptiven fensterfunktionen," Frequenz - Zeitschrift fur Telekommunikation,
vol. 43, pp. 253-256, September 1989.

[7] I. Samaali, M. T.-H. Alouane, and G. Mahe, "Temporal envelope correction for attack
restoration im low bit-rate audio coding," in 17th European Signal Processing
Conference (EUSIPCO), (Glasgow, Scotland), IEEE, August 2009.

[8] J. Lapierre and R. Lefebvre, "Pre-echo noise reduction in frequency-domain audio
codecs," in 42nd IEEE International Conference on Acoustics, Speech and Signal
Processing, pp. 686-690, IEEE, March 2017.

[9] A. V. Oppenheim and R. W. Schafer, Discrete-Time Signal Processing. Harlow,
UK: Pearson Education Limited, 3. ed., 2014.

[10] J. G. Proakis and D. G. Manolakis, Digital Signal Processing - Principles, Algorithms,
and Applications. New Jersey, US: Pearson Education Limited, 4. ed., 2007.

[11] J. Benesty, J. Chen, and Y. Huang, Springer handbook of speech processing, ch. 7.
Linear Prediction, pp. 121-134. Berlin: Springer, 2008.

[12] J. Makhoul, "Spectral analysis of speech by linear prediction," in IEEE Transactions
on Audio and Electroacoustics, vol. 21, pp. 140-148, IEEE, June 1973.

[13] J. Makhoul, "Linear prediction: A tutorial review," in Proceedings of the IEEE,
vol. 63, pp. 561-580, IEEE, April 2000.

[14] M. Athineos and D. P.W. Ellis, "Frequency-domain linear prediction for temporal
features," in IEEE Workshop on Automatic Speech Recognition and Understanding,
pp. 261-266, IEEE, November 2003.

[15] F. Keiler, D. Arfib, and U. Zolzer, "Efficient linear prediction for digital audio
effects," in COST G-6 Conference on Digital Audio Effects (DAFX-00), (Verona,
Italy), December 2000.

[16] J. Makhoul, "Spectral linear prediction: Properties and applications," in IEEE
Transactions on Acoustics, Speech, and Signal Processing, vol. 23, pp. 283-296,
IEEE, June 1975.

[17] T. Painter and A. Spanias, "Perceptual coding of digital audio," in Proceedings of
the IEEE, vol. 88, April 2000.

[18] J. Makhoul, "Stable and efficient lattice methods for linear prediction," in
IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-25,
pp. 423-428, IEEE, October 1977.

[19] N. Levinson, "The wiener rms (root mean square) error criterion in filter design
and prediction," Journal of Mathematics and Physics, vol. 25, pp. 261-278, April
1946.

[20] J. Herre, "Temporal noise shaping, qualtization and coding methods in perceptual
audio coding: A tutorial introduction," in Audio Engineering Society Conference:
17th International Conference: High-Quality Audio Coding, vol. 17, AES, August
1999.

[21] M. R. Schroeder, "Linear prediction, entropy and signal analysis," IEEE ASSP
Magazine, vol. 1, pp. 3-11, July 1984.

[22] L. Daudet, S. Molla, and B. Torresani, "Transient detection and encoding using
wavelet coeffcient trees," Colloques sur le Traitement du Signal et des Images,
September 2001.

[23] B. Edler and O. Niemeyer, "Detection and extraction of transients for audio coding,"
in Audio Engineering Society Convention 120, no. 6811, (Paris, France), May 2006.

[24] J. Kliewer and A. Mertins, "Audio subband coding with improved representation
of transient signal segments," in 9th European Signal Processing Conference, vol. 9, (Rhodes), pp. 1-4, IEEE, September 1998.

[25] X. Rodet and F. Jaillet, "Detection and modeling of fast attack transients," in
Proceedings of the International Computer Music Conference, (Havana, Cuba),
pp. 30-33, 2001.

[26] J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, and M. Davies, "A tutorial on
onset detection in music signals," IEEE Transactions on Speech and Audio Processing,
vol. 13, pp. 1035-1047, September 2005.

[27] V. Suresh Babu, A. K. Malot, V. Vijayachandran, and M. Vinay, "Transient detection
for transform domain coders," in Audio Engineering Society Convention 116, no. 6175, (Berlin, Germany), May 2004.

[28] P. Masri and A. Bateman, "Improved modelling of attack transients in music
analysis-resynthesis," in International Computer Music Conference, pp. 100-103,
January 1996.

[29] M. D. Kwong and R. Lefebvre, "Transient detection of audio signals based on an
adaptive comb filter in the frequency domain," in Conference on Signals, Systems
and Computers, 2004. Conference Record of the Thirty-Seventh Asilomar, vol. 1,
pp. 542-545, IEEE, November 2003.

[30] X. Zhang, C. Cai, and J. Zhang, "A transient signal detection technique based
on flatness measure," in 6th International Conference on Computer Science and
Education, (Singapore), pp. 310-312, IEEE, August 2011.

[31] J. D. Johnston, "Transform coding of audio signals using perceptual noise criteria,"
IEEE Journal on Selected Areas in Communications, vol. 6, pp. 314-323,
February 1988.

[32] J. Herre and S. Disch, Academic press library in Signal processing, vol. 4, ch. 28.
Perceptual Audio Coding, pp. 757-799. Academic press, 2014.

[33] H. Fastl and E. Zwicker, Psychoacoustics - Facts and Models. Heidelberg:
Springer, 3. ed., 2007.

[34] B. C. J. Moore, An Introduction to the Psychology of Hearing. London: Emerald,
6. ed., 2012.

[35] P. Dallos, A. N. Popper, and R. R. Fay, The Cochlea. New York: Springer, 1. ed.,
1996.

[36] W. M. Hartmann, Signals, Sound, and Sensation. Springer, 5. ed., 2005.

[37] K. Brandenburg, C. Faller, J. Herre, J. D. Johnston, and B. Kleijn, "Perceptual
coding of high-quality digital audio," in IEEE Transactions on Acoustics, Speech,
and Signal Processing, vol. 101, pp. 1905-1919, IEEE, September 2013.

[38] H. Fletcher andW. A. Munson, "Loudness, its definition, measurement and calculation," The Bell System Technical Journal, vol. 12, no. 4, pp. 377-430, 1933.

[39] H. Fletcher, "Auditory patterns," Reviews of Modern Physics, vol. 12, no. 1,
pp. 47-65, 1940.

[40] M. Bosi and R. E. Goldberg, Introduction to Digital Audio Coding and Standards.
Kluwer Academic Publishers, 1. ed., 2003.
[41] P. Noll, "MPEG digital audio coding," IEEE Signal Processing Magazine, vol. 14,
pp. 59-81, September 1997.

[42] D. Pan, "A tutorial on MPEG/audio compression," IEEE MultiMedia, vol. 2, no. 2,
pp. 60-74, 1995.

[43] M. Erne, "Perceptual audio coders "what to listen for"," in 111st Audio Engineering
Society Convention, no. 5489, AES, September 2001.

[44] C.-M. Liu, H.-W. Hsu, and W. Lee, "Compression artifacts in perceptual audio
coding," in IEEE Transactions on Audio, Speech, and Language Processing,
vol. 16, pp. 681-695, IEEE, May 2008.

[45] L. Daudet, "A review on techniques for the extraction of transients in musical
signals," in Proceedings of the Third international conference on Computer Music,
pp. 219-232, September 2005.

[46] W.-C. Lee and C.-C. J. Kuo, "Musical onset detection based on adaptive linear
prediction," in IEEE International Conference on Multimedia and Expo, (Toronto,
Ontario), pp. 957-960, IEEE, July 2006.

[47] M. Link, "An attack processing of audio signals for optimizing the temporal characteristics of a low bit-rate audio coding system," in Audio Engineering Society
Convention, vol. 95, October 1993.

[48] T. Vaupel, Ein Beitrag zur Transformationscodierung von Audiosignalen unter
Verwendung der Methode der "Time Domain Aliasing Cancellation (TDAC)" und
einer Signalkompandierung im Zeitbereich. Ph.d. thesis, Universitat Duisburg,
Duisburg, Germany, April 1991.

[49] G. Bertini, M. Magrini, and T. Giunti, "A time-domain system for transient enhancement in recorded music," in 14th European Signal Processing Conference
(EUSIPCO), (Florence, Italy), IEEE, September 2013.

[50] C. Duxbury, M. Sandler, and M. Davies, "A hybrid approach to musical note onset
detection," in Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02),
(Hamburg, Germany), pp. 33-38, September 2002.

[51] A. Klapuri, "Sound onset detection by applying psychoacoustic knowledge," in
Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal
Processing, March 1999.

[52] S. L. Goh and D. P. Mandic, "Nonlinear adaptive prediction of complex-valued
signals by complex-valued PRNN," in IEEE Transactions on Signal Processing,
vol. 53, pp. 1827-1836, IEEE, May 2005.

[53] S. Haykin and L. Li, "Nonlinear adaptive prediction of nonstationary signals," in
IEEE Transactions on Signal Processing, vol. 43, pp. 526-535, IEEE, February
1995.

[54] D. P. Mandic, S. Javidi, S. L. Goh, and K. Aihara, "Complex-valued prediction of
wind profile using augmented complex statistics," in Renewable Energy, vol. 34,
pp. 196-201, Elsevier Ltd., January 2009.

[55] B. Edler, "Parametrization of a pre-masking model." Personal communication,
November 22, 2016.

[56] ITU-R Recommendation BS.1116-3, "Method for the subjective assessment of
small impairments in audio systems," recommendation, International Telecommunication
Union, Geneva, Switzerland, February 2015.

[57] ITU-R Recommendation BS.1534-3, "Method for the subjective assessment of
intermediate quality level of audio systems," recommendation, International
Telecommunication Union, Geneva, Switzerland, October 2015.

[58] ITU-R Recommendation BS.1770-4, "Algorithms to measure audio programme
loudness and true-peak audio level," recommendation, International Telecommunication
Union, Geneva, Switzerland, October 2015.

[59] S. M. Ross, Introduction to Probability and Statistics for Engineers and Scientists. Elsevier, 3. ed., 2004.

Claims (15)

  1. オーディオ信号を時間周波数表現に変換するための変換器(100)と、
    前記オーディオ信号または前記時間周波数表現を使用して、トランジェント部分の時間上の位置を推定するためのトランジェント位置推定器(120)と、
    前記時間周波数表現を操作するための信号操作器(140)と、
    を備える、前記オーディオ信号を後処理(20)するための装置であって、
    前記信号操作器は時間的に前記トランジェント位置の前の位置における時間周波数表現内のプレエコーを低減(220)または除去するように構成され、前記信号操作器(140)は、プレエコー幅内の前記時間周波数表現内のスペクトル値についてプレエコー閾値を推定するためのプレエコー閾値推定器(260)を含み、前記プレエコー閾値は前記プレエコーの低減または除去後の対応するスペクトル値の振幅閾値を示し、前記プレエコー閾値推定器(260)は、前記プレエコー幅の開始から前記トランジェント位置まで増加特性を有する重み付け曲線を使用して前記プレエコー閾値を決定するように構成される、または、
    前記信号操作器(140)は前記トランジェント位置の前記時間周波数表現の整形(500)を行って前記トランジェント部分のアタックを増幅させるように構成され、前記信号操作器(140)は前記トランジェント位置の前記時間周波数表現を持続部分と前記トランジェント部分とに分割(630)するように構成され、前記信号操作器(140)は前記トランジェント部分のみを増幅して前記持続部分を増幅しないように構成され、前記信号操作器(140)は前記持続部分と増幅された前記トランジェント部分とを結合(640)して後処理済オーディオ信号を得るように構成される、
    オーディオ信号を後処理(20)するための装置。
  2. 前記信号操作器(140)は、前記トランジェント部分に時間的に先行する前記時間周波数表現におけるトーン信号成分を検出するためのトーン推定器(200)を備え、
    前記信号操作器(140)は、トーン信号成分が検出された周波数において、前記トーン信号成分が検出されなかった周波数と比較して前記信号操作が低減またはスイッチオフされるように前記プレエコー低減または除去(220)を周波数選択的に適用するように構成される、請求項1に記載の装置。
  3. 前記信号操作器(140)は、前記トランジェント位置に先行する前記プレエコー幅の時間的な幅を前記オーディオ信号の信号エネルギーの経時的な展開に基づいて推定して、前記時間周波数表現における複数の後続するオーディオ信号フレームを含むプレエコー開始フレームを決定するように構成されるプレエコー幅推定器(240)を含む、請求項1または2に記載の装置。
  4. 前記プレエコー閾値推定器(260)は、
    前記時間周波数表現を前記時間周波数表現の後続する複数のフレーム上に平滑化(330)し、また、
    前記プレエコー幅の開始から前記トランジェント位置までの前記増加特性を有する前記重み付け曲線を使用して平滑化された前記時間周波数表現を重み付け(340)するように構成される、請求項1ないしの1項に記載の装置。
  5. 前記信号操作器(140)は、
    前記時間周波数表現のスペクトル値のための個々のスペクトル重み付けを計算するためのスペクトル重み付け計算機(300,160)と、
    前記スペクトル重み付けを使用して前記時間周波数表現のスペクトル値を重み付けして、操作された時間周波数表現を得るためのスペクトル重み付け器(320)と、
    を含む、請求項1ないし4の1項に記載の装置。
  6. 前記スペクトル重み付け計算機(300)は、
    実際のスペクトル値とターゲットスペクトル値とを使用して生のスペクトル重み付けを決定(450)する、または、
    前記時間周波数表現のフレーム内で前記生のスペクトル重み付けを周波数的に平滑化(460)する、または、
    前記プレエコー幅の開始における複数のフレームに対して減衰曲線を使用して前記プレエコーの低減または除去を漸増(430)させる、または、
    プレエコー閾値未満の振幅を有する前記スペクトル値が前記信号操作の影響を受けないように前記ターゲットスペクトル値を決定(420)する、あるいは、
    前記プレエコー幅におけるスペクトル値のダンピングがプレマスキングモデル(410)に基づいて低減されるように前記プレマスキングモデル(410)を使用して前記ターゲットスペクトル値を決定(420)する
    ように構成される、請求項5に記載の装置。
  7. 前記時間周波数表現は複素スペクトル値を含み、
    前記信号操作器(140)は実数値のスペクトル重み付け値を前記複素スペクトル値に適用する
    ように構成される、請求項1ないし6の1項に記載の装置。
  8. 前記信号操作器(140)は、前記時間周波数表現のトランジェントフレーム内のスペクトル値を増幅(500)するように構成される、請求項1ないし7の1項に記載の装置。
  9. 前記信号操作器(140)は、最小周波数を超えるスペクトル値のみを増幅するように構成され、前記最小周波数は250Hzよりも大きく2kHzよりも小さい、請求項1ないし8の1項に記載の装置。
  10. 前記信号操作器(140)は、減衰特性(685)を使用して、前記トランジェント位置に時間的に後続する前記時間周波数表現の時間部分も増幅するように構成される、請求項1ないし9の1項に記載の装置。
  11. スペクトル値は前記持続部分と前記トランジェント部分を含み、
    前記信号操作器(140)は前記スペクトル値のためのスペクトル重み付け係数を、前記スペクトル値の持続部分、増幅された前記トランジェント部分および前記スペクトル値の大きさを使用して計算(680)するように構成され、前記増幅されたトランジェント部分の増幅量はあらかじめ定められ、且つ300%と150%の間である、あるいは、
    前記スペクトル重み付け係数は周波数にわたって平滑化(690)される、請求項1ないし10の1項に記載の装置。
  12. 前記時間周波数表現の少なくとも隣接したフレームにかかわるオーバーラップ加算演算を使用して、操作された時間周波数表現を時間領域に変換するためのスペクトル時間変換器(370)をさらに含む、請求項1ないし11の1項に記載の装置。
  13. 前記変換器(100)は、1~3msのホップサイズまたはウィンドウ長2~6msの分析ウィンドウを適用するように構成される、または
    操作された時間周波数表現を時間領域に変換するためのスペクトル時間変換器(370)をさらに含み、前記スペクトル時間変換器(370)は、オーバーラップウィンドウのオーバーラップサイズに相当する、または前記変換器(100)が使用する1~3msのホップサイズに相当するオーバーラップ範囲を使用、あるいはウィンドウ長2~6msの合成ウィンドウを使用するように構成される、あるいは前記分析ウィンドウと前記合成ウィンドウとは互いに同一である、請求項1ないし11のいずれかに記載の装置。
  14. オーディオ信号を時間周波数表現に変換するステップ(100)と、
    前記オーディオ信号または前記時間周波数表現を使用してトランジェント部分の時間上のトランジェント位置を推定するステップ(120)と、
    時間的に前記トランジェント位置の前の位置における前記時間周波数表現内のプレエコーを低減(220)または除去するために前記時間周波数表現を操作するステップ(140)であって、前記操作するステップ(140)は、プレエコー幅内の前記時間周波数表現内のスペクトル値についてプレエコー閾値を推定するステップを含み、前記プレエコー閾値は前記プレエコーの低減または除去後の対応するスペクトル値の振幅閾値を示し、前記推定するステップは、前記プレエコー幅の開始から前記トランジェント位置まで増加特性を有する重み付け曲線を使用して前記プレエコー閾値を決定するステップを含む、操作するステップ(140)、または、
    前記トランジェント位置の前記時間周波数表現の整形(500)を行って前記トランジェント部分のアタックを増幅させるために前記時間周波数表現を操作するステップ(140)であって、前記操作するステップ(140)は、前記トランジェント位置の前記時間周波数表現を持続部分と前記トランジェント部分とに分割するステップ(630)と、前記トランジェント部分のみを増幅して前記持続部分を増幅しないステップと、前記持続部分と増幅された前記トランジェント部分とを結合(640)して後処理済オーディオ信号を得るステップとを含む、操作するステップ(140)と、
    を含む、
    前記オーディオ信号を後処理(20)するための方法。
  15. コンピュータまたはプロセッサ上で動作するときに、請求項14に記載の方法を実行するためのコンピュータプログラム。
JP2019553970A 2017-03-31 2018-03-28 トランジェント位置検出を使用したオーディオ信号の後処理のための装置 Active JP7055542B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP17164350.5 2017-03-31
EP17164350 2017-03-31
EP17183134.0A EP3382700A1 (en) 2017-03-31 2017-07-25 Apparatus and method for post-processing an audio signal using a transient location detection
EP17183134.0 2017-07-25
PCT/EP2018/025076 WO2018177608A1 (en) 2017-03-31 2018-03-28 Apparatus for post-processing an audio signal using a transient location detection

Publications (2)

Publication Number Publication Date
JP2020512598A JP2020512598A (ja) 2020-04-23
JP7055542B2 true JP7055542B2 (ja) 2022-04-18

Family

ID=58632739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019553970A Active JP7055542B2 (ja) 2017-03-31 2018-03-28 トランジェント位置検出を使用したオーディオ信号の後処理のための装置

Country Status (7)

Country Link
US (1) US11373666B2 (ja)
EP (2) EP3382700A1 (ja)
JP (1) JP7055542B2 (ja)
CN (1) CN110832581B (ja)
BR (1) BR112019020515A2 (ja)
RU (1) RU2734781C1 (ja)
WO (1) WO2018177608A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3382701A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
MA52530A (fr) 2018-04-25 2021-03-03 Dolby Int Ab Intégration de techniques de reconstruction audio haute fréquence
MA50760A (fr) 2018-04-25 2020-06-10 Dolby Int Ab Intégration de techniques de reconstruction haute fréquence à retard post-traitement réduit
EP3900284B1 (en) * 2018-12-17 2023-11-08 U-blox AG Estimating one or more characteristics of a communications channel
CN112863539B (zh) * 2019-11-28 2024-04-16 科大讯飞股份有限公司 一种高采样率语音波形生成方法、装置、设备及存储介质
WO2021142136A1 (en) * 2020-01-07 2021-07-15 The Regents Of The University Of California Embodied sound device and method
TWI783215B (zh) * 2020-03-05 2022-11-11 緯創資通股份有限公司 信號處理系統及其信號降噪的判定方法與信號補償方法
CN111429926B (zh) * 2020-03-24 2022-04-15 北京百瑞互联技术有限公司 一种优化音频编码速度的方法和装置
CN111768793B (zh) * 2020-07-11 2023-09-01 北京百瑞互联技术有限公司 一种lc3音频编码器编码优化方法、系统、存储介质
US11916634B2 (en) * 2020-10-22 2024-02-27 Qualcomm Incorporated Channel state information (CSI) prediction and reporting
CN113421592B (zh) * 2021-08-25 2021-12-14 中国科学院自动化研究所 篡改音频的检测方法、装置及存储介质
CN114678037B (zh) * 2022-04-13 2022-10-25 北京远鉴信息技术有限公司 一种重叠语音的检测方法、装置、电子设备及存储介质
CN118136042A (zh) * 2024-05-10 2024-06-04 四川湖山电器股份有限公司 基于iir频谱拟合的频谱优化方法、系统、终端及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013136846A1 (ja) 2012-03-12 2013-09-19 クラリオン株式会社 音響信号処理装置および音響信号処理方法
JP2016502139A (ja) 2012-11-26 2016-01-21 ハーマン インターナショナル インダストリーズ インコーポレイテッド 圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法
JP2016506543A (ja) 2012-12-21 2016-03-03 オランジュ デジタルオーディオ信号におけるプリエコーの効率的な減衰

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996016533A2 (en) * 1994-11-25 1996-06-06 Fink Fleming K Method for transforming a speech signal using a pitch manipulator
JPH08223049A (ja) * 1995-02-14 1996-08-30 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法
US5825320A (en) * 1996-03-19 1998-10-20 Sony Corporation Gain control method for audio encoding device
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
ES2292581T3 (es) * 2000-03-15 2008-03-16 Koninklijke Philips Electronics N.V. Funcion laguerre para la codificacion de audio.
KR20020070374A (ko) * 2000-11-03 2002-09-06 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호들의 매개변수적 코딩
US7930170B2 (en) * 2001-01-11 2011-04-19 Sasken Communication Technologies Limited Computationally efficient audio coder
MXPA03010237A (es) * 2001-05-10 2004-03-16 Dolby Lab Licensing Corp Mejoramiento del funcionamiento de transitorios en sistemas de codificacion de audio de baja tasa de transferencia de bitios mediante la reduccion del pre-ruido.
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
KR100462615B1 (ko) 2002-07-11 2004-12-20 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
WO2004008437A2 (en) * 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
SG108862A1 (en) * 2002-07-24 2005-02-28 St Microelectronics Asia Method and system for parametric characterization of transient audio signals
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
WO2006011445A1 (ja) * 2004-07-28 2006-02-02 Matsushita Electric Industrial Co., Ltd. 信号復号化装置
US7418394B2 (en) * 2005-04-28 2008-08-26 Dolby Laboratories Licensing Corporation Method and system for operating audio encoders utilizing data from overlapping audio segments
US8121836B2 (en) * 2005-07-11 2012-02-21 Lg Electronics Inc. Apparatus and method of processing an audio signal
FR2888704A1 (ja) * 2005-07-12 2007-01-19 France Telecom
US7565289B2 (en) * 2005-09-30 2009-07-21 Apple Inc. Echo avoidance in audio time stretching
US8473298B2 (en) * 2005-11-01 2013-06-25 Apple Inc. Pre-resampling to achieve continuously variable analysis time/frequency resolution
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
FR2897733A1 (fr) * 2006-02-20 2007-08-24 France Telecom Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant
US8417532B2 (en) * 2006-10-18 2013-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding an information signal
EP2186090B1 (en) * 2007-08-27 2016-12-21 Telefonaktiebolaget LM Ericsson (publ) Transient detector and method for supporting encoding of an audio signal
US8015002B2 (en) * 2007-10-24 2011-09-06 Qnx Software Systems Co. Dynamic noise reduction using linear model fitting
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
US8630848B2 (en) * 2008-05-30 2014-01-14 Digital Rise Technology Co., Ltd. Audio signal transient detection
ES2758799T3 (es) * 2008-07-11 2020-05-06 Fraunhofer Ges Forschung Método y aparato para codificar y decodificar una señal de audio y programas informáticos
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
AR075199A1 (es) * 2009-01-28 2011-03-16 Fraunhofer Ges Forschung Codificador de audio decodificador de audio informacion de audio codificada metodos para la codificacion y decodificacion de una senal de audio y programa de computadora
CA3107567C (en) * 2009-01-28 2022-08-02 Dolby International Ab Improved harmonic transposition
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
ATE526662T1 (de) * 2009-03-26 2011-10-15 Fraunhofer Ges Forschung Vorrichtung und verfahren zur änderung eines audiosignals
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
ES2533098T3 (es) * 2009-10-20 2015-04-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de señal de audio, decodificador de señal de audio, método para proveer una representación codificada de un contenido de audio, método para proveer una representación decodificada de un contenido de audio y programa de computación para su uso en aplicaciones de bajo retardo
JP5422664B2 (ja) 2009-10-21 2014-02-19 パナソニック株式会社 音響信号処理装置、音響符号化装置および音響復号装置
US8793126B2 (en) * 2010-04-14 2014-07-29 Huawei Technologies Co., Ltd. Time/frequency two dimension post-processing
CN101908342B (zh) * 2010-07-23 2012-09-26 北京理工大学 利用频域滤波后处理进行音频暂态信号预回声抑制的方法
JP5849106B2 (ja) * 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
DE102011011975A1 (de) 2011-02-22 2012-08-23 Valeo Klimasysteme Gmbh Luftansaugvorrichtung einer Fahrzeuginnenraumbelüftungsanlage und Fahrzeuginnenraumbelüftungsanlage
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
WO2013075753A1 (en) * 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
EP2786377B1 (en) * 2011-11-30 2016-03-02 Dolby International AB Chroma extraction from an audio codec
WO2013138747A1 (en) * 2012-03-16 2013-09-19 Yale University System and method for anomaly detection and extraction
MY168806A (en) 2012-06-28 2018-12-04 Fraunhofer Ges Forschung Linear prediction based audio coding using improved probability distribution estimation
FR2992766A1 (fr) * 2012-06-29 2014-01-03 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
SG11201506542QA (en) * 2013-02-20 2015-09-29 Fraunhofer Ges Forschung Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap
US9818424B2 (en) * 2013-05-06 2017-11-14 Waves Audio Ltd. Method and apparatus for suppression of unwanted audio signals
EP2830056A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain
EP2916321B1 (en) * 2014-03-07 2017-10-25 Oticon A/s Processing of a noisy audio signal to estimate target and noise spectral variances
JP6035270B2 (ja) 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
FR3025923A1 (fr) * 2014-09-12 2016-03-18 Orange Discrimination et attenuation de pre-echos dans un signal audionumerique
CA2976864C (en) * 2015-02-26 2020-07-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal to obtain a processed audio signal using a target time-domain envelope
US10861475B2 (en) * 2015-11-10 2020-12-08 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
EP3182410A3 (en) * 2015-12-18 2017-11-01 Dolby International AB Enhanced block switching and bit allocation for improved transform audio coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013136846A1 (ja) 2012-03-12 2013-09-19 クラリオン株式会社 音響信号処理装置および音響信号処理方法
JP2016502139A (ja) 2012-11-26 2016-01-21 ハーマン インターナショナル インダストリーズ インコーポレイテッド 圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法
JP2016506543A (ja) 2012-12-21 2016-03-03 オランジュ デジタルオーディオ信号におけるプリエコーの効率的な減衰

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jimmy Lapierre et al.,Pre-echo noise reduction in frequency-domain audio codecs,2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),IEEE,2017年03月,pp.686-690,https://ieeexplore.ieee.org/document/7952243,IEL Online (IEEE Xplore)

Also Published As

Publication number Publication date
RU2734781C1 (ru) 2020-10-23
WO2018177608A1 (en) 2018-10-04
BR112019020515A2 (pt) 2020-05-05
CN110832581A (zh) 2020-02-21
US11373666B2 (en) 2022-06-28
EP3602549B1 (en) 2021-08-25
US20200020349A1 (en) 2020-01-16
EP3602549A1 (en) 2020-02-05
CN110832581B (zh) 2023-12-29
EP3382700A1 (en) 2018-10-03
JP2020512598A (ja) 2020-04-23

Similar Documents

Publication Publication Date Title
JP7055542B2 (ja) トランジェント位置検出を使用したオーディオ信号の後処理のための装置
JP7383067B2 (ja) 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
CN107925388B (zh) 后置处理器、预处理器、音频编解码器及相关方法
CN110870007B (zh) 确定与音频信号的人工带宽限制有关的特性的装置和方法
US10170126B2 (en) Effective attenuation of pre-echoes in a digital audio signal
JP7261173B2 (ja) 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法
JP6728142B2 (ja) デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置
Lin et al. Speech enhancement for nonstationary noise environment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210105

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220331

R150 Certificate of patent or registration of utility model

Ref document number: 7055542

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150