JP7055542B2 - トランジェント位置検出を使用したオーディオ信号の後処理のための装置 - Google Patents
トランジェント位置検出を使用したオーディオ信号の後処理のための装置 Download PDFInfo
- Publication number
- JP7055542B2 JP7055542B2 JP2019553970A JP2019553970A JP7055542B2 JP 7055542 B2 JP7055542 B2 JP 7055542B2 JP 2019553970 A JP2019553970 A JP 2019553970A JP 2019553970 A JP2019553970 A JP 2019553970A JP 7055542 B2 JP7055542 B2 JP 7055542B2
- Authority
- JP
- Japan
- Prior art keywords
- time
- transient
- signal
- spectral
- echo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001052 transient effect Effects 0.000 title claims description 197
- 230000005236 sound signal Effects 0.000 title claims description 64
- 238000012805 post-processing Methods 0.000 title claims description 19
- 238000001514 detection method Methods 0.000 title description 43
- 230000003595 spectral effect Effects 0.000 claims description 147
- 238000007493 shaping process Methods 0.000 claims description 69
- 238000000034 method Methods 0.000 claims description 64
- 230000000873 masking effect Effects 0.000 claims description 35
- 230000009467 reduction Effects 0.000 claims description 31
- 238000001228 spectrum Methods 0.000 claims description 27
- 230000003321 amplification Effects 0.000 claims description 18
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 14
- 230000002123 temporal effect Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 10
- 230000001965 increasing effect Effects 0.000 claims description 9
- 230000002829 reductive effect Effects 0.000 claims description 9
- 230000002459 sustained effect Effects 0.000 claims description 8
- 239000002131 composite material Substances 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013016 damping Methods 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 67
- 230000006870 function Effects 0.000 description 21
- 238000013139 quantization Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 239000000523 sample Substances 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 210000002469 basement membrane Anatomy 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 239000003638 chemical reducing agent Substances 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 230000001939 inductive effect Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 241000587212 Esox masquinongy Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000002592 echocardiography Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000001976 improved effect Effects 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 210000003477 cochlea Anatomy 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 241000292573 Spania Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Description
信号内のトランジェント位置をガイドなしで検出して、トランジェント位置を見つける
トランジェントに先行するプレエコー期間と強度の推定
プレエコーアーチファクトをミュートするための適切な時間的ゲイン曲線の導出
トランジェント前の適応された時間ゲインカーブによる推定プレエコーのダッキング/ダンピング(プレエコーを緩和するため)
アタック時、アタックの分散を緩和
トーンまたはその他の準定常スペクトル帯域のダッキングからの除外
信号内のトランジェント位置をガイドなしで検出して、トランジェント位置を見つける(この手順はオプション)
周波数領域線形予測係数(FD-LPC)平坦化フィルタと後続のFD-LPC整形フィルタとの適用によるアタックエンベロープの鮮鋭化、平坦化フィルタは平滑化された時間エンベロープを表し、整形フィルタは平滑性の低い時間エンベロープを表し、両方のフィルタの予測ゲインが補償される。
線形予測(LP)はオーディオのエンコードのために有用な方法である。いくつかの過去の研究は音声生成過程[11, 12, 13]をモデル化できる能力を部分的に記述する一方、他は一般にオーディオ信号の分析のためにそれを適用する[14, 15, 16, 17] 。次のセクションは[11, 12, 13, 15, 18]に基づく。
フィルタ係数が時間信号上で計算された場合、LPCフィルタの重要な特徴は、周波数領域における信号の特徴をモデル化するその能力である。時系列の予測と同等で、線形予測はシーケンスのスペクトルを近似する。予測次数に依存してLPCフィルタは信号周波数応答のより詳細なあるいはあまり詳細でないエンベロープを計算するのに使用できる。以下のセクションは[11, 12, 13, 14, 16, 17, 20, 21]に基づく。
文字通り、トランジェントの多くの異なる定義が見いだせる。ある人はそれを開始またはアタック[22、23、24、25]と呼ぶが、他の人はこれらの用語を使ってトランジェントを説明する[26、27]。このセクションはトランジェントを定義しこの開示の目的についてそれらを特徴付ける異なるアプローチを記述することを目的とする。
トランジェント、開始およびアタックの概念の間の相違は、この論文に採用されるBelloら[26]に見出すことができる。これらの語句の相違はカスタネットにより生成されるトランジェント信号の例を使用して図12-9に示される。
・一般に、トランジェントの概念は依然著者らにより包括的に定義されていない が、それらは区別可能な瞬間よりも短い瞬間として特徴付けている。このトラ ンジェント周期において信号の増幅は相対的に予測不能な方法で急速に立ち上 がる。しかしながら、それは、増幅後のトランジェントの終了がそのピークに 達するところで正確に定義されない。それらのかなり非公式な定義において、 増幅減衰の部分をトランジェント間隔に含む。この特性評価により、アコース ティック楽器はトランジェントを生成し、その間、それらは励起し(例えば、 ギターの弦が弾かれたり、スネアドラムが叩かれたとき)、その後、減衰する 。この最初の減衰の後、次のより遅い信号減衰は、楽器本体の共振周波数によ ってのみ引き起こされる。
・開始は、信号の振幅が上昇し始める瞬間である。この文献について、開始はト ランジェントの開始時間として定義される。
・トランジェントのアタックは増幅度が増大する間の開始とピークとの間のトランジェント内の期間である。
このセクションでは、知覚オーディオ符号化と、後で説明するトランジェント強化アルゴリズムで使用される心理音響概念への基本的な入門を提供する。心理音響学の目的は、“音響信号の測定可能な物理的特性と、これらの音響が聴取者に呼び起こす内部知覚”との関係を記述することである[32]。人間の聴覚には限界があり、オーディオコンテンツの符号化プロセスで知覚オーディオ符号化器がこれを活用して、符号化されたオーディオ信号のビットレートを大幅に低減できる。知覚的オーディオ符号化の目標は、デコードされたオーディオ信号が元の信号に正確にまたはできるだけ近く聞こえるようにオーディオ素材をエンコードすることであるが[1]、それでもいくつかの可聴符号化アーチファクトが生じる可能性がある。これらのアーティファクトの起源を理解するために必要な背景と、知覚オーディオ符号化器によって使用される心理音響モデルがこのセクションでどのように提供されるかを説明する。読者は、心理音響学に関するより詳細な説明について[33、34]を参照されたい。
同時マスキングとは、両方の音の周波数が近い場合に、強い音(マスカー)が同時に聞こえると、1つの音(マスキー)が人間の聞き手に聞こえない心理音響現象を指す。この現象を説明するために広く使用されている例は、道路脇の2人の間の会話である。干渉するノイズがないため、お互いを完全に知覚できるが、車やトラックが通過する場合は、お互いを理解し続けるために、声量を上げる必要がある。
マスキングは、マスカーとマスキーが同時に提示される場合だけでなく、時間的に分離されている場合にも有効である。プローブ音は、マスカーが存在する期間の前後にマスクすることができ[40]、これは、プレマスキングおよびポストマスキングと呼ばれる。時間的なマスキング効果の図を図2.11に示す。マスキング音の開始前にプレマスキングが行われ、マスキング音は、t の負の値に対して示される。プレマスキング期間の後、同時マスキングが有効になり、マスカーがオンになった直後にオーバーシュート効果があり、同時マスキング閾値が一時的に増加する[37]。マスカーがオフになった後(t の正の値を示す)、ポストマスキングが有効になる。プレマスキングは、提示された音の知覚を生成するために聴覚システムが必要とする統合時間で説明できる[40]。さらに、より大きな音は、より弱い音よりも聴覚システムによってより速く処理される[33]。プレマスキングが発生する期間は、特定の聴者のトレーニング量に大きく依存し[17, 34] 、最大20ミリ秒[33]持続するが、マスカー開始前の1~5ミリ秒の期間でのみ重要である[17, 37] 。ポストマスキングの量は、マスカーとプローブ音の両方の周波数、マスカーのレベルと持続時間、およびプローブ音とマスカーがオフになる瞬間の間の期間に依存する[17, 34]。Moore[34]によると、ポストマスキングは少なくとも20ミリ秒間有効であり、他の研究では約200ミリ秒までのさらに長い持続時間を示す[33]。さらに、PainterとSpaniasは、ポストマスキングは「マスカーとプローブの周波数関係が変化したときに観察できる同時マスキングと同様の周波数依存の動作も示す」と述べている[17, 34]。
知覚オーディオ符号化の目的はオーディオ信号を、結果として生じるビットレートが元のオーディオと比較して可能な限り小さくなるが、再構成された(復号化された)信号が非圧縮信号[1, 17, 32, 37, 41, 42]と区別されるべきでない透過的な音質を維持するように圧縮することである。これは人間の聴覚システムのいくつかの制限を利用して入力信号から冗長かつ無関係な情報を除去することで行われる。冗長性は例えば後続の信号サンプル、スペクトル係数または異なる音声チャンネル間の相関を利用することによりおよび適当なエントロピー符号化により除去できる一方、非相関性はスペクトル係数の量子化により処理することが可能である。
モノラル知覚オーディオ符号化器の基本的構造は、図12-12に描かれている。最初に、入力オーディオ信号は分析フィルタバンクを適用することで周波数領域表現に変換される。このようにして、受信したスペクトル係数を「周波数成分に応じて」選択的に量子化することができる[32]。量子化ブロックはスペクトル係数の連続値を値の離散セットにまるめて符号化オーディオ信号におけるデータ量を削減する。このようにして、復号化器において元の信号の正確な値を再構成することは不可能であるので、圧縮は非可逆となる。この量子化誤差の導入は量子化雑音として言及される付加雑音信号とみなすことができる。量子化は、各分析ウィンドウにおける各スペクトル係数について時間および同時マスキング閾値を計算する知覚モデルの出力により導かれる。静寂下における絶対的閾値は“16ビット整数値における±1最下位ビットのピークの大きさを有する4kHzの信号がヒアリングでの絶対的閾値である”[31]ことを仮定することにより利用することも可能である。ビット割当てブロックにおいて、これらのマスキング閾値は含まれる量子化雑音が人間の聴者が非可聴になるように必要なビットの数を決定するのに使用される。さらに、計算されたマスキング閾値を下回るスペクトル係数(およびそれ故人間の聴覚上の認識に無関係である)は送信されるべき必要がなく0に量子化できる。量子化されたスペクトル係数は従って信号データにおける冗長性を削減する(例えばハフマン符号化または算術符号化により)エントロピー符号化される。最終的に符号化オーディオ信号のみならず量子化スケール係数に類似の付加サイド情報は単一ビットストリームを形成するようにマルチプレックスされ、レシーバに送信される。レシーバ側でのオーディオ復号化器(図12-13参照)は入力ビットストリームをデマルチプレックスすることにより逆演算を行い、スケール係数を転送するとともにスペクトル値を再構成し、合成フィルタバンクをエンコーダの分析フィルタバンクに相補的に適用し、結果物としての出力時間信号を再構成する。
復号化オーディオ信号の透過サウンド品質を生成するための知覚オーディオ符号化の目標にもかかわらず、それは依然可聴アーチファクトを示す。トランジェントの認識された品質に影響するこれらのアーチファクトのいくつかは後述する。
オーディオ信号ブロックの量子化について提供するために、ビット割当てプロセスについて利用できるビットの量は限られている。1つのフレームのビット要求が高すぎる場合、いくつかのスペクトル係数をゼロに量子化することにより削除できる[1、43、44]。これは、本質的に一部の高周波コンテンツの一時的な損失を引き起こし、主に低ビットレートコーディングの場合、または非常に要求の厳しい信号、たとえば頻繁なトランジェント事象を伴う信号を処理する場合に問題になる。ビットの割当てはブロックごとに異なるため、スペクトル係数の周波数成分は1つのフレームで削除され、次のフレームに存在する場合がある。誘導されたスペクトルのギャップは“バーディー”と呼ばれ、図2.14の下側の図で見ることができる。特に、トランジェントのエンコードは、これらの信号部分のエネルギーが周波数スペクトル全体に拡散するため、バーディアーチファクトを生成する傾向がある。一般的なアプローチは、エンコード処理の前にオーディオ信号の帯域幅を制限し、LFコンテンツの量子化に利用可能なビットを節約することであり、これは図2.14の符号化信号でも示されている。このトレードオフは、一般に許容される帯域幅の一定の損失よりも、バーディーが知覚される音質に大きな影響を与えるため、適している。しかしながら、帯域幅の制限があっても、依然バーディーが発生する可能性はある。後で説明するトランジェント強化方法自体は、スペクトルギャップの修正や符号化信号の帯域幅の拡大を目的とするものではないが、高周波の損失はエネルギーの減少とトランジェントアタックの劣化を引き起こし(図12-15を参照)、これは、後で説明するアタック強化方法の対象である。
他の共通の圧縮アーチファクトはいわゆるプレエコーである[1, 17, 20, 43, 44]。プレエコーは、信号ブロックの終わり近くで信号エネルギーの急激な増加(すなわちトランジェント現象)が発生した場合に発生する。トランジェント信号部分に含まれる実質的なエネルギーは広範囲の周波数に分散され、これにより心理音響モデルで比較的高いマスキングしきい値が推定され、スペクトル係数の量子化に数ビットのみが割当てられる。その後、追加された大量の量子化ノイズは、復号化プロセスで信号ブロックの期間全体に広がる。定常信号の場合、量子化ノイズは完全にマスクされていると見なされるが、トランジェントを含む信号ブロックの場合、量子化ノイズはトランジェント開始に先行し、“プレマスキング[...]期間を超えて延長する場合”[1]トランジェント開始に先行して聞こえる可能性がある。プレエコーを扱ういくつかの提案された方法があるが、これらのアーチファクトは依然現在の研究の対象となる。図12-16は、カスタネットトランジェントについてのプレエコーアーチファクトの例を示す。点線の黒い曲線は、トランジェント開始前に実質的な信号エネルギーがない元の信号の波形である。従って、符号化された信号のトランジェントに先行する誘導プレエコー(灰色の曲線)は同時にマスクされず、元の信号と直接比較しなくても知覚できる。プレエコーノイズの補足的な低減のために提案された方法は、後に提示される。
実施例において、トランジェントの強化についての方法は常に信号を修正するよりもトランジェント事象にもっぱら適用される。従って、トランジェントの瞬間が検出される。この作業のためにトランジェント検出方法が実装され、個々のオーディオ信号が別々に調整される。これは、このセクションで後述するトランジェント検出方法の特定のパラメータとしきい値とが、特定のサウンドファイルごとに特別に調整され、トランジェント信号部分の最適な検出が行われることを意味する。この検出の結果は各フレームについての2進値であり、トランジェント開始の存在を示す。
この強化ステージの目的はトランジェントの開始前の或る期間において可聴であるプレエコーとして知られる符号化アーチファクトを低減することである。プレエコー低減アルゴリズムの概観は図4.4において示される。プレエコー低減ステージは入力信号としてSTFT分析Xk,m(100)後の出力のみならず以前に検出されたトランジェント開始フレームインデックスmiを得る。最悪の場合、プレエコーはトランジェント事象の前に(コーデックサンプリングレートにかかわらず2048サンプルである)エンコーダ側で長いブロック分析ウィンドウの長さまでに開始する。ウィンドウの時間間隔は特定のエンコーダのサンプリング周波数に依存する。最悪の場合のシナリオに関し、8kHzの最小コーデックサンプリング周波数が仮定される。復号化されリサンプリングされた入力信号snについて44.1kHzのサンプリング レートで長い分析ウィンドウの長さ(およびそれゆえにプレエコー領域のポテンシャル範囲)は時間信号snのNlong = 2048・44.1 kHz/8 kHz = 11290サンプル(または256 ms)に対応する。この章で記述された強化方法は時間周波数表現Xk,m上で機能するので、NlongはMlong = ( Nlong - L)/( N - L) = (11290 -64)/ (128 -64) = 176フレームに変換されるべきである。NおよびLは図13-1におけるフレームサイズおよびSTFT分析ブロック(100)のオーバーラップである。Mlongはプレエコー幅の上側境界としてセットされ、かつ検出されたトランジェント開始フレームmiの前のプレエコー開始フレームについてサーチ領域を制限するために使用される。この作業について、リサンプリングの前の復号化された信号のサンプリングレートが検証データ(ground truth)として得られ、プレエコー幅についての上側境界がエンコードsnに使用された特定のコーデックに適合される。
次のサブセクションで説明するように、トランジェント開始前のトーン周波数成分に対応する後続の検出されたスペクトル係数は、次のプレエコー幅の推定に使用される。プレエコーアーチファクトは現在のトーン成分によってマスクされる可能性が高いため、これらのトーンスペクトル係数のエネルギー削減をスキップするために、次のプレエコー削減アルゴリズムでそれらを使用することも有益である。しかしながら、場合によっては、トーン係数のスキップにより、検出されたトーン周波数の近くのいくつかの周波数で可聴エネルギーが増加するという形で追加のアーチファクトが導入されるため、この実施形態におけるプレエコー低減方法ではこの方法は省略されている。
このセクションで議論された方法は低下したトランジェントアタックを強化するとともにトランジェント事象の増幅を強調することが目的である。
スペクトルフレーム内の周波数上の予測のための予測フィルタデータを計算するための予測分析器(720)と、
スペクトルフレームを整形して前記スペクトルフレーム内でトランジェント部分を強調するための予測フィルタデータにより制御される整形フィルタ(740)と、
整形されたスペクトルフレームを含む一連のスペクトルフレームを時間領域に変換するためのスペクトル時間変換器(760)とを含む。
前記整形フィルタ特性(740b)は、スペクトルフレームに適用されるとき、前記スペクトルフレームの時間エンベロープに比べてより平坦度の少ない時間エンベロープを有する修正されたスペクトルフレームをもたらす合成IIRフィルタ特性または全極フィルタ特性である。
前記予測分析器(720)は、
前記スペクトルフレームから自己相関信号を計算(800)し、
第1の時定数または前記第1の時定数より大きい第2の時定数を有するウィンドウを使用して自己相関信号にウィンドウ(802,804)をかけ、
前記第1の時定数を使用して窓かけされた窓かけされた自己相関信号から第1の予測フィルタデータを計算(806,808)するかあるいは前記第2の時定数を使用して窓かけされた窓かけされた自己相関信号から第2の予測フィルタ係数を計算するように構成され、かつ
前記整形フィルタ(740)は前記第2の予測フィルタ係数または前記第2の予測フィルタ係数および前記第1の予測フィルタ係数を使用する前記スペクトルフレームを整形するように構成されている。
前記整形フィルタ(740)は直列接続された2つの制御可能なサブフィルタ(809,810)を含み、前記第1のサブフィルタ(809)は平坦化フィルタ特性を有する平坦化フィルタであり、第2のサブフィルタ(810)は整形フィルタ特性を有する整形フィルタであり、
前記サブフィルタ(809,810)は前記予測分析器(720)により導出される前記予測フィルタデータによりともに制御されるか、あるいは
前記整形フィルタ(740)は平坦化特性および整形特性を組み合わせる(820)ことにより導出される混合されたフィルタ特性を有するフィルタであり、
前記混合された特性は前記予測分析器(720)から導出された前記予測フィルタデータにより制御される。
前記予測分析器(720)は、前記整形フィルタ(740)のための予測フィルタデータが前記平坦化フィルタ特性についての前記予測フィルタデータを使用することで得られる平坦化度合いよりも高い整形度合いを生じるように前記予測フィルタデータを決定するように構成される。
前記予測分析器(720)は前記スペクトルフレームから導出されるフィルタリングされた自己相関信号にLevinson-Durbinのアルゴリズムを適用する(806,808)ように構成されている。
前記整形フィルタ(740)は整形されたスペクトルフレームのエネルギーが時間スペクトル変換器(700)により生成された前記スペクトルフレームエネルギーに等しいか前記スペクトルフレームのエネルギーの±20%の許容差範囲内であるようにゲイン補償を適用するように構成されている。
前記整形フィルタ(740)は、平坦化ゲインを有する平坦化フィルタ特性(740a)および整形ゲインを有する整形フィルタ特性(740b)を適用するように構成されており、かつ
前記整形フィルタ(740)は、平坦化ゲインおよび整形ゲインの影響を補償するためのゲイン補償を行うように構成されている。
前記予測分析器(720)は平坦化ゲインおよび整形ゲインを計算するように構成されており、
前記直列接続された前記2つの制御可能なサブフィルタ(809,810)は、分離ゲイン段(811)または前記平坦化ゲインおよび/または前記整形ゲインから導出されたゲインを適用するための前記2つのサブフィルタの少なくとも1つに含まれたゲイン機能をさらに含むか、あるいは
組合された特性を有する前記フィルタ(740)は、前記平坦化ゲインおよび/または前記整形ゲインから導出されたゲインを適用するように構成されている。
前記ウィンドウは、パラメータとしてのタイムラグを有するガウス窓を含む。
前記予測分析器(720)は、前記予測フィルタデータにより制御された前記整形フィルタ(740)がトランジェント部分を含む前記複数のフレームのための信号操作を実行するように、かつ
前記整形フィルタ(740)が、トランジェント部分を含まない前記複数のフレームのうちの更に他のフレームについては、前記フレームに対する信号操作を実行しないか、前記フレームに対する信号操作よりも小さい信号操作を実行するように、
複数のフレームについて前記予測フィルタデータを計算するように構成されている。
前記スペクトル時間変換器(760)は、前記スペクトル表現の少なくとも2つの隣接したフレームを含むオーバーラップ加算操作を適用するように構成されている。
前記時間スペクトル変換器(700)は、3ないし8ms間のホップサイズまたは6ないし16ms間のウインドウ長を有する分析ウィンドウを適用するように構成されるか、あるいは、
前記スペクトル時間変換器(760)は、重畳するウィンドウの重畳の大きさや、3ないし8msの間の変換器が使用するホップの大きさに対応する重畳範囲を使用するか、6ないし16msの間のウインドウ長を有する合成ウインドウを使用するか、前記分析ウインドウと前記合成ウインドウとが同一であるように構成されている。
平坦化フィルタ特性(740a)は、前記スペクトルフレームに適用されたとき、前記スペクトルフレームの時間エンベロープと比較してフラッター時間エンベロープを有する修正スペクトルフレームをもたらす逆フィルタ特性である、あるいは
前記整形フィルタ特性(740b)は、前記スペクトルフレームに適用されたとき、前記スペクトルフレームの時間エンベロープと比較して少ない平坦化時間エンベロープを有する修正スペクトルフレームをもたらす合成フィルタ特性である。
前記予測分析器(720)は、整形フィルタ特性(740b)についての予測フィルタデータを計算するように構成され、かつ前記整形フィルタ(740)は前記時間スペクトル変換器(700)により例えば前述の平坦化を行うことなく得られるように構成されている。
前記整形フィルタ(740)は最大時間分解能以下の前記スペクトルフレームの時間エンベロープに従う整形動作を表すように構成され、かつ前記整形フィルタ(740)は前記整形動作に関連する前記時間分解能よりも小さい時間分解能に従って平坦化動作なしまたは平坦化動作を表すように構成されている。
前記オーディオ信号を一連のスペクトルフレームを含むスペクトル表現に変換する(700)ステップと、
スペクトルフレーム内の周波数上の予測についての予測フィルタデータを計算する(720)ステップと、
前記予測フィルタデータに応答して整形し(740)、前記スペクトルフレーム内のトランジェント部分を強調するステップと、
整形されたスペクトルフレームを含む一連のスペクトルフレームを時間領域に変換する(760)ステップとを含む。
17th International Conference: High-Quality Audio Coding, September 1999.
[2] K. Brandenburg and G. Stoll, "ISO/MPEG-1 audio: A generic standard for coding
of high-quality digital audio," J. Audio Eng. Soc., vol. 42, pp. 780-792, October 1994.
[3] ISO/IEC 11172-3, "MPEG-1: Coding of moving pictures and associated audio
for digital storage media at up to about 1.5 mbit/s - part 3: Audio," international
standard, ISO/IEC, 1993. JTC1/SC29/WG11.
[4] ISO/IEC 13818-1, "Information technology - generic coding of moving pictures
and associated audio information: Systems," international standard, ISO/IEC, 2000. ISO/IEC JTC1/SC29.
[5] J. Herre and J. D. Johnston, "Enhancing the performance of perceptual audio
coders by using temporal noise shaping (TNS)," in 101st Audio Engineering Society
Convention, no. 4384, AES, November 1996.
[6] B. Edler, "Codierung von audiosignalen mit uberlappender transformation und
adaptiven fensterfunktionen," Frequenz - Zeitschrift fur Telekommunikation,
vol. 43, pp. 253-256, September 1989.
[7] I. Samaali, M. T.-H. Alouane, and G. Mahe, "Temporal envelope correction for attack
restoration im low bit-rate audio coding," in 17th European Signal Processing
Conference (EUSIPCO), (Glasgow, Scotland), IEEE, August 2009.
[8] J. Lapierre and R. Lefebvre, "Pre-echo noise reduction in frequency-domain audio
codecs," in 42nd IEEE International Conference on Acoustics, Speech and Signal
Processing, pp. 686-690, IEEE, March 2017.
[9] A. V. Oppenheim and R. W. Schafer, Discrete-Time Signal Processing. Harlow,
UK: Pearson Education Limited, 3. ed., 2014.
[10] J. G. Proakis and D. G. Manolakis, Digital Signal Processing - Principles, Algorithms,
and Applications. New Jersey, US: Pearson Education Limited, 4. ed., 2007.
[11] J. Benesty, J. Chen, and Y. Huang, Springer handbook of speech processing, ch. 7.
Linear Prediction, pp. 121-134. Berlin: Springer, 2008.
[12] J. Makhoul, "Spectral analysis of speech by linear prediction," in IEEE Transactions
on Audio and Electroacoustics, vol. 21, pp. 140-148, IEEE, June 1973.
[13] J. Makhoul, "Linear prediction: A tutorial review," in Proceedings of the IEEE,
vol. 63, pp. 561-580, IEEE, April 2000.
[14] M. Athineos and D. P.W. Ellis, "Frequency-domain linear prediction for temporal
features," in IEEE Workshop on Automatic Speech Recognition and Understanding,
pp. 261-266, IEEE, November 2003.
[15] F. Keiler, D. Arfib, and U. Zolzer, "Efficient linear prediction for digital audio
effects," in COST G-6 Conference on Digital Audio Effects (DAFX-00), (Verona,
Italy), December 2000.
[16] J. Makhoul, "Spectral linear prediction: Properties and applications," in IEEE
Transactions on Acoustics, Speech, and Signal Processing, vol. 23, pp. 283-296,
IEEE, June 1975.
[17] T. Painter and A. Spanias, "Perceptual coding of digital audio," in Proceedings of
the IEEE, vol. 88, April 2000.
[18] J. Makhoul, "Stable and efficient lattice methods for linear prediction," in
IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-25,
pp. 423-428, IEEE, October 1977.
[19] N. Levinson, "The wiener rms (root mean square) error criterion in filter design
and prediction," Journal of Mathematics and Physics, vol. 25, pp. 261-278, April
1946.
[20] J. Herre, "Temporal noise shaping, qualtization and coding methods in perceptual
audio coding: A tutorial introduction," in Audio Engineering Society Conference:
17th International Conference: High-Quality Audio Coding, vol. 17, AES, August
1999.
[21] M. R. Schroeder, "Linear prediction, entropy and signal analysis," IEEE ASSP
Magazine, vol. 1, pp. 3-11, July 1984.
[22] L. Daudet, S. Molla, and B. Torresani, "Transient detection and encoding using
wavelet coeffcient trees," Colloques sur le Traitement du Signal et des Images,
September 2001.
[23] B. Edler and O. Niemeyer, "Detection and extraction of transients for audio coding,"
in Audio Engineering Society Convention 120, no. 6811, (Paris, France), May 2006.
[24] J. Kliewer and A. Mertins, "Audio subband coding with improved representation
of transient signal segments," in 9th European Signal Processing Conference, vol. 9, (Rhodes), pp. 1-4, IEEE, September 1998.
[25] X. Rodet and F. Jaillet, "Detection and modeling of fast attack transients," in
Proceedings of the International Computer Music Conference, (Havana, Cuba),
pp. 30-33, 2001.
[26] J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, and M. Davies, "A tutorial on
onset detection in music signals," IEEE Transactions on Speech and Audio Processing,
vol. 13, pp. 1035-1047, September 2005.
[27] V. Suresh Babu, A. K. Malot, V. Vijayachandran, and M. Vinay, "Transient detection
for transform domain coders," in Audio Engineering Society Convention 116, no. 6175, (Berlin, Germany), May 2004.
[28] P. Masri and A. Bateman, "Improved modelling of attack transients in music
analysis-resynthesis," in International Computer Music Conference, pp. 100-103,
January 1996.
[29] M. D. Kwong and R. Lefebvre, "Transient detection of audio signals based on an
adaptive comb filter in the frequency domain," in Conference on Signals, Systems
and Computers, 2004. Conference Record of the Thirty-Seventh Asilomar, vol. 1,
pp. 542-545, IEEE, November 2003.
[30] X. Zhang, C. Cai, and J. Zhang, "A transient signal detection technique based
on flatness measure," in 6th International Conference on Computer Science and
Education, (Singapore), pp. 310-312, IEEE, August 2011.
[31] J. D. Johnston, "Transform coding of audio signals using perceptual noise criteria,"
IEEE Journal on Selected Areas in Communications, vol. 6, pp. 314-323,
February 1988.
[32] J. Herre and S. Disch, Academic press library in Signal processing, vol. 4, ch. 28.
Perceptual Audio Coding, pp. 757-799. Academic press, 2014.
[33] H. Fastl and E. Zwicker, Psychoacoustics - Facts and Models. Heidelberg:
Springer, 3. ed., 2007.
[34] B. C. J. Moore, An Introduction to the Psychology of Hearing. London: Emerald,
6. ed., 2012.
[35] P. Dallos, A. N. Popper, and R. R. Fay, The Cochlea. New York: Springer, 1. ed.,
1996.
[36] W. M. Hartmann, Signals, Sound, and Sensation. Springer, 5. ed., 2005.
[37] K. Brandenburg, C. Faller, J. Herre, J. D. Johnston, and B. Kleijn, "Perceptual
coding of high-quality digital audio," in IEEE Transactions on Acoustics, Speech,
and Signal Processing, vol. 101, pp. 1905-1919, IEEE, September 2013.
[38] H. Fletcher andW. A. Munson, "Loudness, its definition, measurement and calculation," The Bell System Technical Journal, vol. 12, no. 4, pp. 377-430, 1933.
[39] H. Fletcher, "Auditory patterns," Reviews of Modern Physics, vol. 12, no. 1,
pp. 47-65, 1940.
[40] M. Bosi and R. E. Goldberg, Introduction to Digital Audio Coding and Standards.
Kluwer Academic Publishers, 1. ed., 2003.
[41] P. Noll, "MPEG digital audio coding," IEEE Signal Processing Magazine, vol. 14,
pp. 59-81, September 1997.
[42] D. Pan, "A tutorial on MPEG/audio compression," IEEE MultiMedia, vol. 2, no. 2,
pp. 60-74, 1995.
[43] M. Erne, "Perceptual audio coders "what to listen for"," in 111st Audio Engineering
Society Convention, no. 5489, AES, September 2001.
[44] C.-M. Liu, H.-W. Hsu, and W. Lee, "Compression artifacts in perceptual audio
coding," in IEEE Transactions on Audio, Speech, and Language Processing,
vol. 16, pp. 681-695, IEEE, May 2008.
[45] L. Daudet, "A review on techniques for the extraction of transients in musical
signals," in Proceedings of the Third international conference on Computer Music,
pp. 219-232, September 2005.
[46] W.-C. Lee and C.-C. J. Kuo, "Musical onset detection based on adaptive linear
prediction," in IEEE International Conference on Multimedia and Expo, (Toronto,
Ontario), pp. 957-960, IEEE, July 2006.
[47] M. Link, "An attack processing of audio signals for optimizing the temporal characteristics of a low bit-rate audio coding system," in Audio Engineering Society
Convention, vol. 95, October 1993.
[48] T. Vaupel, Ein Beitrag zur Transformationscodierung von Audiosignalen unter
Verwendung der Methode der "Time Domain Aliasing Cancellation (TDAC)" und
einer Signalkompandierung im Zeitbereich. Ph.d. thesis, Universitat Duisburg,
Duisburg, Germany, April 1991.
[49] G. Bertini, M. Magrini, and T. Giunti, "A time-domain system for transient enhancement in recorded music," in 14th European Signal Processing Conference
(EUSIPCO), (Florence, Italy), IEEE, September 2013.
[50] C. Duxbury, M. Sandler, and M. Davies, "A hybrid approach to musical note onset
detection," in Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02),
(Hamburg, Germany), pp. 33-38, September 2002.
[51] A. Klapuri, "Sound onset detection by applying psychoacoustic knowledge," in
Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal
Processing, March 1999.
[52] S. L. Goh and D. P. Mandic, "Nonlinear adaptive prediction of complex-valued
signals by complex-valued PRNN," in IEEE Transactions on Signal Processing,
vol. 53, pp. 1827-1836, IEEE, May 2005.
[53] S. Haykin and L. Li, "Nonlinear adaptive prediction of nonstationary signals," in
IEEE Transactions on Signal Processing, vol. 43, pp. 526-535, IEEE, February
1995.
[54] D. P. Mandic, S. Javidi, S. L. Goh, and K. Aihara, "Complex-valued prediction of
wind profile using augmented complex statistics," in Renewable Energy, vol. 34,
pp. 196-201, Elsevier Ltd., January 2009.
[55] B. Edler, "Parametrization of a pre-masking model." Personal communication,
November 22, 2016.
[56] ITU-R Recommendation BS.1116-3, "Method for the subjective assessment of
small impairments in audio systems," recommendation, International Telecommunication
Union, Geneva, Switzerland, February 2015.
[57] ITU-R Recommendation BS.1534-3, "Method for the subjective assessment of
intermediate quality level of audio systems," recommendation, International
Telecommunication Union, Geneva, Switzerland, October 2015.
[58] ITU-R Recommendation BS.1770-4, "Algorithms to measure audio programme
loudness and true-peak audio level," recommendation, International Telecommunication
Union, Geneva, Switzerland, October 2015.
[59] S. M. Ross, Introduction to Probability and Statistics for Engineers and Scientists. Elsevier, 3. ed., 2004.
Claims (15)
- オーディオ信号を時間周波数表現に変換するための変換器(100)と、
前記オーディオ信号または前記時間周波数表現を使用して、トランジェント部分の時間上の位置を推定するためのトランジェント位置推定器(120)と、
前記時間周波数表現を操作するための信号操作器(140)と、
を備える、前記オーディオ信号を後処理(20)するための装置であって、
前記信号操作器は時間的に前記トランジェント位置の前の位置における時間周波数表現内のプレエコーを低減(220)または除去するように構成され、前記信号操作器(140)は、プレエコー幅内の前記時間周波数表現内のスペクトル値についてプレエコー閾値を推定するためのプレエコー閾値推定器(260)を含み、前記プレエコー閾値は前記プレエコーの低減または除去後の対応するスペクトル値の振幅閾値を示し、前記プレエコー閾値推定器(260)は、前記プレエコー幅の開始から前記トランジェント位置まで増加特性を有する重み付け曲線を使用して前記プレエコー閾値を決定するように構成される、または、
前記信号操作器(140)は前記トランジェント位置の前記時間周波数表現の整形(500)を行って前記トランジェント部分のアタックを増幅させるように構成され、前記信号操作器(140)は前記トランジェント位置の前記時間周波数表現を持続部分と前記トランジェント部分とに分割(630)するように構成され、前記信号操作器(140)は前記トランジェント部分のみを増幅して前記持続部分を増幅しないように構成され、前記信号操作器(140)は前記持続部分と増幅された前記トランジェント部分とを結合(640)して後処理済オーディオ信号を得るように構成される、
オーディオ信号を後処理(20)するための装置。 - 前記信号操作器(140)は、前記トランジェント部分に時間的に先行する前記時間周波数表現におけるトーン信号成分を検出するためのトーン推定器(200)を備え、
前記信号操作器(140)は、トーン信号成分が検出された周波数において、前記トーン信号成分が検出されなかった周波数と比較して前記信号操作が低減またはスイッチオフされるように前記プレエコー低減または除去(220)を周波数選択的に適用するように構成される、請求項1に記載の装置。 - 前記信号操作器(140)は、前記トランジェント位置に先行する前記プレエコー幅の時間的な幅を前記オーディオ信号の信号エネルギーの経時的な展開に基づいて推定して、前記時間周波数表現における複数の後続するオーディオ信号フレームを含むプレエコー開始フレームを決定するように構成されるプレエコー幅推定器(240)を含む、請求項1または2に記載の装置。
- 前記プレエコー閾値推定器(260)は、
前記時間周波数表現を前記時間周波数表現の後続する複数のフレーム上に平滑化(330)し、また、
前記プレエコー幅の開始から前記トランジェント位置までの前記増加特性を有する前記重み付け曲線を使用して平滑化された前記時間周波数表現を重み付け(340)するように構成される、請求項1ないし3の1項に記載の装置。 - 前記信号操作器(140)は、
前記時間周波数表現のスペクトル値のための個々のスペクトル重み付けを計算するためのスペクトル重み付け計算機(300,160)と、
前記スペクトル重み付けを使用して前記時間周波数表現のスペクトル値を重み付けして、操作された時間周波数表現を得るためのスペクトル重み付け器(320)と、
を含む、請求項1ないし4の1項に記載の装置。 - 前記スペクトル重み付け計算機(300)は、
実際のスペクトル値とターゲットスペクトル値とを使用して生のスペクトル重み付けを決定(450)する、または、
前記時間周波数表現のフレーム内で前記生のスペクトル重み付けを周波数的に平滑化(460)する、または、
前記プレエコー幅の開始における複数のフレームに対して減衰曲線を使用して前記プレエコーの低減または除去を漸増(430)させる、または、
プレエコー閾値未満の振幅を有する前記スペクトル値が前記信号操作の影響を受けないように前記ターゲットスペクトル値を決定(420)する、あるいは、
前記プレエコー幅におけるスペクトル値のダンピングがプレマスキングモデル(410)に基づいて低減されるように前記プレマスキングモデル(410)を使用して前記ターゲットスペクトル値を決定(420)する
ように構成される、請求項5に記載の装置。 - 前記時間周波数表現は複素スペクトル値を含み、
前記信号操作器(140)は実数値のスペクトル重み付け値を前記複素スペクトル値に適用する
ように構成される、請求項1ないし6の1項に記載の装置。 - 前記信号操作器(140)は、前記時間周波数表現のトランジェントフレーム内のスペクトル値を増幅(500)するように構成される、請求項1ないし7の1項に記載の装置。
- 前記信号操作器(140)は、最小周波数を超えるスペクトル値のみを増幅するように構成され、前記最小周波数は250Hzよりも大きく2kHzよりも小さい、請求項1ないし8の1項に記載の装置。
- 前記信号操作器(140)は、減衰特性(685)を使用して、前記トランジェント位置に時間的に後続する前記時間周波数表現の時間部分も増幅するように構成される、請求項1ないし9の1項に記載の装置。
- スペクトル値は前記持続部分と前記トランジェント部分を含み、
前記信号操作器(140)は前記スペクトル値のためのスペクトル重み付け係数を、前記スペクトル値の持続部分、増幅された前記トランジェント部分および前記スペクトル値の大きさを使用して計算(680)するように構成され、前記増幅されたトランジェント部分の増幅量はあらかじめ定められ、且つ300%と150%の間である、あるいは、
前記スペクトル重み付け係数は周波数にわたって平滑化(690)される、請求項1ないし10の1項に記載の装置。 - 前記時間周波数表現の少なくとも隣接したフレームにかかわるオーバーラップ加算演算を使用して、操作された時間周波数表現を時間領域に変換するためのスペクトル時間変換器(370)をさらに含む、請求項1ないし11の1項に記載の装置。
- 前記変換器(100)は、1~3msのホップサイズまたはウィンドウ長2~6msの分析ウィンドウを適用するように構成される、または
操作された時間周波数表現を時間領域に変換するためのスペクトル時間変換器(370)をさらに含み、前記スペクトル時間変換器(370)は、オーバーラップウィンドウのオーバーラップサイズに相当する、または前記変換器(100)が使用する1~3msのホップサイズに相当するオーバーラップ範囲を使用、あるいはウィンドウ長2~6msの合成ウィンドウを使用するように構成される、あるいは前記分析ウィンドウと前記合成ウィンドウとは互いに同一である、請求項1ないし11のいずれかに記載の装置。 - オーディオ信号を時間周波数表現に変換するステップ(100)と、
前記オーディオ信号または前記時間周波数表現を使用してトランジェント部分の時間上のトランジェント位置を推定するステップ(120)と、
時間的に前記トランジェント位置の前の位置における前記時間周波数表現内のプレエコーを低減(220)または除去するために前記時間周波数表現を操作するステップ(140)であって、前記操作するステップ(140)は、プレエコー幅内の前記時間周波数表現内のスペクトル値についてプレエコー閾値を推定するステップを含み、前記プレエコー閾値は前記プレエコーの低減または除去後の対応するスペクトル値の振幅閾値を示し、前記推定するステップは、前記プレエコー幅の開始から前記トランジェント位置まで増加特性を有する重み付け曲線を使用して前記プレエコー閾値を決定するステップを含む、操作するステップ(140)、または、
前記トランジェント位置の前記時間周波数表現の整形(500)を行って前記トランジェント部分のアタックを増幅させるために前記時間周波数表現を操作するステップ(140)であって、前記操作するステップ(140)は、前記トランジェント位置の前記時間周波数表現を持続部分と前記トランジェント部分とに分割するステップ(630)と、前記トランジェント部分のみを増幅して前記持続部分を増幅しないステップと、前記持続部分と増幅された前記トランジェント部分とを結合(640)して後処理済オーディオ信号を得るステップとを含む、操作するステップ(140)と、
を含む、
前記オーディオ信号を後処理(20)するための方法。 - コンピュータまたはプロセッサ上で動作するときに、請求項14に記載の方法を実行するためのコンピュータプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17164350.5 | 2017-03-31 | ||
EP17164350 | 2017-03-31 | ||
EP17183134.0A EP3382700A1 (en) | 2017-03-31 | 2017-07-25 | Apparatus and method for post-processing an audio signal using a transient location detection |
EP17183134.0 | 2017-07-25 | ||
PCT/EP2018/025076 WO2018177608A1 (en) | 2017-03-31 | 2018-03-28 | Apparatus for post-processing an audio signal using a transient location detection |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020512598A JP2020512598A (ja) | 2020-04-23 |
JP7055542B2 true JP7055542B2 (ja) | 2022-04-18 |
Family
ID=58632739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019553970A Active JP7055542B2 (ja) | 2017-03-31 | 2018-03-28 | トランジェント位置検出を使用したオーディオ信号の後処理のための装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11373666B2 (ja) |
EP (2) | EP3382700A1 (ja) |
JP (1) | JP7055542B2 (ja) |
CN (1) | CN110832581B (ja) |
BR (1) | BR112019020515A2 (ja) |
RU (1) | RU2734781C1 (ja) |
WO (1) | WO2018177608A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3382701A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using prediction based shaping |
MA52530A (fr) | 2018-04-25 | 2021-03-03 | Dolby Int Ab | Intégration de techniques de reconstruction audio haute fréquence |
MA50760A (fr) | 2018-04-25 | 2020-06-10 | Dolby Int Ab | Intégration de techniques de reconstruction haute fréquence à retard post-traitement réduit |
EP3900284B1 (en) * | 2018-12-17 | 2023-11-08 | U-blox AG | Estimating one or more characteristics of a communications channel |
CN112863539B (zh) * | 2019-11-28 | 2024-04-16 | 科大讯飞股份有限公司 | 一种高采样率语音波形生成方法、装置、设备及存储介质 |
WO2021142136A1 (en) * | 2020-01-07 | 2021-07-15 | The Regents Of The University Of California | Embodied sound device and method |
TWI783215B (zh) * | 2020-03-05 | 2022-11-11 | 緯創資通股份有限公司 | 信號處理系統及其信號降噪的判定方法與信號補償方法 |
CN111429926B (zh) * | 2020-03-24 | 2022-04-15 | 北京百瑞互联技术有限公司 | 一种优化音频编码速度的方法和装置 |
CN111768793B (zh) * | 2020-07-11 | 2023-09-01 | 北京百瑞互联技术有限公司 | 一种lc3音频编码器编码优化方法、系统、存储介质 |
US11916634B2 (en) * | 2020-10-22 | 2024-02-27 | Qualcomm Incorporated | Channel state information (CSI) prediction and reporting |
CN113421592B (zh) * | 2021-08-25 | 2021-12-14 | 中国科学院自动化研究所 | 篡改音频的检测方法、装置及存储介质 |
CN114678037B (zh) * | 2022-04-13 | 2022-10-25 | 北京远鉴信息技术有限公司 | 一种重叠语音的检测方法、装置、电子设备及存储介质 |
CN118136042A (zh) * | 2024-05-10 | 2024-06-04 | 四川湖山电器股份有限公司 | 基于iir频谱拟合的频谱优化方法、系统、终端及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013136846A1 (ja) | 2012-03-12 | 2013-09-19 | クラリオン株式会社 | 音響信号処理装置および音響信号処理方法 |
JP2016502139A (ja) | 2012-11-26 | 2016-01-21 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | 圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法 |
JP2016506543A (ja) | 2012-12-21 | 2016-03-03 | オランジュ | デジタルオーディオ信号におけるプリエコーの効率的な減衰 |
Family Cites Families (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996016533A2 (en) * | 1994-11-25 | 1996-06-06 | Fink Fleming K | Method for transforming a speech signal using a pitch manipulator |
JPH08223049A (ja) * | 1995-02-14 | 1996-08-30 | Sony Corp | 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法 |
US5825320A (en) * | 1996-03-19 | 1998-10-20 | Sony Corporation | Gain control method for audio encoding device |
US6263312B1 (en) * | 1997-10-03 | 2001-07-17 | Alaris, Inc. | Audio compression and decompression employing subband decomposition of residual signal and distortion reduction |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
ES2292581T3 (es) * | 2000-03-15 | 2008-03-16 | Koninklijke Philips Electronics N.V. | Funcion laguerre para la codificacion de audio. |
KR20020070374A (ko) * | 2000-11-03 | 2002-09-06 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 신호들의 매개변수적 코딩 |
US7930170B2 (en) * | 2001-01-11 | 2011-04-19 | Sasken Communication Technologies Limited | Computationally efficient audio coder |
MXPA03010237A (es) * | 2001-05-10 | 2004-03-16 | Dolby Lab Licensing Corp | Mejoramiento del funcionamiento de transitorios en sistemas de codificacion de audio de baja tasa de transferencia de bitios mediante la reduccion del pre-ruido. |
US7460993B2 (en) * | 2001-12-14 | 2008-12-02 | Microsoft Corporation | Adaptive window-size selection in transform coding |
KR100462615B1 (ko) | 2002-07-11 | 2004-12-20 | 삼성전자주식회사 | 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치 |
WO2004008437A2 (en) * | 2002-07-16 | 2004-01-22 | Koninklijke Philips Electronics N.V. | Audio coding |
SG108862A1 (en) * | 2002-07-24 | 2005-02-28 | St Microelectronics Asia | Method and system for parametric characterization of transient audio signals |
US7725315B2 (en) * | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
WO2006011445A1 (ja) * | 2004-07-28 | 2006-02-02 | Matsushita Electric Industrial Co., Ltd. | 信号復号化装置 |
US7418394B2 (en) * | 2005-04-28 | 2008-08-26 | Dolby Laboratories Licensing Corporation | Method and system for operating audio encoders utilizing data from overlapping audio segments |
US8121836B2 (en) * | 2005-07-11 | 2012-02-21 | Lg Electronics Inc. | Apparatus and method of processing an audio signal |
FR2888704A1 (ja) * | 2005-07-12 | 2007-01-19 | France Telecom | |
US7565289B2 (en) * | 2005-09-30 | 2009-07-21 | Apple Inc. | Echo avoidance in audio time stretching |
US8473298B2 (en) * | 2005-11-01 | 2013-06-25 | Apple Inc. | Pre-resampling to achieve continuously variable analysis time/frequency resolution |
US8332216B2 (en) * | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
FR2897733A1 (fr) * | 2006-02-20 | 2007-08-24 | France Telecom | Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant |
US8417532B2 (en) * | 2006-10-18 | 2013-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
EP2186090B1 (en) * | 2007-08-27 | 2016-12-21 | Telefonaktiebolaget LM Ericsson (publ) | Transient detector and method for supporting encoding of an audio signal |
US8015002B2 (en) * | 2007-10-24 | 2011-09-06 | Qnx Software Systems Co. | Dynamic noise reduction using linear model fitting |
KR101441897B1 (ko) * | 2008-01-31 | 2014-09-23 | 삼성전자주식회사 | 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치 |
US8630848B2 (en) * | 2008-05-30 | 2014-01-14 | Digital Rise Technology Co., Ltd. | Audio signal transient detection |
ES2758799T3 (es) * | 2008-07-11 | 2020-05-06 | Fraunhofer Ges Forschung | Método y aparato para codificar y decodificar una señal de audio y programas informáticos |
US8380498B2 (en) * | 2008-09-06 | 2013-02-19 | GH Innovation, Inc. | Temporal envelope coding of energy attack signal by using attack point location |
AR075199A1 (es) * | 2009-01-28 | 2011-03-16 | Fraunhofer Ges Forschung | Codificador de audio decodificador de audio informacion de audio codificada metodos para la codificacion y decodificacion de una senal de audio y programa de computadora |
CA3107567C (en) * | 2009-01-28 | 2022-08-02 | Dolby International Ab | Improved harmonic transposition |
EP2214165A3 (en) * | 2009-01-30 | 2010-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for manipulating an audio signal comprising a transient event |
ATE526662T1 (de) * | 2009-03-26 | 2011-10-15 | Fraunhofer Ges Forschung | Vorrichtung und verfahren zur änderung eines audiosignals |
JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
ES2533098T3 (es) * | 2009-10-20 | 2015-04-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador de señal de audio, decodificador de señal de audio, método para proveer una representación codificada de un contenido de audio, método para proveer una representación decodificada de un contenido de audio y programa de computación para su uso en aplicaciones de bajo retardo |
JP5422664B2 (ja) | 2009-10-21 | 2014-02-19 | パナソニック株式会社 | 音響信号処理装置、音響符号化装置および音響復号装置 |
US8793126B2 (en) * | 2010-04-14 | 2014-07-29 | Huawei Technologies Co., Ltd. | Time/frequency two dimension post-processing |
CN101908342B (zh) * | 2010-07-23 | 2012-09-26 | 北京理工大学 | 利用频域滤波后处理进行音频暂态信号预回声抑制的方法 |
JP5849106B2 (ja) * | 2011-02-14 | 2016-01-27 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法 |
DE102011011975A1 (de) | 2011-02-22 | 2012-08-23 | Valeo Klimasysteme Gmbh | Luftansaugvorrichtung einer Fahrzeuginnenraumbelüftungsanlage und Fahrzeuginnenraumbelüftungsanlage |
JP5633431B2 (ja) * | 2011-03-02 | 2014-12-03 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
WO2013075753A1 (en) * | 2011-11-25 | 2013-05-30 | Huawei Technologies Co., Ltd. | An apparatus and a method for encoding an input signal |
EP2786377B1 (en) * | 2011-11-30 | 2016-03-02 | Dolby International AB | Chroma extraction from an audio codec |
WO2013138747A1 (en) * | 2012-03-16 | 2013-09-19 | Yale University | System and method for anomaly detection and extraction |
MY168806A (en) | 2012-06-28 | 2018-12-04 | Fraunhofer Ges Forschung | Linear prediction based audio coding using improved probability distribution estimation |
FR2992766A1 (fr) * | 2012-06-29 | 2014-01-03 | France Telecom | Attenuation efficace de pre-echos dans un signal audionumerique |
SG11201506542QA (en) * | 2013-02-20 | 2015-09-29 | Fraunhofer Ges Forschung | Apparatus and method for encoding or decoding an audio signal using a transient-location dependent overlap |
US9818424B2 (en) * | 2013-05-06 | 2017-11-14 | Waves Audio Ltd. | Method and apparatus for suppression of unwanted audio signals |
EP2830056A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding an audio signal with intelligent gap filling in the spectral domain |
EP2916321B1 (en) * | 2014-03-07 | 2017-10-25 | Oticon A/s | Processing of a noisy audio signal to estimate target and noise spectral variances |
JP6035270B2 (ja) | 2014-03-24 | 2016-11-30 | 株式会社Nttドコモ | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム |
FR3025923A1 (fr) * | 2014-09-12 | 2016-03-18 | Orange | Discrimination et attenuation de pre-echos dans un signal audionumerique |
CA2976864C (en) * | 2015-02-26 | 2020-07-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing an audio signal to obtain a processed audio signal using a target time-domain envelope |
US10861475B2 (en) * | 2015-11-10 | 2020-12-08 | Dolby International Ab | Signal-dependent companding system and method to reduce quantization noise |
EP3182410A3 (en) * | 2015-12-18 | 2017-11-01 | Dolby International AB | Enhanced block switching and bit allocation for improved transform audio coding |
-
2017
- 2017-07-25 EP EP17183134.0A patent/EP3382700A1/en not_active Withdrawn
-
2018
- 2018-03-28 RU RU2019134632A patent/RU2734781C1/ru active
- 2018-03-28 EP EP18714684.0A patent/EP3602549B1/en active Active
- 2018-03-28 CN CN201880036694.0A patent/CN110832581B/zh active Active
- 2018-03-28 BR BR112019020515A patent/BR112019020515A2/pt unknown
- 2018-03-28 WO PCT/EP2018/025076 patent/WO2018177608A1/en active Application Filing
- 2018-03-28 JP JP2019553970A patent/JP7055542B2/ja active Active
-
2019
- 2019-09-24 US US16/580,203 patent/US11373666B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013136846A1 (ja) | 2012-03-12 | 2013-09-19 | クラリオン株式会社 | 音響信号処理装置および音響信号処理方法 |
JP2016502139A (ja) | 2012-11-26 | 2016-01-21 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | 圧縮されたオーディオ信号を修復するシステム、コンピュータ可読記憶媒体、および方法 |
JP2016506543A (ja) | 2012-12-21 | 2016-03-03 | オランジュ | デジタルオーディオ信号におけるプリエコーの効率的な減衰 |
Non-Patent Citations (1)
Title |
---|
Jimmy Lapierre et al.,Pre-echo noise reduction in frequency-domain audio codecs,2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),IEEE,2017年03月,pp.686-690,https://ieeexplore.ieee.org/document/7952243,IEL Online (IEEE Xplore) |
Also Published As
Publication number | Publication date |
---|---|
RU2734781C1 (ru) | 2020-10-23 |
WO2018177608A1 (en) | 2018-10-04 |
BR112019020515A2 (pt) | 2020-05-05 |
CN110832581A (zh) | 2020-02-21 |
US11373666B2 (en) | 2022-06-28 |
EP3602549B1 (en) | 2021-08-25 |
US20200020349A1 (en) | 2020-01-16 |
EP3602549A1 (en) | 2020-02-05 |
CN110832581B (zh) | 2023-12-29 |
EP3382700A1 (en) | 2018-10-03 |
JP2020512598A (ja) | 2020-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7055542B2 (ja) | トランジェント位置検出を使用したオーディオ信号の後処理のための装置 | |
JP7383067B2 (ja) | 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法 | |
CN107925388B (zh) | 后置处理器、预处理器、音频编解码器及相关方法 | |
CN110870007B (zh) | 确定与音频信号的人工带宽限制有关的特性的装置和方法 | |
US10170126B2 (en) | Effective attenuation of pre-echoes in a digital audio signal | |
JP7261173B2 (ja) | 予測に基づく整形を使用したオーディオ信号の後処理のための装置および方法 | |
JP6728142B2 (ja) | デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置 | |
Lin et al. | Speech enhancement for nonstationary noise environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210105 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220331 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7055542 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |