JP2019514065A - 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム - Google Patents
高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2019514065A JP2019514065A JP2018553874A JP2018553874A JP2019514065A JP 2019514065 A JP2019514065 A JP 2019514065A JP 2018553874 A JP2018553874 A JP 2018553874A JP 2018553874 A JP2018553874 A JP 2018553874A JP 2019514065 A JP2019514065 A JP 2019514065A
- Authority
- JP
- Japan
- Prior art keywords
- frequency band
- shaping
- spectral
- lower frequency
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 241
- 230000005236 sound signal Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims description 78
- 238000004590 computer program Methods 0.000 title claims description 14
- 238000007493 shaping process Methods 0.000 claims abstract description 191
- 238000001514 detection method Methods 0.000 claims abstract description 32
- 238000001228 spectrum Methods 0.000 claims description 113
- 238000004458 analytical method Methods 0.000 claims description 16
- 210000004709 eyebrow Anatomy 0.000 claims 2
- 238000004587 chromatography analysis Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 58
- 238000013139 quantization Methods 0.000 description 33
- 239000013598 vector Substances 0.000 description 32
- 238000013507 mapping Methods 0.000 description 21
- 238000004422 calculation algorithm Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 17
- 230000007704 transition Effects 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 13
- 230000001186 cumulative effect Effects 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 12
- 238000005070 sampling Methods 0.000 description 11
- 230000002087 whitening effect Effects 0.000 description 11
- 230000001419 dependent effect Effects 0.000 description 10
- 230000002238 attenuated effect Effects 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 7
- 238000012952 Resampling Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 6
- 238000003491 array Methods 0.000 description 4
- 238000009795 derivation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000003775 Density Functional Theory Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 241000677647 Proba Species 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000001617 migratory effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
−周波数ドメイン符号化は、音楽または背景ノイズのような他のすべての一般的なオーディオコンテンツに対して使用される。
逆LPC整形利得を適用した後、レートループが適用される。このために、グローバル利得が推定される。その後、スペクトル係数は量子化され、量子化されたスペクトル係数は算術符号器で符号化される。算術符号器の実際の又は推定されたビット需要及び量子化誤差に基づいて、グローバル利得は増加又は減少される。これは量子化器の精度に影響する。精度が低いほど、より多くのスペクトル係数が0に量子化される。レートループの前に重み付きLPCを使用して逆LPC整形利得を適用することにより、知覚的に関係のないコンテンツよりも有意に高い確率で知覚的に関連するラインが生き残ることが保証される。
LPCが利用可能でないfCELPを超えた部分では、知覚的に関連するスペクトル成分を識別するための異なる機構が使用される:ライン毎のエネルギーが、IGF領域における平均エネルギーと比較される。知覚的に関連する信号部分に対応する支配的なスペクトル線が維持され、他のすべての線は0に設定される。その後、IGFトーンマスクで前処理されたMDCTスペクトルは、レートループに供給される。
低帯域コンテンツの検出は、有意な低帯域信号部分が存在するかどうかを分析する。このために、逆LPC整形利得の適用前に、MDCTスペクトル上で、fCELPの下側および上側のMDCTスペクトルの最大振幅が探索される。検索手順は、以下の値をリターンする。
a)max_low_pre:逆LPC整形利得の適用前に絶対値のスペクトル上で評価された、fCELPより下側の最大MDCT係数。
b)max_high_pre:逆LPC整形利得の適用前に絶対値のスペクトル上で評価された、fCELPより上側の最大MDCT係数。判定のために、以下の条件が評価される。
条件1:c1*max_low_pre>max_high_pre。
条件1が真である場合、かなりの量の低帯域コンテンツが想定され、前処理が継続される。条件1が偽である場合、前処理が中止される。これは、例えば、fCELPより上側の正弦波掃引(sine-sweep)などの高帯域のみの信号に対して、損傷を与えないことを保証する。
ピーク距離メトリックは、fCELPより上側のスペクトルピークの算術符号器への影響を分析する。したがって、逆LPC整形利得の適用後、すなわち算術符号器が適用されるドメインにおいて、fCELPより下側および上側のMDCTスペクトルの最大振幅が、MDCTスペクトル上で探索される。最大振幅に加えて、fCELPからの距離も評価される。検索手順は、以下の値をリターンする。
a)max_low:逆LPC整形利得の適用後に絶対値のスペクトル上で評価された、fCELPより下側の最大MDCT係数
b)dist_low: fCELPからのmax_lowの距離
c)max_high:逆LPC整形利得の適用後に絶対値のスペクトル上で評価された、fCELPより上側の最大MDCT係数
d)dist_high: fCELPからのmax_highの距離
条件2:c2*dist_high*max_high>dist_low*max_low
条件2が真である場合、非常に高いスペクトルピークまたはこのピークの高周波数のいずれかに起因して、算術符号器に対して有意なストレスが想定される。高いピークは、レートループにおける符号化プロセスを支配することになり、高周波数は算術符号器を不利にするであろう。なぜなら、算術符号器は常に低周波数から高周波数へと作動する、すなわち、高周波数は符号化に非効率的だからである。条件2が真である場合、前処理は継続される。条件2が偽である場合には、前処理は中止される。
は、逆LPC利得整形を適用した後のMDCTスペクトルであり、LTCX (CELP)は、fCELPまでのMDCT係数の数であり、LTCX (BW)は、フルMDCTスペクトルのためのMDCT係数の数である。一実施例では、c2は4に設定される。
最後に、心理音響的に類似したスペクトル領域におけるピーク振幅が比較される。したがって、逆LPC整形利得の適用後、MDCTスペクトル上で、fCELPより下側および上側のMDCTスペクトルの最大振幅が探索される。fCELPより下側のMDCTスペクトルの最大振幅は、フルスペクトルについて探索されず、flow>0Hzで開始するだけである。これは、心理音響的に最も重要でありかつ逆LPC整形利得の適用後に通常最も高い振幅を有する、最も低い周波数を破棄するためであり、同様の心理音響的重要性を有する成分同士を単に比較するためである。探索手順は、以下の値をリターンする。
a)max_low2:flowから始まる逆LPC整形利得の適用後に、絶対値のスペクトル上で評価された、fCELPより下側の最大MDCT係数
b)max_high:逆LPC整形利得の適用後に、絶対値のスペクトル上で評価された、fCELPより上側の最大MDCT係数
条件3:max_high>c3*max_low2
条件3が真である場合、fCELPより上側のスペクトル係数が想定され、それはfCELPの直ぐ下側よりも有意に高い振幅を有し、符号化のためにコストがかかると想定される。定数c3は、チューニングパラメータである最大利得を定義する。条件2が真である場合、前処理は継続される。条件2が偽である場合には、前処理は中止される。
条件1−3が真であることが判明した場合、fCELPより上側のピークの減衰が適用される。この減衰は、心理音響的に類似したスペクトル領域と比較して、最大利得c3を可能にする。減衰ファクタは、以下のように計算される。
減衰ファクタ=c3*max_low2/max_high
その後、減衰ファクタは、fCELPより上側のすべてのMDCT係数に適用される。
次に、上記標準リリース13(Enhanced Voice Services(高性能ボイスサービス:EVS)用の3GPP TS26.445−コーデック、詳細なアルゴリズムの記述)の一部を示す。セクション5.3.3.2.3は整形部の好ましい実施形態を説明し、セクション5.3.3.2.7は量子化器および符号器ステージからの量子化器の好ましい実施形態を説明し、セクション5.3.3.2.8は量子化器および符号器ステージにおける符号器の好ましい実施形態における算術符号器を説明し、ここで、定ビットレートおよびグローバル利得に関する好ましいレートループはセクション5.3.2.8.1.2に記載されている。好ましい実施形態のIGFの特徴は、セクション5.3.3.2.11に記載されており、ここでは、セクション5.3.3.2.11.5.1のIGFトーンマスク計算に対して具体的な言及がなされる。標準の他の部分は、参照により本明細書中に援用される。
LPC整形は、重み付き量子化LPフィルタ係数から計算された利得ファクタをMDCTスペクトルに適用することによって、MDCTドメインにおいて実行される。MDCT変換が基礎とする入力サンプリングレートsrinpは、LP係数が計算されるCELPサンプリングレートsrcelpよりも高くなり得る。したがって、LPC整形利得は、MDCTスペクトルのCELP周波数範囲に対応する部分についてのみ計算されてもよい。スペクトルの残りの部分(もしあれば)については、最も高い周波数帯域の整形利得が使用される。
CELP周波数範囲に対応するMDCT係数XMは、64個のサブバンドにグループ化される。各サブバンドの係数は、整形スペクトル
を得るために、対応するLPC整形利得の逆数で乗算される。CELP周波数範囲
に対応するMDCTビンの数が64の倍数ではない場合、サブバンドの幅は、以下の擬似コードによって定義されるように、1ビンずつ変化する。
適応型の低周波エンファシスおよびデ・エンファシス(ALFE)処理の目的は、低周波数における周波数ドメインTCXコーデックの主観的性能を向上させることである。この目的のために、低周波MDCTスペクトル線は、符号器内での量子化の前に増幅され、それによりそれらの量子化SNRが増加する。このブーストは、増幅アーチファクトを防止するために、内部及び外部の復号器における逆MDCT処理の前に取り消される。
ALFEアルゴリズム1は、LPC周波数帯域利得lpcGains[]に基づいて動作する。最初に、利得指数0〜8のループ内で実行される比較演算を使用して、最初の9個の利得の最小値および最大値、すなわち低周波数(LF)利得が発見される。
ALFEアルゴリズム2は、アルゴリズム1とは異なり、送信されたLPC利得に基づいて動作するのではなく、量子化された低周波(LF)MDCTラインへの修正によって信号化される。この手順は、5つの連続するステップに分けられる。
・ステップ1:最初に、低いスペクトル四半分
内のインデックスi_maxにおける第1の振幅最大値を、invGain=2/gTCXを利用して発見し、その最大値を修正する:
xq[i_max] +=(xq[i_max]<0) ? −2 : 2
・ステップ2:次に、量子化を記述するサブ条項内と同様に、k=0…i_max−1の全てのラインを再量子化することによって、i_maxまでの全てのx[i]の値範囲を圧縮する。ただし、この場合、gTCXの代わりにinvGainをグローバル利得ファクタとして使用する。
・ステップ3:i_max>−1である場合には、半分の高さとなる、
よりも小さな第1の振幅最大値をinvGain=4/gTCXを使用して発見し、その最大値を修正する:
xq[i_max] += (xq[i_max] < 0) ? −2 : 2
・ステップ4:ステップ2のように、前のステップで発見された半分の高さi_maxまで全てのx[i]を再圧縮および量子化する。
・ステップ5:ステップ1で見出された最初のi_maxが−1より大きい場合には再びinvGain=2/gTCXを利用し、その他の場合にはinvGain=4/gTCXを利用して、発見された最後のi_maxにおける2つのライン、すなわちk=i_max+1及びi_max+2における2つのラインを終了し、常に圧縮する。全てのi_maxは−1に初期化される。詳細については、tcx_utils_enc.cにおけるAdaptLowFreqEmph()を参照されたい。
TXC符号化プロセスにおける量子化のガイダンスのために、0(調性)と1(ノイズ状)との間のノイズ尺度が、ある特定周波数より上側の各MDCTスペクトル線に対し、現在の変換パワースペクトルに基づいて決定される。パワースペクトルXp(k)は、同じ時間ドメイン信号セグメント上のMDCT係数XM(k)とMDST係数XS(k)とから、同じ窓掛け操作を用いて計算される。
までの全てのnoiseFlags(k)が0にリセットされる。ノイズ尺度開始ラインkstartは、以下の表1に従って初期化される。
未満である場合、kstart以上におけるnoiseFlags(k)はパワースペクトルラインの累計から帰納的に導出される。
である。最後に、上記の変数lastTone(0に初期化された)が0より大きい場合には、noiseFlags(lastTone+1)=0となる。この手順は、TCX20においてのみ実行され、他のTCXモードでは実行されないことに留意されたい。
ローパス係数clpfは、32.0kbps未満のすべてのビットレートに対してパワースペクトルに基づいて決定される。したがって、パワースペクトルXp(k)は、すべての
について、閾値tlpfに対して反復的に比較される。ここで、正則MDCT窓についてはtlpf=32.0であり、ACELPからMDCTへの遷移窓についてはtlpf=64.0である。この反復は、Xp(k)>tlpfになれば直ちに停止する。
と決定し、ここで、clpf,prevは最後に決定されたローパス係数である。符号器の起動時には、clpf,prevは1.0に設定される。ローパス係数clpfは、ノイズ充填停止ビンを決定するために使用される(サブ条項5.3.3.2.10.2を参照のこと)。
ALFEの後またはその前に(適用されたエンファシスアルゴリズムに依存して、サブ条項5.3.3.2.4.1を参照)MDCTスペクトル
を均一に量子化するため、係数は、量子化のステップサイズを制御するグローバルゲインgTCX(サブ条項5.3.3.2.8.1.1を参照)によって最初に除算される。その結果は次に、(gTCXに対して相対的な)係数の大きさと(サブ条項5.3.3.2.5においてnoiseFlags(k)によって定義されるような)トーナリティとに基づいて各係数に対して適合された丸めオフセットを用いて、0に向かって丸められる。低いトーナリティと大きさとを有する高周波スペクトル線については、0の丸めオフセットが使用されるのに対し、他の全てのスペクトル線については、0.375のオフセットが使用される。より具体的には、以下のアルゴリズムが実行される。
における最も高い符号化済みMDCT係数から出発して、条件
が成立する限り、
を設定し、kを1だけ減分する。次に、この条件が満たされない(これはnoiseFlags(0)=0により保証される)インデックスk‘≧0にある第1のラインから下流側について、0.375の丸めオフセットを用いて0に向かって丸め操作を行い、得られた整数値を−32768から32767の範囲に制限する。
ここで、k=0…k‘である。最後に、
以上である
の全ての量子化された係数はゼロに設定される。
量子化されたスペクトル係数は、エントロピー符号化によって、より具体的には算術符号化によって、ノイズなしに符号化される。
TCXフレームについてのグローバル利得gTCXの推定は、2つの反復工程で実行される。第1の推定は、SQから各サンプルにつき1ビット当たり6dBのSNR利得を考慮する。第2の推定はエントロピー符号化を考慮に入れることにより推定値を精緻化する。
初期化:fac=offset=12.8およびtarget=0.15(target_bits−L/16)と設定する。
反復:以下の操作ブロックを10回実行する。
最良の利得gTCXをused_bits≦target_bitsの制約内で設定するために、gTCXとused_bitsの収束プロプロセスが以下の変数及び定数を使用することによって実行される。
WLbとWUbは下限と上限とに対応する重みを示し、
gLbとgUbは下限と上限とに対応する利得を示し、
Lb_foundとUb_foundはそれぞれgLbとgUbとが発見されたことを示すフラグであり、
μ及びηは、μ=max(1,2.3−0.0025*target_bits)及びη=1/μを有する変数であり、
λ及びνは定数であり、10および0.96として設定される。
ここで、gUbを達成するのを加速するために、used_bits(=stop)とtarget_bitsとの比が大きいほど増幅率が大きくなる。
その他の場合には、帯域利得gLbを低下させることを加速するため、利得は次のように低減される。
ここで、used_bitsとtarget_bitsとの比が小さいとき、利得はより大きな低減率を持つ。
量子化されたスペクトル係数Xは、最も低い周波数の係数から始めて、最も高い周波数の係数へと進行するよう、ノイズなしに符号化される。それらは、いわゆる2−タプル{a,b}に集合している2つの係数aおよびbのグループ単位で符号化される。
2.エントロピー符号化されたMSB及びエスケープシンボル
3.1ビット単位の符号語を用いた正負符号
4.ビット予算が十分に使用されていない場合には区分に記述された残差量子化ビット
5.LSBはビットストリームバッファの終端から後方に向かって書き込まれる。
コンテキストは以下の疑似コードで記述するように更新される。これは2個の4ビット単位のコンテキスト要素の連鎖で構成される。
コンテキストベースの算術符号器のビット消費推定は、量子化のレートループ最適化のために必要である。この推定は、算術符号器をコールすることなくビット要求を計算することで実行される。生成されるビットは以下により正確に推定され得る。
コンテキストベース算術符号化と包絡ベース算術符号化との両方に関し、高調波モデルは、高調波コンテキストを有するフレームのより効率的な符号化のために使用される。このモデルは、以下の条件のうちのいずれかが適用すると無効化される。
−ビットレートが、9.6,13.2,16.4,24.4,32,48kbpsのいずれかではない。
−前のフレームがACELPで符号化されていた。
−包絡ベースの算術符号化が使用され且つ符号器タイプがVoicedでもGenericでもない。
−ビットストリーム内の単一ビット高調波モデルフラグがゼロに設定されている。
このモデルが有効化されたとき、高調波の周波数ドメイン・インターバルは鍵となるパラメータであり、算術符号器の両方の特色のために共通して分析され符号化される。
ピッチラグ及び利得が後処理に使用されるとき、ラグパラメータは、高調波のインターバルを周波数ドメインで表現するために利用される。その他の場合、インターバルの通常の表現が適用される。
時間ドメインのピッチラグの整数部分dintがMDCTのフレームサイズLTCXよりも小さい場合、7ビットの小数精度を有する周波数ドメインのインターバルユニット(ピッチラグに対応する高調波ピークの間)TUNITが次式で与えられる。
ここで、dfrは時間ドメインでのピッチラグの小数部分を示し、res_maxは可能な小数値の最大数を示し、その値は条件次第で4又は6である。
時間ドメインにおけるピッチラグ及び利得が使用されないか、又はピッチ利得が0.46以下である場合、不均一な分解能を有するインターバルの通常の符号化が使用される。
高調波の最良のインターバルを求めて、符号器は、絶対値のMDCT係数のピーク部分の重み付き合計EPERIODを最大化できるインデックスを発見しようと試みる。EABSM(k)は、MDCTドメイン変換係数の絶対値の3個のサンプルの合計を次式のように示す。
ここで、num_peakは、
が周波数ドメインでサンプルの限界に到達する最大数である。
初期推定において、高調波モデルを用いない使用ビットの数used_bits及び高調波モデルを用いた使用ビットの数used_bitshmが取得され、消費ビットのインジケータIdicatorBが次式のように定義される。
ここで、Index_bitshmは高調波構成をモデル化するための追加的ビットを示し、stop及びstophmは目標ビットよりも大きい場合の消費ビットを示す。従って、IdicatorBが大きければ大きいほど、高調波モデルを使用することがより好ましくなる。相対的な周期性indicatorhmが、整形されたMDCT係数のピーク領域の絶対値の正規化された和として次式で定義される。
ここで、TMDCT_maxは、EPERIODの最大値を達成する高調波インターバルである。このフレームの周期性のスコアが次式のように閾値よりも大きい場合、
このフレームは高調波モデルによって符号化されるべきと考えられる。利得gTCXで除算された整形済みのMDCT係数は、MDCT係数の整数値の系列
を生成するべく量子化され、高調波モデルを用いた算術符号化によって圧縮される。このプロセスは、消費ビットBhmを用いてgTCX及び
を得るために反復的な収束処理(レートループ)を必要とする。収束の最後には、高調波モデルを確認するために、通常の(非高調波)モデルを用いた算術符号化によって
のために消費されるビットBno_hmが追加的に計算され、Bhmと比較される。BhmがBno_hmよりも大きい場合、
の算術符号化は通常のモデルを使用するよう変更される。Bhm−Bno_hmは、更なる強化のため残差量子化用に使用され得る。その他の場合には、高調波モデルが算術符号化で使用される。
を消費ビットBno_hmを用いて生成することになる。レートループの収束の後で、高調波モデルを用いた算術符号化によって
のために消費されるビットBhmが計算される。Bno_hmがBhmよりも大きい場合、
の算術符号化は高調波モデルを使用するよう切換えられる。その他の場合には、通常のモデルが算術符号化で使用される。
コンテキストベースの算術符号化について、全ての領域が2つのカテゴリーに分類される。その1つはピーク部分であって、τUの高調波ピークのU番目(Uは限界までの正の整数)のピークに中心を持つ3個の連続的なサンプルで構成される。
MDCTドメインにおいて、スペクトル線は知覚モデルW(z)により、各線が同一精度で量子化され得るように重み付けられる。個々のスペクトルのばらつきは、知覚モデルによって重み付けられた線形予測子A-1(z)の形状に従う。よって、重み付き形状はS(z)=W(z)A-1(z)となる。
を周波数ドメインのLPC利得へと変換することで計算される。A-1(z)は、
から、直接形係数(direct-form coefficients)へと変換し、チルト補償1−γz-1を適用し、最後に周波数ドメインLPC利得へと変換した後で導出される。他の全ての周波数整形ツール及び高調波モデルからの寄与もまた、この包絡形状S(z)の中に含まれることになる。これはスペクトル線の相対的ばらつきを与えるだけであり、その一方で全体的包絡は任意のスケーリングを有することに注目すべきであり、それにより、包絡をスケーリングすることから始めなくてはならない。
を使用し、この式はbk≧0.08について正確である。bk≦0.08である線のビット消費はbitsk=log2(1.0224)と仮定し、これはbk=0.08におけるビット消費に合致する。大きなbk>255については、簡略化のために真のエントロピーbitsk=log2(2ebk)を用いる。
と合致することである。その場合、目標ビットレートBが達成されるよう、二分アルゴリズム(bi-section algorithm)を使用して適切なスケーリング係数γを決定することができる。
量子化インターバルが
となるように、xkが整数
へと量子化されたと仮定すると、そのインターバル内で発生しているスペクトル線の確率は、
については
となり、
については
となる。
に量子化されるスペクトル線は、インターバル
へと符号化され、
はインターバル
へと符号化される。xk≠0の正負符号は、追加の1ビットを用いて符号化されるであろう。
最適なスケーリングσが決定されていた場合、スペクトルは標準的な算術符号器で符号化され得る。値
に量子化されるスペクトル線は、インターバル
へと符号化され、
はインターバル
へと符号化される。xk≠0の正負符号は、追加の1ビットを用いて符号化されるであろう。
包絡ベースの算術符号化の場合、高調波モデルが算術符号化を強化するために使用され得る。コンテキストベースの算術符号化の場合と同様の探索処理が、MDCTドメインにおける高調波間のインターバルを推定するために使用される。しかしながら、高調波モデルは図2に示すようにLPC包絡と組み合わせて使用される。包絡の形状は高調波分析の情報に従ってレンダリングされる。
のとき次式で定義され、
その他の場合にはQ(k)=1.0であり、ここで、τはU番目の高調波の中心位置を示し、
である。h及びσは各高調波の高さ及び幅を示し、次式のように単位インターバルに依存している。
高さ及び幅は、インターバルが増大するに従って増大する。
ここで、高調波成分の利得gharmは、ジェネリックモードについては常に0.75に設定され、gharmは、2ビットを使用してボイスモードについてEnormを最小化するよう{0.6,1.4,4.5,10.0}から選択される。
最適なグローバル利得goptは、量子化済み及び量子化されていないMDCT係数から計算される。32kbpsまでのビットレートについては、このステップの前に、適応型低周波数デ・エンファシス(サブ条項6.2.2.3.2参照)が量子化済みMDCT係数に適用される。その計算結果がゼロ以下の最適利得をもたらす場合、(推定およびレートループにより)以前に決定されたグローバル利得gTCXが使用される。
復号器への伝送のため、最適なグローバル利得goptは、7ビットのインデックスITCX,gainへと量子化される。
逆量子化されたグローバル利得
は、サブ条項6.2.2.3.3に定義されるように取得される。
残差量子化は、第1のSQステージを精錬する精錬量子化レイヤ(refinement quantization layer)である。それは、最終的に未使用のビットtarget_bits−nbbitsを活用するものであり、ここでnbbitsはエントロピー符号器によって消費されるビット数である。残差量子化は、ビットストリームが所望のサイズに到達したときはいつでも符号化を停止するように、貪欲な方策を採用し、エントロピー符号化は採用しない。
は、n=0から開始してnを1ずつ増分することで、以下の反復に従って順次精錬されていく。
復号器側では、係数がゼロに量子化されていたMDCTスペクトル内のギャップを充填するために、ノイズ充填が適用される。ノイズ充填は、疑似ランダムノイズをギャップに挿入し、ビンkNFstartから開始してビンkNFstop−1まで続く。復号器内で挿入されるノイズの量を制御するため、ノイズファクタが符号器側で計算され、復号器へと伝送される。
LPCチルトを補償するため、チルト補償ファクタが計算される。13.2kbps未満のビットレートについては、チルト補償は、直接形量子化LP係数
から計算され、それより高いビットレートについては定数値が使用される。
ノイズ充填セグメントの各側において、挿入されたノイズに対して遷移フェードアウトが適用される。遷移の幅(ビンの数)は以下のように定義される。
ここで、HMは算術コーデックに高調波モデルが使用されたことを示し、previousは前のコーデックモードを示す。
ノイズ充填セグメントが決定される。それらは、kNFstartとkNFstop,LPの間のMDCTスペクトルの連続的ビンのセグメントであり、これらに対する全ての係数がゼロに量子化されるものである。そのようなセグメントは次の疑似コードにより定義されるように決定される。
ここで、kNF0(j)及びkNF1(j)は、ノイズ充填セグメントjの開始ビン及び停止ビンであり、nNFは、セグメントの個数である。
ノイズファクタは、ノイズ充填が適用されるビンの非量子化MDCT係数から計算される。
インテリジェント・ギャップ充填(IGF)ツールは、スペクトル内のギャップ(ゼロ値の領域)を充填する高性能なノイズ充填技術である。これらのギャップは、符号化プロセスの中で、所与のスペクトルの大部分がビット制限に合わせるためにゼロに設定され得るような、粗い量子化によって発生し得る。しかしながら、IGFツールを使用すれば、これらの欠損信号部分は、受信機側(RX)において、送信側(TX)で計算されたパラメトリック情報を用いて再構成される。IGFは、TCXモードが活性である場合にのみ使用される。
CELPからTCX符号化への遷移がある場合(isCelpToTCX=true)、又はTCX10フレームが信号伝達された場合(isTCX10=true)、TCXフレーム長は変化し得る。フレーム長が変化した場合、フレーム長に関連する全ての値が関数tFを用いてマッピングされる。
ここで、nは自然数であり、例えばスケールファクタ帯域オフセットであり、fは遷移ファクタであり、表11を参照されたい。
現在のTCXフレームのパワースペクトルP∈Pnが次式を用いて計算される。
ここで、nは実際のTCX窓長さであり、P∈Pnは現在のTCXスペクトルの(コサイン変換された)実数部分を含むベクトルであり、I∈Pnは現在のTCXスペクトルの(サイン変換された)虚数部分を含むベクトルである。
P∈Pnはサブ条項5.3.3.2.11.1.2に従って計算されたTCXパワースペクトルであり、bはSFM尺度領域の開始線であり、eは停止線であると仮定する。
P∈Pnはサブ条項5.3.3.2.11.1.2に従って計算されたTCXパワースペクトルであり、bはクレストファクタ尺度領域の開始線であり、eは停止線であると仮定する。
hTマッピング関数は次式で定義される。
ここで、sは計算されたスペクトル平坦度値であり、kは範囲内のノイズ帯域である。閾値ThMk,ThSkについては、以下の表7を参照されたい。
IGFスケールファクタの表はIGFが適用される全てのモデルに対して有効である
IGF符号器モジュールは、以下のベクトルとフラグとを入力として想定している。
R:現在のTCXスペクトルの実数部分XMを有するベクトル
I:現在のTCXスペクトルの虚数部分XSを有するベクトル
P:TCXパワースペクトルの値Xpを有するベクトル
isTransient:現在のフレームが過渡を含む場合に信号伝達するフラグ、サブ条項5.3.2.4.1.1を参照。
isTCX10:TCX10フレームを信号伝達するフラグ
isTCX20:TCX20フレームを信号伝達するフラグ
isCelpToTCX:CELPからTCXへの遷移を信号伝達するフラグであって、最後のフレームがCELPであったかどうかのテストによりフラグを生成する
isIndepFlag:現在のフレームが前のフレームから独立していることを信号伝達するフラグ
全ての関数の申告は、入力要素がフレーム単位で提供されるという想定に基づいている。唯一の例外は、2つの連続するTCX10フレームであって、2番目のフレームが1番目のフレームに依存して符号化されている場合である。
このサブ条項は、IGFスケールファクタベクトルg(k),k=0,1,...,nB−1が送信(TX)側においてどのように計算されるかについて説明する。
TCXパワースペクトルPが利用可能であれば、IGFスケールファクタ値gはPを用いて計算され、
m:N→Nを、IGF目標領域をサブ条項5.3.3.2.11.1.8に記載のIGFソース領域へとマップするマッピング関数と仮定して、次式を計算する。
ここで、t(0),t(1),...,t(nB)は、関数tFを用いて既にマップされている筈であり(サブ条項5.3.3.2.11.1.1参照)、nBはIGFスケールファクタ帯域の個数である(表8参照)。
TCXパワースペクトルが利用可能でない場合、以下の計算をする。
ここで、t(0),t(1),...,t(nB)は、関数tFを用いて既にマップされているはずであり(サブ条項5.3.3.2.11.1.1参照)、nBは帯域の個数である(表8参照)。
どのスペクトル成分がコアコーダ用いて送信させるべきかを決定するために、トーンマスクが計算される。よって、全ての有意なスペクトルコンテンツが識別される一方で、IGFを介するパラメトリック符号化に適したコンテンツはゼロに量子化される。
TCXパワースペクトルPが利用可能でない場合、t(0)を上回る全てのスペクトルコンテンツは消去される。
ここで、RはTNSを適用した後の実数値のTCXスペクトルであり、nは現在のTCX窓長さである。
ベクトルprevFIR及びprevIIRは、両方ともIGFモジュールにおけるサイズnTの静的アレーであり、両アレーはゼロを用いて初期化されている。
−コーデックスタートアップとともに
−任意のビットレート切り替えとともに
−任意のコーデックタイプ切り替えとともに
−CELPからTCXへの遷移とともに、例えばisCelpToTCX=true
−現在のフレームが過渡特性を有する場合、例えばisTransient=true
ベクトルcurrWLevelは、全てのタイルについてゼロで初期化されるべきである。
−コーデックスタートアップとともに
−任意のビットレート切り替えとともに
−任意のコーデックタイプ切り替えとともに
−CELPからTCXへの遷移とともに、例えばisCelpToTCX=true
以下のステップ(1)〜(4)が連続的に実行されるべきである。
(1)前のレベルバッファを更新し、現在のレベルを初期化する。
prevIsTransient又はisTransientが真(true)の場合、次式を適用する。
その他の場合、パワースペクトルPが利用可能であれば、次式を計算する。
ここで、
であり、SFMはサブ条項5.3.3.2.11.1.3に記載のスペクトル平坦度関数であり、CRESTはサブ条項5.3.3.2.11.1.4に記載のクレストファクタ関数である。
次式を計算する。
ベクトルs(k)の計算の後で、フィルタ状態は次式のように更新される。
ベクトルcurrWLevelで定義されたIGFホワイトニングレベルは、1タイル当たり1又は2ビットを使用して伝送される。必要とされる総計ビットの厳密な数は、currWLevel内に含まれる実際の値とisIndepフラグの値とに依存する。詳細なプロセスは以下の疑似コードにより記述される。
ここで、ベクトルpreWLevelは前のフレームからのホワイトニングレベルを含み、関数encode_whitening_levelは、ホワイトニングレベルcurrWLevel(k)のバイナリコードへの実際のマッピングで役割を果たす。その関数は以下の疑似コードに従って実行される。
IGFにより再構築された信号の時間的包絡は、伝送された時間的包絡平坦度の情報、即ちIGF平坦度インジケータに従って、受信機(RX)側において平坦化される。
ここで、kiは線形予測によって取得されたi番目のPARCOR係数である。
IGFスケールファクタベクトルgは、ベクトルの効率的な表現をビットストリームへと書き込むため、算術符号器を用いてノイズレスに符号化される。
isIndepFlagのフラグがtrue(真)の値を持つ場合には、算術符号器の内部状態がリセットされる。このフラグは、TCX10窓(表11を参照)が2つの連続的なTCX10フレームの2番目のフレームに使用されるようなモードにおいてのみ、false(偽)に設定され得る。
算術符号器状態は、t∈{0,1}と、前のフレームから保存されたベクトルgの値を表現するprevベクトルとで構成される。ベクトルgを符号化しているとき、tの値0は、有効な前のフレームが存在しないことを意味し、よってprevは定義されずかつ使用されない。tの値1は、有効な前のフレームが存在することを意味し、よってprevは妥当なデータを有しそれが使用されるが、このようなケースは、2つの連続的なTCX10フレームの2番目のフレームのためにTCX10窓(表11を参照)が使用されるようなモードにおいてのみ起こり得る。算術符号器状態をリセットするためには、t=0を設定するだけで十分である。
arith_encode_bits関数は、長さnBitsビットの正負符号のない整数xを、一度に1ビット書き込むことによって符号化する。
符号器状態の保存は、関数iisIGFSCFEncoderSaveContextStateを使用して達成され、これは、t及びprevベクトルをtSave及びprevSaveベクトル内にそれぞれコピーするものである。符号器状態の回復は、補足的な関数iisIGFSCFEncoderRestoreContextStateを使用して実行され、これは、tSave及びprevSaveベクトルをt及びprevベクトル内にそれぞれコピーし戻すものである。
算術符号器はビットをカウントすることだけ可能であるべきであり、例えばビットをビットストリームに書き込むことなく算術符号化を実行すべきであることに注目されたい。false(偽)に設定されたパラメータdoRealEncodingを使用して算術符号器がカウント要求と共にコールされた場合、算術符号器の内部状態は、そのコールの前にトップレベル関数iisIGFSCFEncoderEncodeに保存されるべきであり、そのコールの後でコール者(caller)によって回復されるべきである。このような特殊なケースでは、算術符号器によって内部的に生成されたビットはビットストリームに書き込まれない。
・t=0及びf=0のとき、独立フレームの第1のスケールファクタは、累積度数テーブルcf_se00を用いて符号化される最上位ビットと、直接符号化される2つの最下位ビットとに分割することで符号化される。
・t=0及びf=1のとき、独立フレームの第2のスケールファクタは、累積度数テーブルcf_se01を用いて(予測残差として)符号化される。
・t=0及びf≧2のとき、独立フレームの第3及び後続のスケールファクタは、量子化されたコンテキスト値ctxにより決定された累積度数テーブルcf_se02[CTX_OFFSET+ctx]を用いて(予測残差として)符号化される。
・t=1及びf=0のとき、依存型フレームの第1のスケールファクタは、累積度数テーブルcf_se10を用いて(予測残差として)符号化される。
・t=1及びf≧1のとき、依存型フレームの第2及び後続のスケールファクタは、量子化されたコンテキスト値ctx_t及びctx_fにより決定された累積度数テーブルcf_se11[CTX_OFFSET+ctx_t][CTX_OFFSET+ctx_f]を用いて(予測残差として)符号化される。
算術符号化されたIGFスケールファクタ、IGFホワイトニングレベル及びIGF時間的平坦度インジケータは、ビットストリームを介して復号器側へと連続的に伝送される。IGFスケールファクタの符号化は、サブ条項5.3.3.2.11.8.4に記載されている。IGFホワイトニングレベルは、サブ条項5.3.3.2.11.6.4に記載のように符号化される。最後に、1ビットとして表現されるIGF時間的平坦度インジケータフラグがビットストリームに書き込まれる。
Claims (26)
- 低位周波数帯域と高位周波数帯域とを有するオーディオ信号を符号化するためのオーディオ符号器であって、
前記オーディオ信号の前記高位周波数帯域内のピークスペクトル領域を検出するための検出部(802)と、
前記低位周波数帯域の整形情報を用いて前記低位周波数帯域を整形し、前記低位周波数帯域の整形情報の少なくとも一部を用いて前記高位周波数帯域を整形するための整形部(804)であって、前記高位周波数帯域の検出されたピークスペクトル領域におけるスペクトル値を追加的に減衰させるように構成された整形部(804)と、
整形された低位周波数帯域及び整形された高位周波数帯域を量子化し、前記整形された低位周波数帯域及び整形された高位周波数帯域からの量子化されたスペクトル値をエントロピー符号化するための量子化器及び符号器ステージ(806)と、
を備えたオーディオ符号器。 - 時間フレームにおけるオーディオサンプルのブロックを分析することによって、前記オーディオ信号の時間フレームの線形予測係数を導出する線形予測分析部(808)であって、前記オーディオサンプルは前記低位周波数帯域に帯域制限されている、線形予測分析部(808)をさらに含み、
前記整形部(804)は、前記整形情報として前記線形予測係数を用いて前記低位周波数帯域を整形するように構成されており、
前記整形部(804)は、前記オーディオ信号の前記時間フレームにおける前記高位周波数帯域を整形するために、前記低位周波数帯域に帯域制限された前記オーディオサンプルのブロックから導出された前記線形予測係数の少なくとも一部を使用するように構成される、
請求項1に記載のオーディオ符号器。 - 前記整形部(804)は、前記オーディオ信号の前記低位周波数帯域から導出される線形予測係数を使用して、前記低位周波数帯域の複数のサブバンドのための複数の整形ファクタを計算するよう構成され、
前記整形部(804)は、前記低位周波数帯域において、前記低位周波数帯域のあるサブバンドにおけるスペクトル係数を、その対応するサブバンドのために計算された整形ファクタを用いて、重み付けするよう構成され、
かつ前記高位周波数帯域におけるスペクトル係数を、前記低位周波数帯域のサブバンドの一つのために計算された整形ファクタを用いて重み付けするよう構成される、
請求項1または2に記載のオーディオ符号器。 - 前記整形部(804)は、前記高位周波数帯域のスペクトル係数を、前記低位周波数帯域の最高のサブバンドのために計算された整形ファクタを用いて重み付けするよう構成され、前記最高のサブバンドは、前記低位周波数帯域のサブバンドのすべての中心周波数の中で最も高い中心周波数を有する、
請求項3に記載のオーディオ符号器。 - 前記検出部(802)は、ある条件グループの少なくとも一つが真である場合に、前記高位周波数帯域におけるピークスペクトル領域を決定するように構成され、
前記条件グループは、低位周波数帯域振幅条件(1102)、ピーク距離条件(1104)、及びピーク振幅条件(1106)を少なくとも含む、
前記請求項1〜4のいずれか1項に記載のオーディオ符号器。 - 前記検出部(802)は、前記低位周波数帯域振幅条件のために、
前記低位周波数帯域における最大スペクトル振幅(1202)と、
前記高位周波数帯域における最大スペクトル振幅(1204)と、を決定するよう構成され、
ゼロより大きな所定数によって重み付けられた前記低位周波数帯域における最大スペクトル振幅が、前記高位周波数帯域における最大スペクトル振幅(1204)より大きい場合に、前記低位周波数帯域振幅条件(1102)が真である、
請求項5に記載のオーディオ符号器。 - 前記検出部(802)は、前記整形部(804)により適用される整形操作の前に、前記低位周波数帯域における最大スペクトル振幅又は前記高位周波数帯域における最大スペクトル振幅を検出するように構成され、又は前記所定数が4〜30である、
請求項6に記載のオーディオ符号器。 - 前記検出部(802)は、ピーク距離条件について、
前記低位周波数帯域における第1の最大スペクトル振幅(1206)と、
前記低位周波数帯域の中心周波数と前記高位周波数帯域の中心周波数との間の、境界周波数からの前記第1の最大スペクトル振幅の第1のスペクトル距離(1304)と、
前記高位周波数帯域における第2の最大スペクトル振幅(1306)と、
前記境界周波数から前記第2の最大スペクトル振幅までの前記第2の最大スペクトル振幅の第2のスペクトル距離(1308)と、
を決定するよう構成され、
前記第1のスペクトル距離によって重み付けされかつ1より大きな所定数によって重み付けられた前記第1の最大スペクトル振幅が、前記第2のスペクトル距離によって重み付けられた第2の最大スペクトル振幅よりも大きい場合(1310)に、前記ピーク距離条件(1104)が真である、
請求項5〜7のいずれか一項に記載のオーディオ符号器。 - 前記検出部(802)は、前記第1の最大スペクトル振幅又は前記第2の最大スペクトル振幅を、前記追加的減衰なしの前記整形部(804)による整形操作に続いて、決定するように構成され、又は
前記境界周波数は、前記低位周波数帯域の最高周波数又は前記高位周波数帯域の最低周波数であり、又は
前記所定数は1.5と8との間である、
請求項8に記載のオーディオ符号器。 - 前記検出部(802)は、前記低位周波数帯域の一部分における第1の最大スペクトル振幅(1402)を決定するよう構成され、前記一部分は前記低位周波数帯域の所定の開始周波数から前記低位周波数帯域の最大周波数まで延びており、前記所定の開始周波数は前記低位周波数帯域の最小周波数よりも大きく、
前記検出部(802)は、前記高位周波数帯域における第2の最大スペクトル振幅(1404)を決定するよう構成され、
前記第2の最大スペクトル振幅が、1以上の所定数で重み付けされた第1の最大スペクトル振幅より大きい場合(1406)に、前記ピーク振幅条件(1106)が真である、
請求項5〜9のいずれか一項に記載のオーディオ符号器。 - 前記検出部(802)は、前記第1の最大スペクトル振幅又は前記第2の最大スペクトル振幅を、前記整形部(804)によって前記追加的減衰なしに適用される整形操作の後で決定するように構成され、若しくは前記所定の開始周波数は前記低位周波数帯域の前記最小周波数よりも高い低周波数の少なくとも10%にあるか、若しくは前記所定の開始周波数は前記低位周波数帯域の最大周波数の半分の±10%の許容差内で前記最大周波数の半分に等しい周波数であり、又は
前記所定数は、前記量子化器/符号器ステージによって提供されるビットレートに依存し、それによって、ビットレートが高いほど前記所定数が高くなり、又は
前記所定数は1.0と5.0との間である、
請求項10に記載のオーディオ符号器。 - 前記検出部(802)は、前記3つの条件のうちの少なくとも2つ又は前記3つの条件が真である場合にのみ、前記ピークスペクトル領域を決定するように構成される、
請求項6から11のいずれか一項に記載のオーディオ符号器。 - 前記検出部(802)は、前記スペクトル振幅として、実数スペクトルのスペクトル値の絶対値、複素スペクトルの大きさ、前記実数スペクトルの前記スペクトル値の任意の羃、又は前記複素スペクトルの大きさの任意の羃を決定するように構成され、前記羃は1より大きい、
請求項6〜12のいずれか一項に記載のオーディオ符号器。 - 前記整形部(804)は、前記高位周波数帯域における最大スペクトル振幅に基づいて、又は前記低位周波数帯域における最大スペクトル振幅に基づいて、前記検出されたピークスペクトル領域における少なくとも1つのスペクトル値を減衰させるように構成される、
請求項1〜13のいずれか1項に記載のオーディオ符号器。 - 前記整形部(804)は、前記低位周波数帯域の一部分における最大スペクトル振幅を決定するよう構成され、前記一部分は前記低位周波数帯域の所定の開始周波数から前記低位周波数帯域の最大周波数まで延びており、前記所定の開始周波数は前記低位周波数帯域の最小周波数より大きく、前記所定の開始周波数は好ましくは前記低位周波数帯域の最小周波数より高い前記低位周波数帯域の少なくとも10%にあり、又は前記所定の開始周波数は好ましくは前記低位周波数帯域の最大周波数の半分の±10%の許容誤差内で前記最大周波数の半分に等しい周波数である、
請求項14に記載のオーディオ符号器。 - 前記整形部(804)は、減衰ファクタを用いて前記スペクトル値をさらに減衰させるよう構成され、前記減衰ファクタは、1以上である所定数により乗算(1606)され、かつ前記高位周波数帯域における最大スペクトル振幅(1604)によって除算された、前記低位周波数帯域における最大スペクトル振幅(1602)から導出される、
請求項14又は15に記載のオーディオ符号器。 - 前記整形部(804)は、検出されたピークスペクトル領域内のスペクトル値を、
−前記低位周波数帯域の整形情報の少なくとも一部を用いた第1の重み付け操作(1702、804a)と、減衰情報を用いた第2の後続の重み付け操作(1704、804b)、又は
−減衰情報を使用した第1の重み付け操作と、前記低位周波数帯域についての前記整形情報の少なくとも一部を用いた第2の後続の重み情報、又は
−前記減衰情報と前記低位周波数帯域についての前記整形情報の少なくとも一部とから導出された結合された重み情報を用いた単一の重み付け操作、
に基づいて整形するように構成される、請求項1〜16のいずれか1項に記載のオーディオ符号器。 - 前記低位周波数帯域についての重み情報は整形ファクタの集合であり、各整形ファクタは前記低位周波数帯域の1つのサブバンドと関連しており、
前記高位周波数帯域についての整形操作に使用される前記低位周波数帯域についての重み情報の少なくとも一部は、前記低位周波数帯域のすべてのサブバンドの最も高い中心周波数を有する前記低位周波数帯域のサブバンドに関連付けられた整形ファクタであり、又は
前記減衰情報は、前記検出されたスペクトル領域における少なくとも1つのスペクトル値に、または前記検出されたスペクトル領域における全てのスペクトル値に、または前記オーディオ信号の時間フレームに対して前記検出部(802)によって前記ピークスペクトル領域が検出された前記高位周波数帯域におけるすべてのスペクトル値に、適用される減衰ファクタであり、又は
前記整形部(804)は、前記検出部(802)が前記オーディオ信号の時間フレームの高位周波数帯域のいずれのピークスペクトル領域も検出しない場合に、如何なる追加的減衰も行わずに前記低位周波数帯域及び前記高位周波数帯域の整形を実行するよう構成されている、
請求項17に記載のオーディオ符号器。 - 前記量子化器および符号器ステージ(806)は、エントロピー符号化されたオーディオ信号の所定のビットレートが得られるように、量子化器特性を推定するためのレートループプロセッサを含む、
請求項1〜18のいずれか1項に記載のオーディオ符号器。 - 前記量子化器特性はグローバル利得であり、
前記量子化器および符号器ステージ(806)が、
前記低位周波数帯域における整形されたスペクトル値と、前記高位周波数帯域における整形されたスペクトル値とを、同じグローバル利得によって重み付けするための重み付け部(1502)と、
前記グローバル利得により重み付けされた値を量子化するための量子化器(1504)と、
量子化された値をエントロピー符号化するエントロピー符号器(1506)であって、前記エントロピー符号器は算術符号器またはハフマン符号器を含む、エントロピー符号器(1506)と、
を含む、
請求項19記載のオーディオ符号器。 - 前記オーディオ符号器は、前記高位周波数帯域において、量子化されエントロピー符号化されるべきスペクトル値の第1グループと、ギャップ充填手順によりパラメトリックに符号化されるべきスペクトル値の第2グループとを決定するためのトーンマスクプロセッサ(1012)をさらに含み、前記トーンマスクプロセッサは、前記スペクトル値の第2グループをゼロ値に設定するよう構成されている、
請求項1〜20のいずれか1項に記載のオーディオ符号器。 - 前記オーディオ符号器は、
共通プロセッサ(1002)と、
周波数ドメイン符号器(1012,802,804,806)と、
線形予測符号器(1008)と、をさらに備え、
前記周波数ドメイン符号器は、前記検出部(802)と、前記整形部(804)と、前記量子化器および符号器ステージ(806)とを含み、
前記共通プロセッサは、前記周波数ドメイン符号器および前記線形予測符号器によって使用されるべきデータを計算するよう構成される、
請求項1〜21のいずれか1項に記載のオーディオ符号器。 - 前記共通プロセッサは、前記オーディオ信号をリサンプリング(1006)して、前記オーディオ信号の時間フレームのために前記低位周波数帯域に帯域制限されたリサンプリング済みオーディオ信号帯域を得るように構成され、
前記共通プロセッサ(1002)は、前記時間フレームにおけるオーディオサンプルのブロックを分析することによって、前記オーディオ信号の前記時間フレームについての線形予測係数を導出する線形予測分析部(808)を備え、前記オーディオサンプルは、前記低位周波数帯域に帯域制限されており、又は
前記共通プロセッサ(1002)は、前記オーディオ信号の前記時間フレームが、前記線形予測符号器の出力または前記周波数ドメイン符号器の出力のいずれかによって表現されるように制御するよう構成される、
請求項22に記載のオーディオ符号器。 - 前記周波数ドメイン符号器は、前記オーディオ信号の時間フレームを、前記低位周波数帯域及び前記高位周波数帯域を含む周波数表現へと変換するための時間−周波数変換部(1012)を含む、
請求項22又は23に記載のオーディオ符号器。 - 低位周波数帯域と高位周波数帯域とを有するオーディオ信号を符号化するための方法であって、
前記オーディオ信号の前記高位周波数帯域におけるピークスペクトル領域を検出するステップ(802)と、
前記低位周波数帯域のための整形情報を用いて、前記オーディオ信号の前記低位周波数帯域を整形(804)し、かつ前記低位周波数帯域のための整形情報の少なくとも一部を使用して、前記オーディオ信号の高位周波数帯域を整形(1702)するステップであって、前記高位周波数帯域の整形は、前記高位周波数帯域の検出されたピークスペクトル領域におけるスペクトル値の追加的減衰(1704)を含む、ステップと、
を含む方法。 - コンピュータまたはプロセッサ上で実行されたとき、請求項25に記載の方法を実行するためのコンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020118122A JP6970789B2 (ja) | 2016-04-12 | 2020-07-09 | 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム |
JP2021177073A JP7203179B2 (ja) | 2016-04-12 | 2021-10-29 | 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16164951.2 | 2016-04-12 | ||
EP16164951 | 2016-04-12 | ||
PCT/EP2017/058238 WO2017178329A1 (en) | 2016-04-12 | 2017-04-06 | Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020118122A Division JP6970789B2 (ja) | 2016-04-12 | 2020-07-09 | 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019514065A true JP2019514065A (ja) | 2019-05-30 |
JP6734394B2 JP6734394B2 (ja) | 2020-08-05 |
Family
ID=55745677
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018553874A Active JP6734394B2 (ja) | 2016-04-12 | 2017-04-06 | 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム |
JP2020118122A Active JP6970789B2 (ja) | 2016-04-12 | 2020-07-09 | 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム |
JP2021177073A Active JP7203179B2 (ja) | 2016-04-12 | 2021-10-29 | 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020118122A Active JP6970789B2 (ja) | 2016-04-12 | 2020-07-09 | 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム |
JP2021177073A Active JP7203179B2 (ja) | 2016-04-12 | 2021-10-29 | 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム |
Country Status (19)
Country | Link |
---|---|
US (3) | US10825461B2 (ja) |
EP (3) | EP4134953A1 (ja) |
JP (3) | JP6734394B2 (ja) |
KR (1) | KR102299193B1 (ja) |
CN (3) | CN109313908B (ja) |
AR (1) | AR108124A1 (ja) |
AU (1) | AU2017249291B2 (ja) |
CA (1) | CA3019506C (ja) |
ES (2) | ES2933287T3 (ja) |
FI (1) | FI3696813T3 (ja) |
MX (1) | MX2018012490A (ja) |
MY (1) | MY190424A (ja) |
PL (2) | PL3443557T3 (ja) |
PT (2) | PT3696813T (ja) |
RU (1) | RU2719008C1 (ja) |
SG (1) | SG11201808684TA (ja) |
TW (1) | TWI642053B (ja) |
WO (1) | WO2017178329A1 (ja) |
ZA (1) | ZA201806672B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022537033A (ja) * | 2019-06-17 | 2022-08-23 | フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 信号依存的な数および精度制御を伴うオーディオエンコーダ、オーディオデコーダ、ならびに関連する方法およびコンピュータプログラム |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3671741A1 (en) * | 2018-12-21 | 2020-06-24 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Audio processor and method for generating a frequency-enhanced audio signal using pulse processing |
JP7088403B2 (ja) * | 2019-02-20 | 2022-06-21 | ヤマハ株式会社 | 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム |
CN110047519B (zh) * | 2019-04-16 | 2021-08-24 | 广州大学 | 一种语音端点检测方法、装置及设备 |
CN113192523B (zh) | 2020-01-13 | 2024-07-16 | 华为技术有限公司 | 一种音频编解码方法和音频编解码设备 |
CN113539281B (zh) * | 2020-04-21 | 2024-09-06 | 华为技术有限公司 | 音频信号编码方法和装置 |
CN111613241B (zh) * | 2020-05-22 | 2023-03-24 | 厦门理工学院 | 一种高精度高稳定度的弦乐器基波频率检测方法 |
CN113963703A (zh) * | 2020-07-03 | 2022-01-21 | 华为技术有限公司 | 一种音频编码的方法和编解码设备 |
CN112397043B (zh) * | 2020-11-03 | 2021-11-16 | 北京中科深智科技有限公司 | 一种语音转化成歌曲的方法和系统 |
CN112951251B (zh) * | 2021-05-13 | 2021-08-06 | 北京百瑞互联技术有限公司 | 一种lc3音频混合方法、装置及存储介质 |
CN118314908A (zh) * | 2023-01-06 | 2024-07-09 | 华为技术有限公司 | 场景音频解码方法及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015516593A (ja) * | 2012-03-29 | 2015-06-11 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | ハーモニックオーディオ信号の帯域幅拡張 |
Family Cites Families (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4672670A (en) * | 1983-07-26 | 1987-06-09 | Advanced Micro Devices, Inc. | Apparatus and methods for coding, decoding, analyzing and synthesizing a signal |
JP3125543B2 (ja) * | 1993-11-29 | 2001-01-22 | ソニー株式会社 | 信号符号化方法及び装置、信号復号化方法及び装置、並びに記録媒体 |
DE19804581C2 (de) * | 1998-02-05 | 2000-08-17 | Siemens Ag | Verfahren und Funk-Kommunikationssystem zur Übertragung von Sprachinformation |
US6415253B1 (en) * | 1998-02-20 | 2002-07-02 | Meta-C Corporation | Method and apparatus for enhancing noise-corrupted speech |
KR100391935B1 (ko) * | 1998-12-28 | 2003-07-16 | 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. | 오디오 신호를 코딩 또는 디코딩하는 방법 및 디바이스 |
SE9903553D0 (sv) | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
GB9917985D0 (en) * | 1999-07-30 | 1999-09-29 | Scient Generics Ltd | Acoustic communication system |
JP2001143384A (ja) * | 1999-11-17 | 2001-05-25 | Sharp Corp | ディジタル信号処理装置およびディジタル信号処理方法 |
US7330814B2 (en) * | 2000-05-22 | 2008-02-12 | Texas Instruments Incorporated | Wideband speech coding with modulated noise highband excitation system and method |
US6587816B1 (en) * | 2000-07-14 | 2003-07-01 | International Business Machines Corporation | Fast frequency-domain pitch estimation |
AU2211102A (en) * | 2000-11-30 | 2002-06-11 | Scient Generics Ltd | Acoustic communication system |
US20020128839A1 (en) * | 2001-01-12 | 2002-09-12 | Ulf Lindgren | Speech bandwidth extension |
CA2388352A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for frequency-selective pitch enhancement of synthesized speed |
DE60327039D1 (de) | 2002-07-19 | 2009-05-20 | Nec Corp | Audiodekodierungseinrichtung, dekodierungsverfahren und programm |
US7650277B2 (en) * | 2003-01-23 | 2010-01-19 | Ittiam Systems (P) Ltd. | System, method, and apparatus for fast quantization in perceptual audio coders |
US7272551B2 (en) * | 2003-02-24 | 2007-09-18 | International Business Machines Corporation | Computational effectiveness enhancement of frequency domain pitch estimators |
WO2004090870A1 (ja) * | 2003-04-04 | 2004-10-21 | Kabushiki Kaisha Toshiba | 広帯域音声を符号化または復号化するための方法及び装置 |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
CN100507485C (zh) | 2003-10-23 | 2009-07-01 | 松下电器产业株式会社 | 频谱编码装置和频谱解码装置 |
US8150683B2 (en) * | 2003-11-04 | 2012-04-03 | Stmicroelectronics Asia Pacific Pte., Ltd. | Apparatus, method, and computer program for comparing audio signals |
EP1719117A1 (en) * | 2004-02-16 | 2006-11-08 | Koninklijke Philips Electronics N.V. | A transcoder and method of transcoding therefore |
KR100721537B1 (ko) * | 2004-12-08 | 2007-05-23 | 한국전자통신연구원 | 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법 |
CN101180676B (zh) * | 2005-04-01 | 2011-12-14 | 高通股份有限公司 | 用于谱包络表示的向量量化的方法和设备 |
JP5129117B2 (ja) * | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
EP1931169A4 (en) * | 2005-09-02 | 2009-12-16 | Japan Adv Inst Science & Tech | POST-FILTER FOR A MICROPHONE MATRIX |
US7991611B2 (en) * | 2005-10-14 | 2011-08-02 | Panasonic Corporation | Speech encoding apparatus and speech encoding method that encode speech signals in a scalable manner, and speech decoding apparatus and speech decoding method that decode scalable encoded signals |
US8032371B2 (en) * | 2006-07-28 | 2011-10-04 | Apple Inc. | Determining scale factor values in encoding audio data with AAC |
US8135047B2 (en) * | 2006-07-31 | 2012-03-13 | Qualcomm Incorporated | Systems and methods for including an identifier with a packet associated with a speech signal |
US9496850B2 (en) * | 2006-08-04 | 2016-11-15 | Creative Technology Ltd | Alias-free subband processing |
EP2054876B1 (en) * | 2006-08-15 | 2011-10-26 | Broadcom Corporation | Packet loss concealment for sub-band predictive coding based on extrapolation of full-band audio waveform |
KR101565919B1 (ko) * | 2006-11-17 | 2015-11-05 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 방법 및 장치 |
KR100848324B1 (ko) * | 2006-12-08 | 2008-07-24 | 한국전자통신연구원 | 음성 부호화 장치 및 그 방법 |
JP5339919B2 (ja) * | 2006-12-15 | 2013-11-13 | パナソニック株式会社 | 符号化装置、復号装置およびこれらの方法 |
DK2571024T3 (en) * | 2007-08-27 | 2015-01-05 | Ericsson Telefon Ab L M | Adaptive transition frequency between the noise filling and bandwidth extension |
CN101843115B (zh) * | 2007-10-30 | 2013-09-25 | 歌乐株式会社 | 听觉灵敏度校正装置 |
CN102177426B (zh) * | 2008-10-08 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 多分辨率切换音频编码/解码方案 |
KR101661374B1 (ko) * | 2009-02-26 | 2016-09-29 | 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 | 부호화 장치, 복호 장치 및 이들 방법 |
JP4932917B2 (ja) * | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
US8751225B2 (en) * | 2010-05-12 | 2014-06-10 | Electronics And Telecommunications Research Institute | Apparatus and method for coding signal in a communication system |
JP6075743B2 (ja) * | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JP2012163919A (ja) * | 2011-02-09 | 2012-08-30 | Sony Corp | 音声信号処理装置、および音声信号処理方法、並びにプログラム |
US9293151B2 (en) * | 2011-10-17 | 2016-03-22 | Nuance Communications, Inc. | Speech signal enhancement using visual information |
KR20130047630A (ko) * | 2011-10-28 | 2013-05-08 | 한국전자통신연구원 | 통신 시스템에서 신호 부호화 장치 및 방법 |
JP5915240B2 (ja) * | 2012-02-20 | 2016-05-11 | 株式会社Jvcケンウッド | 特殊信号検出装置、雑音信号抑制装置、特殊信号検出方法、雑音信号抑制方法 |
US9741350B2 (en) * | 2013-02-08 | 2017-08-22 | Qualcomm Incorporated | Systems and methods of performing gain control |
US9711156B2 (en) * | 2013-02-08 | 2017-07-18 | Qualcomm Incorporated | Systems and methods of performing filtering for gain determination |
JP6155766B2 (ja) * | 2013-03-29 | 2017-07-05 | 凸版印刷株式会社 | 印刷再現色予測方法 |
EP2963646A1 (en) * | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
US9830921B2 (en) * | 2015-08-17 | 2017-11-28 | Qualcomm Incorporated | High-band target signal control |
-
2017
- 2017-04-06 ES ES20168799T patent/ES2933287T3/es active Active
- 2017-04-06 EP EP22196902.5A patent/EP4134953A1/en active Pending
- 2017-04-06 PT PT201687993T patent/PT3696813T/pt unknown
- 2017-04-06 EP EP20168799.3A patent/EP3696813B1/en active Active
- 2017-04-06 PL PL17715745T patent/PL3443557T3/pl unknown
- 2017-04-06 PT PT177157450T patent/PT3443557T/pt unknown
- 2017-04-06 JP JP2018553874A patent/JP6734394B2/ja active Active
- 2017-04-06 MX MX2018012490A patent/MX2018012490A/es unknown
- 2017-04-06 CN CN201780035964.1A patent/CN109313908B/zh active Active
- 2017-04-06 SG SG11201808684TA patent/SG11201808684TA/en unknown
- 2017-04-06 CN CN202311134080.5A patent/CN117316168A/zh active Pending
- 2017-04-06 ES ES17715745T patent/ES2808997T3/es active Active
- 2017-04-06 WO PCT/EP2017/058238 patent/WO2017178329A1/en active Application Filing
- 2017-04-06 AU AU2017249291A patent/AU2017249291B2/en active Active
- 2017-04-06 CN CN202311132113.2A patent/CN117253496A/zh active Pending
- 2017-04-06 CA CA3019506A patent/CA3019506C/en active Active
- 2017-04-06 RU RU2018139489A patent/RU2719008C1/ru active
- 2017-04-06 FI FIEP20168799.3T patent/FI3696813T3/fi active
- 2017-04-06 KR KR1020187032551A patent/KR102299193B1/ko active IP Right Grant
- 2017-04-06 MY MYPI2018001652A patent/MY190424A/en unknown
- 2017-04-06 EP EP17715745.0A patent/EP3443557B1/en active Active
- 2017-04-06 PL PL20168799.3T patent/PL3696813T3/pl unknown
- 2017-04-11 TW TW106111989A patent/TWI642053B/zh active
- 2017-04-11 AR ARP170100931A patent/AR108124A1/es active IP Right Grant
-
2018
- 2018-09-27 US US16/143,716 patent/US10825461B2/en active Active
- 2018-10-08 ZA ZA2018/06672A patent/ZA201806672B/en unknown
-
2020
- 2020-07-09 JP JP2020118122A patent/JP6970789B2/ja active Active
- 2020-09-17 US US17/023,941 patent/US11682409B2/en active Active
-
2021
- 2021-10-29 JP JP2021177073A patent/JP7203179B2/ja active Active
-
2023
- 2023-04-27 US US18/308,293 patent/US12014747B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015516593A (ja) * | 2012-03-29 | 2015-06-11 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | ハーモニックオーディオ信号の帯域幅拡張 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022537033A (ja) * | 2019-06-17 | 2022-08-23 | フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 信号依存的な数および精度制御を伴うオーディオエンコーダ、オーディオデコーダ、ならびに関連する方法およびコンピュータプログラム |
JP7518863B2 (ja) | 2019-06-17 | 2024-07-18 | フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 信号依存的な数および精度制御を伴うオーディオエンコーダ、オーディオデコーダ、ならびに関連する方法およびコンピュータプログラム |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6970789B2 (ja) | 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム | |
JP5978218B2 (ja) | 低ビットレート低遅延の一般オーディオ信号の符号化 | |
RU2660605C2 (ru) | Концепция заполнения шумом | |
JP6779966B2 (ja) | 先進量子化器 | |
CN105247614B (zh) | 音频编码器和解码器 | |
US20070106502A1 (en) | Adaptive time/frequency-based audio encoding and decoding apparatuses and methods | |
KR20230066137A (ko) | 신호 부호화방법 및 장치와 신호 복호화방법 및 장치 | |
BR112018070839B1 (pt) | Codificador de áudio e método para codificar um sinal de áudio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181102 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200330 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200609 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200709 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6734394 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |