JP2023507073A - 音声符号化のための周波数領域における階調信号の長期予測のための符号化器、復号化器、符号化方法及び復号化方法 - Google Patents
音声符号化のための周波数領域における階調信号の長期予測のための符号化器、復号化器、符号化方法及び復号化方法 Download PDFInfo
- Publication number
- JP2023507073A JP2023507073A JP2022531448A JP2022531448A JP2023507073A JP 2023507073 A JP2023507073 A JP 2023507073A JP 2022531448 A JP2022531448 A JP 2022531448A JP 2022531448 A JP2022531448 A JP 2022531448A JP 2023507073 A JP2023507073 A JP 2023507073A
- Authority
- JP
- Japan
- Prior art keywords
- current frame
- spectral coefficients
- encoder
- harmonic
- harmonic components
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000007774 longterm Effects 0.000 title claims abstract description 20
- 230000003595 spectral effect Effects 0.000 claims abstract description 427
- 230000005236 sound signal Effects 0.000 claims abstract description 63
- 230000004044 response Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000013139 quantization Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
p1=2*cos(N*2*pi*fc/fs)及びp2=-1
112_f4=112_f5=2*cos(N*2*pi*fc/fs)
及び 114_f4=114_f5=-1
112_f4’=112_f5’=d*2*cos(N*2*pi*fc/fs)、
114_f4’=114_f5’=d2
[1] Jurgen Herre and Sascha Dick, "Psychoacoustic models for perceptual audio c oding a tutorial review," Applied Sciences, vol. 9, pp. 2854, ITT 2019.
[2] Juha Ojanpera, Mauri Vaananen, and Lin Yin, "Long Term Predictor for Transf orm Domain Perceptual Audio Coding," in Audio Engineering Society Convention 107, Sep 1999.
[3] Hendrik Fuchs, "Improving mpeg audio coding by backward adaptive linear ste reo prediction," in Audio Engineering Society Convention 99, Oct 1995.
[4] J. Princen, A. Johnson, and A. Bradley, "Subband/transform coding using fil ter bank designs based on time domain aliasing cancellation," in ICASSP '87. IEEE International Conference on Acoustics, Speech, and Signal Processing, April 1987, vol. 12, pp. 2161-2164.
[5] Christian Helmrich, Efficient Perceptual Audio Coding Using Cosine and Sine Modulated Lapped Transforms, doctoral thesis, Friedrich-Alexander-Universit at Erlangen-Nurnberg (FAU), 2017, Chapter 3.3: Frequency-Domain Prediction w ith Very Low Complexity.
[6] J. Rothweiler, "Polyphase quadrature filters-a new subband coding technique ," in ICASSP '83. IEEE International C01iference on Acoustics, Speech, and S ignal Processing, April 1983, vol. 8, pp. 1280--1283.
[7] Albrecht Schneider and Klaus Frieler, "Perception of harmonic and inharmoni c sounds: Results from ear models;・ in Computer Music Modeling and Retrieva l. Genesis of Meaning in Sound and Music, Solvi Ystad, Richard Kronland-Mart inet, and Kristoffer Jensen, Eds., Berlin, Heidelberg, 2009, pp. 18-44, Spri nger Berlin Heidelberg.
[8] Hugo Fast! and Eberhard Zwicker, Psychoacoustics: Facts and Models, Springe r-Verlag, Berlin, Heidelberg, 2006, Chapter 7.2: Just-Noticeable Changes in Frequency.
[9] John P. Princen and Alan Bernard Bradley, "Analysis/synthesis filter bank d esign based on time domain aliasing cancellation," IEEE Transactions on Acou stics, Speech, and Signal Processing, vol. 34, no. 5, pp. 1153-1161, October 1986.
[10] Alain de Cheveign and Hideki Kawahara, "Yin, a fundamental frequency e stimator for speech and music;・ The Journal of the Acoustical Society of Am erica, vol. 111, pp. 1917-30, 05 2002.
[11] Armin Taghipour, Psychoacoustics of detection of tonality and asymmetr y of masking: implementation of tonality estimation methods in a psychoacous tic model for perceptual audio coding, doctoral thesis, Friedrich-Alexander- Universitat Erlangen-Nurnberg (FAU), 2016, Chapter 4: The Psychoacoustic mod el.
[12] J. D. Johnston, "Estimation of perceptual entropy using noise masking criteria," in ICASSP-88? International Conference on Acoustics, Speech, an d Signal Processing, April 1988, pp. 2524--2527 vol.5.
[13] WO 2016 142357A1, published September 2016.
Claims (55)
- 音声信号の1つ以上の前のフレームに応じて前記音声信号の現在のフレームを符号化するための符号化器(100)であって、前記1つ以上の前のフレームが前記現在のフレームに先行し、前記現在のフレーム及び前記1つ以上の前のフレームの各々が前記音声信号の1つ以上の高調波成分を含み、前記現在のフレーム及び前記1つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
前記現在のフレームを符号化したものを生成するために、前記符号化器(100)は、前記1つ以上の前のフレームのうちの最も前のフレームの前記1つ以上の高調波成分の各々について2つの高調波パラメータの推定を決定し、前記符号化器(100)は、前記音声信号の前記1つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループを使用して前記最も前のフレームの前記1つ以上の高調波成分の各々について前記2つの高調波パラメータの前記推定を決定する、符号化器(100)。 - 前記符号化器(100)は、前記1つ以上の前のフレームの各々の前記複数のスペクトル係数のうちのさらなる1つ以上のスペクトル係数からなる第2のグループを使用せずに、前記最も前のフレームの前記1つ以上の高調波成分の各々について前記2つの高調波パラメータを推定する、請求項1に記載の符号化器(100)。
- 前記符号化器(100)が、前記現在のフレーム及び前記1つ以上の前のフレームの前記1つ以上の高調波成分の基本周波数に応じて、かつ、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、前記現在のフレームを符号化したものとして利得係数及び残差信号を決定し、
前記符号化器(100)は、前記現在のフレームを符号化したものが前記利得係数及び前記残差信号を含むように、前記現在のフレームを符号化したものを生成する、請求項1又は2に記載の符号化器(100)。 - 前記符号化器(100)は、前記現在のフレームの1つ以上の高調波成分の各々についての前記2つの高調波パラメータの推定を、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、かつ、前記現在のフレーム及び前記1つ以上の前のフレームの前記1つ以上の高調波成分の前記基本周波数に応じて決定する、請求項3に記載の符号化器(100)。
- 前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータは、前記1つ以上の高調波成分の各々の、コサイン副成分についての第1のパラメータとサイン副成分についての第2のパラメータである、請求項3又は4に記載の符号化器(100)。
- 前記符号化器(100)は、少なくとも3つの方程式を含む線形方程式系を解くことによって、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータを推定し、前記少なくとも3つの方程式の各々が、前記1つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの前記3つ以上のスペクトル係数からなる第1のグループに依存する、請求項3乃至5のいずれかに記載の符号化器(100)。
- 前記符号化器(100)は、最小平均二乗アルゴリズムを用いて前記線形方程式系を解く、請求項6に記載の符号化器(100)。
- r≧1である、請求項8に記載の符号化器(100)。
- 前記符号化器(100)は、高調波成分の基本周波数と、窓関数と、前記利得係数と、前記残差信号とを符号化するものである、請求項3乃至11のいずれかに記載の符号化器(100)。
- 前記符号化器(100)は、前記音声信号の前記1つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループを使用して前記最も前のフレームの前記1つ以上の前記高調波成分の各々について前記2つの高調波パラメータを推定する前に、前記最も前のフレームの前記1つ以上の高調波成分の前記数を決定する、請求項12に記載の符号化器(100)。
- 前記符号化器(100)は、前記1つ以上の高調波成分から1つ以上の高調波成分のグループを決定し、前記1つ以上の高調波成分のグループに対して前記音声信号の予測を適用し、ここで、前記符号化器(100)は、前記最も前のフレームの前記1つ以上の高調波成分のグループの各々について前記次数を符号化する、請求項13に記載の符号化器(100)。
- 前記符号化器(100)は、前記現在のフレームの1つ以上の高調波成分の各々についての前記2つの高調波パラメータを、前記最も前のフレームの前記1つ以上の高調波成分のうちの該高調波成分の各々についての前記2つの高調波パラメータに応じて決定する、請求項3乃至14のいずれかに記載の符号化器(100)。
- 前記符号化器(100)が、前記周波数領域又は前記変換領域における前記現在のフレームの前記複数のスペクトル係数に応じて、かつ、前記現在のフレームの1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、前記残差信号を決定し、かつ、
前記符号化器(100)が、前記残差信号を符号化する、請求項3乃至16のいずれかに記載の符号化器(100)。 - 前記符号化器(100)が、前記現在のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、前記現在のフレームの前記複数のスペクトル係数のうちの1つ以上のスペクトル係数のスペクトル予測を決定し、及び
前記符号化器(100)が、前記周波数領域又は前記変換領域における前記現在のフレームの前記複数のスペクトル係数に応じて、かつ、前記現在のフレームの前記複数のスペクトル係数のうちの前記3つ以上のスペクトル係数の前記スペクトル予測に応じて、前記残留信号及び利得係数を決定し、前記符号化器(100)が、前記最も前のフレームの前記1つ以上の高調波成分のグループの各々について前記次数を符号化する、請求項17に記載の符号化器(100)。 - 前記符号化器(100)が、第1のモードで動作可能であり、また第2のモードと第3のモードと第4のモードのうちの少なくとも1つで動作可能であり、
前記符号化器(100)が前記第1のモードである場合、前記符号化器(100)は、前記音声信号の前記1つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの3つ以上のスペクトル係数からなる前記第1のグループを使用して前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定を決定することによって、前記現在のフレームを符号化し、
前記符号化器(100)が前記第2のモードである場合、前記符号化器(100)は、前記変換領域又は前記フィルタバンク領域において前記音声信号を符号化し、前記符号化器は、前記現在のフレーム(108_t0)及び少なくとも前記最も前のフレーム(108_t-1)についての前記音声信号(102)の前記複数のスペクトル係数(106_t0_f1:106_t0_f6;106_t-1_f1:106_t-1_f6)を決定するように構成され、前記符号化器(100)は、複数の個別スペクトル係数(106_t0_f2)又はスペクトル係数(106_t0_f4,106_t0_f5)のグループに予測符号化を選択的に適用するように構成され、前記符号化器(100)は、間隔値(spacing value)を決定するように構成され、前記符号化器(100)は、予測符号化が適用される前記複数の個別スペクトル係数(106_t0_f2)又はスペクトル係数(106_t0_f4,106_t0_f5)のグループを前記間隔値に基づいて選択するように構成され、
前記符号化器(100)が前記第3モードである場合、前記符号化器(100)は、時間領域長期予測を採用することにより前記音声信号を符号化し、及び、
前記符号化器(100)が前記第4のモードである場合、前記符号化器(100)は、適応型修正離散コサイン変換長期予測を採用することによって前記音声信号を符号化し、前記符号化器(100)が適応型修正離散コサイン変換長期予測を採用する場合、前記符号化器(100)は、フレームベースにおける予測方法として時間領域長期予測又は周波数領域予測又は周波数領域最小平均二乗予測のいずれかを最小化基準に応じて選択するよう構成される、請求項1乃至19のいずれかに記載の符号化器(100)。 - 前記第1モードと前記第2モードと前記第3モードと前記第4モードの各々において、前記符号化器(100)は、前記基本周波数をリファインメント処理してリファインメント処理済み基本周波数を得て、最小化基準に応じてフレームベースで前記利得係数を適合させて適合された利得係数を得て、
前記符号化器(100)は、前記元の基本周波数及び利得係数の代わりに、前記リファインメント処理済み基本周波数及び前記適合済み利得係数を符号化する、請求項20に記載の符号化器(100)。 - 前記符号化器(100)は、自身を前記第1のモードに設定するか、又は前記第2のモードと前記第3のモードと前記第4のモードのうちの少なくとも1つに設定し、及び、
前記符号化器(100)は、前記現在のフレームが前記第1のモードで符号化されたか又は前記第2のモードで符号化されたか又は前記第3のモードで符号化されたか又は前記第4のモードで符号化されたかを符号化する、請求項20又は21に記載の符号化器(100)。 - 音声信号の現在のフレームを再構成するための復号化器(200)であって、前記音声信号の1つ以上の前のフレームが前記現在のフレームに先行し、前記現在のフレーム及び前記1つ以上の前のフレームの各々が前記音声信号の1つ以上の高調波成分を含み、前記現在のフレーム及び前記1つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
前記復号化器(200)が、前記現在のフレームを符号化したものを受信し、
前記復号化器(200)が、前記1つ以上の前のフレームのうちの最も前のフレームの前記1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定し、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータが、前記音声信号の前記1つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存し、
前記復号化器(200)は、前記現在のフレームを符号化したものに応じて、かつ、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、前記現在のフレームを再構成する、復号化器(200)。 - 前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータは、前記1つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの1つ以上の別のスペクトル係数からなる第2のグループに依存しない、請求項23に記載の復号化器(200)。
- 前記復号化器(100)が、利得係数及び残差信号を含む前記現在のフレームを符号化したものを受信し、
前記復号化器(200)は、前記利得係数に応じて、前記残差信号に応じて、ならびに、前記現在のフレーム及び1つ以上の前のフレームの前記1つ以上の高調波成分の基本周波数に応じて、前記現在のフレームを再構成する、請求項23又は24に記載の復号化器(200)。 - 前記復号化器(200)は、前記現在のフレームの1つ以上の高調波成分の各々についての前記2つの高調波パラメータの推定を、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、かつ前記現在のフレーム及び前記1つ以上の前のフレームの前記1つ以上の高調波成分の前記基本周波数に応じて決定する、請求項25に記載の復号化器(200)。
- 前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータは、前記1つ以上の高調波成分の各々についてのコサイン副成分についての第1のパラメータ及びサイン副成分についての第2のパラメータである、請求項25又は26に記載の復号化器(200)。
- 前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータは、少なくとも3つの方程式を含む線形方程式系に依存し、前記少なくとも3つの方程式の各々は、前記1つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループのスペクトル係数に依存する、請求項25乃至27のいずれかに記載の復号化器(200)。
- 前記線形方程式系は、最小平均二乗アルゴリズムを用いて解くことができる、請求項28に記載の復号化器(200)。
- r≧1である、請求項30に記載の復号化器(200)。
- 前記復号化器(200)が、高調波成分の基本周波数、窓関数、前記利得係数、及び前記残差信号を受信し、
前記復号化器(200)は、前記最も前のフレームの前記1つ以上の高調波成分の前記基本周波数に応じて、前記窓関数に応じて、前記利得係数に応じて、及び前記残留信号に応じて、前記現在のフレームを再構成する、請求項25乃至33のいずれかに記載の復号化器(200)。 - 前記復号化器(200)が、前記最も前のフレームの前記1つ以上の高調波成分の前記数を受信し、及び
前記復号化器(200)は、前記最も前のフレームの前記1つ以上の高調波成分の前記数に応じて、前記現在のフレームを符号化したものを復号化する、請求項34に記載の復号化器(200)。 - 前記復号化器(200)が、1つ以上の高調波成分のグループに応じて、前記現在のフレームを符号化したものを復号化し、
前記復号化器(200)は、前記1つ以上の高調波成分のグループに前記音声信号の予測を適用する、請求項35に記載の復号化器(200)。 - 前記復号化器(200)は、前記現在のフレームの1つ以上の高調波成分の各々についての前記2つの高調波パラメータを、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータに応じて決定する、請求項25乃至36のいずれかに記載の復号化器(200)。
- 前記復号化器(200)は、前記残差信号を受信し、前記残差信号は、前記周波数領域又は前記変換領域における前記現在のフレームの前記複数のスペクトル係数に依存し、前記残差信号は、前記現在のフレームの1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に依存する、請求項25乃至38のいずれかに記載の復号化器(200)。
- 前記復号化器(200)は、前記現在のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、前記現在のフレームの前記複数のスペクトル係数のうちの1つ以上のスペクトル係数のスペクトル予測を決定し、前記復号化器(200)は、前記現在のフレームの前記スペクトル予測に応じて、前記残差信号に応じて、かつ利得係数に応じて、前記音声信号の前記現在のフレームを決定する、請求項39に記載の復号化器(200)。
- 前記復号化器(200)は、第1のモードで動作可能であり、第2のモードと第3のモードと第4のモードのうちの少なくとも1つで動作可能であり、
前記復号化器(200)が前記第1のモードである場合、前記復号化器(200)は、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定を決定し、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータは、前記音声信号の前記1つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存し、前記復号化器(200)は、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて前記現在のフレームを符号化したものを復号化し、
前記復号化器(200)が前記第2モードである場合、前記復号化器(200)は、前記音声信号(120)の符号化したものを解析して、前記現在のフレーム(208_t0)及び少なくとも前記最も前のフレーム(208_t-1)についての前記音声信号(120)の符号化スペクトル係数(206_t0_f1:206_t0_f6;206_t-1_f1:206_t-1_f6)を取得し、前記復号化器(200)は、複数の個別符号化スペクトル係数(206_t0_f2)又は符号化スペクトル係数(206_t0_f4,206_t0_f5)のグループに予測復号化を選択的に適用するように構成され、前記復号化器(200)は、間隔値(spacing value)を取得するように構成され、前記復号化器(200)は、前記間隔値に基づいて、予測復号化が適用される前記複数の個別符号化スペクトル係数(206_t0_f2)又は符号化スペクトル係数(206_t0_f4,206_t0_f5)のグループを選択するように構成され、
前記復号化器(200)が前記第3のモードにある場合、前記復号化器(200)は、時間領域長期予測を採用することによって前記音声信号を復号化し、及び、
前記復号化器(200)が前記第4のモードである場合、前記復号化器(200)は、適応型修正離散コサイン変換長期予測を採用することによって前記音声信号を復号化し、前記復号化器(200)が適応型修正離散コサイン変換長期予測を採用する場合、前記復号化器(200)は、最小化基準に応じて、フレームベースにおける予測方法として時間領域長期予測又は周波数領域予測又は周波数領域最小平均二乗予測のいずれかを選択するよう構成される、請求項23乃至41のいずれかに記載の復号化器(200)。 - 前記第1のモードと前記第2のモードと前記第3のモードと前記第4のモードの各々において、前記復号化器(200)は、フレームベースで決定された、リファインメント処理済み基本周波数に応じて、かつ適合済み利得係数に応じて前記音声信号を復号化する、請求項42に記載の復号化器(200)。
- 前記復号化器(200)が、前記現在のフレームが前記第1のモードで符号化されたか、前記第2のモードで符号化されたか、前記第3のモードで符号化されたか、前記第4のモードで符号化されたかに関する表示を含む符号化されたものを受信して復号化し、及び、
前記復号化器(200)は、前記表示に応じて、自身を前記第1のモード又は前記第2のモード又は前記第3のモード又は前記第4のモードに設定する、請求項42又は43に記載の復号化器(200)。 - フレーム損失隠蔽のための装置(700)であって、前記音声信号の1つ以上の前のフレームが前記音声信号の現在のフレームに先行し、前記現在のフレーム及び前記1つ以上の前のフレームの各々が前記音声信号の1つ以上の高調波成分を含み、前記現在のフレーム及び前記1つ以上の前のフレームの各々が、周波数領域又は変換領域において複数のスペクトル係数を含み、
前記装置(700)が、前記1つ以上の前のフレームのうちの最も前のフレームの前記1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定し、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータが、前記音声信号の前記1つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存し、
前記装置(700)が前記現在のフレームを受信しない場合、又は前記現在のフレームが破損した状態で前記装置(700)によって受信される場合、前記装置(700)は、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて前記現在のフレームを再構成する、装置(700)。 - 前記装置(700)が、前記最も前のフレームの前記1つ以上の高調波成分の前記数を受信し、
前記装置(700)は、前記最も前のフレームの前記1つ以上の高調波成分の前記数に応じて、かつ前記現在のフレーム及び前記1つ以上の前のフレームの前記1つ以上の高調波成分の基本周波数に応じて、前記現在のフレームを符号化したものを復号化する、請求項45に記載の装置(700)。 - 前記現在のフレームを再構成するために、前記装置(700)は、前記現在のフレームの1つ以上の高調波成分の各々についての前記2つの高調波パラメータの推定を、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて決定する、請求項45又は46に記載の装置(700)。
- 前記復号化器(200)は、前記現在のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータを、前記最も前のフレームの前記1つ以上の高調波成分のうちの前記1つの各々についての前記2つの高調波パラメータに応じて決定する、請求項47に記載の装置(700)。
- 前記装置(700)は、前記現在のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、前記現在のフレームの前記複数のスペクトル係数のうちの1つ以上のスペクトル係数のスペクトル予測を決定する、請求項48又は49に記載の装置(700)。
- システムであって、
音声信号の現在のフレームを符号化するための請求項1乃至22のいずれかに記載の符号化器(100)と、
前記音声信号の前記現在のフレームを符号化したものを復号化するための請求項23乃至44のいずれかに記載の復号化器(200)と、を備えるシステム。 - 音声信号の現在のフレームを前記音声信号の1つ以上の前のフレームに応じて符号化するための方法であって、前記1つ以上の前のフレームが前記現在のフレームに先行し、前記現在のフレーム及び前記1つ以上の前のフレームの各々が前記音声信号の1つ以上の高調波成分を含み、前記現在のフレーム及び前記1つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
前記方法は、前記現在のフレームを符号化したものを生成するために、前記1つ以上の前のフレームのうちの最も前のフレームの前記1つ以上の高調波成分の各々について2つの高調波パラメータの推定を決定するステップを含み、
前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定を決定することは、前記音声信号の前記1つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループを使用して実施される、方法。 - 音声信号の現在のフレームを再構成する方法であって、前記音声信号の1つ以上の前のフレームが前記現在のフレームに先行し、前記現在のフレーム及び前記1つ以上の前のフレームの各々が前記音声信号の1つ以上の高調波成分を含み、前記現在のフレーム及び前記1つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
前記現在のフレームを符号化したものを受信するステップと、
前記1つ以上の前のフレームのうちの最も前のフレームの前記1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定するステップと、を備え、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータが、前記音声信号の前記1つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存しており、
前記現在のフレームを符号化したものに応じて、かつ、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータの前記推定に応じて、前記現在のフレームを再構成するステップと、を備える、方法。 - フレーム損失隠蔽のための方法であって、前記音声信号の1つ以上の前のフレームが前記音声信号の現在のフレームに先行し、前記現在のフレーム及び前記1つ以上の前のフレームの各々が前記音声信号の1つ以上の高調波成分を含み、前記現在のフレーム及び前記1つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
前記方法は、前記1つ以上の前のフレームのうち最も前のフレームの前記1つ以上の高調波成分の各々についての2つの高調波パラメータの推定を決定するステップを備え、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータが前記音声信号の前記1つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの3つ以上のスペクトル係数からなる第1のグループに依存し、
前記現在のフレームが受信されない場合、又は前記現在のフレームが破損した状態で受信される場合、前記最も前のフレームの前記1つ以上の高調波成分の各々についての前記2つの高調波パラメータに応じて前記現在のフレームを再構成するステップ備える、方法。 - コンピュータプログラムがコンピュータ又は信号処理装置によって実行される際に、請求項52乃至54のいずれかに記載の方法を実施するための、コンピュータプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2019/082802 WO2021104623A1 (en) | 2019-11-27 | 2019-11-27 | Encoder, decoder, encoding method and decoding method for frequency domain long-term prediction of tonal signals for audio coding |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023507073A true JP2023507073A (ja) | 2023-02-21 |
Family
ID=68808298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022531448A Pending JP2023507073A (ja) | 2019-11-27 | 2019-11-27 | 音声符号化のための周波数領域における階調信号の長期予測のための符号化器、復号化器、符号化方法及び復号化方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20220284908A1 (ja) |
EP (1) | EP4066242A1 (ja) |
JP (1) | JP2023507073A (ja) |
KR (1) | KR20220104049A (ja) |
CN (1) | CN115004298A (ja) |
BR (1) | BR112022010062A2 (ja) |
CA (1) | CA3162929A1 (ja) |
MX (1) | MX2022006398A (ja) |
WO (1) | WO2021104623A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220066749A (ko) * | 2020-11-16 | 2022-05-24 | 한국전자통신연구원 | 잔차 신호의 생성 방법과 그 방법을 수행하는 부호화기 및 복호화기 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6496798B1 (en) * | 1999-09-30 | 2002-12-17 | Motorola, Inc. | Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message |
BR122019023709B1 (pt) * | 2009-01-28 | 2020-10-27 | Dolby International Ab | sistema para gerar um sinal de áudio de saída a partir de um sinal de áudio de entrada usando um fator de transposição t, método para transpor um sinal de áudio de entrada por um fator de transposição t e meio de armazenamento |
US20130282373A1 (en) * | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
CN107481725B (zh) * | 2012-09-24 | 2020-11-06 | 三星电子株式会社 | 时域帧错误隐藏设备和时域帧错误隐藏方法 |
RU2740690C2 (ru) * | 2013-04-05 | 2021-01-19 | Долби Интернешнл Аб | Звуковые кодирующее устройство и декодирующее устройство |
WO2016142357A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
-
2019
- 2019-11-27 CA CA3162929A patent/CA3162929A1/en active Pending
- 2019-11-27 CN CN201980103473.5A patent/CN115004298A/zh active Pending
- 2019-11-27 JP JP2022531448A patent/JP2023507073A/ja active Pending
- 2019-11-27 BR BR112022010062A patent/BR112022010062A2/pt unknown
- 2019-11-27 MX MX2022006398A patent/MX2022006398A/es unknown
- 2019-11-27 EP EP19816558.1A patent/EP4066242A1/en active Pending
- 2019-11-27 KR KR1020227021674A patent/KR20220104049A/ko unknown
- 2019-11-27 WO PCT/EP2019/082802 patent/WO2021104623A1/en active Search and Examination
-
2022
- 2022-05-24 US US17/664,709 patent/US20220284908A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220284908A1 (en) | 2022-09-08 |
WO2021104623A1 (en) | 2021-06-03 |
BR112022010062A2 (pt) | 2022-09-06 |
CA3162929A1 (en) | 2021-06-03 |
CN115004298A (zh) | 2022-09-02 |
KR20220104049A (ko) | 2022-07-25 |
MX2022006398A (es) | 2022-08-17 |
EP4066242A1 (en) | 2022-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6134518A (en) | Digital audio signal coding using a CELP coder and a transform coder | |
US8862463B2 (en) | Adaptive time/frequency-based audio encoding and decoding apparatuses and methods | |
CN105453175B (zh) | 对编码音频信号进行解码的设备、方法及计算机可读介质 | |
US20190272839A1 (en) | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction | |
CN106796798B (zh) | 用于使用独立噪声填充生成增强信号的装置和方法 | |
CA2978815C (en) | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal | |
KR20120121928A (ko) | 오디오 코덱 포스트 필터 | |
JP2019506633A (ja) | 改良されたミッド/サイド決定を持つ包括的なildを持つmdct m/sステレオのための装置および方法 | |
US20220284908A1 (en) | Encoder, decoder, encoding method and decoding method for frequency domain long-term prediction of tonal signals for audio coding | |
Rohlfing et al. | NMF-based informed source separation | |
RU2662921C2 (ru) | Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения | |
JP6224233B2 (ja) | 分配量子化及び符号化を使用したオーディオ信号包絡の分割によるオーディオ信号包絡符号化、処理及び復号化の装置と方法 | |
RU2806121C1 (ru) | Кодер, декодер, способ кодирования и способ декодирования для долговременного предсказания в частотной области тональных сигналов для кодировки аудио | |
CN110291583B (zh) | 用于音频编解码器中的长期预测的系统和方法 | |
WO2019173195A1 (en) | Signals in transform-based audio codecs | |
EP2215630B1 (en) | A method and an apparatus for processing an audio signal | |
WO2016142357A1 (en) | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220708 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230801 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20231027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240201 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240514 |