CN102934161A - 音频混合编码装置以及音频混合解码装置 - Google Patents
音频混合编码装置以及音频混合解码装置 Download PDFInfo
- Publication number
- CN102934161A CN102934161A CN2011800280859A CN201180028085A CN102934161A CN 102934161 A CN102934161 A CN 102934161A CN 2011800280859 A CN2011800280859 A CN 2011800280859A CN 201180028085 A CN201180028085 A CN 201180028085A CN 102934161 A CN102934161 A CN 102934161A
- Authority
- CN
- China
- Prior art keywords
- signal
- frame
- coding pattern
- audio
- aac
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 89
- 230000008569 process Effects 0.000 claims abstract description 30
- 230000005012 migration Effects 0.000 claims description 60
- 238000013508 migration Methods 0.000 claims description 60
- 239000000203 mixture Substances 0.000 claims description 55
- 230000009466 transformation Effects 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 39
- 239000002131 composite material Substances 0.000 claims description 36
- 230000005284 excitation Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 230000003111 delayed effect Effects 0.000 claims 5
- 230000005236 sound signal Effects 0.000 abstract description 7
- 238000004891 communication Methods 0.000 abstract description 3
- 230000014509 gene expression Effects 0.000 description 29
- 230000007704 transition Effects 0.000 description 24
- 230000000694 effects Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000006073 displacement reaction Methods 0.000 description 4
- 238000009499 grossing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000005086 pumping Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
- G10L19/107—Sparse pulse excitation, e.g. by using algebraic codebook
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Analysis (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
提出了针对多个语音信号以及音频信号具有块切换的新的音频混合解码装置以及音频混合编码装置。现在,虽然针对语音以及音频信号提出了非常低的比特率的音频编码方法,但在这些音频编码方法中,产生非常长的延迟。一般而言,在对音频信号进行编码时,大多为了得到高频分辨率而算法的延迟变长。在对语音信号进行编码时,为了用于通信而需要缩短延迟。为了取得均衡从而使这两种非常低的比特率的输入信号的编码质量好,本发明提出了像AAC-ELD这样的低延迟滤波器组与CELP编码方法的组合。
Description
技术领域
本发明涉及一边切换多个不同的编解码器一边进行编码以及解码的处理的音频混合编码装置以及音频混合解码装置。
背景技术
语音编解码器按照语音信号的特征而特别设计[1]。语音编解码器具有有效地编码语音信号的效果。例如,能够在以低比特率编码语音信号时以高音质编码,并且实现低延迟。然而,在对带域比语音信号广的音频信号进行编码时的音质,不如AAC方式等一部分的变换编解码器那么好。另一方面,以AAC方式为代表的变换编解码器适于对音频信号进行编码,但为了以与语音编解码器相同的音质对语音信号进行编码,需要较高的比特率。混合编解码器即使以低比特率也能够以高音质对语音信号以及音频信号进行编码。混合编解码器为了以低比特率实现高音质的编码,组合了两个不同的编解码器的优点。
低延迟的混合编解码器在电视会议系统等进行实时通信的用途上受到期望。低延迟的混合编解码器中的一个组合AAC-LD(低延迟AAC)编码技术和语音编码技术而成。在该AAC-LD中,有算法延迟量为20毫秒以内的模式。AAC-LD从通常的AAC编码技术派生而来。为了减少算法延迟量,AAC-LD对AAC施加了若干变更。第一,AAC-LD的帧尺寸减少为1024或者960时域样本,因此MDCT滤波器组的输出谱数也减少为512以及480谱值。第二,为了减少算法延迟量,使预读处理无效,作为其结果不使用块切换处理。第三,替代通常延迟量的AAC中的窗函数处理所使用的凯萨尔-贝塞尔窗函数,使用交叠少的窗函数。交叠少的窗函数在AAC-LD中用于有效地对过渡信号进行编码。第四,为了使比特保留最小化而完全不使用。第五,时域噪声整形和长期预测函数进行与低延迟的帧尺寸对应的修正来处理。
一般而言,在语音编解码器中,基于线性预测编码(ACELP:代数码激励线性预测)编码[1]。在ACELP编码中,对语音信号适用线性预测分析,使用代数码本对通过线性预测分析计算的激励信号进行编码。为了进一步提高ACELP编码的音质,在近来的语音编解码器中还进一步使用变换编码激励(变换编码激励)编码(TCX编码)来进行高音质化。在TCX编码中,在线性预测分析之后,将变换编码用于激励信号。傅里叶变换且加权后的信号使用代数矢量量化(algebraic vector quantization)量化。在语音编解码器中能够利用不同的帧尺寸,例如可以是1024时域样本、512时域样本以及256时域样本等。编码模式使用闭环分析合成方法来选择。
低延迟混合编解码器具有AAC-LD编码模式、ACELP模式以及TCX模式这三个不同的编码模式。不同的模式在不同的领域对信号进行编码,具有不同的帧尺寸,因此混合编解码器需要针对编码模式切换的迁移帧构建块切换方法。迁移帧的一例如图2所示。例如,在先行帧以AAC-ELD模式编码而对象帧以ACELP模式编码的情况下,对象帧被定义为迁移帧。在先行技术中,为了切换为不同的编码模式,窗处理后的先行帧的混叠部分通过与迁移帧的对象块的对象部分不同的方法处理[专利文献1:WO2010/003532,弗劳恩霍夫研究机构的专利申请]。
为了使后述的段落中本专利的说明简化,在背景技术中说明AAC-ELD的变换以及逆变换。
编码器的AAC-ELD模式的变换处理如下所述。
处理后的AAC-ELD的帧数为4帧。帧i-1与先行的3帧连接,形成长度为4N的扩展帧。在此,N为输入帧的尺寸。即,在AAC-ELD模式下,为了对编码对象帧进行编码,不仅需要编码对象帧的样本,而且需要在该编码对象帧之前的三个先行帧的样本。
首先,在AAC-ELD模式下对扩展帧进行窗处理。图3表示编码器的AAC-ELD模式下的编码器的窗形状。编码器的窗定义为wenc。为了方便图示,将编码器的窗分割为八个,设为[w1、w2、w3、w4、w5、w6、w7、w8]。编码器的窗的长度为4N。AAC-ELD模式下的编码器的窗构成为符合AAC-ELD模式所使用的低延迟滤波器组。为了方便说明,如图3所示将一个帧分割为两个部分。例如,将帧i-1分割为两个矢量[ai-1、bi-1]。在此ai -1具有N/2个样本,bi-1具有N/2个样本。因此,编码器的窗适用于表示为[ai-4、bi-4、ai-3、bi-3、ai-2、bi-2、ai-1、bi-1]的矢量,窗处理后的信号得到[ai -4w1、bi-4w2、ai-3w3、bi-3w4、ai-2w5、bi-2w6、ai-1w7、bi-1w8]。
接着,为了对窗处理后的信号进行变换而使用多个低延迟滤波器组。低延迟滤波器组如下定义。
【数1】
式中,xn=[ai-4w1、bi-4w2、ai-3w3、bi-3w4、ai-2w5、bi-2w6、ai-1w7、bi-1w8]。
基于上述低延迟滤波器组,将输出系数的长度设为N,处理的帧的长度设为4N。
低延迟滤波器组也能够通过DCT-IV变换表示。DCT-IV变换的定义如下所示。
【数2】
根据以下的恒等式,
【数3】
【数4】
由低延迟滤波器组变换后的帧i-1的信号能够通过DCT-IV变换如下表示。
[DCT-IV(-(ai-4w1)R-bi-4w2+(ai-2w5)R+bi-2w6)),
DCT-IV(-ai-3w3+(bi-3w4)R+ai-1w7-(bi-1w8)R)],
在式中,(ai-4w1)R、(ai-2w5)R、(bi-3w4)R、(bi-1w8)R分别表示矢量ai-4w1、ai-2w5、bi-3w4、bi-1w8的逆序。
解码器的AAC-ELD模式的逆变换处理在以下说明。
说明在解码器中帧i-1以AAC-ELD模式解码的情况。图7表示与AAC-ELD模式对应的逆变换处理。解码器的AAC-ELD模式的逆低延迟滤波器组如下所示。
【数5】
低延迟滤波器组的逆变换信号的长度是4N。如第1实施方式所述,与帧i-1对应的逆变换信号如下。
【数6】
yi-1=
[-ai-4w1-(bi-4w2)R+ai-2w5+(bi-2w6)R,
-(ai-4w1)R-bi-4w2+(ai-2w5)R+bi-2w6,
-ai-3w3+(bi-3w4)R+ai-1w7-(bi-1w8)R,
(ai-3w3)R-bi-3w4-(ai-1w7)R+bi-1w8,
ai-4w1+(bi-4w2)R-ai-2w5-(bi-2w6)R,
(ai-4w1)R+bi-4w2-(ai-2w5)R-bi-2w6,
ai-3w3-(bi-3w4)R-ai-1w7+(bi-1w8)R,
-(ai-3w3)R+bi-3w4+(ai-1w7)R-bi-1w8]
在适用了逆低延迟滤波器组之后,将窗适用于yi-1,得到
【数7】
图6表示AAC-ELD模式的解码器的窗形状。AAC-ELD模式下的窗的长度为4N。这是AAC-ELD模式的编码器的窗的逆序。解码器的窗表示为wdec。为了方便图示,如图6所示,解码器的窗分割为八个部分,表示为[wR、8、wR、7、wR、6、wR、5、wR、4、wR、3、wR、2、wR、1]。
窗处理后的逆变换信号
【数8】
如下。
【数9】
在通过AAC-ELD模式编码的下一帧i中,窗处理后的逆变换信号
【数10】
如下。
【数11】
为了重构帧i的信号[ai-1、bi-1],在重复相加处理中需要先行的三个帧。在图7中,表示该AAC-ELD模式的重复相加处理。重构后的信号outi的长度为N。
重复相加处理能够通过下式表示。
【数12】
图22表示去除AAC-ELD的混叠的机制。图22表示帧i、帧i-1、帧i-2、帧i-3的窗处理后的逆变换信号。为了可视化,图表为
【数13】
ai=1,
表示特殊的情况的例子。
【数14】
(-ai-3w1-(bi-3w2)R+ai-1w5+(bi-1w6)R)wR,8+
(-ai-3w3+(bi-3w4)R+ai-1w7-(bi-1w8)R)wR,6+
(ai-5w1+(bi-5w2)R-a1-3w5-(bi-3w6)R)wR,4+
(ai-5w3-(bi-5w4)R-ai-3w7+(bi-3w8)R)wR,2=
ai-5(w3wR,2+w1wR,4)+ai-3(-w7wR,2-w5wR,4-w3wR,6-w1wR,8)+ai-1(w7wR,6+w5wR,8)
窗构成为具有以下特性。
【数15】
(w3wR,2+w1wR,4)R≈0
(-w7wR,2-w5wR,4-w3wR,6-w1wR,8)R≈0
(w7wR,6+w5wR,8)R≈1
信号ai-1在重复相加之后被重构。
相同的分析方法用于信号bi-1的重构。
【数16】
(-(ai-3w1)R-bi-3w2+(ai-1w5)R+bi-1w6)wR,7+
((ai-3w3)R-bi-3w4-(ai-1w7)R+bi-1w8)wR,5+
((ai-5w1)R+bi-5w2-(ai-3w5)R-bi-3w6)wR,3+
(-(ai-5w3)R+bi-5w4+(ai-3w7)R-bi-3w8)wR,1
=
bi-5(w2wR,3+w4wR,1)+bi-3(-w2wR,7-w4wR,5-w6wR,3-w8wR,1)+bi-1(w6wR,7+w8wR,5)
【数17】
(w3wR,2+w1wR,4)R≈0
(-w7wR,2-w5wR,4-w3wR,6-w1wR,8)R≈0
(w7wR,6+w5wR,8)R≈1
信号bi-1在重复相加之后被重构。
先行技术文献
专利文献
专利文献1:Fuchs、Guillaume“Apparatus and method forencoding/decoding and audio signal using an aliasing switch scheme”,国际公布第2010/003532号
非专利文献
非专利文献1:Milan Jelinek,“Wideband Speech Coding Advances inVMR-WB Standard”,IEEE Transactions on Audio、Speech and LanguageProcessing、Vol.15、No.4、2007年5月
发明的概要
发明所要解决的课题
使用AAC-LD的低延迟混合编解码器与使用通常延迟的AAC相比延迟较少,但其音质成为较窄的带域的音质,是不够的。
为了提高混合编解码器的音质(特别是宽带域化),通过将AAC-LD模式置换为AAC-ELD编码模式,能够期待音质提高。AAC-ELD使得使用AAC-LD的混合编解码器的延迟进一步减少。
但是,使用AAC-ELD构成混合编解码器存在问题。在切换不同的编码模式时,在AAC-ELD中使用与先行帧交叠的样本进行频率变换,因此在与仅在对象帧内的样本中编码结束的ACELP以及TCX模式之间切换的迁移帧中发生混叠,产生不自然的声音。使用AAC-ELD的低延迟混合编解码器的编码构造与先行技术的其他混合编解码器不同,因此通过使用先行技术中的块切换算法无法去除该混叠。在先行技术中,块切换算法构成为在AAC-LD模式与ACELP及TCX模式之间切换。无法将其原样适用于AAC-ELD模式与ACELP及TCX模式之间的块切换。
也就是说,为了在低延迟混合编解码器中无缝组合AAC-ELD编码技术与ACELP编码技术及TCX编码技术,并抑制由混叠引起的音质恶化,需要用于处理编码模式发生切换的迁移帧的新的块切换算法。
另外,低延迟混合编解码器的其他问题在于,由于没有适于过渡信号的编码的方式,因此音质较低。AAC-ELD仅使用一种适应于低延迟滤波器组的窗形状。AAC-ELD的窗形状较长。由于AAC-ELD的长窗形状,过渡信号的编码的品质降低。为了提高低延迟混合编解码器的音质,需要更好的AAC-ELD的过渡信号编码方法。
发明内容
本发明的目的在于,解决在低延迟混合编解码器中切换不同的编码模式时发生的音质降低的问题。
本发明的目的在于,为了无缝切换编码模式,并抑制切换时发生的音质恶化,提供一种编码器和解码器中的针对语音以及音频的混合编解码器的最佳的块切换算法。在先行技术中,针对窗处理后的块的混叠部分,在迁移块和其后的部分中进行不同的处理,但本发明所涉及的切换方式与之不同。即,对先行帧的非混叠部分进行处理,并用于去除切换对象帧中的混叠。因此,不针对多个帧的不同的部分使用不同的编码技术。
块切换算法用于处理以下的迁移帧。
·从AAC-ELD模式到ACELP模式
·从ACELP模式到AAC-ELD模式
·从AAC-ELD模式到TCX模式
·从TCX模式到AAC-ELD模式
进而,为了实现低延迟混合编解码器,优选减少从ACELP模式向AAC-ELD模式切换的块的比特率。在此,为了减少从ACELP向AAC-ELD的切换所需要的比特率,不使用低延迟滤波器组,而使用与低延迟滤波器组相似的通常的MDCT滤波器组。
另外,进而,优选在低延迟混合编解码器中,通过构成对过渡信号进行处理的块切换方式来提高音质。在过渡信号中存在急剧的能量变化,因此为了对过渡信号进行编码,优选使用短窗处理。由此,能够在AAC-ELD模式下从短窗向长窗无缝连接。
附图说明
图1是表示具有三个编码模式的低延迟混合编码器的结构的框图。
图2是表示从通常帧向通常帧切换时的迁移帧的图。
图3是表示AAC-ELD模式下的编码器的窗处理的图。
图4是表示编码器中AAC-ELD模式切换为ACELP模式的情况下的帧边界的图。
图5是表示具有三个解码模式的低延迟混合解码器的结构的框图。
图6是表示AAC-ELD模式下的解码器的窗处理的图。
图7是表示AAC-ELD模式的解码处理的图。
图8是表示从AAC-ELD切换为ACELP的解码处理的图。
图9是表示解码器中从ACELP迁移至AAC-ELD的情况下的处理的图。
图10是表示编码器中ACELP模式切换为AAC-ELD模式时的处理的图。
图11是表示从ACELP切换为AAC-ELD的解码处理的例1的图。
图12是表示从ACELP切换为AAC-ELD的解码处理的例2的图。
图13是表示编码器中AAC-ELD模式切换为TCX模式时的处理的图。
图14是表示解码器中从AAC-ELD迁移至TCX的情况下的处理的图。
图15是表示编码器中TCX模式切换为AAC-ELD模式时的处理的图。
图16是表示从TCX切换为AAC-ELD的解码处理的图。
图17是表示从TCX切换为AAC-ELD的解码处理的详情的图。
图18是表示编码器中的过渡信号的处理的图。
图19是表示过渡信号的解码处理的图。
图20是表示具有两个编码模式的低延迟混合编码器的结构的框图。
图21是表示具有两个解码模式的低延迟混合解码器的结构的框图。
图22是表示AACC-ELD模式下的混叠去除的处理的图。
图23是表示解码器中从AAC-ELD迁移至ACELP的情况下的处理的图。
图24是表示子帧的边界处的平滑化处理的图。
具体实施方式
以下的实施方式用于说明多种发明步骤的原理。本领域技术人员应该能够明确在此说明的具体例的多种变形例。
(第1实施方式)
在第1实施方式中,为了对作为将AAC-ELD模式切换为ACELP模式的过程中的帧的迁移帧进行编码,考虑具有多个块切换算法的语音及音频混合编码器。
在解码器中,为了去除由AAC-ELD模式引起的先行帧的混叠,而扩展ACELP的帧尺寸。在从AAC-ELD模式切换为ACELP模式时产生的混叠如下引起,即:在AAC-ELD模式下为了对编码对象帧进行编码而需要先行的帧的样本,然而,在ACELP中为了对编码对象帧进行编码仅需要编码对象帧这1帧的样本。针对这一情况,首先,编码对象帧之前的先行帧的后半与对象帧连接,形成比通常的输入帧尺寸长的扩展帧。扩展帧在编码器中以ACELP模式被编码。
图20是表示组合了AAC-ELD编码技术和ACELP编码技术的混合编码器的结构的框图。在图20中,输入信号被发送至高频编码器2001。编码后的高频参数被发送至比特多路器模块2006。输入信号也被发送至信号分类模块2003。在信号分类中,针对低频带的时域信号,决定选择哪个编码模式。来自信号分类模块2003的模式指标被发送至比特多路器模块2006。模式指标也用于控制块切换算法2002。编码对象的低频带中的时域信号按照模式指标被发送至对应的编码技术2004、2005。比特多路器模块2006生成比特流。
输入信号按每帧编码。输入帧尺寸在本实施方式中定义为N。
在图20中,多个块切换算法2002用于编码模式切换的迁移帧的处理。图4表示第1实施方式中的从AAC-ELD向ACELP的块切换算法。
块切换算法形成连结先行帧i-1的后半且处理帧的长度为
【数18】
的扩展帧。进行该处理而得到的帧为了编码而发送至ACELP模式。
(效果)
根据具有本实施方式的块切换算法的编码器,在将编码模式从AAC-ELD模式切换为ACELP模式时,能够容易地进行解码器中的混叠的去除,在具有音频编码模式和语音编码模式这两个编码模式的低延迟的语音及音频混合编解码器中,能够无缝地组合AAC-ELD编码技术以及ACELP编码技术。
(第2实施方式)
在第2实施方式中,为了对AAC-ELD模式切换为ACELP模式的迁移帧进行编码,考虑具有多个块切换算法的语音及音频混合编码器。
在第2实施方式中,与第1实施方式同样扩展ACELP帧的长度。编码器的结构与第1实施方式不同。第2实施方式的编码器具有三个编码模式。这三个编码模式为AAC-ELD模式、ACELP模式以及TCX模式。
图1表示组合作为音频编解码器的AAC-ELD、作为语音编解码器的ACELP编码技术以及TCX编码技术而成的构成。在图1中,输入信号被发送至高频编码器101。编码后的高频参数被发送至比特多路器模块107。输入信号也被发送至信号分类模块103。信号分类决定选择哪个编码模式。来自信号分类模块的模式指标被发送至比特多路器模块107。模式指标也用于控制块切换算法102。编码对象的低频带中的时域信号按照模式指标被发送至对应的编码技术104、105、106。比特多路器模块107生成比特流。
(效果)
根据具有本实施方式的块切换算法的编码器,在将编码模式从AAC-ELD模式切换为ACELP模式时,能够容易地进行解码器中的混叠的去除,在具有三个编码模式的低延迟的语音及音频混合编解码器中,能够无缝地组合AAC-ELD编码技术以及ACELP编码技术。
(第3实施方式)
在第3实施方式中,为了对AAC-ELD模式切换为ACELP模式的迁移帧进行解码,考虑具有多个块切换算法的语音及音频混合解码器。
在本实施方式中,将对象帧表示为帧i。为了去除由AAC-ELD编码模式引起的帧i-1的混叠,块切换算法使用帧i的ACELP合成信号的非混叠部分以及帧i-2的重构信号来生成逆混叠成分。
图21表示组合AAC-ELD编码技术和ACELP解码技术而成的语音及音频混合解码器。在图21中,输入比特流在2101中被逆复用。为了控制解码模式以及块切换算法2104的选择而发送模式指标。为了重构高频信号而将高频参数发送至高频解码器2105。按照模式指标,将低频系数发送至对应的解码器2102、2103。逆变换信号以及合成信号被发送至块切换算法。块切换算法2104按照不同的切换状况构成低频带的时域信号。高频解码器2105基于高频参数以及低频带的时域信号来重构这些信号。
在第3实施方式中,考虑在解码器中用于从AAC-ELD模式切换至ACELP模式的块切换方法。图23表示从AAC-ELD向ACELP迁移的情况。帧i-1通过AAC-ELD模式作为通常帧被逆变换。帧i在ACELP模式下作为通常帧被合成。对子帧2301中示出的非混叠部分以及子帧2304和子帧2305中示出的帧i-2的解码信号进行处理,使用它们去除子帧2302中示出的混叠部分中的混叠。
图8表示块的切换的一例。
针对帧i,将ACELP合成信号表示为:
【数19】
ACELP合成信号的长度基于第1实施方式中示出的编码处理,为:
【数20】
图23中表示为子帧2301的非混叠部分的一部分为了去除混叠去除而被提取。
【数21】
先行帧i-1的AAC-ELD逆变换信号表示为yi-1,具有4N的长度。在图23中,表示为子帧2302的一个混叠部分被提取,该混叠部分基于背景技术部分中说明的AAC-ELD逆变换如下表示。
【数22】
-ai-3w3+(bi-3w4)R+ai-1w7-(bi-1w8)R
非混叠部分2301bi-1、帧i-1-ai-3w3+(bi-3w4)R+ai-1w7-(bi-1w8)R的混叠部分2302、以及作为帧i-2[ai-3、bi-3]的重构信号的子帧2304、2305用于重构迁移帧的信号。
如图8所示,窗w8适用于非混叠部分bi-1,得到bi-1w8。
窗处理后,适用折叠,得到(bi-1w8)R中示出的bi-1w8的逆序。
如图8所示,对得到的非混叠部分ai-3适用窗w3,得到ai-3w3。
如图8所示,对非混叠bi-3适用窗w4,得到bi-3w4。得到bi-3w4的逆序,如901所示,将其表示为(bi-3w4)R。
为了去除混叠,如图8所示对-ai-3w3+(bi-3w4)R+ai-1w7-(bi-1w8)R,(bi-1w8)R、ai-3w3、(bi-3w4)R进行相加。
对ai-1w7适用逆窗函数,得到ai-1。
ai-1=ai-1w7/7
因此,帧i的输出为通过连结子帧2301和子帧801而重构的信号[ai -1、bi-1]。
(效果)
如上所述,根据具有块切换算法的本实施方式的解码器,通过使用先行帧的非混叠部分进行信号处理,能够去除从AAC-ELD模式切换为ACELP模式时在迁移帧中产生的混叠。由此,在具有两个解码模式的低延迟的混合解码器中,能够无缝地组合AAC-ELD编码技术以及ACELP编码技术。
(第4实施方式)
在第4实施方式中,为了对AAC-ELD模式切换为ACELP模式的迁移帧,考虑具有多个块切换算法的语音及音频混合解码器。
第4实施方式的原理与第3实施方式相同。解码器的结构与第3实施方式不同。第4实施方式的解码器具有三个解码模式。这些解码模式为AAC-ELD解码模式、ACELP解码模式以及TCX解码模式。
图5表示组合AAC-ELD和ACELP编码技术以及TCX编码技术而成的语音及音频混合解码器。在图5中,输入比特流在501中被逆复用。为了控制解码模式502、503、504以及块切换算法505的选择而发送模式指标。高频参数被发送至高频解码器506,来重构高频信号。低频系数按照模式指标被发送至对应的解码模式。逆变换信号以及合成信号被发送至块切换算法505。块切换算法505按照不同的切换状况构成低频带的时域信号。高频解码器506基于高频参数以及低频带的时域信号来重构信号。
(效果)
具有本实施方式的块切换算法的解码器解决AAC-ELD模式切换为ACELP模式的迁移帧中的混叠去除的问题,在具有三个解码模式的低延迟混合编解码器中,能够无缝地组合AAC-ELD编码技术以及ACELP编码技术。
(第5实施方式)
在第5实施方式中,为了对ACELP模式切换为AAC-ELD模式的迁移帧进行编码,考虑具有语音及音频混合编码器的块切换算法。
在编码模式从ACELP切换为AAC-ELD模式时,解码处理返回至通常的AAC-ELD重复相加处理。在先行技术中,该迁移帧通过通常的AAC-ELD低延迟滤波器组编码。与先行技术不同,本实施方式的编码器使用MDCT滤波器组。本实施方式的方法的效果与AAC-ELD编码相比,减少了编码运算的复杂性。通过使用本实施方式的方法,与通常的AAC-ELD模式相比,向解码器发送的变换系数减少为一半。因此,节省了比特率。
编码器的结构与第1实施方式相同。本实施方式中的块切换方法与第1实施方式不同。本实施方式用于对ACELP模式切换为AAC-ELD模式的迁移帧进行编码。
图10表示针对迁移帧的本实施方式的编码方法。对象帧i[ai、bi]通过补零而扩展为2N的长度,表示为[ai、bi、0、0]。对该矢量进行窗处理,得到矢量[aiw7、biw8、0,0]。
窗处理后,使用MDCT滤波器组对窗处理后的矢量进行变换。
【数23】
MDCT变换系数在DCT-IV中如下表示。
[aiw7、biw8、0,0]
其结果,由于N/2的部分的系数全部为0,因此仅将具有N/2的长度的DCT-IV(aiw7-(biw8)R)发送至解码器即可。AAC-ELD系数的长度为N。因此,通过使用本实施方式的方法,比特率节省为一半。
(效果)
具有块切换算法的本实施方式的编码器在编码模式从ACELP模式切换为AAC-ELD模式时,有助于制作帧i的混叠成分,该帧i的混叠成分用于去除由AAC-ELD模式编码的后续帧的混叠。与直接将AAC-ELD模式用于迁移帧的情况相比,减少了编码的运算复杂性以及比特率。
(第6实施方式)
在第6实施方式中,为了对ACELP模式切换为AAC-ELD模式的迁移帧进行编码,考虑具有块切换算法的语音及音频混合编码器。
第6实施方式的原理与第5实施方式相同,但编码器的结构与第5实施方式不同。
第6实施方式的编码器具有三个编码模式,这些模式为AAC-ELD模式、ACELP模式以及TCX模式。第6实施方式的编码器的结构与第2实施方式相同。
(第7实施方式)
在第7实施方式中,为了对ACELP模式切换为AAC-ELD模式的迁移帧进行解码,考虑具有多个块切换算法的语音及音频混合解码器。
在本实施方式中,按照第5实施方式中的编码器,在解码器中进行从ACELP向AAC-ELD的块的切换。在编码模式从ACELP切换为AAC-ELD模式时,后续的帧返回至AAC-ELD重复相加模式。使用帧i的逆MDCT变换信号的混叠部分、帧i-1的ACELP合成信号的非混叠部分、以及帧i-2和帧i-3的重构信号,生成AAC-ELD的混叠。图9表示在解码器中从ACELP向AAC-ELD迁移的情况。
解码器的结构与第3实施方式相同。本实施方式中的块切换方法与第3实施方式不同。图9、11及12表示解码处理的一例。
根据第5实施方式,接收的低带域的系数是该迁移帧i中MDCT变换系数DCT-IV(aiw7-(biw8)R)。因此,对应的逆滤波器组在第7实施方式中是IMDCT。IMDCT的混叠的输出由具有长度N的[aiw7-(biw8)R,-(aiw7)R+biw8]表示,在图9中表示为子帧901以及子帧902。
来自先行帧i-1的ACELP合成信号的非混叠部分由具有长度N的[ai -1、bi-1]表示,在图9中表示为子帧903以及子帧904。
先行的两个帧的输出由[ai-2、bi-2]、[ai-3、bi-3]表示,在图9中分别表示为子帧905、906、907、908。
逆AAC-ELD的混叠部分使用上述子帧制作。其目的在于,为了与通过AAC-ELD模式编码的后续帧重复相加而制作混叠成分,以便能够返回通常的AAC-ELD模式。
以下说明生成由逆低延迟滤波器组引起的混叠成分的一个方法。图11、12详细表示制作AAC-ELD的混叠要素的方法的处理。
在图11中,对帧i-3ai-3的解码信号进行窗处理,得到ai-3w1。为了得到逆序(ai-3w1)R而适用折叠。
对帧i-3bi-3的解码信号的后半进行窗处理而得到bi-3w2。
对帧i-1的ACELP合成信号ai-1的非混叠部分的前半进行窗处理,得到ai-1w5。为了得到逆序(ai-1w5)R而使用折叠。
将ACELP合成信号的非混叠部分的后半表示为bi-1。对bi-1进行窗处理,得到bi-1w6。
通过对矢量(ai-3w1)R、bi-3w2、(ai-1w5)R、bi-1w6进行相加,如下重构逆低延迟滤波器组系数yi的混叠成分。
【数24】
A=-(ai-3w1)R-bi-3w2+(ai-1w5)R+bi-1w6
AR=-ai-3w1-(bi-3w2)R+ai-1w5+(bi-1w6)R
-AR=ai-3w1+(bi-3w2)R-ai-1w5-(bi-1w6)R
-A=(ai-3w1)R+bi-3w2-(ai-1w5)R-bi-1w6
通过使用相同的分析方法,重构逆变换系数yi的剩余的成分。图12详细表示AAC-ELD的混叠部分的生成处理。
【数25】
B=-ai-2w3+(bi-2w4)R+aiw7-(biw8)R
-BR=(ai-2w3)R-bi-2w4-(aiw7)R+biw8
-B=ai-2w3-(bi-2w4)R-aiw7+(biw8)R
BR=-(ai-2w3)R+bi-2w4+(aiw7)R-biw8
如图12所示,得到AAC-ELD帧i的混叠部分。
【数26】
yi=[AR,A,B,-BR,-AR,-A,-B,BR]
适用解码器的窗[wR、8、wR、7、wR、6、wR、5、wR、4、wR、3、wR、2、wR、1],得到窗处理后的混叠部分
【数27】
【数28】
使用重构的AAC-ELD的混叠部分,能够继续进行后续的AAC-ELD帧的混叠去除。
(效果)
具有块切换算法的本实施方式的解码器使用MDCT系数来生成AAC-ELD模式的混叠成分,能够容易地去除通过AAC-ELD模式编码的后续帧的混叠。本发明在具有两个编码模式的低延迟语音及音频混合编解码器中,实现从ACELP模式向AAC-ELD模式的无缝迁移。
(第8实施方式)
在第8实施方式中,为了对ACELP模式切换为AAC-ELD模式的迁移帧进行解码,考虑具有多个块切换算法的语音及音频混合解码器。
第8实施方式的原理与第7实施方式相同。解码器的结构与第7实施方式不同。
在第8实施方式中,具有AAC-ELD模式、ACELP模式以及TCX模式这三个解码模式。第8实施方式的结构与第4实施方式的结构相同。
(效果)
具有块切换算法的本实施方式的解码器生成AAC-ELD模式的混叠,能够容易地去除通过AAC-ELD模式编码的后续帧的混叠。本发明在具有三个编码模式的低延迟语音及音频混合编解码器中,实现从ACELP模式向AAC-ELD模式的无缝迁移。
(第9实施方式)
在第9实施方式中,为了对AAC-ELD模式切换为TCX模式的迁移帧进行编码而考虑具有块切换算法的语音及音频编码器。
为了去除由解码器中的AAC-ELD模式引起的先行帧的混叠,扩展TCX帧尺寸。在本实施方式中,块切换算法形成将对象帧与先行帧连结且比通常的帧尺寸长的扩展帧。该扩展帧在编码器中通过TCX模式编码。
编码器的结构与第2实施方式相同。本实施方式中的块切换方法与第2实施方式不同。本实施方式用于对AAC-ELD模式切换为TCX模式的迁移帧进行编码。
图13表示编码处理。先行帧通过AAC-ELD模式编码。为了去除由AAC-ELD模式引起的先行帧i-1的混叠,将对象帧i与先行帧i-1连结而形成长的帧。处理帧尺寸为2N,N为帧尺寸。扩展后的帧如图13所示,通过TCX编码。
TCX模式的窗的尺寸为N。在TCX模式下,重复的长度为:
【数29】
因此,扩展帧如图13所示,包括三个TCX窗。
(效果)
具有块切换算法的本实施方式的编码器在编码模式从AAC-ELD模式切换为TCX模式时,能够容易地去除解码器中的混叠,在具有三个编码模式的低延迟的语音及音频混合编解码器中能够无缝地组合AAC-ELD编码技术和TCX编码技术。
(第10实施方式)
在第10实施方式中,为了对AAC-ELD模式切换为TCX模式的迁移帧进行解码,考虑具有块切换算法的语音及音频混合解码器。
在本实施方式中,将对象帧表示为帧i。为了去除由AAC-ELD模式引起的先行帧i-1的混叠,块切换算法使用帧i的TCX合成信号和帧i-2的重构信号来生成逆混叠成分。
解码器的结构与第4实施方式相同。本实施方式中的块切换方法与第4实施方式不同。图14表示块切换处理。
根据第9实施方式,对象迁移帧使用处理帧尺寸2N通过TCX模式编码。在此,N为帧尺寸。根据第9实施方式中的编码器,解码器中的合成使用TCX合成。TCX合成信号是具有长度2N的[ai-1+混叠,bi-1、ai、bi+混叠]。图14中作为子帧1401示出的非混叠部分的bi-1用于生成子帧1402的混叠成分。
以yi-1表示先行帧i-1的AAC-ELD合成信号,长度为4N。基于背景技术中说明的AAC-ELD逆变换,如下表示yi-1。
【数30】
yi-1=
[-ai-4w1-(bi-4w2)R+ai-2w5+(bi-2w6)R,
-(ai-4w1)R-bi-4w2+(ai-2w5)R+bi-2w6,
-ai-3w3+(bi-3w4)R+ai-1w7-(bi-1w8)R,
(ai-3w3)R-bi-3w4-(ai-1w7)R+bi-1w8,
ai-4w1+(bi-4w2)R-ai-2w5-(bi-2w6)R,
(ai-4w1)R+bi-4w2-(ai-2w5)R-bi-2w6,
ai-3w3-(bi-3w4)R-ai-1w7+(bi-1w8)R,
-(ai-3w3)R+bi-3w4+(ai-1w7)R-bi-1w8]
作为子帧1402表示的AAC-ELD混叠成分-ai-3w3+(bi-3w4)R+ai -1w7-(bi-1w8)R使用TCX合成信号bi-1子帧1401、以及作为子帧1403、1040表示的i-2outi-2=[ai-3、bi-3]的重构信号来去除。重构迁移帧。
图14中的混叠去除处理的详细情况与图8的说明相同。图23中的子帧2301被非混叠部分bi-11401置换。作为混叠部分的子帧2302在图14中置换为1402。作为子帧2304及2305表示的非混叠部分被outi-2=[ai-3、bi -3]置换,在图14中表示为子帧1403以及1404。迁移帧i的重构信号为[ai-1、bi-1]。
(效果)
具有块切换算法的本实施方式的解码器去除由AAC-ELD模式引起的帧i-1的混叠。由此,在低延迟的混合语音及音频编解码器中,实现从AAC-ELD模式向TCX模式的无缝迁移。
(第11实施方式)
在第11实施方式中,为了对TCX模式切换为AAC-ELD模式的迁移帧进行编码,考虑具有块切换算法的语音及音频混合编码器。
对象的迁移帧表示为帧i,该帧i以AAC-ELD模式编码。先行帧通过TCX模式编码。为了去除由AAC-ELD低延迟滤波器组引起的帧i的混叠,块切换算法将对象帧与先行的3帧一起以AAC-ELD模式编码。
编码器的结构与第2实施方式相同。本实施方式中的块切换方法与第2实施方式不同。
图15表示编码器中针对TCX模式切换为AAC-ELD模式的迁移帧的编码处理。根据第9实施方式,重复的长度在TCX模式下为
【数31】
N为帧尺寸。针对通过通常的TCX模式编码的帧,如图15所示适用两个TCX窗。
如图15所示,针对对象的迁移帧直接适用AAC-ELD模式。
(效果)
第11实施方式中的编码器使TCX模式切换为AAC-ELD模式时在解码器中进行的混叠的去除变得容易。本实施方式中的块切换算法实现低延迟的语音及音频混合编解码器中的AAC-ELD编码技术与TCX编码技术的无缝组合。
(第12实施方式)
在第12实施方式中,为了对TCX模式切换为AAC-ELD模式的迁移帧进行解码,考虑具有块切换算法的语音及音频混合解码器。
本实施方式中的块切换算法使用TCX合成信号以及帧i-2的重构信号来生成AAC-ELD的混叠,为了对块进行切换,去除AAC-ELD的混叠。
图16表示与TCX模式切换为AAC-ELD模式的迁移帧对应的解码处理。根据第11实施方式中记载的编码器,先行帧以TCX模式编码。在TCX合成后,以TCX合成的信号为[bi-2+混叠,ai-1、bi-1+混叠],具有以下长度:
【数32】
ai-1在图16中表示为子帧1601。
针对对象帧i,在逆低延迟滤波器组之后,如下所示,逆变换信号表示为yi,具有长度4N。
【数33】
yi=
[-ai-3w1-(bi-3w2)R+ai-1w5+(bi-1w6)R,
-(ai-3w1)R-bi-3w2+(ai-1w5)R+bi-1w6,
-ai-2w3+(bi-2w4)R+aiw7-(biw8)R,
(ai-2w3)R-bi-2w4-(aiw7)R+biw8,
ai-3w1+(bi-3w2)R-ai-1w5-(bi-1w6)R,
(ai-3w1)R+bi-3w2-(ai-1w5)R-bi-1w6,
ai-2w3-(bi-2w4)R-aiw7+(biw8)R,
-(ai-2w3)R+bi-2w4+(aiw7)R-biw8]
作为混叠部分的、-(ai-3w1)R-bi-3w2+(ai-1w5)R+bi-1w6表示为子帧1602,通过TCX合成信号ai-1以及作为子帧1603、1604表示的重构信号的帧i-2outi-2=[ai-3、bi-3]去除,来重构迁移帧[ai-1、bi-1]的信号。
图17表示混叠去除的一例。对帧i-2ai-3的重构信号进行窗处理,如图17所示得到ai-3w1。将ai-3w1的逆矢量表示为(ai-3w1)R。
对outi-2的后半进行窗处理,得到bi-3w2。
对TCX合成信号ai-1进行窗处理,得到ai-1w5。ai-1w5的逆序为(ai-1w5)R。
通过对再次生成的混叠成分bi-1w6进行相加以及逆窗处理,重构子帧1701bi-1。为了得到对象迁移帧,子帧1701如图17所示与子帧1601连结。
由于量化的误差,连结部分的边界不平滑。为了去除伪影,考虑适于边界的平滑化的算法。图24表示子帧边界平滑化处理。
子帧1701bi-1通过TCX窗形状进行窗处理。适用折叠以及展开处理而生成MDCT-TCX混叠成分。对得到的结果和原本由MDCT-TCX逆变换引起的子帧1605的混叠部分进行重合,得到子帧2401。子帧1601与2401之间的边界通过重复相加处理而变得平滑。重构过渡信号[ai-1、bi-1]。
(效果)
具有块切换算法的本实施方式的解码器去除由AAC-ELD模式引起的帧i的混叠。由此,实现从TCX模式向AAC-ELD模式的无缝迁移。
(第13实施方式)
在第13实施方式中,考虑用于在低延迟的语音及音频混合编解码器中对过渡信号进行编码的编码方法。
在AAC-ELD编解码器中,仅使用长窗形状。由此,能量急激变化的过渡信号的编码性能下降。为了应对过渡信号,优选使用短窗。在本实施方式中,考虑过渡信号编码算法。具有过渡信号的对象帧i与先行帧连结,形成具有更长的帧尺寸的扩展帧。多个短窗以及MDCT滤波器组用于该处理的帧的编码。
编码器的结构与第1以及第2实施方式相同。图18表示编码器中的编码处理。先行的帧i-1与先行的三个帧一起通过AAC-ELD模式编码。帧i如图18所示与先行帧连结。扩展后的长的迁移帧的长度为:
【数34】
具有长度
【数35】
的六个短窗适用于扩展帧。短窗形状只要是由MDCT滤波器组使用的对称的窗,无论是怎样的形状都可以。MDCT滤波器组适用于短窗处理后的信号。
(效果)
本实施方式的编码器提供过渡信号处理算法,提高使用AAC-ELD编码技术的低延迟混合编解码器的音质。
(第14实施方式)
在第14实施方式中,考虑用于对过渡信号进行解码的语音及音频混合解码器。
如第13实施方式中所述,过渡帧i通过短窗MDCT编码。为了去除由AAC-ELD模式引起的帧i-1的混叠,本实施方式中的过渡信号解码方法使用帧i的逆MDCT变换信号和帧i-3的重构信号来生成AAC-ELD模式的逆混叠。
图19示出过渡帧的解码处理。根据第13实施方式中记载的编码处理,在IMDCT以及重复相加之后,信号1902成为[ai-1+混叠,bi-1、ai、bi+混叠],具有长度:
【数36】
来自MDCT的非混叠部分bi-1在图19中作为1902示出,帧i-1的AAC-ELD逆变换信号yi-11904以及帧i-3的重构信号outi-2=[ai-3、bi-3]1905为了重构信号[ai-1、bi-1]而发送至图19的块1901。因此,帧i的输出为[ai-1、bi-1]。
图19中的块1901的处理与图8相同。图23中的子帧2301被非混叠部分1902置换。图19中的作为混叠部分的子帧2302被1904置换。表示为子帧2304、2305的非混叠部分被图19的表示为1905的outi-2=[ai-3、bi-3]置换。
(效果)
本实施方式的解码器为了提高过渡信号的编码性能而提供过渡信号处理方法。结果,提高了使用AAC-ELD编码技术的低延迟混合编解码器的音质。
工业实用性
本发明涉及混合音频编码系统,具体而言,涉及与低比特率下的音频编码以及语音编码对应的混合编码系统。混合编码系统组合变换编码和时域编码。能够用于广播系统、便携式电视、便携式电话的通信、电视会议。
Claims (18)
1.一种音频混合解码装置,对使用线性预测系数的语音编码模式和使用低延迟正交变换的音频编码模式进行切换并且对编码流进行解码,具备:
低延迟变换解码部,在所述音频编码模式下,使用逆低延迟滤波器组对所述编码信号进行解码,从而生成合成信号;
声音解码部,在所述语音编码模式下,对包括所述线性预测系数的所述编码信号进行解码,从而生成声音合成信号;以及
块切换部,使用解码对象帧之前的先行帧的信号对第1迁移帧进行解码,该第1迁移帧是从使用所述低延迟正交变换的所述音频编码模式向使用所述线性预测系数的所述语音编码模式切换的帧,组合解码后的所述第1迁移帧的信号以及由所述声音解码部生成的所述解码对象帧的所述声音合成信号,从而重构所述输入信号的时域信号。
2.如权利要求1所述的音频混合解码装置,
所述块切换部使用所述解码对象帧的所述声音合成信号、来自多个所述逆低延迟滤波器组的先行帧的逆变换信号、以及所述先行帧的重构信号,对所述第1迁移帧进行解码。
3.如权利要求2所述的音频混合解码装置,
所述声音解码部具备代数符号激励线性预测解码部,该代数符号激励线性预测解码部对所述线性预测系数和代数符号激励系数进行解码,从而生成声音合成信号;
在所述第1迁移帧是从使用所述低延迟正交变换的所述音频编码模式向使用所述代数符号激励线性预测系数的所述语音编码模式切换的帧的情况下,所述块切换部使用所述解码对象帧的代数符号激励线性预测合成信号、来自所述多个逆低延迟滤波器组的先行帧的逆变换信号、以及所述先行帧的重构信号,对所述第1迁移帧进行解码。
4.如权利要求3所述的音频混合解码装置,
所述声音解码部还具备变换编码激励解码部,该变换编码激励解码部对所述线性预测系数进行解码,通过正交变换处理生成激励合成信号;
在所述第1迁移帧是从使用所述低延迟正交变换的所述音频编码模式向进行所述变换编码激励解码处理的语音编码模式切换的帧的情况下,所述块切换部使用所述解码对象帧的变换编码激励合成信号、来自所述逆低延迟滤波器组的先行帧的逆变换信号、以及所述先行帧的重构信号,对所述第1迁移帧进行解码。
5.如权利要求3所述的音频混合解码装置,
在所述语音编码模式是使用所述代数符号激励线性预测系数的所述语音编码模式的情况下,所述块切换部通过使用来自逆修正离散余弦变换滤波器组的所述多个解码对象帧的逆变换信号、先行帧的代数符号激励线性预测合成信号、以及所述先行帧的重构信号,对第2迁移帧进行解码,该第2迁移帧是从所述语音编码模式向所述音频编码模式切换的帧。
6.如权利要求4所述的音频混合解码装置,
在所述语音编码模式是使用所述变换编码激励系数的所述语音编码模式的情况下,所述块切换部通过使用来自所述逆低延迟滤波器组的多个对象帧的逆变换信号、先行帧的变换编码激励合成信号、以及所述先行帧的重构信号,对第2迁移帧进行解码,该第2迁移帧是从所述语音编码模式向所述音频编码模式切换的帧。
7.如权利要求1所述的音频混合解码装置,
所述低延迟变换解码部以替代所述逆低延迟滤波器组而使用多个修正离散余弦变换滤波器组的所述音频编码模式对解码对象帧进行解码。
8.如权利要求7所述的音频混合解码装置,
所述低延迟变换解码部针对短窗处理后的所述扩展帧适用逆修正离散余弦变换滤波器组,通过使用来自所述逆修正离散余弦变换滤波器组的多个解码对象帧的逆变换信号、所述扩展帧中包括的先行帧的逆变换信号、以及所述先行帧的重构信号,对所述扩展帧中的时间信号进行解码。
9.一种音频混合编码装置,对使用线性预测系数的语音编码模式和使用低延迟正交变换的音频编码模式进行切换并且对输入信号进行编码,具备:
信号分类部,按照所述输入信号的特征对所述输入信号进行分类,按照所述分类结果,切换所述语音编码模式和所述音频编码模式来作为对所述输入信号进行编码的编码模式;
低延迟变换编码部,在所述音频编码模式下,使用低延迟滤波器组对多个编码对象帧的所述输入信号进行编码,使用编码后的低延迟正交变换生成编码信号;
线性预测编码部,在所述语音编码模式下,计算编码对象帧的所述输入信号的多个线性预测系数,从而生成包括多个所述线性预测系数的编码信号;
块切换部,将第1迁移帧与所述编码对象帧连结而形成扩展帧,对形成的所述扩展帧进行编码,该第1迁移帧是所述信号分类部将所述编码模式从使用所述低延迟正交变换的所述音频编码模式向使用所述线性预测系数的所述语音编码模式切换的帧,而且是所述编码对象帧之前的先行帧。
10.如权利要求9所述的音频混合编码装置,
所述线性预测编码部具备:
变换编码激励编码部,使用修正离散余弦变换滤波器组对多个所述线性预测系数的残差进行编码,生成包括多个变换编码激励系数和所述多个线性预测系数的编码信号;以及
代数符号激励线性预测编码部,生成包括多个所述线性预测系数和多个代数符号激励系数的编码信号。
11.如权利要求9所述的音频混合编码装置,
所述块切换部通过使用修正离散余弦变换滤波器组对多个所述扩展帧进行变换,对第2迁移帧进行编码,该第2迁移帧是从所述语音编码模式向所述音频编码模式切换的帧。
12.如权利要求9所述的音频混合编码装置,
所述块切换部将编码对象帧与所述编码对象帧之前的先行帧连结而形成扩展帧,在对所述扩展帧进行短窗处理之后,使用基于修正离散余弦变换滤波器组的变换处理进行编码。
13.一种块切换部,是权利要求3或权利要求4所述的音频混合解码装置所具备的所述块切换部,具备:
a.通过进行窗处理以及排序来处理所述解码对象帧的代数符号激励线性预测合成信号或者所述变换编码激励合成信号而取得第1信号的处理部;
b.通过进行窗处理以及排序来处理所述先行帧的重构信号而取得第2信号的处理部;
c.将所述第1信号和所述第2信号与来自逆低延迟滤波器组的多个所述先行帧的逆变换信号相加而取得第3信号的处理部;
d.通过进行窗处理以及排序来处理所述第3信号而取得第4信号的处理部;以及
e.使所述第4信号与所述对象帧的所述代数符号激励线性预测合成信号或者所述变换编码激励合成信号连结而取得重构的信号的处理部。
14.一种块切换部,是权利要求7或权利要求8所述的音频混合解码装置所具备的所述块切换部,具备:
a.通过进行窗处理以及排序来处理距解码对象帧3帧前的重构信号而取得第1信号的处理部;
b.通过进行窗处理以及排序来处理先行帧的代数符号激励线性预测合成信号或者变换编码激励合成信号而取得第2信号的处理部;以及
c.对所述第1信号和所述第2信号进行相加而取得第3信号的处理部;
d.通过对所述第3信号进行窗处理以及排序来取得所述解码对象帧的逆低延迟正交变换信号中的一部分的处理部。、
15.一种块切换部,是权利要求7或权利要求8所述的音频混合解码装置所具备的所述块切换部,具备:
a.通过进行窗处理以及排序来处理距解码对象帧2帧前的重构信号而取得第1信号的处理部;
b.将所述第1信号和所述重构信号与所述解码对象帧的来自所述逆低延迟滤波器组的多个逆变换信号相加而取得第3信号的处理部;以及
c.通过对所述第3信号进行窗处理以及排序来得到所述解码对象块的逆低延迟变换信号中的一部分的处理部。
16.一种块切换部,是权利要求4所述的音频混合解码装置所具备的所述块切换部,具备:
a.通过进行窗处理以及排序来处理解码对象帧的变换编码激励合成信号而取得第1信号的处理部;
b.通过对先行帧的重构信号进行窗处理以及排序来取得第2信号的处理部;
c.将所述第1信号和所述第2信号与来自逆低延迟滤波器组的所述多个先行帧的逆变换信号相加而得到第3信号的处理部;
d.通过进行窗处理以及排序来处理所述第3信号而取得第4信号的处理部;以及
e.使所述第4信号与所述解码对象帧的所述变换编码激励合成信号连结而取得重构的信号的处理部。
17.一种块切换部,是权利要求6所述的音频混合解码装置所具备的所述块切换部,具备:
a.通过窗处理以及排序来处理先行帧的所述变换编码激励合成信号而取得第1信号的处理部;
b.通过进行窗处理以及排序来处理先行帧的所述重构信号而取得第2信号的处理部;
c.将所述第1信号和所述第2信号与来自逆低延迟滤波器组的多个解码对象帧的逆变换信号相加而取得第3信号的处理部;
d.通过进行窗处理以及排序来处理所述第3信号而取得第4信号的处理部;以及
e.使所述第4信号与所述先行帧的所述变换编码激励合成信号连结而取得重构的信号的处理部。
18.一种块切换部,是权利要求8所述的音频混合解码装置所具备的所述块切换部,具备:
a.通过对所述多个解码对象帧的来自逆修正离散余弦变换滤波器组的重构信号进行窗处理以及排序来取得第1信号的处理部;
b.通过对所述先行帧的重构信号进行窗处理以及排序来取得第2信号的处理部;
c.将所述第1信号和所述第2信号与来自逆低延迟滤波器组的多个先行帧的逆变换信号相加而取得第3信号的处理部;
d.通过窗处理以及排序来处理所述第3信号而取得第4信号的处理部;以及
e.使所述第4信号与所述多个解码对象帧的来自所述逆修正离散余弦变换滤波器组的所述重构信号连结而取得重构的信号的处理部。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010134848 | 2010-06-14 | ||
JP2010-134848 | 2010-06-14 | ||
PCT/JP2011/003352 WO2011158485A2 (ja) | 2010-06-14 | 2011-06-14 | オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102934161A true CN102934161A (zh) | 2013-02-13 |
CN102934161B CN102934161B (zh) | 2015-08-26 |
Family
ID=45348685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180028085.9A Active CN102934161B (zh) | 2010-06-14 | 2011-06-14 | 音频混合编码装置以及音频混合解码装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9275650B2 (zh) |
EP (1) | EP2581902A4 (zh) |
JP (1) | JP5882895B2 (zh) |
KR (1) | KR101790373B1 (zh) |
CN (1) | CN102934161B (zh) |
WO (1) | WO2011158485A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015165233A1 (zh) * | 2014-04-29 | 2015-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
CN110444218A (zh) * | 2013-10-18 | 2019-11-12 | 弗朗霍夫应用科学研究促进协会 | 用于编码和解码音频数据的装置以及方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101250309B1 (ko) * | 2008-07-11 | 2013-04-04 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 에일리어싱 스위치 기법을 이용하여 오디오 신호를 인코딩/디코딩하는 장치 및 방법 |
ES2968927T3 (es) * | 2010-07-08 | 2024-05-14 | Fraunhofer Ges Forschung | Decodificador que utiliza cancelación del efecto de solapamiento hacia delante |
EP2772914A4 (en) * | 2011-10-28 | 2015-07-15 | Panasonic Corp | DECODER FOR HYBRID SOUND SIGNALS, COORDINATORS FOR HYBRID SOUND SIGNALS, DECODING PROCEDURE FOR SOUND SIGNALS AND CODING SIGNALING PROCESSES |
US9489962B2 (en) * | 2012-05-11 | 2016-11-08 | Panasonic Corporation | Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method |
CN103714821A (zh) | 2012-09-28 | 2014-04-09 | 杜比实验室特许公司 | 基于位置的混合域数据包丢失隐藏 |
RU2712814C2 (ru) | 2013-04-05 | 2020-01-31 | Долби Лабораторис Лайсэнзин Корпорейшн | Система компандирования и способ для снижения шума квантования с использованием усовершенствованного спектрального расширения |
US9514761B2 (en) | 2013-04-05 | 2016-12-06 | Dolby International Ab | Audio encoder and decoder for interleaved waveform coding |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
CN106448688B (zh) | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
WO2017050398A1 (en) * | 2015-09-25 | 2017-03-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding |
US10499229B2 (en) * | 2016-01-24 | 2019-12-03 | Qualcomm Incorporated | Enhanced fallback to in-band mode for emergency calling |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040156397A1 (en) * | 2003-02-11 | 2004-08-12 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification |
CN1774957A (zh) * | 2003-04-17 | 2006-05-17 | 皇家飞利浦电子股份有限公司 | 音频信号生成 |
CN101051465A (zh) * | 2006-03-30 | 2007-10-10 | 西门子公司 | 用于解码被编码的有用数据的方法和解码装置 |
CN101325060A (zh) * | 2007-06-14 | 2008-12-17 | 汤姆逊许可公司 | 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2282860T3 (es) | 2003-04-17 | 2007-10-16 | Koninklijke Philips Electronics N.V. | Generacion de señal de audio. |
US7596486B2 (en) | 2004-05-19 | 2009-09-29 | Nokia Corporation | Encoding an audio signal using different audio coder modes |
US20060294312A1 (en) | 2004-05-27 | 2006-12-28 | Silverbrook Research Pty Ltd | Generation sequences |
CN101231850B (zh) * | 2007-01-23 | 2012-02-29 | 华为技术有限公司 | 编解码方法及装置 |
KR101405971B1 (ko) * | 2007-07-02 | 2014-06-12 | 엘지전자 주식회사 | 방송 수신기 및 방송신호 처리방법 |
KR101490246B1 (ko) * | 2007-07-02 | 2015-02-05 | 엘지전자 주식회사 | 방송 수신기 및 방송신호 처리방법 |
JP2011518345A (ja) * | 2008-03-14 | 2011-06-23 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング |
PT2313887T (pt) * | 2008-07-10 | 2017-11-14 | Voiceage Corp | Dispositivo e método de quantificação de filtro de lpc de taxa de bits variável e quantificação inversa |
EP2311034B1 (en) | 2008-07-11 | 2015-11-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding frames of sampled audio signals |
MY181231A (en) | 2008-07-11 | 2020-12-21 | Fraunhofer Ges Zur Forderung Der Angenwandten Forschung E V | Audio encoder and decoder for encoding and decoding audio samples |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
MX2011000375A (es) | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
KR101250309B1 (ko) | 2008-07-11 | 2013-04-04 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 에일리어싱 스위치 기법을 이용하여 오디오 신호를 인코딩/디코딩하는 장치 및 방법 |
TWI419148B (zh) * | 2008-10-08 | 2013-12-11 | Fraunhofer Ges Forschung | 多解析度切換音訊編碼/解碼方案 |
CN103761971B (zh) * | 2009-07-27 | 2017-01-11 | 延世大学工业学术合作社 | 一种处理音频信号的方法和装置 |
CN101661749A (zh) | 2009-09-23 | 2010-03-03 | 清华大学 | 一种语音和音乐双模切换编/解码的方法 |
-
2011
- 2011-06-14 US US13/703,044 patent/US9275650B2/en active Active
- 2011-06-14 JP JP2012520286A patent/JP5882895B2/ja active Active
- 2011-06-14 CN CN201180028085.9A patent/CN102934161B/zh active Active
- 2011-06-14 EP EP11795393.5A patent/EP2581902A4/en not_active Withdrawn
- 2011-06-14 WO PCT/JP2011/003352 patent/WO2011158485A2/ja active Application Filing
- 2011-06-14 KR KR1020127031469A patent/KR101790373B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040156397A1 (en) * | 2003-02-11 | 2004-08-12 | Nokia Corporation | Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification |
CN1774957A (zh) * | 2003-04-17 | 2006-05-17 | 皇家飞利浦电子股份有限公司 | 音频信号生成 |
CN101051465A (zh) * | 2006-03-30 | 2007-10-10 | 西门子公司 | 用于解码被编码的有用数据的方法和解码装置 |
CN101325060A (zh) * | 2007-06-14 | 2008-12-17 | 汤姆逊许可公司 | 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110444218A (zh) * | 2013-10-18 | 2019-11-12 | 弗朗霍夫应用科学研究促进协会 | 用于编码和解码音频数据的装置以及方法 |
CN110444218B (zh) * | 2013-10-18 | 2023-10-24 | 弗朗霍夫应用科学研究促进协会 | 用于编码和解码音频数据的装置以及方法 |
WO2015165233A1 (zh) * | 2014-04-29 | 2015-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
RU2661787C2 (ru) * | 2014-04-29 | 2018-07-19 | Хуавэй Текнолоджиз Ко., Лтд. | Способ кодирования аудио и связанное с ним устройство |
US10262671B2 (en) | 2014-04-29 | 2019-04-16 | Huawei Technologies Co., Ltd. | Audio coding method and related apparatus |
US10984811B2 (en) | 2014-04-29 | 2021-04-20 | Huawei Technologies Co., Ltd. | Audio coding method and related apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP5882895B2 (ja) | 2016-03-09 |
EP2581902A1 (en) | 2013-04-17 |
KR101790373B1 (ko) | 2017-10-25 |
EP2581902A4 (en) | 2015-04-08 |
CN102934161B (zh) | 2015-08-26 |
US20130090929A1 (en) | 2013-04-11 |
JPWO2011158485A1 (ja) | 2013-08-19 |
KR20130028751A (ko) | 2013-03-19 |
WO2011158485A2 (ja) | 2011-12-22 |
US9275650B2 (en) | 2016-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102934161B (zh) | 音频混合编码装置以及音频混合解码装置 | |
CN101836251B (zh) | 使用mdct频谱的组合编码的可缩放的语音和音频编码 | |
CN102089814B (zh) | 对编码的音频信号进行解码的设备和方法 | |
EP3693963B1 (en) | Simultaneous time-domain and frequency-domain noise shaping for tdac transforms | |
KR101508819B1 (ko) | 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩 | |
US8595019B2 (en) | Audio coder/decoder with predictive coding of synthesis filter and critically-sampled time aliasing of prediction domain frames | |
KR101325335B1 (ko) | 오디오 샘플 인코드 및 디코드용 오디오 인코더 및 디코더 | |
CN102105930B (zh) | 用于编码采样音频信号的帧的音频编码器和解码器 | |
KR101516468B1 (ko) | 샘플링된 오디오 신호의 프레임들을 인코딩 및 디코딩하기 위한 오디오 인코더 및 디코더 | |
CN101231850B (zh) | 编解码方法及装置 | |
US8959015B2 (en) | Apparatus for encoding and decoding of integrated speech and audio | |
CN102770912B (zh) | 使用线性预测滤波的前向时域混叠消除 | |
KR101698905B1 (ko) | 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법 | |
CN101878504A (zh) | 使用时间分辨率能选择的低复杂性频谱分析/合成 | |
CN102395033A (zh) | 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法 | |
CN103477388A (zh) | 声音信号混合解码器、声音信号混合编码器、声音信号解码方法及声音信号编码方法 | |
CN102272831A (zh) | 基于峰值检测的选择性缩放掩码计算 | |
CN103915100A (zh) | 一种编码模式切换方法和装置、解码模式切换方法和装置 | |
US9773505B2 (en) | Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and different coder | |
CN101615393A (zh) | 对语音和/或非语音音频输入信号编码或解码的方法和设备 | |
US20130096913A1 (en) | Method and apparatus for adaptive multi rate codec | |
KR102546098B1 (ko) | 블록 기반의 오디오 부호화/복호화 장치 및 그 방법 | |
JP2004348120A (ja) | 音声符号化装置、音声復号化装置及びこれらの方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |