CN101743586A - 音频编码器、编码方法、解码器、解码方法以及经编码的音频信号 - Google Patents
音频编码器、编码方法、解码器、解码方法以及经编码的音频信号 Download PDFInfo
- Publication number
- CN101743586A CN101743586A CN200880019699A CN200880019699A CN101743586A CN 101743586 A CN101743586 A CN 101743586A CN 200880019699 A CN200880019699 A CN 200880019699A CN 200880019699 A CN200880019699 A CN 200880019699A CN 101743586 A CN101743586 A CN 101743586A
- Authority
- CN
- China
- Prior art keywords
- signal
- pulse
- coding
- decoding
- residual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 137
- 238000000034 method Methods 0.000 title claims description 59
- 238000004422 calculation algorithm Methods 0.000 claims description 44
- 238000000605 extraction Methods 0.000 claims description 41
- 238000001228 spectrum Methods 0.000 claims description 35
- 238000004458 analytical method Methods 0.000 claims description 29
- 230000007774 longterm Effects 0.000 claims description 15
- 230000000873 masking effect Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 239000002131 composite material Substances 0.000 claims description 9
- 238000011002 quantification Methods 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 4
- 238000007493 shaping process Methods 0.000 claims description 3
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims 4
- 230000000750 progressive effect Effects 0.000 claims 2
- 238000013213 extrapolation Methods 0.000 claims 1
- 238000005728 strengthening Methods 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 9
- 238000005070 sampling Methods 0.000 description 28
- 238000001914 filtration Methods 0.000 description 26
- 230000005284 excitation Effects 0.000 description 21
- 239000010410 layer Substances 0.000 description 19
- 230000008447 perception Effects 0.000 description 14
- 238000013139 quantization Methods 0.000 description 12
- 230000000576 supplementary effect Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 8
- 238000011045 prefiltration Methods 0.000 description 8
- 238000005086 pumping Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 210000004704 glottis Anatomy 0.000 description 6
- 230000001052 transient effect Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 239000012792 core layer Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000002950 deficient Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000002592 echocardiography Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000013517 stratification Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 206010021403 Illusion Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000012678 divergent method Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
本发明公开了一种用于对音频信号进行编码的音频编码器,包含用于从音频信号中提取脉冲状部分的脉冲提取器(10)。对所述脉冲状部分进行编码,并将其传送至输出接口(22)。此外,音频编码器还包含信号编码器(16),用于对从音频信号导出的残留信号进行编码,使残余音频信号中的脉冲状部分得以减小或消除。输出接口(22)同时传送两种编码信号,即编码的脉冲信号(12)和编码的残留信号(20),以供传输或存储。在解码器端,分别对两个信号部分进行解码,然后对其进行合并,以获得解码的音频信号。
Description
技术领域
本发明涉及源编码,特别涉及音频源编码,其中至少用具有不同编码算法的两种不同的音频编码器对音频信号进行处理。
背景技术
在低比特率音频和语音编码技术领域中,为了在给定比特率下,以尽可能好的主观质量对这类信号实现低比特率编码,传统情况下,可以采用若干不同的编码技术。用于一般音乐/声音信号的编码器旨在:通过根据利用感知模型(“感知音频编码”)从输入信号估计得到的掩蔽阈值曲线,对量化误差的频谱(或时间)形状予以成形的方式,从而对主观质量加以优化。另一方面,在以人类语言的生成模型为基础进行极低速率的语音编码,即利用线性预测编码(LPC)对人类声道的共振效应进行建模、同时对残余激励信号进行有效编码时,极低速率的语音编码的效率极高。
由于存在上述两种不同的方法,一般的音频编码器(如MPEG-1层3、或MPEG-2/4高级音频编码、AAC)由于未采用语音源模型,因而对于极低数据速率的语音信号,通常无法得到同专用的基于LPC的语音编码器相媲美的良好性能。反之,由于基于LPC的语音编码器无法根据掩蔽阈值曲线灵活地对编码失真的频谱包络加以成形,因而当应用于一般的音乐信号时,通常无法获得令人满意的结果。以下,将对提出将基于LPC的编码同感知音频编码结合于同一框架的概念予以说明,从而对针对一般的音频信号和语音信号来说均比较有效的统一音频编码予以说明。
一般而言,感知音频编码器使用基于滤波器组的方法有效地对音频信号进行编码,并根据掩蔽曲线的估计结果而对量化失真加以成形。
图16a示出了单声道感知编码系统的基本方框图。分析滤波器组1600用于将时域采样映射为经二次采样的频谱分量。根据频谱分量的个数,该系统还可称为子带编码器(子带数量较少,如32)或变换编码器(频率线数量较多,如512)。感知(“心理声学”)模型1602用于对取决于实际时间的掩蔽阈值进行估计。对频谱(“子带”或“频域”)分量进行量化和编码1604,使得量化噪声隐没在实际发送信号之下,并使得在解码后无法觉察到量化噪声。这是通过改变频谱值在时间和频率上的量化精细度而实现的。
除了辅助信息以外,还把经量化和熵编码的频谱系数或子带值输入比特流格式化器1606,该比特流格式化器1606提供适于传送或存储的经编码的音频信号。方框1606的输出比特流可以通过互联网发送,也可以存储在任意的机器可读数据载体上。
在解码器端,解码器输入接口1610接收编码的比特流。方框1610将熵编码和量化的频谱/子带值同辅助信息分开。编码的频谱值输入诸如哈夫曼解码器的熵解码器,该解码器位于1610和1620之间。这个熵解码器的输出被量化为频谱值。这些量化的频谱值输入执行如图16a中1620处所示的“逆”量化的逆量化器。方框1620的输出被输入综合滤波器组1622,后者执行包括频率/时间变换以及通常情况下,诸如交叠与相加和/或合成边加窗(synthesis-sidewindowing)操作等的时域混叠消除操作的合成滤波,以最终获得输出音频信号。
图16b、16c示出了图16a的基于整个滤波器组的感知编码概念的替换物,其中实现了编码器端的预滤波方法以及解码器端的后滤波方法。
在[Ed100]中,提出了一种通过利用所谓的预滤波器而并非在频率上对频谱系数进行可变量化,把非相关缩减(即,根据感知标准进行噪声成形)和冗余缩减(即,获取数学意义上更加简洁的信息表示)的方面相分离的感知音频编码器。图16b示出了上述原理。感知模型1602对输入信号进行分析,计算频率上的掩蔽阈值曲线的估计结果。将掩蔽阈值转换为一组预滤波器系数,使得其频率响应的幅度同掩蔽阈值成反比。预滤波操作将这组系数施加于输入信号,从而产生输出信号,该输出信号中所有频率分量均根据其感知重要性予以表示(“感知白化”)。接着,用可以产生“白”量化失真的任意类型的音频编码器1632对该信号进行编码,即,不采用任何感知噪声成形。音频信号的传输/存储的内容包括:编码器的比特流以及预滤波系数的编码版本。在图16c的解码器1634中,将编码器比特流解码为含有加性白量化噪声的感知白化音频信号。然后,根据所发送的滤波器系数,对该信号执行后滤波操作。由于后置滤波器1640执行与预滤波器相反的逆滤波处理,因而能够根据感知白化信号重建原始音频输入信号。后置滤波器1640对加性量化白噪声进行频谱成形,使之状如掩蔽曲线,从而如同预期的那样,在解码器输出端感觉上该噪声是有色的。
由于在这种方案中,感知噪声成形是通过预滤波/后滤波的步骤而不是用与频率相关的频谱系数量化而实现的,因而可以将此概念概括为,包含用于表示预滤波音频信号的非基于滤波器组的编码机制的音频编码器,而不是基于滤波器组的音频编码器。在[Sch02]中,针对采用了预测和熵编码级的时域编码内核对此进行说明。
为了利用预滤波/后滤波技术进行适当的频谱噪声成形,将预滤波器/后置滤波器的频率分辨率调整为与人类听觉系统的频率分辨率相适应是十分重要的。理想情况下,频率分辨率应服从众所周知的感知频标(frequency scale),例如BARK或ERB频标[Zwi]。为了使预滤波器/后置滤波器模型的阶数达到最小,从而使相关的计算复杂度以及辅助信息传输速率达到最小,尤其希望做到这点。
预滤波器/后置滤波器的频率分辨率的调整可由众所周知的频率畸变(warping)概念予以实现[KHL97]。本质上,使用可导致滤波器频率响应发生非均匀变形(“畸变”)的(一阶或更高阶)全通滤波器来代替滤波器结构中的单位延时。经证明,甚至采用一阶全通滤波器,如
也可以通过适当选择全通系数,十分精确地逼近感知频标[SA99]。因此,大多数已知系统不采用高阶全通滤波器进行频率畸变。由于一阶全通滤波器由决定频标变形的单个标量参数(以下将其称为“畸变因子”-1<λ<1)完全确定。举例而言,对于λ=0的畸变因子,不产生变形效果,即,滤波器以常规频标工作。所选择的畸变因子越高(由于这是逼近感知频标所必需的),频谱中较低频率部分的频率分辨率就越高,而在频谱的较高频率部分有所减小。
在使用经畸变的预滤波器/后置滤波器时,音频编码器通常采用8至20间的滤波器阶数,采用如48kHz或44.1kHz的常见采样速率[WSKH05]。
在例如室内冲激响应建模[HKS00]和音频信号中噪声分量的参数建模(以Laguerre/Kauz滤波两个等价的名称命名畸变滤波)[SOB03]中,已对畸变滤波的若干其他应用有所说明。
传统上讲,高效的语音编码基于线性预测编码(LPC)对人类声道的共振效应进行建模,同时对残余激励信号进行高效编码[VM06]。LPC和激励参数均由编码器传送至解码器。该原理如图17a和17b所示。
图17a示出了基于线性预测编码的编码/解码系统的编码器端。将语音输入输入至LPC分析器1701,后者在其输出端提供LPC滤波器系数。LPC滤波器1703根据这些LPC滤波器系数加以调节。LPC滤波器输出还可用术语“预测误差信号”表示的频谱白化音频信号。频谱白化音频信号输入至残余/激励编码器1705,产生激励参数。因此,语音输入一方面被编码为激励参数,另一方面,被编码为LPC系数。
在图17b所示的解码器端,激励参数输入激励解码器1707,产生能够输入至LPC逆滤波器的激励信号。用发送的LPC滤波器系统对LPC逆滤波器进行调节。从而,LPC逆滤波器1709产生经重建或者合成的语音输出信号。
随着时间的推移,已提出了大量高效并且在感觉上令人信服的有关残余(激励)信号的表示方法,如多脉冲激励(MPE)、规则脉冲激励(RPE)以及码激励线性预测(CELP)。
线性预测编码试图根据对若干过去值的观察,产生作为过去观察线性组合的当前采样值序列的估计结果。为了减小输入信号中的冗余,编码器LPC滤波器对输入信号的频谱包络进行“白化”,即,编码器LPC滤波器是信号频谱包络的逆模型。反之,解码器LPC滤波器是信号频谱包络的模型。具体而言,已知可以通过全极点近似方法,利用众所周知的自回归(AR)线性预测分析对信号的频谱包络进行建模。
通常,窄带语音编码器(即采用8kHz采样速率的语音编码器)使用阶数在8至12间的LPC滤波器。由于LPC滤波器属性的缘故,将导致在整个频率范围内产生均匀的频率分辨率。然而,这并非对应于感知频标。
值得注意的是,畸变技术所提供的非均匀频率灵敏度还可以为语音编码带来优势,因而已提出用畸变预测分析来代替规则LPC分析,如[TMK94][KTK95]。还可以比如从[HLM99]得知畸变LPC和CELP编码的其他组合。
为了将传统的基于LPC/CELP的编码(对于语音信号具有最佳品质)同传统的基于滤波器组的感知音频编码方法(对于音乐具有最佳品质)加以结合,提出了介于上述架构间的结合编码。在AMR-WB+编码器(BLS05)中,两种编码内核交替地作用于LPC残留信号。其中一编码内核基于ACELP(代数码本激励线性预测),因而对于语音信号的编码极其高效。另一编码内核基于TCX(变换码激励),即类似于传统音频编码技术的、基于滤波器组的编码方法,以便能得到良好的音乐信号品质。根据输入信号的特性,在短时内选择两种编码模式中的一种发送LPC残留信号。采用这种方法,可以将持续时间为80ms的帧分成40或20ms的子帧,在子帧中对两种编码模式进行抉择。
该方法的一种局限在于,该过程基于在对所引入的编码失真的类型而言具有极为不同的特性的两种编码器/编码机制间执行硬切换判决。当从一种模式转换至另一模式时,这一硬切换过程可能导致在感知信号中产生令人难以忍受的中断。举例而言,当语音信号缓慢地平滑转换为音乐信号时(比如在广播节目中的公告之后),可以觉察出转换点。同样,对于以音乐为背景的语音(比如,对于以音乐为背景的公告),硬切换是可以听到的。因而,难以利用该架构获得能够在两种组成编码器特性间平滑转换的编码器。
最近,还提出了一种切换编码的组合,如EP 1873754中所讨论的那样,后者通过将编码器的滤波器在传统LPC模式(适于基于CELP的语音编码)以及同基于预滤波/后滤波的感知音频编码相类似的畸变模式间进行转换的方式,使基于滤波器组的编码内核得以应用于感知加权频标。
如图17c所示,按如下方式,利用具有可变频率畸变的滤波器,就可以构建能够实现高质量语音和音频编码的组合语音/音频编码器:
在独立模块1726中,可以通过分析输入信号,也可以基于用于区分语音信号和音乐信号的现有技术,对所要使用的编码模式(“语音模式”或“音乐模式”)进行决策。因而,判决模块为时变畸变滤波器1722产生关于编码模式/以及相关的最佳畸变因子的判决结果。此外,根据该判决结果,确定出一组合适的适于选定编码模式下输入信号的滤波器系数,即,对于语音编码,进行LPC分析(不采用畸变或采用较低的畸变因子),反之,对于音乐编码,估计掩蔽曲线,并将掩蔽曲线的逆转换为畸变频谱系数。
用具有时变畸变特性的滤波器1722作为公共的编码/解码滤波器,并根据由判决模块产生的编码模式判决结果/畸变因子以及滤波器系数组,将其作用于信号。
根据编码模式,或者用语音编码器内核1724(例如CELP编码器)或者用通用音频编码器内核1726(例如基于滤波器组的编码器,或预测音频编码器),或同时采用两者,对滤波级的输出信号进行编码。
待传输/存储的信息包括:编码模式判决结果(或畸变因子指示)、某种编码形式的滤波器系数以及由语音/激励以及通用音频编码器所传送的信息。
在相应的解码器中,将残余/激励解码器的输出和通用音频解码器的输出加在一起,根据编码模式、畸变因子和滤波器系数,用时变畸变合成滤波器对输出进行滤波。
由于在两种编码模式间进行硬切换判决的缘故,该机制仍受到如前所述的、同CELP/基于滤波器组的切换编码相似的局限。采用该架构,难以获得能够在两种组成编码器特性间平滑转换的编码器。
另一种将语音编码内核同通用的感知音频编码器相结合的方式用于MPEG-4大步长可分级音频编码[Gri97][Her02]。可分级编码的思想在于,提供编码/解码机制和比特流格式,使得能够对完整比特流的子集进行有意义的解码,从而产生质量有所下降的输出信号。如此以来,就可以在不重新对输入信号进行编码的情况下,使传输/解码数据速率适配于即时传输信道的容量。
图18示出了MPEG-4大步长可分级音频编码器的结构[Gri97]。该配置包括:所谓的核心编码器1802以及基于感知音频编码模块1804的若干增强层。核心编码器(通常为窄带语音编码器)以低于随后的增强层的采样率工作。上述组件的可分级组合按以下方式工作:
输入信号经下采样1801,然后由核心编码器1802进行编码。生成的比特流构成了可分级比特流的核心层部分1804。将其进行本地解码1806以及上采样1808,以同感知增强层的采样速率进行匹配,然后通过分析滤波器组(MDCT)1810。
在第二信号路径中,经时延(1812)补偿的输入信号通过分析滤波器组1814,并用于计算残余编码误差信号。
将残留信号通过频率选择开关(FSS)工具1816,后者允许在同对残留信号进行编码相比,对原始信号进行编码效率更高的情况下,根据比例因子频带(scalefactor band)将其变回原始信号。
用AAC编码内核1804对频谱系数进行量化/编码,产生增强层比特流1818。此外还可跟随有对残余编码误差信号进行重新编码的精化级(增强层)。
图19示出了相关的基于核心的可分级解码器的结构。将合成比特流分解1902为独立编码层。然后对核心编码器比特流(即语音编码器比特流)进行解码1904,并通过可选后滤波级表示其输出信号。为了在可分级解码过程中使用核心解码器信号,将其上采样1908为可分级编码器的采样率,对于其他层进行时延补偿1910,并利用编码器分析滤波器组(MDCT)1912进行分解。
然后通过应用AAC无噪解码和逆量化对高层比特流进行解码1916,并对所有有贡献的频谱系数进行求和1918。频率选择开关(FSS)工具1920按照从编码器发来的信号,通过选择两者的和或只选择源自增强层的系数,将频谱系数同来自核心层的贡献进行求和。最终,利用综合滤波器组(IMDCT)1922将结果重新映射为时域表示。
作为一般特征,在该配置中总使用语音编码器(核心编码器)。只有当解码器既可利用比特流的核心层,又可利用一个以上的增强层时,才同时将增强层中的感知音频编码器所产生的结果传送至解码器,从而为非语音/音乐信号提供较高的品质。
因此,该可分级配置总包含含语音编码器在内的活动层,其中语音编码器就对语音和音频信号同时提供最佳总体品质而言,会导致某些缺陷:
如果输入信号主要由语音构成,增强层中的感知音频编码器就要对信号特性或许同常规音频信号存在极大差异的残余/差异信号进行编码,因此难以针对这种编码器进行编码。作为一个示例,残留信号可能还有脉冲性质的分量,因而当用基于滤波器组的感知音频编码器进行编码时将产生预回声(pre-echo)。
如果输入信号并非主要由语音构成,那么通常对残留信号进行编码所需的比特率比对输入信号进行编码所需的比特率要高。在这种情况下,FSS选择用增强层对原始信号而不是残留信号进行编码。因此,核心层并不产生输出信号,并且,由于对整体品质的改进没有帮助,核心层的比特率被白白浪费掉了。换句话说,在上述情况下,如果简单地将全部比特率都仅分配给感知音频编码器,那么结果听起来较差。
在http://www.hitech-projects.com/euprojects/ardor/summary.htm中,对ARDOR(自适应率失真优化音频编码器)编解码器进行了如下所述的说明:
在该项目中,给定所施加的约束以及可用的子编码器,创建以最恰当的信号模型组合对一般音频信号进行编码的编解码器。如图20所示,工作过程可分为三个部分,这三部分与三个编解码器组件相对应。
基于率失真定理的优化机制2004对ARDOR编解码器进行配置,使得其在给定的当前、时变约束以及输入信号类型的条件下达到最高工作效率。为此,基于率失真定理的优化机制控制:一组“子编码”策略2000,其中各种策略能高效地对特定类型的输入信号分量,如音调、噪音或瞬态信号进行编码。为各特定子编码策略分配适当速率和信号分量的依据是:一种为率失真优化机制提供感知标准的、先进新颖的感知失真度量2002。换句话说,基于有关人类听觉系统的最新技术水平知识的感知模型为优化机制提供有关声音的不同成分的感知相关度的信息。该优化算法可以,举例而言,决定忽略与感知无关的信息。因而,虽然无法恢复原始信号,听觉系统却不会感到任何差别。
上述对于若干现有系统的讨论显示出,尚不存在一种一方面能够为一般的音频信号以及语音信号提供最佳品质,另一方面能够为各种信号提供低比特率的最佳编码策略。具体而言,结合图18和图19讨论的、已成为MPEG-4标准的可分级方法不关注音频信号,更具体地说,不关注音频信号的来源,利用语音编码器核心连续地处理整个音频信号。因而,如果音频信号并非类语音信号,核心编码器将引入严重的编码伪信号,因此图18中的频率选择开关工具1816将确保用AAC编码器1804对整个音频信号进行编码。因此,在该实例中,比特流包含无用的语音核心编码器的输出,还包含音频信号的感知编码表示。这不仅导致传输带宽的浪费,还导致很高且无益的功率消耗,如果要在以电池供电因而能源有限的移动设备中实现编码概念,这将成为十分棘手的问题。
一般而言,基于变换的感知编码器在编码时不关注音频信号的来源,这导致感知音频编码器(当采用中等比特率时)能够在不产生过多编码伪信号的情况下,为所有可用信号源产生输出,然而,由于掩蔽阈值无法像在平稳信号中那样有效地进行掩蔽,对于非平稳信号部分,比特率将有所增加。此外,由于瞬态或脉冲状信号分量需要较高的时间分辨率,而无需较高的频率分辨率,因而基于变换的音频编码器中固有的对时间分辨率和频率分辨率的折衷使得该编码系统对瞬态或脉冲状信号分量而言存在问题。
然而,语音编码器是高度取决于源模型的编码概念的一个显著实例。因而,语音编码器类似于语音源的模型,因此可以为从同以编码算法表示的源模型相类似的声源发出的信号提供高效的参数表示。对于源自不符合语音编码器源模型的源的声音,输出将包含严重的伪信号(artifact),或者,如果允许增加比特率,将产生大幅增加的并且远远高于通用音频编码器的比特率的比特率。
发明内容
为解决上述问题,本发明的一个目的在于,提出一种改进的音频编码概念,使之能够同时提供专用编码器概念以及通用编码器概念的优点,并尽可能避免这些编码器的缺陷。
该目的是由依照权利要求1的音频编码器、权利要求24的音频编码方法、权利要求25的用于对经编码的音频信号进行解码的解码器、权利要求32的解码方法、权利要求33的增强型音频信号,或权利要求34的计算机程序来实现的。
本发明基于以下发现:将脉冲同音频信号进行分离能够实现高效且高质量的音频编码概念。通过从音频信号中提取脉冲,一方面产生脉冲音频信号,以及同音频信号相对应的、不含脉冲的残留信号。脉冲音频信号可以用脉冲编码器进行编码,如能够以极低的数据速率对语音信号进行高质量编码的高效语音编码器。另一方面,残留信号独立于其脉冲状部分,主要由原始音频信号的平稳部分构成。这种信号非常适于诸如通用音频编码器、优选情况下基于变换的感知控制音频编码器的信号编码器。输出接口输出经编码的脉冲状信号和经编码的残留信号。由于经编码的残留信号或经编码的脉冲状信号可能处于无法有效单独使用的特殊情况,因此输出接口可采用任意可用格式而未必采用可分级格式输出这两个编码的信号。只有这两个信号在一起才能提供高质量的音频信号。
然而,另一方面,如果优选情况下采用诸如CELP或ACELP等能对其比特率严格加以控制的固定速率脉冲编码器,则可以在极大程度上对这个经合并的编码音频信号的比特率加以控制。另一方面,例如当使用MP3或MP4编码器实现音频编码器时,可以对信号编码器进行控制,使其即使执行固有地将输出可变比特率的感知编码操作,也能根据MP3或MP4编码器技术中比特池(bitreservoir)的实现而输出固定比特率。这样做可以确保编码输出信号的比特率保持不变。
由于残余音频信号不再含有难于处理的脉冲状部分,该残留信号极其适于信号编码器,因此经编码的残留信号的比特率将会较低。
另一方面,由于向脉冲编码器馈入的是经特别成形的从音频信号中选出的同脉冲编码器声源模型完全匹配的信号,因此脉冲编码器将提供优质高效操作。因此,如果脉冲提取器无法找到音频信号中的脉冲部分,那么脉冲编码器将处于非活动状态,且不会试图对根本不适合用脉冲编码器进行编码的任何信号部分进行编码。有鉴于此,脉冲编码器也不会提供经编码的脉冲信号,并且也不会对脉冲编码器需要较高比特率或脉冲编码器无法提供具有令人满意的质量的输出信号的信号部分贡献输出比特率。特别地,对于移动应用而言,在这种情况下,脉冲编码器也无需消耗任何能量资源。因此,当音频信号包含脉冲状部分,且脉冲提取器所提取出的脉冲状部分完全符合脉冲编码器的期望形式时,脉冲编码器才变为激活状态。
因此,将音频信号分配至两种不同的编码算法将导致组合编码操作,组合编码操作特别有用,其原因在于,信号编码器始终处于激活状态,脉冲编码器充当后备(fallback)模块,只在信号确实包含脉冲状部分的情况下才处于激活状态、产生输出比特并消耗能量。
优选情况下,脉冲编码器适于有利地对现有技术的脉冲的序列(亦称之为“脉冲序列”)进行编码。上述“脉冲”或者“脉冲序列”是通过对人类声道进行建模的方式而获得的典型模式。脉冲序列中的相邻脉冲间存在一定的时间距离。这种时间距离称为“基音迟滞(pitch lag)”,该值同“基音频率(pitchfrequency)”相对应。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1是依照本发明实施例的音频编码器的方框图;
图2是用于对编码的音频信号进行解码的解码器的方框图;
图3a示出了开环实施例;
图3b示出了解码器的具体实施例;
图4a示出了编码器端的另一开环实施例;
图4b示出了编码器端的闭环实施例;
图4c示出了一实施例,其中脉冲提取器和脉冲编码器在修改的ACELP编码器中实现;
图5a示出了作为脉冲状信号部分的时域语音部分的波形;
图5b示出了图5a部分的频谱;
图5c示出了作为平稳部分的示例的清音(unvoiced)语音的时域语音部分;
图5d示出了图5c的时域波形的频谱;
图6示出了综合分析CELP编码器的方框图;
图7a至7d示出了作为脉冲状和平稳信号示例的浊音(voiced)语音/清音语音激励信号;
图7e示出了提供短期预测信息以及预测误差信号的编码器端LPC级;
图8示出了图4a的开环实施例的优选实施例;
图9a示出了实际脉冲状信号的波形;
图9b示出了由图8的脉冲特性增强级产生的增强型或更加理想的脉冲状信号;
图10示出了可实现于图4c实施例中的修改的CELP算法;
图11示出了图10算法的更为具体的实现;
图12示出了图11算法的具体实现;
图13示出了实现于图4c中的另一个修改的CELP算法;
图14示出了显示信号解码器连续工作以及脉冲编码器间歇工作的工作模式;
图15示出了信号编码器包含心理声学模型的编码器实施例;
图16a示出了MP3或MP4编码/解码概念;
图16b示出了预滤波编码概念;
图16c示出了后滤波解码概念;
图17a示出了LPC编码器;
图17b示出了LPC解码器;
图17c示出了用动态可变畸变LPC滤波器实现切换编码的编码器;
图18示出了MEPG-4可分级编码器;
图19示出了MEPG-4可分级解码器;以及
图20示出了ARDOR编码器的示意图。
具体实施方式
以下实施例的优势在于,提出了一种对感知音频编码器进行扩展,使其不但可以最佳品质对一般的音频信号进行编码,极大程度地改进了语音信号编码质量的统一方法。此外,以下实施例还能避免如前所述的、同音频编码模式(例如基于滤波器组)和语音编码模式(例如基于CELP方法)间进行硬切换有关的问题。作为替代,以下实施例支持编码模式以及工具的平滑/连续合并操作,并以这种方式实现针对混合信号的更加柔和的转换/混合。
以下考虑因素构成了以下实施例的基础:
一般采用滤波器组的感知音频编码器非常适合表示在频率上具有十分精细的结构、而在时域上极其平稳的信号。利用基于滤波器组的编码器对瞬态或脉冲状信号进行编码将导致时域编码失真的拖尾效应(smearing),进而会产生预回声伪信号。
语音信号的一个重要组成部分包括由人类声门(glottis)以某一基音频率在发出浊音语音时产生的脉冲序列。因而,很难以低比特率用基于滤波器组的感知音频编码器对这些脉冲序列结构进行编码。
因此,为了用基于滤波器的编码系统获得最佳信号品质,最好将编码器输入信号分解为脉冲状结构以及其他更平稳的分量。脉冲状结构可以用专门的编码内核(以下称脉冲编码器)进行编码,而其他残余分量可以用普通的基于滤波器组的感知音频编码器(以下称残余编码器)进行编码。优选情况下,脉冲编码器由传统语音编码方案中的功能模块,如LPC滤波器、关于脉冲位置的信息等构建而成,并且可以采用诸如激励码本、CELP等技术。可以对编码器输入信号进行分离,使得满足两个条件:
(条件#1)用于脉冲编码器输入的脉冲状信号的特征:由于脉冲编码器专门为发送脉冲结构进行了优化,而没有对平稳(或者甚至音调)信号分量进行优化,因此,优选情况下,为避免产生非期望失真,输入至脉冲编码器的信号只包含脉冲状结构。换句话说,将类音调信号分量馈入脉冲编码器将导致基于滤波器组的编码器不易补偿的失真。
(条件#2)残余编码器所用的时域平滑脉冲编码器残余:优选情况下,产生由残余编码器进行编码的残留信号,使得输入信号经分离后,残留信号在时域上甚至在脉冲编码器对脉冲进行编码的时刻是平稳的。具体而言,优选情况下,残余的时间包络中不产生“凹口(hole)”。
同上述切换编码方案相反,在需要时,通过令编码器(脉冲编码器以及残余编码器)及其相应解码器并行工作(即同时)的方式,实现脉冲编码和残余编码之间的连续组合。具体而言,在优选工作方式下,残余编码器总处于工作状态,而只有在认为脉冲编码器的工作能够产生有益效果的情况下才启动脉冲编码器。
所提出的概念的一部分是将输入信号分成最适合各个部分编码器(脉冲编码器以及残余编码器)特点的部分输入信号,从而达到最佳的整体性能。在以下优选实施例中,做出以下假设。
一个部分编码器是基于滤波器组的音频编码器(类似于普通的感知音频编码器)。因此,该部分编码器非常适于处理平稳和音调音频信号(在频谱图表示中对应于“水平结构”),而不适于处理时域上包含大量非平稳部分,如瞬态信号、起始信号或脉冲(在频谱图表示中对应于“垂直结构”)的音频信号。试图以基于滤波器组的编码对这类信号进行编码将导致输出信号出现时域拖尾效应、预回声以及混响(reverberant)特性。
第二个部分编码器是工作于时域内的脉冲编码器。因此,这个部分编码器非常适于处理时域上包含大量非平稳部分,如瞬态信号、起始信号或脉冲(在频谱图表示中对应于“垂直结构”)的音频信号,而不适于处理平稳和音调音频信号(在频谱图表示中对应于“水平结构”)。由于基本稀疏(underlying sparse)时域表示的缘故,试图以时域脉冲编码器对这类信号进行编码将导致音调信号分量失真或者刺耳的音质。
(如果脉冲编码器和基于滤波器组的编码器同时有效),对基于滤波器组的音频解码器和时域脉冲解码器的解码输出进行相加,从而产生完整的解码信号。
图1示出了用于对含有脉冲状部分以及平稳部分的音频信号8进行编码的音频编码器。一般而言,可以利用对脉冲状特性以及类平稳特性进行测量的信号处理操作来区分音频信号的脉冲状部分以及平稳信号的平稳部分。举例而言,可以通过分析音频信号波形的方式实现这种测量。为此,可以执行任何基于变换的处理或LPC处理或者其他处理。一种凭直觉想到的用于确定一个部分是不是脉冲状部分的方法是,比如,对时域波形进行观察,并判断该时域波形是否具有周期或非周期峰值,其中周期性峰值甚至更加适合于类语音编码器。
典型地,参考图5a至5d。此处,将脉冲状信号片段或信号部分和平稳信号片段或信号部分作为范例予以讨论。具体而言,将如图5a和图5b所示的时域和频域中的浊音语音作为脉冲状信号部分的实例予以讨论,并结合图5c和图5d将清音语音片段作为平稳信号部分的实例予以讨论。通常可以将语音分成浊音、清音或混音。图5a至5d示出了经采样的浊音和清音片段的时频域(time-and-frequency domain)曲线。浊音语音在时域内内是准周期的,在频域内具有谐波结构,相反清音是接近随机的宽带语音。此外,浊音片段的能量通常比清音片段的能量要高。浊音片段的短时频谱的特征在于其精细的共振峰(formant)结构。这种精细的谐波结构是语音的准周期性所造成的,因而可归结为由震动声带产生的结果。共振峰结构(频谱包络)是声源和声道相互作用的结果。声道由咽喉和口腔构成。同浊音语音的短时频谱“相适合”的频谱包络的形状与声道传输特性及由声门脉冲造成的频谱倾斜(6dB/八度音阶)相关联。频谱包络的特征在于一组被称作共振峰的峰值。共振峰是声道的谐振模式。对于普通声道,在5kHz以下存在三至五个共振峰。通常位于3kHz以下的前三个共振峰的幅度和位置对于语音合成以及语音感知极为重要。对于宽带和清音语音的表示,较高的共振峰也十分重要。如下所述,语音的特性同物理语音发生系统有关。浊音语音是通过用震动声带所产生的准周期声门气脉冲激励声道而产生的。周期脉冲的频率称为基频。清音语音是通过迫使空气穿过声道内的收缩处(constriction)而产生的。鼻音是由鼻腔至声道的声音耦合产生的,爆破音是通过突然释放声道闭合后所形成的声压的方式产生的。
因此,由于时域中平稳部分并未出现明显的重复脉冲,音频信号的平稳部分可以是同比如图5a所示的脉冲状部分相异的、由图5c所示的时域内的平稳部分或频域内的平稳部分。然而,正如稍后将予以概述的那样,还可以采用对声道以及声道激励进行建模的LPC方法来区分平稳部分以及脉冲状部分。如果考虑信号的频域表示,将发现脉冲状信号具有十分显著的独立共振峰,即图5b中主峰,而平稳频谱是如图5d所示的极白的频谱,或者对于谐波信号而言,是含有表示特定音调的主峰的连续背景噪声,该特定音调例如存在于音乐信号中、但彼此之间不具有像图5b中脉冲状信号那样的有规律的间隔。
此外,脉冲状部分和平稳部分还可以适时地出现,即,这意味着时域内音频信号的某一部分是平稳的,而时域内音频信号的另一部分是脉冲状的。备选地或额外地,不同频带内的信号特性可能有所不同。因而,还可以频率选择性地对音频信号是平稳的还是脉冲状的做出判断,从而将特定频带或若干频带看成是平稳的,而将其他频带当作是脉冲状的。在这种情况下,音频信号的特定时段可能既包含脉冲状部分又包含平稳部分。
图1编码器实施例包括脉冲提取器10,用于从音频信号中提取脉冲状部分。脉冲提取器10包括脉冲编码器,用于对脉冲状部分进行编码,以获得编码的脉冲状信号。正如稍后将予以说明的那样,脉冲提取和实际编码操作既可以彼此分离,也可以合并在一起,从而得到结合图4c予以讨论的其修改形式中的单一算法,如ACELP算法。
脉冲提取器10的输出是编码的脉冲信号12,在某些实施例中,还输出与脉冲提取类型或脉冲编码类型有关的附加辅助信息(side information)。
图1编码器实施例还包括信号编码器16,用于对由音频信号8导出的残留信号18进行编码,以获取经编码的残留信号20。具体而言,由音频信号8导出残留信号18,使音频信号中的脉冲状部分得以减小,或从音频信号中彻底消除。然而,由于脉冲提取器10尚未提取平稳部分,音频信号仍包含平稳部分。
此外,所发明的音频编码器包括输出接口22,用于输出经编码的脉冲信号12、经编码的残留信号20以及(如可用)辅助信息14,从而获得经编码的音频信号24。输出接口22不一定是产生可分级数据流的可分级数据流接口,可分级数据流的写入方式使得可以彼此独立地对经编码的残留信号和经编码的脉冲信号进行解码,以便获得有用信号。由于经编码的脉冲信号和经编码的残留信号均非具有令人可以接受的音频质量的音频信号,因此在优选实施例中,仅呈现一种信号而不呈现另一种信号不具任何意义。因此,输出接口22可以采用完全的比特有效的工作方式,而不必担心数据流,及是否可以可分级方式对数据流进行解码。
在优选实施例中,本发明的音频解码器包含残留信号发生器26。残留信号发生器26适于接收音频信号8以及与提取出的脉冲信号部分有关的信息28,还适于输出不含提取出的信号部分的残留信号18。根据具体实现,残留信号发生器26或信号编码器16还可以输出辅助信息。然而,由于在特定配置下,可以对解码器进行预置,并且只要编码器根据这些配置工作,本发明的编码器就不需产生并发送任何附加辅助信息,因此辅助信息14的输出以及传输并不是必需的。然而,假如编码器端以及解码器端存在特定的灵活性,或者假如残留信号发生器的特定操作并非纯粹的减法,那么向解码器发送辅助信息或许十分有用,这时,解码器,更具体地说,解码器内的合并器,就可以忽略编码器端引入的解码后的残留信号的某些部分,仅仅产生不带任何凹口的平滑的非脉冲状残留信号。
图2示出了用于对经编码的音频信号24进行解码的优选解码器实施例,其中经编码的音频信号与输出接口22输出的信号相同。一般而言,经编码的音频信号24包含:经编码的脉冲状信号以及经编码的残留信号。解码器可以包含解码器输入接口28,用于从经编码的音频信号24中提取经编码的脉冲信号12、经编码的残留信号20以及辅助信息14。将经编码的脉冲信号12输入利用解码算法对经编码的脉冲信号进行解码的脉冲解码器30,其中解码算法适用于产生经编码的脉冲状信号所用的编码算法,即图12的方框10中所采用的编码算法。图2中的解码器还包含:信号解码器32,用于利用适用于产生经编码的残留信号所用的编码算法,即图1的方框16中所采用的编码算法的解码算法,对经编码的残留信号进行解码。将解码器30和32的输出信号传送至信号合并器34的输入,该信号合并器34用于对经解码的脉冲状信号和经解码的残留信号加以合并,以提供解码的输出信号36。具体而言,信号解码器32和脉冲解码器30有效提供与解码的音频信号的同一时刻有关的解码的音频信号输出值的选定部分。
下面将结合图14对该特征予以讨论。图14示意性地示出了位于140的信号解码器32的输出。如图14所示,信号解码器的输出140是连续的。这意味着,只要存在音频信号,信号解码器(以及相应的信号编码器)就连续工作并且始终提供输出信号。自然,只有当音频轨迹(track)结束,不再有需要编码的输入信号时,信号解码器才会同时停止输出。
图14中的第二行示出了脉冲解码器输出142。具体而言,如图14所描绘的那样,由于原始音频信号在时段143中不含任何平稳分量,因此在时段143中不存在脉冲解码器输出。然而,在其他时段中,信号具有平稳分量和/或脉冲状分量,且脉冲状分量由脉冲解码器输出产生。因此,在时段142中,两个解码器均提供关于解码信号的同一时刻的输出值。然而,在时段143中,输出信号只包括残留信号解码器输出,而不包含任何脉冲解码器所产生的信号。
图3a示出了采用所谓开环配置的编码器的优选实施例。脉冲提取器10包括通用脉冲提取器,用于产生示于线40上的非编码脉冲信号。脉冲提取器示于10a。脉冲信号40传送至脉冲编码器10b,后者最终输出经编码的脉冲信号12。线28上的脉冲信号的信息对应于脉冲提取器10a所提取出的非编码脉冲信号。图3a中的残留信号发生器26是用减法器予以实现的,后者用于从音频信号10中减去线28上的非编码脉冲信号,从而获得残留信号18。
由于基于滤波器组的音频编码器特别适用于对不再含有任何脉冲状部分、或其中脉冲状部分相对于原始音频信号8至少有所衰减的残留信号进行编码,因而在优选情况下,用基于滤波器组的音频编码器实现信号编码器16。因此,将信号送入设计用于在其输出端提供部分解码器输入信号的第一处理级10a。具体地,分离算法有效地在线40和线18上产生满足前述条件1(脉冲编码器接收脉冲状信号)和条件2(残余解码器所用的残留信号被时域平滑)的输出信号。因此,如图3a所示,脉冲提取模块10a从音频输入信号8中提取脉冲信号。
残留信号18通过删除音频输入中脉冲信号的方式产生。这种删除可以通过如图3a所示的减法操作予以实现,然而也可以利用其他方式,比如用可以通过时变缩放或在脉冲状区域的左右区域间进行内插的方式,由原始音频信号8导出的非脉冲状(“平坦”)信号来替换音频信号脉冲状区域的方式予以实现。在随后的平行编码级10b、16中,用专用脉冲编码器10b对脉冲信号(如存在)进行编码,并在优选情况下,用基于滤波器组的音频编码器16对残留信号进行编码。
在另一优选实施例中,其中音频信号的某个时段被检测为脉冲状,单纯将检测到的脉冲状音频信号时段切除(cut out)的操作以及仅以脉冲编码器对该时段进行编码,将导致信号编码器所用的残留信号带有凹口。为了避免产生这种信号编码器难于处理的非连续性凹口,需要合成将被引入“凹口”的信号。正如稍后将予以讨论的那样,该信号可以是内插信号或原始信号的加权版本或具有特定能量的噪声信号。
在一实施例中,从脉冲状“切除”信号部分减去该内插/合成信号,从而只将该减法运算的结果(结果也是脉冲状信号)传送至脉冲编码器。该实施例将确保-在解码器端-可以将残余编码器的输出同脉冲解码器的输出加以合并,以获得解码信号。在该实施例中,始终使用由两个输出解码器获得的全部信号,并合并以获得输出信号,而且不会丢弃两解码器中任一解码器的输出。
下面,讨论除减法以外残留信号发生器26的其他实施例。
如前所述,可以对音频信号进行时变缩放。具体而言,一检测到音频信号的脉冲状部分,就可以利用缩放因子值小于0.5,或者甚至小于0.1的缩放因子对音频信号的时域采样进行缩放。这会导致在音频信号呈脉冲状的时段内残留信号能量减小。然而,同仅仅将该脉冲状时段内的原始音频信号设置为0相反,残留信号发生器26可以确保残留信号不带任何前已提及的基于滤波器组的音频编码器16极难处理的非平稳的“凹口”。另一方面,解码器端可能不会使用或很小程度上使用在脉冲状时段内由原始音频信号同一个很小的缩放因子相乘得到的编码的残留信号。这一事实可以特定的附加辅助信息14来表示。因此,由这种残留信号发生器产生的辅助信息比特可以指示,用多大的缩放因子缩减音频信号中的脉冲状部分,或者在解码器端对单独部分进行解码后,使用多大的缩放因子来正确地组装原始音频信号。
另一种产生残留信号的方法是切除原始音频信号的脉冲状部分,并利用脉冲状部分起始或终止处的音频信号对切除部分进行内插,从而提供不再是脉冲状的连续音频信号。这种内插还可表示为通常提供关于脉冲编码、信号编码或残留信号发生特性的特定辅助信息比特14。在解码器端,合并器能够彻底删除,或至少在一定程度上衰减内插部分的解码表示。具体程度或指示可由特定辅助信息14予以表示。
此外,优选情况下,以渐入渐出(fade in;fade out)方式提供残留信号。因而,不应将时变缩放因子突然设置为小的值,而应不断缩小时变缩放因子,使其最终成为小的值,并且在脉冲状部分的终止处或终止处附近应将小的缩放因子逐渐增大至常规模式下的缩放因子,即增至不具脉冲状特性的音频信号部分所使用的小的缩放因子1。
图3b示出了与图3a中的编码器相对应的解码器,其中用基于滤波器组的音频解码器实现图2的信号解码器32,并用逐采样求和器实现信号合并器34。
或者,假设脉冲解码器30和基于滤波器组的音频解码器32提供频域或子频带域中的输出信号,那么还可以在频域或子频带域内用信号合并器34执行合并。
此外,合并器34并不一定必需执行逐采样求和,相反,还可以用诸如结合图1、2和3a所讨论的辅助信息14等辅助信息来控制合并器,以便应用时变缩放操作,以补偿编码器端的渐入渐出操作,并对已产生于编码器端的信号部分进行处理,利用比如插入、内插或时变缩放的方法使残留信号平坦化。如果残留信号发生器26有效地执行了如图3a所示的逐比特减法运算,那么解码端合并器34将不需要任何附加辅助信息,因此执行逐采样相加,不执行任何附加处理步骤,如衰减、渐出或信号缩放。
对于浊音语音信号,由人类声道对激励信号、即声门脉冲进行滤波,LPC滤波器可以对浊音语音信号进行反转。因此,如图4a所示,针对声门脉冲的脉冲提取通常可以包括:实际脉冲提取级之前的LPC分析,以及计算残留信号之前的LPC综合,另外这是开环实现的。
具体而言,音频信号8输入至LPC分析方框10a。LPC分析方框10a产生如图9a所示的实际的脉冲状信号。该信号输入脉冲提取级10c,后者对如图9a所示的实际的脉冲状信号进行处理,以便输出理想的或至少比脉冲提取级10c输入端的实际脉冲状信号更理想的脉冲状信号。接着,将该脉冲信号输入脉冲编码器10b。由于脉冲编码器10b特别适用于这种脉冲状信号,并且由于线48上的输入脉冲信号是理想或近似理想的脉冲信号,因此脉冲编码器10b能够提供输入脉冲状信号的高质量表示。在图4a的实施例中,将与图1中“脉冲信号的信息”相对应的、线48上的脉冲信号输入至LPC综合方框26b,从而将存在于“LPC域”中的理想脉冲状信号“变换”回时域。继而,将LPC综合方框26b的输出输入至减法器26a,以产生残留信号18,该信号是不再含有线48或28上的理想脉冲信号所表示的脉冲结构的原始音频信号。因此,图1中残留信号发生器26在图4中是由LPC综合方框26b和减法器26a予以实现的。
下面将参考图7a至7e、图8以及图9a至9b,更加详细地对LPC分析10a和LPC综合26b的功能予以讨论。
图7a示出了线性语音发生系统的模型。该系统采用两级激励,即如图7a所示的用于浊音语音的脉冲序列,以及如图7d所示的用于清音语音的随机噪声。将声道建模成用于对由声门模型72产生的图7c或图7d的脉冲进行处理的全极点变换滤波器70。全极点传输函数可由表示共振峰的少量双极点谐振器级联而成。声门模型72可表示为双极点低通滤波器,唇端辐射模型74表示为L(z)=1-z-1。最后,还包含一个频谱校正因子76,用以补偿较高极点的低频效应。在个体语音表示中,可以省略频谱校正,并且本质上唇端辐射函数的0点可以被声门极点之一所抵消。因此,图7a的系统可简化为包含增益级77、前向通道78、反馈通道79以及求和级80在内的图7b的全极点模型。反馈通道79中包含预测滤波器81,因而如图7b所示的整个声源系统合成模型可用以下z域函数予以表示:
S(z)=g/(1-A(z))·X(z)
其中,g表示增益,A(z)是由LPC分析确定的预测滤波器,X(z)是激励信号,S(z)是合成语音输出。
图7c和7d给出了采用线性声源系统模型的浊音和清音语音合成的图形化时域描述。该系统以及以上等式中的参数是未知的,必需根据一组有限的语音采样予以确定。A(z)的系数是通过线性预测方式获得的。在p阶前向线性预测器中,语音序列的当前采样是根据t个过去采样的线性组合预测得到的。预测器系数可以用诸如Levinson-Durbin算法的公知算法,或常用的自动校正法或反射法予以确定。
图7e示出了图4a的LPC分析方框10a的更为详细的实现。音频信号输入至用于确定滤波器信息A(z)的滤波器确定方框。将该信息作为解码器所需的短期预测信息输出。在图4a的实施例中,即脉冲编码器输出信号可能需要短期预测信息。然而,如果仅仅需要线84上的预测误差信号,则不必输出短期预测信息。然而,实际预测滤波器85需要短期预测信息。在减法器86中,输入音频信号的当前采样,并减去当前采样的预测值,从而在线84上获得该采样的预测误差信号。图9a以极为示意性的方式示出了这种预测误差信号采样的序列,其中为清楚起见,未示出任何有关AC/DC分量等的问题。因此,可将图9a看作一种经修正的脉冲状信号。
下面将对图8进行更详尽地讨论。图8同图4a十分相似,然而更详细地示出了方框10a和方框26b。此外,还讨论了脉冲特征增强级10c的一般功能。图8中的LPC分析级10a可以按如图7e详细示出的方式予以实现,其中短期预测信息A(z)输入至综合级26b,并且此处预测误差信号即“实际脉冲状信号”在线84上输出。如果假设信号是混合信号,即包含语音分量和其他分量,则可以将实际脉冲状信号看作图7c和7d中激励信号的叠加,后者的修正表示形式与图9a对应。可以观察到实际脉冲状信号还含有平稳分量。利用脉冲特征增强级将这些平稳分量删除,在其输出端提供比如类似于图9b的信号。备选地,方框10c输出的信号可以是单纯的脉冲提取结果,即从图9a的信号中提取出的起始于峰值左侧的某些采样并终止于峰值右侧某些采样的脉冲,其中图9a中信号的峰值间的信号采样被彻底丢弃。这将意味着方框10c将产生同图7c所示信号相似的信号,而两者的区别仅在于所产生的脉冲不是理想的DIRAC脉冲,而具有特定的脉冲宽度。此外,脉冲特征增强级10c能有效地对峰值进行处理,使各峰值具有与图9b所示的相同的高度和形状。
方框10c所产生的信号非常适合脉冲编码器10b,脉冲编码器将提供仅仅需要少量比特的编码表示,该表示是不存在或只存在极小数量的量化误差的理想脉冲状信号表示。
图8中的LPC综合级26b可采用同图7b中具有单位增益或非单位增益的全极点模型完全相同的方式予以实现,从而实现方框26b中所示的传输函数,以便在方框10c的输出端得到时域内的理想脉冲状信号表示,从而在方框26a中执行诸如减法等逐采样合并。如此一来,方框26a的输出将为残留信号,理想情况下,该残留信号只包含音频信号的平稳部分,不再包含音频信号的脉冲状部分。在方框10c中执行诸如峰值提取等脉冲特征增强操作所引入的任何信息损失都不存在问题,其原因在于,在残留信号中考虑到了这一“误差”,因而这部分信息并未丢失。然而,重要的是,级10c所提取的脉冲位置准确地表示出音频信号8中的脉冲位置,因而当在方框26a中进行合并,特别是当利用减法进行合并时,由于方框26a的合并操作的缘故,原始音频信号8中的脉冲已被删除,因而不会产生两个彼此紧邻的脉冲,而会产生不含任何脉冲的信号。
该特征是所谓“开环实施例”的优点,但可能是图4b所示的所谓“闭环实施例”的缺点。图4b与图4a的差异在于,脉冲编码器输出信号输入至脉冲解码器26c,后者是图1的残留信号发生器26的一部分。如果脉冲编码器10b对脉冲位置引入量化误差,且脉冲解码器26c的操作未对这些误差进行补偿,那么方框26a中的减法操作将产生不仅含有音频信号中的原始脉冲,还含有位于这些原始脉冲附近的、由减法操作引入的附加脉冲的残留信号。为了避免这种情况,合并器26不仅执行逐采样减法,而且可以对脉冲解码器26c的输出信号加以分析,以实现同步的减法。
可将“闭环”操作看作级联的分离操作。两个部分编码器中的一个(优选是脉冲编码器)调整用于接受输入信号的适当部分(优选是声门脉冲)。然而,将由原始信号同来自第一部分编码器的解码信号间的差异信号构成的残留信号馈入另一部分编码器16。首先对脉冲信号进行编码和解码,并从音频输入中减去量化后的输出,从而以闭环方式产生由基于滤波器组的音频编码器进行编码的残留信号。
作为一个示例,可以将稍后将予以讨论的CELP或ACELP编码器用作图4c所示的高效脉冲编码器。然而,优选情况下,对CELP或ACELP的常规工作方式进行改变,使编码器只对输入信号的脉冲部分进行建模,而不试图对音调或极其平稳信号分量进行建模。换句话说,一旦花费若干脉冲用以对脉冲信号部分进行建模,那么分配更多的脉冲对信号其他部分进行建模就适得其反,并且将导致整个输出信号质量下降。因此,一旦对实际出现的全部脉冲进行了建模,例如如图10中1000所示的适当的预处理器或控制器就终止脉冲分配过程。
此外,优选情况下,构建从脉冲编码器输出信号中移除后的残留信号,使得其在时域内十分平坦,以满足条件2,从而适于用图4c的基于滤波器组的编码器16进行编码。
如此,图4c示出了该方法,其中经修改的ACELP编码器10同时用作脉冲提取器和脉冲编码器。另外,虽然图1的残留信号发生器26是利用减法26a将脉冲状部分从音频信号中删除,然而还可以采用如前所述的诸如平坦化或内插等方法。
在图4b闭环实现中,信号首先被分离为脉冲信号和残留信号,然后对两个信号部分单独进行编码,另外图4b的闭环实现涉及有损编码,即脉冲编码器和基于滤波器组的音频编码器内的量化,其缺陷在于,必需分别对两个编码器的量化误差加以控制,并分别使两个编码器量化误差的感知差异达到最小。这是由于两个量化误差在解码器输出端相加。
然而,开环实现的优势在于,脉冲提取级可以产生不因量化误差导致失真的、干净的脉冲信号。因而脉冲编码器中的量化不影响残留信号。
然而,可以将两种实现加以混合,从而实现一种混合模式。因此,可以同时实现开环方式和闭环方式中的组件。
高效脉冲编码器通常对脉冲的各个数值以及位置进行量化。混合开/闭环模式的一种选项是,使用量化脉冲值和精确的/未经量化的脉冲位置来计算残留信号。然后,以开环方式对脉冲位置进行量化。备选地,可以采用迭代CELP综合分析过程检测脉冲状信号,然而,实现了一种用于对脉冲信号进行实际编码的、以极小的量化误差对脉冲位置进行量化或者不对脉冲位置进行量化的专用编码工具。
下面将结合图6对综合分析CELP编码器予以讨论,以对如图10至13所示的应用于这种算法的修改予以说明。“Speech Coding:A Tutorial Review”,Andreas Spanias,IEEE会议记录,第82卷,第10期,1994年10月,第1541-1582页中讨论了这个CELP编码器。图6所示的CELP编码器包括长期预测组件60以及短期预测组件62。此外,使用了64所指示的码本。感知加权滤波器W(z)实现于66,误差最小化控制器实现于68。s(n)是例如由LPC分析级10a产生的激励信号。该信号还可称为如图7e中的线84上所示的“预测误差信号”。将经感知加权的加权预测误差信号输入至减法器69,由减法器69计算方框66输出端的合成信号同实际加权预测误差信号s(w)(n)间的误差。一般情况下,用如图7e所示的LPC分析级计算短期预测A(z),并根据该信息计算包括长期预测增益g在内的长期预测信息AL(z)以及量化索引,即码本参考。CELP算法利用比如高斯序列的码本对激励进行编码。ACELP算法,其中“A”代表“代数”,采用以代数方法特别设计而成的码本。
码本可以包含长度为某些采样的若干向量。增益因子g对激励向量进行缩放,然后由长期合成滤波器和短期合成滤波器对激励采样进行滤波。选出使感知加权均方误差达到最小的“最佳”向量。根据图6所示的综合分析方案,CELP中的搜索过程显而易见。
下面将结合图10对典型的ACELP算法予以说明,此外图10还示出了依照结合图4c予以讨论的本发明实施例所做出的修改。
出版物“A simulation tool for introducing Algebraic CELP(ACELP)codingconcepts in a DSP course”,教育前沿大会,波士顿,马萨诸塞州,2002年,Venkatraman Atti和Andreas Spanias,说明了一种用于在大学课程中介绍码激励线性预测(CELP)编码概念的教学工具。基本的ACELP算法包含若干级,具体包括:预处理和LPC分析级1000、开环基音(pitch)分析级1002、闭环基音分析级1004以及代数(固定)码本搜索级1006。
在预处理和LPC分析级,对输入信号进行高通滤波以及缩放。用截止频率为140Hz的二阶零极点滤波器进行高通滤波。为了减小定点实现溢出的可能性,执行缩放操作。然后,用30ms(240个采样)的非对称窗对经过预处理的信号进行加窗。同时使其产生一定程度的重叠。然后,利用Levinson-Durbin算法,根据与经加窗处理后的语音相对应的自相关系数计算线性预测系数。将LP系数转换为稍后将予以量化和发送的线谱对。Levinson-Durbin算法还输出反射系数,后者用于开环基音分析方框,开环基音分析方框用于通过搜索加权语音信号自相关最大值并读取最大值位置处的时延而计算开环基音Top。根据此开环基音,闭环基音搜索级1004对Top附近的小范围内的采样加以搜索,最终输出高度精确的基音时延和长期预测增益。该长期预测增益还用于代数固定码本搜索,并最终作为量化增益值和其他参数信息一同输出。代数码本由一组交织排列的含有极少非零元素的码字构成,具有特定的码本结构,其中脉冲位置、脉冲数量、交织深度以及用于描述脉冲位置的比特数均被引用。搜索码本向量是通过将选定数量的单位脉冲置于找到的位置,并同其符号相乘予以确定的。根据码本向量,执行特定优化操作,从全部可用码向量中选择最合适的码向量。然后,对从最合适的码向量中得到的脉冲位置以及脉冲时间进行编码,并将其同量化增益值一起作为参数编码信息而发送。
ACELP输出信号的数据速率取决于分配脉冲的数量。对于少量脉冲,如单个脉冲而言,获得低比特率。对于较多的脉冲,比特率可以从7.4kb/s增至五个脉冲所对应的8.6kb/s的结果比特率,直至十个脉冲所对应的12.6kb/s的比特率。
依照图4c所讨论的本发明的优选实施例,经修改的ACELP编码器10包含脉冲数量控制级1000。具体而言,脉冲数量控制级对闭环基音分析输出的LTP增益进行测量,如果LTP增益过低,就进行脉冲数量控制。较低的LTP增益说明,经实际处理得到的信号并不十分像是脉冲序列,而较高的LTP增益说明,实际信号是脉冲序列状的,因此非常适于ACELP编码器。
图11示出了图10中方框1000的优选实现。具体而言,方框1010判定LTP增益是否大于预先确定的LTP增益阈值。倘若如此,就在1011处判定信号是脉冲状的。继而如1012所示,使用预先确定的或固有的脉冲数量。因此,采用直接的(straightforward)脉冲设定或ACELP编码算法的直接的脉冲数量控制,而不进行任何修改,然而如方框1013所示,需要根据过去的信息将该编码器所引入的脉冲位置变化部分地或完全限定于周期栅格,以确保消除闭环实施例的缺陷。具体而言,如果长期预测器(LTP)增益较高,即信号是周期性的且在过去帧中存在脉冲,即信号是脉冲状的,就通过将可能的脉冲位置限定于由过去的脉冲位置和LTP延迟所确定的周期栅格的方式,利用代数码本改善脉冲形状。具体而言,如方框1011所示,对于该模式而言,由代数码本设置的脉冲数量可以保持不变。
如方框1014所示,如判定长期预测器(LTP)增益较低,如方框1015所示,将在码本优化中改变脉冲数量。具体而言,对代数码本进行控制,允许其在放置脉冲时能够达到如下效果:使剩余残余能量最小,且脉冲位置形成周期大小等于LTP延迟的周期脉冲序列。然而,当能量差低于特定阈值时就停止该过程,从而导致代数码本中的脉冲数量是变化的。
下面,为了提供结合方框1015予以说明的脉冲数量变化的优选实施例,对图12加以讨论。起初,如1016所示,用少量脉冲,如单个脉冲进行优化。然后,如1017所示,以上述少量脉冲进行优化。在方框1018中计算最佳匹配码向量的误差信号能量,并在方框1019中同误差能量阈值(THR)加以比较。阈值是预先确定的,且可以适当设置为能够确保ACELP编码器仅以特定精度对信号的脉冲部分进行编码而不试图对信号的非脉冲部分进行编码的数值,其中如果不存在图10的本发明的控制器1000,编码器将试图对信号的非脉冲部分进行编码。
如果步骤1019判定满足阈值,就停止该过程。然而,如果方框1019中的比较判定不满足误差信号能量阈值,如1020所示,令脉冲数量增加比如1个。然后,重复执行步骤1017、1018和1019,然而利用更多数量的脉冲而执行。继续执行该过程,直至满足最终的准则,如满足所允许的脉冲的最大数量。然而,由于阈值准则的缘故,该过程一般会终止,因而非脉冲状信号的脉冲数量通常小于脉冲状信号情况下编码算法所分配的脉冲数量。
图13示出了ACELP编码器的另一改进方案。在这种编码器中,如1300所示,对浊音/清音进行判断。然后这种编码器根据浊音/清音的判断结果,将第一码本用于浊音部分,第二码本用于清音部分。依照本发明的实施例,如果方框1300检测到浊音部分,那么如1310所示,CELP综合分析过程仅用于确定脉冲编码信息。然而,如果CELP编码器检测到清音部分,则不计算或至少可以忽略这些清音部分的CELP编码器输出,或者不将其包含于经编码的脉冲信号当中。依照本发明,用残余编码器对这些清音部分进行编码,因而这种编码器的改进方案包括如1320所示的,忽略编码器对于清音部分的输出。
优选情况下,将本发明合并于图17所示的带动态可变畸变LPC滤波器的切换编码概念。脉冲编码器使用LPC滤波器,其中脉冲编码器以方框1724表示。如果基于滤波器组的残余编码器包含预/后滤波结构,那么由于未对音频输入执行除应用预滤波1722外的处理,而为了向与图1残留信号编码器16相对应的通用音频编码器1726提供输入应当执行上述处理,因而可以将图17c中未示出的统一时频表示用于脉冲编码器1724和残余编码器。这样,就能够避免在编码器端使用两个分析滤波器,在解码器端使用两个综合滤波器。如针对图17c予以说明的那样,这可以包括动态调节通用滤波器的畸变特性。因此,可以通过在将信号输入至通用音频编码器1726前对预滤波器1722输出信号加以处理,并另外通过在将音频信号输入残余激励编码器1724前从音频信号中提取脉冲的方式,将本发明实现于图17c的框架之中。因此,必需将方框10c、26b和26a置于时变畸变滤波器1722的输出端,和与图4a中的脉冲编码器10b相对应的残余/激励编码器1724的输入端,以及与图4a中的基于滤波器组的音频编码器16相对应的通用音频编码器1726的输入端。自然,还可将图4b的闭环实施例额外实现于图17c的编码系统中。
优选情况下,可以采用图1的心理声学控制信号编码器16。优选情况下,在图15中实现比如同图16a中相应方框类似的心理声学模型1602,以便将其输入连至音频信号8。这样做能确保线1500上的心理声学掩蔽阈值信息反映原始音频信号而不是残留信号发生器26输出端的残留信号的状态。因此,量化器1604a受控于在计算残留信号18前由原始音频信号导出的、而不是由实际量化信号导出的掩蔽阈值信息1500。由于还可以利用脉冲状信号部分的掩蔽效应,从而能够进一步降低比特率,因此优选情况下,上述过程优于心理声学模型输入至残留信号发生器26输出的连接。然而,另一方面,由于残留信号是实际音频信号,因而具有掩蔽阈值,因此心理声学模型输入至残留信号发生器18的输出的连接也可能是有用的。然而,虽然对于某些应用而言这种实现是可行并且有用的,但是同将原始音频信号馈入心理声学模型1602的情形相比,这种实现将产生较高的比特率。
总而言之,本发明的优选实施例具有若干方面,可将其概括如下。
编码端:信号分离方法;始终存在基于滤波器组的层;语音增强为可选层;在编码前进行信号分析(脉冲提取);脉冲编码器只处理输入信号的特定分量;脉冲编码器经调整只处理脉冲;以及基于滤波器组的层是未经修改的基于滤波器组的编码器。解码端:始终存在基于滤波器组的层;以及语音增强为可选层。
一般情况下,如果脉冲(例如声门脉冲激励)的基本声源模型非常适合输入信号,那么除基于滤波器组的编码模式之外还可以选择脉冲编码方法,可以在任何便利的时刻开始进行脉冲编码;如果脉冲(例如声门脉冲激励)的基本声源模型非常适合输入信号,那么除基于滤波器组的编码模式之外还可以选择脉冲编码方法;并且这不涉及对两种编解码器率失真行为的分析,因此在编码处理方面异常高效。
优选的脉冲编码或脉冲序列编码方法是“Speech coding below 4KB/s usingwaveform interpolation”,W.B.Kleijn,Globecom’91,第1879至1883页或“Aspeech coder based on decomposition of characteristic waveforms”,W.B.Kleijn和J.Haagen,ICASSP 1995,第508至511页中所述的波形内插技术。
上述实施例仅仅用于说明本发明的原理。应当理解的是,对于所属领域技术人员而言,对此处说明的配置以及细节所做的修改和变形是显而易见的。因而,本意上只受限于所附专利权利要求的范围,而不局限于此处以对实施例进行解释说明的方式所表示的具体细节。
根据发明方法的特定实现需要,可以硬件或软件实现本发明的方法。可用数字存储介质,特别是其上存储着同可编程计算机系统协同工作从而实现发明方法的电可读控制信号的磁盘、DVD或CD。概括而言,因此本发明可以是含有存储在机器可读承载介质上的程序代码的计算机程序产品,其中当计算机运行计算机程序产品时,运行程序代码从而实现发明方法。换句话说,因此发明方法可以是含有用于在计算机运行计算机程序时实现本发明方法中至少一个方法的程序代码的计算机程序。
参考文献:
[Ed100]B.Edler,G.Schuller:“Audio coding using a psychoacoustic pre-andpost-filter”,ICASSP 2000,第二卷,2000年6月5-9日,第II881-II884页,第二卷;
[Sch02]G.Schuller,B.Yu,D.Huang和B.Edler,“Perceptual Audio Coding usingAdaptive pre-and Post-Filters and Lossless Compression”,IEEE语音和音频处理学报,2002年9月,第379-390页;
[Zwi]Zwicker,E.和H.Fastl,“Psychoacoustics,Facts and models”,SpringerVerlag,柏林;
[KHL97]M.Karjalainen,A.U.K.Laine,“Realizable warped IIR filtersand their propertier”,IEEE ICASSP 1997,第2205-2208页,第3卷
[SA99]J.O.Smith,J.S.Abel,“Bark and ERB Bilinear Transforms”,IEEE语音和音频处理学报,第7卷,第6期,1999年11月,第697-708页
[HKS00]Aki;Karjalainen,Matti;Savioja,Lauri;Vesa;Laine,Unto K.;Huopaniemi,Jyri,“Frequency-warped Signal Processing for AudioApplications”,AES期刊,第48卷,第11期,第1011-1031页;2000年11月
[SOB03]E.Schuijers,W.Oomen,B.den Brinker,J.Breebaart,“Advances inParametric Coding for High-Quality Audio”,第114届大会,阿姆斯特丹,2003年荷兰,预印本5852;
[WSKH05]S.Wabnik,G.Schuller,U.J.Hirschfeld,“Frequency Warpingin Low DelayAudio Coding”,IEEE声学、语音、和信号处理国际会议,2005年3月18-23日,费城,美国
[TMK94]K.Tokuda,H.Matsumura,T.Kobayashi和S.Imai,“Speech codingbased on adaptive mel-cepstral analysis,”IEEE ICAS SP’94会议,第197-200页,1994年3月
[KTK95]K.Koishida,K.Tokuda,T.kobayashi和S.Imai,“CELP coding based onmel-cepstral analysis,”IEEE ICASSP’94会议,第33-36页,1995;
[HLM99]Aki Harma,Unto K.Laine,Matti Karjalainen,“Warped low-delay CELPfor wideband audio coding”,第17届国际AES大会,佛罗伦萨,意大利,1999;
[BLS05]B.Bessette,R.Lefebvre,R.Salami,“UNIVERSAL SPEECH/AUDIOCODING USING HYBRID ACELP/TCX TECHNIQUES,”IEEE ICASSP 2005会议,第301-304页,2005;
[Gri97]Grill,B.,“A Bit Rate Scalable Perceptual Coder for MPEG-4 Audio”,第103届AES大会,纽约,1997,预印本4620;以及
[Her02]J.Herre,H.Purnhagen:“General Audio Coding”,见F.Pereira,T.Ebrahimi(编辑),“The MPEG-4 Book”,Prentice Hall IMSC Multimedia Series,2002.ISBN 0-13-061621-4
Claims (34)
1.一种音频编码器,用于对含脉冲状部分和平稳部分的音频信号(8)进行编码,其特征在于:包括
脉冲提取器(10),用于从音频信号中提取脉冲状部分,所述脉冲提取器(10)包含脉冲编码器(10b),用于对脉冲状部分进行编码以获得编码的脉冲状信号(12);
信号编码器(16),用于对从音频信号导出的残留信号进行编码,以获得编码的残留信号(20),所述残留信号从音频信号中导出,使得音频信号中的脉冲状部分得以减小,或从音频信号中消除脉冲状部分;
输出接口(22),用于输出编码的脉冲状信号(12)以及编码的残留信号(20),从而提供编码的信号(24)。
2.根据权利要求1所述的音频编码器,其特征在于:对脉冲编码器(10b)和信号编码器(16)进行设计,使得脉冲编码器(10b)比信号编码器(16)更适合脉冲状信号,而信号编码器(16)比脉冲编码器(10b)更适合平稳信号。
3.根据权利要求1或2所述的音频编码器,其特征在于:还包括残留信号发生器(26),所述残留信号发生器适于接收音频信号(8)以及与提取的脉冲信号部分有关的信息(28),还适于输出不含提取的信号部分的残留信号(18)。
4.根据权利要求3所述的音频编码器,其特征在于:所述残留信号发生器(26)包含减法器(26a),用于从音频信号(8)中减去提取的信号部分(28),从而获得残留信号(18)。
5.根据权利要求3所述的音频编码器,其特征在于:
所述脉冲提取器(10)提取脉冲信号部分的参数表示;以及
所述残留信号发生器(26)利用所述参数表示来合成(26c)波形表示,并从音频信号(8)中减去(26a)所述波形表示。
6.根据权利要求3所述的音频编码器,其特征在于:所述残留信号发生器(26)包含脉冲解码器(26c),用于计算解码的脉冲信号;以及减法器(26a),用于从音频信号(8)中减去解码的脉冲信号。
7.根据权利要求3所述的音频编码器,其特征在于:所述脉冲提取器(10)包含LPC分析级(10a),用于对音频信号(8)进行LPC分析,从而获得预测误差信号(84),所述脉冲提取器(10)包含预测误差信号处理器(10c),用于对预测误差信号进行处理,以增强该信号的脉冲状特征,以及
其中,残留信号发生器(26)利用增强的预测误差信号执行LPC综合(26b),并将该LPC综合所产生的信号从音频信号中减去,以获得残留信号(18)。
8.根据权利要求1到7中任意一项权利要求所述的音频编码器,其特征在于:所述脉冲提取器(10)包含脉冲/非脉冲决策级(1300),检测为脉冲状部分的音频信号部分被提供至脉冲编码器(10b),而不提供至信号编码器(16)。
9.根据权利要求8所述的音频编码器,其特征在于:脉冲/非脉冲级是浊音/清音决策级。
10.根据权利要求1到9中任意一项权利要求所述的音频编码器,其特征在于:音频信号具有共振峰结构和精细结构,其中脉冲提取器(10)对音频信号进行处理,以使经过处理的信号仅表示精细结构,并且脉冲提取器(10)对精细结构信号进行处理,使得精细结构信号的脉冲状特征得以增强(10c),以及由脉冲编码器(10b)对增强的精细结构信号进行编码。
11.根据权利要求1到10中任意一项权利要求所述的音频编码器,其特征在于:信号编码器(16)是基于变换或基于滤波器组的通用音频编码器,并且脉冲编码器是基于时域的编码器。
12.根据权利要求1到11中任意一项权利要求所述的音频编码器,其特征在于:所述脉冲提取器(10)包括ACELP编码器(10),所述ACELP编码器(10)包含用于获取短期预测器信息的LPC分析级(1000)、用于获取基音信息以及长期预测器增益的基音确定级(1002、1004)、以及用于确定与残留信号的参数表示所用的多个脉冲的脉冲位置有关的码本信息的码本级(1006),其中,脉冲提取器(10)根据长期预测增益对ACELP编码器(10)进行控制(1000),从而为第一长期预测增益分配可变数量的脉冲或为第二长期预测增益分配固定数量的脉冲,其中第二长期预测增益大于第一长期预测增益。
13.根据权利要求12所述的音频编码器,其特征在于:脉冲的可变数量的最大值等于或小于固定数量。
14.根据权利要求12或13所述的音频编码器,其特征在于:所述脉冲提取器(10)对ACELP编码器进行控制(1000),从而执行从少量脉冲开始(1016)逐渐到更多数量脉冲(1020)的渐进分配,而且当误差能量低于预先确定的能量阈值(1019)时,停止所述渐进分配。
15.根据权利要求12到14中任意一项权利要求所述的音频编码器,其特征在于:所述脉冲提取器(10)对ACELP编码器进行控制(1000),使得在长期预测器增益高于阈值的情况下,确定可能的脉冲位置是在基于来自先前帧的至少一个脉冲位置的栅格中(1013)。
16.根据权利要求3所述的音频编码器,其特征在于:所述脉冲编码器(10b)是计算脉冲位置和量化脉冲值的码激励线性预测(CELP)编码器,所述残留信号发生器(26)利用未经量化的脉冲位置和量化脉冲值,来计算为获得残留信号而从音频信号(8)中减去的信号。
17.根据权利要求3所述的音频编码器,其特征在于:所述脉冲提取器(10)包括CELP综合分析过程,用于确定预测误差信号中未经量化的脉冲位置,以及,脉冲编码器(10b)以比量化的短期预测信息的精度更高的精度,对脉冲位置进行编码。
18.根据权利要求3所述的音频编码器,其特征在于:所述脉冲提取器(10)确定信号部分为脉冲状,残留信号发生器(26)利用具有缩减结构或非脉冲状结构的合成信号,来替代音频信号的所述信号部分。
19.根据权利要求18所述的音频编码器,其特征在于:残留信号发生器(26)通过根据脉冲状信号和非脉冲状信号之间的边界的外插,来计算合成信号。
20.根据权利要求18所述的音频编码器,其特征在于:残留信号发生器通过使用小于0.5的加权因子对脉冲状部分中的音频信号进行加权,来计算合成信号。
21.根据权利要求1到20中任意一项权利要求所述的音频编码器,其特征在于:信号编码器(16)是心理声学驱动的音频编码器,其中用于对音频值进行量化(1604a)的心理声学掩蔽阈值(1500)是利用音频信号(8)计算得出的,而且信号编码器(16)将残留信号转换为频谱表示(1600),并利用心理声学掩蔽阈值(1500)对所述频谱表示的值进行量化(1604a)。
22.根据权利要求1到21中任意一项权利要求所述的音频编码器,其特征在于:所述脉冲提取器(10)从音频信号中提取实际的脉冲状信号,脉冲提取器(10)对实际的脉冲状信号进行处(10c),以获得增强的脉冲状信号,所述增强的脉冲状信号是比实际的脉冲状信号更为理想的脉冲状信号,
其中,脉冲编码器(10b)对增强的脉冲状信号进行编码,以获得经编码的增强的脉冲状信号,以及
其中,音频编码器包含残留信号计算器(26),用于从音频信号中减去脉冲状信号、或经频谱成形的增强的脉冲状信号、或者通过对编码的脉冲状信号进行解码而导出的信号,以获得残留信号。
23.根据权利要求1到22中任意一项权利要求所述的音频编码器,其特征在于:所述脉冲提取器用于提取脉冲序列,以及
其中,相比于非脉冲序列状信号,脉冲编码器适于以更高的效率或更低的编码误差来对脉冲序列状信号进行编码。
24.一种用于对含脉冲状部分和平稳部分的音频信号(8)进行编码的方法,其特征在于:包括
从音频信号中提取(10)脉冲状部分,其中脉冲提取器包含脉冲编码器,用于对脉冲状部分进行编码,以获得编码的脉冲状信号;
对从音频信号导出的残留信号进行编码(16),以获得编码的残留信号(20),从音频信号中导出残留信号,使得音频信号中的脉冲状部分得以减小,或从音频信号中消除脉冲状部分;以及
通过发送或存储,输出编码的脉冲状信号(12)以及编码的残留信号(20),以提供编码的信号(24)。
25.一种解码器,用于对具有编码的脉冲状信号(12)和编码的残留信号(20)的编码的音频信号(24)进行解码,其特征在于:包括
脉冲解码器(30),使用解码算法对编码的脉冲状信号进行解码,所述解码算法适合于为产生编码的脉冲状信号而设计的编码算法;
信号解码器(32),使用解码算法对编码的残留信号(20)进行解码,所述解码算法适合于为产生编码的残留信号(20)而设计的编码算法;以及
信号合并器(34),将解码的脉冲状信号和解码的残留信号进行合并,从而提供解码的输出信号(36),其中,信号解码器(32)和脉冲解码器(30)提供与解码的信号的同一时刻有关的输出值。
26.根据权利要求25所述的解码器,其特征在于:信号解码器(32)连续接收并处理信号值,使得解码的残留信号是连续信号(140),以及
其中,脉冲解码器(30)只在指定时段(142)中接收输入数据并提供解码的脉冲信号,所述指定时段(142)被仅有信号解码器提供输出数据的时段(143)所分隔,从而解码的输出信号具有编码器输出信号等同于解码的残留信号的时段(143),并具有解码的输出信号包含解码的残留信号和解码的脉冲状信号的时段(142)。
27.根据权利要求25或26中任意一项权利要求所述的解码器,其特征在于:脉冲解码器(30)是时域解码器,而信号解码器(32)是基于滤波器组或基于变换的解码器。
28.根据权利要求25到27中任意一项权利要求所述的解码器,其特征在于:编码的音频信号包含辅助信息(14),所述辅助信息(14)表示同关于残留信号的编码或解码特征有关的信息,以及
其中,合并器根据辅助信息(14),对解码的残留信号和解码的脉冲状信号进行合并。
29.根据权利要求25到27中任意一项权利要求所述的解码器,其特征在于:辅助信息(14)指示在脉冲状部分残留信号中已生成了合成信号,以及
其中,合并器(32)对辅助信息予以响应,在脉冲状部分中抑制或至少是衰减解码的残留信号。
30.根据权利要求25到27中任意一项权利要求所述的解码器,其特征在于:辅助信息指示,在将脉冲状信号从音频信号中减去之前,已利用衰减因子对脉冲状信号进行了衰减,以及
其中,合并器(34)根据衰减因子对解码的残留信号进行衰减,并使用衰减的解码信号以同解码的脉冲状信号进行合并。
31.根据权利要求25到30中中任意一项权利要求所述的解码器,其特征在于:编码的脉冲状信号包括脉冲序列状信号,以及
其中,用于对编码的脉冲状信号进行解码(30)的解码器使用适合于编码算法的解码算法,相比于非脉冲序列状信号,所述编码算法适于以更高的效率或更低的编码误差对脉冲序列状信号进行编码。
32.一种用于对具有编码的脉冲状信号(12)和编码的残留信号(20)的编码的音频信号(24)进行解码的方法,其特征在于:包括
使用解码算法对编码的脉冲状信号进行解码(30),所述解码算法适合于为产生编码的脉冲信号而设计的编码算法;
使用解码算法对编码的残留信号(20)进行解码(32),所述解码算法适合于为产生编码的残留信号(20)而设计的编码算法;以及
将解码的脉冲状信号同解码的残留信号进行合并(34),以提供解码的输出信号(36),其中,解码步骤(32、30)提供与解码的信号的同一时刻有关的输出值。
33.一种编码的音频信号(24),其特征在于:具有编码的脉冲状信号(12)、编码的残留信号(20)以及辅助信息(14),所述辅助信息(14)表示同关于残留信号或脉冲状信号的编码或解码特征有关的信息。
34.一种具有程序代码的计算机程序,其特征在于:当所述计算机程序在处理器上运行时,所述程序代码执行根据权利要求24或32所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US94325307P | 2007-06-11 | 2007-06-11 | |
US60/943,253 | 2007-06-11 | ||
US94350507P | 2007-06-12 | 2007-06-12 | |
US60/943,505 | 2007-06-12 | ||
PCT/EP2008/004496 WO2008151755A1 (en) | 2007-06-11 | 2008-06-05 | Audio encoder for encoding an audio signal having an impulse- like portion and stationary portion, encoding methods, decoder, decoding method; and encoded audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101743586A true CN101743586A (zh) | 2010-06-16 |
CN101743586B CN101743586B (zh) | 2012-10-17 |
Family
ID=39709533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008800196999A Active CN101743586B (zh) | 2007-06-11 | 2008-06-05 | 音频编码器、编码方法、解码器、解码方法 |
Country Status (17)
Country | Link |
---|---|
US (1) | US8706480B2 (zh) |
EP (1) | EP2165328B1 (zh) |
JP (1) | JP5686369B2 (zh) |
KR (1) | KR101196506B1 (zh) |
CN (1) | CN101743586B (zh) |
AR (1) | AR066959A1 (zh) |
AU (1) | AU2008261287B2 (zh) |
BR (1) | BRPI0811384A2 (zh) |
CA (1) | CA2691993C (zh) |
ES (1) | ES2663269T3 (zh) |
MX (1) | MX2009013519A (zh) |
MY (1) | MY146431A (zh) |
PL (1) | PL2165328T3 (zh) |
PT (1) | PT2165328T (zh) |
RU (1) | RU2439721C2 (zh) |
TW (1) | TWI371744B (zh) |
WO (1) | WO2008151755A1 (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102419978A (zh) * | 2011-08-23 | 2012-04-18 | 展讯通信(上海)有限公司 | 音频解码器、音频解码的频谱重构方法及装置 |
CN103761969A (zh) * | 2014-02-20 | 2014-04-30 | 武汉大学 | 基于高斯混合模型的感知域音频编码方法及系统 |
CN105474309A (zh) * | 2013-07-22 | 2016-04-06 | 弗朗霍夫应用科学研究促进协会 | 高效率对象元数据编码的装置及方法 |
TWI587287B (zh) * | 2014-07-28 | 2017-06-11 | 弗勞恩霍夫爾協會 | 柔和噪音產生模式選擇之裝置與方法 |
CN107210029A (zh) * | 2014-12-11 | 2017-09-26 | 优博肖德工程公司 | 用于处理一连串信号以进行复调音符辨识的方法和装置 |
CN107527629A (zh) * | 2013-07-12 | 2017-12-29 | 皇家飞利浦有限公司 | 用于在音频信号解码器中进行频带扩展的优化缩放因子 |
CN108449704A (zh) * | 2013-10-22 | 2018-08-24 | 韩国电子通信研究院 | 生成用于音频信号的滤波器的方法及其参数化装置 |
US10249311B2 (en) | 2013-07-22 | 2019-04-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
CN110070878A (zh) * | 2019-03-26 | 2019-07-30 | 苏州科达科技股份有限公司 | 音频码流的解码方法及电子设备 |
CN111210832A (zh) * | 2018-11-22 | 2020-05-29 | 广州广晟数码技术有限公司 | 基于频谱包络模板的带宽扩展音频编解码方法及装置 |
US10701504B2 (en) | 2013-07-22 | 2020-06-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
CN118471239B (zh) * | 2024-07-12 | 2024-08-30 | 世优(北京)科技股份有限公司 | 音频信号的处理方法及装置 |
Families Citing this family (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8326614B2 (en) * | 2005-09-02 | 2012-12-04 | Qnx Software Systems Limited | Speech enhancement system |
US7720677B2 (en) * | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
EP1852848A1 (en) * | 2006-05-05 | 2007-11-07 | Deutsche Thomson-Brandt GmbH | Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream |
PL2171713T3 (pl) * | 2007-06-15 | 2011-08-31 | France Telecom | Kodowanie cyfrowych sygnałów akustycznych |
US20090006081A1 (en) * | 2007-06-27 | 2009-01-01 | Samsung Electronics Co., Ltd. | Method, medium and apparatus for encoding and/or decoding signal |
MX2010003638A (es) | 2007-10-15 | 2010-04-21 | Lg Electronics Inc | Un metodo y un aparato para procesar una se?al. |
KR101756834B1 (ko) * | 2008-07-14 | 2017-07-12 | 삼성전자주식회사 | 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치 |
SG174207A1 (en) * | 2009-03-03 | 2011-10-28 | Agency Science Tech & Res | Methods for determining whether a signal includes a wanted signal and apparatuses configured to determine whether a signal includes a wanted signal |
CN101931414B (zh) | 2009-06-19 | 2013-04-24 | 华为技术有限公司 | 脉冲编码方法及装置、脉冲解码方法及装置 |
US9753884B2 (en) | 2009-09-30 | 2017-09-05 | Microsoft Technology Licensing, Llc | Radio-control board for software-defined radio platform |
PL2471061T3 (pl) * | 2009-10-08 | 2014-03-31 | Fraunhofer Ges Forschung | Działający w wielu trybach dekoder sygnału audio, działający w wielu trybach koder sygnału audio, sposoby i program komputerowy stosujące kształtowanie szumu oparte o kodowanie z wykorzystaniem predykcji liniowej |
JP5247937B2 (ja) * | 2009-10-20 | 2013-07-24 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオ信号符号器、オーディオ信号復号器、エイリアシング消去を用いたオーディオ信号の符号化又は復号化方法 |
CN102667921B (zh) * | 2009-10-20 | 2014-09-10 | 弗兰霍菲尔运输应用研究公司 | 音频编码器、音频解码器、用于将音频信息编码的方法、用于将音频信息解码的方法 |
KR101397058B1 (ko) * | 2009-11-12 | 2014-05-20 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치 |
EP2510515B1 (en) * | 2009-12-07 | 2014-03-19 | Dolby Laboratories Licensing Corporation | Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation |
RU2628162C2 (ru) | 2010-01-12 | 2017-08-15 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф., | Аудио кодер, аудио декодер, способ кодирования и декодирования аудио информации и компьютерная программа, определяющая значение поддиапазона контекста на основе нормы ранее декодированных спектральных значений |
US9075446B2 (en) | 2010-03-15 | 2015-07-07 | Qualcomm Incorporated | Method and apparatus for processing and reconstructing data |
KR101696632B1 (ko) | 2010-07-02 | 2017-01-16 | 돌비 인터네셔널 에이비 | 선택적인 베이스 포스트 필터 |
CA2804548C (en) * | 2010-07-08 | 2016-06-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Coder using forward aliasing cancellation |
US9136980B2 (en) | 2010-09-10 | 2015-09-15 | Qualcomm Incorporated | Method and apparatus for low complexity compression of signals |
EP2550653B1 (en) * | 2011-02-14 | 2014-04-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Information signal representation using lapped transform |
PL3239978T3 (pl) | 2011-02-14 | 2019-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodowanie i dekodowanie pozycji impulsów ścieżek sygnału audio |
CN103493129B (zh) | 2011-02-14 | 2016-08-10 | 弗劳恩霍夫应用研究促进协会 | 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法 |
ES2529025T3 (es) | 2011-02-14 | 2015-02-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y método para procesar una señal de audio decodificada en un dominio espectral |
BR112013020592B1 (pt) | 2011-02-14 | 2021-06-22 | Fraunhofer-Gellschaft Zur Fôrderung Der Angewandten Forschung E. V. | Codec de áudio utilizando síntese de ruído durante fases inativas |
US9142220B2 (en) | 2011-03-25 | 2015-09-22 | The Intellisis Corporation | Systems and methods for reconstructing an audio signal from transformed audio information |
CN103503375B (zh) | 2011-05-04 | 2017-05-03 | 微软技术许可有限责任公司 | 基站频谱分配 |
EP2724340B1 (en) * | 2011-07-07 | 2019-05-15 | Nuance Communications, Inc. | Single channel suppression of impulsive interferences in noisy speech signals |
US8548803B2 (en) | 2011-08-08 | 2013-10-01 | The Intellisis Corporation | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain |
US9183850B2 (en) * | 2011-08-08 | 2015-11-10 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal |
US8620646B2 (en) | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US20140058737A1 (en) * | 2011-10-28 | 2014-02-27 | Panasonic Corporation | Hybrid sound signal decoder, hybrid sound signal encoder, sound signal decoding method, and sound signal encoding method |
US9130711B2 (en) * | 2011-11-10 | 2015-09-08 | Microsoft Technology Licensing, Llc | Mapping signals from a virtual frequency band to physical frequency bands |
RU2505921C2 (ru) * | 2012-02-02 | 2014-01-27 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ и устройство кодирования и декодирования аудиосигналов (варианты) |
US20130211846A1 (en) * | 2012-02-14 | 2013-08-15 | Motorola Mobility, Inc. | All-pass filter phase linearization of elliptic filters in signal decimation and interpolation for an audio codec |
US9020818B2 (en) * | 2012-03-05 | 2015-04-28 | Malaspina Labs (Barbados) Inc. | Format based speech reconstruction from noisy signals |
SG11201505903UA (en) | 2013-01-29 | 2015-08-28 | Fraunhofer Ges Forschung | Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program |
US9728200B2 (en) * | 2013-01-29 | 2017-08-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding |
EP2936484B1 (en) | 2013-01-29 | 2018-01-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an encoded signal and encoder and method for generating an encoded signal |
RU2740690C2 (ru) * | 2013-04-05 | 2021-01-19 | Долби Интернешнл Аб | Звуковые кодирующее устройство и декодирующее устройство |
WO2014161995A1 (en) | 2013-04-05 | 2014-10-09 | Dolby International Ab | Audio encoder and decoder for interleaved waveform coding |
CN105164918B (zh) * | 2013-04-29 | 2018-03-30 | 杜比实验室特许公司 | 具有动态阈值的频带压缩 |
SG11201510164RA (en) | 2013-06-10 | 2016-01-28 | Fraunhofer Ges Forschung | Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding |
JP6224827B2 (ja) | 2013-06-10 | 2017-11-01 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 分配量子化及び符号化を使用した累積和表現のモデル化によるオーディオ信号包絡符号化、処理及び復号化の装置と方法 |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
SG11201603000SA (en) | 2013-10-18 | 2016-05-30 | Fraunhofer Ges Forschung | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
AU2014336357B2 (en) | 2013-10-18 | 2017-04-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
EP2919232A1 (en) | 2014-03-14 | 2015-09-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and method for encoding and decoding |
US9959876B2 (en) | 2014-05-16 | 2018-05-01 | Qualcomm Incorporated | Closed loop quantization of higher order ambisonic coefficients |
US9626983B2 (en) * | 2014-06-26 | 2017-04-18 | Qualcomm Incorporated | Temporal gain adjustment based on high-band signal characteristic |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
CN105451842B (zh) * | 2014-07-28 | 2019-06-11 | 弗劳恩霍夫应用研究促进协会 | 选择第一编码演算法和第二编码演算法之一的装置与方法 |
US9842611B2 (en) | 2015-02-06 | 2017-12-12 | Knuedge Incorporated | Estimating pitch using peak-to-peak distances |
US9870785B2 (en) | 2015-02-06 | 2018-01-16 | Knuedge Incorporated | Determining features of harmonic signals |
US9922668B2 (en) | 2015-02-06 | 2018-03-20 | Knuedge Incorporated | Estimating fractional chirp rate with multiple frequency representations |
US10861475B2 (en) * | 2015-11-10 | 2020-12-08 | Dolby International Ab | Signal-dependent companding system and method to reduce quantization noise |
EP4123645A1 (en) * | 2016-01-22 | 2023-01-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision |
RU2701491C1 (ru) * | 2019-03-21 | 2019-09-26 | Общество С Ограниченной Ответственностью "Ржн" | Способ распознавания кодового сигнала на фоне аддитивных помех |
WO2021001358A1 (en) | 2019-07-02 | 2021-01-07 | Dolby International Ab | Methods, apparatus and systems for representation, encoding, and decoding of discrete directivity data |
US11043203B2 (en) * | 2019-09-27 | 2021-06-22 | Eventide Inc. | Mode selection for modal reverb |
US11694692B2 (en) | 2020-11-11 | 2023-07-04 | Bank Of America Corporation | Systems and methods for audio enhancement and conversion |
EP4120257A1 (en) * | 2021-07-14 | 2023-01-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Coding and decocidng of pulse and residual parts of an audio signal |
WO2024145477A1 (en) * | 2022-12-29 | 2024-07-04 | Med-El Elektromedizinische Geraete Gmbh | Synthesis of ling sounds |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4026A (en) * | 1845-05-01 | Xpump | ||
CA2019801C (en) | 1989-06-28 | 1994-05-31 | Tomohiko Taniguchi | System for speech coding and an apparatus for the same |
JPH0333900A (ja) * | 1989-06-30 | 1991-02-14 | Fujitsu Ltd | 音声符号化方式 |
US5235670A (en) * | 1990-10-03 | 1993-08-10 | Interdigital Patents Corporation | Multiple impulse excitation speech encoder and decoder |
FR2729245B1 (fr) * | 1995-01-06 | 1997-04-11 | Lamblin Claude | Procede de codage de parole a prediction lineaire et excitation par codes algebriques |
JPH1051315A (ja) * | 1996-07-29 | 1998-02-20 | Takayoshi Hirata | 代用インパルス波形による信号波形の伝送および記録方式 |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
JP4173940B2 (ja) | 1999-03-05 | 2008-10-29 | 松下電器産業株式会社 | 音声符号化装置及び音声符号化方法 |
EP1187337B1 (en) | 1999-04-19 | 2008-01-02 | Fujitsu Limited | Speech coding processor and speech coding method |
US6757654B1 (en) | 2000-05-11 | 2004-06-29 | Telefonaktiebolaget Lm Ericsson | Forward error correction in speech coding |
US6968309B1 (en) * | 2000-10-31 | 2005-11-22 | Nokia Mobile Phones Ltd. | Method and system for speech frame error concealment in speech decoding |
US6789059B2 (en) | 2001-06-06 | 2004-09-07 | Qualcomm Incorporated | Reducing memory requirements of a codebook vector search |
JP4622164B2 (ja) | 2001-06-15 | 2011-02-02 | ソニー株式会社 | 音響信号符号化方法及び装置 |
US7272555B2 (en) | 2001-09-13 | 2007-09-18 | Industrial Technology Research Institute | Fine granularity scalability speech coding for multi-pulses CELP-based algorithm |
CN1266673C (zh) * | 2002-03-12 | 2006-07-26 | 诺基亚有限公司 | 可伸缩音频编码的有效改进 |
WO2003091989A1 (en) * | 2002-04-26 | 2003-11-06 | Matsushita Electric Industrial Co., Ltd. | Coding device, decoding device, coding method, and decoding method |
KR100462611B1 (ko) | 2002-06-27 | 2004-12-20 | 삼성전자주식회사 | 하모닉 성분을 이용한 오디오 코딩방법 및 장치 |
US7191136B2 (en) * | 2002-10-01 | 2007-03-13 | Ibiquity Digital Corporation | Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband |
RU2331933C2 (ru) | 2002-10-11 | 2008-08-20 | Нокиа Корпорейшн | Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах |
WO2004082288A1 (en) | 2003-03-11 | 2004-09-23 | Nokia Corporation | Switching between coding schemes |
WO2004097796A1 (ja) * | 2003-04-30 | 2004-11-11 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置、音声復号化装置及びこれらの方法 |
GB2403634B (en) * | 2003-06-30 | 2006-11-29 | Nokia Corp | An audio encoder |
US7739120B2 (en) * | 2004-05-17 | 2010-06-15 | Nokia Corporation | Selection of coding models for encoding an audio signal |
US7788090B2 (en) | 2004-09-17 | 2010-08-31 | Koninklijke Philips Electronics N.V. | Combined audio coding minimizing perceptual distortion |
CN101176148B (zh) * | 2005-05-11 | 2011-06-15 | 松下电器产业株式会社 | 编码装置、解码装置和其方法 |
EP2146344B1 (en) * | 2008-07-17 | 2016-07-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding/decoding scheme having a switchable bypass |
-
2008
- 2008-06-05 CA CA2691993A patent/CA2691993C/en active Active
- 2008-06-05 KR KR1020097025997A patent/KR101196506B1/ko active IP Right Grant
- 2008-06-05 PT PT87590469T patent/PT2165328T/pt unknown
- 2008-06-05 JP JP2010511528A patent/JP5686369B2/ja active Active
- 2008-06-05 CN CN2008800196999A patent/CN101743586B/zh active Active
- 2008-06-05 AU AU2008261287A patent/AU2008261287B2/en active Active
- 2008-06-05 BR BRPI0811384A patent/BRPI0811384A2/pt not_active Application Discontinuation
- 2008-06-05 EP EP08759046.9A patent/EP2165328B1/en active Active
- 2008-06-05 WO PCT/EP2008/004496 patent/WO2008151755A1/en active Application Filing
- 2008-06-05 PL PL08759046T patent/PL2165328T3/pl unknown
- 2008-06-05 ES ES08759046.9T patent/ES2663269T3/es active Active
- 2008-06-05 RU RU2009143665/09A patent/RU2439721C2/ru active
- 2008-06-05 MX MX2009013519A patent/MX2009013519A/es active IP Right Grant
- 2008-06-05 US US12/663,828 patent/US8706480B2/en active Active
- 2008-06-05 MY MYPI20095103A patent/MY146431A/en unknown
- 2008-06-11 TW TW097121819A patent/TWI371744B/zh active
- 2008-06-11 AR ARP080102482A patent/AR066959A1/es active IP Right Grant
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102419978A (zh) * | 2011-08-23 | 2012-04-18 | 展讯通信(上海)有限公司 | 音频解码器、音频解码的频谱重构方法及装置 |
CN102419978B (zh) * | 2011-08-23 | 2013-03-27 | 展讯通信(上海)有限公司 | 音频解码器、音频解码的频谱重构方法及装置 |
CN107527629A (zh) * | 2013-07-12 | 2017-12-29 | 皇家飞利浦有限公司 | 用于在音频信号解码器中进行频带扩展的优化缩放因子 |
US10701504B2 (en) | 2013-07-22 | 2020-06-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
US10715943B2 (en) | 2013-07-22 | 2020-07-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
US11227616B2 (en) | 2013-07-22 | 2022-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
CN105474309A (zh) * | 2013-07-22 | 2016-04-06 | 弗朗霍夫应用科学研究促进协会 | 高效率对象元数据编码的装置及方法 |
US11337019B2 (en) | 2013-07-22 | 2022-05-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US11463831B2 (en) | 2013-07-22 | 2022-10-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
US10249311B2 (en) | 2013-07-22 | 2019-04-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
US10277998B2 (en) | 2013-07-22 | 2019-04-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US11984131B2 (en) | 2013-07-22 | 2024-05-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
CN105474309B (zh) * | 2013-07-22 | 2019-08-23 | 弗朗霍夫应用科学研究促进协会 | 高效率对象元数据编码的装置及方法 |
US10659900B2 (en) | 2013-07-22 | 2020-05-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US11910176B2 (en) | 2013-07-22 | 2024-02-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US11330386B2 (en) | 2013-07-22 | 2022-05-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
CN108449704A (zh) * | 2013-10-22 | 2018-08-24 | 韩国电子通信研究院 | 生成用于音频信号的滤波器的方法及其参数化装置 |
CN103761969B (zh) * | 2014-02-20 | 2016-09-14 | 武汉大学 | 基于高斯混合模型的感知域音频编码方法及系统 |
CN103761969A (zh) * | 2014-02-20 | 2014-04-30 | 武汉大学 | 基于高斯混合模型的感知域音频编码方法及系统 |
TWI587287B (zh) * | 2014-07-28 | 2017-06-11 | 弗勞恩霍夫爾協會 | 柔和噪音產生模式選擇之裝置與方法 |
CN107210029A (zh) * | 2014-12-11 | 2017-09-26 | 优博肖德工程公司 | 用于处理一连串信号以进行复调音符辨识的方法和装置 |
CN107210029B (zh) * | 2014-12-11 | 2020-07-17 | 优博肖德Ug公司 | 用于处理一连串信号以进行复调音符辨识的方法和装置 |
CN111210832A (zh) * | 2018-11-22 | 2020-05-29 | 广州广晟数码技术有限公司 | 基于频谱包络模板的带宽扩展音频编解码方法及装置 |
CN111210832B (zh) * | 2018-11-22 | 2024-06-04 | 广州广晟数码技术有限公司 | 基于频谱包络模板的带宽扩展音频编解码方法及装置 |
CN110070878B (zh) * | 2019-03-26 | 2021-05-04 | 苏州科达科技股份有限公司 | 音频码流的解码方法及电子设备 |
CN110070878A (zh) * | 2019-03-26 | 2019-07-30 | 苏州科达科技股份有限公司 | 音频码流的解码方法及电子设备 |
CN118471239B (zh) * | 2024-07-12 | 2024-08-30 | 世优(北京)科技股份有限公司 | 音频信号的处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
PL2165328T3 (pl) | 2018-06-29 |
CN101743586B (zh) | 2012-10-17 |
MY146431A (en) | 2012-08-15 |
JP5686369B2 (ja) | 2015-03-18 |
KR20100024414A (ko) | 2010-03-05 |
AU2008261287A1 (en) | 2008-12-18 |
TWI371744B (en) | 2012-09-01 |
EP2165328A1 (en) | 2010-03-24 |
ES2663269T3 (es) | 2018-04-11 |
KR101196506B1 (ko) | 2012-11-01 |
EP2165328B1 (en) | 2018-01-17 |
JP2010530079A (ja) | 2010-09-02 |
CA2691993A1 (en) | 2008-12-18 |
MX2009013519A (es) | 2010-01-18 |
WO2008151755A1 (en) | 2008-12-18 |
US20100262420A1 (en) | 2010-10-14 |
RU2009143665A (ru) | 2011-07-27 |
RU2439721C2 (ru) | 2012-01-10 |
TW200912896A (en) | 2009-03-16 |
AU2008261287B2 (en) | 2010-12-16 |
BRPI0811384A2 (pt) | 2017-08-01 |
PT2165328T (pt) | 2018-04-24 |
AR066959A1 (es) | 2009-09-23 |
US8706480B2 (en) | 2014-04-22 |
CA2691993C (en) | 2015-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101743586B (zh) | 音频编码器、编码方法、解码器、解码方法 | |
US11682404B2 (en) | Audio decoding device and method with decoding branches for decoding audio signal encoded in a plurality of domains | |
EP2144171B1 (en) | Audio encoder and decoder for encoding and decoding frames of a sampled audio signal | |
US8804970B2 (en) | Low bitrate audio encoding/decoding scheme with common preprocessing | |
RU2520402C2 (ru) | Переключаемая аудио кодирующая/декодирующая схема с мультиразрешением |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |