CN101099199A - 音频编码和解码 - Google Patents
音频编码和解码 Download PDFInfo
- Publication number
- CN101099199A CN101099199A CNA2005800208494A CN200580020849A CN101099199A CN 101099199 A CN101099199 A CN 101099199A CN A2005800208494 A CNA2005800208494 A CN A2005800208494A CN 200580020849 A CN200580020849 A CN 200580020849A CN 101099199 A CN101099199 A CN 101099199A
- Authority
- CN
- China
- Prior art keywords
- signal
- frequency spectrum
- pulse
- pumping signal
- extra
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000005236 sound signal Effects 0.000 claims abstract description 17
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 238000005086 pumping Methods 0.000 claims description 78
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 239000000654 additive Substances 0.000 abstract description 4
- 230000000996 additive effect Effects 0.000 abstract description 4
- 230000005284 excitation Effects 0.000 description 15
- 238000005070 sampling Methods 0.000 description 14
- 230000000737 periodic effect Effects 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000011002 quantification Methods 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 239000002131 composite material Substances 0.000 description 6
- 230000007774 longterm Effects 0.000 description 3
- 238000007493 shaping process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 206010040030 Sensory loss Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
- G10L19/113—Regular pulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种编码数字音频信号的方法,其中,对于每个时间片断,该信号被频谱拉平,以便获得频谱拉平的信号(r)并且可能获得频谱拉平参数(LPP)。该频谱拉平信号由一个激励信号建模,该激励信号包含与由RPE或CELP技术生成的激励信号相符合的第一部分激励信号(px)以及作为具有任意位置和幅度的一组附加脉冲的第二部分激励信号(PEp)。包括第一和第二部分激励信号的音频比特流被生成。所述附加脉冲可以被添加到所述激励信号,所述附加脉冲在时间上的位置与尖峰的发生时间相对应,或者优选地其在时间上的位置处在RPE时间栅格上。
Description
本发明涉及宽带信号、特别是诸如语音信号的音频信号的编码和解码。本发明涉及编码器和解码器、根据本发明编码的音频比特流以及存储有这种音频比特流的数据存储介质。
当传输宽带信号时(例如以32kHz或更高频率采样的音频信号(包括语音信号)),使用压缩或编码技术来降低信号的比特率,从而相应地降低传输所需的带宽。
线性预测编码(LPC)是一项经常被用于语音编码的技术。LPC的主要思想是令输入信号通过预测滤波器(分析),其输出信号是频谱拉平的信号。可以用较少的比特对该频谱拉平的信号进行编码。通过保留随时间变化缓慢的预测滤波器参数中的信号结构的一个重要部分,可以降低比特率。从预测滤波器输出的频谱拉平的信号通常被称作残余(residual)。因此,术语“残余”和“频谱拉平信号”是同义词,可以互换使用。
为了进一步降低所需比特率,对所述频谱拉平信号应用建模处理,以便导出被称作激励信号的新的信号。该程序被称作残余建模。按照以下方式计算该激励信号:当它通过预测合成滤波器时,它(根据适当的准则)产生与当该频谱拉平信号被用于合成时所产生的输出相接近的近似。该处理被称为合成分析。对于激励信号的形式所施加的特定限制使得它的表示从比特率的角度来说非常高效。
计算激励信号的三种常见方法是规则脉冲激励(RPE)[1]、多脉冲激励(MPE)[2]和CELP类方法[10]。它们的根本区别在于施加于激励信号的限制不同。在RPE中,所述激励被限制为包括其间为零的等间距非零值。对于窄带语音(例如8kHz采样)来说,2、4、8的抽样因子是常见的。另一方面,在MPE中,使用非常少的脉冲(对于窄带语音通常是每5ms有3-4个),但它们不受任何栅格的限制,并且可以被置于任意位置。通常来说,当计算激励时,由量化引入的误差也被考虑进去。已经证明,RPE和MPE这两种方法对于相同的比特率给出了类似的性能。在CELP中,稀疏码本可以被用来获得高压缩因数。
线性预测编码消除输入样本之间的短期相关性,但是由于分析滤波器的长度较短,因此LPC不能消除长期相关性。长期相关性经常出现在拉平信号中,它们主要是由(准)周期性造成的,所述(准)周期性在语音中对应于浊音的发声。这些周期性以脉冲串的形式在残余信号中变得非常明显(参见图8a)。由于所述近似于周期性的脉冲具有高动态范围,因此接下来的具有粗量化的建模级在对包含这些脉冲的片断进行建模时将遇到困难,由此导致差的激励。可以通过如下方法来防止上述情况:利用长期预测器(LTP)[3]从残余中消除这些周期性结构,由此产生被输入到残余建模级[5]的新的残余。该长期线性预测器通常用延迟和一小组预测系数来描述。
尽管波形不是精确地周期性的,但是在窄带信号的情况下(8kHz采样),与理想周期性的这些偏差不会严重影响LTP的性能,这是因为由单一延迟所覆盖的时间跨距足够吸收波形周期的漂移。并且,具有2或3个预测系数的LPT使得系统对于这些波动更加鲁棒。由于滤波器越长它们就会变得越倾向于不稳定并且会更加需要稳定程序,因此,具有多于3个预测系数的LTP并不实用[4]。LTP被成功地应用于多数当前语音编码器中。
将LPC和脉冲激励应用到宽带(44.1kHz采样)语音和音频信号的编码中已经在若干年前被测试[5,6],只获得了有限的成功。然而,线性预测领域的最新发展[7]重新引发了人们对这些技术的兴趣,最近发表了一些在线性预测宽带编码方面的新颖工作[8,9]。
长期预测在宽带语音和音频编码中的应用遇到了一些在窄带语音中没有遇到的困难,这些困难是由所使用的高采样率(32kHz或更高)引起的。首先,不像窄带的情况,在LTP中需要大量的LTP预测系数,以便成功地跟踪残余周期中的波动。正如已经提到的那样,由于不稳定性的问题,具有多于几个预测系数的LTP并不实用[4]。可以使用较短的LTP(1、2或3个预测系数),但是它们所获得的增益是最小的。另一个问题是搜索最优延迟的高计算复杂度。这是由于与窄带信号相比,所述信号片断包含多得多的样本。
这两个原因使得LTP不适合被用于宽带(44.1kHz采样)音频或语音编码。然而,准周期性脉冲串存在于残余信号中,并且可能会对后续的脉冲建模级带来严重的问题。例如,图5a显示了与德国男性语音的浊音部分相对应的残余信号的几个帧(在240样本的帧中的1500个样本)。其明显地呈现出准周期性结构。图5b显示了从该残余计算的具有2抽样和3级量化的RPE信号。最后,图5c显示了原始信号和重建信号之间的误差。误差信号的峰值紧跟在残余中的峰值之后,这表明在这些片断中的脉冲建模不是很好。总得来说,经过实验发现,在语音信号中,浊音片断中的建模误差导致已编码信号中的感觉损失。
由常规的脉冲编码器获得的最终信号质量主要由两个参数确定,即每一帧的脉冲数量和对所得到的脉冲进行量化的级数。脉冲数量和量化级数越高,对已编码信号的表示就越精确。另一方面,为了获得高压缩度,脉冲数量和量化级数必须被最小化。
与每帧所使用的脉冲数量无关,每当信号呈现大的动态范围时对于信号的非常粗糙的量化就存在问题,这是因为信号的某些部分将不会被正确表示。在以准周期性的方式(类似于脉冲串的周期性)包含偶尔较大的信号幅度的残余中就遇到上述情况。当某些样本被强迫置零(比如在RPE或MPE中)以及当使用稀疏码本(比如在CELP编码器中)时,该问题更加严重。
发明人认识到,当前用于语音编码的不同的合成分析技术(比如用于建模残余的RPE、MPE或CELP或者它们的变型)在宽带编码方面是不足的,这是因为对于这种情况缺乏运行良好的LTP机制。由于附加脉冲可以被有效地用于建模通常出现在呈现长期相关性的残余信号中的准周期性尖峰,因此RPE和少数附加脉冲的组合或者CELP和少数附加脉冲的组合可以减轻这一问题。
本发明涉及一种编码数字音频信号的方法,其中,对于该信号的每一个时间片断执行下列步骤:
-对该信号进行频谱拉平,以便得到频谱拉平信号;
-用激励信号对该频谱拉平信号进行建模,该激励信号包含第一和第二部分激励信号;
-第一部分激励信号与由RPE或CELP脉冲建模技术生成的激励信号相符合;
-第二部分激励信号是该频谱拉平信号中的一组附加脉冲建模尖峰,所述附加脉冲具有任意的位置和幅度;以及
-生成包含第一和第二部分激励信号的音频比特流。
本发明还涉及一种适于编码数字音频信号的时间片断的音频编码器,该编码器包括:
-频谱拉平单元,其用于对该信号进行频谱拉平,以便输出频谱拉平信号;
-计算单元,其适于计算包含第一和第二部分激励信号的激励信号;
-第一部分激励信号与由RPE或CELP技术生成的激励信号相符合;
-第二部分激励信号是该频谱拉平信号中的一组附加脉冲建模尖峰,所述附加脉冲具有任意的位置和幅度;以及
-音频比特流发生器,其用于生成包含第一和第二部分激励信号的音频比特流。
此外,本发明涉及一种解码所接收到的音频比特流的方法,其中,对于音频信号的多个片断当中的每一个,该音频比特流包括:
-第一部分激励信号,其与由RPE或CELP脉冲建模技术生成的激励信号相符合;
-第二部分激励信号,其是所述频谱拉平信号中的一组附加脉冲建模尖峰,所述附加脉冲具有任意的位置和幅度,
该方法包括基于组合的第一和第二激励信号和频谱拉平参数来合成输出信号的措施。
相应地,本发明涉及一种用于接收和解码音频比特流的音频播放器,其中,对于音频信号的多个片断当中的每一个,该音频比特流包括:
-第一部分激励信号,其与由RPE或CELP技术生成的激励信号相符合;
-第二部分激励信号,其是所述频谱拉平信号中的一组附加脉冲建模尖峰,所述附加脉冲具有任意的位置和幅度,
该音频播放器包括用于从组合的部分激励信号和频谱拉平参数来合成输出信号的装置。
最后,本发明涉及一种音频比特流,对于音频信号的多个片断当中的每一个,该音频比特流包括:
-第一部分激励信号,其与由RPE或CELP技术生成的激励信号相符合;
-第二部分激励信号,其是所述频谱拉平信号中的一组附加脉冲建模尖峰,所述附加脉冲具有任意的位置和幅度;
本发明还涉及一种存储介质,其中存储有这种音频比特流。
下面将参考附图以举例的方式对本发明的各实施例进行描述,其中:
图1示出了根据现有技术的编码器;
图2示出了与图1中的编码器相容的解码器;
图3示出了根据本发明的编码器的一个优选实施例;
图4示出了根据本发明的与图3中的编码器相容的解码器的一个优选实施例;
图5示出了利用传统RPE编码(5b)进行了编码的德国男性语音残余(5a)和相关联的误差(5c)的一个例子;
图6示出了利用本发明的方法(6b)进行了编码的德国男性语音残余(6a,与5a相同)和相关联的降低的误差(6c)的一个例子;
图7示出了将参数化编码器与图3的编码器相组合的编码器的一个实施例;
图8示出了与图7的编码器相容的解码器的第一实施例;以及
图9示出了与图7的编码器相容的解码器的第二实施例。
图1示出了一种典型的合成分析激励编码器。总得来说,该编码处理是以一帧一帧的方式工作的,它包括如下两个步骤:首先,令输入信号通过随帧变化的线性预测分析滤波器(LPC),以便获得也被称为残余的频谱拉平信号r以及描述所述频谱拉平的线性预测参数(LPP)。该频谱拉平信号r被馈送到诸如RPE编码器的残余建模级,其中脉冲建模处理被应用于该频谱拉平信号以便导出激励信号x。描述该激励信号x的参数px和参数LPP被组合到音频比特流AS。
在图2中示出了一种典型的合成分析解码器。该解码器接收包括参数px和参数LLP的音频比特流AS。该解码器根据参数px产生激励信号x并将其馈送到线性预测合成滤波器,该滤波器的参数由参数LPP指定,该滤波器对于每一帧被更新并且生成对于原始信号的近似。
根据本发明,对所述频谱拉平信号中的准周期性(特别是类似脉冲的串)进行编码的问题通过扩展所述脉冲模型来解决,由此用具有自由的增益/位置的附加脉冲来补充传统的RPE信号,所谓自由的增益/位置意味着所添加的脉冲在时间上的位置不必由RPE时间栅格规定,并且附加脉冲的增益也不由传统RPE信号的量化栅格规定。这些附加脉冲的目的是对残余尖峰进行建模,在其他方法中不对这些尖峰进行建模。因此,对RPE信号给予更大的自由度来建模该信号的剩余部分。所述附加脉冲被添加以便更接近地对残余尖峰进行建模。该程序可以被解释为RPE和MPE的不明显的融合,其中,MPE脉冲建模信号尖峰,RPE脉冲建模所述残余的剩余部分。由于到现在为止RPE和MPE被认为是相互竞争的技术,因此上述程序并不是显而易见的,但是在没有LTP的情况下,可以令它们相互补充。
尽管附加脉冲的数目K可以被任意地设置,但是在实践中它被限制在每帧1或2个。其原因是人类语音的音调(pitch)在50-400Hz的范围内,并且处理通常在5ms的片断中发生;因此在任意给定的片断中只有一或两个循环,即一或两个大的峰值。
在本发明的方法的一个优选实施例中,量化级数被固定为3个(1,0,-1)。抽样因子可以被任意地设置,但是为了获得优秀的和良好的质量,分别进行2抽样和8抽样是优选的。即使抽样因子为2,非常粗糙的脉冲量化仍然在很大程度上确定整个RPE方案的性能。
根据本发明,对每一帧执行联合RPE/附加脉冲优化,做法如下:我们从计算普通的未量化RPE信号[1]开始,对应于K(=附加脉冲的数目)个最大幅度脉冲的位置被选择作为附加脉冲位置。该RPE信号然后被量化(3级),并且对RPE信号和每个附加脉冲执行增益的联合最优计算。对每个可能的RPE偏移重复这个程序,并且选择出产生最低重建误差范数的解。因此,激励信号x将包含两个部分激励,即常规RPE激励信号xRPE和第二部分激励信号,第二部分激励信号包含对于k=1,...,K的delta函数gkδk的和,其中delta函数被定义为这样的信号,它只在一个特定时刻幅度为1,其余全部为零,并且gk是其相关联的增益。
图3中示出了根据本发明的编码器的一个实施例。该编码器接收数字输入信号,该信号被输入到使用线性预测编码(LPC)的线性预测分析滤波器10,该滤波器生成线性预测参数(LPP)和被频谱拉平的残余r。所述线性预测参数(LPP)因此也被称为频谱拉平参数。残余r被输入到残余建模级11,其作为输出产生根据RPE或CELP约束来描述所述激励的参数px和描述附加脉冲的参数pEP。通过组合描述所述激励信号的参数px和pEP,音频比特流发生器12生成音频比特流AS。所述频谱拉平参数LPP可以被包含在该音频比特流中,或者可以利用向后自适应线性预测算法在解码器中生成这些参数。
图4示出了与图3的编码器相容的解码器。在多路分解器21中,所接收的音频比特流AS被分解成与线性预测参数(LPP)、RPE或CELP激励信号参数px和附加脉冲参数pEP相对应的参数流。激励发生器22利用参数px和pEP来产生激励信号x。该激励信号x被馈送到线性预测合成滤波器23,该滤波器作为输出产生对于编码器输入信号的近似。在参数LPP没有被包含在该音频比特流中的情况下,可以利用向后自适应线性预测从
生成这些参数。
一种根据图3中的模块11“残余建模”为每个进入的帧计算两个部分激励信号的高效算法可被如下概述:
对于每一个偏移j,执行:
计算最优RPE未量化幅度A(j)
选择K个最大幅度脉冲的位置
生成K个部分激励信号δk(j),k=1,..,K
量化A(j)Aq(j)
从Aq(j)生成部分激励信号x(j)
计算最优增益gx(j),g1(j),...,gK(j)
合成总激励x(j)=gx(j)xRPE(j)+g1(j)δ1(j)+...+gKδK(j)
为当前偏移j计算重建误差的范数e(j)
结束
选择具有最小范数的x(j)xopt
对于最优RPE未量化幅度的计算根据[1]进行。对于最优增益的计算通过求解下述线性方程组来执行:
其中,sx(j)表示由于RPE激励得到的合成信号近似分量(即x(j)与合成滤波器的脉冲响应的卷积),sδi(j)表示由于第i个附加脉冲得到的合成信号近似分量(即δi(j)与合成滤波器的脉冲响应的卷积),s表示原始音频信号。该表达式是通过将原始片断和由各部分激励得到的重建之间的误差功率最小化而得到的。
应当注意到,该程序执行对RPE信号和附加脉冲的位置和幅度的联合(尽管不是最优的)优化。
为了设计最优的组合RPE/附加脉冲信号,需要例如如上所述的穷举性计算。这个程序的很高的复杂度激发了对用于计算联合RPE/附加脉冲激励的更简单的策略的需求。
因此,在本发明的一个优选实施例中,附加脉冲被限制在RPE栅格上,即与RPE脉冲重合。这意味着附加脉冲不必严格地与它们所模拟的残余脉冲重合,而是被偏移到下一个或最近的RPE脉冲栅格位置。这种方法具有两个重要优点:编码器的复杂度大大降低,并且由于花费在编码附加脉冲位置上的比特数减少,因此比特率也降低了。
将附加脉冲添加到传统的RPE或CELP信号上的结果是比特率的提高。然而,与总比特率相比,该比特率提高是相当适度的。作为一个例子,使用具有2抽样和3级量化(1.6比特/脉冲)的RPE对44,100样本/秒的拉平信号进行编码,得到大约40kb/s的比特率。假设5ms的帧长度,利用所描述的技术添加两个附加脉冲将比特率提高到大约43.6kb/s。
将会看到,在所提供的算法中,不需要对附加脉冲的位置进行复杂的搜索。然而,结果表明,以这种方法得到的并且被限制在RPE栅格上的附加脉冲对于从所述残余中消除脉冲类周期性是有效的。
图6a-c示出了根据本发明的方法的性能。图6a显示了与图5a(德国男性语音残余)中所示的相同的频谱拉平信号,其具有周期性或准周期性的峰值或尖峰S。图6b示出了所计算的每帧添加了两个附加脉冲P的RPE信号(2抽样,3级量化),其中附加脉冲用于对图6a中的频谱拉平信号中的准周期性尖峰S进行建模。误差(即原始信号与重建信号之间的差)被示于图6c,其揭示了图5c中的误差信号的大的峰值现在已经被很大程度上消除,总体来说,误差信号看起来更像随机信号。
图7、8和9及其相应描述反映了申请人内部案号PHNL031414EPP的文献的公开内容,其适用于本发明。
在图7中示出了一种编码器,其根据本发明将RPE加附加脉冲技术与参数化编码器相组合。参数化编码器与RPE编码器的组合已经在发明人内部案号为PHNL031414EPP的文献中被描述。该参数化编码器在WO01/69593中描述。在图7中,输入音频信号首先在模块TSA(瞬变和正弦分析)中被处理。该模块生成对应于瞬变和正弦曲线的相关联的参数。给定比特率B,模块BRC(比特率控制)优选地限制正弦曲线的数目并且优选地保留瞬变,从而使得对应于正弦曲线和瞬变的整体比特率最大等于B,其通常被设置在大约20kbit/s。
模块TTS(瞬变和正弦合成器)利用所述瞬变和正弦参数(CT和CS)生成波形,所述参数由模块TSA生成并且由模块BRC修改。从输入信号s中减去该信号,从而得到信号r1。总得来说,信号r1不包括显著的正弦和瞬变分量。
根据信号r1,在利用线性预测滤波器(例如基于抽头延迟线或Laguerre滤波器)的模块(SE)中估计并且消除频谱包络。所选择的滤波器的预测系数PS被写入到音频比特流AS中,以便作为常规类型的噪声码CN的一部分而被传输到解码器。然后,在生成例如线谱对(LSP)或线谱频率(LSF)系数以及增益的模块(TE)中消除时间包络,这些在现有技术中也已被描述。在任何情况下,由时间拉平而得到的系数Pt被写入到音频比特流AS中,以便作为常规类型的噪声码CN的一部分而被传输到解码器。通常,系数PS和PT需要4-5kbit/s的比特率预算。
由于脉冲串编码器采用了第一频谱拉平级,因此图3中的残余建模级11可以被有选择地应用到频谱拉平信号r2,该信号由模块SE根据比特率预算是否已经被分配给残余建模而生成。在一个替换实施例中,如虚线所示,残余建模被应用到由模块TE生成的经过频谱和时间拉平的信号r3。来自该残余建模的输出(px和pEP)被包含在数据L0中。
实验表明,当使用很少的脉冲时(例如,具有高抽样因子(例如D=8)的RPE或具有稀疏码本的CELP),残余建模有时导致重建信号中的亮度损失。在所述激励中添加一些低噪声级的噪声可以减轻这一问题。为了确定噪声级,例如基于由激励生成的信号和残余信号r2/r3之间的能量/功率差来计算增益(g)。该增益也被传榆到解码器,其作为层L0信息的一部分。
在申请人的内部案号PHNL031414EPP中描述了图7,但是其中的残余建模作为RPE建模器。但是,可以发现,在组合参数化建模的情况下,以比特率的微小提高为代价,在激励信号中包含附加脉冲从质量的角度来说是有益的。
图8示出了与图7的编码器相容的解码器。如现有技术那样,多路分解器(DEMUX)读取进入的音频比特流AS,并且向对应的合成器SiS、TrS和TEG/SEG提供正弦、瞬变和噪声码(CS、CT和CN(PS,Pt))。如现有技术那样,白噪声发生器(WNG)向时间包络发生器TEG提供输入信号。在该实施例中(其中所述信息是可以得到的),对应于图4中的22的残余发生器从层L0生成激励信号,该激励信号在模块Mx中被混合以便提供激励信号r2’。从该编码器可以看到,由于噪声码CN(PS,Pt)和层L0是从同样的残余r2独立地生成的,因此需要对它们所生成的信号进行增益修改,以便提供对应于合成的激励信号r2’的正确的能量级。在该实施例中,在混合器(Mx)中,由模块TEG和激励发生器产生的信号被组合起来。
在一个替换实施例中,由所述激励发生器产生的参数被用于(表示为虚线)与噪声码Pt相组合,以便对由WNG输出的信号的时间包络进行整形,从而生成时间整形的噪声信号。
图9示出了与图7的实施例相对应的解码器的第二实施例,其中残余建模级处理残余信号r3。在这里,由白噪声发生器(WNG)产生并且由模决We基于由编码器确定的增益(g)和CN所处理的信号以及由激励发生器产生的激励信号被添加,以用于构造激励信号r3’。当然,在层L0信息不可用的情况下,白噪声不受模块We的影响,并且其作为激励信号r3’被提供给时间包络发生器模块(TEG)。
时间包络系数(Pt)然后被模块TEG施加在激励信号r3’上,以便提供合成信号r2’,r2’像前面那样被处理。如上所述,由于该激励信号通常引起亮度损失,因此上述做法是有益的,其中该亮度损失可以通过适当加权的附加噪声序列而被抵销。所述加权可以包括简单的幅度或频谱整形,其中的每一种基于增益因子g和CN。
与前面一样,所述信号例如被模块SEG(频谱包络发生器)中的线性预测合成滤波器滤波,该模块将频谱包络添加到该信号上。所得到的信号然后与前面一样被添加到合成的正弦和瞬变信号上。
在图8或图9中都可以看出,如果不使用激励发生器,则该解码方案与只利用噪声编码器的传统正弦编码器相似。如果使用所述激励发生器,则激励信号被添加,其增强重建信号,即提供更高的音频质量。
应该注意到,在图9的实施例中,与其中使用对于整个帧都是固定的增益的标准脉冲编码器(RPE或MPE)不同,时间包络被合并入信号r2’中。由于与每帧固定增益相比这种时间包络在增益轮廓中具有更高的灵活性,因此通过使用这种时间包络可以获得更好的声音质量。
上面描述的混合方法可以在多种比特率下使用,并且在每一个比特率下它都提供可以与现有技术编码器相当的质量。在该方法中,由所述参数化(正弦)编码器提供的数据所构成的基本层包括输入信号的主要或基本特征,并且在很低的比特率下获得中等到高质量的音频信号。
与图7中的编码器相对于PHNL031414EPP的改变类似,图8和图9中的解码器也已经被适配。PHNL031414EPP中的模块PTG已经被图4中的激励发生器22所代替。
参考文献:
[1]P.Kroon,E.D.F.Deprettere,and R.J.Sluyter.Regular-pulse excitation-anovel approach to effective and efficient multipulse coding of speech.IEEE Trans.Acoustics,Speech and Signal proccessing.34:1054-1063,1986.
[2]B.S.Atal and J.R Remde.A new model of lpc excitation for producingnatural-sounding speech at low bit rates.Proc.IEEE ICASSP-82,pages 614.617,April 1982.
[3]R.P.Ramachandran and P.Kabal.Pitch prediction tilters in speech codng.IEEE Trans.Acoust.Speech Signal Process.,37:467-478,1989.
[4]R.P.Ramachandran and P.Kabal.Stability and performance analysis of pitchfilters in speech coders.IEEE Trans.Acoust.Speech Signal Process.,35:937-945,1987.
[5]S.Singhal.High quality audio coding using multipulse lpc.Proc.IEEEICASSP-90,pages1101-1104,3-6 April 1990.
[6]X.Lin,R.A.Salami,and R.Steele.High quality audio coding using analysis-by-synthesis technique.Proc.IEEE ICASSP-91,pages 3617-3620,14-17 April 1991.
[7]A.Hrm,M.Karjalainen,L,Savioja,V.Vlimki,U.K.Laine,and J.Huopaniemi.Frequency-warped signal processing for audio applications.J.Audio Eng.Soc.,48:1011-1031,2000.
[8]R.Yu and C.C.Ko.A warped linear-prediction-based subband audio codingalgorithm.IEEE Trans.Speech Audio Process.,10:1-8,2002.
[9]G.D.T.Schuller,B.Yu,D.Huang,and B.Edler.Perceptual audio codingusing adaptive pre-and post-filter and lossless compression.IEEE Trans.Speech and AudioProcessing,10:379-390,2002.
[10]W.B.Kleijn and K.K.Paliwal(Eds).Speech coding and synthesis,Elsevier,1995,Amsterdam,pp.79-119.
Claims (21)
1、一种编码数字音频信号的方法,其中,对于该信号的每一个时间片断执行以下步骤:
-对该信号进行频谱拉平,以便得到频谱拉平信号(r);
-用激励信号对该频谱拉平信号进行建模,该激励信号包含第一和第二部分激励信号;
-第一部分激励信号(pX)与由RPE或CELP脉冲建模技术生成的激励信号相符合;
-第二部分激励信号(pEP)是该频谱拉平信号中的一组附加脉冲(P)建模尖峰(S),所述附加脉冲具有任意的位置和幅度;
以及
-生成包含第一和第二部分激励信号的音频比特流。
2、根据权利要求1所述的方法,其中,在基本上对应于所述尖峰(S)的发生时间的时间位置处,将所述一个或多个附加脉冲(P)添加到所述激励信号(x)。
3、根据权利要求1所述的方法,其中,在RPE时间栅格上的时间位置处,将所述一个或多个附加脉冲(P)添加到所述激励信号(x)。
4、根据权利要求1所述的方法,其中,第一部分激励信号(pX)的各脉冲和第二部分激励信号(pEP)的一个或多个脉冲(P)都处在RPE时间栅格上的时间位置处。
5、根据权利要求3所述的方法,其中,所述附加脉冲的位置被确定为从残余信号计算出的未量化的RPE激励信号的几个极值的位置。
6、根据权利要求1所述的方法,其中,所述音频比特流进一步包括频谱拉平参数(LPP)。
7、一种适于编码数字音频信号的时间片断的音频编码器,该编码器包括:
-频谱拉平单元,其用于对该信号进行频谱拉平,以便输出频谱拉平信号(r);
-计算单元,其适于计算包含第一和第二部分激励信号的激励信号;
-第一部分激励信号(pX)与由RPE或CELP技术生成的激励信号相符合;
-第二部分激励信号(pEP)是该频谱拉平信号中的一组附加脉冲(P)建模尖峰(S),所述附加脉冲具有任意的位置和幅度,
以及
-音频比特流发生器,其用于生成包含第一和第二部分激励信号的音频比特流。
8、根据权利要求7所述的音频编码器,其中,所述计算单元适于在对应于所述尖峰(S)的发生时间的时间位置处将所述一个或多个附加脉冲(P)添加到所述激励信号(x)。
9、根据权利要求7所述的音频编码器,其中,所述计算单元适于在RPE时间栅格上的时间位置处将所述一个或多个附加脉冲(P)添加到所述激励信号(x)。
10、根据权利要求7所述的音频编码器,其中,第一部分激励信号(pX)的各脉冲和第二部分激励信号(pEP)的一个或多个脉冲(P)都处在RPE时间栅格上的时间位置处。
11、根据权利要求7所述的音频编码器,其中,所述附加脉冲的位置被确定为从残余信号计算出的未量化的RPE激励信号的几个极值的位置。
12、根据权利要求7所述的音频编码器,其中,所述音频比特流进一步包括频谱拉平参数(LPP)。
13、一种解码所接收到的音频比特流(AS)的方法,其中,对于音频信号的多个片断当中的每一个,该音频比特流包括:
-第一部分激励信号(pX),其与由RPE或CELP脉冲建模技术生成的激励信号相符合;
-第二部分激励信号(PEP),其是所述频谱拉平信号中的一组附加脉冲(P)建模尖峰(S),所述附加脉冲具有任意的位置和幅度,
该方法包括基于组合的第一和第二激励信号以及所述频谱拉平参数(LPP)来合成输出信号的措施。
14、根据权利要求13所述的方法,其中,所述频谱拉平参数(LPP)是利用向后自适应线性预测算法生成的。
15、根据权利要求13所述的方法,其中,所述频谱拉平参数(LPP)被包含在所述音频比特流中。
16、一种用于接收和解码音频比特流(AS)的音频播放器,其中,对于音频信号的多个片断当中的每一个,该音频比特流包括:
-第一部分激励信号(pX),其与由RPE或CELP技术生成的激励信号相符合;
-第二部分激励信号(pEP),其是所述频谱拉平信号中的一组附加脉冲(P)建模尖峰(S),所述附加脉冲具有任意的位置和幅度,
该音频播放器包括用于从组合的各部分激励信号和频谱拉平参数(LPP)合成输出信号的装置。
17、根据权利要求16所述的音频播放器,其包括利用向后自适应线性预测算法来生成所述频谱拉平参数(LPP)的装置。
18、根据权利要求16所述的音频播放器,其适于使用与所述音频比特流(AS)一起接收的频谱拉平参数(LPP)。
19、一种音频比特流(AS),对于音频信号的多个片断当中的每一个,该音频比特流包括:
-第一部分激励信号(pX),其与由RPE或CELP技术生成的激励信号相符合;
-第二部分激励信号(PEP),其是所述频谱拉平信号中的一组附加脉冲(P)建模尖峰(S),所述附加脉冲具有任意的位置和幅度。
20、根据权利要求19的音频比特流(AS),其进一步包括频谱拉平参数(LPP)。
21、一种存储有如权利要求19-20中的任意一项所述的音频比特流(AS)的存储介质。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04102880.4 | 2004-06-22 | ||
EP04102880 | 2004-06-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101099199A true CN101099199A (zh) | 2008-01-02 |
Family
ID=34970592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005800208494A Pending CN101099199A (zh) | 2004-06-22 | 2005-06-15 | 音频编码和解码 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20080275709A1 (zh) |
EP (1) | EP1761916A1 (zh) |
JP (1) | JP2008503786A (zh) |
KR (1) | KR20070029751A (zh) |
CN (1) | CN101099199A (zh) |
WO (1) | WO2006000956A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105280190A (zh) * | 2015-09-16 | 2016-01-27 | 深圳广晟信源技术有限公司 | 带宽扩展编码和解码方法以及装置 |
CN105593931A (zh) * | 2013-07-22 | 2016-05-18 | 弗劳恩霍夫应用研究促进协会 | 使用联合编码残余信号的音频编码器、音频解码器、方法及计算机程序 |
CN111210832A (zh) * | 2018-11-22 | 2020-05-29 | 广州广晟数码技术有限公司 | 基于频谱包络模板的带宽扩展音频编解码方法及装置 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070090217A (ko) * | 2004-12-28 | 2007-09-05 | 마츠시타 덴끼 산교 가부시키가이샤 | 스케일러블 부호화 장치 및 스케일러블 부호화 방법 |
US9420332B2 (en) * | 2006-07-06 | 2016-08-16 | Qualcomm Incorporated | Clock compensation techniques for audio decoding |
KR100788706B1 (ko) * | 2006-11-28 | 2007-12-26 | 삼성전자주식회사 | 광대역 음성 신호의 부호화/복호화 방법 |
EP2128858B1 (en) * | 2007-03-02 | 2013-04-10 | Panasonic Corporation | Encoding device and encoding method |
KR100826808B1 (ko) * | 2007-03-27 | 2008-05-02 | 주식회사 만도 | 안티록 브레이크 시스템용 밸브 |
KR101441897B1 (ko) * | 2008-01-31 | 2014-09-23 | 삼성전자주식회사 | 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3063087B2 (ja) * | 1988-05-20 | 2000-07-12 | 日本電気株式会社 | 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置 |
DE68922134T2 (de) * | 1988-05-20 | 1995-11-30 | Nec Corp | Überträgungssystem für codierte Sprache mit Codebüchern zur Synthetisierung von Komponenten mit niedriger Amplitude. |
SE506379C3 (sv) * | 1995-03-22 | 1998-01-19 | Ericsson Telefon Ab L M | Lpc-talkodare med kombinerad excitation |
DE19641619C1 (de) * | 1996-10-09 | 1997-06-26 | Nokia Mobile Phones Ltd | Verfahren zur Synthese eines Rahmens eines Sprachsignals |
US6377915B1 (en) * | 1999-03-17 | 2002-04-23 | Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. | Speech decoding using mix ratio table |
US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
US7233896B2 (en) * | 2002-07-30 | 2007-06-19 | Motorola Inc. | Regular-pulse excitation speech coder |
WO2005036527A1 (ja) * | 2003-10-07 | 2005-04-21 | Matsushita Electric Industrial Co., Ltd. | スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法 |
-
2005
- 2005-06-15 KR KR1020067026950A patent/KR20070029751A/ko not_active Application Discontinuation
- 2005-06-15 US US11/570,539 patent/US20080275709A1/en not_active Abandoned
- 2005-06-15 JP JP2007517598A patent/JP2008503786A/ja active Pending
- 2005-06-15 EP EP05751672A patent/EP1761916A1/en not_active Withdrawn
- 2005-06-15 WO PCT/IB2005/051972 patent/WO2006000956A1/en not_active Application Discontinuation
- 2005-06-15 CN CNA2005800208494A patent/CN101099199A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105593931A (zh) * | 2013-07-22 | 2016-05-18 | 弗劳恩霍夫应用研究促进协会 | 使用联合编码残余信号的音频编码器、音频解码器、方法及计算机程序 |
CN105280190A (zh) * | 2015-09-16 | 2016-01-27 | 深圳广晟信源技术有限公司 | 带宽扩展编码和解码方法以及装置 |
CN105280190B (zh) * | 2015-09-16 | 2018-11-23 | 深圳广晟信源技术有限公司 | 带宽扩展编码和解码方法以及装置 |
CN111210832A (zh) * | 2018-11-22 | 2020-05-29 | 广州广晟数码技术有限公司 | 基于频谱包络模板的带宽扩展音频编解码方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2006000956A1 (en) | 2006-01-05 |
JP2008503786A (ja) | 2008-02-07 |
KR20070029751A (ko) | 2007-03-14 |
EP1761916A1 (en) | 2007-03-14 |
US20080275709A1 (en) | 2008-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
USRE49363E1 (en) | Variable bit rate LPC filter quantizing and inverse quantizing device and method | |
CN101743586B (zh) | 音频编码器、编码方法、解码器、解码方法 | |
RU2483364C2 (ru) | Схема аудиокодирования/декодирования с переключением байпас | |
KR100264863B1 (ko) | 디지털 음성 압축 알고리즘에 입각한 음성 부호화 방법 | |
US20170221498A1 (en) | Adaptive Bandwidth Extension and Apparatus for the Same | |
CN101099199A (zh) | 音频编码和解码 | |
CN1379899A (zh) | 语音可变速率编码方法与设备 | |
CN1965352B (zh) | 音频编码 | |
JP2011518345A (ja) | スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング | |
JPH10187196A (ja) | 低ビットレートピッチ遅れコーダ | |
RU2646357C2 (ru) | Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием информации формирования речевого спектра | |
RU2644123C2 (ru) | Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием детерминированной и шумоподобной информации | |
Wang et al. | A novel hierarchical decomposition vector quantization method for high-order LPC parameters | |
WO2004090864A2 (en) | Method and apparatus for the encoding and decoding of speech | |
KR20170098278A (ko) | 부호화 장치, 복호 장치, 이들의 방법, 프로그램 및 기록 매체 | |
US20060235681A1 (en) | Adaptive pulse allocation mechanism for linear-prediction based analysis-by-synthesis coders | |
Patel et al. | Implementation and Performance Analysis of g. 723.1 speech codec | |
JP2560860B2 (ja) | マルチパルス型音声符号化及び復号化装置 | |
JP3071800B2 (ja) | 適応ポストフィルタ | |
JP3103108B2 (ja) | 音声符号化装置 | |
Elfitri | Closed-Loop Spatial Audio Coding | |
Duni et al. | Performance of speaker-dependent wideband speech coding. | |
Ritz et al. | Transcoding of Narrowband to Wideband Speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20080102 |