CN101488345B

CN101488345B - 有效编码语音信号的信号修改方法

Info

Publication number: CN101488345B
Application number: CN200910005427XA
Authority: CN
Inventors: 米科·塔米; 米兰·杰利内克; 克劳德·拉夫拉姆; 维萨·劳皮拉
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2001-12-14
Filing date: 2002-12-13
Publication date: 2013-07-24
Anticipated expiration: 2022-12-13
Also published as: JP2005513539A; DE60219351D1; WO2003052744A2; BR0214920A; MXPA04005764A; ATE358870T1; CN101488345A; RU2004121463A; EP1758101A1; KR20040072658A; EP1454315A2; HK1069472A1; NZ533416A; AU2002350340B2; EP1454315B1; WO2003052744A3; NO20042974L; RU2302665C2; US7680651B2; US20050071153A1

Abstract

本发明提供一种在使用用于数字编码语音信号的信号修改的技术中形成以长期预测为特征的延迟轮廓的方法。该方法包括：将所述语音信号划分为一系列连续的帧；定位前一个帧中的语音信号的音调脉冲；以及定位当前帧中的语音信号的音调脉冲；其特征在于：利用前一个帧的长期预测延迟参数和当前帧的长期预测延迟参数将前一帧的音调脉冲映射到当前帧的音调脉冲特征，形成分段的线性延迟轮廓。本发明还提供相应的用于在使用用于数字编码语音信号的信号修改的技术中形成以长期预测为特征的延迟轮廓的设备。

Description

有效编码语音信号的信号修改方法

本申请是申请号为02827607.8、申请日为2002年12月13日、发明名称为“有效编码语音信号的信号修改方法”的发明专利申请的分案申请。

技术领域

本发明一般地涉及在通信系统中的声音信号的编码和解码。更具体而言，本发明涉及可适用于--特别而不是唯一地--码激励线性预测(code-excited linear prediction，CELP)编码。

背景技术

在诸如电视会议、多媒体和无线通信的各种应用领域中，对于具有在主观质量和比特率之间的良好折中的有效数字窄带和宽带语音编码技术的需求正在增加。直到最近，被限制到200-3400Hz的范围中的电话带宽已经主要被用于语音编码应用中。但是，与传统的电话带宽相比较，宽带语音应用在通信上增加了清晰度和自然度。已经发现在50-7000Hz范围中的带宽对于提供具有面对面交流的印象的良好质量是足够的。对于一般的音频信号，这个带宽给出了可接受的主观质量，但是仍然低于分别工作在20-16000Hz和20-20000HZ范围内的FM无线电或CD的质量。

语音编码器将语音信号转换为数字比特流，所述数字比特流通过通信信道被.发送或被存储在存储介质中。所述语音信号被数字化，即被采样和量化，通常每个采样具有16比特。语音编码器扮演以更少数量的比特来表示这些数字采样的角色，同时保持良好的主观语音质量。语音解码器或合成器对被发送或存储的比特流工作，并且将其转换回声音信号。

码激励线性预测(CELP)编码是用于实现在主观质量(subjective quality)和比特率之间的良好折中的最佳技术之一。这种编码技术是在无线和有线应用中的几种语音编码标准的基础。在CELP编码中，以通常成为帧的连续的N个采样的块来处理采样的语音信号，其中N是通常对应于10-30ms。的预定数量。每个帧计算和发送一个线性预测(linear Prediction，LP)滤波器。LP滤波器的计算通常需要预见，即子随后帧的5-10ms的语音段。N采样的帧被划分为被称为子帧的更小的块。通常子帧的数量是三或四，因此产生4-10ms的子帧。在每个子帧中，通常根据两个分量获得一个激励信号：一个过去激励和一个革新的固定代码本(fixed-codebook)激励。根据过去激励形成的分量经常被称为自适应代码本或音调激励(pitch excitation)。所述激励信号的特征参数被编码和发送到解码器，在此重新构造的激励信号被用作LP滤波器的输入。

在传统的CELP编码中，通常在子帧的基础上执行用于将过去的激励映射为现在的激励的长期预测(long-term prediction)。长期预测的特征在于延迟参数和音调增益，它们通常对于每个子帧被计算、编码和发送到解码器。在低比特率，这些参数消耗可用的比特预算的相当一部分。信号修改技术[1-7]

[1]W.B.Kleijn，P.Kroon，and D.Nahumi，“The RCELP speech-codingalgorithm，”European Transactions on Telecommunications，Vol.4，No.5，pp.573-582，1994(W.B.Kleijn、P.Kroon和D.Nahumi，“RCELP语音编码算法”，欧洲电信会报，第4卷，第5期，第573-582页，1994)

[2]W.B.Kleijn，R.P.Ramachandran，and P.Kroon，“Interpolation of thepitch-predictor parameters in analysis-by-synthesis speech coders，”IEEETransactions on Speech and Audio Processing，Vol.2，No.1，pp.42-54，1994(W.B.Kleijn、R.P.Ramachandran和P.Kroon，“在综合分析语音编码器中的音调预测参数的内插”，IEEE语音和音频处理会报，第2卷，第1期，第42-54页，1994)

[3]Y.Gao，A.Benyassine，J.Thyssen，H.Su，and E.Shlomot，“EX-CELP：Aspeech coding paradigm，”IEEE International Conference on Acoustics，Speech and Signal Processing(ICASSP)，Salt Lake City，Utah，U.S.A.，pp.689-692，7-11 May 2001(Y.Gao、A.Benyassine、J.Thyssen，H.Su和E.Shlomot，“EX-CELP：语音编码模式”，关于声学、语音和驰处理的IEEE国际会议(ICASSP)，盐湖城，犹他，美国，第689-692页，2001年5月7-11日)

[4]US Patent 5,704,003，“RCELP coder，”Lucent Technologies Inc.，(W.B.Kleijn and D.Nahumi)，Filling Date：19 September 1995(美国专利5,704,003，“RCELP编码器”，朗讯技术公司，(W.B.Kleijn和D.Nahumi)，提交日期：1995年9月19日)

[5]European Patent Application 0602826A2，“Time shifting foranalysis-by-synthesis coding，”AT&T Corp.，(B.Kleijn)，Filling Date：1December 1993(欧洲专利申请0602826A2，“综合分析编码的时移”，美国电话电报公司，(B.Kleijn)，提交日期：1993年12月1日)

[6]Patent Applicati on WO 00/11653，“Speech encoder with continuouswarping combined with long term prediction，”Conexant Systems Inc.，(Y.Gao)，Filing Date：24 August 1999(专利申请WO 00/11653，“具有与长期预测结合的连续变形的语音编码器”，Conexant系统公司，(Y.Gao)，提交日期：1999年8月24日)

[7]Patent Application WO 00/11654，“Speech encoder adaptively applyingpitch preprocessing with continuous warping，”Conexant Systems Inc.，(H.Su and Y.Gao)，Filing Date：24 August 1999(专利申请WO00/11654，“自适应地应用具有连续变形的音调预处理的语音编码器”，Conexant系统公司，(H.Su和Y.Gao)，提交日期：1999年8月24日)

通过调整要编码的信号而改进了在低比特率下的长期预测性能。这是通过适配语音信号中的音调周期(pitch cycle)的演变以适合长期预测延迟来进行的，使得能够每个帧发送仅仅一个延迟参数。信号修改基于下述前提：有可能呈现在修改的语音信号和不可听见的原始语音信号之间的差别。使用信号修改的CELP编码器经常被称为一般化的综合分析或张驰CELP(relaxed RCELP)编码器。

信号修改技术将信号的音调调整为预定的延迟轮廓(delay contour)。长期预测然后通过使用这个延迟轮廓和以增益参数缩放来将过去激励信号映射为现在的子帧。所述延迟轮廓是通过在两个开环音调估计(open-loop pitchestimates)之间内插而直接被得到的，第一个是在前一个帧中获得的，第二个是在当前帧中获得的。内插给出了所述帧的每个时刻的延迟值。在可以获得延迟轮廓之后，调整在当前要编码的子帧中的音调，以便通过变形、即改变信号的时标(time scale)来适应这个人为的轮廓。

在不连续变形[1、4和5]中

[5]European Patent Application 0602826A2，“Time shifting foranalysis-by-synthesis coding，”AT&T Corp.，(B.Kleijn)，Filling Date：1December 1993(欧洲专利申请0602826A2，“综合分析编码的时移”，美国电话电报公司，(B.Kleijn)，提交日期：1993年12月1日)信号分段被时移而不改变分段长度。不连续的变形需要一个用于处理结果产生的重叠或丢失信号部分的过程。连续的变形[2、3、6、7]

[3]Y.Gao，A.Benyassine，J.Thyssen，H.Su，and E.Shlomot，“EX-CELP：Aspeech coding paradigm，”IEEE International Conference on Acoustics，Speech and Signal Processing(ICASSP)，Salt Lake City，Utah，U.S.A.，pp.689-692，7-11May 2001(Y.Gao、A.Benyassine、J.Thyssen，H.Su和E.Shlomot，“EX-CELP：语音编码模式”，关于声学、语音和信号处理的IEEE国际会议(ICASSP)，盐湖城，犹他，美国，第689-692页，2001年5月7-11日)

[6]Patent Application WO 00/11653，“Speech encoder with continuouswarping combined with long term prediction，”Conexant Systems Inc.，(Y.Gao)，Filing Date：24August 1999(专利申请WO 00/11653，“具有与长期预测结合的连续变形的语音编码器”，Conexant系统公司，(Y.Gao)，提交日期：1999年8月24日)

[7]Patent Application WO 00/11654，“Speech encoder adaptively applyingpitch preprocessing with continuous warping，”Conexant Systems Inc.，(H.Su and Y.Gao)，Filing Date：24 August 1999(专利申请WO 00/11654，“自适应地应用具有连续变形的音调预处理的语音编码器”，Conexant系统公司，(H.Su和Y.Gao)，提交日期：1999年8月24日)

收缩或扩展一个信号分段。这是通过使用对于信号分段的时间连续近似和将其以基于延迟轮廓确定的不相等的采样间隔重新采样为期望的长度来进行的。为了减少在这些操作中的人为效果，将时标中所容许的改变保持为较小。而且，通常使用LP残余(residual)信号或加权的语音信号来进行变形以减少结果产生的失真。这些信号而不是语音信号的使用也便利了检测音调脉冲和其间的低功率区域，因此便于确定用于变形的信号分段。实际的修改的语音信号是通过反向滤波产生的。

在对于当前子帧进行信号修改后，可以以任何传统的方式来进行编码，除了使用预定的延迟轮廓来产生自适应代码本激励。实际上，可以在窄带或宽带CELP编码中使用相同的信号修改技术。

信号修改技术也可以按照[8]被应用到其他类型的语音编码方法中，诸如波形内插编码和正弦编码。

[8]US Patent 6,223,151，“Method and apparatus for preprocessing speechsignals prior to coding by transform-based speech coders，”Telefon AktieBolaget LM Ericsson，(W.B.Kleijn and T.Eriksson)，Filling Date：10Feb.1999(美国专利6,223,151，“用于通过基于变换的语音编码器在编码前预处理语音信号的方法和装置”，Telefon Aktie Bolaget LM Ericsson，(W.B.Kleijn和T.Eriksson)，提交日期：1999年2月10日)

发明内容

本发明涉及一种用于在使用用于数字编码声音信号的信号修改的技术中确定以长期预测为特征的长期预测延迟参数的方法，包括：将所述声音信号划分为一系列连续的帧；定位前一个帧中的声音信号的特征；定位当前帧中的声音信号的对应特征；和确定当前帧的长期预测延迟参数，以便长期预测将前一个帧的信号特征映射到当前帧的对应信号特征。

主题发明涉及一种用于在使用用于数字编码声音信号的信号修改的技术中确定以长期预测为特征的长期预测延迟参数的器件，包括：用于将所述声音信号划分为一系列连续的帧的划分器；用于单位前一个帧中的声音信号的特征的检测器；用于定位当前帧中的声音信号的对应特征的检测器；用于确定当前帧的长期预测延迟参数的计算器，进行所述长期预测延迟参数的计算，以便长期预测将前一个帧的信号特征映射到当前帧的对应信号特征。

按照本发明，提供了一种信号修改方法，用于实现到用于数字编码声音信号的一种技术中，包括：将所述声音信号划分为一系列连续的帧；将声音信号的每个帧分为多个信号分段；将所述帧的至少一部分信号分段变形，所述变形包括限制在所述帧内的被变形信号分段。

按照本发明，提供了一种信号修改器件，用于实现到用于数字编码声音信号的一种技术中，包括：第一划分器，用于将所述声音信号划分为一系列连续的帧；第二划分器，用于将声音信号的每个帧划分为多个信号分段；和信号分段变形件，被提供所述帧的至少一部分信号分段，这个变形件包括一个限制器，用于限制在所述帧内的被变形的信号分段。

本发明也涉及一种用于搜索在声音信号中的音调脉冲的方法，包括：将所述声音信号划分为一系列连续的帧；将每个帧划分为多个子帧；通过经由线性预测分析滤波器滤波所述声音信号来产生残余信号；根据所述残余信号定位前一个帧的声音信号的最后一个音调脉冲；使用所述残余信号在前一个帧的声音信号的最后一个音调脉冲位置周围提取给定长度的音调脉冲原型(pulse prototype)；和使用音调脉冲原型来定位在当前帧中的音调脉冲。

本发明也涉及一种用于搜索在声音信号中的音调脉冲的器件，包括：用于将所述声音信号划分为一系列连续的帧的划分器；用于将每个帧划分为多个子帧的划分器；线性预测分析滤波器，用于滤波所述声音信号从而产生残余信号；用于响应于所述残余信号来定位前一个帧的声音信号的最后一个音调脉冲的检测器；提取器，用于响应于所述残余信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型；和用于使用音调脉冲原型来定位在当前帧中的音调脉冲的检测器。

按照本发明，也提供了一种用于搜索在声音信号中的音调脉冲的方法，包括：将所述声音信号划分为一系列连续的帧；将每个帧划分为多个子帧；通过经由加权滤波器来处理所述声音信号来产生加权声音信号，其中所述加权的声音信号指示信号的周期性；根据所述加权声音信号定位前一个帧的声音信号的最后一个音调脉冲；使用所述加权声音信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型；使用音调脉冲原型来定位当前帧中的音调脉冲。

同样，按照本发明，提供了一种用于搜索在声音信号中的音调脉冲的器件，包括：用于将所述声音信号划分为一系列连续的帧的划分器；用于将每个帧划分为多个子帧的划分器；加权滤波器，用于处理所述声音信号来产生加权的声音信号，所述加权的声音信号指示信号的周期性；用于响应于所述加权的声音信号定位前一个帧的声音信号的最后一个音调脉冲的检测器；提取器，用于响应于所述加权的声音信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型；和用于使用音调脉冲原型来定位在当前帧中的音调脉冲的检测器。

本发明还涉及一种用于搜索在声音信号中的音调脉冲的方法，包括：将所述声音信号划分为一系列连续的帧；将每个帧划分为多个子帧；通过经由加权滤波器来滤波在声音信号的前一个帧的最后一个子帧期间产生的合成的语音信号来产生合成的加权声音信号；根据所述合成的加权声音信号定位前一个帧的声音信号的最后一个音调脉冲；使用所述合成的加权声音信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型；和使用音调脉冲原型来定位在当前帧中的音调脉冲。

本发明还涉及一种用于搜索在声音信号中的音调脉冲的器件，包括：用于将所述声音信号划分为一系列连续的帧的划分器；用于将每个帧划分为多个子帧的划分器；加权滤波器，用于滤波在声音信号的前一个帧的最后一个子帧期间产生的合成的语音信号以产生合成的加权声音信号；用于响应于所述合成的加权声音信号定位前一个帧的声音信号的最后一个音调脉冲的检测器；提取器，用于响应于所述合成的加权声音信号在前一个帧的声音信号的最后音调脉冲位置周围提取给定长度的音调脉冲原型；和用于使用音调脉冲原型来定位在当前帧中的音调脉冲的检测器。

根据本发明，还提供了一种用于在解码声音信号期间形成自适应代码本激励的方法，所述声音信号被划分为连续的帧并且通过使用用于数字编码声音信号的信号修改的技术被提前编码，所述方法包括：

对于每个帧接收在所述数字声音信号编码技术中以长期预测为特征的长期预测延迟参数；

使用在当前帧期间接收的长期预测延迟参数和在前一个帧期间接收的长期预测延迟参数来恢复延迟轮廓，其中所述具有长期预测的延迟轮廓将前一个帧的信号特征映射为当前帧的对应信号特征；

响应于延迟轮廓而形成在自适应代码本中的自适应代码本激励。

而且，按照本发明，提供了一种用于在解码声音信号期间形成自适应代码本激励的器件，所述声音信号被划分为连续的帧并且通过使用用于数字编码声音信号的信号修改的技术被提前编码，所述器件包括：

接收器，接收每个帧的长期预测延迟参数，其中所述长期预测延迟参数在所述数字声音信号编码技术中以长期预测为特征；

计算器，响应于在当前帧期间接收的长期预测延迟参数和在前一个帧期间接收的长期预测延迟参数来计算延迟轮廓，其中所述具有长期预测的延迟轮廓将前一个帧的信号特征映射为当前帧的对应信号特征；和

自适应代码本，用于响应于延迟轮廓而形成自适应代码本激励。

通过读取仅仅参照附图以示例给出的本发明的图解实施例的下列非限定性说明，本发明的上述和其他目的、优点和特征将会变得更加清楚。

附图说明

图1是一个帧的原始和修改的残余信号的图解示例；

图2是按照本发明的信号修改方法的一个图解实施例的功能方框图；

图3是示出语音编码器和解码器的使用的语音通信系统的图解示例的示意方框图；

图4是利用信号修改方法的语音编码器的图解实施例的示意方框图；

图5是音调脉冲搜索的图解实施例的功能方框图；

图6是一个帧的被定位的音调脉冲位置和对应的音调周期分段的图解示例；

图7是当音调脉冲的数量是3(c＝3)时确定延迟参数的图解示例；

图8是与线性内插(细线)相比较在语音帧上的延迟内插(粗线)的图解示例；

图9是当校正的音调值是52个采样时在按照图8的延迟内插(粗线)和线性内插(细线)而选择的10个帧上的延迟轮廓的图解示例；

图10是按照本发明的图解实施例的用于将语音帧调整为所选择的延迟轮廓的信号修改方法的功能方框图；

图11是使用确定的最佳位移δ来更新目标信号

和使用被图示为灰点的内插值来替代信号分段w_s(k)的图解示例；

图12是按照本发明的一个图解实施例的速率确定逻辑的功能方框图；

图13是使用按照本发明的一个图解实施例而形成的延迟轮廓的语音解码器的图解实施例的示意方框图。

具体实施方式

虽然将参照语音信号和3GPP AMR宽带语音编码解码AMR-WB标准(ITU-TG.722.2)来说明本发明的图解实施例，但是应当知道本发明的思想可以被应用到其他类型的声音信号以及其他的语音和音频编码器。

图1图解了在一个帧内的修改的残余信号12的示例。如图1所示，限制修改的残余信号12中的时移，从而在时刻t_n-1和t_n出现的帧边界处，这个修改的残余信号与原始的、未修改的残余信号时间同步。在此n指的是当前帧的下标。

更具体而言，使用用于在当前帧上内插延迟参数的延迟轮廓而明确地控制所述时移。根据在上述帧边界的时间排列限制来确定所述延迟参数和轮廓。当使用线性内插来强制时间排列时，结果产生的延迟参数趋向于在几个帧上振动。这经常对其音调跟随人为的振动延迟轮廓的被修改信号引起恼人的人为效果。对于延迟参数使用适当选择的非线性内插技术将大大地减少这些振动。

图2中提供了按照本发明的信号修改方法的图解实施例的功能方框图。

所述方法以“音调周期搜索”方框101开始，定位独立的音调脉冲和音调周期。方框101的搜索使用在所述帧上内插的开环音调估计。根据所定位的音调脉冲，所述帧被划分为音调周期分段，每个音调周期分段包括一个音调脉冲并且被限制在帧边界t_n-1和t_n内。

“延迟曲线选择”方框103的功能是确定长期预测器的延迟参数，并且形成用于在所述帧上内插这个延迟参数的延迟轮廓。根据在帧边界t_n-1和t_n的时间同步限制来确定所述延迟参数和轮廓。当对于当前帧使能信号修改时，在方框103中确定的延迟参数被编码和被发送到解码器。

在“音调同步信号调制”方框105进行实际的信号修改操作。方框105首先形成基于在方框103确定的延迟轮廓的目标信号，用于随后将独立的音调周期分段匹配到这个目标信号中。所述音调周期分段随后被逐个位移以最大化它们与这个目标信号的关联性。为了将复杂性保持在低水平，当搜索最佳位移和位移所述段时，不应用任何连续时间变形。

在本说明书中公开的信号修改方法的图解实施例通常在纯有声的语音帧上被使能。例如，因为引起人为效果的高风险而不修改诸如语音开始的过渡帧。在纯有声的帧中，音调周期通常改变较慢，因此小位移足够将所述信号适配到长期的预测模型。因为仅仅进行小的、谨慎的信号调整，因此最小化了引起人为效果的可能。

所述信号修改方法构成了用于纯有声的段的有效分类器，因此构成要用于语音信号的来源控制编码中的速率确定机制。图2的每个方框101、103和105提供了关于在当前帧中的信号周期性和信号修改的适合性的几个指示器。这些指示器在逻辑方框102、104和106中被分析，以便确定当前帧的适当编码模式和比特率，更具体而言，这些逻辑方框102、104和106监控在方框101、103和105中进行的操作的成功。

如果方框102检测到在方框101中执行的操作是成功的，则所述信号修改方法在方框103中继续。当这个方框102检测到在方框101中执行的操作中的失败时，信号修改过程终止，并且原始语音帧被保持完整以用于编码(参见对应于正常模式的方框108(无信号修改))。

如果方框104检测到在方框103中执行的操作是成功的，则所述信号修改方法在方框105继续。相反，当这个方框104检测到在方框103中执行的操作中的失败时，信号修改过程终止，并且原始语音帧被保持完整以用于编码(参见对应于正常模式的方框108(无信号修改))。

如果方框106检测到在方框105中执行的操作是成功的，则使用具有信号修改的低比特率模式(见方框107)。相反，当这个方框106检测到在方框105中执行的操作中的失败时，信号修改过程终止，并且原始语音帧被保持完整以用于编码(参见对应于正常模式的方框108(无信号修改))。在本说明书中下面详细说明方框101-108的操作。

图3是用于描述语音编码器和解码器的使用的语音通信系统的图解示例的示意方框图。图3的语音通信系统支持在通信信道205上的语音信号的发送和再现。虽然它可以包括例如有线、光链路或光纤线路链路，但是通信信道205通常包括至少一部分射频链路。所述射频链路经常支持需要共享带宽资源的多个、同时的语音通信，诸如在蜂窝电话中可以发现的那样。虽然未示出，但是通信信道205可以被替换为存储器件，用于记录和存储编码的语音信号以用于以后的播放。

在发射器侧，麦克风201产生模拟语音信号210，它被提供到模数(A/D)转换器202。A/D转换器202的功能是将模拟语音信号210转换为数字语音信号211。语音编码器203对数字语音信号211编码以产生一组编码参数212，它们被编码为二进制形式并且被提供到信道编码器204。信道编码器204向在将编码参数通过通信信道205发送到比特流213之前向编码参数的二进制表示增加冗余。

在接收器侧，信道解码器206被提供来自所接收的比特流214的、上述的编码参数的冗余的二进制表示，以便检测和校正在传输中发生的信道误差。语音解码器207将来自信道解码器206的信道误差校正的比特流215转换回一组编码参数，用于建立合成的数字语音信号216。由语音解码器207重新构建的合成的语音信号216通过数模(D/A)转换器208被转换为模拟语音信号217，并且通过扬声器单元209被重放。

图4是示出由并入信号修改功能的语音编码器203(图3)的图解实施例执行的操作的示意方框图。本说明书提供了在图4中的方框603的信号修改功能的新颖实现方式。由语音编码器203执行的其他操作是本领域内的普通技术人员公知的，并且已经在例如出版物[10]中被说明，

[10]3GPP TS 26，190，“AMR Wideband Speech Codec：TranscodingFunctions，”3GPP Technical Specification(3GPP TS 26，190，“AMR宽带语音编码解码器：译码功能”，3GPP技术规范)

在此引用该出版物作为参考。当不另外说明时，在本发明的图解实施例和示例中的语音编码和解码操作的实现将符合AMR宽带语音编码解码(AMR-WB)标准。

如图4所示的语音编码器203使用一个或多个编码模式来编码数字化的语音信号。当使用多个编码模式并且在这些模式之一中禁止信号修改功能时，这个特定模式将按照对本领域的普通技术人员公知的良好建立的标准来工作。

虽然在图4中未示出，但是所述语音信号被以16kHz的速率采样，并且每个语音信号被数字化。所述数字语音信号然后被划分为给定长度的连续帧，并且这些帧的每个被划分为给定数量的连续子帧。数字语音信号进一步被预处理，如AMR-WB标准所述。这个预处理包括高通滤波、使用滤波器P(z)＝1-0.68z^-1的预加重(pre-emphasis)滤波、以及16kHz到12.8kHz采样率的下采样(down-sampling)。图4的随后操作假定输入的语音信号s(t)已经被预处理和下采样为12.8kHz的采样率。

语音编码器203包括LP(线性预测)分析和量化模块601，用于响应于输入的、预处理的数字语音信号s(t)617而计算和量化LP滤波器1/A(z)的参数a₀、a₁、a₂、...、a_nA，其中n_A是滤波器的阶，A(z)＝a₀+a₁z^-1+a₂z^-2+...+a_nz^-nA。这些量化的LP滤波器参数的二进制表示616被提供给复用器614，并且随后被复用到比特流615中。非量化的和量化的LP滤波器参数可以被内插以获得每个子帧的对应的LP滤波器参数。

语音编码器203还包括音调估计器602，用于响应于来自LP分析和量化模块601的LP滤波器参数618而计算当前帧的开环音调估计619。这些开环音调估计619被内插在所述帧上以便在信号修改模块603中使用。

可以按照上述AMR-WB标准来实现在LP分析和量化模块601和音调估计器602中执行的操作。

图4的信号修改模块603在闭环音调搜索自适应代码本激励信号之前执行信号修改操作，以将语音信号调整为确定的延迟轮廓d(t)。在所述图解的实施例中，延迟轮廓d(t)定义了帧的每个采样的长期预测延迟。在构造上，延迟轮廓在帧t∈(t_n-1，t_n)上完全以延迟参数620 d_n＝d(t_n)及其前一个值d_n-1＝d(t_n-1)--它们等于在帧边界的延迟轮廓的值--为特征。延迟参数620被确定为信号修改操作的一部分，并且被编码和随后被提供到复用器614，在此它被复用到比特流615中。

定义帧的每个采样的长期预测延迟参数的延迟轮廓d(t)被提供到自适应代码本607。自适应代码本607响应于延迟轮廓d(t)而使用延迟轮廓d(t)作为u_b(t)＝u(t-d(t))根据激励u(t)形成当前帧的自适应代码本激励u_b(t)。因此延迟轮廓将激励信号u(t-d(t))的过去的采样映射为在自适应代码本激励u_b(t)中的当前采样。

信号修改过程也产生修改的残余信号，以用于组成固定代码本激励u_c(t)的闭环搜索的修改目标信号621。修改的残余信号

是通过变形LP残余信号的音调周期分段而在信号修改模块603中获得的，并且被提供到模块604中来计算修改的目标信号。所述修改的残余信号与滤波器1/A(z)的LP合成滤波然后在模块604中得到修改的语音信号。固定代码本激励搜索的修改的目标信号621按照AMR-WB标准的操作在模块604中被形成，但是将原始的语音信号替换为其修改版本。

在对于当前帧已经获得自适应代码本激励u_b(t)和修改的目标信号621以后，可以使用传统的手段来进一步进行编码。

闭环固定代码本激励搜索的功能是确定当前子帧的固定代码本激励信号u_c(t)。为了示意地图解闭环代码本搜索的操作，通过放大器609来增益缩放固定代码本激励信号u_c(t)。以相同的方式，通过放大器609来增益缩放自适应代码本激励u_b(t)。增益缩放的自适应和固定代码本激励u_b(t)和u_c(t)通过加法器611被求和以形成总的激励信号u(t)。这个总的激励信号u(t)通过LP合成滤波器1/A(z)612被处理以产生合成语音信号625，它通过加法器605被从修改的目标信号621减去以产生误差信号626。误差加权和最小化模块606响应于误差信号626来按照传统方法计算每个子帧放大器609和610的增益参数。所述误差加权和最小化模块606还按照传统方法和响应于误差信号626来计算到固定代码本608的输入627。量化的增益参数622和623和特征化固定代码本激励信号u_c(t)的参数624被提供到复用器614，并且被复用到比特流615中。当信号修改被使能或禁止时以相同的方式进行上述的过程。

应当注意，当信号修改功能被禁止时，自适应激励代码本607按照传统方法工作。在这种情况下，对于在自适应代码本607中的每个子帧搜索独立的延迟参数以改进(refine)开环音调估计619。这些延迟参数被编码、提供到复用器614，并且被复用到比特流615中。而且，按照传统方法来形成固定代码本搜索的目标信号621。

除了当信号修改被使能时，所示的语音解码器都按照传统方法工作图13。信号修改禁止和使能操作仅仅在形成自适应代码本激励信号u_b(t)的方式上实质不同。在两种操作模式中，解码器根据所接收的参数的二进制表示解码它们。通常，所接收的参数包括激励、增益、延迟和LP参数。解码的激励参数被用于模块701中以形成每个子帧的固定代码本激励信号u_c(t)。这个信号通过放大器702被提供到加法器703。类似地，当前子帧的自适应代码本激励信号u_b(t)通过放大器704被提供到加法器703。在加法器703中，增益缩放的自适应和固定代码本激励信号u_b(t)和u_c(t)被求和以形成用于当前子帧的总的激励信号u(t)。通过LP合成滤波器1/A(z)708来处理这个激励信号u(t)，LP合成滤波器1/A(z)708使用当前子帧的在模块707中内插的LP参数来产生合成的语音信号

。

当使能信号修改时，语音解码器与在编码器中一样使用所接收的延迟参数d_n及其前一个所接收的值d_n-1来恢复延迟轮廓d(t)。这个延迟轮廓d(t)定义了当前帧的每个时刻的长期预测延迟参数。使用延迟轮廓d(t)，像在编码器中那样根据当前子帧的过去激励来形成自适应代码本激励u_b(t)＝u(t-d(t))。

剩余的说明公开了信号修改过程603的详细操作以及它作为模式确定机制的一部分的使用。

音调脉冲和音调周期分段的搜索

信号修改方法同步地操作音调和帧，独立地位移每个被检测的音调周期分段但是限制在帧边界的位移。这要求用于定位当前帧的音调脉冲和对应的音调周期分段的手段。在信号修改方法的所图解的实施例中，根据按照图5搜索的所检测的音调脉冲来确定音调周期分段。

可以对残余信号r(t)、加权的语音信号w(t)和/或加权的合成语音信号

进行音调脉冲搜索。通过使用LP滤波器A(z)来滤波语音信号s(t)来获得残余信号r(t)，它已经对于子帧被内插。在所图解的实施例中，LP滤波器A(z)的阶是16。通过加权滤波器

W (z) = \frac{A (z / γ_{1})}{1 - γ_{2} z^{- 1}} - - - (1)

来处理语音信号s(t)而获得加权的语音信号w(t)，其中系数γ₁＝0.92和γ₂＝0.68。在开环音调估计(模块602)中经常使用加权的语音信号w(t)，因为由方程(1)定义的加权滤波器衰减了在语音信号s(t)中的主要单元结构，并且也保持了在正弦信号分段上的周期性。这便利了音调脉冲搜索，因为可能的信号周期性在加权信号中变得很显然。应当注意，对于预见也需要加权的语音信号w(t)，以便搜索在当前帧中的最后音调脉冲。这可以通过使用在预见部分上的当前帧的最后子帧中形成的方程(1)的加权滤波器来进行。

图5的音调脉冲搜索程序以方框301开始，根据参数信号r(t)来定位前一个帧的最后音调脉冲。一个音调脉冲通常清楚地突出为在具有大约p(t_n-1)的长度的音调周期中的低通滤波残余信号的最大绝对值。为了便于定位前一个帧的最后一个音调脉冲，对于低通滤波，使用具有5个采样长度的标准化的汉明窗口(Hamming window)H₅(z)＝(0.08z^-2+0.54z^-1+1+0.54z+0.08z²)/2.24。这个音调脉冲位置由T₀来表示。按照本发明的信号修改方法的图解实施例不要求对于该音调脉冲的精确位置，而是要求在音调周期中的高能分段的大致位置估计。

在T₀定位前一个帧中的最后一个音调脉冲之后，在图5的方框302中在这个大致的位置估计附近提取长度为2l+1的音调脉冲原型，所述大致位置估计例如为：

对于k＝0，1，...，2l，

m_{n} (k) = \hat{w} (T_{0} - l + k)

(2)

这个音调脉冲原型随后被用于定位当前帧中的音调脉冲。

可以使用合成的加权语音信号

(或加权的语音信号w(t))来用于所述脉冲原型而不受残余信号r(t)。这便利了音调脉冲搜索，因为信号的周期结构最好被保存在加权的语音信号中。合成的加权语音信号

的获得是通过由方程(1)的加权滤波器W(z)来滤波前一个帧的最后一个子帧的合成的语音信号

。如果所述音调脉冲原型扩展超过先前合成的帧的结尾，这使用当前帧的加权语音信号w(t)来用于这个超过部分。如果前一个合成的语音帧已经包括良好地发展的音调周期，则音调脉冲原型与所述加权的语音信号w(t)的音调脉冲具有高相关性。因此，在提取原型中的合成语音的使用提供了附加的信息，用于监控编码的执行和选择在当前帧中的合适编码模式，如在后面的说明中更详细地所述。

选择l＝10个采样提供了在所述音调脉冲搜索的复杂性和性能之间的良好折中。l的值也可以与所述开环音调估计成比例地被确定。

在给出前一个帧中的最后脉冲的位置T₀的情况下，可以预测当前帧的第一音调脉冲大致发生在时刻T₀+p(T₀)。在此，p(t)表示在时刻(位置)t的内插的开环音调估计。这个预测在方框303中被执行。

在方框305中，预测的音调脉冲位置T₀+p(T₀)被改进为

T₁＝T₀+p(T₀)+argmaxC(j)(3)

其中在所述预测部分邻居中的加权的语音信号w(t)与脉冲原型相关联：

C (j) = γ (j) Σ_{k = 0}^{2 l} m_{n} (k) w (T_{0} + p (T_{0}) + j - l + k), j &Element; [- j_{\max}, j_{\max}] - - - (4)

因此，所述改进是被限制到[-j_max，j_max]中的自变量j，它最大化了在脉冲原型和上述的残余信号、加权的语音信号或加权的合成语音信号之一之间的加权相关性C(j)。按照一个图解示例，极限j_max与作为min{20，<p(0)/4>}的开环音调估计成比例，其中运算符<·>表示低于最近的整数的四舍五入。在方程(4)中的加权函数

γ(j)＝1-|j|/p(T₀+p(T₀))(5)

偏好使用开环音调估计而预测的脉冲位置，因为γ(j)在j＝0获得其最大值1。在方程(5)中的分母p(T₀+p(T₀))是预测的音调脉冲位置的开环音调估计。

在已经使用方程(3)发现第一音调脉冲位置T₁后，可以将下一个音调脉冲预测为在时刻T₂＝T₁+p(T₁)并且如上改进。这个包括预测303和改进305的音调脉冲搜索被重复，直到预测或改进程序得到在当前帧之外的一个音调脉冲位置。这些条件在逻辑方框304中被检查以用于预测下一个音调脉冲的位置(方框303)，并且在逻辑方框306中被检查以用于改进音调脉冲的这个位置(方框305)。应当注意，只有一个被预测的脉冲位置在随后的帧中很远以至于改进步骤不能将其带回当前帧时，逻辑方框304才终止搜索。这个程序获得在当前帧中的c个间距脉冲位置，由T₁、T₂、...、T_c表示。

按照一个图解示例，除了由T_c表示的帧的最后音调脉冲之外，在整数分辨率(integer resolution)中定位音调脉冲。因为需要在两个连续帧的最后脉冲之间的精确距离来确定要发送的延迟参数，因此使用用于j的在方程(4)中的1/4采样的分数分辨率(fractional resoluteion)来定位最后脉冲。分数分辨率的获得是通过在评估方程(4)的相关性之前上升采样在最后预测的音调脉冲的邻居中的w(t)。按照一个图解示例，使用长度33的加有汉明窗口的sinc内插来用于上升采样。虽然有被设置到帧结尾的时间同步限制，最后音调脉冲位置的分数分辨率帮助维持长期预测的良好性能。这是以用于以高精度发送延迟参数所需要的附加比特率的代价来获得的。

在完成在当前帧中的音调周期分段后，确定对于每个分段的最佳位移。这个操作是使用在下面的说明中说明的加权语音信号w(t)来进行的。为了减少由变形引起的失真，使用LP残余信号r(t)来实现独立的音调周期分段的位移。因为位移使得特别在分段边界附近的信号失真，因此必须将所述边界布置在残余信号r(t)的低功率部分中。在一个图解的示例中，所述分段边界被大致布置在两个连续音调脉冲的中间，但是被限制在当前帧内。总是在当前帧内选择分段边界，以便每个分段仅仅包括一个音调脉冲。具有多个音调脉冲的分段或没有任何音调脉冲的“空”分段妨碍随后的与目标信号的基于相关性的匹配，并且应当在音调周期分段中被防止。l_s个采样的第s个被提取的分段被表示为w_s(k)，k＝0，1，...，l_s-1。这个分段的开始时刻是t_s，它被选择来使得w_s(0)＝w(t_s)。在当前帧中的分段的数量被表示为c。

虽然在当前帧内的两个连续音调脉冲T_s和T_s+1之间选择分段边界，但是使用下面的程序。首先，在两个脉冲之间的中央时刻被计算为Λ＝<(T_s+T_s+1)/2>。分段边界的候选位置位于区域[Λ-∈_max，Λ+∈_max]中，其中∈_max对应于5个采样。每个候选边界位置的能量被计算为

Q(ε′)＝r²(Λ+ε′-1)+r²(Λ+ε′)，ε′∈[-ε_max，ε_max](6)

选择给出最小能量的位置，因为这个选择通常导致在修改的语音信号中的最小失真。最小化方程(6)的时刻表示为ε。新的分段的开始时刻被选择为t_s＝Λ+ε。这也限定了前一个分段的长度，因为前一个分段在时刻Λ+ε-1结束。

图6示出了音调周期分段的一个图解示例。特别注意，分别提取第一和最后一个分段w₁(k)和w₄(k)，从而不产生空的分段并且不超过帧边界。

延迟参数的确定

一般，信号修改的主要优点是每个帧仅仅一个延迟参数需要被编码和发送到解码器(未示出)。但是，需要特别注意这个单个参数的确定。所述延迟参数不仅与其前一个值一起限定在帧上的音调周期长度的演变，而且影响在所产生的修改信号中的时间异步。

在[14，-7]中所述的方法中

在帧边界不需要任何时间同步，因此，可以使用开环音调估计来直接确定要发送的延迟参数。这个选择通常导致在帧边界的时间异步，并且翻译为在后一个帧中的累积时移，因为必须保持信号的连续性。虽然人的听力对在合成的语音信号的时标中的变化不敏感，但是提高时间异步使得编码器的实现复杂。事实上，需要长的信号缓冲器来容纳其时标可能已经被扩展的信号，并且需要实现控制逻辑来用于限制在编码期间的累积时移。同样，在RCELP编码中典型的几个采样的时间异步可能引起在LP参数和修改的残余信号之间的不匹配。这个不匹配可能导致对于通过LP滤波修改的残余信号而合成的修改的语音信号的感知人为效果。

相反，按照本发明的信号修改方法的图解实施例保持了在帧边界的时间同步。因此，在帧结尾出现严格限制的位移，并且每个新帧在与原始语音帧匹配的良好时间开始。

为了保证在帧结尾的时间同步，延迟轮廓d(t)使用长期预测将前一个合成的语音帧的结尾的最后一个音调脉冲映射为当前帧的音调脉冲。所述延迟轮廓定义了对于从时刻t_n-1+1到t_n的每个采样的当前第n个帧上的内插的长期预测延迟参数。仅仅在帧结尾的延迟参数d_n＝d(t_n)被发送到解码器，示意d(t)必须具有由被发送的值完全指定的形式。长期预测延迟参数必须被选择使得结果产生的延迟轮廓满足脉冲映射。以数学形式，这个映射可以被表示如下：设κ_c是暂时的时间变量，并且T₀和T_c分别是在前一个和当前帧中的最后音调脉冲位置。现在，延迟参数d_n需要被选择使得在执行在表1中提供的伪代码后，便利κ_c具有很接近最小化误差|κ_c-T₀|的T₀的值。伪代码从值κ_c-T_c开始，并且通过更新κ_i：＝κ_i-1-d(κ_i-1)来向回循环c次。如果κ_c等于T₀，则能够以最大的效率来使用长期预测，而没有在帧结尾的时间异步。

表1用于搜索最佳延迟参数的循环

％initializationκ₀：＝T_c；％loopfori＝l to cκ_i：＝κ_i-1-d(κ_i-1)；end；

图7中图解了在c＝3情况下的延迟选择循环的操作的示例。所述循环从值κ₀＝T_c开始，并且进行第一次循环回到κ₁＝κ₀-d(κ₀)。循环再继续两次，导致κ₂＝κ₁-d(κ₁)和κ₃＝κ₂-d(κ₂)。最后的值κ₃随后以误差e_n＝|κ₃-T₀|的形式与T₀比较。结果产生的误差是在延迟选择算法中调整的延迟轮廓的函数，如下所述。

诸如在下列文件中所述的信号修改方法[1，4，6，7]

[7]Patent Application WO 00/11654，“Speech encoder adaptively applyingpitch preprocessing with continuous warping，”Conexant Systems Inc.，(H.Su and Y.Gao)，Filing Date：24 August 1999(专利申请WO 00/11654，“自

适应地应用具有连续变形的音调预处理的语音编码器”，Conexant系统公司，(H.Su和Y.Gao)，提交日期：1999年8月24日)

在d_n-1和d_n之间的帧上线性地内插延迟参数。但是，当在帧结尾需要时间同步时，线性内插趋向于产生振荡的延迟轮廓。因此，在修改的语音信号中的音调脉冲周期地收缩和扩展，容易产生恼人的人为效果。振荡的演变和幅度与最后的音调位置相关联。最后的音调脉冲与音调周期相关地距离帧结尾越远，则振荡越可能被放大。因为在帧结尾的时间同步是按照本发明的信号修改方法的图解实施例的必要要求，因此现有方法熟悉的线性内插的使用不能不使得语音质量变差。相反，按照本发明的信号修改方法的图解实施例公开了分段的线性延迟轮廓

d (t) = \{\begin{matrix} (1 - α (t)) d_{n - 1} + α (t) d_{n} & t_{n - 1} < t < t_{n - 1} + σ_{n} \\ d_{n} & t_{n - 1} + σ_{n} \leq t \leq t_{n} \end{matrix} - - - (7)

其中

α(t)＝(t-t_n-1)/σ_n (8)

通过使用这个延迟轮廓可以大大地降低振荡。在此，t_n和t_n-1分别是当前和前一个帧的结束时刻，并且d_n和d_n-1是对应的延迟参数值。注意t_n-1+σ_n是这样的时刻，在其后延迟轮廓保持恒定。

在一个图解的示例中，参数σ_n作为d_n-1的函数变化为

并且帧长度N是256个采样。为了避免振荡，有益的是，当音调周期的长度提高时降低σ_n的值。另一方面，为了避免在帧的开始t_n-1＜t＜t_n-1+σ_n中的延迟轮廓d(t)中的迅速改变，参数σ_n必须总是至少帧长度的一半。在d(t)中的迅速改变容易使得修改的语音信号的质量变差。

注意，根据前一个帧的编码模式，d_n-1可以在帧结尾的延迟值(信号修改使能)或最后的子帧的延迟值(信号修改禁止)。因为在解码器已知延迟参数的过去值d_n-1，因此延迟轮廓被d_n明白地定义，并且解码器能够使用方程(7)来形成延迟轮廓。

可以在搜索最佳延迟轮廓时改变的唯一参数是d_n，即被限制到[34，231]中的在帧结尾的延迟参数值。没有任何简单明显的方法来求解在一般情况下的最佳d_n。相反，必须测试几个值以找到最佳的解。但是，搜索是直接的。d_n的值可以首先被预测为

d_{n}^{(0)} = 2 \frac{T_{c} - T_{0}}{c} - d_{n - 1} - - - (10)

在所述图解的实施例中，在三个阶段中进行搜索，在每个阶段中提高分辨率和将要检查的搜索范固聚焦在[34，231]中。给出在这三个阶段中的表1的程序中最小误差e_n＝|κ_c-T₀|的延迟参数被分别表示为d_n ⁽¹⁾，d_n ⁽²⁾和

d_{n} = d_{n}^{(3)} .

在第一阶段中，在使用方程(10)预测的值d_n ⁽⁰⁾附近以四个采样的分辨率进行搜索，并且四个采样的分辨率当

d_{n}^{(0)} < 60

时在范围[d_n ⁽⁰⁾-11，d_n ⁽⁰⁾+12]，否则在范围[d_n ⁽⁰⁾-15，d_n ⁽⁰⁾+16]中。第二阶段将所述范围限制到[d_n ⁽⁰⁾-3，d_n ⁽¹⁾+3]中，并且使用整数分辨率。最后，最后的第三阶段以1/4采样的分辨率来检查范围[d_n ⁽²⁾-3/4，d_n ⁽²⁾+3/4]，其中

d_{n}^{(2)} < 921 / 2 .

在那个范围[d_n ⁽²⁾-1/2，d_n ⁽²⁾+1/2]之上使用1/2采样的分辨率。这个第三阶段得到要发送到解码器的最佳延迟参数d_n。这个程序是在搜索精度和复杂性之间的折中。当然，本领域内的普通技术人员可以在不脱离本发明的本质和精神的情况下容易地使用替代手段来实现在时间同步限制下的延迟参数的搜索。

可以使用对于d_n＜921/2的1/4采样的分辨率和对于d_n＞921/2的1/2采样的分辨率、使用每个帧9个比特来编码延迟参数d_n∈[34，231]。

图8图解了当d_n-1＝50、d_n＝53、σ_n＝172和帧长度N＝256时的延迟内插。在信号修改方法的图解实施例中使用的所述内插方法被以粗线示出，而对应于现有方法的线性内插被以细线示出。两种内插的轮廓在表1的延迟选择循环中以大致类似的方式执行，但是所公开的分段线性内插导致较小的绝对范围|d_n-1-d_n|。这个特征降低了在延迟轮廓d(t)中的可能振荡和在其音调将遵照这个延迟轮廓的修改的语音信号中的恼人的人为效果。

为了进一步澄清分段线性内插方法的性能，图9以粗线示出了在10个帧上的结果产生的延迟轮廓d(t)的示例。使用传统的线性内插获得的对应的延迟轮廓d(t)被以细线指示。所述示例是使用人工语音信号来构成的，所述人工语音信号具有52个采样的恒定延迟参数，作为语音修改程序的输入。延迟参数d₀＝54个采样意欲用作第一帧的初始值以说明在语音编码中典型的音调估计误差的效果。然后，使用表1的程序来搜索用于线性内插和在此公开的分段线性内插方法的延迟参数d_n。根据按照本发明的信号修改方法的图解实施例来选择所有需要的参数。结果产生的延迟轮廓d(t)示出了分段线性内插得到了迅速会聚的延迟轮廓d(t)，而传统的线性内括不能达到在10个帧期间内的正确值。在延迟轮廓d(t)中的这些延长的振荡经常对修改的语音信号引起恼人的人为效果，使得整体的感知质量降低。

信号的修改

在已经确定了延迟参数d_n和音调周期分段后，信号修改过程本身可以被启动。在信号修改方法的图解实施例中，通过将独立的音调周期分段逐个移位、调整它们为延迟轮廓d(t)来修改语音信号。通过将在加权的语音域中中的分段与目标信号相关联来确定分段位移。使用前一个帧和在当前帧中的前面的、已经移位的分段的合成的加权语音信号

来组成所述目标信号。实际的位移是对于残余信号r(t)进行的。

信号修改需要小心地进行以最大化长期预测的性能和同时保持修改的语音信号的感知质量。在修改期间也必须考虑在帧边界所需要的时间同步。

图10中示出了所述信号修改方法的图解实施例的方框图。通过在方框401从加权语音信号w(t)提取l_s采样的新分段w_s(k)来开始修改。这个分段通过分段长度l_s和开始时刻t_s被定义，给出了w_s(k)＝w(t_s+k)，k＝0，1，...，l_s-1。按照上述描述的说明来执行所述分段程序。

如果不可以选择或提取任何新的分段(方框402)，则信号修改操作完成(方框403)。否则，信号修改操作继续进行方框404。

为了找到当前分段w_s(k)的最佳位移，在方框405建立目标信号对于在当前帧中的第一分段w₁(k)，这个目标信号通过下面的递归来被获得：

\begin{matrix} \tilde{w} (t) = \hat{w} (t) & t \leq t_{n - 1} \\ \tilde{w} (t) = \hat{w} (t - d (t)), & t_{n - 1} < t \leq t_{n - 1} + l_{1} + δ_{1} \end{matrix} - - - (11)

在此

是当t≤t_n-1时在前一个帧中可以获得的加权合成语音信号。参数δ₁是对于长度l₁的第一分段允许的最大位移。方程(11)可以使用在其中可能定位当前的移位分段的信号部分上的延迟轮廓被翻译为长期预测的模拟。对于随后分段的目标信号的计算按照相同的原则，并且将在这个部分的后面被提供。

可以在形成目标信号之后启动用于找到当前分段的最佳位移的搜索程序。这个程序是基于在时刻t_s开始的分段w_s(k)和目标信号

之间的、在方框404计算的相关性c_s(δ′)：

其中δ_s确定对于当前分段w_s(k)允许的最大位移，

表示向正无穷大的舍入。可以取代方程(12)来使用标准化的相关性，虽然这具有增加的复杂性。在所述图解的实施例中，对于δ_s使用下面的值：

如在本部分中稍后所述，δ_s的值对于在帧中的第一和最后分段是更为有限的。

使用整数分辨率来评估相关性(12)，但是较高的精度改善了长期预测的性能。为了保持复杂性低，直接上升采样在方程(12)中的信号w_s(k)或

是不合理的。相反，通过使用上升采样相关性c_s(δ′)确定最佳位移来以计算上有效的方式来获得分数分辨率。

在方框404中以整数分辨率首先搜索使得c_s(δ′)最大化的位移δ。现在，以分数分辨率，所述最大值必须被定位在开放的间隔(δ-1，δ+1)中，并且被赋值到[-δ_s，δ_s]中。在方框406中，使用长度为65个采样的汉明窗口的sinc内插、以这个间隔将相关性c_s(δ′)上升采样到1/8采样的分辨率。对应于上升采样的相关性的最大值的位移δ因此是以分数分辨率的最佳位移。在找到这个最佳位移后，在方框407以求解的分数分辨率来重新计算加权的语音分段w_s(k)。即，所述分段的精确的新的开始时刻被更新为t_s：＝t_s-δ+δ_l，其中

而且，再次使用如上所述(方框407)的sinc内插在这个点从残余信号r(t)计算对应于以分数分辨率的加权语音分段w_s(k)的残余分段r_s(k)。因为最佳位移的分数部分被并入到残余和加权的语音分段中，因此可以使用向上舍入的位移

来实现所有后续的计算。

图11图解了按照图10的方框407的分段w_s(k)的重新计算。在这个图解的示例中，通过最大化给出值δ＝-13/8的相关性来以1/8采样的分辨率来搜索最佳位移。因此，整数部分δ_l变为|-13/8|＝-1，并且分数部分变为3/8。结果，所述分段的开始时刻被更新为t_s＝t_s+3/8。在附图11中，w_s(k)的新采样被以灰点指示。

如果稍后公开的逻辑方框106允许继续信号修改，则最后的任务是通过将当前的残余信号分段r_s(k)复制到修改的残余信号

中来更新修改的残余信号

(方框411)：

k＝0，1，...，l_s-1(14)

因为在连续分段中的位移彼此相关，因此所述分段被定位到

或者重叠或在其间具有间隙。可以使用直接加权的平均来用于重叠的分段。通过从邻近的分段复制相邻的采样来填充间隙。因为重叠或丢失的采样的数量通常小并且分段边界出现在残余信号的低能区域，因此通常不引起感知的人为效果。应当注意未使用在[2]、[6]、[7]中所述的连续信号变形，

[7]Patent Application WO 00/11654，“Speech encoder adaptively applyingpitch preprocessing with continuous warping，”Conexant Systems Inc.，(H.Su and Y.Gao)，Filing Date：24August 1999(专利申请WO 00/11654，“自适应地应用具有连续变形的音调预处理的语音编码器”，Conexant系统公司，(H.Su和Y.Gao)，提交日期：1999年8月24日)

而是通过位移音调周期分段来断续地进行修改以便降低复杂性。

后续音调周期分段的处理按照上述公开的程序，除了在方框405中的目标信号

的形成与对于第一分段的不同。的采样首先被替换为修改的加权语音采样

\tilde{w} (t_{s} + δ_{l} + k) = w_{s} (k),

k＝0，1，...，l_s-1(15)

图11中图解了这个过程。然后也更新跟随更新的分段的采样，

\tilde{w} (k) = \tilde{w} (k - d (k)),

k＝t_s+δ_l+l_s，...，t_s+δ_l+l_s+l_s+1+δ_s+1-2(16)

目标信号

的更新通过考虑延迟轮廓d(t)而保证了在修改的语音信号中的连续音调周期分段之间的较高相关性，因此保证了更准确的长期预测。在处理帧的最后分段的同时，目标信号

不需要被更新。在帧中的第一和最后分段的位移是需要特别小心地执行的特殊情况。在位移第一分段之前，应当保证在接近帧边界t_n-1的残余信号r(f)中不存在高功率区域，因为将这样的分段位移可能引起人为效果。通过将残余信号r(t)平方如下来搜索高功率区域：

E₀(k)＝r²(k)，k∈[t_n-1-ζ₀，t_n-1+ζ₀] (17)

其中ζ₀＝<p(t_n-1)/2>。如果E₀(k)的最大值被检测为靠近在范围[t_n-1-2，t_n-1+2]中的帧边界，则所允许的位移被限定到1/4个采样。如果对于第一分段提出的位移|δ|小于这个极限，则在当前帧中使能信号修改过程，但是第一分段保持不变。

在帧中的最后分段被以类似的方式处理。如在上述的说明中所述，选择延迟轮廓d(t)使得在原理上对于最后分段不需要位移。但是，因为通过考虑在方程(16)和(17)中的连续分段之间的相关性来在信号修改期间重复更新目标信号，因此有可能必须略微地位移最后的分段。在所述图解的实施例中，这个位移总是被限制为小于3/2个采样。如果在帧结尾存在高功率区域，则不允许位移。通过使用下面的平方的残余信号来验证这个条件：

E₁(k)＝r²(k)，k∈[t_n-ζ₁+1，t_n+1](18)

其中ζ₁＝p(t_n)。如果对于大于或等于t_n-4的k获得了E₁(k)的最大值，则对于最后分段不允许任何位移。与第一分段类似地，当提出的位移|δ|＜1/4时，当前的帧对于修改仍然可以被接受，但是最后的分段保持不变。

应当注意，与公知的信号修改方法相反，所述位移不翻译为下一个帧，并且每个新的帧与原始输入信号良好同步地开始。作为RCELP编码特有的另一个基本差别，信号修改方法的所述图解实施例处理在编码子帧之前处理一个完整的语音帧。无可否认地，子帧修改使能使用可能改善性能的先前编码的子帧来组成每个子帧的目标信号。这个手段不能被用于信号修改方法的图解实施例的环境中，因为在帧结尾的所允许的时间异步被严格限制。尽管如此，使用方程(15)和(16)对目标信号的更新实际而言给出了与子帧处理相同的处理，因为仅仅对平滑地演变的语音帧使能修改。

被并入到信号修改过程中的模式确定逻辑

按照本发明的信号修改方法的图解实施例并入了如图2所示的有效分类和模式确定机制。在方框101、103和105中执行的每个操作获得了几个指示器，用于量化在当前帧中长期预测的可以获得的性能。如果这些指示器的任何一个在其所允许的极限外部，则由逻辑方框102、104或106之一来终止信号修改过程。在这种情况下，原始信号被保持不变。

音调脉冲搜索程序101产生关于当前帧的周期性的几个指示器。因此，分析这些指示器的逻辑方框102是分类逻辑的最重要分量。逻辑方框102使用下述条件来比较在所检测的音调脉冲位置和内插的开环音调估计之间的差别，并且如果不满足这个条件则终止信号修改过程：

|T_k-T_k-1-p(T_k)|＜0.2p(T_k)，k＝1，2，...，c (19)

在方框103中延迟轮廓d(t)的选择也给出了关于音调周期的演变和当前语音帧的周期性的附加信息。在逻辑方框104中检查这个信息。只要满足条件|d_n-d_n-1|＜0.2，则所述信号修改过程从这个方框104继续。这个条件意味着仅仅容许小的延迟改变来用于将当前帧分类为纯有声的帧。逻辑方框104也通过检查所选择的延迟参数值d_n的差别|κ_c-T₀|来评估表1的延迟选择循环的成功。如果这个差别大于一个采样，则终止信号修改过程。

为了保证修改的语音信号的良好质量，在方框105限制对于连续音调周期分段所进行的位移是有益的。则在逻辑方框106中是通过向帧的所有分段施加下面的标准而实现的：

在此，δ^(s)和δ^(s-1)分别是对于第s和第(s-1)音调周期分段进行的位移。如果超过门限，则中断信号修改过程和保持原始信号。

当进行信号修改的帧被以低比特率编码时，音调周期分段的形状必须在帧上保持类似。这允许通过长期预测的可靠信号建模和因此以低比特率编码而不使得主观质量变差。可以仅仅通过下面的、在图10的方框407中的w_s(k)的更新之后在当前分段和最佳位移的目标信号之间的标准化的相关性来量化连续分段的类似性：

g_{s} = \frac{Σ_{k = 0}^{l_{s} - 1} w_{s} (k) \tilde{w} (k + t_{s} + δ_{l})}{\sqrt{Σ_{k = 0}^{l_{s} - 1} w^{2} (k) Σ_{k = 0}^{l_{s} - 1} {\tilde{w}}^{2} (k + i_{s} + δ_{l})}} . - - - (21)

所述标准化的相关性g_s也被称为音调增益。

如果信号修改在当前帧中是有益的，这最大化音调周期分段与目标信号的相关性的、在方框105中的音调周期分段的位移增强了周期性，并且获得了高的音调预测增益。在逻辑方框106中使用下面的标准来检查所述程序的成功：

g_s≥0.84

如果对于所有的分段不满足这个条件，则信号修改过程终止(方框4O9)，并且原始信号保持不变。当满足这个条件时(方框106)，信号修改在方框411继续。在来自方框407的重新计算的分段w_s(k)和来自方框405的目标信号

之间的方框408计算音调增益g_s。一般，可以对于女性声音允许略低的增益门限并且具有相等的编码性能。可以在编码器的不同操作模式中改变所述增益门限以调整信号修改模式的使用百分比并且因此调整结果产生的平均比特率。

用于来源受控的可变比特率语音编码解码器的模式确定逻辑

这个部分公开了使用信号修改过程来作为在来源受控的可变比特率语音编码解码器中的一般速率确定机制的一部分。这个功能被并入所述信号修改方法的图解实施例中，因为它提供了关于信号周期性和在当前帧中的长期预测的预期的编码性能的几个指示器。这些指示器包括音调周期的演化、用于描述这个演变的所选择延迟轮廓的合适度、信号修改可以获得的音调预测增益。如果图2所示的逻辑方框102、104和106使能信号修改，则长期预测能够有效地对修改的语音帧建模，便利其在地比特率下的编码而不使得主观质量变差。在这种情况下，自适应代码本激励具有在描述激励信号上的主要贡献，因此可以降低对于固定代码本激励分配的比特率。当逻辑方框102、104或106禁止信号修改时，帧可能包括非固定的语音分段，诸如有声开始或迅速演变的有声语音信号。这些帧通常需要高比特率，用于维持良好的主观质量。

图12描述了作为用于控制四个编码模式的速率确定逻辑的一部分的信号修改过程603。在这个图解的实施例中，模式集包括用于非有效语音帧的专用模式(方框508)、无声的语音帧(方框507)、稳定的有声帧(方框506)和其他类型的帧(方框505)。应当注意，除了用于稳定的有声帧506的模式之外的所有这些模式是按照对于本领域的普通技术人员公知的技术来被实现的。

所述速率确定逻辑是基于在逻辑方框501、502和504中的三个步骤中进行的信号分类，其中方框501和502的操作是本领域的普通技术人员公知的。

首先，声音有效检测器(VAD)501在有效和无效的语音帧之间区别。如果检测到一个无效语音帧，则按照模式508来检查语音信号。

如果在方框501检测到一个有效的语音帧，则专用于进行声音确定的第二分类器502处理所述帧。如果分类器502将当前的帧列入无声的语音信号，则分类链结束，并且按照模式507来处理语音信号。否则，所述语音帧被传送到信号修改模块603。

所述信号修改模块然后确定在逻辑方框504中使能或禁止当前帧的信号修改。这个确定实际上被作为前面参照图2所述的逻辑方框102、104和106中的信号修改过程的组成部分。当使能信号修改时，帧被视为稳定的有声或纯有声语音分段。

当速率确定机制选择模式506时，按照前面部分的教程，信号修改模式被使能并且语音帧被编码。表2公开了在用于模式506的图解实施例中使用的比特分配。因为要以这种模式编码的帧在特性上很具有周期性，因此与例如过渡帧相比较，实质更低的比特率足够用于维持良好的主观质量。信号修改也允许仅仅使用每20毫秒9个比特来有效地编码延迟信息，这样节省了用于其他参数的比特预算的相当大的部分。长期预测的良好性能允许仅仅使用每5毫秒13比特的子帧来用于固定的代码本激励而不牺牲主观语音质量。所述固定代码本包括具有两个脉冲的一个轨道，所述两个脉冲具有64个可能的位置。

表2在用于包括四个子帧的20毫秒帧的有声6.2kps模式中的比特分配

参数	比特/帧
		LP参数音调延迟音调滤波增益代数代码本模式比特	3494＝1+1+1+124＝6+6+6+652＝13+13+13+131
总计	124比特＝6.2kbps

表3在按照AMR-WB标准的12.65kbps模式中的比特分配

参数	比特/帧
		LP参数音调延迟	4630＝9+6+9+6

音调滤波增益代数代码本模式比特	4＝1+1+1+124＝7+7+7+7144＝36+36+36+361
		总计	253比特＝12.65kbps

按照下列公知的技术来实现其他的编码模式505、507和508，信号修改在所有这些模式中被禁止。表3示出了根据AMR-WB标准采纳的模式505的比特分配。

与AMR-WB标准相关联的技术规范[11]和[12]被包含在此来分别作为关于在501和508中的舒适噪音和VAD功能的参考。

[11]3GPP TS 26.192，“AMR Wideband Speech Codec：Comfort NoiseAspects，”3GPP Technical Specification(3GPP TS 26.192，“AMR宽带语音编码解码器：舒适的噪音方面”，3GPP技术规范)

[12]3GPP TS 26.193，“AMR Wideband speech Codec：Voice ActivityDetector(VAD)，”3GPP Technical Specification(3GPP TS 26.192，“AMR宽带语音编码解码器：语音行为检测器(VAD)”，3GPP技术规范)

总之，本说明书已经描述了用于纯有声语音帧的帧同步信号修改方法、用于检测要被修改的帧的分类机制、并且在来源受控的CELP语音编码解码器中使用这些方法以便使能在低比特率的高质量编码。

所述信号修改方法并入了一种用于确定要被修改的帧的分类机制。则在操作上和在修改的信号的属性上与现有的信号修改和预处理不同。被嵌入到信号修改过程中的所述分类功能被用作在来源受控的CELP语音编码解码器中的速率确定机制。

信号修改是将音调和帧同步地进行的，即适配在当前帧中某个时间的一个音调周期分段，以便随后的语音帧以与原始信号良好的时间排列开始。音调周期分段被帧边界限制。这个特征防止了在帧边界上的时移翻译，简化了编码器实现方式码本起降低了在修改的语音信号中的人为效果的风险。因为时移不在连续的帧上累积，因此所公开的信号修改方法不需要用于容纳扩展的信号的长的缓冲器，也不需要用于控制累积的时移的复杂逻辑。在来源受控的语音编码中，它简化了在信号修改使能和机制模式之间的多模式操作，因为每个新的帧以与原始信号的时间排列开始。

当然，许多其他的修改和改变是可能的。根据对本发明的上述的详细说明性描述和相关的附图，这样的其他修改和变化现在将变得对于本领域内的普通技术人员是显然的。也应当显然的是，可以在不脱离本发明的精神和范围的情况下实现这样的其他变化。

Claims

1.一种在使用用于数字编码语音信号的信号修改的技术中形成以长期预测为特征的延迟轮廓的方法，该方法包括：

将所述语音信号划分为一系列连续的帧；

定位前一个帧中的语音信号的音调脉冲；以及

定位当前帧中的语音信号的音调脉冲；

其特征在于：

利用前一个帧的长期预测延迟参数和当前帧的长期预测延迟参数将前一帧的音调脉冲映射到当前帧的音调脉冲特征，形成分段的线性延迟轮廓。

2.根据权利要求1所述的方法，包括：

根据在前一帧的最后音调脉冲和当前帧的最后音调脉冲之间的连续音调脉冲的距离形成延迟轮廓。

3.根据前述任意权利要求所述的方法，其中定位音调脉冲包括从语音信号中导出线性预测残余信号。

4.根据权利要求1所述的方法，其中定位音调脉冲包括从语音信号中导出加权语音信号。

5.根据权利要求1或2所述的方法，其中定位音调脉冲包括从语音信号中导出合成的加权语音信号。

6.根据权利要求1所述的方法，其中形成延迟轮廓包括通过对临时时间变量和在前一帧和当前帧中语音信号音调脉冲的位置的函数进行迭代，来选择长期预测延迟参数。

7.根据权利要求6所述的方法，包括在多个阶段中搜索长期预测延迟参数值，并且以为当前帧末端预测的长期预测延迟参数值作为开始，每个连续的阶段具有增加的分辨率和更聚焦的搜索范围。

8.根据权利要求7所述的方法，包括将长期预测延迟参数值预测为等于在前一帧末端处的长期延迟预测延迟参数值和在前一帧和当前帧中语音信号的音调脉冲位置之差的两倍与函数的迭代次数相除之商的差值。

9.根据权利要求1所述的方法，包括通过逐个位移音调周期分段以将它们调整到延迟轮廓，来修改语音信号。

10.根据权利要求9所述的方法，包括通过将加权语音域中的分段与目标信号相关，来确定分段位移。

11.根据权利要求4和10之一所述的方法，包括使用前一帧合成的加权语音信号和当前帧中任何先前的位移分段，来组成目标信号。

12.一种用于在使用用于数字编码语音信号的信号修改的技术中形成以长期预测为特征的延迟轮廓的设备(603)，该设备包括：

划分器，用于将所述语音信号划分为一系列连续的帧；

检测器，用于定位前一个帧中的语音信号的音调脉冲；

又一检测器，用于定位当前帧中的语音信号的音调脉冲；

其特征在于：

选择器，被布置为利用前一个帧的长期预测延迟参数和当前帧的长期预测延迟参数把前一帧的音调脉冲映射到当前帧的音调脉冲，来形成分段的线性延迟轮廓。

13.根据权利要求12所述的设备，其中该选择器为

计算器，用于根据在前一帧的最后音调脉冲和当前帧的最后音调脉冲之间的连续音调脉冲的距离计算长期预测延迟参数。

14.根据权利要求12或13的设备，其中该选择器为

选择器，用于通过对临时时间变量和在前一帧和当前帧中语音信号音调脉冲的位置的函数进行迭代，来选择长期预测延迟参数。

15.根据权利要求14所述的设备，包括：

搜索器，用于在多个阶段中搜索长期预测延迟参数值并且以为当前帧末端预测的长期预测延迟参数值作为开始进行搜索，每个连续的阶段具有增加的分辨率和更聚焦的搜索范围。

16.根据权利要求15所述的设备，包括：

预测器，用于将长期预测延迟参数值预测为等于在前一帧末端处的长期延迟预测延迟参数值和在前一帧和当前帧中语音信号的音调脉冲位置之差的两倍与函数的迭代次数相除之商的差值。

17.根据权利要求12所述的设备，包括：

修改器，用于通过逐个位移音调周期分段以将它们调整到延迟轮廓，来修改语音信号。

18.根据权利要求17所述的设备，包括：

确定器，用于通过将加权语音域中的分段与目标信号相关，来确定分段位移。

19.根据权利要求18所述的设备，包括：

组成器，用于使用前一帧合成的加权语音信号和当前帧中任何先前的位移分段，来组成目标信号。