CN101627423B

CN101627423B - 有音调周期的校正的数字音频信号丢失块的合成

Info

Publication number: CN101627423B
Application number: CN200780046752XA
Authority: CN
Inventors: 巴拉兹·科维斯; 斯特凡·拉古德
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-10-20
Filing date: 2007-10-17
Publication date: 2012-05-02
Anticipated expiration: 2027-10-17
Also published as: ATE502376T1; BRPI0718422A2; KR20090082415A; ES2363181T3; PL2080195T3; EP2080195A1; JP5289320B2; BRPI0718422B1; EP2080195B1; RU2432625C2; WO2008096084A1; JP2010507121A; KR101406742B1; FR2907586A1; RU2009118929A; DE602007013265D1; US20100318349A1; CN101627423A; US8417519B2; MX2009004211A

Abstract

本发明涉及在数字音频信号解码中的在音调周期重复前对丢失块合成的信号校正。通过音调周期的采样与先前音调周期的对比，以避免短暂性重复的影响，例如，爆破音的语音周期。通过选择在最后音调周期(T_j)的当前采样(e(3))与至少一个在先前音调周期(T_j-1)的大约相同位置的采样(e(2-T₀))的最小值，较优的对该信号进行校正。

Description

有音调周期的校正的数字音频信号丢失块的合成

本发明涉及一种数字音频信号的处理方法(特别是语音信号)。

本发明涉及适用于传输/接收这样信号的一种编码/解码系统。尤其是，本发明涉及在接收端的处理方法，当块丢失时该方法能改善解码信号的质量。

不同的现存技术，以进行数字转换和合成数字音频信号，最通常的技术是：

-波形编码方法，如脉冲编码调制(PCM)和自适应音频脉冲编码(ADPCM)，

-综合分析编码方法，如码激励线性预测(CELP)编码，以及

-感知子带编码(sub-band perceptual coding)方法或变换编码。这些技术连续处理输入信号，通过抽样(PCM或ADPCM)或者通过被称之为“帧”(CELP和变换1编码)的采样块来进行采样。

简单地说，值得注意的是，运用通过短窗框图(short windows)(在这个实例中为10至20ms)评估参数，能从它最近的过去中(如：在8KHz的8至12个采样)预测一个语音信号。这些用声道转换公式(如：对发辅音的)表示的短期(short-term)预测参数可以通过线性预测编码(LPC)方法得到。还有与由于声带震动的准周期语音(如：发如元音字母的发音)相联系的长期(longer-term)相关系数。

这包括至少决定声音信号的基本频率，该频率根据说话者的不同，从60Hz(低声)至600Hz(高声)不等。于是，一长期预测(LTP)分析被用于确定长期预测器的LTP参数，特别是经常被称之为“音调周期”的基本频率的倒数(inverse)。那么，在音调周期中的采样数量通过F_e/F₀(或者其整数部分)的关系被确定，其中：

-F_e为采样率，以及

-F₀为基本频率。

因此，值得注意的是包括音调周期的长期预测的LTP参数表示语音信号(浊音(voiced)时)的基本震动，同时短期预测LPC参数表示该信号的频谱包络。

因此，在确定的编码器中，从语音编码中得到的这些LPC和LTP参数集可以用块通过一个或多个电信网络，被发送到一同源解码器(homologous decoder)，因此使最初的语音信号可以被重建。

然而，可以参考(通过例子的方式)ITU-T为语音信号(其以16KHz被采样)宽带传输而标准化的48、56和64kbit/sG.722编码系统。G.722编码器在通过镜象滤波器组(QMF)获得两个子频带中具有一个ADPCM编码方案。为了详细的信息，可以有用地参考G.722建议的文本。

现有技术的图1示出根据G.722建议的编码与解码的结构。模块101至103表示应用于输入信号Si的传输QMF滤波器组(频谱被分为高频102和低频100和子采样101和103)。随后的模块104和105分别与低频带和高频带的ADPCM编码器通讯。ADPCM编码器的低频带的输出被指定为分别代表6、5或4-比特(bit)输出每采样的0、1或2的模式值，同时ADPCM的高频带输出是固定的(2bits每采样)。在解码器中有相对应的ADPCM解码器模块(模块106和107)，它们的输出在QMF接收滤波器组被叠加(进行过采样(over-sampling)108和110，反滤波109和111，以及对高、低频带进行合并112)，以获得到合成信号So。

这里被检测到的一个普遍问题涉及对在解码中的块丢失(the lossof block)的校正(correcting)。实际上，从编码输出的比特流被格式化(format)成二元块(binary block)，以通过多种网类型进行传输。这些，例如，通过互联网被传输的块被称为“互联网协议(IP)数据包”，或通过异步传输模式(ATM)网络传输的块被称为“帧”，或者是其它。在编码后被传输的块可以因为不同的原因被丢失：

-如网络路由器被超载(overload)以及转储存(dump)它的队列，

-如在实时连续流解码(continuous-flow decoding)中，如果块被接收时具有延时(因此没被考虑进去)，

-如被接收的块被损坏(corrupted)(例如，其CRC奇偶检验码未被验证)。

当一个或多个块的丢失发生时，解码器必须在没有丢失块或者错误块的信息的情况下，重建信号。这依赖于从接收到的有效块中先前解码得到的信息。这个被称之为“遗失块的校正”(或者，以下为“被去除帧的校正”)的问题，实际上，比简单的遗失信息预测更加普遍，因为帧的遗失经常引起在编码器和解码器之间的同步的丢失，尤其是，当后者是预测型时，以及在丢失后在被预测的信息和被解码信息之间的连续性问题。因此，被除去(erased)的帧的校正还包括状态信息的修复，以及再集中技术(re-convergence)和其它。

ITU-T G.711建议的附件1描述了一个适用于PCM编码的被除去的信息的校正。因为PCM编码不是预测型的，因此遗失帧的校正在一丢失后，简单的计算丢失信息的预测，以及确保一个被重建帧和正确被接收到的帧之间的连续性。通过在与基本频率同步方法中重复先前的信号进行该预测。通过进行平滑(smoothing)或在被接收到的采样和被预测的采样之间的交叉衰减(cross-fading)，以确保该连续性。

在文献″A packet loss concealment method using pitch waveformrepetition and internal state update on the decoded speech for thesub-band ADPCM wideband speech codec″，M.Serizawa and Y.Nozawa，IEEE Speech Coding Workshop，pages 68-70(2002)(“一种运用音调波形的重复和内部状态的数据包的丢失的隐藏的方法，以为子频带ADPCM宽带语音编码器更新被解码的语音”，M.Serizawa和Y.Nozawa，IEEE Speech Coding Working，60-70页(2002))中，通过运用音调周期重复算法(重复可以和在G.711建议的附录1中描述的相似)预测丢失帧，为G.722标准化编码/解码器提供一被除去帧的校正。为了更新G.722编码器状态(滤波器存储器和音调适应(adaptation)存储器)，被预测的帧因此被分成两个子频率带，该两个子频率带可通过应用ADPCM编码而被再编码(re-encoded)。

然而，只有在先前信号是平稳的(stationary)，或者至少是周期性平稳(cyclostationary)时，这样通过重复音调周期对丢失帧进行校正的技术才可以正确应用。因此，它们是基于丢失帧(它是必须被预测)相关的信号与为该丢失帧解码的信号“相似”的固有假设。当是语音信号时，这个固有假设只有对声音严格有效，例如一部分被重复的元音。例如，元音“a”可以被多次重复(例如“aaaa，等”，没有造成听觉不适)。语音信号包括被称为“短暂性”(transitories)的声音(非固定声音一般包括以元音的开始(attacks)(beginnings)以及对应短辅音(例如：″p″，″b″，″d″，″t″，″k″)的被称之为“爆破音”的发音)。因此，例如，如果帧在紧接着一个“t”发音之后被丢失，当这里有几个连续帧的丢失(比如：5个连续丢失)，通过简单的重复的一丢失帧的校正，将会产生令耳朵非常不舒服的一阵“t”的序列(″t-t-t-t-t″)。

图2a和图2b示出，当用根据G.722建议的编码器对宽带信号进行编码时的这样的声学效应。尤其是，图2a示出经一理想信道(没有帧丢失)解码的语音信号。在实施例中显示出，这个信号对应于法语单词“temps”，被分为两个法语音素(phonemes)：先是/t/，然后是/an/。纵向的虚线表示帧之间的边界。在此考虑的帧的长度大约为10ms。当丢失帧紧接着音素/t/之后时，图2b示出了根据一种与上述引用的Serizawa等人的技术相似的技术，进行解码得到的信号。图2b清晰地示出了过去信号(past signal)重复的问题。它示出了音素/t/在预测帧中被重复。当在丢失之后其预测被轻微地延长时，它还在后续帧中出现，在如图所示的例子中，以便与正常情况下的解码执行一交叉衰减(即，在被接收到的信号中出现有用的数据)。

在现有技术中，爆破音的重复问题显然从未被提及。

在这种状况下，本发明提供了一种改进。

为此目的，本发明提供了一种用于合成由连续的采样块表示的数字音频信号的方法，其中，当接收到这样一个信号时，用于替换至少一个无效块，根据在所述无效块之前的至少一个有效块的采样，产生一替换块。

所述方法通常包括以下步骤：

a)确定步骤，在至少一个有效块中确定信号的重复周期，以及

b)复制步骤，复制所述重复周期的采样到至少一个替换块中。

在根据本发明的方法中：

-在步骤a)中，在紧接着一无效块后的至少一个有效块中，确定一个最后的重复周期，以及

-在步骤b)中，根据一个先前重复周期的采样，对所述最后重复周期的采样进行校正，以限制可能存在于最后的重复周期中的任何瞬时信号的振幅。

然后，上述被校正的所述采样被复制至所述替换块中。

根据本发明的方法可以有利地被用于语音信号的处理，在浊音信号的情况下和非浊音信号的情况下相同得好。因此，如果信号是浊音的，重复周期简单地包括音调周期，以及本方法的步骤a)特别地涉及在接着丢失的至少一个有效块中确定信号的语调(tone)(例如，在语音信号中的一个声音(voice)的语调)的音调周期(典型地，是通过基本频率的倒数获得)。

如果被接收的有效的信号是非浊声的，事实上，没有可探测到的音调周期。在这种情况下，它可能被提供设置一个任意给定的采样的数量，该数量被认为是音调周期的长度(然后，一般可以被参考为“音调周期”)，并且根据这个重复周期来执行根据本发明的方法。例如，音调周期可以选择尽可能的长，通常为20ms(对应于很低声音的50Hz)，即在8KHz采样频率的160个采样。也可能对应于一个相关函数的最大值的值，该相关函数的最大值通过限制在一个值区间内的搜索获得(例如：在MAX_PITCH/2和MAX_PITCH之间，其中MAX_PITCH是音调周期搜索中的最大值)。

优选地，如果多个无效块必须在接收中被替换，并且这些块延续至少一个重复周期，则对所述最后重复周期的所有采样应用所述采样校正步骤b)，如同当前采样，一个接着一个地进行。

此外，如果这些无效块甚至延续至几个重复周期，则对在步骤b)中被校正的重复周期进行多次复制，以形成所述替换块。

在一个特殊实施例中，对于在步骤b)中执行的前文所述的采样校正，可以采用下述过程。对于最终重复周期中的当前采样，通过进行比较：

-所述当前采样的振幅，以绝对值的形式，

-以及短暂地大致位于在所述当前采样之前的一重复周期中的至少一个采样的振幅，以绝对值的形式，

以及从上述这两个振幅中，为所述当前采样分配其中的最小的振幅，以绝对值的形式，当然，同时也要把它原有的振幅符号分配给它。

术语“大致位于”表示了这样一个事实，即在与当前采样相关联的先前重复周期中搜索一个邻近区域(neighborhood)。因此，优选地，对于最后重复周期的一个当前采样：

-以在短暂位于所述当前采样前的一个重复周期中的一个采样为中心的一邻近区域中，构建一个采样的集合，

-从所述邻近区域的采样的振幅中，确定一被选定的振幅，以绝对值的形式，以及

-比较所述被选定的振幅与所述当前采样的振幅，以绝对值的形式，以从所述被选定的振幅与所述当前采样的振幅中，为所述当前采样分配其最小振幅，以绝对值的形式。

优选地，从所述邻近区域的采样的振幅中被选定的振幅是其最大振幅，以绝对值的形式。

进一步地，一个衰减(逐步衰减)通常被应用于在替换块中的采样的幅度。这样，有利地，信号的短暂性特征信号在块丢失之前被检测，并且，如果可行，一个更快的衰减被应用，该衰减比应用在平稳(非短暂性)信号上的衰减更快。

另外，或者作为一个变化实施例，在合成处理期间，对下一滤波器的存储器的更新(置零，zero reset)也可以被执行，尤其是适用于短暂性的声音，以避免在随后的有效块的处理中经历这样的短暂性的声音的影响。

优选地，在块丢失之前的短暂性信号的检测按如下步骤执行：

-对所述最后重复周期的多个当前采样，测量当前采样的振幅相对于上述提及的被选定振幅(如前文所述，在邻近区域中被确定)之间的相关关系，以绝对值的形式，以及

-然后，对于当前采样，计算发生所述相关关系大于一第一预先确定的门限值(例如一大约为4的值，如在下文提及)的次数，以及

-如果所述出现的次数大于一第二预先确定的门限值(例如，如果多于一次，如在下文提及的)，则检测到存在短暂性信号。

根据本发明，当在紧按着丢失块之前的重复周期中检测到短暂性声音时，上述步骤也可以被用来触发校正步骤b)。

然而，为了确定是否运用根据本发明的校正步骤b)，优选地，执行下述过程。如果数字音频信号是语音信号，则有利地，检测在该语音信号中的浊音度，以及，如果该语音信号是高浊音的(在对于音调周期的搜索中，它可以通过一相关系数接近于“1”而被显示出来)，则步骤b)中的校正不被执行。换而言之，只有当该信号是非浊音或当它是弱浊音时，该校正才被执行。

这样，当接收到的有效信号是高浊音的(因此是平稳的)，步骤b)的校正的应用以及在替换块中的信号的不必要的衰减则被避免，该信号实际上和稳定的元音(例如：“aaaa”)的发音相对应。

此外，本发明还提供了一种用于合成由连续的采样块表示的数字音频语音信号的装置，其中，当接收到所述数字音频语音信号时，用于替换至少一个无效块，根据在所述无效块之前的至少一个有效块的采样产生一替换块，

所述装置包括下述装置：

a)确定装置，在至少一个有效块中确定一重复周期，以及

b)复制装置，复制所述重复周期的采样到至少一个替换块中，其特征在于：

还包括检测装置，其能在所述语音信号中检测浊音度，当语音信号是非浊音或弱浊音时，所述确定装置和复制装置执行确定和复制，且其中，

-所述确定装置用于在紧接着一无效块前的至少一个有效块中，确定一个最后的重复周期，

-所述复制装置用于根据所述最后重复周期之前的一个先前重复周期的采样，对所述最后重复周期的采样进行校正，以限制在所述最后重复周期中的任何短暂性声音的振幅，并且因此被校正的所述采样被复制至所述替换块中，所述校正在短暂位于当前采样前的一重复周期的一采样周围中心围绕的一邻近区域中执行。

因此，简而言之，本发明涉及针对在数字音频信号解码中的丢失的块的合成，在重复周期(或对浊音的语音信号的“音调周期”)的重复之前的信号修正。通过比较一个音调周期的采样和先前音调周期中的采样，避免短暂性的重复的影响。优选地，通过从当前采样和先前音调周期中大约相同位置上的至少一个采样中选择最小值，修正该信号。

本发明提供了多个优点，特别是在解码的情况下出现块丢失时。尤其是，它还使得避免因为短暂性(当使用一个简单的音调重复周期)的错误重复而产生的伪迹变成为可能。此外，它还执行短暂性的检测，该检测可以被用于适应被预测信号(通过可变衰减)的能量控制。

除了前文已提及的图1、2a和2b以外，通过参阅以下实施例以及附图的详细描述，本发明的其它有点和特性将变得更清晰：

-图2c通过比较的方法示出了在如图2a和2b所示的相同的信号上应用根据本发明的方法的效果，其中，该信号的一个帧TP已经被丢失；

-图3示出了根据G.722建议的解码器，但该解码器通过集成一个根据本发明的用于对被除去的帧进行校正的装置而被修改；

-图4示出了低频带的预测的基本原理；

-图5示出了音调重复(在激励域中)的基本原理；

-图6示出了根据本发明的激励信号的修正，所述信号被音调重复所跟随；

-图7示出了根据本发明的一个特殊实施例的方法的步骤；

-图8用图示的方法示出了用于执行根据本发明的方法的一个合成装置；

-图8a示出了双通道正交镜象滤波器组(QMF)的通常结构；

-图8b示出了当L(z)和H(z)是理想滤波器(即，f’_e＝2f_e)时，图8a中的信号频谱x(n)，xl(n)，xh(n)。

下文将描述一个本发明的实施例，该实施例依赖于根据G.722建议的编码系统。G.722编码器(通过参阅图1在上文中被描述)的描述在此不再重复。在此的描述将局限于被修改的G.722的解码器，该解码器集成了音调周期的校正器，当有帧丢失时，所述音调周期被重新生成。

参考图3，根据本发明的所述解码器(这里根据G.722建议)再次示出了具有QMF接收滤波器组(模块310至314)的双子频带中的一个结构。对应于图1中的解码器，图3中的解码器还集成了装置320，该装置用于被除去帧的校正。

G.722解码器产生以16kHz采样的输出信号So，并且被分成10或20或40ms的短暂帧(或采样块)。根据出现或不出现帧的丢失，它的操作不同。

在完全不出现帧的丢失的情况下(也即所有的帧都被接收并且都有效)，低频频带LF的比特流(bitstream)通过根据本发明的装置320中的模块300进行解码，不执行交叉衰减(模块303)，并且被重建信号可以简单地通过zl＝xl得到。相似地，通过模块304，对高频频带HF的比特流进行解码。交换模块307选择信道uh＝xh，以及交换模块309选择信道zh＝uh＝xh。

另一方面，在一个或多个帧丢失的情况下，在低频带LF中，通过先前信号xl(特别地，音调的复制)在模块301中对被除去的帧进行预测，并且在模块302中ADPCM解码器的状态被更新。所述被除去的帧如zl＝yl被重建。每当一个丢失帧被检测到，重复上述过程。值得注意的是，预测模块301没有被非常严格限定只用于针对该当前(丢失)帧产生一个预测信号：它还产生为下一帧产生10ms的信号，以在模块303中执行交叉衰减。

这样，当一有效帧被接收，后者通过模块300被解码，并且在第一个10毫秒期间，在有效帧xl和先前预测帧yl之间执行一交叉衰减303。

在高频频段HF中，被除去的帧通过先前信号xh在模块305中进行预测，并且ADPCM解码器的状态在模块306中被更新。在一个优选的实施例中，预测yh是先前信号xh的最后周期的简单重复。交换模块307选择通道uh＝yh。

有利地，该信号uh被滤波，以产生信号vh。实际上，G.722编码器是一个向后预测(backward predictive)的编码系统。在每个子频带中，它使用一个自回归滑动平均(ARMA，auto-regressive moving average)类型的预测操作，以及一个ARMA滤波器的音调量化(quantization)和适配(adaptation)过程，与在编码器和解码器处的相同。音调的预测和适配依赖于被解码数据(预测错误，重建信号)。

传输错误，特别是帧丢失，导致在解码器和编码器的变量之间的不同步。因此，该音调的适配和预测过程是不正确的，并且有一个显著的时间段(达到300～500ms)的偏置(bias)。在高频带中，在其它伪像(artefacts)中，这个偏置可以导致出现振幅的一个非常弱的直流分量(对于大约+/-10数量级的信号，最大动态范围+/-32767)。

然而，在通过QMF合成滤波器组后，这个直流分量以8KHz的正弦波的形式呈现，该波可以被耳朵听见，并且非常不舒服。

下文对直流分量(或者“DC分量”)变化成8kHz的正弦进行了解释。图8a示出一双通道的正交镜像滤波器组(QMF)。信号x(n)通过分析器组被分解至两个子频带。这样，一低频带xl(n)和一高频带xh(n)被获得。这些信号通过它们的z变化被定义：

XL (z) = \frac{1}{2} (X (z^{1 / 2}) L (z^{1 / 2}) + X ({- z}^{1 / 2}) L ({- z}^{1 / 2}))

XH (z) = \frac{1}{2} (X (z^{1 / 2}) H (z^{1 / 2}) + X ({- z}^{1 / 2}) H ({- z}^{1 / 2}))

因为在正交中的低通L(z)和高通H(z)，则：H(z)＝L(-z)。

如果L(z)证实完整的重制的限制，则在合成滤波器组后得到的信号与信号x(n)相同，并在最接近的时间延迟。

这样，如果信号x(n)的采样频率是f_e’，则信号xl(n)与xh(n)以频率f_e＝f_e′/2被采样。典型地，经常为f_e′＝16kHz，即f_e＝8kHz。进一步指出的是，该滤波器L(z)和H(z)可以是，例如，在ITU-T G.722建议中指定的24系数QMF滤波器。

图8b示出了当滤波器L(z)和H(z)是理想的中间频带滤波器时，信号x(n)、xl(n)和xh(n)的频谱。因此当在理想状态下，在区间[-f′e/2，+fe′/2]的L(z)频率响应通过以下公式得到：

需要注意的是，xh(n)的频谱对应于被折叠的高频带(folded high band)。该在现有技术中熟知的“折叠”属性，可以被形象化地解释，如同定义XH(z)的上述公式的方式一样。该高频带的折叠通过合成滤波器组被“翻转”(inverted)，并以频率的自然顺序重现高频带频谱。

然而，在实践中，L(z)和H(z)滤波器并不是理想的。它们的非理想特性导致了被合成滤波器组取消(cancel)的频谱折叠分量的出现。然而，该高频带仍旧被反转。

然后，模块308执行一个高通滤波(HPF)，该高通滤波(HPF)除去了直流分量(“除去DC”)。这样的滤波器的使用是非常有利的，包括根据本发明的低频带音调周期校正的范围的外部。

[0096] 进一步地，在通常的解码中帧的丢失的上下文中，使用HPF滤波器(模块308)用于除去高频带中的直流分量，可能是一个分开保护的主题。通常而言，它因此会被理解为，在对被接收到的信号进行解码的情形下，所述被接收信号被分解到高频频带和低频频带中，至少有两个通道，如在根据G.722标准的解码中，当在紧接着替换信号的合成一信号丢失发生时，通常地，在解码器的高频通路上，这可以导致在替换信号中的直流分量的出现。在特定时间中，这个直流分量的作用可以延续至被解码信号中，而不论被接收到的编码信号再次变成有效，原因在于在编码器和解码器之间的失去同步，以及滤波器的存储器大小。

有利地，在高频通道上提供高通滤波器308。例如，有利地，为G.722解码器的高频通道的QMF滤波器组的上行数据流提供该高通滤波器308。这个安排使得在当应用QMF滤波器组时，避免在8kHz(从采样率f′_e得到数值)的直流分量的折叠成为可能。更一般地，当解码器在高频通道的处理的一端包含一滤波器组时，优选地，为该滤波器组的上行数据提供高通滤波器(308)。

这样，再次参阅图3，只要有帧丢失，交换模块309就选择通道zh＝vh。

然后，只要一有效帧被接收，后者通过模块304进行解码，并且交换模块307选择通道uh＝xh。对于接下来的时间里(例如，4秒之后)，交换模块309再次选择通道zh＝vh，但是这几秒过后，返回到一的“普通”模式，其中交换模块309再次选择通道zh＝uh，通过旁路模块308并且因此不应用高通滤波器308。

通常而言，因此可以被理解为，优选地，该高通滤波器308只在块丢失的期间和之后被短暂地(例如，几秒钟)使用，即使如果有效的块被再次接收到。滤波器308可能永久地被使用。然而，它只有在帧丢失的情况才被激活，因为由于直流分量的扰动只在这种情况下才被产生，所以在不出现帧丢失的情况下，被修改的G.722解码器(整合了丢失校正机制)的输出，与ITU-T G.722的解码器的输出相同。该滤波器308只在对于帧的丢失的校正，以及对于当丢失发生的连续几秒内的校正中才被应用。实际上，当有丢失时，G.722解码器会在该丢失后的100至500ms会与编码器失去同步，并且，在高频带上该直流分量通常只存在1至2秒。滤波器308被保持一个稍长的时间，以获得一个安全的余量(margin)(比如4秒)。

在图3中示出的解码器不再被进一步地描述，因为可以理解的是，特别地，本发明在低频带预测模块301中被实施。这个模块301在图4中进行详细描述。

参阅图4，该低频带的预测依赖于对先前信号xl的分析(在图4中以ANALYS标出的部分)，该先前信号xl紧跟着将被传送的信号yl的合成(在图4中以SYNTH表示出的部分)。模块400执行一个对先前信号xl的线性预测分析(LPC)。这个分析，与特别在标准化的G.729编码器被执行的分析相似。它包括对信号的窗操作(windowing the signal)，计算自动校正以及用莱文森-德宾(Levinson-Durbin)算法来获得线性预测系数。优选的，只有该信号的最后10秒被使用，并且LPC阶次(order)设置为8。这样，得到9个LPC系数(以下称为a₀，a₁....，a_p)，形式如下：

[0103] A(z)＝a₀+a₁z^-1+...+a_pz^-p

[0104] 其中p＝8以及a₀＝1。

在LPC分析后，先前的激励信号通过模块401进行计算。该先前的激励信号被称为e(n)，其中n＝-M，....，-1，式中M对应于被存储的先前采样的个数。

模块402对基本频率(fundamental frequency)或者它的倒数：音调周期，进行了估计。这个估计通过，例如类似于音调分析(被称为“开环(open loop)”，特别地，如在标准化的G.729编码器中)相类似的方法进行。

因此被估计的音调T₀在模块403中被用来预测当前帧的激励。

此外，先前信号xl在模块404中被分类(classified)。在此，它可能尝试对短暂性的出现进行探测，例如爆破音的出现，以便应用根据本发明的音调周期校正，但是，在一个优选变化实施例中，它被尝试用来对信号Si是否为高浊音(例如，当对应于音调周期的相关性非常接近于1时)进行测试。如果该信号是高浊音(它对应于一稳定元音的发音，如“″aaaa....″)的，那么信号Si没有短暂性，并且可以不执行根据本发明的音调周期校正。否则，优选地，在其它所有情况中，应用根据本发明的音调周期校正。

浊音度的探测的细节在这里不被提及，因为它们本身被熟知，并且在本发明的范围之外。

再次参考图4，合成SYNTH依照现有技术中熟知的并被称为“资源-滤波器”(“source-filter”)的模型。它包括通过LPC滤波器对被预测的激励进行滤波。在此，被预测的激励e(n)(其中，现在n＝0，....，L-1，L为将被预测的帧的长度)通过反转滤波器(inverse filter)1/A(z)(模块405)进行滤波。然后，该被得到的信号，根据在模块406中计算得到的一衰减，而被衰减，最终以yl被传送。

这样，本发明通过图4的模块403被执行，它的作用在下文中进行详细表述。

为图示的目的，图5示出了如同在现有技术中被执行的简单激励重复的基本原理。该激励可以简单地通过重复最后的音调周期T₀而被预测，即复制先前激励的一连串的最后采样，在该一连串的采样的个数对应于在包括在音调周期T₀的采样的个数。

现在参阅图6，在重复最后的音调周期T₀前，根据本发明，后者被进行如下修正。

对每个采样n＝-T₀，...，-1，根据根据如下公式，采样e(n)被修正为e_mod(n)：

e_{\mod} (n) = \min (\max_{\overset{\cdot}{i} = - k, etc ., 0, etc ., + k} (| e (n - T_{0} + i) |), | e (n) |) \times sign (e (n))

如上所述，优选地，如果该信号xl(以及该输入信号Si)是高浊音的，则这个信号的修正不被执行。实际上，在高浊信号的情况下，最后音调周期的简单重复，没有修正，可以产生一个较好的结果，而最后音调周期的修正以及它的重复，还可能导致轻微的质量下降。

图7用流程图的形式，示出了对应于这个方程的应用的过程，以对根据本发明的一个实施例的方法的步骤进行图示。其中，启始点是通过模块401传送的先前信号e(n)。在步骤70中，从确定浊音度的模块404中获得信号是否是高浊音的信息。如果该信号是高浊音(在测试71的输出处的箭标O)，则在图4的模块403中，有效块的最后音调周期被就完全被复制，以及，随后该处理过程直接通过模块405的反转滤波1/A(z)的应用而被继续。

在另一方面，如果信号xl不是高浊音的(在测试71的输出的箭标N)，它将尝试修改对应于被接收到的最后有效块的激励信号e(n)的最后采样，这些采样延续至整个音调周期T₀(步骤73)，由图4中的模块402给出(在步骤72中)。

在图7所示的实施例中，它尝试修改在整个音调周期T₀中的所有采样e(n)，其中n包括表示n₁-T₀+1到n₁中的值，e(n₁)对应于被接收到的最后有效采样(步骤74)。因此，通过这些符号，可以理解，采样e(n)，n介于n₁-T₀+1和n₁之间，简单地属于最后被有效接收到的音调周期。

在步骤75中，对应于最后音调周期的每个采样e(n)，确定一个先前音调周期的邻近区域NEIGH，这样在倒数第二个音调周期中。这个测量是有利的，但不是必需的。它所提供的优点将在下文中描述。在此进行简单的阐述，在一个被描述的实施例中，这个邻近区域包括奇数个的采样2k+1。当然，在一个变化实施例中，这数目可以是偶数。此外，在图6所示的实施例中，我们取k＝1。事实上，再次参阅图6，可以注意到，被称为e(3)的最后音调周期的第三个采样被选择(步骤74)，并且和它在倒数第二音调周期中相对应的邻近区域NEIGH的采样用粗体被表示出来，并且为e(2-T₀)，e(3-T₀)和e(4-T₀)。这样，它们是分散在e(3-T₀)周围。

在步骤76中，从邻近区域中的采样确定以绝对值的形式的最大值(即，在图6所示的例子中的采样e(2-T₀))。这个特性是有利的，但不是必需的。它提供的优势将在下文中进行描述。典型地，在一个变化实施例中，例如，可能通过选择以确定在邻近区域NEIGH上的平均值。

在步骤77中，现有采样e(n)的值和在步骤76中在邻近区域得到的最大值M之间，以绝对值的形式，确定一个的最小值。在图6所示的实施例中，实际上，介于e(3)和e(2-T₀)中最小值是倒数第二的音调周期e(2-T₀)的采样。仍在步骤77中，当前采样e(n)的振幅被这个最小值代替。在图6中，采样e(3)的振幅变得与采样e(2-T₀)的振幅相等。同样的方法被应用在最后周期的所有采样上，从e(1)到e(12)。在图6中，被校正的采样已经被替换，如虚线框所示。根据本发明而被校正的被预测音调周期T_j+1，T_j+2的采样，通过闭合箭头(closed arrow)表示。

这样，可以理解的是，通过步骤77的有利的执行，如果一爆破音确实在最后的音调周期T_j上出现(如图6中所示，高信号强度，以绝对值形式)，在该爆破音的强度和在前一音调周期中的大约在相同的短暂位置上的采样的强度之间，最小值会被确定(这里，术语“大约”是指“至最近的相邻区域的±k”，在步骤75中产生该实施例的优点)，以及如果用一个属于倒数第二的音调周期T_j-1的较低的强度对爆破音的强度进行适当的替换。另一方面，如果最后音调周期T_j的采样的强度比倒数第二周期的强度低，通过在当前采样e(3)与倒数第二周期T_j-1中的强度值e(2-T₀)之间选择最小值，该最后周期不被修正，这样就避免了爆破音(有高强度)从倒数第二音调周期T_j-1中被复制的风险。

这样，在步骤76中，可以对邻近区域(例如，并且不是在该邻近区域上的另一参数)的采样，以绝对值的形式，确定最大值M，以弥补为了执行值e(n)的替换步骤77中选择最小值的影响。因此，这一做法使得避免限制替换音调周期T_j+1，T_j+2(图6)的振幅成为可能。

更进一步地，确定相邻区域的步骤75有利地被执行，因为音调周期不总是有规则的，并且如果采样e(n)在音调周期T₀中有最大的强度，对于下一音调周期中的采样e(n+T₀)，这也不是总是这样的。此外，一个音调周期可以延续至落在在两个采样(以被确定的采样频率)中的一个短暂位置上。这被称为“部分音调(fractional pitch)”。因此，如果有必要将采样e(n-T₀)与在位于下一音调周期中的采样e(n)联系起来，则通常优选地，取一个以采样e(n-T₀)为中心的一个邻近区域。

最后，因为步骤75至77的处理过程必须涉及采样的绝对值，步骤78简单地包括了将原始采样e(n)的符号重新分配给被修正的采样e_mod(n)。

为下一采样e(n)(在步骤79中n变为n+1)重复步骤75至78，直到音调周期T₀被用尽(exhausted)(因此直到到达最后有效采样e(n₁))。

这样，为了余下的解码，被修正的信号e_mod(n)被传送至翻转滤波器1/A(z)(参考图4中的405)。

然而，需要注意两个可能的变化实施例。可以以这样的方法来校正最后音调周期T_j，将该校正T’_j应用到该下一个音调周期，并且为下一音调周期复制该校正，即：T_j＝T_j+1＝T_j+2＝T’_j。

在一个变化实施例中，最后音调周期T_j被原封不动地保留，并且在另一方面，它的校正T’_j被复制到下一个音调周期T_j+1和T_j+2中。

图5与图6的比较示出了，激励的修正如何被执行时有利的。因此，简要地说，当在最后音调周期中出现爆破音的情况下，后者将在音调重复之前自动地被移除，因为它在倒数第二音调周期中没有等同物。因此，这个操作使得移除包含爆破音重复的音调重复的多个麻烦的伪迹中的一个成为可能。

此外，有利地，如果一个爆破音在最后音调周期中被探测到，则对被重复和被合成的信号的一个更快衰减被提供。通常而言，短暂性的检测的一个实施例，可以包括对出现如下条件(1)的次数进行计算：

\frac{| e (n) |}{4} > \max_{i = - k, etc ., 0, etc ., + k} (| e (n - T_{0} + i) |)

如果这条件被证实出现，例如在当前帧中超过一次，那么先前信号xl包括一短暂性(例如一爆破音)，它可以通过406迫使一个更快的衰减作用在被合成信号yl上(例如，一个超过10ms的衰减)。

因此，图2c通过与图2a和图2b进行比较的方式，示出了当本发明被执行时的被解码信号，其中包含爆破音/t/的帧被丢失。在这样的情况下，因为本发明的执行，音素/t/的重复被避免。随着帧丢失而来的差异，不会被联系到爆破音的实际探测。实际上，在图2c中在帧丢失后的信号衰减，可以通过在这种情况下的事实得到解释，G.722解码器被重置(在图3中的模块302中完全更新其状态)，而在图2b的情况下，G.722解码器未被重置。然而，可以理解的是，本发明涉及为了对被除去帧的预则而对爆破音的探测，并不涉及在帧丢失之后的重新开始问题。

然而，对人的耳朵而言，在图2c中所示的信号比在图2b中所示的信号具有更好的质量。

本发明还涉及一种存储在数字音频信号合成装置的存储器中的计算机程序。当该计算机程序被该合成装置的处理器执行时，该计算机程序包括用于执行根据本发明的方法的指令。而且，前先描述的图7示出了这样一个计算机程序的一个流程图。

此外，本发明还涉及一种数字音频信号合成装置，所述信号由连续块组成。这个装置还包括用于存储上述计算机程序的存储器，以及可以包括具有前文所述功能的图4中的模块403。参照图8，这个装置SYN包括：

-输入装置I，用于在至少一个当前块被合成之前，接收信号(e(n))的块，以及

-输出装置O，用于传送被合成的信号(e_mod(n))，所述被合成的信号至少包括所述当前块。

根据本发明的合成装置SYN，包括如工作储存器MEM(或用来存储前文提及的计算机程序)的装置，以及与这个存储器MEM协作的处理器PROC，用于执行根据本发明的方法，以及用于从信号e(n)至少一个所述先前块开始合成所述当前块。

本发明还涉及一种数字音频信号的解码器，所述信号由连续块组成，并且这个解码器还包括根据本发明的装置403，用于合成无效块。

更一般地，本发明不局限于上述列举的实施例；它可以延用到其它的变化实施例。

在变化例中，对音调周期的校正的和/或对短暂性的探测的参数可以是如下情况。取一个间隔，其包括在倒数第二音调周期中三个采样的不同个数。例如，取k＝2，以获得总共5个被考虑的采样。相似地，可以对短暂性测试调整门限值(在上述条件(1)的例子中为1/4)。另外，如果探测条件被证实m次，其中m≥1，则可以声明该信号为短暂性。

此外，本发明还可以同样被运用在除前文所述的情况之外的其它情况下。

例如，信号的探测和校正可以在信号域中(而不是激发域中)被执行。典型的，对于在CELP解码器(它也会根据源-过滤器模式执行)中的帧丢失的校正，该激励通过音调的重复被预测，可选地，再附加一个随机贡献(contribution)而被预测，并且，这个激励通过1/A(z)类型的滤波器被滤波，其中A(z)从被正确接收的最后预测过滤器获得。

它还可以同样好地被用于根据G.711标准的编码器。

当然，另外，如果在倒数第二个音调周期中，安排进行爆破音检测(例如，用上述条件(1)类型的条件)，则简单复制倒数第二音调周期T_j-1以构成新的被合成周期T_j+1，T_j+2已使得克服爆破音重复的问题成为可能。该实施例也在本发明的保护范围内。

此外，为了在上述描述中的清楚起见，步骤b)中的采样的校正被描述，紧跟着将已校正的采样复制到替换块中。当然，技术上严格等同情况下，它还可以先复制最后重复周期的采样，然后在替代块中对它们进行校正。因此，采样校正和复制可以被交替进行，可以任何顺序执行，特别地，可以被翻转。

Claims

1.一种用于合成由连续的采样块表示的数字音频语音信号的方法，其中，当接收到所述数字音频语音信号时，用于替换至少一个无效块，根据在所述无效块之前的至少一个有效块的采样产生一替换块，所述方法包括以下步骤：

a)确定步骤(402)，在所述至少一个有效块中确定一重复周期，以及

b)复制步骤(403)，复制所述重复周期的采样到至少一个替换块中，

其特征在于：

在所述语音信号(71)中检测浊音度，以及当所述语音信号是非浊音或弱浊音时，执行步骤a)至b)，并且-在步骤a)中，在紧接着一无效块前的至少一个有效块中，确定一个最后的重复周期(T_j)，-在步骤b)中，根据所述最后重复周期之前的一个先前重复周期(T_j-1)的采样(e(2-T₀)，e(3-T₀)，e(4-T₀))，对所述最后重复周期(T_j)的采样(e(3))进行校正，以限制在所述最后重复周期中的任何短暂性声音的振幅，并且因此被校正的所述采样被复制至所述替换块(T_j+1，T_j+2)中，所述校正在短暂位于当前采样前的一重复周期的一采样周围中心围绕的一邻近区域中执行。

2.根据权利要求1所述的方法，其中所述数字音频语音信号是一浊音语音信号，其特征在于，所述重复周期是对应所述数字音频语音信号的基本频率倒数的音调周期。

3.根据权利要求1或2所述的方法，其特征在于，在步骤b)，通过比较

-当前采样的振幅，以绝对值的形式，

-与短暂位于在所述当前采样之前的一重复周期中的至少一个采样(e(2-T₀))的振幅，以绝对值的形式，

以及

通过从所述这两个振幅中，为所述当前采样分配其中的最小的振幅，

以绝对值的形式，

对所述最后重复周期的一个当前采样(e(3))进行校正。

4.根据权利要求3所述的方法，其特征在于，对所述最后重复周期的一当前采样(e(3))：

-在短暂位于所述当前采样前的一重复周期的一采样(e(3-T₀))周围中心围绕的一邻近区域中，构建一采样的集合(75)，

-从所述邻近区域的采样的振幅中，确定一被选定的振幅(76)，以绝对值的形式，.以及

-比较所述被选定的振幅与所述当前采样的振幅，以绝对值的形式，以从所述被选定的振幅与所述当前采样的振幅中，为所述当前采样(e(3))分配(77)其最小振幅，以绝对值的形式。

5.根据权利要求4所述的方法，其特征在于，从所述邻近区域的采样的振幅中被选定的振幅是其最大振幅，以绝对值的形式(M)。

6.根据前述权利要求1中所述的方法，其中，在所述替换块中的采样的振幅的一个衰减被应用，其特征在于，所述方法包括对在所述最后重复周期的所述数字音频语音信号中的任何短暂性声音进行检测，并且，如果检测到所述短暂性声音，则使用一比对固定信号更快的衰减。

7.根据权利要求6所述的方法，其特征在于：

-对所述最后重复周期的多个当前采样，相对于被选定振幅，测量当前采样的振幅的一个相关关系，以绝对值的形式，以及

-对所述相关关系大于一第一预先确定的门限值的当前采样出现的次数进行计算，以及

-如果所述出现的次数大于一第二预先确定的门限值时，则一短暂性特征的存在被测定。

8.根据前述权利要求3中所述的方法，其特征在于，如果多个连续的无效块的接收延续至至少一个重复周期，则对所述最后重复周期的所有采样应用所述采样校正步骤b)，如当前采样，一个接着一个地进行。

9.根据权利要求8所述的方法，其特征在于，如果多个连续的无效块的接收延续至多个重复周期，为了替换所述多个无效块，对在步骤b)中被校正的重复周期进行多次复制，以得到所述替换块。

10.一种用于合成由连续的采样块表示的数字音频语音信号的装置，其中，当接收到所述数字音频语音信号时，用于替换至少一个无效块，根据在所述无效块之前的至少一个有效块的采样产生一替换块，所述装置包括下述装置：

a)确定装置(402)，在所述至少一个有效块中确定一重复周期，以及

b)复制装置(403)，复制所述重复周期的采样到至少一个替换块中，

其特征在于：

还包括检测装置，其能在所述语音信号中检测浊音度，当语音信号是非浊音或弱浊音时，所述确定装置和复制装置执行确定和复制，其中，

-所述确定装置用于在紧接着一无效块前的至少一个有效块中，确定一个最后的重复周期(T_j)，

-所述复制装置用于根据所述最后重复周期之前的一个先前重复周期(T_j-1)的采样(e(2-T₀)，e(3-T₀)，e(4-T₀))，对所述最后重复周期(T_j)的采样(e(3))进行校正，以限制在所述最后重复周期中的任何短暂性声音的振幅，并且因此被校正的所述采样被复制至所述替换块(T_j+1，T_j+2)中，所述校正在短暂位于当前采样前的一重复周期的一采样周围中心围绕的一邻近区域中执行。

11.一种数字音频语音信号的解码器，所述数字音频语音信号由连续块组成，其特征在于，该解码器还包括根据权利要求10所述的用于合成由连续的采样块表示的数字音频语音信号的装置，用于合成无效块。