CN104254886B

CN104254886B - 自适应编码浊音语音的基音周期

Info

Publication number: CN104254886B
Application number: CN201280055505.7A
Authority: CN
Inventors: 高阳
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2011-12-21
Filing date: 2012-12-21
Publication date: 2018-08-14
Anticipated expiration: 2032-12-21
Also published as: US20130166287A1; EP2798631A2; US9015039B2; WO2013096875A2; EP2798631A4; WO2013096875A3; CN104254886A; EP2798631B1

Abstract

本发明提供了用于双重模式基音周期编码的系统和方法实施例。所述系统和方法实施例用于根据基音周期长度、稳定性或两者使用一个或两个基音周期编码模式对浊音语音信号的基音周期进行自适应编码。所述两种基音周期编码模式包括具有相对较高的精确度和较小的动态范围的第一基音周期编码模式以及具有相对较大的基音周期动态范围和较低的精确度的第二基音周期编码模式。在确定所述浊音语音信号具有相对较短或相当稳定的基音周期之后，使用所述第一基音周期编码模式。在确定所述浊音语音信号具有相对较长或稳定性较差的基音周期或是相当嘈杂的信号之后，使用所述第二基音周期编码模式。

Description

自适应编码浊音语音的基音周期

本发明要求2012年12月21日递交的发明名称为“自适应编码浊音语音的基音周期(Adaptively Encoding Pitch Lag For Voiced Speech)”的第13/724700号美国非临时专利申请案的在先申请优先权，该在先申请案要求2011年12月21日递交的发明名称为“自适应编码浊音语音的基音周期(Adaptively Encoding Pitch Lag For Voiced Speech)”的第61/578391号美国临时专利申请案的在先申请优先权，以上在先申请的内容以引入的方式并入本文本中

技术领域

本发明大体涉及信号编码领域，且在特定实施例中，涉及一种用于对浊音语音的基音周期进行编码的系统和方法。

背景技术

传统来讲，参数化语音编码方法都是利用语音信号本身的冗余，来减少待发送的信息量，并估算一个信号的语音样本在短时段内的参数。这种冗余起因于语音波形周期性的重复和语音信号的频谱包络慢变过程。不同形式的语音波形的冗余对应于不同类型的语音信号，例如浊音和清音。就浊音语音而言，语音信号基本上是周期性的。然而，这种周期性在语音段中是变化的，而且周期波形在语音段之间缓慢变化。低比特率的语音编码可以很大地受益于这种周期性。浊音语音周期还称为基音周期，这种基音周期预测通常被命名为长期预测(Long-Term Prediction：LTP)。至于清音，其信号更像是一个随机噪声，可预测性也较小。

发明内容

根据实施例，一种由语音/音频编码装置实施的双重模式基音周期编码方法包括，根据基音周期长度、稳定性或两者，使用两种基音周期编码模式中的一种对一个浊音语音信号中一帧的多个子帧的基音周期进行编码。所述两种基音周期编码模式包括第一种基音周期编码模式和第二种基音周期编码模式，其中第一种基音周期编码模式具有相对较高的基音周期编码精确度和较小的动态范围，而第二种基音周期编码模式具有相对较大的基音周期动态范围和较低的编码精确度。

根据另一实施例，一种由语音/音频编码装置实施的双重模式基音周期编码的方法包括，确定一个浊音语音信号是否具有相对较短的基音周期和相当稳定的基音周期中的一个或者具有相对较长的基音周期和相对稳定性较差的基音周期中的一个或者是一个相当嘈杂的信号。所述方法进一步包括，在确定所述浊音语音信号具有相对较短的或相当稳定的基音周期之后，对所述具有相对较高的基音周期精确度和较小的动态范围的浊音语音信号的基音周期进行编码，或者在确定所述浊音语音信号具有相对较长的或稳定性较差的基音周期或者是一个相当嘈杂的信号之后，对所述具有相对较大的基音周期动态范围和较低的精确度的浊音语音信号的基音周期进行编码。

在又一实施例中，一种支持双重模式基音周期编码的装置，包括一个处理器和一个存储由所述处理器执行的程序的计算机可读存储介质。所述程序包括多个指令，以确定浊音语音信号是否具有相对较短的基音周期和相当稳定的基音周期中的一个或者具有相对较长的基音周期和相对稳定性较差的基音周期中的一个或者是否是一个相对嘈杂的信号；以及在确定所述浊音语音信号具有相对较短的或相当稳定的基音周期之后，对具有相对较高的精确度和较小的动态范围的浊音语音信号的基音周期进行编码；或在确定所述浊音语音信号具有相对较长的或稳定性较差的基音周期或者是相对嘈杂的信号之后，对具有相对较大的动态范围和较低的精确度的浊音语音信号的基音周期进行编码。

附图说明

为了更完整地理解本发明及其优点，现在参考以下结合附图进行的描述，其中：

图1是码激励线性预测技术(CELP)编码器的方框图。

图2是对应于图1中的CELP编码器的解码器的方框图。

图3是另一具有自适应分量的CELP编码器的方框图。

图4是另一对应于图3中的CELP编码器的解码器的方框图。

图5是基音周期小于子帧大小和半帧大小的浊音语音信号的示例。

图6是基音周期大于子帧大小而小于半帧大小的浊音语音信号的示例。

图7示出了浊音语音信号的频谱的示例。

图8示出了图7中的经过双倍基音周期编码的相同信号的频谱的示例。

图9示出了用于对浊音语音的基音周期进行双重模式的自适应编码的实施例方法。

图10是可用于实施各种实施例的处理系统的方框图。

具体实施方式

下文将详细论述当前优选实施例的制作和使用。然而，应了解，本发明提供可在各种具体上下文中体现的许多适用的发明性概念。所论述的具体实施例仅仅说明用以实施和使用本发明的具体方式，而不限制本发明的范围。

针对浊音或清音，参数编码通过分割频谱包络分量和语音信号的激励分量来减少语音段的冗余。频谱包络慢变过程可以被描述成线性预测编码(Linear PredictionCoding：LPC)，也称为短期预测(Short-Term Prediction：STP)。低比特率的语音编码也同样受益于短期预测。这种编码的优点就来自于参数的慢速变化。进一步地，语音信号参数值可能不会在几毫秒内有很大不同。在8千赫兹(kHz)、12.8kHz或16kHz采样率时，语音编码算法将10毫秒至30毫秒范围内的语音段作为常用的帧长。而20毫秒是最常用的帧长。在G.723.1、G.729、G.718、EFR、SMV、AMR、VMR-WB或AMR-WB等较近期的知名国际标准中已经采用了码激励线性预测技术(Code Excited Linear Prediction Technique：CELP)。CELP是一种编码激励、长期预测和短期预测技术的结合。尽管不同编解码器的CELP细节可能显著不同，但利用CELP的语音编码算法在语音压缩领域已经相当流行。

图1示出了CELP编码器100的示例，其中利用综合分析方法可以最小化合成语音信号102和原始语音信号101之间的加权误差109。CELP编码器100执行不同的操作或功能。对应的函数W(z)通过误差加权滤波器110实现。函数1/B(z)通过长期线性预测滤波器105实现。函数1/A(z)通过短期线性预测滤波器103实现。来自编码激励块108的编码激励107，也称为固化码本激励，在通过随后滤波器之前乘以增益G_c106调节。短期线性预测滤波器103通过分析原始信号101实施并由一组系数表示：

误差加权滤波器110与上述短期线性预测滤波器函数有关。加权滤波器函数的典型形式可能是

其中β<α，0<β<1，且0<α≤1。长期线性预测滤波器105依赖于信号基音周期和基音周期增益。可以从原始信号、残余信号或加权原始信号中估计基音周期。长期线性预测滤波器函数可以表示为

B(z)＝1-G_p·z^-Pitch (3)

来自编码激励块108中的编码激励107可由脉冲类似信号或噪声类似信号组成，这些信号从数学意义上构建或保存在码本中。编码激励索引、量化增益索引、量化长期预测参数索引，以及量化短期预测参数索引可以从编码器100传输到解码器。

图2示出了解码器200的示例，该解码器可接收来自编码器100的信号。编码器200包括输出合成语音信号206的后处理块207。解码器200包括多个块的组合，多个块包含编码激励块201、长期线性预测滤波器203、短期线性预测滤波器205，以及后处理块207。解码器200中块的配置类似于编码器100中对应的块的配置。后处理块207可包含短期后处理和长期后处理功能。

图3示出了另一CELP编码器300，其通过使用自适应码本块307实施长期线性预测。自适应码本块307使用过去的合成激励304或在基音周期内重复过去的激励基音周期。编码器300中的剩余块和分量类似于上面所述的块和分量。当基音周期相对较大或长时，编码器300可以以整数值编码基音周期。当基音周期相对较小或短时，该基音周期可以以更加准确的极小值进行编码。基音周期的周期性信息用来(在自适应码本块307处)产生自适应激励分量。这时，这种激励分量将乘于增益G_p305(还称为基音周期增益)。自适应码本块307和编码激励块308的两个由增益控制幅度的激励分量在通过短期线性预测滤波器303前被加到一起。这两个增益(G_p和G_c)需量化，然后发送到解码器。

图4示出了解码器400，其可接收来自编码器300的信号。解码器400包括输出合成语音信号407的后处理块408。解码器400类似于解码器200，而解码器400中的分量类似于解码器200中对应的分量。然而，解码器400除了包含其他块(含有编码激励块402、自适应码本401、短期线性预测滤波器406，以及后处理块408)的组合之外还包含自适应码本块307。后处理块408可包含短期后处理和长期后处理功能。其他块类似于解码器200中对应的分量。

由于浊音语音具有相对较强的周期性，因而长期预测可以有效地用在浊音语音中。浊音语音的相邻基音周期可以彼此相似，这意味着，从数学意义上来说，下面激励表达中的基音周期增益G_p相对较高或接近1，

e(n)＝G_p·e_p(n)+G_c·e_c(n) (4)

其中e_p(n)是以n为取样序数的子帧，它从使用过去的合成激励304或403的自适应码本块307或401发送过来。参数e_p(n)可以进行自适应地低通滤波，因为低频区域可能比高频区域更具有周期性或更多谐波。参数e_c(n)是从激励码本308或402(还称为固定码本)发送过来的，它是当前激励贡献。参数e_c(n)可以例如使用高通滤波增强、基音周期增强、色散增强、共振峰增强等增强。对于浊音语音，来自自适应码本块307或401的e_p(n)的贡献可以是主导的，而且基音周期增益G_p305或404的值大约为1。可以更新每个子帧的激励。例如，一个典型的帧的大小约为20毫秒，一个典型子帧的大小约为5毫秒。

对于典型的浊音语音信号来说，一个帧可包括两个以上的基音周期。图5示出了浊音语音信号500的示例，其中基音周期503小于子帧大小502和半帧大小501。图6示出了浊音语音信号600的另一示例，其中基音周期603大于子帧大小602而小于半帧大小601。

通过受益于人类声音特征或人类嗓音产生模型，使用CELP对语音信号进行编码。CELP算法已经在ITU-T、MPEG、3GPP以及3GPP2等各种标准中使用。为了更加有效地对语音信号进行编码，可以将语音信号分成不同的种类，其中每个种类以不同的方式进行编码。例如，在G.718、VMR-WB或AMR-WB等一些标准中，可以将语音信号分成如下几类：清音(UNVOICED)、过渡语音(TRANSITION)、普通语音(GENERIC)、浊音(VOICED)以及噪音(NOISE)。对于每个种类，LPC或STP滤波器用于表示频谱包络，但是对LPC滤波器的激励可能不一样。UNVOICED和NOISE种类的语音信号可以使用噪声激励和一些激励增强进行编码。TRANSITION种类的语音信号可以在不使用自适应码本或LTP的情况下使用脉冲激励和一些激励增强进行编码。GENERIC种类的语音信号可以使用传统的CELP方法，例如在G.729或AMR-WB中使用的代数CELP，其中一个20毫秒(ms)的帧包含四个5ms的子帧。自适应码本激励分量和固化码本激励分量通过每个帧的一些激励增强产生。第一个和第三个子帧中的自适应码本的基音周期进行全范围编码，从最小基音周期限制PIT_MIN到最大基音周期限制PIT_MAX，第二个和第四个子帧中的自适应码本的基音周期与先前编码的基音周期进行不同地编码。VOICED种类的语音信号的编码与普通语音信号的编码略有不同，其中第一个子帧中的基音周期进行全范围编码，从最小基音周期限制PIT_MIN到最大基音周期限制PIT_MAX，其他子帧中的基音周期与先前编码的基音周期进行不同地编码。例如，假设激励取样率为12.8kHz，该PIT_MIN值可以是34而PIT_MAX值可以是231。

对于正常语音信号来说，CELP编解码器(编码器/解码器)能够高效工作，但是对于音乐信号和/或歌声信号来说，低比特率CELP编解码器可能不工作。对于稳定的浊音语音信号来说，VOICED种类的语音信号的基音周期编码方法可以通过减少比特率以使用更加差异的基音周期编码对基音周期进行编码从而提供比GENERIC种类的语音信号的基音周期编码方法更好的性能。然而，VOICE种类的语音信号的基音周期编码方法可能仍然存在两个问题。第一，当真实基音周期相当或相对很短时，例如，当真实基音周期小于PIT_MIN时，性能不足够好。第二，当用于编码的可用比特数目有限时，高精确度基音周期编码可能产生相当较小的基音周期动态范围。或者，由于编码比特有限，较大基音周期动态范围可能会导致相对较低精确度的基音周期编码。例如，4比特的基音周期差分编码可以具有四分之一的样本精确度，但是只有±2样本动态范围。或者，4比特的基音周期差分编码可以具有±4的样本动态范围，但是只有二分之一的样本精确度。

关于VOICE种类的语音信号的基音周期编码的第一个问题，当F_s＝12.8kHZ时，PIT_MIN＝34到PIT_MAX＝231的基音周期范围可以适合各种人类声音。然而，典型音乐或唱歌信号的真实基音周期可以显著小于CELP算法中定义的最小限制PIT_MIN＝34。当真实基音周期是P时，对应的基频是F0＝F_s/P，其中F_s是取样频率，F0是频谱中第一谐振峰的位置。因此，最小基音周期限制PIT_MIN实际上可限定CELP算法的最大基频限制F_MIN＝F_s/PIT_MIN。

图7示出了浊音语音信号的频谱700的示例，该频谱包括谐振峰701和频谱包络702。真实基频(第一谐振峰的位置)已经超过最大基频限制F_MIN，这样，CELP算法中已传输的基音周期等同于真实基音周期的双倍或多倍。作为多倍真实基音周期的错误基音周期可以导致质量下降。换句话说，当谐波音乐信号或歌声信号的真实基音周期小于CELP算法中限定的最小周期限制PIT_MIN，已传输的周期可以是真实基音周期的双倍、三倍或多倍。图8示出了经过双重基音周期编码的相同信号的频谱800的示例(已编码和传输的基音周期是真实基音周期的双倍)。频谱800包括谐振峰801、频谱包络802，以及真实谐振峰之间不想要的小峰。图8中的小频谱峰可导致不舒服的听觉扭曲。

关于VOICE种类的语音信号的基音周期编码的第二问题，相对较短的基音周期信号或相当稳定的基音周期信号在保证了高精确度基音周期编码时可以具有好的质量。然而，由于动态范围有限，相对较长的基音周期信号、稳定性较差的基音周期信号或相当嘈杂的信号的质量会降低。换句话说，当基音周期编码的动态范围相对较高时，长基音周期信号、稳定性较差的基音周期信号或相当嘈杂的信号可以具有好的质量，但是相对较短的基音周期信号或稳定的基音周期信号的质量因基音周期精确度受限可能下降。

本文中提供的系统和方法实施例用于避免VOICE种类的语音信号的基音周期编码的两个潜在问题。系统和方法实施例用于对基音周期进行双重模式的自适应地编码，其中每个基音周期编码模式有差别地限定一个基音周期编码精确度或动态范围。一个基音周期编码模式包括对相对较短的基音周期信号或稳定的基音周期信号进行编码。另一基音周期编码模式包括对相对较长的基音周期信号、稳定性较差的基音周期信号，或相当嘈杂的信号进行编码。下文对双重模式编码进行详细说明。

通常，音乐谐波信号或歌声信号比正常语音信号更平稳。正常语音信号的基音周期(或基频)可随时间不断变化。然而，音乐信号或歌声信号的基音周期(或基频)可在相对较长的时长里相对缓慢变化。针对相对较短的基音周期，为了有效编码，具有精确的基音周期是很有用的。相对较短的基音周期从一个子帧到下一个子帧变化相对缓慢。这意味着当真实基音周期相当短时，基音周期编码不需要相当大的动态范围。通常，短基音周期比长基音周期需要更高的精确度而需要较小的动态范围。针对稳定的基音周期，基音周期编码不需要相对较大的动态范围，因此，这种基音周期编码着重于高精确度。相应地，一个基音周期编码模式可用于限定高精确度和相对较小的动态范围。该基音周期编码模式用来对相对较短的基音周期信号或相当稳定的基音周期信号进行编码，这些信号在前一子帧和当前子帧之间具有相对较小的基音周期差异。通过减少基音周期编码的动态范围，可以在对信号子帧的基音周期进行编码时保存一个或多个比特。可以使用更多的比特用来确保以基音周期动态范围为代价的高基音周期精确度。

针对相对较长的基音周期信号、稳定性较差的基音周期信号或相当嘈杂的信号，可以对基音周期进行编码，以具有较低的精确度和更多的动态范围。这是可能的，因为，长基音周期要求的精确度比短基音周期的低但是需要更多的动态范围。进一步，变化的基音周期要求的精确度比稳定的基音周期的低但是需要更多的动态范围。例如，当前一子帧和当前子帧之间的基音周期差异是2时，四分之一的基音周期精确度可能已经毫无疑义，因为一个子帧内存在强制的恒定基音周期，这意味着一个子帧内恒定基音周期值的假设已经不再精确。相应地，其他基音周期编码模式限定了相对较大的动态范围和较低的基音周期精确度，该模式用来对长的基音周期信号、稳定性较差的基音周期信号或非常嘈杂的信号进行编码。通过减少基音周期编码中的动态范围，可以对信号子帧的基音周期进行编码时保存一个或多个比特。可以使用更多的比特用来确保以基音周期精确度为代价的高基音周期动态范围。

图9示出了用于对浊音语音的基音周期进行双重模式的自适应编码的实施例方法900。方法900可以由编码器，例如编码器300(或100)实施。在步骤910中，方法900确定浊音语音信号是否是相对较短的基音周期信号(或相当稳定的基音周期信号)或该信号是否是相对较长的基音周期信号(或稳定性较差的基音周期信号或相当嘈杂的信息)。相对较短的基音周期信号或相当稳定的基音周期浊音语音的示例可以是音乐段、歌声，或女性或孩童歌声。如果浊音语音信号是相对较短的基音周期信号或相当稳定的基音周期信号，方法900前进到步骤921。或者，如果浊音语音信号是相对较长的基音周期信号、稳定性较差的基音周期信号，或相当嘈杂的信号，方法900前进到步骤931。

在步骤920，方法900使用一个比特，例如指示第一基音周期编码模式(针对相对较短或相当稳定的基音周期信号)或第二基音周期编码模式(针对相对较长或稳定性较差的基音周期信号或相当嘈杂的信号)。这一个比特可设置为0或1以指示第一基音周期编码模式或第二基音周期编码模式。在步骤921，方法900使用减少的比特数目，例如，根据标准对比于传统CELP算法，以具有较高或足够精确度和减少的或最小动态范围对基音周期进行编码。例如，方法900对第一子帧之后的子帧的基音周期进行差分编码以减少比特数目。

在步骤931，方法900使用减少的比特数目，例如，根据标准对比于传统CLEP算法，以编码具有减少的或最低精确度和较高或足够的动态范围。例如，方法900在对第一子帧之后的子帧的基音周期进行差分编码中减少比特数目。

如果在编码器中实施用于对浊音语音的基音周期进行双重模式的自适应编码的方法，对应的方法还可由对应的解码器，例如解码器400(或200)实施。该方法包括接收来自编码器的浊音语音信号以及检测一比特以确定用来对浊音语音信号进行编码的基音周期编码模式。然后，该方法包括，如果信号对应于第一模式，解码具有较高精确度和较小动态范围的基音周期，或如果信号对应于第二模式，解码具有较低精确度和较大动态范围的基音周期。

VOICE种类的语音信号的双重模式基音周期编码方法大大有益于低比特率编码。在实施例中，每帧中有一个比特用于标识基音周期编码模式。以下不同的示例包括双重模式基音周期编码方法的不同实施细节。

在第一示例中，浊音语音信号可以在12.8kHz的取样频率下使用每秒6800比特的编解码器进行编码。表1示出了VOICE种类的语音信号的典型基音周期编码方法，其中四个连续的子帧分别具有总共23个＝(8+5+5+5)比特。

表1：6.8kbps的编解码器的旧基音周期表

通过使用VOICE种类的语音信号的双重模式基音周期编码方法，第一基音周期编码模式限定了相当稳定的基音周期或短基音周期，至少对于第二个和第三个子帧来说，这满足了前一子帧和当前子帧之间的基音周期差异小于或等于2(同时基音周期小于143)或者这满足了相当短的基音周期(所有子帧的基音周期大于等于16并小于等于34)。如果不满足所限定的条件，第一基音周期编码模式对具有高精确度和较少动态范围的基音周期进行编码。表2示出了第一基音周期编码模式的详细限定。

表2：6.8kbps的编解码器的第一基音周期编码模式中的新基音周期表

不满足上述第一基音周期编码模式的其他情况归类于VOICE种类的语音信号的第二基音周期编码模式。第二基音周期编码模式对具有低精确度和相对较大的动态范围进行编码。表3示出了第二基音周期编码模式的详细限定。

表3：6.8kbps的编解码器的第二基音周期编码模式中的新基音周期表

在上述示例中，新的双重模式基音周期编码解决方案与旧的解决方案具有相同的总比特率。然而，从16到34的基音周期范围在不牺牲基音周期范围为34到231的质量下进行编码。可以修改表2和3，使得相比于旧的解决方案，保持或提高质量同时保存总比特率。修改后的表2和表3在下面称为表2.1和表3.1。

表2.1：6.8kbps的编解码器的第一基音周期编码模式中的新基音周期表

表3.1：6.8kbps的编解码器的第二基音周期编码模式中的新基音周期表

在第二示例中，浊音语音信号可以在12.8kHz的取采样频率下使用7600bps的编解码器进行编码。表4示出了VOICE种类的语音信号的典型基音周期编码方法，其中四个连续的子帧分别具有总共20个＝(8+4+4+4)比特。

表4：7.6kbps的编解码器的旧基音周期表

通过使用VOICE种类的语音信号的双重模式基音周期编码方法，第一基音周期编码模式限定了相当稳定的基音周期或短的基音周期，至少对于第二个和第三个子帧来说，这满足了前一子帧和当前子帧之间的基音周期差异小于或等于1(同时基音周期小于143)或者这满足了相当短的基音周期(所有子帧的基音周期大于等于16并小于等于34)。如果不满足所限定的条件，第一基音周期编码模式对具有高精确度和较少动态范围的基音周期进行编码。表5示出了第一基音周期编码模式的详细限定。

表5：7.6kbps的编解码器的第一基音周期编码模式中的新基音周期表

不满足上述第一基音周期编码模式的其他情况归类于VOICE种类的语音信号的第二基音周期编码模式。第二基音周期编码模式对具有低精确度和相对较大的动态范围进行编码。表6示出了第二基音周期编码模式的详细限定。

表6：7.6kbps的编解码器的第二基音周期编码模式中的新基音周期表

在上述示例中，新的双重模式基音周期编码解决方案与旧的解决方案具有相同的总比特率。然而，从16到34的基音周期范围在不牺牲基音周期范围为34到231的质量下进行编码。

在第二示例中，浊音语音信号可以在12.8kHz的取采样频率下使用9200bps、12800bps或16000bps的编解码器进行编码。表7示出了VOICE种类的语音信号的典型基音周期编码方法，其中四个连续的子帧分别具有总共24个＝(9+5+5+5)比特。

表7：速率大于等于9.2kbps的编解码器的旧基音周期表

通过使用VOICE种类的语音信号的双重模式基音周期编码方法，第一基音周期编码模式限定了相当稳定的基音周期或短的基音周期，至少对于第二个子帧来说，这满足了前一子帧和当前子帧之间的基音周期差异小于或等于2(同时基音周期小于143)或者这满足了相当短的基音周期(所有子帧的基音周期大于等于16并小于等于34)。如果不满足所限定的条件，第一基音周期编码模式对具有高精确度和较少动态范围的基音周期进行编码。表8示出了第一基音周期编码模式的详细限定。

表8：速率大于等于9.2kbps的编解码器的第一基音周期编码模式中的新基音周期表

不满足上述第一基音周期编码模式的其他情况归类于VOICE种类的语音信号的第二基音周期编码模式。第二基音周期编码模式对具有低精确度和相对较大的动态范围进行编码。表9示出了第二基音周期编码模式的详细限定。

表9：速率大于等于9.2kbps的编解码器的第二基音周期编码模式中的新基音周期表

在上述示例中，新的双重模式基音周期编码解决方案与旧的解决方案具有相同的总比特率。然而，从16到34的基音周期范围在不牺牲或提高基音周期范围为34到231的质量下进行编码。可以修改表8和9，使得相比于旧的解决方案，保持或提高质量同时保存总比特率。修改后的表8和表9在下面称为表8.1和表9.1。

表8.1：速率大于等于9.2kbps的编解码器的第一基音周期编码模式中的新基音周期表

表9.1：速率大于等于9.2kbps的编解码器的第二基音周期编码模式中的新基音周期表

在实施例中，可以实施低比特率编解码器的双重模式基音周期编码决策的过程，其中stab_pit_flag＝1意味着设置了第一基音周期编码模式，而stab_pit_falg＝0意味着设置了第二基音周期编码模式。在该过程中，参数Pit[0]、Pit[1]、Pit[2]和Pit[3]分别是编码器中第一、第二、第三和第四子帧的经估计的基音周期。该过程可包括以下或类似的代码：

信噪比(Signal Noise Ratio: SNR)是语音编码的客观测试测量方法之一。加权分段SNR(Weighted Segmental SNR: WsegSNR)是另一种主观测试测量方法，其比SNR稍微靠近真感知质量测量。SNR或WsegSNR中相对较小的差别可能察觉不到，而SNR或WsegSNR中的较大差别可能很容易或清晰地察觉到。下文的表10到表15示出了上述示例中使用/没有使用双重模式基音周期编码的主观测量结果。这些表示出了双重模式基音周期编码方法可以在包含相当较短的基音周期时显著提高语音或音乐编码质量。其他听力测试结果还示出了具有真实基音周期小于等于PIT_MIN的语音或音乐质量在使用双重模式基音周期编码之后显著提高。

表10：具有真实基音周期大于PIT_MIN的清晰语音的SNR

	6.8kbps	7.6kbps	9.2kbps	12.8kbps	16kbps
						参照	6.527	7.128	8.102	8.823	10.171
双重模式	6.536	7.146	8.101	8.822	10.182
						差异	0.009	0.018	-0.001	-0.001	0.011

表11：具有真实基音周期大于PIT_MIN的清晰语音的WsegSNR

	6.8kbps	7.6kbps	9.2kbps	12.8kbps	16kbps
						参照	6.912	7.430	8.356	9.084	10.232
双重模式	6.941	7.447	8.377	9.130	10.288
						差异	0.019	0.017	0.021	0.046	0.056

表12：真实基音周期大于PIT_MIN的噪声语音的SNR

	6.8kbps	7.6kbps	9.2kbps	12.8kbps	16kbps
						参照	5.208	5.604	6.400	7.320	8.390
双重模式	5.202	5.597	6.400	7.320	8.387
						差异	-0.006	-0.007	0.000	0.000	-0.003

表13：真实基音周期大于PIT_MIN的噪声语音的WsegSNR

	6.8kbps	7.6kbps	9.2kbps	12.8kbps	16kbps
						参照	5.056	5.407	6.182	7.206	8.231

双重模式	5.053	5.404	6.182	7.202	8.229
						差异	-0.003	-0.003	0.000	-0.004	-0.002

表14：具有真实基音周期小于等于PIT_MIN的清晰语音的SNR

	6.8kbps	7.6kbps	9.2kbps	12.8kbps	16kbps
						参照	5.241	5.865	6.792	7.974	9.223
双重模式	5.732	6.424	7.272	8.332	9.481
						差异	0.491	0.559	0.480	0.358	0.258

表15：具有真实基音周期小于等于PIT_MIN的清晰语音的WsegSNR

	6.8kbps	7.6kbps	9.2kbps	12.8kbps	16kbps
						参照	6.073	6.593	7.719	9.032	10.257
双重模式	6.591	7.303	8.184	9.407	10.511
						差异	0.528	0.710	0.465	0.365	0.254

图10是可用于实施各种实施例的装置或处理系统1000的方框图。例如，处理系统1000可以是网络部件的一部分或耦合到网络部件，例如路由器、服务器或任何合适的网络部件或装置。特定设备可以利用所示的所有部件，或仅部件的子集，而集成水平随设备的不同而不同。进一步地，设备可以包含部件的多个实例，如多个处理单元、处理器、存储器、发射器、接收器等等。处理系统1000可以包括配备有一个或多个输入/输出设备的处理单元1001，所述输入/输出设备包括扬声器、麦克风、鼠标、触摸屏、小键盘、键盘、打印机、显示器等等。处理单元1001可包括中央处理单元(central processing unit：CPU)1010、存储器1020、大容量存储设备1030、视频适配器1040，以及连接到总线的I/O接口1060。所述总线可以为任何类型的若干总线架构中的一个或多个，包括存储总线或者存储控制器、外设总线以及视频总线等等。

所述CPU1010可包括任意类型的电子数据处理器。存储器1020可包括任意类型的系统存储器，比如静态随机存取存储器(static random access memory：SRAM)、动态随机存取存储器(dynamic random access memory：DRAM)、同步DRAM(synchronous DRAM：SDRAM)、只读存储器(read-only memory：ROM)或其组合等等。在实施例中，存储器1020可包括在开机时使用的ROM以及执行程序时使用的程序和数据存储的DRAM。在实施例中，存储器1020是非瞬时的。大容量存储器设备1030可包括任意类型的存储器设备，其用于存储数据、程序和其他信息，并使这些数据、程序和其他信息通过总线访问。大容量存储器设备1030可包括如下项中的一种或多种：固态磁盘、硬盘驱动器、磁盘驱动器、光盘驱动器等等。

视频适配器1040和I/O接口1060提供接口以耦合外部输入输出设备至处理单元。如图所示，输入输出设备的示例包括耦合至视频适配器1040的显示器1090和耦合至I/O接口1060的鼠标/键盘/打印机1070。其它设备可以耦合至处理单元1001，可以利用附加的或更少的接口卡。例如，可使用串行接口卡(未示出)将串行接口提供给打印机。

处理单元1001可以包括一个或多个网络接口1050，网络接口可包括有线链路，如以太网电缆等等，和/或无线链路以接入节点或者一个或多个网络1080。网络接口1050允许处理单元1001通过网络1080与远程单元通信。比如，网络接口1050可以通过一个或多个发送器/发射天线以及一个或多个接收器/接收天线提供无线通信。在实施例中，所述处理单元1001耦合到局域网或广域网用于数据处理并与远程设备通信进行通信，所述远程设备可包括其他处理单元、互联网、远程存储设施或诸如此类。

虽然已参考说明性实施例描述了本发明，但此描述并不意图限制本发明。所属领域的一般技术人员在参考该描述后，会显而易见地认识到说明性实施例的各种修改和组合，以及本发明的其他实施例。因此，希望所附权利要求书涵盖任何此类修改或实施例。

Claims

1.一种由语音或音频编码装置实施的双重模式基音周期编码的方法，其特征在于，所述方法包括：

确定浊音语音信号是否具有短的基音周期和稳定的基音周期中的一个或长的基音周期和稳定性差的基音周期中的一个或是嘈杂的信号；以及

在确定所述浊音语音信号具有短的或稳定的基音周期之后，对具有高的基音周期精确度和小的动态范围的浊音语音信号的基音周期进行编码，或者在确定浊音语音信号具有长的或稳定性差的基音周期或者是一个嘈杂的信号之后，对具有大的基音周期动态范围和低的精确度的浊音语音信号的基音周期进行编码。

2.根据权利要求1所述的方法，其特征在于，进一步包括：

在确定所述浊音语音信号具有短的或稳定的基音周期之后，在对所述基音周期进行编码中指示第一基音周期编码模式具有高的精确度和小的动态范围，或者在确定所述浊音语音信号具有长的或稳定性差的基音周期或者是一个嘈杂的信号之后，指示第二基音周期编码模式具有大的动态范围和低的精确度。

3.根据权利要求2所述的方法，其特征在于，所述第一基音周期编码模式或所述第二基音周期编码模式由在对所述基音周期进行编码中的一个比特指示。

4.根据权利要求2所述的方法，其特征在于，所述浊音语音信号在12.8千赫兹取样频率下使用6800比特每秒进行编码并包括四个子帧，其包括使用9个比特进行编码的第一子帧，除此之外，一个指示所述第一基音周期编码模式或所述第二基音周期编码模式的比特，使用4个比特进行编码的第二子帧和第三子帧，以及使用5个比特进行编码的第四子帧。

5.根据权利要求4所述的方法，其特征在于，具有短的或稳定的基音周期的浊音语音信号具有16到143之间的基音周期，浊音语音信号的帧的每个子帧使用四分之一的基音周期精确度进行编码，以及所述第一子帧和所述第四子帧使用±4的基音周期动态范围进行编码，所述第二子帧和所述第三子帧使用±2的基音周期动态范围进行编码。

6.根据权利要求4所述的方法，其特征在于，具有长的或稳定性差的基音周期的浊音语音信号具有34到128之间的基音周期，所述第一子帧和所述第四子帧使用四分之一的基音周期精确度进行编码，所述第二子帧和所述第三子帧使用二分之一的基音周期精确度进行编码，以及所述子帧中的每个子帧使用±4的基音周期动态范围进行编码。

7.根据权利要求4所述的方法，其特征在于，具有长的或稳定性差的基音周期的浊音语音信号具有128到160之间的基音周期，所述第一子帧、所述第二子帧和所述第三子帧使用二分之一的基音周期精确度进行编码，所述第四子帧使用四分之一的基音周期精确度进行编码，以及所述子帧中的每个子帧使用±4的基音周期动态范围进行编码。

8.根据权利要求4所述的方法，其特征在于，具有长的或稳定性差的基音周期的浊音语音信号具有160到231之间的基音周期，所述第一子帧使用1的基音周期精确度进行编码，所述第四子帧使用四分之一的基音周期精确度进行编码，以及所述子帧中的每个子帧使用±4的基音周期动态范围进行编码。

9.根据权利要求2所述的方法，其特征在于，所述浊音语音信号在12.8千赫兹取样频率下使用7600比特每秒进行编码并包括四个子帧，其包括使用9个比特进行编码的第一子帧，除此之外，一个指示所述第一基音周期编码模式或所述第二基音周期编码模式的比特，使用3个比特进行编码的第二子帧和第三子帧，以及使用4个比特进行编码的第四子帧。

10.根据权利要求9所述的方法，其特征在于，具有短的或稳定的基音周期的浊音语音信号具有16到143之间的基音周期，所述第一子帧使用四分之一的基音周期精确度进行编码，所述第二子帧和所述第三子帧使用±1的基音周期动态范围进行编码，以及所述第四子帧使用±2的基音周期动态范围进行编码。

11.根据权利要求9所述的方法，其特征在于，具有长的或稳定性差的基音周期的浊音语音信号具有34到128之间的基音周期，所述第一子帧使用四分之一的基音周期精确度进行编码，所述第二子帧、所述第三子帧和所述第四子帧使用二分之一的基音周期精确度进行编码，以及所述第一子帧和所述第四子帧使用±4的基音周期动态范围进行编码，第二子帧和第三子帧使用±2的基音周期动态范围进行编码。

12.根据权利要求9所述的方法，其特征在于，具有长的或稳定性差的基音周期的浊音语音信号具有128到160之间的基音周期，所述第一子帧和所述第四子帧使用二分之一的基音周期精确度进行编码，所述第二子帧和所述第三子帧使用1的基音周期精确度进行编码，以及每个所述子帧使用±4的基音周期动态范围进行编码。

13.根据权利要求9所述的方法，其特征在于，具有长的或稳定性差的基音周期的浊音语音信号具有160到231之间的基音周期，所述第一子帧、所述第二子帧和所述第三子帧使用1的基音周期精确度进行编码，所述第四子帧使用二分之一的基音周期精确度进行编码，以及每个所述子帧使用±4的基音周期动态范围进行编码。

14.根据权利要求2所述的方法，其特征在于，所述浊音语音信号在12.8千赫兹取样频率下使用9200比特每秒或更大速率进行编码并包括四个子帧，其包括使用9个比特进行编码的第一子帧，除此之外，一个指示所述第一基音周期编码模式或所述第二基音周期编码模式的比特，使用4个比特进行编码的第二子帧，以及使用5个比特进行编码的第三子帧和第四子帧。

15.根据权利要求14所述的方法，其特征在于，具有短的或稳定的基音周期的浊音语音信号具有16到143之间的基音周期，每个子帧使用四分之一的基音周期精确度进行编码，以及所述第一子帧、所述第三子帧和所述第四子帧使用±4的基音周期动态范围进行编码，所述第二子帧使用±2的基音周期动态范围进行编码。

16.根据权利要求14所述的方法，其特征在于，具有长或稳定性差的基音周期的浊音语音信号具有34到128之间的基音周期，所述第一子帧、所述第二子帧和所述第三子帧使用四分之一的基音周期精确度进行编码，所述第四子帧使用二分之一的基音周期精确度进行编码，以及每个所述子帧使用±4的基音周期动态范围进行编码。

17.根据权利要求14所述的方法，其特征在于，具有长或稳定性差的基音周期的浊音语音信号具有128到160之间的基音周期，所述第一子帧和所述第二子帧使用二分之一的基音周期精确度进行编码，所述第二子帧和所述第三子帧使用四分之一的基音周期精确度进行编码，以及每个所述子帧使用±4的基音周期动态范围进行编码。

18.根据权利要求14所述的方法，其特征在于，具有长或稳定性差的基音周期的浊音语音信号具有160到231之间的基音周期，所述第一子帧使用1的基音周期精确度进行编码，所述第二子帧使用二分之一的基音周期精确度进行编码，所述第三子帧和所述第四子帧使用四分之一的基音周期精确度进行编码，以及每个所述子帧使用±4的基音周期动态范围进行编码。

19.一种支持双重模式基音周期编码的装置，其特征在于，包括：

一种处理器；以及

一种计算机可读存储介质，所述计算机可读存储介质存储由所述处理器执行的程序，所述程序包括可进行如下操作的指令：

在确定所述浊音语音信号具有短的或稳定的基音周期之后，对具有高的精确度和小的动态范围的浊音语音信号的基音周期进行编码，或者在确定所述浊音语音信号具有长的或稳定性差的基音周期或者是一个嘈杂的信号之后，对具有大的动态范围和低的精确度的浊音语音信号的基音周期进行编码。

20.根据权利要求19所述的装置，其特征在于，所述程序进一步包括进行如下操作的指令：

在确定所述浊音语音信号具有短的或稳定的基音周期之后，在对所述基音周期进行编码中指示第一基音周期编码模式具有高的精确度和小的动态范围，或者在确定所述浊音语音信号具有长的或稳定性差的基音周期或者是一个嘈杂的信号之后，指示第二基音周期编码模式具有大的动态范围和低的精确度，其中所述第一基音周期编码模式或所述第二基音周期编码模式由一个在对所述基音周期进行编码中的比特指示。