CN104115220A

CN104115220A - 非常短的基音周期检测和编码

Info

Publication number: CN104115220A
Application number: CN201280055726.4A
Authority: CN
Inventors: 高扬; 齐峰岩
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2011-12-21
Filing date: 2012-12-21
Publication date: 2014-10-22
Anticipated expiration: 2032-12-21
Also published as: EP4231296A2; EP2795613B1; US20200135223A1; EP2795613A1; EP3573060A1; US20220230647A1; US20150287420A1; EP4231296A3; EP3573060B1; US10482892B2; EP3301677B1; CN104115220B; US20130166288A1; ES2656022T3; CN107293311A; CN107342094B; EP2795613A4; ES2950794T3; US11270716B2; US9741357B2

Abstract

为用于语音或音频信号的非常短的基音周期检测和编码提供了系统和方法实施例。该系统和方法包括使用时域和频域基音周期检测技术的组合在语音或音频信号中检测是否存在比常规最小基音周期限制更短的非常短的基音周期。基音周期检测技术包括使用时域中的基音相关系数和检测频域中的语音或音频信号中的低频能量的缺少。使用开始于预定义最小的非常短的基音限制(小于常规最小基音限制)的基音周期范围对检测到的非常短的基音周期进行编码。

Description

非常短的基音周期检测和编码

本发明要求2012年12月21日递交的发明名称为“非常短的基音周期检测”(Very Short Pitch Detection)的第13/724769号美国非临时专利申请案的在先申请优先权，该在先申请案要求2011年12月21日递交的发明名称为“非常短的基音周期检测”(Very Short Pitch Detection)的第61/578398号美国临时专利申请案的在先申请优先权，以上在先申请的内容以引入的方式并入本文本中。

技术领域

本发明大体涉及信号编码领域，且在特定实施例中，涉及一种用于非常短的基音周期检测和编码的系统和方法。

背景技术

传统上，参数语音编码方法都是利用语音信号中本身的冗余，来减少待发送的信息量，并估算一个一个信号的语音样本在短时段内的参数。这种冗余起因于语音波形周期性的重复和语音信号的频谱包络慢变过程。不同形式的语音波形的冗余对应于不同类型的语音信号，例如浊音和清音。就浊音语音而言，语音信号基本上是周期性的。然而，这种周期性在语音段中是变化的，而且周期波形在语音段之间缓慢变化。低比特率的语音编码可以很大地受益于这种周期性。浊音语音周期还称为基音周期，这种基音周期预测通常被命名为长期预测(LTP)。至于清音语音，其信号更像是一个随机噪声，可预测性也较小。

发明内容

根据一项实施例，一种由语音或音频编码装置实施的非常短的基音周期检测和编码的方法包括：使用时域和频域基音周期检测技术的组合在语音或音频信号中检测比常规最小基音周期限制更短的非常短的基音周期，所述组合包括使用基音周期相关系数和检测缺少低频能量。所述方法进一步包括在最小的非常短的基音周期限制到所述常规最小基音周期限制的范围内对所述语音或音频信号的所述非常短的基音周期进行编码，其中所述最小的非常短的基音周期限制是预定义的并且小于所述常规最小基音周期限制。

根据另一实施例，一种由语音或音频编码装置实施的非常短的基音周期检测和编码的方法包括：通过使用基音周期相关系数检测时域中比常规最小基音周期限制更短的语音或音频信号的非常短的基音周期，进一步通过检测所述语音或音频信号中缺少低频能量检测频域中存在所述非常短的基音周期，以及使用开始于预定义最小的非常短的基音周期限制的基音周期范围对所述语音或音频信号的非常短的基音周期进行编码，所述最小的非常短的基音周期限制小于所述常规最小基音周期限制。

在又一实施例中，一种支持用于语音或音频编码的非常短的基音周期检测和编码的装置包括一个处理器和一个计算机可读存储介质，其存储由所述处理器执行的程序。所述程序包括可进行如下操作的指令：使用时域和频域基音周期检测技术的组合在语音信号中检测比常规最小基音周期限制更短的非常短的基音周期，所述组合包括使用基音周期相关系数和检测缺少低频能量，并且在最小的非常短的基音周期限制到所述常规最小基音周期限制的范围内对所述语音信号的所述非常短的基音周期进行编码，其中所述最小的非常短的基音周期限制是预定的并且小于所述常规最小基音周期限制。

附图说明

为了更完整地理解本发明及其优点，现在参考以下结合附图进行的描述，其中：

图1是码激励线性预测技术(CELP)编码器的方框图。

图2是对应于图1中的CELP编码器的解码器的方框图。

图3是另一具有自适应分量的CELP编码器的方框图。

图4是另一对应于图3中的CELP编码器的解码器的方框图。

图5是基音周期小于子帧大小和半帧大小的浊音语音信号的示例。

图6是基音周期大于子帧大小而小于半帧大小的浊音语音信号的示例。

图7示出了浊音语音信号的频谱的示例。

图8示出了图7中的经过双倍基音周期编码的相同信号的频谱的示例。

图9示出了用于语音或声音信号的非常短的基音周期检测和编码的实施例方法。

图10是可用于实施各种实施例的处理系统的方框图。

具体实施方式

下文将详细论述当前优选实施例的制作和使用。然而，应了解，本发明提供可在各种具体上下文中体现的许多适用的发明性概念。所论述的具体实施例仅仅说明用以实施和使用本发明的具体方式，而不限制本发明的范围。

针对浊音语音或清音语音，参数编码通过分割频谱包络分量和语音信号的激励分量来减少语音段的冗余。频谱包络慢变过程可以被描述成线性预测编码(LPC)(也称为短期预测(STP))。低比特率的语音编码也同样受益于短期预测。这种编码的优点就来自于参数的慢速变化。进一步地，语音信号参数可能不会在几毫秒内的值明显不同。在8千赫兹(kHz)、12.8kHz或16kHz采样率时，语音编码算法将10毫秒至30毫秒范围内的语音段作为常用的帧长。而20毫秒是最常用的帧长。在G.723.1、G.729、G.718、EFR、SMV、AMR、VMR-WB或AMR-WB等较近期的知名国际标准中已经采用了码激励线性预测技术(CELP)。CELP是一种编码激励、长期预测和短期预测技术的结合。尽管不同编解码器的CELP细节可能显著不同，但利用CELP的语音编码算法在语音压缩领域已经相当流行。

图1示出了CELP编码器100的示例，其中利用综合分析方法可以最小化合成语音信号102和原始语音信号101之间的加权误差109。CELP编码器100执行不同的操作或功能。对应的函数W(z)通过误差加权滤波器110实现。函数1/B(z)通过长期线性预测滤波器105实现。函数1/A(z)通过短期线性预测滤波器103实现。来自编码激励块108的编码激励107，也称为固化码本激励，在通过随后滤波器之前乘以增益G_c106调节。短期线性预测滤波器103通过分析原始信号101实施并由一组系数表示：

A (z) = Σ_{i = 1}^{P} 1 + a_{i} \cdot z^{- i}, i = 1,2, . . ., P - - - (1)

误差加权滤波器110与上述短期线性预测滤波器函数有关。加权滤波器函数的典型形式可能是

W (z) = \frac{A (z / α)}{1 - β \cdot z^{- 1}}, - - - (2)

其中β＜α，0＜β＜1，且0＜α≤1。长期线性预测滤波器105依赖于信号基音周期和基音周期增益。可以从原始信号、残余信号或加权原始信号中估计基音周期。长期线性预测滤波器函数可以表示为

W (z) = \frac{A (z / α)}{1 - β \cdot z^{- 1}}, - - - (3)

来自编码激励块108中的编码激励107可由脉冲类似信号或噪声类似信号组成，这些信号从数学意义上构建或保存在码本中。编码激励索引、量化增益索引、量化长期预测参数索引，以及量化短期预测参数索引可以从编码器100传输到解码器。

图2示出了解码器200的示例，该解码器可接收来自编码器100的信号。编码器200包括输出合成语音信号206的后处理块207。解码器200包括多个块的组合，多个块包含编码激励块201、长期线性预测滤波器203、短期线性预测滤波器205，以及后处理块207。解码器200中块的配置类似于编码器100中对应的块的配置。后处理块207可包含短期后处理和长期后处理功能。

图3示出了另一CELP编码器300，其通过使用自适应码本块307实施长期线性预测。自适应码本块307使用过去的合成激励304或在基音周期内重复过去的激励基音周期。编码器300中的剩余块和分量类似于上面所述的块和分量。当基音周期相对较大或长时，编码器300可以以整数值编码基音周期。当基音周期相对较小或短时，该基音周期可以以更加准确的极小值进行编码。基音周期的周期性信息用来(在自适应码本块307处)生成激励的自适应分量。这时，这种激励分量将乘以增益G_p305(还称为基音周期增益)。自适应码本块307和编码激励块308的两个由增益控制幅度的激励分量在通过短期线性预测滤波器303前被加到一起。这两个增益(G_p和G_c)需量化，然后发送到解码器。

图4示出了解码器400，其可接收来自编码器300的信号。解码器400包括输出合成语音信号407的后处理块408。解码器400类似于解码器200，而解码器400中的分量类似于解码器200中对应的分量。然而，解码器400除了包含其他块(含有编码激励块402、自适应码本401、短期线性预测滤波器406，以及后处理块408)的组合之外还包含自适应码本块307。后处理块408可包含短期后处理和长期后处理功能。其他块类似于解码器200中对应的分量。

由于浊音语音具有相对强的周期性本质，因而长期预测可以有效地用在浊音语音中。浊音语音的相邻基音周期可以彼此相似，这意味着，从数学意义上来说，下面激励表达中的基音周期增益G_p相对较高或接近1，

e(n)＝G_p·e_p(n)+G_c·e_c(n) (4)

其中e_p(n)是以一个由n为取样序数的子帧，它从使用过去的合成激励304或403的自适应码本块307或401发送过来。参数e_p(n)可以进行自适应地低通滤波，因为低频区域可能比高频区域更具有周期性或更多谐波。参数e_c(n)是从激励码本308或402(还称为固定码本)发送过来的，它是当前激励贡献。参数e_c(n)可以例如使用高通滤波增强、基音周期增强、色散增强、共振峰增强等增强。对于浊音语音，来自自适应码本块307或401的e_p(n)的贡献可以是主导的，而且基音周期增益G_p305或404的值大约为1。可以更新每个子帧的激励。例如，一个典型的帧的大小约为20毫秒，一个典型子帧的大小约为5毫秒。

对于典型的浊音语音信号来说，一个帧可包括两个以上的基音周期。图5示出了浊音语音信号500的示例，其中基音周期503小于子帧大小502和半帧大小501。图6示出了浊音语音信号600的另一示例，其中基音周期603大于子帧大小602而小于半帧大小601。

通过受益于人类声音特征或人类嗓音产生模型，使用CELP对语音信号进行编码。CELP算法已经在ITU-T、MPEG、3GPP以及3GPP2等各种标准中使用。为了更加有效地对语音信号进行编码，可以将语音信号分成不同的种类，其中每个种类以不同的方式进行编码。例如，在G.718、VMR-WB或AMR-WB等一些标准中，可以将语音信号分成如下种类：清音(UNVOICED)、过渡语音(TRANSITION)、普通语音(GENERIC)、浊音(VOICED)以及噪音(NOISE)。对于每种种类，LPC或STP滤波器用于表示频谱包络，但是对LPC滤波器的激励可能不一样。UNVOICED和NOISE种类的语音信号可以使用噪声激励和一些激励增强进行编码。TRANSITION种类的语音信号可以在不使用自适应码本或LTP的情况下使用脉冲激励和一些激励增强进行编码。GENERIC种类的语音信号可以使用传统的CELP方法，例如在G.729或AMR-WB中使用的代数CELP，其中一个20毫秒(ms)的帧包含四个5ms的子帧。自适应码本激励分量和固定码本激励分量通过每个帧的一些激励增强产生。第一和第三子帧的自适应码本的基音周期在最小基音周期限制PIT_MIN到最大基音周期限制PIT_MAX的全范围内进行编码，第二和第四子帧的自适应码本的基音周期与先前编码的基音周期进行不同地编码。VOICED种类的语音信号的编码与GENERIC种类的语音信号的编码略有不同，其中第一子帧中的基音周期进行全范围编码，从最小基音周期限制PIT_MIN到最大基音周期限制PIT_MAX，其他子帧中的基音周期与先前编码的基音周期进行不同地编码。例如，假设激励采样率为12.8kHz，该PIT_MIN值可以是34而PIT_MAX值可以是231。

对于正常语音信号来说，CELP编解码器(编码器/解码器)能够高效工作，但是对于音乐信号和/或歌声信号来说，低比特率CELP编解码器可能不工作。对于稳定的浊音语音信号来说，VOICED种类的语音信号的基音周期编码方法可以通过减少比特率以使用更加差异的基音周期编码对基音周期进行编码从而提供比GENERIC种类的语音信号的基音周期编码方法更好的性能。然而，VOICE种类的语音信号或GENERIC种类的语音信号的基音周期编码方法仍存在一个问题：当真实基音周期相当或相对很短时，例如，当真实性能延迟小于PIT_MIN时，性能降低或不足够好。当F_s＝12.8kHZ时，PIT_MIN＝34到PIT_MAX＝231的基音周期范围可以适合各种人类声音。然而，典型音乐或唱歌信号的真实基音周期可以显著小于CELP算法中定义的最小限制PIT_MIN＝34。当真实基音周期是P时，对应的基频是F0＝F_s/P，其中F_s是取样频率，F0是频谱中第一谐振峰的位置。因此，最下基音周期限制PIT_MIN实际上可限定CELP算法的最大基频限制F_MIN＝F_s/PIT_MIN。

图7示出了浊音语音信号的频谱700的示例，该频谱包括谐振峰701和频谱包络702。真实基频(第一谐振峰的位置)已经超过最大基频限制F_MIN，这样，CELP算法中已传输的基音周期等同于真实基音周期的双倍或多倍。最为多倍真实基音周期的错误基音周期可以导致质量下降。换句话说，当谐波音乐信号或歌声信号的真实基音周期小于CELP算法中限定的最小周期限制PIT_MIN，已传输的周期可以是真实基音周期的双倍、三倍或多倍。图8示出了经过双重基音周期编码的相同信号的频谱800的示例(已编码和传输的基音周期是真实基音周期的双倍)。频谱800包括谐振峰801、频谱包络802，以及真实谐振峰之间不想要的小峰。图8中的小频谱峰可导致不舒服的听觉扭曲。

本文中提供的系统和方法实施例用于避免VOICED种类或GENERIC种类的语音信号的基音周期编码的两个潜在问题。系统和方法实施例用于对开始于相当短的值PIT_MIN0(PIT_MIN0<PIT_MIN)的范围内的基音周期进行编码，这可以预定义。该系统和方法包括使用时域和频域流程的组合(例如，使用基音周期相关函数和能谱分析)检测(例如，四个子帧的)语音或音频信号中是否存在非常短的基音周期。一旦检测到非常短的基音周期的存在，随后可以在从PIT_MIN0到PIT_MIN的范围内确定合适的非常短的基音周期值。

通常，音乐谐波信号或歌声信号比正常语音信号更平稳。正常语音信号的基音周期(或基频)可随时间不断变化。然而，音乐信号或歌声信号的基音周期(或基频)可在相对较长的时长里相对缓慢变化。针对相当短的基音周期，为了有效编码，具有精确的基音周期是很有用的。相对较短的基音周期从一个子帧到下一个子帧变化相对缓慢。这意味着当真实基音周期相当短时，基音周期编码不需要相当大的动态范围。相应地，一个基音周期编码模式可用于限定高精确度和相对较小的动态范围。该基音周期编码模式用来对相对较短的基音周期信号或相当稳定的基音周期信号进行编码，这些信号在前一子帧和当前子帧之间具有相对较小的基音周期差异。

相当短的基音周期范围被定义为从PIT_MIN0到PIT_MIN。例如，在采样频率F_s＝12.8kHz，相当短的基音周期范围的定义可以是PIT_MIN0＝17和PIT_MIN＝34。当基音周期候选相当短时，仅使用时域或频域的基音周期检测的方法可能不可靠。为了可靠地检测短基音周期值，可能需要检查三个条件：(1)在频域中，从0Hz到F_MIN＝F_s/PIT_MIN Hz的能量相对足够低；(2)在时域中，与从PIT_MIN到PIT_MAX的范围内的最大基音周期相关系数相比，从PIT_MIN0到PIT_MIN的范围内的最大基音周期相关系数相对足够高；以及(3)在时域中，从PIT_MIN0到PIT_MIN的范围内的最大标准化基音周期相关系数足够高地接近1。

与例如静音检测和语音分类等还可以增加的其它条件相比，这三个条件比更为重要。

对于基音周期候选P而言，标准化基音周期相关系数可以定义为如下数学形式，

R (P) = \frac{\underset{n}{Σ} s_{w} (n) \cdot s_{w} (n - P)}{\sqrt{\underset{n}{Σ} {| | s_{w} (n) | |}^{2} \cdot \underset{n}{Σ} {| | s_{w} (n - P) | |}^{2}}} . - - - (5)

在(5)中，s_w(n)是加权语音信号，分子是相关系数，并且分母是能量标准化因子。使Voicing成为当前帧中的四个子帧的平均标准化基音周期相关系数值：

Voicing＝[R₁(P₁)+R₂(P₂)+R₃(P₃)+R₄(P₄)]/4 (6)

其中R₁(P₁)、R₂(P₂)、R₃(P₃)和R₄(P₄)是为每个子帧计算的四个标准化基音周期相关系数，并且每个子帧的P₁、P₂、P₃和P₄都是从P＝PIT_MIN到P＝PIT_MAX的基音周期范围内找到的最佳基音周期候选。从前一帧到当前帧的平滑基音周期相关系数可以是

Voicing_sm &DoubleLeftArrow; (3 \cdot Voicing_sm + Voicing) / 4 . - - - (7)

通过使用开环基音周期检测方案，候选基音周期可以是多个基音周期。如果该开环基音周期是正确的，那么频谱峰存在在相应基音周期频率(基频或第一谐振频率)周围并且相关频谱能量相对较大。此外，相应基音周期频率周围的平均能量相对较大。否则，可能存在相当短的基音周期。该步骤可以与下文所述的检测缺少低频能量的方案结合以检测可能的相当短的基音周期。

在检测缺少低频能量的方案中，频率区域[0,F_MIN](Hz)中的最大能量被定义为Energy0(dB)，频率区域[F_MIN,900](Hz)中的最大能量被定义为Energy1(dB)，并且Energy0和Energy1之间的相对能量比被定义为

Ratio＝Energy1-Energy0. (8)

可以通过乘以平均标准化基音周期相关系数值Voicing加权该能量比：

Ratio &DoubleLeftArrow; Ratio \cdot Voicing . - - - (9)

使用Voicing因数进行(9)中的加权的原因是短基音周期检测对于浊音语音或谐波音乐而言是有意义的，但对于清音语音和非谐波音乐而言可能是无意义的。在使用Ratio参数检测缺少低频能量之前，为减少不确定性平滑Ratio参数是有益的：

LF_EnergyRatio_sm &DoubleLeftArrow; (15 \cdot LF_EnergyRatio_sm + Ratio) / 16 . - - - (10)

使LF_lack_flag＝1表示检测到缺少低频能量(否则，LF_lack_flag＝0)，LF_lack_flag的值可以通过以下程序A确定：

如果没有满足以上条件，LF_lack_flag保持不变。

通过最大化等式(5)以及搜索从P＝PIT_MIN0到PIT_MIN可以找到最初相当短的基音周期候选Pitch_Tp，

R(Pitch_Tp)＝MAX{R(P),P＝PIT_MIN0,….,PIT_MIN}. (11)

如果Voicing0表示当前的短基音周期相关系数，

Voicing0＝R(Pitch_Tp), (12)

则从前一帧到当前帧的平滑短基音周期相关系数可以是

Voicing 0_sm &DoubleLeftArrow; (3 \cdot Voicing 0_sm + Voicing 0) / 4 - - - (13)

通过使用以上可用参数，可以通过以下流程B决定最终相当短的基音周期：

在上述流程中，VAD表示静音检测。

图9示出了用于语音或音频信号的非常短的基音周期检测和编码的实施例方法900。方法900可以由语音/音频编码的编码器，例如编码器300(或100)实施。类似的方法还可以由用于语音/音频编码的编码器实施，例如编码器400(或200)。在步骤901，语音或音频信号或包括四个子帧的帧分类为，例如VOICED种类或GENERIC种类。在步骤902，例如使用等式(5)，为候选基音周期P计算标准化基音周期相关系数R(P)。在步骤903，例如使用等式(6)，计算平均标准化基音周期相关系数Voicing。在步骤904，例如使用等式(7)，计算平滑基音周期相关系数Voicing_sm。在步骤905，在频率区域[0,F_MIN]中检测到最大能量Energy0。在步骤906，在频率区域[F_MIN,900]中检测到最大能量Energy1。在步骤907，例如使用等式(8)，计算Energy1和Energy0之间的能量比Ratio。在步骤908，例如使用等式(9)，通过平均标准化基音周期相关系数Voicing调整比Ratio。在步骤909，例如使用等式(10)，计算平滑比LF_EnergyRatio_sm。在步骤910，例如使用等式(11)和(12)，计算最初非常短的基音周期Pitch_Tp的相关系数Voicing0。在步骤911，例如使用等式(13)，计算平滑短基音周期相关系数Voicing0_sm。在步骤912，例如使用流程A和B，计算最终非常短的基音周期。

信噪比(SNR)是语音编码的客观测试测量方法之一。加权分段SNR(WsegSNR)是另一种主观测试测量方法，其比SNR稍微靠近真感知质量测量。SNR或WsegSNR中相对较小的差别可能察觉不到，而SNR或WsegSNR中的较大差别可能很容易或清晰地察觉到。表1和表2示出了在引进/没有引进非常短的基音周期编码的情况下的主观测量结果。这些表示出了当信号包含真实非常短的基音周期时，引进非常短的基音周期编码能够显著提升语音或音乐编码质量。其他听力测试结果还示出了具有真实基音周期小于等于PIT_MIN的语音或音乐质量在使用上述步骤和方法之后显著提高。

表1

具有真实基音周期小于等于PIT_MIN的清晰语音的SNR

	6.8kbps	7.6kbps	9.2kbps	12.8kbps	16kbps
						无短基音周期	5.241	5.865	6.792	7.974	9.223
具有短基音周期	5.732	6.424	7.272	8.332	9.481
						差异	0.491	0.559	0.480	0.358	0.258

表2

具有真实基音周期小于等于PIT_MIN的清晰语音的WsegSNR

图10是可用于实施各种实施例的装置或处理系统1000的方框图。例如，处理系统1000可以是网络部件的一部分或耦合到网络部件，例如路由器、服务器或任何合适的网络部件或装置。特定设备可以利用所示的所有组件，或仅组件的子集，而集成水平随设备的不同而不同。进一步地，设备可以包含部件的多个实例，如多个处理单元、处理器、存储器、发射器、接收器等等。处理系统1000可以包括配备有一个或多个输入/输出设备的处理单元1001，所述输入/输出设备包括扬声器、麦克风、鼠标、触摸屏、小键盘、键盘、打印机、显示器等等。处理单元1001可包括中央处理单元(CPU)1010、存储器1020、大容量存储设备1030、视频适配器1040，以及连接到总线的I/O接口1060。所述总线可以为任何类型的若干总线架构中的一个或多个，包括存储总线或者存储控制器、外设总线以及视频总线等等。

所述CPU1010可包括任意类型的电子数据处理器。存储器1020可包括任意类型的系统存储器，比如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步DRAM(SDRAM)、只读存储器(ROM)或其组合等等。在实施例中，存储器1020可包括在开机时使用的ROM以及执行程序时使用的程序和数据存储的DRAM。在实施例中，存储器1020是非瞬时的。大容量存储器设备1030可包括任意类型的存储器设备，其用于存储数据、程序和其他信息，并使这些数据、程序和其他信息通过总线访问。大容量存储器设备1030可包括如下项中的一种或多种：固态磁盘、硬盘驱动器、磁盘驱动器、光盘驱动器等等。

视频适配器1040和I/O接口1060提供接口以耦合外部输入输出设备至处理单元。如图所示，输入输出设备的示例包括耦合至视频适配器1040的显示器1090和耦合至I/O接口1060的鼠标/键盘/打印机1070。其它设备可以耦合至处理单元1001，可以利用附加的或更少的接口卡。例如，可使用串行接口卡(未示出)将串行接口提供给打印机。

处理单元1001可以包括一个或多个网络接口1050，网络接口可包括有线链路，如以太网电缆等等，和/或无线链路以接入节点或者一个或多个网络1080。网络接口1050允许处理单元1001通过网络1080与远程单元通信。比如，网络接口1050可以通过一个或多个发送器/发射天线以及一个或多个接收器/接收天线提供无线通信。在实施例中，所述处理单元1001耦合到局域网或广域网用于数据处理并与远程设备通信进行通信，所述远程设备可包括其他处理单元、互联网、远程存储设施或诸如此类。

虽然已参考说明性实施例描述了本发明，但此描述并不意图限制本发明。所属领域的一般技术人员在参考该描述后，会显而易见地认识到说明性实施例的各种修改和组合，以及本发明的其他实施例。因此，希望所附权利要求书涵盖任何此类修改或实施例。

Claims

1.一种由语音或音频编码装置实施的非常短的基音周期检测和编码的方法，其特征在于，所述方法包括：

使用时域和频域基音周期检测技术的组合在语音或音频信号中检测比常规最小基音周期限制更短的非常短的基音周期，所述组合包括使用基音周期相关系数和检测缺少低频能量；以及

在最小的非常短的基音周期限制到所述常规最小基音周期限制的范围内对所述语音或音频信号的所述非常短的基音周期进行编码，其中所述最小的非常短的基音周期限制是预定义的并且小于所述常规最小基音周期限制。

2.根据权利要求1所述的方法，其特征在于，使用时域和频域基音周期检测技术的组合检测非常短的基音周期包括：

使用候选基音周期和所述语音信号或音频的加权值计算标准化基音周期相关系数；和

使用所述标准化基音周期相关系数计算平均标准化基音周期相关系数。

3.根据权利要求2所述的方法，其特征在于，使用时域和频域基音周期检测技术的组合检测所述非常短的基音周期进一步包括：

检测从零到预定义最小频率的第一频率区域中的所述语音或音频信号的第一能量以及从所述预定义最小频率到预定义最大频率的第二频率区域中的第二能量；以及

计算所述第一能量和所述第二能量之间的能量比。

4.根据权利要求3所述的方法，其特征在于，使用时域和频域基音周期检测技术的组合检测所述非常短的基音周期进一步包括：

使用所述平均标准化基音周期相关系数调整所述能量比；以及

使用所述调整的能量比计算平滑能量比。

5.根据权利要求4所述的方法，其特征在于，使用时域和频域基音周期检测技术的组合检测所述非常短的基音周期进一步包括：

计算最初非常短的基音周期的相关系数；以及

使用所述最初非常短的基音周期的所述相关系数计算平滑短基音周期相关系数。

6.根据权利要求5所述的方法，其特征在于，使用时域和频域技术的组合检测非常短的基音周期进一步包括根据所述平滑能量比和所述平滑短基音周期相关系数计算最终非常短的基音周期。

7.根据权利要求1所述的方法，其特征在于，12.8千赫兹(kHz)采样频率的所述常规最小基音周期限制等于34。

8.根据权利要求1所述的方法，其特征在于，所述常规最小基音周期限制对应于码激励线性预测技术(CELP)算法标准。

9.一种由语音或音频编码装置实施的非常短的基音周期检测和编码的方法，其特征在于，所述方法包括：

通过使用基音周期相关系数在时域中检测比常规最小基音周期限制更短的语音或音频信号的非常短的基音周期；

通过检测所述语音或音频信号中缺少低频能量检测频域中存在所述非常短的基音周期，以及

使用开始于预定义最小的非常短的基音周期限制的范围内的基音周期编码所述语音或音频信号的非常短的基音周期，所述最小的非常短的基音周期限制小于所述常规最小基音周期限制。

10.根据权利要求9所述的方法进一步包括计算候选基音周期的标准化基音周期相关系数，如下

R (P) = \frac{\underset{n}{Σ} s_{w} (n) \cdot s_{w} (n - P)}{\sqrt{\underset{n}{Σ} {| | s_{w} (n) | |}^{2} \cdot \underset{n}{Σ} {| | s_{w} (n - P) | |}^{2}}},

其中R(P)是所述标准化基音周期相关系数，P是所述候选基音周期，以及s_w(n)是所述语音信号的加权值。

11.根据权利要求10所述的方法进一步包括计算平均标准化基音周期相关系数，如下

Voicing＝[R₁(P₁)+R₂(P₂)+R₃(P₃)+R₄(P₄)]/4,

其中Voicing是所述平均标准化基音周期相关系数，R1(P1)、R2(P2)、R3(P3)和R4(P4)是为所述语音或音频信号的帧的四个子帧计算的四个标准化基音周期相关系数，并且P₁、P₂、P₃和P₄是所述四个子帧的四个基音周期候选。

12.根据权利要求11所述的方法进一步包括计算平滑基音周期相关系数，如下

Voicing_sm &DoubleLeftArrow; (3 \cdot Voicing_sm + Voicing) / 4,

其中Voicing_sm是所述平滑基音周期系数相关系数。

13.根据权利要求12所述的方法，其特征在于，检测缺少低频能量进一步包括计算能量比，如下

Ratio＝Energy1-Energy0,

其中Ratio是所述能量比，Energy0是第一频率区域[0，F_MIN]Hz中的第一检测的能量，单位为分贝(dB)、Energy1是第二频率区域[F_MIN，900]赫兹(Hz)中的第二检测的能量，单位为分贝、以及F_MIN是预定义最小的频率。

14.根据权利要求13所述的方法进一步包括使用所述平均标准化基音周期相关系数调整所述能量比，如下

Ratio &DoubleLeftArrow; Ratio \cdot Voicing \cdot

15.根据权利要求14所述的方法进一步包括计算平滑比，如下

LF_EnergyRatio_sm &DoubleLeftArrow; (15 \cdot LF_EnergyRatio_sm + Ratio) / 16,

whereLF_EnergyRatio_smisthesmoothratio.

16.根据权利要求15所述的方法进一步包括计算最初非常短的基音周期的相关系数，如下

Voicing0＝R(Pitch_Tp)＝MAX{R(P),P＝PIT_MIN0,….,PIT_MIN},

其中Voicing0是所述相关系数、Pitch_Tp是所述最初非常短的基音周期、PIT_MIN0是所述预定义最小的非常短的基音周期限制、以及PIT_MIN是所述常规最小基音周期限制。

17.根据权利要求16所述的方法进一步包括计算平滑短基音周期相关系数，如下

Voicing 0_sm &DoubleLeftArrow; (3 \cdot Voicing 0_sm + Voicing 0) / 4,

其中Voicing0_sm是所述平滑短基音周期相关系数。

18.根据权利要求17所述的方法进一步包括计算最终非常短的基音周期，如下

Open_Loop_Pitch＝Pitch_Tp；

stab_pit_flag＝1；

coder_type＝VOICED；

其中Open_Loop_Pitch是所述最终非常短的基音周期，所述语音信号不属于UNVOICED种类或TRANSITION种类，LF_EnergyRatio_sm>35或Ratio>50，以及(Voicing0_sm>0.7)和(Voicing0_sm>0.7Voicing_sm)。

19.根据权利要求9所述的方法，其特征在于，对于标准码激励线性预测技术(CELP)算法而言，所述常规最小基音周期限制等于34。

20.一种支持用于语音或音频编码的非常短的基音周期检测和编码的装置，其特征在于，包括：

一种处理器；以及

一种计算机可读存储介质，所述计算机可读存储介质存储由所述处理器执行的程序，所述程序包括可进行如下操作的指令：

使用时域和频域基音周期检测技术的组合在语音或音频信号中检测比常规最小基音限制更短的非常短的基音周期，所述组合包括使用基音周期相关系数和检测缺少低频能量；以及

在最小的非常短的基音限制到所述常规最小基音限制的范围内对所述语音或音频信号的所述非常短的基音周期进行编码，其中所述最小的非常短的基音限制是预定义的并且小于所述常规最小基音限制。

21.根据权利要求20所述的装置，其特征在于，所述语音或音频信号属于VOICED或GENERIC种类并且包括四个子帧。

22.根据权利要求20所述的方法，其特征在于，对于码激励线性预测技术(CELP)算法标准而言，所述常规最小基音限制等于34。