CN101281751B

CN101281751B - 在有声语音片段的脉冲激励注入高频噪音

Info

Publication number: CN101281751B
Application number: CN2008100947326A
Authority: CN
Inventors: 高阳
Original assignee: Conexant Systems LLC
Current assignee: Conexant Systems LLC
Priority date: 2001-01-05
Filing date: 2001-12-10
Publication date: 2012-09-12
Anticipated expiration: 2021-12-10
Also published as: KR20030076596A; ATE555471T1; WO2002054380B1; US20020128828A1; KR100540707B1; US6529867B2; WO2002054380A3; CN1531723A; AU2002225953A1; WO2002054380A2; CN101281751A; EP1348214A4; CN100399420C; EP1348214B1; EP1348214A2; EP1892701A1

Abstract

一种语音编码的方法，包括下述步骤：通过应用于语音信号的至少一个脉冲代码本而产生一个激励信号；根据一个或多个标准提供上述激励信号的高频增量。其中上述一个或多个标准包括上述语音信号的能量内容。

Description

在有声语音片段的脉冲激励注入高频噪音

本申请是原申请号01821734.6，申请日2001年12月10日，发明名称为“在有声语音片段的脉冲激励注入高频噪音”的分案申请。

背景技术

1.交叉引用的相关申请

本申请要求了2000年9月15日提交的临时申请号No.60/233,043的权利。下面的共同未决申请以及共同转让的美国专利申请与本申请是同一天提交的。所有这些申请相关于并且还描述了本申请中公开的实施方式的其它方面，并且作为整体来参考。

美国专利申请系列号09/663,242，“可以选择方式的声音合成器系统”，代理人参考号：98RSS365CIP(10508.4)，提交于2000年9月15日，并且是现在的美国专利号。

美国专利申请系列号09/771,293，“CELP语音编码中的短增强信号”，代理人参考号：00CXT0666N(10508.6)，提交于2000年9月15日，并且是现在的美国专利号。

美国专利申请系列号09/761,029，“用于语音编码中类似脉冲激励的动态脉冲位置轨迹”，代理人参考号：00CXT0573N(10508.7)，提交于2000年9月15日，并且是现在的美国专利号。

美国专利申请系列号09/782,791，“有时域噪声衰减的语音编码系统”，代理人参考号：00CXT0554N(10508.8)，提交于2000年9月15日，并且是现在的美国专利号。

美国专利申请系列号09/761,033，“语音编码具有自适应激励方式的系统”，代理人参考号：98RSS366(10508.9)，提交于2000年9月15日，并且是现在的美国专利号。

美国专利申请系列号09/782,383，“使用一个具有不同的分辨率级别的自适应代码本的用于编码语音信息的系统”，代理人参考号：00CXT0670N(10508.13)，提交于2000年9月15日，并且是现在的美国专利号。

美国专利申请系列号09/663,837，“用于编码和解码的代码本表”，代理人参考号：00CXT0669N(10508.14)，提交于2000年9月15日，并且是现在的美国专利号。

美国专利申请系列号09/662,828，“用于传输编码的语音信号的比特流协议”，代理人参考号：00CXT0668N(10508.15)，提交于2000年9月15日，并且是现在的美国专利号。

美国专利申请系列号09/781,735，“用于滤波一个语音编码信号频谱内容的系统”，代理人参考号：00CXT0667N(10508.16)，提交于2000年9月15日，并且是现在的美国专利号。

美国专利申请系列号09/663,734，“用于编码和解码语音信号的系统”，代理人参考号：00CXT0665N(10508.17)，提交于2000年9月15日，并且是现在的美国专利号。

美国专利申请系列号09/633,002，“具有自适应帧排列的用于语音编码的系统”，代理人参考号：98RSS384(10508.18)，提交于2000年9月15日，并且是现在的美国专利号。

美国专利申请系列号09/940,904，“改进使用具有子代码本的音调增强的系统”，代理人参考号：00CXT0569N(10508.19)，提交于2000年9月15日，并且是现在的美国专利号。

2.技术领域

本发明关于语音编码，并更特别相关于一个系统，该系统增强了经过数字处理的语音的感觉品质。

3.背景技术

语音合成是一个复杂的过程，经常需要将语音和非语音转换成数字信号。对于模拟声音，该声音被采样并被编码到一个离散的序列中。用于表示该语音的位数能够决定合成的声音或语音的感觉品质。品质差的拷贝会发出有噪声的语音，变得不清楚，或者不能够捕捉到音调变化，音调，定调，或者是能够产生环绕声的共同发生。

在语音合成的一项技术，就是众所周知的码激励线性预测(CELP)中，一个声道在数字处理之前被采样到一个离散的波形中。该离散的波形随后被依据一定的标准进行分析。标准例如噪声内容的强度以及语音内容的强度，可以用于通过实时以及延时中的线性功能为语音建立模型。这些线性功能能够捕捉信息并且预测将来的波形。

该CELP编码器帧能够产生高品质的重新编码的语音。然而，当比特率降低时，编码器的品质会快速地下降。要使高解码器品质保持在一个低的比特率，例如4Kbps，必须开发附加的手段，本发明的目的是提供一个有效的语音编码系统，以及提供一种方法，精确地编码并且解码有声语音的重要的感性特征。

发明内容

本发明提供一种语音编码的方法，包括：通过使用一个自适应代码本和具有至少一个脉冲代码本的固定代码本而产生一个激励信号，以产生重新建立的语音信号；其中所述产生还包括基于一个或多个标准对所述激励信号进行自适应高频增量；其中所述一个或多个标准包括下列中的至少之一：类似于语音信号的高频部分中的内容的噪声的强度、声道中的语音内容的强度、声道中的非语音内容的强度、声道中的能量内容和声道中的周期性的强度。

本发明提供一种语音编码器，包括：产生装置，其通过使用一个自适应代码本和具有至少一个脉冲代码本的固定代码本而产生一个激励信号来产生重新建立的语音信号；以及其中所述产生装置还包括基于一个或多个标准所述激励信号的自适应高频增量元；其中所述一个或多个标准包括下列中的至少之一：类似于语音信号的高频部分中的内容的噪声的强度、声道中的语音内容的强度、声道中的非语音内容的强度、声道中的能量内容和声道中的周期性的强度。

附图说明

图中的组件没有必要改变大小，重点在于说明本发明的原理，另外，在这些图中，数字指明所有不同的画面中的对应的部分。

图1是语音交流系统的一个部分模块图，该语音系统可以集成到一个扩展的码激励线性预测系统(Ex.CELPS)中。

图2说明了图1中的一个固定的代码本。

图3说明了时间域中的图1的固定代码本一个脉冲的部分的剖面图。

图4说明了频率域中的图3的第一个脉冲P1的脉冲响应。

图5说明了一个修正的高频噪声输入到时间域中的图3的脉冲激励中。

图6是图1放大的一个流程图。

图7说明了图1放大的一个离散的实施方式。

图1，图2以及图6中画的虚线表示直接或间接的连接。如图2中所示，固定代码本102可以包括一个或多个子代码本。同样地，图6中的虚线说明了其他的功能能够发生在每个图示步骤之前或者之后。

具体实施方式

脉冲激励通常可以产生比常规的噪声激励好一些的语音品质。对于有声的语音，脉冲激励跟踪低频的有声的语音的准周期的时间域信号。然而在高频时，低的比特率脉冲激励经常不能够跟踪伴随有声的语音的感性的“有噪声的效果”。这是个问题，尤其是在比特率很低时，例如是4Kbps或者更低比如脉冲激励被跟踪的情况，不仅是有声的语音的周期，而且是发生在高频的伴随“有噪声的效果”。

图1是语音交流系统100的一个部分的模块图，它可以被集成到一个不同的码激励线性预测系统(CELPS)中，就是我们所知道的扩展的码激励线性预测系统(eX-CELPS)。从概念上来说，eX-CELPS低的比特率下获取鸣钟的品质，是通过强化采样输入信号(即有声的语音信号)的重要的感性特征，同时弱化听众无法感性的听觉特征来实现的。使用一个线性预测的处理，本实施方式可以表示任何语音的采样值。语音s在一个时刻n的短期预测由等式1来估计：

s(n)a₁s(n-1)+a₂s(n-2)+...+a_p s(n-p) (等式1)

其中a₁，a₂，...a_p是线性预测编码(LPC)系数，并且.p是线性预测编码序列号。语音采样与预测的语音采样之间的差别，即所知的预测的余差r(n)有一个与语音信号s(n)同样的周期。该预测余差r(n)可以表示为：r(n)＝s(n)-a₁s(n-1)-a₂s(n-2)-...-a_p s(n-p)(等式2)它可以被重新写为

s(n)r(n)+a₁s(n-1)+a₂s(n-2)+...+a_p s(n-p) (等式3)

对等式3的更精细的检查显示，一个当前的语音采样可以被分解为一个预测部分a₁s(n-1)+a₂s(n-2)+...+a_p s(n-p)和一个改变的部分r(n)。在某些情况下，编码的改变部分被称作激励信号或e(n)106。是通过一个合成器，此合成器例如包括了一个合成滤波器108对激励信号e(n)106的滤波，才产生重新建立语音信号s’(n)110。

为了确保有声的和无声的语音片段被精确地重现，激励信号e(n)106通过一个自适应码本112和一个固定代码本102的输出的线性组合来建立。该自适应代码本112产生表示语音信号s(n)的周期。在此实施方式中，自适应代码本112的内容是从先前重建的激励信号e(n)106形成的。这些信号重复存在于相邻副帧中的先前采样的信号的可选范围的内容。该内容被存储在内存中。由于当前的与前面相邻的副帧之间的高度相关性，自适应代码本112通过选择的相邻的副帧来跟踪信号，并且随后使用这些先前采样的信号来产生当前激励信号e(n)106的整体或者全部。

第二个用于产生激励信号e(n)106的整体或者全部的代码本是固定代码本102。固定代码本主要是有助于激励信号e(n)106的不可预测部分或非周期性部分。此帮助在自适应代码本112不能有效地模拟非周期性的信号时，提高语音信号s(n)的接近程度。当由于快速的频率变化，或者由于短暂的类噪声信号屏蔽了有声的语音，而使类噪声帧或者非周期性的信号存在于一个声轨中时，例如，固定代码本102产生这些不能够被适应性代码本112捕获的非周期性信号的一个最佳的近似值。

在此实施方式中选择代码本输入的总的目标是建立最佳的，与一个当前语音片段的重要感性特征接近的激励。为了提高品质，本实施方式中使用了一个标准的代码本帧，是该代码本分成多个子代码本。优选地，固定代码本102至少是由如图2中所示的三个子代码本202-206所组成。两个固定子代码本是脉冲代码本202和204，例如一个2-pulse(脉冲)子代码本和一个3-pulse(脉冲)子代码本。第三个代码本206可以是一个高斯代码本或者是一个高频脉冲代码本。优选地，编码级别进一步改进了代码本，特别是限定了一个给定子代码本的输入数目。例如，在此实施方式中，该语音编码系统区分了“周期性”和“非周期性”帧并且使用了全速率，半速率以及八位速率编码。表1说明了很多固定子代码本尺寸中的可用于“非周期性帧”的一个，其中典型参数，例如音调相关和音调滞后，能够迅速地改变。

表1：非周期性帧的固定代码本位分配

¹可选择方式声音编码器

在“周期性帧”中，其中一个高度周期性的信号在感性特征方面被一个平滑的音轨很好地表现出来，固定子代码的类型和大小可以与“非周期性帧”中使用的固定代码本不同。表2说明了可以用于“周期性帧”的许多固定代码本大小尺寸中的一个。

表2：周期帧的固定代码本位分配

可用于可选择方式声音编码器(SMV)中的固定代码本的其他细节的解释在共同提交的专利申请中，其标题为“语言信号的编码和解码系统”，由Yang Gao，Adil Beyassine，Jes Thyssen，Eyal Shlomot，以及Huan-yu Su先前通过互相参照合作而成。

继续对产生最佳信号的固定代码本的搜索，一些增量h₁，h₂，h₃与脉冲子代码本的输出卷积，以增强模拟信号的感性品质。这些增量主要跟踪语音片段的选择的方面并且被从副帧计算到副帧。第一个增量h₁的引入是通过将一个高频噪声信号引入到从脉冲子代码本产生的脉冲输出中而实现的。需要注意的是该增量h₁通常只在脉冲子代码本上执行并且不在高斯子代码本上执行。

图3说明了一个固定脉冲子代码本的典型的输出Y_p(n)。为了简化该解释，单个副帧内只出示了三个输出脉冲P₁，P₂，以及P₃302-306。当然任何数量的脉冲P_n能够被增加到单个或者多个的副帧。该三个脉冲P₁，P₂，以及P₃302-306被定位在一个具有典型的5-10毫秒之间的时间间隔的一个副帧内。在频率范围内，脉冲P₁，P₂，以及P₃

302-306有一个平坦的振幅和一个充分线性的相位，(频率范围内的P₁的振幅和相位如图4中所示)。在增量h₁中，一个时间范围内的高频噪声信号通过P₁，P₂，以及P₃与h₁(n)的卷积而增加到P₁，P₂，以及P₃302-306。该卷积的产品如图5中所示。

图6是能够与任何脉冲代码本的激励输出卷积的h₁增量的一个流程图，以增强重新建立的语音信号s’(n)的感性品质。在步骤602，一个噪声源产生白高斯噪声X(n)。优选地，白高斯噪声有一个在频率范围内的充分平坦的振幅。在步骤604，白高斯噪声X(n)可以被一个高通滤波器滤波。高通滤波器切掉的频率可以通过由期望的语音片段s(n)的感性品质来确定。在步骤606，滤波的噪声X^h(n)被乘以一个可程式化(programmanble)的增益系数g_n，也可以是一个可选的实施方式中的固定或者自适应的增益系数。在步骤608，噪声X^h(n)*g_n被放入采样w(i)长度L的一个平滑窗口W(n)(例如一个半平窗口)。优选地，该窗口W(n)把X^h(n)*g_n衰减到一个长度h₁(n)。在步骤610和612，修正的噪声被输入到如图5以及等式4和5中所示的脉冲子代码本的输出Y_p(n)中。优选地，等式4的n的delta(变数的增数)，6(n)，是一个单个的单元脉冲，它的值在n＝0时是1，在n是其他值时(即n≠0)时它的值是0。

h₁(n)＝X^h(n)*g_n*W(n)+δ(n)) (等式4)

Y’_p(n)＝h₁(n)*Y_p(n) (等式5)

由上述可知，产生衰减的高频噪声的过程包括：产生一个白噪声，用一个高通滤波器对上述白噪声进行滤波，以及用一个平滑的窗口对滤波后的噪声进行窗频化。

当然，第一个增量h₁，也可以添加到该离散域中，方法是通过使用一个卷积器，该卷积器至少有两个端口或者装置702，该装置包括一个数字控制器(即一个数字信号处理器)，一个或者多个增强电路，一个或者多个数字滤波器，或者其他的离散电路，等等。这些如图7中所示的实施可以写成如下的形式：

Y’_p(z)＝h₁(z)*Y_p(z) (等式6)

从前面的描述可以清楚地知道，可以在脉冲输出之前将一个衰减的噪声增加到一个脉冲代码本。优选地，内存可以保留增量h₁的一个或者多个先前的副帧。当h₁没有在脉冲发生之前产生时，一个选择的先前的增量h₁可以在脉冲输出发生之前与脉冲代码本输出一起卷积。

本发明并非限制为一项特殊的编码技术。可以使用任意的感性的编码技术，包括一个码激励线性预测系统(CELP)以及一个代数的码激励预测系统(ACELP)。另外，本发明不应限制为编码器中使用的闭环搜索。本发明也可以被用作解码器中一个脉冲处理方法。此外，在脉冲子代码本的搜索之前，该增量h₁可以集成到子代码本或者合成滤波器108中或者与之成为一个整体。

还可以有很多其他的选择。例如，该噪声能量可以是固定的或者是自适应的。在一个自适应的噪声实施中，本发明能够使用不同的规则来区分有声的语音，这些规则包括的噪声的度数，类似于有声语言的高频率部分中的内容，声轨中语音内容的度数，声轨中的能量内容，声轨中的周期性的程度，等等，例如，并且以一个或多个选择的规则为目标产生不同的能量或噪声级别。优选地，该噪声级别以一个语音片段的一个或者多个重要感性特征作为模型。

本发明无缺陷地提供有效的编码系统，以及一种方法，该方法改进了对语音信号的重要感性特征的编码和解码。无缺陷地将高频噪声增加到一个激励，开发了高感性品质的听众可以期待的高频率范围的声音。本发明可以与后加工处理技术相适应并且可以与编码器，解码器，以及多媒体数字信号编解码器(CODEC)集成或者成为一个整体。

尽管本发明的各种实施方式已经披露如上，对于熟悉本技术的普通技术人员来说，显然在本发明范围内有许多其他的实施和实现方式。因此本发明的限制只在于附加的权利要求以及与它们等价的内容。

Claims

1.一种语音编码的方法，包括：

通过使用一个自适应代码本和具有至少一个脉冲代码本(202，204)的固定代码本而产生(602)一个激励信号，以产生重新建立的语音信号(110)；以及

其中所述产生还包括基于一个或多个标准对所述激励信号进行自适应高频增量(610)；

其中所述一个或多个标准包括下列中的至少之一：类似于语音信号的高频部分中的内容的噪声的强度、声道中的语音内容的强度、声道中的非语音内容的强度、声道中的能量内容和声道中的周期性的强度。

2.如权利要求1所述的语音编码的方法，其特征在于，所述自适应高频增量包括：

根据所述一个或多个标准而提供噪声信号；

把改编后的噪声信号加到(610)所述激励信号。

3.一种语音编码器，其特征在于，包括：

产生装置，其通过使用一个自适应代码本和具有至少一个脉冲代码本(202，204)的固定代码本而产生(602)一个激励信号来产生重新建立的语音信号(110)；以及

其中所述产生装置还包括基于一个或多个标准对所述激励信号的自适应高频增量(610)；

4.如权利要求3所述的语音编码器(100)，其特征在于，所述自适应高频增量包括：

噪声改编部，根据所述一个或多个标准而提供噪声信号；

组合部，把改编后的噪声信号加到所述激励信号。