CN1531723A

CN1531723A - 高频噪声注入脉冲激励以产生低比特率的码激励线性预测

Info

Publication number: CN1531723A
Application number: CNA018217346A
Authority: CN
Inventors: 高阳
Original assignee: Conexant Systems LLC
Current assignee: Conexant Systems LLC
Priority date: 2001-01-05
Filing date: 2001-12-10
Publication date: 2004-09-22
Anticipated expiration: 2021-12-10
Also published as: CN101281751A; WO2002054380B1; WO2002054380A3; EP1348214A2; WO2002054380A2; AU2002225953A1; EP1892701A1; CN101281751B; KR100540707B1; CN100399420C; KR20030076596A; EP1348214B1; US20020128828A1; EP1348214A4; ATE555471T1; US6529867B2

Abstract

一种语音编码系统，通过把高频率的噪声加入到一个脉冲代码本的输出来提供改进的语音编码。一个过滤的噪声是由一个高频噪声信号通过一个高通滤波器而产生的。过滤后的高频噪声卷积后被加入到代码本的脉冲输出。该组合的噪声信号以及脉冲输出产生感觉上得到改进的解码的语音信号。

Description

高频噪声注入脉冲激励以产生低比特率的码激励线性预测

背景技术

1.交叉引用的相关申请

本申请要求了2000年9月15日提交的临时申请号No.60/233,043的权利。下面的共同未决申请以及共同转让的美国专利申请与本申请是同一天提交的。所有这些申请相关于并且还描述了本申请中公开的实施方式的其他方面，并且作为整体来参考。

美国专利申请系列号＿＿，“可以选择方式的声音合成器系统”，代理人参考号：98RSS365CIP(10508.4)，提交于2000年9月15日，并且是现在的美国专利号＿＿。

美国专利申请系列号＿＿，“CELP语音编码中的短增强信号”，代理人参考号：00CXT0666N(10508.6)，提交于2000年9月15日，并且是现在的美国专利号＿＿。

美国专利申请系列号＿＿，“用于语音编码中类似脉冲激励的动态脉冲位置轨迹”，代理人参考号：00CXT0573N(10508.7)，提交于2000年9月15日，并且是现在的美国专利号＿＿。

美国专利申请系列号＿＿，“有时域噪声衰减的语音编码系统”，代理人参考号：00CXT0554N(10508.8)，提交于2000年9月15日，并且是现在的美国专利号＿＿。

美国专利申请系列号＿＿，“语音编码具有自适应激励方式的系统”，代理人参考号：98RSS366(10508.9)，提交于2000年9月15日，并且是现在的美国专利号＿＿。

美国专利申请系列号＿＿，“使用一个具有不同的分辨率级别的自适应代码本的用于编码语音信息的系统”，代理人参考号：00CXT0670N(10508.13)，提交于2000年9月15日，并且是现在的美国专利号＿＿。

美国专利申请系列号＿＿，“用于编码和解码的代码本表”，代理人参考号：00CXT0669N(10508.14)，提交于2000年9月15日，并且是现在的美国专利号＿＿。

美国专利申请系列号＿＿，“用于传输编码的语音信号的比特流协议”，代理人参考号：00CXT0668N(10508.15)，提交于2000年9月15日，并且是现在的美国专利号＿＿。

美国专利申请系列号＿＿，“用于滤波一个语音编码信号频谱内容的系统”，代理人参考号：00CXT0667N(10508.16)，提交于2000年9月15日，并且是现在的美国专利号＿＿。

美国专利申请系列号＿＿，“用于编码和解码语音信号的系统”，代理人参考号：00CXT0665N(10508.17)，提交于2000年9月15日，并且是现在的美国专利号＿＿。

美国专利申请系列号＿＿，“具有自适应帧排列的用于语音编码的系统”，代理人参考号：98RSS384CIP(10508.18)，提交于2000年9月15日，并且是现在的美国专利号＿＿。

美国专利申请系列号＿＿，“改进使用具有子代码本的音调增强的系统”，代理人参考号：00CXT0569N(10508.19)，提交于2000年9月15日，并且是现在的美国专利号＿＿。

2.技术领域

本发明相关于语音编码，并更特别相关于一个系统，该系统增强了经过数字处理的语音的感觉品质。

3.背景技术

语音合成是一个复杂的过程，经常需要将语音和非语音转换成数字信号。对于模拟声音，该声音被采样并被编码到一个离散的序列中。用于表示该声音的位数能够决定合成的声音或语音的感觉品质。品质差的拷贝会发出有噪声的语音，变得不清楚，或者不能够捕捉到音调变化，音调，定调，或者是能够产生环绕声的共同发生。

在语音合成的一项技术，就是众所周知的码激励线性预测(CELP)中，一个声道在数字处理之前被采样到一个离散的波形中。该离散的波形随后被依据一定的标准进行分析。标准例如噪声内容的强度以及语音内容的强度，可以用于通过实时以及延时中的线性功能为语音建立模型。这些线性功能能够捕捉信息并且预测将来的波形。

该CELP编码器帧能够产生高品质的重新编辑的语音。然而，当比特率降低时，编码器的品质会快速地下降。要使高解码器品质保持在一个低的比特率，例如4Kbps，必须开发附加的手段。本发明的目的是提供一个有效的语音编码系统，以及提供一种方法，精确地编码并且解码有声的语音的重要的感性特征。

发明内容

本发明是一个系统，它无缝地改进有声的语音的重要感性特征的的编码和解码。本系统使用修正的脉冲激励来增强在高频率有声的语音的感性品质。该系统包括一个脉冲代码本，一个噪声源，以及一个滤波器。

该滤波器把噪声源的一个输出连接到脉冲代码本的一个输出。该噪声源产生一个白噪声，例如一个由一个高通滤波器滤波的高斯白噪声。该滤波器的通过带宽使高斯白噪声的一个选定的部分通过。滤波后的噪声被改变大小，窗频化，并且添加到一个单个的脉冲，以产生一个与脉冲代码本的输出一起卷积的脉冲响应。

另一方面，一个自适应的高频噪声被输入到脉冲代码本的输出。自适应噪声的大小取决于可选的标准，例如噪声的强度类似于语音信号的高频部分中的内容，一个声道中的语音内容的强度，一个声道中非语音内容的强度，一个声道中的有效内容，一个声道中的周期性的强度，等等。该系统产生符合一个或者多个选择的标准的能量或者噪声等级。更适宜的是，噪声等级为一个语音片段的一个或者多个重要的感性特征建立模型。

本发明的其他的系统，方法，特征和优点，对于一个熟悉与下面的附图和详细描述中的检测技术相关的技术的人来说将是显而易见的。我们的目的在于本描述中的所有这些另外的系统，方法，特征，以及优点，都应在本发明的范围内，并且应被附加的权利要求所保护。

附图说明

图中的组件没有必要改变大小，重点在于说明本发明的原理。另外，在这些图中，数字指明所有不同的画面中的对应的部分。

图1是语音交流系统的一个部分模块图，该语音系统可以集成到一个扩展的码激励线性预测系统(Ex-CELPS)中。

图2说明了图1中的一个固定的代码本。

图3说明了时间域中的图1的固定代码本一个脉冲的部分的剖面图。

图4说明了频率域中的图3的第一个脉冲P1的脉冲响应。

图5说明了一个修正的高频噪声输入到时间域中的图3的脉冲激励中。

图6是图1放大的一个流程图。

图7说明了图1放大的一个离散的实施方式。

图1，图2以及图6中画的虚线表示直接或间接的连接。如图2中所示，固定代码本102可以包括一个或多个子代码本。同样地，图6中的虚线说明了其他的功能能够发生在每个图示的步骤之前或者之后。

具体实施方式

脉冲激励通常可以产生比常规的噪声激励好一些的语音品质。对于有声的语音，脉冲激励跟踪低频的有声的语音的准周期的时间域信号。然而在高频率时，低的比特率脉冲激励经常不能够跟踪伴随有声的语音的感性的“有噪声的效果”。这是个问题，尤其是在比特率很低时，例如是4Kbps或者更低比如脉冲激励被跟踪的情况，不仅是有声的语音的周期，而且是发生在高频的伴随“有噪声的效果”。

图1是语音交流系统100的一个部分的模块图，它可以被集成到一个不同的码激励线性预测系统(CELPS)中，就是我们所知道的扩展的码激励线性预测系统(eX-CELPS)。从概念上来说，eX-CELPS低的比特率下获取鸣钟的品质，是通过强化采样输入信号(即有声的语音信号)的重要的感性特征，同时弱化听众无法感性的听觉特征来实现的。使用一个线性预测的处理，本实施方式可以表示任何语音的采样值。语音s在一个时刻n的短期预测可以由等式1来估计：

s(n)≈a₁s(n-1)+a₂s(n-2)+…+a_pS(n-p) (等式1)

其中a₁，a₂，…a_p是线性预测编码(LPC)系数，并且p是线性预测编码序号。语音采样与预测的语音采样之间的差别，即所知的预测的余差r(n)有一个与语音信号s(n)同样的周期。该预测余差r(n)可以表示为：r(n)＝s(n)-a₁s(n-1)-a₂s(n-2)-…-a_pS(n-p) (等式2)它可以被重新写为

s(n)≈r(n)+a₁s(n-1)+a₂s(n-2)+…+a_pS(n-p) (等式3)

对等式3的更精细的检查显示，一个当前的语音采样可以被分解为一个预测部分a₁s(n-1)+a₂s(n-2)+…+a_pS(n-p)和一个改变的部分r(n)。在某些情形下，编码的改变部分被称作激励信号或e(n)106。是通过一个合成器或者一个合成滤波器108对激励信号e(n)106的滤波，才产生了重新建立的语音信号s’(n)110。

为了确保有声的和无声的语音片段被精确地重现，激励信号e(n)106通过一个自适应代码本112和一个固定代码本102的输出的线性的组合来建立。该自适应代码本112产生表示语音信号s(n)的周期。在此实施方式中，自适应代码本112的内容是从先前重建的激励信号e(n)106形成的。这些信号重复存在于相邻副帧中的先前采样的信号的可选范围的内容。该内容被存储在内存中。由于当前的与前面相邻的副帧之间的高度的相关性，自适应代码本112通过选择的相邻的副帧来跟踪信号，并且随后使用这些先前采样的信号来产生当前激励信号e(n)106的整体或者全部。

第二个用于产生激励信号e(n)106的整体或者部分的代码本是固定代码本102。固定代码本主要是有助于激励信号e(n)106的不可预测部分或者非周期性部分。此帮助在自适应代码本112不能有效地模拟非周期性的信号时，提高语音信号s(n)的接近程度。当由于快速的频率变化，或者由于短暂的类噪声信号屏蔽了有声的语音，而使类噪声帧或者非周期性的信号存在于一个声轨中时，例如，固定代码本102产生这些不能够被自适应代码本112捕获的非周期性信号的一个最佳的近似值。

在此实施方式中选择代码本输入的总的目标是建立最佳的，与一个当前语音片段的重要感性特征接近的激励。为了提高品质，本实施方式中使用了一个标准的代码本帧，是该代码本分成多个子代码本。优选地，固定代码本102至少是由如图2中所示的三个子代码本202-206所组成。两个固定子代码本是脉冲代码本202和204，例如一个2-pulse(脉冲)子代码本和一个3-pulse(脉冲)子代码本。第三个代码本206可以是一个高斯代码本或者是一个高频脉冲子代码本。优选地，编码级别进一步改进了代码本，特别是限定了一个给定的子代码本的输入的数目。例如，在此实施方式中，该语音编码系统语音编码系统区分了“周期性”和“非周期性”帧并且使用了全速率，半速率以及八位速率编码。表1说明了很多固定子代码本尺寸中的可用于“非周期性帧”的一个，其中典型参数，例如音调相关和音调滞后，能够迅速地改变。

表1：非周期性帧的固定代码本位分配

SMV¹编码速率	子代码本	大小
SMV¹编码速率	子代码本	大小	全速率编码	5-pulses(CB1)	2²¹
	5-pulses(CB2)	2²⁰	全速率编码	5-pulses(CB1)	2²¹
	5-pulses(CB2)	2²⁰		5-pulses(CB3)	2²⁰
				5-pulses(CB3)	2²⁰
			半速率编码	2-pulse(CB1)	2¹⁴
	3-pulse(CB2)	2¹³	半速率编码	2-pulse(CB1)	2¹⁴
	3-pulse(CB2)	2¹³		高斯(CB2)	2¹³

¹可选择方式声音编码器

在“周期性帧”中，其中一个高度周期性的信号在感性特征方面被一个平滑的音轨很好地表现出来，固定子代码本的类型和大小可以与“非周期性帧”中使用的固定代码本不同。表2说明了可以用于“周期性帧”的许多固定代码本大小尺寸中的一个。

表2：周期性帧的固定代码本位分配

SMV编码速率

子代码本

大小

全速率编码	8-pulses(CB1)	2³⁰
全速率编码	8-pulses(CB1)	2³⁰
半速率编码	2-pulse(CB1)	2¹²
半速率编码	2-pulse(CB1)	2¹²	3-pulse(CB2)	2¹¹
	5-pulse(CB3)	2¹¹	3-pulse(CB2)	2¹¹

可用于可选择方式声音编码器(SMV)中的固定代码本的其他细节的解释在共同提交的专利申请中，其标题为“语音信号的编码和解码系统”，由Yang Gao，Adil Beyassine，Jes Thyssen，Eyal Shlomot，以及Huan-yu Su先前通过互相参照合作而成。

继续对产生最佳输出信号的固定代码本的搜索，一些增量h1，h2，h3与脉冲子代码本的输出卷积，以增强模拟信号的感性品质。这些增量主要跟踪语音片段的选择的方面并且被从副帧计算到副帧。第一个增量h1的引入是通过将一个高频噪声信号引入到从脉冲子代码本产生的脉冲输出中而实现的。需要注意的是该高频增量h1通常只在脉冲子代码本上执行并且不在高斯子代码本上执行。

图3说明了一个固定脉冲子代码本的典型的输出Y_p(n)。为了简化该解释，单个副帧内只出示了三个输出脉冲P₁，P₂，以及P₃302-306。当然任何数量的脉冲P_n能够被增加到单个或者多个的副帧。该三个脉冲P₁，P₂，以及P₃ 302-306被定位在一个具有典型的5-10毫秒之间的时间间隔的一个副帧内。在频率范围内，脉冲P₁，P₂，以及P₃ 302-306有一个平坦的振幅和一个充分线性的相位，(频率范围内的P₁的振幅和相位如图4中所示)。在增量h₁中，一个时间范围内的高频噪声信号通过P₁，P₂，以及P₃与h₁(n)的卷积而增加到P₁，P₂，以及P₃ 302-306。该卷积的产品如图5中所示。

图6是能够与任何脉冲代码本的激励输出卷积的h₁增量的一个流程图，以增强重新建立的语音信号s’(n)的感性品质。在步骤602，一个噪声源产生白高斯噪声X(n)。优选地，白高斯噪声有一个在频率范围内的充分平坦的振幅。在步骤604，白高斯噪声X(n)可以被一个高通滤波器滤波。高通滤波器切掉的频率可以通过由期望的语音片段s(n)的感性品质来确定。在步骤606，滤波的噪声X^h(n)被乘以一个编程的增益系数g_n，也可以是一个可选的实施方式中的固定的或者自适应的增益系数。在步骤608，噪声X^h(n)*g_n被放入采样w(i)长度L的一个平滑窗口W(n)(例如一个半平窗口)。优选地，该窗口W(n)把X^h(n)*g_n衰减到一个长度h₁(n)。在步骤610和612，修正的噪声被输入到如图5以及等式4和5中所示的脉冲子代码本的输出Y_p(n)中。优选地，等式4的n的delta(变数的增数)，δ(n)，是一个单个的单元脉冲，它的值在n＝0时是1，在n是其他值时(即n≠0)时它的值是0。

h₁(n)＝X^h(n)*g_n*W(n)+δ(n) (等式4)

Y‘_p(n)＝h₁(n)*Y_p(n) (等式5)

当然，第一个增量h₁也可以添加到该离散域中，方法是通过使用一个卷积器，该卷积器至少有两个端口或者装置702，该装置包括一个数字控制器(即一个数字信号处理器)，一个或者多个增强电路，一个或者多个数字滤波器，或者其他的离散电路，等等。这些如图7中所示的实施可以写成如下的形式：

Y‘_p(z)＝H₁(z)*Y_p(z) (等式6)

从前面的描述可以清楚地知道，可以在脉冲输出之前将一个衰减的噪声增加到一个脉冲代码本。优选地，内存可以保留增量h₁的一个或多个先前的副帧。当h₁没有在脉冲发生之前产生时，一个选择的先前的增量h₁可以在脉冲输出发生之前与脉冲代码本输出一起卷积。

本发明并非限制为一项特殊的编码技术。可以使用任意的感性的编码技术，包括一个码激励线性预测系统(CELP)以及一个代数的吗激励线性预测系统(ACELP)。另外，本发明不应限制为编码器中使用的闭环搜索。本发明也可以被用作解码器中的一个脉冲处理方法。另外，在脉冲子代码本的搜索之前，该增量h₁可以集成到子代码本或者合成滤波器108中或者与之成为一个整体。

还可以有很多其他的选择。例如，该噪声能量可以是固定的或者是自适应的。在一个自适应的噪声实施中，本发明能够使用不同的规则来区分有声的语音，这些规则包括的噪声的度数，类似于有声语音的高频率部分中的内容，声轨中语音内容的度数，声轨中的能量内容，声轨中的周期性的程度，等等，例如，并且以一个或多个选择的规则为目标产生不同的能量或者噪声级别。优选地，该噪声级别以一个语音片段的一个或多个重要感性特征作为模型。

本发明无缺陷地提供了一个有效的编码系统，以及一种方法，该方法改进了对语音信号的重要感性特征的编码和解码。无缺陷地将高频噪声增加到一个激励，开发了高感性品质的听众可以期待的高频率范围的声音。本发明可以与后加工处理技术相适应并且可以与编码器，解码器，以及多媒体数字信号编解码器(CODEC)集成或者成为一个整体。

尽管本发明的各种实施方式已经披露如上，对于熟悉本技术的普通技术人员来说，显然在本发明的范围内有许多其他的实施和实现方式。因此本发明的限制只在于附加的权利要求以及与它们等价的内容。

权利要求书

(按照条约第19条的修改)

1.一种语音通信系统，包括：

一个表现语音激励片段的特征的第一代码本；

一个表现语音激励片段的特征的第二代码本；

一个卷积器，电连接到第二代码本的输出；以及

一个合成器，电连接到上述卷积器的输出以及上述第一代码本的输出，上述卷积器被配置以向用于有声的语音片段的一个上述第二代码本的输出加入一个高频噪声。

2.一种语音编码系统，包括：

一个表现语音激励片段的特征的第一代码本；

一个表现语音激励片段的特征的第二代码本；

一个连接到第二代码本的输出的卷积器；以及

一个合成器，连接到上述卷积器的输出以及第一代码本的输出，上述卷积器被配置以向用于有声的语音片段的第二代码本的输出加入高频噪声。

3.如权利要求2所述的系统，其特征在于，上述第一代码本包括一个自适应代码本。

4.如权利要求2所述的系统，其特征在于，上述第二代码本包括一个固定代码本。

5.如权利要求2所述的系统，其特征在于，上述卷积器至少包含一个配置的双端口设备，以卷积两个信号。

6.如权利要求2所述的系统，其特征在于，上述卷积器包括一个连接到一个白噪声源的高通滤波器，该高通滤波器被配置以旁路产生的白噪声的高频部分。

7.如权利要求2所述的系统，其特征在于，上述卷积器被配置以卷积一个脉冲响应，该脉冲响应包含一个修正的噪声以及第二代码本产生的一个输出信号。

8.如权利要求2所述的系统，其特征在于，上述合成器包括一个合成滤波器。

9.权利要求2所述的系统还包括一个放大器，上述卷积器连接到第二代码本的输出以及该放大器的输入。

10.如权利要求2所述的系统，其特征在于，该系统包括一个码激励线性预测系统。

11.如权利要求2所述的系统，其特征在于，该系统包括一个扩展的码激励线性预测系统。

12.如权利要求2所述的系统，其特征在于，上述卷积器包括一个白噪声源。

13.如权利要求2所述的系统，其特征在于，上述卷积器向脉冲代码本的输出加入高频噪声。

14.如权利要求2所述的系统，其特征在于，上述卷积器被配置以向第二代码本的输出加入修正的白噪声。

15.如权利要求14所述的系统，其特征在于，上述卷积器包括一个配置的增强电路，以加入修正的白噪声。

16.如权利要求2所述的系统，其特征在于，上述噪声包括一个自适应噪声。

17.如权利要求2所述的系统，其特征在于，上述噪声包括一个固定的噪声。

18.如权利要求2所述的系统，其特征在于，上述第一和第二代码本，上述卷积器，以及上述合成器至少位于编码器和解码器这两者之一中。

19.一种语音编码系统，包括：

一个表示语音片段特征的固定代码本；

一个表示上述语音片段特征的自适应代码本；

配置的装置，向用于有声的语音片段的固定代码本的输出加入高频噪声；以及

一个连接到上述加入装置的输出的合成滤波器。

20.如权利要求19所述的系统，其特征在于，上述装置卷积了一个窗口化的高频噪声。

21.如权利要求19所述的系统，其特征在于，上述装置包括了一个滤波器。

22.如权利要求19所述的系统，其特征在于，上述装置包括了一个高通滤波器。

23.如权利要求19所述的系统，其特征在于，上述装置包括了一个卷积器。

24.如权利要求19所述的系统，其特征在于，上述装置连接到固定代码本的输出以及求和电路的输入。

25.如权利要求19所述的系统，其特征在于，上述装置和上述固定代码本是一个整体的设备。

26.如权利要求19所述的系统，其特征在于，上述装置和上述合成滤波器是一个整体的设备。

27.一种语音编码的方法，包括：

通过从第一代码本选择一个输出而形成第一激励信号；

通过从第二代码本选择一个输出而形成第二激励信号；

产生一个衰减的高频噪声；

将上述高频噪声与用于有声的语音片段的第二激励信号组合，以产生第三激励信号；以及

将第一激励信号与第三激励信号组合，以产生第四激励信号，上述第四激励信号用于产生一个语音片段。

28.如权利要求27所述的方法，其特征在于，上述第二代码本包括一个脉冲代码本。

29.权利要求27所述的方法还包括用一个合成滤波器对上述第四激励信号进行滤波。

30.如权利要求27所述的方法，其特征在于，上述组合的过程包括卷积。

31.如权利要求27所述的方法，其特征在于，产生衰减的高频噪声的过程包括：产生一个白噪声，用一个高通滤波器对上述白噪声进行滤波，以及用一个平滑的窗口对滤波后的噪声进行窗频化。

32.如权利要求31所述的方法，其特征在于，上述窗口包含一个可以编程的窗口。

33.如权利要求28所述的方法，其特征在于，上述脉冲代码本包括一个固定的脉冲代码本，上述第一代码本包括一个自适应代码本。

34.权利要求33所述的方法还包括使用一个合成滤波器对上述激励进行滤波。

Claims

1.一种语音通信系统，包括：

一个表现语音激励片段的特征的第一代码本

一个表现语音激励片段的特征的第二代码本

一个卷积器，电连接到第二代码本的输出；以及

一个合成器，电连接到上述卷积器的输出以及上述第一代码本的输出，上述卷积器被配置以向上述第二代码本的输出加入一个高频噪声。

2.一种语音编码系统，包括：

一个表现语音激励片段的特征的第一代码本；

一个表现语音激励片段的特征的第二代码本；

一个连接到第二代码本的输出的卷积器；以及

一个合成器，连接到上述卷积器的输出以及第一代码本的输出，上述卷积器被配置以向第二代码本的输出加入高频噪声。

6.如权利要求2所述的系统，其特征在于，上述卷积器包括一个连接到一个白噪声源的高通滤波器，该高通滤波器被配置以旁路产生的白噪声。

19.一种语音编码系统，包括：

一个表示语音片段特征的固定代码本；

一个表示上述语音片段特征的自适应代码本；

配置的装置，用于向固定代码本的输出加入高频噪声；以及

一个连接到上述装置的输出的合成滤波器。

27.一种改进语音编码的方法，包括：

通过从脉冲代码本选择一个输出而形成一个激励信号；

产生一个衰减的高频噪声；以及

将高频噪声与脉冲代码本的输出组合，以产生一个语音片段。

28.如权利要求27所述的方法，其特征在于，上述脉冲代码本包括一个固定的脉冲代码本。

29.权利要求27所述的方法还包括用一个合成滤波器对上述组合的信号进行滤波。

33.权利要求27所述的方法还包括用一个合成滤波器对上述激励进行滤波。