CN1139988A

CN1139988A - 猝发脉冲激励的线性预测

Info

Publication number: CN1139988A
Application number: CN95191398A
Authority: CN
Inventors: 威廉·R·加德纳
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1994-02-01
Filing date: 1995-02-01
Publication date: 1997-01-08
Also published as: DK0744069T3; WO1995021443A1; ATE218741T1; DE69526926T2; HK1011108A1; JPH09508479A; AU1739895A; EP0744069B1; AU693519B2; KR100323487B1; EP0744069A1; US5621853A; DE69526926D1; ES2177631T3; FI962968A0; KR970700902A; BR9506574A; PT744069E; FI962968A; CA2181456A1

Abstract

一种对猝发状脉冲的信号进行编码的新的改进设备。在代码激励的线性预测算法中，将短期和长期冗余从数字采样的语音中删除，并且猝发状的残余信号必须被编码。用三个参数对残余信号编码，它们是对应于猝发脉冲编码簿中一个猝发脉冲形状的标定值、猝发脉冲增益和猝发脉冲位置。三个参数一起表示与残余信号匹配的波形。还揭示了用于寻找残余波形最佳匹配的闭环穷举搜索法和通过对残余波形的开环分析确定猝发脉冲位置并以闭环方式确定猝发脉冲形状和增益参数的半开环法。还揭示了提供猝发脉冲矢量编码簿的方法，它可降低搜索算法的计算复杂性，包括递归猝发脉冲编码簿以及用编码簿其他元素的线性组合构成其元素的编码簿。

Description

猝发脉冲激励的线性预测

发明领域

本发明涉及语音处理。本发明尤其涉及一种用猝发脉冲激励矢量进行线性预测语音编码的新的改进方法和设备。

背景技术

用数字技术进行话音传输已广为人知，特别是在长距离和数字无线电电话应用中。这又使人们对确定某些方法产生兴趣，其中所述方法是指，使通过传输信道发送的信息量最小，并使重建的语音保持高质量。如果通过简单的采样和数字化来传送语音，那么需要每秒64千比特(kbps)数量级的数据率来获得传统模拟电话的语音质量。但是，通过使用语音分析，然后进行适当的编码，传输，并在接收机处再合成，便可大大降低数据率。

通常把这样的装置称为声码器，它们所用的技术是通过提取与人类语音生成模型有关的参数来压缩所发出的语音。这种装置由一编码器和一解码器组成，其中编码器分析来话语音，提取相关的参数，而解码器则用其通过传输信道接收到的参数对语音再合成。模型是不断变化的，以精确地模拟随时间变化的语音信号。因此，将语音分割成许多时间块或分析帧，在这些时间块或分析帧中计算参数。然后，为每个新的帧更新参数。

在各类语音编码器中，代码激励的线性预测编码(Code Excited Linear Pre-dictive Coding)(CELP)、随机编码或矢量激励的语音编码编码器是属于一类的。Thomas E.Tremain等在1988年移动卫星会议录的论文“4.8 kbps代码激励的线性预测编码器”中阐述了该特定类的一例编码算法。同样，在1993年1月14日提交的申请号为08/004,484待批专利中，详细描述了该类型中其他声码器的例子，其名称为“可变速率声码器”，并且已转让给本发明的受让人，并且名称为“以低比特率对语音编码的方法”的美国专利4,797,925也作了描述。上述专利申请和上述美国专利中的资料援引在此，以作参考。

声码器的功能是通过删除语音中所有固有的自然冗余，将数字化的语音信号压缩成比特率较低的信号。通常，主要由于发声部位起滤波作用，所以语音中具有短期冗余，由于声带对发声部位的激励，语音中具有长期冗余。在CELP编码器中，用了两个滤波器模拟这些作用，它们是短期共振峰(LPC)滤波器(shortterm formant filter)和长期音调滤波器(long term pitch filter)。一旦这些冗余被删除，就可将所得的残余信号(residual signal)模拟成白高斯噪声，对此也必须进行编码。

为所给定的语音帧确定编码参数的过程如下。首先，通过寻找用于删除语音中因发声部位滤波所引起的短期冗余的滤波器系数来确定LPC滤波器的参数。其次，通过寻找用于删除语音中因声带引起的长期冗余的滤波器系数来确定音调滤波器的参数。最后，通过用编码簿中的许多随机激励波形驱动音调和LPC滤波器，并选择能使两滤波器的输出最近似于原始语音的特定激励波形，来选取输入解码器中音调和LPC滤波器的激励信号。因此，被传输的参数与三个因素有关：(1)LPC滤波器，(2)音调滤波器，和(3)编码簿激励。

CELP编码器的一个缺点是，使用随机的激励矢量。随机激励矢量的使用不考虑从语音信号中删除了短期和长期冗余后仍保留的理想激励波形猝发状的特性。尤其是无结构的随机矢量，不太适合于对猝发状的残余激励信号进行编码，从而使对残余激励信号编码的方法不很有效。因此，需要一种对目标信号进行编码的改进方法，该方法涉及残余激励信号的猝发状特性，从而以较低的编码数据率获得较高质量的语音。

发明内容

本发明是对残余激励信号进行编码的新改进的方法和设备，它考虑了这种信号的猝发脉冲性。本发明用猝发脉冲激励矢量对激励信号中大能量的猝发脉冲进行编码，而不是用随机激励矢量对整个激励信号编码。候选猝发脉冲波形由猝发脉冲形状、猝发脉冲增益和猝发脉冲位置表征。该三个猝发脉冲参数可确定用来驱动LPC滤波器和音调滤波器的激励波形，致使滤波器对的输出接近于目标语音信号。

还描述了一种用于提供不止一组猝发脉冲参数的方法和设备，它能提供更加接近目标语音信号的结果。在实施例的描述中，寻找与一个猝发脉冲对应的一组猝发脉冲参数，它会使滤波后的猝发脉冲波形和目标语音波形的差最小。然后，从目标信号中减去用LPC和音调滤波器对该猝发脉冲滤波所产生的波形，并且用新更新的目标信号对第二组猝发脉冲参数进行下一轮搜索。重复该迭代过程直到按所需精度匹配目标波形。

第一种方法和设备是以闭环的形式进行猝发脉冲激励搜索的。即当目标信号已知时，对所有的猝发脉冲形状、猝发脉冲增益和猝发脉冲位置进行穷尽搜索，通过选择形状、增益和位置确定最优组合，从而使滤波后的猝发脉冲激励和目标信号之间最佳匹配。或者，只对三个参数中任何一个的子集进行次优化的搜索，以减少计算量。

另外，在所描述的半开环方法中，通过分析残余激励信号，识别最大能量的位置并将这些位置用作激励猝发脉冲的位置，可大大地减少要搜索的参数数量。在一个多猝发脉冲的半开环实施中，如上所述，识别单个位置，对所给的猝发脉冲位置识别猝发脉冲增益和形状，从目标信号中减去滤波后的猝发脉冲信号，并再次分析与剩余目标信号对应的残余激励信号，以找出下一个猝发脉冲位置。在另一个多猝发脉冲的半开环实施中，首先通过分析残余激励波形识别多个猝发脉冲位置，然后如第一个方法所述的，对这些猝发脉冲位置确定猝发脉冲增益和形状。

最后，揭示了一系列用于降低搜索算法计算复杂性和存储需求量的方法。第一种方法要求提供一递归猝发脉冲组，其中每个后继猝发脉冲的形状可通过从先前的形状序列的开始端除去一个或多个元素并将一个或多个元素加至先前形状序列的末端，从其前驱导出。另一种方法需要提供一组猝发脉冲，其中后继猝发脉冲的形状可用先前猝发脉冲的线性组合来形成。

附图概述

结合附图阅读以下详细描述，将更加清楚本发明的特征、目的和优点。在所有附图中，相同的参考标记表述相同的部分，其中：

图1a-c示出了三个波形，图1a是未编码的语音，图1b是删除了短期冗余的语音，而图1c是删除了短期和长期语音冗余的语音，也称为理想的残余激励波形；

图2是一方框图，示出了闭环搜索机理；

图3是一方框图，示出了半开环搜索机理。

本发明的较佳实施方式

图1a-c示出了三个波形，其横轴为时间，纵轴为幅度。图1a示出的是一例典型的未编码的语音信号波形。图1b示出用共振峰(LPC)预测滤波器删除了短期冗余后的波形，该波形与图1a是同一语音信号。语音中的短期冗余一般可通过为语音帧计算一组自相关系数，并用本领域中周知的技术从自相关系数确定一组线性预测编码(LPC)系数来删除。通过使用Durbin递归的自相关方法可以获得LPC系数，该方法在Prentice-Hall有限公司1978年出版的语音信号的数字处理一书中有所讨论，其作者是Rabiner&Schafer。在上述专利申请和专利中也描述了确定LPC滤波器抽头值(tap value)的方法。这些LPC系数为共振峰(LPC)滤波器确定一组抽头值。

图1c示出的语音采样与图1a相同，但删除了短期和长期的瞬时冗余。如上所述先删除短期冗余，然后用音调预测滤波器对残余的语音滤波，以删除语音中的长期瞬时冗余，其实现方法是本领域众所周知的。通过将当前语音帧与先前被编码的语音历史进行比较，删除长期冗余。编码器从早先的编码激励信号中识别一组采样，该信号在用LPC滤波器滤波时是与当前语音信号的最佳匹配。该组采样用音调延迟和音调增益说明，其中音调延迟表示沿时间向后寻找产生最佳匹配的激励信号时的采样数，而音调增益是适于该组采样的乘法因子。在上述专利申请和专利中描述了音调滤波的实现。

图1c示出了一例典型的结果波形，该波形称为残余激励波形。残余激励波形中较大的能量分量一般出现在图1c中箭头1、2和3所标指的猝发脉冲群处。以前的研究已完成了对该目标波形的模拟，其方法是寻找整个残余激励波形与矢量编码簿中的一个随机矢量的匹配。在本发明中，编码器寻找残余激励波形与多个猝发脉冲矢量的匹配，从而更加逼近残余激励波形中的大能量段。

图2例示了对本发明的实施。在图2所示的实施例中，对最佳猝发脉冲形状(B)、猝发脉冲增益(G)和猝发脉冲位置(1)的搜索是以闭环形式确定的。

将输入语音帧s(n)提供给累加单元2的加法输入端。在本实施例中，每个语音帧包括四十个语音采样。将先前在音调搜索操作中确定的最佳音调延迟L^*和音调增益b^*提供给音调合成滤波器4。根据最佳音调延迟L^*和音调增益b^*所提供的音调合成滤波器4的输出被提供给LPC滤波器6。

将早先计算得到的LPC系数a_i提供给共振峰(LPC)合成滤波器6、感觉加权滤波器(perceptual weighting filter)8和无记忆共振峰(LPC)合成滤波器12。根据这些LPC系数确定滤波器6、8和12的抽头值。将共振峰(LPC)合成滤波器6的输出提供给累加单元2的减法输入端。将累加单元2中计算得到的误差信号提供给感觉加权滤波器8。感觉加权滤波器8对信号滤波，并将其输出目标信号x(n)提供给累加单元18的加法输入端。

单元9将所有候选波形提供给累加单元18的加法输入端。用猝发脉冲形状标定值i、猝发脉冲增益G和猝发脉冲位置l识别每个候选波形。在本实施例中，每个候选波形包括四十个采样。将猝发脉冲形状标定值i提供给猝发脉冲单元10，响应于该标定值i猝发脉冲单元10提供预定数量采样的猝发脉冲矢量B_i。在本实施例中，每个猝发脉冲矢量的长度为九个采样。将每个猝发脉冲矢量提供给无记忆共振峰(LPC)合成滤波器12，无记忆共振峰(LPC)合成滤波器12根据LPC系数对输入猝发脉冲矢量滤波。将无记忆共振峰合成滤波器12的输出提供给乘法器14的一个输入端。

乘法器14的第二输入端是猝发脉冲增益值G。在本实施例中，有十六个不同的增益值。增益值可以是一组预定的值，或者可以由过去和现在输入的语音帧的特性适当确定。对于每个猝发脉冲矢量，对所有的增益值G都进行测试，以确定最优增益值或者l的某特定值的最优未量化增益值，并且用本领域中已知的方法确定i，其中在搜索后将选中的G值量化成十六个不同增益值中最近的值。将乘法器14的积提供给可变延迟单元16。

可变延迟单元16还接收猝发脉冲位置值l并把猝发脉冲矢量放到依照l值的候选波形帧内。如果候选波形帧包括L个采样，那么将要测试的最大位置数为：

可能的位置数＝L－burst_length＋1 (1)其中burst_length是采样中猝发脉冲持续期(在本实施例中，burst_length＝9)。在另一个实施例中，选取可能猝发脉冲位置数的子集，以降低所得的数据率。例如，可以只允许在每个其他采样位置处开始有猝发脉冲。对猝发脉冲位置子集的测试将减少复杂性，但会导致次优化的编码，在某些情况下，这会降低所得语音的质量。

将候选波形w_i，G，l(n)提供给累加单元18的减法输入端。将目标波形和候选波形之差提供给能量计算单元20。能量计算单元20根据下列方程(2)求出加权误差矢量成员的平方和：

E_{i, G, l} = Σ_{n = 0}^{L - 1} {[x (n) - w_{i, G, l} (n)]}^{2} - - - - - (2)

将计算出的每个候选波形能量值提供给最小化单元22。最小化单元22将目前为止所找到的每个最小能量值与当前能量值进行比较。如果提供给最小化单元22的能量值小于当前最小值，那么将当前能量值存储在最小化单元22中，并且还存储当前猝发脉冲形状、猝发脉冲增益和猝发脉冲位置值。搜索完所有允许的猝发脉冲形状、猝发脉冲增益和猝发脉冲位置之后，最小化单元22提供最佳匹配候选B^*、G^*和l^*。

对于目标矢量的较佳匹配。候选波形可以包括不止一个猝发脉冲。对于多个猝发脉冲候选波形的情况，进行第一次搜索，并识别最佳匹配波形。然后，从目标信号中减去最佳匹配波形，并进行附加搜索。根据需要，可对所有猝发脉冲重复该过程。在某些情况下，希望对猝发脉冲位置的搜索进行限制，以使对于先前选中的猝发脉冲位置不会再选一次。已经注意到，在噪声语音中，猝发状噪声的声学特性与随机噪声的不同。通过限定猝发脉冲相互隔离，使所得激励信号更接近随机噪声，并且在某些场合中会觉得更自然。

为了减少搜索操作计算的复杂性，可以进行第二个半开环的搜索。图3示出了进行半开环搜索所用的设备。通过这一方法，用开环技术确定猝发脉冲的位置，随后以上述闭环方式确定猝发脉冲形状和增益。

在如图2所示的闭环搜索操作中，将输入语音帧s(n)提供给累加单元30的加法输入端。将先前在音调搜索操作中确定的最佳音调延迟L^*和音调增益b^*提供给音调合成滤波器32。根据最佳音调延迟L^*和音调增益b^*所提供的音调合成滤波器32的输出被提供给共振峰(LPC)合成滤波器34。

将早先计算得到的LPC系数a_i提供给共振峰(LPC)合成滤波器34、全零感觉加权滤波器36、全极点(all-poles)感觉加权滤波器37和无记忆加权LPC滤波器42。在本实施例中，用图2描述的感觉加权滤波器被分为两个独立的滤波器：全零滤波器36和全极点滤波器37。滤波器32、36、37和42的抽头值根据LPC系数来确定。

将共振峰(LPC)合成滤波器34的输出提供给累加单元30的减法输入端。将累加单元30中计算得到的误差信号提供给全零感觉加权滤波器36。全零感觉加权滤波器36对该信号滤波，并将其输出r(n)提供给全极点感觉加权滤波器37的输入端。全极点感觉加权滤波器37将目标信号x(n)输出给累加单元48的加法输入端。

还将全零感觉加权滤波器36的输出r(n)提供给峰值检测器54，峰值检测器54分析该信号，并识别最大能量猝发脉冲在信号中的位置。猝发脉冲的位置由下列方程求出：

L = {\arg \max}_{l} Σ_{i = 1}^{k + burst_length} r^{2} (i) - - - - - (3)

通过用这种方式进行该部分的搜索，将闭环中必须搜索的参数总数降低了1/l。

然后如前所述，以闭合方式对猝发脉冲形状i和猝发脉冲增益G进行搜索。将猝发脉冲标定值i提供给猝发脉冲单元38，猝发脉冲单元38响应于该标定值i提供猝发脉冲矢量B_i。B_i被提供给无记忆加权LPC滤波器42，无记忆加权LPC滤波器42根据LPC系数对输入的猝发脉冲矢量滤波。将无记忆加权LPC滤波器42的输出提供给乘法器44的一个输入端。

乘法器44的第二输入端是猝发脉冲增益值G。将乘法器44的输出提供给猝发脉冲位置单元46，猝发脉冲位置单元45根据猝发脉冲位置值l，将猝发脉冲放在候选帧内。在累加单元48中，将候选波形从目标信号中减去。然后将差提供给能量计算单元50，如前所述，能量计算单元50计算误差信号的能量。将计算得到的能量值提供给最小化单元52，如上所述，最小化单元52能检测最小误差能量，并提供识别参数B^*、G^*和l。用下述方法可以进行多猝发脉冲的半开环搜索，即识别第一最佳匹配波形，从全零感觉加权滤波器36的输出r(n)中减去未经滤波的最佳匹配波形，并如上所述，通过在新更新的r(n)中寻找具有最大能量的位置，确定下一猝发脉冲的位置。确定了下一个猝发脉冲的位置后，从目标矢量x(n)中减去经滤波的第一最佳匹配波形，并在所得的波形上进行最小化搜索。该过程可以按需要重复多次。由于上文所列举的原因，仍然希望限定猝发脉冲位置互不同相同。一种简单的可确保猝发脉冲位置不同的手段是，在搜索下一猝发脉冲之前，在减去猝发脉冲的区域中，用零代替r(n)。

可以进一步预见，可对猝发脉冲单元10和38优化，以降低在滤波器12和42的滤波器响应计算中所必要的递归计算的计算复杂性。例如，可将猝发脉冲值存储为递归猝发脉冲集合，在该集合中，通过从先前序列的开始除去一个或多个元素，并将一个或多个元素加至先前序列的末端，从其前驱中导出每一后继的猝发脉冲形状。在其他策略中，可用其他方式使猝发脉冲相互关联。例如，一半猝发脉冲可以是其他猝发脉冲的采样倒相，或者可用先前猝发脉冲的线性组合来构造猝发脉冲。这些技术还降低了猝发脉冲单元10和38存储所有候选猝发脉冲形状所需的存储量。

上述对优选实施例的描述可使本领域的技术人员实现和使用本发明。对这些实施例的各种变化对于本领域的熟练技术人员将是显而易见的，并且无需用创造性的才智便能将此处定义的一般原理应用于其他实施例中。因此，不应将本发明局限于本文所示的实施例，而应给予其与这里所揭示的原理和新特征相一致的最宽范围。

Claims

1.在从数字化的语音采样帧删除短期和长期冗余从而产生残余波形的线性预测编码器中，一种用于对所述残余波形进行编码的设备，其特征在于，包括：

候选波形发生装置，它根据猝发脉冲形状、猝发脉冲增益和猝发脉冲位置提供预定候选波形组中的候选波形；和

比较装置，它接收所述残余波形和所述候选波形，将所述候选波形与所述残余波形比较，并根据所述比较结果提供比较信号。

2.如权利要求1所述的设备，其特征在于，还包括最小化装置，它接收所述预定候选波形组中每个候选波形的所述比较信号，并将所述比较信号与当前的最小值进行比较，当所述比较信号小于所述当前最小值时，存储候选波形值。

3.如权利要求1所述的设备，其特征在于，根据一递归猝发脉冲形状格式提供所述猝发脉冲形状，其中后继的猝发脉冲形状通过从先前的猝发脉冲形状末端至少除去一个比特并在所述猝发脉冲形状的前端至少提供一个新比特，由所述先前的猝发脉冲形状导出。

4.如权利要求1所述的设备，其特征在于，候选波形发生装置包括：

猝发脉冲编码簿装置，用于提供所述猝发脉冲形状；

共振峰合成滤波器装置，用于接收所述猝发脉冲形状，并根据预定的滤波格式对所述猝发脉冲形状滤波；

猝发脉冲增益乘积装置，用于接收所述经滤波的猝发脉冲形状和一猝发脉冲增益值，并用所述猝发脉冲增益乘以所述经滤波的猝发脉冲形状，以提供猝发脉冲增益积；以及

猝发脉冲定位装置，用于接收所述猝发脉冲增益积和一猝发脉冲位置，并根据所述猝发脉冲位置值将所述猝发脉冲增益积定位，从而提供所述候选波形。

5.如权利要求1所述的设备，其特征在于，还包括峰值检测装置，它用于接收所述残余并根据预定的猝发脉冲定位格式确定所述猝发脉冲位置。

6.在从数字化的语音采样帧删除短期和长期冗余从而产生残余波形的线性预测编码器中，一种用于对所述残余波形进行编码的方法，其特征在于，包括下列步骤：

根据猝发脉冲形状、猝发脉冲增益和猝发脉冲位置生成候选波形；

将所述候选波形与所述残余波形比较；并且

根据所述比较结果提供比较信号。

7.如权利要求6所述的方法，其特征在于，对于猝发脉冲形状、猝发脉冲增益和猝发脉冲位置的预定组重复权利要求6中的步骤，并且还包括根据所述比较信号为每个候选波形选择最佳匹配波形的步骤。

8.如权利要求1所述的方法，其特征在于，根据一递归猝发脉冲形状格式提供所述猝发脉冲形状，其中后继的猝发脉冲形状通过从先前的猝发脉冲形状末端至少除去一个比特并在所述猝发脉冲形状的前端至少提供一个新比特，由所述先前的猝发脉冲形状导出。

9.如权利要求6所述的方法，其特征在于，所述生成候选波形的步骤包括下列步骤：

提供所述猝发脉冲形状；

根据预定的共振峰滤波格式对所述猝发脉冲形状滤波；

用所述猝发脉冲增益乘以所述经滤波的猝发脉冲形状，以提供猝发脉冲增益积；并且

根据所述猝发脉冲位置值将所述猝发脉冲增益积定位，以提供所述候选波形。

10.如权利要求6所述的方法，其特征在于，所述生成候选波形的步骤包括下列步骤：

由所述残余波形确定所述猝发脉冲位置值；

提供所述猝发脉冲形状；

根据预定的共振峰滤波格式对所述猝发脉冲形状滤波；