CN1189665A

CN1189665A - 改进的多模态编码激励线性预测编码器和方法

Info

Publication number: CN1189665A
Application number: CN97126252A
Authority: CN
Inventors: E·帕克索; A·V·麦克格里
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1997-01-02
Filing date: 1997-12-31
Publication date: 1998-08-05

Abstract

本发明提供一种改进的多模态编码激励线性预测(CELP)编码器(10)和方法,其中包含接收语音输入的编码器(12)。峰值模块(54)与编码器(12)相连。峰值模块(54)获取语音输入的测量峰值并判断测量峰值是否大于峰值阈值。如果测量峰值大于峰值阈值,编码器(12)则将语音输入分入第一模态。

Description

改进的多模态编码激励线性预测编码器和方法

本发明通常涉及语音编码领域，具体而言，涉及改进的多模态编码激励线性预测(CELP)编码器和方法。

编码激励线性预测(CELP)是本领域技术人员熟知的一种语音编码技术，它在中低波特率(4-16kb/s)下具有较好的性能。CELP编码器一般工作在定长输入信号段上，这样的信号段被称为帧。多模态CELP编码器将每个输入帧划分为其中一种类别，这些类别称为模态。模态以不同的编码技术为特征。

多模态CELP编码器一般包括话音和非话音两类不同的模态。CELP编码器采用了各种各样的技术来区分话音和非话音。但是这些技术一般无法正确识别出作为话音的某些过渡声音的特征。CELP编码器另一个普遍存在的问题是它的输出语音增益并不总是能够与输入语音增益相匹配。

因此在本技术领域需要一种改进的多模态语音编码器。本发明提供了一种多模态语音编码器和方法，基本上克服或消除了已有系统存在的缺点和问题。

按照本发明，语音可以通过接受语音输入并测量其峰值来进行分类。随后可以判断测量峰值是否大于峰值阈值。如果测量峰值大于峰值阈值，则将语音输入分入包括编码激励线性预测模态的多模态语音编码器第一模态中。

具体而言，根据本发明的一个实施例，语音分类方法可以进一步包括获取语音输入的开环音高预测增益和零交叉率。随后可以判断开环音高预测增益是否大于开环音高预测增益的阈值和零交叉率是否小于零交叉率阈值。出现任一种情况时都可以将语音输入分入包括编码激励线性预测模态的多模态语音编码器第一模态中。当语音输入不能分入第一模态中时，它可以分入包含激励矢量的第二模态，该矢量具有更多的非零元素。

根据本发明的另一方面，可以利用增益匹配分析合成方法进行编码。根据本发明这方面，增益值可以从语音输入中提取。随后从语音输入和归一化增益中获取目标矢量。通过使增益归一化目标矢量与合成滤波激励矢量之间误差最小化可以确定出优化的激励矢量。

本发明技术上的重要优点是提供了改进的多模态编码激励线性预测(CELP)编码器和系统。具体而言，多模态CELP编码器包括峰值模块，它可以对包含短促高能脉冲的话音进行正确的分类和编码，这些脉冲后面跟随有相对较轻并且类似噪声的间隔作为话音。因此诸如/t/、/k/和/p/之类的非爆破音可以正确地分入包含任何非零元素较少的激励矢量的模态。

本发明技术上的另一优点是对非话音提供了增益匹配的分析合成编码处理。具体而言，CELP编码器可以使编码语音的增益与语音输入的增益匹配。随后可以利用增益对语音输入进行归一化。接着由CELP编码器实现分析合成以确定语音输入的激励参数。增益匹配大大抑制或基本消除了通常在以低波特率编码非话音时出现的不需要的增益波动。

本领域内普通技术人员将会通过附图、说明书和权利要求很容易地理解本发明。

通过以下结合附图对本发明的描述可以进一步理解本发明的优点。

图1示出了根据本发明一个实施例的编码激励线性预测(CELP)编码器的框图；

图2示出了由根据本发明一个实施例的CELP编码器对话音和非话音特征提取方法的流程图；

图3示出了根据本发明一个实施例的非话音编码方法的流程图。

通过以下对附图1-3更为详细的描述，可以更好地理解本发明的较佳实施例及其优点，附图中相同的部分用同一标号表示。正如下面将要详细描述的那样，图1-3示出了多模态编码激励线性预测(CELP)编码器，它包含的峰值模块能够更好地对语音进行区分和分类。根据本发明的另一方面，多模态CELP编码器可以利用增益匹配分析合成编码处理来抑制或消除语音编码带来的增益波动。

图1示出了按照本发明的多模态CELP编码器10的框图。按照本发明，CELP编码器可以是基于线性预测分析合成语音编码器，它利用了从三元代数矢量求和的随机训练自适应编码本中提取的激励。

在其中一个实施例中，多模态CELP编码器10可以用于电话应答装置。读者将会理解的是，多模态CELP编码器10可以在其它提供合成语音的通信、电话等装置中使用。例如，多模态语音编码器10可以被语音信箱系统、数字声音录制装置、蜂窝式电话等采用。

多模态CELP编码器10包括编码器12和译码器14对、存储器16、随机存取存储器18和处理器20。处理器20执行编码器12和译码器14的指令。编码器12通过普通的模拟-数字转换器22和普通的高通滤波器24接收语音输入。模拟-数字转换器22将模拟输入信号26转换为数字格式。高通滤波器24从输入信号26中滤除直流分量和其它偏压分量。

一般而言，编码器12工作在称为帧的输入信号定长段上。编码器12通过计算一组参数来处理每个语音帧，这组参数在后面为译码器14使用。这些参数包括：模态位，用来通知译码器14编码当前帧所用的模态；线性预测系数(LPC)，它定义了被称为LPC合成滤波器的随时间变化的全极滤波器；以及激励参数，它规定了称为激励信号的时域波形。每帧的参数作为编码报文28存储在RAM18中。编码报文28的其它存储方式也应理解为属于本发明的范围。

当重放报文28时，译码器14接收编码报文28并合成称为编码语音的输入语音逼近信号。译码器14重建激励信号并将其传送给LPC合成滤波器30。合成滤波器30的输出为编码语音。编码语音通过普通的数字-模拟转换器32，在那里编码语音被转换为模拟输出信号34。

编码器12包括线性预测编码(LPC)分析模块40和模态模块42。LPC分析模块40对帧进行分析并确定合适的线性预测编码LPC系数。LPC系数采用熟知的分析技术计算并按照预测多阶矢量量化所用的方法进行量化。LPC系数利用存储在存储器16中的LPC编码本44进行量化。

模态判断模块42包括音高预测增益模块50、零交叉模块52和峰值模块54，用来将输入语音分类为几种模态之一，这些模态以不同的编码技术为特征。正如下面将会详细论述的那样，多模态CELP编码器10包括以固定激励为特征的第一模态和以随机激励为特征的第二模态。第一模态更适合于具有一定周期成分的信号以及包含几个强脉冲或一个局域化能量猝发的信号。因此包括非话音爆破音(例如/t/、/k/和/p/)的话音采用第一模态建模。第二模态适合于这样的信号，此时LPC残差具有类似噪声的特征，例如/s/、/sh/、/f/、/th/之类的摩擦音以及只有背景噪声的输入信号部分。因此非话音采用第二模态建模。

模态判断的目的是选择适合每帧的激励信号的类型。在第一模态中，激励信号为取自两个不同编码本的两个分量的线性组合，这些编码本为自适应编码本60和固定激励编码本62。自适应编码本60与自适应增益编码本64相关并被用来编码LPC残差的伪周期音高分量。自适应编码本60由已有激励的时间偏移内插值组成。

固定激励编码本62与固定增益编码本66相关并被用来编码激励信号中扣除了自适应编码本60贡献之后留下的部分。固定激励编码本62包括稀疏编码矢量，这些矢量只包含少量数量一定的非零样本，它们不是+1就是-1。

在第二模态中，激励信号为增益标度矢量，它取自与随机高斯数放在一起的随机激励编码本70。随机激励编码本70与随机激励增益编码本72相连。按照本发明，第二模态采用增益匹配分析合成编码处理进行编码。该编码方法将在下面结合图3作更详细的论述。

LPC编码本44、固定激励编码本62、固定激励增益编码本66、随机激励编码本68和随机激励增益编码本70存储在多模态CELP编码器10的存储器16中。自适应编码本60存储在RAM 18内。因此，自适应编码本60不断地被更新。自适应增益编码本64存储在编码器12内。CELP编码器10的编码本和模块的其它存储方式也应理解为属于本发明的范围。

图2示出了根据本发明一个实施例将语音输入分类为第一模态或第二模态方法的流程图。在实施例中，第一模态的激励矢量包含的非零元素数量少于第二模态。第一模态一般与话音/过渡语音相关而第二模态与非话音相关。该方法从编码器12接收输入语音帧的步骤100开始。转入步骤102之后，编码器12提取语音帧的分类参数。对于图2的实施例，分类参数包括开环音高增益、零交叉率和测量峰值。

接着在步骤104，开环音高预测增益模块50获取语音帧的开环音高增益。在实施例中，通过使归一化的自相关数值最大来确定开环音高预测增益。开环音高预测增益的其它确定方法也应理解为属于本发明的范围。接着进入判断步骤106，开环音高预测增益模块50确定开环音高预测增益是否大于开环音高预测增益阈值。在实施例中，开环音高预测增益阈值取值范围在0.3-0.6之间。在特定实施例中，开环音高预测增益阈值为0.32。在本实施例中，开环音高预测增益可以利用下式确定：这里p＝可选的音高滞后量

i＝时间指数

x＝信号

N＝每帧的样本数

开环音高预测增益的其它确定方式也应理解为属于本发明的范围。

如果开环音高预测增益大于开环音高预测增益阈值，则判断步骤106经YES分支进入步骤108。在步骤108，该帧被分类为固定激励编码的话音。如果开环音高预测增益小于开环音高预测增益阈值，则判断步骤106经NO分支进入步骤110。

在步骤110，零交叉模块52获取语音帧的零交叉率。零交叉率是一帧内信号符号变化的次数除以帧内样本数。接着进入判断步骤112，零交叉模块52确定语音帧的零交叉率是否小于零交叉率阈值。在实施例中，零交叉率阈值的取值范围在0.25-0.4之间。在特定实施例中，零交叉率阈值为0.33。如果零交叉率小于零交叉率阈值，则判断步骤112经YES分支进入步骤108。如上所述，在步骤108，该语音帧被分类为话音。如果零交叉率不小于零交叉率阈值，则判断步骤112经NO分支进入步骤114。在步骤114中，峰值模块54获取语音帧的测量峰值。在实施例中，测量峰值由下式计算得到：

这里p＝测量峰值

r[n]＝LPC残差

N＝每帧的样本数

步骤114转入判断步骤116。在判断步骤116中，峰值模块54判断测量峰值是否大于峰值阈值。在实施例中，峰值阈值取值范围在1.3-1.4之间。在特定实施例中，峰值阈值为1.3。如果测量峰值大于峰值阈值，则判断步骤116经YES分支进入步骤108。如上所述，在步骤108中语音帧可以分类为话音。如果测量峰值不大于峰值阈值，则判断步骤116经NO分支进入步骤118。

在步骤118中，语音帧分类为非话音。步骤108和步骤118转入判断步骤120。在判断步骤120中，编码器12判断是否存在另一输入语音帧。如果存在另一帧，则判断步骤120经YES分支返回步骤100，在那里接收下一帧以作分类。如果不存在另一帧，则判断步骤120经NO分支到达方法的结束。

因此，只有在开环音高增益不超过其阈值、零交叉率不小于其阈值以及测量峰值不超过峰值阈值时才将该帧分类为非话音帧。从峰值方程可见，语音帧将包含较大的测量峰值，其中所含少量样本的幅值远大于其它样本。但是如果所有样本的绝对值相差不大，则帧的测量峰值将会变小。因此尖脉冲周期信号与其它静帧内包含短猝发能量的信号一样，具有较大的峰值。另一方面，诸如非话音摩擦音之类的噪声类信号包含较小的峰值。因此话音发声的开始与结束部分被正确地编码为话音并改善了语音质量。

图3示出了根据本发明实施例将两种语音编码为模态的增益匹配分析合成方法。该方法开始于步骤150，在该步骤中编码器12接收输入语音帧。接着转入步骤152，编码器提取输入语音帧的LPC参数。在步骤154中，确定输入语音帧的LPC残差。LPC残差等于输入语音与LPC参数预测的语音之间的差值。

接着转入步骤156确定LPC残差的增益。在实施例中，增益可以用下式确定：

这里g＝增益

i＝时间指数

N＝样本数

r＝残差

接着在步骤158中，对增益进行标度。在实施例中，通过将增益乘上被称为CELP消音因子的常数标度因子完成增益标度。该常数凭经验估计得到，并且可以是第一话音模态下编码的所有语音帧范围内的编码语音与原始语音的平均增益比，标度化使编码语音能量级在两种编码器模态下都得到匹配。假定激励编码本中所有的编码矢量包含单位基准。随后在步骤160中对增益进行量化。

接着转入步骤161，经过零极感知权重滤波器W9z)的滤波并扣除感知权重合成滤波器在步骤162的零输入响应结果得到了目标矢量。感知权重合成滤波器由A(z)W(z)给定，其中：

W (z) = \frac{A (γ z^{- 1})}{A (λ z^{- 1})}

和

A (z) = 1 - Σ_{i = 1}^{P} a_{i} z^{- i}

这里X为常数(例如γ＝0.9，λ＝0.6)

a_i＝LPC系数

P＝预测阶数

接着转入步骤163，对目标矢量进行增益归一化。在实施例中，通过将输入语音除以增益对目标矢量进行增益归一化。因此合成语音包含正确的增益数值，对于大多数非话音信号而言，它一般比激励矢量的形状更为重要。其做法是，在用激励编码本中的矢量对增益归一化目标矢量进行分析合成量化之前，先计算增益并用其重新标度激励目标矢量。因此本发明可以在执行分析合成编码的同时使编码的语音增益与输入的语音增益匹配。

接着转入步骤164确定出增益归一化语音帧的激励值。通过使下列方程最小化得到优化的激励矢量：

D′＝‖s′-He‖²这里D’＝原始语音与合成语音之间的权重方差

S′＝增益归一化目标矢量H＝感知权重合成滤波器W(z)A(z)的脉冲响应矩阵e＝优化的激励矢量脉冲响应矩阵给定如下：这里N＝帧的大小

h(i)＝W(z)A(z)的脉冲响应， i＝0，...，N-1

利用分析合成方法使下列方程最小化得到优化的激励：

C′＝‖He‖²-2<s′，He>

这里C′＝成本函数

H＝感知权重合成滤波器W(z)A(z)的脉冲响应矩阵

e＝优化的激励矢量

S′＝增益归一化目标矢量

接着在步骤166中编码器12将语音帧的激励常数作为编码报文28的一部分存储。如上所述，编码报文还可以包含模态位和LPC系数。步骤166转至过程的结束。

根据上述描述，本发明确保合成语音包含正确的增益值。与此同时，分析合成的进行有助于保持输入信号的特征。因此不需要的增益波动大大得到抑制或基本上被消除。

虽然以上借助实施例描述了本发明，但是对于本技术领域内的普通技术人员来说，无需创造性劳动即可对本发明作出各种修改和改变。因此本发明的范围由后面所附权利要求限定。

Claims

1.一种语音分类方法，其特征在于包括以下步骤：

接收语音输入；

获取语音输入的测量峰值；

确定测量峰值是否大于峰值阈值；

如果测量峰值大于峰值阈值，则将语音输入分类为包含编码激励线性预测模态的多模态语音编码器的第一模态。

2.如权利要求1所述的方法，其特征在于进一步包括以下步骤：

获取语音输入的开环音高预测增益；

确定开环音高预测增益是否大于开环音高预测增益阈值；以及

如果开环音高预测增益大于开环音高预测增益阈值，则将语音输入分类为包含编码激励线性预测模态的多模态语音编码器的第一模态。

3.如权利要求1所述的方法，其特征在于进一步包括以下步骤：

获取语音输入的零交叉率；

确定零交叉率是否小于零交叉率阈值；以及

如果零交叉率小于零交叉率阈值，则将语音输入分类为固定激励编码的第一模态。

4.如权利要求1所述的方法，其特征在于进一步包括以下步骤：

获取语音输入的开环音高预测增益；

确定开环音高预测增益是否大于开环音高预测增益阈值；

如果开环音高预测增益大于开环音高预测增益阈值，则将语音输入分类为包含编码激励线性预测模态的多模态语音编码器的第一模态；

获取语音输入的零交叉率；

确定零交叉率是否小于零交叉率阈值；以及

如果零交叉率小于零交叉率阈值，则将语音输入分类为包含编码激励线性预测模态的多模态语音编码器的第一模态。

5.如权利要求1所述的方法，其特征在于进一步包括以下步骤：如果语音输入没有分入第一模态，则分入包含激励矢量的第二模态，该激励矢量的非零元素数量多于第一模态。

6.如权利要求2所述的方法，其特征在于进一步包括以下步骤：如果语音输入没有分入第一模态，则分入包含激励矢量的第二模态，该激励矢量的非零元素数量多于第一模态。

7.如权利要求3所述的方法，其特征在于进一步包括以下步骤：如果语音输入没有分入第一模态，则分入包含激励矢量的第二模态，该激励矢量的非零元素数量多于第一模态。

8.如权利要求4所述的方法，其特征在于进一步包括以下步骤：如果语音输入没有分入第一模态，则分入包含激励矢量的第二模态，该激励矢量的非零元素数量多于第一模态。

9.如权利要求5所述的方法，其特征在于第一模态包括脉冲激励而第二模态包括随机激励。

10.如权利要求6所述的方法，其特征在于第一模态包括脉冲激励而第二模态包括随机激励。

11.如权利要求7所述的方法，其特征在于第一模态包括脉冲激励而第二模态包括随机激励。

12.一种语音编码方法，其特征在于包括以下步骤：

从输入语音中获取增益值；

从输入语音中获取目标矢量；

对目标矢量进行增益归一化处理；以及

通过使经过增益归一化后的目标矢量与合成滤波激励矢量之间的误差最小化来确定优化的激励矢量。

13.如权利要求12所述的方法，其特征在于进一步包括用消音因子标度增益的步骤。

14.如权利要求13所述的方法，其特征在于进一步包括量化经过标度的增益的步骤。

15.如权利要求12所述的方法，其特征在于通过将输入语音除以增益完成输入语音的增益归一化。

16.一种语音编码方法，其特征在于包括以下步骤：

从输入语音中获取增益值；

对输入语音进行增益归一化处理；

从经过增益归一化后的语音输入中获取目标矢量；以及

通过使增益归一化语音输入的目标矢量与合成滤波激励矢量之间的误差最小化来确定优化的激励矢量。

17.一种编码激励线性预测(CELP)编码器，其特征在于包括：

能够接收语音输入的编码器；

与编码器相连接的峰值模块；

峰值模块获取语音输入的测量峰值并判断测量峰值是否大于峰值阈值；

如果测量峰值大于峰值阈值，编码器则将语音输入分入第一模态；以及

编码器用脉冲激励系统来编码第一模态输入语音。

18.如权利要求17所述的CELP编码器，其特征在于进一步包括：

如果语音输入不能分入第一模态，编码器则将其分入第二模态；以及

编码器用随机激励系统来编码第二模态输入语音。

19.如权利要求17所述的CELP编码器，其特征在于包括：

与编码器相连接的音高预测增益模块；

音高预测增益模块获取语音输入的开环音高预测增益并判断开环音高预测增益是否大于开环音高预测增益阈值；以及

如果开环音高预测增益大于开环音高预测增益阈值，则将语音输入分入第一模态。

20.如权利要求17所述的CELP编码器，其特征在于包括：

与编码器相连接的零交叉率模块；

零交叉率模块获取语音输入的零交叉率并判断零交叉率是否小于零交叉率阈值；以及

如果零交叉率小于零交叉率阈值，则将语音输入分入第一模态。