CN1757060B

CN1757060B - Celp语音编码的话音指数控制

Info

Publication number: CN1757060B
Application number: CN2004800060153A
Authority: CN
Inventors: 高扬
Original assignee: Mindspeed Technologies LLC
Current assignee: Mandus Bide Technology LLC; MACOM Technology Solutions Holdings Inc
Priority date: 2003-03-15
Filing date: 2004-03-11
Publication date: 2012-08-15
Anticipated expiration: 2024-03-11
Also published as: EP1604352A2; US7529664B2; US7379866B2; US20040181405A1; WO2004084179A3; EP1604352A4; US20040181399A1; WO2004084181A3; WO2004084180A2; WO2004084181B1; WO2004084180A3; WO2004084179A2; US7024358B2; US20050065792A1; WO2004084467A3; WO2004084180B1; CN1757060A; WO2004084467A2; US20040181397A1; WO2004084182A1

Abstract

一种利用综合分析(ABS)编码器提高语音合成质量的方法。由于浊语音信号中的周期性程度对于浊语音的不同片断而言有显著差异，在综合分析型的语音编码(例如，CELP)中会产生不稳定的感知质量。因此，本发明利用指示语音信号的周期性程度的话音指数控制和改进ABS型语音编码。所述话音指数可被用于通过控制编码器和/或解码器来提高质量稳定性，其可以用于：固定码本(301)短期增强，包括频谱倾斜；感知加权滤波器；子固定码本确定；LPC插值(304)；固定码本音调增强；后音调增强；在解码器高频带的噪声注入；LTP正弦窗；信号分解等。

Description

CELP语音编码的话音指数控制

相关申请

本申请主张于2003年3月15日提交的序号为60/455,435的美国申请的权利，并将其全部内容在此引用作为参考。

以下为与本申请同一天提交的相关美国专利申请，并在此引用作为参考：

美国专利申请，序号10/799,533，“SIGNAL DECOMPOSITION OFVOICED SPEECH FOR CELP SPEECH CODING”，律师卷号：0160112。

美国专利申请，序号10/799,505，“SIMPLE NOISE SUPPRESSIONMODEL”，律师卷号：0160114。

美国专利申请，序号10/799,460，“ADAPTIVE CORRELATIONWINDOW FOR OPEN-LOOP PITCH”，律师卷号：0160115。

美国专利申请，序号10/799,504，“RECOVERING AN ERASEDVOICE FRAME WITH TIME WAPPING”，律师卷号：0160116。

技术领域

本发明主要涉及语音编码，更确切地，涉及码激励线性预测(CELP)语音编码。

背景技术

一般而言，语音信号可被限制频带为约10kHz而不会影响感知。然而，在远程通信中，语音信号带宽通常被更严格地限制。众所周知，电话网络将语音信号的带宽限制在300Hz到3400Hz之间，称为“窄带”。这样的带宽限制导致了电话语音中的特征音。300Hz的下限和3400Hz的上限均会对语音质量产生影响。

在大多数数字语音编码器中，语音信号被以8kHz采样，导致最大信号带宽为4kHz。然而，在实际中，通常将信号的带宽限制为在较高频率端约为3600Hz。在较低频率端，截止频率通常在50Hz和200Hz之间。所述窄带语音信号需要8kb/s的采样频率，且提供了一种被称为长话质量的语音质量。尽管所述长活质量对于电话通信而言已经足够，但是，对于一些新兴应用，例如，电话会议，多媒体服务以及高清晰度电视，需要更好的质量。

通过增加带宽，所述通信质量可以得到提高以进行上述应用。例如，通过将采样频率增加到16kHz，可提供范围从50Hz到约7000Hz的更宽的带宽，其被称为“宽带”。将较低频率范围扩展到50Hz增加了自然度、现场感和舒适度。在频谱的另一端，较高频率范围被扩展到7000Hz，可以增加可懂度，使得更易于区分摩擦音。

在数字语境下，通过一种众所周知的被称为综合分析(ABS)的方法对语音进行合成。综合分析也被称为闭环方法或波形匹配方法。对于中或高比特率，其提供了比其它方法相对更好的语音编码质量。一种已知的ABS方法即为码激励线性预测(CELP)。在CELP编码中，通过利用编码的激励信息激励线性预测编码(LPC)滤波器来合成语音。所述LPC滤波器的输出被与浊语音进行比较，并被用于在闭环意义下调整滤波器参数，直到找到基于最小误差的最佳参数。影响CELP编码的一个因素为，对于不同的浊语音片段，话音度(voicing degree)可以有显著地变化，从而导致语音编码中的不稳定的感知质量(perceptual quality)。

本发明致力于解决上述综合分析浊语音问题。

发明内容

依照在此宽泛描述的本发明的目的，提供了利用话音指数(voicingindex)控制语音编码过程以提高合成语音质量的系统和方法。

根据本发明的一个实施例，指示了语音信号的周期性程度(periodicitydegree)的话音指数用于控制和提高ABS型语音编码。对于不同的浊语音片段，所述周期性程度可以有显著变化，此变化可能会在诸如CELP的综合分析型语音编码中导致不稳定的感知质量。

通过控制编码器和/或解码器，话音指数可被用于提高质量稳定性，例如，在以下领域：(a)固定码本短期增强(fixed-codebook short-termenhancement)，包括频谱倾斜(spectrum tilt)，(b)感知加权滤波器，(c)子固定码本确定，(d)LPC插值，(e)固定码本音调增强，(f)后音调增强，(g)解码器中高频带的噪声注入，(h)LTP正弦窗(Sincwindow)，(i)信号分解，等等。在CELP语音编码的一个实施例中，话音指数可以基于标准化的音调相关(pitch correlation)。

下面将进一步参照附图和说明使得本发明的这些和其它方面变得更加明显。所有这些附加的系统、方法、特点和优点均包含在此描述中，在本发明的范围以内，并由所附权利要求保护。

附图说明

图1示出了样本语音信号的频域特征；

图2示出了编码器和解码器均可使用的话音指数分类；

图3示出了基本CELP编码框图；

图4示出了依据本发明实施例的，利用附加的自适应加权滤波器进行语音增强的CELP编码过程；

图5示出了依据本发明实施例的，利用后置滤波器结构的解码器实现；

图6示出了利用多个子码本的CELP编码框图；

图7A示出了用于产生正弦窗的采样；

图7B示出了一种正弦窗。

具体实施方式

本申请在此将对功能块组件和各种处理步骤进行描述。更可取的是，可以利用任何数量的被配置以执行特定功能的硬件组件和/或软件组件来实现这样的功能块。例如，本申请可以采用各种集成电路组件，例如，存储器元件、数字信号处理元件、发射机、接收机、检音器、音频发生器、逻辑元件等，其可在一个或多个微处理器或其它控制装置控制下实现多种功能。此外，可注意到，本申请可以采用任何数量的常规技术来进行数据传输、信号发送、信号处理和波形加工、音频生成和检测，等等。这些本领域技术人员所熟知的常用技术在此将不做详述。

话音指数传统上是一种重要的指数，其被发送给解码器以进行谐波语音编码(Harmonic speech coding)。所述话音指数通常表示浊语音的周期性程度和/或周期谐波频带边界(periodic harmonic band boundary)。话音指数通常不用于CELP编码系统。然而，本发明的实施例使用话音指数来提供控制并提高在CELP或其它综合分析型编码器中的合成语音的质量。

图1示出了样本语音信号的频域特征。此图中，宽带频域从略高于0Hz伸展到约7.0kHz。尽管对于以16kHz采样的语音信号而言，该频谱中的最高可能频率结束于8.0kHz(即，Nyquist(奈奎斯特)折叠频率)，但是，此图示出了在7.0kHz到8.0kHz之间区域中能量几乎为零。对于本领域技术人员而言，很明显，在此使用的信号范围仅用于说明的目的，而在此表述的原理可应用于其它信号频带。

如图1所示，语音信号在较低频率处非常调和，但是由于存在有噪声的(noisy)语音信号的可能性随着频率的增加而增加，在较高频率处的语音信号并不保持调和。例如，在此图中，语音信号表现出了在较高频率处变得有噪声的特征，例如，在5.0kHz以上。该有噪声的信号使得在较高频率的波形匹配非常困难。因此，如果需要高质量语音，类似ABS编码(例如，CELP)的技术将变得不可靠。例如，在CELP编码器中，通过最小化原始语音与合成语音之间的误差，将合成器设计为与原始语音信号相匹配。由于有噪声的信号不可预测，从而使得误差最小化非常困难。

由于给出了以上问题，本发明实施例使用了话音指数，其被从编码器发送到解码器，以提高由诸如CELP编码器的ABS型语音编码器所合成的语音的质量。

话音指数，其被编码器发送给解码器，可以表示浊语音的周期性或信号的谐波结构。在另一个实施例中，所述话音指数可用三个比特表示，以提供八类语音信号。例如，图2示出了编码器和解码器均可使用的话音指数分类。此图中，指数0(即，“000”)可指示背景噪声，指数1(即，“001”)可指示类似噪声(noise-like)或清音语音信号，指数2(即，“010”)可指示不规则的浊音信号，例如，开始时的浊音信号，以及指数3-7(即，“011”到“111”)各自可指示语音信号的周期性。例如，指数3(“011”)可表示最不具有周期性的信号，而指数7(“111”)表示最具有周期性的信号。

话音指数信息可作为每一个编码帧的一部分由编码器传送。换言之，每一帧可包括话音指数比特(如，三个比特)，其用于指示该具体帧的周期性程度。在一个实施例中，用于CELP的话音指数可基于标准化的音调相关参数，Rp，且可以由以下方程推出：10log(1-Rp)²，其中，-1.0＜Rp＜1.0。

在一个例子中，话音指数可用于固定码本短期增强，包括所述频谱倾斜。图3示出了基本CELP编码框图。如图所示，CELP编码块300包括固定码本301，增益块302，音调过滤块303，以及LPC滤波器304。CELP编码块300还包括比较块306，加权滤波块320，均方误差(MSE)计算块308。

CELP编码背后的基本思想为，输入语音307与合成输出305进行比较，以生成误差309，其为均方误差。利用对新编码参数的选择，在闭环意义下连续计算，直到误差309为最小。

在接收侧，解码器利用相似块301-304(见图5)合成语音。从而，当需要选择适当的码本条目、增益以及滤波器等时，编码器将信息传送给解码器。

在CELP语音编码系统中，当语音信号更具有周期性时，音调滤波器(如，303)的贡献强于固定码本(如，301)的贡献。这样，本发明的实施例可以使用所述话音指数，以通过实现自适应高通滤波器而对高频区域给予更多的注意，该滤波器由所述话音指数的值进行控制。可以实现例如图4所示的构造。例如，自适应滤波器310可以是用于强调高频区域中的功率的自适应滤波器。在此图中，加权滤波器420也可以是用于提高CELP编码过程的自适应滤波器。

在解码器侧，话音指数可用于选择适当的后置滤波器520参数。图5示出了利用后置滤波结构的解码器实现。在一个或更多的实施例中，后置滤波器520可具有存于表中的多种结构，可以利用话音指数中的信息对其进行选择。

在另一个例子中，话音指数可与CELP的感知加权滤波器一起使用。例如，所述感知加权滤波器可由图4中的自适应滤波器420表示。众所周知，波形匹配通过进行均方误差最小化来最小化语音信号的最重要部分(即，高能量部分)的误差，并忽略低能量区域。本发明的实施例使用了自适应加权过程来改善低能量区域。例如，话音指数可用于定义取决于帧的周期性程度的加权滤波器420的积极性。

在另一个实施例中，如图6所示，话音指数可用于确定子固定码本。固定码本可能有多个子固定码本，例如，一个具有较少的脉冲却有较高的位置解析度的子固定码本601，一个具有较多的脉冲却有较低的位置解析度的子固定码本602，以及噪声子码本603。因此，如果话音指数指示有噪声的信号，可以使用子码本602或噪声码本603；如果话音指数未指示有噪声的信号，那么取决于所给帧的周期性程度可以使用子码本中的一个(例如，601或602)。可注意到，在一个或多个实施例中，增益块(码本)302也可单独应用于每一个子码本。

此外，话音指数可与LPC插值一起使用。例如，在线形插值期间，如果插值的LPC的位置处于前一个LPC和当前的LPC中间，前一个LPC与当前的LPC同样重要。因此，如果话音指数，例如，指示在前帧为清音，而本帧为浊音，那么在LPC插值期间，所述LPC插值算法更倾向于当前帧而不是在前帧。

所述话音指数可用于固定码本音调增强。典型地，在前的音调增益可用于进行音调增强。然而，话音指数提供了与当前帧相关的信息，从而，与在前的音调增益信息相比，其提供了更好的指示。可以基于所述话音指数确定音调增益的幅度。换言之，所述帧越具有周期性(基于话音指数值)，增强的幅度越大。例如，所述话音指数可与美国专利申请09/365,444一起使用，以确定在其中定义的双向音调增强系统中的增强幅度，此专利于1999年8月2日提交，在此引用作为参考。

作为进一步的例子，所述话音指数可被用于替代用于后音调增强的音调增益。这是一个优点，因为，如前所述，可以从标准化音调相关值，即，Rp，得到话音指数，所述Rp典型地在0.0到1.0之间；然而，音调增益可超过1.0，并且可以反过来影响后音调增强过程。

作为另一个例子，所述话音指数还可用于确定可能注入在解码器侧的高频带中的噪声量。当输入语音被分解为浊音部分和噪声部分时，如美国专利申请10/799,533中所讨论的，可以使用该实施例，所述专利与此同时提交，名为“SIGNAL DECOMPOSITION OF VOICED SPEECH FORCELP SPEECH CODING”，其在此引用作为参考。

所述话音指数还可以被用于控制正弦窗的调整。所述正弦窗用于利用CELP编码的分数式音调滞后(fractional pitch lag)生成自适应码本贡献向量，即，LTP激励向量。在宽带语音编码中，已知强谐波出现在频带的低频区域而噪声信号出现在高频区域。

长期预测或LTP通过采用在前的激励，并根据音调周期将其复制到当前子帧来产生谐波。可注意到，如果进行了在前帧的单纯复制，则谐波也同样在频域的末端频谱得到复制。然而，这不是真实浊音信号的准确表示，尤其对于宽带语音编码而言。

在一个实施例中，对于宽带语音信号而言，当在前信号被用于表示当前信号时，由于在高频区域出现噪声的高可能性，自适应低通滤波器被应用于正弦插值窗。

在CELP编码中，固定码本对语音信号的有噪声或不规则部分有贡献，而音调自适应码本对语音信号的浊音或规则部分有贡献。自适应码本贡献被利用正弦窗产生，由于音调滞后可以是分数的，所以其可以被使用。如果音调滞后为整数，一个激励信号可被复制到下一个；然而，因为所述音调滞后是分数的，对在前激励信号的直接复制将不会产生作用。当正弦窗被修改后，即使对于整数音调滞后，直接复制也不会产生作用。为产生音调贡献，采集了多个样本，如图7A所示，其被加权然后被相加在一起，其中，样本的权重被称为正弦窗，其本来就具有对称的形状，如图7B所示。实际中的形状取决于音调滞后的分数部分以及应用于正弦窗的自适应低通滤波器。所述正弦窗的应用类似于卷积或滤波，但是正弦窗为非因果滤波器。在如下表示中，窗信号w(n)与信号s(n)在时域卷积，这等同于窗频谱W(w)与信号频谱S(w)在频域相乘：

U_{ACB} (n_{\cdot}) = w (n) * s (n) &LeftRightArrow; W (w) S (w)

根据以上表示，正弦窗的低通等同于对最终自适应码本贡献(U_ACB(n))或激励信号进行低通；然而，由于正弦窗短于激励，正弦窗的低通更具有优势。于是，改变正弦窗比改变激励更容易；此外，正弦窗的滤波可以被预先计算和记忆。

在本发明的一个实施例中，话音指数可以被用于提供信息以控制正弦窗的低通滤波器的改变。例如，话音指数可以提供关于谐波结构强弱的信息。如果调谐结构强，则对所述正弦窗施加弱低通滤波器，而如果调谐结构弱，则对所述正弦窗施加强低通滤波器。

尽管本发明的以上实施例是参照宽带语音信号来描述的，本发明同样也可应用于窄带语音信号。

以上表述的方法和系统可存在于软件、硬件或设备的固件中，无需脱离本发明的精神，其可在微处理器、数字信号处理器、专用IC或现场可编程门阵列(“FPGA”)，或者其任何组合中实现。此外，无需脱离其精神和实质特点，本发明能够以其它具体形式实施。在此描述的实施例只具有说明性而不具有限制性。

Claims

1.一种提高包括了编码器和解码器的语音编码系统中的合成语音质量的方法，所述方法包括：

获取输入语音信号；

利用码激励线性预测(CELP)编码器对所述输入语音进行编码，以生成用于所述输入语音信号的合成的CELP编码参数；

生成多个CELP语音帧，所述多个CELP语音帧的每一帧包含所述CELP编码参数；

产生话音指数，其中，所述话音指数指示所述输入语音信号的多个分类中的一个，其中所述输入语音信号的所述多个分类中的每个表示所述输入语音信号的周期性的不同程度；以及

将所述话音指数作为所述多个CELP语音帧的每一帧的一部分发送给所述解码器，以改善所述输入语音信号的所述合成。

2.权利要求1的方法，其中，所述输入语音信号的多个分类包括：背景噪声类、清音类、第一话音类和第二话音类，其中所述第一话音类的周期性程度低于所述第二话音类。

3.权利要求1的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以控制自适应高通滤波器。

4.权利要求1的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以控制自适应感知加权滤波器。

5.权利要求1的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以控制自适应正弦窗。

6.权利要求1的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以通过固定码本的短期增强来控制所述输入语音信号的频谱倾斜。

7.权利要求1的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以控制感知加权滤波器。

8.权利要求1的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以控制线性预测编码器。

9.权利要求1的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以控制音调增强固定码本。

10.权利要求1的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以控制后音调增强。

11.权利要求1的方法，其中，所述话音指数由所述解码器使用，以从多个子码本中选择至少一个子码本。

12.权利要求1的方法，其中，所述话音指数具有多个比特，用于指示所述多个CELP语音帧的每一帧的分类。

13.权利要求12的方法，其中，所述多个比特为三个比特。

14.权利要求12的方法，其中，所述分类用于指示所述输入语音信号的周期性。

15.一种提高包括了编码器和解码器的语音编码系统中的合成语音质量的方法，所述方法包括：

利用所述解码器从所述编码器接收多个码激励线性预测(CELP)语音帧；

利用所述解码器，通过对所述多个CELP语音帧的每一帧进行解码，来获取多个CELP编码参数；

利用所述解码器，通过对所述多个CELP语音帧的每一帧进行解码来获取话音指数，以供所述解码器用于改善所述输入语音信号的合成，其中，所述话音指数指示所述输入语音信号的多个分类中的一个，其中所述输入语音信号的所述多个分类中的每个表示所述输入语音信号的周期性的不同程度；以及

由所述解码器利用所述多个CELP编码参数和所述话音指数生成所述输入语音信号的合成版本。

16.权利要求15的方法，其中，所述输入语音信号的多个分类包括：背景噪声类、清音类、第一话音类和第二话音类，其中所述第一话音类的周期性程度低于所述第二话音类。

17.权利要求15的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以控制自适应高通滤波器。

18.权利要求15的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以控制自适应感知加权滤波器。

19.权利要求15的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以控制用于音调贡献的自适应正弦窗。

20.权利要求15的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以通过固定码本的短期增强来控制所述输入语音信号的频谱倾斜。

21.权利要求15的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以控制线性预测编码滤波器。

22.权利要求15的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以控制音调增强固定码本。

23.权利要求15的方法，其中，将所述话音指数从所述编码器发送给所述解码器，以控制后音调增强。

24.权利要求15的方法，其中，所述解码器使用所述话音指数，以从多个子码本中选择至少一个子码本。

25.权利要求15的方法，其中，所述话音指数具有多个比特，用于指示所述多个CELP语音帧的每一帧的分类。

26.权利要求25的方法，其中，所述多个比特为三个比特。

27.权利要求25的方法，其中，所述分类用于指示所述输入语音信号的周期性。

28.一种用于提高输入语音信号的合成语音质量的编码器，所述编码器包括：

接收机，用于接收所述输入语音信号；

码激励线性预测(CELP)编码器，用于生成用于所述输入语音信号的合成的CELP编码参数，用于生成多个CELP语音帧，所述多个CELP语音帧的每一帧包含所述CELP编码参数，并且还用于生成指示所述输入语音信号的多个分类中的一个的话音指数，其中所述输入语音信号的所述多个分类中的每个表示所述输入语音信号的周期性的不同程度；

发射机，用于将所述话音指数作为所述多个CELP语音帧的每一帧的一部分发送给所述解码器，以用于改善所述输入语音信号的所述合成。

29.权利要求28的编码器，其中，所述输入语音信号的多个分类包括：背景噪声类、清音类、第一话音类和第二话音类，其中所述第一话音类的周期性程度低于所述第二话音类。

30.权利要求28的编码器，其中，将所述话音指数从所述编码器发送给所述解码器，以控制自适应高通滤波器。

31.权利要求28的编码器，其中，将所述话音指数从所述编码器发送给所述解码器，以控制自适应感知加权滤波器。

32.权利要求28的编码器，其中，将所述话音指数从所述编码器发送给所述解码器，以控制自适应正弦窗。

33.权利要求28的编码器，其中，所述话音指数由所述解码器使用，以从多个子码本中选择至少一个子码本。

34.权利要求28的编码器，其中，所述话音指数具有多个比特，用于指示所述多个CELP语音帧的每一帧的分类。

35.权利要求34的编码器，其中，所述多个比特为三个比特。

36.权利要求34的编码器，其中，所述分类用于指示有噪声的语音信号。

37.一种用于提高输入语音信号的合成语音质量的解码器，所述解码器包括：

接收机，用于基于所述输入语音信号从编码器接收多个码激励线性预测(CELP)语音帧，

其中，所述解码器通过对所述多个CELP语音帧的每一帧进行解码来获取多个CELP编码参数，并且其中，所述解码器通过对所述多个CELP语音帧的每一帧进行解码来获取话音指数，所述话音指数指示所述输入语音信号的多个分类中的一个，其中所述输入语音信号的所述多个分类中的每个表示所述输入语音信号的周期性的不同程度，

其中，所述解码器利用所述多个CELP编码参数和所述话音指数来生成所述输入语音信号的合成版本。

38.权利要求37的编码器，其中，所述输入语音信号的多个分类包括：背景噪声类、清音类、第一话音类和第二话音类，其中所述第一话音类的周期性程度低于所述第二话音类。

39.权利要求37的解码器，其中，将所述话音指数从所述编码器发送给所述解码器，以控制自适应高通滤波器。

40.权利要求37的解码器，其中，将所述话音指数从所述编码器发送给所述解码器，以控制自适应感知加权滤波器。

41.权利要求37的解码器，其中，将所述话音指数从所述编码器发送给所述解码器，以控制用于音调贡献的自适应正弦窗。

42.权利要求37的解码器，其中，所述解码器使用所述话音指数，来从多个子码本中选择至少一个子码本。

43.权利要求37的解码器，其中，所述话音指数具有多个比特，用于指示所述多个CELP语音帧的每一帧的分类。

44.权利要求43的解码器，其中，所述分类用于指示周期性指数。

45.权利要求43的解码器，其中，所述周期性指数的范围为从低周期性指数到高周期性指数。