CN103038825A

CN103038825A - 语音增强方法和设备

Info

Publication number: CN103038825A
Application number: CN2011800014460A
Authority: CN
Inventors: 田薇; 李玉龙; 邝秀玉; 贺知明
Original assignee: Huawei Technologies Co Ltd; University of Electronic Science and Technology of China
Current assignee: Huawei Technologies Co Ltd; University of Electronic Science and Technology of China
Priority date: 2011-08-05
Filing date: 2011-08-05
Publication date: 2013-04-10
Anticipated expiration: 2031-08-05
Also published as: WO2012159370A1; CN103038825B

Abstract

本发明实施例涉及语音增强的方法和设备。语音增强方法包括：获取浊音帧信号的M个第一线性预测系数，其中M是线性预测滤波器的阶数；获取提升因子，其中，提升因子根据M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到；根据提升因子以及M个第一线性预测系数之间的相关性修改M个第一线性预测系数，使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与M个第一线性预测系数所对应的第一短时谱包络相比，共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。由共振峰能量对语音音质的决定作用及语音中高频频谱成份对语音可懂度的贡献性，经过本发明实施例的方法处理后，语音的质量和可懂度都得到了共同的提升。

Description

语音增强方法和设备

技术领域

本发明实施例涉及通信领域，具体地说，涉及语音增强方法和设备。

背景技术

无线技术的发展，使得网络间互融的现象日趋增多，而要实现网络间的互通，则需进行不同码流之间的转换。如要实现IP电话网和移动电话网的融合，以手机拨打IP电话为例(其中IP电话的语音编码使用的比较多的G..723和G..729协议；而移动通信领域使用的比较多的是自适应多码率语音编码(AMR)标准)，则需要实现G.729和AMR这两种不同码流之间的转换。目前码流间的转换主要有两种方案，级联(Tandem)和码流转换(Transcoding)方案。采用Tandem方案进行码流转换时，由于包括了两次失真压缩，语音质量受损，客观平均意见得分(Mean Opinion Score，简称MOS)下降，影响了语音的可懂度。而Transcoding方案相对于前一种方案是能大幅度的降低运算量，但由于两种码流之间的速率等存在不匹配，故经过码流转换后其语音质量仍然受损，语音的可懂度发生下降，即语音的辨识水平下降。

现有技术其语音可懂度的提升有可能会同时放大或引入刺耳的噪声、带来失真甚至是畸变，且无法恢复丢失的高频成份。也就是说现有技术中的语音可懂度提升是以语音质量的牺牲为代价的，即目前的技术难于实现语音可懂度与语音质量的共同提升。

发明内容

本发明所要解决的一个技术问题在于，克服现有技术在提升语音可懂度的同时语音质量下降的缺点，利用共振峰以及语音的中高频成分对语音可懂度的作用，提供一种具有高频补偿作用的语音增强方法。

根据本发明实施例，提出了一种语音增强方法，所述方法包括：

获取浊音帧信号的M个第一线性预测系数，其中M是线性预测滤波器的阶数；

获取提升因子，其中，所述提升因子根据所述M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到；

根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数，使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与所述M个第一线性预测系数所对应的第一短时谱包络相比，共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。

根据本发明实施例，提出了一种语音增强设备，所述设备包括：

获取模块，用于获取浊音帧信号的M个第一线性预测系数，其中M是线性预测滤波器的阶数；

处理模块，用于获取提升因子，其中，所述提升因子根据所述M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到；

合成模块，根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数，使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与所述M个第一线性预测系数所对应的第一短时谱包络相比，共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。

在本发明实施例的方法中，提升因子包含了语音各频率间的相关性，语音短时谱包络的修改通过M个第一线性预测系数的修改得到，也包含了语音的相关性，使得修改后的短时谱包络其共振峰能量得到增强且语音丢失的中高频频谱分量得到了一定程度的补偿。由共振峰能量对语音音质的决定作用及语音中高频频谱成份对语音可懂度的贡献性，经过本发明实施例方法的处理后，语音的质量和可懂度都得到了共同的提升。

根据本发明实施例的语音增强方法计算过程简单、鲁棒性好、能同时提高语音的可懂度和质量，而且能恢复由于编码失真而丢失的高频成分，特别适合改善不同网关融合互通所引起的通信语音质量下降的情况。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的方法的流程图；

图2是采用现有技术的级联方案以及采用本发明实施例的语音增强方法处理过的浊音帧的LPC谱；

图3是浊音帧经过级联方案和本发明实施例的语音增强方法处理后在频域的比较，其中图3(a)是原始语音，图3(b)是原始语音经过级联方案处理后的频率分布，图3(c)是级联后的语音经过本发明实施例的语音增强方法处理后的频率分布；

图4是原始语音、级联处理后的语音以及根据本发明实施例的方法处理后的语音的DRT得分；

图5是本发明实施例的设备的示意结构图；

图6是本发明实施例的设备的示意结构图；和

图7是用来实现本发明实施例的设备的示意硬件结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的技术方案，可以应用于各种通信系统，例如：GSM，码分多址(CDMA，Code Division Multiple Access)系统，宽带码分多址(WCDMA，Wideband Code Division Multiple Access Wireless)，通用分组无线业务(GPRS，General Packet Radio Service)，长期演进(LTE，Long TermEvolution)等。

图1是本发明实施例的语音传输的增强方法100的流程图。如图1所示，方法100包括：

110：获取浊音帧信号的M个第一线性预测系数，其中M是线性预测滤波器的阶数；

120：获取提升因子，其中，所述提升因子根据所述M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到；

130：根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数，使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与所述M个第一线性预测系数所对应的第一短时谱包络相比，共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。

在110中，可以设获取的浊音帧为s(n)，则语音传输的传递函数可以表示为：

H (z) = \frac{1}{A (z)} = \frac{1}{1 - Σ_{i = 1}^{M} α_{i} z^{- i}} - - - (1)

其中M为线性预测滤波器的阶数，α_i为第一线性预测系数。

下面具体描述在120中，根据M个第一线性预测系数α_i对应的短时谱包络中频率之间的相关性获取提升因子。

第一线性预测系数α_i是根据下式计算的：

R_{n} (j) - Σ_{i = 1}^{M} α_{i} R_{n} (j - i) = 0

1≤j≤M (2)

其中R_n(j)为浊音帧s(n)在j时刻的自相关函数，即

R_{n} (j) = \underset{n}{Σ} s (n) s (n - j) - - - (3)

根据本发明实施例，可以采用莱文森-杜宾(Levinson-Durbin)递推算法来求解(2)式，其递推过程如下：

a.计算s(n)的自相关函数R_n(j)，j＝0，1...M；

b.令E⁽⁰⁾＝R_n(0)；

c.递推过程从i＝1开始；

d.按照以下(4)-(6)式进行递推运算：

k_{i} = \frac{R_{n} (i) - Σ_{j = 1}^{i - 1} a_{j}^{(i - 1)} R_{n} (i - j)}{E^{(i - 1)}} - - - (4)

α_{j}^{(i)} = α_{j}^{(i - 1)} - k_{i} α_{i - j}^{(i - 1)}

j＝1，......，i-1 (5)

E^{(i)} = (1 - k_{i}^{2}) E^{(i - 1)} - - - (6)

e.i＝i+1，如果i＞M，则算法结束，否则返回(d)步骤，重新进行递推。

在以上(4)-(6)式中，

表示第i阶线性预测滤波器的第j个预测系数，E⁽ⁱ⁾为第i阶线性预测滤波器的预测残差能量，经过递推后可以得到第i＝1、2、...M各阶预测器的解。其最终解为：

α_{j} = α_{j}^{(M)}

j＝1，2，...，M (7)

若令z＝e^iω，则可以得到浊音帧信号的发生模型的频率特性，即语音发生模型的线性系统的频率响应可以描述为：

H (e^{iω}) = \frac{G}{1 - Σ_{i = 1}^{M} α_{i} e^{- jiω}} = \frac{G}{A (e^{iω})} - - - (8)

根据功率谱的定义，可以定义语音帧的短时谱包络为：

{| H (e^{iω}) |}^{2} = {| \frac{G}{A (e^{iω})} |}^{2} - - - (9)

下面具体描述步骤130，即根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数，使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与所述M个第一线性预测系数所对应的第一短时谱包络相比，共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。

首先对输入的语音帧信号s(n)的第一线性预测系数α_i按照下式进行归一化：

x_i＝|α_i|-((int)(|α_i|/2π)×2π)，i＝1，2...M (10)

再利用正弦模型对其进行处理：

在α_i≥0时

{flag}_{i} = \{\begin{matrix} - 1; & x_{i} > π \\ 1; & x_{i} < π \\ 0; & x_{i} = π \end{matrix} - - - (11 - 1)

在α_i＜0时

{flag}_{i} = \{\begin{matrix} - 1; & x_{i} < π \\ 1; & x_{i} > π \\ 0; & x_{i} = π \end{matrix} - - - (11 - 2)

则，提升因子f由下式给出：

f = \sqrt{\frac{(Σ_{i = 1}^{M} ({flag}_{i} - μ))}{M}} - - - (12)

其中μ为所述第一线性预测系数α_i的均值，M为线性预测滤波器的阶数。

需要说明的是，利用归一化的第一线性预测系数以及浊音帧的正弦模型来获取提升因子，仅仅是一种示例，本领域技术人员可以根据具体情况选择其他的方法来获取提升因子。

然后利用(13)式修改上述线性预测系数α_i，以获得第二线性预测系数β_i：

β_{j}^{(i)} = α_{j}^{(i - 1)} - {fα}_{i - j}^{(i - 1)}

j＝1，...，i-1 (13)

将修改后获得的第二线性预测系数β_i替换(9)式中的第一线性预测系数α_i，则传递函数可以写为：

H (z) = \frac{y (n)}{s (n)} = \frac{1}{1 - Σ_{i = 1}^{M} β_{i} z^{- i}} - - - (14)

其中y(n)表示经过本发明实施例的语音增强方法增强后输出的语音帧，则

y (n) = Σ_{i = 1}^{M} (β_{i} \times y (n - i)) + s (n) - - - (15)

根据本发明实施例，可以利用(15)式对浊音帧信号s(n)进行线性滤波，由此得到可懂度提升的语音帧信号。

需要注意的是，以上根据提升因子以及第一线性预测系数的相关性而根据式(13)修改第一线性预测系数仅仅是一种示例，本领域技术人员可以根据需要选择适当的方法来修改第一线性预测系数，只要能实现共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿的技术效果即可。

根据本发明实施例，考虑到语音帧的共振峰仅在浊音帧中出现，因此在步骤110之前，本发明实施例的方法可以包括判断语音帧是否为浊音帧的过程，仅在语音帧为浊音帧的情况下，才根据本发明实施例的方法对语音帧进行处理，而在语音帧为清音帧的情况下，直接输出，以节省处理资源，提高处理效率。

根据本发明实施例，在步骤110之前，可以对语音帧信号进行预加重，例如根据式(16)进行预加重：

H(z)＝1-0.95z^-1 (16)

在此情况下，对输入的语音帧进行可懂度提升之后，还要进行相反的处理，以消除预加重的影响。

根据本发明实施例的方法，在一种具体的应用中，本发明实施例的语音增强方法的效果可以从图2至图4看出。

图2是采用现有技术的级联方案以及采用本发明实施例的语音增强方法处理过的浊音帧的LPC谱。从图2可以看出，经过本发明的语音增强方法处理的浊音帧的LPC谱得到普遍增强，不仅仅包括共振峰能量的增强。

图3是浊音帧经过级联方案和本发明实施例的语音增强方法处理后在频域的比较，其中图3(a)是原始语音，图3(b)是原始语音经过级联方案处理后的频率分布，图3(c)是级联后的语音经过本发明实施例的语音增强方法处理后的频率分布。从图3(b)与3(c)的比较可以看出，经过本发明实施例的语音增强方法处理之后，原始语音中的中高频分量得到明显的补偿。

图4是原始语音、级联处理后的语音以及根据本发明实施例的方法处理后的语音的DRT得分。在图4中，O表示原始语音，I表示经过一次级联处理后的语音；II表示经过二次级联处理后的语音帧；III表示经过三次级联处理后的语音帧，eII表示根据本发明实施例的方法对二次级联后的语音帧进行处理，eIII表示根据本发明实施例的方法对三次级联后的语音帧进行处理。比较III和eIII，可以看出，经过本发明实施例的方法处理后，DRT最高可提升6.26％。

另外，根据本发明实施例的方法，计算过程简单、鲁棒性好。由于利用了语音各个频率之间的相关性，故能很好地解决现有技术在处理畸变共振峰增强或是共振峰信息丢失的不足，且能很好的恢复由于不同网络融合而丢失的高频成份。

图5是本发明实施例的语音增强设备200的示意结构图。语音增强设备可以用来实施本发明实施例的方法。如图2所示，语音增强设备200包括：

获取模块210，用于获取浊音帧信号的M个第一线性预测系数，其中M是线性预测滤波器的阶数；

处理模块220，用于获取提升因子，其中，所述提升因子根据所述M个第一线性预测系数对应的短时谱包络中频率之间的相关性得到；

合成模块230，根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数，使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与所述M个第一线性预测系数所对应的第一短时谱包络相比，共振峰能量得到增强并且中高频频谱分量得到一定程度的补偿。

根据本发明实施例，所述获取模块210用于根据所述浊音帧的自相关函数，利用莱文森-杜宾递推算法来计算所述第一线性预测系数。

根据本发明实施例，所述处理模块用于根据上述式(10)-(12)计算所述提升因子。

根据本发明实施例，所述合成模块用于利用上述式(13)修改所述第一线性预测系数，以获得所述第二线性预测系数。

如图6所示，根据本发明实施例，语音增强设备200还包括滤波模块240，用于根据所述第二线性预测系数对所述浊音帧信号进行线性滤波。

如图6所示，根据本发明实施例，语音增强设备200还包括预加重模块250，用于在所述获取模块获取浊音帧信号的M个第一线性预测系数之前，利用上述式(16)对所述浊音帧信号预加重。

根据本发明实施例，所述获取模块可以用于判断语音帧是否为浊音帧，仅在语音帧为浊音帧的情况下，才根据本发明实施例的方法对语音帧进行处理，而在语音帧为清音帧的情况下，直接输出，以节省处理资源，提高处理效率。

本领与技术人员应该理解，根据本发明实施例的语音增强设备200可以利用各种硬件设备例如数字信号处理(Digital Signal Processing，简称DSP)芯片来实现，其中所述的获取模块210、处理模块220、合成模块230以及滤波模块240，可以各自分别基于分开的硬件设备来实现，也可以集成在一个硬件设备中来实现。

图7是用来实现本发明实施例的语音增强设备200的一种示意硬件结构700。如图7所示，该硬件结构700包括DSP芯片710、存储器720和接口单元730。DSP芯片710可以用来实现本发明实施例的语音增强设备200的处理功能，包括完成获取模块210、处理模块220、合成模块230以及滤波模块240全部的处理功能。存储器720可以用来存储待处理的浊音帧信号以及处理过程的中间变量以及经过处理的浊音帧信号等。接口单元730可以用来与下级设备进行数据传输。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语音增强方法，其特征在于，包括：

根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数，使得修改后得到的M个第二线性预测系数所对应的第二短时谱包络与所述M个第一线性预测系数所对应的第一短时谱包络相比，共振峰得到增强并且中高频频谱分量得到一定程度的补偿。

2.如权利要求1所述的方法，其特征在于，

所述获取浊音帧信号的M个第一线性预测系数，包括：

根据所述浊音帧的自相关函数，利用莱文森-杜宾递推算法来计算所述第一线性预测系数。

3.如权利要求1所述的方法，其特征在于，

所述获取提升因子，包括：根据以下公式计算提升因子：

x_i＝|α_i|-((int)(|α_i|/2π)×2π)，i＝1，2..M

在α_i≥0时

{flag}_{i} = \{\begin{matrix} - 1; & x_{i} > π \\ 1; & x_{i} < π \\ 0; & x_{i} = π \end{matrix}

在α_i＜0时

{flag}_{i} = \{\begin{matrix} - 1; & x_{i} < π \\ 1; & x_{i} > π \\ 0; & x_{i} = π \end{matrix}

f = \sqrt{\frac{(Σ_{i = 1}^{M} ({flag}_{i} - μ))}{M}}

其中，α_i为所述第一线性预测系数，x_i为归一化的第一线性预测系数，flag_i为正弦模型取值，μ为α_i的均值，M为线性预测的阶数，f为所述提升因子。

4.如权利要求1至3任一项所述的方法，其特征在于，

所述根据所述提升因子以及所述M个第一线性预测系数之间的相关性修改所述M个第一线性预测系数，包括：

利用以下公式修改所述第一线性预测系数，以获得所述第二线性预测系数：

β_{j}^{(i)} = α_{j}^{(i - 1)} - {fα}_{i - j}^{(i - 1)}

j＝1，...，i-1

其中，i为M阶线性预测滤波器中第i阶系数；

为第一线性预测系数，表示第i阶线性预测滤波器的第j个线性预测系数；f为提升因子；

为第二线性预测系数，表示第i阶线性预测滤波器的第j个线性预测系数。

5.如权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

根据所述第二线性预测系数对所述浊音帧进行线性滤波。

6.如权利要求1至5任一项所述的方法，其特征在于，

在所述获取浊音帧信号的M个第一线性预测系数之前，所述方法还包括：

利用下式对所述浊音帧信号预加重：

H(z)＝1-0.95z^-1。。

7.一种语音增强设备，其特征在于，所述设备包括：

8.如权利要求7所述的设备，其特征在于，

所述获取模块用于根据所述浊音帧的自相关函数，利用莱文森-杜宾递推算法来计算所述第一线性预测系数。

9.如权利要求7所述的设备，其特征在于，

所述处理模块用于根据以下公式计算所述提升因子：

x_i＝|α_i|-((int)(|α_i|/2π)×2π)，i＝1，2...M

在α_i≥0时

{flag}_{i} = \{\begin{matrix} - 1; & x_{i} > π \\ 1; & x_{i} < π \\ 0; & x_{i} = π \end{matrix}

在α_i＜0时

{flag}_{i} = \{\begin{matrix} - 1; & x_{i} < π \\ 1; & x_{i} > π \\ 0; & x_{i} = π \end{matrix}

f = \sqrt{\frac{(Σ_{i = 1}^{M} ({flag}_{i} - μ))}{M}}

10.如权利要求7至9任一项所述的设备，其特征在于，

所述合成模块利用以下公式修改所述第一线性预测系数，以获得所述第二线性预测系数：

β_{j}^{(i)} = α_{j}^{(i - 1)} - {fα}_{i - j}^{(i - 1)}

j＝1，...，i-1 (5)

其中，i为M阶线性预测滤波器中第i阶系数；

11.如权利要求7至10任一项所述的设备，其特征在于，所述设备还包括：

滤波模块，用于根据所述第二线性预测系数对所述浊音帧信号进行线性滤波。

12.如权利要求7至10任一项所述的设备，其特征在于，所述设备还包括：

预加重模块，用于在所述获取模块获取浊音帧信号的M个第一线性预测系数之前，利用下式对所述浊音帧信号预加重：

H(z)＝1-0.95z^-1 。