CN104810023B

CN104810023B - 一种用于语音信号增强的谱减法

Info

Publication number: CN104810023B
Application number: CN201510268387.3A
Authority: CN
Inventors: 孙昊; 齐立萍; 杨鹏; 陈萌; 王硕朋; 王月英
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2015-05-25
Filing date: 2015-05-25
Publication date: 2018-06-19
Anticipated expiration: 2035-05-25
Also published as: CN104810023A

Abstract

本发明一种用于语音信号增强的谱减法，涉及语音增强技术领域，步骤是：被减项加权值处理；功率谱修正处理；得出基于修正参数的改进谱减法公式；自动控制最优参数选择；平滑处理。本发明是一种基于参数自适应的改进谱减法，克服了采用现有的谱减法增强处理后的信号会残留比较多的噪声的缺陷。

Description

一种用于语音信号增强的谱减法

技术领域

本发明的技术方案涉及语音增强技术领域，具体地说是一种用于语音信号增强的谱减法。

背景技术

语音信号无法避免地会受到来自周遭环境和传输媒介带来的噪声，通信设备内部的电噪声，甚至说话人自身的干扰。所以，必须在语音信号应用系统前端加入语音增强环节，对信号进行去噪预处理，从而增强系统的抗干扰能力。

语音增强技术是语音信号处理中的核心技术之一。语音增强，就是通过消除背景噪声从而提高信噪比，进而可以提高语音信号的清晰度、可懂度以及舒适度。

语音增强的目的是提高语音质量，这就需要在降噪和语音失真之间找到一个最好的权衡点。许多学者提出了语音增强的方法。EMD算法是把信号分解为基本模式分量之和，当满足终止条件时，分解结束，达到了一定的增强效果。但是由于IMF定义十分严格，导致分解次数增多从而分解复杂度大幅度提升。2013年,Hadi Veisi和Hossein Sameti将HMM应用在Mel频域来增强语音,提出了平行的倒谱和谱模型来改善语音从频域到Mel频域引起的失真,该方法对非平稳噪声干扰下的语音增强效果很好,但是该方法复杂度较高。

在语音增强领域，基本谱减法是一经典方法，计算量小，容易实现且便于实时处理。基本谱减法最初由美国学者Steven Boll于提出,主要思想是利用人耳对于信号相位的不敏感特点，用带噪语音的相位代替纯净语音相位。通过用带噪语音信号的频谱减去噪声的频谱，将两者相减的结果当成是增强后的信号频谱，然后与带噪语音信号的相位结合，最终得到增强后的信号。基本原理如下：

其中，Y(ω)代表带噪语音信号，λ_n(ω)代表噪声段的统计平均值，代表增强后语音信号。

基本谱减法的基本原理是假设加性噪声信号和语音信号独立性的前提下，将带噪语音的频谱与噪声信号的频谱作差，最终获得增强后语音信号的频谱。谱减法突出的优点是算法计算量比较小，运算量比较低，计算复杂度很低，并且适用于实时处理的场景。但是，现有的谱减法技术仍然存在如下的不足：采用现有的谱减法增强处理后的信号会残留比较多的噪声，因为有一定的节奏感，所以又称为“音乐噪声”。在估计噪声谱的过程中,信息估计是有误差的，这是产生音乐噪声的主要原因。产生“音乐噪声”的元音与噪声信号的特点有关，因为其符合高斯分布，幅度随机变化的范围较宽。所以当引用无语音期间噪声统计方差表示噪声时，会残留一部分较大的噪声，在频谱上表现为随机凸起。

发明内容

本发明所要解决的技术问题是：提供一种用于语音信号增强的谱减法，是一种基于参数自适应的改进谱减法，克服了采用现有的谱减法增强处理后的信号会残留比较多的噪声的缺陷。

本发明解决该技术问题所采用的技术方案是：一种用于语音信号增强的谱减法，步骤如下：

第一步，被减项加权值处理：

在进行噪声谱相减时，减去β|λ_n(ω)|²，β＞1，经过如此被减项加权值处理得到改进后的谱减法公式如下：

其中，代表增强后语音信号，Y(ω)代表带噪语音信号，λ_n(ω)代表噪声段的统计平均值，β代表谱减噪声系数，β>1；

第二步，功率谱修正处理：

结合功率谱减法中频谱的平方计算与幅度谱减法中频谱的一次方计算，将其改进为由系数灵活控制的|·|^α以及|·|^1/α，经过如此功率谱修正处理得出修正后的功率谱为：

其中，代表增强后语音信号，Y(ω)代表带噪语音信号，λ_n(ω)代表噪声段的统计平均值，α代表谱减功率修正系数；

第三步，得出基于修正参数的改进谱减法公式：

结合以上第一步的被减项加权值处理和第二步的功率谱修正处理方法，得出基于修正参数的改进谱减法公式如下：

其中，代表增强后语音信号，Y(ω)代表带噪语音信号，λ_n(ω)代表噪声段的统计平均值，α表示谱减功率修正系数，β代表谱减噪声系数；

第四步，自动控制最优参数选择：

在不同的带噪信号输入信噪比SNR_i条件下，首先以增强后语音信号的信噪比SNR_o为输出，以变化的谱减功率修正系数α和谱减噪声系数β为输入，改变输入参数值，自动控制选择使得输出达到增强后语音信号的信噪比的最优值SNR_oB时的输入最优参数为α_B和β_B，并且将选择的最优参数α_B和β_B与此时的带噪语音输入信噪比SNR_i相匹配，应用时，则通过计算带噪信号的输入信噪比SNR_i，控制语音增强系统中最优参数α_B和β_B的选择，自动控制最优参数选择的系统公式如下：

其中，α_B表示最优谱减功率修正系数，β_B表示最优谱减噪声系数，SNR_i表示与最优参数匹配的输入信噪比，SNR_o表示增强后的输出信噪比；

第五步，平滑处理：

通过对比原始语音波形，带噪语音波形以及增强语音波形，发现增强语音波形虽然已经十分接近纯净语音波形，进一步通过对增强后的语音进行时域内的平滑处理，选取五点三次的平滑处理方法如下：

五点三次平滑处理结合所求点周围采样点的幅度值对所求点幅度进行加权修正，最终实现信号波形的平滑去噪，平滑处理公式表示：

式中，y表示平滑处理后数据，x表示原采样数据，m表示数据点数，N表示平均的点数，h表示权值因子，其中加权平均因子满足：

五点三次的平滑处理方法是通过运用最小二乘法原理对采样数据进行三次最小二乘多项式平滑处理，五点三次平滑法的公式如下:

式中：i＝3，4，…，m-2，

通过上述对增强后的语音进行时域内的平滑处理，使得增强后的语音与纯净语音具有更进一步的相似性；

上述步骤中所用到的硬件设备包括供电设备、麦克风、数据采集卡和PC上位机。

上述一种用于语音信号增强的谱减法，所述以增强后语音信号的信噪比SNR_o为输出，以变化的谱减功率修正系数α和谱减噪声系数β为输入，改变输入参数值，自动控制选择使得输出达到增强后语音信号的信噪比的最优值SNR_oB时的输入最优参数为α_B和β_B的过程，是通过绘制输出信噪比SNR_o、谱减功率修正系数α和谱减噪声系数β的三维曲线图，从中寻找最大值的坐标值实现的，具体方法如下：

带噪信输入信噪比SNR_i取值范围-15dB-20dB，当谱减功率修正系数α和谱减噪声系数β变化时，增强后语音信号的信噪比SNR_o随之变化，其中，x轴、y轴和z轴分别代表谱减功率修正系数α、谱减噪声系数β以及增强后的输出信噪比SNR_o，由所作的三维曲线图可得，当α和β变化时，存在一组α_B和β_B，使得SNR_o取得最大值SNR_oB，此α_B和β_B即为最优参数。

本发明的有益效果是：与现有的谱减法相比，本发明具有的突出的实质性特点和显著进步如下：

(1)本发明在基本谱减法原理基础上，提出了基于参数自适应的改进谱减法，引进被减项权值处理与功率谱修正处理，以增强后语音信号的信噪比为输出，以变化的谱减功率系数和谱减噪声系数为输入，自动控制选择最优参数，并且将其与带噪语音输入信噪比相匹配。对信号进行语音增强时，通过计算其输入信噪比，利用最优参数曲线得到最优参数值，然后结合平滑处理的过程实现语音增强最大化。这种处理使得改进后的谱减法具有了更好的适应性。

(2)通过参数自适应的方法，引入最优参数的控制，实现了谱减功率修正系数和谱减噪声系数的优化，如此的改进方式，首先能够更好地显现语音信号谱，并且抑制背景噪声，提高增强算法的降噪性能；其次，在语音信号谱中宽带噪声残留变少，在人耳感知上能够更好的掩蔽背景噪声，克服了采用现有的谱减法增强处理后的信号会残留比较多的噪声的缺陷。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明谱减法步骤示意框图。

图2为本发明谱减法所用硬件设备连接图。

图3为本发明谱减法中的输出信噪比SNR_o、谱减功率修正系数α和谱减噪声系数β的参数选择三维曲线图。

图4为本发明谱减法中的最优参数拟合曲线图。

图5(a)为原始的带噪语音波形图。

图5(b)为采用幅度谱减法增强后语音波形图。

图5(c)为采用功率谱减法增强后语音波形图。

图5(d)为采用本发明谱减法增强后语音波形图。

图6(a)为原始的带噪语音语谱图。

图6(b)为采用幅度谱减法增强后语音语谱图。

图6(c)为采用功率谱减法增强后语音语谱图。

图6(d)为采用本发明谱减法增强后语音语谱图。

图7为三种谱减法输出信噪比的变化曲线图。

图中，1.供电设备，2.麦克风，3.数据采集卡，4.PC上位机。

具体实施方式

图1所示实施例表明，本发明谱减法步骤是：被减项加权值处理→功率谱修正处理→得出基于修正参数的改进谱减法公式→自动控制最优参数选择→平滑处理。

图2所示实施例表明，本发明谱减法所用到的硬件设备主要包括以下几个部分：供电设备1为MC104、麦克风2为北京声望声电技术有限公司生产的MPA201传声器，其直径是1.27cm，数据采集卡3为北京声望声电技术有限公司生产的NI9215A数据采集卡，PC上位机4为2.6GHz酷睿i5平台。所用到的硬件设备之间的连接方式是：供电设备1向其他设备提供电能，麦克风2采集的语音信号经数据采集卡3传递给PC上位机4进行处理。

图3所示实施例显示了本发明谱减法中的输出信噪比SNR_o、谱减功率修正系数α和谱减噪声系数β的参数选择三维曲线。该曲线表明带噪信号输入信噪比SNR_i＝5dB，当谱减功率修正系数α，谱减噪声系数β变化时，增强后语音信号的信噪比SNR_o随之变化。其中，x轴，y轴，z轴分别代表谱减功率修正系数α，谱减噪声系数β以及增强后的输出信噪比SNR_o。由图3可得，当α，β变化时，存在一组α_B和β_B，使得SNR_o取得最大值SNR_oB。

本实施例选择的带噪信号输入信噪比SNR_i取值范围-15dB-20dB，范围足够大。经过大量的实验仿真，得到当带噪信号输入信噪比SNR_i变化时，最优参数α_B和β_B的数据变化。表1为最优参数α_B，β_B与输入信噪比SNR_i的匹配表，其中给出部分数据。

表1.最优参数α_B，β_B与输入信噪比SNR_i的匹配表

由上表可得，当输入信噪比发生变化时，最优参数α_B和β_B呈现出一定的规律变化，但是无法用简单的关系式来表达输入信噪比SNR_i与最优谱减功率修正系数α_B，以及输入信噪比与最优谱减噪声系数β_B之间的关系。

图4所示实施例显示了本发明谱减法中的最优参数拟合曲线。采用曲线拟合，建立输入信噪比SNR_i与最优参数α_B和β_B的关系式。根据对各种数学模型拟合后的性能分析，综合考虑误差平方和SSE以及应用时计算量大小，最终采用四阶多项式作为输入信噪比与最优参数α的数学关系式。

四阶多项式曲线拟合模型为：

f(x)＝p₁x⁴+p₂x³+p₃x²+p₄x+p₅

上式中p₁，p₂，p₃，p₄，p₅为多项式系数，通过对多项式系数的调整，选择最优的数学模型。

得到输入信噪比SNR_i与最优参数α_B的函数关系表示：

α_B＝-1.747*10^-6s⁴+6.703*10^-5s³-5.266*10^-4s²-1.155*10^-2s+2.026

上式中，α_B表示最优谱减功率修正系数，s表示带噪语音信号输入信噪比SNR_i。

同理，得到输入信噪比SNR_i与最优谱减噪声系数β_B的函数关系为：

β_B＝-9.924*10^-7s⁴+1.313*10^-4s³-1.829*10^-3s²-6.771*10^-2s+2.877

上式中，β_B表示最优谱减噪声系数，s表示带噪语音信号输入信噪比SNR_i。

基于四阶多项式曲线拟合模型拟合之后的最优谱减功率修正系数α_B曲线，以及最优谱减噪声系数β_B曲线如图4所示，由图4可以看出，拟合效果比较理想，可以准确表征参数的特征。

图5(a)显示在采样点采集的原始带噪语音波形图，在SNR_i＝0dB噪声条件下，信号音节的端点位置不易辨认。

图5(b)显示原始带噪语音经过幅度谱减法处理之后，残留着一定量的噪声，影响语音质量。

图5(c)显示原始带噪语音经过功率谱减法处理之后，仍有许多波形上的凸起，残留较多噪声。

图5(d)显示，相对于幅度谱减法和功率谱减法而言，原始带噪语音经过本发明谱减法去噪效果最为显著，对语音信号的损失最小，基本恢复了原语音信号。

图6(a)显示在采样点采集的原始带噪语音语谱图，在SNR_i＝0dB时带噪语音信号噪声分布在各个频段，导致语音特征被大幅度淹没。

图6(b)显示原始带噪语音经过幅度谱减法处理之后，仍然残留较大噪声频谱分量。

图6(c)显示原始带噪语音经过功率谱减法处理之后，语音信号仍然不能和噪声很好得分离。

图6(d)显示，相对于幅度谱减法和功率谱减法而言，原始带噪语音经过本发明谱减法处理之后，对于信号性能恢复能力最强，噪声残留最少，语音增强性能最优。

图7显示了三种谱减法输出信噪比的变化曲线图。由图7可以看出，随着输入信噪比的增大，增强算法的输出信噪比随之增大，其中，功率谱减法增强效果最小，幅度谱减法相对较好，本发明谱减法增强效果最好。

本实施例选取的带噪信号输入信噪比全局变化范围为：-15dB～20dB。在不同输入信噪比情况下，用大量仿真实验测试样本语音信号使用基本谱减法和本发明改进后的基于最优参数选择的谱减法的语音增强效果。预处理时，对语音信号加汉明窗，窗长选择winsize＝256，帧间重叠inc＝128。语音数据为录制的语音“河工大”，采样频率fs＝44100Hz。

针对语音增强算法的定性比较之后，下面给出定量分析。表2列出了SNR_i＝0dB，5dB，，10dB，15dB不同信噪比情况下，采用不同增强算法的输出信噪比SNR_o。

表2.不同SNR_i条件下，各种增强算法输出信噪比

实施例

本实施例的一种用于语音信号增强的谱减法步骤如下：

第一步，被减项加权值处理：

在进行噪声谱相减时，减去β|λ_n(ω)|²，β＞1，经过如此被减项加权值处理得到改进后的谱减法公式如下:

第二步，功率谱修正处理：

第三步，得出基于修正参数的改进谱减法公式：

第四步，自动控制最优参数选择：

第五步，平滑处理：

式中：i＝3，4，…，m-2，

本实施例谱减法所用到的硬件设备主要包括以下几个部分：供电设备1为MC104、麦克风2为北京声望声电技术有限公司生产的MPA201传声器，其直径是1.27cm，数据采集卡3为北京声望声电技术有限公司生产的NI9215A数据采集卡，PC上位机4为2.6GHz酷睿i5平台。所用到的硬件设备之间的连接方式是：供电设备1向其他设备提供电能，麦克风2采集的语音信号经数据采集卡3传递给PC上位机4进行处理。

本实施例一种用于语音信号增强的谱减法，所述以增强后语音信号的信噪比SNR_o为输出，以变化的谱减功率修正系数α和谱减噪声系数β为输入，改变输入参数值，自动控制选择使得输出达到增强后语音信号的信噪比的最优值SNR_oB时的输入最优参数为α_B和β_B的过程如上述图3所示实施例。

Claims

1.一种用于语音信号增强的谱减法，其特征在于步骤如下：

第一步，被减项加权值处理：

第二步，功率谱修正处理：

第三步，得出基于修正参数的改进谱减法公式：

第四步，自动控制最优参数选择：

第五步，平滑处理：

式中：i＝3，4，…，m-2，

2.根据权利要求1所述一种用于语音信号增强的谱减法，其特征在于：所述以增强后语音信号的信噪比SNR_o为输出，以变化的谱减功率修正系数α和谱减噪声系数β为输入，改变输入参数值，自动控制选择使得输出达到增强后语音信号的信噪比的最优值SNR_oB时的输入最优参数为α_B和β_B的过程，是通过绘制输出信噪比SNR_o、谱减功率修正系数α和谱减噪声系数β的三维曲线图，从中寻找最大值的坐标值实现的，具体方法如下：

带噪信号输入信噪比SNR_i取值范围-15dB-20dB，当谱减功率修正系数α和谱减噪声系数β变化时，增强后语音信号的信噪比SNR_o随之变化，其中，x轴、y轴和z轴分别代表谱减功率修正系数α、谱减噪声系数β以及增强后的输出信噪比SNR_o，由所作的三维曲线图可得，当α和β变化时，存在一组α_B和β_B，使得SNR_o取得最大值SNR_oB，此α_B和β_B即为最优参数。