CN114005457A

CN114005457A - 一种基于幅度估计与相位重构的单通道语音增强方法

Info

Publication number: CN114005457A
Application number: CN202111318155.6A
Authority: CN
Inventors: 仝秋娟; 韩欢; 黄路; 王军
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-01

Abstract

本公开实施例是关于一种基于幅度估计与相位重构的单通道语音增强方法。该方法包括：将带噪语音信号通过维纳滤波法进行预处理，以减少所述带噪语音信号的幅度谱失真；利用最小值控制的递归函数估计所述带噪语音信号的噪声功率谱，以更加准确地恢复所述带噪语音信号的幅度谱；重构所述带噪语音信号的相位谱，以改善因相位信息不准确估计而造成的失真问题；将重构的相位谱与估计的噪声功率谱相结合，以生成纯净的语音信号。本公开实施例在幅度估计过程中，利用最小值控制的递归函数方法跟踪并估计噪声功率谱，同时重构带噪语音的相位谱使其更接近纯净语音相位谱，最后生成时域增强信号，以达到最终提升语音质量与可懂度的目的。

Description

一种基于幅度估计与相位重构的单通道语音增强方法

技术领域

本公开实施例涉及语音信号处理技术领域，尤其涉及一种基于幅度估计与相位重构的单通道语音增强方法。

背景技术

语音在传输过程中不可避免地会受到周围环境以及通信设备内部噪声的干扰，这往往会影响接受者的感知以及后续信号的处理，因此需要语音增强技术来对带噪信号进行预处理。语音增强在语音处理如语音识别、语音检测等中起着重要的作用，从确保更少残余噪声和语音信号失真两方面来抑制噪声信号，提高被声学噪声污染的语音质量和可懂度。语音增强的具体解决方案与很多因素密切相关，包括具体的应用场景，干扰噪声类型，噪声与纯净信号的关系如加性还是乘性，麦克风或者传感器的数量等等。语音增强任务主要分为两部分，幅度增强和相位增强。在进行语音增强之前，需对带噪语音进行预处理。当语音较短时，我们可将其视为平稳信号，利用离散傅里叶变换直接将其变换到频域。而当语音信号较长时，我们需对其进行分帧，语音活动检测(VAD，Voice activity detection)以判断该帧是否存在语音，从而对不同帧噪声抑制程度不同。

谱减法(SS，Spectral Subtraction)是最早被提出的基于频域的去噪算法之一，因其低计算复杂度而被广泛应用于语音增强中。其假设噪声为加性噪声，通过傅里叶变换将时域信号转换到频域，利用无声帧的噪声功率谱表示整个噪声的功率谱，从而从带噪语音谱中减去对噪声谱的估计，恢复出干净信号。但该方法首先不能更新噪声功率谱，导致整个语音段噪声功率谱不能被准确估计，导致增强后的信号幅度谱估计不准确。其次，该方法利用带噪语音信号的相位，在高信噪比(SNR，SIGNAL-NOISE RATIO)条件下对语音影响较小，在信噪比较低时，会造成增强信号失真。最后，不能很好地控制噪声被抑制的程度。若被减的噪声幅度谱不能被控制在合理范围内，这种方法就会引起信号失真，如保留噪声太多以致未达到所需条件、产生更令人困扰的音乐噪声。维纳滤波是最小均方误差意义上的频域增强方法，该方法虽在一定程度上可抑制音乐噪声，但对于原始噪声的消除并不彻底，并且增强后的语音还会产生白噪声。

因此，有必要改善上述相关技术方案中存在的一个或者多个问题。

需要注意的是，本部分旨在为权利要求书中陈述的本公开的技术方案提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

发明内容

本公开实施例的目的在于提供一种基于幅度估计与相位重构的单通道语音增强方法，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

本公开实施例提供一种基于幅度估计与相位重构的单通道语音增强方法，该方法包括：

将带噪语音信号通过维纳滤波法进行预处理，以减少所述带噪语音信号的幅度谱失真；

利用最小值控制的递归函数估计所述带噪语音信号的噪声功率谱，以更加准确地恢复所述带噪语音信号的幅度谱；

重构所述带噪语音信号的相位谱，以改善因相位信息不准确估计而造成的失真问题；

将重构的相位谱与估计的噪声功率谱相结合，以生成纯净的语音信号。

本公开的一实施例中，所述预处理方法为：

根据维纳滤波法通过所述带噪语音信号与期望信号得到增益函数，再将所述增益函数与所述带噪语音信号进行卷积得到增强的时域信号。

本公开的一实施例中，对所述时域信号进行分帧，且根据短时傅里叶变换将所述时域信号变换到频域。

本公开的一实施例中，在所述利用最小值控制的递归函数估计所述带噪语音信号的噪声功率谱过程中，先将所述时域信号通过原有的噪声功率谱与其局部最小值得到语音存在的概率，再通过所述语音存在的概率更新所述原有的噪声功率谱，并得到所述估计的噪声功率谱。

本公开的一实施例中，所述语音存在的概率的计算方法为：

将所述原有的带噪语音功率谱与所述局部最小值之比与一阈值进行比较，得到所述语音存在的概率，其中，所述局部最小值基于最小值统计算法寻找，即将所述原有的带噪语音功率谱进行递归比较，找到最小功率谱。

本公开的一实施例中，所述重构所述带噪语音信号的相位谱方法为：

通过构建加性共轭反对称函数来抵消噪声复频谱，在逆短时傅里叶变换期间，共轭相加在一起产生一个实值信号，通过修改共轭的角度来控制有用信号增强或噪声信号抵消的程度，同时，加性函数亦受信噪比影响，当信噪比不同时，相位补偿的程度也不同，从而改进相位信息。

本公开的一实施例中，将所述时域信号通过离散傅里叶变换方法转换到频域中，用极坐标形式表示频域中的信号，并引入过减因子以及平滑因子，所述过减因子的值通过每一帧信号的信噪比确定。

本公开的一实施例中，在低信噪比情况下，将所述过减因子的值设置较大，为了能够较大程度抑制噪声信号，从而减少音乐噪声，随着所述信噪比的提高，减小所述过减因子的值，防止过度削弱噪声，而造成幅度谱失真。

本公开的一实施例中，将所述估计的噪声功率谱与所述重构相位在频域中合成纯净语音信号，其中，利用最小值控制的递归函数更新的所述估计的噪声功率谱代替原始利用无语音活动时的平均幅度谱估计，利用所述重构相位代替原始带噪信号相位。

本公开的实施例中，通过上述基于幅度估计与相位重构的单通道语音增强方法，在幅度估计过程中，利用最小统计量控制递归平均算法(MCRA，Minimal ControlledRecursive Averaging)跟踪并估计噪声功率谱，同时重构带噪语音的相位谱使其更接近纯净语音相位谱，最后生成时域增强信号，以达到最终提升语音质量与可懂度的目的。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出基于幅度估计与相位重构的单通道语音增强方法流程图。

图2(a)示出干净语音波形图；

图2(b)示出带噪语音波形图；

图2(c)示出CSS增强的语音波形图；

图2(d)示出Wiener增强的语音波形图；

图2(e)示出Wiener+CSS增强的语音波形图；

图2(f)示出本公开方法的增强语音波形图；

图3(a)示出干净语音语谱图；

图3(b)示出带噪语音语谱图；

图3(c)示出CSS增强的语音语谱图；

图3(d)示出Wiener增强的语音语谱图；

图3(e)示出Wiener+CSS增强的语音语谱图；

图3(f)示出本公开方法的增强语音语谱图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开实施例的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

本示例实施方式中首先提供了一种基于幅度估计与相位重构的单通道语音增强方法。参考图1中所示，该基于幅度估计与相位重构的单通道语音增强方法可以包括：步骤S101～步骤S104。

步骤S101：将带噪语音信号通过维纳滤波法进行预处理，以减少所述带噪语音信号的幅度谱失真；

步骤S102：利用最小值控制的递归函数估计所述带噪语音信号的噪声功率谱，以更加准确地恢复所述带噪语音信号的幅度谱；

步骤S103：重构所述带噪语音信号的相位谱，以改善因相位信息不准确估计而造成的失真问题；

步骤S104：将重构的相位谱与估计的噪声功率谱相结合，以生成纯净的语音信号。

通过上述基于幅度估计与相位重构的单通道语音增强方法，在幅度估计过程中，利用MCRA方法跟踪并估计噪声功率谱，同时重构带噪语音的相位谱使其更接近纯净语音相位谱，最后生成时域增强信号，以达到最终提升语音质量与可懂度的目的。

下面，将参考图1对本示例实施方式中的上述基于幅度估计与相位重构的单通道语音增强方法的各个部分进行更详细的说明。

步骤S101：将带噪语音信号通过维纳滤波法进行预处理，以减少所述带噪语音信号的幅度谱失真。

具体的，假设y(n)＝x(n)+s(n)为带噪语音信号，其中x(n)、s(n)分别表示干净语音信号与加性噪声的第n个样本。由于维纳滤波器在抑制存在噪声频率的同时能够保持其他频率不变，我们先将语音信号通过维纳滤波器进行预处理，以减少增强语音的幅度谱失真。

维纳滤波是一种基于均方意义下的最优滤波理论的语音增强算法。假设d(n)是期望信号，输出信号

期望信号与输出信号之间的误差

其中h(n)表示时域系统增益函数。再通过在频域中最小化e(n)的均方值，即E[|E(w)|²]采用下式得到:

E[|E(w)|²＝E{[D(W)-H(w)Y(w)]^*[D(W)-H(w)Y(w)} (1)

利用最小二乘估计法对H(w)求偏导令其为0，求得最优增益函数

在噪声抑制中，假设干净语音信号x(n)和噪声信号s(n)相互独立,且噪声信号服从高斯正态分布，令期望信号d(n)＝x(n)，可得增益函数

其中，P_dy表示期望信号与带噪信号之间的互相关功率谱，P_yy表示带噪语音信号的自相关功率谱。P_xx(w)为干净语音信号的自相关功率谱，P_ss(w)为噪声信号的自相关功率谱。将所得到的增益函数与带噪语音信号进行卷积得到增强的时域信号y₁(n)。

另外，由于大多数语音处理方法对于平稳噪声信号效果较好，非平稳信号在极短时间段内可看成平稳信号，因此我们将带噪语音信号分成N个不重叠的频带，根据短时傅里叶变换(STFT，short-time Fourier transform)将时域信号变换到频域可得Y(λ，k)＝X(λ，k)+S(λ，k)，其中λ，k分别表示帧索引和频率索引。

步骤S102：利用最小值控制的递归函数估计所述带噪语音信号的噪声功率谱，以更加准确地恢复所述带噪语音信号的幅度谱。

具体的，对于噪声功率谱不能被准确估计，我们利用基于最小值控制的递归函数(MCRA)来更新噪声功率谱，旨在更加准确地恢复增强信号的幅度谱。

具体步骤为是：MCRA算法基于以下假设，将频点k处是否存在语音的问题转换成一个检测问题。且在有语音段保持功率谱不变，无语音段进行噪声功率谱估计并将其作为初始估计值：

其中，

和

分别表示频率为k时语音存在和不存在的情况，初始噪声功率谱为

其中，语音存在时，利用MCRA方法更新噪声功率谱，即下式：

噪声估计平滑因子

由频点k上语音存在的概率p(λ，k)决定，0＜α＜1，为加性平滑因子。

S(λ，k)＝α_sS(λ-1，k)+(1-α)S_f(λ，k) (4)

所谓的无语音段是指：

(1)频谱能量趋于零或接近噪声水平。

(2)在有语音存在时，但如请摩擦音期间的低频带以及浊音(鼻音)期间的高频带。

(3)即使是在语音活动期间，带噪语音信号在单个频带的功率通常会衰减到噪声的功率水平，即可看成无声段进行噪声估计。

计算第k个频段的带噪语音功率谱与其局部最小值得到p(λ，k)，局部最小值基于最小值统计算法来寻找，即将平滑后的带噪语音功率谱S(λ，k)进行递归比较，找到最小功率谱S_min(λ，k)。S_f(λ，k)表示第k-1频点平滑的噪声语音功率谱。利用类似于后验信噪比计算方式可得

将S_t(λ，k)与一阈值σ进行比较以判断是否存在语音，具体如下：

利用下式对语音存在的概率p(λ，k)进行时域平滑：

将

用于更新噪声平滑因子，从而可更新噪声功率谱，α_P是噪声功率谱平滑因子。

步骤S103：重构所述带噪语音信号的相位谱，以改善因相位信息不准确估计而造成的失真问题。

具体的，传统算法在语音增强时通常忽略了相位信息的变化，以致在低信噪比条件，造成语音失真。为了改善低信噪比下的语音质量，我们重构带噪信号的相位，使其更接近纯净信号的相位谱。

带噪语音是实值信号，其傅立叶变换是共轭对称的。我们构建加性共轭反对称函数来抵消噪声复频谱，在逆离散短时傅里叶变换(IDSTFT，Inverse Discrete short-timeFourier transform)期间，共轭相加在一起产生一个实值信号，通过修改共轭的角度来控制有用信号增强或噪声信号抵消的程度。

第λ帧信号的信噪比由上式得出，其中b_i和e_i是第i帧频带的开始和结束频段。引入以后验信噪比为指数的指数函数与共轭函数相乘重构相位信息

其中，N是帧长度，p为常数因子。重构函数不仅受共轭函数的控制，当每一帧的信噪比不同时，带噪语音补偿的幅度也不同。由反正切函数获得重构相位谱，其中Im，Re分别表示取向量的虚部以及实部运算。

具体的，将y₁(n)通过STFT方法转换到频域中，用极坐标形式表示频域中的信号

为了减少增强信号中音乐噪声的干扰，我们引入过减因子ε以及平滑因子σ。通过每一帧信号的信噪比确定过减因子的值。

|X₁(λ，k)|²＝σ|Y₁(λ，k)|²-σ·ε|S₁(λ，k)|² (10)

在低信噪比情况下，我们将ε的值设置较大，为了能够较大程度抑制噪声信号，从而减少音乐噪声，但随着信噪比的提高，我们减小ε的值，防止过度削弱噪声，而造成幅度谱|X₁(w)|失真。如果σ＝1，|X₁(λ，k)|²＝|Y₁(λ，k)|²-ε|S₁(λ，k)|²，ε的取值如下式所示，增强信号的幅度谱仅受ε的影响。

若σ取其它值时，幅度谱受平滑因子以及过减因子的影响，ε的取值如下式所示：

最后，将利用MCRA方式估计的噪声功率谱

代替原始利用无语音活动时(例如在语音停顿间隙)的平均幅度谱估计，以及利用重构相位∠Y_∧(n，k)代替原始带噪信号相位，在频域中合成纯净语音信号，可得：

通过上述基于幅度估计与相位重构的单通道语音增强方法，在幅度估计过程中，利用最小值控制的递归函数(MCRA)方法跟踪并估计噪声功率谱，同时重构带噪语音的相位谱使其更接近纯净语音相位谱，最后生成时域增强信号，以达到最终提升语音质量与可懂度的目的。

下面结合具体仿真实例，进一步阐述本实施例。

1.实验设置和评估方法

获取来自于NOIZEUS数据集中受不同噪声干扰的语音信号进行增强，干扰噪声分别是火车噪声还有babble(嘈杂语音)噪声，且分别记为Speech A和Speech B。通过不断调整常数p的值观察实验结果。发现当p＝3时proposed method对于语音恢复效果最好。我们比较了谱减法、维纳滤波法以及所提议的方法。

我们分别采用PESQ以及NCM方法对语音的质量以及可懂度进行客观评价。PESQ能够对客观语音质量评估提供一个主观MOS的预测值，范围在-0.5到4.5之间，取值越接近4.5，表示语音质量越好。NCM评价是基于纯净语音信号与输出信号之间的协方差，取值与主观可懂度成正比。

2.结果分析

从图2(a)～图2(f)可以看出，Wiener增强后的信号虽优于CSS方法，但也并未完全消除背景噪声，并且会造成信号失真。而我们所提议的方法能够更好地消除背景噪声，恢复出纯净语音。图3(a)～图3(f)结果对比发现，图3(e)中谐波得到的更多的保留，且更接近干净语音信号。

表1.不同信噪比评估结果

如表1所示，我们对两种噪声分别比较CSS以及proposed method在不同信噪比下的PESQ值。结果发现，对于train噪声，在低信噪比情况下，proposed method方法相较于CSS，效果提升范围为0.06到0.1。信噪比较高时，proposed method方法相较于CSS，PESQ值可提升0.4。对于babble噪声，在低信噪比情况下PESQ的值可提升2倍，高信噪比时效果可提升0.4到0.5。

表2.分段信噪比(seg_SNR)

在分段信噪比下，我们比较原始带噪语音、CSS方法、所提议方法的PESQ值以及NCM结果。实验表明，相比于带噪语音质量，用CSS方法可以提高大约30％，但所提议方法可以提高42％，因此我们所提出的方法很大程度提高了语音质量。利用NCM测量信号可懂度发现，CSS方法降低了语音的可懂度，而所提议方法对Speech A的信号提升了0.21，对Speech B提升了0.06。

以上评估结果发现：在低信噪比情况下，该方法优于传统方法；当噪声类型不同时，语音增强的效果不同，相较于train噪声，该方法对babble噪声的效果更好。并且无论是语音质量还是可懂度，所提出的方法均优于传统方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种基于幅度估计与相位重构的单通道语音增强方法，其特征在于，该方法包括：

将重构的相位谱与估计的噪声功率谱相结合，以生成增强语音。

2.根据权利要求1所述基于幅度估计与相位重构的单通道语音增强方法，其特征在于，所述预处理方法为：

3.根据权利要求2所述基于幅度估计与相位重构的单通道语音增强方法，其特征在于，对所述时域信号进行分帧，且根据短时傅里叶变换将所述时域信号变换到频域。

4.根据权利要求3所述基于幅度估计与相位重构的单通道语音增强方法，其特征在于，在所述利用最小值控制的递归函数估计所述带噪语音信号的噪声功率谱过程中，先将所述时域信号通过原有的噪声功率谱与其局部最小值得到语音存在的概率，再通过所述语音存在的概率更新所述原有的噪声功率谱，并得到所述估计的噪声功率谱。

5.根据权利要求4所述基于幅度估计与相位重构的单通道语音增强方法，其特征在于，所述语音存在的概率的计算方法为：

6.根据权利要求1所述基于幅度估计与相位重构的单通道语音增强方法，其特征在于，所述重构所述带噪语音信号的相位谱方法为：

7.根据权利要求4所述基于幅度估计与相位重构的单通道语音增强方法，其特征在于，将所述时域信号通过离散傅里叶变换方法转换到频域中，用极坐标形式表示频域中的信号，并引入过减因子以及平滑因子，所述过减因子的值通过每一帧信号的信噪比确定。

8.根据权利要求7所述基于幅度估计与相位重构的单通道语音增强方法，其特征在于，在低信噪比情况下，将所述过减因子的值设置较大，为了能够较大程度抑制噪声信号，从而减少音乐噪声，随着所述信噪比的提高，减小所述过减因子的值，防止过度削弱噪声，而造成幅度谱失真。

9.根据权利要求1所述基于幅度估计与相位重构的单通道语音增强方法，其特征在于，将所述估计的噪声功率谱与所述重构相位在频域中合成所述增强语音，其中，利用最小值控制的递归函数更新的所述估计的噪声功率谱代替原始利用无语音活动时的平均幅度谱估计，利用所述重构相位代替原始带噪信号相位。