CN114038475A

CN114038475A - 一种基于语谱补偿的单通道语音增强系统

Info

Publication number: CN114038475A
Application number: CN202111307973.6A
Authority: CN
Inventors: 范存航; 吕钊
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-11

Abstract

本发明公开了一种基于语谱补偿的单通道语音增强系统，包括预增强模块，语谱补偿模块和联合训练模块；所述预增强模块，用于去除语音中的部分干扰信号；所述语谱补偿模块，与所述预增强模块相连接，用于获取语谱补偿的权重矩阵，利用该权重矩阵对预增强的语谱和原始输入的语谱进行融合；所述联合训练模块，与预增强模块和语谱补偿模块相连接，用于联合训练和优化预增强模块与语谱补偿模块。本发明的基于语谱补偿的单通道语音增强系统，具有能够在嘈杂的背景环境中保持增强后的语音有较高的音质、语音清晰、可懂等优点。

Description

一种基于语谱补偿的单通道语音增强系统

技术领域

本发明涉及测距技术领域，特别是涉及一种基于语谱补偿的单通道语音增强系统。

背景技术

语音作为人类交流信息的主要手段之一，语音增强一直在语音信号处理中占据着重要的地位。语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。

实际语音遇到的干扰可以分以下几类：①周期性噪声，例如电气干扰，发动机旋转部分引起的干扰等，这类干扰表现为一些离散的窄频峰；②冲激噪声，例如-些电火花、放电产生的噪声干扰；③宽带噪声，这是指高斯噪声或白噪声一类的噪声，它们的特点是频带宽，几乎覆盖整个语音频带；④语音干扰，例如话筒中拾入其它人的说话，或者传输时遇到串音引起的语音。对付上述各种不同类型的噪声，增强技术亦是不一样的。

语音增强技术的目标是从嘈杂的环境中，将目标干净语音分离出来，去除背景干扰噪声。当一段语音中含有背景噪音，会严重影响语音识别、说话人识别和助听器等系统的性能，因此语音增强技术就显得尤其重要。

在语音增强技术的发展过程中，早期的研究主要是采用基于谱减法、维纳滤波和基于统计的方法等。但是，这些方法对于非平稳噪声效果十分有限，因此也制约着这些方法的应用。近年来，随着计算机技术的发展，基于深度学习的语音增强方法得到了很大的发展，受到了越来越多人的关注。

基于深度学习的语音增强方法利用大量成对的带噪-干净语音数据训练语音增强模型，建立带噪语音特征参数和目标干净语音信号特征参数之间的映射关系，这样对于任意输入的带噪语音信号都可以通过建立的增强模型来输出降噪后的语音信号，从而达到语音增强的目的。采用基于深度学习建模的语音增强方法与传统的方法具有很多优点，比如利用深度学习强大的建模能力，可以很好的学习到带噪语音和目标语音信号之间的映射关系。但是，对于语音增强来说，其最大的问题是增强后的语音存在失真问题。语音失真会丢失很多十分重要的语音信息，严重影响增强后的语音感知质量和可懂度，制约着语音增强的性能。

发明内容

本发明所要解决的技术问题是提供一种基于语谱补偿的单通道语音增强系统，以在嘈杂的背景环境中获得清晰、可懂、音质更好的语音。

为解决上述技术问题，本发明采用如下的技术方案。

一种基于语谱补偿的单通道语音增强系统，包括预增强模块，语谱补偿模块和联合训练模块；

所述预增强模块，用于去除语音中的部分干扰信号；

所述语谱补偿模块，与所述预增强模块相连接，用于获取语谱补偿的权重矩阵λ，利用该权重矩阵λ对预增强的语谱和原始输入的语谱进行融合；

所述联合训练模块，与预增强模块和语谱补偿模块相连接，用于联合训练和优化预增强模块与语谱补偿模块。

本发明的基于语谱补偿的单通道语音增强系统，其结构特征还在于：

优选地，所述预增强模块为利用深度神经网络训练的语音分离系统。

优选地，所述预增强模块的输出包括预增强的掩蔽值

优选地，通过所述掩蔽值

计算得到估计的目标干净语音的幅值谱

优选地，所述语谱补偿模块利用预增强模块产生的输入获得权重矩阵λ。

优选地，根据所述权重矩阵λ计算获得最终语谱补偿后的语谱

优选地，根据最终语谱补偿后的语谱

计算获得时域上的增强后的语音信号

优选地，所述语谱补偿模块的输入包括预增强目标函数

优选地，所述语谱补偿模块的输入包括语谱补偿目标函数J_SI-SNR。

优选地，根据所述预增强目标函数

和所述语谱补偿目标函数J_SI-SNR计算总的训练目标函数J的计算公式为：

其中，α表示预增强模块和语谱补偿模块的权重。

本发明的有益效果是：

本发明的一种基于语谱补偿的单通道语音增强系统，包括预增强模块，语谱补偿模块和联合训练模块；所述预增强模块，用于去除语音中的部分干扰信号；所述语谱补偿模块，与所述预增强模块相连接，用于获取语谱补偿的权重矩阵，利用该权重矩阵对预增强的语谱和原始输入的语谱进行融合；所述联合训练模块，与预增强模块和语谱补偿模块相连接，用于联合训练和优化预增强模块与语谱补偿模块。

本发明基于语谱补偿的单通道语音增强系统具有以下有益效果：

(1)本发明中，在预增强模块，利用深度神经网络对于包含噪声的语音进行预增强，以去除大部分的背景噪声，从而实现对输入语音信号预增强的目的；

(2)本发明中，由于预增强模块会产生语音失真进而丢失重要的语音信息，为了找回丢失的信息解决语音失真的问题，在语谱补偿模块，首先估计出语谱补偿的权重矩阵，利用该矩阵对预增强的语谱和原始输入的语谱进行融合，进而实现语谱补偿并对预增强的语音进一步增强的作用；

(3)本发明中，在联合训练模块，采用联合优化预增强模块与语谱补偿模块，可以在保证预增强性能的同时提升谱补偿后语音的质量。因此，分离后的语音比单独基于深度学习的方法更加清晰、可懂，音质更好。

本发明的基于语谱补偿的单通道语音增强系统，具有能够在嘈杂的背景环境中保持增强后的语音有较高的音质、语音清晰、可懂等优点。

附图说明

图1是本发明的基于语谱补偿的单通道语音增强系统的结构示意图；

图2是本发明的基于语谱补偿的单通道语音增强系统中预增强模块的结构示意图；

图3是本发明的基于语谱补偿的单通道语音增强系统中语谱补偿模块的结构示意图；

图4是本发明的基于语谱补偿的单通道语音增强系统中联合训练模块的结构示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，，使本发明的目的、技术方案和优点更加清楚明白，使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号。且在附图中，以简化或是方便标示。再者，附图中未绘示或描述的实现方式，为所属技术领域中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。

如图1-4，本发明的一种基于语谱补偿的单通道语音增强系统，包括预增强模块，语谱补偿模块和联合训练模块；

所述预增强模块，用于去除语音中的部分干扰信号；

所述预增强模块为利用深度神经网络训练的语音分离系统。

所述预增强模块的输出包括预增强的掩蔽值

通过所述掩蔽值

计算得到估计的目标干净语音的幅值谱

首先利用预增强模块对带噪语音进行预增强以去除大部分的背景噪声，由于语音失真会丢失很多语音信息，利用语谱补偿模块对预增强的语音和原始输入语音进行语谱补偿，最后利用联合优化方法进一步提高语音增强的音质和可懂度。

预增强模块是去除大部分的干扰信号起到预增强的作用，利用深度神经网络训练得到。预增强模块的输出包括两部分：预增强的掩蔽值

和语谱补偿模块的输入。然后利用原始输入语音的幅值谱与预增强的掩蔽值

相乘就可以得到估计的目标干净语音的幅值谱

在估计的幅值谱和真实的幅值谱之间计算均方误差作为训练目标函数。

如图2是基于语谱补偿的单通道语音增强系统的预增强模块的结构示意图。图2中预增强模块，对输入的带噪语音信号进行短时傅里叶变换，将时域信号变换到频域信号，然后对其进行建模。其中，预增强模块是去除大部分的干扰信号起到预增强的作用，利用深度神经网络训练得到，其输出包括两部分：预增强的掩蔽值

和语谱补偿模块的输入h_in，见下式(1)。

其中，|Y(t，f)|表示输入带噪语音的幅值谱，t和f分别为输入语音的帧数和频率块数；f_DNN(*)代表基于深度神经网络的映射函数。为了表述方便，下文中我们将(t，f)省去。

得到预增强的掩蔽值

可以通过掩蔽值

与原始输入语音的幅值谱|Y|点乘得到预增强后语音的幅值谱

见下式(2)。

其中，⊙表示点乘符号。

对于预增强模块，其训练目标函数

为计算预增强语音与目标干净语音幅值谱之间的均方误差，见下式(3)。

其中，TF表示时频单元的数目，

表示平方Frobenius范数。

所述语谱补偿模块利用预增强模块产生的输入获得权重矩阵λ。

根据所述权重矩阵λ计算获得最终语谱补偿后的语谱

根据最终语谱补偿后的语谱

计算获得时域上的增强后的语音信号

基于语谱补偿模块，与所述预增强模块连接，主要用于解决预增强模块由于语音失真产生的信息丢失问题。首先利用预增强模块产生的输入为每一个时频单元估计语谱补偿的权重矩阵λ；因为原始输入的语谱没有信息丢失，因此根据该权重矩阵λ，对预增强语音特征和原始输入语音特征进行线性加权进而实现语谱补偿找回因语音失真丢失的语音信息，进一步增强预增强的语音，提升语音增强的性能。

利用语谱补偿后的幅值谱作为最终增强后的特征。接着，利用原始输入语音的相位谱与语谱补偿后的幅值谱进行逆傅里叶变换获得时域上的增强语音。最后，通过计算时域上的增强语音与目标干净语音信号之间的尺度不变的信噪比(SI-SNR)作为该模块的目标函数，去最大化SI-SNR。

图3是基于语谱补偿的单通道语音增强系统的语谱补偿模块的结构示意图，其与所述预增强模块相连接，用于弥补因语音失真带来的信息丢失问题，预增强模块首先将输入的h_in通过深度神经网络获取深层表示h_mend，见下式(4)。

h_mend＝f_DNN(h_in) (4)

然后，对深层表示h_mend进行Sigmoid操作，以获取得到语谱补偿的权重矩阵λ，见下式(5)。

其中，σ表示Sigmoid激活函数。

将λ作为预增强谱的权重矩阵，1-λ作为原始输入语谱的权重矩阵，那么可以通过下面的公式(6)得到最终语谱补偿后的语谱

见下式(6)。

最后，利用增强后的谱特征

与原始带噪相位谱Φ_y进行逆傅里叶变换ISTFT得到时域上的增强后的语音信号

见下式(7)。

对于，语谱补偿模块的训练目标我们直接定义在时域语音信号上，以尺度不变的信噪比(SI-SNR)作为目标函数J_SI-SNR，见下式(8)、(9)和(10)。

其中，x_taget表示目标信号，x为目标干净语音信号，

表示误差信号，||x||²＝<x，x>表示信号的能量。

所述语谱补偿模块的输入包括预增强目标函数

所述语谱补偿模块的输入包括语谱补偿目标函数J_SI-SNR。

根据所述预增强目标函数

其中，α表示预增强模块和语谱补偿模块的权重。

联合训练模块用于联合优化各个模块，包括：预增强模块和语谱补偿模块。预增强模块的目标函数和语谱补偿模块的目标函数以一定的权重进行线性组合作为最终的目标函数。

图4是基于语谱补偿的单通道语音增强系统的联合训练模块的结构示意图。其与预增强模块和语谱补偿模块相连接，用于联合优化各个模块。总的训练目标函数J见上式(11)。

其中，α表示预增强模块和语谱补偿模块的权重。最终，通过联合训练的方式优化整个语音增强系统。

综上，利用

作为整个语音增强系统最终的输出。

首先训练一个基于深度学习的语音分离系统作为预增强模块，用于用于对输入的带噪语音进行预增强，去除大部分的噪声信号。

语谱补偿模块，与预增强模块相连，用于获取语谱补偿的权重矩阵，对预增强的语音进行语谱补偿。利用该权重矩阵对预增强的语谱和原始输入的语谱进行融合，进而实现语谱补偿并对预增强的语音进一步增强的作用，找回因语音失真问题丢失的语音信息。

联合训练模块，用于联合训练和优化预增强模块和语谱补偿模块。

本发明利用预增强和语谱补偿对输入的带噪语音进行建模，使得增强后的语音更加保真，感知质量和可懂度更高，提高了语音增强系统的性能。

本发明基于语谱补偿的单通道语音增强系统中，构建基于深度学习的预增强模块，对输入的带噪语音进行预增强从而去除大部分的噪声信号，为了解决语音失真问题，我们利用语谱补偿模块对预增强的语音和原始输入语音进行融合，进而找回因失真丢失的语音信息，最后利用联合优化方法进一步提升语音增强模型的性能。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。