CN112581973A

CN112581973A - 一种语音增强方法及系统

Info

Publication number: CN112581973A
Application number: CN202011364900.6A
Authority: CN
Inventors: 康迂勇; 郑能恒
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-30
Anticipated expiration: 2040-11-27
Also published as: CN112581973B

Abstract

本发明公开了一种语音增强方法及系统，方法包括：构建的语音增强网络模型包含两个并行模块：预测自适应权重模块根据输入特征判断信噪比从而通过权重调节语音失真和残留噪声的占比；预测时频掩模模块根据输入特征估计出用于抑制噪声的时频掩模。通过训练网络可以获得根据信噪比自适应的调节增强语音中的语音失真和残留噪声的比重，利用训练好的网络模型用于实际的降噪任务，得到增强的语音信号。本发明使用神经网络自适应调节增强语音中语音失真和残留噪声，以获得更好的语音增强效果，可以根据不同的任务需求训练不同自适应权重范围，获得更加适合相关任务的语音增强算法。

Description

一种语音增强方法及系统

技术领域

本发明涉及语音增强技术领域，具体涉及一种语音增强方法及系统。

背景技术

语音信号是人类交流、信息传递最方便、快捷的方式之一。背景噪声无处不在，人耳及麦克风实际接收是受噪声干扰的语音信号。噪声会严重影响人类的语音感知及语音产品(例如听力辅助设备、自动语音识别系统，语音通信)的性能。语音增强是一种从带噪语音中移出或抑制噪声的技术，广泛应用于各种语音相关任务的前端处理。在实际处理过程中，语音增强算法会不可避免的引入语音失真和残留噪声。尽管，深度学习在语音增强中取得了非常显著的效果，但大部分的基于深度学习的方法在训练时只是考虑估计语音和增强语音的整体差异，或者只是固定的权重的考虑语音失真和残留噪声。若能准确的平衡语音失真和残留噪声将有助于进一步提升语音增强性能，语音增强引入的语音失真和残留噪声会随着信噪比而变化，通常在高信噪时以语音失真为主导，在低信噪比时以残留噪声为主导。不考虑或者以固定权重考虑语音失真和残留噪声都不能在宽的信噪比范围内使得两者平衡，从而影响增强语音的质量及可懂度。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的语音增强方法未合理平衡语音失真和残留噪声导致的语音感知质量差及可懂度低的缺陷，因此提供一种基于深度学习自适应调节语音失真和残留噪声的语音增强方法及系统。

为达到上述目的，本发明提供以下技术方案：

第一方面，本发明实施例提供一种语音增强方法，包括以下步骤：

构建语音增强网络模型，所述网络模型包括三个子神经网络，其中第一神经网络为公共部，其和第二神经网络构成预测时频掩模模块，同时和第三神经网络构成预测自适应权重模块；

将带噪语音信号的语音特征输入所述网络模型中，第一神经网络根据输入的语音特征生成一个中间隐变量，所述中间隐变量同时作为第二神经网络和第三神经网络的输入，第二神经网络根据所述中间隐变量估计一时频掩膜，第三神经网络根据所述中间隐变量估计一个权重因子，将干净语音信号和噪声信号的幅度谱特征，分别通过第二神经网络估计的时频掩模获得对应的滤波信号，并分别计算语音失真和残留噪声相关的误差，通过第三神经网络估计的加权因子对语音失真和残留噪声相关的误差加权作为语音增强部分总的损失函数，同时计算估计的加权因子和在各个信噪比下观测的最佳加权因子的误差作为权重部分的损失函数，最后将语音增强部分的损失函数和权重部分的损失函数相加作为总的损失函数，对整个网络的参数进行优化更新，得到训练好的语音增强网络模型；

将待增强的带噪语音信号的语音特征输入到所述训练好的语音增强网络模型中，得到对应估计的时频掩模，将待增强的带噪语音信号的幅度谱和估计的时频掩模相乘获得增强的幅度谱，最后将增强的幅度谱和带噪语音的相位谱结合并通过傅里叶逆变换重构时域语音信号，得到增强后的语音信号。

在一实施例中，所述语音特征，包括：短时傅里叶变换幅度谱或者其对数形式、梅尔倒谱系数或其差分形式、线性预测系数。

在一实施例中，语音增强部分的损失函数的通过以下公式表示：

权重部分的损失函数通过以下公式表示：

训练神经网络的总损失函数通过以下公式表示：

J＝J_WL+J_α，

其中，

为第三神经网络估计的加权因子，a表示在每种信噪比下观测的最佳加权因子，t、f分别表示帧索引和频率通道，T、F分别表示t和f的总数，X表示干净语音信号，D表示噪声信号，“～”表示对应的滤波信号。

在一实施例中，利用误差反向传播算法对整个网络的参数进行优化更新。

在一实施例中，所述的误差为最小均方误差。

第二方面，本发明实施例提供一种语音增强系统，包括：模型构建模块，用于构建语音增强网络模型，所述网络模型包括三个子神经网络，其中第一神经网络为公共部，其和第二神经网络构成预测时频掩模模块，同时和第三神经网络构成预测自适应权重模块；

模型训练模块，用于将带噪语音信号的语音特征输入所述网络模型中，第一神经网络根据输入的语音特征生成一个中间隐变量，所述中间隐变量同时作为第二神经网络和第三神经网络的输入，第二神经网络根据所述中间隐变量估计一时频掩膜，第三神经网络根据所述中间隐变量估计一个权重因子，将干净语音信号和噪声信号的幅度谱特征，分别通过第二神经网络估计的时频掩模获得对应的滤波信号，并分别计算语音失真和残留噪声相关的误差，通过第三神经网络估计的加权因子对语音失真和残留噪声相关的误差加权作为语音增强部分总的损失函数，同时计算估计的加权因子和在各个信噪比下观测的最佳加权因子的误差作为权重部分的损失函数，最后将语音增强部分的损失函数和权重部分的损失函数相加作为总的损失函数，对整个网络的参数进行优化更新，得到训练好的语音增强网络模型；

测试模块，用于将待增强的带噪语音信号的语音特征输入到所述训练好的语音增强网络模型中，得到对应估计的时频掩模，将待增强的带噪语音信号的幅度谱和估计的时频掩模相乘获得增强的幅度谱，最后将增强的幅度谱和带噪语音的相位谱结合并通过傅里叶逆变换重构时域语音信号，得到增强后的语音信号。

第三方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本发明实施例第一方面的语音增强方法。

第四方面，本发明实施例提供一种计算机设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本发明实施例第一方面的语音增强方法。

本发明技术方案，具有以下优点：

本发明提供了一种语音增强方法及系统，其构建的语音增强网络模型包含两个并行模块：预测自适应权重模块根据输入特征判断信噪比从而通过权重调节语音失真和残留噪声的占比；预测时频掩模模块根据输入特征估计出用于抑制噪声的时频掩模。通过训练网络可以获得根据信噪比自适应的调节增强语音中的语音失真和残留噪声的比重，利用训练好的网络模型用于实际的降噪任务。本发明使用神经网络自适应调节增强语音中语音失真和残留噪声，以获得更好的语音增强效果，可以根据不同的任务需求训练不同自适应权重范围，获得更加适合相关任务的语音增强算法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1本发明实施例中提供的语音增强方法的一个具体示例的工作流程图；

图2为本发明实施例中提供的对神经网络模型进行训练的示意图；

图3本发明实施例中提供的将训练好的神经网络模型用于噪声环境测试的示意图；

图4为本发明实施例提供的语音增强系统的模块组成图；

图5为本发明实施例提供的计算机设备一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本发明实施例提供一种语音增强方法，可以应用于人工耳蜗、助听器、人机交互系统，语音通信等场景，如图1所示，该方法包括以下步骤：

步骤S1：构建语音增强网络模型，所述网络模型包括三个子神经网络，其中第一神经网络为公共部，其和第二神经网络构成预测时频掩模模块，同时和第三神经网络构成预测自适应权重模块。

在本发明实施例中，构建的神经网络模型包含两个并行模块，其中预测自适应权重模块根据输入特征判断信噪比，从而通过权重调节语音失真和残留噪声的占比，预测时频掩模模块根据输入特征估计出用于抑制噪声的时频掩模。

步骤S2：将带噪语音信号的语音特征输入所述网络模型中，第一神经网络根据输入的语音特征生成一个中间隐变量，所述中间隐变量同时作为第二神经网络和第三神经网络的输入，第二神经网络根据所述中间隐变量估计一时频掩膜，第三神经网络根据所述中间隐变量估计一个权重因子，将干净语音信号和噪声信号的幅度谱特征，分别通过第二神经网络估计的时频掩模获得对应的滤波信号，并分别计算语音失真和残留噪声相关的误差，通过第三神经网络估计的加权因子对语音失真和残留噪声相关的误差加权作为语音增强部分总的损失函数，同时计算估计的加权因子和在各个信噪比下观测的最佳加权因子的误差作为权重部分的损失函数，最后将语音增强部分的损失函数和权重部分的损失函数相加作为总的损失函数，对整个网络的参数进行优化更新，得到训练好的语音增强网络模型。

本发明实施例中输入到网络模型中语音特征，可以包括：短时傅里叶变换幅度谱或者其对数形式、梅尔倒谱系数或其差分形式、线性预测系数，本发明实施例中以是带噪语音的短时傅里叶变换幅度谱为例。上述的涉及的误差均采用最小均方误差(MSE)，但是仅作为举例，不以此为限，也可以采用其他误差计算方式；在训练过程中具体的是利用误差反向传播算法(BP算法)对整个网络的参数进行优化更新，其中的语音增强部分的损失函数的通过以下公式表示：

权重部分的损失函数通过以下公式表示：

训练神经网络的总损失函数通过以下公式表示：

J＝J_WL+J_α，

其中，

为第三神经网络估计的加权因子，α表示在每种信噪比下观测的最佳加权因子，t、f分别表示帧索引和频率通道，T、F分别表示t和f的总数，X表示干净语音信号，D表示噪声信号，“～”表示对应的滤波信号。

进行语音增强神经网络的训练过程，如图2所示，其中，神经网络1对应第一神经网络，神经网络2对应第二神经网络，神经网络3对应第三神经网络。通过训练神经网络1和神经网络3组成的权重模块可以获得根据信噪比自适应调节语音失真和残留噪声权重的能力，神经网络1和神经网络2组成的时频掩模块可以估计时频掩模用于语音增强，同时预测的权重会指导预测的时频掩模控制增强后语音失真和残留噪声的比重。在训练过程中通过droupout及正则化技术防止网络过拟合。

步骤S3：将待增强的带噪语音信号的语音特征输入到所述训练好的语音增强网络模型中，得到对应估计的时频掩模，将待增强的带噪语音信号的幅度谱和估计的时频掩模相乘获得增强的幅度谱，最后将增强的幅度谱和带噪语音的相位谱结合并通过傅里叶逆变换重构时域语音信号，得到增强后的语音信号。

该步骤为测试阶段，其实现过程如图3所示，采用训练好的神经网络模型进行实际的降噪任务，实际只用到预测时频掩模模块。此时神经网络已经学得自适应的能力，预测时频掩模模块根据输入的语音特征估计一个时频掩模，该掩模具有根据信噪比自适应调节语音失真和残留噪声比重的功能，将带噪语音的幅度谱和估计的掩模相乘获得增强的短时幅度谱。最后将增强的短时幅度谱和带噪语音的相位谱结合并通过逆短时傅里叶变换重构时域语音信号。

在本发明实施例提供的语音增强方法，使用神经网络自适应调节增强语音中语音失真和残留噪声，以获得更好的语音增强效果，可以根据不同的任务需求训练不同自适应权重范围，获得更加适合相关任务的语音增强算法。

实施例2

本发明实施例提供一种语音增强系统，如图4所示，包括：

模型构建模块1，用于构建语音增强网络模型，所述网络模型包括三个子神经网络，其中第一神经网络为公共部，其和第二神经网络构成预测时频掩模模块，同时和第三神经网络构成预测自适应权重模块；此模块执行实施例1中的步骤S1所描述的方法，在此不再赘述。

模型训练模块2，用于将带噪语音信号的语音特征输入所述网络模型中，第一神经网络根据输入的语音特征生成一个中间隐变量，所述中间隐变量同时作为第二神经网络和第三神经网络的输入，第二神经网络根据所述中间隐变量估计一时频掩膜，第三神经网络根据所述中间隐变量估计一个权重因子，将干净语音信号和噪声信号的幅度谱特征，分别通过第二神经网络估计的时频掩模获得对应的滤波信号，并分别计算语音失真和残留噪声相关的误差，通过第三神经网络估计的加权因子对语音失真和残留噪声相关的误差加权作为语音增强部分总的损失函数，同时计算估计的加权因子和在各个信噪比下观测的最佳加权因子的误差作为权重部分的损失函数，最后将语音增强部分的损失函数和权重部分的损失函数相加作为总的损失函数，对整个网络的参数进行优化更新，得到训练好的语音增强网络模型；此模块执行实施例1中的步骤S2所描述的方法，在此不再赘述。

测试模块3，用于将待增强的带噪语音信号的语音特征输入到所述训练好的语音增强网络模型中，得到对应估计的时频掩模，将待增强的带噪语音信号的幅度谱和估计的时频掩模相乘获得增强的幅度谱，最后将增强的幅度谱和带噪语音的相位谱结合并通过傅里叶逆变换重构时域语音信号，得到增强后的语音信号；此模块执行实施例1中的步骤S3所描述的方法，在此不再赘述。

本发明实施例提供的语音增强系统，构建的语音增强网络模型包含两个并行模块：预测自适应权重模块根据输入特征判断信噪比从而通过权重调节语音失真和残留噪声的占比；预测时频掩模模块根据输入特征估计出用于抑制噪声的时频掩模。通过训练网络可以获得根据信噪比自适应的调节增强语音中的语音失真和残留噪声的比重，利用训练好的网络模型用于实际的降噪任务，得到增强的语音信号。本发明使用神经网络自适应调节增强语音中语音失真和残留噪声，以获得更好的语音增强效果，可以根据不同的任务需求训练不同自适应权重范围，获得更加适合相关任务的语音增强算法。

实施例3

本发明实施例提供一种计算机设备，如图5所示，该设备可以包括处理器51和存储器52，其中处理器51和存储器52可以通过总线或者其他方式连接，图5以通过总线连接为例。

存储器52作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例1中的语音增强方法。

存储器52可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器51所创建的数据等。此外，存储器52可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器52可选包括相对于处理器51远程设置的存储器，这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、企业内网、移动通信网及其组合。

一个或者多个模块存储在存储器52中，当被处理器51执行时，执行实施例1中的语音增强方法。

上述计算机设备具体细节可以对应参阅实施例1中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。