CN111145772A

CN111145772A - 一种语音增强方法、系统及设备

Info

Publication number: CN111145772A
Application number: CN201911383843.3A
Authority: CN
Inventors: 许敏强; 杨世清; 吴建花; 张享
Original assignee: Guangzhou Speakin Intelligent Technology Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2019-12-28
Filing date: 2019-12-28
Publication date: 2020-05-12

Abstract

本申请公开了一种语音增强方法、系统及设备，包括：获取带噪语音样本；提取带噪语音样本的特征；将特征输入到训练好的深度神经网络中，根据带噪语音及干净语音的映射关系提取出带噪语音样本对应的第一干净语音。本申请通过神经网络具有的非线性映射能力，使得面向语音增强的深度神经网络能够直接学习含噪语音和纯净语音之间的非线性关系，从而根据非线性关系将含噪语音提取出纯净语音。

Description

一种语音增强方法、系统及设备

技术领域

本申请涉及语音增强技术领域，尤其涉及一种语音增强方法、系统及设备。

背景技术

语音增强是指当语音信号被各种各样的噪音干扰、甚至遮挡后，从噪音背景中提取出有用的纯净语音，抑制、降低噪声对语音的干扰的技术。语音增强在语音信号处理流程中处于前端位置，在语音处理领域中发挥着十分重要的作用。语音增强的目的是尽可能去除含噪语音中的噪声，得到纯净的语音，提高语音质量，增强语音可懂度。深度神经网络具有非线性映射能力，使得面向语音增强的深度神经网络能够直接学习含噪语音和纯净语音之间的非线性关系，无需对信号模型进行额外的假设，因此可以被应用到更复杂的语音增强场景中。

发明内容

本申请实施例提供了一种语音增强方法、系统及设备，使得能够从含噪语音中提取出纯净语音。

有鉴于此，本申请第一方面提供了一种语音增强方法，所述方法包括：

获取带噪语音样本；

提取所述带噪语音样本的特征；

将所述特征输入到训练好的深度神经网络中，根据带噪语音及干净语音的映射关系提取出所述带噪语音样本对应的第一干净语音。

可选的，在将所述特征输入到训练好的深度神经网络中，根据带噪语音及干净语音的映射关系输出所述带噪语音对应的第一干净语音之后还包括：

提取所述带噪语音样本的相位特征；

将所述相位特征与所述第一干净语音进行相位合成，得到第二干净语音，所述第一干净语音中缺少相位特征。

可选的，提取训练样本的特征，并将训练样本的所述特征输入到深度神经网络中；得到所述带噪语音与干净语音之间的映射关系；所述训练样本包括带噪语音训练样本以及干净语音训练样本。

可选的，还包括：使用所述带噪语音训练样本指导所述干净语音训练样本，得到包含有所述带噪语音训练样本带噪特征的带噪语音。

可选的，所述特征包括语音对数频谱特征、对数功率谱特征以及倒谱特征。

本申请第二方面提供一种语音增强系统，所述系统包括：

样本获取模块，所述样本获取模块用于获取带噪语音样本；

特征提取模块，所述特征提取模块用于提取所述带噪语音样本的特征；

语音增强模块，所述语音增强模块用于将所述特征输入到训练好的深度神经网络中，根据带噪语音及干净语音的映射关系提取出所述带噪语音样本对应的第一干净语音。

可选的，还包括：

相位合成模块，所述相位合成模块用于提取所述带噪语音样本的相位特征；并将所述相位特征与所述第一干净语音进行相位合成，得到第二干净语音，所述第一干净语音中缺少相位特征。

可选的，还包括：

模型训练模块，所述模型训练模块用于提取训练样本的特征，并将训练样本的所述特征输入到深度神经网络中；得到所述带噪语音与干净语音之间的映射关系；所述训练样本包括带噪语音训练样本以及干净语音训练样本。

可选的，还包括：

带噪风格语音获取模块，所述带噪风格语音获取模块用于使用所述带噪语音训练样本指导所述干净语音训练样本，得到包含有所述带噪语音训练样本带噪特征的带噪语音。

本申请第三方面提供一种语音增强设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的语音增强方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种语音增强方法，包括：获取带噪语音样本；提取带噪语音样本的特征；将特征输入到训练好的深度神经网络中，根据带噪语音及干净语音的映射关系提取出带噪语音样本对应的第一干净语音。

本申请通过神经网络具有的非线性映射能力，使得面向语音增强的深度神经网络能够直接学习含噪语音和纯净语音之间的非线性关系，从而根据非线性关系将含噪语音提取出纯净语音。

附图说明

图1为本申请一种语音增强方法的一个实施例的方法流程图；

图2为本申请一种语音增强方法的另一个实施例的方法流程图；

图3为本申请一种语音增强系统的一个实施例的系统示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请实施例中信息处理系统架构图，如图1所示，图1中包括：

101、获取带噪语音样本。

需要说明的是，带噪语音样本为需要进行去噪的待测含噪声样本。

102、提取带噪语音样本的特征。

需要说明的是，提取带噪声样本的特征，其特征可以包括语音对数频谱特征、对数功率谱特征以及倒谱等特征。

103、将特征输入到训练好的深度神经网络中，根据带噪语音及干净语音的映射关系提取出带噪语音样本对应的第一干净语音。

需要说明的是，深度神经网络为面向语音增强的深度神经网络，训练好的深度神经网络能够学习到含噪语音和纯净语音之间的非线性映射关系，当需要对带噪语音进行语音增强处理时，提取带噪语音的特征，将特征输入到深度神经网络中，带噪语音根据深度神经网络学习到的含噪语音和纯净语音之间的非线性映射关系得到对应的干净语音。

为了便于理解，请参阅图2，图2为本申请一种语音增强方法的另一个实施例的方法流程图，如图2所示，具体为：

201、提取训练样本的特征，并将训练样本的特征输入到深度神经网络中；得到带噪语音与干净语音之间的映射关系；训练样本包括带噪语音训练样本以及干净语音训练样本。

需要说明的是，训练样本包括带噪语音数据以及干净语音数据，其中由于当带噪语音数据相对较少，为了使得深度神经网络建立的模型更加有效的对多种带噪语音进行语音增强，可以采用学习图片风格迁移的思想将多种带噪语音数据以及干净语音数据进行合成，从而能够生成大量不同的带噪语音数据。将大量的带噪语音数据以及干净语音数据的特征进行提取，并将特征输入到深度神经网络中，从而可以得到带噪语音和干净语音之间的非线性映射关系。

在一种具体的实施方式中，从带噪语音中提取特征(包括语音对数频谱特征，对数功率谱特征以及倒谱特征等)，采用深度神经网络学习带噪语音跟干净语音之间的非线性映射关系。其深度神经网络可选用16层的CNN结构，网络通道为对应的各个频率分量，对前后的语音帧进行卷积变换，损失函数可定义为：

Loss_total＝αLoss(f_cnn,tar)+βLoss(o(n-1),o(n))

式中，f_cnn表示带噪语音通过神经网络生成的干净语音，tar表示神经网络模型预输出的目标干净语音，因此Loss(f_cnn,tar)表示神经网络实际输出的干净语音与目标干净语音之间的误差。o(n)表示生成的干净语音的当前帧，o(n-1)表示生成干净语音当前帧的前一帧，计算前后帧的相对变化误差是为了对生成的干净语音内部进行特征平滑，损失函数可根据模型和场景自定义。此处的α和β分别是指损失函数所占的比重，α+β＝1。

另外还需要指出的是，采用学习图片风格迁移的思想将带噪语音数据以及干净语音数据进行合成，可以采用深度神经网络进行合成构造。其深度神经网络可以选用TDNN结构，包括有4层隐含层，第一、二层左右扩帧1，第三层不扩帧，第三层左右扩帧3，目标是生成带噪语音与干净语音的内容损失以及带噪语音与干净语音之间的噪声风格损失。

因此目标的损失函数可定义为：

Loss_total＝αLoss_content+βLoss_style

式中，α和β分别是内容损失和风格损失所占的权重，α+β＝1。通过最小化损失函数可以获得带噪语音，损失函数可自定义。

202、获取带噪语音样本。

203、提取带噪语音样本的特征。

204、将特征输入到训练好的深度神经网络中，根据带噪语音及干净语音的映射关系提取出带噪语音样本对应的第一干净语音。

需要说明的是，深度神经网络为步骤201中训练好的深度神经网络，训练好的深度神经网络能够学习到含噪语音和纯净语音之间的非线性映射关系，当需要对带噪语音进行语音增强处理时，提取带噪语音的特征，将特征输入到深度神经网络中，带噪语音根据深度神经网络学习到的含噪语音和纯净语音之间的非线性映射关系得到对应的干净语音。

205、提取带噪语音样本的相位特征。

需要说明的是，由于带噪语音中还包含语音的相位信息，而相位信息会影响到人主观测听时的质量，因此，为了尽可能的获取无质量损失的干净语音，将带噪语音中的相位信息进行提取用于后续的合成。

206、将相位特征与所述第一干净语音进行相位合成，得到第二干净语音，第一干净语音中缺少相位特征。

需要说明的是，为了获得主观测听的语音波形文件，可以提取待测的带噪语音样本中的相位信息与第一干净语音进行合成，从而得到完整的干净语音。

本申请通过采用学习图片风格迁移的思想将多种带噪语音数据以及干净语音数据进行合成，从而能够生成大量不同的带噪语音数据，利用大量不同的带噪语音数据以及干净语音样本对深度神经网络进行训练，从而使得得到的深度神经网络更加有效的得到带噪语音以及干净语音之间的非线性映射关系。另外，通过提取待测的带噪语音样本中的相位信息，将相位信息与深度神经网络映射得到的干净语音进行合成，从而生成可主观测听的语音波形文件。

以上是本申请的方法实施例，本申请还包括一种语音增强系统的实施例，如图3所示，具体包括：

样本获取模块301，用于获取带噪语音样本。

特征提取模块302，用于提取带噪语音样本的特征。

语音增强模块303，用于将所述特征输入到训练好的深度神经网络中，根据带噪语音及干净语音的映射关系提取出带噪语音样本对应的第一干净语音。

在一种具体的实施方式中，还包括相位合成模块，用于提取带噪语音样本的相位特征；并将相位特征与第一干净语音进行相位合成，得到第二干净语音，第一干净语音中缺少相位特征。

在一种具体的实施方式中，还包括模型训练模块，用于提取训练样本的特征，并将训练样本的特征输入到深度神经网络中；得到带噪语音与干净语音之间的映射关系；训练样本包括带噪语音训练样本以及干净语音训练样本。

在一种具体的实施方式中，还包括带噪风格语音获取模块，用于使用所述带噪语音训练样本指导干净语音训练样本，得到包含有带噪语音训练样本特征的干净语义。

本申请还包括一种语音增强设备的实施例，设备包括处理器以及存储器：其中存储器用于存储程序代码，并将程序代码传输给处理器；处理器用于根据程序代码中的指令执行本申请中的方法实施例。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音增强方法，其特征在于，包括：

获取带噪语音样本；

提取所述带噪语音样本的特征；

2.根据权利要求1所述语音增强方法，其特征在于，在将所述特征输入到训练好的深度神经网络中，根据带噪语音及干净语音的映射关系输出所述带噪语音对应的第一干净语音之后还包括：

提取所述带噪语音样本的相位特征；

3.根据权利要求1所述语音增强方法，其特征在于，还包括：

提取训练样本的特征，并将训练样本的所述特征输入到深度神经网络中；得到所述带噪语音与干净语音之间的映射关系；所述训练样本包括带噪语音训练样本以及干净语音训练样本。

4.根据权利要求3所述语音增强方法，其特征在于，还包括：使用所述带噪语音训练样本指导所述干净语音训练样本，得到包含有所述带噪语音训练样本带噪特征的带噪语音。

5.根据权利要求1所述语音增强方法，其特征在于，所述特征包括语音对数频谱特征、对数功率谱特征以及倒谱特征。

6.一种语音增强系统，其特征在于，包括：

样本获取模块，所述样本获取模块用于获取带噪语音样本；

7.根据权利要求6所述的语音增强系统，其特征在于，还包括：

8.根据权利要求6所述的语音增强系统，其特征在于，还包括：

9.根据权利要求8所述的语音增强系统，其特征在于，还包括：

10.一种语音增强设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的语音增强方法。