CN113470672B

CN113470672B - 语音增强方法、装置、设备及存储介质

Info

Publication number: CN113470672B
Application number: CN202110839251.9A
Authority: CN
Inventors: 张之勇; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2024-01-12
Anticipated expiration: 2041-07-23
Also published as: CN113470672A

Abstract

本发明涉及人工智能，提供一种语音增强方法、装置、设备及存储介质。该方法能够基于编码网络对带噪音频进行编码处理，得到音频编码信息，基于特征提取网络提取音频编码信息的全局特征，基于掩膜网络对全局特征进行掩膜处理，得到掩膜结果，基于解码网络对掩膜结果进行解码处理，得到解码音频，根据纯净音频及解码音频调整预设学习器的网络参数，得到语音增强模型，获取请求音频，将请求音频输入至语音增强模型中，得到目标音频。本发明能够准确的生成目标音频。此外，本发明还涉及区块链技术，所述目标音频可存储于区块链中。

Description

语音增强方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音增强方法、装置、设备及存储介质。

背景技术

在目前的语音增强方式中，通常是根据时频转换方法去除音频中的噪声，然而，发明人意识到，这种方式在降噪过程中忽略了带噪信号中的相位信息，导致语音增强效果不佳。

因此，如何对音频进行语音增强，成了亟需解决的技术问题。

发明内容

鉴于以上内容，有必要提供一种语音增强方法、装置、设备及存储介质，能够提高请求音频的语音增强效果，从而准确的生成目标音频。

一方面，本发明提出一种语音增强方法，所述语音增强方法包括：

获取多个音频样本，并获取预设学习器，所述多个音频样本包括带噪音频及纯净音频，所述预设学习器包括编码网络、特征提取网络、掩膜网络及解码网络；

基于所述编码网络对所述带噪音频进行编码处理，得到音频编码信息；

基于所述特征提取网络提取所述音频编码信息的全局特征；

基于所述掩膜网络对所述全局特征进行掩膜处理，得到掩膜结果；

基于所述解码网络对所述掩膜结果进行解码处理，得到解码音频；

根据所述纯净音频及所述解码音频调整所述预设学习器的网络参数，得到语音增强模型；

获取请求音频，并将所述请求音频输入至所述语音增强模型中，得到对所述请求音频进行语音增强后的目标音频。

根据本发明优选实施例，所述获取多个音频样本包括：

获取每个所述纯净音频的音频时长，并从录制库中获取时长小于或者等于每个所述音频时长的音频作为多个录制音频；

将每个所述纯净音频与每个所述录制音频进行任意合成处理，得到多个所述带噪音频；

将多个所述带噪音频及多个所述纯净音频确定为所述多个音频样本。

根据本发明优选实施例，所述编码网络包括第一卷积网络及第二卷积网络，所述第一卷积网络包括卷积层、归一化层及激活函数，所述基于所述编码网络对所述带噪音频进行编码处理，得到音频编码信息包括：

根据所述带噪音频的音频信息对所述带噪音频进行向量化处理，得到初始信息；

基于所述卷积层对所述初始信息进行卷积处理，得到卷积结果；

基于所述归一化层对所述卷积结果进行归一化处理，得到归一化结果；

基于所述激活函数对所述归一化结果进行非线性激活，得到升维信息；

基于所述第二卷积网络处理所述升维信息，得到所述音频编码信息。

根据本发明优选实施例，所述特征提取网络包括第一特征网络及第二特征网络，所述第二特征网络包括多个提取层，所述基于所述特征提取网络提取所述音频编码信息的全局特征包括：

基于所述第一特征网络对所述音频编码信息进行自注意力分析，得到局部特征；

对于所述多个提取层中的任意提取层，计算所述音频编码信息与所述局部特征的乘积，得到运算矩阵，并统计所述音频编码信息的维度；

根据所述任意提取层中的配置激活函数处理所述运算矩阵及所述维度，得到注意力矩阵；

计算所述注意力矩阵与所述音频编码信息的乘积，得到注意力输出；

计算所述注意力输出与所述局部特征的总和，得到所述任意提取层的输出特征，并将所述输出特征确定为局部特征；

基于所述任意提取层的后续提取层对所述局部特征及所述音频编码信息进行特征提取，直至所述多个提取层均参与提取所述音频编码信息，得到所述全局特征。

根据本发明优选实施例，所述基于所述掩膜网络对所述全局特征进行掩膜处理，得到掩膜结果包括：

获取所述掩膜网络中的掩膜卷积层及掩膜参数；

基于所述掩膜卷积层对所述全局特征进行卷积处理，得到初始结果；

基于所述掩膜参数处理所述初始结果，得到所述掩膜结果。

根据本发明优选实施例，所述解码网络包括子像素卷积层，所述基于所述解码网络对所述掩膜结果进行解码处理，得到解码音频包括：

对所述掩膜结果进行空洞卷积处理，得到空洞特征；

获取所述子像素卷积层中的采样参数；

根据所述采样参数对所述空洞特征中每个空洞元素进行扩充处理，得到多个元素特征；

根据所述多个元素特征生成特征矩阵；

对所述特征矩阵进行卷积处理，得到所述解码音频。

根据本发明优选实施例，所述根据所述纯净音频及所述解码音频调整所述预设学习器的网络参数，得到语音增强模型包括：

获取所述纯净音频的第一时序信息，并获取所述带噪音频的第二时序信息；

根据下列公式计算所述预设学习器的模型损失值：

其中，loss是指所述损失值，N是指所述多个音频样本的样本数量，L_i是指第i个音频样本的样本损失，k是指第i个音频样本中的时序总量，x_ij是指第i个音频样本在第j个时序下的第一时序信息，是指第i个音频样本在第j个时序下的第二时序信息；

根据所述模型损失值调整所述网络参数，直至所述预设学习器收敛，得到所述语音增强模型。

另一方面，本发明还提出一种语音增强装置，所述语音增强装置包括：

获取单元，用于获取多个音频样本，并获取预设学习器，所述多个音频样本包括带噪音频及纯净音频，所述预设学习器包括编码网络、特征提取网络、掩膜网络及解码网络；

编码单元，用于基于所述编码网络对所述带噪音频进行编码处理，得到音频编码信息；

提取单元，用于基于所述特征提取网络提取所述音频编码信息的全局特征；

掩膜单元，用于基于所述掩膜网络对所述全局特征进行掩膜处理，得到掩膜结果；

解码单元，用于基于所述解码网络对所述掩膜结果进行解码处理，得到解码音频；

调整单元，用于根据所述纯净音频及所述解码音频调整所述预设学习器的网络参数，得到语音增强模型；

输入单元，用于获取请求音频，并将所述请求音频输入至所述语音增强模型中，得到对所述请求音频进行语音增强后的目标音频。

另一方面，本发明还提出一种电子设备，所述电子设备包括：

存储器，存储计算机可读指令；及

处理器，执行所述存储器中存储的计算机可读指令以实现所述语音增强方法。

另一方面，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可读指令，所述计算机可读指令被电子设备中的处理器执行以实现所述语音增强方法。

由以上技术方案可以看出，本发明通过所述纯净音频及经过所述预设学习器对所述带噪音频预测出的解码音频，能够准确的确定出所述预设学习器中的模型损失值，从而根据所述模型损失值能够准确的调整出所述网络参数，提高所述语音增强模型的增强效果。此外，通过所述编码网络对所述带噪音频进行编码处理，由于所述音频编码信息中包含有每个语音时序状态下的相位信息，因此，也能够提高所述语音增强模型的增强效果，从而提高所述目标音频的增强效果。

附图说明

图1是本发明语音增强方法的较佳实施例的流程图。

图2是本发明语音增强装置的较佳实施例的功能模块图。

图3是本发明实现语音增强方法的较佳实施例的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

如图1所示，是本发明语音增强方法的较佳实施例的流程图。根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

所述语音增强方法应用于一个或者多个电子设备中，所述电子设备是一种能够按照事先设定或存储的计算机可读指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字信号处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述电子设备可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet Protocol Television，IPTV)、智能穿戴式设备等。

所述电子设备可以包括网络设备和/或用户设备。其中，所述网络设备包括，但不限于单个网络电子设备、多个网络电子设备组成的电子设备组或基于云计算(CloudComputing)的由大量主机或网络电子设备构成的云。

所述电子设备所处的网络包括，但不限于：互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

S10，获取多个音频样本，并获取预设学习器，所述多个音频样本包括带噪音频及纯净音频，所述预设学习器包括编码网络、特征提取网络、掩膜网络及解码网络。

在本发明的至少一个实施例中，所述多个音频样本用于训练所述预设学习器。

所述带噪音频是指包含有噪声的音频信息，所述带噪音频是根据所述纯净音频及录制音频合成的。

所述纯净音频是指不含有噪声信息的音频信息。

所述预设学习器中的网络参数都是初始化配置好的。所述网络参数包括所述编码网络、所述特征提取网络、所述掩膜网络及所述解码网络的初始化参数。

在本发明的至少一个实施例中，所述电子设备获取多个音频样本包括：

其中，所述录制库中存储有多个预先录制好的音频及每个音频的相应时长。

每个所述录制音频的录制时长小于或者等于所述音频时长。

所述多个录制音频可以是任意背景音频，例如，所述多个录制音频可以包括汽笛声等。

例如，纯净音频有2段，录制音频有3段，经合成，能够生成6个音频样本。

通过所述音频时长获取所述多个录制音频，能够避免合成的所述带噪音频的时长大于所述音频时长，从而造成无法准确的调整所述预设学习器的网络参数，通过合成每个所述纯净音频及每个录制音频，能够提高所述多个音频样本的样本量，从而能够提高所述语音增强模型的音频增强效果。

S11，基于所述编码网络对所述带噪音频进行编码处理，得到音频编码信息。

在本发明的至少一个实施例中，所述编码网络包括第一卷积网络及第二卷积网络，所述第一卷积网络包括卷积层、归一化层及激活函数。

所述音频编码信息能够表征出所述带噪音频中的时频信息及相位信息。

在本发明的至少一个实施例中，所述电子设备基于所述编码网络对所述带噪音频进行编码处理，得到音频编码信息包括：

其中，所述音频信息包括，但不限于：通道数量、帧数量及帧尺寸等。所述初始信息的维度数量与所述音频信息的信息数量相同，例如，若所述音频信息为通道数量、帧数量及帧尺寸，则所述初始信息为三维矩阵。

所述卷积层通常设置为卷积核大小为1*1的网络层。

所述激活函数通常设置为RELU函数。

所述第二卷积网络中包括相应的卷积层、归一化层及激活函数。所述第二卷积网络中的参数与所述第一卷积网络中的参数不一定相同，例如，所述第二卷积网络中的卷积层可以是卷积核大小为1*3，步长为2的网络层。

通过所述卷积层，能够实现对所述初始信息的升维，通过所述归一化层，能够提高所述带噪音频的稳定性，通过所述激活函数，能够将所述归一化结果中的复杂信息进行数据分布处理，提高所述音频编码信息的生成效率。

S12，基于所述特征提取网络提取所述音频编码信息的全局特征。

在本发明的至少一个实施例中，所述特征提取网络包括第一特征网络及第二特征网络，所述第二特征网络包括多个提取层。

所述全局特征是指所述带噪音频中的音频特征。

在本发明的至少一个实施例中，所述电子设备基于所述特征提取网络提取所述音频编码信息的全局特征包括：

其中，所述配置激活函数是预先配置好的函数。

所述多个提取层的数量可以根据训练需求预先设置。

通过所述第一特征网络能够快速提取出所述音频编码信息中的局部特征，通过所述第二特征网络中的所述多个提取层对所述音频编码信息及所述局部特征进行同步分析，能够提高所述全局特征的准确性。

S13，基于所述掩膜网络对所述全局特征进行掩膜处理，得到掩膜结果。

在本发明的至少一个实施例中，所述掩膜网络包括掩膜卷积层及掩膜参数。所述掩膜参数可以是一个矩阵，所述掩膜参数中包含有至少一个数值为0的元素。

所述掩膜结果是指剔除掉噪声后的带噪音频所对应的音频特征。

在本发明的至少一个实施例中，所述电子设备基于所述掩膜网络对所述全局特征进行掩膜处理，得到掩膜结果包括：

获取所述掩膜网络中的掩膜卷积层及掩膜参数；

基于所述掩膜参数处理所述初始结果，得到所述掩膜结果。

其中，所述掩膜卷积层是指二维卷积神经网络。

所述掩膜参数是一个二维矩阵。

通过所述掩膜参数能够准确的确定出对所述初始结果中的屏蔽区域，从而能够准确的将噪声从所述带噪音频中剔除，从而能够提高语音增强效果。

S14，基于所述解码网络对所述掩膜结果进行解码处理，得到解码音频。

在本发明的至少一个实施例中，所述解码网络包括子像素卷积层。

所述解码音频是指所述预设学习器对所述带噪音频处理后得到的音频信息。若所述预设学习器的准确度为100％，则所述解码音频在每个语音序列下的时频信息及相位信息与所述纯净音频在每个语音序列下的的时频信息及相位信息均相同。

所述解码音频的时长与所述带噪音频的时长相同。

在本发明的至少一个实施例中，所述电子设备基于所述解码网络对所述掩膜结果进行解码处理，得到解码音频包括：

对所述掩膜结果进行空洞卷积处理，得到空洞特征；

获取所述子像素卷积层中的采样参数；

根据所述多个元素特征生成特征矩阵；

对所述特征矩阵进行卷积处理，得到所述解码音频。

通过对所述掩膜结果进行空洞卷积处理，能够扩大所述掩膜结果的感受野，从而提高音频质量，通过对所述空洞特征进行扩充处理，能够提高所述掩膜结果的上下文特征信息的数据量，进而根据对所述特征矩阵进行卷积操作，能够准确的还原出所述解码音频。

具体地，所述电子设备可以采样空洞卷积层对所述掩膜结果进行空洞卷积处理。

具体地，所述电子设备根据所述采样参数对所述空洞特征中每个空洞元素进行扩充处理，得到多个元素特征，并根据所述多个元素特征生成特征矩阵。

例如，所述采样参数为3，所述空洞特征为[3 1 5]空洞元素有3、1、5，则生成的所述多个元素特征包括3个空洞元素3，3个空洞元素1及3个空洞元素5，进而拼接所述多个元素特征为

S15，根据所述纯净音频及所述解码音频调整所述预设学习器的网络参数，得到语音增强模型。

在本发明的至少一个实施例中，所述语音增强模型是指所述解码音频与所述纯净音频的损失值收敛时的预设学习器。

在本发明的至少一个实施例中，所述电子设备根据所述纯净音频及所述解码音频调整所述预设学习器的网络参数，得到语音增强模型包括：

获取所述纯净音频的第一时序信息，并获取所述解码音频的第二时序信息；

根据下列公式计算所述预设学习器的模型损失值：

其中，所述第一时序信息是指所述纯净音频在每个语音序列下的时频信息及相位信息，所述第二时序信息是指所述解码音频在相应语音序列下的时频信息及相位信息。

通过所述多个音频样本的样本损失能够的确定出所述预设学习器的模型损失值，从而根据所述模型损失值调整所述网络参数，能够提高所述语音增强模型的音频增强效果。

S16，获取请求音频，并将所述请求音频输入至所述语音增强模型中，得到对所述请求音频进行语音增强后的目标音频。

在本发明的至少一个实施例中，所述请求音频是指需要进行噪声剔除的音频。所述请求音频中通常包含有噪声。

所述目标音频是指剔除掉噪声后的请求音频。

需要强调的是，为进一步保证上述目标音频的私密和安全性，上述目标音频还可以存储于一区块链的节点中。

在本发明的至少一个实施例中，所述请求音频可以从待处理音频库中获取。

在本发明的至少一个实施例中，所述电子设备将所述请求音频输入至所述语音增强模型中，得到所述请求音频的目标音频的方式与所述电子设备基于所述预设学习器对所述带噪音频进行处理的方式相同，本发明对此不再赘述。

本发明通过所述语音增强模型中的特征提取网络能够有效提取出所述请求音频在语音序列中的全局特征，从而提高语音增强效果，同时以极少的特征数量能够有效地提高语音增强效率。

如图2所示，是本发明语音增强装置的较佳实施例的功能模块图。所述语音增强装置11包括获取单元110、编码单元111、提取单元112、掩膜单元113、解码单元114、调整单元115及输入单元116。本发明所称的模块/单元是指一种能够被处理器13所获取，并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器12中。在本实施例中，关于各模块/单元的功能将在后续的实施例中详述。

获取单元110获取多个音频样本，并获取预设学习器，所述多个音频样本包括带噪音频及纯净音频，所述预设学习器包括编码网络、特征提取网络、掩膜网络及解码网络。

所述纯净音频是指不含有噪声信息的音频信息。

在本发明的至少一个实施例中，所述获取单元110获取多个音频样本包括：

其中，每个所述录制音频的录制时长小于或者等于所述音频时长。

编码单元111基于所述编码网络对所述带噪音频进行编码处理，得到音频编码信息。

在本发明的至少一个实施例中，所述编码单元111基于所述编码网络对所述带噪音频进行编码处理，得到音频编码信息包括：

所述卷积层通常设置为卷积核大小为1*1的网络层。

所述激活函数通常设置为RELU函数。

提取单元112基于所述特征提取网络提取所述音频编码信息的全局特征。

所述全局特征是指所述带噪音频中的音频特征。

在本发明的至少一个实施例中，所述提取单元112基于所述特征提取网络提取所述音频编码信息的全局特征包括：

其中，所述配置激活函数是预先配置好的函数。

所述多个提取层的数量可以根据训练需求预先设置。

掩膜单元113基于所述掩膜网络对所述全局特征进行掩膜处理，得到掩膜结果。

在本发明的至少一个实施例中，所述掩膜单元113基于所述掩膜网络对所述全局特征进行掩膜处理，得到掩膜结果包括：

获取所述掩膜网络中的掩膜卷积层及掩膜参数；

基于所述掩膜参数处理所述初始结果，得到所述掩膜结果。

其中，所述掩膜卷积层是指二维卷积神经网络。

所述掩膜参数是一个二维矩阵。

解码单元114基于所述解码网络对所述掩膜结果进行解码处理，得到解码音频。

所述解码音频的时长与所述带噪音频的时长相同。

在本发明的至少一个实施例中，所述解码单元114基于所述解码网络对所述掩膜结果进行解码处理，得到解码音频包括：

对所述掩膜结果进行空洞卷积处理，得到空洞特征；

获取所述子像素卷积层中的采样参数；

根据所述多个元素特征生成特征矩阵；

对所述特征矩阵进行卷积处理，得到所述解码音频。

具体地，所述解码单元114可以采样空洞卷积层对所述掩膜结果进行空洞卷积处理。

具体地，所述解码单元114根据所述采样参数对所述空洞特征中每个空洞元素进行扩充处理，得到多个元素特征，并根据所述多个元素特征生成特征矩阵。

调整单元115根据所述纯净音频及所述解码音频调整所述预设学习器的网络参数，得到语音增强模型。

在本发明的至少一个实施例中，所述调整单元115根据所述纯净音频及所述解码音频调整所述预设学习器的网络参数，得到语音增强模型包括：

根据下列公式计算所述预设学习器的模型损失值：

输入单元116获取请求音频，并将所述请求音频输入至所述语音增强模型中，得到对所述请求音频进行语音增强后的目标音频。

所述目标音频是指剔除掉噪声后的请求音频。

在本发明的至少一个实施例中，所述输入单元116将所述请求音频输入至所述语音增强模型中，得到所述请求音频的目标音频的方式与基于所述预设学习器对所述带噪音频进行处理的方式相同，本发明对此不再赘述。

如图3所示，是本发明实现语音增强方法的较佳实施例的电子设备的结构示意图。

在本发明的一个实施例中，所述电子设备1包括，但不限于，存储器12、处理器13，以及存储在所述存储器12中并可在所述处理器13上运行的计算机可读指令，例如语音增强程序。

本领域技术人员可以理解，所述示意图仅仅是电子设备1的示例，并不构成对电子设备1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。

所述处理器13可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器13是所述电子设备1的运算核心和控制中心，利用各种接口和线路连接整个电子设备1的各个部分，及执行所述电子设备1的操作系统以及安装的各类应用程序、程序代码等。

示例性的，所述计算机可读指令可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器13执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该计算机可读指令段用于描述所述计算机可读指令在所述电子设备1中的执行过程。例如，所述计算机可读指令可以被分割成获取单元110、编码单元111、提取单元112、掩膜单元113、解码单元114、调整单元115及输入单元116。

所述存储器12可用于存储所述计算机可读指令和/或模块，所述处理器13通过运行或执行存储在所述存储器12内的计算机可读指令和/或模块，以及调用存储在存储器12内的数据，实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。存储器12可以包括非易失性和易失性存储器，例如：硬盘、内存、插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。

所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地，所述存储器12可以是具有实物形式的存储器，如内存条、TF卡(Trans-flash Card)等等。

所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一计算机可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。

其中，所述计算机可读指令包括计算机可读指令代码，所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

结合图1，所述电子设备1中的所述存储器12存储计算机可读指令实现一种语音增强方法，所述处理器13可执行所述计算机可读指令从而实现：

基于所述特征提取网络提取所述音频编码信息的全局特征；

具体地，所述处理器13对上述计算机可读指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述计算机可读存储介质上存储有计算机可读指令，其中，所述计算机可读指令被处理器13执行时用以实现以下步骤：

基于所述特征提取网络提取所述音频编码信息的全局特征；

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种语音增强方法，其特征在于，所述语音增强方法包括：

获取多个音频样本，并获取预设学习器，所述多个音频样本包括带噪音频及纯净音频，所述预设学习器包括编码网络、特征提取网络、掩膜网络及解码网络，所述编码网络包括第一卷积网络及第二卷积网络，所述第一卷积网络包括卷积层、归一化层及激活函数；

基于所述编码网络对所述带噪音频进行编码处理，得到音频编码信息，包括：根据所述带噪音频的音频信息对所述带噪音频进行向量化处理，得到初始信息；基于所述卷积层对所述初始信息进行卷积处理，得到卷积结果；基于所述归一化层对所述卷积结果进行归一化处理，得到归一化结果；基于所述激活函数对所述归一化结果进行非线性激活，得到升维信息；基于所述第二卷积网络处理所述升维信息，得到所述音频编码信息；

基于所述特征提取网络提取所述音频编码信息的全局特征；

根据所述纯净音频及所述解码音频调整所述预设学习器的网络参数，得到语音增强模型，包括：获取所述纯净音频的第一时序信息，并获取所述解码音频的第二时序信息；根据下列公式计算所述预设学习器的模型损失值：；/>；其中，/>是指所述损失值，N是指所述多个音频样本的样本数量，/> 是指第/>个音频样本的样本损失，/>是指第/>个音频样本中的时序总量，/>是指第/>个音频样本在第/>个时序下的第一时序信息，/>是指第/>个音频样本在第/>个时序下的第二时序信息；根据所述模型损失值调整所述网络参数，直至所述预设学习器收敛，得到所述语音增强模型；

2.如权利要求1所述的语音增强方法，其特征在于，所述获取多个音频样本包括：

3.如权利要求1所述的语音增强方法，其特征在于，所述特征提取网络包括第一特征网络及第二特征网络，所述第二特征网络包括多个提取层，所述基于所述特征提取网络提取所述音频编码信息的全局特征包括：

4.如权利要求1所述的语音增强方法，其特征在于，所述基于所述掩膜网络对所述全局特征进行掩膜处理，得到掩膜结果包括：

获取所述掩膜网络中的掩膜卷积层及掩膜参数；

基于所述掩膜参数处理所述初始结果，得到所述掩膜结果。

5.如权利要求1所述的语音增强方法，其特征在于，所述解码网络包括子像素卷积层，所述基于所述解码网络对所述掩膜结果进行解码处理，得到解码音频包括：

对所述掩膜结果进行空洞卷积处理，得到空洞特征；

获取所述子像素卷积层中的采样参数；

根据所述多个元素特征生成特征矩阵；

对所述特征矩阵进行卷积处理，得到所述解码音频。

6.一种语音增强装置，其特征在于，所述语音增强装置包括：

获取单元，用于获取多个音频样本，并获取预设学习器，所述多个音频样本包括带噪音频及纯净音频，所述预设学习器包括编码网络、特征提取网络、掩膜网络及解码网络，所述编码网络包括第一卷积网络及第二卷积网络，所述第一卷积网络包括卷积层、归一化层及激活函数；

编码单元，用于基于所述编码网络对所述带噪音频进行编码处理，得到音频编码信息，包括：根据所述带噪音频的音频信息对所述带噪音频进行向量化处理，得到初始信息；基于所述卷积层对所述初始信息进行卷积处理，得到卷积结果；基于所述归一化层对所述卷积结果进行归一化处理，得到归一化结果；基于所述激活函数对所述归一化结果进行非线性激活，得到升维信息；基于所述第二卷积网络处理所述升维信息，得到所述音频编码信息；

调整单元，用于根据所述纯净音频及所述解码音频调整所述预设学习器的网络参数，得到语音增强模型，包括：获取所述纯净音频的第一时序信息，并获取所述解码音频的第二时序信息；根据下列公式计算所述预设学习器的模型损失值：；；其中，/>是指所述损失值，N是指所述多个音频样本的样本数量，/> 是指第/>个音频样本的样本损失，/>是指第/>个音频样本中的时序总量，/>是指第/>个音频样本在第/>个时序下的第一时序信息，/>是指第/>个音频样本在第/>个时序下的第二时序信息；根据所述模型损失值调整所述网络参数，直至所述预设学习器收敛，得到所述语音增强模型；

7. 一种电子设备，其特征在于，所述电子设备包括：

存储器，存储有计算机可读指令；及

处理器，执行所述存储器中存储的计算机可读指令以实现如权利要求1至5中任意一项所述的语音增强方法。

8.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有计算机可读指令，所述计算机可读指令被电子设备中的处理器执行以实现如权利要求1至5中任意一项所述的语音增强方法。