CN113921032A

CN113921032A - 音频处理模型的训练方法及装置、音频处理方法及装置

Info

Publication number: CN113921032A
Application number: CN202111182079.0A
Authority: CN
Inventors: 张旭; 郑羲光; 陈联武; 任新蕾; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2022-01-11

Abstract

本公开关于一种音频处理模型的训练方法及装置、一种音频处理方法及装置。音频处理模型的训练方法包括：获取纯净音频信号的幅度谱和带噪音频信号的幅度谱；将带噪音频信号的幅度谱分成多个频段，得到带噪音频信号的多个频段的幅度谱；通过音频处理模型中的多个卷积神经网络预测与带噪音频信号的所述多个频段中的每个频段的幅度谱相应的降噪幅度谱，得到多个频段的降噪幅度谱；基于所述多个频段的降噪幅度谱获得降噪音频信号的幅度谱；通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数，从而提高音频处理模型的降噪和语音保留效果。

Description

音频处理模型的训练方法及装置、音频处理方法及装置

技术领域

本公开涉及视频技术领域。更具体地，本公开涉及一种音频处理模型的训练方法及装置、一种音频处理方法及装置。

背景技术

随着神经网络的推广，神经网络越来越多的被运用到音频领域，例如音频去噪、音频去混响、语音分离等等，相比较于传统算法，神经网络往往能获得更好的效果。相关技术中，当利用神经网络解决音频信号处理问题时，通常有时域和时频域两种方向，时域处理是指直接在时域上对音频进行处理得到处理后波形的方式，时频域是指将原始时域波形信号短时傅里叶变换(STFT：Short-Time Fourier Transform)到时频域，经过一系列处理，再将时频域信号短时反傅里叶变换(ISTFT：Inverse Short-Time Fourier Transform)到时域，得到处理后波形的方式。

相关技术中，存在神经网络的复杂度高、噪声消除及音质保留效果不好的问题。

发明内容

本公开的示例性实施例在于提供一种音频处理模型的训练方法及装置、一种音频处理方法及装置，以至少解决相关技术中的音频处理模型的训练、音频处理的问题，也可不解决任何上述问题。

根据本公开的示例性实施例，提供一种音频处理模型的训练方法，包括：获取纯净音频信号的幅度谱和带噪音频信号的幅度谱，其中，带噪音频信号与纯净音频信号相应；将带噪音频信号的幅度谱分成多个频段，得到带噪音频信号的多个频段的幅度谱；通过音频处理模型中的多个卷积神经网络预测与带噪音频信号的所述多个频段中的每个频段的幅度谱相应的降噪幅度谱，得到多个频段的降噪幅度谱；基于所述多个频段的降噪幅度谱获得降噪音频信号的幅度谱；通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数。

可选地，将带噪音频信号的幅度谱分成多个频段的步骤可包括：基于预设的频段数将带噪音频信号的幅度谱分成多个频段，其中，所述预设的频段数等于所述多个卷积神经网络的数量。

可选地，所述多个卷积神经网络中的每个卷积神经网络的内核大小和步幅被分别设置为彼此不同，其中，所述多个卷积神经网络中的每个卷积神经网络与所述多个频段中的一个频段相应。

可选地，通过音频处理模型中的所述多个卷积神经网络预测带噪音频信号的所述多个频段中的每个频段的幅度谱的降噪幅度谱的步骤可包括：将带噪音频信号的所述多个频段中的每个频段的幅度谱分别输入到音频处理模型中的所述多个卷积神经网络中的相应的卷积神经网络；在每个卷积神经网络中，基于卷积神经网络的内核大小和步幅对输入到卷积神经网络的幅度谱进行卷积操作，基于卷积操作结果确定与输入的幅度谱相应的降噪幅度谱，得到所述多个频段的降噪幅度谱。

可选地，通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数的步骤可包括：计算纯净音频信号的幅度谱和降噪音频信号的幅度谱之间的差异；基于所述差异确定音频处理模型的预测损失；基于预测损失调整音频处理模型的模型参数，直至音频处理模型的预测损失满足预设条件时，将模型参数调整后的音频处理模型作为训练得到的音频处理模型。

根据本公开的示例性实施例，提供一种音频处理方法，包括：获取音频信号的幅度特征；将音频信号的幅度特征分成多个频段，得到音频信号的多个频段的幅度特征；通过音频处理模型中的多个卷积神经网络预测与音频信号的所述多个频段中的每个频段的幅度特征相应的降噪幅度特征，得到多个频段的降噪幅度特征；基于所述多个频段的降噪幅度特征获得降噪音频信号的幅度谱；基于预测出的幅度谱确定与音频信号相应的降噪音频信号。

可选地，将音频信号的幅度特征分成多个频段的步骤可包括：基于预设的频段数将音频信号的幅度特征分成多个频段，其中，所述预设的频段数等于所述多个卷积神经网络的数量。

可选地，音频处理模型包括通过根据本公开的示例性实施例的训练方法训练得到的音频处理模型，所述多个卷积神经网络中的每个卷积神经网络的内核大小和步幅被分别设置为彼此不同，其中，所述多个卷积神经网络中的每个卷积神经网络与所述多个频段中的一个频段相应。

可选地，通过音频处理模型中的所述多个卷积神经网络分别预测与音频信号的所述多个频段中的每个频段的幅度特征相应的降噪幅度特征的步骤可包括：将音频信号的所述多个频段中的每个频段的幅度特征分别输入到音频处理模型中的所述多个卷积神经网络中的相应的卷积神经网络；在每个卷积神经网络中，基于卷积神经网络的内核大小和步幅对输入到卷积神经网络的幅度特征进行卷积操作，基于卷积操作结果确定与输入的幅度谱相应的降噪幅度特征，得到所述多个频段的降噪幅度特征。

可选地，基于预测出的幅度谱确定与音频信号相应的降噪音频信号的步骤可包括：获取音频信号的相位谱；基于音频信号的相位谱和预测出的幅度谱确定与音频信号相应的降噪音频信号。

根据本公开的示例性实施例，提供一种音频处理模型的训练装置，包括：幅度获取单元，被配置为获取纯净音频信号的幅度谱和带噪音频信号的幅度谱，其中，带噪音频信号与纯净音频信号相应；频段划分单元，被配置为将带噪音频信号的幅度谱分成多个频段，得到带噪音频信号的多个频段的幅度谱；以及模型训练单元，被配置为通过音频处理模型中的多个卷积神经网络预测与带噪音频信号的所述多个频段中的每个频段的幅度谱相应的降噪幅度谱，得到多个频段的降噪幅度谱，基于所述多个频段的降噪幅度谱获得降噪音频信号的幅度谱，并且通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数。

可选地，频段划分单元可被配置为：基于预设的频段数将带噪音频信号的幅度谱分成多个频段，其中，所述预设的频段数等于所述多个卷积神经网络的数量。

可选地，模型训练单元可被配置为：将带噪音频信号的所述多个频段中的每个频段的幅度谱分别输入到音频处理模型中的所述多个卷积神经网络中的相应的卷积神经网络；在每个卷积神经网络中，基于卷积神经网络的内核大小和步幅对输入到卷积神经网络的幅度谱进行卷积操作，基于卷积操作结果确定与输入的幅度谱相应的降噪幅度谱，得到所述多个频段的降噪幅度谱。

可选地，模型训练单元可被配置为：计算纯净音频信号的幅度谱和降噪音频信号的幅度谱之间的差异；基于所述差异确定音频处理模型的预测损失；基于预测损失调整音频处理模型的模型参数，直至音频处理模型的预测损失满足预设条件时，将模型参数调整后的音频处理模型作为训练得到的音频处理模型。

根据本公开的示例性实施例，提供一种音频处理装置，包括：幅度获取单元，被配置为获取音频信号的幅度特征；频段划分单元，被配置为将音频信号的幅度特征分成多个频段，得到音频信号的多个频段的幅度特征；降噪处理单元，被配置为通过音频处理模型中的多个卷积神经网络预测与音频信号的所述多个频段中的每个频段的幅度特征相应的降噪幅度特征，得到多个频段的降噪幅度特征，基于所述多个频段的降噪幅度特征获得降噪音频信号的幅度谱；以及结果确定单元，被配置为基于预测出的幅度谱确定与音频信号相应的降噪音频信号。

可选地，频段划分单元可被配置为：基于预设的频段数将音频信号的幅度特征分成多个频段，其中，所述预设的频段数等于所述多个卷积神经网络的数量。

可选地，降噪处理单元可被配置为：将音频信号的所述多个频段中的每个频段的幅度特征分别输入到音频处理模型中的所述多个卷积神经网络中的相应的卷积神经网络；在每个卷积神经网络中，基于卷积神经网络的内核大小和步幅对输入到卷积神经网络的幅度特征进行卷积操作，基于卷积操作结果确定与输入的幅度谱相应的降噪幅度特征，得到所述多个频段的降噪幅度特征。

可选地，结果确定单元可被配置为：获取音频信号的相位谱；基于音频信号的相位谱和预测出的幅度谱确定与音频信号相应的降噪音频信号。

根据本公开的示例性实施例，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现根据本公开的示例性实施例的音频处理模型的训练方法和/或音频处理方法。

根据本公开的示例性实施例，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被电子设备的处理器执行时，使得电子设备执行根据本公开的示例性实施例的音频处理模型的训练方法和/或音频处理方法。

根据本公开的示例性实施例，提供一种计算机程序产品，包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，实现根据本公开的示例性实施例的音频处理模型的训练方法和/或音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

提高降噪效果和语音保留效果，同时降低用于语音处理的网络或模型的复杂度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出本公开的示例性实施例可以应用于其中的示例性系统架构100。

图2示出根据本公开的示例性实施例的音频处理模型的训练方法的流程图。

图3示出根据本公开的示例性实施例的音频处理方法的流程图。

图4示出根据本公开的示例性实施例的对音频处理模型进行训练的整体系统框图。

图5示出根据本公开的示例性实施例的使用训练后的音频处理模型进行音频处理的整体系统框图。

图6示出根据本公开的示例性实施例的音频处理模型的训练装置的框图。

图7示出根据本公开的示例性实施例的音频处理装置的框图。

图8是根据本公开的示例性实施例的电子设备800的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

有相关研究和文献表明，相比于时域方向，时频域方向往往能够获得更好的性能效果。而在时频域进行音频降噪时，输入网络的特征往往可以分为傅立叶变换的时频谱、梅尔谱、子带谱等等，但是梅尔谱和子带谱等都是基于傅立叶变换的时频谱变换而来，因此时频谱具有最完整的时频信息，可以最大程度上提升降噪的效果。另外，在高中低不同的频带上，时频谱所携带的信息具有不统一性，往往低频携带的语音信息高于高频的语音信息，而且时频点的能量更大。因此，为了平衡低中高三档不同频带的时频信息，达到更好的降噪和音质保留效果，本文提出了一种在时频域利用多频段分类处理的去噪方法，相比于在时频域对所有频段进行相同的操作处理，本方法能够降低网络的复杂度，并且能够平衡时频域的不同频段信息，得到更好的噪声消除及音质保留效果。

下面，将参照图1至图8具体描述根据本公开的示例性实施例的音频处理模型的训练方法及装置、音频处理方法及装置。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息(例如，音视频数据上传请求、音视频数据下载请求)等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如音视频通话软件、音视频录制软件、即使通信软件、会议软件、邮箱客户端、社交平台软件等。终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且能够进行音视频播放、录制、编辑等的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器。服务器105可对音频处理模型进行训练。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的音频处理方法通常由终端设备执行，但是也可由服务器执行，或者也可以由终端设备和服务器协作执行。相应地，音频处理装置可设置在终端设备中、服务器中或者设置在终端设备和服务器两者中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器，本公开对此并无限制。

参照图2，在步骤S201，获取纯净音频信号的幅度谱和带噪音频信号的幅度谱。这里，带噪音频信号与纯净音频信号相应。

在本公开的示例性实施例中，纯净音频信号的幅度谱和带噪音频信号的幅度谱是时频谱。

在本公开的示例性实施例中，在获取音频信号的幅度谱和带噪音频信号的幅度谱时，可首先分别对音频信号和带噪音频信号进行从时域到时频域的转换然后基于转换得到的时频域信号，获取每帧音频信号的幅度以及每帧带噪音频信号的幅度，得到音频信号的幅度谱和带噪音频信号的幅度谱。

例如，将原始音频信号和带噪音频信号分别通过短时傅里叶变换转到时频域。若长度为T的原始音频信号x和带噪音频信号y在时域上分别为x(t)和y(t)，这里，t代表时间，0＜t≤T，则经过短时傅里叶变换后，x(t)和y(t)在时频域可分别表示为如下：

X(n，k)＝STFT(x(t))，

Y(n，k)＝STFT(y(t))。

这里，n为帧序列，0＜n≤N，N为总帧数，k为中心频率序列0＜k≤K，K为总频点数。

之后，分别获取时频域的原始音频信号X(n，k)的幅度MagX(n，k)及带噪音频信号Y(n，k)的幅度MagY(n，k)。这里，

MagX(n，k)＝abs(X(n，k))，

PhaY(n，k)＝Y(n，k)/abs(Y(n，k))。

在步骤S202，将带噪音频信号的幅度谱分成多个频段，得到带噪音频信号的多个频段的幅度谱。

在本公开的示例性实施例中，在将带噪音频信号的幅度谱分成多个频段时，可基于预设的频段数将带噪音频信号的幅度谱分成多个频段。这里，所述预设的频段数等于所述多个卷积神经网络的数量。

在本公开的示例性实施例中，所述多个卷积神经网络中的每个卷积神经网络的内核大小和步幅被分别设置为彼此不同。这里，所述多个卷积神经网络中的每个卷积神经网络与所述多个频段中的一个频段相应。

可按照需求，将带噪音频信号Y(n，k)的幅度Mag，划分为m个频带，其中1≤m≤K，(K为总频带数)。此时，MagY(n，k)可分解为：

MagY₁(n，k)、

MagY₂(n，k)、

……

MagY_m(n，k)，

其中，1≤m≤K。

例如，可以将带噪音频信号的幅度谱分为高中低三个频段。

在步骤S203，通过音频处理模型中的多个卷积神经网络预测与带噪音频信号的所述多个频段中的每个频段的幅度谱相应的降噪幅度谱，得到多个频段的降噪幅度谱。

在本公开的示例性实施例中，在通过音频处理模型中的所述多个卷积神经网络预测带噪音频信号的所述多个频段中的每个频段的幅度谱的降噪幅度谱时，可首先将带噪音频信号的所述多个频段中的每个频段的幅度谱分别输入到音频处理模型中的所述多个卷积神经网络中的相应的卷积神经网络，然后在每个卷积神经网络中，基于卷积神经网络的内核大小和步幅对输入到卷积神经网络的幅度谱进行卷积操作，基于卷积操作结果确定与输入的幅度谱相应的降噪幅度谱，得到所述多个频段的降噪幅度谱。

在本公开的示例性实施例中，所述不同的卷积神经网络层(CNN)的内核大小和步幅可被分别设置为彼此不同。例如，可将不同的CNN分别设置不同的内核大小(kernalsize)和步幅(strides)值，使得三个频段出来的频带数比(这里的频带数比是指通过前面举例的CNN后，三个频段的频带数量的大小的比)可为，例如，但不限于，1∶1∶1，这样可均衡各频段的关系(例如，通过CNN出来的特征维度的多少，来权衡高中低三个频段的关系)。作为示例，若总频带数为N，则可分为(1，N/3]、(N/3，2*N/3]和(2*N/3，N]等三个频段，而内核大小可被分别设置为(1，3)、(1，5)、(1，7)，步幅大小可被分别设置为(1，2)、(1，3)、(1，5)。

在步骤S204，基于所述多个频段的降噪幅度谱获得降噪音频信号的幅度谱。

在步骤S205，通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数。

在本公开的示例性实施例中，在通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数时，可首先计算纯净音频信号的幅度谱和降噪音频信号的幅度谱之间的差异，然后基于所述差异确定音频处理模型的预测损失，并且基于预测损失调整音频处理模型的模型参数，直至音频处理模型的预测损失满足预设条件时，将模型参数调整后的音频处理模型作为训练得到的音频处理模型。

具体来说，将带噪音频信号的幅度谱(例如，幅度特征)作为音频处理模型的输入特征，对带噪音频信号的不同的频段的幅度谱做不同的操作，达到均衡各个频段的目的，后将纯净音频信号(也被称为原始语音信号)的幅度谱MagX(n，k)作为学习的目标，完成音频处理模型的训练。

图3示出根据本公开的示例性实施例的音频处理方法的流程图。图3中的音频处理方法可适用于对音频信号的降噪处理。

参照图3，在步骤S301，获取音频信号的幅度特征。这里，音频信号是需要降噪的音频信号。

在步骤S302，将音频信号的幅度特征分成多个频段，得到音频信号的多个频段的幅度特征。

在本公开的示例性实施例中，在将音频信号的幅度特征分成多个频段时，可基于预设的频段数将音频信号的幅度特征分成多个频段。这里，所述预设的频段数等于所述多个卷积神经网络的数量。

在步骤S303，通过音频处理模型中的多个卷积神经网络预测与音频信号的所述多个频段中的每个频段的幅度特征相应的降噪幅度特征，得到多个频段的降噪幅度特征。

在本公开的示例性实施例中，音频处理模型可包括通过本公开的示例性实施例中的训练方法训练得到的音频处理模型，所述多个卷积神经网络中的每个卷积神经网络的内核大小和步幅可被分别设置为彼此不同。这里，所述多个卷积神经网络中的每个卷积神经网络可与所述多个频段中的一个频段相应。

在本公开的示例性实施例中，在通过音频处理模型中的所述多个卷积神经网络分别预测与音频信号的所述多个频段中的每个频段的幅度特征相应的降噪幅度特征时，可首先将音频信号的所述多个频段中的每个频段的幅度特征分别输入到音频处理模型中的所述多个卷积神经网络中的相应的卷积神经网络，然后在每个卷积神经网络中，基于卷积神经网络的内核大小和步幅对输入到卷积神经网络的幅度特征进行卷积操作，基于卷积操作结果确定与输入的幅度谱相应的降噪幅度特征，得到所述多个频段的降噪幅度特征。

在步骤S304，基于所述多个频段的降噪幅度特征获得降噪音频信号的幅度谱。

可将音频信号的所述多个频段的幅度特征输入到例如图2中训练得到的音频处理模型中便可预测出与音频信号相应的降噪音频信号的幅度谱。

在本公开的示例性实施例中，所述不同的卷积神经网络层的内核大小和步幅被分别设置为彼此不同。

在步骤S305，基于预测出的幅度谱确定与音频信号相应的降噪音频信号。

在本公开的示例性实施例中，在基于预测出的幅度谱确定与音频信号相应的降噪音频信号时，可首先获取音频信号的相位谱，然后基于音频信号的相位谱和预测出的幅度谱确定与音频信号相应的降噪音频信号。

可将预测得到的幅度谱乘以相位信息，进行ISTFT变换，便可得到估计的期望信号(例如，降噪音频信号)。

X0(t)＝ISTFT(MagY_p(n，k)*PhaY(n，k))

这里，X0为估计的期望信号；MagY_p(n，k)为时频点(n，k)通过音频处理模型估计得到的幅度谱值；PhaY(n，k)为时频点(n，k)的相位值。

图4示出根据本公开的示例性实施例的对音频处理模型进行训练的整体系统框图。图5示出根据本公开的示例性实施例的使用训练后的音频处理模型进行音频处理的整体系统框图。

如图4所示，选取原始音频信号幅度谱，作为网络学习的目标(label)；将带噪语音的幅度谱作为网络学习的特征(feature)，此时，将带噪语音的幅度谱按照需求分为多个频段，例如，但不限于，可以分为高中低三个频段，将feature划分为featurel、feature2、和feature3，再将label和featurel、feature2、和feature3送入网络进行网络训练。在设计网络时，需要对featurel、feature2、和feature3分别进行不同的操作处理，例如，若最前面一层为卷积神经网络(CNN)层，则可将CNN分别设置不同的内核大小(kernal size)和步幅(strides)值，使得三个频段出来的频带数比可为，例如，但不限于，1∶1∶1，这样可均衡各频段的关系。这里，网络的最前面一层除了可以是卷积神经网络(CNN)层之外，也可以是深度神经网络(DNN)层。通过网络训练获得训练后的网络模型。如图5所示，将待测音频信号的特征进入网络模型进行预测，将预测得到的数值乘以带噪音频信号的相位信息(例如，相位谱)后进行短时反傅里叶变换(Inverse Short-Time Fourier Transform，ISTFT)得到最终预测的音频信号。

以上已经结合图1至图5对根据本公开的示例性实施例的音频处理模型的训练方法、音频处理方法进行了描述。在下文中，将参照图6和图7对根据本公开的示例性实施例的音频处理模型的训练装置及其单元、音频处理装置及其单元进行描述。

参照图6，音频处理模型的训练装置包括幅度获取单元61、频段划分单元62以及模型训练单元63。

幅度获取单元61被配置为获取纯净音频信号的幅度谱和带噪音频信号的幅度谱。这里，带噪音频信号与纯净音频信号相应。

在本公开的示例性实施例中，纯净音频信号的幅度谱和带噪音频信号的幅度谱可以是时频谱。

频段划分单元62被配置为将带噪音频信号的幅度谱分成多个频段，得到带噪音频信号的多个频段的幅度谱。

在本公开的示例性实施例中，频段划分单元62可被配置为：基于预设的频段数将带噪音频信号的幅度谱分成多个频段，其中，所述预设的频段数等于所述多个卷积神经网络的数量。

模型训练单元63被配置为通过音频处理模型中的多个卷积神经网络预测与带噪音频信号的所述多个频段中的每个频段的幅度谱相应的降噪幅度谱，得到多个频段的降噪幅度谱，基于所述多个频段的降噪幅度谱获得降噪音频信号的幅度谱，并且通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数。

在本公开的示例性实施例中，模型训练单元63可被配置为：将带噪音频信号的所述多个频段中的每个频段的幅度谱分别输入到音频处理模型中的所述多个卷积神经网络中的相应的卷积神经网络；在每个卷积神经网络中，基于卷积神经网络的内核大小和步幅对输入到卷积神经网络的幅度谱进行卷积操作，基于卷积操作结果确定与输入的幅度谱相应的降噪幅度谱，得到所述多个频段的降噪幅度谱。

在本公开的示例性实施例中，模型训练单元63可被配置为：计算纯净音频信号的幅度谱和降噪音频信号的幅度谱之间的差异；基于所述差异确定音频处理模型的预测损失；基于预测损失调整音频处理模型的模型参数，直至音频处理模型的预测损失满足预设条件时，将模型参数调整后的音频处理模型作为训练得到的音频处理模型。

图7示出根据本公开的示例性实施例的音频处理装置的框图。

参照图7，音频处理装置包括幅度获取单元71、频段划分单元72、降噪处理单元73以及结果确定单元74。

幅度获取单元71被配置为获取音频信号的幅度特征。

频段划分单元72被配置为将音频信号的幅度特征分成多个频段，得到音频信号的多个频段的幅度特征。

在本公开的示例性实施例中，频段划分单元72可被配置为：基于预设的频段数将音频信号的幅度特征分成多个频段。这里，所述预设的频段数等于所述多个卷积神经网络的数量。

降噪处理单元73被配置为通过音频处理模型中的多个卷积神经网络预测与音频信号的所述多个频段中的每个频段的幅度特征相应的降噪幅度特征，得到多个频段的降噪幅度特征，基于所述多个频段的降噪幅度特征获得降噪音频信号的幅度谱。

在本公开的示例性实施例中，降噪处理单元73可被配置为：将音频信号的所述多个频段中的每个频段的幅度特征分别输入到音频处理模型中的所述多个卷积神经网络中的相应的卷积神经网络；在每个卷积神经网络中，基于卷积神经网络的内核大小和步幅对输入到卷积神经网络的幅度特征进行卷积操作，基于卷积操作结果确定与输入的幅度谱相应的降噪幅度特征，得到所述多个频段的降噪幅度特征。

结果确定单元74被配置为基于预测出的幅度谱确定与音频信号相应的降噪音频信号。

在本公开的示例性实施例中，结果确定单元74可被配置为：获取音频信号的相位谱；基于音频信号的相位谱和预测出的幅度谱确定与音频信号相应的降噪音频信号。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

以上已经结合图6和图7对根据本公开的示例性实施例的音频处理模型的训练装置、音频处理装置进行了描述。接下来，结合图8对根据本公开的示例性实施例的电子设备进行描述。

图8是根据本公开的示例性实施例的电子设备800的框图。

参照图8，电子设备800包括至少一个存储器801和至少一个处理器802，所述至少一个存储器801中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器802执行时，执行根据本公开的示例性实施例的音频处理模型的训练的方法。

在本公开的示例性实施例中，电子设备800可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备800并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备800还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备800中，处理器802可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器802可运行存储在存储器801中的指令或代码，其中，存储器801还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器801可与处理器802集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器801可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器801和处理器802可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器802能够读取存储在存储器中的文件。

此外，电子设备800还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备800的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还提供一种包括指令的计算机可读存储介质，例如包括指令的存储器801，上述指令可由装置800的处理器802执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，实现根据本公开的示例性实施例的音频处理模型的训练的方法。

以上已参照图1至图8描述了根据本公开的示例性实施例的音频处理模型的训练方法及装置、音频处理方法及装置。然而，应该理解的是：图6和图7中所示的音频处理模型的训练装置及其单元、音频处理装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合，图8中所示的电子设备并不限于包括以上示出的组件，而是可根据需要增加或删除一些组件，并且以上组件也可被组合。

根据本公开的音频处理模型的训练方法及装置，通过获取纯净音频信号的幅度谱和带噪音频信号的幅度谱；将带噪音频信号的幅度谱分成多个频段，得到带噪音频信号的多个频段的幅度谱；通过音频处理模型中的多个卷积神经网络预测与带噪音频信号的所述多个频段中的每个频段的幅度谱相应的降噪幅度谱，得到多个频段的降噪幅度谱；基于所述多个频段的降噪幅度谱获得降噪音频信号的幅度谱；通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数，从而提高音频处理模型的降噪和语音保留效果，同时降低用于语音处理的网络或模型的复杂度。

此外，根据本公开的音频处理方法及装置，获取音频信号的幅度特征；将音频信号的幅度特征分成多个频段，得到音频信号的多个频段的幅度谱；通过音频处理模型中的多个卷积神经网络预测与音频信号的所述多个频段中的每个频段的幅度特征相应的降噪幅度特征，得到多个频段的降噪幅度特征；基于所述多个频段的降噪幅度特征获得降噪音频信号的幅度谱；基于预测出的幅度谱确定与音频信号相应的降噪音频信号，从而提高降噪和语音保留效果和效率。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理模型的训练方法，其特征在于，包括：

获取纯净音频信号的幅度谱和带噪音频信号的幅度谱，其中，带噪音频信号与纯净音频信号相应；

将带噪音频信号的幅度谱分成多个频段，得到带噪音频信号的多个频段的幅度谱；

通过音频处理模型中的多个卷积神经网络预测与带噪音频信号的所述多个频段中的每个频段的幅度谱相应的降噪幅度谱，得到多个频段的降噪幅度谱；

基于所述多个频段的降噪幅度谱获得降噪音频信号的幅度谱；

通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数。

2.根据权利要求1所述的训练方法，其特征在于，将带噪音频信号的幅度谱分成多个频段的步骤包括：基于预设的频段数将带噪音频信号的幅度谱分成多个频段，

其中，所述预设的频段数等于所述多个卷积神经网络的数量。

3.根据权利要求2所述的训练方法，其特征在于，所述多个卷积神经网络中的每个卷积神经网络的内核大小和步幅被分别设置为彼此不同，

其中，所述多个卷积神经网络中的每个卷积神经网络与所述多个频段中的一个频段相应。

4.根据权利要求1所述的训练方法，其特征在于，通过音频处理模型中的所述多个卷积神经网络预测带噪音频信号的所述多个频段中的每个频段的幅度谱的降噪幅度谱的步骤包括：

将带噪音频信号的所述多个频段中的每个频段的幅度谱分别输入到音频处理模型中的所述多个卷积神经网络中的相应的卷积神经网络；

在每个卷积神经网络中，基于卷积神经网络的内核大小和步幅对输入到卷积神经网络的幅度谱进行卷积操作，基于卷积操作结果确定与输入的幅度谱相应的降噪幅度谱，得到所述多个频段的降噪幅度谱。

5.根据权利要求1所述的训练方法，其特征在于，通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数包括：

计算纯净音频信号的幅度谱和降噪音频信号的幅度谱之间的差异；

基于所述差异确定音频处理模型的预测损失；

基于预测损失调整音频处理模型的模型参数，直至音频处理模型的预测损失满足预设条件时，将模型参数调整后的音频处理模型作为训练得到的音频处理模型。

6.一种音频处理方法，其特征在于，包括：

获取音频信号的幅度特征；

将音频信号的幅度特征分成多个频段，得到音频信号的多个频段的幅度特征；

通过音频处理模型中的多个卷积神经网络预测与音频信号的所述多个频段中的每个频段的幅度特征相应的降噪幅度特征，得到多个频段的降噪幅度特征；

基于所述多个频段的降噪幅度特征获得降噪音频信号的幅度谱；

基于预测出的幅度谱确定与音频信号相应的降噪音频信号。

7.一种音频处理模型的训练装置，其特征在于，包括：

幅度获取单元，被配置为获取纯净音频信号的幅度谱和带噪音频信号的幅度谱，其中，带噪音频信号与纯净音频信号相应；

频段划分单元，被配置为将带噪音频信号的幅度谱分成多个频段，得到带噪音频信号的多个频段的幅度谱；以及

模型训练单元，被配置为通过音频处理模型中的多个卷积神经网络预测与带噪音频信号的所述多个频段中的每个频段的幅度谱相应的降噪幅度谱，得到多个频段的降噪幅度谱，基于所述多个频段的降噪幅度谱获得降噪音频信号的幅度谱，并且通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数。

8.一种音频处理装置，其特征在于，包括：

幅度获取单元，被配置为获取音频信号的幅度特征；

频段划分单元，被配置为将音频信号的幅度特征分成多个频段，得到音频信号的多个频段的幅度特征；

降噪处理单元，被配置为通过音频处理模型中的多个卷积神经网络预测与音频信号的所述多个频段中的每个频段的幅度特征相应的降噪幅度特征，得到多个频段的降噪幅度特征，基于所述多个频段的降噪幅度特征获得降噪音频信号的幅度谱；以及

结果确定单元，被配置为基于预测出的幅度谱确定与音频信号相应的降噪音频信号。

9.一种电子设备/服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，当所述计算机程序被电子设备的处理器执行时，使得电子设备执行如权利要求1至6中任一项所述的方法。