CN113571047A

CN113571047A - 一种音频数据的处理方法、装置及设备

Info

Publication number: CN113571047A
Application number: CN202110820027.5A
Authority: CN
Inventors: 陈展
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-29
Anticipated expiration: 2041-07-20
Also published as: CN113571047B; WO2023001128A1

Abstract

本申请提供一种音频数据的处理方法、装置及设备，该方法包括：在降噪应用场景中，获取存在噪声的待处理音频数据；确定与所述待处理音频数据对应的音频特征向量；将所述音频特征向量输入给已训练的目标声码器模型，由所述目标声码器模型输出与所述音频特征向量对应的目标音频数据；其中，所述目标音频数据是对所述待处理音频数据的噪声进行降噪处理后的音频数据。通过本申请的技术方案，通过语音合成方式直接合成目标音频数据，不需要关注待处理音频数据中的噪声本身，只需要将音频特征向量输入给目标声码器模型，就能够用语音合成方式来生成目标音频数据，语音降噪的可靠性更高。

Description

一种音频数据的处理方法、装置及设备

技术领域

本申请涉及语音处理领域，尤其是一种音频数据的处理方法、装置及设备。

背景技术

在语音通话、视频会议、广播、家庭影院等音频系统中，经常会出现音频噪声等问题。比如说，接地不当产生的音频噪声、电磁辐射干扰产生的音频噪声、设备内部电路产生的音频噪声、电源干扰产生的音频噪声等。

为了去除音频数据中的噪声，提高音频数据的质量，就需要对音频数据进行降噪处理，得到去除噪声的音频数据。为了对音频数据进行降噪处理，可以采用单通道信号处理的降噪算法，如维纳滤波算法和谱减算法等，也可以采用多通道信号处理的降噪算法，如波束形成算法和盲源分离算法等。

但是，上述降噪算法均是直接对音频数据中的噪声进行降噪处理，存在无法对音频数据进行有效降噪，降噪效果不好等问题。比如说，若音频数据中存在非平稳噪声，则维纳滤波算法、谱减算法、波束形成算法和盲源分离算法等降噪算法，均无法对音频数据中的非平稳噪声进行降噪，降噪效果较差。

发明内容

本申请提供一种音频数据的处理方法，所述方法包括：

在降噪应用场景中，获取存在噪声的待处理音频数据；

确定与所述待处理音频数据对应的音频特征向量；

将所述音频特征向量输入给已训练的目标声码器模型，由所述目标声码器模型输出与所述音频特征向量对应的目标音频数据；其中，所述目标音频数据是对所述待处理音频数据的噪声进行降噪处理后的音频数据。

示例性的，所述目标声码器模型的训练过程，包括：

获取样本音频数据和所述样本音频数据对应的样本文本数据；

获取与所述样本文本数据对应的文本特征向量；

将所述文本特征向量输入给初始声码器模型，由所述初始声码器模型输出与所述文本特征向量对应的初始音频数据；

基于所述样本音频数据和所述初始音频数据对所述初始声码器模型进行训练，得到已训练的所述目标声码器模型。

示例性的，所述基于所述样本音频数据和所述初始音频数据对所述初始声码器模型进行训练，得到已训练的所述目标声码器模型，包括：

基于所述样本音频数据和所述初始音频数据确定目标损失值；

基于所述目标损失值确定所述初始声码器模型是否已收敛；

若否，则基于所述目标损失值对所述初始声码器模型的参数进行调整，得到调整后的声码器模型，将调整后的声码器模型作为初始声码器模型，返回执行将所述文本特征向量输入给初始声码器模型的操作；

若是，则将已收敛的初始声码器模型确定为所述目标声码器模型。

示例性的，所述将所述文本特征向量输入给初始声码器模型，由所述初始声码器模型输出与所述文本特征向量对应的初始音频数据，包括：

将所述文本特征向量输入给所述初始声码器模型的第一初始子模型，由所述第一初始子模型对所述文本特征向量进行处理，得到与所述文本特征向量对应的梅尔频率倒谱系数MFCC特征向量；将所述MFCC特征向量输入给所述初始声码器模型的第二初始子模型，由所述第二初始子模型对所述MFCC特征向量进行处理，得到与所述文本特征向量对应的初始音频数据。

示例性的，在获取样本音频数据时，样本音频数据的数量为多个，多个样本音频数据包括存在噪声的样本音频数据和不存在噪声的样本音频数据；所述不存在噪声的样本音频数据的数量大于所述存在噪声的样本音频数据的数量。

示例性的，所述确定与所述待处理音频数据对应的音频特征向量，包括：

获取与所述待处理音频数据对应的MFCC特征向量；

基于所述MFCC特征向量确定与所述待处理音频数据对应的音频特征向量。

在一种可能的实施方式中，所述目标声码器模型包括第一目标子模型和第二目标子模型，第一目标子模型用于将文本特征向量映射为MFCC特征向量，第二目标子模型用于将MFCC特征向量映射为音频数据；

所述将所述音频特征向量输入给已训练的目标声码器模型，由所述目标声码器模型输出与所述音频特征向量对应的目标音频数据，包括：

将所述音频特征向量输入给所述第二目标子模型，由所述第二目标子模型对所述音频特征向量进行处理，得到与所述音频特征向量对应的目标音频数据；

或，将所述音频特征向量输入给所述第一目标子模型，由所述第一目标子模型将所述音频特征向量输入给所述第二目标子模型，由所述第二目标子模型对所述音频特征向量进行处理，得到与所述音频特征向量对应的目标音频数据。

示例性的，所述降噪应用场景为需要进行语音降噪的应用场景；所述降噪应用场景为语音通话应用场景，或，所述降噪应用场景为视频会议应用场景。

本申请提供一种音频数据的处理装置，所述装置包括：

获取模块，用于在降噪应用场景中，获取存在噪声的待处理音频数据；

确定模块，用于确定与所述待处理音频数据对应的音频特征向量；

处理模块，用于将所述音频特征向量输入给已训练的目标声码器模型，由所述目标声码器模型输出与所述音频特征向量对应的目标音频数据；其中，所述目标音频数据是对所述待处理音频数据的噪声进行降噪处理后的音频数据。

本申请提供一种音频数据的处理设备，包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令；其中，所述处理器用于执行机器可执行指令，以实现如下步骤：

在降噪应用场景中，获取存在噪声的待处理音频数据；

确定与所述待处理音频数据对应的音频特征向量；

由以上技术方案可见，本申请实施例中，在降噪应用场景中，可以将存在噪声的待处理音频数据对应的音频特征向量输入给目标声码器模型，由目标声码器模型输出与音频特征向量对应的目标音频数据，从而基于音频特征向量直接合成目标音频数据，即目标音频数据是语音合成，也就是说，通过语音合成方式直接合成目标音频数据，不需要关注待处理音频数据中的噪声本身，只需要将音频特征向量输入给目标声码器模型，就能够用语音合成方式来生成目标音频数据，语音降噪的可靠性更高，具有更强的降噪能力，能够对音频数据进行有效降噪，具有很好的降噪效果。通过合成已降噪的目标音频数据，能够去除音频数据中的非平稳噪声，达到对音频数据中的非平稳噪声进行降噪的目的。

附图说明

为了更加清楚地说明本申请实施例或者现有技术中的技术方案，下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本申请实施例的这些附图获得其他的附图。

图1是本申请一种实施方式中的声码器模型的训练过程的示意图；

图2是本申请一种实施方式中的音频数据的处理方法的流程示意图；

图3是本申请一种实施方式中的获取MFCC特征向量的示意图；

图4是本申请一种实施方式中的语音合成的系统结构示意图；

图5是本申请一种实施方式中的音频数据的处理方法的流程示意图；

图6是本申请一种实施方式中的音频数据的处理装置的结构示意图；

图7是本申请一种实施方式中的音频数据的处理设备的硬件结构图。

具体实施方式

在本申请实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了去除音频数据中的噪声，提高音频数据的质量，就需要对音频数据进行降噪处理，得到去除噪声的音频数据。为了对音频数据进行降噪处理，可以采用单通道信号处理的降噪算法，如维纳滤波算法和谱减算法等，也可以采用多通道信号处理的降噪算法，如波束形成算法和盲源分离算法等，还可以采用深度学习算法，通过训练深度神经网络来对音频数据进行降噪处理。

关于单通道信号处理的降噪算法和多通道信号处理的降噪算法，均是直接对音频数据中的噪声进行降噪处理，存在无法对音频数据进行有效降噪，降噪效果不好等问题。比如说，若音频数据中存在非平稳噪声，则这些降噪算法就无法对音频数据中的非平稳噪声进行有效降噪，导致降噪效果较差。

关于深度学习算法的降噪处理方式，存在深度学习算法的可靠性不高，对某些噪声(如没有学习过的噪声)无法有效降噪，降噪效果较差等问题。

针对上述发现，本申请实施例中提出一种音频数据的处理方法，可以基于音频特征向量直接合成音频数据，即采用语音合成方式合成音频数据，是在单通道信号处理的降噪算法、多通道信号处理的降噪算法和深度学习算法基础上的第四种降噪方法，该降噪方法可以通过语音合成方式直接合成音频数据，不需要关注噪声本身，只需要将音频特征向量输入给目标声码器模型，就能够生成最终的音频数据，语音降噪的可靠性更高，具有更强的降噪能力，是一种基于语音合成的语音降噪方法，能够增强语音信号，提升语音可懂度。

以下结合具体实施例，对本申请实施例的技术方案进行说明。

本申请实施例中，为了采用语音合成方式合成音频数据，可以涉及声码器模型的训练过程及音频数据的处理过程。在声码器模型的训练过程中，可以利用训练数据对已配置的初始声码器模型(为了区分方便，可以将未完成训练的声码器模型称为初始声码器模型)进行训练，得到已训练的目标声码器模型(为了区分方便，可以将已完成训练的声码器模型称为目标声码器模型)。

在音频数据的处理过程中，可以将音频特征向量输入给已训练的目标声码器模型，由目标声码器模型直接合成与该音频特征向量对应的音频数据，即可以使用目标声码器模型直接合成音频数据，得到已去除噪声的音频数据。

以下对声码器模型的训练过程及音频数据的处理过程进行说明。

针对声码器模型的训练过程，可以预先配置一个声码器模型作为初始声码器模型，对此初始声码器模型的结构不做限制，只要能够将文本特征向量转换为音频数据即可，比如说，基于深度学习算法的初始声码器模型、基于神经网络(如卷积神经网络)的初始声码器模型、或其它类型的初始声码器模型。

参见图1所示，为声码器模型的训练过程的示意图，用于将初始声码器模型训练为目标声码器模型，也称为目标声码器模型的训练过程，该过程包括：

步骤101，获取样本音频数据和样本音频数据对应的样本文本数据。

示例性的，为了训练目标声码器模型，可以获取多个样本音频数据(为了区分方便，将训练过程中的音频数据称为样本音频数据)，即获取大量样本音频数据。在多个样本音频数据中，包括存在噪声的样本音频数据和不存在噪声的样本音频数据(也可以称为干净的样本音频数据)，不存在噪声的样本音频数据的数量可以大于存在噪声的样本音频数据的数量，或不存在噪声的样本音频数据的数量可以等于存在噪声的样本音频数据的数量，或不存在噪声的样本音频数据的数量可以小于存在噪声的样本音频数据的数量。当然，在实际应用中，针对获取的所有样本音频数据，也可以均为不存在噪声的样本音频数据。

综上所述，可以得到多个样本音频数据，这些样本音频数据作为初始声码器模型的训练数据，用于对初始声码器模型进行训练，也就是说，可以使用存在噪声的样本音频数据和不存在噪声的样本音频数据对初始声码器模型进行训练和优化，得到具有降噪能力的目标声码器模型。或者，也可以使用不存在噪声的样本音频数据对初始声码器模型进行训练和优化，得到目标声码器模型。

示例性的，针对每个样本音频数据来说，可以获取该样本音频数据对应的样本文本数据(为了区分方便，可以将训练过程中的文本数据称为样本文本数据)，比如说，可以预先配置该样本音频数据对应的样本文本数据。

比如说，样本音频数据可以是音频(能够听到的所有声音均可以称为音频)，音频即一段语音，如语音“今天天气真好”。样本文本数据可以是文本(即书面语言的表现形式，通常是一个或多个句子的组合)，文本即一段文字，如文字“今天天气真好”。显然，无论语音“今天天气真好”是否存在噪声，均可以配置该语音对应的文字是“今天天气真好”，对此过程不做限制。

综上所述，针对每个样本音频数据来说，均可以获取该样本音频数据对应的样本文本数据，对此样本文本数据的获取方式不做限制。

步骤102，获取与该样本文本数据对应的文本特征向量。

比如说，针对每个样本文本数据来说，可以获取与该样本文本数据对应的文本特征向量，也就是说，样本音频数据、样本文本数据与文本特征向量之间具有对应关系，例如，样本音频数据a1、样本文本数据b1与文本特征向量c1对应，样本音频数据a2、样本文本数据b2与文本特征向量c2对应，以此类推。

示例性的，针对每个样本文本数据来说，可以获取该样本文本数据对应的文本特征，文本特征的数量可以为至少一个，可以将所有文本特征组成一个特征向量，而这个特征向量就是文本特征向量。关于获取该样本文本数据对应的文本特征的方式，可以采用无监督方法获取，如TF-IDF(Term Frequency-Inverse Document Frequency，词频-逆文档频率)等，也可以采用监督方法获取，如卡方、信息增益、互信息等，对此获取方式不做限制，只要能够获取该样本文本数据对应的文本特征，并将获取的文本特征组成文本特征向量即可。

综上所述，可以获取每个样本文本数据对应的文本特征向量。

步骤103，将文本特征向量输入给初始声码器模型，由初始声码器模型输出与该文本特征向量对应的初始音频数据。示例性的，针对每个文本特征向量来说，可以将该文本特征向量输入给初始声码器模型，由初始声码器模型对该文本特征向量进行处理，得到与该文本特征向量对应的初始音频数据。

显然，文本特征向量与初始音频数据具有对应关系，即样本音频数据、样本文本数据、文本特征向量与初始音频数据之间具有对应关系，如样本音频数据a1、样本文本数据b1、文本特征向量c1与初始音频数据d1对应，样本音频数据a2、样本文本数据b2、文本特征向量c2对应与初始音频数据d2对应，以此类推。从上述对应关系可以看出，样本音频数据a1与初始音频数据d1(初始音频数据也是音频)对应，样本音频数据a2与初始音频数据d2对应。

在一种可能的实施方式中，可以预先配置一个声码器模型作为初始声码器模型，初始声码器模型的功能是将文本特征向量转换为音频数据，对此初始声码器模型的结构不做限制，只要能够将文本特征向量转换为音频数据即可，比如说，基于深度学习算法的初始声码器模型、基于神经网络的初始声码器模型等等。基于此，针对每个文本特征向量来说，在将该文本特征向量输入给初始声码器模型之后，由于该初始声码器模型用于将文本特征向量转换为音频数据，因此，初始声码器模型可以对该文本特征向量进行处理，得到与该文本特征向量对应的音频数据，为了区分方便，可以将初始声码器模型得到的音频数据称为初始音频数据，并输出与该文本特征向量对应的初始音频数据。

在一种可能的实施方式中，可以将初始声码器模型划分为两个子模型，这两个子模型分别为第一初始子模型和第二初始子模型，也就是说，初始声码器模型可以由第一初始子模型和第二初始子模型组成。第一初始子模型的功能是将文本特征向量转换为MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征向量，对此第一初始子模型的结构不做限制，只要第一初始子模型能够将文本特征向量转换为MFCC特征向量即可。第二初始子模型的功能是将MFCC特征向量转换为音频数据，对此第二初始子模型的结构也不做限制，只要第二初始子模型能够将MFCC特征向量转换为音频数据即可。

在语音识别领域中，MFCC特征向量是将语音物理信息(如频谱包络和细节等)进行编码运算得到的一组特征向量，是在Mel标度频率域提取出来的倒谱参数，而Mel标度则描述频率的非线性特性。需要注意的是，MFCC特征向量属于语音参数特征向量的一种实现方式，除了MFCC特征向量之外，语音参数特征向量还可以包括LPC(Linear PredictionCoefficients，线性预测分析)特征向量、PLP(Perceptual Linear Predictive，感知线性预测系数)特征向量、LPCC(Linear Predictive Cepstral Coefficient，线性预测倒谱系数)特征向量等。

综上所述，第一初始子模型的功能是将文本特征向量转换为语音参数特征向量，第二初始子模型的功能是将语音参数特征向量转换为音频数据，为了方便描述，本申请实施例中以语音参数特征向量是MFCC特征向量为例，针对LPC特征向量、PLP特征向量、LPCC特征向量，实现方式与MFCC特征向量类似。

在步骤103中，初始声码器模型由第一初始子模型和第二初始子模型组成，可以将文本特征向量输入给初始声码器模型的第一初始子模型，由第一初始子模型对文本特征向量进行处理，得到与该文本特征向量对应的MFCC特征向量。将MFCC特征向量输入给初始声码器模型的第二初始子模型，由第二初始子模型对MFCC特征向量进行处理，得到与该文本特征向量对应的初始音频数据。

比如说，针对每个文本特征向量来说，在将该文本特征向量输入给第一初始子模型后，由于第一初始子模型用于将文本特征向量转换为MFCC特征向量，因此，第一初始子模型可以对该文本特征向量进行处理，得到与该文本特征向量对应的MFCC特征向量，对此处理过程不做限制，并将MFCC特征向量输入给第二初始子模型。在将MFCC特征向量输入给第二初始子模型后，由于第二初始子模型用于将MFCC特征向量转换为音频数据，因此，第二初始子模型可以对该MFCC特征向量进行处理，得到与该文本特征向量对应的初始音频数据，对此处理过程不做限制，并输出与该文本特征向量对应的初始音频数据。

步骤104，基于样本音频数据和初始音频数据对初始声码器模型进行训练(即对初始声码器模型的参数进行调整)，得到已训练的目标声码器模型。

比如说，样本音频数据是真正存在的音频数据，初始音频数据是初始声码器模型得到的与样本文本数据对应的音频数据，显然，若样本音频数据与初始音频数据之间的损失值越小，则表示样本音频数据与初始音频数据越接近，即初始声码器模型的性能越好，初始声码器模型得到的初始音频数据越准确。若样本音频数据与初始音频数据之间的损失值越大，则表示样本音频数据与初始音频数据相差接大，即初始声码器模型的性能越差，初始声码器模型得到的初始音频数据越不准确。综上所述，可以基于样本音频数据与初始音频数据之间的损失值对初始声码器模型进行训练，得到已训练的目标声码器模型。

在一种可能的实施方式中，可以采用如下步骤对初始声码器模型进行训练：

步骤1041、基于样本音频数据和初始音频数据确定目标损失值。

示例性的，可以预先配置一个损失函数，该损失函数的输入可以为样本音频数据与初始音频数据之间的音频信号损失值，该损失函数的输出可以为目标损失值，因此，可以先确定样本音频数据与初始音频数据之间的音频信号损失值，并将该音频信号损失值代入该损失函数，从而得到目标损失值。

样本音频数据和初始音频数据均是音频信号，而样本音频数据与初始音频数据的差值就是音频信号损失值，比如说，将样本音频数据量化为可以运算的样本音频数据值，将初始音频数据量化为可以运算的初始音频数据值，对此量化方式不做限制，量化实际上是将音频信号数字化，得到可以运算的样本音频数据值和初始音频数据值。在得到样本音频数据值和初始音频数据值之后，样本音频数据值与初始音频数据值的差值的绝对值，可以是音频信号损失值。

当然，上述只是确定目标损失值的示例，对此不做限制，能够得到样本音频数据与初始音频数据的目标损失值即可，若目标损失值越小，初始声码器模型的性能越好，初始音频数据与样本音频数据相比越准确，若目标损失值越大，初始声码器模型的性能越差，初始音频数据与样本音频数据相比越不准确。

示例性的，参见上述实施例，可以得到多个样本音频数据和多个初始音频数据，且样本音频数据与初始音频数据具有一一对应关系，如样本音频数据a1与初始音频数据d1对应，样本音频数据a2与初始音频数据d2对应，以此类推。

基于每组数据集合(数据集合包括一个样本音频数据和该样本音频数据对应的初始音频数据)，可以确定与该数据集合对应的目标损失值。然后，基于所有数据集合对应的目标损失值计算一个最终的目标损失值，如计算所有数据集合对应的目标损失值的平均值、中位数等，对此计算方式不做限制。

步骤1042、基于目标损失值确定初始声码器模型是否已收敛。

若否，则可以执行步骤1043，若是，则可以执行步骤1044。

比如说，可以判断该目标损失值是否小于预设阈值，该预设阈值可以根据经验进行配置，对此预设阈值的取值不做限制，如预设阈值可以是大于0的数值。若该目标损失值小于该预设阈值，则确定该初始声码器模型已收敛。若该目标损失值不小于该预设阈值，则确定该初始声码器模型未收敛。

在实际应用中，还可以采用其它方式确定初始声码器模型是否已收敛，比如说，统计初始声码器模型的迭代次数(基于训练数据集合中的所有样本音频数据对初始声码器模型的参数进行调整，称为一次迭代)，若初始声码器模型的迭代次数达到次数阈值，则确定初始声码器模型已收敛，若初始声码器模型的迭代次数未达到次数阈值，则确定初始声码器模型未收敛。或者，统计初始声码器模型的迭代时长，若初始声码器模型的迭代时长达到时长阈值，则确定初始声码器模型已收敛，若初始声码器模型的迭代时长未达到时长阈值，则确定初始声码器模型未收敛。当然，上述只是示例，对此确定方式不做限制。

步骤1043、基于目标损失值对初始声码器模型的参数进行调整，得到调整后的声码器模型，将调整后的声码器模型作为初始声码器模型，并返回执行将文本特征向量输入给初始声码器模型的操作，即返回执行步骤103。

示例性的，基于该目标损失值，可以采用反向传播算法(如梯度下降法等)对初始声码器模型的参数进行调整，得到调整后的声码器模型，对此参数调整过程不做限制，只要能够对初始声码器模型的参数进行调整即可，且调整后的声码器模型能够使样本音频数据与初始音频数据之间的目标损失值变小。

示例性的，初始声码器模型可以由第一初始子模型和第二初始子模型组成，因此，可以对第一初始子模型的参数进行调整，得到调整后的第一初始子模型，对第二初始子模型的参数进行调整，得到调整后的第二初始子模型，而调整后的第一初始子模型和调整后的第二初始子模型就组成调整后的声码器模型。

步骤1044、将已收敛的初始声码器模型确定为目标声码器模型。至此，完成声码器模型的训练过程，即利用训练数据(如多个样本音频数据和多个样本文本数据)对初始声码器模型进行训练，得到已训练的目标声码器模型。

示例性的，已收敛的初始声码器模型可以由第一初始子模型和第二初始子模型组成，可以将已收敛的初始声码器模型中的第一初始子模型记为第一目标子模型，将已收敛的初始声码器模型中的第二初始子模型记为第二目标子模型，因此，目标声码器模型可以由第一目标子模型和第二目标子模型组成。

针对音频数据的处理过程，基于已训练的目标声码器模型，可以对存在噪声的音频数据进行处理，得到经过降噪处理后的音频数据，参见图2所示，为音频数据的处理方法的示意图，该音频数据的处理方法可以包括：

步骤201，在降噪应用场景中，获取存在噪声的待处理音频数据。

示例性的，在语音通话、视频会议、广播、家庭影院等音频系统中，经常会出现音频噪声等问题，因此，降噪应用场景可以包括但不限于：语音通话、视频会议、广播、家庭影院等音频系统，当然，上述只是几个示例，对此降噪应用场景不做限制，降噪应用场景可以为任何需要进行语音降噪的应用场景，比如说，降噪应用场景可以为语音通话应用场景，或，降噪应用场景可以为视频会议应用场景，或，降噪应用场景可以为语音对讲应用场景等。

示例性的，降噪应用场景中的音频数据是存在噪声的音频数据，可以将该音频数据称为待处理音频数据，因此，可以获取存在噪声的待处理音频数据。

步骤202，确定与该待处理音频数据对应的音频特征向量。

示例性的，针对待处理音频数据来说，可以获取待处理音频数据对应的音频特征，音频特征的数量可以为至少一个，可以将所有音频特征组成一个特征向量，而这个特征向量就是音频特征向量。音频特征向量是与语音参数有关的特征向量，可以包括但不限于MFCC特征向量、LPC特征向量、PLP特征向量、LPCC特征向量等，对此音频特征向量的类型不做限制，后续以MFCC特征向量为例，其它类型的音频特征向量的实现方式与MFCC特征向量类似。

在一种可能的实施方式中，确定与该待处理音频数据对应的音频特征向量，可以包括但不限于：获取与该待处理音频数据对应的MFCC特征向量，并基于该MFCC特征向量确定与该待处理音频数据对应的音频特征向量，比如说，可以将该MFCC特征向量作为与该待处理音频数据对应的音频特征向量。

比如说，可以先获取帧长为M毫秒(如16毫秒等)的待处理音频数据，然后，从待处理音频数据中提取出MFCC特征向量，如提取80维的MFCC特征向量，然后，将该MFCC特征向量作为待处理音频数据对应的音频特征向量。

示例性的，获取与该待处理音频数据对应的MFCC特征向量，可以包括但不限于如下方式：对该待处理音频数据进行加窗、快速傅里叶变换、基于梅尔滤波器组的滤波、对数运算和离散余弦变换，得到MFCC特征向量。

比如说，参见图3所示，为获取MFCC特征向量的示意图，首先，针对连续音频来说，可以对该连续音频进行预加重处理和分帧处理，得到多帧音频数据，每帧音频数据就是上述待处理音频数据，如16毫秒的待处理音频数据。

然后，可以对待处理音频数据进行加窗处理，得到加窗后数据，并对加窗后数据进行快速傅里叶变换处理(即FFT处理)，得到快速傅里叶变换后数据，并采用梅尔滤波器组对快速傅里叶变换后数据进行滤波处理，得到滤波后数据，并对滤波后数据进行对数运算处理，得到对数运算后数据，并对对数运算后数据进行离散余弦变换处理(即DCT处理)，得到离散余弦变换后数据，而离散余弦变换后数据就是MFCC特征向量，至此，得到MFCC特征向量。

在上述各步骤中，关于加窗、快速傅里叶变换、基于梅尔滤波器组的滤波、对数运算和离散余弦变换等处理的实现方式，本实施例中不做限制。

当然，上述只是获取与该待处理音频数据对应的MFCC特征向量的一个示例，对此实现方式不做限制，只要能够得到MFCC特征向量即可。

步骤203，将音频特征向量输入给已训练的目标声码器模型，由目标声码器模型输出与该音频特征向量对应的目标音频数据。示例性的，该目标音频数据可以是对待处理音频数据的噪声进行降噪处理后的音频数据。

示例性的，目标声码器模型能够将音频特征向量(即声学特征向量)通过反变换得到相应的声音波形，然后对声音波形进行拼接得到合成语音，该合成语音就是与该音频特征向量对应的目标音频数据。在上述方式中，可以基于音频特征向量直接合成目标音频数据，即通过语音合成方式直接合成目标音频数据，不需要关注待处理音频数据的噪声本身，语音降噪的可靠性更高，具有更强的降噪能力，因此，在将音频特征向量输入给目标声码器模型之后，目标声码器模型可以对音频特征向量进行处理，得到与该音频特征向量对应的目标音频数据，且目标音频数据是对待处理音频数据的噪声进行降噪处理后的音频数据，也就是说，通过语音合成方式合成了经过降噪处理的目标音频数据。

示例性的，目标声码器模型包括第一目标子模型和第二目标子模型，第一目标子模型(与初始声码器模型中第一初始子模型的功能相同)用于将文本特征向量映射为MFCC特征向量，第二目标子模型(与初始声码器模型中第二初始子模型的功能相同)用于将MFCC特征向量映射为音频数据，在此基础上：

在一种可能的实施方式中，可以将音频特征向量(即MFCC特征向量)输入给目标声码器模型的第二目标子模型，由第二目标子模型对音频特征向量进行处理，得到与该音频特征向量对应的目标音频数据。比如说，直接将MFCC特征向量输入给第二目标子模型(即MFCC特征向量不经过第一目标子模型，直接到达第二目标子模型)，第二目标子模型在得到MFCC特征向量后，由于第二目标子模型用于将MFCC特征向量映射为音频数据，因此，第二目标子模型可以对MFCC特征向量进行处理，得到与MFCC特征向量对应的目标音频数据，对此处理过程不做限制，并输出与MFCC特征向量对应的目标音频数据。

在另一种可能的实施方式中，还可以将音频特征向量(即MFCC特征向量)输入给目标声码器模型的第一目标子模型，由该第一目标子模型将该音频特征向量输入给目标声码器模型的第二目标子模型，以及，由该第二目标子模型对音频特征向量进行处理，得到与该音频特征向量对应的目标音频数据。

比如说，先将MFCC特征向量输入给第一目标子模型，第一目标子模型在得到MFCC特征向量后，不对MFCC特征向量进行处理，将MFCC特征向量输入给第二目标子模型，第二目标子模型在得到MFCC特征向量后，由于第二目标子模型用于将MFCC特征向量映射为音频数据，因此，第二目标子模型可以对MFCC特征向量进行处理，得到与MFCC特征向量对应的目标音频数据，对此处理过程不做限制，并输出与MFCC特征向量对应的目标音频数据。

以下结合具体应用场景，对音频数据的处理方法进行说明。

参见图4所示，为语音合成的系统结构示意图，该系统结构可以包括文本分析模块、韵律处理模块、声学处理模块和语音合成模块，文本分析模块和韵律处理模块为前端模块，声学处理模块和语音合成模块为后端模块。

文本分析模块用于模拟人对自然语音的理解过程，使计算机对输入的文本能够完全理解，为声学处理模块和语音合成模块提供各种发音、停顿等信息。

韵律处理模块用于处理发音的各种音段特征，如音高、音长和音强等，使合成的语音能够正确表达语义，语音听起来更加自然，然后根据分词和标注的结果提取文本特征，将文本特征变成一个个文本特征向量组成的序列。

声学处理模块(即声学模型)用于建立从文本特征向量到声学特征向量的映射，文本特征向量经过声学处理模块的处理，会变成声学特征向量。

语音合成模块(即声码器)用于将声学特征向量通过反变换得到相应的声音波形，比如说，可以将多个声学特征向量通过反变换，得到相应的多个声音波形，然后，可以对多个声音波形依次进行拼接得到合成语音。

基于上述语音合成的系统结构，本申请实施例中，可以只保留语音合成模块，去除文本分析模块、韵律处理模块和声学处理模块，在该情况下，可以直接确定与待处理音频数据对应的音频特征向量，如MFCC特征向量，而语音合成模块可以基于目标声码器模型得到与该MFCC特征向量对应的目标音频数据，该目标音频数据是对待处理音频数据的噪声进行降噪处理后的音频数据，也就是说，使用MFCC特征向量替换文本分析模块、韵律处理模块和声学处理模块的相关功能，直接用目标声码器模型来合成语音，实现一种新的降噪方式。

参见图5所示，为音频数据的处理方法的流程图，该方法可以包括：

步骤501，获取帧长为M毫秒(如16毫秒)的待处理音频数据。

步骤502，从待处理音频数据中提取出N维(如80维)的MFCC特征向量。

步骤503，将MFCC特征向量输入给目标声码器模型，由目标声码器模型输出与该MFCC特征向量对应的目标音频数据，实现音频数据的降噪处理。

基于与上述方法同样的申请构思，本申请实施例中提出一种音频数据的处理装置，参见图6所示，为所述装置的结构示意图，所述装置可以包括：

获取模块61，用于在降噪应用场景中，获取存在噪声的待处理音频数据；

确定模块62，用于确定与所述待处理音频数据对应的音频特征向量；

处理模块63，用于将所述音频特征向量输入给已训练的目标声码器模型，由所述目标声码器模型输出与所述音频特征向量对应的目标音频数据；其中，目标音频数据是对所述待处理音频数据的噪声进行降噪处理后的音频数据。

在一种可能的实施方式中，所述装置还包括(在图6中未示出)：

训练模块，用于采用如下方式训练得到所述目标声码器模型：

获取与所述样本文本数据对应的文本特征向量；

示例性的，所述训练模块基于所述样本音频数据和所述初始音频数据对所述初始声码器模型进行训练，得到已训练的所述目标声码器模型时具体用于：

基于所述目标损失值确定所述初始声码器模型是否已收敛；

示例性的，所述训练模块将所述文本特征向量输入给初始声码器模型，由所述初始声码器模型输出与所述文本特征向量对应的初始音频数据时具体用于：

在一种可能的实施方式中，所述确定模块62确定与所述待处理音频数据对应的音频特征向量时具体用于：获取与待处理音频数据对应的MFCC特征向量；基于所述MFCC特征向量确定与所述待处理音频数据对应的音频特征向量。

在一种可能的实施方式中，所述目标声码器模型包括第一目标子模型和第二目标子模型，所述第一目标子模型用于将文本特征向量映射为MFCC特征向量，所述第二目标子模型用于将MFCC特征向量映射为音频数据；所述处理模块63将所述音频特征向量输入给已训练的目标声码器模型，由所述目标声码器模型输出与所述音频特征向量对应的目标音频数据时具体用于：将所述音频特征向量输入给所述第二目标子模型，由所述第二目标子模型对所述音频特征向量进行处理，得到与所述音频特征向量对应的目标音频数据；或者，将所述音频特征向量输入给所述第一目标子模型，由所述第一目标子模型将所述音频特征向量输入给所述第二目标子模型，由所述第二目标子模型对所述音频特征向量进行处理，得到与所述音频特征向量对应的目标音频数据。

基于与上述方法同样的申请构思，本申请实施例中提出一种音频数据的处理设备，参见图7所示，所述音频数据的处理设备包括：处理器71和机器可读存储介质72，所述机器可读存储介质72存储有能够被所述处理器71执行的机器可执行指令；所述处理器71用于执行机器可执行指令，以实现如下步骤：

在降噪应用场景中，获取存在噪声的待处理音频数据；

确定与所述待处理音频数据对应的音频特征向量；

基于与上述方法同样的申请构思，本申请实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述计算机指令被处理器执行时，能够实现本申请上述示例公开的音频数据的处理方法。

其中，上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种音频数据的处理方法，其特征在于，所述方法包括：

在降噪应用场景中，获取存在噪声的待处理音频数据；

确定与所述待处理音频数据对应的音频特征向量；

2.根据权利要求1所述的方法，其特征在于，

所述目标声码器模型的训练过程，包括：

获取与所述样本文本数据对应的文本特征向量；

3.根据权利要求2所述的方法，其特征在于，

所述基于所述样本音频数据和所述初始音频数据对所述初始声码器模型进行训练，得到已训练的所述目标声码器模型，包括：

基于所述目标损失值确定所述初始声码器模型是否已收敛；

4.根据权利要求2所述的方法，其特征在于，

所述将所述文本特征向量输入给初始声码器模型，由所述初始声码器模型输出与所述文本特征向量对应的初始音频数据，包括：

5.根据权利要求2-4任一项所述的方法，其特征在于，

在获取样本音频数据时，样本音频数据的数量为多个，多个样本音频数据包括存在噪声的样本音频数据和不存在噪声的样本音频数据；其中，所述不存在噪声的样本音频数据的数量大于所述存在噪声的样本音频数据的数量。

6.根据权利要求1所述的方法，其特征在于，

所述确定与所述待处理音频数据对应的音频特征向量，包括：

获取与所述待处理音频数据对应的MFCC特征向量；

7.根据权利要求6所述的方法，其特征在于，所述目标声码器模型包括第一目标子模型和第二目标子模型，第一目标子模型用于将文本特征向量映射为MFCC特征向量，第二目标子模型用于将MFCC特征向量映射为音频数据；

8.根据权利要求1-4、6-7任一项所述的方法，其特征在于，

所述降噪应用场景为需要进行语音降噪的应用场景；其中，所述降噪应用场景为语音通话应用场景，或，所述降噪应用场景为视频会议应用场景。

9.一种音频数据的处理装置，其特征在于，所述装置包括：

10.一种音频数据的处理设备，其特征在于，包括：处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令；其中，所述处理器用于执行机器可执行指令，以实现如下步骤：

在降噪应用场景中，获取存在噪声的待处理音频数据；

确定与所述待处理音频数据对应的音频特征向量；