CN113096679A

CN113096679A - 音频数据处理方法和装置

Info

Publication number: CN113096679A
Application number: CN202110362289.1A
Authority: CN
Inventors: 陈诚
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-07-09

Abstract

本公开实施例提供一种音频数据处理方法和装置，该方法包括：获取时域音频数据；在时域音频数据中提取第一声学特征和第二声学特征，两个声学特征的维度小于预设维度；将第一声学特征和第二声学特征进行拼接得到输入特征；将输入特征输入至预先建立的语音增强模型中，在语音增强模型的网络层之间进行特征叠加处理，得到音频数据对应的掩膜特征；将掩膜特征扩展到频域后与时域音频数据的幅度谱特征相乘，得到所述音频数据中的人声预测结果。本公开实施例在实现抑制音频数据中的噪声的同时能够进一步降低特征维度，从而极大的降低了模型的参数量和计算复杂度，即使在实时通信场景下，也能够快速抑制语音数据中的噪声，得到更清晰、纯净的人声信号。

Description

音频数据处理方法和装置

技术领域

本公开实施例涉及音频处理技术领域，尤其涉及一种音频数据处理方法和装置。

背景技术

近年来，语音通信、视频通信等网络通信技术的发展极大的方便了人们的沟通需求。但是，用户在进行通信的过程中，音频数据往往会受到环境噪声、传输信道中的噪声等噪声影响，导致语音不清晰，影响通话质量。因此，亟需一种语音增强方法来对带噪声语音中的噪声部分进行抑制，同时，尽量保留音频数据中纯净语音部分，以提高语音质量。

相关技术中，常用的基于深度学习的语音增强方法是，基于深度学习的理想浮值掩蔽(Ideal Ratio Mask，IRM)的技术，先将时域语音数据变换到二维时频表达，对每个时频单元进行计算得到语音信号和噪声之间的能量比，然后根据计算得到的能量比确定权重以改变时频单元的能量大小，调整各个时频单元上对噪声的抑制程度，进而提升语音质量。

但是，现有的上述方法往往需要大量的计算时频单元能量的神经元和权重，导致整个过程计算复杂度很高。而由于在实时通信场景中需要对瞬态噪声进行抑制，大量复杂的计算过程需要浪费较多的时间，从而导致对噪声的抑制效果差的问题。

发明内容

本公开实施例提供一种音频数据处理方法和装置，以克服现有技术中在实时通信场景中需要对瞬态噪声进行抑制，大量复杂的计算过程需要浪费较多的时间，从而导致对噪声的抑制效果差的问题。

第一方面，本公开实施例提供一种音频数据处理方法，包括：

获取时域音频数据；

在所述时域音频数据中分别提取第一声学特征和第二声学特征，所述第一声学特征和所述第二声学特征的维度小于预设维度；

将所述第一声学特征和所述第二声学特征进行拼接，得到输入特征；

将所述输入特征输入至预先建立的语音增强模型中，以在所述语音增强模型的网络层之间进行特征叠加处理，得到所述音频数据对应的掩膜特征；

将所述掩膜特征扩展到频域后与所述时域音频数据的幅度谱特征相乘，得到所述音频数据中的人声预测结果。

第二方面，本公开实施例提供一种音频数据处理装置，包括：

数据获取模块，用于获取时域音频数据；

特征提取模块，用于在所述时域音频数据中分别提取第一声学特征和第二声学特征，所述第一声学特征和所述第二声学特征的维度小于预设维度；

特征拼接模块，用于将所述第一声学特征和所述第二声学特征进行拼接，得到输入特征；

特征处理模块，用于将所述输入特征输入至预先建立的语音增强模型中，以在所述语音增强模型的网络层之间进行特征叠加处理，得到所述音频数据对应的掩膜特征；

人声预测模块，用于将所述掩膜特征扩展到频域后与所述时域音频数据的幅度谱特征相乘，得到所述音频数据中的人声预测结果。

第三方面，本公开实施例提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的音频数据处理方法。

第四方面，本公开实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的音频数据处理方法。

第五方面，本公开实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现如上第一方面以及第一方面各种可能的设计所述的音频数据处理方法。

本公开实施例提供的音频数据处理方法和装置，该方法首先获取时域音频数据，然后在所述时域音频数据中分别提取第一声学特征和第二声学特征；将第一声学特征和第二声学特征频接，得到输入特征；将所述输入特征输入至预先建立的语音增强模型中，以在所述语音增强模型的网络层之间进行特征叠加处理，得到所述音频数据对应的掩膜特征；最后将所述掩膜特征扩展到频域后与所述时域音频数据的幅度谱特征相乘，得到所述音频数据中的人声预测结果。由于第一声学特征和第二声学特征维度小于预设维度，并且两者拼接得到的输入特征的维度也较小，因此将两者拼接后得到的输入特征输入至语音增强模型后语音增强模型以特征叠加的方式在网络层之间进行特征融合，在实现抑制音频数据中的噪声的同时能够进一步降低特征维度，从而极大的降低了模型的参数量和计算复杂度，从而避免了由于特征维度较大导致的计算过程复杂浪费较多时间，即使在实时通信场景下，也能够快速抑制语音数据中的噪声，得到更清晰、纯净的人声信号。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的音频数据处理方法的应用场景图；

图2为本公开实施例提供的音频数据处理方法流程示意图一；

图3为本公开实施例提供的音频数据处理方法流程示意图二；

图4为本公开实施例提供的音频数据处理方法流程示意图三；

图5为本公开实施例提供的语音增强模型的结构示意图；

图6为本公开实施例提供的音频数据处理装置的结构示意图；

图7为本公开实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

相关技术中，常用的基于深度学习的语音增强方法是，基于深度学习的理想浮值掩蔽(Ideal Ratio Mask，IRM)的技术，先将时域语音数据变换到二维时频表达，对每个时频单元进行计算得到语音信号和噪声之间的能量比，然后根据计算得到的能量比确定权重以改变时频单元的能量大小，调整各个时频单元上对噪声的抑制程度，进而提升语音质量。或者，先对时域语音数据进行短时傅里叶变换(Short Time Fourier Transform，STFT)，得到语音数据的频域特征谱，直接根据语音数据的频域特征谱预测纯净语音信号的幅度谱。但是，现有的上述方法往往需要大量的计算时频单元能量的神经元和权重，导致整个过程计算复杂度很高。而由于在实时通信场景中需要对瞬态噪声进行抑制，大量复杂的计算过程需要浪费较多的时间，从而导致对噪声的抑制效果差的问题。

针对此缺陷，本公开实施例的技术构思主要包括：设计一个三层循环神经网络的语音增强模型，在获取到时域音频数据后，先将时域音频数据通过短时傅里叶变换转换到复频域，然后将维度较大的频域特征转换到维度较小的巴克频率倒谱系数BFCC特征，并且，在音频数据中提取基音Pitch特征；将所述BFCC特征和Pitch特征进行拼接，得到输入特征；然后将所述输入特征输入至三层循环神经网络的语音增强模型中，以在所述语音增强模型的网络层之间进行特征叠加处理，得到所述音频数据对应的掩膜特征；最后将所述掩膜特征扩展到频域后与所述时域音频数据的幅度谱特征相乘，得到所述音频数据中的人声预测结果。由于BFCC特征和基音Pitch特征维度较小，并且两者拼接得到的输入特征的维度也较小，且BFCC特征有更好的人声谐波特性以及Pitch特征能很好的反映个人声音特征，因此将两者拼接后得到的输入特征输入至语音增强模型后，语音增强模型以特征叠加的方式在网络层之间进行特征融合，在实现抑制音频数据中的噪声的同时能够进一步降低特征维度，从而极大的降低了模型的参数量和计算复杂度，即使在实时通信场景下，也能够快速抑制语音数据中的噪声，得到更清晰、纯净的人声信号。

图1为本公开实施例提供的音频数据处理方法的应用场景图。

如图1所示，本实施例提供的场景为用户1和用户2使用通讯设备进行实时通话的场景，该场景中第一通讯设备实时采集用户1的语音数据，然后将语音数据通过无线信道发送至第二通讯设备，用户2通过第二通讯设备实时接收语音数据，同样的，用户2发送的语音数据也实时发送至第一通讯设备，由于用户1或用户2所处的环境中可能存在环境噪声，使得通讯设备采集到的语音数据中也夹杂着噪声，并且语音数据在无线信道传输过程中，也会收到信道噪声的干扰，导致对方用户接收到的语音数据中包含噪声，降低了语音质量。

图2为本公开实施例提供的音频数据处理方法流程示意图一，本实施例中提供的方法的执行主体可以是图1所示应用场景中的通讯设备、也可以是具备语音处理功能的服务端或者其他具有语音处理功能的设备，本实施例中不做具体限定。

如图2所示，本实施例提供的方法可以包括以下步骤。

S201，获取时域音频数据。

具体的，语音采集设备采集用户在通信过程中的音频数据，将采集到的音频数据以一帧一帧的方式传送至音频处理设备(比如服务端)，其中，一帧音频数据可以是10毫秒(ms)时域音频数据，也可以是20ms音频数据等，此处不做具体限定。

其中，语音采集设备可以是手机、平板电脑、对讲机等具备通讯功能的设备。

S202，在所述时域音频数据中分别提取第一声学特征和第二声学特征，所述第一声学特征和所述第二声学特征的维度小于预设维度。

其中，第一声学特征可以是巴克频率倒谱系数(Bark Frequency CepstralCoefficients，BFCC)特征，第二声学特征可以是Pitch特征，预设维度可以是40维。

本实施例中，巴克频率倒谱系数(Bark Frequency Cepstral Coefficients，BFCC)特征具备更好的人声谐波特性，Pitch特征能够很好的反应个人声音特征，并且，BFCC特征和Pitch特征的维度均较小，BFCC特征包括了22维度的倒谱特征、一个6维的一阶特征和一个6维的二阶差分特征，共34维，Pitch特征是维度为8维的向量。

具体的，对时域音频数据进行短时傅里叶变换，将时域音频数据转换到复频域，得到复频域的幅度谱特征，然后将维度较大的频域特征转换到维度较小的BFCC特征。然后，通过buffer对音频数据进行计算得到一段时间内最显著的pitch特征。

其中，缓冲区buffer是用来存储一段音频数据的缓冲区，比如，语音采集设备将采集到的每帧10ms音频数据传送至音频处理设备，音频处理设备接收到一帧一帧的10ms音频数据后将其存储在缓冲区内，一个缓冲区保存的音频数据大约为4帧40ms的音频数据，针对buffer内存储的40ms音频数据进行计算，得到该40ms内的pitch特征。

需要说明的是，BFCC特征和基音Pitch特征的详细提取过程将在后面实施例中说明。

S203，将所述第一声学特征和所述第二声学特征进行拼接，得到输入特征。

具体的，BFCC特征和Pitch特征均为向量，将两个向量拼接成一个向量便可以得到输入特征。

比如，BFCC特征是维度为34维的向量，Pitch特征是维度为8维的向量，将两者拼接得到维度为42维的输入特征。

S204，将所述输入特征输入至预先建立的语音增强模型中，以在所述语音增强模型的网络层之间进行特征叠加处理，得到所述音频数据对应的掩膜特征。

具体的，语音增强模型中包含多个网络层，将步骤S203得到的输入特征输入至语音增强模型，在所述语音增强模型的网络层之间进行特征叠加处理，叠加的作用在于特征融合，通过相加的方式能够保持维度不变的情况下进行特征融合，最终得到音频数据对应的掩膜特征，该掩膜特征用于消除音频数据中的噪声。

S205，将所述掩膜特征扩展到频域后与所述时域音频数据的幅度谱特征相乘，得到所述音频数据的人声预测结果。

具体的，将得到的掩膜特征扩展到频域之后直接与音频数据的频域幅度谱特征相乘，得到一个去噪的幅度谱，通过该去噪的幅度谱便能够还原更加清晰、纯净的人声信息。

本公开实施例中，通过获取时域音频数据，然后在所述时域音频数据中分别提取巴克频率倒谱系数BFCC特征和基音Pitch特征；将所述BFCC特征和Pitch特征进行拼接，得到输入特征；将所述输入特征输入至预先建立的语音增强模型中，以在所述语音增强模型的网络层之间进行特征叠加处理，得到所述音频数据对应的掩膜特征；最后将所述掩膜特征扩展到频域后与所述时域音频数据的幅度谱特征相乘，得到所述音频数据中的人声预测结果。由于BFCC特征和基音Pitch特征维度较小，并且两者拼接得到的输入特征的维度也较小，且BFCC特征有更好的人声谐波特性以及Pitch特征能很好的反映个人声音特征，因此将两者拼接后得到的输入特征输入至语音增强模型后语音增强模型以特征叠加的方式在网络层之间进行特征融合，在实现抑制音频数据中的噪声的同时能够进一步降低特征维度，从而极大的降低了模型的参数量和计算复杂度，即使在实时通信场景下，也能够快速抑制语音数据中的噪声，得到更清晰、纯净的人声信号。

图3为本公开实施例提供的音频数据处理方法流程示意图二，本实施例在图2所示实施例的基础上，对音频数据处理方法的完整过程进行详细描述。

如图3所示，本实施例提供的方法可以包括如下步骤。

S301，获取时域音频数据。

S302，在所述时域音频数据中分别提取巴克频率倒谱系数BFCC特征和基音Pitch特征。

在一种可能的实施例中，提取BFCC特征的过程为：对所述时域音频数据进行短时傅里叶变换，得到所述音频数据在复频域的幅度谱特征；根据所述幅度谱特征，确定所述音频数据的功率谱；将所述功率谱映射至巴克bark域，得到bark域功率谱数据；对所述bark域功率谱数据取对数，并对所述对数进行离散余弦变换，得到所述BFCC特征。

需要说明的是，通常通过对时域音频数据进行短时傅里叶变换得到的频域特征的维度往往会在161维度以上，如果直接使用频域特征预测人声，需要非常大的计算量，因此本实施例中将维度较大的频域特征转换成维度较小的BFCC特征，BFCC特征包括了22维度的倒谱特征、一个6维的一阶以及一个6维的二阶差分特征，共34维。

在一种可能的实施例中，可以基于基音提取算法，提取所述音频数据的Pitch特征，通过buffer对音频数据采用自相关函数进行计算得到一段时间内最显著的Pitch特征，Pitch特征的维度为8。其中，缓冲区buffer是用来存储一段音频数据的缓冲区，比如，语音采集设备将采集到的每帧10ms音频数据传送至音频处理设备，音频处理设备接收到一帧一帧的10ms音频数据后将其存储在缓冲区内，一个缓冲区保存的音频数据大约为4帧40ms的音频数据，针对buffer内存储的40ms音频数据进行计算，得到该40ms内的pitch特征。

一些实施例中，基音提取算法包括时域估计法、变换法和混合法这三大类，其中，时域估计法是直接由语音波形来估计基音周期，通常包括自相关函数法、并行处理法、平均幅度差法、数据减少法等；变换法，是一种将语音信号变换到频域或者时域来估计基音周期的方法，首先利用同态分析方法将声道的影响消除，得到属于激励部分的信息，然后求取基音周期，最常用的就是倒谱法，这种方法的缺点就是算法比较复杂，但是基音估计的效果较好；混合法，先提取信号声道模型参数，然后利用声道模型参数对信号进行滤波，得到音源序列，最后再利用自相关法或者平均幅度差法求得基音周期。

S303，将所述BFCC特征和基音Pitch特征拼接之后得到的输入特征输入至语音增强模型中，在所述语音增强模型的网络层之间进行特征融合处理，得到语音增强模型输出的掩膜特征。

具体的，BFCC特征和Pitch特征均为向量，本实施例中的BFCC特征是维度为34维的向量，Pitch特征是维度为8维的向量，将两个向量拼接成一个向量，得到维度为42维的输入特征。

在一种或多种可能的实施例中，语音增强模型包括三层门控循环单元(GatedRecurrent Unit，GRU)网络和三个全连接层以及两个加法器，其模型如图5所示，第一全连接层与第一GRU网络相连，第一GRU网络通过第一加法器与第二GRU网络相连，第一加法器的输入量包括第一全连接层的输出量和第一GRU网络的输出量；第二GRU网络通过第二加法器与第三GRU网络相连，第二加法器的输入量包括第一加法器的输出量和GRU网络的输出量；第三GRU网络还与第二全连接层相连，所述第一GRU网络还与第三全连接层相连。

具体的，将输入特征输入至语音增强模型中的第一全连接层，在所述语音增强模型中的循环神经网络和全连接网络之间进行特征叠加等处理，叠加的作用在于特征融合，通过相加的方式能够保持维度不变的情况下进行特征融合，最终得到音频数据对应的掩膜特征，该掩膜特征用于消除音频数据中的噪声。

S304，对所述掩膜特征进行后处理，得到目标掩膜特征。

具体的，基于三角滤波算法，对所述掩膜特征进行三角滤波后处理，得到滤波后的掩膜特征，通过对掩膜特征进行三角滤波，能够降低共振峰之间的残留噪声。

进一步的，基于包络后处理算法，对所述滤波后的掩膜特征进行包络后处理，通过包络后处理能够进一步增强掩膜的特征，进一步增强了模型对瞬态噪声的降噪能力。

S305，将所述目标掩膜特征扩展到频域后与时域音频数据的幅度谱特征相乘，得到所述音频数据中的人声预测结果。

具体的，将经过后处理得到的目标掩膜特征扩展到频域之后直接与音频数据的频域幅度谱特征相乘，得到一个去噪的幅度谱，通过该去噪的幅度谱便能够还原更加清晰、纯净的人声信息。

本公开实施例中，由于BFCC特征和基音Pitch特征维度较小，并且两者拼接得到的输入特征的维度也较小，且BFCC特征有更好的人声谐波特性以及Pitch特征能很好的反映个人声音特征，因此将两者拼接后得到的输入特征输入至语音增强模型后语音增强模型以特征叠加的方式在网络层之间进行特征融合，在实现抑制音频数据中的噪声的同时能够进一步降低特征维度，从而极大的降低了模型的参数量和计算复杂度，即使在实时通信场景下，也能够快速抑制语音数据中的噪声，得到更清晰、纯净的人声信号。更进一步的，通过对掩膜特征进行后处理，进一步增强了模型对瞬态噪声的降噪能力，使其在低端机型中也可以流畅运行，能够满足实时通信场景的需求。

为了更好的理解本申请，下面结合图4所示的特征处理方法流程示意图和图5所示的语音增强模型，对特征处理的过程进一步详细描述。

需要说明的是，GRU网络属于一种循环神经网络，通过网络可以在时序上进行建模。本实施例中的语音增强模型使用三层的GRU网络结构进行建模处理，通过多层GRU网络进行特征捕捉，使得最终输出的掩膜特征能够更好的抑制噪声。

在本实施例一种可能的情况，对输入特征进行处理的方法包括：将所述输入特征依次输入至第一全连接层和第一GRU网络，对所述第一全连接层和第一GRU网络分别输出的特征进行第一次特征叠加处理；将所述第一次叠加处理得到的特征输入第二GRU网络，对所述第二GRU网络输出的特征进行第二次特征叠加处理；将所述第二次特征叠加处理得到的特征依次输入第三GRU网络和第二全连接层，得到输出特征；将所述输出特征映射为掩膜特征。

具体的，如图4所示，对输入特征进行处理的方法具体包括以下步骤。

S401，将所述输入特征输入至第一全连接层，所述第一全连接层将所述输入特征映射为第一中间特征，所述第一中间特征的维度低于所述输入特征的维度。

具体的，第一全连接层的作用是特征映射和降低特征维度，本步骤中，将34维的BFCC特征和8维的Pitch特征拼接得到的42维输入特征输入至第一全连接层，第一全连接层将42维的输入特征映射成32维的第一中间特征。

S402，将所述第一中间特征输入至第一GRU网络，得到所述第一GRU网络输出的第二中间特征。

其中，第一GRU网络输出的第二中间特征与第一中间特征维度相同，均为32维。

在一种可能的实施例中，参见图5，第一GRU网络输出的第二中间特征可以输入至第三全连接层，所述第三全连接层用于将32维度的所述第二中间特征映射为维度为2的语音概率输出(Voice Activity Detection，VAD)特征，并通过softmax函数将所述VAD特征的数值映射到预设数值范围内，所述预设数值范围为[0，1]，所述语音概率输出特征用于判断所述音频数据中是否存在人声信息。

S403，将所述第一中间特征与所述第二中间特征进行叠加，得到第三中间特征。

具体的，通过语音增强模型中的第一加法器，将第一中间特征和第二中间特征相加，得到新的第三中间特征作为第二GRU网络的输入。其中，通过相加的方式对第一中间特征和第二中间特征进行融合，不会增加特征维度，得到的第三中间特征的维度与第一中间特征和第二中间特征的维度相同，均为32维。

S404，将所述第三中间特征输入至第二GRU网络，得到所述第二GRU网络输出的第四中间特征。

其中，第二GRU网络输出的第四中间特征的维度与第三中间特征相同，为32维。

S405，将所述第三中间特征与所述第四中间特征进行叠加，得到第五中间特征。

具体的，参见图5，通过第二加法器将第三中间特征与第四中间特征相加，得到新的第五中间特征作为第三GRU网络的输入。

同样的，通过相加的方式对第三中间特征和第四中间特征进行融合，不会增加特征维度，得到的第五中间特征依然是32维。

S406，将所述第五中间特征输入至第三GRU网络，得到所述第三GRU网络输出的第六中间特征。

其中，输出的第六中间特征与输入的第五中间特征相同，是32维。

S407，将所述第六中间特征输入至第二全连接层，所述第二全连接层将所述第六中间特征映射为输出特征，所述输出特征的维度小于所述第六中间特征的维度。

具体的，第二全连接层用于降低第六中间特征的维度，将32维的第六中间特征映射为22维的输出特征。

本步骤中，通过第二全连接层进一步降低了特征维度，减少了计算量。

S408，将所述输出特征映射为掩膜特征。

具体的，可以通过sigmoid函数将所述输出特征映射为数值范围是[0，1]的掩膜特征

本实施例中，基于三层GRU网络的语音增强模型，GRU特征的融合方式使得模型的参数量和计算维度大大减少，同时还保证了人声预测效果。

图6为本公开实施例提供的音频数据处理装置的结构示意图。

如图6所示，本实施例提供的装置包括：数据获取模块601，特征提取模块602，特征拼接模块603，特征处理模块604和人声预测模块605；其中，数据获取模块601，用于获取时域音频数据；特征提取模块602，用于在所述时域音频数据中分别提取第一声学特征和第二声学特征，所述第一声学特征和所述第二声学特征的维度小于预设维度；特征拼接模块603，用于将所述第一声学特征和所述第二声学特征进行拼接，得到输入特征；特征处理模块604，用于将所述输入特征输入至预先建立的语音增强模型中，以在所述语音增强模型的网络层之间进行特征叠加处理，得到所述音频数据对应的掩膜特征；人声预测模块605，用于将所述掩膜特征扩展到频域后与所述时域音频数据的幅度谱特征相乘，得到所述音频数据中的人声预测结果。

进一步的，所述第一声学特征为巴克频率倒谱系数BFCC特征，所述特征提取模块具体用于：

对所述时域音频数据进行短时傅里叶变换，得到所述音频数据在复频域的幅度谱特征；

根据所述幅度谱特征，确定所述音频数据的功率谱；

将所述功率谱映射至巴克域，得到巴克域功率谱数据；

对所述巴克域功率谱数据取对数，并对所述对数进行离散余弦变换，得到所述BFCC特征。

进一步的，所述第二声学特征为基音Pitch特征，所述特征提取模块具体用于：基于基音提取算法，提取所述音频数据的Pitch特征。

进一步的，所述语音增强模型包括三层门控循环单元GRU网络和三个全连接层，所述特征处理模块具体用于：

将所述输入特征依次输入至第一全连接层和第一GRU网络，对所述第一全连接层和第一GRU网络分别输出的特征进行第一次特征叠加处理；

将所述第一次叠加处理得到的特征输入第二GRU网络，对所述第二GRU网络输出的特征进行第二次特征叠加处理；

将所述第二次特征叠加处理得到的特征依次输入第三GRU网络和第二全连接层，得到输出特征；

将所述输出特征映射为掩膜特征。

进一步的，所述特征处理模块具体用于：

将所述输入特征输入至第一全连接层，所述第一全连接层将所述输入特征映射为第一中间特征，所述第一中间特征的维度低于所述输入特征的维度；

将所述第一中间特征输入至第一GRU网络，得到所述第一GRU网络输出的第二中间特征；

将所述第一中间特征与所述第二中间特征进行叠加，得到第三中间特征。

进一步的，所述特征处理模块具体用于：

将所述第三中间特征输入至第二GRU网络，得到所述第二GRU网络输出的第四中间特征；

将所述第三中间特征与所述第四中间特征进行叠加，得到第五中间特征。

进一步的，所述特征处理模块具体用于：

将所述第五中间特征输入至第三GRU网络，得到所述第三GRU网络输出的第六中间特征；

将所述第六中间特征输入至第二全连接层，所述第二全连接层将所述第六中间特征映射为输出特征，所述输出特征的维度小于所述第六中间特征的维度。

进一步的，特征处理模块还用于：

将所述第二中间特征输入至第三全连接层，所述第三全连接层将所述第二中间特征映射为维度为二的语音概率输出VAD特征，并将所述VAD特征的数值映射到预设数值范围内，所述预设数值范围为[0，1]。

所述语音概率输出特征用于判断所述音频数据中是否存在人声信息。

进一步的，本实施例提供的装置还包括：后处理模块606，用于基于三角滤波算法，对所述掩膜特征进行三角滤波后处理，得到滤波后的掩膜特征。

进一步的，所述后处理模块还用于：基于包络后处理算法，对所述滤波后的掩膜特征进行包络处理。

进一步的，所述语音增强模型还包括第一加法器和第二加法器，其中，

所述第一全连接层与第一GRU网络相连，所述第一GRU网络通过所述第一加法器与第二GRU网络相连，所述第一加法器的输入量包括所述第一全连接层的输出量和所述第一GRU网络的输出量；

所述第二GRU网络通过第二加法器与第三GRU网络相连，所述第二加法器的输入量包括所述第一加法器的输出量和所述GRU网络的输出量；

所述第三GRU网络还与第二全连接层相连，所述第一GRU网络还与第三全连接层相连。

本实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

参考图7，其示出了适于用来实现本公开实施例的电子设备700的结构示意图，该电子设备700可以为终端设备或服务器。其中，终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑(Portable Android Device，简称PAD)、便携式多媒体播放器(Portable MediaPlayer，简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(Read Only Memory，简称ROM)702中的程序或者从存储装置708加载到随机访问存储器(Random Access Memory，简称RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(Liquid CrystalDisplay，简称LCD)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM702被安装。在该计算机程序被处理装置701执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network，简称LAN)或广域网(Wide Area Network，简称WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

第一方面，根据本公开的一个或多个实施例，提供了一种音频数据的处理方法，包括：

获取时域音频数据；

根据本公开的一个或多个实施例，所述第一声学特征为巴克频率倒谱系数BFCC特征，所述在所述时域音频数据中提取第一声学特征，包括：

根据所述幅度谱特征，确定所述音频数据的功率谱；

将所述功率谱映射至巴克域，得到巴克域功率谱数据；

根据本公开的一个或多个实施例，所述第二声学特征为基音Pitch特征，所述在所述时域音频数据中提取第二声学特征，包括：

基于基音提取算法，提取所述音频数据的Pitch特征。

根据本公开的一个或多个实施例，所述语音增强模型包括三层门控循环单元GRU网络和三个全连接层，所述将所述输入特征输入至预先建立的语音增强模型中，以在所述语音增强模型的网络层之间进行特征叠加处理，得到所述音频数据对应的掩膜特征，包括：

将所述输出特征映射为掩膜特征。

根据本公开的一个或多个实施例，所述将所述输入特征依次输入至第一全连接层和第一GRU网络，对所述第一全连接层和第一GRU网络分别输出的特征进行第一次特征叠加处理，包括：

根据本公开的一个或多个实施例，所述将所述第一次叠加处理得到的特征输入第二GRU网络，对所述第二GRU网络输出的特征进行第二次特征叠加处理，包括：

根据本公开的一个或多个实施例，所述将所述第二次特征叠加处理得到的特征依次输入第三GRU网络和第二全连接层，得到输出特征，包括：

根据本公开的一个或多个实施例，所述方法还包括：

根据本公开的一个或多个实施例，所述将所述掩膜特征扩展到频域后与所述时域音频数据的幅度谱特征相乘之前，所述方法还包括：

基于三角滤波算法，对所述掩膜特征进行三角滤波后处理，得到滤波后的掩膜特征。

根据本公开的一个或多个实施例，所述方法还包括：

基于包络后处理算法，对所述滤波后的掩膜特征进行包络处理。

根据本公开的一个或多个实施例，所述语音增强模型还包括第一加法器和第二加法器，其中，

第二方面，根据本公开的一个或多个实施例，提供了一种音频数据处理装置，包括：数据获取模块，特征提取模块，特征拼接模块，特征处理模块和人声预测模块；其中，数据获取模块，用于获取时域音频数据；特征提取模块，用于在所述时域音频数据中分别提取第一声学特征和第二声学特征，所述第一声学特征和所述第二声学特征的维度小于预设维度；特征拼接模块，用于将所述第一声学特征和所述第二声学特征进行拼接，得到输入特征；特征处理模块，用于将所述输入特征输入至预先建立的语音增强模型中，以在所述语音增强模型的网络层之间进行特征叠加处理，得到所述音频数据对应的掩膜特征；人声预测模块，用于将所述掩膜特征扩展到频域后与所述时域音频数据的幅度谱特征相乘，得到所述音频数据中的人声预测结果。

根据本公开的一个或多个实施例，所述第一声学特征为巴克频率倒谱系数BFCC特征，所述特征提取模块具体用于：

根据所述幅度谱特征，确定所述音频数据的功率谱；

将所述功率谱映射至巴克域，得到巴克域功率谱数据；

根据本公开的一个或多个实施例，所述第二声学特征为基音Pitch特征，所述特征提取模块具体用于：基于基音提取算法，提取所述音频数据的Pitch特征。

根据本公开的一个或多个实施例，所述语音增强模型包括三层门控循环单元GRU网络和三个全连接层，所述特征处理模块具体用于：

将所述输出特征映射为掩膜特征。

根据本公开的一个或多个实施例，所述特征处理模块具体用于：

根据本公开的一个或多个实施例，特征处理模块还用于：

根据本公开的一个或多个实施例，本实施例提供的装置还包括：后处理模块，用于基于三角滤波算法，对所述掩膜特征进行三角滤波后处理，得到滤波后的掩膜特征。

根据本公开的一个或多个实施例，所述后处理模块还用于：基于包络后处理算法，对所述滤波后的掩膜特征进行包络处理。

第三方面，根据本公开的一个或多个实施例，提供了一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

第四方面，根据本公开的一个或多个实施例，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的音频数据处理方法。

第五方面，根据本公开的一个或多个实施例，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现如上第一方面以及第一方面各种可能的设计所述的音频数据处理方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种音频数据处理方法，其特征在于，方法包括：

获取时域音频数据；

将所述掩膜特征扩展到频域后与所述时域音频数据的幅度谱特征相乘，得到所述音频数据的人声预测结果。

2.根据权利要求1所述的方法，其特征在于，所述第一声学特征为巴克频率倒谱系数BFCC特征，所述在所述时域音频数据中提取第一声学特征，包括：

根据所述幅度谱特征，确定所述音频数据的功率谱；

将所述功率谱映射至巴克域，得到巴克域功率谱数据；

3.根据权利要求1所述的方法，其特征在于，所述第二声学特征为基音Pitch特征，所述在所述时域音频数据中提取第二声学特征，包括：

基于基音提取算法，提取所述音频数据的Pitch特征。

4.根据权利要求1所述的方法，其特征在于，所述语音增强模型包括三层门控循环单元GRU网络和三个全连接层，所述将所述输入特征输入至预先建立的语音增强模型中，以在所述语音增强模型的网络层之间进行特征叠加处理，得到所述音频数据对应的掩膜特征，包括：

将所述输出特征映射为掩膜特征。

5.根据权利要求4所述的方法，其特征在于，所述将所述输入特征依次输入至第一全连接层和第一GRU网络，对所述第一全连接层和第一GRU网络分别输出的特征进行第一次特征叠加处理，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述第一次叠加处理得到的特征输入第二GRU网络，对所述第二GRU网络输出的特征进行第二次特征叠加处理，包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述第二次特征叠加处理得到的特征依次输入第三GRU网络和第二全连接层，得到输出特征，包括：

8.根据权利要求5-7任一项所述的方法，其特征在于，还包括：

将所述第二中间特征输入至第三全连接层，所述第三全连接层将所述第二中间特征映射为维度为二的语音概率输出VAD特征，并将所述VAD特征的数值映射到预设数值范围内，所述预设数值范围为[0，1]，所述语音概率输出特征用于判断所述音频数据中是否存在人声信息。

9.根据权利要求1-7任一项所述的方法，其特征在于，所述将所述掩膜特征扩展到频域后与所述时域音频数据的幅度谱特征相乘之前，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，还包括：

11.根据权利要求8所述的方法，其特征在于，所述语音增强模型还包括第一加法器和第二加法器，其中，

12.一种音频数据处理装置，其特征在于，包括：

数据获取模块，用于获取时域音频数据；

13.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-11任一项所述的音频数据处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-11任一项所述的音频数据处理方法。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-11任一项所述的音频数据处理方法。