CN108986798A

CN108986798A - 语音数据的处理方法、装置及设备

Info

Publication number: CN108986798A
Application number: CN201810681124.9A
Authority: CN
Inventors: 李超; 朱唯鑫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2018-12-11
Anticipated expiration: 2038-06-27
Also published as: CN108986798B

Abstract

本申请提供一种语音数据的处理方法、装置及设备，该方法包括：提取待处理的音频帧的声学特征；将待处理的音频帧的声学特征输入预设的双头神经网络模型，获得待处理的音频帧对应的输出节点的值，双头神经网络模型由训练数据中各音频帧的声学特征及对应的第一标注数据和第二标注数据对双头神经网络训练得到；根据待处理的音频帧对应的输出节点的值，确定待处理的音频帧对应的去噪后声学特征。由于双头神经网络模型是由训练数据中各音频帧的声学特征及对应的第一标注数据和第二标注数据训练得到，采用两种标注数据，从而获得的梯度用来更新两个头共享的那部分网络参数，有利于让双头神经网络学习的更好，从而获得更好的性能。

Description

语音数据的处理方法、装置及设备

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音数据的处理方法、装置及设备。

背景技术

随着各种智能电子设备的发展，用户与智能电子设备的语音交互成为一种发展趋势，而语音交互中很重要的应用场景就是在高噪声情况下的语音识别，即把感兴趣的前景音从嘈杂的背景音中分离出来。

现有技术中，通常采用盲源分离算法实现前景音从嘈杂的背景音中分离，但是，盲源分离算法去噪效果差，对噪声的抑制能力低。

发明内容

本申请提供一种语音数据的处理方法、装置及设备，以解决现有技术去噪效果差等缺陷。

本申请第一个方面提供一种语音数据的处理方法，包括：

提取待处理的音频帧的声学特征；

将所述待处理的音频帧的声学特征输入预设的双头神经网络模型，获得所述待处理的音频帧对应的输出节点的值，所述双头神经网络模型由训练数据中各音频帧的声学特征及对应的第一标注数据和第二标注数据对双头神经网络训练得到；

根据所述待处理的音频帧对应的输出节点的值，确定待处理的音频帧对应的去噪后声学特征。

本申请的第二个方面提供一种语音数据的处理装置，包括：

提取模块，用于提取待处理的音频帧的声学特征；

处理模块，用于将所述待处理的音频帧的声学特征输入预设的双头神经网络模型，获得所述待处理的音频帧对应的输出节点的值，所述双头神经网络模型由训练数据中各音频帧的声学特征及对应的第一标注数据和第二标注数据对双头神经网络训练得到；

确定模块，用于根据所述待处理的音频帧对应的输出节点的值，确定待处理的音频帧对应的去噪后声学特征。

本申请第三个方面提供一种计算机设备，包括：至少一个处理器和存储器；

所述存储器存储计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，以实现第一个方面提供的方法。

本申请第四个方面提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现第一个方面提供的方法。

本申请提供的语音数据的处理方法、装置及设备，通过采用双头神经网络模型获得待处理的音频帧对应的输出节点的值，并进一步根据待处理的音频帧对应的输出节点的值，确定待处理的音频帧对应的去噪后声学特征，由于双头神经网络模型是由训练数据中各音频帧的声学特征及对应的第一标注数据和第二标注数据训练得到，采用两种标注数据，从而获得的梯度用来更新两个头共享的那部分网络参数，有利于让双头神经网络学习的更好，从而获得更好的性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的语音数据的处理方法的流程示意图；

图2为本申请一实施例提供的双头神经网络模型的结构示意图；

图3为本申请另一实施例提供的语音数据的处理方法的流程示意图；

图4为本申请一实施例提供的语音数据的处理装置的结构示意图；

图5为本申请另一实施例提供的语音数据的处理装置的结构示意图；

图6为本申请一实施例提供的计算机设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请所涉及的名词进行解释：

声学特征的提取：是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。

双头神经网络模型：是指具有两个输出层的神经网络模型。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

实施例一

本实施例提供一种语音数据的处理方法，用于对语音数据进行处理。本实施例的执行主体为语音数据的处理装置，该装置可以设置在计算机设备中，比如智能手机、智能电视、智能音箱、智能冰箱、服务器等等。

如图1所示，为本实施例提供的语音数据的处理方法的流程示意图，该方法包括：

步骤101，提取待处理的音频帧的声学特征。

其中，音频帧的声学特征可以是表征音频信号特征的信息。

具体的，当需要对待处理的音频帧进行去噪处理时，需要提取待处理的音频帧的声学特征。

可选的，待处理的音频帧的声学特征可以是梅尔频率倒谱系数(Mel FrequencyCepstral Coefficient，简称MFCC)、梅尔标度滤波器组(Mel-scale Filter Bank，简称FBank)、线性预测倒谱系数(Linear Predictive Cepstral Coding，简称LPCC)、感知线性预测(Perceptual Linear Predict ive，简称PLP)或者快速傅立叶变换(Fast FourierTransform，简称FFT)的幅值等等。

示例性的，可以采用FFT算法提取待处理的音频帧的FFT幅值特征，比如，我们采用FFT的幅值谱作为特征，32ms帧长，10ms帧移，16khz采样率下FFT的长度是512，其频点个数是257。

步骤102，将待处理的音频帧的声学特征输入预设的双头神经网络模型，获得待处理的音频帧对应的输出节点的值。

其中，双头神经网络模型由训练数据中各音频帧的声学特征及对应的第一标注数据和第二标注数据对双头神经网络训练得到。

具体的，训练数据中包括多个音频帧的声学特征及对应的第一标注数据和第二标注数据，第一标注数据可以为掩蔽值MASK标注数据，第二标注数据可以为语音活动检测VAD标注数据。

MASK标注数据可以通过以下公式一计算获得：

其中，t是时间的标度，也就是第t帧，f是频域点的标号，也就是第f个频点；表示第(t，f)时频点的clean(纯净)语音的功率；表示第(t，f)时频点的noisy(噪声)语音的功率。具体的计算过程为现有技术，在此不再赘述。VAD标注数据可以通过人工标注获得，具体标注方式为现有技术，在此不再赘述。

采用训练数据对预先建立的双头神经网络进行训练。将训练数据中的多个音频帧对应的声学特征输入神经网络，并将该声学特征对应的MASK标注数据和VAD标注数据分别给定到双头神经网络的两个输出层，来训练双头神经网络的网络参数，获得双头神经网络模型。

示例性的，如图2所示，为本实施例提供的双头神经网络模型的结构示意图。双头神经网络模型包括：特征输入层、第一隐藏层、第二隐藏层、分裂层、第三隐藏层、第四隐藏层、第一输出层和第二输出层；每一层可以包括一个或多个节点，具体节点的个数根据实际需求进行设置，在此不再赘述。其中，特征输入层的节点与第一隐藏层的节点连接，第一隐藏层的节点与第二隐藏层的节点连接，第二隐藏层的节点与分裂层的节点连接，分裂层的节点分别与第三隐藏层和第四隐藏层的节点连接，第三隐藏层的节点与第一输出层的节点连接，第四隐藏层与第二输出层的节点连接；分裂层用于：将输入到分裂层的信息复制成两份分别输出给第三隐藏层和第四隐藏层的节点。

第一输出层为掩蔽值MASK输出层，第二输出层为语音活动检测VAD输出层；第一隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层；第二隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层；第三隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层；第四隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层。即每个隐藏层可以是一层也可以是多层的堆叠，每个隐藏层可以是卷积神经网络层，也可以是循环神经网络层，还可以是其他类型的可实施的神经网络层，具体可以根据实际需求进行设置，本实施例不做限定。

MASK输出层为全连接层(即该层的每个节点都与上一层的所有节点相连)，其包括的MASK输出节点的个数与每个音频帧的声学特征的个数一致，激活采用sigmoid函数。VAD输出层也是全连接层，VAD输出层可以包括2个VAD输出节点，采用softmax函数激活，并且采用交叉熵损失函数(又称交叉熵代价函数)判断实际输出与期望输出的距离(接近程度)。

经过训练后形成的双头神经网络模型，可以用于语音数据的处理。

步骤103，根据待处理的音频帧对应的输出节点的值，确定待处理的音频帧对应的去噪后声学特征。

具体的，在将待处理的音频帧的声学特征输入预设的双头神经网络模型，获得待处理的音频帧对应的输出节点的值之后，该装置则可以根据待处理的音频帧对应的输出节点的值，确定待处理的音频帧对应的去噪后声学特征。

示例性的，将MASK输出层的节点输出的待处理的音频帧对应的MASK值，点乘待处理的音频帧对应的带噪声学特征，获得待处理的音频帧对应的去噪后声学特征，待处理的音频帧对应的带噪声学特征为对待处理的音频帧进行特征提取得到，这里的待处理的音频帧对应的带噪声学特征的提取方式可以与上述输入双头神经网络模型的待处理的音频帧的声学特征的提取方式相同，也可以不同。比如，待处理的音频帧的声学特征采用的是待处理的音频帧的FFT幅值特征，待处理的音频帧对应的带噪声学特征采用的可以是待处理的音频帧的FFT幅值特征，也可以是待处理的音频帧的MFCC特征。

本实施例提供的语音数据的处理方法，通过采用双头神经网络模型获得待处理的音频帧对应的输出节点的值，并进一步根据待处理的音频帧对应的输出节点的值，确定待处理的音频帧对应的去噪后声学特征，由于双头神经网络模型是由训练数据中各音频帧的声学特征及对应的第一标注数据和第二标注数据训练得到，采用两种标注数据，从而获得的梯度用来更新两个头共享的那部分网络参数，有利于让双头神经网络学习的更好，从而获得更好的性能。

实施例二

本实施例对实施例一提供的语音数据的处理方法做进一步补充说明。

如图3所示，为本实施例提供的语音数据的处理方法的流程示意图。

作为一种可实施的方式，在上述实施例一的基础上，可选地，双头神经网络模型包括：特征输入层、第一隐藏层、第二隐藏层、分裂层、第三隐藏层、第四隐藏层、第一输出层和第二输出层；其中，特征输入层的节点与第一隐藏层的节点连接，第一隐藏层的节点与第二隐藏层的节点连接，第二隐藏层的节点与分裂层的节点连接，分裂层的节点分别与第三隐藏层和第四隐藏层的节点连接，第三隐藏层的节点与第一输出层的节点连接，第四隐藏层与第二输出层的节点连接；分裂层用于：将输入到分裂层的信息复制成两份分别输出给第三隐藏层和第四隐藏层的节点。

可选的，第一输出层为掩蔽值MASK输出层，第二输出层为语音活动检测VAD输出层；第一隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层；第二隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层；第三隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层；第四隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层。

作为另一种可实施的方式，在上述实施例一的基础上，可选地，步骤103具体包括：

将第一输出层的节点输出的待处理的音频帧对应的MASK值，点乘待处理的音频帧对应的带噪声学特征，获得待处理的音频帧对应的去噪后声学特征，待处理的音频帧对应的带噪声学特征为对待处理的音频帧进行特征提取得到。

具体的，将MASK输出层的各节点输出的，待处理的音频帧对应的MASK值H_MASK点乘待处理的音频帧对应的带噪声学特征N，获得待处理的音频帧对应的去噪后声学特征P：

P＝H_MASK.*N

其中，H_MASK为包括多个MASK值的向量，其包括的MASK值的个数与待处理的音频帧对应的带噪声学特征N中特征的维数相同，N为包括多个声学特征的带噪声学特征向量。这里的待处理的音频帧对应的带噪声学特征的提取方式可以与上述输入双头神经网络模型的待处理的音频帧的声学特征的提取方式相同，也可以不同。比如，待处理的音频帧的声学特征采用的是待处理的音频帧的FFT幅值特征，待处理的音频帧对应的带噪声学特征采用的可以是待处理的音频帧的FFT幅值特征，也可以是待处理的音频帧的MFCC特征。

可选的，步骤101具体可以包括：采用快速傅立叶变换FFT算法、梅尔频率倒谱系数MFCC、滤波器组FBANK、感知线性预测PLP算法、线性预测倒谱系数LPCC算法中的至少一种算法提取待处理的音频帧的声学特征。

作为另一种可实施的方式，在上述实施例一的基础上，可选地，步骤101之前，该方法还可以包括：

步骤201，获取待处理的音频，对待处理的音频做分帧处理，得到待处理的音频的至少一个待处理的音频帧。

可选的，在步骤103之后，该方法还可以包括：

步骤104，对待处理的音频的各待处理的音频帧对应的去噪后声学特征进行语音识别处理，获得待处理的音频对应的去噪后的语义内容。

具体的，对待处理的音频帧进行去噪处理的目的是为后续语音识别能够更好的识别出语义内容。因此在获得待处理的音频帧对应的去噪后声学特征后，可以对待处理的音频的各待处理的音频帧对应的去噪后声学特征进行语音识别处理，获得待处理的音频对应的去噪后的语义内容。以智能电视为例，用户通过语音交互向智能电视输入语音数据，比如用户说一句话“打开XX频道”，同时可能还有其他人的声音成为该用户的背景噪声，智能电视中设置有本申请的语音数据的处理装置，该装置则可以在接收到用户的带噪语音数据后，转换成待处理的音频，并进行分帧处理，得到待处理的音频帧(一个或多个)，然后采用预设的双头神经网络模型对待处理的音频帧进行处理，获得各待处理的音频帧对应的MASK输出层输出的MASK值，并进一步将MASK输出层各节点输出的MASK值点乘该待处理的音频帧对应的带噪声学特征获得该待处理音频帧对应的去噪后声学特征，并进一步对去噪后声学特征进行语音识别，识别其语义内容，从而获得用户的需求为“打开XX频道”，并进一步响应用户的需求，为用户打开XX频道。实现用户与智能电视的一次完整的语音交互。

需要说明的是，这里只是以智能电视为例进行说明，该语音数据的处理方法还可以是应用于智能音箱、智能手机、智能冰箱等等能够与用户进行语音交互的计算机设备，也可以是应用于服务器，服务器可以借助语音输入设备获取用户语音数据，在服务器完成处理后，将获得的去噪后特征或者语音识别后的语义内容发送给语音输入设备或响应用户的设备。比如智能音箱，在获取用户语音数据后，可以转换为音频，发送给服务器，服务器识别并响应用户需求，将响应结果发送给智能音箱使智能音箱播报给用户等等。本实施例不做限定。

可选的，在训练获得双头神经网络模型后，还可以对获得的双头神经网络进行测试。示例性的，对一句话的语音数据转换成音频，并进行分帧处理，提取每一音频帧的声学特征，逐帧把各帧的声学特征输入双头神经网络模型，得到每一音频帧对应的H_MASK向量，点乘该帧对应的带噪声学特征，获得该帧的去噪后声学特征。具体过程与上述过程一致，在此不再赘述。

需要说明的是，本实施例中各可实施的方式可以单独实施，也可以在不冲突的情况下以任意组合方式结合实施本申请不做限定。

本实施例提供的语音数据的处理方法，通过采用双头神经网络模型获得待处理的音频帧对应的输出节点的值，并进一步根据待处理的音频帧对应的输出节点的值，确定待处理的音频帧对应的去噪后声学特征，由于双头神经网络模型是由训练数据中各音频帧的声学特征及对应的MASK标注数据和VAD标注数据训练得到，采用两种标注数据，且VAD标注数据更加精确，从而获得的梯度用来更新两个头共享的那部分网络参数，有利于让双头神经网络学习的更好，从而获得更好的性能。

实施例三

本实施例提供一种语音数据的处理装置，用于执行上述实施例一提供的语音数据的处理方法。

如图4所示，为本实施例提供的语音数据的处理装置的结构示意图。该语音数据的处理装置30包括提取模块31、处理模块32和确定模块33。

其中，提取模块31用于提取待处理的音频帧的声学特征；处理模块32用于将待处理的音频帧的声学特征输入预设的双头神经网络模型，获得待处理的音频帧对应的输出节点的值，双头神经网络模型由训练数据中各音频帧的声学特征及对应的第一标注数据和第二标注数据对双头神经网络训练得到；确定模块33用于根据待处理的音频帧对应的输出节点的值，确定待处理的音频帧对应的去噪后声学特征。

关于本实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

根据本实施例提供的语音数据的处理装置，通过采用双头神经网络模型获得待处理的音频帧对应的输出节点的值，并进一步根据待处理的音频帧对应的输出节点的值，确定待处理的音频帧对应的去噪后声学特征，由于双头神经网络模型是由训练数据中各音频帧的声学特征及对应的MASK标注数据和VAD标注数据训练得到，采用两种标注数据，且VAD标注数据更加精确，从而获得的梯度用来更新两个头共享的那部分网络参数，有利于让双头神经网络学习的更好，从而获得更好的性能。

实施例四

本实施例对上述实施例三提供的装置做进一步补充说明，用于执行上述实施例二提供的方法。

如图5所示，为本实施例提供的语音数据的处理装置的结构示意图。

作为一种可实施的方式，在上述实施例三的基础上，可选地，第一标注数据为掩蔽值MASK标注数据，第二标注数据为语音活动检测VAD标注数据；双头神经网络模型包括：特征输入层、第一隐藏层、第二隐藏层、分裂层、第三隐藏层、第四隐藏层、第一输出层和第二输出层；其中，特征输入层的节点与第一隐藏层的节点连接，第一隐藏层的节点与第二隐藏层的节点连接，第二隐藏层的节点与分裂层的节点连接，分裂层的节点分别与第三隐藏层和第四隐藏层的节点连接，第三隐藏层的节点与第一输出层的节点连接，第四隐藏层与第二输出层的节点连接；分裂层用于：将输入到分裂层的信息复制成两份分别输出给第三隐藏层和第四隐藏层的节点；第一输出层为掩蔽值MASK输出层，第二输出层为语音活动检测VAD输出层；

第一隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层；第二隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层；第三隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层；第四隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层。

作为另一种可实施的方式，在上述实施例三的基础上，可选地，确定模块，具体用于将第一输出层的节点输出的待处理的音频帧对应的MASK值，点乘待处理的音频帧对应的带噪声学特征，获得待处理的音频帧对应的去噪后声学特征，待处理的音频帧对应的带噪声学特征为对待处理的音频帧进行特征提取得到。

作为再一种可实施的方式，在上述实施例三的基础上，可选地，提取模块，具体用于采用快速傅立叶变换FFT算法、梅尔频率倒谱系数MFCC、滤波器组FBANK、感知线性预测PLP算法、线性预测倒谱系数LPCC算法中的至少一种算法提取待处理的音频帧的声学特征。

作为又一种可实施的方式，在上述实施例三的基础上，可选地，该装置30还包括获取模块34和分帧模块35。

其中，获取模块34用于获取待处理的音频；分帧模块35用于对待处理的音频做分帧处理，得到待处理的音频的至少一个待处理的音频帧。

可选的，处理模块，还用于对待处理的音频的各待处理的音频帧对应的去噪后声学特征进行语音识别处理，获得待处理的音频对应的去噪后的语义内容。

实施例五

本实施例提供一种计算机设备，用于执行上述实施例提供的语音数据的处理方法。

如图6所示，为本实施例提供的计算机设备的结构示意图。该计算机设备50包括：至少一个处理器51和存储器52；

存储器存储计算机程序；至少一个处理器执行存储器存储的计算机程序，以实现上述实施例提供的语音数据的处理方法。

根据本实施例的计算机设备，通过采用双头神经网络模型获得待处理的音频帧对应的输出节点的值，并进一步根据待处理的音频帧对应的输出节点的值，确定待处理的音频帧对应的去噪后声学特征，由于双头神经网络模型是由训练数据中各音频帧的声学特征及对应的MASK标注数据和VAD标注数据训练得到，采用两种标注数据，且VAD标注数据更加精确，从而获得的梯度用来更新两个头共享的那部分网络参数，有利于让双头神经网络学习的更好，从而获得更好的性能。

实施例六

本实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，计算机程序被执行时实现上述任一实施例提供的方法。

根据本实施例的计算机可读存储介质，通过采用双头神经网络模型获得待处理的音频帧对应的输出节点的值，并进一步根据待处理的音频帧对应的输出节点的值，确定待处理的音频帧对应的去噪后声学特征，由于双头神经网络模型是由训练数据中各音频帧的声学特征及对应的MASK标注数据和VAD标注数据训练得到，采用两种标注数据，且VAD标注数据更加精确，从而获得的梯度用来更新两个头共享的那部分网络参数，有利于让双头神经网络学习的更好，从而获得更好的性能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种语音数据的处理方法，其特征在于，包括：

提取待处理的音频帧的声学特征；

2.根据权利要求1所述的方法，其特征在于，所述双头神经网络模型包括：特征输入层、第一隐藏层、第二隐藏层、分裂层、第三隐藏层、第四隐藏层、第一输出层和第二输出层；

其中，所述特征输入层的节点与所述第一隐藏层的节点连接，所述第一隐藏层的节点与所述第二隐藏层的节点连接，所述第二隐藏层的节点与所述分裂层的节点连接，所述分裂层的节点分别与所述第三隐藏层和所述第四隐藏层的节点连接，所述第三隐藏层的节点与第一输出层的节点连接，所述第四隐藏层与所述第二输出层的节点连接；

所述分裂层用于：将输入到所述分裂层的信息复制成两份分别输出给所述第三隐藏层和所述第四隐藏层的节点。

3.根据权利要求2所述的方法，其特征在于，所述第一输出层为掩蔽值MASK输出层，所述第二输出层为语音活动检测VAD输出层；

所述第一隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层；

所述第二隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层；

所述第三隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层；

所述第四隐藏层包括至少一层卷积神经网络层或至少一层循环神经网络层。

4.根据权利要求3所述的方法，其特征在于，所述根据所述待处理的音频帧对应的输出节点的值，确定待处理的音频帧对应的去噪后声学特征，包括：

将第一输出层的节点输出的所述待处理的音频帧对应的MASK值，点乘所述待处理的音频帧对应的带噪声学特征，获得所述待处理的音频帧对应的去噪后声学特征，所述待处理的音频帧对应的带噪声学特征为对所述待处理的音频帧进行特征提取得到。

5.根据权利要求1所述的方法，其特征在于，所述第一标注数据为掩蔽值MASK标注数据，所述第二标注数据为语音活动检测VAD标注数据。

6.根据权利要求1所述的方法，其特征在于，提取待处理的音频帧的声学特征，包括：

采用快速傅立叶变换FFT算法、梅尔频率倒谱系数MFCC、滤波器组FBANK、感知线性预测PLP算法、线性预测倒谱系数LPCC算法中的至少一种算法提取所述待处理的音频帧的声学特征。

7.根据权利要求1-6任一项所述的方法，其特征在于，在提取待处理的音频帧的声学特征之前，所述方法还包括：

获取待处理的音频，对所述待处理的音频做分帧处理，得到所述待处理的音频的至少一个待处理的音频帧。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

对所述待处理的音频的各所述待处理的音频帧对应的去噪后声学特征进行语音识别处理，获得所述待处理的音频对应的去噪后的语义内容。

9.一种语音数据的处理装置，其特征在于，包括：

提取模块，用于提取待处理的音频帧的声学特征；

10.根据权利要求9所述的装置，其特征在于，所述第一标注数据为掩蔽值MASK标注数据，所述第二标注数据为语音活动检测VAD标注数据；

所述双头神经网络模型包括：特征输入层、第一隐藏层、第二隐藏层、分裂层、第三隐藏层、第四隐藏层、第一输出层和第二输出层；

所述分裂层用于：将输入到所述分裂层的信息复制成两份分别输出给所述第三隐藏层和所述第四隐藏层的节点；

所述第一输出层为掩蔽值MASK输出层，所述第二输出层为语音活动检测VAD输出层；

11.根据权利要求10所述的装置，其特征在于，所述确定模块，具体用于将第一输出层的节点输出的所述待处理的音频帧对应的MASK值，点乘所述待处理的音频帧对应的带噪声学特征，获得所述待处理的音频帧对应的去噪后声学特征，所述待处理的音频帧对应的带噪声学特征为对所述待处理的音频帧进行特征提取得到。

12.根据权利要求9所述的装置，其特征在于，所述提取模块，具体用于采用快速傅立叶变换FFT算法、梅尔频率倒谱系数MFCC、滤波器组FBANK、感知线性预测PLP算法、线性预测倒谱系数LPCC算法中的至少一种算法提取所述待处理的音频帧的声学特征。

13.根据权利要求9-12任一项所述的装置，其特征在于，还包括：

获取模块，用于获取待处理的音频；

分帧模块，用于对所述待处理的音频做分帧处理，得到所述待处理的音频的至少一个待处理的音频帧。

14.根据权利要求13所述的装置，其特征在于，所述处理模块，还用于对所述待处理的音频的各所述待处理的音频帧对应的去噪后声学特征进行语音识别处理，获得所述待处理的音频对应的去噪后的语义内容。

15.一种计算机设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机程序；所述至少一个处理器执行所述存储器存储的计算机程序，以实现权利要求1-8中任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现权利要求1-9中任一项所述的方法。