CN108648769A

CN108648769A - 语音活性检测方法、装置及设备

Info

Publication number: CN108648769A
Application number: CN201810362694.1A
Authority: CN
Inventors: 李超; 朱唯鑫; 文铭
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2018-10-12

Abstract

本发明提供一种语音活性检测方法、装置及设备。本发明的方法，通过预先由训练数据中各音频帧的声学特征和标注数据对深度神经网络训练得到深度神经网络模型，将提取的待检测的音频帧的声学特征直接输入预设的深度神经网络模型，计算待检测的音频帧对应的输出节点的值，根据待检测的音频帧对应的输出节点的值，确定待检测的音频帧是否为有效语音，针对不同的应用场景和产品线，只需采用与应用场景或者产品线相对应的训练数据对深度神经网络训练，得到的深度神经网络模型能够适用于该场景或者产品线，可以适用于多种不同的场景和产品线，通用性好，并且无需对声学特征进行复杂的特征设计过程和人工调试，提高了对音频帧的识别效率。

Description

语音活性检测方法、装置及设备

技术领域

本发明涉及语音识别领域，尤其涉及一种语音活性检测方法、装置及设备。

背景技术

随着语音搜索业务的不断普及，越来越多的人开始使用自己的语音作为交互的手段。用户通过移动终端将输入的音频上传到服务器，服务器根据该音频进行语音识别和搜索。

基于用户的说话习惯，大多数用户输入的音频包括长时间的静音，如果将输入的音频全部传输到服务器，那么音频中长时间的静音就会消耗大量的流量，同时给也给服务器的语音识别引擎带来巨大的压力。目前，多是通过语音活性检测(Voice ActivityDetector,简称VAD)工具，从音频信号流里识别和消除长时间的静音段。

但是目前的VAD工具通常是利用音频的能量值和过零率，利用经验总结出来的规则来区分音频中的语音段和静音段。目前的VAD工具通用性差，需要针对不同的产品线进行复杂的设计调试，耗时耗力。

发明内容

本发明提供一种语音活性检测方法、装置及设备，用以解决目前的VAD工具通用性差，需要针对不同的产品线进行复杂的设计调试，耗时耗力的问题。

本发明的一个方面是提供一种语音活性检测方法，包括：

提取待检测的音频帧的声学特征；

将所述待检测的音频帧的声学特征输入预设的深度神经网络模型，计算所述待检测的音频帧对应的输出节点的值，所述深度神经网络模型由训练数据中各音频帧的声学特征和标注数据对深度神经网络训练得到；

根据所述待检测的音频帧对应的输出节点的值，确定所述待检测的音频帧是否为有效语音。

本发明的另一个方面是提供一种语音活性检测装置，包括：

特征提取模块，用于提取待检测的音频帧的声学特征；

检测模块，用于将所述待检测的音频帧的声学特征输入预设的深度神经网络模型，计算所述待检测的音频帧对应的输出节点的值，所述深度神经网络模型由训练数据中各音频帧的声学特征和标注数据对深度神经网络训练得到；

确定模块，用于根据所述待检测的音频帧对应的输出节点的值，确定所述待检测的音频帧是否为有效语音。

本发明的另一个方面是提供一种计算机设备，包括：

存储器，处理器，以及存储在所述存储器上并可在所述处理器上运行的计算机程序，

所述处理器运行所述计算机程序时实现上述所述的方法。

本发明的另一个方面是提供一种计算机可读存储介质，存储有计算机程序，

所述计算机程序被处理器执行时实现上述所述的方法。

本发明提供的语音活性检测方法、装置及设备，通过预先由训练数据中各音频帧的声学特征和标注数据对深度神经网络训练得到深度神经网络模型；提取待检测的音频帧的声学特征；将所述待检测的音频帧的声学特征直接输入预设的深度神经网络模型，计算所述待检测的音频帧对应的输出节点的值，根据所述待检测的音频帧对应的输出节点的值，确定所述待检测的音频帧是否为有效语音，针对不同的应用场景和产品线，只需采用与应用场景或者产品线相对应的训练数据对深度神经网络训练，得到的深度神经网络模型能够适用于该场景或者产品线，可以适用于多种不同的场景和产品线，通用性好，并且无需对声学特征进行复杂的特征设计过程和人工调试，提高了对音频帧的识别效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本发明实施例一提供的语音活性检测方法流程图；

图2为本发明实施例二提供的语音活性检测方法流程图；

图3为本发明实施例三提供的语音活性检测装置的结构示意图；

图4为本发明实施例四提供的语音活性检测装置的结构示意图；

图5为本发明实施例五提供的计算机设备的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

首先对本发明所涉及的名词进行解释：

语音活性检测(Voice Activity Detector,简称VAD)：又称语音活动检测、语音端点检测、语音边界检测，是一种从音频信号流里识别和消除长时间的静音段的技术。

后验概率(A Posteriori Probability)：是指通过调查或其它方式获取新的附加信息，利用贝叶斯公式对先验概率进行修正，而后得到的概率。后验概率是指在得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的"果"。

先验概率(A Priori Probability)：是指根据以往经验和分析得到的概率，如全概率公式，它往往作为“由因求果”问题中的“因”出现。先验概率是通过古典概率模型加以定义的，故又称为古典概率。

声学特征的提取：是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

本发明实施例提供的语音活性检测方法可以应用于以下需要将音频上传到服务器的场景：用户通过用户终端输入一段音频，基于用户的说话习惯和周围环境，大多数用户输入的音频包括长时间的静音和噪声，如果将输入的音频全部传输到服务器，那么音频中长时间的静音就会消耗大量的流量，同时给也给服务器的语音识别引擎带来巨大的压力。为了减少流量消耗和减少服务器语音识别的压力，需要对一段音频中的静音或者噪声等无效音频帧进行识别，以将识别出的无效音频帧从该音频段中剔除，去除原音频中的静音或者噪声段，得到该音频段中包含的有效语音帧整合而成新的音频。由于新的音频中去除了原有的静音或者噪声段，新的音频的大小小于用户输入的原有的音频的大小，将新的音频帧上传到服务器相对于将原有的音频上传到服务器节省流量；并且提高了服务器对音频的识别质量和效率。

另外，本实施例提供的语音活性检测方法可以应用于其他需要对音频中的静音或者噪声等无效音频帧进行识别的多种场景，可以应用于所有需要对音频中的静音或者噪声等无效音频帧进行语音识别的软件应用或者终端中。例如手机地图、输入法应用、即时通信软件、社交平台、论坛等等。本实施例对于语音活性检测方法的应用场景不做具体限定。

实施例一

图1为本发明实施例一提供的语音活性检测方法流程图。本发明实施例针对目前的VAD工具通用性差，需要针对不同的产品线进行复杂的设计调试，耗时耗力的问题，提供了语音活性检测方法。如图1所述，该方法具体步骤如下：

步骤S101、提取待检测的音频帧的声学特征。

其中，音频帧的声学特征可以是表征音频信号特征的信息。

本实施例中，该声学特征可以是梅尔频率倒谱系数(Mel Frequency CepstralCoefficient，简称MFCC)、梅尔标度滤波器组(Mel-scale Filter Bank，简称FBank)、线性预测倒谱系数(Linear Predictive Cepstral Coding，简称LPCC)、或者快速傅立叶变换(Fast Fourier Transform，简称FFT)的幅值等等。

步骤S102、将待检测的音频帧的声学特征输入预设的深度神经网络模型，计算待检测的音频帧对应的输出节点的值，深度神经网络模型由训练数据中各音频帧的声学特征和标注数据对神经网络训练得到。

本实施例中，训练数据中包括多个音频帧的声学特征及标注数据。预先获取语音识别的训练预料，训练预料是在实际使用中真实的语音材料，包括多个音频数据。对训练预料中的各音频数据进行分帧处理，得到多个音频帧，采用预设的特征提取方法提取各音频帧的声学特征，并获取每个音频帧对应的标注数据。

利用训练数据对深度神经网络进行训练，以使训练后的深度神经网络模型可以用于根据输入该深度神经网络模型的音频帧的声学特征计算该音频帧为有效语音的概率信息和/或待检测的音频帧为无效语音的概率信息。

其中，标注数据用于标注该样本是否为有效语音。可选的，标注数据为第一预设值表示音频帧为无效语音，标注数据为第二预设值表示音频帧为有效语音，第二预设值与第一预设值不同。例如，第一预设值为0，第二预设值为1；或者第一预设值为“N”，第二预设值为“Y”等。

可选的，每一个音频帧的训练数据可以采用二值化标签的结构进行存储，可以表示为以下形式：{x:声学特征,y:标注数据}。

由于语音信号的时变特性，声学特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3左右。对于训练预料中的某一段音频，可以每间隔预设时长提取一帧，每帧的帧长为预设帧长，对该段音频进行分帧处理，得到多个音频帧。可选的，预设时长可以为10毫秒，预设帧长可以为25毫秒。

步骤S103、根据待检测的音频帧对应的输出节点的值，确定待检测的音频帧是否为有效语音。

本实施例中，在将待检测的音频帧的声学特征直接输入训练好的深度神经网络模型之后，深度神经网络模型的输出节点的值即为待检测的音频帧对应的输出节点的值。

深度神经网络模型的输出节点的值可以包括待检测的音频帧为有效语音的概率信息和/或待检测的音频帧为无效语音的概率信息，根据待检测的音频帧为有效语音的概率信息和/或待检测的音频帧为无效语音的概率信息，来确定待检测的音频帧是否为有效语音。

其中无效语音至少包括以下任意一种：静音和噪声。

本发明实施例通过预先由训练数据中各音频帧的声学特征和标注数据对深度神经网络训练得到深度神经网络模型；提取待检测的音频帧的声学特征；将待检测的音频帧的声学特征直接输入预设的深度神经网络模型，计算待检测的音频帧对应的输出节点的值，根据待检测的音频帧对应的输出节点的值，确定待检测的音频帧是否为有效语音，针对不同的应用场景和产品线，只需采用与应用场景或者产品线相对应的训练数据对深度神经网络训练，得到的深度神经网络模型能够适用于该场景或者产品线，可以适用于多种不同的场景和产品线，通用性好，并且无需对声学特征进行复杂的特征设计过程和人工调试，提高了对音频帧的识别效率。

实施例二

图2为本发明实施例二提供的语音活性检测方法流程图。在上述实施例一的基础上，本实施例中，在提取待检测的音频帧的声学特征之前，还包括：获取待检测的音频，对待检测的音频做分帧处理，得到音频的至少一个待检测的音频帧。如图2所示，该方法具体步骤如下：

步骤S201、获取待检测的音频，对待检测的音频做分帧处理，得到音频的至少一个待检测的音频帧。

本实施例中的待检测的音频可包括静音和/或噪声段，例如可以是用户输入的一段音频，基于用户的说话习惯和周围环境，大多数用户输入的音频包括长时间的静音和噪声。

由于语音信号的时变特性，声学特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。

在获取到待检测的音频后，可以将待检测的音频进行分帧处理，得到待检测的音频的多个待检测的音频帧。具体的，可以每间隔预设时长进行一次抽样，抽取长度为预设帧长的音频为一个音频帧，对该段音频进行分帧处理，得到多个音频帧。

可选的，预设时长可以为10毫秒，预设帧长可以为25毫秒。例如，对于一个时长为1秒的音频，每10毫秒抽取一个帧长为25毫秒的音频帧，将会得到100个音频帧，每个音频帧的长度为25毫秒。另外，抽取音频帧间隔的预设时长和预设帧长可以由技术人员根据场景或者产品线的不同，根据实际需要和经验进行设定，本实施例对于抽取音频帧间隔的预设时长和预设帧长的大小不做具体限定。

可选的，在对待检测的音频进行分帧处理的过程中，缓存中缓存有至少最近预设帧长的音频数据，在每次抽取音频帧时，从缓存中获取最近预设帧长的音频数据作为音频帧，从而可以提高对待检测的音频进行分帧处理得到待检测的音频的多个音频帧的效率。

步骤S202、提取各待检测的音频帧的声学特征。

可选的，采用快速傅立叶变换FFT算法提取待检测的音频帧的FFT幅值特征。另外，还可以采用现有的任意一种特征提取方法提取待检测的音频帧的梅尔频率倒谱系数、梅尔标度滤波器组、或者线性预测倒谱系数等声学特征，本实施例对此不做具体限定。

步骤S203、逐一地将每个待检测的音频帧的声学特征输入预设的深度神经网络模型，分别计算各待检测的音频帧对应的输出节点的值。

其中，深度神经网络模型由训练数据中各音频帧的声学特征和标注数据对深度神经网络训练得到。

在实际应用中，本实施例包括两个阶段：训练阶段和检测阶段。检测阶段包括上述步骤S201-S205的过程。

训练阶段为在检测阶段之前，训练得到预设的深度神经网络模型的过程。训练阶段具体包括：获取训练数据，利用训练数据对深度神经网络进行训练得到该深度神经网络训练模型，训练后的深度神经网络模型可以用于根据输入该深度神经网络模型的音频帧的声学特征计算该音频帧为有效语音的概率信息和/或待检测的音频帧为无效语音的概率信息。

其中，训练数据中包括多个音频帧的声学特征及标注数据。预先获取语音识别的训练预料，训练预料是在实际使用中真实的语音材料，包括多个音频数据。对训练预料中的各音频数据进行分帧处理，得到多个音频帧，采用预设的特征提取方法提取各音频帧的声学特征，并获取每个音频帧对应的标注数据。

标注数据用于标注该样本是否为有效语音。可选的，标注数据为第一预设值表示音频帧为无效语音，对应的状态为无效语音状态；标注数据为第二预设值表示音频帧为有效语音，对应的状态为有效语音状态。其中第二预设值与第一预设值不同。例如，第一预设值为0，第二预设值为1；或者第一预设值为“N”，第二预设值为“Y”等。

可选的，对于训练预料中的某一段音频的分帧处理的方法可以采用与检测阶段中对待检测的音频的分帧处理同样的方式实现，以提高对音频帧的识别的准确性。

可选的，在训练阶段获取训练数据的过程中，提取音频帧的声学特征采用与检测阶段中提取待检测的音频帧的声学特征相同的特征提取方法实现，，以提高对音频帧的识别的准确性。

可以每间隔预设时长提取一帧，每帧的帧长为预设帧长，对该段音频进行分帧处理，得到多个音频帧。可选的，预设时长可以为10毫秒，预设帧长可以为25毫秒。

可选的，在对深度神经网络模型进行训练时，将每一个音频帧对应的训练数据中的声学特征作为输入，将该训练数据中的标注数据所对应的状态为输出，以交叉熵为代价函数，采用采用梯度下降算法对深度神经网络模型进行训练。

深度神经网络模型包括输入层，隐含层和输出层。本实施例中的预设深度网络模型的输出层包括两个输出节点。深度神经网络模型可以表征为两个状态，分别于两个输出节点对应。一个状态为有效语音状态，对应于有效语音状态的输出节点记为第一个输出节点，另一个状态为无效语音状态，对应于无效语音状态的输出节点记为第二个输出节点。第一个输出节点的值表示待检测的音频帧属于有效语音状态的概率信息，也就是第一个输出节点的值对应于待检测的音频帧为有效语音的概率信息；第二个输出节点的值表示待检测的音频帧属于无效语音状态的概率信息，也就是第二个输出节点的值对应于待检测的音频帧为无效语音的概率信息。

深度神经网络模型的输出是由两个输出节点的值。例如，深度神经网络模型的输出可以是由两个输出节点的值构成的长度为2的向量，如[0.1,0.9]，向量中的两个分量的值分别与两个输出节点的值对应。

可选的，待检测的音频帧对应的第一个输出节点的值为待检测的音频帧为有效语音的后验概率值，待检测的音频帧对应的第二个输出节点的值为待检测的音频帧为无效语音的后验概率值。

可选的，深度神经网络模型的隐含层可以使用全连接层，卷积层，多层反馈(Recurrent neural Network，简称RNN)层等类型的网络层实现，或者可以使用至少两种类型的网络层的混合组合实现，本实施例对于深度神经网络模型中隐含层的层数和结构不做具体限定。

可选的，深度神经网络模型的输入层的节点数据可以根据提取的待检测的音频帧的声学特征的维数来确定。例如，若提取到的待检测的音频帧的声学特征为26维，可以设置输出层为26个节点。

另外，深度神经网络的结构可以由多种形式，可以满足本实施例要求即可，本实施例中对于深度神经网络的具体结构不做具体限定。

本实施例中无效语音至少包括以下任意一种：静音和噪声。

步骤S204、根据各待检测的音频帧对应的输出节点的值，确定各待检测的音频帧是否为有效语音。

本实施例中，根据各待检测的音频帧对应的输出节点的值，确定各待检测的音频帧是否为有效语音，具体可以采用以下任意一种方式实现：

一种可行的实现方式：待检测的音频帧对应的输出节点的值包括待检测的音频帧对应的第一个输出节点的值。

相应地，根据待检测的音频帧对应的输出节点的值，确定待检测的音频帧是否为有效语音，包括：

比较待检测的音频帧对应的第一个输出节点的值与预设的第一阈值的大小；若待检测的音频帧对应的第一个输出节点的值大于第一阈值，可以认为该待检测的音频帧属于有效语音状态，则确定待检测的音频帧为有效语音；若待检测的音频帧对应的第一个输出节点的值小于或者等于第一阈值，可以认为该待检测的音频帧属于无效语音状态，则确定待检测的音频帧为无效语音。

其中第一阈值可以由技术人员根据实际需要进行设定，本实施例此处不做具体限定。

例如，待检测的音频帧对应的第一个输出节点的值为待检测的音频帧为有效语音的后验概率值，那么，如果检测的音频帧对应的第一个输出节点的值大于第一阈值，也即是待检测的音频帧为有效语音的后验概率值大于第一阈值，可以认为该待检测的音频帧属于有效语音状态；如果检测的音频帧对应的第一个输出节点的值小于或者等于第一阈值，也即是待检测的音频帧为有效语音的后验概率值小于或者等于第一阈值，可以认为该待检测的音频帧属于无效语音状态。

另一种可行的实现方式：待检测的音频帧对应的输出节点的值包括待检测的音频帧对应的第二个输出节点的值。

比较待检测的音频帧对应的第二个输出节点的值与预设的第二阈值的大小；若待检测的音频帧对应的第二个输出节点的值大于第二阈值，可以认为该待检测的音频帧属于无效语音状态，则确定待检测的音频帧为无效语音；若待检测的音频帧对应的第二个输出节点的值小于或者等于第二阈值，可以认为该待检测的音频帧属于有效语音状态，则确定待检测的音频帧为有效语音。

其中第二阈值可以由技术人员根据实际需要进行设定，本实施例此处不做具体限定。

例如，待检测的音频帧对应的第二个输出节点的值为待检测的音频帧为无效语音的后验概率值，那么，如果检测的音频帧对应的第二个输出节点的值大于第二阈值，也即是待检测的音频帧为无效语音的后验概率值大于第二阈值，可以认为该待检测的音频帧属于无效语音状态；如果检测的音频帧对应的第二个输出节点的值小于或者等于第二阈值，也即是待检测的音频帧为无效语音的后验概率值小于或者等于第二阈值，可以认为该待检测的音频帧属于有效语音状态。

步骤S205、将待检测的音频中为无效语音的音频帧去除，并将去除了无效语音的音频帧的音频上传到服务器。

该步骤为可选的步骤，在本发明实施例中需要将音频上传到服务器的场景时，在检测出待检测的音频的每个音频帧是否为有效语音之后，还可以通过执行该步骤，将待检测的音频中为无效语音的音频帧去除，并将去除了无效语音的音频帧的音频上传到服务器，从而可以将待检测的音频中的静音段和噪声段取出后，将仅包含有效语音段的音频上传到服务器，可以大大减少上传音频所消耗的流量；并且提高了服务器对音频的语音识别的准确率。

本发明实施例通过获取待检测的音频，对待检测的音频做分帧处理，得到音频的至少一个待检测的音频帧，提取待检测的音频帧的声学特征；将待检测的音频帧的声学特征输入预设的深度神经网络模型，计算待检测的音频帧对应的输出节点的值，深度神经网络模型由训练数据中各音频帧的声学特征和标注数据对深度神经网络训练得到；根据待检测的音频帧对应的输出节点的值，确定待检测的音频帧是否为有效语音，将待检测的音频中为无效语音的音频帧去除，并将去除了无效语音的音频帧的音频上传到服务器，从而可以将待检测的音频中的静音段和噪声段取出后，将仅包含有效语音段的音频上传到服务器，可以大大减少上传音频所消耗的流量；并且提高了服务器对音频的语音识别的准确率。

实施例三

图3为本发明实施例三提供的语音活性检测装置的结构示意图。本发明实施例提供的语音活性检测装置可以执行语音活性检测方法实施例提供的处理流程。如图3所示，该装置30包括：特征提取模块301，检测模块302和确定模块303。

具体地，特征提取模块301用于提取待检测的音频帧的声学特征。

检测模块302用于将待检测的音频帧的声学特征输入预设的深度神经网络模型，计算待检测的音频帧对应的输出节点的值，深度神经网络模型由训练数据中各音频帧的声学特征和标注数据对深度神经网络训练得到。

确定模块303用于根据待检测的音频帧对应的输出节点的值，确定待检测的音频帧是否为有效语音。

本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例，具体功能此处不再赘述。

实施例四

图4为本发明实施例四提供的语音活性检测装置的结构示意图。在上述实施例三的基础上，本实施例中，如图4所示，该装置30还包括：获取模块304。

获取模块304用于获取待检测的音频，对待检测的音频做分帧处理，得到音频的至少一个待检测的音频帧。

本实施例中，深度神经网络模型的输出层包括两个输出节点，第一个输出节点的值对应于待检测的音频帧为有效语音的概率信息，第二个输出节点的值对应于待检测的音频帧为无效语音的概率信息。

可选的，待检测的音频帧对应的第一个输出节点的值为待检测的音频帧为有效语音的后验概率值；待检测的音频帧对应的第二个输出节点的值为待检测的音频帧为无效语音的后验概率值。

可选的，无效语音至少包括以下任意一种：静音和噪声。

可选的，待检测的音频帧对应的输出节点的值包括待检测的音频帧对应的第一个输出节点的值。确定模块还用于：

比较待检测的音频帧对应的第一个输出节点的值与预设的第一阈值的大小；若待检测的音频帧对应的第一个输出节点的值大于第一阈值，则确定待检测的音频帧为有效语音；若待检测的音频帧对应的第一个输出节点的值小于或者等于第一阈值，则确定待检测的音频帧为无效语音。

可选的，待检测的音频帧对应的输出节点的值包括待检测的音频帧对应的第二个输出节点的值。确定模块还用于：

比较待检测的音频帧对应的第二个输出节点的值与预设的第二阈值的大小；若待检测的音频帧对应的第二个输出节点的值大于第二阈值，则确定待检测的音频帧为无效语音；若待检测的音频帧对应的第二个输出节点的值小于或者等于第二阈值，则确定待检测的音频帧为有效语音。

本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例，具体功能此处不再赘述。

实施例五

图5为本发明实施例五提供的计算机设备的结构示意图。如图5所示，该设备50包括：处理器501，存储器502，以及存储在存储器502上并在处理器501上运行的计算机程序。处理器501在运行该计算机程序时实现上述实施例一或者实施例二所提供的语音活性检测方法。

另外，本发明实施例还提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法实施例提供的语音活性检测方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求书指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims

1.一种语音活性检测方法，其特征在于，包括：

提取待检测的音频帧的声学特征；

2.根据权利要求1所述的方法，其特征在于，

所述深度神经网络模型的输出层包括两个输出节点，第一个输出节点的值对应于所述待检测的音频帧为有效语音的概率信息，第二个输出节点的值对应于所述待检测的音频帧为无效语音的概率信息。

3.根据权利要求2所述的方法，其特征在于，

所述待检测的音频帧对应的第一个输出节点的值为所述待检测的音频帧为有效语音的后验概率值；

所述待检测的音频帧对应的第二个输出节点的值为所述待检测的音频帧为无效语音的后验概率值。

4.根据权利要求2或3所述的方法，其特征在于，所述无效语音至少包括以下任意一种：静音和噪声。

5.根据权利要求2或3所述的方法，其特征在于，所述待检测的音频帧对应的输出节点的值包括所述待检测的音频帧对应的第一个输出节点的值，

相应地，所述根据所述待检测的音频帧对应的输出节点的值，确定所述待检测的音频帧是否为有效语音，包括：

比较所述待检测的音频帧对应的第一个输出节点的值与预设的第一阈值的大小；

若所述待检测的音频帧对应的第一个输出节点的值大于所述第一阈值，则确定所述待检测的音频帧为有效语音；

若所述待检测的音频帧对应的第一个输出节点的值小于或者等于所述第一阈值，则确定所述待检测的音频帧为无效语音。

6.根据权利要求2或3所述的方法，其特征在于，所述待检测的音频帧对应的输出节点的值包括所述待检测的音频帧对应的第二个输出节点的值，

比较所述待检测的音频帧对应的第二个输出节点的值与预设的第二阈值的大小；

若所述待检测的音频帧对应的第二个输出节点的值大于所述第二阈值，则确定所述待检测的音频帧为无效语音；

若所述待检测的音频帧对应的第二个输出节点的值小于或者等于所述第二阈值，则确定所述待检测的音频帧为有效语音。

7.根据权利要求1所述的方法，其特征在于，所述提取待检测的音频帧的声学特征，包括：

采用快速傅立叶变换FFT算法提取所述待检测的音频帧的FFT幅值特征。

8.根据权利要求1所述的方法，其特征在于，在所述提取待检测的音频帧的声学特征之前，还包括：

获取待检测的音频，对所述待检测的音频做分帧处理，得到所述音频的至少一个待检测的音频帧。

9.一种语音活性检测装置，其特征在于，包括：

特征提取模块，用于提取待检测的音频帧的声学特征；

10.根据权利要求9所述的装置，其特征在于，

11.根据权利要求10所述的装置，其特征在于，

12.根据权利要求10或11所述的装置，其特征在于，所述待检测的音频帧对应的输出节点的值包括所述待检测的音频帧对应的第一个输出节点的值，所述确定模块还用于：

13.根据权利要求10或11所述的装置，其特征在于，所述待检测的音频帧对应的输出节点的值包括所述待检测的音频帧对应的第二个输出节点的值，所述确定模块还用于：

14.根据权利要求9所述的装置，其特征在于，所述装置还包括：

获取模块，用于获取待检测的音频，对所述待检测的音频做分帧处理，得到所述音频的至少一个待检测的音频帧。

15.一种计算机设备，其特征在于，包括：

所述处理器运行所述计算机程序时实现如权利要求1-8中任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，存储有计算机程序，

所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。