CN108346428B

CN108346428B - 语音活动检测及其模型建立方法、装置、设备及存储介质

Info

Publication number: CN108346428B
Application number: CN201710824269.5A
Authority: CN
Inventors: 刘海波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2020-10-02
Anticipated expiration: 2037-09-13
Also published as: US11393492B2; WO2019052337A1; CN108346428A; US20200090682A1

Abstract

本申请涉及一种语音活动检测及其模型建立方法、装置、设备及存储介质，该模型建立方法包括：获取训练音频文件及训练音频文件的目标结果；对训练音频文件进行分帧得到音频帧，并提取音频帧的音频特征，音频特征包括至少两种特征，至少两种特征包括能量；将音频特征作为深度神经网络模型的输入，并经过深度神经网络模型的隐藏层进行信息处理，由深度神经网络模型的输出层输出，得到训练结果；将训练结果与目标结果的偏差作为误差反向传播机制的输入，对隐藏层的权重分别进行更新，直至深度神经网络模型达到预设条件得到语音活动检测模型。因此，通过该语音活动检测模型进行语音活动检测时的准确性高。

Description

语音活动检测及其模型建立方法、装置、设备及存储介质

本发明涉及语音信息处理技术领域，特别涉及一种语音活动检测及其模型建立方法、装置、设备及存储介质。

背景技术

随着信息技术的发展，语音信息的应用越来越广泛，而语音活动检测对于语音信息的处理具有十分重要的意义。语音活动检测(Voice Activity Detection，VAD)又称语音端点检测，语音边界检，是指在噪声环境中检测语音的存在与否，通常用于语音编码、语音增强等语音处理系统中，起到降低语音编码速率、节省通信带宽、减少计算机设备能耗、提高识别率等作用。

常用的语音活动检测方法是基于能量的语音活动检测方法，该方法认为噪声是平稳的，语音部分的能量要高于噪声部分的能量。根据这个规则进行语音/非语音的判定，其主要优点是对于平稳噪声的场合有很好的应用，应用的场合比较广泛，缺点是对于非平稳噪声以及噪声比较大的环境效果不佳，误判情况严重。因此，传统的语音活动检测方法存在检测准确性较差的问题。

发明内容

基于此，有必要针对检测准确性差的问题，提出一种能提高检测准确性的语音活动检测及其模型建立方法、装置、设备及存储介质。

一种语音活动检测模型建立方法，包括：

获取训练音频文件及所述训练音频文件的目标结果；

对所述训练音频文件进行分帧得到音频帧，并提取所述音频帧的音频特征，所述音频特征包括至少两种特征，所述至少两种特征包括能量；

将所述音频特征作为深度神经网络模型的输入，并经过所述深度神经网络模型的隐藏层进行信息处理，由所述深度神经网络模型的输出层输出，得到训练结果；

将所述训练结果与所述目标结果的偏差作为误差反向传播机制的输入，对所述隐藏层的权重分别进行更新，直至所述深度神经网络模型达到预设条件得到语音活动检测模型。

一种语音活动检测方法，包括：

获取待检测音频文件；

对所述待检测音频文件进行分帧得到音频帧，并提取所述音频帧的音频特征；

获取基于权利要求1-4任意一项所述的语音活动检测模型建立方法得到的语音活动检测模型；

将所述音频特征输入至所述语音活动检测模型，得到检测结果。

一种语音活动检测模型建立装置，包括：

文件结果获取模块，用于获取训练音频文件及所述训练音频文件的目标结果；

分帧特征提取模块，用于对所述训练音频文件进行分帧得到音频帧，并提取所述音频帧的音频特征，所述音频特征包括至少两种特征，所述至少两种特征包括能量；

模型输入输出模块，用于将所述音频特征作为深度神经网络模型的输入，并经过所述深度神经网络模型的隐藏层进行信息处理，由所述深度神经网络模型的输出层输出，得到训练结果；

模型更新优化模块，用于将所述训练结果与所述目标结果的偏差作为误差反向传播机制的输入，对所述隐藏层的权重分别进行更新，直至所述深度神经网络模型达到预设条件得到语音活动检测模型。

一种语音活动检测装置，包括：

待检文件获取模块，用于获取待检测音频文件；

分帧特征提取模块，用于对所述待检测音频文件进行分帧得到音频帧，并提取所述音频帧的音频特征；

检测模型获取模块，用于获取基于权利要求8-10任意一项所述的语音活动检测模型建立装置得到的语音活动检测模型；

检测结果确定模块，用于将所述音频特征输入至所述语音活动检测模型，得到检测结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述的方法的步骤。

一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得处理器执行上述的方法的步骤。

上述的方法、装置、设备及存储介质，由于音频特征包括能量及至少一种区别于能量的特征，该音频特征相对于传统检测方式中携带的信息更多；同时，深度神经网络模型的学习能力强，可以同时输入多种不同的特征，对模型进行训练得到语音活动检测模型。因此，通过该语音活动检测模型进行语音活动检测时的准确性高。

附图说明

图1为第一个实施例中语音活动检测模型建立方法的流程示意图；

图2为图1的语音活动检测模型建立方法的深度神经网络模型的框架结构；

图3为第二个实施例中语音活动检测模型建立方法的流程示意图；

图4为第三个实施例中语音活动检测模型建立方法的流程示意图；

图5为一个具体实施例中语音活动检测模型建立方法的的原理框图；

图6为一实施例中语音活动检测方法的流程示意图；

图7为一具体实施例中语音活动检测方法过程示意图；

图8为另一实施例中语音活动检测方法的流程示意图；

图9为另一具体实施例中语音活动检测方法过程示意图；

图10为一实施例中语音活动检测模型建立装置的结构框图；

图11为图10的语音活动检测模型建立装置的一个模块的单元结构图；

图12为一实施例中语音活动检测装置的结构框图；

图13为另一实施例中语音活动检测装置的结构框图；

图14为一实施例的计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明可应用于需要对语音活动情况进行检测的任何场景。如图1所示，在一个实施例中，提供了一种语音活动检测模型建立方法。该语音活动检测模型建立方法在执行设备上执行，该执行设备可以作为服务器也可以作为客户终端。执行设备可以为计算机设备、移动设备等能够播放动态图片的设备。计算机设备包括台式计算机、手提式计算机等；移动设备包括智能移动终端，如智能手机、平板电脑等。该语音活动检测模型建立方法包括如下步骤：

S110：获取训练音频文件及训练音频文件的目标结果。

可以从训练样本中获取训练音频文件及训练音频文件的目标结果。训练样本为通过人工识别的方式，将一组训练音频文件进行语音检测得到的结果作为该训练音频文件的目标结果。训练音频文件为用于训练的音频文件，如，可以为各种应用场景下的音频文件。目标结果为该训练音频应该得到的训练结果，但由于模型可能并未达到最优，因此在训练过程中，训练结果会与目标结果存在一定的偏差。

S120：对训练音频文件进行分帧得到音频帧，并提取所述音频帧的音频特征，音频特征包括至少两种特征，所述至少两种特征包括能量。即音频特征包括能量及区别于能量的至少一种特征。

将一个完整的训练音频文件进行分帧处理，然后对每一音频帧进行语音活动检测。在检测过程中，首先要提取该音频帧的音频特征。音频特征包括至少两种特征，所述至少两种特征包括能量。如，音频特征除了包括能量还可以包括过零率，均值，方差等特征中的至少一项。当除了能量之外还包括多种特征时，可以将该多种特征分为单一类型的多种特征和非单一类型的多种特征。由于不同的特征对语音/非语音的解释不同，有些特征对平稳噪声有效果，有些特征对非平稳噪声有效，因此多种特征相较于一种特征对语音/非语音的表述更加清晰，因而效果也更好；在一定程度上，非单一类型的多种特征相较于单一类型的多种特征对语音/非语音的表述也更加全面，因而效果也更好。

S130：将音频特征作为深度神经网络模型的输入，经过深度神经网络模型的隐藏层进行信息处理，由深度神经网络模型的输出层输出，得到训练结果。

深度神经网络模型的框架结构如图2所示，包括一输入层、一输出层，在输入层及输出层之间还包括多层隐藏层，隐藏层也可以称为隐层。输入层用于接收模型的输入特征，在本实施例中，输入特征为音频特征。输出层用于输出模型的输出结果，在本实施例中，输出结果为训练结果。隐藏层用于模型的信息处理，如信息传递。隐藏层中包括权重，通过在训练过程中调整、更新这些权重，可以使得模型达到预设条件。

如，信息传递的规则可以表示为y＝W·z+b，其中，z＝f(y_l-1)是经过非线性变换之后的最终输出，W和b是隐藏层的权重和偏差；y_l-1是上一层的线性乘积的结果，f是非线性函数，隐藏层的非线性函数可以为sigmoid函数(S形生长曲线函数)。

S140：将训练结果与目标结果的偏差作为误差反向传播机制的输入，对隐藏层的权重分别进行更新，直至深度神经网络模型达到预设条件得到语音活动检测模型。

偏差可以为训练结果与目标结果的差值。训练结果和目标结果均可以通过一个标注来表示，每一个标注均对应一个以数值形式表示的ID(身份标识)，可以通过该训练结果对应的身份标识与目标结果对应的身份标识的差值来表示偏差。在深度神经网络模型未达到预设条件之前采用误差反向传播机制从输出层到输入层中的隐藏层逐层的权重进行逐层更新，从而更新深度神经网络模型，直至深度神经网络模型达到预设条件时，将该深度神经网络模型作为语音活动检测模型。误差反向传播机制可以通过误差反向传播算法实现。预设条件为深度神经网络达到最优。深度神经网络达是否达到最优，可以通过损失函数来确定。损失函数将训练样本中练音频文件及训练音频文件的目标结果分别输入至该深度神经网络模型，当连续预设次数的准确率不变时，深度神经网络达到最庸。优选地，损失函数可以为最大熵和最小均方误差函数，在对隐藏层的权重进行更新时，可以采用随机梯度下降法，经过多轮迭代最终使得深度神经网络模型达到预设条件。其中，随机梯度下降法中使用的公式为：W_t+1＝W_t-η△W_t，η是学习率，W_t+1为第t+1层隐藏层的权重，W_t为第t层隐藏层的权重，△W_t为损失函数对权重求偏导之后的结果。最大熵损失函数对损失函数中的权重w和偏差b求偏导，使用随机梯度下降法逐轮对权重w和偏差b进行更新。

上述语音活动检测模型建立方法，由于音频特征包括能量及至少一种区别于能量的特征，该音频特征相对于传统检测方式中携带的信息更多；同时，深度神经网络模型的学习能力强，可以同时输入多种不同的特征，对模型进行训练得到语音活动检测模型。因此，通过该语音活动检测模型进行语音活动检测时的准确性高。

为了进一步提高检测的准确性，在其中一实施例中，目标结果包括至少两个语音类或/及至少两个噪音类。相较于仅分为语音类和噪音类两个类别的两类建模方式，本实施例采用多类建模方式，将目标结果为语音类和噪音类再细分成不同的类，比如对于语音类可以细分为第一语音类SPK1，第二语音类SPK2，第三语音类SPK3，...，噪音类可以细分为第一噪音类SIL1，第二噪音类SIL2，第三噪音类SIL3，...等，多类建模方式比两类建模训练更加充分，在检测的过程中仅需要对相同的类别进行加和，然后比较最终的得分，即可得到最终的类别，其结果更为准确。

请参阅图3，在其中一实施例中，音频特征为融合音频特征。融合音频特征包括至少两项独立音频特征，独立音频特征包括能量，以及过零率、均值、方差中的至少一种。提取每一音频帧的音频特征的步骤，包括：

S221：提取每一音频帧的独立音频特征。

S222：对各独立音频特征进行融合得到融合音频特征。

独立音频特征是指该音频特征仅包括单独的一个特征。在深度神经网络模型中，各种类型的独立音频特征之间是平等的。特征融合的方法是增加音频特征的维度，比如，均值是40维，那么增加10维的能量特征就变成50维的融合音频特征。如此，通过特征融合的方式将音频特征输入到深度神经网络中。

请参阅图4，为了进一步提高检测的准确性，在其中一实施例中，每一音频帧的音频特征为扩展帧音频特征。扩展帧音频特征包括当前帧的单帧音频特征，以及当前帧之前第一预设数量帧的单帧音频特征或/及当前帧之后第二预设数量帧的单帧音频特征。

提取每一音频帧的音频特征的步骤，包括：

S323：提取每一音频帧的单帧音频特征。

S324：将当前帧的单帧音频特帧以及当前帧之前第一预设数量帧的单帧音频特征或/及当前帧之后第二预设数量帧的单帧音频特征作为当前帧的扩展帧音频特征。

单帧音频特征是指仅包括一个帧的特征的音频特征。扩展帧音频特征，是指包括多个帧的特征的音频特征，该多个帧具体为当前帧以及当前帧之前第一预设数量帧或/及当前帧之后第二预设数量帧。如，假设单帧音频特征为N维的音频特征，第一预设数量帧为m1，第二数量帧为m2，则扩展音频特征的维数为N*(m1+1)，或N*(m2+1)，或N*(m1+m2+1)。如此，通过扩展音频特征可以使得每一个音频特征携带更多的信息，从而提高检测的准确性。

由于音频是一个短时平稳过程，因而在训练深度神经网络模型的时候如果能同时使用历史和未来信息，效果会更好，当前时间点(当前帧)之前的第一预设帧数量的独立音频特征是历史信息，之后的第二预设帧数量的独立音频特征是未来信息。即较优地，扩展帧音频特征包括当前帧的单帧音频特征，以及当前帧之前第一预设数量帧的单帧音频特征及当前帧之后第二预设数量帧的单帧音频特征。

S325：分别将每一音频帧作为当前帧得到每一音频帧的扩展音频特征。

分别将每一音频帧作为当前帧，执行步骤S323，可以得到每一音频帧的扩展音频特征。

如此，对每一个音频特征进行扩展，从而提高检测的准确性。

在其中一个具体实施例中，如图5所示，为语音活动检测模型建立的原理图，语音活动检测模型建立方法，包括：音频获取的步骤，目标结果获取的步骤，特征提取的步骤，帧扩展的步骤，输入深度神经网络模型的步骤，偏差计算的步骤及误差反向传播(BackPropagation,BP)的步骤。通过音频获取及目标结果获取的步骤，获取训练音频文件及训练音频文件的目标结果targets。通过特征提取的步骤，对训练音频文件进行分帧，提取每一音频帧的独立音频特征，并对各独立音频特征进行融合得到融合音频特征。通过帧扩展的步骤，对每一音频帧进行单帧音频特征的提取，得到每一音频帧的融合音频特征；将当前帧、当前帧之前第一预设帧数的融合音频特征以及当前帧之后第二预设帧数量的融合音频特征进帧扩展，得到扩展帧音频特征；对每一音频帧进行帧扩展得到每一音频帧的扩展音频特征。通过输入深度神经网络模型的步骤，将扩展音频特征输入至深度神经网络，并经过深度神经网络模型的隐藏层进行信息传递，由深度神经网络模型的输出层输出训练结果。通过偏差(bias)计算的步骤，计算训练结果与目标结果的偏差，可以将该偏差作为误差反向传播算法的输入，对隐藏层的权重进行更新，直至深度神经网络模型达到预设条件得到语音活动检测模型。在该实施例中，通过损失函数来确定深度神经网络模型是否达到预设条件。

请参阅图6，本发明还提供一种应用上述语音活动检测模型建立方法的语音活动检测方法，包括：

S610：获取待检测音频文件。

S620：对待检测音频文件进行分帧得到音频帧，并提取音频帧的音频特征。

S630：获取基于上述的语音活动检测模型建立方法得到的语音活动检测模型。

S640：将音频特征输入至语音活动检测模型，得到检测结果。

相较于上述的模型建立方法，语音活动检测方法与之对应，且无需获取目标结果，也不用根据目标结果和训练结果进行模型的更新。只需要在将音频特征输入到语音活动检测模型之后，得到检测结果即可。

由于音频特征包括能量及至少一种区别于能量的特征，该音频特征相对于传统检测方式中携带的信息更多；同时，深度神经网络的学习能力强，可以同时输入多种不同的特征，进行训练得到语音活动检测模型。因此，通过该语音活动检测模型进行语音活动检测时的准确性高。

在其中一具体实施例中，语音活动检测方法的过程示意图，如图7所示，首先获取待检测音频，对待检测音频进行分帧，然后对每一音频帧进行特征提取得到每一音频帧的音频特征；接着对音频特征进行帧扩展得到每一音频帧的扩展音频特征，最后将扩展音频特征输入至训练好的深度神经网络模型即语音活动检测模型，即可得待检测音频的每一音频帧的检测结果。检测结果可以为目标结果中的一种，目标结果包括至少两个语音类或/及至少两个噪音类。对于语音类可以为第一语音类SPK1，第二语音类SPK2，...，噪音类可以为第一噪音类SIL1，第二噪音类SIL2，...等。

如图8所示，在其中一实施方式，将音频特征输入至语音活动检测模型，得到检测结果的步骤，包括：

S842：将音频特征输入至语音活动检测模块，得到待检测音频文件的各音频帧的帧检测结果。

S844：对待检测音频文件中各帧检测结果进行平滑处理，得到待检测音频文件的检测结果。

在本实施例中，在对待检测音频文件的每一音频帧进行检测得到帧检测结果之后，对整个待检测音频文件的各音频帧的帧检测结果进行平滑处理，以纠正在检测过程中出现错判的情况。由于在判断的过程中不可避免地，可能会出现明显的错判的情况，比如深度神经网络模型的输出序列为：SPK(语音类)，SPK，SPK，SIL(噪音类)，SPK，很明显其中的SIL应该为错判的情况，经过平滑之后检测结果为SPK，SPK，SPK，SPK，SPK，该平滑后的检测结果更为准确。

请继续参阅图8，在其中一实施例中，得到待检测音频文件的检测结果的步骤之后，还包括：

S850：根据检测结果确定待检测音频文件中的语音起始点和语音结束点。

可以通过使用一个滑动窗，设置时间阈值，如果滑动窗内语音段的长度超过该时间阈值，那么就找到了语音起始点；语音起始点找到之后，如果滑动窗内静音的长度超过这个阈值，那么就找到语音结束点；最后，可以根据语音起始点及语音结束点将音频分成不同的子段，如语音子段、噪音子段。

在其中一具体实施例中，语音活动检测方法的过程示意图，如图9所示，首先获取待检测音频，对待检测音频进行分帧，然后对每一音频帧进行特征提取得到每一音频帧的音频特征；接着对音频特征进行帧扩展得到每一音频帧的扩展音频特征，再将扩展音频特征输入至训练好的深度神经网络模型即语音活动检测模型重，即可得待检测音频的每一音频帧的帧检测结果，也即深度神经网络模型的输出序列；对帧检测结果进行平滑处理之后可以得到待检测音频的检测结果，最后根据检测结果确定待检测音频文件中的语音起始点和语音结束点，从而可以将待检测音频划分成同的子段，如SPK(音频)子段或SIL(噪音)子段。

如图10所示，本发明还提供一种与上述语音活动检测模型建立方法对应的语音活动检测模型建立装置，包括：

文件结果获取模块110，用于获取训练音频文件及训练音频文件的目标结果。

分帧特征提取模块120，用于对训练音频文件进行分帧得到音频帧，并提取所述音频帧的音频特征，音频特征包括至少两种特征，所述至少两种特征包括能量。即音频特征包括能量及区别于能量的至少一种特征。

模型输入输出模块130，用于将音频特征作为深度神经网络模型的输入，经过深度神经网络模型的隐藏层进行信息处理，由深度神经网络模型的输出层输出，得到训练结果。

模型更新优化模块140，用于将训练结果与目标结果的偏差作为误差反向传播机制的输入，对隐藏层的权重分别进行更新，直至深度神经网络模型达到预设条件得到语音活动检测模型。

上述语音活动检测模型建立装置，由于音频特征包括能量及至少一种区别于能量的特征，该音频特征相对于传统检测方式中携带的信息更多；同时，深度神经网络模型的学习能力强，可以同时输入多种不同的特征，对模型进行训练得到语音活动检测模型。因此，通过该语音活动检测模型进行语音活动检测时的准确性高。

在其中一实施例中，目标结果包括至少两个语音类或/及至少两个噪音类。

请参阅图11，在其中一实施例中，音频特征为融合音频特征；融合音频特征包括至少两项独立音频特征，独立音频特征包括能量，以及过零率、均值、方差中的至少一种；分帧特征提取模块220，包括：

独立特征提取单元221，用于提取每一音频帧的独立音频特征；

融合特征融合单元222，用于对各独立音频特征进行融合得到融合音频特征。

请继续参阅图11，在其中一实施例中，音频特征为扩展帧音频特征；扩展帧音频特征包括当前帧的单帧音频特征、以及当前帧之前第一预设数量帧的单帧音频特征或/及当前帧之后第二预设数量帧的单帧音频特征；

分帧特征提取模块220，包括：

单帧特征提取单元223，用于提取每一音频帧的单帧音频特征；

音频帧扩展单元224，用于将当前帧的单帧音频特帧，以及当前帧之前第一预设数量帧的单帧音频特征或/及当前帧之后第二预设数量帧的单帧音频特征，作为当前帧的扩展帧音频特征；

音频帧扩展单元224，还用于分别将每一音频帧作为当前帧得到每一音频帧的扩展音频特征。

如图12所示，本发明还提供一种与上述语音活动检测方法对应的语音活动检测装置，包括：

待检文件获取模块310，用于获取待检测音频文件；

分帧特征提取模块320，用于对待检测音频文件进行分帧得到音频帧，并提取所述音频帧的音频特征；

检测模型获取模块330，用于获取基上述的语音活动检测模型建立装置得到的语音活动检测模型；

检测结果确定模块340，用于将音频特征输入至语音活动检测模型，得到检测结果。

请参阅图13，在其中一实施例中，检测结果确定模块440，包括：

帧检结果确定单元442，用于将音频特征输入至语音活动检测模块，得到待检测音频文件的各音频帧的帧检测结果；

帧检结果平滑单元444，用于对待检测音频文件中各帧检测结果进行平滑处理，得到待检测音频文件的检测结果。

在其中一实施例中，该检测装置，还包括：

待检音频分段模块450，用于根据检测结果确定待检测音频文件中的语音起始点和语音结束点。

图14示出了一个实施例中计算机设备的内部结构图。该计算机设备包括该通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现语音活动检测模型建立方法、语音活动检测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语音活动检测模型建立方法、语音活动检测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音活动检测模型建立装置、语音活动检测装置可以实现为一种计算机程序的形式，计算机程序可在如图14所示的计算机设备上运行。计算机设备的存储器中可存储组成该语音活动检测模型建立装置、语音活动检测装置的各个程序模块，比如，图10所示的文件结果获取模块110、分帧特征提取模块120、模型输入输出模块130及模型更新优化模块140。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语音活动检测模型建立方法中的步骤。

以语音活动检测模型建立装置为例，请结合参阅图1、10及14，图14所示的计算机设备可以通过如图10所示的语音活动检测模型建立装置中的文件结果获取模块110执行步骤S110。计算机设备可通过分帧特征提取模块120执行步骤S120。计算机设备可通过模型输入输出模块130执行步骤S130。计算机设备可通过模型更新优化模块140执行步骤S140。

本发明还提供一种与上述方法及装置对应的计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述的方法的步骤。

本发明还提供一种与上述方法及装置对应的存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述的方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音活动检测模型建立方法，包括：

获取训练音频文件及所述训练音频文件的目标结果；所述目标结果包括至少两个语音类或/及至少两个噪音类；所述至少两个语音类属于语音类别中不同的类，所述至少两个噪音类属于噪音类别中不同的类，所述目标结果根据所述至少两个语音类或所述至少两个噪音类中相同类别的和对应的得分得到；

对所述训练音频文件进行分帧得到音频帧，并提取所述音频帧的音频特征，所述音频特征包括至少两种特征，所述至少两种特征包括能量，以及过零率、均值、方差中的至少一种；

将所述音频特征作为深度神经网络模型的输入，经过所述深度神经网络模型的隐藏层进行信息处理，由所述深度神经网络模型的输出层输出，得到训练结果；

2.根据权利要求1所述的语音活动检测模型建立方法，其特征在于：所述误差反向传播机制包括误差反向传播算法；所述预设条件包括通过损失函数确定深度神经网络模型达到最优。

3.根据权利要求1所述的语音活动检测模型建立方法，其特征在于，所述音频特征为融合音频特征；所述融合音频特征包括至少两项独立音频特征，所述独立音频特征包括能量，以及过零率、均值、方差中的至少一种；所述提取每一音频帧的音频特征的步骤，包括：

提取每一音频帧的独立音频特征；

对各所述独立音频特征进行融合得到所述融合音频特征。

4.根据权利要求1-3任意一项所述的语音活动检测模型建立方法，其特征在于，所述音频特征为扩展帧音频特征；所述扩展帧音频特征包括当前帧的单帧音频特征、以及所述当前帧之前第一预设数量帧的单帧音频特征或/及所述当前帧之后第二预设数量帧的单帧音频特征；

所述提取每一音频帧的音频特征的步骤，包括：

提取每一音频帧的所述单帧音频特征；

将当前帧的所述单帧音频特帧，以及所述当前帧之前第一预设数量帧的所述单帧音频特征或/及所述当前帧之后第二预设数量帧的所述单帧音频特征，作为所述当前帧的所述扩展帧音频特征；

分别将每一音频帧作为所述当前帧得到每一音频帧的扩展音频特征。

5.一种语音活动检测方法，包括：

获取待检测音频文件；

6.根据权利要求5所述的语音活动检测方法，其特征在于，所述将所述音频特征输入至所述语音活动检测模型，得到检测结果的步骤，包括：

将所述音频特征输入至所述语音活动检测模块，得到所述待检测音频文件的各音频帧的帧检测结果；

对所述待检测音频文件中各所述帧检测结果进行平滑处理，得到所述待检测音频文件的检测结果。

7.根据权利要求6所述的语音活动检测方法，其特征在于，所述得到所述待检测音频文件的检测结果的步骤之后，还包括：

根据所述检测结果确定所述待检测音频文件中的语音起始点和语音结束点。

8.一种语音活动检测模型建立装置，包括：

文件结果获取模块，用于获取训练音频文件及所述训练音频文件的目标结果；所述目标结果包括至少两个语音类或/及至少两个噪音类；所述至少两个语音类属于不同的类，所述至少两个噪音类属于不同的类，所述目标结果根据所述至少两个语音类或所述至少两个噪音类中相同类别的和对应的得分得到；

分帧特征提取模块，用于对所述训练音频文件进行分帧得到音频帧，并提取所述音频帧的音频特征，所述音频特征包括至少两种特征，所述至少两种特征包括能量，以及过零率、均值、方差中的至少一种；

模型输入输出模块，用于将所述音频特征作为深度神经网络模型的输入，经过所述深度神经网络模型的隐藏层进行信息处理，由所述深度神经网络模型的输出层输出，得到训练结果；

9.根据权利要求8所述的语音活动检测模型建立装置，其特征在于，所述音频特征为融合音频特征；所述融合音频特征包括至少两项独立音频特征，所述独立音频特征包括能量，以及过零率、均值、方差中的至少一种；所述分帧特征提取模块，包括：

独立特征提取单元，用于提取每一音频帧的独立音频特征；

融合特征融合单元，用于对各所述独立音频特征进行融合得到所述融合音频特征。

10.根据权利要求8或9所述的语音活动检测模型建立装置，其特征在于，所述音频特征为扩展帧音频特征；所述扩展帧音频特征包括当前帧的单帧音频特征、以及所述当前帧之前第一预设数量帧的单帧音频特征或/及所述当前帧之后第二预设数量帧的单帧音频特征；

所述分帧特征提取模块，包括：

单帧特征提取单元，用于提取每一音频帧的所述单帧音频特征；

音频帧扩展单元，用于将当前帧的所述单帧音频特帧，以及所述当前帧之前第一预设数量帧的所述单帧音频特征或/及所述当前帧之后第二预设数量帧的所述单帧音频特征，作为所述当前帧的所述扩展帧音频特征；

所述音频帧扩展单元，还用于分别将每一音频帧作为所述当前帧得到每一音频帧的扩展音频特征。

11.一种语音活动检测装置，包括：

待检文件获取模块，用于获取待检测音频文件；

12.根据权利要求11所述的语音活动检测装置，其特征在于，所述检测结果确定模块，包括：

帧检结果确定单元，用于将所述音频特征输入至所述语音活动检测模块，得到所述待检测音频文件的各音频帧的帧检测结果；

帧检结果平滑单元，用于对所述待检测音频文件中各所述帧检测结果进行平滑处理，得到所述待检测音频文件的检测结果。

13.根据权利要求12所述的语音活动检测装置，其特征在于，所述检测结果确定模块，还包括：

待检音频分段单元，用于根据所述检测结果确定所述待检测音频文件中的语音起始点和语音结束点。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-7中任意一项所述的方法的步骤。

15.一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得处理器执行如权利要求1-7中任意一项所述的方法的步骤。