CN109473123A

CN109473123A - 语音活动检测方法及装置

Info

Publication number: CN109473123A
Application number: CN201811482222.6A
Authority: CN
Inventors: 李超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2019-03-15
Anticipated expiration: 2038-12-05
Also published as: US11127416B2; US20190392859A1; CN109473123B

Abstract

本发明实施例提供一种语音活动检测方法及装置，通过将待检测音频文件，即包含语音信号的第一音频文件进行分帧处理，得到第一音频帧序列，提取该第一音频帧序列中各个音频帧的声学特征，然后按照时间先后顺序将各音频帧的声学特征输入至加噪处理后的VAD模型，得到第一音频帧序列中的各个音频帧的概率值，每个音频帧的概率值用于指示对应音频帧为语音帧或噪声帧，然后，电子设备根据各个音频帧的概率值，确定语音信号的起点和终点。该VAD检测过程中，利用加噪处理后的VAD模型识别出一段音频中语音信号的起点和终点，实现准确识别出语音信号的起点和终点的目的。

Description

语音活动检测方法及装置

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音活动检测方法及装置。

背景技术

语音活动检测(voice activity detection，VAD)技术是指从包含语音的一段音频文件中确定出语音信号，该技术在语音编码、语音识别、语音增强等方面发挥重要作用。

VAD技术的一个重要工作是判断出语音信号的起点和终点，判断起点的目的在于使得语音识别系统只关注音频文件中的语音片段，而对纯噪声不进行处理；判断终点的目的在于使得语音识别系统对语音交互快速做出反映，避免用户等待。传统的VAD方法是基于信号处理的方法和使用深度学习模型的方法。

传统的VAD方法无法准确识别语音信号的起点或终点，例如，容易出现起点的误判或漏判的现象，或者，容易出现终点的误判或漏判现象。

发明内容

本发明提供一种语音活动检测方法及装置，实现准确识别语音信号的起点和终点的目的。

第一方面，本发明实施例提供一种语音活动检测方法，包括：

对第一音频文件进行分帧处理，得到第一音频帧序列，所述第一音频文件包含一段连续的语音信号；

提取所述第一音频帧序列中各音频帧的声学特征；

依次将所述第一音频帧序列中的各音频帧的声学特征输入至语音活动检测VAD模型，得到所述第一音频帧序列中的各音频帧的概率值，所述概率值用于指示所述音频帧为语音帧或噪声帧；

根据所述第一音频帧序列中各音频帧的概率值，确定所述语音信号的起点和终点。

一种可行的设计中，

所述依次将所述第一音频帧中的各音频帧的声学特征输入至语音活动检测VAD模型之前，还包括：

获取第二音频文件，所述第二音频文件为噪声音频文件；

将所述第二音频文件切割成至少一个噪声片段，得到噪声片段集合；

根据所述噪声片段集合，训练所述VAD模型。

一种可行的设计中，

所述根据所述噪声片段集合，训练所述VAD模型，包括：

为每个噪声片段分配随机数；

将随机数大于预设值的噪声片段添加至训练数据集合；

根据所述训练数据集合训练所述VAD模型。

一种可行的设计中，

获取第三音频文件，所述第三音频文件为语音音频文件；

将所述第三音频文件切割成至少一个语音片段，得到语音片段集合；

所述根据所述噪声片段集合，训练所述VAD模型，包括：

为每个噪声片段分配随机数；

为每个随机数小于或等于预设值的噪声片段随机分配信噪比；

对于随机数小于或等于预设值的噪声片段中的每一个噪声片段，根据所述噪声片段与所述噪声片段的信噪比，对语音片段进行加噪处理，得到随机数小于或等于预设值的噪声片段中的每一个噪声片段的加噪片段；

将随机数小于或等于预设值的噪声片段中的每一个噪声片段的加噪片段添加至训练数据集合；

根据所述训练数据集合训练所述VAD模型。

一种可行的设计中，

所述对于随机数小于或等于预设值的噪声片段中的每一个噪声片段，根据所述噪声片段与所述噪声片段的信噪比，对语音片段进行加噪处理，得到随机数小于或等于预设值的噪声片段中的每一个噪声片段的加噪片段，包括：

对于随机数小于或等于预设值的噪声片段中的每一个噪声片段，根据所述噪声片段的信噪比，确定所述噪声片段的增益；

根据所述噪声片段、所述增益以及所述语音片段，确定所述加噪片段；

X＝s+a×n，其中，X为所述加噪片段，S为语音片段，a为所述增益，n为所述噪声片段。

一种可行的设计中，

所述根据所述训练数据集合训练所述VAD模型，包括：

对所述训练数据集合中的每条训练数据进行分帧处理，得到第二音频帧序列；

提取所述第二音频帧序列中的各音频帧的声学特征；

对所述第二音频帧序列中的各个音频帧序列进行标注，获得所述第二音频帧序列中的各音频帧的标注信息，所述标注信息用于指示所述第二音频帧训练中的音频帧为语音帧或噪声帧；

根据所述第二音频帧序列中的各个音频帧序列的声学特征和标注信息，得到特征向量；

利用深度神经网络学习所述特征向量，得到所述VAD模型。

一种可行的设计中，

所述根据所述第一音频帧的各音频帧的概率值，确定所述语音信号的起点和终点，包括：

确定第一音频帧的概率值是否超过第一阈值，所述第一音频帧包含于所述第一音频帧序列中；

若所述第一音频帧的概率值超过所述第一阈值，则确定所述第一音频帧为所述语音信号的起点；

确定第二音频帧的概率值是否超过第二阈值，所述第二音频帧包含于所述第一音频帧序列中，且所述第二音频帧位于所述第一音频帧之后；

若所述第二音频帧的概率值超过所述第二阈值，且所述第二音频帧是所述第一音频帧之后第一个概率值超过所述第二阈值的音频帧，则确定所述第二音频帧为所述语音信号的终点，所述第一阈值大于所述第二阈值。

第二方面，本发明实施例提供一种语音活动检测装置，包括：

处理模块，用于对第一音频文件进行分帧处理，得到第一音频帧序列，所述第一音频文件包含一段连续的语音信号；

提取模块，用于提取所述第一音频帧序列中各音频帧的声学特征；

获取模块，用于依次将所述第一音频帧序列中的各音频帧的声学特征输入至语音活动检测VAD模型，得到所述第一音频帧序列中的各音频帧的概率值，所述概率值用于指示所述音频帧为语音帧或噪声帧；

确定模块，用于根据所述第一音频帧序列中各音频帧的概率值，确定所述语音信号的起点和终点。

一种可行的设计中，上述的装置还包括：

训练模块，用于在所述获取模块依次将所述第一音频帧中的各音频帧的声学特征输入至语音活动检测VAD模型之前，获取第二音频文件，所述第二音频文件为噪声音频文件，将所述第二音频文件切割成至少一个噪声片段，得到噪声片段集合；根据所述噪声片段集合，训练所述VAD模型。

一种可行的设计中，所述训练模块，在根据所述噪声片段集合，训练所述VAD模型时，是为每个噪声片段分配随机数；将随机数大于预设值的噪声片段添加至训练数据集合；根据所述训练数据集合训练所述VAD模型。

一种可行的设计中，所述训练模块，用于在所述获取模块依次将所述第一音频帧中的各音频帧的声学特征输入至语音活动检测VAD模型之前，获取第三音频文件，所述第三音频文件为语音音频文件；将所述第三音频文件切割成至少一个语音片段，得到语音片段集合，为每个噪声片段分配随机数；为每个随机数小于或等于预设值的噪声片段随机分配信噪比；对于随机数小于或等于预设值的噪声片段中的每一个噪声片段，根据所述噪声片段与所述噪声片段的信噪比，对语音片段进行加噪处理，得到随机数小于或等于预设值的噪声片段中的每一个噪声片段的加噪片段；将随机数小于或等于预设值的噪声片段中的每一个噪声片段的加噪片段添加至训练数据集合；根据所述训练数据集合训练所述VAD模型。

一种可行的设计中，所述训练模块，对于随机数小于或等于预设值的噪声片段中的每一个噪声片段，根据所述噪声片段与所述噪声片段的信噪比，对语音片段进行加噪处理，得到随机数小于或等于预设值的噪声片段中的每一个噪声片段的加噪片段时，具体用于对于随机数小于或等于预设值的噪声片段中的每一个噪声片段，根据所述噪声片段的信噪比，确定所述噪声片段的增益；根据所述噪声片段、所述增益以及所述语音片段，确定所述加噪片段；X＝s+a×n，其中，X为所述加噪片段，S为语音片段，a为所述增益，n为所述噪声片段。

一种可行的设计中，所述训练模块，在根据所述训练数据集合训练所述VAD模型时，具体用对所述训练数据集合中的每条训练数据进行分帧处理，得到第二音频帧序列；提取所述第二音频帧序列中的各音频帧的声学特征；对所述第二音频帧序列中的各个音频帧序列进行标注，获得所述第二音频帧序列中的各音频帧的标注信息，所述标注信息用于指示所述第二音频帧训练中的音频帧为语音帧或噪声帧；根据所述第二音频帧序列中的各个音频帧序列的声学特征和标注信息，得到特征向量；利用深度神经网络学习所述特征向量，得到所述VAD模型。

一种可行的设计中，所述确定模块，具体用于确定第一音频帧的概率值是否超过第一阈值，所述第一音频帧包含于所述第一音频帧序列中；若所述第一音频帧的概率值超过所述第一阈值，则确定所述第一音频帧为所述语音信号的起点；确定第二音频帧的概率值是否超过第二阈值，所述第二音频帧包含于所述第一音频帧序列中，且所述第二音频帧位于所述第一音频帧之后；若所述第二音频帧的概率值超过所述第二阈值，且所述第二音频帧是所述第一音频帧之后第一个概率值超过所述第二阈值的音频帧，则确定所述第二音频帧为所述语音信号的终点，所述第一阈值大于所述第二阈值。

第三方面，本发明实施例提供一种语音活动检测装置，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上第一方面或第一方面的各种可行的实现方式所述的方法。

第四方面，本发明实施例提供一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上第一方面或第一方面的各种可行的实现方式所述的方法。

第五方面，本发明实施例提供一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行如上第一方面或第一方面的各种可行的实现方式所述的方法。

本发明实施例提供的语音活动检测方法及装置，通过将待检测音频文件，即包含语音信号的第一音频文件进行分帧处理，得到第一音频帧序列，提取该第一音频帧序列中各个音频帧的声学特征，然后按照时间先后顺序将各音频帧的声学特征输入至加噪处理后的VAD模型，得到第一音频帧序列中的各个音频帧的概率值，每个音频帧的概率值用于指示对应音频帧为语音帧或噪声帧，然后，电子设备根据各个音频帧的概率值，确定语音信号的起点和终点。该VAD检测过程中，利用加噪处理后的VAD模型识别出一段音频中语音信号的起点和终点，实现准确识别出语音信号的起点和终点的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音活动检测方法的流程图；

图2是本发明实施例提供的一种语音活动检测方法中生成训练数据的流程图；

图3为本发明实施提供的一种语音活动检测方法标注信息的示意图；

图4为本发明实施例提供的一种语音活动检测装置的结构示意图；

图5为本发明实施例提供的另一种语音活动检测装置的结构示意图；

图6为本发明实施例提供的又一种语音活动检测装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语音识别、语音交互等场景中，在电子设备上设置语音系统，该语音系统用于语音识别、语音交互等，该系统包括VAD模型，VAD模型的重要工作之一是判断出一段音频中语音信号的起点和终端。判断语音信号的起点的必要性在于：将语音信号从一段音频中提取出来。例如，电子设备具体为智能音响，智能音响一直处于待机状态，时刻监听当前环境中的信号得到音频，如果语音系统对实时监测到每一帧音频都进行语音识别，则导致智能音响功耗增大。因此，通过VAD模型判断出语音信号的起点，使得语音系统只关注音频中用户说话的片段，而不对纯噪声进行处理。

判断语音信号的终点的必要性在于：用户发出语音表达自身的请求后，语音系统能够快速做出反应，若语音系统的反应速度较慢，则引起用户抱怨“系统反应速度太慢”等。例如，用户对具有语音交互功能的电子设备说“北京今天的天气”，则用户希望在他说完话后，语音系统能够及时告诉他“北京今天多云……”。

理想情况下，VAD模型能够准确识别出音频中语音信号的起点和终点。VAD模型本身是个分类模型，如果该模型不理想，则会出现差例(badcase)。起点检测的badcase有两种：第一种是起点误判，音频中的噪声段被分类成了语音，VAD模型把噪声发给语音识别器，电子设备功能增大。另外，当语音识别器没有设置在电子设备本地，而是设置在云端时，则流量需求较多；第二种是起点漏判，VAD模型没有检测到起点，因此没有任何声音被传递到语音识别器。例如，用户说话的声音很小，若VAD模型无法处理轻声说话的情况，则会把用户的小声说话当作背景噪声来处理，语音识别器就不会接收到任何语音。

终点检测的badcase也有两种：第一种是终点误判，即提前截止语音信号。该种badcase中，用户的话还没有说完，就结束语音活动检测，用户说话时，越说声音越小，则会导致该种badcase。另外，用户说话过程中长停顿，也会导致该种badcase。例如，用户说“北京今天的天气”，然后用户喘了一口气，接着说“适合外出爬山么”。如果终点检测过于敏感，则VAD模型会将这句话作为两句话。第二种是漏判，即语音信号结束了，但是语音系统并没有发现。例如，当环境比较嘈杂的时候，虽然语音结束了，但是背景噪声特别大，因此，若VAD模型不够精确，则语音结束后，VAD模型无法识别终点，即无法识别出语音已经结束，导致用户说完了“北京今天天气？”之后，一直等待语音系统反馈，但是由于语音系统没有识别出终点，则认为用户的话还没有讲完，继续等待用户说话完毕。

传统的VAD方法是基于信号处理的方法和使用深度学习模型的方法。该两种方法均无法正确识别出一段音频中语音信号的起点和终点。

有鉴于此，本发明实施例提供一种语音活动检测方法及装置，利用加噪处理后的VAD模型识别出一段音频中语音信号的起点和终点，实现准确识别出语音信号的起点和终点的目的。

本发明实施例提供的语音活动检测方法可应用于需要对语音活动情况进行检测的任何场景，执行语音活动检测方法的语音活动检测装置可以设置在客户端的电子设备上，也可以设置在服务器上，电子设备例如可以是计算机设备、移动终端设备、智能音箱、智能电视、智能冰箱以及其他人工智能设备。下面，对本发明实施例所述的语音活动检测方法进行详细说明。示例性的，请参照图1。

图1是本发明实施例提供的一种语音活动检测方法的流程图。本实施例的执行主体是是语音活动检测装置，该装置可以通过软件、硬件或者软硬件结合的方式实现，该装置可以是电子设备的部分或者全部，也可以是服务器的部分或全部。本实施以该语音活动检测方法应用于电子设备为例进行说明，本实施例包括：

101、对第一音频文件进行分帧处理，得到第一音频帧序列，所述第一音频文件包含一段连续的语音信号。

本发明实施例中，第一音频文件为待进行语音活动检测的音频文件，该第一音频文件例如为电子设备实时检测当前环境得到的音频文件。

本步骤中，电子设备对第一音频文件进行分帧处理，将该第一音频文件分成很多帧，例如，第一音频文件为2分钟的音频文件，电子设备以25毫秒(ms)为一个单位，将该2分钟的第一音频文件分成4800个帧长为25ms的音频帧，对该些音频帧按照时间的先后顺序进行排列，得到第一音频帧序列。

102、提取所述第一音频帧序列中各音频帧的声学特征。

本步骤中，电子设备对第一音频帧序列中的每个音频帧提取声学特征，声学特征包括MEL频率倒谱系数(mel frequency cepstrum coefficient，MFCC)特征、感知线性预测系数(perceptual linear predictive，PLP)特征、帧长、帧移、滤波器组件(filterback)64维特征等。

103、依次将所述第一音频帧序列中的各音频帧的声学特征输入至语音活动检测VAD模型，得到所述第一音频帧序列的各音频帧的概率值，所述概率值用于指示所述音频帧为语音帧或噪声帧。

本发明实施例中，预先利用深度机器学习等训练出加噪处理后的VAD模型。本步骤中，按照时间先后顺序将第一音频帧序列中的各个音频帧的声学模型输入至VAD模型，从而得到各个音频帧的概率值。对于一个具体的音频帧，该音频得到概率值用于指示该音频帧是语音帧或噪声帧。

104、根据所述第一音频帧的各音频帧的概率值，确定所述语音信号的起点和终点。

本步骤中，电子设备根据第一音频帧序列中各个音频帧的概率值，确定出第一音频文件包含的语音信号的起点和终点。例如，该第一音频帧序列包含10000个音频帧，第300个音频帧为语音信号的起点，第7000个音频帧为语音信号的终点。

本发明实施例提供的语音活动检测方法，通过将待检测音频文件，即包含语音信号的第一音频文件进行分帧处理，得到第一音频帧序列，提取该第一音频帧序列中各个音频帧的声学特征，然后按照时间先后顺序将各音频帧的声学特征输入至加噪处理后的VAD模型，得到第一音频帧序列中的各个音频帧的概率值，每个音频帧的概率值用于指示对应音频帧为语音帧或噪声帧，然后，电子设备根据各个音频帧的概率值，确定语音信号的起点和终点。该VAD检测过程中，利用加噪处理后的VAD模型识别出一段音频中语音信号的起点和终点，实现准确识别出语音信号的起点和终点的目的。

下面，对上述实施例中，如何根据所述第一音频帧的各音频帧的概率值，确定所述语音信号的起点和终点，进行详细说明。

一种可行的实现方式中，电子设备根据所述第一音频帧的各音频帧的概率值，确定所述语音信号的起点和终点时，确定第一音频帧的概率值是否超过第一阈值，所述第一音频帧包含于所述第一音频帧序列中；若所述第一音频帧的概率值超过所述第一阈值，则确定所述第一音频帧为所述语音信号的起点；确定第二音频帧的概率值是否超过第二阈值，所述第二音频帧包含于所述第一音频帧序列中，且所述第二音频帧位于所述第一音频帧之后；若所述第二音频帧的概率值超过所述第二阈值，且所述第二音频帧是所述第一音频帧之后第一个概率值超过所述第二阈值的音频帧，则确定所述第二音频帧为所述语音信号的终点，所述第一阈值大于所述第二阈值。

示例性的，本发明实施例中，针对起点和终点分别设置不同的阈值，例如，起点的阈值为第一阈值，例如为0.6，终点的阈值为第二阈值，例如为0.4，从而降低噪声被误报成语音的可能性。

上述实施例中，电子设备依次将所述第一音频帧中的各音频帧的声学特征输入至语音活动检测VAD模型之前，需要获取加噪处理后的VAD模型。下面，对电子设备如何使用训练得到加噪处理后的VAD模型进行详细说明。示例性的，训练得到加噪处理后的VAD模型包括三个阶段：

第一阶段：数据准备。

该阶段中，电子设备获取第二音频文件，所述第二音频文件为噪声音频文件；将所述第二音频文件切割成至少一个噪声片段，得到噪声片段集合；根据所述噪声片段集合，训练所述VAD模型。

示例性的，第二音频文件为电子设备训练VAD模型所需的噪声音频文件，第二音频文件为电子设备训练VAD模型所需的语音音频文件。训练VAD模型之前，针对目标应用场景，例如家庭应用场景，利用拾音设备采集若干小时的噪声音频若干小时，得到第二音频文件；利用拾音设备采集语音音频若干小时得到第三音频文件。然后，将第二音频文件切换成目标时长的噪声片段，如将若干小时时长的第二音频文件切割成多个1分钟的噪声片段，对该些1分钟的噪声片段分别建立索引，得到噪声片段的索引表，该表例如为list_n，并将该些1分钟的噪声片段分别编号并存储在噪声片段集合中，每个噪声片段的编号例如为该噪声片段的索引。

下面，对电子设备如何根据噪声片段集合中的噪声片段得到训练数据，进行详细说明。

一种可行的实现方式中，电子设备根据所述噪声片段集合，训练所述VAD模型时，为每个噪声片段分配随机数；将随机数大于预设值的噪声片段添加至训练数据集合；根据所述训练数据集合训练所述VAD模型。

示例性的，预先设置一个随机数，称之为预设值P_S，该预设值表示第二音频文件中出现语音信号的概率，0≤P_S≤1。也就是说，第二音频文件中可能会出现语音，即也可能只有噪声。另外，预先设定一个信噪比(signal noise ratio，SNR)范围，并设定一个SNR的分布函数P，也就是说，根据第二音频文件得到的噪声片段集合中，每个噪声片段的SNR在预先设定的SNR范围内时随机的，即每个噪声片段的SNR包含于预设SNR范围；每个噪声片段的SNR服从预设的分布函数P。准备训练数据的过程中，电子设备为每个噪声片段分配随机数；将随机数大于预设值的噪声片段添加至训练数据集合；根据该训练数据集合训练所述VAD模型

对于随机数小于或等于阈值的噪声片段，电子设备获取第三音频文件，所述第三音频文件为语音音频文件；将所述第三音频文件切割成至少一个语音片段，得到语音片段集合。例如，将第三音频文件切换成目标时长的语音片段，如将若干小时时长的第三音频文件切割成多个1分钟的语音片段，对该些1分钟的语音片段分别建立索引，得到语音片段的索引表，该表例如为list_s，并将该些1分钟的语音片段分别编号并存储在语音片段集合中，每个语音片段的编号例如为该语音片段的索引。然后，电子设备对于随机数小于或等于预设值的噪声片段中的每一个噪声片段，根据所述噪声片段与所述噪声片段的信噪比，对语音片段进行加噪处理，得到随机数小于或等于预设值的噪声片段中的每一个噪声片段的加噪片段；将随机数小于或等于预设值的噪声片段中的每一个噪声片段的加噪片段添加至训练数据集合；根据所述训练数据集合训练所述VAD模型。

下面，用一个例子说明电子设备如何根据噪声片段集合中的噪声片段和语音片段集合中的语音片段得到训练数据。示例性，可参见图2。

图2是本发明实施例提供的一种语音活动检测方法中生成训练数据的流程图。请参照图2，本实施例包括：

201、读取噪声片段的索引表。

202、从噪声片段集合中读取出第i条噪声片段。

本步骤中，第i条噪声片段即为上述的噪声片段，其为噪声片段集合中的任意一个未使用过出的噪声片段。

203、针对第i条噪声片段产生随机数。

204、判断随机数是否小于或等于预设值，若随机数小于或等于预设值，则执行205；若随机数大于预设值，则执行209。

205、针对第i条噪声片段产生信噪比。

其中，信噪比是预设信噪比范围内的任意一个信噪比，且信噪比服从预设的分布函数P。

206、读取语音片段的索引表。

207、从语音片段集合中读取出第j条语音片段。

本步骤中，第i条语音片段即为上述的语音片段，其为语音片段集合中的任意一个未使用过出的语音片段。

208、根据信噪比与噪声片段，对语音片段进行加噪处理，得到加噪片段，并将加噪片段添加至训练数据集合。

示例性的，对语音片段进行加噪处理时，电子设备先确定所述噪声片段的增益；然后根据所述噪声片段、所述增益以及所述语音片段，确定所述加噪片段；其中，X＝s+α×n，其中，X为所述加噪片段，s为语音片段，α为所述增益，n为所述噪声片段。

上述对语音片段进行加噪处理时，可根据信号比的计算公式，确定出满足当前SNR，即第一SNR的增益，该增益也称之为噪声片段的增益，该增益还可以称之为语音与噪声混合的系数。根据信号比公式，增益

上述信号比公式中，σ_n是根据噪声片段集合中的噪声片段得到的标准差，σ_s是根据语音片段集合中的语音片段得到的标准差。

需要说明的是，上述计算增益的过程中，当噪声片段的随机数小于或等于预设值时，电子设备会针对该噪声片段产生一个信噪比，不同的噪声片段的信噪比不同，因此，不同噪声片段的增益不同。也就是说，上述信号比公式中，针对不同的噪声片段，该公式中的snr是不同的。

209、令j＝j+1。

电子设备读取出第j条语音片段后，或该第j条语音片段被用于加噪处理，则电子设备从噪声片段集合中再次确定出随机数小于预设值的噪声片段后，需要读写新的语音片段，即第j+1条语音片段。

210、若随机数大于预设值，则将噪声片段添加至训练数据集合。

根据上述可知：训练数据集合中的训练数据包括随机数大于或等于预设值的、未经过加噪处理的噪声片段，以及经过加噪处理的语音片段。

第二阶段：整理训练数据。

一种可行的实现方式中，电子设备根据所述训练数据集合训练所述VAD模型时，对所述训练数据集合中的每条训练数据进行分帧处理，得到第二音频帧序列；提取所述第二音频帧序列中的各音频帧的声学特征；对所述第二音频帧序列中的各个音频帧序列进行标注，获得所述第二音频帧序列中的各音频帧的标注信息，所述标注信息用于指示所述第二音频帧训练中的音频帧为语音帧或噪声帧；根据所述第二音频帧序列中的各个音频帧序列的声学特征和标注信息，得到特征向量；利用深度神经网络学习所述特征向量，得到所述VAD模型。

示例性的，根据上述第一阶段的步骤210可知：训练数据集合中的训练数据包含随机数大于或等于预设值的、未经过加噪处理的噪声片段，和/或，经过加噪处理的语音片段，也就是说，训练数据集合中的每条训练数据的时长与噪声片段或语音片段的时长相同，例如为1分钟。整理训练数据的过程中，先将每条训练数据进行分帧处理，例如，先将每条训练数据分割成长度为几秒钟的子数据，例如，训练数据的时长为1分钟，将该分钟的训练数据分割成10个长度为6秒的子数据，然后对每个子数据进行分帧处理，得到第二音频帧序列。

然后，提取第二音频帧序列中的各音频帧的声学特征，并为第二音频帧序列中的各音频帧进行标注，从而得到各个音频帧的标签(label)。如此一来，第二音频帧序列中的每个音频帧可以用{x，y}表示，其中，x表示音频帧的声学特征，y表示该音频帧为语音帧还是噪声帧。实际实现时，可采用人工标注的方式，对第二音频帧序列中的每个音频帧进行标注，也可以利用语音识别中的机器强制对齐的方法，对第二音频帧序列中的每个音频帧进行标注。示例性的，一个音频帧被标注为0时，表示该音频帧为噪声帧，当该音频帧被标注为1时，表示该音频帧为语音帧。另外，若训练数据集合中的所有音频帧均被标注为0，则表示该训练数据集合中只有噪声帧。最后，根据所述第二音频帧序列中的各个音频帧序列的声学特征和标注信息，得到特征向量。

图3为本发明实施提供的一种语音活动检测方法标注信息的示意图。请参照图3，横坐标表示时间，纵坐标表示标注信息，粗黑实线表示标注信息与对着时间的变化而变化的趋势。

第三阶段：VAD模型训练阶段。

本发明实施例中，利用深度神经网络学习上述第二阶段获得的特征向量，得到所述VAD模型。其中，深度神经网络为循环神经网络(recurrent neural networks，RNN)等，例如gru网络、lstm网络等。其中，利用gru网络训练VAD模型的速度更快。深度神经网络由多层rnn堆砌而成，最后的输出层是2个节点，softmax作为激活，采用交叉熵作为代价函数，每一帧都有一个分类结果。

第四阶段：测试阶段。

本阶段中，将测试音频文件分帧处理后，对每帧提取声学特征，然后逐帧将声学特征输入VAD模型，得到每帧的输出h，该h表示一个概率值，比对该概率值与阈值，从而判断该帧是语音帧还是噪声帧。根据输出h判断出语音帧或噪声帧后，和人工标注或采用机器对齐方法获得的标注进行比对，从而确定出训练得到的VAD模型的准确性。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图4为本发明实施例提供的一种语音活动检测装置的结构示意图，该语音活动检测装置可以通过软件和/或硬件的方式实现。如图4所示，该语音活动检测装置100包括：

处理模块11，用于对第一音频文件进行分帧处理，得到第一音频帧序列，所述第一音频文件包含一段连续的语音信号；

提取模块12，用于提取所述第一音频帧序列中各音频帧的声学特征；

获取模块13，用于依次将所述第一音频帧序列中的各音频帧的声学特征输入至语音活动检测VAD模型，得到所述第一音频帧序列中的各音频帧的概率值，所述概率值用于指示所述音频帧为语音帧或噪声帧；

确定模块14，用于根据所述第一音频帧序列中各音频帧的概率值，确定所述语音信号的起点和终点。

图5为本发明实施例提供的另一种语音活动检测装置的结构示意图，该语音活动检测装置在上述图4的基础上，进一步的，还包括：

训练模块15，用于在所述获取模块13依次将所述第一音频帧中的各音频帧的声学特征输入至语音活动检测VAD模型之前，获取第二音频文件，所述第二音频文件为噪声音频文件，将所述第二音频文件切割成至少一个噪声片段，得到噪声片段集合；根据所述噪声片段集合，训练所述VAD模型。

一种可行的设计中，所述训练模块15，在根据所述噪声片段集合，训练所述VAD模型时，具体是为每个噪声片段分配随机数；将随机数大于预设值的噪声片段添加至训练数据集合；根据所述训练数据集合训练所述VAD模型。

一种可行的设计中，所述训练模块15，在所述获取模块13依次将所述第一音频帧中的各音频帧的声学特征输入至语音活动检测VAD模型之前，还用于获取第三音频文件，所述第三音频文件为语音音频文件；将所述第三音频文件切割成至少一个语音片段，得到语音片段集合；所述训练模块15，在根据所述噪声片段集合，训练所述VAD模型时，用于为每个噪声片段分配随机数；为每个随机数小于或等于预设值的噪声片段随机分配信噪比；对于随机数小于或等于预设值的噪声片段中的每一个噪声片段，根据所述噪声片段与所述噪声片段的信噪比，对语音片段进行加噪处理，得到随机数小于或等于预设值的噪声片段中的每一个噪声片段的加噪片段；将随机数小于或等于预设值的噪声片段中的每一个噪声片段的加噪片段添加至训练数据集合；根据所述训练数据集合训练所述VAD模型。

一种可行的设计中，所述训练模块15，对于随机数小于或等于预设值的噪声片段中的每一个噪声片段，根据所述噪声片段与所述噪声片段的信噪比，对语音片段进行加噪处理，得到随机数小于或等于预设值的噪声片段中的每一个噪声片段的加噪片段时，具体用于对于随机数小于或等于预设值的噪声片段中的每一个噪声片段，根据所述噪声片段的信噪比，确定所述噪声片段的增益；根据所述噪声片段、所述增益以及所述语音片段，确定所述加噪片段；X＝s+a×n，其中，X为所述加噪片段，S为语音片段，a为所述增益，n为所述噪声片段。

一种可行的设计中，所述训练模块15，在根据所述训练数据集合训练所述VAD模型时，具体用对所述训练数据集合中的每条训练数据进行分帧处理，得到第二音频帧序列；提取所述第二音频帧序列中的各音频帧的声学特征；对所述第二音频帧序列中的各个音频帧序列进行标注，获得所述第二音频帧序列中的各音频帧的标注信息，所述标注信息用于指示所述第二音频帧训练中的音频帧为语音帧或噪声帧；根据所述第二音频帧序列中的各个音频帧序列的声学特征和标注信息，得到特征向量；利用深度神经网络学习所述特征向量，得到所述VAD模型。

一种可行的设计中，所述确定模块14，具体用于确定第一音频帧的概率值是否超过第一阈值，所述第一音频帧包含于所述第一音频帧序列中；若所述第一音频帧的概率值超过所述第一阈值，则确定所述第一音频帧为所述语音信号的起点；确定第二音频帧的概率值是否超过第二阈值，所述第二音频帧包含于所述第一音频帧序列中，且所述第二音频帧位于所述第一音频帧之后；若所述第二音频帧的概率值超过所述第二阈值，且所述第二音频帧是所述第一音频帧之后第一个概率值超过所述第二阈值的音频帧，则确定所述第二音频帧为所述语音信号的终点，所述第一阈值大于所述第二阈值。

本发明实施例提供的语音活动检测装置，其实现原理和技术可参见上述方法实施例，在此不再赘述。

图6为本发明实施例提供的又一种语音活动检测装置的结构示意图。如图6所示，该语音活动检测装置200包括：

至少一个处理器21和存储器22；

所述存储器22存储计算机执行指令；

所述至少一个处理器21执行所述存储器22存储的计算机执行指令，使得所述至少一个处理器21执行如上所述的语音活动检测方法。

处理器21的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

可选地，该语音活动检测装置200还包括通信部件23。其中，处理器21、存储器22以及通信部件23可以通过总线24连接。

本发明实施例还提供一种存储介质，所述存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上所述的语音活动检测方法。

本发明实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述语音活动检测方法。

在上述的实施例中，应该理解到，所描述的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(industry standard architecture，ISA)总线、外部设备互连(peripheral component，PCI)总线或扩展工业标准体系结构(extendedIndustry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本发明附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits，ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音活动检测方法，其特征在于，包括：

提取所述第一音频帧序列中各音频帧的声学特征；

2.根据权利要求1所述的方法，其特征在于，所述依次将所述第一音频帧中的各音频帧的声学特征输入至语音活动检测VAD模型之前，还包括：

获取第二音频文件，所述第二音频文件为噪声音频文件；

根据所述噪声片段集合，训练所述VAD模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述噪声片段集合，训练所述VAD模型，包括：

为每个噪声片段分配随机数；

将随机数大于预设值的噪声片段添加至训练数据集合；

根据所述训练数据集合训练所述VAD模型。

4.根据权利要求2所述的方法，其特征在于，所述依次将所述第一音频帧中的各音频帧的声学特征输入至语音活动检测VAD模型之前，还包括：

获取第三音频文件，所述第三音频文件为语音音频文件；

所述根据所述噪声片段集合，训练所述VAD模型，包括：

为每个噪声片段分配随机数；

根据所述训练数据集合训练所述VAD模型。

5.根据权利要求4所述的方法，其特征在于，所述对于随机数小于或等于预设值的噪声片段中的每一个噪声片段，根据所述噪声片段与所述噪声片段的信噪比，对语音片段进行加噪处理，得到随机数小于或等于预设值的噪声片段中的每一个噪声片段的加噪片段，包括：

6.根据权利要求3～5任一项所述的方法，其特征在于，所述根据所述训练数据集合训练所述VAD模型，包括：

提取所述第二音频帧序列中的各音频帧的声学特征；

利用深度神经网络学习所述特征向量，得到所述VAD模型。

7.根据权利要求1～5任一项所述的方法，其特征在于，所述根据所述第一音频帧的各音频帧的概率值，确定所述语音信号的起点和终点，包括：

8.一种语音活动检测装置，其特征在于，包括：

9.一种语音活动检测装置，其特征在于，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如权利要求1-7任一项所述的方法。