CN112614514A

CN112614514A - 有效语音片段检测方法、相关设备及可读存储介质

Info

Publication number: CN112614514A
Application number: CN202011479131.4A
Authority: CN
Inventors: 王庆然; 万根顺; 高建清; 刘聪; 王智国; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-04-06
Anticipated expiration: 2040-12-15
Also published as: CN112614514B

Abstract

本申请公开了一种有效语音片段检测方法、相关设备及可读存储介质，该方案中，针对待检测的音频信号，在进行语音片段检测，得到至少一个语音片段之后，针对每个语音片段，至少基于该语音片段对应的文本内容，对该语音片段进行有效性检测，从而判断该语音片段是否为有效语音片段。由于该方案中基于语音片段对应的文本内容对语音片段的有效性进行了进一步检测，相对于将检测出的语音片段直接作为有效语音片段，提升了有效语音片段的检测准确率。

Description

有效语音片段检测方法、相关设备及可读存储介质

技术领域

本申请涉及音频信号处理技术领域，更具体的说，是涉及一种有效语音片段检测方法、相关设备及可读存储介质。

背景技术

在音频信号处理技术领域，往往需要采用VAD(Voice Activity Detection，语音活动检测)技术检测音频信号中的语音片段，并针对不同的音频信号处理需求，对检测出的语音片段进行语音识别、语义识别等处理。以人机对话场景(如，智能客服中虚拟智能机器客服和真人之间的对话场景)为例，一个完整的人机对话过程主要包括三个步骤，第一步，检测用户音频信号中的语音片段；第二步，对检测出的语音片段进行语义识别，得到用户音频信号的语义内容；第三步，根据用户音频信号的语义内容回应用户。

但是，目前的VAD技术，往往会将音频信号中包含的没有语音的环境噪声、人为噪声(如哄笑声、咳嗽声等)、长停顿的无意义语音(如一连串的语气词、停顿词、气流声等)等检测为语音片段，且将检测出的语音片段均作为有效语音片段，导致有效语音片段检测不准确，从而影响音频信号处理的最终效果。以人机对话场景为例，如果第一步中将用户音频信号中包含的没有语音的环境噪声、人为噪声(如哄笑声、咳嗽声等)、长停顿的无意义语音(如一连串的语气词、停顿词、气流声等)等检测为有效语音片段，导致有效语音片段检测不准确，就会导致第二步中得到用户音频信号的语义内容出现错误，进一步导致第三步中给用户错误的回应，影响了用户的人机交互体验。

因此，如何提升有效语音片段的检测准确率，成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于上述问题，本申请提出了一种有效语音片段检测方法、相关设备及可读存储介质。具体方案如下：

一种有效语音片段检测方法，包括：

获取待检测的音频信号；

对所述音频信号进行语音片段检测，得到至少一个语音片段；

针对每个语音片段，至少基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，判断所述语音片段是否为有效语音片段。

可选地，所述对所述音频信号进行语音片段检测，得到至少一个语音片段，包括：

针对所述音频信号中每一音频信号帧，确定所述音频信号帧为预置各声学状态的概率；

基于所述音频信号帧为预置各声学状态的概率，得到所述音频信号帧的语音判断结果，所述音频信号帧的语音判断结果用于指示所述音频信号帧为语音还是非语音；

基于各音频信号帧的语音判断结果，得到至少一个语音片段。

可选地，所述确定所述音频信号帧为预置各声学状态的概率，包括：

对所述音频信号帧进行特征提取，得到所述音频信号帧的声学特征；

将所述音频信号帧的声学特征输入声学模型，所述声学模型对所述音频信号帧的声学特征进行解码，得到所述音频信号帧为预置各声学状态的概率；

所述声学模型是以训练用音频信号的特征为训练样本，以训练用音频信号标注的声学状态为样本标签训练得到的。

可选地，所述基于所述音频信号帧为预置各声学状态的概率，得到所述音频信号帧的语音判断结果，包括：

基于所述音频信号帧为预置各声学状态的概率，得到所述音频信号帧为语音的概率以及所述音频信号帧为非语音的概率；

基于所述音频信号帧为语音的概率和所述音频信号帧为非语音的概率，得到所述音频信号帧的语音判断结果。

可选地，所述基于所述音频信号帧为预置各声学状态的概率，得到所述音频信号帧为语音的概率以及所述音频信号帧为非语音的概率，包括：

将所述音频信号帧为预置各声学状态的概率中，对应语音的声学状态的概率相加，得到所述音频信号帧为语音的概率；对应非语音的声学状态的概率相加，得到所述音频信号帧为非语音的概率。

可选地，所述语音片段对应的文本内容是采用如下方式确定的：

确定所述语音片段对应的至少一个音频信号帧；

针对每个音频信号帧，获取所述音频信号帧为预置各声学状态的概率，各音频信号帧为预置各声学状态的概率组成所述语音片段对应的声学状态序列；

对所述语音片段对应的声学状态序列进行解码，得到所述语音片段对应的文本内容。

可选地，所述至少基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，判断所述语音片段是否为有效语音片段，包括：

针对每个音频信号帧，获取所述音频信号帧的声学特征，将各音频信号帧的声学特征进行组合，得到所述语音片段的特征；

基于所述语音片段对应的文本内容以及所述语音片段的特征，判断所述语音片段是否为有效语音片段。

可选地，在所述针对每个音频信号帧，获取所述音频信号帧的声学特征，将各音频信号帧的声学特征进行组合，得到所述语音片段的特征之前，所述方法还包括：

确定所述语音片段对应的文本内容为空时，确定所述语音片段为无效语音片段；

确定所述语音片段对应的文本内容不为空时，针对每个音频信号帧，获取所述音频信号帧的声学特征，将各音频信号帧的声学特征进行组合，得到所述语音片段的特征。

可选地，所述基于所述语音片段对应的文本内容以及所述语音片段的特征，判断所述语音片段是否为有效语音片段，包括：

基于所述语音片段对应的文本内容以及所述语音片段的语音特征，确定所述语音片段的类别；

如果所述语音片段的类别为非语音类，或无意义语音类，则确定所述语音片段为无效语音片段；

如果所述语音片段的类别为有意义语音类，则确定所述语音片段为有效语音片段。

可选地，所述基于所述语音片段对应的文本内容以及所述语音片段的语音特征，确定所述语音片段的类别，包括：

对所述语音片段对应的文本内容进行特征提取，得到文本内容特征；

将所述文本内容特征以及所述语音片段的语音特征，输入分类模型；

所述分类模型将所述文本内容特征与所述语音片段的语音特征进行拼接，得到拼接后的特征；

所述分类模型对拼接后的特征进行识别，得到所述语音片段的类别。

将所述文本内容特征与所述语音片段的语音特征进行拼接，得到拼接后的特征；

将所述拼接后的特征，输入分类模型，所述分类模型对拼接后的特征进行识别，得到所述语音片段的类别。

一种有效语音片段检测装置，包括：

获取单元，用于获取待检测的音频信号；

语音片段检测单元，用于对所述音频信号进行语音片段检测，得到至少一个语音片段；

有效性检测单元，用于针对每个语音片段，至少基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，判断所述语音片段是否为有效语音片段。

可选地，所述语音片段检测单元，包括：

声学状态的概率确定单元，用于针对所述音频信号中每一音频信号帧，确定所述音频信号帧为预置各声学状态的概率；

语音判断单元，用于基于所述音频信号帧为预置各声学状态的概率，得到所述音频信号帧的语音判断结果，所述音频信号帧的语音判断结果用于指示所述音频信号帧为语音还是非语音；

语音片段确定单元，用于基于各音频信号帧的语音判断结果，得到至少一个语音片段。

可选地，所述声学状态的概率确定单元，包括：

声学特征提取单元，用于对所述音频信号帧进行特征提取，得到所述音频信号帧的声学特征；

输入单元，用于将所述音频信号帧的声学特征输入声学模型，所述声学模型对所述音频信号帧的声学特征进行解码，得到所述音频信号帧为预置各声学状态的概率；所述声学模型是以训练用音频信号的特征为训练样本，以训练用音频信号标注的声学状态为样本标签训练得到的。

可选地，所述语音判断单元，包括：

语音概率确定单元，用于基于所述音频信号帧为预置各声学状态的概率，得到所述音频信号帧为语音的概率以及所述音频信号帧为非语音的概率；

语音判断结果确定单元，用于基于所述音频信号帧为语音的概率和所述音频信号帧为非语音的概率，得到所述音频信号帧的语音判断结果。

可选地，所述语音概率确定单元，包括：

语音概率确定子单元，用于将所述音频信号帧为预置各声学状态的概率中，对应语音的声学状态的概率相加，得到所述音频信号帧为语音的概率；对应非语音的声学状态的概率相加，得到所述音频信号帧为非语音的概率。

可选地，所述装置还包括：

文本内容确定单元，用于确定所述语音片段对应的文本内容；

所述文本内容确定单元，包括：

音频信号帧确定单元，用于确定所述语音片段对应的至少一个音频信号帧；

声学状态序列确定单元，用于针对每个音频信号帧，获取所述音频信号帧为预置各声学状态的概率，各音频信号帧为预置各声学状态的概率组成所述语音片段对应的声学状态序列；

解码单元，用于对所述语音片段对应的声学状态序列进行解码，得到所述语音片段对应的文本内容。

可选地，所述有效性检测单元，包括：

语音片段的特征确定单元，用于针对每个音频信号帧，获取所述音频信号帧的声学特征，将各音频信号帧的声学特征进行组合，得到所述语音片段的特征；

有效性判断单元，用于基于所述语音片段对应的文本内容以及所述语音片段的特征，判断所述语音片段是否为有效语音片段。

可选地，所述装置还包括：

文本内容检测单元，用于在所述针对每个音频信号帧，获取所述音频信号帧的声学特征，将各音频信号帧的声学特征进行组合，得到所述语音片段的特征之前，确定所述语音片段对应的文本内容是否为空；

处理单元，用于确定所述语音片段对应的文本内容为空时，确定所述语音片段为无效语音片段；确定所述语音片段对应的文本内容不为空时，针对每个音频信号帧，获取所述音频信号帧的声学特征，将各音频信号帧的声学特征进行组合，得到所述语音片段的特征。

可选地，所述有效性判断单元，包括：

语音片段的类别确定单元，用于基于所述语音片段对应的文本内容以及所述语音片段的语音特征，确定所述语音片段的类别；

有效性判断子单元，用于如果所述语音片段的类别为非语音类，或无意义语音类，则确定所述语音片段为无效语音片段；如果所述语音片段的类别为有意义语音类，则确定所述语音片段为有效语音片段。

可选地，所述语音片段的类别确定单元，包括：

第一语音片段的类别确定子单元，用于对所述语音片段对应的文本内容进行特征提取，得到文本内容特征；将所述文本内容特征以及所述语音片段的语音特征，输入分类模型；所述分类模型将所述文本内容特征与所述语音片段的语音特征进行拼接，得到拼接后的特征；所述分类模型对拼接后的特征进行识别，得到所述语音片段的类别。

可选地，所述语音片段的类别确定单元，包括：

第二语音片段的类别确定子单元，用于对所述语音片段对应的文本内容进行特征提取，得到文本内容特征；将所述文本内容特征与所述语音片段的语音特征进行拼接，得到拼接后的特征；将所述拼接后的特征，输入分类模型，所述分类模型对拼接后的特征进行识别，得到所述语音片段的类别。

一种有效语音片段检测设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的有效语音片段检测方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的有效语音片段检测方法的各个步骤。

借由上述技术方案，本申请公开了一种有效语音片段检测方法、相关设备及可读存储介质，该方案中，针对待检测的音频信号，在进行语音片段检测，得到至少一个语音片段之后，针对每个语音片段，至少基于该语音片段对应的文本内容，对该语音片段进行有效性检测，从而判断该语音片段是否为有效语音片段。由于该方案中基于语音片段对应的文本内容对语音片段的有效性进行了进一步检测，相对于将检测出的语音片段直接作为有效语音片段，提升了有效语音片段的检测准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例公开的有效语音片段检测方法的流程示意图；

图2为本申请实施例公开的对音频信号进行语音片段检测，得到至少一个语音片段的方法的流程示意图；

图3为本申请实施例公开的至少基于语音片段对应的文本内容，对语音片段进行有效性检测，判断语音片段是否为有效语音片段的方法的流程示意图；

图4为本申请实施例公开的一种有效语音片段检测装置结构示意图；

图5为本申请实施例公开的一种有效语音片段检测设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

接下来，通过下述实施例对本申请提供的有效语音片段检测方法进行介绍。

参照图1，图1为本申请实施例公开的有效语音片段检测方法的流程示意图，该方法可以包括：

步骤S101：获取待检测的音频信号。

在本申请中，待检测的音频信号可以为任意场景下的音频信号，比如，可以为人机对话(如，智能客服中虚拟智能机器客服和真人之间的对话场景)场景下，用户发出的音频信号，也可以为语音输入场景下，用户发出的音频信号，等。对此，本申请不进行任何限定。另外，待检测的音频信号可以为任意时长及任意语种，对此，本申请也不进行任何限定。

步骤S102：对所述音频信号进行语音片段检测，得到至少一个语音片段。

在本申请中，可以采用传统方式对所述音频信号进行语音片段检测，得到至少一个语音片段。比如，可以采用VAD(Voice Activity Detection，语音活动检测)技术检测所述音频信号中的语音片段。具体地，可基于单向DNN(Deep Neural Networks，深度神经网络)、RNN(Recurrent Neural Network，循环神经网络)构建VAD模型，基于该模型对所述音频信号进行语音片段检测，得到至少一个语音片段。

在本申请中，也可以采用其他方式对所述音频信号进行语音片段检测，得到至少一个语音片段，比如，可以基于音频信号的声学状态对所述音频信号进行语音片段检测，得到至少一个语音片段，对此，本申请不进行任何限定。

需要说明的是，基于音频信号的声学状态对所述音频信号进行语音片段检测，得到至少一个语音片段的实现方式将通过后续实施例详细说明，此处不再展开描述。

步骤S103：针对每个语音片段，至少基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，判断所述语音片段是否为有效语音片段。

经过步骤S102后，得到了至少一个语音片段，但是，这些语音片段并不都是有效的语音片段。一般情况下，真正有效的语音片段，其对应的文本内容需要满足一定条件，比如，其对应的文本内容不为空，其对应的文本内容需要有意义等，因此，在本申请中，针对每个语音片段，至少基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，可确定所述语音片段是否为有效语音片段。

需要说明的是，针对每个语音片段，至少基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，可以检测所述语音片段对应的文本内容是否满足预设条件，如果满足，则确定所述语音片段为有效语音片段，否则，则确定所述语音片段为非有效语音片段。所述预设条件可以包括所述文本内容不为空，所述文本内容不包含预设内容等，对此，本申请不进行任何限定。

当然，在本申请中，也可以同时基于语音片段的其他信息与语音片段对应的文本内容，对所述语音片段进行有效性检测，具体检测方法将通过后续实施例详细说明，此处不再展开描述。

本实施例公开了一种有效语音片段检测方法，该方案中，针对待检测的音频信号，在进行语音片段检测，得到至少一个语音片段之后，针对每个语音片段，至少基于该语音片段对应的文本内容，对该语音片段进行有效性检测，从而判断该语音片段是否为有效语音片段。由于该方案中基于语音片段对应的文本内容对语音片段的有效性进行了进一步检测，相对于将检测出的语音片段直接作为有效语音片段，提升了有效语音片段的检测准确率。

在本申请的另一个实施例中，对上述步骤S102对所述音频信号进行语音片段检测，得到至少一个语音片段的具体实现方式进行了说明，参照图2，图2为本申请实施例公开的对音频信号进行语音片段检测，得到至少一个语音片段的方法的流程示意图，该方法可以包括以下步骤：

步骤S201：针对所述音频信号中每一音频信号帧，确定所述音频信号帧为预置各声学状态的概率。

在本申请中，预置各声学状态可以包括对应语音的声学状态，和，对应非语音的声学状态，其中，对应语音的声学状态可以为三音素状态(比如，9004类三音素状态)，对应非语音的声学状态可以为无声状态(silence)和短时间停顿(short pause)等。

作为一种可实施方式，所述确定所述音频信号帧为预置各声学状态的概率的方式可以包括如下步骤：

步骤S2011：对所述音频信号帧进行特征提取，得到所述音频信号帧的声学特征。

在本申请中，所述音频信号帧的声学特征可以包括谱特征和基频信息特征。比如，MFCC(mel-scale frequency cepstral coefficient，梅尔导谱系数)、PLP(perceptuallinear prediction，感知线性预测系数)等。对此，本申请不进行任何限定。

在本实施例中，所述音频信号帧的声学特征可以采用现有技术手段来确定，对此，本申请不再详细描述。

步骤S2012：将所述音频信号帧的声学特征输入声学模型，所述声学模型对所述音频信号帧的声学特征进行解码，得到所述音频信号帧为预置各声学状态的概率。

在本申请中，所述声学模型的结构可以采用现有技术中成熟的声学模型结构，比如，GMM(Gaussian Mixture Model，高斯混合模型)+HMM(Hidden Markov Model，隐马尔科夫模型)。但是，在本申请中，需要以训练用音频信号的特征为训练样本，以训练用音频信号标注的声学状态为样本标签对声学模型进行训练。

需要说明的是，训练用音频信号中包括语音和非语音，其中，语音为从各种渠道得到的人声音频信号，非语音主要为一些环境噪声和人声噪声，环境噪声可以包括敲键盘声、拉椅子声、风扇声、风声、雨声、雷声和敲击声等。而人声噪声则为人声发出来的非语音类噪声，例如咳嗽声、喷嚏声和哄笑声等。所述训练用音频信号标注的声学状态为预置声学状态中的一个声学状态。

步骤S202：基于所述音频信号帧为预置各声学状态的概率，得到所述音频信号帧的语音判断结果。

所述音频信号帧的语音判断结果用于指示所述音频信号帧为语音还是非语音。

作为一种可实施方式，所述基于所述音频信号帧为预置各声学状态的概率，得到所述音频信号帧的语音判断结果的方式可以包括如下步骤：

步骤S2021：基于所述音频信号帧为预置各声学状态的概率，得到所述音频信号帧为语音的概率以及所述音频信号帧为非语音的概率。

在本申请中，可以将所述音频信号帧为预置各声学状态的概率转换为所述音频信号帧为语音的概率以及所述音频信号帧为非语音的概率。作为一种可实施方式，可以将所述音频信号帧为预置各声学状态的概率中，对应语音的声学状态的概率相加，得到所述音频信号帧为语音的概率；对应非语音的声学状态的概率相加，得到所述音频信号帧为非语音的概率。

在本申请中，对于预置的每个声学状态，其是对应语音还是非语音已经确定，因此，将所述音频信号帧为预置各声学状态的概率中，对应语音的声学状态的概率相加，得到所述音频信号帧为语音的概率；对应非语音的声学状态的概率相加，得到所述音频信号帧为非语音的概率。

步骤S2022：基于所述音频信号帧为语音的概率和所述音频信号帧为非语音的概率，得到所述音频信号帧的语音判断结果。

在本步骤中，如果所述音频信号帧为语音的概率高于所述音频信号帧为非语音的概率，则判定所述音频信号帧为语音，否则，判定所述音频信号帧为非语音。

步骤S203：基于各音频信号帧的语音判断结果，得到至少一个语音片段。

在本申请中，基于步骤S201和步骤S202，能够确定出各音频信号帧的语音判断结果，基于各音频信号帧的语音判断结果，即可得到至少一个语音片段。具体的，可以根据每一个音频信号帧的语音判断结果检测出每个语音片段的开始端点和结束端点，从而得到至少一个语音片段，这里不加以赘述。

本实施例中，公开了一种基于音频信号的声学状态对所述音频信号进行语音片段检测，得到至少一个语音片段的实现方式，该方式中应用了声学模型，由于声学模型比传统的VAD模型结构复杂，因此，检测效果比较好。

基于以上声学模型，本申请还公开了一种确定所述语音片段对应的文本内容的具体实现方式，该方式可以包括确定所述语音片段对应的至少一个音频信号帧。针对每个音频信号帧，获取所述音频信号帧为预置各声学状态的概率，各音频信号帧为预置各声学状态的概率组成所述语音片段对应的声学状态序列。对所述语音片段对应的声学状态序列进行解码，得到所述语音片段对应的文本内容。

需要说明的是，针对每个音频信号帧，该音频信号帧为预置各声学状态的概率可以为将该音频信号帧的声学特征输入上述声学模型，上述声学模型对该音频信号帧的声学特征进行解码，得到的该音频信号帧为预置各声学状态的概率。

进一步需要说明的是，在本申请中，可以基于WFST(Weight Finite-StateTransducer，加权有限状态转换技术)解码网络对所述语音片段对应的声学状态序列进行解码，WFST解码网络为现有技术，这里不加以赘述。当然，能够实现对所述语音片段对应的声学状态序列进行解码，得到所述语音片段对应的文本内容的其他方式，也在本申请保护范围之内。

在本申请的另一个实施例中，对上述步骤S103至少基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，判断所述语音片段是否为有效语音片段的具体实现方式进行了说明，参照图3，图3为本申请实施例公开的至少基于语音片段对应的文本内容，对语音片段进行有效性检测，判断语音片段是否为有效语音片段的方法的流程示意图，该方法可以包括以下步骤：

步骤S301：针对每个音频信号帧，获取所述音频信号帧的声学特征，将各音频信号帧的声学特征进行组合，得到所述语音片段的特征。

在本申请中，针对每个音频信号帧，所述音频信号帧的声学特征即为上述步骤S2011中得到的声学特征，在本步骤中可以直接获取。

步骤S302：基于所述语音片段对应的文本内容以及所述语音片段的特征，判断所述语音片段是否为有效语音片段。

在本申请中，基于所述语音片段对应的文本内容以及所述语音片段的特征，可以对所述语音片段进行文本语义的判断，判断其是否为有实际语义信息的内容。

作为一种可实施方式，基于所述语音片段对应的文本内容以及所述语音片段的特征，判断所述语音片段是否为有效语音片段的具体方式可以为：基于所述语音片段对应的文本内容以及所述语音片段的语音特征，确定所述语音片段的类别；如果所述语音片段的类别为非语音类，或无意义语音类，则确定所述语音片段为无效语音片段；如果所述语音片段的类别为有意义语音类，则确定所述语音片段为有效语音片段。

需要说明的是，可以预先构建分类模型，所述分类模型可以为简单的端到端模型，如encode-decode结构，其中encode和decode端都为单向lstm。是以训练用语音片段对应的文本内容特征，以及训练用语音片段的语音特征为训练样本，以训练用语音片段标注的类别为样本标签训练得到的，每个训练用语音片段标注的类别为非语音类、无意义语音类或有意义语音类。

需要说明的是，在对每个训练用语音片段进行标注时，需要对无意义语音类和有意义语音类进行界定，比如，长停顿的思考时发出的“嗯…”等语气词，以及发音清晰的一连串的“哈哈哈哈”的笑声等属于无意义语音类。

在训练时，可以将训练用语音片段对应的文本内容特征，以及训练用语音片段的语音特征拼接后的特征作为模型的输入，则作为一种可实施方式，所述基于所述语音片段对应的文本内容以及所述语音片段的语音特征，确定所述语音片段的类别的具体实现方式可以为：对所述语音片段对应的文本内容进行特征提取，得到文本内容特征；将所述文本内容特征与所述语音片段的语音特征进行拼接，得到拼接后的特征；将所述拼接后的特征，输入分类模型；所述分类模型所述分类模型对所述拼接后的特征进行识别，得到所述语音片段的类别。

在训练时，也可以将训练用语音片段对应的文本内容特征，以及训练用语音片段的语音特征作为模型的输入，则作为另一种可实施方式，所述基于所述语音片段对应的文本内容以及所述语音片段的语音特征，确定所述语音片段的类别的具体实现方式可以为：对所述语音片段对应的文本内容进行特征提取，得到文本内容特征；将所述文本内容特征与所述语音片段的语音特征输入分类模型，所述分类模型将所述文本内容特征与所述语音片段的语音特征进行拼接，得到拼接后的特征；并对所述拼接后的特征进行识别，得到所述语音片段的类别。

需要说明的是，对所述语音片段对应的文本内容进行特征提取，得到文本内容特征，具体可以基于embedding等方法实现，对此，本申请不进行任何限定。

在本实施例中，公开了一种至少基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，判断所述语音片段是否为有效语音片段的实现方式，基于该实现方式，对于所述语音片段有连续多次的噪声或者人为噪声的情况，或者语音片段不是有意义语音片段的情况，可以将该语音片段识别为非有效语音片段，提升了有效语音片段的识别准确率。

在本申请的另一个实施例中，还公开了一种至少基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，判断所述语音片段是否为有效语音片段的实现方式，该方式相对于上述方式中，并不是直接对每个语音片段都基于语音片段的特征和语音片段对应的文本内容，对其有效性进行检测，而是对需要同时基于语音片段的特征和语音片段对应的文本内容，进行有效性检测的语音片段进行筛选，仅仅对需要同时基于语音片段的特征和语音片段对应的文本内容，进行有效性检测的语音片段采用上述方式，从而节省了计算资源。该方式具体包括：

在确定所述语音片段对应的文本内容为空时，确定所述语音片段为无效语音片段；在确定所述语音片段为无效语音片段之后，可以将该语音片段直接丢弃。

在确定所述语音片段对应的文本内容不为空时，针对每个音频信号帧，获取所述音频信号帧的声学特征，将各音频信号帧的声学特征进行组合，得到所述语音片段的特征，并基于所述语音片段对应的文本内容以及所述语音片段的特征，判断所述语音片段是否为有效语音片段。

另外，本申请中还以人机对话场景为例，对本申请提供的有效语音片段检测方法的应用进行了解释说明。具体如下：

在人机对话场景中，如果采用本申请提供的有效语音片段检测方法将一个语音片段被检测为有效语音片段，则会立即中断交互，对该有效语音片段进行语义识别，得到语义内容，并根据语义内容回应用户。由于有效语音片段检测准确率高，因此，语义内容识别准确率也会提高，进而保证了给用户提供更为准确的回应，提升了用户的人机交互体验。

下面对本申请实施例公开的有效语音片段检测装置进行描述，下文描述的有效语音片段检测装置与上文描述的有效语音片段检测方法可相互对应参照。

参照图4，图4为本申请实施例公开的一种有效语音片段检测装置结构示意图。如图4所示，该图4为本申请实施例公开的一种有效语音片段检测装置结构示意图装置可以包括：

获取单元11，用于获取待检测的音频信号；

语音片段检测单元12，用于对所述音频信号进行语音片段检测，得到至少一个语音片段；

有效性检测单元13，用于针对每个语音片段，至少基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，判断所述语音片段是否为有效语音片段。

可选地，所述语音片段检测单元，包括：

可选地，所述声学状态的概率确定单元，包括：

可选地，所述语音判断单元，包括：

可选地，所述语音概率确定单元，包括：

可选地，所述装置还包括：

所述文本内容确定单元，包括：

可选地，所述有效性检测单元，包括：

可选地，所述装置还包括：

可选地，所述有效性判断单元，包括：

可选地，所述语音片段的类别确定单元，包括：

参照图5，图5为本申请实施例提供的有效语音片段检测设备的硬件结构框图，参照图5，有效语音片段检测设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取待检测的音频信号；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取待检测的音频信号；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种有效语音片段检测方法，其特征在于，包括：

获取待检测的音频信号；

2.根据权利要求1所述的方法，其特征在于，所述对所述音频信号进行语音片段检测，得到至少一个语音片段，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述音频信号帧为预置各声学状态的概率，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述音频信号帧为预置各声学状态的概率，得到所述音频信号帧的语音判断结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述音频信号帧为预置各声学状态的概率，得到所述音频信号帧为语音的概率以及所述音频信号帧为非语音的概率，包括：

6.根据权利要求1所述的方法，其特征在于，所述语音片段对应的文本内容是采用如下方式确定的：

确定所述语音片段对应的至少一个音频信号帧；

7.根据权利要求1所述的方法，其特征在于，所述至少基于所述语音片段对应的文本内容，对所述语音片段进行有效性检测，判断所述语音片段是否为有效语音片段，包括：

8.根据权利要求7所述的方法，其特征在于，在所述针对每个音频信号帧，获取所述音频信号帧的声学特征，将各音频信号帧的声学特征进行组合，得到所述语音片段的特征之前，所述方法还包括：

9.根据权利要求7所述的方法，其特征在于，所述基于所述语音片段对应的文本内容以及所述语音片段的特征，判断所述语音片段是否为有效语音片段，包括：

10.根据权利要求9所述的方法，其特征在于，所述基于所述语音片段对应的文本内容以及所述语音片段的语音特征，确定所述语音片段的类别，包括：

11.根据权利要求9所述的方法，其特征在于，所述基于所述语音片段对应的文本内容以及所述语音片段的语音特征，确定所述语音片段的类别，包括：

12.一种有效语音片段检测装置，其特征在于，包括：

获取单元，用于获取待检测的音频信号；

13.一种有效语音片段检测设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至11中任一项所述的有效语音片段检测方法的各个步骤。

14.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至11中任一项所述的有效语音片段检测方法的各个步骤。