CN109119070B

CN109119070B - 一种语音端点检测方法、装置、设备及存储介质

Info

Publication number: CN109119070B
Application number: CN201811219815.3A
Authority: CN
Inventors: 江勇军; 潘嘉; 王智国; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2021-03-16
Anticipated expiration: 2038-10-19
Also published as: CN109119070A

Abstract

本申请提供了一种语音端点检测方法、装置、设备及存储介质，方法包括：从待检测音频数据中提取用于确定动态检测间隔的音频特征，作为动态检测间隔特征；根据动态检测间隔特征，通过预先建立的音频属性确定模型，确定待检测音频数据的属性，并根据动态检测间隔特征，通过预先建立的动态检测间隔模型，确定待检测音频数据的动态检测间隔；基于待检测音频数据的属性和动态检测间隔，确定待检测音频数据的语音端点。本申请提供的语音端点检测方法基于动态检测间隔实现语音端点检测，具有较好的检测效果，且用户体验较好。

Description

一种语音端点检测方法、装置、设备及存储介质

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音端点检测方法、装置、设备及存储介质。

背景技术

语音识别是人机交互的重要组成部分，语音识别指的是通过机器学习等方法将语音自动转换成相应文字。

随着人工智能浪潮的一波又一波推进，语音识别作为人工智能的一个重要领域，其正取得突飞猛进的发展。虽然语音识别技术目前已达到商用阶段，但其识别效果仍然不理想，这其中一个重要的原因就是，目前的语音端点检测方案的检测效果不佳。

由于语音端点检测是语音识别的前端处理过程，因此，若语音端点检测效果不佳，必然导致后续的语音识别效果不佳，因此，亟需提供一种检测效果较好的语音端点检测方案。

发明内容

有鉴于此，本申请提供了一种语音端点检测方法、装置、设备及存储介质，用以提供一种具有较好检测效果的语音端点检测方案，其技术方案如下：

一种语音端点检测方法，包括：

从待检测音频数据中提取用于确定动态检测间隔的音频特征，作为动态检测间隔特征；

根据所述动态检测间隔特征，通过预先建立的音频属性确定模型，确定所述待检测音频数据的属性，并根据所述动态检测间隔特征，通过预先建立的动态检测间隔模型，确定所述待检测音频数据的动态检测间隔；

基于所述待检测音频数据的属性和动态检测间隔，确定所述待检测音频数据的语音端点。

优选地，所述从待检测音频数据中提取用于确定动态检测间隔的音频特征，作为动态检测间隔特征，包括：

从所述音频数据中提取频谱特征、后验特征、解码特征中的一种或多种音频特征，作为所述动态检测间隔特征。

其中，从所述待检测音频数据中提取所述后验特征，包括：

从所述待检测音频数据中提取频谱特征；

将所述频谱特征输入预先建立的声学模型，获得所述声学模型输出的声学后验得分，作为所述后验特征。

其中，从所述待检测音频数据中提取所述解码特征，包括：

从所述待检测音频数据中提取频谱特征；

通过所述频谱特征确定声学后验特征；

对所述声学后验特征进行解码，获得解码结果；

基于所述解码结果确定解码特征。

其中，所述基于所述解码结果确定解码特征，包括：

基于所述解码结果获得多个目标候选识别结果以及每个所述目标候选识别结果的持续时间；

将每个所述目标候选识别结果转换为词向量；

将每个所述词向量和每个所述词向量对应的目标候选识别结果的持续时间作为所述解码特征。

优选地，所述根据所述动态检测间隔特征，通过预先建立的动态检测间隔模型，确定所述待检测音频数据的动态检测间隔，包括：

将所述动态检测间隔特征输入所述动态检测间隔模型，获得所述动态检测间隔模型输出的停顿概率和期望检测间隔，所述动态检测间隔模型以从训练音频数据中提取的动态检测间隔特征为训练样本，以对所述训练音频数据进行停顿概率和期望检测间隔标注的标注结果为样本标签进行训练得到；

基于所述动态检测间隔模型输出的所述停顿概率和所述期望检测间隔，确定输入所述动态检测间隔模型的动态检测间隔特征对应的音频帧对应的动态检测间隔。

优选地，所述根据所述动态检测间隔特征，通过预先建立的语音属性确定模型，确定所述待检测音频数据的属性，包括：

将所述动态检测间隔特征输入所述音频属性确定模型，获得所述音频属性确定模型输出的属性确定结果，所述音频属性确定模型采用标注有属性的训练音频数据训练得到，所述训练音频数据中的每一音频帧均标注有属性，所述属性包括语音帧和非语音帧；

基于所述属性确定结果获得输入所述音频属性确定模型的动态检测间隔特征对应的音频帧的属性。

优选地，所述基于所述待检测音频数据的属性和动态检测间隔，确定所述待检测音频数据的语音端点，包括：

基于所述待检测音频数据的属性检测语音前端点；

在检测到所述语音前端点之后，基于所述语音前端点之后的音频数据的属性和动态检测间隔检测语音尾端点。

优选地，所述基于所述待检测音频数据的属性检测语音前端点，包括：

当所述待检测音频数据中出现连续第一预设帧数的语音帧时，确定检测到语音前端点；

将所述连续第一预设帧数的语音帧中的首帧确定为所述语音前端点。

优选地，所述基于所述语音前端点之后的音频数据的属性和动态检测间隔检测语音尾端点，包括：

基于所述语音前端点之后的音频数据的属性和动态检测间隔，从所述语音前端点之后的音频数据中检测目标音频帧，所述目标音频帧为语音帧，且所述目标音频帧之后出现连续第二帧数的非语音帧，所述第二帧数为所述目标音频帧对应的动态检测间隔；

当检测到所述目标音频帧时，确定检测到所述语音尾端点；

将所述目标音频帧确定为所述语音尾端点。

一种语音端点检测装置，包括：特征提取模块、属性确定模块、检测间隔确定模块和语音端点检测模块；

所述特征提取模块，用于从待检测音频数据中提取用于确定动态检测间隔的音频特征，作为动态检测间隔特征；

所述属性确定模块，用于根据所述动态检测间隔特征，通过预先建立的音频属性确定模型，确定所述待检测音频数据的属性；

所述检测间隔确定模块，用于根据所述动态检测间隔特征，通过预先建立的动态检测间隔模型，确定所述待检测音频数据的动态检测间隔；

所述语音端点检测模块，用于基于所述待检测音频数据的属性和动态检测间隔，确定所述待检测音频数据的语音端点。

优选地，所述特征提取模块，具体用于从所述音频数据中提取频谱特征、后验特征、解码特征中的一种或多种音频特征，作为所述动态检测间隔特征。

优选地，所述检测间隔确定模块，具体用于将所述动态检测间隔特征输入所述动态检测间隔模型，获得所述动态检测间隔模型输出的停顿概率和期望检测间隔，基于所述动态检测间隔模型输出的所述停顿概率和所述期望检测间隔，确定输入所述动态检测间隔模型的动态检测间隔特征对应的音频帧对应的动态检测间隔；

其中，所述动态检测间隔模型以从训练音频数据中提取的动态检测间隔特征为训练样本，以对所述训练音频数据进行停顿概率和期望检测间隔标注的标注结果为样本标签进行训练得到。

优选地，所述属性确定模块，具体用于将所述动态检测间隔特征输入所述音频属性确定模型，获得所述音频属性确定模型输出的属性确定结果，基于所述属性确定结果获得输入所述音频属性确定模型的动态检测间隔特征对应的音频帧的属性；

其中，所述音频属性确定模型采用标注有属性的训练音频数据训练得到，所述训练音频数据中的每一音频帧均标注有属性，所述属性包括语音帧和非语音帧。

优选地，所述语音端点检测模块包括：语音前端点检测模块和语音尾端点检测模块；

所述语音前端点检测模块，用于基于所述待检测音频数据的属性检测语音前端点；

所述语音尾端点检测模块，用于在检测到所述语音前端点之后，基于所述语音前端点之后的音频数据的属性和动态检测间隔检测语音尾端点。

一种语音端点检测设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，所述程序具体用于：

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现所述语音端点检测方法的各个步骤。

经由上述的技术方案可知，本申请提供的语音端点检测方法、装置、设备及存储介质，从待检测音频数据中提取动态检测间隔特征后，一方面，根据动态检测间隔特征通过预先建立的动态检测间隔模型确定动态检测间隔，另一方面，根据动态检测间隔特征通过预先建立的音频属性确定模型确定待检测音频数据的属性，在获得待检测音频数据的属性和动态检测间隔后，可基于属性和动态检测间隔确定待检测音频数据的语音端点，本申请考虑了用户说话内容的变化与检测间隔的关系，采用动态检测间隔来确定语音端点，使得本申请提供的语音端点检测方法具有较好的检测效果，且用户体验较好。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的语音端点检测方法的流程示意图；

图2为本申请实施例提供的提取的动态检测间隔特征的一示例的示意图；

图3为本申请实施例提供的语音端点检测方法中，根据动态检测间隔特征，通过预先建立的音频属性确定模型，确定待检测音频数据的属性的流程示意图；

图4为本申请实施例提供的语音端点检测方法中，根据动态检测间隔特征，通过预先建立的动态检测间隔模型，确定待检测音频数据的动态检测间隔的流程示意图；

图5为本申请实施例提供的语音端点检测方法中，采用RNN、DNN与CNN的混合结构确定停顿概率和期望检测间隔的示意图；

图6为本申请实施例提供的语音端点检测方法中，基于待检测音频数据的属性和动态检测间隔，确定待检测音频数据的语音端点的流程示意图；

图7为本申请实施例提供的语音端点检测装置的结构示意图；

图8为本申请实施例提供的语音端点检测设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

语音端点检测是语音识别的前端处理过程，用于提取出音频数据中的人声信号并滤除噪声或静音等对识别无用的信号，语音端点检测的好坏直接或间接地决定语音识别效果，具体地，如果过滤了语音信号，那么识别便会出现截断错误，如果放入过多的噪声，识别便可能出现插入错误，并且可能会导致用户的等待时间过长而造成交互失败。

本案发明人为了获得具有较好检测效果的语音端点检测方案，进行了深入研究：

初始阶段的思路是，获取包含语音和噪声的音频数据，然后，逐帧提取音频数据的频谱特征，接着，根据提取的频谱特征和预先构建的端点检测模型确定各帧语音和非语音的后验概率，最后，根据每帧语音的后验概率信息通过固定检测间隔模块处理后输出语音前端点或语音尾端点。

其中，固定间隔检测模块是一个有限状态机，通过固定检测间隔模块处理后输出语音前端点或语音尾端点的过程为：在起始帧时状态设为语音结束，当出现连续N1帧语音帧时，则判定检测到语音前端点，并将状态设为语音开始，当出现连续N2帧非语音帧时，则判定检测到语音尾端点，并将状态设为语音结束，以此循环检测。

然而，上述思路存在如下两个问题：

其一，采用固定检测间隔实现端点检测会导致用户体验很差，具体体现在：若检测间隔特别是语音尾端点检测间隔设置得过小，可能导致用户话还没说完就提前截断，而若检测间隔设置得过大，可能导致响应时间过长，因此，面对现实环境中各种复杂场景设置一个合适的检测间隔往往很难。其二，端点检测模型受限于输入的频谱特征和模型建模能力，对于一些恶劣场景，检测结果会变差。

鉴于上述问题，发明人继续进行深入研究，最终提出了一种解决方案，完美解决了上述研发过程中各个问题。接下来通过下述实施例对本申请提供的语音端点检测方法进行介绍。

请参阅图1，示出了本申请实施例提供的语音端点检测方法的流程示意图，可以包括：

步骤S101：从待检测音频数据中提取用于确定动态检测间隔的音频特征，作为动态检测间隔特征。

具体地，可从获取的音频数据中提取频谱特征、后验特征、解码特征中的一种或多种音频特征作为动态检测间隔特征。

步骤S102a：根据动态检测间隔特征，通过预先建立的音频属性确定模型，确定待检测音频数据的属性。

其中，待检测音频数据的属性为待检测音频数据中每一音频帧的属性，一音频帧的属性为语音帧或非语音帧。

步骤S102b：根据动态检测间隔特征，通过预先建立的动态检测间隔模型，确定待检测音频数据的动态检测间隔。

待检测音频数据的语音端点包括语音前端点和语音尾端点，语音前端点指的是语音起始点位置，语音尾端点指的是语音结束点位置。在本申请中，待检测音频数据的动态检测间隔用于确定语音尾端点，由于语音尾端点出现在语音前端点之后，因此，本步骤实质是确定语音前端点之后的音频帧对应的动态检测间隔。

另外，需要说明的是，本实施例并不限定步骤S102a与步骤S102b的执行顺序，两个步骤可并行执行，也可先后执行，先后执行时可先执行步骤S102a，再执行步骤S102b，也可先执行步骤S102b，再执行步骤S102a，只要包含步骤S102a与步骤S102b都属于本申请保护的范围。

步骤S103：基于待检测音频数据的属性和动态检测间隔，确定待检测音频数据的语音端点。

具体的，可通过待检测音频数据的属性和固定检测间隔检测待检测音频数据的语音前端点，通过待检测音频数据的属性和动态检测间隔检测待检测音频数据的语音尾端点。

本申请实施例中的待检测音频数据的语音前端点可基于待检测音频数据的属性，采用固定检测间隔确定，待检测音频数据的语音尾端点可基于待检测音频数据的属性，采用动态检测间隔确定。

考虑到固定检测间隔的局限，而随着用户的说话内容的不同，语音尾端点的检测间隔应该是变化的，本申请实施例从待检测音频数据中提取动态检测间隔特征，通过预先建立的动态检测间隔模型，确定动态检测间隔，利用动态检测间隔来检测语音尾端点，使得当用户一句话没说完时能够采用较大的检测间隔以等待用户继续说话，当语义完整的一句话或一个子句说完时能够采用较小的检测间隔以便快速响应。本申请实施例提供的语音端点检测方法大大提升了语音端点检测效果，用户体验较好。

在本申请的另一实施例中，对上述实施例中从待检测音频数据中提取动态检测间隔特征进行介绍。

首先，对从待检测音频数据中提取频谱特征的过程进行介绍。

从待检测音频数据中提取频谱特征的过程可以包括：首先对待检测音频数据进行分帧处理，然后分别将每帧数据变换至频率域，最后，在频率域提取频谱特征。经由前述过程可获得每帧音频数据对应的频谱特征。本实施例中的频谱特征可以但不限定为梅尔滤波器组对数能量(Log Filter Bank Energy)特征、梅尔频率倒谱系数(Mel FrequencyCepstrumCoefficient，MFCC)特征、感知线性预测(PerceptualLinear Predictive，PLP)特征等。

接着，对从待检测音频数据中提取声学后验特征进行介绍。

从待检测音频数据中提取声学后验特征的过程可以包括：首先按上述提取频谱特征的方式从待检测音频数据中提取各帧音频数据对应的频谱特征，然后将各帧音频数据对应的频谱特征逐个输入预先构建的声学模型中，获得声学模型输出的声学后验得分，作为声学后验特征。经由前述过程可获得每帧音频数据对应的声学后验特征。需要说明的是，声学后验得分是声学模型输出层各节点的后验概率，声学模型可以但不限定为深度神经网络DNN、循环神经网络RNN、卷积神经网络CNN或多种网络结构的混合，声学模型的训练过程为现有技术，本申请实施例在此不作赘述。

最后，对从待检测音频数据中提取解码特征进行介绍。

从待检测音频数据中提取解码特征的过程可以包括：

(1)从待检测音频数据中提取声学后验特征。

可按上述提取声学后验特征的方式从待检测音频数据中提取各帧音频数据对应的声学后验特征，即先从待检测音频数据中提取各帧音频数据对应的频谱特征，再通过各帧音频数据对应的频谱特征，确定各帧音频数据对应的声学后验特征。

(2)对声学后验特征进行解码，获得解码结果。

具体地，将各帧音频数据对应的声学后验特征逐个输入预先建立的语言模型，对语言模型的输出利用预设的解码算法进行解码，获得解码结果。

其中，预先建立的语言模型可以但不限定为n-gram语言模型，n-gram语言模型的训练过程为现有技术，本申请实施例在此不作赘述。

其中，预设的解码算法可以但不限为基于有限状态机(weighted finaite-statetransducer，WFST)的解码算法，由于其为现有技术，本申请实施例在此不作赘述。

在本实施例中，解码结果可以但不限为文字序列、音素序列或音素状态序列，其中，音素为组成发音的最小单元。

(3)基于解码结果确定解码特征。

具体地，首先基于解码结果获得多个目标候选识别结果以及每个目标候选识别结果的持续时间，然后将每个目标候选识别结果转换为词向量，将每个词向量和每个词向量对应的持续时间作为解码特征。其中，任一词向量对应的持续时间为该词向量对应的目标候选识别结果的持续时间。

在一种优选的实现方式中，多个目标候选识别结果可以为nbest候选识别结果，即解码得到的多个候选识别结果中声学语言得分最高的前n个候选识别结果，n可基于具体应用场景设定。

请参阅图2，示出了从音频数据中提取出的解码特征的一示例的示意图，图2示出的为2best候选识别结果，即两个目标候选识别结果，从图中可以看出，第一个目标候选识别结果中，第一帧对应的解码特征为：词向量[0.5 0.1-0.1]和持续时间19帧，第2帧对应的解码特征为：词向量[-0.5 0.3 0.9]和持续时间34帧，第二个目标候选识别结果中，第一帧对应的解码特征为：词向量[0.5 0.1-0.1]和持续时间19帧，第2帧对应的解码特征为：词向量[-0.5 0.3 0.9]和持续时间21帧。

需要说明的是，每个候选识别结果的持续时间为当前更新的候选识别结果的持续帧数，假设当前第i帧识别结果为“是”，识别结果更新之前为“我”，且“我”的最后一帧落在第j帧上，那么当前候选识别结果的持续时间为i-j帧。

在一种可能的实现方式中，可以但不限定为采用word2vec将每个目标候选识别结果转换为词向量。

另外，需要说明的是，若当前帧的解码结果没有更新，则使用解码结果更新前的解码特征作为当前帧的解码特征，如图2所示，当前帧位置为虚线框出的位置，对于识别候选1来说，当前帧识别结果为“是”，其还没被更新出来，那么则使用上一个解码结果“我”的解码特征作为当前帧解码特征。

需要说明的是，本申请中的动态检测间隔特征可以包括频谱特征、声学后验特征、解码特征中的任意一种或多种。为了提升语音端点的检测效果，在一种优选的实现方式中，动态检测间隔特征包括频谱特征、声学后验特征和解码特征，即动态检测间隔特征可以为由频谱特征、声学后验特征和解码特征拼接而成的联合特征，比如图2示出的虚线框出的音频帧对应的动态检测间隔特征为[频谱特征，声学后验特征，-0.5,0.3,0.9,34，0.7,0.1,-0.4,16]，其中，“-0.5,0.3,0.9,34”为第一个目标候选识别结果中，虚线框出的音频帧对应的词向量([0.5 0.1-0.1])和持续时间(34帧)，“0.7,0.1,-0.4,16”为第二个目标候选识别结果中，虚线框出的音频帧对应的词向量(即[0.7,0.1,-0.4])和持续时间(16帧)。

在本申请的另一实施例中，对上述实施例中的“步骤S102a：根据动态检测间隔特征，通过预先建立的音频属性确定模型，确定待检测音频数据的属性”进行介绍。

请参阅图3，示出了根据动态检测间隔特征，通过预先建立的音频属性确定模型，确定待检测音频数据的属性的流程示意图，可以包括：

步骤S301：将动态检测间隔特征输入音频属性确定模型，获得音频属性确定模型输出的属性确定结果。

在本实施例中，输入音频属性确定模型的动检检测间隔特征优选为频谱特征、声学后验特征、解码特征中的任意两种或三种音频特征拼接后的联合特征。

其中，音频属性确定模型采用标注有属性的训练音频数据训练得到，训练音频数据中的每一音频帧均标注有属性，属性包括语音帧和非语音帧。

音频属性确定模型可以为现有技术中的端点检测模型，也可以为其它可基于动态检测间隔特征确定对应音频帧的属性的模型。音频属性确定模型可以为神经网络模型，神经网络模型的主网络可以但不限为深度神经网络DNN、循环神经网络RNN、卷积神经网络CNN或多种网络结构的混合，神经网络模型的训练过程为现有技术，本实施例在此不作赘述。

在一种可能的实现方式中，音频属性确定模型输出的属性确定结果为属性指示信息，该属性指示信息用于指示输入音频属性确定模型的动态检测间隔特征对应的音频帧的属性，比如，属性指示信息可以为输入音频属性确定模型的动态检测间隔特征对应的音频帧为语音帧和非语音帧的概率。

步骤S302：基于属性确定结果获得输入音频属性确定模型的动态检测间隔特征对应的音频帧的属性。

示例性的，属性确定结果为输入音频属性确定模型的动态检测间隔特征对应的音频帧为语音帧和非语音帧的概率，若输入音频属性确定模型的动态检测间隔特征对应的音频帧为语音帧的概率大于设定概率阈值，则确定该音频帧为语音帧，否则，确定该音频帧为非语音帧。

在本申请的另一实施例中，对上述实施例中的“步骤S102b：根据动态检测间隔特征，通过预先建立的动态检测间隔模型，确定待检测音频数据的动态检测间隔”进行介绍。

请参阅图4，示出了根据动态检测间隔特征，通过预先建立的动态检测间隔模型，确定待检测音频数据的动态检测间隔的流程示意图，可以包括：

步骤S401：将动态检测间隔特征输入动态检测间隔模型，获得动态检测间隔模型输出的停顿概率和期望检测间隔。

在本实施例中，输入动态检测间隔模型的动检检测间隔特征优选为频谱特征、声学后验特征、编码特征中至少两个音频特征拼接后的联合特征，比如频谱特征与声学后验特征拼接后的联合特征。

其中，停顿概率指的是输入动态检测间隔模型的动态检测间隔特征对应的音频帧之后发生停顿的概率，期望检测间隔指输入动态检测间隔模型的动态检测间隔特征对应的音频帧之后需要等待多少帧连续非语音帧才抛出语音尾端点，其中，需要等待的帧数为期望检测间隔，期望检测间隔越大则意味着当前不应该快速抛出语音尾端点，而应该等待足够长非语音段后再抛出语音尾端点才比较可靠。

在一种可能的实现方式中，动态检测间隔模型可以为神经网络模型，动态检测间隔模型以从训练音频数据中提取的动态检测间隔特征为训练样本，以对训练音频数据进行停顿概率和期望检测间隔标注的标注结果为样本标签进行训练得到。需要说明的是，在对训练音频数据进行标注时，针对每一音频帧均标注停顿概率和期望检测间隔，在用动态检测间隔特征作为训练样本训练动态检测间隔模型时，训练标签为输入的动态检测间隔特征对应的音频帧的标注结果。

在一种可能的实现方式中，动态检测间隔模型可以为基于RNN的神经网络模型，比如单向LSTM模型、双向LSTM模型等。在另一种可能的实现方式中，动态检测间隔模型可以为RNN、DNN与CNN的混合结构，图5示出了采用RNN、DNN与CNN的混合结构确定停顿概率和期望检测间隔的示意图。

步骤S402：基于动态检测间隔模型输出的停顿概率和期望检测间隔，确定输入动态检测间隔模型的动态检测间隔特征对应的音频帧对应的动态检测间隔。

在获得动态检测间隔模型输出的停顿概率和期望检测间隔后，可基于该停顿概率和期望检测间隔确定动态检测间隔，在一种可能的实现方式中，动态检测间隔可根据动态检测间隔模型输出的停顿概率和期望检测间隔，通过下式确定：

D＝α[(1-p)N]+(1-α)G (1)

其中，D即为动态检测间隔，p为动态检测间隔模型输出的停顿概率，G为动态检测间隔模型输出的期望检测间隔，α为加权系数，其为0到1之间的值，N为预设值。

需要说明的是，动态检测间隔是随时间推移而变化的，例如一段音频数据内容为“我是中国人”，在说到“国”的时候，通过动态检测间隔模型输出的停顿概率较小且期望检测间隔较大，使得动态检测间隔D的值较大，因此，会倾向于等待用户继续说后面内容，而当说到“人”时，通过动态检测间隔模型输出的停顿概率较大且期望检测间隔较小，使得动态检测间隔D的值较小，会倾向于快速抛出语音尾端点信息。

在本申请的另一实施例中，对上述实施例中的“基于待检测音频数据的属性和动态检测间隔，确定待检测音频数据的语音端点”进行介绍。

请参阅图6，示出了基于待检测音频数据的属性和动态检测间隔，确定待检测音频数据的语音端点的流程示意图，可以包括：

步骤S601：基于待检测音频数据的属性检测语音前端点。

具体地，基于待检测音频数据的属性检测语音前端点的过程可以包括：当待检测音频数据中出现连续第一预设帧数的语音帧时，确定检测到语音前端点；将连续第一预设帧数的语音帧中的首帧确定为语音前端点。其中，第一预设帧数为预设的固定检测间隔，需要说明的是，由于检测到语音前端点之前无法进行音频解码，因此，语音前端点采用上述基于固定检测间隔的检测方式检测得到。

示例性地，第一预设帧数为N，若检测到连续N帧语音帧，表明用户已经开始说话，则确定检测到语音前端点，将N帧语音帧中的第一帧语音帧确定为语音前端点。其中，N为一固定值，其可基于具体场景设定。

步骤S602：在检测到语音前端点之后，基于语音前端点之后的音频数据的属性和动态检测间隔检测语音尾端点。

具体地，基于语音前端点之后的音频数据的属性和动态检测间隔检测语音尾端点的过程可以包括：基于语音前端点之后的音频数据的属性和动态检测间隔，从语音前端点之后的音频数据中检测目标音频帧；当检测到目标音频帧时，确定检测到语音尾端点；将目标音频帧确定为语音尾端点。

其中，目标音频帧为语音帧，且目标音频帧之后出现连续第二帧数的非语音帧，第二帧数为目标音频帧对应的动态检测间隔。

需要说明的是，语音尾端点位于语音前端点之后，因此，在检测到语音前端点之后，对于语音前端点之后的每一音频帧执行：确定该音频帧对应的动态检测间隔D，并确定该音频帧的属性，若该音频帧为语音帧，则确定该音频帧之后连续D帧音频帧是否均为非语音帧，若该音频帧之后连续D帧音频帧均为非语音帧，则确定该音频帧为目标音频帧，确定检测到语音尾端点，该目标音频帧即为语音尾端点，若该音频帧不为目标音频帧，即该音频帧为非语音帧，或者，该音频帧为语音帧，但该音频帧之后不存在连续D帧非语音帧，则对下一音频帧执行上述检测过程，直至检测到语音尾端点。

示例性地，在检测到语音前端点后，假设检测到第60帧音频帧为语音帧且第60帧音频帧对应的动态检测间隔为40，则确定第60帧之后的连续40帧是否均为非语音帧，若第60帧之后的连续40帧均为非语音帧，则可确定第60帧为目标音频帧，语音尾端点的位置为目标音频帧的位置，即第60帧音频帧的位置，若第60帧之后不存在连续40帧语音帧，则检测第61帧音频帧，假设检测到第61～69帧音频帧均为非语音帧，检测第70帧音频帧，若检测到第70帧音频帧为语音帧且第70帧音频帧对应的动态检测间隔为20，则确定第70帧音频帧之后的连续20帧音频帧是否均为非语音帧，若第70帧音频帧之后的连续20帧音频帧均为非语音帧，则确定第70帧为目标音频帧，语音尾端点的位置为目标音频帧的位置，即第70帧音频帧的位置，若第70帧音频帧不为目标音频帧，则接着按上述过程检测下一帧，直至检测到语音尾端点为止。

当检测到语音前端点和语音尾端点后，可结束语音端点检测过程，也可采用上述实施例提供的语音端点检测方案继续进行语音端点检测。

考虑到固定检测间隔的局限，而随着用户的说话内容的不同，语音尾端点的检测间隔应该是变化的，本申请实施例从待检测音频数据中提取动态检测间隔特征，通过预先建立的动态检测间隔模型，确定动态检测间隔，利用动态检测间隔来检测语音尾端点，使得当用户一句话没说完时能够采用较大的检测间隔以等待用户继续说话，当语义完整的一句话或一个子句说完时能够采用较小的检测间隔以便快速响应。本申请实施例提供的语音端点检测方法大大提升了语音端点检测效果，另外，用于确定语音端点的音频属性和动态检测间隔的动态检测间隔特征使用频谱特征、声学后验特征、解码特征的联合特征能够进一步提升检测效果，用户体验较好。

与上述方法相对应，本申请实施例还提供了一种语音端点检测装置，请参阅图7，示出了该装置的结构示意图，可以包括：特征提取模块701、属性确定模块702a、检测间隔确定模块702b和语音端点检测模块703。

特征提取模块701，用于从待检测音频数据中提取用于确定动态检测间隔的音频特征，作为动态检测间隔特征；

属性确定模块702a，用于根据所述动态检测间隔特征，通过预先建立的音频属性确定模型，确定所述待检测音频数据的属性；

检测间隔确定模块702b，用于根据所述动态检测间隔特征，通过预先建立的动态检测间隔模型，确定所述待检测音频数据的动态检测间隔；

语音端点检测模块703，用于基于所述待检测音频数据的属性和动态检测间隔，确定所述待检测音频数据的语音端点。

考虑到固定检测间隔的局限，而随着用户的说话内容的不同，语音尾端点的检测间隔应该是变化的，本申请实施例提供的语音端点检测装置从待检测音频数据中提取动态检测间隔特征，通过预先建立的动态检测间隔模型，确定动态检测间隔，利用动态检测间隔来检测语音尾端点，使得当用户一句话没说完时能够采用较大的检测间隔以等待用户继续说话，当语义完整的一句话或一个子句说完时能够采用较小的检测间隔以便快速响应。本申请实施例提供的语音端点检测装置大大提升了语音端点检测效果，用户体验较好。

优选地，上述实施例提供的语音端点检测装置中，特征提取模块701，具体用于从所述音频数据中提取频谱特征、后验特征、解码特征中的一种或多种音频特征，作为所述动态检测间隔特征。

在一种可能的实现方式中，上述实施例提供的语音端点检测装置中的特征提取模块701从所述待检测音频数据中提取后验特征时，具体用于从所述待检测音频数据中提取频谱特征；将所述频谱特征输入预先建立的声学模型，获得所述声学模型输出的声学后验得分，作为所述后验特征。

在一种可能的实现方式中，上述实施例提供的语音端点检测装置中的特征提取模块701在所述待检测音频数据中提取所述解码特征时，具体用于从所述待检测音频数据中提取频谱特征；通过所述频谱特征确定声学后验特征；对所述声学后验特征进行解码，获得解码结果；基于所述解码结果确定解码特征。

其中，特征提取模块701在基于所述解码结果确定解码特征时，具体用于基于所述解码结果获得多个目标候选识别结果以及每个所述目标候选识别结果的持续时间；将每个所述目标候选识别结果转换为词向量；将每个所述词向量和每个所述词向量对应的目标候选识别结果的持续时间作为所述解码特征。

优选地，上述实施例提供的语音端点检测装置中，属性确定模块702a，具体用于将所述动态检测间隔特征输入所述音频属性确定模型，获得所述音频属性确定模型输出的属性确定结果；基于所述属性确定结果获得输入所述音频属性确定模型的动态检测间隔特征对应的音频帧的属性。

优选地，上述实施例提供的语音端点检测装置中，检测间隔确定模块702b，具体用于将所述动态检测间隔特征输入所述动态检测间隔模型，获得所述动态检测间隔模型输出的停顿概率和期望检测间隔；基于所述动态检测间隔模型输出的所述停顿概率和所述期望检测间隔，确定输入所述动态检测间隔模型的动态检测间隔特征对应的音频帧对应的动态检测间隔。

优选地，上述实施例提供的语音端点检测装置中，语音端点检测模块703包括：语音前端点检测模块和语音尾端点检测模块。

所述语音前端点检测模块，用于基于所述待检测音频数据的属性检测语音前端点。

优选地，所述语音前端点检测模块，具体用于当所述待检测音频数据中出现连续第一预设帧数的语音帧时，确定检测到语音前端点；将所述连续第一预设帧数的语音帧中的首帧确定为所述语音前端点。

优选地，所述语音尾端点检测模块，具体用于基于所述语音前端点之后的音频数据的属性和动态检测间隔，从所述语音前端点之后的音频数据中检测目标音频帧，所述目标音频帧为语音帧，且所述目标音频帧之后出现连续第二帧数的非语音帧，所述第二帧数为所述目标音频帧对应的动态检测间隔；当检测到所述目标音频帧时，确定检测到所述语音尾端点；将所述目标音频帧确定为所述语音尾端点。

本申请实施例还提供了一种语音端点检测设备，请参阅图8，示出了该语音端点检测设备的结构示意图，该语音端点检测设备可以包括：存储器801和处理器802。

存储器801，用于存储程序；

处理器802，用于执行所述程序，所述程序具体用于：

语音端点检测设备还可以包括：总线和通信接口。

处理器802、存储器801、通信接口803通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器802可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器802可包括主处理器，还可包括基带芯片、调制解调器等。

存储器801中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器801可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

通信接口803可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器802执行存储器801中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的语音端点检测方法的各个步骤。

本申请还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例提供的应用于语音端点检测方法的各个步骤。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音端点检测方法，其特征在于，包括：

基于所述待检测音频数据的属性和动态检测间隔，确定所述待检测音频数据的语音端点；

其中，所述基于所述待检测音频数据的属性和动态检测间隔，确定所述待检测音频数据的语音端点，包括：

基于所述待检测音频数据的属性检测语音前端点；

2.根据权利要求1所述的语音端点检测方法，其特征在于，所述从待检测音频数据中提取用于确定动态检测间隔的音频特征，作为动态检测间隔特征，包括：

3.根据权利要求2所述的语音端点检测方法，其特征在于，从所述待检测音频数据中提取所述后验特征，包括：

从所述待检测音频数据中提取频谱特征；

4.根据权利要求2所述的语音端点检测方法，其特征在于，从所述待检测音频数据中提取所述解码特征，包括：

从所述待检测音频数据中提取频谱特征；

通过所述频谱特征确定声学后验特征；

对所述声学后验特征进行解码，获得解码结果；

基于所述解码结果确定解码特征。

5.根据权利要求4所述的语音端点检测方法，其特征在于，所述基于所述解码结果确定解码特征，包括：

将每个所述目标候选识别结果转换为词向量；

6.根据权利要求1所述的语音端点检测方法，其特征在于，所述根据所述动态检测间隔特征，通过预先建立的动态检测间隔模型，确定所述待检测音频数据的动态检测间隔，包括：

7.根据权利要求1所述的语音端点检测方法，其特征在于，所述基于所述待检测音频数据的属性检测语音前端点，包括：

8.根据权利要求1所述的语音端点检测方法，其特征在于，所述基于所述语音前端点之后的音频数据的属性和动态检测间隔检测语音尾端点，包括：

当检测到所述目标音频帧时，确定检测到所述语音尾端点；

将所述目标音频帧确定为所述语音尾端点。

9.一种语音端点检测装置，其特征在于，包括：特征提取模块、属性确定模块、检测间隔确定模块和语音端点检测模块；

所述语音端点检测模块，用于基于所述待检测音频数据的属性和动态检测间隔，确定所述待检测音频数据的语音端点；

其中，所述语音端点检测模块包括：语音前端点检测模块和语音尾端点检测模块；

10.根据权利要求9所述的语音端点检测装置，其特征在于，所述特征提取模块，具体用于从所述音频数据中提取频谱特征、后验特征、解码特征中的一种或多种音频特征，作为所述动态检测间隔特征。

11.根据权利要求9或10所述的语音端点检测装置，其特征在于，所述检测间隔确定模块，具体用于将所述动态检测间隔特征输入所述动态检测间隔模型，获得所述动态检测间隔模型输出的停顿概率和期望检测间隔，基于所述动态检测间隔模型输出的所述停顿概率和所述期望检测间隔，确定输入所述动态检测间隔模型的动态检测间隔特征对应的音频帧对应的动态检测间隔；

12.一种语音端点检测设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，所述程序具体用于：

基于所述待检测音频数据的属性检测语音前端点；

13.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～8中任一项所述的语音端点检测方法的各个步骤。