CN112992191A

CN112992191A - 语音端点检测方法、装置、电子设备及可读存储介质

Info

Publication number: CN112992191A
Application number: CN202110513939.8A
Authority: CN
Inventors: 李作强; 杨嵩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-06-18
Anticipated expiration: 2041-05-12
Also published as: CN112992191B

Abstract

本发明公开了一种语音端点检测方法、装置、电子设备及可读存储介质，获取音频语音信息，并对音频语音信息进行分帧处理得到帧语音数据；提取帧语音数据的第一数据；第一数据包括Fbank频域特征和/或用于表征语音信号的时域特征；对第一数据进行处理得到第二数据；其中，第二数据包括比所述第一数据更多的局部信息；对第二数据进行分类处理，得到语音/非语音信息后验概率；对语音/非语音信息后验概率进行平滑处理得到语音/非语音信息概率；针对语音/非语音信息概率，计算在指定大小的滑动窗口内第j帧的置信度；根据第j帧的置信度确定语音端点的起点和尾点。实现了稳健性好、精准性高、鲁棒性强的语音端点检测技术。

Description

语音端点检测方法、装置、电子设备及可读存储介质

技术领域

本发明涉及语音信号处理技术领域，具体涉及一种语音端点检测方法、装置、电子设备及计算机可读存储介质。

背景技术

语音信号中大约有一半的时间属于非语音片段，给语音信号处理带来了额外的运算开销。在对语音信号进行处理的时候一般会进行语音端点检测(Voice ActiveDetection，简称VAD)。语音端点检测方法一般用于鉴别音频信号当中语音出现（speechpresence）和语音消失(speech absence)，即从含有静音、噪声等干扰信号的音频流中准确快速的将语音活动部分的有效语音片段（实际语音片段的起始点和终止点）提取出来，排除静音、噪声等其它非语音信号的干扰，为后续语音处理系统提供可靠的语音信号，减少了后续语音处理系统的数据量和计算压力，有利于提高系统的利用率和响应速度。端点检测技术对语音编码、说话人分离和识别、唤醒、语音识别和人机语音交互系统等具有重要意义，是其流程中的一个极其重要的模块。例如，语音端点检测性能的好坏直接影响着语音交互对话的流畅性与用户体验。

在实际复杂的现实应用环境中或在低信噪比、低噪音背景条件下，例如包括噪声、混响、回声等外在复杂环境或地处户内、户外、商场、会议等包含不同噪音的背景场景下，传统的常用语音端点检测方法主要有两类：一类是基于特征提取的阈值门限判决端点检测方法；一类是基于分类器的端点检测方法。基于特征提取的端点检测算法从语音信号中提取时域或频域特征参数，根据语音/非语音在这些特征参数上的不同分布规律，设定某一阈值（一般依靠经验）或建立区分性模型来区分语音/非语音段。比较有效的时域特征参数包括：短时能量、过零率、自相关函数、基频等。主要的频域特征参数包括：线性预测编码（linearpredictive coding，简称为LPC）倒谱距离、频率方差、谱熵等。基于分类器的端点检测方法主要是通过提取并融合上述提到用来表征语音信号的多种有效语音特征，通过机器学习的方法支持向量机（Support Vector Machine,简称为SVM）等训练分类器建立语音识别模型，达到检测有效语音片段的目的。在高信噪比和低噪音背景条件下，传统的语音端点检测方法也可以取得较好的检测精度。然而在一些低信噪比，高噪音、背景声音同待检测的语音信号混淆度具有很高的差异化复杂噪声环境下，通过设定门限值的传统端点检测和基于分类器传统端点检测技术很难取得让人满意的效果。因此稳健性好、精准性高、鲁棒性强、运算量少的语音端点检测技术，具有迫切的现实需求。

发明内容

有鉴于此，本发明实施例提供了一种语音端点检测方法、装置、电子设备及计算机可读存储介质，以解决现有技术中语音端点检测方法不能精准的将语音活动部分的有效语音片段提取出来，不能为后续语音处理系统提供可靠的语音信号，增大了后续语音处理系统的数据量和计算压力，降低了系统的利用率和响应速度的问题。

为此，本发明实施例提供了如下技术方案：

本发明第一方面，提供了一种语音端点检测方法，包括：

获取音频语音信息，并对所述音频语音信息进行分帧处理得到帧语音数据；

提取所述帧语音数据的第一数据；其中，所述第一数据包括Fbank频域特征和/或用于表征语音信号的时域特征；

对所述第一数据进行处理得到第二数据；其中，所述第二数据包括比所述第一数据更多的局部信息；

对所述第二数据进行分类处理，得到语音/非语音信息后验概率；

对所述语音/非语音信息后验概率进行平滑处理得到平滑处理后的语音/非语音信息概率；

针对所述语音/非语音信息概率，计算在指定大小的滑动窗口内第j帧的置信度；其中j为自然数；

根据所述第j帧的置信度确定语音端点的起点和尾点。

可选地，对所述第一数据进行处理得到第二数据包括：

将所述第一数据进行特征变换处理，转换成指定格式的数据；将所述指定格式的数据输入至深度可分离卷积网络，得到所述第二数据；

对所述第二数据进行分类处理，得到语音/非语音信息后验概率包括：

将所述第二数据依次输入wavnet网络层和softmax分类函数，得到所述语音/非语音信息后验概率。可选地，对所述语音/非语音信息后验概率进行平滑处理得到平滑处理后的语音/非语音信息概率包括：

采用一个固定窗长的平滑窗口

来平滑训练softmax分类函数输出的语音/非语音信息后验概率，

为经平滑窗口平滑处理后的语音/非语音信息概率输出，

为网络后验概率

经下面公式处理后的输出：

其中

是平滑窗口内第一帧的索引值。

可选地，针对所述语音/非语音信息概率，计算在指定大小的滑动窗口内第j帧的置信度包括：

在大小为

的滑动窗口内，第j帧的置信度通过下式计算：

其中，

是平滑窗口内第一帧的索引值。

可选地，根据所述第j帧的置信度确定语音端点的起点和尾点包括：

设置区分语音信息和非语音信息的阈值判决门限值；

将第j帧的置信度与所述阈值判决门限值进行比较，得到比较结果;

在第j帧的置信度大于或者等于所述阈值判决门限值时，确定第j帧为语音信息；在第j帧的置信度小于所述阈值判决门限值时，确定第j帧为非语音信息；

根据第j帧为语音信息或者为非语音信息的判断结果确定语音端点的起点和尾点。

可选地，在第j帧的置信度大于或者等于所述阈值判决门限值时，确定第j帧为语音信息；在第j帧的置信度小于所述阈值判决门限值时，确定第j帧为非语音信息之后还包括：

在确定第m1帧之后的连续n1帧为语音信息的情况下，将第m1帧之前的第m2帧作为语音端点的起点；其中，所述第m1帧与所述第m2帧间隔第一数量的帧数；

在确定第m3帧之后的连续n2帧为非语音信息的情况下，将第m3帧之后的第m4帧作为语音端点的尾点；其中，所述第m3帧与所述第m4帧间隔第二数量的帧数；其中，所述第m3帧位于所述第m2帧之后。

获取第m5帧、第m6帧、第m7帧和第m8帧；

在第m5和m6帧为语音信息，第m5帧和第m6帧之间的所有帧均为语音信息，第m7和第m8帧为语音信息，第m7帧和第m8帧之间的所有帧均为语音信息，并且第m6帧和第m7帧之间的所有帧为非语音信息时，确定第m5帧至第m8帧为语音信息；其中，第m6帧和第m7帧间隔的帧数小于第一阈值；或者，

在第m9和m10帧为非语音信息，第m9帧和第m10帧之间的所有帧均为非语音信息，第m11和第m12帧为非语音信息，第m11帧和第m12帧之间的所有帧均为非语音信息，并且第m10帧和第m11帧之间的所有帧为语音信息时，确定第m9帧至第m12帧为非语音信息；其中，第m10帧和第m11帧间隔的帧数小于第二阈值。

可选地，所述Fbank特征为80维的Fbank频域特征；和/或，所述用于表征语音信号的时域特征包括短时能量、短时过零率、基因周期、短时幅度谱的峰度、短时幅度谱的偏度用于表征语音信号的时域特征。

本发明第二方面，提供了一种语音端点检测装置，包括：

获取模块，用于获取音频语音信息，并对所述音频语音信息进行分帧处理得到帧语音数据；

提取模块，用于提取所述帧语音数据的第一数据；其中，所述第一数据包括Fbank频域特征和/或用于表征语音信号的时域特征；

处理模块，用于对所述第一数据进行处理得到第二数据；其中，所述第二数据包括比所述第一数据更多的局部信息；

分类模块，用于对所述第二数据进行分类处理，得到语音/非语音信息后验概率；

平滑模块，用于对所述语音/非语音信息后验概率进行平滑处理得到平滑处理后的语音/非语音信息概率；

计算模块，用于针对所述语音/非语音信息概率，计算在指定大小的滑动窗口内第j帧的置信度；其中j为自然数；

确定模块，用于根据所述第j帧的置信度确定语音端点的起点和尾点。

本发明第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述第一方面中任一所述的语音端点检测方法。

本发明第四方面，提供了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述第一方面中任一所述的语音端点检测方法。

本发明实施例技术方案，具有如下优点：

本发明实施例提供了一种语音端点检测方法、装置、电子设备及计算机可读存储介质，其中，该方法包括：获取音频语音信息，并对该音频语音信息进行分帧处理得到帧语音数据；提取帧语音数据的第一数据；其中，该第一数据包括Fbank频域特征和/或用于表征语音信号的时域特征；对第一数据进行处理得到第二数据；其中，第二数据包括比第一数据更多的局部信息；对第二数据进行分类处理，得到语音/非语音信息后验概率；对语音/非语音信息后验概率进行平滑处理得到平滑处理后的语音/非语音信息概率；针对语音/非语音信息概率，计算在指定大小的滑动窗口内第j帧的置信度；其中j为自然数；根据第j帧的置信度确定语音端点的起点和尾点。解决了现有技术中语音端点检测方法不能精准的将语音活动部分的有效语音片段提取出来，不能为后续语音处理系统提供可靠的语音信号，增大了后续语音处理系统的数据量和计算压力，降低了系统的利用率和响应速度的问题，通过融合深度可分离卷积和多层带洞卷积wavnet网络结构，从初级的时域和频域相融合的特征中，学习语音/非语音的区分性能力，最后通过结合平滑算法，置信度打分，语音端点检测的起点，尾点判决策略，来实现稳健性好、精准性高、鲁棒性强的语音端点检测技术。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的语音端点检测方法的流程图；

图2是根据本发明实施例的语音端点检测网络分类模型结构框图；

图3是根据本发明实施例的VAD的流程框图；

图4是根据本发明实施例的语音端点检测后处理模块流程图；

图5是根据本发明实施例的语音端点检测装置的结构框图；

图6是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本申请的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

随着智能客服机器人产业的迅速发展，尤其是伴随着人工智能AI的风潮，人工智能AI技术不断渗透客服机器人市场发展潜力巨大。基于智能客服机器人领域的人机交互场景进行端点检测处理的应用正在不断扩展和深化。语音端点检测模块是人机语音交互流程中一个极其重要的模块，目前语音端点检测的主要任务是准确快速判决出待处理的语音信号有话还是无话，从语音信号中提取出有话部分，因静音或干扰噪声部分本身也没有什么重要的意义，忽略静音和干扰噪声部分，这样节省了很大的运算量。语音端点检测作为自动语音识别、唤醒、语音编码、说话人分离和识别、语音识别和人机交互系统等系统的前置处理模块，一旦检测到话音信号，就启动后续模块系统，并进行话音数据流的传输。准确的VAD将提高自动语音识别、唤醒、语音编码、说话人分离和识别、人机交互等系统的利用率和减少语音处理的数据量。然而在复杂多变的背景噪声多样性环境下、外在环境的复杂以及低信噪比环境下，实现语音/非语音的成功检测，仍然是语音端点检测方法面临的棘手问题。

根据本发明实施例，提供了一种语音端点检测方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

在本实施例中提供了一种语音端点检测方法，可以用于任何具有端对端语音识别功能的如手机、电脑等具有显示、处理和网络连接功能的智能设备(电子设备)。图1是根据本发明实施例的语音端点检测方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取音频语音信息，并对该音频语音信息进行分帧处理得到帧语音数据。具体地，例如对音频语音信号进行加窗分帧处理，其中每帧语音长度为25ms，帧移为10ms，在模型的训练和识别时可以以当前语音帧为中心前后各取5帧组成上下文相关特征向量，考虑了相邻语音帧之间的相关性以及误差的先验概率，因此能够比较准确的找到语音/非语音段的分界面。

步骤S102，提取该帧语音数据的第一数据；其中，第一数据包括Fbank特征和/或用于表征语音信号的时域特征。具体地，例如提取基于Mel滤波器组的Fbank特征，特征维数为80，提取短时能量、短时过零率、基频周期、短时幅度谱的峰度和短时幅度谱的偏度五个用来表征语音信号的时域特征。（1）短时能量：能量是语音的一个重要特性，比如清音的能量较小，浊音的能量较大。对语音能量的分析主要集中在短时能量上，短时能量是能量的一种度量方法，在清音和浊音的区别上，短时能量有明显的幅值变化；（2）短时过零率：短时平均过零率是语音信号时域分析中的一种特征参数，是指一帧语音时域信号穿过横轴(零电平)次数；（3）短时幅度谱的偏度：是一种反映语音信号分布形状的高阶统计量，它度量了语音信号的偏斜程度及偏向；（4）短时幅度谱的峰度：是一种反映语音信号分布形状的高阶统计量，它度量了分布相对于正太分布的尖锐或平坦程度；（5）语音强制对齐：通过语音样本和对应的文本标注样本集来进行建模（GMM模型或神经网络模型），在强制对齐模型基础上，通过解码算法确定音素时间点和相应的音素序列。

在一个可选实施例中，提取该帧语音数据的第一数据之后，将第一数据进行全局的均值方差归一化处理。从而实现数据的规整，规整后的数值在0～1之间，提升了网络收敛的速度。

步骤S103，对第一数据进行处理得到第二数据；其中，第二数据包括比第一数据更多的局部信息。在一个可选实施例中，对第一数提取的特征更多地关注局部特征，对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息即第二数据。具体地，可以将第一数据进行特征变换处理，转换成指定格式的数据，将指定格式的数据输入至深度可分离卷积网络，得到第二数据。对执行步骤S102操作后的特征进行数据格式的操作处理来作为深度可分离卷积的输入，进而提取更深层次的抽象特征，具体地，深度可分离卷积（depthwise separable convolution）是卷积神经网络中对标准的卷积计算进行改进所得到的算法，其通过拆分空间维度和通道（深度）维度的相关性，把标准卷积分解成深度卷积(depth-wise convolution)和逐点卷积(pointwise convolution)。这样做的好处就是可以在损失精度不多的情况下大幅度降低系统模型的参数量和计算量。并在一些研究中被证实提升了卷积核参数的使用效率。对输入的特征进行特征变换处理转换成深度可分离卷积的输入图像格式（dataformat=NCHW），即训练时一个batch的图片数量，图片的高度，图片的宽度，图片的通道数。经深度可分离卷积处理输出具有深度可分离卷积的输入图像格式的第二数据。

步骤S104，对第二数据进行分类处理，得到语音/非语音信息后验概率。在一个可选实施例中，将第二数据依次输入wavnet网络层和softmax分类函数，得到语音/非语音信息后验概率。通过多层带洞卷积wavnet网络结构进行非线性和区分性能力的学习，建模输出。具体地，如图2所示，网络模块选取了多层的带洞卷积wavenet。dilated casualconvolution带洞对应的就是dilated,就是和普通卷积步长stride不同，stride会更大一些，这样关注的范围（receptive field）就变大了，提高感受视野（receptive field）,提高当前帧的预测精度。casual对应的就是因果，主要就是不用未来的输出/结果做当前的输入。这个方法对比RNN,好处就是可以并行计算，提高预测训练速度。网络的输入数据来自于上一步深度可分离卷积的输出。接着进行一个一维空洞卷积，而后进入到残差模块中，残差模块是这样的结构：将进来的数据再进行一次空洞卷积，分两路，一路是用tanh()作激活函数，一路是用sigmoid()作激活函数，最后又将两路合并，合并完成后，再通过一个一维的空洞卷积，这里获得的输出，然后再进行两路处理，一路是进入下一次的残差块，一路是往右边发展，通过一个relu激活，一个一维空洞卷积，一个relu，一个一维空洞卷积，再接着softmax，最后输出语音和非语音。利用conv-wavnet网络的分层非线形学习能力和区分性建模能力，基于大规模标注的语料库或经过强制对齐模型或工具对齐的语料库，并将其做语音和非语音的二分类label的转换。

步骤S105，对语音/非语音信息后验概率进行平滑处理得到平滑处理后的语音/非语音信息概率。

步骤S106，针对语音/非语音信息概率，计算在指定大小的滑动窗口内第j帧的置信度；其中j为自然数。

步骤S107，根据第j帧的置信度确定语音端点的起点和尾点。

通过上述步骤，通过融合深度可分离卷积和多层带洞卷积wavnet网络结构，从初级的时域和频域相融合的特征中，学习语音/非语音的区分性能力，最后通过结合平滑算法，置信度打分，语音端点检测的起点，尾点判决策略，来实现稳健性好、精准性高、鲁棒性强的语音端点检测技术。该方法是将语音信号端点检测问题转化成语音帧分类问题，通过建立语音/非语音帧的二分类模型实现语音段的起止尾点检测，解决了现有技术中语音端点检测方法不能精准的将语音活动部分的有效语音片段提取出来，不能为后续语音处理系统提供可靠的语音信号，增大了后续语音处理系统的数据量和计算压力，降低了系统的利用率和响应速度的问题。该方法可应用在在线或离线语音交互，识别等系统中做前置处理模块，通过将作为静音和噪声的干扰信号从原始数据中去除，端点检测的效果对于语音识别等其它系统的性能起着至关重要的作用。通过端点检测算法减少了后续语音处理模块系统的计算压力，有利于提高系统的响应速度。

图3是根据本发明实施例的VAD的流程框图。如图3所示，对待处理的语音信号进行预处理，其中预处理包括对待处理的语音信号进行加窗分帧处理等，预处理之后进行特征提取，提取特征之后输入网络模型，该网络模块包括深度可分离卷积网络、多层的带洞卷积wavenet，最后通过结合平滑算法，置信度打分，语音端点检测的起点，尾点判决策略完成语音端点检测。

上述步骤S105涉及到对语音/非语音信息后验概率进行平滑处理得到平滑处理后的语音/非语音信息概率，在一个可选实施例中，采用一个固定窗长的平滑窗口

为经平滑窗口平滑处理后的语音/非语音信息概率输出，

为网络后验概率

经下面公式处理后的输出：

其中

是平滑窗口内第一帧的索引值。本领域技术人员根据该实施例的描述，可以采用现有技术中其他的方式来实现。

上述步骤S106涉及针对语音/非语音信息概率，计算在指定大小的滑动窗口内第j帧的置信度，在一个可选实施例中，在大小为

的滑动窗口内，第j帧的置信度通过下式计算：

其中，

是平滑窗口内第一帧的索引值。具体地，具体地，

=16frames，

=30frames。本领域技术人员根据该实施例的描述，可以采用现有技术中其他的方式来实现。

上述步骤S107涉及到根据该第j帧的置信度确定语音端点的起点和尾点，在一个可选实施例中，设置区分语音信息和非语音信息的阈值判决门限值，将第j帧的置信度与该阈值判决门限值进行比较，得到比较结果，在第j帧的置信度大于或者等于该阈值判决门限值时，确定第j帧为语音信息；在第j帧的置信度小于该阈值判决门限值时，确定第j帧为非语音信息。也就是说，设置区分语音和非语音的阈值判决门限值，通过对比每一帧的后验概率输出做二值判决。后验概率是上一步产生的，二值判决（0，1）是将概率跟阈值比较后得到的序列值，有了这些序列值（0，1）可以进一步进行语音端点检测的起点，尾点判决策略以及容错性策略。

关于确定语音端点的起点和尾点，在另一个可选实施例中，在第j帧的置信度大于或者等于该阈值判决门限值时，确定第j帧为语音信息；在第j帧的置信度小于该阈值判决门限值时，确定第j帧为非语音信息之后，在确定m1帧之后的连续n1帧为语音信息的情况下，将第m1帧之前的第m2帧作为语音端点的起点；其中，该第m1帧与该第m2帧间隔第一数量的帧数。例如，第m1帧为第100帧，该第100帧之后的连续50帧（即n1帧）为语音信息，将第100帧之前的25帧（第一数量的帧数）即第75帧（即第m2帧）作为语音端点的起点。将语音端点的起点稍微提前，从而可以保证语音信息的完成性。在确定第m3帧之后的连续n2帧为非语音信息的情况下，将第m3帧之后的第m4帧作为语音端点的尾点；其中，该第m3帧与该第m4帧间隔第二数量的帧数；其中，该第m3帧位于该第m2帧之后。例如，第m3帧为第200帧，该第200帧之后的连续50帧（即n2帧）为非语音信息，将第200帧之后的25帧（第二数量的帧数）即第225帧（即第m2帧）作为语音端点的尾点。将语音端点的尾点稍微延后，从而可以保证语音信息的完成性。

关于确定语音端点的起点和尾点，在再一个可选实施例中，在第j帧的置信度大于或者等于该阈值判决门限值时，确定第j帧为语音信息；在第j帧的置信度小于阈值判决门限值时，确定第j帧为非语音信息之后，获取第m5帧、第m6帧、第m7帧和第m8帧；在第m5和m6帧为语音信息，第m5帧和第m6帧之间的所有帧均为语音信息，第m7和第m8帧为语音信息，第m7帧和第m8帧之间的所有帧均为语音信息，并且第m6帧和第m7帧之间的所有帧为非语音信息时，确定第m5帧至第m8帧为语音信息；其中，第m6帧和第m7帧间隔的帧数小于第一阈值。例如，第m5帧为第100帧，第m6帧为第300帧，第m7帧为第310帧，第m8帧为第500帧，由于从第m5帧到第m8帧之间的400帧中仅有第m6帧与第m7帧之间的10帧为非语音信息，其余均为语音信息，这种情况可能是音频源略有停顿，或者语音/非语音检测稍微误差所致，将第m5帧到第m8帧之间的400帧整体判定为语音信息，提升了语音/非语音划分的正确性。在另一个可选实施例中，在第m9和m10帧为非语音信息，第m9帧和第m10帧之间的所有帧均为非语音信息，第m11和第m12帧为非语音信息，第m11帧和第m12帧之间的所有帧均为非语音信息，并且第m10帧和第m11帧之间的所有帧为语音信息时，确定第m9帧至第m12帧为非语音信息；其中，第m10帧和第m11帧间隔的帧数小于第二阈值。例如，第m9帧为第100帧，第m10帧为第300帧，第m11帧为第310帧，第m12帧为第500帧，由于从第m9帧到第m12帧之间的400帧中仅有第m10帧与第m11帧之间的10帧为语音信息，其余均为非语音信息，这种情况可能是将非语音信息误判为了语音信息，将第m9帧到第m12帧之间的400帧整体判定为非语音信息，提升了语音/非语音划分的正确性。其中m1至m12、n1、n2均为自然数。

综上所述，语音端点检测起点、尾点模块的判决策略，阈值方法以及结合滑动窗口内静音和语音帧数的分布情况，实现了话音的起点、尾点有效语音片段的检测。

下面结合图4进行完整实施例的说明，如图4所示，包括如下步骤：

步骤S401，接收模型网络后验概率输出；该模型网络后验概率输出即为上述实施例执行步骤S104的输出；

步骤S402，缓存Wmax帧；

步骤S403，对缓存Wmax帧语音进行平滑算法处理，如同上述实施例步骤S105；

步骤S404，对经过平滑算法的Wmax帧语音进行置信度算法打分，如同上述实施例步骤S106；

步骤S405，对置信度进行帧级二值判断；如果置信度大于等于帧级二值判断条件，则执行步骤S406，如果置信度小于帧级二值判断条件，则执行步骤S407；

步骤S406，当前帧输出语音label；

步骤S407，当前帧输出静音label；

步骤S408，缓存N帧，完成N帧的缓存则执行步骤S409，未完成N帧的缓存则继续执行步骤S405；

步骤S409，判断是否检测语音起点；在判断结果为是的情况下执行步骤S410，在判断结果为否的情况下执行步骤S411;

步骤S410，启动语音起点检测模块，检测语音起点；

步骤S411，启动语音尾点检测模块，检测语音尾点；

步骤S412，判断是否检测到语音尾点；在检测到语音尾点时，执行步骤S413;在未检测到语音尾点时，执行步骤S414;

步骤S413，启动后续处理模块，对检测出的确定了语音起点和尾点的语音信息进行处理；

步骤S414，判断是否为最后一包，也就是判断是否为最后发送的数据包，即是否还有数据等待处理，在判断结果为是时，执行步骤S413，在判断结果为否时，返回执行步骤S411。

在本实施例中还提供了一种语音端点检测装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”为可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种语音端点检测装置，如图5所示，包括：

获取模块51，用于获取音频语音信息，并对所述音频语音信息进行分帧处理得到帧语音数据；

提取模块52，用于提取所述帧语音数据的第一数据；其中，所述第一数据包括Fbank频域特征和/或用于表征语音信号的时域特征；

处理模块53，用于对所述第一数据进行处理得到第二数据；其中，所述第二数据包括比所述第一数据更多的局部信息；

分类模块54，用于对所述第二数据进行分类处理，得到语音/非语音信息后验概率；

平滑模块55，用于对所述语音/非语音信息后验概率进行平滑处理得到平滑处理后的语音/非语音信息概率；

计算模块56，用于针对所述语音/非语音信息概率，计算在指定大小的滑动窗口内第j帧的置信度；其中j为自然数；

确定模块57，用于根据所述第j帧的置信度确定语音端点的起点和尾点。

本实施例中的语音端点检测装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种电子设备，具有上述图5所示的语音端点检测装置。

请参阅图6，图6是本发明可选实施例提供的电子设备的结构示意图，如图6所示，该终端可以包括：至少一个处理器601，例如CPU（Central Processing Unit，中央处理器），至少一个通信接口603，存储器604，至少一个通信总线602。其中，通信总线602用于实现这些组件之间的连接通信。其中，通信接口603可以包括显示屏（Display）、键盘（Keyboard），可选通信接口603还可以包括标准的有线接口、无线接口。存储器604可以是高速RAM存储器（Random Access Memory，随机存取存储器），也可以是非易失性存储器（non-volatilememory），例如至少一个磁盘存储器。存储器604可选的还可以是至少一个位于远离前述处理器601的存储装置。其中处理器601可以结合图5所描述的装置，存储器604中存储应用程序，且处理器601调用存储器604中存储的程序代码，以用于执行上述任一方法步骤，即用于执行上述语音端点检测方法的步骤。

其中，通信总线602可以是外设部件互连标准（peripheral componentinterconnect，简称PCI）总线或扩展工业标准结构（extended industry standardarchitecture，简称EISA）总线等。通信总线602可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器604可以包括易失性存储器（英文：volatile memory），例如随机存取存储器（英文：random-access memory，缩写：RAM）；存储器也可以包括非易失性存储器（英文：non-volatile memory），例如快闪存储器（英文：flash memory），硬盘（英文：hard diskdrive，缩写：HDD）或固态硬盘（英文：solid-state drive，缩写：SSD）；存储器604还可以包括上述种类的存储器的组合。

其中，处理器601可以是中央处理器（英文：central processing unit，缩写：CPU），网络处理器（英文：network processor，缩写：NP）或者CPU和NP的组合。

其中，处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路（英文：application-specific integrated circuit，缩写：ASIC），可编程逻辑器件（英文：programmable logic device，缩写：PLD）或其组合。上述PLD可以是复杂可编程逻辑器件（英文：complex programmable logic device，缩写：CPLD），现场可编程逻辑门阵列（英文：field-programmable gate array，缩写：FPGA），通用阵列逻辑（英文：generic arraylogic,缩写：GAL）或其任意组合。

可选地，存储器604还用于存储程序指令。处理器601可以调用程序指令，实现如本申请图1和4实施例中所示的语音端点检测方法。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音端点检测方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard DiskDrive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

综上所述，本发明提供了一种基于conv-wavnet网络结构和后处理策略相结合的端点检测方法。该方法属于模型检测法，跟传统模型方法无法同时学习多种噪声的困难以及在低信噪比，复杂背景环境下效果表现不佳的问题相比，具备一定的鲁棒性。为了使模型在复杂噪声或低信噪比环境下，模型有较好的学习和区分性能力，同时对训练的语料库进行了不同信道，不同信噪比值的几种噪声（babble noise,whitenoise,musicnoise,carnoise，背景噪声等等）进行混噪，模拟真实复杂的场景，提高模型的鲁棒性。以音素状态区分性学习目标，利用深度可分离卷积层模块从融合的基于Mel滤波器组的Fbank频域特征和短时能量、短时过零率、基频周期、短时幅度谱的峰度、短时幅度谱的偏度的时域特征提取更深层次的抽象特征表示，进而采用多层的带洞卷积wavnet网络结构(提高感受野)从抽象特征中学习多种语音和非语音模式，在帧层次上实现对语音和非语音概率区分度，进而通过平滑算法、置信度打分和语音起点、尾点的判决策略实现差异化复杂环境下的端点检测方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。