CN108847218B

CN108847218B - 一种自适应门限整定语音端点检测方法，设备及可读存储介质

Info

Publication number: CN108847218B
Application number: CN201810680909.4A
Authority: CN
Inventors: 王晓宇
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2020-07-21
Anticipated expiration: 2038-06-27
Also published as: CN108847218A

Abstract

本发明提供一种自适应门限整定语音端点检测方法，设备及可读存储介质，设置待检测的语音帧长为N,k为帧数，共有L帧数据，获取L帧的短时参数，获取第k帧的短时能量为amp，短时过零率为zcr；搜索参考噪音；获取初始参考门限；检测语音段起点x1和语音段终点x2；再次噪音提取，并获取短时门限X⁽ⁱ⁺¹⁾；把第i+1次与第i次提取的门限值进行比较，判断其是否相等，通过语音搜索，不断的比较前后两帧语音的参数关系，合理地取得有效的参考语音帧，而不是单纯的提取待检测语音段的前几帧。为了得到更为精准的检测效果，本发明采取了门限不断自调整、循环检测的方式，直至算法最终收敛。

Description

一种自适应门限整定语音端点检测方法，设备及可读存储介质

技术领域

本发明涉及语音检测领域，尤其涉及一种自适应门限整定语音端点检测方法，设备及可读存储介质。

背景技术

端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号,并确定语音信号的开始及结束。通过端点检测，一方面，能有效的除去一些冗余的噪声信号，这样为特征提取与模式匹配节省了大量的时间，大大的提高了系统运行的效率。另一方面，端点检测提升了特征参数所反映说话人个性信息所占的比重，即提升了特征参数的可靠性。可见，端点检测是语音识别系统中至关重要的一步,其算法的优劣在某种程度上也直接决定了整个语音识别系统的成败。

到目前为止，端点检测的研究经历了几十年，产生了很多方法，这些方法大致可以分为两大类：基于参数的方法和基于模型的方法。(1)基于参数门限的方法，这类算法的基本思想是寻找出能表征语音和噪音差异的特征参数来进行语音和噪音的时段区分。常用的参数有：短时能量、短时过零率、线性预测系数、频带方差、信息熵等。(2)基于模型的方法，此类方法的基本思想是对噪音与语音分别进行建模来区分语音时段和非语言时段，如：基于HMM的端点检测、基于神经网络的端点检测等。基于短时能量和短时过零率的端点检测是最为经典的一种基于参数的检测算法，该算法使用简单，参数提取方便，在高信噪比的情况下能够比较准确的区分出语音和噪声。基于MEL倒谱特征(MFCC)的端点检测，倒谱参数在噪声环境下更能够区分语音段和噪音段，因此具有更好的检测效果，但是引入MFCC参数增加了算法的复杂度。一种基于谱熵和谱能量的端点检测，引入了熵的概念，利用语音与噪声的熵差异来区分噪音与语音。但是以上方法都面临着同一个问题，相关参数门限设定的问题。传统的方法便是取待测语音帧的前几帧来设定参考门限，或是根据以往的经验取一个经验值。

发明内容

为了克服上述现有技术中的不足，本发明提供一种自适应门限整定语音端点检测方法，方法包括：

步骤1：设置待检测的语音帧长为N,k为帧数，共有L帧数据，获取L帧的短时参数，获取第k帧的短时能量为amp，短时过零率为zcr；

步骤2：搜索参考噪音；

步骤3：获取初始参考门限；

步骤4：检测语音段起点x1和语音段终点x2；

步骤5：再次噪音提取，并获取短时门限X⁽ⁱ⁺¹⁾；

步骤6：把第i+1次与第i次提取的门限值进行比较，判断其是否相等。

优选地，步骤6之后还包括：

若X⁽ⁱ⁺¹⁾＝X⁽ⁱ⁾，则算法收敛，输出检测结果。

优选地，步骤6之后还包括：

若X⁽ⁱ⁺¹⁾≠X⁽ⁱ⁾，则i＝i+1，转至步骤4，基于双门限端点检测，得到起点x1与终点x2；

再次噪音提取，并获取短时门限X⁽ⁱ⁺¹⁾；

把第i+1次与第i次提取的门限值进行比较，判断其是否相等；

若X⁽ⁱ⁺¹⁾＝X⁽ⁱ⁾，则算法收敛，输出检测结果；

若X⁽ⁱ⁺¹⁾≠X⁽ⁱ⁾，则i＝i+1，转至步骤4，直至X⁽ⁱ⁺¹⁾＝X⁽ⁱ⁾，则算法收敛，输出检测结果。

优选地，步骤6之后还包括：

若X⁽ⁱ⁺¹⁾≠X⁽ⁱ⁾，如转至步骤4已达到预设次数时，输出检测结果。

优选地，步骤2还包括：

从语音的终点为开始，与其相邻帧作比较：记其前向搜索的帧数为m，终止帧为M；

从语音的起点为开始，与其相邻帧作比较：记其后向搜索的帧数为n，终止帧为N；

若：Z(m+1)/Z(m)>100,则停止搜索，M＝m；否则：m＝m+1，转至步骤3；

若：Z(n-1)/Z(n)>100,则停止搜索，N＝n；否则：n＝n+1，转至步骤3。

优选地，步骤3还包括：

设检测到的前后段的背景噪声短时能量的均值为amp_zy⁽ⁱ⁾，

短时平均过零率为zcr_zy⁽ⁱ⁾，

其中，M表示前向扫描的噪音帧数，N表示后向扫描的噪音帧数，i表示噪声提取的次数，若i＝0，则表示开始初次噪音提取。用式amp_zy⁽ⁱ⁾和zcr_zy⁽ⁱ⁾计算初始参考门限。

优选地，步骤4还包括：

根据待检测语音的清音和浊音的边界以及清音和无声的边界，获取语音音波曲线；

预设语音的短时能量设定第一语音能量值门限阈值M₁；

根据第一语音能量值门限阈值M₁与语音音波曲线之间的两个交点，将所述两个交点确定为语音段的初始起始点和初始结束点；

预设语音的短时能量设定第二语音能量值门限阈值M₂，第一语音能量值门限阈值M₁大于第二语音能量值门限阈值M₂；

分别从初始起始点和初始结束点分别向两边搜索，获取语音音波曲线与第二语音能量值门限阈值M₂之间的两个交点，将所述两个交点确定为语音段起点x1和语音段终点x2。

一种实现自适应门限整定语音端点检测方法的设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现自适应门限整定语音端点检测方法的步骤。

一种实现自适应门限整定语音端点检测方法的计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现自适应门限整定语音端点检测方法的步骤。

从以上技术方案可以看出，本发明具有以下优点：

本发明通过语音搜索，不断的比较前后两帧语音的参数关系，合理地取得有效的参考语音帧，而不是单纯的提取待检测语音段的前几帧。为了得到更为精准的检测效果，本发明采取了门限不断自调整、循环检测的方式，直至算法最终收敛。此外，由于新算法是通过降低门限值来提高检测精度的，易受到突发性的尖峰噪声干扰，在检测的过程中，也做了尖峰噪声脉冲检测，进一步提高了检测精度。

附图说明

为了更清楚地说明本发明的技术方案，下面将对描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为自适应门限整定语音端点检测方法流程图；

图2为检测语音段起点x1和语音段终点x2示意图。

具体实施方式

本发明提供一种自适应门限整定语音端点检测方法，如图1和图2所示，方法包括：

S1：设置待检测的语音帧长为N,k为帧数，共有L帧数据，获取L帧的短时参数，获取第k帧的短时能量为amp，短时过零率为zcr；

S2：搜索参考噪音；

S3：获取初始参考门限；

S4：检测语音段起点x1和语音段终点x2；

S5：再次噪音提取，并获取短时门限X⁽ⁱ⁺¹⁾；

S6：把第i+1次与第i次提取的门限值进行比较，判断其是否相等。

本发明中，步骤6之后还包括：

若X⁽ⁱ⁺¹⁾＝X⁽ⁱ⁾，则算法收敛，输出检测结果。

本发明中，步骤6之后还包括：

再次噪音提取，并获取短时门限X⁽ⁱ⁺¹⁾；

把第i+1次与第i次提取的门限值进行比较，判断其是否相等；

若X⁽ⁱ⁺¹⁾＝X⁽ⁱ⁾，则算法收敛，输出检测结果；

本发明中，步骤6之后还包括：

本发明中，步骤2还包括：

本发明中，步骤3还包括：

短时平均过零率为zcr_zy⁽ⁱ⁾，

本发明中，步骤4还包括：

根据待检测语音的清音和浊音的边界以及清音和无声的边界，获取语音音波曲线101；

预设语音的短时能量设定第一语音能量值门限阈值M₁；

根据第一语音能量值门限阈值M₁与语音音波曲线101之间的两个交点，将所述两个交点确定为语音段的初始起始点和初始结束点；

分别从初始起始点和初始结束点分别向两边搜索，获取语音音波曲线101与第二语音能量值门限阈值M₂之间的两个交点，将所述两个交点确定为语音段起点x1和语音段终点x2。

双门限端点检测运用短时能量进行第一级粗判决，找到清音和浊音的边界；再利用短时平均过零率进行第二级判决，找到清音和无声的边界，获取语音音波曲线101。语音信号语音段位于浊音段，因为浊音段能量较高。而噪声和静音则位于能量较低的清音段。根据这一特性，第一级为粗判过程可描述如下,如图2所示，预设语音的短时能量设定第一语音能量值门限阈值M₁；通常情况下语音短时能量都在此门限之上，根据这个阈值确定根据第一语音能量值门限阈值M₁与语音音波曲线101之间的两个交点，将所述两个交点确定为语音段的初始起始点和初始结束点；初始起始点和初始结束点之间的语音段表示语音信号。为了找到语音段的精确起点和终点，还需要对初始起始点和初始结束点之外进行检测。再预设语音的短时能量设定第二语音能量值门限阈值M₂，第一语音能量值门限阈值M₁大于第二语音能量值门限阈值M₂，分别从初始起始点和初始结束点分别向两边搜索，获取语音音波曲线与第二语音能量值门限阈值M₂之间的两个交点，将所述两个交点确定为语音段起点x1和语音段终点x2。语音段起点x1和语音段终点x2之间的语音段就是根据短时能量所判定的语音段。

本发明还提供一种实现自适应门限整定语音端点检测方法的设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序以实现自适应门限整定语音端点检测方法的步骤。

本发明还提供一种实现自适应门限整定语音端点检测方法的计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现自适应门限整定语音端点检测方法的步骤。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种自适应门限整定语音端点检测方法，其特征在于，方法包括：

步骤2：搜索参考噪音；

步骤3：获取初始参考门限；

步骤4：检测语音段起点x1和语音段终点x2；

步骤5：再次噪音提取，并获取短时门限X⁽ⁱ⁺¹⁾；

2.根据权利要求1所述的自适应门限整定语音端点检测方法，其特征在于，方法包括：

步骤6之后还包括：

若X⁽ⁱ⁺¹⁾＝X⁽ⁱ⁾，则算法收敛，输出检测结果。

3.根据权利要求1所述的自适应门限整定语音端点检测方法，其特征在于，方法包括：

步骤6之后还包括：

再次噪音提取，并获取短时门限X⁽ⁱ⁺¹⁾；

把第i+1次与第i次提取的门限值进行比较，判断其是否相等；

若X⁽ⁱ⁺¹⁾＝X⁽ⁱ⁾，则算法收敛，输出检测结果；

4.根据权利要求3所述的自适应门限整定语音端点检测方法，其特征在于，方法包括：

步骤6之后还包括：

5.根据权利要求1所述的自适应门限整定语音端点检测方法，其特征在于，方法包括：

步骤2还包括：

6.根据权利要求1所述的自适应门限整定语音端点检测方法，其特征在于，方法包括：

步骤3还包括：

短时平均过零率为zcr_zy⁽ⁱ⁾，

其中，M表示前向扫描的噪音帧数，N表示后向扫描的噪音帧数，i表示噪声提取的次数，若i＝0，则表示开始初次噪音提取；用式amp_zy⁽ⁱ⁾和zcr_zy⁽ⁱ⁾计算初始参考门限。

7.根据权利要求1所述的自适应门限整定语音端点检测方法，其特征在于，方法包括：

步骤4还包括：

预设语音的短时能量设定第一语音能量值门限阈值M₁；

8.一种实现自适应门限整定语音端点检测方法的设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至7任意一项所述的自适应门限整定语音端点检测方法的步骤。

9.一种实现自适应门限整定语音端点检测方法的计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1至7任意一项所述的自适应门限整定语音端点检测方法的步骤。