CN104103280B

CN104103280B - 基于动态时间归整算法的离线语音端点检测的方法和装置

Info

Publication number: CN104103280B
Application number: CN201410337409.2A
Authority: CN
Inventors: 冯宇红
Original assignee: Wuxi Zhonggan Microelectronics Co Ltd
Current assignee: Wuxi Zhonggan Microelectronics Co Ltd
Priority date: 2014-07-15
Filing date: 2014-07-15
Publication date: 2017-06-06
Anticipated expiration: 2034-07-15
Also published as: CN104103280A

Abstract

本发明公开了一种基于动态时间归整算法的离线语音端点检测的方法和装置，包括：提取语音数据的特征参数和语音能量值，并获取具有最大的语音能量值的语音数据帧；依次选择参考模板，根据所选参考模板的长度和语音数据帧，确定语音数据中孤立词语音的搜索范围及搜索窗长度的范围，进而对每个搜索起点按照多个搜索窗长度分别进行搜索，从而获取多个相应的测试模板；利用DTW算法，计算每一测试模板与所选参考模板的匹配距离得分；识别其中匹配距离得分最小的测试模板的搜索窗的起点和终点为孤立词语音端点。

Description

基于动态时间归整算法的离线语音端点检测的方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于动态时间归整算法的离线语音端点检测的方法和装置。

背景技术

随着语音识别技术的不断发展,特定人孤立词语音识别技术已经基本成熟，并逐渐开始应用于社会众多领域。例如，在蓝牙芯片中使用特定人孤立词语音识别，可以方便用户通过语音对终端设备进行相应操作，为用户带来极大方便。

在语音识别应用系统的实际环境中，输入信号包括用户说话的语音信号和背景的噪音信号等等，在输入信号中将用户说话的语音信号抽出的过程成为端点检测(VoiceActivity Detector,VAD)。端点检测在语音识别应用系统中具有重要的作用。好的端点检测算法能够提供好的系统鲁棒性，无论用户在何种环境下使用，系统的语音识别率都能维持在同一水平上几乎保持不变。

目前，孤立词语音识别通常采用实时端点检测算法。采用实时语音端点检测，可以在用户讲话完毕之后马上进行识别，感觉不到延迟。但该方法对噪声比较敏感，当外界环境存在非平稳噪声，例如人声、音乐声等干扰较强的噪声时，对孤立词端点检测算法影响很大，错误判定孤立词起点和终点概率很高。因此采用实时端点检测算法很难在这种情况下准确检测到孤立词的语音端点。

发明内容

有鉴于此，本发明实施例提供了一种基于动态时间归整算法的离线语音端点检测的方法和装置，能够准确有效的检测孤立词的语音端点。

第一方面，本发明实施例提供了一种基于动态时间归整算法的离线语音端点检测的方法，包括：

获取多帧连续的语音数据；

提取每帧语音数据的特征参数和语音能量值；

获取所述多帧的语音数据中具有最大的语音能量值的语音数据帧；

依次从提供的参考模板库中选择一个参考模板直到所述参考模板库中的所有参考模板都被选择过；其中，所述参考模板是对参考语音经过训练而形成的有关所述参考语音的一组参考特征矢量序列；

根据具有最大的语音能量值的语音数据帧、以及当前选择的参考模板的长度确定在所述多帧的语音数据中的搜索范围及搜索窗长度的范围，在确定的搜索范围内按照第一搜索步长逐步改变搜索起点，在每个搜索起点按照第二搜索步长逐步改变搜索窗长度，根据搜索起点和搜索窗长度的每个组合获取一个测试模板，利用动态时间归整算法计算每个测试模板与所述当前选择的参考模板的匹配距离得分，记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得分；

从记录的与各个选择的参考模板的匹配距离得分最小的测试模板中选择匹配距离得分最小的测试模板，将所述选择的测试模板的搜索窗的起点和终点作为孤立词语音的端点。

可选的，在获取所述多帧的语音数据中具有最大的语音能量值的语音数据帧之后，所述方法还包括：

判断所述最大的语音能量值是否低于第一门限值；

如果是，则直接结束此次离线语音端点检测；

如果否，则继续进行所述离线语音端点检测。

可选的，在利用动态时间归整算法计算每个测试模板与所述当前选择的参考模板的匹配距离得分之后，所述方法还包括：

判断与当前选择的参考模板的匹配距离得分最小的测试模板的语音能量平均值是否低于第二门限值；

如果是，则跳过后续的记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得分，并选择下一参考模板以确定新的测试模板；

如果否，则进行后续的记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得分。

可选的，所述特征参数包括参考特征矢量，所述参考特征矢量具体包括：梅尔频率倒谱系数MFCC或线性预测系数LPC；所述利用动态时间归整算法计算每个测试模板与所述选择的参考模板的匹配距离得分具体为：

利用动态时间归整算法，对每个所述测试模板中每一帧对应的参考特征矢量，与所述选择的参考模板中相应帧对应的参考特征矢量进行特征匹配，计算得到所述匹配距离得分。

可选的，所述第一搜索步长为n帧,第二搜索步长为m帧，所述n、m分别为大于1的整数；

记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得分之前，所述方法还包括：

确定与当前选择的参考模板的匹配距离得分最小的测试模板；

基于确定的测试模板的搜索窗的起点和终点、第一搜索步长确定精细搜索范围，基于确定的测试模板的搜索窗的起点和终点、第二搜索步长确定精细搜索窗长度的范围；

在确定的精细搜索范围内按照第三搜索步长逐步改变搜索起点，在每个搜索起点按照第四搜索步长逐步改变搜索窗长度，根据搜索起点和搜索窗长度的每个组合获取一个测试模板，利用动态时间归整算法计算每个测试模板与所述当前选择的参考模板的匹配距离得分；其中所述第三搜索步长小于第一搜索步长，所述第四搜索步长小于第二搜索步长。

第二方面，本发明实施例提供了一种基于动态时间归整算法的离线语音端点检测的装置，其特征在于，所述装置包括：

采集单元,用于获取多帧连续的语音数据；

数字化处理单元,用于提取每帧语音数据的特征参数和语音能量值；

第一获取单元,用于获取所述多帧的语音数据中具有最大的语音能量值的语音数据帧；

第二获取单元，用于依次从提供的参考模板库中选择一个参考模板直到所述参考模板库中的所有参考模板都被选择过；其中，所述参考模板是对参考语音经过训练而形成的有关所述参考语音的一组参考特征矢量序列；

处理单元,用于根据具有最大的语音能量值的语音数据帧、以及当前选择的参考模板的长度确定在所述多帧的语音数据中的搜索范围及搜索窗长度的范围，在确定的搜索范围内按照第一搜索步长逐步改变搜索起点，在每个搜索起点按照第二搜索步长逐步改变搜索窗长度，根据搜索起点和搜索窗长度的每个组合获取一个测试模板，利用动态时间归整算法计算每个测试模板与所述当前选择的参考模板的匹配距离得分，记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得分；

端点识别单元,用于从记录的与各个选择的参考模板的匹配距离得分最小的测试模板中选择匹配距离得分最小的测试模板，将所述选择的测试模板的搜索窗的起点和终点作为孤立词语音的端点。

可选的，所述装置还包括：

第一判断单元，用于判断所述最大的语音能量值是否低于第一门限值；

如果是，则直接结束此次离线语音端点检测；

如果否，则继续进行所述离线语音端点检测。

可选的，所述装置还包括：

第二判断单元，用于判断与当前选择的参考模板的匹配距离得分最小的测试模板的语音能量平均值是否低于第二门限值；

如果是，则不跳过后续的记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得分，并选择下一参考模板以确定新的测试模板；

可选的，所述特征参数包括参考特征矢量，所述参考特征矢量具体包括：梅尔频率倒谱系数MFCC或线性预测系数LPC；

所述处理单元具体用于，利用动态时间归整算法，对每个所述测试模板中每一帧对应的参考特征矢量，与所述选择的参考模板中相应帧对应的参考特征矢量进行特征匹配，计算得到所述匹配距离得分。

可选的，所述第一搜索步长为n帧，第二搜索步长为m帧，所述n、m为分别为大于1的整数；

所述处理单元还用于，确定与当前选择的参考模板的匹配距离得分最小的测试模板；

本发明实施例的基于动态时间归整算法的离线语音端点检测的方法，通过提取语音数据的特征参数和语音能量值，并获取具有最大的语音能量值的语音数据帧；依次选择参考模板，根据所选参考模板的长度和语音数据帧，确定语音数据中孤立词语音的搜索范围及搜索窗长度的范围，进而对每个搜索起点按照多个搜索窗长度分别进行搜索，从而获取多个相应的测试模板；利用DTW算法，计算每一测试模板与所选参考模板的匹配距离得分；识别其中匹配距离得分最小的测试模板的搜索窗的起点和终点为孤立词语音端点。通过本发明实施例提供的方法，能够准确有效的对孤立词的语音端点进行检测。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种基于动态时间归整算法的离线语音端点检测的方法流程图；

图2为本发明实施例一提供的一种DTW算法的原理示意图；

图3为本发明实施例一提供的一种帧匹配距离矩阵中最佳路径搜索的示意图；

图4为本发明实施例二提供的一种基于动态时间归整算法的离线语音端点检测的方法流程图；

图5为本发明实施例三提供的一种基于动态时间归整算法的离线语音端点检测的装置示意图。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

具体实施方式

下面结合附图对本发明实施例进行详细描述。应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例一提供了一种基于动态时间归整算法的离线语音端点检测的方法，如图1所示，所述方法包括如下步骤：

步骤101，获取多帧连续的语音数据；

具体的，离线语音端点检测装置的硬件实体可以包括一个拾音器，通过拾音器获取向离线语音端点检测装置输入的多帧连续的语音信号，将输入的语音信号通过A/D转换后，转换为脉冲编码调制(Pulse Code Modulation,PCM)数据。

步骤102，提取每帧语音数据的特征参数和语音能量值；

具体的，对PCM数据以帧为单位计算每帧的语音能量值，计算如式1所示

(式1)

其中，x(n)为语音信号PCM样本值，N为语音信号帧长，语音信号帧长一般选择10～20ms。

所述特征参数包括参考特征矢量，所述参考特征矢量可以包括但不限于：梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)或线性预测系数(LinearPrediction Coefficient，LPC)。

步骤103，获取所述多帧的语音数据中具有最大的语音能量值的语音数据帧；

具体的，根据上一步骤中各帧语音能量值的计算结果，可以得到全部帧中最大的语音能量值，并同时获取该帧在全部语音数据帧中所处位置。

步骤104，依次从提供的参考模板库中选择一个参考模板直到所述参考模板库中的所有参考模板都被选择过；

具体的，参考模板库中包括的参考模板是对参考语音经过训练而形成的有关所述参考语音的一组参考特征矢量序列，参考模板数量可以是一个，也可以是多个。

步骤105，根据具有最大的语音能量值的语音数据帧、以及当前选择的参考模板的长度确定在所述多帧的语音数据中的搜索范围及搜索窗长度的范围，在确定的搜索范围内按照第一搜索步长逐步改变搜索起点，在每个搜索起点按照第二搜索步长逐步改变搜索窗长度，根据搜索起点和搜索窗长度的每个组合获取一个测试模板，利用动态时间归整算法计算每个测试模板与所述当前选择的参考模板的匹配距离得分，记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得分；

具体的，以具有最大的语音能量值的语音数据帧为中心，向语音数据的起始方向和终止方向进行扩展，确定搜索范围。将获取的一个参考模板的长度用L来表示，在一个具体的例子中，搜索范围可以是以具有最大的语音能量值的语音数据帧为中心向两个方向各扩展一个L。在另一个例子中，可以向两个方向各扩展2L。搜索范围的大小与L的关系可以根据需要设定。

此外，根据所述参考模板的长度L确定搜素窗长度。在一个优选的例子中，搜索窗的长度的范围为[1/2L,2L]。

依次在每一个搜索范围内，由该搜索范围的一侧端点开始，每步进一个第一步长S1，都是一个新的搜索起点i。由此确定该搜索范围内全部的搜索起点i。

然后对于每一个搜索起点，再根据搜索窗长度j的范围[1/2L,2L]，和在这个范围中步进的第二步长S2，确定的搜索窗长度j。即搜索窗长度j为：1/2L，1/2L+S2，1/2L+2S2，1/2L+3S2，……，2L。

上述第一步长S1和第二步长S2分别可以根据需要进行设定，可以相同或者不同。它们分别以帧为单位，例如可以设定为1帧、2帧、5帧等等。

对对每一个搜索起点，都逐步改变搜索窗长度j，按照j＝1/2L，1/2L+S2，1/2L+2S2，1/2L+3S2，……，2L依次进行搜索。从而对于每一个确定的(i,j),都能获得一个对应的测试模板。

其中，当第一步长S1和第二步长S2都为1帧的时候，该搜索为逐点移动搜索。

当搜素不是逐点搜索的时候，为了提高搜索的精度，可以先进行一次粗搜，再进行精细搜索。

比如基于确定的测试模板的搜索窗的起点和终点、第一搜索步长确定精细搜索范围，基于确定的测试模板的搜索窗的起点和终点、第二搜索步长确定精细搜索窗长度的范围；然后在确定的精细搜索范围内按照第三搜索步长逐步改变搜索起点，在每个搜索起点按照第四搜索步长逐步改变搜索窗长度，根据搜索起点和搜索窗长度的每个组合获取一个测试模板，利用动态时间归整算法计算每个测试模板与所述当前选择的参考模板的匹配距离得分；其中所述第三搜索步长小于第一搜索步长，所述第四搜索步长小于第二搜索步长。

在一个具体的例子中，通过粗搜得到一个大概位置(i₀,j₀)，再在设置搜索起点i在[i₀-S1,i₀+S1]范围内按照逐帧移动得到的搜索起点，由在[j₀-S2,j₀+S2]范围内逐帧改变的搜索窗长度进行搜索。

在利用动态时间归整(Dynamic Time Warping，DTW)算法进行每个测试模板与当前选择的参考模板的匹配距离得分计算时，将一个参考模板表示为R＝{R(1)，R(2)，……，R(m)，……，R(M)}，m为训练语音帧的时序标号(也称帧号)，m＝1为起点语音帧，m＝M为终点语音帧，因此M为该模板所包含的语音帧总数，R(m)为第m帧的语音特征矢量。将测试模板表示为T＝{T(1)，T(2)，……，T(n)，……，T(N)}，n为测试语音帧的时序标号(也称帧号)，n＝1为起点语音帧，n＝N为终点语音帧，因此N为该模板所包含的语音帧总数，T(n)为第n帧的语音特征矢量。参考模板与测试模板一般采用相同类型的特征参数矢量。

DTW算法的原理图可以如图2所述，把测试模板的各个帧号n＝1～N在一个二维直角坐标系中的横轴上标出，把参考模板的各帧号m＝1～M在纵轴上标出，其中M、N为正整数。通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网格，网格中的每一个交叉点表示测试模式(测试模板)中某一帧与训练模式(参考模板)中某一帧的交汇。DTW算法分两步进行，一是计算两个模式各帧之间的距离，即求出帧匹配距离矩阵，二是在帧匹配距离矩阵中找出一条最佳路径。结合图3所示，搜索这条路径的过程可以描述如下：搜索从(1,1)点出发，对于局部路径约束，可达到点(n,m)的前一个格点只可能是(n-1,m)、(n-1,m-l)和(n-1,m-2)。那么(n,m)一定选择这三个距离中的最小者所对应的点作为其前续格点，这时此路径的累积距离为：

D(n,m)＝d(T(n),R(m))+min{D(n-1,m),D(n-1,m-1),D(n-1,m-2)} (式3)

这样从(l,1)点出发(令D(1,1)＝0)搜索，反复递推，直到到达(N,M)就可以得到最优路径，而且D(N,M)就是最佳匹配路径所对应的匹配距离。

根据DTW算法，将全部测试模板逐一与当前选择的参考模板进行匹配，以量化数据表示为匹配距离得分，其中匹配距离得分越小，表明的匹配程度越高。并且，记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得分。

进一步具体的，匹配是指对每一测试模板中每一帧对应的特征参数矢量，与当前选择的参考模板中相应帧对应的特征参数矢量进行的特征匹配。

步骤106，从记录的与各个选择的参考模板的匹配距离得分最小的测试模板中选择匹配距离得分最小的测试模板，将所述选择的测试模板的搜索窗的起点和终点作为孤立词语音的端点。

具体的，根据选择出的匹配距离得分最小的测试模板的搜索窗的起始位置的帧号和终止位置的帧号分别为语音端点检测得到的孤立词语音端点。

本发明实施例的基于动态时间归整算法的离线语音端点检测的方法，通过对语音数据进行采集，根据具有最大的语音能量值的语音数据帧以及所选择的参考模板长度确定孤立词语音的搜索范围和搜索窗长度的范围，在所述搜索范围中步进式改变搜索起点和搜索窗长度，从而获得多个测试模板，并通过DTW算法得到全部测试模板中与参考模板匹配距离得分最小的测试模板，继而从各个选择的参考模板的匹配距离得分最小的测试模板中选择匹配距离得分最小的测试模板，将所选择的测试模板的搜索窗的起点和终点作为孤立词语音的端点。通过本发明实施例提供的方法，能够准确有效的对孤立词的语音端点进行检测。

下面在实施例二中，对本发明的离线语音端点检测的方法进行进一步的详细说明。本发明实施例二提供的基于动态时间归整算法的离线语音端点检测的方法，如图4所示，其步骤包括：

步骤401，采集语音信号；

具体的，离线语音端点检测装置的硬件实体可以包括一个拾音器，通过拾音器获取向离线语音端点检测装置输入的语音信号。该语音信号是模拟信号。

步骤402，将所述语音信号转换为语音数据，并将所述语音数据以帧为单位进行处理，提取每一帧的特征参数和语音能量值；

具体的，将输入的语音信号通过A/D转换后，转换为脉冲编码调制(Pulse CodeModulation,PCM)数据。对PCM数据以帧为单位计算每帧语音能量，计算如式1所示，此处不再赘述。

步骤403，获取全部语音数据帧中具有最大的语音能量值的语音数据帧；

步骤404，判断所述最大的语音能量值是否低于第一门限值；

当最大的语音能量值不低于语音能量的第一门限值时，执行步骤405，否则直接结束此次离线语音端点检测。

步骤405，从参考模板库中选择一个未经选择过的参考模板；

如果参考模板库中没有参考模板，则直接退出离线语音端点检测。

步骤406，根据当前选择的参考模板的长度和具有最大的语音能量值的语音数据帧，确定语音数据中孤立词语音的搜索范围和搜索窗长度的范围；

具体的，以具有最大的语音能量值的语音数据帧为中心，向语音数据的起始方向和终止方向进行扩展，确定搜索范围。将获取的当前选择的参考模板的长度用L来表示，在一个具体的例子中，搜索范围可以是以具有最大的语音能量值的语音数据帧为中心向两个方向各扩展一个L。在另一个例子中，可以向两个方向各扩展2L。搜索范围的大小与L的关系可以根据需要设定。

此外，根据当前选择的参考模板的长度L确定搜素窗长度。在一个优选的例子中，搜索窗的长度的范围为[1/2L,2L]。

步骤407，根据预设的第一步长确定所述搜索范围内的多个搜索起点i；

具体的，在所述搜索范围内，由所述搜索范围的一侧端点开始，每步进一个第一步长S1，都是一个新的搜索起点i。由此确定所述搜索范围内全部的搜索起点i。

步骤408，根据预设的第二步长和所述搜索窗长度的范围确定多个搜索窗长度j；

具体的，如前述步骤106所述，搜索窗长度j的范围为[1/2L,2L]，则在这个范围中每步进一个第二步长S2，都是一个确定的搜索窗长度j。即搜索窗长度j为：1/2L，1/2L+S2，1/2L+2S2，1/2L+3S2，……，2L。

步骤409，对所述搜索范围内的每个搜索起点i按照所述多个搜索窗长度j分别进行搜索，从而根据一个搜索起点和一个搜索窗长度的组合(i，j)，获取一个相应的测试模板；

具体的，对确定的每一个搜索起点，都逐步改变搜索窗长度j，按照j＝1/2L，1/2L+S2，1/2L+2S2，1/2L+3S2，……，2L依次进行搜索。从而对于每一个确定的(i,j),都能获得一个对应的测试模板。

当第一步长S1和第二步长S2都为1帧的时候，该搜索为逐点移动搜索。

当搜素不是逐点搜索的时候，为了提高搜索的精度，可以先进行一次粗搜，得到一个大概位置(i₀,j₀)，再在设置搜索起点i在[i₀-S1,i₀+S1]范围内按照逐点移动得到的搜索起点，由在[j₀-S2,j₀+S2]范围内逐点改变的搜索窗长度进行搜索。

步骤410，利用DTW算法，计算每一所述测试模板与当前选择的参考模板的匹配距离得分；

其具体过程在上述实施例中已经进行了描述，此处不再赘述。

步骤411，识别与当前选择的参考模板匹配距离得分最小的测试模板，检测该测试模板的语音能量平均值；

具体的，在每一测试模板与当前选择的参考模板匹配得到的匹配距离得分中，识别出匹配距离得分最小的测试模板；

对该测试模板的语音能量平均值进行检测，用以避免测试模板的误识别。

步骤412，判断与当前选择的参考模板的匹配距离得分最小的测试模板的语音能量平均值是否低于第二门限值；

具体的，当该测试模板的语音能量平均值低于第二门限值时，执行步骤414；否则，执行步骤413。

步骤413，记录所述与当前选择的参考模板的匹配距离得分最小的测试模板的搜索窗的起点和终点，并记录该测试模板与当前选择的参考模板的最小的匹配距离得分；

具体的，对与当前选择的参考模板的匹配距离得分最小的测试模板的搜索窗的起始位置的帧号和终止位置的帧号分别进行记录，并且，将基于当前选择的参考模板的最小的匹配距离得分也进行记录。

步骤414，检测参考模板库，识别所述参考模板库中是否还有其它未经选择的参考模板；

当所述参考模板库中还包括其他未经选择的参考模板时，执行步骤415，当所述参考模板库中没有其他未经选择的参考模板时，执行步骤416。

步骤415，从参考模板库中未经选择的参考模板中选择下一个参考模板；

随后，返回继续执行上述步骤406。

步骤416，从记录的与各个选择的参考模板的匹配距离得分最小的测试模板中选择匹配距离得分最小的测试模板，将所述选择的测试模板的搜索窗的起点和终点作为孤立词语音的端点。

需要说明的是，如果所述参考模板库中只包括一个参考模板，并且与该参考模板的匹配距离得分最小的测试模板的语音能量平均值不低于第二门限值，则将与这一个参考模板的匹配距离得分最小的测试模板的搜索窗的起点和终点作为孤立语音词的端点。

但如果与该参考模板的匹配距离得分最小的测试模板的语音能量平均值低于第二门限值时，则认为没有识别到有效语音数据，退出离线语音端点检测。

相应的，本发明实施例还提供了一种基于动态时间归整算法的离线语音端点检测的装置，用以实现上述实施例一提供的方法。

图5为本发明实施例提供的基于动态时间归整算法的离线语音端点检测的装置，包括：

采集单元501,用于获取多帧连续的语音数据；

数字化处理单元502,用于提取每帧语音数据的特征参数和语音能量值；

第一获取单元503,用于获取所述多帧的语音数据中具有最大的语音能量值的语音数据帧；

第二获取单元504，用于依次从提供的参考模板库中选择一个参考模板直到所述参考模板库中的所有参考模板都被选择过；其中，所述参考模板是对参考语音经过训练而形成的有关所述参考语音的一组参考特征矢量序列；

处理单元505,用于根据具有最大的语音能量值的语音数据帧、以及当前选择的参考模板的长度确定在所述多帧的语音数据中的搜索范围及搜索窗长度的范围，在确定的搜索范围内按照第一搜索步长逐步改变搜索起点，在每个搜索起点按照第二搜索步长逐步改变搜索窗长度，根据搜索起点和搜索窗长度的每个组合获取一个测试模板，利用动态时间归整算法计算每个测试模板与所述当前选择的参考模板的匹配距离得分，记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得分；

其中，所述特征参数包括参考特征矢量，所述参考特征矢量具体包括：梅尔频率倒谱系数MFCC或线性预测系数LPC；利用动态时间归整算法计算每个测试模板与所述当前选择的参考模板的匹配距离得分可以具体为：利用动态时间归整算法，对每个所述测试模板中每一帧对应的参考特征矢量，与所述选择的参考模板中相应帧对应的参考特征矢量进行特征匹配，计算得到所述匹配距离得分。

端点识别单元506,用于从记录的与各个选择的参考模板的匹配距离得分最小的测试模板中选择匹配距离得分最小的测试模板，将所述选择的测试模板的搜索窗的起点和终点作为孤立词语音的端点。

可选的，所述装置还包括：

第一判断单元507，用于判断所述最大的语音能量值是否低于第一门限值；

如果是，则直接结束此次离线语音端点检测；

如果否，则继续进行所述离线语音端点检测。

可选的，所述装置还包括：

第二判断单元508，用于判断与当前选择的参考模板的匹配距离得分最小的测试模板的语音能量平均值是否低于第二门限值；

进一步的，所述第一搜索步长为n帧，第二搜索步长为m帧，所述n、m为分别为大于1的整数，处理单元505所执行的根据搜索起点和搜索窗长度的每个组合获取一个测试模板的过程可以具体为：

本发明实施例提供的基于动态时间归整算法的离线语音端点检测的装置，通过提取语音数据的特征参数和语音能量值，并获取具有最大的语音能量值的语音数据帧；依次选择参考模板，根据所选参考模板的长度和语音数据帧，确定语音数据中孤立词语音的搜索范围及搜索窗长度的范围，进而对每个搜索起点按照多个搜索窗长度分别进行搜索，从而获取多个相应的测试模板；利用DTW算法，计算每一测试模板与所选参考模板的匹配距离得分；识别其中匹配距离得分最小的测试模板的搜索窗的起点和终点为孤立词语音端点。通过本发明实施例提供的方法，能够准确有效的对孤立词的语音端点进行检测。

本发明上述各实施例提供的基于动态时间归整算法的离线语音端点检测的方法和装置，可以应用于蓝牙耳机、智能移动终端、平板电脑等设备中。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件来实现，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。具体地，所述运算和控制部分都可以通过逻辑硬件实现，其可以是使用集成电路工艺制造出来的逻辑集成电路，本实施例对此不作限定。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于动态时间归整算法的离线语音端点检测的方法，其特征在于，所述方法包括：

获取多帧连续的语音数据；

提取每帧语音数据的特征参数和语音能量值；

从各个所述参考模板对应的匹配距离得分最小的测试模板中，选择得分最小的测试模板，将所述选择的测试模板的搜索窗的起点和终点作为孤立词语音的端点。

2.根据权利要求1所述的方法，其特征在于，在获取所述多帧的语音数据中具有最大的语音能量值的语音数据帧之后，所述方法还包括：

判断所述最大的语音能量值是否低于第一门限值；

如果是，则直接结束此次离线语音端点检测；

如果否，则继续进行所述离线语音端点检测。

3.根据权利要求1所述的方法，其特征在于，在利用动态时间归整算法计算每个测试模板与所述当前选择的参考模板的匹配距离得分之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述特征参数包括参考特征矢量，所述参考特征矢量具体包括：梅尔频率倒谱系数MFCC或线性预测系数LPC；

所述利用动态时间归整算法计算每个测试模板与所述选择的参考模板的匹配距离得分具体为：

5.根据权利要求1所述的方法，其特征在于，所述第一搜索步长为n帧,第二搜索步长为m帧，所述n、m分别为大于1的整数；

6.一种基于动态时间归整算法的离线语音端点检测的装置，其特征在于，所述装置包括：

采集单元,用于获取多帧连续的语音数据；

端点识别单元,用于从各个所述参考模板对应的匹配距离得分最小的测试模板中，选择得分最小的测试模板，将所述选择的测试模板的搜索窗的起点和终点作为孤立词语音的端点。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

如果是，则直接结束此次离线语音端点检测；

如果否，则继续进行所述离线语音端点检测。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

9.根据权利要求6所述的装置，其特征在于，所述特征参数包括参考特征矢量，所述参考特征矢量具体包括：梅尔频率倒谱系数MFCC或线性预测系数LPC；

10.根据权利要求6所述的装置，其特征在于，所述第一搜索步长为n帧，第二搜索步长为m帧，所述n、m为分别为大于1的整数；