CN102522081A

CN102522081A - 一种检测语音端点的方法及系统

Info

Publication number: CN102522081A
Application number: CN2011104511125A
Authority: CN
Inventors: 宋辉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2012-06-27
Anticipated expiration: 2031-12-29
Also published as: CN102522081B

Abstract

本发明提供了一种检测语音端点的方法及系统，涉及计算机技术领域，用以解决现有语音端点检测技术的性能较差的问题。方法包括：A1、按照第一方向顺序，搜索输入的音频段中的各帧，若当前帧的特征值大于等于当前门限值，则利用当前帧的特征值更新当前门限值；A2、若连续N帧的特征值均小于当前门限值，则判定检测到所述音频段的语音第二端点并终止第一方向搜索过程，所述N为预设帧数；A3、按照第二方向顺序，从所述语音第二端点开始搜索，利用所述连续N帧的特征值检测所述音频段的语音第一端点。系统包括：第一正向搜索与门限自适应单元、终点位置检测单元、反向搜索与起点位置检测单元。本发明适用于一切语音搜索环境。

Description

一种检测语音端点的方法及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种检测语音端点的方法及系统。

背景技术

现有的语音端点检测技术是基于一个前提，即假设语音的起始段是噪声，并利用起始噪声段训练门限值。这种假设在手机语音搜索应用上未必总是成立的，有时用户按下搜索按钮后会马上开始说话，此时，现有的端点检测技术的门限值训练将会出错，导致起点和终点的检测不准确。

基于上述假设，现有的语音端点检测方法采用的流程是假设起始段为非语音段，将语音信号分帧，逐帧提取特征值，利用所述特征值与事先设定的门限值相比，如果大于等于门限值，则判定为语音，如果小于门限值，则判定为噪声，从而得到语音的起点和终点信息。这种“顺序判断”方法最大的问题在于对预设门限值的过分依赖。一旦预设门限值计算有误差，则语音端点检测的性能会大受影响。而现有的利用噪声段计算门限的前提假设条件在语音搜索的应用中未必总能满足。

发明内容

本发明提供了一种检测语音端点的方法及系统，用以解决现有语音端点检测技术的性能较差的问题。

具体技术方案如下：

一种检测语音端点的方法，包括下列步骤：

A1、按照第一方向顺序，搜索输入的音频段中的各帧，若当前帧的特征值大于等于当前门限值，则利用当前帧的特征值更新当前门限值；

A2、若连续N帧的特征值均小于当前门限值，则判定检测到所述音频段的语音第二端点并终止第一方向搜索过程，所述N为预设帧数；

A3、按照第二方向顺序，从检测到的语音第二端点开始搜索，利用所述连续N帧的特征值检测所述音频段的语音第一端点；

当所述第一方向为正向时，所述第二方向为反向，所述第一端点为起点，所述第二端点为终点；

当所述第一方向为反向时，所述第二方向为正向，所述第一端点为终点，所述第二端点为起点。

根据本发明一优选实施例，步骤A1中所述的更新当前门限值的公式具体包括：

T₁＝αT₀+(1-α)f；

其中，T₀为当前门限值；T₁为更新后的门限值；f为当前帧的特征值；α为遗忘因子，取值范围在0至1之间。

根据本发明一优选实施例，步骤A1中从所述音频段的第一方向上的第一帧开始搜索，以及将所述音频段的第一帧的特征值作为初始门限值；或者，

如果上一音频段按照第一方向顺序未检测到语音第二端点，则利用上一音频段按照第一方向顺序搜索结束后得到的当前门限值作为所述输入的音频段在所述步骤A1的初始门限值。

根据本发明一优选实施例，步骤A3中所述的利用连续N帧的特征值检测音频段的语音第一端点，具体包括：

A311、取所述连续N帧的特征值的平均值作为第二方向搜索的初始门限值，或者，利用公式T_rev＝T_n+β(T₀-T_n)确定第二方向搜索的初始门限值，其中，T₀为当前门限值；T_n为所述连续N帧特征值的平均值；β为尺度因子，取值范围在0至1之间；T_rev为第二方向搜索的初始门限值；

A312、在第二方向搜索过程中，从所述语音第一端点开始搜索，若当前帧的特征值大于等于当前门限值，则利用当前帧的特征值更新当前门限值；

A313、若连续M帧的特征值均小于当前门限值，则判定检测到所述音频段的语音第一端点；或者，搜索至所述音频段的第一方向上的第一帧，未搜到连续M帧的特征值均小于当前门限值，则以所述音频段的第一方向上的第一帧作为语音第一端点；所述M为预设帧数。

A321、通过下述公式确定第二方向搜索的初始门限值；

T_rev＝T_n+β(T₀-T_n)；

其中，T₀为当前门限值；T_n为所述连续N帧特征值的平均值；β为尺度因子，取值范围在0至1之间；T_rev为第二方向搜索的初始门限值；

A322、若连续M帧的特征值均小于当前门限值，则判定检测到所述音频段的语音第一端点；或者，搜索至所述音频段的第一方向上的第一帧，未搜到连续M帧的特征值均小于当前门限值，则以所述音频段的第一方向上的第一帧作为语音第一端点；所述M为预设帧数。

根据本发明一优选实施例，所述步骤A3之后还包括二次第一方向搜索的步骤：

A411、在出现所述连续M帧的特征值均小于当前门限值的情况下，取所述连续M帧的特征值的平均值，作为二次第一方向搜索的初始门限值，或者，利用公式T_rev′＝T_m+γ(T₀-T_m)确定二次第一方向搜索的初始门限值，其中，T₀为当前门限值；T_m为所述连续M帧特征值的平均值；γ为尺度因子，取值范围在0至1之间；T_rev′为二次第一方向搜索的初始门限值；

A412、从所述语音第一端点开始搜索，在二次第一方向搜索过程中，若当前帧的特征值大于等于当前门限值，则利用当前帧的特征值更新当前门限值；

A413、若连续N帧的特征值均小于当前门限值，则判定检测到所述音频段的语音第二端点并终止二次第一方向搜索过程，以及更新步骤A2得到的所述语音第二端点。

A421、在出现所述连续M帧的特征值均小于当前门限值的情况下，利用公式T_rev′＝T_m+γ(T₀-T_m)确定二次第一方向搜索的初始门限值，其中，T₀为当前门限值；T_m为所述连续M帧特征值的平均值；γ为尺度因子，取值范围在0至1之间；T_rev′为二次第一方向搜索的初始门限值；

A422、从所述语音第一端点开始搜索，在二次第一方向搜索过程中，若连续N帧的特征值均小于所述二次第一方向搜索的初始门限值，则判定检测到所述音频段的语音第二端点并终止二次第一方向搜索过程，以及更新步骤A2得到的所述语音第二端点。

根据本发明一优选实施例，所述步骤A1之前还包括步骤：

A10、对所述音频段的每帧音频信号进行预处理；

A11、从所述预处理后的每帧音频信号中提取每帧音频信号的特征值。

根据本发明一优选实施例，步骤A10中所述的预处理，包括对下列之一或任意组合的预处理：每帧音频信号的预加重、快速傅里叶变换和子带划分。

根据本发明一优选实施例，所述特征值包括下列之一或任意组合：子带频谱熵、能量、过零率和相关性。

根据本发明一优选实施例，检测到所述音频段的语音第二端点为：按照第一方向顺序所述连续N帧的前一帧。

根据本发明一优选实施例，检测到所述音频段的语音第二端点为：按照第二方向顺序所述连续M帧的前一帧。

一种检测语音端点的系统，包括：

第一方向搜索与门限自适应单元，用于按照第一方向顺序，搜索输入的音频段中的各帧，若当前帧的特征值大于等于当前门限值，则利用当前帧的特征值更新当前门限值；

第二端点位置检测单元，用于在第一方向搜索与门限自适应单元的搜索过程中出现连续N帧的特征值均小于当前门限值时，判定检测到所述音频段的语音第二端点，并终止第一方向搜索与门限自适应单元的第一方向搜索过程，所述N为预设帧数；

第二方向搜索与第一端点位置检测单元，用于按照第二方向顺序，从第二端点位置检测单元检测到的语音第二端点开始搜索，利用所述连续N帧的特征值检测所述音频段的语音第一端点；

根据本发明一优选实施例，第一方向搜索与门限自适应单元采用的更新当前门限值的公式具体包括：

T₁＝αT₀+(1-α)f；

根据本发明一优选实施例，第一方向搜索与门限自适应单元中从所述音频段的第一方向上的第一帧开始搜索，以及将所述音频段的第一帧的特征值作为初始门限值；或者，

根据本发明一优选实施例，所述第二方向搜索与第一端点位置检测单元在利用连续N帧的特征值检测音频段的语音第一端点时，具体执行以下操作：

取所述连续N帧的特征值的平均值作为第二方向搜索的初始门限值，或者，利用公式T_rev＝T_n+β(T₀-T_n)确定第二方向搜索的初始门限值，其中，T₀为当前门限值；T_n为所述连续N帧特征值的平均值；β为尺度因子，取值范围在0至1之间；T_rev为第二方向搜索的初始门限值；

在第二方向搜索过程中，从所述语音第一端点开始搜索，若当前帧的特征值大于等于当前门限值，则利用当前帧的特征值更新当前门限值；

若连续M帧的特征值均小于当前门限值，则判定检测到所述音频段的语音第一端点；或者，搜索至所述音频段的第一方向上的第一帧，未搜到连续M帧的特征值均小于当前门限值，则以所述音频段的第一方向上的第一帧作为语音第一端点；所述M为预设帧数。

通过下述公式确定第二方向搜索的初始门限值；

T_rev＝T_n+β(T₀-T_n)；

若连续M帧的特征值均小于当前门限值，则判定检测到所述音频段的语音第一端点；或者，搜索至所述音频段的第一方向上的第一帧，未搜到连续M帧的特征值均小于当前门限值，则以所述音频段的第一帧作为语音第一端点；所述M为预设帧数。

根据本发明一优选实施例，所述系统还包括：

二次第一方向搜索与门限自适应单元，用于在出现所述连续M帧的特征值均小于当前门限值的情况下，取所述连续M帧的特征值的平均值，作为二次第一方向搜索的初始门限值，或者，利用公式T_rev′＝T_m+γ(T₀-T_m)确定二次第一方向搜索的初始门限值，其中，T₀为当前门限值；T_m为所述连续M帧特征值的平均值；γ为尺度因子，取值范围在0至1之间；T_rev′为二次第一方向搜索的初始门限值；从所述语音第一端点开始搜索，在二次第一方向搜索过程中，若当前帧的特征值大于等于当前门限值，则利用当前帧的特征值更新当前门限值；

第一第二端点更新单元，用于在二次第一方向搜索与门限自适应单元的搜索过程中出现连续N帧的特征值均小于当前门限值时，判定检测到所述音频段的语音第二端点，终止二次第一方向搜索与门限自适应单元的二次第一方向搜索过程，并更新第二端点位置检测单元得到的语音第二端点。

根据本发明一优选实施例，所述系统还包括：

第四第一方向搜索与门限自适应单元，用于在出现所述连续M帧的特征值均小于当前门限值的情况下，利用公式T_rev′＝T_m+γ(T₀-T_m)确定二次第一方向搜索的初始门限值，其中，T₀为当前门限值；T_m为所述连续M帧特征值的平均值；γ为尺度因子，取值范围在0至1之间；T_rev′为二次第一方向搜索的初始门限值；然后从所述语音第一端点开始搜索；

第三第二端点更新单元，用于在第四第一方向搜索与门限自适应单元的搜索过程中出现连续N帧的特征值均小于所述二次第一方向搜索的初始门限值时，判定检测到所述音频段的语音第二端点，终止第四第一方向搜索与门限自适应单元的二次第一方向搜索过程，并更新第二端点位置检测单元得到的语音第二端点。

根据本发明一优选实施例，所述系统还包括：

音频信号预处理单元，用于对所述音频段的每帧音频信号进行预处理；

特征提取单元，用于从所述预处理后的每帧音频信号中提取每帧音频信号的特征值。

根据本发明一优选实施例，所述音频信号预处理单元进行的预处理包括下列之一或任意组合：每帧音频信号的预加重、快速傅里叶变换和子带划分。

根据本发明一优选实施例，所述特征提取单元提取的特征值，包括下列之一或任意组合：子带频谱熵、能量、过零率和相关性。

根据本发明一优选实施例，所述第二端点位置检测单元得出的所述音频段的语音第二端点为：按照第一方向顺序所述连续N帧的前一帧。

根据本发明一优选实施例，所述的若连续M帧的特征值均小于当前门限值，则判定检测到所述音频段的语音第一端点，此种情况下所述第二方向搜索与第一端点位置检测单元得出的语音第一端点位置为：按照第二方向顺序所述连续M帧的前一帧。

由以上技术方案可以看出，将终点和起点检测分开进行，正向搜索完成终点检测，反向搜索完成起点检测，从而使系统摆脱了“信号起始段必须为非语音段”的假设，适用于一切语音搜索环境。并且，门限计算过程与搜索过程同时进行，而非事先计算好，因此更能反映待检测信号的真实属性，很大程度上降低了由于门限选择不当而噪声端点检测错误的风险。

附图说明

图1本发明实施例一中的方法流程图；

图2本发明实施例二中的方法流程图；

图3本发明实施例三中的系统结构示意图；

图4本发明实施例四中的系统结构示意图；

图5本发明实施例五中的系统结构示意图；

图6本发明实施例六中的系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、本实施例提供了一种检测语音端点的方法，参见图1所示，包括下列步骤：

S11、对输入的音频段的每帧音频信号进行预处理。

具体的音频信号预处理包括但不限于对下列之一或任意组合的预处理：每帧音频信号的预加重(即进行高频部分功率提升)、快速傅里叶变换(FFT)和子带划分等。

S12、从预处理后的每帧音频信号中提取每帧音频信号的特征值。

特征提取的目的是对每帧音频信号提取一个或几个特征，用以区分语音/非语音帧。具体提取的特征值包括但不限于下列之一或任意组合：子带频谱熵、能量、过零率和相关性等。本实施例中采用子带频谱熵作

为每一帧信号的特征。具体提取过程为利用步骤S11的预处理结果，计算每个子带内的频谱熵，并采用中值滤波器进行平滑处理，进而得到每一帧信号的频谱熵特征值。

S13、按照正向顺序，搜索输入的音频段中的各帧，若当前帧的特征值大于等于当前门限值，则利用当前帧的特征值更新当前门限值。

由于本实施例不以“起始段为噪声段”为假设的前提，因此门限值的计算是在正向搜索过程中并发完成的。

正向搜索过程中，首先假设音频段的第一帧即为语音帧，从第一帧开始搜索，并将第一帧语音的子带频谱熵作为初始门限值，进行门限自适应。

需要说明的是，初始门限值除了采用音频段的第一帧特征值之外，也可以采用一个预设的经验值，该经验值可以通过预先收集一些音频段样本，计算出一个平均的特征值作为初始门限值，经试验发现这个经验值与第一帧语音的特征值在数值上相差不大，因此一种简单优选的方式就是直接将音频段第一帧的特征值作为初始门限值。

门限自适应的过程是：如果当前帧的频谱熵大于等于当前门限值，则利用当前帧的频谱熵以及更新公式更新当前门限；如果当前帧的频谱熵小于当前门限值，则不更新门限。在正向搜索过程中，门限值是从语音段中计算出来的。由于语音的频谱熵大于噪声的频谱熵，所以门限的更新过程始终在语音段中进行，当前门限值的物理意义反映了自当前帧之前的全部音频信号中，语音分量的频谱熵的平均水平。

上述的更新公式可以是：

T₁＝αT₀+(1-α)f；

其中，T₀为当前门限值；T₁为搜索过当前帧更新后的门限值；f为当前帧的特征值(频谱熵)；α为遗忘因子，取值范围在0至1之间，具体数值需要在实验中不断调试。

S14、若连续N帧的特征值均小于当前门限值，则判定检测到所述音频段的语音终点位置，并终止正向搜索过程。

具体的，在正向搜索的过程中，如果连续N帧语音的频谱熵均小于当前门限值，则可认为检测到了语音终点，语音终点的具体位置可以是以正向搜索终止时的当前帧为准，反向数N+1帧，即所述连续N帧之前的那一帧为语音终点位置。N的单位为帧，通常可以取值5～20。

S15、按照反向顺序，从语音终点位置开始搜索，利用所述连续N帧的特征值检测音频段的语音起点位置。

具体的，本步骤中可以采取三种方式利用连续N帧的特征值检测音频段的语音起点位置。

方式一、反向搜索过程开始之前，取所述连续N帧的频谱熵的平均值作为反向搜索的初始门限值。在反向搜索过程中，若当前帧的频谱熵大于或等于当前门限值，则利用当前帧的频谱熵更新当前门限值。更新公式可以是：

T₁＝αT₀+(1-α)f；

其中，T₀为当前门限值；T₁为搜索过当前帧更新后的门限值；f为当前帧的特征值(频谱熵)；α为遗忘因子，取值范围在0至1之间，具体数值可以与上述正向搜索的取值不相同，需要在实验中不断调试。

若在反向搜索过程中出现连续M帧的频谱熵均小于当前门限值的情况，则判定检测到所述音频段的语音起点位置，所述M为预设帧数。

方式二、反向搜索过程开始之前，可利用语音段信息和噪声段信息调整当前门限值。其中以当前门限值作为语音段信息，它体现了语音段的频谱熵，以所述的小于当前门限值的连续N帧的频谱熵作为噪声段信息，具体可以取所述连续N帧的频谱熵的平均值，再利用二者计算一个合理的反向搜索的初始门限值。

可通过下述公式确定反向搜索的初始门限值。

T_rev＝T_n+β(T₀-T_n)；

其中，T₀为当前门限值；T_n为所述连续N帧频谱熵的平均值；β为尺度因子，取值范围在0至1之间；T_rev为调整后的初始门限值。β越小，则T_rev越靠近T_n；β越大，则T_rev越靠近T₀。该公式的含义是：在T_n和T₀之间选择一个合适的位置，作为反向搜索的初始门限值。基于语音端点位置检测的原则，如果原则是保护有效语音不受到损伤，则可以将门限放宽，β值可以取的小一些；反之，如果原则是尽可能消除噪声段，语音段可以有略微损伤，则门限应严格一些，β值取大一些。由于本实施例主要应用于语音搜索，必须保护有效语音不受到损伤，否则将影响语音识别的准确率，因此判决门限应更接近T_n。

在反向搜索过程中，若当前帧的频谱熵大于等于当前门限值，则利用当前帧的特征值更新当前门限值。更新公式可以是：

T₁＝αT₀+(1-α)f；

方式三、反向搜索过程开始之前，通过下述公式确定反向搜索的初始门限值。

T_rev＝T_n+β(T₀-T_n)；

其中，T₀为当前门限值；T_n为所述连续N帧频谱熵的平均值；β为尺度因子，取值范围在0至1之间；T_rev为调整后的初始门限值。

本方式中，不在反向搜索过程中更新门限值，即以初始门限值作为固定门限进行反向搜索，若在反向搜索过程中出现连续M帧的频谱熵均小于当前门限值(即所述的初始门限值)，则判定检测到所述音频段的语音起点位置，所述M为预设帧数。

上述三种方式中经检测确定的语音起点位置为可以是以反向搜索终止时的当前帧为准，正向数M+1帧，即所述连续M帧之后的那一帧为语音终点位置。M的单位为帧，通常可以取值5～20。

在具体的语音搜索，尤其是在手机语音搜索的实现中，如果反向搜索至所述音频段的第一帧，仍未出现连续M帧的频谱熵均小于当前门限值的情况，为了保证“尽可能不损伤有效语音”的准则，则可以以所述音频段的第一帧作为语音起点。

反向搜索的前提是语音终点位置已经检测到，因此当检测到语音起点位置之后，端点位置检测工作随即结束，可将结果输出。

可见，与现有的语音端点检测技术同时检测出起点和终点的策略不同，本实施例采用“正向、反向”搜索策略，正向搜索目的是检测语音终点位置，而不必考虑起点，反向搜索的目的是检测语音起点位置，而不必考虑终点，也就是将起点位置和终点位置的检测分开进行。通过将起点位置检测和终点位置检测分开，先检测终点位置，后检测起点位置的方法，本实施例中将门限值计算与自适应放在正向或/和反向搜索过程中并发进行，增加了门限计算与门限自适应的鲁棒性，抛开了现有的端点检测方法认为语音起始段为噪声段的假设，更加符合语音搜索的实际情况，与现有的检测端点技术相比，本实施例的门限值计算更为合理，适用于一切语音搜索环境。

实施例二、本实施例提供了一种检测语音端点的方法，参见图2所示，包括下列步骤：

S21、对输入的音频段的每帧音频信号进行预处理。

具体描述与S11一致，不再赘述。

S22、从预处理后的每帧音频信号中提取每帧音频信号的特征值。

具体描述与S12一致，不再赘述。

S23、按照正向顺序，搜索输入的音频段中的各帧，若当前帧的特征值大于等于当前门限值，则利用当前帧的特征值更新当前门限值。

本实施例假设对前一音频段的正向搜索过程中，搜索至所述前一音频段的最后一帧，未出现连续N帧的频谱熵均小于当前门限值的情况，则可以判定所述前一音频段为噪音段。即始终没有找到语音终点位置，说明所述前一音频段中没有语音帧，一直是背景噪声信号，从而导致信号的频谱熵始终处在噪声的水平，没有明显的峰值。此时，可将这部分纯噪声信号作为调整当前输入音频段的当前门限值的重要信息，因为其充分反映了当前背景噪声的频谱熵的水平，利用噪声的频谱熵，可以得到下一次端点检测的初始门限值。具体地，可以计算前一音频段各帧的频谱熵平均值，将该频谱熵平均值作为当前输入音频段正向搜索的初始门限值。

基于本实施例的上述假设，后续正向搜索和门限值自适应的具体内容与上述步骤S13一致，不再赘述。

S24、若连续N帧的特征值均小于当前门限值，则判定检测到所述音频段的语音终点位置，并终止正向搜索过程。

具体描述与S14一致，不再赘述。

S25、按照反向顺序，从语音终点位置开始搜索，利用所述连续N帧的特征值检测音频段的语音起点位置。

具体描述与S15一致，不再赘述。

S26、二次正向搜索。

因为第一次终点位置检测(即一次正向搜索)时，只利用了语音段的信息，没有适用噪声段的信息，有可能会影响终点位置检测的精度。因此，可在起点位置检测结束后，进行二次正向搜索，用来修正终点位置检测结果。

具体的，本步骤中可以采用三种方式进行二次正向搜索。

方式一、在出现所述连续M帧的频谱熵均小于当前门限值的情况下，在二次正向搜索之前，取所述连续M帧的频谱熵的平均值，作为二次正向搜索的初始门限值，从所述语音起点位置开始搜索，在二次正向搜索过程中，若当前帧的频谱熵大于等于当前门限值，则利用当前帧的频谱熵更新当前门限值。更新公式可以是：

T₁＝αT₀+(1-α)f；

其中，T₀为当前门限值；T₁为搜索过当前帧更新后的门限值；f为当前帧的特征值(频谱熵)；α为遗忘因子，取值范围在0至1之间，具体数值可以与上述一次正向搜索和反向搜索的取值不相同，需要在实验中不断调试。

若在二次正向搜索过程中出现连续N帧的频谱熵均小于当前门限值，则判定检测到所述音频段的语音终点位置并终止二次正向搜索过程，之后以二次正向搜索得到的语音终点位置更新上述步骤S24得到的语音终点位置。

方式二、在出现所述连续M帧的频谱熵均小于当前门限值的情况下，在二次正向搜索之前，通过下述公式确定二次正向搜索的初始门限值。

T_rev′＝T_m+γ(T₀-T_m)确定二次正向搜索的初始门限值，其中，T₀为当前门限值；T_m为所述连续M帧特征值的平均值；γ为尺度因子，取值范围在0至1之间；T_rev′为二次正向搜索的初始门限值。

从所述语音起点位置开始搜索，若在二次正向搜索过程中出现当前帧的频谱熵大于等于当前门限值，则利用当前帧的频谱熵更新当前门限值。更新公式可以是：

T₁＝αT₀+(1-α)f；

方式三、在出现所述连续M帧的频谱熵均小于当前门限值的情况下，在二次正向搜索之前，通过下述公式确定二次正向搜索的初始门限值。

本方式中，不在二次正向搜索过程中更新门限值，即以初始门限值作为固定门限进行二次正向搜索，若在二次正向搜索过程中出现连续N帧的频谱熵均小于当前门限值，则判定检测到所述音频段的语音终点位置并终止二次正向搜索过程，之后以二次正向搜索得到的语音终点位置更新上述步骤S24得到的语音终点位置。

更新语音终点位置之后，端点位置检测工作随即结束，可将结果输出。

可见，本实施例具备实施一的优点，并且进行了二次正向搜索，进一步修正之前得到的语音终点位置信息。这一过程降低了起点位置和终点位置检测的相互耦合程度，终点位置检测过程中的噪声信息可以用来辅助起点位置检测，提高起点位置检测的精度，而起点位置检测的结果也可以用来修正终点位置检测的精度，二者相辅相成。

需要说明的是，在本发明的上述实施例中均是以先正向搜索后反向搜索，更进一步在反向搜索结束后进行二次正向搜索为例进行描述，但本发明同样适用于先反向搜索后正向搜索，更进一步在正向搜索结束后进行二次反向搜索，只是后一种方式在实现时先在反向搜索过程中确定出语音起点，然后在正向搜索过程中确定出语音终点，在更进一步的二次反向搜索过程中对语音起点进行校正，具体的执行方式与上述实施例中的执行方式相同，在此不再赘述。

实施例三、本实施例提供了一种检测语音端点的系统，参见图3所示，包括：音频信号预处理单元31、特征提取单元32、第一方向搜索与门限自适应单元33、第二端点位置检测单元34和第二方向搜索与第一端点位置检测单元35。

其中，音频信号预处理单元31，用于对所述音频段的每帧音频信号进行预处理。具体的，音频信号预处理单元31预处理的音频信号包括但不限于对下列之一或任意组合的预处理：每帧音频信号的预加重、快速傅里叶变换(FFT)和子带划分等。

特征提取单元32，用于从所述预处理后的每帧音频信号中提取每帧音频信号的特征值。具体的，特征提取单元32进行特征提取的目的是对每帧音频信号提取一个或几个特征，用以区分语音/非语音帧。提取的特征值包括但不限于下列之一或任意组合：子带频谱熵、能量、过零率和相关性等。本实施例中采用子带频谱熵作为每一帧信号的特征。具体提取过程为利用音频信号预处理单元31的预处理结果，计算每个子带内的频谱熵，并采用中值滤波器进行平滑处理，进而得到每一帧信号的频谱熵特征值。

第一方向搜索与门限自适应单元33，用于按照第一方向顺序，搜索输入的音频段中的各帧，若当前帧的特征值大于等于当前门限值，则利用当前帧的特征值更新当前门限值。由于本实施例不以“起始段为噪声段”为假设的前提，因此门限值的计算是在第一方向搜索过程中并发完成的。

第一方向搜索过程中，首先假设音频段的第一方向上的第一帧即为语音帧，从第一帧开始搜索，并将第一帧语音的子带频谱熵作为初始门限值，进行门限自适应。门限自适应的过程是：如果当前帧的频谱熵大于等于当前门限值，则利用当前帧的频谱熵以及更新公式更新当前门限；如果当前帧的频谱熵小于当前门限值，则不更新门限。在第一方向搜索过程中，门限值是从语音段中计算出来的。由于语音的频谱熵大于噪声的频谱熵，所以门限的更新过程始终在语音段中进行，当前门限值的物理意义反映了自当前帧之前的全部音频信号中，语音分量的频谱熵的平均水平。

第一方向搜索与门限自适应单元33采用的更新公式可以是：

T₁＝αT₀+(1-α)f；

第二端点位置检测单元34，用于在第一方向搜索与门限自适应单元33的搜索过程中出现连续N帧的特征值均小于当前门限值时，判定检测到所述音频段的语音第二端点位置，并终止第一方向搜索与门限自适应单元33的第一方向搜索过程。具体的，语音第二端点的具体位置可以是以第一方向搜索终止时的当前帧为准，第二方向数N+1帧，即所述连续N帧之前的那一帧为语音第二端点位置。N的单位为帧，通常可以取值5～20。

第二方向搜索与第一端点位置检测单元35，用于按照第二方向顺序，从第二端点位置检测单元34检测到的语音第二端点位置开始搜索，利用所述连续N帧的特征值检测所述音频段的语音第一端点位置。

具体的，第二方向搜索与第一端点位置检测单元35可以采取三种方式利用连续N帧的特征值检测音频段的语音第一端点位置。

方式一、第二方向搜索过程开始之前，第二方向搜索与第一端点位置检测单元35取所述连续N帧的频谱熵的平均值作为第二方向搜索的初始门限值。在第二方向搜索过程中，若当前帧的频谱熵大于等于当前门限值，则第二方向搜索与第一端点位置检测单元35利用当前帧的频谱熵更新当前门限值。更新公式可以是：

T₁＝αT₀+(1-α)f；

其中，T₀为当前门限值；T₁为搜索过当前帧更新后的门限值；f为当前帧的特征值(频谱熵)；α为遗忘因子，取值范围在0至1之间，具体数值可以与第一方向搜索与门限自适应单元33的取值不相同，需要在实验中不断调试。

若在第二方向搜索过程中出现连续M帧的频谱熵均小于当前门限值的情况，则第二方向搜索与第一端点位置检测单元35判定检测到所述音频段的语音第一端点位置，所述M为预设帧数。

方式二、第二方向搜索过程开始之前，第二方向搜索与第一端点位置检测单元35可利用语音段信息和噪声段信息调整当前门限值。其中以当前门限值作为语音段信息，它体现了语音段的频谱熵，以所述的小于当前门限值的连续N帧的频谱熵作为噪声段信息，具体可以取所述连续N帧的频谱熵的平均值，再利用二者计算一个合理的第二方向搜索的初始门限值。

第二方向搜索与第一端点位置检测单元35可通过下述公式确定第二方向搜索的初始门限值。

T_rev＝T_n+β(T₀-T_n)；

其中，T₀为当前门限值；T_n为所述连续N帧频谱熵的平均值；β为尺度因子，取值范围在0至1之间；T_rev为调整后的初始门限值。β越小，则T_rev越靠近T_n；β越大，则T_rev越靠近T₀。该公式的含义是：在T_n和T₀之间选择一个合适的位置，作为第二方向搜索的初始门限值。基于语音端点位置检测的原则，如果原则是保护有效语音不受到损伤，则可以将门限放宽，β值可以取的小一些；反之，如果原则是尽可能消除噪声段，语音段可以有略微损伤，则门限应严格一些，β值取大一些。由于本实施例主要应用于语音搜索，必须保护有效语音不受到损伤，否则将影响语音识别的准确率，因此判决门限应更接近T_n。

在第二方向搜索过程中，若当前帧的频谱熵大于等于当前门限值，则第二方向搜索与第一端点位置检测单元35利用当前帧的特征值更新当前门限值。更新公式可以是：

T₁＝αT₀+(1-α)f；

方式三、第二方向搜索过程开始之前，第二方向搜索与第一端点位置检测单元35通过下述公式确定第二方向搜索的初始门限值。

T_rev＝T_n+β(T₀-T_n)；

本方式中，不在第二方向搜索过程中更新门限值，即以初始门限值作为固定门限进行第二方向搜索，若在第二方向搜索过程中出现连续M帧的频谱熵均小于当前门限值(即所述的初始门限值)，则第二方向搜索与第一端点位置检测单元35判定检测到所述音频段的语音第一端点位置，所述M为预设帧数。

上述三种方式中经检测确定的语音第一端点位置为可以是以第二方向搜索终止时的当前帧为准，第一方向数M+1帧，即所述连续M帧之后的那一帧为语音第二端点位置。M的单位为帧，通常可以取值5～20。

在具体的语音搜索，尤其是在手机语音搜索的实现中，如果第二方向搜索与第一端点位置检测单元35第二方向搜索至所述音频段的第一帧，仍未出现连续M帧的频谱熵均小于当前门限值的情况，为了保证“尽可能不损伤有效语音”的准则，则第二方向搜索与第一端点位置检测单元35可以以所述音频段的第一方向上的第一帧作为语音第一端点。

第二方向搜索的前提是语音第二端点位置已经检测到，因此当检测到语音第一端点位置之后，端点位置检测工作随即结束，可将结果输出。

可见，与现有的语音端点检测技术同时检测出第一端点和第二端点的策略不同，本实施例采用“第一方向、第二方向”搜索策略，第一方向搜索目的是检测语音第二端点位置，而不必考虑第一端点，第二方向搜索的目的是检测语音第一端点位置，而不必考虑第二端点，也就是将第一端点位置和第二端点位置的检测分开进行。通过将第一端点位置检测和第二端点位置检测分开，先检测第二端点位置，后检测第一端点位置的方式，本实施例中将门限值计算与自适应放在第一方向和/或第二方向搜索过程中并发进行，增加了门限计算与门限自适应的鲁棒性，抛开了现有的端点位置检测方法认为语音起始段为噪声段的假设，更加符合语音搜索的实际情况，与现有的检测端点技术相比，本实施例的门限值计算更为合理，适用于一切语音搜索环境。

在该实施例三中，当第一方向为正向时，第二方向为反向，第一端点为起点，第二端点为终点。当第一方向为反向时，第二方向为正向，第一端点为终点，第二端点为起点。

实施例四、本实施例提供了一种检测语音端点位置的系统，参见图4所示，包括：音频信号预处理单元41、特征提取单元42、第一方向搜索与门限自适应单元43、第二端点位置检测单元44、第二方向搜索与第一端点位置检测单元45、二次第一方向搜索与门限自适应单元46和第一第二端点更新单元47。

其中，音频信号预处理单元41、特征提取单元42、第二端点位置检测单元44、第二方向搜索与第一端点位置检测单元45的具体描述分别与实施例三中音频信号预处理单元31、特征提取单元32、第二端点位置检测单元34、第二方向搜索与第一端点位置检测单元35的描述一致，不再赘述。

其中，第一方向搜索与门限自适应单元43中关于第一方向搜索和门限值自适应的具体内容与实施例三中第一方向搜索与门限自适应单元33一致。

初始门限值的设定与实施例三有所区别，具体在本实施例中，假设第一方向搜索与门限自适应单元43对前一音频段的第一方向搜索过程中，搜索至所述前一音频段的最后一帧，第二端点位置检测单元44未检测到连续N帧的频谱熵均小于当前门限值的情况，则可以判定所述前一音频段为噪音段。即始终没有找到语音第二端点位置，说明所述前一音频段中没有语音帧，一直是背景噪声信号，从而导致信号的频谱熵始终处在噪声的水平，没有明显的峰值。此时，可将这部分纯噪声信号作为调整当前输入音频段的当前门限值的重要信息，因为其充分反映了当前背景噪声的频谱熵的水平，利用噪声的频谱熵，可以得到下一次端点检测的初始门限值。具体地，可以计算前一音频段各帧的频谱熵平均值，将该频谱熵平均值作为当前输入音频段第一方向搜索的初始门限值。

二次第一方向搜索与门限自适应单元46，用于在出现所述连续M帧的频谱熵均小于当前门限值的情况下，在二次第一方向搜索之前，取所述连续M帧的频谱熵的平均值，作为二次第一方向搜索的初始门限值，从所述语音第一端点位置开始搜索，在二次第一方向搜索过程中，若当前帧的频谱熵大于等于当前门限值，则利用当前帧的频谱熵更新当前门限值。二次第一方向搜索与门限自适应单元46采用的更新公式可以是：

T₁＝αT₀+(1-α)f；

其中，T₀为当前门限值；T₁为搜索过当前帧更新后的门限值；f为当前帧的特征值(频谱熵)；α为遗忘因子，取值范围在0至1之间，具体数值可以与上述一次第一方向搜索和第二方向搜索的取值不相同，需要在实验中不断调试。

第一第二端点更新单元47，用于在二次第一方向搜索与门限自适应单元46的搜索过程中出现连续N帧的特征值均小于当前门限值时，判定检测到所述音频段的语音第二端点位置，终止二次第一方向搜索与门限自适应单元46的二次第一方向搜索过程，之后以二次第一方向搜索得到的语音第二端点位置更新第二端点位置检测单元44得到的语音第二端点位置。

可见，本实施例具备实施三的优点，并且考虑到第一次第二端点位置检测(即一次第一方向搜索)时，只利用了语音段的信息，没有适用噪声段的信息，有可能会影响第二端点位置检测的精度。因此，可在第一端点位置检测结束后，进行二次第一方向搜索，用来修正第二端点位置检测结果。这一过程降低了第一端点位置和第二端点位置检测的相互耦合程度，第二端点位置检测过程中的噪声信息可以用来辅助第一端点位置检测，提高第一端点位置检测的精度，而第一端点位置检测的结果也可以用来修正第二端点位置检测的精度，二者相辅相成。

在该实施例四中，当第一方向为正向时，第二方向为反向，第一端点为起点，第二端点为终点。当第一方向为反向时，第二方向为正向，第一端点为终点，第二端点为起点。

实施例五、本实施例提供了一种检测语音端点位置的系统，参见图5所示，包括：音频信号预处理单元51、特征提取单元52、第一方向搜索与门限自适应单元53、第二端点位置检测单元54、第二方向搜索与第一端点位置检测单元55、第三第一方向搜索与门限自适应单元56和第二第二端点更新单元57。

其中，音频信号预处理单元51、特征提取单元52、第一方向搜索与门限自适应单元53、第二端点位置检测单元54、第二方向搜索与第一端点位置检测单元55的具体描述分别与实施例三中音频信号预处理单元31、特征提取单元32、第一方向搜索与门限自适应单元33、第二端点位置检测单元34、第二方向搜索与第一端点位置检测单元35的描述一致，不再赘述。

其中，第三第一方向搜索与门限自适应单元56，用于在出现所述连续M帧的频谱熵均小于当前门限值的情况下，在二次第一方向搜索之前，通过下述公式确定二次第一方向搜索的初始门限值。

T_rev′＝T_m+γ(T₀-T_m)；

其中，T₀为当前门限值；T_m为所述连续M帧特征值的平均值；γ为尺度因子，取值范围在0至1之间；T_rev′为二次第一方向搜索的初始门限值。

第三第一方向搜索与门限自适应单元56从所述语音第一端点位置开始搜索，若在二次第一方向搜索过程中出现当前帧的频谱熵大于等于当前门限值，则第三第一方向搜索与门限自适应单元56利用当前帧的频谱熵更新当前门限值。更新公式可以是：

T₁＝αT₀+(1-α)f；

第二第二端点更新单元57，用于在第三第一方向搜索与门限自适应单元56的搜索过程中出现连续N帧的特征值均小于当前门限值时，判定检测到所述音频段的语音第二端点位置，终止第三第一方向搜索与门限自适应单元56的二次第一方向搜索过程，之后以二次第一方向搜索得到的语音第二端点位置更新第二端点位置检测单元54得到的语音第二端点位置。

可见，本实施例具备实施三和四的优点，不再赘述。在该实施例五中，当第一方向为正向时，第二方向为反向，第一端点为起点，第二端点为终点。当第一方向为反向时，第二方向为正向，第一端点为终点，第二端点为起点。

实施例六、本实施例提供了一种检测语音端点位置的系统，参见图6所示，包括：音频信号预处理单元61、特征提取单元62、第一方向搜索与门限自适应单元63、第二端点位置检测单元64、第二方向搜索与第一端点位置检测单元65、第四第一方向搜索与门限自适应单元66和第三第二端点更新单元67。

其中，音频信号预处理单元61、特征提取单元62、第一方向搜索与门限自适应单元63、第二端点位置检测单元64、第二方向搜索与第一端点位置检测单元65的具体描述分别与实施例三中音频信号预处理单元31、特征提取单元32、第一方向搜索与门限自适应单元33、第二端点位置检测单元34、第二方向搜索与第一端点位置检测单元35的描述一致，不再赘述。

其中，第四第一方向搜索与门限自适应单元66，用于在出现所述连续M帧的频谱熵均小于当前门限值的情况下，在二次第一方向搜索之前，通过下述公式确定二次第一方向搜索的初始门限值。

T_rev′＝T_m+γ(T₀-T_m)；

本方式中，第四第一方向搜索与门限自适应单元66不在二次第一方向搜索过程中更新门限值，即以初始门限值作为固定门限进行二次第一方向搜索。

第三第二端点更新单元67，用于在第四第一方向搜索与门限自适应单元66的搜索过程中出现连续N帧的特征值均小于所述二次第一方向搜索的初始门限值时，判定检测到所述音频段的语音第二端点位置，终止第四第一方向搜索与门限自适应单元66的二次第一方向搜索过程，之后以二次第一方向搜索得到的语音第二端点位置更新第二端点位置检测单元64得到的语音第二端点位置。

可见，本实施例具备实施三的优点，虽然不像实施例四和五那样在二次第一方向搜索过程中进行门限值自适应，但是本实施中采用的固定门限已经考虑了语音信息和噪声信息两方面的因素，因此相对于现有技术让然有较优的效果。

在该实施例六中，当第一方向为正向时，第二方向为反向，第一端点为起点，第二端点为终点。当第一方向为反向时，第二方向为正向，第一端点为终点，第二端点为起点。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种检测语音端点的方法，其特征在于，包括下列步骤：

2.根据权利要求1所述的方法，其特征在于，步骤A1中所述的更新当前门限值的公式具体包括：

T₁＝αT₀+(1-α)f；

3.根据权利要求1所述的方法，其特征在于，步骤A1中从所述音频段的第一方向上的第一帧开始搜索，以及将所述音频段的第一帧的特征值作为初始门限值；或者，

4.根据权利要求1所述的方法，其特征在于，步骤A3中所述的利用连续N帧的特征值检测音频段的语音第一端点，具体包括：

5.根据权利要求1所述的方法，其特征在于，步骤A3中所述的利用连续N帧的特征值检测音频段的语音第一端点，具体包括：

A321、通过下述公式确定第二方向搜索的初始门限值；

T_rev＝T_n+β(T₀-T_n)；

6.根据权利要求4或5所述的方法，其特征在于，所述步骤A3之后还包括二次第一方向搜索的步骤：

7.根据权利要求4或5所述的方法，其特征在于，所述步骤A3之后还包括二次第一方向搜索的步骤：

8.根据权利要求1所述的方法，其特征在于，所述步骤A1之前还包括步骤：

A10、对所述音频段的每帧音频信号进行预处理；

9.根据权利要求8所述的方法，其特征在于，步骤A10中所述的预处理，包括对下列之一或任意组合的预处理：每帧音频信号的预加重、快速傅里叶变换和子带划分。

10.根据权利要求1或8所述的方法，其特征在于，所述特征值包括下列之一或任意组合：子带频谱熵、能量、过零率和相关性。

11.根据权利要求1所述的方法，其特征在于，检测到所述音频段的语音第二端点为：按照第一方向顺序所述连续N帧的前一帧。

12.根据权利要求1、4或5所述的方法，其特征在于，检测到所述音频段的语音第二端点为：按照第二方向顺序所述连续M帧的前一帧。

13.一种检测语音端点的系统，其特征在于，包括：

14.根据权利要求13所述的系统，其特征在于，第一方向搜索与门限自适应单元采用的更新当前门限值的公式具体包括：

T₁＝αT₀+(1-α)f；

15.根据权利要求13所述的系统，其特征在于，第一方向搜索与门限自适应单元中从所述音频段的第一方向上的第一帧开始搜索，以及将所述音频段的第一帧的特征值作为初始门限值；或者，

16.根据权利要求13所述的系统，其特征在于，所述第二方向搜索与第一端点位置检测单元在利用连续N帧的特征值检测音频段的语音第一端点时，具体执行以下操作：

17.根据权利要求13所述的系统，其特征在于，所述第二方向搜索与第一端点位置检测单元在利用连续N帧的特征值检测音频段的语音第一端点时，具体执行以下操作：

通过下述公式确定第二方向搜索的初始门限值；

T_rev＝T_n+β(T₀-T_n)；

18.根据权利要求16或17所述的系统，其特征在于，所述系统还包括：

19.根据权利要求16或17所述的系统，其特征在于，所述系统还包括：

20.根据权利要求13所述的系统，其特征在于，所述系统还包括：

21.根据权利要求20所述的系统，其特征在于，所述音频信号预处理单元进行的预处理包括下列之一或任意组合：每帧音频信号的预加重、快速傅里叶变换和子带划分。

22.根据权利要求20所述的系统，其特征在于，所述特征提取单元提取的特征值，包括下列之一或任意组合：子带频谱熵、能量、过零率和相关性。

23.根据权利要求13所述的系统，其特征在于，所述第二端点位置检测单元得出的所述音频段的语音第二端点为：按照第一方向顺序所述连续N帧的前一帧。

24.根据权利要求13、16或17所述的系统，其特征在于，所述的若连续M帧的特征值均小于当前门限值，则判定检测到所述音频段的语音第一端点，此种情况下所述第二方向搜索与第一端点位置检测单元得出的语音第一端点位置为：按照第二方向顺序所述连续M帧的前一帧。