CN103730110B

CN103730110B - 一种检测语音端点的方法和装置

Info

Publication number: CN103730110B
Application number: CN201210382284.6A
Authority: CN
Inventors: 宋辉; 关勇; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-10-10
Filing date: 2012-10-10
Publication date: 2017-03-01
Anticipated expiration: 2032-10-10
Also published as: CN103730110A

Abstract

本发明提供了一种检测语音端点的方法和装置，其中方法包括：确定并记录待检测信号各帧的能量；基于所述各帧的能量进行最小能量追踪；利用掩蔽噪声能量对待检测信号和追踪到的最小能量进行噪声掩蔽；利用噪声掩蔽后得到的待检测信号和最小能量确定各帧的信噪比；依据各帧的信噪比以及预设的门限值进行语音判决，从而确定语音端点。本发明通过噪声掩蔽的方式避免了局部最小能量趋近于零而导致的出现奇异值的情况，降低了虚警率；同时缩小了子带信噪比的动态范围，提高了检测结果的鲁棒性。

Description

一种检测语音端点的方法和装置

【技术领域】

本发明涉及计算机应用中的语音技术领域，特别涉及一种检测语音端点的方法和装置。

【背景技术】

在语音系统中语音信号往往伴随着背景噪声一起输入，如何在输入信号中准确地判断语音信号的起始和结束位置变成了抑制、去除语音噪声的关键所在，语音端点检测技术便是这样一种技术，只有准确地判定语音信号的端点才能正确地进行语音处理。

目前采用的是基于最小能量追踪的语音端点检测方法，即保留语音信号的部分历史信息，采用局部最小子带能量追踪技术找到子带能量的局部最小值，将这个局部最小能量值作为背景噪声的参考值。在语音判决时，如果当前帧的子带能量与该参考值的比值（即信噪比）高于预设的门限值，则判定当前帧为语音帧，否则判定当前帧为噪声帧。这种语音端点检测方法具有较低的漏报率，只要待检测信号中含有语音段就能够将语音段检测出来。

然而，上述语音端点检测方法也存在一定的缺陷，即虚警率较高。由于局部能量最低点的动态范围较大，在某些区域，局部最小能量可能趋近于零，导致对于待检测信号的子带信噪比容易出现极大值，使得检测结果不够鲁棒导致虚警的产生。

【发明内容】

本发明提供了一种检测语音端点的方法和装置，以便于提高检测结果的鲁棒性，降低虚警率。

具体技术方案如下：

一种检测语音端点的方法，该方法包括：

S1、确定并记录待检测信号各帧的能量；

S2、基于所述各帧的能量进行最小能量追踪；

S3、利用掩蔽噪声能量对待检测信号和追踪到的最小能量进行噪声掩蔽；

S4、利用噪声掩蔽后得到的待检测信号和最小能量确定各帧的信噪比；

S5、依据各帧的信噪比以及预设的门限值进行语音判决，从而确定语音端点。

根据本发明一优选实施例，所述步骤S2中还包括：基于所述各帧的能量进行最大能量追踪；

所述掩蔽噪声能量由追踪得到的最大能量确定。

根据本发明一优选实施例，掩蔽噪声能量E_NM由以下公式确定：

其中为追踪到的最大能量，P预设的噪声掩蔽强度。

根据本发明一优选实施例，所述最小能量追踪和最大能量追踪均为局部追踪，具体为：针对每一帧分别从其临近Q帧的能量中确定出每一帧对应的最小能量和最大能量，Q为预设的正整数；

在所述步骤S3中，对每一帧以及每一帧对应的最小能量采用依据该帧对应的最大能量确定出的掩蔽噪声能量进行噪声掩蔽；

在所述步骤S4中，每一帧的信噪比为：该帧进行噪声掩蔽后的能量与该帧对应的最小能量进行噪声掩蔽后的能量的比值。

根据本发明一优选实施例，在所述步骤S1之前还包括：

S0、对所述待检测信号进行预处理，所述预处理包括分帧、预加重、加窗和快速傅里叶变换。

根据本发明一优选实施例，所述步骤S1具体包括：对所述待检测信号进行子带分解，确定并记录各帧的子带能量；

所述步骤S2和所述步骤S3针对各帧中的每一个子带分别进行处理；

所述步骤S4具体包括：

S41、针对每一帧分别确定各子带的信噪比，具体采用如下公式确定当前帧中第i个子带的信噪比SNR_i：

其中，E_cur，i为当前帧第i个子带的子带能量，E_NM，i为当前帧第i个子带的掩蔽噪声能量，为追踪得到的当前帧第i个子带的最小能量；

S42、将每一帧中各子带的信噪比求平均或加权求和确定出每一帧的信噪比。

根据本发明一优选实施例，所述依据各帧的信噪比以及预设的门限值进行语音判决为：

如果当前帧的信噪比大于或等于所述门限值，则判定当前帧为语音帧，否则判定当前帧为非语音帧。

根据本发明一优选实施例，所述门限值是利用所述待检测信号前L帧的信噪比乘以预设的参数值确定的，所述L为预设的正整数。

一种检测语音端点的装置，该装置包括：

能量确定单元，用于确定并记录待检测信号各帧的能量；

能量追踪单元，用于基于所述各帧的能量进行最小能量追踪；

噪声掩蔽单元，用于利用掩蔽噪声能量对待检测信号和追踪到的最小能量进行噪声掩蔽；

信噪比确定单元，用于利用噪声掩蔽后得到的待检测信号和最小能量确定各帧的信噪比；

语音判决单元，用于依据各帧的信噪比以及预设的门限值进行语音判决，从而确定语音端点。

根据本发明一优选实施例，所述能量追踪单元，还用于基于所述各帧的能量进行最大能量追踪；

所述噪声掩蔽单元采用的掩蔽噪声能量由追踪得到的最大能量确定。

其中为追踪到的最大能量，P预设的噪声掩蔽强度。

根据本发明一优选实施例，所述最小能量追踪和最大能量追踪均为局部追踪，具体为：所述能量追踪单元针对每一帧分别从其临近Q帧的能量中确定出每一帧对应的最小能量和最大能量，Q为预设的正整数；

所述噪声掩蔽单元对每一帧以及每一帧对应的最小能量采用依据该帧对应的最大能量确定出的掩蔽噪声能量进行噪声掩蔽；

所述信噪比确定单元确定每一帧的信噪比为：该帧进行噪声掩蔽后的能量与该帧对应的最小能量进行噪声掩蔽后的能量的比值。

根据本发明一优选实施例，该装置还包括：预处理单元，用于对所述待检测信号进行预处理后提供给所述能量确定单元，所述预处理包括分帧、预加重、加窗和快速傅里叶变换。

根据本发明一优选实施例，所述能量确定单元具体对所述待检测信号进行子带分解，确定并记录各帧的子带能量；

所述能量追踪单元和所述噪声掩蔽单元针对各帧中的每一个子带分别进行处理；

所述信噪比确定单元具体执行：

针对每一帧分别确定各子带的信噪比，具体采用如下公式确定当前帧中第i个子带的信噪比SNR_i

其中，E_cur，i为当前帧第i个子带的子带能量，E_NM,i为当前帧第i个子带的掩蔽噪声能量，为追踪得到的当前帧第i个子带的最小能量；

将每一帧中各子带的信噪比求平均或加权求和确定出每一帧的信噪比。

根据本发明一优选实施例，所述语音判断单元在进行语音判决时，如果当前帧的信噪比大于或等于所述门限值，则判定当前帧为语音帧，否则判定当前帧为非语音帧。

由以上技术方案可以看出，本发明通过噪声掩蔽的方式避免了局部最小能量趋近于零而导致的出现奇异值的情况，降低了虚警率；同时缩小了子带信噪比的动态范围，提高了检测结果的鲁棒性。

【附图说明】

图1为本发明实施例一提供的语音信号端点检测的方法流程图；

图2为本发明实施例二提供的语音信号端点检测的装置结构图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、

图1为本发明实施例一提供的语音信号端点检测的方法流程图，如图1所示，该方法包括：

步骤101：对待检测信号进行预处理。

本步骤中的预处理包括：将待检测信号进行分帧、预加重、加窗和快速傅里叶变换（FFT）等，该部分内容为现有技术，在此不再详述。

步骤102：对待检测信号进行子带分解，确定并记录各帧的子带能量。

为了计算待检测信号中每帧的子带信噪比，需要对输入的待检测信号进行子带分解，并计算各帧的子带能量。在进行子带分解时，通常是将每帧的频谱划分为均匀且无重叠的M个子带，其中M为预设的2以上的正整数，通常在4至8之间取值，即在[4,8]取值。

其中子带能量的计算方法为现有技术，在此进行简单描述，例如可以采用如下公式计算第k个子带的子带能量：

其中，|s(f_i)|为频谱分量幅度，N_KL和N_KH分别为第k个子带的下边界和上边界，在子带均匀且无重叠的基础上，N_KL和N_KH应为：

N_KL=1+(k-1)×(N/M) （2）

N_KH=k×(N/M) （3）

其中，N为FFT变化长度。

由于背景噪声的频谱大多数情况都分布在低频或中频段，因此在高频部分，语音段的高频信噪比会明显高于非语音段的高频信噪比，这对于区分语音和噪声是非常有效的，因此，子带分解使系统具备一定的抗噪特性，使得系统及时在噪声环境下能够根据语音和噪声信号的频带分布，得到较为鲁棒的判决依据，是目前语音端点检测系统优选采用的主流技术。

在本步骤中计算并记录所有帧的子带能量，用作后续的最小能量追踪和最大能量追踪。

步骤103：基于记录的子带能量进行最小能量追踪和最大能量追踪。

本步骤中在进行追踪时，可以针对待检测信号的各子带分别确定出一个最小能量和一个最大能量。

也可以采用局部追踪的方式，即针对每一帧分别从临近Q帧的子带能量中确定出最小能量和最大能量，Q为预设的正整数。确定出的实际上就是每一帧的局部最小能量和局部最大能量，通过这种方式每一帧的各子带都对应有最小能量和最大能量。

最小能量追踪是现有语音端点检测系统中经常采用的技术，它通过追踪输入信号的局部最小能量值，并以此作为背景噪声的度量值，进而计算子带信噪比进行语音判决。然而如前所述，过低的局部最小能量可能造成子带信噪比的动态范围过大，使得检测结果鲁棒性变差，虚警率变高。因此在发明实施例中引入了最大能量追踪，其作用是通过追踪局部最大能量值确定噪声掩蔽的程度，即确定在噪声掩蔽时加入多少噪声进行掩蔽。

步骤104：对待检测信号和追踪到的最小能量进行噪声掩蔽，其中噪声掩蔽所使用的掩蔽噪声能量由追踪到的最大能量确定。

在进行噪声掩蔽时，首先要确定出使用的掩蔽噪声能量，可以采用如下公式确定掩蔽噪声能量E_NM：

其中为追踪到的最大能量，此处表示局部最大能量，当采用整体追踪的方式时，也可以为整体的最大能量，P为预设的噪声掩蔽强度，其取值范围可以为[25,30]dB，如果掩蔽噪声的能量过大，可能导致待检测信号整体信噪比降低，如果掩蔽噪声的能量过小，则可能导致待检测信号起不到噪声掩蔽的作用，通常25~30dB是一个较为合适的区间，既能够降低子带信噪比的动态范围，避免奇异值出现，又不会影响到待检测信号的整体信噪比。

如果采用局部追踪的方式，由于每一帧都对应有一个最大能量，因此每一帧都对应有一个掩蔽噪声能量。

所谓噪声掩蔽就是在待检测信号和追踪到的最小能量上叠加掩蔽噪声能量E_NM，假设追踪到的最小能量为则掩蔽后的最小能量为：

对待检测信号的每一帧都进行噪声掩蔽，假设当前帧的能量为E_cur，则经过噪声掩蔽后，当前帧的能量E_cur'为：

E_cur'=E_cur+E_NM （6）

需要说明的是，在本步骤中针对各子带分别采用公式（5）和（6）得到的掩蔽后当前帧的各子带最小能量和掩蔽后当前帧各子带的能量。

可以看到，经过噪声掩蔽后的最小能量变大了，也就意味着子带信噪比的动态范围变小了，在一定程度上避免了奇异值出现。

步骤105：利用噪声掩蔽后得到的待检测信号和追踪到的最小能量确定各帧的信噪比。

经过噪声掩蔽后，每一帧的各子带均能确定出信噪比，具体地在确定当前帧中第i个子带的信噪比SNR_i时：

其中，E_cur,i为当前帧第i个子带的子带能量，E_NM，i为当前帧第i个子带的掩蔽噪声能量，为追踪得到的当前帧第i个子带的最小能量；然后将每一帧中各子带的信噪比进行求平均，或者加权求和等方式确定出每一帧的信噪比。由于噪声频谱通常集中在低频或者中频段，因此可以仅采用中高频段子带的信噪比进行求平均确定每一帧的信噪比，或者将高频段子带的信噪比赋予较高的权值来确定每一帧的信噪比。

步骤106：依据各帧的信噪比以及预设的门限值进行语音判决，从而确定语音端点。

在本步骤中，将各帧的信噪比与预设的门限值进行比较，如果当前帧的信噪比大于或者等于门限值，则判定当前帧为语音帧，否则判定当前帧为非语音帧。

在此采用的门限值可以是经验值或者实验值，也可以是一个动态确定的值，即基于待检测信号的前L帧为非语音帧的假设，L为预设的正整数，利用待检测信号前L帧的信噪比确定门限值，具体可以采用如下公式计算门限值Thr：

Thr=α×SNR_begin （8）

其中，SNR_begin为前L帧信噪比的平均值，α为预设的参数值，可以根据经验或者实验选取，例如选择α为1.3。

除了上述实施例一中所示的优选实施方式之外，在步骤103中可以不必进行最大能量追踪，而在步骤104中直接采用固定的掩蔽噪声能量对待检测信号和追踪到的最小能量进行噪声掩蔽。当采用这种方式时，采用的掩蔽噪声能量可以采用经验值或实验值。

需要说明的是，上述实施例一提供了一种优选的实施方式，其中对待检测信号进行了子带分解，也可以不进行子带分解，将待检测信号作为一个频带进行处理，这种情况下无需执行步骤102，此时计算并记录的不是各帧的子带能量，而直接是各帧的能量，在步骤103中基于记录的各帧的能量进行最小能量追踪和最大能量追踪（如果采用固定的掩蔽噪声能量则不需进行最大能量追踪），在步骤105中确定各帧的信噪比时，直接利用公式（7）确定出各帧的信噪比。

以上是对本发明所提供的方法进行的描述，下面通过实施例二对本发明所提供的装置进行详细描述。

实施例二、

图2为本发明实施例二提供的检测语音端点的装置结构图，如图2所示，该装置可以包括：预处理单元200、能量确定单元210、能量追踪单元220、噪声掩蔽单元230、信噪比确定单元240和语音判决单元250。

预处理单元200对待检测信号进行预处理后提供给能量确定单元210，预处理包括分帧、预加重、加窗和快速傅里叶变换。该单元为现有技术中的已有单元，本发明对该单元并没有进行变更。

能量确定单元210确定并记录待检测信号各帧的能量。

能量追踪单元220基于各帧的能量进行最小能量追踪，即追踪出最小能量，用于后续信噪比的计算。

噪声掩蔽单元230利用掩蔽噪声能量对待检测信号和追踪到的最小能量进行噪声掩蔽。其中利用的掩蔽噪声能量可以是固定的经验值或实验值，也可以是动态确定出的值，这种情况下需要能量追踪单元220进一步进行最大能量追踪，掩蔽噪声能量根据追踪到的最大能量确定，该部分内容将在后续进行详细描述。

信噪比确定单元240利用噪声掩蔽后得到的待检测信号和最小能量确定各帧的信噪比。

语音判决单元250依据各帧的信噪比以及预设的门限值进行语音判决，从而确定语音端点。具体地，如果当前帧的信噪比大于或等于门限值，则判定当前帧为语音帧，否则判定当前帧为非语音帧。其中，门限值可以采用预设的经验值或实验值；也可以基于前L帧为非语音帧的假设，利用待检测信号前L帧的信噪比乘以预设的参数值确定，L为预设的正整数，即采用实施一中的公式（8）。

优选地，为了实现动态确定掩蔽噪声能量的方式，能量追踪单元220还用于基于各帧的能量进行最大能量追踪。此时噪声掩蔽单元230采用的掩蔽噪声能量由追踪得到的最大能量确定。

具体地，掩蔽噪声能量E_NM由以下公式确定：

其中为追踪到的最大能量，P预设的噪声掩蔽强度。

依据能量追踪单元220所采用的追踪方式不同，上述装置的实现可以包括以下两种：

第一种：能量追踪单元220采用整体能量追踪，即所有帧追踪出一个最小能量和一个最大能量（这是在不进行子带分解的情况下，如果进行子带分解，则每一个子带追踪出一个最小能量和一个最大能量）。

信噪比确定单元240确定各帧的信噪比时，利用当前帧进行噪声掩蔽后的能量和追踪出的最小能量进行噪声掩蔽后的能量的比值作为当前帧的信噪比。

第二种：能量追踪单元220采用局部能量追踪，即最小能量追踪和最大能量追踪均为局部追踪，具体为：能量追踪单元220针对每一帧分别从其临近Q帧的能量中确定出每一帧对应的最小能量和最大能量，Q为预设的正整数，例如Q取200。采用这种局部能量追踪的方式，每一帧都对应有一个最小能量和最大能量（不进行子带分解的情况下，如果进行子带分解，则每一帧的每一个子带都对应有一个最小能量和最大能量）。

噪声掩蔽单元230对每一帧以及每一帧对应的最小能量采用依据该帧对应的最大能量确定出的掩蔽噪声能量进行噪声掩蔽。

信噪比确定单元240确定每一帧的信噪比为：该帧进行噪声掩蔽后的能量与该帧对应的最小能量进行噪声掩蔽后的能量的比值。

在本实施例中还存在一种优选的实施方式，即对待检测信号进行子带分解，基于各子带分别进行能量追踪和噪声屏蔽，并确定各帧的信噪比，下面对这种情况进行描述。

此时，能量确定单元210具体对待检测信号进行子带分解，确定并记录各帧的子带能量，即各帧中每一个子带的能量。

能量追踪单元220和噪声掩蔽单元230针对各帧中的每一个子带分别进行处理：能量追踪单元220针对各帧的各子带分别追踪出最小能量和最大能量，追踪方式可以采用整体追踪或局部追踪。如果是整体追踪，则待检测信号中每一个子带都追踪出一个最小能量和最大能量；如果是局部追踪，则每一帧的每一个子带都追踪出一个最小能量和最大能量。噪声掩蔽单元230除了对待检测信号的每一帧的每一个子带都进行噪声掩蔽之外，对每一帧的每一个子带对应的最小能量都进行噪声掩蔽。

此时，信噪比确定单元240在确定各帧的信噪比时，具体执行以下操作：

操作1：针对每一帧分别确定各子带的信噪比，具体采用如下公式确定当前帧中第i个子带的信噪比SNR_i：

其中，E_cur，i为当前帧第i个子带的子带能量，E_NM,i为当前帧第i个子带的掩蔽噪声能量，为追踪得到的当前帧第i个子带的最小能量，该最小能量可以是整体追踪出的最小能量，也可以是局部追踪出的最小能量。

操作2：将每一帧中各子带的信噪比求平均或加权求和确定出每一帧的信噪比。由于噪声频谱通常集中在低频或者中频段，因此可以仅采用中高频段子带的信噪比进行求平均确定每一帧的信噪比，或者将高频段子带的信噪比赋予较高的权值来确定每一帧的信噪比。

由以上描述可以看出，本发明提供的方法和装置具备以下优点：

1）本发明通过噪声掩蔽的方式避免了局部最小能量趋近于零而导致的出现奇异值的情况，降低了虚警率；同时缩小了子带信噪比的动态范围，提高了检测结果的鲁棒性。

2）将噪声掩蔽强度控制在25~30dB，对待检测信号的整体信噪比几乎不产生影响，也就是对语音检测的漏报率不会产生影响。

3）掩蔽噪声能量通过局部最大能量确定，是动态可调的，这一点与语音信号的短时平稳性一致，局部追踪策略也可以降低突发噪声对系统性能的影响。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种检测语音端点的方法，其特征在于，该方法包括：

S1、确定并记录待检测信号各帧的能量；

S2、基于所述各帧的能量进行最小能量追踪；

2.根据权利要求1所述的方法，其特征在于，所述步骤S2中还包括：基于所述各帧的能量进行最大能量追踪；

所述掩蔽噪声能量由追踪得到的最大能量确定。

3.根据权利要求2所述的方法，其特征在于，掩蔽噪声能量E_NM由以下公式确定：

E_{NM} = \frac{E_{\max}^{sb}}{10^{\frac{P}{10}}}

其中为追踪到的最大能量，P预设的噪声掩蔽强度。

4.根据权利要求2所述的方法，其特征在于，所述最小能量追踪和最大能量追踪均为局部追踪，具体为：针对每一帧分别从其临近Q帧的能量中确定出每一帧对应的最小能量和最大能量，Q为预设的正整数；

5.根据权利要求1所述的方法，其特征在于，在所述步骤S1之前还包括：

6.根据权利要求1至5任一权项所述的方法，其特征在于，所述步骤S1具体包括：对所述待检测信号进行子带分解，确定并记录各帧的子带能量；

所述步骤S4具体包括：

{SNR}_{i} = \frac{E_{cur, i} + E_{NM, i}}{E_{\min, i}^{sb} + E_{NM, i}},

7.根据权利要求1所述的方法，其特征在于，所述依据各帧的信噪比以及预设的门限值进行语音判决为：

8.根据权利要求7所述的方法，其特征在于，所述门限值是利用所述待检测信号前L帧的信噪比乘以预设的参数值确定的，所述L为预设的正整数。

9.一种检测语音端点的装置，其特征在于，该装置包括：

能量确定单元，用于确定并记录待检测信号各帧的能量；

10.根据权利要求9所述的装置，其特征在于，所述能量追踪单元，还用于基于所述各帧的能量进行最大能量追踪；

11.根据权利要求10所述的装置，其特征在于，掩蔽噪声能量E_NM由以下公式确定：

E_{NM} = \frac{E_{\max}^{sb}}{10^{\frac{P}{10}}}

其中为追踪到的最大能量，P预设的噪声掩蔽强度。

12.根据权利要求10所述的装置，其特征在于，所述最小能量追踪和最大能量追踪均为局部追踪，具体为：所述能量追踪单元针对每一帧分别从其临近Q帧的能量中确定出每一帧对应的最小能量和最大能量，Q为预设的正整数；

13.根据权利要求9所述的装置，其特征在于，该装置还包括：预处理单元，用于对所述待检测信号进行预处理后提供给所述能量确定单元，所述预处理包括分帧、预加重、加窗和快速傅里叶变换。

14.根据权利要求9至13任一权项所述的装置，其特征在于，所述能量确定单元具体对所述待检测信号进行子带分解，确定并记录各帧的子带能量；

所述信噪比确定单元具体执行：

针对每一帧分别确定各子带的信噪比，具体采用如下公式确定当前帧中第i个子带的信噪比SNR_i：

{SNR}_{i} = \frac{E_{cur, i} + E_{NM, i}}{E_{\min, i}^{sb} + E_{NM, i}},

15.根据权利要求9所述的装置，其特征在于，所述语音判断单元在进行语音判决时，如果当前帧的信噪比大于或等于所述门限值，则判定当前帧为语音帧，否则判定当前帧为非语音帧。

16.根据权利要求15所述的装置，其特征在于，所述门限值是利用所述待检测信号前L帧的信噪比乘以预设的参数值确定的，所述L为预设的正整数。