CN104091603B

CN104091603B - 基于基频的端点检测系统及其计算方法

Info

Publication number: CN104091603B
Application number: CN201410221983.1A
Authority: CN
Inventors: 赵茂祥; 贾昌辉; 李全忠; 蒲瑶; 何国涛
Original assignee: Universal Information Technology (beijing) Co Ltd
Current assignee: Universal Information Technology (beijing) Co Ltd
Priority date: 2014-05-23
Filing date: 2014-05-23
Publication date: 2017-06-09
Anticipated expiration: 2034-05-23
Also published as: CN104091603A

Abstract

本发明涉及一种基于基频的端点检测系统及其计算方法，通过基频提取算法得到基频出现的所有可能位置然后由代价确定基频，但由于基频可能被低频噪声所干扰，所以利用基频出现的位置应该有谐波结构的特点来辅助判断该点是否为语音。同时，根据背景能量的自适应以加快端点检测的速度及提高检测的准确度。本发明的基于基频的端点检测系统及其计算方法在信噪比不好的情况下，能够使端点检测系统具有较高的鲁棒性。在时域难于区分噪声的情况下，此方法利用噪声信号和语音信号在频谱分布有区别于时域分布的明显不同特征，可以使噪声在频域能够正确的被区分。此方法可以广泛的应用于语音信号处理领域。

Description

基于基频的端点检测系统及其计算方法

技术领域

本发明涉及语音信号的端点检测技术，尤其涉及一种基于基频的语音信号的端点检测技术。

背景技术

端点检测技术(Voice Activity Detection)的主要目的是从给定输入的语音信号中，检测出包含有语音信号的片段，并给出其开始和结束点。近年来，随着计算机的发展，语音慢慢成为人机交互的主要方式，端点检测技术在语音识别、语音分析以及语义理解中都扮演着一个重要的角色。一个较好的语音端点检测结果对提高语音识别的准确率以及处理速度都有非常重要的作用。

目前，端点检测技术包括时域能量、语音相关性、频域熵、模型匹配等方法，这些方法在信噪比较好或者模型与应用环境比较匹配时，能取得不错的结果。在这些方法中，基于时域的短时能量端点检测技术因为其优点：1)计算速度快；2)信噪比高时(例如大于40时)，正确率高(可达到94％以上)；被广泛使用。但一旦信噪比低，这种方法就面临检测效果急剧下降的问题。其它的方法都存在类似的问题：一旦模型与环境失配或者信噪比不好的情况下，都面临检测会失效的问题。这也是端点检测的一个难点。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题就是如何提供一种端点检测计算方法，使端点检测系统具有较高的鲁棒性，即使在信噪比不好的情况下，也能保持较高的检测准确性。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于基频的端点检测系统，其特征在于，包括分帧模块，该模块对输入信号进行分帧；

语音增强模块，该模块在计算共振峰之前对语音数据进行增强处理，以避免在快速傅氏变换计算之后，基音频率之外的频段的频谱泄漏对低频的影响；并且把时域能量信息和频域信息进行结合，利用时域低能量作为背景能量阈值，对静音的部分进行过滤；

共振峰计算模块，该模块根据输入的需检测的基音范围确定自相关序列中对应的数据段，之后按顺序输出该数据段中的最大值；

代价确定模块，该模块根据共振峰的点位置和能量，计算该帧为语音输入帧的帧内代价和帧间连接代价；

动态规划模块，该模块在给定的帧内和帧间计算方法下，确定从规划起始帧至当前帧的一条代价最小路径；如果该路径的代价超过阈值，则认为当前帧为非语音输入，否则认定为语音输入；如果是语音输入，再转由时域能量判定，以保证能量不能过低，以此最后确定当前帧是否为语音信号输入；

信息融合模块，该模块利用动态规划的结果、能量适应结果、各帧音基音位置相关性、语音段定义参数、轻音补偿作为输入，对各信息进行非线性融合，以判定语音或者非语音信号开始；在信息融合判定之后，应用语音开始以及非语音开始来输出当前语音信号中语音和非语音的开始结束点，完成语音检测。

本发明还提供一种基于基频的端点检测系统的端点检测计算方法，其特征在于,包括以下步骤：

步骤一：对输入信号进行分帧；

步骤二：对语音数据进行增强处理；把时域能量信息和频域信息进行结合，利用时域低能量作为背景能量阈值，对静音的部分进行过滤；这里的背景能量阈值需要根据背景能量的变化进行相应的能量自适应；

步骤三：根据输入的需检测的基音范围确定自相关序列中对应的数据段，之后按顺序输出该数据段中的最大值，也即计算出共振峰；

步骤四：根据共振峰的点位置和能量，计算该帧为语音输入帧的代价；其中所述帧的代价包括帧内代价和帧间连接代价；

步骤五：在给定的帧内和帧间计算方法下，确定从规划起始帧至当前帧的一条代价最小路径，如果该路径的代价超过背景能量阈值，则认为当前帧为非语音输入，否则认定为语音输入；如果是语音输入，再转由时域能量判定，以保证能量不能过低，以此最后确定当前帧是否为语音信号输入；

步骤六：信息融合模块利用动态规划的结果、能量适应结果、各帧音基音位置相关性、语音段定义参数、轻音补偿作为输入，对各信息进行非线性融合，以判定语音或者非语音信号开始；在信息融合判定之后，应用语音开始以及非语音开始来输出当前语音信号中语音和非语音的开始结束点，完成语音检测。

(三)有益效果

本发明的基于基频的端点检测系统及其计算方法，通过基频提取算法得到基频以及基频出现的所有可能位置，但由于基频可能被低频噪声所干扰，所以采用基频出现的位置应该有的谐波结构的特点来辅助判断该点是否为语音。同时，根据背景能量的自适应以加快端点检测的速度。本发明的基于基频的端点检测系统及其计算方法在信噪比不好的情况下，能够使端点检测系统具有较高的鲁棒性。在时域难于区分噪声的情况下，此方法利用噪声信号和语音信号在频谱分布有区别于时域分布的明显不同特征，可以使噪声在频域能够正确的被区分。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1：本发明提供的基于基频的端点检测系统的端点检测计算方法流程方框示意图；

图2：本发明的基于基频的端点检测系统的分帧示例的示意图；

图3：本发明的基于基频的端点检测系统的共振峰计算流程示意图；

图4：本发明的基于基频的端点检测系统的动态规划流程示意图；

图5：本发明的基于基频的端点检测系统的信息融合判定语音端点检测流程示意图；

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

本实施例提供一种基于基频的端点检测系统，包括分帧模块，该模块对输入信号进行分帧；

语音增强模块在计算共振峰之前对语音数据进行增强处理，以避免在FFT计算之后，基音频率之外的频段的频谱泄漏对低频的影响；并且把时域能量信息和频域信息进行结合，利用时域低能量作为背景能量阈值，对静音的部分进行过滤；

共振峰计算模块根据输入的需检测的基音范围确定自相关序列中对应的数据段，之后按顺序输出该数据段中的最大值；

代价确定模块根据共振峰的点位置和能量，计算该帧为语音输入帧的帧内代价和帧间连接代价；

动态规划模块在给定的帧内和帧间计算方法下，确定从规划起始帧至当前帧的一条代价最小路径；如果该路径的代价超过阈值，则认为当前帧为非语音输入，否则认定为语音输入；如果是语音输入，再转由时域能量判定，以保证能量不能过低，以此最后确定当前帧是否为语音信号输入；

信息融合模块利用动态规划的结果、能量适应结果、各帧音基音位置相关性、语音段定义参数、轻音补偿作为输入，对各信息进行非线性融合，以判定语音或者非语音信号开始；在信息融合判定之后，应用语音开始以及非语音开始来输出当前语音信号中语音和非语音的开始结束点，完成语音检测。

本实施例还提供一种基于基频的端点检测系统的端点检测计算方法：

步骤一：分帧模块对输入信号进行分帧操作，由于后续需要对数据计算共振峰，本算法所采用分帧结构如图2所示，一个帧可以由一定长度(例如10ms)的语音数据组成，若干帧(例如4个帧)可组成一个计算窗口，计算窗口之间有一定的重叠，例如可以设置为3/4。在分帧操作之后，后面每个模块都是针对某个特定的计算窗口进行计算操作。

在对信号进行分帧操作之后，可以得到f_i帧的自相关序列结果数值序列s_i。从s_i中计算共振峰所在的数值序列p_i1,p_i2...p_in，定义C_ik为第i帧、第i-1帧、第i-k帧连续中k+1帧的共振峰连续位置个数，定义如下：

m表示当前帧的数值序列长度，n表示允许的位置偏移，这是因为声调对基音的影响并不总是在同一位置上，q(p_im,p_(i-j)(m+n))表示不同帧内的两个共振峰位置是是否相等，值域只有0和1。

在中文语调中，各个声调的变化都是连续变化。式中的N表示位置连续的判定条件。

如果CN_ik为第i帧的连续帧序列，则可以对连续帧序列算序列最强等差个数，表示在序列中，满足等差序列的个数。

与基音周期对应的另一个特征是谐波，N阶谐波的位置一般呈现等差的现象，表示倍频关系。

步骤二：基音一般在60HZ～500HZ之间，这样可以在计算共振峰之前可以对语音数据进行增强处理，以避免在FFT计算之后，基音频率之外的频段的频谱泄漏对低频的影响。

另外，为了加速端点检测的速度，我们把时域能量信息和频域信息进行结合，利用时域低能量作为阈值，即对一定是静音(或者在特定应用下，可被认为是静音)的部分进行过滤。这里的背景能量阈值需要根据背景能量的变化进行相应的自适应。

步骤三：生成自相关序列，根据输入的需检测的基音范围确定自相关序列中对应的数据段。之后按顺序输出该数据段中的最大值。计算过程如如3所示。

步骤四：确定代价是算法的一个核心模块，主要目的是根据共振峰的点位置和能量为基础，计算该帧为语音输入帧的代价。

在共振峰计算模块之后，会存在两个序列分别保存了共振峰的位置和能量强度。假设当前帧(第i帧)的共振峰所在的位置序列由

p_i1,p_i2...p_in 1≤n≤N

给出，每个共振位置点所对应的能量强度由序列

s_i1,s_i2...s_in 1≤n≤N

给出，N表示此次检测的共振峰个数。如果考虑连续k帧(例如k＝3)，此时当前帧中共振点的连续次数由C_ik给出，在连续共振点中的最大等差序列的个数由CN_ik给出。

代价确定包含两个方面：帧内代价和帧间连接代价，下面对两种代价计算进行说明。

帧内代价由当前帧的所有共振峰位置点的代价组成，表示为一个向量。第i帧中的共振峰位置点k的代价表示如下

cost(i,k)＝μ(s_ik,p_ik,C_ik,CN_ik) (1)

s_ik是当前位置点的能量强度，p_ik是当前共振峰的位置，该参数带有频率信息，可以用该参数来对低频和高频信息不同的倾向进行建模，如用p_ik乘以最小基频参数，然后取其对数值，此时可以表示应用更倾向于基音频率保持在较低频率。后两个参数是用于对谐波特征进行建模，可以用类似下式来表达其代价确定值：

(2)式可以表达在谐波结构越明显的语音信号出现时，其代价越小，这也是在检测过程中所期望的。δ表示帧间连续且等差的一个度量，该值越大，会提高我们对谐波结构的一个依赖，可以取值为1.2。

为了简化问题，假定(1)式中各个参数对代价确定的影响是独立可加的，可以把(1)式转化成(3)式：

cost(i,k)＝μ_s(s_ik)+η*μ_p(p_ik)+λ*μ_c(C_ik,CN_ik) (3)

其中η表示在计算过程中，对高频和低频的一个倾向性(如果没有特别的其它要求，可以设置该值为0.03)，λ用于平衡这个谐波的影响，因为不是所有的声音，都有非常明显的谐波结构和较大的能量强度，该值一般设置0.15。

由式(3)，可以确定当前计算窗口内的所有共振峰为基音点的代价开销，后续计算帧间(这里可以只采用连续5帧)最小代价，如果该代价低于阈值，则认为该共振峰是由语音信号产生的，从而将当前帧输入判定为语音信号。

两个帧间分别有不同的共振峰序列，帧间代价表示为两帧之间的任意点相连的代价，此时连接代价由式(4)给定。

步骤五：代价确定模块根据当前帧的能量强度、连续共振个数以及连续等差个数确定当前帧的代价。这种代价在动态规划时，可以认定为帧内代价，而帧间连接代价由代价确定模块的式(4)给出。动态规划模块的目的是在给定的帧内和帧间计算方法下，确定从规划起始帧至当前帧的一条代价最小路径。如果该路径的代价超过阈值，则认为当前帧为非语音输入，否则认定为语音输入。

在动态规划模块计算之后，可以确定当前输入是否为语音信号，如果是语音输入，再转由时域能量判定，以保证能量不能过低，以此最后确定当前帧是否为语音信号输入。动态规划过程如图4所示。

步骤六：信息融合模块利用动态规划结果、能量适应结果、各帧音基音位置相关性、语音段定义参数等作为输入，对各信息进行非线性融合，以判定语音或者非语音信号开始。决策过程如图5所示，判定过程主要依据各类参数、背景噪声适应值、动态规划结果。

轻音补偿过程是为了弥补本方法对轻音的检测效果不足，但在中文的发音过程，都是浊音和轻音相间的，很少存在单独完全是轻音的发音过程。

基音位置相关的判定是过程需要，实际上这也带来一定的提升，如在说话过程完成之后，存在一个出现假谐波的噪声，此时可能不满足基音位置相关性要求。

另外，我们希望在实际发音过程中，发音的时域能量不能一直是在背景噪声的时域能量值范围，如果这种情况发生，融合过程会对已经累计的语音长度进行惩罚。

本实施例中，将基于时域能量与过零率的双门限检测方法的结果作为一个基准的结果，与本实施例方法的结果进行比较。

其中，测试数据来源是某个语音产品在线上运营时间段采录的8k,16bit的wav格式语音数据。一共2498个语音文件。

对数据作如下处理：去除过短数据；人工听语音数据，对每个语音标识其语音段和非语音段。

基准测试结果所采用的方法是双门限端点检测方法，这种方法是根据能量和过零率来进行语音端点检测。

基准方法先根据语音信号的短时能量选取一个较高的门限，进行一次粗判，然后再根据背景噪声选择一个较低的门限。最后，在此基础上，根据过零率来最终决定语音信号的起止点。

基准方法测试结果如表1，其中SNR指的是信噪比：

	正确率
		SNR>＝40	93.58％
30<＝SNR<40	91.02％
		20<＝SNR<30	62.71％
10<＝SNR<20	31.08％
		SNR<10	3.57％

表1

本发明提供的基于基频端点检测系统的端点测试结果如表2：

	正确率
		SNR>＝40	98.5％
30<＝SNR<40	96.6％
		20<＝SNR<30	87.1％
10<＝SNR<20	56％
		SNR<10	27.6％

表2

以上实施方式仅用于说明本发明，而非对本发明的限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行各种组合、修改或者等同替换，都不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.基于基频的端点检测系统，其特征在于，包括分帧模块，该模块对输入信号进行分帧；

语音增强模块，该模块在计算共振峰之前对语音数据进行增强处理，以避免在FFT计算之后，基音频率之外的频段的频谱泄漏对低频的影响；并且把时域能量信息和频域信息进行结合，利用时域低能量作为背景能量阈值，对静音的部分进行过滤；

2.一种根据权利要求1所述的基于基频的端点检测系统的端点检测计算方法，其特征在于,包括以下步骤：

步骤一：对输入信号进行分帧；