基于分数阶傅里叶变换的语音非语音检测方法
技术领域
本发明属于语音信号处理领域,尤其涉及一种基于分数阶傅里叶变换的语音非语音检测方法。
背景技术
在语音信号处理中,音频数据的预处理是非常重要的一个环节。其功能是去除语音信号之外的非语音信号,具体包括静音、噪声、音乐等,从而得到较为“干净”的语音数据,供后续模块进行处理。
目前,对于静音、噪声、音乐等处理有各自的算法。例如对于静音处理,有较成熟的VAD(语音活动检测)算法,如G.723.1、子带频谱熵等算法;对于噪声处理,有较成熟的降噪或去噪算法,如小波降噪算法、维纳滤波算法;对于音乐处理,有语音音乐分类算法,如MLER(改进的低能量率)算法、GMM(高斯混合模型)算法。这些算法可以分别应对不同的非语音类型,在构建实际应用系统时,一般需要将这些模块进行串联,从而达到处理各种非语音的目的。但是这样带来的问题是系统实现复杂,处理框架不统一。
发明内容
针对背景技术中提到的目前存在的语音信号处理方法无法达到处理各种非语音的问题,本发明提出了一种基于分数阶傅里叶变换的语音非语音检测方法。
一种基于分数阶傅里叶变换的语音非语音检测方法,其特征在于,所述方法具体包括以下步骤:
步骤1:对音频信号按帧长25ms,帧移10ms进行分帧处理;
步骤2:对分帧处理后的每帧信号进行零均值化和加窗处理;
步骤3:在步骤2的基础上,对每帧信号进行不同阶次的分数阶傅里叶变换,得到不同阶次的分数阶频谱;
步骤4:对每一阶次的分数阶频谱,计算其分数阶频谱熵;
步骤5:对不同阶次的分数阶频谱熵取最大值,并将最大值与设定的阈值进行比较,如果大于阈值,则判决为非语音;否则,判决为语音。
所述加窗处理指的是对分帧处理后的每帧信号加汉明窗或汉宁窗。
所述不同阶次的设定为:阶次从0到1,每隔0.05进行一次。
所述对每帧信号进行不同阶次的分数阶傅里叶变换的公式为:
其中,x(t)是加窗后的信号,Xp(u)是信号p阶傅里叶变换,Kp(u,t)是p阶傅里叶变换的核函数,其定义为, n为整数,是归一化系数,α=pπ/2;p为变换的阶次。
所述对每一阶次的分数阶频谱,计算其分数阶频谱熵的过程为:
步骤401:根据分数阶频谱子带能量公式计算分数阶频谱子带能量;所述分数阶频谱子带能量公式为:
其中,Lm和Um是第m个子带的下限和上限频率,共M个子带,Xp(u)为阶次为P时的分数阶频谱;
步骤402:计算分数阶频谱总能量:
步骤403:计算分数阶频谱熵:
本发明的有益效果是,基于分数阶傅里叶变换的语音非语音检测方法可以实现音频信号中静音、噪音、音乐等“垃圾”信号的有效过滤,且处理流程简单。采用该方法,可以有效提高提高语音非语音检测的性能。
说明书附图
图1是本发明提供的一种基于分数阶傅里叶变换的语音非语音检测方法的流程图;
图2是本发明中求取分数阶频谱熵的步骤流程图。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
图1是本发明提供的一种基于分数阶傅里叶变换的语音非语音检测方法的流程图。图1中,一种基于分数阶傅里叶变换的语音非语音检测方法,其特征在于,所述方法具体包括以下步骤:
步骤1:对音频信号按帧长25ms,帧移10ms进行分帧处理;
步骤2:对分帧处理后的每帧信号进行零均值化和加窗处理;
步骤3:在步骤2的基础上,对每帧信号进行不同阶次的分数阶傅里叶变换,得到不同阶次的分数阶频谱;
所述不同阶次的设定为:阶次从0到1,每隔0.05进行一次;
所述对每帧信号进行不同阶次的分数阶傅里叶变换的公式为:
其中,其中,x(t)是加窗后的信号,Xp(u)是信号p阶傅里叶变换,Kp(u,t)是p阶傅里叶变换的核函数,其定义为, n为整数,是归一化系数,α=pπ/2;p为变换的阶次;
步骤4:对每一阶次的分数阶频谱,计算其分数阶频谱熵;
步骤5:对不同阶次的分数阶频谱熵取最大值,并将最大值与设定的阈值进行比较,如果大于阈值,则判决为非语音;否则,判决为语音。
图2是本发明中求取分数阶频谱熵的步骤流程图。图2中,对每一阶次的分数阶频谱,计算其分数阶频谱熵的过程为:
步骤201:根据分数阶频谱子带能量公式计算分数阶频谱子带能量;所述分数阶频谱子带能量公式为:
其中,Lm和Um是第m个子带的下限和上限频率,共M个子带,Xp(u)为阶次为P时的分数阶频谱;对于采样率为8000Hz的电话音频,可以将整个分数阶频谱等分为4个子带,当阶次p=1时划分如下:
子带编号m |
下限频率Lm(Hz) |
上限频率Um(Hz) |
1 |
0 |
1000 |
2 |
1000 |
2000 |
3 |
2000 |
3000 |
4 |
3000 |
4000 |
步骤202:计算分数阶频谱总能量:
步骤203:计算分数阶频谱熵:
本发明的关键模块在于分数阶频谱熵,它是普通频谱熵的推广。对于突发白噪声,其短时频谱在时间方向变化很大,但在频率方向是平坦的,所以其p=1阶的分数阶频谱熵取值较大;对于音乐,其短时频谱在频率方向变化很大,但在时间方向比较平坦,所以其p=0阶的分数阶频谱熵取值较大;对于静音,其短时频谱在时间方向和频率方向都比较平坦,所以其各阶次的分数阶频谱熵取值都较大;而对于正常的语音数据,其短时频谱在时间方向和频率方向变化都比较大,所以其各阶次的分数阶频谱熵取值都较小。根据以上原理,我们可以计算各个阶次的分数阶频谱熵,然后从中选取数值较大的一个与阈值进行比较,从而得到语音和非语音(包括噪声、静音和音乐)的判决结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。