CN103578466B - 基于分数阶傅里叶变换的语音非语音检测方法 - Google Patents

基于分数阶傅里叶变换的语音非语音检测方法 Download PDF

Info

Publication number
CN103578466B
CN103578466B CN201310557124.5A CN201310557124A CN103578466B CN 103578466 B CN103578466 B CN 103578466B CN 201310557124 A CN201310557124 A CN 201310557124A CN 103578466 B CN103578466 B CN 103578466B
Authority
CN
China
Prior art keywords
fractional order
frequency spectrum
order
voice
alpha
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310557124.5A
Other languages
English (en)
Other versions
CN103578466A (zh
Inventor
张卫强
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201310557124.5A priority Critical patent/CN103578466B/zh
Publication of CN103578466A publication Critical patent/CN103578466A/zh
Application granted granted Critical
Publication of CN103578466B publication Critical patent/CN103578466B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了语音信号处理领域的一种基于分数阶傅里叶变换的语音非语音检测方法。其技术方案是,首先对音频信号分帧,然后进行零均值化和加窗处理,接着对每帧信号进行不同阶次的分数阶傅里叶变换,得到其分数阶频谱,然后计算分数阶频谱熵,选择各个阶次中最大的分数阶频谱熵,与阈值进行比较即可得到判决结果。该方法处理方法统一,流程简单,可以有效提高语音非语音检测的性能;可以实现音频信号中静音、噪音、音乐等“垃圾”信号的有效过滤。

Description

基于分数阶傅里叶变换的语音非语音检测方法
技术领域
本发明属于语音信号处理领域,尤其涉及一种基于分数阶傅里叶变换的语音非语音检测方法。
背景技术
在语音信号处理中,音频数据的预处理是非常重要的一个环节。其功能是去除语音信号之外的非语音信号,具体包括静音、噪声、音乐等,从而得到较为“干净”的语音数据,供后续模块进行处理。
目前,对于静音、噪声、音乐等处理有各自的算法。例如对于静音处理,有较成熟的VAD(语音活动检测)算法,如G.723.1、子带频谱熵等算法;对于噪声处理,有较成熟的降噪或去噪算法,如小波降噪算法、维纳滤波算法;对于音乐处理,有语音音乐分类算法,如MLER(改进的低能量率)算法、GMM(高斯混合模型)算法。这些算法可以分别应对不同的非语音类型,在构建实际应用系统时,一般需要将这些模块进行串联,从而达到处理各种非语音的目的。但是这样带来的问题是系统实现复杂,处理框架不统一。
发明内容
针对背景技术中提到的目前存在的语音信号处理方法无法达到处理各种非语音的问题,本发明提出了一种基于分数阶傅里叶变换的语音非语音检测方法。
一种基于分数阶傅里叶变换的语音非语音检测方法,其特征在于,所述方法具体包括以下步骤:
步骤1:对音频信号按帧长25ms,帧移10ms进行分帧处理;
步骤2:对分帧处理后的每帧信号进行零均值化和加窗处理;
步骤3:在步骤2的基础上,对每帧信号进行不同阶次的分数阶傅里叶变换,得到不同阶次的分数阶频谱;
步骤4:对每一阶次的分数阶频谱,计算其分数阶频谱熵;
步骤5:对不同阶次的分数阶频谱熵取最大值,并将最大值与设定的阈值进行比较,如果大于阈值,则判决为非语音;否则,判决为语音。
所述加窗处理指的是对分帧处理后的每帧信号加汉明窗或汉宁窗。
所述不同阶次的设定为:阶次从0到1,每隔0.05进行一次。
所述对每帧信号进行不同阶次的分数阶傅里叶变换的公式为:
X p ( u ) = ∫ - ∞ + ∞ K p ( u , t ) x ( t ) dt
其中,x(t)是加窗后的信号,Xp(u)是信号p阶傅里叶变换,Kp(u,t)是p阶傅里叶变换的核函数,其定义为, K p ( u , t ) = A α e jπ { t 2 cot α - 2 ut csc α + u 2 cot α } , α ≠ nπ δ ( t - u ) , α = 2 nπ δ ( t + u ) , α = 2 nπ ± π , n为整数,是归一化系数,α=pπ/2;p为变换的阶次。
所述对每一阶次的分数阶频谱,计算其分数阶频谱熵的过程为:
步骤401:根据分数阶频谱子带能量公式计算分数阶频谱子带能量;所述分数阶频谱子带能量公式为:
e p ( m ) = Σ u = L m U m | X p ( u ) | 2 ;
其中,Lm和Um是第m个子带的下限和上限频率,共M个子带,Xp(u)为阶次为P时的分数阶频谱;
步骤402:计算分数阶频谱总能量:
E p = Σ m = 1 M e p ( m ) ;
步骤403:计算分数阶频谱熵:
H p = - Σ m = 1 M e p ( m ) E p log e p ( m ) E p .
本发明的有益效果是,基于分数阶傅里叶变换的语音非语音检测方法可以实现音频信号中静音、噪音、音乐等“垃圾”信号的有效过滤,且处理流程简单。采用该方法,可以有效提高提高语音非语音检测的性能。
说明书附图
图1是本发明提供的一种基于分数阶傅里叶变换的语音非语音检测方法的流程图;
图2是本发明中求取分数阶频谱熵的步骤流程图。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
图1是本发明提供的一种基于分数阶傅里叶变换的语音非语音检测方法的流程图。图1中,一种基于分数阶傅里叶变换的语音非语音检测方法,其特征在于,所述方法具体包括以下步骤:
步骤1:对音频信号按帧长25ms,帧移10ms进行分帧处理;
步骤2:对分帧处理后的每帧信号进行零均值化和加窗处理;
步骤3:在步骤2的基础上,对每帧信号进行不同阶次的分数阶傅里叶变换,得到不同阶次的分数阶频谱;
所述不同阶次的设定为:阶次从0到1,每隔0.05进行一次;
所述对每帧信号进行不同阶次的分数阶傅里叶变换的公式为:
X p ( u ) = ∫ - ∞ + ∞ K p ( u , t ) x ( t ) dt
其中,其中,x(t)是加窗后的信号,Xp(u)是信号p阶傅里叶变换,Kp(u,t)是p阶傅里叶变换的核函数,其定义为, K p ( u , t ) = A α e jπ { t 2 cot α - 2 ut csc α + u 2 cot α } , α ≠ nπ δ ( t - u ) , α = 2 nπ δ ( t + u ) , α = 2 nπ ± π , n为整数,是归一化系数,α=pπ/2;p为变换的阶次;
步骤4:对每一阶次的分数阶频谱,计算其分数阶频谱熵;
步骤5:对不同阶次的分数阶频谱熵取最大值,并将最大值与设定的阈值进行比较,如果大于阈值,则判决为非语音;否则,判决为语音。
图2是本发明中求取分数阶频谱熵的步骤流程图。图2中,对每一阶次的分数阶频谱,计算其分数阶频谱熵的过程为:
步骤201:根据分数阶频谱子带能量公式计算分数阶频谱子带能量;所述分数阶频谱子带能量公式为:
e p ( m ) = Σ u = L m U m | X p ( u ) | 2 ;
其中,Lm和Um是第m个子带的下限和上限频率,共M个子带,Xp(u)为阶次为P时的分数阶频谱;对于采样率为8000Hz的电话音频,可以将整个分数阶频谱等分为4个子带,当阶次p=1时划分如下:
子带编号m 下限频率Lm(Hz) 上限频率Um(Hz)
1 0 1000
2 1000 2000
3 2000 3000
4 3000 4000
步骤202:计算分数阶频谱总能量:
E p = Σ m = 1 M e p ( m ) ;
步骤203:计算分数阶频谱熵:
H p = - Σ m = 1 M e p ( m ) E p log e p ( m ) E p .
本发明的关键模块在于分数阶频谱熵,它是普通频谱熵的推广。对于突发白噪声,其短时频谱在时间方向变化很大,但在频率方向是平坦的,所以其p=1阶的分数阶频谱熵取值较大;对于音乐,其短时频谱在频率方向变化很大,但在时间方向比较平坦,所以其p=0阶的分数阶频谱熵取值较大;对于静音,其短时频谱在时间方向和频率方向都比较平坦,所以其各阶次的分数阶频谱熵取值都较大;而对于正常的语音数据,其短时频谱在时间方向和频率方向变化都比较大,所以其各阶次的分数阶频谱熵取值都较小。根据以上原理,我们可以计算各个阶次的分数阶频谱熵,然后从中选取数值较大的一个与阈值进行比较,从而得到语音和非语音(包括噪声、静音和音乐)的判决结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种基于分数阶傅里叶变换的语音非语音检测方法,其特征在于,所述方法具体包括以下步骤:
步骤1:对音频信号按帧长25ms,帧移10ms进行分帧处理;
步骤2:对分帧处理后的每帧信号进行零均值化和加窗处理;
步骤3:在步骤2的基础上,对每帧信号进行不同阶次的分数阶傅里叶变换,得到不同阶次的分数阶频谱;
步骤4:对每一阶次的分数阶频谱,计算其分数阶频谱熵;
步骤5:对不同阶次的分数阶频谱熵取最大值,并将最大值与设定的阈值进行比较,如果大于阈值,则判决为非语音;否则,判决为语音。
2.根据权利要求1所述的方法,其特征在于,所述加窗处理指的是对分帧处理后的每帧信号加汉明窗或汉宁窗。
3.根据权利要求1所述的方法,其特征在于,所述不同阶次的设定为:阶次从0到1,每隔0.05进行一次。
4.根据权利要求1所述的方法,其特征在于,所述对每帧信号进行不同阶次的分数阶傅里叶变换的公式为:
X p ( u ) = ∫ - ∞ + ∞ K p ( u , t ) x ( t ) d t
其中,x(t)是加窗后的信号,Xp(u)是信号p阶傅里叶变换,Kp(u,t)是p阶傅里叶变换的核函数,其定义为 K p ( u , t ) = A α e j π { t 2 cot α - 2 u t csc α + u 2 cot α } , α ≠ n π δ ( t - u ) , α = 2 n π δ ( t + u ) , α = 2 n π ± π , n为整数,是归一化系数,α=pπ/2;p为变换的阶次。
5.根据权利要求1所述的方法,其特征在于,所述对每一阶次的分数阶频谱,计算其分数阶频谱熵的过程为:
步骤401:根据分数阶频谱子带能量公式计算分数阶频谱子带能量;所述分数阶频谱子带能量公式为:
e p ( m ) = Σ u = L m U m | X p ( u ) | 2 ;
其中,Lm和Um是第m个子带的下限和上限频率,共M个子带,Xp(u)为阶次为p时的分数阶频谱;
步骤402:计算分数阶频谱总能量:
E p = Σ m = 1 M e p ( m ) ;
步骤403:计算分数阶频谱熵:
H p = - Σ m = 1 M e p ( m ) E p log e p ( m ) E p .
CN201310557124.5A 2013-11-11 2013-11-11 基于分数阶傅里叶变换的语音非语音检测方法 Expired - Fee Related CN103578466B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310557124.5A CN103578466B (zh) 2013-11-11 2013-11-11 基于分数阶傅里叶变换的语音非语音检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310557124.5A CN103578466B (zh) 2013-11-11 2013-11-11 基于分数阶傅里叶变换的语音非语音检测方法

Publications (2)

Publication Number Publication Date
CN103578466A CN103578466A (zh) 2014-02-12
CN103578466B true CN103578466B (zh) 2016-02-10

Family

ID=50050119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310557124.5A Expired - Fee Related CN103578466B (zh) 2013-11-11 2013-11-11 基于分数阶傅里叶变换的语音非语音检测方法

Country Status (1)

Country Link
CN (1) CN103578466B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
CN104467969B (zh) * 2014-12-10 2017-03-22 北京理工大学 分数阶傅里叶变换测量光纤链路色散的方法
CN105810222A (zh) * 2014-12-30 2016-07-27 研祥智能科技股份有限公司 一种音频设备的缺陷检测方法、装置及系统
CN108523873B (zh) * 2018-01-31 2021-11-16 北京理工大学 基于分数阶傅里叶变换和信息熵的心电信号特征提取方法
CN115295003A (zh) * 2022-10-08 2022-11-04 青岛民航凯亚系统集成有限公司 对民航机务维修领域的语音降噪方法及系统
CN117457016B (zh) * 2023-11-02 2024-07-30 北京云上曲率科技有限公司 一种过滤无效语音识别数据的方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599269A (zh) * 2009-07-02 2009-12-09 中国农业大学 语音端点检测方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599269A (zh) * 2009-07-02 2009-12-09 中国农业大学 语音端点检测方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Entropy Based Voice Activity Detection in Very Noisy Conditions;Philippe Renevey et al;《EUROSPEECH 2001》;20010907;1887-1890 *
Robust Speech Endpoint Detection Based on MP3 File in Various Noisy Environments;Fang Wang et al;《ICALIP2008》;20081231;全文 *
基于分数阶域的语音活动性检测算法研究;徐岩,李洋洋;《兰州交通大学学报》;20121231;第31卷(第6期);全文 *

Also Published As

Publication number Publication date
CN103578466A (zh) 2014-02-12

Similar Documents

Publication Publication Date Title
CN103578466B (zh) 基于分数阶傅里叶变换的语音非语音检测方法
CN101894563B (zh) 语音增强的方法
CN105390142B (zh) 一种数字助听器语音噪声消除方法
Wu et al. A two-stage algorithm for one-microphone reverberant speech enhancement
CN101582264A (zh) 语音增强的方法及语音增加的声音采集系统
CN101599274B (zh) 语音增强的方法
CN101976566B (zh) 语音增强方法及应用该方法的装置
US9805738B2 (en) Formant dependent speech signal enhancement
CN110536215A (zh) 音频信号处理的方法、装置、计算设置及存储介质
CN102097095A (zh) 一种语音端点检测方法及装置
CN101083640A (zh) 低复杂度的降噪方法
CN101763858A (zh) 双麦克风信号处理方法
CN102074245A (zh) 基于双麦克风语音增强装置及语音增强方法
CN102074246A (zh) 基于双麦克风语音增强装置及方法
CN105225672B (zh) 融合基频信息的双麦克风定向噪音抑制的系统及方法
CN104810024A (zh) 一种双路麦克风语音降噪处理方法及系统
CN102646415B (zh) 一种语音识别中的特征参数提取方法
CN105489226A (zh) 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法
Jangjit et al. A new wavelet denoising method for noise threshold
CN102314883B (zh) 一种判断音乐噪声的方法以及语音消噪方法
WO2015005914A1 (en) Methods and apparatus for dynamic low frequency noise suppression
Ambikairajah et al. Wavelet transform-based speech enhancement
CN109102823A (zh) 一种基于子带谱熵的语音增强方法
CN102637438B (zh) 一种语音滤波方法
Lee et al. Voice activity detection algorithm using perceptual wavelet entropy neighbor slope

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20161205

Address after: 100084 Zhongguancun Haidian District East Road No. 1, building 8, floor 8, A803B,

Patentee after: BEIJING HUA KONG CHUANG WEI INFORMATION TECHNOLOGY CO.,LTD.

Address before: 100084 Beijing, Beijing, 100084-82 mailbox

Patentee before: Tsinghua University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200420

Address after: 100084 Beijing city Haidian District Shuangqing Road No. 30 box 100084-82

Patentee after: TSINGHUA University

Address before: 100084 Zhongguancun Haidian District East Road No. 1, building 8, floor 8, A803B,

Patentee before: BEIJING HUA KONG CHUANG WEI INFORMATION TECHNOLOGY Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160210