CN105185386A - 基于两步排列熵的语音活动检测方法 - Google Patents

基于两步排列熵的语音活动检测方法 Download PDF

Info

Publication number
CN105185386A
CN105185386A CN201510629748.2A CN201510629748A CN105185386A CN 105185386 A CN105185386 A CN 105185386A CN 201510629748 A CN201510629748 A CN 201510629748A CN 105185386 A CN105185386 A CN 105185386A
Authority
CN
China
Prior art keywords
voice signal
frame
arrangement
voice
activity detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510629748.2A
Other languages
English (en)
Other versions
CN105185386B (zh
Inventor
徐宁
李海燕
鲍静益
蒋爱民
刘小峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201510629748.2A priority Critical patent/CN105185386B/zh
Publication of CN105185386A publication Critical patent/CN105185386A/zh
Application granted granted Critical
Publication of CN105185386B publication Critical patent/CN105185386B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于两步排列熵的语音活动检测方法,其特征是,具体包括如下步骤:(1)对语音信号进行分帧处理,得到各帧语音信号;(2)计算各帧语音信号的短时能量;(3)各帧语音信号进行第一步排列熵计算;(4)通过短时能量和排列熵,作第一步判断,检测噪声和语音信号;(5)对检测出的语音信号进行第二步排列熵计算;(6)判断语音信号的清浊音。本发明所达到的有益效果:充分利用了语音信号帧数之间的准周期性,利用排列熵作为语音信号复杂度的度量标准,实现语音活动检测的目的。

Description

基于两步排列熵的语音活动检测方法
技术领域
本发明涉及一种基于两步排列熵的语音活动检测方法,属于语音活动检测技术领域。
背景技术
语音活动检测技术是从包含语音的一段信号中确定出语音信号,在语音编码,语音识别,语音增强等方面发挥重要作用。
经过多年的发展,语音活动检测领域已经涌现出一些高效实用的算法,比如:短时能量方法,过零率方法,谱估计方法,自相关函数法等。其中以自相关函数算法为代表的检测方法目前已俨然成为了该领域公认的标准。但是这类算法亦存在某些弊端,例如:当噪声不断增大时,检测效果降低,另外,上述方法主要假设噪声为平稳高斯白噪声,对于非平稳噪声检测效果相对较差。
针对上述问题,目前已存在一些应对方案。例如,基于联合音视频信号的方法能够提高对非平稳噪声的鲁棒性,但是该方法需要附加特殊传感器,成本较高。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种基于两步排列熵的语音活动检测方法,通过计算语音信号排列熵,对背景噪声、清音、浊音进行判断。该方法对背景噪声的鲁棒性较高,计算准确高效,成本低。
为了实现上述目标,本发明采用如下的技术方案:
一种基于两步排列熵的语音活动检测方法,其特征是,具体包括如下步骤:
(1)对语音信号进行分帧处理,得到各帧语音信号;
(2)计算各帧语音信号的短时能量;
(3)各帧语音信号进行第一步排列熵计算;
(4)通过短时能量和排列熵,作第一步判断,检测噪声和语音信号;
(5)对检测出的语音信号进行第二步排列熵计算;
(6)判断语音信号的清浊音。
前述的基于两步排列熵的语音活动检测方法,其特征是,所述步骤(1)中的分帧处理通过对语音信号进行固定时长的分帧,确定帧长和帧移,得到各帧语音信号;
前述的基于两步排列熵的语音活动检测方法,其特征是,所述步骤(2)根据短时能量计算公式得到语音信号的能量。
前述的基于两步排列熵的语音活动检测方法,其特征是,所述步骤(3)中的计算第一步排列熵的工作过程包括如下步骤:
(3.1)将语音信号数字化得到时间序列;
(3.2)利用排列熵的计算公式得到该时间序列的排列熵值。
前述的基于两步排列熵的语音活动检测方法,其特征是,所述步骤(4)具体包括如下步骤:
(4.1)预先设定值ηp,计算每帧短时能量和排列熵的比值η。
(4.2)比较η与ηp的大小,如果η大于ηp,则判断为语音信号,反之,则判断为噪声。
前述的基于两步排列熵的语音活动检测方法,其特征是,所述步骤(5)中对检测的语音信号进行第二步排列熵计算包括如下步骤:
(5.1)通过计算相邻帧之间的差值,差值为正时用“1”表示,为负时用“0”表示;
(5.2)在上述步骤(5.2)的基础上,重新构建仅由“0”和“1”组成的新序列;
(5.3)计算由步骤(5.3)得到的新序列的排列熵、每帧短时能量和排列熵的比值η。
前述的基于两步排列熵的语音活动检测方法,其特征在于:所述步骤(6)中的判断清浊音的方法包括如下步骤:
(6.1)预先设定ε和ηuv,其中ε为排列熵的最大值的0.8倍,ηuv为η最大值的0.2倍;
(6.2)比较每帧语音信号的排列熵PE和ε,η和ηuv的大小,如果PE>ε并且η<ηuv,则判断该帧语音信号为清音,否则判断为浊音。
本发明所达到的有益效果:充分利用了语音信号帧数之间的准周期性,利用排列熵作为语音信号复杂度的度量标准,实现语音活动检测的目的。
附图说明
图1是清浊音波形比较图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明涉及的一种基于两步排列熵的语音活动检测方法,通过计算语音信号排列熵,对背景噪声、清音、浊音进行判断。对于含噪语音信号,首先进行第一步排列熵计算,对语音和噪声进行识别,对分离出语音信号然后进行第二步检测,计算排列熵,得到清音和浊音的判断结果。
清浊音波形比较图如图1所示。由图可知,浊音信号具有明显的单调性,在t1到t2时间内单调递减,t2到t3时间内单调递增,利用该特点,在第二步排列熵检测阶段,重构新序列时,t1到t2时间内均为0,t2到t3时间内均为1,新序列的复杂度较低,因为排列熵的值较小,清音则0和1交替出现的频率较高,排列熵值较大,利用该特性即可判断清浊音。
下面结合实例对本发明作更进一步的说明。
具体包括如下步骤:
(1)对语音信号进行分帧处理,得到各帧语音信号;
(2)计算各帧语音信号的短时能量;
(3)各帧语音信号进行第一步排列熵计算;
(4)通过短时能量和排列熵,作第一步判断,检测噪声和语音信号;
(5)对检测出的语音信号进行第二步排列熵计算;
(6)判断语音信号的清浊音;
上述步骤中,步骤(1)~(4)为噪声和语音信号的判断步骤,步骤(5)~(6)为清浊音和浊音的判断步骤。
步骤(3)和(5)中的排列熵,是一种基于复杂性量度的非线性动力学参数,能够快速、有效地反映系统的特征。
下面简要介绍排列熵的计算方法:
给定一个时间序列{x(i),i=1,2,…,N},长度为N,构成一个嵌入因子为n的新的嵌入向量序列{X(i),i=1,2,...,N-n+1},其中X(i)=[x(i),x(i+1),...,x(i+n-1)]。
对于一个长度为n的序列共有n!个不同的排列。
假设Q(πj)表示X(i)中属于j型排列的个数,其中j=1,2,…,n!。
因此频率P(πj)可以表示为:
P ( π j ) = Q ( π j ) N - n + 1 - - - ( 1 )
根据所求概率,排列熵由下式得到:
标准化排列熵PE为:
PE n = P E ( n ) n - 1 - - - ( 3 )
时间序列复杂度越高,排列熵的值越大。
在第一步排列熵检测阶段(步骤3):
(3.1)对语音信号进行分帧,帧长20ms,帧重叠间隔10ms。
(3.2)利用排列熵计算公式(3)得到各帧语音信号的排列熵值。
(3.2)预先设定值ηp,计算每帧短时能量和排列熵的比值η。其中,计算各帧语音信号的短时能量时,短时能量的计算公式如下:
E n = Σ i = 0 N - 1 x n 2 ( i ) - - - ( 4 )
(3.4)比较η与ηp的大小,如果η大于ηp,则判断为语音信号,反之,则判断为噪声。
在第二步排列熵检测阶段(步骤5):
(5.1)计算相邻帧之间的差值,差值为正时用“1”表示,为负时用“0”表示:
(5.2)在步骤a的基础上,重新构建仅由“0”和“1”组成的新序列。
(5.3)对步骤(5.2)得到的新序列计算排列熵PE,具体步骤与步骤3相同。
(5.4)预先设定ε和ηuv,其中ε为排列熵的最大值的0.8倍,ηuv为η最大值的0.2倍。
(5.5)比较每帧语音信号的排列熵PE和ε,η和ηuv的大小,如果PE>ε并且η<ηuv,则判断各帧语音信号为清音,否则判断为浊音。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.基于两步排列熵的语音活动检测方法,其特征是,具体包括如下步骤:
(1)对语音信号进行分帧处理,得到各帧语音信号;
(2)计算各帧语音信号的短时能量;
(3)各帧语音信号进行第一步排列熵计算;
(4)通过短时能量和排列熵,作第一步判断,检测噪声和语音信号;
(5)对检测出的语音信号进行第二步排列熵计算;
(6)判断语音信号的清浊音。
2.根据权利要求1所述的基于两步排列熵的语音活动检测方法,其特征是,所述步骤(1)中的分帧处理通过对语音信号进行固定时长的分帧,确定帧长和帧移,得到各帧语音信号。
3.根据权利要求1所述的基于两步排列熵的语音活动检测方法,其特征是,所述步骤(2)根据短时能量计算公式得到语音信号的能量。
4.根据权利要求1所述的基于两步排列熵的语音活动检测方法,其特征是,所述步骤(3)中的计算第一步排列熵的工作过程包括如下步骤:
(3.1)将语音信号数字化得到时间序列;
(3.2)利用排列熵的计算公式得到该时间序列的排列熵值。
5.根据权利要求1所述的基于两步排列熵的语音活动检测方法,其特征是,所述步骤(4)具体包括如下步骤:
(4.1)预先设定值ηp,计算每帧短时能量和排列熵的比值η。
(4.2)比较η与ηp的大小,如果η大于ηp,则判断为语音信号,反之,则判断为噪声。
6.根据权利要求5所述的基于两步排列熵的语音活动检测方法,其特征是,所述步骤(5)中对检测的语音信号进行第二步排列熵计算包括如下步骤:
(5.1)通过计算相邻帧之间的差值,差值为正时用“1”表示,为负时用“0”表示;
(5.2)在上述步骤(5.2)的基础上,重新构建仅由“0”和“1”组成的新序列;
(5.3)计算由步骤(5.3)得到的新序列的排列熵、每帧短时能量和排列熵的比值η。
7.根据权利要求6所述的基于两步排列熵的语音活动检测方法,其特征在于:所述步骤(6)中的判断清浊音的方法包括如下步骤:
(6.1)预先设定ε和ηuv,其中ε为排列熵的最大值的0.8倍,ηuv为η最大值的0.2倍;
(6.2)比较每帧语音信号的排列熵PE和ε,η和ηuv的大小,如果PE>ε并且η<ηuv,则判断该帧语音信号为清音,否则判断为浊音。
CN201510629748.2A 2015-09-28 2015-09-28 基于两步排列熵的语音活动检测方法 Expired - Fee Related CN105185386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510629748.2A CN105185386B (zh) 2015-09-28 2015-09-28 基于两步排列熵的语音活动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510629748.2A CN105185386B (zh) 2015-09-28 2015-09-28 基于两步排列熵的语音活动检测方法

Publications (2)

Publication Number Publication Date
CN105185386A true CN105185386A (zh) 2015-12-23
CN105185386B CN105185386B (zh) 2018-08-24

Family

ID=54907412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510629748.2A Expired - Fee Related CN105185386B (zh) 2015-09-28 2015-09-28 基于两步排列熵的语音活动检测方法

Country Status (1)

Country Link
CN (1) CN105185386B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444194A (zh) * 2019-06-28 2019-11-12 北京捷通华声科技股份有限公司 一种语音检测方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN104156339A (zh) * 2014-08-14 2014-11-19 石家庄铁道大学 一种利用二次排列熵识别周期微弱脉冲信号的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101625857A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
CN104156339A (zh) * 2014-08-14 2014-11-19 石家庄铁道大学 一种利用二次排列熵识别周期微弱脉冲信号的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
吴秀良等: "基于排列组合熵的语音端点检测技术研究", 《计算机工程与应用》 *
孙炯宁 等: "基于熵和能量的语音端点检测算法", 《计算机工程与设计》 *
赵晓伟 等: "基于排列熵和GMM的说话人识别系统", 《机电一体化》 *
陈四根: "一种基于信息熵的语音端点检测方法", 《应用科技》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444194A (zh) * 2019-06-28 2019-11-12 北京捷通华声科技股份有限公司 一种语音检测方法和装置
CN110444194B (zh) * 2019-06-28 2021-08-20 北京捷通华声科技股份有限公司 一种语音检测方法和装置

Also Published As

Publication number Publication date
CN105185386B (zh) 2018-08-24

Similar Documents

Publication Publication Date Title
Yang et al. Comparative study on voice activity detection algorithm
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
CN103871418B (zh) 一种扩声系统啸叫频点的检测方法及装置
CN104021789A (zh) 一种利用短时时频值的自适应端点检测方法
CN104464722A (zh) 基于时域和频域的语音活性检测方法和设备
CN104091603A (zh) 基于基频的端点检测系统及其计算方法
CN102664006A (zh) 基于时频域分析的异常人声检测方法
CN103077728B (zh) 一种病人虚弱语音端点检测方法
Harvilla et al. Least squares signal declipping for robust speech recognition
CN104409078A (zh) 异常声音检测和识别系统
EP3866164A1 (en) Audio frame loss concealment
CN103996399B (zh) 语音检测方法和系统
CN105575405A (zh) 一种双麦克风语音激活检测方法及语音采集设备
CN103674235B (zh) 基于短时傅里叶变换的单一频率报警声音特征检测方法
CN103310800B (zh) 一种抗噪声干扰的浊语音检测方法及系统
CN104463057B (zh) 一种磁卡解码方法及装置
CN106504760A (zh) 宽频带背景噪声与语音分离检测系统及方法
CN109377982B (zh) 一种有效语音获取方法
CN104867493B (zh) 基于小波变换的多重分形维数端点检测方法
CN105185386A (zh) 基于两步排列熵的语音活动检测方法
CN101308651A (zh) 音频暂态信号的检测方法
CN103475986A (zh) 基于多分辨率小波的数字助听器语音增强方法
CN101308656A (zh) 音频暂态信号的编解码方法
CN102148030A (zh) 一种语音识别的端点检测方法
Bae et al. On a new enhancement of speech signal using non-uniform sampling and post filter

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180824

Termination date: 20210928