CN104867493A - 基于小波变换的多重分形维数端点检测方法 - Google Patents
基于小波变换的多重分形维数端点检测方法 Download PDFInfo
- Publication number
- CN104867493A CN104867493A CN201510169332.7A CN201510169332A CN104867493A CN 104867493 A CN104867493 A CN 104867493A CN 201510169332 A CN201510169332 A CN 201510169332A CN 104867493 A CN104867493 A CN 104867493A
- Authority
- CN
- China
- Prior art keywords
- sigma
- dimension
- voice
- signal
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Complex Calculations (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于小波变换的多重分形维数端点检测方法,该方法包括以下步骤:使用小波变换对语音信号进行去噪处理,得到小波重构去噪后的语音信号;对小波重构之后的语音信号进行分帧处理;计算语音信号的多重分形维数,得到每一个帧窗口的多重分形维数;分别计算每一个帧窗口的多重分形维数与语音段的多重分形维数和非语音段的多重分形维数的相关性;绘制两个相关性函数的曲线图,两曲线的交汇处即为语音信号的起始点和结束点。本发明方法能在低信噪比的情况下有效进行语音信号的端点检测。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于小波变换的多重分形维数端点检测方法。
背景技术
语音识别技术作为21世纪科技的主要研究方向之一。实际生活中,语音信号往往伴有噪声或其它干扰,而语音处理系统的处理对象是有效的语音信号,这就需要采用一定技术从混杂信号中分割出有效的语音段。针对语音通信,找到有效语音的始末位置,并对其有效语音进行编码、传输,可以很大程度节省系统资源;而对于语音识别,特别是大词量的连续语音识别,语音段和音节的分割对后续的识别过程非常有益。现阶段,国内外的一些语音识别系统中已经应用了不同端点检测技术,也有许多研究者对实际应用中的端点检测进行了研究。LU Lie等人提出基于时域特征参数检测方法。这种算法基于以下原理:在信噪比较高的情况下,噪声和语音的区分点区域,由于信号帧的变化较剧烈,选取的参数是一个小于1的正数;而在噪声区间或者语音区间,由于信号不同,帧间的能量较平稳,变化不大,选取参数为0值。Rabiner等人提出基于LPC欧氏距离测度的方法,其算法主要思路是:先对这三种语音各自进行训练,得到各自的频域特性;然后利用LPC的测度和能量的非线性组合来对这三种语音进行检测。
但是,现有解决方案存在如下一些问题:在低信噪比的情况下,一些端点检测算法的效果就会显著失效。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于小波变换的多重分形维数端点检测方法。
本发明解决其技术问题所采用的技术方案是:基于小波变换的多重分形维数端点检测方法,包括以下步骤:
1)使用小波变换对语音信号进行去噪处理,得到小波重构去噪后的语音信号;
2)对小波重构之后的语音信号进行分帧处理;
3)计算语音信号的多重分形维数,得到每一个帧窗口的多重分形维数;
4)分别计算每一个帧窗口的多重分形维数与和的相关性,记语音段的相关性函数为R(X1,x),非语音段的相关性函数为R(X2,x);其中表示语音段的多重分形维数,取值为 表示非语音段的多重分形维数,取值为
5)绘制两个相关性函数R(X1,x)和R(X2,x)的曲线图,两曲线的交汇处即为语音信号的起始点和结束点。
按上述方案,所述步骤1)中小波重构语音信号,选择合适的阈值T,大于尺度T的噪音和语音信号被平滑处理。
按上述方案,所述步骤1)中阈值T的选取过程如下,在给定一个初始值之后,根据对重构之后的信号与噪音进行相关性分析自适应调整阈值T的大小。
按上述方案,所述步骤3)中语音信号多重分形维数的计算方法如下:
(3.1)对不同语音信号X(t)进行数据采集,设采样点数为M,采样频率为f,则采样间隔采样信号表示为X(k),k=1,2,3…M;
(3.2)对分形维数集合进行网格划分,在ε网格划分中,取网格宽度为εj=2jΔt,其中j为网格划分的种类数;则网格的行数和列数可以表示为s(j)=MΔt/εj;
定义m行n列的网格为mn网格,落入mn网格内的数据点数为Nmn,则mn网格覆盖信号的概率为Pmn(εj)=Nmn/M,结合General信息熵可得到:其中q为给定参数,Kq为General信息熵值;
(3.3)改变网格尺度ε大小,可计算出一系列的General信息熵Kq(εj)值,从而在lgεj-Kq(εj)图上得到无标度区范围,在该区间内进行一次曲线拟合则可获得广义维度值Dq;
(3.4)在无标度区区间内进行一次曲线拟合则可获得广义维度值Dq;
设x(j)=Kq(εj),y(j)=lgεj,拟合直线为y(j)=-Dqx(j)+b;建立最小二乘法拟合函数为使得拟合函数获得最小值的条件为:
此时,广义维数为
按上述方案,所述步骤4)中相关性的计算公式为:
其中表示第i个帧窗口所对应的多重分形维数,x为语音信号的状态空间{X1,X2}中某一种状态。
按上述方案,语音段的多重分形维数和非语音段的多重分形维数通过训练获得,具体过程如下:
(4.1)语音信号具有分形特性,通常实际生活中没有完全纯净的语音信号,我们将非纯净的语音信号定义在两个状态空间:语音段X1和非语音段X2,则有Z={X1,X2}。
(4.2)对不同语音信号X(t)进行数据采集,设采样点数为M,采样频率为f,则采样间隔采样信号表示为X(k),k=1,2,3…M;
(4.3)人为标记语音信号的语音段和非语音段,得到语音段样本空间Y1和非语音段样本空间Y2。
(4.4)依据步骤3.2)至3.4)所述多重分形维数的计算方法,得到样本空间Y1和Y2的多重分形维数集合:和其中N和M分别表示语音段和非语音段的样本数;
(4.5)语音段的多重分形维数和非语音段的多重分形维数可近似表示为:
本发明产生的有益效果是:在低信噪比的情况下有效进行语音信号的端点检测。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的语音端点检测的流程图。
图2为采样原始语音信号。
图3为小波重构去噪后的语音信号。
图4为多重分形维数相关性的拟合曲线。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,基于小波变换的多重分形维数端点检测方法,包括以下步骤:
1)使用小波变换对语音信号进行去噪处理,得到小波重构去噪后的语音信号;图2为为采样原始语音信号,图3为小波重构去噪后的语音信号。
2)对小波重构之后的语音信号进行分帧处理;
3)计算语音信号的多重分形维数,得到每一个帧窗口的多重分形维数;
具有分形特性的语音信号在一定范围尺度经过小波变换之后会表现出等价标度不变性。具体证明过程如下:J(x)表示一个基本的小波,函数f(x)∈L2(R)的连续小波变换定义为
结合2)中提到的特性,语音信号进过小波变换之后可以表示如下:
语音信号f(x)具有等价的标度指数。因此,只要保证在一定的尺度内,在经过小波重构之后的语音信号也可以计算出真实的多重分形维数。
具体如下:(3.1)对不同语音信号X(t)进行数据采集,设采样点数为M,采样频率为f,则采样间隔采样信号表示为X(k),k=1,2,3…M;
(3.2)将语音信号的分形维数视为一个集合空间,采用覆盖法,对其进行网格划分,在ε网格划分中,取网格宽度为εj=2jΔt,其中j为网格划分的种类数;则网格的行数和列数可以表示为s(j)=MΔt/εj;
定义m行n列的网格为mn网格,落入mn网格内的数据点数为Nmn,则mn网格覆盖信号的概率为Pmn(εj)=Nmn/M,结合General信息熵可得到:其中q为给定参数,Kq为General信息熵值;
(3.3)改变网格尺度ε大小,可计算出一系列的General信息熵Kq(εj)值,从而在lgεj-Kq(εj)图上得到无标度区范围,在该区间内进行一次曲线拟合则可获得广义维度值Dq;
(3.4)在无标度区区间内进行一次曲线拟合则可获得广义维度值Dq;
设x(j)=Kq(εj),y(j)=lgεj,拟合直线为y(j)=-Dqx(j)+b;建立最小二乘法拟合函数为
使得拟合函数获得最小值的条件为:
此时,广义维数为
4)分别计算每一个帧窗口的多重分形维数与和的相关性,记语音段的相关性函数为R(X1,x),非语音段的相关性函数为R(X2,x);其中表示语音段的多重分形维数,取值为 表示非语音段的多重分形维数,取值为相关性的计算公式为:
其中表示第i个帧窗口所对应的多重分形维数,x为语音信号的状态空间{X1,X2}中某一种状态。
语音段的多重分形维数和非语音段的多重分形维数通过训练获得,具体过程如下:
(4.1)语音信号具有分形特性,通常实际生活中没有完全纯净的语音信号,我们将非纯净的语音信号定义在两个状态空间:语音段X1和非语音段X2,则有Z={X1,X2}。
(4.2)对不同语音信号X(t)进行数据采集,设采样点数为M,采样频率为f,则采样间隔采样信号表示为X(k),k=1,2,3…M;
(4.3)人为标记语音信号的语音段和非语音段,得到语音段样本空间Y1和非语音段样本空间Y2。
(4.4)依据步骤3.2)至3.4)所述多重分形维数的计算方法,得到样本空间Y1和Y2的多重分形维数集合:和其中N和M分别表示语音段和非语音段的样本数;
(4.5)语音段的多重分形维数和非语音段的多重分形维数可近似表示为:
5)如图4所示,绘制两个相关性函数R(X1,x)和R(X2,x)的曲线图,两曲线的交汇处即为语音信号的起始点和结束点。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (7)
1.一种基于小波变换的多重分形维数端点检测方法,包括以下步骤:
1)使用小波变换对语音信号进行去噪处理,得到小波重构去噪后的语音信号;
2)对小波重构之后的语音信号进行分帧处理;
3)计算语音信号的多重分形维数,得到每一个帧窗口的多重分形维数;
4)分别计算每一个帧窗口的多重分形维数与和的相关性,记语音段的相关性函数为R(X1,x),非语音段的相关性函数为R(X2,x);其中表示语音段X1的多重分形维数;表示非语音段X2的多重分形维数;
5)绘制两个相关性函数R(X1,x)和R(X2,x)的曲线图,两曲线的交汇处即为语音信号的起始点和结束点。
2.根据权利要求1所述的端点检测方法,其特征在于,所述步骤1)中小波重构语音信号,选择合适的阈值T,大于尺度T的噪音和语音信号被平滑处理。
3.根据权利要求2所述的端点检测方法,其特征在于,所述步骤1)中阈值T的选取过程如下,在给定一个初始值之后,根据对重构之后的信号与噪音进行相关性分析自适应调整阈值T的大小。
4.根据权利要求1所述的端点检测方法,其特征在于,所述步骤3)中语音信号多重分形维数的计算方法如下:
(3.1)对不同语音信号X(t)进行数据采集,设采样点数为M,采样频率为f,则采样间隔采样信号表示为X(k),k=1,2,3…M;
(3.2)将语音信号的分形维数视为一个集合空间,采用覆盖法,对其进行网格划分,在ε网格划分中,取网格宽度为εj=2jΔt,其中j为网格划分的种类数;则网格的行数和列数可以表示为s(j)=MΔt/εj;
定义m行n列的网格为mn网格,落入mn网格内的数据点数为Nmn,则mn网格覆盖信号的概率为Pmn(εj)=Nmn/M,结合General信息熵可得到:其中q为给定参数,Kq为General信息熵值;
(3.3)改变网格尺度ε大小,可计算出一系列的General信息熵Kq(εj)值,从而在lgεj-Kq(εj)图上得到无标度区范围,在该区间内进行一次曲线拟合则可获得广义维度值Dq;
(3.4)在无标度区区间内进行一次曲线拟合则可获得广义维度值Dq;
设x(j)=Kq(εj),y(j)=lgεj,拟合直线为y(j)=-Dqx(j)+b;建立最小二乘法拟合函数为使得拟合函数获得最小值的条件为:
此时,广义维数为
5.根据权利要求1所述的端点检测方法,其特征在于,所述步骤4)中相关性的计算公式为:
其中表示第i个帧窗口所对应的多重分形维数,x为语音信号的状态空间{X1,X2}中某一种状态。
6.根据权利要求1所述的端点检测方法,其特征在于,语音段的多重分形维数和非语音段的多重分形维数通过训练获得,具体过程如下:
(4.1)语音信号具有分形特性,将非纯净的语音信号定义在两个状态空间:语音段X1和非语音段X2,则有Z={X1,X2}。
(4.2)对不同语音信号X(t)进行数据采集,设采样点数为M,采样频率为f,则采样间隔采样信号表示为X(k),k=1,2,3…M;
(4.3)人为标记语音信号的语音段和非语音段,得到语音段样本空间Y1和非语音段样本空间Y2。
(4.4)依据步骤3.2)至3.4)所述多重分形维数的计算方法,得到样本空间Y1和Y2的多重分形维数集合: 和 其中N和M分别表示语音段和非语音段的样本数;
(4.5)语音段的多重分形维数和非语音段的多重分形维数可近似表示为:
7.根据权利要求6所述的端点检测方法,其特征在于,表示语音段的多重分形维数,取值为 表示非语音段的多重分形维数,取值为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510169332.7A CN104867493B (zh) | 2015-04-10 | 2015-04-10 | 基于小波变换的多重分形维数端点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510169332.7A CN104867493B (zh) | 2015-04-10 | 2015-04-10 | 基于小波变换的多重分形维数端点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104867493A true CN104867493A (zh) | 2015-08-26 |
CN104867493B CN104867493B (zh) | 2018-08-03 |
Family
ID=53913285
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510169332.7A Expired - Fee Related CN104867493B (zh) | 2015-04-10 | 2015-04-10 | 基于小波变换的多重分形维数端点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104867493B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106772215A (zh) * | 2017-01-20 | 2017-05-31 | 大连海事大学 | 一种基于分形理论的vhf多径信号测量处理系统 |
CN110364187A (zh) * | 2019-07-03 | 2019-10-22 | 深圳华海尖兵科技有限公司 | 一种语音信号的端点识别方法和装置 |
CN110827852A (zh) * | 2019-11-13 | 2020-02-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种有效语音信号的检测方法、装置及设备 |
CN111128133A (zh) * | 2018-11-01 | 2020-05-08 | 普天信息技术有限公司 | 一种语音端点检测的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101573749A (zh) * | 2006-12-15 | 2009-11-04 | 摩托罗拉公司 | 用于鲁棒语音活动检测的方法和装置 |
CN101599269A (zh) * | 2009-07-02 | 2009-12-09 | 中国农业大学 | 语音端点检测方法及装置 |
CN103489454A (zh) * | 2013-09-22 | 2014-01-01 | 浙江大学 | 基于波形形态特征聚类的语音端点检测方法 |
CN104091593A (zh) * | 2014-04-29 | 2014-10-08 | 苏州大学 | 采用感知语谱结构边界参数的语音端点检测算法 |
CN104240720A (zh) * | 2013-06-24 | 2014-12-24 | 北京大学深圳研究生院 | 一种基于多重分形和信息融合的语音情感识别方法 |
-
2015
- 2015-04-10 CN CN201510169332.7A patent/CN104867493B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101573749A (zh) * | 2006-12-15 | 2009-11-04 | 摩托罗拉公司 | 用于鲁棒语音活动检测的方法和装置 |
CN101599269A (zh) * | 2009-07-02 | 2009-12-09 | 中国农业大学 | 语音端点检测方法及装置 |
CN104240720A (zh) * | 2013-06-24 | 2014-12-24 | 北京大学深圳研究生院 | 一种基于多重分形和信息融合的语音情感识别方法 |
CN103489454A (zh) * | 2013-09-22 | 2014-01-01 | 浙江大学 | 基于波形形态特征聚类的语音端点检测方法 |
CN104091593A (zh) * | 2014-04-29 | 2014-10-08 | 苏州大学 | 采用感知语谱结构边界参数的语音端点检测算法 |
Non-Patent Citations (2)
Title |
---|
张振红: "《基于分形维数的语音端点检测算法研究》", 《中国优秀硕士学位论文全文数据库》 * |
蒋纯纲; 屈百达; 李金宝; 王月: "基于小波变换后的分形理论的语音端点检测", 《2007年中国控制与决策学术年会论文集》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106772215A (zh) * | 2017-01-20 | 2017-05-31 | 大连海事大学 | 一种基于分形理论的vhf多径信号测量处理系统 |
CN111128133A (zh) * | 2018-11-01 | 2020-05-08 | 普天信息技术有限公司 | 一种语音端点检测的方法和装置 |
CN110364187A (zh) * | 2019-07-03 | 2019-10-22 | 深圳华海尖兵科技有限公司 | 一种语音信号的端点识别方法和装置 |
CN110827852A (zh) * | 2019-11-13 | 2020-02-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种有效语音信号的检测方法、装置及设备 |
CN110827852B (zh) * | 2019-11-13 | 2022-03-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种有效语音信号的检测方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104867493B (zh) | 2018-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020220439A9 (zh) | 基于深度神经网络的高速公路交通流量状态识别方法 | |
CN101303764B (zh) | 基于非下采样轮廓波的多传感器图像自适应融合方法 | |
CN104867493A (zh) | 基于小波变换的多重分形维数端点检测方法 | |
CN112017682B (zh) | 一种单通道语音同时降噪和去混响系统 | |
WO2023216583A1 (zh) | 基于多通道深度残差收缩网络的冰雹天气识别与分类方法 | |
CN104900229A (zh) | 一种语音信号混合特征参数的提取方法 | |
CN110930995B (zh) | 一种应用于电力行业的语音识别模型 | |
CN104485103A (zh) | 一种基于矢量泰勒级数的多环境模型孤立词识别方法 | |
CN104900232A (zh) | 一种基于双层gmm结构和vts特征补偿的孤立词识别方法 | |
CN104123934A (zh) | 一种构音识别方法及其系统 | |
CN111158068A (zh) | 一种基于简单卷积循环神经网络的短临预报方法及系统 | |
CN104537891A (zh) | 一种船舶轨迹实时预测方法 | |
CN105572501A (zh) | 一种基于sst变换和ls-svm的电能质量扰动识别方法 | |
CN110544482A (zh) | 一种单通道语音分离系统 | |
CN115359771A (zh) | 一种水声信号降噪方法、系统、设备及存储介质 | |
CN113642714B (zh) | 基于小样本学习的绝缘子污秽放电状态识别方法及系统 | |
CN104665875A (zh) | 超声多普勒包络和心率检测方法 | |
CN114119642A (zh) | 洪涝灾害水体提取方法及装置、设备和存储介质 | |
CN116434759B (zh) | 一种基于srs-cl网络的说话人识别方法 | |
CN102290048B (zh) | 一种基于mfcc远距离差值的鲁棒语音识别方法 | |
CN102509268B (zh) | 基于免疫克隆选择的非下采样轮廓波域图像去噪方法 | |
CN110364187B (zh) | 一种语音信号的端点识别方法和装置 | |
Sundaram et al. | Usable Speech Detection Using Linear Predictive Analysis–A Model-Based Approach | |
CN114358667A (zh) | 一种基于rbf网络学习的景区风险预测模型构建方法 | |
CN113744725A (zh) | 一种语音端点检测模型的训练方法及语音降噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180803 Termination date: 20210410 |