CN116153329A - 一种基于cwt-lbp的声音信号时频纹理特征提取方法 - Google Patents
一种基于cwt-lbp的声音信号时频纹理特征提取方法 Download PDFInfo
- Publication number
- CN116153329A CN116153329A CN202310041306.0A CN202310041306A CN116153329A CN 116153329 A CN116153329 A CN 116153329A CN 202310041306 A CN202310041306 A CN 202310041306A CN 116153329 A CN116153329 A CN 116153329A
- Authority
- CN
- China
- Prior art keywords
- frequency
- lbp
- time
- wavelet
- cwt
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Abstract
本发明公开了一种基于CWT‑LBP的声音信号时频纹理特征提取方法,首先,选用合适的小波基函数,利用连续小波变换CWT模块,把声音信号转化为时频图,同时滤掉干扰噪声;其次,将时频图转化为灰度图,进行二值化处理为对应的二值图;最后,结合局部二值模式LBP模块,提取相应的纹理特征,生成特定的时频纹理图。本发明方法体现在多维域特征的联合处理,不仅能表征频域上的信息,还能体现时域信息,使得信号具有多尺度分辨的特点,有利于检测信号的瞬态或奇异点。该方法不仅适用于异常声音检测的特征提取,也适用于各种非平稳信号的特征提取。
Description
技术领域
本发明涉及声音信号特征提取的方法,具体给出了一种基于连续小波变换和声谱纹理(CWT-LBP)进行声音信号特征提取的方法。
背景技术
小波变换技术、纹理特征提取技术属于信号分析与处理领域,它们都在声音处理、图像处理以及众多非线性学科领域有重要的应用价值。
特征提取多出现于机器学习、模式识别、语音识别、图像处理等领域,指对某一模式的组测量值进行变换,以突出该模式具有代表性特征的一种方法。通过影像分析和某种变换,以提取所需特征,声音的特征提取也如此,常见的声音特征有梅尔频率倒谱系数(MFCC)、恒Q变换(CQT)、过零率、节拍图等。通过对声音信号进行特征提取分析,能发现更有意义的潜在变量,帮助对声音数据产生更深入的了解,是实现声音识别、分类的有效方法。
在声音信号特征增强技术方法上,已经有傅里叶变换、谱减法、噪声对消法等方法。而傅里叶变换只能分析信号的频率成分,却不能分析信号的频率出现的时刻,完全丢失了信号的时域信息;谱减法去噪,虽然这种方法容易实现,但这种方法在非平稳环境下处理效果不明显,并且在信噪比低的情况下,对声音信号的可懂度与自然度损害较大;另外噪声对消法需要采集背景噪声作为参考信号,一般采用自适应滤波技术,在输入信号与统计特征未知的情况下,需要通过调整自身参数,以此来达到最佳滤波效果。此类的声音信号特征增强方式,在复杂的噪声环境中效果得不到保证,并且容易丢失关键信息,影响后续声音信号识别、分类的准确性。
小波变换继承和发展了傅立叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点。随着科学技术特别是计算机技术的发展以及互联网的普及,许多应用领域(如卫星监测、地震勘探、城市生命线安全检测)都存在海量数据传输或存储问题,如果不对数据进行压缩,数量巨大的数据就很难存储、处理和传输。因此,伴随小波分析的诞生,数据压缩一直是小波分析的重要应用领域之一。在声音分析与处理领域,小波理论也可应用于清浊音分割、信号瞬态变化监测、去噪、压缩、重建几个方面。瞬态信号的突变点常包含有很重要的故障信息,例如机械故障、电力系统故障、心电图中的异常、城市地下管道异常等,都对应于测试信号的突变点。可见小波分析在故障检测和信号的多尺度边缘特征提取方面具有广泛的应用前景。
纹理是一种反映图像中同质现象的视觉特征,它体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性。纹理不同于灰度、颜色等图像特征,它通过像素及其周围空间邻域的灰度分布来表现,即局部纹理信息。目前纹理特征较多的应用于图像处理领域,比如医学图像分析、人脸面部识别、卫星或航空图像分析、图像压缩等。
为了更好地解决在复杂的声场环境中,噪声干扰对后续信号处理的影响,提高声音的识别、分类准确度,同时兼顾特征复杂度的考虑,本发明采用连续小波变换结合局部二值模式生成特定的声音时频纹理图。
发明内容
本发明针对复杂声场环境中,环境噪声干扰大、常用的时域信号特征涵盖有效信息不足,严重影响声音识别和分类任务准确性的问题,而提出一种基于CWT-LBP的声音时频纹理特征提取的方法,实现复杂声场环境中声音的高级特征提取。该方法能够弥补声音信号时域特征表示的信息缺失,同时结合图像领域中的纹理提取技术降低特征维度,达到去冗余的效果,可应用于检测声音信号的瞬态变化或奇异点,能够获得较好的识别和分类效果。
本发明一种基于CWT-LBP的声音时频纹理特征提取的方法:
首先,选用合适的小波基函数,利用连续小波变换CWT模块,把声音信号转化为时频图,同时滤掉干扰噪声;
其次,将时频图转化为灰度图,进行二值化处理为对应的二值图;
最后,结合局部二值模式LBP模块,提取相应的纹理特征,生成特定的时频纹理图。
进一步地,所述连续小波变换的工作步骤,具体如下:
1.1)选用Morlet小波作为基函数,确定初始的尺度因子为a、时间平移因子为b,小波从高频开始分析,朝低频进行,尺度因子的第一个值对应压缩程度最高的小波,随着尺度因子的扩大,小波也将扩大;
1.2)依照连续小波变换公式,将输入信号与小波相乘积分,得到对应时刻的小波系数;
1.3)移动时间平移因子b,直至信号的末端,将积分结果乘以常数归一化;
1.4)改变尺度因子a,不断扩展小波,重复步骤1.2)-1.3),最终生成小波的时频图。
进一步地,所述连续小波变换的工作步骤1.1)中,Morlet小波基函数表达式为:
Morlet小波基函数是由复三角函数乘上一个指数衰减函数构成,式中j表示虚数,ω0代表中心频率,t是时间变量;
将小波基函数Ψ(t)进行伸缩和平移,得到如下函数公式:
a是尺度因子且a≠0,b是时间平移因子;
步骤1.2)所述连续小波变换公式为:
尺度因子a对应频率反比,时间平移因子b对应时间,f表示待变换信号,Ψa,b表示小波变换的基函数,Ψ*表示小波基函数的复共轭,t是时间变量,f(t)表示待变换输入信号。
进一步地,所述局部二值模式LBP模块,提取相应的纹理特征,步骤如下:
2.1)将待转化图片划分为16*16的小区域;
2.2)对于每个区域中的一个像素点,将相邻的8个像素点的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0;这样,3*3邻域内的8个点经比较可产生8位二进制数,即得到该窗口中心像素点的LBP值;
2.3)计算每个LBP值出现的频率,得出LBP直方图,然后对该直方图进行归一化处理;
2.4)将得到的每个区域的统计直方图连接成为一个特征向量,最终得出整幅图像的LBP纹理特征。
进一步地,所述LBP模块处理,步骤2.3)计算每个LBP值出现的频率,位置(xc,yc)处的LBP值的数学公式为:
其中,P表示相邻像素点个数,R表示采样半径,s(k)表示除中心像素点之外的第k个相邻像素点的灰度值,s(c)表示中心像素点的灰度值,g(·)为门限函数,公式描述如下:
由于LBP记录的是邻域像素点和中心像素点的差值,因此当外界环境变化引起窗口内的像素点的灰度值同步增大或减小时,LBP值变化不明显,故而LBP具有旋转不变性和灰度值不变性。
本发明提出了一种在复杂声场环境中,基于CWT-LBP的声音时频纹理特征提取的方法,体现在多维域特征的联合处理。该方法中的CWT模块,由粗到细逐步地观察声音信号,把一维的声音信号转化为二维的图像信号,在此基础上融合了图像领域中的LBP纹理提取技术,从时频域视野增强信号局部特征的表征能力,克服了声音时域谱图特征表征能力不足的困难,在保证有效特征不变性的前提下,降低特征维度与冗余度,提高声音信号多尺度分辨能力,有利于检测信号的瞬态或奇异点,有助于提高系统处理速率,为后续的信号处理阶段降低了特征复杂度。
本发明方法不仅能表征频域上的信息,还能体现时域信息,使得信号具有多尺度分辨的特点,有利于检测信号的瞬态或奇异点。该方法不仅适用于异常声音检测的特征提取,也适用于各种非平稳信号的特征提取。
附图说明
图1为本发明基于CWT-LBP的声音时频纹理特征提取框架图;
图2为本发明方法中连续小波变换原理图;
图3为实施例LBP模块转化原理图。
具体实施方式
下面结合实施例和附图对本发明内容作进一步的说明,但不是对本发明的限定。
实施例
参照图1,CWT-LBP时频纹理特征提取的框架图,由输入声音信号、声音去噪、CWT模块、灰度图、LBP模块、时频纹理特征输出模块组成。本发明重点围绕CWT时频图模块和LBP纹理图模块进行展开。
本发明基于CWT-LBP的声音时频纹理特征提取的方法:
首先,选用合适的小波基函数,利用连续小波变换CWT模块,把声音信号转化为时频图,同时滤掉干扰噪声;
其次,将时频图转化为灰度图,进行二值化处理为对应的二值图;
最后,结合局部二值模式LBP模块,提取相应的纹理特征,生成特定的时频纹理图。
本发明方法中,连续小波变换的工作步骤,具体如下:
1.1)选用Morlet小波作为基函数,确定初始的尺度因子为a、时间平移因子为b,小波从高频开始分析,朝低频进行,尺度因子的第一个值对应压缩程度最高的小波,随着尺度因子的扩大,小波也将扩大;
Morlet小波基函数表达式为:
Morlet小波基函数是由复三角函数乘上一个指数衰减函数构成,式中j表示虚数,ω0代表中心频率,t是时间变量;
将小波基函数Ψ(t)进行伸缩和平移,得到如下函数公式:
1.2)依照连续小波变换公式,将输入信号与小波相乘积分,得到对应时刻的小波系数;
连续小波变换公式为:
尺度因子a对应频率反比,时间平移因子b对应时间,f表示待变换信号,Ψa,b表示小波变换的基函数,Ψ*表示小波基函数的复共轭,t是时间变量,f(t)表示待变换输入信号;
1.3)移动时间平移因子b,直至信号的末端,将积分结果乘以常数归一化;
1.4)改变尺度因子a,不断扩展小波,重复步骤1.2)-1.3),最终生成小波的时频图。
参照图2小波变换原理图,输入信号被分解为低频信号和高频信号,低频信号再次分解为次低频信号和次高频信号,以此逐级分解,最大分解级数为(N为输入信号长度)。cA表示低频信号近似系数,cD表示高频信号详细系数,分解完成之后把所有cD值和最后一级cA值按低频到高频重构,最终得到小波变换后的数据。
本发明方法中,局部二值模式LBP模块,提取相应的纹理特征,步骤如下:
2.1)将待转化图片划分为16*16的小区域;
2.2)对于每个区域中的一个像素点,将相邻的8个像素点的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0;这样,3*3邻域内的8个点经比较可产生8位二进制数,即得到该窗口中心像素点的LBP值;
2.3)计算每个LBP值出现的频率,得出LBP直方图,然后对该直方图进行归一化处理;
位置(xc,yc)处的LBP值的数学公式为:
其中,P表示相邻像素点个数,R表示采样半径,s(k)表示除中心像素点之外的第k个相邻像素点的灰度值,s(c)表示中心像素点的灰度值,g(·)为门限函数,公式描述如下:
2.4)将得到的每个区域的统计直方图连接成为一个特征向量,最终得出整幅图像的LBP纹理特征。
对于LBP模块:例如定义在一个3*3大小的窗口内(采样半径为1,中心点相邻像素点个数为8),以窗口的中心像素的灰度值为阈值,周围的8个像素中灰度值大于阈值的标记为1,小于阈值的标记为0,如此可以得到一个8位的二进制数,把这8位二进制数转化为十进制数,得到LBP值,将这个数作为窗口中心像素点的LBP值,用于反映这个窗口中的纹理信息,如图3所示。
本发明采用CWT-LBP方法通过对声音信号进行时频纹理特征的提取,在复杂的声场环境下,补全了常用声音特征的时域缺陷,同时利用纹理技术的不变性,大幅度减少特征复杂度,有效的实现声音信号的识别和分类。
Claims (3)
1.一种基于CWT-LBP的声音信号时频纹理特征提取方法,其特征在于:
所述方法首先,选用合适的小波基函数,利用连续小波变换CWT模块,把声音信号转化为时频图,同时滤掉干扰噪声;
其次,将时频图转化为灰度图,进行二值化处理为对应的二值图;
最后,结合局部二值模式LBP模块,提取相应的纹理特征,生成特定的时频纹理图;
所述连续小波变换的工作步骤,具体如下:
1.1)选用Morlet小波作为基函数,确定初始的尺度因子为a、时间平移因子为b,小波从高频开始分析,朝低频进行,尺度因子的第一个值对应压缩程度最高的小波,随着尺度因子的扩大,小波也将扩大;
1.2)依照连续小波变换公式,将输入信号与小波相乘积分,得到对应时刻的小波系数;
1.3)移动时间平移因子b,直至信号的末端,将积分结果乘以常数归一化;
1.4)改变尺度因子a,不断扩展小波,重复步骤1.2)-1.3),最终生成小波的时频图;
所述局部二值模式LBP模块,提取相应的纹理特征,步骤如下:
2.1)将待转化图片划分为16*16的小区域;
2.2)对于每个区域中的一个像素点,将相邻的8个像素点的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0;这样,3*3邻域内的8个点经比较可产生8位二进制数,即得到该窗口中心像素点的LBP值;
2.3)计算每个LBP值出现的频率,得出LBP直方图,然后对该直方图进行归一化处理;
2.4)将得到的每个区域的统计直方图连接成为一个特征向量,最终得出整幅图像的LBP纹理特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310041306.0A CN116153329A (zh) | 2023-01-12 | 2023-01-12 | 一种基于cwt-lbp的声音信号时频纹理特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310041306.0A CN116153329A (zh) | 2023-01-12 | 2023-01-12 | 一种基于cwt-lbp的声音信号时频纹理特征提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116153329A true CN116153329A (zh) | 2023-05-23 |
Family
ID=86353773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310041306.0A Pending CN116153329A (zh) | 2023-01-12 | 2023-01-12 | 一种基于cwt-lbp的声音信号时频纹理特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116153329A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935286A (zh) * | 2023-08-03 | 2023-10-24 | 广州城市职业学院 | 一种短视频识别系统 |
CN116975528A (zh) * | 2023-07-17 | 2023-10-31 | 哈尔滨工程大学 | 基于德劳内三角剖分的极地声信号特征提取方法和装置 |
-
2023
- 2023-01-12 CN CN202310041306.0A patent/CN116153329A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975528A (zh) * | 2023-07-17 | 2023-10-31 | 哈尔滨工程大学 | 基于德劳内三角剖分的极地声信号特征提取方法和装置 |
CN116975528B (zh) * | 2023-07-17 | 2024-03-15 | 哈尔滨工程大学 | 基于德劳内三角剖分的极地声信号特征提取方法和装置 |
CN116935286A (zh) * | 2023-08-03 | 2023-10-24 | 广州城市职业学院 | 一种短视频识别系统 |
CN116935286B (zh) * | 2023-08-03 | 2024-01-09 | 广州城市职业学院 | 一种短视频识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116153329A (zh) | 一种基于cwt-lbp的声音信号时频纹理特征提取方法 | |
CN108961181B (zh) | 一种基于shearlet变换的探地雷达图像去噪方法 | |
CN110471104B (zh) | 基于智能特征学习的叠后地震反射模式识别方法 | |
Zheng et al. | The surface wave suppression using the second generation curvelet transform | |
CN115758082A (zh) | 一种轨道交通变压器故障诊断方法 | |
CN113935246A (zh) | 一种信号鲁棒稀疏时频分析方法、终端设备及存储介质 | |
CN112150474A (zh) | 一种水下气泡图像特征分割提取方法 | |
Gupta | A review and comprehensive comparison of image denoising techniques | |
Tian et al. | A sparse NMF-SU for seismic random noise attenuation | |
CN113095113A (zh) | 一种用于水下目标识别的小波线谱特征提取方法及系统 | |
Wang et al. | Desert seismic noise suppression based on multimodal residual convolutional neural network | |
Dai et al. | Application of wavelet denoising and time-frequency domain feature extraction on data processing of modulated signals | |
CN112817056B (zh) | 一种大地电磁信号去噪方法及系统 | |
Chen et al. | Texture Feature Extraction Method for Ground Nephogram Based on Contourlet and the Power Spectrum Analysis Algorithm. | |
Chen et al. | Research on sonar image denoising method based on fixed water area noise model | |
Shi et al. | Extraction method of weak underwater acoustic signal based on the combination of wavelet transform and empirical mode decomposition | |
Morovati | Increase the accuracy of speech signal categories in high noise environments | |
CN113435487B (zh) | 一种面向深度学习的多尺度样本生成方法 | |
CN109917458B (zh) | 油气分析方法及装置 | |
CN112684493B (zh) | 一种基于改进变分模态分解的固体潮响应去除方法 | |
Li et al. | Desert Seismic Signal Denoising Based on Unsupervised Feature Learning and Time–Frequency Transform Technique | |
Xinyu et al. | Image enhancement algorithm of Dongba manuscripts based on wavelet analysis and grey relational theory | |
Li et al. | Application of CL multi-wavelet de-noising in partial discharge detection | |
Liu et al. | Image Denoising via Trained Dictionaries for the Time-frequency Image of Underwater Acoustical Plus Signals | |
Noutsou et al. | Edge detection of manmade objects using wavelets in high resolution satellite images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |