CN108847252B - 基于声信号语谱图纹理分布的声特征提取方法 - Google Patents
基于声信号语谱图纹理分布的声特征提取方法 Download PDFInfo
- Publication number
- CN108847252B CN108847252B CN201810385668.0A CN201810385668A CN108847252B CN 108847252 B CN108847252 B CN 108847252B CN 201810385668 A CN201810385668 A CN 201810385668A CN 108847252 B CN108847252 B CN 108847252B
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- different
- binary
- distribution
- sound signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 12
- 230000005236 sound signal Effects 0.000 claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 claims 2
- 239000000758 substrate Substances 0.000 claims 1
- 238000012800 visualization Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000005654 stationary process Effects 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Processing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于声信号语谱图纹理分布的声特征提取方法。本发明包括如下步骤:步骤1:将采集到的声音信号预处理。步骤2:将增强的声音信号以语谱图的形式输出。步骤3:将彩色语谱图转换成灰度图。步骤4:将灰度图二值化处理,转换成对应的二值图。步骤5:根据转换后的二值图纹理分布特征提取相应特征数据。步骤6:通过分类器对提取到的声信号进行训练建模分类。本发明对于远距离声信号,通过本方法提取的特征其识别率有所提高。在复杂噪音环境下通过本方法提取到的声特征能有效的与噪音信号区分开。
Description
技术领域
本发明属于信号处理的技术领域,涉及一种基于声信号语谱图纹理分布的声特征提取方法。
背景技术
传统的对声信号特征提取的方法有LPCC(线性预测倒谱系数)和MFCC(梅尔倒谱系数)等。
LPCC是基于线性预测分析(LPC)的方法求取声音信号的特征参数,基本思想为,通过声音信号在某个时间点之前的P个样本预测此点的声音样本,并且可以由这P个样本的线性组合表示。由工程器械声音信号的LPCC特征图(1)可以看到,不同器械信号的分布各有特点,但仅从第一个系数来看,这几类器械的参数都有重合,没有表现出对特征信号很好的区分性。
MFCC是基于人耳对声音的感知模型特性提出的,人的听觉对声音的感知能力与其频率呈非线性关系,对不同频率声音的灵敏程度不同,总体上对低频有更好的分辨能力。从声音信号的MFCC特征分布图上可以看出不同器械特征分布整体上有所区别,由工程器械声音信号的MFCC特征分布图(2)中可以看出,第一个系数的取值相互之间差别较大,但存在一定范围的参数重合,如第2、3、5以及高频部分较多的参数。因此使用MFCC特征可以实现基本的描述,但是对特征的区分度不够理想。
发明内容
针对以上传统的声信号特征参数存在的问题,本发明提供了一种基于声信号转换语谱图纹理分布的声特征提取方法。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:将采集到的声音信号预处理。
步骤2:将增强的声音信号以语谱图的形式输出。
步骤3:将彩色语谱图转换成灰度图。
步骤4:将灰度图二值化处理,转换成对应的二值图。
步骤5:根据转换后的二值图纹理分布特征提取相应特征数据。
步骤6:通过分类器对提取到的声信号进行训练建模分类。
本发明有益效果如下:
对于远距离声信号,通过本方法提取的特征其识别率有所提高。
在复杂噪音环境下通过本方法提取到的声特征能有效的与噪音信号区分开。
附图说明
图1是四种工程器械声音信号的LPCC特征分布图。
图2是四种工程器械声音信号的MFCC特征分布图。
图3是对声信号进行语谱图纹理分布特征提取的步骤流程图。
图4是本发明方法中声信号转换为语谱图的过程示意图。
图5是灰度图二值化示意图。
图6是针对四种工程器械声音信号通过本发明方法得到的二值图。
图7、图8、图9是以实际工程器械声音信号为例的二值图纹理特
征分布图描述。
具体实施方式
下面结合附图和具体实现方法对本发明作详细的说明,并采用实际工程器械所产生声音信号为例,描述该特征提取算法,此描述仅作为示范和解释,并不对本发明方法作任何形式上的限制。
如图1-9所示,基于声信号语谱图纹理分布的声特征提取方法,具体步骤如下:
步骤1:将采集到的声音信号预处理。
步骤2:将增强的声音信号以语谱图的形式输出。
步骤3:将彩色语谱图转换成灰度图。
步骤4:将灰度图二值化处理,转换成对应的二值图。
步骤5:根据转换后的二值图纹理分布特征提取相应特征数据。
步骤6:通过分类器对提取到的声信号进行训练建模分类。
所述步骤1的具体实现包括如下:
1.1声音信号的采集及归一化处理
声音信号在长时间内属于非平稳过程且是时变的,为了能对声音信号进行特征处理,首先需要对声音信号进行预处理。预处理是整个特征提取算法的基础,也是必不可少的部分。声音信号预处理过程主要包含了声音信号归一化、预加重、分帧和加窗这三个部分。
对一维声音信号进行归一化的目的在于减少不同样本之间的差异,并且使得声信号的幅值范围投影到[-1,1]之间。
1.2预加重
声音信号在传播过程中高频能量的衰减较快,通常采用预加重技术提高声音信号的高频成分,使得声音信号从低频到高频变得相对平坦。典型的方法是采用一阶高通滤波器提升高频分量,滤波器的响应特性如下:
H(z)=1-uz-1
其中系数u的取值范围为[0.9,1]。
1.3分帧加窗
声音信号在10ms~30ms内被认为是平稳状态,因此为了得到短时信号,对声音信号进行分帧处理,为了防止帧与帧之间的跳变,采用帧重叠使其平稳度过。对每帧信号加上窗函数用来减少频谱泄露现象。
声音信号采样归一化后的数据x(n)进行分帧加窗处理。可以采用一定长度的窗函数w(n)乘以声音信号x(n)得到每帧加窗后的信号xi(n),常用的窗函数有汉明窗、汉宁窗和矩形窗。其公式为:
xi(n)=w(n)*x(n)
汉明窗:
汉宁窗:
矩形窗:
所述步骤2的具体实现包括如下:
语谱图也称声谱图,是时间和频率的分布图。语谱图不仅体现了声信号的频域和时域特征,还同时展现出时域和频域两者的相互关系,从语谱图上可以观察到频域的一些特征随声音信号的发生而变化的情况;还可以观察到能量随声音过程的变化情况。所以语谱图所承载的声音信号的信息远大于单纯时域信号和单纯频域信号承载的信息。语谱图综合了频谱图和时域波形的特点,明显地显示出了声音频谱随时间的变化情况,或者说语谱图是一种动态的频谱。
首先通过矩阵将分帧后的声音信号按帧信号拼接起来,其流程如图4所示;通过本发明方法,我们把声音信号转换成语谱图,将声音信号转换成数字图像来提取其特征,具体提取特征方法见步骤5。
所述步骤3的具体实现包括如下:
语谱图是一种三维频谱,它是表示声音频谱随时间变化的图形,其纵轴为频率,横轴为时间。对于任意一个给定的频率成分在某时刻的强弱由相应点的灰度或色调的浓淡来表示。由于语谱图数据存在冗余且会对数据处理产生干扰,为便于观察并方便研究语谱图的纹理分布特征。因此,在声信号转换成语谱图进行可视化处理时,本发明将彩色语谱图转成灰色语谱图。以R、G、B为轴建立空间直角坐标系,则彩色语谱图的每个象素的颜色可以用该三维空间的一个点来表示,而灰度图的每个象素的颜色可以用直线R=G=B上的一个点来表示。于是彩色语谱图转换成灰度图的本质就是寻找一个三维空间到一维空间的映射,最容易想到的就是射影:即过彩色语谱图空间的一个点(i,j)向直线R=G=B做垂线。
本发明中采用的是对R、G、B分量进行加权平均的算法来进行灰度化处理:
Gray(i,j)=0.299*R(i,j)+0.578*G(i,j)+0.114*B(i,j)B(i,j)
所述步骤4的具体实现包括如下:
图像二值化是图像分析与处理中最常见最重要的处理手段,对灰色语谱图进行二值化处理可以有效的将语谱图频谱与背景分离。
常用的图像二值化方法有固定阈值法和自适应阈值法。固定阈值法是按照经验或实验自己设定阈值,自适应阈值法一般采用最大类间方差法通过计算像素点与邻域像素点的关系得到一个变化的浮动的阈值。本发明采用自适应阈值法对灰色语谱图进行二值化处理。使用最大类间方差法找到图片的一个合适的阈值(threshold)。在使用MATLAB函数将灰度图像转换为二值图像时,需要设定一个阈值,这个函数可以帮助我们获得一个合适的阈值。利用这个阈值通常比人为设定的阈值能更好地把一张灰度图像转换为二值图像。
其中,Sum是灰度值与其点数的乘积的总和,Amount是灰度值总和。
最大类间方差法也被称为自适应阈值法。我们假设T是图像前景和背景的分割阈值。
u=w0·u0+w1×u1
其中w0是指前景占的比例,u0是他的平均灰度值,w1是背景点的比例,u1是其平均灰度值,u是图像的平均灰度。
所以,
g=w0·(u0-u)2+w1·(u1-u)2
通过以上分析,我们可以得出以下公式:
g=w0·w1·(u0-u1)2
或者,
当g取最大值时,前景和背景之间的差异此时可视为最大值。
所述步骤5的具体实现包括如下:
由图6可以看出,不同器械的声音信号的二值图不论是局部分布情况还是纹理分布方面都有很大的差异,通过利用图像处理技术对不同器械声音信号的二值图纹理特征进行提取。此方法创造性的将数字图像处理的方法运用到对声音信号处理中,从不同的角度分析,对声音信号进行识别。
利用上述基于语谱图提取的声信号二值图,本发明提出了基于其纹理特征及分布统计特征等五类新的特征表示方法,分别为:欧拉值参数特征(Euler)、面积分布参数(ADC),垂直分布参数(CDC)、水平分布参数(RDC)以及局部分布参数特征(LDC)。下面给出每一个特征的具体定义,并以实际工程器械所产生的声音信号为例做详细阐述说明。
特征1:欧拉值表示一个二进制图像区域中的总数量和连接部分的数量之间的差异。欧拉数可以描述物体的结构。不同的二值图,其对应的欧拉值也是不同的,所以根据不同声音信号的二值图,我们可以计算其对应的欧拉值来表示二值图的一个特征参数。其计算方法如下:
Euler=V-E+F
其中,V是二进制映射中像素值为1的总数目,E是二进制图中相邻像素值为1的情况的总数,F是二进制图中四个相邻像素值为1的情况的总数。
特征2:由不同器械声音信号的二值图纹理分布图7可以看出,不同二值图前景和背景的面积占比有比较大的差异,根据不同声音信号对
应二值图统计其相应前景面积值参数来作为一种特征参数,面积分布值的不同代表着不同类型的声音信号。可以以此作为一维特征输入。其,面积求取方法如下:
其中x、y分别为二值图的像素长度。
特征3:由不同器械声音信号的二值图纹理分布图7可以看出,不同声音信号转成的二值图按垂直方向看,不同的像素列对应的面积分布有一定的纹理差异,根据此,我们可以统计出不同声信号二值图的垂直分布情况,以此作为一维特征参数。其垂直分布求取方法如下:
其中,x、y分别为二值图的像素长度和垂直方向分的像素宽度。
特征4:由不同器械声音信号的二值图纹理分布图7可以看出,不同声音信号转成的二值图按水平方向看,不同的像素行对应的面积分布有一定的纹理差异。因此,我们也可以统计出不同声信号二值图的水平分布情况,以此来作为特征参数。其垂直分布求取方法如下:
其中,x、y分别为二值图的像素长度和水平方向分的像素宽度。
特征5:由不同器械声音信号的二值图纹理分布图7可以看出,我们可以把二值图平分成四个小方块区域,分别为左上,左下,右上,右下如图9所示;由不同声音信号转成的二值图可以看出,不同声音信号对应相同局部块的前景面积分布情况差异不同。因此,我们可以分别统计出不同局域块的分布情况,以此来作为区别不同声音信号的一种特征参数,其求取方法如下:
其中,x,y的取值根据具体区域选取的范围来选择。
以上就是基于本发明方法中提及的根据不同声音信号二值图的纹理分布差异等来提取的特征参数。
所述步骤6的具体实现包括如下:
特征参数选取的好坏决定了不同信号之间的差异性。分类识别是特征提取后的重要环节,好的分类器则决定了识别结果的准确性、稳定性和快速性等各方面的特征。本发明方法中采用ELM极限学习机结合本方法中提及的特征来进行分类,通过对提取的特征参数进行训练分类测试试验。结果证实,将从二值图里提取的纹理等特征能够有效的对不同声音信号进行分类识别。
在实际应用中时,本方法的具体实施流程参考图3所示。
Claims (2)
1.基于声信号语谱图纹理分布的声特征提取方法,其特征在于,包括:
步骤1:将采集到的声音信号预处理;
步骤2:将增强的声音信号以语谱图的形式输出;
步骤3:将彩色语谱图转换成灰度图;
步骤4:将灰度图二值化处理,转换成对应的二值图;
步骤5:根据转换后的二值图纹理分布特征提取相应特征数据;
步骤6:通过分类器对提取到的声信号进行训练建模分类;
所述步骤1的具体实现包括如下:
声音信号预处理过程包含声音信号归一化、预加重、分帧和加窗;
1.1声音信号的采集及归一化处理
对一维声音信号进行归一化的目的在于减少不同样本之间的差异,并且使得声信号的幅值范围投影到[-1,1]之间;
1.2预加重
采用预加重技术提高声音信号的高频成分,使得声音信号从低频到高频变得相对平坦;采用一阶高通滤波器提升高频分量,滤波器的响应特性如下:
H(z)=1-uz-1
其中系数u的取值范围为[0.9,1];
1.3分帧加窗
声音信号采样归一化后的数据x(n)进行分帧加窗处理;采用一定长度的窗函数w(n)乘以声音信号x(n)得到每帧加窗后的信号xi(n),常用的窗函数有汉明窗、汉宁窗和矩形窗;其公式为:
xi(n)=w(n)*x(n)
汉明窗:
汉宁窗:
矩形窗:
所述步骤2的具体实现包括如下:
首先通过矩阵将分帧后的声音信号按帧信号拼接起来,然后将声音信号转换成语谱图,将声音信号转换成数字图像来提取其特征;
所述步骤3的具体实现包括如下:
在声音信号转换成语谱图进行可视化处理时,将彩色语谱图转成灰色语谱图;以R、G、B为轴建立空间直角坐标系,则彩色语谱图的每个像素的颜色用该三维空间的一个点来表示,而灰度图的每个像素的颜色用直线R=G=B上的一个点来表示;即过彩色语谱图空间的一个点(i,j)向直线R=G=B做垂线;
采用对R、G、B分量进行加权平均的算法来进行灰度化处理:
Gray(i,j)=0.299*R(i,j)+0.578*G(i,j)+0.114*B(i,j)
所述步骤4的具体实现包括如下:
采用自适应阈值法对灰色语谱图进行二值化处理;使用最大类间方差法找到图片的一个合适的阈值threshold;在使用MATLAB函数将灰度图像转换为二值图像时,需要设定一个阈值,MATLAB函数能够帮助获得一个合适的阈值;该阈值比人为设定的阈值能更好地将一张灰度图像转换为二值图像;
其中,Sum是灰度值与其点数的乘积的总和,Amount是灰度值总和;
最大类间方差法也被称为自适应阈值法;假设T是图像前景和背景的分割阈值;
u=w0·u0+w1×u1
其中w0是指前景占的比例,u0是他的平均灰度值,w1是背景点的比例,u1是其平均灰度值,u是图像的平均灰度;
所以,
g=w0·(u0-u)2+w1·(u1-u)2
通过以上分析,得出以下公式:
g=w0·w1·(u0-u1)2
或者,
当g取最大值时,前景和背景之间的差异此时可视为最大值;
所述步骤5的具体实现包括如下:
通过利用图像处理技术对不同器械声音信号的二值图纹理特征进行提取;利用基于语谱图提取的声信号二值图,提出了基于其纹理特征及分布统计特征的五类新的特征表示方法,分别为:欧拉值参数特征Euler、面积分布参数ADC,垂直分布参数CDC、水平分布参数RDC以及局部分布参数特征LDC;
特征1:欧拉值表示一个二进制图像区域中的总数量和连接部分的数量之间的差异;欧拉数能够描述物体的结构;不同的二值图,其对应的欧拉值也是不同的,所以根据不同声音信号的二值图,能够计算其对应的欧拉值来表示二值图的一个特征参数;其计算方法如下:
Euler=V-E+F
其中,V是二进制映射中像素值为1的总数目,E是二进制图中相邻像素值为1的情况的总数,F是二进制图中四个相邻像素值为1的情况的总数;
特征2:不同二值图前景和背景的面积占比有比较大的差异,根据不同声音信号对应二值图统计其相应前景面积值参数来作为一种特征参数,面积分布值的不同代表着不同类型的声音信号;能够以此作为一维特征输入;其面积求取方法如下:
其中x、y分别为二值图的像素长度;
特征3:不同声音信号转成的二值图按垂直方向看,不同的像素列对应的面积分布有一定的纹理差异,因此能够统计出不同声信号二值图的垂直分布情况,以此作为一维特征参数;其垂直分布求取方法如下:
其中,x、y分别为二值图的像素长度和垂直方向分的像素宽度;
特征4:由不同器械声音信号的二值图纹理分布可以看出,不同声音信号转成的二值图按水平方向看,不同的像素行对应的面积分布有一定的纹理差异;因此能够统计出不同声信号二值图的水平分布情况,以此来作为特征参数;其垂直分布求取方法如下:
其中,x、y分别为二值图的像素长度和水平方向分的像素宽度;
特征5:把二值图平分成四个小方块区域,分别为左上,左下,右上,右下;由不同声音信号转成的二值图能够看出,不同声音信号对应相同局部块的前景面积分布情况差异不同;因此能够分别统计出不同局域块的分布情况,以此来作为区别不同声音信号的一种特征参数,其求取方法如下:
其中,x,y的取值根据具体区域选取的范围来选择。
2.根据权利要求1所述的基于声信号语谱图纹理分布的声特征提取方法,其特征在于所述步骤6的具体实现包括如下:
采用ELM极限学习机结合本方法中提及的特征来进行分类,通过对提取的特征参数进行训练分类测试试验;结果证实,将从二值图里提取的纹理等特征能够有效的对不同声音信号进行分类识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810385668.0A CN108847252B (zh) | 2018-04-26 | 2018-04-26 | 基于声信号语谱图纹理分布的声特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810385668.0A CN108847252B (zh) | 2018-04-26 | 2018-04-26 | 基于声信号语谱图纹理分布的声特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108847252A CN108847252A (zh) | 2018-11-20 |
CN108847252B true CN108847252B (zh) | 2022-12-02 |
Family
ID=64212373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810385668.0A Active CN108847252B (zh) | 2018-04-26 | 2018-04-26 | 基于声信号语谱图纹理分布的声特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108847252B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930983A (zh) * | 2019-11-08 | 2020-03-27 | 广州大学 | 用于语音信号的小波特征提取方法、系统和存储介质 |
CN111341321A (zh) * | 2020-02-28 | 2020-06-26 | 广州国音智能科技有限公司 | 一种基于Matlab的语谱图生成及显示方法和装置 |
CN111862989B (zh) * | 2020-06-01 | 2024-03-08 | 北京捷通华声科技股份有限公司 | 一种声学特征处理方法和装置 |
CN112233683B (zh) * | 2020-09-18 | 2023-10-13 | 江苏大学 | 一种汽车电动后视镜异响检测方法及检测系统 |
CN115470507B (zh) * | 2022-10-31 | 2023-02-07 | 青岛他坦科技服务有限公司 | 一种中小企业研发项目数据管理方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000315094A (ja) * | 1999-04-30 | 2000-11-14 | Nippon Telegr & Teleph Corp <Ntt> | 広帯域音響検出方法および装置およびこのプログラム記録媒体 |
JP4861845B2 (ja) * | 2007-02-05 | 2012-01-25 | 富士通株式会社 | テロップ文字抽出プログラム、記録媒体、方法及び装置 |
CN104819846B (zh) * | 2015-04-10 | 2017-03-22 | 北京航空航天大学 | 一种基于短时傅里叶变换和稀疏层叠自动编码器的滚动轴承声音信号故障诊断方法 |
CN105118516A (zh) * | 2015-09-29 | 2015-12-02 | 浙江图维电力科技有限公司 | 基于声音线性预测倒谱系数的工程机械的识别方法 |
CN106992011A (zh) * | 2017-01-25 | 2017-07-28 | 杭州电子科技大学 | 基于mf‑plpcc特征的工程机械声音识别方法 |
CN107564543B (zh) * | 2017-09-13 | 2020-06-26 | 苏州大学 | 一种高情感区分度的语音特征提取方法 |
CN107845390A (zh) * | 2017-09-21 | 2018-03-27 | 太原理工大学 | 一种基于pcnn语谱图特征融合的情感语音识别系统 |
CN107610692B (zh) * | 2017-09-22 | 2020-07-21 | 杭州电子科技大学 | 基于神经网络堆叠自编码器多特征融合的声音识别方法 |
CN107610715B (zh) * | 2017-10-10 | 2021-03-02 | 昆明理工大学 | 一种基于多种声音特征的相似度计算方法 |
-
2018
- 2018-04-26 CN CN201810385668.0A patent/CN108847252B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108847252A (zh) | 2018-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108847252B (zh) | 基于声信号语谱图纹理分布的声特征提取方法 | |
CN109034046B (zh) | 一种基于声学检测的电能表内异物自动识别方法 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
US10354632B2 (en) | System and method for improving singing voice separation from monaural music recordings | |
CN113642484B (zh) | 一种基于bp神经网络的大地电磁信号噪声压制方法及系统 | |
CN101366078A (zh) | 从单音音频信号分离音频信源的神经网络分类器 | |
EP0134238A1 (en) | Signal processing and synthesizing method and apparatus | |
CN110428364B (zh) | 帕金森声纹语谱图样本扩充方法、装置及计算机存储介质 | |
CN110148425A (zh) | 一种基于完整局部二进制模式的伪装语音检测方法 | |
CN108682432B (zh) | 语音情感识别装置 | |
CN113345443A (zh) | 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法 | |
CN115510909A (zh) | 一种dbscan进行异常声音特征的无监督算法 | |
CN117419915A (zh) | 一种多源信息融合的电机故障诊断方法 | |
CN111025100A (zh) | 变压器特高频局部放电信号模式识别方法与装置 | |
Shifas et al. | A non-causal FFTNet architecture for speech enhancement | |
Yarra et al. | A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection | |
CN114694640A (zh) | 基于音频频谱图的异常声音提取识别方法及装置 | |
CN110299133B (zh) | 基于关键字判定非法广播的方法 | |
CN111091816B (zh) | 一种基于语音评测的数据处理系统及方法 | |
CN113345427A (zh) | 一种基于残差网络的环境声音识别系统及方法 | |
Wang et al. | An underdetermined environmental sound source separation algorithm based on improved complete ensemble EMD with adaptive noise and ICA | |
CN112259118A (zh) | 单声道人声与背景音乐分离方法 | |
CN109215633A (zh) | 基于递归图分析的腭裂语音鼻漏气的识别方法 | |
CN117409799B (zh) | 音频信号处理系统及方法 | |
CN118411999B (zh) | 基于麦克风的定向音频拾取方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |