CN109599126A - 一种基于mel能量谱和卷积神经网络的声音故障识别方法 - Google Patents
一种基于mel能量谱和卷积神经网络的声音故障识别方法 Download PDFInfo
- Publication number
- CN109599126A CN109599126A CN201811642820.5A CN201811642820A CN109599126A CN 109599126 A CN109599126 A CN 109599126A CN 201811642820 A CN201811642820 A CN 201811642820A CN 109599126 A CN109599126 A CN 109599126A
- Authority
- CN
- China
- Prior art keywords
- frame
- energy
- voice signal
- filter
- meier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 35
- 238000001228 spectrum Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000009432 framing Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 10
- 210000002569 neuron Anatomy 0.000 claims description 8
- 230000000737 periodic effect Effects 0.000 claims description 8
- 230000000644 propagated effect Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims 1
- 230000005236 sound signal Effects 0.000 abstract description 2
- 230000004069 differentiation Effects 0.000 abstract 1
- 238000000605 extraction Methods 0.000 abstract 1
- 238000001514 detection method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000035484 reaction time Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于mel能量谱和卷积神经网络的声音故障识别方法,首先将初始输入的音频数据进行预加重,之后需要对数据进行分帧、加窗处理,然后要对分帧、加窗后的音频信号进行快速傅里叶变换,提取频域上的能量特征之后,将能量谱通过一组Mel尺度的三角形滤波器组,之后对每一帧对应不同频域的能量作为Y轴,时域上不同帧作为X轴,将数据转换为梅尔能量谱图。此后,需要进一步对能量谱图进行分帧,以适应CNN(卷积神经网络)的输入,每一帧为一个样本,每个样本对应的标签的独热编码作为CNN网络的输出,对CNN网络模型进行训练,直到网络训练误差达到最低。在预测时,输出每一类标签的概率值,取概率值最大的标签作为最终的判别结果。
Description
技术领域
本发明AI声音故障检测识别领域,更具体地,涉及一种基于mel能量谱和卷积神经网络的声音故障识别方法。
背景技术
大型空调冷却设备在现实应用中已经相当普及,对于其发生故障的检测,大多采用了人工检测的方式。专业的工作人员进行巡视检查的方法,可以凭借工作人员的感官和感觉,检查设备的外观、震动、运行声音等,以此来判定设备是否发生破损、松动等异常。这种方式简单方便,但是得到的信息十分有限,且工作人员的知识技能、经验以及观察能力差异化较大,巡视的结果也难以让人满意。
发明内容
本发明的目的是解决现有技术中工作人员判别差异大、信息传达速度慢以及检测成本高的缺陷,提出一种基于mel能量谱和卷积神经网络的声音故障识别方法。
为实现以上发明目的,采用的技术方案是:
一种基于mel能量谱和卷积神经网络的声音故障识别方法,其特征在于,包括以下步骤:
S1:对语音信号进行预加重,增加声音的高频分辨率;
S2:对语音信号进行分帧处理,通过将N个语音信号上的采样点组合为一个观测单位即为为帧,两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,M的值为N的1/2或1/3;
S3:对语音信号进行加窗处理,通过采用汉明窗进行加窗使原本没有周期性的语音信号呈现出周期函数的特征,其中窗函数为:
n=0,1…,N-1,N为帧的大小;
S4:乘上汉明窗后的各帧信号进行快速傅里叶变换,得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱,设语音信号的DFT为:
式中x(n)为输入的语音信号,N表示傅里叶变换的点数;
S5:将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M;M取22-26,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
三角滤波器的频率响应定义为:
式中:
f(m)为中心频率,k为频率;
S6:计算每个滤波器组输出的对数能量:
m=0,1…,M,M为滤波器个数,Hm(k)为滤波器的频率响应;
S7:转换为梅尔能量谱图;步骤S2的分帧是在采样点上进行的,对N个采样点作为一帧进行之后步骤的一系列操作后,最终每一帧提取M个频段的梅尔能量谱作为Y轴的M个值,而X轴以帧数作为单位,由此得到一张梅尔能量谱图;
S8:以梅尔能量谱图的X轴的N个坐标单位长度为一帧的长度,以Y轴所有数据作为一帧的宽度,对梅尔能量谱图进行分帧。等同于将一个梅尔能量谱他按照X轴切为多个分段,其中每一段作为一个样本,作为下一阶段卷积神经网络的输入。此步骤的分帧步长,和分帧长度相等,即相邻两帧没有重叠的部分;
S9:搭建CNN网络;其中包含了5个2维卷积层,3个全连接层,2个最大池化层,此外为了缓解过拟合,设置了3层dropout;而在第一层卷积层后,增加了一层batch_normalization以加快收敛速度;CNN网络最后一层使用softmax激活函数:
其中,j=1,…,K,K为分类的最大类别;,z为网络最后一层输出;
S10:把进一步分帧的梅尔能量谱图,一帧作为一个样本,以16个样本为一个包(batch),放入CNN网络的输入进行训练,以样本对应的标签的独热编码为输出,采用BP算法进行迭代优化,不断更新CNN网络的参数,使得输出的预测误差达到最小;当继续训练不能使得验证集的数据误差降低的时候,停止算法优化;
S11:将前向传播的结果和真实输出值计算交叉熵误差(Cross-entropy),具体计算公式为:
其中N为类别数量,为模型输出值,y为真实值,L为损失函数;
S12:根据链式求导法则,计算各层神经元的梯度项,使得误差减小;
S13:根据计算出的梯度项,采用Momentum优化方法更新各层神经元参数;
S14:重复步骤S10到步骤S13,直到误差达到指定最小值,或者超出循环次数epoch跳出循环;
S15:将经过预处理的数据,放入CNN网络进行前向传播,取最后一层输出概率最大的类别,作为最终的判定结果。
优选的是,步骤S1所述预加重一阶FIR高通滤波器实现,采用的传递函数为H(z)=1-az^-1,其中a为预加重系数。
优选的是,步骤S2所述N个语音信号中N的值为256或512。
与现有技术相比,本发明的有益效果是:
1)节约人力,大大减少值班人员在强噪声环境下的工作时间,即改善了工作条件,又使企业达到国家有关噪声卫生标准;
2)声音故障识别算法可分性强、稳定性高,在外界的客观条件发生变化时有良好的适应性;
3)对于检测的结果可以及时的介入管理信息系统,通知对应的维修人员进行及时的修理,大大缩短了维修的反应时间,降低进一步发生故障的可能性。
具体实施方式
以下结合实施例对本发明做进一步的阐述。
实施例1
一种基于mel能量谱和卷积神经网络的声音故障识别方法,包括以下步骤:
S1:对语音信号进行预加重,增加声音的高频分辨率;
对语音信号进行预加重,从而增加声音的高频分辨率。预加重一般传递函数为H(z)=1-az^-1。本发明使用一阶FIR高通滤波器实现预加重,其中a为预加重系数,设n时刻的语音采样值为x(n),经过预加重处理后的结果为y(n)=x(n)-ax(n-1),这里取a=0.95。
S2:对语音信号进行分帧处理,在时序上,每间隔一定的时间截取一部分音频数据为一帧,而间隔的时间则为分帧的步长。由于声音信号具有短时平稳特性,对音频进行分帧有助于进一步细分声音的特性。通过将N个语音信号上的采样点组合为一个观测单位即为为帧,N的值为256或512,涵盖的时间约为20~30ms,相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,M的值为N的1/2或1/3;通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000×1000=32ms。
S3:对语音信号进行加窗处理,加窗之后是为了进行傅里叶展开,加窗的目的是为了使全局更加连续,避免出现吉布斯效应;此外,加窗之后,原本没有周期性的语音信号呈现出周期函数的部分特征。通过采用汉明窗进行加窗使原本没有周期性的语音信号呈现出周期函数的特征,其中窗函数为:
n=0,1…,N-1,N为帧的大小;不同的a值会产生不同的汉明窗,一般情况下a取0.46。
S4:乘上汉明窗后的各帧信号进行快速傅里叶变换,得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱,设语音信号的DFT为:
式中x(n)为输入的语音信号,N表示傅里叶变换的点数;由于信号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。所以在乘上汉明窗后,每帧还必须再经过快速傅里叶变换以得到在频谱上的能量分布。
S5:将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M;M取22-26,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
三角滤波器的频率响应定义为:
式中:f(m)为中心频率,k为频率;三角带通滤波器有两个主要目的:
对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。
S6:计算每个滤波器组输出的对数能量:
M为滤波器个数,Hm(k)为滤波器的频率响应;三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。
S7:转换为梅尔能量谱图;步骤S2的分帧是在采样点上进行的,对N个采样点作为一帧进行之后步骤的一系列操作后,最终每一帧提取M个频段的梅尔能量谱作为Y轴的M个值,而X轴以帧数作为单位,由此得到一张梅尔能量谱图;如果数据采样点有10240个,每一帧的值为1024,步长为512,梅尔滤波器个数为64,那么最终的梅尔能量谱图大小为:
64×((10240-1024)/512+1)=64*19。其中64为Y轴长度,19为X轴长度。
S8:以梅尔能量谱图的X轴的N个坐标单位长度为一帧的长度,以Y轴所有数据作为一帧的宽度,对梅尔能量谱图进行分帧。等同于将一个梅尔能量谱他按照X轴切为多个分段,其中每一段作为一个样本,作为下一阶段卷积神经网络的输入。此步骤的分帧步长,和分帧长度相等,即相邻两帧没有重叠的部分;
S9:搭建CNN网络;其中包含了5个2维卷积层,3个全连接层,2个最大池化层,此外为了缓解过拟合,设置了3层dropout;而在第一层卷积层后,增加了一层batch_normalization以加快收敛速度;CNN网络最后一层使用softmax激活函数:
其中,j=1,…,K,K为分类的最大类别;z为网络最后一层输出
S10:把进一步分帧的梅尔能量谱图,一帧作为一个样本,以16个样本为一个包(batch),放入CNN网络的输入进行训练,以样本对应的标签的独热编码为输出,采用BP算法进行迭代优化,不断更新CNN网络的参数,使得输出的预测误差达到最小;当继续训练不能使得验证集的数据误差降低的时候,停止算法优化;
S11:将前向传播的结果和真实输出值计算交叉熵误差(Cross-entropy),具体计算公式为:
其中N为类别数量,为模型输出值,y为真实值,L为损失函数;
S12:根据链式求导法则,计算各层神经元的梯度项,使得误差减小;
S13:根据计算出的梯度项,采用Momentum优化方法更新各层神经元参数;
S14:重复步骤S10到步骤S13,直到误差达到指定最小值,或者超出循环次数epoch跳出循环;
S15:将经过预处理的数据,放入CNN网络进行前向传播,取最后一层输出概率最大的类别,作为最终的判定结果。
实施例2
一种基于mel能量谱和卷积神经网络的声音故障识别方法,包括以下步骤:
S1:针对输入的音频数据,按照如下公式预加重y(n)=x(n)-0.95*x(n-1);
S2:对双通道音频在通道上取均值改为单通道,并以单帧采样点612,步长306对数据分帧
S3:给每一帧加窗,窗口取汉明窗,系数a=0.46
S4:对每一帧数据进行快速傅里叶变换,生成能量谱
S5:将能量谱通过Mel尺度的三角带通滤波器。滤波器数量取64,最大频率22050(采样点频率44100的一半)
S6:S5生成的数据,以频域为Y轴,时域为X轴,转换成Mei能量谱图
S7:进一步分帧,最后截取的每一帧图谱长128像素,高64像素。以16张图为一个batch
S8:随机初始化CNN神经网络参数
S9:将数据输入神经网络,进行前向传播,得到输出
S10:计算CNN神经网络的交叉熵误差L
S11:根据误差,计算各层神经元的梯度项gt
S12:根据Momentun优化算法,计算本次误差的各神经元更新参数Δθt。更新公式为:
mt=μ*mt-1+gt
Δθt=-ρ*mt
其中,μ是动量因子,gt是当前计算的梯度,-ρ是更新步长系数
S13:当误差小于最低误差,或者循环次数大于epoch,停止迭代,否则步入Step 9,进行循环。
S14:利用训练完成的CNN神经网络模型,对经过预处理的未知标签的样本进行预测,取输出概率最大的标签为预测结果。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (3)
1.一种基于mel能量谱和卷积神经网络的声音故障识别方法,其特征在于,包括以下步骤:
S1:对语音信号进行预加重,增加声音的高频分辨率;
S2:对语音信号进行分帧处理,通过将N个语音信号上的采样点组合为一个观测单位即为帧,两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,M的值为N的1/2或1/3;
S3:对语音信号进行加窗处理,通过采用汉明窗进行加窗使原本没有周期性的语音信号呈现出周期函数的特征,其中窗函数为:
n=0,1…,N-1,N为帧的大小,a为窗函数大小系数;
S4:乘上汉明窗后的各帧信号进行快速傅里叶变换,得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱,设语音信号的DFT为:
式中x(n)为输入的语音信号,N表示傅里叶变换的点数;
S5:将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M;M取22-26,各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;
三角滤波器的频率响应定义为:
式中:
f(m)为中心频率,k为频率;
S6:计算每个滤波器组输出的对数能量:
m=0,1…,M,M为滤波器个数,Hm(k)为滤波器的频率响应;
S7:转换为梅尔能量谱图;步骤S2的分帧是在采样点上进行的,对N个采样点作为一帧进行之后步骤的一系列操作后,最终每一帧提取M个频段的梅尔能量谱作为Y轴的M个值,而X轴以帧数作为单位,由此得到一张梅尔能量谱图;
S8:以梅尔能量谱图的X轴的N个坐标单位长度为一帧的长度,以Y轴所有数据作为一帧的宽度,对梅尔能量谱图进行分帧,等同于将一个梅尔能量谱他按照X轴切为多个分段,其中每一段作为一个样本,作为下一阶段卷积神经网络的输入。此步骤的分帧步长,和分帧长度相等,即相邻两帧没有重叠的部分;
S9:搭建CNN网络;其中包含了5个2维卷积层,3个全连接层,2个最大池化层,此外为了缓解过拟合,设置了3层dropout;而在第一层卷积层后,增加了一层batch_normalization以加快收敛速度;CNN网络最后一层使用softmax激活函数:
其中,j=1,…,K,K为分类的最大类别,z为网络最后一层输出;
S10:把进一步分帧的梅尔能量谱图,一帧作为一个样本,以16个样本为一个包(batch),放入CNN网络的输入进行训练,以样本对应的标签的独热编码为输出,采用BP算法进行迭代优化,不断更新CNN网络的参数,使得输出的预测误差达到最小;当继续训练不能使得验证集的数据误差降低的时候,停止算法优化;
S11:将前向传播的结果和真实输出值计算交叉熵误差(Cross-entropy),具体计算公式为:
其中N为类别数量,为模型预测输出值,y为真实值,L为损失函数;
S12:根据链式求导法则,计算各层神经元的梯度项,使得误差减小;
S13:根据计算出的梯度项,采用Momentum优化方法更新各层神经元参数;
S14:重复步骤S10到步骤S13,直到误差达到指定最小值,或者超出循环次数epoch跳出循环;
S15:将经过预处理的数据,放入CNN网络进行前向传播,取最后一层输出概率最大的类别,作为最终的判定结果。
2.根据权利要求1所述的一种基于mel能量谱和卷积神经网络的声音故障识别方法,其特征在于,步骤S1所述预加重一阶FIR高通滤波器实现,采用的传递函数为H(z)=1-az^-1,其中a为预加重系数。
3.根据权利要求1所述的一种基于mel能量谱个卷积神经网络的声音故障识别方法,其特征在于,步骤S2所述N个语音信号中N的值为256或512。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811642820.5A CN109599126B (zh) | 2018-12-29 | 2018-12-29 | 一种基于mel能量谱和卷积神经网络的声音故障识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811642820.5A CN109599126B (zh) | 2018-12-29 | 2018-12-29 | 一种基于mel能量谱和卷积神经网络的声音故障识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109599126A true CN109599126A (zh) | 2019-04-09 |
CN109599126B CN109599126B (zh) | 2022-04-19 |
Family
ID=65965667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811642820.5A Active CN109599126B (zh) | 2018-12-29 | 2018-12-29 | 一种基于mel能量谱和卷积神经网络的声音故障识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109599126B (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110010155A (zh) * | 2019-04-11 | 2019-07-12 | 中国一拖集团有限公司 | 基于卷积神经网络和mfcc的颤振识别方法和系统 |
CN110223713A (zh) * | 2019-06-11 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 声音事件检测模型训练方法及声音事件检测方法 |
CN110322894A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种基于声音的波形图生成及大熊猫检测方法 |
CN110425710A (zh) * | 2019-08-30 | 2019-11-08 | 盈盛智创科技(广州)有限公司 | 一种空调的故障检测方法、装置、设备及存储介质 |
CN110472587A (zh) * | 2019-08-19 | 2019-11-19 | 四川大学 | 基于cnn和声音时频特征图的微型振动马达缺陷识别方法及装置 |
CN110531736A (zh) * | 2019-08-13 | 2019-12-03 | 中国航空工业集团公司西安飞行自动控制研究所 | 一种大功率电机控制器故障监控电路及其方法 |
CN110580920A (zh) * | 2019-08-28 | 2019-12-17 | 南京梧桐微电子科技有限公司 | 一种声码器子带清浊音判决的方法及系统 |
CN111076809A (zh) * | 2019-12-31 | 2020-04-28 | 四川长虹电器股份有限公司 | 基于卷积神经网络的设备异常声音识别方法及系统 |
CN111210803A (zh) * | 2020-04-21 | 2020-05-29 | 南京硅基智能科技有限公司 | 一种基于Bottleneck特征训练克隆音色及韵律的系统及方法 |
CN111445926A (zh) * | 2020-04-01 | 2020-07-24 | 杭州叙简科技股份有限公司 | 一种基于声音的农村道路交通事故警情识别方法 |
CN111540346A (zh) * | 2020-05-13 | 2020-08-14 | 慧言科技(天津)有限公司 | 一种远场声音分类方法和装置 |
CN111586430A (zh) * | 2020-05-14 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 在线互动方法、客户端、服务器和存储介质 |
CN111611431A (zh) * | 2020-04-16 | 2020-09-01 | 北京邮电大学 | 一种基于深度学习的音乐分类方法 |
CN111723683A (zh) * | 2020-05-29 | 2020-09-29 | 国网上海市电力公司 | 一种基于改进mfcc和k近邻的变压器故障声音识别方法 |
CN111798873A (zh) * | 2020-05-15 | 2020-10-20 | 厦门快商通科技股份有限公司 | 一种基于3-d卷积神经网络的语音情绪识别方法及装置 |
CN111833856A (zh) * | 2020-07-15 | 2020-10-27 | 厦门熙重电子科技有限公司 | 基于深度学习的语音关键信息标定方法 |
CN112133326A (zh) * | 2020-09-08 | 2020-12-25 | 东南大学 | 一种基于对抗神经网络的枪声数据增广与检测方法 |
CN112382293A (zh) * | 2020-11-11 | 2021-02-19 | 广东电网有限责任公司 | 一种电力物联网的智能语音交互方法及系统 |
CN112435686A (zh) * | 2020-11-19 | 2021-03-02 | 中国南方电网有限责任公司超高压输电公司 | 一种基于数据增强的电力设备故障声音识别方法 |
CN112599134A (zh) * | 2020-12-02 | 2021-04-02 | 国网安徽省电力有限公司 | 一种基于声纹识别的变压器声音事件检测方法 |
CN112613481A (zh) * | 2021-01-04 | 2021-04-06 | 上海明略人工智能(集团)有限公司 | 一种基于频谱的轴承磨耗预警方法与系统 |
CN113012719A (zh) * | 2021-02-04 | 2021-06-22 | 上海小芃科技有限公司 | 睡眠声音信号疲劳评估方法、系统、电子设备及存储介质 |
CN113438368A (zh) * | 2021-06-22 | 2021-09-24 | 上海翰声信息技术有限公司 | 一种实现回铃音检测的方法、装置及计算机可读存储介质 |
CN113763986A (zh) * | 2021-09-07 | 2021-12-07 | 山东大学 | 一种基于声音分类模型的空调内机异常声音检测方法 |
CN114627891A (zh) * | 2022-05-16 | 2022-06-14 | 山东捷瑞信息技术产业研究院有限公司 | 一种动圈扬声器质量检测方法和装置 |
CN114818997A (zh) * | 2022-06-28 | 2022-07-29 | 苏芯物联技术(南京)有限公司 | 一种基于高频焊接时序数据的烧穿故障预测方法 |
CN115238867A (zh) * | 2022-07-28 | 2022-10-25 | 广东电力信息科技有限公司 | 一种基于客服非结构化数据智能识别的电力故障定位方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436809A (zh) * | 2011-10-21 | 2012-05-02 | 东南大学 | 英语口语机考系统中网络语音识别方法 |
US20180047389A1 (en) * | 2016-08-12 | 2018-02-15 | Electronics And Telecommunications Research Institute | Apparatus and method for recognizing speech using attention-based context-dependent acoustic model |
CN107992836A (zh) * | 2017-12-12 | 2018-05-04 | 中国矿业大学(北京) | 一种矿工不安全行为的识别方法及系统 |
CN108231067A (zh) * | 2018-01-13 | 2018-06-29 | 福州大学 | 基于卷积神经网络与随机森林分类的声音场景识别方法 |
CN108597505A (zh) * | 2018-04-20 | 2018-09-28 | 北京元心科技有限公司 | 语音识别方法、装置及终端设备 |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
-
2018
- 2018-12-29 CN CN201811642820.5A patent/CN109599126B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436809A (zh) * | 2011-10-21 | 2012-05-02 | 东南大学 | 英语口语机考系统中网络语音识别方法 |
US20180047389A1 (en) * | 2016-08-12 | 2018-02-15 | Electronics And Telecommunications Research Institute | Apparatus and method for recognizing speech using attention-based context-dependent acoustic model |
CN107992836A (zh) * | 2017-12-12 | 2018-05-04 | 中国矿业大学(北京) | 一种矿工不安全行为的识别方法及系统 |
CN108231067A (zh) * | 2018-01-13 | 2018-06-29 | 福州大学 | 基于卷积神经网络与随机森林分类的声音场景识别方法 |
CN108597505A (zh) * | 2018-04-20 | 2018-09-28 | 北京元心科技有限公司 | 语音识别方法、装置及终端设备 |
CN109065030A (zh) * | 2018-08-01 | 2018-12-21 | 上海大学 | 基于卷积神经网络的环境声音识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
陈秋菊: "基于卷积神经网络的声音场景识别", 《信息与电脑》 * |
Cited By (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110010155A (zh) * | 2019-04-11 | 2019-07-12 | 中国一拖集团有限公司 | 基于卷积神经网络和mfcc的颤振识别方法和系统 |
CN110223713A (zh) * | 2019-06-11 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 声音事件检测模型训练方法及声音事件检测方法 |
CN110322894A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种基于声音的波形图生成及大熊猫检测方法 |
CN110322894B (zh) * | 2019-06-27 | 2022-02-11 | 电子科技大学 | 一种基于声音的波形图生成及大熊猫检测方法 |
CN110531736A (zh) * | 2019-08-13 | 2019-12-03 | 中国航空工业集团公司西安飞行自动控制研究所 | 一种大功率电机控制器故障监控电路及其方法 |
CN110472587A (zh) * | 2019-08-19 | 2019-11-19 | 四川大学 | 基于cnn和声音时频特征图的微型振动马达缺陷识别方法及装置 |
CN110472587B (zh) * | 2019-08-19 | 2022-02-08 | 四川大学 | 基于cnn和声音时频特征图的微型振动马达缺陷识别方法及装置 |
CN110580920A (zh) * | 2019-08-28 | 2019-12-17 | 南京梧桐微电子科技有限公司 | 一种声码器子带清浊音判决的方法及系统 |
CN110425710A (zh) * | 2019-08-30 | 2019-11-08 | 盈盛智创科技(广州)有限公司 | 一种空调的故障检测方法、装置、设备及存储介质 |
CN111076809A (zh) * | 2019-12-31 | 2020-04-28 | 四川长虹电器股份有限公司 | 基于卷积神经网络的设备异常声音识别方法及系统 |
CN111076809B (zh) * | 2019-12-31 | 2021-08-31 | 四川长虹电器股份有限公司 | 基于卷积神经网络的设备异常声音识别方法及系统 |
CN111445926A (zh) * | 2020-04-01 | 2020-07-24 | 杭州叙简科技股份有限公司 | 一种基于声音的农村道路交通事故警情识别方法 |
CN111445926B (zh) * | 2020-04-01 | 2023-01-03 | 杭州叙简科技股份有限公司 | 一种基于声音的农村道路交通事故警情识别方法 |
CN111611431B (zh) * | 2020-04-16 | 2023-07-28 | 北京邮电大学 | 一种基于深度学习的音乐分类方法 |
CN111611431A (zh) * | 2020-04-16 | 2020-09-01 | 北京邮电大学 | 一种基于深度学习的音乐分类方法 |
CN111210803A (zh) * | 2020-04-21 | 2020-05-29 | 南京硅基智能科技有限公司 | 一种基于Bottleneck特征训练克隆音色及韵律的系统及方法 |
CN111540346A (zh) * | 2020-05-13 | 2020-08-14 | 慧言科技(天津)有限公司 | 一种远场声音分类方法和装置 |
CN111586430A (zh) * | 2020-05-14 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 在线互动方法、客户端、服务器和存储介质 |
CN111798873A (zh) * | 2020-05-15 | 2020-10-20 | 厦门快商通科技股份有限公司 | 一种基于3-d卷积神经网络的语音情绪识别方法及装置 |
CN111723683A (zh) * | 2020-05-29 | 2020-09-29 | 国网上海市电力公司 | 一种基于改进mfcc和k近邻的变压器故障声音识别方法 |
CN111833856A (zh) * | 2020-07-15 | 2020-10-27 | 厦门熙重电子科技有限公司 | 基于深度学习的语音关键信息标定方法 |
CN111833856B (zh) * | 2020-07-15 | 2023-10-24 | 厦门熙重电子科技有限公司 | 基于深度学习的语音关键信息标定方法 |
CN112133326A (zh) * | 2020-09-08 | 2020-12-25 | 东南大学 | 一种基于对抗神经网络的枪声数据增广与检测方法 |
CN112382293A (zh) * | 2020-11-11 | 2021-02-19 | 广东电网有限责任公司 | 一种电力物联网的智能语音交互方法及系统 |
CN112435686A (zh) * | 2020-11-19 | 2021-03-02 | 中国南方电网有限责任公司超高压输电公司 | 一种基于数据增强的电力设备故障声音识别方法 |
CN112599134A (zh) * | 2020-12-02 | 2021-04-02 | 国网安徽省电力有限公司 | 一种基于声纹识别的变压器声音事件检测方法 |
CN112613481A (zh) * | 2021-01-04 | 2021-04-06 | 上海明略人工智能(集团)有限公司 | 一种基于频谱的轴承磨耗预警方法与系统 |
CN113012719A (zh) * | 2021-02-04 | 2021-06-22 | 上海小芃科技有限公司 | 睡眠声音信号疲劳评估方法、系统、电子设备及存储介质 |
CN113012719B (zh) * | 2021-02-04 | 2023-11-17 | 上海小芃科技有限公司 | 睡眠声音信号疲劳评估方法、系统、电子设备及存储介质 |
CN113438368A (zh) * | 2021-06-22 | 2021-09-24 | 上海翰声信息技术有限公司 | 一种实现回铃音检测的方法、装置及计算机可读存储介质 |
CN113438368B (zh) * | 2021-06-22 | 2023-01-24 | 上海翰声信息技术有限公司 | 一种实现回铃音检测的方法、装置及计算机可读存储介质 |
CN113763986A (zh) * | 2021-09-07 | 2021-12-07 | 山东大学 | 一种基于声音分类模型的空调内机异常声音检测方法 |
CN113763986B (zh) * | 2021-09-07 | 2024-02-02 | 山东大学 | 一种基于声音分类模型的空调内机异常声音检测方法 |
CN114627891A (zh) * | 2022-05-16 | 2022-06-14 | 山东捷瑞信息技术产业研究院有限公司 | 一种动圈扬声器质量检测方法和装置 |
CN114818997A (zh) * | 2022-06-28 | 2022-07-29 | 苏芯物联技术(南京)有限公司 | 一种基于高频焊接时序数据的烧穿故障预测方法 |
CN115238867A (zh) * | 2022-07-28 | 2022-10-25 | 广东电力信息科技有限公司 | 一种基于客服非结构化数据智能识别的电力故障定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109599126B (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599126A (zh) | 一种基于mel能量谱和卷积神经网络的声音故障识别方法 | |
WO2020173133A1 (zh) | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 | |
CN109524020B (zh) | 一种语音增强处理方法 | |
CN111627458B (zh) | 一种声源分离方法及设备 | |
KR100908121B1 (ko) | 음성 특징 벡터 변환 방법 및 장치 | |
CN110379416A (zh) | 一种神经网络语言模型训练方法、装置、设备及存储介质 | |
CN108847244A (zh) | 基于mfcc和改进bp神经网络的声纹识别方法及系统 | |
CN111653289B (zh) | 一种回放语音检测方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN109147774B (zh) | 一种改进的延时神经网络声学模型 | |
CN112800782A (zh) | 融合文本语义特征的语音翻译方法、系统、设备 | |
Lavrynenko et al. | Method of voice control functions of the UAV | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
Mallidi et al. | Autoencoder based multi-stream combination for noise robust speech recognition | |
CN109036470A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN112927709A (zh) | 一种基于时频域联合损失函数的语音增强方法 | |
Cui et al. | A study of variable-parameter Gaussian mixture hidden Markov modeling for noisy speech recognition | |
Jia et al. | Federated domain adaptation for asr with full self-supervision | |
CN114387997A (zh) | 一种基于深度学习的语音情感识别方法 | |
Meng et al. | Noisy training for deep neural networks | |
CN110010128A (zh) | 一种高识别率的语音控制方法及系统 | |
CN112735477B (zh) | 语音情感分析方法和装置 | |
CN111667836B (zh) | 基于深度学习的文本无关多标号说话人识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |