CN116486834A - 基于特征融合和改进卷积神经网络的轧制声音分类方法 - Google Patents

基于特征融合和改进卷积神经网络的轧制声音分类方法 Download PDF

Info

Publication number
CN116486834A
CN116486834A CN202310468480.3A CN202310468480A CN116486834A CN 116486834 A CN116486834 A CN 116486834A CN 202310468480 A CN202310468480 A CN 202310468480A CN 116486834 A CN116486834 A CN 116486834A
Authority
CN
China
Prior art keywords
data
classification
neural network
convolutional neural
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310468480.3A
Other languages
English (en)
Inventor
张飞
史瑞
李艳姣
李伟超
王清攀
路子杨
王瑞琪
孟祥睿
魏林聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202310468480.3A priority Critical patent/CN116486834A/zh
Publication of CN116486834A publication Critical patent/CN116486834A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于深度学习技术应用领域,具体涉及基于特征融合和改进卷积神经网络的轧制声音分类方法。本发明提供的方法通过对采集的轧制现场声音数据进行预处理,提取具有代表性的音频数据特征,进行特征通道融合,并采用深度学习数据增强方法对特征图进行扩充,以此构建多通道特征数据集;然后构建改进的卷积神经网络模型,并将多通道特征数据集输入网络进行迭代训练,得到网络模型权重;最后,在模型中输入新数据,输出模型分类准确率和类别判定结果。本发明提供的分类方法解决了现有方法对轧制环境声音分类准确率低的问题。

Description

基于特征融合和改进卷积神经网络的轧制声音分类方法
技术领域
本发明涉及深度学习应用技术领域,特别涉及基于特征融合和改进卷积神经网络的轧制声音分类方法,用于轧制现场声音分类。
背景技术
在轧制现场通常伴随着钢板掉落、人声、设备运行声、环境噪声等多类型声音,这些声学数据中包含了海量的可研究信息,因此对轧制现场声音进行精准识别分类具有非常重要的现实意义。
目前,深度学习的发展在钢厂图像方面的应用较为迅速,如利用对抗生成网络GAN提升样本数量和质量、基于图像分割的皮带跑偏检测以及钢板的缺陷检测等。然而,面对部分工艺流程存在水汽、环境昏暗等影响,难以采集到相关的视频图像信息,这也使钢厂某些工艺流程依赖于听力,同时基于声音信号的相关研究也成为了工业智能领域发展的热点技术。
在视觉领域发展的基础上,根据音频特点提取相应的特征,生成图片特征作为网络的输入,有不少研究数据证明已经取得较好的成果,但针对钢厂轧制现场的应用,现有技术无法精准分类相似度高且背景音复杂的声音对象,其模型应用效果无法统一,难以在实际工作中得到应用,并且研究相对较少。本发明在四个特征中突出了音频的特点,有效降低了类别间的相似度和音频内容的复杂度,进而提高轧制环境声音分类准确率。
发明内容
针对上述技术问题,本发明提供一种基于特征融合和改进卷积神经网络模型的轧制声音分类方法,该方法融合多种不同的音频特征作为网络的输入,以VGG-16卷积神经网络模型为基础进行改进;本发明提供的方法在特征和模型两方面同步改进,进而提高轧制环境声音分类准确率;在基于声音信号的钢厂环境监测、设备状态以及故障检测等方面有着广泛的应用前景。
本发明采用的技术方案:
基于特征融合和改进卷积神经网络的轧制声音分类方法,所述轧制声音分类方法包括下列步骤:
(1)数据预处理:采集轧制现场声音数据并进行数据清理、迭代标记、数据格式统一化及数据增样操作;
(2)构建多通道特征数据集:对步骤(1)中预处理后的音频数据提取若干种音频特征图,进行特征通道融合,生成多通道特征图;并采用深度学习数据增强方法对所述多通道特征图进行数据量扩充,构建获得多通道特征数据集;
(3)改进及训练卷积神经网络模型:构建获得改进的VGG卷积神经网络分类模型,将步骤(2)中获得的所述多通道特征数据集输入到所述改进的VGG卷积神经网络分类模型中,迭代训练,进而得到分类网络模型;
(4)输出分类结果:向步骤(3)中获得的所述分类网络模型中输入新采集的源数据,输出模型分类准确率和类别判定结果。
进一步地,步骤(1)中,所述数据清理包括:清除音频数据中无声音频数据,以及清除音频数据中音频文件大小为0字节的空文件;
进一步地,所述数据格式统一化包括:裁剪音频数据,使音频数据时间长度统一,并以统一格式,保存。
进一步地,步骤(1)中,所述迭代标记包括:根据轧制现场声音采集点位来迭代标记数据类别;
迭代标记的数据类别包括:钢板剪切声音、钢板掉落声音、钢板输出声音、现场水雾声声音、板坯传动声音、咬钢声。
进一步地,步骤(1)中,所述数据增样包括:随机选择同一轧制现场声音采集点位的音频A和音频B两条音频,截取音频A中的片段随机替换音频B中相同时长的片段,生成新的音频数据C,完成数据增样。
进一步地,步骤(2)具体为:
对步骤(1)中预处理后音频数据进行音频特征提取,并进行数据标准化处理;其中,使用以下方法处理音频信号以提取特征:梅尔频率倒谱系数(MFCC)、色谱图、宽带语谱图和窄带语谱图;
将提取的特征堆叠在一起进行特征通道融合,每个特征均为224维,生成多通道特征图,作为卷积神经网络的输入,多通道特征图输入尺寸统一为224*224*n(n为通道数),以此为网络创建一个n通道输入特征图;
利用深度学习数据增强方法对生成的所述多通道特征图进行数据量扩充,构建获得多通道特征数据集;基于整个数据集数据的大小,将所述多通道特征数据集按比例随机分为训练集和测试集。
进一步地,在提取获得MFCC的过程中,选用矩形窗函数对每一帧信号进行加窗处理,以避免频谱泄露;
在提取获得色度频率的过程中,相邻窗之间的距离设为512;
在提取获得宽带语谱图的过程中,通过设置48000Hz的语音采样率,FFT长度设为1024,并取20-40个数据点的窗长以及10-80个数据点帧移,选用汉明窗函数;
在提取获得窄带语谱图的过程中,设置语音采样率为48000Hz,取窗长为200-400个数据点,帧移为100-160个数据点,选用汉明窗函数。
进一步地,步骤(2)中,所述深度学习数据增强方法包括亮度增强、网格掩码和注入噪声;通过将亮度增强和所述网格掩码作为主方法,对每张多通道特征图进行亮度增强和网格掩码操作,然后注入随机噪声。
进一步地,步骤(3)中,构建改进的VGG卷积神经网络分类模型,具体包括:
以VGG-16卷积神经网络作为基础结构,对卷积池化层和分类层进行改进;
对卷积池化层的改进包括:对于源VGG-16卷积神经网络结构中的三层512个卷积核的池化层,采用随机池化代替最大池化,以减少计算量同时提高网络的泛化能力;
对分类层的改进包括:将源VGG-16卷积神经网络结构中的三层全连接层替换为全局平均池化层和注意力机制模块,以减少网络参数、优化网络以及提升网络的分类精度。
进一步地,将步骤(2)中获得的所述多通道特征数据集输入到所述改进的VGG卷积神经网络分类模型中,迭代训练,得到分类网络模型的方法具体包括:
步骤(2)中获得的所述多通道特征数据集输入到改进的VGG-16卷积网络模型中迭代训练,直到模型分类准确率达到饱和状态,即模型准确率达到最大值,不再提升,得到最优的模型参数,保存此时的分类网络,得到所述分类网络模型。
本发明有益技术效果:
(1)本发明提供的基于特征融合和改进卷积神经网络模型的轧制声音分类方法,弥补了钢厂轧制基于语音信号分类领域研究的空白。
(2)本发明所述方法中提出的多通道特征相对于单特征,结合不同特征为网络提供了更多可区分的特征和互补的特征表示,以提高分类的准确性和模型的性能;并且在源数据集基础上采用了深度学习数据增强方法,构建了一个新的小规模基准数据集,有效解决网络过拟合的问题。
(3)本发明提供的方法在网络模型方面,包含卷积池化层和分类层的改进;相对于源VGG-16卷积神经网络结构,将三层512个卷积核的池化层由随机池化代替最大池化,减少了计算量的同时也提高了网络的泛化能力;在分类层,将源模型中的三层全连接层替换为全局平均池化层和注意力机制模块,大幅度减少网络参数,优化网络的同时提升网络的分类精度。
附图说明
图1为本发明实施例中一种基于特征融合和改进卷积神经网络模型的轧制声音分类方法整体设计流程图;
图2为本发明实施例中数据预处理和多通道特征数据集构建设计框图;
图3为本发明实施例中改进VGG卷积神经网络模型的网络结构图;
图4为本发明实施例中改进VGG卷积神经网络分类层的结构图;
图5为本发明实施例多通道特征图可视化效果图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如后。
在视觉领域发展的基础上,根据音频特点提取相应的特征,生成图片特征作为网络的输入,有不少研究数据证明已经取得较好的成果,但针对钢厂轧制现场的应用,其模型应用效果无法统一,难以在实际工作中得到应用,并且研究相对较少。
本发明提供的基于特征融合和改进卷积神经网络模型的轧制声音分类方法实施例,在特征和模型两方面同步改进,进而提高轧制环境声音分类准确率。本实施例基于Tensorflow框架和Pycharm开发环境:Tensorflow对Python有很好的语言支持,支持CPU和GPU等硬件,并且支持多种模型和算法。目前,Tensorflow被广泛的应用于文本处理、语音识别和图像识别等多项机器学习和深度学习的领域。
本实施例提供一种基于特征融合和改进卷积神经网络模型的轧制声音分类方法,如图1-图2所示,所述轧制声音分类方法包括下列步骤:
(1)数据预处理:采集轧制现场声音数据并进行数据清理、迭代标记、数据格式统一化及数据增样操作;
(2)构建多通道特征数据集:对步骤(1)中预处理后的音频数据提取若干种音频特征图,进行特征通道融合,生成多通道特征图;并采用深度学习数据增强方法对所述多通道特征图进行数据量扩充,构建获得多通道特征数据集;
(3)改进及训练卷积神经网络模型:构建获得改进的VGG卷积神经网络分类模型,将步骤(2)中获得的所述多通道特征数据集输入到所述改进的VGG卷积神经网络分类模型中,迭代训练,进而得到分类网络模型;
(4)输出分类结果:向步骤(3)中获得的所述分类网络模型中输入新采集的源数据,输出模型分类准确率和类别判定结果。
本发明提供的轧制声音分类方法采用特征融合和数据增强技术构建多通道特征数据集,并通过迭代训练改进的卷积神经网络模型对模型参数不断进行更新,得到最终分类网络;本发明在特征和模型两方面同步改进,进而提高轧制环境声音分类准确率。
在本实施例中,步骤(1)中,所述数据清理包括:清除音频数据中无声音频数据,以及清除音频数据中音频文件大小为0字节的空文件;
所述数据格式统一化包括:裁剪音频数据,使音频数据时间长度统一(具体地,可以同一裁剪为5s或其他时长),并以统一格式(具体地,本实施例中采用.wav格式)保存。
在本实施例步骤(1)中,所述迭代标记包括:根据轧制现场声音采集点位来迭代标记数据类别;
迭代标记的数据类别包括:钢板剪切声音、钢板掉落声音、钢板输出声音、现场水雾声声音、板坯传动声音、咬钢声。优选地,每类数据包括200条数据;
在本实施例步骤(1)中,所述数据增样包括:随机选择同一轧制现场声音采集点位的音频A和音频B两条音频,截取音频A中的片段随机替换音频B相同时长的片段,生成新的音频数据C,完成数据增样。
具体地,数据增样过程如下:在同一类别文件夹(在同一轧制现场声音采集点位采集)中,随机选择两条音频A和B,截取数据A中的2s片段随机替换数据B中2s时长的片段,生成新的音频数据C;每类数据迭代100次,数据增样后,每类别包含300条数据。
在本实施例步骤(2)具体为:
对步骤(1)中预处理后音频数据进行音频特征提取,并进行数据标准化处理;其中,使用以下方法处理音频信号以提取特征:梅尔频率倒谱系数(MFCC)、色谱图、宽带语谱图和窄带语谱图;
将提取的特征堆叠在一起进行特征通道融合,每个特征均为224维,生成多通道特征图(本实施例中为四通道输入),作为卷积神经网络的输入,多通道特征图输入尺寸统一为224*224*n(n为通道数,本实施例中n=4),以此为网络创建一个n通道输入特征图;
利用深度学习数据增强方法对生成的所述多通道特征图进行数据量扩充,构建获得多通道特征数据集;并基于整个数据集数据的大小,将所述多通道特征数据集按比例随机分为训练集和测试集。
在本实施例中,在提取获得MFCC的过程中,选用矩形窗函数对每一帧信号进行加窗处理,以避免频谱泄露;
在提取获得色度频率的过程中,相邻窗之间的距离设为512;
在提取获得宽带语谱图的过程中,通过设置48000Hz的语音采样率,FFT长度设为1024,并取20-40个数据点的窗长以及10-80个数据点帧移,选用汉明窗函数;
在提取获得窄带语谱图的过程中,设置语音采样率为48000Hz,取窗长为200-400个数据点,帧移为100-160个数据点,选用汉明窗函数。
图5显示了从音频信号中提取的多通道特征的图形表示,在同一时间点,每个特征值对音频信号的表达不同,以突出类别的特征,简化特征复杂性,降低类之间的相似性。例如,宽带语谱图中的竖线对应振幅的快速变化,窄带语谱图中的水平线代表谐波。
在本实施例中,步骤(2)中,所述深度学习数据增强方法包括亮度增强、网格掩码和注入噪声;通过将亮度增强和所述网格掩码作为主方法,对每张多通道特征图进行亮度增强和网格掩码操作,然后注入随机噪声;扩充后数据集总计3600张特征图。具体地,在本实施例中,多通道特征数据集按7:3比例随机分为训练集和测试集。
在本实施例中,构建改进的卷积神经网络模型,包括:以VGG-16卷积神经网络作为基础结构,对卷积池化层和分类层进行改进;
对卷积池化层的改进包括:对于源VGG-16卷积神经网络结构中的三层512个卷积核的池化层,采用随机池化代替最大池化,以减少计算量同时提高网络的泛化能力;
对分类层的改进包括:将源VGG-16卷积神经网络结构中的三层全连接层替换为全局平均池化层和注意力机制模块,以减少网络参数、优化网络以及提升网络的分类精度。
构建改进的卷积神经网络模型的方法具体包括:
S31:如图3所示,以VGG-16网络作为基础结构;在改进的VGG-16卷积神经网络网络中,将所述多通道特征图经过3*3卷积核计算后,通过ReLU激活函数进入池化层;
输入的所述多通道特征图经过两次64个卷积核的卷积后通过最大池化层连接两次128个卷积核卷积;两次128个卷积核的卷积通过最大池化层连接两次256个卷积核的卷积;剩下两次三个512个卷积核的卷积通过随机池化层进行连接;
S32:构建改进的分类层模块,如图4所示,改进的核心部分是将三层全连接层替换成全局平均池化层和注意力机制模块,把注意力函数的输出结果输入到Softmax中进行运算,得到对应的注意力权重;将注意力权重的加权和作为注意力汇聚的输出;获得改进的VGG-16卷积网络模型。
在本实施例中,将步骤(2)中获得的所述多通道特征训练和测试数据集输入到所述改进的VGG卷积神经网络分类模型中,迭代训练,得到分类网络模型的方法具体包括:
步骤(2)中获得的所述多通道特征训练和测试数据集输入到改进的VGG-16卷积网络模型中迭代训练,直到模型训练/测试分类准确率达到饱和状态,即模型准确率达到最大值,不再提升,得到最优的模型参数,保存此时的分类网络,得到所述分类网络模型。
具体地,如图1所示,步骤(4)中,轧制声音分类方法输出分类结果包括:将新采集的轧制现场声音数据不进行任何数据处理步骤,输入保存的声音分类网络中,输出模型分类准确率,并根据准确率判断声音所属类别。
基于上述的轧制声音分类方法,由于声音数据均来源于轧制现场,因此该方法的适用范围仅为轧制现场。根据实际运用领域的需要,采用不同领域的声学数据,该特征和网络设计方法可推广到任何场景问题上。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.基于特征融合和改进卷积神经网络的轧制声音分类方法,其特征在于,所述轧制声音分类方法包括下列步骤:
(1)数据预处理:采集轧制现场声音数据并进行数据清理、迭代标记、数据格式统一化及数据增样操作;
(2)构建多通道特征数据集:对步骤(1)中预处理后的音频数据提取若干种音频特征图,进行特征通道融合,生成多通道特征图;并采用深度学习数据增强方法对所述多通道特征图进行数据量扩充,构建获得多通道特征数据集;
(3)改进及训练卷积神经网络模型:构建获得改进的VGG卷积神经网络分类模型,将步骤(2)中获得的所述多通道特征数据集输入到所述改进的VGG卷积神经网络分类模型中,迭代训练,进而得到分类网络模型;
(4)输出分类结果:向步骤(3)中获得的所述分类网络模型中输入新采集的源数据,输出模型分类准确率和类别判定结果。
2.根据权利要求1所述基于特征融合和改进卷积神经网络的轧制声音分类方法,其特征在于,步骤(1)中,所述数据清理包括:清除音频数据中无声音频数据,以及清除音频数据中音频文件大小为0字节的空文件。
3.根据权利要求1所述基于特征融合和改进卷积神经网络的轧制声音分类方法,其特征在于,所述数据格式统一化包括:裁剪音频数据,使音频数据时间长度统一,并以统一格式,保存。
4.根据权利要求1所述基于特征融合和改进卷积神经网络的轧制声音分类方法,其特征在于,步骤(1)中,所述迭代标记包括:根据轧制现场声音采集点位来迭代标记数据类别;
迭代标记的数据类别包括:钢板剪切声音、钢板掉落声音、钢板输出声音、现场水雾声声音、板坯传动声音、咬钢声。
5.根据权利要求1所述基于特征融合和改进卷积神经网络的轧制声音分类方法,其特征在于,步骤(1)中,所述数据增样包括:随机选择同一轧制现场声音采集点位的音频A和音频B两条音频,截取音频A中的片段随机替换音频B中相同时长的片段,生成新的音频数据C,完成数据增样。
6.根据权利要求1所述基于特征融合和改进卷积神经网络的轧制声音分类方法,其特征在于,步骤(2)具体为:
对步骤(1)中预处理后音频数据进行音频特征提取,并进行数据标准化处理;其中,使用以下方法处理音频信号以提取特征:梅尔频率倒谱系数(MFCC)、色谱图、宽带语谱图和窄带语谱图;
将提取的特征堆叠在一起进行特征通道融合,每个特征均为224维,生成多通道特征图,作为卷积神经网络的输入,多通道特征图输入尺寸统一为224*224*n;n为通道数;
利用深度学习数据增强方法对生成的所述多通道特征图进行数据量扩充,构建获得多通道特征数据集;基于整个数据集数据的大小,将所述多通道特征数据集按比例随机分为训练集和测试集。
7.根据权利要求6所述基于特征融合和改进卷积神经网络的轧制声音分类方法,其特征在于,在提取获得MFCC的过程中,选用矩形窗函数对每一帧信号进行加窗处理,以避免频谱泄露;
在提取获得色度频率的过程中,相邻窗之间的距离设为512;
在提取获得宽带语谱图的过程中,通过设置48000Hz的语音采样率,FFT长度设为1024,并取20-40个数据点的窗长以及10-80个数据点帧移,选用汉明窗函数;
在提取获得窄带语谱图的过程中,设置语音采样率为48000Hz,取窗长为200-400个数据点,帧移为100-160个数据点,选用汉明窗函数。
8.根据权利要求1所述基于特征融合和改进卷积神经网络的轧制声音分类方法,其特征在于,步骤(2)中,所述深度学习数据增强方法包括亮度增强、网格掩码和注入噪声;通过将亮度增强和所述网格掩码作为主方法,对每张多通道特征图进行亮度增强和网格掩码操作,然后注入随机噪声。
9.根据权利要求1所述基于特征融合和改进卷积神经网络的轧制声音分类方法,其特征在于,步骤(3)中,构建改进的VGG卷积神经网络分类模型,具体包括:
以VGG-16卷积神经网络作为基础结构,对卷积池化层和分类层进行改进;
对卷积池化层的改进包括:对于源VGG-16卷积神经网络结构中的三层512个卷积核的池化层,采用随机池化代替最大池化,以减少计算量同时提高网络的泛化能力;
对分类层的改进包括:将源VGG-16卷积神经网络结构中的三层全连接层替换为全局平均池化层和注意力机制模块,以减少网络参数、优化网络以及提升网络的分类精度。
10.根据权利要求1所述基于特征融合和改进卷积神经网络的轧制声音分类方法,其特征在于,将步骤(2)中获得的所述多通道特征数据集输入到所述改进的VGG卷积神经网络分类模型中,迭代训练,得到分类网络模型的方法具体包括:
步骤(2)中获得的所述多通道特征数据集输入到改进的VGG-16卷积网络模型中迭代训练,直到模型分类准确率达到饱和状态,即模型准确率达到最大值,不再提升,得到最优的模型参数,保存此时的分类网络,得到所述分类网络模型。
CN202310468480.3A 2023-04-26 2023-04-26 基于特征融合和改进卷积神经网络的轧制声音分类方法 Pending CN116486834A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310468480.3A CN116486834A (zh) 2023-04-26 2023-04-26 基于特征融合和改进卷积神经网络的轧制声音分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310468480.3A CN116486834A (zh) 2023-04-26 2023-04-26 基于特征融合和改进卷积神经网络的轧制声音分类方法

Publications (1)

Publication Number Publication Date
CN116486834A true CN116486834A (zh) 2023-07-25

Family

ID=87215359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310468480.3A Pending CN116486834A (zh) 2023-04-26 2023-04-26 基于特征融合和改进卷积神经网络的轧制声音分类方法

Country Status (1)

Country Link
CN (1) CN116486834A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935889A (zh) * 2023-09-14 2023-10-24 北京远鉴信息技术有限公司 一种音频类别的确定方法、装置、电子设备及存储介质
CN117238320A (zh) * 2023-11-16 2023-12-15 天津大学 一种基于多特征融合卷积神经网络的噪声分类方法
CN117463799A (zh) * 2023-12-28 2024-01-30 江苏宏宝优特管业制造有限公司 热轧钢管生产过程的温度控制方法及系统
CN118016103A (zh) * 2024-04-10 2024-05-10 东北大学 一种基于滤波器组、数据增强和ResNet50的环境声音分类方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935889A (zh) * 2023-09-14 2023-10-24 北京远鉴信息技术有限公司 一种音频类别的确定方法、装置、电子设备及存储介质
CN116935889B (zh) * 2023-09-14 2023-11-24 北京远鉴信息技术有限公司 一种音频类别的确定方法、装置、电子设备及存储介质
CN117238320A (zh) * 2023-11-16 2023-12-15 天津大学 一种基于多特征融合卷积神经网络的噪声分类方法
CN117238320B (zh) * 2023-11-16 2024-01-09 天津大学 一种基于多特征融合卷积神经网络的噪声分类方法
CN117463799A (zh) * 2023-12-28 2024-01-30 江苏宏宝优特管业制造有限公司 热轧钢管生产过程的温度控制方法及系统
CN117463799B (zh) * 2023-12-28 2024-03-22 江苏宏宝优特管业制造有限公司 热轧钢管生产过程的温度控制方法及系统
CN118016103A (zh) * 2024-04-10 2024-05-10 东北大学 一种基于滤波器组、数据增强和ResNet50的环境声音分类方法

Similar Documents

Publication Publication Date Title
CN116486834A (zh) 基于特征融合和改进卷积神经网络的轧制声音分类方法
CN109065030B (zh) 基于卷积神经网络的环境声音识别方法及系统
CN106611604B (zh) 一种基于深度神经网络的自动语音叠音检测方法
CN110808033B (zh) 一种基于双重数据增强策略的音频分类方法
CN102723079B (zh) 基于稀疏表示的音乐和弦自动识别方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN113763986B (zh) 一种基于声音分类模型的空调内机异常声音检测方法
CN114863937B (zh) 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
CN112200238B (zh) 基于声响特征的硬岩拉剪破裂识别方法与装置
CN117095694B (zh) 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN107478418A (zh) 一种旋转机械故障特征自动提取方法
CN105609116A (zh) 一种语音情感维度区域的自动识别方法
CN116861303A (zh) 一种变电站数字孪生多源信息融合诊断方法
CN116935892A (zh) 一种基于音频关键特征动态聚合的工业阀门异常检测方法
Abeysinghe et al. Data augmentation on convolutional neural networks to classify mechanical noise
AU2021101586A4 (en) A System and a Method for Non-Intrusive Speech Quality and Intelligibility Evaluation Measures using FLANN Model
CN114352486A (zh) 一种基于分类的风电机组叶片音频故障检测方法
Shu et al. Time-frequency performance study on urban sound classification with convolutional neural network
Qiu et al. Sound Recognition of Harmful Bird Species Related to Power Grid Faults Based on VGGish Transfer Learning
CN111025100A (zh) 变压器特高频局部放电信号模式识别方法与装置
Wu et al. Audio-based expansion learning for aerial target recognition
CN113782051A (zh) 广播效果分类方法及系统、电子设备和存储介质
CN113488069A (zh) 基于生成式对抗网络的语音高维特征快速提取方法和装置
Wang et al. A hierarchical birdsong feature extraction architecture combining static and dynamic modeling
Aurchana et al. Musical instruments sound classification using GMM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination