CN116825130B - 一种深度学习模型蒸馏方法、装置、设备及介质 - Google Patents
一种深度学习模型蒸馏方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116825130B CN116825130B CN202311071923.1A CN202311071923A CN116825130B CN 116825130 B CN116825130 B CN 116825130B CN 202311071923 A CN202311071923 A CN 202311071923A CN 116825130 B CN116825130 B CN 116825130B
- Authority
- CN
- China
- Prior art keywords
- model
- teacher
- student
- prompt
- mel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004821 distillation Methods 0.000 title claims abstract description 54
- 238000013136 deep learning model Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000001228 spectrum Methods 0.000 claims abstract description 93
- 238000005096 rolling process Methods 0.000 claims abstract description 67
- 230000011218 segmentation Effects 0.000 claims abstract description 43
- 230000005236 sound signal Effects 0.000 claims abstract description 42
- 238000013135 deep learning Methods 0.000 claims abstract description 18
- 238000004590 computer program Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000003709 image segmentation Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims 2
- 238000010183 spectrum analysis Methods 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种深度学习模型蒸馏方法、装置、设备及介质,包括以下步骤:将一维轧机音频信号通过梅尔频谱分析转化为二维频谱图;分别基于ViT‑H及ViT‑tiny构建万物可分割模型,作为模型蒸馏中的教师和学生模型;固定两模型提示编码器及解码器的参数,基于嵌入的KL散度训练两模型的频谱图像编码器;在时间轴逐秒生成提示点,基于ViT‑tiny的编码器参数实现分割,通过mIoU过滤无效分割,生成最终的整图分割结果。本发明通过将大模型到小模型的蒸馏,实现了基于音频轧机空载负载识别,能够有效提高深度学习轧机空载负载音频识别的性能。
Description
技术领域
本发明涉及工业设备音频识别技术领域,具体涉及一种深度学习模型蒸馏方法、装置、设备及介质。
背景技术
当前在工业设备音频识别领域,对轧机空载负载的音频识别具有重要意义。随着人工智能的快速发展,基于深度学习模型的音频识别方法取得了良好的效果;然而,现有的深度学习模型,通常存在模型较大,推理时间过长,占用显存过多等问题,进而影响了利用深度学习监测轧机空载负载的效率和性能。
有鉴于此,提出本申请。
发明内容
有鉴于此,本发明的目的在于提供一种深度学习模型蒸馏方法、装置、设备及介质,能够有效解决现有技术中的深度学习模型,通常存在模型较大,推理时间过长,占用显存过多等问题,进而影响了利用深度学习监测轧机空载负载的效率和性能的问题。
本发明公开了一种深度学习模型蒸馏方法, 包括:
获取待识别的梅尔频谱图片,采用梅尔频谱对所述梅尔频谱图片的一维轧机音频信号进行分析处理,转化生成二维频谱图,并过滤所述二维频谱图中空值的行,其中,所述梅尔频谱的参数包括:跳跃长度为320,窗口长度为1024,窗口类型为汉宁窗,梅尔滤波器个数为48;
分别基于ViT-H模型及ViT-tiny模型构建万物可分割模型,作为教师模型和学生模型,其中,所述教师模型为基于ViT-H的万物可分割模型,所述学生模型为基于ViT-tiny的万物可分割模型;
将所述教师模型和所述学生模型中提示编码器模块以及解码器模块的参数进行固定,仅保留编码器模块的参数用于模型训练,并计算所述教师模型和所述学生模型中编码器模块输出的嵌入间的KL散度作为损失函数;
将所述一维轧机音频信号的梅尔频谱输入所述学生模型中,在所述一维轧机音频信号的梅尔频谱的时间轴逐秒生成提示点标记,并基于编码器模块的参数实现分割,通过mIoU过滤无效分割,实现梅尔频谱图片整图的空载负载识别,其中,mIoU为平均交并比图像分割评估指标。
优选地,分别基于ViT-H模型及ViT-tiny模型构建万物可分割模型,作为教师模型和学生模型,具体为:
采用基于ViT-H的万物可分割模型搭建所述教师模型,将所述教师模型的编码器模块输出的表示嵌入和所述教师模型的提示模块输出的提示 嵌入融合得到分割结果,并上采样至原图大小,并通过全连接层预测交并比,其中,所述教师模型的编码器模块由32个自注意力结构变换器块组成,所述教师模型的提示编码器模块通过sin和cos的位置编码实现,所述教师模型的解码器模块由2个自注意力模型、卷积层和全连接层组成;
基于ViT-tiny的万物可分割模型搭建所述学生模型,其中,所述学生模型的编码器模块由4个自注意力结构变换器块组成,每层的深度分别为2,2,6,2,所述学生模型的提示编码器模块通过sin和cos的位置编码实现,所述学生模型的解码器模块由2个自注意力模型、卷积层和全连接层组成。
优选地,将所述教师模型和所述学生模型中提示编码器模块以及解码器模块的参数进行固定,仅保留编码器模块的参数用于模型训练,并计算所述教师模型和所述学生模型中编码器模块输出的嵌入间的KL散度作为损失函数,具体为:
将所述梅尔频谱图片分别输入所述教师模型和所述学生模型的编码器模块中,生成编码器模块的嵌入;
计算所述教师模型的嵌入和所述学生模型的嵌入之间的KL散度作为损失函数,其中,计算公式为,/>为教师模型,为学生模型,/>为输入的频谱图片,/>为输入的频谱图片通过教师模型得到的嵌入,为输入的频谱图片通过学生模型得到的嵌入,/>为相对熵的表征;
采用AdamW作为优化器对述教师模型和所述学生模型进行优化。
优选地,将所述一维轧机音频信号的梅尔频谱输入所述学生模型中,在所述一维轧机音频信号的梅尔频谱的时间轴逐秒生成提示点标记,并基于编码器模块的参数实现分割,通过mIoU过滤无效分割,实现梅尔频谱图片整图的空载负载识别,具体为:
在所述一维轧机音频信号的梅尔频谱的时间维度逐秒生成提示点标记,并通过提示编码器模块得到提示 嵌入,其中,频率维度坐标为频率轴中心;
将所述一维轧机音频信号的梅尔频谱输入所述学生模型的编码器中得到嵌入,并结合提示 嵌入通过所述教师模型的解码器得到分割结果和mIoU;
通过mIoU进行过滤无效分割,实现梅尔频谱图片整图的空载负载识别。
本发明还公开了一种深度学习模型蒸馏装置,包括:
轧机音频梅尔频谱特征提取单元,用于获取待识别的梅尔频谱图片,采用梅尔频谱对所述梅尔频谱图片的一维轧机音频信号进行分析处理,转化生成二维频谱图,并过滤所述二维频谱图中空值的行,其中,所述梅尔频谱的参数包括:跳跃长度为320,窗口长度为1024,窗口类型为汉宁窗,梅尔滤波器个数为48;
深度学习音频识别模型搭建单元,用于分别基于ViT-H模型及ViT-tiny模型构建万物可分割模型,作为教师模型和学生模型,其中,所述教师模型为基于ViT-H的万物可分割模型,所述学生模型为基于ViT-tiny的万物可分割模型;
深度学习音频识别模型蒸馏单元,用于将所述教师模型和所述学生模型中提示编码器模块以及解码器模块的参数进行固定,仅保留编码器模块的参数用于模型训练,并计算所述教师模型和所述学生模型中编码器模块输出的嵌入间的KL散度作为损失函数;
轧机音频空载负载识别单元,用于将所述一维轧机音频信号的梅尔频谱输入所述学生模型中,在所述一维轧机音频信号的梅尔频谱的时间轴逐秒生成提示点标记,并基于编码器模块的参数实现分割,通过mIoU过滤无效分割,实现梅尔频谱图片整图的空载负载识别,其中,mIoU为平均交并比图像分割评估指标。
优选地,所述深度学习音频识别模型搭建单元具体用于:
采用基于ViT-H的万物可分割模型搭建所述教师模型,将所述教师模型的编码器模块输出的表示嵌入和所述教师模型的提示模块输出的提示 嵌入融合得到分割结果,并上采样至原图大小,并通过全连接层预测交并比,其中,所述教师模型的编码器模块由32个自注意力结构变换器块组成,所述教师模型的提示编码器模块通过sin和cos的位置编码实现,所述教师模型的解码器模块由2个自注意力模型、卷积层和全连接层组成;
基于ViT-tiny的万物可分割模型搭建所述学生模型,其中,所述学生模型的编码器模块由4个自注意力结构变换器块组成,每层的深度分别为2,2,6,2,所述学生模型的提示编码器模块通过sin和cos的位置编码实现,所述学生模型的解码器模块由2个自注意力模型、卷积层和全连接层组成。
优选地,所述深度学习音频识别模型蒸馏单元具体用于:
将所述梅尔频谱图片分别输入所述教师模型和所述学生模型的编码器模块中,生成编码器模块的嵌入;
计算所述教师模型的嵌入和所述学生模型的嵌入之间的KL散度作为损失函数,其中,计算公式为,/>为教师模型,为学生模型,/>为输入的频谱图片,/>为输入的频谱图片通过教师模型得到的嵌入,为输入的频谱图片通过学生模型得到的嵌入,/>为相对熵的表征;
采用AdamW作为优化器对述教师模型和所述学生模型进行优化。
优选地,所述轧机音频空载负载识别单元具体用于:
在所述一维轧机音频信号的梅尔频谱的时间维度逐秒生成提示点标记,并通过提示编码器模块得到提示 嵌入,其中,频率维度坐标为频率轴中心;
将所述一维轧机音频信号的梅尔频谱输入所述学生模型的编码器中得到嵌入,并结合提示 嵌入通过所述教师模型的解码器得到分割结果和mIoU;
通过mIoU进行过滤无效分割,实现梅尔频谱图片整图的空载负载识别。
本发明还公开了一种深度学习模型蒸馏设备,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的一种深度学习模型蒸馏方法。
本发明还公开了一种可读存储介质,存储有计算机程序,所述计算机程序能够被该存储介质所在设备的处理器执行,以实现如上任意一项所述的一种深度学习模型蒸馏方法。
综上所述,本实施例提供的一种深度学习模型蒸馏方法、装置、设备及介质,对于轧机的空载负载音频识别,通过模型蒸馏方法将基于ViT-H的万物可分割模型参数蒸馏到ViT-tiny上,固定了提示编码器和解码器参数,以KL散度优化编码器的嵌入,能够提升提高模型的蒸馏性能,在不显著影响精度的前提下,提高了基于深度学习的轧机空载负载音频识别的效率,为进一步的自动化运行监测提供了有力支持,具有广泛的应用前景和重要的实际应用价值。从而解决现有技术中的深度学习模型,通常存在模型较大,推理时间过长,占用显存过多等问题,进而影响了利用深度学习监测轧机空载负载的效率和性能的问题。
附图说明
图1是本发明第一方面提供的一种深度学习模型蒸馏方法的流程示意图。
图2是本发明第二方面提供的一种深度学习模型蒸馏方法的流程示意图。
图3是本发明实施例提供的一种深度学习模型蒸馏装置的模块示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
以下结合附图对本发明的具体实施例做详细说明。
请参阅图1至图2,本发明的第一实施例提供了一种深度学习模型蒸馏方法,其可由深度学习模型蒸馏设备(以下蒸馏设备)来执行,特别的,由蒸馏设备内的一个或者多个处理器来执行,以实现如下步骤:
在本实施例中,所述蒸馏设备可为用户终端设备(如智能手机、智能电脑或者其他智能设备),该用户终端设备可与云端的服务器建立通讯连接,以实现数据的交互。
S101,获取待识别的梅尔频谱图片,采用梅尔频谱对所述梅尔频谱图片的一维轧机音频信号进行分析处理,转化生成二维频谱图,并过滤所述二维频谱图中空值的行,其中,所述梅尔频谱的参数包括:跳跃长度为320,窗口长度为1024,窗口类型为汉宁窗,梅尔滤波器个数为48;
具体地,在本实施例中,第一步轧机音频梅尔频谱特征提取,采用梅尔频谱分析将一维轧机音频信号转化为二维频谱图,梅尔频谱参数如下,跳跃长度为320,窗口长度为1024,窗口类型为汉宁窗,梅尔滤波器个数为48,最后过滤二维频谱中空值的行。梅尔频谱分析是通过spectrogram与若干个梅尔滤波器点乘得到,y轴转换为对数刻度,像素值转换为分贝,能够强化对高频段变化的敏感性。
S102,分别基于ViT-H模型及ViT-tiny模型构建万物可分割模型,作为教师模型和学生模型,其中,所述教师模型为基于ViT-H的万物可分割模型,所述学生模型为基于ViT-tiny的万物可分割模型;
具体地,步骤S102包括:采用基于ViT-H的万物可分割模型搭建所述教师模型,将所述教师模型的编码器模块输出的表示嵌入和所述教师模型的提示模块输出的提示 嵌入融合得到分割结果,并上采样至原图大小,并通过全连接层预测交并比,其中,所述教师模型的编码器模块由32个自注意力结构变换器块组成,所述教师模型的提示编码器模块通过sin和cos的位置编码实现,所述教师模型的解码器模块由2个自注意力模型、卷积层和全连接层组成;
基于ViT-tiny的万物可分割模型搭建所述学生模型,其中,所述学生模型的编码器模块由4个自注意力结构变换器块组成,每层的深度分别为2,2,6,2,所述学生模型的提示编码器模块通过sin和cos的位置编码实现,所述学生模型的解码器模块由2个自注意力模型、卷积层和全连接层组成。
具体地,在本实施例中,第二步搭建用于蒸馏的深度学习模型,分别基于ViT-H及ViT-tiny构建万物可分割模型 模型,作为蒸馏中的教师和学生模型。具体的,采用基于ViT-H的万物可分割模型搭建教师模型,编码器由32个自注意力结构组成,窗口大小为16,提示编码器通过sin和cos的位置编码实现。解码器由2个自注意力模型、卷积层和全连接层组成,将编码器输出的表示嵌入和提示输出的提示 嵌入融合得到分割结果,并上采样至原图大小。此外,还通过MLP预测交并比。基于ViT-tiny的万物可分割模型搭建学生模型。学生模型的提示编码器与解码器与教师模型一致,编码器由4个自注意力结构组成,每层的深度分别为2,2,6,2。
S103,将所述教师模型和所述学生模型中提示编码器模块以及解码器模块的参数进行固定,仅保留编码器模块的参数用于模型训练,并计算所述教师模型和所述学生模型中编码器模块输出的嵌入间的KL散度作为损失函数;
具体地,步骤S103包括:将所述梅尔频谱图片分别输入所述教师模型和所述学生模型的编码器模块中,生成编码器模块的嵌入;
计算所述教师模型的嵌入和所述学生模型的嵌入之间的KL散度作为损失函数,其中,计算公式为,/>为教师模型,为学生模型,/>为输入的频谱图片,/>为输入的频谱图片通过教师模型得到的嵌入,为输入的频谱图片通过学生模型得到的嵌入,/>为相对熵的表征;
采用AdamW作为优化器对述教师模型和所述学生模型进行优化。
具体地,在本实施例中,第三步进行模型蒸馏,将两模型中提示编码器及解码器模块的参数固定,仅保留编码器的参数用于训练,计算两模型编码器输出的嵌入间的KL散度作为损失函数。具体的,将同一张梅尔频谱图片分别输入教师模型及学生模型的编码器模块,得到编码器的嵌入,嵌入维度为256*64*64;计算两组嵌入间的KL散度作为损失函数,计算方式为;蒸馏模型训练中,采用AdamW作为优化器,其中,学习率为0.02,0.05,0.1,beta为0.9与0.999,权重衰减为0.05。
S104,将所述一维轧机音频信号的梅尔频谱输入所述学生模型中,在所述一维轧机音频信号的梅尔频谱的时间轴逐秒生成提示点标记,并基于编码器模块的参数实现分割,通过mIoU过滤无效分割,实现梅尔频谱图片整图的空载负载识别,其中,mIoU为平均交并比图像分割评估指标。
具体地,步骤S104包括:在所述一维轧机音频信号的梅尔频谱的时间维度逐秒生成提示点标记,并通过提示编码器模块得到提示 嵌入,其中,频率维度坐标为频率轴中心;
将所述一维轧机音频信号的梅尔频谱输入所述学生模型的编码器中得到嵌入,并结合提示 嵌入通过所述教师模型的解码器得到分割结果和mIoU;
通过mIoU进行过滤无效分割,实现梅尔频谱图片整图的空载负载识别。
具体地,在本实施例中,第四步轧机音频空载负载识别,将轧机音频的梅尔频谱输入基于蒸馏后ViT-tiny的万物可分割模型,在时间轴逐秒生成提示点,基于ViT-tiny的编码器参数实现分割,通过mIoU过滤无效分割,最终实现整图的空载负载识别。具体的,在轧机音频梅尔频谱图的时间维度生成提示点,频率维度坐标为频率轴中心,并通过提示编码器得到提示 嵌入,其中,提示点的生成间隔为1s;将轧机音频梅尔频谱图输入ViT-tiny的编码器中得到嵌入,并结合提示 嵌入通过ViT-H的解码器得到分割结果与mIoU;通过mIoU过滤无效分割,实现整图的空载负载识别,其中,过滤阈值为0.80。
综上,所述深度学习模型蒸馏方法通过模型蒸馏有效降低轧机空载负载音频深度学习识别的资源消耗,提高识别性能。即对于轧机的空载负载音频识别,通过模型蒸馏方法将基于ViT-H的万物可分割模型参数蒸馏到ViT-tiny上,固定了提示编码器和解码器参数,以KL散度优化编码器的嵌入,能够提升提高模型的蒸馏性能,在不显著影响精度的前提下,提高了基于深度学习的轧机空载负载音频识别的效率,为进一步的自动化运行监测提供了有力支持,具有广泛的应用前景和重要的实际应用价值。
请参阅图3,本发明的第二实施例提供了一种深度学习模型蒸馏装置,包括:
轧机音频梅尔频谱特征提取单元201,用于获取待识别的梅尔频谱图片,采用梅尔频谱对所述梅尔频谱图片的一维轧机音频信号进行分析处理,转化生成二维频谱图,并过滤所述二维频谱图中空值的行,其中,所述梅尔频谱的参数包括:跳跃长度为320,窗口长度为1024,窗口类型为汉宁窗,梅尔滤波器个数为48;
深度学习音频识别模型搭建单元202,用于分别基于ViT-H模型及ViT-tiny模型构建万物可分割模型,作为教师模型和学生模型,其中,所述教师模型为基于ViT-H的万物可分割模型,所述学生模型为基于ViT-tiny的万物可分割模型;
深度学习音频识别模型蒸馏单元203,用于将所述教师模型和所述学生模型中提示编码器模块以及解码器模块的参数进行固定,仅保留编码器模块的参数用于模型训练,并计算所述教师模型和所述学生模型中编码器模块输出的嵌入间的KL散度作为损失函数;
轧机音频空载负载识别单元204,用于将所述一维轧机音频信号的梅尔频谱输入所述学生模型中,在所述一维轧机音频信号的梅尔频谱的时间轴逐秒生成提示点标记,并基于编码器模块的参数实现分割,通过mIoU过滤无效分割,实现梅尔频谱图片整图的空载负载识别,其中,mIoU为平均交并比图像分割评估指标。
优选地,所述深度学习音频识别模型搭建单元202具体用于:
采用基于ViT-H的万物可分割模型搭建所述教师模型,将所述教师模型的编码器模块输出的表示嵌入和所述教师模型的提示模块输出的提示 嵌入融合得到分割结果,并上采样至原图大小,并通过全连接层预测交并比,其中,所述教师模型的编码器模块由32个自注意力结构变换器块组成,所述教师模型的提示编码器模块通过sin和cos的位置编码实现,所述教师模型的解码器模块由2个自注意力模型、卷积层和全连接层组成;
基于ViT-tiny的万物可分割模型搭建所述学生模型,其中,所述学生模型的编码器模块由4个自注意力结构变换器块组成,每层的深度分别为2,2,6,2,所述学生模型的提示编码器模块通过sin和cos的位置编码实现,所述学生模型的解码器模块由2个自注意力模型、卷积层和全连接层组成。
优选地,所述深度学习音频识别模型蒸馏单元203具体用于:
将所述梅尔频谱图片分别输入所述教师模型和所述学生模型的编码器模块中,生成编码器模块的嵌入;
计算所述教师模型的嵌入和所述学生模型的嵌入之间的KL散度作为损失函数,其中,计算公式为,/>为教师模型,为学生模型,/>为输入的频谱图片,/>为输入的频谱图片通过教师模型得到的嵌入,为输入的频谱图片通过学生模型得到的嵌入,/>为相对熵的表征;
采用AdamW作为优化器对述教师模型和所述学生模型进行优化。
优选地,所述轧机音频空载负载识别单元204具体用于:
在所述一维轧机音频信号的梅尔频谱的时间维度逐秒生成提示点标记,并通过提示编码器模块得到提示 嵌入,其中,频率维度坐标为频率轴中心;
将所述一维轧机音频信号的梅尔频谱输入所述学生模型的编码器中得到嵌入,并结合提示 嵌入通过所述教师模型的解码器得到分割结果和mIoU;
通过mIoU进行过滤无效分割,实现梅尔频谱图片整图的空载负载识别。
本发明的第三实施例提供了一种深度学习模型蒸馏设备,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的一种深度学习模型蒸馏方法。
本发明的第四实施例提供了一种可读存储介质,存储有计算机程序,所述计算机程序能够被该存储介质所在设备的处理器执行,以实现如上任意一项所述的一种深度学习模型蒸馏方法。
示例性地,本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述一种深度学习模型蒸馏设备中的执行过程。例如,本发明第二实施例中所述的装置。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种深度学习模型蒸馏方法的控制中心,利用各种接口和线路连接整个所述一种深度学习模型蒸馏别方法的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现一种深度学习模型蒸馏方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(SecureDigital, SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。
Claims (8)
1.一种深度学习模型蒸馏方法,其特征在于,包括:
获取待识别的梅尔频谱图片,采用梅尔频谱对所述梅尔频谱图片的一维轧机音频信号进行分析处理,转化生成二维频谱图,并过滤所述二维频谱图中空值的行,其中,所述梅尔频谱的参数包括:跳跃长度为320,窗口长度为1024,窗口类型为汉宁窗,梅尔滤波器个数为48;
分别基于ViT-H模型及ViT-tiny模型构建万物可分割模型,作为教师模型和学生模型,其中,所述教师模型为基于ViT-H的万物可分割模型,所述学生模型为基于ViT-tiny的万物可分割模型,具体为:
采用基于ViT-H的万物可分割模型搭建所述教师模型,将所述教师模型的编码器模块输出的表示嵌入和所述教师模型的提示模块输出的提示嵌入融合得到分割结果,并上采样至原图大小,并通过全连接层预测交并比,其中,所述教师模型的编码器模块由32个自注意力结构变换器块组成,所述教师模型的提示编码器模块通过sin和cos的位置编码实现,所述教师模型的解码器模块由2个自注意力模型、卷积层和全连接层组成;
基于ViT-tiny的万物可分割模型搭建所述学生模型,其中,所述学生模型的编码器模块由4个自注意力结构变换器块组成,每层的深度分别为2,2,6,2,所述学生模型的提示编码器模块通过sin和cos的位置编码实现,所述学生模型的解码器模块由2个自注意力模型、卷积层和全连接层组成;
将所述教师模型和所述学生模型中提示编码器模块以及解码器模块的参数进行固定,仅保留编码器模块的参数用于模型训练,并计算所述教师模型和所述学生模型中编码器模块输出的嵌入间的KL散度作为损失函数;
将所述一维轧机音频信号的梅尔频谱输入所述学生模型中,在所述一维轧机音频信号的梅尔频谱的时间轴逐秒生成提示点标记,并基于编码器模块的参数实现分割,通过mIoU过滤无效分割,实现梅尔频谱图片整图的空载负载识别,其中,mIoU为平均交并比图像分割评估指标。
2.根据权利要求1所述的一种深度学习模型蒸馏方法,其特征在于,将所述教师模型和所述学生模型中提示编码器模块以及解码器模块的参数进行固定,仅保留编码器模块的参数用于模型训练,并计算所述教师模型和所述学生模型中编码器模块输出的嵌入间的KL散度作为损失函数,具体为:
将所述梅尔频谱图片分别输入所述教师模型和所述学生模型的编码器模块中,生成编码器模块的嵌入;
计算所述教师模型的嵌入和所述学生模型的嵌入之间的KL散度作为损失函数,其中,计算公式为t为教师模型,s为学生模型,xi为输入的频谱图片,t(xi)为输入的频谱图片通过教师模型得到的嵌入,s(xi)为输入的频谱图片通过学生模型得到的嵌入,∥为相对熵的表征;
采用AdamW作为优化器对述教师模型和所述学生模型进行优化。
3.根据权利要求1所述的一种深度学习模型蒸馏方法,其特征在于,将所述一维轧机音频信号的梅尔频谱输入所述学生模型中,在所述一维轧机音频信号的梅尔频谱的时间轴逐秒生成提示点标记,并基于编码器模块的参数实现分割,通过mIoU过滤无效分割,实现梅尔频谱图片整图的空载负载识别,具体为:
在所述一维轧机音频信号的梅尔频谱的时间维度逐秒生成提示点标记,并通过提示编码器模块得到提示嵌入,其中,频率维度坐标为频率轴中心;
将所述一维轧机音频信号的梅尔频谱输入所述学生模型的编码器中得到嵌入,并结合提示嵌入通过所述教师模型的解码器得到分割结果和mIoU;
通过mIoU进行过滤无效分割,实现梅尔频谱图片整图的空载负载识别。
4.一种深度学习模型蒸馏装置,其特征在于,包括:
轧机音频梅尔频谱特征提取单元,用于获取待识别的梅尔频谱图片,采用梅尔频谱对所述梅尔频谱图片的一维轧机音频信号进行分析处理,转化生成二维频谱图,并过滤所述二维频谱图中空值的行,其中,所述梅尔频谱的参数包括:跳跃长度为320,窗口长度为1024,窗口类型为汉宁窗,梅尔滤波器个数为48;
深度学习音频识别模型搭建单元,用于分别基于ViT-H模型及ViT-tiny模型构建万物可分割模型,作为教师模型和学生模型,其中,所述教师模型为基于ViT-H的万物可分割模型,所述学生模型为基于ViT-tiny的万物可分割模型,具体为:
采用基于ViT-H的万物可分割模型搭建所述教师模型,将所述教师模型的编码器模块输出的表示嵌入和所述教师模型的提示模块输出的提示嵌入融合得到分割结果,并上采样至原图大小,并通过全连接层预测交并比,其中,所述教师模型的编码器模块由32个自注意力结构变换器块组成,所述教师模型的提示编码器模块通过sin和cos的位置编码实现,所述教师模型的解码器模块由2个自注意力模型、卷积层和全连接层组成;
基于ViT-tiny的万物可分割模型搭建所述学生模型,其中,所述学生模型的编码器模块由4个自注意力结构变换器块组成,每层的深度分别为2,2,6,2,所述学生模型的提示编码器模块通过sin和cos的位置编码实现,所述学生模型的解码器模块由2个自注意力模型、卷积层和全连接层组成;
深度学习音频识别模型蒸馏单元,用于将所述教师模型和所述学生模型中提示编码器模块以及解码器模块的参数进行固定,仅保留编码器模块的参数用于模型训练,并计算所述教师模型和所述学生模型中编码器模块输出的嵌入间的KL散度作为损失函数;
轧机音频空载负载识别单元,用于将所述一维轧机音频信号的梅尔频谱输入所述学生模型中,在所述一维轧机音频信号的梅尔频谱的时间轴逐秒生成提示点标记,并基于编码器模块的参数实现分割,通过mIoU过滤无效分割,实现梅尔频谱图片整图的空载负载识别,其中,mIoU为平均交并比图像分割评估指标。
5.根据权利要求4所述的一种深度学习模型蒸馏装置,其特征在于,所述深度学习音频识别模型蒸馏单元具体用于:
将所述梅尔频谱图片分别输入所述教师模型和所述学生模型的编码器模块中,生成编码器模块的嵌入;
计算所述教师模型的嵌入和所述学生模型的嵌入之间的KL散度作为损失函数,其中,计算公式为t为教师模型,s为学生模型,xi为输入的频谱图片,t(xi)为输入的频谱图片通过教师模型得到的嵌入,s(xi)为输入的频谱图片通过学生模型得到的嵌入,∥为相对熵的表征;
采用AdamW作为优化器对述教师模型和所述学生模型进行优化。
6.根据权利要求4所述的一种深度学习模型蒸馏装置,其特征在于,所述轧机音频空载负载识别单元具体用于:
在所述一维轧机音频信号的梅尔频谱的时间维度逐秒生成提示点标记,并通过提示编码器模块得到提示嵌入,其中,频率维度坐标为频率轴中心;
将所述一维轧机音频信号的梅尔频谱输入所述学生模型的编码器中得到嵌入,并结合提示嵌入通过所述教师模型的解码器得到分割结果和mIoU;
通过mIoU进行过滤无效分割,实现梅尔频谱图片整图的空载负载识别。
7.一种深度学习模型蒸馏设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至3任意一项所述的一种深度学习模型蒸馏方法。
8.一种可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被该存储介质所在设备的处理器执行,以实现如权利要求1至3任意一项所述的一种深度学习模型蒸馏方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311071923.1A CN116825130B (zh) | 2023-08-24 | 2023-08-24 | 一种深度学习模型蒸馏方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311071923.1A CN116825130B (zh) | 2023-08-24 | 2023-08-24 | 一种深度学习模型蒸馏方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116825130A CN116825130A (zh) | 2023-09-29 |
CN116825130B true CN116825130B (zh) | 2023-11-21 |
Family
ID=88122380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311071923.1A Active CN116825130B (zh) | 2023-08-24 | 2023-08-24 | 一种深度学习模型蒸馏方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116825130B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022057078A1 (zh) * | 2020-09-21 | 2022-03-24 | 深圳大学 | 基于集成知识蒸馏的实时肠镜影像分割方法及装置 |
WO2022073285A1 (zh) * | 2020-10-09 | 2022-04-14 | 深圳大学 | 基于知识蒸馏的肺音分类方法、系统、终端及存储介质 |
CN116188509A (zh) * | 2023-04-23 | 2023-05-30 | 电子科技大学 | 一种高效率三维图像分割方法 |
KR20230099941A (ko) * | 2021-12-28 | 2023-07-05 | 연세대학교 산학협력단 | 자기 지도학습과 복사-붙이기 데이터 증강을 이용한 건설객체 분할모델 일반화방법 및 일반화시스템 |
CN116524307A (zh) * | 2023-04-04 | 2023-08-01 | 南京大学 | 一种基于扩散模型的自监督预训练方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200402497A1 (en) * | 2019-06-24 | 2020-12-24 | Replicant Solutions, Inc. | Systems and Methods for Speech Generation |
CN110459205B (zh) * | 2019-09-24 | 2022-04-12 | 京东科技控股股份有限公司 | 语音识别方法及装置、计算机可存储介质 |
US11741936B2 (en) * | 2020-08-14 | 2023-08-29 | The U.S. Government As Represented By The Secretary Of The Army | Acoustic awareness platform |
JP2024510679A (ja) * | 2021-03-22 | 2024-03-08 | グーグル エルエルシー | 教師なし並列タコトロン非自己回帰的で制御可能なテキスト読上げ |
KR20220160814A (ko) * | 2021-05-28 | 2022-12-06 | 삼성에스디에스 주식회사 | 회귀 태스크 기반의 지식 증류 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
US20230298616A1 (en) * | 2021-06-03 | 2023-09-21 | Valence Vibrations, Inc. | System and Method For Identifying Sentiment (Emotions) In A Speech Audio Input with Haptic Output |
-
2023
- 2023-08-24 CN CN202311071923.1A patent/CN116825130B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022057078A1 (zh) * | 2020-09-21 | 2022-03-24 | 深圳大学 | 基于集成知识蒸馏的实时肠镜影像分割方法及装置 |
WO2022073285A1 (zh) * | 2020-10-09 | 2022-04-14 | 深圳大学 | 基于知识蒸馏的肺音分类方法、系统、终端及存储介质 |
KR20230099941A (ko) * | 2021-12-28 | 2023-07-05 | 연세대학교 산학협력단 | 자기 지도학습과 복사-붙이기 데이터 증강을 이용한 건설객체 분할모델 일반화방법 및 일반화시스템 |
CN116524307A (zh) * | 2023-04-04 | 2023-08-01 | 南京大学 | 一种基于扩散模型的自监督预训练方法 |
CN116188509A (zh) * | 2023-04-23 | 2023-05-30 | 电子科技大学 | 一种高效率三维图像分割方法 |
Non-Patent Citations (2)
Title |
---|
Knowledge Distillation Framework for Action Recognition in Still Images;Masoumeh chapariniya;2020 10th International Conference on Computer and Knowledge Engineering (ICCKE);1-3 * |
基于边缘计算的公共场所异常声音事件监测系统设计;刘都鑫;《中国优秀硕士学位论文全文数据库 (信息科技辑)》(第01期);第I136-482页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116825130A (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950723B (zh) | 神经网络模型训练方法、图像处理方法、装置及终端设备 | |
CN105447190A (zh) | 基于卷积神经网络的图片检索方法、装置和服务器 | |
CN111357051A (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN109697083B (zh) | 数据的定点化加速方法、装置、电子设备及存储介质 | |
CN111597845A (zh) | 一种二维码检测方法、装置、设备及可读存储介质 | |
CN113327576B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN113438374B (zh) | 智能外呼处理方法、装置、设备及存储介质 | |
CN116825130B (zh) | 一种深度学习模型蒸馏方法、装置、设备及介质 | |
CN113470672A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN113065663A (zh) | 一种数据访问方法、装置、设备和存储介质 | |
CN116705059A (zh) | 一种音频半监督自动聚类方法、装置、设备及介质 | |
CN115116458B (zh) | 语音数据转换方法、装置、计算机设备及存储介质 | |
CN116189678A (zh) | 语音处理方法、装置及计算机设备 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN111104951A (zh) | 一种主动学习方法、装置及终端设备 | |
CN114881141A (zh) | 事件类型分析方法及相关设备 | |
CN114596479A (zh) | 适用于智能终端的图像摩尔纹去除方法、装置及存储介质 | |
CN114372513A (zh) | 一种鸟声识别模型的训练方法、分类方法、设备及介质 | |
CN113313653A (zh) | 一种基于生成式对抗网络的图像去噪声方法及装置 | |
CN111797984A (zh) | 一种用于多任务神经网络的量化和硬件加速方法及装置 | |
CN116863957B (zh) | 工业设备运行状态的识别方法、装置、设备及存储介质 | |
CN117496990A (zh) | 语音去噪方法、装置、计算机设备及存储介质 | |
CN113436621B (zh) | 一种基于gpu语音识别的方法、装置、电子设备及存储介质 | |
CN118096814A (zh) | 一种人像抠图智能背景替换方法、装置以及nas设备 | |
US20220375240A1 (en) | Method for detecting cells in images using autoencoder, computer device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |