CN116468686A - 一种基于软优化知识蒸馏的带钢表面缺陷识别方法 - Google Patents
一种基于软优化知识蒸馏的带钢表面缺陷识别方法 Download PDFInfo
- Publication number
- CN116468686A CN116468686A CN202310398023.1A CN202310398023A CN116468686A CN 116468686 A CN116468686 A CN 116468686A CN 202310398023 A CN202310398023 A CN 202310398023A CN 116468686 A CN116468686 A CN 116468686A
- Authority
- CN
- China
- Prior art keywords
- network
- strip steel
- soft
- training
- teacher
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007547 defect Effects 0.000 title claims abstract description 87
- 229910000831 Steel Inorganic materials 0.000 title claims abstract description 59
- 239000010959 steel Substances 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 33
- 238000005457 optimization Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000009826 distribution Methods 0.000 claims description 19
- 238000012360 testing method Methods 0.000 claims description 19
- RVRCFVVLDHTFFA-UHFFFAOYSA-N heptasodium;tungsten;nonatriacontahydrate Chemical compound O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W] RVRCFVVLDHTFFA-UHFFFAOYSA-N 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 10
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000000137 annealing Methods 0.000 claims description 4
- 238000004821 distillation Methods 0.000 claims description 4
- 210000004205 output neuron Anatomy 0.000 claims description 4
- 230000005484 gravity Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000013508 migration Methods 0.000 claims description 2
- 230000005012 migration Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000003860 storage Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 5
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003703 image analysis method Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
- G06T7/0006—Industrial image inspection using a design-rule based approach
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
- G06V10/7788—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
- G06T2207/30136—Metal
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于软优化知识蒸馏的带钢表面缺陷识别方法,属于表面缺陷识别技术领域,包括以下步骤:S1:图像样本处理;S2:构建并训练教师网络;S3:软优化知识蒸馏训练;S3:软优化知识蒸馏训练。本发明先训练了一个大规模但识别精度高的大模型(教师模型),再从教师网络中提取出一个子结构(学生网络),最后以软优化知识蒸馏方案对学生网络进行训练,得到了一个高精度的缺陷识别模型,减少了模型高额的存储空间以及计算资源消耗,将缺陷识别模型更稳定、高效的落地在硬件平台上。
Description
技术领域
本发明涉及表面缺陷识别技术领域,具体涉及一种基于软优化知识蒸馏的带钢表面缺陷识别方法。
背景技术
带钢是自动驾驶、电机、和变压器等领域的主要制作材料,裂纹、夹杂、斑块、划痕等表面缺陷会严重损害带钢的抗腐蚀性、抗疲劳性和铁损特性。若存在缺陷的带钢在出厂前未能被鉴别出来,直接影响电机、变压器等产品的性能,甚至可能导致严重的安全事故。因此,产品的表面缺陷识别必须覆盖在生产的中间关节以及出厂前的最后环节。而且,随着消费水平的不断升级,大众对产品的质量和外观越来越关注,生产高质量、高可靠性的产品已是大势所趋。在这种背景下,产品表面缺陷识别有助于减少大量生产成本、提高产品质量和生产效率。然而现阶段的产品缺陷检查主要依赖于专业技术人员的人工观察,这种识别方法既费时又存在主观性。因此,对于钢铁表面缺陷的识别,期望一种高精度且快速的自动识别方法。
目前,针对表面缺陷的自动识别有很多的研究和相关专利。在早期,表面缺陷识别多采用传统的图像分析方法。申请号为CN201811245513.3的中国发明专利申请公开了一种基于图像识别的表面缺陷识别方法,提出通过对表面缺陷图像中缺陷轮廓以及表面缺陷图像与背景之间轮廓的提取来识别表面缺陷,这些算法存在对不同手机膜表面纹理和光照敏感的问题,需要人为设定很多阈值等缺点。最近,随着深度学习在图像识别领域取得了重大突破,申请号为CN202011264401.X的中国发明专利申请公开了一种基于迁移学习的钢板表面缺陷的分类方法,使用神经网络模型MobileNet,但这种模型虽然提高了缺陷识别的速度,但是精度提升有限,而且为了提高识别速度设计的深度可分离卷积结构不利于硬件部署,难以应用在实际的工业场景当中。
现存最先进的基于计算机视觉的自动识别方法要么是使用大型模型面向精度,但导致推理速度上的高延迟,要么是使用轻量级模型面向速度,但牺牲了检测精度。虽然一些轻量级分类算法权衡了精度与速度,但往往会设计一些特殊的结构,对硬件的要求较高,很难广泛应用在工业生产中。就钢铁表面缺陷的识别成本而言,亟待一种在资源受限的平台例如常规GPUs甚至是嵌入式系统就可以实现高精度且高速的自动识别方法。为此,提出一种基于软优化知识蒸馏的带钢表面缺陷识别方法。
发明内容
本发明所要解决的技术问题在于:如何减少模型高额的存储空间以及计算资源消耗,将缺陷识别网络更稳定、高效地部署在硬件平台上,从而在极大地降低识别成本的同时又能兼顾识别精度,提供了一种基于软优化知识蒸馏的带钢表面缺陷识别方法。
本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
S1:图像样本处理
获取带钢表面缺陷数据库中的带钢表面缺陷图像样本,形成带钢表面缺陷数据集,并对带钢表面缺陷数据集中的样本进行预处理;
S2:构建并训练教师网络
构建一个带钢表面缺陷识别网络,即教师网络,在步骤S1中经过预处理的带钢表面缺陷数据集上进行训练和测试,得到符合识别性能要求的教师模型;
S3:软优化知识蒸馏训练
从教师网络中提取一个子结构,即学生网络,利用软优化知识蒸馏训练学生网络,得到符合识别性能要求的学生模型并保存模型,即得到带钢表面缺陷识别模型;
S4:缺陷识别
利用步骤S3中得到带钢表面缺陷识别模型对待识别带钢表面缺陷图像进行识别,获取识别结果。
更进一步地,在所述步骤S1中,具体过程如下:
S11:将带钢表面缺陷数据集中的样本按照固定比例划分为训练集和测试集;
S12:将训练集和测试集中的样本尺寸调整为设定尺寸,并对样本进行随机裁剪、随机水平翻转处理。
更进一步地,在所述步骤S2中,具体过程如下:
S21:选择卷积神经网络ResNet-152作为教师网络,利用其在ImageNet上训练好的权重进行迁移学习,并将卷积神经网络ResNet-152中最后一层输出神经元的数目由ImageNet的1000类更改为6类,在带钢表面缺陷数据集上进行训练;
S22:将教师网络经过训练集训练得到的教师模型在测试集上进行测试,输出测试结果。
更进一步地,在所述步骤S3中,具体过程如下:
S31:分析教师网络的结构,从中提取一个子结构作为学生网络;
S32:进行学生网络的自主学习和教师模型的知识传递;
S33:设置好训练参数,让学生网络在教师模型的指导下进行训练。
更进一步地,在所述步骤S31中,ResNet-152网络包括50个瓶颈残差块,每个瓶颈残差块均包括2个1x1和1个3x3的卷积块,选择第一个瓶颈残差块作为学生网络。
更进一步地,在所述步骤S32中,学生网络自主学习的优化目标是将交叉熵损失函数最小化,定义为硬损失:
其中,M表示样本类别数目,N表示样本总数目,yij表示输入xi的真实标签,是学生网络Sθ的输出概率分布。
更进一步地,在所述步骤S32中,教师模型的知识传递是指将教师模型自身的先验知识传递到学生网络当中。
更进一步地,在所述步骤S32中,具体过程如下:
S321:设为教师模型Tθ输出的概率分布;
S322:引入温度因子T对其他类别的预测值进行放大,为学生网络在自主学习时提供额外的类别信息,将温度因子T的值设置在设定范围内,生成如下的软概率分布:
其中,zi表示第i类的对数值,T是温度因子,k∈[0,M);
然后采用相同的温度因子使学生网络生成软概率分布来匹配教师模型的软概率分布;
S323:采用KL散度去最小化学生与教师模型软概率分布之间的误差,定义为软损失:
学生网络最后一层每个神经元输出的值的logit zsi的交叉熵梯度为:
当温度因子T的值超出对数值达到预设范围且学生网络最后一层每个神经元输出的值均为零均值,则得到:
S324:得到软优化知识蒸馏的总目标函数为:
L(Sθ,xi)=αT2LSOFT(Sθ)+(1-α)LHARD(Sθ)
其中,α用于权衡T2LSOFT(Sθ)和LHARD(Sθ)两项的比重。
更进一步地,在所述步骤S33中,具体过程如下:
S331:训练步长设置为200个Epoch,批处理大小为32,初始学习率为0.0001;
S332:采用带有预热型的余弦退火学习率衰减方案对学习率进行更新,直到模型稳定学习后回归起始设定的学习率大小;
S333:在训练阶段,每间隔50个训练Epoch就减少超参数α的值;
S334:训练完毕得到符合识别性能要求的学生模型。
本发明相比现有技术具有以下优点:
(1)从一个识别精度为100%,速度为22fps的大网络ResNet-152(教师)中提取出了一个简化的子网络(学生网络);
(2)提取出的子网络在教师模型的指导下,达到了100%的识别精度,且参数量和浮点运算次数只有大模型的0.12%及1.5%,识别速度更是达到了200fps;
(3)蒸馏出的学生模型不仅兼顾了识别精度与速度,而且没有复杂的结构,更有利于硬件的部署。
附图说明
图1是本发明实施例中基于软优化知识蒸馏的带钢表面缺陷识别方法的流程图的流程示意图;
图2(a)是本发明实施例中NEU-CLS数据库中带钢表面麻点缺陷样本示例图;
图2(b)是本发明实施例中NEU-CLS数据库中带钢表面夹杂缺陷样本示例图;
图2(c)是本发明实施例中NEU-CLS数据库中带钢表面轧制氧化皮缺陷样本示例图;
图2(d)是本发明实施例中NEU-CLS数据库中带钢表面裂纹缺陷样本示例图;
图2(e)是本发明实施例中NEU-CLS数据库中带钢表面划痕缺陷样本示例图;
图2(f)是本发明实施例中NEU-CLS数据库中带钢表面斑块缺陷样本示例图;
图3是本发明实施例中软优化知识蒸馏的过程示意图;
图4是本发明实施例中预热型余弦退火与传统阶梯式学习率衰减方案的比较示意图;
图5是本发明实施例中学生模型最后一层卷积t-SNE对提取特征的可视化示例图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种技术方案:一种基于软优化知识蒸馏的带钢表面缺陷识别方法,以对热轧带钢表面缺陷为例进行识别,如图1所示,其步骤如下:
S1:对带钢表面缺陷的图像样本进行预处理。
在步骤S1中,包括以下两个子步骤:
S11:在NEU-CLS官网上获取热轧带钢表面缺陷图像数据库(NEU-CLS数据库),以7:3的比例划分为训练集和测试集,典型的6类缺陷样本,即麻点(pitted surface,PS)、夹杂(inclusion,In)、轧制氧化皮(rolled-in scale,RS)、裂纹(crazing,Cr)、划痕(scratches,Sc)、斑块(patches,Pa)的示例如图2(a)-(f)所示;
S12:将训练集中的图像尺寸调整为224×224,并对训练样本进行随机裁剪和翻转等数据增强处理。
S2:构建一个高性能的带钢表面缺陷识别网络(教师网络),在带钢表面缺陷数据集上进行训练,并测试教师模型的识别性能。
在步骤S2中,包括以下三个子步骤:
S21:选择识别性能高的ResNet-152网络作为教师网络,具体结构如表1所示;
表1教师网络的结构
S22:将ResNet-152网络最后一层中输出神经元的数目更改为6,并利用其在ImageNet数据集上训练好的权重对NEU-CLS训练集进行微调;
S23:将教师网络经过训练集训练得到的教师模型在测试集上进行测试,输出测试结果,查看识别性能是否满足教师的要求,即各种识别准确率的指标尽可能接近于100%。
S3:从教师网络中提取一个子结构(学生网络),利用软优化知识蒸馏训练这个学生网络。
在步骤S3中,包括以下三个子步骤:
S31:如表1所示,ResNet-152网络(教师网络)包含50个瓶颈残差块(residualblock),每个瓶颈残差块均包含2个1x1和1个3x3的卷积块,选择第一个瓶颈残差块作为学生网络,可以最高限度的压缩学生模型的参数,极大地减少了模型训练和推理的时间;
S32:如图3所示,软优化知识蒸馏包括学生网络的自主学习和教师模型的知识传递两个部分。
具体的,在步骤S32中,软化知识蒸馏的第一部分,学生网络自主学习的优化目标是将交叉熵损失函数最小化,这里定义为硬损失:
其中,M表示样本类别数目,N表示样本总数目,yij表示输入xi的真实标签,是学生网络Sθ的输出概率分布;
具体的,在步骤S32中,软化知识蒸馏的第二部分,教师模型的知识传递是指一个能力强大的模型将自身的先验知识传递到学生网络当中。教师网络通常比学生网络的性能更强大,在教师网络的指导下,学生网络可以在参数量比教师网络少的情况下得到充分训练。
步骤S32的具体过程如下:
S321:假设为教师模型Tθ输出的概率分布,由于其他类别所预测的概率很小,不能为学生网络提供额外的类别信息,从而造成学生网络在学习时容易产生过拟合、泛化性差、识别精度低等情况,因此不能直接用于指导学生网络的学习。
S322:这里引入温度因子T对其他类别的预测值进行放大,从而为学生网络在自主学习时提供额外的类别信息。温度因子T越大,模型输出的概率分布就会偏“软”,这种软概率分布会提示学生网络“这是某一种缺陷类别的图像的概率最大,是某种或多种缺陷图像的概率较小,是剩下缺陷类别图像的概率是0”。因此,只要温度因子T的值在一定范围内就能生成一组较为合适的软概率分布:
其中,zi表示第i类的对数值,T是温度因子,温度越高,预测类别的概率分布越软,k∈[0,M);然后采用相同的温度因子使学生网络生成软概率分布来匹配教师模型的软概率分布。
323:由于KL散度可以衡量两种分布的差异,因此采用KL散度去最小化学生与教师模型软概率分布之间的误差,这里将其称为“软损失”:
其中,是已知的,所以第二项为常数,因此学生网络的logit zsi(网络最后一层每个神经元输出的值)的交叉熵梯度为:
如果温度因子T的值远高于对数值,且网络最后一层每个神经元输出的值均为零均值,则上式可简化为:
由于KL散度损失函数产生的梯度的大小被缩小了1/T2,因此将其乘以T2以确保梯度的贡献与自主学习时大致保持不变。
S324:综上所述,软优化知识蒸馏的总目标函数为:
L(Sθ,xi)=αT2LSOFT(Sθ)+(1-α)LHARD(Sθ)
其中α用于权衡T2LSOFT(Sθ)和LHARD(Sθ)两项的比重。知识蒸馏时,教师模型总是先进行预先训练的,并且在指导学生时通常使用较高的权重α,即教师模型的知识传递处于学习环节的主导地位时,学生模型往往可以获得最好的识别结果。然而“学生网络总能在老师的持续指导下才能学习的更好”这种思想,却与实际反映的结果有所差异。具体表现为过分注重于最小化软损失而忽略硬损失,进而限制了学生网络进一步的学习。
在所述步骤S324中,教师模型的先验知识对于学生网络学习的约束问题,在训练阶段,每间隔50个训练Epoch就减少超参数α的值。因此,学生网络在训练的前半阶段专注于对教师网络的学习;在训练的后半阶段逐渐摆脱教师模型先验知识的约束,即更注重减少硬损失。
S33:设置好训练参数,让教师模型在教师网络的指导下进行训练。详细的训练方案为:
S331:训练步长设置为200个Epoch,批处理大小为32,初始学习率为0.0001。
S332:采用带有预热型的余弦退火学习率衰减方案对学习率进行更新,直到模型稳定学习后回归起始设定的学习率大小。如图4所示,相比传统阶梯式的学习率衰减方案,带预热型的余弦退火学习率衰减方案在网络训练前期学习率衰减缓慢,确保模型快速地学习;在训练后期学习率衰减迅速,使得模型能够保持较小的学习率进行稳定地学习。
S333:在训练阶段,每间隔50个训练Epoch就减少超参数α的值,这样可以减少教师网络的先验知识对于学生网络在后半阶段的学习约束。
S334:为了了解学生模型是否真正学习到相关的重要信息,我们对学生模型最后一层卷积的特征进行了可视化。如图5所示,可以看出相同类别的缺陷特征被紧密地聚类到一起,而不同类别的缺陷特征相距较远,即模型拥有较小的类内聚散度和较大的类间聚散度。
S4:在独立测试集上验证学生的识别性能。详细方案如下:
S41:为了评估本发明的有效性,我们在测试集上测试了蒸馏后的学生模型(带钢表面缺陷识别模型)与其它一些先进的缺陷识别方法进行了对比,测试结果如表2所示:
表2本发明中学生模型与其他先进模型的比较
从表2中可以看出,本发明所设计的带钢表面缺陷识别模型的参数量仅有0.07M、浮点运算(FLOPs)仅为177.02M、推理速度(FPS)达到了200,而且识别准确率、精确率、召回率和F1分数都达到了100%。
S42:为了评估本发明提出方案的可扩展性,我们在保持教师网络不变的情况下还选择了不同的学生网络进行了蒸馏,评估结果如表3所示。
表3软化知识蒸馏方法拓展到其他分类网络的结果
由表3可以看出,SqueezeUnit、DenseUnit、MobileNetV3Unit和Bottleneck都以极少的参数量与FLOPs达到100%的识别性能,其余网络的基础单元都实现99%以上的识别性能,而且其参数量以及FLOPs都远远小于教师网络,且识别速度是教师网络的5倍左右。因此,一方面可以看出本发明所提出的基于软化知识蒸馏的带钢表面缺陷识别方法是有效的,可扩展的;另一方面,在教师网络与学生网络设计方面对非神经网络专家来说是友好的,即对热轧带钢表面缺陷识别任务来说可以压缩任意一种经典的卷积神经网络。
综上所述,上述实施例的基于软化知识蒸馏的带钢表面缺陷识别方法,先训练了一个大规模但识别精度高的大模型(教师模型),再从教师网络中提取出一个子结构(学生网络),最后以软优化知识蒸馏方案对学生网络进行训练,得到了一个高精度的缺陷识别模型,减少了模型高额的存储空间以及计算资源消耗,将缺陷识别模型更稳定、高效的落地在硬件平台上。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种基于软优化知识蒸馏的带钢表面缺陷识别方法,其特征在于,包括以下步骤:
S1:图像样本处理
获取带钢表面缺陷数据库中的带钢表面缺陷图像样本,形成带钢表面缺陷数据集,并对带钢表面缺陷数据集中的样本进行预处理;
S2:构建并训练教师网络
构建一个带钢表面缺陷识别网络,即教师网络,在步骤S1中经过预处理的带钢表面缺陷数据集上进行训练和测试,得到符合识别性能要求的教师模型;
S3:软优化知识蒸馏训练
从教师网络中提取一个子结构,即学生网络,利用软优化知识蒸馏训练学生网络,得到符合识别性能要求的学生模型并保存模型,即得到带钢表面缺陷识别模型;
S4:缺陷识别
利用步骤S3中得到带钢表面缺陷识别模型对待识别带钢表面缺陷图像进行识别,获取识别结果。
2.根据权利要求1所述的一种基于软优化知识蒸馏的带钢表面缺陷识别方法,其特征在于:在所述步骤S1中,具体过程如下:
S11:将带钢表面缺陷数据集中的样本按照固定比例划分为训练集和测试集;
S12:将训练集和测试集中的样本尺寸调整为设定尺寸,并对样本进行随机裁剪、随机水平翻转处理。
3.根据权利要求1所述的一种基于软优化知识蒸馏的带钢表面缺陷识别方法,其特征在于:在所述步骤S2中,具体过程如下:
S21:选择卷积神经网络ResNet-152作为教师网络,利用其在ImageNet上训练好的权重进行迁移学习,并将卷积神经网络ResNet-152中最后一层输出神经元的数目由ImageNet的1000类更改为6类,在带钢表面缺陷数据集上进行训练;
S22:将教师网络经过训练集训练得到的教师模型在测试集上进行测试,输出测试结果。
4.根据权利要求1所述的一种基于软优化知识蒸馏的带钢表面缺陷识别方法,其特征在于:在所述步骤S3中,具体过程如下:
S31:分析教师网络的结构,从中提取一个子结构作为学生网络;
S32:进行学生网络的自主学习和教师模型的知识传递;
S33:设置好训练参数,让学生网络在教师模型的指导下进行训练。
5.根据权利要求4所述的一种基于软优化知识蒸馏的带钢表面缺陷识别方法,其特征在于:在所述步骤S31中,ResNet-152网络包括50个瓶颈残差块,每个瓶颈残差块均包括2个1x1和1个3x3的卷积块,选择第一个瓶颈残差块作为学生网络。
6.根据权利要求5所述的一种基于软优化知识蒸馏的带钢表面缺陷识别方法,其特征在于:在所述步骤S32中,学生网络自主学习的优化目标是将交叉熵损失函数最小化,定义为硬损失:
其中,M表示样本类别数目,N表示样本总数目,yij表示输入xi的真实标签,pSθ(xi)是学生网络Sθ的输出概率分布。
7.根据权利要求6所述的一种基于软优化知识蒸馏的带钢表面缺陷识别方法,其特征在于:在所述步骤S32中,教师模型的知识传递是指将教师模型自身的先验知识传递到学生网络当中。
8.根据权利要求7所述的一种基于软优化知识蒸馏的带钢表面缺陷识别方法,其特征在于:在所述步骤S32中,具体过程如下:
S321:设为教师模型Tθ输出的概率分布;
S322:引入温度因子T对其他类别的预测值进行放大,为学生网络在自主学习时提供额外的类别信息,将温度因子T的值设置在设定范围内,生成如下的软概率分布:
其中,zi表示第i类的对数值,T是温度因子,k∈[0,M);
然后采用相同的温度因子使学生网络生成软概率分布来匹配教师模型的软概率分布;
S323:采用KL散度去最小化学生与教师模型软概率分布之间的误差,定义为软损失:
学生网络最后一层每个神经元输出的值的logit zsi的交叉熵梯度为:
当温度因子T的值超出对数值达到预设范围且学生网络最后一层每个神经元输出的值均为零均值,则得到:
S324:得到软优化知识蒸馏的总目标函数为:
L(Sθ,xi)=αT2LSOFT(Sθ)+(1-α)LHARD(Sθ)
其中,α用于权衡T2LSOFT(Sθ)和LHARD(Sθ)两项的比重。
9.根据权利要求8所述的一种基于软优化知识蒸馏的带钢表面缺陷识别方法,其特征在于:在所述步骤S33中,具体过程如下:
S331:训练步长设置为200个Epoch,批处理大小为32,初始学习率为0.0001;
S332:采用带有预热型的余弦退火学习率衰减方案对学习率进行更新,直到模型稳定学习后回归起始设定的学习率大小;
S333:在训练阶段,每间隔50个训练Epoch就减少超参数α的值;
S334:训练完毕得到符合识别性能要求的学生模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310398023.1A CN116468686A (zh) | 2023-04-10 | 2023-04-10 | 一种基于软优化知识蒸馏的带钢表面缺陷识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310398023.1A CN116468686A (zh) | 2023-04-10 | 2023-04-10 | 一种基于软优化知识蒸馏的带钢表面缺陷识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116468686A true CN116468686A (zh) | 2023-07-21 |
Family
ID=87180138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310398023.1A Pending CN116468686A (zh) | 2023-04-10 | 2023-04-10 | 一种基于软优化知识蒸馏的带钢表面缺陷识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468686A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274724A (zh) * | 2023-11-22 | 2023-12-22 | 电子科技大学 | 基于可变类别温度蒸馏的焊缝缺陷分类方法 |
-
2023
- 2023-04-10 CN CN202310398023.1A patent/CN116468686A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274724A (zh) * | 2023-11-22 | 2023-12-22 | 电子科技大学 | 基于可变类别温度蒸馏的焊缝缺陷分类方法 |
CN117274724B (zh) * | 2023-11-22 | 2024-02-13 | 电子科技大学 | 基于可变类别温度蒸馏的焊缝缺陷分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105243398B (zh) | 基于线性判别分析准则的改进卷积神经网络性能的方法 | |
CN112446591B (zh) | 一种用于学生综合能力评价的零样本评价方法 | |
CN113486981B (zh) | 基于多尺度特征注意力融合网络的rgb图像分类方法 | |
CN113947590A (zh) | 一种基于多尺度注意力引导和知识蒸馏的表面缺陷检测方法 | |
CN113643268B (zh) | 基于深度学习的工业制品缺陷质检方法、装置及存储介质 | |
CN112329827A (zh) | 一种基于元学习的增量小样本目标检测方法 | |
CN116883393B (zh) | 一种基于无锚框目标检测算法的金属表面缺陷检测方法 | |
CN106528417A (zh) | 软件缺陷智能检测方法和系统 | |
CN116468686A (zh) | 一种基于软优化知识蒸馏的带钢表面缺陷识别方法 | |
CN108846413A (zh) | 一种基于全局语义一致网络的零样本学习方法 | |
CN111429402A (zh) | 高级视觉感知特征与深度特征融合的图像质量评价方法 | |
Cao et al. | Restoration of an ancient temple mural by a local search algorithm of an adaptive sample block | |
CN113628178A (zh) | 一种速度与精度平衡的钢铁产品表面缺陷检测方法 | |
CN114387207A (zh) | 基于自注意力机制与双重领域自适应的轮胎瑕疵检测方法及模型 | |
CN115760734A (zh) | 一种基于改进retinanet算法的带钢表面缺陷检测方法 | |
CN114022446A (zh) | 一种基于改进YOLOv3的皮革瑕疵检测方法及系统 | |
CN110826467B (zh) | 一种电子显微镜图像重建系统及其方法 | |
CN112819748A (zh) | 一种带钢表面缺陷识别模型的训练方法及装置 | |
CN116703885A (zh) | 一种基于Swin Transformer的表面缺陷检测方法及系统 | |
CN110852318A (zh) | 一种排水管道缺陷精准定位方法及系统 | |
CN109920489A (zh) | 一种基于Lasso-CCF-CNN的加氢裂化模型及建立方法 | |
CN113469272A (zh) | 基于Faster R-CNN-FFS模型的酒店场景图片的目标检测方法 | |
Yasir et al. | Faster metallic surface defect detection using deep learning with channel shuffling | |
CN117132827A (zh) | 基于改进YOLOv5s网络的热轧钢带表面缺陷检测方法 | |
CN117079099A (zh) | 一种基于改进YOLOv8n的违规行为检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |