CN117274657A - 基于课程知识蒸馏的耐噪声木薯叶病害分类方法及系统 - Google Patents
基于课程知识蒸馏的耐噪声木薯叶病害分类方法及系统 Download PDFInfo
- Publication number
- CN117274657A CN117274657A CN202310684779.2A CN202310684779A CN117274657A CN 117274657 A CN117274657 A CN 117274657A CN 202310684779 A CN202310684779 A CN 202310684779A CN 117274657 A CN117274657 A CN 117274657A
- Authority
- CN
- China
- Prior art keywords
- training
- model
- sample
- difficulty
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 119
- 201000010099 disease Diseases 0.000 title claims abstract description 57
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 57
- 235000016735 Manihot esculenta subsp esculenta Nutrition 0.000 title claims abstract description 56
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 52
- 241000658379 Manihot esculenta subsp. esculenta Species 0.000 title 1
- 238000012549 training Methods 0.000 claims abstract description 141
- 240000003183 Manihot esculenta Species 0.000 claims abstract description 55
- 238000004821 distillation Methods 0.000 claims description 18
- 238000012546 transfer Methods 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000001580 bacterial effect Effects 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 230000005484 gravity Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 21
- 230000006870 function Effects 0.000 description 17
- 238000002372 labelling Methods 0.000 description 17
- 238000012360 testing method Methods 0.000 description 15
- 238000009826 distribution Methods 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 10
- 230000006872 improvement Effects 0.000 description 9
- 238000013145 classification model Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000003902 lesion Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010033307 Overweight Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 230000009418 agronomic effect Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013400 design of experiment Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/091—Active learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/188—Vegetation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于课程知识蒸馏的耐噪声木薯叶病害分类方法及系统,属于知识蒸馏应用技术领域。本发明包括:步骤S1、基于知识蒸馏和课程学习使用数据集D训练得到训练好的学生模型S;步骤S2、采用训练好的学生模型S对待分类木薯叶病害图像数据集进行分类。利用教师模型获取干净样本的特征知识,然后通过课程知识蒸馏,利用教师模型作为判别正负样本难度的测量器,通过训练调度器将样本按先易后难的顺序输入模型,引入训练调度器和难度测量器可有效地较低标注噪音对模型的影响,有监督地提升学生网络的泛化能力,从而构建出一个耐噪声的木薯叶病害分类方法及模型。
Description
技术领域
本发明涉及知识蒸馏应用技术领域,特别是一种基于课程知识蒸馏的耐噪声木薯叶病害分类方法。
背景技术
深度学习模型的训练需要大规模、高质量标注数据集的支持,缺乏足够标记数据的模型很容易产生过拟合现象。在农业领域,不同病害之间的特征相似,因此病害图像的标注需要标注人员拥有深厚的农学素养和经验。专家标注构建数据集的成本高、耗时长,而且无法保证标注同质性,难以满足模型训练的需求;这种情况必然导致标签制作的成本过高,难以匹配实际农业生产现状。为了满足大规模样本标注的实际需求,“众包”标注成为一种主流方式,即通过借助众多人员进行样本标注来获得相应标签;然而,这种标注方式获得的样本标签往往会包含相当比例的错误标签,即标签噪声。另外,使用半监督学习算法或无监督学习算法进行机器标注的方法也易受低质量样本和再训练的影响,生成的伪标签仍然不准确。以上原因产生的标注噪音均影响模型的鲁棒性和泛化性,进而降低其性能。
为了缓解标注噪声问题的影响,许多研究提出调整损失函数、添加正则项或特殊的训练策略等方法,以消除标注噪声对模型的负面作用,但这些方法依赖于准确的样本估计。知识蒸馏方法利用已经训练好的高性能大模型来指导轻量级模型的训练,教师模型作为辅助模型向学生模型传递“暗知识”,并将其转化为易于理解的形式,以帮助学生更好地掌握知识,从而提高学生模型的泛化性。“暗知识”也被称为隐性知识,是指教师在学习某一领域后拥有的非语言性的经验、思维过程和解决问题的策略。知识蒸馏方法将复杂的模型转化为简单的模型,可以减少模型过拟合的风险。但是,知识蒸馏方法一般采用传统的神经网络训练策略,易被标注噪声影响,进而影响到学生网络模型分类精度。
发明内容
本发明的发明目的是,针对上述问题,提供一种基于课程知识蒸馏的耐噪声木薯叶病害分类方法,结合知识蒸馏框架和课程学习策略缓解数据集中的标注噪音问题影响,提升模型精度和泛化性。
为达到上述目的,本发明所采用的技术方案是:
基于课程知识蒸馏的耐噪声木薯叶病害分类方法,包括以下内容:
步骤S1、基于知识蒸馏和课程学习使用数据集D训练得到训练好的学生模型S;包括以下具体处理流程:
步骤S11、组建木薯叶病害数据作为带噪数据集D;
步骤S12、构建训练调度器,使用教师模型T作为难度测量器,在其中输入数据集D,得到样本难度分数,然后,使用正则器确定每轮训练时选择的样本比例及权重,选取样本形成训练子集Dm;
其中,训练调度器具体处理流程如下:
(1)在开始阶段,将原始数据集D输入教师模型T得到样本难度分数l,选取难度低于分数的样本形成第一个训练子集D1;
(2)在第m个阶段,将数据集D输入难度测量器T得到样本难度分数l,选取难度低于分数λ2的样本形成第m个训练子集Dm;其中,D1∪D2∪…∪Dm-1=Dm;根据当前批次计算并更新学习速度λ;
(3)反复进行上述步骤(1)及(2),直到训练结束或模型趋于收敛。
步骤S13、构建自适应权重模块,自适应调整教师模型T对学生模型S的知识转移比重ω,采用训练子集Dm训练得到本轮训练的学生模型S;
其中,知识转移比重ω的取值使用每轮训练阶段的验证集精度作为模型差距的度量;在第e轮训练中,学生模型的验证集精度为As,教师模型的验证集精度为AT,加权权重ω的计算公式如下:
式中,γ为控制知识蒸馏比重逐渐自动衰减系数,取值[0,1)。
步骤S14、反复执行步骤S12-步骤S13操作,直到目标迭代次数训练结束或模型趋于收敛,输出训练好的学生模型S;
步骤S2、采用训练好的学生模型S对待分类木薯叶病害图像数据集进行分类;该数据集包括5个类别图像,分别为木薯细菌性枯萎病、木薯褐条病、木薯绿斑驳病和木薯花叶病的四种病害图像与健康木薯图像。
由于采用上述技术方案,本发明具有以下有益效果:
1.本发明利用教师模型获取干净样本的特征知识,然后通过课程知识蒸馏,利用教师模型作为判别正负样本难度的测量器,通过训练调度器将样本按先易后难的顺序输入模型,引入训练调度器和难度测量器可有效地较低标注噪音对模型的影响,有监督地提升学生网络的泛化能力,从而构建出一个耐噪声的木薯叶病害分类方法及模型。
2.本发明通过引入自适应权重模块,教师模型对学生模型的知识转移比例会随着学生模型性能的提升而自动调整,进一步提高了模型的有效性,有效的提高学生模型自学能力,提高了类别的分类精确率。
附图说明
图1是本发明的分类方法流程图。
图2是本发明的课程知识蒸馏框架图。
图3是本发明的自配重模块权重的变化曲线图。
图4是本发明的选择样本权重随着难度变化的曲线图。
图5是本发明的样本难度变化曲线图。
图6是本发明的可视化分析效果图。
图7是本发明的分类系统的系统框图。
具体实施方式
以下结合附图对发明的具体实施进一步说明。
如图1所示,本发明的基于课程知识蒸馏的耐噪声木薯叶病害分类方法,包括以下内容:
步骤S1、基于知识蒸馏和课程学习使用数据集D训练得到训练好的学生模型S;包括以下具体处理流程:
步骤S11、组建木薯叶病害数据作为带噪数据集D;
步骤S12、构建训练调度器,使用教师模型T作为难度测量器,在其中输入数据集D,得到样本难度分数,然后,使用正则器确定每轮训练时选择的样本比例及权重,选取样本形成训练子集Dm;其中,训练调度器具体处理流程如下:
(1)在开始阶段,将原始数据集D输入教师模型T得到样本难度分数l,选取难度低于分数的样本形成第一个训练子集D1;
(2)在第m个阶段,将数据集D输入难度测量器T得到样本难度分数l,选取难度低于分数λ2的样本形成第m个训练子集Dm;其中,D1∪D2∪…∪Dm-1=Dm;根据当前批次计算并更新学习速度λ;
(3)反复进行上述步骤(1)及(2),直到训练结束或模型趋于收敛。
步骤S13、构建自适应权重模块,自适应调整教师模型T对学生模型S的知识转移比重ω,采用训练子集Dm训练得到本轮训练的学生模型S;
步骤S14、反复执行步骤S12-步骤S13操作,直到目标迭代次数训练结束或模型趋于收敛,输出训练好的学生模型S;
步骤S2、采用训练好的学生模型S对待分类木薯叶病害图像数据集进行分类;该图像数据集包括5个类别图像,分别为木薯细菌性枯萎病、木薯褐条病、木薯绿斑驳病和木薯花叶病的四种病害图像与健康木薯图像。下述将对该分类方法课程知识蒸馏方法具体展开说明。
本发明的主要设计思想是通过提高模型泛化性以减少数据中的标注噪音对模型学习产生的负面作用。标注噪声会使模型倾向于拟合错误的样本,导致模型学习错误的知识。因此,如何识别对训练有价值的正负样本是解决该问题的重点。为了缓解此问题,本发明提出了一种基于课程知识蒸馏的木薯叶病害分类方法(CCKD,Cassava leaf diseasebased on Course Knowledge Distillation),将课程学习策略引入知识蒸馏场景中。CCKD方法利用教师模型作为判别正负样本难度的测量器,并通过训练调度器将样本按先易后难的顺序输入模型。引入训练调度器和难度测量器可有效地较低标注噪音对模型的影响,从而提升模型泛化性。CCKD方法是基于知识蒸馏框架设计的,由教师模型T、学生模型S、自配权重模块(自适应权重模块)、训练调度器组成,如图2所示。
在训练中,教师模型T作为难度测量器,通过训练调度器动态调整学习的课程。教师模型T提取带噪数据集D中图像的特征和自身的经验知识,将其作为学生模型的监督信息,指导学生模型S进行监督学习,从而提升其识别精度和泛化能力。学生模型S也从提取带噪数据集中学习图像特征,并根据其学习进度,使用自配权重调度模块调整知识转移权重。在训练之前,教师模型T使用干净的标签进行预训练,学习干净数据中的“暗知识”,以便在训练时向学生模型传递特征知识。
通常情况下,知识蒸馏方法使用整个数据集D来预训练的教师模型,然后用固定的预训练教师模型蒸馏一个持续学习的学生模型。而课程学习方法将知识蒸馏分为m个阶段,每个阶段使用不同的训练集(D1,D2,…,Dm)进行训练。随着训练的进行,训练集的规模不断扩大,以便更好地让学生模型吸收更多的知识。在此过程中,划分训练集的方法根据训练调度器决定,知识蒸馏的学习速率则由自配权重模块决定。下面将从损失函数的角度对自配权重模块与训练调度器方案及其作用进行说明。
1、损失函数设计
损失函数的作用是指导模型训练,通过计算预测和实际值的差异程度决定网络优化的方向。为了提高模型的鲁棒性,本发明引入(解耦知识蒸馏)DKDLoss作为蒸馏损失Ldist,将非目标特征作为一种辅助信息。这样可以使模型在学习目标特征的同时,也能够从噪声中获取更多的有益知识。
DKDLoss将基础的KD损失分为两个部分:目标类别蒸馏(Target Class KnowledgeDistillation,TCKD)与非目标类别蒸馏(Non-targetClass Knowledge Distillation,NCKD),分别提高学生模型的泛化能力和判别能力。TCKD作用于目标类别的二分类概率分布,用于传递与样本拟合难度相关的知识,表明了模型对样本的置信度。若在二分类中,教师模型的输出为[0.9,0.1],说明教师模型对该样本的置信度高;如果教师模型的输出为[0.55,0.45],则说明模型难以做出准确的判断,对该样本的置信度低。NCKD作用于非目标类别的概率分布,蕴含了知识蒸馏传递的“暗知识”。TCKD与NCKD损失均由KL散度(Kullback-Leible-Divergence)实现。KL散度用于衡量两个分布之间的差异,知识蒸馏中KL的计算式如公式2所示。
式中,p=[p1,p2,…,pt,…,pC]∈R1×C,是模型输出f经过sotmax后的分类概率。表示教师模型对第t类样本的预测概率,表示学生模型对第t类样本的预测概率c
蒸馏损失Ldist使用软蒸馏方式从教师模型输出中学习概率分布情况,计算流程如下:首先,将学生模型的输出和教师模型的输出按真实标签划分为目标和非目标类别,并且通过softmax函数进行概率分布的软化,使用温度参数控制概率分布的平滑程度。其次,分离教师和学生的目标概率和非目标概率。最后,计算学生目标与教师目标类别概率之间的KL散度以及学生非目标和教师非目标类别概率之间的KL散度之和作为TCKD损失函数(公式3),教师非目标和学生非目标类别概率之间的KL散度作为NCKD损失函数(公式4)。Ldist损失函数的总公式如5所示。
Ldist=αTCKD+βNCKD (5)
式中,表示学生模型对除第t类样本外的预测概率,表示教师模型对第i类(除第t类)样本的预测概率,表示学生模型对第i类(除第t类)样本的预测概率。α和β是超参数,作为控制TCKD与NCKD的权重。
为了保证学生模型不完全依赖于教师模型的指导,CCKD使用基础损失Lbasic衡量学生模型和真实标签之间的误差。基础损失使用GCE loss(Generalized cross entropyloss),适用于带噪样本的训练。它结合了交叉熵损失(Cross Entropy loss,CE loss)和平均绝对误差损失MAELoss(Mean Absolute Loss,MAE)的优点。CE是卷积神经网络最常用的分类损失函数,但如果样本中包含过多噪音样本,它会过度拟合易分类样本,而欠拟合难分类样本。MAE对噪音不过分敏感,但训练时梯度很大不易收敛,导致模型学习速度慢。GCELoss集成了MAE对噪声的鲁棒性与CE的高效性,计算式如下公式6。
式中,fj对应模型预测第j类的独热值。q是范围为0-1的超参数,用于控制鲁棒性和高效性的平衡。
综上所述,本发明的CCKD方法的总损失L由下公式7所示。
L=ωLdist+(1-ω)Lbasic (7)
式中,ω是控制蒸馏损失与基础损失的超参数,由自配权重模块决定。
2、自配权重模块
学生模型通过自习和教师模型的指导,能在一定程度上抵抗噪声的影响。由于真实标签中存在噪音标注,学生模型在训练前期的输出置信度往往较低。但学生模型在学习过程中,它的识别效果会逐渐变好,教师模型反而干扰学生模型的学习进度。因此,学生模型完全依赖教师模型的指导是不合理的。在训练过程中,学生会逐渐学习到更多的隐含信息,学习内容会超出老师指导的范畴。此外,教师模型对自身尚未掌握的知识也难以做出准确的判断。若此时学生模型仍完全信任教师模型给出的判断,教师模型会抑制学生模型的学习进度,甚至会成为学生模型性能的上限。
基于以上前提,本发明CCKD使用自配权重模块避免上述问题。随着学生模型的认知程度的提高,通过调整蒸馏损失(教师与学生的损失)与学生损失的比例,可改变教师模型对学生模型知识转移比重(如下公式8中ω的取值)。
自配权重的取值使用每个训练阶段的验证集精度作为模型差距的度量。在第e轮训练中,学生模型的验证集精度为As,教师模型的验证集精度为AT,加权方案如下公式8所示。
式中,γ是参数,用于控制知识蒸馏比重逐渐自动衰减,系数的取值范围为[0,1)。
权重的变化曲线如图3所示。当学生模型精度逐渐提高,且它与教师模型的精度差距越小,则权重ω越小。
使用自配权重模块可以达到以下效果:在训练的初期,学生模型完全依赖于教师模型的指导。随着训练的进行,学生模型逐渐开始自主学习,此时Lbasic在总损失L的所占比例也逐渐增加。通过引入自适应权重模块,教师模型对学生模型的知识转移比例会随着学生模型性能的提升而自动调整,进一步提高了模型的有效性。
3、训练调度器(自动化的困难调度器和训练调度器,Self-Paced Learrning(SPL):让学生自己作为老师,并根据其损失来衡量训练样本的难度。这种策略类似于人类学生的自学:根据自己的现状来决定自己的学习进度)
已有研究表明,按照样本难度或置信度排序后输入模型进行训练可以提高模型性能。然而,目前大多数知识蒸馏方法都采用随机抽取小批次训练集作为模型输入,忽视了样本输入顺序对模型学习效果的影响。特别是数据集存在噪音的情况下,样本的学习顺序更为重要。因此,本发明CCKD方法引入课程学习策略控制样本输入顺序。引入课程学习策略需要解决两个问题:(1)如何评估每个样本的难度?(2)如何设计样本从易到难的课程?
对于问题(1),本发明CCKD方法使用教师模型T作为难度测量器,以判断样本的难易程度。因为教师模型的输出提供了知识的目标分布,是一种样本难度的可视化方法。教师模型使用由干净标签训练而成,在训练中可以提供样本相应的难度分数,不会因为噪声数据干扰难度的判断。另外,参数固定不变的教师模型学习的大部分知识可以直接传授给学生模型。对于单个样本,将教师模型与样本计算的交叉熵损失作为样本的难度评估,难度分数具体的计算公式如公式9与10所示。
式中,y表示样本的真实标签,表示权重。l越大说明样本难度越大。
对于问题(2),本发明CCKD方法使用训练调度器(样本选择器)进行样本选择。由于简单样本的损失明显小于复杂样本和噪声样本。训练调度器通过正则器来决定每个训练阶段的样本最优权重向量,确定每轮训练时选择的样本比例及权重。
课程学习策略将权重v引入初始最小化目标函数中,v=[v1,v2,...,vD]T∈[0,1],li代表某一个样本,则目标函数为公式10。
正则化器g(v;λ)是最小化目标函数的实现关键。根据AOS策略优化,对w和v交替优化即可获得最小的损失。当w*固定时,使用混合正则器求解v*,如公式11。当v*固定时,w*的最优解可由梯度下降算法获得,如公式12。v*是v在交替优化过程中的表示。
混合正则器在更细的粒度上反映样本的重要性,能较好区分相近的损失,如公式13所示。由于g(v;λ)是凸函数,可以推导出公式11的最优解为公式14。
式中,k为控制样本权重强度的超参数(k>0)。
在式14中,将式中第一个条件项称为l1,第二个条件项λ2称为l2;当损失小于第一个阈值l1时,该样本被视为容易样本;当损失大于第二个阈值l2时,该样本被视为困难样本,停止对该样本的学习;当损失处于二者之间时,逐渐增加困难样本数量并且降低困难样本的权重。样本权重v*随着难度变化的曲线如图4所示,图中k为1,λ从左到右分别为0.5、1、1.5的情况。
至此解决了评估每个样本的难度、设计样本从易到难的课程的问题。训练调度器的具体实现描述如下:
(1)在开始阶段,将原始数据集D输入教师模型(难度测量器)T得到样本难度分数,D中选取难度低于分数的l1样本形成第一个子集D1。
(2)在第m个阶段,将数据集D输入难度测量器T得到样本难度分数l,参照公式16对D中的不同样本赋予权重,相当于选取难度低于分数l2的样本形成第m个子集Dm。其中,D1∪D2∪…∪Dm-1=Dm,Dm是包括了m阶段前所有的样本。根据当前批次计算并更新λ。
(3)反复进行上述步骤,直到训练结束或模型趋于收敛。
经过上述过程,数据集的难度依次增大,样本量也逐渐增大。整个优化算法流程如下:
为了可视化样本难度的选择,参见图5,描述了λ(S)的变化。λ与训练迭代次数(epoch)相关,样本难度分数阈值随模型迭代次数增加而增加。训练调度器的λ初始值0.5,k为1。随着迭代次数的增加,λ逐渐增加0.05。学生模型在包含从易到难的数据集中进行学习,有效提升模型的鲁棒性。
4、实验设计
下述将介绍使用的木薯叶病害数据集和评价指标,并说明实验参数的设置。为了证明本发明提出的CCKD方法在具有噪声的数据集上具有优越性,将与经典模型和噪声模型进行对比实验,并进行消融实验探究增加模块对CCKD的影响,验CCKD的有效性。
4.1、数据集
采用Kaggle比赛公开的复杂背景下木薯叶病害图像数据进行研究,该数据集包含5个类别,分别为木薯细菌性枯萎病(CBB)、木薯褐条病(CBSD)、木薯绿斑驳病(CGM)、木薯花叶病(CMD)四种病害图像与健康木薯(Healthy)图像组成。
木薯叶病害数据集共21367张图像,具体各类数量由下表1的第一行所示。数据集各类别并不均衡,最少的类仅包含1087张图片,而最多的类包含13158张。CMD类占比超过60%的,其余四类数量差距较小。由于数据集各类别的数量差距过大会导致模型收敛速度慢、对数量少的类别过拟合且泛化能力差等问题。而且因为数据集包含标注噪音,使用线下图像增强方法扩增数据集容易加剧标注噪声污染,因此对数据集中图像过多的类别进行欠采样。经过粗略筛选去除无法辨的图片。经过以上操作后最终选取的图像数量为10917幅。
为了避免噪声标注对教师模型造成影响,本实验在原始数据集中挑选了每类300张正确的图片作为训练教师模型的数据集,共选择1500张图片。对于学生模型的训练与测试使用清洗数据集,其中用于训练教师模型的干净图片作为验证集。将学生训练集按照训练集:测试集=9∶1进行随机划分,划分后的训练集数据为9827张,测试集数据为1090张。具体数量由下表1第三行表示。
表1:数据集各类别数量
为了增强模型的鲁棒性和泛化性,在训练中对图像进行在线增强。常用的图像增强方法包括但不限于垂直翻转、随机亮度变换、自适应直方图均衡化等。这些方法可以减少拍摄角度、光照和背景等因素对图像检测效果的影响,让模型达到更好的检测效果。在本实验中采用垂直翻转、随机亮度变换和自适应直方图均衡化等方法。
4.2、实验设置
本发明CCKD方法中,教师模型与学生模型的选择受到数据集数量、模型大小和复杂度的限制。教师模型需要利用强大的深度网络架构来学习各种抽象级别的特征,学生模型可以使用更简单轻量的网络架构学习隐含的知识。常见分类模型中,选择精度最高的ResNet34作为教师模型,选择精度与模型大小平衡的MobileViT作为学生模型,将以上两种模型组合称为基准模型。
实验环境采用Pytorch框架,CUDA11.1的Ubuntu和NVIDIARTX3090(24G);使用基于ImageNet预训练的参数进行迁移学习;使用余弦退火学习率优化损失函数;通过ImageNet的均值和方差进行归一化,平衡几何变换的变化。在后期处理中以原始图像大小对测试集输出分类结果并与主流模型进行对比。
经多次调试后最优的网络参数如下:将数据集的所有图片缩放至224×224×3大小的RGB图片;模型的批处理大小为8,迭代次数为200次;网络通过Xavier[25]方法进行初始化,使用Adam方法优化参数。初始学习率为1×10-3,优化器动量大小为0.9,衰减系数为5×10-4,知识蒸馏中温度设置为1.2;训练调度器的λ为0.5,k为1,难度测量器的γ为0.8。其他超参数与默认值保持一致;
为解决在包含训练噪声的情况下,模型参数容易陷入局部最优,简单样本在深度神经网络中易出现过拟合的问题,在网络中使用随机失活(Dropout)对深度神经网络进行优化。Dropout源于人工智能领域的遗传算法,通过随机变异的方式,来促进整个种群的整体进化。该方法在迭代中将隐含节点的输出随机归零,每次只更新模型一部分的参数以降低节点间的隐形的协同适应,避免少数高权重节点(局部最优)决定输出结果,最终产生收缩权重的平方范数的效果。Dropout通过简化神经网络结构,压缩模型权重,实现正则化(regularization)的效果。在donc的最后全连接层融合dropout,将失活概率调整为0.2,在测试中关闭dropout。
4.3、评价指标
使用分类模型常用的4个评价指标:精确率(Precision,P)、召回率(Recall,R)、F1-分数(F1-score,F1)和准确率(Accuracy,Acc)。精确率计算的是预测类别中正确的比例;召回率计算的是实际类别中正确预测的比例;而在一般情况下,精确率的提升会带来召回率的下降,反之亦然,因此使用F1-分数综合考虑精确率和召回率;准确率会考虑所有类别的识别精度,本节中也称为分类精度,这4个评价指标的公式如下:
式中,TP表示正确分类的类别数量,FP表示错误分类的类别数量,TN表示正确分类的其他类别数量,FN表示错误分类的其他类别数量。
5、实验结果及分析
对常见的分类模型进行的一系列实验,对每种木薯叶病害的实验结果进行详细的分析和总结,并对比分析不同噪声方法对实验结果的影响,为进一步优化和改进网络结构提供有益的参考和借鉴。
5.1、常用模型的实验结果
所进行实验包括:对六种不同模型大小主流分类模型进行对比分析、对基准模型中各类的精度表现进行对比分析、对三种方向不同的标签噪声处理方法进行对比分析。使用的训练集是学生数据集(表1第三行),测试集为表1第四行。在训练过程中,在每一批次数据训练后都验证了模型的准确率,并在每一轮训练完成后保存了该轮最后一个批次的模型。在训练完成后,选择准确率最高的模型作为网络的最终模型。各个模型的训练和实验结果如下。
5.1.1、常见模型测试集结果
本实验利用六种不同模型大小的主流分类模型对测试集进行预测,分别为轻量型模型ShuffleNetV2与MobileNetV3、常规型模型ResNet与EfficientNet、大规模模型ConvNext与ViT。其中ResNet使用了ResNet18、ResNet34、ResNet50三种模型结构。下表2展示了在含有噪声标签的学生数据集下,各分类模型的各个评价指标分数。根据结果可以看出数据集噪声对不同的模型均有影响。
表2:分类模型在测试集上的精度(%)
ViT的平均精确率、平均召回率、准确率分别为79.30%、82.98%、77.87%。F1分数仅为79.30%可看出ViT的表现较差,原因为ViT模型复杂度较高,难以拟合数据总量较少且包含噪声的数据。另外,精确率和召回率差距较大,也说明了F1分数和整体分类精度指标的重要性。ConvNeXt的F1分数比ViT高4.97个百分点,但模型效果依然较差。实验使用ConvNeXt-Tiny版本,但模型仍然需要大量的训练数据。ShuffleNet、MobileViT、MobileNet这三个模型皆为轻量级模型,各项指标差距不大。实验结果较差说明模型越小越容易受到噪声数据影响,学习错误的知识。虽然MobileNet模型的平均精确率和平均召回率都较低,但F1-分数达到了84.41%,说明其在预测结果的准确性和召回率之间能取得一定的平衡。ResNet18各个指标稍低于ResNet34且平均召回率明显低于平均准确率,说明模型对类别间的分辨能力差,泛化能力差。EfficientNet与ResNet34表现相当,F1分数均高于87%,虽然EfficientNet的F1分数高于ResNet34,但ResNet34平均准确率与平均召回率比较均衡。ResNet50模型表现较为优异,准确率为89.63%,平均精确率为89.66%。但F1分数比CCKD方法低了2.99个百分点,说明残差网络由于其特殊的瓶颈结构与跳跃连接能降低学习遗忘程度,抵抗一定的噪声影响。本发明提出的CCKD方法表现最优,平均精确率、平均召回率、F1-分数、准确率均超过了90%,分别为91.95%、91.07%、91.44%、92.57%,说明准确性和召回率之间能取得一定的平衡。得益于课程知识蒸馏方法,本发明CCKD在F1分数上比未改进前的MobileViT高了5.73个百分点。
5.1.2、CCKD方法在测试集上的具体精度表现
下表3显示了本发明CCKD方法在测试集中各类的精度表现。模型对CBB类别的精确率和召回率最低,在召回率仅有81.27%,说明该类别样本有较多被分类模型误判为其他类别的情况,原因是此类病害病斑较小导致形状不明显,易被误认为Healthy。此类病害前期病斑与CBS有相似之处,模型加强对此类学习却导致召回率低;模型对CBS的F1分数达到91.18%,原因是该类在染病各时期的病斑表现有较大差异,前期病症易于与CBB混淆;CGM与Healthy类别在精确率和召回率上都表现较好,但是F1-分数均低于CMD类别;CMD类别在所有指标上都表现最优,说明该类别样本较容易被分类模型识别和区分。病斑较为明显,与其他类别的区别较大,所以模型对此类的识别精度高。
表3:CCKD方法在测试集上的精度(%)
5.1.3、不同噪声方法的实验对比结果
对不同标签噪声处理方法进行分析,分别对比模型正则化、鲁棒性损失、元学习、半监督学习4种方法,实验对比如下表4所示。
表4:不同标签噪声方法的实验对比(%)
由表4可知,通过改变损失的方法处理噪声的方法实验结果都比较差,仅改变损失函数很难抵抗数据集中的噪声。GCELoss是一种鲁棒性损失方法,它的F1-分数与准确率最低,分别为86.09%与88.07%。说明该方法易受到异常值的影响,导致模型精度反而降低。Labelsmoothing是一种正则化方法,它的平均精确率为86.22%,平均召回率为88.72%,F1-分数为87.15%,准确率为88.72%。该方法通过平滑标签分布学习到了更多的分布信息,而带噪数据集与干净数据集的分布有一定差距,模型并没有学习到准确的知识。
Co-teaching是一种元学习方法,它的表现较好,平均精确率为90.70%,平均召回率为88.30%,F1-分数为89.29%,准确率为90.37%。该方法使用两个相同模型,当模型难以判断病害相似的样本是否为噪声样本时,模型输出结果趋于一致,协同训练失效,导致模型无法继续学习。DivideMix方法的F1分数为90.95%,准确率为91.77。该方法比CCKD的F1值稍低0.49%,原因为该方法适用于噪声数量较多的情况,本章数据集中噪声占比较小,模型会出现许多样本被错误标记为噪声样本的现象,导致划分子集时模型的训练样本较少。CCKD方法表现最好,F1值和准确率分别为91.44%和92.57%,说明CCKD方法能在一定程度上有效的抵抗噪音的影响,对木薯叶病害类别有较好的区分。
5.2、消融实验
为了探究本节方法在对模型的提升,主网络使用MobileViT对每个改进进行消融实验(下表5)。为了探寻不同教师模型对该模型的影响,首先使用MobileNetV3网络、Convnext、ViT、ResNet在教师训练集上训练,评估教师模型的准确性(见下表6)。选择最好的三种教师模型分别对不同大小的学生模型进行测试,实验结果见下表7。
5.2.1、改进模块的实验结果
本发明CCKD方法使用MobilViT作为基础模型,测试每个模块验证改进模块的有效性,结果如表5所示。表中第一行为基础模型实验数据,第二、三、四行分别为逐层加入知识蒸馏、自配权重模块、训练调度器模块的实验数据。可得到以下结论:
(1)使用知识蒸馏后,模型的F1提高1.85个百分点,准确率提高1.66个百分点。在增加教师模型的指导后,有效地提升了模型的性能。知识蒸馏方法通过教师模型对学生模型传递特征知识,带来有效的知道信息,提升了识别的精确率。
(2)使用自配权重模块后,模型的F1分数提高2.24个百分点,准确率提高2.56个百分点。通过调整蒸馏损失与学生损失的比例,改变教师模型对学生模型知识转移比重,有效的提高学生模型自学能力,提高了类别的分类精确率。
(3)添加训练调度器模块后,模型的F1分数提高1.64个百分点,准确率提高1.29个百分点。可以证明课程学习的有效性,样本输入顺序对模型学习效果有提高。
表5:不同模块实验结果对比
5.2.2、课程知识蒸馏方法的有效性
为了验证课程知识蒸馏方法的有效性,使用教师数据集训练多个模型,取下表6中F1分数最高的三个模型作为教师模型,比较不同教师模型和不同学生模型之间使用CCKD方法对学生模型的提升。
表6:使用干净数据集训练后各方法在测试集上的精度(%)
由表6可知,同为轻量级网络的MobileNet与ShuffleNet各项指标均为最低,ResNet50、ResNet18、EfficientNet模型因缺少训练数据导致模型精度不高。相比之下,ResNet34、ConvNeXt、ViT模型的F1值最高,这三种模型从干净数据集中学到了更多的隐含知识,所以取这三种模型作为教师模型对小模型进行训练。在知识蒸馏框架中,以教师模型蒸馏小模型,能提高小模型的泛化能力,减少过拟合的风险。综合模型大小和表2的评价指标,选择的小模型为ResNet18和MobileViT。特别的是,ResNet为纯CNN模型,而MobileViT是CNN与ViT的混合模型,由此可以探究不同架构模型蒸馏的效果。
将三种ResNet34、ConvNeXt、ViT教师模型与两种学生模型ResNet18和MobileViT使用CCKD方法进行训练,结果如下表7所示。
表7:不同模型使用CCKD方法实验结果对比
由表7可知,使用本发明CCKD方法后,模型的F1分数均得到了提升。对于学生模型为ResNet18来说,当教师模型为ConvNeXt时,F1分数提升了2.87个百分点,其次是ResNet34、ViT分别提高了2.53、0.98个百分点。由此可以看出,使用CNN模型对CNN模型进行蒸馏的效果优于ViT对CNN模型的蒸馏效果。原因是由于两者之间存在结构和参数差异,蒸馏时无法很好地匹配和传递信息。导致信息的丢失和损失。对于学生模型为MobileViT来说,当教师模型为ResNet34时效果更佳,F1分数提高了5.73个百分比,其次是ConvNeXt、ViT分别提高了5.53、5.23个百分比。由此发现使用CNN蒸馏的效果普遍优于使用ViT蒸馏;数据较少的情况下,大模型蒸馏效果不如小模型学习的知识全面。
综上所述,使用CCKD方法时需要根据数据集大小、噪声数据占比决定知识蒸馏模型选择。
5.3结果可视化
为了更直观地展现结合课程知识蒸馏后对模型整体分类精度的提升,采用类激活映射方法生成类激活图以展示模型的关注区域。类激活映射是一种用于解释CNN分类结果的方法,它能够可视化神经网络中每个类别的重要特征。本发明使用了Score-CAM方法,能够更精细地确定了特征区域的重要性,且更准确地定位分类结果的决策区域。参见图6,热力图上的像素值表示对分类结果的影响程度,红色区域表示模型更关注的区域,蓝色区域则表示模型认为与分类无关的区域。
由图6可知,本发明CCKD方法提升了模型的识别精度。对于CBB类,改进前的模型主要关注于部分病斑和突出的明暗区域,未能很好地捕捉病害的信息。相比之下,改进后的模型减少背景和无关特征的干扰,更加专注于病斑区域。此外,改进后的模型在识别CBS、CGM和CMD等病斑方面更为精细。在无病斑的情况下,该方法也能够全面准确地关注到每片子叶是否患病。结果表明,CCKD方法对于改善模型性能具有重要的作用。
如上述,本发明解决在带噪数据集下木薯叶病害图像识别问题。开源的木薯叶病害数据集存在噪音影响且分布不均,不同病害种类之间差异较小,因此提出了一种基于课程知识蒸馏的木薯叶病害识别方法,该方法利用教师模型获取干净样本的特征知识,然后通过课程知识蒸馏,按照样本难易程度将其喂入学生模型进行图像识别,有监督地提升学生网络的泛化能力,从而构建出一个耐噪声的木薯叶病害分类模型。实验对比了经典模型与噪声模型的分类效果,同时也比较了CCKD使用与否的模型在测试集上的分类效果。实验结果表明,结合CCKD的方法在整体精度上有明显提升,F1分数达到91.44%,准确率达到92.57%。
如图7所示,根据该分类方法可组成基于课程知识蒸馏的耐噪声木薯叶病害分类系统,该系统包括:训练模块:用于基于知识蒸馏和课程学习使用数据集D训练得到训练好的学生模型S,具体处理流程包括步骤S11-步骤S14;分类模块:用于采用训练好的学生模型S对待分类木薯叶病害图像数据集进行分类;该图像数据集包括5个类别图像,分别为木薯细菌性枯萎病、木薯褐条病、木薯绿斑驳病和木薯花叶病的四种病害图像与健康木薯图像。其它未尽说明请参见前述该分类方法说明。
需要指出的是,上述实施例的实例可以根据实际需要优选一个或两个以上相互组合,而多个实例采用一套组合技术特征的附图说明,在此就不一一展开说明。
上述说明是针对本发明较佳可行实施例的详细说明和例证,但这些描述并非用以限定本发明所要求保护范围,凡本发明所提示的技术教导下所完成的同等变化或修饰变更,均应属于本发明所涵盖专利保护范围。
Claims (8)
1.一种基于课程知识蒸馏的耐噪声木薯叶病害系统方法,其特征在于,包括以下内容:
步骤S1、基于知识蒸馏和课程学习使用数据集D训练得到训练好的学生模型S;包括以下具体处理流程:
步骤S11、组建木薯叶病害数据作为带噪数据集D;
步骤S12、构建训练调度器,使用教师模型T作为难度测量器,在其中输入数据集D,得到样本难度分数,然后,使用正则器确定每轮训练时选择的样本比例及权重,选取样本形成训练子集Dm;
步骤S13、构建自适应权重模块,自适应调整教师模型T对学生模型S的知识转移比重ω,采用训练子集Dm训练得到本轮训练的学生模型S;
步骤S14、反复执行步骤S12-步骤S13操作,直到目标迭代次数训练结束或模型趋于收敛,输出训练好的学生模型S;
步骤S2、采用训练好的学生模型S对待分类木薯叶病害图像数据集进行分类;该图像数据集包括5个类别图像,分别为木薯细菌性枯萎病、木薯褐条病、木薯绿斑驳病和木薯花叶病的四种病害图像与健康木薯图像。
2.根据权利要求1所述的一种基于课程知识蒸馏的耐噪声木薯叶病害分类方法,其特征在于:所述步骤S1中,训练调度器具体处理流程如下:
(1)在开始阶段,将原始数据集D输入教师模型T得到样本难度分数l,选取难度低于分数的样本形成第一个训练子集D1;
(2)在第m个阶段,将数据集D输入难度测量器T得到样本难度分数l,选取难度低于分数λ2的样本形成第m个训练子集Dm;其中,D1∪D2∪…∪Dm-1=Dm;根据当前批次计算并更新学习速度λ;
(3)反复进行上述步骤(1)及(2),直到训练结束或模型趋于收敛。
3.根据权利要求2所述的一种基于课程知识蒸馏的耐噪声木薯叶病害分类方法,其特征在于:所述步骤S1中,难度分数l通过样本交叉熵损失计算,具体计算公式如下,
式中,y表示样本的真实标签,表示权重;
通过正则器确定每轮训练时选择的样本比例及权重v*,权重v*具体计算公式如下,
式中,k为控制样本权重强度的超参数(k>0),λ表示学习速度。
4.根据权利要求1所述的一种基于课程知识蒸馏的耐噪声木薯叶病害分类方法,其特征在于:所述步骤S1中,知识转移比重ω的取值使用每轮训练阶段的验证集精度作为模型差距的度量;在第e轮训练中,学生模型的验证集精度为AS,教师模型的验证集精度为AT,加权权重ω的计算公式如下:
式中,γ为控制知识蒸馏比重逐渐自动衰减系数,取值范围为[0,1)。
5.一种基于课程知识蒸馏的耐噪声木薯叶病害分类方法,其特征在于,包括以下内容:
训练模块:用于基于知识蒸馏和课程学习使用数据集D训练得到训练好的学生模型S;包括以下具体处理流程:
步骤S11、组建木薯叶病害数据作为带噪数据集D;
步骤S12、构建训练调度器,使用教师模型T作为难度测量器,在其中输入数据集D,得到样本难度分数,然后,使用正则器确定每轮训练时选择的样本比例及权重,选取样本形成训练子集Dm;
步骤S13、构建自适应权重模块,自适应调整教师模型T对学生模型S的知识转移比重ω,采用训练子集Dm训练得到本轮训练的学生模型S;
步骤S14、反复执行步骤S12-步骤S13操作,直到目标迭代次数训练结束或模型趋于收敛,输出训练好的学生模型S;
分类模块:用于采用训练好的学生模型S对待分类木薯叶病害图像数据集进行分类;该图像数据集包括5个类别图像,分别为木薯细菌性枯萎病、木薯褐条病、木薯绿斑驳病和木薯花叶病的四种病害图像与健康木薯图像。
6.根据权利要求5所述的一种基于课程知识蒸馏的耐噪声木薯叶病害分类系统,其特征在于:所述训练模块中,训练调度器具体处理流程如下:
(1)在开始阶段,将原始数据集D输入教师模型T得到样本难度分数l,选取难度低于分数的样本形成第一个训练子集D1;
(2)在第m个阶段,将数据集D输入难度测量器T得到样本难度分数l,选取难度低于分数λ2的样本形成第m个训练子集Dm;其中,D1∪D2∪…∪Dm-1=Dm;根据当前批次计算并更新学习速度λ;
(3)反复进行上述步骤(1)及(2),直到训练结束或模型趋于收敛。
7.根据权利要求6所述的一种基于课程知识蒸馏的耐噪声木薯叶病害分类系统,其特征在于:所述训练模块中,难度分数l通过样本交叉熵损失计算,具体计算公式如下,
式中,y表示样本的真实标签,表示权重。
通过正则器确定每轮训练时选择的样本比例及权重v*,权重v*具体计算公式如下,
式中,k为控制样本权重强度的超参数(k>0),λ表示学习速度。
8.根据权利要求5所述的一种基于课程知识蒸馏的耐噪声木薯叶病害分类系统,其特征在于:所述训练模块中,知识转移比重ω的取值使用每轮训练阶段的验证集精度作为模型差距的度量;在第e轮训练中,学生模型的验证集精度为AS,教师模型的验证集精度为AT,加权权重ω的计算公式如下:
式中,γ为控制知识蒸馏比重逐渐自动衰减系数,取值范围为[0,1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310684779.2A CN117274657A (zh) | 2023-06-12 | 2023-06-12 | 基于课程知识蒸馏的耐噪声木薯叶病害分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310684779.2A CN117274657A (zh) | 2023-06-12 | 2023-06-12 | 基于课程知识蒸馏的耐噪声木薯叶病害分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117274657A true CN117274657A (zh) | 2023-12-22 |
Family
ID=89207023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310684779.2A Pending CN117274657A (zh) | 2023-06-12 | 2023-06-12 | 基于课程知识蒸馏的耐噪声木薯叶病害分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274657A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576518A (zh) * | 2024-01-15 | 2024-02-20 | 第六镜科技(成都)有限公司 | 图像蒸馏方法、装置、电子设备和计算机可读存储介质 |
CN118447297A (zh) * | 2024-04-19 | 2024-08-06 | 牧星智能工业科技(上海)有限公司 | 一种基于知识蒸馏的轻量化农作物病害识别方法 |
-
2023
- 2023-06-12 CN CN202310684779.2A patent/CN117274657A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117576518A (zh) * | 2024-01-15 | 2024-02-20 | 第六镜科技(成都)有限公司 | 图像蒸馏方法、装置、电子设备和计算机可读存储介质 |
CN117576518B (zh) * | 2024-01-15 | 2024-04-23 | 第六镜科技(成都)有限公司 | 图像蒸馏方法、装置、电子设备和计算机可读存储介质 |
CN118447297A (zh) * | 2024-04-19 | 2024-08-06 | 牧星智能工业科技(上海)有限公司 | 一种基于知识蒸馏的轻量化农作物病害识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117274657A (zh) | 基于课程知识蒸馏的耐噪声木薯叶病害分类方法及系统 | |
CN109300111B (zh) | 一种基于深度学习的染色体识别方法 | |
CN108095716B (zh) | 一种基于置信规则库和深度神经网络的心电信号检测方法 | |
CN113657561B (zh) | 一种基于多任务解耦学习的半监督夜间图像分类方法 | |
KR20190140824A (ko) | 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치 | |
CN116821698B (zh) | 基于半监督学习的小麦赤霉病孢子检测方法 | |
CN108446214B (zh) | 基于dbn的测试用例进化生成方法 | |
CN111753918B (zh) | 一种基于对抗学习的去性别偏见的图像识别模型及应用 | |
CN111061959B (zh) | 一种基于开发者特征的群智化软件任务推荐方法 | |
CN103714261A (zh) | 二阶段混合模型的智能辅助医疗决策支持方法 | |
CN113436174A (zh) | 一种人脸质量评估模型的构建方法及应用 | |
CN116226629A (zh) | 一种基于特征贡献的多模型特征选择方法及系统 | |
CN115130651A (zh) | 一种记忆环路多层异构机制启发的脉冲神经网络 | |
CN115761408A (zh) | 一种基于知识蒸馏的联邦域适应方法及系统 | |
CN116994295B (zh) | 基于灰度样本自适应选择门的野生动物类别识别方法 | |
CN109409231A (zh) | 基于自适应隐马尔可夫的多特征融合手语识别方法 | |
CN112102135A (zh) | 基于lstm神经网络的高校贫困生精准资助模型 | |
Wenjuan | Learning perception prediction and English hierarchical model based on neural network algorithm | |
CN115830401A (zh) | 一种小样本图像分类方法 | |
CN115641582A (zh) | 一种基于对比学习的零样本图像分类网络及深度学习方法 | |
CN116028861A (zh) | 一种基于注意力机制的MOOCs辍学预测模型构建方法 | |
CN115439791A (zh) | 跨域视频动作识别方法、装置、设备和计算机可存储介质 | |
CN115064207A (zh) | 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法 | |
CN114155251A (zh) | 一种上下文感知卷积神经网络的全脑三维解剖结构分割方法 | |
Cao et al. | Alzheimer’s Disease Stage Detection Method Based on Convolutional Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |