CN117953383A - 基于尺度交互蒸馏网络的薄壳山核桃果形识别方法及系统 - Google Patents
基于尺度交互蒸馏网络的薄壳山核桃果形识别方法及系统 Download PDFInfo
- Publication number
- CN117953383A CN117953383A CN202410325585.8A CN202410325585A CN117953383A CN 117953383 A CN117953383 A CN 117953383A CN 202410325585 A CN202410325585 A CN 202410325585A CN 117953383 A CN117953383 A CN 117953383A
- Authority
- CN
- China
- Prior art keywords
- scale
- global
- local
- features
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 235000013399 edible fruits Nutrition 0.000 title claims abstract description 49
- 238000004821 distillation Methods 0.000 title claims abstract description 31
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 14
- 238000012795 verification Methods 0.000 claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 238000013140 knowledge distillation Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000012512 characterization method Methods 0.000 claims abstract description 14
- 238000009826 distribution Methods 0.000 claims abstract description 14
- 235000009025 Carya illinoensis Nutrition 0.000 claims abstract description 13
- 241001453450 Carya illinoinensis Species 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims abstract description 10
- 238000011176 pooling Methods 0.000 claims description 27
- 230000003993 interaction Effects 0.000 claims description 23
- 230000008447 perception Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 241000899834 Obovaria olivaria Species 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 229940050561 matrix product Drugs 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013095 identification testing Methods 0.000 claims description 2
- 230000010365 information processing Effects 0.000 abstract description 3
- 238000011161 development Methods 0.000 description 5
- 238000005286 illumination Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 2
- 241000758789 Juglans Species 0.000 description 2
- 235000009496 Juglans regia Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 235000020234 walnut Nutrition 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000012271 agricultural production Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 239000009891 weiqi Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了基于尺度交互蒸馏网络的薄壳山核桃果形识别方法及系统,属于信息处理和图像识别技术领域,包括步骤:构建薄壳山核桃果形识别数据集,并划分训练样本集、验证集和测试集;提取全局上下文特征;从全局图像中采样得到局部图像;提取局部上下文特征;利用多尺度上下文注意力融合模块将全局和局部上下文特征进行融合得到鲁棒性和判别性表征;利用鲁棒性和判别性表征进行薄壳山核桃果形识别,并利用尺度知识蒸馏方案提取全局和局部上下文特征之间的预测分布。本发明克服了多尺度全局及局部特征的预测不一致性和融合效率低的难题,能够有效地学习具有尺度无关性的鲁棒性和判别性特征,提高薄壳山核桃果形识别的精度。
Description
技术领域
本发明主要涉及信息处理和图像识别技术领域,具体为基于尺度交互蒸馏网络的薄壳山核桃果形识别方法及系统。
背景技术
薄壳山核桃果形识别是农业生产中的重要环节,早期的薄壳山核桃果形识别方法主要依靠人工观察核桃的外形、大小、颜色等特征进行分类。然而这类方法需要识别人员具有丰富的实践经验,存在效率低、准确性差、难以实现标准化(容易受到主观因素的影响)等缺点,不利于有利于核桃产业的机械化发展。
近年来,随着计算机视觉技术的快速发展,基于图像的薄壳山核桃果形识别方法逐渐成为研究热点。随着机器学习技术的快速发展,开展基于机器视觉的果实及果形识别研究已成为一种趋势,可大大减轻劳动压力, 提高工作效率, 有利于推动相关产业的机械化发展。在此背景下,国内外学者开展了大量针对果实及果形识别的研究。传统基于机器学习的果实及果形识别方法主要基于果实的颜色、纹理、形状等特征,利用不同的算法和分类器来提取和识别这些特征,如支持向量机、Hough变换等。这些方法虽然在一定程度上可以实现果实及果形的识别,但也存在一些缺点,如特征提取器的构建需要大量的人工干预和专业知识,特征提取的效果受到图像质量和环境因素的影响,分类器的泛化能力和准确率不高,检测速度不够快等。
近年来,深度学习模型在水果分类、植物鉴定、作物分类、杂草分类、质量评价等多个农业应用得到了广泛应用,并取得了显著性能。虽然深度学习模型在多种农业应用中取得了较大成功,但是由于薄壳山核桃果形类间差异小,且易受光照、拍摄角度和距离等因素的影响,鲜有专门进行薄壳山核桃果形识别的模型。
综上,现有的大多数果形识别方法都存在以下问题:(1)特征提取能力不足。现有方法主要依赖于颜色、纹理等传统特征进行识别,而这些特征容易受到光照、拍摄角度和距离等因素的影响,导致识别精度不高。(2)尺度无关性差。现有方法大多无法有效地处理不同尺度下的果形图像,导致识别结果不一致。(3)鲁棒性差。现有方法大多无法有效地应对背景干扰等因素,导致识别结果不稳定。
发明内容
本发明技术方案针对现有技术解决方案过于单一的技术问题,提供了显著不同于现有技术的解决方案,主要提供了基于尺度交互蒸馏网络的薄壳山核桃果形识别方法及系统,用以解决上述背景技术中提出的特征提取能力不足、尺度无关性差和鲁棒性差的技术问题。
本发明解决上述技术问题采用的技术方案为:
一种基于尺度交互蒸馏网络的薄壳山核桃果形识别方法,包括如下步骤:
S1、构建薄壳山核桃果形识别数据集,并划分训练样本集、验证样本集和测试样本集;
S2、对训练样本集及验证样本集提取全局上下文特征;
S3、基于步骤S2,定位全局图像中感兴趣目标区域,并对感兴趣目标区域进行采样得到局部图像;
S4、利用局部分支网络对采样的局部图像进行处理,提取局部上下文特征;
S5、利用多尺度上下文注意力融合模块将全局上下文特征和局部上下文特征进行融合,得到具有尺度无关性和背景无关信息的鲁棒性和判别性表征;
S6、利用学习到的鲁棒性和判别性表征进行薄壳山核桃果形识别,并利用尺度知识蒸馏方案提取全局上下文特征和局部上下文特征之间的预测分布,从而产生更一致的识别结果。
进一步地,步骤S5中的具体操作为:
S5-1、将全局上下文特征和局部上下文特征通过通道缩减进行拼接和压缩;
S5-2、基于步骤S5-1,沿其空间宽度和高度进行行池化和列池化,得到行池化特征和列池化特征;
S5-3、基于行池化特征和列池化特征,对变换矩阵和进行估计;
S5-4、采用双线性注意变换分别从全局上下文特征和局部上下文特征中获取全局感知交互特征和局部感知交互特征;
S5-5、将全局感知交互特征和局部感知交互特征相结合,学习具有尺度无关性和背景无关信息的鲁棒性和判别性表征。
进一步地,步骤S6中,所述尺度知识蒸馏方案为:
令和/>分别表示输入图像和相应的类标签,预测分布/>表示为:
,
式中,表示网络预测得到正确类标签/>的概率,/>表示网络对第k类的预测分数,/>代表待学习的参数,T > 0,表示蒸馏温度参数;
并设置一种尺度正则化损失约束,以匹配同一类的局部图像和全局图像之间的预测分布,所述尺度正则化损失约束表示为:
式中,/>表示 Kullback-Leibler (KL) 散度;/>和/>分别为局部分支和全局分支中的参数。
进一步地,步骤S6之后,进行操作:
S7、对验证集计算性能验证指标,判断模型是否训练完成;如果达到验证指标,停止训练;否则,重复步骤2-7;
S8、采用测试集进行识别测试,并统计识别结果,计算总体识别准确率。
具体地,步骤S1中,所述训练样本集、验证样本集和测试样本集均包括原始图片及与原始图片对应的果形类别标签。
具体地,步骤S2中,通过预训练的ResNet18中的卷积层作为全局分支子网络提取输入图片的全局上下文特征;
其中/>表示输入的全局图像,/>表示全局分支子网络,/>表示中待学习的参数。
具体地,步骤S3中,通过结构化关键区域定位模块定位全局图像中感兴趣目标区域,步骤S3具体为:
S3-1、进行能量聚集运算,即通过下式定量描述全局上下文特征中各空间元素的重要程度:
其中/>表示能量图,/>表示通道,/>为/>的通道数,H和W分别代表特征/>的高和宽;
S3-2、将的元素按最小-最大比例缩放到[0,1]范围内,并进行上采样,从而得到缩放后的能量图/>;
S3-3、对能量图进行结构化操作,将/>沿空间高度和宽度聚合为一维结构化能量向量:
其中,/>和/>分别表示沿空间高度和宽度方向的一维结构化能量向量;/>和/>分别表示缩放后的能量图/>的空间宽度和高度;
S3-4、通过贪婪边界搜索确定局部目标的边界框的宽度边界和/>;用/>表示/>的能量和,/>表示从/>到/>沿空间宽度的能量,它们可以通过下述公式计算:
其中,宽度边界/>和/>可以通过在约束条件/>下确定最小的/>面积来求解,其中/>表示预定义的能量阈值;
S3-5、采用与步骤S3-4类似的方式确定局部目标的边界框的高度边界和/>,进而通过求得的边界坐标,对全局图像/>采样得到局部图像/>。
具体地,步骤S4中,所述局部上下文特征表示为:
其中,/>代表局部分支子网络,/>表示/>中待学习的参数。
具体地,步骤S5具体为:
S5-1、将全局上下文特征和局部上下文特征/>通过通道缩减进行拼接和压缩:
其中,/>是压缩得到的特征,/>表示包括批归一化和ReLU激活函数的/>卷积层用于通道缩减,/>表示两个特征的拼接操作;
S5-2、分别沿的空间宽度和高度进行行池化和列池化,得到行池化特征/>和列池化特征/>;该操作通过下式实现:
,
,
S5-3、基于池化特征和/>,对变换矩阵/>和/>进行估计:
,
,
其中,*表示卷积运算,表示大小为/>的卷积核,/>表示大小为/>的卷积核,rearrange表示调整矩阵形状的重塑形操作;
S5-4、采用双线性注意变换分别从全局上下文特征和局部上下文特征/>中获取全局感知交互特征/>和局部感知交互特征/>:
,
,
其中,为矩阵乘积运算;
S5-5、将全局感知交互特征和局部感知交互特征/>相结合,学习具有尺度无关性和背景无关信息的鲁棒性和判别性表征/>:
,其中,/>表示两个矩阵的逐元素相加运算。
本发明还提供了一种基于尺度交互蒸馏网络的薄壳山核桃果形识别系统,包括处理器和存储器,所述存储器中存储计算机程序,计算机程序在处理器中运行时,执行上述的基于尺度交互蒸馏网络的薄壳山核桃果形识别方法。
本发明还提供一种计算机可读存储介质,储存有计算机程序,计算机程序被执行时实现基于尺度交互蒸馏网络的薄壳山核桃果形识别的方法。
与现有技术相比,本发明的有益效果为:
(1)本发明提出一个基于尺度交互蒸馏网络用于薄壳山核桃果形识别的方法,采用双分支架构学习不同尺度输入的全局和局部上下文特征,并通过多尺度上下文注意力融合模块整合全局和局部语义特征,多尺度上下文注意力融合模块可以通过促进不同尺度和不同空间位置之间的信息交互,来协同聚合全局和局部特征,从而能够有效地提取具有尺度无关性和背景无关信息的鲁棒性和判别性特征。从而能够有效地应对光照、拍摄角度和距离等因素的影响,以及背景干扰等因素,提高识别结果的稳定性,则本发明具有较好的鲁棒性和足够的特征提取能力,识别精度更高。通过实施例中实验可知,采用本发明提供的识别方法可达到96.98%的识别精度,该数据较现有识别方法均较高。
(2)本发明提供的尺度交互蒸馏网络还包括尺度间知识蒸馏方案,尺度间知识蒸馏方案可以通过施加尺度正则化约束来解决全局和局部特征之间不一致的预测,实现了多尺度预测结果的一致性,从而能够提高识别效率。
(3)本发明采用结构化关键区域定位模块自动定位全局图像中感兴趣目标区域,并利用尺度知识蒸馏方案提高预测一致性,使得薄壳山核桃图像识别效率更高。
(4)本发明提供的多尺度上下文注意融合模块可以有效地增强全局上下文特征和局部上下文特征之间的交互,而且该模块是即插即用的,可以扩展到各种多尺度特征的融合任务中。
以下将结合附图与具体的实施例对本发明进行详细的解释说明。
附图说明
图1为本发明的流程图;
图2为本发明的训练过程示意图;
图3为本发明的多尺度上下文注意力融合模块的工作过程示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更加全面的描述,附图中给出了本发明的若干实施例,但是本发明可以通过不同的形式来实现,并不限于文本所描述的实施例,相反的,提供这些实施例是为了使对本发明公开的内容更加透彻全面。
需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常连接的含义相同,本文中在本发明的说明书中所使用的术语知识为了描述具体的实施例的目的,不是旨在于限制本发明,本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例:
请着重参照附图1和附图2,为了解决由于薄壳山核桃果形类间差异小,以及光照、拍摄角度和距离等因素带来的果形识别精度不高的难题,本发明提供一种基于尺度交互蒸馏网络的薄壳山核桃果形识别方法,包括如下步骤:
步骤1,构建数据集,并划分训练样本集、验证样本集和测试样本集:
(1a)、数据集制作:本实施例以Candy、德西拉布、金华、卡多、考比、绿宙1号、马罕、萨婆、特贾斯、威奇塔、亚林100、钟山25等12种薄壳山核桃为样本,构建了一个薄壳山核桃果形识别数据集。构建数据集过程中考虑了核桃光照、角度和拍摄距离等因素,从多角度拍摄了12个品种的薄壳山核桃图像,拍摄图像尺寸为1000像素*2000像素,获得符合试验条件的图像共2262张;
(1b)、划分样本集:针对获得的2262张薄壳山核桃图像,为每张图像做了类别标注。同时,为了增大数据集规模以避免训练过拟合现象,对获得的图像进行了随机裁剪、随机旋转、添加噪声等处理,最终将数据集规模扩充到9048张,按照8:1:1的比例划分训练集、验证集和测试集,所述训练样本集、验证样本集和测试样本集均包括原始图片及与原始图片对应的果形类别标签。
步骤2,对训练样本集及验证样本集提取全局上下文特征:
(2a)、输入训练样本集中的训练图片及验证样本集中的验证图片;
(2b)、通过预训练的ResNet18中的卷积层作为全局分支子网络提取步骤(2a)中输入图片的全局上下文特征;
其中/>表示输入的全局图像,/>表示全局分支子网络,/>表示中待学习的参数。
步骤3,通过结构化关键区域定位模块定位全局图像中感兴趣目标区域,并对感兴趣目标区域进行采样得到局部图像:
(3a)、进行能量聚集运算,即通过下式定量描述全局上下文特征中各空间元素的重要程度:
其中/>表示能量图,/>表示通道,/>为/>的通道数,H和W分别代表特征/>的高和宽。
(3b)、将的元素按最小-最大比例缩放到[0,1]范围内,并进行上采样,从而得到缩放后的能量图/>。
(3c)、对能量图进行结构化操作,将二维的/>沿空间高度和宽度聚合为一维结构化能量向量:
其中,/>和/>分别表示沿空间高度和宽度方向的一维结构化能量向量;/>和/>分别表示缩放后的能量图/>的空间宽度和高度。
(3d)、通过贪婪边界搜索确定局部目标的边界框的宽度边界和/>;用/>表示的能量和,/>表示从/>到/>沿空间宽度的能量,它们可以通过下述公式计算:
其中,宽度边界/>和/>可以通过在约束条件/>下确定最小的/>面积来求解,其中/>表示预定义的能量阈值。
(3e)、通过(3d)步骤类似的方式确定局部目标的边界框的高度边界和/>,进而通过求得的边界坐标,对全局图像/>采样得到局部图像/>。
步骤4,利用和全局分支共享相同体系结构的局部分支网络对采样的局部图像进行处理提取局部上下文特征/>:
其中,/>代表局部分支子网络,/>表示/>中待学习的参数。
步骤5,请着重参照附图3,利用设计的多尺度上下文注意力融合模块将全局上下文特征和局部上下文特征/>进行融合,得到具有尺度无关性和背景无关信息的鲁棒性和判别性表征/>:
(5a)、将全局上下文特征和局部上下文特征/>通过通道缩减进行拼接和压缩:
其中,/>是压缩得到的特征,/>表示包括批归一化和ReLU激活函数的/>卷积层用于通道缩减,/>表示两个特征的拼接操作。
(5b)、分别沿的空间宽度和高度进行行池化和列池化,得到行池化特征/>和列池化特征/>;该操作通过下式实现:
,
,
(5c)、基于池化特征和/>,对变换矩阵/>和/>进行估计:
,
,
其中,*表示卷积运算,表示大小为/>的卷积核,/>表示大小为/>的卷积核,rearrange表示调整矩阵形状的重塑形操作。
(5d)、采用双线性注意变换分别从全局上下文特征和局部上下文特征/>中获取全局感知交互特征/>和局部感知交互特征/>:
,
,
其中,为矩阵乘积运算。为方便起见,将上式的矩阵转置省略。
(5e)、将全局感知交互特征和局部感知交互特征/>相结合,学习具有尺度无关性和背景无关信息的鲁棒性和判别性表征/>:
,其中,/>表示两个矩阵的逐元素相加运算。
基于多尺度上下文注意融合模块可以有效地增强全局上下文特征和局部上下文特征之间的交互。而且该模块是即插即用的,可以扩展到各种多尺度特征的融合任务中。
步骤6,利用学习到的鲁棒性和判别性表征进行薄壳山核桃果形识别,并利用提出的尺度知识蒸馏方案提取全局和局部上下文特征之间的预测分布,从而产生更一致的识别结果。
为了解决全局特征和局部特征之间预测不一致的问题,提出了一种尺度间知识蒸馏方案以产生更一致的预测。具体来说,令和/>分别表示输入图像和相应的类标签。预测分布/>可以表示为:
式中, /> 表示网络预测得到正确类标签/>的概率,/>表示网络对第k类的预测分数,/>代表待学习的参数,T > 0,表示蒸馏温度参数。为了匹配同一类的局部图像和全局图像之间的预测分布,提出了一种尺度正则化损失,并将其表示为:
,式中/>表示 Kullback-Leibler (KL) 散度。/>和/>分别为局部分支和全局分支中的参数。
在上述损失的约束下,可以有效缓解不同尺度之间预测的不一致性问题。
步骤7,对验证集计算性能验证指标,判断模型是否训练完成;如果达到验证指标,停止训练;否则,重复步骤2-7。
步骤8,采用测试集进行识别测试,并统计识别结果,计算总体识别准确率。
实验验证
一、消融试验
除了提出的尺度交互蒸馏网络外,还设计三种不同的变体以检查:(1)所提出的多尺度上下文注意力融合模块的有效性;(2)所提出的尺度间知识蒸馏方案的重要性。消融研究的详细实现如下:
首先,实现了没有尺度间知识蒸馏方案的单分支基线(变体A)。其次,将全局和局部上下文特征与所提出的多尺度上下文注意力融合模块相结合,而不使用尺度间知识蒸馏方案对预测分布(变体B)。第三,在预测分布之间使用尺度间知识蒸馏方案,而全局和局部上下文特征图以串联方式进行聚合而非所提出的多尺度上下文注意力融合模块(变体C)。最后,实现了所提出的尺度交互蒸馏网络的完整版本。各种变体方法及本发明的对比结果详见表1。
表1 消融试验结果对比
对比方法 | 多尺度上下文注意力融合模块 | 尺度间知识蒸馏方案 | OA |
变体A | 89.74 % | ||
变体B | √ | 94.19 % | |
变体C | √ | 93.82 % | |
本发明方法 | √ | √ | 96.98 % |
通过观察表1结果,可以得出如下结论:
(1)本发明提出的多尺度上下文注意力融合模块对提高薄壳山核桃的特征表示能力有显著作用。从表1的数据中可以直观地发现,在去掉多尺度上下文注意力融合模 块后,识别性能急剧下降,OA(总体分类准确率)从96.98%下降到93.82%。这是因为所提出的多尺度上下文注意力融合模块可以通过增强不同尺度和不同空间位置之间的相互作用,并学习具有尺度无关性和背景无关信息的鲁棒性和判别性表征。此外,单分支基线(变体A)与所提出的尺度交互蒸馏网络(本发明方法)之间的比较结果进一步证明了所提出的尺度交互蒸馏网络在聚合高薄壳山核桃的全局和局部信息方面的有效性。
(2)提出的尺度间知识蒸馏方案可以有效地整合全局和局部上下文特征之间的预测分布。如表1所示,变体B的结果和所提出的尺度交互蒸馏网络(本发明方法)有很大的不同。当采用尺度间知识蒸馏方案时,OA从94.19%提高到96.98%。这主要是因为当省略尺度间知识蒸馏时,全局和局部上下文特征之间的预测分布有时不一致,这会导致薄壳山核桃果形识别模型的泛化有限。相比之下,本发明方法可以有效地实现这一点,这表明所提出的尺度间知识蒸馏方案能够产生更一致的预测。
二、通过以下仿真实验做进一步说明本发明的效果:
1.仿真条件
本发明是在中央处理器为Intel(R) Xeon(R)CPU E5-2650 V4 @ 2.20GHz、内存500G、windows操作系统上,运用Python及其他相关工具包进行的仿真。
仿真中使用的数据为自主采集的薄壳山核桃图片和标注的果形类别信息。
2.仿真内容
在自主构建的薄壳山核桃果形识别数据集上,进行模型的训练、验证和测试。为了证明本发明算法的有效性,综合考虑算法的流行性、崭新性,我们选取了8个典型的图像分类模型AlexNet、VGG16、InceptionV3、ResNet101、MobileNetV2、CrossViT、TL-MobileNetV2、ViTAEv2作为对比例进行比较。其中:
(1)AlexNet模型是在文献“Krizhevsky A, Sutskever I, Hinton G E.Imagenet classification with deep convolutional neural networks[J]. Advancesin neural information processing systems, 2012, 25.”中提出来的。
(2)VGG16模型是在文献“Simonyan K, Zisserman A. Very deep convolutionalnetworks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.”中提出来的。
(3)InceptionV3模型是在文献“Szegedy C, Vanhoucke V, Ioffe S, et al.Rethinking the inception architecture for computer vision[C]//Proceedings ofthe IEEE conference on computer vision and pattern recognition. 2016: 2818-2826.”中提出来的。
(4)ResNet101模型是在文献“He K, Zhang X, Ren S, et al. Deep residuallearning for image recognition[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition. 2016: 770-778.”中提出来的。
(5)MobileNetV2模型是在文献“Sandler M, Howard A, Zhu M, et al.Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of theIEEE conference on computer vision and pattern recognition. 2018: 4510-4520.”中提出来的。
(6)CrossViT模型是在文献“Chen C F R, Fan Q, Panda R. Crossvit: Cross-attention multi-scale vision transformer for image classification[C]//Proceedings of the IEEE/CVF international conference on computer vision.2021: 357-366.”中提出来的。
(7)TL-MobileNetV2模型是在文献“Gulzar Y. Fruit image classificationmodel based on MobileNetV2 with deep transfer learning technique[J].Sustainability, 2023, 15(3): 1906.”中提出来的。
(8)ViTAEv2模型是在文献“[20]Zhang Q, Xu Y, Zhang J, et al. Vitaev2:Vision transformer advanced by exploring inductive bias for image recognitionand beyond[J]. International Journal of Computer Vision, 2023: 1-22.”中提出来的。
计算上述8个典型的图像分类模型以及本发明在自主构建的薄壳山核桃果形识别数据集上关于总体分类准确率的指标分数,其结果如表2所示。
表2 在自主构建的薄壳山核桃果形识别数据集上的指标分数
识别方法 | 年份 | 总体分类准确率 |
AlexNet | 2012 | 87.24 % |
VGG16 | 2014 | 89.41 % |
InceptionV3 | 2016 | 91.14 % |
ResNet101 | 2016 | 92.08 % |
MobileNetV2 | 2018 | 90.75 % |
CrossViT | 2021 | 93.17 % |
TL-MobileNetV2 | 2023 | 91.57 % |
ViTAEv2 | 2023 | 94.62 % |
本发明方法 | 2024 | 96.98 % |
根据表2的结果可以看出,本发明取得了最高的识别准确率96.98%,这说明本发明的性能优于其他所有对比方法,本发明能够有效地提取具有尺度无关性和与背景无关信息的鲁棒性和判别性特征,从而提高薄壳山核桃果形识别的准确性和鲁棒性。
综上所述,本文方法通过引入多尺度上下文注意力融合模块和尺度知识蒸馏方案,有效地解决了薄壳山核桃果形识别中存在的尺度多样性和背景干扰问题,实现了对薄壳山核桃果形的精准识别。
上述结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的这种非实质改进,或未经改进将本发明的构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。
Claims (10)
1.一种基于尺度交互蒸馏网络的薄壳山核桃果形识别方法,其特征在于,包括如下步骤:
S1、构建薄壳山核桃果形识别数据集,并划分训练样本集、验证样本集和测试样本集;
S2、对训练样本集及验证样本集提取全局上下文特征;
S3、基于步骤S2,定位全局图像中感兴趣目标区域,并对感兴趣目标区域进行采样得到局部图像;
S4、利用局部分支网络对采样的局部图像进行处理,提取局部上下文特征;
S5、利用多尺度上下文注意力融合模块将全局上下文特征和局部上下文特征进行融合,得到具有尺度无关性和背景无关信息的鲁棒性和判别性表征;
S6、利用学习到的鲁棒性和判别性表征进行薄壳山核桃果形识别,并利用尺度知识蒸馏方案提取全局上下文特征和局部上下文特征之间的预测分布,从而产生更一致的识别结果。
2.根据权利要求1所述的一种基于尺度交互蒸馏网络的薄壳山核桃果形识别方法,其特征在于:步骤S5中的具体操作为:
S5-1、将全局上下文特征和局部上下文特征通过通道缩减进行拼接和压缩;
S5-2、基于步骤S5-1,沿其空间宽度和高度进行行池化和列池化,得到行池化特征和列池化特征;
S5-3、基于行池化特征和列池化特征,对变换矩阵和进行估计;
S5-4、采用双线性注意变换分别从全局上下文特征和局部上下文特征中获取全局感知交互特征和局部感知交互特征;
S5-5、将全局感知交互特征和局部感知交互特征相结合,学习具有尺度无关性和背景无关信息的鲁棒性和判别性表征。
3.根据权利要求1所述的一种基于尺度交互蒸馏网络的薄壳山核桃果形识别方法,其特征在于:步骤S6中,所述尺度知识蒸馏方案为:
令和/>分别表示输入图像和相应的类标签,预测分布/>表示为:
式中,/>表示网络预测得到正确类标签/>的概率,/>表示网络对第k类的预测分数,/>代表待学习的参数,T > 0,表示蒸馏温度参数;
并设置一种尺度正则化损失约束,以匹配同一类的局部图像和全局图像之间的预测分布,所述尺度正则化损失约束表示为:
式中,/>表示 Kullback-Leibler (KL) 散度;/>和/>分别为局部分支和全局分支中的参数。
4.根据权利要求1所述的一种基于尺度交互蒸馏网络的薄壳山核桃果形识别方法,其特征在于:步骤S6之后,进行操作:
S7、对验证集计算性能验证指标,判断模型是否训练完成;
S8、采用测试集进行识别测试,并统计识别结果,计算总体识别准确率。
5.根据权利要求1所述的一种基于尺度交互蒸馏网络的薄壳山核桃果形识别方法,其特征在于:步骤S1中,所述训练样本集、验证样本集和测试样本集均包括原始图片及与原始图片对应的果形类别标签。
6.根据权利要求1所述的一种基于尺度交互蒸馏网络的薄壳山核桃果形识别方法,其特征在于:步骤S2中,通过预训练的ResNet18中的卷积层作为全局分支子网络提取输入图片的全局上下文特征;
其中/>表示输入的全局图像,/>表示全局分支子网络,/>表示/>中待学习的参数。
7.根据权利要求6所述的一种基于尺度交互蒸馏网络的薄壳山核桃果形识别方法,其特征在于:步骤S3中,通过结构化关键区域定位模块定位全局图像中感兴趣目标区域,步骤S3具体为:
S3-1、进行能量聚集运算,即通过下式定量描述全局上下文特征中各空间元素的重要程度:
其中/>表示能量图,/>表示通道,/>为/>的通道数,H和W分别代表特征/>的高和宽;
S3-2、将的元素按最小-最大比例缩放到[0,1]范围内,并进行上采样,从而得到缩放后的能量图/>;
S3-3、对能量图进行结构化操作,将/>沿空间高度和宽度聚合为一维结构化能量向量:
,
其中,和/>分别表示沿空间高度和宽度方向的一维结构化能量向量;/>和/>分别表示缩放后的能量图/>的空间宽度和高度;
S3-4、通过贪婪边界搜索确定局部目标的边界框的宽度边界和/>;用/>表示/>的能量和,/>表示从/>到/>沿空间宽度的能量,它们可以通过下述公式计算:
,
其中,宽度边界和/>可以通过在约束条件/>下确定最小的/>面积来求解,其中/>表示预定义的能量阈值;
S3-5、采用与步骤S3-4类似的方式确定局部目标的边界框的高度边界和/>,进而通过求得的边界坐标,对全局图像/>采样得到局部图像/>。
8.根据权利要求7所述的一种基于尺度交互蒸馏网络的薄壳山核桃果形识别方法,其特征在于:步骤S4中,所述局部上下文特征表示为:
其中,/>代表局部分支子网络,/>表示/>中待学习的参数。
9.根据权利要求8所述的一种基于尺度交互蒸馏网络的薄壳山核桃果形识别方法,其特征在于:步骤S5具体为:
其中,/>是压缩得到的特征,/>表示包括批归一化和ReLU激活函数的/>卷积层用于通道缩减,/>表示两个特征的拼接操作;
S5-2、分别沿的空间宽度和高度进行行池化和列池化,得到行池化特征/>和列池化特征/>;该操作通过下式实现:
,
,
S5-3、基于池化特征和/>,对变换矩阵/>和/>进行估计:
,
,
其中,*表示卷积运算,表示大小为/>的卷积核,/>表示大小为/>的卷积核,rearrange表示调整矩阵形状的重塑形操作;
S5-4、采用双线性注意变换分别从全局上下文特征和局部上下文特征/>中获取全局感知交互特征/>和局部感知交互特征/>:
,
,
其中,为矩阵乘积运算;
S5-5、将全局感知交互特征和局部感知交互特征/>相结合,学习具有尺度无关性和背景无关信息的鲁棒性和判别性表征/>:
,其中,/>表示两个矩阵的逐元素相加运算。
10.一种基于尺度交互蒸馏网络的薄壳山核桃果形识别系统,其特征在于:包括处理器和存储器,所述存储器中存储计算机程序,计算机程序在处理器中运行时,执行权利要求1-9任一项所述的基于尺度交互蒸馏网络的薄壳山核桃果形识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410325585.8A CN117953383B (zh) | 2024-03-21 | 2024-03-21 | 基于尺度交互蒸馏网络的薄壳山核桃果形识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410325585.8A CN117953383B (zh) | 2024-03-21 | 2024-03-21 | 基于尺度交互蒸馏网络的薄壳山核桃果形识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117953383A true CN117953383A (zh) | 2024-04-30 |
CN117953383B CN117953383B (zh) | 2024-06-04 |
Family
ID=90801686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410325585.8A Active CN117953383B (zh) | 2024-03-21 | 2024-03-21 | 基于尺度交互蒸馏网络的薄壳山核桃果形识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117953383B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449680A (zh) * | 2021-07-15 | 2021-09-28 | 北京理工大学 | 一种基于知识蒸馏的多模小目标检测方法 |
CN114299559A (zh) * | 2021-12-27 | 2022-04-08 | 杭州电子科技大学 | 基于轻量级融合全局与局部特征网络的指静脉识别方法 |
CN114463812A (zh) * | 2022-01-18 | 2022-05-10 | 赣南师范大学 | 基于双通道多分支融合特征蒸馏的低分辨率人脸识别方法 |
WO2023091428A1 (en) * | 2021-11-16 | 2023-05-25 | Qualcomm Incorporated | Trust-region aware neural network architecture search for knowledge distillation |
CN116363423A (zh) * | 2023-03-24 | 2023-06-30 | 南京大学 | 面向小样本学习的知识蒸馏方法、装置及存储介质 |
CN116740344A (zh) * | 2023-05-23 | 2023-09-12 | 中国地质大学(武汉) | 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 |
-
2024
- 2024-03-21 CN CN202410325585.8A patent/CN117953383B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113449680A (zh) * | 2021-07-15 | 2021-09-28 | 北京理工大学 | 一种基于知识蒸馏的多模小目标检测方法 |
WO2023091428A1 (en) * | 2021-11-16 | 2023-05-25 | Qualcomm Incorporated | Trust-region aware neural network architecture search for knowledge distillation |
CN114299559A (zh) * | 2021-12-27 | 2022-04-08 | 杭州电子科技大学 | 基于轻量级融合全局与局部特征网络的指静脉识别方法 |
CN114463812A (zh) * | 2022-01-18 | 2022-05-10 | 赣南师范大学 | 基于双通道多分支融合特征蒸馏的低分辨率人脸识别方法 |
CN116363423A (zh) * | 2023-03-24 | 2023-06-30 | 南京大学 | 面向小样本学习的知识蒸馏方法、装置及存储介质 |
CN116740344A (zh) * | 2023-05-23 | 2023-09-12 | 中国地质大学(武汉) | 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117953383B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929649B2 (en) | Multi-pose face feature point detection method based on cascade regression | |
CN105518668B (zh) | 基于内容的图像检索 | |
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
CN104680127A (zh) | 手势识别方法及系统 | |
Xia et al. | Loop closure detection for visual SLAM using PCANet features | |
Zhang et al. | Study on traffic sign recognition by optimized Lenet-5 algorithm | |
CN107633065B (zh) | 一种基于手绘草图的识别方法 | |
CN111738344A (zh) | 一种基于多尺度融合的快速目标检测方法 | |
CN104850822B (zh) | 基于多特征融合的简单背景下的叶片识别方法 | |
CN105046714A (zh) | 一种非监督的基于超像素和目标发现机制的图像分割方法 | |
Fu et al. | Robust multi-kernelized correlators for UAV tracking with adaptive context analysis and dynamic weighted filters | |
Jing et al. | ECFRNet: Effective corner feature representations network for image corner detection | |
Yörük et al. | An efficient Hough transform for multi-instance object recognition and pose estimation | |
Potje et al. | Extracting deformation-aware local features by learning to deform | |
CN114693923A (zh) | 一种基于上下文和注意力的三维点云语义分割方法 | |
CN107909049B (zh) | 基于最小二乘判别分析距离学习的行人重识别方法 | |
CN111144469B (zh) | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 | |
CN117953383B (zh) | 基于尺度交互蒸馏网络的薄壳山核桃果形识别方法及系统 | |
Wang et al. | A UAV to UAV tracking benchmark | |
CN111860068A (zh) | 一种基于跨层精简双线性网络的细粒度鸟类识别方法 | |
CN111951298B (zh) | 一种融合时间序列信息的目标跟踪方法 | |
Liang et al. | Random forest with suppressed leaves for Hough voting | |
CN108334884B (zh) | 一种基于机器学习的手写文档检索方法 | |
CN113011506A (zh) | 一种基于深度重分形频谱网络的纹理图像分类方法 | |
CN107491761B (zh) | 一种基于深度学习特征和点到集合距离度量学习的目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |