CN112464959B - 基于注意力和多重知识迁移的植物表型检测系统及其方法 - Google Patents

基于注意力和多重知识迁移的植物表型检测系统及其方法 Download PDF

Info

Publication number
CN112464959B
CN112464959B CN202011464613.2A CN202011464613A CN112464959B CN 112464959 B CN112464959 B CN 112464959B CN 202011464613 A CN202011464613 A CN 202011464613A CN 112464959 B CN112464959 B CN 112464959B
Authority
CN
China
Prior art keywords
module
convolution
model
target detection
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011464613.2A
Other languages
English (en)
Other versions
CN112464959A (zh
Inventor
杨春勇
刘宇航
倪文军
舒振宇
侯金
周城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South Central Minzu University
Original Assignee
South Central University for Nationalities
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South Central University for Nationalities filed Critical South Central University for Nationalities
Priority to CN202011464613.2A priority Critical patent/CN112464959B/zh
Publication of CN112464959A publication Critical patent/CN112464959A/zh
Application granted granted Critical
Publication of CN112464959B publication Critical patent/CN112464959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力和多重知识迁移的植物表型检测系统及其方法,涉及植物表型智能识别领域。本系统包括依次连通的工业相机(10)、服务器(20)和嵌入式设备(30);服务器(20)内嵌有依次交互的数据集制作模块(21)、教师目标检测模型(22)和学生目标检测模型(23);嵌入式设备(30)内嵌有依次交互的实时采集模块(31)、最终模型(32)和输出模块(33)。本发明改进了混合域注意力模块和相应的注意力损失函数;设计了特征融合模块和相应的特征融合层知识迁移损失函;提出了基于多重损失的知识迁移训练方法;实现了对自然环境下植物表型的实时检测,可适用于植物表型学研究,具有广阔的前景。

Description

基于注意力和多重知识迁移的植物表型检测系统及其方法
技术领域
本发明涉及植物表型智能识别领域,尤其涉及一种基于注意力和多重知识迁移的植物表型检测系统及其方法。
背景技术
针对植物表型的研究,不仅可以为作物育种、栽培和农业生产提供理论基础和技术手段,还有助于农业生产的精准化和可持续发展。传统的植物表型研究主要依靠人工观察和测量得到植物外部物理性的描述,这种方法往往依赖于从小样本植物中手动检测个别性状,因此能够得到的数据量非常有限,效率非常低。
目前,大多数植物表型数据以图像数据为主,因此借助深度学习在特征提取上的优势,实现了对植物表型的鉴别,尤其是基于深度学习的目标检测算法在对自然环境下的植物表型进行检测时体现出了较之传统研究有着更高精度和稳定性的优势。如Baweja等人在Field and Service Robotics2018:271-284发表的论文“StalkNet:A deep learningpipeline for high-throughput measurement of plant stalk count and stalkwidth”使用配备高分辨率立体成像仪的地面机器人来捕获高粱植物实验地块的密集图像数据,通过快速的区域卷积神经网络(Faster-Regions with CNN Features,Faster-RCNN)构建了茎杆数和茎宽的测量算法,该方法算法准确度较高,但检测速度明显慢于单阶段目标检测算法;Sarker和Kim在electronic bulletin board online2019-06-05上发表论文“Farm land weed detection with region-based deep convolutional neuralnetworks”提出了一种基于区域的全卷积网络,实现了对于田间复杂环境下的杂草识别,尽管实际测试中表现出较高的杂草识别准确率,但仍有很大的上升空间。上述相关的方法在特征提取上较前人的特征提取方法取得了相对领先的优势,但是在面对复杂背景下的植物表型检测时往往很难兼顾准确性与实时性,而农业生产中对于准确率和实时性的要求不可忽视。
发明内容
本发明的目的就在于克服现有技术存在的缺点和不足,提供一种基于注意力和多重知识迁移的植物表型检测系统及其方法,提高目标检测算法在自然背景下对植物表型识别准确性,加快识别速度。
为实现上述目的,本发明的技术方案为:
一、基于注意力和多重知识迁移的植物表型检测系统(简称系统)
本系统包括依次连通的工业相机10、服务器20和嵌入式设备30;
服务器20内嵌有依次交互的数据集制作模块21、教师目标检测模型22和学生目标检测模型23;
嵌入式设备30内嵌有依次交互的实时采集模块31、最终模型32和输出模块33。
二、基于注意力和多重知识迁移的植物表型检测方法(简称方法)
见具体实施方式。
与现有技术相比,本发明具有下列优点和积极效果:
1、改进了混合域注意力模块和相应的注意力损失函数
本发明将点卷积融入并行的通道注意力模块与空间注意力模块,通过点卷积实现跨通道的信息整合;通道域注意力模块由最大池化层、平均池化层和共享的点卷积层组成,空间域注意力模块由多个卷积核组成,用于强化输入的植物表型图像空间与通道信息的关键特征,加强主干网络在面对自然环境下的植物表型图像时对前景的各类植物和背景的区分能力;根据改进后的混合域注意力模块,设计了符合本网络模型的注意力损失函数,实现了注意力迁移;
2、设计了特征融合模块和相应的特征融合层知识迁移损失函数
本发明通过大小不同的池化核来提取目标植物尺度大小的信息,通过点卷积来控制通道信息,最后进行通道融合,实现特征融合模块;同时分别在教师模型与学生模型检测头部网络前添加不同数量的特征融合模块,实现局部特征和全局特征相融合,有利于应对自然背景中植物表型目标大小不一的情况;针对自然环境下植物表型目标通常尺度较大的特殊性,分别抽取教师模型和学生模型第一个特征融合模块后的卷积层,通过平滑L1损失来衡量教师模型与学生模型在特征融合后的距离,弥补学生模型对目标尺度信息的缺失;
3、提出了基于多重损失的知识迁移训练方法:基于注意力损失,特征融合层损失、分类损失以及回归损失对学生模型进行多分辨率输入训练,教师模型通过知识迁移,提高学生模型的识别准确率,多分辨率输入训练,用于提高模型的泛化能力,保持高识别准确率的同时,大幅度降低了最终模型的复杂度,提高了检测速度。
4、实现了对自然环境下植物表型的实时检测,可适用于植物表型学研究,具有广阔的前景。
附图说明
图1是本系统的结构方框图,图中:
10—工业相机;
20—服务器,
21—数据集制作模块,
22—教师目标检测模型,
23—学生目标检测模型;
30—嵌入式设备,
31—实时采集模块,
32—最终模型,
33—输出模块。
图2是教师目标检测模型22的结构方框图,图中:
22A—教师模型特征提取主干模块,
22A0—输入,
22A1—1个卷积残差模块,
22A2—2个卷积残差模块,
22A4—4个卷积残差模块,
22A8—8个卷积残差模块,
22A5—第1混合域注意力模块;
22A6—第2混合域注意力模块;
22A7—第3混合域注意力模块;
22B—教师模型特征融合颈部模块,
22B1—第1特征融合模块,
22B2—第2特征融合模块,
22B3—第3特征融合模块;
22C—教师模型目标检测头部模块,
22C1—第1卷积模块,
22C2—第1输出,
22C3—第1通道融合,
22C4—第2通道融合,
22C5—第2卷积模块,
22C6—第2输出,
22C7—第3卷积模块,
22C8—第3输出。
图3是学生目标检测模型23的结构方框图,图中:
23A—学生模型特征提取主干模块,
23A0—输入,
23A1—3个3*3卷积池化模块,
23A2—第4卷积模块,
23A3—第1池化模块,
23A4—第5卷积模块,
23A5—第2池化模块,
23A6—2个深度可分离卷积,
23A7—混合域注意力模块,
23B—特征融合模块,
23C—学生模型目标检测头部模块,
23C1—第4通道融合,
23C2—第6卷积模块,
23C3—第4输出,
23C4—第5通道融合,
23C5—第7卷积模块,
23C6—第5输出,
23C7—第8卷积模块,
23C8—第6输出。
图4是混合域注意模块23A7的结构方框图,图中:
23A70—第一1*1卷积模块,
23A71—最大池化层,
23A72—平均池化层,
23A73—2个1*1卷积,
23A74—第二1*1卷积模块,
23A75—2个3*3卷积模块,
23A76—第三1*1卷积模块,
23A77—激活,
23A78—第四1*1卷积模块。
图5是特征融合模块23B的结构方框图,图中:
23B0—输入特征图,
23B1—第1最大池化层,
23B2—第2最大池化层,
23B3—第3最大池化层,
23B4—第4最大池化层,
23B5—第1点卷积,
23B6—第2点卷积,
23B7—第3点卷积,
23B8—第4点卷积,
23B9—通道融合模块。
图6是教师模型与学生模型数据对比图。
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图和实施例详细说明:
一、系统
1、总体
如图1,本系统包括依次连通的工业相机10、服务器20和嵌入式设备30;
服务器20内嵌有依次交互的数据集制作模块21、教师目标检测模型22和学生目标检测模型23;
嵌入式设备30内嵌有依次交互的实时采集模块31、最终模型32和输出模块33。
其工作机理是:
工业相机10采集自然环境下植物表型原始图像,并将数据导入服务器20中,服务器20中的数据集制作模块21将对图像数据进行预处理及标注,形成训练样本集,然后将训练样本集导入教师目标检测模型22进行模型训练,得到教师模型最佳权重,并将该权重导入学生目标检测模型23中进行学生模型知识迁移训练,并保存最佳模型权重文件,最后将最终模型导入嵌入式设备30中,实时采集模块31进行实时的数据采集,通过最终模型32和输出模块33实现自然环境下植物表型的高效识别。
2、功能部件
1)工业相机10
工业相机10是一种常用的功能部件,如选用MV-EM120M/C;
其功能是采集自然环境下植物表型图像数据。
2)服务器20
服务器20选用配置好深度学习开发环境的计算机,具体为:Ubuntu16.04操作系统、CUDA10.1、深度学习框架pytorch、CPU为IntelXenoE5、GPU为NVIDIA TitanX;
内嵌有依次交互的数据集制作模块21、教师目标检测模型22和学生目标检测模型23;
(1)数据集制作模块21
数据集制作模块21采用LabelImg数据标注软件进行数据标注。
(2)教师目标检测模型22
如图2,教师目标检测模型22包括依次连通的教师模型特征提取主干模块22A、教师模型特征融合颈部模块22B和教师模型目标检测头部模块22C;
教师目标检测模型22功能是对标注好的数据进行模型训练,得到最佳模型权重文件;
教师模型特征提取主干模块22A包括依次交互的输入22A0、1个卷积残差模块22A1、2个卷积残差模块22A2、8个卷积残差模块22A8、第1混合域注意力模块22A5、8个卷积残差模块22A8、第2混合域注意力模块22A6、4个卷积残差模块22A4和第3混合域注意力模块22A7;其中卷积残差模块由通用的3*3卷积层和1*1卷积层跳连组成,其功能是将浅层网络提取的信息引入深层网络,解决深度神经网络的退化问题;第1混合域注意力模块22A5、第2混合域注意力模块22A6和第3混合域注意力模块22A7结构和功能同混合域注意力模块23A7一致;
教师模型特征提取主干模块22A的功能是对输入植物表型图像进行特征提取;
教师模型特征融合颈部模块22B包括第1特征融合模块22B1、第2特征融合模块22B2和第3特征融合模块22B3,其结构和功能同特征融合模块23B一致;
特征融合颈部模块22B的功能是提取目标尺度不一的信息,实现特征融合,丰富特征图表达能力;
教师模型目标检测头部模块22C包括第1卷积模块22C1、第1输出22C2、第1通道融合22C3、第2通道融合22C4、第2卷积模块22C5、第2输出22C6、第3卷积模块22C7、第3输出22C8;其中第1卷积模块22C1、第2卷积模块22C5和第3卷积模块22C7为通用的3*3卷积层,第1通道融合22C3和第2通道融合22C4用于实现多个输入通道信息的叠加;
教师模型目标检测头部模块22C的功能是针对三个不同尺度大小的预测图进行输出。
其交互关系是:
第1混合域注意力模块22A5、第1特征融合模块22B1、第1通道融合22C3、第1卷积模块22C1和第1输出22C2依次交互,第2混合域注意力模块22A6、第2特征融合模块22B2、第2通道融合22C4、第2卷积模块22C5和第2输出22C6依次交互,第3混合域注意力模块22A7、第3特征融合模块22B3、第3卷积模块22C7和第3输出22C8依次交互,第3卷积模块22C7和第2通道融合22C4前后交互,第2卷积模块22C5和第1通道融合22C3前后交互。
(3)学生目标检测模型23
如图3,学生目标检测模型23包括学生模型特征提取主干模块23A、特征融合模块23B和学生模型目标检测头部模块23C;
学生目标检测模型23的功能是在教师目标检测模型22监督下对标注好的数据进行模型训练,得到最佳权重模型文件。
如图3,学生模型特征提取主干模块23A包括依次交互的输入23A0、3个3*3卷积池化模块23A1、第4卷积模块23A2、第1池化模块23A3、第5卷积模块23A4、第2池化模块23A5、2个深度可分离卷积23A6、混合域注意力模块23A7;其中3个3*3卷积池化模块23A1由通用的3*3卷积层和最大池化层构成;第4卷积模块23A2和第5卷积模块23A4由通用的3*3卷积层构成;第1池化模块23A3和第2池化模块23A5由通用的最大池化层组成;2个深度可分离卷积23A6由通用的深卷积和点卷积构成,其功能是用于降低网络计算复杂度;
学生模型特征提取主干模块23A的功能是对输入图像进行特征提取。
如图3,学生模型目标检测头部模块23C包括第4通道融合23C1、第6卷积模块23C2、第4输出23C3、第5通道融合23C4、第7卷积模块23C5、第5输出23C6、第8卷积模块23C7和第6输出23C8;其中第6卷积模块23C2和第7卷积模块23C5由通用的3*3卷积层组成;第4通道融合23C1和第5通道融合23C4用于实现多个输入通道信息的叠加;
其交互关系是:
第4卷积模块23A2、第4通道融合23C1、第6卷积模块23C2和第4输出23C3依次交互,
第5卷积模块23A4、第5通道融合23C4、第7卷积模块23C5、第5输出23C6依次交互,
混合域注意力模块23A7、特征融合模块23B、第8卷积模块23C7和第6输出23C8依次交互,
第8卷积模块23C7和第5通道融合23C4前后交互,
第7卷积模块23C5和第4通道融合23C1前后交互。
学生模型目标检测头部模块23C的功能是针对三个不同尺度大小的预测图进行输出。
如图5,所述的特征融合模块23B包括输入特征图23B0、第1最大池化层23B1、第2最大池化层23B2、第3最大池化层23B3、第4最大池化层23B4、第1点卷积23B5、第2点卷积23B6、第3点卷积23B7、第4点卷积23B8、通道融合模块23B9;
其交互关系是:
输入特征图23B0、第1最大池化层23B1、第1点卷积23B5和通道融合模块23B9依次交互,
输入特征图23B0、第2最大池化层23B2、第2点卷积23B6和通道融合模块23B9依次交互,
输入特征图23B0、第3最大池化层23B3、第3点卷积23B7和通道融合模块23B9依次交互,
输入特征图23B0、第4最大池化层23B4、第4点卷积23B8和通道融合模块23B9依次交互,
输入特征图23B0和通道融合模块23B9前后交互。
特征融合模块23B的功能是针对自然环境下植物表型目标通常尺度较大的特殊性对特征图进行特征融合。
如图4,所述的混合域注意力模块23A7包括第一1*1卷积模块23A70、最大池化层23A71、平均池化层23A72、2个1*1卷积23A73、第二1*1卷积模块23A74、2个3*3卷积模块23A75、第三1*1卷积模块23A76、激活23A77和第四1*1卷积模块23A78;
其交互关系是:
第一1*1卷积模块23A70分别与最大池化层23A71和平均池化层23A72交互,最大池化层23A71和平均池化层23A72分别与2个1*1卷积23A73交互,
第一1*1卷积模块23A70、第二1*1卷积模块23A74、2个3*3卷积模块23A75和第三1*1卷积模块23A76依次交互,
2个1*1卷积23A73和第三1*1卷积模块23A76相加后和激活23A77交互,激活23A77和第四1*1卷积模块23A78交互。
混合域注意力模块23A7的功能是强化输入植物表型图像的空间与通道信息的关键特征,加强主干网络在面对自然环境下植物表型图像时对前景目标和背景的区分能力。
3)嵌入式设备30
如图1,嵌入式设备30一种常用的功能部件,如选用Nvidia TX2嵌入式开发板;内嵌有依次交互的实时采集模块31、最终模型32和输出模块33。
(1)实时采集模块31
实时采集模块31包括一款常用的摄像头,其功能是进行自然环境的植物表型图像或视频的实时采集;
(2)最终模型32
最终模型32包括训练好的学生目标检测模型,其功能是对实时采集的图像或视频数据进行检测;
(3)输出模块33
输出模块33包括一块能清晰显示的屏幕,其功能是输出并显示最终模型32的检测结果。
二、方法
本方法包括以下步骤:
①通过工业相机10采集自然环境下植物表型原始图像数据,并通过服务器20中数据集制作模块21依据植物表型学知识对原始图像数据进行严格的数据标注,形成训练数据集;
②采用多分辨输入,输入图像分辨率区间为[416,800],确保每次输入分辨率为32的倍数,对教师目标检测模型22进行训练,并保存最佳模型权重文件;
③分别基于注意力损失、特征融和层损失、分类损失和回归损失对学生目标检测模型23进行知识迁移,损失函数为:
L=Lat+Lff+Lcls+Lres
其中注意力损失Lat用于将教师目标检测模型22提取的注意力知识迁移至学生目标检测模型23,具体采用:
上式中Lat为平滑L1损失,ρ为注意力超参数,用于调节注意力迁移权重,F()是注意力知识映射函数,实现对三维注意力知识到二维的转化,Ai为融合了点卷积的混合域注意力特征知识,具体为:
Ai(ai)=ai+ai*σ(C(ai)+S(ai))
其中
C(ai)=BN(MLP(avgpool(ai))+MLP(maxpool(ai)))
S(ai)=BN(conv(ai))
上式中C(ai)为通道注意力知识,S(ai)为空间注意力知识,BN为批标准化,用于加速网络收敛,防止过拟合,MLP为两个1*1卷积,用来进行信息的提取,avgpool与maxpool分别为平均池化和最大池化,conv为多层卷积;
其中特征融合层损失Lff用于将教师目标检测模型22提取的中间层知识迁移至学生目标检测模型23,具体采用:
上式中Lff为平滑L1损失,λ为特征融合层知识迁移超参数,uhs,vht分别为教师模型与学生模型的中间层嵌套函数,中间层为第一个特征融合模块后的卷积层,其中参数分别为Ws,Wt,且保证教师模型与学生目标检测模型23抽取的中间层输出在空间大小和通道数上保持一致;通过平滑L1损失来衡量教师目标检测模型22与学生目标检测模型23在特征融合后的距离,弥补学生目标检测模型23本身所缺失的信息;
其中分类损失Lcls用于将教师目标检测模型22提取的类间相似度信息迁移至学生目标检测模型23,具体采用:
Lcls=×αLhard+βLsoft
上式中 cj为第j类groundtruth值,ω0为类加权交叉熵中超参数,αβ分别为硬目标与软目标中的超参数,/>为教师目标检测模型22在温度=T下的softmax输出在第j类上的值,/>为学生目标检测模型23在温度=T下的softmax输出在第j类上的值;
其中回归损失Lres用于通过教师目标检测模型22来监督学生目标检测模型23进行正确的边界框回归,具体采用:
Lres=LsL1(Rs,yreg)+γLsL1(Rs,Rt,yreg)
上式中LsL1()为平滑L1损失,Rs为学生网络的回归输出,Rt为教师网络的回归输出,yreg为回归的ground truth标签,其中当学生目标检测模型23回归效果优于教师目标检测模型22且达到m的余量时,则取消教师的监督;
最后采用马赛克数据增强,将四张植物表型图像随机拼成一张,用于提升自然背景的复杂程度,并基于注意力损失Lat,特征融合层损失Lff、分类损失Lcls以及回归损失Lres对学生目标检测模型23进行多分辨率输入训练,得到最终模型;
④将最终模型导入嵌入式设备30中,实时采集模块31将进行照片或视频的实时采集,通过最终模型32实现对自然环境下植物表型高效的目标检测,输出模块33将检测结果输出。
三、实施例
本发明实施例中需配置深度学习开发环境,具体为:Ubuntu16.04操作系统、CUDA10.1、深度学习框架pytorch、CPU为IntelXenoE5、GPU为NVIDIA TitanX、Nvidia TX2嵌入式开发板;
步骤1:本实施例中,原始植物表型图像数据来自Plant Pathology 2020-FGVC7,下载好数据集后,根据植物表型学中的知识,使用LabelImg软件严格按照PASCAL VOC2007进行严格的数据标注,并生成相应的xml以及txt文件,并按照8:1:1的比例划分训练集,验证集和测试集;
步骤2:按照图2构建好教师目标检测模型22,然后采用马赛克数据增强并进行多分辨输入训练,具体包括:
1)在训练集上用K-Means算法聚类出9个anchorbox,并添加至相应的cfg配置文件中;
2)设置初始超参数:训练集batchsize设置为16,subdivision设置为4,epoch设置为550;采用steps学习率调整策略,初始学习率为0.01,steps值为109200和145600,scale值为0.1;输入分辨率范围为[416,800],确保每次输入分辨率为32的倍数;
3)多次训练模型,根据模型的性能指标变化,动态调整超参数,并保存性能指标最好时的模型参数;
步骤3:按照图3构建好学生目标检测模型23,然后基于多重知识迁移进行多分辨输入训练,具体包括:
1)设置初始超参数:分类损失中超参数α设为0.65,β设为0.35,T设为3,注意力损失超参数ρ设为0.5,回归损失中超参数λ设为0.5,训练集batchsize设置为16,subdivision设置为4,epoch设置为550;采用steps学习率调整策略,初始学习率为0.01,steps值为109200和145600,scale值为0.1;输入分辨率范围为[416,800],确保每次输入分辨率为32的倍数;
2)多次训练模型,根据模型的性能指标变化,动态调整各超参数,并保存性能指标最好时的模型参数;
步骤4:将最终模型导入Nvidia TX2嵌入式开发板中,实时采集模块31将进行照片或视频的实时采集,通过最终模型32实现对自然环境下植物表型高效的目标检测,输出模块33将检测结果输出。
四、检测结果
图5给出了本发明方法模型相关数据,使用方法,准确度损失少于1%,模型大小约为原来的0.22倍,参数量约为原来的0.2倍,前向推断耗时约为原来的0.5倍,由此可见,本发明在面对自然环境下植物表型的目标检测时,能保持高识别准确率,同时大幅度降低了模型复杂度,提升了推理速度。

Claims (4)

1.一种基于注意力和多重知识迁移的植物表型检测系统,其特征在于:
包括依次连通的工业相机(10)、服务器(20)和嵌入式设备(30);
服务器(20)内嵌有依次交互的数据集制作模块(21)、教师目标检测模型(22)和学生目标检测模型(23);
嵌入式设备(30)内嵌有依次交互的实时采集模块(31)、最终模型(32)和输出模块(33);
植物表型检测方法括以下步骤:
①通过工业相机(10)采集自然环境下植物表型原始图像数据,并通过服务器20中数据集制作模块(21)依据植物表型学知识对原始图像数据进行严格的数据标注,形成训练数据集;
②采用多分辨输入,输入图像分辨率区间为[416,800],确保每次输入分辨率为32的倍数,对教师目标检测模型(22)进行训练,并保存最佳模型权重文件;
③分别基于注意力损失、特征融和层损失、分类损失和回归损失对学生目标检测模型(23)进行知识迁移,损失函数为:
L=Lat+Lff+Lcls+Lres
其中注意力损失Lat用于将教师目标检测模型(22)提取的注意力知识迁移至学生目标检测模型(23),具体采用:
上式中Lat为平滑L1损失,ρ为注意力超参数,用于调节注意力迁移权重,F()是注意力知识映射函数,实现对三维注意力知识到二维的转化,A为融合了点卷积的混合域注意力特征知识,具体为:
Ai(ai)=ai+ai*σ(C(ai)+S(ai))
其中
C(ai)=BN(MLP(avgpool(ai))+MLP(maxpool(ai)))
S(ai)=BN(conv(ai))
上式中C(ai)为通道注意力知识,S(ai)为空间注意力知识,BN为批标准化,用于加速网络收敛,防止过拟合,MLP为两个1*1卷积,用来进行信息的提取,avgpool与maxpool分别为平均池化和最大池化,conv为多层卷积;
其中特征融合层损失Lff用于将教师目标检测模型22提取的中间层知识迁移至学生目标检测模型(23),具体采用:
上式中Lff为平滑L1损失,λ为特征融合层知识迁移超参数,uhs,vht分别为教师模型与学生模型的中间层嵌套函数,中间层为第一个特征融合模块后的卷积层,其中参数分别为Ws,Wt,且保证教师模型与学生目标检测模型(23)抽取的中间层输出在空间大小和通道数上保持一致;通过平滑L1损失来衡量教师目标检测模型(22)与学生目标检测模型(23)在特征融合后的距离,弥补学生目标检测模型(23)本身所缺失的信息;
其中分类损失Lcls用于将教师目标检测模型22提取的类间相似度信息迁移至学生目标检测模型(23),具体采用:
Lcls=αLhard+βLsoft
上式中cj为第j类ground truth值,ω0为类加权交叉熵中超参数,α、β分别为硬目标与软目标中的超参数,/>为教师目标检测模型(22)在温度=T下的softmax输出在第j类上的值,/>为学生目标检测模型(23)在温度=T下的softmax输出在第j类上的值;
其中回归损失Lres用于通过教师目标检测模型(22)来监督学生目标检测模型(23)进行正确的边界框回归,具体采用:
Lres=LsL1(Rs,yreg)+γLsL1(Rs,Rt,yreg)
上式中LsL1()为平滑L1损失,Rs为学生网络的回归输出,Rt为教师网络的回归输出,yreg为回归的ground truth标签,其中当学生目标检测模型23回归效果优于教师目标检测模型(22且)达到m的余量时,则取消教师的监督;
最后采用马赛克数据增强,将四张植物表型图像随机拼成一张,用于提升自然背景的复杂程度,并基于注意力损失Lat,特征融合层损失Lff、分类损失Lcls以及回归损失Lres对学生目标检测模型(23)进行多分辨率输入训练,得到最终模型;
④将最终模型导入嵌入式设备(30)中,实时采集模块(31)将进行照片或视频的实时采集,通过最终模型(32)实现对自然环境下植物表型高效的目标检测,输出模块(33)将检测结果输出。
2.按权利要求1所述的植物表型检测系统,其特征在于:
所述的数据集制作模块(21)采用LabelImg数据标注软件进行数据标注。
3.按权利要求1所述的植物表型检测系统,其特征在于:
所述的教师目标检测模型(22)包括依次连通的教师模型特征提取主干模块(22A)、教师模型特征融合颈部模块(22B)和教师模型目标检测头部模块(22C);
教师模型特征提取主干模块(22A)包括依次交互的输入(22A0)、1个卷积残差模块(22A1)、2个卷积残差模块(22A2)、8个卷积残差模块(22A8)、第1混合域注意力模块(22A5)、8个卷积残差模块(22A8)、第2混合域注意力模块(22A6)、4个卷积残差模块(22A4)和第3混合域注意力模块(22A7);
教师模型特征融合颈部模块(22B)包括第1特征融合模块(22B1)、第2特征融合模块(22B2)和第3特征融合模块(22B3);
教师模型目标检测头部模块(22C)包括第1卷积模块(22C1)、第1输出(22C2)、第1通道融合(22C3)、第2通道融合(22C4)、第2卷积模块(22C5)、第2输出(22C6)、第3卷积模块(22C7)、第3输出(22C8);
其交互关系是:
第1混合域注意力模块(22A5)、第1特征融合模块(22B1)、第1通道融合(22C3)、第1卷积模块(22C1)和第1输出(22C2)依次交互,第2混合域注意力模块(22A6)、第2特征融合模块(22B2)、第2通道融合(22C4)、第2卷积模块(22C5)和第2输出(22C6)依次交互,第3混合域注意力模块(22A7)、第3特征融合模块(22B3)、第3卷积模块(22C7)和第3输出(22C8)依次交互,第3卷积模块(22C7)和第2通道融合(22C4)前后交互,第2卷积模块(22C5)和第1通道融合(22C3)前后交互。
4.按权利要求1所述的植物表型检测系统,其特征在于:
所述的学生目标检测模型(23)包括学生模型特征提取主干模块(23A)、特征融合模块(23B)和学生模型目标检测头部模块(23C);
学生模型特征提取主干模块(23A)包括依次交互的输入(23A0)、3个3*3卷积池化模块(23A1)、第4卷积模块(23A2)、第1池化模块(23A3)、第5卷积模块(23A4)、第2池化模块(23A5)、2个深度可分离卷积(23A6)和混合域注意力模块(23A7);
学生模型目标检测头部模块(23C)包括第4通道融合(23C1)、第6卷积模块(23C2)、第4输出(23C3)、第5通道融合(23C4)、第7卷积模块(23C5)、第5输出(23C6)、第8卷积模块(23C7)和第6输出(23C8);
其交互关系是:
第4卷积模块(23A2)、第4通道融合(23C1)、第6卷积模块(23C2)和第4输出(23C3)依次交互,
第5卷积模块(23A4)、第5通道融合(23C4)、第7卷积模块(23C5)和第5输出(23C6)依次交互,
混合域注意力模块(23A7)、特征融合模块(23B)、第8卷积模块(23C7)和第6输出(23C8)依次交互,
第8卷积模块(23C7)和第5通道融合(23C4)前后交互,
第7卷积模块(23C5)和第4通道融合(23C1)前后交互;
所述的特征融合模块(23B)包括输入特征图(23B0)、第1最大池化层(23B1)、第2最大池化层(23B2)、第3最大池化层(23B3)、第4最大池化层(23B4)、第1点卷积(23B5)、第2点卷积(23B6)、第3点卷积(23B7)、第4点卷积(23B8)、通道融合模块(23B9);
其交互关系是:
输入特征图(23B0)、第1最大池化层(23B1)、第1点卷积(23B5)和通道融合模块(23B9)依次交互,
输入特征图(23B0)、第2最大池化层(23B2)、第2点卷积(23B6)和通道融合模块(23B9)依次交互,
输入特征图(23B0)、第3最大池化层(23B3)、第3点卷积(23B7)和通道融合模块(23B9)依次交互,
输入特征图(23B0)、第4最大池化层(23B4)、第4点卷积(23B8)和通道融合模块(23B9)依次交互,
输入特征图(23B0)和通道融合模块(23B9)前后交互;
所述的混合域注意力模块(23A7)包括第一1*1卷积模块(23A70)、最大池化层(23A71)、平均池化层(23A72)、2个1*1卷积(23A73)、第二1*1卷积模块(23A74)、2个3*3卷积模块(23A75)、第三1*1卷积模块(23A76)、激活(23A77)和第四1*1卷积模块(23A78);
其交互关系是:
第一1*1卷积模块(23A70)分别与最大池化层(23A71)和平均池化层(23A72)交互,最大池化层(23A71)和平均池化层(23A72)分别与2个1*1卷积(23A73)交互,
第一1*1卷积模块(23A70)、第二1*1卷积模块(23A74)、2个3*3卷积模块(23A75)和第三1*1卷积模块(23A76)依次交互,
2个1*1卷积(23A73)和第三1*1卷积模块(23A76)相加后和激活(23A77)交互,激活(23A77)和第四1*1卷积模块(23A78)交互;
混合域注意力模块(23A7)的功能是强化输入植物表型图像的空间与通道信息的关键特征,加强主干网络在面对自然环境下植物表型图像时对前景目标和背景的区分能力。
CN202011464613.2A 2020-12-12 2020-12-12 基于注意力和多重知识迁移的植物表型检测系统及其方法 Active CN112464959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011464613.2A CN112464959B (zh) 2020-12-12 2020-12-12 基于注意力和多重知识迁移的植物表型检测系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011464613.2A CN112464959B (zh) 2020-12-12 2020-12-12 基于注意力和多重知识迁移的植物表型检测系统及其方法

Publications (2)

Publication Number Publication Date
CN112464959A CN112464959A (zh) 2021-03-09
CN112464959B true CN112464959B (zh) 2023-12-19

Family

ID=74804079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011464613.2A Active CN112464959B (zh) 2020-12-12 2020-12-12 基于注意力和多重知识迁移的植物表型检测系统及其方法

Country Status (1)

Country Link
CN (1) CN112464959B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781551B (zh) * 2021-09-06 2023-10-31 中南民族大学 基于视觉感知的茶园植物状态监测管理系统及其方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111297A (zh) * 2019-03-15 2019-08-09 浙江大学 一种基于迁移学习的注塑制品表面图像缺陷识别方法
CN110188705A (zh) * 2019-06-02 2019-08-30 东北石油大学 一种适用于车载系统的远距离交通标志检测识别方法
CN111126599A (zh) * 2019-12-20 2020-05-08 复旦大学 一种基于迁移学习的神经网络权重初始化方法
CN111626330A (zh) * 2020-04-23 2020-09-04 南京邮电大学 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统
CN111681178A (zh) * 2020-05-22 2020-09-18 厦门大学 一种基于知识蒸馏的图像去雾方法
CN111767711A (zh) * 2020-09-02 2020-10-13 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111297A (zh) * 2019-03-15 2019-08-09 浙江大学 一种基于迁移学习的注塑制品表面图像缺陷识别方法
CN110188705A (zh) * 2019-06-02 2019-08-30 东北石油大学 一种适用于车载系统的远距离交通标志检测识别方法
CN111126599A (zh) * 2019-12-20 2020-05-08 复旦大学 一种基于迁移学习的神经网络权重初始化方法
CN111626330A (zh) * 2020-04-23 2020-09-04 南京邮电大学 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统
CN111681178A (zh) * 2020-05-22 2020-09-18 厦门大学 一种基于知识蒸馏的图像去雾方法
CN111767711A (zh) * 2020-09-02 2020-10-13 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台

Also Published As

Publication number Publication date
CN112464959A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
Sharma et al. Performance analysis of deep learning CNN models for disease detection in plants using image segmentation
Khan et al. Deep learning for apple diseases: classification and identification
Sabzi et al. Machine vision system for the automatic segmentation of plants under different lighting conditions
CN108288269A (zh) 基于无人机与卷积神经网络的桥梁支座病害自动识别方法
CN113469119B (zh) 基于视觉转换器和图卷积网络的宫颈细胞图像分类方法
Yan et al. Monocular depth estimation with guidance of surface normal map
CN115457006B (zh) 基于相似一致性自蒸馏的无人机巡检缺陷分类方法及装置
CN111882548A (zh) 基于深度学习的病理图像中细胞计数方法及装置
CN112464959B (zh) 基于注意力和多重知识迁移的植物表型检测系统及其方法
CN112861666A (zh) 一种基于深度学习的鸡群计数方法及应用
Tang et al. Pest-YOLO: Deep image mining and multi-feature fusion for real-time agriculture pest detection
CN111563458A (zh) 基于YOLOv3和OpenCV的目标检测与定位方法
Mirnezami et al. Detection of the progression of anthesis in field-grown maize tassels: a case study
Jenifa et al. Classification of cotton leaf disease using multi-support vector machine
Bonik et al. A convolutional neural network based potato leaf diseases detection using sequential model
Saraswat et al. Plant Disease Identification Using Plant Images
CN116403071B (zh) 基于特征重构的少样本混凝土缺陷检测方法及装置
CN116704241A (zh) 一种全通道3d卷积神经网络高光谱遥感图像分类方法
CN106951888B (zh) 人脸特征点的相对坐标约束方法以及定位方法
CN110084109A (zh) 一种低分辨率人脸图像识别方法、装置、电子设备及存储介质
Rao et al. Classification of land cover usage from satellite images using deep learning algorithms
CN103996044B (zh) 利用遥感图像提取目标的方法和装置
Lin et al. A Real-Time Counting Method of Fish based on the Instance Segmentation
Bhurtel et al. Deep learning based seed quality tester
CN112507770A (zh) 一种水稻病虫害识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant