CN114743023B - 一种基于RetinaNet模型的麦蜘蛛图像检测方法 - Google Patents
一种基于RetinaNet模型的麦蜘蛛图像检测方法 Download PDFInfo
- Publication number
- CN114743023B CN114743023B CN202210664056.1A CN202210664056A CN114743023B CN 114743023 B CN114743023 B CN 114743023B CN 202210664056 A CN202210664056 A CN 202210664056A CN 114743023 B CN114743023 B CN 114743023B
- Authority
- CN
- China
- Prior art keywords
- layer
- backbone network
- wheat
- characteristic
- wheat spider
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000209140 Triticum Species 0.000 title claims abstract description 108
- 235000021307 Triticum Nutrition 0.000 title claims abstract description 108
- 241000239290 Araneae Species 0.000 title claims abstract description 105
- 238000001514 detection method Methods 0.000 title claims abstract description 77
- 238000010586 diagram Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims description 33
- 230000004927 fusion Effects 0.000 claims description 17
- 230000000694 effects Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 9
- 101100481876 Danio rerio pbk gene Proteins 0.000 claims description 6
- 101100481878 Mus musculus Pbk gene Proteins 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 241000238631 Hexapoda Species 0.000 abstract description 2
- 241000607479 Yersinia pestis Species 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 206010047571 Visual impairment Diseases 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- -1 lthough Species 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于RetinaNet模型的麦蜘蛛图像检测方法,与现有技术相比解决了针对麦蜘蛛图像检测效率低、鲁棒性差的缺陷。本发明包括以下步骤:麦蜘蛛图像样本的获取和预处理;麦蜘蛛图像样本的扩充;麦蜘蛛图像检测模型的构建;麦蜘蛛图像检测模型的训练;待检测图像的获取;麦蜘蛛图像检测结果的获得。本发明将多头自注意力模块与残差网络融合,组成了一个新颖的并行骨干网络架构,利用高分辨率的特征图提取小目标的特征,基于交互特征图之间的上下文信息,通过重新设计更符合小目标的锚框,实现了更高效、更准确的麦蜘蛛虫害图像检测。
Description
技术领域
本发明涉及植保图像处理技术领域,具体来说是一种基于RetinaNet模型的麦蜘蛛图像检测方法。
背景技术
近些年,随着深度学习的发展,涌现出许多目标检测领域的研究。例如:早期的二阶段检测(Faster RCNN,Mask RCNN,Cascade RCNN等)和近年来发展迅速的单阶段检测(SSD, RetinaNet,YOLO)等方法。这些方法由于可以直接接收图片作为输入,将预测结果作为输出,成为近年来研究的热点。
然而,这些目标检测算法在检测较大目标时的表现较好,在目标较小时,难以保持优秀稳定的结果。这有两个主要的缺陷:1、为了追求检测的效率,减少了对于较小的目标检测的关注,使得小目标检测效果很差;2、手动设计的特征提取,并没有很好的鲁棒性,无法适用于麦蜘蛛,检测的精度较低。
因此,如何研发出一种针对于麦蜘蛛的图像检测方法已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中针对麦蜘蛛图像检测效率低、鲁棒性差的缺陷,提供一种基于RetinaNet模型的麦蜘蛛图像检测方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种基于RetinaNet模型的麦蜘蛛图像检测方法,包括以下步骤:
麦蜘蛛图像样本的获取和预处理:采集真实背景下麦田里麦蜘蛛的图片作为麦蜘蛛图片样本,并使用LabelImg对采集图片进行分类和坐标标注,作为预处理后的麦蜘蛛图像样本;
麦蜘蛛图像样本的扩充:使用随机平移、旋转、色彩转换和添加噪声操作对麦蜘蛛图像样本进行扩充;并随机选取图片,复制麦蜘蛛到图片中随机位置,生成新的图片和标注文件;最后将高分辨率图片样本进一步分割,一张图片分割成若干低分辨率的图片组成新的麦蜘蛛图像训练集;
麦蜘蛛图像检测模型的构建:基于RetinaNet模型构建麦蜘蛛图像检测模型;
麦蜘蛛图像检测模型的训练:将麦蜘蛛图像训练集输入麦蜘蛛图像检测模型进行训练;
待检测图像的获取:获取待检测的麦蜘蛛图像并进行预处理;
麦蜘蛛图像检测结果的获得:将预处理后的待检测麦蜘蛛图像输入训练后的麦蜘蛛图像检测模型,得到麦蜘蛛图像检测结果。
所述麦蜘蛛图像检测模型的构建包括以下步骤:
构建麦蜘蛛图像检测模型,麦蜘蛛图像检测模型包括RetinaNet模型的骨干网络、特征金字塔以及标签分配模块;
对RetinaNet模型的骨干网络重新进行设计,输入数据集图片,输出不同尺寸的骨干网络特征图;
对RetinaNet模型的特征金字塔进行重新设计,接收骨干网络输出的骨干网络特征图作为输入,融合上下文信息以及多尺度信息,输出金字塔特征图;
构建标签分配模块:将特征金字塔输出的所有金字塔特征图上的点生成的锚框按缩放比例映射到原图,计算所有锚框与真实标签的交并比,动态选取Topk个锚框作为正样本,每一个真实标签对应的交并比阈值以及k进行不断优化。
所述麦蜘蛛图像检测模型的训练包括以下步骤:
输入麦蜘蛛图像训练集,进行前向传播;
计算类别损失与回归损失,对参数进行优化,
其中,类别损失𝐹𝑜𝑐𝑎l𝐿𝑜𝑠𝑠和回归损失𝐿1𝐿𝑜𝑠𝑠分别采用如下公式:
其中,α,γ为超参数,𝑝为预测类别概率, 𝑦𝑡𝑟𝑢𝑒为真实标签;
其中,𝑦𝑡𝑟𝑢𝑒为真实标签,𝑦𝑝𝑟𝑒d𝑖𝑐𝑡𝑒d为模型预测值;
根据损失结果,反向传播,更新参数;
重复以上步骤,直到损失收敛,得到预测效果最好的权重。
所述对RetinaNet模型的骨干网络重新进行设计包括以下步骤
设定骨干网络为五层结构;
设定骨干网络的第一层,输入数据集图像,通过卷积池化操作得到尺度压缩的图像,作为骨干网络初始特征图;
设定骨干网络的第二层,对骨干网络初始特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复3次,最后一次进行下采样,输出第一层骨干网络特征图;
设定骨干网络的第三层,对第一层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复4次,最后一次进行下采样,输出第二层骨干网络特征图;
设定骨干网络的第四层,对第二层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复5次,最后一次进行下采样,输出第三层骨干网络特征图;
设定骨干网络的第五层,对第三层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复3次,输出第四层骨干网络特征图。
所述对RetinaNet模型的特征金字塔进行重新设计包括以下步骤:
将特征金字塔设计为六层结构:
设定特征金字塔的第一层,将骨干网络输出的第二层、第三层和第四层特征图通过双线性插值上采样放大分辨率,得到三个上采样特征图,分别为第二层上采样特征图、第三层上采样特征图和第四层上采样特征图;
其中,双线性插值的公式如下:
其中,𝑄11=(𝑥1,𝑦1)、𝑄21=(𝑥2,𝑦1)、 𝑄12=(𝑥1,𝑦2)、 𝑄22=(𝑥2,𝑦2)分别为左下、右下、左上、右上位置的坐标,𝑓(𝑄11)、 𝑓(𝑄21)、𝑓(𝑄12) 、𝑓(𝑄22)分别表示插入点的左下、右下、左上、右上位置的像素值,𝑓(𝑥,𝑦)为(𝑥,𝑦)位置新的像素值;
设定特征金字塔的第二层,将第二层上采样特征图与第一层骨干网络特征图、第三层上采样特征图与第二层骨干网络特征图、第四层上采样特征图与第三层骨干网络特征图进行拼接,融合语义信息,得到三个融合语义特征图;
设定特征金字塔的第三层,将骨干网络输出的第一层骨干网络特征图以及融合之后的融合语义特征图通过最大池化减小分辨率并融合处理,得到最大池化特征图;最大池化,采用以下公式:
其中,𝑘表示区域范围为𝑘×𝑘,𝑥𝑖𝑗表示区域𝑘内第𝑖行𝑗列个点的像素值,𝑦为区域𝑘内最大的像素值;
设定特征金字塔的第四层,将最大池化特征图与第四层骨干网络特征图进行融合位置特征处理,得到上下文融合特征图;其公式如下:
其中,𝑛为骨干网络传递特征图个数,𝑦p表示最大池化特征图,𝑦4表示第四层骨干网络特征图,𝑐𝑜𝑛𝑐𝑎𝑡表示按照通道进行拼接运算;
设定特征金字塔的第五层,使用不同尺寸的卷积提取上下文融合特征图的多尺度信息;
设定特征金字塔的第六层,按照通道拼接上下文融合特征图的多尺度信息得到最终的金字塔特征图,其中,卷积拼接采用如下公式:
其中,𝑛为输出金字塔特征图个数,𝑥l表示第l层金字塔特征图,∗表示卷积运算,𝑐𝑜𝑛𝑐𝑎𝑡表示拼接运算,𝑘l3和𝑘l5分别代表第l层特征图的3×3大小的卷积核和5×5大小的卷积核,𝑏l3和𝑏l5分别代表第l层特征图的3×3卷积的偏置和5×5卷积的偏置。
所述构建标签分配模块包括以下步骤:
计算特征金字塔的所有输出特征图上的锚框与真实标签的交并比,其中交并比采用如下公式:
其中,P代表模型预测的锚框,G代表真实标签;
定义一个k,其值等于所有IOU之和;
调整k值的上下限浮动为0-20;
选取第Topk个锚框与真实标签交并比的值作为阈值;
选取前k个交并比最大的锚框,作为正样本,剩余的作为负样本,共同参与损失的计算。
有益效果
本发明的一种基于RetinaNet模型的麦蜘蛛图像检测方法,与现有技术相比将多头自注意力模块与残差网络融合,组成了一个新颖的并行骨干网络架构,利用高分辨率的特征图提取小目标的特征,基于交互特征图之间的上下文信息,通过重新设计更符合小目标的锚框,实现了更高效、更准确的麦蜘蛛虫害图像检测。
本发明重新设计骨干网络,使提取的特征图更关注目标,解决背景的干扰问题;其次,更充分的利用骨干网络提取的分辨率更高的浅层特征图,很大程度上解决尺度压缩时的信息损失问题;且在特征金字塔网络中增加池化模块,将上层的回归信息传递给下层,并增加多尺度模块,解决特征融合的问题;最后,重新设计锚框生成方案,使锚框能够更匹配小的麦蜘蛛,增加检测的精度。
与现有技术相比,本发明具有如下优势:
1、检测速度快
本发明通过将高分辨率样本图片分割成若干边缘重叠的低分辨率图片,进一步的压缩空间尺寸,在空间信息损失极低的情况下增大了输入的图片特征。
2、检测性能高
本发明通过利用浅层高分辨率特征图与深层低分辨率特征图互补类别信息与回归信息,进行多尺度的特征融合,提高了模型对于麦蜘蛛的检测效果。
3、鲁棒性强
本发明通过重新设计锚框生成的尺寸,使更多的锚框与真实标签匹配,以及设计了一个新颖的结合自注意力与残差网络并行的骨干网络,减少了背景的影响,提升了优化效果,增加了检测精度,并且也同样适用于其他的小目标检测。
附图说明
图1为本发明的方法顺序图;
图2为本发明的骨干网络结构示意图;
图3为本发明的多尺度上下文特征金字塔预测结构示意图;
图4a、图4b、图4c和图4d为本发明对麦蜘蛛图像进行检测的检测效果示意图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种基于RetinaNet模型的麦蜘蛛图像检测方法,包括以下步骤:
第一步,麦蜘蛛图像样本的获取和预处理:采集真实背景下麦田里麦蜘蛛的图片作为麦蜘蛛图片样本,并对采集图片进行分类和坐标标注,作为预处理后的麦蜘蛛图像样本。
第二步,麦蜘蛛图像样本的扩充:使用随机平移、旋转、色彩转换和添加噪声操作对麦蜘蛛图像样本进行扩充;并随机选取图片,复制麦蜘蛛到图片中随机位置,生成新的图片和标注文件;最后将高分辨率图片样本进一步分割,一张图片分割成若干低分辨率的图片组成新的麦蜘蛛图像训练集。
第三步,麦蜘蛛图像检测模型的构建:基于RetinaNet模型构建麦蜘蛛图像检测模型。RetinaNet模型对大目标检测效果较好,但是遇到麦蜘蛛这种小目标,检测效果较差、性能表现低下。为了提高 RetinaNet模型的泛化能力,对麦蜘蛛这种小目标的检测进行了改进,分别从骨干网络模块、特征金字塔模块以及标签分配模块三个方面分别进行了不同程度的改进以提升模型对麦蜘蛛的检测效果。
其具体步骤如下:
(1)构建麦蜘蛛图像检测模型,麦蜘蛛图像检测模型包括RetinaNet模型的骨干网络、特征金字塔以及标签分配模块。
(2)对RetinaNet模型的骨干网络重新进行设计,输入数据集图片,输出不同尺寸的骨干网络特征图。利用多头自注意力模块与残差模块并行,可以在保证优秀的局部特征提取能力的同时,更大程度地增加全局建模能力,减少模型对复杂背景的关注,增加对前景目标的关注。
其中,如图2所示,对RetinaNet模型的骨干网络重新进行设计包括以下步骤
A1)设定骨干网络为五层结构;
A2)设定骨干网络的第一层,输入数据集图像,通过卷积池化操作得到尺度压缩的图像,作为骨干网络初始特征图;
A3)设定骨干网络的第二层,对骨干网络初始特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复3次,最后一次进行下采样,输出第一层骨干网络特征图;
A4)设定骨干网络的第三层,对第一层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复4次,最后一次进行下采样,输出第二层骨干网络特征图;
A5)设定骨干网络的第四层,对第二层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复5次,最后一次进行下采样,输出第三层骨干网络特征图;
A6)设定骨干网络的第五层,对第三层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复3次,输出第四层骨干网络特征图。
(3)对RetinaNet模型的特征金字塔进行重新设计,接收骨干网络输出的骨干网络特征图作为输入,融合上下文信息以及多尺度信息,输出金字塔特征图。浅层特征图包含充分的位置信息,但语义信息较弱。相反的,深层特征具有更强的语义信息,而缺乏足够的位置信息,通过浅层与深层的互补反馈,增加浅层特征图的语义信息以及深层特征图的位置信息。通过多尺度卷积,增加感受野的多样性,提取不同尺度的特征信息。
其中,如图3所示,对RetinaNet模型的特征金字塔进行重新设计包括以下步骤:
B1)将特征金字塔设计为六层结构:
B2)设定特征金字塔的第一层,将骨干网络输出的第二层、第三层和第四层特征图通过双线性插值上采样放大分辨率,得到三个上采样特征图,分别为第二层上采样特征图、第三层上采样特征图和第四层上采样特征图;;
其中,双线性插值的公式如下:
其中,𝑄11=(𝑥1,𝑦1)、𝑄21=(𝑥2,𝑦1)、 𝑄12=(𝑥1,𝑦2)、 𝑄22=(𝑥2,𝑦2)分别为左下、右下、左上、右上位置的坐标,𝑓(𝑄11)、 𝑓(𝑄21)、𝑓(𝑄12) 、𝑓(𝑄22)分别表示插入点的左下、右下、左上、右上位置的像素值,𝑓(𝑥,𝑦)为(𝑥,𝑦)位置新的像素值;
B3)设定特征金字塔的第二层,将第二层上采样特征图与第一层骨干网络特征图、第三层上采样特征图与第二层骨干网络特征图、第四层上采样特征图与第三层骨干网络特征图进行拼接,融合语义信息,得到三个融合语义特征图;
B4)设定特征金字塔的第三层,将骨干网络输出的第一层骨干网络特征图以及融合之后的融合语义特征图通过最大池化减小分辨率并融合处理,得到最大池化特征图;最大池化,采用以下公式:
其中,𝑘表示区域范围为𝑘×𝑘,𝑥𝑖𝑗表示区域𝑘内第𝑖行𝑗列个点的像素值,𝑦为区域𝑘内最大的像素值;
B5)设定特征金字塔的第四层,将最大池化特征图与第四层骨干网络特征图进行融合位置特征处理,得到上下文融合特征图;其公式如下:
其中,𝑛为骨干网络传递特征图个数,𝑦p表示最大池化特征图,𝑦4表示第四层骨干网络特征图,𝑐𝑜𝑛𝑐𝑎𝑡表示按照通道进行拼接运算;
B6)设定特征金字塔的第五层,使用不同尺寸的卷积提取上下文融合特征图的多尺度信息;
B7)设定特征金字塔的第六层,按照通道拼接上下文融合特征图的多尺度信息得到最终的金字塔特征图,其中,卷积拼接采用如下公式:
其中,𝑛为输出金字塔特征图个数,𝑥l表示第l层金字塔特征图,∗表示卷积运算,𝑐𝑜𝑛𝑐𝑎𝑡表示拼接运算,𝑘l3和𝑘l5分别代表第l层特征图的3×3大小的卷积核和5×5大小的卷积核,𝑏l3和𝑏l5分别代表第l层特征图的3×3卷积的偏置和5×5卷积的偏置。
(4)构建标签分配模块:将特征金字塔输出的所有金字塔特征图上的点生成的锚框按缩放比例映射到原图,计算所有锚框与真实标签的交并比,动态选取Topk个锚框作为正样本,每一个真实标签对应的交并比阈值以及k进行不断优化。动态的选取交并比阈值,可以使更高质量的预测锚框作为正样本参与计算,降低正样本的锚框损失,减少分类分数与交并比分数之间的差异,生成更多高质量的锚框。
其中,构建标签分配模块包括以下步骤:
C1)计算特征金字塔的所有输出特征图上的锚框与真实标签的交并比,其中交并比采用如下公式:
其中,P代表模型预测的锚框,G代表真实标签;
C2)定义一个k,其值等于所有IOU之和;
C3)调整k值的上下限浮动为0-20;
C4)选取第Topk个锚框与真实标签交并比的值作为阈值;
C5)选取前k个交并比最大的锚框,作为正样本,剩余的作为负样本,共同参与损失的计算。
第四步,麦蜘蛛图像检测模型的训练:将麦蜘蛛图像训练集输入麦蜘蛛图像检测模型进行训练。其具体步骤如下:
(1)输入麦蜘蛛图像训练集,进行前向传播。
(2)计算类别损失与回归损失,对参数进行优化,
其中,类别损失𝐹𝑜𝑐𝑎l𝐿𝑜𝑠𝑠和回归损失𝐿1𝐿𝑜𝑠𝑠分别采用如下公式:
其中,α,γ为超参数,𝑝为预测类别概率, 𝑦𝑡𝑟𝑢𝑒为真实标签。
其中,𝑦𝑡𝑟𝑢𝑒为真实标签,𝑦𝑝𝑟𝑒d𝑖𝑐𝑡𝑒d为模型预测值。
(3)根据损失结果,反向传播,更新参数。
(4)重复以上步骤,直到损失收敛,得到预测效果最好的权重。
第五步,待检测图像的获取:获取待检测的麦蜘蛛图像并进行预处理。
第六步,麦蜘蛛图像检测结果的获得:将预处理后的待检测麦蜘蛛图像输入训练后的麦蜘蛛图像检测模型,得到麦蜘蛛图像检测结果。
本发明的效果可以通过以下仿真实验说明:
1、实验条件
实验所用的数据是我们在国内北部山东等地麦田里采集的数据集,包含近两千张不同拍摄角度和不同拍摄时间的图片。在本实验中,使用前文所述方法进行随机裁剪、旋转、色彩变换和复制麦蜘蛛等操作扩充到3262张图片。进一步的使用所述分割方法,剔除掉没有目标的图片后,得到了9215张图片的数据集。接着用图像标注软件Labelme进行标注,每个图像会对应生成一个xml格式的标注文件。最后,将扩充之后的数据集用于训练和检测模型效果。
2、实验步骤
其具体步骤如下:
(1)将麦蜘蛛图像数据集输入到本发明的检测模型;
(2)设定优化方法为随机梯度下降优化方法,动量设置为0.9,初始学习率设置为0.000025,训练12个批次,在第3批次,第11批次学习率降为原来的1/10;
(3)保存训练结果最好的批次的权重。
(4)加载(3)中保存的权重,输入需要预测的麦蜘蛛图片到本发明的检测模型进行测试。
(5)输出模型预测结果。
3、实验结果
如图4a、图4b、图4c和图4d所示,其为本发明对麦蜘蛛图像的检测结果示意图,本发明对于麦蜘蛛的检测识别效果表现很好,尽管麦蜘蛛在图像中占比很小,但是依然可以成功的识别出麦蜘蛛,并且没有漏检、错检的情况。如表1所示,其对比其他不同检测模型的检测结果本发明的检测精度取得了最高的精度,优于其他的方法。
表1 本发明与其他检测方法的检测结果对比表(单位:%)
方法 | 骨干网络 | 精度 |
SSD-300 | VGG16 | 62.1 |
YOLO-V3 | DarkNet53 | 75.9 |
Faster-RCNN | ResNet50 | 77.3 |
RetinaNet | ResNet50 | 77.4 |
Cascade-RCNN | ResNet50 | 78.4 |
本发明 | 本发明 | 81.7 |
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (3)
1.一种基于RetinaNet模型的麦蜘蛛图像检测方法,其特征在于,包括以下步骤:
11)麦蜘蛛图像样本的获取和预处理:采集真实背景下麦田里麦蜘蛛的图片作为麦蜘蛛图片样本,并使用LabelImg对采集图片进行分类和坐标标注,作为预处理后的麦蜘蛛图像样本;
12)麦蜘蛛图像样本的扩充:使用随机平移、旋转、色彩转换和添加噪声操作对麦蜘蛛图像样本进行扩充;并随机选取图片,复制麦蜘蛛到图片中随机位置,生成新的图片和标注文件;最后将高分辨率图片样本进一步分割,一张图片分割成若干低分辨率的图片组成新的麦蜘蛛图像训练集;
13)麦蜘蛛图像检测模型的构建:基于RetinaNet模型构建麦蜘蛛图像检测模型;
所述麦蜘蛛图像检测模型的构建包括以下步骤:
131)构建麦蜘蛛图像检测模型,麦蜘蛛图像检测模型包括RetinaNet模型的骨干网络、特征金字塔以及标签分配模块;
132)对RetinaNet模型的骨干网络重新进行设计,输入数据集图片,输出不同尺寸的骨干网络特征图;
所述对RetinaNet模型的骨干网络重新进行设计包括以下步骤:
1321)设定骨干网络为五层结构;
1322)设定骨干网络的第一层,输入数据集图像,通过卷积池化操作得到尺度压缩的图像,作为骨干网络初始特征图;
1323)设定骨干网络的第二层,对骨干网络初始特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复3次,最后一次进行下采样,输出第一层骨干网络特征图;
1324)设定骨干网络的第三层,对第一层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复4次,最后一次进行下采样,输出第二层骨干网络特征图;
1325)设定骨干网络的第四层,对第二层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复5次,最后一次进行下采样,输出第三层骨干网络特征图;
1326)设定骨干网络的第五层,对第三层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复3次,输出第四层骨干网络特征图;
133)对RetinaNet模型的特征金字塔进行重新设计,接收骨干网络输出的骨干网络特征图作为输入,融合上下文信息以及多尺度信息,输出金字塔特征图;
所述对RetinaNet模型的特征金字塔进行重新设计包括以下步骤:
1331)将特征金字塔设计为六层结构:
1332)设定特征金字塔的第一层,将骨干网络输出的第二层、第三层和第四层特征图通过双线性插值上采样放大分辨率,得到三个上采样特征图,分别为第二层上采样特征图、第三层上采样特征图和第四层上采样特征图;
其中,双线性插值的公式如下:
其中,𝑄11=(𝑥1,𝑦1)、𝑄21=(𝑥2,𝑦1)、 𝑄12=(𝑥1,𝑦2)、 𝑄22=(𝑥2,𝑦2)分别为左下、右下、左上、右上位置的坐标,𝑓(𝑄11)、 𝑓(𝑄21)、𝑓(𝑄12) 、𝑓(𝑄22)分别表示插入点的左下、右下、左上、右上位置的像素值,𝑓(𝑥,𝑦)为(𝑥,𝑦)位置新的像素值;
1333)设定特征金字塔的第二层,将第二层上采样特征图与第一层骨干网络特征图、第三层上采样特征图与第二层骨干网络特征图、第四层上采样特征图与第三层骨干网络特征图进行拼接,融合语义信息,得到三个融合语义特征图;
1334)设定特征金字塔的第三层,将骨干网络输出的第一层骨干网络特征图以及融合之后的融合语义特征图通过最大池化减小分辨率并融合处理,得到最大池化特征图;最大池化,采用以下公式:
其中,𝑘表示区域范围为𝑘×𝑘,𝑥𝑖𝑗表示区域𝑘内第𝑖行𝑗列个点的像素值,𝑦为区域𝑘内最大的像素值;
1335)设定特征金字塔的第四层,将最大池化特征图与第四层骨干网络特征图进行融合位置特征处理,得到上下文融合特征图;其公式如下:
其中,𝑛为骨干网络传递特征图个数,𝑦p表示最大池化特征图,𝑦4表示第四层骨干网络特征图,𝑐𝑜𝑛𝑐𝑎𝑡表示拼接运算;
1336)设定特征金字塔的第五层,使用不同尺寸的卷积提取上下文融合特征图的多尺度信息;
1337)设定特征金字塔的第六层,按照通道拼接上下文融合特征图的多尺度信息得到最终的金字塔特征图,其中,卷积拼接采用如下公式:
其中,𝑛为输出金字塔特征图个数,𝑥l表示第l层金字塔特征图,∗表示卷积运算,𝑐𝑜𝑛𝑐𝑎𝑡表示拼接运算,𝑘l3和𝑘l5分别代表第l层特征图的3×3大小的卷积核和5×5大小的卷积核,𝑏l3和𝑏l5分别代表第l层特征图的3×3卷积的偏置和5×5卷积的偏置;
134)构建标签分配模块:将特征金字塔输出的所有金字塔特征图上的点生成的锚框按缩放比例映射到原图,计算所有锚框与真实标签的交并比,动态选取Topk个锚框作为正样本,每一个真实标签对应的交并比阈值以及k进行不断优化;
14)麦蜘蛛图像检测模型的训练:将麦蜘蛛图像训练集输入麦蜘蛛图像检测模型进行训练;
15)待检测图像的获取:获取待检测的麦蜘蛛图像并进行预处理;
16)麦蜘蛛图像检测结果的获得:将预处理后的待检测麦蜘蛛图像输入训练后的麦蜘蛛图像检测模型,得到麦蜘蛛图像检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210664056.1A CN114743023B (zh) | 2022-06-14 | 2022-06-14 | 一种基于RetinaNet模型的麦蜘蛛图像检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210664056.1A CN114743023B (zh) | 2022-06-14 | 2022-06-14 | 一种基于RetinaNet模型的麦蜘蛛图像检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114743023A CN114743023A (zh) | 2022-07-12 |
CN114743023B true CN114743023B (zh) | 2022-08-26 |
Family
ID=82287088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210664056.1A Active CN114743023B (zh) | 2022-06-14 | 2022-06-14 | 一种基于RetinaNet模型的麦蜘蛛图像检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114743023B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315237B (zh) * | 2023-11-23 | 2024-02-27 | 上海闪马智能科技有限公司 | 目标检测模型的确定方法及装置、存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104850836B (zh) * | 2015-05-15 | 2018-04-10 | 浙江大学 | 基于深度卷积神经网络的害虫图像自动识别方法 |
CN105956521B (zh) * | 2016-04-22 | 2019-06-18 | 安徽大学 | 一种基于图像的提高车辆识别方法 |
CN106845401B (zh) * | 2017-01-20 | 2020-11-03 | 中国科学院合肥物质科学研究院 | 一种基于多空间卷积神经网络的害虫图像识别方法 |
CN107808116B (zh) * | 2017-09-28 | 2020-05-05 | 中国科学院合肥物质科学研究院 | 一种基于深度多层特征融合学习的小麦麦蜘蛛检测方法 |
CN109034268B (zh) * | 2018-08-20 | 2021-07-13 | 北京林业大学 | 一种面向信息素诱捕器的红脂大小蠹检测器优化方法 |
CN112464971A (zh) * | 2020-04-09 | 2021-03-09 | 丰疆智能软件科技(南京)有限公司 | 害虫检测模型构建方法 |
CN111652247A (zh) * | 2020-05-28 | 2020-09-11 | 大连海事大学 | 一种基于深度卷积神经网络的双翅目昆虫识别方法 |
CN111797760A (zh) * | 2020-07-02 | 2020-10-20 | 绵阳职业技术学院 | 基于Retinanet改进的农作物病虫害识别方法 |
CN111967538B (zh) * | 2020-09-25 | 2024-03-15 | 北京康夫子健康技术有限公司 | 应用于小目标检测的特征融合方法、装置、设备以及存储介质 |
CN112287860B (zh) * | 2020-11-03 | 2022-01-07 | 北京京东乾石科技有限公司 | 物体识别模型的训练方法及装置、物体识别方法及系统 |
CN113239982A (zh) * | 2021-04-23 | 2021-08-10 | 北京旷视科技有限公司 | 检测模型的训练方法、目标检测方法、装置和电子系统 |
CN114005017A (zh) * | 2021-09-18 | 2022-02-01 | 北京旷视科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN114565048A (zh) * | 2022-03-02 | 2022-05-31 | 安徽大学 | 基于自适应特征融合金字塔网络的三阶段害虫图像识别方法 |
-
2022
- 2022-06-14 CN CN202210664056.1A patent/CN114743023B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114743023A (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489358B (zh) | 一种基于深度学习的三维点云语义分割方法 | |
CN111179217A (zh) | 一种基于注意力机制的遥感图像多尺度目标检测方法 | |
CN109886066B (zh) | 基于多尺度和多层特征融合的快速目标检测方法 | |
CN108427924B (zh) | 一种基于旋转敏感特征的文本回归检测方法 | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN111368769B (zh) | 基于改进锚点框生成模型的船舶多目标检测方法 | |
CN110853057B (zh) | 基于全局和多尺度全卷积网络的航拍图像分割方法 | |
CN114495029B (zh) | 一种基于改进YOLOv4的交通目标检测方法及系统 | |
CN111612017A (zh) | 一种基于信息增强的目标检测方法 | |
CN111709307B (zh) | 一种基于分辨率增强的遥感图像小目标检测方法 | |
CN109948527B (zh) | 基于集成深度学习的小样本太赫兹图像异物检测方法 | |
CN112528934A (zh) | 一种基于多尺度特征层的改进型YOLOv3的交通标志检测方法 | |
CN112991364A (zh) | 基于卷积神经网络跨模态融合的道路场景语义分割方法 | |
CN111274981A (zh) | 目标检测网络构建方法及装置、目标检测方法 | |
CN114998566A (zh) | 一种可解释的多尺度红外弱小目标检测网络设计方法 | |
CN111507359A (zh) | 一种图像特征金字塔的自适应加权融合方法 | |
CN113239753A (zh) | 基于YOLOv4改进的交通标志检测与识别方法 | |
CN114743023B (zh) | 一种基于RetinaNet模型的麦蜘蛛图像检测方法 | |
CN114494812A (zh) | 一种基于改进CenterNet的图像小目标检测方法 | |
CN112784756A (zh) | 人体识别跟踪方法 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN113032613A (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN112364974A (zh) | 一种基于激活函数改进的YOLOv3算法 | |
CN114821341A (zh) | 基于fpn与pan网络的双重注意力的遥感小目标检测方法 | |
CN116778346B (zh) | 一种基于改进自注意力机制的管线识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |