CN114743023B - 一种基于RetinaNet模型的麦蜘蛛图像检测方法 - Google Patents

一种基于RetinaNet模型的麦蜘蛛图像检测方法 Download PDF

Info

Publication number
CN114743023B
CN114743023B CN202210664056.1A CN202210664056A CN114743023B CN 114743023 B CN114743023 B CN 114743023B CN 202210664056 A CN202210664056 A CN 202210664056A CN 114743023 B CN114743023 B CN 114743023B
Authority
CN
China
Prior art keywords
layer
backbone network
wheat
characteristic
wheat spider
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210664056.1A
Other languages
English (en)
Other versions
CN114743023A (zh
Inventor
庞登浩
王弘
孟浩
陈鹏
梁栋
徐超
王海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202210664056.1A priority Critical patent/CN114743023B/zh
Publication of CN114743023A publication Critical patent/CN114743023A/zh
Application granted granted Critical
Publication of CN114743023B publication Critical patent/CN114743023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于RetinaNet模型的麦蜘蛛图像检测方法,与现有技术相比解决了针对麦蜘蛛图像检测效率低、鲁棒性差的缺陷。本发明包括以下步骤:麦蜘蛛图像样本的获取和预处理;麦蜘蛛图像样本的扩充;麦蜘蛛图像检测模型的构建;麦蜘蛛图像检测模型的训练;待检测图像的获取;麦蜘蛛图像检测结果的获得。本发明将多头自注意力模块与残差网络融合,组成了一个新颖的并行骨干网络架构,利用高分辨率的特征图提取小目标的特征,基于交互特征图之间的上下文信息,通过重新设计更符合小目标的锚框,实现了更高效、更准确的麦蜘蛛虫害图像检测。

Description

一种基于RetinaNet模型的麦蜘蛛图像检测方法
技术领域
本发明涉及植保图像处理技术领域,具体来说是一种基于RetinaNet模型的麦蜘蛛图像检测方法。
背景技术
近些年,随着深度学习的发展,涌现出许多目标检测领域的研究。例如:早期的二阶段检测(Faster RCNN,Mask RCNN,Cascade RCNN等)和近年来发展迅速的单阶段检测(SSD, RetinaNet,YOLO)等方法。这些方法由于可以直接接收图片作为输入,将预测结果作为输出,成为近年来研究的热点。
然而,这些目标检测算法在检测较大目标时的表现较好,在目标较小时,难以保持优秀稳定的结果。这有两个主要的缺陷:1、为了追求检测的效率,减少了对于较小的目标检测的关注,使得小目标检测效果很差;2、手动设计的特征提取,并没有很好的鲁棒性,无法适用于麦蜘蛛,检测的精度较低。
因此,如何研发出一种针对于麦蜘蛛的图像检测方法已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中针对麦蜘蛛图像检测效率低、鲁棒性差的缺陷,提供一种基于RetinaNet模型的麦蜘蛛图像检测方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种基于RetinaNet模型的麦蜘蛛图像检测方法,包括以下步骤:
麦蜘蛛图像样本的获取和预处理:采集真实背景下麦田里麦蜘蛛的图片作为麦蜘蛛图片样本,并使用LabelImg对采集图片进行分类和坐标标注,作为预处理后的麦蜘蛛图像样本;
麦蜘蛛图像样本的扩充:使用随机平移、旋转、色彩转换和添加噪声操作对麦蜘蛛图像样本进行扩充;并随机选取图片,复制麦蜘蛛到图片中随机位置,生成新的图片和标注文件;最后将高分辨率图片样本进一步分割,一张图片分割成若干低分辨率的图片组成新的麦蜘蛛图像训练集;
麦蜘蛛图像检测模型的构建:基于RetinaNet模型构建麦蜘蛛图像检测模型;
麦蜘蛛图像检测模型的训练:将麦蜘蛛图像训练集输入麦蜘蛛图像检测模型进行训练;
待检测图像的获取:获取待检测的麦蜘蛛图像并进行预处理;
麦蜘蛛图像检测结果的获得:将预处理后的待检测麦蜘蛛图像输入训练后的麦蜘蛛图像检测模型,得到麦蜘蛛图像检测结果。
所述麦蜘蛛图像检测模型的构建包括以下步骤:
构建麦蜘蛛图像检测模型,麦蜘蛛图像检测模型包括RetinaNet模型的骨干网络、特征金字塔以及标签分配模块;
对RetinaNet模型的骨干网络重新进行设计,输入数据集图片,输出不同尺寸的骨干网络特征图;
对RetinaNet模型的特征金字塔进行重新设计,接收骨干网络输出的骨干网络特征图作为输入,融合上下文信息以及多尺度信息,输出金字塔特征图;
构建标签分配模块:将特征金字塔输出的所有金字塔特征图上的点生成的锚框按缩放比例映射到原图,计算所有锚框与真实标签的交并比,动态选取Topk个锚框作为正样本,每一个真实标签对应的交并比阈值以及k进行不断优化。
所述麦蜘蛛图像检测模型的训练包括以下步骤:
输入麦蜘蛛图像训练集,进行前向传播;
计算类别损失与回归损失,对参数进行优化,
其中,类别损失𝐹𝑜𝑐𝑎l𝐿𝑜𝑠𝑠和回归损失𝐿1𝐿𝑜𝑠𝑠分别采用如下公式:
Figure 57720DEST_PATH_IMAGE001
其中,α,γ为超参数,𝑝为预测类别概率, 𝑦𝑡𝑟𝑢𝑒为真实标签;
Figure 37178DEST_PATH_IMAGE002
其中,𝑦𝑡𝑟𝑢𝑒为真实标签,𝑦𝑝𝑟𝑒d𝑖𝑐𝑡𝑒d为模型预测值;
根据损失结果,反向传播,更新参数;
重复以上步骤,直到损失收敛,得到预测效果最好的权重。
所述对RetinaNet模型的骨干网络重新进行设计包括以下步骤
设定骨干网络为五层结构;
设定骨干网络的第一层,输入数据集图像,通过卷积池化操作得到尺度压缩的图像,作为骨干网络初始特征图;
设定骨干网络的第二层,对骨干网络初始特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复3次,最后一次进行下采样,输出第一层骨干网络特征图;
设定骨干网络的第三层,对第一层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复4次,最后一次进行下采样,输出第二层骨干网络特征图;
设定骨干网络的第四层,对第二层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复5次,最后一次进行下采样,输出第三层骨干网络特征图;
设定骨干网络的第五层,对第三层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复3次,输出第四层骨干网络特征图。
所述对RetinaNet模型的特征金字塔进行重新设计包括以下步骤:
将特征金字塔设计为六层结构:
设定特征金字塔的第一层,将骨干网络输出的第二层、第三层和第四层特征图通过双线性插值上采样放大分辨率,得到三个上采样特征图,分别为第二层上采样特征图、第三层上采样特征图和第四层上采样特征图;
其中,双线性插值的公式如下:
Figure 816915DEST_PATH_IMAGE003
其中,𝑄11=(𝑥1,𝑦1)、𝑄21=(𝑥2,𝑦1)、 𝑄12=(𝑥1,𝑦2)、 𝑄22=(𝑥2,𝑦2)分别为左下、右下、左上、右上位置的坐标,𝑓(𝑄11)、 𝑓(𝑄21)、𝑓(𝑄12) 、𝑓(𝑄22)分别表示插入点的左下、右下、左上、右上位置的像素值,𝑓(𝑥,𝑦)为(𝑥,𝑦)位置新的像素值;
设定特征金字塔的第二层,将第二层上采样特征图与第一层骨干网络特征图、第三层上采样特征图与第二层骨干网络特征图、第四层上采样特征图与第三层骨干网络特征图进行拼接,融合语义信息,得到三个融合语义特征图;
设定特征金字塔的第三层,将骨干网络输出的第一层骨干网络特征图以及融合之后的融合语义特征图通过最大池化减小分辨率并融合处理,得到最大池化特征图;最大池化,采用以下公式:
Figure 212124DEST_PATH_IMAGE004
其中,𝑘表示区域范围为𝑘×𝑘,𝑥𝑖𝑗表示区域𝑘内第𝑖行𝑗列个点的像素值,𝑦为区域𝑘内最大的像素值;
设定特征金字塔的第四层,将最大池化特征图与第四层骨干网络特征图进行融合位置特征处理,得到上下文融合特征图;其公式如下:
Figure 26496DEST_PATH_IMAGE005
其中,𝑛为骨干网络传递特征图个数,𝑦p表示最大池化特征图,𝑦4表示第四层骨干网络特征图,𝑐𝑜𝑛𝑐𝑎𝑡表示按照通道进行拼接运算;
设定特征金字塔的第五层,使用不同尺寸的卷积提取上下文融合特征图的多尺度信息;
设定特征金字塔的第六层,按照通道拼接上下文融合特征图的多尺度信息得到最终的金字塔特征图,其中,卷积拼接采用如下公式:
Figure 412741DEST_PATH_IMAGE006
其中,𝑛为输出金字塔特征图个数,𝑥l表示第l层金字塔特征图,∗表示卷积运算,𝑐𝑜𝑛𝑐𝑎𝑡表示拼接运算,𝑘l3和𝑘l5分别代表第l层特征图的3×3大小的卷积核和5×5大小的卷积核,𝑏l3和𝑏l5分别代表第l层特征图的3×3卷积的偏置和5×5卷积的偏置。
所述构建标签分配模块包括以下步骤:
计算特征金字塔的所有输出特征图上的锚框与真实标签的交并比,其中交并比采用如下公式:
Figure 679774DEST_PATH_IMAGE007
其中,P代表模型预测的锚框,G代表真实标签;
定义一个k,其值等于所有IOU之和;
调整k值的上下限浮动为0-20;
选取第Topk个锚框与真实标签交并比的值作为阈值;
选取前k个交并比最大的锚框,作为正样本,剩余的作为负样本,共同参与损失的计算。
有益效果
本发明的一种基于RetinaNet模型的麦蜘蛛图像检测方法,与现有技术相比将多头自注意力模块与残差网络融合,组成了一个新颖的并行骨干网络架构,利用高分辨率的特征图提取小目标的特征,基于交互特征图之间的上下文信息,通过重新设计更符合小目标的锚框,实现了更高效、更准确的麦蜘蛛虫害图像检测。
本发明重新设计骨干网络,使提取的特征图更关注目标,解决背景的干扰问题;其次,更充分的利用骨干网络提取的分辨率更高的浅层特征图,很大程度上解决尺度压缩时的信息损失问题;且在特征金字塔网络中增加池化模块,将上层的回归信息传递给下层,并增加多尺度模块,解决特征融合的问题;最后,重新设计锚框生成方案,使锚框能够更匹配小的麦蜘蛛,增加检测的精度。
与现有技术相比,本发明具有如下优势:
1、检测速度快
本发明通过将高分辨率样本图片分割成若干边缘重叠的低分辨率图片,进一步的压缩空间尺寸,在空间信息损失极低的情况下增大了输入的图片特征。
2、检测性能高
本发明通过利用浅层高分辨率特征图与深层低分辨率特征图互补类别信息与回归信息,进行多尺度的特征融合,提高了模型对于麦蜘蛛的检测效果。
3、鲁棒性强
本发明通过重新设计锚框生成的尺寸,使更多的锚框与真实标签匹配,以及设计了一个新颖的结合自注意力与残差网络并行的骨干网络,减少了背景的影响,提升了优化效果,增加了检测精度,并且也同样适用于其他的小目标检测。
附图说明
图1为本发明的方法顺序图;
图2为本发明的骨干网络结构示意图;
图3为本发明的多尺度上下文特征金字塔预测结构示意图;
图4a、图4b、图4c和图4d为本发明对麦蜘蛛图像进行检测的检测效果示意图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种基于RetinaNet模型的麦蜘蛛图像检测方法,包括以下步骤:
第一步,麦蜘蛛图像样本的获取和预处理:采集真实背景下麦田里麦蜘蛛的图片作为麦蜘蛛图片样本,并对采集图片进行分类和坐标标注,作为预处理后的麦蜘蛛图像样本。
第二步,麦蜘蛛图像样本的扩充:使用随机平移、旋转、色彩转换和添加噪声操作对麦蜘蛛图像样本进行扩充;并随机选取图片,复制麦蜘蛛到图片中随机位置,生成新的图片和标注文件;最后将高分辨率图片样本进一步分割,一张图片分割成若干低分辨率的图片组成新的麦蜘蛛图像训练集。
第三步,麦蜘蛛图像检测模型的构建:基于RetinaNet模型构建麦蜘蛛图像检测模型。RetinaNet模型对大目标检测效果较好,但是遇到麦蜘蛛这种小目标,检测效果较差、性能表现低下。为了提高 RetinaNet模型的泛化能力,对麦蜘蛛这种小目标的检测进行了改进,分别从骨干网络模块、特征金字塔模块以及标签分配模块三个方面分别进行了不同程度的改进以提升模型对麦蜘蛛的检测效果。
其具体步骤如下:
(1)构建麦蜘蛛图像检测模型,麦蜘蛛图像检测模型包括RetinaNet模型的骨干网络、特征金字塔以及标签分配模块。
(2)对RetinaNet模型的骨干网络重新进行设计,输入数据集图片,输出不同尺寸的骨干网络特征图。利用多头自注意力模块与残差模块并行,可以在保证优秀的局部特征提取能力的同时,更大程度地增加全局建模能力,减少模型对复杂背景的关注,增加对前景目标的关注。
其中,如图2所示,对RetinaNet模型的骨干网络重新进行设计包括以下步骤
A1)设定骨干网络为五层结构;
A2)设定骨干网络的第一层,输入数据集图像,通过卷积池化操作得到尺度压缩的图像,作为骨干网络初始特征图;
A3)设定骨干网络的第二层,对骨干网络初始特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复3次,最后一次进行下采样,输出第一层骨干网络特征图;
A4)设定骨干网络的第三层,对第一层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复4次,最后一次进行下采样,输出第二层骨干网络特征图;
A5)设定骨干网络的第四层,对第二层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复5次,最后一次进行下采样,输出第三层骨干网络特征图;
A6)设定骨干网络的第五层,对第三层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复3次,输出第四层骨干网络特征图。
(3)对RetinaNet模型的特征金字塔进行重新设计,接收骨干网络输出的骨干网络特征图作为输入,融合上下文信息以及多尺度信息,输出金字塔特征图。浅层特征图包含充分的位置信息,但语义信息较弱。相反的,深层特征具有更强的语义信息,而缺乏足够的位置信息,通过浅层与深层的互补反馈,增加浅层特征图的语义信息以及深层特征图的位置信息。通过多尺度卷积,增加感受野的多样性,提取不同尺度的特征信息。
其中,如图3所示,对RetinaNet模型的特征金字塔进行重新设计包括以下步骤:
B1)将特征金字塔设计为六层结构:
B2)设定特征金字塔的第一层,将骨干网络输出的第二层、第三层和第四层特征图通过双线性插值上采样放大分辨率,得到三个上采样特征图,分别为第二层上采样特征图、第三层上采样特征图和第四层上采样特征图;;
其中,双线性插值的公式如下:
Figure 878674DEST_PATH_IMAGE008
其中,𝑄11=(𝑥1,𝑦1)、𝑄21=(𝑥2,𝑦1)、 𝑄12=(𝑥1,𝑦2)、 𝑄22=(𝑥2,𝑦2)分别为左下、右下、左上、右上位置的坐标,𝑓(𝑄11)、 𝑓(𝑄21)、𝑓(𝑄12) 、𝑓(𝑄22)分别表示插入点的左下、右下、左上、右上位置的像素值,𝑓(𝑥,𝑦)为(𝑥,𝑦)位置新的像素值;
B3)设定特征金字塔的第二层,将第二层上采样特征图与第一层骨干网络特征图、第三层上采样特征图与第二层骨干网络特征图、第四层上采样特征图与第三层骨干网络特征图进行拼接,融合语义信息,得到三个融合语义特征图;
B4)设定特征金字塔的第三层,将骨干网络输出的第一层骨干网络特征图以及融合之后的融合语义特征图通过最大池化减小分辨率并融合处理,得到最大池化特征图;最大池化,采用以下公式:
Figure 547553DEST_PATH_IMAGE009
其中,𝑘表示区域范围为𝑘×𝑘,𝑥𝑖𝑗表示区域𝑘内第𝑖行𝑗列个点的像素值,𝑦为区域𝑘内最大的像素值;
B5)设定特征金字塔的第四层,将最大池化特征图与第四层骨干网络特征图进行融合位置特征处理,得到上下文融合特征图;其公式如下:
Figure DEST_PATH_IMAGE010A
其中,𝑛为骨干网络传递特征图个数,𝑦p表示最大池化特征图,𝑦4表示第四层骨干网络特征图,𝑐𝑜𝑛𝑐𝑎𝑡表示按照通道进行拼接运算;
B6)设定特征金字塔的第五层,使用不同尺寸的卷积提取上下文融合特征图的多尺度信息;
B7)设定特征金字塔的第六层,按照通道拼接上下文融合特征图的多尺度信息得到最终的金字塔特征图,其中,卷积拼接采用如下公式:
Figure 603233DEST_PATH_IMAGE011
其中,𝑛为输出金字塔特征图个数,𝑥l表示第l层金字塔特征图,∗表示卷积运算,𝑐𝑜𝑛𝑐𝑎𝑡表示拼接运算,𝑘l3和𝑘l5分别代表第l层特征图的3×3大小的卷积核和5×5大小的卷积核,𝑏l3和𝑏l5分别代表第l层特征图的3×3卷积的偏置和5×5卷积的偏置。
(4)构建标签分配模块:将特征金字塔输出的所有金字塔特征图上的点生成的锚框按缩放比例映射到原图,计算所有锚框与真实标签的交并比,动态选取Topk个锚框作为正样本,每一个真实标签对应的交并比阈值以及k进行不断优化。动态的选取交并比阈值,可以使更高质量的预测锚框作为正样本参与计算,降低正样本的锚框损失,减少分类分数与交并比分数之间的差异,生成更多高质量的锚框。
其中,构建标签分配模块包括以下步骤:
C1)计算特征金字塔的所有输出特征图上的锚框与真实标签的交并比,其中交并比采用如下公式:
Figure 419880DEST_PATH_IMAGE012
其中,P代表模型预测的锚框,G代表真实标签;
C2)定义一个k,其值等于所有IOU之和;
C3)调整k值的上下限浮动为0-20;
C4)选取第Topk个锚框与真实标签交并比的值作为阈值;
C5)选取前k个交并比最大的锚框,作为正样本,剩余的作为负样本,共同参与损失的计算。
第四步,麦蜘蛛图像检测模型的训练:将麦蜘蛛图像训练集输入麦蜘蛛图像检测模型进行训练。其具体步骤如下:
(1)输入麦蜘蛛图像训练集,进行前向传播。
(2)计算类别损失与回归损失,对参数进行优化,
其中,类别损失𝐹𝑜𝑐𝑎l𝐿𝑜𝑠𝑠和回归损失𝐿1𝐿𝑜𝑠𝑠分别采用如下公式:
Figure 156892DEST_PATH_IMAGE013
其中,α,γ为超参数,𝑝为预测类别概率, 𝑦𝑡𝑟𝑢𝑒为真实标签。
Figure 680277DEST_PATH_IMAGE014
其中,𝑦𝑡𝑟𝑢𝑒为真实标签,𝑦𝑝𝑟𝑒d𝑖𝑐𝑡𝑒d为模型预测值。
(3)根据损失结果,反向传播,更新参数。
(4)重复以上步骤,直到损失收敛,得到预测效果最好的权重。
第五步,待检测图像的获取:获取待检测的麦蜘蛛图像并进行预处理。
第六步,麦蜘蛛图像检测结果的获得:将预处理后的待检测麦蜘蛛图像输入训练后的麦蜘蛛图像检测模型,得到麦蜘蛛图像检测结果。
本发明的效果可以通过以下仿真实验说明:
1、实验条件
实验所用的数据是我们在国内北部山东等地麦田里采集的数据集,包含近两千张不同拍摄角度和不同拍摄时间的图片。在本实验中,使用前文所述方法进行随机裁剪、旋转、色彩变换和复制麦蜘蛛等操作扩充到3262张图片。进一步的使用所述分割方法,剔除掉没有目标的图片后,得到了9215张图片的数据集。接着用图像标注软件Labelme进行标注,每个图像会对应生成一个xml格式的标注文件。最后,将扩充之后的数据集用于训练和检测模型效果。
2、实验步骤
其具体步骤如下:
(1)将麦蜘蛛图像数据集输入到本发明的检测模型;
(2)设定优化方法为随机梯度下降优化方法,动量设置为0.9,初始学习率设置为0.000025,训练12个批次,在第3批次,第11批次学习率降为原来的1/10;
(3)保存训练结果最好的批次的权重。
(4)加载(3)中保存的权重,输入需要预测的麦蜘蛛图片到本发明的检测模型进行测试。
(5)输出模型预测结果。
3、实验结果
如图4a、图4b、图4c和图4d所示,其为本发明对麦蜘蛛图像的检测结果示意图,本发明对于麦蜘蛛的检测识别效果表现很好,尽管麦蜘蛛在图像中占比很小,但是依然可以成功的识别出麦蜘蛛,并且没有漏检、错检的情况。如表1所示,其对比其他不同检测模型的检测结果本发明的检测精度取得了最高的精度,优于其他的方法。
表1 本发明与其他检测方法的检测结果对比表(单位:%)
方法 骨干网络 精度
SSD-300 VGG16 62.1
YOLO-V3 DarkNet53 75.9
Faster-RCNN ResNet50 77.3
RetinaNet ResNet50 77.4
Cascade-RCNN ResNet50 78.4
本发明 本发明 81.7
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (3)

1.一种基于RetinaNet模型的麦蜘蛛图像检测方法,其特征在于,包括以下步骤:
11)麦蜘蛛图像样本的获取和预处理:采集真实背景下麦田里麦蜘蛛的图片作为麦蜘蛛图片样本,并使用LabelImg对采集图片进行分类和坐标标注,作为预处理后的麦蜘蛛图像样本;
12)麦蜘蛛图像样本的扩充:使用随机平移、旋转、色彩转换和添加噪声操作对麦蜘蛛图像样本进行扩充;并随机选取图片,复制麦蜘蛛到图片中随机位置,生成新的图片和标注文件;最后将高分辨率图片样本进一步分割,一张图片分割成若干低分辨率的图片组成新的麦蜘蛛图像训练集;
13)麦蜘蛛图像检测模型的构建:基于RetinaNet模型构建麦蜘蛛图像检测模型;
所述麦蜘蛛图像检测模型的构建包括以下步骤:
131)构建麦蜘蛛图像检测模型,麦蜘蛛图像检测模型包括RetinaNet模型的骨干网络、特征金字塔以及标签分配模块;
132)对RetinaNet模型的骨干网络重新进行设计,输入数据集图片,输出不同尺寸的骨干网络特征图;
所述对RetinaNet模型的骨干网络重新进行设计包括以下步骤:
1321)设定骨干网络为五层结构;
1322)设定骨干网络的第一层,输入数据集图像,通过卷积池化操作得到尺度压缩的图像,作为骨干网络初始特征图;
1323)设定骨干网络的第二层,对骨干网络初始特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复3次,最后一次进行下采样,输出第一层骨干网络特征图;
1324)设定骨干网络的第三层,对第一层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复4次,最后一次进行下采样,输出第二层骨干网络特征图;
1325)设定骨干网络的第四层,对第二层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复5次,最后一次进行下采样,输出第三层骨干网络特征图;
1326)设定骨干网络的第五层,对第三层骨干网络特征图分别利用残差模块与多头自注意力模块得到两个特征图,再将两个特征图拼接,重复3次,输出第四层骨干网络特征图;
133)对RetinaNet模型的特征金字塔进行重新设计,接收骨干网络输出的骨干网络特征图作为输入,融合上下文信息以及多尺度信息,输出金字塔特征图;
所述对RetinaNet模型的特征金字塔进行重新设计包括以下步骤:
1331)将特征金字塔设计为六层结构:
1332)设定特征金字塔的第一层,将骨干网络输出的第二层、第三层和第四层特征图通过双线性插值上采样放大分辨率,得到三个上采样特征图,分别为第二层上采样特征图、第三层上采样特征图和第四层上采样特征图;
其中,双线性插值的公式如下:
Figure 729428DEST_PATH_IMAGE001
其中,𝑄11=(𝑥1,𝑦1)、𝑄21=(𝑥2,𝑦1)、 𝑄12=(𝑥1,𝑦2)、 𝑄22=(𝑥2,𝑦2)分别为左下、右下、左上、右上位置的坐标,𝑓(𝑄11)、 𝑓(𝑄21)、𝑓(𝑄12) 、𝑓(𝑄22)分别表示插入点的左下、右下、左上、右上位置的像素值,𝑓(𝑥,𝑦)为(𝑥,𝑦)位置新的像素值;
1333)设定特征金字塔的第二层,将第二层上采样特征图与第一层骨干网络特征图、第三层上采样特征图与第二层骨干网络特征图、第四层上采样特征图与第三层骨干网络特征图进行拼接,融合语义信息,得到三个融合语义特征图;
1334)设定特征金字塔的第三层,将骨干网络输出的第一层骨干网络特征图以及融合之后的融合语义特征图通过最大池化减小分辨率并融合处理,得到最大池化特征图;最大池化,采用以下公式:
Figure 177726DEST_PATH_IMAGE002
其中,𝑘表示区域范围为𝑘×𝑘,𝑥𝑖𝑗表示区域𝑘内第𝑖行𝑗列个点的像素值,𝑦为区域𝑘内最大的像素值;
1335)设定特征金字塔的第四层,将最大池化特征图与第四层骨干网络特征图进行融合位置特征处理,得到上下文融合特征图;其公式如下:
Figure DEST_PATH_IMAGE003A
其中,𝑛为骨干网络传递特征图个数,𝑦p表示最大池化特征图,𝑦4表示第四层骨干网络特征图,𝑐𝑜𝑛𝑐𝑎𝑡表示拼接运算;
1336)设定特征金字塔的第五层,使用不同尺寸的卷积提取上下文融合特征图的多尺度信息;
1337)设定特征金字塔的第六层,按照通道拼接上下文融合特征图的多尺度信息得到最终的金字塔特征图,其中,卷积拼接采用如下公式:
Figure 144414DEST_PATH_IMAGE004
其中,𝑛为输出金字塔特征图个数,𝑥l表示第l层金字塔特征图,∗表示卷积运算,𝑐𝑜𝑛𝑐𝑎𝑡表示拼接运算,𝑘l3和𝑘l5分别代表第l层特征图的3×3大小的卷积核和5×5大小的卷积核,𝑏l3和𝑏l5分别代表第l层特征图的3×3卷积的偏置和5×5卷积的偏置;
134)构建标签分配模块:将特征金字塔输出的所有金字塔特征图上的点生成的锚框按缩放比例映射到原图,计算所有锚框与真实标签的交并比,动态选取Topk个锚框作为正样本,每一个真实标签对应的交并比阈值以及k进行不断优化;
14)麦蜘蛛图像检测模型的训练:将麦蜘蛛图像训练集输入麦蜘蛛图像检测模型进行训练;
15)待检测图像的获取:获取待检测的麦蜘蛛图像并进行预处理;
16)麦蜘蛛图像检测结果的获得:将预处理后的待检测麦蜘蛛图像输入训练后的麦蜘蛛图像检测模型,得到麦蜘蛛图像检测结果。
2.根据权利要求1所述的一种基于RetinaNet模型的麦蜘蛛图像检测方法,其特征在于,所述麦蜘蛛图像检测模型的训练包括以下步骤:
21)输入麦蜘蛛图像训练集,进行前向传播;
22)计算类别损失与回归损失,对参数进行优化,
其中,类别损失𝐹𝑜𝑐𝑎l𝐿𝑜𝑠𝑠和回归损失𝐿1𝐿𝑜𝑠𝑠分别采用如下公式:
Figure 946148DEST_PATH_IMAGE005
其中,α、γ为超参数,𝑝为预测类别概率, 𝑦𝑡𝑟𝑢𝑒为真实标签;
Figure 494941DEST_PATH_IMAGE006
其中,𝑦𝑡𝑟𝑢𝑒为真实标签,𝑦𝑝𝑟𝑒d𝑖𝑐𝑡𝑒d为模型预测值;
23)根据损失结果,反向传播,更新参数;
24)重复以上步骤,直到损失收敛,得到预测效果最好的权重。
3.根据权利要求1所述的一种基于RetinaNet模型的麦蜘蛛图像检测方法,其特征在于,所述构建标签分配模块包括以下步骤:
31)计算特征金字塔的所有输出特征图上的锚框与真实标签的交并比,其中交并比采用如下公式:
Figure 114141DEST_PATH_IMAGE007
其中,P代表模型预测的锚框,G代表真实标签;
32)定义一个k,其值等于所有IOU之和;
33)调整k值的上下限浮动为0-20;
34)选取第Topk个锚框与真实标签交并比的值作为阈值;
35)选取前k个交并比最大的锚框,作为正样本,剩余的作为负样本,共同参与损失的计算。
CN202210664056.1A 2022-06-14 2022-06-14 一种基于RetinaNet模型的麦蜘蛛图像检测方法 Active CN114743023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210664056.1A CN114743023B (zh) 2022-06-14 2022-06-14 一种基于RetinaNet模型的麦蜘蛛图像检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210664056.1A CN114743023B (zh) 2022-06-14 2022-06-14 一种基于RetinaNet模型的麦蜘蛛图像检测方法

Publications (2)

Publication Number Publication Date
CN114743023A CN114743023A (zh) 2022-07-12
CN114743023B true CN114743023B (zh) 2022-08-26

Family

ID=82287088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210664056.1A Active CN114743023B (zh) 2022-06-14 2022-06-14 一种基于RetinaNet模型的麦蜘蛛图像检测方法

Country Status (1)

Country Link
CN (1) CN114743023B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315237B (zh) * 2023-11-23 2024-02-27 上海闪马智能科技有限公司 目标检测模型的确定方法及装置、存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850836B (zh) * 2015-05-15 2018-04-10 浙江大学 基于深度卷积神经网络的害虫图像自动识别方法
CN105956521B (zh) * 2016-04-22 2019-06-18 安徽大学 一种基于图像的提高车辆识别方法
CN106845401B (zh) * 2017-01-20 2020-11-03 中国科学院合肥物质科学研究院 一种基于多空间卷积神经网络的害虫图像识别方法
CN107808116B (zh) * 2017-09-28 2020-05-05 中国科学院合肥物质科学研究院 一种基于深度多层特征融合学习的小麦麦蜘蛛检测方法
CN109034268B (zh) * 2018-08-20 2021-07-13 北京林业大学 一种面向信息素诱捕器的红脂大小蠹检测器优化方法
CN112464971A (zh) * 2020-04-09 2021-03-09 丰疆智能软件科技(南京)有限公司 害虫检测模型构建方法
CN111652247A (zh) * 2020-05-28 2020-09-11 大连海事大学 一种基于深度卷积神经网络的双翅目昆虫识别方法
CN111797760A (zh) * 2020-07-02 2020-10-20 绵阳职业技术学院 基于Retinanet改进的农作物病虫害识别方法
CN111967538B (zh) * 2020-09-25 2024-03-15 北京康夫子健康技术有限公司 应用于小目标检测的特征融合方法、装置、设备以及存储介质
CN112287860B (zh) * 2020-11-03 2022-01-07 北京京东乾石科技有限公司 物体识别模型的训练方法及装置、物体识别方法及系统
CN113239982A (zh) * 2021-04-23 2021-08-10 北京旷视科技有限公司 检测模型的训练方法、目标检测方法、装置和电子系统
CN114005017A (zh) * 2021-09-18 2022-02-01 北京旷视科技有限公司 目标检测方法、装置、电子设备及存储介质
CN114565048A (zh) * 2022-03-02 2022-05-31 安徽大学 基于自适应特征融合金字塔网络的三阶段害虫图像识别方法

Also Published As

Publication number Publication date
CN114743023A (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN109886066B (zh) 基于多尺度和多层特征融合的快速目标检测方法
CN108427924B (zh) 一种基于旋转敏感特征的文本回归检测方法
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN111368769B (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN110853057B (zh) 基于全局和多尺度全卷积网络的航拍图像分割方法
CN114495029B (zh) 一种基于改进YOLOv4的交通目标检测方法及系统
CN111612017A (zh) 一种基于信息增强的目标检测方法
CN111709307B (zh) 一种基于分辨率增强的遥感图像小目标检测方法
CN109948527B (zh) 基于集成深度学习的小样本太赫兹图像异物检测方法
CN112528934A (zh) 一种基于多尺度特征层的改进型YOLOv3的交通标志检测方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN111274981A (zh) 目标检测网络构建方法及装置、目标检测方法
CN114998566A (zh) 一种可解释的多尺度红外弱小目标检测网络设计方法
CN111507359A (zh) 一种图像特征金字塔的自适应加权融合方法
CN113239753A (zh) 基于YOLOv4改进的交通标志检测与识别方法
CN114743023B (zh) 一种基于RetinaNet模型的麦蜘蛛图像检测方法
CN114494812A (zh) 一种基于改进CenterNet的图像小目标检测方法
CN112784756A (zh) 人体识别跟踪方法
Fan et al. A novel sonar target detection and classification algorithm
CN113032613A (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN112364974A (zh) 一种基于激活函数改进的YOLOv3算法
CN114821341A (zh) 基于fpn与pan网络的双重注意力的遥感小目标检测方法
CN116778346B (zh) 一种基于改进自注意力机制的管线识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant