CN115050021A - 基于改进YOLOv4的非结构环境下葡萄识别方法 - Google Patents

基于改进YOLOv4的非结构环境下葡萄识别方法 Download PDF

Info

Publication number
CN115050021A
CN115050021A CN202210481476.6A CN202210481476A CN115050021A CN 115050021 A CN115050021 A CN 115050021A CN 202210481476 A CN202210481476 A CN 202210481476A CN 115050021 A CN115050021 A CN 115050021A
Authority
CN
China
Prior art keywords
convolution
characteristic diagram
feature map
feature
sizes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210481476.6A
Other languages
English (en)
Other versions
CN115050021B (zh
Inventor
程广贵
郑诗武
郭灿志
丁建宁
张忠强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202210481476.6A priority Critical patent/CN115050021B/zh
Priority claimed from CN202210481476.6A external-priority patent/CN115050021B/zh
Publication of CN115050021A publication Critical patent/CN115050021A/zh
Application granted granted Critical
Publication of CN115050021B publication Critical patent/CN115050021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及图像处理技术领域,具体涉及基于改进YOLOv4的非结构环境下葡萄识别方法。该方法在主干网络的残差体模块中融入SimAM注意力机制,增加特征融合网络连接路径并为融合的特征图分配简单权重。通过对重要特征的高效提取及融合,抑制无用特征,实现在复杂工作条件下对葡萄的实时检测。此外为了提高改进YOLOv4的训练效率,本发明使用Focal loss优化BCE loss,并根据模型结构及训练对象调整超参数,使得预测效果最佳。

Description

基于改进YOLOv4的非结构环境下葡萄识别方法
技术领域
本发明涉及图像处理技术领域,具体涉及基于改进YOLOv4的非结构环境下葡萄识别方法。
背景技术
葡萄作为日常生活中最常见的水果之一富含较高的营养、药用及经济价值,然而目前葡萄的采摘主要依靠人工,长期工作不仅效率低还会对工人身心造成负担。因此,具备视觉感知能力的葡萄采摘机器人的出现迫在眉睫,但受到葡萄簇状密集生长特性及天气的影响,解决果实重叠、枝叶遮挡、光照波动、雨雾干扰等问题成为视觉感知的重点研究内容。
完成葡萄恶劣环境下的准确识别,有利于实现采摘机器人的连续工作,不仅从采摘效率上优于人工,其工作受限条件也远远优于人工。由于自然状态下的葡萄生长于非结构化环境,果园的复杂背景,遮挡物的随机分布,光强及角度的不断变化,都对葡萄识别得准确性及全面性提出挑战。中国专利CN 109255757 A公开了一种基于机器学习的葡萄串果梗区域分割方法,该方法通过对葡萄的HIS图像进行滤波、锐化、边缘检测及形态学操作,实现对葡萄串果梗区域的检测。该方法具有不错的检测速度,同时可降低相机感知时造成的色彩偏差及噪点像素的干扰,然而,由于其对果梗的分割主要依赖于直方图的统计,因此该方法对难以解决重叠、遮挡等问题。Wei Yin等在文献“Fruit Detection and PoseEstimation for Grape Cluster–Harvesting Robot Using Binocular Imagery Basedon Deep Neural Networks”中提出使用Mask R-CNN网络将葡萄与背景分割,通过双目相机提取分割区域的点云信息,并进行降噪处理,最终采用RANSAC算法重建葡萄圆柱模型,实现对目标姿态的估计。该方法可引导采摘机器人完成最优抓取姿态,然而受步骤多,计算量大的限制,该方法难以达到实时检测,同时遮挡、重叠问题也会对葡萄的分割造成困扰。
发明内容
针对现有技术的不足,本发明提出了一种基于改进YOLOv4的非结构环境下葡萄识别方法,该方法在主干网络的残差体模块中融入SimAM注意力机制,增加特征融合网络连接路径并为融合的特征图分配简单权重。通过对重要特征的高效提取及融合,抑制无用特征,实现在复杂工作条件下对葡萄的实时检测。此外为了提高改进YOLOv4的训练效率,本发明使用Focal loss优化BCE loss,并根据模型结构及训练对象调整超参数,使得预测效果最佳。
一种基于改进YOLO v4的非结构环境下葡萄识别方法,具体包括以下步骤:
步骤一,构建数据集;
步骤1.1,分别在不同时段、不同光照角度、不同视角拍照自然环境下的葡萄图像;
步骤1.2,对葡萄目标进行标注;
步骤1.3,利用亮度调整、高斯模糊、仿射变换、镜像翻转、雨化处理五种方法对葡萄图像进行数据增强及增广;
步骤1.4,将数据集分为训练集、测试集、验证集;
步骤二,构建特征提取网络;
步骤2.1,推导SimAM注意力模块,通过计算能量函数来评估各个像素点的重要性,最小能量如公式(1)所示:
Figure BDA0003628035970000021
其中
Figure BDA0003628035970000022
分别为特征图单通道内像素的均值和方差,t为单通道内目标像素值,λ为超参数;将最小能量的倒数经过Sigmoid激活函数后与自身相乘,实现权值的分配,如公式(2)所示:
Figure BDA0003628035970000023
其中E为
Figure BDA0003628035970000024
在所有通道和空间维度的集合,X为输入特征图;
步骤2.2,将训练集作为输入,使用大小为3×3的卷积层来丰富输入图像的通道信息,得到输出的特征图为F2.2
步骤2.3,将SimAM注意力模块嵌入到YOLO v4主干网络的残差体模块中,形成新的Resblock_body_AM模块;其结构为:输入特征F2.2首先经过3×3卷积层收缩尺度;然后分别通过2个大小为1×1卷积层分割通道数,得到特征图F2.3.1和F2.3.2;再将F2.3.2输入残差块,F2.3.2在残差块中有序地经过大小为1×1和3×3的卷积层处理并将处理结果与自身相加,残差块将重复堆叠n次,得到特征图F2.3.3,如公式(3)所示:
F2.3.3=(F2.3.231(F2.3.2)))n#(3)
其中φ1和φ3分别为大小为1×1和3×3的卷积层;之后1×1卷积层对特征图F2.3.3进行空间维度整合;整合后的特征图与F2.3.1拼接,再用以1×1卷积层进行通道维度整合;最后经过SimAM注意力机制激发重要特征,得到Resblock_body_AM模块输出特征图F2.3,如公式(4)所示:
F2.3=ψ(φ1(Cat(F2.3.11(F2.3.3)))))#(4)
其中φ1为大小为1×1的卷积层,Cat为拼接函数,ψ为注意力机制函数;
步骤2.4,反复堆叠Resblock_body_AM模块5次,获得输出特征图P1、P2、P3、P4、P5
步骤三,构建特征融合网络;
步骤3.1,将特征图P5输入大小为1×1、3×3、1×1的卷积组,为空间金字塔池化调整通道数,得到特征图F3.1
步骤3.2,使用空间金字塔池化模块增大特征图F3.1的感受野,其结构为:将F3.1分别通过大小为5×5、9×9、13×13的最大池化层,再将池化结果进行通道拼接,得到特征图F3.2.1,如公式(5)所示:
F3.2.1=Cat(τ5(F3.1),τ9(F3.1),τ13(F3.1))#(5)
其中τ5、τ9、τ13分别为大小为5×5、9×9、13×13的最大池化层,Cat为拼接函数;再将特征图F3.2.1输入大小为1×1、3×3、1×1的卷积组调整通道数,得到输出特征图F3.2
步骤3.3,将特征图F3.2经过上采样层,得到特征图F3.3.1;再将特征图P4经过大小为1×1的卷积层调整通道数,得到特征图F3.3.2;将特征图F3.3.1与特征图F3.3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.3,如公式(6)所示:
F3.3=Φ5(Cat(up(F3.2),φ1(P4)))#(6)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.4,将特征图F3.3经过上采样层,得到特征图F3.4.1;再将特征图P3经过大小为1×1的卷积层调整通道数,得到特征图F3.4.2;将特征图F3.4.2与特征图F3.4.1拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.4,如公式(7)所示:
F3.4=Φ5(Cat(up(F3.3),φ1(P3)))#(7)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.5,将特征图F3.4经过下采样层,得到特征图F3.5.1;再分别对特征图F3.3、F3.5.1、F3.3.2施加权重ω0、ω1、ω2;将处理后的3个特征图相加,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.5如公式(8)所示:
F3.5=Φ50*F3.31*down(F3.4)+ω2*F3.3.2)#(8)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤3.6,将特征图F3.5经过下采样层,得到特征图F3.6.1;将特征图F3.6.1与特征图F3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.6,如公式(9)所示:
F3.6=Φ5(Cat(down(F3.5),F3.2))#(9)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤四,预测目标与损失传递;
步骤4.1,模型检测器由1个大小为3×3的卷积层和1个大小为1×1的卷积核组成,将特征图F3.6、F3.5、F3.4输入3个对应尺度的检测器预测葡萄的空间位置,得到最终预测特征图Out1、Out2、Out3
步骤4.2,使用BCE loss和CIoU loss函数计算预测特征图Out1、Out2、Out3与真实值之间的置信度、分类、定位损失,其中置信度损失如公式(10)所示:
Figure BDA0003628035970000041
其中S2为特征图的尺度,B为边界框的个数,
Figure BDA0003628035970000042
当第i个网格中的第j个边界框存在目标,值为1,否则为0,cij为真实的置信度,
Figure BDA0003628035970000043
为预测的置信度;
分类损失如公式(11)所示:
Figure BDA0003628035970000051
其中S2为特征图的尺度,B为边界框的个数,
Figure BDA0003628035970000052
当第i个网格中的第j个边界框存在目标,值为1,否则为0,pij为真实的概率,
Figure BDA0003628035970000053
为预测的概率;
定位损失如公式(12)所示:
Figure BDA0003628035970000054
其中
Figure BDA0003628035970000055
IoU为真实边界框与预测边界框的交并比,ρ2(b,bgt)为两边界框的中心距离,c为覆盖两边界框的最小框的对角线;
步骤4.3,使用Focal loss函数优化BCE loss,如公式(13)所示:
Figure BDA0003628035970000056
其中p为模型预测的概率,y为真实类别,α和γ为用于平衡损失的超参数;
步骤4.4,最终损失函数如公式(14)所示:
Figure BDA0003628035970000057
其中batch_size为单次训练选取的样本数,λconfclsloc为对应损失平衡系数;
步骤五,优化模型训练与测试。
本发明采用K-means算法对步骤一中标注的真实框聚类出9种尺寸,适配葡萄目标;采用两阶段训练,第一阶段冻结特征提取网络权重,第二阶段训练模型所有权重,提高训练效率;采用学习率余弦退火策略,跳出局部最优解;采用标签平滑策略,增强模型泛化能力;采用非极大值抑制,消除冗余的预测边界框。
本发明具有以下有益效果:
1.本发明使用嵌入SimAM注意力机制的特征提取网络,可对特征图的全维度信息分配权重,强化重要特征抑制无效特征,能够从输入图像中高效地提取目标葡萄特征,克服由于遮挡、重叠等造成的目标特征不完整问题;
2.本发明使用了更加全面的特征融合结构,减缓了特征图在不断卷积操作下的信息丢失情况,此外特征图在融合过程中被施加权重,模型可自适应地进行学习,从而实现在复杂背景、雨雾等特征不明显环境下的检测;
3.本发明使用Focal loss优化BCE loss,解决了训练过程中正负样本不平衡的问题,使得模型收敛更快,损失饱和值更小,提高模型训练效率。
附图说明
图1为实施例中构建的葡萄数据集;
图2为实施例中构建的葡萄检测模型结构图;
图3为实施例中构建的特征提取网络参数图;
图4为实施例中构建的特征融合网络结构图;
图5为实施例中采用不同函数的损失曲线图;
图6为实施例中K-means聚类出的边界框尺寸图;
图7为实施例中模型在恶劣环境下葡萄检测结果图。
具体实施方式
以下结合附图对本发明做进一步的解释说明:
步骤一,构建数据集;
步骤1.1,分别在8:00、13:00和18:00三个时段拍摄葡萄图像,各个时段选取的光照条件包括前景光、背景光、侧照光以及散射光,同时相机距离葡萄树干1.5m处放置,采用垂直和平行树干视角拍摄;
步骤1.2,使用LabelImg工具标注区域大于80%的葡萄目标;
步骤1.3,如图1所示,利用Python第三方ImgAug库对葡萄图像进行亮度调整、高斯模糊、仿射变换、镜像翻转、雨化处理五种数据增强及增广方法,其中亮度调整系数为0.7-1.2,高斯模糊的均值为0,方差为3,仿射变换x,y方向平移系数为15,尺度系数为0.8-0.95,旋转角度为-30°-30°;
步骤1.4,将数据集按7:1:2的比例划分为训练集、测试集、验证集;
步骤二,构建特征提取网络;
步骤2.1,推导SimAM注意力模块,通过计算能量函数来评估各个像素点的重要性,最小能量如公式(15)所示:
Figure BDA0003628035970000061
其中
Figure BDA0003628035970000062
分别为特征图单通道内像素的均值和方差,t为单通道内目标像素值,λ为超参数;具体地,超参数λ取10-4;将最小能量的倒数经过Sigmoid激活函数后与自身相乘,实现权值的分配,如公式(16)所示:
Figure BDA0003628035970000071
其中E为
Figure BDA0003628035970000072
在所有通道和空间维度的集合,X为输入特征图;
步骤2.2,将训练集尺寸归一化至6082×3,使用大小为3×3的卷积层将输入图像的通道数丰富至32,得到输出的特征图为F2.2
步骤2.3,如图2所示,将SimAM注意力机制嵌入到YOLO v4主干网络的残差体模块中,形成新的Resblock_body_AM模块;其结构为:输入特征F2.2首先经过3×3卷积层收缩尺度;然后分别通过2个大小为1×1卷积层分割通道数,得到特征图F2.3.1和F2.3.2;再将F2.3.2输入残差块,F2.3.2在残差块中有序地经过大小为1×1和3×3的卷积层处理并将处理结果与自身相加,残差块将重复堆叠n次,得到特征图F2.3.3,如公式(17)所示:
F2.3.3=(F2.3.231(F2.3.2)))n#(17)
其中φ1和φ3分别为大小为1×1和3×3的卷积层;之后1×1卷积层对特征图F2.3.3进行空间维度整合;整合后的特征图与F2.3.1拼接,再用以1×1卷积层进行通道维度整合;最后经过SimAM注意力机制激发重要特征,得到Resblock_body_AM模块输出特征图F2.3,如公式(18)所示:
F2.3=ψ(φ1(Cat(F2.3.11(F2.3.3)))))#(18)
其中φ1为大小为1×1的卷积层,Cat为拼接函数,ψ为注意力机制函数;
步骤2.4,如图3所示,反复堆叠Resblock_body_AM模块5次,每个模块中残差块的堆叠次数n分别为:1、2、8、8、4,得到5个输出特征图为P1、P2、P3、P4、P5,其尺度分别为3042×64、1522×128、762×256、382×512、192×1024;
步骤三,构建特征融合网络;
步骤3.1,将特征图P5输入大小为1×1、3×3、1×1的卷积组,为空间金字塔池化调整通道数,得到特征图F3.1
步骤3.2,使用空间金字塔池化模块增大特征图F3.1的感受野,其结构为:将F3.1分别通过大小为5×5、9×9、13×13的最大池化层,再将池化结果进行通道拼接,得到特征图F3.2.1,如公式(19)所示:
F3.2.1=Cat(τ5(F3.1),τ9(F3.1),τ13(F3.1))#(19)
其中τ5、τ9、τ13分别为大小为5×5、9×9、13×13的最大池化层,Cat为拼接函数;再将特征图F3.2.1输入大小为1×1、3×3、1×1的卷积组调整通道数,得到输出特征图F3.2
步骤3.3,如图4所示,将特征图F3.2经过上采样层,得到特征图F3.3.1;再将特征图P4经过大小为1×1的卷积层调整通道数,得到特征图F3.3.2;将特征图F3.3.1与特征图F3.3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.3,如公式(20)所示:
F3.3=Φ5(Cat(up(F3.2),φ1(P4)))#(20)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,ω1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.4,将特征图F3.3经过上采样层,得到特征图F3.4.1;再将特征图P3经过大小为1×1的卷积层调整通道数,得到特征图F3.4.2;将特征图F3.4.2与特征图F3.4.1拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.4,如公式(21)所示:
F3.4=Φ5(Cat(up(F3.3),φ1(P3)))#(21)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.5,将特征图F3.4经过下采样层,得到特征图F3.5.1;再分别对特征图F3.3、F3.5.1、F3.3.2施加权重ω0、ω1、ω2,可训练权重通过快速归一法获得,如公式(22)所示:
Figure BDA0003628035970000081
其中ReLU为激活函数,weighti为第i个可训练权值,∈为数值稳定参数;具体地,稳定参数∈取10-4;将处理后的3个特征图相加,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.5如公式(23)所示:
F3.5=Φ50*F3.31*down(F3.4)+ω2*F3.3.2)#(23)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤3.6,将特征图F3.5经过下采样层,得到特征图F3.6.1;将特征图F3.6.1与特征图F3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.6,如公式(24)所示:
F3.6=Φ5(Cat(down(F3.5),F3.2))#(24)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤四,预测目标与损失传递;
步骤4.1,模型检测器由1个大小为3×3的卷积层和1个大小为1×1的卷积核组成,将特征图F3.6、F3.5、F3.4输入3个对应尺度的检测器预测葡萄的空间位置,得到最终预测特征图Out1、Out2、Out3
步骤4.2,使用BCE loss和CIoU loss函数计算预测特征图Out1、Out2、Out3与真实值之间的置信度、分类、定位损失,其中置信度损失如公式(25)所示:
Figure BDA0003628035970000091
其中S2为特征图的尺度,B=3为边界框的个数,
Figure BDA0003628035970000092
当第i个网格中的第j个边界框存在目标,值为1,否则为0,cij为真实的置信度,
Figure BDA0003628035970000093
为预测的置信度;
分类损失如公式(26)所示:
Figure BDA0003628035970000094
其中S2为特征图的尺度,B=3为边界框的个数,
Figure BDA0003628035970000095
当第i个网格中的第j个边界框存在目标,值为1,否则为0,pij为真实的概率,
Figure BDA0003628035970000096
为预测的概率;
定位损失如公式(27)所示:
Figure BDA0003628035970000097
其中
Figure BDA0003628035970000101
IoU为真实边界框与预测边界框的交并比,ρ2(b,bgt)为两边界框的中心距离,c为覆盖两边界框的最小框的对角线;
步骤4.3,使用Focal loss函数优化BCE loss,如公式(28)所示:
Figure BDA0003628035970000102
其中p为模型预测的概率,y为真实类别,α和γ为用于平衡损失的超参数;具体地,超参数α,γ分别为0.75和2;
步骤4.4,最终损失函数如公式(29)所示:
Figure BDA0003628035970000103
其中batch_size为单次训练选取的样本数,λconfclsloc为对应损失平衡系数;具体地,平衡系数λconfclsloc均为1;训练过程的损失曲线如图(5)所示;
步骤五,优化模型训练与测试;
本发明采用K-means算法对步骤一中标注的真实框聚类出9种尺寸,如图6所示,适配葡萄目标;采用两阶段训练,第一阶段冻结特征提取网络权重,第二阶段训练模型所有权重,提高训练效率,不同阶段的(epoch,batch size,learning rate)分别为(30,8,0.001)和(10,2,0.0001);采用学习率余弦退火策略,跳出局部最优解;采用标签平滑策略,增强模型泛化能力,其中平滑率为0.005;采用非极大值抑制,消除冗余的预测边界框,其中置信度阈值为0.5,交并比阈值为0.3。
葡萄检测结果如图7所示;本实施例在COCO评价标准下的mAP0.5=94.25%。
上诉具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权力要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (2)

1.基于改进YOLO v4的非结构环境下葡萄识别方法,其特征在于,具体步骤如下:
步骤一,构建数据集;
步骤1.1,分别在不同时段、不同光照角度、不同视角拍照自然环境下的葡萄图像;
步骤1.2,对葡萄目标进行标注;
步骤1.3,利用亮度调整、高斯模糊、仿射变换、镜像翻转、雨化处理五种方法对葡萄图像进行数据增强及增广;
步骤1.4,将数据集分为训练集、测试集、验证集;
步骤二,构建特征提取网络;
步骤2.1,推导SimAM注意力模块,通过计算能量函数来评估各个像素点的重要性,最小能量如公式(1)所示:
Figure FDA0003628035960000011
其中
Figure FDA0003628035960000012
分别为特征图单通道内像素的均值和方差,t为单通道内目标像素值,λ为超参数;将最小能量的倒数经过Sigmoid激活函数后与自身相乘,实现权值的分配,如公式(2)所示:
Figure FDA0003628035960000013
其中E为
Figure FDA0003628035960000014
在所有通道和空间维度的集合,X为输入特征图;
步骤2.2,将训练集作为输入,使用大小为3×3的卷积层来丰富输入图像的通道信息,得到输出的特征图为F2.2
步骤2.3,将SimAM注意力模块嵌入到YOLO v4主干网络的残差体模块中,形成新的Resblock_body_AM模块;其结构为:输入特征F2.2首先经过3×3卷积层收缩尺度;然后分别通过2个大小为1×1卷积层分割通道数,得到特征图F2.3.1和F2.3.2;再将F2.3.2输入残差块,F2.3.2在残差块中有序地经过大小为1×1和3×3的卷积层处理并将处理结果与自身相加,残差块将重复堆叠n次,得到特征图F2.3.3,如公式(3)所示:
F2.3.3=(F2.3.231(F2.3.2)))n#(3);
其中φ1和φ3分别为大小为1×1和3×3的卷积层;之后1×1卷积层对特征图F2.3.3进行空间维度整合;整合后的特征图与F2.3.1拼接,再用以1×1卷积层进行通道维度整合;最后经过SimAM注意力机制激发重要特征,得到Resblock_body_AM模块输出特征图F2.3,如公式(4)所示:
F2.3=ψ(φ1(Cat(F2.3.11(F2.3.3)))))#(4);
其中φ1为大小为1×1的卷积层,Cat为拼接函数,ψ为注意力机制函数;
步骤2.4,反复堆叠Resblock_body_AM模块5次,获得输出特征图P1、P2、P3、P4、P5
步骤三,构建特征融合网络;
步骤3.1,将特征图P5输入大小为1×1、3×3、1×1的卷积组,为空间金字塔池化调整通道数,得到特征图F3.1
步骤3.2,使用空间金字塔池化模块增大特征图F3.1的感受野,其结构为:将F3.1分别通过大小为5×5、9×9、13×13的最大池化层,再将池化结果进行通道拼接,得到特征图F3.2.1,如公式(5)所示:
F3.2.1=Cat(τ5(F3.1),τ9(F3.1),τ13(F3.1))#(5);
其中τ5、τ9、τ13分别为大小为5×5、9×9、13×13的最大池化层,Cat为拼接函数;再将特征图F3.2.1输入大小为1×1、3×3、1×1的卷积组调整通道数,得到输出特征图F3.2
步骤3.3,将特征图F3.2经过上采样层,得到特征图F3.3.1;再将特征图P4经过大小为1×1的卷积层调整通道数,得到特征图F3.3.2;将特征图F3.3.1与特征图F3.3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.3,如公式(6)所示:
F3.3=Φ5(Cat(up(F3.2),φ1(P4)))#(6);
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.4,将特征图F3.3经过上采样层,得到特征图F3.4.1;再将特征图P3经过大小为1×1的卷积层调整通道数,得到特征图F3.4.2;将特征图F3.4.2与特征图F3.4.1拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.4,如公式(7)所示:
F3.4=Φ5(Cat(up(F3.3),φ1(P3)))#(7);
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.5,将特征图F3.4经过下采样层,得到特征图F3.5.1;再分别对特征图F3.3、F3.5.1、F3.3.2施加权重ω0、ω1、ω2;将处理后的3个特征图相加,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.5如公式(8)所示:
F3.5=Φ50*F3.31*down(F3.4)+ω2*F3.3.2)#(8);
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤3.6,将特征图F3.5经过下采样层,得到特征图F3.6.1;将特征图F3.6.1与特征图F3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.6,如公式(9)所示:
F3.6=Φ5(Cat(down(F3.5),F3.2))#(9);
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤四,预测目标与损失传递;
步骤4.1,模型检测器由1个大小为3×3的卷积层和1个大小为1×1的卷积核组成,将特征图F3.6、F3.5、F3.4输入3个对应尺度的检测器预测葡萄的空间位置,得到最终预测特征图Out1、Out2、Out3
步骤4.2,使用BCE loss和CIoU loss函数计算预测特征图Out1、Out2、Out3与真实值之间的置信度、分类、定位损失,其中置信度损失如公式(10)所示:
Figure FDA0003628035960000031
其中S2为特征图的尺度,B为边界框的个数,
Figure FDA0003628035960000032
当第i个网格中的第j个边界框存在目标,值为1,否则为0,cij为真实的置信度,
Figure FDA0003628035960000033
为预测的置信度;
分类损失如公式(11)所示:
Figure FDA0003628035960000034
其中S2为特征图的尺度,B为边界框的个数,
Figure FDA0003628035960000041
当第i个网格中的第j个边界框存在目标,值为1,否则为0,pij为真实的概率,
Figure FDA0003628035960000042
为预测的概率;
定位损失如公式(12)所示:
Figure FDA0003628035960000043
其中
Figure FDA0003628035960000044
IoU为真实边界框与预测边界框的交并比,ρ2(b,bgt)为两边界框的中心距离,c为覆盖两边界框的最小框的对角线;
步骤4.3,使用Focalloss函数优化BCEloss,如公式(13)所示:
Figure FDA0003628035960000045
其中p为模型预测的概率,y为真实类别,α和γ为用于平衡损失的超参数;
步骤4.4,最终损失函数如公式(14)所示:
Figure FDA0003628035960000046
其中batch_size为单次训练选取的样本数,λconfclsloc为对应损失平衡系数;
步骤五,优化模型训练与测试。
2.如权利要求1所述的基于改进YOLO v4的非结构环境下葡萄识别方法,其特征在于,步骤五,优化模型训练的步骤为:采用两阶段训练,第一阶段冻结特征提取网络权重,第二阶段训练模型所有权重,提高训练效率;采用学习率余弦退火策略,跳出局部最优解;采用标签平滑策略,增强模型泛化能力,;采用非极大值抑制,消除冗余的预测边界框。
CN202210481476.6A 2022-05-05 基于改进YOLOv4的非结构环境下葡萄识别方法 Active CN115050021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210481476.6A CN115050021B (zh) 2022-05-05 基于改进YOLOv4的非结构环境下葡萄识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210481476.6A CN115050021B (zh) 2022-05-05 基于改进YOLOv4的非结构环境下葡萄识别方法

Publications (2)

Publication Number Publication Date
CN115050021A true CN115050021A (zh) 2022-09-13
CN115050021B CN115050021B (zh) 2024-05-14

Family

ID=

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116468730A (zh) * 2023-06-20 2023-07-21 齐鲁工业大学(山东省科学院) 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法
CN116665016A (zh) * 2023-06-26 2023-08-29 中国科学院长春光学精密机械与物理研究所 一种基于改进YOLOv5的单帧红外弱小目标检测方法
CN117392659A (zh) * 2023-12-12 2024-01-12 深圳市城市交通规划设计研究中心股份有限公司 一种基于无参数注意力机制优化的车辆车牌定位方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310861A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种基于深度神经网络的车牌识别和定位方法
CN114120019A (zh) * 2021-11-08 2022-03-01 贵州大学 一种轻量化的目标检测方法
CN114202672A (zh) * 2021-12-09 2022-03-18 南京理工大学 一种基于注意力机制的小目标检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310861A (zh) * 2020-03-27 2020-06-19 西安电子科技大学 一种基于深度神经网络的车牌识别和定位方法
CN114120019A (zh) * 2021-11-08 2022-03-01 贵州大学 一种轻量化的目标检测方法
CN114202672A (zh) * 2021-12-09 2022-03-18 南京理工大学 一种基于注意力机制的小目标检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116468730A (zh) * 2023-06-20 2023-07-21 齐鲁工业大学(山东省科学院) 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法
CN116468730B (zh) * 2023-06-20 2023-09-05 齐鲁工业大学(山东省科学院) 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法
CN116665016A (zh) * 2023-06-26 2023-08-29 中国科学院长春光学精密机械与物理研究所 一种基于改进YOLOv5的单帧红外弱小目标检测方法
CN116665016B (zh) * 2023-06-26 2024-02-23 中国科学院长春光学精密机械与物理研究所 一种基于改进YOLOv5的单帧红外弱小目标检测方法
CN117392659A (zh) * 2023-12-12 2024-01-12 深圳市城市交通规划设计研究中心股份有限公司 一种基于无参数注意力机制优化的车辆车牌定位方法

Similar Documents

Publication Publication Date Title
Zheng et al. A mango picking vision algorithm on instance segmentation and key point detection from RGB images in an open orchard
CN108108764B (zh) 一种基于随机森林的视觉slam回环检测方法
CN111259850A (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN106897673B (zh) 一种基于retinex算法和卷积神经网络的行人再识别方法
CN112906485B (zh) 基于改进的yolo模型的视障人士辅助障碍物感知方法
CN112464911A (zh) 基于改进YOLOv3-tiny的交通标志检测与识别方法
Wang et al. Precision detection of dense plums in orchards using the improved YOLOv4 model
CN114972208B (zh) 一种基于YOLOv4的轻量化小麦赤霉病检测方法
CN113420794B (zh) 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法
Li et al. High-efficiency tea shoot detection method via a compressed deep learning model
CN113205103A (zh) 一种轻量级的文身检测方法
CN113128476A (zh) 一种基于计算机视觉目标检测的低功耗实时头盔检测方法
CN114445715A (zh) 一种基于卷积神经网络的农作物病害识别方法
CN107516083A (zh) 一种面向识别的远距离人脸图像增强方法
CN116311042A (zh) 一种改进yolo模型的智能草坪修剪机目标检测方法
CN115050021B (zh) 基于改进YOLOv4的非结构环境下葡萄识别方法
CN115050021A (zh) 基于改进YOLOv4的非结构环境下葡萄识别方法
CN115861768A (zh) 一种基于改进YOLOv5的金银花目标检测及采摘点定位方法
CN115631462A (zh) 基于am-yolox的草莓病虫害检测方法及系统
CN115619719A (zh) 一种基于改进Yolo v3网络模型的松材线虫病疫木检测方法
CN111950586B (zh) 一种引入双向注意力的目标检测方法
Khokher et al. Early yield estimation in viticulture based on grapevine inflorescence detection and counting in videos
CN113887381A (zh) 轻量化卫星云图神经网络训练方法以及降雨检测方法
Li et al. MCFF: Plant leaf detection based on multi-scale CNN feature fusion
CN117218606B (zh) 一种逃生门检测方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant