CN115050021A - 基于改进YOLOv4的非结构环境下葡萄识别方法 - Google Patents
基于改进YOLOv4的非结构环境下葡萄识别方法 Download PDFInfo
- Publication number
- CN115050021A CN115050021A CN202210481476.6A CN202210481476A CN115050021A CN 115050021 A CN115050021 A CN 115050021A CN 202210481476 A CN202210481476 A CN 202210481476A CN 115050021 A CN115050021 A CN 115050021A
- Authority
- CN
- China
- Prior art keywords
- convolution
- characteristic diagram
- feature map
- feature
- sizes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 235000009754 Vitis X bourquina Nutrition 0.000 title claims abstract description 33
- 235000012333 Vitis X labruscana Nutrition 0.000 title claims abstract description 33
- 235000014787 Vitis vinifera Nutrition 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 22
- 240000006365 Vitis vinifera Species 0.000 title 1
- 241000219095 Vitis Species 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 26
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 241000219094 Vitaceae Species 0.000 claims abstract description 12
- 235000021021 grapes Nutrition 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000010586 diagram Methods 0.000 claims description 67
- 230000006870 function Effects 0.000 claims description 32
- 238000005070 sampling Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 15
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000000137 annealing Methods 0.000 claims description 3
- 230000003416 augmentation Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000005286 illumination Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 238000011897 real-time detection Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 239000002420 orchard Substances 0.000 description 1
- 101150050759 outI gene Proteins 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明涉及图像处理技术领域,具体涉及基于改进YOLOv4的非结构环境下葡萄识别方法。该方法在主干网络的残差体模块中融入SimAM注意力机制,增加特征融合网络连接路径并为融合的特征图分配简单权重。通过对重要特征的高效提取及融合,抑制无用特征,实现在复杂工作条件下对葡萄的实时检测。此外为了提高改进YOLOv4的训练效率,本发明使用Focal loss优化BCE loss,并根据模型结构及训练对象调整超参数,使得预测效果最佳。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及基于改进YOLOv4的非结构环境下葡萄识别方法。
背景技术
葡萄作为日常生活中最常见的水果之一富含较高的营养、药用及经济价值,然而目前葡萄的采摘主要依靠人工,长期工作不仅效率低还会对工人身心造成负担。因此,具备视觉感知能力的葡萄采摘机器人的出现迫在眉睫,但受到葡萄簇状密集生长特性及天气的影响,解决果实重叠、枝叶遮挡、光照波动、雨雾干扰等问题成为视觉感知的重点研究内容。
完成葡萄恶劣环境下的准确识别,有利于实现采摘机器人的连续工作,不仅从采摘效率上优于人工,其工作受限条件也远远优于人工。由于自然状态下的葡萄生长于非结构化环境,果园的复杂背景,遮挡物的随机分布,光强及角度的不断变化,都对葡萄识别得准确性及全面性提出挑战。中国专利CN 109255757 A公开了一种基于机器学习的葡萄串果梗区域分割方法,该方法通过对葡萄的HIS图像进行滤波、锐化、边缘检测及形态学操作,实现对葡萄串果梗区域的检测。该方法具有不错的检测速度,同时可降低相机感知时造成的色彩偏差及噪点像素的干扰,然而,由于其对果梗的分割主要依赖于直方图的统计,因此该方法对难以解决重叠、遮挡等问题。Wei Yin等在文献“Fruit Detection and PoseEstimation for Grape Cluster–Harvesting Robot Using Binocular Imagery Basedon Deep Neural Networks”中提出使用Mask R-CNN网络将葡萄与背景分割,通过双目相机提取分割区域的点云信息,并进行降噪处理,最终采用RANSAC算法重建葡萄圆柱模型,实现对目标姿态的估计。该方法可引导采摘机器人完成最优抓取姿态,然而受步骤多,计算量大的限制,该方法难以达到实时检测,同时遮挡、重叠问题也会对葡萄的分割造成困扰。
发明内容
针对现有技术的不足,本发明提出了一种基于改进YOLOv4的非结构环境下葡萄识别方法,该方法在主干网络的残差体模块中融入SimAM注意力机制,增加特征融合网络连接路径并为融合的特征图分配简单权重。通过对重要特征的高效提取及融合,抑制无用特征,实现在复杂工作条件下对葡萄的实时检测。此外为了提高改进YOLOv4的训练效率,本发明使用Focal loss优化BCE loss,并根据模型结构及训练对象调整超参数,使得预测效果最佳。
一种基于改进YOLO v4的非结构环境下葡萄识别方法,具体包括以下步骤:
步骤一,构建数据集;
步骤1.1,分别在不同时段、不同光照角度、不同视角拍照自然环境下的葡萄图像;
步骤1.2,对葡萄目标进行标注;
步骤1.3,利用亮度调整、高斯模糊、仿射变换、镜像翻转、雨化处理五种方法对葡萄图像进行数据增强及增广;
步骤1.4,将数据集分为训练集、测试集、验证集;
步骤二,构建特征提取网络;
步骤2.1,推导SimAM注意力模块,通过计算能量函数来评估各个像素点的重要性,最小能量如公式(1)所示:
步骤2.2,将训练集作为输入,使用大小为3×3的卷积层来丰富输入图像的通道信息,得到输出的特征图为F2.2;
步骤2.3,将SimAM注意力模块嵌入到YOLO v4主干网络的残差体模块中,形成新的Resblock_body_AM模块;其结构为:输入特征F2.2首先经过3×3卷积层收缩尺度;然后分别通过2个大小为1×1卷积层分割通道数,得到特征图F2.3.1和F2.3.2;再将F2.3.2输入残差块,F2.3.2在残差块中有序地经过大小为1×1和3×3的卷积层处理并将处理结果与自身相加,残差块将重复堆叠n次,得到特征图F2.3.3,如公式(3)所示:
F2.3.3=(F2.3.2+φ3(φ1(F2.3.2)))n#(3)
其中φ1和φ3分别为大小为1×1和3×3的卷积层;之后1×1卷积层对特征图F2.3.3进行空间维度整合;整合后的特征图与F2.3.1拼接,再用以1×1卷积层进行通道维度整合;最后经过SimAM注意力机制激发重要特征,得到Resblock_body_AM模块输出特征图F2.3,如公式(4)所示:
F2.3=ψ(φ1(Cat(F2.3.1,φ1(F2.3.3)))))#(4)
其中φ1为大小为1×1的卷积层,Cat为拼接函数,ψ为注意力机制函数;
步骤2.4,反复堆叠Resblock_body_AM模块5次,获得输出特征图P1、P2、P3、P4、P5;
步骤三,构建特征融合网络;
步骤3.1,将特征图P5输入大小为1×1、3×3、1×1的卷积组,为空间金字塔池化调整通道数,得到特征图F3.1;
步骤3.2,使用空间金字塔池化模块增大特征图F3.1的感受野,其结构为:将F3.1分别通过大小为5×5、9×9、13×13的最大池化层,再将池化结果进行通道拼接,得到特征图F3.2.1,如公式(5)所示:
F3.2.1=Cat(τ5(F3.1),τ9(F3.1),τ13(F3.1))#(5)
其中τ5、τ9、τ13分别为大小为5×5、9×9、13×13的最大池化层,Cat为拼接函数;再将特征图F3.2.1输入大小为1×1、3×3、1×1的卷积组调整通道数,得到输出特征图F3.2;
步骤3.3,将特征图F3.2经过上采样层,得到特征图F3.3.1;再将特征图P4经过大小为1×1的卷积层调整通道数,得到特征图F3.3.2;将特征图F3.3.1与特征图F3.3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.3,如公式(6)所示:
F3.3=Φ5(Cat(up(F3.2),φ1(P4)))#(6)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.4,将特征图F3.3经过上采样层,得到特征图F3.4.1;再将特征图P3经过大小为1×1的卷积层调整通道数,得到特征图F3.4.2;将特征图F3.4.2与特征图F3.4.1拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.4,如公式(7)所示:
F3.4=Φ5(Cat(up(F3.3),φ1(P3)))#(7)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.5,将特征图F3.4经过下采样层,得到特征图F3.5.1;再分别对特征图F3.3、F3.5.1、F3.3.2施加权重ω0、ω1、ω2;将处理后的3个特征图相加,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.5如公式(8)所示:
F3.5=Φ5(ω0*F3.3+ω1*down(F3.4)+ω2*F3.3.2)#(8)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤3.6,将特征图F3.5经过下采样层,得到特征图F3.6.1;将特征图F3.6.1与特征图F3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.6,如公式(9)所示:
F3.6=Φ5(Cat(down(F3.5),F3.2))#(9)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤四,预测目标与损失传递;
步骤4.1,模型检测器由1个大小为3×3的卷积层和1个大小为1×1的卷积核组成,将特征图F3.6、F3.5、F3.4输入3个对应尺度的检测器预测葡萄的空间位置,得到最终预测特征图Out1、Out2、Out3;
步骤4.2,使用BCE loss和CIoU loss函数计算预测特征图Out1、Out2、Out3与真实值之间的置信度、分类、定位损失,其中置信度损失如公式(10)所示:
分类损失如公式(11)所示:
定位损失如公式(12)所示:
步骤4.3,使用Focal loss函数优化BCE loss,如公式(13)所示:
其中p为模型预测的概率,y为真实类别,α和γ为用于平衡损失的超参数;
步骤4.4,最终损失函数如公式(14)所示:
其中batch_size为单次训练选取的样本数,λconf,λcls,λloc为对应损失平衡系数;
步骤五,优化模型训练与测试。
本发明采用K-means算法对步骤一中标注的真实框聚类出9种尺寸,适配葡萄目标;采用两阶段训练,第一阶段冻结特征提取网络权重,第二阶段训练模型所有权重,提高训练效率;采用学习率余弦退火策略,跳出局部最优解;采用标签平滑策略,增强模型泛化能力;采用非极大值抑制,消除冗余的预测边界框。
本发明具有以下有益效果:
1.本发明使用嵌入SimAM注意力机制的特征提取网络,可对特征图的全维度信息分配权重,强化重要特征抑制无效特征,能够从输入图像中高效地提取目标葡萄特征,克服由于遮挡、重叠等造成的目标特征不完整问题;
2.本发明使用了更加全面的特征融合结构,减缓了特征图在不断卷积操作下的信息丢失情况,此外特征图在融合过程中被施加权重,模型可自适应地进行学习,从而实现在复杂背景、雨雾等特征不明显环境下的检测;
3.本发明使用Focal loss优化BCE loss,解决了训练过程中正负样本不平衡的问题,使得模型收敛更快,损失饱和值更小,提高模型训练效率。
附图说明
图1为实施例中构建的葡萄数据集;
图2为实施例中构建的葡萄检测模型结构图;
图3为实施例中构建的特征提取网络参数图;
图4为实施例中构建的特征融合网络结构图;
图5为实施例中采用不同函数的损失曲线图;
图6为实施例中K-means聚类出的边界框尺寸图;
图7为实施例中模型在恶劣环境下葡萄检测结果图。
具体实施方式
以下结合附图对本发明做进一步的解释说明:
步骤一,构建数据集;
步骤1.1,分别在8:00、13:00和18:00三个时段拍摄葡萄图像,各个时段选取的光照条件包括前景光、背景光、侧照光以及散射光,同时相机距离葡萄树干1.5m处放置,采用垂直和平行树干视角拍摄;
步骤1.2,使用LabelImg工具标注区域大于80%的葡萄目标;
步骤1.3,如图1所示,利用Python第三方ImgAug库对葡萄图像进行亮度调整、高斯模糊、仿射变换、镜像翻转、雨化处理五种数据增强及增广方法,其中亮度调整系数为0.7-1.2,高斯模糊的均值为0,方差为3,仿射变换x,y方向平移系数为15,尺度系数为0.8-0.95,旋转角度为-30°-30°;
步骤1.4,将数据集按7:1:2的比例划分为训练集、测试集、验证集;
步骤二,构建特征提取网络;
步骤2.1,推导SimAM注意力模块,通过计算能量函数来评估各个像素点的重要性,最小能量如公式(15)所示:
步骤2.2,将训练集尺寸归一化至6082×3,使用大小为3×3的卷积层将输入图像的通道数丰富至32,得到输出的特征图为F2.2;
步骤2.3,如图2所示,将SimAM注意力机制嵌入到YOLO v4主干网络的残差体模块中,形成新的Resblock_body_AM模块;其结构为:输入特征F2.2首先经过3×3卷积层收缩尺度;然后分别通过2个大小为1×1卷积层分割通道数,得到特征图F2.3.1和F2.3.2;再将F2.3.2输入残差块,F2.3.2在残差块中有序地经过大小为1×1和3×3的卷积层处理并将处理结果与自身相加,残差块将重复堆叠n次,得到特征图F2.3.3,如公式(17)所示:
F2.3.3=(F2.3.2+φ3(φ1(F2.3.2)))n#(17)
其中φ1和φ3分别为大小为1×1和3×3的卷积层;之后1×1卷积层对特征图F2.3.3进行空间维度整合;整合后的特征图与F2.3.1拼接,再用以1×1卷积层进行通道维度整合;最后经过SimAM注意力机制激发重要特征,得到Resblock_body_AM模块输出特征图F2.3,如公式(18)所示:
F2.3=ψ(φ1(Cat(F2.3.1,φ1(F2.3.3)))))#(18)
其中φ1为大小为1×1的卷积层,Cat为拼接函数,ψ为注意力机制函数;
步骤2.4,如图3所示,反复堆叠Resblock_body_AM模块5次,每个模块中残差块的堆叠次数n分别为:1、2、8、8、4,得到5个输出特征图为P1、P2、P3、P4、P5,其尺度分别为3042×64、1522×128、762×256、382×512、192×1024;
步骤三,构建特征融合网络;
步骤3.1,将特征图P5输入大小为1×1、3×3、1×1的卷积组,为空间金字塔池化调整通道数,得到特征图F3.1;
步骤3.2,使用空间金字塔池化模块增大特征图F3.1的感受野,其结构为:将F3.1分别通过大小为5×5、9×9、13×13的最大池化层,再将池化结果进行通道拼接,得到特征图F3.2.1,如公式(19)所示:
F3.2.1=Cat(τ5(F3.1),τ9(F3.1),τ13(F3.1))#(19)
其中τ5、τ9、τ13分别为大小为5×5、9×9、13×13的最大池化层,Cat为拼接函数;再将特征图F3.2.1输入大小为1×1、3×3、1×1的卷积组调整通道数,得到输出特征图F3.2;
步骤3.3,如图4所示,将特征图F3.2经过上采样层,得到特征图F3.3.1;再将特征图P4经过大小为1×1的卷积层调整通道数,得到特征图F3.3.2;将特征图F3.3.1与特征图F3.3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.3,如公式(20)所示:
F3.3=Φ5(Cat(up(F3.2),φ1(P4)))#(20)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,ω1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.4,将特征图F3.3经过上采样层,得到特征图F3.4.1;再将特征图P3经过大小为1×1的卷积层调整通道数,得到特征图F3.4.2;将特征图F3.4.2与特征图F3.4.1拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.4,如公式(21)所示:
F3.4=Φ5(Cat(up(F3.3),φ1(P3)))#(21)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.5,将特征图F3.4经过下采样层,得到特征图F3.5.1;再分别对特征图F3.3、F3.5.1、F3.3.2施加权重ω0、ω1、ω2,可训练权重通过快速归一法获得,如公式(22)所示:
其中ReLU为激活函数,weighti为第i个可训练权值,∈为数值稳定参数;具体地,稳定参数∈取10-4;将处理后的3个特征图相加,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.5如公式(23)所示:
F3.5=Φ5(ω0*F3.3+ω1*down(F3.4)+ω2*F3.3.2)#(23)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤3.6,将特征图F3.5经过下采样层,得到特征图F3.6.1;将特征图F3.6.1与特征图F3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.6,如公式(24)所示:
F3.6=Φ5(Cat(down(F3.5),F3.2))#(24)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤四,预测目标与损失传递;
步骤4.1,模型检测器由1个大小为3×3的卷积层和1个大小为1×1的卷积核组成,将特征图F3.6、F3.5、F3.4输入3个对应尺度的检测器预测葡萄的空间位置,得到最终预测特征图Out1、Out2、Out3;
步骤4.2,使用BCE loss和CIoU loss函数计算预测特征图Out1、Out2、Out3与真实值之间的置信度、分类、定位损失,其中置信度损失如公式(25)所示:
分类损失如公式(26)所示:
定位损失如公式(27)所示:
步骤4.3,使用Focal loss函数优化BCE loss,如公式(28)所示:
其中p为模型预测的概率,y为真实类别,α和γ为用于平衡损失的超参数;具体地,超参数α,γ分别为0.75和2;
步骤4.4,最终损失函数如公式(29)所示:
其中batch_size为单次训练选取的样本数,λconf,λcls,λloc为对应损失平衡系数;具体地,平衡系数λconf,λcls,λloc均为1;训练过程的损失曲线如图(5)所示;
步骤五,优化模型训练与测试;
本发明采用K-means算法对步骤一中标注的真实框聚类出9种尺寸,如图6所示,适配葡萄目标;采用两阶段训练,第一阶段冻结特征提取网络权重,第二阶段训练模型所有权重,提高训练效率,不同阶段的(epoch,batch size,learning rate)分别为(30,8,0.001)和(10,2,0.0001);采用学习率余弦退火策略,跳出局部最优解;采用标签平滑策略,增强模型泛化能力,其中平滑率为0.005;采用非极大值抑制,消除冗余的预测边界框,其中置信度阈值为0.5,交并比阈值为0.3。
葡萄检测结果如图7所示;本实施例在COCO评价标准下的mAP0.5=94.25%。
上诉具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权力要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (2)
1.基于改进YOLO v4的非结构环境下葡萄识别方法,其特征在于,具体步骤如下:
步骤一,构建数据集;
步骤1.1,分别在不同时段、不同光照角度、不同视角拍照自然环境下的葡萄图像;
步骤1.2,对葡萄目标进行标注;
步骤1.3,利用亮度调整、高斯模糊、仿射变换、镜像翻转、雨化处理五种方法对葡萄图像进行数据增强及增广;
步骤1.4,将数据集分为训练集、测试集、验证集;
步骤二,构建特征提取网络;
步骤2.1,推导SimAM注意力模块,通过计算能量函数来评估各个像素点的重要性,最小能量如公式(1)所示:
步骤2.2,将训练集作为输入,使用大小为3×3的卷积层来丰富输入图像的通道信息,得到输出的特征图为F2.2;
步骤2.3,将SimAM注意力模块嵌入到YOLO v4主干网络的残差体模块中,形成新的Resblock_body_AM模块;其结构为:输入特征F2.2首先经过3×3卷积层收缩尺度;然后分别通过2个大小为1×1卷积层分割通道数,得到特征图F2.3.1和F2.3.2;再将F2.3.2输入残差块,F2.3.2在残差块中有序地经过大小为1×1和3×3的卷积层处理并将处理结果与自身相加,残差块将重复堆叠n次,得到特征图F2.3.3,如公式(3)所示:
F2.3.3=(F2.3.2+φ3(φ1(F2.3.2)))n#(3);
其中φ1和φ3分别为大小为1×1和3×3的卷积层;之后1×1卷积层对特征图F2.3.3进行空间维度整合;整合后的特征图与F2.3.1拼接,再用以1×1卷积层进行通道维度整合;最后经过SimAM注意力机制激发重要特征,得到Resblock_body_AM模块输出特征图F2.3,如公式(4)所示:
F2.3=ψ(φ1(Cat(F2.3.1,φ1(F2.3.3)))))#(4);
其中φ1为大小为1×1的卷积层,Cat为拼接函数,ψ为注意力机制函数;
步骤2.4,反复堆叠Resblock_body_AM模块5次,获得输出特征图P1、P2、P3、P4、P5;
步骤三,构建特征融合网络;
步骤3.1,将特征图P5输入大小为1×1、3×3、1×1的卷积组,为空间金字塔池化调整通道数,得到特征图F3.1;
步骤3.2,使用空间金字塔池化模块增大特征图F3.1的感受野,其结构为:将F3.1分别通过大小为5×5、9×9、13×13的最大池化层,再将池化结果进行通道拼接,得到特征图F3.2.1,如公式(5)所示:
F3.2.1=Cat(τ5(F3.1),τ9(F3.1),τ13(F3.1))#(5);
其中τ5、τ9、τ13分别为大小为5×5、9×9、13×13的最大池化层,Cat为拼接函数;再将特征图F3.2.1输入大小为1×1、3×3、1×1的卷积组调整通道数,得到输出特征图F3.2;
步骤3.3,将特征图F3.2经过上采样层,得到特征图F3.3.1;再将特征图P4经过大小为1×1的卷积层调整通道数,得到特征图F3.3.2;将特征图F3.3.1与特征图F3.3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.3,如公式(6)所示:
F3.3=Φ5(Cat(up(F3.2),φ1(P4)))#(6);
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.4,将特征图F3.3经过上采样层,得到特征图F3.4.1;再将特征图P3经过大小为1×1的卷积层调整通道数,得到特征图F3.4.2;将特征图F3.4.2与特征图F3.4.1拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.4,如公式(7)所示:
F3.4=Φ5(Cat(up(F3.3),φ1(P3)))#(7);
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.5,将特征图F3.4经过下采样层,得到特征图F3.5.1;再分别对特征图F3.3、F3.5.1、F3.3.2施加权重ω0、ω1、ω2;将处理后的3个特征图相加,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.5如公式(8)所示:
F3.5=Φ5(ω0*F3.3+ω1*down(F3.4)+ω2*F3.3.2)#(8);
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤3.6,将特征图F3.5经过下采样层,得到特征图F3.6.1;将特征图F3.6.1与特征图F3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.6,如公式(9)所示:
F3.6=Φ5(Cat(down(F3.5),F3.2))#(9);
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤四,预测目标与损失传递;
步骤4.1,模型检测器由1个大小为3×3的卷积层和1个大小为1×1的卷积核组成,将特征图F3.6、F3.5、F3.4输入3个对应尺度的检测器预测葡萄的空间位置,得到最终预测特征图Out1、Out2、Out3;
步骤4.2,使用BCE loss和CIoU loss函数计算预测特征图Out1、Out2、Out3与真实值之间的置信度、分类、定位损失,其中置信度损失如公式(10)所示:
分类损失如公式(11)所示:
定位损失如公式(12)所示:
步骤4.3,使用Focalloss函数优化BCEloss,如公式(13)所示:
其中p为模型预测的概率,y为真实类别,α和γ为用于平衡损失的超参数;
步骤4.4,最终损失函数如公式(14)所示:
其中batch_size为单次训练选取的样本数,λconf,λcls,λloc为对应损失平衡系数;
步骤五,优化模型训练与测试。
2.如权利要求1所述的基于改进YOLO v4的非结构环境下葡萄识别方法,其特征在于,步骤五,优化模型训练的步骤为:采用两阶段训练,第一阶段冻结特征提取网络权重,第二阶段训练模型所有权重,提高训练效率;采用学习率余弦退火策略,跳出局部最优解;采用标签平滑策略,增强模型泛化能力,;采用非极大值抑制,消除冗余的预测边界框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210481476.6A CN115050021B (zh) | 2022-05-05 | 基于改进YOLOv4的非结构环境下葡萄识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210481476.6A CN115050021B (zh) | 2022-05-05 | 基于改进YOLOv4的非结构环境下葡萄识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115050021A true CN115050021A (zh) | 2022-09-13 |
CN115050021B CN115050021B (zh) | 2024-05-14 |
Family
ID=
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116468730A (zh) * | 2023-06-20 | 2023-07-21 | 齐鲁工业大学(山东省科学院) | 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法 |
CN116665016A (zh) * | 2023-06-26 | 2023-08-29 | 中国科学院长春光学精密机械与物理研究所 | 一种基于改进YOLOv5的单帧红外弱小目标检测方法 |
CN117392659A (zh) * | 2023-12-12 | 2024-01-12 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种基于无参数注意力机制优化的车辆车牌定位方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310861A (zh) * | 2020-03-27 | 2020-06-19 | 西安电子科技大学 | 一种基于深度神经网络的车牌识别和定位方法 |
CN114120019A (zh) * | 2021-11-08 | 2022-03-01 | 贵州大学 | 一种轻量化的目标检测方法 |
CN114202672A (zh) * | 2021-12-09 | 2022-03-18 | 南京理工大学 | 一种基于注意力机制的小目标检测方法 |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310861A (zh) * | 2020-03-27 | 2020-06-19 | 西安电子科技大学 | 一种基于深度神经网络的车牌识别和定位方法 |
CN114120019A (zh) * | 2021-11-08 | 2022-03-01 | 贵州大学 | 一种轻量化的目标检测方法 |
CN114202672A (zh) * | 2021-12-09 | 2022-03-18 | 南京理工大学 | 一种基于注意力机制的小目标检测方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116468730A (zh) * | 2023-06-20 | 2023-07-21 | 齐鲁工业大学(山东省科学院) | 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法 |
CN116468730B (zh) * | 2023-06-20 | 2023-09-05 | 齐鲁工业大学(山东省科学院) | 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法 |
CN116665016A (zh) * | 2023-06-26 | 2023-08-29 | 中国科学院长春光学精密机械与物理研究所 | 一种基于改进YOLOv5的单帧红外弱小目标检测方法 |
CN116665016B (zh) * | 2023-06-26 | 2024-02-23 | 中国科学院长春光学精密机械与物理研究所 | 一种基于改进YOLOv5的单帧红外弱小目标检测方法 |
CN117392659A (zh) * | 2023-12-12 | 2024-01-12 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种基于无参数注意力机制优化的车辆车牌定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | A mango picking vision algorithm on instance segmentation and key point detection from RGB images in an open orchard | |
CN108108764B (zh) | 一种基于随机森林的视觉slam回环检测方法 | |
CN111259850A (zh) | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 | |
CN106897673B (zh) | 一种基于retinex算法和卷积神经网络的行人再识别方法 | |
CN112906485B (zh) | 基于改进的yolo模型的视障人士辅助障碍物感知方法 | |
CN112464911A (zh) | 基于改进YOLOv3-tiny的交通标志检测与识别方法 | |
Wang et al. | Precision detection of dense plums in orchards using the improved YOLOv4 model | |
CN114972208B (zh) | 一种基于YOLOv4的轻量化小麦赤霉病检测方法 | |
CN113420794B (zh) | 一种基于深度学习的二值化Faster R-CNN柑橘病虫害识别方法 | |
Li et al. | High-efficiency tea shoot detection method via a compressed deep learning model | |
CN113205103A (zh) | 一种轻量级的文身检测方法 | |
CN113128476A (zh) | 一种基于计算机视觉目标检测的低功耗实时头盔检测方法 | |
CN114445715A (zh) | 一种基于卷积神经网络的农作物病害识别方法 | |
CN107516083A (zh) | 一种面向识别的远距离人脸图像增强方法 | |
CN116311042A (zh) | 一种改进yolo模型的智能草坪修剪机目标检测方法 | |
CN115050021B (zh) | 基于改进YOLOv4的非结构环境下葡萄识别方法 | |
CN115050021A (zh) | 基于改进YOLOv4的非结构环境下葡萄识别方法 | |
CN115861768A (zh) | 一种基于改进YOLOv5的金银花目标检测及采摘点定位方法 | |
CN115631462A (zh) | 基于am-yolox的草莓病虫害检测方法及系统 | |
CN115619719A (zh) | 一种基于改进Yolo v3网络模型的松材线虫病疫木检测方法 | |
CN111950586B (zh) | 一种引入双向注意力的目标检测方法 | |
Khokher et al. | Early yield estimation in viticulture based on grapevine inflorescence detection and counting in videos | |
CN113887381A (zh) | 轻量化卫星云图神经网络训练方法以及降雨检测方法 | |
Li et al. | MCFF: Plant leaf detection based on multi-scale CNN feature fusion | |
CN117218606B (zh) | 一种逃生门检测方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |