CN115050021B - 基于改进YOLOv4的非结构环境下葡萄识别方法 - Google Patents
基于改进YOLOv4的非结构环境下葡萄识别方法 Download PDFInfo
- Publication number
- CN115050021B CN115050021B CN202210481476.6A CN202210481476A CN115050021B CN 115050021 B CN115050021 B CN 115050021B CN 202210481476 A CN202210481476 A CN 202210481476A CN 115050021 B CN115050021 B CN 115050021B
- Authority
- CN
- China
- Prior art keywords
- feature map
- convolution
- multiplied
- feature
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 235000009754 Vitis X bourquina Nutrition 0.000 title claims abstract description 35
- 235000012333 Vitis X labruscana Nutrition 0.000 title claims abstract description 35
- 235000014787 Vitis vinifera Nutrition 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000006872 improvement Effects 0.000 title abstract description 5
- 240000006365 Vitis vinifera Species 0.000 title 1
- 241000219095 Vitis Species 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 15
- 241000219094 Vitaceae Species 0.000 claims abstract description 10
- 235000021021 grapes Nutrition 0.000 claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 32
- 238000010586 diagram Methods 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 11
- 230000010354 integration Effects 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000005286 illumination Methods 0.000 claims description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 241000282326 Felis catus Species 0.000 claims description 3
- 238000000137 annealing Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 230000003416 augmentation Effects 0.000 claims description 2
- 230000008014 freezing Effects 0.000 claims description 2
- 238000007710 freezing Methods 0.000 claims description 2
- 238000011897 real-time detection Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 7
- 235000013399 edible fruits Nutrition 0.000 description 4
- 230000008569 process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 239000002420 orchard Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Medicines Containing Plant Substances (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理技术领域,具体涉及基于改进YOLOv4的非结构环境下葡萄识别方法。该方法在主干网络的残差体模块中融入SimAM注意力机制,增加特征融合网络连接路径并为融合的特征图分配简单权重。通过对重要特征的高效提取及融合,抑制无用特征,实现在复杂工作条件下对葡萄的实时检测。此外为了提高改进YOLOv4的训练效率,本发明使用Focal loss优化BCE loss,并根据模型结构及训练对象调整超参数,使得预测效果最佳。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及基于改进YOLOv4的非结构环境下葡萄识别方法。
背景技术
葡萄作为日常生活中最常见的水果之一富含较高的营养、药用及经济价值,然而目前葡萄的采摘主要依靠人工,长期工作不仅效率低还会对工人身心造成负担。因此,具备视觉感知能力的葡萄采摘机器人的出现迫在眉睫,但受到葡萄簇状密集生长特性及天气的影响,解决果实重叠、枝叶遮挡、光照波动、雨雾干扰等问题成为视觉感知的重点研究内容。
完成葡萄恶劣环境下的准确识别,有利于实现采摘机器人的连续工作,不仅从采摘效率上优于人工,其工作受限条件也远远优于人工。由于自然状态下的葡萄生长于非结构化环境,果园的复杂背景,遮挡物的随机分布,光强及角度的不断变化,都对葡萄识别得准确性及全面性提出挑战。中国专利CN 109255757 A公开了一种基于机器学习的葡萄串果梗区域分割方法,该方法通过对葡萄的HIS图像进行滤波、锐化、边缘检测及形态学操作,实现对葡萄串果梗区域的检测。该方法具有不错的检测速度,同时可降低相机感知时造成的色彩偏差及噪点像素的干扰,然而,由于其对果梗的分割主要依赖于直方图的统计,因此该方法对难以解决重叠、遮挡等问题。Wei Yin等在文献“Fruit Detection and PoseEstimation for Grape Cluster–Harvesting Robot Using Binocular Imagery Basedon Deep Neural Networks”中提出使用Mask R-CNN网络将葡萄与背景分割,通过双目相机提取分割区域的点云信息,并进行降噪处理,最终采用RANSAC算法重建葡萄圆柱模型,实现对目标姿态的估计。该方法可引导采摘机器人完成最优抓取姿态,然而受步骤多,计算量大的限制,该方法难以达到实时检测,同时遮挡、重叠问题也会对葡萄的分割造成困扰。
发明内容
针对现有技术的不足,本发明提出了一种基于改进YOLOv4的非结构环境下葡萄识别方法,该方法在主干网络的残差体模块中融入SimAM注意力机制,增加特征融合网络连接路径并为融合的特征图分配简单权重。通过对重要特征的高效提取及融合,抑制无用特征,实现在复杂工作条件下对葡萄的实时检测。此外为了提高改进YOLOv4的训练效率,本发明使用Focal loss优化BCE loss,并根据模型结构及训练对象调整超参数,使得预测效果最佳。
一种基于改进YOLO v4的非结构环境下葡萄识别方法,具体包括以下步骤:
步骤一,构建数据集;
步骤1.1,分别在不同时段、不同光照角度、不同视角拍照自然环境下的葡萄图像;
步骤1.2,对葡萄目标进行标注;
步骤1.3,利用亮度调整、高斯模糊、仿射变换、镜像翻转、雨化处理五种方法对葡萄图像进行数据增强及增广;
步骤1.4,将数据集分为训练集、测试集、验证集;
步骤二,构建特征提取网络;
步骤2.1,推导SimAM注意力模块,通过计算能量函数来评估各个像素点的重要性,最小能量如公式(1)所示:
其中分别为特征图单通道内像素的均值和方差,t为单通道内目标像素值,λ为超参数;将最小能量的倒数经过Sigmoid激活函数后与自身相乘,实现权值的分配,如公式(2)所示:
其中E为在所有通道和空间维度的集合,X为输入特征图;
步骤2.2,将训练集作为输入,使用大小为3×3的卷积层来丰富输入图像的通道信息,得到输出的特征图为F2.2;
步骤2.3,将SimAM注意力模块嵌入到YOLO v4主干网络的残差体模块中,形成新的Resblock_body_AM模块;其结构为:输入特征F2.2首先经过3×3卷积层收缩尺度;然后分别通过2个大小为1×1卷积层分割通道数,得到特征图F2.3.1和F2.3.2;再将F2.3.2输入残差块,F2.3.2在残差块中有序地经过大小为1×1和3×3的卷积层处理并将处理结果与自身相加,残差块将重复堆叠n次,得到特征图F2.3.3,如公式(3)所示:
F2.3.3=(F2.3.2+φ3(φ1(F2.3.2)))n#(3)
其中φ1和φ3分别为大小为1×1和3×3的卷积层;之后1×1卷积层对特征图F2.3.3进行空间维度整合;整合后的特征图与F2.3.1拼接,再用以1×1卷积层进行通道维度整合;最后经过SimAM注意力机制激发重要特征,得到Resblock_body_AM模块输出特征图F2.3,如公式(4)所示:
F2.3=ψ(φ1(Cat(F2.3.1,φ1(F2.3.3)))))#(4)
其中φ1为大小为1×1的卷积层,Cat为拼接函数,ψ为注意力机制函数;
步骤2.4,反复堆叠Resblock_body_AM模块5次,获得输出特征图P1、P2、P3、P4、P5;
步骤三,构建特征融合网络;
步骤3.1,将特征图P5输入大小为1×1、3×3、1×1的卷积组,为空间金字塔池化调整通道数,得到特征图F3.1;
步骤3.2,使用空间金字塔池化模块增大特征图F3.1的感受野,其结构为:将F3.1分别通过大小为5×5、9×9、13×13的最大池化层,再将池化结果进行通道拼接,得到特征图F3.2.1,如公式(5)所示:
F3.2.1=Cat(τ5(F3.1),τ9(F3.1),τ13(F3.1))#(5)
其中τ5、τ9、τ13分别为大小为5×5、9×9、13×13的最大池化层,Cat为拼接函数;再将特征图F3.2.1输入大小为1×1、3×3、1×1的卷积组调整通道数,得到输出特征图F3.2;
步骤3.3,将特征图F3.2经过上采样层,得到特征图F3.3.1;再将特征图P4经过大小为1×1的卷积层调整通道数,得到特征图F3.3.2;将特征图F3.3.1与特征图F3.3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.3,如公式(6)所示:
F3.3=Φ5(Cat(up(F3.2),φ1(P4)))#(6)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.4,将特征图F3.3经过上采样层,得到特征图F3.4.1;再将特征图P3经过大小为1×1的卷积层调整通道数,得到特征图F3.4.2;将特征图F3.4.2与特征图F3.4.1拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.4,如公式(7)所示:
F3.4=Φ5(Cat(up(F3.3),φ1(P3)))#(7)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.5,将特征图F3.4经过下采样层,得到特征图F3.5.1;再分别对特征图F3.3、F3.5.1、F3.3.2施加权重ω0、ω1、ω2;将处理后的3个特征图相加,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.5如公式(8)所示:
F3.5=Φ5(ω0*F3.3+ω1*down(F3.4)+ω2*F3.3.2)#(8)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤3.6,将特征图F3.5经过下采样层,得到特征图F3.6.1;将特征图F3.6.1与特征图F3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.6,如公式(9)所示:
F3.6=Φ5(Cat(down(F3.5),F3.2))#(9)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤四,预测目标与损失传递;
步骤4.1,模型检测器由1个大小为3×3的卷积层和1个大小为1×1的卷积核组成,将特征图F3.6、F3.5、F3.4输入3个对应尺度的检测器预测葡萄的空间位置,得到最终预测特征图Out1、Out2、Out3;
步骤4.2,使用BCE loss和CIoU loss函数计算预测特征图Out1、Out2、Out3与真实值之间的置信度、分类、定位损失,其中置信度损失如公式(10)所示:
其中S2为特征图的尺度,B为边界框的个数,当第i个网格中的第j个边界框存在目标,值为1,否则为0,cij为真实的置信度,/>为预测的置信度;
分类损失如公式(11)所示:
其中S2为特征图的尺度,B为边界框的个数,当第i个网格中的第j个边界框存在目标,值为1,否则为0,pij为真实的概率,/>为预测的概率;
定位损失如公式(12)所示:
其中IoU为真实边界框与预测边界框的交并比,ρ2(b,bgt)为两边界框的中心距离,c为覆盖两边界框的最小框的对角线;
步骤4.3,使用Focal loss函数优化BCE loss,如公式(13)所示:
其中p为模型预测的概率,y为真实类别,α和γ为用于平衡损失的超参数;
步骤4.4,最终损失函数如公式(14)所示:
其中batch_size为单次训练选取的样本数,λconf,λcls,λloc为对应损失平衡系数;
步骤五,优化模型训练与测试。
本发明采用K-means算法对步骤一中标注的真实框聚类出9种尺寸,适配葡萄目标;采用两阶段训练,第一阶段冻结特征提取网络权重,第二阶段训练模型所有权重,提高训练效率;采用学习率余弦退火策略,跳出局部最优解;采用标签平滑策略,增强模型泛化能力;采用非极大值抑制,消除冗余的预测边界框。
本发明具有以下有益效果:
1.本发明使用嵌入SimAM注意力机制的特征提取网络,可对特征图的全维度信息分配权重,强化重要特征抑制无效特征,能够从输入图像中高效地提取目标葡萄特征,克服由于遮挡、重叠等造成的目标特征不完整问题;
2.本发明使用了更加全面的特征融合结构,减缓了特征图在不断卷积操作下的信息丢失情况,此外特征图在融合过程中被施加权重,模型可自适应地进行学习,从而实现在复杂背景、雨雾等特征不明显环境下的检测;
3.本发明使用Focal loss优化BCE loss,解决了训练过程中正负样本不平衡的问题,使得模型收敛更快,损失饱和值更小,提高模型训练效率。
附图说明
图1为实施例中构建的葡萄数据集;
图2为实施例中构建的葡萄检测模型结构图;
图3为实施例中构建的特征提取网络参数图;
图4为实施例中构建的特征融合网络结构图;
图5为实施例中采用不同函数的损失曲线图;
图6为实施例中K-means聚类出的边界框尺寸图;
图7为实施例中模型在恶劣环境下葡萄检测结果图。
具体实施方式
以下结合附图对本发明做进一步的解释说明:
步骤一,构建数据集;
步骤1.1,分别在8:00、13:00和18:00三个时段拍摄葡萄图像,各个时段选取的光照条件包括前景光、背景光、侧照光以及散射光,同时相机距离葡萄树干1.5m处放置,采用垂直和平行树干视角拍摄;
步骤1.2,使用LabelImg工具标注区域大于80%的葡萄目标;
步骤1.3,如图1所示,利用Python第三方ImgAug库对葡萄图像进行亮度调整、高斯模糊、仿射变换、镜像翻转、雨化处理五种数据增强及增广方法,其中亮度调整系数为0.7-1.2,高斯模糊的均值为0,方差为3,仿射变换x,y方向平移系数为15,尺度系数为0.8-0.95,旋转角度为-30°-30°;
步骤1.4,将数据集按7:1:2的比例划分为训练集、测试集、验证集;
步骤二,构建特征提取网络;
步骤2.1,推导SimAM注意力模块,通过计算能量函数来评估各个像素点的重要性,最小能量如公式(15)所示:
其中分别为特征图单通道内像素的均值和方差,t为单通道内目标像素值,λ为超参数;具体地,超参数λ取10-4;将最小能量的倒数经过Sigmoid激活函数后与自身相乘,实现权值的分配,如公式(16)所示:
其中E为在所有通道和空间维度的集合,X为输入特征图;
步骤2.2,将训练集尺寸归一化至6082×3,使用大小为3×3的卷积层将输入图像的通道数丰富至32,得到输出的特征图为F2.2;
步骤2.3,如图2所示,将SimAM注意力机制嵌入到YOLO v4主干网络的残差体模块中,形成新的Resblock_body_AM模块;其结构为:输入特征F2.2首先经过3×3卷积层收缩尺度;然后分别通过2个大小为1×1卷积层分割通道数,得到特征图F2.3.1和F2.3.2;再将F2.3.2输入残差块,F2.3.2在残差块中有序地经过大小为1×1和3×3的卷积层处理并将处理结果与自身相加,残差块将重复堆叠n次,得到特征图F2.3.3,如公式(17)所示:
F2.3.3=(F2.3.2+φ3(φ1(F2.3.2)))n#(17)
其中φ1和φ3分别为大小为1×1和3×3的卷积层;之后1×1卷积层对特征图F2.3.3进行空间维度整合;整合后的特征图与F2.3.1拼接,再用以1×1卷积层进行通道维度整合;最后经过SimAM注意力机制激发重要特征,得到Resblock_body_AM模块输出特征图F2.3,如公式(18)所示:
F2.3=ψ(φ1(Cat(F2.3.1,φ1(F2.3.3)))))#(18)
其中φ1为大小为1×1的卷积层,Cat为拼接函数,ψ为注意力机制函数;
步骤2.4,如图3所示,反复堆叠Resblock_body_AM模块5次,每个模块中残差块的堆叠次数n分别为:1、2、8、8、4,得到5个输出特征图为P1、P2、P3、P4、P5,其尺度分别为3042×64、1522×128、762×256、382×512、192×1024;
步骤三,构建特征融合网络;
步骤3.1,将特征图P5输入大小为1×1、3×3、1×1的卷积组,为空间金字塔池化调整通道数,得到特征图F3.1;
步骤3.2,使用空间金字塔池化模块增大特征图F3.1的感受野,其结构为:将F3.1分别通过大小为5×5、9×9、13×13的最大池化层,再将池化结果进行通道拼接,得到特征图F3.2.1,如公式(19)所示:
F3.2.1=Cat(τ5(F3.1),τ9(F3.1),τ13(F3.1))#(19)
其中τ5、τ9、τ13分别为大小为5×5、9×9、13×13的最大池化层,Cat为拼接函数;再将特征图F3.2.1输入大小为1×1、3×3、1×1的卷积组调整通道数,得到输出特征图F3.2;
步骤3.3,如图4所示,将特征图F3.2经过上采样层,得到特征图F3.3.1;再将特征图P4经过大小为1×1的卷积层调整通道数,得到特征图F3.3.2;将特征图F3.3.1与特征图F3.3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.3,如公式(20)所示:
F3.3=Φ5(Cat(up(F3.2),φ1(P4)))#(20)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,ω1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.4,将特征图F3.3经过上采样层,得到特征图F3.4.1;再将特征图P3经过大小为1×1的卷积层调整通道数,得到特征图F3.4.2;将特征图F3.4.2与特征图F3.4.1拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.4,如公式(21)所示:
F3.4=Φ5(Cat(up(F3.3),φ1(P3)))#(21)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.5,将特征图F3.4经过下采样层,得到特征图F3.5.1;再分别对特征图F3.3、F3.5.1、F3.3.2施加权重ω0、ω1、ω2,可训练权重通过快速归一法获得,如公式(22)所示:
其中ReLU为激活函数,weighti为第i个可训练权值,∈为数值稳定参数;具体地,稳定参数∈取10-4;将处理后的3个特征图相加,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.5如公式(23)所示:
F3.5=Φ5(ω0*F3.3+ω1*down(F3.4)+ω2*F3.3.2)#(23)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤3.6,将特征图F3.5经过下采样层,得到特征图F3.6.1;将特征图F3.6.1与特征图F3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.6,如公式(24)所示:
F3.6=Φ5(Cat(down(F3.5),F3.2))#(24)
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤四,预测目标与损失传递;
步骤4.1,模型检测器由1个大小为3×3的卷积层和1个大小为1×1的卷积核组成,将特征图F3.6、F3.5、F3.4输入3个对应尺度的检测器预测葡萄的空间位置,得到最终预测特征图Out1、Out2、Out3;
步骤4.2,使用BCE loss和CIoU loss函数计算预测特征图Out1、Out2、Out3与真实值之间的置信度、分类、定位损失,其中置信度损失如公式(25)所示:
其中S2为特征图的尺度,B=3为边界框的个数,当第i个网格中的第j个边界框存在目标,值为1,否则为0,cij为真实的置信度,/>为预测的置信度;
分类损失如公式(26)所示:
其中S2为特征图的尺度,B=3为边界框的个数,当第i个网格中的第j个边界框存在目标,值为1,否则为0,pij为真实的概率,/>为预测的概率;
定位损失如公式(27)所示:
其中IoU为真实边界框与预测边界框的交并比,ρ2(b,bgt)为两边界框的中心距离,c为覆盖两边界框的最小框的对角线;
步骤4.3,使用Focal loss函数优化BCE loss,如公式(28)所示:
其中p为模型预测的概率,y为真实类别,α和γ为用于平衡损失的超参数;具体地,超参数α,γ分别为0.75和2;
步骤4.4,最终损失函数如公式(29)所示:
其中batch_size为单次训练选取的样本数,λconf,λcls,λloc为对应损失平衡系数;具体地,平衡系数λconf,λcls,λloc均为1;训练过程的损失曲线如图(5)所示;
步骤五,优化模型训练与测试;
本发明采用K-means算法对步骤一中标注的真实框聚类出9种尺寸,如图6所示,适配葡萄目标;采用两阶段训练,第一阶段冻结特征提取网络权重,第二阶段训练模型所有权重,提高训练效率,不同阶段的(epoch,batch size,learning rate)分别为(30,8,0.001)和(10,2,0.0001);采用学习率余弦退火策略,跳出局部最优解;采用标签平滑策略,增强模型泛化能力,其中平滑率为0.005;采用非极大值抑制,消除冗余的预测边界框,其中置信度阈值为0.5,交并比阈值为0.3。
葡萄检测结果如图7所示;本实施例在COCO评价标准下的mAP0.5=94.25%。
上诉具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权力要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (2)
1.基于改进YOLO v4的非结构环境下葡萄识别方法,其特征在于,具体步骤如下:
步骤一,构建数据集;
步骤1.1,分别在不同时段、不同光照角度、不同视角拍照自然环境下的葡萄图像;
步骤1.2,对葡萄目标进行标注;
步骤1.3,利用亮度调整、高斯模糊、仿射变换、镜像翻转、雨化处理五种方法对葡萄图像进行数据增强及增广;
步骤1.4,将数据集分为训练集、测试集、验证集;
步骤二,构建特征提取网络;
步骤2.1,推导SimAM注意力模块,通过计算能量函数来评估各个像素点的重要性,最小能量如公式(1)所示:
其中分别为特征图单通道内像素的均值和方差,t为单通道内目标像素值,λ为超参数;将最小能量的倒数经过Sigmoid激活函数后与自身相乘,实现权值的分配,如公式(2)所示:
其中E为在所有通道和空间维度的集合,X为输入特征图;
步骤2.2,将训练集作为输入,使用大小为3×3的卷积层来丰富输入图像的通道信息,得到输出的特征图为F2.2;
步骤2.3,将SimAM注意力模块嵌入到YOLO v4主干网络的残差体模块中,形成新的Resblock_body_AM模块;其结构为:输入特征F2.2首先经过3×3卷积层收缩尺度;然后分别通过2个大小为1×1卷积层分割通道数,得到特征图F2.3.1和F2.3.2;再将F2.3.2输入残差块,F2.3.2在残差块中有序地经过大小为1×1和3×3的卷积层处理并将处理结果与自身相加,残差块将重复堆叠n次,得到特征图F2.3.3,如公式(3)所示:
F2.3.3=(F2.3.2+φ3(φ1(F2.3.2)))n (3);
其中φ1和φ3分别为大小为1×1和3×3的卷积层;之后1×1卷积层对特征图F2.3.3进行空间维度整合;整合后的特征图与F2.3.1拼接,再用以1×1卷积层进行通道维度整合;最后经过SimAM注意力机制激发重要特征,得到Resblock_body_AM模块输出特征图F2.3,如公式(4)所示:
F2.3=ψ(φ1(Cat(F2.3.1 ,φ1(F2.3.3))))) (4);
其中φ1为大小为1×1的卷积层,Cat为拼接函数,ψ为注意力机制函数;
步骤2.4,反复堆叠Resblock_body_AM模块5次,获得输出特征图P1、P2、P3、P4、P5;
步骤三,构建特征融合网络;
步骤3.1,将特征图P5输入大小为1×1、3×3、1×1的卷积组,为空间金字塔池化调整通道数,得到特征图F3.1;
步骤3.2,使用空间金字塔池化模块增大特征图F3.1的感受野,其结构为:将F3.1分别通过大小为5×5、9×9、13×13的最大池化层,再将池化结果进行通道拼接,得到特征图F3.2.1,如公式(5)所示:
F3.2.1=Cat(τ5(F3.1),τ9(F3.1),τ13(F3.1)) (5);
其中τ5、τ9、τ13分别为大小为5×5、9×9、13×13的最大池化层,Cat为拼接函数;再将特征图F3.2.1输入大小为1×1、3×3、1×1的卷积组调整通道数,得到输出特征图F3.2;
步骤3.3,将特征图F3.2经过上采样层,得到特征图F3.3.1;再将特征图P4经过大小为1×1的卷积层调整通道数,得到特征图F3.3.2;将特征图F3.3.1与特征图F3.3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.3,如公式(6)所示:
F3.3=Φ5(Cat(up(F3.2),φ1(P4))) (6);
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.4,将特征图F3.3经过上采样层,得到特征图F3.4.1;再将特征图P3经过大小为1×1的卷积层调整通道数,得到特征图F3.4.2;将特征图F3.4.2与特征图F3.4.1拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.4,如公式(7)所示:
F3.4=Φ5(Cat(up(F3.3),φ1(P3))) (7);
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,up为上采样层,φ1为大小为1×1的卷积层,Cat为拼接函数;
步骤3.5,将特征图F3.4经过下采样层,得到特征图F3.5.1;再分别对特征图F3.3、F3.5.1、F3.3.2施加权重ω0、ω1、ω2;将处理后的3个特征图相加,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.5如公式(8)所示:
F3.5=Φ5(ω0*F3.3+ω1*down(F3.4)+ω2*F3.3.2) (8);
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤3.6,将特征图F3.5经过下采样层,得到特征图F3.6.1;将特征图F3.6.1与特征图F3.2拼接,再经过由5个大小分别为1×1、3×3、1×1、3×3、1×1的卷积层组成的卷积组来整合融合信息,得到特征图F3.6,如公式(9)所示:
F3.6=Φ5(Cat(down(F3.5),F3.2)) (9);
其中Φ5为大小分别是1×1、3×3、1×1、3×3、1×1的卷积组,down为下采样层;
步骤四,预测目标与损失传递;
步骤4.1,模型检测器由1个大小为3×3的卷积层和1个大小为1×1的卷积核组成,将特征图F3.6、F3.5、F3.4输入3个对应尺度的检测器预测葡萄的空间位置,得到最终预测特征图Out1、Out2、Out3;
步骤4.2,使用BCE loss和CIoU loss函数计算预测特征图Out1、Out2、Out3与真实值之间的置信度、分类、定位损失,其中置信度损失如公式(10)所示:
其中S2为特征图的尺度,B为边界框的个数,当第i个网格中的第j个边界框存在目标,值为1,否则为0,cij为真实的置信度,/>为预测的置信度;
分类损失如公式(11)所示:
其中S2为特征图的尺度,B为边界框的个数,当第i个网格中的第j个边界框存在目标,值为1,否则为0,pij为真实的概率,/>为预测的概率;
定位损失如公式(12)所示:
其中IoU为真实边界框与预测边界框的交并比,ρ2(b,bgt)为两边界框的中心距离,c为覆盖两边界框的最小框的对角线;
步骤4.3,使用Focalloss函数优化BCE loss,如公式(13)所示:
其中p为模型预测的概率,y为真实类别,α和γ为用于平衡损失的超参数;
步骤4.4,最终损失函数如公式(14)所示:
其中batch_size为单次训练选取的样本数,λconf,λcls,λloc为对应损失平衡系数;
步骤五,优化模型训练与测试。
2.如权利要求1所述的基于改进YOLO v4的非结构环境下葡萄识别方法,其特征在于,步骤五,优化模型训练的步骤为:采用两阶段训练,第一阶段冻结特征提取网络权重,第二阶段训练模型所有权重,提高训练效率;采用学习率余弦退火策略,跳出局部最优解;采用标签平滑策略,增强模型泛化能力;采用非极大值抑制,消除冗余的预测边界框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210481476.6A CN115050021B (zh) | 2022-05-05 | 2022-05-05 | 基于改进YOLOv4的非结构环境下葡萄识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210481476.6A CN115050021B (zh) | 2022-05-05 | 2022-05-05 | 基于改进YOLOv4的非结构环境下葡萄识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115050021A CN115050021A (zh) | 2022-09-13 |
CN115050021B true CN115050021B (zh) | 2024-05-14 |
Family
ID=83157686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210481476.6A Active CN115050021B (zh) | 2022-05-05 | 2022-05-05 | 基于改进YOLOv4的非结构环境下葡萄识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115050021B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116468730B (zh) * | 2023-06-20 | 2023-09-05 | 齐鲁工业大学(山东省科学院) | 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法 |
CN116665016B (zh) * | 2023-06-26 | 2024-02-23 | 中国科学院长春光学精密机械与物理研究所 | 一种基于改进YOLOv5的单帧红外弱小目标检测方法 |
CN117392659A (zh) * | 2023-12-12 | 2024-01-12 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种基于无参数注意力机制优化的车辆车牌定位方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310861A (zh) * | 2020-03-27 | 2020-06-19 | 西安电子科技大学 | 一种基于深度神经网络的车牌识别和定位方法 |
CN114120019A (zh) * | 2021-11-08 | 2022-03-01 | 贵州大学 | 一种轻量化的目标检测方法 |
CN114202672A (zh) * | 2021-12-09 | 2022-03-18 | 南京理工大学 | 一种基于注意力机制的小目标检测方法 |
-
2022
- 2022-05-05 CN CN202210481476.6A patent/CN115050021B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310861A (zh) * | 2020-03-27 | 2020-06-19 | 西安电子科技大学 | 一种基于深度神经网络的车牌识别和定位方法 |
CN114120019A (zh) * | 2021-11-08 | 2022-03-01 | 贵州大学 | 一种轻量化的目标检测方法 |
CN114202672A (zh) * | 2021-12-09 | 2022-03-18 | 南京理工大学 | 一种基于注意力机制的小目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115050021A (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115050021B (zh) | 基于改进YOLOv4的非结构环境下葡萄识别方法 | |
Mayr et al. | Weakly supervised segmentation of cracks on solar cells using normalized L p norm | |
CN111046880B (zh) | 一种红外目标图像分割方法、系统、电子设备及存储介质 | |
CN114022432B (zh) | 基于改进的yolov5的绝缘子缺陷检测方法 | |
CN109858569A (zh) | 基于目标检测网络的多标签物体检测方法、系统、装置 | |
CN112598713A (zh) | 一种基于深度学习的近岸海底鱼类检测、跟踪统计方法 | |
CN113160062B (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN112614136B (zh) | 一种红外小目标实时实例分割方法及装置 | |
CN109034184A (zh) | 一种基于深度学习的均压环检测识别方法 | |
CN113627472A (zh) | 基于分层深度学习模型的智慧园林食叶害虫识别方法 | |
Li et al. | High-efficiency tea shoot detection method via a compressed deep learning model | |
US11978210B1 (en) | Light regulation method, system, and apparatus for growth environment of leafy vegetables | |
CN111783819A (zh) | 小规模数据集上基于感兴趣区域训练改进的目标检测方法 | |
CN114220126A (zh) | 一种目标检测系统及获取方法 | |
CN115050020A (zh) | 一种基于改进Mask R-CNN草莓叶面积的智能视觉检测方法及系统 | |
CN114140665A (zh) | 一种基于改进YOLOv5的密集小目标检测方法 | |
CN111553227A (zh) | 基于任务指导的轻量级人脸检测方法 | |
CN113128476A (zh) | 一种基于计算机视觉目标检测的低功耗实时头盔检测方法 | |
Chen et al. | Segmentation of field grape bunches via an improved pyramid scene parsing network | |
CN110135435B (zh) | 一种基于广度学习系统的显著性检测方法及装置 | |
CN113627481A (zh) | 一种面向智慧园林的多模型组合的无人机垃圾分类方法 | |
Zhang et al. | Recognition and detection of wolfberry in the natural background based on improved YOLOv5 network | |
Yu et al. | Motion target detection and recognition based on YOLOv4 algorithm | |
CN115861768A (zh) | 一种基于改进YOLOv5的金银花目标检测及采摘点定位方法 | |
Yadav et al. | Image detection in noisy images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |