CN116524363A

CN116524363A - 一种基于自监督学习的油菜亚健康区域嵌入式自动检测器及检测方法

Info

Publication number: CN116524363A
Application number: CN202310560395.XA
Authority: CN
Inventors: 龚鑫晶; 张喜海; 李鸿博; 孟繁锋; 郭锐超; 张茹雯; 王浩
Original assignee: Northeast Agricultural University
Current assignee: Northeast Agricultural University
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-08-01

Abstract

本发明一种基于自监督学习的油菜亚健康区域嵌入式自动检测器及检测方法，涉及智慧农业技术领域。方法包括如下步骤：S1、获取油菜图像数据集；S2、对数据集中图像进行特征增强；S3、构建基于YOLOX算法的油菜亚健康区域检测网络，以带有SPP层DarkNet53网络为主干网络，并且主干网络头和颈部网络之间构建有CA注意力模块，并采用分类损失和回归损失；S4、采用Self‑EMD对所述主干网络进行自监督预训练，将得到的权重用于下游检测任务中，再进行有监督训练，得到油菜亚健康区域检测模型；S5、采用所述油菜亚健康区域检测模型对待检测油菜图像进行亚健康区域检测。本发明方法能够捕获不规则的小目标亚健康区域特征，具有较高的鲁棒性和泛化能力，同时具有较高精度准确性。

Description

一种基于自监督学习的油菜亚健康区域嵌入式自动检测器及检测方法

技术领域

本发明涉及智慧农业技术领域，具体而言，涉及一种基于自监督学习的油菜亚健康区域嵌入式自动检测器及检测方法。

背景技术

中国高纬度地区通常受寒地气候所限制，因此影响了自然农业生产量。幸运的是，植物工厂的出现使得寒冷地区的四季连续生产成为了可能。植物工厂是一种设施农业，可以通过调控水培植物生长环境所需的光谱、温度、湿度、营养液PH值以及根系所需的营养液元素配比等条件，实现周年连续生长的高效农业系统，解决我国东北、内蒙古、青海等寒地限制农业生产的问题；植物工厂又是精准农业，随着人工智能信息化的发展，完全实现了全生长期的无人无损监测，既节省了大量人力财力又实现我国长期追求的全民共食了绿色食品。在水培油菜的生长监测过程中，常常会因为营养液中元素供给不足或者营养液污染等状况，导致一批油菜出现叶片出现白色斑点、叶片泛黄等亚健康问题，并且营养液污染会比土壤被细菌感染传播速度更快，只有及时对症下药并调整才能挽救一批油菜的商业价值，因此，对于水培叶菜植物在生长的产品器官形成期，对油菜的亚健康区域的识别和及时判别，对油菜健康茁壮生长尤为关键。

通用目标检测器依赖于大规模预标注的(监督的)目标检测数据集，例如PascalVOC和MS COCO。然而，标注数据是昂贵和耗时的，特别是为每个目标的回归框稠密标注。最近，目标检测方法来自ImageNet分类的监督的迁移学习预训练骨干，然后在这个骨干的顶端微调头，例如两阶段检测器Faster-RCNN，单阶段检测器YOLOv3 SSD RetinaNet。然而，这些迁移的特征被证明对于特定领域的目标检测是不适合的。最近的一些自监督预训练方法例如SimCLR、MoCo和BYOL允许用借口任务预训练骨干，表示的泛化性在下游任务上比基于监督迁移的方法更好。但是，由于毁坏了图像空间结构和定位信息，从而使学习到的图片的全局表示对目标检测来说可能不可靠。因此，针对油菜亚健康区域检测的难点：(1)形态各异即油菜的亚健康区域形状、大小和颜色多变，一般的检测模型难以识别；(2)由于油菜属于特定领域目标，通常的迁移学习去做预训练所提取的特征不可靠；(3)精准定位和分类油菜亚健康区域存在边界框和样本不平衡问题；亟需一种在未标注数据集上的自监督预训练，同时实现油菜亚健康区域的精准定位和分类的方法。

发明内容

本发明为解决上述技术问题所采用的技术方案：

本发明提供了一种基于自监督学习的油菜亚健康区域嵌入式检测方法，包括如下步骤：

S1、获取油菜图像数据集；

S2、对数据集中图像进行特征增强；

S3、构建基于YOLOX算法的油菜亚健康区域检测网络，所述油菜亚健康区域检测网络以带有SPP层DarkNet53网络为主干网络，并且所述主干网络的头和颈部网络之间构建有CA注意力模块，以用于融合特征图中的空间、位置和通道信息，并采用分类损失和回归损失；

S4、基于特征增强的未标注的油菜图像数据集，采用Self-EMD对所述主干网络进行自监督预训练，将得到的权重用于下游检测任务中，再采用特征增强的有标签的数据集进行有监督训练，得到油菜亚健康区域检测模型；

S5、采用所述油菜亚健康区域检测模型对待检测油菜图像进行亚健康区域检测。

进一步地，S2中所述对数据集中图像进行特征增强包括：采用颜色抖动，剪裁和伸缩，高斯噪声的方式对油菜图像进行特征增强。

进一步地，S3中所述分类损失和回归损失即focal EIoU&focal loss，其中，所述Focal Loss的公式为：

其中y表示样本标签，y'经过激活函数的输出，α为预设因子以平衡高质量样本和低质量样本，γ是控制权重的参数；

所述focal EIoU损失包括IoU损失L_IoU、距离损失L_dis和边长损失L_asp，具体公式为：

其中，IoU为一个质量指示器，ρ²(·,·)是欧氏距离函数，(b,w,h)和(b^gt,w^gt,h^gt)分别是预测和地面真实的中心、宽和高，C是两个框最小外接矩形的对角线长度，C_w和C_h分别是这个矩形的宽和高；

将focal loss与focal EIoU相结合，即

L_Focal-EIoU＝IoU^γL_EIoU。

进一步地，根据所述油菜亚健康区域检测网络的颈部有3个尺度的特征图用于预测小、中、大3个尺度的目标，所述Self-EMD的损失函数采用将小、中、大三个目标的损失函数进行求和，即：

其中X为在线网络预测的视图v的特征张量，作为prediction，Y为目标网络编码的视图v’的特征张量，作为ground truth，两个特征张量之间的最优传输问题被定义为从供应者X到需求者Y之间的传输损失的最小值，其中π和O分别是传输策略和传输损失矩阵，<·,·>_F表示两个矩阵之间的Frobenius内积。

进一步地，S3中所述CA注意力模块包括以下两部分：

坐标信息嵌入部分：两个池化核(H,1)和(1,W)分别沿着水平和垂直坐标对每个通道进行池化；得到高度为h的第c个通道的输出和宽度为w的第c个通道的输出/>一对方向感知的特征图o^h∈R^H×c和o^w∈R^H×E可以经过沿通道的特征聚合获得；

坐标注意力生成部分：将一对特征图进行串联，用卷积核对其进行变换，即

f＝σ(Conv([o^h,o^w]))

其中[·,·]是串联操作，f∈R^c/r×(H+W)是中间特征图，其中r是减少比率用来减少通道数，然后，将f分离为和/>并利用(1,1)的卷积核各自将它们转换为两个注意力图g^h∈/>和/>且，/>为第c个通道的注意力向量，其中的元素/>分别代表特征张量X在第c个通道的特征点(i,j)的注意力权重；因此，增强的特征向量的第c个通道的输出是：

进一步地，S3中所述YOLOX算法为YOLOX_s算法。

一种基于自监督学习的油菜亚健康区域嵌入式自动检测器，所述检测器应用上述技术方案中任一项所述的基于自监督学习的油菜亚健康区域嵌入式检测方法。

相较于现有技术，本发明的有益效果是：

本发明一种基于自监督学习的油菜亚健康区域嵌入式自动检测器及检测方法；将自监督预训练与改进的YOLOX_s模型相结合，在特征图中保留潜在目标的空间结构和位置信息，利于后续的不规则小目标检测。通过在YOLOX_s网络中构建CA注意力模块，能为目标检测捕获带有空间结构和位置信息的特征张量，能解决捕获不规则亚健康区域特征困难的问题；由于本发明的YOLOX_s检测模型为轻量级模型，在检测速度上更有优势，可应用于植物工厂中巡检机器人，模型具有较高的鲁棒性和泛化能力，可以对现蕾抽薹期的油菜植株实现高精度的检测。本发明改进后的YOLOX_s的头部解耦为定位和分类两个输出，采用的focal EIoU&focal loss不仅可以解决低质量/高质量边界框不平衡问题，还可以自适应地拉高高质量边界框的权重，自适应地提高困难样本的权重，从而提高分类头的判别能力。

附图说明

图1为本发明实施例中基于自监督学习的油菜亚健康区域嵌入式检测方法；

图2为本发明实施例中的改进后YOLOX-DarkNet53的网络结构图；

图3为本发明实施例中的特征图可视化图；

图4为本发明实施例中不同网络模型的准确性比较图；

图5为本发明实施例中的IoU&Cross entropy和focal EIoU&focal loss的损失对比图。

具体实施方式

在本发明的描述中，应当说明的是，在本发明的实施例中所提到的术语“第一”、“第二”、“第三”仅用于描述目的，并不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者多个该特征。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

如图1所示，本发明提供一种基于自监督学习的油菜亚健康区域嵌入式检测方法，包括如下步骤：

S1、获取油菜图像数据集。

S2、对数据集中图像进行特征增强；包括：采用颜色抖动，剪裁和伸缩，高斯噪声的方式对油菜图像进行特征增强。

S3、构建基于YOLOX算法的油菜亚健康区域检测网络，所述油菜亚健康区域检测网络以带有SPP层DarkNet53网络为主干网络，并且所述主干网络的头和颈部网络之间构建有CA注意力模块，以用于融合特征图中的空间、位置和通道信息，并采用分类损失和回归损失。

所述YOLOX算法为YOLOX_s算法。

所述分类损失和回归损失即focal EIoU&focal loss，其中，所述Focal Loss的公式为：

将Focal Loss与focal EIoU相结合，即

L_Focal-EIoU＝IoU^γL_EIoU。

所述CA注意力模块包括以下两部分：

坐标信息嵌入部分：由于全局池会将高和宽压缩到通道描述符中，因此很难保存空间和位置信息。两个池化核(H,1)和(1,W)分别沿着水平和垂直坐标对每个通道进行池化；得到高度为h的第c个通道的输出和宽度为w的第c个通道的输出/>一对方向感知的特征图o^h∈R^H×C和o^w∈R^H×W可以经过沿通道的特征聚合获得；

坐标注意力生成部分：为了充分利用捕获到的空间和位置信息，将一对特征图进行串联，用卷积核对其进行变换，即

f＝σ(Conv([o^h,o^w]))

对于油菜上的亚健康区域，CA利用两个空间感知的注意力图反映不规则目标是否存在于相应特征图的行和列，提高模型发现和定位目标的准确性。

S4、基于特征增强的未标注的油菜图像数据集，采用Self-EMD对所述主干网络进行自监督预训练，将得到的权重用于下游检测任务中，再采用特征增强的有标签的数据集进行有监督训练，得到油菜亚健康区域检测模型。

根据所述油菜亚健康区域检测网络的颈部有3个尺度的特征图用于预测小、中、大3个尺度的目标，所述Self-EMD的损失函数采用将小、中、大三个目标的损失函数进行求和，即：

本发明中采用Self-EMD对所述主干网络进行自监督预训练，Self-EMD将相同图像的两个变换视图的特征张量分别视为供应者和需求者，然后以最小化Earth Mover'sDistance(EMD)的目标来优化特征图的一致性。具体地，对输入图片做两种变换，一种将视图v固定为图片进行拷贝，另一种对图像随机裁剪。在自监督学习阶段使用这种固定变换组合能够迫使网络学习一种在原始image上放大并聚焦微小目标的模式，会使接下来的生菜亚健康区域目标检测更有效。本发明：(1)网络结构允许执行多尺度特征图并行学习，以明确了解不同尺度之间的一致表示；(2)预训练的网络可以与下游目标检测任务直接匹配，而不破坏多尺度特征图的语义空间。因此，预训练抽取到的生菜亚健康区域的细粒度特征会确保被完整的迁移，有利于提高后续目标检测任务的精度。且减少预训练任务与下游目标检测任务之间的语义鸿沟。

本发明采用CA注意力机制，由于油菜亚健康区域的的检测属于小目标检测，所以浅层特征图的小感受野区域的信息尤为关键。协同注意力机制能够增强有效的特征信息并抑制背景噪声，以提高分层目标检测的准确性。首先，它不仅仅能捕获跨通道的信息，还能捕获方向感知和位置感知的信息，这能帮助模型更加精准地定位和识别感兴趣的目标；其次，协同注意力灵活且轻量，可以被容易地插入YOLOX_s，来通过强化信息表示的方法增强特征；最后，作为一个预训练模型，协同注意力可以在轻量级网络的基础上给下游任务带来巨大的增益。

本发明采用分类损失和回归损失，即focal EIoU&focal loss；将检测到的亚健康区域作为正样本，健康生长的油菜叶片作为负样本，而数据集中正负样本比例严重失衡，为解决前景类与背景类不平衡的问题从而提高模型检测性能，本发明通过α平衡因子平衡正负样本的比例不均，γ因子解决简单与困难样本不平衡的问题。该损失函数会降低大量负样本在训练中所占的权重，更适于困难样本挖掘，分类效果最优。为了解决低质量样本造成的损失值剧烈震荡的问题，本发明不仅考虑了重叠面积，中心点距离、长宽边长真实差，还拥有更快的收敛速度。

实施例1

本实施例在NVIDIA GeForce GTX 1080Ti GPU的64位windows系统上进行。对于软件，选择程序语言python 3.8和深度学习框架pytorch 1.10。此外，采用采集的油菜图片作为实验数据，输入尺寸规范化为640*640*3，MS-EMD(multi scale self-EMD，即本发明的将小、中、大三个目标的损失函数进行求和作为损失函数的Self-EMD)预训练基于所有实验数据，然后按照7:1:2的比例划分训练集、验证集和测试集。本实施例通过组合不同的模块设计了多个变体，如图2和图3所示，为采用本发明网络结构即特征图，这些变体的实验结果如表1所示。

表1

针对现有的目标检测模型RCNN家族和YOLO家族，作为油菜亚健康区域检测任务的基线，与本发明改进后的YOLOX_s网络模型的检测结果相比较。所有基线都输入640*640的尺寸的图像，然后，训练基线直到损失收敛，并采用基线的最优超参数。为了测试基线在油菜亚健康区域检测任务上的效率，也比较了模型尺寸和推理时延上的结果。

对于Faster RCNN和Mask RCNN两阶段检测器来说，识别亚健康区域的mAP值高于单阶段检测器。然而，两阶段检测器的效率却是很低的，在1080ti图形处理单元上每张图片的推理时延接近300ms。

对于包括YOLOv3、YOLOv4、YOLOv5和YOLOX的单阶段检测器，由于网络结构简单，推理时延明显比两阶段检测器小。此外，对于包括YOLOv3tiny、YOLOv4tiny、YOLOv5s和YOLOXs的轻量级单阶段检测器，以降低mAP为代价使推理时延进一步减小，达到了“实时检测”。

而本发明的轻量级检测器U³YOLOXs来检测油菜上的亚健康区域。在spot_rape(黄斑检出率)类上的AP值是90.09％，yellow_rape(黄叶检出率)类上的AP值是98.67％，mAP值是94.38％。此外，U³YOLOXs的模型尺寸是71.1MB，每张图片的推理时延是20.4ms，在效率较高的情况下，达到了相对较高的准确度，满足真实农业生产中对边缘计算的需求，同时为应用于更多品种的绿叶蔬菜的亚健康区域检测奠定基础。

实施例2

如图4所示，比较YOLOXs不同的预训练策略的结果。其中，变体1没有预训练，变体2从ImageNet分类上迁移，变体3和变体4在采集的油菜数据集上分别用未进行改进的self-EMD和本发明改进得到的MS-EMD方法预训练。结果，变体2相比于变体1的提升是细微的，在mAP上只有0.16％，在ImageNet通用数据集上的预训练对农业任务是低效的。变体3相比于变体2在mAP上增加了0.7％。这个结果证实了在农业数据集上，自监督预训练能够抽取到更可靠的特征。变体4取得了最好的性能，相比于变体3在mAP上增加了1.13％。因此，MS-EMD提供的这些的高质量的特征支持改进后的YOLOX_s缓解获取特定亚健康区域的特征难题。

尽管MS-EMD预训练提高了特征的质量，但亚健康区域的形状、大小和颜色的极端多变，检测任务仍面临着难题。为解决此难题，在颈部网络中添加了CA坐标注意力机制，检测结果的准确性明显提高，mAP增加了2.59％，其中漏掉的小目标被检测了和错误的目标被排除了。值得注意的是，来自CA块的参数规模和计算成本太小以至于被忽略，因此CA块的插入是非常高效和有效的。由于检测任务中还存在样本框不平衡的难题，采用focal EIoU&focal loss的损失进一步提高了检测结果的准确性。

如表2所示，在IoU&Cross entropy下，预测样本数(852)少于地面真实的样本数(896)。这是由于训练中梯度由大量的低质量边界框和简单样本提供，导致降低了模型的识别能力。如图5所示，低质量的梯度使得IoU&Cross entropy的损失震荡剧烈，并只收敛到0.15左右。采用focal EIoU&focal loss，自适应地增大高质量边界框和困难样本在损失中的权重。如图5所示，很明显地看到focal EIoU&focal loss的损失下降地更快、更稳定，收敛接近0。同时，如表格2所示，在focal EIoU&focal loss下，spot_rape的召回率明显地提高，预测的数量从852增加到了966，而且模型的mAP也提升了。

表2

虽然本发明公开披露如上，但本发明公开的保护范围并非仅限于此。本发明领域技术人员在不脱离本发明公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.一种基于自监督学习的油菜亚健康区域嵌入式检测方法，其特征在于，包括如下步骤：

S1、获取油菜图像数据集；

S2、对数据集中图像进行特征增强；

2.根据权利要求1所述的基于自监督学习的油菜亚健康区域嵌入式检测方法，其特征在于，S2中所述对数据集中图像进行特征增强包括：采用颜色抖动，剪裁和伸缩，高斯噪声的方式对油菜图像进行特征增强。

3.根据权利要求1所述的基于自监督学习的油菜亚健康区域嵌入式检测方法，其特征在于，S3中所述分类损失和回归损失即focal EIoU&focal loss，其中，所述Focal Loss的公式为：

将focal loss与focal EIoU相结合，即

L_Focal-EIoU＝IoUγL_EIoU。

4.根据权利要求1所述的基于自监督学习的油菜亚健康区域嵌入式检测方法，其特征在于，根据所述油菜亚健康区域检测网络的颈部有3个尺度的特征图用于预测小、中、大3个尺度的目标，所述Self-EMD的损失函数采用将小、中、大三个目标的损失函数进行求和，即：

5.根据权利要求1所述的基于自监督学习的油菜亚健康区域嵌入式检测方法，其特征在于，S3中所述CA注意力模块包括以下两部分：

坐标信息嵌入部分：两个池化核(H,1)和(1,W)分别沿着水平和垂直坐标对每个通道进行池化；得到高度为h的第c个通道的输出和宽度为w的第c个通道的输出/>一对方向感知的特征图o^h∈R^H×c和o^w∈R^H×W可以经过沿通道的特征聚合获得；

f＝σ(Conv([o^h,o^w]))

其中[·,·]是串联操作，f∈R^c/r×(H+W)是中间特征图，其中r是减少比率用来减少通道数，然后，将f分离为和/>并利用(1,1)的卷积核各自将它们转换为两个注意力图/> 和/>且，/>为第c个通道的注意力向量，其中的元素/>分别代表特征张量X在第c个通道的特征点(i,j)的注意力权重；因此，增强的特征向量的第c个通道的输出是：

6.根据权利要求1所述的基于自监督学习的油菜亚健康区域嵌入式检测方法，其特征在于，S3中所述YOLOX算法为YOLOX_s算法。

7.一种基于自监督学习的油菜亚健康区域嵌入式自动检测器，其特征在于，所述检测器应用权利要求1～6任一项所述的基于自监督学习的油菜亚健康区域嵌入式检测方法。