CN112507896B

CN112507896B - 一种采用改进的yolo-v4模型对樱桃果实进行检测的方法

Info

Publication number: CN112507896B
Application number: CN202011465294.7A
Authority: CN
Inventors: 盖荣丽; 陈娜
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2023-11-07
Anticipated expiration: 2040-12-14
Also published as: CN112507896A

Abstract

本发明公开了一种采用改进的YOLO‑V4模型对樱桃果实进行检测的方法，其特征在于，包括：对樱桃果实采用“labelme进行标注，标注形状为适合樱桃生长的圆形，生成“json”文件；将所述“json”文件传入改进的YOLO‑V4模型，所述改进的YOLO‑V4模型首先对樱桃果实图片进行预处理得到数据集；将所述数据集传送到主干网络中，该主干网络由DenseNet网络结构构成，所述DenseNet网络包括DenseBlock和Transition层；所述DenseBlock为结构中特有模块，同一个DenseBlock中，特征层的宽、高不会发生改变，但是通道数会随着改变；所述Transition层是将不同DenseBlock之间进行连接的模块，结合当前DenseBlock获得的特征，缩小上一个DenseBlock的宽高；该方法将YOLO‑V4模型主干网络替换为DenseNet模型，提高层间的稠密性，实现精度检测。

Description

一种采用改进的YOLO-V4模型对樱桃果实进行检测的方法

技术领域

本发明涉及人工智能领域物体检测分类方法，具体涉及一种采用改进的YOLO-V4模型对樱桃果实进行检测的方法。

背景技术

人工智能的发展，为我们的生产生活带来了极大的便利。在不同领域的应用尤为广泛，农业机器人技术发展比较迅速，在水果识别和精确采摘中有极大研究空间。如今，在农业领域中，由于水果的采摘主要方式是采用人工收割，其成本高，劳动强度大。由于智慧农业的产生，解放了人们的双手，并且可以在在收割技术中节省人力物力、缩减人工成本。计算机精准度高避免了由人工采摘产生的误差。采用适合果实检测的技术是研究的关键。

YOLO-V4算法是在原有YOLO(You Only Live Once)目标检测架构的基础上，采用了近些年卷积神经网络领域中最优秀的优化策略，从数据处理、主干网络、网络训练、激活函数、损失函数等各个方面都有着不同程度的优化，虽没有理论上的创新，但是会受到许许多多的工程师的欢迎，各种优化算法的尝试。

YOLO-V4模型是YOLO-V3的基础上进行优化的模型，与YOLO-V3网络结构将比，将YOLO-V3中的DarketNet53(是一种深度学习框架，进行3×3次步长为2的卷积，保存该卷积层，在进行1×1的卷积和一次3×3的卷积，结果堆叠为最后的残差卷积结果。)网络变为CSPDarketNet53(将DarketNet53中的残差块的堆叠拆分成两部分，主干部分继续进行原来的残差块的堆叠，另一部分则像一个残差边一样，经过少量处理直接连接到最后)，将CSPDarketNet53网络作为骨干网络，其中最后一次残差网络结构所产生的值。将Mish激活函数用于CSPDarknet53分类器训练可以提高分类器和使用该分类器预训练加权的检测器的准确性。CSPDarknet53更适用于检测器。DarketNet53网络中采用的残差结构模块，由一次下采样和多次残差网络的堆叠构成。

如今现有的樱桃检测，采用传统的目标检测方法和基于深度学习方法。传统的目标检测方法利用大小不同的滑动窗口选择出图像中可能存在目标的候选区域，然后使用手工设计的特征对这些区域进行特征提取，包括尺度不变特征变换(Scale-invariantFeature Transform，SIFT)，梯度直方图(Histogram of Oriented Gradient,HOG)等，最后将图像特征送到支持向量机(Support Vector Machine,SVM)或迭代算法(AdaptiveBoosting，Adaboost)等分类器中进行分类输出结果。由于传统的目标检测方法受滑动窗口大小和步长的影响，容易存在着像窗口冗余、检测精度低等不可避免的问题。人们认识到卷积神经网络在计算机视觉上的优势，将深度学习应用到樱桃检测中。基于深度学习的樱桃检测方法主要分为两大类：

像R-CNN、SPP-net等属于基于候选区域的两阶段(Two Stage)检测算法。这类算法首先通过边界框搜索算法或选择性搜索算法生成一系列相应的候选区域，然后利用卷积神经网络从原图像中提取特征迚行分类和定位。两阶段算法需要对每一个可能包括物体的候选区域进行检测，在樱桃检测和定位精度都占有优势，但随带来的问题是时间复杂度较高；

像YOLO、SSD等属于基于回归的单阶段(One Stage)检测算法。这类算法将目标检测作为回归问题，不需要在图像中生成待检测候选框，通过回归模型直接得到目标的类别概率和位置坐标值。单阶段算法在速度和时间效率上要优于两阶段算法，但会造成检测精度的下降。

发明内容

针对现有技术存在上述问题，本发明提供了一种采用改进的YOLO-V4模型对樱桃果实进行检测的方法，该方法将YOLO-V4模型主干网络替换为DenseNet(是一种密集卷积网络)模型，提高层间的稠密性，实现精度检测。

为实现上述目的，本申请的技术方案为：一种采用改进的YOLO-V4模型对樱桃果实进行检测的方法，包括：

步骤1：对樱桃果实采用“labelme”进行标注，标注形状为适合樱桃生长的圆形，生成“json”文件；

步骤2：将所述“json”文件传入改进的YOLO-V4模型，所述改进的YOLO-V4模型首先对樱桃果实图片进行预处理得到数据集；

步骤3：将所述数据集传送到主干网络中，该主干网络由DenseNet网络结构构成，所述DenseNet网络包括DenseBlock和Transition层；所述DenseBlock为结构中特有模块，同一个DenseBlock中，特征层的宽、高不会发生改变，但是通道数会随着改变；所述Transition层是将不同DenseBlock之间进行连接的模块，结合当前DenseBlock获得的特征，缩小上一个DenseBlock的宽高；将DenseBlock和Transition层命名为stage，经过各层stage的堆叠，使得特征不断堆叠，从而使得层与层之间的连接更加紧密；

步骤4：对堆叠的特征层进行三次DBL操作，再进行池化操作；所述DBL操作包括卷积、归一化处理和激活操作；

步骤5：对步骤4两种操作后得到的特征层堆叠再进行DBL操作；

步骤6：对步骤5操作后得到的特征层进行上采样与DenseNet网络中的stage4进行5次DBL操作，再进行上采样，然后与stage3进行堆叠，再进行一次DBL操作，上采样后进行零填充，再进行一次DBL操作；

步骤7：对步骤6中的五次DBL操作和最后DBL操作得到的特征层进行堆叠，生成第一个预测结构从而生成预测结果；

步骤8：堆叠后的特征进行上采样、零填充和一次DBL操作，生成第二个预测结构；该次DBL操作与步骤4中的三次DBL操作得到的特征进行堆叠生成第三个预测结构及生成预测结果；

步骤9：将步骤7和步骤8中的预测结构进行处理，生成所需的樱桃果实检测结果，特征层的预测结果对应着三个预测框的位置。

进一步的，步骤2中预处理采用的是Mosaic数据增强，将DarknetConv2D的激活函数由Leaky激活函数修改成Mish激活函数，卷积块由DarknetConv2D_BN_Leaky(卷积层、归一化层和Leaky激活函数)变成了DarknetConv2D_BN_Mish(卷积层、归一化层和Mish激活函数)：

Mish＝x×tanh(ln(1+e^x)

其中，x为特征点，tanh为双曲正切函数。

进一步的，改进的YOLO-V4模型损失函数包括预测框预测损失loss_crood，预测框的位置损失loss_IOU和预测框类别损失loss_{classification}，其计算公式分别为：

其中，λ_coord为坐标误差的权重，s²为输入图像的网格数，B每个网格生成边界框的数量；/>时，特征点在边界框内，/>时，特征点未在边界框内；/>为预测边界框的中心坐标、高度、宽度的值；

其中，C_i为真实值的置信度、为预测值的置信度；

c为检测目标的所属分类，p_i(c)为目标的真实概率，为目标的预测分类。

本发明与已有的方法，在以下方面存在优势：

1.本方法采用“labelme”对数据图像进行标记，标记形状为适合樱桃生长的圆形，圆形标记框更加适合于樱桃果实的形状，使得检测准确度提高。

2.本方法可以对樱桃果园中的樱桃果实进行检测定位，将樱桃果实分为未成熟、半成熟和成熟三类，使用改进的YOLO-V4模型对樱桃果实不同成熟度进行检测。

3.本方法采用YOLO-V4模型可以提高在复杂环境中检测物体准确度，改进主干网络，使得层与层之间的稠密性增强，从而使得网络结构复杂，对数据集处理学习更为复杂，模型的检测精度更高。

附图说明

图1为樱桃果实图片的分类图：其中(a)是樱桃遮挡图像，(b)是樱桃远景图像，(c)是樱桃近景图像，(d)是未成熟樱桃图像，(e)是半成熟樱桃图像，(f)是成熟樱桃图像；

图2为预处理后的樱桃果实对比图；

图3为评价指标(IOU)计算图；

图4为DenseNet网络图；

图5为稠密模块结构图；

图6为DenseNet网络内部处理图；

图7为改进的YOLO-V4模型图；

图8为使用模型对樱桃果实检测图；

图9为使用YOLO-V3和YOLO-V4检测对比图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述：以此为例对本申请做进一步的描述说明。

一种采用改进的YOLO-V4模型对樱桃果实进行检测的方法，包括：

步骤1：对樱桃果实采用“labelme(标记软件)”进行标注，标注形状为适合樱桃生长的圆形，生成“json”文件；

步骤2：将所述“json”文件传入改进的YOLO-V4模型，所述改进的YOLO-V4模型首先对樱桃果实图片进行预处理得到数据集，所述预处理采用Mosaic数据增强，Mosaic利用四张图片进行拼接，这样可以丰富检测物体的背景，在归一化计算时可以直接计算四张图片的数据。

步骤3：将所述数据集传送到主干网络中，该主干网络由DenseNet网络结构构成，所述DenseNet网络包括DenseBlock(稠密模块)和Transition层(中间间隔模块转换层，该层降低输入层维度)；所述DenseBlock为结构中特有模块，同一个DenseBlock中，特征层的宽、高不会发生改变，但是通道数会随着改变；所述Transition层是将不同DenseBlock之间进行连接的模块，结合当前DenseBlock获得的特征，缩小上一个DenseBlock的宽高；将DenseBlock和Transition层命名为stage，经过各层stage的堆叠，使得特征不断堆叠，从而使得层与层之间的连接更加紧密；DenseNet网络可以减轻梯度小时，增强特征传播，促进特征重用，并大大减少参数的数量。

上述方法评价指标为精确度(precision)、召回率(recall)和F₁score。鉴别值为True Positive(TP：被正确分类的证样本)、False positive(FP：被正确分类的负样本)、true Negatives(TN：被错误分类的正样本)、False Negatives(FN：被错误分类的负样本)。使用F₁score来组合精确度和召回率。

表1为不同模型对樱桃果实检测的F1 scores、IOU、Average time(s)对比

将未成熟、半成熟以及成熟的三种生长时期的樱桃作为训练集，将数据集分别是使用yolov3、yolov3-dense和yolov4中进行训练，结果显示，在训练过程中，yolov3-dense比yolov3具有更好的收敛效果，比yolov3的损失降低接近于1，这表明，yolov3-dense提高了性能。在速度上，yolov3-dense由于模型比yolov3复杂，造成它的速度相对较慢。Yolov4可以更加广泛的检测物体，检测种类比yolov3要丰富，可以检测yolov3没有检测到的物体，提高检测性能。本发明所采用的yolov4-dense对于樱桃果实的识别更加具有优越性，不同模型的f1 scores、iou和平均检测时间如表1所示。在yolov4-dense网络中，损失相比yolov4模型降低了损失约0.8，在损失收敛到39000步则开始趋近于饱和。在检测性能，由于yolov4-dense模型的网络复杂性及稠密性，使得检测精度相比其他模型要高，yolov4-dense的iou值为0.934。结果显示，yolov4-dense所采用的圆形边界框的精度更加高于其他三种模型。Yolov4-dense网络模型的训练时间相比其他模型相对较高，但准确度和置信度高，结果显示，yolov4-dense网络模型可以提高樱桃检测的精确度。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。

Claims

1.一种采用改进的YOLO-V4模型对樱桃果实进行检测的方法，其特征在于，包括：

步骤1：对樱桃果实采用“labelme进行标注，标注形状为适合樱桃生长的圆形，生成“json”文件；

步骤9：将步骤7和步骤8中的预测结构进行处理，生成所需的樱桃果实检测结果，特征层的预测结果对应着三个预测框的位置；

改进的YOLO-V4模型损失函数包括预测框预测损失loss_crood，预测框的位置损失loss_IOU和预测框类别损失loss_{classification}，其计算公式分别为：

其中，C_i为真实值的置信度、为预测值的置信度；

2.根据权利要求1所述一种采用改进的YOLO-V4模型对樱桃果实进行检测的方法，其特征在于，步骤2中预处理采用的是Mosaic数据增强，将DarknetConv2D的激活函数由Leaky激活函数修改成Mish激活函数，卷积块由DarknetConv2D_BN_Leaky变成了DarknetConv2D_BN_Mish：

Mish＝x×tanh(ln(1+e^x)

其中，x为特征点，tanh为双曲正切函数。