CN115880477A

CN115880477A - 一种基于深度卷积神经网络的苹果检测定位方法与系统

Info

Publication number: CN115880477A
Application number: CN202211557039.4A
Authority: CN
Inventors: 宁振兴; 王海军; 丁雷; 安迪; 杨博; 刘思潮
Original assignee: China Coal Industry Group Information Technology Co ltd
Current assignee: China Coal Industry Group Information Technology Co ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-03-31

Abstract

本发明公开了一种基于深度卷积神经网络的苹果检测定位方法与系统，该方法包括：获取包含苹果信息的图像数据；将包含苹果信息的图像数据输入至预训练的目标检测网络模型进行苹果检测定位，基于已标注的苹果图像信息输出得到目标预测框；其中，目标预测框，至少包括目标苹果图像的位置信息，预训练的目标检测网络模型是基于包含苹果信息的图像数据样本对YOLO v4网络模型进行训练得到的。本发明在确保检测速度的同事兼顾了检测精度，确保检测模型在实际场景中的复杂背景下对于苹果识别检测的性能质量。

Description

一种基于深度卷积神经网络的苹果检测定位方法与系统

技术领域

本发明涉及检测定位技术领域，特别是涉及一种基于深度卷积神经网络的苹果检测定位方法与系统。

背景技术

在整个苹果生产作业中，成熟果实的及时、无损、高效采收是关键，直接影响苹果的储藏、运输、加工以及销售等后续环节，然而由于采摘作业进行时所处生态环境的复杂性，导致迄今尚无可用于生产实际的苹果采摘智能装备。目前中国苹果采摘依然依靠人工作业，随着中国城镇化的快速发展，农业从业人口急剧减少，人工成本大大增加，给苹果产业的快速发展带来了不利影响。实现苹果的自动化采摘，对于解决苹果产业中的劳动力不足、人工劳动强度大、生产成本高、生产效率低等问题以及保证苹果的适时采收、保证采摘品质、提高苹果的市场竞争力等方面均具有重要意义。

视觉系统是苹果采摘机器人的重要组成部分，机器人进行采摘任务过程中最关键环节之一是苹果目标的识别与定位，因此，苹果采摘机器人必须解决苹果目标的快速识别和准确定位两大难题。目前，苹果目标的识别方法主要依据苹果目标的颜色、形状、纹理等特征，但由于苹果生长环境的复杂性，导致采集的图像中存在各种干扰信息和噪声，为了准确地识别出苹果目标，一些算法增加引入的参数，因此算法的复杂度也会相应的提高，现有的算法不能在识别精度、参数的自适应选取以及运行时间3者之间取得很好的平衡。此外，自然环境中障碍物的存在具有随机性和复杂性，障碍物的准确识别是采摘机器人避免与障碍物发生碰撞的关键，障碍物的识别与定位的准确性与稳定性尚需进一步提高。

深度学习目标检测技术使用卷积神经网络进行特征提取，通过训练学习，实现了更加强大的适应能力和泛化能力。YOLO v4算是当前目标检测技术领域在工业背景下实施应用的主流算法。但是其体积庞大，计算参数量大，无法在算力有限的设备中嵌入从而达到实时检测的要求。目前并没有对于苹果在复杂真实背景下识别检测的公开专业数据集以及精确识别定位的方法。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，提出一种基于深度卷积神经网络的苹果检测定位方法。本发明的目的降低检测模型计算参数量的同时保证了目标识别的精确度，确保障碍物的识别与定位的准确性与稳定性，使得对当前的农业智能化应用也具有十分重大的意义。

本发明的第二方面在于提出一种基于深度卷积神经网络的苹果检测定位系统。

本发明第三方面提出一种计算机设备。

为达上述目的，本发明一方面提出一种基于深度卷积神经网络的苹果检测定位，包括：

获取包含苹果信息的图像数据；

将所述包含苹果信息的图像数据输入至预训练的目标检测网络模型进行苹果检测定位，基于已标注的苹果图像信息输出得到目标预测框；其中，所述目标预测框，至少包括目标苹果图像的位置信息，所述预训练的目标检测网络模型是基于包含苹果信息的图像数据样本对YOLO v4网络模型进行训练得到的。

本发明实施的基于深度卷积神经网络的苹果检测定位方法还可以具有以下附加技术特征：

进一步地，在本发明的一个实施例中，所述方法，还包括：获取多种类型场景下的包含苹果信息的图像数据样本，基于所述图像数据样本构建训练数据集；通过预设的切分比例将所述训练数据集划分为训练集、验证集和数据集；利用所述训练集、验证集和数据集对YOLO v4网络模型进行模型训练，得到所述预训练的目标检测网络模型。

进一步地，在本发明的一个实施例中，所述基于图像数据样本构建训练数据集，包括：利用预设的图像处理方式对所述图像数据样本进行数据增强得到图像增强样本集；利用图像一致性检测算法，并基于所述图像增强样本集的计算相似度进行重复图像筛选得到图像筛选样本集；其中，所述图像筛选样本集，包括第一样本数据和第二样本数据；利用开源标注工具并采用VOC的标注格式对所述第一样本数据进行标注，并根据所述第一样本数据训练得到的粗略检测模型对所述第二样本数据进行自动标注，以完成对训练数据集的信息标注。

进一步地，在本发明的一个实施例中，构建所述YOLO v4网络模型，包括：使用GhostNet网络作为YOLO v4网络模型的主干特征提取网络，在对所述主干特征提取网络提取出的三个有效特征层中进行注意力机制模块添加处理；对添加处理过后的三个有效特征层使用SPP结构网络和PANet的特征金字塔结构网络进行多次的特征提取、卷积和特征融合操作，得到三个不同尺度的yolo head特征层。

进一步地，在本发明的一个实施例中，所述利用训练集、验证集和数据集对YOLOv4网络模型进行模型训练，得到预训练的目标检测网络模型，包括：利用所述训练集和验证集对所述YOLO v4网络模型进行预设场景下的模型训练并在训练过程中得到迭代网络模型；以及；使用测试集对所述迭代网络模型进行苹果检测识别以计算模型mAP值，基于所述模型mAP值选择最优网络模型以得到用于检测的目标检测网络模型。

进一步地，在本发明的一个实施例中，所述方法，还包括：获取训练数据集中预设尺寸的输入图像和模型参数；将所述输入图像和模型参数输入至YOLO v4网络模型构建目标检测网络模型，并使用数据加载算法获取训练数据集的图像数据和对应的检测框的标注信息；以及，将预处理后的训练数据集的图像数据和真实框的信息以及所述训练数据集的图像数据和对应的检测框的标注信息传输至目标检测网络模型，通过计算损失值以更新网络参数得到训练好的目标检测网络模型。

进一步地，在本发明的一个实施例中，所述损失值，包括检测框位置的回归损失、置信度损失和分类损失，所述检测框位置的回归损失采用CIOU Loss的方式；所述置信度损失包括有目标的置信度损失和无目标的置信度损失；所述方法，还包括：基于所述三个不同尺度的yolo head进行目标预测得到预测值；其中，所述预测值包括：将所述包含苹果信息的图像数据的图像输入至所述预训练的目标检测网络模型进行计算，得到的对应图像被分为不同大小的网格后，网格点上检测框对应的位置、置信度及类别。

为达上述目的，本发明另一方面提出一种基于深度卷积神经网络的苹果检测定位系统，包括：

数据获取模块，用于获取包含苹果信息的图像数据；

目标定位模块，用于将所述包含苹果信息的图像数据输入至预训练的目标检测网络模型进行苹果检测定位，基于已标注的苹果图像信息输出得到目标预测框；其中，所述目标预测框，至少包括目标苹果图像的位置信息，所述预训练的目标检测网络模型是基于包含苹果信息的图像数据样本对YOLO v4网络模型进行训练得到的。

本发明第三方面实施例提出了一种计算机设备，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现所述基于深度卷积神经网络的苹果检测定位方法。

本发明实施例的基于深度卷积神经网络的苹果检测定位方法、系统、计算机设备，在减少计算参数量的同时强化了模型对于目标特征的权值，在确保检测速度的同事兼顾了检测精度，确保检测模型在实际场景中的复杂背景下对于苹果识别检测的性能质量。

本发明的有益效果为：

1)在制作基于苹果复杂背景的识别检测任务数据集时，采用的一种基于图像特征的相似度计算方法筛选并删除掉构成数据集的重复图像数据，解决了以人力在海量图像数据面前筛选重复图像内容数据相对困难且耗时耗力并可能出现遗漏的情况，大大提升了数据集准备工作的效率。

2)本发明在进行数据集标注工作时采用的一种参照半监督学习思想使用小部分标注文件训练一个简易检测模型对剩余图像数据进行识别检测并自动生成带有目标检测框坐标信息的标注文件的自动生成标注程序，可以实现面对海量数据的快速标注效果；再结合人力对自动标注信息进行复核修正，相比于完全使用人力对图像信息进行标注高效快速且准确度高；可以大大的节省在进行数据集标注工作时的时间和人工精力，缩短工期，提升任务推进效率。

3)本发明所采用的基于YOLO v4目标检测网络模型，采用GhostNet网络结构作为主干特征提取网络，极大的降低了模型的计算参数和模型结构体积，减少了模型计算量；同时融入了注意力机制模块在模型可以保证模型在训练过程中，更加专注于，准确度的同时，提升了模型的GFLOPs，可快速有效的识别并定位到目标苹果位置，同时轻量化的网络可便于后期基于算力有限的移动小型服务端的高效识别检测。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于深度卷积神经网络的苹果检测定位方法流程图；

图2为根据本发明实施例的GhostNet结构组成示例图；

图3为根据本发明实施例的Ghost_bottleneck官方结构图；

图4为根据本发明实施例的苹果检测网络模型结构图；

图5为根据本发明实施例所用检测模型在测试集上的mAP表现结果示意图；

图6为根据本发明实施例所用检测模型在测试集上的AP表现结果示意图；

图7为根据本发明实施例所用检测模型在测试集上的Precision表现结果图；

图8为根据本发明实施例所用检测模型在测试集上的Recall表现结果图；

图9为根据本发明实施例所用检测模型在测试集上的F1得分情况示意图；

图10为根据本发明实施例基于深度卷积神经网络的苹果检测定位系统结构示意图；

图11为根据本发明实施例的计算机设备。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面参照附图描述根据本发明实施例提出的基于深度卷积神经网络的苹果检测定位方法、系统、计算机设备。

图1是本发明实施例的基于深度卷积神经网络的苹果检测定位方法的流程图。

如图1所示，该方法包括但不限于以下步骤：

S1，获取包含苹果信息的图像数据；

S2，将包含苹果信息的图像数据输入至预训练的目标检测网络模型进行苹果检测定位，基于已标注的苹果图像信息输出得到目标预测框；其中，目标预测框，至少包括目标苹果图像的位置信息，预训练的目标检测网络模型是基于包含苹果信息的图像数据样本对YOLO v4网络模型进行训练得到的。

根据本发明实施例的基于深度卷积神经网络的苹果检测定位方法，在减少计算参数量的同时强化了模型对于目标特征的权值，在确保检测速度的同事兼顾了检测精度，确保检测模型在实际场景中的复杂背景下对于苹果识别检测的性能质量。

下面结合附图对本发明实施例的基于深度卷积神经网络的苹果检测定位方法进行详细说明。

作为一种示例，本发明提供的基于深度卷积神经网络的苹果检测定位方法，可以包括以下步骤：

步骤S11：准备各类复杂背景下的苹果数据图像，并对数据进行数据增强和重复数据筛检，参考半监督学习的方式构造用于检测模型训练的数据集。

优选地，本数据集采用voc格式，包括图像数据及其配套的xml格式数据各14103个。

示例性地，本步骤实现包括：

S111，本数据集收集各类复杂场景背景下数据图像，进行初步的筛选与数据调整；为了让网络学习到足够多的数据，使用了色彩变换，对部分数据通过调整YUV颜色空间、自适应直方图、亮度对比度调节、伽马变换等图像处理手段生成新的图像数据，进行数据的扩展增强，完成数据集的图像数据收集工作。

S112，由于数据集需要保证数据纯净度即没有重复图像数据，故需对收集到的图像数据进行重复性筛选。由于重复的图像数据其数据特征的构成是完全相同的，故完成此步骤选择的一种仿照孪生神经网络思想而建立的图像内容一致性计算算法，对数据集目录进行循环读取，每次读取两张图像，经过数据预处理输入到vgg16网络模型中，提取其全连接层数据特征，计算两张图像特征的cos距离，如果结果为100则认为两张图完全相同，找到了重复数据，则将读取到的第二张数据删除；直到遍历完整个数据集文件。

上述cos距离也称余弦相似度，是一种常用的分析两个特征向量相似度的计算方式，基本思想是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦相似度更注重两个向量在方向上的差异而非距离或者长度，所以不受向量的维度约束；如果两向量越相似，则向量夹角越小，cos绝对值越大；值为负，两向量负相关。

两个向量间的余弦值可以通过以下欧几里得点积公式求出：

a·b＝||a||||b||cosθ.

给定两个属性向量，A和B，其余弦相似性θ由点积和向量长度给出，如下所示：

S113，为了节省人工标注的精力与时间，高效完成图像数据的标注工作，这里参考半监督学习的方式结合开源标注工具Labelimg采用VOC的标注格式对图像数据进行标注。首先选取一千张左右的图像数据，使用Labelimg工具标出这些图像数据中的苹果对象位置信息由标注工具生成对应的xml格式的标注文件。该文件采用了树形结构，结点由文件路径、文件名、图像属性、标注对象的目标类别、标注对象的坐标(左上角、左下角、右上角、右下角)信息构成。然后投入到一个简单目标检测模型进行训练获取到一个粗略的苹果识别模型；使用该模型对剩余的图像数据文件进行预测识别，对模型的目标预测框信息进行解码读取；将解码出的坐标信息投入到可以参考Labelimg工具生成的xml标注文件的内容结构创建相同格式标注文件的程序算法中创建坐标信息结点数据，生成剩余图像的标注文件；完成自动标注后，再次使用Labelimg工具打开这些图像数据，对程序标注中漏标误标的对象进行补充修正，直到完成所有的标注工作。

S114，按照8:1:1的比例将所有的数据文件及其对应的标注文件进行分割，将14103个数据分割为训练集11422张图像数据、训练验证集1270条图像数据、测试集1411张图像数据。

步骤S12，使用YOLO v4网络模型作为检测基础模型并对其进行轻量化优化改进。优化后的模型结构如图2所示，使用轻量化网络GhostNet作为主干特征提取网络；将注意力机制融入检测模型中，在主干网络提取出的三个有效特征层上添加注意力机制模块，构造完整的改进版YOLO v4网络结构。

S121，使用GhostNet网络对YOLO v4原有的主干网络CSPDarkNet-53进行了替换调整。如图3所示，在GhostNet网络模型中，图像输入后首先会通过一个16通道，步长为2的1*1卷积块；然后使用由2个Ghost Module模块组成的瓶颈结构Ghost Bottlenecks进行堆叠；在堆叠的过程中，取通过Ghost Bottlenecks所获得的52*52*40、26*26*112、13*13*160三个有效特征层(当输入为416*416时)替换原来YOLO v4主干网CSPDarkNet-53的有效特征层进行加强特征金字塔的构建。上述Ghost Bottlenecks如图4所示，主要分为主干部分和残差边部分，包含Ghost Module的部分为主干部分；当对特征层的宽高进行压缩时，会设置这个Ghost Bottlenecks的stride为2(即步长为2)，此时的主干部分会通过在两个GhostModule中添加一个步长为2的深度可分离卷积层进行特征层的宽高压缩，残差边部分也会添加一个步长为2的深度可分离卷积层和1*1的卷积层。

S122，在构建特征融合金字塔的过程中融入SimAM模块，对前文所述的三个主干提取的特征层添加该注意力模块，基于神经科学理论通过能量函数推导出每个神经元的重要性，从而为特征层中的特征映射推断三维注意权值(即考虑空间和通道维度)。在不添加本网络模型参数量的同时，灵活且有效的提高特征层的表示能力，使得主干特征更好的聚焦于主体目标，抑制无用的特征。

S123，在上述S121和S122两个步骤的基础上构建图2网络结构的完整的检测网络。对处理过后的三个有效特性层使用SPP和PANet的特征金字塔结构经过反复的特征提取、卷积和特征融合操作提取到13*13 26*26 52*52三个不同尺度的yolo head特征层作为最后的输出，三个特征层的分别为13*13*1024、26*26*512、52*52*256，在预测时，使用会yolohead进行预测。

S124，其中SPP结构参杂在对GhostNet的最后一个特征层的卷积里。在对GhostNet的最后一个特征层经过SimAM模块处理后进行3次卷积后，分别利用四个不同尺度(5*5,9*9，13*13,1*1)池化核进行的最大池化处理，对它们进行特征融合及3次卷积处理；得到的13*13*512的特征，进入到PANet的操作中，讲这个13*13*512的特征层一部分进行上采样后与26*26*112的特征进行融合和5次卷积得到26*26*512的特征层；将这个26*26*512的特征层进行上采样与52*52*40的特征层融合后做5次卷积操作生成52*52*256的特征层，作为第一个输出的yolo head；同时对这个特征层做下采样操作，与前面得到的26*26*512的特征层进行融合后做5次卷积操作得到26*26*256的特征层，作为第二个输出的yolo head；同时讲这个26*26*256的特征层进行下采样操作与前述13*13*512的特征层融合后做5次卷积操作获得13*13*1024的特征层作为第三个输出尺度的特征层。

步骤S13，利用数据集对所述的优化版YOLO v4目标检测网络模型进行专用场景下的应用训练并在训练过程中保存迭代模型，根据训练过程的可视化曲线及模型验证时在验证集上的mAP表现挑选最合适的模型作为最后用于使用检测模型。

具体地，模型的图像输入尺寸可以为416*416；设置好epoch、batch size、初始学习率等训练相关的超参数；载入优化版YOLO v4检测网络创建检测模型；使用相关数据加载算法读取数据集的图像数据和对应的检验框标注信息并交给所述神经网络检测模型进行学习，在将数据传给模型之前会对图像数据和图像的真实框进行相关预处理；将处理后的图像数据和真实框信息交给神经网络检测模型进行学习，通过计算迭代学习过程中的loss值进行反向前馈，使用梯度下降的方法不断调整更新网络中的参数来迭代模型；训练时会通过判断当前batch size使用余弦退火衰减算法自适应调整学习率；每10个epoch保存一次迭代训练出的新模型，并使用训练验证集进行预测验证计算当前模型mAP值，生成训练截止当前epoch的训练集验证集loss值曲线和mAP曲线；当对数据跑完设定的epoch的数量或程序检测到用于验证的loss值多次不下降则训练程序结束。

进一步地，在载入数据进行图像预处理时，会对所载入的图像数据进行Mosaic数据增强。所述数据增强方法主要思想就是将四张图像进行随机裁剪再拼接到一张图上作为训练数据，在丰富检测物体背景的同时变相的提高了batch size，在进行batchnormalizationde的时候也会同时计算四张图像的数据。在实现上，每次都会从载入这批数据中随机读取4张图像，分别对这4张图像进行翻转、缩放、色域变化等操作；然后将操作后的图像按照左上、左下、右上、右下四个方向的位置摆好；再进行图像和框的组合，利用矩阵的方式将四张图固定的区域截取下来并拼接起来，使新的图像上含有先验框的相关信息。由此得到一张新的图像训练数据。

进一步地，上述的loss值，由loss计算得出，loss计算是预测结果和真实结果之间的对比。这里的loss是所述网络模型得到的三个有效特征层loss的总和，每一个有效特征层的loss都由其检测框位置的回归损失、置信度损失、分类损失三个部分的总和构成。所述预测值是一幅图像经过所述网络模型计算之后的输出，内部含有三个特征层的内容，三个特征层分别对应图片被分为不同大小的网格后每个网格点上三个先验框对应的位置、置信度及其种类，需要解码后才会的到真实图像上的情况；真实值就是一副图像中所标注的目标的真实位置框对应的(13,13)、(26,26)、(52,52)网格上的偏移位置、长宽，与种类，需要进行编码重塑为与预测值一致的结构。

作为一种示例，本发明的检测框位置的回归损失采用CIOU Loss的方式替代传统的MSE损失；置信度的损失计算则由有目标的置信度损失和无目标的置信度损失两部分构成；类别损失则是预测结果的种类与实际预测值的差距对比，故而种类预测只会计算有真实框的目标；其中置信度损失与分类损失均使用二元交叉熵作为损失计算的基础方法。

具体地，Loss的计算过程以上述数据集在网络下(13,13)的特征层为例可以描述为：

1)取出真实值中的该特征层中真实存在目标的点的位置(m,13,13,3,1)及其对应的种类(m,13,13,3,1)；将预测值的特征层输出进行处理，得到reshape后的预测值分别为(m,13,13,3,6)。还有解码后的预测框的四个交点坐标位置xywh(后均用xywh表达)；对于每一幅图，计算其中所有真实框与预测框的IOU，取出每个网络点中IOU最大的先验框，如果这个最大的IOU都小于规定的阈值，意味着这个网络点内不存在目标，可以被忽略；

2)计算CIOU作为正样本的回归loss；计算置信度的loss，其有两部分构成，第一部分是实际上存在目标的，预测结果中置信度的值与1对比；第二部分是实际上不存在目标的，预测结果的置信度的值与0对比；计算预测种类的loss，其计算的是实际上存在目标的，预测类与真实类的差距。所述置信度损失和分类损失的二元交叉熵的公式如下所示：

置信度损失：

分类损失：

3)所述CIOU loss是模型算法在回归优化部分的loss函数，是在考虑到bbox回归三要素中的长宽比还没被考虑到计算中，而进一步在DIOU的基础提出的。CIOU在计算时将目标与anchor之间的距离、重叠率、尺度以及惩罚项都考虑了进去，使得目标框的回归变得更加稳定，不会出现在训练过程中发散的问题；预测框长宽比拟合目标框的长宽比出现在惩罚因子中。具体公式如下：

CIOU的表达式为：

其中

是CIOU的惩罚因子公式，α是权重函数，v是表示长宽笔的相似性度量，p²(b,b^gt)分别代表了预测框和真实框的中心点的欧氏距离。c代表能够同时包含预测框和真实框的最小闭包区域的对角线距离。。

α和v的公式分别表示如下：

其中w^gt和h^gt表示真实框的宽高；w和表示预测框的宽高。当真实框和预测框的宽高相似时v的值则为0，此时的惩罚项就不会起到作用了。所以可以很直观地看出这个惩罚因子作用就是控制预测框的宽高能够尽可能快速地与真实框的宽高接近。

最终的CIOU Loss可以通过1-CIOU而得到：

4)本发明实施例的余弦退火算法是一种学习率衰减策略。在深层神经网络的学习过程中，由于使用梯度下降算法优化目标函数而容易陷入到马鞍面中，但马鞍面上损失对参数的一阶导数为0，二阶导数的正负值不相同，而由于梯度为0，模型无法进一步更新参数，因此模型训练容易陷入马鞍面中不再更新。在这种背景下学习率衰减就闲的十分有必要性，随着模型的训练参数需要调整的量越来越少，就需要更小的学习率；而当模型训练一段时间后，很可能会陷入了马鞍面梯度的局部最小困境，因此将学习率增大到初始值，让参数有一个较大的更新，使模型冲出马鞍面。学习率退火算法就是在每个batch训练后让学习率减小一点，当减小到规定值后马上增大到初始值，让学习率按照周期变化的一个不断循环的过程。具体公式如下：

其中η_t是设置的初始学习率，T_cur是上次重启时的epoch数：：

当last epoch＝-1时，将初始学习率作为学习率，每一步的学习率就会变为：

步骤S14：根据训练过程中记录的loss值对比曲线，结合模型在测试集上mAP值、F1分数、准确率、召回率等模型评估参考标准的计算结果从网络迭代训练时保存的挑选性能合适的网络模型作为最终应用与苹果识别测距的基础检测模型。图5、图6、图7、图8和图9为所述最终模型的评估结果可视化图像。

上述评估标准计算方法具体为：

对于公式中涉及：TP、TN、FP、FN四个概念。其中TP代表模型被正确分类的正样本；TN代表被正确分类的负样本；FP代表被错误分类正样本；FN代表被错误分类的负样本。

本实施例首要计算Precision与Recall两个指标作为后续AP与mAP的计算的前置结果。其中Precision表示模型预测的精度，也就是模型认为是正样本并且确实是正样本的部分占模型认为是正样本的数量比例；Recall表示模型预测时的召回率，即指模型认为是正样本并且确实正样本的部分占真实是正样本总数的比例。公式如下：

对于目标检测任务来说，通过对检测框的IOU值计算得出数据集所有分类的Precision与Recall两个指标进行合理计算可以使每个类别都得到一条P-R曲线，曲线下的面积就是AP的值。mAP值则为所有类别AP值的平均值，常用来作为目标检测算法的评价指标，具体来说就是，对于每张图片检测模型会输出多个预测框(远超真实框的个数)，我们使用IoU(Intersection Over Union，交并比)来标记预测框是否预测准确。标记完成后，随着预测框的增多，查全率R总会上升，在不同查全率R水平下对准确率P做平均，即得到AP，最后再对所有类别按其所占比例做平均，即得到mAP指标。

F1指标又称平衡F分数它同时兼顾了分类模型的精确率和召回率，是一个综合指标。F1分数被定义为模型精确率和召回率的调和平均值，它的最大值是1，最小值是0；具体表达为：

综上所述，本发明通过各种图像数据收集及处理手段获得了一整套可以应用于目标检测的基于复杂背景下的VOC格式苹果数据集。其中数据集共有14103个图像数据对象和14103个对应图像数据的标注信息文件；共有101145个苹果目标对象。数据集按照8：2的比例，将数据集划分为训练集、验证集和测试集，其中11422个数据作为训练集，1270个数据作为验证集，1411个数据作为测试集。在进行数据标志时，采用半监督学习的方式，先标注少量数据，并对标注的少量数据进行训练得到一个粗略的检测模型，再用检测模型结合标注文件生成程序对其他图像数据进行自动标注，快速生成其对应的标注文件。避免了由于目标多且小情况下需要耗费大量时间进行重复机械性人工标注的情况，大大节省了标注工作的时间成本，缩短标注时间。可以快速且有效的从图像数据筛选出重复性的图像文件。实现高效识别并分离无标注文件、有标注文件但文件内无标注信息、有标注文件但没有原图像数据等情况下的数据文件，提升完成核查规整数据集任务的效率。改进后的检测模型，通过结合GhostNet作为主干同时融入注意力机制模块，在减少计算参数量的同时强化了模型对于目标特征的权值，在确保检测速度的同事兼顾了检测精度，确保检测模型在实际场景中的复杂背景下对于苹果识别检测的性能质量。

为了实现上述实施例，如图10所示，本实施例中还提供了基于深度卷积神经网络的苹果检测定位系统10，该系统10包括，数据获取模块100和目标定位模块200。

数据获取模块100，用于获取包含苹果信息的图像数据；

目标定位模块200，用于将包含苹果信息的图像数据输入至预训练的目标检测网络模型进行苹果检测定位，基于已标注的苹果图像信息输出得到目标预测框；其中，目标预测框，至少包括目标苹果图像的位置信息，预训练的目标检测网络模型是基于包含苹果信息的图像数据样本对YOLO v4网络模型进行训练得到的。

根据本发明实施例的基于深度卷积神经网络的苹果检测定位系统，在减少计算参数量的同时强化了模型对于目标特征的权值，在确保检测速度的同事兼顾了检测精度，确保检测模型在实际场景中的复杂背景下对于苹果识别检测的性能质量。

为了实现上述实施例的方法，本发明还提供了一种计算机设备，如图11所示，该计算机设备600包括存储器601、处理器602；其中，所述处理器602通过读取所述存储器601中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现上文所述方法的各个步骤。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度卷积神经网络的苹果检测定位方法，其特征在于，包括以下步骤：

获取包含苹果信息的图像数据；

2.根据权利要求1所述的方法，其特征在于，所述方法，还包括：

获取多种类型场景下的包含苹果信息的图像数据样本，基于所述图像数据样本构建训练数据集；

通过预设的切分比例将所述训练数据集划分为训练集、验证集和数据集；

利用所述训练集、验证集和数据集对YOLO v4网络模型进行模型训练，得到所述预训练的目标检测网络模型。

3.根据权利要求2所述的方法，其特征在于，所述基于图像数据样本构建训练数据集，包括：

利用预设的图像处理方式对所述图像数据样本进行数据增强得到图像增强样本集；

利用图像一致性检测算法，并基于所述图像增强样本集的计算相似度进行重复图像筛选得到图像筛选样本集；其中，所述图像筛选样本集，包括第一样本数据和第二样本数据；

利用开源标注工具并采用VOC的标注格式对所述第一样本数据进行标注，并根据所述第一样本数据训练得到的粗略检测模型对所述第二样本数据进行自动标注，以完成对训练数据集的信息标注。

4.根据权利要求2所述的方法，其特征在于，构建所述YOLO v4网络模型，包括：

使用GhostNet网络作为YOLO v4网络模型的主干特征提取网络，在对所述主干特征提取网络提取出的三个有效特征层中进行注意力机制模块添加处理；

对添加处理过后的三个有效特征层使用SPP结构网络和PANet的特征金字塔结构网络进行多次的特征提取、卷积和特征融合操作，得到三个不同尺度的yolo head特征层。

5.根据权利要求4所述的方法，其特征在于，所述利用训练集、验证集和数据集对YOLOv4网络模型进行模型训练，得到预训练的目标检测网络模型，包括：

利用所述训练集和验证集对所述YOLO v4网络模型进行预设场景下的模型训练并在训练过程中得到迭代网络模型；以及；

使用测试集对所述迭代网络模型进行苹果检测识别以计算模型mAP值，基于所述模型mAP值选择最优网络模型以得到用于检测的目标检测网络模型。

6.根据权利要求5所述的方法，其特征在于，所述方法，还包括：

获取训练数据集中预设尺寸的输入图像和模型参数；

将所述输入图像和模型参数输入至YOLO v4网络模型构建目标检测网络模型，并使用数据加载算法获取训练数据集的图像数据和对应的检测框的标注信息；以及，

将预处理后的训练数据集的图像数据和真实框的信息以及所述训练数据集的图像数据和对应的检测框的标注信息传输至目标检测网络模型，通过计算损失值以更新网络参数得到训练好的目标检测网络模型。

7.根据权利要求6所述的方法，其特征在于，所述损失值，包括检测框位置的回归损失、置信度损失和分类损失，所述检测框位置的回归损失采用CIOU Loss的方式；所述置信度损失包括有目标的置信度损失和无目标的置信度损失；所述方法，还包括：

基于所述三个不同尺度的yolo head进行目标预测得到预测值；其中，所述预测值包括：将所述包含苹果信息的图像数据的图像输入至所述预训练的目标检测网络模型进行计算，得到的对应图像被分为不同大小的网格后，网格点上检测框对应的位置、置信度及类别。

8.一种基于深度卷积神经网络的苹果检测定位系统，其特征在于，包括：

数据获取模块，用于获取包含苹果信息的图像数据；

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一所述的基于深度卷积神经网络的苹果检测定位方法。