CN113902901B

CN113902901B - 一种基于轻量化检测的物体分离方法与系统

Info

Publication number: CN113902901B
Application number: CN202111163840.6A
Authority: CN
Inventors: 张文利; 刘钰昕; 赵庭松
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2024-04-26
Anticipated expiration: 2041-09-30
Also published as: CN113902901A

Abstract

一种基于轻量化检测的物体分离方法，包括：采集物体图像；将图像输入到轻量化的主干网络中提取特征获得相等尺度的特征图；将相等尺度的特征图通过深浅层特征融合模型获得多尺度特征图；基于多尺度特征图使用基于多尺度融合的双注意力算法进行多尺度特征融合，获得多个不同深层小尺度检测分支和多个不同浅层大尺度检测分支；对每一个检测分支分别构建一个预测分支来检测该尺度下的物体，将多个预测分支的输出特征向量进行合并和后处理，得到物体的检测结果；根据检测结果进行物体分离。还公开了对应的系统、电子设备以及计算机可读存储介质，加强特征表达能力，大幅提高检测和分离的准确性、速度以及不同大小物体的检测精度。

Description

一种基于轻量化检测的物体分离方法与系统

技术领域

本发明涉及计算机视觉和图像处理领域，具体涉及一种基于轻量化检测的物体分离方法与系统。

背景技术

近年来随着计算机视觉技术的飞速发展以及智慧农业建设概念、智慧物流等概念的相继提出，基于计算机视觉的物体分离检测技术作为智慧农业建设和智慧物流建设的一项尤为重要的技术，在水果品质检测、成熟度识别、产量预测和自动采摘、包裹的识别和分离，分拣等方面有着广泛的应用。如果能够将该技术部署在果园机器人、物流机器人等中，将大大提升农业生产效率，进一步加快智慧农业、智慧物流等相关技术的发展。由于机器人所携带的运算设备算力较低，而物体检测决定了机器人后续所要执行的分离操作，因此选用合适的物体检测算法将成为决定机器人能否应用到实际生产中的关键问题。由于快速度和高精度的要求对于机器人的工作效率问题充满挑战，现有的机器人普遍无法同时满足快速度和高精度的要求，因此目前迫切需要一种轻量化的物体检测算法以及基于轻量化检测的物体分离方法用于机器人的部署，用以实现实时检测的目标，这对于智能化农业和物流等生产管理具有重要意义。

在过去的几十年里，许多研究人员对水果检测进行了研究。关于用于水果检测的图像处理技术，现有技术大多使用传统的手工特征来编码，并用不同传感器获取的数据并估计水果位置，大多数传统的水果图像识别方法涉及目标的颜色、纹理、形状等特征的组合，Gongal等人回顾了应用于农业领域的传统图像处理技术，Blasco等人使用基于像素间光谱响应的算法作为检测柑橘类果实的特征。

这些传统方法都是基于对特定场景的研究，在情况更复杂的实际果园中精度普遍偏低。最近，深度学习的引入促进了物体识别技术的显著进步。有大量学者利用深度学习的方法对果实进行检测，并进行产量估计，Mu等人使用Resnet-101为主干网络建立了一个R-CNN算法，用于进行绿色番茄的果实检测、计数和大小估计。改善了果实检测中对于遮挡和生长阶段的限制，在GTX 1060显卡上每张图检测的平均时间是0.37s，2.7FPS。

Liu等人基于YOLOv3提出了一种改进的番茄检测模型YOLO-Tomato，将传统的矩形边界框换为圆形边界框，从而更精准地匹配番茄目标，在GTX 1070Ti显卡上每张图检测所用时间可以达到54ms，18.5FPS。Koirala等人基于YOLOv3网络提出了一种针对芒果的检测算法MangoYOLO，对每棵果树的前后双视图进行芒果检测，最终在HPC高性能计算机群中每张图的检测速度可以达到70ms，14.3FPS。Wan等人提出了一种改进的faster R-CNN网络，用于多类别的果实检测。在GTX 1060显卡上每张图的检测速度能达到58ms，17.2FPS。

Longsheng等人建立了一个苹果检测算法，采用两种快速的神经网络结构ZFNet和VGG16来检测原始RGB和前景RGB图像，并通过这种方法提高了苹果检测精度，在NVidiaTITAN XP显卡中每幅图片的平均检测时间为0.181秒，5.5FPS。Yang等人通过mask R-CNN算法训练草莓数据集，对草莓果实进行分割，并协助采摘机器人采摘点的视觉定位，在GTX1080显卡中处理每张图像的平均时间为0.125s，8.0FPS。

Song等人构建并训练了一个由VGG16实现的faster R-CNN模型，用于全天时的对猕猴桃果实进行采摘。该算法配置在台式计算机中，在NVidia TITAN XP显卡中检测每幅图片的平均时间为0.347s，2.9FPS。Gao等人提出了一种基于Faster R-CNN的多类苹果检测算法，分别在不同的遮挡条件下对苹果进行检测，协助机器人制定采摘策略，在NVidia TITANXP显卡中的处理一幅图片的检测速度为0.241s，4.1FPS。

尽管这些算法能够在一定程度上避免外部环境对果实检测的影响，提高检测精度，但卷积网络强大的特征提取和泛化能力是以大参数量以及计算量为代价的，所以这些算法都使用大型GPU进行检测，然而要达到实时检测的目标的话FPS最少要达到20帧，否则在投入到无人农场机器人的边缘设备时，速度会进一步下降甚至无法正常运行。随着人们对于检测性能和泛化能力的要求越来越高，如何在达到实时检测的效果的同时尽可能提高检测精度，成为了一个重要的研究课题，其中最重要的一个研究方向就是将网络进行轻量化。

目前在农业领域有关轻量化方向的研究相对较少，而在其他领域中很多学者提出了轻量化的网络模型，Howard等人提出了移动端模型MobileNet，其核心是使用深度可分离卷积代替传统的卷积操作，大大降低了计算复杂度。随后Sandler等人又提出了改进版的MobileNetV2，在网络中增加具有线性瓶颈的倒残差结构，进一步提高网络模型的性能。Zhang等人提出了轻量级神经网络模型ShuffleNetV1，通过分组卷积和通道洗牌的方式在减少了运算复杂度的同时保证了网络性能。Ma等人在此基础上深入分析了计算机内存访问损失时间和运行速度之间的关系，并指出卷积层输入输出通道数、group操作数、网络模型分支数以及Elementwise操作数四个因素对最终模型速度的影响，对网络模型做出了进一步的改进并提出了ShuffleNetV2网络模型。

近几年YOLO系列的算法在一阶目标检测中受到了广泛的欢迎，其利用锚框将分类与目标定位的回归问题结合起来，且其主干网络Darknet也可以换成其他主干网络，从而做到了高效、灵活和泛化性能好，其中yolov4-tiny在COCO数据集上的平均精度超过了现在主流的轻量化网络。但是在实际物体检测过程中，目标的尺寸普遍偏小，而轻量化模型的层数较低且网络结构相对简单，能够提取到的目标有效特征也比较少，检测小目标时效果并不好，所以检测的精度相对较低，无法做到物体的有效分离，不适合用于复杂场景中的密集小目标的检测。而如何满足多场景下在移动端边缘设备进行实时精准的物体检测并基于此进行物体分离的需求，是关键所在。

发明内容

为了解决现有技术中存在的问题，本发明提供了一个基于边缘设备的轻量级网络模型Light-CSPNet，并将该模型部署在便携性强、性能强大的边缘设备中，可以达到高精度实时检测和物体分离的目的。本发明提出的网络模型能够大幅度提高检测精度，并且在边缘设备中达到实时检测和物体分离的效果。

本发明一方面提供一种基于轻量化检测的物体分离方法，包括：

S10，采集物体图像；

S20，将所述物体图像输入到轻量化的主干网络中提取特征获得相等尺度的特征图；

S30，将所述相等尺度的特征图通过深浅层特征融合模型获得多尺度特征图；基于所述多尺度特征图使用基于多尺度融合的双注意力算法进行多尺度特征融合，获得多个不同深层小尺度检测分支和多个不同浅层大尺度检测分支；

S40，对每一个检测分支分别构建一个预测分支来检测不同尺度下的所述物体，将多个所述预测分支的输出特征向量进行合并和后处理，得到所述物体的检测结果；

S50，根据所述物体的检测结果进行物体分离。

优选的，所述采集物体图像包括由一个或以上的可见光摄像装置分别采集不同场景中不同视野范围内的图像，采集后将图像保存并进行数据集标注；在数据集标注时将图像导出，按照目标的最大外接矩形框的形状进行所述数据集标注。

优选的，将所述物体图像输入到轻量化的主干网络中提取特征获得相等尺度的特征图包括：

使用嵌套式的双跨阶段网络结构构成所述轻量化的主干网络以传播所述物体图像的梯度信息；

将所述物体图像输入所述轻量化的主干网络中进行卷积运算，获得相等尺度的特征图。

优选的，所述嵌套式的双跨阶段网络结构包括：

将上一层的输出x_k-1作为该层的输入，通过卷积层X的卷积运算之后将其映射为个通道分别进行运算处理；

将所述n个通道中其中一个或多个通道经过卷积层Y的卷积运算后再次将其映射为个通道；

将m个通道中的一个或多个通道经过卷积层Z的卷积运算后，再与m个通道中的其余通道进行特征融合，形成不同维度的

将与所述n个通道进行特征融合，进行1×1卷积运算将维度扩大一倍后变成/>最后得到相等尺度的特征图x_k。

优选的，将所述相等尺度的特征图通过深浅层特征融合模型获取多尺度特征图包括：

将所述相等尺度的特征图分别进行上采样和下采样获得大尺度特征图X₃和小尺度特征图X₂，剩余一个为等尺度特征图X₁；

基于所述多尺度特征图使用基于多尺度融合的双注意力算法进行多尺度特征融合，获得多个不同深层小尺度的检测分支和多个不同浅层大尺度的检测分支，包括：

所述多尺度融合的双注意力算法包括通道注意力算法模块以及空间注意力算法模块；所述大尺度特征图X₃、小尺度特征图X₂与等尺度特征图X₁共同输入到所述多尺度融合的双注意力算法；将等尺度特征图X₁与分别经过上采样和下采样进行尺度归一化后的小尺度特征图X₂以及大尺度特征图X₃分别输入到所述通道注意力算法模块中，然后将通道注意力增强后的特征Y₁、Y₂通过维度连接得到特征图Y；将特征图Y输入到所述空间注意力算法模块中得到Y_fusion，以此达到将不同尺度的特征图通过双注意力机制进行特征融合的效果。

优选的，所述对每一个检测分支分别构建一个预测分支来检测不同尺度下的所述物体，将多个所述预测分支的输出特征向量进行合并和后处理，得到所述物体的检测结果包括：

基于目标边框聚类算法，为每个所述预测分支分配3个anchors；

利用置信度阈值分数小于第一阈值的预测边框，剔除同一物体的重叠边框，以进行所述物体的检测。

优选的，步骤S30还包括将多个深层小尺度检测分支替换为浅层大尺度检测分支。

优选的，所述根据所述物体的检测结果进行物体分离包括根据所述物体的位置和尺寸信息进行物体分离。

本发明的第二方面还提供一种基于轻量化检测的物体分离系统，包括：图像采集装置模块、轻量化主干网络模块、特征融合网络模块、检测分支模块以及分离模块，其中：

所述图像采集装置模块包括边缘设备上连接的一个或以上的可见光摄像装置，分别采集不同场景中不同视野范围内的图像，采集后保存图像以进行数据集标注；在数据集标注时将图像导出，按照目标的最大外接矩形框的形状进行标注；最后输出到所述图像读取模块中进行训练；

所述轻量化主干网络模块包括轻量化卷积结构提取图像特征子模块，用于提取所述物体的特征信息；将不同尺度下的所述特征信息输出到所述特征融合网络模块；

所述特征融合网络模块包括多尺度特征图读取模块、通道注意力子模块以及空间注意力融合子模块；所述多尺度特征图读取模块用于从轻量化主干网络模块读取所述轻量化卷积结构提取图像特征子模块的卷积运算后提取的不同尺度下的特征信息并将其输入到通道注意力子模块以及空间注意力融合子模块中进行特征融合；最后将多分支特征信息输出到所述检测分支模块；所述通道注意力子模块用于提高多通道特征图的不同维度之间的关联性并进行尺度归一化以及将尺度归一化后的特征输出到所述空间注意力融合子模块中；所述空间注意力融合子模块使用空间注意力机制增强堆叠密集的小目标特征的表达以提高不同尺寸的目标的检测能力；

所述检测分支模块包括多分支检测框生成模块以及冗余框去除模块，用于从所述特征融合网络模块读取多分支特征信息后，通过所述多分支检测框生成模块生成多分支检测框，输出多个不同尺度的检测分支分别进行预测生成预测框；所述冗余框去除模块将产生的所有框按照阈值进行得分计算，并将所有的框按照得分的大小进行排序，选中最高分以及其对应的框作为最终检测结果；将所述检测结果输出到所述分离模块；

所述分离模块用于根据所述物体的检测结果进行物体分离，包括视觉分离子模块和/或实体分离子模块，用于根据所述物体的检测结果进行物体分离。

本发明的第三方面提供一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如第一方面所述的方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如第一方面所述的方法。

本发明提供的系统和方法，具有如下有益效果：

(1)现有的深度学习中的物体检测算法的网络模型过于复杂，参数数量和计算量过大，导致运行效率低，而且边缘设备的性能普遍较差，现有算法无法实现边缘设备的实时检测。本发明提出了一种计算效率高的轻量级CSP目标检测网络，Light-CSPNet，用于轻量化检测和物体分离，是一种计算效率高的轻量级CSP目标检测网络，可以大大提升检测和分离的准确性和速度。

(2)针对现有轻量级网络模型的网络层数过少，特征表示能力不足，导致精度普遍不高的问题，采用一种基于特征图大小变化的轻量级网络的下采样机制，取代了主流方法中使用的单一下采样策略。充分利用不同尺度的特征图的特点，轻量级模型的检测精度得到了进一步提高。

(3)针对农业和物流领域现实场景下物体大小差异明显的问题，提出了一种深度浅层融合模型，通过双注意机制的多尺度融合进行特征融合，加强了特征表达能力，大幅提高了不同大小物体的检测精度。

附图说明

图1为本发明优选实施例的基于轻量化检测的物体分离方法所采用的轻量化网络架构图；

图2为本发明优选实施例的基于轻量化检测的物体分离方法流程图；

图3为本发明优选实施例的基于轻量化检测的物体分离系统结构图；

图4为本发明优选实施例的电子设备实施例的结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

参见图2，本优选实施例提供了一种基于轻量化检测的物体分离方法，包括：

S10，采集物体图像；

S20，将所述物体图像输入到轻量化的主干网络Light-CSPNet中提取特征获得相等尺度的特征图；

S30，将所述相等尺度的特征图通过深浅层特征融合模型获得多尺度特征图；基于所述多尺度特征图使用基于多尺度融合的双注意力算法进行多尺度特征融合，获得多个不同深层小尺度检测分支和多个不同浅层大尺度分支；

S40，对每一个检测分支分别构建一个预测分支来检测该尺度下的所述物体，将多个预测分支的输出特征向量进行合并和后处理，得到所述物体的检测结果；包括：基于目标边框聚类算法，为每个所述预测分支分配3个anchors；利用置信度阈值分数小于第一阈值的预测边框，剔除同一物体的重叠边框，以进行所述物体的检测。

当然，对于集中小目标的检测情况下，为了提高检测精度，步骤S30还包括将多个深层小尺度检测分支替换为浅层大尺度检测分支。

S50，根据所述物体的检测结果进行物体分离。

本优选实施例的基于轻量化检测的物体分离方法采用轻量化网络，网络架构图如图1所示。

作为优选的实施方式，所述采集物体图像包括由一个或以上的可见光摄像装置分别采集不同场景中不同视野范围内的图像，采集后将图像保存并进行数据集标注；在数据集标注时将图像导出，按照目标的最大外接矩形框的形状进行所述数据集标注。

作为优选的实施方式，将所述物体图像输入到轻量化的主干网络Light-CSPNet中提取特征获得相等尺度的特征图包括：

使用嵌套式的双跨阶段网络结构构成所述轻量化的主干网络Light-CSPNet以传播所述物体图像的梯度信息；

对所述主干网络Light-CSPNet中输入的原始的所述物体图像进行卷积处理，获得相等尺度的特征图；

将相等尺度的特征图通过深浅层特征融合模型获取多尺度特征图；本实施例具体为：将相等尺度的特征图分别进行上采样和下采样获得大尺度特征图X₃和小尺度特征图X₂，剩余一个为等尺度特征图X₁。

本发明采用轻量化的网络结构Light-CSP block用于提取特征，提高检测精度的同时大大减少了检测耗时。

现在主流的CNN架构例如ResNet，Densenet每一层的输出都是由该层的卷积运算以及先前所有层的输出共同组成。然而，这样做会导致在模型的第k层中(k＝1,k＝2,……)，梯度流每次都要从第一层开始重新走到k层以此来更新和使用权重，导致重复的学习冗余的信息。近年来也有研究学者在提高模型的学习能力和参数信息利用率方面进行了研究，其中CSPNet在MS COCO目标检测数据集上达到了最先进的测试结果。该算法通过跨阶段部分连接的方式将第k-1层卷积运算的输出x_k-1在下一层中映射为两个通道，并且通过一个跨阶段的层次结构后进行合并，使得其中一个通道进行梯度的更新而另一个通道保持原本的梯度信息不变，以此来保证传播的梯度信息保持着较大的相关性差异减少梯度复用的问题。CSPNet优化后的网络结构可以表示为：

x_k＝M{[x′_k-1,T(F(x″_k-1))]} (1)

其中x_k-1是这一层的输入，在通过一个卷积层之后被分成两个通道，可以表示为x_k-1＝[x′_k-1,x″_k-1],T为过渡函数用于截断x_k(k＝1,k＝2,……)中的梯度流，M表示1×1的卷积运算，用于将被分开的两个通道整合在一起，同时控制通道的数量。

但是以上传统CSPNet所取得的先进效果还决定于其庞大的网络模型，其网络模型中依旧存在参数量庞大、计算量庞大导致检测耗时长的问题，所以并不适合部署在无人农场的机器人中。为解决上述问题，本实施例基于CSPNet网络模型设计方法提出了轻量级物体检测网络Light-CSPNet，在保证了检测精度的同时解决了检测耗时过长的问题。轻量级物体检测网络Light-CSPNet将CSPNet的Partial Block中堆叠的大量Res block或Denseblock替换为一个仅由三个卷积层组成的微型跨阶段网络结构Light Partial Block，并且减少了一个部分过渡层(Partial Transition Layer)以减少计算量。

将CSPNet的Partial Block部分堆叠的n个卷积模块替换为一个仅由数个卷积层组成的嵌套式微型跨阶段网络结构，可以表示为：

x_k＝M{[x′_k-1,T[F(y′_k-1,T′(F(y″_k-1)))]]} (2)

其中y′_k-1和y″_k-1分别是x″_k-1在进入下一个卷积层之前被分成的两个通道，可以表示为x″_k-1＝[y′_k-1,y″_k-1]，T′为新的过渡函数，用于截断上一个卷积层中的梯度流。

通过这种方法将通道流进行切换并重新整合，不仅可以减少大量重复的梯度信息，使得梯度在传播过程中保持适当的相关性差异，而且进一步减少了网络中每一个block的计算量和参数量。通过这种方法缓解CSPNet这种大型网络对于高计算成本的依赖的问题，提高了真实环境中物体检测的速度和精度，用于对各种场景下的小密集物体进行实时检测。

Light-CSPNet中每一个尺度下的block的内部具体流程图，整体可分为以下四步：

将上一层的输出x_k-1作为该层的输入，通过一个3×3×C1的卷积层X之后将其映射为x′_k-1,x″_k-1两个通道分别进行运算处理；

其中x′_k-1保持不变，将x″_k-1通过另一个3×3×C2的卷积层Y后再次将其映射为y′_k-1,y″_k-1两个通道；

将其中y″_k-1经过一个3×3×C2的卷积层Z后，再与y′_k-1进行特征融合变成维度为2×C2的

将与之前的x′_k-1进行特征融合以及1×1卷积运算将维度扩大一倍后变成/>其维度为C1+2×C2，最后将得到的结果作为x_k输入到下一层。

在该框架中使用一个嵌套式的双跨阶段网络结构来传播梯度信息，相比于堆叠n个Res block、Dense block来说，这种网络的计算量和参数量都大大减小，进一步提高了运行效率。使其可以达到在机器人边缘设备中进行实时的果实检测的目的。

作为优选的实施方式，所述多尺度融合的双注意力算法包括通道注意力算法模块以及空间注意力算法模块：所述大尺度特征图X₃、小尺度特征图X₂与等尺度特征图X₁共同输入到所述多尺度融合的双注意力算法；将等尺度特征图X₁与分别经过上采样和下采样进行尺度归一化后的小尺度特征图X₂以及大尺度特征图X₃分别输入到所述通道注意力算法模块中，然后将通道注意力增强后的特征Y₁、Y₂通过维度连接得到特征图Y；将特征图Y输入到所述空间注意力算法模块中得到Y_fusion，以此达到将不同尺度的特征图通过双注意力机制进行特征融合的效果。

作为优选的实施方式，所述将多个指定的深层小尺度检测分支替换为浅层大尺度检测分支，对每一个检测分支分别构建一个单独的预测分支来检测该尺度下的所述物体，将多个预测分支的输出特征向量进行合并和后处理，得到所述物体的检测结果包括：

将深层的13×13尺度的分支替换为浅层的104×104尺度的分支，以此提高小目标的检测精度；

基于目标边框聚类算法，为每个所述预测分支分配3个anchors，使之更专注于小目标尺度的目标检测，目标边框聚类算法采用YOLOv3中的K-means或者其他本领域技术人员熟知的算法，均在本发明的保护范围内；

利用置信度阈值分数小于第一阈值的预测边框，采用NMS算法剔除同一物体的重叠边框，并通过配置在机器人上的边缘设备进行所述物体的检测。

作为优选的实施方式，所述根据所述物体的检测结果进行物体分离包括根据所述物体的位置和尺寸信息进行物体分离，包括视觉分离子模块和/或实体分离子模块，用于根据所述物体的检测结果进行物体分离。

具体实施例一：

在物流领域，将包裹分类流水线的包裹按照其在传送带上的位置和自身的尺寸信息进行归类运输，包括：以一定的高度差并且以对单件物体能够在整个视野尺寸覆盖的规则架设多台2D相机；获取多台2D相机分别采集的多幅图像，对采集后的多幅图像输入到轻量化主干网络中进行处理，利用包裹的特征信息将有高度差的两相机间的物流包裹关联匹配；对不同高度相机中对同一包裹成像大小利用相机成像原理计算物体的实际空间尺寸，并输出准确的物体位置信息。还公开了相应的物体单件分离系统，实现全自动化多并排物体的单件分离，提升物体分拣或识别效率，降低在单件分离系统中视觉装置的架设成本，解决目前单件分离系统的视觉系统硬件成本昂贵，对包裹定位不准确和实用性不高的问题。

具体实施例二：

实现果实检测网络模型，并进行定性和定量评估。为满足实际应用中的多品种异地采集的要求，本实施例选择在不同的果实检测数据集上进行测试，并且横向对比各种现在主流的网络模型，以评估不同网络架构在不同果实数据集中进行检测的性能。硬件设备使用GEFORCE GTX 1080Ti型号GPU,Intel i7 8th型号CPU的计算机完成整体算法的训练部分训练出一个成熟的模型，并且该模型部署在便携性强、性能表现良好的边缘设备中进行检测精度和检测速度的测试。模型在英伟达系列的三个价格性能各不相同的边缘设备上进行了测试，分别为NVIDIA Jetson Xavier NX,NVIDIA Jetson TX2 and NVIDIA JetsonNANO。

(一)训练和测试所用的数据集

1、柑橘数据集

柑橘数据集是在某柑橘园区进行采集的。

2、番茄数据集

番茄数据集采用的是公开数据集Laboro Tomato。

3、苹果数据集

苹果数据集采用的是2020年提出的公开数据集Minneapple。

4、根据数据集1-3形成的混合数据集合：

(1)不同成熟度的水果数据集合。

(2)不同品质的水果数据集合，从而区分水果的不同定价。

(3)混合种类的水果数据集合。

(二)训练策略

将不同的数据集分别进行训练，最终得到几个不同的训练模型，并将数据集中的图像按照7：3的比例随机分配到训练集和测试集中。而数据增强方面选择使用Mosaic数据增强，提高样本数量的同时也能提高小目标检测能力。

(三)评价矩阵Evaluation Metrics

本实施例使用精确率(P)、召回率(R)、平均精度AP、每秒处理的图像数量FPS、模型参数量(Params)、模型计算量FLOPs以及权重大小Weights作为评价指标评估目标检测性能的好坏。网络模型的参数量Params可以用于衡量网络模型的复杂程度，卷积核的尺寸和数量越多参数量也就越大；而网络模型的计算量FLOPs即浮点型运算量，表示网络模型的运算速度；权重文件的大小Weights用于衡量网络模型的大小。

(四)实验结果对比分析

1、对比试验

本实验的目的是为了探究提出的轻量化网络模型在果实检测任务中所表现出性能的好坏，并且验证算法是否能在边缘设备上进行实时检测，以便部署在无人农场的机器人上，所以该实验的所有测试结果与评价指标均在边缘设备上进行测试。该实验共使用三种不同的边缘设备，分别为NVIDIA Jetson Xavier NX、NVIDIA Jetson TX2、NVIDIAJetson NANO。在柑橘数据集、番茄数据集和苹果数据集上分别测试并对比了所提出的算法以及同时具备速度快精度高特点的单阶段主流YOLO系列算法，并且给出了在三个数据集上测试了平衡点的精确率Precision和召回率Recall、平均精度AP、参数量Params、计算量FLOPs、权重大小Weights以及在NX、TX2和NANO上面运行的平均每秒处理图像数FPS七个指标，结果分别如表1、表2和表3所示。

表1在柑橘数据集中的测试结果

表2在番茄数据集中的测试结果

表3在苹果数据集中的测试结果

从表中可以看出，在柑橘、番茄和苹果数据集中使用该算法的精度分别可以达到0.93、0.847和0.85，均达到了最先进(SOTA)的性能。从参数量、计算量和权重大小三个指标中可以看出本实施例算法足够轻量化，其中参数量和权重大小均是对比的网络模型中最小的，而计算量FLOPs要比YOLOv3-tiny和YOLOv4-tiny网络模型大，这是因为轻量化检测网络为了更好的传播梯度并保留提高特征表达能力，设计了一些相对复杂的网络结构。经过测试可以看出当算法部署在Jetson Xavier NX中时，检测速度FPS在三个数据集上分别可以达到21.3，24.8，21.7，均高于20，可以达到实时检测的目的。在Jetson TX2上检测速度FPS分别可以达到13.9，14.1，14.5。在Jetson NANO上检测速度FPS分别可以达到6.3，5.0，8.5。

2、消融实验

为了验证本实施例提出的各个模块对于检测性能的影响，本实施例进行组件消融实验对性能进行比较，其中初始情况设定为使用Light-CSPNet作为主干网络、传统最大池化层用于下采样、FPN进行特征融合，在此基础上分别测试了添加双注意力特征融合模块，将传统最大池化层替换为基于特征图大小变化的下采样模块，以及将FPN特征融合模块替换为深浅层特征融合模块这三个组件对于网络性能的提升情况，分别比较了各自的平均精度AP以及每秒处理图像数量FPS，每个数据集上的结果分别如表4、表5和表6所示。

表4在柑橘数据集上进行组件消融实验。分别对比了基于特征图大小变化的下采样模块、深浅层融合模块以及双注意力模块三种算法对于算法性能的提升情况。

表5组件消融实验。在番茄数据集上分别对比了基于特征图大小变化的下采样模块、深浅层融合模块以及双注意力模块三种算法对于算法性能的提升情况。

表6组件消融实验。在苹果数据集上分别对比了基于特征图大小变化的下采样模块、深浅层融合模块以及双注意力模块三种算法对于算法性能的提升情况。

从表中可以得出结论，通过引入双注意力多尺度融合模块、基于特征图大小变化的下采样模块以及深浅层融合模块可以为果实检测精度带来进一步的提升，其中双注意力多尺度融合模块在柑橘、番茄和苹果数据集上对于检测精度分别提升了2.3％、1.3％和0.5％，基于特征图大小变化的下采样模块分别提升了1.1％、1.4％和0.4％，深浅层融合模块分别提升了0.2％、1.8％和2.1％，每个组件在不同数据集中对于精度带来了不同程度的提升，结论如下：

(1)仅使用本实施例提出的主干网络而不添加其于组件可以达到和YOLOv3网络模型接近的平均检测精度，而检测速度远超过YOLOv3和YOLOv4。

(2)YOLOv3-tiny和YOLOv4-tiny的检测速度是本实施例提出的算法的2倍左右，但本实施例的算法依旧可以达到20FPS以上，满足实时检测的需求。

(3)随着不同组件的添加，算法的检测精度也随之上升，但是检测速度方面呈下降的趋势，在实际应用中可可以根据实际场景的需要选择添加不同的组件进行不同场景下的果实检测。

参见图3，本实施例还提供一种基于轻量化检测的物体分离系统，包括：图像采集装置模块10、轻量化主干网络模块20、特征融合网络模块30、检测分支模块40以及分离模块50，其中：

所述图像采集装置模块10由边缘设备上连接的一个或以上的可见光摄像装置构成，分别采集不同场景中不同视野范围内的图像，采集后将图像保存在低算力运算设备中以进行数据集标注；在数据集标注时将图像导出，按照目标的最大外接矩形框的形状进行标注；最后输出到所述图像读取模块20中进行训练；

所述轻量化主干网络模块20由轻量化卷积结构提取图像特征子模块构成，以提取所述物体的特征信息；将不同尺度下的所述特征信息输出到所述特征融合网络模块30；

特征融合网络模块30包括多尺度特征图读取模块、通道注意力子模块以及空间注意力融合子模块；所述多尺度特征图读取模块用于从轻量化主干网络模块读取所述轻量化卷积结构提取图像特征子模块的卷积运算后提取的不同尺度下的特征信息并将其输入到通道注意力子模块以及空间注意力融合子模块中进行特征融合；最后将多分支特征信息输出到所述检测分支模块40；所述通道注意力子模块用于提高多通道特征图的不同维度之间的关联性并进行尺度归一化以及将尺度归一化后的特征输出到所述空间注意力融合子模块中；所述空间注意力融合子模块使用空间注意力机制增强堆叠密集的小目标特征的表达以提高不同尺寸的目标的检测能力；

所述检测分支模块40包括多分支检测框生成模块以及冗余框去除模块，用于从所述特征融合网络模块30读取多分支特征信息后，通过所述多分支检测框生成模块生成多分支检测框，输出多个不同尺度的检测分支分别进行预测生成预测框；所述冗余框去除模块将产生的所有框按照阈值进行得分计算，并将所有的框按照得分的大小进行排序，选中最高分以及其对应的框作为最终检测结果；将所述检测结果输出到所述分离模块50；

所述分离模块50用于根据所述物体的检测结果进行物体分离。如在物流领域采用包括靠边装置构成的单件分离模块，皮带控制系统会控制不同区域的皮带以不同速度运转进行并行分离，分离后经靠边装置输出单队列有间隔的物体。作为更优选的实施方式，还包括黏连分离装置，用于将多个物流物体拉开一定间隙，将黏连物体进行分离，其中黏连分离装置由散射皮带机构成。

对于水果等的分离可以采用视觉分离装置进行单果的视觉区分，以图像的形式展示。

对于水果等的分离还可以采用实体的水果分离装置，包括多个水果承接分拣组件以及与所述多个水果承接分拣组件连接的用于轻量化检测的水果图像采集装置，水果图像采集装置获取多个水果的图像后执行本实施方式的物体分离方法，从而根据不同的目的和标准获得不同的水果分离效果。

(1)对于需要区分不同成熟度的情况：

多个水果承接分拣组件包括气缸，根据水果的检测结果，气缸推动多个活塞交替运动，将水果分别推入不同的承接盒，第一水果承接分拣组件可通过第一承接盒将成熟度较好的水果导入至第一皮带输送机；第二水果承接分拣组件可通过第二承接盒将中等成熟的水果导入至第二皮带输送机；第三水果承接分拣组件可通过第二承接盒将不成熟的水果导入至第二皮带输送机；可以进行再次细分和传送机械设备自动对果类成熟度进行分类。

(2)对于需要分离不同果径并进行相应的不同定价的情况：

多个水果承接分拣组件包括气缸，根据水果的检测结果，气缸推动多个活塞交替运动，将水果分别推入不同的承接盒，第一水果承接分拣组件可通过第一承接盒将果径较大的水果导入至第一皮带输送机；第二水果承接分拣组件可通过第二承接盒将果径中等的水果导入至第二皮带输送机；可以进行再次细分和传送机械设备自动对水果进行大小分类,以便果农或水果批发商按水果大小分类销售，替代目前的人工分拣。

(3)对于需要分离不同类型水果的情况：

多个水果承接分拣组件包括气缸，根据水果的检测结果，气缸推动多个活塞交替运动，将水果分别推入不同的承接盒，第一水果承接分拣组件可通过第一承接盒将第一类水果导入至第一皮带输送机；第二水果承接分拣组件可通过第二承接盒将第二类水果导入至第二皮带输送机，依次类推。

本实施例还提供了一种存储器，存储有多条指令，指令用于实现如实施例的方法。

如图4所示，本发明还提供了一种电子设备，包括处理器301和与处理器301连接的存储器302，存储器302存储有多条指令，指令可被处理器加载并执行，以使处理器能够执行如实施例的方法。

本实施例的方法可以延伸到所有需要进行快速检测高效轻量的物体检测网络模型应用的智能领域。该算法主要由两个部分组成，主干网络采用速度快精度高的轻量化网络架构Light-CSPNet，并提出了一种基于特征图大小变化的下采样机制弥补传统单一下采样方法无法考虑不同尺度特征图特点的问题；而检测分支部分针对智能领域的物体图像尺寸普遍过小的问题，设计了三个浅层融合的特征提取分支，并用多尺度融合的双注意力机制增强特征的表达能力，进一步提高物体检测的精度。将主流的单阶段目标检测算法YOLO系列和本发明算法的平均精度AP和每秒处理的图像数FPS分别在边缘设备NVIDIA JetsonXavier NX、NVIDIA Jetson TX2和NVIDIA Jetson NANO中进行测试。

其中，检测精度可以超过大型网络模型YOLOv3和YOLOv4。而柑橘、番茄和苹果数据集的平均检测精度AP分别为0.93、0.847和0.850，达到最SOTA的性能。在检测速度方面，当该算法部署在NX上时，三个数据集的FPS分别可以达到21.3、24.8和21.7。当该算法部署在TX2上时，三个数据集的FPS分别可以达到13.9、14.1和14.5。当该算法部署在NANO上时，三个数据集的FPS分别可以达到6.3、5.0和8.5。所有的实验并没有使用任何GPU加速或者模型量化等加快目标检测模型编译速度的方法。如果使用这类算法进行加速的话，检测速度将会得到进一步的提升。因此它非常适用于部署在计算能力较差的边缘设备上。此外，本发明中提出的各种组件可以灵活地增加或删除，进一步提高检测精度或检测速度。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于轻量化检测的物体分离方法，其特征在于，包括：

S10，采集物体图像；

S50，根据所述物体的检测结果进行物体分离；

将所述物体图像输入到轻量化的主干网络中提取特征获得相等尺度的特征图包括：

将所述物体图像输入所述轻量化的主干网络中进行卷积运算，获得相等尺度的特征图；

所述嵌套式的双跨阶段网络结构包括：

将上一层的输出作为该层的输入，通过卷积层X的卷积运算之后将其映射为n个通道分别进行运算处理；

将所述n个通道中其中一个或多个通道经过卷积层Y的卷积运算后再次将其映射为m个通道；

将m个通道中的一个或多个通道经过卷积层Z的卷积运算后，再与m个通道中的其余通道进行特征融合，形成不同维度的；

将与所述n个通道进行特征融合，进行1×1卷积运算将维度扩大一倍后变成/>，最后得到相等尺度的特征图/>；

将所述相等尺度的特征图通过深浅层特征融合模型获取多尺度特征图包括：

将所述相等尺度的特征图分别进行上采样和下采样获得大尺度特征图和小尺度特征图/>，剩余一个为等尺度特征图/>；

所述多尺度融合的双注意力算法包括通道注意力算法模块以及空间注意力算法模块；所述大尺度特征图、小尺度特征图/>与等尺度特征图/>共同输入到所述多尺度融合的双注意力算法；将等尺度特征图/>与分别经过上采样和下采样进行尺度归一化后的小尺度特征图/>以及大尺度特征图/>分别输入到所述通道注意力算法模块中，然后将通道注意力增强后的特征/>通过维度连接得到特征图/>；将特征图/>输入到所述空间注意力算法模块中得到/>，以此达到将不同尺度的特征图通过双注意力机制进行特征融合的效果。

2.根据权利要求1所述的一种基于轻量化检测的物体分离方法，其特征在于，所述采集物体图像包括由一个或以上的可见光摄像装置分别采集不同场景中不同视野范围内的图像，采集后将图像保存并进行数据集标注；在数据集标注时将图像导出，按照目标的最大外接矩形框的形状进行所述数据集标注。

3.根据权利要求1所述的一种基于轻量化检测的物体分离方法，其特征在于，所述对每一个检测分支分别构建一个预测分支来检测不同尺度下的所述物体，将多个所述预测分支的输出特征向量进行合并和后处理，得到所述物体的检测结果包括：

4.根据权利要求1所述的一种基于轻量化检测的物体分离方法，其特征在于，步骤S30还包括将多个深层小尺度检测分支替换为浅层大尺度检测分支。

5.一种实施如权利要求1-4任一所述物体分离方法的基于轻量化检测的物体分离系统，其特征在于，包括：图像采集装置模块（10）、轻量化主干网络模块（20）、特征融合网络模块（30）、检测分支模块（40）以及分离模块（50）。

6.根据权利要求5所述的基于轻量化检测的物体分离系统，其特征在于，所述图像采集装置模块（10）包括边缘设备上连接的一个或以上的可见光摄像装置，分别采集不同场景中不同视野范围内的图像，采集后保存图像，以进行数据集标注；在数据集标注时将图像导出，按照目标的最大外接矩形框的形状进行标注；最后输出到所述轻量化主干网络模块（20）中进行训练。

7.根据权利要求5所述的基于轻量化检测的物体分离系统，其特征在于，所述轻量化主干网络模块（20）包括轻量化卷积结构提取图像特征子模块，用于提取所述物体的特征信息；将不同尺度下的所述特征信息输出到所述特征融合网络模块（30）。

8.根据权利要求5所述的基于轻量化检测的物体分离系统，其特征在于，所述特征融合网络模块（30）包括多尺度特征图读取模块、通道注意力子模块以及空间注意力融合子模块；所述多尺度特征图读取模块用于从轻量化主干网络模块读取轻量化卷积结构提取图像特征子模块的卷积运算后提取的不同尺度下的特征信息并将其输入到通道注意力子模块以及空间注意力融合子模块中进行特征融合；最后将多分支特征信息输出到所述检测分支模块（40）；所述通道注意力子模块用于提高多通道特征图的不同维度之间的关联性并进行尺度归一化以及将尺度归一化后的特征输出到所述空间注意力融合子模块中；所述空间注意力融合子模块使用空间注意力机制增强堆叠密集的小目标特征的表达以提高不同尺寸的目标的检测能力。

9.根据权利要求5所述的基于轻量化检测的物体分离系统，其特征在于，所述检测分支模块（40）包括多分支检测框生成模块以及冗余框去除模块，用于从所述特征融合网络模块（30）读取所述多分支特征信息后，通过所述多分支检测框生成模块生成多分支检测框，输出多个不同尺度的检测分支分别进行预测生成预测框；所述冗余框去除模块将产生的所有框按照阈值进行得分计算，并将所有的框按照得分的大小进行排序，选中最高分以及其对应的框作为最终检测结果；将所述检测结果输出到所述分离模块（50）。

10.根据权利要求5所述的基于轻量化检测的物体分离系统，其特征在于，所述分离模块（50），包括视觉分离子模块和/或实体分离子模块，用于根据所述物体的检测结果进行物体分离。

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如权利要求1-4任一所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如权利要求1-4任一所述的方法。