CN113313708A

CN113313708A - 基于深度神经网络的水果检测方法及系统

Info

Publication number: CN113313708A
Application number: CN202110737328.1A
Authority: CN
Inventors: 江明; 徐印赟; 吴云飞; 刘富春; 卢志远
Original assignee: Anhui Polytechnic University
Current assignee: Anhui Polytechnic University
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-08-27
Anticipated expiration: 2041-06-30
Also published as: CN113313708B

Abstract

本发明公开一种基于深度神经网络的水果检测方法，包括如下步骤：S1、相机采集图像，所述图像中包含至少一个目标物体；S2、将采集到的图像输入神经网络，神经网络输出含有检测框的目标物体及其置信度得分；S3、检测并删除图像中各目标物体的冗余检测框，剩余检测框内的图像即为目标物体图像。YOLOv4‑SPP2模型融合神经网络特征图多尺度信息，从而提高了目标尺度变化大和小目标检测的精确度，通过本发明提供的Greedy‑Confluence的边界框抑制算法来提高遮挡、重叠物体的检测精度，提高了复杂环境下的水果检测精度。

Description

基于深度神经网络的水果检测方法及系统

技术领域

本发明属于图像处理技术领域，更具体地，本发明涉及一种基于深度神经网络的水果检测方法及系统。

背景技术

随着移动抓取机器人在工农业有着越来越广泛的应用，机器人的抓取目标识别以及定位能力越来越重要。移动抓取机器人主要包括移动平台和机械臂，而物体的抓取能力的好坏很大一部分取决于被抓取物体的定位精度以及识别的准确性。

现在基于视觉的机器人可以实现水果的定位和采摘及分拣，由于现场情况复杂，存在水果间的遮挡，树叶遮挡、水果目标尺度变化大等情况，导致在基于采集图像进行目标物体识别时，存在目标物体识别精准度不高的问题，此处的目标物体识别包括大小识别，数量识别及位置识别，进而导致水果的分拣需要人为二次分拣的情况的产生。

发明内容

本发明提供一种基于深度神经网络的水果检测方法，旨在改善上述问题。

本发明是这样实现的，一种基于深度神经网络的水果检测方法，所述方法具体包括如下步骤：

S1、相机采集图像，所述图像中包含至少一个目标物体；

S2、将采集到的图像输入神经网络，神经网络输出含有检测框的目标物体及其置信度得分；

S3、检测并删除图像中各目标物体的冗余检测框，剩余检测框内的图像即为目标物体图像。

进一步的，在步骤S3之后还包括如下步骤：

基于识别出的目标物体图像进行分拣，其分拣方法具体包括如下步骤：

S4、计算目标物体中心在图像坐标系中的图像坐标，将目标物体中心的图像坐标转换为世界坐标系下的空间坐标。并计算目标物体的大小；

S5、对目标物体的空间坐标进行逆运动学角度求解，进行机械臂抓取；

S6、机械臂单轴转动进行缺陷检测，将无缺陷的目标物体按照尺寸大小进行分拣。

进一步的，所述神经网络包括：用于检测大目标物体的第一目标检测层，在第一目标检测层的前端设置SPP5模块,SPP5模块的两端分别连接CSPDarknet53结构的深层卷积层及第一特征检测单元Ⅰ，深层卷积层将输出的深层特征图传输至SPP5模块，经SPP5模块处理后的图像输出至第一特征检测单元Ⅰ；

用于检测中目标物体的第二目标检测层,第二目标检测层上设有第一特征检测单元Ⅱ；

用于检测小目标物体的第三目标检测层，在第三目标检测层的前端设置有SPP模块,SPP模块的两端分别连接与CSPDarknet53结构的浅层卷积层及第一特征检测单元Ⅲ，浅层卷积层将浅层特征图输出至SPP模块，经SPP模块处理后的图像输出至第一特征检测单元Ⅲ；

第一特征检测单元Ⅰ输出的特征图像进行上采样后,传输至第一特征检测单元Ⅱ，对第一特征检测单元Ⅱ输出的特征图像进行上采样,输出至第一特征检测单元Ⅲ；

其中，SPP模块的池化核大小为1×1，5×5，9×9，13×13；

SPP5模块的池化核大小细化为1×1，4×4，7×7，10×10，13×13。

进一步的，目标物体图像的获取具体包括如下步骤：

S31、基于目标物体的类别将检测框进行分类，每类检测框按置信度得分降序排列，选择置信度得分最高的检测框；

S32、计算其他检测框与置信度得分最高检测框的曼哈顿距离P，删除曼哈顿距离P小于阈值ε₁的检测框；

S33、计算剩余检测框的与置信度得分最高检测框的加权曼哈顿距离WP及中心点距离交并比DIOU，将WP小于阈值ε₂且DIOU小于等于阈值N_t的检测框进行删除；

S34、保留曼哈顿距离P大于等于阈值ε₁且WP大于等于阈值ε₂，或者是曼哈顿距离P大于等于阈值ε₁且DIOU小于等于阈值N_t的检测框，检测保留的检测框数量是否为1，若检测结果为是，则将该保留的检测框作为该类目标物体的检测框，若检测结果为否，则执行步骤S35；

S35、将置信度得分最高的检测框作为该类目标物体的检测框，在保留的检测框中重新选择置信度得分最高的检测框，执行步骤S32。

进一步的，检测框k1与检测框k2间的曼哈顿距离P的计算公式具体如下：

P＝|(x₁-p₁)|+|(x₂-p₂)|+|(y₁-q₁)|+|(y₂-q₂)|

其中，(x₁,y₁)、(x₂,y₂)表示检测框k1左上角点和右下角点的图像坐标，(x₃,y₃)、(x₄,y₄)表示检测框k2左上角点和右下角点的图像坐标。

进一步的，检测框k1与检测框k2间的加权曼哈顿距离WP的计算公式具体如下：

若k1为当前置信度得分最高的检测框，则c表示检测框k2的置信度得分，P表示检测框k1与检测框k2间的曼哈顿距离。

本发明还提供一种基于深度神经网络的水果检测系统，所述系统包括：

相机，与相机连接的数据处理单元；

数据处理单元上集成有神经网络，数据处理单元基于上述深度神经网络的水果检测方法来识别相机采集图像中的目标物体。

本发明提供的YOLOv4-SPP2模型融合神经网络特征图多尺度信息，从而提高了目标尺度变化大和小目标检测的精确度，通过本发明提供的Greedy-Confluence的边界框抑制算法来提高遮挡、重叠物体的检测精度，提高了复杂环境下的水果检测精度；通过在目标检测过程进行目标大小分类以及机械臂抓取后进行水果缺陷检测，极大提高水果分拣的精准度，无需人工二次分拣，提高了复杂环境下的水果类准确性。

附图说明

图1为本发明实施例提供的基于深度学习的水果目标检测及分拣方法流程图；

图2为本发明实施例提供的YOLOv4-SPP2模型结构示意图；

图3为本发明实施例提供的SPP模块的结构示意图；

图4为本发明实施例提供的SPP5模块的结构示意图；

图5为本发明实施例提供的曼哈顿距离计算原理示意图；

图6为本发明实施例提供的检测框重合情况示意图；

图7为本发明实施例提供的单目相机定位原理示意图；

图8为本发明实施例提供的机械臂逆运动学角度求解原理示意图

具体实施方式

下面对照附图，通过对实施例的描述，对本发明的具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。

图1为本发明实施例提供的基于深度学习的水果目标检测及分拣方法流程图，该方法具体如下：

S1、启动相机采集一帧图像；

在进行启动相机运行程序前，需要对相机进行标定，获取相机内参和畸变等。还需要对相机和机械臂进行联合配准，建立相机坐标系和机械臂坐标系之间的坐标转换关系。

S2、相机采集到的图像输入神经网络，对输出图像进行非极大值抑制，得到包含物体检测框的图片；

在进行物体识别之前，需要采集各种物体的图像数据集，然后采用神经网络对数据集进行训练，构造目标检测模型。训练过程中对图像进行增强处理，形成目标物体在不同环境中的训练样本集，其中，增强处理包括如下处理中的至少一种，即旋转、平移、缩放、拉伸处理。

在卷积神经网络的前向传递过程中，深层网络经过大量卷积、池化和降采样操作，图像尺寸会逐渐变小，而图像信息会高度抽象，经过卷积和池化操作使得图像语义信息增加，图像的直接特征信息丢失，由于较小目标的检测需要更加细粒度的特征信息，因此使用深层次的神经网络特征图进行小目标的检测效果较差。为了解决这一问题，本发明设计的神经网络模型在目标检测层即神经网络深层处跨层连接了神经网络浅层的特征图，即图2中的SPP模块，将浅层包含更加细粒度特征的特征信息加以融合，从而解决了小目标检测精度的问题。

SPP模块结构从不同尺度上对特征图进行池化操作，如图3所示，分别从1×1，5×5，9×9，13×13四个感受野上对特征图提取图像信息。从不同维度上对图像的信息加以提取，可以综合考虑到图像中不同尺度的目标的检测。从而实现局部特征和全局特征的融合，丰富特征图的表达能力。而本发明实施例将SPP模块跨层连接到浅层特征图上，可以使提取的信息更丰富，对小目标的检测更佳。

在本发明实施例中，所设计的YOLOV4-SPP2模型中包含一个SPP5结构，如图4所示，用以融合特征图多重感受野信息。

神经网络经过前向传递，信息变得抽象，如图2所示，在SPP5处，特征图经过SPP5模块后进行上采样再进行目标检测操作，能够保留更丰富细节信息，从而提高多尺度和小目标检测能力。

YOLOv4在多个尺度上进行了目标的位置估计和类别检测，通过将低分辨率的特征图上采样(Upsampling)并进行跨尺度拼接，借鉴FPN的融合方式，形成了三个尺度的特征图检测模型,当输入图片设为416×416大小时，三个检测层的特征图大小分别为13×13，26×26，52×52。

随着卷积神经网络的网络层次加深，深层特征图的图像信息高度抽象，图像语义信息增加，图像的直接特征信息丢失，造成使用神经网络深层特征图进行小目标的检测，模型的精度需要提高。SPP模块结构可以实现多尺度局部特征和全局特征的融合，丰富特征图的表达能力。

在水果检测任务中，小目标较多且目标尺度变化大。为了解决以上问题，本发明对SPP模块和YOLO模型网络结构进行重新设计，提出一种更加细化的SPP5模块，将池化核大小细化为1×1，4×4，7×7，10×10，13×13，增强感受野范围。并基于此模块设计一种YOLOv4-SPP2模型，增加特征图多尺度感受野信息的融合。YOLOv4-SPP2模型如图2所示，在第一个SPP模块使用细化的SPP5模块的基础上，在跨层连接处增加第二个卷积层，同时设计第二个SPP模块的池化核大小为1×1，5×5，9×9，13×13。

信息熵可以作为信息的量化度量的参数。假设H(p)表示神经网络添加SPP模块后的输出特征图的信息熵，用来度量神经网络经过SPP模块后输出的图像特征信息量的期望。根据香农信息量定义：

其中h(x₀)表示随机事件X＝x₀的信息量，p(x₀)为随机事件X＝x₀的概率分布函数p(x)＝Pr(X＝x),x∈X。

则信息熵为：

当输入图片为416×416时，第一个SPP模块前特征图的大小为13×13，由此，为了方便计算，假设A为SPP模块前的特征图的二值像素矩阵，假定每一个像素点的特征信息均不相同，即特征图上每个像素的值均不相等，设特征图的像素值为：

其中：为了简化计算，假设a₁＜a₂＜…＜a₁₆₉，在YOLOv4池化中采取padding操作即填充0以实现输入输出的特征图维度相同，因此可以得出：

用4×4的池化核进行最大值池化操作后，输出特征图的像素值形如：

则很容易得出特征图经过池化操作后图像特征信息熵为：

其中，S为输入特征图大小，k为池化核大小，则原SPP模块之后的图像特征信息熵为：

H(p)＝H(p,k＝1)+H(p,k＝5)+H(p,k＝9)+H(p,k＝13) (6)

而SPP5模块之后的图像特征信息熵为：

H(p)₁＝H(p,k＝1)+H(p,k＝4)+H(p,k＝7)+H(p,k＝10)+H(p,k＝13) (7)

经过计算，可知H(p)₁＞H(p)，神经网络经过SPP5模块后产生的融合特征图的信息熵比SPP模块后的要大，即经过SPP5模块后神经网络所蕴含的图像特征信息更加丰富，所包含的信息更加复杂，在图像上表现为细节特征更多。

同理，如图2，假设第二个SPP模块后产生的特征图的信息熵为H(p)₂，神经网络前向直连传递层分支产生的特征图的信息熵为H(p)₃，由信息熵H(p)≥0，故在跨层连接处，有：

H(p)₂+H(p)₃≥H(p)₃ (8)，

因此，综合考虑计算消耗和检测精度，在第三目标检测层增加SPP模块可以增加特征图信息的融合。

在本发明实施例中，步骤S2中的非极大值抑制方法具体如下：

S21、将相机采集的图像送入神经网络模型进行预测，得到神经网络输出的带冗余检测框的物体图像及其置信度得分；

S22、将所有检测框按目标物体的类别进行分类，每类检测框按置信度得分降序排列，得每到类检测框的一个降序列表；

在本发明实施例中，基于目标物体的类别来对对应的检测框进行分类，例如苹果和梨就属于不用类别的目标物体。

S23、在每个列表中递归地选取得分最高的检测框，并删除那些与此检测框曼哈顿距离P小于阈值ε₁的检测框；

在本发明实施例中，结合图5对曼哈顿距离P的计算方法进行说明，具体如下：

曼哈顿距离为水平和垂直距离的和，两个框之间的曼哈顿距离可以表示为左上角点和右下角点的曼哈顿距离的和：P＝P_(u,v,m,n)＝MH_(u,v)+MH_(m,n)，即：P＝|(x₁-x₃)|+|(x₂-x₄)|+|(y₁-y₃)|+|(y₂-y₄)|。

本发明实施例采用曼哈顿距离，当物体重叠时，如图5所示，若两个检测框重叠，左侧检测框得分较高，且两个检测框交集较大。其它方法都是删除与得分较高检测框重叠度即iou大于一个阈值N_t的检测框来达到抑制效果。其中

insection为两个检测框的交集，union为两个检测框的并集，IOU为两个检测框的交并比。于是右侧的检测框将被抑制删除，造成漏检。

这种一般方法存在如上所示的问题：左框和右框是当前的检测结果，如果按照其它一般方法的非极大值抑制方法进行处理，首先选中得分较高的左框，然后右框就会因为与之重叠面积过大而被删掉。另一方面，非极大值抑制的阈值也不太容易确定，设小了会出现右框因为和左框重叠面积较大而被删掉，设置过高又容易增大误检，有些该抑制的框会没有得到抑制。

因此加入两个框的中心点距离考察因素，并以一个更加平滑的函数带入计算，避免直接删除带来的误检和漏检，如下S24所述。

S24、将计算剩余检测框与置信度得分最高检测框的加权曼哈顿距离WP和中心点距离交并比DIOU，将WP小于阈值ε₂且DIOU小于阈值N_t的检测框进行删除。

加权曼哈顿距离WP计算公式为：

计算的是剩余检测框与置信度得分最高检测框的加权曼哈顿距离WP，c为剩余检测的置信度得分，P为两个框之间的曼哈顿距离；

DIOU的计算公式为：DIOU＝IOU-R_diou，IOU为两个检测框的交集与并集之比。

ρ(k1,k2)表示两检测框k1,k2中心点间的欧式距离，d表示包含两个检测框的最小封闭框的对角线长度。使用曼哈顿距离取代IOU的原因是：若遇到图6所示的情况，假如两个检测框的中心点重合为图6中的O点，并且重合较大，中心点距离将为0，IOU也将因为过大而将其抑制，无法解决此类问题，将造成漏检。然而即便是中心点重合，曼哈顿距离依旧有值，可以解决此类问题。采用加权的曼哈顿距离函数，可以将参数平滑，从而避免直接取阈值带来的问题，并且考虑了得分的影响，使得算法更鲁棒。

本发明实施例S23中直接删除曼哈顿距离小于一个阈值的原因是：同一个物体的检测框和冗余检测框十分密集，并且大小十分接近，因此曼哈顿距离极小，而重叠检测框一般尺寸不会十分接近，曼哈顿距离相对较大，因此利用曼哈顿距离，设定一个较小阈值，将同一个物体的冗余检测框删除，这样做可以减少后续计算量，加快运行速度并且不会出错。

基于上述分析可知，非极大值抑制方法的表达式为：

在本发明实施例中，在步骤S2之后还包括：基于识别出的目标物体图像进行水果的分拣，其分拣方法具体包括如下步骤：

S3、获取目标物体中心的图像坐标，图像坐标是指物体在图像坐标系中的图像坐标；

S4、进行三维转换，将目标物体中心的图像坐标转换为世界坐标系下的空间坐标，并计算实际空间内目标大小(面积)S；

在本发明实施例中，三维转换的计算采用单目相机定位方法，在坐标定位中首先要得到图像中像素点与实际物体尺寸的转换关系，使用摄像头拍摄一个已知尺寸的物体作为参考标准来得到转换比率k，转换比率k将目标物体在图像中的大小转换目标物体在实际空间中的大小。

如图7所示，P为图像平面，A为空间中的物体，a为物体A在图像上的尺寸，O为相机镜头，图中Py表示a中心点在y轴到相机中轴线的偏移量，根据相似原理，k＝P_y/Y_L，由此可以得到空间坐标中的y坐标计算公式为Y_L＝P_y/k，根据单目摄像头测距原理，同理可以建立XOZ坐标系，得到Z_L＝P_z/k，然后计算空间坐标中的x坐标，计算公式如下：X_L＝(ax/k×F)/ax，

其中，X_L表示果物与摄像头的相对距离，ax/k表示果物宽度，F表示摄像头焦距，ax表示果物在图像中占据的像素数，由此可以确定果物A的空间坐标(X_L,Y_L,Z_L)。

S5、将目标空间坐标进行逆运动学角度求解，进行机械臂抓取；

在本发明实施例中，根据逆运动学角度求解方法计算机械臂抓取的运动角度，结合图7对逆运动学角度求解法原理进行简要说明，说明如下：

根据机械臂正运动学方程的D-H表示法，先不考虑Z轴方向的运动影响，如图8所示，坐标系原点与机械臂末端的总变换矩阵为：

其中n_x、o_x为机械臂末端相对于前面关节在X轴上的旋转变换参数，P_x为机械臂末端X坐标，n_y、o_y为机械臂末端相对于前面关节在Y轴上的旋转变换参数，P_y为机械臂末端Y坐标，

表示图8中三个不同关节连杆末端的姿态矩阵。连杆变换公式为

其中i表示当前机械臂的关节编号，

表示当前机械臂的关节相对于上一个机械臂关节的姿态变换矩阵，L_icosθ_i为该关节连杆末端的X坐标，L_isinθ_i为该关节连杆末端的Y坐标。

则有：

其中cθ₁₂₃＝cos(θ₁+θ₂+θ₃)，sθ₁₂₃＝sin(θ₁+θ₂+θ₃)，s+θ₁₂＝sin(θ₁+θ₂)，cθ₁₂＝cos(θ₁+θ₂)，cθ₁＝cos(θ₁)，sθ₁＝sin(θ₁)。由此可以得到机械臂末端的坐标为：

根据几何方法有α＝θ₁+θ₂+θ₃，即可进行求解得到图8所示的机械臂3个旋转关节的姿态，由前面的公式可得：

若令：

则有：L₁＝(L₀cosθ₁+p)²+(L₀sinθ₁+q)²，

则解得：

其中，

a＝p²+q²,b＝-2nk,c＝k²-p²由此，求得θ₁，重复上述算法求解得到θ₂、θ₃。最后再在Z轴上根据三角函数计算机械臂运动角度。

S6、机械臂单轴转动进行缺陷检测；

在本发明实施例中，根据S4中计算的水果目标的大小以及S6中缺陷检测出水果的有无缺陷，实现水果目标的准确分类，从而避免人为二次分拣的情况。

S7、进行根据有无缺陷以及果实大小分类放置。

本发明提供的YOLOv4-SPP2模型融合神经网络特征图多尺度信息，从而提高了目标尺度变化大和小目标检测的精确度，通过本发明提供的Greedy-Confluence的边界框抑制算法来提高遮挡、重叠物体的检测精度，提高了复杂环境下的水果检测精度；通过在目标检测过程进行目标大小分类以及机械臂抓取后进行水果缺陷检测，极大水果分拣的精准度，无需人工二次分拣，提高了复杂环境下的水果类准确性。

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种基于深度神经网络的水果检测方法，其特征在于，所述方法具体包括如下步骤：

S1、相机采集图像，所述图像中包含至少一个目标物体；

2.如权利要求1所述基于深度神经网络的水果检测方法，其特征在于，在步骤S3之后还包括如下步骤：

3.如权利要求1所述基于深度神经网络的水果检测方法，其特征在于，所述神经网络包括：

用于检测大目标物体的第一目标检测层，在第一目标检测层的前端设置SPP5模块,SPP5模块的两端分别连接CSPDarknet53结构的深层卷积层及第一特征检测单元Ⅰ，深层卷积层将输出的深层特征图传输至SPP5模块，经SPP5模块处理后的图像输出至第一特征检测单元Ⅰ；

用于检测小目标物体的第三目标检测层，在第三目标检测层的前端设置有SPP模块,SPP模块的两端分别连接CSPDarknet53结构的浅层卷积层及第一特征检测单元Ⅲ，浅层卷积层将浅层特征图输出至SPP模块，经SPP模块处理后的图像输出至第一特征检测单元Ⅲ；

其中，SPP模块的池化核大小为1×1，5×5，9×9，13×13；

SPP5模块的池化核大小细化为1×1，4×4，7×7，10×10，13×13。

4.如权利要求1所述基于深度神经网络的水果检测方法，其特征在于，目标物体图像的获取具体包括如下步骤：

5.如权利要求4所述基于深度神经网络的水果检测方法，其特征在于，检测框k1与检测框k2间的曼哈顿距离P的计算公式具体如下：

P＝|x₁-p₁|+|x₂-p₂|+|y₁-q₁|+|y₂-q₂|

其中，x₁，y₁、x₂，y₂表示检测框k1左上角点和右下角点的图像坐标，x₃，y₃、x₄，y₄表示检测框k2左上角点和右下角点的图像坐标。

6.如权利要求7所述基于深度神经网络的水果检测方法，其特征在于，检测框k1与检测框k2间的加权曼哈顿距离WP的计算公式具体如下：

7.一种基于深度神经网络的水果检测系统，其特征在于，所述系统包括：

相机，与相机连接的数据处理单元；

数据处理单元上集成有神经网络，数据处理单元基于权利要求1至6任一权利要求所述深度神经网络的水果检测方法来识别相机采集图像中的目标物体。