CN116630602A

CN116630602A - 一种基于改进YOLOv5算法的机械臂抓取目标物体检测方法

Info

Publication number: CN116630602A
Application number: CN202310619864.0A
Authority: CN
Inventors: 汪语哲; 曹钢; 刘飞宇; 段晓东; 付猛
Original assignee: Dalian Minzu University
Current assignee: Dalian Minzu University
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-08-22

Abstract

一种基于改进YOLOv5算法的机械臂抓取目标物体检测方法，属于图像识别技术领域，S1、获取数据集及进行数据预处理：S2、对现有的YOLOv5网络进行改进：S21、搭建空间‑坐标注意力机制SCAA，实现对目标物体及局部特征信息的准确定位，受卷积注意力机制CBAM的启发，将空间注意力机制SA和坐标注意力机制CA结合；S22、多尺度特征融合网络，YOLOv5的Neck结构采用的是FPN+PANeT相结合的方式，对YOLOv5算法模型网络进行改进；S23、优化锚框参数，YOLOv5采用自适应锚定框对训练数据自动学习，通过使用Kmeans聚类算法对数据集的目标框gt自动计算；S3、训练网络模型。本发明能够解决对目标物体及局部特征定位不准确的问题，且在识别精度没有降低的前提下，对目标物体的定位更加准确，鲁棒性更好。

Description

一种基于改进YOLOv5算法的机械臂抓取目标物体检测方法

技术领域

本发明属于图像识别技术领域，具体涉及一种基于改进YOLOv5算法的机械臂抓取目标物体检测方法。

背景技术

YOLOv5目标检测算法检测速度快，检测精度高，在开源数据集上具有比较好的检测性能，但是对自定义数据集样本模型及局部特征准确识别和准确定位方面，性能还有待加强，对整体的输入图像来讲，检测的目标物体在整体图像中占比很小，其余的图像信息均作为背景出现，在经过多次卷积后，背景信息会多次迭代累积，从而出现信息冗余，对目标物体识别以及定位造成干扰，除此之外，在位姿估计算法中，本项目需要用YOLOv5算法网络对标记的局部特征信息定位，利用各部分特征的位置信息进行后续的位姿估计，因此精准的定位对本实验来说非常重要。首先为了得到精确的定位信息，本发明将空间注意力机制(SA)和坐标注意力机制(CA)结合，提出了一个空间—坐标注意力机制(SCAA)，然后在YOLOv5主干网络中加入SCAA模块，在Neck检测层(目标检测层)中引入BiFPN模块(双向特征金字塔网络)，并根据自定义数据集的需要优化锚框参数，提出了一个基于YOLOv5的YOLOv5-ABN目标检测算法(融合了空间注意力机制与坐标注意力机制，且加入了BiFPN模块的新算法)，用改进后的YOLOv5-ABN算法对自定义数据集和康奈尔数据集进行训练，对改进模块做了消融实验，并与现有的目标检测算法在性能上进行对比分析。

发明内容

为了解决YOLOv5对目标物体及局部特征定位不准确的问题，本发明提出：一种基于改进YOLOv5算法的机械臂抓取目标物体检测方法，包括如下步骤：

S1、获取数据集及进行数据预处理：

从网上下载康奈尔数据集，使用通用的标注软件labelimg标注工具对获得的数据图片进行标注，标注完成后，将PASCAL格式的文件转换成YOLO格式的文件，完成数据集制作；

S2、对现有的YOLOv5网络进行改进；

S21、搭建空间-坐标注意力机制SCAA，实现对目标物体及局部特征信息的准确定位，受卷积注意力机制CBAM的启发，将空间注意力机制SA和坐标注意力机制CA结合；

S22、多尺度特征融合网络，YOLOv5的Neck结构采用的是FPN+PANeT相结合的方式，根据BiFPN网络特征融合方式的优越性，借鉴BiFPN结构的特点，对YOLOv5算法模型网络进行改进；

S23、优化锚框参数，YOLOv5采用自适应锚定框对训练数据自动学习，通过使用Kmeans聚类算法对数据集的目标框gt自动计算；

S3、训练网络模型。

本发明的有益效果为：本发明提出了一种基于改进YOLOv5算法的机械臂抓取目标物体检测方法，该方法将空间注意力机制(SA)和坐标注意力机制(CA)结合，提出了一个空间—坐标注意力机制(SCAA)，然后在YOLOv5主干网络中加入SCAA模块，在Neck检测层中引入BiFPN模块，并根据自定义数据集的需要优化锚框参数，提出了一个基于YOLOv5的YOLOv5-ABN目标检测算法。本发明利用改进后的YOLOv5-ABN算法对自定义数据集和康奈尔数据集进行训练，对改进模块做了消融实验，并与现有的目标检测算法在性能上进行对比分析，证明了该方法的有效性，进一步提高了识别物体的精度。

附图说明

图1为本发明的SCAA网络结构流程图；

图2为本发明改进后的特征融合网络结构图；

图3为本发明康奈尔数据集的单个物体部分图片；

图4为本发明自制的多目标抓取物体部分图片；

图5为本发明模型的损失函数曲线图；

图6为本发明改进前P-R曲线图；

图7为本发明改进后P-R曲线图；

图8为本发明目标物体检测结果的图片；

图9为本发明混淆矩阵统计图。

具体实施方式

一种基于改进YOLOv5算法的机械臂抓取目标物体检测方法，包括如下步骤：

S1、数据集获取及数据预处理

从网上下载康奈尔数据集，使用通用的标注软件labelimg标注工具对获得的数据图片进行标注。标注完成后，将PASCAL格式的文件转换成YOLO格式的文件，完成数据集制作。

S2、对现有的YOLOv5网络进行改进

(1)空间-坐标注意力机制(SCAA)的搭建，为了实现对目标物体及局部特征信息的准确定位，受卷积注意力机制(CBAM)的启发，将空间注意力机制(SA)和坐标注意力机制(CA)结合。

(2)多尺度特征融合网络，YOLOv5的Neck结构采用的是FPN+PANeT相结合的方式，根据BiFPN网络特征融合方式的优越性，本项目将借鉴BiFPN结构的特点，对YOLOv5算法模型网络进行改进。

FPN(特征金字塔网络)，PANeT(路径聚合网络)

(3)锚框参数优化，YOLOv5采用自适应锚定框(AutoLearningBoundingBoxAnchors)对训练数据自动学习，通过使用Kmeans聚类算法对数据集的目标框(groundtruth)自动计算，以便获取合适的锚定框，所以需要对锚框参数进行优化。

S3、训练网络模型

本实验所用的处理器为:

Intel(R)Core(TM)i5-10200HCPU@2.40GHz，16G运行内存，显卡为NVIDIAGeForceRTX2080TiGPU，操作系统为Windows10，64位所用的实验软件是PyCharm，整个实验基于深度学习框架PyTorch1.9.0，实验环境是Python3.8，GPU加速软件是Cuda11.1和cuDNN8.1.1，实验所用的深度相机是IntelD435i双目相机。

S21、空间-坐标注意力机制的设计

对整体的输入图像来讲，检测的目标物体在整体图像中占比很小，其余的图像信息均作为背景出现，在经过多次卷积后，背景信息会多次迭代累积，从而出现信息冗余，对目标物体识别以及定位造成干扰。除此之外，在位姿估计算法中，本项目需要用YOLOv5算法网络对标记的局部特征信息定位，利用各部分特征的位置信息进行后续的位姿估计，因此精准的定位对本实验来说非常重要。

为了实现对目标物体及局部特征信息的准确定位，本项目受卷积注意力机制(CBAM)的启发，将空间注意力机制(SA)和坐标注意力机制(CA)结合，提出了一种空间-坐标注意力机制(SCAA)，结构如图1所示。首先特征信息通过空间注意力机制以后，提取两通道的最大值与平均值并进行加权融合，输出带有空间位置信息的特征信息。然后将带有空间位置信息的特征通过坐标注意力机制分别沿水平方向和垂直方向进行聚合加权，形成两个独立的特征图，最后将带有方向编码信息的特征储存。这样对特征信息在空间维度以及坐标维度的双重注意将会使定位更加准确。

如图1所示，SCAA网络结构，该流程图主要是空间-坐标注意力机制的结合，它可以更精准的识别到被检测的物体；

SCAA模块具体的工作步骤如下，假设输入的特征信息为N，在通道维度层面对输入特征进行压缩，然后对压缩以后的特征进行最大池化和平均池化操作，也就是分别在两个通道提取最大值和平均值，最后将两个通道的特征图进行融合，经过一个7x7的卷积层，得到权重系数Ns，输出特征Nf是输入特征N与Ns的乘积，如公式(1)和(2)所示:

N_f＝NXN_s (2)

整个空间范围高为H，宽为w，在(H,1)的垂直范围里，用池化核对垂直方向的坐标信息编码并保存:在(1,w)的水平范围里，用池化核对水平方向的坐标信息进行编码并保存，如公式(3)所示:

将具有精确编码信息的特征进行拼接，然后经过1x1卷积变换函数F1和非线性激活函数得到编码空间信息的中间特征f，如公式(4)所示:

然后用1x1卷积Fh和Fw生成注意力权重mh和mw，如公式(5)所示:

最终通过公式(6)计算注意力模块的输出:

公式(1)中的f代表7x7卷积，N_s代表权重系数；代表平均池化；/>代表最大池化；/>代表非线性激活函数；

公式(2)中N_f这个代表输出特征；N_s代表权重系数；N代表输入特征；

公式(3)中c代表通道数；i代表第i行，j代表第j列；h代表特征图的高度；w代表特征图的宽度；用于计算注意力机制中每个头h对应的值向量,属于权重矩阵；/>用于计算注意力机制中每个头w对应的值向量,也属于权重矩阵；

公式(4)中f代表特征；F1代表线性变换；D^h代表特征图的通道数；D^w代表输入特征向量中每个元素的维度；R^CIτX(H+W)整体代表一个矩阵(H代表特征图的高度；W代表特征图的宽度)；代表非线性激活函数；

公式(5)中F_h代表输入特征图中特定位置(h1,h2)的高度特征向量；F_w表示输入特征图中特定通道w上的特征表示；m^h代表输入特征图m的注意力h加权系数；m^w代表输入特征图m的注意力w加权系数；f^h代表特定位置(h,w)上的特征表示；f^w代表特定位置(h,w)上的特征表示；F_h和F_w分别代表对输入的特征图进行线性操作；代表非线性激活函数；

为了突出目标的特征信息，对标定的特征信息更精确的识别和定位，本文在主干网络C3模块后加入SCAA模块，在经过C3模块获得目标深层次的特征信息后，再经过SCAA模块，先得到空间维度的权重，然后对空间权重大的特征信息在水平方向和垂直方向进行编码，对目标模型特征更好的识别和定位，在YOLOv5算法的主干网络中加入SCAA模块，Backbone网络由10层变成了13层，新的网络结构如表1所示其中改进模块用黑体表示。

表1改进后的Backbone网络结构(说明：通过在YOLOv5算法的主干网络中加入SCAA模块，Backbone网络由10层变成了13层)

Module	Number	Filters	Arguments	Output
					Focus	1	32	[3,32,3]	320x320
Conv	1	64	[32,64,3,2]	160x160
					C3	3	64	[64,64,1]	160x160
SCAA	3	64	[64,64]	160x160
					Conv	1	128	[64,128,3,2]	80x80
C3	9	128	[128,128,3]	80x80
					SCAA	3	128	[128,128]	80x80
Conv	1	256	[128,256,3,2]	40x40
					C3	9	256	[256,256,3]	40x40
SCAA	3	256	[256,256]	40x40
					Conv	1	512	[256,512,3,2]	20x20
SPP	1	512	[512,512,[5,9,13]]	20x20
					C3	3	512	[512,512,1,False]	20x20

步骤2)多尺度特征融合网络的设计

YOLOv5的Neck结构采用的是FPN+PANeT相结合的方式，根据BiFPN网络特征融合方式的优越性，本项目将借鉴BiFPN结构的特点，对YOLOv5算法模型网络进行改进，改进后的模型结构如图2所示，直接将底层的特征信息通过跳跃连接传递给高层特征，改进思想旨在将高级语义特征信息与底层信息特征融合，融合的底层特征信息越多，模型对目标的定位也就越准确，边框回归损失也就越小，整体的检测性能越好。

如图2所示，改进后的特征融合网络，将高级语义特征信息与底层信息特征融合，融合的底层特征信息越多，模型对目标的定位也就越准确，边框回归损失也就越小，整体的检测性能越好。

下面将说明新型特征融合网络的工作方式，特征融合的方式如公式(7)所示:

feature＝[f1；f2；f3] (7)

其中，f1、f2、f3表示双向特征融合网络的三个特征，[；]表示将两个特征按照通道维度数进行两两拼接，feature表示特征按照通道维度拼接后生成的新的特征。Pi表示前馈深度神经网络提取的多尺度融合特征。

在原始的融合网络中中，N3、N4、N5分别代表小目标、中目标、大目标的多尺度特征检测，特征N3；并没有利用低层级特征N2，而是利用了经过上采样后的特征F3，考虑到需要对样本模型的局部小特征进行检测，为了提升对局部特征检测的精确度，本文考虑充分利用低层级特征P2，特征N2通过特征P2和特征F3融合拼接得到，将YOLOv5结构中的CSP算子记作函数F，如公式(8)所示:

N₂＝F[P₂；F₃] (8)

N3、N4、N5；是通过新型的双向特征融合网络后生成的多尺度融合特征，以特征N3生成为例，特征P2通过下采样生成特征P3，特征P4与特征P5按通道拼接融合得到特征F4，特征F4通过上采样并与特征P3按通道维度拼接生成特征F3，多尺度融合特征N3；则是特征N2、特征F3；和特征P3；按照通道维度拼接后生成的，Downsample是指通过卷积二倍下采样，特征N3；融合方式如公式(9)所示:

N₃＝F[Downsample(N₂)；F₃；P₃] (9)

同理，特征N4、N5融合方式如公式(10)和(11)所示：

N₄＝F[Downsample(N₃)；F₄；P₄] (10)

N₅＝F[Downsample(N₄)；P₅] (11)

这样设计直接将底层特征信息与高级语义信息融合送入到损失函数中，既包含底层的定位信息，又包含了高层语义信息，有助于检测局部小特征，性能更加优越，用改进后的新型双向特征融合网络对自定义模型数据集进行检测，相比于YOLOv5算法改进后的算法对样本模型检测与定位的准确率均有明显提高。

S23、锚框参数优化

YOLOv5采用自适应锚定框(AutoLearningBoundingBoxAnchors)对训练数据自动学习，通过使用Kmeans聚类算法对数据集的目标框(groundtruth)自动计算，以便获取合适的锚定框，所以需要对锚框参数进行优化，优化后的锚定框尺寸如表2所示。

表2锚定框尺度分配表(说明：通过使用Kmeans聚类算法对数据集的目标框自动计算，获取合适的锚定框)

如图3所示，是康奈尔数据集的单个物体部分图片，Cornell数据集的单目标抓取对象；

如图4所示，是自制的多目标抓取物体部分图片，多目标抓取对象；

如图5所示模型的损失函数曲线图，改进后的Yolov5识别模型的损失变化曲线如图所示:横标对应着epoch-训练次数，纵坐标对应着损失值，上图表示了训练集边界框损失、置信度损失及类别损失值变化图，可以看到模型通过多次的迭代训练，误差逐渐变小，曲线也逐渐收敛。

如图6所示改进前P-R曲线，P R比较好理解，分别指准确率和召回率，P代表所预测出的框是gt框的比例，R代表全部gt框被预测出的比例。推测这里的PR值是在给定的置信度阈值和IOU阈值下得到的；该图的map值为92.4。

如图7所示改进后P-R曲线，经过改进后，map值达到了96.6，明显有所提升。

如图8所示目标检测结果，利用训练好的模型，验证模型的效果，可以看出基本能够识别出每个目标物体，并且有对应的准确率。

如图9所示混淆矩阵，该图为训练的24类物体的整个置信度统计，可以看出大部分物体的识别准确率很高，有极个别的物体，置信度比较低。

表3消融实验(说明：对YOLOv5基础算法进行改进，分别添加不同的模块对比三个重要指标(召回率、精确率、map值)的精度，最后通过实验证明了三个改进点都融入yolov5里边后，效果最好。)

表4主流检测算法性能对比(说明：该表主要是说明改进后的算法与其他主流算法的对比，其中FPS为检测的速度，Precision为准确率，可以看出改进后的算法在检测速度上有所下降，但是准确率有了明显的提升。)

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于改进YOLOv5算法的机械臂抓取目标物体检测方法，其特征在于，包括如下步骤：

S1、获取数据集及进行数据预处理：

S2、对现有的YOLOv5网络进行改进；

S3、训练网络模型。

2.如权利要求1所述的基于改进YOLOv5算法的机械臂抓取目标物体检测方法，其特征在于，所述步骤S21中，首先特征信息通过空间注意力机制以后，提取两通道的最大值与平均值并进行加权融合，输出带有空间位置信息的特征信息；然后将带有空间位置信息的特征通过坐标注意力机制分别沿水平方向和垂直方向进行聚合加权，形成两个独立的特征图，最后将带有方向编码信息的特征储存。

3.如权利要求2所述的基于改进YOLOv5算法的机械臂抓取目标物体检测方法，其特征在于，SCAA模块工作步骤下：假设输入的特征信息为N，在通道维度层面对输入特征进行压缩，然后对压缩以后的特征进行最大池化和平均池化操作，即分别在两个通道提取最大值和平均值，最后将两个通道的特征图进行融合，经过一个7x7的卷积层，得到权重系数N_s，输出特征N_f是输入特征N与N_s的乘积，如公式(1)和(2)所示:

N_f＝NXN_s (2)

整个空间范围高为H，宽为w，在(H,1)的垂直范围里，用池化核对垂直方向的坐标信息编码并保存，在(1,w)的水平范围里，用池化核对水平方向的坐标信息进行编码并保存，如公式(3)所示:

然后用1x1卷积F_h和F_w生成注意力权重m^h和m^w，如公式(5)所示:

最终通过公式(6)计算注意力模块的输出:

在主干网络C3模块后加入SCAA模块，在经过C3模块获得目标深层次的特征信息后，再经过SCAA模块，先得到空间维度的权重，然后对空间权重大的特征信息在水平方向和垂直方向进行编码，对目标模型特征更好的识别和定位，在YOLOv5算法的主干网络中加入SCAA模块，Backbone网络由10层变成了13层。

4.如权利要求1所述的基于改进YOLOv5算法的机械臂抓取目标物体检测方法，其特征在于，所述步骤S22中，设计多尺度特征融合网络：YOLOv5的Neck结构采用的是FPN+PANeT相结合的方式，根据BiFPN网络特征融合方式的优越性，对YOLOv5算法模型网络进行改进，直接将底层的特征信息通过跳跃连接传递给高层特征，将高级语义特征信息与底层信息特征融合；

新型特征融合网络的工作方式如下：特征融合的方式如公式(7)所示:

feature＝[f1；f2；f3] (7)

其中，f1、f2、f3表示双向特征融合网络的三个特征，[；]表示将两个特征按照通道维度数进行两两拼接，feature表示特征按照通道维度拼接后生成的新的特征，Pi表示前馈深度神经网络提取的多尺度融合特征；

在原始的融合网络中，N3、N4、N5分别代表小目标、中目标、大目标的多尺度特征检测，特征N3并没有利用低层级特征N2，而是利用了经过上采样后的特征F3，特征N2通过特征P2和特征F3融合拼接得到，将YOLOv5结构中的CSP算子记作函数F，如公式(8)所示:

N₂＝F[P₂；F₃] (8)

N3、N4、N5是通过新型的双向特征融合网络后生成的多尺度融合特征，特征P2通过下采样生成特征P3，特征P4与特征P5按通道拼接融合得到特征F4，特征F4通过上采样并与特征P3按通道维度拼接生成特征F3，多尺度融合特征N3则是特征N2、特征F3和特征P3按照通道维度拼接后生成的，Downsample是指通过卷积二倍下采样，特征N3融合方式如公式(9)所示:

N₃＝F[Downsample(N₂)；F₃；P₃] (9)

同理，特征N4、N5融合方式如公式(10)和(11)所示：

N₄＝F[Downsample(N₃)；F₄；P₄] (10)

N₅＝F[Downsample(N₄)；P₅] (11)。

5.如权利要求1所述的基于改进YOLOv5算法的机械臂抓取目标物体检测方法，其特征在于，所述步骤S23中，优化锚框参数，YOLOv5采用自适应锚定框对训练数据自动学习，通过使用Kmeans聚类算法对数据集的目标框gt自动计算，以获取合适的锚定框。