CN114282649A

CN114282649A - 基于双向注意力机制增强yolo v5的目标检测方法

Info

Publication number: CN114282649A
Application number: CN202111519608.1A
Authority: CN
Inventors: 张媛; 倪鹏; 杨金龙; 刘佳; 朱志鑫
Original assignee: Special Equipment Safety Supervision Inspection Institute of Jiangsu Province
Current assignee: Special Equipment Safety Supervision Inspection Institute of Jiangsu Province
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-04-05

Abstract

本发明属于机器视觉领域，公开了基于双向注意力机制的YOLOV5的目标检测方法，将数据集按比例分为训练数据集和测试数据集；对训练数据集的图片归一化为固定大小的图片；将归一化后的图片先输入到增加输出层的骨干网络，再经过双向注意力机制模块后，在使用改进的损失函数计算的YOLOv5网络中训练和测试；将归一化后的实时数据图片输入到改进后的YOLOv5网络中，输出目标检测结果。本发明提高了对目标的检测能力，解决网络对特征差异不敏感的问题，解决训练过程目标框回归不稳定的问题，保证了anchor框和目标框之间的长宽比的一致性。

Description

基于双向注意力机制增强YOLO V5的目标检测方法

技术领域

本发明属于机器视觉、目标识别技术领域，尤其涉及基于双向注意力机制增强YOLO V5的目标检测方法。

背景技术

近年来，基于深度学习的目标检测算法在检测效果方面取得了很大的突破，同传统方法相比检测性能有着质的飞跃。深度学习目标检测算法根据设计思想的不同可以分成两大类，分别是一阶段方法(One-stage)，与二阶段方法(Two-stage)算法，二阶段方法算法将检测过程分成两大部，首先生成待检测区域，然后基于此进行目标检测。随后出现的Fast-RCNN、Mask-RCNN与Faster-RCNN，使检测精度不断提高，但速度相对较慢。一阶段方法算法直接产生物体的类别概率和位置坐标，单次检测就得到最终的检测结果，典型的算法有YOLO、SSD、DSSD，性能最为突出的就是YOLO V5，其核心思想是将目标检测看做回归问题求解，通过图片的全部像素点直接得到检测框，检测速度快是其最大特点，缺点在于检测小目标物体时会出现漏检误检的问题，并不完全适用于小目标检测。

发明内容

有鉴于此，本发明提出了一种改进的基于双向注意力机制增强YOLO V5目标检测算法，通过改进算法的网络结构、加入双向注意力机制和浅层特征输出层，以及优化模型损失函数的方法，使改进后的算法更加适用于小目标检测。

针对网络结构加强对低层网络特征图的检测。一般来说，在卷积神经网络中生成的低层网络特征图主要用来反映待检测目标物体的细节特征，低层特征图主要用来检测小目标物体；而高层特征图主要反映的是抽象的语义信息，如轮廓、大体特征等，因此主要用来检测大目标物体。因此对于船舶相比较于海面的小物体更多的低层信息有利于目标的检测。因此在原网络结构的基础上额外引入这一层的输出特征图，并与上一个尺度中经过上采样的特征图进行拼接，增加一个输出尺度特征图用于小目标检测，提高对小目标的检测能力。

本发明公开的基于双向注意力机制增强YOLO V5的目标检测方法，所述方法应用于基于双向注意力机制增强YOLOv5网络，所述基于双向注意力机制增强YOLOv5网络在YOLOv5网络的骨干网络增加输出层和双向注意力机制模块，所述方法包括以下步骤：

将数据集按比例分为训练数据集和测试数据集；

对训练数据集的图片归一化为固定大小的图片，并输入到改进后的YOLOv5网络中；

将归一化后的图片先输入到增加输出层的骨干网络，再经过双向注意力机制模块后，在使用改进的损失函数计算的YOLOv5网络中训练和测试；

将归一化后的实时数据图片输入到改进后的YOLOv5网络中，输出目标检测结果。

进一步的，所述改进的损失函数如下：

其中:A为预测框，B为真实框；A_ctr为预测框中心点坐标，B_ctr为真实框中心点坐标，ρ(.)是欧式距离计算；C为A、B最小包围框的对角线长度，IoU为交并比损失函数；

w^gt和h^gt分别表示真实框的宽和高；w和h分别表示预测框的宽和高。

进一步的，所述基于双向注意力机制增强YOLOv5网络在YOLOv5网络的Backbone部分的第一个残差组件CSP后引出浅层特征，在骨干网络提取特征后在Neck部分中对原网络增加一层输出层；每个输出层都是由上个输出层的输出特征图经过上采样与残差网络后与Backbone引出的特征相融合，因此每个输出层都会有存在上个输出层的特征信息，再与Backbone网络中原始特征融合获取丰富的图像信息。

进一步的，所述基于双向注意力机制增强YOLOv5网络在YOLOv5网络的Backbone部分中，在最后一个残差组件CSP后增加双向注意力特征加强模块，特征图经过ResNet网络得到的两张特征图分别经过空间注意力机制与通道注意力机制得到两张不同的特征图，再将两张处理后的特征图融合得到最终的输出特征图，以增强特征的表达，加快模型的收敛速度。

进一步的，所述空间注意力机制模块空间上的每个点都看做一个长度为C的向量，通过1×1的卷积压缩提取出长度为C/8代表Key的向量，通过1×1的卷积压缩提取出长度为C/8代表Query的向量，将所述Key和Query相乘得到的值为表相似度，得到的(H×W)×(H×W)的矩阵为空间上每个点与点之间所包含信息的相似度。

进一步的，对于空间上每个点的得到的H×W的向量通过激活函数softmax使得其总和大小为1，得到的(H×W)×(H×W)的矩阵为通过注意力机制得到的权重，将这个权重与提取的特征图相乘，再加回输入的特征图得到输出。

进一步的，对于所述通道注意力机制，Key和Query直接由输入的特征图得到，相乘后得到通道与通道之间的相似度，每一行再减去每个通道和自己的相似度。

进一步的，通过激活函数softmax使得相似度总和大小为1，得到注意力权重，将所述注意力权重与输入的特征图相乘，再整体乘上一个可学习的系数得到输出。

进一步的，所述数据集为voc2007。

本发明的有益效果如下：

在原网络结构的基础上额外引入这一层的输出特征图，并与上一个尺度中经过上采样的特征图进行拼接，增加一个输出尺度特征图用于目标细节检测，提高对目标的检测能力。

在YOLOv5算法上引入双向注意力特征加强模块，解决网络对特征差异不敏感的问题。

使用更加符合回归机制的DIoU，解决训练过程目标框回归不稳定的问题。

在DIoU的基础上改进使用了CIoU，保证了anchor框和目标框之间的长宽比的一致性。

附图说明

图1本发明的改进YOLO V5的目标检测算法的整体流程图；

图2本发明的改进YOLO V5的目标检测算法的Backbone部分网络结构图；

图3本发明的改进YOLO V5的目标检测算法的其余部分网络结构图；

图4本发明的双向注意力机制网络图；

图5原YOLO V5算法检测摩托车和自行车目标的结果；

图6本发明改进YOLO V5算法检测摩托车和自行车目标的结果；

图7原YOLO V5算法检测动物目标的结果；

图8本发明改进YOLO V5算法检测动物目标的结果；

图9原YOLO V5算法检测建筑物目标的结果；

图10本发明改进YOLO V5算法检测建筑物目标的结果；

图11原YOLO V5算法检测机动车目标的结果；

图12本发明改进YOLO V5算法检测机动车目标的结果。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

本发明采用的技术方案包括步骤如下：

将数据集按比例分为训练数据集和测试数据集；

对训练数据集的图片归一化为固定大小的图片；

针对原始算法以同等关注度遍历图像所有区域而造成网络对特征差异不敏感的问题，在YOLOv5算法上引入双向注意力特征加强模块(Dual Attention Module)。

在YOLOv5原始模型中IoU(交并比损失函数)采用的是GIoU(广义交并比损失函数)，其相比原始IoU的优化在于增加了错误框选的惩罚，即误差越大惩罚越大，在训练过程过能够对不同比例的检测框都有较好的检测效果但GIoU仍然存在目标框回归不稳定的问题，对于一些没有重叠的目标检测框GIoU回归策略可能会退化为IoU的回归策略。其主要问题在于，当IoU返回值为0时，GIoU倾向于使检测框和目标框最快方式产生重叠，而后GIoU的惩罚机制逐渐失效，即检测框与目标框之间的包含而不重叠也被认为是正确的。为了解决这一问题，进一步使用更加符合回归机制的DIoU(距离交并比损失函数)。考虑到anchor框和目标框之间的长宽比的一致性也是极其重要的。因此，进一步在DIoU的基础上改进使用了CIoU(完全交并比损失函数)。三种损失函数公式如下：

其中，A是预测框，B是真实框，C是A和B的最小包围框。

其中，A为预测框，B为真实框；A_ctr为预测框中心点坐标，B_ctr为真实框中心点坐标。ρ(.)是欧式距离计算；C为A、B最小包围框的对角线长度。

其中:

为了使本发明的技术方案和有益效果更加清楚，以下结合实际例子，对本发明进行具体描述。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，本发明提供了一种基于YOLO V5网络结构的目标检测算法，其基本实现过程如下：

步骤一：使用voc2007数据集划分为按照7比1的比例训练数据集和测试数据集。

步骤二：对训练数据集的图片统一归一化为640*640尺寸大小的图片，并输入到改进后的YOLOv5网络中。

步骤三：将统一归一化后的图片先输入到增加输出层的骨干网络，再经过双向注意力机制模块后，以及改进的损失函数计算的YOLOv5网络中训练。

步骤四：归一化后的测试数据集图片输入到网络中进行测试，分别对原YOLOv5网络与改进后的YOLO V5训练模型测试，得到相应的精确率及召回率。

进一步的，具体的YOLO V5结构改进之后的网络图如图2和图3所示：

在YOLO V5网络的Backbone部分的第一个残差组件CSP后引出浅层特征，如图2中标号为1的线条。在骨干网络提取特征后在Neck部分中对原网络增加一层输出层即第一输出层，第一输出层输出特征大小为160×160×255，其余3个输出层为原有的YOLOV5网络中的输出层，输出特征大小分别为80×80×255，40×40×255和20×20×255。如图3所示，每个输出层都是由上个输出层的输出特征图经过上采样与残差网络后与Backbone引出的特征相融合。因此每个输出层都会有存在上个输出层的特征信息，再与Backbone网络中原始特征融合获取丰富的图像信息。引出浅层特征与增加输出层后使得网络对图像的视觉信息获取更加丰富。

在YOLO V5网络的Backbone部分中，在YOLO V5网络的Backbone部分中，在最后一个残差组件CSP后增加双向注意力特征加强模块(Dual Attention Module)，即图2中的Attention模块。不同于其它深度学习引入空间维度的改进方法，而是通过使用特征重标定方法并考虑特征通道间的关系来进行特征通道融合，增强特征的表达，加快模型的收敛速度。如图4所示，特征图经过ResNet网络得到两张特征图分别经过空间注意力机制与通道注意力机制得到两张不同的特征图将两张特征图融合得到最终的输出特征图。

对于空间注意力机制模块空间上的每个点都可看做一个长度为C的向量，通过1×1的卷积压缩提取出长度为C/8代表Key的向量，同样地，压缩提取出长度为C/8代表Query的向量，Key和Query相乘，得到的值可以理解成表相似度，这样得到的(H×W)×(H×W)的矩阵，则可以理解成空间上每个点与点之间所包含信息的相似度。对于空间上每个点的得到的HxW的向量要通过激活函数使得其总和大小为1，得到的(H×W)×(H×W)的矩阵可以看做通过注意力机制得到的权重。将这个权重与提取的value特征图相乘，再加回原来的特征图得到最终的结果。Query和Key是注意力机制用来计算对应Value的权重系数的参数。注意力机制中将Source中的构成元素想象成是由一系列的<Key，Value>数据对构成，此时给定Target中的某个元素Query，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的注意力数值。所以本质上注意力机制是对Source中元素的Value值进行加权求和。注意力机制为现有技术，本发明不再赘述。

对于通道注意力机制Key，Query直接由输入的特征图而来，相乘后得到通道与通道之间的相似度，因为每个通道和自己的相似度是最大的，所以每一行要减去这个最大的相似值。通过激活函数使得其总和大小为1，得到注意力权重。将这个权重与原特征图相乘，再整体乘上一个可学习的系数即可得到输出。

与其他双注意力机制不同，本方法将空间注意力机制与通道注意力机制输出相融合。而不是将空间注意力与通道注意力机制线性组合。

在YOLOv5结构的Backbone部分增加双向注意力模块主要为了优化学习到的细节部分容，能有效提升检测性能，而这个模块是轻量级的，增加的计算量也可以忽略不计。在Backbone的最底层加入注意力机制模块这样在最大程度上不会改变原骨干网络的输出特征，而且最底层的特征信息最为丰富使用注意力机制能得到更多得信息。

如图5和图6所示，原YOLOv5与改进YOLOv5算法实验对比。图5是原YOLOv5在检测目标时的结果，与图6改进后检测的结果相比，本发明改进后的检测框置信度有明显提升，并且能检测出原算法检测不到的小目标。表1为训练结果对比。

表1训练结果对比

	原YOLO V5	改进后
			precision	0.7154	0.7534
recall	0.9917	0.9957
			mAP_0.5	0.9849	0.9853
mAP_0.5:0.95	0.8024	0.8135
			giou_loss	0.2698	0.2417

本发明的有益效果如下：

本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“X使用A或B”意指自然包括排列的任意一个。即，如果X使用A；X使用B；或X使用A和B二者，则“X使用A或B”在前述任一示例中得到满足。

而且，尽管已经相对于一个或实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。

本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的存储方法。

综上所述，上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于双向注意力机制增强YOLO V5的目标检测方法，其特征在于，所述方法应用于基于双向注意力机制增强YOLOv5网络，所述基于双向注意力机制增强YOLOv5网络在YOLOv5网络的骨干网络增加输出层和双向注意力机制模块，所述方法包括以下步骤：

将数据集按比例分为训练数据集和测试数据集；

对训练数据集的图片归一化为固定大小的图片；

将归一化后的实时数据图片输入到训练好的基于双向注意力机制增强YOLOv5网络中，输出目标检测结果。

2.根据权利要求1所述的基于双向注意力机制增强YOLO V5的目标检测方法，其特征在于，所述改进的损失函数如下：

3.根据权利要求1所述的基于双向注意力机制增强YOLO V5的目标检测方法，其特征在于，所述基于双向注意力机制增强YOLOv5网络在YOLOv5网络的Backbone部分的第一个残差组件CSP后引出浅层特征，在骨干网络提取特征后在Neck部分中对原网络增加第一输出层，所述第一输出层输出特征大小为160×160×255。

4.根据权利要求1所述的基于双向注意力机制增强YOLO V5的目标检测方法，其特征在于，所述基于双向注意力机制增强YOLOv5网络在YOLOv5网络的Backbone部分中，在最后一个残差组件CSP后增加双向注意力特征加强模块，特征图经过ResNet网络得到的两张特征图分别经过空间注意力机制与通道注意力机制得到两张不同的特征图，再将两张处理后的特征图融合得到最终的输出特征图，以增强特征的表达，加快模型的收敛速度。

5.根据权利要求4所述的基于双向注意力机制增强YOLO V5的目标检测方法，其特征在于，所述空间注意力机制模块空间上的每个点都看做一个长度为C的向量，通过1×1的卷积压缩提取出长度为C/8代表Key的向量，通过1×1的卷积压缩提取出长度为C/8代表Query的向量，将所述Key和Query相乘得到的值为表相似度，得到的(H×W)×(H×W)的矩阵为空间上每个点与点之间所包含信息的相似度。

6.根据权利要求5所述的基于双向注意力机制增强YOLO V5的目标检测方法，其特征在于，对于空间上每个点的得到的H×W的向量通过激活函数softmax使得其总和大小为1，得到的(H×W)×(H×W)的矩阵为通过注意力机制得到的权重，将这个权重与提取的特征图相乘，再加回输入的特征图得到输出。

7.根据权利要求4所述的基于双向注意力机制增强YOLO V5的目标检测方法，其特征在于，对于所述通道注意力机制，Key和Query直接由输入的特征图得到，相乘后得到通道与通道之间的相似度，每一行再减去每个通道和自己的相似度。

8.根据权利要求7所述的基于双向注意力机制增强YOLO V5的目标检测方法，其特征在于，通过激活函数softmax使得相似度总和大小为1，得到注意力权重，将所述注意力权重与输入的特征图相乘，再整体乘上一个可学习的系数得到输出。

9.根据权利要求1所述的基于双向注意力机制增强YOLO V5的目标检测方法，其特征在于，所述数据集为voc2007。