CN117173395A

CN117173395A - 一种YOLOv8部分卷积网络目标检测方法

Info

Publication number: CN117173395A
Application number: CN202311111291.7A
Authority: CN
Inventors: 黄俊闻; 姜明新; 洪远; 杜强; 王杰; 项靖
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2023-08-31
Filing date: 2023-08-31
Publication date: 2023-12-05

Abstract

本发明公开了一种YOLOv8部分卷积网络目标检测方法，包括以下步骤：选择MS COCO 2017数据集；构建基于YOLOv8的特征提取网络，将YOLOv8模型主干网络替换成部分卷积网络FasterNet，对初始目标图片进行特征提取；在YOLOv8模型的主干网外的c2f模块中添加BiFormer注意力模块，对提取出的特征进行提纯；确定参与区域，应用token‑to‑token的注意力以捕捉输入张量中的关键信息；将CIoU损失函数替换为Wise‑IoU损失函数，完成初试目标检测模型的构建；利用新的数据集对初始目标检测模型进行训练，得到最终目标检测模型；利用最终目标检测模型对待检测的图像进行目标检测，并对该模型的性能进行评估；本发明降低了目标检测模型的参数量、浮点数，在提升目标检测速度的同时保证了精度。

Description

一种YOLOv8部分卷积网络目标检测方法

技术领域

本发明涉及一种YOLOv8部分卷积网络目标检测方法，尤其涉及一种基于动态查询感知的稀疏注意力机制的yolov8部分卷积网络目标检测方法。

背景技术

神经网络在图像分类、检测和分割等各种计算机视觉任务中经历了快速发展。尽管其令人印象深刻的性能为许多应用程序提供了动力，但一个巨大的趋势是追求具有低延迟和高吞吐量的快速神经网络，以获得良好的用户体验、即时响应和安全原因等。MobileNet、ShuffleNet和GhostNet等利用深度卷积(DWConv)和/或组卷积(GConv)来提取空间特征。然而，在减少FLOPs的过程中，算子经常会受到内存访问增加的副作用的影响。MicroNet进一步分解和稀疏网络，将其FLOPs推至极低水平。尽管这种方法在FLOPs方面有所改进，但其碎片计算效率很低。此外，上述网络通常伴随着额外的数据操作，如级联、Shuffle和池化，这些操作的运行时间对于小型模型来说往往很重要。

近年来，YOLO模型越发的成熟，改进方法数不胜数。但很多方法没有考虑到实际应用问题，成本较高的计算显著降低了其实时性能，对设备并不友好。2018年10月，Google发出论文《BERT:Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding》,发布了BERT模型；后来2022年ECCV上北京航空航天大学发的文章《TPH-YOLOv5:Improved YOLOv5 Based on Transformer Prediction Head for ObjectDetection on Drone-captured Scenarios》出现了结合transformer的yolo模型。但是现有技术存在为追求目标检测精度而增大模型深度，堆叠参数量，忽视了浮点数的计算，导致模型检测参数量冗余、内存占大、计算代价高，不利于中低端设备应用，忽略实际应用情形。

发明内容

发明目的：本发明的目的是提供一种降低目标检测模型的参数量、浮点数，在提升目标检测速度的同时保证精度的基于动态查询感知的稀疏注意力机制的yolov8部分卷积网络目标检测方法。

技术方案：本发明所述的一种YOLOv8部分卷积网络目标检测方法，包括以下步骤：

S1：选择MS COCO 2017数据集；

S2：构建基于YOLOv8的特征提取网络，将YOLOv8模型主干网络替换成部分卷积网络FasterNet，对初始目标图片进行特征提取；

S3：在YOLOv8模型的主干网外的c2f模块的颈部添加BiFormer注意力模块，对提取出的特征进行提纯；

S4：确定参与区域，应用token-to-token注意力以捕捉输入张量中的关键信息；

S5：将CIoU损失函数替换为Wise-IoU损失函数，完成初试目标检测模型的构建；

S6：利用新的数据集对初始目标检测模型进行训练，得到最终目标检测模型；

S7：利用最终目标检测模型对待检测的图像进行目标检测。

进一步地，步骤S1中，所述数据集，包括行人、汽车和自行车类别。

进一步地，步骤S2中，所述部分卷积网络FasterNet通过以下步骤构建：

S21：设置一个PConv层，并在PConv层后设置2个PWConv层或Conv1×1层；

S22：将标准化层和激活层放在2个PWConv层或Conv1×1层之间，用于特征转换和分类,完成一个FasterNetBlock块的构建；

S23：设置一个Conv4×4、stride为4的Embedding层，并在Embedding层后依次设置4个stages，每个stage都由若干FasterNetBlock块堆叠而成，并在每个stages之间设置一个Conv2×2、stride为2的Merging层，用于空间下采样和扩展通道数，完成部分卷积网络FasterNet整体架构的构建。

进一步地，步骤S22中，每一个FasterNetBlock块的PConv层和2个PWConv层或Conv1×1层，三者构成一个倒置残差块，其中，中间层通道数量不做限定并可进一步扩展，并且放置Shortcut以重用输入特征。

进一步地，步骤S23中，后两个stage中的FasterNetBlock块数量多于前两个。

进一步地，步骤S2所述对初始目标图片进行特征提取，通过使目标图片先进入嵌入层进行空间下采样和通道数量扩展，然后输入到第一层FasterNetBlock块，实现FasterNetBlock块对初始目标图片进行特征提取。

进一步地，步骤S3中，将一张图片分成n块，n为正整数，每一个块作为一个路由区域。

进一步地，步骤S3中，BiFormer注意力模块通过构造一个区域级关联图，并对其进行修剪，使每个节点只保留前k个连接，k为小于等于n的正整数，并且每个区域只关注前k个路由区域。

进一步地，所述BIFormer注意力模块依次包含一个多层感知MLP层，一个横向规范化LN层，一个双层路由BRA层，一个横向规范化LN层和一个深度可分离卷积DWConv层。

进一步地，步骤S4中，所述token-to-token注意力的应用方法为，在粗粒度区域级别过滤掉最不相关的键值对，通过构建和修剪区域级有向图，然后在路由区域的联合中应用细粒度token-to-token注意力。

有益效果：与现有技术相比，本发明具有如下显著优点：采用轻量化特征提取网络、语义提取特征方式，降低了目标检测模型的参数量、浮点数，在提升目标检测速度的同时保证了精度。

附图说明

图1为本发明的FasterNet的机制原理图；

图2为本发明逐点卷积PWConv的结构示意图；

图3为本发明实施例的BIFormer注意力模块结构图；

图4为本发明实施例的双层路由注意力结构图；

图5为本发明在c2f层添加的BIFormer注意力模块的流程图。

具体实施方式

下面结合附图与实施例对本发明的技术方案作进一步说明。

如附图所示，本实施例的YOLOv8部分卷积网络目标检测方法，包括以下步骤：

S1：选择MS COCO 2017数据集，包括行人、汽车和自行车等类别；

S2：构建基于YOLOv8的特征提取网络，将YOLOv8模型主干网络替换成部分卷积网络FasterNet，用于对初始目标图片进行特征提取；

将原YOLOv8的Backbone改为轻量级特征提取网络FasterNetBlock，每个FasterNetBlock块有一个PConv层，后跟2个PWConv(或Conv1×1)层，它们一起显示为倒置残差块，其中中间层具有扩展的通道数量，并且放置了Shorcut以重用输入特征。将标准化和激活层它们放在每个中间PWConv之后，以保持特征多样性并实现较低的延迟。还有BN层，全局平均池化，还有卷积1*1的全连接层，一起用于特征转换和分类。最后设置一个Conv4×4、stride为4的Embedding层，并在Embedding层后依次设置4个stages，每个stage都由若干FasterNetBlock块堆叠而成，并在每个stages之间设置一个Conv2×2、stride为2的Merging层，用于空间下采样和扩展通道数，完成部分卷积网络FasterNet整体架构的构建。其中后两个stage中的FasterNetBlock块数量多于前两个。

具体通过以下方式实现：首先输入一张图片先进入嵌入层进行空间下采样和通道数量扩展然后输入到第一层FasterNetBlock模块，具体地为一个FasterNetBlock单元对初始图像进行特征提取，PConv层用输入通道上的一部分进行空间特征提取，紧跟着的逐点卷积(PWConv)为一个T形的conv结构，与原来相比更注重中心位置的特征提取。并且大大降低了FLOPs，PConv和PWConv的流量综合为：

h×w×(k²×c_p×c+c×(c-c_p))

h为目标图片的高度，w为目标图像的宽度，c为目标图像的的通道数，k为卷积核的大小，c_p为第一个或最后一个连续的通道，后面每一层FasterNetBlock模块，其原理如上述一致。用每组的卷积核同它们组的输入数据进行卷积操作，得到不同的输出数据，再以全局池化的方式降低纬度。然后输入FC层操作来将特征整合到一起(高度提纯特征)，方便交给最后的分类器或者回归并使输出图像的维度减少。

S3：在YOLOv8模型的主干网外的c2f模块的颈部添加BiFormer注意力模块，用于对提取出的特征进行提纯；

改进后的YOLOv8轻量级特征提取网络将不同尺寸的图像进行特征提取之后得到三个三个有效特征层并输入到Neck层，为增强轻量级网络特征的表达能力，本实施例在Neck层引入了BiFormer注意力模块，将一张图片分成若干块，每一个块作为一个路由区域，BiFormer注意力模块通过构造一个区域级关联图，并对其进行修剪，使每个节点只保留前k个连接，k为小于等于n的正整数。因此每个区域只需要关注前k个路由区域，具体操作为其结构如图3所示，一个BIFormer注意力模块包含了一个MLP层(多层感知)，一个LN层(横向规范化)，一个BRA层(双层路由)，一个DWConv层(深度可分离卷积)。

具体操作为在特征进入c2f模块后经过一系列卷积并进入concat进行特征融合后，进行深度可分离卷积，降低参数量和计算量。然后通过LN层标准化后进入BRA双层路由模块，通过收集前k个相关窗口中的键值对，并利用稀疏性操作直接跳过最不相关区域的计算来节省参数量和计算量。最后进入MLP层后，由于MLP层是全连接的，可以将特征高度提纯。最后输出特征。

S4：确定参与区域，应用token-to-token的注意力以捕捉输入张量中的关键信息；

为了让每个Query处理语义上最相关的K-V对，一种方法是逐一为每个Query选择K-V对，那么就需要计算所有Query和所有Key之间的相关性，复杂性和原来的自注意力机制就相同了。另一种方法是基于每个Query的局部上下文来预测注意力偏移量这虽然降低了计算复杂性，但会影响长距离依赖关系的建模。为了解决这个问题，提出双层路由注意力机制。BRA模块的核心思想是在粗粒度区域级别过滤掉最不相关的键值对。它是通过首先构建和修剪区域级有向图，然后在路由区域的联合中应用细粒度token-to-token注意力来实现的。

具体实现方法为：输入一张图片，其中，H表示图片的宽，W表示图片的高，C表示图片的通道数。H×W为图片的分辨率，也是像素点的个数。对于每一个像素点，都会表示一个颜色，用一个C维的向量描述，X表示为这个图片，首先将其划分为S×S个区域，其中每个区域包含/>个特征向量，即将X变成/>然后，通过线性映射获得：/>其中/>分别是query、key、value的投影权重；通过构造一个有向图以找到每个给定区域应该参与的区域，得到：随后计算区域间相关性的邻接矩阵:A^r＝Q^r(K^r)^T，只保留每个区域的前k个连接来修剪相关性图；得到：I^r＝topkIndex(A^r)，其中区域路由索引矩阵/>对于区域i中的每个Query token，它将关注k个路由区域的并集中的所有键值对，首先聚集key和value的tensor，即：

K^g＝gather(K，I^r)，V^g＝gather(V，I^r)，其中K^g和V^g是聚集后的key和value的tensor，然后对聚集后的K-V对使用注意力操作：

O＝Attention(Q，K^g，V^g)+LCE(V)，此处，引入了一个局部上下文增强项LCE(V)，函数LCE()用深度可分离卷积进行参数化，此处将卷积核大小设置为5。

S7：利用最终目标检测模型对待检测的图像进行目标检测。

Claims

1.一种YOLOv8部分卷积网络目标检测方法，其特征在于，包括以下步骤：

S1：选择MS COCO 2017数据集；

S2：基于数据集，构建基于YOLOv8的特征提取网络，将YOLOv8模型主干网络替换成部分卷积网络FasterNet，对初始目标图片进行特征提取；

S7：利用最终目标检测模型对待检测的图像进行目标检测。

2.根据权利要求1所述的YOLOv8部分卷积网络目标检测方法，其特征在于，步骤S1中，所述数据集，包括行人、汽车和自行车类别。

3.根据权利要求1所述的YOLOv8部分卷积网络目标检测方法，其特征在于，步骤S2中，所述部分卷积网络FasterNet通过以下步骤构建：

4.根据权利要求3所述的YOLOv8部分卷积网络目标检测方法，其特征在于，步骤S22中，每一个FasterNetBlock块的PConv层和2个PWConv层或Conv1×1层，三者构成一个倒置残差块，其中，中间层通道数量不做限定并可进一步扩展，并且放置Shortcut以重用输入特征。

5.根据权利要求3所述的YOLOv8部分卷积网络目标检测方法，其特征在于，步骤S23中，后两个stage中的FasterNetBlock块数量多于前两个。

6.根据权利要求3所述的YOLOv8部分卷积网络目标检测方法，其特征在于，步骤S2所述对初始目标图片进行特征提取，通过使目标图片先进入嵌入层进行空间下采样和通道数量扩展，然后输入到第一层FasterNetBlock块，实现FasterNetBlock块对初始目标图片进行特征提取。

7.根据权利要求1所述的YOLOv8部分卷积网络目标检测方法，其特征在于，步骤S3中，将一张图片分成n块，n为正整数，每一个块作为一个路由区域。

8.根据权利要求7所述的YOLOv8部分卷积网络目标检测方法，其特征在于，步骤S3中，BiFormer注意力模块通过构造一个区域级关联图，并对其进行修剪，使每个节点只保留前k个连接，k为小于等于n的正整数，并且每个区域只关注前k个路由区域。

9.根据权利要求8所述的YOLOv8部分卷积网络目标检测方法，其特征在于，所述BIFormer注意力模块依次包含一个多层感知MLP层，一个横向规范化LN层，一个双层路由BRA层，一个横向规范化LN层和一个深度可分离卷积DWConv层。

10.根据权利要求1所述的YOLOv8部分卷积网络目标检测方法，其特征在于，步骤S4中，所述token-to-token注意力的应用方法为，在粗粒度区域级别过滤掉最不相关的键值对，通过构建和修剪区域级有向图，然后在路由区域的联合中应用细粒度token-to-token注意力。