CN114120019A

CN114120019A - 一种轻量化的目标检测方法

Info

Publication number: CN114120019A
Application number: CN202111313914.XA
Authority: CN
Inventors: 袁庆霓; 王晨; 白欢; 杜晓英; 齐建友; 杨观赐; 吴杨东; 蓝伟文
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-03-01
Anticipated expiration: 2041-11-08
Also published as: CN114120019B

Abstract

本发明公开了一种轻量化的目标检测方法，包括:步骤一：对样本图像进行数据增强处理；获取网络模型的先验边界框尺寸；步骤二：构建目标检测网络模型：该目标检测网络模型以YOLOv4为基础，引入MobileNetv3网络重构特征提取网络，在PANet中以深度可分离卷积代替标准卷积，减少模型参数量和运算量；在同样大小通道数的特征层进行卷积操作后，融入改进的CBAM注意力机制，进一步提升网络检测性能；步骤三：训练目标检测网络模型；步骤四：使用目标检测网络模型进行检测，得到检测结果。本发明具有能够提高目标检测的效率，减少网络预测时间的特点。

Description

一种轻量化的目标检测方法

技术领域

本发明涉及机器视觉领域，具体涉及一种轻量化的目标检测方法。

背景技术

机器视觉在工业领域的三大主要应用是视觉测量、视觉引导和视觉检测。目前在智能化生产过程中多采用one-stage算法进行目标检测，有研究者提出了一种深度学习模型YOLOv4-FPM用于桥梁裂缝检测，对损失函数和网络进行优化，提高了网络的 FPS，但是存在参数量较大难以部署于设备的问题；还有研究者的提出了一种轻量级卷积神经网络YOLOv4-Lite用于水果检测，替换主干特征网络后大幅度减少网络参数量，但是由于参数量的减少，出现了检测精确率不高的问题；研究者提出了一种改进 YOLOv4模型对果园中的障碍物进行检测，将标准卷积替换为深度可分离卷积，并将 YOLOv4主干网络改为逆残差结构，网络参数量减少但是对小目标的检测性较差；研究者提出了一种改进型SSD的X光图像管制刀具检测算法，替换主干网络，采用跳跃连接的方法进行特征融合，但是由于参数量过多导致识别速度下降。研究者提出一种基于改进YOLOv3的安全帽佩戴识别算法，通过增加特征图和引入Focal Loss函数的方法进行改进，提高了检测精度，但增加了检测时间。总之，现有目标检测方法还存在检测精度不高、增加检测时间等问题。

发明内容

本发明的目的在于克服上述缺点而提出了一种能够提高目标检测的效率，减少网络预测时间的轻量化的目标检测方法。

本发明的一种轻量化的目标检测方法，其中：该方法包括以下步骤:

步骤一：对样本图像进行数据增强处理，并将样本图像分为训练图像集和测试图像集；获取网络模型的先验边界框尺寸；

所述获取网络模型的先验边界框尺寸：将训练图像集中训练图像的目标边界框与聚类中心目标边界框的重合度作为聚类距离指标，即采用k-means聚类方法将所有训练图像中的目标边界框分为9类，取各类中心的目标边界框尺寸作为网络模型预测目标边界框的先验边界框尺寸；

步骤二：构建目标检测网络模型：该目标检测网络模型以YOLOv4为基础，引入MobileNetv3网络重构特征提取网络，在PANet中以深度可分离卷积代替标准卷积，减少模型参数量和运算量；在同样大小通道数的特征层进行卷积操作后，融入改进的 CBAM注意力机制，进一步提升网络检测性能；其中所述改进的CBAM注意力机制：采用自适应的一维卷积代替通道注意力模块中的全连接层，采用具有膨胀卷积的残差结构扩大空间注意力模块中感受野；

所述目标检测网络模型的具体结构为：包括Input、Backbone、Neck、Head部分，其中Input进行图像输入；Backbone以MobileNetv3为主干网络，包括5个Bottleneck 模块处理和SE注意力模块；Neck以SPP为附加模块，PANet为特征融合模块；Head 为预测输出模块；

所述Input进行图像输入：将输入训练图像进行自适应尺寸处理，调整为416×416像素尺寸的RGB图像后，经过16层的卷积模块降低训练图像尺寸为208×208像素，通过批量归一化处理和Relu6函数激活后送入Bottleneck模块中进行进一步处理；

所述Bottleneck模块处理：每一个Bottleneck模块中的数据首先经过1×1和3×3的卷积后进行降维处理，然后送入SE注意力模块中，在经过SE模块处理后与原输入Bottleneck模块的数据进行叠加，得到104×104×24的通道信息，在经过5个 Bottleneck模块处理后，选择52×52×40，26×26×112，13×13×160三个模块的输出作为 PANet中的三个特征层；

所述Neck模块处理：将所述13×13×160的特征层送入空间金字塔SPP层中，利用不同尺寸的池化层进行特征融合，提高感受野，分离出有效特征；空间金字塔池化模块共有3层，池化层大小分别设置为5×5、7×7和13×13，采用最大池化方式；其中所述特征提取PANet中引入深度可分离的3×3卷积代替普通卷积和改进的CBAM注意力机制；

所述Head预测输出模块处理：经所述Neck模块处理后，用PANet特征融合后的三个特征层对训练图像中的每个检测对象预测三个边界框，设置接受该边界框包含目标的交并比阈值IoU＝0.5，输出满足交并比的预测框。

步骤三：训练目标检测网络模型：将训练集中的每张训练图像输入所述目标检测网络模型，首先将每张训练图像尺寸调整为416×416，然后对每张训练图像使用N×N 大小的网格进行分块；当分块的网格存在训练图像中待检测目标的中心点时，该网格对该待检测目标的种类和位置信息进行预测；

步骤四：使用目标检测网络模型进行检测，得到检测结果：对输入测试或检测图像进行检测，加载步骤三中训练好的目标检测网络模型检测图像，在获得该目标中所有的输出候选框后，采用非极大值抑制进行局部搜索，抑制冗余的检测框，选取最大检测结果即为目标检测输出。

上述的轻量化的目标检测方法，其中：所述步骤二中的改进的CBAM注意力机制的通道注意力模块中，首先利用全局最大值池化和均值池化来映射特征信息，形成两个不同的通道描述信息，用

表示输入特征F经过平均池化AvgPool(F)的通道描述信息，用

来描述F经过最大池化MaxPool(F)的通道描述信息，采用自适应维度k的一维卷积来聚合各邻域通道内的特征信息，然后将两个通道的信息元素相加，并通过 Sigmoid函数激活，生成通道注意力M_C(F)∈R^C×1×1，再与输入特征F相乘从而注入通道注意力模块；具体的计算过程如下：

其中σ表示Sigmoid激活函数，

表示卷积核大小为k的一维卷积操作，k值的大小由以下公式自适应决定：

其中C表述输入特征图的通道数，|*|_odd表示与*最接近的奇数。

上述的轻量化的目标检测方法，其中：所述步骤二中的改进的CBAM注意力机制的空间注意力模块中，首先将已经引入通道注意力的特征信息F'进行全局平均池化GAP(F')和全局最大池化GMP(F')，生成两个不同的通道描述信息

和

并将两个通道信息进行拼接，生成一个更加有效的空间特征层；随后利用具有膨胀卷积的残差结构进一步聚合上下层空间中的信息，提高感受野，经Sigmoid函数激活后生成空间注意力模型M_s(F')∈R^1×H×W；最后，将空间注意力模型M_s(F')与输入特征F'对应元素相乘即可注入空间注意力模块，具体的计算过程如下：

其中，

表示采用卷积核大小为3的膨胀卷积，

表示卷积核大小为1的标准卷积，采用的是膨胀率为2的膨胀卷积。

上述的轻量化的目标检测方法，其中：所述步骤三中，训练目标检测网络模型时采用集成的开发环境Anaconda3，采用TensorFlow2.2.0作为深度学习框架，训练过程中batch_size设置为16，首先冻结主干网络参数训练50个周期，解冻后对整个网络再训练50个周期，初始学习率设置为1e-4。

本发明与现有技术的相比，具有明显的有益效果，由以上方案可知，所述构建目标检测网络模型，该模型在YOLOv4基础上进行网络结构的改进。在特征提取阶段，采用相比于CSPDarknet-53更加轻便的MobileNetv3来进行搭建，利用深度可分离卷积和逆残差模块减少网络参数和计算量，并且将MobileNetv3根据YOLOv4原特征提取网络进行参数改进，使其能够更好的满足YOLOv4网络检测层的需求；将特征提取层中PANet部分的标准卷积改为深度可分离卷积，并引入改进的CBAM注意力机制，使其能够提高目标检测的效率，减少网络预测时间，更好的检测有遮挡的货品。总之，本发明能够提高目标检测的效率，减少网络预测时间，更好的检测有遮挡的货品。

以下通过具体实施方式，进一步说明本发明的有益效果。

附图说明

图1为本发明的流程示意图；

图2为本发明构建的目标检测网络模型结构图；

图3为本发明在PANet中加入E-CBAM机制结构图。

具体实施方式

以下结合附图及较佳实施例，对依据本发明提出的一种轻量化的目标检测方法的具体实施方式、特征及其功效，详细说明如后。

参见图1，本发明的一种轻量化的目标检测方法，其中：该方法包括以下步骤:

步骤一：采用Mosaic方法对训练图像样本进行数据增强：mosaic数据增强利用了四张图像，对四张图像进行拼接，每一张图像都有其对应的目标框，将四张图像拼接之后就获得一张全新的图像，同时也获得这张图像对应的所有目标框，将获得的新图像送入网络中进行学习，扩大了数据集，增加了数据集的背景复杂度。

首先读取数据集中的四张图像，分别对四张图像进行翻转(对原始图像进行左右的翻转)、缩放(对原始图像进行大小的缩放)、色域变化(对原始图像的明亮度、饱和度、色调进行改变)等操作。操作完成之后将原始图像按照从左到右、从上到下的次序一依次摆好。完成四张图像的摆放之后，利用随机裁剪的方法将四张图像中固定的区域截取下来，然后进行拼接，形成一张新的图像，新的图像上含有四张图像中所有的候选框。最后需要对目标框范围超出图像边界则进行边缘化处理进行消除，得到一张全新的数据图像。按照9:1的比例分为训练集和测试集。

将训练集中的训练图像的目标边界框与聚类中心目标边界框的重合度作为聚类距离指标，即采用k-means聚类方法将所有训练图像样本中的目标边界框分为9类，取各类中心的目标边界框尺寸作为模型预测目标边界框的先验边界框尺寸。聚类获得的先验边界框尺寸(w,h)分别为：(33.5690337，168.9037037)， (34.66666667，56.12698413)，(51.8968254，96.57142857) (63.58596491，238.04444444)，(75.15582011，32.74580897)， (86.56349206，67.32142857)，(102.1754386，137.29100529)，(170.63703704，289.12)，(190.8042328，95.12698413)。

所述改进的CBAM注意力机制的通道注意力模块中，首先利用全局最大值池化和均值池化来映射特征信息，形成两个不同的通道描述信息，用

表示F经过平均池化AvgPool(F)的通道描述信息，用

来描述F经过最大池化MaxPool(F)的通道描述信息，采用自适应维度k的一维卷积来聚合k个邻域通道内的特征信息，然后将两个通道的信息元素相加，并通过Sigmoid函数激活，生成通道注意力M_C(F)∈R^C×1×1，再与原始输入特征F相乘从而注入通道注意力模块；具体的计算过程如下：

其中σ表示Sigmoid激活函数，

所述改进的CBAM注意力机制的空间注意力模块中，首先将已经引入通道注意力的特征信息F'进行全局平均池化GAP(F')和全局最大池化GMP(F')，生成两个不同的通道描述信息

其中，

表示采用卷积核大小为3的膨胀卷积，

所述目标检测网络模型的具体结构为：包括Input、Backbone、Neck、Head部分，其中Input进行图像输入；Backbone以MobileNetv3为主干网络，包括5个Bottleneck 模块处理和SE注意力模块；Neck以SPP为附加模块，PANet为特征融合模块；Head 为预测输出模块(如图2)；

所述Bottleneck模块处理：每一个Bottleneck模块中的数据首先经过1×1和3×3的卷积后进行降维处理，然后送入SE注意力模块中，在经过SE模块处理后与原输入数据进行叠加，得到104×104×24的通道信息，在经过5个Bottleneck模块处理后，选择52×52×40，26×26×112，13×13×160三个模块的输出作为PANet中的三个特征层；

所述Neck模块处理：将所述13×13×160的有效特征层送入空间金字塔SPP层中，利用不同尺寸的池化层进行特征融合，提高感受野，分离出有效特征；空间金字塔池化模块共有3层，池化层大小分别设置为5×5、7×7和13×13，采用最大池化方式；其中所述特征提取PANet中引入深度可分离的3×3卷积代替普通卷积和改进的CBAM注意力机制，采用Hard-swish作为激活函数；

步骤三：训练目标检测网络模型：将训练集中的每张训练图像输入所述目标检测网络模型，首先将每张训练图像尺寸调整为416×416，然后对每张训练图像使用N×N 大小的网格进行分块；当分块的网格存在训练图像中待检测目标的中心点时，该网格对该待检测目标的种类和位置信息进行预测，具体过程为：

当某个目标的中心点落入被划分出的N*N个网格中，该网格生成B个预测框对该目标进行预测，即每个网格有B个anchors预测生成的边界框以及表明该网格是否包含目标的置信度T；计算预测边界框中心相对于其所在网格左上角坐标与网格边长的比值b_x和b_y，采用Relu6激活函数函数约束预测值，将其归一化为σ(t_x)和σ(t_y)；计算边界框宽、高相对于先验框宽、高的比值对数t_w和t_h；计算边界框相对先验框的目标置信度为t_c并归一化为σ(t_c)；根据边界框中心点所在网格左上角坐标 (b_x,b_y)、先验框的宽p_w和高p_h，计算预测的边界框位置和置信度向量T＝[b_x ,b_y,b_w,b_h,c]。计算模型预测的目标属于各类的概率。

获取各个参数信息后传入损失函数，计算预测的损失Loss，完成对N*N个网格的预测后，将所有网格的参数进行整理汇总，输出该图像的检测结果及损失值。

训练时采用集成的开发环境Anaconda3，采用TensorFlow2.2.0作为深度学习框架，训练过程中batch_size设置为16，首先冻结主干网络参数训练50个周期，解冻后对整个网络再训练50个周期，初始学习率设置为1e-4。

步骤四：使用目标检测网络模型进行检测，得到检测结果：对输入测试图像进行检测，加载步骤三中训练好的目标检测网络模型检测图像，在获得该目标中所有的输出候选框后，采用非极大值抑制进行局部搜索，抑制冗余的检测框，选取最大检测结果即为目标检测输出。

其中：

1.MobileNetv3网络

MobileNet网络是一种轻量级深度神经网络模型。MobileNetv3综合了MobileNetv1 的深度可分离卷积、MobileNetv2的逆残差结构和MnasNet中的SE(Squeezeand Excitation)注意力机制，能够在最大程度减少参数量的情况下保证准确率。

MobileNetv3网络中的Block模块，输入特征图先依次经过的1×1的标准卷积和3×3的深度可分离卷积后，输入SE注意力结构块，经过池化层和全连接层激活后与原输入相乘，即可引入SE注意力机制，最后与输入特征图相加，得到输出特征图。

2.CBAM注意力机制

CBAM是一种简单有效的卷积神经网络注意力模块，它由通道注意力模块和空间注意力模块两部分组成，将特征图输入CBAM模块后即可得到加入注意力机制后的特征图，对输入特征进行进一步细化。

给定一个张量F∈R^C×H×W作为输入送入到CBAM模块中，首先对输入F在不同通道内进行最大池化和平均池化，并将池化后的两个一维张量输入到共享全连接层进行相加，生成一维通道注意力M_c∈R^C×1×1，然后将得到的注意力M_c(F)与原输入F相乘后生成F’传入空间注意力模型；其次，将输入F’按空间进行全局最大值池化和均值池化，并将池化后的两个二维张量拼接后进行卷积，最终得到一个二维的空间注意力M_s(F’)∈ R^1×H×W，最后将空间注意力M_s(F’)与F’相乘即可引入CBAM注意力。整体引入注意力的过程可以描述为：

2算法改进

2.1改进的yolov4-Lite目标检测网络模型

将YOLOv4原主干特征提取网络CSPDarknet-53改为MobileNetv3网络，并在原来的基础上将原PANet中的3×3的标准卷积换成深度可分离卷积、激活函数改为Hard-s wish来减少计算量，构成了全新的YOLOv4-Lite网络。将标准的3×3卷积替换为深度可分离的1×1和3×3卷积后，能够在不损失精度的情况下，减少参数量；由于在移动设备中计算Sigmoid函数的代价太大，而Hard-swish在深度网络中效果更好，因此将采用Hard-swish作为激活函数。

以一个416×416的输入图像为例，首先在主干特征提取网络中经过5次Bottlebeck 块结构后，输出得到52×52、26×26、13×13大小的三个有效特征层。将13×13的特征层输入到SPP网络，利用不同尺寸的池化层进行特征融合，提高感受野，分离出有效特征。随后将三组特征层输入到PANet网络进行融合，PANet中自下而上的特征融合路径能够有效融合更丰富的特征信息。最后，经过特征融合后的三组特征层对每个位置预测三个边界框，若数据集中含有k个类别，每个边界框将给出3×(5+k)个预测值，其中前四个值为边界框的位置信息，即(横坐标，纵坐标，边界框宽度，边界框高度)，第五个值表示边界框中存在该目标的置信度。整体网络结构如图2所示。

2.2改进的CBAM注意力机制

CBAM注意力机制在计算生成通道注意力模块时，会使用全连接层进行特征映射。但由于全连接层的参数计算量巨大，即使先对共享全连接层的通道特征进行倍数压缩，其参数量仍然很大；另外在空间注意力模块中，为了聚合更广泛的特征，CBAM 机制使用一个7×7的卷积核来提取空间特征，相比于使用3×3的卷积核，虽然增大了感受野，但同时模块的参数量也随之增大。因此，本发明采用自适应维度的一维卷积代替全连接层，有效的减少了参数计算量；针对遮挡货品检测精度不高的情况，利用具有膨胀卷积的残差块对空间注意力模型中的参数量进行缩减，同时提高感受野，提高对遮挡货品的检测精度。本发明将其称为E-CBAM(Efficient-Convolutional Block Attention Module)。

2.2.1通道注意力改进

与CBAM类似，通道注意力的关注点在于输入特征图“是什么”。首先利用全局最大值池化和均值池化来映射特征信息，形成两个不同的通道描述信息，用

表示F经过平均池化(Average Pooling)的通道描述信息，用

来描述F经过最大池化(Max Pooling)的通道描述信息。本设计采用自适应维度k的一维卷积来聚合k个邻域通道内的特征信息，然后将两个通道的信息元素相加，并通过Sigmoid函数激活，生成通道注意力M_c(F)∈R^C×1×1，再与原来的输入特征相乘从而注入通道注意力模块。具体的计算过程如公式(3)：

其中σ表示Sigmoid激活函数，

表示卷积核大小为k的一维卷积操作，k值的大小由公式(4)自适应决定：

2.2.2空间注意力模块的改进

在通道注意力模块后加入空间注意力模块能够有效提高网络模型的检测能力，使网

和

并将两个通道信息进行拼接，生成一个更加有效的空间特征层；随后利用具有膨胀卷积的残差结构进一步聚合上下层空间中的信息，提高感受野，经Sigmoid函数激活后生成空间注意力模型M_s(F′)∈R ^1×H×W；最后，将空间注意力模型M_s(F′)与输入特征F′对应元素相乘即可注入空间注意力模块。具体的计算过程如公式(5)：

其中，

表示采用卷积核大小为3的膨胀卷积，

表示卷积核大小为1的标准卷积。本研究采用的是膨胀率为2的膨胀卷积。

2.3轻量化目标检测网络模型E-yolov4-Lite

本发明提出的E-CBAM模型可以加入到卷积神经网络的任意位置，为了进一步优化模型，本发明将通道注意力机制引入到PANet层，主要原因如下：

(1)在不改变主干网络的情况下引入注意力机制，可以利用公开数据集中预训练权重进行迁移学习，大大缩减了网络的训练时间，而且主干网络MobileNetv3中已经存在SE注意力模块，不需要再引入新的注意力机制。

(2)在深层的神经网络中引入注意力机制，能够有效获取更加深刻的特征信息和丰富的语义信息。

综合以上两点，本发明在改进网络的基础上将E-CBAM注意力机制添加到已经PANet中，选择在同样大小通道数的特征层进行卷积操作后引入E-CBAM，由于在PANe t中26×26的特征层需要经过两次拼接和卷积操作，所以总共需要引入7个注意力模块，即在PANet中加入E-CBAM机制，具体过程如图3所示。

3 实验结果与分析

3.1 实验环境

实验过程中训练环境和测试环境保持一致，本设计在Win10操作系统进行训练和测试，采用

GeForceTM RTX1080,8GB的显卡，并运用CUDA10.2版本加速训练。采用集成的开发环境Anaconda3，采用TensorFlow2.2.0作为深度学习框架，训练过程中batch_size设置为16，首先冻结主干网络参数训练50个周期，解冻后对整个网络再训练50个周期，学习率设置为1e-4。

3.2数据集

本发明采用公开的RPC商品数据集进行训练和测试。RPC数据集包含200个小类和17个大类，数据集中图片充分考虑日常生活条件下灯光以及物体遮挡等问题，能够进一步提高算法的精确度。本实施方案选择12000张图片作为基础数据集，按照9:1的原则进行划分，选择10800张图片进行训练，剩余1200张图片进行测试。为了进一步提高训练精度，采用Mosaic进行数据增强，从而增加训练数据量，提升单个GPU的训练能力。

3.3实验

3.3.1改进注意力机制消融实验

为了验证引入注意力机制的有效性，采用消融实验的方法对改进进行验证。表1展示了MobileNetv3-YOLOv4、CBAM+YOLOv4-Lite和E-YOLOv4-Lite在RPC数据集上的表现，其中参数增量以MobileNetv3-YOLOv4为基础进行对比,实验中将CBAM模块的共享全连接层的通道压缩率设置为16。

表1改进注意力机制消融实验

Table 1Improved attention mechanism ablation experiment

通过实验结果可知，改进的注意力机制mAP提高了两个点，参数增量很少，而C BAM参数增量巨大却提升了一个点。这是由于在CBAM中采用的部分池化难以获取全部特征，而在改进的注意力中采用全局池化，尽量获取到图片的全部特征。在YOL Ov4-Lite网络中引入改进的E-CBAM机制能够在有效提高mAP的同时，不会引入大量的参数，对轻量化系统开发具有很好的应用意义。

3.3.2检测效果对比实验分析

为了验证算法的性能，本发明将E-YOLOv4-Lite、YOLOv4-Lite方法和目前主流的轻量化算法YOLOv4-tiny以及经典的单阶段检测算法SSD四种网络模型进行对比实验。

表2各模型参数量对比

Table 2Comparison of parameters of each model

参数量用来描述目标检测算法的复杂程度，各模型在商品数据集中训练的参数量如表2所示。由表1可以看出，E-YOLOv4-Lite网络相较于YOLOv4-Lite参数量基本持平，而SSD拥有比较大的参数量。虽然E-YOLOv4-Lite网络在引入了E-CBAM后参数量微量上升，但网络模型的性能提高显著。表3为使用四种模型分别对物品进行检测的结果，其评价指标为：

1.精确率(Precision)：计算正确检测目标数与整体检测目标数的比例，用于衡量模型的分类准确能力。

2.召回率(Recall)：通过计算正确检测目标数与验证集总数的比例得到，用于衡量模型查全的能力。

3.平衡分数(F1)：精确率和召回率的调和平均数，用于衡量算法的性能。

4.每秒传输帧数(FPS)：测量显示每秒动态视频流的信息数量，数值越高，画面越流畅。

5.平均检测精度(mAP)：在不同的召回率下平均的检测精度，用来描述目标检测算法的性能。

表3四种模型进行物品检测的综合性能对比

Table 3Comparison of the comprehensive performance of the threemodels for item d etection

由表3可以看出，本发明提出的E-YOLOv4-Lite模型在准确率上达到99.03％，具有优秀的精确度；在召回率上达到95.51％，具有良好的查全性；在F1得分为0.972，具有良好的检测性能；FPS与YOLOv4-Lite相差不多，但相对于经典的SSD有明显提升；检测时间略有上升，mAP相较于YOLOv4-Lite中的方法提高了2.18％，相较于Y OLOv4-tiny提高了0.6。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，任何未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种轻量化的目标检测方法，其特征在于：该方法包括以下步骤:

步骤二：构建目标检测网络模型：该目标检测网络模型以YOLOv4为基础，引入MobileNetv3网络重构特征提取网络，在PANet中以深度可分离卷积代替标准卷积，减少模型参数量和运算量；在同样大小通道数的特征层进行卷积操作后，融入改进的CBAM注意力机制，进一步提升网络检测性能；其中所述改进的CBAM注意力机制：采用自适应的一维卷积代替通道注意力模块中的全连接层，采用具有膨胀卷积的残差结构扩大空间注意力模块中感受野；

所述目标检测网络模型的具体结构为：包括Input、Backbone、Neck、Head部分，其中Input进行图像输入；Backbone以MobileNetv3为主干网络，包括5个Bottleneck模块处理和SE注意力模块；Neck以SPP为附加模块，PANet为特征融合模块；Head为预测输出模块；

所述Bottleneck模块处理：每一个Bottleneck模块中的数据首先经过1×1和3×3的卷积后进行降维处理，然后送入SE注意力模块中，在经过SE模块处理后与原输入Bottleneck模块的数据进行叠加，得到104×104×24的通道信息，在经过5个Bottleneck模块处理后，选择52×52×40，26×26×112，13×13×160三个模块的输出作为PANet中的三个特征层；

所述Neck模块处理：将所述13×13×160的特征层送入空间金字塔SPP层中，利用不同尺寸的池化层进行特征融合，提高感受野，分离出有效特征；空间金字塔池化模块共有3层，池化层大小分别设置为5×5、7×7和13×13，采用最大池化方式；其中所述特征提取PANet中引入深度可分离的3×3卷积代替普通卷积和改进的CBAM注意力机制；采用Hard-swish作为激活函数；

所述Head预测输出模块处理：经所述Neck模块处理后，用PANet特征融合后的三个特征层对训练图像中的每个检测对象预测三个边界框，设置接受该边界框包含目标的交并比阈值IoU＝0 .5，输出满足交并比的预测框；

步骤三：训练目标检测网络模型：将训练集中的每张训练图像输入所述目标检测网络模型，首先将每张训练图像尺寸调整为416×416，然后对每张训练图像使用N×N大小的网格进行分块；当分块的网格存在训练图像中待检测目标的中心点时，该网格对该待检测目标的种类和位置信息进行预测；

2.如权利要求1所述的轻量化的目标检测方法，其特征在于：所述步骤二中的改进的CBAM注意力机制的通道注意力模块中，首先利用全局最大值池化和均值池化来映射特征信息，形成两个不同的通道描述信息，用

表示输入特征F经过平均池化AvgPool(F)的通道描述信息，用

来描述F经过最大池化MaxPool(F)的通道描述信息，采用自适应维度k的一维卷积来聚合各邻域通道内的特征信息，然后将两个通道的信息元素相加，并通过Sigmoid函数激活，生成通道注意力

∈R^C×1×1，再与输入特征F相乘从而注入通道注意力模块；具体的计算过程如下：

其中

表示Sigmoid激活函数，

其中C表述输入特征图的通道数，

表示与*最接近的奇数。

3.如权利要求1所述的轻量化的目标检测方法，其特征在于：所述步骤二中的改进的CBAM注意力机制的空间注意力模块中，首先将已经引入通道注意力的特征信息进行全局平均池化GAP(

)和全局最大池化GMP(

)，生成两个不同的通道描述信息

和

，并将两个通道信息进行拼接，生成一个更加有效的空间特征层；随后利用具有膨胀卷积的残差结构进一步聚合上下层空间中的信息，提高感受野，经Sigmoid函数激活后生成空间注意力模型M_s()∈R^1×H×W；最后，将空间注意力模型M_s(

)与输入特征

对应元素相乘即可注入空间注意力模块，具体的计算过程如下：

其中，

表示采用卷积核大小为3的膨胀卷积，

4.如权利要求1所述的轻量化的目标检测方法，其特征在于：所述步骤三中，训练目标检测网络模型时采用集成的开发环境Anaconda3，采用TensorFlow2.2.0作为深度学习框架，训练过程中batch_size设置为16，首先冻结主干网络参数训练50个周期，解冻后对整个网络再训练50个周期，初始学习率设置为1e-4。