CN116704505A

CN116704505A - 目标检测方法、装置、设备及存储介质

Info

Publication number: CN116704505A
Application number: CN202310580293.4A
Authority: CN
Inventors: 王周璞; 胡婧; 吴素崟; 樊闯; 阮靖琳
Original assignee: Wuhan Polytechnic University
Current assignee: Wuhan Polytechnic University
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-09-05

Abstract

本发明公开了一种目标检测方法、装置、设备及存储介质，该方法包括：获取待检测图像以及初始数据集；对初始数据集进行图像预处理，得到预处理后的数据集；基于YOLOv7网络构建初始目标检测模型，将初始目标检测模型的主干网络替换为改进的ConvNextv2结构，在初始目标检测模型的颈层网络中加入CA注意力机制，并将初始目标检测模型的头部网络中的检测头替换为解耦检测头，得到改进的目标检测模型；通过预处理后的数据集对改进的目标检测模型进行训练，得到优化的目标检测模型；根据优化的目标检测模型对待检测图像进行检测，得到检测结果。解决了当前小目标检测精度低，模型性能易受干扰的问题，提升小目标检测的精度。

Description

目标检测方法、装置、设备及存储介质

技术领域

本发明涉及目标检测技术领域，尤其涉及一种目标检测方法、装置、设备及存储介质。

背景技术

如今，伴随着人工智能的快速发展，以及计算机硬件设备的升级，目标检测算法取得了突破性进展，相关研究成果也为人们的日常生活带来诸多便利。

目前大中型目标检测已取得瞩目的成绩，但随着智能化系统的快速发展和便携式拍照设备的广泛应用，大量小目标存在于视频和图像中，仅仅检测大中型物体已无法满足实际需求，很多领域需要从小目标中获取关键信息。这充分表明小目标检测极具研究价值和应用前景。然而相较于大中型目标检测而言，同种检测算法用于小目标检测时的性能指标往往偏低，很难达到预期效果。这是因为小目标的分辨率低、信息有限，在下采样过程中容易丢失关键特征，导致漏检、误检现象严重。另外模型性能还受光照强度变化、图像噪声、复杂背景、目标遮挡等因素的干扰，这些干扰因素更加剧了检测难度。因此，需要将现有的目标检测算法进行改进，提升在小目标检测上的精度。

发明内容

本发明的主要目的在于提供一种目标检测方法、装置、设备及存储介质，旨在解决现有技术小目标检测精度低，模型性能易受干扰的技术问题。

为实现上述目的，本发明提供了一种目标检测方法，所述方法包括以下步骤：

获取待检测图像以及初始数据集；

对所述初始数据集进行图像预处理，得到预处理后的数据集；

基于YOLOv7网络构建初始目标检测模型，将所述初始目标检测模型的主干网络替换为改进的ConvNextv2结构，在所述初始目标检测模型的颈层网络中加入CA注意力机制，并将所述初始目标检测模型的头部网络中的检测头替换为解耦检测头，得到改进的目标检测模型，其中，所述改进的ConvNextv2结构是基于ConvNextv2结构构建并将所述ConvNextv2结构的下采样层替换为SPD模块得到的，所述ConvNextv2结构中包括全局响应归一化层；

通过所述预处理后的数据集对所述改进的目标检测模型进行训练，得到优化的目标检测模型；

根据所述优化的目标检测模型对所述待检测图像进行检测，得到检测结果。

可选地，所述对所述初始数据集进行图像预处理，得到预处理后的数据集，包括：

将所述初始数据集的原始标签转换为目标标签，得到目标数据集；

通过几何变换和颜色变换扩增所述目标数据集，得到预处理后的数据集，其中，所述几何变换包括翻转、旋转、裁剪、变形、缩放、加噪以及模糊中的至少一项，颜色变换包括颜色变换、擦除以及填充中的至少一项。

可选地，所述通过所述预处理后的数据集对所述改进的目标检测模型进行训练，得到优化的目标检测模型，包括：

将所述预处理后的数据集中的图像输入至所述改进的目标检测模型的改进的ConvNextv2结构进行特征提取，得到参考特征图，其中，所述改进的ConvNextv2结构包括SPD模块、卷积层以及全局响应归一化层，所述卷积层包括深度卷积和一维卷积；

将所述参考特征图输入至所述改进的目标检测模型的颈层网络进行编码，得到目标特征图，其中，所述颈层网络包括CA注意力机制；

将所述目标特征图输入至所述改进的目标检测模型的头部网络进行检测，输出标记框以及分类标签；

根据所述标记框以及分类标签确定目标损失函数；

通过所述目标损失函数优化所述改进的目标检测模型的参数，得到优化的目标检测模型。

可选地，所述将所述预处理后的数据集中的图像输入至所述改进的目标检测模型的改进的ConvNextv2结构进行特征提取，得到参考特征图，包括：

对所述预处理后的数据集中的图像进行特征提取，得到原始特征图；

通过所述改进的ConvNextv2结构中的SPD模块对所述原始特征图进行切片操作，得到若干数量的子特征图；

按照通道维度连接所述若干数量的子特征图，得到中间特征图；

将所述中间特征图进行输入至所述卷积层进行深度卷积后进行一维卷积，得到卷积特征图；

将所述卷积特征图输入至所述全局响应归一化层进行聚合处理，得到参考特征图。

可选地，所述将所述卷积特征图输入至所述全局响应归一化层进行聚合处理，得到参考特征图，包括：

对所述卷积特征图通过L2范式池化进行全局特征聚合，得到聚合特征图；

对所述聚合特征进行特征归一化，得到归一化特征图；

对所述归一化特征图进行特征校准，得到参考特征图。

可选地，所述将所述参考特征图输入至所述改进的目标检测模型的颈层网络进行编码，得到目标特征图，包括：

通过所述CA注意力机制根据第一卷积核和第二卷积核对所述参考特征图分别沿水平方向和垂直向进行编码，得到水平方向的聚合特征图和垂直方向的聚合特征图，其中，所述第一卷积核和第二卷积核的空间范围不同；

将水平方向的聚合特征图和垂直方向的聚合特征图进行拼接，得到拼接后的张量；

通过一维卷积变换函数对所述拼接后的张量进行计算，得到水平张量和垂直张量；

根据所述水平张量和垂直张量与参考特征图进行计算，得到目标特征图。

可选地，所述根据所述标记框以及分类标签确定目标损失函数，包括：

根据所述标记框与真实框进行计算，得到位置损失函数；

根据所述分类标签与预设标签进行计算，得到分类损失函数；

根据所述位置损失函数与所述分类损失函数确定目标损失函数。

此外，为实现上述目的，本发明还提出一种目标检测装置，所述目标检测装置包括：

获取模块，用于获取待检测图像以及初始数据集；

处理模块，用于对所述初始数据集进行图像预处理，得到预处理后的数据集；

构建模块，用于基于YOLOv7网络构建初始目标检测模型，将所述初始目标检测模型的主干网络替换为改进的ConvNextv2结构，在所述初始目标检测模型的颈层网络中加入CA注意力机制，并将所述初始目标检测模型的头部网络中的检测头替换为解耦检测头，得到改进的目标检测模型，其中，所述改进的ConvNextv2结构是基于ConvNextv2结构构建并将所述ConvNextv2结构的下采样层替换为SPD模块得到的，所述ConvNextv2结构中包括全局响应归一化层；

训练模块，用于通过所述预处理后的数据集对所述改进的目标检测模型进行训练，得到优化的目标检测模型；

检测模块，用于根据所述优化的目标检测模型对所述待检测图像进行检测，得到检测结果。

此外，为实现上述目的，本发明还提出一种目标检测设备，所述目标检测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的目标检测程序，所述目标检测程序配置为实现如上文所述的目标检测方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有目标检测程序，所述目标检测程序被处理器执行时实现如上文所述的目标检测方法的步骤。

本发明通过获取待检测图像以及初始数据集；对初始数据集进行图像预处理，得到预处理后的数据集；基于YOLOv7网络构建初始目标检测模型，将初始目标检测模型的主干网络替换为改进的ConvNextv2结构，在初始目标检测模型的颈层网络中加入CA注意力机制，并将初始目标检测模型的头部网络中的检测头替换为解耦检测头，得到改进的目标检测模型；通过预处理后的数据集对改进的目标检测模型进行训练，得到优化的目标检测模型；根据优化的目标检测模型对待检测图像进行检测，得到检测结果。通过上述方式，将改进的ConvNextv2结构、CA注意力机制以及解耦检测头加入初始目标检测模型改进模型结构，并通过对改进的模型进行训练完成检测模型优化，解决了当前小目标检测精度低，模型性能易受干扰的问题，提升小目标检测的精度。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的目标检测设备的结构示意图；

图2为本发明目标检测方法第一实施例的流程示意图；

图3为本发明目标检测方法第二实施例中的改进的目标检测模型结构图；

图4为本发明目标检测方法第二实施例的流程示意图；

图5为本发明目标检测方法二实施例中的切片操作示意图；

图6为本发明目标检测方法二实施例中CA注意力机制实现流程图；

图7为本发明目标检测方法二实施例中SCE模块示意图；

图8为本发明目标检测方法二实施例中DPE模块示意图；

图9为本发明目标检测方法二实施例中解耦检测头示意图；

图10为本发明目标检测装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的目标检测设备结构示意图。

如图1所示，该目标检测设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity，Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对目标检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及目标检测程序。

在图1所示的目标检测设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明目标检测设备中的处理器1001、存储器1005可以设置在目标检测设备中，所述目标检测设备通过处理器1001调用存储器1005中存储的目标检测程序，并执行本发明实施例提供的目标检测方法。

本发明实施例提供了一种目标检测方法，参照图2，图2为本发明目标检测方法第一实施例的流程示意图。

本实施例中，所述目标检测方法包括以下步骤：

步骤S10：获取待检测图像以及初始数据集。

需要说明的是，本实施例的执行主体为目标检测设备，还可为其他可实现相同或相似功能的设备，本实施例对此不加以限定，本实施例以目标检测设备为例进行说明。

可以理解的是，待检测图像为需要进行目标检测的图像，待检测图像中的待检测对象为小目标，小目标有两种定义方式，根据相对尺寸的定义和根据绝对尺寸的定义，相对尺寸即在256×256的图像中目标面积小于80个像素，即小于256×256的0.12％就为小目标，绝对尺寸即，根据COCO数据集定义，尺寸小于32×32像素的目标即可认为是小目标，小目标可以为路边的交通标志、物品的外表缺陷等，本实施例对此不作具体限制。

值得说明的是，数据集即由数据样本组成的集合，所述初始数据集是由待检测图像组成的集合，初始数据集可以为VisDrone2021数据集，本实施例对此不作具体限制。

步骤S20：对所述初始数据集进行图像预处理，得到预处理后的数据集。

需要说明的是，由于机器学习需要通过大量的图像样本进行学习，因此对初始数据集对图像进行预处理，可以扩充数据集，得到更丰富的数据集图像用以模型训练，提升模型泛化能力。

进一步地，为了提高检测模型的精度，所述步骤S20包括：将所述初始数据集的原始标签转换为目标标签，得到目标数据集；通过几何变换和颜色变换扩增所述目标数据集，得到预处理后的数据集，其中，所述几何变换包括翻转、旋转、裁剪、变形、缩放、加噪以及模糊中的至少一项，颜色变换包括颜色变换、擦除以及填充中的至少一项。

需要说明的是，初始数据集中的图像均带有原始标签，原始标签包括：标注框左上角的横坐标<bbox_left>、标注框左上角的纵坐标<bbox_top>、标注框宽度<bbox_width>、标注框高度<bbox_height>、评分<score>、目标类别<object_category>、截断率<truncation>以及遮挡率<occlusion>等，本实施例对此不作具体限制。

可以理解的是，对将初始数据集的原始标签进行标签格式转换，将原始标签转换为目标标签，目标标签包括：类别<c>、标注框中心横坐标<x>、标注框中心纵坐标<y>、标注框相对宽<w>、标注框相对高<h>等，本实施例对此不作具体限制。

在具体实现中，所述数据扩增包括几何变换和颜色变换操作，所述几何变换操作包括翻转、旋转、裁剪、变形、缩放、加噪以及模糊，颜色变换操作包括颜色变换、擦除以及填充，翻转包括水平翻转与垂直翻转，加燥为添加高斯噪声，能够提高模型的鲁棒性，泛化能力，由于目标数据集中的图像像素尺寸很高，可以将原图裁剪成2×2张图片，在提高数据量的同时又能够提高模型对于小目标的检测能力。

步骤S30：基于YOLOv7网络构建初始目标检测模型，将所述初始目标检测模型的主干网络替换为改进的ConvNextv2结构，在所述初始目标检测模型的颈层网络中加入CA注意力机制，并将所述初始目标检测模型的头部网络中的检测头替换为解耦检测头，得到改进的目标检测模型，其中，所述改进的ConvNextv2结构是基于ConvNextv2结构构建并将所述ConvNextv2结构的下采样层替换为SPD模块得到的，所述ConvNextv2结构中包括全局响应归一化层。

需要说明的是，初始目标检测模型进行结构改进，即将初始目标检测模型的主干网络替换为改进的ConvNextv2结构，主干网络用于特征提取，将主干网络替换为改进的ConvNextv2结构，所述改进的ConvNextv2结构是基于ConvNextv2结构构建并将所述ConvNextv2结构的下采样层替换为SPD模块得到的，ConvNextv2结构中包括全局响应归一化层，全局响应归一化层(GRN)，用于在增加通道间的对比度和选择性，而ConvNextv2结构是基于ConvNext结构得到的，ConvNext结构即纯卷积结构。

如图3所示，图3为本实施例目标检测方法中的改进的目标检测模型结构图，改进的目标检测模型中包括2D卷积块CONV2D、层归一化Layer Norm、卷积层ConvNextv2 Block以及SPD模块、CA注意力机制、上采样层upsample、特征聚合层ELAN、特征融合层Concat，SCE模块、DPE模块以及检测头Detect。

可以理解的是，在初始目标检测模型的颈层网络中加入CA注意力机制，颈层网络用于进行特征融合，CA注意力模块旨在增强移动网络学习特征的表达能力，它可以对网络中的任意中间特征张量进行转化变化后输出同样尺寸的张量。

可以理解的是，将所述初始目标检测模型的头部网络中的检测头替换为解耦检测头，头部网络中包括检测头，检测头用于进行分类以及定位标记框，解耦检测头包括回归检测头以及分类检测头，可以分别对应物体位置以及物体种类进行处理，通过解耦检测头进行解耦合，将分类和定位损失分开，并结合不同层信息进行最终预测，提高检测精度。

步骤S40：通过所述预处理后的数据集对所述改进的目标检测模型进行训练，得到优化的目标检测模型。

需要说明的是，通过预处理后的数据集对改进的目标检测模型进行训练，根据训练的结果计算损失函数，并通过损失函数优化模型参数，提高模型性能，得到优化的目标检测模型。

步骤S50：根据所述优化的目标检测模型对所述待检测图像进行检测，得到检测结果。

根据优化的目标检测模型对待检测图像进行检测，输出检测图像中待检测对象的分类标签以及定位框。

本实施例通过获取待检测图像以及初始数据集；对初始数据集进行图像预处理，得到预处理后的数据集；基于YOLOv7网络构建初始目标检测模型，将初始目标检测模型的主干网络替换为改进的ConvNextv2结构，在初始目标检测模型的颈层网络中加入CA注意力机制，并将初始目标检测模型的头部网络中的检测头替换为解耦检测头，得到改进的目标检测模型；通过预处理后的数据集对改进的目标检测模型进行训练，得到优化的目标检测模型；根据优化的目标检测模型对待检测图像进行检测，得到检测结果。通过上述方式，将改进的ConvNextv2结构、CA注意力机制以及解耦检测头加入初始目标检测模型改进模型结构，并通过对改进的模型进行训练完成检测模型优化，解决了当前小目标检测精度低，模型性能易受干扰的问题，提升小目标检测的精度。

参考图4，图4为本发明目标检测方法第二实施例的流程示意图。

基于上述第一实施例，本实施例目标检测方法中所述步骤S30，包括：

步骤S401：将所述预处理后的数据集中的图像输入至所述改进的目标检测模型的改进的ConvNextv2结构进行特征提取，得到参考特征图，其中，所述改进的ConvNextv2结构包括SPD模块、卷积层以及全局响应归一化层，所述卷积层包括深度卷积和一维卷积。

需要说明的是，通过改进的ConvNextv2结构进行特征提取可以减少参数量和计算量，同时保持空间信息，增加模型对不同尺度特征的感知能力。

进一步地，所述步骤S401包括：对所述预处理后的数据集中的图像进行特征提取，得到原始特征图；通过所述改进的ConvNextv2结构中的SPD模块对所述原始特征图进行切片操作，得到若干数量的子特征图；按照通道维度连接所述若干数量的子特征图，得到中间特征图；将所述中间特征图进行输入至所述卷积层进行深度卷积后进行一维卷积，得到卷积特征图；将所述卷积特征图输入至所述全局响应归一化层进行聚合处理，得到参考特征图。

在具体实现中，通过所述改进的ConvNextv2结构中的SPD模块对所述原始特征图进行切片操作，得到若干数量的子特征图的具体操作包括：对预处理后的数据集中的图像进行特征提取，得到尺寸为S×S×C1原始特征图，将原始特征图X传递至SPD模块，通过SPD模块对原始特征图进行切片操作，得到一系列的子特征图，如下式1：

f_0，0＝X[0：S：scale，0：S：scale]，f_1，0＝X[1：S：scale，0：S：scale]，...，f_scale-1，0＝X[scale-1：S：scale，0：S：scale]

f_0，1＝X[0：S：scaie，1：S：scale]，f_1，1，...，f_sale-1，1＝X[scale-1：S：scale，1：S：scale]

f_0，scale-1＝X[0：S：scale，scale-1：S：scale]，f_1，scale-1，...，f_{sale-1，scale-1}＝X[scale-1：S：scale，scale-1：S：scale] (式1)

对于原始特征图X，子特征图f_x，y可以由i+x，j+y按scale整除X(i，j)得到，因此，每个子特征图都按比例对原始特征图X进行下采样。当scale＝2时，将原始特征图X进行2倍下采样，得到四个子特征图f_0，0，f_0，1，f_1，0，以及f_1，1，每个子特征图的形状为如图5所示，图5为本实施例目标检测方法中的切片操作示意图。

在具体实现中，按照通道维度连接所述若干数量的子特征图，得到中间特征图的具体操作包括，按照通道维度连接四个子特征图，得到连接特征图X′，形状为接着通过具有C2个1×1的卷积进行降维，融合通道之间的信息，其中，C2＜scale²＜C1，得到中间特征图X″，形状为/>

需要说明的是，中间特征图进入卷积层ConvNextv2 Block，卷积层ConvNextv2Block由1个7×7的深度卷积dwconv和两个用来实现倒置瓶颈结构的1×1卷积组成，深度卷积dwconv可以大幅度减少计算量，标准卷积计算量A，如下式2：

A＝D_k·D_k·M·N·D_F·D_F (式2)

其中，A为标准卷积计算量，D_k×D_k是卷积核内核大小，M是输入通道数，N是输出通道数，D_F×D_F是特征图大小。

而深度卷积的计算量B，如下式3：

B＝D_k·D_k·M·D_F·D_F (式3)

其中，B为深度卷积的计算量，D_k×D_k是卷积核内核大小，M是输入通道数，D_F×D_F是特征图大小。

由式2和式3可知，深度卷积dwconv是标准卷积的

经过实现倒置瓶颈结构的两个1×1卷积后，卷积特征图进入全局响应归一化层GRN，增强不同通道之间的竞争，增加通道的对比度和选择性。

进一步地，所述将所述卷积特征图输入至所述全局响应归一化层进行聚合处理，得到参考特征图，包括：对所述卷积特征图通过L2范式池化进行全局特征聚合，得到聚合特征图；对所述聚合特征进行特征归一化，得到归一化特征图；对所述归一化特征图进行特征校准，得到参考特征图。

在具体实现中，GRN层首先通过L2范式池化(L2-norm pooling)完成全局特征聚合，可以有效地抑制噪声和防止过拟合，提高模型泛化能力，全局特征聚合如下式4：

G(X)＝X∈R^H×W×C→gx ∈R^c

(式4)

其中，X表示输入前的特征图，gx表示经过L2范式池化的特征图，G表示L2范式池化，H表示特征图的高，W表示特征图的宽，C表示特征图的通道数。

L2范式池化具体如下式5：

其中，u_c(i，j)表示位于第c通道特征图X的像素点，i与j分别表示像素点的横坐标与纵坐标。

最终得到聚合特征图，如下式6：

G(X)＝gx＝{||x₁||，||X₂||，...，||X_C||}∈R^c (式6)

其中，gx表示经过L2范式池化的特征图，即聚合特征图，X表示特征，C表示特征图的通道数。

对所述聚合特征图进行归一化，G(X)_i＝||X_i||表示第i个通道的特征标量，得到归一化特征图，如下式7：

其中，N表示归一化特征图，X表示特征。

对归一化特征图进行特征校准，得到参考特征图，如下式8：

X_i＝X_i*N(G(X)_i)∈R^H×W

(式8)

其中，X_i表示参考特征图，N表示归一化特征图，G表示聚合特征图，H表示特征图的高，W表示特征图的宽。

步骤S402：将所述参考特征图输入至所述改进的目标检测模型的颈层网络进行编码，得到目标特征图，其中，所述颈层网络包括CA注意力机制。

可以理解的是，CA注意力机制能够将待融合特征的横向和纵向的位置信息编码到通道注意力中，使得移动网络能够关注大范围的位置信息又不会带来过多的计算量，以高权重去聚焦重要信息，以低权重去忽略不相关的信息，并不断调整权重，定位感兴趣的信息，送入检测头。

进一步地，所述步骤S402包括：通过所述CA注意力机制根据第一卷积核和第二卷积核对所述参考特征图分别沿水平方向和垂直向进行编码，得到水平方向的聚合特征图和垂直方向的聚合特征图，其中，所述第一卷积核和第二卷积核的空间范围不同；将水平方向的聚合特征图和垂直方向的聚合特征图进行拼接，得到拼接后的张量；通过一维卷积变换函数对所述拼接后的张量进行计算，得到水平张量和垂直张量；根据所述水平张量和垂直张量与参考特征图进行计算，得到目标特征图。

在具体实现中，如图6所示，图6为本实施例目标检测方法中CA注意力机制实现流程图，CA注意力机制对输入的参考特征图，通过第一卷积核(H，1)和第二卷积核(1，W)，分别沿水平坐标和垂直坐标对每个通道进行编码，因此，高度为h的第c个通道的输出可以表示为如下式9：

其中，表示垂直方向的高度为h的第c个通道的聚合特征图，W表示特征图的宽。

宽度为w的第c个通道的输出为如下式10：

其中，表示水平方向的w的第c个通道的聚合特征图，H表示特征图的高。

将水平方向的聚合特征图和垂直方向的聚合特征图进行拼接，得到拼接后的张量，如下式11：

f＝δ(F₁([z^h，z^w)]) (式11)

其中，f为拼接后的张量，δ是非线性激活函数，表示垂直方向的聚合特征图，表示水平方向的聚合特征图，F₁为一维卷积变换函数。

将拼接后的张量沿着空间维度拆分为单独的水平张量和垂直张量，如下式12：

g^h＝σ(F_h(f^h))，g^w＝σ(F_w(f^w)) (式12)

其中，g^h为水平张量，g^w垂直张量，σ为激活函数，F表示卷积变换函数，f为拆分之前的张量。

将水平张量和垂直张量作为注意力权重，最后CA模块的输出为如下式13：

其中，y_c(i，j)位于第c通道特征图y的像素点，i与j分别表示像素点的横坐标与纵坐标，x表示特征，g^h为水平张量，g^w垂直张量。

步骤S403：将所述目标特征图输入至所述改进的目标检测模型的头部网络进行检测，输出标记框以及分类标签。

需要说明的是，所述标签框为标记出输入的图像中的待检测对象位置的矩形框，所述分类标签输入的图像中的待检测对象类别信息的标签。

可以理解的是，通过头部网络的解耦检测头进行检测，所述解耦检测头可以为TSCODE解耦检测头。

步骤S404：根据所述标记框以及分类标签确定目标损失函数。

需要说明的是，损失函数的作用为度量神经网络预测信息与期望信息(标签)的距离，预测信息越接近期望信息，损失函数值越小。在本实施例中，损失包括分类损失和位置损失，根据分类损失和位置损失得到目标损失函数。

进一步地，所述根据所述标记框以及分类标签确定目标损失函数，包括：根据所述标记框与真实框进行计算，得到位置损失函数；根据所述分类标签与预设标签进行计算，得到分类损失函数；根据所述位置损失函数与所述分类损失函数确定目标损失函数。

需要说明的是，根据位置损失函数与分类损失函数确定目标损失函数，如下式14：

其中，L为目标损失函数，L_cls表示分类损失，L_loc表示位置损失，表示通过SCE模块将来自特征金字塔P_l和P_l+1层融合，/>通过DPE模块将特征金字塔P_l-1、P_l和P_l+1层融合。

通过SCE模块将来自特征金字塔P_l和P_l+1层融合如下式15：

其中，Concat(·)表示沿通道方向堆叠，DConv(·)表示共享下采样卷积，P_l和P_l+1表示特征金字塔层，如图7所示，图7为本实施例目标检测方法中SCE模块示意图。

通过DPE模块将特征金字塔P_l-1、P_l和P_l+1层融合如下式16：

其中，P_l-1、P_l和P_l+1表示特征金字塔层，μ(·)表示上采样，如图8所示，图8为本实施例目标检测方法中DPE模块示意图。

如图9所示，图9为本实施例目标检测方法中解耦检测头示意图，改进的检测模型包括都是包含Backbone、Neck和Head。其中骨干网络Backbone充当特征提取器从输入图像生成多尺度特征图，然后进行深、浅层的特征融合，最后再分别输入到头部进行相应的解码输出，TSCODE接收来自中间三个层级输出的特征图，并生成用于分类和定位的解耦特征图。

值得说明的是，使用经典解耦检测头的目标检测模型是基于同一层的特征金字塔网络，经典解耦检测头包括回归与分类分支，经典解耦检测头的损失函数，如下式17：

L＝L_cls(F_C(P_l)，c)+L_loc(F_r(P_l，B)) (式17)

其中，F_c(·)＝{f_cls(·)，C(·)}，F_r＝{f_loc(·)，R(·)}是用于分类和定位的特征投影函数，l为特征金字塔第l层，B为真实框，c为类别标签，C(·)和R(·)分别为经典解耦检测头中回归与分类分支的最后一层，将特征解码为分类分数和边界框位置。

步骤S405：通过所述目标损失函数优化所述改进的目标检测模型的参数，得到优化的目标检测模型。

需要说明的是，通过目标损失函数更新模型参数，直至模型预测的置信度超过预设值，如，90％，则停止训练和更新，将当前的模型作为优化的目标检测模型。

本实施例通过将所述预处理后的数据集中的图像输入至所述改进的目标检测模型的改进的ConvNextv2结构进行特征提取，得到参考特征图，其中，所述改进的ConvNextv2结构包括SPD模块、卷积层以及全局响应归一化层，所述卷积层包括深度卷积和一维卷积；将所述参考特征图输入至所述改进的目标检测模型的颈层网络进行编码，得到目标特征图，其中，所述颈层网络包括CA注意力机制；将所述目标特征图输入至所述改进的目标检测模型的头部网络进行检测，输出标记框以及分类标签；根据所述标记框以及分类标签确定目标损失函数；通过所述目标损失函数优化所述改进的目标检测模型的参数，得到优化的目标检测模型，通过上述方式，通过预处理后的数据集对改进的目标检测模型进行训练，根据训练的结果计算损失函数，并通过损失函数优化模型参数，提高模型性能，得到优化的目标检测模型。

参照图10，图10为本发明目标检测装置第一实施例的结构框图。

如图10所示，本发明实施例提出的目标检测装置包括：

获取模块10，用于获取待检测图像以及初始数据集；

处理模块20，用于对所述初始数据集进行图像预处理，得到预处理后的数据集；

构建模块30，用于基于YOLOv7网络构建初始目标检测模型，将所述初始目标检测模型的主干网络替换为改进的ConvNextv2结构，在所述初始目标检测模型的颈层网络中加入CA注意力机制，并将所述初始目标检测模型的头部网络中的检测头替换为解耦检测头，得到改进的目标检测模型，其中，所述改进的ConvNextv2结构是基于ConvNextv2结构构建并将所述ConvNextv2结构的下采样层替换为SPD模块得到的，所述ConvNextv2结构中包括全局响应归一化层；

训练模块40，用于通过所述预处理后的数据集对所述改进的目标检测模型进行训练，得到优化的目标检测模型；

检测模块50，用于根据所述优化的目标检测模型对所述待检测图像进行检测，得到检测结果。

由于本目标检测设备采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有目标检测程序，所述目标检测程序被处理器执行时实现如上文所述的目标检测方法的步骤。

由于本存储介质采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

应当理解的是，以上仅为举例说明，对本发明的技术方案并不构成任何限定，在具体应用中，本领域的技术人员可以根据需要进行设置，本发明对此不做限制。

需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。

另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的目标检测方法，此处不再赘述。

此外，需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory，ROM)/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取待检测图像以及初始数据集；

2.如权利要求1所述的方法，其特征在于，所述对所述初始数据集进行图像预处理，得到预处理后的数据集，包括：

3.如权利要求1所述的方法，其特征在于，所述通过所述预处理后的数据集对所述改进的目标检测模型进行训练，得到优化的目标检测模型，包括：

根据所述标记框以及分类标签确定目标损失函数；

4.如权利要求3所述的方法，其特征在于，所述将所述预处理后的数据集中的图像输入至所述改进的目标检测模型的改进的ConvNextv2结构进行特征提取，得到参考特征图，包括：

5.如权利要求4所述的方法，其特征在于，所述将所述卷积特征图输入至所述全局响应归一化层进行聚合处理，得到参考特征图，包括：

对所述聚合特征进行特征归一化，得到归一化特征图；

对所述归一化特征图进行特征校准，得到参考特征图。

6.如权利要求5所述的方法，其特征在于，所述将所述参考特征图输入至所述改进的目标检测模型的颈层网络进行编码，得到目标特征图，包括：

7.如权利要求3所述的方法，其特征在于，所述根据所述标记框以及分类标签确定目标损失函数，包括：

根据所述标记框与真实框进行计算，得到位置损失函数；

8.一种目标检测装置，其特征在于，所述目标检测装置包括：

获取模块，用于获取待检测图像以及初始数据集；

9.一种目标检测设备，其特征在于，所述目标检测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的目标检测程序，所述目标检测程序配置为实现如权利要求1至7中任一项所述的目标检测方法。

10.一种存储介质，其特征在于，所述存储介质上存储有目标检测程序，所述目标检测程序被处理器执行时实现如权利要求1至7中任一项所述的目标检测方法。