CN116363485B

CN116363485B - 一种基于改进YOLOv5的高分辨率目标检测方法

Info

Publication number: CN116363485B
Application number: CN202310574997.0A
Authority: CN
Inventors: 李金宝; 朱亚茹; 高天雷; 魏诺; 徐鹏摇
Original assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2024-03-12
Anticipated expiration: 2043-05-22
Also published as: CN116363485A

Abstract

一种基于改进YOLOv5的高分辨率目标检测方法，通过HTBlock替代原来骨干网络(backbone)中的C3模块，利用特征映射中的冗余性，对特征图通道的头部和尾部进行卷积，中间通道保持不变，这样可以减少冗余计算，更有效的提取空间特征。通过新的特征融合模块，底层特征经过自注意力机制，更加注重特征图的重要部分，而高层特征通过反向注意力会注重以往忽略的部分，往往这个部分会包含丰富的细节特征。之后二者进行融合，得到的特征图既有高级语义信息又包含细节信息，这可以大大提升高分辨率目标检测的性能。

Description

一种基于改进YOLOv5的高分辨率目标检测方法

技术领域

本发明涉及目标检测技术领域，具体涉及一种基于改进YOLOv5的高分辨率目标检测方法。

背景技术

目前，以深度学习为代表的人工智能算法凭借超大规模数据集以及强大的计算资源，在图像分类、目标检测等领域取得了出色的成果。在目标检测领域，许多学者提出了大量优秀的检测算法，这些算法低分辨率数据集能达到精度较高、速度较快的检测结果，并且逐步实现了实时性的检测。但是也存在一些问题，一方面，由于经过普通卷积得到的特征图存在大量的冗余，不可避免地会增加一些计算，降低模型运算效率；另一方面，随着各种成像设备像素的提升，获取高分辨率图片变得更加简单，高分辨率图像中往往包含更多的颜色、空间关系、纹理、边缘等细节特征，在目标检测领域中，经过连续的下采样，高分辨率图像中的小目标和细节信息会丢失，针对这一问题，以往的方法使用特征金字塔(FPN)及特征金字塔的变体将含有丰富细节信息但语义信息不足的低级特征和含有足够的语义信息但细节信息丢失的高级特征进行融合，由于语义差距的存在，简单的将低级特征和高级特征结合起来，会将有用的信息淹没在海量的无用信息中，无法得到信息丰富的特征。

发明内容

本发明为了克服以上技术的不足，提供了一种提高分辨率目标检测性能的方法。本发明克服其技术问题所采用的技术方案是：

一种基于改进YOLOv5的高分辨率目标检测方法，包括如下步骤：

a)获取n张高分辨率图像，形成原始的高分辨率图像集合I，I＝{I₁,I₂,...,I_i,...,I_n}，I_i为第i张高分辨率图像，i∈{1,...,n}；

b)将高分辨率图像集合I划分为训练集I^t和验证集I^v，为训练集I^t中第i张图像，i∈{1,...,m}，m为训练集I^t中图像的数量，/> 为验证集I^v中第i张图像，i∈{1,...,u}，u为验证集I^v中图像的数量；

c)将训练集I^t中的各个高分辨率图像和验证集I^v各个高分辨率图像分别进行预处理，得到预处理后的训练集h^t及预处理后的验证集h^v，为预处理后的训练集h^t中第i张预处理后的图像，/> 为预处理后的验证集h^v中第i张预处理后的图像；

d)将预处理后的训练集h^t中第i张预处理后的图像输入到第一下采样模块中，得到初始特征图T；

e)将初始特征图T输入到改进的YOLOv5的骨干网络中，得到特征F₁、特征F₂、特征F₃、特征F₄；

f)将特征F₄输入到YOLOv5的SPPF模块中，输出得到特征Z₄；

g)将特征Z₄、特征F₁、特征F₂、特征F₃输入到特征融合模块中进行融合，得到融合后的特征P₄；

h)将特征P₄输入到YOLOv5 Neck的FPN模块中，将输出的上采样后特征分别于特征F₁、特征F₂、特征F₃相加，分别得到特征Z₁、特征Z₂、特征Z₃；

i)将特征Z₁输入到YOLOv5 Neck的PAN模块中，将输出的下采样后特征分别于特征Z₂、特征Z₃相加，分别得到特征P₂、特征P₃；

j)将特征P₂、特征P₃、特征P₄输入到YOLOv5的Head模块中进行多尺度预测，定位出目标在第i张高分辨率图像中的位置并识别出目标所属的类别。

优选的，步骤b)中按照3:1的比例将高分辨率图像集合I划分为训练集I^t和验证集I^v。

进一步的，步骤c)包括如下步骤：

c-1)使用标注软件Labellmg对训练集I^t中的各个高分辨率图像和验证集I^v各个高分辨率图像进行标注，标注信息包括目标的大小、位置、类别；

c-2)将训练集I^t中的各个高分辨率图像分辨率和验证集I^v各个高分辨率图像分辨率均统一缩放到640×640；

c-3)将缩放后的训练集I^t中的各个高分辨率图像和验证集I^v各个高分辨率图像依次进行随机剪裁、随机翻转操作进行数据增强操作，得到预处理后的训练集h^t及预处理后的验证集h^v。

优选的，步骤d)中第一下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，第一下采样模块的卷积层的卷积核大小为6×6、步长为2、填充为2。

进一步的，步骤e)包括如下步骤：

e-1)改进的YOLOv5的骨干网络由第一分支、第二分支、第三分支、第四分支构成；

e-2)改进的YOLOv5的骨干网络的第一分支由下采样模块、HTBlock模块构成，第一分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，第一分支的HTBlock模块由HTConv单元、逐点卷积单元构成，HTConv单元由头部分支、尾部分支、中间分支构成，头部分支依次由卷积层、正则化层、SiLU激活函数层构成，尾部分支依次由卷积层、正则化层、SiLU激活函数层构成，中间分支由恒等映射层构成，逐点卷积单元依次由卷积层、正则化层、SiLU激活函数层构成，将初始特征图T输入到第一分支的下采样模块中，输出得到特征特征/>的通道数为C，将特征/>输入到HTBlock模块的HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的尾部分支中，输出得到特征将特征/>输入到HTBlock模块的HTConv单元的中间分支中，输出得到特征/>特征的通道数量为C_H，C_H＝C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的逐点卷积单元中，输出得到特征将特征/>与特征/>相加得到特征F₁；

e-3)改进的YOLOv5的骨干网络的第二分支由下采样模块、HTBlock模块构成，第二分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，第二分支的HTBlock模块由第一HTConv单元、第一逐点卷积单元、第二HTConv单元、第二逐点卷积单元构成，第一HTConv单元和第二HTConv单元均由头部分支、尾部分支、中间分支构成，头部分支依次由卷积层、正则化层、SiLU激活函数层构成，尾部分支依次由卷积层、正则化层、SiLU激活函数层构成，中间分支由恒等映射层构成，第一逐点卷积单元和第二逐点卷积单元均依次由卷积层、正则化层、SiLU激活函数层构成，将特征F₁输入到第二分支的下采样模块中，输出得到特征特征/>的通道数为2C，将特征/>输入到HTBlock模块的第一HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝2C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝2C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的第一逐点卷积单元中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝2C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝2C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征将特征/>输入到HTBlock模块的第二逐点卷积单元中，输出得到特征/>将特征和特征/>相加得到特征F₂；

e-4)改进的YOLOv5的骨干网络的第三分支由下采样模块、HTBlock模块构成，第三分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，第三分支的HTBlock模块由第一HTConv单元、第一逐点卷积单元、第二HTConv单元、第二逐点卷积单元、第三HTConv单元、第三逐点卷积单元构成，第一HTConv单元、第二HTConv单元、第三HTConv单元均由头部分支、尾部分支、中间分支构成，头部分支依次由卷积层、正则化层、SiLU激活函数层构成，尾部分支依次由卷积层、正则化层、SiLU激活函数层构成，中间分支由恒等映射层构成，第一逐点卷积单元、第二逐点卷积单元、第三逐点卷积单元均依次由卷积层、正则化层、SiLU激活函数层构成，将特征F₂输入到第三分支的下采样模块中，输出得到特征特征/>的通道数为4C，将特征/>输入到HTBlock模块的第一HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝4C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝4C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的第一逐点卷积单元中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝4C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝4C*R_t，R_t为尾部进行卷积的通道比例，将特征特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的第二逐点卷积单元中，输出得到特征/>将特征/>和特征/>相加得到特征/>将特征/>输入到HTBlock模块的第三HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第三HTConv单元的尾部分支中，输出得到特征/>将特征输入到HTBlock模块的第三HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝4C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝4C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的第三逐点卷积单元中，输出得到特征将特征/>和特征/>相加得到特征F₃；

e-5)改进的YOLOv5的骨干网络的第四分支由下采样模块、HTBlock模块构成，第四分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，第四分支的HTBlock模块由HTConv单元、逐点卷积单元构成，HTConv单元由头部分支、尾部分支、中间分支构成，头部分支依次由卷积层、正则化层、SiLU激活函数层构成，尾部分支依次由卷积层、正则化层、SiLU激活函数层构成，中间分支由恒等映射层构成，逐点卷积单元依次由卷积层、正则化层、SiLU激活函数层构成，将特征F₃输入到第四分支的下采样模块中，输出得到特征特征/>的通道数为8C，将特征/>输入到HTBlock模块的HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝8C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝8C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的逐点卷积单元中，输出得到特征/>将特征/>与特征/>相加得到特征F₄。

优选的，步骤e-2)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；步骤e-3)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、第一HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第一逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；第二HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第二逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；步骤e-4)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、第一HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第一逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；第二HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第二逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0，第三HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第三逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；步骤e-5)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0。

进一步的，步骤g)包括如下步骤：

g-1)特征融合模块由第一下采样模块、自注意力单元、反向注意力模块、第二下采样模块构成；

g-2)特征融合模块的第一下采样模块由第一分支、第二分支构成，第一分支依次由最大池化层、卷积层构成，第二分支由最大池化层构成，将特征F₁输入到第一下采样模块的第一分支中，输出得到特征F₁′，将特征F₂输入到第一下采样模块的第二分支中，输出得到特征F₂′；

g-3)特征融合模块的自注意力单元由深度可分离卷积层、自注意力机制构成，将特征F₁′输入到自注意力单元的深度可分离卷积层中，输出得到特征F₁′_dwc，将特征F₂′输入到自注意力单元的深度可分离卷积层中，输出得到特征F₂′_dwc，将特征F₃输入到自注意力单元的深度可分离卷积层中，输出得到特征F₃′_dwc，将特征F₁′_dwc、特征F₂′_dwc、特征F₃′_dwc分别输入到自注意力单元的自注意力机制中，分别输出得到特征F₁ ^self、特征特征/>将特征F₁ ^self、特征/>特征/>相加得到特征F^self，将特征F^self调整成为4C×H×W的特征F，H为特征F的高，W为特征F的宽；

g-4)特征融合模块的反向注意力模块由上采样层、反向注意力机制构成，将特征Z₄输入到上采样层中，输出得到特征Z₄′，将特征Z₄′输入到反向注意力机制中，输出得到特征Z₄″，将特征Z₄″和特征F相乘得到特征Z₄″′，将特征Z₄′与特征Z₄″′相加得到特征g-5)特征融合模块的第二下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，将特征/>输入到第二下采样模块中，输出得到特征P₄。

优选的，步骤g-2)中第一下采样模块的第一分支的卷积层的卷积核大小为3×3、步长为2、填充为1，第一分支的最大池化层的卷积核大小为3×3、步长为2、填充为1，第二分支的最大池化层的卷积核大小为3×3、步长为2、填充为1；步骤g-3)中特征融合模块的深度可分离卷积层的卷积核大小为d×d、步长为d、填充为0，d为特征F₁′_dwc、特征F₂′_dwc和特征F₃划分为Patch块的边长；步骤g-5)中第二下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1。进一步的，步骤j)包括如下步骤：

j-1)将特征P₂输入到YOLOv5的Head模块的第一卷积层中，得到预测结果张量G₂，将特征P₃输入到YOLOv5的Head模块的第二卷积层中，得到预测结果张量G₃，将特征P₄输入到YOLOv5的Head模块的第三卷积层中，得到预测结果张量G₄，预测结果张量G₂、预测结果张量G₃、预测结果张量G₄在通道维度上的形式为(5+N_class)×3，其中5表示其中t_x为YOLOv5网络预测的目标所在位置的框中心横坐标的偏移量，t_y为YOLOv5网络预测的目标所在位置的框中心纵坐标的偏移量，t_w为目标的宽缩放因子，t_h为目标的高缩放因子，o为置信度，N_class为高分辨率图像集合I的类别个数，3为不同比例的锚框个数；

j-2)将预测结果张量G₂、预测结果张量G₃、预测结果张量G₄中的经过缩放操作，映射回第i张高分辨率图像，根据映射回的位置信息在第i张高分辨率图像上画框，完成目标的定位识别。

本发明的有益效果是：通过HTBlock替代原来骨干网络(backbone)中的C3模块，利用特征映射中的冗余性，对特征图通道的头部和尾部进行卷积，中间通道保持不变，这样可以减少冗余计算，更有效的提取空间特征。通过新的特征融合模块，底层特征经过自注意力机制，更加注重特征图的重要部分，而高层特征通过反向注意力会注重以往忽略的部分，往往这个部分会包含丰富的细节特征。之后二者进行融合，得到的特征图既有高级语义信息又包含细节信息，这可以大大提升高分辨率目标检测的性能。

附图说明

图1为本发明的方法流程图

图2为本发明的改进的YOLOv5的骨干网络的结构图；

图3为本发明的HTBlock模块图；

图4为本发明的特征融合模块的结构图。

具体实施方式

下面结合附图1至附图4对本发明做进一步说明。

a)获取n张高分辨率图像，形成原始的高分辨率图像集合I，I＝{I₁,I₂,...,I_i,...,I_n}，I_i为第i张高分辨率图像，i∈{1,...,n}。

b)将高分辨率图像集合I划分为训练集I^t和验证集I^v，为训练集I^t中第i张图像，i∈{1,...,m}，m为训练集I^t中图像的数量，/> 为验证集I^v中第i张图像，i∈{1,...,u}，u为验证集I^v中图像的数量。

c)将训练集I^t中的各个高分辨率图像和验证集I^v各个高分辨率图像分别进行预处理，得到预处理后的训练集h^t及预处理后的验证集h^v，为预处理后的训练集h^t中第i张预处理后的图像，/> 为预处理后的验证集h^v中第i张预处理后的图像。

d)将预处理后的训练集h^t中第i张预处理后的图像输入到第一下采样模块中，得到初始特征图T。

e)将初始特征图T输入到改进的YOLOv5的骨干网络中，得到特征F₁、特征F₂、特征F₃、特征F₄。

f)将特征F₄输入到YOLOv5的SPPF模块中，输出得到特征Z₄。

g)将特征Z₄、特征F₁、特征F₂、特征F₃输入到特征融合模块中进行融合，得到融合后的特征P₄。

h)将特征P₄输入到YOLOv5 Neck的FPN模块中，将输出的上采样后特征分别于特征F₁、特征F₂、特征F₃相加，分别得到特征Z₁、特征Z₂、特征Z₃。i)将特征Z₁输入到YOLOv5 Neck的PAN模块中，将输出的下采样后特征分别于特征Z₂、特征Z₃相加，分别得到特征P₂、特征P₃。

提出HTBlock替代原来骨干网络(backbone)中的C3模块，利用特征映射中的冗余性，对特征图通道的头部和尾部进行卷积，中间通道保持不变，这样可以减少冗余计算，更有效的提取空间特征；另一方面，本发明提出了新的特征融合模块，底层特征经过自注意力机制，更加注重特征图的重要部分，而高层特征通过反向注意力会注重以往忽略的部分，往往这个部分会包含丰富的细节特征。之后二者进行融合，得到的特征图既有高级语义信息又包含细节信息，这可以大大提升高分辨率目标检测的性能。

实施例1：

步骤b)中按照3:1的比例将高分辨率图像集合I划分为训练集I^t和验证集I^v。

实施例2：

步骤c)包括如下步骤：

c-1)使用标注软件Labellmg对训练集I^t中的各个高分辨率图像和验证集I^v各个高分辨率图像进行标注，标注信息包括目标的大小、位置、类别。

c-2)将训练集I^t中的各个高分辨率图像分辨率和验证集I^v各个高分辨率图像分辨率均统一缩放到640×640。

实施例3:

步骤d)中第一下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，第一下采样模块的卷积层的卷积核大小为6×6、步长为2、填充为2。

实施例4：

步骤e)包括如下步骤：

e-1)改进的YOLOv5的骨干网络由第一分支、第二分支、第三分支、第四分支构成。

e-2)改进的YOLOv5的骨干网络的第一分支由下采样模块、HTBlock模块构成，第一分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，第一分支的HTBlock模块由HTConv单元、逐点卷积单元构成，HTConv单元由头部分支、尾部分支、中间分支构成，头部分支依次由卷积层、正则化层、SiLU激活函数层构成，尾部分支依次由卷积层、正则化层、SiLU激活函数层构成，中间分支由恒等映射层构成，逐点卷积单元依次由卷积层、正则化层、SiLU激活函数层构成，将初始特征图T输入到第一分支的下采样模块中，输出得到特征特征/>的通道数为C，将特征/>输入到HTBlock模块的HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的尾部分支中，输出得到特征将特征/>输入到HTBlock模块的HTConv单元的中间分支中，输出得到特征/>特征的通道数量为C_H，C_H＝C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的逐点卷积单元中，输出得到特征将特征/>与特征/>相加得到特征F₁。

e-3)改进的YOLOv5的骨干网络的第二分支由下采样模块、HTBlock模块构成，第二分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，第二分支的HTBlock模块由第一HTConv单元、第一逐点卷积单元、第二HTConv单元、第二逐点卷积单元构成，第一HTConv单元和第二HTConv单元均由头部分支、尾部分支、中间分支构成，头部分支依次由卷积层、正则化层、SiLU激活函数层构成，尾部分支依次由卷积层、正则化层、SiLU激活函数层构成，中间分支由恒等映射层构成，第一逐点卷积单元和第二逐点卷积单元均依次由卷积层、正则化层、SiLU激活函数层构成，将特征F₁输入到第二分支的下采样模块中，输出得到特征特征/>的通道数为2C，将特征/>输入到HTBlock模块的第一HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝2C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝2C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的第一逐点卷积单元中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝2C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝2C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的第二逐点卷积单元中，输出得到特征/>将特征/>和特征/>相加得到特征F₂。

e-4)改进的YOLOv5的骨干网络的第三分支由下采样模块、HTBlock模块构成，第三分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，第三分支的HTBlock模块由第一HTConv单元、第一逐点卷积单元、第二HTConv单元、第二逐点卷积单元、第三HTConv单元、第三逐点卷积单元构成，第一HTConv单元、第二HTConv单元、第三HTConv单元均由头部分支、尾部分支、中间分支构成，头部分支依次由卷积层、正则化层、SiLU激活函数层构成，尾部分支依次由卷积层、正则化层、SiLU激活函数层构成，中间分支由恒等映射层构成，第一逐点卷积单元、第二逐点卷积单元、第三逐点卷积单元均依次由卷积层、正则化层、SiLU激活函数层构成，将特征F₂输入到第三分支的下采样模块中，输出得到特征特征/>的通道数为4C，将特征/>输入到HTBlock模块的第一HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝4C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝4C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的第一逐点卷积单元中，输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝4C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝4C*R_t，R_t为尾部进行卷积的通道比例，将特征特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的第二逐点卷积单元中，输出得到特征/>将特征/>和特征/>相加得到特征/>将特征/>输入到HTBlock模块的第三HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第三HTConv单元的尾部分支中，输出得到特征/>将特征输入到HTBlock模块的第三HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝4C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝4C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的第三逐点卷积单元中，输出得到特征将特征/>和特征/>相加得到特征F₃。

e-5)改进的YOLOv5的骨干网络的第四分支由下采样模块、HTBlock模块构成，第四分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，第四分支的HTBlock模块由HTConv单元、逐点卷积单元构成，HTConv单元由头部分支、尾部分支、中间分支构成，头部分支依次由卷积层、正则化层、SiLU激活函数层构成，尾部分支依次由卷积层、正则化层、SiLU激活函数层构成，中间分支由恒等映射层构成，逐点卷积单元依次由卷积层、正则化层、SiLU激活函数层构成，将特征F₃输入到第四分支的下采样模块中，输出得到特征将特征/>输入到HTBlock模块的HTConv单元的头部分支中，输出得到特征/>特征/>的通道数为8C，将特征/>输入到HTBlock模块的HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝8C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝8C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的逐点卷积单元中，输出得到特征将特征/>与特征/>相加得到特征F₄。

在该实施例中，优选的，步骤e-2)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；步骤e-3)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、第一HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第一逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；第二HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第二逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；步骤e-4)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、第一HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第一逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；第二HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第二逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0，第三HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第三逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；步骤e-5)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0。

实施例5：

步骤g)包括如下步骤：

g-1)特征融合模块由第一下采样模块、自注意力单元、反向注意力模块、第二下采样模块构成。

g-2)特征融合模块的第一下采样模块由第一分支、第二分支构成，第一分支依次由最大池化层、卷积层构成，第二分支由最大池化层构成，将特征F₁输入到第一下采样模块的第一分支中，输出得到特征F₁′，将特征F₂输入到第一下采样模块的第二分支中，输出得到特征F₂′。特征F₁′、特征F₂′和特征F₃具有相同的维度。

g-3)特征融合模块的自注意力单元由深度可分离卷积层、自注意力机制构成，将特征F₁′输入到自注意力单元的深度可分离卷积层中，输出得到特征F₁′_dwc，将特征F₂′输入到自注意力单元的深度可分离卷积层中，输出得到特征F₂′_dwc，将特征F₃输入到自注意力单元的深度可分离卷积层中，输出得到特征F₃′_dwc，将特征F₁′_dwc、特征F₂′_dwc、特征F₃′_dwc分别输入到自注意力单元的自注意力机制中，分别输出得到特征F₁ ^self、特征特征/>将特征F₁ ^self、特征/>特征/>相加得到特征F^self，将特征F^self调整成为4C×H×W的特征F，H为特征F的高，W为特征F的宽。

g-4)特征融合模块的反向注意力模块由上采样层、反向注意力机制构成，将特征Z₄输入到上采样层中，输出得到特征Z₄′，将特征Z₄′输入到反向注意力机制中，输出得到特征Z₄″，将特征Z₄″和特征F相乘得到特征Z₄″′，将特征Z₄′与特征Z₄″′相加得到特征反向注意力机制由Sigmoid函数组成，然后再取反。反向注意力模块的上采样层采用的是最近邻插值方式。

g-5)特征融合模块的第二下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，将特征输入到第二下采样模块中，输出得到特征P₄。

在该实施例中，优选的，步骤g-2)中第一下采样模块的第一分支的卷积层的卷积核大小为3×3、步长为2、填充为1，第一分支的最大池化层的卷积核大小为3×3、步长为2、填充为1，第二分支的最大池化层的卷积核大小为3×3、步长为2、填充为1；步骤g-3)中特征融合模块的深度可分离卷积层的卷积核大小为d×d、步长为d、填充为0，d为特征F₁′_dwc、特征F₂′_dwc和特征F₃划分为Patch块的边长；步骤g-5)中第二下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1。

实施例6：

步骤j)包括如下步骤：

j-1)将特征P₂输入到YOLOv5的Head模块的第一卷积层中，得到预测结果张量G₂，将特征P₃输入到YOLOv5的Head模块的第二卷积层中，得到预测结果张量G₃，将特征P₄输入到YOLOv5的Head模块的第三卷积层中，得到预测结果张量G₄，预测结果张量G₂、预测结果张量G₃、预测结果张量G₄在通道维度上的形式为(5+N_class)×3，其中5表示其中t_x为YOLOv5网络预测的目标所在位置的框中心横坐标的偏移量，t_y为YOLOv5网络预测的目标所在位置的框中心纵坐标的偏移量，t_w为目标的宽缩放因子，t_h为目标的高缩放因子，o为置信度，N_class为高分辨率图像集合I的类别个数，3为不同比例的锚框个数。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进YOLOv5的高分辨率目标检测方法，其特征在于，包括如下步骤：

b)将高分辨率图像集合I划分为训练集I^t和验证集I^v，为训练集I^t中第i张图像，i∈{1,...,m}，m为训练集I^t中图像的数量，/>为验证集I^v中第i张图像，i∈{1,...,u}，u为验证集I^v中图像的数量；

c)将训练集I^t中的各个高分辨率图像和验证集I^v各个高分辨率图像分别进行预处理，得到预处理后的训练集h^t及预处理后的验证集h^v，为预处理后的训练集h^t中第i张预处理后的图像，/>为预处理后的验证集h^v中第i张预处理后的图像；

f)将特征F₄输入到YOLOv5的SPPF模块中，输出得到特征Z₄；

j)将特征P₂、特征P₃、特征P₄输入到YOLOv5的Head模块中进行多尺度预测，定位出目标在第i张高分辨率图像中的位置并识别出目标所属的类别；

步骤e)包括如下步骤：

e-2)改进的YOLOv5的骨干网络的第一分支由下采样模块、HTBlock模块构成，第一分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，第一分支的HTBlock模块由HTConv单元、逐点卷积单元构成，HTConv单元由头部分支、尾部分支、中间分支构成，头部分支依次由卷积层、正则化层、SiLU激活函数层构成，尾部分支依次由卷积层、正则化层、SiLU激活函数层构成，中间分支由恒等映射层构成，逐点卷积单元依次由卷积层、正则化层、SiLU激活函数层构成，将初始特征图T输入到第一分支的下采样模块中，输出得到特征特征/>的通道数为C，将特征/>输入到HTBlock模块的HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的逐点卷积单元中，输出得到特征/>将特征/>与特征/>相加得到特征F₁；

e-4)改进的YOLOv5的骨干网络的第三分支由下采样模块、HTBlock模块构成，第三分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，第三分支的HTBlock模块由第一HTConv单元、第一逐点卷积单元、第二HTConv单元、第二逐点卷积单元、第三HTConv单元、第三逐点卷积单元构成，第一HTConv单元、第二HTConv单元、第三HTConv单元均由头部分支、尾部分支、中间分支构成，头部分支依次由卷积层、正则化层、SiLU激活函数层构成，尾部分支依次由卷积层、正则化层、SiLU激活函数层构成，中间分支由恒等映射层构成，第一逐点卷积单元、第二逐点卷积单元、第三逐点卷积单元均依次由卷积层、正则化层、SiLU激活函数层构成，将特征F₂输入到第三分支的下采样模块中，输出得到特征特征/>的通道数为4C，将特征/>输入到HTBlock模块的第一HTConv单元的头部分支中，输出得到特征将特征/>输入到HTBlock模块的第一HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝4C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝4C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的第一逐点卷积单元中，输出得到特征将特征/>与特征/>相加得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝4C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝4C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的第二逐点卷积单元中，输出得到特征/>将特征/>和特征/>相加得到特征/>将特征输入到HTBlock模块的第三HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第三HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的第三HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝4C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝4C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征将特征/>输入到HTBlock模块的第三逐点卷积单元中，输出得到特征/>将特征和特征/>相加得到特征F₃；

e-5)改进的YOLOv5的骨干网络的第四分支由下采样模块、HTBlock模块构成，第四分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，第四分支的HTBlock模块由HTConv单元、逐点卷积单元构成，HTConv单元由头部分支、尾部分支、中间分支构成，头部分支依次由卷积层、正则化层、SiLU激活函数层构成，尾部分支依次由卷积层、正则化层、SiLU激活函数层构成，中间分支由恒等映射层构成，逐点卷积单元依次由卷积层、正则化层、SiLU激活函数层构成，将特征F₃输入到第四分支的下采样模块中，输出得到特征特征的通道数为8C，将特征/>输入到HTBlock模块的HTConv单元的头部分支中，输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的尾部分支中，输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的中间分支中，输出得到特征/>特征/>的通道数量为C_H，C_H＝8C*R_h，R_h为头部进行卷积的通道比例，特征/>的通道数量为C_T，C_T＝8C*R_t，R_t为尾部进行卷积的通道比例，将特征/>特征/>特征/>在通道维度上拼接操作，得到特征/>将特征/>输入到HTBlock模块的逐点卷积单元中，输出得到特征/>将特征/>与特征/>相加得到特征F₄。

2.根据权利要求1所述的基于改进YOLOv5的高分辨率目标检测方法，其特征在于：步骤b)中按照3:1的比例将高分辨率图像集合I划分为训练集I^t和验证集I^v。

3.根据权利要求1所述的基于改进YOLOv5的高分辨率目标检测方法，其特征在于，步骤c)包括如下步骤：

4.根据权利要求1所述的基于改进YOLOv5的高分辨率目标检测方法，其特征在于：步骤d)中第一下采样模块依次由卷积层、正则化层、SiLU激活函数层构成，第一下采样模块的卷积层的卷积核大小为6×6、步长为2、填充为2。

5.根据权利要求1所述的基于改进YOLOv5的高分辨率目标检测方法，其特征在于：步骤e-2)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；步骤e-3)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、第一HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第一逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；第二HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第二逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；步骤e-4)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、第一HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第一逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；第二HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第二逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0，第三HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，第三逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0；步骤e-5)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1，逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0。

6.根据权利要求1所述的基于改进YOLOv5的高分辨率目标检测方法，其特征在于，步骤g)包括如下步骤：

g-3)特征融合模块的自注意力单元由深度可分离卷积层、自注意力机制构成，将特征F₁′输入到自注意力单元的深度可分离卷积层中，输出得到特征F₁′_dwc，将特征F₂′输入到自注意力单元的深度可分离卷积层中，输出得到特征F₂′_dwc，将特征F₃输入到自注意力单元的深度可分离卷积层中，输出得到特征F₃′_dwc，将特征F₁′_dwc、特征F₂′_dwc、特征F₃′_dwc分别输入到自注意力单元的自注意力机制中，分别输出得到特征F₁ ^self、特征特征/>将特征特征/>特征/>相加得到特征F^self，将特征F^self调整成为4C×H×W的特征F，H为特征F的高，W为特征F的宽；

g-4)特征融合模块的反向注意力模块由上采样层、反向注意力机制构成，将特征Z₄输入到上采样层中，输出得到特征Z′₄，将特征Z′₄输入到反向注意力机制中，输出得到特征Z″₄，将特征Z″₄和特征F相乘得到特征Z″′₄，将特征Z′₄与特征Z″′₄相加得到特征

7.根据权利要求6所述的基于改进YOLOv5的高分辨率目标检测方法，其特征在于：步骤g-2)中第一下采样模块的第一分支的卷积层的卷积核大小为3×3、步长为2、填充为1，第一分支的最大池化层的卷积核大小为3×3、步长为2、填充为1，第二分支的最大池化层的卷积核大小为3×3、步长为2、填充为1；步骤g-3)中特征融合模块的深度可分离卷积层的卷积核大小为d×d、步长为d、填充为0，d为特征F₁′_dwc、特征F₂′_dwc和特征F₃划分为Patch块的边长；步骤g-5)中第二下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1。

8.根据权利要求1所述的基于改进YOLOv5的高分辨率目标检测方法，其特征在于，步骤j)包括如下步骤：