CN116363485B - 一种基于改进YOLOv5的高分辨率目标检测方法 - Google Patents
一种基于改进YOLOv5的高分辨率目标检测方法 Download PDFInfo
- Publication number
- CN116363485B CN116363485B CN202310574997.0A CN202310574997A CN116363485B CN 116363485 B CN116363485 B CN 116363485B CN 202310574997 A CN202310574997 A CN 202310574997A CN 116363485 B CN116363485 B CN 116363485B
- Authority
- CN
- China
- Prior art keywords
- branch
- feature
- convolution
- module
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 28
- 238000013507 mapping Methods 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 230000004913 activation Effects 0.000 claims description 54
- 238000012549 training Methods 0.000 claims description 35
- 238000010200 validation analysis Methods 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 claims description 3
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims 1
- 230000000750 progressive effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 37
- 238000012856 packing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
一种基于改进YOLOv5的高分辨率目标检测方法,通过HTBlock替代原来骨干网络(backbone)中的C3模块,利用特征映射中的冗余性,对特征图通道的头部和尾部进行卷积,中间通道保持不变,这样可以减少冗余计算,更有效的提取空间特征。通过新的特征融合模块,底层特征经过自注意力机制,更加注重特征图的重要部分,而高层特征通过反向注意力会注重以往忽略的部分,往往这个部分会包含丰富的细节特征。之后二者进行融合,得到的特征图既有高级语义信息又包含细节信息,这可以大大提升高分辨率目标检测的性能。
Description
技术领域
本发明涉及目标检测技术领域,具体涉及一种基于改进YOLOv5的高分辨率目标检测方法。
背景技术
目前,以深度学习为代表的人工智能算法凭借超大规模数据集以及强大的计算资源,在图像分类、目标检测等领域取得了出色的成果。在目标检测领域,许多学者提出了大量优秀的检测算法,这些算法低分辨率数据集能达到精度较高、速度较快的检测结果,并且逐步实现了实时性的检测。但是也存在一些问题,一方面,由于经过普通卷积得到的特征图存在大量的冗余,不可避免地会增加一些计算,降低模型运算效率;另一方面,随着各种成像设备像素的提升,获取高分辨率图片变得更加简单,高分辨率图像中往往包含更多的颜色、空间关系、纹理、边缘等细节特征,在目标检测领域中,经过连续的下采样,高分辨率图像中的小目标和细节信息会丢失,针对这一问题,以往的方法使用特征金字塔(FPN)及特征金字塔的变体将含有丰富细节信息但语义信息不足的低级特征和含有足够的语义信息但细节信息丢失的高级特征进行融合,由于语义差距的存在,简单的将低级特征和高级特征结合起来,会将有用的信息淹没在海量的无用信息中,无法得到信息丰富的特征。
发明内容
本发明为了克服以上技术的不足,提供了一种提高分辨率目标检测性能的方法。本发明克服其技术问题所采用的技术方案是:
一种基于改进YOLOv5的高分辨率目标检测方法,包括如下步骤:
a)获取n张高分辨率图像,形成原始的高分辨率图像集合I,I={I1,I2,...,Ii,...,In},Ii为第i张高分辨率图像,i∈{1,...,n};
b)将高分辨率图像集合I划分为训练集It和验证集Iv, 为训练集It中第i张图像,i∈{1,...,m},m为训练集It中图像的数量,/> 为验证集Iv中第i张图像,i∈{1,...,u},u为验证集Iv中图像的数量;
c)将训练集It中的各个高分辨率图像和验证集Iv各个高分辨率图像分别进行预处理,得到预处理后的训练集ht及预处理后的验证集hv, 为预处理后的训练集ht中第i张预处理后的图像,/> 为预处理后的验证集hv中第i张预处理后的图像;
d)将预处理后的训练集ht中第i张预处理后的图像输入到第一下采样模块中,得到初始特征图T;
e)将初始特征图T输入到改进的YOLOv5的骨干网络中,得到特征F1、特征F2、特征F3、特征F4;
f)将特征F4输入到YOLOv5的SPPF模块中,输出得到特征Z4;
g)将特征Z4、特征F1、特征F2、特征F3输入到特征融合模块中进行融合,得到融合后的特征P4;
h)将特征P4输入到YOLOv5 Neck的FPN模块中,将输出的上采样后特征分别于特征F1、特征F2、特征F3相加,分别得到特征Z1、特征Z2、特征Z3;
i)将特征Z1输入到YOLOv5 Neck的PAN模块中,将输出的下采样后特征分别于特征Z2、特征Z3相加,分别得到特征P2、特征P3;
j)将特征P2、特征P3、特征P4输入到YOLOv5的Head模块中进行多尺度预测,定位出目标在第i张高分辨率图像中的位置并识别出目标所属的类别。
优选的,步骤b)中按照3:1的比例将高分辨率图像集合I划分为训练集It和验证集Iv。
进一步的,步骤c)包括如下步骤:
c-1)使用标注软件Labellmg对训练集It中的各个高分辨率图像和验证集Iv各个高分辨率图像进行标注,标注信息包括目标的大小、位置、类别;
c-2)将训练集It中的各个高分辨率图像分辨率和验证集Iv各个高分辨率图像分辨率均统一缩放到640×640;
c-3)将缩放后的训练集It中的各个高分辨率图像和验证集Iv各个高分辨率图像依次进行随机剪裁、随机翻转操作进行数据增强操作,得到预处理后的训练集ht及预处理后的验证集hv。
优选的,步骤d)中第一下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第一下采样模块的卷积层的卷积核大小为6×6、步长为2、填充为2。
进一步的,步骤e)包括如下步骤:
e-1)改进的YOLOv5的骨干网络由第一分支、第二分支、第三分支、第四分支构成;
e-2)改进的YOLOv5的骨干网络的第一分支由下采样模块、HTBlock模块构成,第一分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第一分支的HTBlock模块由HTConv单元、逐点卷积单元构成,HTConv单元由头部分支、尾部分支、中间分支构成,头部分支依次由卷积层、正则化层、SiLU激活函数层构成,尾部分支依次由卷积层、正则化层、SiLU激活函数层构成,中间分支由恒等映射层构成,逐点卷积单元依次由卷积层、正则化层、SiLU激活函数层构成,将初始特征图T输入到第一分支的下采样模块中,输出得到特征特征/>的通道数为C,将特征/>输入到HTBlock模块的HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的尾部分支中,输出得到特征将特征/>输入到HTBlock模块的HTConv单元的中间分支中,输出得到特征/>特征的通道数量为CH,CH=C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的逐点卷积单元中,输出得到特征将特征/>与特征/>相加得到特征F1;
e-3)改进的YOLOv5的骨干网络的第二分支由下采样模块、HTBlock模块构成,第二分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第二分支的HTBlock模块由第一HTConv单元、第一逐点卷积单元、第二HTConv单元、第二逐点卷积单元构成,第一HTConv单元和第二HTConv单元均由头部分支、尾部分支、中间分支构成,头部分支依次由卷积层、正则化层、SiLU激活函数层构成,尾部分支依次由卷积层、正则化层、SiLU激活函数层构成,中间分支由恒等映射层构成,第一逐点卷积单元和第二逐点卷积单元均依次由卷积层、正则化层、SiLU激活函数层构成,将特征F1输入到第二分支的下采样模块中,输出得到特征特征/>的通道数为2C,将特征/>输入到HTBlock模块的第一HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=2C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=2C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的第一逐点卷积单元中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=2C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=2C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征将特征/>输入到HTBlock模块的第二逐点卷积单元中,输出得到特征/>将特征和特征/>相加得到特征F2;
e-4)改进的YOLOv5的骨干网络的第三分支由下采样模块、HTBlock模块构成,第三分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第三分支的HTBlock模块由第一HTConv单元、第一逐点卷积单元、第二HTConv单元、第二逐点卷积单元、第三HTConv单元、第三逐点卷积单元构成,第一HTConv单元、第二HTConv单元、第三HTConv单元均由头部分支、尾部分支、中间分支构成,头部分支依次由卷积层、正则化层、SiLU激活函数层构成,尾部分支依次由卷积层、正则化层、SiLU激活函数层构成,中间分支由恒等映射层构成,第一逐点卷积单元、第二逐点卷积单元、第三逐点卷积单元均依次由卷积层、正则化层、SiLU激活函数层构成,将特征F2输入到第三分支的下采样模块中,输出得到特征特征/>的通道数为4C,将特征/>输入到HTBlock模块的第一HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=4C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=4C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的第一逐点卷积单元中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=4C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=4C*Rt,Rt为尾部进行卷积的通道比例,将特征特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的第二逐点卷积单元中,输出得到特征/>将特征/>和特征/>相加得到特征/>将特征/>输入到HTBlock模块的第三HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第三HTConv单元的尾部分支中,输出得到特征/>将特征输入到HTBlock模块的第三HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=4C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=4C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的第三逐点卷积单元中,输出得到特征将特征/>和特征/>相加得到特征F3;
e-5)改进的YOLOv5的骨干网络的第四分支由下采样模块、HTBlock模块构成,第四分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第四分支的HTBlock模块由HTConv单元、逐点卷积单元构成,HTConv单元由头部分支、尾部分支、中间分支构成,头部分支依次由卷积层、正则化层、SiLU激活函数层构成,尾部分支依次由卷积层、正则化层、SiLU激活函数层构成,中间分支由恒等映射层构成,逐点卷积单元依次由卷积层、正则化层、SiLU激活函数层构成,将特征F3输入到第四分支的下采样模块中,输出得到特征特征/>的通道数为8C,将特征/>输入到HTBlock模块的HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=8C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=8C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的逐点卷积单元中,输出得到特征/>将特征/>与特征/>相加得到特征F4。
优选的,步骤e-2)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;步骤e-3)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、第一HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第一逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;第二HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第二逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;步骤e-4)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、第一HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第一逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;第二HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第二逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0,第三HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第三逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;步骤e-5)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0。
进一步的,步骤g)包括如下步骤:
g-1)特征融合模块由第一下采样模块、自注意力单元、反向注意力模块、第二下采样模块构成;
g-2)特征融合模块的第一下采样模块由第一分支、第二分支构成,第一分支依次由最大池化层、卷积层构成,第二分支由最大池化层构成,将特征F1输入到第一下采样模块的第一分支中,输出得到特征F1′,将特征F2输入到第一下采样模块的第二分支中,输出得到特征F2′;
g-3)特征融合模块的自注意力单元由深度可分离卷积层、自注意力机制构成,将特征F1′输入到自注意力单元的深度可分离卷积层中,输出得到特征F1′dwc,将特征F2′输入到自注意力单元的深度可分离卷积层中,输出得到特征F2′dwc,将特征F3输入到自注意力单元的深度可分离卷积层中,输出得到特征F3′dwc,将特征F1′dwc、特征F2′dwc、特征F3′dwc分别输入到自注意力单元的自注意力机制中,分别输出得到特征F1 self、特征特征/>将特征F1 self、特征/>特征/>相加得到特征Fself,将特征Fself调整成为4C×H×W的特征F,H为特征F的高,W为特征F的宽;
g-4)特征融合模块的反向注意力模块由上采样层、反向注意力机制构成,将特征Z4输入到上采样层中,输出得到特征Z4′,将特征Z4′输入到反向注意力机制中,输出得到特征Z4″,将特征Z4″和特征F相乘得到特征Z4″′,将特征Z4′与特征Z4″′相加得到特征g-5)特征融合模块的第二下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,将特征/>输入到第二下采样模块中,输出得到特征P4。
优选的,步骤g-2)中第一下采样模块的第一分支的卷积层的卷积核大小为3×3、步长为2、填充为1,第一分支的最大池化层的卷积核大小为3×3、步长为2、填充为1,第二分支的最大池化层的卷积核大小为3×3、步长为2、填充为1;步骤g-3)中特征融合模块的深度可分离卷积层的卷积核大小为d×d、步长为d、填充为0,d为特征F1′dwc、特征F2′dwc和特征F3划分为Patch块的边长;步骤g-5)中第二下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1。进一步的,步骤j)包括如下步骤:
j-1)将特征P2输入到YOLOv5的Head模块的第一卷积层中,得到预测结果张量G2,将特征P3输入到YOLOv5的Head模块的第二卷积层中,得到预测结果张量G3,将特征P4输入到YOLOv5的Head模块的第三卷积层中,得到预测结果张量G4,预测结果张量G2、预测结果张量G3、预测结果张量G4在通道维度上的形式为(5+Nclass)×3,其中5表示其中tx为YOLOv5网络预测的目标所在位置的框中心横坐标的偏移量,ty为YOLOv5网络预测的目标所在位置的框中心纵坐标的偏移量,tw为目标的宽缩放因子,th为目标的高缩放因子,o为置信度,Nclass为高分辨率图像集合I的类别个数,3为不同比例的锚框个数;
j-2)将预测结果张量G2、预测结果张量G3、预测结果张量G4中的经过缩放操作,映射回第i张高分辨率图像,根据映射回的位置信息在第i张高分辨率图像上画框,完成目标的定位识别。
本发明的有益效果是:通过HTBlock替代原来骨干网络(backbone)中的C3模块,利用特征映射中的冗余性,对特征图通道的头部和尾部进行卷积,中间通道保持不变,这样可以减少冗余计算,更有效的提取空间特征。通过新的特征融合模块,底层特征经过自注意力机制,更加注重特征图的重要部分,而高层特征通过反向注意力会注重以往忽略的部分,往往这个部分会包含丰富的细节特征。之后二者进行融合,得到的特征图既有高级语义信息又包含细节信息,这可以大大提升高分辨率目标检测的性能。
附图说明
图1为本发明的方法流程图
图2为本发明的改进的YOLOv5的骨干网络的结构图;
图3为本发明的HTBlock模块图;
图4为本发明的特征融合模块的结构图。
具体实施方式
下面结合附图1至附图4对本发明做进一步说明。
一种基于改进YOLOv5的高分辨率目标检测方法,包括如下步骤:
a)获取n张高分辨率图像,形成原始的高分辨率图像集合I,I={I1,I2,...,Ii,...,In},Ii为第i张高分辨率图像,i∈{1,...,n}。
b)将高分辨率图像集合I划分为训练集It和验证集Iv, 为训练集It中第i张图像,i∈{1,...,m},m为训练集It中图像的数量,/> 为验证集Iv中第i张图像,i∈{1,...,u},u为验证集Iv中图像的数量。
c)将训练集It中的各个高分辨率图像和验证集Iv各个高分辨率图像分别进行预处理,得到预处理后的训练集ht及预处理后的验证集hv, 为预处理后的训练集ht中第i张预处理后的图像,/> 为预处理后的验证集hv中第i张预处理后的图像。
d)将预处理后的训练集ht中第i张预处理后的图像输入到第一下采样模块中,得到初始特征图T。
e)将初始特征图T输入到改进的YOLOv5的骨干网络中,得到特征F1、特征F2、特征F3、特征F4。
f)将特征F4输入到YOLOv5的SPPF模块中,输出得到特征Z4。
g)将特征Z4、特征F1、特征F2、特征F3输入到特征融合模块中进行融合,得到融合后的特征P4。
h)将特征P4输入到YOLOv5 Neck的FPN模块中,将输出的上采样后特征分别于特征F1、特征F2、特征F3相加,分别得到特征Z1、特征Z2、特征Z3。i)将特征Z1输入到YOLOv5 Neck的PAN模块中,将输出的下采样后特征分别于特征Z2、特征Z3相加,分别得到特征P2、特征P3。
j)将特征P2、特征P3、特征P4输入到YOLOv5的Head模块中进行多尺度预测,定位出目标在第i张高分辨率图像中的位置并识别出目标所属的类别。
提出HTBlock替代原来骨干网络(backbone)中的C3模块,利用特征映射中的冗余性,对特征图通道的头部和尾部进行卷积,中间通道保持不变,这样可以减少冗余计算,更有效的提取空间特征;另一方面,本发明提出了新的特征融合模块,底层特征经过自注意力机制,更加注重特征图的重要部分,而高层特征通过反向注意力会注重以往忽略的部分,往往这个部分会包含丰富的细节特征。之后二者进行融合,得到的特征图既有高级语义信息又包含细节信息,这可以大大提升高分辨率目标检测的性能。
实施例1:
步骤b)中按照3:1的比例将高分辨率图像集合I划分为训练集It和验证集Iv。
实施例2:
步骤c)包括如下步骤:
c-1)使用标注软件Labellmg对训练集It中的各个高分辨率图像和验证集Iv各个高分辨率图像进行标注,标注信息包括目标的大小、位置、类别。
c-2)将训练集It中的各个高分辨率图像分辨率和验证集Iv各个高分辨率图像分辨率均统一缩放到640×640。
c-3)将缩放后的训练集It中的各个高分辨率图像和验证集Iv各个高分辨率图像依次进行随机剪裁、随机翻转操作进行数据增强操作,得到预处理后的训练集ht及预处理后的验证集hv。
实施例3:
步骤d)中第一下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第一下采样模块的卷积层的卷积核大小为6×6、步长为2、填充为2。
实施例4:
步骤e)包括如下步骤:
e-1)改进的YOLOv5的骨干网络由第一分支、第二分支、第三分支、第四分支构成。
e-2)改进的YOLOv5的骨干网络的第一分支由下采样模块、HTBlock模块构成,第一分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第一分支的HTBlock模块由HTConv单元、逐点卷积单元构成,HTConv单元由头部分支、尾部分支、中间分支构成,头部分支依次由卷积层、正则化层、SiLU激活函数层构成,尾部分支依次由卷积层、正则化层、SiLU激活函数层构成,中间分支由恒等映射层构成,逐点卷积单元依次由卷积层、正则化层、SiLU激活函数层构成,将初始特征图T输入到第一分支的下采样模块中,输出得到特征特征/>的通道数为C,将特征/>输入到HTBlock模块的HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的尾部分支中,输出得到特征将特征/>输入到HTBlock模块的HTConv单元的中间分支中,输出得到特征/>特征的通道数量为CH,CH=C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的逐点卷积单元中,输出得到特征将特征/>与特征/>相加得到特征F1。
e-3)改进的YOLOv5的骨干网络的第二分支由下采样模块、HTBlock模块构成,第二分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第二分支的HTBlock模块由第一HTConv单元、第一逐点卷积单元、第二HTConv单元、第二逐点卷积单元构成,第一HTConv单元和第二HTConv单元均由头部分支、尾部分支、中间分支构成,头部分支依次由卷积层、正则化层、SiLU激活函数层构成,尾部分支依次由卷积层、正则化层、SiLU激活函数层构成,中间分支由恒等映射层构成,第一逐点卷积单元和第二逐点卷积单元均依次由卷积层、正则化层、SiLU激活函数层构成,将特征F1输入到第二分支的下采样模块中,输出得到特征特征/>的通道数为2C,将特征/>输入到HTBlock模块的第一HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=2C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=2C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的第一逐点卷积单元中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=2C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=2C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的第二逐点卷积单元中,输出得到特征/>将特征/>和特征/>相加得到特征F2。
e-4)改进的YOLOv5的骨干网络的第三分支由下采样模块、HTBlock模块构成,第三分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第三分支的HTBlock模块由第一HTConv单元、第一逐点卷积单元、第二HTConv单元、第二逐点卷积单元、第三HTConv单元、第三逐点卷积单元构成,第一HTConv单元、第二HTConv单元、第三HTConv单元均由头部分支、尾部分支、中间分支构成,头部分支依次由卷积层、正则化层、SiLU激活函数层构成,尾部分支依次由卷积层、正则化层、SiLU激活函数层构成,中间分支由恒等映射层构成,第一逐点卷积单元、第二逐点卷积单元、第三逐点卷积单元均依次由卷积层、正则化层、SiLU激活函数层构成,将特征F2输入到第三分支的下采样模块中,输出得到特征特征/>的通道数为4C,将特征/>输入到HTBlock模块的第一HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=4C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=4C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的第一逐点卷积单元中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=4C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=4C*Rt,Rt为尾部进行卷积的通道比例,将特征特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的第二逐点卷积单元中,输出得到特征/>将特征/>和特征/>相加得到特征/>将特征/>输入到HTBlock模块的第三HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第三HTConv单元的尾部分支中,输出得到特征/>将特征输入到HTBlock模块的第三HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=4C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=4C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的第三逐点卷积单元中,输出得到特征将特征/>和特征/>相加得到特征F3。
e-5)改进的YOLOv5的骨干网络的第四分支由下采样模块、HTBlock模块构成,第四分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第四分支的HTBlock模块由HTConv单元、逐点卷积单元构成,HTConv单元由头部分支、尾部分支、中间分支构成,头部分支依次由卷积层、正则化层、SiLU激活函数层构成,尾部分支依次由卷积层、正则化层、SiLU激活函数层构成,中间分支由恒等映射层构成,逐点卷积单元依次由卷积层、正则化层、SiLU激活函数层构成,将特征F3输入到第四分支的下采样模块中,输出得到特征将特征/>输入到HTBlock模块的HTConv单元的头部分支中,输出得到特征/>特征/>的通道数为8C,将特征/>输入到HTBlock模块的HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=8C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=8C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的逐点卷积单元中,输出得到特征将特征/>与特征/>相加得到特征F4。
在该实施例中,优选的,步骤e-2)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;步骤e-3)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、第一HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第一逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;第二HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第二逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;步骤e-4)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、第一HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第一逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;第二HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第二逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0,第三HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第三逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;步骤e-5)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0。
实施例5:
步骤g)包括如下步骤:
g-1)特征融合模块由第一下采样模块、自注意力单元、反向注意力模块、第二下采样模块构成。
g-2)特征融合模块的第一下采样模块由第一分支、第二分支构成,第一分支依次由最大池化层、卷积层构成,第二分支由最大池化层构成,将特征F1输入到第一下采样模块的第一分支中,输出得到特征F1′,将特征F2输入到第一下采样模块的第二分支中,输出得到特征F2′。特征F1′、特征F2′和特征F3具有相同的维度。
g-3)特征融合模块的自注意力单元由深度可分离卷积层、自注意力机制构成,将特征F1′输入到自注意力单元的深度可分离卷积层中,输出得到特征F1′dwc,将特征F2′输入到自注意力单元的深度可分离卷积层中,输出得到特征F2′dwc,将特征F3输入到自注意力单元的深度可分离卷积层中,输出得到特征F3′dwc,将特征F1′dwc、特征F2′dwc、特征F3′dwc分别输入到自注意力单元的自注意力机制中,分别输出得到特征F1 self、特征特征/>将特征F1 self、特征/>特征/>相加得到特征Fself,将特征Fself调整成为4C×H×W的特征F,H为特征F的高,W为特征F的宽。
g-4)特征融合模块的反向注意力模块由上采样层、反向注意力机制构成,将特征Z4输入到上采样层中,输出得到特征Z4′,将特征Z4′输入到反向注意力机制中,输出得到特征Z4″,将特征Z4″和特征F相乘得到特征Z4″′,将特征Z4′与特征Z4″′相加得到特征反向注意力机制由Sigmoid函数组成,然后再取反。反向注意力模块的上采样层采用的是最近邻插值方式。
g-5)特征融合模块的第二下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,将特征输入到第二下采样模块中,输出得到特征P4。
在该实施例中,优选的,步骤g-2)中第一下采样模块的第一分支的卷积层的卷积核大小为3×3、步长为2、填充为1,第一分支的最大池化层的卷积核大小为3×3、步长为2、填充为1,第二分支的最大池化层的卷积核大小为3×3、步长为2、填充为1;步骤g-3)中特征融合模块的深度可分离卷积层的卷积核大小为d×d、步长为d、填充为0,d为特征F1′dwc、特征F2′dwc和特征F3划分为Patch块的边长;步骤g-5)中第二下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1。
实施例6:
步骤j)包括如下步骤:
j-1)将特征P2输入到YOLOv5的Head模块的第一卷积层中,得到预测结果张量G2,将特征P3输入到YOLOv5的Head模块的第二卷积层中,得到预测结果张量G3,将特征P4输入到YOLOv5的Head模块的第三卷积层中,得到预测结果张量G4,预测结果张量G2、预测结果张量G3、预测结果张量G4在通道维度上的形式为(5+Nclass)×3,其中5表示其中tx为YOLOv5网络预测的目标所在位置的框中心横坐标的偏移量,ty为YOLOv5网络预测的目标所在位置的框中心纵坐标的偏移量,tw为目标的宽缩放因子,th为目标的高缩放因子,o为置信度,Nclass为高分辨率图像集合I的类别个数,3为不同比例的锚框个数。
j-2)将预测结果张量G2、预测结果张量G3、预测结果张量G4中的经过缩放操作,映射回第i张高分辨率图像,根据映射回的位置信息在第i张高分辨率图像上画框,完成目标的定位识别。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于改进YOLOv5的高分辨率目标检测方法,其特征在于,包括如下步骤:
a)获取n张高分辨率图像,形成原始的高分辨率图像集合I,I={I1,I2,...,Ii,...,In},Ii为第i张高分辨率图像,i∈{1,...,n};
b)将高分辨率图像集合I划分为训练集It和验证集Iv,为训练集It中第i张图像,i∈{1,...,m},m为训练集It中图像的数量,/>为验证集Iv中第i张图像,i∈{1,...,u},u为验证集Iv中图像的数量;
c)将训练集It中的各个高分辨率图像和验证集Iv各个高分辨率图像分别进行预处理,得到预处理后的训练集ht及预处理后的验证集hv,为预处理后的训练集ht中第i张预处理后的图像,/>为预处理后的验证集hv中第i张预处理后的图像;
d)将预处理后的训练集ht中第i张预处理后的图像输入到第一下采样模块中,得到初始特征图T;
e)将初始特征图T输入到改进的YOLOv5的骨干网络中,得到特征F1、特征F2、特征F3、特征F4;
f)将特征F4输入到YOLOv5的SPPF模块中,输出得到特征Z4;
g)将特征Z4、特征F1、特征F2、特征F3输入到特征融合模块中进行融合,得到融合后的特征P4;
h)将特征P4输入到YOLOv5 Neck的FPN模块中,将输出的上采样后特征分别于特征F1、特征F2、特征F3相加,分别得到特征Z1、特征Z2、特征Z3;
i)将特征Z1输入到YOLOv5 Neck的PAN模块中,将输出的下采样后特征分别于特征Z2、特征Z3相加,分别得到特征P2、特征P3;
j)将特征P2、特征P3、特征P4输入到YOLOv5的Head模块中进行多尺度预测,定位出目标在第i张高分辨率图像中的位置并识别出目标所属的类别;
步骤e)包括如下步骤:
e-1)改进的YOLOv5的骨干网络由第一分支、第二分支、第三分支、第四分支构成;
e-2)改进的YOLOv5的骨干网络的第一分支由下采样模块、HTBlock模块构成,第一分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第一分支的HTBlock模块由HTConv单元、逐点卷积单元构成,HTConv单元由头部分支、尾部分支、中间分支构成,头部分支依次由卷积层、正则化层、SiLU激活函数层构成,尾部分支依次由卷积层、正则化层、SiLU激活函数层构成,中间分支由恒等映射层构成,逐点卷积单元依次由卷积层、正则化层、SiLU激活函数层构成,将初始特征图T输入到第一分支的下采样模块中,输出得到特征特征/>的通道数为C,将特征/>输入到HTBlock模块的HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的逐点卷积单元中,输出得到特征/>将特征/>与特征/>相加得到特征F1;
e-3)改进的YOLOv5的骨干网络的第二分支由下采样模块、HTBlock模块构成,第二分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第二分支的HTBlock模块由第一HTConv单元、第一逐点卷积单元、第二HTConv单元、第二逐点卷积单元构成,第一HTConv单元和第二HTConv单元均由头部分支、尾部分支、中间分支构成,头部分支依次由卷积层、正则化层、SiLU激活函数层构成,尾部分支依次由卷积层、正则化层、SiLU激活函数层构成,中间分支由恒等映射层构成,第一逐点卷积单元和第二逐点卷积单元均依次由卷积层、正则化层、SiLU激活函数层构成,将特征F1输入到第二分支的下采样模块中,输出得到特征特征/>的通道数为2C,将特征/>输入到HTBlock模块的第一HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=2C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=2C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的第一逐点卷积单元中,输出得到特征/>将特征/>与特征/>相加得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=2C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=2C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征将特征/>输入到HTBlock模块的第二逐点卷积单元中,输出得到特征/>将特征和特征/>相加得到特征F2;
e-4)改进的YOLOv5的骨干网络的第三分支由下采样模块、HTBlock模块构成,第三分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第三分支的HTBlock模块由第一HTConv单元、第一逐点卷积单元、第二HTConv单元、第二逐点卷积单元、第三HTConv单元、第三逐点卷积单元构成,第一HTConv单元、第二HTConv单元、第三HTConv单元均由头部分支、尾部分支、中间分支构成,头部分支依次由卷积层、正则化层、SiLU激活函数层构成,尾部分支依次由卷积层、正则化层、SiLU激活函数层构成,中间分支由恒等映射层构成,第一逐点卷积单元、第二逐点卷积单元、第三逐点卷积单元均依次由卷积层、正则化层、SiLU激活函数层构成,将特征F2输入到第三分支的下采样模块中,输出得到特征特征/>的通道数为4C,将特征/>输入到HTBlock模块的第一HTConv单元的头部分支中,输出得到特征将特征/>输入到HTBlock模块的第一HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第一HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=4C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=4C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的第一逐点卷积单元中,输出得到特征将特征/>与特征/>相加得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第二HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=4C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=4C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的第二逐点卷积单元中,输出得到特征/>将特征/>和特征/>相加得到特征/>将特征输入到HTBlock模块的第三HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第三HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的第三HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=4C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=4C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征将特征/>输入到HTBlock模块的第三逐点卷积单元中,输出得到特征/>将特征和特征/>相加得到特征F3;
e-5)改进的YOLOv5的骨干网络的第四分支由下采样模块、HTBlock模块构成,第四分支的下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第四分支的HTBlock模块由HTConv单元、逐点卷积单元构成,HTConv单元由头部分支、尾部分支、中间分支构成,头部分支依次由卷积层、正则化层、SiLU激活函数层构成,尾部分支依次由卷积层、正则化层、SiLU激活函数层构成,中间分支由恒等映射层构成,逐点卷积单元依次由卷积层、正则化层、SiLU激活函数层构成,将特征F3输入到第四分支的下采样模块中,输出得到特征特征的通道数为8C,将特征/>输入到HTBlock模块的HTConv单元的头部分支中,输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的尾部分支中,输出得到特征/>将特征/>输入到HTBlock模块的HTConv单元的中间分支中,输出得到特征/>特征/>的通道数量为CH,CH=8C*Rh,Rh为头部进行卷积的通道比例,特征/>的通道数量为CT,CT=8C*Rt,Rt为尾部进行卷积的通道比例,将特征/>特征/>特征/>在通道维度上拼接操作,得到特征/>将特征/>输入到HTBlock模块的逐点卷积单元中,输出得到特征/>将特征/>与特征/>相加得到特征F4。
2.根据权利要求1所述的基于改进YOLOv5的高分辨率目标检测方法,其特征在于:步骤b)中按照3:1的比例将高分辨率图像集合I划分为训练集It和验证集Iv。
3.根据权利要求1所述的基于改进YOLOv5的高分辨率目标检测方法,其特征在于,步骤c)包括如下步骤:
c-1)使用标注软件Labellmg对训练集It中的各个高分辨率图像和验证集Iv各个高分辨率图像进行标注,标注信息包括目标的大小、位置、类别;
c-2)将训练集It中的各个高分辨率图像分辨率和验证集Iv各个高分辨率图像分辨率均统一缩放到640×640;
c-3)将缩放后的训练集It中的各个高分辨率图像和验证集Iv各个高分辨率图像依次进行随机剪裁、随机翻转操作进行数据增强操作,得到预处理后的训练集ht及预处理后的验证集hv。
4.根据权利要求1所述的基于改进YOLOv5的高分辨率目标检测方法,其特征在于:步骤d)中第一下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,第一下采样模块的卷积层的卷积核大小为6×6、步长为2、填充为2。
5.根据权利要求1所述的基于改进YOLOv5的高分辨率目标检测方法,其特征在于:步骤e-2)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;步骤e-3)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、第一HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第一逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;第二HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第二逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;步骤e-4)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、第一HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第一逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;第二HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第二逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0,第三HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,第三逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0;步骤e-5)中下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1、HTConv单元的头部分支和尾部分支的卷积层的卷积核大小均为3×3、步长均为1、填充为1,逐点卷积单元的卷积层的卷积核大小为1×1、步长为1、填充为0。
6.根据权利要求1所述的基于改进YOLOv5的高分辨率目标检测方法,其特征在于,步骤g)包括如下步骤:
g-1)特征融合模块由第一下采样模块、自注意力单元、反向注意力模块、第二下采样模块构成;
g-2)特征融合模块的第一下采样模块由第一分支、第二分支构成,第一分支依次由最大池化层、卷积层构成,第二分支由最大池化层构成,将特征F1输入到第一下采样模块的第一分支中,输出得到特征F1′,将特征F2输入到第一下采样模块的第二分支中,输出得到特征F2′;
g-3)特征融合模块的自注意力单元由深度可分离卷积层、自注意力机制构成,将特征F1′输入到自注意力单元的深度可分离卷积层中,输出得到特征F1′dwc,将特征F2′输入到自注意力单元的深度可分离卷积层中,输出得到特征F2′dwc,将特征F3输入到自注意力单元的深度可分离卷积层中,输出得到特征F3′dwc,将特征F1′dwc、特征F2′dwc、特征F3′dwc分别输入到自注意力单元的自注意力机制中,分别输出得到特征F1 self、特征特征/>将特征特征/>特征/>相加得到特征Fself,将特征Fself调整成为4C×H×W的特征F,H为特征F的高,W为特征F的宽;
g-4)特征融合模块的反向注意力模块由上采样层、反向注意力机制构成,将特征Z4输入到上采样层中,输出得到特征Z′4,将特征Z′4输入到反向注意力机制中,输出得到特征Z″4,将特征Z″4和特征F相乘得到特征Z″′4,将特征Z′4与特征Z″′4相加得到特征
g-5)特征融合模块的第二下采样模块依次由卷积层、正则化层、SiLU激活函数层构成,将特征输入到第二下采样模块中,输出得到特征P4。
7.根据权利要求6所述的基于改进YOLOv5的高分辨率目标检测方法,其特征在于:步骤g-2)中第一下采样模块的第一分支的卷积层的卷积核大小为3×3、步长为2、填充为1,第一分支的最大池化层的卷积核大小为3×3、步长为2、填充为1,第二分支的最大池化层的卷积核大小为3×3、步长为2、填充为1;步骤g-3)中特征融合模块的深度可分离卷积层的卷积核大小为d×d、步长为d、填充为0,d为特征F1′dwc、特征F2′dwc和特征F3划分为Patch块的边长;步骤g-5)中第二下采样模块的卷积层的卷积核大小为3×3、步长为2、填充为1。
8.根据权利要求1所述的基于改进YOLOv5的高分辨率目标检测方法,其特征在于,步骤j)包括如下步骤:
j-1)将特征P2输入到YOLOv5的Head模块的第一卷积层中,得到预测结果张量G2,将特征P3输入到YOLOv5的Head模块的第二卷积层中,得到预测结果张量G3,将特征P4输入到YOLOv5的Head模块的第三卷积层中,得到预测结果张量G4,预测结果张量G2、预测结果张量G3、预测结果张量G4在通道维度上的形式为(5+Nclass)×3,其中5表示其中tx为YOLOv5网络预测的目标所在位置的框中心横坐标的偏移量,ty为YOLOv5网络预测的目标所在位置的框中心纵坐标的偏移量,tw为目标的宽缩放因子,th为目标的高缩放因子,o为置信度,Nclass为高分辨率图像集合I的类别个数,3为不同比例的锚框个数;
j-2)将预测结果张量G2、预测结果张量G3、预测结果张量G4中的经过缩放操作,映射回第i张高分辨率图像,根据映射回的位置信息在第i张高分辨率图像上画框,完成目标的定位识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310574997.0A CN116363485B (zh) | 2023-05-22 | 2023-05-22 | 一种基于改进YOLOv5的高分辨率目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310574997.0A CN116363485B (zh) | 2023-05-22 | 2023-05-22 | 一种基于改进YOLOv5的高分辨率目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116363485A CN116363485A (zh) | 2023-06-30 |
CN116363485B true CN116363485B (zh) | 2024-03-12 |
Family
ID=86938160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310574997.0A Active CN116363485B (zh) | 2023-05-22 | 2023-05-22 | 一种基于改进YOLOv5的高分辨率目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116363485B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381784A (zh) * | 2020-11-12 | 2021-02-19 | 国网浙江省电力有限公司信息通信分公司 | 一种基于多光谱图像的设备检测系统 |
CN112464912A (zh) * | 2020-12-22 | 2021-03-09 | 杭州电子科技大学 | 基于YOLO-RGGNet的机器人端人脸检测方法 |
WO2022105143A1 (zh) * | 2020-11-18 | 2022-05-27 | 淮阴工学院 | 一种轻量级的fire-det火焰检测方法及系统 |
CN114612835A (zh) * | 2022-03-15 | 2022-06-10 | 中国科学院计算技术研究所 | 一种基于YOLOv5网络的无人机目标检测模型 |
CN114881987A (zh) * | 2022-05-23 | 2022-08-09 | 浙江理工大学 | 基于改进YOLOv5的热压导光板缺陷可视化检测方法 |
CN115187544A (zh) * | 2022-07-07 | 2022-10-14 | 浙江理工大学 | 基于DR-RSBU-YOLOv5的织物瑕疵检测方法 |
CN115577720A (zh) * | 2022-09-19 | 2023-01-06 | 内蒙古工业大学 | 一种基于深度残差收缩网络和seq2seq的蒙汉机器翻译方法 |
WO2023000244A1 (zh) * | 2021-07-22 | 2023-01-26 | 深圳高性能医疗器械国家研究院有限公司 | 一种图像处理方法、系统及其应用 |
CN115690675A (zh) * | 2022-10-12 | 2023-02-03 | 大连海洋大学 | 基于通道非降维注意力机制与改进YOLOv5的ESB-YOLO模型养殖鱼群检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007080597A2 (en) * | 2006-01-16 | 2007-07-19 | Compugen Ltd. | Polynucleotide and polypeptide sequences and methods for diagnosis |
US11830246B2 (en) * | 2020-05-01 | 2023-11-28 | CACI, Inc.—Federal | Systems and methods for extracting and vectorizing features of satellite imagery |
US20210383188A1 (en) * | 2020-06-03 | 2021-12-09 | Salesforce.Com, Inc. | System and method for differential architecture search for neural networks |
-
2023
- 2023-05-22 CN CN202310574997.0A patent/CN116363485B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381784A (zh) * | 2020-11-12 | 2021-02-19 | 国网浙江省电力有限公司信息通信分公司 | 一种基于多光谱图像的设备检测系统 |
WO2022105143A1 (zh) * | 2020-11-18 | 2022-05-27 | 淮阴工学院 | 一种轻量级的fire-det火焰检测方法及系统 |
CN112464912A (zh) * | 2020-12-22 | 2021-03-09 | 杭州电子科技大学 | 基于YOLO-RGGNet的机器人端人脸检测方法 |
WO2023000244A1 (zh) * | 2021-07-22 | 2023-01-26 | 深圳高性能医疗器械国家研究院有限公司 | 一种图像处理方法、系统及其应用 |
CN114612835A (zh) * | 2022-03-15 | 2022-06-10 | 中国科学院计算技术研究所 | 一种基于YOLOv5网络的无人机目标检测模型 |
CN114881987A (zh) * | 2022-05-23 | 2022-08-09 | 浙江理工大学 | 基于改进YOLOv5的热压导光板缺陷可视化检测方法 |
CN115187544A (zh) * | 2022-07-07 | 2022-10-14 | 浙江理工大学 | 基于DR-RSBU-YOLOv5的织物瑕疵检测方法 |
CN115577720A (zh) * | 2022-09-19 | 2023-01-06 | 内蒙古工业大学 | 一种基于深度残差收缩网络和seq2seq的蒙汉机器翻译方法 |
CN115690675A (zh) * | 2022-10-12 | 2023-02-03 | 大连海洋大学 | 基于通道非降维注意力机制与改进YOLOv5的ESB-YOLO模型养殖鱼群检测方法 |
Non-Patent Citations (4)
Title |
---|
Vehicle Detection Based on Improved Yolov5s Algorithm;Zhi-Jie Liu;《 2022 3rd International Conference on Information Science, Parallel and Distributed Systems (ISPDS)》;全文 * |
基于深度卷积神经网络的遥感图像场景分类;芦国军;陈丽芳;;太原师范学院学报(自然科学版)(第01期);全文 * |
多尺度特征增强融合的实时航拍车辆检测算法;杨建秀;谢雪梅;金星;杨文哲;石光明;;中国体视学与图像分析;20191225(第04期);全文 * |
道路交叉口自动检测算法的研究;王龙飞;刘智;金飞;王番;;测绘科学;20200520(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116363485A (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN110276354B (zh) | 一种高分辨率街景图片语义分割训练与实时分割方法 | |
CN111401436B (zh) | 一种融合网络和双通道注意力机制的街景图像分割方法 | |
CN115601549A (zh) | 基于可变形卷积和自注意力模型的河湖遥感图像分割方法 | |
CN113888547A (zh) | 基于gan网络的无监督域自适应遥感道路语义分割方法 | |
CN110853039B (zh) | 一种多数据融合的草图图像分割方法、系统、装置及存储介质 | |
CN111652864A (zh) | 一种基于条件式生成对抗网络的铸件缺陷图像生成方法 | |
CN113610087B (zh) | 一种基于先验超分辨率的图像小目标检测方法及存储介质 | |
CN116758130A (zh) | 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法 | |
CN112560865A (zh) | 一种室外大场景下点云的语义分割方法 | |
CN116189191A (zh) | 一种基于yolov5的可变长车牌识别方法 | |
Li et al. | Steernerf: Accelerating nerf rendering via smooth viewpoint trajectory | |
Ke et al. | Mdanet: Multi-modal deep aggregation network for depth completion | |
CN114841859A (zh) | 基于轻量神经网络和Transformer的单图像超分辨率重建方法 | |
CN114494786A (zh) | 一种基于多层协调卷积神经网络的细粒度图像分类方法 | |
CN116363485B (zh) | 一种基于改进YOLOv5的高分辨率目标检测方法 | |
CN117315241A (zh) | 一种基于transformer结构的场景图像语义分割方法 | |
CN116758340A (zh) | 基于超分辨率特征金字塔和注意力机制的小目标检测方法 | |
CN114463176B (zh) | 基于改进esrgan的图像超分辨重建方法 | |
CN112686233B (zh) | 基于轻量化边缘计算的车道线识别方法及装置 | |
CN115205527A (zh) | 一种基于域适应和超分辨率的遥感图像双向语义分割方法 | |
CN114972851A (zh) | 一种基于遥感影像的船只目标智能检测方法 | |
CN114648724A (zh) | 一种基于生成对抗网络的轻量化高效目标分割与计数方法 | |
CN113192018A (zh) | 基于快速分割卷积神经网络的水冷壁表面缺陷视频识别方法 | |
Yang et al. | Res2U-Net: image inpainting via multi-scale backbone and channel attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |