CN116958780A - 一种跨尺度的目标检测方法及系统 - Google Patents
一种跨尺度的目标检测方法及系统 Download PDFInfo
- Publication number
- CN116958780A CN116958780A CN202310708941.XA CN202310708941A CN116958780A CN 116958780 A CN116958780 A CN 116958780A CN 202310708941 A CN202310708941 A CN 202310708941A CN 116958780 A CN116958780 A CN 116958780A
- Authority
- CN
- China
- Prior art keywords
- convolution
- layer
- attention
- representing
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 92
- 230000004927 fusion Effects 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 25
- 230000003068 static effect Effects 0.000 claims description 25
- 238000002156 mixing Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 11
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims 1
- 238000012549 training Methods 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 13
- 230000006872 improvement Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 101100500679 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) cot-3 gene Proteins 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 102100031315 AP-2 complex subunit mu Human genes 0.000 description 1
- 101000796047 Homo sapiens AP-2 complex subunit mu Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000000889 atomisation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Abstract
本发明涉及计算机视觉技术领域,公开了一种跨尺度的目标检测方法及系统,该方法,构建目标检测模型,目标检测模型以YOLOv5s检测模型为基准模型,通过自适应并行空间卷积模块、卷积与自注意力混合模块对目标特征进行提取,通过卷积与自注意力混合模块对全局特征进行学习,通过基于静动态上下文的特征融合模块对骨干网络的不同尺度的特征图进行融合。本发明解决了现有技术存在的跨尺度检测能力低、检测精度低等问题。
Description
技术领域
本发明涉及计算机视觉技术领域,具体是一种跨尺度的目标检测方法及系统。
背景技术
1、现有船舶检测基于船舶交通管理服务系统VTS,包含雷达、AIS、CCTV等设备,其中主要设备船载自动识别系统AIS可以进行船与船、船与岸的联系。但存在被动或主动恶意关闭AIS导致信号消失,无法对船舶进行监测。
2、目前基于深度学习的船舶检测方法基本是在通用检测方法上进行改进,普遍是通过不同的特征融合方式,引入不同损失函数计算方式,加小目标检测分支等方式进行改进。但是并没有针对内河航道下船舶目标的特点做深入分析,不具备专用性。现有基于深度学习的船舶检测方法,一般基于通用目标检测算法进行改进,比如在一篇文献中基于YOLOv3,提出一种船舶检测方法MS-YOLOv3,该方法增加了一个小目标检测分支头,并引入DCA特征融合策略以改进原本融合直接相加的操作,还引入GIOU作为边框损失函数提升网络对目标的定位能力。但此类改进效果有限,不具备较强的跨尺度检测能力,针对视角多样的内河航道场景,此类方法检测能力有限。
发明内容
为克服现有技术的不足,本发明提供了一种跨尺度的目标检测方法及系统,解决现有技术存在的跨尺度检测能力低、检测精度低等问题。
本发明解决上述问题所采用的技术方案是:
一种跨尺度的目标检测方法,构建目标检测模型,目标检测模型以YOLOv5s检测模型为基准模型,通过自适应并行空间卷积模块、卷积与自注意力混合模块对目标特征进行提取,通过卷积与自注意力混合模块对全局特征进行学习,通过基于静动态上下文的特征融合模块对骨干网络的不同尺度的特征图进行融合。
一种优选的技术方案,目标检测模型包括依次连接的骨干网络、颈部、头部,骨干网络包括自适应并行卷积模块、卷积与注意力混合模块,颈部包括基于静动态上下文的特征融合模块。
一种优选的技术方案,骨干网络包括依次连接的自适应并行卷积模块、第一卷积层、6×C3层、第二卷积层、9×C3层、第三卷积层、9×C3层、卷积与注意力混合模块、空间金字塔池化层;其中,C3层包括两个分支,其中一个分支包括一个卷积层、若干个瓶颈层,另一分支包括一个卷积层,两分支结果融合后再通过一个卷积层;
颈部包括依次连接的第一颈单元、第二颈单元、第三颈单元、第四颈单元,第一颈单元包括依次连接的第一3×基于静动态上下文的特征融合模块、第一拼接层、第一上采样层、第四卷积层,第二颈单元包括依次连接的第二3×基于静动态上下文的特征融合模块、第二拼接层、第二上采样层、第五卷积层,第三颈单元包括依次连接的第六卷积层、第三拼接层、第三3×基于静动态上下文的特征融合模块,第四颈单元包括依次连接的第七卷积层、第四拼接层、第四3×基于静动态上下文的特征融合模块;
头部包括第一头单元、第二头单元、第三头单元,第一头单元包括第八卷积层,第二头单元包括第九卷积层,第一头单元包括第十卷积层;
6×C3层与第二拼接层连接,9×C3层与第一拼接层连接,空间金字塔池化层、第四卷积层、第四拼接层依次连接,第一3×基于静动态上下文的特征融合模块、第五卷积层、第三拼接层依次连接,第二3×基于静动态上下文的特征融合模块分别与第六卷积层、第八卷积层连接,第三3×基于静动态上下文的特征融合模块分别与第七卷积层、第九卷积层连接,第四3×基于静动态上下文的特征融合模块与第十卷积层连接;
其中,×表示层数。
一种优选的技术方案,自适应空间并行卷积模块工作时执行以下步骤:
A1,将输入的特征图进行一次Conv操作;其中,一次Conv操作包括卷积、批归一化、SiLu激活;
A2,将进行一次Conv操作后得到的特征图分割为两个部分,分别为X1和X2,计算公式为:
(X1|X2)=chunk(Conv3_2(X0));
其中,X1表示输入特征图X0经过卷积后分割出的第一部分特征,X2表示输入特征图经过卷积后分割出的第二部分特征,X0表示输入特征图,Conv3_2(.)表示一次卷积核为3、步长为2的卷积操作,chunk(.)表示分割操作;
A3,变换:对X1进行卷积操作、池化操作及Conv2d卷积操作,对X2进行Conv2d卷积操作;
A4,将变换后的X1与X2进行合并,再与X相加得到X3,计算公式为:
其中,X3表示得到的特征图,Conv3_1(.)表示一次卷积核为3、步长为1的卷积操作和一次池化操作,Conv2d3_1(.)表示一次卷积核为3、步长为1的卷积操作,表示向量求和操作,Conv2d3_1(.)表示一次卷积核为3、步长为1的卷积操作。
一种优选的技术方案,自适应空间并行卷积模块工作时还执行以下步骤:
A5,将X3进行下采样得到指定分辨率的特征图,并再执行特征提取,结合跳跃连接的方式得到输出X4,计算公式为:
X4=Conv3_2(X3)+Conv1_1(Conv1_1(Conv3_2(X3)));
其中,X4表示得到的特征图,Conv1_1(.)表示一次卷积核为3、步长为1的卷积操作和一次池化操作。
一种优选的技术方案,卷积与自注意力混合模块工作时执行以下步骤:
B1,对于输入特征Xin,首先使用一个特征学习模块,分3次执行1×1的卷积,得到包含3×N个特征图的中间特征集,该特征集被卷积分支与自注意力分支共享;其中,N表示特征图深度;
B2,在卷积分支中,将得到的3×N个特征图按照标准卷积方式进行运算,计算公式为:
其中,ConvOutij表示卷积分支的输出,p表示卷积核位置的横坐标,q表示卷积核位置的纵坐标,i表示输入特征图横坐标,j表示输入特征图纵坐标,Kp,q表示卷积核位置为(p,q)的卷积核权重,fi+p-k/2,j+q-k/2表示像素输入特征张量,k表示卷积核大小;
在自注意力分支中,将3×N个特征图划分为N组,每个组包含三个特征,对应的三个特征用作查询q、键k、值v,计算每个区域的注意力权重,再与该区域值做乘积运算得到像素内区域的输出,一个注意力头部输出结果为Outij,最后将N个注意力头部输出结果拼接,得到自注意分支计算后的最终的输出结果AttOutij,Outij计算公式为:
其中,Outij表示一个注意力头部输出结果,a表示以(i,j)为像素中心的一个区域内任意像素点位置的横坐标,b表示以(i,j)为像素中心的一个区域内任意像素点位置的纵坐标,Nk(i,j)表示以(i,j)为像素中心的空间范围k的局部区域,fij表示像素(i,j)对应的张量,表示q的投影矩阵,/>表示k的投影矩阵,/>表示v的投影矩阵,/>表示以(i,j)为像素中心,范围为(a,b)区域的权重,计算公式为:
其中,d表示的特征维度;
最后将N个注意力头分别输出的Outij拼接,得到最终的输出结果AttOutij;B3,将经过B1、B2得到的结果进行加权求和,计算公式为:
Out=αConvOutij+βAttOutij;
其中,Out表示卷积分支与自注意分支输出结果加权求和的结果,α表示卷积分支的权重,ConvOutij表示卷积分支的输出,β表示自注意力分支的权重,AttOutij表示自注意力分支的输出,α、β为两个可学习的参数。
一种优选的技术方案,基于静动态上下文的特征融合模块包括一个基于静动态上下文的特征融合模块、若干个瓶颈层,基于静动态上下文的特征融合模块中每个头部中局部注意力矩阵融合了特征及上下文特征K1。
一种优选的技术方案,目标检测模型包括主分支、辅助分支,在辅助分支中,将宽高比大于阈值的目标分割为多个部分,使目标检测模型学习目标不同位置的特征,辅助分支与主分支共用骨干网络的参数,将主分支、辅助分支得到的检测框结果进行级联操作输出。
一种优选的技术方案,目标为船舶、飞行器或轨道交通车辆。
一种跨尺度的目标检测系统,用于实现所述的一种跨尺度的目标检测方法,包括目标检测模型,目标检测模型以YOLOv5s检测模型为基准模型,通过自适应并行空间卷积模块、卷积与自注意力混合模块对目标特征进行提取,通过卷积与自注意力混合模块对全局特征进行学习,通过基于静动态上下文的特征融合模块对骨干网络的不同尺度的特征图进行融合。
本发明相比于现有技术,具有以下有益效果:
(1)本发明检测模型能针对尺度变化极大的超大、超小型目标进行有效检测,具备较强的跨尺度能力;
(2)本发明基于局部学习的部分目标检测方案能对不完整目标进行有效检测,检测精度高。
附图说明
图1为YOLO-CsShip结构图;
图2为双分支局部检测示意图;
图3为级联NMS处理流程示意图;
图4为IoSmall计算方式示意图;
图5为YOLO-CsShip改进前后对比图(小目标);
图6为YOLO-CsShip改进前后对比图(大目标);
图7为局部学习检测方法改进对比图之一;
图8为局部学习检测方法改进对比图之二;
图9为多路视频监控图;
图10为单路视频船舶检测展示图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例1
如图1至图10所示,本发明主要针对背景技术中的第2点方法的不足进行改进,并以系统实现的方式完成船舶检测。
本发明结合船舶特点,主要从以下方面进行改进:
1、在不同距离和不同视角的摄像头下形成的船舶图像,其尺度变化大,现有检测算法兼顾大小目标,对于极端尺寸及尺度变化大的同类别船舶检测效果不佳,造成部分较小目标和较大目标漏检、尺度变化大的船舶目标错检。
2、对于特定的近距离摄像头下形成的船舶图像,总是呈现不完整的船体,并且平行视角下船舶间存在相互遮挡的问题。现有方法提取到的船舶特征信息关注船舶整体特征,部分船体存在漏检的问题。
3、目前内河航道的监管方式单一,现有的系统并不能满足行业需求,船舶图像的抓拍留存、自动取证的手段缺失。船舶智能检测系统的建设十分有必要。
针对上述三个问题,设计了如下方案进行改进:
(1)跨尺度检测方法YOLO-CsShip:
为有效检测出较小船舶目标与较大船舶目标,同时模型能覆盖更广的目标尺度范围,提出并设计了基于并行卷积及注意力的跨尺度船舶检测框架YOLO-CsShip(YOLOCross-Scale Ship),模型结构如图1所示。
图1展示了YOLO-CsShip结构,相比于YOLOv5,主要改进点如图1中粗虚线框所示,其中ASPConv、ACmix、COT3分别对应上述改进点一中的三个小模块改进。
图1中相关英文单词或英文缩写含义如下:
Backbone:网络骨干,ASPConv:自适应并行卷积模块,conv:卷积层,ACmix:卷积与注意力混合模块,SPPF:空间金字塔池化层,concat:拼接层,upsample:上采样层,neck:颈部,head:头部,cot3:基于静动态上下文的特征融合模块。
以YOLOv5s检测算法为基准模型,主要改进有三个方面,首先通过自适应并行空间卷积模块提升网络对小目标特征的提取能力,其次通过卷积与自注意力混合模块对全局特征进行学习,加强较大目标的特征提取能力,最后通过基于静动态上下文的特征融合模块对骨干网络不同尺度大小的特征图进行更有效的融合。
各模块详情如下:
自适应空间并行卷积模块:
在自适应空间并行卷积模块中,首先将输入的特征图进行一次Conv操作,Conv模块由Conv2d(卷积模块)、BatchNorm2d(批归一化)、SiLu(激活函数)组成,接着将得到的特征图分割为两个部分,分别为X1和X2,其计算如公式(X1|X2)=chunk(Conv3_2(X0))对于X1,进行Conv操作及Conv2d操作,对于X2,进行Conv2d操作,变换后的X1与X2进行合并,再与X相加得到X3,计算如公式:
最后将得到的X3进行下采样得到指定分辨率的特征图,并执行进一步特征提取,结合跳跃连接的方式得到输出X4,计算如公式:X4=Conv3_2(X3)+Conv1_1(Conv1_1(Conv3_2(X3)))。
卷积与自注意力混合模块:
该模块作用于骨干网络中最后一个C3结构后,其中卷积与自注意力运算均可分为两阶段。第一阶段仅运算一次,结果被后续两种方式共用,减少运算量同时也表明了卷积与自注意力方式强大的潜在关系。第二阶段卷积与自注意力两种方式分别进行计算,最后将两种方式得到的特征信息进行聚合。
各阶段运算方式:
(1)第一阶段:
对于输入特征Xin,首先使用一个特征学习模块,分3次执行1×1的卷积,得到包含3×N个特征图的丰富中间特征集,该特征集被卷积分支与自注意力分支共享。
(2)第二阶段:
在卷积分支中,将得到的3×N个特征图按照标准卷积方式进行运算,计算方式见公式:
其中Kp,q表示卷积核位置为(p,q)的卷积核权重,fi,j表示输入特征张量,k表示卷积核大小,最后得到卷积阶段的输出ConvOutij。
在自注意力分支中,将3×N个特征图划分为N组,每个组包含三个特征,对应的三个特征用作查询q、键k、值v,计算每个区域的注意力权重,再与该区域值做乘积运算得到像素内区域的输出,一个注意力头部输出结果为Outij,计算见公式:
其中fij表示像素(i,j)对应的张量,表示q、k、v的投影矩阵,Nk(i,j)表示以(i,j)为像素中心的空间范围k的局部区域,/>表示该区域的权重,计算见公式:
其中d表示的特征维度。
最后将N个注意力头分别输出的Outij拼接,得到最终的输出结果AttOutij。
(3)聚合阶段
将经过前两阶段中卷积与自注意力方式得到的结果进行加权求和,两个分支的权值α、β为两个可学习的参数,初始值设置为0.5。
Out=αConvOutij+βAttOutij。
基于静动态上下文的特征融合模块:
在原yolov5网络中,采用FPN结合PAN方式进行特征融合,其中主要的模块C3通过堆叠多个Bottleneck(瓶颈层)结合普通卷积方式进行特征融合,卷积的操作能力有限。针对普通卷积方式的不足,基于静动态上下文注意力机制(COT)提出COT3模块替换C3模块,以此强化模型特征融合能力。
相比于传统自注意力中独立键值对形成的局部注意力矩阵,COT每个头部中局部注意力矩阵融合了特征及上下文特征K1,以此增强自注意力学习的能力,接着将形成的注意力矩阵经过softmax后与所有特征结合,形成特征映射图,捕获动态特征,称为输入的动态上下文特征表示。最后,将第一步形成的静态上下文与动态上下文融合得到输出。
(2)局部检测方法:
由于部分船体的特性信息相较于完整船身更少,在检测时更容易造成漏检和错检的问题。因此设计包含两分支(主分支、辅助分支)对部分船体特征进行学习,以此辅助船舶检测,进一步提升检测精度,缓解不完整船体的漏检问题。算法结构如图2所示。
图2展示了第二个改进:局部检测方法示意图,主要通过两个分支进行船舶信息学习,两分支检测结果通过设计的级联NMS操作进行处理。
在主分支中,以普通船舶检测方式进行训练,骨干网络、颈部、检测头均为普通船身的信息参数,此处采用第(1)点中列出来的YOLO-CsShip方法。
在辅助分支中,将船舶宽高比大于阈值的船舶分割为3部分,使得网络能够学习船舶不同位置的部分船体特征,辅助分支与主分支共用骨干网络参数,有效保留了完整船身信息,同时为使网络更聚焦于部分船体的细节特征,设计基于独立自注意力的颈部进行特征融合。两分支得到的检测框结果进行级联NMS操作,以主分支检测框为主,通过设计的IoSmall-NMS过滤辅助分支与主分支检测到的同一目标的重复框,在主分支漏检时,辅助分支能有效检出部分船体,最终提升模型的检测能力。级联NMS流程如图3所示,IoSmall示意图如图4所示。
(3)基于上文提出的船舶检测算法开发了一个基于B/S架构的船舶智能检测系统,该系统立足于视频智能分析领域的技术及应用,进一步通过人工智能及大数据等新技术赋能,专注于内河航道场景的业务,关注航道过往船舶的实时监控与信息采集,加强对船舶违规违法行为的检查,保障航道内的水上安全。
通过上述改进,能有效提升内河航道船舶检测精度,在公开的船舶数据集和自己构建的数据集上均达到最优效果。
具体数据如表1。
表1不同目标检测方法在两数据集中检测结果对比表
改进前后对比图见图5至图8。
基于上述方法,在系统中完成对船舶检测,系统展示如图9、图10所示。
实施例2
如图1至图10所示,作为实施例1的进一步优化,在实施例1的基础上,本实施例还包括以下技术特征:
实验一:
实验环境:
相关实验均运行在服务器中,服务器操作系统为Ubuntu18.04,CUDA版本为11.4,Python版本为3.7。使用深度学习框架PyTorch1.7.1,还包括Pillow、OpenCV、NumPy、Matplotlib、TensorBoard等深度学习相关依赖库。对比实验中使用了基于PyTorch的目标检测工具包MMDetection,便于搭建各种算法进行实验。为了定量地评价实验结果,相关实验均使用目标检测中常用的评价指标平均精度均值mAP(Mean Average Precision)。
实验参数:
跨尺度船舶检测方法以YOLOv5s为基准方法,使用提出的算法YOLO-CsShip及多种目标检测算法分别在McShips、SeaShips、InlandShips三个数据集上进行实验。为加快模型训练速度,采用3个GPU并行的训练方式。输入网络的图片大小为640*640,批量大小(BatchSize)为12,训练轮次(Epoch)根据损失是否平稳的情况有所不同,最多达120。采用随机梯度下降算法来最小化训练模型中的误差,初始学习率设为0.01,学习率衰减系数为0.1,动量为0.937,权重衰减系数设置为5e-4。考虑到各数据集图片数量有限,使用随机水平翻转、旋转缩放、雾化,添加高斯噪声,更改明亮度等数据增强方式。
实验方法及细节:
为更全面的验证YOLO-CsShip算法的有效性,选取目前具有代表性的目标检测算法进行对比实验,包括经典的两阶段检测算法Faster R-CNN、同为单阶段目标检测算法SSD、基于Transformer的目标检测算法Deformable DETR,以及同为YOLO系列的YOLOv7。上述所有算法在构建的InlandShips数据集及公开的数据集SeaShip上的实验结果如上述实验效果表格所示。
YOLO系列的模型通过github公开的代码实现,其余均使用目标检测工具包MMDetection进行实验,因此使用其AP50作为评价指标,计算方式与mAP@0.5相同,表格中均以mAP@0.5表示。
训练的模型与yolov7比较,模型大小及参数量等信息如表1。
表2YOLOv7与YOLO-CsShip模型情况对比表
实验二:
实验环境同实验一相同。
训练方法:
首先将实验一中训练的最好模型保存best.pt文件,作为局部学习方法中的主分支。
数据处理。在辅助分支训练时,对宽高比大于3的船舶目标的真实框进行分割,沿着平行于高的方向将其按比例分为3部分。
加载主分支的模型参数,并冻结模型主分支的全部参数不参与训练,辅助分支使用主分支中骨干网络的参数,并在训练中保持不变,保留完整船身的信息,辅助分支颈部参与训练,利用反向梯度传播算法更新参数,学习部分船体的特征信息。训练后的主分支参数始终保持不变,只更新辅助分支颈部和头部参数。
将主分支及辅助分支结果送入级联NMS中进行处理。
实验细节设置:
以YOLOv5s和跨尺度船舶检测算法YOLO-CsShip为基础,即主分支分别使用YOLOv5s和YOLO-CsShip模型在InlandShips、SeaShips数据集上进行对比实验,以此证明基于局部学习的船舶检测方法的有效性。
在网络训练中,批量大小(Batch Size)设置为8,使用两个GPU并行训练。优化器采用随机梯度下降算法,初始学习率为0.01。在辅助分支训练阶段的独立自注意力模块中,局部注意力空间范围K设置为3。在辅助分支推理阶段,阈值Iou_threshold设置为0.5,阈值IoSmall_threshold的设置为0.65时为最佳检测结果。
实验结果如上述实验结果的表格所示,最终能达到89.3%精确率。
本发明检测模型能针对内河航道场景下,尺度变化极大的超大、超小型船舶进行有效检测,具备较强的跨尺度能力。
本发明基于局部学习的部分船体检测方案能对不完整船体进行有效检测。
本发明开发了一套船舶智能检测系统。
如上所述,可较好地实现本发明。
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
Claims (10)
1.一种跨尺度的目标检测方法,其特征在于,构建目标检测模型,目标检测模型以YOLOv5s检测模型为基准模型,通过自适应并行空间卷积模块、卷积与自注意力混合模块对目标特征进行提取,通过卷积与自注意力混合模块对全局特征进行学习,通过基于静动态上下文的特征融合模块对骨干网络的不同尺度的特征图进行融合。
2.根据权利要求1所述的一种跨尺度的目标检测方法,其特征在于,目标检测模型包括依次连接的骨干网络、颈部、头部,骨干网络包括自适应并行卷积模块、卷积与注意力混合模块,颈部包括基于静动态上下文的特征融合模块。
3.根据权利要求2所述的一种跨尺度的目标检测方法,其特征在于,骨干网络包括依次连接的自适应并行卷积模块、第一卷积层、6×C3层、第二卷积层、9×C3层、第三卷积层、9×C3层、卷积与注意力混合模块、空间金字塔池化层;其中,C3层包括两个分支,其中一个分支包括一个卷积层、若干个瓶颈层,另一分支包括一个卷积层,两分支结果融合后再通过一个卷积层;
颈部包括依次连接的第一颈单元、第二颈单元、第三颈单元、第四颈单元,第一颈单元包括依次连接的第一3×基于静动态上下文的特征融合模块、第一拼接层、第一上采样层、第四卷积层,第二颈单元包括依次连接的第二3×基于静动态上下文的特征融合模块、第二拼接层、第二上采样层、第五卷积层,第三颈单元包括依次连接的第六卷积层、第三拼接层、第三3×基于静动态上下文的特征融合模块,第四颈单元包括依次连接的第七卷积层、第四拼接层、第四3×基于静动态上下文的特征融合模块;
头部包括第一头单元、第二头单元、第三头单元,第一头单元包括第八卷积层,第二头单元包括第九卷积层,第一头单元包括第十卷积层;
6×C3层与第二拼接层连接,9×C3层与第一拼接层连接,空间金字塔池化层、第四卷积层、第四拼接层依次连接,第一3×基于静动态上下文的特征融合模块、第五卷积层、第三拼接层依次连接,第二3×基于静动态上下文的特征融合模块分别与第六卷积层、第八卷积层连接,第三3×基于静动态上下文的特征融合模块分别与第七卷积层、第九卷积层连接,第四3×基于静动态上下文的特征融合模块与第十卷积层连接;
其中,×表示层数。
4.根据权利要求3所述的一种跨尺度的目标检测方法,其特征在于,自适应空间并行卷积模块工作时执行以下步骤:
A1,将输入的特征图进行一次Conv操作;其中,一次Conv操作包括卷积、批归一化、SiLu激活;
A2,将进行一次Conv操作后得到的特征图分割为两个部分,分别为X1和X2,计算公式为:
(X1|X2)=chunk(Conv3_2(X0));
其中,X1表示输入特征图X0经过卷积后分割出的第一部分特征,X2表示输入特征图经过卷积后分割出的第二部分特征,X0表示输入特征图,Conv3_2(.)表示一次卷积核为3、步长为2的卷积操作,chunk(.)表示分割操作;
A3,变换:对X1进行卷积操作、池化操作及Conv2d卷积操作,对X2进行Conv2d卷积操作;
A4,将变换后的X1与X2进行合并,再与X相加得到X3,计算公式为:
其中,X3表示得到的特征图,Conv3_1(.)表示一次卷积核为3、步长为1的卷积操作和一次池化操作,Conv2d3_1(.)表示一次卷积核为3、步长为1的卷积操作,表示向量求和操作,Conv2d3_1(.)表示一次卷积核为3、步长为1的卷积操作。
5.根据权利要求4所述的一种跨尺度的目标检测方法,其特征在于,自适应空间并行卷积模块工作时还执行以下步骤:
A5,将X3进行下采样得到指定分辨率的特征图,并再执行特征提取,结合跳跃连接的方式得到输出X4,计算公式为:
X4=Conv3_2(X3)+Conv1_1(Conv1_1(Conv3_2(X3)));
其中,X4表示得到的特征图,Conv1_1(.)表示一次卷积核为3、步长为1的卷积操作和一次池化操作。
6.根据权利要求3所述的一种跨尺度的目标检测方法,其特征在于,卷积与自注意力混合模块工作时执行以下步骤:
B1,对于输入特征Xin,首先使用一个特征学习模块,分3次执行1=1的卷积,得到包含3×N个特征图的中间特征集,该特征集被卷积分支与自注意力分支共享;其中,N表示特征图深度;
B2,在卷积分支中,将得到的3×N个特征图按照标准卷积方式进行运算,计算公式为:
其中,ConvOutij表示卷积分支的输出,p表示卷积核位置的横坐标,q表示卷积核位置的纵坐标,i表示输入特征图横坐标,j表示输入特征图纵坐标,Kp,q表示卷积核位置为(p,q)的卷积核权重,fi+p-k/2,j+q-k/2表示像素输入特征张量,k表示卷积核大小;
在自注意力分支中,将3×N个特征图划分为N组,每个组包含三个特征,对应的三个特征用作查询q、键k、值v,计算每个区域的注意力权重,再与该区域值做乘积运算得到像素内区域的输出,一个注意力头部输出结果为Outij,最后将N个注意力头部输出结果拼接,得到自注意分支计算后的最终的输出结果AttOutij,Outij计算公式为:
其中,Outij表示一个注意力头部输出结果,a表示以(i,j)为像素中心的一个区域内任意像素点位置的横坐标,b表示以(i,j)为像素中心的一个区域内任意像素点位置的纵坐标,Nk(i,j)表示以(i,j)为像素中心的空间范围k的局部区域,fij表示像素(i,j)对应的张量,表示q的投影矩阵,/>表示k的投影矩阵,/>表示v的投影矩阵,/>表示以(i,j)为像素中心,范围为(a,b)区域的权重,计算公式为:
其中,d表示的特征维度;
最后将N个注意力头分别输出的Outij拼接,得到最终的输出结果AttOutij;
B3,将经过B1、B2得到的结果进行加权求和,计算公式为:
Out=αConvOutij+βAttOutij;
其中,Out表示卷积分支与自注意分支输出结果加权求和的结果,α表示卷积分支的权重,ConvOutij表示卷积分支的输出,β表示自注意力分支的权重,AttOutij表示自注意力分支的输出,α、β为两个可学习的参数。
7.根据权利要求3所述的一种跨尺度的目标检测方法,其特征在于,基于静动态上下文的特征融合模块包括一个基于静动态上下文的特征融合模块、若干个瓶颈层,基于静动态上下文的特征融合模块中每个头部中局部注意力矩阵融合了特征及上下文特征K1。
8.根据权利要求2至7任一项所述的一种跨尺度的目标检测方法,其特征在于,目标检测模型包括主分支、辅助分支,在辅助分支中,将宽高比大于阈值的目标分割为多个部分,使目标检测模型学习目标不同位置的特征,辅助分支与主分支共用骨干网络的参数,将主分支、辅助分支得到的检测框结果进行级联操作输出。
9.根据权利要求1所述的一种跨尺度的目标检测方法,其特征在于,目标为船舶、飞行器或轨道交通车辆。
10.一种跨尺度的目标检测系统,其特征在于,用于实现权利要求1至9任一项所述的一种跨尺度的目标检测方法,包括目标检测模型,目标检测模型以YOLOv5s检测模型为基准模型,通过自适应并行空间卷积模块、卷积与自注意力混合模块对目标特征进行提取,通过卷积与自注意力混合模块对全局特征进行学习,通过基于静动态上下文的特征融合模块对骨干网络的不同尺度的特征图进行融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310708941.XA CN116958780A (zh) | 2023-06-15 | 2023-06-15 | 一种跨尺度的目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310708941.XA CN116958780A (zh) | 2023-06-15 | 2023-06-15 | 一种跨尺度的目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958780A true CN116958780A (zh) | 2023-10-27 |
Family
ID=88443474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310708941.XA Pending CN116958780A (zh) | 2023-06-15 | 2023-06-15 | 一种跨尺度的目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958780A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274929A (zh) * | 2023-11-21 | 2023-12-22 | 深圳中科超远科技有限公司 | 一种基于视觉分析的交通管理方法及系统 |
-
2023
- 2023-06-15 CN CN202310708941.XA patent/CN116958780A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274929A (zh) * | 2023-11-21 | 2023-12-22 | 深圳中科超远科技有限公司 | 一种基于视觉分析的交通管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135366B (zh) | 基于多尺度生成对抗网络的遮挡行人重识别方法 | |
US20190311223A1 (en) | Image processing methods and apparatus, and electronic devices | |
CN110084234B (zh) | 一种基于实例分割的声呐图像目标识别方法 | |
CN112507777A (zh) | 一种基于深度学习的光学遥感图像舰船检测与分割方法 | |
CN111079739B (zh) | 一种多尺度注意力特征检测方法 | |
CN112308019A (zh) | 基于网络剪枝和知识蒸馏的sar舰船目标检测方法 | |
CN109784278B (zh) | 基于深度学习的海上弱小运动船舶实时检测方法 | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
CN109145747A (zh) | 一种水面全景图像语义分割方法 | |
CN110647802A (zh) | 基于深度学习的遥感影像舰船目标检测方法 | |
CN115035361A (zh) | 基于注意力机制和特征交叉融合的目标检测方法及系统 | |
CN111126278A (zh) | 针对少类别场景的目标检测模型优化与加速的方法 | |
CN111428664A (zh) | 一种基于人工智能深度学习技术的计算机视觉的实时多人姿态估计方法 | |
CN116958780A (zh) | 一种跨尺度的目标检测方法及系统 | |
CN113743505A (zh) | 基于自注意力和特征融合的改进ssd目标检测方法 | |
CN112949520A (zh) | 一种基于多尺度小样本的航拍车辆检测方法及检测系统 | |
CN115861756A (zh) | 基于级联组合网络的大地背景小目标识别方法 | |
Chang et al. | Yolov3 based ship detection in visible and infrared images | |
CN115047455A (zh) | 一种轻量化的sar图像舰船目标检测方法 | |
CN114565824A (zh) | 基于全卷积网络的单阶段旋转舰船检测方法 | |
CN116953702A (zh) | 基于演绎范式的旋转目标检测方法及装置 | |
CN117315752A (zh) | 人脸情绪识别网络模型的训练方法、装置、设备和介质 | |
CN113850783B (zh) | 一种海面船舶检测方法及系统 | |
Zhang et al. | A Ship Detection Model Based on YOLOX with Lightweight Adaptive Channel Feature Fusion and Sparse Data Augmentation | |
CN112800932B (zh) | 海上背景下显著船舶目标的检测方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |