CN117152601A - 一种基于动态感知区域路由的水下目标检测方法及系统 - Google Patents
一种基于动态感知区域路由的水下目标检测方法及系统 Download PDFInfo
- Publication number
- CN117152601A CN117152601A CN202311132860.6A CN202311132860A CN117152601A CN 117152601 A CN117152601 A CN 117152601A CN 202311132860 A CN202311132860 A CN 202311132860A CN 117152601 A CN117152601 A CN 117152601A
- Authority
- CN
- China
- Prior art keywords
- feature
- dynamic
- module
- gradient
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 230000008447 perception Effects 0.000 title claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 150000001412 amines Chemical class 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/05—Underwater scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态感知区域路由的水下目标检测方法及系统,具体包括以下步骤:S1、输入预处理;S2、特征提取;S3、特征融合;S4、预测;本发明涉及水下目标识别技术领域。该基于动态感知区域路由的水下目标检测方法及系统,首先在特征提取阶段和特征融合阶段通过对不同大小的目标采用不同的空洞卷积,自适应对大、中、小型目标特征进行增强,提升模型在目标回归预测阶段的精度,然后在特征融合阶段通过区域路由注意力机制动态感知增强前景目标特征,防止特征提取阶段提取的多维度混合特征信息中背景信息的干扰。最后通过改进损失函数使得模型关联原本相互独立的定位任务和分类任务,同时降低模型由于正负样本不均衡而造成模型过拟合的影响。
Description
技术领域
本发明涉及水下目标识别技术领域,具体为一种基于动态感知区域路由的水下目标检测方法及系统。
背景技术
由于水声信道复杂以及声波传播过程中的损失和散射,声呐设备直接采集得到的图像往往具有噪声强、畸变严重、目标边缘模糊、分辨率低等特点,传统的声呐图像目标检测算法主要包括基于像素、特征和回波检测和基于机器学习的目标检测方法,前者的基本思路为根据声呐图像中的高亮和阴影特性来对目标是否存在进行判决,后者主要先通过先验知识从声呐图像中提取特征,然后再使用支持向量机等方法进行目标检测,然而,传统的目标检测方法依赖于准确的数学模型的建立,随着水下信道和水下目标的复杂化,这些方法已经不能满足现有的水下目标识别的实际应用需求。
随着计算机性能的突破,原本基于光学图像设计的深度学习目标检测技术逐渐应用于水下目标识别中,并得到了较好的结果,McKay等人提出了一种利用迁移学习对声呐数据集进行多实例目标检测和识别的方法(McKay J."What's mine is yours:PretrainedCNNs for limited training sonar ATR,"OCEANS2017-Anchorage,IEEE,2017),Williams等人搭建了卷积神经网络模型对合成孔径声呐图像进行分类识别,并将学习到的网络用于几个二分类任务(William David P.,"Underwater target classification insynthetic aperture sonar imagery using deep convolutional neural networks,"201623rd international conference on pattern recognition(ICPR),pp.2497-2502,IEEE,2016),Chen等人通过改进YOLOv3的锚框使用K-Means算法对侧扫声呐数据集的目标真实框宽高进行聚类,随后设计了一种超参数映射关系对得到的锚框进行拉伸,从而得到一组较优的先验锚框,在得到优化后的锚框后,将锚框设置为YOLOv3的先验参数,再将数据集输入网络进行预测(CHEN Y.,MA X.and LI X.,“Target detection in side scansonar images based on YOLOv3 anchor boxes optimization,”Journal of SignalProcessing,vol.38,no.11,pp.2359-2371,2022),Wang等人提出了一种基于YOLOv3的水下目标检测模型YOLOv3F,通过将原始声呐图像和对应生成的点云数据分别输入YOLOv3目标检测网络中进行特征提取与目标检测,以解决水下声呐图像的形状失真和畸变的问题(WANG F.,WANG X.,ZHOU J.and LIU M.,"An Underwater Object Detection Method forSonar Image Based on YOLOv3 Model,"Journal of Electronics&InformationTechnology,vol.44,no.10,pp.3419-3426,2022)。
基于对上述资料的检索,可以看出,仍存在如下问题:
一、现有的基于深度学习的水下声呐图像目标检测模型需要大量的输入数据进行模型训练,而水下声呐图像由于采集成本及环境因素的影响,难以获取大量的实验数据且获取的实验样本各类别的数据不平衡,当使用小样本非平衡数据对现有模型进行训练时极易造成模型过拟合问题;
二、由于水下背景噪声、生物噪声及各种水下航行器辐射噪声的影响,声呐图像前景与背景之间可分性差,使用普通的卷积神经网络的特征提取方法会损失大量的有效特征;
三、由于声呐图像主要基于被动声呐远距离采集水声信号产生,在声波信号图像化转换过程中会产生畸变和缩放,因此声呐图像中多为中小型目标,现有的目标检测模型会在特征提取过程中极易丢失小目标信息。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于动态感知区域路由的水下目标检测方法及系统,解决了上述的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种基于动态感知区域路由的水下目标检测方法,具体包括以下步骤:
S1、输入预处理:采用Mosaic图像增强、自适应锚框计算和自适应图片缩放对原始的输入图像数据进行数据扩充和增强操作;
S2、特征提取:将S1的输出结果输入到特征提取模块中,经过卷积处理和基于动态特征增强的多残差模块的配合,从S1的输出结果中依次获取第一梯度、第二梯度和第三梯度的特征信息;
S3、特征融合:S2中获取的第三梯度的特征信息输入到由空间金字塔融合结构SPPF中,获得融合特征层,卷积操作后引入区域路由注意力机制,对融合特征层进行上采样,获得一级特征层,基于动态特征增强的多残差模块对一级特征层进行处理后,与S2中第二梯度的特征信息一同传递到下级基于动态特征增强的多残差模块中,依次经过卷积和上采样操作后,获得二级特征层,二级特征层与S2中第一梯度的特征信息输入到后续的基于动态特征增强的多残差模块中,获得第一梯度输出特征层,第一梯度输出特征层经过卷积操作后,与未经过上采样操作的二级特征层串联后,输入到后续的基于动态特征增强的多残差模块中,获得第二梯度输出特征层,第二梯度输出特征层经过卷积操作后,与未引入区域路由注意力机制的融合特征层串联后,输入到后续的基于动态特征增强的多残差模块中,获得第三梯度输出特征层;
S4、预测:将在S3中获得的第一梯度输出特征层、第二梯度输出特征层和第三梯度输出特征层特征输入到预测模块中,使用anchor box来预测目标的边界框位置和大小,同时对每个anchor box对应的预测结果使用softmax函数来计算类别概率。
本发明进一步设置为:所述S2和S3中基于动态特征增强的多残差模块处理方式如下:
A1、将上层输入的特征层先经过1×1的卷积和带有动态空洞卷积模块的残差模块对前置特征提取的结果进行进一步的特征筛选,保留的多尺寸目标特征;
B1、将上层输入的特征层经过1×1的卷积改变channel维度;
C1、在channel维度上进行A1和B1输出结构的特征拼接,并使用1×1的卷积改变channel维度。
本发明进一步设置为:所述动态空洞卷积模块使用方法如下:
A2、通过全局平均池化残差层增强原始特征信息;
B2、通过动态空洞卷积层进行全维度目标特征筛选,其详细运算过程为:
当使用y=Conv(x,w,r)表示以x为输入,权值为w,空洞卷积的rate为r,输出为y的卷积操作时,动态空洞卷积模块操作的公式表示如下:
其中r是动态空洞卷积模块的超参数,Δw是可训练参数,S(·)是一个核大小为5的平均池化和一个核大小为1的卷积操作实现,S为一个0-1的概率矩阵,SAC根据S分别从Atrous=1与Atrous=3的Feature Maps中抽取部分份额的数值来获得新的结合版本的Feature Maps.,例如如果S>0.5,则新的结合版本的Feature Maps大部分来自于Atrous=1分支;如果S<0.5,则大部分来自于Atrous=3分支;
C2、通过全局平均池化残差层再次增强筛选后的各尺寸目标特征信息。
本发明进一步设置为:所述第三梯度的特征信息输入到空间金字塔融合结构SPPF中后,先经过一个卷积和三个全局最大池化层后,再将这四个输出结果在channel维度上进行特征拼接。
本发明进一步设置为:所述S3中的区域路由注意力机制具体包括如下三部分:
第一部分是区域划分和输入投影,对于H×W×C的特征图,将其划分为S×S个不重叠区域,然后导出查询Q,键K,值V的投影分别为:
Q=XrWq,K=XrWk,V=XrWv
其中Wq,Wk,Wv分别为查询、键、值的投影权值;
第二部分是带有向图的区域到区域路由,通过构造有向图寻找参与关系。具体而言,通过分别对Q和K使用每个区域的平均值来推导区域级的Qr和Kr,然后通过Qr和Kr之间的矩阵乘法,推导区域与区域之间的邻接矩阵Ar:
Ar=Qr(Kr)T;
第三部分为每个区域保留其他区域相似度最高的k个连接,.这些所有的区域和区域的索引组成的矩阵为:
Ir=topkIndex(Ar);
对于每个区域的键K和值V进行gather组合,使用token-to-token attention得到最终的区域路由注意力机制的输出:
O=Attention(Q,gather(K,Ir)g,gather(V,Ir)g)。
本发明进一步设置为:所述S4中的第一梯度输出特征层、第二梯度输出特征层和第三梯度输出特征层特征对应不同尺度的预测框,每个预测框包含置信度得分、类别概率、边界框位置和大小。
本发明进一步设置为:所述S4进行结果预测后,采用基于权重序列的定位与分类联合损失函数作为分类损失和定位损失,其损失函数推导式如下:
其中P为正样本集合,即TP,N为负样本集合,NFP(i)表示样本i在负样本的排名,rank(i)=NTP(i)+NFP(i)表示样本i在全体负样本中排名,εbox(k)为TP的定位误差,H(x)主要由超参数δ确定。
本发明还公开了一种基于动态感知区域路由的水下目标检测系统,包括输入预处理模块、特征提取模块、特征融合模块和预测模块;
所述输入预处理模块用于采用Mosaic图像增强、自适应锚框计算和自适应图片缩放对原始的输入图像数据进行数据扩充和增强操作;
所述特征提取模块和特征融合模块均包括基于动态特征增强的多残差模块,所述基于动态特征增强的多残差模块用于在获取多梯度的特征信息和加快特征提取效率的同时,保留声呐图像中各尺寸目标信息;
所述特征融合模块还包括空间金字塔融合结构SPPF和区域路由注意力机制,其中空间金字塔融合结构SPPF用于自适应融合不同特征层的多尺度的特征信息;
所述区域路由注意力机制用于动态感知增强前景目标特征;
所述预测模块用于根据特征融合模块的输出结果进行目标预测。
(三)有益效果
本发明提供了一种基于动态感知区域路由的水下目标检测方法及系统。具备以下有益效果:
(1)本发明通过基于动态特征增强的多残差模块的设置,对不同大小的目标采用不同的空洞卷积,在快速获取梯度流信息的同时保留声呐图像中各尺寸目标信息,尤其是小目标特征信息。
(2)本发明通过区域路由注意力机制动态感知增强前景目标特征,防止特征提取阶段提取的多维度混合特征信息中背景信息的干扰,增加目标回归检测精度。
(3)本发明通过基于权重序列的定位与分类联合损失函数实现目标检测过程中的分类和定位的平衡,对高精度分类实施高质量的定位,有效解决模型由于非平衡样本导致的部分类别训练过拟合和小目标样本特征丢失的问题。
附图说明
图1为本发明的流程示意图;
图2为本发明的模型架构示意图;
图3为本发明基于动态特征增强的多残差模块架构示意图;
图4为本发明动态空洞卷积模块运行流程示意图;
图5为本发明区域路由注意力机制运行流程示意图;
图6为本发明实施例中检测框在不同IoU对应的mAP表图;
图7为本发明实施例中不同类别目标的mAP表图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
请参阅图1-7,本发明实施例提供以下技术方案:一种基于动态感知区域路由的水下目标检测方法,具体包括如下步骤:
数据集准备:
使用的公共数据集UATD是由鹏程实验室在湖泊和浅水中使用多波束前视声呐捕获的7600幅声呐图像组成,该数据集主要包含Human Body、Ball、Circle Cage、SquareCage、Tyre、Metal、Bucket、Cube、Cyclinder、Plane、Rov共10类物体;
数据预处理:
将UATD中10个类别按照训练集、验证集和测试集进行类别划分,划分比例为7:1:2;
模型搭建:
搭建基于动态感知特征增强网络的非平衡水下声呐图像目标检测模型,并设置多梯度流全局特征增强网络的激活函数为FReLU、多梯度流全局特征增强网络的损失函数参数和多梯度流全局特征增强网络的训练参数,其中使用自适应矩估计优化器Adam抑制样本噪声干扰,其中Adam的一阶动量因子、二阶动量因子和模糊因子分别设置为0.9、0.999和0.0000001;
为了加快训练过程,设置初始学习率为0.001,训练过程中的学习率为初始学习率乘以0.0005的权重衰减系数,batch_size大小设置为330,并且设置分类损失函数和定位损失函数为基于权重序列的定位与分类联合损失函数;
模型训练:
S1、输入预处理:训练集输入到输入预处理模块中,采用Mosaic图像增强、自适应锚框计算和自适应图片缩放对数据集进行数据扩充和增强操作;
S2、特征提取:将S1的输出结果输入到特征提取模块中,经过卷积处理和基于动态特征增强的多残差模块的配合,从S1的输出结果中依次获取第一梯度、第二梯度和第三梯度的特征信息;
S3、特征融合:S2中获取的第三梯度的特征信息输入到由空间金字塔融合结构SPPF中,获得融合特征层,卷积操作后引入区域路由注意力机制,对融合特征层进行上采样,获得一级特征层,基于动态特征增强的多残差模块对一级特征层进行处理后,与S2中第二梯度的特征信息一同传递到下级基于动态特征增强的多残差模块中,依次经过卷积和上采样操作后,获得二级特征层,二级特征层与S2中第一梯度的特征信息输入到后续的基于动态特征增强的多残差模块中,获得第一梯度输出特征层,第一梯度输出特征层经过卷积操作后,与未经过上采样操作的二级特征层串联后,输入到后续的基于动态特征增强的多残差模块中,获得第二梯度输出特征层,第二梯度输出特征层经过卷积操作后,与未引入区域路由注意力机制的融合特征层串联后,输入到后续的基于动态特征增强的多残差模块中,获得第三梯度输出特征层;
S4、预测:将在S3中获得的第一梯度输出特征层、第二梯度输出特征层和第三梯度输出特征层特征输入到预测模块中,使用anchor box来预测目标的边界框位置和大小,同时对每个anchor box对应的预测结果使用softmax函数来计算类别概率。
在UATD数据集中的训练集和验证集训练330个epoch后,可以看出在100个epoch后模型逐渐趋于稳定,收敛较快,且随epoch的进行,模型整体稳定性较好,有效解决部分水下声呐图像目标检测模型由于样本量过少和各类别样本不平衡导致的模型易过拟合的问题。
使用上述收敛的模型权重对UATD数据集中的测试集进行测试,本发明所提出的模型和YOLOv5、YOLOv8目标检测模型在UATD数据集上当检测框使用不用的IoU值时所对应的mAP检测结果如附图6所示。
可以看出,当检测框的IoU阈值设置为0.5时,本发明所提改进模型相比于YOLOv8模型mAP值提升了2.4%,同时相较于基线模型YOLOv5提升了2.7%;
当检测框的IoU阈值位于[0.5,0.95]时,本发明所提改进模型相较于基线模型YOLOv5提升了3.9%。
由此可以发现,本发明所提出的改进目标检测模型在水下声呐图像数据集上整体性能优于现有的主流目标检测模型。
为了进一步验证本模型的性能,本发明与YOLOv5和YOLOv8目标检测模型针对不同类别的AP值对比分析,其详细实验结果如附图7所示。
可以看出,本发明所提模型在10个类别的AP值均超过两个基线模型,且各类别AP提升至少有1%左右,同时Square Cage、Metal Bucket、Cyclinder、Rov的AP值相较于原始YOLOv5模型分别提升了3.4%、9.2%、4.6%和3%,这主要得益于本模型在特征提取阶段的根据目标尺度自适应特征增强以及在特征融合前对目标和背景信息进行动态关注与忽略。
Claims (8)
1.一种基于动态感知区域路由的水下目标检测方法,包括,其特征在于:具体包括以下步骤:
S1、输入预处理:采用Mosaic图像增强、自适应锚框计算和自适应图片缩放对原始的输入图像数据进行数据扩充和增强操作;
S2、特征提取:将S1的输出结果输入到特征提取模块中,经过卷积处理和基于动态特征增强的多残差模块的配合,从S1的输出结果中依次获取第一梯度、第二梯度和第三梯度的特征信息;
S3、特征融合:S2中获取的第三梯度的特征信息输入到由空间金字塔融合结构SPPF中,获得融合特征层,卷积操作后引入区域路由注意力机制,对融合特征层进行上采样,获得一级特征层,基于动态特征增强的多残差模块对一级特征层进行处理后,与S2中第二梯度的特征信息一同传递到下级基于动态特征增强的多残差模块中,依次经过卷积和上采样操作后,获得二级特征层,二级特征层与S2中第一梯度的特征信息输入到后续的基于动态特征增强的多残差模块中,获得第一梯度输出特征层,第一梯度输出特征层经过卷积操作后,与未经过上采样操作的二级特征层串联后,输入到后续的基于动态特征增强的多残差模块中,获得第二梯度输出特征层,第二梯度输出特征层经过卷积操作后,与未引入区域路由注意力机制的融合特征层串联后,输入到后续的基于动态特征增强的多残差模块中,获得第三梯度输出特征层;
S4、预测:将在S3中获得的第一梯度输出特征层、第二梯度输出特征层和第三梯度输出特征层特征输入到预测模块中,使用anchor box来预测目标的边界框位置和大小,同时对每个anchor box对应的预测结果使用softmax函数来计算类别概率。
2.根据权利要求1所述的一种基于动态感知区域路由的水下目标检测方法,其特征在于:所述S2和S3中基于动态特征增强的多残差模块处理方式如下:
A1、将上层输入的特征层先经过1×1的卷积和带有动态空洞卷积模块的残差模块对前置特征提取的结果进行进一步的特征筛选,保留的多尺寸目标特征;
B1、将上层输入的特征层经过1×1的卷积改变channel维度;
C1、在channel维度上进行A1和B1输出结构的特征拼接,并使用1×1的卷积改变channel维度。
3.根据权利要求2所述的一种基于动态感知区域路由的水下目标检测方法,其特征在于:所述动态空洞卷积模块使用方法如下:
A2、通过全局平均池化残差层增强原始特征信息;
B2、通过动态空洞卷积层进行全维度目标特征筛选,其详细运算过程为:
当使用y=Conv(x,w,r)表示以x为输入,权值为w,空洞卷积的rate为r,输出为y的卷积操作时,动态空洞卷积模块操作的公式表示如下:
其中r是动态空洞卷积模块的超参数,Δw是可训练参数,S(·)是一个核大小为5的平均池化和一个核大小为1的卷积操作实现,S为一个0-1的概率矩阵;
C2、通过全局平均池化残差层再次增强筛选后的各尺寸目标特征信息。
4.根据权利要求1所述的一种基于动态感知区域路由的水下目标检测方法,其特征在于:所述第三梯度的特征信息输入到空间金字塔融合结构SPPF中后,先经过一个卷积和三个全局最大池化层后,再将这四个输出结果在channel维度上进行特征拼接。
5.根据权利要求1所述的一种基于动态感知区域路由的水下目标检测方法,其特征在于:所述S3中的区域路由注意力机制具体包括如下三部分:
第一部分是区域划分和输入投影,对于H×W×C的特征图,将其划分为S×S个不重叠区域,然后导出查询Q,键K,值V的投影分别为:
Q=XrWq,K=XrWk,V=XrWv
其中Wq,Wk,Wv分别为查询、键、值的投影权值;
第二部分是带有向图的区域到区域路由,通过构造有向图寻找参与关系。具体而言,通过分别对Q和K使用每个区域的平均值来推导区域级的Qr和Kr,然后通过Qr和Kr之间的矩阵乘法,推导区域与区域之间的邻接矩阵Ar:
Ar=Qr(Kr)T;
第三部分为每个区域保留其他区域相似度最高的k个连接,.这些所有的区域和区域的索引组成的矩阵为:
Ir=topkIndex(Ar);
对于每个区域的键K和值V进行gather组合,使用token-to-token attention得到最终的区域路由注意力机制的输出:
O=Attention(Q,gather(K,Ir)g,gather(V,Ir)g)。
6.根据权利要求1所述的一种基于动态感知区域路由的水下目标检测方法,其特征在于:所述S4中的第一梯度输出特征层、第二梯度输出特征层和第三梯度输出特征层特征对应不同尺度的预测框,每个预测框包含置信度得分、类别概率、边界框位置和大小。
7.根据权利要求1所述的一种基于动态感知区域路由的水下目标检测方法,其特征在于:所述S4进行结果预测后,采用基于权重序列的定位与分类联合损失函数作为分类损失和定位损失,其损失函数推导式如下:
其中P为正样本集合,即TP,N为负样本集合,NFP(i)表示样本i在负样本的排名,rank(i)=NTP(i)+NFP(i)表示样本i在全体负样本中排名,εbox(k)为TP的定位误差,H(x)主要由超参数δ确定。
8.一种基于动态感知区域路由的水下目标检测系统,其特征在于:包括输入预处理模块、特征提取模块、特征融合模块和预测模块;
所述输入预处理模块用于采用Mosaic图像增强、自适应锚框计算和自适应图片缩放对原始的输入图像数据进行数据扩充和增强操作;
所述特征提取模块和特征融合模块均包括基于动态特征增强的多残差模块,所述基于动态特征增强的多残差模块用于在获取多梯度的特征信息和加快特征提取效率的同时,保留声呐图像中各尺寸目标信息;
所述特征融合模块还包括空间金字塔融合结构SPPF和区域路由注意力机制,其中空间金字塔融合结构SPPF用于自适应融合不同特征层的多尺度的特征信息;
所述区域路由注意力机制用于动态感知增强前景目标特征;
所述预测模块用于根据特征融合模块的输出结果进行目标预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311132860.6A CN117152601A (zh) | 2023-09-04 | 2023-09-04 | 一种基于动态感知区域路由的水下目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311132860.6A CN117152601A (zh) | 2023-09-04 | 2023-09-04 | 一种基于动态感知区域路由的水下目标检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117152601A true CN117152601A (zh) | 2023-12-01 |
Family
ID=88900398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311132860.6A Pending CN117152601A (zh) | 2023-09-04 | 2023-09-04 | 一种基于动态感知区域路由的水下目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117152601A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649609A (zh) * | 2024-01-30 | 2024-03-05 | 中国人民解放军海军航空大学 | 面向跨时空尺度域的遥感图像建筑物信息提取方法 |
-
2023
- 2023-09-04 CN CN202311132860.6A patent/CN117152601A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649609A (zh) * | 2024-01-30 | 2024-03-05 | 中国人民解放军海军航空大学 | 面向跨时空尺度域的遥感图像建筑物信息提取方法 |
CN117649609B (zh) * | 2024-01-30 | 2024-04-30 | 中国人民解放军海军航空大学 | 面向跨时空尺度域的遥感图像建筑物信息提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108154118B (zh) | 一种基于自适应组合滤波与多级检测的目标探测系统及方法 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN112200045B (zh) | 基于上下文增强的遥感图像目标检测模型建立方法及应用 | |
CN109101897A (zh) | 水下机器人的目标检测方法、系统及相关设备 | |
CN113052200B (zh) | 一种基于yolov3网络的声呐图像目标检测方法 | |
CN110135438B (zh) | 一种基于梯度幅值预运算的改进surf算法 | |
CN110647802A (zh) | 基于深度学习的遥感影像舰船目标检测方法 | |
CN110853011A (zh) | 用于肺结节检测的卷积神经网络模型的构建方法 | |
CN116342894B (zh) | 基于改进YOLOv5的GIS红外特征识别系统及方法 | |
CN114998210A (zh) | 一种基于深度学习目标检测的早产儿视网膜病变检测系统 | |
CN113128564B (zh) | 一种基于深度学习的复杂背景下典型目标检测方法及系统 | |
CN113888461A (zh) | 基于深度学习的小五金件缺陷检测方法、系统及设备 | |
CN116468663A (zh) | 一种基于改进YOLOv5的表面微小缺陷检测的方法 | |
CN117152601A (zh) | 一种基于动态感知区域路由的水下目标检测方法及系统 | |
CN114821358A (zh) | 光学遥感图像海上舰船目标提取与识别方法 | |
CN115908358A (zh) | 一种基于多任务学习的心肌图像分割和分类方法 | |
CN117237986A (zh) | 一种基于改进YOLOv7模型的鱼类目标个体位置检测方法 | |
CN115131503A (zh) | 一种虹膜三维识别的健康监测方法及其系统 | |
CN116168240A (zh) | 基于注意力增强的任意方向密集舰船目标检测方法 | |
CN113313678A (zh) | 一种基于多尺度特征融合的精子形态学自动分析方法 | |
CN111428855B (zh) | 一种端到端的点云深度学习网络模型和训练方法 | |
CN117593548A (zh) | 基于加权注意力机制去除动态特征点的视觉slam方法 | |
CN112926667A (zh) | 深度融合边缘与高层特征的显著性目标检测方法及装置 | |
CN113191996A (zh) | 一种遥感影像变化检测方法、装置及其电子设备 | |
CN116452965A (zh) | 一种基于声光融合的水下目标检测识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |