CN116486244A - 基于细节增强的水下目标检测方法 - Google Patents
基于细节增强的水下目标检测方法 Download PDFInfo
- Publication number
- CN116486244A CN116486244A CN202310337305.0A CN202310337305A CN116486244A CN 116486244 A CN116486244 A CN 116486244A CN 202310337305 A CN202310337305 A CN 202310337305A CN 116486244 A CN116486244 A CN 116486244A
- Authority
- CN
- China
- Prior art keywords
- features
- convolution
- dimension
- layer
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 6
- IZUPBVBPLAPZRR-UHFFFAOYSA-N pentachlorophenol Chemical compound OC1=C(Cl)C(Cl)=C(Cl)C(Cl)=C1Cl IZUPBVBPLAPZRR-UHFFFAOYSA-N 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 229910000831 Steel Inorganic materials 0.000 claims 2
- 239000010959 steel Substances 0.000 claims 2
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000002776 aggregation Effects 0.000 abstract description 4
- 238000004220 aggregation Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 229910052500 inorganic mineral Inorganic materials 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 2
- 239000011707 mineral Substances 0.000 description 2
- 239000003208 petroleum Substances 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000512259 Ascophyllum nodosum Species 0.000 description 1
- 241001474374 Blennius Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000003345 natural gas Substances 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/05—Underwater scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/92—Dynamic range modification of images or parts thereof based on global image properties
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于细节增强的水下目标检测方法,首先获取水下目标数据,对数据进行存储、预处理和数据集划分,形成道路提取样本数据集。基于YOLO目标检测框架,构建水下目标检测网络提取网络。该算法基于细节增强的策略,在特征提取层面通过更丰富的梯度流和注意力机制加强特征提取;在特征聚合网络此外引入了感受野增强模块,增大了网络感受野,增强了模型对于纹理等特征的提取,此外设计了一个细节增强分支,增强底层细节特征特别是边缘特征,并以通道加权的形式聚合到网络,细节特征作为先验知识,能有效监督网络的学习;改进了水下检测头,其具有更多的检测层。
Description
技术领域
本发明涉及计算机视觉,深度学习,视频目标检测技术。具体涉及一种基于细节增强的目标检测方法。
背景技术
随着社会的不断发展,人口数量不断增加,各类资源的短缺问题也日益凸显,迫使人们把目光投向待开发的海洋区域。海洋中蕴含着丰富的生物和物理资源,其中包括各种鱼类、贝类、海带、海藻、海洋动物等,这些资源是人类重要的食物来源。此外,海洋中还蕴含着丰富的石油、天然气、煤等矿产资源,对于人类的经济发展至关重要。
在进行海洋相关任务之前,首要问题是确定水下目标。目前,水下目标检测主要使用两种技术:一类是基于声学的,使用声呐等设备进行目标探测;另一类是基于光学图像的。声学图像主要用于远距离、大目标的检测任务,但其无法提供颜色等细节信息,对于近距离、高精度任务无能为力。相比之下,基于光学图像的目标检测算法具有更高的精度和更丰富的细节信息,广泛应用于水下环境下的自主机器人、水下搜索与救援、水下工程等领域。例如,在海洋资源开发中,需要通过水下目标检测技术来确定海底中矿产资源、渔业资源等资源的位置、数量和状态,并对这些资源进行评估和利用。在水下考古任务中,需要利用水下目标检测技术对沉船遗骸等进行搜索和识别。在现代建设工程中,涉及到海底光缆和石油管道的建设和巡检,引入水下目标检测技术可以大大提高工作效率。此外,水下目标检测技术还可以应用于海洋环境监测、海洋生态保护等领域,帮助人们更好地了解和保护海洋资源。
在水下环境中,目标检测需要应对光照不均匀、目标被遮挡、目标与背景颜色相似、图像噪声干扰等复杂情况。为此,本专利提出一种基于细节增强的目标检测算法。以解决水下复杂场景下不同尺度目标检测的问题。
技术方案
本发明的技术解决问题是:提出一种基于细节增强的水下目标检测算法,实现对水下复杂场景下多尺度目标的检测,并保证精度和鲁棒性。
本发明的技术解决方案为:一种基于细节增强的水下目标检测算法,首先获取水下目标数据,对数据进行存储、预处理和数据集划分,形成道路提取样本数据集。基于YOLO目标检测框架,构建水下目标检测网络提取网络。该算法基于细节增强的策略,在特征提取层面通过更丰富的梯度流和注意力机制加强特征提取;在特征聚合网络此外引入了感受野增强模块,增大了网络感受野,增强了模型对于纹理等特征的提取,此外设计了一个细节增强分支,增强底层细节特征特别是边缘特征,并以通道加权的形式聚合到网络,细节特征作为先验知识,能有效监督网络的学习;改进了水下检测头,其具有更多的检测层。其具体步骤如下:
(1)获取水下目标数据集,对数据进行存储、预处理和数据集划分。并对所述图像数据进行清洗和数据增强。
(2)利用建立的水下数据集对水下目标检测算法进行训练,初始时将模型学习率设为0.01,对训练集和验证集进行200轮次训练,观察模型训练结果precision、recall,mAP等值,在确保precision与recall值相差不多的前提下,利用参数调优的方式,提高mAP值。具体步骤包括:
(a)本发明采用了一种加强了梯度分流的C2F网络,C2F类是基于CSPnet进行改进的,由两个并行的卷积块组成的模块,每个卷积块都有一个独立的计算路径。它的每一个bottleneck都进行了分流,一部分送入下一个bottleneck,一部分作为shortcut直接进行残差连接。C2F类的计算过程如下:输入特征图x通过第一个卷积块计算,生成特征图f1。特征图f1经过一个split操作,分别生成特征图f2和f2i,其中特征图f2输入bottleneck,得到特征f3,f3也经过一个split操作,分别得到特征新f3和f3i,f3输入bottleneck,得到特征f4…依次类推,最后将特征图fn和fxi(x=1,2,...n)拼接在一起,形成特征图并经过卷积输出。
(b)我们将注意力机制集成在backbone和neck的C2F模块之中。网络的特征输出fo,经过一个注意力机制模块得到最终的特征图fatt,旨在进一步提高所提出的检测模型的特征提取能力。其具体的计算如下:
第一个分支是通道注意力计算分支。输入特征经过Z-Pool,再经过卷积层和BN层,最后经过Sigmoid激活函数生成空间注意力权重。
第二个分支是通道C和空间W维度交互分支。输入特征先经过permute重新排列为(H,C,W)维度特征,接着在H维度上经过Z-Pool,再经过卷积层和BN层和Sigmoid激活函数。为方便element-wise操作。最后需要经过permuter重新排练为(C,H,W)维度特征。
第三个分支是通道C和空间H维度交互分支,输入特征先经过permute,变为(W,H,C)维度特征,接着在W维度上进行Z-Pool,再经过卷积层和BN层和Sigmoid激活函数。为方便element-wise操作。最后需要经过permuter重新排练为(C,H,W)维度特征。
最后对3个分支输出求平均值。其中Z-池层通过串联每个维度的平均池化和最大池化特征,将张量的第2个维度减少到2个。Z-pool层的优点是获得实际张量的详细表示,同时也减少了张量的深度,使下面的计算更有效率。Z池的表述为:
Z-pool(χ)=[MaxPool0d(χ),AvgPool0d(x)]#
其中,0d是第0维,最大和平均集合操作在此维度上进行。平均池化操作。例如,一个形状为(C×H×W)的张量的Z-Pool结果是一个张量形状的张量(2×H×W)。
(c)在特征提取层与特征聚合层之间引入了一个感受野扩张模块RFB,本发明的感受野扩张模块由四个分支组成。为了降低参数量,加速训练,在每个分支中,我们使用一个1×1的卷积层,降低通道数。因为相邻单元之间的强相关性,这样的降维操作损失的特征信息很少,如果输出是用于空间聚合,降维甚至会促进更快的学习。对于{bm,m>1}。我们增加两层:一个(2m-1)×(2m-1)卷积层和一个空洞系数为(2m-1)的3×3空洞卷积层。我们将这些分支的输出连接起来,并将通道减少到32个。大卷积核可以进行一些分解以降低计算量和参数量,例如大小为5*5卷积分解成两个3*3卷积核,7*7卷积分解成三个3*3卷积核,更进一步,有一种将其分解为两个不对称的卷积核,大小为(2m-1)×(2m-1)卷积,可以在分解为(2m-1)×1和1×(2m-1)两个卷积,需要注意的是,这种分解不对称卷积的方式仅仅在深层能取得比较好的效果,在浅层网络,会损失一些低级特征。本发明是RFB模块是在特征提取网络的最深层后面使用。最后还有一个shorcut直接连接到降维合并后的特征图形成残差,本发明该模块另一个改进点是参考了DenseNet[67],将bm分支的结果作为bn(n=m+1)分支的输入,前面小卷积核分支的输出特征图又经过后面分支的更大范围的空洞卷积,进一步扩大了感受野,增强了细节纹理特征,并且通过特征复用,在增加较少的参数量加强了特征传递。加入了RFB模块后,模型的感受野高效增大,有效地增强细节特征,便于定位和检测。这种级联结构让感受野尺度以特征复用的方式增加到13种,能够更加有效地在不同尺度上进行特征提取。同时这种级联结构,因为大量的特征复用,所以相比普通RFB参数量增长有限。总之嵌入改进的感受野扩张模块后不仅大幅增加感受野,而且有效地增强细节特征提取。
(d)本发明使用的细节增强模块由两个分支组成,其输入为从特征提取网络的两个低层,f1和f2分别被输入一个3×3的卷积层,降低维度,使两个分支的通道数一样,之后再经过一个3×3的卷积层进行特征提取,可以表示为:
然后,使用一个自适应加权切换器ws来学习如何权衡不同层次的注意力(i=1,2)。
这个过程可以被定义为元素相乘。
这个过程可能同时导致有价值的线索消失的问题。所以最后,经过一个拼接运算整合,来融合两个特征。
细节增强模块在提取f1和f2的特征时,并将这两个特征分别相乘,相当于在特征的通道维度上进行了一种自适应的加权,对不同方向上的特征赋予了不同的重要性。这可以看作是一种利用特征相乘的注意力机制,其复杂度较低,是线性的。尽管该模型没有显式地使用注意力机制,但在特征提取的过程中仍然具有一定的注意力机制的特征。可以很好地抑制背景噪声,并且通过调整不同分支权重,自适应地将更多的注意力放在我们关注的区域。
此外,在基本卷积单元之外,还级联了一个激活函数FRelu[69]。增加非线性拟合能力,以增强网络的表达能力。FReLU是一种面向视觉任务的激活函数。相比于ReLU,其扩展了空间条件,以增强空间敏感性,使其具有像素化建模能力。FReLU表达式如下所示,式中T(x)表示是二维空间条件。
(3)水下目标特征模型验证。将过程(2)训练轮次中最优模型保留,利用该模型对验证集进行第一轮验证生成预测集,查看预测结果较低的图片,在训练集中添加相同类别数据,使模型可以学习到该类特征。重复训练过程,直至模型精度达到可用水平,保留最优模型。
本发明与现有技术相比的优点在于:
1、在特征提取环节,重构了具有丰富梯度流信息和集成三重注意力机制的卷积层以改善特征表达能力;
2、在特征融合环节,引入了改进感受野扩张模块,借助空洞卷积,在不增加参数数量和计算复杂度的情况,使得卷积核每次在输入张量上滑动时,可以覆盖到更大的区域,得到更为广泛的上下文信息;
3、设计了一个细节增强分支,更好地融合底层特征信息,并将这些特征作为先验知识监督网络学习,细节信息提供了有用的约束条件来在物体检测过程中指导特征提取;
附图说明
图1为本发明的整体流程图。
图2为本发明的特征提取网络层。
图3为本发明的感受野扩张。
图4为本发明的细节增强分支。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
如图1所示,本发明包括以下步骤:
1、数据集预处理:本发明采用了RandomResize(随机尺度变换)和RandomCrop(随机裁剪)对图像进行随机缩放和裁剪,以及HSVRandomAug(颜色空间增强)对图像进行颜色空间增强,使用HSV分量来增加图像的亮度、饱和度和色调。我们还使用了RandomFlip(随机水平翻转)来增加数据集的多样性。这些技术可以提高数据集的多样性,从而提高模型的泛化能力。
2、对水下目标数据集进行训练,目标检测模型,具体步骤包括:构建水下目标检测网络、目标检测网络训练、目标检测网络训练测试、参数调优、存储最优模型;
(e)构建水下目标检测网:首先构建本文采用了一种加强了梯度分流的C2F网络,C2F类是基于CSPnet进行改进的,由两个并行的卷积块组成的模块,每个卷积块都有一个独立的计算路径。它的每一个bottleneck都进行了分流,一部分送入下一个bottleneck,一部分作为shortcut直接进行残差连接。C2F类的计算过程如下:输入特征图x通过第一个卷积块计算,生成特征图f1。特征图f1经过一个split操作,分别生成特征图f2和f2i,其中特征图f2输入bottleneck,得到特征f3,f3也经过一个split操作,分别得到特征新f3和f3i,f3输入bottleneck,得到特征f4…依次类推,最后将特征图fn和fxi(x=1,2,...n)拼接在一起,形成特征图并经过卷积输出。其次将注意力机制集成在backbone和neck的C2F模块之中。网络的特征输出fo,经过一个注意力机制模块得到最终的特征图fatt,旨在进一步提高所提出的检测模型的特征提取能力。其具体的计算如下:第一个分支是通道注意力计算分支。输入特征经过Z-Pool,再经过卷积层和BN层,最后经过Sigmoid激活函数生成空间注意力权重。第二个分支是通道C和空间W维度交互分支。输入特征先经过permute重新排列为(H,C,W)维度特征,接着在H维度上经过Z-Pool,再经过卷积层和BN层和Sigmoid激活函数。为方便element-wise操作。最后需要经过permuter重新排练为(C,H,W)维度特征。第三个分支是通道C和空间H维度交互分支,输入特征先经过permute,变为(W,H,C)维度特征,接着在W维度上进行Z-Pool,再经过卷积层和BN层和Sigmoid激活函数。为方便element-wise操作。最后需要经过permuter重新排练为(C,H,W)维度特征。最后对3个分支输出求平均值。其中Z-池层通过串联每个维度的平均池化和最大池化特征,将张量的第2个维度减少到2个。Z-pool层的优点是获得实际张量的详细表示,同时也减少了张量的深度,使下面的计算更有效率。Z池的表述为:
Z-pool(χ)=[MaxPool0d(χ),AvgPool0d(x)]#
其中,0d是第0维,最大和平均集合操作在此维度上进行。平均池化操作。例如,一个形状为(C×H×W)的张量的Z-Pool结果是一个张量形状的张量(2×H×W)。之后在特征提取层与特征聚合层之间引入了一个感受野扩张模块RFB,本发明的感受野扩张模块由四个分支组成。为了降低参数量,加速训练,在每个分支中,我们使用一个1×1的卷积层,降低通道数。因为相邻单元之间的强相关性,这样的降维操作损失的特征信息很少,如果输出是用于空间聚合,降维甚至会促进更快的学习。对于{bm,m>1}。我们增加两层:一个(2m-1)×(2m-1)卷积层和一个空洞系数为(2m-1)的3×3空洞卷积层。我们将这些分支的输出连接起来,并将通道减少到32个。大卷积核可以进行一些分解以降低计算量和参数量,例如大小为5*5卷积分解成两个3*3卷积核,7*7卷积分解成三个3*3卷积核,更进一步,有一种将其分解为两个不对称的卷积核,大小为(2m-1)×(2m-1)卷积,可以在分解为(2m-1)×1和1×(2m-1)两个卷积,需要注意的是,这种分解不对称卷积的方式仅仅在深层能取得比较好的效果,在浅层网络,会损失一些低级特征。本发明是RFB模块是在特征提取网络的最深层后面使用。最后还有一个shorcut直接连接到降维合并后的特征图形成残差,本发明该模块另一个改进点是参考了DenseNet[67],将bm分支的结果作为bn(n=m+1)分支的输入,前面小卷积核分支的输出特征图又经过后面分支的更大范围的空洞卷积,进一步扩大了感受野,增强了细节纹理特征,并且通过特征复用,在增加较少的参数量加强了特征传递。加入了RFB模块后,模型的感受野高效增大,有效地增强细节特征,便于定位和检测。这种级联结构让感受野尺度以特征复用的方式增加到13种,能够更加有效地在不同尺度上进行特征提取。同时这种级联结构,因为大量的特征复用,所以相比普通RFB参数量增长有限。总之嵌入改进的感受野扩张模块后不仅大幅增加感受野,而且有效地增强细节特征提取。最后使用的细节增强模块,其由两个分支组成,其输入为从特征提取网络的两个低层,f1和f2分别被输入一个3×3的卷积层,降低维度,使两个分支的通道数一样,之后再经过一个3×3的卷积层进行特征提取,可以表示为:
然后,使用一个自适应加权切换器ws来学习如何权衡不同层次的注意力(i=1,2)。这个过程可以被定义为元素相乘。
这个过程可能同时导致有价值的线索消失的问题。所以最后,经过一个拼接运算整合,来融合两个特征。细节增强模块在提取f1和f2的特征时,并将这两个特征分别相乘,相当于在特征的通道维度上进行了一种自适应的加权,对不同方向上的特征赋予了不同的重要性。这可以看作是一种利用特征相乘的注意力机制,其复杂度较低,是线性的。尽管该模型没有显式地使用注意力机制,但在特征提取的过程中仍然具有一定的注意力机制的特征。可以很好地抑制背景噪声,并且通过调整不同分支权重,自适应地将更多的注意力放在我们关注的区域。此外,在基本卷积单元之外,还级联了一个激活函数FRelu。增加非线性拟合能力,以增强网络的表达能力。FReLU是一种面向视觉任务的激活函数。相比于ReLU,其扩展了空间条件,以增强空间敏感性,使其具有像素化建模能力。FReLU表达式如下所示,式中T(x)表示是二维空间条件。
(3)水下目标检测网络训练,初始时将模型学习率设为0.01,对训练集和验证集进行200轮次训练,观察模型训练结果precision、recall,mAP等值,在确保precision与recall值相差不多的前提下,利用参数调优的方式,提高mAP值。具体步骤包括:
水下目标检测网络训练测试:将水下目标检测网络训练轮次中最优模型保留,利用该模型对测试集进行第一轮测试生成预测集,查看预测结果较低的图片,在训练集中添加相同类别数据,使模型可以学习到该类特征。
参数调优:重复模型训练和模型测试的过程,直至模型精度达到可用水平,保留最优模型,至此道路提取模型构建完成。
保留最优模型:将调优后最佳模型保留。
需要说明的是,本发明实施例的方法适用于水下复杂场景下目标检测。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (4)
1.基于细节增强的水下目标检测方法,其特征在于,该方法的具体步骤如下:
步骤(1)获取水下目标数据集,对数据进行存储、预处理和数据集划分;并对所述图像数据进行清洗和数据增强;
步骤(2)利用建立的水下数据集对水下目标检测算法进行训练,初始时将模型学习率设为0.01,对训练集和验证集进行200轮次训练,观察模型训练结果precision、recall,mAP,在确保precision与recall值相差不多的前提下,利用参数调优的方式,提高mAP值;
步骤(3)水下目标特征模型验证;将步骤(2)训练轮次中最优模型保留,利用该模型对验证集进行第一轮验证生成预测集,查看预测结果较低的图片,在训练集中添加相同类别数据,使模型学习到该类特征;重复训练过程,直至模型精度达到可用水平,并保留最优模型。
2.根据权利要求1所述的基于细节增强的水下目标检测方法,其特征在于,步骤(2)的具体步骤包括:
(a)采用加强梯度分流的C2F网络,C2F类是基于CSPnet进行改进,由两个并行的卷积块组成的模块,每个卷积块都有一个独立的计算路径;每一个bottleneck都进行分流,一部分送入下一个bottleneck,一部分作为shortcut直接进行残差连接;
(b)将注意力机制集成在backbone和neck的C2F模块之中;网络的特征输出fo,经过一个注意力机制模块得到最终的特征图fatt;
(c)在特征提取层与特征聚合层之间引入了一个感受野扩张模块RFB,感受野扩张模块RFB由四个分支组成;使用一个1×1的卷积层,降低通道数;对于{bm,m>1};增加两层:一个(2m-1)×(2m-1)卷积层和一个空洞系数为(2m-1)的3×3空洞卷积层;大卷积核进行分解以降低计算量和参数量;感受野扩张模块RFB是在特征提取网络的最深层后面使用;最后,shorcut直接连接到降维合并后的特征图形成残差,将bm分支的结果作为bn(n=m+1)分支的输入,前面小卷积核分支的输出特征图又经过后面分支的更大范围的空洞卷积扩大感受野,增强细节纹理特征;
(d)细节增强模块由两个分支组成,其输入为从特征提取网络的两个低层,f1和f2分别被输入一个3×3的卷积层,降低维度,使两个分支的通道数一样,之后再经过一个3×3的卷积层进行特征提取,表示为:
使用一个自适应加权切换器ws来学习如何权衡不同层次的注意力,被定义为元素相乘;经过一个拼接运算整合,来融合两个特征;
细节增强模块在提取f1和f2的特征时,并将这两个特征分别相乘,对不同方向上的特征赋予了不同的重要性;在基本卷积单元之外还级联一个激活函数FRelu[69],增加非线性拟合能力。
3.根据权利要求2所述的基于细节增强的水下目标检测方法,其特征在于,C2F类的计算过程如下:输入特征图x通过第一个卷积块计算,生成特征图f1;特征图f1经过一个split操作,分别生成特征图f2和f2i,其中特征图f2输入bottleneck,得到特征f3,f3也经过一个split操作,分别得到特征新f3和f3i,f3输入bottleneck,得到特征f4…依次类推,最后将特征图fn和fxi拼接在一起,形成特征图并经过卷积输出,x=1,2,...n。
4.根据权利要求2所述的基于细节增强的水下目标检测方法,其特征在于,其具体的计算如下:
第一个分支是通道注意力计算分支;输入特征经过Z-Pool,再经过卷积层和BN层,最后经过Sigmoid激活函数生成空间注意力权重;
第二个分支是通道C和空间W维度交互分支;输入特征先经过permute重新排列为(H,C,W)维度特征,接着在H维度上经过Z-Pool,再经过卷积层和BN层和Sigmoid激活函数;为方便element-wise操作;最后需要经过permuter重新排练为(C,H,W)维度特征;
第三个分支是通道C和空间H维度交互分支,输入特征先经过permute,变为(W,H,C)维度特征,接着在W维度上进行Z-Pool,再经过卷积层和BN层和Sigmoid激活函数;为方便element-wise操作;最后需要经过permuter重新排练为(C,H,W)维度特征;
最后对3个分支输出求平均值;其中Z-池层通过串联每个维度的平均池化和最大池化特征,将张量的第2个维度减少到2个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310337305.0A CN116486244A (zh) | 2023-03-31 | 2023-03-31 | 基于细节增强的水下目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310337305.0A CN116486244A (zh) | 2023-03-31 | 2023-03-31 | 基于细节增强的水下目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116486244A true CN116486244A (zh) | 2023-07-25 |
Family
ID=87216924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310337305.0A Pending CN116486244A (zh) | 2023-03-31 | 2023-03-31 | 基于细节增强的水下目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486244A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893990A (zh) * | 2024-03-18 | 2024-04-16 | 中国第一汽车股份有限公司 | 道路标志检测方法、装置和计算机设备 |
-
2023
- 2023-03-31 CN CN202310337305.0A patent/CN116486244A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893990A (zh) * | 2024-03-18 | 2024-04-16 | 中国第一汽车股份有限公司 | 道路标志检测方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112750140B (zh) | 基于信息挖掘的伪装目标图像分割方法 | |
CN109934241B (zh) | 可集成到神经网络架构中的图像多尺度信息提取方法 | |
CN109829391B (zh) | 基于级联卷积网络和对抗学习的显著性目标检测方法 | |
CN113569667B (zh) | 基于轻量级神经网络模型的内河船舶目标识别方法及系统 | |
CN112149591B (zh) | 用于sar图像的ssd-aeff自动桥梁检测方法及系统 | |
CN112465057B (zh) | 一种基于深度卷积神经网络的目标检测识别方法 | |
CN113724149B (zh) | 一种弱监督的可见光遥感图像薄云去除方法 | |
CN113408340B (zh) | 基于增强型特征金字塔的双极化sar小型船只检测方法 | |
Liao et al. | Research on intelligent damage detection of far-sea cage based on machine vision and deep learning | |
CN113468996A (zh) | 一种基于边缘细化的伪装物体检测方法 | |
CN116486244A (zh) | 基于细节增强的水下目标检测方法 | |
Diegues et al. | Automatic habitat mapping using convolutional neural networks | |
Zhang et al. | MultiResolution attention extractor for small object detection | |
CN114241587B (zh) | 人脸活体检测对抗鲁棒性的评估方法及装置 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN115115863A (zh) | 水面多尺度目标检测方法、装置及系统和存储介质 | |
Shankar et al. | Comparing YOLOV3, YOLOV5 & YOLOV7 Architectures for Underwater Marine Creatures Detection | |
CN111539434B (zh) | 基于相似度的红外弱小目标检测方法 | |
CN115860113A (zh) | 一种自对抗神经网络模型的训练方法及相关装置 | |
CN116206214A (zh) | 一种基于轻量化卷积神经网络和双注意力的自动识别滑坡方法、系统、设备及介质 | |
CN114550047B (zh) | 一种行为速率引导的视频行为识别方法 | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
Esmaeilzehi et al. | DMML: Deep Multi-Prior and Multi-Discriminator Learning for Underwater Image Enhancement | |
CN113591593B (zh) | 基于因果干预的异常天气下目标检测方法、设备及介质 | |
CN114936625B (zh) | 一种基于神经网络架构搜索的水声通信调制方式识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |