CN114594461A - 基于注意力感知与缩放因子剪枝的声呐目标检测方法 - Google Patents

基于注意力感知与缩放因子剪枝的声呐目标检测方法 Download PDF

Info

Publication number
CN114594461A
CN114594461A CN202210246394.3A CN202210246394A CN114594461A CN 114594461 A CN114594461 A CN 114594461A CN 202210246394 A CN202210246394 A CN 202210246394A CN 114594461 A CN114594461 A CN 114594461A
Authority
CN
China
Prior art keywords
attention
network
pruning
perception
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210246394.3A
Other languages
English (en)
Inventor
孔万增
胡宏洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210246394.3A priority Critical patent/CN114594461A/zh
Publication of CN114594461A publication Critical patent/CN114594461A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/52Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
    • G01S7/52001Auxiliary means for detecting or identifying sonar signals or the like, e.g. sonar jamming signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4007Interpolation-based scaling, e.g. bilinear interpolation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于注意力感知与缩放因子剪枝的声呐目标检测方法。该检测方法的过程为:步骤1、搭建注意力感知目标检测网络,注意力感知目标检测网络包括注意力感知网络、路径聚合增强网络和多尺度联合预测网络。步骤2、使用声呐数据集对步骤1所得的注意力感知网络进行训练。步骤3、使用缩放因子衡量通道的重要性并进行模型剪枝。步骤4、使用步骤3得到的剪枝模型对声呐目标进行回归与定位。本发明中针对深度学习目标检测算法应用于声呐图像目标检测时,对细长、细小目标的定位回归精度不佳及算法自身参数量大、运算复杂的问题进行改进。通过注意力感知模块获得目标的短距离形变感知与长距离依赖感知,并通过缩放因子对模型进行轻量化处理。

Description

基于注意力感知与缩放因子剪枝的声呐目标检测方法
技术领域
本发明属于人工智能与水声电子信息的技术领域,具体涉及一种基于注意力感知与缩放因子剪枝结合的声呐目标轻量级检测方法。
背景技术
声呐作为水下机器人、航行器等载具的辅助设备,为其执行海底目标探测识别、海床建模与绘图等任务提供有效的声学信息。声呐图像是声呐数据信息的一种直观表现形式。当前通过声呐图像实现海底探测的自动化、智能化已经成为一种主流的形式。
声呐图像目标检测技术是指在声呐图像的基础上,完成对感兴趣/可疑目标的检测,针对不同类的目标,给出不同类的预测结果,并提供相应的位置信息。传统的目标检测方法通常需要两步完成,首先需要进行目标与背景的前景背景分割,再通过对提取到的前景目标进行特征匹配,实现目标类别的判别回归。这种过程一般依赖于大量专业人员的先验目标工程知识,对目标特征进行手工设计,当目标出现刚性形变、遮挡等类内变化时,需要为其重新设计手工特征,而且可移植性差,特征匹配速度慢。
近年来,基于卷积神经网络的目标检测算法发展迅速,逐渐形成以R-CNN为代表的基于兴趣区域的两阶段目标检测器和YOLO为代表的一阶段回归定位目标检测器。在自然语言处理任务上表现优异的Transformers,由于其可插入性强、任务关联性紧密的特点,当前也在逐步引入到计算机视觉任务,并且表现出强大的性能。
然而深度学习是依赖于数据驱动的算法,水下声呐图像需要通过大量湖试、海试获取,获取成本高,且由于水下环境多变、目标回声复杂导致水下数据可用数据少,可用信息有限。因此对深度学习目标检测算法在复杂小样本条件下的特征提取能力的要求进一步提高。此外不断加宽加深的深度学习网络结构在训练、测试过程中大量的矩阵运算、批处理操作、函数响应激活等,对数据存储内存大小及图形处理器显存大小要求较高。学术界在追求检测精度和检测速度的同时往往忽略了算法对资源的要求。在如今深度学习网络层次架构越来越多且复杂的情况下,提出一个检测精度高、检测速度快、方便移植的轻量级目标检测模型,将其落实到工程实践中,是一个势在必行的问题。
发明内容
本发明针对当前深度学习目标检测模型应用于声呐图像目标检测的不足,提出一种基于注意力感知与缩放因子剪枝结合的声呐目标轻量级检测方法。
本发明的具体步骤如下:
1.基于注意力感知与剪枝压缩的声呐目标轻量级检测方法,其特征在于:包括以下步骤:
步骤1、搭建注意力感知目标检测网络,注意力感知目标检测网络包括注意力感知网络、路径聚合增强网络和多尺度联合预测网络。
1-1.搭建注意力感知网络;注意力感知网络包括依次相连的五个跨阶段模块;其中,第三个跨阶段模块为可变形跨阶段模块;第五个跨阶段模块为多头自注意力跨阶段模块;将第三、四、五个跨阶段模块输出的特征图分别称为特征图P3、P4、P5,用以向后输出。
1-2.搭建路径聚合增强网络;路径聚合增强网络对注意力感知网络中输出的三层特征图自下而上不断进行上采样、拼接操作融合低分辨率特征图的语义信息,自上而下进行下采样、拼接操作融合高分辨率特征图的结构信息,对特征的反复提取复用,输出三个尺度特征图。
1-3:搭建多尺度联合预测网络;多尺度联合预测网络对路径聚合增强网络输出的三个尺度特征图进行全卷积,得到检测结果;检测结果包含三层特征分类,每层均包含对声呐目标种类预测结果及预测回归框的中心点横坐标、纵坐标,长、宽、置信度的预测。
步骤2、使用声呐数据集对步骤1所得的注意力感知网络进行训练。
步骤3、使用缩放因子衡量通道的重要性并进行模型剪枝。
根据损失函数L,通过梯度下降策略对各层参数进行更新,对于在卷积层后跟有BN层的卷积核,获取其各个通道当前二维特征的缩放因子矩阵gamma和偏置beta,该缩放因子矩阵gamma表示卷积核各通道的缩放因子γ;根据预设的剪枝稀疏率确定缩放因子γ的阈值,设置掩膜矩阵,将缩放因子小于该阈值的通道的掩膜置为零,将缩放因子大于或等于该阈值的通道的掩膜置为1,得到剪枝模型。
步骤4、使用步骤3得到的剪枝模型对声呐目标进行回归与定位。
作为优选,在注意力感知网络中,第一个跨阶段模块的输入端设置有用于对输入数据进行升维操作的CBM模块。
作为优选,第三个跨阶段模块中增加通道数为2N的旁路卷积,保持卷积前后特征图尺寸不发生变化,计算卷积核沿x方向和y方向的偏移量;N为像素个数。
作为优选,第五个跨阶段模块中,对输入的特征进行步长为1的1×1卷积,以获得q向量、k向量、v向量;再对q、k、v向量沿着通道进行伸展,根据通道量进行划分实现多头机制;之后采用缩放点积的方式来计算注意力;将二维相对位置编码的方式表示的像素位置表达为r向量;对q向量进行缩放后分别与k向量的转置及r向量的转置进行点积操作,对所得两个向量相加后对进行softmax计算,将多头之间的相似度进行归一化处理,得到概率;然后用概率与v向量相乘得到注意力信息。
作为优选,注意力感知网络中,特征图P3和P4直接输出至路径聚合增强网络;特征图P5经过卷积后进入空间金字塔池化,池化后得到的特征进行拼接和卷积后,输出至路径聚合增强网络。
作为优选,路径聚合增强网络生成三个尺度特征图的过程为:特征图P5在经过卷积与最邻近插值上采样后与经过卷积后的特征图P4进行特征拼接,拼接后的特征经过1x1、3x3、1x1、3x3、1x1五次卷积后形成特征图Out4;特征图Out4上采样后,与特征图P3重复上述特征拼接和卷积操作生成特征图Out3;特征图Out3一方面作为第一尺度特征图,另一方面通过下采样再次与特征图Out4进行拼接卷积,得到第二尺度特征图;第二尺度特征图上采样后,与特征图P5重复上述特征拼接和卷积操作,得到第三尺度特征图。
作为优选,步骤2的执行过程具体如下:
2-1.对声呐图像目标训练数据集使用K-means算法聚类获取预定义锚框。
2-2.使用Mosaic增强算法对训练数据集进行增强。
2-3.对注意力感知目标检测网络实施Ranger梯度优化策略,以最小的计算开销实现任务收敛。
作为优选,步骤3中,稀疏正则化后的损失函数L的表达式如下:
Figure BDA0003545234380000031
其中,(x,y)表示训练的输入和输出,W表示训练权重,
Figure BDA0003545234380000032
为正常网络损失,g(·)表示缩放因子的正则化,γ为缩放因子,λs为惩罚系数。
正常网络损失函数LCIoU的表达式如下:
LCIoU=1-IoU+RCIoU (9)
Figure BDA0003545234380000033
其中,IoU为回归预测框与真实框间的交集、并集的比例;B、Bgt分别表示预测回归框与真实框。
RCIoU是预测回归框与真实框的惩罚项,其表达式如下:
Figure BDA0003545234380000041
其中,b、bgt表示B、Bgt的中心位置,l(·)表示欧氏距离,c表示最小包围两回归框的矩形对角距离。
a表示权重负载因子,v表示长宽比相似性,其表达式如下:
Figure BDA0003545234380000042
Figure BDA0003545234380000043
其中,wgt、hgt分别表示真实框的宽和长,w、h分别表示预测框的宽和长。
作为优选,步骤3中,BN层操作如下:
Figure BDA0003545234380000044
其中,z表示输出特征;zin表示输入特征;μB表示当前通道的平均值;
Figure BDA0003545234380000045
表示当前通道的方差;ε为稳定性参数。
作为优选,步骤4中,剪枝模型在使用前经过再训练,以微调恢复模型精度。
本发明具有的有益效果是:
本发明中针对深度学习目标检测算法应用于声呐图像目标检测时,对细长、细小目标的定位回归精度不佳及算法自身参数量大、运算复杂的问题进行改进。通过注意力感知模块获得目标的短距离形变感知与长距离依赖感知,并通过缩放因子对模型进行轻量化处理,提升模型部署于嵌入式设备的可能性。
附图说明
图1为本发明的整体流程图。
图2为本发明中基于注意力感知的声呐图像目标检测网络流程图。
图3(a)为本发明中可变形跨阶段模块的结构图。
图3(b)为本发明中多头自注意力跨阶段模块的结构图。
图4为本发明在训练过程中使用不同梯度优化策略的损失曲线图。
图5为本发明在训练过程中缩放因子变化对比图。
图6(a)和6(b)为本发明对声呐数据的目标检测效果图。
具体实施方式
以下结合附图对本发明作进一步说明。
如图1所示,一种基于注意力感知与缩放因子剪枝的声呐目标检测方法,具体包括如下步骤:
步骤1:如图2所示,搭建基于YOLOv4的注意力感知目标检测网络。
基于YOLOv4的注意力感知目标检测网络包括3个主要部分:分别为注意力感知网络、路径聚合增强网络和多尺度联合预测网络。注意力感知网络首先包含一个卷积核大小为3x3,个数为32的CBM模块(Convolution+BatchNormalize+Mish),通过CBM模块进行升维操作后,将特征图大小变为416x416x32。之后依次通过1、2x、8x、8x、4x的五组跨阶段模块,分别获得大小为208x208x64、104x104x128、52x52x256、26x26x512、13x13x1024大小的特征图。如图3(a)所示,第三个跨阶段模块为可变形跨阶段模块;如图3(b)所示,第五个跨阶段模块为多头自注意力跨阶段模块。可变形跨阶段模块增加通道数为2N的旁路卷积,保持卷积前后特征图尺寸不发生变化,计算卷积核沿x方向和y方向共两个方向的偏移量,取前两个通道,即当前卷积核处理像素点的横坐标偏移和纵坐标偏移。多头自注意力跨阶段模块对输入的特征进行步长为1的1×1卷积,以获得q向量、k向量、v向量(具体为Query、Key、Value向量)。再对q、k、v向量沿着通道进行伸展,使其根据通道量进行划分实现多头机制,每个头对应的一组通道特征图表示当前位置与整体特征图之间的相互关系。之后采用缩放点积的方式来计算注意力。将二维相对位置编码的方式表示的像素位置表达为r向量。对q向量进行缩放后分别与k向量的转置及r向量的转置进行点积操作,对所得两个向量相加后对进行softmax计算,将多头之间的相似度进行归一化处理,得到概率;然后用概率与v向量相乘得到注意力信息,实现像素与像素间的注意力感知。
将第三、四、五个跨阶段模块输出的特征图分别称为P3、P4、P5特征图。其中,P3、P4特征图用作后续特征增强,P5特征图经过1x1、3x3、1x3三次卷积后进入空间金字塔池化(Spatial Pyramid Pooling,SPP),池化后得到的特征进行拼接和卷积,使得特征图在获得更大感受野的同时,保持了原有形状,此时获得新的特征图P5。
在路径聚合增强网络中,新的特征图P5在经过卷积与最邻近插值上采样后与经过卷积后的P4特征图进行特征拼接,拼接后的特征经过1x1、3x3、1x1、3x3、1x1五次卷积后形成特征图Out4。特征图Out4上采样后,与特征图P3重复上述特征拼接和卷积操作生成特征图Out3。特征图Out3一方面作为第一尺度特征图,输出到DetectionHead,另一方面通过下采样再次与特征图Out4进行拼接卷积,得到第二尺度特征图,输出到DetectionHead。第二尺度特征图上采样后,与新的特征图P5重复上述特征拼接和卷积操作,生成输出到DetectionHead的第三尺度特征图。
多尺度联合预测网络对输入的三个尺度特征图(尺度分别为52x52、26x26、13x13)分别进行全卷积操作(所得结果维度分别为(52,52,21),(26,26,21),(13,13,21))。全卷积操作包括3x3卷积层、批归一化处理层、LeakyRelu激活函数层、1x1卷积预测层。其中,1x1卷积预测层的通道数量表示为Cout,计算方式如下:
Cout=B*(C+5) (1)
其中,B表示在每个尺度上的锚框数量,本实施例中共有9个锚框,每个尺度存在3个锚框;C表示目标种类数,本实施例中共有两个目标种类,分别为线状、柱状目标;数字5对应的五个通道分别为中心点横坐标、纵坐标、长、宽、置信度的预测。
步骤2:使用声呐数据集对步骤1所得的注意力感知网络进行训练。
2-1.对声呐图像目标训练数据集使用K-means算法聚类获取预定义锚框,K-means聚类为现有成熟技术,故在此不做详解,最终获得聚类锚框数量为9,尺寸分别为[15,15]、[11,34]、[13,31]、[15,34]、[16,46]、[136,11]、[415,4]、[343,46]、[416,64],分别对应小、中、大三个尺度大小的目标进行预测,预定义锚框与训练集检测框平均交并比为0.84。
2-2.使用Mosaic增强算法对训练数据集进行增强,使检测数据里包含丰富的背景、目标,且每个批处理归一化层能够计算4张不同图片的激活信息,减小mini-batch的大小。具体过程为对一个batch中随机取出的四张图片进行翻转、裁剪、平移、颜色空间变化等操作后,沿一个随机的十字线进行裁剪、拼接,重复batch size次后获得增强后的一个batch数据,传给注意力感知目标检测网络训练
步骤2-3:对增强后的注意力感知目标检测网络实施Ranger梯度优化策略,以最小的计算开销,实现任务的更快收敛。Ranger梯度优化策略通过AdamW与LookAhead优化器相结合能够根据方差调整Adam的自适应动量,有效提供自动预热,并通过额外的权重副本,使权重更新更快,训练更加稳定。
AdamW对自适应学习率Adam引入解耦权重衰减,在梯度更新时对权重指数衰减,实现惩罚项与学习率之间的解耦。对于AdamW的梯度优化流程如下:
Figure BDA0003545234380000061
θt←θt-1-γλθt-1 (3)
mt←β1mt-1+(1-β1)gt (4)
Figure BDA0003545234380000071
Figure BDA0003545234380000072
Figure BDA0003545234380000073
其中,gt表示损失函数f(θ)的梯度优化结果;t表示当前迭代轮数;θt表示在学习率γ、权重衰减因子λ的约束下更新的参数θ;mt表示在惩罚因子β1的约束下更新的第一动量m;vt表示在惩罚因子β2的约束下更新的第二动量v;
Figure BDA0003545234380000074
Figure BDA0003545234380000075
分别为第一动量m和第二动量v通过平均梯度方向修正得到更新值。
LookAhead优化器会维护两份模型参数,其中每次更新k步的权重称为“快权重”,每次更新一步权重称为“慢权重”。通过AdamW优化器对权重参数更新后,在权重空间内线性插值,对“慢权重”进行更新,“慢权重”拥有自己的学习率。权重每当参数经过k步更新,回望一次,利用指数移动平均算法对梯度下降方向进行约束,借助于“慢权重”的更新对下降速度快的“快权重”回拉,使其更容易跃出局部最优点的谷底。
步骤3:使用缩放因子衡量通道的重要性,并据此进行模型剪枝
基于缩放因子的剪枝压缩无需对现有的CNN架构引入任何更改,通过L1正则化将BN缩放因子推向零,由此识别出无用的通道(或神经元)。
对于批归一化处理层而言,其每个缩放因子值对应当前批次输出同一通道层面的相应激活特征,当前通道激活特征不明显即缩放因子接近于零时表示通道的冗余性。通过缩放因子的排序,对当前卷积层实施通道级别的裁剪,缩放因子在训练过程中不断对权重进行正则归一化,获得稀疏解。
其训练过程中的稀疏正则化后损失函数L的表达式如下:
Figure BDA0003545234380000076
其中,(x,y)表示训练的输入和输出,W表示训练权重,
Figure BDA0003545234380000077
为正常网络损失,g(·)表示缩放因子的正则化,使用L1正则化,γ为缩放因子,λs为惩罚系数。
正常网络损失函数LCIoU的表达式如式(9)所示:
LCIoU=1-IoU+RCIoU (9)
Figure BDA0003545234380000078
其中,IoU为回归预测框与真实框间的交集、并集的比例;B、Bgt分别表示预测回归框与真实框;RCIoU是预测回归框与真实框的惩罚项,其表达式如式(11)所示。
Figure BDA0003545234380000081
其中,b、bgt表示B、Bgt的中心位置,l(·)表示欧氏距离,c表示最小包围两回归框的矩形对角距离,a表示权重负载因子,v表示长宽比相似性,计算公式如下:
Figure BDA0003545234380000082
Figure BDA0003545234380000083
其中,wgt、hgt分别表示真实框的宽和长,w、h分别表示预测框的宽和长。
根据损失函数L,通过梯度下降策略对各层参数进行更新,对于在卷积层后跟有BN层的卷积核,获取其各个通道当前二维特征的缩放因子矩阵gamma和偏置beta,该缩放因子矩阵gamma表示卷积核各通道的缩放因子γ,对网络层中所有含有缩放因子的卷积核,根据缩放因子大小进行排序。根据预设的剪枝稀疏率确定缩放因子γ的阈值,设置掩膜矩阵,将缩放因子小于该阈值的通道的掩膜置为零,将缩放因子大于或等于该阈值的通道的掩膜置为1,得到剪枝模型。其中BN层操作如下:
Figure BDA0003545234380000084
其中,z表示输出特征;zin表示输入特征;μB表示当前通道的平均值;
Figure BDA0003545234380000085
表示当前通道的方差;ε为稳定性参数;gamma、beta表示可以学习到的缩放因子矩阵和偏置。
剪枝过程中缩放因子γ的分布变化如图5所示,图5中a部分表示惩罚因子为0时的缩放因子系数;图5中b部分表示惩罚因子为1e-4时的缩放因子系数,各通道具有明显区分度,且大多数通道对模型的贡献度小,进行权重映射时,小的缩放因子γ映射经过卷积后的通道很难激活,可以将其作为冗余通道,使用掩膜矩阵将其置0。
在本实施例中,针对解决模型剪枝后精度丢失的问题,为检测模型精度,本实施例采用模型训练后剪枝,即先对基于注意力感知的声呐图像目标检测模型进行训练,训练后针对不同的剪枝稀疏率,对不同网络层中的滤波器进行剪枝,为保留注意力感知模块的性能,模型主要完成对普通卷积进行剪枝操作,剪枝完成获取滤波器掩码,根据掩码将冗余滤波器的参数置零。
步骤4:剪枝模型对于声呐目标的回归与定位。
对步骤3得到的剪枝模型进行再训练,微调训练模型恢复模型精度;之后,使用微调后所得模型进行声呐目标的检测。
由表1可以看出,对注意力感知模型剪枝30%后,能够与未剪枝的注意力感知模型精度相同且检测速度更快,经过70%剪枝率的结构化剪枝后,在交并比阈值为0.5的粗粒度检测中AP值达0.884,在交并比为0.75的细粒度检测中AP值达到0.694,模型总参数量减少33.66M,总计算量减少15.61G,将检测速度提升至44.7FPS。
表1模型性能指标量化
Figure BDA0003545234380000091
表中input表示输出图像尺寸,mAP、FPS、Params、Flops等常用指标定义如下:
mAP作为目标检测模型常用的性能指标,可以客观的表示模型进行多类别下预测的综合表现,其计算公式定义如下:
Figure BDA0003545234380000092
其中,APi表示每个类别的平均精准度,m表示检测的类别数。
Flops表示浮点运算数,用来衡量模型实际运算量。以常见卷积操作为例,单层卷积浮点运算量表示如下:
Flops=2HWCinK2Cout+HWCout (17)
其中Cin表示输出特征图通道数量,Cout表示输出特征图通道数量,则当前卷积操作包括Cout个Cin×K×K个卷积核,当前输入表示为H×W×Cin
参数量表示模型所含参数数量,同样以卷积操作为例,单次卷积所需参数量表示如下:
Params=K2CinCout+Cout (18)
其中等式右边第一项表示Cout个Cin×K×K个卷积核的参数量,第二项表示偏置的参数量。
由表1可以看出,对注意力感知模型剪枝30%后,能够与未剪枝的注意力感知模型精度相同在交并比阈值为0.5的粗粒度检测中AP值达0.983,在交并比为0.75的细粒度检测中AP值达到0.773且检测速度更快达到27.3FPS,模型参数量减少16M,浮点运算量减少7.18G。经过70%剪枝率的结构化剪枝后,在交并比阈值为0.5的粗粒度检测中AP值达0.884,在交并比为0.75的细粒度检测中AP值达到0.694,模型总参数量减少33.66M,总计算量减少15.61G,将检测速度提升至44.7FPS。
本实施例最终检测结果如图6(a)和6(b)所示。可以看出,在实现轻量化的同时,本实施例所得模型依然能够精准识别出线状和柱状目标。

Claims (10)

1.基于注意力感知与剪枝压缩的声呐目标轻量级检测方法,其特征在于:包括以下步骤:
步骤1、搭建注意力感知目标检测网络,注意力感知目标检测网络包括注意力感知网络、路径聚合增强网络和多尺度联合预测网络;
1-1.搭建注意力感知网络;注意力感知网络包括依次相连的五个跨阶段模块;其中,第三个跨阶段模块为可变形跨阶段模块;第五个跨阶段模块为多头自注意力跨阶段模块;将第三、四、五个跨阶段模块输出的特征图分别称为特征图P3、P4、P5,用以向后输出;
1-2.搭建路径聚合增强网络;路径聚合增强网络对注意力感知网络中输出的三层特征图自下而上不断进行上采样、拼接操作融合低分辨率特征图的语义信息,自上而下进行下采样、拼接操作融合高分辨率特征图的结构信息,对特征的反复提取复用,输出三个尺度特征图;
1-3:搭建多尺度联合预测网络;多尺度联合预测网络对路径聚合增强网络输出的三个尺度特征图进行全卷积,得到检测结果;检测结果包含三层特征分类,每层均包含对声呐目标种类预测结果及预测回归框的中心点横坐标、纵坐标,长、宽、置信度的预测;
步骤2、使用声呐数据集对步骤1所得的注意力感知网络进行训练;
步骤3、使用缩放因子衡量通道的重要性并进行模型剪枝;
根据损失函数L,通过梯度下降策略对各层参数进行更新,对于在卷积层后跟有BN层的卷积核,获取其各个通道当前二维特征的缩放因子矩阵gamma和偏置beta,该缩放因子矩阵gamma表示卷积核各通道的缩放因子γ;根据预设的剪枝稀疏率确定缩放因子γ的阈值,设置掩膜矩阵,将缩放因子小于该阈值的通道的掩膜置为零,将缩放因子大于或等于该阈值的通道的掩膜置为1,得到剪枝模型;
步骤4、使用步骤3得到的剪枝模型对声呐目标进行回归与定位。
2.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法,其特征在于:在注意力感知网络中,第一个跨阶段模块的输入端设置有用于对输入数据进行升维操作的CBM模块。
3.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法,其特征在于:第三个跨阶段模块中增加通道数为2N的旁路卷积,保持卷积前后特征图尺寸不发生变化,计算卷积核沿x方向和y方向的偏移量;N为像素个数。
4.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法,其特征在于:第五个跨阶段模块中,对输入的特征进行步长为1的1×1卷积,以获得q向量、k向量、v向量;再对q、k、v向量沿着通道进行伸展,根据通道量进行划分实现多头机制;之后采用缩放点积的方式来计算注意力;将二维相对位置编码的方式表示的像素位置表达为r向量;对q向量进行缩放后分别与k向量的转置及r向量的转置进行点积操作,对所得两个向量相加后对进行softmax计算,将多头之间的相似度进行归一化处理,得到概率;然后用概率与v向量相乘得到注意力信息。
5.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法,其特征在于:注意力感知网络中,特征图P3和P4直接输出至路径聚合增强网络;特征图P5经过卷积后进入空间金字塔池化,池化后得到的特征进行拼接和卷积后,输出至路径聚合增强网络。
6.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法,其特征在于:路径聚合增强网络生成三个尺度特征图的过程为:特征图P5在经过卷积与最邻近插值上采样后与经过卷积后的特征图P4进行特征拼接,拼接后的特征经过1x1、3x3、1x1、3x3、1x1五次卷积后形成特征图Out4;特征图Out4上采样后,与特征图P3重复上述特征拼接和卷积操作生成特征图Out3;特征图Out3一方面作为第一尺度特征图,另一方面通过下采样再次与特征图Out4进行拼接卷积,得到第二尺度特征图;第二尺度特征图上采样后,与特征图P5重复上述特征拼接和卷积操作,得到第三尺度特征图。
7.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法,其特征在于:步骤2的执行过程具体如下:
2-1.对声呐图像目标训练数据集使用K-means算法聚类获取预定义锚框;
2-2.使用Mosaic增强算法对训练数据集进行增强;
2-3.对注意力感知目标检测网络实施Ranger梯度优化策略,以最小的计算开销实现任务收敛。
8.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法,其特征在于:步骤3中,稀疏正则化后的损失函数L的表达式如下:
Figure FDA0003545234370000021
其中,(x,y)表示训练的输入和输出,W表示训练权重,
Figure FDA0003545234370000022
为正常网络损失,g(·)表示缩放因子的正则化,γ为缩放因子,λs为惩罚系数;
正常网络损失函数LCIoU的表达式如下:
LCIoU=1-IoU+RCIoU (9)
Figure FDA0003545234370000031
其中,IoU为回归预测框与真实框间的交集、并集的比例;B、Bgt分别表示预测回归框与真实框;
RCIoU是预测回归框与真实框的惩罚项,其表达式如下:
Figure FDA0003545234370000032
其中,b、bgt表示B、Bgt的中心位置,l(·)表示欧氏距离,c表示最小包围两回归框的矩形对角距离;
a表示权重负载因子,v表示长宽比相似性,其表达式如下:
Figure FDA0003545234370000033
Figure FDA0003545234370000034
其中,wgt、hgt分别表示真实框的宽和长,w、h分别表示预测框的宽和长。
9.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法,其特征在于:步骤3中,BN层操作如下:
Figure FDA0003545234370000035
其中,z表示输出特征;zin表示输入特征;μB表示当前通道的平均值;
Figure FDA0003545234370000036
表示当前通道的方差;ε为稳定性参数。
10.根据权利要求1所述的基于注意力感知与剪枝压缩的声呐目标轻量级检测方法,其特征在于:步骤4中,剪枝模型在使用前经过再训练,以微调恢复模型精度。
CN202210246394.3A 2022-03-14 2022-03-14 基于注意力感知与缩放因子剪枝的声呐目标检测方法 Pending CN114594461A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210246394.3A CN114594461A (zh) 2022-03-14 2022-03-14 基于注意力感知与缩放因子剪枝的声呐目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210246394.3A CN114594461A (zh) 2022-03-14 2022-03-14 基于注意力感知与缩放因子剪枝的声呐目标检测方法

Publications (1)

Publication Number Publication Date
CN114594461A true CN114594461A (zh) 2022-06-07

Family

ID=81817140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210246394.3A Pending CN114594461A (zh) 2022-03-14 2022-03-14 基于注意力感知与缩放因子剪枝的声呐目标检测方法

Country Status (1)

Country Link
CN (1) CN114594461A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913441A (zh) * 2022-06-28 2022-08-16 湖南大学 通道剪枝方法、目标检测方法及遥感图像车辆检测方法
CN114972976A (zh) * 2022-07-29 2022-08-30 之江实验室 基于频域自注意力机制的夜间目标检测、训练方法及装置
CN115730654A (zh) * 2022-11-23 2023-03-03 湖南大学 层剪枝方法、厨余垃圾检测方法及遥感图像车辆检测方法
CN115829024A (zh) * 2023-02-14 2023-03-21 山东浪潮科学研究院有限公司 一种模型训练方法、装置、设备及存储介质
CN116883980A (zh) * 2023-09-04 2023-10-13 国网湖北省电力有限公司超高压公司 一种紫外光绝缘子目标检测方法及系统
CN115730654B (zh) * 2022-11-23 2024-05-14 湖南大学 层剪枝方法、厨余垃圾检测方法及遥感图像车辆检测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913441A (zh) * 2022-06-28 2022-08-16 湖南大学 通道剪枝方法、目标检测方法及遥感图像车辆检测方法
CN114913441B (zh) * 2022-06-28 2024-04-16 湖南大学 通道剪枝方法、目标检测方法及遥感图像车辆检测方法
CN114972976A (zh) * 2022-07-29 2022-08-30 之江实验室 基于频域自注意力机制的夜间目标检测、训练方法及装置
CN114972976B (zh) * 2022-07-29 2022-12-20 之江实验室 基于频域自注意力机制的夜间目标检测、训练方法及装置
CN115730654A (zh) * 2022-11-23 2023-03-03 湖南大学 层剪枝方法、厨余垃圾检测方法及遥感图像车辆检测方法
CN115730654B (zh) * 2022-11-23 2024-05-14 湖南大学 层剪枝方法、厨余垃圾检测方法及遥感图像车辆检测方法
CN115829024A (zh) * 2023-02-14 2023-03-21 山东浪潮科学研究院有限公司 一种模型训练方法、装置、设备及存储介质
CN116883980A (zh) * 2023-09-04 2023-10-13 国网湖北省电力有限公司超高压公司 一种紫外光绝缘子目标检测方法及系统

Similar Documents

Publication Publication Date Title
CN110135267B (zh) 一种大场景sar图像细微目标检测方法
CN114594461A (zh) 基于注意力感知与缩放因子剪枝的声呐目标检测方法
US20230169623A1 (en) Synthetic aperture radar (sar) image target detection method
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
WO2022095253A1 (zh) 一种基于深度通道感知的去除云雾方法
CN115147731A (zh) 一种基于全空间编码注意力模块的sar图像目标检测方法
CN113705331B (zh) 一种基于四元特征金字塔网络的sar船只检测方法
CN115565043A (zh) 结合多表征特征以及目标预测法进行目标检测的方法
CN113743417A (zh) 语义分割方法和语义分割装置
CN113962281A (zh) 基于Siamese-RFB的无人机目标跟踪方法
CN115393690A (zh) 一种轻量化神经网络的空对地观测多目标识别方法
CN109345497B (zh) 基于模糊算子的图像融合处理方法及系统、计算机程序
CN114511785A (zh) 基于瓶颈注意力模块的遥感图像云检测方法及系统
CN114170154A (zh) 基于Transformer的遥感VHR图像变化检测方法
CN117034090A (zh) 模型参数调整、模型应用方法、装置、设备及介质
CN115620120B (zh) 街景图像多尺度高维特征构建量化方法、设备及存储介质
CN116863293A (zh) 一种基于改进YOLOv7算法的可见光下海上目标检测方法
Zhu et al. Progressive kernel pruning CNN compression method with an adjustable input channel
CN116168235A (zh) 一种基于双分支注意力网络的高光谱图像分类方法
CN115423090A (zh) 一种面向细粒度识别的类增量学习方法
CN116758363A (zh) 一种权重自适应与任务解耦的旋转目标检测器
Liu et al. Multi-task learning based on geometric invariance discriminative features
CN113935473A (zh) 深度学习神经网络的优化方法及应用方法
Ko et al. Magnitude and uncertainty pruning criterion for neural networks
CN113989665B (zh) 一种基于路由聚合感知fpn的sar船只检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination