CN118135389A - 一种基于有效感受野调控的水下声学目标识别方法 - Google Patents
一种基于有效感受野调控的水下声学目标识别方法 Download PDFInfo
- Publication number
- CN118135389A CN118135389A CN202410547532.0A CN202410547532A CN118135389A CN 118135389 A CN118135389 A CN 118135389A CN 202410547532 A CN202410547532 A CN 202410547532A CN 118135389 A CN118135389 A CN 118135389A
- Authority
- CN
- China
- Prior art keywords
- size
- module
- branch
- convolution
- kernel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 45
- 238000005070 sampling Methods 0.000 claims description 30
- 230000003044 adaptive effect Effects 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 18
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 17
- 230000003993 interaction Effects 0.000 claims description 14
- 230000001965 increasing effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 abstract description 9
- 230000002452 interceptive effect Effects 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 19
- 230000008859 change Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012512 characterization method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/30—Assessment of water resources
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于有效感受野(Effective Receptive Field,以下简称ERF)调控的水下声学目标识别方法,提出的AEU‑Net模型具有多个分辨率支路,每个分辨率支路拥有单独的卷积核,各自会在训练过程中在与分辨率匹配的前提下自适应调整尺寸;AEU‑Net模型包含一个可调控前向传播过程中有效感受野的ERF‑Server,其具有提升或降低指定的任一模块的特征图有效感受野的两种操作。本发明可以在多个交互维度捕获水声目标样本的声学物理信息,并进行多个尺度有效感受野信息的特征融合,以适应不同尺寸的声呐图像目标,提高对水下声学目标进行识别时的准确度和识别速度。
Description
技术领域
本发明涉及海洋水下目标识别领域,尤其涉及一种基于有效感受野调控的水下声学目标识别方法。
背景技术
水下声学目标识别本质上属于图像处理问题,通常采用语义分割模型基于从图像中提取出的特征信息对图像的各个像素点进行预测,目前主流水声数据集上的语义分割任务主要受到复杂的海洋环境(如物体遮挡、目标姿态改变、多重目标、光照不均衡)、噪声干扰强等问题影响;且水下声学目标识别的数据集样本包含大量声学物理信息,对模型在空间上的全局感知能力非常敏感。目前基于深度学习的识别方法在性能指标与实时性上较基于时频的方法显现出巨大的优势,已成为领域内的主流方法。
有效感受野的概念是相对理论感受野提出的,有效感受野只占理论感受野的一小部分,且随着层数的增加,模型的有效感受野在理论感受野中所占的比例减少,二者比值的收缩速度也会变小,所以仅靠层数的堆叠,到层数较大时对模型ERF的提升不大。目前相关领域内缺少基于深度学习模型,尤其是基于有效感受野视觉模型的研究。
现有的大部分卷积的视觉模型都基于ResNet所提出的小核残差块,其尺寸为3*3,这意味着即使做到很深的层数也无法获得很大的ERF;在水下声学目标识别任务中,由于频域信息均匀分布在整张样本中,此类在通用数据集上使用的模型无法提取足够且全局的信息。即便使用小核的网络如高分辨率网络(High-Resolution Network,以下简称HRNet)通过多路交互和全局维持高分辨表征来获取更好的空间敏感度,但由于ERF资源的不足而无法在水下声学目标数据集上表现良好。同时,现有的针对多路分辨率表征、与不同尺寸卷积核、亦或是直接针对有效感受野的模型研究中,主要的研究思路都是建立在这些对高低、大小不同的表征(特征语义信息)或卷积核(特征语义提取手段)的各自的实验上(例如HRNet中采用的均为3*3残差块,而RepLKNet并未进行多路分辨率融合的考虑),并且往往都取得了不错的效果。然而,对于两者均进行多尺度,并且针对其匹配与自适应关系的探索却并较为少见。另一方面,在诸如vision transformer、swin transformer(以下简称ViTs)等视觉模型中已经大范围证明有效感受野的有效性了,它们在众多计算机视觉下游任务中表现强悍,被认为是归因于模型设计中携带的大参数量带来了一部分有效感受野的提升。
发明内容
针对现有技术的不足,本发明提出一种基于有效感受野调控的水下声学目标识别方法,该方法直接从与ERF成正相关关系的核尺寸上进行设计,针对性地提取多尺度ERF信息并进行融合与交互。
具体技术方案如下:
一种基于有效感受野调控的水下声学目标识别方法,包括以下步骤:
S1:组建逐像素具有标签的水下声呐分割图像数据集;
S2:以U-Net为基础构建并训练AEU-Net模型,具体通过如下子步骤实现:
S2.1:将高分辨率网络的信息交互模块嵌入U-Net的每个单一分辨率模块中,使每个模块扩充为第一和第二两个分辨率支路;原始图像经过一个预处理卷积层后进行下采样,在下采样阶段,上一模块的第一支路输出通过跳越连接输入上采样阶段对应模块的第一支路中,所述对应模块的判断依据为特征图的分辨率相同;上一模块的第二支路输出分为两路,一路通过步长为1的残差块卷积后,作为下一模块的第一支路输入,另一路同时通过步长为2的残差块下采样后,作为下一模块的第二支路输入;在上采样过程中,上一模块的第一支路输出经过上采样后输入至下一模块的第一支路,上一模块的第一支路输出经过步长为1的残差块卷积后,作为下一模块的第二支路输入;将上采样阶段每一模块的第二支路输出在通道维度上进行拼接后,依次经过一维卷积和全连接层,输出分类标签;
S2.2:对每个支路的卷积核,使用逐通道卷积进行重构,所述逐通道卷积具有自适应尺寸卷积核,其尺寸与各支路特征图分辨率匹配;
S2.3:构建用于实现跳越连接的ERF-Server网络支路,完成AEU-Net模型的构建;ERF-Server网络支路包括U-Serve和D-Serve两种操作,对于下采样每个模块输出的特征图表征,经过U-Serve的大核卷积块后得到有效感受野ERF提升后的新语义信息;对于下采样每个模块输出的特征图表征,经过D-Serve的固定尺寸为3*3的残差卷积块后,得到ERF降低后的新语义信息;将上采样阶段的对应模块的前一模块第一支路的上采样输出,以及U-Serve的输出、D-Serve的输出,按通道分配系数拼接至上采样阶段的对应模块中;
S2.4:将水下声呐分割图像数据集输入AEU-Net中进行训练,得到训练好的AEU-Net模型;训练时自适应尺寸卷积核的核尺寸,在当前模块的特征图预设的核尺寸区间内进行调整,训练目标是使自适应尺寸卷积核的损失函数最小;
S3:将待测试的水下声呐分割图像输入训练好的AEU-Net模型,得到识别结果。
进一步地,所述S2.2中,逐通道卷积的一个卷积核负责一个通道,一个通道只被一个卷积核卷积,且卷积完成后的特征图通道数量与输入的通道数相同;自适应尺寸卷积核通过各自的损失函数控制核尺寸的大小。
进一步地,训练时自适应尺寸卷积核损失函数的更新逻辑为:自适应尺寸卷积核的损失函数根据每次训练不同类别样本的预测像素点与真实标签中像素点的差异,指导自适应卷积核进行核尺寸的选择与更新。
基于训练时自适应尺寸卷积核损失函数的更新逻辑,将水下声呐分割图像数据集的识别目标人为设定分为第一目标物和第二目标物两类,若第一目标物的预测像素与其真实标签相比有误定位或填充不充分的情况,则对应损失函数变大,此时,增大自适应卷积核的核尺寸来降低损失函数;反之,若第二目标物的预测像素与真实标签相比有漏检或误判的情况,则对应损失函数变大,此时,通过减小自适应卷积核的核尺寸来降低损失函数;所述损失函数的表达式如下:
式中,kp为当前模块自适应卷积核的尺寸与第一目标、第二目标的预测偏差在量纲上归一化后的值。
进一步地,所述小目标预测偏差用Hausdorff距离表示,具体公式如下:
所述大目标预测偏差用Dice系数表示,具体公式如下:
式中,A={a 1,a 2,…,a p},B={b 1,b 2,…,b p},集合A是预测像素点集,集合B是真实标签像素点集,||a-b||代表两个像素点之间的欧氏距离。
进一步地,所述自适应卷积核的核尺寸在当前模块的特征图预设的核尺寸区间中进行调整,且不同分辨率的特征图所对应的核尺寸区间互不重合;所述核尺寸区间由尺寸函数确定,表达式如下:
;
;
式中,km为自适应卷积核的核尺寸区间的中值,f(r)为尺寸函数,r为当前模块特征图表征的尺寸大小。
进一步地,选用双线性插值进行上采样。
进一步地,所述S2.3中,通道分配通过通道分配系数实现,通道分配系数Ck是一个预设的超参数,是一个1*3的向量,每个分量介于0到1之间且总和为1,代表D-Serve输出、U-Serve输出和上采样阶段的对应模块的前一模块第一支路的上采样输出这三组特征图的比例,在分配时对通道数取整。
进一步地,所述S2.4中,获得整个AEU-Net模型每个模块的特征图的ERF分布情况,其中真实的ERF通过每个支路的自适应尺寸卷积核的尺寸与其经历的卷积层数计算,表达式如下:
即
式中,为第n层卷积层输出像素值Sn的标准差;(i,j)为k×k的自适应尺寸卷积核中第i行第j列元素的索引;k为对水下声学目标信号各个模块的特征图进行卷积的自适应尺寸卷积核的尺寸,n为原始图像自输入起至本层卷积层所累计的堆叠层数。
一种电子设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现所述的基于有效感受野调控的水下声学目标识别方法。
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的基于有效感受野调控的水下声学目标识别方法。
本发明的有益效果是:
(1)本发明构建的AEU-Net模型,基于计算机视觉领域内的通用模型U-Net与HRNet,通过一个独立设计的称为ERF-Server的网络支路,针对水下声学数据集进行特化,可以将原本随网络结构固定的有效感受野属性变为可调控和训练的,进一步也可以利用此特性让模型各个模块更好地提取水下声学数据集中的物理特征,对从大到小的各个尺度ERF的语义信息进行融合,实现对不同大小尺度的声呐目标的识别准确度与适应性。
(2)本发明提出的卷积核尺寸与特征图分辨率大小进行匹配的结构,可以通过大核提取高分辨率表征中更丰富的全局信息和目标形状信息,用小核提取低分辨率表征中更精细的局部纹理信息,而非同先前的网络全程使用偏大的卷积核组或偏小的3×3残差快。能够在提升性能效果的前提下,相比应用在标准数据集上常用的大核尺寸组,可以显著地减小参数量,提高训练速度,使得模型能应用于水下等对实时性要求较高的场景下。
(3)本发明提出的AEU-Net模型具有重构过的自适应多尺度信息交互模块,在每个分辨率模块使用匹配的卷积核高效提取当前尺度的不同信息,并且补充以前置下采样模块通过ERF-Server调整后的两个语义支路U-Serve和D-Serve所得到的特征图语义信息,让当前尺寸分辨率匹配语义信息、全局大有效感受野信息、全局小感受野信息这三者融合,并且相比全局大核的设计能够在较小参数量的情况下换取从语义资源与有效感受野两个尺度的资源上进行信息的融合,进而提高对物理信息覆盖在整个样本图像上、对全局感知能力要求高的水下声学目标图像的特征提取能力。
附图说明
图1为本发明实施例中基于有效感受野调控的水下声学目标识别方法的流程图。
图2为本发明实施例中构建的AEU-Net的主干网络示意图。
图3为本发明实施例中可变核尺寸中值与特征图表征尺寸的匹配示意图。
图4为本发明和现有技术的ERF-Server的效果对比示例。
图5为本发明实施例中上采样过程中每个分辨率模块三个维度信息的融合细节示意图。
图6是本发明实施例中用于实现基于有效感受野调控的水下声学目标识别方法的电子设备的示意图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一种基于有效感受野调控的水下声学目标识别方法,包括以下步骤:
S1:组建水下声呐分割图像数据集,该数据集中,每张水下声呐分割图像的每个像素均具有标签。
目前水声目标识别领域数据集的数量相对较少,而其中水下声学声呐图像目标水声识别分类是一个具有挑战性的问题,本实施例中,水下声呐分割图像由Tritech Tritech1200i侧扫声呐采集。采集到的水下声呐分割图像是侧扫声呐原始回波强度信息的二维矩阵形式,图像存储为bmp、分辨率为12000×8200像素的格式。
S2:以U形网络(U-shape Network,以下简称U-Net)为基础构建并训练AEU-Net(可调控有效感受野U形网络,Adjustable Effective Receptive Field U-shape Network)模型。
如图1所示,AEU-Net包括:下采样阶段、上采样阶段、ERF-Server网络支路;用HRNet的信息交互模块对U-Net的每个单一分辨率模块进行扩展,使原先模块拥有两个分辨率支路,其中第一支路为原始分辨率、第二支路为原始分辨率的1/2。原始图像经过预处理卷积层后输入下采样阶段,下采样阶段每一模块的输出在传输至下一模块的同时,通过ERF-Server跳越连接至对应的上采样模块;ERF-Server具体指U-Serve和D-Serve这两个操作共同作用,获得ERF改变后的特征表征;下采样阶段每一模块下采样过程中采用自适应尺寸卷积核进行补偿。将上采样阶段每一模块的输出在通道维度上进行拼接,如此,每个上采样阶段都拥有三组特征图来源(即输入),分别是:前一模块第一支路上采样的输出、ERF-Server中U-Serve的输出、ERF-Server中D-Serve的输出,这三者依据通道分配系数Ck进行通道上的拼接融合,通道分配系数会给这三组特征图各自一个比例且总和为1。最后对每个上采样模块的输出进行拼接,在不丢失任何通道的前提下,获得融合的特征,该融合特征包含多尺度信息;最后进行一维卷积后经过全连接层,输出分类标签,完成识别。
S2具体通过如下子步骤实现:
S2.1:将HRNet的信息交互模块嵌入U-Net的单一分辨率模块中(即嵌入每个模块中),获得一个增强全局信息感知能力的U形高分辨率特征提取网络。
具体的,将上采样阶段和下采样阶段作为主干网络,上采样阶段、下采样阶段与跳越连接的语义信息恢复均来源于U-Net本身的结构,U-Net用于提取图像的特征。在进入主干网络前,原始图像首先输入一个预处理卷积层,将分辨率下采样至原图尺寸的1/4,作为主干网络的最初输入,下采样阶段的每个模块将特征图通过步长为2的卷积操作逐级减小一半的分辨率,在这个过程中语义信息随着卷积的进行逐渐变得底层而抽象,它可以增加对输入图像的一些小扰动的鲁棒性,比如图像平移、旋转等,还能减少过拟合的风险,降低运算量,增加感受野的大小。跳越连接将下采样阶段的某个模块的输出作为上采样阶段的对应模块(指分辨率相同的模块)的输入。
HRNet的信息交互模块嵌入U-Net的单一分辨率模块后,每个模块都由两个相邻分辨率的支路(分辨率比例相差1/2)组成,称为第一支路与第二支路,每个支路中的前向传播模块被大核卷积块进行了重构,而相邻分辨率支路之间的语义信息又以HRNet的信息交互方式进行重构,如图2所示,其中分辨率降低的方式是3*3的残差块下采样,提升的方式的双线性插值。
如图2所示,本实施例中,以模块1作为第一个单一分辨率模块,模块2到模块7依次顺序指代;下采样阶段包括模块1至模块4,上采样阶段包括模块4至模块7。将经过预处理卷积层后分辨率为1/4的特征图分为两路,一路不进行任何操作输入模块1的第一支路,另一路同时下采样至1/8(即下采样为原来的一半)输入模块1的第二支路,两条支路并行。各个模块的两条支路进行一次跨尺度的交互,交互后再分别经过数次大核卷积输出。
下采样过程中,上一模块的第一支路的输出通过跳越连接输入上采样阶段中对应分辨率模块的第一支路;上一模块的第二支路输出分为两路,一路通过步长为1的残差块卷积后,作为下一模块的第一支路输入,另一路同时通过步长为2的残差块下采样后,作为下一模块的第二支路输入。
上采样过程中,上一模块的第一支路输出经过上采样后输入至下一模块的第一支路,上一模块的第一支路输出经过步长为1的残差块卷积后,作为下一模块的第二支路输入;本实施例中采用双线性插值进行上采样。本实施例中,整个主干网络共有5个输出,即模块4、模块5、模块6、模块7的第二支路输出与模块7的第一支路输出。将上采样阶段每一模块的第二支路输出统一上采样至最高分辨率后进行拼接,最后进行一维卷积,再经过全连接层后输出分类结果。
S2.2:对于U形高分辨率特征提取网络,对除ERF-Server外主干网络每个支路的卷积核,进一步使用逐通道卷积(Depth-Wise convolution,以下简称DW conv)进行重构,逐通道卷积具有自适应尺寸卷积核,其尺寸与各支路特征图分辨率呈正相关的匹配关系,进而获得各个模块新的自适应核尺寸信息交互模块。
如图3所示,不同于常规卷积操作,DW卷积的一个卷积核负责一个通道,一个通道只被一个卷积核卷积,同时卷积完成后的特征图通道数量与输入的通道数相同。自适应尺寸卷积核通过各自的损失函数来控制核尺寸的大小,此损失函数独立于训练模块针对卷积参数的损失函数,每一个分辨率特征图的自适应尺寸卷积核借助其在训练时调整自身的核尺寸。
训练时自适应尺寸卷积核损失函数的具体更新逻辑为:自适应尺寸卷积核的损失函数根据每次训练不同类别样本的预测像素点与真实标签中像素点的差异,指导自适应卷积核进行核尺寸的选择与更新。
基于自适应尺寸卷积核损失函数的更新逻辑,基于训练时自适应尺寸卷积核损失函数的更新逻辑,将声呐分割图像数据集的识别目标,根据人为加入的先验知识分为大目标物和小目标物两类,若大目标物的预测像素与其真实标签相比有误定位或填充不充分的情况,则对应损失函数变大,倾向通过增大核尺寸来降低损失函数,进而迭代出更大的核尺寸;反之若小目标物的预测像素与真实标签相比有漏检或误判的情况,则对应损失函数变大,倾向通过减小核尺寸来降低损失函数,进而迭代出更小的核尺寸;所述损失函数的表达式如下:
式中,kp为当前模块自适应卷积核的尺寸与第一目标、第二目标的预测偏差在量纲上归一化后的值;~表示正相关。需要指出的是,两项均只当根号下式子为正时有意义,反之为0,这个运算逻辑具体用relu函数实现。
其中,小目标预测偏差用Hausdorff距离表示,具体公式如下:
大目标预测偏差用Dice系数表示,具体公式如下:
式中,A={a 1,a 2,…,a p},B={b 1,b 2,…,b p},集合A是预测像素点集,集合B是真实标签像素点集,||a-b||代表两个像素点之间的欧氏距离。
自适应卷积核的核尺寸为一个整数,与当前模块的特征图分辨率正相关,在各自预设的核尺寸区间内调整变化,且不同分辨率特征图所使用的自适应卷积核核尺寸的中值区间互不重合。另外,这些核尺寸区间的中值由尺寸函数决定,且在实际模型训练过程中,尺寸的变化体现为每次更新后会在一组尺寸中选择一个进行使用。自适应卷积核的核尺寸区间的中值与特征图表征尺寸的对应关系如图4所示,其尺寸函数表达式如下:
;
;
其中,km为自适应卷积核的核尺寸区间的中值,f(r)为尺寸函数,r为当前模块特征图表征的尺寸大小。
S2.3:对于重构的自适应核尺寸信息交互模块,组建网络支路模块ERF-Server,实现跳越连接,完成AEU-Net模型的构建。ERF-Server的主要功能是从模型中拿出一些ERF信息加以处理成我们期望的特征后再送回模型本身。如图2所示,在本实施例中,模块1、模块2、模块3的输出被输入ERF-Server网络支路,模块1的输出被对应输入到模块7中,模块2的输出被对应输入到模块6中,模块3的输出被对应输入到模块5中。
如图3所示,ERF-Server接收来自模型的下采样阶段不同模块的声学语义信息,分别进行两种不同的操作以获取不同尺度的有效感受野声学语义信息:
大有效感受野语义信息通过称为U-Serve的操作获取,并跳越拼接到后续的模块中。U-Serve指由多个核尺寸固定的、且自身为最大尺寸(分辨率最高的支路的卷积核尺寸可变化范围内的最大值)的、带有残差连接的逐通道卷积组成的一个网络支路,它可以接收下采样阶段任一模块的特征,经过U-Serve本身的大核卷积后,得到相对原始的3*3残差块大幅提升ERF后的特征图语义信息,并且将结果用1*1残差快调整通道数后,再按通道分配拼接至后续指定模块中,进而该模块获得了这部分提升过ERF信息后特征图的新语义信息,并进一步改善所有通道的ERF信息丰富程度。按通道分配时存在一个通道分配系数Ck,该模块新语义信息的融合效率是可调的。
小有效感受野语义信息通过称为D-Serve的操作获取,并跳越拼接到后续的模块中。D-Serve指由固定数量残差块组成的一个网络支路,它可以接收下采样阶段任一模块的特征,经过其本身相对于主干网络较少的卷积层数,保留声学频域信号中早期ERF较小的特征,并且将结果用1*1残差快调整通道数后,再按通道分配拼接至后续指定模块中,进而该模块获得了这部分降低过ERF信息后特征图的新语义信息,并进一步改善所有通道的ERF信息丰富程度。由于按通道分配时存在一个分配系数,此部分新语义信息的融合效率是可调的。本实施例中,D-serve通过3*3的残差块处理接收的信息,相比使用大核组的主干支路而言,D-serve控制了ERF的迅速提升,使得模型能对当前尺度的ERF信息进行更深入的捕获。
需要注意的是,U-serve和D-serve在ERF-Server的输出端都会与主干网络中对应模块的上一模块第一支路的上采样结果进行通道的分配,按照通道分配系数将原始的通道替换为经过ERF-Server操作后的新通道,获得ERF改变后的特征表征。通道分配通过通道分配系数实现,通道分配系数Ck是一个预设的超参数,是一个1*3的向量,每个分量介于0到1之间且总和为1,代表D-Serve输出、U-Serve输出和上采样阶段的对应模块的前一模块第一支路的上采样输出这三组特征图各自的比例,在分配时对通道数取整。该超参数为实数,它增加了调参的可变性,Ck分配给D-Serve与U-Serve的值越大的意味着对应的Server会起到更强的作用,反之0意味着Server不起作用。
S2.4:将水下声呐分割图像数据集输入AEU-Net中进行训练,得到训练好的AEU-Net。训练时自适应尺寸卷积核的核尺寸,在当前模块的特征图预设的核尺寸区间内进行调整,训练目标是使自适应尺寸卷积核的损失函数最小。对于ERF-Server得到的ERF改变后的特征表征,通过每个支路的自适应尺寸卷积核的尺寸与其经历的卷积层数计算出真实的ERF,表达式如下:
即
式中,为第n层卷积层输出像素值Sn的标准差,Sn由其感受野内的所有输入像素值的加权和构成,其方差通过考虑每个自适应尺寸卷积核中的元素对输出各个像素的贡献程度计算得到;(i,j)为k×k的自适应尺寸卷积核中第i行第j列元素的索引;公式中的ERF指每个模块的特征图的有效感受野,其中k是对水下声学目标信号各个模块的特征图进行卷积的自适应尺寸卷积核的尺寸,n指原始图像自输入起至本层卷积层所累计的堆叠层数。
在训练中调整核尺寸的同时,获得整个AEU-Net模型每个模块的ERF分布情况,并将其作为针对声呐分割图像数据集信息分布优化后的ERF分布。
S3:将待测试的水下声呐分割图像输入训练好的AEU-Net模型,得到识别结果。
图5是本发明中ERF-Server框架通过特征图拼接对前向传播中特征图有效感受野属性改变的效果,与ResNet和RepLKNet作对比的效果示意图,第一行是现有的ResNet前后模块的有效感受野变化,第二行是现有的RepKLNet前后模块的有效感受野变化,第三行是在本发明提出的AEU-Net模型中选取某一模块所有通道特征图所计算得到的有效感受野,随后输入ERF-Server进行有效感受野调控的测试。图中颜色越深代表着从中心开始对各个像素点值产生的影响越大,即ERF越大,从而根据深浅反映有效感受野的大小。说明了本发明涉及的ERF-Server在调控有效感受野上的有效性。
本发明提供的一种基于有效感受野调控的水下声学目标识别方法,与现有的应用在本领域内的分割网络方法相比,拥有大核卷积带来的更大、变化更迅速的ERF,从而具有更多的ERF资源,使得网络通过多尺度ERF信息的交互对缺陷样本的全局特征捕获能力更强,且提取信息时更侧重缺陷的整体形状。另一方面,它具有一个独立的支路框架ERF-Server,其可以主动地调控网络ERF的变化情况,这个模块的功能得益于U-serve的大核操作可以迅速提升原始的有效感受野,而又由于主干网络中自适应卷积核的尺寸均大于传统的3*3卷积,D-serve使用3*3的残差块后可以相比主干网络降低有效感受野,使得最初输入AEU-Net中的水下声呐分割图像中从小到大的各个尺度的有效感受野信息可以被充分利用。本发明能在总体提高水下声呐数据集识别精度的同时相比原始U-Net与HRNet降低接近一半的模型参数量,以满足水下目标识别的实时性要求。
如图6所示,本发明实施例提供的电子设备,包括存储器和一个或多个处理器,存储器中存储有可执行代码,一个或多个处理器执行可执行代码时,用于实现上述实施例中的基于有效感受野调控的水下声学目标识别方法。
本发明设备可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。本发明设备可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的设备,是通过其所在任意具备数据处理能力的设备的处理器,将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明设备所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中本发明设备所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述设备中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于设备实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的,其中所说明的作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于有效感受野调控的水下声学目标识别方法。
计算机可读存储介质可以是前述任一实施例的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart MediaCard,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序以及任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (10)
1.一种基于有效感受野调控的水下声学目标识别方法,其特征在于,包括以下步骤:
S1:组建逐像素具有标签的水下声呐分割图像数据集;
S2:以U-Net为基础构建并训练AEU-Net模型,具体通过如下子步骤实现:
S2.1:将高分辨率网络的信息交互模块嵌入U-Net的每个单一分辨率模块中,使每个模块扩充为第一和第二两个分辨率支路;原始图像经过一个预处理卷积层后进行下采样,在下采样阶段,上一模块的第一支路输出通过跳越连接输入上采样阶段对应模块的第一支路中,所述对应模块的判断依据为特征图的分辨率相同;上一模块的第二支路输出分为两路,一路通过步长为1的残差块卷积后,作为下一模块的第一支路输入,另一路同时通过步长为2的残差块下采样后,作为下一模块的第二支路输入;在上采样过程中,上一模块的第一支路输出经过上采样后输入至下一模块的第一支路,上一模块的第一支路输出经过步长为1的残差块卷积后,作为下一模块的第二支路输入;将上采样阶段每一模块的第二支路输出在通道维度上进行拼接后,依次经过一维卷积和全连接层,输出分类标签;
S2.2:对每个支路的卷积核,使用逐通道卷积进行重构,所述逐通道卷积具有自适应尺寸卷积核,其尺寸与各支路特征图分辨率匹配;
S2.3:构建用于实现跳越连接的ERF-Server网络支路,完成AEU-Net模型的构建;ERF-Server网络支路包括U-Serve和D-Serve两种操作,对于下采样每个模块输出的特征图表征,经过U-Serve的大核卷积块后得到有效感受野ERF提升后的新语义信息;对于下采样每个模块输出的特征图表征,经过D-Serve的固定尺寸为3*3的残差卷积块后,得到ERF降低后的新语义信息;将上采样阶段的对应模块的前一模块第一支路的上采样输出,以及U-Serve的输出、D-Serve的输出,按通道分配系数拼接至上采样阶段的对应模块中;
S2.4:将水下声呐分割图像数据集输入AEU-Net中进行训练,得到训练好的AEU-Net模型;训练时自适应尺寸卷积核的核尺寸,在当前模块的特征图预设的核尺寸区间内进行调整,训练目标是使自适应尺寸卷积核的损失函数最小;
S3:将待测试的水下声呐分割图像输入训练好的AEU-Net模型,得到识别结果。
2.根据权利要求1所述的基于有效感受野调控的水下声学目标识别方法,其特征在于,所述S2.2中,逐通道卷积的一个卷积核负责一个通道,一个通道只被一个卷积核卷积,且卷积完成后的特征图通道数量与输入的通道数相同;自适应尺寸卷积核通过各自的损失函数控制核尺寸的大小。
3.根据权利要求2所述的基于有效感受野调控的水下声学目标识别方法,其特征在于,训练时自适应尺寸卷积核损失函数的更新逻辑为:自适应尺寸卷积核的损失函数根据每次训练不同类别样本的预测像素点与真实标签中像素点的差异,指导自适应卷积核进行核尺寸的选择与更新;
基于训练时自适应尺寸卷积核损失函数的更新逻辑,将水下声呐分割图像数据集的识别目标人为设定分为第一目标物和第二目标物两类,若第一目标物的预测像素与其真实标签相比有误定位或填充不充分的情况,则对应损失函数变大,此时,增大自适应卷积核的核尺寸来降低损失函数;反之,若第二目标物的预测像素与真实标签相比有漏检或误判的情况,则对应损失函数变大,此时,通过减小自适应卷积核的核尺寸来降低损失函数;所述损失函数的表达式如下:
;
式中,kp为当前模块自适应卷积核的尺寸与第一目标、第二目标的预测偏差在量纲上归一化后的值。
4.根据权利要求3所述的基于有效感受野调控的水下声学目标识别方法,其特征在于,所述小目标预测偏差用Hausdorff距离表示,具体公式如下:
;
所述大目标预测偏差用Dice系数表示,具体公式如下:
;
式中,A={a 1,a 2,…,a p},B={b 1,b 2,…,b p},集合A是预测像素点集,集合B是真实标签像素点集,||a-b||代表两个像素点之间的欧氏距离。
5.根据权利要求1所述的基于有效感受野调控的水下声学目标识别方法,其特征在于,所述自适应卷积核的核尺寸在当前模块的特征图预设的核尺寸区间中进行调整,且不同分辨率的特征图所对应的核尺寸区间互不重合;所述核尺寸区间由尺寸函数确定,表达式如下:
;
;
式中,km为自适应卷积核的核尺寸区间的中值,f(r)为尺寸函数,r为当前模块特征图表征的尺寸大小。
6.根据权利要求1所述的基于有效感受野调控的水下声学目标识别方法,其特征在于,选用双线性插值进行上采样。
7.根据权利要求1所述的基于有效感受野调控的水下声学目标识别方法,其特征在于,所述S2.3中,通道分配通过通道分配系数实现,通道分配系数Ck是一个预设的超参数,是一个1*3的向量,每个分量介于0到1之间且总和为1,代表D-Serve输出、U-Serve输出和上采样阶段的对应模块的前一模块第一支路的上采样输出这三组特征图的比例,在分配时对通道数取整。
8.根据权利要求1所述的基于有效感受野调控的水下声学目标识别方法,其特征在于,所述S2.4中,获得整个AEU-Net模型每个模块的特征图的ERF分布情况,其中真实的ERF通过每个支路的自适应尺寸卷积核的尺寸与其经历的卷积层数计算,表达式如下:
;
即
;
式中,为第n层卷积层输出像素值Sn的标准差;(i,j)为k×k的自适应尺寸卷积核中第i行第j列元素的索引;k为对水下声学目标信号各个模块的特征图进行卷积的自适应尺寸卷积核的尺寸,n为原始图像自输入起至本层卷积层所累计的堆叠层数。
9.一种电子设备,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1~8中任一项所述的基于有效感受野调控的水下声学目标识别方法。
10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1~8中任一项所述的基于有效感受野调控的水下声学目标识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410547532.0A CN118135389A (zh) | 2024-05-06 | 2024-05-06 | 一种基于有效感受野调控的水下声学目标识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410547532.0A CN118135389A (zh) | 2024-05-06 | 2024-05-06 | 一种基于有效感受野调控的水下声学目标识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118135389A true CN118135389A (zh) | 2024-06-04 |
Family
ID=91236167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410547532.0A Pending CN118135389A (zh) | 2024-05-06 | 2024-05-06 | 一种基于有效感受野调控的水下声学目标识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118135389A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310651A (zh) * | 2020-02-13 | 2020-06-19 | 杭州凌像科技有限公司 | 一种基于偏振相机和rgb-d传感器的水面检测方法 |
CN114550000A (zh) * | 2022-01-05 | 2022-05-27 | 中国科学院计算机网络信息中心 | 一种基于多分辨率特征融合的遥感图像分类方法和装置 |
CN114881879A (zh) * | 2022-05-17 | 2022-08-09 | 燕山大学 | 一种基于亮度补偿残差网络的水下图像增强方法 |
CN115661167A (zh) * | 2022-10-27 | 2023-01-31 | 南开大学 | 一种基于嵌套u型网络的乳腺肿瘤分割方法 |
-
2024
- 2024-05-06 CN CN202410547532.0A patent/CN118135389A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310651A (zh) * | 2020-02-13 | 2020-06-19 | 杭州凌像科技有限公司 | 一种基于偏振相机和rgb-d传感器的水面检测方法 |
CN114550000A (zh) * | 2022-01-05 | 2022-05-27 | 中国科学院计算机网络信息中心 | 一种基于多分辨率特征融合的遥感图像分类方法和装置 |
CN114881879A (zh) * | 2022-05-17 | 2022-08-09 | 燕山大学 | 一种基于亮度补偿残差网络的水下图像增强方法 |
CN115661167A (zh) * | 2022-10-27 | 2023-01-31 | 南开大学 | 一种基于嵌套u型网络的乳腺肿瘤分割方法 |
Non-Patent Citations (5)
Title |
---|
MINGJIU ZUO, ETC: "Channel Distribution and Noise Characteristics of Distributed Acoustic Sensing Underwater Communications", IEEE, vol. 21, no. 21, 24 September 2021 (2021-09-24), XP011885811, DOI: 10.1109/JSEN.2021.3115581 * |
RYUHEI HAMAGUCHI,ETC: "Effective Use of Dilated Convolutions for Segmenting Small Object Instances in Remote Sensing Imagery", 2018 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION, 7 May 2018 (2018-05-07) * |
刘鸣;赵航芳;景子栖;瞿逢重;魏艳;佟蒙蒙;: "水下传感器阵设计与应用", 实验技术与管理, vol. 37, no. 01, 20 January 2020 (2020-01-20) * |
张佳奇: "基于改进Deeplabv3+和Ghostnetv2 的红外图像语义分割方法研究", 中国优秀硕士论文电子期刊网, 15 April 2024 (2024-04-15) * |
陆啸: "有限资源下基于深度学习的自动调制分类算法研究", 中国优秀硕士论文电子期刊网, 15 March 2024 (2024-03-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN111723860B (zh) | 一种目标检测方法及装置 | |
JP7236545B2 (ja) | ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム | |
CN111080628A (zh) | 图像篡改检测方法、装置、计算机设备和存储介质 | |
CN112507777A (zh) | 一种基于深度学习的光学遥感图像舰船检测与分割方法 | |
CN110276767A (zh) | 图像处理方法和装置、电子设备、计算机可读存储介质 | |
Couturier et al. | Image denoising using a deep encoder-decoder network with skip connections | |
CN113570508A (zh) | 图像修复方法及装置、存储介质、终端 | |
CN112288011A (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN110866938B (zh) | 一种全自动视频运动目标分割方法 | |
CN112149694B (zh) | 一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端 | |
WO2020150077A1 (en) | Camera self-calibration network | |
CN115147648A (zh) | 一种基于改进YOLOv5目标检测的茶叶嫩梢识别方法 | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统 | |
CN110599455A (zh) | 显示屏缺陷检测网络模型、方法、装置、电子设备及存储介质 | |
CN111626379B (zh) | 肺炎x光图像检测方法 | |
CN116757986A (zh) | 一种红外与可见光图像融合方法及装置 | |
CN115984666A (zh) | 跨通道金字塔池化方法、系统、卷积神经网络及处理方法 | |
CN113177956B (zh) | 一种面向无人机遥感影像的语义分割方法 | |
CN118135389A (zh) | 一种基于有效感受野调控的水下声学目标识别方法 | |
CN116051984A (zh) | 一种基于Transformer的弱小目标检测方法 | |
CN113506226B (zh) | 运动模糊复原方法及系统 | |
CN113807354B (zh) | 图像语义分割方法、装置、设备和存储介质 | |
CN115205624A (zh) | 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质 | |
WO2020224244A1 (zh) | 一种景深图获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |