CN115880574B

CN115880574B - 一种水下光学图像轻量化目标识别方法、设备和介质

Info

Publication number: CN115880574B
Application number: CN202310188520.9A
Authority: CN
Inventors: 姜宇; 赵明浩; 齐红; 王跃航; 张敖; 魏枫林; 王凯
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-06-16
Anticipated expiration: 2043-03-02
Also published as: CN115880574A

Abstract

本发明具体涉及一种水下光学图像轻量化目标识别方法、设备和介质，其特征在于，所述方法包括如下步骤：S1、收集水下光学图像数据集，将数据集分为训练集和测试集，并对训练集进行标注；S2、对训练集进行特征提取，捕捉场景中角色的时空信息和交互信息，并输出相应特征图；S3、构建训练网络对步骤S2中的特征图进行训练，所述训练网络中，针对学习率采用一致衰减策略，针对网络结构采用交错分组策略，针对训练方法采用多尺度聚合模块与短/长聚合模块相结合；S4、将经过充分训练的训练集参数加载到训练网络中，将测试集图像输入，测试获得最终结果。提高水下光学图像目标识别的计算速度和存储能力，有利于性能的提升和资源的配置。

Description

一种水下光学图像轻量化目标识别方法、设备和介质

技术领域

本发明属于水下光学图像目标识别技术领域，具体涉及一种水下光学图像轻量化目标识别方法、设备和介质。

背景技术

随着经济的飞速发展和人口的不断增长,陆地上的资源越来越少,未来对水下资源的开发已经摆在一个重要的位置。随着海洋开发的进展,水下活动愈趋频繁,如海底探矿、石油平台监测、油管裂缝检测等等,在这些作业中都需要进行目标检测与识别。水下目标检测旨在对水下场景中的物体进行定位和识别，由于在海洋学、水下导航等领域的广泛应用，这项研究引起了持续的关注。但是，由于复杂的水下环境和光照条件，这仍然是一项艰巨的任务。现代发展对水下无人装备智能化发展提出了更高需求，其中目标检测技术是水下装备环境感知、目标识别和跟踪的重要支撑技术，是提升水下装备智能化的关键技术之一。然而由于水下环境的复杂性，应用于水下无人装备的智能水下目标检测技术发展缓慢。

随着嵌入式设备硬件技术的进步，对智能机器人和工业检测设备等不同场景下语义分割部署应用的需求不断扩大。然而，许多高级模型受到移动终端空间、有限内存和低处理器性能的限制，这不利于边缘计算。轻量级模型具有较少的参数，占用较少的多累积操作(MAC)。它通常具有推理优势，例如较低的延迟。现有模型通常通过高复杂度实现高精度，这可能导致参数冗余问题。忽略参数量对空间占用的影响将限制模型的性能。设计小型架构逻辑是突破性能瓶颈的关键。BiSeNetV2-L使用4.59M参数实现了75.8％的IoU类精度，它具有高精度和高速度的优点，但它有更多的参数。CGNet_M3N21实现了0.5M参数的轻量化，但IoU类精度为64.8％，不够高。因此，结合目前工业界发展方向，有必要设计一个具有较少参数的更轻量化水下目标检测网络。

发明内容

基于上述情况，本发明提出一种水下光学图像轻量化目标识别方法，提高水下光学图像目标识别的计算速度和存储能力，有利于性能的提升和资源的配置。

所述方法包括如下步骤：

S1、收集水下光学图像数据集，将数据集分为训练集和测试集，并对训练集进行标注；

S2、对训练集进行特征提取，捕捉场景中角色的时空信息和交互信息，并输出相应特征图；

S3、构建训练网络对步骤S2中的特征图进行训练，所述训练网络中，针对学习率采用一致衰减策略，针对网络结构采用交错分组策略，针对训练方法采用多尺度聚合模块与短/长聚合模块相结合；

所述交错分组策略即为分组卷积的交错使用策略，分组卷积是指对输入层的不同特征图进行分组，然后采用不同的卷积核再对各个组进行卷积，以此降低卷积的计算量；

所述短/长聚合模块参数包含α、β和R，其中，α用于调整短/长聚合模块中残差块的数量，β用于调整短/长聚合模块中卷积层的数量，R用于调整短/长聚合模块中通道的倍数；

短聚合模块中，α＝2，β＝0，R＝2，应用于网络的所有层；长聚合模块中，α＝2，β＝1，R＝2，应用于网络的深层；

S4、将经过充分训练的训练集参数加载到训练网络中，将测试集图像输入，测试获得最终结果。

进一步，步骤S3中，所述一致衰减策略具体为：每隔一定的批次，学习速率减少为原来的

α为学习速率超参数，依据具体策略由人为设定。

进一步，步骤S3中，所述多尺度聚合模块使用周围像素的方法来帮助局部像素区分对象的边界和类别，使用3*3卷积核来提取特征，在各自的矩阵运算之后不使用归一化和激活函数。

进一步，所述多尺度聚合模块使用不同的超参数生成小型多尺度聚合模块和大型多尺度聚合模块，当γ＝2和D＝(1,2)或D＝(1,3)时，得到小型多尺度聚合模块，当当γ＝4和D＝(1,2,3,4)时，得到大型多尺度聚合模块，γ表示获取的附加特征图的数量，D表示主分支的扩张序列。

进一步，步骤S3构建的训练网络使用U形架构，网络分为下采样和上采样两个部分；下采样过程分为5个阶段，不同阶段的通道数分别是16、64、128、128和128，下采样第一、二阶段使用3*3CNA和小型多尺度聚合模块，CNA表示卷积、归一化和激活的串联；下采样的第三阶段使用3*3CNA和双层的短聚合模块和小型多尺度聚合模块，下采样第四和第五阶段使用3*3CNA和单层的短聚合模块和小型多尺度聚合模块；下采样之后是上采样，上采样过程分为5个阶段，上采样第四、五阶段使用小型多尺度聚合模块，上采样第三阶段使用带偏置的卷积和小残差块，上采样第一、二阶段使用带偏置的卷积和小残差块结合loss损失函数。

本发明的有益效果为：

(1)提出了多尺度聚合模块(MAM)和短/长聚合模块(S/L)，它们利用卷积核固有的局部特性来建立距离相关性。作为即插即用的通用模块，它们可以在多个尺度上灵活地融合细节特征和语义信息。

(2)采用交错分组策略来构建网络的隐式分支，有助于渠道之间的信息传递。它有效地压缩了网络参数的数量并提高了精度，几乎没有额外的计算开销。构建了一个新的多边深度耦合轻量级网络，通过多维特征分散融合，仅使用近1M个参数，就可实现较高准确度，提升了使用的便捷性。

附图说明

图1为多尺度聚合模块原理图；

图2为短/长聚合模块原理图；

图3为构建的训练网络原理图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供一种水下光学图像轻量化目标识别方法，其特征在于，所述方法包括如下步骤：

步骤S3中，所述一致衰减策略具体为：每隔一定的批次，学习速率减少为原来的

α为超参数，依据具体策略而定。在本实施例中，使用总共160000次迭代的SGD优化器，在训练期间，初始学习率设置为0.01；使用一致衰减策略对学习速率进行处理，以将最终学习速率降低到1e-4，并使用执行1000次迭代的预热策略，损失函数使用交叉熵损失函数。

步骤S3中，所述交错分组策略即为分组卷积的交错使用策略。分组卷积是指对输入层的不同特征图进行分组，然后采用不同的卷积核再对各个组进行卷积，以此降低卷积的计算量。一般的卷积都是在所有的输入特征图上做卷积，可以说是全通道卷积，它是一种通道密集连接方式，而分组卷积相比则是一种通道稀疏连接方式。当分组数恰好等于通道数时，意味着每个组只有一个特征图。当然一个问题是不同组之间的特征图需要通信，否则就是划分了互不相干的路，会降低网络的特征提取能力。

在多尺度聚合模块中，主分支上的组数为4，高维分支上的分组数为通道数。高维分支将引入额外的参数，但通过使所有通道独立，可以抵消负面影响。在模块末尾，使用1x1卷积核进行降维，其组数设置为4，可以有效地融合信道之间的信息。

在短/长聚合模块中，主分支上的组数为128，等于通道数。这将确保在深化网络的同时，不会导致参数数量的突然增加，从而有效平衡网络深度和参数数量。在下采样时，使用步长为2的卷积核，使用的组数为1，以确保信息不会因分辨率降低而丢失太多。网络深层的特征图分辨率低，如果参数的数量不受限制，无用的冗余特征将被学习。在这种情况下，该策略将发挥最大作用。

步骤S3中，所述多尺度聚合模块使用周围像素的方法来帮助局部像素区分对象的边界和类别，以较少的参数实现精确定位，只使用3*3卷积核来提取特征，在各自的矩阵运算之后不使用归一化和激活函数。所述多尺度聚合模块原理图如图1所示。其中，“S”表示归一化后激活；“+”表示加法运算；菱形框线表示在融合时聚合了上下文信息；不同字母代表不同的感受野；γ表示获取的附加特征图的数量。

多尺度聚合模块可以使用不同的超参数生成小型多尺度聚合模块或大型多尺度聚合模块。此模块用于有效提取多尺度信息和完整的像素距离建模。在一定程度上，可以缓解由遮挡引起的局部特征缺失问题。在MAM(多尺度聚合模块，同下)的主要分支上获得不同感受野的卷积过程是：

其中，X*是(n，dim，h，w),其参数分别表示特征图的样本数量、尺寸以及高度和宽度。x*是(n，dim＝1，h，w)，表示一维特征图。K表示卷积核。d表示卷积核的膨胀率。Cat表示暗尺寸中的拼接操作。w/o表示非局部和局部。

所述多尺度聚合模块使用不同的超参数生成小型多尺度聚合模块(SMAM)和大型多尺度聚合模块(LMAM)。

SMAM旨在利用卷积网络的多分支结构提取不同层次的空间信息和语义信息，并使用残差方法进行融合。当γ＝2且D＝(1,2)或D＝(1,3)时，得到SMAM，γ表示获取的附加特征图的数量，D表示主分支的扩张序列，D∈{(1,2),(1,3),(1,4)...,(1,2,3),(1,2,4)...}。

SMAM块是实现像素级区域划分的有效手段,使用分组方法来指导特征融合，不仅是为了减少参数，还可以隐式增加网络分支。分组卷积增加了信道之间的独立性，这可以看作卷积层内网络的分支。在间隙层(子分支)中使用最大分组，以借助于在不同通道中学习的特征来增强局部特征的表示能力。

LMAM在主分支中使用4个膨胀率增加的扩张卷积来获得更多的多尺度信息，这些信息应用于网络的深层，以改善特征图的长距离和短距离依赖性。当γ＝4和D＝(1,2,3,4)时，得到LMAM。

LMAM应用于深度网络有两个优点。一个是特征图被极度压缩，因此使用MAM不会带来更多的内存消耗。第二，由于特征图较小，卷积核可以在卷积运算中具有较大的接收场的前提下，提高特征图中对象之间的距离相关性。换句话说，可以在像素级改善像素级的长短距离相关性。

短/长聚合模块原理图如图2所示，其中，α和β可以分别调整Block*和卷积层的数量，R用于调整通道的倍数，S₁表示归一化然后激活，S₂表示先归一化主分支，然后使用加法，最后使用激活。

所述短/长聚合模块中，短聚合模块应用于网络的所有层，长聚合模块应用于网络的深层。

所述短聚合模块(SAM)中，α＝2，β＝0，R＝2；使用高维特征来指导详细特征和上下文信息。使用两个3x3卷积层分别执行信道维度增加和信道维度减少。增加维度可以学习局部像素的潜在高级特征。最后，对空间维度进行加权。总分行和支行相辅相成。语义信息巧妙地融合在一起。它引入了更多的卷积和计算，这些卷积和计算应与MAM结合使用，以改善不同层之间的特征图信息流。SAM使用分组卷积来减少参数量，并通过构造不同大小的组来促进不同信道之间的特征交互。由于扩张卷积的网格效应，交错扩张率序列(例如(1，2，3)或(1，5)或(2，3，5))可以缓解这一问题，并改善由过于稀疏的数据采样导致的识别不准确性问题。

所述长聚合模块(LAM)中，α＝2，β＝1，R＝2；基于卷积神经网络越深，语义信息越密集的特点，强调语义信息的获取。它仍然可以结合可以识别的局部像素来完成局部特征的建模。LAM还使用分组卷积来减少参数量。由于网络的深度特征图的减少，一些像素难以识别。模块将学习更多的噪声，从而降低预测的准确性。因此，当网络较深时，应控制此模块的数量。

步骤S3构建的训练网络如图3所示，使用U形架构构建网络。其中，CNA表示卷积、归一化和激活的级联，CB表示带偏差的卷积，操作加号表示残差，Up表示向上采样，SegHead代表分割头，Block*(β＝0)表示ResNeSt的变种小残差块(β＝0)。

U形架构首先提取空间信息，然后随着网络的加深提取语义信息。网络分为下采样和上采样两个部分，是一个端到端的结构。下采样过程分为5个阶段，不同阶段的通道数分别是16、64、128、128、128。

在下采样的第一、二阶段使用3*3CNA和SMAM(小型多尺度聚合模块)；第三阶段使用3*3CNA和双层S&SMAM(短聚合模块和小型多尺度聚合模块)，集中了计算负载，此阶段用多尺度聚合模块和长/短聚合模块设计了一个级联结构来提取特征图；第四和第五阶段使用3*3CNA和单层S&SMAM，此时特征图已经缩小到极限，提取语义信息变得更重要，不需要更深层的网络。

下采样之后是上采样，通过五层上采样，逐个对其像素点进行分类。上采样第四、五阶段使用SMAM；第三阶段使用CB和Block*(β＝0，小残差块)；第一、二阶段使用CB和Block*(β＝0，小残差块)结合loss损失函数。

L&LMAM即长聚合模块和大型多尺度聚合模块的级联，用于下采样第五层和上采样的第一层，实现语义信息的转换。

浅层特征图使用较少的通道来减少视频存储器开销，这可以过滤冗余特征并减少传输后的噪声。深度特征图使用更多的通道来提取足够的语义信息，确保模型具有足够的拟合能力。通过分组卷积和扩张卷积大大压缩了参数，最后输出得到结果。

本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasablePROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronousDRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambusRAM，DR RAM)。应注意，本发明描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，高密度数字视频光盘(digital video disc，DVD))、或者半导体介质(例如，固态硬盘(solid state disc，SSD))等。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应注意，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

Claims

1.一种水下光学图像轻量化目标识别方法，其特征在于，所述方法包括如下步骤：

短聚合模块中，α=2，β=0，R=2，应用于网络的所有层；长聚合模块中，α=2，β=1，R=2，应用于网络的深层；

S4、将经过充分训练的训练集参数加载到训练网络中，将测试集图像输入，测试获得最终结果；

步骤S3构建的训练网络使用U形架构，网络分为下采样和上采样两个部分；下采样过程分为5个阶段，不同阶段的通道数分别是16、64、128、128和128，下采样第一、二阶段使用3*3CNA和小型多尺度聚合模块，CNA表示卷积、归一化和激活的串联；下采样的第三阶段使用3*3CNA和双层的短聚合模块和小型多尺度聚合模块，下采样第四和第五阶段使用3*3CNA和单层的短聚合模块和小型多尺度聚合模块；下采样之后是上采样，上采样过程分为5个阶段，上采样第四、五阶段使用小型多尺度聚合模块，上采样第三阶段使用带偏置的卷积和小残差块，上采样第一、二阶段使用带偏置的卷积和小残差块结合loss损失函数。

2.根据权利要求1所述的水下光学图像轻量化目标识别方法，其特征在于，步骤S3中，所述一致衰减策略具体为：每隔一定的批次，学习速率减少为原来的

，/>

为学习速率超参数，依据具体策略由人为设定。

3.根据权利要求1所述的水下光学图像轻量化目标识别方法，其特征在于，步骤S3中，所述多尺度聚合模块使用周围像素的方法来帮助局部像素区分对象的边界和类别，使用3*3卷积核来提取特征，在各自的矩阵运算之后不使用归一化和激活函数。

4.根据权利要求3所述的水下光学图像轻量化目标识别方法，其特征在于，所述多尺度聚合模块使用不同的超参数生成小型多尺度聚合模块和大型多尺度聚合模块，当γ=2和D=（1,2）或D=（1,3）时，得到小型多尺度聚合模块，当γ=4和D=（1,2,3,4）时，得到大型多尺度聚合模块，γ表示获取的附加特征图的数量，D表示主分支的扩张序列。