CN117173549B

CN117173549B - 复杂场景下合成孔径声纳图像多尺度目标检测方法及系统

Info

Publication number: CN117173549B
Application number: CN202311061425.9A
Authority: CN
Inventors: 李宝奇; 黄海宁; 刘纪元; 刘正君; 韦琳哲
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2024-03-22
Anticipated expiration: 2043-08-22
Also published as: CN117173549A

Abstract

本发明涉及水声信号处理领域，尤其涉及复杂场景下合成孔径声纳图像多尺度目标检测方法及系统，所述方法包括：对阵元接收的声学回波数据进行处理，得到满足尺寸要求的合成孔径声纳图像；将满足尺寸要求的合成孔径声纳图像输入预先建立和训练好的目标检测模型，实现水下多尺度目标检测；所述目标检测模型为改进的Cascade‑RCNN网络，所述改进的Cascade‑RCNN网络包括高分辨率骨干网络，所述高分辨率骨干网络采用改进的特征提取模块。本发明可对水下多尺度目标进行检测，有效降低了复杂场景下目标检测的虚警率，同时提高了目标检测的精度，为基于合成孔径声纳图像的水下目标检测任务提供了一种有效解决的手段。

Description

复杂场景下合成孔径声纳图像多尺度目标检测方法及系统

技术领域

本发明涉及水声信号处理领域，尤其涉及复杂场景下合成孔径声纳图像多尺度目标检测方法及系统。

背景技术

合成孔径声纳(Synthetic Aperture Sonar,SAS)是一种高分辨率水下成像声纳，其基本原理是利用小孔径基阵的移动形成虚拟大孔径，从而获得方位向的高分辨率。与普通侧扫声纳相比，SAS最为显著的优点是方位向分辨率较高，且理论分辨率与目标距离以及采用的声波频段无关。合成孔径声纳图像目标检测任务在水下无人平台自主导航和搜索发挥着重要作用。考虑水底环境的复杂性以及水下目标尺寸的多样性，这会进一步增加目标检测的难度。

传统的检测和识别方法包括：人工判读和模式识别。众所周知，人工判读存在效率低、耗时长、主观不确定性大和经验依赖性强等问题，而模式识别通过人工提取灰度、纹理、边缘和形状等特征，经过图像和数据处理后设计分类器进行判别。上述方法适用于简单或者特征明显的目标判别，对于复杂场景下的水下目标，传统特征提取算法存在特征设计难度大、运算冗余以及泛化性和鲁棒性差等问题。近年来，随着计算机视觉领域的蓬勃发展，基于深度学习的目标识别与检测相关技术研究正在开展，尤其是以卷积神经网络(Convolutional Neural Networks，CNN)代替人工判读和模式识别。因此，通过借鉴深度学习技术提高SAS图像感兴趣小目标的检测识别精度具有重要的理论和实践意义.Williams等人利用CNN对SAS图像目标进行分类识别，提高了SAS图像目标的分类准确率。McKay等人在CNN的基础上，通过迁移学习进一步提高了SAS图像水下目标的分类准确率。Williams等人通过分析CNN的计算复杂度，选取参数更少的网络来对水下目标进行分类识别。上述三种SAS图像水下目标识别方法主要是利用CNN对SAS图像进行分类识别，因此无法获取图像内目标的位置信息。目前，基于CNN的目标检测模型在一个框架内实现了目标检测和识别的统一.Li等提出了基于SSD的水下多尺度目标检测方法，不过，该方法不能适用复杂场景下的SAS图像多尺度目标检测。Tang等人利用Faster R-CNN网络实现了声纳图像海底沉船目标的自动检测。Faster-RCNN考虑正负样本的平衡性，设置正负区域交并比(intersectionover union，IOU)为0.5，这使得其目标检测并不是很准确，因为IOU＝0.5时区域内含有较多背景，造成很多误检，而直接使用提高IOU的阈值会造成正负样本不均衡问题，使得漏检率大大提高。

综上所述，目前急需一种适用复杂场景下SAS图像多尺度目标检测精度的方法，以提高后续目标精细化识别的准确率与效率。

发明内容

本发明的目的在于克服现有技术缺陷，提出了复杂场景下合成孔径声纳图像多尺度目标检测方法及系统。

为了实现上述目的，本发明提出了一种复杂场景下合成孔径声纳图像多尺度目标检测方法，所述方法包括：

步骤1)对阵元接收的声学回波数据进行处理，得到满足尺寸要求的合成孔径声纳图像；

步骤2)将标准尺寸合成孔径声纳图像输入预先建立和训练好的目标检测模型，实现水下多尺度目标检测；

所述目标检测模型为改进的Cascade-RCNN网络，所述改进的Cascade-RCNN网络包括高分辨率骨干网络，高分辨率骨干网络采用改进的特征提取模块。

优选的，所述步骤1)具体包括：

对阵元接收到的声学回波数据进行处理，得到合成孔径声纳图像，再基于图像宽度进行切割，得到满足尺寸要求的合成孔径声纳图像。

优选的，所述改进的Cascade-RCNN网络包括依次连接的：

高分辨率骨干网络，用于作为特征提取的骨干网络来构建多层次表征；

区域提案网络，用于生成候选目标边界框提案；

特征融合网络，用于对多尺度特征进行融合增强；

具有阈值的三个级联对象检测器，用于进行边界框回归和分类；和

Soft NMS模块，用于获得最终的水下多尺度目标检测结果。

优选的，所述改进的特征提取模块的输入为特征D，输出D_BBSS为：

D_BBSS＝D+D_sim；

其中，D_sim为第一支路的输出，所述第一支路为依次连接的第一3x3卷积层单元、SGE组件、第二3x3卷积层单元和SIM组件，所述第一3x3卷积层单元包括BN层和ReLU层，第二3x3卷积层单元包括BN层。

优选的，所述第一支路的处理过程具体包括：

输入特征D经过第一个3x3卷积层单元，其输出特征D₁为：

D₁＝f₁(D),D∈Φ^H×H×M

其中，H×H为输入特征的尺寸，M为输入特征的通道数，Φ表示特征图，f₁为第一个3x3卷积层单元；

D₁进入SGE组件，按通道维度将D₁分为G个组，对每个组进行单独处理，SGE组件输出特征D_sge，其中第i个输出特征为：

其中，为第i个卷积组，σ()为激活函数，a_i为第i个卷积组的注意力系数，满足下式：

其中，γ和β分别表示第i个卷积组的权重和偏置，为量化后的第i个卷积组注意力系数：

ε＝1e-5，c_i为第i个卷积组经过全局平均池化操作得到特征系数，σ_c和μ_c均为中间变量，c_j为第j个卷积组经过全局平均池化操作得到特征系数，m表示卷积组总数；

D_sge经过第二个3x3卷积层单元，其输出特征D₂为：

D₂＝f₂(D_sge),D_sge∈Φ^H×H×M

其中，f₂为第二个3x3卷积层单元；

D₂经过SIM组件的输出D_sim为：

其中，sigmoid()表示S型函数，E表示SIM组件单个通道所有神经元组成的能量矩阵，其中的某个神经元t的能量函数e_t为：

其中，x_i表示SIM组件单个通道t以外的其他神经元，w_t和b_t为神经元t线性变换后的权重和偏置，λ为权重系数，N为单个通道的神经元个数。

优选的，所述方法还包括目标检测模型的训练步骤，具体包括：

从真实水下环境中采集原始声纳数据，经处理得到标准尺寸合成孔径声纳图像，并进行标注生成训练集；

将训练集数据依次输入改进的Cascade-RCNN网络，直至满足训练要求，得到训练好的目标检测模型。

另一方面，本发明提出了一种复杂场景下合成孔径声纳图像多尺度目标检测系统，所述系统包括：

处理模块，用于对阵元接收的声学回波数据进行处理，得到标准尺寸合成孔径声纳图像；

平台部署模块，用于将预先建立和训练好的目标检测模型部署到嵌入式平台；和

检测输出模块，用于将标准尺寸合成孔径声纳图像输入部署在嵌入式平台的目标检测模型，实现水下多尺度目标检测；

优选的，所述处理模块包括：

合成孔径声纳子模块，用于对接收到的声学回波数据进行处理，得到合成孔径声纳图像；和

图像切割子模块，用于基于图像宽度对合成孔径声纳图像进行切割，得到满足尺寸要求的合成孔径声纳图像，以保证水下目标的完整性。

与现有技术相比，本发明的优势在于：

1、本发明将合成孔径声纳与改进的Cascade-RCNN目标检测相结合，提出了一种水下环境智能感知方法，该方法以端到端的方式解决现有方法虚警率高以及多尺度目标检测精度低的问题，该方法可对复杂场景的水下多尺度目标进行检测，有效降低了复杂场景下目标检测的虚警率，并通过在标准特征提取模块中引入(Spatial Group-wise Enhance，SGE)组件和(A Simple,Parameter-Free Attention Module,SIM)组件提高了目标检测的精度，为基于SAS图像的水下目标检测任务提供了一种有效解决的手段；

2、与现有技术YOLOX、YOLOF、CenterNet、Faster-RCNN、Dynamic-RCNN、Cascade-RCNN相比，本发明方法的检测精度明显提高，可以准确的检测水下多尺度目标，并且对复杂的地貌特征具有较好的抑制效果。

附图说明

图1是本发明提供的复杂场景下合成孔径声纳图像多尺度目标检测方法框架；

图2是本发明使用的改进特征提取模块；

图3是本发明使用的改进Cascade-RCNN网络结构；

图4是本发明使用的改进HRNET网络结构；

图5是本发明提供的SAS图像多尺度目标检测效果图1；

图6是本发明提供的SAS图像多尺度目标检测效果图2；

图7是本发明提供的SAS图像多尺度目标检测效果图3。

具体实施方式

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

本发明的实施例1提出了一种复杂场景下合成孔径声纳图像多尺度目标检测方法。

本发明包括合成孔径声纳图像处理、数据集制作、模型训练和平台部署。第一步，利用合成孔径声纳采集海底目标图像、对数据进行标注并生成目标检测数据集；第二步，初始化训练参数，对改进的Cascade-RCNN模型进行训练，并对目标检测结果进行质量评估；第三步，将训练好的目标检测模型部署到边缘计算平台，实现对水下多尺度目标在线检测以及结果输出。其总体流程框图如图1所示，具体步骤如下：

步骤1、水下目标检测数据集制作

步骤1-1、利用合成孔径声纳采集子模块从真实水下环境中采集原始声纳数据；

步骤1-2、利用开源软件labelImg对声纳图像进行标注；

步骤1-3、按照COCO数据集格式，采用随机划分的原则，对标注好的合成孔径声纳图像进行划分，分为训练样本集和测试样本集。

步骤2、模型训练

步骤2-1、在深度学习服务器上搭建训练平台所需的环境，包括开源软件Anaconda、Pytorch以及Torchvision等，同时对模型训练初始化参数进行设定，包括batchsize、epoch和validation_epochs等；

步骤2-2、搭建改进的特征提取模块，改进的特征提取模块(Building Block withSGE and SIM,BBSS)如图2所示。BBSS特征提取模块在第一个3x3卷积层单元后面增加了SGE组件，SGE通过在每个分组里生成注意力系数，这样就能得到每个分组特征的重要性，每个分组也可以有针对性的学习和抑制噪声。这个注意力系数仅由各个分组内全局和局部特征之间的相似性来决定；在第二个3x3卷积层单元后面增加了SIM组件,在神经科学中，信息丰富的神经元通常表现出与周围神经元不同的放电模式，通常会抑制周围神经元，即空域抑制。

对于一个任意的输入特征D∈Φ^H×H×M，其中H×H为输入特征的尺寸，M为输入特征的通道数。输入特征D进入BBSS模块的两个支路网络：左侧支路负责多尺度目标特征提取和选择；右侧支路保持输入特征D不变，并最后与左侧支路网络的输出特征相加。对于左侧支路网络，输入特征D首先经过第一个3x3卷积层单元，其输出特征的数学表达为：

D₁＝f₁(D),D∈Φ^H×H×M (1)

其中D为原始输入特征，D₁为输出的特征，f₁为第一个卷积层单元(BN层+ReLU层)操作，卷积核尺寸为3×3，输出通道数量为M。

接着，输出特征D₁送入SGE组件，按通道维度将D₁分为G个组，对每个组进行单独处理，其输出特征的数学表达式为：

其中为第i个卷积组，/>为经过SGE组件后的特征，σ()为激活函数，a_i为第i个卷积组的注意力系数，其数学表达式为：

其中γ和β分别表示第i个卷积组的权重和偏置；为量化后的第i个卷积组注意力系数，ε＝1e-5；c_i为第i个卷积组经过全局平均池化操作得到特征系数。

然后，经过第二个3x3卷积层单元，其输出特征的数学表达为：

D₂＝f₂(D_sge),D_sge∈Φ^H×H×M (5)

其中D_sge为原始输入特征，D₂为输出的特征，f₂为第二个卷积层单元(BN层)操作，卷积核尺寸为3×3，输出通道数量为M.

在SIM组件内，我们定义了如下能量函数：

上式的解析解为:

整个过程可以表示为:

最后，可以得到BBSS模块的输出特征数学表达式为：

D_BBSS＝D+D_sim (10)

其中D_BBSS为BBSS模块的输出特征，D∈Φ^H×W×M，特征图尺寸为H×H，输出通道数依然为M。

步骤2-3、搭建改进的目标检测模型SAS-Cascade-RCNN，网络结构如图3所示。图3中，“H”，network head，表示网络头，“B”bounding box，表示边界框，“C”classification，表示分类。SAS-Cascade-RCNN由五个部分组成：高分辨率骨干网络(high-resolutionfeature pyramid networks,HRNET)作为特征提取的骨干网络来构建多层次表征，网络结构如图4所示；区域提案网络(region proposal network,RPN)用于生成候选目标边界框提案；特征融合网络HRFPN用于对多尺度特征进行融合增强；具有阈值的三个级联Cascadeobject detector用于边界框回归和分类；Soft NMS作为后处理步骤执行，以获得最终的SAS水下多尺度目标检测结果。

步骤2-4、实时监测改进Cascade-RCNN网络的训练过程、以及测试结果，当评价指标满足要求时停止训练。

步骤3、平台部署

步骤3-1、在边缘计算平台上搭建语义模型运行环境。

步骤3-2、将训练好的目标检测模型部署到平台端，并设定输入数据格式以及输出数据格式。

步骤4、显示目标检测结果并对感兴趣目标进行增强显示。

实施例2

本发明的实施例2提出了一种复杂场景下合成孔径声纳图像多尺度目标检测系统，基于实施例1的方法实现，所述系统包括：

1、处理模块，用于对阵元接收的声学回波数据进行处理，得到标准尺寸合成孔径声纳图像；包括：合成孔径声纳子模块，用于对接收到的阵元数据进行处理，得到实时合成孔径声纳图像；图像切割子模块，用于对合成孔径声纳图像基于图像宽度进行切割，保证水下目标的完整性。

2、平台部署模块，用于将预先建立和训练好的目标检测模型部署到嵌入式平台；包括：模型部署子模块和结果输出子模块；

所述模型部署子模块，用于将训练好的模型移植到边缘计算平台；

所述结果输出子模块，用于对水下多尺度目标进行显示输出

3、检测输出模块，用于将标准尺寸合成孔径声纳图像输入部署在嵌入式平台的目标检测模型，实现水下多尺度目标检测；

此外，在训练中，还包括：数据集制作模块、模型训练模块。

4、数据集制作模块，用于采集水下场景数据，对水下场景SAS图像目标进行标注、并制作目标检测数据集；包括：数据采集子模块、数据标注子模块和目标检测数据集制作子模块；

数据采集子模块，从真实环境中获取水下合成孔径声纳图像；

数据标注子模块，结合任务需求对合成孔径声纳图像中目标进行标注；

目标检测数据集制作子模块，按照标准目标检测数据集格式，将数据随机划分为训练集和测试集。

5、模型训练模块，用于对目标检测模型进行参数初始化、训练和测试。包括：参数设置子模块，模型测试子模块。

参数设置子模块，用于完成模型训练所需参数初始化工作；

模型测试子模块，用于实时监视模型训练状态。

下面结合仿真实验，对本发明的技术效果作进一步的说明：

实验平台操作系统为Ubuntu 16.04、环境管理软件为Anaconda3、深度学习框架为mmdetection-master；CPU处理器为Intel 5281R*2、内存大小是512GB(64GB*8)、GPU计算单元为8个A100 40GB，输入图像为2000像素×2000像素、学习率等于0.001、所有模型均在A100上进行训练和测试。试验数据数据集为BIG-SAS(合成孔径声纳图像)，采集地点包括千岛湖、丹江口等地，包括三种水下目标：小目标、线状目标和沉积物目标，共计2671幅图像。

本实验比较分析YOLOF、CenterNet、Faster-RCNN、Dynamic-RCNN、Cascade-RCNN与本文目标检测方法SAS-Cascade-RCNN在数据集BIG-SAS上的性能差异。YOLOF、CenterNet、Faster-RCNN、Dynamic-RCNN和Cascade-RCNN的backbone为ResNet-50；SAS-Cascade-RCNN的基础网络为HRNet-SAS，特征融合网络为HRFPN，同时为了方便后续的比较分析，我们将第一阶段的bottle block改成basic block。分别记录检测模型在迭代50次时对BIG-SAS测试数据集的检测精度，计算成本和运行速度。

表1目标检测模型性能比较

从表1可以发现，本发明SAS-Cascade-RCNN的检测精度比YOLOX、YOLOF、CenterNet、Faster-RCNN、Dynamic-RCNN、Cascade-RCNN分别高13.8％、11.0％、6.8％、5.8％和4.9％。尽管SAS-Cascade-RCNN模型参数、Flops以及运算时间存在一定的增加，但考虑SAS图像的生成时间远高于目标检测所需时间，因此仅需考虑检测精度。SAS-Cascade-RCNN更适合基于合成孔径声纳图像水下多尺度目标检测任务。

图5、图6和图7为本发明提供的方法对水下多尺度目标检测的效果图，其中图5包含线状目标和可疑小目标，图6和图7包含沉积物目标和可疑小目标。可以看出，本发明方法可以准确的检测水下多尺度目标，并且对复杂的地貌特征具有较好的抑制效果。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种复杂场景下合成孔径声纳图像多尺度目标检测方法，所述方法包括：

步骤2)将满足尺寸要求的合成孔径声纳图像输入预先建立和训练好的目标检测模型，实现水下多尺度目标检测；

所述目标检测模型为改进的Cascade-RCNN网络，所述改进的Cascade-RCNN网络包括高分辨率骨干网络，所述高分辨率骨干网络采用改进的特征提取模块；

所述改进的特征提取模块的输入为特征D，输出D_BBSS为：

D_BBSS＝D+D_sim；

其中，D_sim为第一支路的输出，所述第一支路为依次连接的第一个3x3卷积层单元、SGE组件、第二个3x3卷积层单元和SIM组件，所述第一个3x3卷积层单元包括BN层和ReLU层，第二个3x3卷积层单元包括BN层；

所述第一支路的处理过程具体包括：

输入特征D经过第一个3x3卷积层单元，其输出特征D₁为：

D₁＝f₁(D),D∈Φ^H×H×M

其中，Dⁱ ₁为第i个卷积组，σ()为激活函数，a_i为第i个卷积组的注意力系数，满足下式：

D_sge经过第二个3x3卷积层单元，其输出特征D₂为：

D₂＝f₂(D_sge),D_sge∈Φ^H×H×M

其中，f₂为第二个3x3卷积层单元；

D₂经过SIM组件的输出D_sim为：

2.根据权利要求1所述的复杂场景下合成孔径声纳图像多尺度目标检测方法，其特征在于，所述步骤1)具体包括：

3.根据权利要求1所述的复杂场景下合成孔径声纳图像多尺度目标检测方法，其特征在于，所述改进的Cascade-RCNN网络包括依次连接的：

区域提案网络，用于生成候选目标边界框提案；

特征融合网络，用于对多尺度特征进行融合增强；

Soft NMS模块，用于获得最终的水下多尺度目标检测结果。

4.根据权利要求1所述的复杂场景下合成孔径声纳图像多尺度目标检测方法，其特征在于，所述方法还包括目标检测模型的训练步骤，具体包括：

5.一种基于权利要求1的复杂场景下合成孔径声纳图像多尺度目标检测方法的检测系统，其特征在于，所述系统包括：

处理模块，用于对阵元接收的声学回波数据进行处理，得到满足尺寸要求的合成孔径声纳图像；

检测输出模块，用于将满足尺寸要求的合成孔径声纳图像输入部署在嵌入式平台的目标检测模型，实现水下多尺度目标检测；

所述目标检测模型为改进的Cascade-RCNN网络，所述改进的Cascade-RCNN网络包括高分辨率骨干网络，所述高分辨率骨干网络采用改进的特征提取模块。

6.根据权利要求5所述的复杂场景下合成孔径声纳图像多尺度目标检测系统，其特征在于，所述处理模块包括：