CN116777772A

CN116777772A - 一种自监督的修复前视声呐图像卷帘门效应的方法

Info

Publication number: CN116777772A
Application number: CN202310669461.7A
Authority: CN
Inventors: 魏艳; 苏家艺; 涂星滨; 瞿逢重
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-09-19
Anticipated expiration: 2043-06-07
Also published as: CN116777772B

Abstract

本发明公开了一种自监督的修复前视声呐图像卷帘门效应的方法。本发明利用隐式神经表示拟合因受卷帘门效应污染而产生分裂效果的声学图像，自适应地恢复出不同时刻所激活的传感通道之间所经过的位移距离。将得到的位移距离在声学图像中补偿，可得到去除卷帘门效应的声学图像。本发明所提出的修复前视声呐图像卷帘门效应的方法适应于基于声学透镜的前视声呐于高速运动下获取的声学图像，克服了卷帘门效应所导致的声学图像分裂的缺点。该方法仅需单张声学图像，无需训练数据，无需外部定位、测速数据输入。恢复后声学图像可用于图像拼接、目标识别、三维重建等后续工作，拓展了基于声学透镜的前视声呐的使用范围。

Description

一种自监督的修复前视声呐图像卷帘门效应的方法

技术领域

本发明属于计算机视觉领域，具体涉及一种自监督的修复前视声呐图像卷帘门效应的方法。

背景技术

水下探测技术是应用最为广泛的海洋技术之一。水下搜救、船坞安全检测、水底生物栖息地探查等任务均需水下探测技术的支持。声呐因其探测介质几乎不受水体浑浊程度的影响，作用距离较远等特点而备受关注。其中，前视声呐作为新兴的声呐类型，因其成像分辨率极高、成像帧率极高、价格相对较低等特点，而成为水下探测技术的研究热门。在这之中，基于声学透镜的前视声呐因其极高的波束分辨率以及较多的采样点数而受到学界、业界的喜爱。其中，基于声学透镜的前视声呐因其分周期的成像方式而具备目前最好的成像清晰度，并广受学界、业界的青睐。型号主要为美国SoundMetrics公司所研发的DIDSON系列与ARIS系列前视声呐。

基于声学透镜的前视声呐的高信噪比主要得益于较低的通道间串扰，其达成这一效果的主要方式为其特有的分周期通道激活的成像策略。假设其具有N_beams个波束，其分N_cycles＝{4，8}次形成图像，每次激活通道数N_once＝N_beams/N_cycles个，激活时间t_once＝t_full/N_cycles。其中，t_full为形成一张声学图像的总时间。第n_c∈{0，1，...，N_cycles-1}个周期激活的通道序号为{0，1，...，N_once-1}*N_cycles+n_c。这种成像策略从空间和时间上错开通道，使波束旁瓣能量导致的通道间串扰尽可能降低。然而，激活时间上的错开导致不同时刻声呐坐标原点不一定相同。如，当声呐处于高速运动时，不同激活时刻声呐所处位置较远，则采集到的声学图像有明显的分裂效果。这一现象的形成原理与卷帘门摄像头的卷帘门效应类似，因此称其为声呐的卷帘门效应。在这一效应影响下的声学图像无法直接作用于图像拼接、三维重建、目标识别的计算机视觉任务。这对基于声学图像的导航定位、目标识别、三维重建任务提出了巨大的挑战。

目前尚没有技术针对基于声学透镜的前视声呐的卷帘门效应进行自监督修复。SoundMetrics官方给出的解决方法需外部测速数据输入。然而，受限于平台的装载能力、功耗要求、经费预算、标定精度等影响，外部测速数据不一定总是精确存在。因此，提出一种自监督的修复前视声呐图像卷帘门效应的方法尤为重要。其仅需单张声学图像，无需训练数据，无需外部定位、测速数据输入，降低对测速设备的需求，减少平台的载荷压力与功耗。其拓展了基于声学透镜的前视声呐的应用场景，无论水下平台是对静物进行低速、高清晰度的观测，还是对海底进行高速的扫描，都可采用同一种前视声呐设备，于实际应用有显著、重要的帮助。

发明内容

本发明的目的在于针对现有技术的不足，提供一种自监督的修复前视声呐图像卷帘门效应的方法。

本发明的目的通过如下方式实现：一种自监督的修复前视声呐图像卷帘门效应的方法，该方法包括以下步骤：

S1、获取原始声学图像并生成表示采样点所处空间的坐标矩阵；

S2、对生成的图像经表示通道间位移的可学习参数进行调整，通过映射函数获取高频信息，得到最终坐标矩阵；

S3、将最终坐标矩阵进行隐式神经表示，将隐式神经表示的输出与采集到的真值形成损失函数更新可学习参数和权重；

S4、将声学图像生成网格坐标，利用训练好的隐式神经表示得到去卷帘门效应的声学图像。

进一步地，所述S1中坐标矩阵其中N_beams为声呐的波束数量，N_bins为每一个波束沿时间轴的采样点个数；该矩阵的长边归一化至1，其余维度保持比例缩放。

进一步地，所述可学习参数用于表示相邻时刻所激活的通道所表示的声呐原点经过的物理位移，用表示，其中，x与y表示位移，θ表示旋转。

进一步地，所述映射函数为其中，C为坐标输入，/>为可以表征输入C高频信息的映射函数，L控制高频信息表征时频率个数的选择，α为使能因子，控制高频信息表征时不同频率的使能状态；

进一步地，所述映射函数具体为：

其中，x∈C为某一点的二维坐标，

f_k(x；α)＝w_k(α)[cos(2^kπx)，sin(2^kπx)]，

其中，k∈{0，1，...，L-1}表示第k个频率，

进一步地，所述映射函数中，使能因子α倾向于随拟合过程进行，使映射得到的高频信息逐渐增多。

进一步地，所述隐式神经表示具体为：以可学习参数和映射函数调整后的图像坐标为输入，多层感知机作为网络主体，声学图像像素值作为输出的神经网络。

进一步地，所述损失函数更新中，可学习参数参与计算的过程可微，更新过程中通过反向传播一起更新的权重与可学习参数。

进一步地，所述S4中，拟合完成的隐式神经表示包含去卷帘门效应后的声学图像信息，使用图片坐标网格进行采样后即可得到去卷帘门效应后的声学图像。

本发明的有益效果在于：本方法无需训练数据，无需外部定位、测速数据输入，可自监督地去除高速移动下的基于声学透镜的前视声呐所采集的声学图像中所出现的卷帘门效应。其修复了图像的分裂效果，为后续基于声学图像的计算机视觉任务的成功解决提供基础。

附图说明

图1自监督修复前视声呐图像卷帘门效应的流程图；

图2隐式神经表示的网络结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。下面结合附图对本发明的具体实施方法作进一步说明：

本发明公开了一种自监督的修复前视声呐图像卷帘门效应的方法，其仅需单张声学图像，无需训练数据，无需外部定位、测速数据输入，可自适应地恢复出不同时刻所激活的传感通道之间所经过的位移距离。将得到的位移距离在声学图像中补偿，可得到去除卷帘门效应的声学图像，

整体过程如图1所示：将获取的声学图像生成坐标，由表示通道间位移的可学习参数调整，然后经过映射函数获取高频信息，作为网络的输入。输出结果为像素值的预测，与真值形成损失函数更新网络的权重与可学习参数。最终，由原始的声学图像生成待生成图像的网格坐标，经网络推断后得到去卷帘门效应的声学图像。该方法详细的实施例过程如下：

假设某时刻获取声学图像N_beams为声呐的波束数量，N_bins为每一个波束沿时间轴的采样点个数。其分N_cycles＝{4，8}次形成图像，每次激活通道数N_once＝N_beams/N_cycles个，激活时间t_once＝t_full/N_cycles。其中，t_full为形成一张声学图像的总时间。第n_c∈{0，1，...，N_cycles-1}个周期激活的通道序号为{0，1，...，N_once-1}*N_cycles+n_c。

根据激活时间、采样间隔、声速、波束角度等已知信息，可得到以物理量作为单位(如，米)的，位于成像平面内的，表示采样点所处空间的坐标矩阵该矩阵的长边归一化至1，其余维度保持比例缩放。

相邻时刻所激活的通道所表示的声呐原点经过的物理位移用可学习参数表示。其中，x与y表示位移，θ表示旋转。相较于0时刻，1时刻的采样点需经过θ角度的旋转以及x与y所表示的平移：

其中，R_θ表示θ的旋转矩阵，P₁为1时刻的采样点位置，为考虑卷帘门效应后的采样点位置。n_c时刻的采样点位置需进行n_c次的旋转与位移进行修正。记最终得到的坐标矩阵为/>需作为输入通过映射函数/>得到输出。其中，C为坐标输入，/>为可以表征输入C高频信息的映射函数，L控制高频信息表征时频率个数的选择，α为使能因子，控制高频信息表征时不同频率的使能状态。所述的映射函数/>在α的控制下，倾向于随拟合过程进行，使映射得到的高频信息逐渐增多。简略L与α在/>中的表示，设/>为：

其中，x∈C为某一点的二维坐标，

f_k(x；α)＝w_k(α)[cos(2^kπx)，sin(2^kπx)]，

其中，k∈{0，1，...，L-1}表示第k个频率，

其中，α随训练过程逐渐增大。设总训练次数为N_iters，当前训练次数为n_iter，本实施例中设的输出结果作为输入进入隐式神经表示Φ。

α的控制策略以及其对网络的影响对本方法的结果至关重要。若α的选择导致网络持续屏蔽频率信息，则网络最终无法较好收敛以表达声学图像；若α的选择导致网络始终保留频率信息，则导致可学习参数因过分受到高频信息的梯度影响而无法收敛。

隐式神经表示Φ的网络结构为多层感知机，本实施例中网络结构如图2所示。其包含神经元个数为2+4L的输入层，神经元个数为256的三个隐藏层，以及神经元个数为1的输出层。

网络的输出为与所采集到的声学图像I中的真值y形成网络损失从而进行网络训练，y为I中某一像素点的值。由于可学习参数/>参与计算的过程可微，训练过程通过反向传播一起更新隐式神经表示Φ的权重与可学习参数/>

最终，通过生成预期的图像网格坐标利用Φ进行采样得到预测值，即可得到去卷帘门效应的声学图像。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种自监督的修复前视声呐图像卷帘门效应的方法，其特征在于，该方法包括以下步骤：

S3、将最终坐标矩阵进行隐式神经表示，将隐式神经表示的输出与采集到的原始声学图像真值形成损失函数更新可学习参数和权重；

S4、将声学图像生成网格坐标，利用拟合完成的隐式神经表示得到去卷帘门效应的声学图像。

2.根据权利要求1所述的一种自监督的修复前视声呐图像卷帘门效应的方法，其特征在于，所述S1中坐标矩阵其中N_beams为声呐的波束数量，N_bins为每一个波束沿时间轴的采样点个数；该矩阵的长边归一化至1，其余维度保持比例缩放。

3.根据权利要求1所述的一种自监督的修复前视声呐图像卷帘门效应的方法，其特征在于，所述可学习参数用于表示相邻时刻所激活的通道所表示的声呐原点经过的物理位移，用表示，其中，x与y表示位移，θ表示旋转。

4.根据权利要求1所述的一种自监督的修复前视声呐图像卷帘门效应的方法，其特征在于，所述映射函数为其中，C为坐标输入，/>为用于表征输入C高频信息的映射函数，L控制高频信息表征时频率个数的选择，α为使能因子，控制高频信息表征时不同频率的使能状态。

5.根据权利要求4所述的一种自监督的修复前视声呐图像卷帘门效应的方法，其特征在于，所述映射函数具体为：

其中，x∈C为某一点的二维坐标，

f_k(x；α)＝w_k(α)[cos(2^kπx)，sin(2^kπx)]，

其中，k∈{0，1，...，L-1}表示第k个频率，

6.根据权利要求4所述的一种自监督的修复前视声呐图像卷帘门效应的方法，其特征在于，所述映射函数中，使能因子α倾向于随拟合过程进行，使映射得到的高频信息逐渐增多。

7.根据权利要求1所述的一种自监督的修复前视声呐图像卷帘门效应的方法，其特征在于，所述隐式神经表示具体为：以可学习参数和映射函数调整后的图像坐标为输入，多层感知机作为网络主体，声学图像像素值作为输出的神经网络。

8.根据权利要求1所述的一种自监督的修复前视声呐图像卷帘门效应的方法，其特征在于，所述损失函数更新中，可学习参数参与计算的过程可微，更新过程中通过反向传播一起更新的权重与可学习参数。

9.根据权利要求1所述的一种自监督的修复前视声呐图像卷帘门效应的方法，其特征在于，所述S4中，拟合完成的隐式神经表示包含去卷帘门效应后的声学图像信息，使用图片坐标网格进行采样后即可得到去卷帘门效应后的声学图像。