CN117745596A

CN117745596A - 一种基于跨模态融合的水下去遮挡方法

Info

Publication number: CN117745596A
Application number: CN202410182761.7A
Authority: CN
Inventors: 姜宇; 张永霁; 魏枫林; 赵明浩; 齐红; 王跃航; 郭千仞
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2024-02-19
Filing date: 2024-02-19
Publication date: 2024-03-22
Anticipated expiration: 2044-02-19
Also published as: CN117745596B

Abstract

一种基于跨模态融合的水下去遮挡方法。本发明属于水下机器视觉的技术领域，具体而言，涉及事件和RGB两种数据模态深度融合方法，以及基于事件和RGB数据的水下场景去遮挡重建方法。本发明提供了一种基于跨模态融合的水下去遮挡方法，解决了现有技术中在水下去遮挡时都是先将事件序列与RGB图像各自的特征先进行编码后再融合，此种处理方式容易导致模型计算量和硬件要求翻倍，无法适配于资源受限的水下环境的问题。本发明所述方法将事件序列与RGB图像直接进行融合，然后再进行编码解码，在前融合阶段进行数据融合，减少了系统对计算量的要求，使网络更加轻量化。

Description

一种基于跨模态融合的水下去遮挡方法

技术领域

本发明属于水下机器视觉的技术领域，具体而言，涉及事件和RGB两种数据模态深度融合方法，以及基于事件和RGB数据的水下场景去遮挡重建方法。

背景技术

利用事件和RGB数据实现水下视觉无遮挡场景的清晰重建，为水下的目标检测、识别和追踪等任务提供了高质量鲁棒的视觉表达，也是未来水下数据处理的发展趋势，但现有技术中，例如中国发明专利CN115761472 A《一种基于融合事件和RGB数据的水下暗光场景重建方法》和CN115661452 A《一种基于事件相机和RGB图像的图片去遮挡方法》在处理事件序列与RGB图像时，都是先将事件序列与RGB图像各自的特征先进行编码后再融合，此种处理方式容易导致模型计算量和硬件要求翻倍，无法适配于资源受限的水下环境的问题。

发明内容

为了解决这一问题，本发明提供了一种基于跨模态融合的水下去遮挡方法，将事件序列与RGB图像直接进行融合，然后再进行编码解码，在前融合阶段进行数据融合，减少了系统对计算量的要求，使网络更加轻量化。

本发明所述方法具体如下：所述方法包括如下步骤：

S1、利用事件相机采集水下场景对应的水下事件序列、遮挡RGB帧以及未遮挡RGB帧，并构建水下事件序列—遮挡RGB帧—中间视角未遮挡RGB帧为标准的基准数据集，基准数据集中包括训练集和测试集；

使用训练集对步骤S2—S5进行训练；

S2、对水下场景对应的水下事件序列采用体素网格方式进行分段化表征，并将表征后的结果作为目标事件张量图；

S3、利用自主设计的时序多尺度编码网络对目标事件张量图和其对应的遮挡RGB帧进行融合特征编码；

S4、利用基于特征金字塔的多级Transformer编解码器对步骤S3得到的多尺度融合特征进行深度特征抽取；

S5、利用基于特征金字塔的多级Transformer编解码器进行解码，得到中间视角水下重建图像；

S6、利用步骤S1中的测试集对步骤S2-S4中的网络进行测试，直到解码所得的中间视角水下重建图质量符合要求，否则重复步骤S1—S5；

S7、将中间视角水下重建图像与其他视角遮挡RGB帧一同送入到自主改进的U型编解码网络中进行融合，最终输出所有视角的水下重建图像。

进一步，所述中间视角具体为在所有视角中与遮挡物所在平面垂直的视角。

进一步，所述步骤S1具体为：

步骤1.1、根据所述的水下事件序列，按其微秒级的时间戳进行划分，针对每一水下场景，得到多个事件窗口；

步骤1.2、将所述遮挡RGB帧按其微秒级的时间戳与步骤1.1的事件窗口逐个对齐；

步骤1.3、采集的中间视角未遮挡RGB帧，作为参考图像，并保持与步骤1.2的所有遮挡RGB帧逐个对齐；

步骤1.4、根据步骤1.1、步骤1.2和步骤1.3所获得的结果，构建基准训练集和测试集，比例为9:1。

进一步，所述步骤S2具体为：

将水下事件序列的每个事件窗口执行体素网格化过程，通过：

；

实现，式中，为经过体素网格表征后的目标事件张量图，其输入为事件单元的四元组数据：/>，分别代表事件窗口中第/>个事件单元的坐标信息、时间戳和极性；其中，/>代表当前事件窗口中第/>个事件单元所在位置的亮度增加，并达到了预设增量阈值；/>代表相反的过程。

进一步，所述自主设计的时序多尺度编码网络由三个分支网络结合起来构成，所述三个分支网络存在共同的输入和输出；

其中，第一个分支网络从输入到输出依次包括3个相同的特征提取单元和一个多层感知机；

第二个分支网络从输入到输出依次包括2个相同的特征提取单元和一个多层感知机；

第三个分支网络从输入到输出依次包括一个特征提取单元和一个多层感知机；

所述特征提取单元依次包括3D卷积网络层、批量归一化层和激活层。

进一步，所述3D卷积网络层包括ResNet3D18、ResNet3D50和ResNet3D101。

进一步，所述自主改进的U型编解码网络通过在解码和编码阶段使用深度可分离卷积构造跳跃连接，在编码器和解码器之间加入通道注意力加权，对不同视角所在的通道信息进行交互。

本发明所述方法的有益效果为：

（1）对于水下场景，时序上信息融合比空间上的信息融合更能适应水下环境的场景多变，但是时序上的融合意味着多尺度信息的融合，在使用Transformer编码器进行编码时，由于其只能对一个尺度上的信息进行编码，所以本发明中，自主设计了时序多尺度编码网络，对多尺度时序信息进行融合编码，再将多尺度融合特征输入Transformer编码器。

（2）将中间视角的无遮挡图像和所有视角的带遮挡图像输入到多视角合成u型网络中进行合成，通过在解码和编码阶段使用深度可分离卷积构造跳跃连接，相对于其他U型结构而言，以可学习的方式连接同一尺度的解码编码信息，深度可分离卷积相对于卷积而言同时拥有更大的感受野，可以有效增强融合结果；另一方面，在编码器和解码器之间加入通道注意力加权，可以有效的对不同视角所在的通道信息进行交互。

附图说明

图1为本发明实施例所述方法流程图；

图2为本发明实施例所述时序多尺度编码网络结构图；

图3为本发明实施例所述自主改进的U型编解码网络结构图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

实施例1、

本实施例提供一种基于跨模态融合的水下去遮挡方法，如图1所示，所述方法包括如下步骤：

使用训练集对步骤S2—S5进行训练；

S6、利用步骤S1中的测试集对步骤S2-S5中的网络进行测试，直到解码所得的中间视角水下重建图质量符合要求，否则重复步骤S1—S5；

实施例2、

本实施例是对实施例1的进一步说明，所述步骤S1具体为：

根据预先设定的时间周期，结合目标事件序列总体时间长度，确定划分的事件窗口数量为；随后，将目标事件序列的每个事件单元的微秒级时间戳进行正则化，其计算公式如下：

.

式中，为当前处理事件单元的时间戳，/>为输出的正则化时间戳，/>和/>代表当前执行的事件窗口的最大时间戳和最小时间戳。

所述中间视角具体为在所有视角中与遮挡物所在平面垂直的视角，具体地，假设共匀速拍摄11个视角的图像，从左到右11个视角中，第6个视角正对着被遮挡物，与遮挡物所在面垂直，那么第六个视角即为中间视角。

实施例3、

本实施例是对实施例1的进一步说明，所述步骤S2具体为：

；

实施例4、

本实施例是对实施例1的进一步说明，如图2所示，所述自主设计的时序多尺度编码网络由三个分支网络结合起来构成，所述三个分支网络存在共同的输入和输出；

所述3D卷积网络层可选用ResNet3D18、ResNet3D50和ResNet3D101以及其他的3D卷积网络，其中优选ResNet3D18卷积网络，具体的，利用ResNet3D18网络对特征编码网络对目标事件张量图和其对应的RGB帧进行多尺度特征编码，目标事件张量图和其对应的RGB帧在通道维度进行拼接，具体为，5通道的11个事件序列和3通道的11个RGB帧在通道维度进行拼接，得到88通道的信息；

通过时间步为11,8,4的ResNet3D18得到3个时空尺度融合特征向量，3个融合特征向量通过全连接层进行混合编码，得到多尺度事件RGB融合编码，全连接层的映射维度为768。

实施例5、

本实施例是对实施例1的进一步说明，步骤S4中，具体的，基于特征金字塔的多级Transformer编解码器中的编码器，逐级对输入数据即多尺度事件RGB融合编码进行深度特征抽取；其中，每一级的Transformer编码器使用尺度1*1的卷积和3*3的深度可分离卷积计算键（key）、值（value）、查询向量（query）从而在通道维度计算注意力。

实施例6、

本实施例是对实施例1的进一步说明，如图3所示为所述自主改进的U型编解码网络，将中间视角的无遮挡图像和所有视角的带遮挡图像输入到多视角合成U型网络中进行合成，在编码时依次经过4个阶段的下采样，在每个阶段中都采用卷积操作，所采用的卷积核依次为7×7、5×5、3×3、3×3，其中，C代表通特征图道数、H代表特征图高度、W代表特征图宽度；通过在解码和编码阶段使用深度可分离卷积（DWConv）构造跳跃连接，相对于其他U型结构而言，以可学习的方式连接同一尺度的解码编码信息，深度可分离卷积相对于卷积而言同时拥有更大的感受野，可以有效增强融合结果；在编码器和解码器之间加入通道注意力加权，可以有效的对不同视角所在的通道信息进行交互；在解码时依次经过4个阶段的上采样，在每个阶段中都采用卷积操作，所采用的卷积核依次为3×3、3×3、5×5、7×7，经过解码后得到所需的多视角无遮挡图像。

Claims

1.一种基于跨模态融合的水下去遮挡方法，其特征在于，所述方法包括如下步骤：

使用训练集对步骤S2—S5进行训练；

2.根据权利要求1所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述中间视角具体为在所有视角中与遮挡物所在平面垂直的视角。

3.根据权利要求1所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述步骤S1具体为：

4.根据权利要求3所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述步骤S2具体为：

；

5.根据权利要求4所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述自主设计的时序多尺度编码网络由三个分支网络结合起来构成，所述三个分支网络存在共同的输入和输出；

6.根据权利要求5所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述3D卷积网络层包括ResNet3D18、ResNet3D50和ResNet3D101。

7.根据权利要求6所述的基于跨模态融合的水下去遮挡方法，其特征在于，所述自主改进的U型编解码网络通过在解码和编码阶段使用深度可分离卷积构造跳跃连接，在编码器和解码器之间加入通道注意力加权，对不同视角所在的通道信息进行交互。