CN115761472B - 一种基于融合事件和rgb数据的水下暗光场景重建方法 - Google Patents
一种基于融合事件和rgb数据的水下暗光场景重建方法 Download PDFInfo
- Publication number
- CN115761472B CN115761472B CN202310024781.7A CN202310024781A CN115761472B CN 115761472 B CN115761472 B CN 115761472B CN 202310024781 A CN202310024781 A CN 202310024781A CN 115761472 B CN115761472 B CN 115761472B
- Authority
- CN
- China
- Prior art keywords
- event
- feature
- rgb
- stage
- underwater
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明是一种基于融合事件和RGB数据的水下暗光场景重建方法。本发明涉及水下机器视觉技术领域,本发明利用事件相机采集的水下暗光事件序列和弱曝光RGB帧构建基准数据集;针对事件序列的异步稀疏性,对每一场景事件序列采用体素网格方式进行分段化表征;利用特征编码网络对事件序列和RGB帧进行特征编码,利用基于特征金字塔的多级Transformer编码器,得到多尺度事件和RGB特征提取分支;利用多阶段残差学习,融合事件和RGB特征,利用逐级上采样特征解码器,最终输出清晰的水下重建场景。实现对事件数据和RGB数据的高效融合,并在水下暗光场景重建清晰的图像,为水下的检测、识别和追踪任务提供了鲁棒的视觉表达。
Description
技术领域
本发明涉及水下机器视觉技术领域,是一种基于融合事件和RGB数据的水下暗光场景重建方法。
背景技术
随着科技的进步和发展,人类逐渐向海洋探索,开展海洋环境与生物的科学研究。然而,水下视觉光照严重不足,视觉相机拍摄的水下场景往往暗淡模糊,无法有效开展诸多视觉任务,例如基于水下机器智能的目标检测、识别与跟踪等。因此,在水下暗光场景下,重建清晰的视觉图像对于上述视觉任务至关重要。近年来,机器视觉领域已经展开了许多基于帧图像的低光场景增强的研究工作,并取得较高质量的重建结果。但是,现有的RGB传感器和算法在水下暗光条件下所能利用的视觉信息严重受限,因此很难重建清晰鲁棒的水下场景图像。
事件相机是一种新型的基于仿生学的动态视觉传感器,具有低功耗、高动态范围以及高时空分辨率的特点,在机器视觉领域受到越来越多的关注,例如低光场景重建、目标检测、目标追踪、高动态范围成像、高速目标识别和轨迹恢复等。不同于传统相机捕获全局固定帧率图像,事件相机以异步方式在微秒级别上记录光度的变化信息,并将触发的事件流保存为稀疏离散的四元组数据,即(x, y, t, p),分别代表坐标、微秒级时间戳和极性。由于事件相机高动态范围以及高时空分辨率的特点,许多方法将事件相机应用到具有挑战性场景的重建任务中,例如室外夜晚的低光场景或阳光充足的过曝光场景。然而,这些基于事件相机的方法缺少足够充分的视觉信息,例如无法获取图像的初始像素值、只能针对亮度的变化信息进行处理,进而导致无法计算图像中每个像素的绝对强度值。因此,基于事件相机恢复低光场景结构和细节信息本质上是个不适定的问题。进一步地,对于低光场景下的视觉信息重建,事件相机的潜力还尚未完全挖掘,尤其对于水下暗光场景的视觉应用。
发明内容
本发明为克服现有技术的不足,本发明利用事件和RGB数据实现水下视觉场景的清晰重建,为水下的目标检测、识别和追踪等任务提供高质量鲁棒的视觉表达。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本发明提供了一种基于融合事件和RGB数据的水下暗光场景重建方法,本发明提供了以下技术方案:
一种基于融合事件和RGB数据的水下暗光场景重建方法,所述方法包括以下步骤:
步骤1、利用事件相机采集的水下暗光事件序列和弱曝光RGB帧构建基准数据集;
步骤2、针对事件序列的异步稀疏性,对每一场景事件序列采用体素网格方式进行分段化表征;
步骤3、利用特征编码网络对事件序列和RGB帧进行特征编码,得到对应的特征描述子;
步骤4、基于特征金字塔的多级Transformer编码器,得到多尺度事件和RGB特征提取分支;
步骤5、利用多阶段残差学习,融合事件和RGB特征,得到多尺度空间深度融合信息表达;
步骤6、利用逐级上采样特征解码器,最终输出清晰的水下重建场景。
优选地,所述步骤1具体为:
步骤1.1、按其微秒级的时间戳进行对目标事件序列进行划分。针对每一水下场景,得到多个事件窗口;
步骤1.2、根据所述的水下弱曝光RGB帧按其微秒级的时间戳与步骤1.1的事件窗口对齐;
步骤1.3、遵循有监督学习策略,在提供额外照明条件下,采集正常照度的RGB帧作为标签数据,并保持与步骤1.2的弱曝光帧对齐;
步骤1.4、根据步骤1.1、步骤1.2和步骤1.3所获得的结果,在剔除无效和冗余数据后,构建基准训练集和测试集,其比例为9:1。
优选地,所述步骤2具体为:
针对目标事件序列的异步稀疏性,对每一目标场景的目标事件序列采用体素网格方式进行分段化表征,并将表征后的结果作为目标事件张量图。
其中,根据预先设定好的时间周期划分不同的事件窗口,每个事件窗口执行相同的体素网格化过程。
根据预先设定好的时间周期对目标事件序列的编码时间戳进行均匀划分,得到多个事件窗口,将目标事件序列中的每个事件单元按照时间戳所在的事件窗口,对目标子数据进行划分,确定目标事件序列中每个事件单元的事件窗口编号。
优选地,所述步骤3具体为:
使用可形变卷积神经网络和下采样网络作为特征编码网络,对事件序列和RGB帧进行特征编码,构建多尺度特征金字塔,形成事件分支和RGB分支,每个分支获得对应5个尺度的特征描述子,其大小分别为原始输入的[1, 1/2, 1/4, 1/8, 1/16]。
优选地,所述步骤4具体为:
基于特征金字塔的多级Transformer编码器包含两个阶段:第一阶段对输入的事件特征分支或RGB特征分支执行深度特征抽取,得到对应分支的深度特征描述子;第二阶段对经过多阶段残差多模态融合后的融合特征描述子执行细粒度高维特征提取。
每一阶段的编码器含有5级多尺度平行结构,每一级尺度执行相同的特征提取操作,这5级多尺度特征将在解码空间逐级合并。
优选地,所述步骤5具体为:
将Transformer编码器第一阶段的输出数据作为多阶段残差学习模块的输入,执行多模态残差融合,即对每一级的事件特征描述子和RGB特征描述子执行细粒度特征融合,得到融合特征描述子,用于基于特征金字塔的多级Transformer编码器的第二阶段的输入,其计算公式为:
优选地,所述步骤6具体为:
将基于特征金字塔的多级Transformer编码器的第二阶段输出作为输入数据,在5个级别上逐次执行空间解码,并与下一级别特征描述子进行逐通道合并,不断恢复原始尺度,最终输出清晰的水下重建场景,以有监督方式训练所有模块,使用逐像素的L1损失函数约束训练。
L1损失函数通过下式表示:
一种基于融合事件和RGB数据的水下暗光场景重建系统,所述系统包括:
数据收集模块,所述数据收集模块利用事件相机采集的水下暗光事件序列和弱曝光RGB帧构建基准数据集;
表征分化模块,所述表征分化模块针对事件序列的异步稀疏性,对每一场景事件序列采用体素网格方式进行分段化表征;
编码模块,所述编码模块利用特征编码网络对事件序列和RGB帧进行特征编码,得到对应的特征描述子;
提取模块,所述提取模块基于特征金字塔的多级Transformer编码器,得到多尺度事件和RGB特征提取分支;
融合模块,所述融合模块利用多阶段残差学习,融合事件和RGB特征,得到多尺度空间深度融合信息表达;
输出模块,所述输出模块利用逐级上采样特征解码器,最终输出清晰的水下重建场景。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现一种基于融合事件和RGB数据的水下暗光场景重建方法。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种基于融合事件和RGB数据的水下暗光场景重建方法。
本发明具有以下有益效果:
本发明与现有技术相比:
本发明通过使用事件相机在水下暗光目标场景数据的采集,获取目标事件数据。进而,通过本申请提出的一种融合事件和RGB数据的水下暗光场景重建方法,对目标事件和弱曝光RGB帧以端到端的方式执行水下暗光重建,获得清晰鲁棒的场景图像,为水下其他视觉应用,如水下的目标检测、识别、跟踪和分类等,提供良好的视觉表达,能够有效提升上述应用的准确率。
通过事件和RGB数据作为输入,重建清晰鲁棒的水下视觉场景,适用于水下暗光场景的图像重建。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是融合事件和RGB数据的水下暗光场景重建方法的流程示意图;
图2是特征编码模块的流程示意图;
图3是多阶段残差学习模块的流程示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
根据图1至图3所示,本发明为解决上述技术问题采取的具体优化技术方案是:本发明涉及一种基于融合事件和RGB数据的水下暗光场景重建方法。
一种基于融合事件和RGB数据的水下暗光场景重建方法,所述方法包括以下步骤:
步骤1、利用事件相机采集的水下暗光事件序列和弱曝光RGB帧构建基准数据集;
步骤2、针对事件序列的异步稀疏性,对每一场景事件序列采用体素网格方式进行分段化表征;
步骤3、利用特征编码网络对事件序列和RGB帧进行特征编码,得到对应的特征描述子;
步骤4、基于特征金字塔的多级Transformer编码器,得到多尺度事件和RGB特征提取分支;
步骤5、利用多阶段残差学习,融合事件和RGB特征,得到多尺度空间深度融合信息表达;
步骤6、利用逐级上采样特征解码器,最终输出清晰的水下重建场景。
具体实施例二:
本申请实施例二与实施例一的区别仅在于:
所述步骤1具体为:
步骤1.1、按其微秒级的时间戳进行对目标事件序列进行划分。针对每一水下场景,得到多个事件窗口;
步骤1.2、根据所述的水下弱曝光RGB帧按其微秒级的时间戳与步骤1.1的事件窗口对齐;
步骤1.3、遵循有监督学习策略,在提供额外照明条件下,采集正常照度的RGB帧作为标签数据,并保持与步骤1.2的弱曝光帧对齐;
步骤1.4、根据步骤1.1、步骤1.2和步骤1.3所获得的结果,在剔除无效和冗余数据后,构建基准训练集和测试集,其比例为9:1。
具体实施例三:
本申请实施例三与实施例二的区别仅在于:
所述步骤2具体为:
针对目标事件序列的异步稀疏性,对每一目标场景的目标事件序列采用体素网格方式进行分段化表征,并将表征后的结果作为目标事件张量图。
其中,根据预先设定好的时间周期划分不同的事件窗口,每个事件窗口执行相同的体素网格化过程。
根据预先设定好的时间周期对目标事件序列的编码时间戳进行均匀划分,得到多个事件窗口,将目标事件序列中的每个事件单元按照时间戳所在的事件窗口,对目标子数据进行划分,确定目标事件序列中每个事件单元的事件窗口编号。
具体实施例四:
本申请实施例四与实施例三的区别仅在于:
所述步骤3具体为:
使用可形变卷积神经网络和下采样网络作为特征编码网络,对事件序列和RGB帧进行特征编码,构建多尺度特征金字塔,形成事件分支和RGB分支,每个分支获得对应5个尺度的特征描述子,其大小分别为原始输入的[1, 1/2, 1/4, 1/8, 1/16]。
具体实施例五:
本申请实施例五与实施例四的区别仅在于:
所述步骤4具体为:
基于特征金字塔的多级Transformer编码器包含两个阶段:第一阶段对输入的事件特征分支或RGB特征分支执行深度特征抽取,得到对应分支的深度特征描述子;第二阶段对经过多阶段残差多模态融合后的融合特征描述子执行细粒度高维特征提取。
每一阶段的编码器含有5级多尺度平行结构,每一级尺度执行相同的特征提取操作,这5级多尺度特征将在解码空间逐级合并。
本申请提供了一种融合事件和RGB数据的水下暗光场景重建方法,具体包括以下步骤:步骤1、利用事件相机采集的水下暗光事件序列和弱曝光RGB帧构建基准数据集;步骤2、针对事件序列的异步稀疏性,对每一场景事件序列采用体素网格方式进行分段化表征;步骤3、利用特征编码网络对事件序列和RGB帧进行特征编码,得到对应的特征描述子;步骤4、利用基于特征金字塔的多级Transformer编码器,得到多尺度事件和RGB特征提取分支;步骤5、利用多阶段残差学习,融合事件和RGB特征,得到多尺度空间深度融合信息表达;步骤6、利用逐级上采样特征解码器,最终输出清晰的水下重建场景。通过本申请中的技术方案,实现了对事件数据和RGB数据的高效融合,并在水下暗光场景重建清晰的图像,为水下的检测、识别和追踪等任务提供了鲁棒的视觉表达。
具体实施例六:
本申请实施例六与实施例五的区别仅在于:
所述步骤5具体为:
将Transformer编码器第一阶段的输出数据作为多阶段残差学习模块的输入,执行多模态残差融合,即对每一级的事件特征描述子和RGB特征描述子执行细粒度特征融合,得到融合特征描述子,用于基于特征金字塔的多级Transformer编码器的第二阶段的输入,其计算公式为:
具体实施例七:
本申请实施例七与实施例六的区别仅在于:
所述步骤6具体为:
将基于特征金字塔的多级Transformer编码器的第二阶段输出作为输入数据,在5个级别上逐次执行空间解码,并与下一级别特征描述子进行逐通道合并,不断恢复原始尺度,最终输出清晰的水下重建场景,以有监督方式训练所有模块,使用逐像素的L1损失函数约束训练。
L1损失函数通过下式表示:
具体实施例八:
本申请实施例八与实施例七的区别仅在于:
本发明提供一种基于融合事件和RGB数据的水下暗光场景重建系统,所述系统包括:
数据收集模块,所述数据收集模块利用事件相机采集的水下暗光事件序列和弱曝光RGB帧构建基准数据集;
表征分化模块,所述表征分化模块针对事件序列的异步稀疏性,对每一场景事件序列采用体素网格方式进行分段化表征;
编码模块,所述编码模块利用特征编码网络对事件序列和RGB帧进行特征编码,得到对应的特征描述子;
提取模块,所述提取模块基于特征金字塔的多级Transformer编码器,得到多尺度事件和RGB特征提取分支;
融合模块,所述融合模块利用多阶段残差学习,融合事件和RGB特征,得到多尺度空间深度融合信息表达;
输出模块,所述输出模块利用逐级上采样特征解码器,最终输出清晰的水下重建场景。
具体实施例九:
本申请实施例九与实施例八的区别仅在于:
本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如一种基于融合事件和RGB数据的水下暗光场景重建方法。
所述方法包括以下步骤:
步骤1、利用事件相机采集的水下暗光事件序列和弱曝光RGB帧通过微秒级时间戳对齐,并在额外光照条件下获取正常照度的参考图像作为训练标签数据。基于此,构建水下暗光场景重建的基准训练集和测试集;
步骤2、对每一水下暗光场景的事件流序列,采用体素网格方式进行分段化表征,多个每个事件序列下的多个事件窗口表征;
步骤3、使用可形变卷积神经网络和下采样网络作为特征编码网络,对事件序列和RGB帧进行特征编码,形成事件分支和RGB分支,每个分支获得对应5个尺度的特征描述子,其大小分别为原始输入的[1, 1/2, 1/4, 1/8, 1/16];
步骤4、对于每一分支的输入,执行相同的操作:使用基于特征金字塔的多级Transformer编码器,对输入的特征描述子在不同空间维度上提取深度特征。这个过程分为两个阶段,第一阶段对每一分支的输入提取深度特征,第二阶段对事件与RGB融合的特征张量执行细粒度深度特征提取。
步骤5、利用多阶段残差学习模块,融合的输入的事件和RGB特征描述子,得到多尺度空间深度融合信息表达,构成统一的深度特征描述子;
步骤6、利用逐级上采样特征解码器,将基于特征金字塔的多级Transformer编码器的第二阶段输出作为输入数据,在5个级别上逐次执行空间解码,并与下一级别特征描述子进行逐通道合并,不断恢复原始尺度,最终输出清晰的水下重建场景。以有监督方式训练所有模块,使用逐像素的L1损失函数约束训练。
进一步地,步骤1通过以下方式实现:
步骤1.1、按其微秒级的时间戳进行对事件序列进行划分。针对每一水下场景,得到多个事件窗口;
步骤1.2、根据所述的水下弱曝光RGB帧按其微秒级的时间戳与步骤1.1的事件窗口对齐;
步骤1.3、遵循有监督学习策略,在提供额外照明条件下,采集正常照度的RGB帧作为标签数据,并保持与步骤1.2的弱曝光帧对齐;
步骤1.4、根据步骤1.1、步骤1.2和步骤1.3所获得的结果,在剔除无效和冗余数据后,构建基准训练集和测试集,其比例为9:1。
上述任一项技术方案中,进一步地,基于事件窗口的事件表征方式为体素网格形式,其计算公式为:
进一步地,步骤5通过以下方式实现:
将Transformer编码器第一阶段的输出数据作为多阶段残差学习模块的输入,执行多模态残差融合,即对每一级的事件特征描述子和RGB特征描述子执行细粒度特征融合,其计算公式为:
式中,Res(∙)代表残差学习模块,和/>代表事件分支和RGB分支的特征描述子,/>和/>代表事件分支和RGB分支的残差深度融合。最终通过逐元素相加得到对应每一级尺度下完整细粒度的融合特征描述子/>。
具体实施例十:
本申请实施例十与实施例九的区别仅在于:
本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其所述处理器执行所述计算机程序时实现一种基于融合事件和RGB数据的水下暗光场景重建方法。
方法包括:
步骤1、利用事件相机采集的水下暗光事件序列和弱曝光RGB帧构建基准训练集。
其中,事件相机可以是不同的采集设备,如:DAVIS 346 Color等。事件相机可以通过测量场景中每个像素的在对数空间的亮度变化输出异步信号流。目标场景可以为水下的鱼群区域、珊瑚礁区域或者潜水员等水下场景。目标事件数据可以是事件相机采集的数据,包括:由亮度变化异步触发的正/负事件流、触发时间戳、位置信息以及对应的弱曝光RGB图像等。目标场景的标签数据可以为额外提供照明获得的正常照度RGB图像。
具体的,基于事件相机对目标场景进行采集,得到目标场景的目标事件数据。将目标事件数据进行预处理并构建基准数据集,该步骤包括:
步骤1.1、按其微秒级的时间戳进行对目标事件序列进行划分。针对每一水下场景,得到多个事件窗口;
步骤1.2、根据所述的水下弱曝光RGB帧按其微秒级的时间戳与步骤1.1的事件窗口对齐;
步骤1.3、遵循有监督学习策略,在提供额外照明条件下,采集正常照度的RGB帧作为标签数据,并保持与步骤1.2的弱曝光帧对齐;
步骤1.4、根据步骤1.1、步骤1.2和步骤1.3所获得的结果,在剔除无效和冗余数据后,构建基准训练集和测试集,其比例为9:1。
步骤2、针对目标事件序列的异步稀疏性,对每一目标场景的目标事件序列采用体素网格方式进行分段化表征,并将表征后的结果作为目标事件张量图。
其中,根据预先设定好的时间周期划分不同的事件窗口,每个事件窗口执行相同的体素网格化过程。
具体的,根据预先设定好的时间周期对目标事件序列的编码时间戳进行均匀划分,得到多个事件窗口。进而,将目标事件序列中的每个事件单元按照时间戳所在的事件窗口,对目标子数据进行划分,确定目标事件序列中每个事件单元的事件窗口编号。
示例性的,根据预先设定的时间周期,结合目标事件序列总体时间长度,确定划分的事件窗口数量为 B;随后,将目标事件序列的每个事件单元的微秒级时间戳进行正则化,其计算公式如下:
进一步地,将目标事件序列的每个事件窗口执行体素网格化过程,其计算公式如下:
式中, 为经过体素网格表征后的事件张量图,其输入为事件单元的四元组数据:/>,分别代表事件窗口中第i个事件单元的坐标信息、时间戳和极性。其中,/>代表当前事件窗口中第i个事件单元所在位置的亮度增加,并达到了预设增量阈值;/>代表相反的过程。
步骤3、利用特征编码网络对目标事件序列的张量图和RGB帧进行特征编码,得到对应的特征描述子。
具体的,如图2所示,使用可形变卷积神经网络和下采样网络作为特征编码网络,对事件序列和RGB帧进行特征编码,构建多尺度特征金字塔,形成事件分支和RGB分支,每个分支获得对应5个尺度的特征描述子,其大小分别为原始输入的[1, 1/2, 1/4, 1/8, 1/16]。
需要说明的是,可形变卷积网络和下采样网络可以为实现相同功能的不同种类的网络,如:DCN和CNN等。
步骤4、利用基于特征金字塔的多级Transformer编码器,得到多尺度目标事件和RGB特征提取分支。
具体的,基于特征金字塔的多级Transformer编码器包含两个阶段:第一阶段对输入的事件特征分支或RGB特征分支执行深度特征抽取,得到对应分支的深度特征描述子;第二阶段对经过多阶段残差多模态融合后的融合特征描述子执行细粒度高维特征提取。
需要说明的是,每一阶段的编码器含有5级多尺度平行结构,每一级尺度执行相同的特征提取操作,这5级多尺度特征将在解码空间逐级合并。
还需说明的是,对于基于特征金字塔的多级Transformer编码器中的Transformer模块可以为实现相同功能的不同类型的网络结构,如:Restormer等。
步骤5、利用多阶段残差学习,融合事件和RGB特征描述子,得到多尺度空间深度融合信息表达。
具体的,将Transformer编码器第一阶段的输出数据作为多阶段残差学习模块的输入,执行多模态残差融合,即对每一级的事件特征描述子和RGB特征描述子执行细粒度特征融合,得到融合特征描述子,用于基于特征金字塔的多级Transformer编码器的第二阶段的输入,其计算公式为:
值得说明的是,残差模块可以为不同类型残差网络,如CNN等。多阶段残差学习包含4个残差块,如图3所示。每个残差块具有:卷积核为3×3的CNN、ReLU、卷积核为3×3的CNN。
具体的,ReLU是一种神经网络中的激活函数,即线性修正单元,通常使用斜坡函数或者改进版的非线性函数。
步骤6、利用逐级上采样特征解码器,最终输出清晰的水下重建场景。
具体的,将基于特征金字塔的多级Transformer编码器的第二阶段输出作为输入数据,在5个级别上逐次执行空间解码,并与下一级别特征描述子进行逐通道合并,不断恢复原始尺度,最终输出清晰的水下重建场景。以有监督方式训练所有模块,使用逐像素的L1损失函数约束训练。
进一步地,L1损失函数计算公式如下:
本实施例的技术方案,通过对事件和RGB数据的深度融合,通过多阶段残差学习模块减少了两种模态的域间差异,并通过本申请的方法,以端到端的方式实现了水下暗光场景的清晰重建,为水下的目标检测、识别、追踪等任务提供清晰鲁棒的视觉表达。
具体实施例十一:
本申请实施例十一与实施例十的区别仅在于:
本发明提供一种融合事件和RGB数据的水下暗光场景重建方法,
步骤1、利用事件相机采集的水下暗光事件序列和弱曝光RGB帧构建基准训练集;
步骤1通过以下方式实现:
步骤1.1、根据所述的水下暗光事件序列,按其微秒级的时间戳进行划分。针对每一水下场景,得到多个事件窗口;
步骤1.2、根据所述的水下弱曝光RGB帧按其微秒级的时间戳与步骤1.1的事件窗口对齐;
步骤1.3、根据额外照明条件,采集正常照度的RGB帧,作为参考图像,并保持与步骤1.2的弱曝光帧对齐;
步骤1.4、根据步骤1.1、步骤1.2和步骤1.3所获得的结果,构建基准训练集和测试集,比例为9:1。
步骤2、针对事件序列的异步稀疏性,对每一场景事件序列采用体素网格方式进行分段化表征;
步骤2通过以下方式实现:
根据所述事件序列的异步稀疏性,对每一场景下步骤1.1的逐事件窗口采用体素网格方式进行事件表征,其计算公式为:
步骤3、利用特征编码网络对事件序列和RGB帧进行特征编码,得到对应的特征描述子;
步骤3通过以下方式实现:
根据所述的特征编码网络,对事件和RGB数据分别执行多尺度特征编码。通过在5级平行特征降采样,得到5个尺度下的特征金字塔向量,并形成事件特征描述子分支和RGB特征描述子分支。
步骤4、利用基于特征金字塔的多级Transformer编码器,得到多尺度事件和RGB特征提取分支;
步骤4通过以下方式实现:
根据所述的基于特征金字塔的多级Transformer编码器,逐级对输入数据进行深度特征抽取。其中,每一级的Transformer编码器包含两个阶段,分别代表对输入数据的深度特征抽取和对融合后的多模态融合数据的细粒度特征提取。
步骤5、利用多阶段残差学习,融合事件和RGB特征,得到多尺度空间深度融合信息表达;
步骤5通过以下方式实现:
根据所述的多阶段残差学习模块,将通过步骤4中第一阶段Transformer编码器的输出数据执行多模态残差融合,即对每一级的事件特征描述子和RGB特征描述子执行细粒度特征融合,其计算公式为:
步骤6、利用逐级上采样特征解码器,最终输出清晰的水下重建场景。
步骤6通过以下方式实现:
根据所述的逐级上采样特征解码器实现对每一级融合特征描述子在解码空间逐级解码与合并,逐步恢复原始尺度,得到完整清晰的水下场景输出。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或 者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表 述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或 N 个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“N个”的含义是至少两个,例如 两个,三个等,除非另有明确具体的限定。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM 或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
以上所述仅是一种基于融合事件和RGB数据的水下暗光场景重建方法的优选实施方式,一种基于融合事件和RGB数据的水下暗光场景重建方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。
Claims (9)
1.一种基于融合事件和RGB数据的水下暗光场景重建方法,其特征是:所述方法包括以下步骤:
步骤1、利用事件相机采集的水下暗光事件序列和弱曝光RGB帧构建基准数据集;
步骤2、针对事件序列的异步稀疏性,对每一场景事件序列采用体素网格方式进行分段化表征;
步骤3、利用特征编码网络对事件序列和RGB帧进行特征编码,得到对应的特征描述子;
步骤4、基于特征金字塔的多级Transformer编码器,得到多尺度事件和RGB特征提取分支;
步骤5、利用多阶段残差学习,融合事件和RGB特征,得到多尺度空间深度融合信息表达;
所述步骤5具体为:
将Transformer编码器第一阶段的输出数据作为多阶段残差学习模块的输入,执行多模态残差融合,即对每一级的事件特征描述子和RGB特征描述子执行细粒度特征融合,得到融合特征描述子,用于基于特征金字塔的多级Transformer编码器的第二阶段的输入,其计算公式为:
f′E=fE+Res(fE+Res(fF)),
f′F=fF+Res(fF+Res(fE)),
fEF=f′E+f′F,
式中,Res(·)代表残差学习模块,fE和fF代表事件分支和RGB分支的特征描述子,f'E和f'F代表事件分支和RGB分支的残差深度融合,最终通过逐元素相加得到对应每一级尺度下完整细粒度的融合特征描述子fEF;
步骤6、利用逐级上采样特征解码器,最终输出清晰的水下重建场景。
2.根据权利要求1所述的方法,其特征是:所述步骤1具体为:
步骤1.1、按其微秒级的时间戳进行对目标事件序列进行划分,针对每一水下场景,得到多个事件窗口;
步骤1.2、根据水下弱曝光RGB帧按其微秒级的时间戳与步骤1.1的事件窗口对齐;
步骤1.3、遵循有监督学习策略,在提供额外照明条件下,采集正常照度的RGB帧作为标签数据,并保持与步骤1.2的弱曝光帧对齐;
步骤1.4、根据步骤1.1、步骤1.2和步骤1.3所获得的结果,在剔除无效和冗余数据后,构建基准训练集和测试集,其比例为9:1。
3.根据权利要求2所述的方法,其特征是:所述步骤2具体为:
针对目标事件序列的异步稀疏性,对每一目标场景的目标事件序列采用体素网格方式进行分段化表征,并将表征后的结果作为目标事件张量图;
其中,根据预先设定好的时间周期划分不同的事件窗口,每个事件窗口执行相同的体素网格化过程;
根据预先设定好的时间周期对目标事件序列的编码时间戳进行均匀划分,得到多个事件窗口,将目标事件序列中的每个事件单元按照时间戳所在的事件窗口,对目标子数据进行划分,确定目标事件序列中每个事件单元的事件窗口编号。
4.根据权利要求3所述的方法,其特征是:所述步骤3具体为:
使用可形变卷积神经网络和下采样网络作为特征编码网络,对事件序列和RGB帧进行特征编码,构建多尺度特征金字塔,形成事件分支和RGB分支,每个分支获得对应5个尺度的特征描述子,其大小分别为原始输入的[1,1/2,1/4,1/8,1/16]。
5.根据权利要求4所述的方法,其特征是:所述步骤4具体为:
基于特征金字塔的多级Transformer编码器包含两个阶段:第一阶段对输入的事件特征分支或RGB特征分支执行深度特征抽取,得到对应分支的深度特征描述子;第二阶段对经过多阶段残差多模态融合后的融合特征描述子执行细粒度高维特征提取;
每一阶段的编码器含有5级多尺度平行结构,每一级尺度执行相同的特征提取操作,这5级多尺度特征将在解码空间逐级合并。
7.一种基于融合事件和RGB数据的水下暗光场景重建系统,其特征是:所述系统包括:
数据收集模块,所述数据收集模块利用事件相机采集的水下暗光事件序列和弱曝光RGB帧构建基准数据集;
表征分化模块,所述表征分化模块针对事件序列的异步稀疏性,对每一场景事件序列采用体素网格方式进行分段化表征;
编码模块,所述编码模块利用特征编码网络对事件序列和RGB帧进行特征编码,得到对应的特征描述子;
提取模块,所述提取模块基于特征金字塔的多级Transformer编码器,得到多尺度事件和RGB特征提取分支;
融合模块,所述融合模块利用多阶段残差学习,融合事件和RGB特征,得到多尺度空间深度融合信息表达;
将Transformer编码器第一阶段的输出数据作为多阶段残差学习模块的输入,执行多模态残差融合,即对每一级的事件特征描述子和RGB特征描述子执行细粒度特征融合,得到融合特征描述子,用于基于特征金字塔的多级Transformer编码器的第二阶段的输入,其计算公式为:
f′E=fE+Res(fE+Res(fF)),
f′F=fF+Res(fF+Res(fE)),
fEF=f′E+f′F,
式中,Res(·)代表残差学习模块,fE和fF代表事件分支和RGB分支的特征描述子,f'E和f'F代表事件分支和RGB分支的残差深度融合,最终通过逐元素相加得到对应每一级尺度下完整细粒度的融合特征描述子fEF;
输出模块,所述输出模块利用逐级上采样特征解码器,最终输出清晰的水下重建场景。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-6任意一项权利要求所述的方法。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征是:所述处理器执行所述计算机程序时实现权利要求1-6任意一项权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310024781.7A CN115761472B (zh) | 2023-01-09 | 2023-01-09 | 一种基于融合事件和rgb数据的水下暗光场景重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310024781.7A CN115761472B (zh) | 2023-01-09 | 2023-01-09 | 一种基于融合事件和rgb数据的水下暗光场景重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115761472A CN115761472A (zh) | 2023-03-07 |
CN115761472B true CN115761472B (zh) | 2023-05-23 |
Family
ID=85348432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310024781.7A Active CN115761472B (zh) | 2023-01-09 | 2023-01-09 | 一种基于融合事件和rgb数据的水下暗光场景重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115761472B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116206196B (zh) * | 2023-04-27 | 2023-08-08 | 吉林大学 | 一种海洋低光环境多目标检测方法及其检测系统 |
CN116309781B (zh) * | 2023-05-18 | 2023-08-22 | 吉林大学 | 一种基于跨模态融合的水下视觉目标测距方法及装置 |
CN116405626B (zh) * | 2023-06-05 | 2023-09-22 | 吉林大学 | 一种全局匹配的水下运动目标视觉增强方法及系统 |
CN117097876B (zh) * | 2023-07-07 | 2024-03-08 | 天津大学 | 基于神经网络的事件相机图像重建方法 |
CN116682000B (zh) * | 2023-07-28 | 2023-10-13 | 吉林大学 | 一种基于事件相机的水下蛙人目标检测方法 |
CN117319806A (zh) * | 2023-10-12 | 2023-12-29 | 北京大学 | 一种基于事件相机辅助的暗光视频增强方法及装置 |
CN117576784B (zh) * | 2024-01-15 | 2024-03-26 | 吉林大学 | 一种融合事件和rgb数据潜水员手势识别方法及其系统 |
CN117745596B (zh) * | 2024-02-19 | 2024-06-11 | 吉林大学 | 一种基于跨模态融合的水下去遮挡方法 |
CN117911303A (zh) * | 2024-03-15 | 2024-04-19 | 吉林大学 | 一种面向水下弱光场景的图像质量增强方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9317780B2 (en) * | 2013-10-17 | 2016-04-19 | Xerox Corporation | Detecting multi-object anomalies utilizing a low rank sparsity model |
CN113887836B (zh) * | 2021-11-04 | 2024-04-19 | 南开大学 | 一种融合事件环境信息的叙述性事件预测方法 |
CN114862732B (zh) * | 2022-04-21 | 2024-04-26 | 武汉大学 | 一种融合事件相机与传统光学相机的合成孔径成像方法 |
CN114943762A (zh) * | 2022-04-29 | 2022-08-26 | 中国人民解放军国防科技大学 | 一种基于事件相机的双目视觉里程计方法 |
CN115345785A (zh) * | 2022-07-01 | 2022-11-15 | 北京理工大学 | 一种基于多尺度时空特征融合的暗光视频增强方法及系统 |
-
2023
- 2023-01-09 CN CN202310024781.7A patent/CN115761472B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115761472A (zh) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115761472B (zh) | 一种基于融合事件和rgb数据的水下暗光场景重建方法 | |
Ma et al. | SwinFusion: Cross-domain long-range learning for general image fusion via swin transformer | |
Bashir et al. | A comprehensive review of deep learning-based single image super-resolution | |
Guo et al. | Learning monocular depth by distilling cross-domain stereo networks | |
Meng et al. | Single-image dehazing based on two-stream convolutional neural network | |
Li et al. | Learning a deep dual attention network for video super-resolution | |
Le et al. | Deeply Supervised 3D Recurrent FCN for Salient Object Detection in Videos. | |
Ye et al. | CSformer: Bridging convolution and transformer for compressive sensing | |
CN111079764B (zh) | 一种基于深度学习的低照度车牌图像识别方法及装置 | |
Raghavendra et al. | Comparative evaluation of super-resolution techniques for multi-face recognition using light-field camera | |
DE102019123756A1 (de) | Neuronales Netzwerk zur Durchführung einer semantischen Segmentierung eines Eingabebildes | |
Pu et al. | Robust high dynamic range (hdr) imaging with complex motion and parallax | |
CN114862732B (zh) | 一种融合事件相机与传统光学相机的合成孔径成像方法 | |
CN116309781B (zh) | 一种基于跨模态融合的水下视觉目标测距方法及装置 | |
Zhu et al. | Stacked U-shape networks with channel-wise attention for image super-resolution | |
Choo et al. | Multi-scale recurrent encoder-decoder network for dense temporal classification | |
Zhang et al. | Embarrassingly simple binarization for deep single imagery super-resolution networks | |
Ren et al. | A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms | |
Chen et al. | Enhancing motion deblurring in high-speed scenes with spike streams | |
Shaw et al. | Hdr reconstruction from bracketed exposures and events | |
CN116664694A (zh) | 图像亮度获取模型的训练方法、图像获取方法及移动终端 | |
Zhao et al. | Deep convolutional sparse coding networks for interpretable image fusion | |
CN116091337A (zh) | 一种基于事件信号神经编码方式的图像增强方法及装置 | |
CN116405626B (zh) | 一种全局匹配的水下运动目标视觉增强方法及系统 | |
CN113191991A (zh) | 基于信息瓶颈的多模态图像融合方法、系统、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |