CN116206196A

CN116206196A - 一种海洋低光环境多目标检测方法及其检测系统

Info

Publication number: CN116206196A
Application number: CN202310466248.6A
Authority: CN
Inventors: 姜宇; 王跃航; 齐红; 赵明浩; 张凯欣; 张永霁
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-06-02
Anticipated expiration: 2043-04-27
Also published as: CN116206196B

Abstract

本发明属于水下视觉检测的技术领域，具体涉及一种海洋低光环境多目标检测方法及其检测系统。建水下跨模态基准数据集；得到三层不同尺度的特征向量；进行特征排序和数据融合；通过深度特征提取模块，在全局和局部维度上进一步提取重要特征信息；将每个尺度进一步提取的特征向量分别送入检测头网络模块，最终输出海洋生物的在图像中的具体位置和类别信息。本发明用以实现水下生物多目标高精度的检测任务。

Description

一种海洋低光环境多目标检测方法及其检测系统

技术领域

本发明属于水下视觉检测的技术领域，具体涉及一种海洋低光环境多目标检测方法及其检测系统。

背景技术

对于动态的水下任务，目前流行的视觉传感器（例如单目视觉、立体视觉、红外相机、激光雷达等）受限于高成本，高延迟、低精度的影响，很难稳定精准地检测海洋目标。此外，由于水下通信受限以及水下高压等因素的影响，鲁棒性地仅基于RGB视觉相机完成海洋目标检测行为是一项巨大的挑战。相反，事件相机，作为一种新颖的仿生学的动态视觉传感器，通过异步方式触发事件流，本质上不同于RGB相机的方式表达视觉信息，有望实现传感器视觉的范式转变。具体来说，事件相机不以固定相机帧率的方式获取静态场景信息来编码动态视觉场景，而是通过异步事件的编码创造了动态场景的稀疏时空表示。每个事件都表明局部位置的亮度变化情况。因此，事件相机具有低功耗、高动态范围（140db vs 60 db对于传统RGB相机），以及高时间分辨率（微秒级）的优点。事件相机解决了在挑战性场景下视觉智能感知日益增长的需求，并实现了诸多用例，例如场景重建、运动分割、目标检测、视觉里程计和SLAM等。然而，事件相机的潜力在复杂的海洋领域还未被充分挖掘，尤其对于水下生物多目标高精度检测任务。

发明内容

本发明提供一种海洋低光环境多目标检测方法，用以实现对水下生物多目标的检测识别。

本发明提供一种基于跨模态数据的海洋低光环境多目标检测系统，用以实现水下生物多目标高精度的检测任务。

本发明提供一种电子设备。

本发明提供一种计算机可读存储介质。

本发明通过以下技术方案实现：

一种海洋低光环境多目标检测方法，所述海洋低光环境多目标检测方法具体为，

步骤1、利用事件相机采集的水下低光环境事件流和对应的RGB帧构建水下跨模态基准数据集；

步骤2、利用事件编码器和帧编码器对事件流和RGB帧进行特征编码，分别得到三层不同尺度的特征向量；

步骤3、利用自适应选择和融合模块对步骤2中三层不同尺度的特征向量进行特征排序和数据融合；

步骤4、将步骤3三层不同尺度的融合特征送入深度特征提取模块，在全局和局部维度上进一步提取重要特征信息；

步骤5、将每个尺度进一步提取的特征向量分别送入检测头网络模块，最终输出海洋生物的在图像中的具体位置和类别信息。

一种海洋低光环境多目标检测方法，所述步骤1具体包括以下步骤，

步骤1.1、根据水下低光环境事件流数据，使用体素网格的方式进行对事件流数据的表征，使原始事件流得以三维体素化，得到事件体素网格；

步骤1.2、根据水下低光环境RGB图像数据，筛选出特征显著的RGB图像数据，筛选出具有典型特征的水下低光图像数据；

步骤1.3、根据步骤1.2所筛选出的具有典型特征的水下低光图像数据，划分时间序列；

步骤1.4、将表征后的事件数据按照步骤1.3中的时间戳集合进行提取，得到在时间维度上配对的事件体素网格和RGB图像数据；

步骤1.5、针对步骤1.4的事件体素网格和RGB图像数据，获取数据中海洋目标的边界框位置和类别信息；

步骤1.6、将步骤1.4的事件体素网格、RGB图像数据以及步骤1.5中获取的边界框位置和类别信息作为有监督学习模型训练使用的数据集。

一种海洋低光环境多目标检测方法，所述步骤1.2的筛选方式为人工筛选；

所述步骤1.5获取的数据中海洋目标的边界框位置和类别信息的标注方式为专家人工标注，同时边界框位置和类别信息作为有监督学习的标签数据使用。

一种海洋低光环境多目标检测方法，所述步骤2具体包括以下步骤，

步骤2.1、将事件体素网格输入到事件编码器中，得到三个不同尺度大小的事件特征向量；

步骤2.2、将RGB图像数据按步骤2.1的顺序同步输入到对应的帧编码器中，得到三个不同尺度大小的图像特征向量。

一种海洋低光环境多目标检测方法，所述步骤3通过以下方式实现：

步骤3.1、在三个尺度上分别执行如下操作：将对应尺度的事件特征向量和图像特征向量共同输入到可学习的自适应选择和融合模块，并在模块开始的时候，进行通道降维操作，以降低计算量，得到事件特征向量和图像特征向量两个分支的降维后的对应特征向量；

步骤3.2、将事件特征向量和图像特征向量两个分支相互并行地依次通过卷积层、自注意力机制层、不同池化层以及进行激活函数响应的操作，生成两个分支各自的特征注意力权重图；

步骤3.3、将两分支的注意力权重图共同进行逐通道置信度排序和选择操作，构建置信度集合；在通道维度上计算置信度集合的中位数，并作为特征显著性与特征选择的显著性阈值；

步骤3.4、定义两个重要超参数，放大因子和低置信度因子；

步骤3.5、将排序和选择后的两个分支注意力权重图与自适应选择和融合模块最初降维后的对应特征向量逐元素相乘，得到两个分支新的匹配自适应权重的特征向量；

步骤3.6、将两个分支新的匹配自适应权重的特征向量进行通道合并操作，形成融合特征；随后进行升维操作，恢复到原始输入的大小，进而得到最终的融合特征向量。

一种海洋低光环境多目标检测方法，所述步骤3.4具体为，将步骤3.3中大于显著性阈值的注意力权重图的对应通道与放大因子相乘，以放大显著性通道的特征权重；

将小于显著性阈值的注意力权重图的对应通道与缩小因子相乘，以降低弱相关通道的特征权重，为如下公式：

，

式中，

代表排序后的注意力权重图的第/>

个通道，D代表显著性阈值，/>

代表放大因子，/>

代表缩小因子。

一种海洋低光环境多目标检测方法，所述步骤4具体为，

将三个尺度的事件特征向量和图像特征向量经由步骤3得到三个尺度的融合特征共同输入到深度特征提取模块，在全局、局部以及通道维度上进一步提取每个尺度下的深度特征信息。输出为三个不同尺度进一步提取的深度特征向量。

一种基于跨模态数据的海洋低光环境多目标检测系统，所述海洋低光环境多目标检测系统使用如上述的海洋低光环境多目标检测方法，所述海洋低光环境多目标检测系统包括，

水下跨模态基准模块，利用事件相机采集的水下低光环境事件流和对应的RGB帧构建水下跨模态基准数据集；

编码器模块，利用事件编码器和帧编码器对事件流和RGB帧进行特征编码，分别得到三层不同尺度的特征向量；

融合特征模块，利用自适应选择和融合模块对三层不同尺度的特征向量进行特征排序和数据融合；

重要特征信息提取模块，将步骤3三层不同尺度的融合特征送入深度特征提取模块，在全局和局部维度上进一步提取重要特征信息；

输出模块，将每个尺度进一步提取的特征向量分别送入检测头网络模块，最终输出海洋生物的在图像中的具体位置和类别信息。

一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的方法步骤。

一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法步骤。

本发明的有益效果是：

本发明利用跨模态数据，实现对水下生物多目标的检测识别。

附图说明

图1是本发明的方法流程图。

图2是本发明可学习的自适应选择和融合模块的流程示意图。

图3是本发明的深度特征提取模块的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

所述的事件相机可以是不同的设备，如：DAVIS 346 Color、CeleX5_MP、PropheseeEVK1 Gen4HD等。事件相机在对数空间上，通过与场景的相对运动以异步的方式触发微秒级的事件流数据。所述的低光环境可以为自然光源不足的海洋水下环境，也可以为水下人造光源的弱光场景等。

其中，事件编码器和帧编码器可以为实现特征提取功能的任意网络模块，例如ResNet-50网络。通过有监督学习，训练事件编码器和帧编码器。在推理阶段，将训练好的事件和帧编码器权重固定，实现对事件体素网格和RGB图像的特征提取。

步骤3、利用可学习的自适应选择和融合模块对步骤2中三层不同尺度的特征向量进行特征排序和数据融合；

更具体的，使用事件相机在目标场景进行数据采集，得到低光照目标场景的事件流数据以及对应的RGB图像。一种海洋低光环境多目标检测方法，所述步骤1具体包括以下步骤，

步骤1.1、根据水下低光环境事件流数据，使用体素网格的方式进行对事件流数据的表征，使原始事件流得以三维体素化，得到事件体素网格；进而可以输入到深度学习算法，进行有监督学习训练；

步骤1.2、根据水下低光环境RGB图像数据，以人工筛选的方式筛选出特征显著的RGB图像数据，同时筛选出具有典型特征的水下低光图像数据，进而提高训练数据的质量；

步骤1.3、根据步骤1.2所筛选出的具有典型特征的水下低光图像数据，划分时间序列，构成以微秒为尺度的时间戳集合；

步骤1.4、将表征后的事件体素网格按照步骤1.3中的时间戳集合进行选择，过滤不在这个集合中的事件体素网格。余下的事件体素网格在微秒级的时间上严格与步骤1.3中的RGB图像对齐；

步骤1.5、针对步骤1.4对齐的事件体素网格和RGB图像数据，获取数据中海洋目标的边界框位置和类别信息；进而，完成深度学习模型所需要的完整的数据集；

步骤1.6、将步骤1.4的事件体素网格、RGB图像数据以及步骤1.5中获取的边界框位置和类别信息，作为有监督学习模型训练使用的数据集。所述有监督学习模型训练使用的数据集在剔除无效和冗余数据后，按照8：2的比例划分训练集与测试集。

示例性的，基于事件数据的事件表征方式为体素网格形式，其计算公式为：

,

.

式中，

为经过体素网格表征后的事件窗口，其输入为事件四元组：

，分别代表第/>

个事件的坐标、时间戳和极性，/>

为对事件进行体素化时所划分的段数。其中，/>

为正则化的时间戳，/>

代表当前事件窗口的最大时间戳与最小时间戳之间的差值。

一种海洋低光环境多目标检测方法，具体的，如图2所示，将经过步骤2得到的事件特征向量和RGB特征向量共同送入自适应选择和融合模块。

需要说明的是，一方面该模块是可微分的，因此可以使用深度学习方法将损失进行反向传播训练，即这个模块是可学习的；另一方面，该模块通过显著性权重自适应匹配实现特征在通道维度上的置信度排序和选择，因此可以通过训练，实现对事件和帧两个分支的特征筛选，提高显著特征的权重，抑制弱相关特征权重，即这个过程也是可学习的。所述步骤3通过以下方式实现：

具体的，通道降维以降低计算量，可通过卷积核大小为

的卷积操作实现。通过预先定义的卷积输出通道维数，实现特征向量的压缩，进而减少该模块后续过程的计算量，也避免因大尺度矩阵运算，导致模型训练和推理时间延长。

具体的，所述卷积层的卷积核大小均为

，实现对特征的初步提取与映射。所述的自注意力机制层可实现对特征的进一步提取，实现在空间语义上长距离关注。所述的不同池化层为：全局平均池化和最大池化。两个池化操作同时进行，并将各自输出的特征逐像素相加，得到初始特征注意力权重图。所述的激活响应函数不局限于某种特定激活函数，可根据具体场景和任务进行定制或选择，例如可选择ReLU激活函数作为该模块的激活响应函数。通过上述过程，得到两个分支各自的特征注意力权重图。此时，每一分支的特征注意力权重图的空间维度为/>

，其中/>

为通道数，/>

为特征注意力权重图的长和宽。

需要说明的是，对特征注意力权重图排序和选择均是在通道维度上进行。所述的置信度为每个通道的权重值，所有特征通道的权重值共同构建置信度集合。有必要提及的是，这里仅对特征注意力权重图的逐通道权重值按索引进行排序，所构建的置信度集合也是索引的集合，并不改变特征注意力权重图的通道权重值的实际上下文顺序。

步骤3.4、定义两个重要超参数，放大因子和低置信度因子；

需要说明的是，排序和选择后的每个分支注意力权重图的上下文顺序并没有改变，仅将逐通道的权重值进行了自适应重匹配。具体的，该模块的整个过程都仅是对索引的排序和选择，并不实际改变通道权重值的上下文关系，因此将每个分支的注意力权重图与最初降维后的特征向量进行逐元素相乘，可以为最初降维后的特征向量进行权重重匹配，即实现放大显著性通道而抑制弱相关通道的效果。

具体的，所述的升维操作可以使用卷积核大小为

的卷积操作实现。

同理，将小于显著性阈值的注意力权重图的对应通道与缩小因子相乘，以降低弱相关通道的特征权重，以实现对两分支各自显著性特征与弱相关特征进行区分的效果；这个过程可组织为如下公式：

，

式中，

代表排序后的注意力权重图的第/>

个通道，D代表显著性阈值，/>

代表放大因子，/>

代表缩小因子。

一种海洋低光环境多目标检测方法，需要说明的是，事件特征分支和RGB特征分支经过步骤3融合为统一分支，即各自分支的各自尺度进行融合，最终构成统一融合分支的三个不同尺度特征向量。

具体的，如图3所示，将融合分支的三个尺度输入到深度特征提取模块的对应层，每个层分别输出进一步提取到的特征向量。

还需注意的是，深度特征提取模块的第三尺度层不包含多尺度特征聚合模块，其他结构每层均相同。其中，所述的多尺度聚合模块可实现对两个尺度特征的聚合，输出一个聚合后的特征。图中所述的空间注意力模块可以在全局角度上实现特征的关注与显著特征激活。图3中所述的CSP块作为特征提取器，实现对特征的提取，可以为任意其他类型的特征提取器。这里选择YOLOx中的CSP模块作为本模块的特征提取器，可实现类似效果。图3中所述的多轴Transformer可以实现对特征全局和局部的提取与关注。

所述步骤4具体为，

所述步骤5需要说明的是，检测头网络模块可以为任意能够实现该功能的模型，例如YOLOx的检测头模块。通过检测头网络模块，可输出低光海洋场景下的生物目标的位置检测框、类别以及置信度。置信度为一个概率值，代表为该类别的置信程度。

融合特征模块，利用可学习的自适应选择和融合模块对三层不同尺度的特征向量进行特征排序和数据融合；

存储器，用于存放计算机程序；

本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器（read only memory，ROM）、可编程只读存储器（programmable ROM，PROM）、可擦除可编程只读存储器（erasablePROM，EPROM）、电可擦除可编程只读存储器（electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（random access memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM 可用，例如静态随机存取存储器（static RAM，SRAM）、动态随机存取存储器（dynamic RAM，DRAM）、同步动态随机存取存储器（synchronousDRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（double data rate SDRAM，DDRSDRAM）、增强型同步动态随机存取存储器（enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synchlink DRAM，SLDRAM）和直接内存总线随机存取存储器（direct rambusRAM，DR RAM）。应注意，本发明描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（digital subscriber line，DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，高密度数字视频光盘（digital video disc，DVD））、或者半导体介质（例如，固态硬盘（solid state disc，SSD））等。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

应注意，本申请实施例中的处理器可以是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。