CN115496977B

CN115496977B - 一种基于多模态序列数据融合的目标检测方法及装置

Info

Publication number: CN115496977B
Application number: CN202211116943.1A
Authority: CN
Inventors: 李志伟; 王坤峰; 张国英; 卢凤黎; 谭启凡
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2023-04-25
Anticipated expiration: 2042-09-14
Also published as: CN115496977A

Abstract

本申请提供了一种基于多模态序列数据融合的目标检测方法及装置，涉及智能驾驶技术领域，该方法包括：获取当前时刻的RGB图像和点云数据；将RGB图像的图像特征和二维点云图像的点云特征进行融合得到融合特征；判断融合特征是否为关键帧；如果为是则利用主分支对融合特征得到深层特征，利用多个大卷积核将时间对齐后的内存关键帧特征和深层特征进行融合，得到感知特征；否则利用次分支对融合特征进行处理得到浅层特征，对浅层特征进行特征变换得到深层特征，利用多个小卷积核将时间对齐后的内存关键帧特征和深层特征进行融合，得到感知特征；利用感知网络对感知特征进行处理，得到目标检测结果。本申请提高了目标检测的精度和速度。

Description

一种基于多模态序列数据融合的目标检测方法及装置

技术领域

本申请涉及智能驾驶技术领域，尤其是涉及一种基于多模态序列数据融合的目标检测方法及装置。

背景技术

环境感知技术是智能车辆等移动机器人执行控制规划模块的必要前提，对智能车辆等机器人技术而言至关重要。环境感知技术指的是智能车辆等移动机器人通过感知算法处理来自各种传感器采集的数据，检测并理解周围环境的方法。常见的车道线检测算法、目标检测算法、实例分割算法等均属于环境感知算法。智能驾驶技术要求环境感知算法必须同时具备较高的准确度和速度。然而现有环境感知技术存在一些问题：

单帧感知算法的限制：设计复杂的感知算法提高感知精度会产生处理速度较低的问题，不能达到实时性；或者为了使感知算法达到实时性，设计相对简单的算法，则会产生感知精度较低的问题。

单传感器数据的限制：单传感器算法存在天然的数据缺陷，而多传感器算法会导致模型计算量显著增加。

针对上述问题，考虑连续观测获得图像和点云的序列数据，利用序列数据中的上下文信息，以及多传感器融合的信息互补，可以在提高感知算法精度的同时提高其速度，改善算法性能。

现有的基于序列数据进行环境感知的算法主要包括：

1)基于光流模型增强环境中识别对象的特征提取方法；

2)基于循环神经网络融合视频数据中连续帧之间的关联信息；

3)基于注意力机制进行视频中前后帧数据特征聚合，提高感知精度。

上述方法都是为了更好的聚合前后序列帧数据信息，提高感知精度，并没有着重提高感知算法运行速度。此外，现有基于序列数据的感知算法主要针对单一传感器，缺乏多传感器融合的序列感知算法。

发明内容

有鉴于此，本申请提供了一种基于多模态序列数据融合的目标检测方法及装置，以解决上述技术问题。

第一方面，本申请实施例提供了一种基于多模态序列数据融合的目标检测方法，所述方法包括：

获取当前时刻的RGB图像和点云数据；

对点云数据进行处理，得到二维点云图像，将RGB图像的图像特征和二维点云图像的点云特征进行融合，得到当前时刻的融合特征；

计算当前时刻的融合特征和上一个关键帧的融合特征的余弦相似度，根据余弦相似度判断当前时刻的融合特征是否为关键帧；

如果当前时刻的融合特征为关键帧，利用预先训练完成的主分支对当前时刻的融合特征进行处理，得到当前时刻的深层特征，然后利用多个大卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到当前时刻的感知特征；

如果当前时刻的融合特征为非关键帧，利用预先训练完成的次分支对当前时刻的融合特征进行处理，得到当前时刻的浅层特征，对浅层特征进行特征变换得到深层特征，然后利用多个小卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到当前时刻的感知特征；

利用感知网络对当前时刻的感知特征进行处理，得到当前时刻的目标检测结果。

在一种的可能实现中，对点云数据进行处理，得到二维点云图像，将RGB图像的图像特征和二维点云图像的点云特征进行融合，得到当前时刻的融合特征；包括：

利用激光雷达坐标系与相机成像坐标系的转换矩阵，将点云数据投影到像素平面，得到二维点云图像；二维点云图像的点云特征包括：x,y,z和r；(x,y,z)为像元中心点的三维坐标；r为激光雷达的反射率；

提取RGB图像的图像特征，图像特征包括红色通道值R、绿色通道值G和蓝色通道值B；

则当前时刻的融合特征包括：红色通道值R、绿色通道值G、蓝色通道值B、x、y、z和激光雷达的反射率r。

在一种的可能实现中，计算当前时刻的融合特征和上一个关键帧的融合特征的余弦相似度，根据余弦相似度判断当前时刻的融合特征是否为关键帧；包括：

计算当前时刻的融合特征和上一个关键帧的融合特征的余弦相似度S_t：

其中，I_t为对当前时刻的融合特征进行压缩后的一维向量，I_{last_key}为对上一个关键帧的融合特征进行压缩后的一维向量；

判断余弦相似度S_t是否大于相似度阈值，若为是，则当前时刻的融合特征为非关键帧，否则，当前时刻的融合特征为关键帧，若当前时刻对应的帧数为第一帧，则当前时刻的融合特征为关键帧。

在一种的可能实现中，所述主分支采用DenseNet网络，所述次分支采用ShuffleNet网络。

在一种的可能实现中，利用多个大卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到感知特征；包括：

获取主分支输出的当前时刻的深层特征F_t；

计算当前时刻p1位置上的深层特征图

和p2位置上内存关键帧的深层特征图M_p2的运动矩阵S(p1,p2)：

其中，深层特征图

的大小为(N,C,H,W)，N代表batch，N＝1，C为通道数，H和W分别为图像的高和宽，

将深层特征图

变换为(N,H×W,C/8)的三维矩阵；深层特征图M_p2的大小为(N,C,H,W)，θ₂(M_p2)将深层特征图M_p2变换为(N,C/8,H×W)的三维矩阵，

为(N,H×W,H×W)的三维矩阵；其中，内存关键帧的深层特征为上一个关键帧的深层特征；

计算对齐到p1位置的内存特征图

对内存特征图

与深层特征图

进行融合，得到p1位置的感知特征

其中，θ_v(·)为1×1卷积操作，concat(·)表示在通道维度叠加操作，

表示3个连续大卷积核的卷积操作，3个连续大卷积核的大小分别为7×7、5×5和3×3；

将所有p1位置的感知特征

组成当前时刻的感知特征

在一种的可能实现中，对浅层特征进行特征变换得到深层特征，然后利用多个小卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到当前时刻的感知特征；包括：

将次分支的浅层特征通过特征变换模块映射为深层特征F^t，其中，特征变换模块包括3个串联的卷积核：3×3、3×3和3×3；

深层特征图M_p2的运动矩阵S(p1,p2)：

其中，深层特征图

将深层特征图

为(N,H×W,H×W)的三维矩阵；

计算对齐到p1位置的内存特征图

对内存特征图

与深层特征图

进行融合，得到p1位置的感知特征

表示3个连续小卷积核的卷积操作，3个小卷积核大小为：3×3、3×3和3×3；

将所有p1位置的感知特征

组成当前时刻的感知特征

在一种的可能实现中，所述方法还包括：如果当前时刻的融合特征为关键帧，将内存关键帧的感知特征更新为当前时刻的感知特征

第二方面，本申请实施例提供了一种基于多模态序列数据融合的目标检测装置，所述装置包括：

获取单元，用于获取当前时刻的RGB图像和点云数据；

融合单元，用于对点云数据进行处理，得到二维点云图像，将RGB图像的图像特征和二维点云图像的点云特征进行融合，得到当前时刻的融合特征；

判断单元，用于计算当前时刻的融合特征和上一个关键帧的融合特征的余弦相似度，根据余弦相似度判断当前时刻的融合特征是否为关键帧，若为是，进入关键帧处理单元，否则进入非关键帧处理单元；

关键帧处理单元，用于如果当前时刻的融合特征为关键帧，利用预先训练完成的主分支对当前时刻的融合特征进行处理，得到当前时刻的深层特征，然后利用多个大卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到感知特征；

非关键帧处理单元，用于如果当前时刻的融合特征为非关键帧，利用预先训练完成的次分支对当前时刻的融合特征进行处理，得到当前时刻的浅层特征，对浅层特征进行特征变换得到深层特征，然后利用多个小卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到当前时刻的感知特征；

检测单元，用于利用感知网络对当前时刻的感知特征进行处理，得到当前时刻的目标检测结果。

第三方面，本申请实施例提供了一种电子设备，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例的基于多模态序列数据融合的目标检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现本申请实施例的基于多模态序列数据融合的目标检测方法。

本申请提高了目标检测的精度和速度。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于多模态序列数据融合的目标检测方法的流程图；

图2为本申请实施例提供的基于多模态序列数据融合的目标检测装置的功能结构图；

图3为本申请实施例提供的电子设备的功能结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请实施例的设计思想进行简单介绍。

关键帧：图像和点云序列数据中物体运动变化中关键动作所在的数据帧。

非关键帧：也称过渡帧，是视频数据中两个关键帧之间的帧，该帧与关键帧数据存在大量相似信息。

余弦相似度：又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似性。

RGB图像：是指通过车载相机采集到的RGB图像，为三通道图像。

点云：是指通过激光雷达得到的关于物体外观表面的点数据，每个点数据包含x、y、z三维坐标和反射强度r。

内存关键帧特征：主特征提取网络提取关键帧得到特征图，并将该特征图存放到一个固定内存中用于非关键帧的计算，该特征称为内存关键帧特征。

数据融合：是指将点云强度图与RGB图像采用融合算法，输出一种图像数据。

在介绍了本申请涉及的技术用语后，接下来，对本申请实施例的设计思想进行简单介绍。

针对现有的基于序列数据进行环境感知的算法存在的技术问题，本申请采用双流架构的稀疏帧感知方式以及运用简单特征聚合方法，可以在提高感知算法精度的同时提高算法速度。

为此，本申请提供了一种基于多模态序列数据融合的目标检测方法，包括：获取当前时刻的RGB图像和点云数据；对点云数据进行处理，得到二维点云图像，将RGB图像的图像特征和二维点云图像的点云特征进行融合，得到当前时刻的融合特征；计算当前时刻的融合特征和上一个关键帧的融合特征的余弦相似度，根据余弦相似度判断当前时刻的融合特征是否为关键帧；如果当前时刻的融合特征为关键帧，利用预先训练完成的主分支对当前时刻的融合特征进行处理，得到当前时刻的深层特征，然后利用多个大卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到当前时刻的感知特征；如果当前时刻的融合特征为非关键帧，利用预先训练完成的次分支对当前时刻的融合特征进行处理，得到当前时刻的浅层特征，对浅层特征进行特征变换得到深层特征，然后利用多个小卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到当前时刻的感知特征；利用感知网络对当前时刻的感知特征进行处理，得到当前时刻的目标检测结果。

与现有技术相比，本申请的优势在于：

1、本申请采用了采用双流架构的稀疏帧感知方式，并利用余弦相似度计算输入数据是否为关键帧，可以合理、客观地选择合适的数据作为关键帧，通过数学方法作为理论支撑，具有一定的可解释性；

2、本申请采用了激光雷达点云和相机图像的融合结构，扩充了序列感知模型的数据域，可以补充更丰富的特征，从而提高模型的可靠性和精度。

3、本申请提出一种特征融合方法，根据输入数据是否为关键帧自动调用不同的数据融合方式，使得特征融合效果达到最优。

在介绍了本申请实施例的应用场景和设计思想之后，下面对本申请实施例提供的技术方案进行说明。

如图1所示，本申请的实施例提供了一种基于多模态序列数据融合的目标检测方法，所述方法包括：

步骤101：获取当前时刻的RGB图像和点云数据；

在车辆上安装相机和激光雷达，并通过张氏标定法进行标定。利用车载前向单目相机或前向单目摄像头采集连续的路面图像，前向单目相机拍摄的是行驶车辆的行车方向正前方和路面上方的路面图像，即采集的路面图像信息是对应于采集车辆的行车方向的正前方和路面上方的信息的透视图。利用激光雷达采集连续的点云数据，得到点云序列。

在本实施例中，路面图像信息和路面点云信息是同步采集的。即可以在行驶车辆上安装配置激光雷达和前向单目相机后，标定它们的相对位置姿态，同时开始对同一路面开始路面数据信息采集。

本申请是对序列数据逐帧进行处理。

步骤102：对点云数据进行处理，得到二维点云图像，将RGB图像的图像特征和二维点云图像的点云特征进行融合，得到当前时刻的融合特征；

在本实施例中，充分利用激光雷达点云和相机图像之间的互补优势，在光照条件变化、色彩图像过于相似等纯图像检测容易失灵的情况下能够有效改善检测效果，并且克服了纯点云检测中点云数据过于稀疏的弱点，提高了目标检测的鲁棒性。

利用激光雷达坐标系与相机成像坐标系的转换矩阵将点云数据投影到像素平面，得到灰度图像对应的二维点云图像。

示例性地，考虑激光雷达和前向摄像头已经完成标定工作，且根据标定参数得到了激光雷达三维坐标系和世界三维坐标系的转换矩阵K_1，相机二维成像坐标系和世界三维坐标系的转换矩阵K_2。若空间点在世界坐标系下对应的三维坐标为X_0，点云所在的雷达坐标系中对应的三维坐标为X_1,可计算出相机成像坐标系下的二维坐标为U。从而二值化的激光雷达点云转换为RGB图像对应的二维点云图像H。

截取二维点云图像H和RGB图像对应位置且相同尺寸的部分，再对空缺的部分以0值填补，得到H’。应当注意，由于二维点云图像可能经过裁剪、拉伸或其他变换过程，因此二维点云图像应当根据RGB图像部分进行调整。

示例性地，对二维点云图像H和三通道RGB图像T进行融合。先处理图像T，对3通道的色彩信息R、G和B，其取值范围为[0,255]，除以255后得到新值，作为色彩信息。一方面是为了和二值化的点云在数值的范围上对应，二是对数值进行归一化可以加速检测网络训练过程的收敛过程，得到图像T’。

示例性地，将相同尺寸大小点云投影图，经过预处理后获得点云特征，叠加到图像预处理后的图像特征，作为额外通道特征。示例性地，点云特征和图像特征的叠加可以是分别带有权重的，所带权重作为网络参数，由网络在训练过程中学习得到，也可以根据经验值预设。值得注意的是，这里图像、点云的融合起到了对两者的不同区域加权的作用。

在不影响目标识别的情况下，对融合特征进行裁剪、拉伸或其他变换过程；融合特征预处理的主要目的是消除融合特征中无关的信息，恢复有用的真实信息，增强有关信息的可检测性、最大限度地简化数据，从而改进特征提取、匹配和识别的可靠性。

步骤103：计算当前时刻的融合特征和上一个关键帧的融合特征的余弦相似度，根据余弦相似度判断当前时刻的输入融合特征是否为关键帧；

步骤104：如果当前时刻的融合特征为关键帧，利用预先训练完成的主分支对当前时刻的融合特征进行处理，得到当前时刻的深层特征，然后利用多个大卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到当前时刻的感知特征；

本实施例中，根据关键帧或非关键帧设置独立的特征处理分支。对输入的融合特征进行多次卷积操作，操作次数由输入数据尺寸、网络结构决定。主分支采用训练好的Densenet121网络。

当前时刻的融合特征输入主分支，输出深层特征F_t；

计算当前时刻p1位置上的深层特征图

和p2位置上内存关键帧的深层特征图M_p2的运动矩阵S(p1,p2)：

其中，深层特征图

的大小为(N,C,H,W)，N代表batch，此处N＝1，C为通道数，H和W分别为图像的高和宽，

将深层特征图

为(N,H×W,H×W)的三维矩阵，其中，内存关键帧的深层特征为上一个关键帧的深层特征；

计算对齐到p1位置的内存特征图

对内存特征图

与深层特征图

进行融合，得到p1位置的感知特征

表示3个连续大卷积核的卷积操作，3个连续大卷积核的大小分别为7×7、5×5和3×3；对于关键帧输入，由于当前提取的特征与内存特征运动差异较大，因此采用较大卷积进行特征融合。

将所有p1位置的感知特征

组成当前时刻的感知特征

步骤105：如果当前时刻的融合特征为非关键帧，利用预先训练完成的次分支对当前时刻的融合特征进行处理，得到当前时刻的浅层特征，对浅层特征进行特征变换得到深层特征，然后利用多个小卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到当前时刻的感知特征；

本实施例中，次分支采用训练好的Shufflenet V2神经网络。

如果当前时刻的融合特征为非关键帧，经过次分支提取的特征为相对浅层级的特征，无法直接与内存关键帧的深层级特征进行特征融合，因此需要一个特征变换模块将次分支的浅层特征映射为对应于主分支的深层特征：

F^t＝T_SAM(f^t)

其中，F^t为当前时刻映射后的深层特征，f^t为当前时刻经过次分支提取的浅层特征，T_SAM为特征变换模块，包括3个串联的卷积核：3×3、3×3和3×3；

深层特征图M_p2的运动矩阵S(p1,p2)：

其中，深层特征图

的大小为(N,C,H,W)，

将深层特征图

为(N,H×W,H×W)的三维矩阵；

计算对齐到p1位置的内存特征图

对内存特征图

与深层特征图

进行融合，得到p1位置的感知特征

表示3个连续小卷积核的卷积操作，3个小卷积核大小为：3×3、3×3和3×3；由于当前时刻提取特征与内存特征鱼洞差异较小，因此采用小卷积核卷积融合特征。

将所有p1位置的感知特征

组成当前时刻的感知特征

步骤106：利用感知网络对当前时刻的感知特征进行处理，得到当前时刻的目标检测结果。

所述方法还包括：如果当前时刻的融合特征为关键帧，将内存关键帧的感知特征更新为当前时刻的感知特征

所述方法还包括：

基于工具PyTorch实现Densenet121和Shufflenet V2神经网络，设定网络的编码器和解码器的尺寸大小、批处理数量、训练轮次数(第一次训练轮次数应较大，以保证融合网络收敛，如200轮)等超参数后,从训练集中随机读取数据(包含当前时刻和前面某一时刻两帧数据)处理得到融合特征，计算两张融合特征的相似度，确定当前时刻融合特征是否为关键帧,将前一时刻数据输入到主分支提取深层特征并当作内存特征，根据输入是否为关键帧将当前时刻融合特征输入到主分支或者次分支提取特征，并进行相应的特征融合，将得到的感知特征输入到检测器中得到相应检测结果(result)和损失(loss),以p轮训练和验证为一个周期，确定最佳的thred、offset等超参数。最后当验证模型在验证集表现最好时说明模型训练完成。

示例性地，第一次可训练200轮，之后以训练10轮为一个周期，调整一次超参数，直到选出最优的超参数。

基于上述实施例，本申请实施例提供了一种基于多模态序列数据融合的目标检测装置，参阅图2所示，本申请实施例提供的基于多模态序列数据融合的目标检测装置200至少包括：

获取单元201，用于获取当前时刻的RGB图像和点云数据；

融合单元202，用于对点云数据进行处理，得到二维点云图像，将RGB图像的图像特征和二维点云图像的点云特征进行融合，得到当前时刻的融合特征；

判断单元203，用于计算当前时刻的融合特征和上一个关键帧的融合特征的余弦相似度，根据余弦相似度判断当前时刻的融合特征是否为关键帧，若为是，进入关键帧处理单元，否则进入非关键帧处理单元；

关键帧处理单元204，用于如果当前时刻的融合特征为关键帧，利用预先训练完成的主分支对当前时刻的融合特征进行处理，得到当前时刻的深层特征，然后利用多个大卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到感知特征；

非关键帧处理单元205，用于如果当前时刻的融合特征为非关键帧，利用预先训练完成的次分支对当前时刻的融合特征进行处理，得到当前时刻的浅层特征，对浅层特征进行特征变换得到深层特征，然后利用多个小卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到当前时刻的感知特征；

检测单元206，用于利用感知网络对当前时刻的感知特征进行处理，得到当前时刻的目标检测结果。

需要说明的是，本申请实施例提供的基于多模态序列数据融合的目标检测装置200解决技术问题的原理与本申请实施例提供的基于多模态序列数据融合的目标检测方法相似，因此，本申请实施例提供的基于多模态序列数据融合的目标检测装置200的实施可以参见本申请实施例提供的基于多模态序列数据融合的目标检测方法的实施，重复之处不再赘述。

基于上述实施例，本申请实施例还提供了一种电子设备，参阅图3所示，本申请实施例提供的电子设备300至少包括：处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序，处理器301执行计算机程序时实现本申请实施例提供的基于多模态序列数据融合的目标检测方法。

本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中，总线303表示几类总线结构中的一种或多种，包括存储器总线、外围总线、局域总线等。

存储器302可以包括易失性存储器形式的可读介质，例如随机存储器(RandomAccess Memory，RAM)3021和/或高速缓存存储器3022，还可以进一步包括只读存储器(ReadOnly Memory，ROM)3023。

存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025，程序模块3024包括但不限于：操作子系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信，还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等)，和/或，与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口305进行。并且，电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图3所示，网络适配器306通过总线303与电子设备300的其它模块通信。应当理解，尽管图3中未示出，可以结合电子设备300使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks，RAID)子系统、磁带驱动器以及数据备份存储子系统等。

需要说明的是，图3所示的电子设备300仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被处理器执行时实现本申请实施例提供的基于多模态序列数据融合的目标检测方法。

具体地，该可执行程序可以内置或者安装在电子设备300中，这样，电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的基于多模态序列数据融合的目标检测方法。

本申请实施例提供的方法还可以实现为一种程序产品，该程序产品包括程序代码，当该程序产品可以在电子设备300上运行时，该程序代码用于使电子设备300执行本申请实施例提供的基于多模态序列数据融合的目标检测方法。

本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合，其中，可读介质可以是可读信号介质或者可读存储介质，而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合，具体地，可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码，还可以在计算设备上运行。然而，本申请实施例提供的程序产品不限于此，在本申请实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

最后所应说明的是，以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，对本申请的技术方案进行修改或者等同替换，都不脱离本申请技术方案的精神和范围，其均应涵盖在本申请的权利要求范围当中。

Claims

1.一种基于多模态序列数据融合的目标检测方法，其特征在于，所述方法包括：

获取当前时刻的RGB图像和点云数据；

利用感知网络对当前时刻的感知特征进行处理，得到当前时刻的目标检测结果；

所述主分支采用DenseNet网络，所述次分支采用ShuffleNet网络；

利用多个大卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到当前时刻的感知特征；包括：

获取主分支输出的当前时刻的深层特征F_t；

计算当前时刻p1位置上的深层特征图

和p2位置上内存关键帧的深层特征图M_p2的运动矩阵S(p1，p2)：

其中，深层特征图

的大小为(N，C，H，W)，N代表batch，N＝1，C为通道数，H和W分别为图像的高和宽，

将深层特征图

变换为(N，H×W，C/8)的三维矩阵；深层特征图M_p2的大小为(N，C，H，W)，θ₂(M_p2)将深层特征图M_p2变换为(N，C/8，H×W)的三维矩阵，

为(N，H×W，H×W)的三维矩阵：其中，内存关键帧的深层特征为上一个关键帧的深层特征；

计算对齐到p1位置的内存特征图

对内存特征图

与深层特征图

进行融合，得到p1位置的感知特征

将所有p1位置的感知特征

组成当前时刻的感知特征

对浅层特征进行特征变换得到深层特征，然后利用多个小卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到当前时刻的感知特征；包括：

深层特征图M_p2的运动矩阵S(p1，p2)：

其中，深层特征图

将深层特征图

为(N，H×W，H×W)的三维矩阵；

计算对齐到p1位置的内存特征图

对内存特征图

与深层特征图

进行融合，得到p1位置的感知特征

将所有p1位置的感知特征

组成当前时刻的感知特征

2.根据权利要求1所述的基于多模态序列数据融合的目标检测方法，其特征在于，对点云数据进行处理，得到二维点云图像，将RGB图像的图像特征和二维点云图像的点云特征进行融合，得到当前时刻的融合特征；包括：

利用激光雷达坐标系与相机成像坐标系的转换矩阵，将点云数据投影到像素平面，得到二维点云图像；二维点云图像的点云特征包括：x，y，z和r；(x，y，z)为像元中心点的三维坐标；r为激光雷达的反射率：

3.根据权利要求2所述的基于多模态序列数据融合的目标检测方法，其特征在于，计算当前时刻的融合特征和上一个关键帧的融合特征的余弦相似度，根据余弦相似度判断当前时刻的融合特征是否为关键帧；包括：

4.根据权利要求1所述的基于多模态序列数据融合的目标检测方法，其特征在于，所述方法还包括：如果当前时刻的融合特征为关键帧，将内存关键帧的感知特征更新为当前时刻的感知特征

5.一种基于多模态序列数据融合的目标检测装置，其特征在于，所述装置包括：

获取单元，用于获取当前时刻的RGB图像和点云数据；

关键帧处理单元，用于如果当前时刻的融合特征为关键帧，利用预先训练完成的主分支对当前时刻的融合特征进行处理，得到当前时刻的深层特征，然后利用多个大卷积核将时间对齐后的内存关键帧的深层特征和当前时刻的深层特征进行融合，得到当前时刻的感知特征；

检测单元，用于利用感知网络对当前时刻的感知特征进行处理，得到当前时刻的目标检测结果；

所述主分支采用DenseNet网络，所述次分支采用ShuffleNet网络；

获取主分支输出的当前时刻的深层特征F_t；

计算当前时刻p1位置上的深层特征图

和p2位置上内存关键帧的深层特征图M_p2的运动矩阵S(p1，p2)：

其中，深层特征图

将深层特征图

变换为(N，H×W，C/8)的三维矩阵：深层特征图M_p2的大小为(N，C，H，W)，θ₂(M_p2)将深层特征图M_p2变换为(N，C/8，H×W)的三维矩阵，

计算对齐到p1位置的内存特征图

对内存特征图

与深层特征图

进行融合，得到p1位置的感知特征

将所有p1位置的感知特征

组成当前时刻的感知特征

深层特征图M_p2的运动矩阵S(p1，p2)：

其中，深层特征图

将深层特征图

为(N，H×W，H×W)的三维矩阵：

计算对齐到p1位置的内存特征图

对内存特征图

与深层特征图

进行融合，得到p1位置的感知特征

将所有p1位置的感知特征

组成当前时刻的感知特征

6.一种电子设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的基于多模态序列数据融合的目标检测方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-4任一项所述的基于多模态序列数据融合的目标检测方法。