CN114463736A

CN114463736A - 一种基于多模态信息融合的多目标检测方法及装置

Info

Publication number: CN114463736A
Application number: CN202210049863.2A
Authority: CN
Inventors: 聂为之; 高思洁; 马瑞鑫; 刘通
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-12-28
Filing date: 2022-01-17
Publication date: 2022-05-10

Abstract

本发明公开了一种基于多模态信息融合的多目标检测方法及装置，方法包括：将三维与二维的特征图通过共享参数的卷积神经网络进行前向传递，根据交叉熵对卷积神经网络进行训练，实现三维与二维特征融合；将融合后的三维特征图输入到三维区域生成网络中，该网络通过两个分支分别对三维特征图进行映射，分别输出三维目标检测框位置图与概率分数图；将融合后的二维特征图输入到二维区域生成网络中，输出二维目标检测框位置图与概率分数图，此时分别得到点云数据与RGB二维图像中目标的位置及检测的概率分数图；采取后融合的策略，将两种模态下的目标检测框进行融合得到最终的目标检测结果。装置包括：处理器和存储器。克服了传统单模态方法中信息单一、鲁棒性差的局限性。

Description

一种基于多模态信息融合的多目标检测方法及装置

技术领域

本发明涉及三维目标检测和二维目标检测等领域，尤其涉及一种基于多模态信息融合的多目标检测方法及装置。

背景技术

近年来，随着激光探测与测距(Light Detection and Ranging，LiDAR)技术的发展，点云数据的获取速度与精确度大大提升。如何实现高效准确的点云目标检测，是智能驾驶、遥感、增强现实、虚拟现实等领域的重要问题。与传统的二维目标检测相比，三维目标检测需要更多的输出参数来确定目标的边界框。而由于LiDAR点云的数据特性，在目标检测任务中，常常会面临输入数据分辨率低、纹理和颜色信息缺失、计算开销大等问题，因而更具挑战性。

面对这些问题，多模态信息融合的方法成为了该领域的研究重点。目前，多模态融合方法主要分为三种：早期融合、后期融合、深度融合。早期融合方法在对原始传感器数据做特征提取之前做特征融合，代表方法为PI-RCNN(点云-图像区域卷积神经网络)，该算法直接在三维点云上进行逐点连续卷积，并应用点池化和注意集中操作以获得更好的融合性能。后期融合是最为简便的融合方法，仅在决策层进行融合，避免了不同传感器数据差异带来的问题，降低了算法的复杂性。深度融合方法在特征层面进行交互，对跨模态信息的利用最为充分，代表方法为MV3D(多视图三维目标检测)网络，该网络由两个子网络组成：一个用于生成三维目标候选区域，另一个用于多视图特征融合。

现行多模态融合目标检测方法面临的主要挑战包括：早期融合和后期融合无法充分利用多模态数据间的关联性。深度融合往往存在对数据对齐敏感、网络结构复杂的缺点。因此，希望有一种技术方案来克服或至少减轻现有技术的至少一个上述缺陷。

发明内容

本发明提供了一种基于多模态信息融合的多目标检测方法与装置，本发明克服了传统单模态方法中信息单一、鲁棒性差的局限性，可适用于自动驾驶等场景的目标识别任务，详见下文描述：

一种基于多模态信息融合的多目标检测方法，所述方法包括以下步骤：

对LiDAR点云数据进行处理，提取LiDAR点云特征，获取三维特征图；

对RGB图像进行二维图像数据处理，通过特征提取网络输出RGB图像特征，获取二维特征图；

将三维与二维的特征图通过共享参数的卷积神经网络进行前向传递，根据交叉熵对卷积神经网络进行训练，实现三维与二维特征融合；

将融合后的三维特征图输入到三维区域生成网络中，该网络通过两个分支分别对三维特征图进行映射，分别输出三维目标检测框位置图与概率分数图；将融合后的二维特征图输入到二维区域生成网络中，输出二维目标检测框位置图与概率分数图，此时分别得到点云数据与RGB二维图像中目标的位置及检测的概率分数图；采取后融合的策略，将两种模态下的目标检测框进行融合得到最终的目标检测结果。

其中，所述对LiDAR点云数据进行处理，提取LiDAR点云特征，获取三维特征图为：

将点云均匀分组为若干体素，将稀疏不均匀的点云转换为密集的张量结构，通过堆叠体素特征编码层得到体素特征的列表，经过卷积中间层，在逐渐扩大的感受野中对体素特征进行聚合，输出LiDAR点云特征，即三维特征图。

进一步地，所述对RGB图像进行二维图像数据处理，通过特征提取网络输出RGB图像特征，获取二维特征图具体为：

在二维RGB图像上进行均匀的分组操作，每个组块的宽度和高度与LiDAR点云数据处理中的体素相等；

通过由卷积层、池化层以及线性整流层组成的特征提取网络，输出RGB图像特征，即二维特征图。

其中，所述将稀疏不均匀的点云转换为密集的张量结构具体为：

将体素坐标与体素中点的坐标作为键值对，构建哈希表，实现体素的查找与初始化，体素输入特征和坐标缓冲区通过对点列表的一次遍历来构造。

进一步地，所述采取后融合的策略，将两种模态的目标检测框融合得到最终的目标检测结果具体为：

采用混合表示的方式表示两种模态的检测结果：

其中，IoU_i为二维与三维边界框的交并比，用于表示在图像中的第i个检测结果和点云中的第j个的几何一致性；

为二维检测的第i个检测到的物体置信度分数；

为在点云场景下的置信度分数；d_j表示在点云场景下检测到的第j个物体到地面的归一化距离；

若二维与三维检测网络均正确地检测出同一目标，则三维检测框在二维图像上的投影应与二维检测框具有较大的交并比；如果二维与三维检测结果不一致，IoU为0，则将IoU_i，

d_j均置为0；

将非空的向量输入到卷积神经网络中，通过最大池化映射为目标检测框位置回归图和对应的概率得分图，网络的最终输出为三维目标检测框及其对应的概率得分。

其中，所述二维目标检测结果表示为：

其中，P^2D为二维目标检测结果的集合，k代表当前二维图像中检测出目标的数量，P_i ^2D代表检测结果集合中的第i个目标，P_i ^2D中的第一项([x_i1,y_i1,x_i2,y_i2])为二维目标检测边界框，第二项

为置信度得分；x_i1,y_i1,x_i2,y_i2分别为二维目标边界框左上角顶点的横、纵坐标和右下角顶点的横、纵坐标，

为二维目标边界框的置信度得分，K是当前检测出目标的数量；

所述三维目标检测结果表示为：

其中，P^3D为三维目标检测结果的集合，n代表当前三维点云中检测出目标的数量，P_i ^3D代表检测结果集合中的第i个目标，h_i,w_i,l_i,x_i,y_i,θ_i分别为三维目标边界框的高度、宽度、长度、顶点横坐标、顶点纵坐标、相对z轴的旋转角度，

为三维目标边界框的置信度得分。

第二方面，一种基于多模态信息融合的多目标检测装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

第三方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明将LiDAR点云特征与RGB图像特征通过共享参数的卷积神经网络进行前向传递，根据交叉熵对该网络进行训练，实现特征融合，弥补了单模态数据信息缺失的局限性，提高了特征的鲁棒性；

2、本发明引入了后期融合的策略，利用不同模态检测结果之间的几何一致性，在决策层面上进行融合，提高了检测的准确率；

3、本发明通过构建密集张量与哈希表，提高了点云处理的效率，使算法更加高效，解决了现行方法中计算成本过大的问题；

4、本发明通过与现行方法的对比实验，证实了本发明网络设计的合理性与性能的优越性。

附图说明

图1为一种基于多模态信息融合的多目标检测方法的流程图；

图2为特征融合示意图；

图3为三维区域生成网络的示意图；

图4为二维区域生成网络的示意图；

图5为一种基于多模态信息融合的多目标检测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于多模态信息融合的多目标检测方法，参见图1，该方法包括以下步骤：

101：对LiDAR点云数据进行处理，提取LiDAR点云特征，即三维特征图；

本发明实施例根据LiDAR数据的稀疏性，采用了重采样的方式，增加了采样点，可以在一定程度上提高数据的密集度，进而提升三维特征图的效果和检测的有效性。

102：对RGB图像进行二维图像数据处理，通过特征提取网络输出RGB图像特征，即二维特征图；

由于二维图像天然的缺乏三维信息，在提取特征后的检测阶段，需要基于空间位置和像素信息，与三维信息进行关联，确保后期融合的有效性。

103：将三维与二维的特征图通过共享参数的卷积神经网络进行前向传递，根据交叉熵损失函数的反馈机制对该网络参数进行训练，实现三维与二维特征有效融合；

104：将融合后的特征图通过三维与二维的区域生成网络分别生成目标检测框，得到待检测模板的实际位置信息；

105：采取后融合的策略，将两种模态的检测框融合得到最终的目标检测结果。

综上所述，本发明实施例通过上述步骤克服了传统单模态方法中信息单一、鲁棒性差的局限性，可适用于自动驾驶等场景的目标识别任务。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：对LiDAR点云数据进行处理，输出LiDAR点云特征，即三维特征图；

具体地，将点云均匀分组为若干体素，将稀疏不均匀的点云转换为密集的张量结构，通过堆叠体素特征编码层得到体素特征的列表，经过卷积中间层，在逐渐扩大的感受野中对体素特征进行聚合，输出LiDAR点云特征，即三维特征图。

202：对RGB图像进行二维图像数据处理，通过特征提取网络输出RGB图像特征，即二维特征图；

具体地，在二维RGB图像上进行均匀的分组操作，每个组块的宽度和高度与LiDAR点云数据处理中的体素相等；通过由卷积层、池化层以及线性整流层组成的特征提取网络，输出RGB图像特征，即二维特征图。

203：将三维与二维的特征图通过共享参数的卷积神经网络进行前向传递，对卷积神经网络进行训练，实现三维与二维特征融合(即交叉熵)，使同一目标在三维和二维特征图中的特征更为相似，该部分示意图如图2所示；

204：将融合后的特征图通过三维与二维的区域生成网络分别生成目标检测框；

具体地，融合后的三维特征图输入到三维区域生成网络中，该网络通过两个分支分别对三维特征图进行映射，分别输出三维目标检测框回归图与概率分数图；相似地，融合后的二维特征图输入二维区域生成网络中，输出二维目标检测框回归图与概率分数图。进而得到点云数据与RGB图像中候选区域所属的目标类别及位置。

205：采取后融合的策略，将两种模态的目标检测框融合得到最终的目标检测结果。

其中，上述步骤201中将点云均匀分组为若干体素的操作具体为：

根据激光雷达与相机之间的位置变换矩阵，将点云转换到相机的坐标系中。设点云在Z、Y、X轴范围上的长度分别为H，D，W。定义宽和高分别为vH，vW的体素，则高、宽维度上包含体素的数量为：

H'＝H/v_H，W'＝W/v_W，

简单起见，设H，W是v_H，v_W的倍数。对点云中的点根据所在的体素进行分组。

其中，上述步骤202中在二维RGB图像上进行均匀的分组操作具体为：

输入图像的宽和高分别为H和W。为了更好地关注局部特征，同时便于与三维数据的对齐以及后期融合，对图像进行分组操作，定义每个大小为n_H，n_W的组块，其中n_H，n_W的大小与三维特征提取网络中的v_H，v_W相同。宽、高维度上组块的数目为：

H'＝H/n_H，W'＝W/n_W，

设H，W是n_H，n_W的整数倍。

其中，上述步骤201中将稀疏不均匀的点云转换为密集的张量结构的操作具体为：

首先初始化一个K×T×7维张量结构以存储体素输入特征缓冲区，其中K表示非空体素的最大数量，T表示每个体素的最大点数量，每个点的输入编码尺寸为7。这些点在处理之前被随机化。对于点云中的每个点，检查对应的体素是否已经存在。将体素坐标与体素中点的坐标作为键值对，构建哈希表，可以高效实现体素的查找与初始化。体素输入特征和坐标缓冲区可以通过对点列表的一次遍历来构造，因此其复杂度为O(n)。

为了进一步提高存储与计算效率，可以仅存储有限数量的体素，而忽略包含点数很少的体素。

其中，上述步骤204中将融合后的特征图通过三维与二维的区域生成网络分别生成目标检测框的操作具体为：

将融合后的三维特征图输入到三维区域生成网络中，网络示意图如图3所示。该网络具有三个完全卷积层的块。每个块的第一层通过步幅为2的卷积对特征图进行一半的下采样，其后为步幅为1的卷积序列；在每个卷积层后应用BN(批标准化)和ReLU(线性整流函数)操作。对每个块的输出上采样为高、宽分别为原块高、宽一半的固定尺寸，将每个块的上采样结果拼接为高分辨率特征图。以特征图中的每一个点为中心，设置9种不同尺寸的锚框作为初始的检测框。通过两个分支分别对特征图进行映射。第一个分支对每个锚框进行分类，输出概率分数图；第二个分支用于计算锚框相对于目标真值框的回归偏移量，输出平移缩放参数。将前景锚框和边界框回归偏移量共同输入到候选层(proposal)中。

同样地，将融合后的二维特征图输入二维区域生成网络中，二维区域生成网络的处理流程如图4所示。二维区域生成网络由两个分支组成，以输入的特征图中每一个点为中心，设置9种不同尺寸的锚框作为初始的检测框。左边的分支通过归一化指数函数(softmax)获得检测锚框的正向和负向分类，右边的分支用于计算锚框相对于真值框的回归偏移量。而最后的区域生成(Proposal)层则负责综合正向锚框和对应回归偏移量，输出概率分数图与锚框回归图。最终得到点云数据与RGB图像中候选区域所属的目标类别及位置。

其中，上述步骤205中采取后融合的策略，将两种模态的检测框融合得到最终的目标检测结果的操作具体为：

如果在三维与二维区域生成网络输出的结果中，均正确地检测出同一目标，则三维目标边界框在二维图像上的投影与二维目标边界框应具有较高的几何一致性，可以将其作为不同模态检测结果的联系。则二维目标检测结果可以表示为：

其中，P^2D为二维目标检测结果的集合，k代表当前二维图像中检测出目标的数量，P_i ^2D代表检测结果集合中的第i个目标(1≤i≤k)，P_i ^2D中的第一项([x_i1,y_i1,x_i2,y_i2])为二维目标检测边界框，第二项

为二维目标边界框的置信度得分，K是当前检测出目标的数量，在具体检测中是一个确定的值，例如：这张图片检测出6个目标，则k＝6，

指检测出的第6个目标，而i是一个变量，P_i ^2D指检测结果中第i个目标，i可以是1到k之间的任意值。

类似地，三维目标检测结果可以表示为：

其中，P^3D为三维目标检测结果的集合，n代表当前三维点云中检测出目标的数量，P_i ^3D代表检测结果集合中的第i个目标(1≤i≤n)。

h_i,w_i,l_i,x_i,y_i,θ_i分别为三维目标边界框的高度、宽度、长度、顶点横坐标、顶点纵坐标、相对z轴的旋转角度，

为三维目标边界框的置信度得分。

采用混合表示的方式表示两种模态的检测结果：

其中，IoU_i为二维与三维边界框的交并比，用于表示在图像中的第i个检测结果和点云中的第j个的几何一致性，用边界框交并比IoU_i表示；

为二维检测的第i个检测到的物体置信度分数；

为在点云场景下的置信度分数；d_j表示在点云场景下检测到的第j个物体到地面的归一化距离。

其中，如果二维与三维检测网络均正确地检测出同一目标，则三维检测框在二维图像上的投影应与二维检测框具有较大的交并比；如果二维与三维检测结果不一致，IoU为0，则将IoU_i，

d_j均置为0。将非空的向量输入到卷积神经网络中，通过最大池化(maxpooling)映射为目标检测框位置回归图和对应的概率得分图。网络的最终输出为三维目标检测框及其对应的概率得分。

综上所述，本发明实施例通过上述步骤提取出三维点云与二维图像的特征信息，通过特征融合，使特征向量对数据的描述更加全面，避免了信息的丢失；通过构建密集张量与哈希表，提高了点云处理的效率，使算法更加高效，在多目标检测方面更加具有准确性和科学性。

实施例3

下面结合具体的实例，对实施例1和2中的方案进行可行性验证，详见下文描述：

采用KITTI数据集对算法性能进行评测。KITTI数据集是目前国际上最大的自动驾驶场景下的算法评测数据集，包含7481个用于训练的点云与图像和7518个用于测试的点云与图像，包括：汽车、行人和骑自行车的人三种类别。对于每个类别根据简单、中等、困难三个难度级别评估检测结果，三个难度级别分别根据目标大小，遮挡状态和截断级别确定。对算法进行全面评估，并将训练数据细分为训练集和验证集，得到3712个用于训练的数据样本和3769个用于验证的数据样本。经过分割之后，相同序列的样本不会同时包含在训练和验证集中。

同时，为了验证本算法中分组操作对二维目标检测性能的影响，在VOC2007数据集上对本发明方法中的二维图像目标检测方法进行评估。该数据集包含20个类别共计9963张图像，其中5011张用于训练，4952张用于测试。

在KITTI验证集上对本算法及各类对照算法做评估实验。按照官方评估协议，目标检测需要同时实现目标定位和目标识别两项任务。其中，通过比较预测边框和真值框的交并比(Intersection over Union，IoU)和阈值的大小判定目标定位的正确性；通过置信度分数和阈值的比较确定目标识别的正确性。以上两步综合判定目标检测是否正确，最终将多类别目标的检测问题转换为“某类物体检测正确、检测错误”的二分类问题，从而可以构造混淆矩阵，使用目标分类的一系列指标评估模型精度。实验中设置汽车类的IoU阈值为0.7，行人和骑自行车者类的IoU阈值为0.5。实验使用平均精确度(AP,average precision)指标，即不同召回率下精确率的均值，对各算法进行比较。对于本方法，使用KITTI提供的LiDAR数据和RGB图像数据从头开始训练，网络权重参数随机初始化。

为了分析点云随机采样阈值对算法性能的影响，在KITTI验证集汽车类别的三种难度级别上对应用不同采样阈值(T)的本发明算法进行对照实验，实验使用平均精度指标对算法精确度进行度量，并记录算法每次检测耗费的平均时间(毫秒)，实验结果如表1所示，随着随机采样阈值的增大，算法的时间开销和准确率均有提高，分析数据可以发现，在采样阈值大于30之后，算法的平均精度上升幅度很小，而时间开销仍然线性增大。综合考虑检测速度与精度，在后续的实验中将点云的随机采样阈值确定为30。

表1不同点云采样阈值在KITTI验证集上的性能对比

Table 1 Performance comparison of different pointcloud samplingthresholds on the KITTI validation set.

为了分析分组方法对算法检测效果的影响，设置了三种不同组块划分方式：

(1)W'＝W/n_W＝200，H'＝H/n_H＝150，

(2)W'＝W/n_W＝400，H'＝H/n_H＝300，

(3)W'＝W/n_W＝800，H'＝H/n_H＝600，

在KITTI数据集上三种类别的所有难度级别上对采用三种分组方式的算法进行比较实验，实验结果如表2所示。

表2不同分组方式在KITTI验证集上的平均目标检测精度对比

Table 2 Performance comparison in 3D detection:average precision onKITTI validation set.

分析数据可以看出，第二种划分方式取得了最好的效果。实验结果表明，过于稀疏的划分方式会忽略输入数据的局部信息，而过于稠密的划分方式则会由于过于关注局部而忽视特征间的联系。在后续的实验中，本方法将采用第二种划分方式。

为了分析融合方法在本方法中的重要性，设置了两个对照算例：第一个对照算例(记为Deep fusion)仅对两种模态的数据处理模块输出的三维特征图与二维特征图进行特征融合处理，而不对检测框进行后融合，直接将三维区域生成网络输出的检测框与目标类别作为最终的检测结果；第二个对照算例(记为late fusion)对两种模态的数据独立进行目标检测，仅在决策阶段对三维与二维的检测结果进行后融合。对照算例与本方法采用相同的分组方式、网络结构以及参数，在KITTI数据集上进行对比实验。使用平均精度(AP)评估检测性能。实验结果如表3所示，本方法的检测性能比仅使用特征融合或后融合的对照算法更加优越，证明了特征融合与后融合对目标检测性能具有提升作用。

表3不同融合方法在KITTI验证集上的性能对比

Table 3 Performance comparison of different fusion methods on theKITTI validation set.

为了分析分组方法在目标检测任务中的作用，将本方法中的二维图像目标检测算法与Faster R-CNN在VOC2007数据集上进行对比实验，本方法采用相同的方法进行训练。为了比较检测性能，将YOLOv3算法在同一数据集上的表现加入比较。通过全类平均正确率(mAP)评估检测性能，测试结果如表4所示。测试结果表明，分组处理对二维目标检测性能具有显著的提升作用。

表4不同二维目标检测算法在VOC2007数据集上的全类平均正确率比较

Table 4 Performance comparison in 2D detection:mean average precisionon VOC2007.

对于汽车类别，将本方法与几种性能最佳的算法进行比较，包括：基于图像的方法：Mono3D和3DOP；基于LiDAR的方法：VeloFCN和MV3D。Mono3D，3DOP和MV3D使用预训练的模型进行初始化。以上算法的实验数据来自Voxelnet论文的实验部分，见文献。按照文献中的实验设置，其他现行算法使用预训练的模型进行初始化，再在KITTI数据集上进行训练。对于本方法，使用KITTI提供的LiDAR数据和RGB图像数据从头开始训练，网络权重参数随机初始化。

为了分析多模态信息融合的重要性，实验中设置了两个单模态对照算法，对照算法网络结构均与本发明LiDAR点云数据处理模块相同，仅使用点云数据进行目标检测，第一个对照算法不经过分组操作，而第二个对照算法经过与本方法相同的分组操作。采用KITTI提供的LiDAR数据训练对照算法。

与现行方法的对比结果见表5所示。对于汽车类，在所有难度级别上，本方法的AP指标均明显优于所有其他方法。具体来说，本方法的性能明显优于基于LiDAR+RGB的代表性方法MV，在简单、中等、困难三个级别上分别超出11.66％，4.80％和7.66％。

与单模态对照算法的对比结果见表6所示。在三维的汽车、行人和骑自行车者检测上对本方法与两种单模态对照算法进行了比较。由于三维姿势和形状的高度变化较大，对行人和骑自行车者的检测需要更好的三维形状表示。如表6所示，本方法在所有类别的三种难度的实验中的平均精度均高于两种单模态对照算法，可见融合二维图像中的信息对三维目标检测性能具有提升作用。同时，与不加入分组操作的单模态对照算法相比，加入了分组操作的对照算法的检测精度在所有类别的三种难度上均有提升，证明了分组操作对局部信息的关注在三维目标检测中的有效性。

表5不同方法在KITTI验证集上的性能对比

Table 5 Performance comparison of different methods on the KITTIvalidation set.

表6与单模态对照方法在KITTI验证集上的性能对比

Table 6 Performance comparison with the monomodal comparison methodson the KITTI validation set.

为了验证本方法的高效性，设置了一个对照算法，其网络结构与参数与本发明方法相同，但在处理点云数据时不使用构建密集张量结构与哈希表的方法。在TitanX GPU和1.7Ghz CPU上对本方法及对照算法进行速率测试，结果显示，本方法总共耗费的推理时间为225ms，其中分组操作花费5ms。而对照算法耗费的时间高达345ms，其中分组操作花费120ms，速度远远低于本方法。测试结果表明，对点云构建密集张量结构与哈希表对于提升数据处理效率具有显著效果。

实施例4

一种基于多模态信息融合的多目标检测装置，参见图5，该装置包括处理器1和存储器2，存储器2中存储有程序指令，处理器1调用存储器2中存储的程序指令以使装置执行实施例1中的以下方法步骤：

其中，对LiDAR点云数据进行处理，提取LiDAR点云特征，获取三维特征图为：

进一步地，对RGB图像进行二维图像数据处理，通过特征提取网络输出RGB图像特征，获取二维特征图具体为：

其中，将稀疏不均匀的点云转换为密集的张量结构具体为：

进一步地，采取后融合的策略，将两种模态的目标检测框融合得到最终的目标检测结果具体为：

采用混合表示的方式表示两种模态的检测结果：

为二维检测的第i个检测到的物体置信度分数；

d_j均置为0；

其中，二维目标检测结果表示为：

三维目标检测结果表示为：

为三维目标边界框的置信度得分。

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。

实施例5

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。