CN111860695A

CN111860695A - 一种数据融合、目标检测方法、装置及设备

Info

Publication number: CN111860695A
Application number: CN202010768257.7A
Authority: CN
Inventors: 张泽瀚; 张明; 赵显�; 邝宏武
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2020-10-30

Abstract

本发明实施例提供了一种数据融合、目标检测方法、装置及设备，方法包括：获取图像及点云，分别确定点云中的每个点投影至图像中对应的像素点，作为投影像素点；将投影像素点的像素值输入至维度预测模型，得到目标维度的图像特征，目标维度即为适配于点云的维度，将该图像特征与点云进行维度拼接，实现了像素级的融合，可见，第一方面，本方案提供了一种将图像与点云进行融合的方案，第二方面，维度预测模型输出的图像特征为适配于点云的维度的图像特征，将该图像特征与点云进行融合，提高了融合效果。

Description

一种数据融合、目标检测方法、装置及设备

技术领域

本发明涉及环境感知技术领域，特别是涉及一种数据融合、目标检测方法、装置及设备。

背景技术

一些场景中，例如，车辆的自动驾驶场景中、机器人的自主移动场景中，等等，通常需要实时感知外部环境，感知外部环境可以理解为：检测外部环境中各目标的三维坐标。一般来说，可以获取激光雷达采集的点云、以及相机采集的图像，结合这两方面的数据检测得到目标的三维坐标。

相关方案中，结合上述两方面的数据通常是指：分别基于点云和图像进行目标检测，得到两种目标检测结果，然后再将这两种目标检测结果进行结合。这种方案中，基于点云进行目标检测时，并没有结合图像，基于图像进行目标检测时，也没有结合点云。只基于一方面的数据进行目标检测，检测结果准确性较低。

因此，需要提供一种将图像与点云进行融合的方案，这样才能基于融合后的数据(也就是两方面的数据)进行目标检测，提高检测结果的准确性。

发明内容

本发明实施例的目的在于提供一种数据融合、目标检测方法、装置及设备，以提供一种将图像与点云进行融合的方案。

为达到上述目的，本发明实施例提供了一种数据融合方法，包括：

获取针对同一场景采集的图像和点云；

分别确定所述点云中的每个点投影至所述图像中对应的像素点，作为投影像素点；

将所述投影像素点的像素值输入至预先训练得到的维度预测模型，得到所述维度预测模型输出的目标维度的图像特征，所述目标维度为适配于所述点云的维度；

将所述图像特征与所述点云进行维度拼接，得到像素融合特征。

可选的，所述将所述图像特征与所述点云进行维度拼接，得到像素融合特征之后，还包括：

分别将所述投影像素点、所述点云以及所述像素融合特征投影至预设基准体中，得到所述投影像素点对应的第一类基准点、所述点云对应的第二类基准点以及所述像素融合特征对应的第三类基准点；

对所述第一类基准点、所述第二类基准点以及所述第三类基准点进行特征学习及特征融合，得到稠密融合特征。

可选的，所述分别将所述投影像素点、所述点云以及所述像素融合特征投影至预设基准体中，得到所述投影像素点对应的第一类基准点、所述点云对应的第二类基准点以及所述像素融合特征对应的第三类基准点，包括：

将所述投影像素点投影至预先获得的基本体素中，得到第一类体素点；其中，所述基本体素为：在预设维度空间中分割得到的；

将所述点云投影至所述基本体素中，得到第二类体素点；

将所述像素融合特征投影至所述基本体素中，得到第三类体素点；

所述对所述第一类基准点、所述第二类基准点以及所述第三类基准点进行特征学习及特征融合，得到稠密融合特征，包括：

将所述第一类体素点携带的数据输入至预先训练得到的特征学习模型中，得到所述特征学习模型输出的体素化像素特征；

将所述第二类体素点携带的数据输入至所述特征学习模型中，得到所述特征学习模型输出的体素化点云特征；

将所述第三类体素点携带的数据输入至所述特征学习模型中，得到所述特征学习模型输出的体素化融合特征；

将所述体素化像素特征、所述体素化的点云特征以及所述体素化融合特征进行融合，得到稠密融合特征。

基于所述像素融合特征进行目标检测；

或者，所述对所述第一类基准点、所述第二类基准点以及所述第三类基准点进行特征学习及特征融合，得到稠密融合特征之后，还包括：

基于所述稠密融合特征进行目标检测。

可选的，所述将所述投影像素点的像素值输入至预先训练得到的维度预测模型，得到所述维度预测模型输出的目标维度的图像特征，包括：

将维度为(N，3)的投影像素点的像素值输入至所述维度预测模型，得到所述维度预测模型输出的维度为(N，k)的图像特征；其中，所述N表示所述点云中点的数量，3表示RGB三个像素值，k表示所述目标维度；

所述将所述图像特征与所述点云进行维度拼接，得到像素融合特征，包括：

将维度为(N，k)的图像特征与维度为(N，m)的点云进行维度拼接，得到维度为(N，k+m)的像素融合特征；其中，所述m表示所述点云的维度。

为达到上述目的，本发明实施例还提供了一种数据融合方法，包括：

获取针对同一场景采集的图像和点云；

分别将所述投影像素点和所述点云投影至预设基准体中，得到所述投影像素点对应的第一类基准点和所述点云对应的第二类基准点；

对所述第一类基准点和所述第二类基准点进行特征学习及特征融合，得到第一类融合特征。

可选的，所述分别将所述投影像素点和所述点云投影至预设基准体中，得到所述投影像素点对应的第一类基准点和所述点云对应的第二类基准点，包括：

将所述点云投影至所述基本体素中，得到第二类体素点；

所述对所述第一类基准点和所述第二类基准点进行特征学习及特征融合，得到第一类融合特征，包括：

将所述体素化像素特征以及所述体素化的点云特征进行融合，得到第一类融合特征。

可选的，所述对所述第一类基准点和所述第二类基准点进行特征学习及特征融合，得到第一类融合特征之后，还包括：

将所述第一类融合特征与所述体素化像素特征和所述体素化点云特征进行融合，得到第二类融合特征。

为达到上述目的，本发明实施例还提供了一种目标检测方法，包括：

获取上述内容中得到的像素融合特征、或者稠密融合特征、或者第一类融合特征、或者第二类融合特征，作为待检测特征；

基于所述待检测特征进行目标检测。

可选的，所述基于所述待检测特征进行目标检测，包括：

将所述待检测特征输入至预先训练得到的目标检测模型中，得到所述目标检测模型输出的目标检测结果。

为达到上述目的，本发明实施例还提供了一种数据融合装置，包括：

第一获取模块，用于获取针对同一场景采集的图像和点云；

第一确定模块，用于分别确定所述点云中的每个点投影至所述图像中对应的像素点，作为投影像素点；

维度预测模块，用于将所述投影像素点的像素值输入至预先训练得到的维度预测模型，得到所述维度预测模型输出的目标维度的图像特征，所述目标维度为适配于所述点云的维度；

第一融合模块，用于将所述图像特征与所述点云进行维度拼接，得到像素融合特征。

可选的，所述装置还包括：

第一投影模块，用于分别将所述投影像素点、所述点云以及所述像素融合特征投影至预设基准体中，得到所述投影像素点对应的第一类基准点、所述点云对应的第二类基准点以及所述像素融合特征对应的第三类基准点；

第二融合模块，用于对所述第一类基准点、所述第二类基准点以及所述第三类基准点进行特征学习及特征融合，得到稠密融合特征。

可选的，所述第一投影模块，具体用于：

将所述点云投影至所述基本体素中，得到第二类体素点；

所述第二融合模块，具体用于：

可选的，所述装置还包括：第一检测模块或第二检测模块；其中，

所述第一检测模块，用于基于所述像素融合特征进行目标检测；

所述第二检测模块，用于基于所述稠密融合特征进行目标检测。

可选的，所述维度预测模块，具体用于：

所述第一融合模块，具体用于：

第二获取模块，用于获取针对同一场景采集的图像和点云；

第二确定模块，用于分别确定所述点云中的每个点投影至所述图像中对应的像素点，作为投影像素点；

第二投影模块，用于分别将所述投影像素点和所述点云投影至预设基准体中，得到所述投影像素点对应的第一类基准点和所述点云对应的第二类基准点；

第三融合模块，用于对所述第一类基准点和所述第二类基准点进行特征学习及特征融合，得到第一类融合特征。

可选的，所述第二投影模块，具体用于：

将所述点云投影至所述基本体素中，得到第二类体素点；

所述第三融合模块，具体用于：

可选的，所述装置还包括：

第四融合模块，用于将所述第一类融合特征与所述体素化像素特征和所述体素化点云特征进行融合，得到第二类融合特征。

为达到上述目的，本发明实施例还提供了一种目标检测装置，包括：

第三获取模块，用于获取上述内容中得到的像素融合特征、或者稠密融合特征、或者第一类融合特征、或者第二类融合特征，作为待检测特征；

第三检测模块，用于基于所述待检测特征进行目标检测。

可选的，所述第三检测模块，具体用于：

为达到上述目的，本发明实施例还提供了一种电子设备，包括处理器和存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任意一种数据融合、目标检测方法。

应用本发明所示实施例，获取图像及点云，分别确定点云中的每个点投影至图像中对应的像素点，作为投影像素点；将投影像素点的像素值输入至维度预测模型，得到目标维度的图像特征，目标维度即为适配于点云的维度，将该图像特征与点云进行维度拼接，实现了像素级的融合，可见，第一方面，本方案提供了一种将图像与点云进行融合的方案，第二方面，维度预测模型输出的图像特征为适配于点云的维度的图像特征，将该图像特征与点云进行融合，提高了融合效果。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数据融合方法的第一种流程示意图；

图2a为本发明实施例提供的一种特征学习模型的结构示意图；

图2b为本发明实施例提供的一种目标检测模型的检测过程示意图；

图3为本发明实施例提供的数据融合方法的第二种流程示意图；

图4为本发明实施例提供的数据融合方法的第三种流程示意图；

图5为本发明实施例提供的一种目标检测方法的流程示意图；

图6为本发明实施例提供的一种数据融合装置的结构示意图；

图7为本发明实施例提供的另一种数据融合装置的结构示意图；

图8为本发明实施例提供的一种目标检测装置的结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了达到上述目的，本发明实施例提供了一种数据融合、目标检测方法、装置及设备，该方法及装置可以应用于各种电子设备，具体不做限定。下面首先对该数据融合方法进行详细说明。

图1为本发明实施例提供的数据融合方法的第一种流程示意图，包括：

S101：获取针对同一场景采集的图像和点云。

举例来说，在车辆的自动驾驶场景中，可以通过车载激光雷达采集点云，通过车载相机采集图像，这种情况下，可以由车载处理器执行本方案，车载处理器获取到该图像和该点云，然后应用本发明实施例对二者进行融合。

再举一例，在机器人的移动场景中，机器人中设置的激光雷达采集点云，机器人中设置的相机采集图像，机器人中设置的处理器应用本发明实施例对图像与点云进行融合。

S102：分别确定该点云中的每个点投影至该图像中对应的像素点，作为投影像素点。

举例来说，可以针对点云中的每个点，确定该点在图像中的投影点，如果与该投影点相邻的像素点有多个，可以利用双线性差值算法，在与该投影点相邻的多个像素点中，确定与投影点距离最近的像素点，也就是上述投影像素点。确定投影像素点的具体算法不做限定。

投影过程类似于相机透视变换过程，根据相机透视变换原理可知，假设相机坐标系下三维空间中的一个点X₁的坐标为(x，y，z)，将点X₁转换至图像坐标系中，图像坐标系为uv坐标系，通常会有4个像素点与点X₁对应，可以利用双线性差值算法在这4个像素点中选择出一个点，假设选择的点为点X₂，点X₂的坐标为(u，v)，可以将点X₁理解为上述点云中的点，将点X₂理解为上述投影像素点。

S103：将投影像素点的像素值输入至预先训练得到的维度预测模型，得到维度预测模型输出的目标维度的图像特征。目标维度为适配于上述点云的维度。

举例来说，该维度预测模型可以基于神经网络训练得到。该维度预测模型可以包含一个全连接网络，全连接网络的输入为S102中得到的投影像素点的像素值，输入维度为(N，3)，N表示点云中点的数量，3表示RGB(Red，Green，Blue，红绿蓝)三个像素值。全连接网络包含多个隐藏层，每个隐藏层由线性层、BN(Batch Normalization，批标准化)层以及激活函数(如ReLU：Rectified Linear Unit，线性整流函数，又称修正线性单元)层构成，全连接网络的输出由一个线性层构成。该维度预测模型输出(N，k)维的图像特征，k表示适配于上述点云的维度。该维度预测模型中的参数值由训练得到，可以通过神经网络学习到用于融合的较优特征以及特征维度。

上述内容中神经网络的结构仅为举例说明，本实施例并不对神经网络的具体结构进行限定。

S104：将该图像特征与该点云进行维度拼接，得到像素融合特征。

S103中得到的图像特征为适配于点云的维度的图像特征，将该图像特征与点云进行融合，提高了融合效果。

维度拼接可以理解为将数据的维度进行叠加，S104中的维度拼接即为将图像特征的维度与点云的维度进行叠加，得到更高维度的数据。比如，图像特征为k维的数据，点云为m维的数据，维度拼接就是将k维与m维相叠加，得到k+m维的数据。

上述例子中，将维度为(N，3)的投影像素点的像素值输入至维度预测模型，得到所述维度预测模型输出的维度为(N，k)的图像特征，则S104中可以将维度为(N，k)的图像特征与维度为(N，m)的点云进行维度拼接，得到维度为(N，k+m)的像素融合特征；其中，所述m表示所述点云的维度。

一般来说，点云可以包括4个维度，3个空间维度和1个表示激光反射强度的维度。一种情况下，可以将点云表达为9个维度的数据，也就是说上述m可以为9，这样，融合效果更佳。比如，可以通过特征提取，将4维点云表达为9维点云，或者，也可以通过其他特征处理的方式，具体不做限定。

一种实施方式中，可以基于S104中得到的像素融合特征进行目标检测。该像素融合特征携带了图像和点云两方面的数据，基于该像素融合特征进行目标检测，也就是基于两方面的数据进行目标检测，相比于仅基于单方面的数据进行目标检测，提高了检测结果的准确性。

比如，可以将该像素融合特征输入至预先训练得到的目标检测模型中，得到所述目标检测模型输出的目标检测结果。再比如，可以利用目标检测算法，对该像素融合特征进行处理，得到目标检测结果。具体的目标检测算法不做限定。本发明实施例中的目标检测结果可以应用于车辆的自动驾驶场景、或者机器人的自主移动场景、或者其他环境感知场景中，具体应用场景不做限定。

一种实施方式中，S104之后，可以分别将所述投影像素点、所述点云以及所述像素融合特征投影至预设基准体中，得到所述投影像素点对应的第一类基准点、所述点云对应的第二类基准点以及所述像素融合特征对应的第三类基准点；对所述第一类基准点、所述第二类基准点以及所述第三类基准点进行特征学习及特征融合，得到稠密融合特征。

本实施方式中，在上述像素融合特征的基础上又进行了一次数据融合，也就是进行两次数据融合，这样可以减少数据损失，提高数据的丰富性。可以基于稠密融合特征进行目标检测，该稠密融合特征携带了丰富的数据，进一步的提高了检测结果的准确性。

比如，可以将该稠密融合特征输入至预先训练得到的目标检测模型中，得到所述目标检测模型输出的目标检测结果。再比如，可以利用目标检测算法，对该稠密融合特征进行处理，得到目标检测结果。具体的目标检测算法不做限定。

本实施方式中，投影像素点与点云中的点存在对应关系；像素融合特征基于投影像素点和点云融合得到，像素融合特征与点云中的点也存在对应关系。一种情况下，可以按照点云中的点的坐标，将这三种数据(投影像素点、像素融合特征和点云中的点)投影至预设基准体中。或者，其他情况下，也可以按照其他参考坐标系，将这三种数据投影至预设基准体中。

一种实施方式中，该预设基准体可以为在预设维度空间中分割得到的基本体素。这种情况下，可以将所述投影像素点投影至预先获得的基本体素中，得到第一类体素点；将所述点云投影至所述基本体素中，得到第二类体素点；将所述像素融合特征投影至所述基本体素中，得到第三类体素点。

如上所述，一种情况下，可以按照点云中的点的坐标，将这三种数据(投影像素点、像素融合特征和点云中的点)投影至预设基准体中。这种情况下，可以基于所述投影像素点对应的点云中的点的坐标，将所述投影像素点投影至基本体素中，得到第一类体素点；基于所述点云中的点的坐标，将所述点云投影至所述基本体素中，得到第二类体素点；基于所述像素融合特征对应的点云中的点的坐标，将所述像素融合特征投影至所述基本体素中，得到第三类体素点。

本实施方式中，将所述第一类体素点携带的数据输入至预先训练得到的特征学习模型中，得到所述特征学习模型输出的体素化像素特征；将所述第二类体素点携带的数据输入至所述特征学习模型中，得到所述特征学习模型输出的体素化点云特征；将所述第三类体素点携带的数据输入至特征学习模型中，得到所述特征学习模型输出的体素化融合特征；将所述体素化像素特征、所述体素化的点云特征以及所述体素化融合特征进行融合，得到稠密融合特征。

举例来说，可以在预设维度空间中分割得到上述基本体素，比如，可以在三维空间或者二维空间中，分割得到上述基本体素。以三维空间为例来说，假设三维坐标系为XYZ轴坐标系，分别沿着X、Y、Z三条坐标轴，将尺度为(W，H，D)的三维空间划分为均匀分布的体素单元，其中，W(width)表示宽度，D(depth)表示深度；H(hight)表示高度。每个体素单元的尺寸表示为(v_W，v_H，v_D)，这样，生成的基本体素的尺寸为(W/v_W，H/v_H，D/v_D)。

如上所述，投影像素点和像素融合特征均与点云中的点存在对应关系，因此，可以按照点云中点的三维坐标(x，y，z)，将这三种数据(投影像素点、像素融合特征和点云中的点)分配到相应的体素单元。

假设存在三个相同的基本体素：基本体素1、基本体素2和基本体素3。假设将投影像素点分配到基本体素1的各个体素单元中，将点云分配到基本体素2的各个体素单元中，将像素融合特征分配到基本体素3的各个体素单元中。

由于点云中各处点的密度不同，一些位置点较密集，一些位置点较稀疏，因此，基本体素的每个体素单元中的点数可能会不同。一些情况下，可以在每个体素单元中选择相同数量的点进行特征学习，比如，可以针对每个体素单元，随机采样Q个点，对这Q个点进行特征学习，这样，可以减少学习偏见，Q的具体数量不做限定。

或者，另一种情况下，可以采用与PointPillars(点柱)类似的分割方法，只在俯视图的两个维度上进行分割得到基本体素。这种情况下，是在二维空间中分割得到基本体素。

可以预先基于神经网络训练得到特征学习模型。举例来说，该特征学习模型可以采用Mini-PointNet(小型点网)的网络结构，如图2a所示，包括多个处理单元(处理单元1……处理单元E，E表示正整数，具体数值不做限定)，该多个处理单元最后连接一个最大池化(MaxPooling)层；各处理单元的结构类似，一个处理单元包括一个全连接层、一个最大池化层和一个级联(concatenation)层，一个全连接层中可以包括一个线性层、一个BN层、一个ReLU层。

可以采用三个Mini-PointNet分别对上述三种数据(投影像素点、像素融合特征和点云中的点)进行逐体素的特征学习。假设将空间分为P个体素单元，每种体素化特征(体素化像素特征、体素化点云特征和体素化融合特征)都为C维，则经过特征学习模型，可以得到三种(P，C)维数据，分别对应投影像素点、像素融合特征和点云中的点。

这三种数据体素化处理过程类似。如上所述，可以针对每个体素单元，随机采样数量相同的点，每个体素单元的处理过程也是类似的，下面参考图2a针对一个体素单元的处理过程进行说明：处理单元1中，通过全连接层获得各个采样点的特征向量，然后利用最大池化层对体素单元中所有采样点的特征进行最大池化，可以得到体素单元的局部集成特征。再利用级联层将该局部集成特征分别与体素单元中每个采样点的特征进行拼接，可以获得每个采样点的增强特征。然后进入下一个处理单元，每个处理单元的处理过程类似，不再赘述。最后，利用一个最大池化层对最后一个处理单元输出的所有采样点的特征进行最大池化，得到体素化的特征向量，也就是上述体素化像素特征、体素化的点云特征以及体素化融合特征。

然后将体素化像素特征、体素化的点云特征以及体素化融合特征进行逐体素化拼接，便可以得到稠密融合特征。

另一种实施方式中，该预设基准体可以为BEV(Bird's Eye View，鸟瞰图)。举例来说，可以预先配置鸟瞰图，将投影像素点、点云以及像素融合特征均投影至鸟瞰图中，然后可以将鸟瞰图中的三种投影数据分别输入到特征学习模型中，得到三种特征向量，将这三种特征向量进行融合得到稠密融合特征。特征学习模型的特征学习过程类似，不再赘述。

上述内容中，将稠密融合特征输入至目标检测模型中，得到目标检测结果。举例来说，该目标检测模型可以基于CNN(Convolutional Neural Networks，卷积神经网络)训练得到。该目标检测模型的输入可以为二维数据，输出可以为三维识别框。比如，可以将稠密融合特征表达为伪图像，伪图像可以理解为一种类似于图像的数据，其具有宽度、高度和像素值。延续上述例子，在俯视图的两个维度上进行分割得到基本体素，该伪图像的宽度和高度与该俯视图的宽度和高度相同，伪图像的像素值即为上述三种(P，C)维数据，这三种(P，C)维数据可以类似于RGB三种像素值。这种情况下，伪图像可以表示为(3C，H，W)，3C表示上述三种(P，C)维数据，H表示图像的高度，W表示图像的宽度。

举例来说，可以采用SSD(Single Shot Multi-Box Detection，单发多盒检测)模型作为目标检测模型。或者，也可以采用类似于SSD模型的其他模型作为目标检测模型。

目标检测模型的检测过程可以参考图2b所示，输入为伪图像(3C，H，W)，对伪图像(3C，H，W)进行卷积，得到(C，H/2，W/2)的特征。纵向上，将(C，H/2，W/2)的特征进行块处理得到(2C，H/4，W/4)的特征，再将(2C，H/4，W/4)的特征进行块处理得到(4C，H/8，W/8)的特征。可见，这一纵向上，自上而下以越来越小的空间分辨率生成特征。然后再分别对(C，H/2，W/2)的特征、(2C，H/4，W/4)的特征和(4C，H/8，W/8)的特征经过反卷积、BN层、ReLU层进行处理，得到三种(2C，H/2，W/2)的特征，这三种特征再经过级联层，得到源自不同步长的所有特征的串联特征，串联特征为(6C，H/2，W/2)的特征，然后再基于该串联特征进行三维的目标检测。

图2b中的块处理可以表示为(S、L、F)，S表示步长，L表示层级，F表示输出通道。每个块中包含L个3x3的二维conv(卷积)层和F个输出通道，每个输出通道之后连接BN层和ReLU层。块内的第一卷积的步长可以为S/S_in，S_in表示输入步入，块内的后续卷积步长可以都为1。图2b中的反卷积可以理解为使用2D转置卷积将该最终特征进行上采样。

图2b中的检测过程仅为举例说明，并不对目标检测模型的检测过程构成限定。

举例来说，在对神经网络进行训练以得到目标检测模型的过程中，可以定义真实识别框的参数为(x_gt,y_gt,z_gt,w_gt,l_gt,h_gt,θ_gt)，神经网络输入的识别框(称为锚框)的参数为(x_a,y_a,z_a,w_a,l_a,h_a,θ_a)，其中，(x，y，z)表示上述三维坐标系中的坐标，w表示目标的宽度，l表示目标的长度，h表示目标的高度，θ表示目标的角度。可以将真实识别框和锚框之间的局部定位回归残差定义如下：

Δθ＝sin(θ_gt-θ_a)

其中，

局部定位损失函数采用Smooth L1loss函数。对于目标分类损失，可以采用焦点损失函数：

L_cls＝-α_a(1-p_a)^γlogp_a

其中，p_a表示锚框的类别概率，α、γ为预设值，具体数值不做限定。

采用上述损失函数训练得到目标检测模型后，利用目标检测模型进行目标检测时，便不需要再使用上述函数。

应用本发明图1所示实施例，获取图像及点云，分别确定点云中的每个点投影至图像中对应的像素点，作为投影像素点；将投影像素点的像素值输入至维度预测模型，得到目标维度的图像特征，目标维度即为适配于点云的维度，将该图像特征与点云进行维度拼接，实现了像素级的融合，可见，第一方面，本方案提供了一种将图像与点云进行融合的方案，第二方面，维度预测模型输出的图像特征为适配于点云的维度的图像特征，将该图像特征与点云进行融合，提高了融合效果。

图3为本发明实施例提供的数据融合方法的第二种流程示意图，包括：

S301：获取针对同一场景采集的图像和点云。

S302：分别确定该点云中的每个点投影至该图像中对应的像素点，作为投影像素点。

S303：将投影像素点的像素值输入至预先训练得到的维度预测模型，得到维度预测模型输出的目标维度的图像特征。目标维度为适配于上述点云的维度。

举例来说，该维度预测模型可以基于神经网络训练得到。该维度预测模型可以包含一个全连接网络，全连接网络的输入为S302中得到的投影像素点的像素值，输入维度为(N，3)，N表示点云中点的数量，3表示RGB(Red，Green，Blue，红绿蓝)三个像素值。全连接网络包含多个隐藏层，每个隐藏层由线性层、BN(Batch Normalization，批标准化)层以及激活函数(如ReLU：Rectified Linear Unit，线性整流函数，又称修正线性单元)层构成，全连接网络的输出由一个线性层构成。该维度预测模型输出(N，k)维的图像特征，k表示适配于上述点云的维度。该维度预测模型中的参数值由训练得到，可以通过神经网络学习到用于融合的较优特征以及特征维度。

S304：将该图像特征与该点云进行维度拼接，得到像素融合特征。

S303中得到的图像特征为适配于点云的维度的图像特征，将该图像特征与点云进行融合，提高了融合效果。

上述例子中，将维度为(N，3)的投影像素点的像素值输入至维度预测模型，得到所述维度预测模型输出的维度为(N，k)的图像特征，则S304中可以将维度为(N，k)的图像特征与维度为(N，m)的点云进行维度拼接，得到维度为(N，k+m)的像素融合特征；其中，所述m表示所述点云的维度。

S305：基于投影像素点对应的点云中的点的坐标，将投影像素点投影至基本体素中，得到第一类体素点；基于点云中的点的坐标，将点云投影至基本体素中，得到第二类体素点；基于像素融合特征对应的点云中的点的坐标，将像素融合特征投影至基本体素中，得到第三类体素点。

投影像素点和像素融合特征均与点云中的点存在对应关系，因此，可以按照点云中点的三维坐标(x，y，z)，将这三种数据(投影像素点、像素融合特征和点云中的点)分配到相应的体素单元。

S306：将第一类体素点携带的数据输入至预先训练得到的特征学习模型中，得到特征学习模型输出的体素化像素特征；将第二类体素点携带的数据输入至特征学习模型中，得到特征学习模型输出的体素化点云特征；将第三类体素点携带的数据输入至特征学习模型中，得到特征学习模型输出的体素化融合特征。

S307：将体素化像素特征、体素化的点云特征以及体素化融合特征进行融合，得到稠密融合特征。

将体素化像素特征、体素化的点云特征以及体素化融合特征进行逐体素化拼接，便可以得到稠密融合特征。

举例来说，可以将稠密融合特征表达为伪图像，伪图像可以理解为一种类似于图像的数据，其具有宽度、高度和像素值。延续上述例子，在俯视图的两个维度上进行分割得到基本体素，该伪图像的宽度和高度与该俯视图的宽度和高度相同，伪图像的像素值即为上述三种(P，C)维数据，这三种数据可以类似于RGB三种像素值。这种情况下，伪图像可以表示为(3C，H，W)，3C表示上述三种数据，H表示图像的高度，W表示图像的宽度。

S308：将稠密融合特征输入至目标检测模型中，得到目标检测结果。

举例来说，该目标检测模型可以基于CNN(Convolutional Neural Networks，卷积神经网络)训练得到。该目标检测模型的输入可以为二维数据，输出可以为三维识别框。

Δθ＝sin(θ_gt-θ_a)

其中，

L_cls＝-α_a(1-p_a)^γlogp_a

应用本发明图3所示实施例，第一方面，本方案提供了一种将图像与点云进行融合的方案。第二方面，维度预测模型输出的图像特征为适配于点云的维度的图像特征，将该图像特征与点云进行融合，提高了融合效果。第三方面，进行了两次数据融合，减少了数据损失，提高数据的丰富性。第四方面，基于两次数据融合后得到的稠密融合特征进行目标检测，该稠密融合特征携带了丰富的数据，进一步的提高了检测结果的准确性。

图4为本发明实施例提供的数据融合方法的第三种流程示意图，包括：

S401：获取针对同一场景采集的图像和点云。

S402：分别确定该点云中的每个点投影至该图像中对应的像素点，作为投影像素点。

S403：分别将投影像素点和点云投影至预设基准体中，得到投影像素点对应的第一类基准点和点云对应的第二类基准点。

一种实施方式中，该预设基准体可以为在预设维度空间中分割得到的基本体素。这种实施方式中，S403可以包括：将所述投影像素点投影至预先获得的基本体素中，得到第一类体素点；将所述点云投影至所述基本体素中，得到第二类体素点。

投影像素点与点云中的点存在对应关系，可以按照点云中的点的坐标，将投影像素点和点云中的点投影至预设基准体中。这种情况下，可以基于所述投影像素点对应的点云中的点的坐标，将所述投影像素点投影至预先获得的基本体素中，得到第一类体素点；基于所述点云中的点的坐标，将所述点云投影至所述基本体素中，得到第二类体素点。

可以按照点云中点的三维坐标(x，y，z)，将投影像素点和点云中的点分配到相应的体素单元。假设存在两个相同的基本体素：基本体素1和基本体素2。假设将投影像素点分配到基本体素1的各个体素单元中，将点云分配到基本体素2的各个体素单元中。

另一种实施方式中，该预设基准体可以为BEV(Bird's Eye View，鸟瞰图)。举例来说，可以预先配置鸟瞰图，将投影像素点和点云均投影至鸟瞰图中。可以根据需求配置鸟瞰图，具体配置方式不做限定。

S404：对第一类基准点和第二类基准点进行特征学习及特征融合，得到第一类融合特征。

上述一种实施方式中，预设基准体可以为在预设维度空间中分割得到的基本体素。这种实施方式中，第一类基准点为第一类体素点，第二类基准点为第二类体素点。这种实施方式中，S404可以包括：将所述第一类体素点携带的数据输入至预先训练得到的特征学习模型中，得到所述特征学习模型输出的体素化像素特征；将所述第二类体素点携带的数据输入至所述特征学习模型中，得到所述特征学习模型输出的体素化点云特征；将所述体素化像素特征以及所述体素化的点云特征进行融合，得到第一类融合特征。

投影像素点与点云中的点存在对应关系，上述一种情况下，按照点云中的点的坐标，将投影像素点和点云中的点投影至基本体素中。由于点云中各处点的密度不同，一些位置点较密集，一些位置点较稀疏，因此，基本体素的每个体素单元中的点数可能会不同。一些情况下，可以在每个体素单元中选择相同数量的点进行特征学习，比如，可以针对每个体素单元，随机采样Q个点，对这Q个点进行特征学习，这样，可以减少学习偏见，Q的具体数量不做限定。

可以采用两个Mini-PointNet分别对上述两种数据(投影像素点和点云中的点)进行逐体素的特征学习。假设将空间分为P个体素单元，每种体素化特征(体素化像素特征和体素化点云特征)为C维，则经过特征学习模型，可以得到两种(P，C)维数据，分别对应投影像素点和点云中的点。

这两种数据体素化处理过程类似。如上所述，可以针对每个体素单元，随机采样数量相同的点，每个体素单元的处理过程也是类似的，下面参考图2a针对一个体素单元的处理过程进行说明：处理单元1中，通过全连接层获得各个采样点的特征向量，然后利用最大池化层对体素单元中所有采样点的特征进行最大池化，可以得到体素单元的局部集成特征。再利用级联层将该局部集成特征分别与体素单元中每个采样点的特征进行拼接，可以获得每个采样点的增强特征。然后进入下一个处理单元，每个处理单元的处理过程类似，不再赘述。最后，利用一个最大池化层对最后一个处理单元输出的所有采样点的特征进行最大池化，得到体素化的特征向量，也就是上述体素化像素特征以及体素化的点云特征。

上述另一种实施方式中，预设基准体为鸟瞰图，这种实施方式中，可以将鸟瞰图中的两种投影数据分别输入到特征学习模型中，得到两种特征向量，将这两种特征向量进行融合得到第一类融合特征。特征学习模型的特征学习过程类似，不再赘述。

一种实施方式中，可以基于S404中得到的第一类融合特征进行目标检测。该第一类融合特征携带了图像和点云两方面的数据，基于该第一类融合特征进行目标检测，也就是基于两方面的数据进行目标检测，相比于仅基于单方面的数据进行目标检测，提高了检测结果的准确性。

一种实施方式中，S404之后，可以将所述第一类融合特征与所述体素化像素特征和所述体素化点云特征进行融合，得到第二类融合特征。

第一类融合特征、体素化像素特征和体素化点云特征均为体素化特征，可以将三者进行逐体素化拼接。

本实施方式中，在上述第一类融合特征的基础上又进行了一次数据融合，也就是进行两次数据融合，这样可以减少数据损失，提高数据的丰富性。可以基于第二类融合特征进行目标检测，该第二类融合特征携带了丰富的数据，进一步的提高了检测结果的准确性。

应用本发明图4所示实施例，获取图像及点云，分别确定点云中的每个点投影至图像中对应的像素点，作为投影像素点；分别将投影像素点和点云投影至预设基准体中，得到投影像素点对应的第一类基准点和点云对应的第二类基准点；对第一类基准点和第二类基准点进行特征学习及特征融合，得到第一类融合特征，可见，本方案提供了一种将图像与点云进行融合的方案，该第一类融合特征携带了图像和点云两方面的数据，基于该第一类融合特征进行目标检测，也就是基于两方面的数据进行目标检测，相比于仅基于单方面的数据进行目标检测，提高了检测结果的准确性。

本发明实施例还提供一种目标检测方法，如图5所示，包括：

S501：获取待检测特征。

待检测特征可以为采用图1实施例得到的像素融合特征、或者采用图1或图3实施例得到的稠密融合特征、或者采用图4实施例得到的第一类融合特征、或者采用图4实施例得到的第二类融合特征。

S502：基于待检测特征进行目标检测。

一种实施方式中，可以将所述待检测特征输入至预先训练得到的目标检测模型中，得到所述目标检测模型输出的目标检测结果。

目标检测模型的检测过程可以参考上述实施例，这里不再赘述。目标检测模型的具体结构及训练过程不做限定。

应用本发明图5所示实施例，待检测特征携带了图像和点云两方面的数据，基于该待检测特征进行目标检测，也就是基于两方面的数据进行目标检测，相比于仅基于单方面的数据进行目标检测，提高了检测结果的准确性。

与上述方法实施例相对应，本发明实施例还提供一种数据融合装置，如图6所示，包括：

第一获取模块601，用于获取针对同一场景采集的图像和点云；

第一确定模块602，用于分别确定所述点云中的每个点投影至所述图像中对应的像素点，作为投影像素点；

维度预测模块603，用于将所述投影像素点的像素值输入至预先训练得到的维度预测模型，得到所述维度预测模型输出的目标维度的图像特征，所述目标维度为适配于所述点云的维度；

第一融合模块604，用于将所述图像特征与所述点云进行维度拼接，得到像素融合特征。

一种实施方式中，所述装置还包括：第一投影模块和第二融合模块(图中未示出)，其中，

一种实施方式中，所述第一投影模块，具体用于：

将所述点云投影至所述基本体素中，得到第二类体素点；

所述第二融合模块，具体用于：

将所述第三类体素点携带的数据输入至特征学习模型中，得到所述特征学习模型输出的体素化融合特征；

一种实施方式中，所述装置还包括：第一检测模块或第二检测模块(图中未示出)；其中，

一种实施方式中，维度预测模块603具体用于：

第一融合模块604具体用于：

与上述方法实施例相对应，本发明实施例还提供一种数据融合装置，如图7所示，包括：

第二获取模块701，用于获取针对同一场景采集的图像和点云；

第二确定模块702，用于分别确定所述点云中的每个点投影至所述图像中对应的像素点，作为投影像素点；

第二投影模块703，用于分别将所述投影像素点和所述点云投影至预设基准体中，得到所述投影像素点对应的第一类基准点和所述点云对应的第二类基准点；

第三融合模块704，用于对所述第一类基准点和所述第二类基准点进行特征学习及特征融合，得到第一类融合特征。

一种实施方式中，第二投影模块704具体用于：

将所述点云投影至所述基本体素中，得到第二类体素点；

第三融合模块704具体用于：

一种实施方式中，所述装置还包括：

第四融合模块(图中未示出)，用于将所述第一类融合特征与所述体素化像素特征和所述体素化点云特征进行融合，得到第二类融合特征。

与上述方法实施例相对应，本发明实施例还提供一种目标检测装置，如图8所示，包括：

第三获取模块801，获取待检测特征。

第三检测模块802，用于基于所述待检测特征进行目标检测。

一种实施方式中，第三检测模块802具体用于：

本发明实施例还提供了一种电子设备，如图9所示，包括处理器901和存储器902，存储器902，用于存放计算机程序；处理器901，用于执行存储器902上所存放的程序时，实现上述任意一种数据融合、目标检测方法。

上述电子设备提到的存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种数据融合、目标检测方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任意一种数据融合、目标检测方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、设备实施例、计算机可读存储介质实施例、以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据融合方法，其特征在于，包括：

获取针对同一场景采集的图像和点云；

2.根据权利要求1所述的方法，其特征在于，所述将所述图像特征与所述点云进行维度拼接，得到像素融合特征之后，还包括：

3.根据权利要求2所述的方法，其特征在于，所述分别将所述投影像素点、所述点云以及所述像素融合特征投影至预设基准体中，得到所述投影像素点对应的第一类基准点、所述点云对应的第二类基准点以及所述像素融合特征对应的第三类基准点，包括：

将所述点云投影至所述基本体素中，得到第二类体素点；

4.根据权利要求2所述的方法，其特征在于，所述将所述图像特征与所述点云进行维度拼接，得到像素融合特征之后，还包括：

基于所述像素融合特征进行目标检测；

基于所述稠密融合特征进行目标检测。

5.根据权利要求1所述的方法，其特征在于，所述将所述投影像素点的像素值输入至预先训练得到的维度预测模型，得到所述维度预测模型输出的目标维度的图像特征，包括：

6.一种数据融合方法，其特征在于，包括：

获取针对同一场景采集的图像和点云；

7.根据权利要求6所述的方法，其特征在于，所述分别将所述投影像素点和所述点云投影至预设基准体中，得到所述投影像素点对应的第一类基准点和所述点云对应的第二类基准点，包括：

将所述点云投影至所述基本体素中，得到第二类体素点；

8.根据权利要求6所述的方法，其特征在于，所述对所述第一类基准点和所述第二类基准点进行特征学习及特征融合，得到第一类融合特征之后，还包括：

9.一种目标检测方法，其特征在于，包括：

获取根据权利要求1得到的像素融合特征、或者根据权利要求2或3得到的稠密融合特征、或者根据权利要求6或7得到的第一类融合特征、或者根据权利要求8得到的第二类融合特征，作为待检测特征；

基于所述待检测特征进行目标检测。

10.根据权利要求9所述的方法，其特征在于，所述基于所述待检测特征进行目标检测，包括：

11.一种数据融合装置，其特征在于，包括：

第一获取模块，用于获取针对同一场景采集的图像和点云；

12.一种数据融合装置，其特征在于，包括：

第二获取模块，用于获取针对同一场景采集的图像和点云；

13.一种目标检测装置，其特征在于，包括：

第三获取模块，用于获取根据权利要求1得到的像素融合特征、或者根据权利要求2或3得到的稠密融合特征、或者根据权利要求6或7得到的第一类融合特征、或者根据权利要求8得到的第二类融合特征，作为待检测特征；

第三检测模块，用于基于所述待检测特征进行目标检测。

14.一种电子设备，其特征在于，包括处理器和存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-10任一所述的方法步骤。