CN115965842A

CN115965842A - 一种基于图像和点云融合的目标检测方法和系统

Info

Publication number: CN115965842A
Application number: CN202211684815.7A
Authority: CN
Inventors: 张永昌
Original assignee: Suzhou Qingyu Technology Co Ltd
Current assignee: Suzhou Qingyu Technology Co Ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-04-14

Abstract

本发明实施例涉及一种基于图像和点云融合的目标检测方法和系统，所述方法包括：接收第一环视图序列和第一点云；对第一环视图序列进行类点云BEV特征提取处理生成对应的第一点云BEV特征张量；对第一点云进行点云BEV特征处理提取生成对应的第二点云BEV特征张量；对第一、第二点云BEV特征张量进行特征融合处理生成对应的第三点云BEV特征张量；根据第三点云BEV特征张量进行目标检测处理生成对应的多个第一目标检测框。通过本发明可以提高目标检测精度。

Description

一种基于图像和点云融合的目标检测方法和系统

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于图像和点云融合的目标检测方法和系统。

背景技术

自动驾驶系统的感知模块会基于感知传感器(摄像头、雷达等)获取的感知数据(图像、点云)对自车行驶环境中的障碍物进行目标检测并输出与各个障碍物相关的目标检测框(bounding box，bbox)。在进行目标检测处理时，感知模块的常规做法要么是基于视觉模型通过分析像素特征来进行目标检测、要么是基于点云模型通过分析点云特征来进行目标检测。这两种处理方式各自的缺点都比较明显，前者因为图像缺乏深度信息所以会导致检测存在较大的距离误差，后者因为点云的稀疏特质容易在检测时产生较大的形状误差。

发明内容

本发明的目的，就是针对现有技术的缺陷，提供一种基于图像和点云融合的目标检测方法、系统、电子设备及计算机可读存储介质；本发明给出一种对图像和点云进行鸟瞰视角(Bird’s Eye View，BEV)特征融合的前融合处理机制，基于该处理机制将相同时段内得到的由多个图像组成环视图与点云的像素特征和点云特征融合到同一个BEV平面上形成对应的融合BEV特征；并基于该融合BEV特征进行目标检测处理。通过本发明，可以在处理目标检测之前通过特征融合得到既包括像素特征又包括点云特征的特征张量，基于该特征张量进行目标检测不但可以降低检测中的距离误差、还可以降低形状误差，达到提高目标检测精度的目的。

为实现上述目的，本发明实施例第一方面提供了一种基于图像和点云融合的目标检测方法，所述方法包括：

接收第一环视图序列和第一点云；

对所述第一环视图序列进行类点云BEV特征提取处理生成对应的第一点云BEV特征张量；

对所述第一点云进行点云BEV特征处理提取生成对应的第二点云BEV特征张量；

对所述第一、第二点云BEV特征张量进行特征融合处理生成对应的第三点云BEV特征张量；

根据所述第三点云BEV特征张量进行目标检测处理生成对应的多个第一目标检测框。

优选的，所述第一环视图序列和所述第一点云均覆盖了自车周围360°视角；所述第一环视图序列包括多个第一图像；所述第一环视图序列的各个所述第一图像的拍摄时间一致；所述第一环视图序列的拍摄时间与所述第一点云的点云时间间隔不超过预设的时间间隔阈值；

所述第一、第二点云BEV特征张量的形状均为H_bev×W_bev×C_bev，H_bev、W_bev分别为预设的BEV网格平面的平面深度与平面宽度，H_bev＝512，W_bev＝512，特征维度C_bev＝64。

优选的，所述对所述第一环视图序列进行类点云BEV特征提取处理生成对应的第一点云BEV特征张量，具体包括：

对所述第一环视图序列的各个所述第一图像进行类点云特征提取处理得到对应的第一点云特征张量；

对得到的所有所述第一点云特征张量进行特征融合得到对应的第一融合点云特征张量；

基于预设的点云柱特征提取网络在所述BEV网格平面上对所述第一融合点云特征张量进行BEV特征提取处理得到对应的所述第一点云BEV特征张量；所述点云柱特征提取网络基于PointPillars模型的Pillar Feature Net模块实现。

进一步的，所述对所述第一环视图序列的各个所述第一图像进行类点云特征提取处理得到对应的第一点云特征张量，具体包括：

对所述第一图像的各个第一像素点进行深度估计得到对应的第一估计深度，并以米为单位对各个所述第一估计深度进行数值取整得到对应的第一像素深度；所述第一图像包括H₀*W₀个所述第一像素点，H₀、W₀分别为所述第一图像的高度和宽度；所述第一估计深度为正实数且单位为米，所述第一像素深度为正整数且单位为米，第一像素深度＝int₁(第一估计深度)，int₁()为向下取整函数；

根据预设的深度范围A、深度步长S、深度数量L和对应的所述第一像素深度，为各个所述第一像素点创建一个长度为所述深度数量L的独热编码向量作为对应的第一深度编码向量；并由得到的H₀*W₀个所述第一深度编码向量组成对应的第一深度编码张量；所述深度范围A默认为4-60米，所述深度范围A的最小阈值a_min默认为4米、最大阈值a_max默认为60米；所述深度步长S默认为1米；所述深度数量L＝[(a_max-a_min)/S]+1，所述深度数量L默认为57；所述第一深度编码向量包括所述深度数量L的第一深度编码；每个所述第一深度编码对应所述深度范围A内的一个第一深度值＝(a_min+(index-1)*S)，第一编码索引index≥1，所述第一编码索引index为所述第一深度编码在所述第一深度编码向量中的向量索引；所述第一深度编码向量中，只有对应的所述第一深度值与所述第一像素深度匹配的所述第一深度编码的编码值为1，其余的所有所述第一深度编码的编码值均为0；所述第一深度编码张量的形状为H₀×W₀×L；

基于预设的三级金字塔特征提取网络对所述第一图像进行三级特征提取处理得到对应的一级、二级和三级特征图，并从中选择所述一级特征图作为对应的第一特征图；所述第一特征图的形状为H₁×W₁×C₁，H₁、W₁、C₁分别为所述第一特征图的高度、宽度和特征维度，H₁＝H₀/2、W₁＝W₀/2、C₁＝64；所述三级金字塔特征提取网络由三级下采样残差网络和三级上采样FPN网络组成，所述三级下采样残差网络默认由ResNet18网络的conv1模块、conv2_x模块和conv3_x模块组成；

基于预设的第一卷积网络对所述第一特征图进行卷积运算得到对应的第二特征图；所述第二特征图的形状为H₁×W₁×C₂，所述第二特征图的高度和宽度与所述第一特征图的高度和宽度保持一致，C₂＝16；

按所述第一图像与所述第二特征图的图像比例关系，在保持特征维度不变的前提下对所述第二特征图进行2x上采样得到对应的第三特征图；所述第三特征图的形状为H₀×W₀×C₂；所述第三特征图包括H₀*W₀个长度为C₂的第一特征向量；

将所述第一深度编码张量的各个所述第一深度编码向量记为对应的特征向量a_i,j，并将所述第三特征图的各个所述第一特征向量记为对应的特征向量b_i,j，并根据所述特征向量a_i,j和所述特征向量b_i,j计算得到对应的特征矩阵m_i,j，

并由得到的H₀*W₀个所述特征矩阵m_i,j组成对应的第一深度特征张量；1≤i≤H₀、1≤j≤W₀；所述特征矩阵m_i,j的形状为L×C₂；所述第一深度特征张量的形状为H₀×W₀×L×C₂，所述第一深度特征张量的高度为H₀、宽度为W₀、深度为L、特征维度为C₂；所述第一深度特征张量包括H₀*W₀*L个长度为C₂的第二特征向量p_i,j,k,1≤k≤L；

根据各个所述第二特征向量p_i,j,k的下标参数(i,j)对应的所述第一图像的像素坐标和下标参数k对应的所述第一深度值，按二维像素坐标到三维世界坐标的坐标系转换关系计算出对应的第一三维世界坐标(x,y,z)；并由各个所述第二特征向量p_i,j,k和对应的所述第一三维世界坐标(x,y,z)组成一个对应的长度为C₂+3的第一点特征向量；并由得到H₀*W₀*L个所述第一点特征向量组成对应的所述第一点云特征张量。

进一步的，所述对得到的所有所述第一点云特征张量进行特征融合得到对应的第一融合点云特征张量，具体包括：

由得到的所有所述第一点云特征张量组成第一张量集合；

按预设的最小距离阈值，对所述第一张量集合中的所有所述第一点特征向量进行聚类得到多个第一聚类向量集合；所述第一聚类向量集合包括一个或多个所述第一点特征向量；所述第一聚类向量集合中所述第一点特征向量的数量大于或等于2时，每两个所述第一点特征向量的所述第一三维世界坐标之间的直线距离不超过所述最小距离阈值；

在各个所述第一聚类向量集合中，对所有所述第一点特征向量的所述第一三维世界坐标进行三维坐标均值计算得到对应的第二三维世界坐标，并对所有所述第一点特征向量的所述第二特征向量进行均值计算得到对应的长度为C₂的第三特征向量，并由得到的所述第三特征向量和所述第二三维世界坐标组成一个对应的长度为C₂+3的第二点特征向量；

由得到所有所述第二点特征向量组成对应的所述第一融合点云特征张量。

优选的，所述对所述第一点云进行点云BEV特征处理提取生成对应的第二点云BEV特征张量，具体包括：

对所述第一点云进行极坐标系下的前视图转换得到对应的第一前视图；所述第一点云包括多个第三点，每个所述第三点对应一个长度为4的第三点数据向量，所述第三点数据向量包括第一反射强度和第三三维世界坐标；所述第一前视图的形状为H₂×W₂×C₃，H₂、W₂、C₃分别为所述第一前视图的高度、宽度和特征维度，H₂＝64，W₂＝1024，C₃＝4；

基于预设的两级下采样特征提取网络对所述第一前视图进行两级下采样特征提取处理得到对应的第一、第二级特征图；所述第一级特征图的形状为H₃×W₃×C₄，H₃、W₃、C₄分别为所述第一级特征图的高度、宽度和特征维度，H₃＝H₂/2、W₃＝W₂/2、C₄＝64；所述第二级特征图的形状为H₄×W₄×C₅，H₄、W₄、C₅分别为所述第二级特征图的高度、宽度和特征维度，H₄＝H₃/2、W₄＝W₃/2、C₅＝128；所述两级下采样特征提取网络默认由ResNet18网络的conv1模块和conv2_x模块组成；

基于预设的第一反卷积网络对所述第二级特征图进行2x上采样和特征降维处理得到对应的第一上采样特征图；并对所述第一上采样特征图和所述第一级特征图进行特征拼接得到对应的第一拼接特征图；并基于预设的第二反卷积网络对所述第一拼接特征图进行2x上采样和特征降维处理得到对应的第一前视特征图；所述第一上采样特征图的形状与所述第一级特征图的形状一致为H₃×W₃×C₄；所述第一拼接特征图的形状为H₃×W₃×C₅；所述第一前视特征图的形状为H₂×W₂×C₆，特征维度C₆＝16，所述第一前视特征图包括H₂*W₂个第二像素点，每个所述第二像素点对应一个长度为C₆的第一像素特征向量；

对所述第一点云中的各个所述第三点进行遍历；遍历时，将当前遍历的所述第三点作为对应的当前点；并对所述当前点的所述第三三维世界坐标做从世界坐标到前视特征图像素坐标的转换处理得到对应的第一像素坐标；并将所述第一前视特征图上，所述第一像素坐标对应的所述第二像素点的所述第一像素特征向量提取出来与所述当前点的所述第三点数据向量拼接得到一个对应的长度为C₆+4的第三点特征向量；遍历结束时，由得到的所有所述第三点特征向量组成对应的第二点云特征张量；

基于预设的点云柱特征提取网络在所述BEV网格平面上对所述第二点云特征张量进行BEV特征提取处理得到对应的所述第二点云BEV特征张量；所述点云柱特征提取网络基于PointPillars模型的Pillar Feature Net模块实现。

优选的，所述对所述第一、第二点云BEV特征张量进行特征融合处理生成对应的第三点云BEV特征张量，具体包括：

基于预设的第一自注意力网络对所述第一点云BEV特征张量进行自注意力权重计算得到对应的第一权重矩阵；所述第一权重矩阵的形状为H_bev×W_bev×1；所述第一权重矩阵包括H_bev*W_bev个第一权重系数；

基于预设的第二自注意力网络对所述第二点云BEV特征张量进行自注意力权重计算得到对应的第二权重矩阵；所述第二权重矩阵的形状为H_bev×W_bev×1；所述第二权重矩阵包括H_bev*W_bev个第二权重系数；

对所述第一权重矩阵和所述第二权重矩阵进行拼接得到对应的第一拼接矩阵；所述第一拼接矩阵的形状为H_bev×W_bev×2；

基于预设的第一softmax函数对所述第一拼接矩阵中的所述第一、第二权重矩阵进行权重归一化处理得到对应的第三、第四权重矩阵；所述第三、第四权重矩阵的形状均为H_bev×W_bev×1；所述第三权重矩阵包括H_bev*W_bev个第三权重系数；所述第四权重矩阵包括H_bev*W_bev个第四权重系数；

将所述第三权重矩阵与所述第一点云BEV特征张量相乘得到对应的第一加权特征张量；所述第一加权特征张量的形状为H_bev×W_bev×C_bev；

将所述第四权重矩阵与所述第二点云BEV特征张量相乘得到对应的第二加权特征张量；所述第二加权特征张量的形状为H_bev×W_bev×C_bev；

对所述第一、第二加权特征张量进行相加得到对应的所述第三点云BEV特征张量；所述第三点云BEV特征张量的形状为H_bev×W_bev×C_bev。

优选的，所述根据所述第三点云BEV特征张量进行目标检测处理生成对应的多个第一目标检测框，具体包括：

将所述第三点云BEV特征张量输入预设的目标检测网络进行目标检测处理得到对应的多少所述第一目标检测框；所述目标检测网络基于CenterPoint模型的CenterPoint检测头实现。

本发明实施例第二方面提供了一种用于实现上述第一方面所述的基于图像和点云融合的目标检测方法的系统,所述系统包括：数据接收模块、特征融合处理模块和目标检测处理模块；

所述数据接收模块用于接收第一环视图序列和第一点云；

所述特征融合处理模块用于对所述第一环视图序列进行类点云BEV特征提取处理生成对应的第一点云BEV特征张量；并对所述第一点云进行点云BEV特征处理提取生成对应的第二点云BEV特征张量；并对所述第一、第二点云BEV特征张量进行特征融合处理生成对应的第三点云BEV特征张量；

所述目标检测处理模块用于根据所述第三点云BEV特征张量进行目标检测处理生成对应的多个第一目标检测框。

本发明实施例第三方面提供了一种电子设备，包括：存储器、处理器和收发器；

所述处理器用于与所述存储器耦合，读取并执行所述存储器中的指令，以实现上述第一方面所述的方法步骤；

所述收发器与所述处理器耦合，由所述处理器控制所述收发器进行消息收发。

本发明实施例第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令被计算机执行时，使得所述计算机执行上述第一方面所述的方法的指令。

本发明实施例提供了一种基于图像和点云融合的目标检测方法、系统、电子设备及计算机可读存储介质，本发明给出一种对图像和点云进行BEV特征融合的前融合处理机制，基于该处理机制将相同时段内得到的由多个图像组成环视图与点云的像素特征和点云特征融合到同一个BEV平面上形成对应的融合BEV特征；并基于该融合BEV特征进行目标检测处理。通过本发明，可以在处理目标检测之前通过特征融合得到既包括像素特征又包括点云特征的特征张量，基于该特征张量进行目标检测降低了检测中的距离误差和形状误差，提高了目标检测的整体精度。

附图说明

图1为本发明实施例一提供的一种基于图像和点云融合的目标检测方法示意图；

图2为本发明实施例二提供的一种基于图像和点云融合的目标检测系统的模块结构图；

图3为本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

自动驾驶系统的感知模块通过本发明实施例一提供的一种基于图像和点云融合的目标检测方法，可以对相同时段内得到的由多个图像组成环视图与点云的像素特征和点云特征进行BEV特征融合，并基于该融合BEV特征进行目标检测处理；图1为本发明实施例一提供的一种基于图像和点云融合的目标检测方法示意图，如图1所示，本方法主要包括如下步骤：

步骤1，接收第一环视图序列和第一点云；

其中，第一环视图序列和第一点云均覆盖了自车周围360°视角；第一环视图序列包括多个第一图像；第一环视图序列的各个第一图像的拍摄时间一致；第一环视图序列的拍摄时间与第一点云的点云时间间隔不超过预设的时间间隔阈值；常规情况下，第一环视图序列包括6个第一图像。

这里，在车辆上会预置多个用于对车辆周围360°进行环视图序列拍摄的摄像头，同时还会预置至少一个激光雷达对车辆周围360°进行扫描；感知模块接收的第一环视图序列为预置的多个摄像头在同一时间上拍摄的多个第一图像组成的图像序列，接收的第一点云为预置的激光雷达在靠近图像拍摄时间的时段内对车辆周围360°进行扫描产生的点云；时间间隔阈值为一个预先设置的短时间间隔，用于确保第一环视图序列和第一点云的时间间隔不会过大。

步骤2，对第一环视图序列进行类点云BEV特征提取处理生成对应的第一点云BEV特征张量；

其中，第一点云BEV特征张量的形状为H_bev×W_bev×C_bev，H_bev、W_bev分别为预设的BEV网格平面的平面深度与平面宽度，H_bev＝512，W_bev＝512，特征维度C_bev＝64；

具体包括：步骤21，对第一环视图序列的各个第一图像进行类点云特征提取处理得到对应的第一点云特征张量；

具体包括：步骤211，对第一图像的各个第一像素点进行深度估计得到对应的第一估计深度，并以米为单位对各个第一估计深度进行数值取整得到对应的第一像素深度；

其中，第一图像包括H₀*W₀个第一像素点，H₀、W₀分别为第一图像的高度和宽度；第一估计深度为正实数且单位为米，第一像素深度为正整数且单位为米，第一像素深度＝int₁(第一估计深度)，int₁()为向下取整函数；

这里，本发明实施例在对第一图像的各个第一像素点进行深度估计时可以基于常规的单目深度估计算法进行像素深度估计，还可以基于常规的双目深度估计算法进行像素深度估计；此处的单目、双目深度估计算法都是公开的像素深度估计算法，可以通过查阅相关技术文献获得具体的技术实现，在此不做一一赘述；需要说明的是，常规估计出的深度即第一估计深度是个可能带有小数点的实数，而本发明实施例会对其进行向下取整从而得到一个对应正整数即第一像素深度；

步骤212，根据预设的深度范围A、深度步长S、深度数量L和对应的第一像素深度，为各个第一像素点创建一个长度为深度数量L的独热编码向量作为对应的第一深度编码向量；并由得到的H₀*W₀个第一深度编码向量组成对应的第一深度编码张量；

其中，深度范围A默认为4-60米，深度范围A的最小阈值a_min默认为4米、最大阈值a_max默认为60米；深度步长S默认为1米；深度数量L＝[(a_max-a_min)/S]+1，深度数量L默认为57；第一深度编码向量包括深度数量L的第一深度编码；每个第一深度编码对应深度范围A内的一个第一深度值＝(a_min+(i ndex-1)*S)，第一编码索引i ndex≥1，第一编码索引index为第一深度编码在第一深度编码向量中的向量索引；第一深度编码向量中，只有对应的第一深度值与第一像素深度匹配的第一深度编码的编码值为1，其余的所有第一深度编码的编码值均为0；第一深度编码张量的形状为H₀×W₀×L；

例如，第一图像的形状H₀×W₀为2×2，由2*2个第一像素点组成分别为第一像素点n_1,1、n_1,2、n_2,1、n_2,2，通过前述步骤211得到4个第一像素深度分别为4米、5米、6米、7米；

那么，为4个第一像素点创建一个长度为深度数量L＝57的独热编码向量就能得到4个第一深度编码向量分别为第一深度编码向量a_1,1、a_1,2、a_2,1、a_2,2，其中：

第一深度编码向量a_1,1由57个第一深度编码组成、且第1个第一深度编码为1、其余全为0,即{1,0,0,0,0…0}，

第一深度编码向量a_1,2由57个第一深度编码组成、且第2个第一深度编码为1、其余全为0,即{0,1,0,0,0…0}，

第一深度编码向量a_2,1由57个第一深度编码组成、且第3个第一深度编码为1、其余全为0,即{0,0,1,0,0…0}，

第一深度编码向量a_2,2由57个第一深度编码组成、且第4个第一深度编码为1、其余全为0,即{0,0,0,1,0…0}，

那么，由得到的2*2个第一深度编码向量组成的第一深度编码张量为

形状为2×2×57；

步骤213，基于预设的三级金字塔特征提取网络对第一图像进行三级特征提取处理得到对应的一级、二级和三级特征图，并从中选择一级特征图作为对应的第一特征图；

其中，第一特征图的形状为H₁×W₁×C₁，H₁、W₁、C₁分别为第一特征图的高度、宽度和特征维度，H₁＝H₀/2、W₁＝W₀/2、C₁＝64；三级金字塔特征提取网络由三级下采样残差网络和三级上采样FPN网络组成，三级下采样残差网络默认由ResNet18网络的conv1模块、conv2_x模块和conv3_x模块组成；

这里，本发明实施例的三级金字塔特征提取网络由三级下采样残差网络和三级上采样FPN(Feature Pyramid Networks)网络构成；三级下采样残差网络由ResNet18网络的conv1模块、conv2_x模块和conv3_x模块组成，关于ResNet18网络可参见公开的技术论文《Deep Residual Learning for Image Recognition》，在此不做进一步复述；三级上采样FPN网络与三级下采样残差网络的连接方式为常规多级金字塔特征提取网络的连接方式，详见论文《Feature Pyramid Networks for Object Detection》，在此不做进一步复述；由公开的多级金字塔特征提取网络的工作原理可知，本发明实施例的三级金字塔特征提取网络可以输出三个尺度的特征也就是一级、二级和三级特征图，需要说明的是本发明实施例只选用其中的一级特征图作为后续步骤处理的第一特征图；

步骤214，基于预设的第一卷积网络对第一特征图进行卷积运算得到对应的第二特征图；

其中，第二特征图的形状为H₁×W₁×C₂，第二特征图的高度和宽度与第一特征图的高度和宽度保持一致，C₂＝16；

这里，本发明实施例的第一卷积网络为一个由卷积神经网络(ConvolutionalNeural Networks,CNN)构成的计算网络，该第一卷积网络的目的是对第一特征图进行进一步的像素特征提取并对特征维度进行降维，从第一特征图的特征维度64降到第一特征图的特征维度16，并保持第一、第二特征图的高度、宽度不变；

步骤215，按第一图像与第二特征图的图像比例关系，在保持特征维度不变的前提下对第二特征图进行2x上采样得到对应的第三特征图；

其中，第三特征图的形状为H₀×W₀×C₂；第三特征图包括H₀*W₀个长度为C₂的第一特征向量；

这里，本发明实施例采用双线性插值法对第二特征图进行2x上采样处理；

步骤216，将第一深度编码张量的各个第一深度编码向量记为对应的特征向量a_i,j，并将第三特征图的各个第一特征向量记为对应的特征向量b_i,j，并根据特征向量a_i,j和特征向量b_i,j计算得到对应的特征矩阵m_i,j，

并由得到的H₀*W₀个特征矩阵m_i,j组成对应的第一深度特征张量；T为向量转置符；

其中，1≤i≤H₀、1≤j≤W₀；特征矩阵m_i,j的形状为L×C₂；第一深度特征张量的形状为H₀×W₀×L×C₂，第一深度特征张量的高度为H₀、宽度为W₀、深度为L、特征维度为C₂；第一深度特征张量包括H₀*W₀*L个长度为C₂的第二特征向量p_i,j,k,1≤k≤L；

例如，第一图像的形状H₀×W₀为2×2；第一深度编码张量为

形状为2×2×57；第三特征图为

形状为2×2×16；那么，第一深度特征张量就应为：

形状为2×2×57×16；

步骤217，根据各个第二特征向量p_i,j,k的下标参数(i,j)对应的第一图像的像素坐标和下标参数k对应的第一深度值，按二维像素坐标到三维世界坐标的坐标系转换关系计算出对应的第一三维世界坐标(x,y,z)；并由各个第二特征向量p_i,j,k和对应的第一三维世界坐标(x,y,z)组成一个对应的长度为C₂+3的第一点特征向量；并由得到H₀*W₀*L个第一点特征向量组成对应的第一点云特征张量；

这里，在已知各个第二特征向量p_i,j,k的下标参数(i,j)对应的第一图像的像素坐标和下标参数k对应的第一深度值之后，可根据公开的从二维像素坐标到图像坐标系、从图像坐标系到相机坐标系、从相机坐标系到到世界坐标系的逐级坐标转换方式得到一组(i,j,k)对应的三维世界坐标即第一三维世界坐标(x,y,z)；当前步骤实际就是为第一深度特征张量中的每个第二特征向量p_i,j,k在世界坐标系中找到一个坐标点来与之一一对应，并将每个第二特征向量p_i,j,k的C₂＝16个特征+3个世界坐标分量(x,y,z)作为对应坐标点的特征向量即第一点特征向量，那么，进一步将所有找到的H₀*W₀*L个坐标点集合起来就可视为一个类似点云一样的点集合(称为类点云)，那么对应的H₀*W₀*L个第一点特征向量组成的张量即第一点云特征张量就是这个类点云的特征张量；

由上述步骤211-217可知，本发明实施例在步骤21中实际是参考点云特征的数据结构对各个第一图像带有深度估计的图像特征进行了数据结构转换从而得到了一个具有点云特征数据结构的第一点云特征张量；

步骤22，对得到的所有第一点云特征张量进行特征融合得到对应的第一融合点云特征张量；

具体包括：步骤221，由得到的所有第一点云特征张量组成第一张量集合；

这里，每个第一点云特征张量对应一个第一环视图序列中一个第一图像，常规情况下第一环视图序列由6个第一图像组成，那么就有对应的6个第一点云特征张量；当前步骤是将6个第一点云特征张量组成第一张量集合；

步骤222，按预设的最小距离阈值，对第一张量集合中的所有第一点特征向量进行聚类得到多个第一聚类向量集合；

其中，第一聚类向量集合包括一个或多个第一点特征向量；第一聚类向量集合中第一点特征向量的数量大于或等于2时，每两个第一点特征向量的第一三维世界坐标之间的直线距离不超过最小距离阈值；

这里，最小距离阈值为一个预先设定的小距离阈值参数；

步骤223，在各个第一聚类向量集合中，对所有第一点特征向量的第一三维世界坐标进行三维坐标均值计算得到对应的第二三维世界坐标，并对所有第一点特征向量的第二特征向量进行均值计算得到对应的长度为C₂的第三特征向量，并由得到的第三特征向量和第二三维世界坐标组成一个对应的长度为C₂+3的第二点特征向量；

这里，设某个第一聚类向量集合中有正整数Q个第一点特征向量，每个第一点特征向量包括一个长度为C₂＝16的第二特征向量{g_q,r}和一个第一三维世界坐标(x_q,y_q,z_q)；1≤q≤Q,1≤r≤16；

那么，第一聚类向量集合对应的第二三维世界坐标为：

对应的第三特征向量为：

得到的第二点特征向量就为由第二三维世界坐标+第三特征向量组成的长度为C₂+3的特征向量；

步骤224，由得到所有第二点特征向量组成对应的第一融合点云特征张量；

步骤23，基于预设的点云柱特征提取网络在BEV网格平面上对第一融合点云特征张量进行BEV特征提取处理得到对应的第一点云BEV特征张量；

其中，点云柱特征提取网络基于PointPillars模型的Pillar Feature Net模块实现。

这里，本发明实施例在当前步骤使用的点云柱特征提取网络为基于PointPillars模型的Pillar Feature Net模块实现的特征提取网络，网络的具体技术实现可参考公开的技术论文《PointPillars:Fast Encoders for Object Detection from Point Clouds》，在此不做进一步复述；需要说明的是，本发明实施例在基于点云柱特征提取网络进行特征提取时，按预先设置的BEV网格平面形状对Pillar Feature Net模块中使用的Pillar网格进行划分；对应的，在设置BEV网格平面时则默认以自车为中心构建一个前后左右各有51.2米深度的平面，并在该平面上以0.2米×0.2米为规格进行网格划分由此得到形状为512×512的BEV网格平面，因此该BEV网格平面的平面深度H_bev和平面宽度W_bev都为512。

步骤3，对第一点云进行点云BEV特征处理提取生成对应的第二点云BEV特征张量；

其中，第二点云BEV特征张量的形状为H_bev×W_bev×C_bev；

具体包括：步骤31，对第一点云进行极坐标系下的前视图转换得到对应的第一前视图；

其中，第一点云包括多个第三点，每个第三点对应一个长度为4的第三点数据向量，第三点数据向量包括第一反射强度和第三三维世界坐标；第一前视图的形状为H₂×W₂×C₃，H₂、W₂、C₃分别为第一前视图的高度、宽度和特征维度，H₂＝64，W₂＝1024，C₃＝4；

具体包括：步骤311，对第一点云进行点云过滤，将其中第三三维世界坐标的Z轴坐标在范围[-3米,5米]之外、或X轴坐标在范围[-51.2米,51.2米]之外、或Y轴坐标在范围[-51.2米,51.2米]之外所有第三点删除；

步骤312，以自车为极坐标中心构建极坐标系记为对应的第一极坐标系，并将自车左侧的垂直车身方向定为第一极坐标系的极坐标0度方向，并将从0度方向起的逆时针旋转方向作为第一极坐标系中从0度到360度的旋转方向；并基于第一极坐标系对第一点云中各个第三点的第三三维世界坐标做从世界坐标系到极坐标系的坐标转换得到对应的第一极坐标(r,θ,φ),

步骤313，构建一个形状为H₂×W₂×C₃的全零张量作为初始化的第一前视图；

其中，第一前视图包括H₂*W₂个第一前视图像素点，每个第一前视图像素点对应一个前视图像素坐标(x’,y’)，每个第一前视图像素点对应一个长度为C₃的第一前视图特征向量；

步骤314，设置第一极坐标系与第一前视图的极坐标-像素坐标投影关系为：

int₁()为向下取整函数；

步骤315，基于极坐标-像素坐标投影关系，对第一点云中各个第三点的第一极坐标(r,θ,φ)做从第一极坐标系到第一前视图的像素坐标投影得到对应的第一前视图像素坐标(x’,y’)；

这里，有可能多个第三点的第一前视图像素坐标(x’,y’)是相等的；

步骤316，对得到的各个第一前视图像素坐标(x’,y’)进行遍历；遍历时，将当前遍历的第一前视图像素坐标(x’,y’)作为对应的当前投影坐标，并将第一点云中与当前投影坐标对应的所有第三点提取出来组成对应的当前点集合；并对当前点集合中所有第三点的第一反射强度进行反射强度均值计算得到对应的第二反射强度、对所有第三点的第三三维世界坐标进行三维坐标均值计算得到对应的第四三维世界坐标，并由得到的第二反射强度和第四三维世界坐标组成一个对应的长度为C₃的第四点数据向量；并将第一前视图中与当前投影坐标对应的第一前视图特征向量更新为本次获得的第四点数据向量；

由上述步骤311-316可知，本发明实施例在步骤31中实际是通过对点云做极坐标转换并基于极坐标系下的前视图投影规则，将稀疏的点云特征转换为紧凑的前视图特征；这样就能使用后续步骤中提及的两级下采样特征提取网络进行图特征提取操作；

步骤32，基于预设的两级下采样特征提取网络对第一前视图进行两级下采样特征提取处理得到对应的第一、第二级特征图；

其中，第一级特征图的形状为H₃×W₃×C₄，H₃、W₃、C₄分别为第一级特征图的高度、宽度和特征维度，H₃＝H₂/2、W₃＝W₂/2、C₄＝64；第二级特征图的形状为H₄×W₄×C₅，H₄、W₄、C₅分别为第二级特征图的高度、宽度和特征维度，H₄＝H₃/2、W₄＝W₃/2、C₅＝128；两级下采样特征提取网络默认由ResNet18网络的conv1模块和conv2_x模块组成；

这里，本发明实施例的两级下采样特征提取网络采用就是由ResNet18网络的conv1模块和conv2_x模块组成的处理网络，关于ResNet18网络可参见公开的技术论文《Deep Residual Learning for Image Recognition》，在此不做进一步复述；

步骤33，基于预设的第一反卷积网络对第二级特征图进行2x上采样和特征降维处理得到对应的第一上采样特征图；并对第一上采样特征图和第一级特征图进行特征拼接得到对应的第一拼接特征图；并基于预设的第二反卷积网络对第一拼接特征图进行2x上采样和特征降维处理得到对应的第一前视特征图；

其中，第一上采样特征图的形状与第一级特征图的形状一致为H₃×W₃×C₄；第一拼接特征图的形状为H₃×W₃×C₅；第一前视特征图的形状为H₂×W₂×C₆，特征维度C₆＝16，第一前视特征图包括H₂*W₂个第二像素点，每个第二像素点对应一个长度为C₆的第一像素特征向量；

这里，本发明实施例的第一反卷积网络是一个常规的用于2x上采样和1/4特征降维的反卷积(Deconvolution)网络，第一反卷积网络的输出张量尺寸为输入张量尺寸的4倍、且特征维度降到输入张量特征维度的1/4；

步骤34，对第一点云中的各个第三点进行遍历；遍历时，将当前遍历的第三点作为对应的当前点；并对当前点的第三三维世界坐标做从世界坐标到前视特征图像素坐标的转换处理得到对应的第一像素坐标；并将第一前视特征图上，第一像素坐标对应的第二像素点的第一像素特征向量提取出来与当前点的第三点数据向量拼接得到一个对应的长度为C₆+4的第三点特征向量；遍历结束时，由得到的所有第三点特征向量组成对应的第二点云特征张量；

步骤35，基于预设的点云柱特征提取网络在BEV网格平面上对第二点云特征张量进行BEV特征提取处理得到对应的第二点云BEV特征张量；

这里，本发明实施例在当前步骤使用的点云柱特征提取网络为基于PointPillars模型的Pillar Feature Net模块实现的特征提取网络，网络的具体技术实现可参考公开的技术论文《PointPillars:Fast Encoders for Object Detection from Point Clouds》，在此不做进一步复述；需要说明的是，本发明实施例在基于点云柱特征提取网络进行特征提取时，按预先设置的BEV网格平面形状512×512对Pillar Feature Net模块中使用的Pillar网格进行划分。

步骤4，对第一、第二点云BEV特征张量进行特征融合处理生成对应的第三点云BEV特征张量；

具体包括：步骤41，基于预设的第一自注意力网络对第一点云BEV特征张量进行自注意力权重计算得到对应的第一权重矩阵；

其中，第一权重矩阵的形状为H_bev×W_bev×1；第一权重矩阵包括H_bev*W_bev个第一权重系数；

这里，本发明实施例的第一自注意力网络为一个标准的多头注意力(Multi-headed attention)网络，具体实现可参考论文《Attention Is All You Need》中详细说明，在此不做一一复述；需要说明的是，第一点云BEV特征张量可视为由H_bev*W_bev个长度为C_bev＝64的特征向量组成，本发明实施例使用第一自注意力网络对这H_bev*W_bev个特征向量进行自注意力权重计算从而得到的对应的64个第一权重系数，并由这64个第一权重系数组成对应的第一权重矩阵；

步骤42，基于预设的第二自注意力网络对第二点云BEV特征张量进行自注意力权重计算得到对应的第二权重矩阵；

其中，第二权重矩阵的形状为H_bev×W_bev×1；第二权重矩阵包括H_bev*W_bev个第二权重系数；

这里，本发明实施例的第二自注意力网络与第一自注意力网络类似，也为一个标准的多头注意力(Multi-headed attention)网络，具体实现可参考论文《Attention IsAll You Need》中详细说明，在此不做一一复述；需要说明的是，第二点云BEV特征张量可视为由H_bev*W_bev个长度为C_bev＝64的特征向量组成，本发明实施例使用第二自注意力网络对这H_bev*W_bev个特征向量进行自注意力权重计算从而得到的对应的64个第二权重系数，并由这64个第二权重系数组成对应的第二权重矩阵；

步骤43，对第一权重矩阵和第二权重矩阵进行拼接得到对应的第一拼接矩阵；

其中，第一拼接矩阵的形状为H_bev×W_bev×2；

步骤44，基于预设的第一softmax函数对第一拼接矩阵中的第一、第二权重矩阵进行权重归一化处理得到对应的第三、第四权重矩阵；

其中，第三、第四权重矩阵的形状均为H_bev×W_bev×1；第三权重矩阵包括H_bev*W_bev个第三权重系数；第四权重矩阵包括H_bev*W_bev个第四权重系数；

这里，本发明实施例的第一softmax函数为一个标准的softmax函数用于进行归一化指数计算；

步骤45，将第三权重矩阵与第一点云BEV特征张量相乘得到对应的第一加权特征张量；

其中，第一加权特征张量的形状为H_bev×W_bev×C_bev；

例如，第三权重矩阵为：

第一点云BEV特征张量为：

那么，第一加权特征张量为：

步骤46，将第四权重矩阵与第二点云BEV特征张量相乘得到对应的第二加权特征张量；

其中，第二加权特征张量的形状为H_bev×W_bev×C_bev；

例如，第四权重矩阵为：

第二点云BEV特征张量为：

那么，第二加权特征张量为：

步骤47，对第一、第二加权特征张量进行相加得到对应的第三点云BEV特征张量；

其中，第三点云BEV特征张量的形状为H_bev×W_bev×C_bev。

例如，第一加权特征张量为：

第二加权特征张量为：

那么，第三点云BEV特征张量为：

步骤5，根据第三点云BEV特征张量进行目标检测处理生成对应的多个第一目标检测框；

具体包括：将第三点云BEV特征张量输入预设的目标检测网络进行目标检测处理得到对应的多少第一目标检测框；目标检测网络基于CenterPoi nt模型的CenterPoi nt检测头实现。

这里，本发明实施例在基于融合特征即第三点云BEV特征张量进行目标检测时使用的目标检测网络为类似CenterPoi nt模型的CenterPoi nt检测头的神经网络，该CenterPoi nt检测头的具体实现方式可参考论文《Center-based 3D Object Detect ionand Tracki ng》，在此不做一一复述；需要说明的是，本发明实施例通过该目标检测网络对第三点云BEV特征张量进行目标检测处理最终会输出多个第一目标检测框，每个第一目标检测框对应一组目标检测框参数包括：目标检测框中心位置、目标检测框的三维形状、目标检测框的朝向等。

图2为本发明实施例二提供的一种基于图像和点云融合的目标检测系统的模块结构图，该系统为实现前述方法实施例一的系统、终端设备或者服务器，也可以为能够使得前述系统、终端设备或者服务器实现前述方法实施例一的装置，例如该装置可以是前述终端设备或者服务器的装置或芯片系统。如图2所示，该系统包括：数据接收模块201、特征融合处理模块202和目标检测处理模块203。

数据接收模块201用于接收第一环视图序列和第一点云。

特征融合处理模块202用于对第一环视图序列进行类点云BEV特征提取处理生成对应的第一点云BEV特征张量；并对第一点云进行点云BEV特征处理提取生成对应的第二点云BEV特征张量；并对第一、第二点云BEV特征张量进行特征融合处理生成对应的第三点云BEV特征张量。

目标检测处理模块203用于根据第三点云BEV特征张量进行目标检测处理生成对应的多个第一目标检测框。

本发明实施例二提供的一种基于图像和点云融合的目标检测系统，可以执行上述方法实施例一中的方法步骤，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，数据接收模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述系统的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所描述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，前述方法的各方法步骤或前述系统的各模块处理步骤可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上系统这些模块可以是被配置成实施前述方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，ASIC)，或，一个或多个数字信号处理器(Digital Signal Processor，DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA)等。再如，当以上系统某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(System-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照前述方法实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路((Digital Subscriber Line，DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

图3为本发明实施例三提供的一种电子设备的结构示意图。该电子设备可以为实现前述方法的终端设备或者服务器，也可以为与前述终端设备或者服务器连接的实现前述方法的终端设备或服务器。如图3所示，该电子设备可以包括：处理器301(例如CPU)、存储器302、收发器303；收发器303耦合至处理器301，处理器301控制收发器303的收发动作。存储器302中可以存储各种指令，以用于完成各种处理功能以及实现前述方法实施例描述的处理步骤。优选的，本发明实施例三涉及的电子设备还包括：电源304、系统总线305以及通信端口306。系统总线305用于实现元件之间的通信连接。上述通信端口306用于电子设备与其他外设之间进行连接通信。

在图3中提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，RAM)，也可能还包括非易失性存储器(Non-Volatile Memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器CPU、网络处理器(NetworkProcessor，NP)、图形处理器(Graphics Processing Unit，GPU)等；还可以是数字信号处理器DSP、专用集成电路ASI C、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行前述方法和处理过程。

本发明实施例还提供一种运行指令的芯片，该芯片用于执行前述方法实施例描述的处理步骤。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图像和点云融合的目标检测方法，其特征在于，所述方法包括：

接收第一环视图序列和第一点云；

2.根据权利要求1所述的基于图像和点云融合的目标检测方法，其特征在于，

所述第一环视图序列和所述第一点云均覆盖了自车周围360°视角；所述第一环视图序列包括多个第一图像；所述第一环视图序列的各个所述第一图像的拍摄时间一致；所述第一环视图序列的拍摄时间与所述第一点云的点云时间间隔不超过预设的时间间隔阈值；

3.根据权利要求2所述的基于图像和点云融合的目标检测方法，其特征在于，所述对所述第一环视图序列进行类点云BEV特征提取处理生成对应的第一点云BEV特征张量，具体包括：

4.根据权利要求3所述的基于图像和点云融合的目标检测方法，其特征在于，所述对所述第一环视图序列的各个所述第一图像进行类点云特征提取处理得到对应的第一点云特征张量，具体包括：

5.根据权利要求4所述的基于图像和点云融合的目标检测方法，其特征在于，所述对得到的所有所述第一点云特征张量进行特征融合得到对应的第一融合点云特征张量，具体包括：

由得到的所有所述第一点云特征张量组成第一张量集合；

6.根据权利要求2所述的基于图像和点云融合的目标检测方法，其特征在于，所述对所述第一点云进行点云BEV特征处理提取生成对应的第二点云BEV特征张量，具体包括：

7.根据权利要求2所述的基于图像和点云融合的目标检测方法，其特征在于，所述对所述第一、第二点云BEV特征张量进行特征融合处理生成对应的第三点云BEV特征张量，具体包括：

8.根据权利要求2所述的基于图像和点云融合的目标检测方法，其特征在于，所述根据所述第三点云BEV特征张量进行目标检测处理生成对应的多个第一目标检测框，具体包括：

9.一种用于实现权利要求1-8任一项所述的基于图像和点云融合的目标检测方法的系统，其特征在于，所述系统包括：数据接收模块、特征融合处理模块和目标检测处理模块；

所述数据接收模块用于接收第一环视图序列和第一点云；

10.一种电子设备，其特征在于，包括：存储器、处理器和收发器；

所述处理器用于与所述存储器耦合，读取并执行所述存储器中的指令，以实现权利要求1-8任一项所述的方法步骤；

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令被计算机执行时，使得所述计算机执行权利要求1-8任一项所述的方法的指令。