CN114998610A

CN114998610A - 一种目标检测方法、装置、设备及存储介质

Info

Publication number: CN114998610A
Application number: CN202210577183.8A
Authority: CN
Inventors: 李�昊; 张泽瀚; 赵显�
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-09-02

Abstract

本申请提供一种目标检测方法、装置、设备及存储介质，涉及计算机视觉技术领域，可以准确有效地进行目标检测的工作。该方法包括：获取雷达信号对应的点云中每个点的雷达特征和图像特征；将点云划分为N个子点云；N大于或等于1；根据子点云中每个点的雷达特征和图像特征，分别确定每个子点云的注意力系数；注意力系数用于指示子点云中的点之间的雷达信息的相互注意力，以及图像信息的相互注意力；分别确定每个子点云的融合特征；一个子点云的融合特征由该子点云的注意力系数对该子点云的雷达特征和图像特征加权得到；将N个子点云的融合特征投影至鸟瞰图，进行目标检测。本申请可用于3维目标检测的过程中。

Description

一种目标检测方法、装置、设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种目标检测方法、装置、设备及存储介质。

背景技术

随着自动驾驶领域、智能交通领域逐渐进入大众的视野，准确的目标检测尤为重要。目前的目标检测方案，一般根据相机采集的图像和激光雷达采集的点云，将图像的2维特征与点云3维特征融合在一起，以实现目标检测。

由于图像的2维特征与点云的3维特征分别来自不同的传感器，并不同源，直接将两者进行融合并不合适。另外，在特征融合时，需要将点云投影到图像上，在运动场景下，投影点与实际像素点会有偏差，存在点错位，导致目标检测的效果不好。

综上所述，目前的目标检测方案存在一定的缺陷，不能准确有效地进行目标检测的工作。

发明内容

本申请提供一种目标检测方法、装置、设备及存储介质，可以准确有效地进行目标检测的工作。

第一方面，本申请提供一种目标检测方法，该方法包括：获取雷达信号对应的点云中每个点的雷达特征和图像特征；点云中一个点的图像特征为该点在二维图像中对应的点的图像特征；将点云划分为N个子点云；N大于或等于1；根据子点云中每个点的雷达特征和图像特征，分别确定每个子点云的注意力系数；注意力系数用于指示子点云中的点之间的雷达信息的相互注意力，以及图像信息的相互注意力；分别确定每个子点云的融合特征；一个子点云的融合特征由该子点云的注意力系数对该子点云的雷达特征和图像特征加权得到；将N个子点云的融合特征投影至鸟瞰图，进行目标检测。

一种可能的实现方式中，针对第一子点云，确定第一子点云的注意力系数，包括：采用多层感知机对第一子点云中每个点的雷达特征和图像特征进行映射，得到第一子点云的雷达信息的向量和图像信息的向量；根据雷达信息的向量和图像信息的向量，分别确定第一系数和第二系数，作为第一子点云的注意力系数；第一系数为第一子点云中每个点之间雷达信息的相互注意力矩阵；第二系数为第一子点云中每个点之间图像信息的相互注意力矩阵。

另一种可能的实现方式中，根据雷达信息的向量和图像信息的向量，分别确定第一系数和第二系数，包括：将雷达信息的向量中的查询键值，与雷达信息的向量中的字典键值相乘，作为第一系数；将图像信息的向量中的查询键值，与图像信息的向量中的字典键值相乘，作为第二系数。

又一种可能的实现方式中，第一子点云的雷达特征为第一子点云的雷达信息的向量中的特征值，第一子点云的图像特征为第一子点云的图像信息的向量中的特征值；确定第一子点云的融合特征，包括：采用第一系数和第二系数，对雷达信息的向量中的雷达特征进行加权，得到第一子点云的雷达融合特征；采用第一系数和第二系数，对图像信息的向量中的图像特征进行加权，得到第一子点云的图像融合特征；连接第一子点云的雷达融合特征和第一子点云的图像融合特征，得到第一子点云的融合特征。

又一种可能的实现方式中，将点云划分为N个子点云，包括：采用最远点采样算法和k近邻算法将点云划分为N个子点云。

又一种可能的实现方式中，将N个子点云的融合特征投影至鸟瞰图，进行目标检测，包括：采用深度学习网络对鸟瞰图的特征进行提取，生成3维检测框；采用深度学习网络预测3维检测框的类别和尺度。

又一种可能的实现方式中，获取雷达信号对应的点云中每个点的雷达特征和图像特征，包括：对雷达信号进行特征提取，获取点云中每个点的雷达特征；对图像信号进行特征提取，得到图像信号的特征；将图像信号的特征通过内参矩阵和外参矩阵处理，获取点云中每个点的图像特征。

又一种可能的实现方式中，雷达信号为距离视图信号，方法还包括：获取距离视图信号的特征；获取雷达信号对应的点云中每个点的雷达特征，包括：将距离视图信号的特征与点云对应，获取雷达信号对应的点云中每个点的雷达特征。

本申请实施例提供的目标检测方法，通过将点云划分为多个子点云，针对每个子点云，根据子点云中每个点的雷达特征和图像特征，确定子点云的注意力系数。进一步的根据注意力系数确定子点云的融合特征，以投影至鸟瞰图进行目标检测。本方案通过划分子点云，使用子点云的注意力系数对子点云的特征进行加权，使得局部的每个点的特征，都由周围点的特征按照注意力系数聚合得到，增加了局部中每个点与周围点之间的权重关系，有效地弥补运动场景下局部投影点错位带来的性能损失，更加准确有效的进行目标检测的工作。而且，相比较传统的直接融合雷达特征和图像特征方式，本方案通过雷达特征和图像特征确定注意力系数，使用注意力系数分别对雷达特征和图像特征进行了加权，在一定程度上关联了雷达特征和图像特征。因此，本方案融合加权后的雷达特征和图像特征的方式较为为平滑，融合的效果更好，性能更优。

第二方面，本申请提供一种目标检测装置，该装置包括：获取模块，划分模块，确定模块和检测模块；获取模块用于，获取雷达信号对应的点云中每个点的雷达特征和图像特征；点云中一个点的图像特征为该点在二维图像中对应的点的图像特征；划分模块用于，将点云划分为N个子点云；N大于或等于1；确定模块用于，根据子点云中每个点的雷达特征和图像特征，分别确定每个子点云的融合特征；融合特征用于反映子点云的雷达信息和图像信息；检测模块用于，将N个子点云的融合特征投影至鸟瞰图，进行目标检测。

一种可能的实现方式中，确定模块具体用于，根据子点云中每个点的雷达特征和图像特征，分别确定每个子点云的注意力系数；注意力系数用于指示子点云中的点之间的雷达信息的相互注意力，以及图像信息的相互注意力；分别确定每个子点云的融合特征；一个子点云的融合特征由该子点云的注意力系数对该子点云的雷达特征和图像特征加权得到。

另一种可能的实现方式中，针对第一子点云，确定模块具体用于，采用多层感知机对第一子点云中每个点的雷达特征和图像特征进行映射，得到第一子点云的雷达信息的向量和图像信息的向量；根据雷达信息的向量和图像信息的向量，分别确定第一系数和第二系数，作为第一子点云的注意力系数；第一系数为第一子点云中每个点之间雷达信息的相互注意力矩阵；第二系数为第一子点云中每个点之间图像信息的相互注意力矩阵。

又一种可能的实现方式中，确定模块具体用于，将雷达信息的向量中的查询键值，与雷达信息的向量中的字典键值相乘，作为第一系数；将图像信息的向量中的查询键值，与图像信息的向量中的字典键值相乘，作为第二系数。

又一种可能的实现方式中，第一子点云的雷达特征为第一子点云的雷达信息的向量中的特征值，第一子点云的图像特征为第一子点云的图像信息的向量中的特征值；确定模块具体用于，采用第一系数和第二系数，对雷达信息的向量中的雷达特征进行加权，得到第一子点云的雷达融合特征；采用第一系数和第二系数，对图像信息的向量中的图像特征进行加权，得到第一子点云的图像融合特征；连接第一子点云的雷达融合特征和第一子点云的图像融合特征，得到第一子点云的融合特征。

又一种可能的实现方式中，划分模块具体用于，采用最远点采样算法和k近邻算法将点云划分为N个子点云。

又一种可能的实现方式中，检测模块具体用于，采用深度学习网络对鸟瞰图的特征进行提取，生成3维检测框；采用深度学习网络预测3维检测框的类别和尺度。

又一种可能的实现方式中，获取模块具体用于，对雷达信号进行特征提取，获取点云中每个点的雷达特征；对图像信号进行特征提取，得到图像信号的特征；将图像信号的特征通过内参矩阵和外参矩阵处理，获取点云中每个点的图像特征。

又一种可能的实现方式中，雷达信号为距离视图信号，获取模块还用于，获取距离视图信号的特征；获取模块具体用于，将距离视图信号的特征与点云对应，获取雷达信号对应的点云中每个点的雷达特征。

第三方面，本申请提供一种服务器，该服务器包括：处理器和存储器；存储器存储有处理器可执行的指令；处理器被配置为执行指令时，使得服务器实现上述第一方面的方法。

第四方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质包括：计算机软件指令；当计算机软件指令在电子设备中运行时，使得电子设备实现上述第一方面的方法。

第五方面，本申请提供一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述第一方面描述的相关方法的步骤，以实现上述第一方面的方法。

上述第二方面至第五方面的有益效果可以参考第一方面的对应描述，不再赘述。

附图说明

图1为本申请提供的一种目标检测方法的应用环境示意图；

图2为本申请提供的一种目标检测方法的流程示意图；

图3为本申请提供的一种获取各点特征方法的流程示意图；

图4为本申请提供的一种具有编解码器结构的全卷积网络的结构示意图；

图5为本申请提供的一种确定注意力系数的流程示意图；

图6为本申请提供的一种确定融合特征的流程示意图；

图7为本申请提供的一种目标检测过程的流程示意图；

图8为本申请提供的一种生成检测框的网络结构示意图；

图9为本申请提供的一种基于自注意力的LV融合方法的流程示意图；

图10为本申请提供的一种目标检测装置的组成示意图；

图11为本申请提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。

为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。如背景技术的描述，感知是自动驾驶系统的基础与核心，2维感知难以支持高级别的自动驾驶，需要进一步采用3维感知的方式。目前基于多传感器融合的主流3维目标检测方法有以下几种：一种多模态融合的3维检测器，一种跨视角空间特征融合的3维检测器，一种利用图像语义信息增强点云特征的3维检测器等。上述激光雷达视觉(lidar vision，LV)融合框架中，主要将2维度网络输出的图像的高维特征与3维度网络输出的激光点云高维特征连接在一起，进而实现3维目标检测。但是这种方法存在不同源的特征直接融合不合适，在运动场景存在点错位的情况，影响目标检测工作的精准度。

基于此，本申请实施例提供一种目标检测方法，该方法可以将点云划分为多个子点云，利用每个子点云的子注意力系数对子点云的雷达特征和图像特征进行校正，以准确有效地进行目标检测的工作。

本申请提供的目标检测方法，可以应用于如图1所示的应用环境中。如图1所示，该应用环境可以包括：目标检测装置101、相机102和激光雷达103。目标检测装置101分别和相机102，激光雷达103连接。

其中，目标检测装置101可以应用于服务器中。其中，这里所说的服务器可以是多个服务器组成的服务器集群、或者单个服务器、又或者计算机。目标检测装置101具体可以是服务器中的处理器或处理芯片等。本申请实施例对上述服务器的具体设备形态不作限制。图1中以目标检测装置101应用于单个服务器为例示出。

上述相机102主要用于采集LV融合所需要的红绿蓝(red green blue，RGB)图像。本申请实施例对相机102的具体设备形态不作限制，图1中以相机102为摄像头为例示出。上述激光雷达103主要用于采集LV融合所需要的点云，本申请实施例对激光雷达103的具体设备形态不作限制。

图2为本申请实施例提供的一种目标检测方法的流程示意图。示例性的，本申请提供的目标检测方法，可以应用于图1所示的应用环境中。

如图2所示，本申请提供的目标检测方法具体可以包括以下步骤：

S201、目标检测装置获取雷达信号对应的点云中每个点的雷达特征和图像特征。

其中，点云中一个点的图像特征，为该点在二维图像中对应的点的图像特征。

在一些实施例中，目标检测装置可以接收来自激光雷达采集的点云，以及相机采集的二维图像。进而获取点云中每个点的雷达特征，以及点云中每个点在二维图像中对应的点的图像特征。

具体的，获取每个点的雷达特征和图像特征的步骤可以如图3所示，包括如下步骤S201a-S201c。

S201a、目标检测装置对雷达信号进行特征提取，获取点云中每个点的雷达特征。

在一些实施例中，目标检测装置可以对雷达信号进行特征提取，获取点云中每个点的雷达特征。具体的，目标检测装置可以采用不同的3维主干网络来提取不同的雷达信号。示例性的，以下针对两种主流的雷达信号，点云信号和距离视图信号分别进行说明。

点云信号是一种不规则的信号，由n个点组成，每个点具有4个通道，分别为{x,y,z}位置信息，反射率信息r。因此，点云信号可以表示为p_l∈R^n×4，其中R表示矩阵。目标检测装置可以采用深度学习网络，进行点云信号的特征提取，本申请对于深度学习网络的类型及内部结构不予限定。

考虑到点云的无序性和不规则性，示例性的，本申请实施例采用一种多层级的点云特征提取网络(pointnet++)来提取点云信号的雷达特征。Pointnet++主要由下采样模块和上采样模块组成。其中下采样模块由多层感知机和下采样层组成，上采样模块由多层感知机和上采样层组成。点云信号通过下采样模块和上采样模块处理，可以得到点云的特征，如表示为f_l∈R^n×128，进而可以得到点云中每个点的雷达特征，维度为128。

在雷达信号为距离视图信号的情况下，目标检测装置获取距离视图信号的特征，进一步的，将距离视图信号的特征与点云对应，获取雷达信号对应的点云中每个点的雷达特征。距离视图信号x_d通常有着规则的形状，即宽度w和高度h，距离视图信号中有4个通道，分别为{x，y，z}位置信息，反射率信息r。因此，距离视图信号可以表示为x_d∈R^w×h×4。

其中，目标检测装置也可以采用深度学习网络，进行距离视图信号的特征提取，本申请在此对于深度学习网络的类型及内部结构不予限定。

示例性的，本申请实施例可以采用具有编解码器结构的全卷积网络进行距离视图信号的特征提取，具有编解码器结构的全卷积网络的结构如图4所示。编码器由卷积层和池化层组成，卷积层对输入进行卷积处理，池化层对卷积层的输出进行池化处理，实现特征的降采样。与编码器不同，解码器由卷积层和上采样层组成，上采样层则对卷积层的输出进行上采样。距离视图信号通过编码器和解码器的处理，输出尺寸与输入的距离视图相同的特征图(即上述距离视图信号的特征)，可以表示为f_d∈R^w×h×128。进一步的，将距离视图的特征通过与点云的对应公式进行处理，以获得点云中每个点的雷达特征。

S201b、目标检测装置对图像信号进行特征提取，得到图像信号的特征；

在一些实施例中，目标检测装置可以对相机采集的图像信号进行特征提取，得到图像信号的特征。

具体的，目标检测装置可以利用图像检测任务预训练图像检测网络，进而使用该网络提取图像特征。示例性的，本申请实施例采用一种深层的卷积神经网络(Darknet-53)的一种一阶段的2维检测器(Yolo v3)对图像信号进行处理，得到尺寸是原始图像进行32倍降采样的特征图(即上述图像信号的特征)。

S201c、目标检测装置将图像信号的特征通过内参矩阵和外参矩阵处理，获取点云中每个点的图像特征。

在一些实施例中，在得到图像信号的特征后，目标检测装置可以将图像信号的特征通过相机的内参矩阵，和相机与激光雷达之间外参矩阵处理，实现点云与图像中像素点的对应，以获取点云中每个点的图像特征。

为了优化在运动场景下，将点云投影到图像上存在点错位的情况，本身实施例将点云划分为多个局部区域，进而对每个局部区域进行校正，解决运动物体导致的局部投影误差。即目标检测装置执行如下S202-S205。

S202、目标检测装置将点云划分为N个子点云。

其中，N大于或等于1。

在一些示例性中，目标检测装置可以将点云划分为N个子点云。具体的，目标检测装置可以采用最远点采用算法和k近邻算法将点云划分为N个子点云，每个子点云中最多有K个点。具体的算法使用方式参考相关技术文档，在此不再详细赘述。需要说明的是，N的具体大小可以根据实际的场景进行调节，划分的粒度越细(即N的值越大)，对点错位的优化效果越好。

S203、目标检测装置根据子点云中每个点的雷达特征和图像特征，分别确定每个子点云的注意力系数。

其中，注意力系数用于指示子点云中的点之间的雷达信息的相互注意力，以及图像信息的相互注意力。雷达信息为雷达信号对应的数据信息，图像信息为图像信号对应的数据信息。

本申请实施例采用每个子点云的注意力系数，对子点云的雷达特征和图像特征进行矫正，以优化点错位的问题。因此，在一些实施例中，在将点云划分为多个子点云后，针对每个子点云，目标检测装置可以根据子点云中每个点的雷达特征和图像特征，分别确定每个子点云的注意力系数。

具体的，以下N个子点云中的第一子点云为例，说明确定子点云的注意力系数的具体过程。该确定过程如图5所示，包括如下S203a-S203b。

S203a、目标检测装置采用多层感知机对第一子点云中每个点的雷达特征和图像特征进行映射，得到第一子点云的雷达信息的向量和图像信息的向量。

在一些实施例中，目标检测装置可以采用多层感知机对第一子点云中每个点的雷达特征进行映射，得到第一子点云的雷达信息的向量。同样的，目标检测装置可以采用多层感知机对第一子点云中每个点的图像特征进行映射，得到第一子点云的图像信息的向量。

具体的，上述雷达信息的向量可以表示为{Q_L，K_L，V_L}，上述图像信息的向量可以表示为{Q_C，K_C，V_C}。Q，K，V∈R^K×128为三个特征向量，分别通过不同层次的感知机处理得到。其中，Q称为查询键值(query)，K称为字典键值(key)，V称为特征值(value)。多层感知机是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。其中，神经网络是机器学习模型，是一种模拟人脑的神经网络以能够实现类人工智能的机器学习技术。可以根据实际需求配置神经网络的输入及输出，并通过样本数据对神经网络训练，以使得其输出与样本数据对应的真实输出的误差最小。本申请实施例对多层感知机的具体实现不作详细赘述。

S203b、目标检测装置根据雷达信息的向量和图像信息的向量，分别确定第一系数和第二系数，作为第一子点云的注意力系数。

其中，第一系数为第一子点云中每个点之间雷达信息的相互注意力矩阵。第二系数为第一子点云中每个点之间图像信息的相互注意力矩阵。

在一些实施例中，目标检测装置可以根据雷达信息的向量，确定第一子点云中每个点之间雷达信息的相互注意力矩阵作为第一系数。同样的，目标检测装置可以根据图像信息的向量，确定第一子点云中每个点之间图像信息的相互注意力矩阵作为第二系数。将第一系数和第二系数作为第一子点云的注意力系数。

具体的，根据雷达信息的向量和图像信息的向量，采用如下公式分别确定第一系数和第二系数：

A_mod＝Q_mod·K_mod，mod∈{L，C}

其中，Q为上述查询键值，K为上述字典键值。

将雷达信息的向量中的查询键值，与雷达信息的向量中的字典键值相乘，作为第一系数。即将Q_L与K_L进行矩阵乘积，得到相互注意力矩阵A_L作为第一系数。

将图像信息的向量中的查询键值，与所述图像信息的向量中的字典键值相乘，作为所述第二系数。即将Q_C与K_C进行矩阵乘积，得到相互注意力矩阵A_C作为第二系数。

S204、目标检测装置分别确定每个子点云的融合特征。

其中，融合特征用于反映子点云的雷达信息和图像信息，一个子点云的融合特征由该子点云的注意力系数对该子点云的雷达特征和图像特征加权得到。

在一些实施例中，在确定子点云的注意力系数后，目标检测装置可以分别确定每个子点云的融合特征。以第一子点云为例，具体确定融合特征的步骤如图6所示，包括如下S204a-S204c。其中，第一子点云的雷达特征为第一子点云的雷达信息的向量中的特征值。第一子点云的图像特征为第一子点云的图像信息的向量中的特征值。

S204a、目标检测装置采用第一系数和第二系数，对雷达信息的向量中的特征值进行加权，得到第一子点云的雷达融合特征。

目标检测装置采用第一系数A_L和第二系数A_C，对雷达信息的向量中的特征值V_L进行加权，得到第一子点云的雷达融合特征F_L。具体加权公式如下：

其中，softmax为深度学习领域中的归化函数，d_k为维度大小(本申请实施例中为128)。

S204b、目标检测装置采用第一系数和第二系数，对图像信息的向量中的特征值进行加权，得到第一子点云的图像融合特征。

目标检测装置采用第一系数A_L和第二系数A_C，对图像信息的向量中的特征值V_C进行加权，得到第一子点云的雷达融合特征F_C。具体加权公式如下：

其中，softmax和d_k的含义同上，在此不再赘述。

S204c、目标检测装置连接第一子点云的雷达融合特征和第一子点云的图像融合特征，得到第一子点云的融合特征。

在一些实施例中，在确定第一子点云的雷达融合特征F_L和第一子点云的图像融合特征F_C后，目标检测装置可以连接第一子点云的雷达融合特征F_L和第一子点云的图像融合特征F_C进行向量的连接，得到最终的第一子点云的融合特征。

可以理解的是，本申请实施例利用子点云的注意力系数，对子点云的雷达特征和图像特征进行加权，局部中每个点的特征都由周围点的特征按照注意力系数进行聚合得到，增加了局部中每个点与周围点的关联关系。通过这种方式，可以有效减轻投影点错位带来的性能损失，影响目标检测的工作。

S205、目标检测装置将N个子点云的融合特征投影至鸟瞰图，进行目标检测。

在一些实施例中，在确定每个子点云的融合特征后，目标检测装置可以将N个子点云按照划分的位置，依次将每个子点云的融合特征投影至鸟瞰图，进而实现目标检测。

具体的，进行目标检测的过程如图7所示，具体包括如下S205a-S205b。

S205a、目标检测装置采用深度学习网络对鸟瞰图的特征进行提取，生成3维检测框。

在一些实施例中，在将N个子点云的融合特征投影至鸟瞰图后，目标检测装置可以采用深度学习网络对鸟瞰图的特征进行提取，生成3维检测框。

示例性的，目标检测装置可以采用深度学习网络中的卷积神经网络对鸟瞰图的特征进行提取。其中，卷积神经网络是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(featuremap)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

例如，如图8所示的一种生成检测框的网络结构示意图。卷积神经网络对输入的鸟瞰图特征(图中表示为(C,W,H))依次进行3个3×3卷积(conv)，每个卷积的步长均为2，得到三种不同尺度的特征，分别表示为(C,W/2,H/2)，(2C,W/4,H/4)和(4C,W/8,H/8)。进一步的，对着三个尺度的特征进行反卷积(deconv)，将其恢复到同一尺度，然后将三个特征进行级联(concat)，得到级联特征，并生成3维检测框。

S205b、目标检测装置采用深度学习网络预测3维检测框的类别和尺度。

在一些实施例中，在生成3维检测框后，目标检测装置可以采用深度学习网络，预测3维检测框的类别和尺度，以实现目标检测的工作。

示例性的，目标检测装置可以采用深度学习网络中的卷积神经网络预测3维检测框的类别和尺度。具体的，目标检测装置可以使用1×1卷积提取3维检测框的特征，以实现预测检测框的类别和尺度。

可以理解，本申请实施例提供了一种目标检测方法，在得到鸟瞰图后，可以使用卷积神经网络将在鸟瞰图中生成3维检测框，该3维检测框可以圈选出鸟瞰图中的目标(例如行人，车辆，树木等)，进一步的，采用1×1的卷积神经网络，预测3维检测框圈选的目标的类别和尺度。实现检测目标的类别的同时估计目标的空间位置、尺寸、朝向等三维信息。

上述实施例提供的技术方案至少带来以下有益效果，本申请实施例提供的目标检测方法，通过将点云划分为多个子点云，针对每个子点云，根据子点云中每个点的雷达特征和图像特征，确定子点云的注意力系数。进一步的根据注意力系数确定子点云的融合特征，以投影至鸟瞰图进行目标检测。本方案通过划分子点云，使用子点云的注意力系数对子点云的特征进行加权，使得局部的每个点的特征，都由周围点的特征按照注意力系数聚合得到，增加了局部中每个点与周围点之间的权重关系，有效地弥补运动场景下局部投影点错位带来的性能损失，更加准确有效的进行目标检测的工作。而且，相比较传统的直接融合雷达特征和图像特征方式，本方案通过雷达特征和图像特征确定注意力系数，使用注意力系数分别对雷达特征和图像特征进行了加权，在一定程度上关联了雷达特征和图像特征。因此，本方案中融合加权后的雷达特征和图像特征的方式较为为平滑，融合的效果更好，性能更优。

进一步的，本方案提供的目标检测方法，以点云为中间视角，使用图像特征(例如图像纹理特征，颜色特征等)对点云进行重加权，在3维的位置尺寸特征上添加2维的图像特征，实现3维目标检测，满足日益增长的高级别自动驾驶的感知需求。

图9为本申请实施例提供的一种基于自注意力的LV融合方法流程图。点云、距离视图等激光雷达信号输入特征提取模块中3维主干网络(3D backbone)，以提取雷达信息的逐点特征。RGB图像输入特征提取模块中2维主干网络(2D backbone),以提取图像信息的逐点特征(相当于上述S201)。进一步的，将雷达信息的逐点特征和图像信息的逐点特征输入到融合模块(或称为Transformer融合模块)逐点进行融合。在融合的过程中，融合模块分别提取雷达信息的Q,K,V特征向量和图像信息的Q,K,V特征向量，以得到雷达信息的注意力矩阵和图像信息的注意力矩阵。使用注意力矩阵跨模态对雷达信息的V特征以及图像信息的V特征进行加权后拼接，得到每个局部融合子集(相当于上述子点云)的融合向量(相当于上述S202-S204)。进而投影至鸟瞰图使用3维框预测网络进行目标预测(相当于上述S205)。

在示例性的实施例中，本申请还提供一种目标检测装置。该目标检测装置可以包括一个或多个功能模块，用于实现以上方法实施例的目标检测方法。

例如，图10为本申请实施例提供的一种目标检测装置的组成示意图。如图7所示，该目标检测装置包括：获取模块1001、划分模块1002、确定模块1003和检测模块1004。获取模块1001、划分模块1002、确定模块1003和检测模块1004之间互相连接。

获取模块1001用于，获取雷达信号对应的点云中每个点的雷达特征和图像特征，点云中一个点的图像特征为该点在二维图像中对应的点的图像特征。

划分模块1002用于，将点云划分为N个子点云。N大于或等于1。

确定模块1003用于，根据子点云中每个点的雷达特征和图像特征，分别确定每个所述子点云的融合特征；所述融合特征用于反映所述子点云的雷达信息和图像信息；

检测模块1004用于，将N个子点云的融合特征投影至鸟瞰图，进行目标检测。

在一些实施例中，确定模块1003具体用于，根据子点云中每个点的雷达特征和图像特征，分别确定每个子点云的注意力系数；注意力系数用于指示子点云中的点之间的雷达信息的相互注意力，以及图像信息的相互注意力；分别确定每个子点云的融合特征；一个子点云的融合特征由该子点云的注意力系数对该子点云的雷达特征和图像特征加权得到。

在一些实施例中，针对第一子点云，确定模块1003具体用于，采用多层感知机对第一子点云中每个点的雷达特征和图像特征进行映射，得到第一子点云的雷达信息的向量和图像信息的向量；根据雷达信息的向量和图像信息的向量，分别确定第一系数和第二系数，作为第一子点云的注意力系数；第一系数为第一子点云中每个点之间雷达信息的相互注意力矩阵；第二系数为第一子点云中每个点之间图像信息的相互注意力矩阵。

在一些实施例中，确定模块1003具体用于，将雷达信息的向量中的查询键值，与雷达信息的向量中的字典键值相乘，作为第一系数；将图像信息的向量中的查询键值，与图像信息的向量中的字典键值相乘，作为第二系数。

在一些实施例中，第一子点云的雷达特征为第一子点云的雷达信息的向量中的特征值，第一子点云的图像特征为第一子点云的图像信息的向量中的特征值。

确定模块1003具体用于，采用第一系数和第二系数，对雷达信息的向量中的雷达特征进行加权，得到第一子点云的雷达融合特征；采用第一系数和第二系数，对图像信息的向量中的图像特征进行加权，得到第一子点云的图像融合特征；连接第一子点云的雷达融合特征和第一子点云的图像融合特征，得到第一子点云的融合特征。

在一些实施例中，划分模块1002具体用于，采用最远点采样算法和k近邻算法将点云划分为N个子点云。

在一些实施例中，检测模块1004具体用于，采用深度学习网络对鸟瞰图的特征进行提取，生成3维检测框；采用深度学习网络预测3维检测框的类别和尺度。

在一些实施例中，获取模块1001具体用于，对雷达信号进行特征提取，获取点云中每个点的雷达特征；对图像信号进行特征提取，得到图像信号的特征；将图像信号的特征通过内参矩阵和外参矩阵处理，获取点云中每个点的图像特征。

在一些实施例中，雷达信号为距离视图信号，获取模块1001还用于，获取距离视图信号的特征。

获取模块1001具体用于，将距离视图信号的特征与点云对应，获取雷达信号对应的点云中每个点的雷达特征。

在采用硬件的形式实现上述集成的模块的功能的情况下，本申请实施例提供了一种服务器的可能的结构示意图，该服务器可以是上述实施例中的目标检测装置。如图11所示，该服务器1100包括：处理器1102，通信接口1103，总线1104。可选的，该服务器还可以包括存储器1101。

处理器1102，可以是实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。该处理器1102可以是中央处理器，通用处理器，数字信号处理器，专用集成电路，现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器1102也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

通信接口1103，用于与其他设备通过通信网络连接。该通信网络可以是以太网，无线接入网，无线局域网(wireless local area networks，WLAN)等。

存储器1101，可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

作为一种可能的实现方式，存储器1101可以独立于处理器1102存在，存储器1101可以通过总线11011与处理器1102相连接，用于存储指令或者程序代码。处理器1102调用并执行存储器1101中存储的指令或程序代码时，能够实现本申请实施例提供的目标检测方法。

另一种可能的实现方式中，存储器1101也可以和处理器1102集成在一起。

总线1104，可以是扩展工业标准结构(extended industry standardarchitecture，EISA)总线等。总线1104可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将目标检测装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

本申请实施例还提供了一种计算机可读存储介质。上述方法实施例中的全部或者部分流程可以由计算机指令来指示相关的硬件完成，该程序可存储于上述计算机可读存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。计算机可读存储介质可以是前述任一实施例的或内存。上述计算机可读存储介质也可以是上述目标检测装置的外部存储设备，例如上述目标检测装置上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，上述计算机可读存储介质还可以既包括上述目标检测装置的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述目标检测装置所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供一种计算机程序产品，该计算机产品包含计算机程序，当该计算机程序产品在计算机上运行时，使得该计算机执行上述实施例中所提供的任一项目标检测方法。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看附图、公开内容、以及所附权利要求书，可理解并实现公开实施例的其他变化。在权利要求中，“包括”(Comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

尽管结合具体特征及其实施例对本申请进行了描述，显而易见的，在不脱离本申请的精神和范围的情况下，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取雷达信号对应的点云中每个点的雷达特征和图像特征；所述点云中一个点的图像特征为该点在二维图像中对应的点的图像特征；

将所述点云划分为N个子点云；N大于或等于1；

根据子点云中每个点的雷达特征和图像特征，分别确定每个子点云的注意力系数；所述注意力系数用于指示子点云中的点之间的雷达信息的相互注意力，以及图像信息的相互注意力；

分别确定每个所述子点云的融合特征；一个子点云的融合特征由该子点云的注意力系数对该子点云的雷达特征和图像特征加权得到；

将所述N个子点云的融合特征投影至鸟瞰图，进行目标检测。

2.根据权利要求1所述的方法，其特征在于，针对第一子点云，确定所述第一子点云的注意力系数，包括：

采用多层感知机对所述第一子点云中每个点的雷达特征和图像特征进行映射，得到所述第一子点云的雷达信息的向量和图像信息的向量；

根据所述雷达信息的向量和所述图像信息的向量，分别确定第一系数和第二系数，作为所述第一子点云的注意力系数；所述第一系数为所述第一子点云中每个点之间所述雷达信息的相互注意力矩阵；所述第二系数为所述第一子点云中每个点之间图像信息的相互注意力矩阵。

3.根据权利要求2所述的方法，其特征在于，

所述根据所述雷达信息的向量和所述图像信息的向量，分别确定第一系数和第二系数，包括：

将所述雷达信息的向量中的查询键值，与所述雷达信息的向量中的字典键值相乘，作为所述第一系数；

将所述图像信息的向量中的查询键值，与所述图像信息的向量中的字典键值相乘，作为所述第二系数。

4.根据权利要求3所述的方法，其特征在于，所述第一子点云的雷达特征为所述第一子点云的雷达信息的向量中的特征值，所述第一子点云的图像特征为所述第一子点云的图像信息的向量中的特征值；

确定所述第一子点云的融合特征，包括：

采用所述第一系数和所述第二系数，对所述雷达信息的向量中的特征值进行加权，得到所述第一子点云的雷达融合特征；

采用所述第一系数和所述第二系数，对所述图像信息的向量中的特征值进行加权，得到所述第一子点云的图像融合特征；

连接所述第一子点云的雷达融合特征和所述第一子点云的图像融合特征，得到所述第一子点云的融合特征。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述将所述点云划分为N个子点云，包括：

采用最远点采样算法和k近邻算法将所述点云划分为N个所述子点云。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述将所述N个子点云的融合特征投影至鸟瞰图，进行目标检测，包括：

采用深度学习网络对所述鸟瞰图的特征进行提取，生成3维检测框；

采用深度学习网络预测所述3维检测框的类别和尺度。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述获取雷达信号对应的点云中每个点的雷达特征和图像特征，包括：

对所述雷达信号进行特征提取，获取所述点云中每个点的雷达特征；

对图像信号进行特征提取，得到所述图像信号的特征；

将所述图像信号的特征通过内参矩阵和外参矩阵处理，获取所述点云中每个点的图像特征。

8.根据权利要求7所述的方法，其特征在于，所述雷达信号为距离视图信号，所述方法还包括：获取所述距离视图信号的特征；

所述获取雷达信号对应的点云中每个点的雷达特征，包括：

将所述距离视图信号的特征与点云对应，获取所述雷达信号对应的点云中每个点的雷达特征。

9.一种目标检测装置，其特征在于，所述装置包括：获取模块，划分模块，确定模块和检测模块；

所述获取模块用于，获取雷达信号对应的点云中每个点的雷达特征和图像特征；所述点云中一个点的图像特征为该点在二维图像中对应的点的图像特征；

所述划分模块用于，将所述点云划分为N个子点云；N大于或等于1；

所述确定模块用于，根据子点云中每个点的雷达特征和图像特征，分别确定每个所述子点云的融合特征；所述融合特征用于反映所述子点云的雷达信息和图像信息；

所述检测模块用于，将所述N个子点云的融合特征投影至鸟瞰图，进行目标检测。

10.根据权利要求9所述的装置，其特征在于，所述确定模块具体用于，

分别确定每个子点云的融合特征；一个子点云的融合特征由该子点云的注意力系数对该子点云的雷达特征和图像特征加权得到。

11.根据权利要求10所述的装置，其特征在于，针对第一子点云，

所述确定模块具体用于，采用多层感知机对所述第一子点云中每个点的雷达特征和图像特征进行映射，得到所述第一子点云的雷达信息的向量和图像信息的向量；根据所述雷达信息的向量和所述图像信息的向量，分别确定第一系数和第二系数，作为所述第一子点云的注意力系数；所述第一系数为所述第一子点云中每个点之间所述雷达信息的相互注意力矩阵；所述第二系数为所述第一子点云中每个点之间图像信息的相互注意力矩阵；

所述确定模块具体用于，将所述雷达信息的向量中的查询键值，与所述雷达信息的向量中的字典键值相乘，作为所述第一系数；将所述图像信息的向量中的查询键值，与所述图像信息的向量中的字典键值相乘，作为所述第二系数；

所述第一子点云的雷达特征为所述第一子点云的雷达信息的向量中的特征值，所述第一子点云的图像特征为所述第一子点云的图像信息的向量中的特征值；所述确定模块具体用于，采用所述第一系数和所述第二系数，对所述雷达信息的向量中的特征值进行加权，得到所述第一子点云的雷达融合特征；采用所述第一系数和所述第二系数，对所述图像信息的向量中的特征值进行加权，得到所述第一子点云的图像融合特征；连接所述第一子点云的雷达融合特征和所述第一子点云的图像融合特征，得到所述第一子点云的融合特征；

所述划分模块具体用于，采用最远点采样算法和k近邻算法将所述点云划分为N个所述子点云；

所述检测模块具体用于，采用深度学习网络对所述鸟瞰图的特征进行提取，生成3维检测框；采用深度学习网络预测所述3维检测框的类别和尺度；

所述获取模块具体用于，对所述雷达信号进行特征提取，获取所述点云中每个点的雷达特征；对图像信号进行特征提取，得到所述图像信号的特征；将所述图像信号的特征通过内参矩阵和外参矩阵处理，获取所述点云中每个点的图像特征；

所述雷达信号为距离视图信号；所述获取模块还用于，获取所述距离视图信号的特征；

所述获取模块具体用于，将所述距离视图信号的特征与点云对应，获取所述雷达信号对应的点云中每个点的雷达特征。

12.一种服务器，其特征在于，所述服务器包括：处理器和存储器；

所述存储器存储有所述处理器可执行的指令；

所述处理器被配置为执行所述指令时，使得所述服务器实现如权利要求1-8任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括：计算机软件指令；

当所述计算机软件指令在电子设备中运行时，使得所述电子设备实现如权利要求1-8任一项所述的方法。