CN117746417A

CN117746417A - 目标检测模型构建方法、目标检测方法及相关装置

Info

Publication number: CN117746417A
Application number: CN202311765325.4A
Authority: CN
Inventors: 燕家兴; 黄轩; 徐洛冬; 胡琪琳
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-03-22

Abstract

本公开提供了一种目标检测模型构建方法、目标检测方法及相关装置，涉及深度学习、神经网络、目标检测、自动驾驶等人工智能技术领域。该方法包括：获取从鸟瞰视角对车辆行驶周围扫描得到的样本三维点云数据，以及对样本三维点云数据中所包含目标的三维位置的标注信息；利用预设的特征提取模型提取样本三维点云数据中的特征，得到三维点云特征图；将基于三维点云特征和标注信息构成的训练样本，依次通过包含有时序自注意力模块和空间交叉自注意力模块的编码网络和包含有自注意力模块和交叉注意力模块的解码网络进行训练，得到满足训练结束条件的编码网络和解码网络；基于特征提取网络、满足训练结束条件的编码网络和解码网络，构建目标检测模型。

Description

目标检测模型构建方法、目标检测方法及相关装置

技术领域

本公开涉及数据处理方法，具体涉及深度学习、神经网络、目标检测、自动驾驶等人工智能技术领域，尤其涉及一种目标检测模型构建方法和目标检测方法，以及以对应的装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

点云3D(三维)目标检测算法是自动驾驶领域至关重要的感知算法。3D目标检测算法的输入为原始点云，输出为场景中障碍物的位置、长宽高、朝向角信息，用于后续的障碍物跟踪和下游的PNC(Planning and Control，规划控制)任务。

目前主流的点云3D目标检测算法主要分为两类：基于点(point)的点云检测算法，基于点云柱(pillars)的点云检测算法。前者需要对每个点进行处理，耗时较长无法满足实时性需求。

上述两种主流算法中，后者凭借其较高的检测精度和较低的耗时被广泛应用于自动驾驶技术中，但基于pillars的点云检测算法仍存在诸多不足之处。

发明内容

本公开实施例提出了一种目标检测模型构建、目标检测方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

第一方面，本公开实施例提出了一种目标检测模型构建方法，包括：获取从鸟瞰视角对车辆行驶周围扫描得到的样本三维点云数据，以及对样本三维点云数据中所包含目标的三维位置的标注信息；利用预设的特征提取模型提取样本三维点云数据中的特征，得到三维点云特征；将基于三维点云特征和标注信息构成的训练样本，依次通过包含有时序自注意力模块和空间交叉自注意力模块的编码网络和包含有自注意力模块和交叉注意力模块的解码网络进行训练，得到满足训练结束条件的编码网络和解码网络；基于特征提取网络、满足训练结束条件的编码网络和解码网络，构建得到目标检测模型。

第二方面，本公开实施例提出了一种目标检测模型构建装置，包括：样本数据获取单元，被配置成获取从鸟瞰视角对车辆行驶周围扫描得到的样本三维点云数据，以及对样本三维点云数据中所包含目标的三维位置的标注信息；特征提取单元，被配置成利用预设的特征提取模型提取样本三维点云数据中的特征，得到三维点云特征图；训练单元，被配置成将基于三维点云特征和标注信息构成的训练样本，依次通过包含有时序自注意力模块和空间交叉自注意力模块的编码网络和包含有自注意力模块和交叉注意力模块的解码网络进行训练；目标检测模型构建单元，被配置成基于特征提取网络、满足训练结束条件的编码网络和精简解码网络，构建得到目标检测模型。

第三方面，本公开实施例提出了一种目标检测方法，包括：获取目标自动驾驶车辆上架设的三维激光扫描仪对车辆行驶周围扫描得到的实际三维点云数据；将实际三维点云数据作为输入数据输入目标检测模型，得到目标检测模型输出的对实际三维点云数据中包含的各目标的三维位置的标注信息；其中，目标检测模型根据如第一方面描述的目标检测模型构建方法得到。

第四方面，本公开实施例提出了一种目标检测装置，包括：实际三维点云数据获取单元，被配置成获取目标自动驾驶车辆上架设的三维激光扫描仪对车辆行驶周围扫描得到的实际三维点云数据；目标检测单元，被配置成将实际三维点云数据作为输入数据输入目标检测模型，得到目标检测模型输出的对实际三维点云数据中包含的各目标的三维位置的标注信息；其中，目标检测模型根据如第二方面描述的目标检测模型构建装置得到。

第五方面，本公开实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面描述的目标检测模型构建方法或如第三方面描述的目标检测方法。

第六方面，本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面描述的目标检测模型构建方法或如第三方面描述的目标检测方法。

第七方面，本公开实施例提供了一种包括计算机程序的计算机程序产品，该计算机程序在被处理器执行时能够实现如第一方面描述的目标检测模型构建方法的步骤或如第三方面描述的目标检测方法的步骤。

本公开实施例提供的目标检测模型构建方案，针对从鸟瞰视角对车辆行驶周围扫描得到的三维点云数据，在基于Transformer的编解码网络框架下，具体使用了包含时序自注意力模块和空间交叉自注意力模块的编码网络，以及使用了包含自注意力模块和交叉注意力模块的解码网络，不仅通过引入的时序自注意力机制有效提升了对运动物体的检测效果，还通过引入的空间交叉自注意力机制有效提升了对目标检测的准确性，而基于使用的Transformer架构还得以构建了鸟瞰视角特征之间的远距离依赖关系，得以实现了更好的检测效果。

而本实施例提供的目标检测方案通过使用上述构建得到目标检测模型来检测实际三维点云数据中各目标的位置信息，得以实现更高的检测准确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开可以应用于其中的示例性系统架构；

图2为本公开实施例提供的一种目标检测模型构建方法的流程图；

图3为本公开实施例提供的一种另一种目标检测模型构建方法的流程图；

图4为本公开实施例提供的一种训练样本在编解码网络中各模块之间的流转流程图；

图5为本公开实施例提供的一种目标检测方法的流程图；

图6为本公开实施例提供的另一种目标检测方法的流程图；

图7为本公开实施例提供的一种具体的数据处理流转示意图；

图8为本公开实施例提供的一种目标检测模型构建装置的结构框图；

图9为本公开实施例提供的一种目标检测装置的结构框图；

图10为本公开实施例提供的一种适用于执行目标检测模型构建方法和/或目标检测方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图1示出了可以应用本申请的用于训练人脸识别模型以及识别人脸的方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括多辆自动驾驶车辆101，网络102和服务器103。自动驾驶车辆上101上架设有三维激光扫描仪，以便于扫描得到车辆行驶周围的三维点云数据，网络102用以在自动驾驶车辆1013和服务器103之间提供通信链路的介质，网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用自动驾驶车辆101通过网络102与服务器103交互，以接收或发送消息等。自动驾驶车辆101和服务器103上可以安装有各种用于实现两者之间进行信息通讯的应用，例如目标检测类应用、模型调用类应用、模型构建类应用等。

自动驾驶车辆101和服务器103通常都是不同类型的硬件设备，特殊的，在仿真场景下也可以是软件或软件的虚拟产物。

服务器103通过内置的各种应用可以提供各种服务，以可以为自动驾驶车辆101提供行驶时的实时目标检测服务的目标检测类应用为例，服务器103在运行该目标检测类应用时可实现如下效果：首先，通过网络102获取目标自动驾驶车辆101上架设的三维激光扫描仪对车辆行驶周围扫描得到的实际三维点云数据；然后，将该实际三维点云数据作为输入数据输入目标检测模型，得到该目标检测模型输出的对该实际三维点云数据中包含的各目标的三维位置的标注信息。

其中，目标检测模型可由服务器103上内置的模型构建类应用按如下步骤训练得到：首先，通过网络102获取从鸟瞰视角对车辆行驶周围扫描得到的样本三维点云数据，以及对该样本三维点云数据中所包含目标的三维位置的标注信息；接着，利用预设的特征提取模型提取样本三维点云数据中的特征，得到三维点云特征图；下一步，将基于三维点云特征和标注信息构成的训练样本，依次通过包含有时序自注意力模块和空间交叉自注意力模块的编码网络和包含有自注意力模块和交叉注意力模块的解码网络进行训练，得到满足训练结束条件的编码网络和解码网络；最后，基于该特征提取网络、满足该训练结束条件的编码网络和解码网络，构建得到目标检测模型。

由于为训练得到目标检测模型需要占用较多的运算资源和较强的运算能力，因此本申请后续各实施例所提供的目标检测模型构建方法一般由拥有较强运算能力、较多运算资源的服务器103来执行，相应地，目标检测模型构建装置一般也设置于服务器103中。但同时也需要指出的是，在自动驾驶车辆101上设置的车载终端也具有满足要求的运算能力和运算资源时，车载终端也可以通过其上安装的目标检测模型构建类应用完成上述本交由服务器103做的各项运算，进而输出与服务器103同样的结果。相应的，目标检测模型构建装置也可以设置于车载终端中。在此种情况下，示例性系统架构100也可以不包括服务器103和网络102。

当然，用于训练得到目标检测模型的服务器可以不同于调用训练好的目标检测模型来使用的服务器。特殊的，经由服务器103训练得到的目标检测模型也可以通过模型蒸馏的方式得到适合置入车载终端的轻量级的目标检测模型，即可以根据实际需求的识别准确度灵活选择使用车载终端中的轻量级的目标检测模型，还是选择使用服务器103中的较复杂的目标检测模型。即在实际场景下仅需要借助车载终端上的轻量级的目标检测模型就可以满足所需准确度和识别速度的目标检测需求的情况下，示例性系统架构也可以不包括服务器103和网络102

应该理解，图1中的自动驾驶车辆、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的自动驾驶车辆、网络和服务器。

请参考图2，图2为本公开实施例提供的一种目标检测模型构建方法的流程图，其中流程200包括以下步骤：

步骤201：获取从鸟瞰视角对车辆行驶周围扫描得到的样本三维点云数据，以及对样本三维点云数据中所包含目标的三维位置的标注信息；

本步骤旨在由目标检测模型构建方法的执行主体(例如图1所示的服务器103)获取从鸟瞰视角对车辆行驶周围扫描得到的样本三维点云数据，以及对样本三维点云数据中所包含目标的三维位置的标注信息。

其中，该样本三维点云数据可以由架设在自动驾驶车辆车顶上的三维激光扫描仪在车辆行驶时对其车辆行驶周围进行扫描得到，也可以由跟随地面车辆同步行进的低空无人机上架设的三维激光扫描仪对车辆行驶周围进行扫描得到，进而充分利用高度信息得到鸟瞰视角下的三维点云数据。而标注信息则是由标注对象(可以是标注人员也可以是经训练之后具备符合要求的标注能力的自动标注模型)对样本三维点云数据中所包含的各类型目标所处的三维位置进行的标注，例如三维标定框。

步骤202：利用预设的特征提取模型提取样本三维点云数据中的特征，得到三维点云特征图；

在步骤201的基础上，本步骤旨在利用预设的特征提取模型提取样本三维点云数据中的特征，得到三维点云特征图，也可以将其称为BEV特征图。

步骤203：将基于三维点云特征和标注信息构成的训练样本，依次通过包含有时序自注意力模块和空间交叉自注意力模块的编码网络和包含有自注意力模块和交叉注意力模块的解码网络进行训练，得到满足训练结束条件的编码网络和解码网络；

在步骤202的基础上，本步骤旨在由上述执行主体基于三维点云特征图和标注信息构成训练样本，即三维点云特征图作为样本输入、标注信息则作为样本期望输出，然后再将该训练样本依次通过编码网络和解码网络进行训练，得到满足训练结束条件的编码网络和解码网络。

需要说明的是，该编码网络中包含有时序自注意模块和空间交叉自注意力模块，以分别关注输入的数据在时序层面的关联和空间层面的关联；而为了匹配该编码网络中的模块设置，该解码网络中也包含有自注意力模块的交叉注意力模块。

其中，自注意力(Self-Attention)和交叉注意力(Cross-Attention)是在深度学习中应用于序列处理和语言建模的关键机制，而时序自注意模块和空间交叉自注意模块则是在时序和空间上应用自注意机制的变体。下述将对本步骤提到的几种注意力机制进行详细说明：

1)自注意力机制：

自注意力机制允许输入序列中的每个元素都与序列中的其他元素相互作用，以动态地计算元素的权重。它的工作原理如下：

输入：一个序列(可以是文本、时间序列等)表示为一组向量(X＝{x_1,x_2,...,x_n})，其中(n)是序列的长度；

权重计算：对于序列中的每个位置(i)，计算与该位置相关的权重。这是通过将每个位置的输入向量与所有其他位置的输入向量进行点积得到的。这形成了一个权重分布，表示了不同位置对于当前位置的重要性；

加权求和：使用计算得到的权重对所有位置的输入向量进行加权求和，以得到当前位置的输出表示；

数学表达：对于位置(i)的输出表示(y_i)，计算方式为：

[y_i＝\sum_{j＝1}^{n}\text{Attention}(x_i,x_j)\cdot x_j]，

其中，(y_i)表示在位置(i)的输出表示，即模型在当前位置的输出；(\sum_{j＝1}^{n})表示求和符号(j)从(1)加到(n)，(n)是序列的长度，即对序列中的每个位置(j)进行操作；(\text{Attention}(x_i,x_j))表示注意力函数，它计算位置(i)的输入(x_i)和位置(j)的输入(x_j)之间的注意力权重；(\cdot)表示乘法操作；(x_j)表示位置(j)的输入表示，即模型在位置(j)的输入。

即该表达式描述了在Transformer架构中，自注意力机制对位置(i)的输出(y_i)是通过对序列中每个位置(j)的输入(x_j)进行加权求和，其中权重由位置(i)的输入(x_i)和位置(j)的输入(x_j)之间的注意力函数决定。

自注意力模块的关键优势在于它能够处理变长的输入序列，并且能够捕捉输入序列中不同位置之间的依赖关系。

2)交叉注意力机制：

交叉注意力模块是自注意力的一种扩展，它用于处理两个不同序列之间的关系。通常用于处理序列到序列的任务，例如机器翻译。工作原理如下：

输入：两个不同的序列(X＝{x_1,x_2,...,x_m})和(Y＝{y_1,y_2,...,y_n})；

权重计算：对于序列(X)中的每个位置(i)，计算它与序列(Y)中所有位置的权重。这与自注意力类似，但这里的权重计算是跨两个序列进行的；

加权求和：使用计算得到的权重对序列(Y)中的所有位置的输入向量进行加权求和，以得到序列(X)中每个位置的输出表示；

数学表达：对于位置(i)的输出表示(y_i)，计算方式为：

[y_i＝\sum_{j＝1}^{n}\text{Attention}(x_i,y_j)\cdot y_j]，其中，(y_i)表示在位置(i)的输出表示，即模型在当前位置的输出；(\sum_{j＝1}^{n})则表示求和符号，(j)从(1)加到(n)，(n)是序列的长度，即对序列中的每个位置(j)进行操作；(\text{Attention}(x_i,y_j))表示注意力函数，它计算位置(i)的输入(x_i)和位置(j)的输出(y_j)之间的注意力权重；(\cdot)表示乘法操作；(y_j)表示位置(j)的输出表示，即模型在位置(j)的输出。该表达式描述了在Transformer架构中，交叉注意力机制是对位置(i)的输出(y_i)是通过对序列中每个位置(j)的输出(y_j)进行加权求和，其中权重由位置(i)的输入(x_i)和位置(j)的输出(y_j)之间的注意力函数决定。

3)时序自注意机制：

时序自注意模块是自注意力模块的一个变体，专门用于处理时序数据(例如时间序列)，它在时间维度上进行自注意力操作。

输入：时序数据表示为一系列时间步的向量序列；

权重计算和加权求和：与自注意力类似，但是仅在时间维度上进行，使模型能够学习时间上的依赖关系。

4)空间交叉自注意机制：

空间交叉自注意模块是交叉注意力模块的一个变体，专门用于处理空间维度上的数据，例如图像、特征图等。

输入：由空间上相邻的位置组成的图像表示；

权重计算和加权求和：与交叉注意力类似，但是仅在空间维度上进行，以便捕捉图像中不同位置之间的关系。

本实施例通过将上述各注意力机制合理的应用在计算机视觉和时间序列任务中，得以充分利用它们能够有效地捕捉不同位置之间的关系的能力，以尽可能的提高模型对目标检测任务的表现。

步骤204：基于特征提取网络、满足训练结束条件的编码网络和解码网络，构建得到目标检测模型。

在步骤203的基础上，本步骤旨在由上述执行主体基于特征提取网络、满足训练结束条件的编码网络和解码网络这三个主要部分，共同构建得到用于对鸟瞰视角下的三维点云数据进行三维目标检测的目标检测模型。

本公开实施例提供的目标检测模型构建方法，在基于Transformer(一种深度学习架构，特别适用于处理存在时序关联的序列数据)的编解码网络框架下，具体使用了包含时序自注意力模块和空间交叉自注意力模块的编码网络，以及使用了包含自注意力模块和交叉注意力模块的解码网络，不仅通过引入的时序自注意力机制有效提升了对运动物体的检测效果，还通过引入的空间交叉自注意力机制有效提升了对目标检测的准确性，而基于使用的Transformer架构还得以构建了鸟瞰视角特征之间的远距离依赖关系，得以实现了更好的检测效果。

请参考图3，图3为本公开实施例提供的另一种目标检测模型构建方法的流程图。其中流程300包括以下步骤：

步骤301：获取从鸟瞰视角对车辆行驶周围扫描得到的样本三维点云数据，以及对样本三维点云数据中所包含目标的三维位置的标注信息；

步骤302：将样本三维点云数据通过预设的多尺度信息提取网络提取多尺度信息，得到多尺度特征；

在步骤301的基础上，本步骤旨在由上述执行主体将样本三维点云数据通过预设的多尺度信息提取网络提取多尺度信息，以得到多尺度特征。

本步骤之所以要提取多尺度信息，是考虑到在车辆行驶周围经常会出现尺寸差异不同的多类型目标，例如较大尺寸的交通信号设置、其它车辆、尺寸相对较小的自行车、行人、尺寸最小的锥桶等目标，而固定尺度的特征很难兼顾对不同尺寸目标的识别准确性，因此通过提取得到多种尺寸的特征，以能够从不同尺寸的特征中尽可能的提取出清晰的各种尺寸的目标的相关信息。

提取多尺度信息是目标检测等计算机视觉任务中的重要考虑因素，因为不同大小的目标可能出现在图像中。以下是一些常用的网络或模型，它们能够有效地提取多尺度信息：

Feature Pyramid Network(FPN，特征图金字塔网络)，是一种广泛应用于目标检测任务的网络结构。它通过在不同层级的特征图上构建金字塔形的结构，使得网络能够同时关注低级和高级特征，从而提取多尺度信息；

Spatial Pyramid Pooling(SPP，空间金字塔池化模型)，是一种池化层的结构，它允许网络对输入图像的不同部分采用不同大小的池化核。这使得网络能够在多个尺度上对特征进行抽样，提高了多尺度信息的获取能力；

DeepLabv3，是一种语义分割模型，其中使用了空洞卷积(Dilated Convolution)来扩大感受野，从而捕捉不同尺度的信息。这对于语义分割任务同样适用于目标检测，因为两者都需要全局和局部信息的结合；

YOLOv4,YOLOv5，YOLO系列的目标检测模型(You Only Look Once，中文直译为：你只需要看一次)通常采用单一的神经网络，同时在多个尺度上预测目标边界框。这种设计使得模型能够在单一前向传播中处理不同尺度的信息；

EfficientNet，是一系列高效的卷积神经网络结构，它通过缩放网络的宽度、深度和分辨率，实现了在多个尺度上提取信息的能力；

HRNet(High-Resolution Network，高分辨率网络)，专注于保持高分辨率的特征图，通过在不同分辨率的特征图之间进行联合处理，有效地捕捉多尺度信息；

UNet，结构在语义分割任务中常见，它通过编码和解码的结构，在不同层级上进行信息的传递，使得网络能够理解和还原不同尺度的特征。

这些网络或模型的设计原理旨在通过不同的机制(金字塔结构、池化、空洞卷积等)来获取图像的多尺度信息，以提高对不同尺度目标的检测能力。在实际应用中，选择合适的模型取决于任务的特性、计算资源的可用性以及性能要求。

而为了尽可能的减少不必要的运算量，本实施例在多尺度特征具体表现为多种尺寸的特征图时，还进一步的设置不同尺寸的特征图仅用于预测唯一具有匹配尺寸的目标、且不同尺寸的特征图所检测的匹配尺寸互不相同，例如设置分辨率最低、尺寸最小的特征图仅用于预测具有最大尺寸的目标(例如交通信号灯和大型车辆)；设置分辨率最高、尺寸最大的特征图仅用于预测具有最小尺寸的目标(例如设置在路面上的锥桶)；设置分辨率介于最低和最高之间、尺寸介于最小和最大之间的特征图仅用于预测具有介于最大尺寸和最小尺寸之间的目标(例如自行车、行人和小型车辆)，以避免各种尺寸的特征图均用于预测所有尺寸的目标所带来的不必要运算。

步骤303：将基于多尺度特征和标注信息构成的训练样本，依次通过编码网络和解码网络进行训练，得到满足训练结束条件的编码网络和解码网络；

在步骤302的基础上，本步骤旨在由上述执行主体将基于多尺度特征和标注信息构成的训练样本，依次通过该编码网络和该解码网络进行训练，得到满足训练结束条件的编码网络和解码网络。

与步骤203的区别在于当前步骤输入的训练样本是由多尺度特征和标注信息构成的。

步骤304：基于多尺度信息提取网络、满足训练结束条件的编码网络和解码网络，构建得到目标检测模型。

在步骤303的基础上，本步骤旨在由上述执行主体基于多尺度信息提取网络、满足训练结束条件的编码网络和解码网络这三个主要部分，共同构建得到用于对鸟瞰视角下的三维点云数据进行三维目标检测的目标检测模型。

相较于图2所示的流程200，本实施例额外引入了多尺度信息提取的方案，以期通过使用多尺度特征图和配套的目标预测方式来提升目标检测模型对不同尺寸目标的预测准确性和尽可能的减少不必要的运算。

进一步的，为了加深对训练样本是具体如何在编码网络和解码网络中流转过程的理解，本实施例还通过图4示出了一种具体的流转过程，其流程400包括如下步骤：

步骤401：将训练样本中的位于当前帧之前的上一帧多尺度特征和当前帧需求，输入编码网络中的时序自注意力模块进行时序加权处理，得到输出的第一处理后特征；

其中，当前帧需求是对原始英文：当前帧BEV Query的中文翻译，用于指代当前帧BEV特征的相关信息。

步骤402：将第一处理后特征和上一帧多尺度特征输入编码网络中的空间交叉自注意力模块进行空间交叉加权处理，得到输出的第二处理后特征；

通过步骤401和步骤402可以看出，本实施例是先将当前帧需求和上一帧多尺度特征通过时序自注意模块进行时序加权处理，以得到经时序加权后、融合了上一帧信息的第一处理后特征，然后再将上一帧多尺度特征和第一处理后特征同时作为输入数据输入空间交叉自注意力模块进行空间交叉注意力，即通过对多种尺寸的特征图进行空间交叉的注意力模块，得以尽可能的融合不同尺寸、不同区域的图像特征信息，最终输出第二处理后特征。

步骤403：将第二处理后特征输入编码网络中的全连接层进行处理，得到输出的当前帧多尺度特征；

步骤404：将预先定义的预设数量的对象需求通过解码网络中的自注意力模块进行处理，得到输出的第三处理后特征；

步骤405：将第三处理后特征和当前帧多尺度特征通过解码网络中的交叉注意力模块进行处理，得到输出的第四处理后特征；

与编码网络中各功能模块的排列顺序相对应，解码网络中的自注意模块和交叉注意力模块也分别用于对输入的第三处理后特征进行时序上的处理和多尺度图像上的空间关联处理。

步骤406：将第四处理后特征输入解码网络中的全连接层进行处理，得到输出的当前帧处理后特征。

上述各实施例从各个方面阐述了如何训练得到目标检测模型，为了尽可能的从实际使用场景突出训练出的目标检测模型所起到的效果，本公开还具体提供了一种使用训练好的目标检测模型来解决实际问题的方案，一种目标检测方法可参见图4，其流程400包括如下步骤：

步骤401：获取目标自动驾驶车辆上架设的三维激光扫描仪对车辆行驶周围扫描得到的实际三维点云数据；

本步骤旨在由适合执行目标检测方法的主体(例如图1所示的自动驾驶车辆上101上设置的车载终端或与服务器105的组合)从三维激光扫描仪中获取对车辆行驶周围扫描得到的实际三维点云数据。

步骤402：将实际三维点云数据作为输入数据输入目标检测模型，得到目标检测模型输出的对实际三维点云数据中包含的各目标的三维位置的标注信息。

即本实施例通过将获取到的实际三维点云数据输入目标检测模型，进而得到目标检测模型输出的对实际三维点云数据中包含的各目标的三维位置的标注信息，例如三维标定框。

本实施例提供的目标检测方法，通过将目标检测模型具体应用在自动驾驶车辆上进行目标检测，不仅提升了对三维点云数据中包含目标的检测准确度，还尽可能的缩短了检测耗时，使得检测实时性更佳。

在图4所示实施例的基础上，本实施例还通过图5进一步提供了另一种目标检测方法，其流程500包括如下步骤：

步骤501：获取目标自动驾驶车辆上架设的三维激光扫描仪对车辆行驶周围扫描得到的实际三维点云数据；

步骤502：将实际三维点云数据作为输入数据输入目标检测模型，得到目标检测模型输出的对实际三维点云数据中包含的各目标的三维位置的标注信息；

步骤501-步骤502与步骤401-步骤402一致，此处不再赘述。

步骤503：根据对实际三维点云数据中包含的各目标的三维位置的标注信息，确定各目标的类型信息和属性信息；

在步骤502的基础上，本步骤旨在由上述执行主体根据对实际三维点云数据中包含的各目标的三维位置的标注信息，确定各目标的类型信息和属性信息。其中，类型信息用于确定目标的类型(例如车辆、行人、交通设施等)，属性信息则可以包括：目标的三维位置、运动状态等。

步骤504：根据各目标的类型信息和属性信息，调整目标自动驾驶车辆的期望行驶轨迹。

在步骤503的基础上，本步骤旨在由上述执行主体根据各目标的类型信息和属性信息，对目标自动驾驶车辆的原设定的行驶轨迹进行调整，以规避可能与原行驶轨迹冲突的各目标(例如对向行驶的其它车辆或突然出现的行人等)。

为加深理解，本公开还结合一个具体应用场景，给出了一种具体的实现方案，以下将对该实现方案中涉及的几个要点进行详细阐述：

1)处理点云，生成初始BEV特征

对于给定的点云范围和体素尺寸，将3维空间划分为2D(平面)BEV珊格图，每个珊格在高度方向上定义一个pillar。随后对于输入的点云进行体素化操作，具体来说是将所有点云投影到所有pillars中。

根据每个pillars中的点云，提取该pillar的N个特征，通过全连接层的进一步映射，获得每个pillar的高维度特征。最后将每个pillar的特征进行压缩，就得到了初始的BEV特征图[c,h,w]，其中h和w分别表示初始BEV特征图的高度和宽度，c表示每个BEV珊格的特征维度。

2)提取多尺度BEV特征(Multi-scale bev features)

使用2D Backbone对初始BEV进行处理，本实施例选用ResNet101(一种残差网络)提取BEV特征。随后Neck部分使用FPN提取多尺度信息，最终输出多尺度的BEV特征。

多尺度特征在图像检测中有着至关重要的作用，保证不同尺度目标的检测效果。但目前主流的点云目标检测网络仅在一个尺度的特征图上进行检测，多尺度信息的缺失导致对于不同尺度目标检测效果差异较大。例如：体素尺寸过大时，会导致小目标检测效果变差；体素尺寸过小时，会导致大目标检测效果变差。

针对上述问题，本实施例使用了多尺度的BEV特征检测方法，该算法有效融合了不同尺度的特征，使其对于不同尺度的目标都有更加鲁棒的检测效果，尤其是对于小目标。

3)点云的时序自注意力机制(Temporal self-attention)

为了融合历史帧的信息，提升对于移动物体的检测效果，本专利使用了时序自注意力机制(Temporal self-attention，TSA)，通过融合前后两帧的BEV Query特征，使模型获得历史信息。

首先，根据BEV珊格图的尺寸，生成当前帧的BEV Query[c,h,w]，此处BEV Query为可学习参数。随后根据实际点云范围得到每个BEV Query在lidar坐标系中的坐标，再根据前后两帧之间的位姿关系将当前帧的BEV Query投影到上一帧的BEV特征BEV_(t-1)上。将投影后的BEV Query作为新的Query，将特征BEV_(t-1)作为key/value，进行deformableself-attention，此时就获得了历史帧的信息。

计算公式如下所示：

其中，Qp表示在p＝(x,y)位置的BEV query，B’_(t-1)表示上一帧的BEV特征。

4)空间交叉自注意力机制(Spatial cross-attention)

空间交叉自注意力机制(Spatial cross-attention，简称SCA)将从当前帧的BEV特征中进行自注意力机制。具体来说，将上一层的TSA的输出作为Query，将FPN输出的多尺度BEV特征作为key/value，在多尺度中进行上下文信息的融合和长距离依赖关系的建立，是得每个BEV Query都能获得多尺度的、更加鲁棒、更加丰富的特征。

5)Encoder(编码)构建BEV Query之间的上下文关系

对于一个Encoder layer来说，首先使用上一帧BEV特征和当前帧的BEV Query进行TSA融合历史信息。随后使用TSA的输出作为query，FPN输出的多尺度特征图作为key/value，进行SCA融合多尺度的空间特征。最后经过全连接网络FFN再次映射，输出新的BEV特征。

Encoder部分共6个Encoder layer，最终输出包含历史信息、多尺度空间信息的BEV特征。

6)Decoder(解码)部分

Decoder部分和deformabledetr基本一致，首先定义N个Object Query(直译为对象需求)，并进行自注意力机制，Cross-attention则将上一层的Self-attention输出作为Query，将Encoder的输出作为key/value，进行交叉注意力机制。Decoder layer同样也有6层，最终输出N个Queries。

7)head检测部分

训练时，对于每个Object Queries，使用全连接层FFN输出：类别概率、目标尺寸、目标位置、目标朝向角、置信度。所有Object Queries的FFN网络共享权重。随后进行二分图匹配对gt和dt进行匹配，仅用于匹配成功的gt和dt计算损失。推理时，直接根据置信度和设定的阈值筛选dt，不需要进行NMS(Non Maximum Suppression，非极大值抑制)操作。

上述各要点部分可参见附图7中示出的各部分。

通过应用本实施例提供的目标检测算法，可具备如下优势：

1)针对缺乏多尺度信息导致的小目标检测效果差的问题，使用了基于FPN的多尺度BEV特征，并应用到Transformer Encoder的Cross attention中，融合多尺度信息后可提升对不同尺寸目标的检测效果；2)针对缺乏历史信息的问题，引入了时序自注意力机制，有效地结合了上一帧信息，提升对运动物体的检测效果；3)对于缺乏远距离上下文建模能力的问题，引入了Transformer架构，构建BEV特征之间的远距离依赖关系，获得更好的检测效果。

进一步参考图8和图9，作为对上述各图所示方法的实现，本公开分别提供了一种目标检测模型构建装置实施例和一种目标检测装置的实施例，目标检测模型构建装置实施例与图2所示的目标检测模型构建方法实施例相对应，目标检测装置实施例与图5所示的目标检测方法实施例相对应。上述装置具体可以应用于各种电子设备中。

如图7所示，本实施例的目标检测模型构建装置800可以包括：样本数据获取单元801、特征提取单元802、训练单元803、目标检测模型构建单元804。其中，样本数据获取单元801，被配置成获取从鸟瞰视角对车辆行驶周围扫描得到的样本三维点云数据，以及对样本三维点云数据中所包含目标的三维位置的标注信息；特征提取单元802，被配置成利用预设的特征提取模型提取样本三维点云数据中的特征，得到三维点云特征图；训练单元803，被配置成将基于三维点云特征和标注信息构成的训练样本，依次通过包含有时序自注意力模块和空间交叉自注意力模块的编码网络和包含有自注意力模块和交叉注意力模块的解码网络进行训练；目标检测模型构建单元804，被配置成基于特征提取网络、满足训练结束条件的编码网络和精简解码网络，构建得到目标检测模型。

在本实施例中，目标检测模型构建装置800中：样本数据获取单元801、特征提取单元802、训练单元803、目标检测模型构建单元804的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，特征提取单元802可以包括：

多尺度特征提取子单元，被配置成将样本三维点云数据通过预设的多尺度信息提取网络提取多尺度信息，得到多尺度特征；

对应的，训练单元803可以包括：

多尺度特征样本训练子单元，被配置成将基于多尺度特征和标注信息构成的训练样本，依次通过编码网络和解码网络进行训练。

在本实施例的一些可选的实现方式中，多尺度特征样本训练子单元被进一步配置成：

将训练样本中的位于当前帧之前的上一帧多尺度特征和当前帧需求，输入编码网络中的时序自注意力模块进行时序加权处理，得到输出的第一处理后特征；

将第一处理后特征和上一帧多尺度特征输入编码网络中的空间交叉自注意力模块进行空间交叉加权处理，得到输出的第二处理后特征；

将第二处理后特征输入编码网络中的全连接层进行处理，得到输出的当前帧多尺度特征；

将预先定义的预设数量的对象需求通过解码网络中的自注意力模块进行处理，得到输出的第三处理后特征；

将第三处理后特征和当前帧多尺度特征通过解码网络中的交叉注意力模块进行处理，得到输出的第四处理后特征；

将第四处理后特征输入解码网络中的全连接层进行处理，得到输出的当前帧处理后特征。

在本实施例的一些可选的实现方式中，多尺度特征提取子单元被进一步配置成：

将样本三维点云数据输入基于特征图金字塔网络的网络架构建立出的多尺度信息提取网络，得到输出的多尺度特征。

在本实施例的一些可选的实现方式中，目标检测模型构建装置800中还可以包括：

不同尺寸特征图预测设置单元，被配置成响应于多尺度特征具体为多种尺寸的特征图，设置不同尺寸的特征图仅用于预测唯一具有匹配尺寸的目标、且不同尺寸的特征图所检测的匹配尺寸互不相同。

在本实施例的一些可选的实现方式中，不同尺寸特征图预测设置单元被进一步配置成：

设置分辨率最低、尺寸最小的特征图仅用于预测具有最大尺寸的目标；

设置分辨率最高、尺寸最大的特征图仅用于预测具有最小尺寸的目标；

设置分辨率介于最低和最高之间、尺寸介于最小和最大之间的特征图仅用于预测具有介于最大尺寸和最小尺寸之间的目标。

在本实施例的一些可选的实现方式中，样本数据获取单元801可以包括被配置成获取从鸟瞰视角对车辆行驶周围扫描得到的样本三维点云数据的样本三维点云数据获取子单元，样本三维点云数据获取子单元被进一步配置成：

获取架设在自动驾驶车辆车顶上的三维激光扫描仪对车辆行驶周围扫描得到的样本三维点云数据。

如图9所示，本实施例的目标检测装置900可以包括：实际三维点云数据获取单元901、目标检测单元902。其中，实际三维点云数据获取单元901，被配置成获取目标自动驾驶车辆上架设的三维激光扫描仪对车辆行驶周围扫描得到的实际三维点云数据；目标检测单元902，被配置成将实际三维点云数据作为输入数据输入目标检测模型，得到目标检测模型输出的对实际三维点云数据中包含的各目标的三维位置的标注信息；其中，目标检测模型为根据目标检测模型构建装置800得到。

在本实施例中，目标检测装置900中：实际三维点云数据获取单元901、目标检测单元902的具体处理及其所带来的技术效果可分别对应方法实施例中的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，目标检测装置900中还包括：

类型及属性信息确定单元，被配置成根据对实际三维点云数据中包含的各目标的三维位置的标注信息，确定各目标的类型信息和属性信息；

期望行驶轨迹调整单元，被配置成根据各目标的类型信息和属性信息，调整目标自动驾驶车辆的期望行驶轨迹。

本实施例作为对应于上述方法实施例的装置实施例存在，本实施例提供的目标检测模型构建装置以及目标检测装置，针对从鸟瞰视角对车辆行驶周围扫描得到的三维点云数据，在基于Transformer的编解码网络框架下，具体使用了包含时序自注意力模块和空间交叉自注意力模块的编码网络，以及使用了包含自注意力模块和交叉注意力模块的解码网络，不仅通过引入的时序自注意力机制有效提升了对运动物体的检测效果，还通过引入的空间交叉自注意力机制有效提升了对目标检测的准确性，而基于使用的Transformer架构还得以构建了鸟瞰视角特征之间的远距离依赖关系，得以实现了更好的检测效果。进而通过使用上述构建得到目标检测模型来检测实际三维点云数据中各目标的位置信息，得以实现更高的检测准确率。

根据本公开的实施例，本公开还提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现上述任一实施例描述的目标检测模型构建方法和/或目标检测方法。

根据本公开的实施例，本公开还提供了一种可读存储介质，该可读存储介质存储有计算机指令，该计算机指令用于使计算机执行时能够实现上述任一实施例描述的目标检测模型构建方法和/或目标检测方法。

本公开实施例提供了一种计算机程序产品，该计算机程序在被处理器执行时能够实现上述任一实施例描述的目标检测模型构建方法的步骤和/或目标检测方法的步骤。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如目标检测模型构建方法和/或目标检测方法。例如，在一些实施例中，目标检测模型构建方法和/或目标检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的目标检测模型构建方法和/或目标检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标检测模型构建方法和/或目标检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷。

本公开实施例的技术方案，针对从鸟瞰视角对车辆行驶周围扫描得到的三维点云数据，在编解码网络的网络框架下，具体在解码网络中同时采用Anchor-Free算法和Anchor-Based算法同时分别计算损失，并同时使用分别计算出的损失作为损失函数一并更新解码网络的网络参数，而在得到满足训练结束条件的解码网络后，又通过删去其中与Anchor-Based算法对应的网络结构以仅保留Anchor-Free算法对应的网络结构，进而使得最终构建出的目标检测模型在保留了Anchor-Based算法所提供的预测准确率的同时又借助Anchor-Free算法具有较快的预测速度，进而得以提升对三维点云数据中包含目标的检测效果，更适合应用在自动驾驶车辆上。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种目标检测模型构建方法，包括：

获取从鸟瞰视角对车辆行驶周围扫描得到的样本三维点云数据，以及对所述样本三维点云数据中所包含目标的三维位置的标注信息；

利用预设的特征提取模型提取所述样本三维点云数据中的特征，得到三维点云特征；

将基于所述三维点云特征和所述标注信息构成的训练样本，依次通过包含有时序自注意力模块和空间交叉自注意力模块的编码网络和包含有自注意力模块和交叉注意力模块的解码网络进行训练，得到满足训练结束条件的编码网络和解码网络；

基于所述特征提取网络、满足所述训练结束条件的编码网络和解码网络，构建得到目标检测模型。

2.根据权利要求1所述的方法，其中，所述利用预设的特征提取模型提取所述样本三维点云数据中的特征，得到三维点云特征图，包括：

将所述样本三维点云数据通过预设的多尺度信息提取网络提取多尺度信息，得到多尺度特征；

对应的，所述将基于所述三维点云特征图和所述标注信息构成的训练样本，依次通过包含有时序自注意力模块和空间交叉自注意力模块的编码网络和包含有自注意力模块和交叉注意力模块的解码网络进行训练，包括：

将基于所述多尺度特征和所述标注信息构成的训练样本，依次通过所述编码网络和所述解码网络进行训练。

3.根据权利要求2所述的方法，其中，所述将基于所述多尺度特征和所述标注信息构成的训练样本，依次通过所述编码网络和所述解码网络进行训练，包括：

将所述训练样本中的位于当前帧之前的上一帧多尺度特征和当前帧需求，输入所述编码网络中的时序自注意力模块进行时序加权处理，得到输出的第一处理后特征；

将所述第一处理后特征和所述上一帧多尺度特征输入所述编码网络中的空间交叉自注意力模块进行空间交叉加权处理，得到输出的第二处理后特征；

将所述第二处理后特征输入所述编码网络中的全连接层进行处理，得到输出的当前帧多尺度特征；

将预先定义的预设数量的对象需求通过所述解码网络中的自注意力模块进行处理，得到输出的第三处理后特征；

将所述第三处理后特征和所述当前帧多尺度特征通过所述解码网络中的交叉注意力模块进行处理，得到输出的第四处理后特征；

将所述第四处理后特征输入所述解码网络中的全连接层进行处理，得到输出的当前帧处理后特征。

4.根据权利要求2所述的方法，其中，所述将所述样本三维点云数据通过多尺度信息提取网络提取多尺度信息，得到多尺度特征，包括：

将所述样本三维点云数据输入基于特征图金字塔网络的网络架构建立出的多尺度信息提取网络，得到输出的多尺度特征。

5.根据权利要求4所述的方法，其中，响应于所述多尺度特征具体为多种尺寸的特征图，还包括：

设置不同尺寸的特征图仅用于预测唯一具有匹配尺寸的目标、且不同尺寸的特征图所检测的匹配尺寸互不相同。

6.根据权利要求5所述的方法，其中，所述设置不同尺寸的特征图仅用于预测唯一具有匹配尺寸的目标、且不同尺寸的特征图所检测的匹配尺寸互不相同，包括：

设置分辨率介于所述最低和所述最高之间、尺寸介于所述最小和所述最大之间的特征图仅用于预测具有介于所述最大尺寸和所述最小尺寸之间的目标。

7.根据权利要求1-6任一项所述的方法，其中，所述获取从鸟瞰视角对车辆行驶周围扫描得到的样本三维点云数据，包括：

8.一种目标检测方法，包括：

获取目标自动驾驶车辆上架设的三维激光扫描仪对车辆行驶周围扫描得到的实际三维点云数据；

将所述实际三维点云数据作为输入数据输入目标检测模型，得到所述目标检测模型输出的对所述实际三维点云数据中包含的各目标的三维位置的标注信息；其中，所述目标检测模型为根据权利要求1-7任一项所述的目标检测模型构建方法得到。

9.根据权利要求8所述的方法，还包括：

根据对所述实际三维点云数据中包含的各目标的三维位置的标注信息，确定各目标的类型信息和属性信息；

根据各所述目标的类型信息和属性信息，调整所述目标自动驾驶车辆的期望行驶轨迹。

10.一种目标检测模型构建装置，包括：

样本数据获取单元，被配置成获取从鸟瞰视角对车辆行驶周围扫描得到的样本三维点云数据，以及对所述样本三维点云数据中所包含目标的三维位置的标注信息；

特征提取单元，被配置成利用预设的特征提取模型提取所述样本三维点云数据中的特征，得到三维点云特征图；

训练单元，被配置成将基于所述三维点云特征和所述标注信息构成的训练样本，依次通过包含有时序自注意力模块和空间交叉自注意力模块的编码网络和包含有自注意力模块和交叉注意力模块的解码网络进行训练；

目标检测模型构建单元，被配置成基于所述特征提取网络、满足所述训练结束条件的编码网络和精简解码网络，构建得到目标检测模型。

11.根据权利要求10所述的装置，其中，所述特征提取单元包括：

多尺度特征提取子单元，被配置成将所述样本三维点云数据通过预设的多尺度信息提取网络提取多尺度信息，得到多尺度特征；

对应的，所述训练单元包括：

多尺度特征样本训练子单元，被配置成将基于所述多尺度特征和所述标注信息构成的训练样本，依次通过所述编码网络和所述解码网络进行训练。

12.根据权利要求11所述的装置，其中，所述多尺度特征样本训练子单元被进一步配置成：

13.根据权利要求11所述的装置，其中，所述多尺度特征提取子单元被进一步配置成：

14.根据权利要求13所述的装置，还包括：

不同尺寸特征图预测设置单元，被配置成响应于所述多尺度特征具体为多种尺寸的特征图，设置不同尺寸的特征图仅用于预测唯一具有匹配尺寸的目标、且不同尺寸的特征图所检测的匹配尺寸互不相同。

15.根据权利要求14所述的装置，其中，所述不同尺寸特征图预测设置单元被进一步配置成：

16.根据权利要求10-15任一项所述的装置，其中，所述样本数据获取单元包括被配置成获取从鸟瞰视角对车辆行驶周围扫描得到的样本三维点云数据的样本三维点云数据获取子单元，所述样本三维点云数据获取子单元被进一步配置成：

17.一种目标检测装置，包括：

实际三维点云数据获取单元，被配置成获取目标自动驾驶车辆上架设的三维激光扫描仪对车辆行驶周围扫描得到的实际三维点云数据；

目标检测单元，被配置成将所述实际三维点云数据作为输入数据输入目标检测模型，得到所述目标检测模型输出的对所述实际三维点云数据中包含的各目标的三维位置的标注信息；其中，所述目标检测模型为根据权利要求1-7任一项所述的目标检测模型构建装置得到。

18.根据权利要求17所述的装置，还包括：

类型及属性信息确定单元，被配置成根据对所述实际三维点云数据中包含的各目标的三维位置的标注信息，确定各目标的类型信息和属性信息；

期望行驶轨迹调整单元，被配置成根据各所述目标的类型信息和属性信息，调整所述目标自动驾驶车辆的期望行驶轨迹。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的目标检测模型构建方法。

20.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求8或9所述的目标检测方法。

21.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的目标检测模型构建方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求8或9所述的目标检测方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1-7中任一项所述目标检测模型构建方法的步骤和/或权利要求8或9所述目标检测方法的步骤。