CN117746133A

CN117746133A - 目标检测方法、模型训练方法、装置、设备及存储介质

Info

Publication number: CN117746133A
Application number: CN202311764274.3A
Authority: CN
Inventors: 谭资昌; 杜金浩; 谭啸; 王井东
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-03-22

Abstract

本公开提供了目标检测方法、模型训练方法、装置、设备及存储介质，涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域，可应用于自动驾驶等场景。具体实现方案为：提取多视角图像的图像特征，对BEV空间中的预设参考点进行位置编码，得到初始化的稀疏查询，根据初始化的稀疏查询和图像特征确定输入数据，并将输入数据输入至Transformer网络的解码器，得到目标BEV特征，解码器用于对稀疏查询进行上采样，得到对应的密集查询，并基于图像特征对混合查询进行更新，更新后的混合查询用于确定目标BEV特征，基于目标BEV特征确定多视角图像的目标检测结果。

Description

目标检测方法、模型训练方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、深度学习、大模型等技术领域，可应用于自动驾驶等场景。

背景技术

多视角图像三维目标检测目前在许多领域和应用场景中都具有广泛的应用，如自动驾驶场景、智能交通场景、工业自动化、以及虚拟现实和增强现实场景等。多视角图像三维目标检测技术在提高物体检测的准确性和鲁棒性方面发挥着关键作用，推动着各个领域的智能化和自动化发展。

目前，基于深度学习的多视角图像三维目标检测技术已取得了一定的进展。

发明内容

本公开提供了一种目标检测方法、模型训练方法、装置、设备及存储介质。

根据本公开的一方面，提供了一种目标检测方法，包括：

提取多视角图像的图像特征，其中，所述多视角图像由不同视角的图像采集设备获取；

对鸟瞰视角BEV空间中的预设参考点进行位置编码，得到初始化的稀疏查询；

根据所述初始化的稀疏查询和所述图像特征确定输入数据，并将所述输入数据输入至Transformer网络的解码器，得到目标BEV特征；其中，所述解码器用于对所述稀疏查询进行上采样，得到对应的密集查询，并基于所述图像特征对混合查询进行更新，所述混合查询包括所述稀疏查询和所述密集查询，更新后的所述混合查询用于确定所述目标BEV特征；

基于所述目标BEV特征确定所述多视角图像的目标检测结果。

根据本公开的另一方面，提供了一种目标检测模型的训练方法，包括：

通过预设检测模型中的特征提取网络提取多视角样本图像的样本图像特征，其中，所述多视角样本图像由不同视角的图像采集设备获取；

根据所述初始化的稀疏查询和所述样本图像特征确定输入数据，并将所述输入数据输入至所述预设检测模型中的Transformer网络的解码器，得到目标BEV特征；其中，所述解码器用于对所述稀疏查询进行上采样，得到对应的密集查询，并基于所述样本图像特征对混合查询进行更新，所述混合查询包括所述稀疏查询和所述密集查询，更新后的所述混合查询用于确定所述目标BEV特征；

通过所述预设检测模型中的检测头基于所述目标BEV特征确定所述多视角样本图像的样本目标检测结果；

基于所述样本目标检测结果和所述多视角样本图像对应的样本标签计算损失关系，并基于所述损失关系对所述预设检测模型进行训练。

根据本公开的另一方面，提供了一种目标检测装置，包括：

图像特征提取模块，用于提取多视角图像的图像特征，其中，所述多视角图像由不同视角的图像采集设备获取；

位置编码模块，用于对鸟瞰视角BEV空间中的预设参考点进行位置编码，得到初始化的稀疏查询；

目标特征确定模块，用于根据所述初始化的稀疏查询和所述图像特征确定输入数据，并将所述输入数据输入至Transformer网络的解码器，得到目标BEV特征；其中，所述解码器用于对所述稀疏查询进行上采样，得到对应的密集查询，并基于所述图像特征对混合查询进行更新，所述混合查询包括所述稀疏查询和所述密集查询，更新后的所述混合查询用于确定所述目标BEV特征；

目标检测模块，用于基于所述目标BEV特征确定所述多视角图像的目标检测结果。

根据本公开的另一方面，提供了一种目标检测装置，包括：

样本图像特征提取模块，用于通过预设检测模型中的特征提取网络提取多视角样本图像的样本图像特征，其中，所述多视角样本图像由不同视角的图像采集设备获取；

编码模块，用于对鸟瞰视角BEV空间中的预设参考点进行位置编码，得到初始化的稀疏查询；

特征确定模块，用于根据所述初始化的稀疏查询和所述样本图像特征确定输入数据，并将所述输入数据输入至所述预设检测模型中的Transformer网络的解码器，得到目标BEV特征；其中，所述解码器用于对所述稀疏查询进行上采样，得到对应的密集查询，并基于所述样本图像特征对混合查询进行更新，所述混合查询包括所述稀疏查询和所述密集查询，更新后的所述混合查询用于确定所述目标BEV特征；

检测模块，用于通过所述预设检测模型中的检测头基于所述目标BEV特征确定所述多视角样本图像的样本目标检测结果；

训练模块，用于基于所述样本目标检测结果和所述多视角样本图像对应的样本标签计算损失关系，并基于所述损失关系对所述预设检测模型进行训练。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开实施例所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开任意实施例所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种目标检测方法的流程图；

图2是根据本公开实施例提供的一种查询传播过程示意图；

图3是根据本公开实施例提供的一种查询融合过程示意图；

图4是根据本公开实施例提供的另一种目标检测方法的流程图；

图5是根据本公开实施例提供的一种目标检测模型的结构示意图；

图6是根据本公开实施例提供的一种目标检测模型的训练方法的流程图；

图7是根据本公开实施例提供的一种目标检测装置的结构示意图；

图8是根据本公开实施例提供的一种目标检测模型的训练装置的结构示意图；

图9是用来实现本公开实施例的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了便于理解本公开实施例的技术方案，下面对相关技术进行介绍。

人类通过视觉、听觉和触觉来感知三维世界。为了提高各种应用场景中的感知模型的性能，让其具备3D感知能力是很重要的。以自动驾驶场景为例，为了保障自动驾驶汽车的安全驾驶，对于车辆的精确定位以及环境的精准感知的要求越来越高，使自动驾驶功能具备3D感知能力，能够有效提升车辆的感知能力的精准性，提高自动驾驶安全性。然而，目前的3D传感器，如激光雷达和雷达，价格昂贵，对天气条件敏感，限制了它们的应用范围，此外，这些传感器缺乏捕捉语义(如颜色)的能力。因此，多视角图像三维目标检测技术具有更加广阔的应用前景。

目前，多视角图像三维目标检测在许多领域和应用场景中都具有广泛的应用。以下是一些常见的应用场景：(1)自动驾驶场景，多视角图像三维目标检测在自动驾驶领域中是至关重要的，通过利用车辆周围多个摄像头的图像信息，系统可以更准确地感知周围环境中的行人、车辆以及道路标识等物体，从而实现更安全和高效的自动驾驶；(2)智能交通场景，在城市交通监控系统中，多视角图像三维目标检测可以用于实时监测道路上的车流、行人和其他交通参与者，有助于改善交通流畅性，提高交通安全性，并支持城市规划和管理；(3)工业自动化场景，在工业环境中，多视角图像三维目标检测可用于监测和管理生产线上的物体、设备和人员，有助于提高生产效率，减少事故风险，并进行智能化的工厂管理；(4)安防监控场景，在安防领域，多视角图像三维目标检测可以帮助监测关键区域，识别异常行为并及时做出响应，具体可以应用于公共场所、商业区域以及机场等地方，提高安全性；(5)虚拟现实和增强现实场景，在虚拟现实和增强现实应用中，多视角图像三维目标检测有助于更真实地渲染虚拟场景，并与真实世界进行更精确的互动，可以应用于游戏、培训仿真和虚拟导航等领域。

基于深度学习的多视角图像三维目标检测方法中，一个关键的方面是通过适当地与相机特征(包括多视角图像的图像特征)交互来获得有效的查询(query)表征，如何得到高效而精确的查询表征成为准确检测三维对象的关键所在，鉴于图像缺乏深度信息，现有方法在获得精确的查询表征方面依然面临巨大挑战。本公开实施例中，通过构建包含稀疏查询和密集查询的混合查询，充分挖掘多视图信息，实现学习增强的查询表征，进而提升目标检测的准确性，可为自动驾驶等各种场景的技术演进提供有力支持。

图1是根据本公开实施例提供的一种目标检测方法的流程图，本公开实施例可适用于自动驾驶场景、智能交通场景、工业自动化、以及虚拟现实和增强现实场景等场景中基于多视角图像进行三维目标检测的情况。该方法可由一种目标检测装置来执行，该装置可采用硬件和/或软件的方式来实现，可配置于电子设备中。参考图1，该方法具体包括如下：

S101、提取多视角图像的图像特征，其中，所述多视角图像由不同视角的图像采集设备获取；

S102、对鸟瞰视角BEV空间中的预设参考点进行位置编码，得到初始化的稀疏查询；

S103、根据所述初始化的稀疏查询和所述图像特征确定输入数据，并将所述输入数据输入至Transformer网络的解码器，得到目标BEV特征；其中，所述解码器用于对所述稀疏查询进行上采样，得到对应的密集查询，并基于所述图像特征对混合查询进行更新，所述混合查询包括所述稀疏查询和所述密集查询，更新后的所述混合查询用于确定所述目标BEV特征；

S104、基于所述目标BEV特征确定所述多视角图像的目标检测结果。

其中，多视角图像由不同视角的图像采集设备获取，图像采集设备具体可以是相机或摄像头，对于不同的应用场景可以有针对性地设定图像采集设备的安装数量及位置等。例如，对于自动驾驶应用场景，安装在自动驾驶车辆上的不同位置的相机，这些相机分别从各自的视角进行拍摄，获取不同视角的车辆周围的图像。

本公开实施例中，多视角图像的图像特征的提取方式不做限定，例如可采用目标检测模型中的特征提取网络来提取多视角图像的图像特征。特征提取网络的具体类型和网络结构等不做限定。例如，可以通过骨干网络(backbone)提取多视角图像的图像特征；还可以通过骨干网络和特征金字塔网络(Feature Pyramid Network，FPN)提取多视角图像的多尺度的图像特征，所提取的图像特征可以包括多个特征层。

鸟瞰视角(Bird’s Eye View，BEV)是一种从上方观看对象或场景的视角，BEV能够将复杂的三维环境简化为二维图像，这对于在实时系统中进行高效的计算尤其重要。本公开实施例中的查询可以是基于BEV的查询，简称BEV查询、查询特征或查询，可以为向量形式，查询可以包含可解释的物理含义，例如每一个查询可以用于表征一个3D空间中的物体，其中，每个查询与一个与真实世界中的3D位置相关的参考点关联，在BEV空间预先设置一些参考点，记为预设参考点，通过对预设参考点进行位置编码(Positional Encoding，PE)，得到初始化的稀疏查询。

本公开实施例中，目标检测方法基于转换器(Transformer)网络实现。Transformer网络中一般包括编码器和解码器，本公开实施例中的Transformer网络可以包括编码器和解码器，也可以仅包括解码器。对于仅包括解码器的实现方式，可将初始化的稀疏查询和图像特征作为输入数据输入解码器中，该实现方式经过实验证实，可在有效保证检测效果的同时减少计算量，提高目标检测效率；对于包括编码器和解码器的实现方式，可以先将图像特征输入编码器，再将编码器的输出和初始化的稀疏查询作为所确定的输入数据，并输入至解码器中。

本公开实施例中，对解码器的具体网络结构不做限定，可以在目标检测转换器(Detection Transformer，DETR)基础上进行改进得到。其中，DETR是一种基于Transformer架构的端到端目标检测模型，与传统的目标检测方法不同，DETR不再使用锚框(anchorboxes)或者候选区域(region proposals)来进行目标检测，而是通过直接将图像整体输入到Transformer中，同时输出目标的类别和位置信息(如边界框)。

示例性的，可以在解码器中设置用于对稀疏查询进行上采样的网络，如记为查询传播网络或查询传播模块，利用查询传播网络可以沿着预设方向(如x轴方向和/或y轴方向)对稀疏查询进行上采样，得到对应的密集查询，该上采样操作可以理解为在预设方向上的密集传播。在得到密集查询后，将密集查询和稀疏查询作为混合查询，同时应用于与图像特征的交互，例如根据密集查询和稀疏查询分别预测的位置从图像特征中的对应位置进行采样，并根据采样结果对密集查询和稀疏查询分别进行更新。经过上采样后得到的密集查询相比于稀疏查询具有更高的分辨率，从而可以适应于小分辨率的物体，利于确定更加密集的采样点，进而从图像特征中学习到更加丰富的特征，使得混合查询能够更加全面地与图像特征进行交互。

示例性的，更新后的混合查询可经过处理后，得到目标BEV特征，供解码器进行输出，其中，具体处理方式不做限定，例如可以经过线性层处理，如该线性层例如可以为前馈层(Feed-Forward Layer，FFL)，又如可经过融合处理等。

示例性的，可以将目标BEV特征输入检测头(prediction heads)中，由检测头输出目标的类别和边界框，作为多视角图像的目标检测结果。

本公开实施例提供的目标检测方法，提取多视角图像的图像特征，对BEV空间中的预设参考点进行位置编码，得到初始化的稀疏查询，根据初始化的稀疏查询和图像特征确定输入数据，并将输入数据输入至Transformer网络的解码器，得到目标BEV特征，其中，解码器用于对稀疏查询进行上采样，得到对应的密集查询，并基于图像特征对混合查询进行更新，混合查询包括稀疏查询和密集查询，更新后的混合查询用于确定目标BEV特征，基于目标BEV特征确定多视角图像的目标检测结果。通过采用上述技术方案，对BEV空间的预设参考点进行位置编码得到初始化的稀疏查询，通过对稀疏查询进行上采样得到密集查询，基于包含稀疏查询和密集查询的混合查询实现查询的表征能力增强，充分挖掘多视图信息，实现学习增强的查询表征，进而提升不同大小分辨率物体的检出率和准确性，也即提高多视角图像三维目标检测的准确度，可为自动驾驶等各种场景的技术演进提供有力支持。

在一种可选实施方式中，解码器可以包含多个解码器层，例如6层。每个解码器层可包括自注意力网络、查询传播网络、交叉注意力网络和前向网络等。通过多个解码器层对查询迭代地进行注意力机制与图像特征进行交互。例如，对于第一个解码器层，输入的稀疏查询为初始化的稀疏查询，第一个解码器层输出的BEV特征可记为中间BEV特征，对于第二个解码器层至最后一个解码器层，输入的稀疏查询为上一个解码器层输出的中间BEV特征，最后一个解码器层输出的BEV特征为目标BEV特征。

在一种可选实施方式中，所述预设参考点为均匀固定在所述BEV空间中的预设网格中的参考点。这样设置的好处在于，参考点被固定并均匀排列在BEV空间中，相当于每个查询从一开始就对应一个固定的3D位置，而并非在学习过程中不断变换学习位置，本公开技术方案可以使得每个基于网格的BEV查询更容易感知3D空间信息，也即使得学习位置关系变得容易，提高运算效率。

本公开实施例中，预设网格的数量以及尺寸等不做限定。例如，预设网格可以为30*30的网格，平铺到原点(如根据自动驾驶车辆所在位置确定)的横向-100米到100米，纵向-50米到50米的区域范围内，每个预设网格的中心点作为预设参考点。

示例性的，与可学习的参考点方案相比，本公开实施例为基于网格的初始的查询提供准确的位置，也即为网络学习提供了良好的先验信息。记稀疏查询为Qs，初始化的稀疏查询为EQ，Qs由在网格中排列的查询嵌入初始化，如EQ＝PE(Ps)，其中，Ps∈Ws×Hs×2表示固定的参考点，也即预设参考点。PE表示位置编码，Ws表示x轴方向的网格数，Hs表示y轴方向的网格数，每个参考点用BEV坐标表示，×2表示具体的坐标位置(x和y)。

在一种可选实施方式中，所述解码器还用于对稀疏参考点进行上采样，得到密集参考点，所述稀疏参考点通过在所述预设参考点的竖直方向添加预设数量的点后得到，针对所述稀疏参考点的上采样密度与针对所述稀疏查询的上采样密度相同；其中，所述基于所述图像特征对混合查询进行更新，包括：根据混合查询确定对应的目标参考点，其中，所述目标参考点从所述稀疏参考点和所述密集参考点中确定；根据所述图像采集设备的内参和外参确定所述目标参考点在所述图像特征中的目标采样点；利用所述目标采样点对所述图像特征进行采样，得到采样结果，并利用采样结果对所述混合查询进行更新。这样设置的好处在于，在预设参考点的竖直方向添加预设数量的点后得到3D空间的稀疏参考点，并对稀疏参考点进行同步的上采样，从而利用稀疏参考点和密集参考点能够根据查询预测的位置到图像特征中进行更加丰富的特征采样。

示例性的，混合查询中的每个稀疏查询和每个密集查询均可以预测一个3D物体中心点，该3D物体中心点是从稀疏参考点和密集参考点中选取的，例如，稀疏查询从稀疏参考点中选出参考点作为一个3D物体中心点，记为稀疏查询对应的目标参考点，密集查询从密集参考点中选出参考点作为一个3D物体中心点，记为密集查询对应目标参考点。在各目标参考点基础上，根据图像采集设备的内参和外参确定各目标参考点在图像特征中投影得到的目标采样点，例如，根据相机的内参和外参确定3D到2D投影矩阵，利用该投影矩阵将各目标参考点投影到多视角图像空间，得到目标采样点，进而利用目标采样点对图像特征进行采样，以利用采样结果对混合查询中的稀疏查询和密集查询分别进行更新。也即利用稀疏查询对应的目标参考点对应的采样结果对稀疏查询进行更新，得到更新后的稀疏查询；利用密集查询对应的目标参考点对应的采样结果对密集查询进行更新，得到更新后的密集查询。

图2是根据本公开实施例提供的一种查询传播过程示意图，示出了查询传播网络(Query Propagation Module)的工作过程，在z轴方向添加预设数量的点后得到的稀疏参考点记为Ps∈R^Ws×Hs×4×3，对于3D参考点(3D Reference Points)，Ps经过查询传播(QueryPropagation)实现沿着x轴和y轴方向进行上采样后得到密集参考点，记为Pd＝upsampling(Ps)，其中Pd∈R^Wd×Hd×4×3是密集的基于网格的参考点分布，其中，Wd表示上采样后x轴方向的网格数，Hd表示上采样后y轴方向的网格数，R指维度空间，Ps和Pd汇总为P_3d。对于查询，稀疏查询记为Qs∈R^Ws×Hs×C，其中，C表示通道(channel)数，Qs经过查询传播(QueryPropagation)实现沿着x轴和y轴方向进行上采样后得到密集查询，记为Q_d＝upsampling(Qs)，Qd∈R^Wd×Hd×X，Qs和Q_d汇总为混合查询Q，可记为Q_q。

在一种可选实施方式中，所述根据混合查询确定对应的目标参考点，包括：根据混合查询确定预测参考点，其中，所述预测参考点从所述稀疏参考点和所述密集参考点中确定；采用线性层对所述混合查询进行处理，以生成三维偏移；根据所述预测参考点和所述三维偏移确定对应的目标参考点。这样设置的好处在于，在查询预测的参考点基础上增加3D偏移，从而能够在多视图图像特征中采样更多点，为查询学习提供更加丰富的信息，可以在交叉注意力层中有助于获取更可靠和准确的多视角图像的特征。

示例性的，编码器中包含多个编码器层，使得混合查询可以迭代的基于注意力机制与多视图图像进行交互，因此，混合查询中可以包含感兴趣的物体的丰富的3D信息，如位置、大小和方向等，可直接通过对混合查询本身应用线性层来生成3D偏移。

例如，3D偏移可表示为：Δ_3d＝Linear(Q_q)。

基于3D偏移，目标采样点可表示为P_2d＝K·(P_3d+Δ_3d)。

其中，P_3d表示根据混合查询确定的预测参考点，K表示根据相机的内参和外参的3D到2D投影矩阵。

在一种可选实施方式中，所述利用所述目标采样点对所述图像特征进行采样，得到采样结果，并利用所述采样结果对所述混合查询进行更新，包括：通过可变形多头交叉注意力网络，利用所述目标采样点对所述图像特征进行采样，得到采样结果，并将所述采样结果添加至所述混合查询中，以对所述混合查询进行更新。由此，可以高效准确地获取到更加丰富的采样结果，为查询学习提供更加丰富的信息，并提高检测效率。

示例性的，设q索引具有混合查询特征Q_q和图像空间中的参考点P_2d；q的查询元素，所采用的可变形注意力可以表示为:

其中，M为多头注意力的头数，m索引注意力头；K为目标采样点数量，k索引目标采样点；L为特征层的级别数量，l索引特征级别。A_m;qk表示第l个特征层第k个采样点和第m个注意力头的注意力权重。注意力权重A_mlqk的范围为[0,1]。W_m和W_m是可学习的参数。F_l是第l层的图像特征，用于更新混合查询。

在一种可选实施方式中，所述解码器还用于对更新后的所述混合查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征。这样设置的好处在于，对更新后的稀疏查询和更新后的密集查询进行融合处理，可以避免在解码器训练过程中分别针对稀疏查询对应的目标检测结果和密集查询对应的目标检测结果进行损失计算，提高训练效率，降低训练成本，且可以提高融合后的目标BEV特征的准确度，进而得到更加准确的目标检测结果。

其中，融合处理的具体处理方式不做限定，经过融合处理后，可以将更新后的混合查询的数量减少到与初始化的稀疏查询的数量相同。

在一种可选实施方式中，所述对更新后的所述混合查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征，包括：对更新后的密集查询进行下采样，得到目标密集查询，其中，所述目标密集查询与更新后的稀疏查询具有相同分辨率；对所述目标密集查询和更新后的稀疏查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征。这样设置的好处在于，将更新后的密集查询下采样至与更新后的稀疏查询具有相同分辨率，方便快速准确地与更新后的稀疏查询进行融合。

示例性的，可对目标密集查询和更新后的稀疏查询进行堆叠(Stack)操作以及取平均(mean)操作，如对目标密集查询和更新后的稀疏查询依次应用Stack函数和mean函数进行处理，得到目标BEV特征。

可选的，对更新后的密集查询进行下采样，具体可以是利用补丁融合(PatchMerging)层对更新后的密集查询进行下采样，可以得到多个与更新后的稀疏查询具有相同分辨率的目标密集子查询，将多个目标密集子查询用于与更新后的稀疏查询的融合。

在一种可选实施方式中，所述对所述目标密集查询和更新后的稀疏查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征，包括：采用线性层和预设激活函数对更新后的稀疏查询进行处理，得到聚合权重；基于所述聚合权重对所述多个目标密集子查询进行聚合处理，得到待融合密集查询；对所述待融合密集查询和所述更新后的稀疏查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征。这样设置的好处在于，根据更新后的稀疏查询来确定用于对多个目标密集子查询进行聚合处理的聚合权重，可以更好地实现密集查询与稀疏查询的融合。

示例性的，预设激活函数可以是Sigmoid函数。在交叉注意力阶段，利用稀疏查询和查询传播策略生成的密集查询来更好地与图像特征进行交互，为了与这两种查询进行交互并将它们聚合在一起，可在编码器中增加查询合并网络，或称为合并模块。图3是根据本公开实施例提供的一种查询融合过程示意图。如图3所示，针对查询合并网络提供更新后的混合查询，如图中的更新后的密集查询(Dense BEV Queries)和更新后的稀疏查询(SparseBEV Queries)，为了使它们具有相同的分辨率，采用了一个Patch Merging层将更新后的密集BEV查询下采样至稀疏BEV查询的分辨率，得到4个目标密集子查询，通过对稀疏BEV查询应用线性层(linear)和Sigmoid函数来学习聚合权重，基于聚合权重对4个目标密集子查询进行聚合处理(Multiplication)，得到待融合密集查询，对待融合密集查询和更新后的稀疏查询应用Stack函数和mean函数进行处理，得到输出特征(Output BEV Queries)。对于除最后一个解码器层之外的其他解码器层，查询合并网络输出的为前文所述的中间BEV特征，对于最后一个解码器层，查询合并网络输出的为目标BEV特征。

在一种可选实施方式中，自注意力网络可以为可变形自注意力网络(DeformableSelf-Attention)网络。所述解码器在对所述稀疏查询进行上采样之前，还用于利用可变形自注意力网络对所述稀疏查询进行处理，得到目标稀疏查询；其中，对所述稀疏查询进行上采样，包括：对所述目标稀疏查询进行上采样；其中，所述混合查询包括所述目标稀疏查询和所述密集查询。这样设置的好处在于，基于固定的参考点确定初始化的稀疏查询，使得BEV查询具有良好的空间结构，因此可以采用可变形注意力来极大地减少计算，进一步提升目标检测效率。

图4是根据本公开实施例提供的另一种目标检测方法的流程图，本实施例以上述实施例中各可选方案为基础上进行优化，以自动驾驶场景为例，以利用目标检测模型进行目标检测的实施方式来描述相关步骤。图5是根据本公开实施例提供的一种目标检测模型的结构示意图，可结合图4和图5对本公开实施例的技术方案进行理解。如图4所示，该方法可包括：

S401、通过目标检测模型中的特征提取网络提取多视角图像的图像特征，其中，多视角图像由安装在自动驾驶车辆上的不同视角的摄像头获取。

如图5所示，车辆上的不同视角的摄像头获取到的多视角图像输入到目标检测模型中的backbone和FPN进行特征提取，得到多尺度的图像特征。

S402、对BEV空间中的预设参考点进行位置编码，得到初始化的稀疏查询。

其中，预设参考点为均匀固定在BEV空间中的预设网格中的参考点。需要说明的是，S402也可以在S401之前执行，具体不做限定。

S403、根据初始化的稀疏查询和图像特征确定输入数据，并将输入数据输入至目标检测模型中的Transformer网络的解码器。

如图5所示，初始化的稀疏查询为图中的BEV特征(BEV features)，与多尺度的图像特征一起被输入至解码器Decoder中。

S404、通过解码器中的可变形自注意力网络对稀疏查询进行处理，得到目标稀疏查询。

如图5所示，解码器包括6个解码器层，每个解码器层包括顺次连接的可变形自注意力网络(Deformable Self-Attention)、查询传播网络(Query Propagation Module)、三维偏移可变形注意力网络(3D Offset D Deformable Attention，也即可变形多头交叉注意力网络)、前馈层(Feed-Forward Layer，FFL)以及查询合并网络(Query MergingModule)。

S405、通过解码器中的查询传播网络对目标稀疏查询以及稀疏参考点进行上采样，得到对应的密集查询和密集参考点。

S406、通过解码器根据混合查询确定对应的目标参考点，根据图像采集设备的内参和外参确定目标参考点在图像特征中的目标采样点。

S407、通过解码器中的可变形多头交叉注意力网络，利用目标采样点对图像特征进行采样，得到采样结果，并将采样结果添加至混合查询中，以对混合查询进行更新。

S408、通过解码器中的查询合并网络对更新后的密集查询进行下采样，得到多个目标密集子查询，采用线性层和预设激活函数对更新后的稀疏查询进行处理，得到聚合权重，基于聚合权重对多个目标密集子查询进行聚合处理，得到待融合密集查询，对待融合密集查询和更新后的稀疏查询进行融合处理，得到融合处理结果，并根据融合处理结果确定目标BEV特征。

S409、通过目标检测模型中的检测头，基于解码器输出的目标BEV特征确定多视角图像的目标检测结果。

如图5所示，目标BEV特征被输入至检测头Cls和Reg，由检测头分别输出目标的类别(Cls)和边框(Bbox)，得到目标检测结果。

本公开实施例提供的目标检测方法，对均匀固定在BEV空间中的预设网格中的参考点进行位置编码后，得到初始化的稀疏查询，通过将参考点固定，使得每个查询从一开始就对应一个固定的3D位置，更容易感知3D空间信息，也即使得学习位置关系变得容易，并可支持可变形自注意力网络对稀疏查询进行处理，减少计算量，通过查询传播网络对稀疏查询和添加了z轴维度的三维点的稀疏参考点进行上采样得到密集查询和密集参考点，基于包含稀疏查询和密集查询的混合查询通过3D偏移可变形注意力网络充分与图像特征进行交互，实现查询的表征能力增强，充分挖掘多视图信息，实现学习增强的查询表征，进而提升不同大小分辨率物体的检出率和准确性，并且，通过查询合并网络对更新后的稀疏查询和密集查询进行融合，以输出准确的增强的目标BEV特征，进而使得检测头能够快速准确地输出目标检测结果。本公开实施例的技术方案在Nuscenes基准数据集上进行的大量实验，实验结果可证明各种道路场景都取得了很好的检测效果，并且具有较低的延时，可以更好支撑相关场景的业务发展。

图6是根据本公开实施例提供的一种目标检测模型的训练方法的流程图，本公开实施例可适用于自动驾驶场景、智能交通场景、工业自动化、以及虚拟现实和增强现实场景等场景中对基于多视角图像进行三维目标检测的模型进行训练的情况。该方法可由一种目标检测模型的训练装置来执行，该装置可采用硬件和/或软件的方式来实现，可配置于电子设备中。参考图6，该方法具体包括如下：

S601、通过预设检测模型中的特征提取网络提取多视角样本图像的样本图像特征，其中，所述多视角样本图像由不同视角的图像采集设备获取；

S602、对鸟瞰视角BEV空间中的预设参考点进行位置编码，得到初始化的稀疏查询；

S603、根据所述初始化的稀疏查询和所述样本图像特征确定输入数据，并将所述输入数据输入至所述预设检测模型中的Transformer网络的解码器，得到目标BEV特征；其中，所述解码器用于对所述稀疏查询进行上采样，得到对应的密集查询，并基于所述样本图像特征对混合查询进行更新，所述混合查询包括所述稀疏查询和所述密集查询，更新后的所述混合查询用于确定所述目标BEV特征；

S604、通过所述预设检测模型中的检测头基于所述目标BEV特征确定所述多视角样本图像的样本目标检测结果；

S605、基于所述样本目标检测结果和所述多视角样本图像对应的样本标签计算损失关系，并基于所述损失关系对所述预设检测模型进行训练。

其中，用于计算损失关系的损失函数可以根据实际需求设定，如可包括匈牙利损失等。

示例性的，对预设检测模型进行训练过程中，可以以最小化目标损失关系为目标，不断优化预设检测模型中的权重参数值，直到满足预设训练截止条件。具体的训练截止条件可根据实际需求进行设置，本公开实施例不做限定，例如可以基于迭代次数、损失值收敛程度、或模型准确率等设定。训练完成后的预设检测模型可以成为前文所述的目标检测模型。

本公开实施例提供的目标检测模型的训练方法，对BEV空间的预设参考点进行位置编码得到初始化的稀疏查询，通过对稀疏查询进行上采样得到密集查询，基于包含稀疏查询和密集查询的混合查询实现查询的表征能力增强，充分挖掘多视角样本图像中的多视图信息，实现学习增强的查询表征，使得训练后得到的目标检测模型可以提升不同大小分辨率物体的检出率和准确性，可为自动驾驶等各种场景的技术演进提供有力支持。

在一种可选实施方式中，所述预设参考点为均匀固定在所述BEV空间中的预设网格中的参考点。

在一种可选实施方式中，所述解码器还用于对稀疏参考点进行上采样，得到密集参考点，所述稀疏参考点通过在所述预设参考点的竖直方向添加预设数量的点后得到，针对所述稀疏参考点的上采样密度与针对所述稀疏查询的上采样密度相同；其中，所述基于所述样本图像特征对混合查询进行更新，包括：根据混合查询确定对应的目标参考点，其中，所述目标参考点从所述稀疏参考点和所述密集参考点中确定；根据所述图像采集设备的内参和外参确定所述目标参考点在所述样本图像特征中的目标采样点；利用所述目标采样点对所述样本图像特征进行采样，得到采样结果，并利用所述采样结果对所述混合查询进行更新。

在一种可选实施方式中，所述根据混合查询确定对应的目标参考点，包括：根据混合查询确定预测参考点，其中，所述预测参考点从所述稀疏参考点和所述密集参考点中确定；采用线性层对所述混合查询进行处理，以生成三维偏移；根据所述预测参考点和所述三维偏移确定对应的目标参考点。

在一种可选实施方式中，所述利用所述目标采样点对所述样本图像特征进行采样，得到采样结果，并利用采样结果对所述混合查询进行更新，包括：通过可变形多头交叉注意力网络，利用所述目标采样点对所述样本图像特征进行采样，得到采样结果，并将所述采样结果添加至所述混合查询中，以对所述混合查询进行更新。

在一种可选实施方式中，所述解码器还用于对更新后的所述混合查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征。

在一种可选实施方式中，所述对更新后的所述混合查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征，包括：对更新后的密集查询进行下采样，得到目标密集查询，其中，所述目标密集查询与更新后的稀疏查询具有相同分辨率；对所述目标密集查询和更新后的稀疏查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征。

在一种可选实施方式中，所述目标密集查询包括多个目标密集子查询；所述对所述目标密集查询和更新后的稀疏查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征，包括：采用线性层和预设激活函数对更新后的稀疏查询进行处理，得到聚合权重；基于所述聚合权重对所述多个目标密集子查询进行聚合处理，得到待融合密集查询；对所述待融合密集查询和所述更新后的稀疏查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征。

在一种可选实施方式中，所述解码器在对所述稀疏查询进行上采样之前，还用于利用可变形自注意力网络对所述稀疏查询进行处理，得到目标稀疏查询；其中，对所述稀疏查询进行上采样，包括：对所述目标稀疏查询进行上采样；其中，所述混合查询包括所述目标稀疏查询和所述密集查询。

图7是根据本公开实施例提供的一种目标检测装置的结构示意图，本公开实施例可适用于自动驾驶场景、智能交通场景、工业自动化、以及虚拟现实和增强现实场景等场景中基于多视角图像进行三维目标检测的情况。该装置可采用硬件和/或软件的方式来实现，可配置于电子设备中。参考图7，该目标检测装置700包括：

图像特征提取模块701，用于提取多视角图像的图像特征，其中，所述多视角图像由不同视角的图像采集设备获取；

位置编码模块702，用于对鸟瞰视角BEV空间中的预设参考点进行位置编码，得到初始化的稀疏查询；

目标特征确定模块703，用于根据所述初始化的稀疏查询和所述图像特征确定输入数据，并将所述输入数据输入至Transformer网络的解码器，得到目标BEV特征；其中，所述解码器用于对所述稀疏查询进行上采样，得到对应的密集查询，并基于所述图像特征对混合查询进行更新，所述混合查询包括所述稀疏查询和所述密集查询，更新后的所述混合查询用于确定所述目标BEV特征；

目标检测模块704，用于基于所述目标BEV特征确定所述多视角图像的目标检测结果。

本公开实施例提供的目标检测装置，对BEV空间的预设参考点进行位置编码得到初始化的稀疏查询，通过对稀疏查询进行上采样得到密集查询，基于包含稀疏查询和密集查询的混合查询实现查询的表征能力增强，充分挖掘多视图信息，实现学习增强的查询表征，进而提升不同大小分辨率物体的检出率和准确性，也即提高多视角图像三维目标检测的准确度，可为自动驾驶等各种场景的技术演进提供有力支持。

在一种可选实施方式中，所述解码器还用于对稀疏参考点进行上采样，得到密集参考点，所述稀疏参考点通过在所述预设参考点的竖直方向添加预设数量的点后得到，针对所述稀疏参考点的上采样密度与针对所述稀疏查询的上采样密度相同；其中，所述基于所述图像特征对混合查询进行更新，包括：根据混合查询确定对应的目标参考点，其中，所述目标参考点从所述稀疏参考点和所述密集参考点中确定；根据所述图像采集设备的内参和外参确定所述目标参考点在所述图像特征中的目标采样点；利用所述目标采样点对所述图像特征进行采样，得到采样结果，并利用所述采样结果对所述混合查询进行更新。

在一种可选实施方式中，所述利用所述目标采样点对所述图像特征进行采样，得到采样结果，并利用所述采样结果对所述混合查询进行更新，包括：通过可变形多头交叉注意力网络，利用所述目标采样点对所述图像特征进行采样，得到采样结果，并将所述采样结果添加至所述混合查询中，以对所述混合查询进行更新。

在一种可选实施方式中，所述解码器在对所述稀疏查询进行上采样之前，还用于利用可变形自注意力网络对所述稀疏查询进行处理，得到目标稀疏查询；其中，对所述稀疏查询进行上采样，包括：对所述目标稀疏查询进行上采样；所述混合查询包括所述目标稀疏查询和所述密集查询。

图8是根据本公开实施例提供的一种目标检测模型的训练装置的结构示意图，本公开实施例可适用于对基于多视角图像进行三维目标检测的模型进行训练的情况。该装置可采用硬件和/或软件的方式来实现，可配置于电子设备中。参考图8，该目标检测模型的训练装置800包括：

样本图像特征提取模块801，用于通过预设检测模型中的特征提取网络提取多视角样本图像的样本图像特征，其中，所述多视角样本图像由不同视角的图像采集设备获取；

编码模块802，用于对鸟瞰视角BEV空间中的预设参考点进行位置编码，得到初始化的稀疏查询；

特征确定模块803，用于根据所述初始化的稀疏查询和所述样本图像特征确定输入数据，并将所述输入数据输入至所述预设检测模型中的Transformer网络的解码器，得到目标BEV特征；其中，所述解码器用于对所述稀疏查询进行上采样，得到对应的密集查询，并基于所述样本图像特征对混合查询进行更新，所述混合查询包括所述稀疏查询和所述密集查询，更新后的所述混合查询用于确定所述目标BEV特征；

检测模块804，用于通过所述预设检测模型中的检测头基于所述目标BEV特征确定所述多视角样本图像的样本目标检测结果；

训练模块805，用于基于所述样本目标检测结果和所述多视角样本图像对应的样本标签计算损失关系，并基于所述损失关系对所述预设检测模型进行训练。

本公开实施例提供的目标检测模型的训练装置，对BEV空间的预设参考点进行位置编码得到初始化的稀疏查询，通过对稀疏查询进行上采样得到密集查询，基于包含稀疏查询和密集查询的混合查询实现查询的表征能力增强，充分挖掘多视角样本图像中的多视图信息，实现学习增强的查询表征，使得训练后得到的目标检测模型可以提升不同大小分辨率物体的检出率和准确性，可为自动驾驶等各种场景的技术演进提供有力支持。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如目标检测方法和/或目标检测模型的训练方法。例如，在一些实施例中，目标检测方法和/或目标检测模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的目标检测方法和/或目标检测模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行目标检测方法和/或目标检测模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种目标检测方法，包括：

基于所述目标BEV特征确定所述多视角图像的目标检测结果。

2.根据权利要求1所述的方法，其中，所述预设参考点为均匀固定在所述BEV空间中的预设网格中的参考点。

3.根据权利要求1所述的方法，其中，所述解码器还用于对稀疏参考点进行上采样，得到密集参考点，所述稀疏参考点通过在所述预设参考点的竖直方向添加预设数量的点后得到，针对所述稀疏参考点的上采样密度与针对所述稀疏查询的上采样密度相同；

其中，所述基于所述图像特征对混合查询进行更新，包括：

根据混合查询确定对应的目标参考点，其中，所述目标参考点从所述稀疏参考点和所述密集参考点中确定；

根据所述图像采集设备的内参和外参确定所述目标参考点在所述图像特征中的目标采样点；

利用所述目标采样点对所述图像特征进行采样，得到采样结果，并利用所述采样结果对所述混合查询进行更新。

4.根据权利要求3所述的方法，其中，所述根据混合查询确定对应的目标参考点，包括：

根据混合查询确定预测参考点，其中，所述预测参考点从所述稀疏参考点和所述密集参考点中确定；

采用线性层对所述混合查询进行处理，以生成三维偏移；

根据所述预测参考点和所述三维偏移确定对应的目标参考点。

5.根据权利要求3所述的方法，其中，所述利用所述目标采样点对所述图像特征进行采样，得到采样结果，并利用所述采样结果对所述混合查询进行更新，包括：

通过可变形多头交叉注意力网络，利用所述目标采样点对所述图像特征进行采样，得到采样结果，并将所述采样结果添加至所述混合查询中，以对所述混合查询进行更新。

6.根据权利要求1所述的方法，其中，所述解码器还用于对更新后的所述混合查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征。

7.根据权利要求6所述的方法，其中，所述对更新后的所述混合查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征，包括：

对更新后的密集查询进行下采样，得到目标密集查询，其中，所述目标密集查询与更新后的稀疏查询具有相同分辨率；

对所述目标密集查询和更新后的稀疏查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征。

8.根据权利要求7所述的方法，其中，所述目标密集查询包括多个目标密集子查询；

所述对所述目标密集查询和更新后的稀疏查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征，包括：

采用线性层和预设激活函数对更新后的稀疏查询进行处理，得到聚合权重；

基于所述聚合权重对所述多个目标密集子查询进行聚合处理，得到待融合密集查询；

对所述待融合密集查询和所述更新后的稀疏查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征。

9.根据权利要求2所述的方法，其中，所述解码器在对所述稀疏查询进行上采样之前，还用于利用可变形自注意力网络对所述稀疏查询进行处理，得到目标稀疏查询；

其中，对所述稀疏查询进行上采样，包括：对所述目标稀疏查询进行上采样；

其中，所述混合查询包括所述目标稀疏查询和所述密集查询。

10.一种目标检测模型的训练方法，包括：

11.根据权利要求10所述的方法，其中，所述预设参考点为均匀固定在所述BEV空间中的预设网格中的参考点。

12.根据权利要求10所述的方法，其中，所述解码器还用于对稀疏参考点进行上采样，得到密集参考点，所述稀疏参考点通过在所述预设参考点的竖直方向添加预设数量的点后得到，针对所述稀疏参考点的上采样密度与针对所述稀疏查询的上采样密度相同；

其中，所述基于所述样本图像特征对混合查询进行更新，包括：

根据所述图像采集设备的内参和外参确定所述目标参考点在所述样本图像特征中的目标采样点；

利用所述目标采样点对所述样本图像特征进行采样，得到采样结果，并利用所述采样结果对所述混合查询进行更新。

13.根据权利要求12所述的方法，其中，所述根据混合查询确定对应的目标参考点，包括：

采用线性层对所述混合查询进行处理，以生成三维偏移；

14.根据权利要求12所述的方法，其中，所述利用所述目标采样点对所述样本图像特征进行采样，得到采样结果，并利用采样结果对所述混合查询进行更新，包括：

通过可变形多头交叉注意力网络，利用所述目标采样点对所述样本图像特征进行采样，得到采样结果，并将所述采样结果添加至所述混合查询中，以对所述混合查询进行更新。

15.根据权利要求10所述的方法，其中，所述解码器还用于对更新后的所述混合查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征。

16.根据权利要求15所述的方法，其中，所述对更新后的所述混合查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征，包括：

17.根据权利要求16所述的方法，其中，所述目标密集查询包括多个目标密集子查询；

18.根据权利要求11所述的方法，其中，所述解码器在对所述稀疏查询进行上采样之前，还用于利用可变形自注意力网络对所述稀疏查询进行处理，得到目标稀疏查询；

19.一种目标检测装置，包括：

20.根据权利要求19所述的装置，其中，所述预设参考点为均匀固定在所述BEV空间中的预设网格中的参考点。

21.根据权利要求19所述的装置，其中，所述解码器还用于对稀疏参考点进行上采样，得到密集参考点，所述稀疏参考点通过在所述预设参考点的竖直方向添加预设数量的点后得到，针对所述稀疏参考点的上采样密度与针对所述稀疏查询的上采样密度相同；

其中，所述基于所述图像特征对混合查询进行更新，包括：

22.根据权利要求21所述的装置，其中，所述根据混合查询确定对应的目标参考点，包括：

采用线性层对所述混合查询进行处理，以生成三维偏移；

23.根据权利要求21所述的装置，其中，所述利用所述目标采样点对所述图像特征进行采样，得到采样结果，并利用所述采样结果对所述混合查询进行更新，包括：

24.根据权利要求19所述的装置，其中，所述解码器还用于对更新后的所述混合查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征。

25.根据权利要求24所述的装置，其中，所述对更新后的所述混合查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征，包括：

26.根据权利要求25所述的装置，其中，所述目标密集查询包括多个目标密集子查询；

27.根据权利要求20所述的装置，其中，所述解码器在对所述稀疏查询进行上采样之前，还用于利用可变形自注意力网络对所述稀疏查询进行处理，得到目标稀疏查询；

28.一种目标检测模型的训练装置，包括：

29.根据权利要求28所述的装置，其中，所述预设参考点为均匀固定在所述BEV空间中的预设网格中的参考点。

30.根据权利要求28所述的装置，其中，所述解码器还用于对稀疏参考点进行上采样，得到密集参考点，所述稀疏参考点通过在所述预设参考点的竖直方向添加预设数量的点后得到，针对所述稀疏参考点的上采样密度与针对所述稀疏查询的上采样密度相同；

31.根据权利要求30所述的装置，其中，所述根据混合查询确定对应的目标参考点，包括：

采用线性层对所述混合查询进行处理，以生成三维偏移；

32.根据权利要求30所述的装置，其中，所述利用所述目标采样点对所述样本图像特征进行采样，得到采样结果，并利用采样结果对所述混合查询进行更新，包括：

33.根据权利要求28所述的装置，其中，所述解码器还用于对更新后的所述混合查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征。

34.根据权利要求33所述的装置，其中，所述对更新后的所述混合查询进行融合处理，得到融合处理结果，并根据所述融合处理结果确定所述目标BEV特征，包括：

35.根据权利要求34所述的装置，其中，所述目标密集查询包括多个目标密集子查询；

36.根据权利要求29所述的装置，其中，所述解码器在对所述稀疏查询进行上采样之前，还用于利用可变形自注意力网络对所述稀疏查询进行处理，得到目标稀疏查询；

37.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-18中任一项所述的方法。

38.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-18中任一项所述的方法。