CN115880555A

CN115880555A - 目标检测方法、模型训练方法、装置、设备及介质

Info

Publication number: CN115880555A
Application number: CN202310114150.4A
Authority: CN
Inventors: 王童; 叶晓青
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-03-31
Anticipated expiration: 2043-02-07
Also published as: CN115880555B

Abstract

本公开提供了一种目标检测方法、模型训练方法、装置、设备及介质，涉及人工智能技术领域，具体涉及计算机视觉、图像处理、深度学习等技术领域，可用于自动驾驶、智能交通等场景。其中，目标检测方法包括：获取多视角图像对应的第一鸟瞰图特征和第二鸟瞰图特征，第一鸟瞰图特征是基于多视角图像的深度信息进行特征转换得到的，第二鸟瞰图特征是基于位置编码网络对多视角图像进行特征编码得到的；对第一鸟瞰图特征和第二鸟瞰图特征进行特征耦合，得到耦合特征；基于耦合特征进行目标检测，得到多视角图像对应的目标检测结果。从而，通过对多种方式下得到的鸟瞰图特征进行特征耦合，提高基于鸟瞰图特征进行目标检测的准确性。

Description

目标检测方法、模型训练方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉、图像处理、深度学习等技术领域，可应用于自动驾驶、智能交通等场景，尤其涉及一种目标检测方法、模型训练方法、装置、设备及介质。

背景技术

针对鸟瞰图（Bird’s Eye View，BEV）视角下的目标检测方法，可以简称为“BEV检测方法”，是将多视角的二维图像的图像特征转换为BEV特征，基于BEV特征实现三维目标检测。

在基于几何变换的BEV检测方法中：首先，预测出图像中每个像素点对应的深度；接着，通过相机内外参和预图像中每个像素点对应的深度，将图像在2D空间中的特征投影到3D空间中；接着，对投影至3D空间中的特征进行池化，得到BEV特征；最后，将BEV特征输入至检测头中进行最后的预测任务，以预测图像中的目标。

然而，上述方式的目标检测准确性不足。

发明内容

本公开提供了一种用于提高目标检测准确性的目标检测方法、模型训练方法、装置、设备及介质。

根据本公开的第一方面，提供了一种目标检测方法，包括：

获取多视角图像对应的第一鸟瞰图特征和第二鸟瞰图特征，所述第一鸟瞰图特征是基于所述多视角图像的深度信息进行特征转换得到的，所述第二鸟瞰图特征是基于位置编码网络对所述多视角图像进行特征编码得到的；

对所述第一鸟瞰图特征和所述第二鸟瞰图特征进行特征耦合，得到耦合特征；

基于所述耦合特征进行目标检测，得到所述多视角图像对应的目标检测结果。

根据本公开的第二方面，提供了一种模型训练方法，包括：

获取多视角训练图像对应的第一鸟瞰图特征和第二鸟瞰图特征，所述第一鸟瞰图特征是基于所述多视角训练图像的深度信息进行特征转换得到的，所述第二鸟瞰图特征是基于位置编码网络对所述多视角训练图像进行特征编码得到的；

将所述第一鸟瞰图特征和所述第二鸟瞰图特征输入至混合解码网络进行特征耦合，得到耦合特征；

基于所述耦合特征进行目标检测，得到所述多视角训练图像对应的目标检测结果；

根据所述目标检测结果与所述多视角训练图像对应的真实目标信息之间的差异，对所述混合解码网络进行参数调整，得到训练后的混合解码网络。

根据本公开的第三方面，提供了一种目标检测装置，包括：

特征获取单元，用于获取多视角图像对应的第一鸟瞰图特征和第二鸟瞰图特征，所述第一鸟瞰图特征是基于所述多视角图像的深度信息进行特征转换得到的，所述第二鸟瞰图特征是基于位置编码网络对所述多视角图像进行特征编码得到的；

特征耦合单元，用于对所述第一鸟瞰图特征和所述第二鸟瞰图特征进行特征耦合，得到耦合特征；

目标检测单元，用于基于所述耦合特征进行目标检测，得到所述多视角图像对应的目标检测。

根据本公开的第四方面，提供了一种模型训练装置，包括：

特征获取单元，用于获取多视角训练图像对应的第一鸟瞰图特征和第二鸟瞰图特征，所述第一鸟瞰图特征是基于所述多视角训练图像的深度信息进行特征转换得到的，所述第二鸟瞰图特征是基于位置编码网络对所述多视角训练图像进行特征编码得到的；

特征耦合单元，用于将所述第一鸟瞰图特征和所述第二鸟瞰图特征输入至混合解码网络进行特征耦合，得到耦合特征；

目标检测单元，用于基于所述耦合特征进行目标检测，得到所述多视角训练图像对应的目标检测结果；

参数调整单元，用于根据所述目标检测结果与所述多视角训练图像对应的真实目标信息之间的差异，对所述混合解码网络进行参数调整，得到训练后的混合解码网络。

根据本公开的第五方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的目标检测方法，或者，以使所述至少一个处理器能够执行第二方面所述的模型训练方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的目标检测方法，或者，所述计算机指令用于使所述计算机执行第二方面所述的模型训练方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的目标检测方法，或者，所述至少一个处理器执行所述计算机程序使得电子设备执行第二方面所述的模型训练方法。

根据本公开提供的技术方案，基于多视角图像的深度信息进行特征转换得到的第一鸟瞰图特征，是采用基于几何变换的BEV检测方法中的特征提取方式得到的鸟瞰图特征；基于位置编码网络对多视角图像进行特征编码得到的第二鸟瞰图特征，是采用基于深度学习网络的BEV检测方法中的特征提取方式得到的鸟瞰图特征。通过将第一鸟瞰图特征与第二年鸟瞰图特征进行特征耦合，对基于几何变换的BEV检测方法和基于深度学习网络的BEV检测方法各自在BEV检测中的不足进行相互弥补，提高BEV检测的准确性，即提高对多视角图像进行目标检测的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例适用的一种应用场景的示意图；

图2为根据本公开实施例提供的目标检测方法的流程示意图一；

图3为根据本公开实施例提供的目标检测方法的流程示意图二；

图4为根据本公开实施例提供的目标检测方法的流程示意图三；

图5为本公开实施例提供的混合解码网络的结构示意图；

图6为本公开实施例提供的目标检测方法所涉及的模型结构示意图；

图7为根据本公开实施例提供的模型训练方法的流程示意图；

图8为本公开实施例提供的目标检测装置的结构示意图一；

图9为本公开实施例提供的目标检测装置的结构示意图二；

图10为本公开实施例提供的模型训练装置的结构示意图；

图11为可以用来实施本公开的实施例的示例电子设备1100的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

鸟瞰图（Bird’s Eye View，BEV）视角下的目标检测方法（后续简称为BEV检测方法）主要分为两大流派：一种是基于几何变换的BEV检测方法，在该方法中，首先预测出图像中每个点对应的深度值，通过相机内外参和图像中每个点对应的深度值，将图像在2D空间中的图像特征投影至3D空间，再对投影至3D空间的图像特征进行池化，得到BEV特征，最后，将BEV特征输入至检测头中，执行预测图像中的目标的任务；另一种是基于深度学习网络的BEV检测方法，以基于Transformer的BEV检测方法为例，在该方法中，无需预测图像中每个点对应的深度值，直接通过Transformer中的注意力机制（Attention机制）对不同视角下的图像特征进行聚合，得到BEV特征，再基于BEV特征预测图像中的目标。其中，Transformer是一种利用注意力机制的深度神经网络，包括编码器和解码器。

然而，上述两大流派存在以下缺陷：1、基于几何变换的BEV检测方法依赖于图像的深度信息，在图像的深度信息不准确的情况下，基于图像的深度信息变换得到的BEV特征的准确性较低，进而导致目标检测的准确性较低，而且在相机内外参因意外产生变化时，该方法会得到不鲁邦的检测结果；2、基于深度学习网络的BEV检测方法缺乏几何信息的约束，需要较长的训练时间才能够学习到如何聚合不同视角下的图像特征得到BEV特征，收敛速度慢。

为解决上述缺陷，本公开提供一种目标检测方法、模型训练方法、装置、设备及介质，可应用于人工智能技术领域中的计算机视觉、图像处理、深度学习、智能交通等技术领域。在目标检测方法中，对多视角图像经几何变换方式得到的鸟瞰图特征和多视角图像经深度学习网络得到的鸟瞰图特征进行特征耦合，得到耦合特征；基于耦合特征进行多视角图像的目标检测。其中，多视角图像经几何变换方式得到的鸟瞰图特征带有几何信息的约束，将多视角图像经几何变换方式得到的鸟瞰图特征和多视角图像经深度学习网络得到的鸟瞰图特征进行特征耦合，可以弥补基于深度学习网络的BEV检测方法缺乏几何信息的约束的不足，提高深度学习网络的收敛速度；多视角图像经深度学习网络得到的鸟瞰图特征，无需依赖图像的深度信息和相机内外参，将多视角图像经几何变换方式得到的鸟瞰图特征和多视角图像经深度学习网络得到的鸟瞰图特征进行特征耦合，可以弥补基于几何变换方式的BEV检测方法受深度信息准确性和相机内外参稳定性影响的不足，如此实现这两种鸟瞰图特征不足之处的相互弥补，提高了多视角图像的目标检测的准确性。

图1为本公开实施例适用的一种应用场景的示意图。在应用场景中，涉及的设备包括目标检测设备110，目标检测设备110可以是服务器或者终端，图1以目标检测设备110为服务器为例。目标检测设备110可对多视角图像基于几何变换方式得到的鸟瞰图特征和多视角图像基于深度学习网络得到的鸟瞰图特征进行特征耦合，得到耦合特征，再基于耦合特征进行目标检测，得到多视角图像对应的目标检测结果。

可选地，在应用场景中还可涉及模型训练设备120，模型训练设备120可以是服务器或者终端，图1以模型训练设备120为服务器为例。在模型训练设备120上训练多视角图像的目标检测过程中所需要的深度学习网络，将训练好的深度学习网络部署至目标检测设备110上。

可选地，在应用场景中还可涉及图像采集设备（图中未示出），图像采集设备可包括用于采集多个视角的场景图像的图像传感器。如图1所示，图像采集设备（例如部署在车辆的不同位置的图像传感器）采集车辆周围多个视角的场景图像，可将车辆周围多个视角的场景图像发送至目标检测设备110中进行车辆周围的目标检测。

可选地，在应用场景中还可涉及输出设备130，输出设备130可以是终端，例如，输出设备130可为车辆上的车载终端，目标检测设备110可将多视角图像对应的目标检测结果发送至输出设备130，以通过输出设备130输出多视角图像对应的目标检测结果，以车辆和用户提示车辆周围出现的目标，比如车辆周围的行人、其他车辆等。

其中，服务器可以是集中式服务器、分布式服务器、云端服务器等。终端可以是个人数字处理（personal digital assistant，简称PDA）设备、具有无线通信功能的手持设备（例如智能手机、平板电脑）、计算设备（例如个人电脑（personal computer，简称PC））、车载设备、可穿戴设备（例如智能手表、智能手环）、以及智能家居设备（例如智能音箱、智能显示设备）等。

下面以具体的实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。

图2为根据本公开实施例提供的目标检测方法的流程示意图一。如图2所示，目标检测方法包括：

S201，获取多视角图像对应的第一鸟瞰图特征和第二鸟瞰图特征，第一鸟瞰图特征是基于多视角图像的深度信息进行特征转换得到的，第二鸟瞰图特征是基于位置编码网络对多视角图像进行特征编码得到的。

其中，多视角图像包括从多个视角采集到的多个图像。

其中，第一鸟瞰图特征和第二鸟瞰图特征分别表示多视角图像经过不同的特征提取方式提取得到的鸟瞰图特征。

在第一鸟瞰图特征的提取过程中，可基于多视角图像的深度信息，将多视角图像的二维特征（多视角图像在二维空间中的图像特征）转换为多视角图像的三维特征（多视角图像在三维空间中的图像特征），对多视角图像的三维特征进行池化，得到第一鸟瞰图特征。其中，多视角图像的深度信息可包括多视角图像中像素点对应的深度值和/或多视角图像对应的深度分布，多视角图像对应的深度分布可表现为多视角图像的深度图。

在第二鸟瞰图特征的提取过程中，可通过位置编码网络对多视角图像的二维特征进行特征编码，得到第二鸟瞰图特征，其中，位置编码网络可称为位置编码器（PositionalEncoder），是通过位置编码方式对多视角图像的二维特征进行特征融合的深度学习网络。

本实施例中，可对多视角图像进行鸟瞰图特征提取，得到第一鸟瞰图特征和第二鸟瞰图特征，具体的提取过程参照上述描述。或者，可从用于存储鸟瞰图特征的数据库中获取第一鸟瞰图特征和第二鸟瞰图特征；或者，可接收鸟瞰图特征的提取设备发送的第一鸟瞰图特征和第二鸟瞰图特征。

S202，对第一鸟瞰图特征和第二鸟瞰图特征进行特征耦合，得到耦合特征。

本实施例中，在得到第一鸟瞰图特征和第二鸟瞰图特征后，由于第一鸟瞰图特征是在多视角图像的几何约束下得到的，第二鸟瞰图特征是在不依赖于多视角图像的深度信息、相机内外惨的情况下得到的，两者可以互补，因此，可对第一鸟瞰图特征和第二鸟瞰图特征进行特征耦合，得到耦合特征。其中，对第一鸟瞰图特征和第二鸟瞰图特征进行特征耦合的方式，可以是特征相加、特征加权、特征拼接等方式。进一步的，可利用注意力机制对第一鸟瞰图特征和第二鸟瞰图特征进行特征耦合，得到耦合特征，以利用注意力机制提高对第一鸟瞰图特征和第二鸟瞰图特征进行特征耦合的效果。

S203，基于耦合特征进行目标检测，得到多视角图像对应的目标检测结果。

本实施例中，在对第一鸟瞰图特征和第二鸟瞰图特征进行特征耦合得到耦合特征后，可将耦合特征输入至预测网络（又可称为预测头）中进行多视角图像的目标预测，得到多视角图像对应的目标预测结果。其中，在多视角图像对应的目标预测结果可包括多视角图像所在场景中的目标的类别信息和目标的位置信息，比如，多视角图像所在的场景为车辆行驶场景，多视角图像为车辆周围多个视角的长江图像，则多视角图像对应的目标检测结果可包括车辆行驶场景中出现在车辆周围的障碍物的种类和位置信息。

本公开实施例中，第一鸟瞰图特征是基于多视角图像的深度信息进行特征转换得到的，相当于通过几何变换方式得到，单独依靠第一鸟瞰图特征进行目标检测，存在依赖深度信息的准确性、相机内外参稳定性的不足；第二鸟瞰图特征是基于位置编码网络对多视角图像进行特征编码得到的，相当于通过深度学习网络得到，单独依靠第二鸟瞰图特征进行目标检测，存在位置编码网络需要较长训练时间才能够学习到如何融合不同视角下的图像特征、收敛速度慢的不足。因此，将第一鸟瞰图特征与第二鸟瞰图特征进行特征耦合，利用第二鸟瞰图特征来降低目标检测过程对深度信息、相机内外参的依赖，提高多视角图像的目标检测的准确性，利用第一鸟瞰图特征引入深度信息的约束，提高位置编码网络在训练过程的收敛速度。

图3为根据本公开实施例提供的目标检测方法的流程示意图二。如图3所示，目标检测方法包括：

S301，获取多视角图像对应的第一鸟瞰图特征和第二鸟瞰图特征，第一鸟瞰图特征是基于多视角图像的深度信息进行特征转换得到的，第二鸟瞰图特征是基于位置编码网络对多视角图像进行特征编码得到的。

其中，S301的实现原理和技术效果可参照前述实施例，不再赘述。

S302，将第一鸟瞰图特征和第二鸟瞰图特征输入至混合解码网络进行特征耦合，得到耦合特征。

本实施例中，可将第一鸟瞰图特征和第二鸟瞰图特征输入至混合解码网络，在混合解码网络中，对第一鸟瞰图特征和第二鸟瞰图特征进行特征解码和特征耦合，得到耦合特征。相较于特征相加、特征加权、特征拼接等方式，混合解码网络通过自身的神经网络结构，能够更好地对第一鸟瞰图特征与第二鸟瞰图特征进行特征融合，提高了特征耦合效果。

在一种可能的实现方式中，可将第一鸟瞰图特征和第二鸟瞰图特征输入至混合解码网络，在混合解码网络中，对第一鸟瞰图特征和第二鸟瞰图特征分别进行特征解码，再对第一鸟瞰图特征的解码特征和第二鸟瞰图特征的解码特征进行特征融合，得到耦合特征。

本实现方式中，通过特征解码恢复第一鸟瞰图特征和第二鸟瞰图特征在特征提取过程中损失的细节特征，得到对第一鸟瞰图特征的解码特征和第二鸟瞰图特征的解码特征；之后，对第一鸟瞰图特征的解码特征和第二鸟瞰图特征的解码特征进行特征融合，得到耦合特征。从而，通过第一鸟瞰图特征和第二鸟瞰图特征恢复细节特征的解码特征进行融合的方式，更充分、更细节地对第一鸟瞰图特征和第二鸟瞰图特征进行特征耦合，提高特征耦合效果。

在一种可能的实现方式中，混合解码网络是利用注意力机制的解码网络，以利用注意力机制提高第一鸟瞰图特征与第二鸟瞰图特征的特征耦合效果。

基于混合解码网络是利用注意力机制的解码网络，在一种可能的实现方式中，可将第一鸟瞰图特征和第二鸟瞰图特征输入至混合解码网络中，利用注意力机制，对第一鸟瞰图特征和第二鸟瞰图特征进行特征解码，再对第一鸟瞰图特征的解码特征和第二鸟瞰图特征的解码特征进行特征融合。从而，利用注意力机制提高第一鸟瞰图特征、第二鸟瞰图特征的解码特征的准确性，进而提高第一鸟瞰图特征与第二鸟瞰图特征的特征耦合效果。

S303，基于耦合特征进行目标检测，得到多视角图像对应的目标检测结果。

其中，S303的实现原理和技术效果可参照前述实施例，不再赘述。

本公开实施例中，利用混合解码网络，对多视角图像基于几何变换方式得到的第一鸟瞰图特征和多视角图像基于深度学习网络得到的第二鸟瞰图特征进行特征解码和特征耦合，提高第一鸟瞰图特征与第二鸟瞰图特征的特征耦合效果，进而提高多视角图像的目标检测的准确性。

在一些实施例中，混合解码网络可包括第一解码子网络、第二解码子网络和融合网络。其中，第一解码子网络对应第一鸟瞰图特征的特征解码，第二解码子网络对应第二鸟瞰图特征的特征解码，融合网络用于对第一解码子网络的输出数据和第二解码子网络的输出数据进行特征融合。如此，针对第一鸟瞰图特征和第二鸟瞰图特征，设计独立的解码网络分支，通过独立的解码过程，确保第一鸟瞰图特征与第二鸟瞰图特征的特征解码的准确性，再设计融合网络对独立的解码网络分支的解码结果进行融合，实现对第一鸟瞰图特征与第二鸟瞰图特征的特征耦合，提高特征耦合效果。

在一些实施例中，基于混合解码网络是利用注意力机制的解码网络，混合解码网络可包括自注意力网络、线性变换网络、第一解码子网络、第二解码子网络和融合网络。其中，线性变换网络用于对输入的特征数据进行线性变换，得到特征数据的线性变换结果，特征数据的线性变换结果可包括特征数据的键向量、值向量、查询向量中的至少一种；自注意力网络利用自注意力（self-attention）机制对检测框的初始位置信息的线性变换结果进行特征处理；第一解码子网络用于对第一鸟瞰图特征的线性变换结果和自注意力网络的输出数据进行特征解码；第二解码子网络用于对第二鸟瞰图特征的线性变换结果和自注意网络的输出数据进行特征解码；融合网络用于对第一解码子网络的输出数据和第二解码子网络的输出数据进行特征融合。如此，在混合解码网络中，既利用了自注意力机制提高目标检测的准确性，又通过独立的解码网络分支和融合网络，实现第一鸟瞰图特征和第二鸟瞰图特征的独立解码和特征融合，提高了第一鸟瞰图特征和第二鸟瞰图特征的特征耦合效果。

基于混合解码网络包括自注意力网络、线性变换网络、第一解码子网络、第二解码子网络和融合网络，图4为根据本公开实施例提供的目标检测方法的流程示意图三。如图4所示，目标检测方法包括：

S401，获取多视角图像对应的第一鸟瞰图特征和第二鸟瞰图特征，第一鸟瞰图特征是基于多视角图像的深度信息进行特征转换得到的，第二鸟瞰图特征是基于位置编码网络对多视角图像进行特征编码得到的。

其中，S401的实现原理和技术效果可参照前述实施例，不再赘述。

S402，将第一鸟瞰图特征和第二鸟瞰图特征输入混合解码网络，其中，混合解码网络包括自注意力网络、线性变换网络、第一解码子网络、第二解码子网络和融合网络。

S403，通过自注意力网络得到目标查询向量。

本实施例中，可将多视角图像中检测框的初始位置信息输入至自注意力网络中，在自注意力网络中，利用自注意力机制对多视角图像中检测框的初始位置信息进行特征提取，得到目标查询向量。

S404，通过线性变换网络对第一鸟瞰图特征进行线性变换，得到第一鸟瞰图特征对应的第一值向量和第一键向量。

本实施例中，在注意力机制中，特征向量的键向量K、值向量V和查询向量Q是特征向量在不同的子空间中的映射，可通过对特征向量进行线性变换，得到特征向量的键向量K、值向量V和查询向量Q。因此，可将第一鸟瞰图特征输入至线性变换网络中进行线性变换，得到第一鸟瞰图特征对应的第一值向量和第一鸟瞰图特征对应的第一键向量。

S405，通过线性变换网络对第二鸟瞰图特征进行线性变换，得到第二鸟瞰图特征对应的第二值向量和第二键向量。

其中，对第一鸟瞰图特征进行线性变换的线性变换网络和对第二鸟瞰图特征进行线性变换网络可为不同的线性变换网络。

本实施例中，可将第二鸟瞰图特征输入至线性变换网络中进行线性变换，得到第二鸟瞰图特征对应的第二值向量和第二鸟瞰图特征对应的第二键向量。

S406，通过第一解码子网络对第一值向量、第一键向量和目标查询向量进行特征解码，得到第一解码特征。

本实施例中，将第一值向量、第一键向量和目标查询向量输入至第一解码子网络中进行特征解码，得到第一解码特征。

S407，通过第二解码子网络对第二值向量、第二键向量和目标查询向量进行特征解码，得到第二解码特征。

本实施例中，将第二值向量、第二键向量和目标查询向量输入至第二解码子网络中进行特征解码，得到第解码特征。

S408，通过融合网络对第一解码特征和第二解码特征进行融合处理，得到第一鸟瞰图特征与第二鸟瞰图特征的耦合特征。

本实施例中，将第一解码特征和第二解码特征输入至融合网络中，在融合网络中对第一解码特征和第二解码特征进行相加，或者，在融合网络中对第一解码特征和第二解码特征进行加权，得到耦合特征。

S409，基于耦合特征进行目标检测，得到多视角图像对应的目标检测结果。

其中，S409的实现原理和技术效果可参照前述实施例，不再赘述。

本公开实施例中，在混合编码网络中，利用自注意力机制，对检测框的初始位置信息进行特征提取，得到目标检测向量，提高目标检测向量的准确性；通过独立的第一解码子网络，对第一鸟瞰图特征的第一值向量、第一鸟瞰图特征的第一键向量和目标查询向量进行特征解码，得到第一解码特征；通过独立的第二解码子网络，对第二鸟瞰图特征的第二值向量、第二鸟瞰图特征的第二键向量和目标查询向量进行特征解码，得到第二解码特征，通过独立的两个解码网络分支提高了对第一鸟瞰图特征和第二鸟瞰图特征的特征解码准确性；通过融合网络对第一解码特征和第二解码特征进行融合，得到耦合特征。从而，利用注意力机制、独立的两个解码网络分支、融合网络，提高了第一鸟瞰图特征与第二鸟瞰图特征在混合编码网络中的特征耦合效果，进而提高了多视角图像的目标检测的准确性。

在一些实施例中，第一解码子网络包括交叉注意力层、第一归一化层、全连接层和第二归一化层。其中，在第一解码子网络中，交叉注意力层利用交叉注意力（cross-attention）机制对第一值向量、第一键向量和目标查询向量进行特征融合；第一归一化层和第二归一化层用于对输入第一归一化层和第二归一化层的数据进行归一化处理。

基于第一解码子网络包括交叉注意力层、第一归一化层、全连接层和第二归一化层，在一种可能的实现方式中，通过第一解码子网络对第一值向量、第一键向量和目标查询向量进行特征解码，得到第一解码特征，可包括：将第一值向量、第一键向量和目标查询向量输入至交叉注意力层，在交叉注意力层中利用交叉注意力机制进行特征融合，得到交叉注意力层输出的第一注意力特征；将第一注意力特征与目标查询向量的相加结果输入至第一归一化层中进行归一化处理，得到第一归一化数据；将第一归一化数据输入至全连接层中进行特征解码，得到全连接层的输出数据；将全连接层的输出数据与第一归一化数据的相加结果输入至第二归一化层中进行归一化处理，得到第一解码特征。从而，利用交叉注意力机制可以对不同形式的特征进行融合的特点，在第一解码子网络中通过交叉注意力机制对特征形式为图像特征的第一值向量和第一键向量、特征形式为位置特征的目标查询向量进行融合，提高了第一解码子网络的特征解码的准确性。

在一种可能的实现方式中，将第一值向量、第一键向量和目标查询向量输入至交叉注意力层，在交叉注意力层中利用交叉注意力机制进行特征融合，得到交叉注意力层输出的第一注意力特征，可包括：根据第一键向量和目标查询向量计算注意力矩阵，再根据注意力矩阵和第一键向量，计算得到第一注意力特征。其中，具体的计算过程可参照交叉注意力机制，不进行详述。

在一些实施例中，第一解码子网络的网络结构与第二解码子网络的网络结构相同。因此，第二解码子网络中的网络层的作用、特征处理过程以及技术效果可参照第一解码子网络，在此不再赘述。

在一些实施例中，自注意力网络可包括自注意力层和第三归一化层，其中，自注意力层用于基于自注意力机制进行特征处理，第三归一化层用于对输入第三归一化层的数据进行归一化处理。

基于自注意力网络包括自注意力层和第三归一化层，在一种可能的实现方式中，通过自注意力网络得到目标查询向量，可包括：获取初始化检测向量；通过线性变换网络对初始化检测向量进行线性变换，得到初始化检测向量的第三键向量、初始化检测向量的第三值向量以及初始化检测向量的查询向量；将第三键向量、第三值向量以及查询向量输入至自注意力层，在自注意力层中利用自注意力机制进行特征融合，得到自注意力层输出的第二注意力特征；将第二注意力特征与初始化检测向量的相加结果输入至第三归一化层中进行归一化处理，得到目标查询向量。从而，基于初始化检测向量以及自注意力网络，提高目标查询向量的准确性。

其中，初始化检测向量表示多视角图像中检测框的初始位置信息。

本实施例中，可对多视角图像中检测框的位置信息进行随机初始化，得到检测框的初始位置信息，对检测框的初始位置信息进行组合，得到初始化检测向量。接着，可将初始化向量输入至线性变换网络中进行线性变换，得到初始化检测向量的第三键向量、初始化检测向量的第三值向量以及初始化检测向量的查询向量；将第三键向量、第三值向量以及查询向量输入至自注意力层，在自注意力层中利用自注意力机制进行特征融合，得到自注意力层输出的第二注意力特征；将第二注意力特征与初始化检测向量的相加结果输入至第三归一化层中进行归一化处理，得到目标查询向量。

进一步的，检测框的初始位置信息包括检测框的中心点初始位置，其中，检测框的中心点初始位置是指检测框的中心点在多视角图像上的像素坐标。

作为示例的，图5为本公开实施例提供的混合解码网络的结构示意图。如图5所示，混合解码网络包括自注意力网络、线性变换网络、第一解码子网络、第二解码子网络和融合网络，自注意力网络包括自注意力层和第三归一化层，第一解码子网络包括交叉注意力层、第一归一化层、全连接层和第二归一化层，第二解码子网络的结构与第一解码子网络的结构一致，也包括交叉注意力层、第一归一化层、全连接层和第二归一化层。需要说明的是，第一解码子网络与第二解码子网络相互独立，第一解码子网络中的交叉注意力层、第一归一化层、全连接层、第二归一化层与第二解码子网络中的交叉注意力层、第一归一化层、全连接层、第二归一化层分别为不同的网络层。

如图5所示，混合解码网络的特征处理过程可包括：

首先，将第一鸟瞰图特征输入至线性变换层中进行线性变换，得到第一鸟瞰图特征的第一值向量V1和第一鸟瞰图特征的第一键向量K1；将第二鸟瞰图特征输入至线性变换层中进行线性变换，得到第二鸟瞰图特征的第二值向量V2和第二鸟瞰图特征的第二键向量K2；初始化检测向量中包括多个检测框的中心点初始位置，将初始化检测向量输入至线性变换网络中进行线性变换，得到初始化检测向量的第三值向量V3、初始化检测向量的第三键向量K3以及初始化检测向量的第三查询向量Q3（前文并未出现Q1和Q2，这里为了表示方式统一，使用V3、K3、Q3来分别表示初始检测向量的值向量、键向量、查询向量，“第三”仅起区分作用，并无其他含义）；将第三值向量V3、第三键向量K3、第三查询向量Q3输入至自注意力层，得到自注意力层输出的第二注意力特征；将第二注意力特征与初始化检测向量相加，得到相加结果，将相加结果输入至第三归一化层中进行归一化处理，得到目标查询向量Q4。

接着，在第一解码子网络中，将第一值向量V1、第一键向量K1和目标查询向量Q4输入至交叉注意力层中进行特征融合，得到交叉注意力层输出的第一注意力特征；将第一注意力特征与目标查询向量Q4相加，得到相加结果，将相加结果输入至第一归一化层中进行归一化处理，得到第一归一化数据；将第一归一化数据输入至全连接层中进行特征解码，得到全连接层的输出数据；将全连接层的输出数据与第一归一化数据相加，得到相加结果，将相加结果输入至第二归一化层中进行归一化处理，得到第一解码特征。同样的，在第二解码子网络中，将第二值向量V2、第二键向量K2和目标查询向量Q4输入至交叉注意力层中进行特征融合，之后的处理过程可以参照第一解码子网络，最终得到第二解码特征。

最后，将第一解码特征和第二解码特征输入至融合网络中，在融合网络中对第一解码特征和第二解码特征进行相加，得到耦合特征。

下面，提供第一鸟瞰图的获取过程和第二鸟瞰图的获取过程的实施例。

在一些实施例中，第一鸟瞰图特征的获取过程可包括：获取多视角图像的二维特征；将多视角图像的二维特征输入至深度网络中进行深度提取，得到多视角图像的深度信息；根据多视角图像的深度信息，通过视图变换（View Transformation）将多视角图像的二维特征转换为三维特征；对三维特征进行体素池化（Voxel Pooling），得到多视角图像对应的第一鸟瞰图特征。

其中，多视角图像的二维特征，可包括多视角图像中的各个图像分别在二维空间的图像特征；三维特征（即多视角图像的三维特征）可包括多视角图像中的各个图像分别在三维空间中的图像特征；多视角图像的深度信息，可包括多视角图像中的各个图像分别对应的深度信息。

本实施例中，可将多视角图像中的各个图像分别输入至二维特征提取网络中进行特征提取，得到各个图像分别对应的二维特征，或者，可从数据库中获取多视角图像中各个图像分别对应的二维特征，或者，接收特征提取设备发送的多视角图像中各个图像分别对应的二维特征。接着，可将各个图像分别对应的二维特征输入至深度网络中进行深度信息的提取，得到各个图像分别对应的深度信息；从各个图像分别对应的二维特征中提取出内容特征（Content Feature），内容特征中包含二维特征中的主要内容；针对各个图像，基于图像对应的深度信息和相机内外参，对图像对应的内容特征进行特征变换，得到图像对应的三维特征；之后，对各个图像对应的三维特征进行体素池化，得到多视角图像对应的第一鸟瞰图特征。从而，通过基于深度信息的视图变换、对变换后的特征进行体素池化，提高第一鸟瞰图特征的准确性。

在一些实施例中，第二鸟瞰图特征的获取过程可包括：获取多视角图像的二维特征；获取多视角图像对应的空间点位置，空间点位置包括多视角图像所对应拍摄装置的拍摄范围内的空间点在世界坐标系中的坐标；将二维特征和空间点位置输入至位置编码网络中进行特征编码，得到第二鸟瞰图特征。

其中，在多视角图像中，不同视角的图像是由不同的拍摄装置拍摄得到的，在各个拍摄装置的拍摄范围中包括多个空间点，可针对各个拍摄装置，获取拍摄装置的拍摄范围中的空间点在世界坐标系中的坐标。

本实施例中，可将多视角图像中的各个图像分别输入至二维特征提取网络中进行特征提取，得到各个图像分别对应的二维特征，或者，可从数据库中获取多视角图像中各个图像分别对应的二维特征，或者，接收特征提取设备发送的多视角图像中各个图像分别对应的二维特征。针对各个拍摄装置，可将拍摄装置的拍摄范围中的空间点在相机视锥空间（Camera frustum space）中的坐标转换至空间点在世界坐标系中的坐标，得到拍摄装置拍摄的图像对应的空间点位置，即得到多视角图像对应的空间点位置；或者，可预先生成多视角图像对应的空间点位置并保存至数据库中，在获取第二鸟瞰图特征的过程中，可从数据库中直接获取多视角图像对应的空间点位置。在得到多视角图像对应的空间点位置之后，可将多视角图像的二维特征和多视角图像对应的空间点位置输入至位置编码网络中，在位置编码网络中基于多视角图像对应的空间点位置，对多视角图像的二维特征进行特征编码，得到第二鸟瞰图特征。从而，在特征编码得到鸟瞰图特征的过程中，基于多视角图像对应的空间点位置，对多视角图像的二维特征进行更好地融合，提高第二鸟瞰图特征的准确性。

在一种可能的实现方式中，位置编码网络可包括卷积层、多个全连接层和激活函数层。基于此，第二鸟瞰图的获取过程可包括：可将多视角图像对应的空间点位置输入至全连接层中进行特征提取，得到全连接层的输出数据；接着，将全连接层的输出数据输入至激活函数层中进行特征处理，得到激活函数层的输出数据；将激活函数层的输出数据输入至又一全连接层中，得到多视角图像对应的空间点位置的位置特征；可将多视角图像的二维特征输入至卷积层中进行特征编码，得到卷积层输出的编码特征；将编码特征与多视角图像对应的空间点位置的位置特征进行相加，得到相加结果，再通过再一全连接层对相加结果进行特征处理，得到第二鸟瞰图特征。

作为示例的，图6为本公开实施例提供的目标检测方法所涉及的模型结构示意图。如图6所示，目标检测方法所涉及的模型结构包括主干网络、深度网络、三维位置网络和混合编码网络。以多视角图像为车辆周围多个视角的场景图像为例，在目标检测的过程中，可将多视角图像输入至主干网络中进行特征提取，得到多视角图像的二维特征，之后，可通过两个网络分支来分别提取第一鸟瞰图特征和第二鸟瞰图特征：在第一个网络分支中，可将多视角图像的二维特征输入至深度网络中进行深度信息提取，得到多视角图像的深度信息，基于多视角图像的深度信息和多视角图像的二维特征中的内容特征，进行视图变换和体素池化，得到第一鸟瞰图特征；在第二个网络分支中，可将空间点在相机视锥空间的坐标转换至在三维世界空间（即世界坐标系）的坐标，不同的相机对应不同的相机视锥空间，所以，可对每个相机的拍摄范围内的空间点，都进行坐标的转换，得到多视角图像对应的空间点位置，将多视角图像的二维特征和多视角图像对应的空间点位置输入至三维位置网络（即前述实施例中的位置编码网络）中进行特征编码，得到第二鸟瞰图特征。之后，将第一鸟瞰图特征和第二鸟瞰图特征输入至混合解码网络中进行特征解码和特征耦合，得到耦合特征。

其中，主干网络可为二维图像的特征编码网络。

在一些实施例中，基于耦合特征进行目标检测，得到多视角图像对应的目标检测结果，包括：将耦合特征输入至预测网络中进行位置预测，得到多视角图像中预测框的类别得分和预测框的位置信息；其中，目标检测结果包括预测框的类别得分和预测框的位置信息，位置信息包括如下至少一种：预测框的中心点位置坐标、预测框的尺寸信息、预测框的朝向角。从而，基于第一鸟瞰图特征与第二鸟瞰图特征的耦合特征，提高了预测框的类别得分和预测框的位置信息的准确性，即提高了目标的类别和位置的准确性。

其中，预测框用于标注多视角图像中出现的目标；预测框的类别得分用于确定预测框中目标的类别，比如，预测框的类别得分包括行人20分、车辆80分，则可以确定预测框中目标的类别为车辆；预测框的尺寸信息可包括预测框的长、宽、高。

下面，提供模型训练过程的实施例。

图7为根据本公开实施例提供的模型训练方法的流程示意图。如图7所示，模型训练方法包括：

S701，获取多视角训练图像对应的第一鸟瞰图特征和第二鸟瞰图特征，第一鸟瞰图特征是基于多视角训练图像的深度信息进行特征转换得到的，第二鸟瞰图特征是基于位置编码网络对多视角训练图像进行特征编码得到的。

其中，多视角训练图像为用于模型训练的多视角图像。

S702，将第一鸟瞰图特征和第二鸟瞰图特征输入至混合解码网络进行特征耦合，得到耦合特征。

S703，基于耦合特征进行目标检测，得到多视角训练图像对应的目标检测结果。

其中，S701~S703的实现原理和技术效果可参照前述实施例，不再赘述。

S704，根据目标检测结果与多视角训练图像对应的真实目标信息之间的差异，对混合解码网络进行参数调整，得到训练后的混合解码网络。

本实施例中，可将多视角训练图像对应的目标检测结果与多视角训练图像对应的真实目标信息进行比较，得到目标检测结果与多视角训练图像对应的真实目标信息之间的差异，根据目标检测结果与多视角训练图像对应的真实目标信息之间的差异，确定损失值，基于损失值对混合解码网络进行参数调整，完成混合解码网络的一次训练。可对混合解码网络进行一次或多次训练，得到训练后的混合解码网络。

在一种可能的实现方式中，多视角训练图像对应的目标检测结果包括多视角训练图像中预测框的类别得分和预测框的位置信息，多视角训练图像对应的真实目标信息包括多视角训练图像中真实目标的类别和位置信息。可根据预测框的类别得分与真实目标的类别之间的差异，确定类别损失值；可根据预测框的位置信息与真实目标的位置信息之间的差异，确定位置损失值；根据类别损失值和位置损失值，对混合解码网络进行参数调整，得到训练后的混合解码网络。从而，从类别和位置两个维度提高目标检测的准确性。

本公开实施例中，基于多视角训练图像，训练用于对基于深度信息进行特征转换得到的鸟瞰图特征和基于位置编码网络得到的鸟瞰图特征进行耦合的混合编码网络，提高混合编码网络对该两类鸟瞰图特征进行特征耦合的准确性和合理性，进而提高多视角图像的目标检测准确性。

在一些实施例中，目标检测过程所涉及的网络除混合解码网络之外，还包括主干网络（用于提取多视角图像的二维特征）、深度网络、位置编码网络中至少一种的情况下，还可基于目标检测结果与多视角训练图像对应的真实目标信息之间的差异，对主干网络（用于提取多视角图像的二维特征）、深度网络、位置编码网络中的至少一种进行参数调整，以提高目标检测过程所涉及的各个网络的特征处理的准确性，提高目标检测准确性。

图8为本公开实施例提供的目标检测装置的结构示意图一。如图8所示，目标检测装置800包括：

特征获取单元801，用于获取多视角图像对应的第一鸟瞰图特征和第二鸟瞰图特征，第一鸟瞰图特征是基于多视角图像的深度信息进行特征转换得到的，第二鸟瞰图特征是基于位置编码网络对多视角图像进行特征编码得到的；

特征耦合单元802，用于对第一鸟瞰图特征和第二鸟瞰图特征进行特征耦合，得到耦合特征；

目标检测单元803，用于基于耦合特征进行目标检测，得到多视角图像对应的目标检测。

图9为本公开实施例提供的目标检测装置的结构示意图二。如图9所示，目标检测装置900包括：

特征获取单元901，用于获取多视角图像对应的第一鸟瞰图特征和第二鸟瞰图特征，第一鸟瞰图特征是基于多视角图像的深度信息进行特征转换得到的，第二鸟瞰图特征是基于位置编码网络对多视角图像进行特征编码得到的；

特征耦合单元902，用于对第一鸟瞰图特征和第二鸟瞰图特征进行特征耦合，得到耦合特征；

目标检测单元903，用于基于耦合特征进行目标检测，得到多视角图像对应的目标检测。

在一些实施例中，特征耦合单元902包括：混合解码模块9021，用于将第一鸟瞰图特征和第二鸟瞰图特征输入至混合解码网络进行特征耦合，得到耦合特征。

在一些实施例中，混合解码网络包括自注意力网络、线性变换网络、第一解码子网络、第二解码子网络和融合网络，混合解码模块9021包括：自注意力子模块（图中未示出），用于通过自注意力网络得到目标查询向量；第一线性变换子模块（图中未示出），用于通过线性变换网络对第一鸟瞰图特征进行线性变换，得到第一鸟瞰图特征对应的第一值向量和第一键向量；第二线性变换子模块（图中未示出），用于通过线性变换网络对第二鸟瞰图特征进行线性变换，得到第二鸟瞰图特征对应的第二值向量和第二键向量；第一特征解码子模块（图中未示出），用于通过第一解码子网络对第一值向量、第一键向量和目标查询向量进行特征解码，得到第一解码特征；第二特征解码子模块（图中未示出），用于通过第二解码子网络对第二值向量、第二键向量和目标查询向量进行特征解码，得到第二解码特征；融合子模块（图中未示出），用于通过融合网络对第一解码特征和第二解码特征进行融合处理，得到耦合特征。

在一些实施例中，第一解码子网络包括交叉注意力层、第一归一化层、全连接层和第二归一化层，第一特征解码子模块具体用于：将第一值向量、第一键向量和目标查询向量输入至交叉注意力层，在交叉注意力层中利用交叉注意力机制进行特征融合，得到交叉注意力层输出的第一注意力特征；将第一注意力特征与目标查询向量的相加结果输入至第一归一化层中进行归一化处理，得到第一归一化数据；将第一归一化数据输入至全连接层中进行特征解码，得到全连接层的输出数据；将全连接层的输出数据与第一归一化数据的相加结果输入至第二归一化层中进行归一化处理，得到第一解码特征。

在一些实施例中，第一解码子网络的网络结构与第二解码子网络的网络结构相同。

在一些实施例中，自注意力网络包括自注意力层和第三归一化层，自注意力子模块具体用于：获取初始化检测向量；通过线性变换网络对初始化检测向量进行线性变换，得到初始化检测向量的第三键向量、初始化检测向量的第三值向量以及初始化检测向量的查询向量；将第三键向量、第三值向量以及查询向量输入至自注意力层，在自注意力层中利用自注意力机制进行特征融合，得到自注意力层输出的第二注意力特征；将第二注意力特征与初始化检测向量的相加结果输入至第三归一化层中进行归一化处理，得到目标查询向量。

在一些实施例中，特征获取单元901包括：第一特征获取模块9011，用于获取多视角图像的二维特征；深度提取模块9012，用于将二维特征输入至深度网络中进行深度提取，得到深度信息；特征转换模块9013，用于根据深度信息，通过视图变换将二维特征转换为三维特征；体素池化模块9014，用于对三维特征进行体素池化，得到第一鸟瞰图特征。

在一些实施例中，特征获取单元901包括：第二特征获取模块9015，用于获取多视角图像的二维特征；空间点位置获取模块9016，用于获取多视角图像对应的空间点位置，空间点位置包括多视角图像所对应拍摄装置的拍摄范围内的空间点在世界坐标系中的坐标；位置编码模块9017，用于将二维特征和空间点位置输入至位置编码网络中进行特征编码，得到第二鸟瞰图特征。

其中，第一特征获取模块9011和第二特征获取模块9015可为同一模块。

在一些实施例中，目标检测单元903包括：位置预测模块9031，用于将耦合特征输入至预测网络中进行位置预测，得到多视角图像中预测框的类别得分和预测框的位置信息；其中，目标检测结果包括类别得分和位置信息，位置信息包括如下至少一种：预测框的中心点位置坐标、预测框的尺寸信息、预测框的朝向角。

图8~图9提供的目标检测装置，可以执行上述相应的目标检测方法的实施例，其实现原理和技术效果类似，在此不再赘述。

图10为本公开实施例提供的模型训练装置的结构示意图。如图10所示，模型训练装置1000包括：

特征获取单元1001，用于获取多视角训练图像对应的第一鸟瞰图特征和第二鸟瞰图特征，第一鸟瞰图特征是基于多视角训练图像的深度信息进行特征转换得到的，第二鸟瞰图特征是基于位置编码网络对多视角训练图像进行特征编码得到的；

特征耦合单元1002，用于将第一鸟瞰图特征和第二鸟瞰图特征输入至混合解码网络进行特征耦合，得到耦合特征；

目标检测单元1003，用于基于耦合特征进行目标检测，得到多视角训练图像对应的目标检测结果；

参数调整单元1004，用于根据目标检测结果与多视角训练图像对应的真实目标信息之间的差异，对混合解码网络进行参数调整，得到训练后的混合解码网络。

根据本公开的实施例，本公开还提供了一种电子设备，电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述任一实施例提供的方案。

根据本公开实施例，本公开还提供了一种自动驾驶车辆，自动驾驶车辆包括前述实施例提供的电子设备，自动驾驶车辆中的电子设备中的处理器能够执行上述任一实施例提供的方案。

根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述任一实施例提供的方案。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图11为可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器（Read Only Memory，简称ROM）（例如ROM1102）中的计算机程序或者从存储单元1108加载到随机访问存储器（Random Access Memory，简称RAM）（例如RAM1103）中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储电子设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出（I/O）接口（例如I/O接口1105）也连接至总线1104。

电子设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元（Central Processing Unit，简称CPU）、图形处理单元（Graphic Processing Unit，简称GPU）、各种专用的人工智能（ArtificialIntelligence，简称AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（Digital Signal Process，简称DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如目标检测方法、模型训练方法。例如，在一些实施例中，目标检测方法、模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的目标检测方法、模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行目标检测方法、模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（Field Program Gate Array，简称FPGA）、专用集成电路（Application Specific Integrated Circuit，简称ASIC）、专用标准产品（ApplicationSpecific Standard Parts，简称ASSP）、芯片上系统的系统（System On a Chip，简称SOC）、复杂可编程逻辑设备（Complex Programming Logic Device，简称CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（Erasable Programmable Read Only Memory，简称EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（Compact Disc Read-Only Memory，简称CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（Local Area Network，简称LAN）、广域网（Wide Area Network，简称WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称 "VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种目标检测方法，其特征在于，包括：

2.根据权利要求1所述的目标检测方法，其特征在于，所述对所述第一鸟瞰图特征和所述第二鸟瞰图特征进行特征耦合，得到耦合特征，包括：

将所述第一鸟瞰图特征和所述第二鸟瞰图特征输入至混合解码网络进行特征耦合，得到所述耦合特征。

3.根据权利要求2所述的目标检测方法，其特征在于，所述混合解码网络包括自注意力网络、线性变换网络、第一解码子网络、第二解码子网络和融合网络，所述将所述第一鸟瞰图特征和所述第二鸟瞰图特征输入至混合解码网络进行特征耦合，得到所述耦合特征，包括：

通过所述自注意力网络得到目标查询向量；

通过线性变换网络对所述第一鸟瞰图特征进行线性变换，得到所述第一鸟瞰图特征对应的第一值向量和第一键向量；

通过线性变换网络对所述第二鸟瞰图特征进行线性变换，得到所述第二鸟瞰图特征对应的第二值向量和第二键向量；

通过所述第一解码子网络对所述第一值向量、所述第一键向量和所述目标查询向量进行特征解码，得到第一解码特征；

通过所述第二解码子网络对所述第二值向量、所述第二键向量和所述目标查询向量进行特征解码，得到第二解码特征；

通过融合网络对所述第一解码特征和所述第二解码特征进行融合处理，得到所述耦合特征。

4.根据权利要求3所述的目标检测方法，其特征在于，所述第一解码子网络包括交叉注意力层、第一归一化层、全连接层和第二归一化层，所述通过所述第一解码子网络对所述第一值向量、所述第一键向量和所述目标查询向量进行特征解码，得到第一解码特征，包括：

将所述第一值向量、所述第一键向量和所述目标查询向量输入至所述交叉注意力层，在所述交叉注意力层中利用交叉注意力机制进行特征融合，得到所述交叉注意力层输出的第一注意力特征；

将所述第一注意力特征与所述目标查询向量的相加结果输入至所述第一归一化层中进行归一化处理，得到第一归一化数据；

将所述第一归一化数据输入至所述全连接层中进行特征解码，得到所述全连接层的输出数据；

将所述全连接层的输出数据与所述第一归一化数据的相加结果输入至所述第二归一化层中进行归一化处理，得到所述第一解码特征。

5.根据权利要求4所述的目标检测方法，其特征在于，所述第一解码子网络的网络结构与所述第二解码子网络的网络结构相同。

6.根据权利要求3至5中任一项所述的目标检测方法，其特征在于，所述自注意力网络包括自注意力层和第三归一化层，所述通过所述自注意力网络得到目标查询向量，包括：

获取初始化检测向量；

通过线性变换网络对所述初始化检测向量进行线性变换，得到所述初始化检测向量的第三键向量、所述初始化检测向量的第三值向量以及所述初始化检测向量的查询向量；

将所述第三键向量、所述第三值向量以及所述查询向量输入至所述自注意力层，在所述自注意力层中利用自注意力机制进行特征融合，得到所述自注意力层输出的第二注意力特征；

将所述第二注意力特征与所述初始化检测向量的相加结果输入至所述第三归一化层中进行归一化处理，得到所述目标查询向量。

7.根据权利要求1至5中任一项所述的目标检测方法，其特征在于，获取所述第一鸟瞰图特征，包括：

获取所述多视角图像的二维特征；

将所述二维特征输入至深度网络中进行深度提取，得到所述深度信息；

根据所述深度信息，通过视图变换将所述二维特征转换为三维特征；

对所述三维特征进行体素池化，得到所述第一鸟瞰图特征。

8.根据权利要求1至5中任一项所述的目标检测方法，其特征在于，获取所述第二鸟瞰图特征，包括：

获取所述多视角图像的二维特征；

获取所述多视角图像对应的空间点位置，所述空间点位置包括所述多视角图像所对应拍摄装置的拍摄范围内的空间点在世界坐标系中的坐标；

将所述二维特征和所述空间点位置输入至所述位置编码网络中进行特征编码，得到所述第二鸟瞰图特征。

9.根据权利要求1至5中任一项所述的目标检测方法，其特征在于，所述基于所述耦合特征进行目标检测，得到所述多视角图像对应的目标检测结果，包括：

将所述耦合特征输入至预测网络中进行位置预测，得到所述多视角图像中预测框的类别得分和所述预测框的位置信息；

其中，所述目标检测结果包括所述类别得分和所述位置信息，所述位置信息包括如下至少一种：所述预测框的中心点位置坐标、所述预测框的尺寸信息、所述预测框的朝向角。

10.一种模型训练方法，其特征在于，包括：

11.一种目标检测装置，其特征在于，包括：

12.根据权利要求11所述的目标检测装置，其特征在于，所述特征耦合单元包括：

混合解码模块，用于将所述第一鸟瞰图特征和所述第二鸟瞰图特征输入至混合解码网络进行特征耦合，得到所述耦合特征。

13.根据权利要求12所述的目标检测装置，其特征在于，所述混合解码网络包括自注意力网络、线性变换网络、第一解码子网络、第二解码子网络和融合网络，所述混合解码模块包括：

自注意力子模块，用于通过所述自注意力网络得到目标查询向量；

第一线性变换子模块，用于通过线性变换网络对所述第一鸟瞰图特征进行线性变换，得到所述第一鸟瞰图特征对应的第一值向量和第一键向量；

第二线性变换子模块，用于通过线性变换网络对所述第二鸟瞰图特征进行线性变换，得到所述第二鸟瞰图特征对应的第二值向量和第二键向量；

第一特征解码子模块，用于通过所述第一解码子网络对所述第一值向量、所述第一键向量和所述目标查询向量进行特征解码，得到第一解码特征；

第二特征解码子模块，用于通过所述第二解码子网络对所述第二值向量、所述第二键向量和所述目标查询向量进行特征解码，得到第二解码特征；

融合子模块，用于通过融合网络对所述第一解码特征和所述第二解码特征进行融合处理，得到所述耦合特征。

14.根据权利要求13所述的目标检测装置，其特征在于，所述第一解码子网络包括交叉注意力层、第一归一化层、全连接层和第二归一化层，所述第一特征解码子模块具体用于：

15.根据权利要求14所述的目标检测装置，其特征在于，所述第一解码子网络的网络结构与所述第二解码子网络的网络结构相同。

16.根据权利要求13至15中任一项所述的目标检测装置，其特征在于，所述自注意力网络包括自注意力层和第三归一化层，所述自注意力子模块具体用于：

获取初始化检测向量；

对所述初始化检测向量进行线性变换，得到所述初始化检测向量的第三键向量、所述初始化检测向量的第三值向量以及所述初始化检测向量的查询向量；

将所述第三键向量、所述第三值向量以及所述查询向量输入至所述自注意力层，在所述自注意力层中利用注意力机制进行特征融合，得到所述自注意力层输出的第二注意力特征；

17.根据权利要求11至15中任一项所述的目标检测装置，其特征在于，所述特征获取单元包括：

第一特征获取模块，用于获取所述多视角图像的二维特征；

深度提取模块，用于将所述二维特征输入至深度网络中进行深度提取，得到所述深度信息；

特征转换模块，用于根据所述深度信息，通过视图变换将所述二维特征转换为三维特征；

体素池化模块，用于对所述三维特征进行体素池化，得到所述第一鸟瞰图特征。

18.根据权利要求11至15中任一项所述的目标检测装置，其特征在于，所述特征获取单元包括：

第二特征获取模块，用于获取所述多视角图像的二维特征；

空间点位置获取模块，用于获取所述多视角图像对应的空间点位置，所述空间点位置包括所述多视角图像所对应拍摄装置的拍摄范围内的空间点在世界坐标系中的坐标；

位置编码模块，用于将所述二维特征和所述空间点位置输入至所述位置编码网络中进行特征编码，得到所述第二鸟瞰图特征。

19.根据权利要求11至15中任一项所述的目标检测装置，其特征在于，所述目标检测单元包括：

位置预测模块，用于将所述耦合特征输入至预测网络中进行位置预测，得到所述多视角图像中预测框的类别得分和所述预测框的位置信息；

20.一种模型训练装置，其特征在于，包括：

21.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至9中任一项所述的目标检测方法，或者，以使所述至少一个处理器能够执行权利要求10所述的模型训练方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1至9中任一项所述的目标检测方法，或者，所述计算机指令用于使所述计算机执行根据权利要求10所述的模型训练方法。