CN111627001B

CN111627001B - 图像检测方法及装置

Info

Publication number: CN111627001B
Application number: CN202010449279.7A
Authority: CN
Inventors: 刘配; 杨国润; 王哲; 石建萍
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2024-05-17
Anticipated expiration: 2040-05-25
Also published as: CN111627001A

Abstract

本公开提供了一种图像检测方法、行驶控制方法、装置、电子设备及存储介质，该方法包括：获取待检测图像；对所述待检测图像进行目标检测，确定所述待检测图像中目标对象的二维检测数据，并确定与所述二维检测数据对应的形状数据集；所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据；基于所述待检测图像和所述多种平均形状数据，确定所述目标对象对应的三维检测数据；基于所述三维检测数据以及所述二维检测数据，确定所述目标对象对应的目标三维位姿数据。

Description

图像检测方法及装置

技术领域

本公开涉及图像检测技术领域，具体而言，涉及一种图像检测方法、行驶控制方法、装置、电子设备及存储介质。

背景技术

单目三维3D目标检测是计算机视觉领域中最基础的问题之一，对于单个视角的目标图像，单目3D检测的任务是从目标图像中检测出目标对象的3D位姿信息。单目3D目标检测可以应用于位置估计、场景建模等任务，因此，设计一种准确度较高的单目3D检测方法至关重要。

单目3D检测方法的关键在于3D候选框的生成，一般的，可以根据二维2D检测结果生成3D候选框，但是在具体实施时，2D检测结果存在对应二维检测框被遮挡、被截断、模糊的情况，使得基于2D检测结果得到的3D候选框的准确度较低。

发明内容

有鉴于此，本公开至少提供一种图像检测方法、行驶控制方法、装置、电子设备及存储介质。

第一方面，本公开提供了一种图像检测方法，包括：

获取待检测图像；

对所述待检测图像进行目标检测，确定所述待检测图像中目标对象的二维检测数据；

确定与所述二维检测数据对应的形状数据集；所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据；

基于所述待检测图像和所述多种平均形状数据，确定所述目标对象对应的三维检测数据；

基于所述三维检测数据以及所述二维检测数据，确定所述目标对象对应的目标三维位姿数据。

由于多种平均形状数据能够更全面地表征待检测图像，在基于待检测图像和多种平均形状数据，确定目标对象对应的目标三维位姿数据时，可以较准确的确定目标对象对应的三维检测数据，提高图像检测的精确度。

一种可能的实施方式中，所述基于所述待检测图像和所述多种平均形状数据，确定所述目标对象对应的三维检测数据，包括：

基于所述二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息，从所述待检测图像对应的特征图中截取所述目标对象对应的目标特征图；

基于所述目标对象对应的所述目标特征图和所述多种平均形状数据，确定所述目标对象对应的三维检测数据。

上述实施方式下，通过从特征图中截取得到目标特征图，可以将特征图中的背景部分筛除，保留目标对象的特征图，从而基于目标特征图和多种平均形状数据，确定目标对象对应的三维检测数据时，可以提高得到的三维检测数据的精确度。

一种可能的实施方式中，确定与所述二维检测数据对应的形状数据集，包括：

基于所述二维检测数据指示的对象类别，以及预先确定的不同对象类别对应的形状数据集，确定所述二维检测数据对应的形状数据集。

上述实施方式中，预先确定不同对象类别分别对应的形状数据集，形状数据集中包括多种平均形状数据，在得到二维检测数据后，可以基于二维检测数据指示的对象类别，从预先确定的不同对象类别对应的形状数据集中，选择目标对象类别对应的形状数据集，进而较快地得到二维检测数据对应的形状数据集。

一种可能的实施方式中，根据以下步骤预先确定不同对象类别对应的形状数据集：

针对每种对象类别，获取该对象类别下的多个图像；

基于所述多个图像中目标对象的真实高度，将所述多个图像划分为多个图像集合；

基于每个图像集合内各个图像中目标对象的形状数据，确定该图像集合对应的平均形状数据，将各个图像集合对应的平均形状数据，组成所述对象类别下的所述形状数据集。

上述实施方式下，通过基于目标对象的真实高度，得到对象类别下的多个图像集合，进而基于该对象类别下的各个图像集合对应的平均形状数据，确定该对象类别对应的形状数据集，为后续确定目标对象的三维检测数据提供了数据支持。

一种可能的实施方式中，基于每个图像集合内各个图像中目标对象的形状数据，确定该图像集合对应的平均形状数据，包括：

基于该图像集合内各个图像中目标对象的真实三维尺寸，确定该图像集合对应的目标对象的平均三维尺寸；

基于该图像集合对应的目标对象的平均三维尺寸，确定将所述平均三维尺寸下的目标对象置于不同深度信息指示的深度位置处后，该目标对象的三维框在二维图像平面的投影包围框的宽度信息，并建立的宽度信息与对应的深度信息之间的映射关系；

将所述平均三维尺寸以及所述映射关系，作为所述图像集合对应的所述平均形状数据。

这里，每个对象类别下多个图像集合中，将每个图像集合对应的平均三维尺寸、以及宽度信息与深度信息之间的映射关系作为该图像集合对应的平均形状数据，这样，通过基于设置的同一对象类别下多种先验形状信息(即设置的多种平均形状数据)以及待检测图像，确定三维检测数据时，可以提高三维检测数据的准确度。

一种可能的实施方式中，基于所述待检测图像和所述多种平均形状数据，确定所述目标对象对应的三维检测数据，包括：

基于所述待检测图像和所述多种平均形状数据，确定每种平均形状数据对应的残差信息以及该残差信息的置信度；

根据每种平均形状数据对应的残差信息以及该残差信息的置信度，确定所述目标对象对应的所述三维检测数据。

在上述实施方式中，可以基于得到的每种平均形状数据对应的残差信息以及该残差信息的置信度，确定目标对象的三维检测数据，由于考虑了不同平均形状数据所对应的残差信息的置信度，可以提高得到的三维检测数据的准确度。

一种可能的实施方式中，所述根据每种平均形状数据对应的残差信息以及该残差信息的置信度，确定所述目标对象对应的所述三维检测数据，包括：

针对每种平均形状数据，利用该平均形状数据对应的所述残差信息指示的尺寸调整值对该平均形状数据中的平均三维尺寸进行调整，得到该平均形状数据对应的调整后的候选三维尺寸，以及利用该平均形状数据对应的所述残差信息指示的深度调整值对该平均形状数据中的深度信息进行调整，得到该平均形状数据对应的调整后的候选深度；

根据每种平均形状数据对应的所述残差信息的置信度，从调整后的多种候选三维尺寸和对应的候选深度中，选择对应最大置信度的目标三维尺寸和目标深度，以及将对应最大置信度的平均形状数据的形状类别作为所述目标对象的目标形状类别；

将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。

从每种平均形状数据对应的残差信息中，选择置信度最大的残差信息作为目标残差信息，确定所述目标残差信息对应的目标平均形状数据，并将所述目标平均形状数据的形状类别作为所述目标对象的目标形状类别；

利用所述目标残差信息指示的尺寸调整值对所述目标平均形状数据中的平均三维尺寸进行调整，得到所述目标平均形状数据对应的调整后的目标三维尺寸，以及利用所述目标残差信息指示的深度调整值对所述目标平均形状数据中的深度信息进行调整，得到所述目标平均形状数据对应的调整后的目标深度；

上述实施方式下，可以先通过残差信息对对应的平均形状数据进行调整，在根据残差信息的置信度，确定三维检测数据，或者，也可以先根据残差信息的置信度确定目标残差信息以及目标平均形状数据，在利用目标残差信息对目标平均形状数据进行调整，得到三维检测数据，可以减少形状调整过程的运算量。

一种可能的实施方式中，基于所述三维检测数据以及所述二维检测数据，确定所述目标对象对应的目标三维位姿数据，包括：

从所述二维检测数据中，获取三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别；

将所述三维检测数据中的所述目标三维尺寸、所述目标深度、和所述目标形状类别，以及从所述二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别，确定为所述目标对象对应的目标三维位姿数据。

第二方面，本公开提供了一种行驶控制方法，包括：

获取行驶装置在行驶过程中采集的道路图像；

利用第一方面或第一方面任一实施方式所述的图像检测方法对所述道路图像进行检测，得到所述道路图像中包括的目标对象的目标三维位姿数据；

基于所述道路图像中包括的目标对象的目标三维位姿数据，控制所述行驶装置。

以下装置、电子设备等的效果描述参见上述方法的说明，这里不再赘述。

第三方面，本公开提供了一种图像检测装置，包括：

图像获取模块，用于获取待检测图像；

目标检测模块，用于对所述待检测图像进行目标检测，确定所述待检测图像中目标对象的二维检测数据；确定与所述二维检测数据对应的形状数据集；所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据；

三维检测数据确定模块，用于基于所述待检测图像和所述多种平均形状数据，确定所述目标对象对应的三维检测数据；

三维位姿数据确定模块，用于基于所述三维检测数据以及所述二维检测数据，确定所述目标对象对应的目标三维位姿数据。

一种可能的实施方式中，所述三维检测数据确定模块，在基于所述待检测图像和所述多种平均形状数据，确定所述目标对象对应的三维检测数据时，用于：

一种可能的实施方式中，所述目标检测模块，在确定与所述二维检测数据对应的形状数据集时，用于：

一种可能的实施方式中，所述装置还包括形状数据集确定模块，所述形状数据集确定模块，用于根据以下步骤预先确定不同对象类别分别对应的形状数据集：

针对每种对象类别，获取该对象类别下的多个图像；

一种可能的实施方式中，所述形状数据集确定模块，在基于每个图像集合内各个图像中目标对象的形状数据，确定该图像集合对应的平均形状数据时，用于：

一种可能的实施方式中，所述三维检测数据确定模块，在根据每种平均形状数据对应的残差信息以及该残差信息的置信度，确定所述目标对象对应的所述三维检测数据时，用于：

一种可能的实施方式中，所述三维位姿数据确定模块，在基于所述三维检测数据以及所述二维检测数据，确定所述目标对象对应的目标三维位姿数据时，用于：

第四方面，本公开提供了一种行驶控制装置，包括：

道路图像获取模块，用于获取行驶装置在行驶过程中采集的道路图像；

图像检测模块，用于利用第一方面或第一方面任一实施方式所述的图像检测方法对所述道路图像进行检测，得到所述道路图像中包括的目标对象的目标三维位姿数据；

控制模块，用于基于所述道路图像中包括的目标对象的目标三维位姿数据，控制所述行驶装置。

第五方面，本公开提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述第一方面或任一实施方式所述的图像检测方法的步骤，或执行如第二方面所述的行驶控制方法的步骤。

第六方面，本公开提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述第一方面或任一实施方式所述的图像检测方法的步骤，或执行如第二方面所述的行驶控制方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种图像检测方法的流程示意图；

图2示出了本公开实施例所提供的一种图像检测方法中，预先确定不同对象类别分别对应的形状数据集的方式的流程示意图；

图3示出了本公开实施例所提供的一种行驶控制方法的流程示意图；

图4示出了本公开实施例所提供的一种图像检测装置的架构示意图；

图5示出了本公开实施例所提供的一种行驶控制装置的架构示意图；

图6示出了本公开实施例所提供的一种电子设备600的结构示意图；

图7示出了本公开实施例所提供的另一种电子设备700的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

一般的，可以将根据二维2D检测结果和目标先验信息，生成3D候选框；比如，可以根据2D检测结果中包括的二维检测框的尺寸、位置信息以及预设的三维检测框的形状，生成对应的3D候选框，使得生成的3D候选框的尺寸与2D检测框的尺寸相匹配。但是，得到的二维检测框存在被遮挡、被截断、或者模糊的情况，使得基于2D检测结果和目标先验信息得到的3D候选框的准确度较低。

为了提高目标对象的三维位姿数据的准确度，本公开实施例提供了一种图像检测方法。

其中，本公开实施例提供的一种图像检测方法可以应用于终端设备、服务器中等。服务器可以是本地服务器也可以是云端服务器等，终端设备可以是智能手机、平板电脑、车载系统等，本公开对此并不限定。下述以该方法应用于服务器为例进行说明。

为便于对本公开实施例进行理解，首先对本公开实施例所公开的一种图像检测方法进行详细介绍。

参见图1所示，为本公开实施例所提供的一种图像检测方法的流程示意图，该方法包括S101-S104，其中：

S101，获取待检测图像；

S102，对待检测图像进行目标检测，确定待检测图像中目标对象的二维检测数据；确定与二维检测数据对应的形状数据集；形状数据集中包括目标对象所属对象类别下的多种平均形状数据；

S103，基于待检测图像和多种平均形状数据，确定目标对象对应的三维检测数据；

S104，基于三维检测数据以及二维检测数据，确定目标对象对应的目标三维位姿数据。

上述方法中，由于多种平均形状数据能够更全面地表征待检测图像，在基于待检测图像和多种平均形状数据，确定目标对象对应的目标三维位姿数据时，可以较准确的确定目标对象对应的三维检测数据，提高图像检测的精确度。

下述对S101-S104进行详细说明。

针对S101：

待检测图像可以为包括目标对象的任一图像，目标对象可以为行人、自行车、摩托车、汽车、宠物等。待检测图像可以为图像获取装置实时获取到的图像，也可以为存储装置中存储的图像。

针对S102：

可以对待检测图像进行目标检测，确定待检测图像中包括的每个目标对象的二维检测数据，其中，二维检测数据可以包括目标对象对应的二维检测框的长度和宽度、二维检测框的中心点的坐标信息、目标对象的目标对象类别、三维检测框中心点在二维平面上的投影点的坐标信息、目标对象的朝向角(即目标对象的三维检测框的基准面与设置的基准线的夹角)。

一种可选实施方式中，确定与二维检测数据对应的形状数据集，可以包括：

基于二维检测数据指示的对象类别，以及预先确定的不同对象类别对应的形状数据集，确定二维检测数据对应的形状数据集。

预先确定的不同对象类别分别对应的形状数据集可以包括汽车类别对应的形状数据集、行人类别对应的形状数据集、宠物类别对应的形状数据集、自行车类别对应的形状数据集等，其中，不同对象类别对应的类别种类以及类别数量可以根据实际情况进行设置，此处仅为示例性说明。

比如，若目标对象的目标对象类别为汽车类别，则可以从预先确定的不同对象类别对应的形状数据集中确定汽车类别对应的形状数据集，其中，形状数据集中包括汽车对应的多种平均形状数据，每种平均形状数据对应汽车的三维检测框的一个平均形状。

上述实施方式中，预先确定不同对象类别对应的形状数据集，形状数据集中包括多种平均形状数据，在得到二维检测数据后，可以基于二维检测数据指示的目标对象的目标对象类别，从预先确定的不同对象类别对应的形状数据集中，选择目标对象类别对应的形状数据集进而较快的得到二维检测数据对应的形状数据集。

一种可选实施方式中，参见图2所示，可以根据以下步骤预先确定不同对象类别分别对应的形状数据集：

S201，针对每种对象类别，获取该对象类别下的多个图像。

S202，基于多个图像中目标对象的真实高度，将多个图像划分为多个图像集合。

S203，基于每个图像集合内各个图像中目标对象的形状数据，确定该图像集合对应的平均形状数据，将各个图像集合对应的平均形状数据，组成对象类别下的形状数据集。

对S201进行说明，比如，对象类别为汽车时，则获取包括不同汽车类型的多个图像，每个图像中标注有对应汽车的真实尺寸，即包括汽车对应的三维检测框的长度、宽度以及高度。

对S202进行说明，可以使用聚类分析算法，基于多个图像中目标对象的真实高度，将多个图像划分为多个图像集合。比如，可以设置划分的图像集合的数量，假设设置的图像集合的数量为7个，基于多个图像中目标对象的真实高度，将包含的目标对象的真实高度之间的差值小于设置的差值阈值的图像划分在一个图像集合中，得到7个图像集合。可以为不同的对象类别设置不同的图像集合的数量，比如，汽车类别对应的图像集合的数量可以为7个，行人类别对应的图像集合的数量可以为10个等，或者，也可以为不同的对象类别设置相同的图像集合的数量，比如，汽车类别和行人类别对应的图像集合的数量可以均为7。这里，得到多个图像集合的方式有多种，此处仅为示例性说明。

这里，可以为每个图像集合设置一个形状类别，比如，汽车类别下有6个图像集合，基于每个图像集合中汽车的真实尺寸信息，6个图像集合的形状类别可以为微型车、小型车、紧凑型车、中型车、中大型车、大型车。或者，6个图像集合的形状类别可以为第一类别、第二类别、第三类别、第四类别、第五类别、第六类别。其中，每个对象类别对应的形状类别可以根据实际情况进行设置，此处仅为示例性说明。

对S203进行说明，针对每个图像集合，基于该图像集合中每个图像中的目标对象的形状数据，确定该图像集合对应的平均形状数据。并将各个图像集合对应的平均形状数据，组成对象类别下的形状数据集。

上述实施方式中，通过基于目标对象的真实高度，得到对象类别下的多个图像集合，进而基于该对象类别对应的各个图像集合对应的形状数据，确定该对象类别对应的形状数据集，为后续确定目标对象的三维检测数据提供了数据支持。

一种可选实施方式中，S203中，基于每个图像集合内各个图像中目标对象的形状数据，确定该图像集合对应的平均形状数据，包括：

基于该图像集合内各个图像中目标对象对应的真实三维尺寸，确定该图像集合对应的目标对象的平均三维尺寸；

基于该图像集合对应的目标对象的平均三维尺寸，确定将平均三维尺寸下的目标对象置于不同深度信息指示的深度位置处后，分别得到该目标对象的三维框在二维图像平面的投影包围框的宽度信息，并建立得到的宽度信息与对应的深度信息之间的映射关系；

将平均三维尺寸以及映射关系，作为图像集合对应的平均形状数据。

这里，目标对象的形状数据包括目标对象的三维检测框的真实三维尺寸，真实三维尺寸包括真实长度、真实宽度、以及真实高度。图像集合对应的平均形状数据包括该图像集合对应的平均三维尺寸、以及宽度信息与对应的深度信息之间的映射关系，平均三维尺寸包括平均长度、平均宽度、以及平均高度。

将该图像集合内各个图像中目标对象的真实高度求平均，得到平均高度；将该图像集合内各个图像中目标对象的真实长度求平均，得到平均长度；将该图像集合内各个图像中目标对象的真实宽度求平均，得到平均宽度，即得到该图像集合对应的目标对象的平均三维尺寸。

在得到该图像集合对应的目标对象的平均三维尺寸之后，将平均三维尺寸下的目标对象置于不同深度信息指示的深度位置后，可以根据固定位置处的摄像设备获取的二维图像，确定每个深度位置处目标对象的三维框(该三维框可以为由平均三维尺寸构成的检测框)在二维图像平面的投影包围框的宽度信息，进而可以通过拟合的方式得到宽度信息与对应的深度信息之间的映射关系，其中，该宽度信息为目标对象的三维框(可以由平均三维尺寸构成)在二维图像平面的投影包围框的宽度，深度信息为该目标对象在真实场景中距离摄像设备的深度。比如，宽度信息与对应的深度信息之间的映射关系可以为：

其中，z_3d为深度信息，h_2d为宽度信息，a、b为参数信息。

将平均三维尺寸以及映射关系确定为该图像集合对应的平均形状数据，进而，根据各个图像集合分别对应的平均形状数据，得到对象类别下的形状数据集。

上述实施方式中，每个对象类别下多个图像集合中，将每个图像集合对应的平均三维尺寸、以及宽度信息与深度信息之间的映射关系作为该图像集合对应的平均形状数据，这样，通过基于设置的同一对象类别下多种先验形状信息(即设置的多种平均形状数据)以及待检测图像，确定三维检测数据时，可以提高三维检测数据的准确度。

在具体实施时，基于二维检测数据指示的目标对象的目标对象类别，以及预先确定的不同对象类别分别对应的形状数据集，确定二维检测数据对应的形状数据集，可以包括：一、基于二维检测数据指示的目标对象的目标对象类别，以及预先确定的不同对象类别分别对应的形状数据集，确定与目标对象类别对应的目标形状数据集；目标形状数据集中包括多种平均三维尺寸和对应的映射关系；二、针对每种平均三维尺寸对应的映射关系，以及二维检测数据指示的二维检测框的宽度信息，确定与每种平均三维尺寸对应的深度信息；三、将多种平均三维尺寸和对应的深度信息作为二维检测数据对应的形状数据集。

可以基于二维检测数据中的目标对象类别，以及预先确定的不同对象类别分别对应的形状数据集，确定目标对象类别对应的目标形状数据集，目标形状数据集中包括多种平均形状数据，每种平均形状数据包括平均三维尺寸以及对应的映射关系。比如，若目标对象类别可以为汽车，则从预先确定的不同对象类别分别对应的形状数据集中，确定汽车类别对应的目标形状数据集，目标形状数据集中包括多种平均形状数据，每种平均形状数据包括汽车类别对应的平均三维尺寸以及对应的映射关系。

将二维检测数据指示的二维检测框的宽度信息输入至每种平均三维尺寸对应的映射关系中，得到每种平均三维尺寸对应的深度信息。再将多种平均三维尺寸和对应的深度信息作为二维检测数据对应的形状数据集。

上述实施方式中，可以基于二维检测数据指示的目标对象的目标对象类别，确定平均三维尺寸以及映射关系，并根据映射关系以及二维检测框的宽度，可以得到目标对象对应的深度信息，进而得到二维检测数据对应的形状数据集，为后续得到三维检测数据提供了数据支持。

针对S103：

这里，可以基于待检测图像和多种平均形状数据，确定目标对象对应的三维检测数据，其中，三维检测数据可以包括目标对象的三维检测框的长度、宽度以及高度、三维检测框的目标形状类别、以及三维检测框的深度，三维检测框的深度可以为三维检测框的中心点对应的深度，即三维检测框的深度可以为三维检测框的中心点在相机坐标系中Z轴(相机光轴)方向对应的坐标值。

一种可选实施方式中，对待检测图像进行目标检测，确定待检测图像中目标对象的二维检测数据，可以包括：对待检测图像进行特征提取，生成待检测图像的特征图；基于待检测图像的特征图，确定待检测图像中目标对象的二维检测数据。

这里，可以利用至少一层卷积层对待检测图像进行特征提取，得到待检测图像的特征图，进而可以基于待检测图像的特征图，确定待检测图像中目标对象的二维检测数据。

一种可选实施方式中，基于待检测图像和多种平均形状数据，确定目标对象对应的三维检测数据，可以包括：

基于二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息，从待检测图像对应的特征图中截取目标对象对应的目标特征图；

基于目标对象对应的目标特征图和多种平均形状数据，确定目标对象对应的三维检测数据。

这里，可以先基于二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息，从待检测图像的特征图中截取目标对象对应的目标特征图，其中，目标特征图的中心点与二维检测框中心点相匹配，目标特征图的尺寸与二维检测框的尺寸(二维检测框的长度和宽度)相匹配。进而可以基于目标对象对应的目标特征图和多种平均形状数据，确定目标对象对应的三维检测数据。

示例性的，可以先将待检测图像对应的特征图进行标准卷积处理，得到第一中间特征图，以及将待检测图像对应的特征图进行深度感知卷积处理，得到第二中间特征图，将第一中间特征图和第二中间特征图进行卷积处理或者级联处理，得到待检测图像对应的处理后的特征图；在基于二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息，从处理后的特征图中截取目标对象对应的目标特征图。

上述实施方式中，通过从特征图中截取得到目标特征图，可以将特征图中的背景部分筛除，保留目标对象的特征图，使得基于目标特征图和多种平均形状数据，确定目标对象对应的三维检测数据时，可以提高得到的三维检测数据的精确度。

一种可选实施方式中，基于待检测图像和多种平均形状数据，确定目标对象对应的三维检测数据，包括：

基于待检测图像和多种平均形状数据，确定每种平均形状数据对应的残差信息以及该残差信息的置信度；

根据每种平均形状数据对应的残差信息以及该残差信息的置信度，确定目标对象对应的三维检测数据。

这里，还可以基于待检测图像中目标对象对应的目标特征图和多种平均形状数据，确定每种平均形状数据对应的残差信息以及该残差信息的置信度；其中，多种平均形状数据中各种平均形状数据对应的残差信息的置信度之和可以为1。进而根据每种平均形状数据对应的残差信息以及该残差信息的置信度，确定目标对象对应的三维检测数据。

上述实施方式中，可以基于得到的每种平均形状数据对应的残差信息以及该残差信息的置信度，确定目标对象的三维检测数据，由于考虑了不同平均形状数据所对应的残差信息的置信度，可以提高得到的三维检测数据的准确度。

一种可选实施方式中，根据每种平均形状数据对应的残差信息以及该残差信息的置信度，确定目标对象对应的三维检测数据，可以包括：

方式一、针对每种平均形状数据，利用该平均形状数据对应的残差信息指示的尺寸调整值对该平均形状数据中的平均三维尺寸进行调整，得到该平均形状数据对应的调整后的候选三维尺寸，以及利用该平均形状数据对应的残差信息指示的深度调整值对该平均形状数据中的深度信息进行调整，得到该平均形状数据对应的调整后的候选深度。

根据每种平均形状数据对应的残差信息的置信度，从调整后的多种候选三维尺寸和对应的候选深度中，选择对应最大置信度的目标三维尺寸和目标深度，以及将对应最大置信度的平均形状数据的形状类别作为目标对象的目标形状类别。

将目标三维尺寸、目标深度以及目标形状类别确定为目标对象对应的三维检测数据。

方式二、从每种平均形状数据对应的残差信息中，选择置信度最大的残差信息作为目标残差信息，确定目标残差信息对应的目标平均形状数据，并将目标平均形状数据的形状类别作为目标对象的目标形状类别。

利用目标残差信息指示的尺寸调整值对目标平均形状数据中的平均三维尺寸进行调整，得到目标平均形状数据对应的调整后的目标三维尺寸，以及利用目标残差信息指示的深度调整值对目标平均形状数据中的深度信息进行调整，得到目标平均形状数据对应的调整后的目标深度。

方式一中，可以先根据每种平均形状数据对应的残差信息，对该平均形状数据中的平均三维尺寸以及深度信息进行调整，得到每种平均形状数据对应的候选三维尺寸以及候选深度。再根据每种平均形状数据对应的残差信息的置信度，从调整后的多种候选三维尺寸和对应的候选深度中，选择对应最大置信度的目标三维尺寸和目标深度，以及将对应最大置信度的平均形状数据的形状类别作为目标对象的目标形状类别，进而得到目标对象对应的三维检测数据。

方式二中，可以先从每种平均形状数据对应的残差信息中，选择置信度最大的残差信息作为目标残差信息，确定目标残差信息对应的目标平均形状数据，并将目标平均形状数据的形状类别作为目标对象的目标形状类别。再利用目标残差信息对目标平均形状数据进行调整，得到目标三维尺寸以及目标深度，进而得到目标对象对应的三维检测数据。

上述实施方式中，可以先通过残差信息对对应的平均形状数据进行调整，再根据残差信息的置信度，确定三维检测数据，或者，也可以先根据残差信息的置信度确定目标残差信息以及目标平均形状数据，在利用目标残差信息对目标平均形状数据进行调整，得到三维检测数据，可以减少形状调整过程的运算量。

针对S104：

这里可以将二维检测数据以及三维检测数据，确定为目标对象对应的目标三维位姿数据。也可以从二维检测数据中获取目标数据，将获取的目标数据以及三维检测数据，确定为目标对象对应的目标三维位姿数据。目标数据可以包括三维检测框的中心点在二维图像上的投影点的坐标信息、三维检测框的基准面与设置的基准线的夹角、和目标对象的对象类别。

一种可选实施方式中，基于三维检测数据以及二维检测数据，确定目标对象对应的目标三维位姿数据，包括：

从二维检测数据中，获取三维检测框的中心点在二维图像上的投影点的坐标信息、三维检测框的基准面与设置的基准线的夹角、和目标对象的对象类别；

将三维检测数据中的目标三维尺寸、目标深度、和目标形状类别，以及从二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、三维检测框的基准面与设置的基准线的夹角、和目标对象的对象类别，确定为目标对象对应的目标三维位姿数据。

这里，目标三维位姿数据包括目标三维尺寸(目标对象的三维检测框的长度、宽度以及高度)、目标深度(可以为三维检测框的中心点在相机坐标系中Z轴方向对应的坐标值)、和目标形状类别，以及从二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、三维检测框的基准面与设置的基准线的夹角、和目标对象的对象类别。

示例性的，可以使用图像检测神经网络对待检测图像进行检测，得到目标对象对应的目标三维位姿数据。图像检测神经网络可以包括特征提取器、二维检测器、三维候选检测框生成器、三维回归器。

具体实施时，将待检测图像输入至图像检测神经网络中，特征提取器可以对待检测图像进行特征提取，生成待检测图像对应的特征图；二维检测器对待检测图像对应的特征图进行检测，得到待检测图像中目标对象的二维检测数据；将二维检测数据中的目标对象类别以及二维检测框的宽度输入至三维候选检测框生成器中，确定二维检测数据对应的形状数据集，并将二维检测数据对应的形状数据集输入至三维回归器中；同时，可以根据二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息，从待检测图像的特征图中截取得到目标对象对应的目标特征图，将得到的目标特征图输入至三维回归器中，三维回归器根据目标特征图、以及二维检测数据对应的形状数据集，确定目标对象对应的三维检测数据，最后得到目标对象对应的目标三维位姿数据。

通过将待检测图像输入至图像检测神经网络中，得到待检测图像中每个目标对象对应的目标三维位姿数据，由于图像检测神经网络为端到端的双阶段网络模型，图像检测神经网络对应的损失较少，相比于单阶段的网络模型和/或非端对端的网络模型，能够较为准确的得到目标对象对应的目标三维位姿数据。

基于相同的构思，本公开实施例还提供了一种行驶控制方法，参见图3所示，为本公开实施例所提供的行驶控制方法的流程示意图，该方法包括S301-S303，其中：

S301，获取行驶装置在行驶过程中采集的道路图像；

S302，利用上述实施例所述的图像检测方法对道路图像进行检测，得到道路图像中包括的目标对象的目标三维位姿数据；

S303，基于道路图像中包括的目标对象的目标三维位姿数据，控制行驶装置。

示例性的，行驶装置可以为自动驾驶车辆、装有高级驾驶辅助系统(AdvancedDriving Assistance System，ADAS)的车辆、或者机器人等。道路图像可以为行驶装置在行驶过程中实时采集到的图像。目标对象可以为道路中可以能出现的任一物体和/或、任一对象。比如，目标对象可以为出现在道路上的动物、行人等，也可以为道路上的其他车辆(包括机动车辆和非机动车辆)等。

其中，在控制行驶装置时，可以控制行驶装置加速、减速、转向、制动等，或者可以播放语音提示信息，以提示驾驶员控制行驶装置加速、减速、转向、制动等。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于相同的构思，本公开实施例还提供了一种图像检测装置，参见图4所示，为本公开实施例提供的图像检测装置的架构示意图，包括图像获取模块401、目标检测模块402、三维检测数据确定模块403、三维位姿数据确定模块404、以及形状数据集确定模块405，具体的：

图像获取模块401，用于获取待检测图像；

目标检测模块402，用于对所述待检测图像进行目标检测，确定所述待检测图像中目标对象的二维检测数据；确定与所述二维检测数据对应的形状数据集；所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据；

三维检测数据确定模块403，用于基于所述待检测图像和所述多种平均形状数据，确定所述目标对象对应的三维检测数据；

三维位姿数据确定模块404，用于基于所述三维检测数据以及所述二维检测数据，确定所述目标对象对应的目标三维位姿数据。

一种可能的实施方式中，所述三维检测数据确定模块403，在基于所述待检测图像和所述多种平均形状数据，确定所述目标对象对应的三维检测数据时，用于：

一种可能的实施方式中，所述目标检测模块402，在确定与所述二维检测数据对应的形状数据集时，用于：

基于所述二维检测数据指示的对象类别，以及预先确定的不同对象类别分别对应的形状数据集，确定所述二维检测数据对应的形状数据集。

一种可能的实施方式中，所述装置还包括形状数据集确定模块405，所述形状数据集确定模块405，用于根据以下步骤预先确定不同对象类别分别对应的形状数据集：

针对每种对象类别，获取该对象类别下的多个图像；

一种可能的实施方式中，所述形状数据集确定模块405，在基于每个图像集合内各个图像中目标对象的形状数据，确定该图像集合对应的平均形状数据时，用于：

一种可能的实施方式中，所述三维检测数据确定模块403，在根据每种平均形状数据对应的残差信息以及该残差信息的置信度，确定所述目标对象对应的所述三维检测数据时，用于：

一种可能的实施方式中，所述三维位姿数据确定模块404，在基于所述三维检测数据以及所述二维检测数据，确定所述目标对象对应的目标三维位姿数据时，用于：

基于相同的构思，本公开实施例还提供了一种行驶控制装置，参见图5所示，为本公开实施例提供的行驶控制装置的架构示意图，包括道路图像获取模块501、图像检测模块502、控制模块503，具体的：

道路图像获取模块501，用于获取行驶装置在行驶过程中采集的道路图像；

图像检测模块502，用于利用第一方面或第一方面任一实施方式所述的图像检测方法对所述道路图像进行检测，得到所述道路图像中包括的目标对象的目标三维位姿数据；

控制模块503，用于基于所述道路图像中包括的目标对象的目标三维位姿数据，控制所述行驶装置。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模板可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图6所示，为本公开实施例提供的电子设备600的结构示意图，包括处理器601、存储器602、和总线603。其中，存储器602用于存储执行指令，包括内存6021和外部存储器6022；这里的内存6021也称内存储器，用于暂时存放处理器601中的运算数据，以及与硬盘等外部存储器6022交换的数据，处理器601通过内存6021与外部存储器6022进行数据交换，当电子设备600运行时，处理器601与存储器602之间通过总线603通信，使得处理器601在执行以下指令：

获取待检测图像；

对所述待检测图像进行目标检测，确定所述待检测图像中目标对象的二维检测数据；确定与所述二维检测数据对应的形状数据集；所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据；

基于同一技术构思，本公开实施例还提供了另一种电子设备。参照图7所示，为本公开实施例提供的电子设备700的结构示意图，包括处理器701、存储器702、和总线703。其中，存储器702用于存储执行指令，包括内存7021和外部存储器7022；这里的内存7021也称内存储器，用于暂时存放处理器701中的运算数据，以及与硬盘等外部存储器7022交换的数据，处理器701通过内存7021与外部存储器7022进行数据交换，当电子设备700运行时，处理器701与存储器702之间通过总线703通信，使得处理器701在执行以下指令：

获取行驶装置在行驶过程中采集的道路图像；

利用上述实施例所述的图像检测方法对所述道路图像进行检测，得到所述道路图像中包括的目标对象的目标三维位姿数据；

此外，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的图像检测方法的步骤，或执行上述方法实施例中所述的行驶控制方法的步骤。

本公开实施例所提供的图像检测方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的图像检测方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例所提供的行驶控制方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的行驶控制方法的步骤，具体可参见上述方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像检测方法，其特征在于，包括：

获取待检测图像；

基于所述三维检测数据以及所述二维检测数据，确定所述目标对象对应的目标三维位姿数据；

基于所述待检测图像和所述多种平均形状数据，确定所述目标对象对应的三维检测数据，包括：基于所述待检测图像和所述多种平均形状数据，确定每种平均形状数据对应的残差信息以及该残差信息的置信度；根据每种平均形状数据对应的残差信息以及该残差信息的置信度，确定所述目标对象对应的所述三维检测数据。

2.根据权利要求1所述的方法，其特征在于，所述基于所述待检测图像和所述多种平均形状数据，确定所述目标对象对应的三维检测数据，包括：

3.根据权利要求1所述的方法，其特征在于，确定与所述二维检测数据对应的形状数据集，包括：

4.根据权利要求3所述的方法，其特征在于，根据以下步骤预先确定不同对象类别对应的形状数据集：

针对每种对象类别，获取该对象类别下的多个图像；

5.根据权利要求4所述的方法，其特征在于，基于每个图像集合内各个图像中目标对象的形状数据，确定该图像集合对应的平均形状数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据每种平均形状数据对应的残差信息以及该残差信息的置信度，确定所述目标对象对应的所述三维检测数据，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据每种平均形状数据对应的残差信息以及该残差信息的置信度，确定所述目标对象对应的所述三维检测数据，包括：

8.根据权利要求7所述的方法，其特征在于，基于所述三维检测数据以及所述二维检测数据，确定所述目标对象对应的目标三维位姿数据，包括：

9.一种行驶控制方法，其特征在于，包括：

获取行驶装置在行驶过程中采集的道路图像；

利用权利要求1至8任一项所述的图像检测方法对所述道路图像进行检测，得到所述道路图像中包括的目标对象的目标三维位姿数据；

10.一种图像检测装置，其特征在于，包括：

图像获取模块，用于获取待检测图像；

三维位姿数据确定模块，用于基于所述三维检测数据以及所述二维检测数据，确定所述目标对象对应的目标三维位姿数据；

三维检测数据确定模块，在基于所述待检测图像和所述多种平均形状数据，确定所述目标对象对应的三维检测数据时，用于：基于所述待检测图像和所述多种平均形状数据，确定每种平均形状数据对应的残差信息以及该残差信息的置信度；根据每种平均形状数据对应的残差信息以及该残差信息的置信度，确定所述目标对象对应的所述三维检测数据。

11.一种行驶控制装置，其特征在于，包括：

图像检测模块，用于利用权利要求1至8任一项所述的图像检测方法对所述道路图像进行检测，得到所述道路图像中包括的目标对象的目标三维位姿数据；

12.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的图像检测方法的步骤，或执行如权利要求9所述的行驶控制方法的步骤。

13.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8任一所述的图像检测方法的步骤，或执行如权利要求9所述的行驶控制方法的步骤。