CN114373170A

CN114373170A - 伪3d边界框构建的方法、装置及电子设备

Info

Publication number: CN114373170A
Application number: CN202111532978.9A
Authority: CN
Inventors: 龚飞; 戴令正; 韩志华; 张旭
Original assignee: Zhitu Shanghai Intelligent Technology Co ltd; Suzhou Zhitu Technology Co Ltd
Current assignee: Zhitu Shanghai Intelligent Technology Co ltd; Suzhou Zhitu Technology Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-19

Abstract

本发明提供了一种伪3D边界框构建的方法、装置及电子设备，涉及图像处理的技术领域，通过获取交通摄像头采集的交通场景的视频数据，并从视频数据中提取目标车辆对应的车辆图像，基于所采集的车辆图像中的车身2D检测框、上半车身2D检测框和车端2D检测框构建目标车辆对应的伪3D边界框，该技术方案仅依靠2D视觉检测技术即可实现，其技术原理相对成熟可靠、实际操作简单、技术成本低、应用场景广泛。

Description

伪3D边界框构建的方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种伪3D边界框构建方法、装置及电子设备。

背景技术

近些年，汽车无人驾驶技术迅速发展，2D目标检测和3D目标检测技术方案在车辆障碍物感知任务上，取得了非常不错的效果。2D目标检测一般需要在图像或视频上检测出感兴趣目标的类别信息和坐标信息，3D目标检测技术可以获取目标在真实空间中更为丰富的信息，如空间距离信息、目标真实大小、方向角等几何信息。但是现有的3D目标检测技术方案一般需要结合激光雷达技术才能实现检测任务，其操作流程复杂、技术成本较高。

为了节约技术成本，在无人驾驶领域，一种基于2D目标检测和3D目标检测之间的伪3D目标检测技术方案开始得到业内的重视。在无人驾驶领域，伪3D目标检测能够为3D感知任务提供一些关键信息，具有非常高的研究和应用价值。

但现有的3D目标检测技术方案一般需要结合激光雷达技术才能实现检测任务，其操作流程复杂、技术成本较高。

发明内容

有鉴于此，本发明的目的在于提供一种伪3D边界框构建的方法、装置及电子设备，可以依靠2D视觉检测技术得到图像来实现伪3D边界框的构建，该方法成本低，稳定性高，应用场景覆盖范围广。

第一方面，本发明实施例还提供一种伪3D边界框构建的方法，其中，该方法包括：从视频数据中提取目标车辆对应的车辆图像；对车辆图像进行目标车辆的车辆检测，得到标注有目标车辆的2D检测框组；其中，2D检测框组包括车身2D检测框、上半车身2D检测框和车端2D检测框，该车端为车头前端或车尾后端；基于车身2D检测框、上半车身2D检测框和车端2D检测框构建目标车辆对应的伪3D边界框。

结合第一方面，发明实施例提供了第一方面的第一种可能的实施方式，从视频数据中提取目标车辆对应的车辆图像的步骤，包括：对视频数据进行解码得到视频帧图像集；其中，视频帧图像集中包括交通场景的多帧图像；对视频帧图像集进行目标车辆的车辆跟踪，得到包括该目标车辆的视频帧子图像集；从视频帧子图像集中提取满足预设位姿的车辆图像。

结合第一方面，发明实施例提供了第一方面的第二种可能的实施方式，其中，对车辆图像进行目标车辆的车辆检测，得到标注有目标车辆的2D检测框组的步骤，包括：将所车辆图像输入至预先训练好的检测模型，通过检测模型输出检测图像；其中，检测图像中标注有2D检测框组；检测模型为通过标注有2D检测框组的车辆图像集对神经网络训练训练得到的检测模型。

结合第一方面，发明实施例提供了第一方面的第三种可能的实施方式，其中，车身2D检测框、上半车身2D检测框和车端2D检测框均为矩形包围框；基于车身2D检测框、上半车身2D检测框和车端2D检测框构建目标车辆对应的伪3D边界框的步骤，包括：分别提取车身2D检测框的第一顶点组，上半车身2D检测框的第二顶点组，车端2D检测框的第三顶点组；其中，第一顶点组包括第一顶点A、第二顶点B、第三顶点C和第四顶点D，第二顶点组包括第一顶点A、第二顶点B、第五顶点E和第六顶点F，第三顶点组包括第一顶点A、第七顶点G、第八顶点H和第九顶点I；第九顶点I在第一顶点A和第四顶点D所在线段的延长线上，第七顶点G和第八顶点H所在线段与车头灯/车尾灯为界限，第五顶点E和第六顶点F所在线段以车尾车轮/车头车轮接地点为界限；将第一顶点A、第二顶点B、第五顶点E、第八顶点H和第九顶点I进行连接构建伪3D边界框。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中该方法还包括：由第五顶点E和第八顶点H构建目标车辆在车辆图像坐标系下的行驶方向线；基于行驶方向线确定目标车辆在世界坐标系下的行驶方向。

结合第一方面，发明实施例提供了第一方面的第五种可能的实施方式，其中，该方法还包括：提取伪3D边界框对应的边界框信息；其中，边界框信息包括目标车辆在车辆图像坐标系下的车头/车尾宽度信息、车身长度信息；基于边界框信息计算目标车辆在世界坐标系下的真实3D信息。

第二方面，本发明实施例还提供一种伪3D边界框构建的装置，其中，装置包括：获取模块，用于获取交通摄像头采集的交通场景的视频数据；第一提取模块，用于从视频数据中提取目标车辆对应的车辆图像；检测模块，用于对车辆图像进行目标车辆的车辆检测，得到标注有目标车辆的2D检测框组；其中，2D检测框组包括车身2D检测框、上半车身2D检测框和车端2D检测框，该车端为车头前端或车尾后端；构建模块，用于基于车身2D检测框、上半车身2D检测框和车端2D检测框构建目标车辆对应的伪3D边界框。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，该装置还包括：第二提取模块，用于提取伪3D边界框对应的边界框信息；其中，边界框信息包括目标车辆在车辆图像坐标系下的车头/车尾宽度信息、车身长度信息；计算模块，用于基于边界框信息计算目标车辆在世界坐标系下的真实3D信息。

第三方面，本发明实施例还提供一种电子设备，其中，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述的方法。

本发明实施例带来了以下有益效果：

本申请实施例提供的一种伪3D边界框构建方法、装置及电子设备，通过获取交通摄像头采集的交通场景的视频数据，并从视频数据中提取目标车辆对应的车辆图像，基于所采集的车辆图像中的车身2D检测框、上半车身2D检测框和车端2D检测框构建目标车辆对应的伪3D边界框，该技术方案仅依靠2D视觉检测技术得到车辆图像即可得到伪3D边界框，其技术原理相对成熟可靠、实际操作简单、技术成本低、应用场景广泛。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子设备的结构示意图；

图2为本发明实施例提供的一种伪3D边界框构建的方法的流程图；

图3为本发明实施例提供的另一种伪3D边界框构建的方法的流程图；

图4为本发明实施例提供的一种2D检测框组的示意图；

图5为本发明实施例提供的另一种2D检测框组的示意图；

图6为本发明实施例提供的一种伪3D边界框的示意图；

图7为本发明实施例提供的另一种伪3D边界框的示意图；

图8为本发明实施例提供的另一种2D检测框组的示意图；

图9为本发明实施例提供的另一种2D检测框组的示意图；

图10为本发明实施例提供的另一种伪3D边界框的示意图；

图11为本发明实施例提供的另一种伪3D边界框的示意图；

图12为本发明实施例提供的一种伪3D边界框构建装置的结构示意图；

图13为本发明实施例提供的另一种伪3D边界框构建装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有的3D目标检测技术方案一般需要结合激光雷达技术才能实现检测任务，其操作流程复杂、技术成本较高，对此，本发明实施例提供了一种伪3D边界框构建方法、装置及电子设备，该技术在2D目标检测的基础上，提出一种基于局部车身2D框的伪3D边界框构建方案，从而可以实现伪3D边界框的构建，实际应用表明，该伪3D边界框构建的技术方案对交通场景中的车辆等目标具有非常有效的感知能力，下面通过实施例进行描述。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及一个或多个图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备也可以具有其他组件和结构。

处理器102可以为服务器、智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对电子设备100中的其它组件的数据进行处理，还可以控制电子设备100中的其它组件以执行伪3D边界框构建的功能。

存储器104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行程序指令，以实现下文的本发明实施例中(由处理设备实现)的功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如可见光视频序列和红外视频序列，以及应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

图像采集装置110可以获取可见光视频序列和红外视频序列，并且将采集到的视频序列存储在存储器104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的伪3D边界框构建的方法和装置的电子设备中的各器件可以集成设置，也可以分散设置，诸如将处理器102、存储器104、输入装置106和输出装置108集成设置于一体，而将图像采集装置110设置于可以采集到视频帧的指定位置。当上述电子设备中的各器件集成设置时，该电子设备可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。

本实施例提供了一种伪3D边界框构建的方法，其中，该方法应用于上述电子设备，参见图2所示出的一种伪3D边界框构建的方法的流程图，该方法具体包括如下步骤：

步骤S202，获取交通摄像头采集的交通场景的视频数据；

上述交通摄像头可以利用道路上交通监控的摄像头，也可利用应用于自动驾驶领域安装在交通运输工具上的各类摄像头，在此不做具体限制。

为了达到较好实现伪3D边界框构建的效果，本实施例中，上述视频数据可以通过应用于上述电子设备中的特定程序进行存储以及调用。

步骤S204，从视频数据中提取目标车辆对应的车辆图像；

上述提取的车辆图像可以通过上述电子设备中的特定程序对视频数据进行逐帧识别，既可以采用特定程序进行解码对所筛选的车辆图像样本进行目标车辆的类别和位置信息进行标注，也可以通过后台由工作人员查看视频数据，并对视频数据中出现的目标车辆进行人工筛选。

为了达到较好实现伪3D边界框构建的效果，本实施例中，在对视频数据中的车辆图像进行提取的过程中，本方法能够在包括有车辆图像的视频帧上预先标注出每个车辆图像的整体目标检测框，即对每个车辆图像进行一次整体的目标检测框标注，该检测框可以将每个车辆图像各个边缘部分均覆盖在内，因此该目标检测框不区分车辆图像具体部位，仅对该车辆信息进行整体判断，比如，当视频区域中多个存在移动的车辆图像时，从此刻开始直至该车辆图像在视频数据中消失，便对每帧上的车辆图像框定一个可以覆盖车辆信息整体的目标检测框。

当视频数据中有多个目标检测框时，比如，在上述视频帧中包含目标车辆1的目标检测框共有5帧，分别对应的视频帧标识为1、2、3、4、5；包含目标车辆2的目标检测框的视频帧共有4帧，分别对应的视频帧的帧标识为3、4、5、6。上述帧标识可以使用上述数字的形式或其他形式对视频帧进行标识，以此来区分不同的目标车辆对应的视频帧是哪些，视频帧标识的具体标识形式在此不进行限定。

步骤S206，对车辆图像进行目标车辆的车辆检测，得到标注有目标车辆的2D检测框组；

其中，2D检测框组包括车身2D检测框、上半车身2D检测框和车端2D检测框，该车端为车头前端或车尾后端。

在对车辆图像整体进行识别后，本实施例主要通过检测车辆不同局部车身信息来构造车辆图像的伪3D结构，因此将每个车辆信息进行更加详细的分类，分别可以识别为车身、上半车身，以及车端或车尾等不同的局部车身信息。该分类方式主要是为了应用于实际情况，在道路行驶的过程中，车辆之间往往会同向行驶或者相向行驶，这时对于车身的识别定位主要通过上半车身和/或为车头前端或为车尾后端车端信息来对其他车辆的车辆图像进行定位和识别，这样可以更加准确的识别出车辆图像，也便于对车辆图像进行检测，从而构造出目标车辆的伪3D结构。

步骤S208，基于车身2D检测框、上半车身2D检测框和车端2D检测框构建目标车辆对应的伪3D边界框。

在实际应用中，上述车身2D检测框、上半车身2D检测框和车端2D检测框可以提供车辆图像的信息，比如车辆图像的长、宽、高等信息，以此可以对伪3D边界框进行构建，同时，根据车端2D检测框具体是车头前端还是车尾后端，也可以判断出车辆的行驶方向。

本申请实施例提供的伪3D边界框构建的方法，通过获取交通摄像头采集的交通场景的视频数据，并从视频数据中提取目标车辆对应的车辆图像，对车辆图像进行目标车辆的车辆检测，得到有目标车辆的车身2D检测框、上半车身2D检测框和车端2D检测框，基于上述车身2D检测框、上半车身2D检测框和车端2D检测框便可以构建目标车辆对应的伪3D边界框，仅依视觉2D检测技术便可实现伪3D边界框的确定，技术成本低廉，同时识别过程可靠也可以适用于车辆行驶的多种场景，应用场景覆盖面广。

本实施例提供了另一种伪3D边界框构建的方法，该方法在上述实施例的基础上实现；本实施例重点描述提取目标车辆对应的车辆图像和伪3D边界框构建的方法具体实施方式。如图3所示的另一种伪3D边界框构建的方法的流程图，本实施例中的伪3D边界框构建的方法包括如下步骤：

步骤S302，获取交通摄像头采集的交通场景的视频数据；

步骤S304，对视频数据进行解码得到视频帧图像集；其中，视频帧图像集中包括交通场景的多帧图像；

为了保证视频数据的安全性，通常由交通摄像头采集的视频数据是经特定编码技术压缩得到的，为了能够得到一序列的视频帧图像，需要用该特定编码技术对应的解码技术对视频数据进行解码，以得到上述包括交通场景的多帧图像的视频帧图像集；其中，交通场景可以理解为是包括行驶车辆，以及交通路段的场景，在本实施例中，不对编码技术和解码技术进行限定。

步骤S306，对视频帧图像集进行目标车辆的车辆跟踪，得到包括该目标车辆的视频帧子图像集；

在本实施例中，可基于IOU(Intersection over Union，交并比)匹配跟踪算法对每个视频帧图像集中的每个视频帧图像进行IOU跟踪，得到同一目标车辆的轨迹信息；上述IOU匹配跟踪算法是一种测量在特定数据集中检测相应物体准确度的一个标准，这个标准用于测量真实和预测之间的相关度，相关度越高，该标准值越高；在本实施例的目标跟踪中，为了实现简单，上述标准值可以由预先训练好的车辆检测模型实现，通过该模型可以对在包含有车辆的视频帧中计算出检测框之间的交叠率，即它们的交集与并集的比值；如果计算出的相邻两视频帧(例如帧标识为5和帧标识为6的视频帧)中检测框之间的交叠率高于预先设定的交叠率阈值或者为最大交叠率，则确定两个检测框对应的车辆为同一个目标车辆；通过上述IOU匹配跟踪算法能够获得在上述视频帧图像集中同一目标车辆的目标检测框所在的视频帧的帧标识以及目标检测框的坐标信息，并将同一目标车辆的目标检测框赋予相同的检测框标识。

除了可以利用上述IOU匹配跟踪算法进行目标车辆的跟踪之外，还可以基于目标检测框的坐标信息利用马氏距离或协方差距离计算两视频帧中目标检测框的线性相关度进行目标车辆的跟踪，该线性相关度越高，说明是同一目标车以获取每个目标车辆的视频帧子图像集。

步骤S308，从视频帧子图像集中提取满足预设位姿的车辆图像；

在此，可以预设目标车辆的特征点的相对位置坐标范围从而选定目标车辆的预设位姿，将视频帧子图像集中包括的目标车辆的各个特征点的坐标相对位置满足预设坐标范围的视频帧进行提取，以得到车辆图像。

步骤S310，将车辆图像输入至预先训练好的检测模型，通过检测模型输出检测图像；其中，检测图像中标注有2D检测框组；检测模型为通过标注有2D检测框组的车辆图像集对神经网络训练训练得到的检测模型；

具体地，检测模块是由人工对历史交通场景的视频帧图像集进行2D检测框组的标注，将标注好的视频帧图像集分成训练集和验证集输入神经网络中，神经网络在训练过程中，需要不断学习预测值与真实值之间的误差损失(loss)，以调整网络自身的网络参数，随着训练的不断进行，网络自身的网络参数会得到不断地调整学习，此时网络在验证集上如果表现收敛，则终止训练，训练好的神经网络为本申请的检测模型，可以用于2D检测框组的检测。

步骤S312，分别提取车身2D检测框的第一顶点组，上半车身2D检测框的第二顶点组，车端2D检测框的第三顶点组；

其中，第一顶点组包括第一顶点A、第二顶点B、第三顶点C和第四顶点D，第二顶点组包括第一顶点A、第二顶点B、第五顶点E和第六顶点F，第三顶点组包括第一顶点A、第七顶点G、第八顶点H和第九顶点I；第九顶点I在第一顶点A和第四顶点D所在线段的延长线上，第七顶点G和第八顶点H所在线段与车头灯/车尾灯为界限，第五顶点E和第六顶点F所在线段以车尾车轮/车头车轮接地点为界限；将第一顶点A、第二顶点B、第五顶点E、第八顶点H和第九顶点I进行连接构建伪3D边界框。

在实际应用时，还可以根据车辆具体的行驶方向将车辆图像具体分为同向行驶的车辆图像和相向行驶的车辆图像，下面将根据不同的车辆行驶方向分别对本实施例进行阐述。

对于相向行驶的车辆图像，参见图4所示出的一种2D检测框组的示意图，图5所示出的另一种2D检测框组的示意图，其中，图4所示出的是相向行驶左视角的车辆图像的2D检测框组的示意图，图5所示出的是相向行驶右视角的车辆图像的2D检测框组的示意图，以图4中所示的相向左视角为例，具体地，在此种行驶方向的车辆图像中，根据第一顶点A、第二顶点B、第三顶点C和第四顶点D所组成的第一顶点组为该车辆图像的车身2D检测框ABCD；根据第一顶点A、第二顶点B、第五顶点E和第六顶点F所组成的第二顶点组为该车辆图像的上半车身2D检测框ABEF；根据第一顶点A、第七顶点G、第八顶点H和第九顶点I所组成的第三点组为该车辆图像的车端2D检测框AGHI，在相向行驶的过程中即车头前端的车端2D检测框AGHI，其中，车头前端2D检测框AGHI的左边界线段AI与上半车身2D检测框ABEF的左边界线段AD在同一条直线上，上半车身2D检测框ABEF的右边界线段GH以车头右车灯为界限；上半车身2D框ABEF的左、右、上三个边界与车身2D检测框的左、右、上三个边界在同一条直线上，上半车身2D检测框的下边界EF以车辆尾部车轮接地点为界限。

步骤S314，将第一顶点(A)、第二顶点(B)、第五顶点(E)、第八顶点(H)和第九顶点(I)进行连接构建伪3D边界框。

根据上述所得到的车身2D检测框ABCD、车头前端2D检测框ABEF和上半车身2D检测框AGHI，对车辆图像进行伪3D边界框进行构建，参见图6所示出的一种伪3D边界框的示意图，连接图4中的点H和点E，得到图5中所示的相向左视角伪3D框描述的结果，其中线段EH的走向代表了车辆在图像坐标系上的行驶方向，多边形ABEHI就是对车辆图像所构建的伪3D边界框。

对于相向行驶右视角的车辆图像伪3D边界框的构建过程，可以参见上述过程，在此不做赘述，构建结果参见图7所示出的另一种伪3D边界框的示意图，为相向行驶右视角的车辆图像伪3D边界框的示意图。

对于同向行驶的车辆图像，参见图8所示出的另一种2D检测框组的示意图，图9所示出的另一种2D检测框组的示意图，其中，图8所示出的是同向行驶左视角的车辆图像的2D检测框组的示意图，图9所示出是的同向行驶右视角的车辆图像的2D检测框组的示意图，以图8中所示的同向左视角为例，具体地，在此种行驶方向的车辆图像中，根据第一顶点A、第二顶点B、第三顶点C和第四顶点D所组成的第一顶点组为该车辆图像的车身2D检测框ABCD；根据第一顶点A、第二顶点B、第五顶点E和第六顶点F所组成的第二顶点组为该车辆图像的上半车身2D检测框ABEF；根据第一顶点A、第七顶点G、第八顶点H和第九顶点I所组成的第三点组为该车辆图像的车端2D检测框AGHI，在相向行驶的过程中即车尾后端的车端2D检测框AGHI，其中，车尾后端2D检测框AGHI的左边界线段AI与上半车身2D检测框ABEF的左边界线段AF在同一条直线上，上半车身2D检测框ABEF的右边界线段GH以车头右车灯为界限；上半车身2D框ABEF的左、右、上三个边界与车身2D检测框的左、右、上三个边界在同一条直线上，上半车身2D检测框的下边界EF以车辆尾部车轮接地点为界限。

根据上述所得到的车身2D检测框ABCD、车头前端2D检测框ABEF和上半车身2D检测框AGHI，对车辆图像进行伪3D边界框进行构建，参见图10所示出的另一种伪3D边界框的示意图，连接图8中的点H和点E，得到图10中所示的相向左视角伪3D框描述的结果，其中线段EH的走向代表了车辆在图像坐标系上的行驶方向，多边形ABEHI就是对车辆图像所构建的伪3D边界框。

对于同向行驶右视角的车辆图像伪3D边界框的构建过程，可以参见上述过程，在此不做赘述，构建结果参见图11所示出的另一种伪3D边界框的示意图，为同向行驶右视角的车辆图像伪3D边界框的示意图。

为了获取车辆的行驶方向，上述方法还包括：由上述第五顶点E和第八顶点H构建目标车辆在车辆图像坐标系下的行驶方向线；基于行驶方向线确定目标车辆在世界坐标系下的行驶方向。

上述世界坐标系下车辆的行驶方向线，可通过后处理计算转换为车辆在真实道路坐标系下的行驶方向，该过程与现有转换过程相同，在此不进行赘述。

为了可以提供车辆在世界坐标系下的真实3D信息，比如车头或车尾宽度，以及车身长度，上述方法还包括：提取伪3D边界框对应的边界框信息；其中，边界框信息包括目标车辆在车辆图像坐标系下的车头/车尾宽度信息、车身长度信息；基于边界框信息计算目标车辆在世界坐标系下的真实3D信息。

上述车辆信息都可以通过后处理计算转换为车辆在真实道路坐标系下的状态值，从而恢复出车辆的真实3D信息，以将真实3D信息应用于自动驾驶应用场景中。本实施例计算真实3D信息的过程同现有技术真实3D信息的过程，在此不进行赘述。

对应于上述方法实施例，本发明实施例提供了一种伪3D边界框构建装置，该装置应用于上述电子设备，图12示出了一种伪3D边界框构建装置的结构示意图，如图12所示，该伪3D边界框构建装置包括：

获取模块601，用于获取交通摄像头采集的交通场景的视频数据；

第一提取模块602，用于从视频数据中提取目标车辆对应的车辆图像；

检测模块603，用于对车辆图像进行目标车辆的车辆检测，得到标注有目标车辆的2D检测框组；其中，2D检测框组包括车身2D检测框、上半车身2D检测框和车端2D检测框，该车端为车头前端或车尾后端；

构建模块604，用于基于车身2D检测框、上半车身2D检测框和车端2D检测框构建目标车辆对应的伪3D边界框。

基于上述伪3D边界框构建装置，本发明实施例还提供了另一种伪3D边界框构建装置，参见图13所示的另一种伪3D边界框构建装置的结构示意图，该装置还包括：

第二提取模块701，用于提取伪3D边界框对应的边界框信息；其中，边界框信息包括目标车辆在车辆图像坐标系下的车头/车尾宽度信息、车身长度信息；

计算模块702，用于边界框信息计算目标车辆在世界坐标系下的真实3D信息。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述的方法。

本发明实施例所提供的伪3D边界框构建的方法、装置以及电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种伪3D边界框构建的方法，其特征在于，所述方法包括：

获取交通摄像头采集的交通场景的视频数据；

从所述视频数据中提取目标车辆对应的车辆图像；

对所述车辆图像进行所述目标车辆的车辆检测，得到标注有所述目标车辆的2D检测框组；其中，所述2D检测框组包括车身2D检测框、上半车身2D检测框和车端2D检测框，该车端为车头前端或车尾后端；

基于所述车身2D检测框、所述上半车身2D检测框和所述车端2D检测框构建所述目标车辆对应的伪3D边界框。

2.根据权利要求1所述的方法，其特征在于，从所述视频数据中提取目标车辆对应的车辆图像的步骤，包括：

对所述视频数据进行解码得到视频帧图像集；其中，所述视频帧图像集中包括交通场景的多帧图像；

对所述视频帧图像集进行所述目标车辆的车辆跟踪，得到包括该目标车辆的视频帧子图像集；

从所述视频帧子图像集中提取满足预设位姿的车辆图像。

3.根据权利要求1所述的方法，其特征在于，对所述车辆图像进行所述目标车辆的车辆检测，得到标注有所述目标车辆的2D检测框组的步骤，包括：

将所车辆图像输入至预先训练好的检测模型，通过所述检测模型输出检测图像；其中，所述检测图像中标注有2D检测框组；所述检测模型为通过标注有2D检测框组的车辆图像集对神经网络训练得到的检测模型。

4.根据权利要求1所述的方法，其特征在于，所述车身2D检测框、所述上半车身2D检测框和所述车端2D检测框均为矩形包围框；

基于所述车身2D检测框、所述上半车身2D检测框和所述车端2D检测框构建所述目标车辆对应的伪3D边界框的步骤，包括：

分别提取所述车身2D检测框的第一顶点组，所述上半车身2D检测框的第二顶点组，所述车端2D检测框的第三顶点组；其中，所述第一顶点组包括第一顶点(A)、第二顶点(B)、第三顶点(C)和第四顶点(D)，所述第二顶点组包括第一顶点(A)、第二顶点(B)、第五顶点(E)和第六顶点(F)，所述第三顶点组包括第一顶点(A)、第七顶点(G)、第八顶点(H)和第九顶点(I)；所述第九顶点(I)在第一顶点(A)和第四顶点(D)所在线段的延长线上，第七顶点(G)和第八顶点(H)所在线段与车头灯/车尾灯为界限，第五顶点(E)和第六顶点(F)所在线段以车尾车轮/车头车轮接地点为界限；

将第一顶点(A)、第二顶点(B)、第五顶点(E)、第八顶点(H)和第九顶点(I)进行连接构建伪3D边界框。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

由所述第五顶点(E)和第八顶点(H)构建所述目标车辆在车辆图像坐标系下的行驶方向线；

基于所述行驶方向线确定所述目标车辆在世界坐标系下的行驶方向。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提取所述伪3D边界框对应的边界框信息；其中，所述边界框信息包括所述目标车辆在车辆图像坐标系下的车头/车尾宽度信息、车身长度信息；

基于所述边界框信息计算所述目标车辆在世界坐标系下的真实3D信息。

7.一种伪3D边界框构建的装置，其特征在于，所述装置包括：

获取模块，用于获取交通摄像头采集的交通场景的视频数据；

第一提取模块，用于从所述视频数据中提取目标车辆对应的车辆图像；

检测模块，用于对所述车辆图像进行所述目标车辆的车辆检测，得到标注有所述目标车辆的2D检测框组；其中，所述2D检测框组包括车身2D检测框、上半车身2D检测框和车端2D检测框，该车端为车头前端或车尾后端；

构建模块，用于基于所述车身2D检测框、所述上半车身2D检测框和所述车端2D检测框构建所述目标车辆对应的伪3D边界框。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第二提取模块，用于提取所述伪3D边界框对应的边界框信息；其中，所述边界框信息包括所述目标车辆在车辆图像坐标系下的车头/车尾宽度信息、车身长度信息；

计算模块，用于基于所述边界框信息计算所述目标车辆在世界坐标系下的真实3D信息。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至6任一项所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至6任一项所述的方法。