CN115620277A

CN115620277A - 单目3d环境感知方法、装置及电子设备、存储介质

Info

Publication number: CN115620277A
Application number: CN202211254679.8A
Authority: CN
Inventors: 严栋山; 张晓亮; 徐建国; 彭海娟
Original assignee: Beijing Jingxiang Technology Co Ltd
Current assignee: Beijing Jingxiang Technology Co Ltd
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-01-17

Abstract

本申请公开了一种单目3D环境感知方法、装置及电子设备、存储介质，其中所述方法包括：获取包含有目标物的待检测图像；将所述待检测图像输入预设图像检测模型，得到所述目标物的特征信息，所述预设图像检测模型是采用一个主干网络以及多个分支任务网络的网络结构训练得到的；根据所述目标物的特征信息、自车运动估计信息，得到所述目标物的3D环境感知信息。通过本申请实现了单目相机实现3D环境感知。本申请可用于自动驾驶车辆感知交通场景的复杂环境信息。

Description

单目3D环境感知方法、装置及电子设备、存储介质

技术领域

本申请涉及自动驾驶、环境感知技术领域，尤其涉及一种单目3D环境感知方法、装置及电子设备、存储介质。

背景技术

感知并理解快速动态变化的交通场景对于现代的自动驾驶系统是非常重要的。对于自动驾驶系统而言不仅需要在图像域检测到目标物体，而且要提供目标物体在世界坐标系下的三维(3D)位置信息，以防止和其他交通物体发生碰撞。

相关技术中，对于交通场景的3D感知主要是以深度相机或双目相机为主，而单目相机主要感知目标物体在图像域的二维(2D)位置信息，或者融合IMU惯导实现交通场景的3D感知。

如果使用深度相机或双目相机，深度相机和双目相机造价昂贵且感知结果不稳定。然而采用单目相机2D位置信息融合IMU实现3D感知的融合方式会造成融合程序代码复杂程度高且不易维护。

发明内容

本申请实施例提供了单目3D环境感知方法、装置及电子设备、存储介质，以通过单目实现更加丰富的环境感知，而不需要复杂的融合。

本申请实施例采用下述技术方案：

第一方面，本申请实施例提供一种单目3D环境感知方法，其中，所述方法包括：

获取包含有目标物的待检测图像；

将所述待检测图像输入预设图像检测模型，得到所述目标物的特征信息，所述预设图像检测模型是采用一个主干网络以及多个分支任务网络的网络结构训练得到的；

根据所述目标物的特征信息、自车运动估计信息，得到所述目标物的3D环境感知信息。

在一些实施例中，所述预设图像检测模型包括：

一主干网络，用于提取图像特征；

多个分支任务网络，用于将预设特征图与多个卷积检测头连接，

其中，所述预设特征图是通过两个相邻图像帧经过预设处理之后提取得到的带有语义特征的特征图。

在一些实施例中，所述目标物的特征信息包括：旋转矩阵、平移向量、当前可行驶区域、所述目标物的2D边缘检测框、所述目标物的3D边缘检测框，所述方法还包括：

根据所述旋转矩阵以及所述平移向量，估计得到所述目标物体的移动速度；

根据所述当前的可行驶区域得到当前交通场景下经过语义分割后得到的当前可行驶区域；

根据所述目标物的2D边缘检测框，得到所述目标物2D信息以及根据所述目标物的3D边缘检测框得到所述目标物的3D信息。

在一些实施例中，所述预设图像检测模型还包括：

根据获取的相邻时刻的两张图像，采用卷积神经网络的主干网络以及路径聚合PAN，提取出相邻两时刻的两张图像中的图像特征；

根据相邻两时刻的两张图像中的图像特征，得到第一特征图以及第二特征图，所述第一特征图作为当前帧的特征图，所述第二特征图作为上一帧的特征图；

将所述第二特征图投影到所述第一特征图下进行特征对齐，得到特征对齐后的特征图；

将所述特征对齐后的特征图与所述第一特征图进行融合得到所述预设特征图。

在一些实施例中，根据所述目标物的特征信息、自车运动估计信息，得到所述目标物的3D环境感知信息，包括：

根据所述目标物的特征信息中的目标物的3D信息、所述自车运动估计信息，得到所述目标物的3D环境感知信息中的3D边缘检测框的长宽高(L,W,H)、所述目标物在所述3D边缘检测框中的位置坐标信息(X,Y,Z)、所述目标物的航向角信息、所述目标物的绝对横向速度Vy及绝对纵向速度Vx。

在一些实施例中，所述根据所述目标物的特征信息、自车运动估计信息，得到所述目标物的3D环境感知信息，包括：

基于卡尔曼滤波算法，对所述目标物进行跟踪，并通过所述当前可行驶区域校正跟踪过程中的误检。

在一些实施例中，所述自车运动估计信息，根据自车的定位模块获取的相邻帧对应的自车定位信息确定的，且与所述目标物的特征信息具有相同的时间戳。

第二方面，本申请实施例还提供一种单目3D环境感知装置，其中，所述装置包括：

获取模块，用于获取包含有目标物的待检测图像；

特征模块，用于将所述待检测图像输入预设图像检测模型，得到所述目标物的特征信息，所述预设图像检测模型是采用一个主干网络以及多个分支任务网络的网络结构训练得到的；

感知模块，用于根据所述目标物的特征信息、自车运动估计信息，得到所述目标物的3D环境感知信息。

第三方面，本申请实施例还提供一种电子设备，包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行上述方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行上述方法。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

通过预设图像检测模型得到的所述目标物的特征信息以及自车运动估计信息，可以得到目标物的3D环境感知信息。由于预设图像检测模型能够输出维度的目标物的特征信息并且与自车估计信息融合，可以得到3D环境感知信息。仅通过单目相机即可实现3D环境感知，区别于相关技术中使用深度或双目相机以及需要融合IMU的场景，可以获得更加丰富的(目标物)环境感知信息。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中单目3D环境感知方法的流程示意图；

图2为本申请实施例中单目3D环境感知装置的结构示意图；

图3为本申请实施例中一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

本申请实施例提供了一种单目3D环境感知方法，如图1所示，提供了本申请实施例中单目3D环境感知方法流程示意图，所述方法至少包括如下的步骤S110至步骤S130：

步骤S110，获取包含有目标物的待检测图像。

方案中可以通过在车辆上安装的单目摄像头获取待检测图像，且在所述待检测图像中包含有目标物。

可以理解，这里的目标物包括但不限于，车辆、障碍物以及其他感兴趣目标物，在本申请中并不进行具体限定。

需要注意的是，目标物针对的是自车感知当前环境的场景。且针对同一辆车不同目标物的情况。

步骤S120，将所述待检测图像输入预设图像检测模型，得到所述目标物的特征信息，所述预设图像检测模型是采用一个主干网络以及多个分支任务网络的网络结构训练得到的。

将获取的所述待检测图像输入预设图像检测模型，采用基于机器学习的网络模型可以识别得到预设的特征信息，即作为所述目标物的特征信息。

所述预设图像检测模型采用一个主干网络backbone以及多个分支任务网络，并通过训练至收敛得到图像检测模型，所述主干网络得到图像特征，通过所述多个分支任务网络(卷积)得到所述预设的特征信息。

需要注意的是，所述目标物的特征信息包括但不限于旋转矩阵、平移向量、当前可行驶区域、所述目标物的2D边缘检测框、所述目标物的3D边缘检测框。

通过模型输出的这些参数，可以丰富所述目标物的特征信息。比如，通过目标物的2D边缘检测框即作为目标物的2D检测结果。又比如，通过目标物的3D边缘检测框可以作为目标物的3D信息。同时，还可以得到当前可行驶区域作为对图像经过语义分割之后得到的结果。

所述旋转矩阵、所述平移向量可以估计得到所述目标物的(相对)移动速度。

步骤S130，根据所述目标物的特征信息、自车运动估计信息，得到所述目标物的3D环境感知信息。

根据所述目标物的特征信息以及自车运动估计信息(ego-motion)，最终得到所述目标物的3D环境感知信息并作为9D信息估计结果(L，W，H，X，Y，Z，Yaw，Vx，Vy)。

需要注意的是9D信息估计结果包括了：根据所述目标物的特征信息中的目标物的3D信息、所述自车运动估计信息，得到所述目标物的3D环境感知信息中的3D边缘检测框的长宽高(L，W，H)、所述目标物在所述3D边缘检测框中的位置坐标信息(X，Y，Z)、所述目标物的航向角信息、所述目标物的绝对横向速度Vy及绝对纵向速度Vx。

通过对自车运动的估计以及网络模型得到的特征信息，可以对当前交通场景进行3D理解，且通过单目相机主要针对于交通场景的目标物建立3D感知信息，进而根据3D感知信息进行自动驾驶车辆的规划、决策。在确定所述自车运动估计信息借助了IMU中的定位信息，并通过前后帧定位信息，对所述自车运动状态信息实现估计。

此外，对于多个目标物的场景，也可以得到每个所述目标物的3D环境感知信息。

在本申请的一个实施例中，所述预设图像检测模型包括：一主干网络，用于提取图像特征；多个分支任务网络，用于将预设特征图与多个卷积检测头连接，其中，所述预设特征图是通过两个相邻图像帧经过预设处理之后提取得到的带有语义特征的特征图。

具体实施时，所述主干网络，用于提取图像特征，包括但不限于VGGNet、RESNet在本申请实施例中并不进行具体限定。多个分支任务网络，用于将预设特征图与多个卷积检测头连接。

优选地，采用主干网络backbone+路径聚合PAN的方式提取图像特征。

通过预设特征图与多个卷积检测头(卷积)连接，输出目标物的特征信息。

在本申请的一个实施例中，所述目标物的特征信息包括：旋转矩阵、平移向量、当前可行驶区域、所述目标物的2D边缘检测框、所述目标物的3D边缘检测框，所述方法还包括：根据所述旋转矩阵以及所述平移向量，估计得到所述目标物体的移动速度；根据所述当前的可行驶区域得到当前交通场景下经过语义分割后得到的当前可行驶区域；根据所述目标物的2D边缘检测框，得到所述目标物2D信息以及根据所述目标物的3D边缘检测框得到所述目标物的3D信息。

具体实施时，根据所述旋转矩阵以及所述平移向量，估计得到所述目标物体的移动速度，即可作为之后的目标物移动速度估计。

根据所述当前的可行驶区域得到当前交通场景下经过语义分割后得到的当前可行驶区域，可以作为目标误检的校正。并按照语义分割的可行驶区域校正检测结果。

根据所述目标物的2D边缘检测框，得到所述目标物2D信息以及根据所述目标物的3D边缘检测框得到所述目标物的3D信息。通过2D边缘检测框以及3D边缘检测框，可以得到平面2D以及三维3D信息。

在本申请的一个实施例中，所述预设图像检测模型还包括：根据获取的相邻时刻的两张图像，采用卷积神经网络的主干网络以及路径聚合PAN，提取出相邻两时刻的两张图像中的图像特征；根据相邻两时刻的两张图像中的图像特征，得到第一特征图以及第二特征图，所述第一特征图作为当前帧的特征图，所述第二特征图作为上一帧的特征图；将所述第二特征图投影到所述第一特征图下进行特征对齐，得到特征对齐后的特征图；将所述特征对齐后的特征图与所述第一特征图进行融合得到所述预设特征图。

具体实施时，首先向网络模型中输入相邻时刻的两副图像I_t、I_t-1；

然后，采用用卷积神经网络的主干网络(backbone)+路径聚合(PAN)提取出相邻两时刻的图像特征，并得到相应的特征图F_t、F_t-1；

之后，将特征图F_t-1投影到F_t下和F_t进行对齐，得到F′_t-1，对齐之后得到的；把F′_t-1和F_t进行融合得到特征图F，此时的特征图F是具有语义信息的特征图；

在特征图F上接入不同的检测头(head卷积的操作)输出不同的信息((R，t)，(free-space)，(2Dbox)，(3Dbox))。

在本申请的一个实施例中，所述根据所述目标物的特征信息、自车运动估计信息，得到所述目标物的3D环境感知信息，包括：基于卡尔曼滤波算法，对所述目标物进行跟踪，并通过所述当前可行驶区域校正跟踪过程中的误检。

具体实施时，通过卡尔曼滤波算法(kalman)实现对目标的跟踪，并通过所述当前可行驶区域(网络模型输出的目标物特征信息)校正跟踪过程中的误检。

考虑到可能出现的目标物误检，可以通过所述当前可行驶区域校正跟踪过程中的误检。

在本申请的一个实施例中，所述自车运动估计信息，根据自车的定位模块获取的相邻帧对应的自车定位信息确定的，且与所述目标物的特征信息具有相同的时间戳。

具体实施时，ego-motion根据自车的定位模块获取的相邻帧对应的自车定位信息确定的，且所述目标物的特征信息具有相同的时间戳(也就是说单目相机采集的图像帧与IMU定位结果为针对同一帧的估计结果)。

本申请实施例还提供了单目3D环境感知装置200，如图2所示，提供了本申请实施例中单目3D环境感知装置的结构示意图，所述装置200至少包括：获取模块210、特征模块220以及感知模块230，其中：

在本申请的一个实施例中，所述获取模块210具体用于：获取包含有目标物的待检测图像。

在本申请的一个实施例中，所述特征模块220具体用于：将所述待检测图像输入预设图像检测模型，得到所述目标物的特征信息，所述预设图像检测模型是采用一个主干网络以及多个分支任务网络的网络结构训练得到的。

在本申请的一个实施例中，所述感知模块230具体用于：根据所述目标物的特征信息、自车运动估计信息，得到所述目标物的3D环境感知信息。

需要注意的是，9D信息估计结果包括了：根据所述目标物的特征信息中的目标物的3D信息、所述自车运动估计信息，得到所述目标物的3D环境感知信息中的3D边缘检测框的长宽高(L，W，H)、所述目标物在所述3D边缘检测框中的位置坐标信息(X，Y，Z)、所述目标物的航向角信息、所述目标物的绝对横向速度Vy及绝对纵向速度Vx。所述绝对横向速度Vy及绝对纵向速度Vx根据，根据所述目标物的在自车坐标系下的坐标位置以及所述目标物在所述自车坐标系下的相对速度确定的。

能够理解，上述单目3D环境感知装置，能够实现前述实施例中提供的单目3D环境感知方法的各个步骤，关于单目3D环境感知方法的相关阐释均适用于单目3D环境感知装置，此处不再赘述。

图3是本申请的一个实施例电子设备的结构示意图。请参考图3，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成单目3D环境感知装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取包含有目标物的待检测图像；

上述如本申请图1所示实施例揭示的单目3D环境感知装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1中单目3D环境感知装置执行的方法，并实现单目3D环境感知装置在图1所示实施例的功能，本申请实施例在此不再赘述。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行图1所示实施例中单目3D环境感知装置执行的方法，并具体用于执行：

获取包含有目标物的待检测图像；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种单目3D环境感知方法，其中，所述方法包括：

获取包含有目标物的待检测图像；

2.如权利要求1所述方法，其中，所述预设图像检测模型包括：

一主干网络，用于提取图像特征；

3.如权利要求2所述方法，其中，所述目标物的特征信息包括：旋转矩阵、平移向量、当前可行驶区域、所述目标物的2D边缘检测框、所述目标物的3D边缘检测框，所述方法还包括：

4.如权利要求2所述方法，其中，所述预设图像检测模型还包括：

5.如权利要求4所述方法，其中，根据所述目标物的特征信息、自车运动估计信息，得到所述目标物的3D环境感知信息，包括：

6.如权利要求3所述方法，其中，所述根据所述目标物的特征信息、自车运动估计信息，得到所述目标物的3D环境感知信息，包括：

7.如权利要求1所述方法，其中，所述自车运动估计信息，根据自车的定位模块获取的相邻帧对应的自车定位信息确定的，且与所述目标物的特征信息具有相同的时间戳。

8.一种单目3D环境感知装置，其中，所述装置包括：

获取模块，用于获取包含有目标物的待检测图像；

9.一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行所述权利要求1～7之任一所述方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行所述权利要求1～7之任一所述方法。