CN112669335A

CN112669335A - 车辆感知方法、装置、电子设备以及机器可读存储介质

Info

Publication number: CN112669335A
Application number: CN202110115988.6A
Authority: CN
Inventors: 张广晟; 于红绯; 田欢; 胡骏; 刘威; 袁淮
Original assignee: Neusoft Reach Automotive Technology Shenyang Co Ltd
Current assignee: Neusoft Reach Automotive Technology Shenyang Co Ltd
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-04-16

Abstract

本发明提供了一种车辆感知方法、装置、电子设备以及机器可读存储介质，包括：获取针对当前自车行进方向的连续多个视频图像帧；根据多个视频图像帧和深度学习网络模型，确定每个时刻的点云图和每个时刻的点云图对应的他车运动参数、自车运动参数以及实例分割图；根据每个时刻的点云图以及对应的实例分割图和他车运动参数，确定每个时刻的点云图对应的第一转换图；根据每个时刻的点云图对应的第一转换图和自车运动参数，确定每个时刻的点云图对应第二转换图；基于每个时刻的点云图对应第二转换图感知预测他车下一时刻的位置信息通过对深度学习网络输出的中间结果进行分析转换，进而提高对前方他车状态感知估计的准确性。

Description

车辆感知方法、装置、电子设备以及机器可读存储介质

技术领域

本发明涉及车辆驾驶的技术领域，尤其是涉及一种车辆感知方法、装置、电子设备以及机器可读存储介质。

背景技术

在自动驾驶场景中，前方道路会有各种他车车辆行驶，他车状态会对自车的驾驶决策产生影响。为了保证驾驶安全，自动驾驶车辆需要通过控制自身车辆操作如减速、加速超车、或者转弯等等，来避免与这些他车车辆发生摩擦、碰撞的事故，因此，为了实现对自身车辆的准确控制以保证驾驶安全，对他车车辆进行感知是非常重要的。

现有方法中，一般使用机器学习方法、深度学习方法进行图像检测，获得车辆的感知结果，但此类方法受限于深度学习网络模型的训练样本选择，即对于训练样本并不涉及的业务场景，该深度学习方法无法对他车进行准确检测感知，无法保证车辆行驶的安全可靠性。

发明内容

有鉴于此，本发明的目的在于提供一种车辆感知方法、装置、电子设备以及机器可读存储介质，通过对深度学习网络输出的中间结果进行分析转换，进而提高对前方他车状态感知估计的准确性。

第一方面，实施例提供一种车辆感知方法，所述方法包括：

获取针对当前自车行进方向的连续多个视频图像帧；

根据所述多个视频图像帧和深度学习网络模型，确定每个时刻的点云图和所述每个时刻的点云图对应的他车运动参数、自车运动参数以及实例分割图，其中，所述运动参数用于表征所述车辆从前一时刻到当前时刻变化的运动状态，所述实例分割图用于分割出所述每个时刻视频图像帧中他车所在区域；

根据所述每个时刻的点云图以及对应的实例分割图和他车运动参数，确定所述每个时刻的点云图对应的第一转换图，所述第一转换图用于表征他车所在区域内的点云信息在当前时刻相对于自车的位置；

根据所述每个时刻的点云图对应的第一转换图和自车运动参数，确定所述每个时刻的点云图对应第二转换图，所述第二转换图用于表征他车所在区域内的点云信息在当前时刻实际的绝对位置；

基于所述每个时刻的点云图对应第二转换图感知预测所述他车下一时刻的位置信息。

在可选的实施方式中，所述深度学习网络模型包括第一深度学习网络模型和第二深度学习网络模型，根据所述多个视频图像帧和深度学习网络模型，确定每个时刻的点云图和所述每个时刻的点云图对应的他车运动参数、自车运动参数以及实例分割图的步骤，包括：

根据所述多个视频图像帧中的前后相邻的视频图像帧，并结合第一深度学习网络模型和相机内参，确定每个时刻的点云图；

将所述每个时刻的视频图像帧输入第二深度学习网络模型，输出所述每个时刻的视频图像帧对应的他车运动参数、自车运动参数和实例分割图。

在可选的实施方式中，根据所述多个视频图像帧中的前后相邻的视频图像帧，并结合第一深度学习网络模型和相机内参，确定每个时刻的点云图的步骤，包括：

从所述多个视频图像帧中选取T时刻视频图像帧与前一帧的T-1时刻视频图像帧，结合第一深度学习网络模型和相机内参，得到T时刻点云图，重复上述过程，直至每个时刻的视频图像帧都被遍历，其中T为大于1的自然数；

将所述每个时刻的视频图像帧输入第二深度学习网络模型，输出所述每个时刻的视频图像帧对应的他车运动参数、自车运动参数和实例分割图的步骤，包括：

将T时刻视频图像帧输入第二深度学习网络模型，输出T时刻视频图像帧对应的他车运动参数、自车运动参数和实例分割图，重复上述过程，直至输出每个时刻的视频图像帧对应参数，所述运动参数用于表征所述车辆从T-1时刻到T时刻变化的运动状态，所述实例分割图用于分割出所述T时刻视频图像帧中他车所在区域。

在可选的实施方式中，根据所述每个时刻的点云图以及对应的实例分割图和他车运动参数，确定所述每个时刻的点云图对应的第一转换图的步骤，包括：

根据所述T时刻点云图、所述实例分割图确定T时刻视频图像帧中他车所在区域内的点云信息图；

基于T时刻视频图像帧中他车所在区域内的点云信息图和所述他车运动参数进行转换计算，确定第一转换图，重复上述过程，直至确定所述每个时刻的点云图对应的第一转换图，所述第一转换图用于表征他车所在区域内的点云信息在T时刻相对于自车的位置。

在可选的实施方式中，基于所述每个时刻的点云图对应第二转换图感知预测所述他车下一时刻的位置信息的步骤，包括：

根据每个时刻的所述第二转换图确定目标他车对应的点云位置信息集合；

根据卡尔曼滤波方法对所述点云位置信息集合进行预测，得到所述目标他车在下一时刻的点云位置信息。

在可选的实施方式中，所述方法还包括：

基于所述目标他车在下一时刻的点云位置信息，控制当前自车执行相应操作。

在可选的实施方式中，所述运动参数包括六自由度参数。

第二方面，实施例提供一种车辆感知装置，所述装置包括：

获取模块，获取针对当前自车行进方向的连续多个视频图像帧；

第一确定模块，根据所述多个视频图像帧和深度学习网络模型，确定每个时刻的点云图和所述每个时刻的点云图对应的他车运动参数、自车运动参数以及实例分割图，其中，所述运动参数用于表征所述车辆从前一时刻到当前时刻变化的运动状态，所述实例分割图用于分割出所述每个时刻视频图像帧中他车所在区域；

第二确定模块，根据所述每个时刻的点云图以及对应的实例分割图和他车运动参数，确定所述每个时刻的点云图对应的第一转换图，所述第一转换图用于表征他车所在区域内的点云信息在当前时刻相对于自车的位置；

转换模块，根据所述每个时刻的点云图对应的第一转换图和自车运动参数，确定所述每个时刻的点云图对应第二转换图，所述第二转换图用于表征他车所在区域内的点云信息在当前时刻实际的绝对位置；

感知模块，基于所述每个时刻的点云图对应第二转换图感知预测所述他车下一时刻的位置信息。

第三方面，实施例提供一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述前述实施方式任一项所述的方法的步骤。

第四方面，实施例提供一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现前述实施方式任一项所述的方法的步骤。

本发明实施例提供的一种车辆感知方法和装置，通过深度学习网络和连续视频图像帧的结合，得到每个时刻的点云图、自车和他车从前一时刻到当前时刻变化的运动状态以及每个时刻视频图像帧中他车所在区域，确定每个时刻的中间结果第一转换图和第二转换图，其中第一转换图为相对于自车的他车所在区域点云图，再结合自车运动参数，得到用于表征实际的他车绝对位置的第二转换图，基于每个时刻的第二转换图中他车点云位置集合能够感知下一时刻他车的位置信息，通过中间结果与视觉几何原理相结合，打破训练样本的束缚，实现车辆位置通过世界坐标系的信息表达，进而提高对前方他车状态感知估计的准确性。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种车辆感知方法流程图；

图2为本发明实施例提供的另一种车辆感知方法流程示意图；

图3为本发明实施例提供的一种车辆感知装置的功能模块图；

图4为本发明实施例提供的一种电子设备的硬件架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

早期通过机器学习方法对图像检测，获得车辆的感知结构，这种方式准确率并不高。近些年来，人们为了进一步提高车辆感知结果的准确性，使用深度学习方法进行车辆的感知。车辆感知结果一般为2D框目标检测结果，语义分割结果或实例分割结果，这些仅仅是车辆在图像中的信息表达，且其检测准确性，受限于深度学习模型的训练样本。若训练样本的数量级较大，其覆盖的业务场景较为广泛，则此种深度学习模型的检测准确性较高，但成本较高，不利于车辆驾驶领域广泛应用；若对训练样本的数量进行精简，对其主要车辆驾驶中主要应用的业务场景进行覆盖，则当车辆驾驶出现一些较为罕见场景时，此深度学习模型无法准确感知。

可以理解的是，车辆驾驶场景复杂多变，若出现深度学习模型无法检测识别的情况，道路上他车或障碍物会对自身车辆行驶安全造成较大威胁。其中，属于比较罕见场景可包括前方可能出现较大的非车障碍物，如石块、或者道路上他车采用违反交通规则的方式，行驶或消失于当前车辆的视野中，此时的深度学习模型由于并未经过类似场景的训练样本进行训练，进而无法对此类罕见场景中的障碍物或他车进行准确感知，无法保证车辆行驶的安全可靠性。

基于此，本发明实施例提供的一种车辆感知方法、装置、电子设备以及机器可读存储介质，通过对深度学习网络输出的中间结果进行分析转换，进而提高对前方他车状态感知估计的准确性。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种车辆感知方法进行详细介绍，该方法可应用于控制处理设备，可为类似于行车记录仪的用于进行车辆感知的外设设备或集成在车辆中的控制设备，如车机类似设备。

图1为本发明实施例提供的一种车辆感知方法流程图。

如图1所示，该方法包括以下步骤：

步骤S102，获取针对当前自车行进方向的连续多个视频图像帧；

这里，可通过多种方式获取视频图像帧，该图像帧可由设置在车辆上的采集设备获得。作为一种可选的实施例，采集设备可为前视相机，安装在车辆前挡风玻璃上，采集自车行进方向中道路视频，形成连续的多个图像帧。该前视相机可与控制处理设备进行通信，以使控制处理设备获得相机内参，或可根据手工设置方式预先将相机内参进行输入。

可以理解的是，自车为当前用户驾驶的车辆自身，他车为当前用户驾驶车辆行进过程中，采集到的其他车辆，此类其他车辆可能行驶于道路中，也可能停靠在道路旁。

步骤S104，根据所述多个视频图像帧和深度学习网络模型，确定每个时刻的点云图和所述每个时刻的点云图对应的他车运动参数、自车运动参数以及实例分割图，其中，所述运动参数用于表征所述车辆从前一时刻到当前时刻变化的运动状态，所述实例分割图用于分割出所述每个时刻视频图像帧中他车所在区域；

其中，该运动参数包括六自由度参数。物体在空间具有六个自由度，即沿x、y、z三个直角坐标轴方向的移动自由度和绕这三个坐标轴的转动自由度。六个自由度的运动包括：俯仰、侧倾、横摆三个方向的转动以及纵向、横向、垂向三个方向的直线运动，可用于模拟车辆在道路行驶状况。

需要说明的是，用于生成输出每个时刻点云图对应的他车运动参数、自车运动参数以及实例分割图的深度学习模型，结合了深度学习算法与视觉几何原理。

步骤S106，根据所述每个时刻的点云图以及对应的实例分割图和他车运动参数，确定所述每个时刻的点云图对应的第一转换图，所述第一转换图用于表征他车所在区域内的点云信息在当前时刻相对于自车的位置；

步骤S108，根据所述每个时刻的点云图对应的第一转换图和自车运动参数，确定所述每个时刻的点云图对应第二转换图，所述第二转换图用于表征他车所在区域内的点云信息在当前时刻实际的绝对位置；

其中，由于上述参数(如他车运动参数、自车运动参数以及实例分割图)，是基于包括视觉几何原理的深度学习模型生成，因此，可以理解的是，通过上述实例分割图和他车运动参数生成的第一转换图、通过上述自车运动参数实现的第一转换图与第二转换图的转换过程等操作，均是基于视觉几何原理进行的。

步骤S110，基于所述每个时刻的点云图对应第二转换图感知预测所述他车下一时刻的位置信息。

在实际应用的优选实施例中，通过深度学习网络和连续视频图像帧的结合，得到每个时刻的点云图、自车和他车从前一时刻到当前时刻变化的运动状态以及每个时刻视频图像帧中他车所在区域，确定每个时刻的中间结果第一转换图和第二转换图，其中第一转换图为相对于自车的他车所在区域点云图，再结合自车运动参数，得到用于表征实际的他车绝对位置的第二转换图，基于每个时刻的第二转换图中他车点云位置集合能够感知下一时刻他车的位置信息，通过中间结果与视觉几何原理相结合，打破训练样本的束缚，实现车辆位置通过世界坐标系的信息表达，进而提高对前方他车状态感知估计的准确性。

在可选的实施方式中，所述深度学习网络模型包括第一深度学习网络模型和第二深度学习网络模型，步骤S104还包括以下步骤：

步骤1.1)，根据所述多个视频图像帧中的前后相邻的视频图像帧，并结合第一深度学习网络模型和相机内参，确定每个时刻的点云图；

如图2所示，从所述多个视频图像帧中选取T时刻视频图像帧与前一帧的T-1时刻视频图像帧，输入第一深度学习网络模型，得到T时刻深度图；结合相机内参，由T时刻深度图得到T时刻点云图，重复上述过程，直至每个时刻的视频图像帧都被遍历，其中T为大于1的自然数。

步骤1.2)，将所述每个时刻的视频图像帧输入第二深度学习网络模型，输出所述每个时刻的视频图像帧对应的他车运动参数、自车运动参数和实例分割图。

这里，将T时刻视频图像帧输入第二深度学习网络模型，输出T时刻视频图像帧对应的他车运动参数、自车运动参数和实例分割图，重复上述过程，直至输出每个时刻的视频图像帧对应参数，所述运动参数用于表征所述车辆从T-1时刻到T时刻变化的运动状态，所述实例分割图用于分割出所述T时刻视频图像帧中他车所在区域。

在可选的实施方式中，步骤S106还可通过以下步骤进行实现，具体包括：

步骤2.1)，根据所述T时刻点云图、所述实例分割图确定T时刻视频图像帧中他车所在区域内的点云信息图；

步骤2.2)，基于T时刻视频图像帧中他车所在区域内的点云信息图和所述他车运动参数进行转换计算，确定第一转换图，重复上述过程，直至确定所述每个时刻的点云图对应的第一转换图，所述第一转换图用于表征他车所在区域内的点云信息在T时刻相对于自车的位置。

这里，如图2所示，第一转换图通过T时刻点云图、实例分割图以及他车运动参数共同确定，第二转换图由第一转换图以及自车运动参数共同确定。

在可选的实施方式中，步骤S108可包括以下步骤：

步骤3.1)，根据每个时刻的所述第二转换图确定目标他车对应的点云位置信息集合；

这里，实例分割图可能分割出一辆他车所在区域、多辆他车所在区域或者无他车所在区域，则第二转换图中也可能包括一辆他车、多辆他车以及无他车的情况。作为一种可选的实施例，若此时具有多辆他车，每个时刻的第二转换图，按照各自所属他车类别进行点云位置信息集合。例如，第二转换图中包括他车A、他车B和他车C的点云所在区域，各个时刻的他车A点云位置信息集合在一处，记为

可得

同理他车B、他车C。

步骤3.2)，根据卡尔曼滤波方法对所述点云位置信息集合进行滤波过滤处理，进而实现预测，得到所述目标他车在下一时刻的点云位置信息。

在可选的实施方式中，所述方法还包括：

步骤4.1)，基于所述目标他车在下一时刻的点云位置信息，控制当前自车执行相应操作，例如控制自车进行停车避让，或检测与他车的距离，控制自车的行驶速度等操作，以保证车辆行驶的可靠性。

如图3所示，本发明实施例还提供一种车辆感知装置200，所述装置包括：

获取模块201，获取针对当前自车行进方向的连续多个视频图像帧；

第一确定模块202，根据所述多个视频图像帧和深度学习网络模型，确定每个时刻的点云图和所述每个时刻的点云图对应的他车运动参数、自车运动参数以及实例分割图，其中，所述运动参数用于表征所述车辆从前一时刻到当前时刻变化的运动状态，所述实例分割图用于分割出所述每个时刻视频图像帧中他车所在区域；

第二确定模块203，根据所述每个时刻的点云图以及对应的实例分割图和他车运动参数，确定所述每个时刻的点云图对应的第一转换图，所述第一转换图用于表征他车所在区域内的点云信息在当前时刻相对于自车的位置；

转换模块204，根据所述每个时刻的点云图对应的第一转换图和自车运动参数，确定所述每个时刻的点云图对应第二转换图，所述第二转换图用于表征他车所在区域内的点云信息在当前时刻实际的绝对位置；

感知模块205，基于所述每个时刻的点云图对应第二转换图感知预测所述他车下一时刻的位置信息。

本发明实施例通过深度学习模型和点云图得到感知中间结果第一转换图，在通过视觉几何原理确定第二转换图，完成检测部分，再对各个时刻的第二转换图中他车点云位置信息集合感知预测出下一时刻他车的位置信息，进而控制车辆进行相应操作，保证自车驾驶的安全性。

图4为本发明实施例提供的电子设备300的硬件架构示意图。参见图4所示，该电子设备300包括：机器可读存储介质301和处理器302，还可以包括非易失性存储介质303、通信接口304和总线305；其中，机器可读存储介质301、处理器302、非易失性存储介质303和通信接口304通过总线305完成相互间的通信。处理器302通过读取并执行机器可读存储介质301中车辆感知的机器可执行指令，可执行上文实施例描述车辆感知方法。

本文中提到的机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

非易失性介质可以是非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、dvd等)，或者类似的非易失性存储介质，或者它们的组合。

可以理解的是，本实施例中的各功能模块的具体操作方法可参照上述方法实施例中相应步骤的详细描述，在此不再重复赘述。

本发明实施例所提供计算机可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序代码被执行时可实现上述任一实施例所述的车辆感知方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。

Claims

1.一种车辆感知方法，其特征在于，所述方法包括：

获取针对当前自车行进方向的连续多个视频图像帧；

根据所述多个视频图像帧和深度学习网络模型，确定每个时刻的点云图和所述每个时刻的点云图对应的他车运动参数、自车运动参数以及实例分割图，其中，所述运动参数用于表征所述车辆从前一时刻到当前时刻变化的运动状态，所述实例分割图用于分割出每个时刻的所述视频图像帧中他车所在区域；

2.根据权利要求1所述的方法，其特征在于，所述深度学习网络模型包括第一深度学习网络模型和第二深度学习网络模型，根据所述多个视频图像帧和深度学习网络模型，确定每个时刻的点云图和所述每个时刻的点云图对应的他车运动参数、自车运动参数以及实例分割图的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述多个视频图像帧中的前后相邻的视频图像帧，并结合第一深度学习网络模型和相机内参，确定每个时刻的点云图的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述每个时刻的点云图以及对应的实例分割图和他车运动参数，确定所述每个时刻的点云图对应的第一转换图的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，基于所述每个时刻的点云图对应第二转换图感知预测所述他车下一时刻的位置信息的步骤，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述运动参数包括六自由度参数。

8.一种车辆感知装置，其特征在于，所述装置包括：

第一确定模块，根据所述多个视频图像帧和深度学习网络模型，确定每个时刻的点云图和所述每个时刻的点云图对应的他车运动参数、自车运动参数以及实例分割图，其中，所述运动参数用于表征所述车辆从前一时刻到当前时刻变化的运动状态，所述实例分割图用于分割出每个时刻的所述视频图像帧中他车所在区域；

9.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。

10.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现权利要求1至7任一项所述的方法的步骤。