CN114407916B

CN114407916B - 车辆控制及模型训练方法、装置、车辆、设备和存储介质

Info

Publication number: CN114407916B
Application number: CN202111542966.4A
Authority: CN
Inventors: 彭铭杏; 于宁; 孟琳
Original assignee: Apollo Zhixing Information Technology Nanjing Co ltd; Apollo Zhilian Beijing Technology Co Ltd
Current assignee: Apollo Zhixing Information Technology Nanjing Co ltd; Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2024-01-23
Anticipated expiration: 2041-12-16
Also published as: CN114407916A

Abstract

本公开提供了一种车辆控制及模型训练方法、装置、车辆、设备和存储介质，涉及计算机技术领域，具体涉及自动驾驶、智能交通、计算机视觉、深度学习等技术领域。车辆控制方法包括：获取车辆所在环境的环境图像，以及所述环境中的目标障碍物的检测信息，所述目标障碍物的当前状态为静止状态；基于所述环境图像和所述检测信息，确定所述目标障碍物保持静止状态的概率值；基于所述概率值，控制所述车辆的驾驶行为。本公开可以提高车辆控制效果。

Description

车辆控制及模型训练方法、装置、车辆、设备和存储介质

技术领域

本公开涉及计算机技术领域，具体涉及自动驾驶、智能交通、计算机视觉、深度学习等技术领域，尤其涉及一种车辆控制及模型训练方法、装置、车辆、设备和存储介质。

背景技术

自动驾驶车辆(Autonomous vehicles；Self-driving automobile)又称无人驾驶车辆、电脑驾驶车辆或轮式移动机器人，是一种通过电脑系统实现无人驾驶的智能车辆。

自动驾驶车辆检测出当前状态为静止状态的目标障碍物后，一般将其作为静态障碍物，采用避障绕行的方式。

发明内容

本公开提供了一种车辆控制及模型训练方法、装置、车辆、设备和存储介质。

根据本公开的一方面，提供了一种车辆控制方法，包括：获取车辆所在环境的环境图像，以及所述环境中的目标障碍物的检测信息，所述目标障碍物的当前状态为静止状态；基于所述环境图像和所述检测信息，确定所述目标障碍物保持静止状态的概率值；基于所述概率值，控制所述车辆的驾驶行为。

根据本公开的另一方面，提供了一种车辆控制模型的训练方法，包括：获取样本图像，以及所述样本图像中的目标障碍物的检测信息，所述目标障碍物的当前状态为静止状态；基于所述样本图像和所述检测信息，采用初始的车辆控制模型，确定所述目标障碍物保持静止状态的预测概率值；基于所述预测概率值和所述目标障碍物保持静止状态的真实概率值，构建损失函数；基于所述损失函数，调整所述初始的车辆控制模型的参数，以生成最终的车辆控制模型。

根据本公开的另一方面，提供了一种车辆控制装置，包括：获取模块，用于获取车辆所在环境的环境图像，以及所述环境中的目标障碍物的检测信息，所述目标障碍物的当前状态为静止状态；确定模块，用于基于所述环境图像和所述检测信息，确定所述目标障碍物保持静止状态的概率值；控制模块，用于基于所述概率值，控制所述车辆的驾驶行为。

根据本公开的另一方面，提供了一种车辆控制模型的训练装置，包括：获取模块，用于获取样本图像，以及所述样本图像中的目标障碍物的检测信息，所述目标障碍物的当前状态为静止状态；确定模块，用于基于所述样本图像和所述检测信息，采用初始的车辆控制模型，确定所述目标障碍物保持静止状态的预测概率值；构建模块，用于基于所述预测概率值和所述目标障碍物保持静止状态的真实概率值，构建损失函数；生成模块，用于基于所述损失函数，调整所述初始的车辆控制模型的参数，以生成最终的车辆控制模型。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。

根据本公开的另一方面，提供了一种车辆，包括：如上述任一方面的任一项所述的电子设备。

根据本公开的技术方案，可以提高车辆控制效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是根据本公开第六实施例的示意图；

图7是根据本公开第七实施例的示意图；

图8是根据本公开第八实施例的示意图；

图9是根据本公开第九实施例的示意图；

图10是根据本公开第十实施例的示意图；

图11是用来实现本公开实施例的车辆控制方法或车辆控制模型的训练方法的电子设备的示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，自动驾驶车辆检测出当前状态为静止状态的目标障碍物后，一般将其作为静态障碍物，采用避障绕行的方式。

但是，目标障碍物当前处于静止状态可能是多种原因引起的，比如，目标障碍物可能为长时间占道的违停车辆，此时可以避障绕行。然而，目标障碍物当前处于静止状态也可能是短暂停止，比如，遇到红灯或者道路拥堵。

若不论任何场景均采用避障绕行的方式，决策并不合理，还会影响驾驶平稳性。

为了提高车辆控制效果，本公开可以提供如下实施例。

图1是根据本公开第一实施例的示意图，本实施例提供一种车辆控制方法，所述方法包括：

101、获取车辆所在环境的环境图像，以及所述环境中的目标障碍物的检测信息，所述目标障碍物的当前状态为静止状态。

102、基于所述环境图像和所述检测信息，确定所述目标障碍物保持静止状态的概率值。

103、基于所述概率值，控制所述车辆的驾驶行为。

为了更好地理解本公开实施例，先对自动驾驶场景进行说明。

如图2所示，自动驾驶场景下涉及的设备包括：自动驾驶车辆201和服务器202，自动驾驶车辆201和服务器202可以通过通信网络连接，通信网络可以为无线通信网络，比如通过基站提供的信号进行通信。另外，为了实现对自动驾驶车辆的准确定位，自动驾驶场景下还可以包括卫星(图中未示出)。服务器202可以自动驾驶车辆对应的本地服务器或者为云端服务器。

自动驾驶车辆的自动驾驶功能可以通过自动驾驶系统实现。自动驾驶系统实现的自动驾驶级别目前可以分为L0～L5级别。其中，L0级驾驶表示无自动驾驶，即传统的驾驶员人工驾驶；L1级驾驶又称为辅助驾驶，包括定速巡航、自动泊车以及车道保持等基本功能；L2级驾驶又称为半自动驾驶，包括自动辅助驾驶，危险预判刹车等功能；L3级驾驶又称为有条件自动驾驶，与L2级相比，它可以在正常的路段下实现完全自动化驾驶，但是在一些紧急情况发生时，还是需要人工来进行辅助制动；L4级驾驶属于高度自动驾驶，汽车的整体制动性能以及反应能力已经达到了一个比较高的水准，驾驶员坐在汽车内部不用自己操控，而且汽车行驶比较平稳顺畅；L5级自动驾驶，它可以实现无条件的全自动驾驶技术，不管在任何情况下，都不用担心路况以及天气，实现全自动驾驶。

如图3所示，自动驾驶系统300可以包括：感知系统301、决策系统302和执行系统303。

自动驾驶系统中包括的各种系统还可以称为子系统、模块、组件、单元等。这些子系统可以为软件、硬件或者软硬结合。这些子系统中的部分或者全部可以部署在用户设备上，和/或，部署在服务器上。

用户设备可以包括：车载终端，或者，用户使用的移动设备。车载终端也可以称为车机，车机是指安装在车辆里面的车载信息娱乐产品的简称，车机在功能上能够实现人与车，车与外界(车与车、车与服务器)的信息通讯。移动设备可以包括：手机、平板电脑、便携式可穿戴设备等。

感知系统301，用于获得感知信息，感知信息可以包括障碍物信息、车辆自身信息等。即，感知系统感知信息可以检测车辆所在环境的环境信息，并基于环境信息计算障碍物信息和车辆自身信息等。障碍物信息比如包括：障碍物的位置、速度等，车辆自身信息比如包括车辆自身的位置、速度等。

感知系统301可以包括车辆上安装的传感器以及计算平台，传感器用于采集传感数据，计算平台用于基于传感数据进行计算，以确定障碍物信息以及车辆自身信息等。

传感器可以包括：摄像头、激光雷达、毫米波雷达、超声波雷达、全球定位系统(Global Positioning System，GPS)、惯性测量单元(Inertial Measurement Unit，IMU)等。

计算平台可以为车载计算芯片，或者，车辆可以将采集的传感数据发送给服务器，由服务器中的计算平台进行相关信息的计算等。

决策系统302，用于基于感知系统301获得的感知信息进行决策，以获得决策信息。决策可以包括路径规划(path planning)、行为规划(behavior planning)、轨迹规划(trajectory planning)等。相应地，决策信息可以包括规划出来的驾驶行为、路径、轨迹等。

其中，行为规划可以规划自动驾驶车辆的驾驶行为，比如，停车、换道、超车、避让、缓慢行驶等。

执行系统303，用于基于决策系统302获得的决策信息控制车辆的驾驶行为，比如，控制车辆的转向装置、油门装置、刹车装置等，以使得车辆按照决策出来的驾驶行为、路径、轨迹等行驶。

可以理解的是，上述场景说明只是便于对本公开实施例的理解进行的示例性说明，本公开实施例的执行不限于上述场景，还可以应用到任何适用的场景中。

结合上述场景示例，对本实施例的车辆控制方法进行说明如下：

车辆，可以具体为自动驾驶车辆，进一步地，可以为自动驾驶公交车。可以理解的是，不限于公交车，还可以为汽车、火车、货车等。

车辆所在环境的环境图像，可以为车辆所在车道的图像，其中，该图像中可以包括车辆前方的障碍物的图像。

目标障碍物是指当前状态为静止状态的障碍物，障碍物可以为车、人或者建筑物等。

其中，感知系统301可以获得障碍物信息，障碍物信息包括障碍物的速度信息，若某一障碍物的当前速度信息为0，则该障碍物的当前状态为静止状态，该障碍物为目标障碍物。

目标障碍物的检测信息可以具体为目标障碍物的位置信息，其中，感知系统301可以获得目标障碍物的位置信息。该位置信息可以为二维(2D)位置信息，可以用世界坐标系中的(x,y)表示。

目标障碍物保持静止状态的概率值还可以称为死车概率值。即，该概率值越大，目标障碍物保持静止状态的概率越大，相应地，目标障碍物的该概率值越大，表明该目标障碍物越可能长时间保持静止状态，比如为占道车辆。

基于概率值控制车辆的驾驶行为可以包括：控制车辆避障绕行、或者，控制车辆等待跟随。比如，目标障碍物为长时间保持静止状态的占道车辆、固定建筑物等，车辆可以执行避障绕行操作。或者，若目标障碍物只是短暂停止，车辆可以执行等待跟随操作。而不是所有场景下都执行避障绕行操作。

本实施例中，通过确定目标障碍物保持静止状态的概率值，基于该概率值控制车辆的驾驶行为，而不是不论场景均采用避障绕行的方式，可以选择更合理的驾驶行为，提高控制决策的合理性，保证驾驶稳定性，从而提高控制效果。

图4是根据本公开第四实施例的示意图，本实施例提供一种车辆控制方法，本实施例的方法包括：

401、获取车辆所在环境的环境图像，以及所述环境中的目标障碍物的检测信息，所述目标障碍物的当前状态为静止状态。

其中，车辆上可以安装摄像头，通过摄像头可以采集到环境图像。

目标障碍物的检测信息可以为目标障碍物的2D位置信息，感知系统可以获得该2D位置信息。其中，感知系统可以采用各种相关技术，比如目标检测、物体检测等技术，获得目标障碍物的2D位置信息。

目标障碍物的2D位置区域一般用矩形表示，2D位置信息可以用该矩形的左上角坐标和右下角坐标表示，或者，也可以用左上角坐标以及该矩阵的宽和高表示。

如图5所示，每个目标障碍物的检测信息可以包括：目标障碍物的标识信息(id)、目标障碍物的位置区域的左上角坐标(x,y)、以及该位置区域的宽和高(w,h)。

402、基于所述环境图像，获得所述环境图像对应的初始特征图。

其中，可以将所述环境图像输入到第一卷积神经网络(Convolutional NeuralNetworks，CNN)中进行处理，以输出所述初始特征图(feature map)。

如图5所示，环境图像可以为RGB图像，该RGB图像可以作为第一卷积神经网络的输入，第一卷积神经网络可以为VGG网络，具体可以为VGG的前5层。

第一卷积神经网络的输出为特征图，为了区分，可以称为初始特征图。

通过采用卷积神经网络获得初始特征图，可以利用神经网络的优良特征，获得效果较好的初始特征图。

403、基于所述初始特征图和所述检测信息，获得所述目标障碍物对应的局部特征图。

其中，如图5所示，每个目标障碍物的位置区域可以称为目标检测框，可以将目标检测框投影到初始特征图上，并基于投影信息对初始特征图进行特征裁剪，以获得局部特征图。

即，将目标检测框投影到初始特征图上的部分，作为局部特征图。

目标检测框的坐标(x,y)为世界坐标系中的坐标，可以先将该坐标转换为像素坐标系的坐标(u,v)，再基于第一卷积神经网络中各网络层的步长，将像素坐标(u,v)转换为初始特征图上的坐标。

具体地，目标检测框可以用两个点(左上角和右下角)表示，假设，左上角的世界坐标系中的坐标为(x0,y0)，右下角的世界坐标系中的坐标为(x1,y1)，可以将其先转换为像素坐标系中的坐标，比如，分别用(u0,v0)和(u1,v1)表示。关于世界坐标系到像素坐标系的转换，可以通过刚体变换、透视投影、仿射变换得到，具体公式可以参见相关技术。

获得左上角和右下角分别对应的像素坐标系中的坐标(u0,v0)、(u1,v1)后，可以采用如下公式，将其映射为初始特征图上的坐标(u'₀,v'₀)以及(u₁',v₁')：

左上角：

右下角：

其中，S为第一卷积神经网络中各网络层(包括卷积层和池化层)的步长的乘积；表示向下取整运算；/>表示向上取整运算。

之后，可以按照这两个点的坐标((u'₀,v'₀)以及(u₁',v₁'))，在初始特征图上裁剪出对应区域的部分特征图，作为局部特征图。

404、基于所述局部特征图，获得局部特征向量。

其中，可以将局部特征图输入到空间金字塔池化(Spatial Pyramid Pooling，SPP)层，以输出局部特征向量。

其中，目标障碍物可以为多个，多个目标障碍物可以共享SPP。如图5所示，对应每个目标障碍物，通过共享的SPP，可以输出一组局部特征向量，每组局部特征向量对应一个目标障碍物。

SPP层可以对输入图像进行不同维度的特征提取，再将不同维度提取的特征进行融合，以输出大小统一的特征向量。SPP层可以解决图像大小不一造成的问题，并且还可以提高处理精度和效率。

如图6所示，为SPP层的一个示例。SPP层的输入为目标障碍物的局部特征图，输出为目标障碍物的局部特征向量。

SPP层可以包括不同维度的特征提取网络，不同维度比如包括：16x n维、4x n维、n维，其中，n为单个特征的向量维度，比如为256。经过SPP层的处理，即使输入的局部特征图的大小不同，输出的局部特征向量均为(16+4+1)x n维。

通过基于SPP层获得局部特性向量，由于SPP层具有良好的处理精度和效率，因此可以加快局部特征向量的确定速度，以及提高局部特征向量的精度。

405、基于所述初始特征图，获得全局特征向量。

其中，可以将所述初始特征图输入到第二卷积神经网络中进行处理，以输出全局特征图；将所述全局特征图输入到感兴趣区域(Region of interest，ROI)池化层，以输出池化后的特征图；对所述池化后的特征图进行推平处理，以获得所述全局特征向量。

参见图5，第二卷积神经网络比如为包括2层卷积层(Conv x 2)的网络。

采用第二卷积神经网络，可以获得比初始特征图更高语义层级的特征图，该特征图可以称为全局特征图。

将全局特征图进行ROI池化以及推平处理后，可以获得全局特征向量。

ROI池化是用于目标检测任务的神经网络层，其是对非均匀尺寸的输入执行最大池化以获得固定尺寸的特征图。

通过采用ROI池化，可以提高池化效率和精度。

由于ROI池化后的特征为特征图，即为矩阵形式，而全局特征向量为向量形式，因此，可以采用推平处理将矩阵形式的特征转换为向量形式的特征，推平可以包括依次选择矩阵中的各行的行向量，对各行的行向量进行拼接后，以获得向量形式的全局特征向量。拼接是指合在一起，比如，一个向量为[0,1]，另一个向量维维[1,1]，拼接向量为[0,1,1,1]。

由于第二卷积神经网络可以获得更高层级的语义特征，ROI池化层可具有高效率和高精度的特点，因此，基于第二卷积神经网络和ROI池化层获得全局特征向量，可以全局特征向量具有更高的精度、准确度以及能较快的确定出全局特征向量。

可以理解的是，上述的403-405无时序限定关系。

406、基于所述局部特征向量和所述全局特征向量，确定所述目标障碍物保持静止状态的概率值。

其中，可以将所述局部特征向量和所述全局特征向量进行拼接处理，以获得拼接向量；将所述拼接向量输入到全连接网络中，以输出所述概率值。

如图5所示，对应每个目标障碍物的局部特征向量，将该局部特征向量与全局特征向量进行拼接，以获得拼接向量，拼接向量作为全连接(Full Connection，FC)网络的输入，FC网络的输出为目标障碍物保持静止状态的概率值。

其中，图5中的FC网络以包括2层全连接层(FC x 2)为例。上述的概率值在图5中表示为死车概率值。

通过基于全连接网络获得概率值，可以简便快速的获得概率值。

407、判断所述概率值是否大于或等于预设值，若是，执行408，否则，执行409。

408、控制所述车辆执行避障绕行的驾驶行为。

409、控制所述车辆执行等待跟随的驾驶行为。

比如，预设值可以为0.9，假设一个目标障碍物A的死车概率值为0.95，则针对该目标障碍物A的驾驶行为为避障绕行；假设一个目标障碍物B的死车概率值为0.12，则针对该目标障碍物B的驾驶行为为等待跟随。

由于概率值可以反映目标障碍物的未来行为，即，概率值越高，目标障碍物的未来行为越趋向于保持静止，反之，概率值越低，目标障碍物的未来行为越趋向于移动，因此，基于概率值执行不同的驾驶行为，可以作出更合理的决策，保证驾驶的平稳性。

本实施例中，确定概率值时基于目标障碍物对应的局部特征向量，以及环境图像对应的全局特征向量，可以结合全局信息和局部信息确定概率值，提高概率值的准确性，进而提高车辆控制准确性。

如图5所示，车辆控制时可以涉及一些神经网络，这些神经网络组成的模型可以称为车辆控制模型，上述实施例示出了车辆控制模型的应用过程，车辆控制模型的训练过程可以参见下述实施例。

图7是根据本公开第七实施例的示意图，本实施例提供一种车辆控制模型的训练方法，本实施例的方法包括：

701、获取样本图像，以及所述样本图像中的目标障碍物的检测信息，所述目标障碍物的当前状态为静止状态。

702、基于所述样本图像和所述检测信息，采用初始的车辆控制模型，确定所述目标障碍物保持静止状态的预测概率值。

703、基于所述预测概率值和所述目标障碍物保持静止状态的真实概率值，构建损失函数。

704、基于所述损失函数，调整所述初始的车辆控制模型的参数，以生成最终的车辆控制模型。

其中，可以从已有数据集中获得样本图像。

可以对样本图像中的目标障碍物进行标注，以获得目标障碍物对应的标签信息，该标签信息为目标障碍物保持静止状态的真实概率值，比如，目标障碍物发生移动，真实概率值被标注为1，目标障碍物未移动，真实概率值被标注为0。

可以对样本图像中的目标障碍物的位置信息进行标注或者采用感知系统进行处理，以获得目标障碍物的检测信息。

一些实施例中，所述车辆控制模型包括：第一卷积神经网络、SPP、第二卷积神经网络、ROI池化层和全连接网络，所述基于所述样本图像和所述检测信息，采用初始的车辆控制模型，确定所述目标障碍物的预测概率值，包括：将所述样本图像输入到所述第一卷积神经网络中进行处理，以输出所述样本图像对应的初始特征图；基于所述初始特征图和所述检测信息，获得所述目标障碍物对应的局部特征图；将所述局部特征图输入到所述SPP中进行处理，以输出局部特征向量；将所述初始特征图输入到所述第二卷积神经网络中，以输出全局特征图；将所述全局特征图输入到所述ROI池化层，以输出池化后的特征图；对所述池化后的特征图进行推平处理，以获得全局特征向量；对所述局部特征向量和所述全局特征向量进行拼接处理，以获得拼接向量；将所述拼接向量输入到所述全连接网络中进行处理，以输出所述概率值。

比如，参见图5，车辆控制模型包括：第一卷积神经网络(VGG)、SPP、第二卷积神经网络(Conv x 2)、ROI池化层和全连接网络(FC x 2)，将样本图像和样本图像中的目标障碍物的检测信息，输入到车辆控制模型后，可以输出目标障碍物的死车概率值，车辆控制模型输出的概率值可以称为预测概率值。

车辆控制模型在初始时可以具有初始的模型参数，相应地，模型可以称为初始的车辆控制模型。

模型训练时，即基于损失函数调整模型参数，直至达到预设的结束条件，将达到结束条件时的模型，作为最终的车辆控制模型。结束条件比如包括：预设迭代次数、损失函数收敛等。

上述过程中，预测概率值基于目标障碍物对应的局部特征向量，以及环境图像对应的全局特征向量确定，可以结合全局信息和局部信息确定概率值，提高预测概率值的准确性，进而提高车辆控制模型的准确性。

通过基于SPP获得局部特性向量，由于SPP具有良好的处理精度和效率，因此可以加快局部特征向量的确定速度，以及提高局部特征向量的精度。

通过采用ROI池化，可以提高池化效率和精度。

一些实施例中，所述基于所述预测概率值和所述目标障碍物保持静止状态的真实概率值，构建损失函数，包括：采用交叉熵函数，基于所述预测概率值和所述目标障碍物保持静止状态的真实概率值，构建损失函数。

其中，损失函数可以选择为交叉熵函数，用公式表示为：

其中，L为损失函数，N为一张样本图像的目标障碍物的个数，y_i为第i个目标障碍物的真实概率值，p_i为第i个目标障碍物的预测概率值。

由于交叉熵函数非常适合分类任务，因此，通过基于交叉熵函数构建损失函数，可以适合于对驾驶行为进行二分类的场景。

本实施例中，通过确定目标障碍物保持静止状态的预测概率值，基于预测概率值和真实概率值构建损失函数，并基于损失函数获得最终的车辆控制模型，可以获得用于对车辆驾驶行为进行二分类的车辆控制模型，从而可以基于车辆控制模型控制车辆选择更合理的驾驶行为，提高控制决策的合理性，保证驾驶稳定性，进而提高控制效果。

图8是根据本公开第七实施例的示意图，本实施例提供一种车辆控制装置。如图8所示，该装置800包括：获取模块801、确定模块802和控制模块803。

获取模块801用于获取车辆所在环境的环境图像，以及所述环境中的目标障碍物的检测信息，所述目标障碍物的当前状态为静止状态；确定模块802用于基于所述环境图像和所述检测信息，确定所述目标障碍物保持静止状态的概率值；控制模块803用于基于所述概率值，控制所述车辆的驾驶行为。

关于自动驾驶场景以及自动驾驶系统的说明可以参见图2、图3以及相关实施例。

一些实施例中，所述确定模块802进一步用于：基于所述环境图像，获得所述环境图像对应的初始特征图；基于所述初始特征图和所述检测信息，获得所述目标障碍物对应的局部特征图；基于所述局部特征图，获得局部特征向量；基于所述初始特征图，获得全局特征向量；基于所述局部特征向量和所述全局特征向量，确定所述概率值。

通过确定概率值时基于目标障碍物对应的局部特征向量，以及环境图像对应的全局特征向量，可以结合全局信息和局部信息确定概率值，提高概率值的准确性，进而提高车辆控制准确性。

一些实施例中，所述确定模块802进一步用于：将所述环境图像输入到第一卷积神经网络中进行处理，以输出所述初始特征图。

一些实施例中，所述确定模块802进一步用于：将所述局部特征图输入到SPP中进行处理，以输出所述局部特征向量。

左上角：

右下角：

一些实施例中，所述确定模块802进一步用于：将所述初始特征图输入到第二卷积神经网络中进行处理，以输出全局特征图；将所述全局特征图输入到ROI池化层，以输出池化后的特征图；对所述池化后的特征图进行推平处理，以获得所述全局特征向量。

通过采用ROI池化，可以提高池化效率和精度。

一些实施例中，所述确定模块802进一步用于：将所述局部特征向量和所述全局特征向量进行拼接处理，以获得拼接向量；将所述拼接向量输入到全连接网络中，以输出所述概率值。

一些实施例中，所述控制模块803进一步用于：若所述概率值大于或等于预设值，控制所述车辆执行避障绕行的驾驶行为；或者，若所述概率值小于所述预设值，控制所述车辆执行等待跟随的驾驶行为。

图9是根据本公开第九实施例的示意图，本实施例提供一种车辆控制模型的训练装置。如图9所示，该装置900包括：获取模块901、确定模块902、构建模块903和生成模块904。

获取模块901用于获取样本图像，以及所述样本图像中的目标障碍物的检测信息，所述目标障碍物的当前状态为静止状态；确定模块902用于基于所述样本图像和所述检测信息，采用初始的车辆控制模型，确定所述目标障碍物保持静止状态的预测概率值；构建模块903用于基于所述预测概率值和所述目标障碍物保持静止状态的真实概率值，构建损失函数；生成模块904用于基于所述损失函数，调整所述初始的车辆控制模型的参数，以生成最终的车辆控制模型。

其中，可以从已有数据集中获得样本图像。

一些实施例中，所述构建模块903进一步用于：采用交叉熵函数，基于所述预测概率值和所述目标障碍物保持静止状态的真实概率值，构建所述损失函数。

其中，损失函数可以选择为交叉熵函数，用公式表示为：

一些实施例中，所述车辆控制模型包括：第一卷积神经网络、SPP、第二卷积神经网络、ROI池化层和全连接网络，所述确定模块902进一步用于：将所述样本图像输入到所述第一卷积神经网络中进行处理，以输出所述样本图像对应的初始特征图；基于所述初始特征图和所述检测信息，获得所述目标障碍物对应的局部特征图；将所述局部特征图输入到所述SPP中进行处理，以输出局部特征向量；将所述初始特征图输入到所述第二卷积神经网络中，以输出全局特征图；将所述全局特征图输入到所述ROI池化层，以输出池化后的特征图；对所述池化后的特征图进行推平处理，以获得全局特征向量；对所述局部特征向量和所述全局特征向量进行拼接处理，以获得拼接向量；将所述拼接向量输入到所述全连接网络中进行处理，以输出所述概率值。

通过采用ROI池化，可以提高池化效率和精度。

可以理解的是，本公开实施例中，不同实施例中的相同或相似内容可以相互参考。

可以理解的是，本公开实施例中的“第一”、“第二”等只是用于区分，不表示重要程度高低、时序先后等。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，还提供了一种自动驾驶车辆，如图10所示，自动驾驶车辆1000包括电子设备1001。关于电子设备的说明可以参见后续实施例。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储电子设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

电子设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如车辆控制方法或车辆控制模型的训练方法。例如，在一些实施例中，车辆控制方法或车辆控制模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时，可以执行上文描述的车辆控制方法或车辆控制模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行车辆控制方法或车辆控制模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程地图数据采集装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种车辆控制方法，包括：

获取车辆所在环境的环境图像，以及所述环境中的目标障碍物的检测信息，所述目标障碍物的当前状态为静止状态；

基于所述环境图像和所述检测信息，确定所述目标障碍物保持静止状态的概率值；

基于所述概率值，控制所述车辆的驾驶行为；

其中，所述基于所述环境图像和所述检测信息，确定所述目标障碍物保持静止状态的概率值，包括：

基于所述环境图像，获得所述环境图像对应的初始特征图；

基于所述初始特征图和所述检测信息，获得所述目标障碍物对应的局部特征图；

基于所述局部特征图，获得局部特征向量；

基于所述初始特征图，获得全局特征向量；

基于所述局部特征向量和所述全局特征向量，确定所述概率值。

2.根据权利要求1所述的方法，其中，所述基于所述环境图像，获得所述环境图像对应的初始特征图，包括：

将所述环境图像输入到第一卷积神经网络中进行处理，以输出所述初始特征图。

3.根据权利要求1所述的方法，其中，所述基于所述局部特征图，获得局部特征向量，包括：

将所述局部特征图输入到空间金字塔池化SPP层中进行处理，以输出所述局部特征向量。

4.根据权利要求1所述的方法，其中，所述基于所述初始特征图，获得全局特征向量，包括：

将所述初始特征图输入到第二卷积神经网络中进行处理，以输出全局特征图；

将所述全局特征图输入到感兴趣区域ROI池化层，以输出池化后的特征图；

对所述池化后的特征图进行推平处理，以获得所述全局特征向量。

5.根据权利要求1所述的方法，其中，所述基于所述局部特征向量和所述全局特征向量，确定所述概率值，包括：

将所述局部特征向量和所述全局特征向量进行拼接处理，以获得拼接向量；

将所述拼接向量输入到全连接网络中，以输出所述概率值。

6.根据权利要求1-5任一项所述的方法，其中，所述基于所述概率值，控制所述车辆的驾驶行为，包括：

若所述概率值大于或等于预设值，控制所述车辆执行避障绕行的驾驶行为；或者，

若所述概率值小于所述预设值，控制所述车辆执行等待跟随的驾驶行为。

7.一种车辆控制模型的训练方法，包括：

获取样本图像，以及所述样本图像中的目标障碍物的检测信息，所述目标障碍物的当前状态为静止状态；

基于所述样本图像和所述检测信息，采用初始的车辆控制模型，确定所述目标障碍物保持静止状态的预测概率值；

基于所述预测概率值和所述目标障碍物保持静止状态的真实概率值，构建损失函数；

基于所述损失函数，调整所述初始的车辆控制模型的参数，以生成最终的车辆控制模型。

8.根据权利要求7所述的方法，其中，所述基于所述预测概率值和所述目标障碍物保持静止状态的真实概率值，构建损失函数，包括：

采用交叉熵函数，基于所述预测概率值和所述目标障碍物保持静止状态的真实概率值，构建所述损失函数。

9.根据权利要求7或8所述的方法，其中，所述车辆控制模型包括：第一卷积神经网络、空间金字塔SPP层、第二卷积神经网络、感兴趣区域ROI池化层和全连接网络，所述基于所述样本图像和所述检测信息，采用初始的车辆控制模型，确定所述目标障碍物的预测概率值，包括：

将所述样本图像输入到所述第一卷积神经网络中进行处理，以输出所述样本图像对应的初始特征图；

将所述局部特征图输入到所述SPP层中进行处理，以输出局部特征向量；

将所述初始特征图输入到所述第二卷积神经网络中，以输出全局特征图；

将所述全局特征图输入到所述ROI池化层，以输出池化后的特征图；

对所述池化后的特征图进行推平处理，以获得全局特征向量；

对所述局部特征向量和所述全局特征向量进行拼接处理，以获得拼接向量；

将所述拼接向量输入到所述全连接网络中进行处理，以输出所述概率值。

10.一种车辆控制装置，包括：

获取模块，用于获取车辆所在环境的环境图像，以及所述环境中的目标障碍物的检测信息，所述目标障碍物的当前状态为静止状态；

确定模块，用于基于所述环境图像和所述检测信息，确定所述目标障碍物保持静止状态的概率值；

控制模块，用于基于所述概率值，控制所述车辆的驾驶行为；

其中，所述确定模块进一步用于：

基于所述环境图像，获得所述环境图像对应的初始特征图；

基于所述局部特征图，获得局部特征向量；

基于所述初始特征图，获得全局特征向量；

11.根据权利要求10所述的装置，其中，所述确定模块进一步用于：

12.根据权利要求10所述的装置，其中，所述确定模块进一步用于：

将所述局部特征图输入到空间金字塔SPP层中进行处理，以输出所述局部特征向量。

13.根据权利要求10所述的装置，其中，所述确定模块进一步用于：

14.根据权利要求10所述的装置，其中，所述确定模块进一步用于：

将所述拼接向量输入到全连接网络中，以输出所述概率值。

15.根据权利要求10-14任一项所述的装置，其中，所述控制模块进一步用于：

16.一种车辆控制模型的训练装置，包括：

获取模块，用于获取样本图像，以及所述样本图像中的目标障碍物的检测信息，所述目标障碍物的当前状态为静止状态；

确定模块，用于基于所述样本图像和所述检测信息，采用初始的车辆控制模型，确定所述目标障碍物保持静止状态的预测概率值；

构建模块，用于基于所述预测概率值和所述目标障碍物保持静止状态的真实概率值，构建损失函数；

生成模块，用于基于所述损失函数，调整所述初始的车辆控制模型的参数，以生成最终的车辆控制模型。

17.根据权利要求16所述的装置，其中，所述构建模块进一步用于：

18.根据权利要求16或17所述的装置，其中，所述车辆控制模型包括：第一卷积神经网络、空间金字塔SPP层、第二卷积神经网络、感兴趣区域ROI池化层和全连接网络，所述确定模块进一步用于：

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种自动驾驶车辆，包括：如权利要求19所述的电子设备。