CN112418237A

CN112418237A - 车辆驾驶决策方法、装置及电子设备

Info

Publication number: CN112418237A
Application number: CN202011432683.XA
Authority: CN
Inventors: 张艺浩; 钱少华; 韩志华; 张旭
Original assignee: Suzhou Zhitu Technology Co Ltd
Current assignee: Suzhou Zhitu Technology Co Ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-02-26

Abstract

本发明提供了一种车辆驾驶决策方法、装置及电子设备，首先获取当前车辆的行驶检测数据；然后根据行驶检测数据，确定决策参考数据；进而将决策参考数据输入至预先训练的驾驶决策模型，得到驾驶决策模型输出的决策数据；最后根据决策数据中的预设决策动作的状态值及与状态值对应的不确定性，确定当前车辆的决策动作。本发明通过预先训练的驾驶决策模型得到预设决策动作的状态值及对应的不确定性，并在进行决策时同时考虑状态值及不确定性，提高了动态复杂的环境中的驾驶决策的准确度，提高了驾驶安全性。

Description

车辆驾驶决策方法、装置及电子设备

技术领域

本发明涉及自动驾驶技术领域，尤其是涉及一种车辆驾驶决策方法、装置及电子设备。

背景技术

相关技术中，通常采用人工智能相关算法对自动驾驶车辆进行决策规划；然而上述方式通常需要根据特定的驾驶情形制定对应的决策，在动态复杂的环境中的决策准确度较低，导致驾驶安全性较低。

发明内容

有鉴于此，本发明的目的在于提供一种车辆驾驶决策方法、装置及电子设备，以提高动态复杂的环境中的驾驶决策的准确度，提高驾驶安全性。

第一方面，本发明实施例提供了一种车辆驾驶决策方法，包括：获取当前车辆的行驶检测数据；根据行驶检测数据，确定决策参考数据；将决策参考数据输入至预先训练的驾驶决策模型，得到驾驶决策模型输出的决策数据；决策数据包括对应于预设决策动作的状态值及与状态值对应的不确定性；根据预设决策动作的状态值及与状态值对应的不确定性，确定当前车辆的决策动作。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，上述行驶检测数据包括雷达数据、自车数据及图像数据；根据行驶检测数据，确定决策参考数据的步骤，包括：根据雷达数据，确定当前车辆的周边车辆信息数据；通过预设的RefineNet对图像数据进行语义分割，得到语义分割图像数据；将周边车辆信息数据、自车数据以及语义分割图像数据确定为决策参考数据。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，上述自车数据包括当前车辆的车速及第一所处车道；周边车辆信息数据包括位于设定方位的周边车辆与当前车辆的相对位置、相对速度及第一所处车道；设定方位包括当前车辆的正前方、当前车辆的正后方、当前车辆的左侧、当前车辆的右侧、当前车辆的左侧车道正前方、当前车辆的左侧车道正后方、当前车辆的右侧车道正前方，以及当前车辆的右侧车道正后方。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，上述驾驶决策模型包括第一卷积网络、第二卷积网络、整合模块及全连接网络；第一卷积网络、第二卷积网络与整合模块连接；整合模块与全连接网络连接；将决策参考数据输入至预先训练的驾驶决策模型，得到驾驶决策模型输出的决策数据的步骤，包括：将周边车辆信息数据输入至第一卷积网络，通过第一卷积网络对周边车辆信息数据进行卷积及平均池化处理，得到第一向量；将语义分割图像数据输入至第二卷积网络，通过第二卷积网络对语义分割图像数据进行卷积及最大池化处理，得到第二向量；通过整合层将第一向量、第二向量以及自车数据对应的第三向量进行整合处理，得到综合向量；将综合向量输入至全连接网络，得到驾驶决策模型输出的决策数据。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，上述驾驶决策模型通过以下方式训练：获取训练样本；训练样本中包含多组决策参考数据；根据预设的模型架构，建立初始模型；将训练样本输入至初始模型，得到训练决策数据；通过预设的损失函数确定训练决策数据的损失值；损失函数基于预设的回报参数及预设的折损因子生成；根据损失值对初始模型进行训练，直至初始模型中的参数收敛，得到驾驶决策模型。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，上述预设决策动作包括多个；根据决策数据，确定当前车辆的决策动作的步骤包括：判断不确定性是否小于预设的不确定性阈值；如果小于，将不确定性对应的预设决策动作确定为备选的预设决策动作；选取备选的预设决策动作中，状态值最大的预设决策动作作为当前车辆的决策动作。

第二方面，本发明实施例还提供一种车辆驾驶决策装置，包括：数据获取装置，用于获取当前车辆的行驶检测数据；参考数据确定模块，用于根据行驶检测数据，确定决策参考数据；决策数据输出模块，用于将决策参考数据输入至预先训练的驾驶决策模型，得到驾驶决策模型输出的决策数据；决策数据包括对应于预设决策动作的状态值及与状态值对应的不确定性；决策模块，用于根据预设决策动作的状态值及与状态值对应的不确定性，确定当前车辆的决策动作。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，上述行驶检测数据包括雷达数据、自车数据及图像数据；参考数据确定模块还用于：根据雷达数据，确定当前车辆的周边车辆信息数据；通过预设的RefineNet对图像数据进行语义分割，得到语义分割图像数据；将周边车辆信息数据、自车数据以及语义分割图像数据确定为决策参考数据。

第三方面，本发明实施例还提一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述方法。

第四方面，本发明实施例还提供一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述方法。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种车辆驾驶决策方法、装置及电子设备，首先获取当前车辆的行驶检测数据；然后根据行驶检测数据，确定决策参考数据；进而将决策参考数据输入至预先训练的驾驶决策模型，得到驾驶决策模型输出的决策数据；最后根据决策数据中的预设决策动作的状态值及与状态值对应的不确定性，确定当前车辆的决策动作。该方式通过预先训练的驾驶决策模型得到预设决策动作的状态值及对应的不确定性，并在进行决策时同时考虑状态值及不确定性，提高了动态复杂的环境中的驾驶决策的准确度，提高了驾驶安全性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种车辆驾驶决策方法的流程图；

图2为本发明实施例提供的另一种车辆驾驶决策方法的流程图；

图3为本发明实施例提供的一种驾驶决策模型的结构示意图；

图4为本发明实施例提供的一种驾驶决策模型中，第一卷积网络的结构示意图；

图5为本发明实施例提供的一种驾驶决策模型中，第二卷积网络的结构示意图；

图6为本发明实施例提供的另一种车辆驾驶决策方法的流程图；

图7为本发明实施例提供的一种车辆驾驶决策装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

机动车自动驾驶技术是近些年来人工智能结合传统制造工业领域的一个热门方向，其主要目的在于减少人力成本、增加运输效率以及避免交通事故等。因此，自动驾驶车辆在不同交通流环境下能否做到快速、准确的判断便显得尤为重要。

目前，自动驾驶车辆在动态复杂环境下的决策规划问题依然很具有挑战性。例如，如何处理传感器信息的噪音及不确定性、如何能够准确预测周边车辆以及行人的行驶意图等。基于规则以及有限状态的传统决策算法尽管在一些自动驾驶任务中取得了成功，然而它们最大的一个缺点便是其决策的制定需要根据特定的驾驶情形。这样导致其难以概括更为复杂的真实交通驾驶环境。

高速公路驾驶环境的变化及复杂程度相比于城镇公路更为单一。针对高速公路的自动驾驶决策方案在近些年也取得了比较显著的成果。然而，大部分驾驶方案主要考虑的驾驶方案的安全性，而对于如何在此基础上能够使车辆更加快速的完成驾驶任务则成为了目前重点的研究方向之一。

基于深度强化学习算法的决策方法旨在通过对大量驾驶环境的广泛探索，寻找出一种复杂多变驾驶环境下安全、快速的驾驶策略。然而，相关技术中，由于没有考虑自动驾驶超车决策不确定性的估计，或者主要通过从专家的驾驶经验中学习油门控制方法，或者仅采用单一的传感器探测公路上的车辆信息(如假设雷达可感知探测区域内所有车辆的信息，忽略了障碍物不可穿透的特性)，导致深度强化学习算法的决策方法具有在动态路况下决策准确度较低，人力成本较高，信息处理速度较慢，且难以覆盖到危险的临界状况等缺点。

基于此，本发明实施例提供的一种车辆驾驶决策方法、装置以及电子设备，可以应用于各种道路上各种驾驶情况下的决策场景。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种车辆驾驶决策方法进行详细介绍。

本发明实施例提供了一种车辆驾驶决策方法，如图1所示，该方法包括以下步骤：

步骤S100，获取当前车辆的行驶检测数据。

具体而言，上述行驶检测数据通常包括对当前车辆自身的检测数据以及对当前车辆的周边车辆的检测数据。上述车辆自身的检测数据可以通过当前车辆的车载系统获取到；上述当前车辆的周边车辆的检测数据通常可以通过车载摄像头、雷达、测距传感器等设备检测。

步骤S102，根据行驶检测数据，确定决策参考数据。

上述决策参考数据可以包括当前车辆自身的行驶状态以及周边车辆的行驶状态；驾驶状态可以包括驾驶速度，所处车道、与当前车辆的相对距离等数据。具体而言，可以对行驶检测数据进行数据处理，得到上述相关的驾驶信息，具体的处理方式与行驶检测数据的数据特性相关，如行驶检测数据为通过车载摄像头获取的图像数据，则会采用常见的图像处理方式对该数据进行处理，得到当前车辆前方的车辆的位置数据。

步骤S104，将决策参考数据输入至预先训练的驾驶决策模型，得到驾驶决策模型输出的决策数据；决策数据包括对应于预设决策动作的状态值及与状态值对应的不确定性。

上述驾驶决策模型通常为基于深度学习算法建立的，具体可以为卷积网络模型等。上述预设决策动作可以包括直行、换车道、超车等多个驾驶操作。驾驶决策模型对输入的决策参考数据进行处理，得到多个预设决策动作的状态值，以及对应的不确定性。状态值的大小主要反映了在当前驾驶情况下实行对应的预设决策动作是否利于当前车辆的驾驶状态的提升，不确定性的大小主要反映了在当前驾驶情况下实行对应的预设决策动作的置信度。

步骤S106，根据预设决策动作的状态值及与状态值对应的不确定性，确定当前车辆的决策动作。

具体而言，在不确定性超过一定的阈值时，不会考虑对应的预设决策动作的状态值大小，直接放弃该预设决策动作；然后在剩下的预设决策动作中选取状态值最高的预设决策动作作为当前车辆的决策动作。如果所有预设决策动作的不确定性均超过设定的阈值时，可以保持当前行驶状态不变，也可以采用其他不会输出不确定性的较为成熟的决策算法的决策结果。

本发明实施例提供了一种车辆驾驶决策方法，首先获取当前车辆的行驶检测数据；然后根据行驶检测数据，确定决策参考数据；进而将决策参考数据输入至预先训练的驾驶决策模型，得到驾驶决策模型输出的决策数据；最后根据决策数据中的预设决策动作的状态值及与状态值对应的不确定性，确定当前车辆的决策动作。该方式通过预先训练的驾驶决策模型得到预设决策动作的状态值及对应的不确定性，并在进行决策时同时考虑状态值及不确定性，提高了动态复杂的环境中的驾驶决策的准确度，提高了驾驶安全性。

本发明实施例提供了另一种车辆驾驶决策方法，该方法在图1所述的方法的基础上实现；如图2所示，该方法包括以下步骤：

步骤S200，获取当前车辆的行驶检测数据；上述行驶检测数据包括雷达数据、自车数据及图像数据。

上述图像数据可以由前置摄像头获取，此时该图像数据(也称为车前驾驶图像)包括车辆前方的驾驶图像，在具体实施时，该图像可以为RGB(red，green，blue)图像，其大小可以为600*600*3，其中600为像素大小，3表示R、G、B三个通道。上述雷达数据由雷达传感器获取，雷达数据中包括周边车辆相对于自车的位置和速度的信息(统称为周边车辆信息)；上述信息中可以包括周边8车辆的纵向相对位置、横向相对位置、纵向相对速度、所处车道，这些信息可以视为一个8*4的矩阵。

自车数据也可以称为自车状态，主要包括当前纵向速度(可简称为“车速”)及所处车道，可以视为一个2*1的向量。

摄像头所获取的图像数据可以用来直接观测自车前方的路况信息。为了减少能见度、光线强度等外部因素对摄像头的影响，雷达所感知的自车周边车辆的行驶状态可用来弥补摄像头图像信息的不确定性。更重要的是，图像输入与雷达探测信息可以对彼此的不确定性形成互补，增强模型的鲁棒性。

步骤S202，根据雷达数据，确定当前车辆的周边车辆信息数据。

具体而言，需要从雷达数据中筛选出设定范围内(如以当前车辆为圆心，以80米为半径的区域)8个方向上距离当前车辆(也可以称为“自车”)最近车辆的位置、速度和所处车道，作为周边车辆信息。具体而言，周边车辆信息数据包括位于设定方位的周边车辆与当前车辆的相对位置、相对速度及第一所处车道；设定方位包括8个方向，具体为当前车辆的正前方、当前车辆的正后方、当前车辆的左侧、当前车辆的右侧、当前车辆的左侧车道正前方、当前车辆的左侧车道正后方、当前车辆的右侧车道正前方，以及当前车辆的右侧车道正后方。如果某个方向上在80米范围内没有车辆，对应的相对位置和速度信息则填充常数0。对于超出边界的车道，则是认为该车道充满车辆且不可进入。因此车道中车辆横向的相对位置大小为车道宽度，纵向的相对位置为0，相对速度为0。

步骤S204，通过预设的RefineNet对图像数据进行语义分割，得到语义分割图像数据；具体而言，可以使用RefineNet将摄像头采集的RGB图像转换成语义分割图，大小为600*600*3。

步骤S206，将周边车辆信息数据、自车数据以及语义分割图像数据确定为决策参考数据。

步骤S208，将周边车辆信息数据输入至第一卷积网络，通过第一卷积网络对周边车辆信息数据进行卷积及平均池化处理，得到第一向量。

具体而言，上述驾驶决策模型包括第一卷积网络、第二卷积网络、整合模块及全连接网络；第一卷积网络、第二卷积网络与整合模块连接；整合模块与全连接网络连接，其结构示意图如图3所示。

第一卷积网络可以包括1D卷积层及平均池化层；针对于大小为68*4的周边车辆信息数据，第一卷积网络的具体结构为：卷积核为(4，2)，步长为4的第一卷积层、卷积核为(1，1)，步长为1的第二卷积层、大小为8*1，步长为1的平均池化层依次连接，其结构示意图如图4所示。将大小为68*4的周边车辆信息数据输入第一卷积网络后，最后输出的第一向量的大小为64*1。

步骤S210，将语义分割图像数据输入至第二卷积网络，通过第二卷积网络对语义分割图像数据进行卷积及最大池化处理，得到第二向量。

第二卷积网络可以包括2D卷积层及最大池化层；针对于大小为600*600*3的语义分割图像数据，第二卷积网络的具体结构为：卷积核为(2，2)，步长为2的第三卷积层、卷积核为(2，2)，步长为2的第四卷积层、大小为2*2，步长为2的第一最大池化层、卷积核为(5，5)，步长为5的第五卷积层、卷积核为(4，4)，步长为1的第六卷积层，以及大小为3*3，步长为3的第二最大池化层依次连接，其结构示意图如图5所示。将大小为600*600*3的语义分割图像数据输入第一卷积网络后，最后输出的第二向量的大小为128*1。

步骤S212，通过整合层将第一向量、第二向量以及自车数据对应的第三向量进行整合处理，得到综合向量。

上述自车数据对应的第三向量的大小通常为2*1。通过整合层将第一向量、第二向量及第三向量整合生成综合向量，当第一向量的大小为64*1，第二向量的大小为128*1时，综合向量的大小为194*1。

步骤S214，将综合向量输入至全连接网络，得到驾驶决策模型输出的决策数据。

通过上述全连接网络(也称为“全连接神经网络”)对综合向量进行处理，最后得到对应于每个宏观决策动作的状态值，同时也输出当前状态下每个动作的不确定性，即上述决策数据。其中，不确定性的估计可以被用来表示该动作的置信度。如果不确定性大于某个阈值，则认为该动作不具有可行性，因而要综合基于规则或有限状态的传统决策方案来考虑最优策略。上述决策数据为通过神经网络得到当前时刻下的每个预设决策动作的动作值(即上述状态值)和对应的不确定性。

步骤S216，判断不确定性是否小于预设的不确定性阈值；如果小于，执行步骤S218；如果大于，放弃该不确定性对应的预设决策动作。

在具体实施时，上述预设决策动作包括多个；当上述方法应用于高速公路上时，考虑的高速公路下的预设决策动作(也称为宏观决策)包括：保持速度直行、加速直行、减速直行、直线紧急刹车、向左车道匀速变道、向右车道匀速变道。其中，直线加速与减速的底层控制可以由IDM(车辆动力学智能驾驶员模型)自适应巡航算法控制。

具体而言，上述不确定性阈值可以为10％。如果每个预设决策动作的不确定性均大于10％，此时当传统决策方案的输出动作与深度强化学习模型的结果相一致，则采用自适应巡航模型IDM保持直线行驶。而当传统决策方案的输出动作与深度强化学习模型的结果不同时，则采用传统方案的决策动作。

步骤S218，将不确定性对应的预设决策动作确定为备选的预设决策动作。

步骤S220，选取备选的预设决策动作中，状态值最大的预设决策动作作为当前车辆的决策动作。具体而言，即对于最优动作的选取，遵循以下规则：选取深度强化学习模型中不确定性小于10％的动作，取当中动作值最大者为宏观的决策动作。

具体而言，上述驾驶决策模型通过以下方式训练：

1、获取训练样本；训练样本中包含多组决策参考数据。

上述训练样本可以基于仿真高速公路驾驶环境获取。高速公路驾驶环境的变化及复杂程度相比于城镇公路更为单一。具体可以采用开源的自动驾驶仿真模拟器CARLA来训练模型并验证结果。为了能够模拟出现实情况下的高速公路交通流，实验及测试的高速公路为3排单向行驶车道。周边车辆从预设的21种车辆(长度范围：2～5m，宽度范围：1.6～2m)中随机选取，最大数量为20辆。

为保证安全的驾驶行为，周边车辆的驾驶模型采用纵向IDM，横向MOBIL(变道最小整体刹车模型)的自适应巡航控制器。纵向IDM巡航控制器的表达式为：

其中，v表示本车的速度，a表示最大期望加速度，b表示期望的速度减小率，L₀为两车之间的最小间隔，L表示两车之间的实际间隔，Δv表示两车之间的速度差，v_set表示期望速度，T_set则表示期望的时间间隔。

横向MOBIL变道决策控制器为的表达式为

其中，a_c，a_n和a_o分别表示本车的加速度，变道目标车道后续车辆的加速度以及自车后续跟随车辆的加速度。

和

分别表示变道任务执行后自车的加速度，变道目标车道后续车辆的加速度以及自车后续跟随车辆的加速度。b_safe表示车辆速度最大的减小速率。Δa_th表示加速度转变阈值。当(3)与(4)同时满足时，车辆则向目标车道执行变道任务。

直线加速与减速的底层控制由IDM自适应巡航算法控制，即改变公式(1)和(2)中的参数来实现，见表1。

表1

具体可采用如公式(5)所述的简化的2点控制模型来完成变道的控制：

在保持匀速行驶的基础上，通过改变方向盘的转角来实变道操作。其中，

表示方向盘的转角，θ_n与θ_f分别表示目标车道上前方50米与100米参考点与自车位置形成的夹角，Δt＝0.05为时间步长，k_f＝20，k_n＝10，k_I＝6表示驾驶行为的常数。

可以通过上述模型模拟生成大量的周边车辆信息数据、自车数据及语义分割数据作为训练数据。

2、根据预设的模型架构，建立初始模型；其具体结构可以为包括上述第一卷积网络、第二卷积网络、整合模块及全连接网络的结构。

3、将训练样本输入至初始模型，得到训练决策数据。

4、通过预设的损失函数确定训练决策数据的损失值；损失函数基于预设的回报参数及预设的折损因子生成。

为了能够使当前车辆快速、安全的在高速公路上驾驶，深度强化学习模型所考虑的回报则包含了以下几个方面：

a.是否发生碰撞。如果自车与其他车辆相撞或者超出高速公路可行驶车道范围，则施加-20的惩罚，并且任务结束。

b.每个决策步所产生的回报。对于每个动作的执行，自车速度直接决定了驾驶的快慢。因此，回报参数r的选取与当前车速成正比：

其中，v为自车的速度，v_des＝25m/s表示期望速度。

c.变道惩罚。尽管变道是超车所必备的前提，但是过于频繁的变道并非良好的驾驶行为。为了对变道频率加以限制，每次变道的决策都会得到-1的惩罚。

基于深度强化学习的驾驶决策模型采用DQN(Deep Q-Learning，深度学习Q网络)算法，即使用下一时刻动作的最大值来更新当前时刻的动作值。同时，对于动作的不确定性，采用交叉熵作为损失函数。其中，参考模型的不确定性的定义为当前状态下动作值的标准差除以动作值的平均值。综上所述，综合的损失函数的定义为：

L＝(r+γ*argmax_m′Q(s′，m′)-Q(s，m))²-plog(u(s，m)) (7)

其中，s表示当前时刻的状态，m表示当前状态下所选取的动作，r′表示下一时刻的状态，r表示回报，γ为折损因子，ρ表示参考模型的不确定性，Q(s，m)表示预设决策动作的状态值，u(s，m)表示预设决策动作的不确定性，argmax为对函数求参数(集合)的函数。采用梯度下降算法对其进行优化，训练参数w的更新满足：

其中，α为学习率。

5、根据损失值对初始模型进行训练，直至初始模型中的参数收敛，得到驾驶决策模型。

上述方法也可以通过如图6所示的流程图表示，该流程着重说明了在每个动作的不确定性均大于10％的情况下，当传统决策方案的输出动作与深度强化学习模型的结果相一致，采用自适应巡航模型IDM保持直线行驶。当传统决策方案的输出动作与深度强化学习模型的结果不同时，则采用传统方案的决策动作。其中，深度强化学习网络对应于上述驾驶决策模型。

为了验证上述方法的可行性，采用CARLA自动驾驶仿真模拟器建立一个高速公路的驾驶环境。其中，自车前方的车辆速度为90km/h，自车的初始速度为90km/h，最大速度为120km/h。目的是测试此情形下，本发明的自车模型能否在安全的基础上，更加快速的在高速公路上行驶。

通过自适应巡航的IDM纵向控制模型，自车可以在本车道上安全的跟车驾驶，行驶500m所耗费的时间为20.46s。但是，由于前方车辆的行驶速度慢于高速公路的最大限速，因此若是采用纵向跟车模型，自车的速度受限，因而无法更加快速的行进驾驶。采用本发明实施例所述的方法，自车在行驶过程中选择向左变道并加速超车，行驶500m所需时间为16.87s，时间缩短了17.5％。

本发明实施例提出了一种考虑动作不确定性的基于深度强化学习的驾驶决策模型，该模型可以应用于高速公路，将摄像头采集的图像数据与雷达数据相结合，输出当前状态下的预设决策动作的状态值与不确定性，同时考虑基于规则或者有限状态的传统决策算法，可以有效的在复杂、动态路况下做出合理的决策；在保证安全的前提下，制定最快速的驾驶方案。

上述方法综合处理摄像头及雷达信息的神经网络来弥补单一传感器测量所产生的误差，摄像头和雷达协同作用，增强模型的感知能力以及动态环境下决策的鲁棒性。

对应于上述方法实施例，本发明实施例还提供一种车辆驾驶决策装置，如图7所示，该装置包括：

数据获取装置700，用于获取当前车辆的行驶检测数据；

参考数据确定模块702，用于根据行驶检测数据，确定决策参考数据；

决策数据输出模块704，用于将决策参考数据输入至预先训练的驾驶决策模型，得到驾驶决策模型输出的决策数据；决策数据包括对应于预设决策动作的状态值及与状态值对应的不确定性；

决策模块706，用于根据预设决策动作的状态值及与状态值对应的不确定性，确定当前车辆的决策动作。

具体地，上述行驶检测数据包括雷达数据、自车数据及图像数据；参考数据确定模块还用于：根据雷达数据，确定当前车辆的周边车辆信息数据；通过预设的RefineNet对图像数据进行语义分割，得到语义分割图像数据；将周边车辆信息数据、自车数据以及语义分割图像数据确定为决策参考数据。

本发明实施例提供的车辆驾驶决策装置，与上述实施例提供的车辆驾驶决策方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本发明实施例还提供了一种电子设备，参见图8所示，该电子设备包括处理器130和存储器131，该存储器131存储有能够被处理器130执行的机器可执行指令，该处理器130执行机器可执行指令以实现上述车辆驾驶决策方法。

进一步地，图8所示的电子设备还包括总线132和通信接口133，处理器130、通信接口133和存储器131通过总线132连接。

其中，存储器131可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口133(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线132可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器130可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器131，处理器130读取存储器131中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，该机器可执行指令促使处理器实现上述车辆驾驶决策方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的车辆驾驶决策方法、装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，网关电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种车辆驾驶决策方法，其特征在于，包括：

获取当前车辆的行驶检测数据；

根据所述行驶检测数据，确定决策参考数据；

将所述决策参考数据输入至预先训练的驾驶决策模型，得到所述驾驶决策模型输出的决策数据；所述决策数据包括对应于预设决策动作的状态值及与所述状态值对应的不确定性；

根据所述预设决策动作的状态值及与所述状态值对应的不确定性，确定所述当前车辆的决策动作。

2.根据权利要求1所述的方法，其特征在于，所述行驶检测数据包括雷达数据、自车数据及图像数据；

所述根据所述行驶检测数据，确定决策参考数据的步骤，包括：

根据所述雷达数据，确定所述当前车辆的周边车辆信息数据；

通过预设的RefineNet对所述图像数据进行语义分割，得到语义分割图像数据；

将所述周边车辆信息数据、所述自车数据以及所述语义分割图像数据确定为决策参考数据。

3.根据权利要求2所述的方法，其特征在于，所述自车数据包括当前车辆的车速及第一所处车道；

所述周边车辆信息数据包括位于设定方位的周边车辆与所述当前车辆的相对位置、相对速度及第一所处车道；所述设定方位包括当前车辆的正前方、当前车辆的正后方、当前车辆的左侧、当前车辆的右侧、当前车辆的左侧车道正前方、当前车辆的左侧车道正后方、当前车辆的右侧车道正前方，以及当前车辆的右侧车道正后方。

4.根据权利要求3所述的方法，其特征在于，所述驾驶决策模型包括第一卷积网络、第二卷积网络、整合模块及全连接网络；所述第一卷积网络、所述第二卷积网络与所述整合模块连接；所述整合模块与所述全连接网络连接；

将所述决策参考数据输入至预先训练的驾驶决策模型，得到所述驾驶决策模型输出的决策数据的步骤，包括：

将所述周边车辆信息数据输入至第一卷积网络，通过第一卷积网络对所述周边车辆信息数据进行卷积及平均池化处理，得到第一向量；

将所述语义分割图像数据输入至第二卷积网络，通过第二卷积网络对所述语义分割图像数据进行卷积及最大池化处理，得到第二向量；

通过整合层将所述第一向量、所述第二向量以及所述自车数据对应的第三向量进行整合处理，得到综合向量；

将所述综合向量输入至所述全连接网络，得到所述驾驶决策模型输出的决策数据。

5.根据权利要求4所述的方法，其特征在于，所述驾驶决策模型通过以下方式训练：

获取训练样本；所述训练样本中包含多组决策参考数据；

根据预设的模型架构，建立初始模型；

将所述训练样本输入至所述初始模型，得到训练决策数据；

通过预设的损失函数确定所述训练决策数据的损失值；所述损失函数基于预设的回报参数及预设的折损因子生成；

根据所述损失值对所述初始模型进行训练，直至所述初始模型中的参数收敛，得到所述驾驶决策模型。

6.根据权利要求1所述的方法，其特征在于，所述预设决策动作包括多个；

所述根据所述决策数据，确定所述当前车辆的决策动作的步骤包括：

判断所述不确定性是否小于预设的不确定性阈值；

如果小于，将所述不确定性对应的预设决策动作确定为备选的预设决策动作；

选取备选的所述预设决策动作中，状态值最大的预设决策动作作为所述当前车辆的决策动作。

7.一种车辆驾驶决策装置，其特征在于，包括：

数据获取装置，用于获取当前车辆的行驶检测数据；

参考数据确定模块，用于根据所述行驶检测数据，确定决策参考数据；

决策数据输出模块，用于将所述决策参考数据输入至预先训练的驾驶决策模型，得到所述驾驶决策模型输出的决策数据；所述决策数据包括对应于预设决策动作的状态值及与所述状态值对应的不确定性；

决策模块，用于根据所述预设决策动作的状态值及与所述状态值对应的不确定性，确定所述当前车辆的决策动作。

8.根据权利要求7所述的装置，其特征在于，所述行驶检测数据包括雷达数据、自车数据及图像数据；所述参考数据确定模块还用于：

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-6任一项所述的方法。

10.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-6任一项所述的方法。