CN110196587A

CN110196587A - 车辆自动驾驶控制策略模型生成方法、装置、设备及介质

Info

Publication number: CN110196587A
Application number: CN201810163708.7A
Authority: CN
Inventors: 李慧云; 刘艳琳
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2018-02-27
Filing date: 2018-02-27
Publication date: 2019-09-03

Abstract

本发明适用计算机技术领域，提供了一种车辆自动驾驶控制策略模型生成方法、装置、设备及介质，该方法包括：采集当前试验时刻试验车辆的驾驶状态信息，通过贝叶斯网络从车辆动作集合中筛选出驾驶状态信息关联的车辆动作，通过奖励回报函数在这些关联的车辆动作中确定最大回报值动作，向试验车辆发送最大回报值动作，并将驾驶状态信息、最大回报值动作、以及最大回报值动作的回报值组合为训练样本，在试验车辆的试验结束时，根据不同试验时刻的训练样本和深度学习算法，训练得到用于车辆自动驾驶的控制策略模型，从而有效地降低了控制策略模型的训练计算开销，提高了车辆自动驾驶的模型训练效率。

Description

车辆自动驾驶控制策略模型生成方法、装置、设备及介质

技术领域

本发明属于计算机技术领域，尤其涉及一种车辆自动驾驶控制策略模型生成方法、装置、设备及存储介质。

背景技术

随着经济的发展和城镇化的推进，全球汽车保有量和道路里程逐步增加，诸如交通拥堵、交通事故、空气污染、土地资源紧缺等一系列传统汽车无法妥善解决的问题日益凸显。智能汽车技术被视为这些问题的有效解决方案，其发展备受瞩目。美国电气和电子工程师协会(IEEE)预测，至2040年自动驾驶车辆所占的比例将达到75％。

近两年，随着深度强化学习的快速发展，一些科研机构已经基于该技术开发出“端对端”式的自动驾驶算法，比如NVIDIA、comma.ai等科技公司。“端对端”式的自动驾驶算法采用深度网络来构建控制策略模型，深度网络的输入是车辆的高维状态信息，包括摄像头、激光雷达、GPS位置、速度等状态数据，通过深度强化学习的技术，训练深度网络的输出直接作为控制车辆驾驶的动作信号。传统的智能驾驶技术一般基于传感器信号，识别出人类可以理解的模式，然后基于人类驾驶的规则给出合适的控制动作。采用深度强化学习的好处是不需要对车辆的状态基于规则式的识别，它类似“黑盒子”式的反馈控制。然而，高维状态的状态信息和庞大的网络结构，往往消耗大量的计算资源，采用大型的GPU服务器花费几十个小时的训练时间，才有可能得到一个控制策略模型。

发明内容

本发明的目的在于提供一种车辆自动驾驶控制策略模型生成方法、装置、设备及存储介质，旨在解决由于现有技术中车辆自动驾驶控制策略模型生成的计算量较大、效率不高的问题。

一方面，本发明提供了一种车辆自动驾驶控制策略模型生成方法，所述方法包括下述步骤：

采集当前试验时刻试验车辆的驾驶状态信息，根据预先构建的贝叶斯网络，在预设的车辆动作集合中筛选出所述驾驶状态信息关联的车辆动作；

根据预先构建的奖励回报函数，在所述驾驶状态信息关联的车辆动作中确定所述驾驶状态信息对应的最大回报值动作；

向所述试验车辆发送所述最大回报值动作，并将所述驾驶状态信息、所述最大回报值动作以及所述最大回报值动作的回报值组合成训练样本；

判断所述试验车辆的试验是否结束，是则根据不同试验时刻的所述训练样本和预设的深度学习算法，对用于车辆自动驾驶的控制策略模型进行训练，以得到训练好的、用于车辆自动驾驶的控制策略模型，否则跳转至采集当前试验时刻试验车辆的驾驶状态信息的步骤。

另一方面，本发明提供了一种车辆自动驾驶控制策略模型生成装置，所述装置包括：

采集筛选单元，用于采集当前试验时刻试验车辆的驾驶状态信息，根据预先构建的贝叶斯网络，在预设的车辆动作集合中筛选出所述驾驶状态信息关联的车辆动作；

动作确定单元，用于根据预先构建的奖励回报函数，在所述驾驶状态信息关联的车辆动作中确定所述驾驶状态信息对应的最大回报值动作；

样本生成单元，用于向所述试验车辆发送所述最大回报值动作，并将所述驾驶状态信息、所述最大回报值动作以及所述最大回报值动作的回报值组合成训练样本；以及

模型训练单元，用于判断所述试验车辆的试验是否结束，是则根据不同试验时刻的所述训练样本和预设的深度学习算法，对用于车辆自动驾驶的控制策略模型进行训练，以得到训练好的、用于车辆自动驾驶的控制策略模型，否则触发所述采集筛选单元执行采集当前试验时刻试验车辆的驾驶状态信息的步骤。

另一方面，本发明还提供了一种车载设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述车辆自动驾驶控制策略模型生成方法所述的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述车辆自动驾驶控制策略模型生成方法所述的步骤。

本发明采集当前试验时刻试验车辆的驾驶状态信息，通过贝叶斯网络从车辆动作集合中筛选出该驾驶状态信息关联的车辆动作，以避免对车辆动作集合中的所有车辆动作进行遍历，通过奖励回报函数确定这些关联的车辆动作中的最大回报值动作，向试验车辆发送最大回报值动作，并由驾驶状态信息、最大回报值动作和最大回报值动作的回报值构成训练样本，试验结束后，根据不同试验时刻的训练样本和深度学习算法，训练得到用于车辆自动驾驶的控制策略模型，从而通过贝叶斯网络避免对车辆动作集合中的所有车辆动作进行遍历，有效地降低了控制策略模型的训练计算开销，提高了车辆自动驾驶的模型训练效率。

附图说明

图1是本发明实施例一提供的车辆自动驾驶控制策略模型生成方法的实现流程图；

图2是本发明实施例二提供的车辆自动驾驶控制策略模型生成装置的结构示意图；

图3是本发明实施例二提供的车辆自动驾驶控制策略模型生成装置的优选结构示意图；以及

图4是本发明实施例三提供的车载设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的车辆自动驾驶控制策略模型生成方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，采集当前试验时刻试验车辆的驾驶状态信息，根据预先构建的贝叶斯网络，在预设的车辆动作集合中筛选出驾驶状态信息关联的车辆动作。

在本发明实施例中，可在仿真模拟平台上进行车辆自动驾驶的交互试验和车辆自动驾驶控制策略的模型训练，例如开放式赛车模拟器(TORCS，The open racing carsimulation)。在试验中，可通过试验车辆上预设的多个传感器(雷达、超声、视觉等传感器)采集试验车辆的驾驶状态信息，例如，驾驶状态信息包括车离道路中线的距离(trackPos)、车前进方向与道路切向的夹角(angle)、车前方距离探测器的值(track)、以及车在道路切向上的速度分量(speedX)。

在本发明实施例中，在采集到当前试验时刻试验车辆的驾驶状态信息时，需要从车辆动作集合中查找出该驾驶状态信息对应的、较好的动作响应，由于查找出该驾驶状态信息对应的、较好的动作响应，并不需要遍历车辆动作集合中所有的车辆动作(转向角度、加减速度等)，因此，可通过预先构建的贝叶斯网络从车辆动作集合中筛选出在该驾驶状态信息下出现概率超过预设概率阈值的车辆动作，将出现概率超过概率阈值的车辆动作设置为该驾驶状态信息关联的车辆动作，后续再从这些关联的车辆动作中查询出该驾驶状态信息对应的、较好的动作相应，从而有效地降低车辆自动驾驶的控制策略模型的训练计算开销。

在本发明实施例中，在构建贝叶斯网络时，可对预先收集的车辆驾驶经验数据(例如，赛车比赛和赛车游戏中的记录数据)中驾驶状态信息下的车辆动作进行概率主观估计，得到驾驶状态信息与车辆动作的贝叶斯网络，贝叶斯网络用来表示不同驾驶状态信息下执行相应车辆动作的概率(即不同车辆动作的出现概率)。作为示例地，表1为对车辆驾驶经验数据中驾驶状态信息下的车辆动作进行概率主观估计后，得到驾驶状态信息下不同车辆动作的出现概率。

表1

在步骤S102中，根据预先构建的奖励回报函数，在驾驶状态信息关联的车辆动作中确定驾驶状态信息对应的最大回报值动作。

在本发明实施例中，可在当前试验时刻的驾驶状态信息所关联的车辆动作中进行遍历，以确定当前试验时刻的驾驶状态信息所对应的、最好的动作响应，为了便于区分，将该动作响应称为最大回报值动作。具体地，通过奖励回报函数分别计算在当前试验时刻的驾驶状态信息下分别执行每个关联的车辆动作所得到的回报值，最大回报值对应的车辆动作可认为是最大回报值动作。

作为示例地，当期望试验车辆能够以较好的行驶速度跟踪道路的中线、且尽量不频繁地猛打方向盘，可以构造如下奖励回报函数：

r＝Δdis*cos(α*angle)*sgn(trackPos-threshold)，其中，r为奖励回报函数的回报值，Δdis为试验车辆在相邻试验时刻跑过的有效距离，α为预设的权重缩放因子，angle为试验车辆当前行驶方向与道路切向的夹角，trackPos为试验车辆离道路中线的距离，threshold为预设阈值，当trackPos大于threshold时，r为无穷小，可表示对车辆太靠近道路边界时的惩罚。另外，奖励回报函数还可考虑行驶速度、单位耗油量、平稳度等。

在步骤S103中，向试验车辆发送最大回报值动作，并将驾驶状态信息、最大回报值动作以及最大回报值动作的回报值组合成训练样本。

在本发明实施例中，向试验车辆发送最大回报值动作，以便试验车辆执行最大回报值动作，在向试验车辆发送最大回报值动作的同时，可将当前试验时刻的驾驶状态信息、该驾驶状态信息对应的最大回报值动作、以及在驾驶状态信息下执行最大回报值动作所获得的回报值组合成训练样本。

在步骤S104中，判断试验车辆的试验是否结束。

在本发明实施例中，可通过检测车辆在交互试验的驾驶过程中是否发生意外或者是否完成预设的试验驾驶任务，来确定当前的交互试验是否结束，当车辆在驾驶过程中发生意外或者完成预设的试验驾驶任务时，确定当前的交互任务结束，在驾驶过程中发生意外可包括驶出道路、发生碰撞或者油箱缺油等。此外，试验车辆的试验可包括预设数目次(由实验者设置)交互试验。

在本发明实施例中，除初始试验时刻外，每个试验时刻的车辆状态都是上一时刻的车辆状态和车辆动作的结果或函数，例如，用S_t表示在试验时刻t时的车辆状态信息，则在试验时刻t+1时的车辆状态信息为：

S_t+1＝f(S_t,a_t)＝f(f(S_t-1,a_t-1))＝…，其中，a_t为试验时刻t时的车辆动作信息。因此，当试验车辆的试验结束时，执行步骤S105，否则，跳转至步骤S101，以采集试验车辆执行最大回报值动作后的驾驶状态信息。

在步骤S105中，根据不同试验时刻的训练样本和预设的深度学习算法，对用于车辆自动驾驶的控制策略模型进行训练，以得到训练好的、用于车辆自动驾驶的控制策略模型。

在本发明实施例中，控制策略模型为神经网络模型，其训练过程即学习一个控制策略π:S→A，即在获得车辆的驾驶状态信息后，输出车辆需要执行的车辆动作，并使得车辆在驾驶过程中执行这些车辆动作获得回报值的累积和最大，因此在试验中采集到不同试验时刻的训练样本后，可计算训练样本中每个驾驶状态信息下获得的累计回报值，累计回报值Q(s_t,a_t)可通过r₀+γr₁+γ²r₂+…计算，其中，r₀、r₁、r₂等分别为驾驶状态信息S_t、S_t+1、S_t+2下最大回报值动作的回报值，γ为预设参数且0≤γ<1。

在本发明实施例中，在获得每个驾驶状态信息下获得的累计回报值后，可构建控制策略模型，训练样本中的驾驶状态信息、车辆动作都作为控制策略模型的输入，累计回报值作为控制策略模型训练的标签或者标识，以对控制策略模型进行有监督训练。可通过后向传播算法(BackPropagation，BP)或其它的神经网络训练算法对控制策略模型进行训练，在此不做限制。

作为示例地，假设控制策略模型中输入层N个节点x、隐藏层K个节点y、输出层M个节点o，都采用全连接的方式，则隐藏层第k个神经元的输出为：

其中，k＝1,2,…,K，输出层第m个神经元的输出为：

其中，m＝1,2,…,M。将输入层到隐藏层的权值矩阵、隐藏层到输出层的权值矩阵分别记为二维矩阵W⁰、W¹，输入层的输入记为向量X，隐藏层的输出记为Y_h，输出层记为O，则有因此，通过BP算法求神经网络每一层神经元节点输出的运算可以转化为矩阵间运算。在BP算法中神经元节点的激活函数可为任意可微激活函数，例如Sigmoid系(Logistic-Sigmoid、Tanh-Sigmoid)函数、ReLU(Rectified linearunit)函数。在本发明实施例中，可通过判断控制策略模型的训练次数是否达到预设的次数阈值、或判断控制策略模型的输出与相应的累计回报值之差小于预设阈值，来确定控制策略模型是否训练好。

在本发明实施例中，通过贝叶斯网络对车辆动作进行筛选，再在筛选后的车辆动作中确定驾驶状态信息对应的最大回报值动作，根据不同试验时刻的驾驶状态信息、驾驶状态信息对应的最大回报动作、以及最大回报值动作的回报值，训练得到控制策略模型，从而避免对车辆动作集合中的所有车辆动作进行遍历，有效地降低了控制策略模型的训练计算开销，提高了车辆自动驾驶的模型训练效率。

实施例二：

图2示出了本发明实施例二提供的车辆自动驾驶控制策略模型生成装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

采集筛选单元21，用于采集当前试验时刻试验车辆的驾驶状态信息，根据预先构建的贝叶斯网络，在预设的车辆动作集合中筛选出驾驶状态信息关联的车辆动作。

在本发明实施例中，在采集到当前试验时刻试验车辆的驾驶状态信息时，需要从车辆动作集合中查找出该驾驶状态信息对应的、较好的动作响应，由于查找出该驾驶状态信息对应的、较好的动作响应，并不需要遍历车辆动作集合中所有的车辆动作，因此，可通过预先构建的贝叶斯网络从车辆动作集合中筛选出在该驾驶状态信息下出现概率超过预设概率阈值的车辆动作，将出现概率超过概率阈值的车辆动作设置为该驾驶状态信息关联的车辆动作，后续再从这些关联的车辆动作中查询出该驾驶状态信息对应的、较好的动作相应，从而有效地降低车辆自动驾驶的控制策略模型的训练计算开销。

在本发明实施例中，在构建贝叶斯网络时，可对预先收集的车辆驾驶经验数据中驾驶状态信息下的车辆动作进行概率主观估计，得到驾驶状态信息与车辆动作的贝叶斯网络。

动作确定单元22，用于根据预先构建的奖励回报函数，在驾驶状态信息关联的车辆动作中确定驾驶状态信息对应的最大回报值动作。

样本生成单元23，用于向试验车辆发送最大回报值动作，并将驾驶状态信息、最大回报值动作以及最大回报值动作的回报值组合成训练样本。

模型训练单元24，用于判断试验车辆的试验是否结束，是则根据不同试验时刻的训练样本和预设的深度学习算法，对用于车辆自动驾驶的控制策略模型进行训练，以得到训练好的、用于车辆自动驾驶的控制策略模型，否则触发采集筛选单元21执行采集当前试验时刻试验车辆的驾驶状态信息的步骤。

在本发明实施例中，当试验车辆的试验没有结束时，继续采集试验车辆执行最大回报值动作后的驾驶状态信息。当试验结束时，可计算训练样本中每个驾驶状态信息下获得的累计回报值，累计回报值Q(s_t,a_t)可通过r₀+γr₁+γ²r₂+…计算，其中，r₀、r₁、r₂等分别为驾驶状态信息S_t、S_t+1、S_t+2下最大回报值动作的回报值，γ为预设参数且0≤γ<1。

在本发明实施例中，在获得每个驾驶状态信息下获得的累计回报值后，可构建控制策略模型，训练样本中的驾驶状态信息、车辆动作都作为控制策略模型的输入，累计回报值作为控制策略模型训练的标签或者标识，以对控制策略模型进行有监督训练。可通过后向传播算法或其它的神经网络训练算法对控制策略模型进行训练，在此不做限制。

在本发明实施例中，可通过判断控制策略模型的训练次数是否达到预设的次数阈值、或判断控制策略模型的输出与相应的累计回报值之差小于预设阈值，来确定控制策略模型是否训练好。

优选地，如图3所示，车辆自动驾驶控制策略模型生成装置还包括：

概率估计单元35，用于对预先收集的车辆驾驶经验数据中驾驶状态信息下的车辆动作进行概率主观估计，生成所述贝叶斯网络。

优选地，采集筛选单元21包括：

动作概率确定单元311，用于通过贝叶斯网络确定在驾驶状态信息下车辆动作集合中不同车辆动作的出现概率；以及

关联动作确定单元312，用于将出现概率超过预设概率阈值的车辆动作设置为驾驶状态信息关联的车辆动作。

在本发明实施例中，车辆自动驾驶控制策略模型生成装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

实施例三：

图4示出了本发明实施例四提供的车载设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的车载设备4包括处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。该处理器40执行计算机程序42时实现上述方法实施例中的步骤，例如图1所示的步骤S101至S105。或者，处理器40执行计算机程序42时实现上述装置实施例中各单元的功能，例如图2所示单元21至24的功能。

实施例四：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例中的步骤，例如，图1所示的步骤S101至S105。或者，该计算机程序被处理器执行时实现上述装置实施例中各单元的功能，例如图2所示单元21至24的功能。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种车辆自动驾驶控制策略模型生成方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的方法，其特征在于，采集当前试验时刻试验车辆的驾驶状态信息的步骤之前，所述方法还包括：

对预先收集的车辆驾驶经验数据中驾驶状态信息下的车辆动作进行概率主观估计，生成所述贝叶斯网络。

3.如权利要求1所述的方法，其特征在于，在预设的车辆动作集合中筛选出所述驾驶状态信息关联的车辆动作的步骤，包括：

通过所述贝叶斯网络确定在所述驾驶状态信息下所述车辆动作集合中不同车辆动作的出现概率；

将所述出现概率超过预设概率阈值的车辆动作设置为所述驾驶状态信息关联的车辆动作。

4.如权利要求1所述的方法，其特征在于，在所述驾驶状态信息关联的车辆动作中确定所述驾驶状态信息对应的最大回报值动作的步骤，包括：

通过所述奖励回报函数，计算在所述驾驶状态信息下执行所述驾驶状态信息关联的车辆动作所获得的回报值；

将所述驾驶状态信息关联的车辆动作中获得回报值最大的车辆动作设置为所述驾驶状态信息对应的最大回报值动作。

5.如权利要求1所述的方法，其特征在于，对用于车辆自动驾驶的控制策略模型进行训练的步骤，包括：

计算不同试验时刻的所述训练样本所对应的累计回报值；

根据所述深度学习算法、所述训练样本和所述训练样本对应的累计回报值，对所述控制策略模型进行有监督训练。

6.一种车辆自动驾驶控制策略模型生成装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

概率估计单元，用于对预先收集的车辆驾驶经验数据中驾驶状态信息下的车辆动作进行概率主观估计，生成所述贝叶斯网络。

8.如权利要求6所述的装置，其特征在于，所述采集筛选单元包括：

动作概率确定单元，用于通过所述贝叶斯网络确定在所述驾驶状态信息下所述车辆动作集合中不同车辆动作的出现概率；以及

关联动作确定单元，用于将所述出现概率超过预设概率阈值的车辆动作设置为所述驾驶状态信息关联的车辆动作。

9.一种车载设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。