CN107168303A

CN107168303A - 一种汽车的自动驾驶方法及装置

Info

Publication number: CN107168303A
Application number: CN201710156331.8A
Authority: CN
Inventors: 夏伟; 李慧云
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2017-03-16
Filing date: 2017-03-16
Publication date: 2017-09-15

Abstract

本发明适用汽车自动驾驶技术领域，提供了汽车的自动驾驶方法及装置，该方法包括：通过汽车上预设的传感器获取汽车当前位置的汽车状态；根据汽车状态和预先建立的策略网络模型，获取汽车当前可用驾驶动作的回报值，策略网络模型通过预设的深度强化学习算法建立；将回报值中的最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行，从而在面临驾驶场景类别多样、路况复杂时及时、有效地获取到较优的驾驶动作并执行，实现汽车的自动驾驶。

Description

一种汽车的自动驾驶方法及装置

技术领域

本发明属于汽车自动驾驶技术领域，尤其涉及一种汽车的自动驾驶方法及装置。

背景技术

近年来，随着经济的发展和城镇化的推进，全球汽车保有量和道路里程逐步增加，诸如交通拥堵、事故、污染、土地资源紧缺等一系列传统汽车无法妥善解决的问题日益凸显。智能汽车技术被视为有效解决方案，其发展备受瞩目。美国电气和电子工程师协会(IEEE)预测，至2040年自动驾驶车辆所占的比例将达到75％。

市面上已经出现了多种用于辅助驾驶系统的传感器和产品，比如：激光雷达、自适应巡航系统、车辆接近通报装置、夜视辅助装置、自适应前照明系统等，而目前辅助驾驶系统中使用的控制方法都是基于规则的控制决策，即根据已知的驾驶经验，构建对车况信息输出控制决策的专家规则系统。然而，自动驾驶场景类别多样，路况复杂，自动驾驶中高度复杂的场景很难用有限的规则来定义清楚，因此，传统的控制方法往往难以满足自动驾驶的要求。类似专家规则系统利用了浅层学习算法，浅层学习算法可以看作是从被标记的数据之间寻找规则的过程，当规则很难被抽象成公式或简单逻辑之时，浅层学习算法就难以达到预定的效果。深度学习算法对感知有非常强的能力，在图像识别、语音识别等领域已经取得了极大的突破，然而，深度学习算法并不能把这种感知转化为决策能力。

发明内容

本发明的目的在于提供一种汽车的自动驾驶方法及装置，旨在解决由于现有技术无法提供一种有效的自动驾驶动作决策方法，导致自动驾驶汽车在面临驾驶场景类别多样、路况复杂时难以做出及时、有效的驾驶动作的问题。

一方面，本发明提供了一种汽车的自动驾驶方法，所述方法包括下述步骤：

通过汽车上预设的传感器获取所述汽车当前位置的汽车状态；

根据所述汽车状态和预先建立的策略网络模型，获取所述汽车当前可用驾驶动作的回报值，所述策略网络模型通过预设的深度强化学习算法建立；

将所述回报值中的最大回报值对应的当前可用驾驶动作设置为所述汽车下一执行动作并执行。

另一方面，本发明提供了一种汽车的自动驾驶装置，所述装置包括：

状态获取单元，用于通过汽车上预设的传感器获取所述汽车当前位置的汽车状态；

回报值获取单元，用于根据所述汽车状态和预先建立的策略网络模型，获取所述汽车当前可用驾驶动作的回报值，所述策略网络模型通过预设的深度强化学习算法建立；以及

动作执行单元，用于将所述回报值中的最大回报值对应的当前可用驾驶动作设置为所述汽车下一执行动作并执行。

本发明通过汽车上预设的传感器获取汽车当前位置的汽车状态，根据该汽车状态和预先通过深度强化学习算法建立的策略网络模型，获取汽车当前可用驾驶动作的回报值，将回报值中的最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行，从而在面临驾驶场景类别多样、路况复杂时及时、有效地获取到较优的驾驶动作并执行，实现汽车的自动驾驶。

附图说明

图1是本发明实施例一提供的汽车的自动驾驶方法的实现流程图；

图2是本发明实施例一提供的汽车的自动驾驶方法的实现示意图；

图3是本发明实施例二提供的汽车的自动驾驶装置的结构示意图；以及

图4是本发明实施例三提供的汽车的自动驾驶装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的汽车的自动驾驶方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，通过汽车上预设的传感器获取汽车当前位置的汽车状态。

本发明实施例适用于汽车、汽车上的自动驾驶平台或设备，汽车状态是指汽车行驶过程中的一种状态，可用汽车轮胎、方向盘、发动机等各部件的当前参数值表示，具体可从汽车上设置或安装的各类传感器(例如，雷达、超声、视觉传感器等)获取。作为示例地，状态可通过表示汽车离道路中线的距离、汽车前进方向与道路切向的夹角以及汽车在道路切向上的速度分量等参数进行表示。

在步骤S102中，根据汽车状态和预先建立的策略网络模型，获取汽车当前可用驾驶动作的回报值，策略网络模型通过预设的深度强化学习算法建立。

在本发明实施例中，预先建立一策略网络模型，该策略网络模型通过预设的深度强化学习算法建立，从而汽车在实际高度复杂、易变的道路环境下快速准确地进行决策。如图2所示，通过该策略网络模型可准确获得汽车当前可用驾驶动作的回报值，即每个驾驶动作的评价值或奖励，可以认为评价值或奖励越大，对应的驾驶动作越准确。

优选地，通过下述步骤建立该策略网络模型：

A、对设置的策略网络模型进行初始化，设定汽车驾驶动作的立即回报函数，并对立即回报函数的回报值进行初始化；

B、接收汽车当前训练状态的样本，根据当前训练状态以及立即回报函数计算汽车的动作集中每个驾驶动作的立即回报值，获取立即回报值中的最大立即回报值；

C、将所述汽车状态和通过预设方式选择的驾驶动作作为策略网络模型的输入值，将最大立即回报值和策略网络模型不同驾驶动作下的最大回报值的累计折算值之和作为输出值，对策略网络模型进行训练，并更新策略网络模型的权值；

D、根据当前训练状态和立即回报值对应的驾驶动作，获取汽车的下一状态，判断下一状态是否为终止训练状态，是则返回策略网络模型，否则将下一状态设置为当前训练状态的样本并传送给步骤B，从而进入策略网络模型的下一轮训练。

在本发明实施例中，策略网络模型具体为一系列函数，以在通过样本训练后得到较为精确的权值，从而在输入汽车状态和动作时，得到对应的回报值，而立即回报函数则反映了仅考虑当前状态时实施一驾驶动作所得到的回报。作为示例地，例如，立即回报函数可以为r＝Δdis*cos(α*angle)*sgn(trackPos-threshold)，其中，Δdis表示相邻状态跑过的有效距离，angle表示行驶方向与道路切线夹角，α表示权重缩放因子，sgn符号函数在汽车离道路中线的距离trackPos大于预设阈值threshold的时候，取值无穷小，意在表达车辆太靠近道路边界时的惩罚。

在本发明实施例中，在步骤C中选择驾驶动作时，可按随机选取或小概率随机选取任一驾驶动作作为选择的驾驶动作，否则将步骤B中最大回报值对应的驾驶动作作为选择的驾驶动作。另外，由于有些驾驶动作并不能用于当前训练状态，因此，在根据当前训练状态以及立即回报函数计算汽车的动作集中每个驾驶动作的立即回报值时，优选地，可先根据当前训练状态对汽车的动作集中的驾驶动作进行筛选，根据当前训练状态以及立即回报函数计算筛选后的每个驾驶动作的立即回报值，从而减少遍历动作集中动作的时间，提高策略网络模型的训练速度。

可选地，在对策略网络模型进行训练时，可通过后向传播算法对策略网络模型进行训练，在通过后向传播算法对策略网络模型进行训练时，将汽车状态和通过预设方式选择的驾驶动作作为策略网络模型的输入值，将该汽车状态下的最大立即回报值和策略网络模型不同驾驶动作下的最大回报值的累计折算值之和作为输出值，从而在训练时考虑驾驶中未来环境的不确定性，进一步提高策略网络模型训练时的真实性，提高策略网络模型中权值的准确度。

在步骤S103中，将回报值中的最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行。

在本发明实施例中，若通过汽车状态和训练好的策略网络模型获取到最大回报值，则说明该最大回报值对应的驾驶动作是当前汽车在当前位置汽车状态下的最佳选择，因此，将该最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行。

在本发明实施例中，通过汽车上预设的传感器获取汽车当前位置的汽车状态，根据该汽车状态和预先通过深度强化学习算法建立的策略网络模型，获取汽车当前可用驾驶动作的回报值，将回报值中的最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行，从而在面临驾驶场景类别多样、路况复杂时及时、有效地获取到较优的驾驶动作并执行，实现汽车的自动驾驶。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

实施例二：

图3示出了本发明实施例二提供的汽车的自动驾驶装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

状态获取单元31，用于通过汽车上预设的传感器获取汽车当前位置的汽车状态；

回报值获取单元32，用于根据汽车状态和预先建立的策略网络模型，获取汽车当前可用驾驶动作的回报值，其中，策略网络模型通过预设的深度强化学习算法建立；以及

动作执行单元33，用于将回报值中的最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行。

在本发明实施例中，自动驾驶装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。各单元的具体实施方式可参考实施一的描述，在此不再赘述。

实施例三：

图4示出了本发明实施例三提供的汽车的自动驾驶装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

初始化单元41，用于对设置的策略网络模型进行初始化，设定汽车驾驶动作的立即回报函数，并对立即回报函数的回报值进行初始化；

最大值获取单元42，用于接收汽车当前训练状态的样本，根据当前训练状态以及立即回报函数计算汽车的动作集中每个驾驶动作的立即回报值，获取立即回报值中的最大立即回报值；

动作筛选单元43，用于随机选取任一驾驶动作作为选择的驾驶动作，否则将最大回报值对应的驾驶动作作为选择的驾驶动作；

权值更新单元44，用于将汽车状态和通过预设方式选择的驾驶动作作为策略网络模型的输入值，将最大立即回报值和策略网络模型不同驾驶动作下的最大回报值的累计折算值之和作为输出值，对策略网络模型进行训练，并更新策略网络模型的权值；

结果处理单元45，用于根据当前训练状态和立即回报值对应的驾驶动作，获取汽车的下一状态，判断下一状态是否为终止训练状态，是则返回策略网络模型，否则将下一状态设置为当前训练状态的样本并传送给最大值获取单元；

状态获取单元46，用于通过汽车上预设的传感器获取汽车当前位置的汽车状态；

回报值获取单元47，用于根据汽车状态和预先建立的策略网络模型，获取汽车当前可用驾驶动作的回报值，其中，策略网络模型通过预设的深度强化学习算法建立；以及

动作执行单元48，用于将回报值中的最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行。

在本发明实施例中，最大值获取单元42包括回报值计算单元421，用于根据当前训练状态对汽车的动作集中的驾驶动作进行筛选，根据当前训练状态以及立即回报函数计算筛选后的每个驾驶动作的立即回报值。权值更新单元44包括模型训练单元441，用于通过后向传播算法对策略网络模型进行训练。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种汽车的自动驾驶方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的方法，其特征在于，根据所述汽车状态和预先建立的策略网络模型，获取所述汽车当前可用驾驶动作的回报值的步骤之前，所述方法还包括：

A、对设置的所述策略网络模型进行初始化，设定汽车驾驶动作的立即回报函数，并对所述立即回报函数的回报值进行初始化；

B、接收所述汽车当前训练状态的样本，根据所述当前训练状态以及所述立即回报函数计算汽车的动作集中每个驾驶动作的立即回报值，获取立即回报值中的最大立即回报值；

C、将所述汽车状态和通过预设方式选择的驾驶动作作为所述策略网络模型的输入值，将所述最大立即回报值和所述策略网络模型不同驾驶动作下的最大回报值的累计折算值之和作为输出值，对所述策略网络模型进行训练，并更新所述策略网络模型的权值；

D、根据所述当前训练状态和所述立即回报值对应的驾驶动作，获取所述汽车的下一状态，判断所述下一状态是否为终止训练状态，是则返回所述策略网络模型，否则将所述下一状态设置为当前训练状态的样本并传送给步骤B。

3.如权利要求2所述的方法，其特征在于，对所述策略网络模型进行训练的步骤，包括：

通过后向传播算法对所述策略网络模型进行训练。

4.如权利要求2所述的方法，其特征在于，所述选择的驾驶动作通过下述方式选择：

随机选取任一驾驶动作作为选择的驾驶动作，否则将所述最大回报值对应的驾驶动作作为选择的驾驶动作。

5.如权利要求2所述的方法，其特征在于，根据所述当前训练状态以及所述立即回报函数计算汽车的动作集中每个驾驶动作的立即回报值的步骤，包括：

根据所述当前训练状态对所述汽车的动作集中的驾驶动作进行筛选，根据所述当前训练状态以及所述立即回报函数计算筛选后的每个驾驶动作的立即回报值。

6.一种汽车的自动驾驶装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

初始化单元，用于对设置的所述策略网络模型进行初始化，设定汽车驾驶动作的立即回报函数，并对所述立即回报函数的回报值进行初始化；

最大值获取单元，用于接收所述汽车当前训练状态的样本，根据所述当前训练状态以及所述立即回报函数计算汽车的动作集中每个驾驶动作的立即回报值，获取立即回报值中的最大立即回报值；

权值更新单元，用于将所述汽车状态和通过预设方式选择的驾驶动作作为所述策略网络模型的输入值，将所述最大立即回报值和所述策略网络模型不同驾驶动作下的最大回报值的累计折算值之和作为输出值，对所述策略网络模型进行训练，并更新所述策略网络模型的权值；以及

结果处理单元，用于根据所述当前训练状态和所述立即回报值对应的驾驶动作，获取所述汽车的下一状态，判断所述下一状态是否为终止训练状态，是则返回所述策略网络模型，否则将所述下一状态设置为当前训练状态的样本并传送给所述最大值获取单元。

8.如权利要求7所述的装置，其特征在于，所述权值更新单元包括：

模型训练单元，用于通过后向传播算法对所述策略网络模型进行训练。

9.如权利要求7所述的装置，其特征在于，所述装置还包括：

动作筛选单元，用于随机选取任一驾驶动作作为选择的驾驶动作，否则将所述最大回报值对应的驾驶动作作为选择的驾驶动作。

10.如权利要求7所述的装置，其特征在于，所述最大值获取单元包括：

回报值计算单元，用于根据所述当前训练状态对所述汽车的动作集中的驾驶动作进行筛选，根据所述当前训练状态以及所述立即回报函数计算筛选后的每个驾驶动作的立即回报值。