CN111874007A

CN111874007A - 基于知识与数据驱动的无人车分层决策方法、系统、装置

Info

Publication number: CN111874007A
Application number: CN202010783631.0A
Authority: CN
Inventors: 丘腾海; 蒲志强; 刘振; 易建强; 常红星; 张海莹; 张天乐; 王彗木
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-11-03
Anticipated expiration: 2040-08-06
Also published as: CN111874007B

Abstract

本发明属于无人车领域，具体涉及一种基于知识与数据驱动的无人车分层决策方法、系统、装置，旨在为了解决现有无人车决策方法对复杂环境适应性差的问题。本发明方法包括获取时刻t下的第一感知数据，所述第一感知数据包括被控无人车周围环境数据、被控无人车自身状态数据；基于所述第一感知数据，通过行为决策网络，获取所述被控无人车的最佳行为策略；基于所述最佳行为策略所转换的目标状态，通过动作决策网络，输出所述被控无人车的最佳动作策略。本发明能够根据各种场景下的无人车周围环境信息和自身状态做出最佳行为动作决策，对复杂环境适应性强。

Description

基于知识与数据驱动的无人车分层决策方法、系统、装置

技术领域

本发明属于无人车领域，具体涉及一种基于知识与数据驱动的无人车分层决策方法、系统、装置。

背景技术

从国际无人车产业总体发展情况看，美国、德国等国家科技研发投入较早，引领产业前沿，发展水平领先于我国。随着传感器技术的日益发展和5G技术的成熟，智能技术的不断创新带来了无人车更广泛的应用前景。其中，决策规划系统是支撑无人车自主行驶的核心算法之一，通过综合周围环境和自身信息，基于无人车行驶合法、安全、舒适等准则，合理决策出无人车的行为动作，发送给无人车控制层执行。

无人车决策系统主要有基于知识和基于数据两大类。基于知识的决策方法包括有限状态机等，将无人车的行为进行划分，根据行驶规则、知识和交通法规等建立规则库，基于规则逻辑确定无人车的行为动作。优势在于可解释性强，算法逻辑清晰，便于建模等，但存在规则的分割导致无人车行为不连贯，知识规则难以覆盖所有可能遇到的情况，尤其对于复杂环境下无法基于实时系统及时更新优化规则与方法。

基于数据的决策方法研究起步较晚，通过对环境样本进行自主学习，利用不同的学习方法与网络结构，由数据驱动建立与环境相匹配的规则库，输出决策行为动作，涉及深度学习、决策树等方法研究。它能够基于构建的环境模型，通过自学习数据训练的方式优化模型，对复杂环境和可能出现的未知情况覆盖面更广，但存在决策结果解释性差、需要大量试验数据等问题。因此，针对无人车决策规划的研究并不完善，有待深入研究。

发明内容

为了解决现有技术中的上述问题，即为了解决现有无人车决策方法对复杂环境适应性差的问题，本发明的第一方面，提出了一种基于知识与数据驱动的无人车分层决策方法，该方法包括以下步骤：

步骤S100，获取时刻t下的第一感知数据，所述第一感知数据包括被控无人车周围环境数据、被控无人车自身状态数据；

步骤S200，基于所述第一感知数据，通过行为决策网络，获取所述被控无人车的最佳行为策略；

步骤S300，基于所述最佳行为策略所转换的目标状态，通过动作决策网络，输出所述被控无人车的最佳动作策略。

在一些优选实施方式中，所述被控无人车自身状态数据包括被控无人车的位置、速度、加速度；所述被控无人车周围环境数据包括所述被控无人车周围对象的为位置、速度、加速度、交通标识。

在一些优选实施方式中，所述行为决策网络中：

行为决策层D的节点包括加速D₁、减速D₂、超车D₃、左变道D₄、右变道D₅、保持D₆；

准则层L的节点包括合法性L₁、安全性L₂、舒适性L₃、快速性L₄；准则层L各节点的等级表示为L_ij，其中i为节点类型，j为节点等级；

观测层O的节点包括所述被控无人车及其前、后、左、右四个方向对象的位置

速度

加速度

以及交通标识

其中， k＝1，2，3，4，5，表示无人车自身、前、后、左、右方向的对象；

决策网络条件概率表，包括所述行为决策层到准则层、准则层到观测层各变量的条件概率，分别为

最佳行为的行为选择规则为

在一些优选实施方式中，步骤S300中所述目标状态为

其获取方法为：

其中，γ、δ为加权系数，

为被控无人车初始时刻的位置状态，

为被控无人车初始时刻的速度状态。

在一些优选实施方式中，所述动作决策网络采用Actor-Critic 构建，该网络中：

栅格代价地图基于所述第一感知数据和道路路网数据构建；

状态空间S为输入到动作网络的所有状态，包括无人车自身和前、后、左、右方向对象的位置

速度

加速度

以及交通标识

以及目标状态

动作空间A由无人车行驶时的控制输入量组成，包括方向转角θ_direction、油门α_acc、刹车β_brake、转向灯γ_light、鸣笛δ_whistle、雨刷ε_wiper；

动作奖惩函数r为

其中，

合法性奖惩函数：

安全性奖惩函数：

舒适性奖惩函数：

快速性奖惩函数：

r_M表示对无人车所选动作的惩罚；μ₁、μ₂、μ₃、μ₄分别表示准则项L₁、L₂、L₃、L₄对应的奖惩函数的系数；

分别表示被控无人车自身的速度和位置；v_limit1、p_forbid分别表示交通法规制定的限行速度和禁止行驶路段；v_limit2、L_limit、ω_limit表示无人车出于安全考虑自身设置的最大速度、与周围对象的最小距离、最大方向角速度；a_limit、a_ω，limit表示无人车出于舒适性考虑设定的最大加速度、最大方向角加速度；r_s表示无人车每走一步根据栅格代价地图得到的惩罚，其中每一步为预设长度，其大小与无人车的体积和地图的精度有关，目的是为了让无人车规划出尽可能短的路径；r_a表示到达目标状态时的奖励；l、ω分别为无人车与周围对象的距离和方向角速度；τ₁、τ₂、τ₃分别为基于安全性考虑时综合无人车速度、与周围对象的距离和方向角速度的权重系数，

a_ω分别为无人车的加速度和方向角加速度，λ₁、λ₂分别为基于舒适性考虑综合无人车加速度和方向角加速度的权重系数。

在一些优选实施方式中，在步骤S300之后，还包括步骤S400：基于执行所述最佳动作策略后反馈的第二感知数据，对所述行为决策网络、所述动作决策网络进行更新；所述第二感知数据包括被控无人车的位置、速度、加速度，以及周围环境对象的距离。

在一些优选实施方式中，步骤S400中“基于执行所述最佳动作策略后反馈的第二感知数据，对所述行为决策网络、所述动作决策网络进行更新”，其方法为：

获取所述被控无人车执行所述最佳动作策略后反馈的第二感知数据，所述第二感知数据包括被控无人车的位置、速度、加速度，以及周围环境对象的距离；

将所述第二感知数据与所述行为决策网络中准则层L进行对比，若满足所述准则层L中驾驶准则，增大所述行为决策网络相应准则项的条件概率，否则减小相应准则项的条件概率，当与准则项要求完全相反时，删除观测层分类规则中相应准则项；

将所述第二感知数据与所述动作决策网络中动作奖惩函数r 对比，若满足所述动作决策网络的奖惩规则的动作，增大相应准则项奖惩函数的系数，否则减小。

本发明的第二方面，提出了一种基于知识与数据驱动的无人车分层决策系统，该系统包括第一模块、第二模块、第三模块；

所述第一模块，配置为获取时刻t下的第一感知数据，所述第一感知数据包括被控无人车周围环境数据、被控无人车自身状态数据；

所述第二模块，配置为基于所述第一感知数据，通过行为决策网络，获取所述被控无人车的最佳行为策略；

所述第三模块，配置为基于所述最佳行为策略所转换的目标状态，通过动作决策网络，输出所述被控无人车的最佳动作策略。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于知识与数据驱动的无人车分层决策方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于知识与数据驱动的无人车分层决策方法。

本发明的有益效果：

本发明提出一种基于知识与数据驱动的无人车分层决策方法，所述方法将知识与数据驱动方法相结合，充分发挥知识规则可解释性强、逻辑清晰和数据驱动方式对复杂环境适应性强；通过每个控制步的控制反馈情况对行为决策网络和动作决策网络进行更新，使得本发明对应的方法和系统具有自学习能力的优势，可以使被控无人车每个控制步均能根据周围环境信息和无人车状态做出最佳行为动作决策，控制无人车按最佳行为进行行驶。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于知识与数据驱动的无人车分层决策方法流程示意图；

图2是本发明一种实施例的行为决策网络及动作决策网络结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的一种基于知识与数据驱动的无人车分层决策方法，如图1所示，该方法包括以下步骤：

为了更清晰地对本发明基于知识与数据驱动的无人车分层决策方法进行说明，下面结合附图对本方发明方法一种实施例中各步骤进行展开详述。

本实施例为本发明基于知识与数据驱动的无人车分层决策方法的一种优选实施例，在步骤S100-S300之后，还包括更新步骤S400。被控无人车的控制是按照预设时间步进行每一步控制策略的生成，步骤 S100-步骤S400为时间步为t的一个控制周期内的方法，实际控制中，每个时间步重复执行步骤S100-S400以实现被控无人车的控制(在一些不需要更新的实施例中，只需重复步骤S100-步骤S300即可)。

步骤S100，获取时刻t下的第一感知数据，所述第一感知数据包括被控无人车周围环境数据、被控无人车自身状态数据。

所述被控无人车自身状态数据包括被控无人车的位置、速度、加速度；所述被控无人车周围环境数据包括所述被控无人车周围对象的为位置、速度、加速度、交通标识。

本实施例中利用卫星定位系统、IMU、摄像头、激光雷达、 GIS系统等采集数据，采用限幅平均滤波、中位值滤波、卡尔曼滤波等算法，处理异常值，将各传感器获取的数据进行融合，得到所述无人车位置、速度、角速度、角加速度、电量等数据，以及无人车与周围对象或障碍物的距离。

基于获取的所述无人车与周围对象或障碍物的距离，解算所述无人车周围对象或障碍物的位置、速度和加速度等，如下所示：

其中，

是无人车当前位置，L_k、

是无人车与周围第k个对象的距离和角度；

为无人车周围第k个对象的坐标位置。

步骤S200，基于所述第一感知数据，通过行为决策网络，获取所述被控无人车的最佳行为策略。

所述行为决策网络如图2中的上部所示，包括行为决策层、准则层、观测层。

(1)行为决策层D根据无人车的类型构建，其节点包括加速D₁、减速D₂、超车D₃、左变道D₄、右变道D₅、保持D₆等。

(2)准则层L基于人类驾驶经验知识构建，其节点包括合法性L₁、安全性L₂、舒适性L₃、快速性L₄；准则层L各节点的等级表示为 L_ij，其中i为节点类型，j为节点等级。本实施例中各节点等级分为高、中、低三个等级，i＝1，2，3，4，j＝1，2，3。例如舒适性低则表示为L₂₃。本实施例中可以如表1所示设置，表1为行为决策网络条件概率表。

表1

(3)观测层O基于第一感知数据构建，其节点包括所述被控无人车及其前、后、左、右四个方向对象的位置

速度

加速度

以及交通标识

其中，k＝1，2，3，4，5，表示无人车自身、前、后、左、右方向的对象。所述位置、速度和加速度为三维向量，g表示交通灯、限速、禁止等交通标识。为简化观测层到准则层的数据量，根据周围环境和交通标识，将所述位置分为高速、国道、县道、乡道、村道等，可利用车载地图或卫星地图与无人车获取的位置数据进行对比，判断无人车所在的位置类型；将所述速度、加速度、角速度和角加速度分为高、中、低三个等级，等级的划分与无人车所在位置、交通标识和周边对象有关。

(4)决策网络条件概率表根据海量驾驶员经验知识构建，包括所述行为决策层到准则层、准则层到观测层各变量的条件概率，分别为

在本实施例中，如表 2所示，表2为准则层条件概率表。

表2

(5)最佳行为的行为选择规则

输出概率值最大的行为，即为最佳行为。所述行为选择规则为：

其中，D_id为所述行为决策层节点状态，本实施例中D_id包括加速D₁、减速D₂、超车D₃、左变道D₄、右变道D₅、保持D₆。

本实施例中，根据所述加速、减速、超车、左变道、右变道、保持等行为类型，基于无人车当前的位置、速度、加速度、角速度和角加速度，以及周围对象的位置、速度和加速度等数据，通过不同权重系数计算出目标状态，比如当决策行为是左变道时，设计所述目标位置和速度状态为

其基于最佳行为转换得到：

其中，

为被控无人车自身的目标位置，

为被控无人车自身的目标速度，γ、δ为加权系数，

为被控无人车初始时刻的位置状态，

为被控无人车初始时刻的速度状态，

分别表示无人车周围第k个对象的位置和速度状态。

本实施例的动作决策网络中：

(1)栅格代价地图基于所述第一感知数据和道路路网数据构建。

本实施例中，构建方法包括：

基于GIS系统提取环境全局信息，包括地形、建筑、路网等数据；

通过摄像头、激光雷达等传感器，获取无人车周围的动态和静态对象的位置、速度、姿态等数据；

利用人工势场等算法，根据距离障碍物距离的远近、通过地形的类别，分别构建安全代价地图和能耗代价地图，并融合得到综合代价地图。

(2)动作决策网络的状态空间S

速度

加速度

以及交通标识

以及目标状态

状态空间S所示如下：

(3)动作决策网络的动作空间A

动作空间A由无人车行驶时的控制输入量组成，包括方向转角θ_direction、油门α_acc、刹车β_brake、转向灯γ_light、鸣笛δ_whistle、雨刷ε_wiper；动作空间A所示如下：

A＝{θ_direction，α_acc，β_brake，γ_light，δ_whistle，ε_wiper}

(4)动作奖惩函数

基于准则层L，建立动作奖惩函数r。具体地，根据所述无人车驾驶合法性、安全性、舒适性和快速性等准则对无人车速度、加速度、角速度等动作的约束范围，分别设计相应的奖惩函数，融合得到总的奖惩函数r如下所示：

其中，

合法性奖惩函数：

安全性奖惩函数：

舒适性奖惩函数：

快速性奖惩函数：

r_M表示不满足合法性或安全性时对无人车所选动作的惩罚；μ₁、μ₂、μ₃、μ₄分别表示准则项L₁、L₂、L₃、L₄对应的奖惩函数的系数，无人车行驶过程中，以合法性和安全性为首要行驶准则，其次才是舒适性和快速性；

分别表示被控无人车自身的速度和位置；v_limit1、p_forbid分别表示交通法规制定的限行速度和禁止行驶路段，根据交通部门对所行驶路段设定的速度和通行规则决定的；v_limit2、L_limit、ω_limit表示无人车出于安全考虑自身设置的最大速度、与周围对象的最小距离、最大方向角速度；a_limit、a_ω，limit表示无人车出于舒适性考虑设定的最大加速度、最大方向角加速度；r_s表示无人车每走一步根据栅格代价地图得到的惩罚，其中每一步为预设长度，其大小与无人车的体积和地图的精度有关，目的是为了让无人车规划出尽可能短的路径；r_a表示到达目标状态时的奖励；l、ω分别为无人车与周围对象的距离和方向角速度；τ₁、τ₂、τ₃分别为基于安全性考虑时综合无人车速度、与周围对象的距离和方向角速度的权重系数，

本实施例中，r_M＝-5，μ₁＝0.3，μ₂＝0.3，μ₃＝0.2，μ₄＝ 0.2，r_s＝-1，r_c＝-5，r_a＝10。

本实施例的动作决策网络基于Actor-Critic架构，如图2的下部所示，具体的，构建步骤包括：

步骤S301，设计特征提取模块。将代价地图和行为决策网络计算得到的目标状态转换成RGB图像，提取所述无人车状态、周围对象状态、地图等特征，输入到策略和价值网络。特征提取模块由一个编码层、三个卷积层和一个LSTM层组成，其中编码层根据代价地图中各对象的代价值将地图数据转换成RGB图像；三个卷积层用于提取图像深度特征，卷积核均设置为4X4大小；LSTM神经元个数为200个，用于增强网络的记忆能力。

步骤S302，设计策略网络。策略网络用于选择所述无人车的下一步动作，输入的信息即为特征提取模块提取的无人车、环境和目标状态信息。策略网络主要由4个全连接层组成，各层神经元个数分别为300、200、200、200和100。

步骤S303，设计价值网络。价值网络用于对策略网络所选无人车动作评价，输入包括所述特征提取模块提取的状态特征和策略网络的动作。网络结构主要包括4层全连接层，各层神经元个数分别为100、 200、200、100。

步骤S304，设计网络训练算法。利用经验回放记忆池的概念，将网络训练生成的数据先存入记忆池，使用时通过随机采用的方式提取训练数据，消除数据的时间关联性。并利用Adam优化器计算的梯度结果进行网络参数的更新，直到误差收敛到一定值，结束网络训练。

步骤S305，将动作决策网络应用于无人车决策规划。

步骤S400：基于执行所述最佳动作策略后反馈的第二感知数据，对所述行为决策网络、所述动作决策网络进行更新；所述第二感知数据包括被控无人车的位置、速度、加速度，以及周围环境对象的距离。

本实施中，该步骤可展开为步骤S401-步骤S402。

步骤S401，获取所述被控无人车执行所述最佳动作策略后反馈的第二感知数据，所述第二感知数据包括被控无人车的位置、速度、加速度，以及周围环境对象的距离。

步骤S402，将所述第二感知数据与所述行为决策网络中准则层L进行对比，若满足所述准则层L中驾驶准则，增大所述行为决策网络相应准则项的条件概率，否则减小相应准则项的条件概率，当与准则项要求完全相反时，删除观测层分类规则中相应准则项。比如当被控无人车根据行为决策网络选择行为后，出现交通违法行为、安全事故或使得乘坐人员舒适性体验变差等情况，那么减小相应准则项的条件概率 (减小条件概率的方法可以有很多种，例如，可以按照设定百分比减小，或者设定数值减小，或者其他设定规则减小等等；相应的，增大条件概率的方法也可以采用类似的方法)；如果出现严重事故或者导致乘客人身伤害等状况，那么直接删除观测层相应的分类规则。

另外，随着不停的更新和调整，观测层的分类规则会越来越少，这样需要通过人机交互设备进行分类规则的增加，或者通过预设的分类规则库在分类规则少于设定数量时自主进行分类规则的增加。

步骤S402，将所述第二感知数据与所述动作决策网络中动作奖惩函数r对比，若满足所述动作决策网络的奖惩规则的动作，增大相应准则项奖惩函数的系数，否则减小。比如当被控无人车根据动作决策网络作出动作决策后，出现交通违法行为、安全事故或使得乘坐人员舒适性体验变差，那么减小相应准则项在动作奖惩函数r的权重系数μ₁、μ₂或者μ₃(减小权重系数的方法可以有很多种，例如，可以按照设定百分比减小，或者设定数值减小，或者其他设定规则减小等等；相应的，增大权重系数的方法也可以采用类似的方法)。

综上所述，本发明提出一种基于知识与数据驱动的无人车分层决策方法，基于多种传感器，获取周围环境数据和无人车自身状态数据，并基于人类经验知识构建行为决策网络，分为观测层、准则层和行为决策层，选择最佳行为，输入到基于数据驱动的动作决策网络，作用于无人车，并根据无人车反馈信息，更新所述行为决策网络条件概率表和动作决策网络奖惩函数，充分利用知识和数据的优势，使得分层决策网络具有自主学习的能力，实现无人车由行为到动作的最优决策。

本发明第二实施例的一种基于知识与数据驱动的无人车分层决策系统，包括第一模块、第二模块、第三模块；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于知识与数据驱动的无人车分层决策系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于知识与数据驱动的无人车分层决策方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于知识与数据驱动的无人车分层决策方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于知识与数据驱动的无人车分层决策方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于知识与数据驱动的无人车分层决策方法，其特征在于，所述被控无人车自身状态数据包括被控无人车的位置、速度、加速度；所述被控无人车周围环境数据包括所述被控无人车周围对象的为位置、速度、加速度、交通标识。

3.根据权利要求2所述的基于知识与数据驱动的无人车分层决策方法，其特征在于，所述行为决策网络中：

观测层0的节点包括所述被控无人车及其前、后、左、右四个方向对象的位置

速度

加速度

以及交通标识

其中，k＝1，2，3，4，5，表示无人车自身、前、后、左、右方向的对象；

决策网络条件概率表，包括所述行为决策层到准则层、准则层到观测层各变量的条件概率，分别为P(L_ij|D_id)、

最佳行为的行为选择规则为

4.根据权利要求3所述的基于知识与数据驱动的无人车分层决策方法，其特征在于，步骤S300中所述目标状态为

其获取方法为：

其中，

为被控无人车自身的目标位置，

为被控无人车自身的目标速度，γ、δ为加权系数，

为被控无人车初始时刻的位置状态，

为被控无人车初始时刻的速度状态。

5.根据权利要求4所述的基于知识与数据驱动的无人车分层决策方法，其特征在于，所述动作决策网络采用Actor-Critic构建，该网络中：

栅格代价地图基于所述第一感知数据和道路路网数据构建；

速度

加速度

以及交通标识

以及目标状态

动作奖惩函数r为

其中，

合法性奖惩函数：

安全性奖惩函数：

舒适性奖惩函数：

快速性奖惩函数：

分别表示被控无人车自身的速度和位置；v_limit1、p_forbid分别表示交通法规制定的限行速度和禁止行驶路段；v_limit2、L_limit、ω_limit表示无人车出于安全考虑自身设置的最大速度、与周围对象的最小距离、最大方向角速度；a_limit、a_ω，limit表示无人车出于舒适性考虑设定的最大加速度、最大方向角加速度；r_s表示无人车每走一步根据栅格代价地图得到的惩罚，r_a表示到达目标状态时的奖励；l、ω分别为无人车与周围对象的距离和方向角速度；τ₁、τ₂、τ₃分别为基于安全性考虑时综合无人车速度、与周围对象的距离和方向角速度的权重系数，

6.根据权利要求1-5任一项所述的基于知识与数据驱动的无人车分层决策方法，其特征在于，在步骤S300之后，还包括步骤S400：基于执行所述最佳动作策略后反馈的第二感知数据，对所述行为决策网络、所述动作决策网络进行更新；所述第二感知数据包括被控无人车的位置、速度、加速度，以及周围环境对象的距离。

7.根据权利要求6所述的基于知识与数据驱动的无人车分层决策方法，其特征在于，步骤S400中“基于执行所述最佳动作策略后反馈的第二感知数据，对所述行为决策网络、所述动作决策网络进行更新”，其方法为：

将所述第二感知数据与所述行为决策网络中准则层L进行对比，若满足所述准则层L中驾驶准则，增大所述行为决策网络相应准则项的条件概率，否则减小相应准则项的条件概率，当与准则项要求完全相反时，删除观测层分类规则中相应准侧项；

将所述第二感知数据与所述动作决策网络中动作奖惩函数r对比，若满足所述动作决策网络的奖惩规则的动作，增大相应准则项奖惩函数的系数，否则减小。

8.一种基于知识与数据驱动的无人车分层决策系统，其特征在于，该系统包括第一模块、第二模块、第三模块；

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于知识与数据驱动的无人车分层决策方法。

10.一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于知识与数据驱动的无人车分层决策方法。