CN108932840A

CN108932840A - 基于强化学习的无人驾驶车辆城市交叉口通行方法

Info

Publication number: CN108932840A
Application number: CN201810780418.7A
Authority: CN
Inventors: 陈雪梅
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2018-12-04
Anticipated expiration: 2038-07-17
Also published as: CN108932840B

Abstract

本发明公开了一种基于强化学习的无人驾驶车辆城市交叉口通行方法，步骤1、通过摄像法采集车辆连续运行状态信息和位置信息，包括速度、横向速度和加速度值、纵向速度和加速度值、行驶轨迹曲率值、油门开度和制动踏板压力；步骤2、通过聚类处理得到实际数据的特征运动轨迹和速度量；步骤3、通过指数加权移动平均的方法来处理原始数据；步骤4、利用NQL算法实现交叉口通行方法。本发明NQL算法在处理复杂的交叉路口场景时学习能力明显优于Q学习算法，以更少的训练数据在更短的训练时间内达到更好的训练效果。

Description

基于强化学习的无人驾驶车辆城市交叉口通行方法

技术领域

本发明属于无人驾驶领域，更具体的涉及一种基于强化学习的无人驾驶车辆城市交叉口通行方法。

背景技术

作为未来提高城市道路通行效率和减少道路安全事故的利器，无人驾驶车辆近年来得到了极大地发展，并且国内外许多科研机构和高校仍在加大研发力度。但要使无人驾驶车辆在混杂的实际道路环境中实现完全的自主驾驶，就必须让无人驾驶车辆的“控制脑”像人类驾驶员一样具有学习和随机应变的能力。而基于传统规则的车辆智能行驶系统仅仅只适用于特定的驾驶场景，无法实现自动驾驶决策系统的环境自适应性和鲁棒性；特别是像城市交叉路口这种由于大量车辆穿行而产生冲突的热点区域，其对无人驾驶车辆做出实时正确的决策有着极高的要求。

国内外许多学者对城市不同交通环境下的车辆通行状况进行了大量、系统的研究，从不同的研究角度提出了许多车辆通行模型。

HoriuchiM等，通过GM(GeneralMotor)微观模型描述速度与流量之间的宏观关系，模型形式简单、物理意义明确，但其通用性能不高，其不能随着交通环境和运行状态的改变而做出相应的改变，只能描述具体某段时间内的交通流行为，泛化能力太低；EvansD等提出的线性模型，尽管考虑了通行过程中，头车制动对跟随车辆的影响，但与GM模型一样，对复杂多变的城市交叉口交通环境不能起很好的作用，只适用于单一、简单的环境。LiangJ,MengD等提出了在车辆通行过程中保持前车和跟随车间的安全距离的防撞模型，基于CA模型又演变出了SISTM、INTRAS和CARSIM等模型，CA模型会严格遵守“最小安全距离”的准则，但其在处理人-车-路(环境)多源融合信息时，反应的精准性和实时性远远不够。

Joachim等，曲大义等，Rauskolb等分别采用基于行为网络、基于分层Logit模型、基于混合规则与行为模型的方法建立智能车辆行为决策模型,对不同交通场景下的跟车、换道等行为提出了相应的解决办法。Wei等提出了一种基于预测和成本函数的方法，该方法通过人类能够理解的成本函数库评估预测的交通情况，并且基于最低成本选择最佳控制策略。陈佳佳等为解决复杂城市环境中智能车辆的行为决策问题，使用了层次分析法以及理想决策相似度判别技术。孙振平等研究了高速公路环境下基于安全、效率与交通规则的行为决策问题，给出相应的决策结果。北京理工大学龚建伟等提出了一种基于直觉的决策方法，即在离线学习过程中，将经验驾驶员的驾驶经验转化为知识，并将提取出来的规则应用于车辆行为决策中。Song等为了能在每个预测时间步更新意图，构建类人策略机制生成候选决策，并建立一个部分可观察的马尔可夫决策过程(POMDP)来建模一般决策框架，实现驾驶状态转换。王畅等提出了基于预瞄—跟随理论的智能车行为决策方法，提出了自动换道跟随算法，该算法体现了真实的驾驶行为，提高了智能车辆的行驶稳定性。

上述提出的研究方法大部分都是针对特定的较为简单的交通场景，高密度的城市环境少有涉及。而实际的交通场景是一个高度动态的复杂环境，许多因素往往不能提前精确建模，在传统的行为决策体系当中，没有很好的考虑人-车-路(环境)的交互，因此给出的决策往往不具备良好的环境适应性。因此，许多学者将强化学习(机器学习分支之一)应用到无人驾驶车辆的行为决策算法开发，为实现无人驾驶车辆的在线学习提供了有效手段。

Q-Learning算法是一种异策略的离线强化学习方法，它的原理与前面提到的Sarsa算法基本一致，其算法的最大特点是只考虑当前的即时回报和趋向于采取最优动作带来的收益。从前面的强化学习介绍知，Agent在某种策略下与环境进行交互时，在每一个状态下都会以某个概率去选择一系列的动作，每当确定一个动作并执行后，状态发生改变的同时环境会给出一个奖惩值，而Q值就是这个奖惩值，即某个Q值是在某个策略下采取某对“状态—动作”所得到的收益。在与环境交互学习的过程中，每次得到Q值会被储存在一个以状态空间为行和动作空间为列的表格(Q值表或Q矩阵)中，故Q-Learning也称为“表格型值函数”。

Neural Q-Learning(NQL)算法，误差逆传播(BP)神经网络，NQL中实现最优动作值函数迭代的关键就是利用误差信号的反向传播进行残差计算分析，这就必须要用到BP神经网络。神经网络中的信息传递和处理流程如下：外界信号由输入层输入、经过隐层(可能有多层结构)和输出层的激活函数计算，将得到的输出值与样本值进行差值比较，将该误差值再反过来从输出层传递，在反向传递时，利用梯度下降算法修正各个节点间的连接权重ω和偏置量b，这样才完成一个更新迭代过程，重复循环直至训练完所有样本数据为止。

本发明研究就针对城市交叉路口无人驾驶车辆穿越通行问题，综合考虑穿越过程的安全性和效率等因素，提出了基于强化学习算法寻找最优穿越通行策略的方法。

发明内容

1、发明目的。

本发明提出了一种基于强化学习的无人驾驶车辆城市交叉口通行方法，解决现有无人驾驶技术中未考虑安全性和效率的因素，带来的不舒适的驾驶体验。

2、本发明所采用的技术方案。

本发明提出了一种基于强化学习的无人驾驶车辆城市交叉口通行方法，包括如下步骤：

步骤1、通过摄像法采集车辆连续运行状态信息和位置信息，包括速度、横向速度和加速度值、纵向速度和加速度值、行驶轨迹曲率值、油门开度和制动踏板压力；

步骤2、通过聚类处理得到实际数据的特征运动轨迹和速度量；

步骤3、通过指数加权移动平均的方法来处理原始数据；

步骤4、利用NQL算法实现交叉口通行方法。

更进一步，所述的步骤4、利用NQL算法实现交叉口通行方法具体按照如下步骤进行

步骤4.1如图4.5状态量S_k设定：包括与交叉路口的车辆相对速度ΔV_i和相对距离D_Li(位置坐标y的差值)为一个交叉单元穿越行为系统；

步骤4.2动作量A_k设定：横向和纵向两个方向上的运动决策，空间设置包括车辆的纵向加速度a_l和横向加速度a_h，即决策动作集A＝{a_l，a_h}；

步骤4.3奖励函数的设定，将从安全性、通行效率和驾驶舒适性三个方面来考虑

决策更新迭代过程中设定的奖励函数R_r由安全性奖励函数、效率性奖励函数和舒适性奖励函数三部分组成，具体公式如下：

R_r＝k_sR_s+k_eR_e+k_cR_c+C (4.35)

其中k_s、k_e、k_c分别表示安全性、通行效率和驾驶舒适性对应的奖励函数的权重值，C为常数；

步骤4.4利用步骤4.1状态量S_k，步骤4.2动作量A_k和动作值函数Q(S_k，A_k)进行当前的决策动作的计算：

S_k+1＝DS_k+FA_k

令

则

其中，矩阵D和矩阵F为算法决策系统的相关系数矩阵；矩阵B为状态量对奖励函数的权重，矩阵C为动作量对奖励函数的权重；矩阵H_xx，H_ux，H_xu，H_uu 为NQL算法决策系统的参数矩阵；A′_k为此刻的最优动作量，R_k为神经网络损失函数，为系数矩阵；

其中

将BP神经网络中各层的权重组成一个参数向量ω＝[ω₁，ω₂，ω₃，ω₄，ω₅，ω₆，ω₇，ω₈]^T，再把环境状态量的二次型表示作为神经网络的输入向量Xk，最后通过动作值函数Q(x_k)＝X_k·ω^T对输入量求偏导数来计算和迭代权重值ω。

更进一步，所述的步骤4.3奖励函数的设定具体按照如下进行：

步骤4.31安全性奖励函数，

考虑穿越过程中的安全性奖励函数R_s时，要从车辆横向运动和纵向运动两个方面设定；车辆的纵向运动和纵向运动，交叉路口两个方向上防止碰撞；选择碰撞时间TTC及其倒数来衡量通过安全性，保证在TTC内避免与车辆碰撞，而在其他安全行驶区域没有碰撞发生时，设定的奖励值为零，具体函数设定为：

其中碰撞时间TTC是由前后车距与前后相对车速决定；TTC_th表示碰撞时间的阈值，选取车辆的质心位置来计算相对车距，故要车身大小对碰撞的影响，同时结合原始数据的分析而选取阈值为2s；

另外考虑车辆在穿越过程中横向的速度控制，对于实验车辆而言，其车辆质心位置从相邻车道穿越目标直行车道，可认为安全穿行。本次设定车道宽度为3.5m，横向穿越距离为8.75m，要求车辆的横向运动要在最大TTC时间内横向穿过对向直行车道，函数设定为(车辆横向速度为V_h)：

综合横向和纵向两个方向上的安全性得出总安全性的奖励函数为：

R_s＝k₁R₁+k₂R₂

其中k₁，k₂分别为纵向和横向的安全系数。

步骤4.32通行效率奖励函数

从穿越通行效率上进行奖励函数的设定，穿越行为要在一定时间和空间范围内高效地完成；其表征效率的奖励函数R_e的表达式为：

步骤4.33驾驶员的舒适性。驾驶舒适性纵向上体现在纵向加速度在整个穿越过程中的平均变化，没有出现急加速或急减速的情况来评价纵向控制方法的优劣；而横向上控制瞬时加速度的大小来控制横向上的舒适性，其评价指标为瞬时变化率，表征舒适性的奖惩函数R_c表达式为：

其中Δa表示相邻时刻的加速度变化值，a_max表示此过程中的最大加速度，a_min表示此过程的最小加速度，T表示相邻两个仿真步长的时间(即采样时间)，μ₁、μ₂分别表示加速度平均变化率和加速度瞬时变化率的参数。

更进一步，所述的神经网络的建立：

步骤4.41神经网络的层数采用以下公式确定：

其中p为输入层节点数，取p＝6；u为输出层节点数，u＝2；b是取值为[1，10]的调整参数，b＝2。

步骤4.42Q(X_k)可以由以下推导得到：

其中f⁽²⁾为输出层的线型隐藏函数，则有f⁽²⁾(x)＝x；且其输出层偏置矩阵b⁽²⁾为0。表示输出层与隐层间所有权重组成的矩阵，f⁽¹⁾为隐层的激活函数，ω⁽¹⁾为输入层与隐层间的权重矩阵，隐层的偏置矩阵b⁽¹⁾。

其中求得权重值是隐层权重与输出层权重的乘积，这一部分为线性部分；而非线性部分里面含有激活函数，激活函数为tanh函数，即有f⁽²⁾(x)＝tanh(x)。当其中的权重和偏置很小时，其值可以忽略不计。计算出来的权重值就可以得到各个权重矩阵H_xx、H_ux、H_xu、H_uu，从而得到动作量计算公式中的系数矩阵，最后计算得到动作值。

更进一步，还包括步骤5.利用误差逆传播算法的残差分析计算权重矩阵和偏置向量偏导数：

还包括步骤6.每次计算完权重值和偏置，就进行一次更新。

3、本发明所产生的技术效果。

(1)本发明针对高车流密度且无车道线引导的城市交叉口穿越行为决策，基于传统知识处理方法只能在给定的匹配模式下工作，不能解耦人-车-路(环境)多因素对行车决策安全、效率的影响规律。本研究通过采集分析人类驾驶员历史行车轨迹，获取实时行为决策兴趣点，降低行为决策状态空间维度，在线训练指导行为决策算法，提高穿越行为决策算法的实时性。

(2)本发明针对穿越行为决策是一种连续状态空间、连续动作空间的决策问题，本研究综合考虑交叉口穿越行为的安全性、效率性和舒适性等影响因素，基于Neural QLearning(NQL)算法建立无人驾驶车辆城市交叉口穿越通行决策模型。将连续状态量作为矩阵输入，同时通过更新逆误差传播神经网络中的权重参数矩阵，直接计算出连续变化的动作决策量，通过反馈传播计算将动作决策量的残差率控制在收敛范围内；并且采用在线批量更新动作策略，突破了传统强化学习只能离线对离散化状态空间作决策的限制，进一步提高其算法的环境自适应性。

(3)本发明采用的NQL算法在处理复杂的交叉路口场景时学习能力明显优于Q学习算法，以更少的训练数据在更短的训练时间内达到更好的训练效果。同时在实验验证环节中，NQL算法决策出的横纵向速度和加速度更加贴合经验驾驶员的行驶规律，说明了该算法的准确性和有效性。

附图说明

图1为本发明的流程图。

图2为交叉口穿行场景示意图。

图3为Q学习算法穿越成功率和NQL算法残差率分析。

图4BP神经网络权重w1及w2收敛情况。

图5实验车辆加速度仿真结果分析。

图6实验车辆速度仿真结果分析。

具体实施方式

实施例1

一、1、场景搭建Prescan仿真场景搭建

虚拟场景的搭建是在GUI模块中完成的，该模块中包含了道路和基础设施部分、交通参与者部分、传感器模块、天气设置以及光源设置。道路数据库中能设定直线道路、圆弧(或多次弯曲)道路、十字路口、Y型(或T型)道路和环岛道路等，同时还能设定各种标志标线，如斑马线、直行和左转标线、限速和限高标志，道路标志等；基础设施数据库能设定仿真需要的周边环境，包括不同类型的树木、植被，路边建筑物和红绿信号灯；交通参与者数据库可以设定不同类型的车辆，例如卡车、小轿车、e-bike等车辆模型，还可以设定不同类型的行人，包括成年人、老人和孩童等；传感器模块包括超声波、雷达、GPS、红外线以及车与其他设备(V2X)通信系统，因此可以非常轻松地实现不同车载传感器的更换；在天气设置和光源设置模块中，可以设定包括雨天、雾天、雪天天以及光线昏暗等不同的仿真环境。

为了更好地模拟实际道路结构，同时也是为了准确地利用通过视频标定软件George 2.1提取的车辆轨迹数据，本次实验通过PreScanImport中的OpenStreetMap导入开源地图。

2仿真车辆及车载传感器搭建

在PreScanGUI与Matlab/Simulink的联合仿真平台中，设定车辆动力学模型，也可以外接CarSim、Labview等车辆模型，其中车辆的动力学参数均可自行设置，例如根据实际情况设定不同的车辆的尺寸、仿真运行的路径和速度文件，另外仿真车辆的速度和加速度变化也可由算法函数控制。分别在主车和周围车辆设置接收天线和发射天线，相同频道的spare数据就可以传输了，这些传感器的数据存储和通信均在Simulink中实现，最终实现无人驾驶任务。

(3)添加车辆控制系统

在GUI用户界面搭建好虚拟仿真场景后，通过菜单栏中的Parse和Build按钮在Matlab/Simulink平台下创建控制系统CS文件，这样所有虚拟仿真环境中的车辆均可在Simulink中产生编辑和通信的接口。Simulink中只有车辆动力学模型和车载传感器模型，需要添加可编译决策算法的文件；本次研究就基于Matlab/Simulink搭建了无人驾驶车辆交叉口穿越行为决策的学习训练系统。

(4)运行仿真实验

上述步骤完成之后，就可以通过GUI界面或者Simulink开始仿真实验。仿真过程可以通过设定的不同的视角来观察，包括系统自带视角和自定义的驾驶员视角。同时，还可以对需要的场景和仿真实验视频进行捕捉，便于后期做实验分析和解决问题，省去了现实实验中的人力和物力。最后在仿真实验中，还可以对Simulink中Workspace存储的仿真实验数据进行分析处理。

本次实验中我们需要设定虚拟的GPS全球定位系统来获取自身车辆姿态数据；设置激光雷达、毫米波雷达和车车通信(V2V)等传感器来采集周围车辆的运动数据，注意每种传感器所能覆盖的范围阈值。通过设定实验车辆与周围环境车辆的通信频道一致，保证周围环境车辆的实时坐标位置和速度信息能通过space传输到实验车辆，那么就可以用这些位置、速度信息来计算两车之间的相对距离、相对速度和TTC。

实验主车的车辆模型采用基于六自由度动力学公式改进的“Dynamics_SimpleModel”，包含发动机模型、手动变速器模型、换挡模型和车辆悬架模型，能保证较为简单场景下车辆行驶时的动力学要求。

二、环境感知系统

本次实验中我们需要设定虚拟的GPS全球定位系统来获取自身车辆姿态数据；设置激光雷达、毫米波雷达和车车通信(V2V)等传感器来采集周围车辆的运动数据，注意每种传感器所能覆盖的范围阈值。通过设定实验车辆与周围环境车辆的通信频道一致，保证周围环境车辆的实时坐标位置和速度信息能通过space传输到实验车辆，那么就可以用这些位置、速度信息来计算两车之间的相对距离、相对速度和TTC，

毫米波雷达的测距原理基本与激光雷达相似，由于其质量轻、体积小、研发成本低和技术相对成熟而被广泛使用，具有穿透灰尘和烟雾的能力；相比于激光雷达其测量范围更广，每次接受的信号量相对较少故对数据处理器性能要求较低，适用于较为单一的测试环境。

在仿真场景中设定“Antenna_Tx”发射本车运动信号和“Antenna_Rx”信号接收周围车辆的运动位置、速度信号来实现V2V技术。V2V通信技术除了可以实现障碍物扫描等功能，还能探测到本车周围300至500米范围内的障碍物、车辆、行人、建筑物等，能实现每个车辆之间端对端的通信，极大地开阔了驾驶视野；其次道路上的障碍物有些情况下不能检测到，但是V2V能实时发送视野范围内不可见的物体状态的信号，降低了出现盲区的概率。最后该通信技术使用特定频道进行通信，其对车辆数据的保密性和安全性也提升了一个很大的档次。

三、车辆动力学模型

实验主车的车辆模型采用基于六自由度动力学公式改进的“Dynamics_SimpleModel”，其动力学模型包含发动机模型、手动变速器模型、换挡模型和车辆悬架模型，能保证较为简单场景下车辆行驶时的动力学要求。

该动力学模型存在于Experiemnt的Simulink模块中，完全对开发人员开放，任意调整自己需要的参数。其留在外面的信号输入接口包括“Steer”、“Throttle”、“Brake”、“AutoGearshift”以及“Velocity”等，那么在车辆感知系统和车辆动力学底层控制系统之间就是实验者开发的决策算法系统，该决策系统包括驾驶数据处理模块，状态量变换模块、策略迭代模块等组成.

本次仿真场景为无信号灯和行人的简单交叉路口，研究的对象只考虑交叉路口由北向东行驶的左转车辆和对向直行车辆。研究状态空间集、动作空间集、奖惩函数和决策算法的迭代机理^[65]，利用NQL算法或Q-Learning算法解决交叉路口安全、高效地穿越通行的问题。

四、基于NQL的交叉路口穿越行为分析

1、行为决策算法的参数设定

2、状态量的设定

在穿行决策过程中，算法在每一时刻都要根据当前环境状态实现决策任务。在设定状态变量之前，本次研究需要对实验对象进行横向控制和纵向控制的解耦，其设定的环境状态量S，主要是考虑对实验车辆整个穿越行为有影响的因素，其中包括：实验车辆与仿真车辆Car1间的相对速度ΔV₁和相对距离D_L1，实验车辆与仿真车辆Car2间的相对速度ΔV₂和相对距离D_L2，实验车辆与仿真车辆Car3间的相对速度ΔV₃和相对距离D_L3。相对速度ΔV₁、ΔV₂和ΔV₃分别为实验车辆的纵向速度V_l与仿真车辆Car1、Car2、Car3速度间的差值，相对距离D_L1、D_L2和D_L3分别为实验车辆位置坐标y与仿真车辆Car1、Car2、Car3位置坐标y的差值。

其中S＝{ΔV₁，ΔD_L1，ΔV₂，ΔD_L2，ΔV₁，ΔD_L1}可以表征一个交叉口单元穿越行为系统，这样不仅可以描述一般的穿越行为，更能减少状态量的维度，确保决策算法有效和收敛。在策略迭代过程中，通过NQL算法实现马尔科夫决策建模并且训练样本数据，从而实现以最优策略进行穿行。环境状态量的设定、实验车辆本身的速度量及加速度量和简单的穿越过程如图2所示。

(2)动作量的设定

由于无人驾驶车辆在交叉口穿越过程中有横向和纵向两个方向上的运动决策，需将横向和纵向运动解耦，同时决策动作的选取也根据学习目的和具体解决的问题而定。考虑到整个穿越过程要在较短时间内和较为安全的前提下完成，本次算法决策的动作空间设置包括车辆的纵向加速度a_l和横向加速度a_h，即NQL算法决策动作集A＝{a_l，a_h}。其中纵向加速度a_l受到实验车辆和仿真车辆之间的相对速度和相对距离的影响，对保持前后车距、控制本车纵向速度v_l至关重要；横向加速度a_h控制车辆的横向速度v_h，能更好地完成穿越行为。故决策出良好的a_l和a_h值便能既安全又高效地实现穿越策略。

(3)奖励函数的设定

本次设置决策的奖励函数(Reward Function)将从安全性、通行效率和驾驶舒适性三个方面来考虑。考虑穿越过程中的安全性奖励函数R_s时，要从车辆横向运动和纵向运动两个方面设定。首先，在考虑车辆的纵向运动上，既要避免实验车辆的车头与仿真车辆Car1的车头相撞，也要避免与仿真车辆Car2的车尾相撞；本次研究选择碰撞时间TTC及其倒数来衡量通过安全性，保证在TTC内避免与车辆碰撞。而在其他安全行驶区域没有碰撞发生时，设定的奖励值为零。具体函数设定为：

其中碰撞时间TTC是由前后车距与前后相对车速决定；TTC_th表示碰撞时间的阈值，考虑到本次研究选取车辆的质心位置来计算相对车距，故要车身大小对碰撞的影响，同时结合原始数据的分析而选取阈值为2s。

R_s＝k₁R₁+k₂R₂

其中k₁，k₂分别为纵向和横向的安全系数。其次再从穿越通行效率上进行奖励函数的设定，穿越行为要在一定时间和空间范围内高效地完成；其表征效率的奖励函数R_e的表达式为：

其中，通过对原始标定数据分析和考虑高密度城市交通环境，设计的直行车辆间距要小于高速或快速道路，本次研究设定实行穿越行为的实验车辆与直行车道的前后通行车辆的相对距离的安全阈值为6m；当穿越条件不能同时满足上述三个条件，则认为穿越失败，给出奖惩值-1，其中包括在规定的仿真时间内不能正常地完成仿真实验的情况。

最后还要考虑车辆在交叉口穿越过程中的驾驶员的舒适性。驾驶舒适性纵向上体现在纵向加速度在整个穿越过程中的平均变化，没有出现急加速或急减速的情况来评价纵向控制方法的优劣；而横向上控制瞬时加速度的大小来控制横向上的舒适性，其评价指标为瞬时变化率。表征舒适性的奖惩函数R_c表达式为：

综上所述，决策更新迭代过程中设定的奖励函数R_r由安全性奖励函数、效率性奖励函数和舒适性奖励函数三部分组成，具体公式如下：

R_r＝k_sR_s+k_eR_e+k_cR_c+C (5)

其中k_s、k_e、k_c分别表示各自对应的奖励函数的权重值，C为常数。

(4)穿越通行决策的NQL分析

根据具体研究场景给出的状态空间量S＝{ΔV₁，ΔD_L1，ΔV₂，ΔD_L2，ΔV₁，ΔD_L1}和动作决策量为A＝{a_l，a_h}，且将传统Q学习算法中的Q矩阵用合适的BP神经网络来代替。

Q-learning算法给出的决策动作是基于当前状态下，依照更新迭代好的Q矩阵选取相应的动作；而NQL利用当前状态量S_k，动作量A_k和动作值函数Q(S_k，A_k)进行当前的决策动作的计算，具体推导如下：

S_k+1＝DS_k+FA_k

令

则

其中，矩阵D和矩阵F为算法决策系统的相关系数矩阵；矩阵B为状态量对奖励函数的权重，矩阵C为动作量对奖励函数的权重；矩阵H_xx，H_ux，H_xu，H_uu，为NQL算法决策系统的参数矩阵；A′_k为此刻的最优动作量，R_k为神经网络损失函数。

NQL算法决策系统系数矩阵为H_xx、H_ux、H_xu、H_uu，分别表示为：

将BP神经网络中各层的权重组成一个参数向量ω＝[ω₁，ω₂，ω₃，ω₄，ω₅，ω₆，ω₇，ω₈]^T，再把环境状态量的二次型表示作为神经网络的输入向量X_k，最后通过动作值函数Q(X_k)＝X_k·ω^T对输入量求偏导数来计算和迭代权重值ω。本次神经网络的层数采用以下公式确定：

其中p为输入层节点数，取p＝6；u为输出层节点数，u＝2；b是取值为[1，10]的调整参数，本次研究取b＝2。故通过经验公式计算得到的隐藏层节点数为6。此次研究确定的神经网络的输出量Q(X_k)可以有以下推导得到：

其中f⁽²⁾为输出层的线型隐藏函数，则有f⁽²⁾(x)＝x；且其输出层偏置矩阵b⁽²⁾为0。表示输出层与隐层间所有权重组成的矩阵，f⁽¹⁾为隐层的激活函数，ω⁽¹⁾为输入层与隐层间的权重矩阵，隐层的偏置矩阵b⁽¹⁾。本次选取的激活函数为tanh(双曲正切)函数，即有f⁽²⁾(x)＝tanh(x)。对上式中的输出量对权重求偏导有：

其中求得权重值是隐层权重与输出层权重的乘积，这一部分为线性部分；而非线性部分里面含有激活函数，当其中的权重和偏置很小时，其值可以忽略不计。这种设计可以简化结构和便于迭代计算。

这样通过式(10)计算出来的权重值就可以得到各个权重矩阵H_xx、H_ux、H_xu、H_uu，从而得到动作量计算公式中的系数矩阵最后再根据式(6)计算得到动作值。可以发现，求得系数矩阵和动作量的关键就是更新权重值，具体实现过程为：将通过数据预处理之后的样本数据去训练BP神经网络并使其收敛，再用收敛的神经网络中的权重参数去计算动作值函数和最大动作量。本次使用的NQL算法的具体流程如下：

1、初始化：零置神经网络参数(权重矩阵和偏置向量)；

Q(X_k)＝0且令神经网络初始输入为零矩阵；

2、在训练样本未完成前，循环以下步骤：

(1)根据当前时刻状态S_k和动作A_k，得到下一时刻的状态量S_k+1；

(2)根据公式(6)计算出下一时刻动作量A′_k；

(3)利用误差逆传播算法的残差分析计算权重矩阵和偏置向量偏导数：

(4)每次计算完权重值和偏置，就进行一次更新：

其中为梯度下降步长

综上所述，整个NQL算法由初始化参数矩阵、正向计算和误差分析计算以及参数更新迭代三大部分组成。从代码中可以看出，整个过可以进行样本数据批量计算，在满足决策计算要求的时间范围内进行参数的更新，这样能达到车辆决策实时性的要求，且能一定程度上减少决策系统的突变性。

五、验设置及结果分析

通过对原始实验数据的标定和处理，得到在一定区域内的交叉路口一系列左转车辆的行驶轨迹，而这些存在误差且较为杂乱的车辆轨迹无法直接进行强化学习训练。为了使该决策算法顺利进行且在一定范围内约束无人驾驶车辆的运动，必须要尽可能多地减少强化学习算法决策的状态空间维度以及找到较为优秀的轨迹来更好地指导无人驾驶车辆的仿真策略，需要找到具有优秀驾驶员经验的左转车辆特征轨迹。因此要对这些轨迹进行聚类分析。

本发明提出了“虚拟车道线”的概念，达到引导无人驾驶车辆在“虚拟车道线”内行驶的目的。“虚拟车道线”是由标定所有选择时间段内的左转车辆的轨迹组成的，其中所有轨迹中的最内侧的一条曲线和最外侧的一条曲线为该虚拟车道的边界线，边界线上的轨迹会相互交缠，因此需要进行一定的优化处理，同时标定车道边界线的过程中需要剔除偏差明显的且不具备参考意义的车辆轨迹，要充分保证其有效性。

基于“虚拟车道线”进行在线强化学习计算指导，是为了尽量保证无人驾驶车辆交叉口穿越通行决策算法的准确性和有效性，同时让算法尽可能快地收敛。因此本文离线使用轨迹聚类方法获得“虚拟车道线”区域内的优秀左转车辆轨迹，再利用这类优秀轨迹来指导在线强化学习算法进行动作决策；当无人驾驶车辆的行为决策在设定的范围内，系统将会得到较大的动作函数值，反之则会给出负反馈。这样当神经网络收敛之后给出的决策动作会在很大程度上符合优秀的车辆行驶轨迹，从而验证了该算法的可行性。

虚拟车道线的区域范围、经验左转驾驶轨迹和原始车辆轨迹曲线，且选择标定的所有车辆原始轨迹都位于内侧、外侧两条边界线之间，同时经验左转车辆轨迹是通过使用轨迹聚类方法得到的。

车辆轨迹聚类采用基于整条原始车辆轨迹或者提取上面相关片段，再对这些特征片段进行轨迹聚类，从而得到聚类曲线。首先将所有待聚类的子轨迹在车辆位置坐标(x-y)图中标出，其中每一条曲线就代表一辆左转车辆在标记时间内的轨迹；然后将这些轨迹进行一次线性拟合得到初聚类曲线，最后再进行优化处理得到最后的特征车辆轨迹聚类曲线。

1、Q-Learning算法和NQL算法结果分析

设计Q-Learning算法和NQL算法的对比实验，简单地对比说明两种算法在原理上的根本差别，从最后的结果分析并验证后者在城市交叉口无人驾驶车辆穿越通行问题上的决策优越性。

NQL算法则用一个神经网络去逼近Q-Learning算法中的Q函数，利用训练样本来更新迭代神经网络参数再利用公式(6)直接计算出最优动作量，减去了离散化和动作量存储的过程，可以直接处理连续状态空间的决策问题。

为了使两种强化学习算法的收敛时间更短，本发明对算法的参数作了如下的设定。同时对比两种算法的训练结果发现，NQL算法比Q-Learning算法在收敛时所需要的训练样本数和训练时间都较为优秀。具体参数和训练结果如表1所示：

表1两种强化学习算法分析对比

在判定两种算法收敛的规则时有，NQL算法在连续的两个迭代周期(每1s进行一次迭代)内神经网络的所有残差率的平方和小于0.05；而Q学习算法在相邻的更新周期内计算Q值的差值平均率小于0.1，即[(Q_k+1-Q_k)/Q_k]＜0.1。从表1中可以看出，Q-Learning算法的平均训练样本明显多于前者，同时收敛速度也较慢，甚至有时会出现不收敛的情况。这样可以反映出在解决离散化的高维度状态空间问题时，Q学习算法不具备环境的泛化能力；一旦更加细致地划分状态空间，Q学习算法的计算量将几何倍数增加且会有部分丢失的状态量，这些都会大大增加训练样本数据和收敛的难度。

为了更加直观地对比了解两种算法的功效，本次研究对基于Q-learning算法的无人驾驶实验车辆穿越成功率和对NQL算法中的神经网络残差率进行了统计分析，图3(a)和(b)分别表示了Q学习算法穿越成功率和NQL算法的残差率随仿真步长变化的关系。

当无人驾驶实验车辆在Prescan与Matlab/Simulink联合仿真平台中进行最优穿行策略训练时，Agent通过算法不断地与周围车辆及环境进行交互并得到相应的反馈，不停地尝试穿越对象直行车辆并更新自身通行策略，直至成功穿越为止。图4(a)记录了有多少次穿越成功(但此刻并不代表算法收敛)从而得到穿越成功率；本次分析选取了其中较为优秀的三组穿越行为实验，每次试验均进行了8000次仿真迭代，从结果图可以看出随着仿真时间的增加其穿越成功率也随之增加，但并不呈现线性变化。可以发现在1500次实验之前，穿越成功率高低起伏变化，说明此时Agent并没有学到前面成功穿越的经验，还是随机任意学习过程；当进行3000次实验以后，可以发现成功率逐渐上升，说明前半段的通行策略已经符合实际车辆通行策略了；当6000次实验以后，可以发现穿越成功率在0.6上下浮动，说明此时算法基本收敛。

与图4(a)统计的不同，图4(b)只能统计相邻两次神经网络迭代计算的动作值的残差率。因为NQL算法自身只能利用样本数据去更新神经网络参数，通过公式(6)直接计算出此刻的动作值，并无法知道采取这个动作能否成功穿越，故无法通过穿越成功率来判定算法是否收敛，只能通过残差率分析。

图4(b)中的红色曲线为前5000次仿真的残差率的平均值曲线，黄色曲线为5000次仿真以后的残差率的平均值曲线。可以发现红色曲线的曲率变化大且形状波动很大，说明残差率变化大，其达不到收敛的条件；而黄色曲线的波动很小，其相邻两次的残差率均值小于0.02，说明神经网络计算的最优动作在某个值附近小范围变化，此时NQL算法已经收敛，Agent通过学习优秀的样本数据已经找到良好的通行策略。其中NQL强化学习算法中迭代权重收敛情况如图4所示，可以看出在经过500s的更新迭代后，神经网络中输入层到隐层的权重和隐层到输出层的权重均波动很小，说明此时神经网络已经收敛。

通过用得到的样本数据来Q学习算法和训练神经网络，让Q矩阵成功迭代并使其收敛以及NQL算法中的神经网络每层的权重和q值的残差波动变化很小。那么下面需要通过标定的实际交叉路口的车辆轨迹数据来验证Q学习算法和NQL算法有效性；同时分析研究实验车辆在横向和纵向两个方向上的动作决策结果，说明Q学习算法和NQL算法在处理连续状态动作空间问题上的差异，从而证明基于Q-Learning算法改进后的NQL算法的成功性。

(2)实验车辆加速度变化规律

在仿真时间内，本次实验统计分析了实验车辆纵向加速度a_l和横向加速度a_h的变化；本次仿真时间从实验车辆进入交叉口开始，到成功穿越对向直行车辆为止。其中车辆的横纵向加速度a_h和a_l的变化规律分别如图5(a)和(b)所示。

图5中分别显示了验证算法的原始实验数据、Q学习算法迭代结果和NQL算法迭代结果，其中图中标示的原始数据是指经过EWMA方法平滑处理之后的数据。从图5(a)可以发现采集的具有优秀经验的车辆的纵向加速度在-0.4m/s²-0.2m/s²之间变化，横向加速度在0m/s²-0.5m/s²之间变化。

其中仿真时间在150s之前，纵向加速度变化明显且幅度很大，说明此时左转车辆受到对向车辆和本车道前车的干扰；而在之后时间内纵向加速度变化变缓，说明此时车辆在稳定穿行直到最后完全穿过。对比Q-Learning和NQL强化学习方法的结果，可以发现从开始仿真到150s之间，前者纵向加速度在±0.8m/s²之间变化，波动非常明显；而后者的值在-0.5m/s²-0.2m/s²之间变化，幅度相对较小。同时，前者的横向加速度在-0.5m/s²-1.0m/s²之间变化；而后者的波动较小，在-0.25m/s²-0.6m/s²之间变化。但是两者相对于验证的原始数据样本都有一定的误差，说明两种算法在这段时间内的决策不算优秀，受其他车辆的影响较大。而在之后的决策变化过程中，NQL算法控制的车辆横向加速度在-0.25m/s²-0.2m/s²之间变化、纵向加速度在-0.16m/s²--0.4m/s²之间变化，横纵加速度的变化幅度明显减小，相比之前150s的决策过程表现的更加稳定且更加贴合实际变化规律，说明此时做出了较为优秀的通行策略；而Q学习算法控制的车辆横向加速度在-0.6m/s²-0.4m/s²之间变化、纵向加速度在±0.4m/s²之间变化，虽然相对前150s的结果有所优化，但依旧存在一定的波动并且与实际情况也有所差距。

从上面的结果曲线对比分析得知，NQL算法在处理连续状态空间的问题上，其决策性能明显优于Q-Learning算法，将决策的误差量控制在更小的范围内，不仅体现出了自身算法的稳定性，同时动作决策量的变化趋势更加符合经验驾驶员的行驶规律。反观Q-Learning算法，整个过程中的决策动作量变化幅度很大，动作决策量的波动明显，这可能跟算法离散化状态空间的程度有关系；并且不符合经验驾驶员的行驶规律，并不是最优的通行策略。

(3)实验车辆速度变化规律

车辆的速度也是从横纵两个方向上进行考量，在验证NQL算法和Q学习算法的稳定性和有效性的同时，也要考虑两种算法的优越性，要更加符合经验驾驶员的驾驶规律。本次研究的算法决策系统直接得到的是车辆横纵两个方向上的速度量，实验车辆的加速度是通过车辆底层控制得到的，并且横纵向的速度之间的变化关系能够反映出车辆左转过程中的航向角的变化。图6(a)和(b)分别表示车辆的横纵向速度v_h和v_l的变化规律。

图6中可知，实验车辆在仿真时间150s之前，其纵向上的速度变化波动比较明显，这可能是处于穿越交叉口的前半段，此时还没与直行车辆发生交互，车辆给的指令是快速通过。在0到150s之间的时间，Q学习算法与验证数据的变化规律类似，均在0m/s到-1.5m/s(其中图中的负号与大地坐标系的方向有关)且幅度大小也相近；而NQL算法与前面两者不一样，其值在0m/s到-1m/s之间变化且变化的幅度相对较小。

仿真时间在150s之后，三者的曲线规律都发生了变化，Q学习算法的动作量位于0m/s到-1m/s之间而NQL算法的动作量则在-0.3m/s到-0.75m/s，此时发现实验车辆的速度量都很小，说明此时左转车辆已经与对向直行车辆发生了交互且让行于直行车辆，决策出较为合适的间隙进行穿越行为。对比发现，此刻NQL算法决策的纵向速度更加符合经验驾驶员的行车规律，决策更加贴合实际情况；而Q学习算法的动作量已经波动明显，存在速度的快速变化，这在实际穿行过程中是很危险的，所以Q学习算法表现的没有NQL算法稳定有效。同样分析横向速度的控制问题，横向速度的规划是为了更快的穿过间隙，从NQL算法最后横向速度在-1m/s到-1.5m/s之间变化，比Q学习算法的横向速度更大、更加稳定，同时也更加符合经验驾驶员的行车规律，使得车辆在良好的穿行间隙下更快速地通过，保证了通行的效率；而Q学习算法速度最后趋向于零，可能会导致实验车辆错过最佳的穿行时机去选择从下一个间隙，从而影响了通行效率。

综上所述，NQL算法无论从速度控制和加速度控制上整体都优于Q学习算法，并且通过学习经验驾驶员的数据而更加贴合其驾驶习惯，说明在此次设定的场景中具有一定的自我决策能力。

本发明引入了“虚拟车道线”的概念，目的是减少算法决策空间状态量的维度，同时也将车辆轨迹进行聚类分析得到特征车辆轨迹曲线，用于更好的指导在线强化学习。然后对比分析了Q-Learning算法和NQL算法的迭代结果，分别从Q-Learning算法的穿越成功率和NQL算法的权重及残差率的收敛结果进行说明。最后对两种算法进行验证分析，说明NQL算法在处理连续状态和连续动作空间问题上的优越性，所得出的决策动作更加有效准确。

Claims

1.基于强化学习的无人驾驶车辆城市交叉口通行方法，其特征在于：

步骤3、通过指数加权移动平均的方法来处理原始数据；

步骤4、利用NQL算法实现交叉口通行方法。

2.根据权利要求1所述的基于强化学习的无人驾驶车辆城市交叉口通行方法，其特征在于步骤4、利用NQL算法实现交叉口通行方法具体按照如下步骤进行

R_r＝k_sR_s+k_eR_e+k_cR_c+C (4.35)

S_k+1＝DS_k+FA_k

令

则

其中，矩阵D和矩阵F为算法决策系统的相关系数矩阵；矩阵B为状态量对奖励函数的权重，矩阵C为动作量对奖励函数的权重；矩阵H_xx，H_ux，H_xu，H_uu，为NQL算法决策系统的参数矩阵；A′_k为此刻的最优动作量，R_k为神经网络损失函数，为系数矩阵；

其中

将BP神经网络中各层的权重组成一个参数向量ω＝[ω₁，ω₂，ω₃，ω₄，ω₅，ω₆，ω₇，ω₈]^T，再把环境状态量的二次型表示作为神经网络的输入向量X_k，最后通过动作值函数Q(X_k)＝X_k·ω^T对输入量求偏导数来计算和迭代权重值ω。

3.根据权利要求1所述的基于强化学习的无人驾驶车辆城市交叉口通行方法，其特征在于步骤4.3奖励函数的设定具体按照如下进行：

步骤4.31安全性奖励函数，

另外考虑车辆在穿越过程中横向的速度控制，对于实验车辆而言，其车辆质心位置从相邻车道穿越目标直行车道，可认为安全穿行；本次设定车道宽度为3.5m，横向穿越距离为8.75m，要求车辆的横向运动要在最大TTC时间内横向穿过对向直行车道，函数设定为(车辆横向速度为V_h)：

R_s＝k₁R₁+k₂R₂

其中k₁，k₂分别为纵向和横向的安全系数；

步骤4.32通行效率奖励函数

步骤4.33驾驶员的舒适性，驾驶舒适性纵向上体现在纵向加速度在整个穿越过程中的平均变化，没有出现急加速或急减速的情况来评价纵向控制方法的优劣；而横向上控制瞬时加速度的大小来控制横向上的舒适性，其评价指标为瞬时变化率，表征舒适性的奖惩函数R_c表达式为：

4.根据权利要求1所述的基于强化学习的无人驾驶车辆城市交叉口通行方法，其特征在于神经网络的建立：

步骤4.41神经网络的层数采用以下公式确定：

其中p为输入层节点数，取p＝6；u为输出层节点数，u＝2；b是取值为[1，10]的调整参数，b＝2；

步骤4.42 Q(X_k)可以由以下推导得到：

其中f⁽²⁾为输出层的线型隐藏函数，则有f⁽²⁾(x)＝x；且其输出层偏置矩阵b⁽²⁾为0；表示输出层与隐层间所有权重组成的矩阵，f⁽¹⁾为隐层的激活函数，ω⁽¹⁾为输入层与隐层间的权重矩阵，隐层的偏置矩阵b⁽¹⁾；

其中求得权重值是隐层权重与输出层权重的乘积，这一部分为线性部分；而非线性部分里面含有激活函数，激活函数为tanh函数，即有f⁽²⁾(X)＝tanh(x)；当其中的权重和偏置很小时，其值可以忽略不计；计算出来的权重值就可以得到各个权重矩阵H_xx、H_ux、H_xu、H_uu，从而得到动作量计算公式中的系数矩阵最后计算得到动作值。

5.根据权利要求1所述的基于强化学习的无人驾驶车辆城市交叉口通行方法，其特征在于：还包括步骤5.利用误差逆传播算法的残差分析计算权重矩阵和偏置向量偏导数。

6.根据权利要求1所述的基于强化学习的无人驾驶车辆城市交叉口通行方法，其特征在于：还包括步骤6.每次计算完权重值和偏置，就进行一次更新。