CN110716562A - 基于强化学习的无人驾驶汽车多车道行驶的决策方法 - Google Patents

基于强化学习的无人驾驶汽车多车道行驶的决策方法 Download PDF

Info

Publication number
CN110716562A
CN110716562A CN201910911284.2A CN201910911284A CN110716562A CN 110716562 A CN110716562 A CN 110716562A CN 201910911284 A CN201910911284 A CN 201910911284A CN 110716562 A CN110716562 A CN 110716562A
Authority
CN
China
Prior art keywords
vehicle
decision
reinforcement learning
tau
tire
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910911284.2A
Other languages
English (en)
Inventor
王一松
王春燕
张自宇
徐灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201910911284.2A priority Critical patent/CN110716562A/zh
Publication of CN110716562A publication Critical patent/CN110716562A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于强化学习的无人驾驶汽车多车道行驶的决策方法,首先建立强化学习训练模型,利用强化学习算法收益函数对神经网络参数进行更新、修正从而建立基于强化学习‑BP神经网络算法的决策系统。无人驾驶汽车在多车道行驶过程中,传感器采集周围车辆信息,上述决策系统给出执行动作并预测车辆行驶状态,由收益函数判断车辆行驶危险度,决策多车道工况下车辆当前时刻的最优驾驶行为。本发明能提升无人驾驶汽车多车道高速行驶的效率与安全性,实现在高不确定性、动态环境下的无人驾驶汽车高效、安全的驾驶决策。

Description

基于强化学习的无人驾驶汽车多车道行驶的决策方法
技术领域
本发明涉及无人驾驶汽车决策技术领域,尤其涉及一种基于强化学习的无人驾驶汽车多车道行驶的决策方法。
背景技术
随着当今时代智能化高度发展,智能车辆的产生与发展已成为一种趋势。通过智能决策和规划,无人驾驶汽车可以大幅度提高公路的通行能力,减少拥堵,尽量避免交通事故,通过合理分配降低汽车油耗等。而行为决策作为无人驾驶车辆智能化水平的一个重要体现,它决定着无人驾驶车辆的安全性、高效性、舒适性等方方面面。目前驾驶行为决策主要以基于规则的或是基于学习算法的决策系统为主。例如中国专利申请号CN201510381349.9,名称“一种无人驾驶汽车自主变道决策方法”中通过基于规则设计车辆间的安全变道距离作为变道条件;中国专利申请号CN201811524283.4,名称“一种基于规则与学习模型的无人驾驶汽车驶离高速的方法”中将规则模型与学习模型在不同环境下切换决策实现无人驾驶汽车安全下匝道任务。以上专利的决策系统依托神经网络模型或有限状态机模型进行决策,但神经网络需要的样本数量往往很大且容易过拟合,参数不易确定。有限状态机模型没有充分考虑环境的不确定性,在复杂的环境中,许多因素往往不能提前精确建模且在复杂环境下涉及状态增多时不便于管理。
发明内容
本发明所要解决的技术问题是针对于上述现有技术的不足,提供一种基于强化学习的无人驾驶汽车多车道行驶的决策方法。
本发明为解决上述技术问题采用以下技术方案:
基于强化学习的无人驾驶汽车多车道行驶的决策方法,其包括以下步骤:
步骤1),基于小角度假设建立车辆的动力学模型和轮胎模型,建立动力学模型时结合转向工况下轮胎的侧偏力、驱动制动力、以及轮胎侧偏角进行单个轮胎和整车的受力分析,并对前轮偏角及横摆角建立约束条件;
步骤2),对NGSIM数据库中US-101数据集的数据进行绘图分析,获取驾驶行为决策样本数据;
所述NGSIM数据库中US-101数据集的数据包括:车辆进入检测路段先后编号、开始检测时刻为起点的时间序列编号、车头中心距路段左侧边缘距离X、车头中心距路段起点距离Y、车辆瞬时速度、车辆瞬时加速度;
步骤3),构建强化学习训练模型、搭建BP神经网络前向传播结构并获取随机执行动作,基于强化学习算法的目标函数选择与执行动作相对应的收益函数,在此基础上采用基于策略梯度的强化学习算法反向更新神经网络权值,建立基于强化学习-BP神经网络算法的决策系统;
步骤4),基于上述决策系统获取执行动作并预测车辆行驶状态,由收益函数判断车辆行驶危险度,决策多车道工况下车辆当前时刻的最优驾驶行为,以提高汽车行驶时的安全性及高效性。
作为本发明基于强化学习的无人驾驶汽车多车道行驶的决策方法进一步的优化方案,步骤1)中基于小角度假设建立车辆动力学模型和轮胎模型的具体步骤如下:
以车辆自身质心O为坐标原点,沿车辆纵轴建立x轴,垂直于x轴并过质心O作y轴,形成车辆坐标系,对车辆沿x轴,y轴和绕z轴的受力进行分析:
Figure BDA0002214820070000021
Figure BDA0002214820070000022
Figure BDA0002214820070000023
式中,
Figure BDA0002214820070000024
分别为车辆沿x、y方向上的加速度,a、b分别为车辆质心到其前、后轴的距离,m为车辆整备质量,Iz为车辆绕z轴的转动惯量,Fxf、Fxr为前、后轮胎受到的基于车身坐标系x方向上的力,Fyf、Fyr为前、后轮胎受到的基于车身坐标系y方向上的力;为车辆横摆角速度;
对动力学模型进行简化,减少计算时间,在计算轮胎力时,采用小角速度假设:
Figure BDA0002214820070000026
式中,δf表示前轮偏角;
基于较小的前轮偏角和将轮胎模型线性化处理后的车辆动力学模型如下:
式中:Ccf、Ccr表示前、后轮胎侧偏刚度;Clf、Clr表示前、后轮胎纵向刚度;sf、sr表示前、后轮胎的纵向滑移率;
轮胎模型如下:
Figure BDA0002214820070000031
式中:系数B、C、D由轮胎的垂直载荷和外倾角决定,B为刚度因子;C为形状因子;D为峰值因子;Y()为输出变量代表轮胎所受的各方向力及力矩;x为输入变量,表示轮胎的侧偏角或纵向滑移率;Fz为轮胎所受垂直载荷,γ为轮胎外倾角,E为曲率因子,Sv为垂直偏移,Sh为水平偏移,a1~a15为预先由轮胎实验数据拟合得到的参数值。
作为本发明基于强化学习的无人驾驶汽车多车道行驶的决策方法进一步的优化方案,所述步骤3)中建立基于强化学习-BP神经网络算法的决策系统的具体步骤如下:
步骤3.1),建立BP神经网络的前向传播结构,初始化神经网络各层神经元之间的权值、阈值以及学习速率、迭代次数,设置强化学习算法的训练工况及障碍车参数;
步骤3.2),计算自车与自车周围车辆的车头时距信息作为BP神经网络的输入值,通过BP神经网络的前向传播得到输出动作,选取概率最大的动作作为决策动作;
步骤3.3),建立强化学习算法的收益函数R(τ),调用收益函数得到决策动作所对应的收益值;
步骤3.4),执行决策动作ut得到新的目标车状态st+1后重新执行步骤3.2)、步骤3.3)得到新的决策动作ut+1及所对应的收益值R;
步骤3.5),设定探索学习N次记为一条轨迹τ,将一条轨迹内每次决策动作的概率代入轨迹似然概率式中得轨迹τ在每一次的探索学习中可能出现的概率P(τ;θ),累加每次决策动作获得的收益值得到R(τ);
步骤3.6),将P(τ;θ)、R(τ)代入基于策略梯度的强化学习算法公式中得到策略梯度,再更新目标参数,这里的θ代表神经网络中输入层到隐含层的权值w;
步骤3.7),重复步骤3.2)至步骤3.6)N次以获取稳定且最优的权值,调用得到的最优权值对BP神经网络进行训练并利用NGSIM数据集中得到的样本集检验决策的准确性。
作为本发明基于强化学习的无人驾驶汽车多车道行驶的决策方法进一步的优化方案,N取500。
作为本发明基于强化学习的无人驾驶汽车多车道行驶的决策方法进一步的优化方案,所述步骤3.1)中的训练工况为高速三车道,障碍车参数包括所在车道编号、相对坐标原点位置、自车速度、加速度。
作为本发明基于强化学习的无人驾驶汽车多车道行驶的决策方法进一步的优化方案,所述步骤3.2)中的BP神经网络参数设定为输入层神经元个数5个,对应周围障碍车的车头时距;隐含层神经元个数13个;输出层神经元个数3个,分别为:直行、左转、右转。
作为本发明基于强化学习的无人驾驶汽车多车道行驶的决策方法进一步的优化方案,所述步骤3.3)中强化学习算法收益函数R(τ)的收益值设置如下:
当车头时距小于1.75时车辆处于危险环境中,收益值设为负且随危险度增高而增大;车头时距在1.9-2.1之间时车辆处于相对安全环境,收益值设为正且最大;车头时距大于10时虽然车辆处于绝对安全状态但对于行驶的高效性是不利的,收益值设定为负。
作为本发明基于强化学习的无人驾驶汽车多车道行驶的决策方法进一步的优化方案,所述步骤3.5)中轨迹似然概率公式如下:
Figure BDA0002214820070000041
式中,P(τ(i);θ)为轨迹的似然概率,表示在给定参数θ的情况下轨迹τ(i)出现的概率;
Figure BDA0002214820070000042
为在i时刻的车辆状态;
Figure BDA0002214820070000043
为在i时刻的车辆执行的动作;πθ为当前优化策略;
Figure BDA0002214820070000044
表示动力学过程不包含需要优化的参数θ,所以通过一次对θ的求导即可消去,具体过程如下:
Figure BDA0002214820070000045
Figure BDA0002214820070000046
是一个符号,表示对U(θ)求导。
作为本发明基于强化学习的无人驾驶汽车多车道行驶的决策方法进一步的优化方案,所述步骤3.6)中基于策略梯度的强化学习算法公式包含:
目标函数U(θ):
Figure BDA0002214820070000047
式中,θ为目标函数的最优参数,R(st,ut)为在状态为st时采取动作ut所获得的收益值,πθ为当前状态下的策略,参数R(τ)表示每条轨迹τ的回报函数;P(τ;θ)表示每条轨迹τ在每一次的探索学习中可能出现的概率大小;
策略梯度算法参数更新方法:
Figure BDA0002214820070000051
式中,α为学习速率;
Figure BDA0002214820070000052
Figure BDA0002214820070000053
表示在一次探索学习过程中得到的轨迹τ出现的概率随着优化目标参数θ变化最陡的方向;若目标参数θ沿着该变化方向的正方向进行更新时轨迹τ出现的概率会增大;反之,若沿着负方向更新参数轨迹τ出现的概率会减小;R(τ)表示收益函数,其正负值及大小会影响轨迹τ出现的概率,R(τ)为正值时轨迹τ出现的概率P(τ;θ)随着R(τ)的增大而增大;R(τ)为负时P(τ;θ)随着R(τ)的增大而减小,也就是说收益为负值时会抑制这种可能出现的概率。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
本发明提出的基于强化学习的无人驾驶汽车多车道行驶的决策方法,适用于无人驾驶汽车自主决策出多车道工况下车辆当前时刻的最优驾驶行为,规划路径,躲避障碍;且对紧急情况有较好的学习适应能力,有助于提高汽车行驶时的安全性及高效性。
本发明提出的强化学习-BP神经网络决策算法能够充分发挥强化学习在不决定环境下学习具有的试错性,目标导向等特质,建立适当环境模型即可进行遍历学习,大大减少了样本数据且由于奖励函数的存在使决策学习具有针对性。
附图说明
图1是本发明的原理示意图;
图2是本发明的流程示意图;
图3是本发明中强化学习算法的训练工况图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
本发明可以以许多不同的形式实现,而不应当认为限于这里所述的实施例。相反,提供这些实施例以便使本公开透彻且完整,并且将向本领域技术人员充分表达本发明的范围。在附图中,为了清楚起见放大了组件。
参照图1所示,本发明的一种基于强化学习的无人驾驶汽车多车道行驶的决策方法,其包括以下步骤:
(1)建立基于小角度假设下的车辆动力学模型和轮胎模型,在动力学模型的建立过程中结合转向工况下的轮胎侧偏力和驱动制动力,轮胎侧偏角进行了单个轮胎和整车的受力分析,并针对车辆实际行驶过程中的情况对前轮偏角及横摆角建立约束条件。
(2)对NGSIM数据库中的US-101部分数据进行绘图分析,获取驾驶行为决策样本数据,为决策系统的构建奠定基础。
NGSIM数据库中所用数据包括:车辆进入检测路段先后编号、开始检测时刻为起点的时间序列编号、车头中心距路段左侧边缘距离X、车头中心距路段起点距离Y、车辆瞬时速度、车辆瞬时加速度。
(3)基于上述步骤(1)、(2),构建强化学习训练模型,搭建BP神经网络前向传播结构获取随机动作,基于强化学习算法的目标函数设计与执行动作相对应的收益函数,在此基础上采用基于策略梯度的强化学习算法反向更新神经网络权值,建立基于强化学习-BP神经网络算法的决策系统。
(4)基于上述决策系统获取执行动作并预测车辆行驶状态,由收益函数判断车辆行驶危险度,决策多车道工况下车辆当前时刻的最优驾驶行为,以提高汽车行驶时的安全性及高效性。
其中,所述步骤(1)中的基于小角度假设下的动力学模型建立方法为:以车辆自身质心O为坐标原点,沿车辆纵轴建立x轴,垂直于x轴并过质心O作y轴,xoy构成了固定于车身的车辆坐标系。对车辆沿x轴,y轴和绕z轴的受力进行分析:
Figure BDA0002214820070000061
Figure BDA0002214820070000062
Figure BDA0002214820070000063
式中,
Figure BDA0002214820070000064
分别为车辆沿x、y方向上的加速度,a、b分别为车辆质心到其前、后轴的距离,m为车辆整备质量,Iz为车辆绕z轴的转动惯量,Fxf、Fxr为前、后轮胎受到的基于车身坐标系x方向上的力,Fyf、Fyr为前,后轮胎受到的基于车身坐标系y方向上的力,
Figure BDA0002214820070000065
为车辆横摆角速度。
对动力学模型进行简化,减少计算时间,在计算轮胎力时,采用小角速度假设:
Figure BDA0002214820070000066
式中,δf表示前轮偏角。
基于较小的前轮偏角和将轮胎模型线性化处理后的车辆动力学模型:
Figure BDA0002214820070000071
式中:Ccf、Ccr表示前、后轮胎侧偏刚度;Clf、Clr表示前、后轮胎纵向刚度;sf、sr表示前、后轮胎的纵向滑移率。
轮胎模型:
Figure BDA0002214820070000072
式中:系数B,C,D由轮胎的垂直载荷和外倾角决定;B为刚度因子;C为形状因子;D为峰值因子;Y为输出变量代表轮胎所受的各方向力及力矩;x为输入变量,可表示轮胎的侧偏角或纵向滑移率;Fz为轮胎所受垂直载荷,γ为轮胎外倾角,Sv为垂直偏移,E为曲率因子,Sh为水平偏移;a1~a15为参数值,由轮胎实验数据拟合得到。
其中,所述步骤(2)中US-101数据集包含了79辆车在不同时刻的速度,车道位置以及每一时刻其周围车辆信息。根据以下公式采集目标车辆与前方车辆及左后、右后方车辆的车头时距信息:
式中,S1为前车行驶位置;S2为后车行驶位置;v为后车速度。
参考图2所示,上述步骤(3)中基于强化学习-BP神经网络算法,其包括以下步骤:
步骤3.1:首先建立BP神经网络的前向传播结构,初始化神经网络各层神经元之间的权值、阈值以及学习速率、迭代次数,设置强化学习算法的训练工况及障碍车各参数。
步骤3.2:计算目标车与障碍车之间的车头时距信息作为BP神经网络的输入值。通过BP神经网络的前向传播得到输出动作,选取概率最大的动作作为决策动作。
步骤3.3:建立强化学习算法的收益函数R(τ),调用收益函数得到决策动作所对应的收益值。
步骤3.4:执行决策动作ut得到新的目标车状态st+1,重复步骤3.2、3.3得到新的决策动作ut+1及所对应的收益值R。
步骤3.5:设定探索学习500次记为一条轨迹τ,将一条轨迹内每次决策动作的概率代入轨迹似然概率式中得轨迹τ在每一次的探索学习中可能出现的概率P(τ;θ),累加每次决策动作获得的收益值得到R(τ)。
步骤3.6:将P(τ;θ)、R(τ)代入基于策略梯度的强化学习算法公式中得到策略梯度,再更新目标参数,这里的θ代表神经网络中输入层到隐含层的权值w。
步骤3.7:重复步骤3.2~3.6,设定迭代次数为500次以获取稳定且最优的权值,调用得到的最优权值对BP神经网络进行训练并利用NGSIM数据集中得到的样本集检验决策的准确性。
其中,所述步骤3.2中的BP神经网络参数设定为输入层神经元个数5个,对应周围障碍车的车头时距;隐含层神经元个数13个;输出层神经元个数3个,分别为决策执行动作:直行,左转,右转。
其中,所述步骤3.3中强化学习算法收益函数R(τ),收益函数的设置与危险度有关,当车头时距小于1.75时车辆处于危险环境中,收益值设为负且随危险度增高而增大;车头时距在1.9-2.1之间时车辆处于相对安全环境,收益值为正且最大;车头时距大于10时虽然车辆处于绝对安全状态但对于行驶的高效性是不利的,所以收益值设定为负。
其中,所述步骤3.5中轨迹似然概率公式:
式中,P(τ(i);θ)为轨迹的似然概率,表示在给定参数θ的情况下轨迹τ(i)出现的概率;
Figure BDA0002214820070000082
为在i时刻的车辆状态;
Figure BDA0002214820070000083
为在i时刻的车辆执行的动作;πθ为当前优化策略。
Figure BDA0002214820070000084
表示动力学过程不包含需要优化的参数θ,所以通过一次对θ的求导即可消去,具体过程如下:
Figure BDA0002214820070000085
是一个符号,表示对U(θ)求导。
其中,所述步骤3.6中基于策略梯度的强化学习算法公式包含:
目标函数:
Figure BDA0002214820070000091
式中,θ为目标函数的最优参数,R(st,ut)为在状态为st时采取动作ut所获得的收益值,πθ为当前状态下的策略,参数R(τ)表示每条轨迹τ的回报函数。P(τ;θ)表示每条轨迹τ在每一次的探索学习中可能出现的概率大小。
策略梯度算法参数更新方法:
Figure BDA0002214820070000092
式中,α为学习速率。
Figure BDA0002214820070000093
Figure BDA0002214820070000094
表示在一次探索学习过程中得到的轨迹τ出现的概率随着优化目标参数θ变化最陡的方向。若目标参数θ沿着该变化方向的正方向进行更新时轨迹τ出现的概率会增大;反之,若沿着负方向更新参数轨迹τ出现的概率会减小。R(τ)表示参数更新时的方向和步长。R(τ)的正负值及大小同样影响轨迹τ出现的概率,R(τ)为正值时轨迹τ出现的概率P(τ;θ)随着R(τ)的增大而增大;R(τ)为负时P(τ;θ)随着R(τ)的增大而减小,也就是说收益为负值时会抑制这种可能出现的概率。
参考图3所示,上述步骤3.1中的训练工况为高速三车道,1号为自车,2-6号为障碍车。障碍车参数包括所在车道编号,相对坐标原点位置,速度、加速度。“一,二,三”代表车道标号;TH为目标车与障碍车之间的车头时距,作为神经网络的输入共有五个值需要实时计算。箭头为每次决策所做出的三个动作:直行、左转、右转。
本技术领域技术人员可以理解的是,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于强化学习的无人驾驶汽车多车道行驶的决策方法,其特征在于,其包括以下步骤:
步骤1),基于小角度假设建立车辆的动力学模型和轮胎模型,建立动力学模型时结合转向工况下轮胎的侧偏力、驱动制动力、以及轮胎侧偏角进行单个轮胎和整车的受力分析,并对前轮偏角及横摆角建立约束条件;
步骤2),对NGSIM数据库中US-101数据集的数据进行绘图分析,获取驾驶行为决策样本数据;
所述NGSIM数据库中US-101数据集的数据包括:车辆进入检测路段先后编号、开始检测时刻为起点的时间序列编号、车头中心距路段左侧边缘距离X、车头中心距路段起点距离Y、车辆瞬时速度、车辆瞬时加速度;
步骤3),构建强化学习训练模型、搭建BP神经网络前向传播结构并获取随机执行动作,基于强化学习算法的目标函数选择与执行动作相对应的收益函数,在此基础上采用基于策略梯度的强化学习算法反向更新神经网络权值,建立基于强化学习-BP神经网络算法的决策系统;
步骤4),基于上述决策系统获取执行动作并预测车辆行驶状态,由收益函数判断车辆行驶危险度,决策多车道工况下车辆当前时刻的最优驾驶行为,以提高汽车行驶时的安全性及高效性。
2.根据权利要求1所述的基于强化学习的无人驾驶汽车多车道行驶的决策方法,其特征在于,步骤1)中基于小角度假设建立车辆动力学模型和轮胎模型的具体步骤如下:
以车辆自身质心O为坐标原点,沿车辆纵轴建立x轴,垂直于x轴并过质心O作y轴,形成车辆坐标系,对车辆沿x轴,y轴和绕z轴的受力进行分析:
Figure FDA0002214820060000011
Figure FDA0002214820060000012
Figure FDA0002214820060000013
式中,
Figure FDA0002214820060000014
分别为车辆沿x、y方向上的加速度,a、b分别为车辆质心到其前、后轴的距离,m为车辆整备质量,Iz为车辆绕z轴的转动惯量,Fxf、Fxr为前、后轮胎受到的基于车身坐标系x方向上的力,Fyf、Fyr为前、后轮胎受到的基于车身坐标系y方向上的力;
Figure FDA0002214820060000015
为车辆横摆角速度;
对动力学模型进行简化,减少计算时间,在计算轮胎力时,采用小角速度假设:
Figure FDA0002214820060000016
式中,δf表示前轮偏角;
基于较小的前轮偏角和将轮胎模型线性化处理后的车辆动力学模型如下:
Figure FDA0002214820060000021
式中:Ccf、Ccr表示前、后轮胎侧偏刚度;Clf、Clr表示前、后轮胎纵向刚度;sf、sr表示前、后轮胎的纵向滑移率;
轮胎模型如下:
Figure FDA0002214820060000022
式中:系数B、C、D由轮胎的垂直载荷和外倾角决定,B为刚度因子;C为形状因子;D为峰值因子;Y()为输出变量代表轮胎所受的各方向力及力矩;x为输入变量,表示轮胎的侧偏角或纵向滑移率;Fz为轮胎所受垂直载荷,γ为轮胎外倾角,E为曲率因子,Sv为垂直偏移,Sh为水平偏移,a1~a15为预先由轮胎实验数据拟合得到的参数值。
3.根据权利要求2所述的基于强化学习的无人驾驶汽车多车道行驶的决策方法,其特征在于,所述步骤3)中建立基于强化学习-BP神经网络算法的决策系统的具体步骤如下:
步骤3.1),建立BP神经网络的前向传播结构,初始化神经网络各层神经元之间的权值、阈值以及学习速率、迭代次数,设置强化学习算法的训练工况及障碍车参数;
步骤3.2),计算自车与自车周围车辆的车头时距信息作为BP神经网络的输入值,通过BP神经网络的前向传播得到输出动作,选取概率最大的动作作为决策动作;
步骤3.3),建立强化学习算法的收益函数R(τ),调用收益函数得到决策动作所对应的收益值;
步骤3.4),执行决策动作ut得到新的目标车状态st+1后重新执行步骤3.2)、步骤3.3)得到新的决策动作ut+1及所对应的收益值R;
步骤3.5),设定探索学习N次记为一条轨迹τ,将一条轨迹内每次决策动作的概率代入轨迹似然概率式中得轨迹τ在每一次的探索学习中可能出现的概率P(τ;θ),累加每次决策动作获得的收益值得到R(τ);
步骤3.6),将P(τ;θ)、R(τ)代入基于策略梯度的强化学习算法公式中得到策略梯度,再更新目标参数,这里的θ代表神经网络中输入层到隐含层的权值w;
步骤3.7),重复步骤3.2)至步骤3.6)N次以获取稳定且最优的权值,调用得到的最优权值对BP神经网络进行训练并利用NGSIM数据集中得到的样本集检验决策的准确性。
4.根据权利要求3所述的基于强化学习的无人驾驶汽车多车道行驶的决策方法,其特征在于,N取500。
5.根据权利要求3所述的基于强化学习的无人驾驶汽车多车道行驶的决策方法,其特征在于,所述步骤3.1)中的训练工况为高速三车道,障碍车参数包括所在车道编号、相对坐标原点位置、自车速度、加速度。
6.根据权利要求3所述的基于强化学习的无人驾驶汽车多车道行驶的决策方法,其特征在于,所述步骤3.2)中的BP神经网络参数设定为输入层神经元个数5个,对应周围障碍车的车头时距;隐含层神经元个数13个;输出层神经元个数3个,分别为:直行、左转、右转。
7.根据权利要求3所述的基于强化学习的无人驾驶汽车多车道行驶的决策方法,其特征在于,所述步骤3.3)中强化学习算法收益函数R(τ)的收益值设置如下:
当车头时距小于1.75时车辆处于危险环境中,收益值设为负且随危险度增高而增大;车头时距在1.9-2.1之间时车辆处于相对安全环境,收益值设为正且最大;车头时距大于10时虽然车辆处于绝对安全状态但对于行驶的高效性是不利的,收益值设定为负。
8.根据权利要求3所述的基于强化学习的无人驾驶汽车多车道行驶的决策方法,其特征在于,所述步骤3.5)中轨迹似然概率公式如下:
Figure FDA0002214820060000031
式中,P(τ(i);θ)为轨迹的似然概率,表示在给定参数θ的情况下轨迹τ(i)出现的概率;
Figure FDA0002214820060000032
为在i时刻的车辆状态;
Figure FDA0002214820060000033
为在i时刻的车辆执行的动作;πθ为当前优化策略;
表示动力学过程不包含需要优化的参数θ,所以通过一次对θ的求导即可消去,具体过程如下:
Figure FDA0002214820060000035
Figure FDA0002214820060000041
是一个符号,表示对U(θ)求导。
9.根据权利要求8所述的基于强化学习的无人驾驶汽车多车道行驶的决策方法,其特征在于,所述步骤3.6)中基于策略梯度的强化学习算法公式包含:
目标函数U(θ):
Figure FDA0002214820060000042
式中,θ为目标函数的最优参数,R(st,ut)为在状态为st时采取动作ut所获得的收益值,πθ为当前状态下的策略,参数R(τ)表示每条轨迹τ的回报函数;P(τ;θ)表示每条轨迹τ在每一次的探索学习中可能出现的概率大小;
策略梯度算法参数更新方法:
θ=θ+α▽θU(θ)
式中,α为学习速率;
Figure FDA0002214820060000043
Figure FDA0002214820060000044
表示在一次探索学习过程中得到的轨迹τ出现的概率随着优化目标参数θ变化最陡的方向;若目标参数θ沿着该变化方向的正方向进行更新时轨迹τ出现的概率会增大;反之,若沿着负方向更新参数轨迹τ出现的概率会减小;R(τ)表示收益函数,其正负值及大小会影响轨迹τ出现的概率,R(τ)为正值时轨迹τ出现的概率P(τ;θ)随着R(τ)的增大而增大;R(τ)为负时P(τ;θ)随着R(τ)的增大而减小,也就是说收益为负值时会抑制这种可能出现的概率。
CN201910911284.2A 2019-09-25 2019-09-25 基于强化学习的无人驾驶汽车多车道行驶的决策方法 Pending CN110716562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910911284.2A CN110716562A (zh) 2019-09-25 2019-09-25 基于强化学习的无人驾驶汽车多车道行驶的决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910911284.2A CN110716562A (zh) 2019-09-25 2019-09-25 基于强化学习的无人驾驶汽车多车道行驶的决策方法

Publications (1)

Publication Number Publication Date
CN110716562A true CN110716562A (zh) 2020-01-21

Family

ID=69210810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910911284.2A Pending CN110716562A (zh) 2019-09-25 2019-09-25 基于强化学习的无人驾驶汽车多车道行驶的决策方法

Country Status (1)

Country Link
CN (1) CN110716562A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625989A (zh) * 2020-03-18 2020-09-04 北京联合大学 一种基于a3c-sru的智能车汇入车流方法及系统
CN111857054A (zh) * 2020-07-15 2020-10-30 清华大学 一种基于神经网络的数控系统运动轨迹控制方法
CN112550314A (zh) * 2020-12-16 2021-03-26 吉林大学青岛汽车研究院 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN112861269A (zh) * 2021-03-11 2021-05-28 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN113085806A (zh) * 2021-04-06 2021-07-09 南京航空航天大学 一种基于超磁致伸缩制动系统的复合再生制动控制方法
CN113581182A (zh) * 2021-09-07 2021-11-02 上海交通大学 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
CN113777918A (zh) * 2021-07-28 2021-12-10 张金宁 一种数字孪生架构的汽车智能线控底盘控制方法
CN113990085A (zh) * 2021-10-11 2022-01-28 南京航空航天大学 一种匝道汇入区域的交通疏解方法及系统
CN114013443A (zh) * 2021-11-12 2022-02-08 哈尔滨工业大学 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN114707359A (zh) * 2022-05-06 2022-07-05 重庆大学 基于值分布强化学习的自动驾驶汽车决策规划方法
CN115062539A (zh) * 2022-06-08 2022-09-16 合肥工业大学 基于强化学习转角权重分配的人车协同转向控制方法
CN115542915A (zh) * 2022-10-08 2022-12-30 中国矿业大学 一种基于近似安全动作的自动驾驶强化学习方法
CN117041916A (zh) * 2023-09-27 2023-11-10 创意信息技术股份有限公司 一种海量数据处理方法、装置、系统及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168303A (zh) * 2017-03-16 2017-09-15 中国科学院深圳先进技术研究院 一种汽车的自动驾驶方法及装置
CN107839683A (zh) * 2017-11-07 2018-03-27 长春工业大学 一种考虑运动障碍物的汽车紧急避撞控制方法
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN109709956A (zh) * 2018-12-26 2019-05-03 同济大学 一种自动驾驶车辆速度控制多目标优化的跟驰算法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN109948781A (zh) * 2019-03-21 2019-06-28 中国人民解放军国防科技大学 用于自动驾驶车辆的连续动作在线学习控制方法及系统
US20200346666A1 (en) * 2017-10-31 2020-11-05 Nissan North America, Inc. Reinforcement and Model Learning for Vehicle Operation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168303A (zh) * 2017-03-16 2017-09-15 中国科学院深圳先进技术研究院 一种汽车的自动驾驶方法及装置
US20200346666A1 (en) * 2017-10-31 2020-11-05 Nissan North America, Inc. Reinforcement and Model Learning for Vehicle Operation
CN107839683A (zh) * 2017-11-07 2018-03-27 长春工业大学 一种考虑运动障碍物的汽车紧急避撞控制方法
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN109709956A (zh) * 2018-12-26 2019-05-03 同济大学 一种自动驾驶车辆速度控制多目标优化的跟驰算法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN109948781A (zh) * 2019-03-21 2019-06-28 中国人民解放军国防科技大学 用于自动驾驶车辆的连续动作在线学习控制方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHANGXI YOU: "Advanced planning for autonomous vehicles using reinforcement learning and deep inverse reinforcement learning", 《ROBOTICS AND AUTONOMOUS SYSTEMS》 *
乔良: "基于强化学习的无人驾驶匝道汇入模型", 《计算机工程》 *
张毅: "《城市交通流演化规律及应用》", 31 May 2017 *
王一径: "基于深度学习的情感智能回复生成的设计与研究", 《中国优秀硕士论文全文数据库》 *
陈银银: "面向无人驾驶的增强学习算法研究", 《中国优秀硕士论文全文数据库》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625989B (zh) * 2020-03-18 2024-02-13 北京联合大学 一种基于a3c-sru的智能车汇入车流方法及系统
CN111625989A (zh) * 2020-03-18 2020-09-04 北京联合大学 一种基于a3c-sru的智能车汇入车流方法及系统
CN111857054B (zh) * 2020-07-15 2021-10-08 清华大学 一种基于神经网络的数控系统运动轨迹控制方法
CN111857054A (zh) * 2020-07-15 2020-10-30 清华大学 一种基于神经网络的数控系统运动轨迹控制方法
CN112550314B (zh) * 2020-12-16 2022-04-19 吉林大学青岛汽车研究院 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN112550314A (zh) * 2020-12-16 2021-03-26 吉林大学青岛汽车研究院 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统
CN112861269A (zh) * 2021-03-11 2021-05-28 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN112861269B (zh) * 2021-03-11 2022-08-30 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN113085806A (zh) * 2021-04-06 2021-07-09 南京航空航天大学 一种基于超磁致伸缩制动系统的复合再生制动控制方法
CN113777918A (zh) * 2021-07-28 2021-12-10 张金宁 一种数字孪生架构的汽车智能线控底盘控制方法
CN113581182A (zh) * 2021-09-07 2021-11-02 上海交通大学 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
CN113581182B (zh) * 2021-09-07 2024-04-19 上海交通大学 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
CN113990085A (zh) * 2021-10-11 2022-01-28 南京航空航天大学 一种匝道汇入区域的交通疏解方法及系统
CN114013443A (zh) * 2021-11-12 2022-02-08 哈尔滨工业大学 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN114707359A (zh) * 2022-05-06 2022-07-05 重庆大学 基于值分布强化学习的自动驾驶汽车决策规划方法
CN115062539A (zh) * 2022-06-08 2022-09-16 合肥工业大学 基于强化学习转角权重分配的人车协同转向控制方法
CN115542915B (zh) * 2022-10-08 2023-10-31 中国矿业大学 一种基于近似安全动作的自动驾驶强化学习方法
CN115542915A (zh) * 2022-10-08 2022-12-30 中国矿业大学 一种基于近似安全动作的自动驾驶强化学习方法
CN117041916A (zh) * 2023-09-27 2023-11-10 创意信息技术股份有限公司 一种海量数据处理方法、装置、系统及存储介质
CN117041916B (zh) * 2023-09-27 2024-01-09 创意信息技术股份有限公司 一种海量数据处理方法、装置、系统及存储介质

Similar Documents

Publication Publication Date Title
CN110716562A (zh) 基于强化学习的无人驾驶汽车多车道行驶的决策方法
CN110362096B (zh) 一种基于局部最优性的无人驾驶车辆动态轨迹规划方法
CN114407931B (zh) 一种高度类人的自动驾驶营运车辆安全驾驶决策方法
CN105549597B (zh) 一种基于环境不确定性的无人车动态路径规划方法
CN114379583B (zh) 一种基于神经网络动力学模型的自动驾驶车辆轨迹跟踪系统及方法
CN114312830B (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
CN112249008B (zh) 针对复杂动态环境的无人驾驶汽车预警方法
CN110286681A (zh) 一种变曲率弯道的动态自动驾驶换道轨迹规划方法
CN112389436A (zh) 基于改进lstm神经网络的安全性自动驾驶换道轨迹规划方法
CN111930112A (zh) 一种基于mpc的智能车辆路径跟踪控制方法及系统
Qi et al. Learning-based path planning and predictive control for autonomous vehicles with low-cost positioning
CN113720346B (zh) 基于势能场和隐马尔可夫模型的车辆路径规划方法及系统
CN112578672B (zh) 基于底盘非线性的无人驾驶汽车轨迹控制系统及其轨迹控制方法
CN115257746A (zh) 一种考虑不确定性的自动驾驶汽车换道决策控制方法
Gao et al. Accurate pseudospectral optimization of nonlinear model predictive control for high-performance motion planning
CN115303289A (zh) 一种基于深度高斯车辆动力学模型、训练方法、智能汽车轨迹跟踪控制方法及终端设备
Xu et al. An actor-critic based learning method for decision-making and planning of autonomous vehicles
CN113033902B (zh) 一种基于改进深度学习的自动驾驶换道轨迹规划方法
CN115140048B (zh) 一种自动驾驶行为决策与轨迹规划模型与方法
CN116540737A (zh) 一种静态避障场景下考虑驾驶习惯的路径规划与控制方法
CN114839992A (zh) 一种基于多智能体强化学习的自动驾驶协同决策方法
CN111857112A (zh) 一种汽车局部路径规划方法及电子设备
Wang et al. A double-layered nonlinear model predictive control based control algorithm for local trajectory planning for automated trucks under uncertain road adhesion coefficient conditions
Wang et al. Stable Obstacle Avoidance Strategy for Crawler-Type Intelligent Transportation Vehicle in Non-Structural Environment Based on Attention-Learning
Yang et al. A Longitudinal/Lateral Coupled Neural Network Model Predictive Controller for Path Tracking of Self-Driving Vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200121

RJ01 Rejection of invention patent application after publication