CN115629608A - 基于深度预测网络和深度强化学习的自动驾驶车辆控制方法 - Google Patents

基于深度预测网络和深度强化学习的自动驾驶车辆控制方法 Download PDF

Info

Publication number
CN115629608A
CN115629608A CN202211316067.7A CN202211316067A CN115629608A CN 115629608 A CN115629608 A CN 115629608A CN 202211316067 A CN202211316067 A CN 202211316067A CN 115629608 A CN115629608 A CN 115629608A
Authority
CN
China
Prior art keywords
vehicle
network
speed
depth
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211316067.7A
Other languages
English (en)
Inventor
陈国浠
张亚
张辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202211316067.7A priority Critical patent/CN115629608A/zh
Publication of CN115629608A publication Critical patent/CN115629608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,首先定义上层的离散控制器对应车辆底层的控制信号;设置超参数,搭建基于编码器‑解码器框架的深度预测网络和双深度Q网络;再对受控车辆进行深度强化学习训练,设计奖励函数,迭代更新网络的权重,直到受控车辆获得的奖励值达到预设水平或训练轮数到达预设值;对收集到的历史数据进行预处理,根据时延情况确定数据和标签,将受控车辆前方车辆的特征数据转化为图数据为深度预测网络提供训练集和验证集,在训练集上进行训练,直到在验证集上的损失函数值不再下降;最后将训练好的深度预测网络和双深度Q网络部署到受控车辆中,实现车辆的自动驾驶控制。

Description

基于深度预测网络和深度强化学习的自动驾驶车辆控制方法
技术领域
本发明属于智能交通控制技术领域,主要涉及了一种基于深度预测网络和深度强化学习的自动驾驶车辆控制方法。
背景技术
自动驾驶根据自动化程度被分为五个等级,近年来,自动驾驶领域取得了一定的进展,但离第五级的全自动驾驶仍有一定的差距。目前,自动驾驶的研究仍以分场景为主,针对不同的场景会有不同的算法设计,其中,高速公路上的跟车、变道和超车是一个重要的研究场景。
在高速公路上行驶的车辆需要兼顾安全和效率,目前,已经由研究将深度强化学习技术运用到自动驾驶车辆的控制中。但是,作为深度强化学习的核心问题,奖励值如何设置成为了该研究的主要问题之一,过多的鼓励加速会训练出激进的车辆,它会为了得到更高的速度奖励而忽视碰撞的风险,而过多的惩罚碰撞会让车辆保守,不愿意提高速度,车辆的通行效率较低。同时,考虑到自动驾驶问题的特殊性,建立从上层的决策动作到底层的物理控制也是限制深度强化学习在自动驾驶中的应用的主要因素。
在自动驾驶的场景中,车辆对周围环境的感知来源于自身的传感器以及与周围车辆的交互,因此,数据传输的时延是一个客观存在的,不可忽视的问题。由于在高速公路上车辆的速度一般较快,因此时延的影响也较大,如果不对时延进行补偿,那么深度强化学习算法针对滞后的状态信号做出的决策可能也是滞后的,这降低了算法的安全性和可靠性。对受控车辆前方车辆的轨迹进行预测来补偿时延是一种直观的解决方案,这种方案最大的问题在于,车辆的轨迹不仅与自身的历史轨迹有关,还与周围车辆的轨迹有关,相同的历史轨迹可能由于不同的周围环境而出现不同的未来轨迹,如何刻画周围环境的交互给车辆轨迹预测带来的影响也就该方案的重要研究难点之一。
发明内容
本发明正是针对现有技术中存在的问题,提供一种基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,首先定义上层的离散控制器对应车辆底层的控制信号;设置超参数,搭建基于编码器-解码器框架的深度预测网络和双深度Q网络,对各个网络权重进行初始化;再对受控车辆进行深度强化学习训练,设计奖励函数,迭代更新网络的权重,直到受控车辆在一轮驾驶行为中获得的奖励值达到预设水平或训练轮数到达预设值;对收集到的历史数据进行预处理,根据时延情况确定数据和标签,将受控车辆前方车辆的特征数据转化为图数据为深度预测网络提供训练集和验证集,在训练集上进行训练,直到在验证集上的损失函数值不再下降;最后将训练好的深度预测网络和双深度Q网络部署到受控车辆中,通过深度预测网络对受控车辆前方车辆的位置和速度进行预测,将预测信息连同受控车辆的速度和位置信息展开成列向量,作为双深度Q网络的输入,得到当前时刻动作价值最高的动作,再将这个上层的离散动作通过参考值和比例控制器映射成底层的物理控制信号,实现车辆的自动驾驶控制。为了实现上述目的,本发明采取的技术方案是:基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,包括以下步骤:
S1:定义上层的离散控制器对应车辆底层的控制信号,所述上层的离散控制器至少包括左变道、保持、右变道、加速、减速五个动作指令,将上层的离散动作映射成底层的物理控制信号,底层的物理控制信号由比例控制器得到;
S2:设置超参数,搭建基于编码器-解码器框架的深度预测网络和双深度Q网络,对各个网络的权重进行初始化;
S3:对受控车辆进行深度强化学习训练,设计奖励函数,受控车辆与环境交互,得到奖励值,迭代更新网络的权重,直到受控车辆在一轮驾驶行为中获得的奖励值达到预设水平或训练轮数到达预设值,终止训练;
S4:对收集到的历史数据进行预处理,根据时延情况确定数据和标签,将受控车辆前方车辆的特征数据转化为图数据为深度预测网络提供训练集和验证集,在训练集上进行训练,直到在验证集上的损失函数值不再下降,终止训练;
S5:将训练好的深度预测网络和双深度Q网络部署到受控车辆中,通过深度预测网络对受控车辆前方车辆的位置和速度进行预测,将预测信息连同受控车辆的速度和位置信息展开成列向量,作为双深度Q网络的输入,得到当前时刻动作价值最高的动作,再将这个上层的离散动作通过参考值和比例控制器映射成底层的物理控制信号,实现车辆的自动驾驶控制。
作为本发明的一种改进,所述步骤S1中,定义车辆的运动学模型为:
Figure BDA0003909359780000031
Figure BDA0003909359780000032
Figure BDA0003909359780000033
Figure BDA0003909359780000034
β=tan-1(1/2tanδ),
其中,(x,y)是车辆在Frenet坐标系下的坐标;v是车辆的前进速度;ψ是航向角;β是重心处的滑移角;a是加速度命令;δ是前轮转向命令;
a和δ由比例控制器得到,加速度控制量a的具体表达式为:
a=Kp(vr-v),
其中,vr是期望速度;v是当前速度;
当指令为加速时,给定速度参考值vr大于当前的速度值,Kp是控制器增益;
前轮转向命令δ的具体表达式为:
Figure BDA0003909359780000035
Figure BDA0003909359780000036
ψr=ψL+Δψr,
Figure BDA0003909359780000037
vlat,r=-Kp,latΔlat,
其中,ψL是车道朝向;vlat,r是横向速度指令;Δψr是受控车辆对应所需的航向变化;Kp,lat和Kp,ψ是控制器增益;;由上层的强化学习控制器的动作映射得到,
当指令为变道时,车道中心线的横向位置Δlat会对应指令要求进行改变;
所述期望速度vr和车辆相对于车道中心线的横向位置Δlat均由上层的强化学习控制器的动作映射得到。
作为本发明的一种改进,所述步骤S2中,搭建的编码器-解码器框架的深度预测网络中,编码器由卷积长短期记忆网络convlstm模块堆叠形成,编码器的输入是受控车辆前方所有待预测车辆的历史轨迹;解码器由通道注意力机制和全连接层组成;双深度Q网络中,主网络和目标网络均由两层全连接层构成,它的输入是当前状态,由受控车辆及其前方最近的车辆的位置和速度组成,输出是受控车辆的上层离散化动作。
作为本发明的另一种改进,所述步骤S2中,假设受控车辆前方所有待预测车辆的数目为m,m是深度强化学习需要调整的超参数,收集前方车辆的位置和速度信息,即收集
Figure BDA0003909359780000041
作为前方第i辆车的观测信息,其中
Figure BDA0003909359780000042
Figure BDA0003909359780000043
表示前方第i辆车在t时刻的纵向坐标和横向坐标,
Figure BDA0003909359780000044
Figure BDA0003909359780000045
分别表示前方第i辆车在t时刻的纵向速度和横向速度。
作为本发明的另一种改进,所述步骤S3中采用双深度Q网络进行深度强化学习的训练,设置奖励函数为:
Figure BDA0003909359780000046
其中,k是速度系数;vmax和vmin分别是受控车辆速度的最大值和最小值;
Figure BDA0003909359780000047
代表了归一化的切向速度,以此作为对于受控车辆沿车道保持高速行驶的奖励。
作为本发明的又一种改进,所述步骤S4中,将前方车辆的道路信息转化为C×H×W的图数据,其中,H是图数据的高,代表了车道数;W是图数据的长,由把车道按l米一格进行离散化得到
Figure BDA0003909359780000048
l是前方其他车辆的平均速度,L是在观测序列和预测过程中前方车辆距离受控车辆的最远可能距离;
如果观测周期为δ秒,用于预测的历史观测序列长度为s,时延为d秒,则L=X+(δs+d)*vm,X是受控车辆视野的最大距离,vm是前方其他车辆的最大速度;C是特征长度;如果在该离散化格子中没有车辆,则数值上全为0,如果存在车辆,则由
Figure BDA0003909359780000051
的归一化向量表示,其中Ly表示车道宽度,
Figure BDA0003909359780000052
是第i辆车t时刻在该网格中的相对位置,
Figure BDA0003909359780000053
Figure BDA0003909359780000054
分别是车辆横向速度和纵向速度的最大值,
Figure BDA0003909359780000055
是第i辆车t时刻的相对速度值。
作为本发明的又一种改进,所述步骤S4中的损失函数为加权均方误差函数,具体表达式为:
Figure BDA0003909359780000056
其中,
Figure BDA0003909359780000057
是以图数据描述的前方车辆轨迹的预测值,即深度预测网络以Xi为输入的输出值,Q∈W×W是权重矩阵,b是批训练量的大小。
作为本发明的更进一步改进,所述步骤S5深度预测网络中,受控车辆的图数据中,纵向运动相对速度的特征量
Figure BDA0003909359780000058
的预测值
Figure BDA0003909359780000059
大于0.4的网格被认为存在车辆,并根据其相对位置和相对速度特征,转化为一般的位置和速度信息;用
Figure BDA00039093597800000510
表示根据深度预测网络得到的第i辆车t时刻相对位置的预测值,则第i辆车t时刻位置的预测值为
Figure BDA00039093597800000511
Figure BDA00039093597800000512
表示根据深度预测网络得到的第i辆车t时刻相对速度的预测值,则第i辆车t时刻速度的预测值为
Figure BDA00039093597800000513
与现有技术相比,本发明具有的有益效果:
(1)本发明将历史车辆的轨迹转化为图数据,可以表征车辆之间的交互对车辆轨迹预测的影响,同时,预测网络的输出是前方所有待预测车辆的轨迹,减少了整体模型参数,节省了训练和计算成本,与单独的为每辆车配备预测网络相比,降低了计算成本,提高了车辆横向运动的预测精度。
(2)本发明在编码器-解码器框架的预测网络中引入了通道注意力机制,增强了模型对轨迹预测中影响较大的特征的关注,提高了预测精度。
(3)本发明采用深度强化学习算法作为车辆的控制器,采用了深度预测网络得到了当前时刻状态的预测值,补偿了时延,降低了时延带来的不利影响。
附图说明
图1是本发明基于深度预测网络和深度强化学习的自动驾驶车辆控制方法的步骤流程图;
图2是本发明基于深度预测网络和深度强化学习的自动驾驶车辆控制方法的算法结构框图;
图3是单独为每辆车配备长短期记忆网络时车辆横向运动的训练曲线图;
图4是本发明实施例2中提出的深度预测网络有无通道注意力机制的训练曲线对比图;
图5是本发明提出的用深度预测网络补偿时延之后受控车辆的表现示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实施例1
基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,如图1所示,包括以下步骤:
步骤S1:定义上层的离散控制器对应车辆底层的控制信号;
定义上层的离散控制器对应车辆底层的控制信号,上层深度强化学习离散控制器定义了左变道、保持、右变道、加速、减速等五个动作指令,这五个指令分别映射到底层控制器,体现为参考值,首先考虑车辆的运动学模型为:
·x=v cos(ψ+β), (1)
Figure BDA0003909359780000071
Figure BDA0003909359780000072
Figure BDA0003909359780000073
β=tan-1(1/2tanδ), (5)
其中,(x,y)是车辆在Frenet坐标系下的坐标,v是车辆的前进速度,ψ是航向角,β是重心处的滑移角,a是加速度命令,δ是前轮转向命令,a和δ由比例控制器得到,加速度控制量a的具体表达式为:
a=Kp(vr-v), (6)
其中,vr是期望速度,由上层的强化学习控制器的动作映射得到,v是当前速度,当指令为加速时,给定速度参考值vr大于当前的速度值,Kp是控制器增益;
前轮转向命令δ的具体表达式为:
Figure BDA0003909359780000074
Figure BDA0003909359780000075
ψr=ψL+Δψr, (9)
Figure BDA0003909359780000076
vlat,r=-Kp,latΔlat, (11)
其中,ψ是当前受控车辆的航向,ψL是车道朝向,vlat,r是横向速度指令,Δψr是受控车辆对应所需的航向变化,Kp,lat和Kp,ψ是控制器增益,需要根据实际情况调参得到,Δlat是车辆相对于车道中心线的横向位置,由上层的强化学习控制器的动作映射得到,当指令为变道时,车道中心线的横向位置Δlat会对应指令要求进行改变。
S2:设置超参数,搭建基于编码器-解码器框架的深度预测网络和双深度Q网络,采用He初始化方法对各个网络的权重进行初始化;
如图2所示,搭建编码器-解码器框架的深度预测网络,编码器部分由卷积长短期记忆网络convlstm模块堆叠形成,编码器的输入是受控车辆前方所有待预测车辆的历史轨迹,convlstm模块能够有效提取车辆之间的交互,作为车辆的空间信息参与对车辆未来轨迹的预测;
解码器由通道注意力机制和全连接层组成,引入通道注意力机制为不同通道的特征赋予注意力权重,使解码器将注意力集中到更重要的通道特征中,再通过全连接层聚合特征,得到对受控车辆前方所有车辆当前位置的预测值;
搭建双深度Q网络,主网络和目标网络均由两层全连接层构成,它的输入是当前状态,由受控车辆及其前方最近的m辆车的位置和速度组成,即St=(Se,Si),
Figure BDA0003909359780000081
表示受控车辆的位置和速度信息,其中
Figure BDA0003909359780000082
Figure BDA0003909359780000083
表示受控车辆在t时刻的纵向坐标和横向坐标,
Figure BDA0003909359780000084
Figure BDA0003909359780000085
分别表示受控车辆在t时刻的纵向速度和横向速度;
Figure BDA0003909359780000086
表示受控车辆前方最近的m辆车的位置和速度信息,其中
Figure BDA0003909359780000087
Figure BDA0003909359780000088
表示前方第i辆车在t时刻的纵向坐标和横向坐标,
Figure BDA0003909359780000089
Figure BDA00039093597800000810
分别表示前方第i辆车在t时刻的纵向速度和横向速度,如果视野范围内不足m辆车,则用零补充。输出是受控车辆的上层离散化动作。
S3:对受控车辆进行深度强化学习训练,设计奖励函数,受控车辆与环境交互,得到奖励值,迭代更新网络的权重,直到受控车辆在一轮驾驶行为中获得的奖励值达到预设水平或训练轮数到达预设值,终止训练;
采用双深度Q网络进行深度强化学习的训练,设置奖励函数为:
Figure BDA00039093597800000811
其中,k是速度系数,k越大说明越鼓励受控车辆保持高速行驶,vmax和vmin分别是受控车辆速度的最大值和最小值,因此
Figure BDA00039093597800000812
代表了归一化的切向速度,以此作为对于受控车辆沿车道保持高速行驶的奖励。
S4:对收集到的历史数据进行预处理,根据时延情况确定数据和标签,将受控车辆前方车辆的特征数据转化为图数据为深度预测网络提供训练集和验证集,在训练集上进行训练,直到在验证集上的损失函数值不再下降,终止训练;
采用基于图数据的深度预测网络来补偿时延的影响,深度预测网络采用convlstm作为特征提取器,因此要把输入数据转化为图数据,然后才能进行训练,具体包括以下两个步骤:
步骤4.1:收集前方车辆的位置和速度信息作为观测数据,即收集
Figure BDA0003909359780000091
作为前方第i辆车的观测信息;收集受控车辆前方m辆最靠近的车的观测数据,m是深度强化学习需要调整的超参数;
首先将受控车辆前方一定范围内的道路信息转化为C×H×W的图数据,其中,H是图数据的高,它代表了车道数;W是图数据的长,由把车道按l米一格进行离散化得到
Figure BDA0003909359780000092
l是前方其他车辆的平均速度,L是在观测序列和预测过程中前方车辆距离受控车辆的最远可能距离,它与时延大小、观测周期和观测序列长度均有关,如果观测周期为δ秒,用于预测的历史观测序列长度为s,时延为d秒,则L=X+(δs+d)*vm,X是受控车辆视野的最大距离,vm是前方其他车辆的最大速度;C是特征长度,考虑到使用了车辆的位置和速度信息,因此C=4;如果在该离散化格子中没有车辆,则数值上全为0,如果存在车辆,则由
Figure BDA0003909359780000093
的归一化向量表示,其中Ly表示车道宽度,因此
Figure BDA0003909359780000094
是第i辆车t时刻在该网格中的相对位置,
Figure BDA0003909359780000095
Figure BDA0003909359780000096
分别是车辆横向速度和纵向速度的最大值,因此
Figure BDA0003909359780000097
是第i辆车t时刻的相对速度值;
步骤4.2:将历史记录数据全部转化为图数据之后,根据历史观测序列长度为s和时延时间d制备网络的输入数据Xi和输出标签Yi,并按照7:3切分训练集和验证集,选择损失函数为加权均方误差函数,具体表达式为:
Figure BDA0003909359780000098
其中,
Figure BDA0003909359780000099
是以图数据描述的前方车辆轨迹的预测值,即深度预测网络以Xi为输入的输出值,Q∈W×W是权重矩阵,b是批训练量的大小
S5:将训练好的深度预测网络和双深度Q网络部署到受控车辆中,通过深度预测网络对受控车辆前方车辆的位置和速度进行预测,将预测信息连同受控车辆的速度和位置信息展开成列向量,作为双深度Q网络的输入,得到当前时刻动作价值最高的动作,再将这个上层的离散动作通过参考值和比例控制器映射成底层的物理控制信号,实现车辆的自动驾驶控制。
将训练好的深度预测网络和双深度Q网络部署到受控车辆中,由于存在时延,因此受控车辆无法得到前方其他车辆当前时刻的位置和速度信息,需要用深度预测网络对当前时刻前方车辆的位置和速度信息进行预测:
首先,将采集到的最靠近受控车辆的前方m辆车的最新的s个观测值转化为图数据输入到训练好的深度预测网络中,得到同样用图数据描述的,前方m辆车当前位置和速度的预测值;在图数据中,纵向运动相对速度的特征量
Figure BDA0003909359780000101
的预测值
Figure BDA0003909359780000102
大于0.4的网格被认为存在车辆,并根据其相对位置和相对速度特征,转化为一般的位置和速度信息;用
Figure BDA0003909359780000103
表示根据深度预测网络得到的第i辆车t时刻相对位置的预测值,则第i辆车t时刻位置的预测值为
Figure BDA0003909359780000104
Figure BDA0003909359780000105
Figure BDA0003909359780000106
表示根据深度预测网络得到的第i辆车t时刻相对速度的预测值,则第i辆车t时刻速度的预测值为
Figure BDA0003909359780000107
将还原得到的预测信息连同受控车辆的速度和位置信息展开成列向量,作为深度Q网络的输入,得到当前时刻动作价值最高的动作,再将这个上层的离散动作通过参考值和比例控制器映射成底层的物理控制信号,受控车辆能够在存在时延的情况下完成正常的变道和超车等动作,完成自动驾驶的控制。
实施例2
本实施例采用highway_env环境中,高速公路的跟车、变道和超车场景进行仿真验证。假设车辆的观测和控制频率均为1赫兹,车辆对自我状态的观测是实时的,但是对前方车辆的观测依赖交互,存在1秒的时延。前方其他车辆的平均速度是20m/s,最大速度是23m/s,受控车辆的视野是前方180米
本发明的目标是根据前方车辆的历史轨迹预测前方其他车辆1秒之后的位置和速度,补偿时延带来的影响,并将前方其他车辆位置和速度的预测值连同受控车辆实时的位置和速度信息作为深度强化学习的输入状态,用深度Q网络计算得到当前状态下最优的上层离散动作,将这个动作映射成底层的物理控制信号,实现受控车辆的变道和超车。
步骤S1:定义上层的离散控制器对应车辆底层的控制信号
根据式(1)-(11),将上层的离散动作映射成底层的物理控制信号,上层的离散控制动作给出了目标值,而底层的物理控制信号由比例控制器得到,控制器参数设置如下:Kp=1.87,Kp,lat=1.67和Kp,ψ=5。
考虑到要完成超车等一系列动作,因此受控车辆的最大速度设定为30m/s,最低速度为20m/s,速度的设定值在此区间内分为三档,当离散化动作给出加速的指令时,速度的设定值提升一档,直到最大值,当给出减速的指令时,速度的设定为降低一档,直到最小值。
步骤S2:超参数设置及数据初始化
考虑观测频率为1赫兹,时延为1秒,选择预测的历史序列长度为s=5,因此需要构造的图数据的宽度为
Figure BDA0003909359780000111
设置场景为4车道,因此图数据的高为4。
对深度预测网络的超参数进行设置,编码器的输入数据格式为batch×5×4×4×16,共包含2层convlstm模块,通道数分别是64与128,解码器由通道注意力机制和一层全连接层组成,通道注意力机制采用全局平均池化方法,所有的激活函数均采用Relu函数,模型权重的初始值采用He初始化方法。模型的优化方法选择随机梯度下降,学习率为0.001,并基于验证集的损失函数变化情况以衰减因子为0.5进行自适应衰减,批训练量为3,训练次数为500轮,早停条件是在20轮的训练中,验证集的损失函数值都不再下降。
对双深度Q网络的超参数进行设置,动作价值网络采用两层全连接结构,神经元个数分别是128和256,激活函数采用Relu函数,折扣因子γ=0.8,学习率为0.001,目标网络更新频率为50步,总学习时间步为106,批训练量为32,缓冲区大小为15000。
最终,用highway_env环境中的高速公路情景来仿真车辆的控制情况。
所有网络的初始化权重均为均值为0,标准差为0.1的正态分布,偏置的初始化值为0.01。
步骤S3:深度强化学习训练
对受控车辆进行深度强化学习的训练,按照式(12)设置奖励值,选择速度奖励权重k=0.4,根据训练结果调整超参数m,最后确定超参数m=9。
步骤S4:对收集到的历史数据进行预处理,根据时延情况确定数据和标签,将受控车辆前方车辆的特征数据转化为图数据为深度预测网络提供训练集和验证集,在训练集上进行训练,直到在验证集上的损失函数值不再下降,终止训练。
收集历史数据,包括受控车辆及其前方m辆车的位置和速度信息,将其转化为4×4×16的图数据,作为深度预测网络的训练数据。按照式(13)设置损失函数,其中,Q是16×16的权重矩阵,选择为:
Figure BDA0003909359780000121
考虑到训练结束的标志包括达到预设的训练轮数或者触发早停条件,在训练结束之后,保持并固定深度预测网络模型,用于补偿时延的影响。图3是单独为每辆车配备长短期记忆网络时车辆横向运动的训练曲线,图4是本发明提出的深度预测网络有无通道注意力机制的训练曲线对比。图4与图3对比可以看到,单独为每辆车配备长短期记忆网络的话,横向运动的训练曲线会出现验证集的损失函数值远远大于训练集的情况,这是因为单个长短期记忆网络无法捕捉车辆之间的交互,无法表述车辆交互对车辆轨迹的影响,而这种影响主要体现在横向运动(变道)上。本发明提出的基于图数据的预测方法包含了卷积层,能够提炼空间信息,刻画车辆之间的交互对车辆轨迹的影响,因此训练集和验证集的损失函数值相近,同时,图4说明引入通道注意力机制后,验证集上的损失函数值更小,预测精度有所提高。
步骤S5:将训练好的深度预测网络和双深度Q网络部署到受控车辆中,假设其余车辆均遵循智能驾驶员模型,在highway_env环境中的高速公路场景进行仿真。受控车辆根据5个历史的观测值预测当前时刻前方车辆的速度和位置,补偿1秒时延带来的影响,将预测值与自身实时的速度和位置信息聚合,作为当前受控车辆的状态,由深度Q网络得到对应动作价值最高的上层离散动作,再将其映射成底层的物理控制信号。图5展示了受控车辆(黑色,已在图中标注)在存在1秒时延的情况下,能够判断其他车辆(白色)的实时位置,并完成变道、超车等一系列动作。
综上,本发明一种基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,考虑到在实际应用中,受控车辆对前方其他车辆的位置和速度的观测可能存在时延,为受控车辆训练深度预测网络,用历史时刻的前方车辆的轨迹估计当前时刻前方车辆的位置和速度,从而补偿时延带来的影响。本发明将受控车辆前方车辆的历史轨迹转化为图数据,从convlstm模块提取车辆与车辆之间的交互信息,刻画交互给车辆预测带来的影响,引入通道注意力机制提高车辆轨迹的预测精度,并将预测网络的输出作为控制器的输入,降低时延的不利影响。同时,将底层的车辆控制映射成上层的离散动作,用双深度Q网络对受控车辆进行控制,使车辆能够准确完成变道、超车等动作,实现自动驾驶的控制。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims (8)

1.基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,其特征在于,包括以下步骤:
S1:定义上层的离散控制器对应车辆底层的控制信号,所述上层的离散控制器至少包括左变道、保持、右变道、加速、减速五个动作指令,将上层的离散动作映射成底层的物理控制信号,底层的物理控制信号由比例控制器得到;
S2:设置超参数,搭建基于编码器-解码器框架的深度预测网络和双深度Q网络,对各个网络的权重进行初始化;
S3:对受控车辆进行深度强化学习训练,设计奖励函数,受控车辆与环境交互,得到奖励值,迭代更新网络的权重,直到受控车辆在一轮驾驶行为中获得的奖励值达到预设水平或训练轮数到达预设值,终止训练;
S4:对收集到的历史数据进行预处理,根据时延情况确定数据和标签,将受控车辆前方车辆的特征数据转化为图数据为深度预测网络提供训练集和验证集,在训练集上进行训练,直到在验证集上的损失函数值不再下降,终止训练;
S5:将训练好的深度预测网络和双深度Q网络部署到受控车辆中,通过深度预测网络对受控车辆前方车辆的位置和速度进行预测,将预测信息连同受控车辆的速度和位置信息展开成列向量,作为双深度Q网络的输入,得到当前时刻动作价值最高的动作,再将这个上层的离散动作通过参考值和比例控制器映射成底层的物理控制信号,实现车辆的自动驾驶控制。
2.如权利要求1所述的基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,其特征在于:所述步骤S1中,定义车辆的运动学模型为:
Figure FDA0003909359770000011
Figure FDA0003909359770000012
Figure FDA0003909359770000013
Figure FDA0003909359770000014
β=tan-1(1/2tanδ),
其中,(x,y)是车辆在Frenet坐标系下的坐标;v是车辆的前进速度;ψ是航向角;β是重心处的滑移角;a是加速度命令;δ是前轮转向命令;a和δ由比例控制器得到,加速度控制量a的具体表达式为:
a=Kp(vr-v),
其中,vr是期望速度;v是当前速度;
当指令为加速时,给定速度参考值vr大于当前的速度值,Kp是控制器增益;
前轮转向命令δ的具体表达式为:
Figure FDA0003909359770000021
Figure FDA0003909359770000022
ψr=ψL+Δψr,
Figure FDA0003909359770000023
vlat,r=-Kp,latΔlat,
其中,ψL是车道朝向;vlat,r是横向速度指令;Δψr是受控车辆对应所需的航向变化;Kp,lat和Kp,ψ是控制器增益;;由上层的强化学习控制器的动作映射得到,当指令为变道时,车道中心线的横向位置Δlat会对应指令要求进行改变;
所述期望速度vr和车辆相对于车道中心线的横向位置Δlat均由上层的强化学习控制器的动作映射得到。
3.如权利要求1所述的基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,其特征在于:所述步骤S2中,搭建的编码器-解码器框架的深度预测网络中,编码器由卷积长短期记忆网络convlstm模块堆叠形成,编码器的输入是受控车辆前方所有待预测车辆的历史轨迹;解码器由通道注意力机制和全连接层组成;
双深度Q网络中,主网络和目标网络均由两层全连接层构成,它的输入是当前状态,由受控车辆及其前方最近的车辆位置和速度组成,输出是受控车辆的上层离散化动作。
4.如权利要求3所述基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,其特征在于:所述步骤S2中,假设受控车辆前方所有待预测车辆的数目为m,m是深度强化学习需要调整的超参数,收集前方车辆的位置和速度信息,即收集
Figure FDA0003909359770000031
作为前方第i辆车的观测信息,其中
Figure FDA0003909359770000032
Figure FDA0003909359770000033
表示前方第i辆车在t时刻的纵向坐标和横向坐标,
Figure FDA0003909359770000034
Figure FDA0003909359770000035
分别表示前方第i辆车在t时刻的纵向速度和横向速度。
5.如权利要求1或4所述基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,其特征在于:所述步骤S3中采用双深度Q网络进行深度强化学习的训练,设置奖励函数为:
Figure FDA0003909359770000036
其中,k是速度系数;vmax和vmin分别是受控车辆速度的最大值和最小值;
Figure FDA0003909359770000037
代表了归一化的切向速度,以此作为对于受控车辆沿车道保持高速行驶的奖励。
6.如权利要求5所述基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,其特征在于:所述步骤S4中,将前方车辆的道路信息转化为C×H×W的图数据,其中,H是图数据的高,代表了车道数;W是图数据的长,由把车道按l米一格进行离散化得到
Figure FDA0003909359770000038
l是前方其他车辆的平均速度,L是在观测序列和预测过程中前方车辆距离受控车辆的最远可能距离;
如果观测周期为δ秒,用于预测的历史观测序列长度为s,时延为d秒,则L=X+(δs+d)*vm,X是受控车辆视野的最大距离,vm是前方其他车辆的最大速度;C是特征长度;如果在该离散化格子中没有车辆,则数值上全为0,如果存在车辆,则由
Figure FDA0003909359770000041
的归一化向量表示,其中Ly表示车道宽度,
Figure FDA0003909359770000042
是第i辆车t时刻在该网格中的相对位置,
Figure FDA0003909359770000043
Figure FDA0003909359770000044
分别是车辆横向速度和纵向速度的最大值,
Figure FDA0003909359770000045
是第i辆车t时刻的相对速度值。
7.如权利要求6所述基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,其特征在于:所述步骤S4中的损失函数为加权均方误差函数,具体表达式为:
Figure FDA0003909359770000046
其中,
Figure FDA0003909359770000047
是以图数据描述的前方车辆轨迹的预测值,即深度预测网络以Xi为输入的输出值,Q∈W×W是权重矩阵,b是批训练量的大小。
8.如权利要求7所述基于深度预测网络和深度强化学习的自动驾驶车辆控制方法,其特征在于:所述步骤S5深度预测网络中,受控车辆的图数据中,纵向运动相对速度的特征量
Figure FDA0003909359770000048
的预测值
Figure FDA0003909359770000049
大于0.4的网格被认为存在车辆,并根据其相对位置和相对速度特征,转化为一般的位置和速度信息;用
Figure FDA00039093597700000410
表示根据深度预测网络得到的第i辆车t时刻相对位置的预测值,则第i辆车t时刻位置的预测值为
Figure FDA00039093597700000411
Figure FDA00039093597700000412
表示根据深度预测网络得到的第i辆车t时刻相对速度的预测值,则第i辆车t时刻速度的预测值为
Figure FDA00039093597700000413
Figure FDA0003909359770000051
CN202211316067.7A 2022-10-26 2022-10-26 基于深度预测网络和深度强化学习的自动驾驶车辆控制方法 Pending CN115629608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211316067.7A CN115629608A (zh) 2022-10-26 2022-10-26 基于深度预测网络和深度强化学习的自动驾驶车辆控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211316067.7A CN115629608A (zh) 2022-10-26 2022-10-26 基于深度预测网络和深度强化学习的自动驾驶车辆控制方法

Publications (1)

Publication Number Publication Date
CN115629608A true CN115629608A (zh) 2023-01-20

Family

ID=84906030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211316067.7A Pending CN115629608A (zh) 2022-10-26 2022-10-26 基于深度预测网络和深度强化学习的自动驾驶车辆控制方法

Country Status (1)

Country Link
CN (1) CN115629608A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116976423A (zh) * 2023-06-09 2023-10-31 清华大学 融合事故后车辆动力学的事故前风险评估模型的训练方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116976423A (zh) * 2023-06-09 2023-10-31 清华大学 融合事故后车辆动力学的事故前风险评估模型的训练方法

Similar Documents

Publication Publication Date Title
CN109669461B (zh) 一种复杂工况下自动驾驶车辆决策系统及其轨迹规划方法
CN110568841A (zh) 一种自动驾驶决策方法及系统
CN112677995A (zh) 一种车辆轨迹规划方法、装置、存储介质及设备
CN110304074A (zh) 一种基于分层状态机的混合式驾驶方法
CN113255998B (zh) 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN111473794B (zh) 一种基于强化学习的结构化道路无人驾驶决策规划方法
CN112249008B (zh) 针对复杂动态环境的无人驾驶汽车预警方法
CN110843789A (zh) 一种基于时序卷积网络的车辆换道意图预测方法
US20210122340A1 (en) Real-time performance handling virtual tire sensor
CN115344052B (zh) 基于改进的群优化算法的车辆路径控制方法及控制系统
CN114543827A (zh) 一种路径规划方法及装置
US20220155732A9 (en) System and Method of Efficient, Continuous, and Safe Learning Using First Principles and Constraints
CN115629608A (zh) 基于深度预测网络和深度强化学习的自动驾驶车辆控制方法
CN111625989A (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
CN110879595A (zh) 一种基于深度强化学习的无人矿卡循迹控制系统及方法
CN114253274A (zh) 基于数据驱动的网联混合车辆编队滚动优化控制方法
CN116853273A (zh) 知识和数据融合驱动的云控式网联车辆协同巡航控制方法
CN114228690A (zh) 一种基于ddpg和迭代控制的自动驾驶车辆侧倾控制方法
CN116564095A (zh) 基于cps的重点车辆高速公路隧道预测巡航云控制方法
CN116382297A (zh) 基于深度强化学习策略的带约束的混合车辆编队控制方法
CN114802306A (zh) 一种基于人机共驾理念的智能车辆集成式决策系统
CN115188204A (zh) 一种异常天气条件下高速公路车道级可变限速控制方法
CN109064760B (zh) 一种数据驱动的智能鲁棒车速实时规划方法及系统
CN116118730A (zh) 一种预见性巡航系统的控制方法、装置、设备及介质
CN114779764B (zh) 基于行车风险分析的车辆强化学习运动规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination