CN117734715A - 基于强化学习的自动驾驶控制方法、系统、设备及存储介质 - Google Patents

基于强化学习的自动驾驶控制方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN117734715A
CN117734715A CN202311660204.3A CN202311660204A CN117734715A CN 117734715 A CN117734715 A CN 117734715A CN 202311660204 A CN202311660204 A CN 202311660204A CN 117734715 A CN117734715 A CN 117734715A
Authority
CN
China
Prior art keywords
vehicle
automatic
scene
automobile
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311660204.3A
Other languages
English (en)
Inventor
张海仙
谢敏
张懿
谌祖港
黄梁可汗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202311660204.3A priority Critical patent/CN117734715A/zh
Publication of CN117734715A publication Critical patent/CN117734715A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于强化学习的自动驾驶控制方法、系统、设备及存储介质,属于自动驾驶技术领域,目的在于解决现有技术中存在的基于强化学习的自动驾驶尚不能适用于拥塞环境且多场景复杂驾驶任务的技术问题,其包括搭建网络模型、设置奖励函数、接收感知信息,并利用奖励函数以及感知信息进行模型的训练,且在训练时采用创新的强化学习算法,将Q函数与状态价值函数V和策略函数π进行关联,通过计算得到的Q函数可直接得到状态价值函数V、策略函数π,即状态价值函数和策略函数都以状态作为输入,并使用共享参数的神经网络来同时拟合这两个函数,不会有多余的参数量,也不需要再引入额外的策略优化步骤与状态价值函数的优化步骤。

Description

基于强化学习的自动驾驶控制方法、系统、设备及存储介质
技术领域
本发明人属于自动驾驶技术领域,涉及一种多场景拥塞环境下的自动驾驶的控制,尤其涉及一种基于强化学习的自动驾驶控制方法、系统、设备及存储介质。
背景技术
在经济持续发展的大背景下,道路上的车辆不断增多,在道路交通快速发展的同时,交通拥堵问题日益严重。根据世卫组织(World Health Organization)在2018年的报告,全球每年有135万人丧生于交通事故。根据美国国家公路交通安全管理局的统计,94%的交通事故是由人类失误引起的。针对这些问题,能够将人类从驾驶任务中解脱出来的自动驾驶(Autonomous Vehicle)成为了引人关注的解决方案。广泛部署自动汽车对缓解道路拥堵、减少事故伤亡、降低能源消耗以及通过重新分配驾驶时间增加社会生产力均有很大作用。
目前,社会对自动驾驶技术的发展需求与日俱增,伴随着计算机算力增长,深度学习展现出的强大能力推动着人工智能领域快速发展,而人工智能的成果促使自动驾驶从实验室走上了公路,例如Tesla的ModelS、Google公司的Waymo、百度的Appolo Go等已经经过了多轮真实驾驶环境测试。自动驾驶在研究和市场上发展火热,然而目前的自动驾驶产品仍不够成熟,无法普及,其部分问题在于,目前的基于控制论的车辆控制方式没有稳健泛用的控制能力,难以做到普适性。
近年来,深度学习效果的不断提升推动了强化学习的进步,强化学习在与深度学习结合后,进入了飞速发展的阶段。目前强化学习结合自动驾驶的研究已经可以做到让智能汽车在模拟环境甚至真实环境中完成驾驶任务,证明了强化学习在自动驾驶控制方向的显著潜力。
申请号为CN202111400393.1的发明专利申请就公开了一种基于端到端的深度强化学习换道决策方法和装置,其先初始化深度强化学习网络,然后将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以得到训练数据,再根据所述训练数据训练深度强化学习网络,得到换道决策模型,所述换道决策模型用于建立所述图像信息与换道决策的直接连贯映射关系,最后根据自动驾驶车辆的当前环境,通过所述换道决模型进行正确安全的换道决策。该换道决策方法所采用的端到端的网络结构将输入的图像信息与换道决策输出形成直接连贯的映射,简单来说就是输入一张自动驾驶车辆前方相机采集的图片到深度强化学习网络中,深度强化学习网络直接输出左换道或右换道或保持车道的决策;通过端到端的设计,使得视觉输入与决策输出实现了直接映射,有效防止了模块之间的误差传递与积累,使得自动驾驶车辆可根据图像特征与换道决策形成映射关系,且由于网络中增加了注意力机制,网络的收敛速度得到提升。
申请号为CN202111510148.6的发明专利申请就公开了一种基于条件模仿学习和强化学习的自动驾驶方法,其先收集行车数据,并标注出对应的决策动作作为专家决策;再根据所述行车数据,计算得到航向角,并得到特征向量和特征图;然后基于所述特征向量、特征图、航向角和专家决策,构建训练数据集,并用所述训练数据集来训练模型;最后将训练好的模型应用到车辆中,实现车辆的自动驾驶决策。其通过结合CIL和RL的方式,减轻模型对训练数据集的依赖,同时解决了由于随机初始化导致的强化学习探索效率低下的问题;通过收集实车数据并将其应用在模型的训练中,使训练得到的模型更加贴近真实的驾驶场景;还加入精确航向角作为控制量后,使得CIL-RL模型不再单纯依赖于感知模块,CIL-RL比其他方法更具有泛化性能。
与上述专利申请一致,现有的强化学习结合自动驾驶研究对强化学习智能体的泛化性和车辆交互关注还不足,大多方法会在与训练环境相同或是相近的开阔环境下对自动驾驶智能体进行测试,但不会在完全未接触过的拥塞环境中应用,其真实的泛化能力和稳健性能难以保证,无法证明智能体是在某类驾驶环境中过拟合,还是学会了通用的驾驶技能。
发明内容
本发明的目的在于:为了解决现有技术中存在的基于强化学习的自动驾驶尚不能适用于拥塞环境且多场景复杂驾驶任务的技术问题,本发明提供一种基于强化学习的自动驾驶控制方法、系统、设备及存储介质,探索将强化学习算法应用到多场景的复杂驾驶任务中,实现能够在拥塞环境且多种常见道路场景泛用的车辆控制智能体,并用仿真实验证明其能够在从未接触过的多场景复合的拥塞环境中完成指定的驾驶任务,确认智能体真正学会了通用的驾驶技能。
本发明为了实现上述目的具体采用以下技术方案:
一种基于强化学习的自动驾驶控制方法,包括如下步骤:
步骤S1,在智能体内搭建深度神经网络模型;
步骤S2,对智能体设置奖励函数;
步骤S3,智能体接收由感知系统获取并传递来的感知信息;
步骤S4,利用步骤S2的奖励函数、步骤S3的感知信息,对步骤S1的深度神经网络模型进行训练;
步骤S5,智能体接收由感知系统实时获取的感知信息,并将感知信息输入至深度神经网络模型,智能体输出控制动作;
在步骤S4进行训练时,包括独立场景的训练和混合场景的训练,独立场景包括交叉路口场景、匝道场景、环道场景或急弯场景,混合场景包括交叉路口场景、匝道场景、环道场景以及急弯场景中的两种或多种场景的组合;
训练时,采用的Q函数为:
Q函数进行训练时的损失函数为:
其中,st表示状态,α表示温度系数,at表示动作,π(at|st)表示在状态st采取动作at的概率,r(st,at)表示在状态st采取动作at产生的回报,γ表示衰减因子,st+1表示下一个状态;V(st)表示状态价值函数,即在状态St采取所有动作后带来的价值之和;θ表示参数。
进一步地,步骤S1中,搭建的深度神经网络模型为包括输入层、输出层在内的三层结构的神经网络。
进一步地,步骤S2中,在设置奖励函数时,奖惩的事件包括偏离中线、碰撞、离开道路、离开路径、靠近前方车辆、靠近横向车辆、超速、过低俗以及环境奖励。
进一步地,步骤S3中,感知信息包括自动汽车与道路中线的横向距离Dm、自动汽车当前朝向与前方导航路径上的10个路径点方向的角度偏差Da、智能体控制自动汽车的当前车速v、智能体控制自动汽车当前的方向盘的旋转角度a、当前路段所有的车道中与自动汽车最近的前方车辆的纵向距离Dh、在当前路段所有的车道中与自动汽车最近的前方车辆预计即将相撞或者错车的时间ta、当前路段中与自动汽车接近最快的前方车辆与自动汽车的纵向相对速度vt、当前路段以外自动汽车左右方向与自身最近的其他车辆的横向距离Dh、当前路段以外自动汽车与左右方向最近的其他车辆预计即将相撞的时间th以及当前路段以外与自动汽车最近的其他车辆相对自动汽车的横向相对速度vht
更近进一步地,自动汽车与道路中线的横向距离Dm的计算公式为:
其中,d表示自动汽车与道路中线的距离,L表示自动汽车的总宽度;
自动汽车当前朝向与前方导航路径上的10个路径点方向的角度偏差Da的计算公式为:
Da=angle/180
其中,angle表示自动汽车与前方10个路径点的角度差;
智能体控制自动汽车的当前车速v的计算公式为:
v=v0/120
其中,V0表示车辆当前车速;
智能体控制自动汽车当前的方向盘的旋转角度a的计算公式为:
其中,a0表示自动汽车当前转向的速度,aMAX表示自动汽车方向盘最大的转向角度;
当前路段所有的车道中与自动汽车最近的前方车辆的纵向距离Dh的计算公式为:
其中,D0表示自动汽车与前方最近车辆的距离;
在当前路段所有的车道中与自动汽车最近的前方车辆预计即将相撞或者错车的时间ta的计算公式为:
其中,t0表示自动汽车与最近的前方车辆预计相撞或错车时间;
当前路段中与自动汽车接近最快的前方车辆与自动汽车的纵向相对速度vt的计算公式为:
vt=(v1-v0)/120
其中,v1表示前方车辆的纵向速度,v0表示自动汽车的纵向速度;
当前路段以外自动汽车左右方向与自身最近的其他车辆的横向距离Dh的计算公式为:
其中,Dh0表示左右方向距离自动汽车最近的车辆的横向距离;
当前路段以外自动汽车与左右方向最近的其他车辆预计即将相撞的时间th的计算公式为:
其中,th0表示自动汽车与左右方向最近的其他车辆预计相撞或错车时间;
当前路段以外与自动汽车最近的其他车辆相对自动汽车的横向相对速度vht的计算公式为:
vht=(vh1-vh0)/120
其中,vh1表示前方车辆的纵向速度,vh0表示自动汽车的纵向速度。
进一步地,采用随机梯度优化损失函数,具体公式为:
其中,st表示状态,at表示动作,r(st,at)表示在状态st采取动作at产生的回报,γ表示衰减因子,st+1表示下一个状态。
一种基于强化学习的自动驾驶控制系统,包括:
模型搭建模块,用于在智能体内搭建深度神经网络模型;
奖励设置模块,用于对智能体设置奖励函数;
感知信息模块,用于智能体接收由感知系统获取并传递来的感知信息;
模型训练模块,用于利用奖励设置模块中的奖励函数、感知信息模块中的感知信息,对模型搭建模块的深度神经网络模型进行训练;
实时控制模块,用于智能体接收由感知系统实时获取的感知信息,并将感知信息输入至深度神经网络模型,智能体输出控制动作;
在模型训练模块进行训练时,包括独立场景的训练和混合场景的训练,独立场景包括交叉路口场景、匝道场景、环道场景或急弯场景,混合场景包括交叉路口场景、匝道场景、环道场景以及急弯场景中的两种或多种场景的组合;
训练时,采用的Q函数为:
Q函数进行训练时的损失函数为:
其中,st表示状态,α表示温度系数,at表示动作,π(at|st)表示在状态st采取动作at的概率,r(st,at)表示在状态st采取动作at产生的回报,γ表示衰减因子,st+1表示下一个状态;V(st)表示状态价值函数,即在状态st采取所有动作后带来的价值之和。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的步骤。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述方法的步骤。
本发明的有益效果如下:
1、本发明中,智能体内的深度神经网络采用创新的强化学习算法,将Q函数与状态价值函数V和策略函数π进行关联,通过计算得到的Q函数可直接得到状态价值函数V、策略函数π,即状态价值函数和策略函数都以状态作为输入,并使用共享参数的神经网络来同时拟合这两个函数,不会有多余的参数量,也不需要再引入额外的策略优化步骤与状态价值函数的优化步骤,智能体内的深度神经网络模型进行训练或实际时。
2、本发明中,在进行训练时,采用多场景混合训练,包括交叉路口、匝道、环道或急弯等场景的独立训练、混合训练,智能体收集的经验池中包含了训练过程中多个环境的数据,同时强化学习算法又利用这些混合数据让智能体学会了多个环境下的驾驶技能,并使得智能体在面对新的、未知的环境时能够做出有效的、更好的应对。
附图说明
图1是本发明的流程示意图;
图2是本发明中智能体感知信息的示意图;
图3是本发明中智能体与状态、动作的关系示意图;
图4为采用不同算法的深度神经网络在交叉路口场景中进行训练时的奖励获取示意图;
图5为采用不同算法的深度神经网络在匝道场景中进行训练时的奖励获取示意图。
具体实施方式
实施例1
本实施例提供一种基于强化学习的自动驾驶控制方法,如图1所示,包括如下步骤:
步骤S1,在智能体内搭建深度神经网络模型。
在搭建深度神经网络模型时,采用现有的深度神经网络模型即可,仅要求该深度神经网络模型为现有的包括输入层、隐藏层(或中间层)、输出层在内的三层结构的神经网络,如DNN网络。
步骤S2,对智能体设置奖励函数。
在设置奖励函数时,奖惩的事件即为后续计算Q函数时的状态st,事件所对应的奖励即为后续计算函数Q时的函数r。如图3所示,智能体在计算Q函数时,r(st,at)表示在状态st采取动作at产生的回报(奖励),比如,在状态St为“离开路径”时采取动作at为“转向”产生的回报(奖励)为-2;在状态St为“超速”时采取动作at为“刹车”所产生的回报(奖励)为“0.8*速度上限-速度”。
所述的事件包括偏离中线、碰撞、离开道路、离开路径、靠近前方车辆、靠近横向车辆、超速、过低俗以及环境奖励。
偏离中线,惩罚自动汽车偏离道路中线的行为,偏离中心越远,惩罚越重;
碰撞,若自动汽车与其他车辆发生的碰撞,则给于智能体高额惩罚;
离开道路,若自动汽车驶出道路,则给于其高额惩罚;
离开路径,若自动汽车偏离导航路径的行为,给于少量惩罚;
靠近前方车辆,若自动汽车与同向的前方车辆距离少于6米,进入不安全的情况,则给予少量惩罚作为警告;
靠近横向车辆,若自动汽车与交叉路口两边方向的车辆相距少于6米,进入不安全的情况,则给予少量惩罚作为警告;
超速,若自动汽车的速度超过了道路限制的速度上限的80%,则按照超过的速度差值给予惩罚;
过低速,若自动汽车车速低于步行速度(1.5m/s)时,给予轻微惩罚,减少道路拥堵的情况;
环境奖励,该奖励由SMARTS平台自身提供,自动汽车沿着导航路径每行进1米,则获得轻微奖励,以此鼓励智能体朝终点行动。
奖励函数设计如下表所示:
步骤S3,智能体接收由感知系统获取并传递来的感知信息。
SMARTS平台提供的感知系统向智能体提供感知信息,感知信息如图2所示,其包括:
自动汽车与道路中线的横向距离Dm,其计算方式为:
其中,d表示自动汽车与道路中线的距离,L表示自动汽车的总宽度;
自动汽车当前朝向与前方导航路径上的10个路径点方向的角度偏差Da,当自动汽车的车身正对道路前方,角度偏差Da为0,当朝逆时针偏转,角度偏差Da为负值,当朝顺时针偏转,则角度偏差Da为正值;其计算方式为:
Da=angle/180
其中,angle表示自动汽车与前方10个路径点的角度差;
智能体控制自动汽车的当前车速v,其计算方式为:
v=v0/120
其中,v0表示车辆当前车速;
智能体控制自动汽车当前的方向盘的旋转角度a,若没有转动时,旋转角度a为0,若为右转,旋转角度a为正值,若为左转,旋转角度a为负值;其计算方式为:
其中,a0表示自动汽车当前转向的速度,aMAX表示自动汽车方向盘最大的转向角度;
当前路段所有的车道中与自动汽车最近的前方车辆的纵向距离(沿车道方向)Dh,此变量为三维向量,其计算方式为:
其中,D0表示自动汽车与前方最近车辆的距离;
在当前路段所有的车道中与自动汽车最近的前方车辆预计即将相撞或者错车的时间ta,此变量为三维向量,其计算方式为:
其中,t0表示自动汽车与最近的前方车辆预计相撞或错车时间;
当前路段中与自动汽车接近最快的前方车辆与自动汽车的纵向相对速度vt,其计算方式为:
vt=(v1-v0)/120
其中,v1表示前方车辆的纵向速度,v0表示自动汽车的纵向速度;
当前路段以外自动汽车左右方向与自身最近的其他车辆的横向(当前路段左右方向)距离Dh,其计算方式为:
其中,Dh0表示左右方向距离自动汽车最近的车辆的横向距离;
当前路段以外自动汽车与左右方向最近的其他车辆预计即将相撞的时间th,其计算方式为:
其中,th0表示自动汽车与左右方向最近的其他车辆预计相撞或错车时间;
当前路段以外与自动汽车最近的其他车辆相对自动汽车的横向相对速度vht,其计算方式为:
vht=(vh1-vh0)/120
其中,vh1表示前方车辆的纵向速度,vh0表示自动汽车的纵向速度。
所有感知信息合并为一个25维向量作为状态,25维向量包括:维度为1的中线距离、速度、转向、最近车辆相对速度、横向距离、横向相遇时间、横向最近车辆相对速度,维度为2的横向最近车辆相对位置,维度为3的前车距离、前车相遇时间,以及维度为10的朝向偏差。
在系统控制和处理方面,SMARTS的控制系统提供了离散控制器和连续控制器两类控制器。连续控制器下的汽车控制与现实中的自动档汽车控制方式一致,包括油门、刹车和方向盘三个元素,对应了智能体需要具体决策的动作。例如,采用一个标量来兼顾刹车和油门的控制,当刹车与油门为-1时表示完全踩下刹车,数字为1时表示完全踩下油门,动作刹车与油门维度为1,范围为[-1,1]。采用一个标量来表示转向,转向为1时表示方向盘完全向右打死,转向为-1时表示方向盘完全向左打死,转向维度为1,范围为[-1,1]。
步骤S4,利用步骤S2的奖励函数、步骤S3的感知信息,对步骤S1的深度神经网络模型进行训练;
在进行训练时,包括独立场景的训练和混合场景的训练,独立场景包括交叉路口场景、匝道场景、环道场景或急弯场景,混合场景包括交叉路口场景、匝道场景、环道场景以及急弯场景中的两种或多种场景的组合;
训练时,采用的Q函数为:
Q函数进行训练时的损失函数为:
其中,st表示状态,α表示温度系数,at表示动作,π(at|st)表示在状态st采取动作at的概率,r(st,at)表示在状态st采取动作at产生的回报,γ表示衰减因子,st+1表示下一个状态;V(st)表示状态价值函数,即在状态st采取所有动作后带来的价值之和;
采用随机梯度优化损失函数,具体公式为:
其中,st表示状态,at表示动作,r(st,at)表示在状态st采取动作at产生的回报,γ表示衰减因子,st+1表示下一个状态。
策略函数π以深度网络的形式来实现,策略函数中的参数设置:输入节点数25,隐含层层数2,隐含层节点数256,输出层节点数2或4,激活函数ReLU。
步骤S5,智能体接收由感知系统实时获取的感知信息,并将感知信息输入至深度神经网络模型,智能体输出控制动作。
实施例2
本实施例提供一种基于强化学习的自动驾驶控制系统,包括:
模型搭建模块,用于在智能体内搭建深度神经网络模型。
在搭建深度神经网络模型时,采用现有的深度神经网络模型即可,仅要求该深度神经网络模型为现有的包括输入层、隐藏层(或中间层)、输出层在内的三层结构的神经网络,如DNN网络。
奖励设置模块,用于对智能体设置奖励函数。
在设置奖励函数时,奖惩的事件即为后续计算Q函数时的状态st,事件所对应的奖励即为后续计算函数Q时的函数r。计算Q函数时,r(st,at)表示在状态St采取动作at产生的回报(奖励),比如,在状态St为离开路径时采取动作at为转动方向盘回到原路径所产生的回报(奖励)为-2;在状态St为超速时采取动作at为减速所产生的回报(奖励)为“0.8*速度上限-速度”。
所述的事件包括偏离中线、碰撞、离开道路、离开路径、靠近前方车辆、靠近横向车辆、超速、过低俗以及环境奖励。
偏离中线,惩罚自动汽车偏离道路中线的行为,偏离中心越远,惩罚越重;
碰撞,若自动汽车与其他车辆发生的碰撞,则给于智能体高额惩罚;
离开道路,若自动汽车驶出道路,则给于其高额惩罚;
离开路径,若自动汽车偏离导航路径的行为,给于少量惩罚;
靠近前方车辆,若自动汽车与同向的前方车辆距离少于6米,进入不安全的情况,则给予少量惩罚作为警告;
靠近横向车辆,若自动汽车与交叉路口两边方向的车辆相距少于6米,进入不安全的情况,则给予少量惩罚作为警告;
超速,若自动汽车的速度超过了道路限制的速度上限的80%,则按照超过的速度差值给予惩罚;
过低速,若自动汽车车速低于步行速度(1.5m/s)时,给予轻微惩罚,减少道路拥堵的情况;
环境奖励,该奖励由SMARTS平台自身提供,自动汽车沿着导航路径每行进1米,则获得轻微奖励,以此鼓励智能体朝终点行动。
奖励函数设计如下表所示:
感知信息模块,用于智能体接收由感知系统获取并传递来的感知信息。
SMARTS平台提供的感知系统向智能体提供感知信息,感知信息包括:
自动汽车与道路中线的横向距离Dm,其计算方式为:
其中,d表示自动汽车与道路中线的距离,L表示自动汽车的总宽度;
自动汽车当前朝向与前方导航路径上的10个路径点方向的角度偏差Da,当自动汽车的车身正对道路前方,角度偏差Da为0,当朝逆时针偏转,角度偏差Da为负值,当朝顺时针偏转,则角度偏差Da为正值;其计算方式为:
Da=angle/180
其中,angle表示自动汽车与前方10个路径点的角度差;
智能体控制自动汽车的当前车速v,其计算方式为:
u=v0/120
其中,v0表示车辆当前车速;
智能体控制自动汽车当前的方向盘的旋转角度a,若没有转动时,旋转角度a为0,若为右转,旋转角度a为正值,若为左转,旋转角度a为负值;其计算方式为:
其中,a0表示自动汽车当前转向的速度,aMAX表示自动汽车方向盘最大的转向角度;
当前路段所有的车道中与自动汽车最近的前方车辆的纵向距离(沿车道方向)Dh,此变量为三维向量,其计算方式为:
其中,D0表示自动汽车与前方最近车辆的距离;
在当前路段所有的车道中与自动汽车最近的前方车辆预计即将相撞或者错车的时间ta,此变量为三维向量,其计算方式为:
其中,t0表示自动汽车与最近的前方车辆预计相撞或错车时间;
当前路段中与自动汽车接近最快的前方车辆与自动汽车的纵向相对速度vt,其计算方式为:
vt=(v1-v0)/120
其中,v1表示前方车辆的纵向速度,v0表示自动汽车的纵向速度;
当前路段以外自动汽车左右方向与自身最近的其他车辆的横向(当前路段左右方向)距离Dh,其计算方式为:
其中,Dh0表示左右方向距离自动汽车最近的车辆的横向距离;
当前路段以外自动汽车与左右方向最近的其他车辆预计即将相撞的时间th,其计算方式为:
其中,th0表示自动汽车与左右方向最近的其他车辆预计相撞或错车时间;
当前路段以外与自动汽车最近的其他车辆相对自动汽车的横向相对速度vht,其计算方式为:
vht=(vh1-vh0)/120
其中,vh1表示前方车辆的纵向速度,vh0表示自动汽车的纵向速度。
所有感知信息合并为一个25维向量作为状态,25维向量包括:维度为1的中线距离、速度、转向、最近车辆相对速度、横向距离、横向相遇时间、横向最近车辆相对速度,维度为2的横向最近车辆相对位置,维度为3的前车距离、前车相遇时间,以及维度为10的朝向偏差。
在系统控制和处理方面,SMARTS的控制系统提供了离散控制器和连续控制器两类控制器。连续控制器下的汽车控制与现实中的自动档汽车控制方式一致,包括油门、刹车和方向盘三个元素,对应了智能体需要具体决策的动作。例如,采用一个标量来兼顾刹车和油门的控制,当刹车与油门为-1时表示完全踩下刹车,数字为1时表示完全踩下油门,动作刹车与油门维度为1,范围为[-1,1]。采用一个标量来表示转向,转向为1时表示方向盘完全向右打死,转向为-1时表示方向盘完全向左打死,转向维度为1,范围为[-1,1]。
模型训练模块,利用奖励设置模块的奖励函数、感知信息模块的感知信息,对模型搭建模块的深度神经网络模型进行训练;
在进行训练时,包括独立场景的训练和混合场景的训练,独立场景包括交叉路口场景、匝道场景、环道场景或急弯场景,混合场景包括交叉路口场景、匝道场景、环道场景以及急弯场景中的两种或多种场景的组合。
训练时,采用的Q函数为:
Q函数进行训练时的损失函数为:
其中,st表示状态,α表示温度系数,at表示动作,π(at|st)表示在状态st采取动作at的概率,r(st,at)表示在状态st采取动作at产生的回报,γ表示衰减因子,st+1表示下一个状态;V(st)表示状态价值函数,即在状态St采取所有动作后带来的价值之和;
采用随机梯度优化损失函数,具体公式为:
其中,st表示状态,at表示动作,r(st,at)表示在状态st采取动作at产生的回报,γ表示衰减因子,St+1表示下一个状态。
策略函数π以深度网络的形式来实现,策略函数中的参数设置:输入节点数25,隐含层层数2,隐含层节点数256,输出层节点数2或4,激活函数ReLU。
实时控制模块,智能体接收由感知系统实时获取的感知信息,并将感知信息输入至深度神经网络模型,智能体输出控制动作。
实施例3
本实施例提供一种计算机设备,其包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于强化学习的自动驾驶控制方法的步骤。
其中,所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器可以是所述计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,所述存储器也可以是所述计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中,所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件,例如所述基于强化学习的自动驾驶控制方法的程序代码等。此外,所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中,所述处理器用于运行所述存储器中存储的程序代码或者处理数据,例如运行所述基于强化学习的自动驾驶控制方法的程序代码。
实施例4
本实施例提供一种计算机可读存储介质,该存储介质中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于强化学习的自动驾驶控制方法的步骤。
其中,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于强化学习的自动驾驶控制方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器或者网络设备等)执行本申请实施例所述基于强化学习的自动驾驶控制方法。

Claims (9)

1.一种基于强化学习的自动驾驶控制方法,其特征在于,包括如下步骤:
步骤S1,在智能体内搭建深度神经网络模型;
步骤S2,对智能体设置奖励函数;
步骤S3,智能体接收由感知系统获取并传递来的感知信息;
步骤S4,利用步骤S2的奖励函数、步骤S3的感知信息,对步骤S1的深度神经网络模型进行训练;
步骤S5,智能体接收由感知系统实时获取的感知信息,并将感知信息输入至深度神经网络模型,智能体输出控制动作;
在步骤S4进行训练时,包括独立场景的训练和混合场景的训练,独立场景包括交叉路口场景、匝道场景、环道场景或急弯场景,混合场景包括交叉路口场景、匝道场景、环道场景以及急弯场景中的两种或多种场景的组合;
训练时,采用的Q函数为:
Q函数进行训练时的损失函数为:
其中,st表示状态,α表示温度系数,at表示动作,π(at|st)表示在状态st采取动作at的概率,r(st,at)表示在状态st采取动作at产生的回报,γ表示衰减因子,st+1表示下一个状态;V(st)表示状态价值函数,即在状态st采取所有动作后带来的价值之和。
2.如权利要求1所述的一种基于强化学习的自动驾驶控制方法,其特征在于,步骤S1中,搭建的深度神经网络模型为包括输入层、输出层在内的三层结构的神经网络。
3.如权利要求1所述的一种基于强化学习的自动驾驶控制方法,其特征在于,步骤S2中,在设置奖励函数时,奖惩的事件包括偏离中线、碰撞、离开道路、离开路径、靠近前方车辆、靠近横向车辆、超速、过低俗以及环境奖励。
4.如权利要求1所述的一种基于强化学习的自动驾驶控制方法,其特征在于,步骤S3中,感知信息包括自动汽车与道路中线的横向距离Dm、自动汽车当前朝向与前方导航路径上的10个路径点方向的角度偏差Da、智能体控制自动汽车的当前车速v、智能体控制自动汽车当前的方向盘的旋转角度a、当前路段所有的车道中与自动汽车最近的前方车辆的纵向距离Dh、在当前路段所有的车道中与自动汽车最近的前方车辆预计即将相撞或者错车的时间ta、当前路段中与自动汽车接近最快的前方车辆与自动汽车的纵向相对速度vt、当前路段以外自动汽车左右方向与自身最近的其他车辆的横向距离Dh、当前路段以外自动汽车与左右方向最近的其他车辆预计即将相撞的时间th以及当前路段以外与自动汽车最近的其他车辆相对自动汽车的横向相对速度vht
5.如权利要求4所述的一种基于强化学习的自动驾驶控制方法,其特征在于,自动汽车与道路中线的横向距离Dm的计算公式为:
其中,d表示自动汽车与道路中线的距离,L表示自动汽车的总宽度;
自动汽车当前朝向与前方导航路径上的10个路径点方向的角度偏差Da的计算公式为:
Da=angle/180
其中,angle表示自动汽车与前方10个路径点的角度差;
智能体控制自动汽车的当前车速v的计算公式为:
v=v0/120
其中,v0表示车辆当前车速;
智能体控制自动汽车当前的方向盘的旋转角度a的计算公式为:
其中,a0表示自动汽车当前转向的速度,aMAX表示自动汽车方向盘最大的转向角度;
当前路段所有的车道中与自动汽车最近的前方车辆的纵向距离Dh的计算公式为:
其中,D0表示自动汽车与前方最近车辆的距离;
在当前路段所有的车道中与自动汽车最近的前方车辆预计即将相撞或者错车的时间ta的计算公式为:
其中,t0表示自动汽车与最近的前方车辆预计相撞或错车时间;
当前路段中与自动汽车接近最快的前方车辆与自动汽车的纵向相对速度vt的计算公式为:
vt=(v1-v0)/120
其中,v1表示前方车辆的纵向速度,v0表示自动汽车的纵向速度;
当前路段以外自动汽车左右方向与自身最近的其他车辆的横向距离Dh的计算公式为:
其中,Dh0表示左右方向距离自动汽车最近的车辆的横向距离;
当前路段以外自动汽车与左右方向最近的其他车辆预计即将相撞的时间th的计算公式为:
其中,th0表示自动汽车与左右方向最近的其他车辆预计相撞或错车时间;
当前路段以外与自动汽车最近的其他车辆相对自动汽车的横向相对速度vht的计算公式为:
vht=(vh1-vh0)/120
其中,vh1表示前方车辆的纵向速度,vh0表示自动汽车的纵向速度。
6.如权利要求1所述的一种基于强化学习的自动驾驶控制方法,其特征在于;采用随机梯度优化损失函数,具体公式为:
其中,st表示状态,at表示动作,r(st,at)表示在状态st采取动作at产生的回报,γ表示衰减因子,st+1表示下一个状态。
7.一种基于强化学习的自动驾驶控制系统,其特征在于,包括:
模型搭建模块,用于在智能体内搭建深度神经网络模型;
奖励设置模块,用于对智能体设置奖励函数;
感知信息模块,用于智能体接收由感知系统获取并传递来的感知信息;
模型训练模块,用于利用奖励设置模块中的奖励函数、感知信息模块中的感知信息,对模型搭建模块的深度神经网络模型进行训练;
实时控制模块,用于智能体接收由感知系统实时获取的感知信息,并将感知信息输入至深度神经网络模型,智能体输出控制动作;
在模型训练模型进行训练时,包括独立场景的训练和混合场景的训练,独立场景包括交叉路口场景、匝道场景、环道场景或急弯场景,混合场景包括交叉路口场景、匝道场景、环道场景以及急弯场景中的两种或多种场景的组合;
训练时,采用的Q函数为:
Q函数进行训练时的损失函数为:
其中,st表示状态,α表示温度系数,at表示动作,π(at|st)表示在状态st采取动作at的概率,r(st,at)表示在状态st采取动作at产生的回报,γ表示衰减因子,st+1表示下一个状态;V(st)表示状态价值函数,即在状态st采取所有动作后带来的价值之和。
8.一种计算机设备,其特征在于:包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其特征在于:存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述方法的步骤。
CN202311660204.3A 2023-12-05 2023-12-05 基于强化学习的自动驾驶控制方法、系统、设备及存储介质 Pending CN117734715A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311660204.3A CN117734715A (zh) 2023-12-05 2023-12-05 基于强化学习的自动驾驶控制方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311660204.3A CN117734715A (zh) 2023-12-05 2023-12-05 基于强化学习的自动驾驶控制方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117734715A true CN117734715A (zh) 2024-03-22

Family

ID=90257147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311660204.3A Pending CN117734715A (zh) 2023-12-05 2023-12-05 基于强化学习的自动驾驶控制方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117734715A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118289085A (zh) * 2024-06-03 2024-07-05 北京理工大学前沿技术研究院 一种自动驾驶汽车t字交叉口左转控制方法、系统和设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118289085A (zh) * 2024-06-03 2024-07-05 北京理工大学前沿技术研究院 一种自动驾驶汽车t字交叉口左转控制方法、系统和设备

Similar Documents

Publication Publication Date Title
Duan et al. Hierarchical reinforcement learning for self‐driving decision‐making without reliance on labelled driving data
Li et al. Survey on artificial intelligence for vehicles
You et al. Advanced planning for autonomous vehicles using reinforcement learning and deep inverse reinforcement learning
US20230124864A1 (en) Graph Representation Querying of Machine Learning Models for Traffic or Safety Rules
Sukthankar Situation awareness for tactical driving
Bai et al. Deep reinforcement learning based high-level driving behavior decision-making model in heterogeneous traffic
CN114312830B (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
CN113044064B (zh) 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
Wang et al. Research on autonomous driving decision-making strategies based deep reinforcement learning
Hu et al. Learning a deep cascaded neural network for multiple motion commands prediction in autonomous driving
US20210056863A1 (en) Hybrid models for dynamic agents in a simulation environment
CN114368387B (zh) 一种基于注意力机制的驾驶员意图识别及车辆轨迹预测方法
Kamran et al. Minimizing safety interference for safe and comfortable automated driving with distributional reinforcement learning
CN117734715A (zh) 基于强化学习的自动驾驶控制方法、系统、设备及存储介质
Yang et al. A hybrid motion planning framework for autonomous driving in mixed traffic flow
CN115062202A (zh) 驾驶行为意图及轨迹的预测方法、装置、设备及存储介质
Khanum et al. Involvement of deep learning for vision sensor-based autonomous driving control: a review
Chen et al. Towards human-like speed control in autonomous vehicles: A mountainous freeway case
Huynh et al. A Method of Deep Reinforcement Learning for Simulation of Autonomous Vehicle Control.
Siboo et al. An empirical study of ddpg and ppo-based reinforcement learning algorithms for autonomous driving
Ren et al. Self-learned intelligence for integrated decision and control of automated vehicles at signalized intersections
CN117521389A (zh) 一种基于车路协同感知仿真平台的车辆感知测试方法
Hu et al. Learning dynamic graph for overtaking strategy in autonomous driving
Lin et al. Motion planner with fixed-horizon constrained reinforcement learning for complex autonomous driving scenarios
Islam et al. Enhancing Longitudinal Velocity Control With Attention Mechanism-Based Deep Deterministic Policy Gradient (DDPG) for Safety and Comfort

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication