CN114997048A - 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法 - Google Patents

基于探索策略改进的td3算法的自动驾驶车辆车道保持方法 Download PDF

Info

Publication number
CN114997048A
CN114997048A CN202210584570.4A CN202210584570A CN114997048A CN 114997048 A CN114997048 A CN 114997048A CN 202210584570 A CN202210584570 A CN 202210584570A CN 114997048 A CN114997048 A CN 114997048A
Authority
CN
China
Prior art keywords
algorithm
noise
network
action
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210584570.4A
Other languages
English (en)
Inventor
黄志球
华高洋
王金永
谢健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202210584570.4A priority Critical patent/CN114997048A/zh
Publication of CN114997048A publication Critical patent/CN114997048A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法,对自动驾驶智能控制任务中的决策控制问题进行抽象与提炼,将任务中的无人驾驶车辆控制描述为无模型的马尔科夫决策过程;基于TD3算法,实现对输入的自动驾驶车辆状态及其传感器信息进行计算,输出具体动作,实时控制车辆行动;使用奥恩斯坦‑乌伦贝克过程为双延迟深度确定性策略梯度算法输出的动作添加噪声,并基于路径追踪方法对奥恩斯坦‑乌伦贝克过程噪声进行加权修正。本发明结合了路径追踪方法对TD3算法探索策略中的动作噪声进行了加权修正,使得无人驾驶车辆的探索偏向于正确的方向,且降低了经验回放池中低效样本的比例,最终使得算法更快收敛,并且策略具有更好的表现性。

Description

基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法
技术领域
本发明属于深度强化学习和自动驾驶领域,具体涉及一种基于改进TD3算法 的自动驾驶车辆车道保持方法。
背景技术
自动驾驶汽车是一种具有自主驾驶能力的户外轮式移动机器人,大多数自动 驾驶汽车采用模块化系统,其核心功能可以概括为:感知、规划、决策和车辆控 制。模块化系统的优点是将具有挑战性的自动驾驶任务分解成一组更简单的问题, 但这种模块化设计使系统容易出现错误传播。近年来,端到端的结构开始作为模 块化方法的替代方案出现。在端到端驾驶中,车辆控制动作是根据传感器输入直 接计算输出的,与传统的模块化方法相比,该方法具有思想简单、环境信息感知 充分等优点。它可以综合环境信息和自动驾驶车辆信息,实现类似于人类驾驶的 行为。深度强化学习(DRL)是深度学习(DL)和强化学习(RL)相结合的一种 主要实现端到端驱动的方法,其中RL是解决人工智能问题的一种非常常见的框 架,而DL不仅可以为RL带来端到端优化的便利,也使RL不再局限于低维空间, 极大地扩展了RL的应用范围。在实际应用中,根据无人驾驶车辆是否能够通过 与环境交互获得的数据预定义环境动态模型,将RL分为基于模型的RL和无模型 的RL。基于模型的RL将根据环境的动态模型来学习最优策略。如果模型能够准 确预测环境的动态变化,那么在输入一个状态和一个动作时,就不需要与环境进 行实时交互,可以直接预测新的状态和行动奖励,从而大大提高数据的利用率。 然而,当问题具有复杂的状态空间和动作空间时,准确估计环境动态模型是一个 很大的挑战,使用不准确的模型进行学习容易导致复合误差。无模型RL是指无 人驾驶车辆实时地与环境进行交互和探索,直接从所获得的经验数据中学习,最 终达到累积收益最大化或其他特定目标。
本发明主要研究自动驾驶中的车道保持任务,这是自动驾驶汽车完成其他复 杂任务的前提,如果做得不好,可能会出现碰撞等安全问题。在过去的几年里, 许多学者对这个问题进行了深入的研究。他们使用的主要算法是深度确定性策略 梯度算法(DDPG),从他们的实验结果来看,DDPG确实可以指导无人驾驶车辆完 成车道保持任务,但当我们进一步复现他们的实验时,发现存在如下问题:
(1)DDPG算法的收敛性很大程度上取决于超参数的设置,不好的超参数容 易导致算法不收敛,且算法最终的表现性不佳,具体表现为由DPPG算法指导的 无人驾驶车辆在进行车道保持任务时,左摇右摆,就像酒驾一样,尽管完成了任 务,但是却有很大的安全隐患。
(2)DDPG是一种确定性策略算法,每次只输出一个确定的单一动作,但无 模型算法的本质决定了它需要通过探索环境来学习最优策略。因此,我们通常采 用直接在输出动作中加入随机噪声的方法来帮助无人驾驶车辆探索。常用的噪声 有高斯噪声和OU噪声,这些噪声都是基于算法输出的动作形成的。在训练初始 阶段,算法中的网络结构不完善,输出的动作不可靠,噪声的初始权重又大,在 这种情况下,无人驾驶车辆会做很多无效的探索,这大大降低了训练效率。
发明内容
发明目的:本发明提出提出一种基于探索策略改进的TD3算法的自动驾驶车 辆车道保持方法,改善了无人驾驶车辆与环境交互过程中获得的训练样本的质量, 提升了算法的表现性能;使自动驾驶车辆的探索趋向于正确的方向。
技术方案:本发明提供了一种基于探索策略改进的TD3算法的自动驾驶车辆 车道保持方法,包括以下步骤:
(1)对自动驾驶智能控制任务中的决策控制问题进行抽象与提炼,并结合 深度强化学习算法,将任务中的自动驾驶车辆控制描述为无模型的马尔科夫决策 过程;
(2)基于双延迟深度确定性策略梯度算法,实现对输入的自动驾驶车辆状 态及其传感器信息进行计算,输出具体动作,实时控制车辆行动;
(3)在双延迟深度确定性策略梯度算法训练阶段,为充分探索状态空间, 使用奥恩斯坦-乌伦贝克过程为双延迟深度确定性策略梯度算法输出的动作添加 噪声,并基于路径追踪方法对奥恩斯坦-乌伦贝克过程噪声进行加权修正,实现 减少自动驾驶车辆在训练过程中的无效勘探;
(4)在TORCS仿真平台上进行大量实验,自动驾驶车辆由探索策略改进的 双延迟深度确定性策略梯度算法指导,通过与环境进行交互收集大量训练数据, 并利用这些数据进行学习,对算法进行更新,最终收敛至最优策略。
进一步地,所述步骤(2)实现过程如下:
TD3算法中有六个网络,分别是Actor网络,Critic1网络_1,Cirtic2网 络_2,Actor目标网络,Critic目标网络_1以及Critic2目标网络_2;其中, Actor网络是策略网络,它接收[自动驾驶车辆的状态]作为输入,输出[对车辆 的控制动作];Critic网络是评价网络,以[车辆状态,Actor网络生成的动作] 作为输入,输出[Actor网络生成的动作的价值],用来对Actor网络进行评估。
进一步地,步骤(3)所述路径追踪方法为:
对于自动驾驶中的车道保持任务,TD3算法接收无人驾驶车辆状态作为输入, 输出转向、加速和制动三个动作;在算法训练阶段,为了充分探索状态空间,使 用OU过程为TD3算法输出的动作添加噪声,自动驾驶车辆的探索策略表示为:
at=μ(st|θ)+Nt
其中,μ(st|θ)为TD3算法输出的策略动作,是一个三维向量:[steer,accel,brake],Nt为OU过程产生的噪声,也是一个三维向量:[steer_noise, accel_noise,brake_noise];
基于路径追踪方法对OU过程产生的动作噪声进行加权修正,在考虑车辆速 度的同时,最小化车辆方向和道路轴线之间的角度
Figure BDA0003665402410000031
并缩短车辆质心和道路中 心线之间的距离trackPos,由路径追踪方法给出的转向控制动作为:
Figure BDA0003665402410000032
其中,η1,η2,η3是比例系数。
进一步地,步骤(3)所述基于路径追踪方法对奥恩斯坦-乌伦贝克过程噪声 进行加权修正过程如下:
对OU过程产生的转向噪声进行加权修正,以减少无人驾驶车辆的无效勘探:
steer_noise=(1-ε)*steer_noise_OU+ε*steer_action_PT,
其中,ε的初始值为0.5,并且在训练过程中逐渐减小,当训练步数达到 100000步时,减小为0;对转向噪声进行加权修正后,无人驾驶车辆执行的转向 动作为:
steer=original_steer+steer_noise
其中,original_steer为Actor网络输出的原始转向动作。
进一步地,所述步骤(4)包括以下步骤:
1)首先初始化Actor网络πθ,Critic网络_1
Figure BDA0003665402410000041
Critic网络_2
Figure BDA0003665402410000042
Actor 目标网络
Figure BDA0003665402410000043
Critic目标网络_1
Figure BDA0003665402410000044
Critic目标网络_2
Figure BDA0003665402410000045
以及初始化经 验回放池D;开始进行第k轮仿真(1≤k≤M),其中M是设置的最大仿真轮数;
2)初始化状态st
3)开始第k轮仿真中的第t个时间步(1≤t≤T),其中T是设置的一轮仿 真的最大时间步数;
4)将自动驾驶车辆状态输入Actor网络和路径追踪算法,得到TD3算法输 出的原始动作original_at和路径追踪算法输出的转向动作steering_action_PT;
5)将动作original_at输入OU过程,输出OU噪声Nt
6)将steering_action_PT和Nt相结合生成加权修正的噪声Nt';
7)生成最终执行的动作at=μθ(st)+Nt';
8)执行该动作at,得到奖励rt,并进入下一状态st';
9)将元组(st,at,rt,st')存入经验回放池D;
10)如果经验回放池D中有足够多的数据,则采样N条数据(s,a,r,s');
11)用Actor目标网络生成状态s'下的动作:
Figure BDA0003665402410000046
其中
Figure BDA0003665402410000047
是Actor目标网络输出 的动作,ε~Normal(0,σ)是为了提高算法鲁棒性,添加到
Figure BDA0003665402410000048
上的基于正态 分布的噪声,σ是正态分布的协方差,而clip(ε,-C,C)是用于对噪声进行裁剪, 经过clip函数裁剪后的噪声范围在(-C,C)之间;
12)计算更新目标:
Figure BDA0003665402410000051
其中γ是折扣因子,
Figure BDA0003665402410000052
是Critic目标网络生成的动作价值;
13)更新Critic网络的参数:
Figure BDA0003665402410000053
14)每两个时间步使用梯度上升法更新一次Actor网络的参数:
Figure BDA0003665402410000054
同时更新三个目标网络的参数: θ-←τθ+(1-τ)θ,
Figure BDA0003665402410000055
其中τ是滑动平滑更新的参数;
15)一个时间步结束,返回步骤(3)进行下一个时间步;
16)一轮仿真结束,返回步骤(1)进行下一轮仿真,直至仿真轮数k到达 设置的上限M结束。
有益效果:与现有技术相比,本发明的有益效果:本发明提出的改进的TD3 算法降低了算法对超参数的敏感程度,使算法训练过程更加稳定,且算法表现性 更佳;使无人驾驶车辆训练过程中的探索偏向于正确的方向,不仅提高了训练效 率,还改善了无人驾驶车辆与环境交互过程中获得的训练样本的质量,从而进一 步提升了算法的表现性能;使自动驾驶车辆的探索趋向于正确的方向。
附图说明
图1为本发明中提出的探索策略改进的TD3算法框架示意图;
图2为TD3算法示意图;
图3为传统路径追踪方法示意图;
图4为动作噪声加权修正示意图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
本发明提出一种基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法, 具体包括以下步骤:
步骤1:对自动驾驶智能控制任务中的决策控制问题进行抽象与提炼,并结 合深度强化学习算法,将任务中的自动驾驶车辆控制描述为无模型的马尔科夫决 策过程。
步骤2:基于双延迟深度确定性策略梯度算法(TD3),实现对输入的自动 驾驶车辆状态及其传感器信息进行计算,输出具体动作,实时控制车辆行动。
TD3算法中有六个网络,分别是Actor网络,Critic1网络_1,Cirtic2网 络_2,Actor目标网络,Critic目标网络_1以及Critic2目标网络_2,如图2 所示。其中,Actor网络是策略网络,它接收[自动驾驶车辆的状态]作为输入, 输出[对车辆的控制动作];Critic网络是评价网络,以[车辆状态,Actor网络 生成的动作]作为输入,输出[Actor网络生成的动作的价值],用来对Actor网 络进行评估,特别地,使用两个Critic网络可以有效避免对动作价值的高估; 而三个Target网络则是为了联合输出算法的更新目标。Actor网络参数每两步 更新一次,这种方法减小了动作价值函数的方差。
步骤3:在双延迟深度确定性策略梯度算法训练阶段,为充分探索状态空间, 使用奥恩斯坦-乌伦贝克过程为双延迟深度确定性策略梯度算法输出的动作添加 噪声,并基于路径追踪方法对奥恩斯坦-乌伦贝克过程(OU过程)噪声进行加权 修正,实现减少自动驾驶车辆在训练过程中的无效勘探。
对于自动驾驶中的车道保持任务,TD3算法接收无人驾驶车辆状态作为输入, 输出转向、加速和制动三个动作。在算法训练阶段,为了充分探索状态空间,使 用OU过程为TD3算法输出的动作添加噪声,自动驾驶车辆的探索策略可以表示 为:
at=μ(st|θ)+Nt
其中,μ(st|θ)为TD3算法输出的策略动作,是一个三维向量:[steer,accel,brake],Nt为OU过程产生的噪声,也是一个三维向量:[steer_noise, accel_noise,brake_noise]。
但是噪声的权重初始值较大,且随机性强,使得无人驾驶车辆在训练初期常 常做出一些不合理的行为,本发明基于路径追踪方法对OU过程产生的动作噪声 进行加权修正,实现减少自动驾驶车辆在训练过程中的无效勘探:路径追踪方法 如图3所示,其目标是在考虑车辆速度的同时,最小化车辆方向和道路轴线之间 的角度
Figure BDA0003665402410000061
并缩短车辆质心和道路中心线之间的距离trackPos,由路径追踪方法 给出的转向控制动作为:
Figure BDA0003665402410000062
其中,η1,η2,η3是比例系数,确定方式为:假设车辆处于道路边缘,速 度方向垂直于道路轴线,且车速为100km/h,在这种极限工况下,转向控制动作 的大小为0.3,并且η1*trackPos和
Figure BDA0003665402410000071
的值相等。
如图4所示,加权修正的噪声利用路径追踪方法产生的转向动作,对OU过 程产生的转向噪声进行加权修正(加速噪声和制动噪声不变),以减少无人驾驶 车辆的无效勘探:
steer_noise=(1-ε)*steer_noise_OU+ε*steer_action_PT
其中,ε的初始值为0.5,并且在训练过程中逐渐减小,当训练步数达到 100000步时,减小为0。对转向噪声进行加权修正后,无人驾驶车辆执行的转向 动作为:
steer=original_steer+steer_noise
其中,original_steer为Actor网络输出的原始转向动作。
步骤4:在TORCS仿真平台上进行大量实验,自动驾驶车辆由探索策略改进 的双延迟深度确定性策略梯度算法指导,通过与环境进行交互收集大量训练数据, 并利用这些数据进行学习,对算法进行更新,最终收敛至最优策略。
如图1所示为探索策略改进的TD3算法(Exploration StrategyImproved TD3) 的基本框架,算法流程及具体实现步骤描述如下:
首先初始化Actor网络πθ,Critic网络_1
Figure BDA0003665402410000072
Critic网络_2
Figure BDA0003665402410000073
Actor 目标网络
Figure BDA0003665402410000074
Critic目标网络_1
Figure BDA0003665402410000075
Critic目标网络_2
Figure BDA0003665402410000076
以及初始化经 验回放池D。
步骤(1):开始进行第k轮仿真(1≤k≤M),其中M是设置的最大仿真轮 数;
步骤(2):初始化状态st
步骤(3):开始第k轮仿真中的第t个时间步(1≤t≤T),其中T是设置 的一轮仿真的最大时间步数;
步骤(4):将自动驾驶车辆状态输入Actor网络和路径追踪算法,得到TD3 算法输出的原始动作original_at和路径追踪算法输出的转向动作 steering_action_PT;
步骤(5):将动作original_at输入OU过程,输出OU噪声Nt
步骤(6):将steering_action_PT和Nt相结合生成加权修正的噪声Nt';
步骤(7):生成最终执行的动作at=μθ(st)+Nt';
步骤(8):执行该动作at,得到奖励rt,并进入下一状态st';
步骤(9):将元组(st,at,rt,st')存入经验回放池D;
步骤(10):如果经验回放池D中有足够多的数据,则采样N条数据(s,a,r,s');
步骤(11):用Actor目标网络生成状态s'下的动作:
Figure BDA0003665402410000081
ε~Normal(0,σ);其中
Figure BDA0003665402410000082
是Actor目标网络输出 的动作,ε~Normal(0,σ)是为了提高算法鲁棒性,添加到
Figure BDA0003665402410000083
上的基于正态 分布的噪声,σ是正态分布的协方差,而clip(ε,-C,C)是用于对噪声进行裁剪, 经过clip函数裁剪后的噪声范围在(-C,C)之间;
步骤(12):计算更新目标:
Figure BDA0003665402410000084
其中γ是折扣因 子,
Figure BDA0003665402410000085
是Critic目标网络生成的动作价值;
步骤(13):更新Critic网络的参数:
Figure BDA0003665402410000086
步骤(14):每两个时间步使用梯度上升法更新一次Actor网络的参数:
Figure BDA0003665402410000087
同时更新三个目标网络的参数: θ-←τθ+(1-τ)θ,
Figure BDA0003665402410000088
其中τ是滑动平滑更新的参数;
步骤(15):一个时间步结束,返回步骤(3)进行下一个时间步;
步骤(16):一轮仿真结束,返回步骤(1)进行下一轮仿真,直至仿真轮 数k到达设置的上限M结束。
本发明为了解决DDPG算法对超参数敏感,导致最终训练得到的策略表现 性不佳的问题,将DDPG算法改进为双延迟确定性策略梯度算法。TD3采用了 Double Q-learning的价值网络结构,通过选择一对价值网络之间的最小值来限制 高估,并通过延迟更新策略网络以减少每次更新的误差来进一步提高算法性能。 为了解决无人驾驶车辆在训练初期进行大量无效探索,导致训练效率低下的问题, 我们提出探索策略改进的TD3算法,在该算法中,我们结合传统的路径跟踪方 法对探索策略中的动作噪声进行加权修正,使无人驾驶车辆的探索趋向于正确的 方向。

Claims (5)

1.一种基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法,其特征在于,包括以下步骤:
(1)对自动驾驶智能控制任务中的决策控制问题进行抽象与提炼,并结合深度强化学习算法,将任务中的自动驾驶车辆控制描述为无模型的马尔科夫决策过程;
(2)基于双延迟深度确定性策略梯度算法,实现对输入的自动驾驶车辆状态及其传感器信息进行计算,输出具体动作,实时控制车辆行动;
(3)在双延迟深度确定性策略梯度算法训练阶段,为充分探索状态空间,使用奥恩斯坦-乌伦贝克过程为双延迟深度确定性策略梯度算法输出的动作添加噪声,并基于路径追踪方法对奥恩斯坦-乌伦贝克过程噪声进行加权修正,实现减少自动驾驶车辆在训练过程中的无效勘探;
(4)在TORCS仿真平台上进行大量实验,自动驾驶车辆由探索策略改进的双延迟深度确定性策略梯度算法指导,通过与环境进行交互收集大量训练数据,并利用这些数据进行学习,对算法进行更新,最终收敛至最优策略。
2.根据权利要求1所述的基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法,其特征在于,所述步骤(2)实现过程如下:
TD3算法中有六个网络,分别是Actor网络,Critic1网络_1,Cirtic2网络_2,Actor目标网络,Critic目标网络_1以及Critic2目标网络_2;其中,Actor网络是策略网络,它接收[自动驾驶车辆的状态]作为输入,输出[对车辆的控制动作];Critic网络是评价网络,以[车辆状态,Actor网络生成的动作]作为输入,输出[Actor网络生成的动作的价值],用来对Actor网络进行评估。
3.根据权利要求1所述的基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法,其特征在于,步骤(3)所述路径追踪方法为:
对于自动驾驶中的车道保持任务,TD3算法接收无人驾驶车辆状态作为输入,输出转向、加速和制动三个动作;在算法训练阶段,为了充分探索状态空间,使用OU过程为TD3算法输出的动作添加噪声,自动驾驶车辆的探索策略表示为:
at=μ(st|θ)+Nt
其中,μ(st|θ)为TD3算法输出的策略动作,是一个三维向量:[steer,accel,brake],Nt为OU过程产生的噪声,也是一个三维向量:[steer_noise,accel_noise,brake_noise];
基于路径追踪方法对OU过程产生的动作噪声进行加权修正,在考虑车辆速度的同时,最小化车辆方向和道路轴线之间的角度
Figure FDA0003665402400000021
并缩短车辆质心和道路中心线之间的距离trackPos,由路径追踪方法给出的转向控制动作为:
Figure FDA0003665402400000022
其中,η1,η2,η3是比例系数。
4.根据权利要求1所述的基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法,其特征在于,步骤(3)所述基于路径追踪方法对奥恩斯坦-乌伦贝克过程噪声进行加权修正过程如下:
对OU过程产生的转向噪声进行加权修正,以减少无人驾驶车辆的无效勘探:
steer_noise=(1-ε)*steer_noise_OU+ε*steer_action_PT,
其中,ε的初始值为0.5,并且在训练过程中逐渐减小,当训练步数达到100000步时,减小为0;对转向噪声进行加权修正后,无人驾驶车辆执行的转向动作为:
steer=original_steer+steer_noise
其中,original_steer为Actor网络输出的原始转向动作。
5.根据权利要求1所述的基于探索策略改进的TD3算法的自动驾驶车辆车道保持方法,其特征在于,所述步骤(4)包括以下步骤:
1)首先初始化Actor网络πθ,Critic网络_1
Figure FDA0003665402400000023
Critic网络_2
Figure FDA0003665402400000024
Actor目标网络
Figure FDA0003665402400000025
Critic目标网络_1
Figure FDA0003665402400000026
Critic目标网络_2
Figure FDA0003665402400000027
以及初始化经验回放池D;开始进行第k轮仿真(1≤k≤M),其中M是设置的最大仿真轮数;
2)初始化状态st
3)开始第k轮仿真中的第t个时间步(1≤t≤T),其中T是设置的一轮仿真的最大时间步数;
4)将自动驾驶车辆状态输入Actor网络和路径追踪算法,得到TD3算法输出的原始动作original_at和路径追踪算法输出的转向动作steering_action_PT;
5)将动作original_at输入OU过程,输出OU噪声Nt
6)将steering_action_PT和Nt相结合生成加权修正的噪声N′t
7)生成最终执行的动作at=μθ(st)+N′t
8)执行该动作at,得到奖励rt,并进入下一状态s′t
9)将元组(st,at,rt,s′t)存入经验回放池D;
10)如果经验回放池D中有足够多的数据,则采样N条数据(s,a,r,s');
11)用Actor目标网络生成状态s'下的动作:
Figure FDA0003665402400000031
其中
Figure FDA0003665402400000032
是Actor目标网络输出的动作,ε~Normal(0,σ)是为了提高算法鲁棒性,添加到
Figure FDA0003665402400000033
上的基于正态分布的噪声,σ是正态分布的协方差,而clip(ε,-C,C)是用于对噪声进行裁剪,经过clip函数裁剪后的噪声范围在(-C,C)之间;
12)计算更新目标:
Figure FDA0003665402400000034
其中γ是折扣因子,
Figure FDA0003665402400000035
是Critic目标网络生成的动作价值;
13)更新Critic网络的参数:
Figure FDA0003665402400000036
14)每两个时间步使用梯度上升法更新一次Actor网络的参数:
Figure FDA0003665402400000037
同时更新三个目标网络的参数:θ-←τθ+(1-τ)θ,
Figure FDA0003665402400000038
其中τ是滑动平滑更新的参数;
15)一个时间步结束,返回步骤(3)进行下一个时间步;
16)一轮仿真结束,返回步骤(1)进行下一轮仿真,直至仿真轮数k到达设置的上限M结束。
CN202210584570.4A 2022-05-27 2022-05-27 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法 Pending CN114997048A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210584570.4A CN114997048A (zh) 2022-05-27 2022-05-27 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210584570.4A CN114997048A (zh) 2022-05-27 2022-05-27 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法

Publications (1)

Publication Number Publication Date
CN114997048A true CN114997048A (zh) 2022-09-02

Family

ID=83028290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210584570.4A Pending CN114997048A (zh) 2022-05-27 2022-05-27 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法

Country Status (1)

Country Link
CN (1) CN114997048A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115542915A (zh) * 2022-10-08 2022-12-30 中国矿业大学 一种基于近似安全动作的自动驾驶强化学习方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115542915A (zh) * 2022-10-08 2022-12-30 中国矿业大学 一种基于近似安全动作的自动驾驶强化学习方法
CN115542915B (zh) * 2022-10-08 2023-10-31 中国矿业大学 一种基于近似安全动作的自动驾驶强化学习方法

Similar Documents

Publication Publication Date Title
CN110745136B (zh) 一种驾驶自适应控制方法
CN110989576B (zh) 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN109866752B (zh) 基于预测控制的双模式并行车辆轨迹跟踪行驶系统的方法
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
CN113044064B (zh) 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN111142522A (zh) 一种分层强化学习的智能体控制方法
CN110525428B (zh) 一种基于模糊深度强化学习的自动泊车方法
CN112389436B (zh) 基于改进lstm神经网络的安全性自动驾驶换道轨迹规划方法
CN103324085A (zh) 基于监督式强化学习的最优控制方法
CN113581182A (zh) 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN116804879A (zh) 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法
CN114997048A (zh) 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法
Venkatesh et al. Connected and automated vehicles in mixed-traffic: Learning human driver behavior for effective on-ramp merging
CN114973650A (zh) 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
Huang et al. An efficient self-evolution method of autonomous driving for any given algorithm
Liu et al. A methodology based on deep reinforcement learning to autonomous driving with double q-learning
CN113657433A (zh) 一种车辆轨迹多模态预测方法
Fang et al. A maximum entropy inverse reinforcement learning algorithm for automatic parking
CN113033902B (zh) 一种基于改进深度学习的自动驾驶换道轨迹规划方法
Chen et al. Framework of active obstacle avoidance for autonomous vehicle based on hybrid soft actor-critic algorithm
Samsani et al. Rapid Autonomous Vehicle Drifting with Deep Reinforcement Learning
Si et al. A deep coordination graph convolution reinforcement learning for multi-intelligent vehicle driving policy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination