CN115542915B - 一种基于近似安全动作的自动驾驶强化学习方法 - Google Patents

一种基于近似安全动作的自动驾驶强化学习方法 Download PDF

Info

Publication number
CN115542915B
CN115542915B CN202211222692.5A CN202211222692A CN115542915B CN 115542915 B CN115542915 B CN 115542915B CN 202211222692 A CN202211222692 A CN 202211222692A CN 115542915 B CN115542915 B CN 115542915B
Authority
CN
China
Prior art keywords
network
safety
strategy
action
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211222692.5A
Other languages
English (en)
Other versions
CN115542915A (zh
Inventor
王雪松
张佳志
程玉虎
赵忠祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202211222692.5A priority Critical patent/CN115542915B/zh
Publication of CN115542915A publication Critical patent/CN115542915A/zh
Application granted granted Critical
Publication of CN115542915B publication Critical patent/CN115542915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于近似安全动作的自动驾驶强化学习方法,首先,鉴于智能车在探索过程中直接采用当前策略输出的动作会导致危险性行为的发生,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;然后,智能车执行近似安全动作,收集经验样本并存入经验池;最后,利用精确惩罚优化方法对策略进行优化,使得优化后的策略可以保证部署时的安全性。本发明能在无先验知识的情况下同时保证策略在训练过程中和部署时的安全性。

Description

一种基于近似安全动作的自动驾驶强化学习方法
技术领域
本发明涉及一种约束强化学习方法,具体涉及一种自动驾驶强化学习方法。
背景技术
强化学习通过试错的方法可以有效解决序列决策问题,已经在国际象棋、智能推荐和雅塔丽游戏上展示出了超人类的表现。然而,安全性限制了标准强化学习在现实世界中的应用,例如:在自动驾驶中,如果不考虑安全性,那么智能车为了尽可能快地到达终点,有可能会采取危险动作对周围的人或其它车辆造成损害。尽管可以通过巧妙地设计奖励函数来避免这种损害,但这种方法依赖于复杂的人为设计,并且不具备普适性,难以扩展。
约束强化学习将安全性作为一种条件约束,并在一个可行域内优化策略,已成为安全强化学习的一种主要形式。约束马尔可夫决策过程(CMDP)作为约束强化学习的一个标准框架,它将代价函数与奖励函数独立开,避免了单个奖励函数中的安全性设计问题。拉格朗日方法是解决CMDP最流行的方法,它通过原对偶优化同时更新策略和拉格朗日乘子,使得策略在最大化长期奖励的同时考虑安全性约束。但这种方法的性能依赖于对初始拉格朗日乘子和对偶梯度更新过程中学习率的选择,通常难以选择到一组合适的超参数。内点策略优化(IPO)和精确惩罚优化(EPO)在此基础上对这种方法进行了改进,通过引入对数障碍函数和线性整流函数作为惩罚项,仅需调节一个超参数即可以有效求解约束优化问题。然而,这些方法只能保证策略在收敛后满足安全性约束,并不能保证策略在训练过程中的安全性。自动驾驶对于安全性极为敏感,即使是在训练过程中,一旦智能车采取危险动作即可能带来灾难性的后果,因此这类方法并不适用于自动驾驶。
自动驾驶中,除了需要满足策略在部署时的安全性,还需要满足策略在训练过程中的安全性,这个问题被定义为安全探索。现有的安全探索方法需要知道部分先验知识,这些先验知识可能是离线数据也可能是某些模型信息。借助于这些先验知识,安全探索方法可以在训练过程中实现很少的约束违反,甚至实现零约束违反。例如,一些基于模型的安全探索方法通过李雅普诺夫函数或控制障碍函数来引导策略在一个安全集中进行优化,进而实现安全探索。基于安全Q函数的强化学习方法(SQRL)则通过离线数据预训练一个安全评论家,利用安全评论家来拒绝执行不安全的动作。恢复强化学习方法(ReRL)通过离线数据预训练得到一个安全的回退策略,在当前策略输出不安全动作时,通过执行回退策略来保证安全性。SQRL和ReRL需要依赖于一个准确的安全评论家,并且在策略部署时也需要安全评论家的介入来保证安全性。基于优势干预的强化学习方法(SAILR)通过构造新马尔可夫决策过程(MDP)的方式,可以在无干预介入的情况下保证策略部署时的安全性,但在训练过程中它仍然需要一个先验的安全策略。注意到,当先验知识不再可用时,这些方法往往表现出很差的效果。在实际的自动驾驶中,通常难以获取这样的先验知识,因此这类方法的应用场景存在一定的限制。
另一方面,自动驾驶中收集经验样本具有较高的风险性。因此,安全强化学习除了实现安全探索外,还需要提高样本利用率。约束策略优化(CPO)在信任域策略优化(TRPO)的基础上考虑了安全性,通过约束优化方法使得策略在每一步更新过程中都稳定地满足安全性约束。基于投影的约束策略优化(PCPO)将策略改进和约束满足分为两个步骤:首先通过TRPO改进策略,然后将其投影回一个可行的安全约束集。策略空间中的一阶约束优化(FOCOP)通过最小化与最优策略间KL散度的方式更新当前策略,实现起来较为简单。然而,由于上述基于CPO的方法均是同策略方法,因此样本利用率低,并不适用于难以收集经验样本的自动驾驶。
发明内容
发明目的:针对上述现有技术,提出一种基于近似安全动作的自动驾驶强化学习方法,属于不需要先验知识的异策略安全强化学习方法,可以同时保证策略在部署时和训练过程中的安全性。
技术方案:一种基于近似安全动作的自动驾驶强化学习方法,首先,在智能车采用当前策略探索过程中,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;其次,智能车执行近似安全动作,并收集经验样本存入经验池;然后,根据经验池中的经验样本,利用精确惩罚优化方法对当前策略进行优化,得到优化后的策略;最后,将优化后的策略作为当前策略;
所述方法包括如下具体步骤:
步骤1:建立策略网络、价值网络和安全指示器,并初始化网络参数;
步骤2:建立目标网络,并初始化网络参数;
步骤3:用安全指示器对策略网络输出的动作进行安全修正得到近似安全动作;
步骤4:智能车执行近似安全动作,收集经验样本;
步骤5:更新价值网络参数;
步骤6:更新安全指示器参数;
步骤7:更新策略网络参数;
步骤8:更新目标网络参数;
步骤9:重复步骤3至步骤8直到获得最优策略。
进一步的,所述步骤1中,建立策略网络πθ,建立安全指示器Cω,建立2个相互独立的价值网络Qv1和Qv2,其中:θ、ω和v1、v2分别表示策略网络、安全指示器和2个价值网络的参数;所有网络和安全指示器均为含有2个隐藏层且隐藏层神经元数量为256的多层感知机结构,其中:策略网络的输入维度为状态维度,输出维度为动作维度;价值网络和安全指示器的输入维度为状态维度和动作维度的和,输出维度为1;网络参数的初始化方式为随机初始化。
进一步的,所述步骤2中,分别建立策略网络、安全指示器和两个价值网络对应的目标网络和/>其中:/>和/>分别表示策略网络、安全指示器和两个价值网络对应的目标网络的参数;目标网络结构与所对应的原网络结构一致,目标网络的参数的初始化方法为:将所对应的原网络的参数(ν12,ω,θ)直接赋值给目标网络的参数/>
进一步的,所述步骤3中,首先策略网络根据当前状态s输出当前动作πθ(s),然后安全指示器对πθ(s)进行安全修正得到近似安全动作,具体修正方式如下:
首先,计算
然后,计算a=πθ(s)-α·λ*gω(s);
其中,λ*表示拉格朗日最优乘子,(·)+表示线性整流操作,δ表示安全阈值,表示安全指示器Cω在a'处的导数,a表示安全修正后得到的近似安全动作,a'表示求导处的动作,α表示安全修正系数,▽a'表示在a'处进行求导。
进一步的,所述步骤4中,首先,智能车在当前状态s下执行近似安全动作a之后,根据状态转移概率进入到下一状态s',并获得奖励r和代价c;然后,将经验样本{s,a,r,c,s'}存入经验池/>最后,将s'作为新的当前状态s。
进一步的,所述步骤5中,利用经验池中的经验样本对两个价值网络的参数v1和v2进行更新,更新方法为通过梯度下降最小化如下的损失函数:
其中,表示期望符号,Qtarget表示价值网络更新过程中的时序差分目标,,γ表示折扣因子,/>表示更新价值网络的参数时采样的下一动作,ε表示采样噪声,/>表示均值为0、方差为σ的正态分布,clip表示裁剪操作,ζ表示裁剪的范围;
利用梯度下降法对参数v1和v2进行更新,参数v1和v2的调整量为:
其中,ηr表示参数v1和v2的学习率,表示对参数v1进行求导,/>表示对参数v2进行求导。
进一步的,所述步骤6中,利用经验池中的经验样本对安全指示器的参数ω进行更新,更新方法为通过梯度下降最小化如下的损失函数:
其中,表示安全指示器对应的目标网络在/>处的输出,/>是策略网络对应的目标网络在s'处的输出,Cω(s,a)表示安全指示器在(s,a)的输出;
参数ω的调整量为:
Δω=-ηcωJc(ω)
其中,ηc表示参数ω的学习率,▽ω表示对参数ω进行求导。
进一步的,所述步骤7中,用经验池中的经验样本对策略网络参数θ进行更新,更新方法为精确惩罚优化,目标函数如下:
其中,Qν(s,πθ(s))可以表示或/>处的输出,κ表示精确惩罚系数;
精确惩罚优化过程中,参数θ的调整量为:
Δθ=ηπθJπ(θ)
其中,ηπ表示参数θ的学习率,▽θ表示对策略网络的参数θ进行求导。
进一步的,所述步骤8中,更新目标网络的参数时采用如下的更新方式:
首先,分别计算:和/>
然后,将上述计算的结果分别赋值给:和/>
其中,表示目标网络更新率。
进一步的,所述步骤9中,重复步骤3至步骤8,不断更新各网络以及安全指示器的参数,并将最终更新得到的策略网络作为最优策略用于智能车的部署。
有益效果:本发明针对自动驾驶中的安全探索问题,提出一种基于近似安全动作的自动驾驶强化学习方法。本发明的主要优势:(1)这是一个异策略无模型且不需要任何先验知识的安全强化学习方法。(2)该方法可以同时保证策略在训练过程中和部署时的安全性。(3)该方法提供了一个可调节的安全修正系数,可用于做出探索性与安全性之间的权衡。(4)该方法在自动驾驶中,在保证安全探索的同时,能实现较少的约束违反以及较高的成功率。
附图说明
图1为基于近似安全动作的自动驾驶强化学习方法的结构图。
具体实施方式
下面结合附图对本发明做更进一步的解释。
一种基于近似安全动作的自动驾驶强化学习方法,首先,在智能车采用当前策略探索过程中,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;其次,智能车执行近似安全动作,并收集经验样本存入经验池;然后,根据经验池中的经验样本,利用精确惩罚优化方法对当前策略进行优化,得到优化后的策略;最后,将优化后的策略作为当前策略。
包括如下具体步骤:
步骤1,建立策略网络、价值网络和安全指示器,并初始化网络参数。
建立策略网络πθ,建立2个价值网络和/>和/>分别表示价值网络1和价值网络2,它们相互独立,建立安全指示器Cω,其中:θ、v1、v2和ω分别表示策略网络、价值网络1、价值网络2和安全指示器的参数;所有网络和安全指示器均为含有2个隐藏层且隐藏层神经元数量为256的多层感知机结构,其中:策略网络的输入维度为状态维度,输出维度为动作维度;价值网络和安全指示器的输入维度为状态维度和动作维度的和,输出维度为1;网络参数的初始化方式为随机初始化。
步骤2,建立目标网络,并初始化网络参数。
分别建立策略网络、价值网络1、价值网络2和安全指示器对应的目标网络 和/>其中:/>和/>分别表示策略网络、价值网络1、价值网络2和安全指示器对应的目标网络的参数;目标网络结构与所对应的原网络结构一致,目标网络的参数的初始化方法为:将所对应的原网络的参数(ν12,ω,θ)直接赋值给目标网络的参数
步骤3,用安全指示器对策略网络输出的动作进行安全修正得到近似安全动作。
首先策略网络根据当前状态s输出当前动作πθ(s),然后安全指示器对πθ(s)进行安全修正得到近似安全动作,具体修正方式如下:
首先,计算
然后,计算a=πθ(s)-α·λ*gω(s);
步骤4,智能车执行近似安全动作,收集经验样本。
首先,智能车在当前状态s下执行近似安全动作a之后,根据状态转移概率进入到下一状态s',并获得奖励r和代价c;然后,将经验样本{s,a,r,c,s'}存入经验池/>最后,将s'作为新的当前状态s。
步骤5,更新价值网络参数。
利用经验池中的经验样本对价值网络的参数v1和v2进行更新,具体更新方法:首先,从经验池中随机采样256个经验样本作为小批次/>然后,通过梯度下降最小化如下的损失函数:
其中,表示小批次中的经验样本数,这里/>
利用梯度下降法对参数v1和v2进行更新,参数v1和v2的调整量为:
其中,ηr表示该梯度下降过程中的学习率,这里ηr=0.0003,表示对价值网络1的参数v1进行求导,/>表示对价值网络2的参数v2进行求导。
步骤6,更新安全指示器参数。
利用经验池中的经验样本对安全指示器的参数ω进行更新,更新方法为通过梯度下降最小化如下的损失函数:
其中,表示安全指示器对应的目标网络在/>处的输出,/>是策略网络对应的目标网络在s'处的输出,Cω(s,a)表示安全指示器在(s,a)的输出;
参数ω的调整量为:
Δω=-ηcωJc(ω)
其中,ηc表示参数ω的学习率,这里ηc=0.0003,▽ω表示对参数ω进行求导。
步骤7,更新策略网络参数。
用经验池中的经验样本对策略网络参数θ进行更新,更新方法为精确惩罚优化,目标函数如下:
其中,κ表示精确惩罚系数,这里κ=0.5;
精确惩罚优化过程中的参数更新量为:
Δθ=ηπθJπ(θ)
其中,ηπ表示参数θ的学习率,这里ηπ=0.0003,▽θ表示对策略网络的参数θ进行求导。
步骤8,更新目标网络参数。
首先,分别计算:和/>
然后,将上述计算的结果分别赋值给:和/>
其中,表示目标网络更新率,这里/>
步骤9:重复步骤3至步骤8,不断更新各网络以及安全指示器的参数,跟新次数不少于1×106次,并将最终更新得到的策略网络作为最优策略用于智能车的部署。
本发明方法属于一种不需要先验知识的异策略安全强化学习方法,该方法可以同时保证策略在部署时和训练过程中的安全性。具体的,鉴于智能车在探索过程中直接采用当前策略输出的动作会导致危险性行为的发生,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;然后,智能车执行近似安全动作,收集经验样本并存入经验池;最后,利用精确惩罚优化方法对策略进行优化,使得优化后的策略可以保证部署时的安全性。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (2)

1.一种基于近似安全动作的自动驾驶强化学习方法,其特征在于:首先,在智能车采用当前策略探索过程中,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;其次,智能车执行近似安全动作,并收集经验样本存入经验池;然后,根据经验池中的经验样本,利用精确惩罚优化方法对当前策略进行优化,得到优化后的策略;最后,将优化后的策略作为当前策略;
所述方法包括如下具体步骤:
步骤1:建立策略网络、价值网络和安全指示器,并初始化网络参数;
步骤2:建立目标网络,并初始化网络参数;
步骤3:用安全指示器对策略网络输出的动作进行安全修正得到近似安全动作;
步骤4:智能车执行近似安全动作,收集经验样本;
步骤5:更新价值网络参数;
步骤6:更新安全指示器参数;
步骤7:更新策略网络参数;
步骤8:更新目标网络参数;
步骤9:重复步骤3至步骤8直到获得最优策略;
所述步骤1中,建立策略网络πθ,建立安全指示器Cω,建立2个相互独立的价值网络Qv1和Qv2,其中:θ、ω和v1、v2分别表示策略网络、安全指示器和2个价值网络的参数;所有网络和安全指示器均为含有2个隐藏层且隐藏层神经元数量为256的多层感知机结构,其中:策略网络的输入维度为状态维度,输出维度为动作维度;价值网络和安全指示器的输入维度为状态维度和动作维度的和,输出维度为1;网络参数的初始化方式为随机初始化;
所述步骤2中,分别建立策略网络、安全指示器和两个价值网络对应的目标网络Cω和/>其中:/>和/>分别表示策略网络、安全指示器和两个价值网络对应的目标网络的参数;目标网络结构与所对应的原网络结构一致,目标网络的参数的初始化方法为:将所对应的原网络的参数(ν12,ω,θ)直接赋值给目标网络的参数/>
所述步骤3中,首先策略网络根据当前状态s输出当前动作πθ(s),然后安全指示器对πθ(s)进行安全修正得到近似安全动作,具体修正方式如下:
首先,计算
然后,计算a=πθ(s)-α·λ*gω(s);
其中,λ*表示拉格朗日最优乘子,(·)+表示线性整流操作,δ表示安全阈值,表示安全指示器Cω在a'处的导数,a表示安全修正后得到的近似安全动作,a'表示求导处的动作,α表示安全修正系数,/>表示在a'处进行求导;
所述步骤4中,首先,智能车在当前状态s下执行近似安全动作a之后,根据状态转移概率进入到下一状态s',并获得奖励r和代价c;然后,将经验样本{s,a,r,c,s'}存入经验池/>最后,将s'作为新的当前状态s;
所述步骤5中,利用经验池中的经验样本对两个价值网络的参数v1和v2进行更新,更新方法为通过梯度下降最小化如下的损失函数:
其中,表示期望符号,Qtarget表示价值网络更新过程中的时序差分目标,γ表示折扣因子,/>表示更新价值网络的参数时采样的下一动作,ε表示采样噪声,/>表示均值为0、方差为σ的正态分布,clip表示裁剪操作,ζ表示裁剪的范围;
利用梯度下降法对参数v1和v2进行更新,参数v1和v2的调整量为:
其中,ηr表示参数v1和v2的学习率,表示对参数v1进行求导,/>表示对参数v2进行求导;
所述步骤6中,利用经验池中的经验样本对安全指示器的参数ω进行更新,更新方法为通过梯度下降最小化如下的损失函数:
其中,表示安全指示器对应的目标网络在/>处的输出,/>是策略网络对应的目标网络在s'处的输出,Cω(s,a)表示安全指示器在(s,a)的输出;
参数ω的调整量为:
其中,ηc表示参数ω的学习率,表示对参数ω进行求导;
所述步骤7中,用经验池中的经验样本对策略网络参数θ进行更新,更新方法为精确惩罚优化,目标函数如下:
其中,Qν(s,πθ(s))可以表示Qν1(s,πθ(s))或Qν2(s,πθ(s))处的输出,κ表示精确惩罚系数;
精确惩罚优化过程中,参数θ的调整量为:
其中,ηπ表示参数θ的学习率,表示对策略网络的参数θ进行求导;
所述步骤8中,更新目标网络的参数时采用如下的更新方式:
首先,分别计算:
然后,将上述计算的结果分别赋值给:和/>
其中,表示目标网络更新率。
2.根据权利要求1所述一种基于近似安全动作的自动驾驶强化学习方法,其特征在于:所述步骤9中,重复步骤3至步骤8,不断更新各网络以及安全指示器的参数,并将最终更新得到的策略网络作为最优策略用于智能车的部署。
CN202211222692.5A 2022-10-08 2022-10-08 一种基于近似安全动作的自动驾驶强化学习方法 Active CN115542915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211222692.5A CN115542915B (zh) 2022-10-08 2022-10-08 一种基于近似安全动作的自动驾驶强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211222692.5A CN115542915B (zh) 2022-10-08 2022-10-08 一种基于近似安全动作的自动驾驶强化学习方法

Publications (2)

Publication Number Publication Date
CN115542915A CN115542915A (zh) 2022-12-30
CN115542915B true CN115542915B (zh) 2023-10-31

Family

ID=84731153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211222692.5A Active CN115542915B (zh) 2022-10-08 2022-10-08 一种基于近似安全动作的自动驾驶强化学习方法

Country Status (1)

Country Link
CN (1) CN115542915B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912620B (zh) * 2023-07-06 2024-03-19 中国矿业大学 一种具有抗视觉干扰的表征强化学习方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110716562A (zh) * 2019-09-25 2020-01-21 南京航空航天大学 基于强化学习的无人驾驶汽车多车道行驶的决策方法
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN113253739A (zh) * 2021-06-24 2021-08-13 深圳慧拓无限科技有限公司 一种用于高速公路的驾驶行为决策方法
CN113392396A (zh) * 2021-06-11 2021-09-14 浙江工业大学 面向深度强化学习的策略保护防御方法
CN113449458A (zh) * 2021-07-15 2021-09-28 海南大学 一种基于课程学习的多智能体深度确定性策略梯度方法
CN114074680A (zh) * 2020-08-11 2022-02-22 湖南大学 基于深度强化学习的车辆换道行为决策方法及系统
CN114137967A (zh) * 2021-11-23 2022-03-04 常熟理工学院 基于多网络联合学习的驾驶行为决策方法
CN114997048A (zh) * 2022-05-27 2022-09-02 南京航空航天大学 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11586200B2 (en) * 2020-06-22 2023-02-21 The Boeing Company Method and system for vehicle engagement control

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110716562A (zh) * 2019-09-25 2020-01-21 南京航空航天大学 基于强化学习的无人驾驶汽车多车道行驶的决策方法
CN110969848A (zh) * 2019-11-26 2020-04-07 武汉理工大学 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN114074680A (zh) * 2020-08-11 2022-02-22 湖南大学 基于深度强化学习的车辆换道行为决策方法及系统
CN111934335A (zh) * 2020-08-18 2020-11-13 华北电力大学 一种基于深度强化学习的集群电动汽车充电行为优化方法
CN113392396A (zh) * 2021-06-11 2021-09-14 浙江工业大学 面向深度强化学习的策略保护防御方法
CN113253739A (zh) * 2021-06-24 2021-08-13 深圳慧拓无限科技有限公司 一种用于高速公路的驾驶行为决策方法
CN113449458A (zh) * 2021-07-15 2021-09-28 海南大学 一种基于课程学习的多智能体深度确定性策略梯度方法
CN114137967A (zh) * 2021-11-23 2022-03-04 常熟理工学院 基于多网络联合学习的驾驶行为决策方法
CN114997048A (zh) * 2022-05-27 2022-09-02 南京航空航天大学 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘胜祥 ; 林群煦 ; 杨智才 ; 吴月玉 ; 翟玉江 ; .基于深度确定性策略梯度算法的双轮机器人平衡控制研究.机械工程师.2020,(第03期),第142-144页. *

Also Published As

Publication number Publication date
CN115542915A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN110488861A (zh) 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN115542915B (zh) 一种基于近似安全动作的自动驾驶强化学习方法
US20220176248A1 (en) Information processing method and apparatus, computer readable storage medium, and electronic device
Chen et al. Agent-aware dropout dqn for safe and efficient on-line dialogue policy learning
CN112149824B (zh) 利用博弈论更新推荐模型的方法及装置
CN112580801B (zh) 一种强化学习训练方法及基于强化学习的决策方法
CN112947541B (zh) 一种基于深度强化学习的无人机意图航迹预测方法
CN108803609B (zh) 基于约束在线规划的部分可观察自动驾驶决策方法
CN110942248B (zh) 交易风控网络的训练方法及装置、交易风险检测方法
CN113962012B (zh) 无人机对抗策略优化方法及装置
CN114261400B (zh) 一种自动驾驶决策方法、装置、设备和存储介质
JP7315007B2 (ja) 学習装置、学習方法および学習プログラム
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
CN115495771A (zh) 基于自适应调整权重的数据隐私保护方法及系统
Dhebar et al. Interpretable-AI policies using evolutionary nonlinear decision trees for discrete action systems
CN113947022B (zh) 一种基于模型的近端策略优化方法
CN113239472B (zh) 一种基于强化学习的导弹制导方法和装置
CN113561995A (zh) 一种基于多维奖励架构深度q学习的自动驾驶决策方法
CN115630566B (zh) 一种基于深度学习和动力约束的资料同化方法和系统
Xiao et al. Potential-based advice for stochastic policy learning
CN113240118B (zh) 优势估计方法、装置、电子设备和存储介质
CN113807646B (zh) 无人机与车辆协同任务分配的智能优化方法和系统
CN115909027A (zh) 一种态势估计方法及装置
CN115510986A (zh) 一种基于AdvGAN的对抗样本生成方法
US20230040914A1 (en) Learning device, learning method, and learning program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant