CN114647986A - 基于gp与ppo实现连续性动作决策的智能决策方法和系统 - Google Patents
基于gp与ppo实现连续性动作决策的智能决策方法和系统 Download PDFInfo
- Publication number
- CN114647986A CN114647986A CN202210404484.0A CN202210404484A CN114647986A CN 114647986 A CN114647986 A CN 114647986A CN 202210404484 A CN202210404484 A CN 202210404484A CN 114647986 A CN114647986 A CN 114647986A
- Authority
- CN
- China
- Prior art keywords
- model
- function
- strategy
- training
- experience
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于GP与PPO实现连续性动作决策的智能决策方法和系统,包括世界模型、策略模型和经验池,由世界模型生成的模拟经验被存入所述的经验池,所述的世界模型为基于GP的世界模型,所述的策略模型包括PPO算法,且PPO算法利用经验池中的模拟经验进行强化学习。提出了基于GP的Dyna‑PPO方法,将Dyna‑Q框架中的DQN算法替换为优化后的PPO算法,改进后的框架具有无模型DRL、基于模型DRL两种方案优势的同时能够被用于解决连续性动作的决策问题,从而实现基于Dyna‑框架的连续性动作决策。
Description
技术领域
本发明属于智能决策领域,尤其是涉及一种基于GP与PPO实现连续性动作决策的智能决策方法和系统。
背景技术
决策问题场景复杂、多变,不但存在像手势指令这样的离散型动作问题,同样存在像飞机车辆控制决策等连续性动作问题。但是目前更多的研究都局限于离散动作空间的情形,本申请人此前的研究(已申请专利:CN113392956B、CN112989017B、CN112989016B)阐述了基于GP的Dyna-Q方法,同样更多地局限于离散动作空间的情形,虽然动作空间也可以进行离散化处理,但是,一旦增大离散空间的维数,很容易遇到收敛困难的问题,而这将显著破坏决策方法的训练优势和性能优势。
自动驾驶是连续性决策的典型应用场景,基于规则和基于学习的方法是完成自动驾驶任务的两种主要方法。基于规则的方法通常是手动设计的,可以快速实现其功能,但该方法对未知情况的泛化能力很差,无法应付高可变性场景。基于学习的方法主要是基于DRL(深度强化学习)的方法,该方法使用深度神经网络将感知状态映射到车辆动作中,在过去关于自动驾驶的DRL研究中,主要有基于无模型方法的DRL方法和基于模型的DRL方法,但是,无模型 DRL方法通常需要花费大量时间在训练上,通过反复试错学得经验,学习效率很低;基于模型的 DRL方法如果无法从数据中学习到足够准确的模型,就很难达到需要的效果,而算法与未知环境交互过程中所记录的数据往往存在大量无用信息,选择合适的经验很困难,此外,创建验证动态模型也依赖于专业知识。
Dyna-Q框架结合了上述两种方法的优点,是一个很好的可行性方法,但是,Dyna-Q框架本身无法很好地处理连续性动作问题,而且Dyna-Q 框架仅限于在数据级别集成学习和规划。此外,由于经验池中的低质量数据,大量的规划步长会在充分训练后对学习造成损害,尽管能够通过设计判别模块来避免这种情况,但在效率和准确性方面仍然不能令人满意。
基于Dyna-Q框架结合了上述两种方法优点的背景基础,本方案试图在Dyna-Q框架基础上发展能够处理连续性动作问题的方法。
发明内容
本发明的目的是针对上述问题,提供一种基于GP与PPO实现连续性动作决策的智能决策方法和系统。
为达到上述目的,本发明采用了下列技术方案:
一种用于实现连续性动作决策的智能决策系统,包括世界模型、策略模型和经验池,由世界模型生成的模拟经验被存入所述的经验池,所述的世界模型为基于GP的世界模型,所述的策略模型包括PPO算法,且PPO算法利用经验池中的模拟经验进行强化学习。
在上述用于实现连续性动作决策的智能决策系统中,所述的策略模型包括策略损失函数,以及值函数损失函数和/或熵损失函数。
在上述用于实现连续性动作决策的智能决策系统中,所述策略模型的损失函数为:
在上述用于实现连续性动作决策的智能决策系统中,策略损失函数包括:
在上述用于实现连续性动作决策的智能决策系统中,值函数损失函数包括:
在上述用于实现连续性动作决策的智能决策系统中,用于训练世界模型的损失函数包括:
在上述用于实现连续性动作决策的智能决策系统中,所述的世界模型由多维输出的GP模型构建而成。
一种用于实现连续性动作决策的智能决策模型训练方法,包括以下步骤:
S1.策略模型用经验池中的模拟经验进行强化学习,模拟经验由世界模型基于真实经验模仿环境而生成;
在上述的用于实现连续性动作决策的智能决策模型训练方法中,具体包括以下步骤:
S1.策略模型针对状态s选择执行动作a,环境响应状态s’,回报值r和终止标志符t,保存经验(s,a,r,t)至经验池策略区以用于直接训练策略模型,保存(s,a,s’,r)至经验池世界区以用于训练世界模型;
本发明的优点在于:
1、使用多输出的GP方法来构建世界模型,能够结合先验知识,降低对训练数据的依赖;
2、提出了基于GP的Dyna-PPO方法,将Dyna-Q框架中的DQN算法替换为优化后的PPO算法,改进后的框架具有无模型DRL、基于模型DRL两种方案优势的同时能够被用于解决连续性动作的决策问题;
3、在GP方法中添加PPO算法的损失函数,使用PPO算法来辅助GP世界模型训练,能够提高模型的训练效率和性能。
附图说明
图1为基于GP 的Dyna-PPO 方法框架图;
图2为GP模型结构图的训练和预测阶段;
图3是实验过程中的算法流程图;
图4a为CarRacing-v0实验中,N=32,M=20,K=5、10、20、30时PPO和GPPPO的学习曲线图;
图4b为CarRacing-v0实验中,N=32,M=30,K=5、10、20、30时PPO和GPPPO的学习曲线图;
图4c为CarRacing-v0实验中,N=32,M=40,K=5、10、20、30时PPO和GPPPO的学习曲线图;
图5a为CarRacing-v0实验中N=32,M=20、25、30、40,K=5时PPO和GPPPO的学习曲线图;
图5b为CarRacing-v0实验中N=32,M=20、25、30、40,K=10时PPO和GPPPO的学习曲线图;
图5c为CarRacing-v0实验中N=32,M=20、25、30、40,K=20时PPO和GPPPO的学习曲线图;
图6a为CarRacing-v0实验中M=30,K=1,3,5,10,N=32时PPO和i-GPPPO的学习曲线图;
图6b为CarRacing-v0实验中M=30,K=1,3,5,10,N=16时PPO和i-GPPPO的学习曲线图;
图6c为CarRacing-v0实验中M=30,K=1,3,5,10,N=8时PPO和i-GPPPO的学习曲线图;
图7a为CarRacing-v0实验中M=30,K=1,N=8时PPO、GPPO、i-GPPPO的学习曲线图;
图7b为CarRacing-v0实验中M=30,K=3,N=8时PPO、GPPO、i-GPPPO的学习曲线图;
图7c为CarRacing-v0实验中M=30,K=5,N=8时PPO、GPPO、i-GPPPO的学习曲线图;
图8a为Carla Simulator实验中M=25,K=10,N=4时PPO、GPPO、i-GPPPO的学习曲线图;
图8b为Carla Simulator实验中M=25,K=10,N=8时PPO、GPPO、i-GPPPO的学习曲线图;
图8c为Carla Simulator实验中M=25,K=10,N=16时PPO、GPPO、i-GPPPO的学习曲线图;
图8d为Carla Simulator实验中M=25,K=10,N=32时PPO、GPPO、i-GPPPO的学习曲线图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步详细的说明。
如图1所示,本实施例公开了一种基于GP与PPO实现连续性动作决策的智能决策系统,包括世界模型、策略模型和经验池,在直接学习中,通过与环境交互来训练策略模型,同时,利用从环境中收集到的经验数据来训练世界模型,世界模型旨在学习状态转换和奖励以模仿环境,世界模型的输入和生成的输出将存储到经验池中,从而加速强化策略模型的训练。
与现有技术类似,经验池有两个分区,一个是经验策略区,存储用于训练策略模型的经验,一个经验世界区,存储用于训练世界模型的经验,策略区中的经验又分为两种,一种是与真实环境交互的真实经验,一种是由世界模型模仿真实环境生成的模拟经验。
与之前一样,世界模型仍然采样基于GP的世界模型,本方案得特别之处在于,策略模型包括PPO算法,且PPO算法利用经验池中的模拟经验进行强化学习。
PPO算法是一种新型的策略梯度(Policy Gradient,PG)算法,PPO 方法鼓励探索,并限制策略的变化以保持策略更新缓慢,是集智优化和策略优化与一体的方法,可以被用于处理连续性动作问题。
PPO算法提出了目标函数可以在多个训练步骤实现小批量的更新,解决了传统策略梯度算法中步长难以确定的问题。它在每一步迭代中都会尝试计算新的策略,能够在实现的难易程度、采样复杂度、调试所需精力之间取得新的平衡,可以让损失函数最小化,同时还能够保证与上一步迭代的策略间的偏差相对较小。同时,PPO算法又利用重要性采样,使样本被重复使用,不至于在每次算法的参数更新后都要重新使用算法与环境互动收集数据。
重要性采样的原理在于引入另一个重要性权重再进行求和,关键在于通过一个用
于考查新的策略和旧的策略的比值的策略比来引入重要性权重:,π表示策略
网络,θ表示策略网络的参数,at表示t时刻的动作,st表示t时刻的状态。
此外,PPO方法还引入了优势函数,表达式如下:
表示优势函数,表示t+1时刻回报值折现和与t时刻值函数的差,表示下
一个t+1时刻状态下的值函数;和分别代表在t步的回报和值函数,为折扣系数,λ是引
入的常数,使得优势函数具有更一般的数学表示,它通常可以取近似等于1的常数。
T表示一个episode有T个时刻,从一个特定的状态s出发,一直到任务结束被称为一个完整的episode,在每一步,都能得到一个奖励r,一个完整的任务所得到的最终奖励被称为R。
表示求平均值,是一个符号,表示取小的值,表示新旧策略变化比例,
表示PPO算法的优势函数,表示截断函数,是截断系数。策略损失函数中的第一项代表
保守策略迭代,在没有限制的条件下,优化这一项的时候会导致非常大的策略更新,而第二
项的操作消除了将移到区间[1-, 1+]之外的可能,并且,由于最小值函数min的存在,使
得代价函数总是取到第一项的下界,使得在PPO算法中优化前后的策略不至于突变,从而得
到更好的策略。
本方案使用PPO算法代替DQN,利用PPO算法的对连续问题的处理能力,使Dyna框架在具有无模型DRL、基于模型DRL两种方案优势的同时能够被用于解决连续性动作的决策问题。
进一步地,如图2所示,本方案GP模型仍然以状态s和动作a作为输入,上一时刻下
一时刻的差s及回报值r作为输出。与前一次申请不同的是,本次采用多输出的GP模型来构
建世界模型,将多维输出的问题看成是多个相关的任务,充分考虑每个维度的相关性,能够
结合先验知识,降低对训练数据的依赖,以此提高预测得准确率。
其中,用于描述不同任务之间的关联,用于描述不同输入之间的关联,两者可
选取相同的函数,在一般情况下,为了满足高斯分布的内禀要求,必须为一个半正定的矩
阵,因此为了保证的半正定性,可以使用 Cholesky 分解两个矩阵的乘积 LLT,其中 L
是下三角矩阵,当然,也可以将其形式选定为现有的常用核函数。
代表预测得到的平均值,y表示训练数据中的输出值,表示预测得到的协方
差,表示单位矩阵,表示kronecker乘积,表示第列,表示与之间的关联向量,代表训练数据之间的关联矩阵,D是N*M维的对角矩阵,每个矩阵元对应着第l个噪声值。
同样的道理,为了进行模型选择可以对NLL进行优化求解,表达式如下:
优选地,本方案提出使用PPO方法来协助训练世界模型,采用在GP方法中添加PPO
算法的损失函数来协助世界模型。具体地,本方案首先对PPO算法的损失函数进行改进,除
了前述关于策略方面的策略损失函数,还考虑了另外两个损失函数,值函数的损失函数和熵的损失函数。
具体地,对于熵的损失函数,直接采用现有的方法即可。对于值函数的损失
函数,这里将值函数部分的损失函数设计为由策略损失函数的值与回报值的差组成,
计算跟随轨迹得到每一步的回报值r及其衰减,将该轨迹所累积的回报值记为Rt,与策略损
失函数计算得到的值函数作差进行平均求值得到值函数的损失函数:
其中,表示跟随轨迹所积累的回报值,为值函数,表示求平均值。对PPO算
法进行优化改进后用于Dyna框架的决策模型,能够在高斯分布中进行连续动作的采样时考
虑分布的影响,采样到分布更广的动作,能够匹配于作为世界模型的GP模型,使得训练更充
分,同时使得PPO算法能够更好地辅助GP模型训练。
因此,整个PPO算法的损失函数就由这三个函数的线性组合组成:
c1,c2的引入是为了平衡三者的值,以得到更好的优化结果,c1,c2可以由技术人员根据需要确定。
具体地,用于实现连续性动作决策的智能决策模型训练方法包括以下步骤:
S1.生成初始状态s,策略模型针对状态s计算得到Q值q,选择执行动作a,环境响应状态s’,回报值r和终止标志符t,保存经验(s,a,r,q,t)到经验池策略区以用于直接训练策略模型,保存(s,a,s’,r)到经验池世界区以用于训练世界模型;
S4.策略模型从经验池策略区中进行小批量采样,用模拟经验(s,a,r,q,t’)进行
强化学习,用真实经验(s,a,r,q,t)进行直接学习,利用损失函数
执行Adam算法更新模型参数,并保存本次训练中每一步的;
进一步地,每隔设定时间清空经验池,并且经验池采用以新数据替代旧数据的方式更新经验数据,能够避免过于老旧的经验对训练效果产生不好的影响。
为了说明本方案的有效性和优越性,本实施例在CarRacing-v0和CARLA 两种环境下,并在不同超参数下与单纯的PPO 方法进行性能比较。在这些实验中,车辆传感器接收到的图像由变分编码器模型处理,如图3所示,图像信息与外部状态拼接起来作为变分编码器模型的输入。
实验测试参与的算法名称如下:
GPPPO(M,K,N),基于本方案的GPPPO方法学习,M是预热步长,K是规划步长的数量,N是批次大小,此模型未使用 PPO 损失函数来优化世界模型;
i-GPPPO(M,K,N ),类似于GPPPO(M,K,N),但额外使用了PPO的损失函数来优化世界模型;
PPO(N)仅通过 PPO方法学习。
PPO方法由OpenAI提出在2017年提出,它是强化学习一个里程碑式的进步。PPO方法鼓励探索,并限制策略的变化以保持策略更新缓慢,是集智优化和策略优化与一体的方法框架。因此,通过深度强化学习框架使用 PPO 已成为控制多辆自动驾驶汽车的一种很有前途的方法,基于PPO 的深度强化学习也相应的被应用于常见的驾驶任务。
实验环境设置:
1)CarRacing-v0,由Open AI团队开发,是Gym中的一个环境,用于对强化学习算法进行基准测试,该环境原始目的用于赛车,这里为了让环境实现车道保持的目标,对环境进行如下修改以适应此类任务:
降低转弯半径,并通过去除刹车动作来减少动作空间,使动作空间仅有两个元素向量a={steer,acc},steer,acc分别代表汽车方向盘转角和油门。为了更好地控制汽车并限制其最大速度,在速度接近 30 像素/时间步时关闭油门。终止条件主要包括驶离道路,汽车动作30次后速度小于0.1像素/时间步长,同一轨道被访问两次。此外,将环境RGB帧转换为84×84灰度图像后,将灰度图像输入变分自编码器(VAE)模型之前,分别从图像的左侧、右侧和下部裁剪 6、6 和12个像素以减少状态空间。经过VAE模型处理后,策略模型的输入状态是一个8维向量。本实验环境的奖励函数定义如下:
其中v是以像素/时间步长为单位的汽车速度。
2)CARLA Simulator:由于CarRacing-v0环境距真实的道路有很大的差距,为了更好的说明算法的优越性,本实验还采用城市驾驶模拟器 CARLA(版本 0.9.11)来进行测试。CARL是一个开源的自动驾驶模拟器,建立在虚幻引擎4之上,它允许以任意方式控制所有车辆、地图和传感器。在本实验中,使用具有许多交叉路口的密集的道路地图 Town07来测试各算法。
因为在不考虑交通规则的情况下,动作刹车在某种程度上可能对训练算法有害,故本实验与前述CarRacing-v0环境一样,只保留动作{steer,acc}元组,本实验环境的奖励函数定义如下:
本实验环境下,在输入策略模型和世界模型之前,同样应用了VAE模型对图像进行预处理。
实验环境下的实验结果:
在这组实验中,通过改变算法中的规划步长和预热步长来进行不同参数下的性能评估。
图4a-图4c是PPO和GPPPO两个算法在M=20、30、40,K=5、10、20、30和N=32参数下的三副学习曲线图,且每副曲线图中,GPPPO算法具有相同的预热步长,不同的规划步长。图5a-5c是PPO和GPPPO两个算法M=20、25、30、40,K = 5、10、20和N=32参数下的三副学习曲线图,且每副曲线图中,算法具有相同的规划步长,不同的预热步长。预热步长这个参数决定着世界模型何时参与整个算法。由图4a-图4c和图5a-图5c可以得出,PPO和GPPPO都能够得到类似的效果,但GPPPO首先更稳定,且收敛速度更快,优于PPO算法。但是由于世界模型旨在模仿环境,由于性能的瓶颈,GPPPO不会比朴素的PPO有很大的改进,一般而言,根据图4a-图4c和图5a-图5c,GPPPO算法可以提高相对较小步长的早期性能,并在收敛阶段获得更稳定的结果。
图6a-图6c是PPO和i-GPPPO两个算法M=30,K =1、3、5、10和N=32、16、8参数下的三副学习曲线图,且每副曲线图中,算法具有相同的批次大小,不同的规划步长。在本实验中,将预热步长设置为 30,并更改其他两个参数。三个曲线图中,依次将批次大小缩小,并保持其他参数与之前的实验相同。批次为8与批次为32相比,i-GPPPO在收敛阶段仍然得到了相似的效果,而PPO算法在批次为8时比32时振荡得更多,尤其是在150个epoch之后。所以可以看到,随着批次的下降,对PPO算法的性能产生了非常不利的影响。
此外,从图7a-图7c可以看到三种算法在相同批次N=8和预热步长M=30,不同规划步长K=1,3,5下的性能比较结果,可以看到,i-GPPPO方法在规划步长较小的时候,在收敛阶段比GPPPO具有更好的性能,并且,在迭代次数较小的时候,特别是小于50的时候,i-GPPPO方法也具有更好的性能,尽管在迭代次数为100左右,i-GPPPO方法确实显示出了一定的震荡性,但在后期的表现又比另两种方法平稳。
实验环境下的实验结果:
由于CARLA比CarRacing-v0 更复杂,因此收敛所需的时间比 CarRacing-v0 多得多。此外,从 CarRacing-v0 实验中可以得出参数、规划步长和批次大小在性能中起着更重要作用的结论,相对较小的规划步长是更好的选择,所以采用较少的规划步长,规划步长与预热步长固定,M=25,K=10,批次大小分别为N=4,8,16,32。
在这个复杂的实验中,将VAE模型的输出维度设置为10,并将其与车辆的动作和速度连接起来。依图8a-图8d可以看到,总的来说,i-GPPPO效果最好,GPPPO其次,PPO效果最差,尤其是在早期和收敛阶段,在早期阶段,i-GPPPO的曲线上升地更快,在收敛阶段,i-GPPPO方法训练的车辆可以也行驶更大的距离。
此外,我们可以注意到GPPPO方法在批次大小为32的情况下最差。世界模型和策略模型的交互确实增加了样本的多样性,但也会产生太多相似的数据,这会导致当世界模型表现不佳时,不利于策略模型。然而,根据本实验的分析,可以为世界模型预测的奖励 r设置一个合适的阈值,并且只有当r的值大于阈值时才可能被认为是好的经验添加到经验池中,这种方式在前一批方案中也有提及,并且被证实可以产生较好的效果,具体方式不在此赘述。
本方法提出基于GP的PPO方法来无需将既有的连续性动作决策问题转换为离散性动作决策的智能决策方案,即可实现针对连续性动作的智能决策,并且将所使用的世界模型构建为多任务的GP模型,同时利用PPO的损失函数辅助世界模型的训练,所实现的算法具有能够实现快速训练且具有良好性能的效果。
结合以上的实验数据可以看到,本方案实现的智能决策模型在收敛性和鲁棒性方面要略优于近端策略优化方法,为连续性动作决策的解决提供了更加有效的可行性方案,也为后续进一步探索学习与规划融合模式下的连续性决策问题打下良好的理论基础。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了世界模型、策略模型、经验池、策略损失函数、值函数损失函数、熵损失函数等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。
Claims (10)
1.一种用于实现连续性动作决策的智能决策系统,包括世界模型、策略模型和经验池,由世界模型生成的模拟经验被存入所述的经验池,其特征在于,所述的世界模型为基于GP的世界模型,所述的策略模型包括PPO算法,且PPO算法利用经验池中的模拟经验进行强化学习。
2.根据权利要求1所述的用于实现连续性动作决策的智能决策系统,其特征在于,所述的策略模型包括策略损失函数,以及值函数损失函数和/或熵损失函数。
7.根据权利要求6所述的用于实现连续性动作决策的智能决策系统,其特征在于,所述的世界模型由多维输出的GP模型构建而成。
10.根据权利要求9所述的用于实现连续性动作决策的智能决策模型训练方法,其特征在于,具体包括以下步骤:
S1.策略模型针对状态s选择执行动作a,环境响应状态s’,回报值r和终止标志符t,保存经验(s,a,r,t)至经验池策略区以用于直接训练策略模型,保存(s,a,s’,r)至经验池世界区以用于训练世界模型;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404484.0A CN114647986B (zh) | 2022-04-18 | 2022-04-18 | 基于gp与ppo实现连续性动作决策的智能决策方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210404484.0A CN114647986B (zh) | 2022-04-18 | 2022-04-18 | 基于gp与ppo实现连续性动作决策的智能决策方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114647986A true CN114647986A (zh) | 2022-06-21 |
CN114647986B CN114647986B (zh) | 2023-08-08 |
Family
ID=81996841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210404484.0A Active CN114647986B (zh) | 2022-04-18 | 2022-04-18 | 基于gp与ppo实现连续性动作决策的智能决策方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114647986B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989017A (zh) * | 2021-05-17 | 2021-06-18 | 南湖实验室 | 用于生成对话策略学习用高质量模拟经验的方法 |
CN113392956A (zh) * | 2021-05-17 | 2021-09-14 | 南湖实验室 | 用于对话策略学习的基于GP的深度Dyna-Q方法 |
WO2022028926A1 (en) * | 2020-08-07 | 2022-02-10 | Telefonaktiebolaget Lm Ericsson (Publ) | Offline simulation-to-reality transfer for reinforcement learning |
-
2022
- 2022-04-18 CN CN202210404484.0A patent/CN114647986B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022028926A1 (en) * | 2020-08-07 | 2022-02-10 | Telefonaktiebolaget Lm Ericsson (Publ) | Offline simulation-to-reality transfer for reinforcement learning |
CN112989017A (zh) * | 2021-05-17 | 2021-06-18 | 南湖实验室 | 用于生成对话策略学习用高质量模拟经验的方法 |
CN113392956A (zh) * | 2021-05-17 | 2021-09-14 | 南湖实验室 | 用于对话策略学习的基于GP的深度Dyna-Q方法 |
Non-Patent Citations (1)
Title |
---|
郭锐,彭军,吴敏: "增强Q学习在非确定马尔可夫系统寻优问题中的应用", 计算机工程与应用, no. 13 * |
Also Published As
Publication number | Publication date |
---|---|
CN114647986B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110568760B (zh) | 适用于换道及车道保持的参数化学习决策控制系统及方法 | |
CN110969848B (zh) | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 | |
Liang et al. | Cirl: Controllable imitative reinforcement learning for vision-based self-driving | |
CN111338346B (zh) | 一种自动驾驶控制方法、装置、车辆及存储介质 | |
CN109624986A (zh) | 一种基于模式切换的驾驶风格的学习巡航控制系统及方法 | |
Wang et al. | Highway lane change decision-making via attention-based deep reinforcement learning | |
CN112232490B (zh) | 一种基于视觉的深度模仿强化学习驾驶策略训练方法 | |
Lu et al. | Hierarchical reinforcement learning for autonomous decision making and motion planning of intelligent vehicles | |
Huang et al. | An efficient self-evolution method of autonomous driving for any given algorithm | |
Jiang et al. | Path tracking control based on Deep reinforcement learning in Autonomous driving | |
Hu et al. | Learning dynamic graph for overtaking strategy in autonomous driving | |
Liu et al. | Efficient batch-mode reinforcement learning using extreme learning machines | |
Fang et al. | A maximum entropy inverse reinforcement learning algorithm for automatic parking | |
CN114647986A (zh) | 基于gp与ppo实现连续性动作决策的智能决策方法和系统 | |
Guo et al. | Modeling, learning and prediction of longitudinal behaviors of human-driven vehicles by incorporating internal human DecisionMaking process using inverse model predictive control | |
CN114997048A (zh) | 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法 | |
CN114492215A (zh) | 利用策略模型辅助训练的gp世界模型及其训练方法 | |
Chen et al. | Decision making for overtaking of unmanned vehicle based on deep Q-learning | |
Deng et al. | Deep Reinforcement Learning Based Decision-Making Strategy of Autonomous Vehicle in Highway Uncertain Driving Environments | |
Jiang et al. | An efficient framework for reliable and personalized motion planner in autonomous driving | |
Duan et al. | Encoding Distributional Soft Actor-Critic for Autonomous Driving in Multi-Lane Scenarios [Research Frontier][Research Frontier] | |
Deng et al. | Context-Enhanced Meta-Reinforcement Learning with Data-Reused Adaptation for Urban Autonomous Driving | |
Youssef et al. | Optimal Combination of Imitation and Reinforcement Learning for Self-driving Cars. | |
Wang et al. | An End-to-End Deep Reinforcement Learning Model Based on Proximal Policy Optimization Algorithm for Autonomous Driving of Off-Road Vehicle | |
Liu et al. | Learn to Race: Sequential Actor-Critic Reinforcement Learning for Autonomous Racing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |