CN114647986A - 基于gp与ppo实现连续性动作决策的智能决策方法和系统 - Google Patents

基于gp与ppo实现连续性动作决策的智能决策方法和系统 Download PDF

Info

Publication number
CN114647986A
CN114647986A CN202210404484.0A CN202210404484A CN114647986A CN 114647986 A CN114647986 A CN 114647986A CN 202210404484 A CN202210404484 A CN 202210404484A CN 114647986 A CN114647986 A CN 114647986A
Authority
CN
China
Prior art keywords
model
function
strategy
training
experience
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210404484.0A
Other languages
English (en)
Other versions
CN114647986B (zh
Inventor
方文其
吴冠霖
葛品
平洋
栾绍童
戴迎枫
缪正元
沈源源
金新竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanhu Laboratory
Original Assignee
Nanhu Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanhu Laboratory filed Critical Nanhu Laboratory
Priority to CN202210404484.0A priority Critical patent/CN114647986B/zh
Publication of CN114647986A publication Critical patent/CN114647986A/zh
Application granted granted Critical
Publication of CN114647986B publication Critical patent/CN114647986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于GP与PPO实现连续性动作决策的智能决策方法和系统,包括世界模型、策略模型和经验池,由世界模型生成的模拟经验被存入所述的经验池,所述的世界模型为基于GP的世界模型,所述的策略模型包括PPO算法,且PPO算法利用经验池中的模拟经验进行强化学习。提出了基于GP的Dyna‑PPO方法,将Dyna‑Q框架中的DQN算法替换为优化后的PPO算法,改进后的框架具有无模型DRL、基于模型DRL两种方案优势的同时能够被用于解决连续性动作的决策问题,从而实现基于Dyna‑框架的连续性动作决策。

Description

基于GP与PPO实现连续性动作决策的智能决策方法和系统
技术领域
本发明属于智能决策领域,尤其是涉及一种基于GP与PPO实现连续性动作决策的智能决策方法和系统。
背景技术
决策问题场景复杂、多变,不但存在像手势指令这样的离散型动作问题,同样存在像飞机车辆控制决策等连续性动作问题。但是目前更多的研究都局限于离散动作空间的情形,本申请人此前的研究(已申请专利:CN113392956B、CN112989017B、CN112989016B)阐述了基于GP的Dyna-Q方法,同样更多地局限于离散动作空间的情形,虽然动作空间也可以进行离散化处理,但是,一旦增大离散空间的维数,很容易遇到收敛困难的问题,而这将显著破坏决策方法的训练优势和性能优势。
自动驾驶是连续性决策的典型应用场景,基于规则和基于学习的方法是完成自动驾驶任务的两种主要方法。基于规则的方法通常是手动设计的,可以快速实现其功能,但该方法对未知情况的泛化能力很差,无法应付高可变性场景。基于学习的方法主要是基于DRL(深度强化学习)的方法,该方法使用深度神经网络将感知状态映射到车辆动作中,在过去关于自动驾驶的DRL研究中,主要有基于无模型方法的DRL方法和基于模型的DRL方法,但是,无模型 DRL方法通常需要花费大量时间在训练上,通过反复试错学得经验,学习效率很低;基于模型的 DRL方法如果无法从数据中学习到足够准确的模型,就很难达到需要的效果,而算法与未知环境交互过程中所记录的数据往往存在大量无用信息,选择合适的经验很困难,此外,创建验证动态模型也依赖于专业知识。
Dyna-Q框架结合了上述两种方法的优点,是一个很好的可行性方法,但是,Dyna-Q框架本身无法很好地处理连续性动作问题,而且Dyna-Q 框架仅限于在数据级别集成学习和规划。此外,由于经验池中的低质量数据,大量的规划步长会在充分训练后对学习造成损害,尽管能够通过设计判别模块来避免这种情况,但在效率和准确性方面仍然不能令人满意。
基于Dyna-Q框架结合了上述两种方法优点的背景基础,本方案试图在Dyna-Q框架基础上发展能够处理连续性动作问题的方法。
发明内容
本发明的目的是针对上述问题,提供一种基于GP与PPO实现连续性动作决策的智能决策方法和系统。
为达到上述目的,本发明采用了下列技术方案:
一种用于实现连续性动作决策的智能决策系统,包括世界模型、策略模型和经验池,由世界模型生成的模拟经验被存入所述的经验池,所述的世界模型为基于GP的世界模型,所述的策略模型包括PPO算法,且PPO算法利用经验池中的模拟经验进行强化学习。
在上述用于实现连续性动作决策的智能决策系统中,所述的策略模型包括策略损失函数,以及值函数损失函数和/或熵损失函数。
在上述用于实现连续性动作决策的智能决策系统中,所述策略模型的损失函数为:
Figure 466002DEST_PATH_IMAGE001
(1)
其中,
Figure 502091DEST_PATH_IMAGE002
为策略损失函数,
Figure 580774DEST_PATH_IMAGE003
表示值函数损失函数,
Figure 436735DEST_PATH_IMAGE004
为高斯分布的熵损 失函数,
Figure 9799DEST_PATH_IMAGE005
是权重值。
在上述用于实现连续性动作决策的智能决策系统中,策略损失函数包括:
Figure 369236DEST_PATH_IMAGE006
(2)
Figure 899048DEST_PATH_IMAGE007
表示求平均值,
Figure 976726DEST_PATH_IMAGE008
表示取小的值,
Figure 619060DEST_PATH_IMAGE009
表示新旧策略变化比例,
Figure 895320DEST_PATH_IMAGE010
表示PPO算法 的优势函数,
Figure 332118DEST_PATH_IMAGE011
表示截断函数,
Figure 146359DEST_PATH_IMAGE012
是截断系数。
在上述用于实现连续性动作决策的智能决策系统中,值函数损失函数包括:
Figure 326804DEST_PATH_IMAGE013
(3)
其中,
Figure 660834DEST_PATH_IMAGE014
表示跟随轨迹所积累的回报值,
Figure 268533DEST_PATH_IMAGE015
为值函数,
Figure 507753DEST_PATH_IMAGE007
表示求平均值。
在上述用于实现连续性动作决策的智能决策系统中,用于训练世界模型的损失函数包括:
Figure 960731DEST_PATH_IMAGE016
(4)
Figure 664114DEST_PATH_IMAGE017
Figure 442714DEST_PATH_IMAGE018
分别为可调系数,
Figure 982280DEST_PATH_IMAGE019
为世界模型优化函数,
Figure 504528DEST_PATH_IMAGE020
为策略模型的损失函数。
在上述用于实现连续性动作决策的智能决策系统中,所述的世界模型由多维输出的GP模型构建而成。
在上述用于实现连续性动作决策的智能决策系统中,世界模型优化函数
Figure 65347DEST_PATH_IMAGE019
包括:
Figure 811586DEST_PATH_IMAGE021
(5)
其中,
Figure 572868DEST_PATH_IMAGE022
为预测得到的协方差,
Figure 898808DEST_PATH_IMAGE023
,D是N*M维的对角矩阵,I表示单位 矩阵,
Figure 61936DEST_PATH_IMAGE024
用于描述不同任务之间的关联,
Figure 166027DEST_PATH_IMAGE025
表示训练数据之间的关联矩阵,y表示训练数据中 的输出值。
一种用于实现连续性动作决策的智能决策模型训练方法,包括以下步骤:
S1.策略模型用经验池中的模拟经验进行强化学习,模拟经验由世界模型基于真实经验模仿环境而生成;
S2.每一次训练中,保存策略模型训练过程每一步策略模型的损失函数
Figure 680185DEST_PATH_IMAGE026
,并取平 均值
Figure 544235DEST_PATH_IMAGE020
,每次训练后将
Figure 561870DEST_PATH_IMAGE020
代入世界模型的损失函数用于下一次世界模型的训练。
在上述的用于实现连续性动作决策的智能决策模型训练方法中,具体包括以下步骤:
S1.策略模型针对状态s选择执行动作a,环境响应状态s’,回报值r和终止标志符t,保存经验(s,a,r,t)至经验池策略区以用于直接训练策略模型,保存(s,a,s’,r)至经验池世界区以用于训练世界模型;
S2.世界模型从经验池世界区中采样,利用损失函数
Figure 368021DEST_PATH_IMAGE016
更新模型参 数
Figure 103896DEST_PATH_IMAGE027
S3.训练后的世界模型从经验池策略区中采样得到状态s,动作a和终止标志符t’, 并响应状态差
Figure 771637DEST_PATH_IMAGE028
s和回报值r,s’=s+
Figure 643779DEST_PATH_IMAGE028
s,将(s,a,r,t’)作为模拟经验保存至经验池策略区;
S4.策略模型从经验池策略区中采样,利用损失函数
Figure 620831DEST_PATH_IMAGE001
更 新模型参数
Figure 844002DEST_PATH_IMAGE029
,并保存本次训练中每一步的
Figure 846593DEST_PATH_IMAGE026
S5.对
Figure 838819DEST_PATH_IMAGE026
取平均值作为
Figure 737505DEST_PATH_IMAGE020
后代入
Figure 434590DEST_PATH_IMAGE016
,用于下一次世界模型的训练。
本发明的优点在于:
1、使用多输出的GP方法来构建世界模型,能够结合先验知识,降低对训练数据的依赖;
2、提出了基于GP的Dyna-PPO方法,将Dyna-Q框架中的DQN算法替换为优化后的PPO算法,改进后的框架具有无模型DRL、基于模型DRL两种方案优势的同时能够被用于解决连续性动作的决策问题;
3、在GP方法中添加PPO算法的损失函数,使用PPO算法来辅助GP世界模型训练,能够提高模型的训练效率和性能。
附图说明
图1为基于GP 的Dyna-PPO 方法框架图;
图2为GP模型结构图的训练和预测阶段;
图3是实验过程中的算法流程图;
图4a为CarRacing-v0实验中,N=32,M=20,K=5、10、20、30时PPO和GPPPO的学习曲线图;
图4b为CarRacing-v0实验中,N=32,M=30,K=5、10、20、30时PPO和GPPPO的学习曲线图;
图4c为CarRacing-v0实验中,N=32,M=40,K=5、10、20、30时PPO和GPPPO的学习曲线图;
图5a为CarRacing-v0实验中N=32,M=20、25、30、40,K=5时PPO和GPPPO的学习曲线图;
图5b为CarRacing-v0实验中N=32,M=20、25、30、40,K=10时PPO和GPPPO的学习曲线图;
图5c为CarRacing-v0实验中N=32,M=20、25、30、40,K=20时PPO和GPPPO的学习曲线图;
图6a为CarRacing-v0实验中M=30,K=1,3,5,10,N=32时PPO和i-GPPPO的学习曲线图;
图6b为CarRacing-v0实验中M=30,K=1,3,5,10,N=16时PPO和i-GPPPO的学习曲线图;
图6c为CarRacing-v0实验中M=30,K=1,3,5,10,N=8时PPO和i-GPPPO的学习曲线图;
图7a为CarRacing-v0实验中M=30,K=1,N=8时PPO、GPPO、i-GPPPO的学习曲线图;
图7b为CarRacing-v0实验中M=30,K=3,N=8时PPO、GPPO、i-GPPPO的学习曲线图;
图7c为CarRacing-v0实验中M=30,K=5,N=8时PPO、GPPO、i-GPPPO的学习曲线图;
图8a为Carla Simulator实验中M=25,K=10,N=4时PPO、GPPO、i-GPPPO的学习曲线图;
图8b为Carla Simulator实验中M=25,K=10,N=8时PPO、GPPO、i-GPPPO的学习曲线图;
图8c为Carla Simulator实验中M=25,K=10,N=16时PPO、GPPO、i-GPPPO的学习曲线图;
图8d为Carla Simulator实验中M=25,K=10,N=32时PPO、GPPO、i-GPPPO的学习曲线图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步详细的说明。
如图1所示,本实施例公开了一种基于GP与PPO实现连续性动作决策的智能决策系统,包括世界模型、策略模型和经验池,在直接学习中,通过与环境交互来训练策略模型,同时,利用从环境中收集到的经验数据来训练世界模型,世界模型旨在学习状态转换和奖励以模仿环境,世界模型的输入和生成的输出将存储到经验池中,从而加速强化策略模型的训练。
与现有技术类似,经验池有两个分区,一个是经验策略区,存储用于训练策略模型的经验,一个经验世界区,存储用于训练世界模型的经验,策略区中的经验又分为两种,一种是与真实环境交互的真实经验,一种是由世界模型模仿真实环境生成的模拟经验。
与之前一样,世界模型仍然采样基于GP的世界模型,本方案得特别之处在于,策略模型包括PPO算法,且PPO算法利用经验池中的模拟经验进行强化学习。
PPO算法是一种新型的策略梯度(Policy Gradient,PG)算法,PPO 方法鼓励探索,并限制策略的变化以保持策略更新缓慢,是集智优化和策略优化与一体的方法,可以被用于处理连续性动作问题。
PPO算法提出了目标函数可以在多个训练步骤实现小批量的更新,解决了传统策略梯度算法中步长难以确定的问题。它在每一步迭代中都会尝试计算新的策略,能够在实现的难易程度、采样复杂度、调试所需精力之间取得新的平衡,可以让损失函数最小化,同时还能够保证与上一步迭代的策略间的偏差相对较小。同时,PPO算法又利用重要性采样,使样本被重复使用,不至于在每次算法的参数更新后都要重新使用算法与环境互动收集数据。
重要性采样的原理在于引入另一个重要性权重再进行求和,关键在于通过一个用 于考查新的策略和旧的策略的比值的策略比来引入重要性权重:
Figure 444135DEST_PATH_IMAGE030
,π表示策略 网络,θ表示策略网络的参数,at表示t时刻的动作,st表示t时刻的状态。
此外,PPO方法还引入了优势函数,表达式如下:
Figure 290868DEST_PATH_IMAGE031
(1)
Figure 94876DEST_PATH_IMAGE010
表示优势函数,
Figure 541907DEST_PATH_IMAGE032
表示t+1时刻回报值折现和与t时刻值函数的差,
Figure 89563DEST_PATH_IMAGE033
表示下 一个t+1时刻状态下的值函数;
Figure 56382DEST_PATH_IMAGE034
Figure 31291DEST_PATH_IMAGE035
分别代表在t步的回报和值函数,
Figure 513088DEST_PATH_IMAGE036
为折扣系数,λ是引 入的常数,使得优势函数
Figure 113702DEST_PATH_IMAGE010
具有更一般的数学表示,它通常可以取近似等于1的常数。
T表示一个episode有T个时刻,从一个特定的状态s出发,一直到任务结束被称为一个完整的episode,在每一步,都能得到一个奖励r,一个完整的任务所得到的最终奖励被称为R。
PPO算法的策略损失函数为:
Figure 935028DEST_PATH_IMAGE037
(2)
Figure 346418DEST_PATH_IMAGE007
表示求平均值,是一个符号,
Figure 253194DEST_PATH_IMAGE008
表示取小的值,
Figure 126341DEST_PATH_IMAGE009
表示新旧策略变化比例,
Figure 67752DEST_PATH_IMAGE010
表示PPO算法的优势函数,
Figure 384464DEST_PATH_IMAGE011
表示截断函数,
Figure 778536DEST_PATH_IMAGE012
是截断系数。策略损失函数中的第一项代表 保守策略迭代,在没有限制的条件下,优化这一项的时候会导致非常大的策略更新,而第二 项的操作消除了将
Figure 723883DEST_PATH_IMAGE034
移到区间[1-
Figure 519800DEST_PATH_IMAGE038
, 1+
Figure 69730DEST_PATH_IMAGE038
]之外的可能,并且,由于最小值函数min的存在,使 得代价函数总是取到第一项的下界,使得在PPO算法中优化前后的策略不至于突变,从而得 到更好的策略。
本方案使用PPO算法代替DQN,利用PPO算法的对连续问题的处理能力,使Dyna框架在具有无模型DRL、基于模型DRL两种方案优势的同时能够被用于解决连续性动作的决策问题。
进一步地,如图2所示,本方案GP模型仍然以状态s和动作a作为输入,上一时刻下 一时刻的差
Figure 951099DEST_PATH_IMAGE028
s及回报值r作为输出。与前一次申请不同的是,本次采用多输出的GP模型来构 建世界模型,将多维输出的问题看成是多个相关的任务,充分考虑每个维度的相关性,能够 结合先验知识,降低对训练数据的依赖,以此提高预测得准确率。
考虑这样一种情形,集合X包括N个不同的输入
Figure 182360DEST_PATH_IMAGE039
,对应的M个任务的输出
Figure 82052DEST_PATH_IMAGE040
,其中
Figure 6145DEST_PATH_IMAGE041
对应第i个输入和第
Figure 374810DEST_PATH_IMAGE042
个任务,其分布 与一维输出的GP类似,满足
Figure 144183DEST_PATH_IMAGE043
,与一般高斯模型一样,可以假设GP模型的平均值为 0,不同任务及不同输入之间的关联函数可以为:
Figure 898381DEST_PATH_IMAGE044
(3)
其中,
Figure 993376DEST_PATH_IMAGE045
用于描述不同任务之间的关联,
Figure 849336DEST_PATH_IMAGE046
用于描述不同输入之间的关联,两者可 选取相同的函数,在一般情况下,为了满足高斯分布的内禀要求,
Figure 422400DEST_PATH_IMAGE045
必须为一个半正定的矩 阵,因此为了保证
Figure 844154DEST_PATH_IMAGE045
的半正定性,可以使用 Cholesky 分解两个矩阵的乘积 LLT,其中 L 是下三角矩阵,当然,也可以将其形式选定为现有的常用核函数。
在多维输出的GP模型中,针对任务
Figure 359318DEST_PATH_IMAGE042
,以测试
Figure 436996DEST_PATH_IMAGE047
为输入的平均值可以用如下表达式 表示:
Figure 79329DEST_PATH_IMAGE048
(4)
Figure 293273DEST_PATH_IMAGE049
代表预测得到的平均值,y表示训练数据中的输出值,
Figure 236128DEST_PATH_IMAGE022
表示预测得到的协方 差,
Figure 535523DEST_PATH_IMAGE050
表示单位矩阵,
Figure 715968DEST_PATH_IMAGE051
表示kronecker乘积,
Figure 49998DEST_PATH_IMAGE052
表示
Figure 906964DEST_PATH_IMAGE045
Figure 959234DEST_PATH_IMAGE042
列,
Figure 677791DEST_PATH_IMAGE053
表示
Figure 131906DEST_PATH_IMAGE054
Figure 159774DEST_PATH_IMAGE047
之间的关联向量,
Figure 699340DEST_PATH_IMAGE055
代表训练数据之间的关联矩阵,D是N*M维的对角矩阵,每个矩阵元对应着第l个噪声值。 同样的道理,为了进行模型选择可以对NLL进行优化求解,表达式如下:
Figure 221588DEST_PATH_IMAGE021
(5)
优选地,本方案提出使用PPO方法来协助训练世界模型,采用在GP方法中添加PPO 算法的损失函数来协助世界模型。具体地,本方案首先对PPO算法的损失函数进行改进,除 了前述关于策略方面的策略损失函数,还考虑了另外两个损失函数,值函数的损失函数
Figure 530209DEST_PATH_IMAGE003
和熵的损失函数
Figure 728979DEST_PATH_IMAGE004
具体地,对于熵的损失函数
Figure 490261DEST_PATH_IMAGE004
,直接采用现有的方法即可。对于值函数的损失 函数
Figure 612938DEST_PATH_IMAGE003
,这里将值函数部分的损失函数设计为由策略损失函数的值与回报值的差组成, 计算跟随轨迹得到每一步的回报值r及其衰减,将该轨迹所累积的回报值记为Rt,与策略损 失函数计算得到的值函数
Figure 776066DEST_PATH_IMAGE015
作差进行平均求值得到值函数的损失函数:
Figure 896469DEST_PATH_IMAGE013
(6)
其中,
Figure 662824DEST_PATH_IMAGE014
表示跟随轨迹所积累的回报值,
Figure 526875DEST_PATH_IMAGE015
为值函数,
Figure 544509DEST_PATH_IMAGE007
表示求平均值。对PPO算 法进行优化改进后用于Dyna框架的决策模型,能够在高斯分布中进行连续动作的采样时考 虑分布的影响,采样到分布更广的动作,能够匹配于作为世界模型的GP模型,使得训练更充 分,同时使得PPO算法能够更好地辅助GP模型训练。
因此,整个PPO算法的损失函数就由这三个函数的线性组合组成:
Figure 101393DEST_PATH_IMAGE001
(7)
c1,c2的引入是为了平衡三者的值,以得到更好的优化结果,c1,c2可以由技术人员根据需要确定。
将PPO算法的损失函数其重新记为
Figure 820956DEST_PATH_IMAGE020
,通过PPO方法中策略训练的稳定性来达到 调制训练世界模型的目的,此时,用于训练世界模型的损失函数包括:
Figure 223118DEST_PATH_IMAGE016
(8)
Figure 360839DEST_PATH_IMAGE017
Figure 88623DEST_PATH_IMAGE018
分别为可调系数,用以平衡两者之间的比例,
Figure 295482DEST_PATH_IMAGE019
为世界模型优化函数,
Figure 766915DEST_PATH_IMAGE020
为 策略模型的损失函数。世界模型在每个时期通过Adam算法使用世界区中的经验数据进行训 练优化。
具体地,用于实现连续性动作决策的智能决策模型训练方法包括以下步骤:
S1.设置迭代步长、规划步长、预热步长、子规划步长、训练步长等参数,初始化
Figure 759142DEST_PATH_IMAGE056
Figure 392249DEST_PATH_IMAGE057
,设置
Figure 351983DEST_PATH_IMAGE058
,开始训练;
S1.生成初始状态s,策略模型针对状态s计算得到Q值q,选择执行动作a,环境响应状态s’,回报值r和终止标志符t,保存经验(s,a,r,q,t)到经验池策略区以用于直接训练策略模型,保存(s,a,s’,r)到经验池世界区以用于训练世界模型;
S2.世界模型从世界区中进行小批量采样,利用损失函数
Figure 361527DEST_PATH_IMAGE016
执行 Adam算法更新模型参数
Figure 208261DEST_PATH_IMAGE027
S3.训练后的世界模型从策略区中采样得到状态s,动作a和终止标志符t’,并响应 状态差
Figure 74586DEST_PATH_IMAGE028
s和回报值r,s’=s+
Figure 6769DEST_PATH_IMAGE028
s,将(s,a,r,q,t’)作为模拟经验保存到经验池策略区;
S4.策略模型从经验池策略区中进行小批量采样,用模拟经验(s,a,r,q,t’)进行 强化学习,用真实经验(s,a,r,q,t)进行直接学习,利用损失函数
Figure 72202DEST_PATH_IMAGE001
执行Adam算法更新模型参数
Figure 39021DEST_PATH_IMAGE029
,并保存本次训练中每一步的
Figure 13930DEST_PATH_IMAGE026
S5.对
Figure 698989DEST_PATH_IMAGE026
取平均值作为
Figure 34025DEST_PATH_IMAGE020
,代入
Figure 855350DEST_PATH_IMAGE016
,用于下一次世界模型的训练优 化。
进一步地,每隔设定时间清空经验池,并且经验池采用以新数据替代旧数据的方式更新经验数据,能够避免过于老旧的经验对训练效果产生不好的影响。
为了说明本方案的有效性和优越性,本实施例在CarRacing-v0和CARLA 两种环境下,并在不同超参数下与单纯的PPO 方法进行性能比较。在这些实验中,车辆传感器接收到的图像由变分编码器模型处理,如图3所示,图像信息与外部状态拼接起来作为变分编码器模型的输入。
实验测试参与的算法名称如下:
GPPPO(M,K,N),基于本方案的GPPPO方法学习,M是预热步长,K是规划步长的数量,N是批次大小,此模型未使用 PPO 损失函数来优化世界模型;
i-GPPPO(M,K,N ),类似于GPPPO(M,K,N),但额外使用了PPO的损失函数来优化世界模型;
PPO(N)仅通过 PPO方法学习。
PPO方法由OpenAI提出在2017年提出,它是强化学习一个里程碑式的进步。PPO方法鼓励探索,并限制策略的变化以保持策略更新缓慢,是集智优化和策略优化与一体的方法框架。因此,通过深度强化学习框架使用 PPO 已成为控制多辆自动驾驶汽车的一种很有前途的方法,基于PPO 的深度强化学习也相应的被应用于常见的驾驶任务。
实验环境设置:
1)CarRacing-v0,由Open AI团队开发,是Gym中的一个环境,用于对强化学习算法进行基准测试,该环境原始目的用于赛车,这里为了让环境实现车道保持的目标,对环境进行如下修改以适应此类任务:
降低转弯半径,并通过去除刹车动作来减少动作空间,使动作空间仅有两个元素向量a={steer,acc},steer,acc分别代表汽车方向盘转角和油门。为了更好地控制汽车并限制其最大速度,在速度接近 30 像素/时间步时关闭油门。终止条件主要包括驶离道路,汽车动作30次后速度小于0.1像素/时间步长,同一轨道被访问两次。此外,将环境RGB帧转换为84×84灰度图像后,将灰度图像输入变分自编码器(VAE)模型之前,分别从图像的左侧、右侧和下部裁剪 6、6 和12个像素以减少状态空间。经过VAE模型处理后,策略模型的输入状态是一个8维向量。本实验环境的奖励函数定义如下:
Figure 1161DEST_PATH_IMAGE059
(9)
其中v是以像素/时间步长为单位的汽车速度。
2)CARLA Simulator:由于CarRacing-v0环境距真实的道路有很大的差距,为了更好的说明算法的优越性,本实验还采用城市驾驶模拟器 CARLA(版本 0.9.11)来进行测试。CARL是一个开源的自动驾驶模拟器,建立在虚幻引擎4之上,它允许以任意方式控制所有车辆、地图和传感器。在本实验中,使用具有许多交叉路口的密集的道路地图 Town07来测试各算法。
因为在不考虑交通规则的情况下,动作刹车在某种程度上可能对训练算法有害,故本实验与前述CarRacing-v0环境一样,只保留动作{steer,acc}元组,本实验环境的奖励函数定义如下:
Figure 907937DEST_PATH_IMAGE060
(10)
dnorm是距车道中心距离的函数,
Figure 312242DEST_PATH_IMAGE061
Figure 988074DEST_PATH_IMAGE062
为公式(11):
Figure 367103DEST_PATH_IMAGE063
(11)
Figure 761175DEST_PATH_IMAGE064
代表车辆当前的朝向和道路中线方向向量的夹角;
Figure 454325DEST_PATH_IMAGE065
是所设定的车辆当前的朝向和道路中线方向向量的夹角的阈值,超出阈值意 味着车头朝向偏离太多。
本实验环境下,在输入策略模型和世界模型之前,同样应用了VAE模型对图像进行预处理。
实验环境下的实验结果:
在这组实验中,通过改变算法中的规划步长和预热步长来进行不同参数下的性能评估。
图4a-图4c是PPO和GPPPO两个算法在M=20、30、40,K=5、10、20、30和N=32参数下的三副学习曲线图,且每副曲线图中,GPPPO算法具有相同的预热步长,不同的规划步长。图5a-5c是PPO和GPPPO两个算法M=20、25、30、40,K = 5、10、20和N=32参数下的三副学习曲线图,且每副曲线图中,算法具有相同的规划步长,不同的预热步长。预热步长这个参数决定着世界模型何时参与整个算法。由图4a-图4c和图5a-图5c可以得出,PPO和GPPPO都能够得到类似的效果,但GPPPO首先更稳定,且收敛速度更快,优于PPO算法。但是由于世界模型旨在模仿环境,由于性能的瓶颈,GPPPO不会比朴素的PPO有很大的改进,一般而言,根据图4a-图4c和图5a-图5c,GPPPO算法可以提高相对较小步长的早期性能,并在收敛阶段获得更稳定的结果。
图6a-图6c是PPO和i-GPPPO两个算法M=30,K =1、3、5、10和N=32、16、8参数下的三副学习曲线图,且每副曲线图中,算法具有相同的批次大小,不同的规划步长。在本实验中,将预热步长设置为 30,并更改其他两个参数。三个曲线图中,依次将批次大小缩小,并保持其他参数与之前的实验相同。批次为8与批次为32相比,i-GPPPO在收敛阶段仍然得到了相似的效果,而PPO算法在批次为8时比32时振荡得更多,尤其是在150个epoch之后。所以可以看到,随着批次的下降,对PPO算法的性能产生了非常不利的影响。
此外,从图7a-图7c可以看到三种算法在相同批次N=8和预热步长M=30,不同规划步长K=1,3,5下的性能比较结果,可以看到,i-GPPPO方法在规划步长较小的时候,在收敛阶段比GPPPO具有更好的性能,并且,在迭代次数较小的时候,特别是小于50的时候,i-GPPPO方法也具有更好的性能,尽管在迭代次数为100左右,i-GPPPO方法确实显示出了一定的震荡性,但在后期的表现又比另两种方法平稳。
实验环境下的实验结果:
由于CARLA比CarRacing-v0 更复杂,因此收敛所需的时间比 CarRacing-v0 多得多。此外,从 CarRacing-v0 实验中可以得出参数、规划步长和批次大小在性能中起着更重要作用的结论,相对较小的规划步长是更好的选择,所以采用较少的规划步长,规划步长与预热步长固定,M=25,K=10,批次大小分别为N=4,8,16,32。
在这个复杂的实验中,将VAE模型的输出维度设置为10,并将其与车辆的动作和速度连接起来。依图8a-图8d可以看到,总的来说,i-GPPPO效果最好,GPPPO其次,PPO效果最差,尤其是在早期和收敛阶段,在早期阶段,i-GPPPO的曲线上升地更快,在收敛阶段,i-GPPPO方法训练的车辆可以也行驶更大的距离。
此外,我们可以注意到GPPPO方法在批次大小为32的情况下最差。世界模型和策略模型的交互确实增加了样本的多样性,但也会产生太多相似的数据,这会导致当世界模型表现不佳时,不利于策略模型。然而,根据本实验的分析,可以为世界模型预测的奖励 r设置一个合适的阈值,并且只有当r的值大于阈值时才可能被认为是好的经验添加到经验池中,这种方式在前一批方案中也有提及,并且被证实可以产生较好的效果,具体方式不在此赘述。
本方法提出基于GP的PPO方法来无需将既有的连续性动作决策问题转换为离散性动作决策的智能决策方案,即可实现针对连续性动作的智能决策,并且将所使用的世界模型构建为多任务的GP模型,同时利用PPO的损失函数辅助世界模型的训练,所实现的算法具有能够实现快速训练且具有良好性能的效果。
结合以上的实验数据可以看到,本方案实现的智能决策模型在收敛性和鲁棒性方面要略优于近端策略优化方法,为连续性动作决策的解决提供了更加有效的可行性方案,也为后续进一步探索学习与规划融合模式下的连续性决策问题打下良好的理论基础。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了世界模型、策略模型、经验池、策略损失函数、值函数损失函数、熵损失函数等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims (10)

1.一种用于实现连续性动作决策的智能决策系统,包括世界模型、策略模型和经验池,由世界模型生成的模拟经验被存入所述的经验池,其特征在于,所述的世界模型为基于GP的世界模型,所述的策略模型包括PPO算法,且PPO算法利用经验池中的模拟经验进行强化学习。
2.根据权利要求1所述的用于实现连续性动作决策的智能决策系统,其特征在于,所述的策略模型包括策略损失函数,以及值函数损失函数和/或熵损失函数。
3.根据权利要求2所述的用于实现连续性动作决策的智能决策系统,其特征在于,所述策略模型的损失函数为:
Figure 713864DEST_PATH_IMAGE001
(1)
其中,
Figure 99846DEST_PATH_IMAGE002
为策略损失函数,
Figure 348424DEST_PATH_IMAGE003
表示值函数损失函数,
Figure 461743DEST_PATH_IMAGE004
为熵损失函数,
Figure 744956DEST_PATH_IMAGE005
是权重值。
4.根据权利要求3所述的用于实现连续性动作决策的智能决策系统,其特征在于,策略损失函数包括:
Figure 36260DEST_PATH_IMAGE006
(2)
Figure 506556DEST_PATH_IMAGE007
表示求平均值,
Figure 426495DEST_PATH_IMAGE008
表示取小的值,
Figure 564215DEST_PATH_IMAGE009
表示新旧策略变化比例,
Figure 26421DEST_PATH_IMAGE010
表示PPO算法 的优势函数,
Figure 249592DEST_PATH_IMAGE011
表示截断函数,
Figure 252183DEST_PATH_IMAGE012
是截断系数。
5.根据权利要求4所述的用于实现连续性动作决策的智能决策系统,其特征在于,值函数损失函数包括:
Figure 493677DEST_PATH_IMAGE013
(3)
其中,
Figure 392363DEST_PATH_IMAGE014
表示跟随轨迹所积累的回报值,
Figure 102830DEST_PATH_IMAGE015
为值函数,
Figure 846795DEST_PATH_IMAGE016
表示求平均值。
6.根据权利要求1-5任意一项所述的用于实现连续性动作决策的智能决策系统,其特征在于,用于训练世界模型的损失函数包括:
Figure 208375DEST_PATH_IMAGE017
(4)
Figure 12383DEST_PATH_IMAGE018
分别为可调系数,
Figure 210146DEST_PATH_IMAGE019
为世界模型优化函数,
Figure 757802DEST_PATH_IMAGE020
为策略模型的损失函数。
7.根据权利要求6所述的用于实现连续性动作决策的智能决策系统,其特征在于,所述的世界模型由多维输出的GP模型构建而成。
8.根据权利要求7所述的用于实现连续性动作决策的智能决策系统,其特征在于,世界 模型优化函数
Figure 973889DEST_PATH_IMAGE021
包括:
Figure 948798DEST_PATH_IMAGE022
(5)
其中,
Figure 368278DEST_PATH_IMAGE023
为预测得到的协方差,
Figure 719625DEST_PATH_IMAGE024
,D是N*M维的对角矩阵,I表示单位矩 阵,
Figure 793148DEST_PATH_IMAGE025
用于描述不同任务之间的关联,
Figure 204538DEST_PATH_IMAGE026
表示训练数据之间的关联矩阵,y表示训练数据 中的输出值。
9.一种用于实现连续性动作决策的智能决策模型训练方法,其特征在于,包括以下步骤:
S1.策略模型用经验池中的模拟经验进行强化学习,模拟经验由世界模型基于真实经验模仿环境而生成;
S2.每一次训练中,保存策略模型训练过程每一步策略模型的损失函数
Figure 111314DEST_PATH_IMAGE027
,并取平均值
Figure 772DEST_PATH_IMAGE028
,每次训练后将
Figure 738921DEST_PATH_IMAGE029
代入世界模型的损失函数用于下一次世界模型的训练。
10.根据权利要求9所述的用于实现连续性动作决策的智能决策模型训练方法,其特征在于,具体包括以下步骤:
S1.策略模型针对状态s选择执行动作a,环境响应状态s’,回报值r和终止标志符t,保存经验(s,a,r,t)至经验池策略区以用于直接训练策略模型,保存(s,a,s’,r)至经验池世界区以用于训练世界模型;
S2.世界模型从经验池世界区中采样,利用损失函数
Figure 570480DEST_PATH_IMAGE030
更新模型参 数
Figure 964552DEST_PATH_IMAGE031
S3.训练后的世界模型从经验池策略区中采样得到状态s,动作a和终止标志符t’,并响 应状态差
Figure 657701DEST_PATH_IMAGE032
和回报值r,s’=s+
Figure 188040DEST_PATH_IMAGE033
,将(s,a,r,t’)作为模拟经验保存至经验池策略区;
S4.策略模型从经验池策略区中采样,利用损失函数
Figure 924921DEST_PATH_IMAGE034
更新模型参数
Figure 806289DEST_PATH_IMAGE035
,并保存本次训练中每一步的
Figure 303129DEST_PATH_IMAGE036
S5.对
Figure 953554DEST_PATH_IMAGE037
取平均值作为
Figure 861336DEST_PATH_IMAGE038
后代入
Figure 26738DEST_PATH_IMAGE039
,用于下一次世界模型的训练。
CN202210404484.0A 2022-04-18 2022-04-18 基于gp与ppo实现连续性动作决策的智能决策方法和系统 Active CN114647986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210404484.0A CN114647986B (zh) 2022-04-18 2022-04-18 基于gp与ppo实现连续性动作决策的智能决策方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210404484.0A CN114647986B (zh) 2022-04-18 2022-04-18 基于gp与ppo实现连续性动作决策的智能决策方法和系统

Publications (2)

Publication Number Publication Date
CN114647986A true CN114647986A (zh) 2022-06-21
CN114647986B CN114647986B (zh) 2023-08-08

Family

ID=81996841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210404484.0A Active CN114647986B (zh) 2022-04-18 2022-04-18 基于gp与ppo实现连续性动作决策的智能决策方法和系统

Country Status (1)

Country Link
CN (1) CN114647986B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989017A (zh) * 2021-05-17 2021-06-18 南湖实验室 用于生成对话策略学习用高质量模拟经验的方法
CN113392956A (zh) * 2021-05-17 2021-09-14 南湖实验室 用于对话策略学习的基于GP的深度Dyna-Q方法
WO2022028926A1 (en) * 2020-08-07 2022-02-10 Telefonaktiebolaget Lm Ericsson (Publ) Offline simulation-to-reality transfer for reinforcement learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022028926A1 (en) * 2020-08-07 2022-02-10 Telefonaktiebolaget Lm Ericsson (Publ) Offline simulation-to-reality transfer for reinforcement learning
CN112989017A (zh) * 2021-05-17 2021-06-18 南湖实验室 用于生成对话策略学习用高质量模拟经验的方法
CN113392956A (zh) * 2021-05-17 2021-09-14 南湖实验室 用于对话策略学习的基于GP的深度Dyna-Q方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭锐,彭军,吴敏: "增强Q学习在非确定马尔可夫系统寻优问题中的应用", 计算机工程与应用, no. 13 *

Also Published As

Publication number Publication date
CN114647986B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN110568760B (zh) 适用于换道及车道保持的参数化学习决策控制系统及方法
CN110969848B (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
Liang et al. Cirl: Controllable imitative reinforcement learning for vision-based self-driving
CN111338346B (zh) 一种自动驾驶控制方法、装置、车辆及存储介质
CN109624986A (zh) 一种基于模式切换的驾驶风格的学习巡航控制系统及方法
Wang et al. Highway lane change decision-making via attention-based deep reinforcement learning
CN112232490B (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
Lu et al. Hierarchical reinforcement learning for autonomous decision making and motion planning of intelligent vehicles
Huang et al. An efficient self-evolution method of autonomous driving for any given algorithm
Jiang et al. Path tracking control based on Deep reinforcement learning in Autonomous driving
Hu et al. Learning dynamic graph for overtaking strategy in autonomous driving
Liu et al. Efficient batch-mode reinforcement learning using extreme learning machines
Fang et al. A maximum entropy inverse reinforcement learning algorithm for automatic parking
CN114647986A (zh) 基于gp与ppo实现连续性动作决策的智能决策方法和系统
Guo et al. Modeling, learning and prediction of longitudinal behaviors of human-driven vehicles by incorporating internal human DecisionMaking process using inverse model predictive control
CN114997048A (zh) 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法
CN114492215A (zh) 利用策略模型辅助训练的gp世界模型及其训练方法
Chen et al. Decision making for overtaking of unmanned vehicle based on deep Q-learning
Deng et al. Deep Reinforcement Learning Based Decision-Making Strategy of Autonomous Vehicle in Highway Uncertain Driving Environments
Jiang et al. An efficient framework for reliable and personalized motion planner in autonomous driving
Duan et al. Encoding Distributional Soft Actor-Critic for Autonomous Driving in Multi-Lane Scenarios [Research Frontier][Research Frontier]
Deng et al. Context-Enhanced Meta-Reinforcement Learning with Data-Reused Adaptation for Urban Autonomous Driving
Youssef et al. Optimal Combination of Imitation and Reinforcement Learning for Self-driving Cars.
Wang et al. An End-to-End Deep Reinforcement Learning Model Based on Proximal Policy Optimization Algorithm for Autonomous Driving of Off-Road Vehicle
Liu et al. Learn to Race: Sequential Actor-Critic Reinforcement Learning for Autonomous Racing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant