CN112052947B - 基于策略选项的分层强化学习方法和装置 - Google Patents

基于策略选项的分层强化学习方法和装置 Download PDF

Info

Publication number
CN112052947B
CN112052947B CN202010824196.1A CN202010824196A CN112052947B CN 112052947 B CN112052947 B CN 112052947B CN 202010824196 A CN202010824196 A CN 202010824196A CN 112052947 B CN112052947 B CN 112052947B
Authority
CN
China
Prior art keywords
network
level
strategy
policy
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010824196.1A
Other languages
English (en)
Other versions
CN112052947A (zh
Inventor
杨君
梁斌
岑哲鹏
李承昊
陈章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010824196.1A priority Critical patent/CN112052947B/zh
Publication of CN112052947A publication Critical patent/CN112052947A/zh
Application granted granted Critical
Publication of CN112052947B publication Critical patent/CN112052947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于策略选项的分层强化学习方法和装置,所述方法包括:构建高层策略网络、低层策略网络和评价网络;从仿真环境,获取状态轨迹;基于状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新;根据更新参数后的高层策略网络、低层策略网络和评价网络,生成更新后的策略模型,并对更新后的策略模型进行测试。本发明实施例的基于策略选项的分层强化学习方法,能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。

Description

基于策略选项的分层强化学习方法和装置
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于策略选项的分层强化学习方法和一种基于策略选项的分层强化学习装置。
背景技术
近年来,深度学习在模式识别、计算机视觉、自然语言处理等领域取得了巨大突破。将深度学习的感知能力和强化学习的决策能力相结合产生了深度强化学习,可以直接根据输入的图像进行控制,是一种思维方式的人工智能方法。例如,深度强化学习已经在围棋、部分电子竞技游戏等具体场景中取得了超越人类的表现,并逐渐被应用至非线性系统控制、对抗性人工智能设计等领域。在传统强化学习中,由于智能体的行为过程被表述为一个马尔可夫决策过程,强化学习算法仅仅学习针对单个状态的策略而难以学习更高层次的宏观策略。近几年的研究提出了分层强化学习,旨在将一项复杂的任务分解得到不同层次的子任务,使智能体学习从宏观到微观不同层次的策略。
基于策略选项的分层强化学习是分层强化学习的一个分支,已有的基于策略选项的学习算法虽然能够使智能体学习到相对复杂的高层策略,但也存在性能不稳定、数据使用效率低等问题。
发明内容
本发明旨在至少从一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于策略选项的分层强化学习方法,该方法能在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
本发明的第二个目的在于提出一种基于策略选项的分层强化学习装置。
本发明的第三个目的在于提出一种电子设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达到上述目的,本发明第一方面提出了一种基于策略选项的分层强化学习方法,包括以下步骤:
构建高层策略网络、低层策略网络和评价网络;
从仿真环境,获取状态轨迹;
基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新;
根据更新参数后的高层策略网络、低层策略网络和评价网络,生成更新后的策略模型,并对所述更新后的策略模型进行测试。
根据本发明实施例的基于策略选项的分层强化学习方法,先构建高层策略网络
Figure BDA0002635560860000021
低层策略网络
Figure BDA0002635560860000022
和评价网络V,并从仿真环境,获取状态轨迹,然后,基于状态轨迹和策略在线算法的学习过程,对高层策略网络
Figure BDA0002635560860000023
低层策略网络
Figure BDA0002635560860000024
和评价网络V的参数进行更新,最后,根据更新后的高层策略网络
Figure BDA0002635560860000025
低层策略网绉
Figure BDA0002635560860000026
和评价网络V生成更新后的策略模型,并对更新后的策略模型进行测试。由此,该方法能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
另外,根据本发明上述实施例的基于策略选项的分层强化学习方法还可以具有以下附加的技术特征:
在本发明的一个实施例中,所述基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新,包括:
初始化所述仿真环境、高层策略网络
Figure BDA0002635560860000027
低层策略网络
Figure BDA0002635560860000028
和评价网络V,并初始化当前状态st和当前策略选项ot
在所述当前状态st,根据所述高层策略网络
Figure BDA0002635560860000029
和上一个策略选项ot-1,选择所述当前策略选项ot,再根据所述低层策略网络
Figure BDA00026355608600000210
和所述当前策略选项ot,选择当前动作at,由所述仿真环境输出下一个状态st+1和当前时刻的奖励值rt,根据所述当前状态st、所述当前策略选项ot、所述当前动作at、所述当前时刻的奖励值rt和所述下一个状态st+1,组成五元组(st,ot,at,rt,st+1),并将所述五元组存储至数据存储器;
在所述当前状态st到达终止状态,或数据存储器内五元组数量达到预设阈值后,每个时间步取出部分数据,对所述高层策略网络
Figure BDA00026355608600000211
低层策略网络
Figure BDA00026355608600000212
和评价网络V的参数进行更新。
在本发明的一个实施例中,所述对所述高层策略网络和低层策略网络的参数进行更新,包括:
由评价网络计算低层状态值函数
Figure BDA00026355608600000213
并计算高层状态值函数
Figure BDA00026355608600000214
Figure BDA00026355608600000215
其中,
Figure BDA0002635560860000031
表示状态为s′且策略选项为o的高层状态值函数,
Figure BDA0002635560860000032
表示下一时刻高层策略网络选中策略选项o′的概率,
Figure BDA0002635560860000033
表示状态为s′且策略选项为o′的低层状态值函数;
计算高层时序差分误差
Figure BDA00026355608600000319
与低层时序差分误差
Figure BDA0002635560860000034
Figure BDA0002635560860000035
Figure BDA0002635560860000036
其中,γ表示预设的折扣因子;
计算高层优势函数
Figure BDA0002635560860000037
和低层优势函数
Figure BDA0002635560860000038
Figure BDA0002635560860000039
Figure BDA00026355608600000310
其中,λ表示预设的泛化估计系数;
基于所述的高层优势函数
Figure BDA00026355608600000311
和低层优势函数
Figure BDA00026355608600000312
构建目标函数,并采用梯度下降法对高层策略网绉
Figure BDA00026355608600000313
的参数和低层策略网绉
Figure BDA00026355608600000314
的参数进行更新。
在本发明的一个实施例中,所述对所述评价网络的参数进行更新,包括:
计算累计回报:
Figure BDA00026355608600000315
其中,T表示所述数据存储器内存储的轨迹中最后一个五元组对应的时刻,
Figure BDA00026355608600000316
表示最后一个五元组的后续状态的低层状态值函数;
利用累计回报Gt与低层状态值函数
Figure BDA00026355608600000317
之间的均方误差和梯度下降法对评价网络V的参数进行更新;
重新计算低层状态值函数
Figure BDA00026355608600000318
并更新所述累计回报Gt
为达到上述目的,本发明第二方面提出了一种基于策略选项的分层强化学习装置,所述装置包括:
构建模块,用于构建高层策略网络、低层策略网络和评价网络;
获取模块,用于从仿真环境,获取状态轨迹;
更新模块,用于基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新;
生成模块,用于根据更新参数后的高层策略网络、低层策略网络和评价网络生成更新后的策略模型,并对所述更新后的策略模型进行测试。
根据本发明实施例的基于策略选项的分层强化学习装置,通过构建模块构建高层策略网络
Figure BDA0002635560860000041
低层策略网络
Figure BDA0002635560860000042
和评价网络V,并通过获取模块从仿真环境,获取状态轨迹,然后,通过更新模块基于状态轨迹和策略在线算法的学习过程,对高层策略网络
Figure BDA0002635560860000043
低层策略网络
Figure BDA0002635560860000044
和评价网络V的参数进行更新,最后,通过生成模块根据更新后的高层策略网络
Figure BDA0002635560860000045
低层策略网络
Figure BDA0002635560860000046
和评价网络V生成更新后的策略模型,并对更新后的策略模型进行测试。由此,该装置能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
另外,根据本发明上述实施例的基于策略选项的分层强化学习装置还可以具有以下附加的技术特征:
在本发明的一个实施例中,所述更新模块用于基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新,包括:
初始化所述仿真环境、高层策略网络
Figure BDA0002635560860000047
低层策略网络
Figure BDA0002635560860000048
和评价网络V,并初始化当前状态st和当前策略选项ot
在所述当前状态st,根据所述高层策略网络
Figure BDA0002635560860000049
和上一个策略选项ot-1,选择所述当前策略选项ot,再根据所述低层策略网络
Figure BDA00026355608600000417
和所述当前策略选项ot,选择当前动作at,由所述仿真环境输出下一个状态st+1和当前时刻的奖励值rt,根据所述当前状态st、所述当前策略选项ot、所述当前动作at、所述当前时刻的奖励值rt和所述下一个状态st+1,组成五元组(st,ot,at,rt,st+1),并将所述五元组存储至数据存储器;
在所述当前状态st到达终止状态,或数据存储器内五元组数量达到预设阈值后,每个时间步取出部分数据,对所述高层策略网绉
Figure BDA00026355608600000410
低层策略网络
Figure BDA00026355608600000411
和评价网络V的参数进行更新。
在本发明的一个实施例中,所述对所述高层策略网络和低层策略网络的参数进行更新,包括:
由评价网络计算低层状态值函数
Figure BDA00026355608600000412
并计算高层状态值函数
Figure BDA00026355608600000413
Figure BDA00026355608600000414
其中,
Figure BDA00026355608600000415
表示状态为s′且策略选项为o的高层状态值函数,
Figure BDA00026355608600000416
表示下一时刻高层策略网络选中策略选项o′的概率,
Figure BDA0002635560860000051
表示状态为s′且策略选项为o′的低层状态值;
计算高层时序差分误差
Figure BDA0002635560860000052
与低层时序差分误差
Figure BDA0002635560860000053
Figure BDA0002635560860000054
Figure BDA0002635560860000055
其中,γ表示预设的折扣因子;
计算高层优势函数
Figure BDA0002635560860000056
和低层优势函数
Figure BDA0002635560860000057
Figure BDA0002635560860000058
Figure BDA0002635560860000059
其中,λ表示预设的泛化估计系数;
基于所述的高层优势函数
Figure BDA00026355608600000510
和低层优势函数
Figure BDA00026355608600000511
构建目标函数,并采用梯度下降法对高层策略网络
Figure BDA00026355608600000512
的参数和低层策略网绉
Figure BDA00026355608600000513
的参数进行更新。
在本发明的一个实施例中,所述对所述评价网络的参数进行更新,包括:
计算累计回报:
Figure BDA00026355608600000514
其中,T表示所述数据存储器内存储的轨迹中最后一个五元组对应的时刻,
Figure BDA00026355608600000515
表示最后一个五元组的后续状态的低层状态值函数;
利用累计回报Gt与低层状态值函数
Figure BDA00026355608600000516
之间的均方误差和梯度下降法对评价网络的参数进行更新;
重新计算低层状态值函数
Figure BDA00026355608600000517
并更新所述累计回报Gt
为达到上述目的,本发明第三方面提出了一种电子设备,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的基于策略选项的分层强化学习方法。
本发明实施例的电子设备,能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
为达到上述目的,本发明第四方面提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于策略选项的分层强化学习方法。
本发明实施例的非临时性计算机可读存储介质,能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明实施例的基于策略选项的分层强化学习方法的流程图;
图2是根据本发明一个具体实施例的基于策略选项的分层强化学习方法的流程图;
图3是根据本发明一个实施例的仿真环境的具体场景图;
图4是根据本发明一个实施例的不同算法训练过程中的总奖励绘制成的曲线图;以及
图5是根据本发明实施例的基于策略选项的分层强化学习装置的方框示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于策略选项的分层强化学习方法和装置。
图1是根据本发明实施例的基于策略选项的分层强化学习方法的流程图。如图1所示,本发明实施例的基于策略选项的分层强化学习方法,包括以下步骤:
步骤S1,构建高层策略网络、低层策略网络和评价网络。
具体地,构建参数为θ1的高层策略网络
Figure BDA0002635560860000061
参数为θ2的低层策略网绉
Figure BDA0002635560860000062
参数为φ的评价网络V。
步骤S2,从仿真环境,获取状态轨迹。
步骤S3,基于状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新。
具体地,基于状态轨迹和策略在线算法的学习过程,对高层策略网络
Figure BDA0002635560860000063
和低层策略网络
Figure BDA0002635560860000064
的参数进行更新的过程,包括:
步骤S31,初始化仿真环境、高层策略网络
Figure BDA0002635560860000071
低层策略网络
Figure BDA0002635560860000072
和评价网络V,并初始化当前状态st和当前策略选项ot
步骤S32,在当前状态st,根据高层策略网络
Figure BDA0002635560860000073
和上一个策略选项ot-1,选择当前策略选项ot,再根据低层策略网络
Figure BDA0002635560860000074
和当前策略选项ot,选择当前动作at,由仿真环境输出下一个状态st+1和当前时刻的奖励值rt,根据当前状态st、当前策略选项ot、当前动作at、当前时刻的奖励值rt和下一个状态st+1,组成五元组(st,ot,at,rt,st+1),并将该五元组存储至数据存储器D。
S33,在当前状态st到达终止状态,或数据存储器D内五元组数量达到预设阈值后,每个时间步取出部分数据,对高层策略网络
Figure BDA0002635560860000075
低层策略网络
Figure BDA0002635560860000076
和评价网络V的参数进行更新。
下面先介绍对高层策略网络
Figure BDA0002635560860000077
和低层策略网络
Figure BDA0002635560860000078
的参数进行更新的具体过程,包括:
步骤S331,由评价网络计算低层状态值函数
Figure BDA0002635560860000079
并计算高层状态值函数
Figure BDA00026355608600000710
Figure BDA00026355608600000711
其中,
Figure BDA00026355608600000712
表示状态为s′且策略选项为o的高层状态值函数,
Figure BDA00026355608600000713
表示下一时刻高层策略网络选中策略选项o′的概率,
Figure BDA00026355608600000714
表示状态为s′且策略选项为o′的低层状态值函数。
步骤S332,计算高层时序差分误差
Figure BDA00026355608600000715
与低层时序差分误差
Figure BDA00026355608600000716
Figure BDA00026355608600000717
Figure BDA00026355608600000718
其中,γ是预设的折扣因子。
步骤S333,计算高层优势函数
Figure BDA00026355608600000719
和低层优势函数
Figure BDA00026355608600000720
Figure BDA00026355608600000721
Figure BDA00026355608600000722
其中,λ表示预设的泛化估计系数。
步骤S334,基于所述的高层优势函数
Figure BDA00026355608600000723
和低层优势函数
Figure BDA00026355608600000724
构建目标函数,并采用梯度下降法对高层策略网络
Figure BDA00026355608600000725
的参数和低层策略网绉
Figure BDA00026355608600000726
的参数进行更新。
下面再对评价网络V的参数进行更新的过程,包括:
步骤S335,计算累计回报:
Figure BDA0002635560860000081
其中,T表示数据存储器D内存储的轨迹中最后一个五元组对应的时刻,
Figure BDA0002635560860000082
表示最后一个五元组的后续状态的低层状态值函数。
步骤S336,利用累计回报Gt与低层状态值函数
Figure BDA0002635560860000083
之间的均方误差和梯度下降法对评价网络V的参数进行更新;
步骤S337,重新计算低层状态值函数
Figure BDA0002635560860000084
并更新累计回报Gt
步骤S4,根据更新参数后的高层策略网络
Figure BDA0002635560860000085
低层策略网络
Figure BDA0002635560860000086
和评价网络V,生成更细后的策略模型,并对更新后的策略模型进行测试。
具体地,在与仿真环境的交互次数达到预设次数(具体根据实际需要进行设置)时,结束训练过程生成更新后的策略模型,并对更新后的策略模型进行测试。
为使本领域技术人员更清楚的了解本发明,图2是根据本发明一个具体实施例的基于策略选项的分层强化学习方法的流程图。如图2所示,该方法包括以下步骤:
S201,构建高层策略网络、低层策略网络和评价网络,并初始化其参数,初始化仿真环境。
S202,与仿真环境交互得到状态轨迹,并存储五元组。
S203,判断是否达到终止状态,或达到最大步数。如果是,执行步骤S204;如果否,返回步骤S202。
S204,构建高层策略网络、低层策略网络和评价网络,并初始化其参数,初始化仿真环境。
S205,更新高层策略网络和低层策略网络的参数。
S206,更新评价网络的参数。
S207,判断与仿真环境交互的次数是否达到上限。如果是,执行步骤S208;如果否,返回步骤S202。
S208,训练终止。
下面结合具体实施例对本发明提出的基于策略选项的分层强化学习方法进行详细说明。
对于一个高维连续控制任务,该任务的目的是从零开始学习控制一个二维的“猎豹”形机器人向前跑,使其可以尽可能快地跑向终点,图3是该仿真环境的具体场景。对于该仿真环境中被控制的智能体,输入是17维状态量,输出动作是连续的6维变量。在所提出的基于策略选项的分层强化学习方法中,策略选项总数为4;高层策略网络包含2层隐藏层,结点数分别为256和256,激活函数为ReLU,输出层节点数量为4,与策略选项总数一致;低层策略网络包括4个子网络,每个子网络网络结构相同,也包含2层隐藏层,结点数分别为256和256,激活函数为ReLU,输出层节点数量为6,与输出动作维度一致;评价网络也包含两层隐藏层,结点数为128,128,激活函数为ReLU。以上各个网络的参数都通过Adam优化器进行优化。
模仿学习过程中使用到的其他超参数如下表所示:
超参数
策略网络学习率(lrl) 0.003
评价网络学习率(lr2) 0.01
批数据大小(batch-size) 128
折扣因子(γ) 0.99
泛化估计系数(λ) 0.95
单条轨迹最大时长(T) 8000
策略评估步长间隔“nterval) 8000
在HalfCheetah环境中,使用不含策略选项的PPO算法进行训练,最终得分约为5000,而使用基于策略选项的分层强化学习并结合PPO算法,最终得分约为6000,将不同算法训练过程中的总奖励绘制成曲线,结果如图4所示,其中DAC-PPO表示基于策略选项的分层强化学习并结合PPO算法的方法,可以看到基于策略选项的分层强化学习的最终表现明显超过了不包含策略选项的方法。
综上所述,根据本发明实施例的基于策略选项的分层强化学习方法,先构建高层策略网络
Figure BDA0002635560860000091
低层策略网绉
Figure BDA0002635560860000092
和评价网络V,并从仿真环境,获取状态轨迹,然后,基于状态轨迹和策略在线算法的学习过程,对高层策略网络
Figure BDA0002635560860000093
低层策略网绉
Figure BDA0002635560860000094
和评价网络V的参数进行更新,最后,根据更新后的高层策略网络
Figure BDA0002635560860000095
低层策略网络
Figure BDA0002635560860000096
和评价网络V生成更新后的策略模型,并对更新后的策略模型进行测试。由此,该方法能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
图5是根据本发明实施例的基于策略选项的分层强化学习装置的方框示意图。如图5所示,该基于策略选项的分层强化学习装置100,包括:构建模块10、获取模块20、更新模块30和生成模块40。
其中,构建模块10用于构建高层策略网络、低层策略网络和评价网络。获取模块20用于从仿真环境,获取状态轨迹。更新模块30用于基于状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新。生成模块40用于根据更新参数后的高层策略网络、低层策略网络和评价网络生成更新后的策略模型,并对更新后的策略模型进行测试。
根据本发明的一个实施例,更新模块30用于基于状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新,包括:
初始化仿真环境、高层策略网络
Figure BDA0002635560860000101
低层策略网络
Figure BDA0002635560860000102
和评价网络V,并初始化当前状态st和当前策略选项ot
在当前状态st,根据高层策略网绉
Figure BDA0002635560860000103
和上一个策略选项ot-1,选择当前策略选项ot,再根据低层策略网络
Figure BDA0002635560860000104
和当前策略选项ot,选择当前动作at,由仿真环境输出下一个状态st+1和当前时刻的奖励值rt,根据当前状态st、当前策略选项ot、当前动作at、当前时刻的奖励值rt和下一个状态st+1,组成五元组(st,ot,at,rt,st+1),并将五元组存储至数据存储器;
在当前状态st到达终止状态,或数据存储器内五元组数量达到预设阈值后,每个时间步取出部分数据,对高层策略网络
Figure BDA0002635560860000105
低层策略网络
Figure BDA0002635560860000106
和评价网络V的参数进行更新。
根据本发明的一个实施例,对高层策略网络和低层策略网络的参数进行更新,包括:
由评价网络计算低层状态值函数
Figure BDA0002635560860000107
并计算高层状态值函数
Figure BDA0002635560860000108
Figure BDA0002635560860000109
其中,
Figure BDA00026355608600001010
表示状态为s′且策略选项为o的高层状态值函数,
Figure BDA00026355608600001011
表示下一时刻高层策略网络选中策略选项o′的概率,
Figure BDA00026355608600001012
表示状态为s′且策略选项为o′的低层状态值;
计算高层时序差分误差
Figure BDA00026355608600001013
与低层时序差分误差
Figure BDA00026355608600001014
Figure BDA00026355608600001015
Figure BDA00026355608600001016
其中,γ表示预设的折扣因子;
计算高层优势函数
Figure BDA00026355608600001017
和低层优势函数
Figure BDA00026355608600001018
Figure BDA0002635560860000111
Figure BDA0002635560860000112
其中,λ表示预设的泛化估计系数;
基于的高层优势函数
Figure BDA0002635560860000113
和低层优势函数
Figure BDA0002635560860000114
构建目标函数,并采用梯度下降法对高层策略网绉
Figure BDA0002635560860000115
的参数和低层策略网绉
Figure BDA0002635560860000116
的参数进行更新。
根据本发明的一个实施例,对评价网络的参数进行更新,包括:
计算累计回报:
Figure BDA0002635560860000117
其中,T表示数据存储器内存储的轨迹中最后一个五元组对应的时刻,
Figure BDA0002635560860000118
表示最后一个五元组的后续状态的低层状态值函数;
利用累计回报Gt与低层状态值函数
Figure BDA0002635560860000119
之间的均方误差和梯度下降法对评价网络的参数进行更新;
重新计算低层状态值函数
Figure BDA00026355608600001110
并更新累计回报Gt
需要说明的是,本发明实施例的基于策略选项的分层强化学习装置中未披露的细节,请参考本发明实施例的基于策略选项的分层强化学习方法中所披露的细节,具体这里不再详述。
根据本发明实施例的基于策略选项的分层强化学习装置,通过构建模块构建高层策略网络
Figure BDA00026355608600001111
低层策略网络
Figure BDA00026355608600001112
和评价网络V,并通过获取模块从仿真环境,获取状态轨迹,然后,通过更新模块基于状态轨迹和策略在线算法的学习过程,对高层策略网络
Figure BDA00026355608600001113
低层策略网络
Figure BDA00026355608600001114
和评价网络V的参数进行更新,最后,通过生成模块根据更新后的高层策略网络
Figure BDA00026355608600001115
低层策略网络
Figure BDA00026355608600001116
和评价网络V生成更新后的策略模型,并对更新后的策略模型进行测试。由此,该装置能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
另外,本发明还提出了一种电子设备,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的基于策略选项的分层强化学习方法。
本发明实施例的电子设备,能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
此外,本发明还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于策略选项的分层强化学习方法。
本发明实施例的非临时性计算机可读存储介质,能够在仿真环境中从零开始学习动作和高层策略,且性能稳定、数据使用效率高。
需要说明的是,术语“高层”、“低层”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“高层”、“低层”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于策略选项的分层强化学习方法,其特征在于,所述方法包括以下步骤:
构建高层策略网络、低层策略网络和评价网络;
从仿真环境,获取状态轨迹;
基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新,其中,所述基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新,包括:
初始化所述仿真环境、高层策略网络
Figure FDA0003062088030000013
低层策略网络
Figure FDA0003062088030000014
和评价网络V,并初始化当前状态st和当前策略选项ot
在所述当前状态st,根据所述高层策略网络
Figure FDA0003062088030000015
和上一个策略选项ot-1,选择所述当前策略选项ot,再根据所述低层策略网络
Figure FDA0003062088030000016
和所述当前策略选项ot,选择当前动作at,由所述仿真环境输出下一个状态st+1和当前时刻的奖励值rt,根据所述当前状态st、所述当前策略选项ot、所述当前动作at、所述当前时刻的奖励值rt和所述下一个状态st+1,组成五元组(st,ot,at,rt,st+1),并将所述五元组存储至数据存储器;
在所述当前状态st到达终止状态,或数据存储器内五元组数量达到预设阈值后,每个时间步取出部分数据,对所述高层策略网络
Figure FDA0003062088030000017
低层策略网络
Figure FDA0003062088030000018
和评价网络V的参数进行更新;
根据更新参数后的高层策略网络、低层策略网络和评价网络,生成更新后的策略模型,并对所述更新后的策略模型进行测试。
2.根据权利要求1所述的基于策略选项的分层强化学习方法,其特征在于,所述对所述高层策略网络和低层策略网络的参数进行更新,包括:
由评价网络计算低层状态值函数
Figure FDA0003062088030000019
并计算高层状态值函数
Figure FDA00030620880300000110
Figure FDA0003062088030000011
其中,
Figure FDA00030620880300000111
表示状态为s′且策略选项为o的高层状态值函数,
Figure FDA00030620880300000112
表示下一时刻高层策略网络选中策略选项o′的概率,
Figure FDA00030620880300000113
表示状态为s′且策略选项为o′的低层状态值函数;
计算高层时序差分误差
Figure FDA00030620880300000114
与低层时序差分误差
Figure FDA00030620880300000115
Figure FDA0003062088030000012
Figure FDA0003062088030000021
其中,γ表示预设的折扣因子;
计算高层优势函数
Figure FDA0003062088030000025
和低层优势函数
Figure FDA0003062088030000026
Figure FDA0003062088030000022
Figure FDA0003062088030000023
其中,λ表示预设的泛化估计系数;
基于所述的高层优势函数
Figure FDA0003062088030000027
和低层优势函数
Figure FDA0003062088030000028
构建目标函数,并采用梯度下降法对高层策略网络
Figure FDA0003062088030000029
的参数和低层策略网络
Figure FDA00030620880300000210
的参数进行更新。
3.根据权利要求2所述的基于策略选项的分层强化学习方法,其特征在于,所述对所述评价网络的参数进行更新,包括:
计算累计回报:
Figure FDA0003062088030000024
其中,T表示所述数据存储器内存储的轨迹中最后一个五元组对应的时刻,
Figure FDA00030620880300000211
表示最后一个五元组的后续状态的低层状态值函数;
利用累计回报Gt与低层状态值函数
Figure FDA00030620880300000212
之间的均方误差和梯度下降法对评价网络V的参数进行更新;
重新计算低层状态值函数
Figure FDA00030620880300000213
并更新所述累计回报Gt
4.一种基于策略选项的分层强化学习装置,其特征在于,所述装置包括:
构建模块,用于构建高层策略网络、低层策略网络和评价网络;
获取模块,用于从仿真环境,获取状态轨迹;
更新模块,用于基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新,其中,所述更新模块用于基于所述状态轨迹和策略在线算法的学习过程,对高层策略网络、低层策略网络和评价网络的参数进行更新,包括:
初始化所述仿真环境、高层策略网络
Figure FDA00030620880300000214
低层策略网络
Figure FDA00030620880300000215
和评价网络V,并初始化当前状态st和当前策略选项ot
在所述当前状态st,根据所述高层策略网络
Figure FDA00030620880300000216
和上一个策略选项ot-1,选择所述当前策略选项ot,再根据所述低层策略网络
Figure FDA0003062088030000036
和所述当前策略选项ot,选择当前动作at,由所述仿真环境输出下一个状态st+1和当前时刻的奖励值rt,根据所述当前状态st、所述当前策略选项ot、所述当前动作at、所述当前时刻的奖励值rt和所述下一个状态st+1,组成五元组(st,ot,at,rt,st+1),并将所述五元组存储至数据存储器;
在所述当前状态st到达终止状态,或数据存储器内五元组数量达到预设阈值后,每个时间步取出部分数据,对所述高层策略网络
Figure FDA0003062088030000037
低层策略网络
Figure FDA0003062088030000038
和评价网络V的参数进行更新;
生成模块,用于根据更新参数后的高层策略网络、低层策略网络和评价网络生成更新后的策略模型,并对所述更新后的策略模型进行测试。
5.根据权利要求4所述的基于策略选项的分层强化学习装置,其特征在于,所述对所述高层策略网络和低层策略网络的参数进行更新,包括:
由评价网络计算低层状态值函数
Figure FDA0003062088030000039
并计算高层状态值函数
Figure FDA00030620880300000310
Figure FDA0003062088030000031
其中,
Figure FDA00030620880300000311
表示状态为s′且策略选项为o的高层状态值函数,
Figure FDA00030620880300000312
表示下一时刻高层策略网络选中策略选项o′的概率,
Figure FDA00030620880300000313
表示状态为s′且策略选项为o′的低层状态值;
计算高层时序差分误差
Figure FDA00030620880300000314
与低层时序差分误差
Figure FDA00030620880300000315
Figure FDA0003062088030000032
Figure FDA0003062088030000033
其中,γ表示预设的折扣因子;
计算高层优势函数
Figure FDA00030620880300000316
和低层优势函数
Figure FDA00030620880300000317
Figure FDA0003062088030000034
Figure FDA0003062088030000035
其中,λ表示预设的泛化估计系数;
基于所述的高层优势函数
Figure FDA00030620880300000318
和低层优势函数
Figure FDA00030620880300000319
构建目标函数,并采用梯度下降法对高层策略网络
Figure FDA00030620880300000320
的参数和低层策略网络
Figure FDA00030620880300000321
的参数进行更新。
6.根据权利要求5所述的基于策略选项的分层强化学习装置,其特征在于,所述对所述评价网络的参数进行更新,包括:
计算累计回报:
Figure FDA0003062088030000041
其中,T表示所述数据存储器内存储的轨迹中最后一个五元组对应的时刻,
Figure FDA0003062088030000042
表示最后一个五元组的后续状态的低层状态值函数;
利用累计回报Gt与低层状态值函数
Figure FDA0003062088030000043
之间的均方误差和梯度下降法对评价网络的参数进行更新;
重新计算低层状态值函数
Figure FDA0003062088030000044
并更新所述累计回报Gt
7.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-3任一所述的基于策略选项的分层强化学习方法。
8.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3任一所述的基于策略选项的分层强化学习方法。
CN202010824196.1A 2020-08-17 2020-08-17 基于策略选项的分层强化学习方法和装置 Active CN112052947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010824196.1A CN112052947B (zh) 2020-08-17 2020-08-17 基于策略选项的分层强化学习方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010824196.1A CN112052947B (zh) 2020-08-17 2020-08-17 基于策略选项的分层强化学习方法和装置

Publications (2)

Publication Number Publication Date
CN112052947A CN112052947A (zh) 2020-12-08
CN112052947B true CN112052947B (zh) 2021-06-25

Family

ID=73599126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010824196.1A Active CN112052947B (zh) 2020-08-17 2020-08-17 基于策略选项的分层强化学习方法和装置

Country Status (1)

Country Link
CN (1) CN112052947B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597391B (zh) * 2020-12-25 2022-08-12 厦门大学 一种基于动态递归机制的分层强化学习的推荐系统
CN112766497A (zh) * 2021-01-29 2021-05-07 北京字节跳动网络技术有限公司 深度强化学习模型的训练方法、装置、介质及设备
WO2022252013A1 (en) * 2021-05-31 2022-12-08 Robert Bosch Gmbh Method and apparatus for training neural network for imitating demonstrator's behavior
CN113997926A (zh) * 2021-11-30 2022-02-01 江苏浩峰汽车附件有限公司 基于分层强化学习的并联式混合动力汽车能量管理方法
CN114785693B (zh) * 2022-06-24 2022-09-30 中国科学技术大学 基于分层强化学习的虚拟网络功能迁移方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111208822A (zh) * 2020-02-17 2020-05-29 清华大学深圳国际研究生院 一种基于强化学习和cpg控制器的四足机器人步态控制方法
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10990096B2 (en) * 2018-04-27 2021-04-27 Honda Motor Co., Ltd. Reinforcement learning on autonomous vehicles
CN109733415B (zh) * 2019-01-08 2020-08-14 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN109947098A (zh) * 2019-03-06 2019-06-28 天津理工大学 一种基于机器学习策略的距离优先最佳路径选择方法
CN110032782B (zh) * 2019-03-29 2023-03-07 银江技术股份有限公司 一种城市级智能交通信号控制系统及方法
CN111142522B (zh) * 2019-12-25 2023-06-09 北京航空航天大学杭州创新研究院 一种分层强化学习的智能体控制方法
CN111401556B (zh) * 2020-04-22 2023-06-30 清华大学深圳国际研究生院 一种对抗式模仿学习中奖励函数的选择方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111208822A (zh) * 2020-02-17 2020-05-29 清华大学深圳国际研究生院 一种基于强化学习和cpg控制器的四足机器人步态控制方法
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置

Also Published As

Publication number Publication date
CN112052947A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN112052947B (zh) 基于策略选项的分层强化学习方法和装置
CN111488988B (zh) 基于对抗学习的控制策略模仿学习方法及装置
US11580378B2 (en) Reinforcement learning for concurrent actions
CN109511277B (zh) 多状态连续动作空间的合作式方法及系统
CN112325897B (zh) 基于启发式深度强化学习的路径规划方法
CN109952582A (zh) 一种强化学习模型的训练方法、节点、系统及存储介质
CN111026272B (zh) 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN108683614B (zh) 基于门限残差网络的虚拟现实设备集群带宽分配装置
Nardelli et al. Value propagation networks
CN109740741B (zh) 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法
Lim et al. Robustness of stochastic stability in game theoretic learning
CN111856925A (zh) 基于状态轨迹的对抗式模仿学习方法及装置
CN109514553A (zh) 一种机器人移动控制的方法、系统及设备
CN115300910B (zh) 基于多智能体强化学习的去混淆游戏策略模型生成方法
CN113627596A (zh) 基于动态图神经网络的多智能体对抗方法及系统
Awheda et al. Exponential moving average Q-learning algorithm
Mousavi et al. Applying q (λ)-learning in deep reinforcement learning to play atari games
CN113962390A (zh) 基于深度强化学习网络构建多样化搜索策略的模型的方法
CN112613608A (zh) 一种强化学习方法及相关装置
CN117540203A (zh) 一种集群机器人合作导航的多向课程学习训练方法及装置
Zhang et al. A gradient-based reinforcement learning algorithm for multiple cooperative agents
Badica et al. An approach of temporal difference learning using agent-oriented programming
CN114378820B (zh) 一种基于安全强化学习的机器人阻抗学习方法
CN116245009A (zh) 人机策略生成方法
Adamsson Curriculum learning for increasing the performance of a reinforcement learning agent in a static first-person shooter game

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant