CN111856925B - 基于状态轨迹的对抗式模仿学习方法及装置 - Google Patents

基于状态轨迹的对抗式模仿学习方法及装置 Download PDF

Info

Publication number
CN111856925B
CN111856925B CN202010489159.XA CN202010489159A CN111856925B CN 111856925 B CN111856925 B CN 111856925B CN 202010489159 A CN202010489159 A CN 202010489159A CN 111856925 B CN111856925 B CN 111856925B
Authority
CN
China
Prior art keywords
network
value
state
main
policy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010489159.XA
Other languages
English (en)
Other versions
CN111856925A (zh
Inventor
杨君
王亚伟
张明
芦维宁
李志恒
梁斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010489159.XA priority Critical patent/CN111856925B/zh
Publication of CN111856925A publication Critical patent/CN111856925A/zh
Application granted granted Critical
Publication of CN111856925B publication Critical patent/CN111856925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于状态轨迹的对抗式模仿学习方法及装置,其中,该方法包括:获取专家决策下的状态轨迹,将状态轨迹存入专家数据缓存器;构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络;基于状态轨迹和离轨策略算法的对抗式模仿学习过程,对第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。

Description

基于状态轨迹的对抗式模仿学习方法及装置
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于状态轨迹的对抗式模仿学习方法及装置。
背景技术
最近几年,深度神经网络促成了在图像识别、语音技术、自然语言处理等领域的一系列重大突破。与此同时,将深度网络与强化学习结合而成的深度强化学习也在围棋、星际争霸、Dota2等大规模策略优化问题上取得了超越人类的表现。奖励函数设计的环节在强化学习中具有十分关键的地位,往往包含了专家对特定任务的先验知识。因此在面对诸如机器人控制、自动驾驶等实际任务时,一般难以根据专家知识设计合理的奖励函数。而数据驱动型的模仿学习算法为克服该类缺陷提供了一种思路,它不需要手动设计奖励函数,仅仅利用专家轨迹数据就可以学习到媲美专家的策略。模仿学习算法主要有三类:行为克隆、逆强化学习和基于生成对抗网络的模仿学习算法。其中,行为克隆方法将模仿学习看作是监督学习,是最简单且容易实现的方法。这种方法容易受到复合误差的影响,而且难以处理专家数据中未出现的情况。相较而言,逆强化学习的思路更加贴近强化学习的传统思路:它先根据专家数据学习奖励函数,然后利用学习到的奖励函数执行标准的强化学习过程以实现对专家策略的模仿。通过这种方法学习到的奖励函数能更好地反映任务的真实要求,因此策略更具鲁棒性、能够应对未知的场景。然而,由于该算法需要交替进行寻找奖励函数和强化学习这两个步骤,因此需要很大的计算量。
将生成对抗网络应用到逆强化学习的生成对抗式模仿学习(GAIL)是目前主流的模仿学习算法,该算法可以直接根据专家数据进行策略学习而无需学习奖励函数,因此大大减小了计算量。GAIL算法通常假设专家动作是已知的,即专家轨迹是由状态动作对构成的。但是,在实际工业场景下这种假设很难满足,往往只能获取连续动作下的状态观测轨迹。而在构建仿真环境时,为了简化模型一般都会选择将控制动作设置为离散值,以便进行算法研究。因此,如何有效利用真实工业场景下获得的专家状态轨迹,进而在仿真环境中模仿相应的离散动作具有一定的挑战性。另外,GAIL算法中使用在线学习的TRPO算法学习策略,需要与环境进行大量交互,不利于算法的实际应用。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于状态轨迹的对抗式模仿学习方法,该方法设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。
本发明的另一个目的在于提出一种基于状态轨迹的对抗式模仿学习装置。
为达到上述目的,本发明一方面实施例提出了一种基于状态轨迹的对抗式模仿学习方法,包括:
S1,获取专家决策下的状态轨迹,将所述状态轨迹存入专家数据缓存器;
S2,构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络;
S3,基于状态轨迹和离轨策略算法的对抗式模仿学习过程,对所述第一主值网络、所述第二主值网络、所述主策略网络、所述第一副值网络、所述第二副值网络、所述副策略网络和所述判别网络进行更新;
S4,根据更新的多个网络生成更新后的策略模型,对所述策略模型进行测试。
本发明实施例的基于状态轨迹的对抗式模仿学习方法通过从工业应用与算法研究实际需要出发,研究基于状态轨迹的对抗式模仿学习,并结合离轨策略学习算法TD3,设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。
另外,根据本发明上述实施例的基于状态轨迹的对抗式模仿学习方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述S1进一步包括:
根据应用场景设计仿真器,通过所述仿真器与所述应用场景进行交互得到所述应用场景下一时刻的观测状态。
进一步地,在本发明的一个实施例中,所述S3进一步包括:
S31,初始化所述仿真环境env、所述第一主值网络Q1、所述第二主值网络Q2、所述主策略网络π、所述第一副值网络Q'1、所述第二副值网络Q'2、所述副策略网络π'和所述判别网络D;
S32,在当前状态st依据策略选取动作at,并转移到下一状态st+1,将生成状态轨迹(st,st+1)π输入所述判别网络中,所述判别网络输出当前时刻的奖励值rt,根据当前状态st、当前动作at、当前时刻的奖励值rt和下一状态st+1组成四元组(st,at,rt,st+1),并将所述四元组存储进生成数据缓存器Bπ
S33,在所述生成数据缓存器Bπ中的数据量达到预设数据量阈值后,每个时间步取出部分数据对所述第一主值网络和所述第二主值网络进行更新;
S34,每隔第一预设时间对所述判别网络进行更新,在所述专家数据缓存器BE和所述生成数据缓存器Bπ中分别采样得到专家状态轨迹和生成状态轨迹,并通过损失函数对所述判别网络的梯度进行下降以优化所述判别网络的参数;
S35,每隔第二预设时间利用确定性策略梯度对所述主策略网络进行更新,并对所述第一副值网络、所述第二副值网络和所述副策略网络的参数进行软更新。
进一步地,在本发明的一个实施例中,所述当前时刻的奖励值为:
rt=-log(1-D((st,st+1)π))
其中,D((st,st+1)π))为判别网络的输出,(st,st+1)π为生成状态轨迹。
进一步地,在本发明的一个实施例中,所述S33进一步包括:
S331,依据副策略网络π'和随机扰动选择下一时刻的动作:
Figure GDA0003288699760000031
其中,πφ'为副策略网络代表的策略,
Figure GDA0003288699760000032
代表引入的随机扰动;
S332,计算状态-动作值函数的目标值:
Figure GDA0003288699760000033
其中,
Figure GDA0003288699760000034
为两个副值函数网络对下一时刻状态动作对的值估计,rt为当前时刻的奖励值;
S333,利用梯度下降法更新所述第一主值网络的参数θ1和所述第二主值网络的参数θ2
Figure GDA0003288699760000035
其中,
Figure GDA0003288699760000036
为两个主值网络对当前时刻状态动作对的值估计,N-1为N个平方项的平均。
进一步地,在本发明的一个实施例中,所述S34中,需优化的JS散度计算公式如下:
DJS((st,st+1)π,(st,st+1)E)=Ε[logD(st,st+1)π]+Ε[log(1-D(st,st+1)E)]
其中,(st,st+1)π和(st,st+1)E分别代表从生成数据缓存器Bπ和专家数据缓存器BE中采样得到的生成状态轨迹和专家状态轨迹。
进一步地,在本发明的一个实施例中,优化所述判别网络的参数w包括:
Figure GDA0003288699760000041
其中,w为判别网络的参数,αd为判别网络的学习率,DJS为损失函数,DJS((st,st+1)π,(st,st+1)E)为专家数据分布和生成数据分布之间的JS散度,(st,st+1)π为生成状态轨迹,(st,st+1)E为专家状态轨迹。
进一步地,在本发明的一个实施例中,所述S35中,对所述主策略网络进行更新包括:
Figure GDA0003288699760000042
其中,N-1为N个平方项的平均,
Figure GDA0003288699760000043
为主值网络对选取动作a的梯度,
Figure GDA0003288699760000044
为主策略网络对其参数的梯度。
进一步地,在本发明的一个实施例中,所述S35中,所述对所述第一副值网络、所述第二副值网络和所述副策略网络的参数进行软更新包括:
θ'1←τθ1+(1-τ)θ'1
θ'2←τθ2+(1-τ)θ'2
φ'←τφ+(1-τ)φ'
其中,θ′1,θ′2,φ′为两个副值网络和副策略网络的参数,θ12,φ为两个主值网络和主策略网络的参数,τ用于控制从主网络更新副网络参数的程度。
为达到上述目的,本发明另一方面实施例提出了一种基于状态轨迹的对抗式模仿学习装置,包括:
获取模块,用于获取专家决策下的状态轨迹,将所述状态轨迹存入专家数据缓存器;
构建模块,用于构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络;
更新模块,用于基于状态轨迹和离轨策略算法的对抗式模仿学习过程,对所述第一主值网络、所述第二主值网络、所述主策略网络、所述第一副值网络、所述第二副值网络、所述副策略网络和所述判别网络进行更新;
生成模块,用于根据更新的多个网络生成更新后的策略模型,对所述策略模型进行测试。
本发明实施例的基于状态轨迹的对抗式模仿学习装置,通过从工业应用与算法研究实际需要出发,研究基于状态轨迹的对抗式模仿学习,并结合离轨策略学习算法TD3,设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于状态轨迹的对抗式模仿学习方法流程图;
图2为根据本发明一个实施例的基于状态轨迹的对抗式模仿学习方法流程框图;
图3为根据本发明一个实施例的环境的具体场景图;
图4为根据本发明一个实施例的训练过程图像;
图5为根据本发明一个实施例的基于状态轨迹的对抗式模仿学习装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于状态轨迹的对抗式模仿学习方法及装置。
首先将参照附图描述根据本发明实施例提出的基于状态轨迹的对抗式模仿学习方法。
图1为根据本发明一个实施例的基于状态轨迹的对抗式模仿学习方法流程图。
图2为根据本发明一个实施例的基于状态轨迹的对抗式模仿学习方法流程框图。
如图1和图2所示,该基于状态轨迹的对抗式模仿学习方法包括以下步骤:
步骤S1,获取专家决策下的状态轨迹,将状态轨迹存入专家数据缓存器。
具体地,获取专家决策下的状态轨迹,并存入相应的数据缓存器BE中。根据实际场景的原理设计仿真器,与该环境交互得到训练时所需的数据。仿真器的输入是当前时刻执行的动作at,输出返回的是环境下一时刻的观测状态st+1
步骤S2,构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络。
具体地,构建参数为θ1的第一主值网络Q1、参数为θ2的第二主值网络Q2、参数为φ的主策略网络π,参数为θ'1的第一副值网络Q'1、参数为θ'2的第二副值网络Q'2、参数为φ'的副策略网络π'和参数为w的判别网络D。
步骤S3,基于状态轨迹和离轨策略算法的对抗式模仿学习过程,对第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络进行更新。
基于状态轨迹和离轨策略算法的对抗式模仿学习过程。使用主策略网络π与仿真环境进行交互,将四元组(st,at,rt,st+1)存入到缓存器Bπ中。其中奖励值来自于判别网络的输出,而非仿真环境反馈的真实值。通过对抗学习的方式,步骤S2中的各个演员、评论家网络和判别网络的参数持续更新,不断缩小专家状态轨迹和生成状态轨迹之间的分布差异。当训练进程收敛时,即使判别网络已经具备了较强的分辨能力,但此时学习策略已经很接近专家策略,判别网络很难区分此时的生成状态轨迹和专家状态轨迹。
模仿学习过程的具体步骤为:
S31,初始化仿真环境env、第一主值网络Q1、第二主值网络Q2、主策略网络π、第一副值网络Q'1、第二副值网络Q'2、副策略网络π'和判别网络D。
S32,在当前状态st依据策略选取动作at,并转移到下一状态st+1,将生成状态轨迹(st,st+1)π输入判别网络中,判别网络输出当前时刻的奖励值rt,根据当前状态st、当前动作at、当前时刻的奖励值rt和下一状态st+1组成四元组(st,at,rt,st+1),并将四元组存储进生成数据缓存器Bπ
其中,当前时刻的奖励值为:
rt=-log(1-D((st,st+1)π))
其中,D((st,st+1)π))为判别网络的输出,(st,st+1)π为生成状态轨迹。
S33,在生成数据缓存器Bπ中的数据量达到预设数据量阈值buffer_size后,每个时间步取出部分数据对第一主值网络和第二主值网络进行更新。
对主值网络Q1、Q2进行参数更新的过程如下:
S331,依据副策略网络π'和随机扰动选择下一时刻的动作:
Figure GDA0003288699760000071
其中,πφ'为副策略网络代表的策略,
Figure GDA0003288699760000072
代表引入的随机扰动;
S332,计算状态-动作值函数的目标值:
Figure GDA0003288699760000073
其中,
Figure GDA0003288699760000074
为两个副值函数网络对下一时刻状态动作对的值估计,rt为当前时刻的奖励值;
S333,利用梯度下降法更新第一主值网络的参数θ1和第二主值网络的参数θ2
Figure GDA0003288699760000075
其中,
Figure GDA0003288699760000076
为两个主值网络对当前时刻状态动作对的值估计,N-1为N个平方项的平均。
S34,每隔第一预设时间T1对判别网络进行更新,在专家数据缓存器BE和生成数据缓存器Bπ中分别采样得到专家状态轨迹(st,st+1)E和生成状态轨迹(st,st+1)π,并通过损失函数DJS对判别网络的梯度进行下降以优化判别网络的参数w:
Figure GDA0003288699760000077
其中,w为判别网络的参数,αd为判别网络的学习率,DJS为损失函数,DJS((st,st+1)π,(st,st+1)E)为专家数据分布和生成数据分布之间的JS散度。
需优化的JS散度计算公式如下:
DJS((st,st+1)π,(st,st+1)E)=Ε[logD(st,st+1)π]+Ε[log(1-D(st,st+1)E)]
其中,(st,st+1)π和(st,st+1)E分别代表从生成数据缓存器Bπ和专家数据缓存器BE中采样得到的生成状态轨迹和专家状态轨迹。
S35,每隔第二预设时间T2利用确定性策略梯度对主策略网络π进行更新,并对第一副值网络Q'1、第二副值网络Q'2和副策略网络π'的参数进行软更新。
对主策略网络进行梯度上升更新的公式如下:
Figure GDA0003288699760000078
对于该确定性策略梯度的计算,需要主值网络Q1对动作a求导,然后主策略网络π对其参数φ求导。其中,N-1为N个平方项的平均,
Figure GDA0003288699760000081
为主值网络对选取动作a的梯度,
Figure GDA0003288699760000082
为主策略网络对其参数的梯度。
对第一副值网络、第二副值网络和副策略网络的参数进行软更新包括:
θ'1←τθ1+(1-τ)θ'1
θ'2←τθ2+(1-τ)θ'2
φ'←τφ+(1-τ)φ'
其中,θ′1,θ′2,φ′为两个副值网络和副策略网络的参数,θ12,φ为两个主值网络和主策略网络的参数,τ用于控制从主网络更新副网络参数的程度。
步骤S4,根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
具体地,在与环境的交互次数达到预设次数时,结束训练过程生成更新后的策略模型。
下面通过具体的实施例对发明的基于状态轨迹的对抗式模仿学习方法进行详细说明。
对于一个高维连续控制任务,该任务的目的是根据专家状态轨迹模仿潜在的专家动作,控制二维的“猎豹”形机器人向前跑,使其可以又快又好地跑向终点,图3是该环境的具体场景。对于该仿真环境中要控制的智能体而言,输入是17维状态量,输出动作是连续的6维变量。在所提出的基于状态数据的离轨对抗式状态模仿学习算法中,策略网络包含两层隐藏层,结点数分别为400,300,激活函数为relu;两个值网络的结构相同,同样包含两层隐藏层,结点数为400,300,激活函数为relu;判别器网络包含两层隐藏层,结点数均为100,使用的激活函数是tanh。以上各个网络的参数都通过Adam优化器进行优化。
模仿学习过程中使用到的其他超参数如下表所示:
Figure GDA0003288699760000083
Figure GDA0003288699760000091
在HalfCheetah环境中,随机策略取得的分数是-285.8±25.3,而相比之下专家策略的得分为4501.1±118.2。在对抗训练的过程中,智能体使用4条完整的专家状态轨迹作为示教数据在仿真环境中进行模仿学习。将专家策略和随机策略下取得的分数作为上下界,对模仿学习过程中的策略评估得分进行归一化处理至[0,1]区间,绘制出的图像如图4所示。图4中纵轴的0代表随机策略的表现,1代表专家策略的表现,可以看到基于状态数据的离轨对抗式模仿学习可以在非常少的交互步数内模仿到专家策略,而且收敛后的平均分数大约为4742.7,表现甚至超过专家的水平且比较平稳。
根据本发明实施例提出的基于状态轨迹的对抗式模仿学习方法,通过从工业应用与算法研究实际需要出发,研究基于状态轨迹的对抗式模仿学习,并结合离轨策略学习算法TD3,设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。
其次参照附图描述根据本发明实施例提出的基于状态轨迹的对抗式模仿学习装置。
图5为根据本发明一个实施例的基于状态轨迹的对抗式模仿学习装置结构示意图。
如图5所示,该基于状态轨迹的对抗式模仿学习装置包括:获取模块100、构建模块200、更新模块300和生成模块400。
其中,获取模块100,用于获取专家决策下的状态轨迹,将状态轨迹存入专家数据缓存器。
构建模块200,用于构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络。
更新模块300,用于基于状态轨迹和离轨策略算法的对抗式模仿学习过程,对第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络进行更新。
生成模块400,用于根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于状态轨迹的对抗式模仿学习装置,通过从工业应用与算法研究实际需要出发,研究基于状态轨迹的对抗式模仿学习,并结合离轨策略学习算法TD3,设计出一种利用专家操作连续控制量下的状态轨迹在仿真环境中学习离散动作的对抗模仿算法。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (4)

1.一种基于状态轨迹的对抗式模仿学习方法,其特征在于,包括以下步骤:
S1,获取专家决策下的状态轨迹,将所述状态轨迹存入专家数据缓存器;
S2,构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络;
S3,基于状态轨迹和离轨策略算法的对抗式模仿学习过程,对所述第一主值网络、所述第二主值网络、所述主策略网络、所述第一副值网络、所述第二副值网络、所述副策略网络和所述判别网络进行更新,其中,所述S3进一步包括:
S31,初始化仿真环境env、所述第一主值网络Q1、所述第二主值网络Q2、所述主策略网络π、所述第一副值网络Q'1、所述第二副值网络Q'2、所述副策略网络π'和所述判别网络D;
S32,在当前状态st依据策略选取动作at,并转移到下一状态st+1,将生成状态轨迹(st,st+1)π输入所述判别网络中,所述判别网络输出当前时刻的奖励值rt,根据当前状态st、当前动作at、当前时刻的奖励值rt和下一状态st+1组成四元组(st,at,rt,st+1),并将所述四元组存储进生成数据缓存器Bπ
S33,在所述生成数据缓存器Bπ中的数据量达到预设数据量阈值后,每个时间步取出部分数据对所述第一主值网络和所述第二主值网络进行更新,其中,所述S33进一步包括:
S331,依据副策略网络π'和随机扰动选择下一时刻的动作:
Figure FDA0003288699750000011
其中,πφ'为副策略网络代表的策略,
Figure FDA0003288699750000012
代表引入的随机扰动;
S332,计算状态-动作值函数的目标值:
Figure FDA0003288699750000013
其中,
Figure FDA0003288699750000014
为两个副值函数网络对下一时刻状态动作对的值估计,rt为当前时刻的奖励值;
S333,利用梯度下降法更新所述第一主值网络的参数θ1和所述第二主值网络的参数θ2
Figure FDA0003288699750000021
其中,
Figure FDA0003288699750000022
为两个主值网络对当前时刻状态动作对的值估计,N-1为N个平方项的平均;
S34,每隔第一预设时间对所述判别网络进行更新,在所述专家数据缓存器BE和所述生成数据缓存器Bπ中分别采样得到专家状态轨迹和生成状态轨迹,并通过损失函数对所述判别网络的梯度进行下降以优化所述判别网络的参数,其中,所述S34中,需优化的JS散度计算公式如下:
DJS((st,st+1)π,(st,st+1)E)=Ε[logD(st,st+1)π]+Ε[log(1-D(st,st+1)E)]
其中,(st,st+1)π和(st,st+1)E分别代表从生成数据缓存器Bπ和专家数据缓存器BE中采样得到的生成状态轨迹和专家状态轨迹,以及优化所述判别网络的参数w包括:
Figure FDA0003288699750000023
其中,w为判别网络的参数,αd为判别网络的学习率,DJS为损失函数,DJS((st,st+1)π,(st,st+1)E)为专家数据分布和生成数据分布之间的JS散度,(st,st+1)π为生成状态轨迹,(st,st+1)E为专家状态轨迹;
S35,每隔第二预设时间利用确定性策略梯度对所述主策略网络进行更新,并对所述第一副值网络、所述第二副值网络和所述副策略网络的参数进行软更新,其中,所述S35中,对所述主策略网络进行更新包括:
Figure FDA0003288699750000024
其中,N-1为N个平方项的平均,
Figure FDA0003288699750000025
为主值网络对选取动作a的梯度,
Figure FDA0003288699750000026
为主策略网络对其参数的梯度,所述对所述第一副值网络、所述第二副值网络和所述副策略网络的参数进行软更新包括:
θ'1←τθ1+(1-τ)θ'1
θ'2←τθ2+(1-τ)θ'2
φ'←τφ+(1-τ)φ'
其中,θ′1,θ′2,φ′为两个副值网络和副策略网络的参数,θ12,φ为两个主值网络和主策略网络的参数,τ用于控制从主网络更新副网络参数的程度;
S4,根据更新的多个网络生成更新后的策略模型,对所述策略模型进行测试。
2.根据权利要求1所述的基于状态轨迹的对抗式模仿学习方法,其特征在于,所述S1进一步包括:
根据应用场景设计仿真器,通过所述仿真器与所述应用场景进行交互得到所述应用场景下一时刻的观测状态。
3.根据权利要求1所述的基于状态轨迹的对抗式模仿学习方法,其特征在于,所述当前时刻的奖励值为:
rt=-log(1-D((st,st+1)π))
其中,D((st,st+1)π)为判别网络的输出,(st,st+1)π为生成状态轨迹。
4.一种基于状态轨迹的对抗式模仿学习装置,用于实现如权利要求1所述的一种基于状态轨迹的对抗式模仿学习方法,其特征在于,包括:获取模块,用于获取专家决策下的状态轨迹,将所述状态轨迹存入专家数据缓存器;
构建模块,用于构建第一主值网络、第二主值网络、主策略网络、第一副值网络、第二副值网络、副策略网络和判别网络;
更新模块,用于基于状态轨迹和离轨策略算法的对抗式模仿学习过程,对所述第一主值网络、所述第二主值网络、所述主策略网络、所述第一副值网络、所述第二副值网络、所述副策略网络和所述判别网络进行更新,其中,所述更新模块进一步包括:
初始化仿真环境env、所述第一主值网络Q1、所述第二主值网络Q2、所述主策略网络π、所述第一副值网络Q'1、所述第二副值网络Q'2、所述副策略网络π'和所述判别网络D;
在当前状态st依据策略选取动作at,并转移到下一状态st+1,将生成状态轨迹(st,st+1)π输入所述判别网络中,所述判别网络输出当前时刻的奖励值rt,根据当前状态st、当前动作at、当前时刻的奖励值rt和下一状态st+1组成四元组(st,at,rt,st+1),并将所述四元组存储进生成数据缓存器Bπ
在所述生成数据缓存器Bπ中的数据量达到预设数据量阈值后,每个时间步取出部分数据对所述第一主值网络和所述第二主值网络进行更新,其中,所述在所述生成数据缓存器Bπ中的数据量达到预设数据量阈值后,每个时间步取出部分数据对所述第一主值网络和所述第二主值网络进行更新进一步包括:
依据副策略网络π'和随机扰动选择下一时刻的动作:
Figure FDA0003288699750000041
其中,πφ'为副策略网络代表的策略,
Figure FDA0003288699750000042
代表引入的随机扰动;
计算状态-动作值函数的目标值:
Figure FDA0003288699750000043
其中,
Figure FDA0003288699750000044
为两个副值函数网络对下一时刻状态动作对的值估计,rt为当前时刻的奖励值;
利用梯度下降法更新所述第一主值网络的参数θ1和所述第二主值网络的参数θ2
Figure FDA0003288699750000045
其中,
Figure FDA0003288699750000046
为两个主值网络对当前时刻状态动作对的值估计,N-1为N个平方项的平均;
每隔第一预设时间对所述判别网络进行更新,在所述专家数据缓存器BE和所述生成数据缓存器Bπ中分别采样得到专家状态轨迹和生成状态轨迹,并通过损失函数对所述判别网络的梯度进行下降以优化所述判别网络的参数,其中,所述每隔第一预设时间对所述判别网络进行更新,在所述专家数据缓存器BE和所述生成数据缓存器Bπ中分别采样得到专家状态轨迹和生成状态轨迹,并通过损失函数对所述判别网络的梯度进行下降以优化所述判别网络的参数中,需优化的JS散度计算公式如下:
DJS((st,st+1)π,(st,st+1)E)=Ε[logD(st,st+1)π]+Ε[log(1-D(st,st+1)E)]
其中,(st,st+1)π和(st,st+1)E分别代表从生成数据缓存器Bπ和专家数据缓存器BE中采样得到的生成状态轨迹和专家状态轨迹,以及优化所述判别网络的参数w包括:
Figure FDA0003288699750000047
其中,w为判别网络的参数,αd为判别网络的学习率,DJS为损失函数,DJS((st,st+1)π,(st,st+1)E)为专家数据分布和生成数据分布之间的JS散度,(st,st+1)π为生成状态轨迹,(st,st+1)E为专家状态轨迹;
每隔第二预设时间利用确定性策略梯度对所述主策略网络进行更新,并对所述第一副值网络、所述第二副值网络和所述副策略网络的参数进行软更新,其中,所述每隔第二预设时间利用确定性策略梯度对所述主策略网络进行更新,并对所述第一副值网络、所述第二副值网络和所述副策略网络的参数进行软更新中,对所述主策略网络进行更新包括:
Figure FDA0003288699750000051
其中,N-1为N个平方项的平均,
Figure FDA0003288699750000052
为主值网络对选取动作a的梯度,
Figure FDA0003288699750000053
为主策略网络对其参数的梯度,所述对所述第一副值网络、所述第二副值网络和所述副策略网络的参数进行软更新包括:
θ'1←τθ1+(1-τ)θ'1
θ'2←τθ2+(1-τ)θ'2
φ'←τφ+(1-τ)φ'
其中,θ′1,θ′2,φ′为两个副值网络和副策略网络的参数,θ12,φ为两个主值网络和主策略网络的参数,τ用于控制从主网络更新副网络参数的程度;
生成模块,用于根据更新的多个网络生成更新后的策略模型,对所述策略模型进行测试。
CN202010489159.XA 2020-06-02 2020-06-02 基于状态轨迹的对抗式模仿学习方法及装置 Active CN111856925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010489159.XA CN111856925B (zh) 2020-06-02 2020-06-02 基于状态轨迹的对抗式模仿学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010489159.XA CN111856925B (zh) 2020-06-02 2020-06-02 基于状态轨迹的对抗式模仿学习方法及装置

Publications (2)

Publication Number Publication Date
CN111856925A CN111856925A (zh) 2020-10-30
CN111856925B true CN111856925B (zh) 2021-12-03

Family

ID=72985434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010489159.XA Active CN111856925B (zh) 2020-06-02 2020-06-02 基于状态轨迹的对抗式模仿学习方法及装置

Country Status (1)

Country Link
CN (1) CN111856925B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379027A (zh) * 2021-02-24 2021-09-10 中国海洋大学 一种生成对抗交互模仿学习方法、系统、存储介质及应用
CN113298252B (zh) * 2021-05-31 2024-02-13 浙江工业大学 一种面向深度强化学习的策略异常检测方法和装置
CN113392396B (zh) * 2021-06-11 2022-10-14 浙江工业大学 面向深度强化学习的策略保护防御方法
CN113641099B (zh) * 2021-07-13 2023-02-10 西北工业大学 一种超越专家演示的阻抗控制模仿学习训练方法
CN113723012B (zh) * 2021-09-10 2024-04-30 上海交通大学 一种基于多智能体生成对抗模仿安全学习的协作围捕方法
CN114660947B (zh) * 2022-05-19 2022-07-29 季华实验室 机器人步态自主学习方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110764415A (zh) * 2019-10-31 2020-02-07 清华大学深圳国际研究生院 一种四足机器人腿部运动的步态规划方法
CN110839031A (zh) * 2019-11-15 2020-02-25 中国人民解放军陆军工程大学 一种基于强化学习的恶意用户行为智能检测方法
CN110991027A (zh) * 2019-11-27 2020-04-10 华南理工大学 一种基于虚拟场景训练的机器人模仿学习方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878314B2 (en) * 2017-03-09 2020-12-29 Alphaics Corporation System and method for training artificial intelligence systems using a SIMA based processor
US11568207B2 (en) * 2018-09-27 2023-01-31 Deepmind Technologies Limited Learning observation representations by predicting the future in latent space
CN110322017A (zh) * 2019-08-13 2019-10-11 吉林大学 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110764415A (zh) * 2019-10-31 2020-02-07 清华大学深圳国际研究生院 一种四足机器人腿部运动的步态规划方法
CN110839031A (zh) * 2019-11-15 2020-02-25 中国人民解放军陆军工程大学 一种基于强化学习的恶意用户行为智能检测方法
CN110991027A (zh) * 2019-11-27 2020-04-10 华南理工大学 一种基于虚拟场景训练的机器人模仿学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于生成对抗网络的模仿学习综述;林嘉豪 等;《计算机学报》;20200229;第43卷(第2期);全文 *

Also Published As

Publication number Publication date
CN111856925A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111856925B (zh) 基于状态轨迹的对抗式模仿学习方法及装置
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN111488988B (zh) 基于对抗学习的控制策略模仿学习方法及装置
Zhang et al. Learning automata-based multiagent reinforcement learning for optimization of cooperative tasks
CN109523029B (zh) 自适应双自驱动深度确定性策略梯度强化学习方法
CN111766782B (zh) 基于深度强化学习中Actor-Critic框架的策略选择方法
CN109284812B (zh) 一种基于改进dqn的视频游戏模拟方法
CN111352419B (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN112434791A (zh) 多智能体强对抗仿真方法、装置及电子设备
CN114290339B (zh) 基于强化学习和残差建模的机器人现实迁移方法
Hafez et al. Improving robot dual-system motor learning with intrinsically motivated meta-control and latent-space experience imagination
CN115933717A (zh) 基于深度强化学习的无人机智能空战机动决策训练系统及方法
Madni et al. Augmenting MBSE with Digital Twin Technology: Implementation, Analysis, Preliminary Results, and Findings
Chen et al. Policy gradient from demonstration and curiosity
CN113419424A (zh) 减少过估计的模型化强化学习机器人控制方法及系统
Tong et al. Enhancing rolling horizon evolution with policy and value networks
Xia et al. Game balancing with ecosystem mechanism
CN112101564A (zh) 基于注意力机制的多智能体值函数分解方法及装置
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
CN116167415A (zh) 一种多智能体协同及对抗中的策略决策方法
Nguyen et al. Apprenticeship bootstrapping
Hatano et al. GBDT modeling of deep reinforcement learning agents using distillation
Lin et al. Exploration-efficient deep reinforcement learning with demonstration guidance for robot control
Yu et al. Adaptively shaping reinforcement learning agents via human reward
Rahman et al. A reinforcement learning approach to predicting human design actions using a data-driven reward formulation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant