CN111488988B - 基于对抗学习的控制策略模仿学习方法及装置 - Google Patents

基于对抗学习的控制策略模仿学习方法及装置 Download PDF

Info

Publication number
CN111488988B
CN111488988B CN202010302194.6A CN202010302194A CN111488988B CN 111488988 B CN111488988 B CN 111488988B CN 202010302194 A CN202010302194 A CN 202010302194A CN 111488988 B CN111488988 B CN 111488988B
Authority
CN
China
Prior art keywords
strategy
network
expert
decision
buffer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010302194.6A
Other languages
English (en)
Other versions
CN111488988A (zh
Inventor
杨君
张明
王亚伟
芦维宁
李志恒
梁斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010302194.6A priority Critical patent/CN111488988B/zh
Publication of CN111488988A publication Critical patent/CN111488988A/zh
Application granted granted Critical
Publication of CN111488988B publication Critical patent/CN111488988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Geometry (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于对抗学习的控制策略模仿学习方法及装置,方法包括:获取人类专家的决策示教数据,并且获取与专家示教决策数据对应的仿真环境;构建控制策略网络,控制策略网络的输入为仿真环境返回的状态,输出为决策动作;使用当前策略网络在仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据进行模仿,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。该方法结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。

Description

基于对抗学习的控制策略模仿学习方法及装置
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于对抗学习的控制策略模仿学习方法及装置。
背景技术
随着人工智能方法的快速崛起,近几年来,以数据驱动为核心的深度学习技术迅猛发展,在图片、语音、文字识别方面有非常好的表现,同时也在策略对抗游戏方面(围棋、魔兽争霸等)表现出色。近两年相关方面的专家们也在逐步探索新的应用方向,其中在生产制造业中的实践与应用是一个意义重大且前景可观的方向,例如:自动视觉检测、大数据预测、自动驾驶等。在此期间,基于数据驱动的决策控制方法同样得到了良好的发展机遇,行为克隆作为模仿学习方法的典型代表取得了不少成绩,该方法主要是用的是监督学习的思想,首先对不同的任务进行标注,然后从这些专家标注后的海量数据中以监督学习的方式学习得到决策控制策略。
然而,机遇往往伴随着挑战,由于控制决策问题往往与时间相关,而依靠行为克隆(Behavioral Cloning)方式获得了控制策略模型在每一个时间步上都存在一定的误差,这些误差将随着时间的推移逐步累积。同时由于该方法是使用监督学习方式进行策略模型的训练,这将导致学习得到的控制策略只能针对专家标记过得情景任务能够很好地执行,但是面对相关程度很大但是有些不同的任务,其结果往往非常不尽如人意,这种方法学习得到的决策控制模型鲁棒性较差。
目前,控制策略的模仿学习尚属初步阶段,还有非常多的技术难点需要深入研究进行突破。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于对抗学习的控制策略模仿学习方法。
本发明的另一个目的在于提出一种基于对抗学习的控制策略模仿学习装置。
为达到上述目的,本发明一方面实施例提出了一种基于对抗学习的控制策略模仿学习方法,包括以下步骤:获取人类专家的决策示教数据,并存入专家决策轨迹数据缓存器,并且获取与所述专家示教决策数据对应的仿真环境;构建控制策略网络,所述控制策略网络的输入为所述仿真环境返回的状态,输出为决策动作;控制策略的对抗模仿训练,其中,使用当前策略网络在所述仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对所述专家轨迹数据进行模仿,逐步缩减所述策略网络决策轨迹数据和所述专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;控制策略的测试,其中,将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。
本发明实施例的基于对抗学习的控制策略模仿学习方法,结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。
另外,根据本发明上述实施例的基于对抗学习的控制策略模仿学习方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述控制策略的对抗模仿训练,包括:
S1:初始化所述策略网络π和所述鉴别器网络D;
S2:使用所述当前策略网络π在仿真环境Env中进行交互,获得每一步的动作at和状态st,并存入所述缓存器
Figure BDA0002454417550000021
S3:从所述缓存器
Figure BDA0002454417550000022
中采样获得所述当前策略交互得到的状态动作对(st,at)π,并从所述缓存器
Figure BDA0002454417550000023
中采样获得专家决策轨迹的状态动作对(st,at)E,根据计算Wasserstein距离损失函数Lwdail对鉴别器网络D进行梯度下降优化:
Figure BDA0002454417550000024
S4:根据奖励函数计算公式rt=-log(1-D(st,at)),计算每一步的奖励rt,并存入所述缓存器
Figure BDA0002454417550000025
S5:根据优势函数计算公式计算每一步的优势值At,并存入所述缓存器
Figure BDA0002454417550000026
S6:根据近端策略优化算法,并利用
Figure BDA0002454417550000027
进行策略网络的优化,是由梯度下降方式按照如下公式进行优化:
Figure BDA0002454417550000028
S7:使用所述鉴别器网络D计算所述缓存器
Figure BDA0002454417550000029
Figure BDA00024544175500000210
中状态动作对的距离,若小于设定阈值Thre时,停止训练保持所获得的参数,完成专家策略的模仿,否则返回所述S2,重新执行步骤所述S2至S6。
进一步地,在本发明的一个实施例中,所述距离损失函数Lwdail,其公式如下:
Figure BDA0002454417550000031
其中,λ是惩罚系数,θ和w代表了策略网络π与鉴别器网络D的参数,
策略分布
Figure BDA0002454417550000032
和专家分布
Figure BDA0002454417550000033
的Wasserstein距离如下:
Figure BDA0002454417550000034
其中,(s,a)π和(s,a)E是分别来自策略决策轨迹缓存器
Figure BDA0002454417550000035
和专家决策轨迹缓存器
Figure BDA0002454417550000036
的状态动作对样本。
进一步地,在本发明的一个实施例中,为了满足Lipschitz约束条件,还包括:在所述鉴别器网络D上增加一个梯度惩罚项:
Figure BDA0002454417550000037
其中,
Figure BDA0002454417550000038
是采样于
Figure BDA0002454417550000039
的随机样本。
进一步地,在本发明的一个实施例中,依据策略在经过时间T上面收集得到的状态轨迹计算所述优势函数,公式如下:
Figure BDA00024544175500000310
其中,δt=rt+γV(st+1)-V(st)。
进一步地,在本发明的一个实施例中,使用随机梯度优化算法以这个目标对策略网络进行梯度下降优化,公式为:
Figure BDA00024544175500000311
其中,rt(θ)代表了概率比
Figure BDA00024544175500000312
∈是其超参数;
使用替代梯度损失函数项、值函数误差项和策略熵项,目标函数如下:
Figure BDA00024544175500000313
其中,
Figure BDA00024544175500000314
是替代项策略损失目标,c1、c2是系数;S是探索的熵,
Figure BDA00024544175500000315
是损失函数(Vθ(st)-Vt targ)2的均方差。
为达到上述目的,本发明另一方面实施例提出了一种基于对抗学习的控制策略模仿学习装置,包括:获取模块,用于获取人类专家的决策示教数据,并存入专家决策轨迹数据缓存器,并且获取与所述专家示教决策数据对应的仿真环境;构建模块,用于构建控制策略网络,所述控制策略网络的输入为所述仿真环境返回的状态,输出为决策动作;训练模块,用于控制策略的对抗模仿训练,其中,使用当前策略网络在所述仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对所述专家轨迹数据进行模仿,逐步缩减所述策略网络决策轨迹数据和所述专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;测试模块,用于控制策略的测试,其中,将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。
本发明实施例的基于对抗学习的控制策略模仿学习装置,结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。
另外,根据本发明上述实施例的基于对抗学习的控制策略模仿学习装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述训练模块包括:
S1:初始化所述策略网络π和所述鉴别器网络D;
S2:使用所述当前策略网络π在仿真环境Env中进行交互,获得每一步的动作at和状态st,并存入所述缓存器
Figure BDA0002454417550000041
S3:从所述缓存器
Figure BDA0002454417550000042
中采样获得所述当前策略交互得到的状态动作对(st,at)π,并从所述缓存器
Figure BDA0002454417550000043
中采样获得专家决策轨迹的状态动作对(st,at)E,根据计算Wasserstein距离损失函数Lwdail对鉴别器网络D进行梯度下降优化:
Figure BDA0002454417550000044
S4:根据奖励函数计算公式rt=-log(1-D(st,at)),计算每一步的奖励rt,并存入所述缓存器
Figure BDA0002454417550000045
S5:根据优势函数计算公式计算每一步的优势值At,并存入所述缓存器
Figure BDA0002454417550000046
S6:根据近端策略优化算法,并利用
Figure BDA0002454417550000047
进行策略网络的优化,是由梯度下降方式按照如下公式进行优化:
Figure BDA0002454417550000051
S7:使用所述鉴别器网络D计算所述缓存器
Figure BDA0002454417550000052
Figure BDA0002454417550000053
中状态动作对的距离,若小于设定阈值Thre时,停止训练保持所获得的参数,完成专家策略的模仿,否则返回所述S2,重新执行步骤所述S2至S6。
进一步地,在本发明的一个实施例中,所述距离损失函数Lwdail,其公式如下:
Figure BDA0002454417550000054
其中,λ是惩罚系数,θ和w代表了策略网络π与鉴别器网络D的参数,
策略分布
Figure BDA0002454417550000055
和专家分布
Figure BDA0002454417550000056
的Wasserstein距离如下:
Figure BDA0002454417550000057
其中,(s,a)π和(s,a)E是分别来自策略决策轨迹缓存器
Figure BDA0002454417550000058
和专家决策轨迹缓存器
Figure BDA0002454417550000059
的状态动作对样本;
为了满足Lipschitz约束条件,还包括:在所述鉴别器网络D上增加一个梯度惩罚项:
Figure BDA00024544175500000510
其中,
Figure BDA00024544175500000511
是采样于
Figure BDA00024544175500000512
的随机样本。
进一步地,在本发明的一个实施例中,依据策略在经过时间T上面收集得到的状态轨迹计算所述优势函数,公式如下:
Figure BDA00024544175500000513
其中,δt=rt+γV(st+1)-V(st);
使用随机梯度优化算法以这个目标对策略网络进行梯度下降优化,公式为:
Figure BDA00024544175500000514
其中,rt(θ)代表了概率比
Figure BDA00024544175500000515
∈是其超参数;
使用替代梯度损失函数项、值函数误差项和策略熵项,目标函数如下:
Figure BDA00024544175500000516
其中,
Figure BDA00024544175500000517
是替代项策略损失目标,c1、c2是系数;S是探索的熵,
Figure BDA00024544175500000518
是损失函数(Vθ(st)-Vt targ)2的均方差。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于对抗学习的控制策略模仿学习方法的流程图;
图2为根据本发明一个实施例的基于对抗学习的控制策略模仿学习方法的流程图;
图3为根据本发明实施例的连续控制任务示意图;
图4为根据本发明实施例的训练过程曲线与学习曲线图;
图5为根据本发明实施例的基于对抗学习的控制策略模仿学习装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于对抗学习的控制策略模仿学习方法及装置,首先将参照附图描述根据本发明实施例提出的基于对抗学习的控制策略模仿学习方法。
图1是本发明一个实施例的基于对抗学习的控制策略模仿学习方法的流程图。
如图1所示,该基于对抗学习的控制策略模仿学习方法包括以下步骤:
在步骤S101中,获取人类专家的决策示教数据,并存入专家决策轨迹数据缓存器,并且获取与专家示教决策数据对应的仿真环境。
可以理解的是,如图2所示,获取人类专家的决策示教数据,并存入专家决策轨迹数据缓存器
Figure BDA0002454417550000061
同时获取与专家示教决策数据对应的仿真环境Env,该环境的输入为动作at,返回采取动作之后的下一时刻状态st+1
在步骤S102中,构建控制策略网络,控制策略网络的输入为仿真环境返回的状态,输出为决策动作。
可以理解的是,如图2所示,构建控制策略网络π(其参数为θ),该网络的输入为仿真环境Env返回的状态st,输出为决策动作at;通过构建鉴别器网络D(其参数为w),该网络输入为状态动作对(st,at),输出为对状态动作对的度量根据环境信息构建控制策略网络。
在步骤S103中,控制策略的对抗模仿训练,其中,使用当前策略网络在仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据进行模仿,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络。
可以理解的是,如图2所示,控制策略的对抗模仿训练:使用当前策略网络π在仿真环境Env进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据中包含的专家控制决策数据进行模仿,采用Wasserstein距离的对抗学习策略,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,最终模仿学习得到能够产生专家决策轨迹的策略网络π。
具体而言,控制策略的对抗模仿训练,包括:
S1:初始化策略网络π和鉴别器网络D。
S2:使用当前策略网络π在仿真环境Env中进行交互,获得每一步的动作at和状态st,并存入缓存器
Figure BDA0002454417550000071
S3:从缓存器
Figure BDA0002454417550000072
中采样获得当前策略交互得到的状态动作对(st,at)π,并从缓存器
Figure BDA0002454417550000073
中采样获得专家决策轨迹的状态动作对(st,at)E,根据计算Wasserstein距离损失函数Lwdail对鉴别器网络D进行梯度下降优化:
Figure BDA0002454417550000074
在步骤S3中,Wasserstein的距离损失函数Lwdail,其公式如下:
Figure BDA0002454417550000075
其中,λ是惩罚系数,θ和w代表了策略网络π与鉴别器网络D的参数,
策略分布
Figure BDA0002454417550000076
和专家分布
Figure BDA0002454417550000077
的Wasserstein距离如下:
Figure BDA0002454417550000078
其中,(s,a)π和(s,a)E是分别来自策略决策轨迹缓存器
Figure BDA0002454417550000079
和专家决策轨迹缓存器
Figure BDA00024544175500000710
的状态动作对样本;
为了满足1阶Lipschitz约束条件,需要在鉴别器网络D上增加一个梯度惩罚项,定义如下:
Figure BDA0002454417550000081
其中,
Figure BDA0002454417550000082
是采样于
Figure BDA0002454417550000083
的随机样本。
S4:根据奖励函数计算公式rt=-log(1-D(st,at)),计算每一步的奖励rt,并存入缓存器
Figure BDA0002454417550000084
S5:根据优势函数计算公式计算每一步的优势值At,并存入缓存器
Figure BDA0002454417550000085
在上述步骤S5中,策略梯度提升算法最关键的部分就是估计优势函数,利用的是学习得到的状态值函数。通用优势估计(GAE)算法是一种非常有效的方式,对策略梯度的实现来说,依据策略在经过时间上面收集得到的状态轨迹来进行计算,具体公式如下:
Figure BDA0002454417550000086
其中,δt=rt+γV(st+1)-V(st)。
S6:根据近端策略优化算法,并利用
Figure BDA0002454417550000087
进行策略网络的优化,是由梯度下降方式按照如下公式进行优化:
Figure BDA0002454417550000088
在步骤S6中,PPO算法的损失函数是通用策略梯度(GP)算法的替代项,并对其有一定的改进。目标函数的实现方式是使用LCLIP项去替代LPG,然后使用随机梯度优化算法以这个目标对策略网络进行梯度下降优化,具体公式为:
Figure BDA0002454417550000089
其中,rt(θ)代表了概率比
Figure BDA00024544175500000810
∈是其超参数;
PPO算法的最终目标函数是拥有固定的轨迹长度,使用替代梯度损失函数项、值函数误差项和策略熵项,具体的目标函数如下所示:
Figure BDA00024544175500000811
其中,
Figure BDA00024544175500000812
是替代项策略损失目标,c1、c2是系数;S是探索的熵,
Figure BDA00024544175500000813
是损失函数(Vθ(st)-Vt targ)2的均方差。
S7:使用鉴别器网络D计算缓存器
Figure BDA0002454417550000091
Figure BDA0002454417550000092
中状态动作对的距离,若小于设定阈值Thre时,停止训练保持所获得的参数,完成专家策略的模仿,否则返回S2,重新执行步骤S2至S6。
在步骤S104中,控制策略的测试,其中,将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。
可以理解的是,控制策略的测试:将上一步通过对抗模仿策略得到的控制策略网络π的参数θ固定保持,用其进行实际环境控制任务的应用。
下面将通过具体示例对基于对抗学习的控制策略模仿学习方法进行进一步说明。
连续控制任务:该任务是控制控制一个在仿真环境中的机器人,使其能够尽快的学会走路,如图3所示。该智能体有111个状态输入,8个控制动作,所有信息都是连续的。在该任务中,使用全连接层构架策略网络π和鉴别器网络D,策略网络包括2个含有64节点的隐藏层,其激活函数为tanh,鉴别器网络由2层100个节点的隐藏层组成,激活函数同样为tanh,使用Adam优化器进行梯度下降优化。所有的结果都归一化到[0,1]范围内,归一化的范围由环境中的随机策略和专家策略生成。
基于对抗学习的控制策略模仿方法中PPO方法使用到的超参数如表1所示,表1为PPO策略提升超参数表。
表1
超参数
全周期(T) 2048
学习率(α<sub>p</sub>) 3e-4
折扣因子(γ) 0.99
GAE参数(λ) 0.95
对抗模仿学习使用到的超参数如表2所示,表2为对抗模仿学习的超参数表。
表2
超参数
学习率(α<sub>d</sub>) 1e-3
惩罚系数(λ) 0.99
该环境的随机策略得分为-60.21±30.40,专家策略得分4066.96±688.97,使用专家策略与环境交互,得到专家控制决策轨迹数据5组,使用5组专家经验数据进行模仿学习的测试,训练过程曲线如图4所示,可以看出该方法能够很快的模仿专家轨迹,得到与专家轨迹近似的得分3890.90±379.63,可以看到该得分与专家策略得分有一定偏差,这个偏差就是与环境交互产生的,这也说明了本发明实施来的方法并不仅仅是简单的复制专家策略,而是进行鲁棒性的学习。其学习曲线如图4所示,该图进行了归一化的处理,0代表了随机策略得分,1代表专家策略得分。从图中可以看出,本发明实施例的方法在1百万次交互之后接近专家策略。
根据本发明实施例提出的基于对抗学习的控制策略模仿学习方法,结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。
其次参照附图描述根据本发明实施例提出的基于对抗学习的控制策略模仿学习装置。
图5是本发明一个实施例的基于对抗学习的控制策略模仿学习装置的结构示意图。
如图5所示,该基于对抗学习的控制策略模仿学习装置10包括:获取模块100、构建模块200、训练模块300和测试模块400。
其中,获取模块100用于获取人类专家的决策示教数据,并存入专家决策轨迹数据缓存器,并且获取与专家示教决策数据对应的仿真环境;构建模块200用于构建控制策略网络,控制策略网络的输入为仿真环境返回的状态,输出为决策动作;训练模块300用于控制策略的对抗模仿训练,其中,使用当前策略网络在仿真环境进行交互,获得当前策略的决策轨迹数据,基于对抗学习的模仿学习方法对专家轨迹数据进行模仿,逐步缩减策略网络决策轨迹数据和专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;测试模块400用于控制策略的测试,其中,将通过对抗模仿策略得到的控制策略网络的参数固定保持,以进行实际环境控制任务的应用。
进一步地,在本发明的一个实施例中,训练模块300包括:
S1:初始化策略网络π和鉴别器网络D;
S2:使用当前策略网络π在仿真环境Env中进行交互,获得每一步的动作at和状态st,并存入缓存器
Figure BDA0002454417550000101
S3:从缓存器
Figure BDA0002454417550000102
中采样获得当前策略交互得到的状态动作对(st,at)π,并从缓存器
Figure BDA0002454417550000103
中采样获得专家决策轨迹的状态动作对(st,at)E,根据计算Wasserstein距离损失函数Lwdail对鉴别器网络D进行梯度下降优化:
Figure BDA0002454417550000104
S4:根据奖励函数计算公式rt=-log(1-D(st,at)),计算每一步的奖励rt,并存入缓存器
Figure BDA0002454417550000111
S5:根据优势函数计算公式计算每一步的优势值At,并存入缓存器
Figure BDA0002454417550000112
S6:根据近端策略优化算法,并利用
Figure BDA0002454417550000113
进行策略网络的优化,是由梯度下降方式按照如下公式进行优化:
Figure BDA0002454417550000114
S7:使用鉴别器网络D计算缓存器
Figure BDA0002454417550000115
Figure BDA0002454417550000116
中状态动作对的距离,若小于设定阈值Thre时,停止训练保持所获得的参数,完成专家策略的模仿,否则返回S2,重新执行步骤S2至S6。
进一步地,在本发明的一个实施例中,距离损失函数Lwdail,其公式如下:
Figure BDA0002454417550000117
其中,λ是惩罚系数,θ和w代表了策略网络π与鉴别器网络D的参数,
策略分布
Figure BDA0002454417550000118
和专家分布
Figure BDA0002454417550000119
的Wasserstein距离如下:
Figure BDA00024544175500001110
其中,(s,a)π和(s,a)E是分别来自策略决策轨迹缓存器
Figure BDA00024544175500001111
和专家决策轨迹缓存器
Figure BDA00024544175500001112
的状态动作对样本;
为了满足Lipschitz约束条件,还包括:在鉴别器网络D上增加一个梯度惩罚项:
Figure BDA00024544175500001113
其中,
Figure BDA00024544175500001114
是采样于
Figure BDA00024544175500001115
的随机样本。
进一步地,在本发明的一个实施例中,依据策略在经过时间T上面收集得到的状态轨迹计算优势函数,公式如下:
Figure BDA00024544175500001116
其中,δt=rt+γV(st+1)-V(st);
使用随机梯度优化算法以这个目标对策略网络进行梯度下降优化,公式为:
Figure BDA00024544175500001117
其中,rt(θ)代表了概率比
Figure BDA0002454417550000121
∈是其超参数;
使用替代梯度损失函数项、值函数误差项和策略熵项,目标函数如下:
Figure BDA0002454417550000122
其中,
Figure BDA0002454417550000123
是替代项策略损失目标,c1、c2是系数;S是探索的熵,
Figure BDA0002454417550000124
是损失函数(Vθ(st)-Vt targ)2的均方差。
需要说明的是,前述对基于对抗学习的控制策略模仿学习方法实施例的解释说明也适用于该实施例的基于对抗学习的控制策略模仿学习装置,此处不再赘述。
根据本发明实施例提出的基于对抗学习的控制策略模仿学习装置,结合数据与模型的双重优势,通过对抗学习策略获得鲁棒性更强的控制策略,简单易实现。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于对抗学习的控制策略模仿学习方法,其特征在于,包括以下步骤:
获取人类专家的决策轨迹数据,并存入专家决策轨迹数据缓存器
Figure FDA0003251107030000011
并且获取与所述专家决策轨迹数据对应的仿真环境;
构建策略网络π,所述策略网络π的输入为所述仿真环境返回的状态,输出为决策动作;
控制策略的对抗模仿训练,其中,使用当前策略网络在所述仿真环境进行交互,获得策略网络的决策轨迹数据
Figure FDA0003251107030000012
基于对抗学习的模仿学习方法对所述专家决策轨迹数据进行模仿,逐步缩减所述策略网络决策轨迹数据和所述专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;以及
控制策略的测试,其中,将通过对抗模仿策略得到的策略网络π的参数θ固定保持,以进行实际环境控制任务的应用;
所述控制策略的对抗模仿训练,包括:
S1:初始化策略网络π和鉴别器网络D,其中,策略网络,值网络与鉴别器是由多层神经网络构成的参数化模型,分别负责输出当前策略和鉴别当前策略产生的轨迹与专家轨迹之间的差距,它们的模型参数分别为θ和w;
S2:使用策略网络π在仿真环境Env中进行交互,获得每一步的动作at和状态st,并存入缓存器
Figure FDA0003251107030000013
其中缓存器是用于存储每一步的动作与状态,形成策略轨迹数据;
S3:从所述缓存器
Figure FDA0003251107030000014
中采样获得所述策略交互得到的状态动作对(st,at)π,并从缓存器
Figure FDA0003251107030000015
中采样获得专家决策轨迹的状态动作对(st,at)E,根据计算Wasserstein距离损失函数Lwdail对鉴别器网络D进行梯度下降优化:
Figure FDA0003251107030000016
其中,w是鉴别器网络D的参数,αd是学习率取0.001,(s,a)π是缓存器中的决策轨迹数据,(s,a)E是专家决策轨迹数据;
S4:根据奖励函数计算公式rt=-log(1-D(st,at)),计算每一步的奖励rt,并存入所述缓存器
Figure FDA0003251107030000021
S5:根据优势函数计算公式计算每一步的优势值At,并存入所述缓存器
Figure FDA0003251107030000022
S6:根据近端策略优化算法,并利用
Figure FDA0003251107030000023
进行策略网络的优化,是由梯度下降方式按照如下公式进行优化:
Figure FDA0003251107030000024
其中,θ是策略网络的参数,αp是学习率,
Figure FDA0003251107030000025
是替代项策略损失目标函数;
S7:使用所述鉴别器网络D计算所述缓存器
Figure FDA0003251107030000026
Figure FDA0003251107030000027
中状态动作对的距离,若小于设定阈值Thre时,停止训练保持所获得的参数,完成专家策略的模仿,否则返回所述S2,重新执行步骤所述S2至S6。
2.根据权利要求1所述的方法,其特征在于,所述距离损失函数Lwdail,其公式如下:
Figure FDA0003251107030000028
其中,λ是惩罚系数,θ和w代表了策略网络π与鉴别器网络D的参数,Lgp是优化鉴别器网络D的梯度惩罚项;
策略决策轨迹数据分布
Figure FDA0003251107030000029
和专家决策轨迹数据分布
Figure FDA00032511070300000210
的Wasserstein距离如下:
Figure FDA00032511070300000211
其中,(s,a)π和(s,a)E是分别来自策略决策轨迹缓存器
Figure FDA00032511070300000212
和专家决策轨迹缓存器
Figure FDA0003251107030000031
的状态动作对样本。
3.根据权利要求2所述的方法,为了满足Lipschitz约束条件,还包括:
在所述鉴别器网络D上增加一个梯度惩罚项:
Figure FDA0003251107030000032
其中,
Figure FDA0003251107030000033
是采样于
Figure FDA0003251107030000034
的随机样本。
4.根据权利要求1所述的方法,其特征在于,依据策略在经过时间T上面收集得到的状态轨迹计算所述优势函数,公式如下:
Figure FDA0003251107030000035
其中,δt=rt+γV(st+1)-V(st),γ是超参数,取0.99。
5.根据权利要求1所述的方法,其特征在于,使用随机梯度优化算法以这个目标对策略网络进行梯度下降优化,公式为:
Figure FDA0003251107030000036
其中,rt(θ)代表了概率比
Figure FDA0003251107030000037
∈是其超参数,
Figure FDA0003251107030000038
是函数的期望,
Figure FDA0003251107030000039
是优势函数,rt是奖励函数,clip(rt(θ),1-∈,1+∈)是裁剪函数当奖励值rt大于1+∈取1+∈,rt小于1-∈时取1-∈;
最终优化策略网络π与值网络V的目标函数如下:
Figure FDA00032511070300000310
其中,
Figure FDA00032511070300000311
是替代项策略损失目标,c1、c2是系数。
6.一种基于对抗学习的控制策略模仿学习装置,其特征在于,包括:
获取模块,用于获取人类专家的决策轨迹数据,并存入专家决策轨迹数据缓存器,并且获取与所述专家决策轨迹数据对应的仿真环境;
构建模块,用于构建策略网络π,所述策略网络π的输入为所述仿真环境返回的状态,输出为决策动作;
训练模块,用于控制策略的对抗模仿训练,其中,使用当前策略网络在所述仿真环境进行交互,获得策略网络的决策轨迹数据
Figure FDA0003251107030000041
基于对抗学习的模仿学习方法对所述专家决策轨迹数据进行模仿,逐步缩减所述策略网络决策轨迹数据和所述专家决策轨迹数据之间的分布差异,以模仿学习得到能够产生专家决策轨迹的策略网络;以及
测试模块,用于控制策略的测试,其中,将通过对抗模仿策略得到的策略网络π的参数θ固定保持,以进行实际环境控制任务的应用;
所述训练模块包括:
S1:初始化策略网络π和鉴别器网络D,其中,策略网络,值网络与鉴别器是由多层神经网络构成的参数化模型,分别负责输出当前策略和鉴别当前策略产生的轨迹与专家轨迹之间的差距,它们的模型参数分别为θ和w;
S2:使用策略网络π在仿真环境Env中进行交互,获得每一步的动作at和状态st,并存入缓存器
Figure FDA0003251107030000042
其中缓存器是用于存储每一步的动作与状态,形成策略轨迹数据;
S3:从所述缓存器
Figure FDA0003251107030000043
中采样获得所述策略交互得到的状态动作对(st,at)π,并从缓存器
Figure FDA0003251107030000044
中采样获得专家决策轨迹的状态动作对(st,at)E,根据计算Wasserstein距离损失函数Lwdail对鉴别器网络D进行梯度下降优化:
Figure FDA0003251107030000045
其中,w是鉴别器网络D的参数,αd是学习率,取0.001,(s,a)π是缓存器中的决策轨迹数据,(s,a)E是专家决策轨迹数据;
S4:根据奖励函数计算公式rt=-log(1-D(st,at)),计算每一步的奖励rt,并存入所述缓存器
Figure FDA0003251107030000046
S5:根据优势函数计算公式计算每一步的优势值At,并存入所述缓存器
Figure FDA0003251107030000047
S6:根据近端策略优化算法,并利用
Figure FDA0003251107030000048
进行策略网络的优化,是由梯度下降方式按照如下公式进行优化:
Figure FDA0003251107030000051
其中,θ是策略网络的参数,αp是学习率,
Figure FDA0003251107030000052
是替代项策略损失目标函数;
S7:使用所述鉴别器网络D计算所述缓存器
Figure FDA0003251107030000053
Figure FDA0003251107030000054
中状态动作对的距离,若小于设定阈值Thre时,停止训练保持所获得的参数,完成专家策略的模仿,否则返回所述S2,重新执行步骤所述S2至S6。
7.根据权利要求6所述的装置,其特征在于,所述距离损失函数Lwdail,其公式如下:
Figure FDA0003251107030000055
其中,λ是惩罚系数,θ和w代表了策略网络π与鉴别器网络D的参数,Lgp是优化鉴别器网络D的梯度惩罚项;
策略决策轨迹数据分布
Figure FDA0003251107030000056
和专家决策轨迹数据分布
Figure FDA0003251107030000057
的Wasserstein距离如下:
Figure FDA0003251107030000058
其中,(s,a)π和(s,a)E是分别来自策略决策轨迹缓存器
Figure FDA0003251107030000059
和专家决策轨迹缓存器
Figure FDA00032511070300000510
的状态动作对样本;
为了满足Lipschitz约束条件,还包括:
在所述鉴别器网络D上增加一个梯度惩罚项:
Figure FDA00032511070300000511
其中,
Figure FDA00032511070300000512
是采样于
Figure FDA00032511070300000513
的随机样本。
8.根据权利要求6所述的装置,其特征在于,依据策略在经过时间T上面收集得到的状态轨迹计算所述优势函数,公式如下:
Figure FDA00032511070300000514
其中,δt=rt+γV(st+1)-V(st),γ是超参数取0.99;
使用随机梯度优化算法以这个目标对策略网络进行梯度下降优化,公式为:
Figure FDA0003251107030000061
其中,rt(θ)代表了概率比
Figure FDA0003251107030000062
∈是其超参数,
Figure FDA0003251107030000063
是函数的期望,
Figure FDA0003251107030000064
是优势函数,rt是奖励函数,clip(rt(θ),1-∈,1+∈)是裁剪函数当奖励值rt大于1+∈取1+∈,rt小于1-∈时取1-∈;
最终优化策略网络π与值网络V的目标函数如下:
Figure FDA0003251107030000065
其中,
Figure FDA0003251107030000066
是替代项策略损失目标,c1、c2是系数。
CN202010302194.6A 2020-04-16 2020-04-16 基于对抗学习的控制策略模仿学习方法及装置 Active CN111488988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010302194.6A CN111488988B (zh) 2020-04-16 2020-04-16 基于对抗学习的控制策略模仿学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010302194.6A CN111488988B (zh) 2020-04-16 2020-04-16 基于对抗学习的控制策略模仿学习方法及装置

Publications (2)

Publication Number Publication Date
CN111488988A CN111488988A (zh) 2020-08-04
CN111488988B true CN111488988B (zh) 2021-10-29

Family

ID=71811746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010302194.6A Active CN111488988B (zh) 2020-04-16 2020-04-16 基于对抗学习的控制策略模仿学习方法及装置

Country Status (1)

Country Link
CN (1) CN111488988B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101564B (zh) * 2020-08-17 2024-09-06 清华大学 基于注意力机制的多智能体值函数分解方法及装置
CN112052947B (zh) * 2020-08-17 2021-06-25 清华大学 基于策略选项的分层强化学习方法和装置
CN112069662A (zh) * 2020-08-20 2020-12-11 北京仿真中心 一种基于人机混合增强的复杂产品自主构建方法和模块
CN112215333B (zh) * 2020-09-14 2022-08-12 清华大学 基于低阶高斯分布的多智能体协同探索方法及装置
CN114248265B (zh) * 2020-09-25 2023-07-07 广州中国科学院先进技术研究所 一种基于元模拟学习的多任务智能机器人学习方法及装置
CN112580520B (zh) * 2020-12-22 2024-02-20 浙江工业大学 一种基于模仿学习的Deepfake检测方法
CN113379027A (zh) * 2021-02-24 2021-09-10 中国海洋大学 一种生成对抗交互模仿学习方法、系统、存储介质及应用
CN112975967B (zh) * 2021-02-26 2022-06-28 同济大学 一种基于模仿学习的服务机器人定量倒水方法及存储介质
CN112906888B (zh) * 2021-03-02 2023-05-09 中国人民解放军军事科学院国防科技创新研究院 一种任务执行方法及装置、电子设备和存储介质
CN112801558B (zh) * 2021-04-07 2021-07-30 北京瑞莱智慧科技有限公司 一种工艺参数调节动作决策模型的优化方法以及装置
CN112990460B (zh) * 2021-05-06 2021-08-17 中国科学院自动化研究所 人机对抗分布式训练系统和方法
CN113420326B (zh) * 2021-06-08 2022-06-21 浙江工业大学之江学院 面向深度强化学习的模型隐私保护方法和系统
CN113239634B (zh) * 2021-06-11 2022-11-04 上海交通大学 一种基于鲁棒模仿学习的模拟器建模方法
CN113392396B (zh) * 2021-06-11 2022-10-14 浙江工业大学 面向深度强化学习的策略保护防御方法
CN113641099B (zh) * 2021-07-13 2023-02-10 西北工业大学 一种超越专家演示的阻抗控制模仿学习训练方法
CN113467515B (zh) * 2021-07-22 2023-03-10 南京大学 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法
CN113723012B (zh) * 2021-09-10 2024-04-30 上海交通大学 一种基于多智能体生成对抗模仿安全学习的协作围捕方法
CN114219066A (zh) * 2021-10-29 2022-03-22 清华大学 基于瓦瑟斯坦距离的无监督强化学习方法及装置
CN114137967B (zh) * 2021-11-23 2023-12-15 常熟理工学院 基于多网络联合学习的驾驶行为决策方法
CN114734443B (zh) * 2022-04-27 2023-08-04 东南大学 基于生成对抗模仿学习的人机协作机器人技能识别方法
CN115373411A (zh) * 2022-05-31 2022-11-22 中国航空工业集团公司沈阳飞机设计研究所 一种飞机自动驾驶控制策略决策方法及其系统
CN114986518B (zh) * 2022-07-19 2022-11-04 聊城一明五金科技有限公司 用于汽车拆解生产线的智能控制方法及系统
CN116304655B (zh) * 2022-09-06 2024-07-05 北京百度网讯科技有限公司 策略模型获取及参数调整方法、装置及存储介质
CN115953009B (zh) * 2023-03-01 2023-07-21 阿里巴巴(中国)有限公司 电力系统的调度方法、调度决策模型的训练方法
CN117193008B (zh) * 2023-10-07 2024-03-01 航天科工集团智能科技研究院有限公司 面向高维扰动环境的小样本鲁棒模仿学习训练方法、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734276B (zh) * 2018-04-28 2021-12-31 同济大学 一种基于对抗生成网络的模仿学习对话生成方法
US11537872B2 (en) * 2018-07-30 2022-12-27 International Business Machines Corporation Imitation learning by action shaping with antagonist reinforcement learning
WO2020028036A1 (en) * 2018-08-01 2020-02-06 D5Ai Llc Robust von neumann ensembles for deep learning
CN110046712A (zh) * 2019-04-04 2019-07-23 天津科技大学 基于生成模型的隐空间模型化策略搜索学习方法
CN110764415B (zh) * 2019-10-31 2022-04-15 清华大学深圳国际研究生院 一种四足机器人腿部运动的步态规划方法
CN110991027A (zh) * 2019-11-27 2020-04-10 华南理工大学 一种基于虚拟场景训练的机器人模仿学习方法

Also Published As

Publication number Publication date
CN111488988A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN111488988B (zh) 基于对抗学习的控制策略模仿学习方法及装置
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
Lakshminarayanan et al. Dynamic action repetition for deep reinforcement learning
CN109740741B (zh) 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法
CN110991027A (zh) 一种基于虚拟场景训练的机器人模仿学习方法
CN111856925B (zh) 基于状态轨迹的对抗式模仿学习方法及装置
CN111026272B (zh) 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN114460943B (zh) 服务机器人自适应目标导航方法及系统
Cardamone et al. On-line neuroevolution applied to the open racing car simulator
CN113449458A (zh) 一种基于课程学习的多智能体深度确定性策略梯度方法
CN113095488A (zh) 一种基于多智能体最大熵强化学习的合作博弈方法
CN114048834B (zh) 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置
CN114330651A (zh) 面向多要素联合指控的分层多智能体增强学习方法
Kim et al. Generalization of TORCS car racing controllers with artificial neural networks and linear regression analysis
CN115952736A (zh) 一种多智能体目标协同搜索方法及系统
CN114290339B (zh) 基于强化学习和残差建模的机器人现实迁移方法
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
CN113919475B (zh) 机器人技能学习的方法、装置、电子设备及存储介质
CN115972211A (zh) 基于模型不确定性与行为先验的控制策略离线训练方法
CN114626505A (zh) 一种移动机器人深度强化学习控制方法
Gan et al. Noisy agents: Self-supervised exploration by predicting auditory events
CN116578094A (zh) 一种自主避障规划方法、装置及系统
Mott et al. Controllable and coherent level generation: A two-pronged approach
Burch A survey of machine learning
CN105279978B (zh) 交叉口交通信号控制方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant