CN112052936A - 基于生成对抗机制的强化学习探索方法及装置 - Google Patents

基于生成对抗机制的强化学习探索方法及装置 Download PDF

Info

Publication number
CN112052936A
CN112052936A CN202010720742.7A CN202010720742A CN112052936A CN 112052936 A CN112052936 A CN 112052936A CN 202010720742 A CN202010720742 A CN 202010720742A CN 112052936 A CN112052936 A CN 112052936A
Authority
CN
China
Prior art keywords
network
value network
action
decision
buffer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010720742.7A
Other languages
English (en)
Other versions
CN112052936B (zh
Inventor
杨君
袁凯钊
马骁腾
芦维宁
陈章
梁斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010720742.7A priority Critical patent/CN112052936B/zh
Publication of CN112052936A publication Critical patent/CN112052936A/zh
Application granted granted Critical
Publication of CN112052936B publication Critical patent/CN112052936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于生成对抗机制的强化学习探索方法及装置,其中,该方法包括:构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络;基于生成对抗机制和离线强化学习算法的学习过程,对第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。

Description

基于生成对抗机制的强化学习探索方法及装置
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于生成对抗机制的强化学习探索方法及装置。
背景技术
近年来,计算机的计算和储存性能都有了巨大飞跃,引发了深度学习的快速兴起。深度学习不仅在图像分类、语音识别和自然语言处理等领域取得巨大进展,还为强化学习中价值函数的近似、智能体行为策略的表达提供了便利条件。结合了神经网络的强化学习有了处理大规模模拟数据,经过一次次的梯度更新完成迭代学习的能力,使得战胜世界围棋高手的AlphaGo成为现实。
然而,强化学习仍然面临着诸多问题,其中一个重要的问题是稀疏奖励问题。在许多现实场景中,外部环境给予智能体的奖励十分稀疏甚至完全没有,只有智能体在达成阶段性目标甚至只有它完成最终目标任务之后,奖励才由环境给出。如果起始状态到目标状态之间需要经历诸多动作进行驱动,而中间这些动作无法获得相应的激励,将导致智能体需要经过巨量的学习次数才能达成目标,甚至可能仅仅徘徊在最初的几种状态,使学习过程变得十分困难。
尽管基于随机动作的探索方法可能使智能体探索更多的状态和动作,但在面对稍微复杂一点的环境时这种朴素的探索方法几乎没有什么效果。更复杂的探索可以在动作空间、策略参数空间、目标或状态空间等不同的探索空间进行,从而获得更好的探索结果。对动作空间或策略参数空间进行探索的方法往往采用了随机或添加噪声的思路。常见的在动作空间进行探索的策略有∈-greedy、动作空间噪声、标准最大熵强化学习算法等。向策略参数空间添加噪声也可以得到较好的探索。关于在状态空间或目标空间进行探索的方法,一般由探索方法提供额外的内在激励来鼓励智能体进行探索。一类方法直接鼓励智能体访问新的状态,这类方法对智能体访问次数较少的状态提供更高的内在奖励。另一类方法是建立预测模型并以预测误差作为探索的内在奖励,为预测模型表现不好的状态提供更高的内在奖励。此外还有一种状态边际匹配算法,将基于最大化熵的思想使用在状态空间的探索中。
以上探索方法仍然存在一些不足:基于随机思想的探索方法无法为智能体提供充足的探索性;设计内在激励函数的探索方法则因内在激励的衰减性质,导致智能体的价值估计出现波动,影响了训练稳定性。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于生成对抗机制的强化学习探索方法,该方法设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。
本发明的另一个目的在于提出一种基于生成对抗机制的强化学习探索方装置。
为达到上述目的,本发明一方面实施例提出了一种基于生成对抗机制的强化学习探索方法,包括:
S1,构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络;
S2,基于生成对抗机制和离线强化学习算法的学习过程,对所述第一动作价值网络、所述第二动作价值网络、所述状态价值网络、所述目标状态价值网络、所述策略网络、所述密度模型网络和所述鉴别网络进行更新;
S3,根据更新的多个网络生成更新后的策略模型,对所述策略模型进行测试。
为达到上述目的,本发明另一方面实施例提出了一种基于生成对抗机制的强化学习探索装置,包括:
构建模块,用于构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络;
更新模块,用于基于生成对抗机制和离线强化学习算法的学习过程,对所述第一动作价值网络、所述第二动作价值网络、所述状态价值网络、所述目标状态价值网络、所述策略网络、所述密度模型网络和所述鉴别网络进行更新;
测试模块,用于根据更新的多个网络生成更新后的策略模型,对所述策略模型进行测试。
本发明实施例的基于生成对抗机制的强化学习探索方法及装置的优势如下:通过从工业应用与算法研究实际需要出发,研究基于生成对抗机制的强化学习探索,并结合离线强化学习算法SAC和基于状态边际匹配的探索算法SMM,设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于生成对抗机制的强化学习探索方法流程图;
图2为根据本发明一个实施例的基于生成对抗机制的强化学习探索方法流程框图;
图3为根据本发明一个实施例的环境的具体场景图;
图4为根据本发明一个实施例的训练过程图像;
图5为根据本发明一个实施例的基于生成对抗机制的强化学习探索装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于生成对抗机制的强化学习探索方法及装置。
首先将参照附图描述根据本发明实施例提出的基于生成对抗机制的强化学习探索方法。
图1为根据本发明一个实施例的基于生成对抗机制的强化学习探索方法流程图。
图2为根据本发明一个实施例的基于生成对抗机制的强化学习探索方法流程框图。
如图1和图2所示,该基于生成对抗机制的强化学习探索方法包括以下步骤:
步骤S1,构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络。
具体地,构建参数为
Figure BDA0002599904220000031
的第一动作价值网络Q1、参数为
Figure BDA0002599904220000032
的第二动作价值网络Q2、参数为θv的状态价值网络V、参数为θv′的目标状态价值网络V′、参数为θ的策略网络π、参数为w的密度模型网络qq和参数为θd的鉴别网络DD。
步骤S2,基于生成对抗机制和离线强化学习算法的学习过程,对第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络进行更新。
基于生成对抗机制和离线强化学习算法的学习过程。使用策略网络π与仿真环境进行交互,将四元组(st,at,rt,st+1)存入到缓存器Bπ中。其中奖励值来自仿真环境反馈的真实值。通过对抗学习的方式,步骤S1中的网络的参数持续更新,不断缩小生成决策和正确决策之间的分布差异。当训练进程收敛时,即使鉴别网络已经具备了较强的分辨能力,但此时学习策略已经很接近最优策略,鉴别网络很难区分此时的生成决策和正确决策。
进一步地,步骤S2的学习过程具体包括:
S21,初始化仿真环境env、第一动作价值网络Q1、第二动作价值网络Q2、状态价值网络V、目标状态价值网络V′、策略网络π、密度模型网络qq和鉴别网络D。
S22,在当前状态st依据策略选取动作at,并转移到下一状态st+1,获得当前时刻的环境奖励rt,根据当前状态st、当前动作at、当前时刻的奖励值rt和下一状态st+1组成四元组(st,at,rt,st+1),并将四元组存储进决策缓存器Bπ
S23,在仿真结束时,判断环境任务是否完成,若任务完成,则将该轮仿真的所有决策
Figure BDA0002599904220000041
存入正确决策缓存器Bgood;反之,则将该轮仿真的所有决策{xt=st,att=1T存入错误决策缓存器Bbad。
S24,在正确决策缓存器Bgood和错误决策缓存器Bbad中的数据量均达到数据量阈值后,在正确决策缓存器Bgood和错误决策缓存器Bbad中分别采样得到正确决策和错误决策,并通过损失函数对鉴别网络的梯度进行下降以优化鉴别网络的参数,重复采样和参数更新过程,直至鉴别网络对生成决策的平均鉴别结果小于预设阈值。
在这一步骤中,重复采样和更新过程,在鉴别网络对生成决策的平均鉴别结果小于0.5时结束更新过程。
进一步地,鉴别网络需要优化的损失函数的公式为:
Ld(xT,xF)=E[log D(xT)]+E[log(1-D(xF))]
其中,Ld(xT,xF)为利用正确决策和错误决策计算的损失函数值,xT和xF分别代表从正确决策缓存器Bgood和错误决策缓存器Bbad中采样得到的决策。
进一步地,优化鉴别网络的参数θd包括:
Figure BDA0002599904220000042
其中,θd为鉴别网络的参数,αd为鉴别网络的学习率,Ld为鉴别网络的损失函数。
S25,对密度模型、第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络和策略网络进行更新。
对状态价值网络、第一动作价值网络和第二动作价值网络、策略网络进行更新的损失函数为包括:
Figure BDA0002599904220000043
Figure BDA0002599904220000044
Figure BDA0002599904220000051
其中,r(st,at)为用于训练的奖励值,γ为衰减系数。
进一步地,对各个网络更新的具体过程为:
S251,利用梯度下降方法更新密度模型网络qq:
q←argmaxqE[log q(st)]
其中,st为从决策缓存器Bπ中采样得到的状态;
S252,计算奖励值:
r(st,at)=rt-logq(st)+logD(G(st))
其中,G(st)为基于st的生成决策,由st自身与策略网络π在st输入下输出的动作at共同构成,即:
G(st)=(st,π(st))
S253,利用梯度下降法更新状态价值网络的参数θv、第一动作价值网络的参数
Figure BDA0002599904220000052
第二动作价值网络的参数
Figure BDA0002599904220000053
和策略网络的参数θ:
Figure BDA0002599904220000054
Figure BDA0002599904220000055
Figure BDA0002599904220000056
Figure BDA0002599904220000057
其中,αv、αq和α分别为状态价值网络、第一动作价值网络及第二动作价值网络和策略网络的学习率;
S253,对目标状态价值网络的参数进行软更新:
θ′v←τθv+(1-τ)θ′v
其中,τ是超参数。
步骤S3,根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
具体地,在与环境的交互次数达到预设次数时,结束训练过程生成更新后的策略模型。
下面通过具体的实施例对发明的基于生成对抗机制的强化学习探索方法进行详细说明。
对于一个连续控制任务,该任务的目的是控制二维的圆点在地图中移动,使其能够经过尽可能少的时间步之后抵达终点(目标点),图3是该环境的具体场景。对于该仿真环境中要控制的智能体而言,输入是12维状态量,输出动作是连续的2维变量。在所提出的基于生成对抗机制的强化学习探索算法中,策略网络包含两层隐藏层,结点数均为300,激活函数为ReLU;两个值网络的结构相同,同样包含两层隐藏层,结点数均为300,激活函数为ReLU;鉴别器网络包含两层隐藏层,结点数均为300,隐含层使用的激活函数是LeakyReLU,输出层使用的激活函数是Sigmoid。以上各个网络的参数都通过Adam优化器进行优化。
模仿学习过程中使用到的其他超参数如下表所示:
超参数
单次方向传播的样本量(batch_size) 64
奖励值的衰减系数(gamma) 0.99
每轮游戏的最大步数(num_steps) 500
仿真次数(num_episodes) 1000
学习率(lr) 0.0003
缓存器容量(memory_size) 1000000
副网络柔性更新系数(soft_tau) 0.001
如图4所示,在ContinuousMaze_v0环境中,采用SAC与SMM结合的算法在训练过程中不够稳定,而添加了生成对抗机制的SAC与SMM结合的算法则在第200episode后稳定收敛。
根据本发明实施例提出的基于生成对抗机制的强化学习探索方法,通过从工业应用与算法研究实际需要出发,研究基于生成对抗机制的强化学习探索,并结合离线策略学习算法SAC和基于状态边际匹配的探索算法SMM,设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法
其次参照附图描述根据本发明实施例提出的基于生成对抗机制的强化学习探索装置。
图5为根据本发明一个实施例的基于生成对抗机制的强化学习探索装置结构示意图。
如图5所示,该基于生成对抗机制的强化学习探索装置包括:构建模块100、更新模块200和测试模块300。
构建模块100,用于构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络。
更新模块200,用于基于生成对抗机制和离线强化学习算法的学习过程,对第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络进行更新。
测试模块300,用于根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
进一步地,在本发明的一个实施例中,更新模块,具体用于,
初始化仿真环境env、第一动作价值网络Q1、第二动作价值网络Q2、状态价值网络V、目标状态价值网络V′、策略网络π、密度模型网络qq和鉴别网络D;
在当前状态st依据策略选取动作at,并转移到下一状态st+1,获得当前时刻的环境奖励rt,根据当前状态st、当前动作at、当前时刻的奖励值rt和下一状态st+1组成四元组(st,at,rt,st+1),并将四元组存储进决策缓存器Bπ
在仿真结束时,判断环境任务是否完成,若任务完成,则将该轮仿真的所有决策
Figure BDA0002599904220000071
存入正确决策缓存器Bgood;反之,则将该轮仿真的所有决策{xt=st,att=1T存入错误决策缓存器Bbad;
在正确决策缓存器Bgood和错误决策缓存器Bbad中的数据量均达到数据量阈值后,在正确决策缓存器Bgood和错误决策缓存器Bbad中分别采样得到正确决策和错误决策,并通过损失函数对鉴别网络的梯度进行下降以优化鉴别网络的参数,重复采样和参数更新过程,直至鉴别网络对生成决策的平均鉴别结果小于预设阈值;
对密度模型、第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络和策略网络进行更新。
进一步地,在本发明的一个实施例中,鉴别网络的损失函数为:
Ld(xT,xF)=E[log D(xT)]+E[log(1-D(xF))]
其中,Ld(xT,xF)为利用正确决策和错误决策计算的损失函数值,xT和xF分别代表从正确决策缓存器Bgood和错误决策缓存器Bbad中采样得到的决策。
进一步地,在本发明的一个实施例中,优化鉴别网络的参数θd包括:
Figure BDA0002599904220000072
其中,θd为鉴别网络的参数,αd为鉴别网络的学习率,Ld(xT,xF)为利用正确决策和错误决策计算的损失函数值,xT和xF分别代表从正确决策缓存器Bgood和错误决策缓存器Bbad中采样得到的决策。
需要说明的是,前述对基于生成对抗机制的强化学习探索方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
根据本发明实施例提出的基于生成对抗机制的强化学习探索方装置,通过从工业应用与算法研究实际需要出发,研究基于生成对抗机制的强化学习探索,并结合离线策略学习算法SAC和基于状态边际匹配的探索算法SMM,设计出一种利用探索过程中的正确决策加速和稳定强化学习训练过程的探索算法。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于生成对抗机制的强化学习探索方法,其特征在于,包括以下步骤:
S1,构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络;
S2,基于生成对抗机制和离线强化学习算法的学习过程,对所述第一动作价值网络、所述第二动作价值网络、所述状态价值网络、所述目标状态价值网络、所述策略网络、所述密度模型网络和所述鉴别网络进行更新;
S3,根据更新的多个网络生成更新后的策略模型,对所述策略模型进行测试。
2.根据权利要求1所述的基于生成对抗机制的强化学习探索方法,其特征在于,所述S2进一步包括:
S21,初始化仿真环境env、所述第一动作价值网络Q1、所述第二动作价值网络Q2、所述状态价值网络V、所述目标状态价值网络V′、所述策略网络π、所述密度模型网络qq和所述鉴别网络D;
S22,在当前状态st依据策略选取动作at,并转移到下一状态st+1,获得当前时刻的环境奖励rt,根据当前状态st、当前动作at、当前时刻的奖励值rt和下一状态st+1组成四元组(st,at,rt,st+1),并将所述四元组存储进决策缓存器Bπ
S23,在仿真结束时,判断环境任务是否完成,若任务完成,则将该轮仿真的所有决策
Figure FDA0002599904210000011
存入正确决策缓存器Bgood;反之,则将该轮仿真的所有决策{xt=st,att=1T存入错误决策缓存器Bbad;
S24,在所述正确决策缓存器Bgood和所述错误决策缓存器Bbad中的数据量均达到数据量阈值后,在所述正确决策缓存器Bgood和所述错误决策缓存器Bbad中分别采样得到正确决策和错误决策,并通过损失函数对所述鉴别网络的梯度进行下降以优化所述鉴别网络的参数,重复采样和参数更新过程,直至所述鉴别网络对生成决策的平均鉴别结果小于预设阈值;
S25,对所述密度模型、所述第一动作价值网络、所述第二动作价值网络、所述状态价值网络、所述目标状态价值网络和所述策略网络进行更新。
3.根据权利要求2所述的基于生成对抗机制的强化学习探索方法,其特征在于,所述鉴别网络的损失函数为:
Ld(xT,xF)=E[log D(xT)]+E[log(1-D(xF))]
其中,Ld(xT,xF)为利用正确决策和错误决策计算的损失函数值,xT和xF分别代表从正确决策缓存器Bgood和错误决策缓存器Bbad中采样得到的决策。
4.根据权利要求2所述的基于生成对抗机制的强化学习探索方法,其特征在于,优化所述鉴别网络的参数θd包括:
Figure FDA0002599904210000021
其中,θd为鉴别网络的参数,αd为鉴别网络的学习率,Ld(xT,xF)为利用正确决策和错误决策计算的损失函数值,xT和xF分别代表从正确决策缓存器Bgood和错误决策缓存器Bbad中采样得到的决策。
5.根据权利要求2所述的基于生成对抗机制的强化学习探索方法,其特征在于,对所述状态价值网络、所述第一动作价值网络和所述第二动作价值网络、所述策略网络进行更新的损失函数为:
Figure FDA0002599904210000022
Figure FDA0002599904210000023
Figure FDA0002599904210000024
其中,r(st,at)为用于训练的奖励值,γ为衰减系数。
6.根据权利要求5所述的基于生成对抗机制的强化学习探索方法,其特征在于,所述S25进一步包括:
S251,利用梯度下降方法更新所述密度模型网络qq:
q←argmaxqE[log q(st)]
其中,st为从决策缓存器Bπ中采样得到的状态;
S252,计算奖励值:
r(st,at)=rt-log q(st)+log D(G(st))
其中,G(st)为基于st的生成决策,由st自身与所述策略网络π在st输入下输出的动作at共同构成,即:
G(st)=(st,π(st))
S253,利用梯度下降法更新所述状态价值网络的参数θv、所述第一动作价值网络的参数θq1、所述第二动作价值网络的参数θq2和所述策略网络的参数θ:
Figure FDA0002599904210000025
Figure FDA0002599904210000026
Figure FDA0002599904210000031
Figure FDA0002599904210000032
其中,αv、αq和α分别为所述状态价值网络、所述第一动作价值网络及所述第二动作价值网络和所述策略网络的学习率;
S253,对所述目标状态价值网络的参数进行软更新:
θ′v←τθv+(1-τ)θ′v
其中,τ是超参数。
7.一种基于生成对抗机制的强化学习探索装置,其特征在于,包括:
构建模块,用于构建第一动作价值网络、第二动作价值网络、状态价值网络、目标状态价值网络、策略网络、密度模型网络和鉴别网络;
更新模块,用于基于生成对抗机制和离线强化学习算法的学习过程,对所述第一动作价值网络、所述第二动作价值网络、所述状态价值网络、所述目标状态价值网络、所述策略网络、所述密度模型网络和所述鉴别网络进行更新;
测试模块,用于根据更新的多个网络生成更新后的策略模型,对所述策略模型进行测试。
8.根据权利要求7所述的基于生成对抗机制的强化学习探索装置,其特征在于,所述更新模块,具体用于,
初始化仿真环境env、所述第一动作价值网络Q1、所述第二动作价值网络Q2、所述状态价值网络V、所述目标状态价值网络V′、所述策略网络π、所述密度模型网络qq和所述鉴别网络D;
在当前状态st依据策略选取动作at,并转移到下一状态st+1,获得当前时刻的环境奖励rt,根据当前状态st、当前动作at、当前时刻的奖励值rt和下一状态st+1组成四元组(st,at,rt,st+1),并将所述四元组存储进决策缓存器Bπ
在仿真结束时,判断环境任务是否完成,若任务完成,则将该轮仿真的所有决策
Figure FDA0002599904210000033
存入正确决策缓存器Bgood;反之,则将该轮仿真的所有决策{xt=st,att=1T存入错误决策缓存器Bbad;
在所述正确决策缓存器Bgood和所述错误决策缓存器Bbad中的数据量均达到数据量阈值后,在所述正确决策缓存器Bgood和所述错误决策缓存器Bbad中分别采样得到正确决策和错误决策,并通过损失函数对所述鉴别网络的梯度进行下降以优化所述鉴别网络的参数,重复采样和参数更新过程,直至所述鉴别网络对生成决策的平均鉴别结果小于预设阈值;
对所述密度模型、所述第一动作价值网络、所述第二动作价值网络、所述状态价值网络、所述目标状态价值网络和所述策略网络进行更新。
9.根据权利要求8所述的基于生成对抗机制的强化学习探索装置,其特征在于,所述鉴别网络的损失函数为:
Ld(xT,xF)=E[log D(xT)]+E[log(1-D(xF))]
其中,Ld(xT,xF)为利用正确决策和错误决策计算的损失函数值,xT和xF分别代表从正确决策缓存器Bgood和错误决策缓存器Bbad中采样得到的决策。
10.根据权利要求8所述的基于生成对抗机制的强化学习探索装置,其特征在于,优化所述鉴别网络的参数θd包括:
Figure FDA0002599904210000041
其中,θd为鉴别网络的参数,αd为鉴别网络的学习率,Ld(xT,xF)为利用正确决策和错误决策计算的损失函数值,xT和xF分别代表从正确决策缓存器Bgood和错误决策缓存器Bbad中采样得到的决策。
CN202010720742.7A 2020-07-24 2020-07-24 基于生成对抗机制的强化学习探索方法及装置 Active CN112052936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010720742.7A CN112052936B (zh) 2020-07-24 2020-07-24 基于生成对抗机制的强化学习探索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010720742.7A CN112052936B (zh) 2020-07-24 2020-07-24 基于生成对抗机制的强化学习探索方法及装置

Publications (2)

Publication Number Publication Date
CN112052936A true CN112052936A (zh) 2020-12-08
CN112052936B CN112052936B (zh) 2022-06-03

Family

ID=73602703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010720742.7A Active CN112052936B (zh) 2020-07-24 2020-07-24 基于生成对抗机制的强化学习探索方法及装置

Country Status (1)

Country Link
CN (1) CN112052936B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112698572A (zh) * 2020-12-22 2021-04-23 西安交通大学 一种基于强化学习的结构振动控制方法、介质及设备
CN112949850A (zh) * 2021-01-29 2021-06-11 北京字节跳动网络技术有限公司 超参数确定方法、装置、深度强化学习框架、介质及设备
CN113052253A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 超参数确定方法、装置、深度强化学习框架、介质及设备
CN113392971A (zh) * 2021-06-11 2021-09-14 武汉大学 策略网络训练方法、装置、设备及可读存储介质
CN113554166A (zh) * 2021-06-16 2021-10-26 中国人民解放军国防科技大学 认知行为模型加速的深度q网络强化学习方法及设备
CN113609548A (zh) * 2021-07-05 2021-11-05 中铁工程设计咨询集团有限公司 一种桥梁布跨方法、装置、设备及可读存储介质
CN113763723A (zh) * 2021-09-06 2021-12-07 武汉理工大学 基于强化学习与动态配时的交通信号灯控制系统及方法
CN113807460A (zh) * 2021-09-27 2021-12-17 北京地平线机器人技术研发有限公司 智能体动作的确定方法和装置、电子设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209770A (zh) * 2019-06-03 2019-09-06 北京邮电大学 一种基于策略价值网络和树搜索增强的命名实体识别方法
CN110839031A (zh) * 2019-11-15 2020-02-25 中国人民解放军陆军工程大学 一种基于强化学习的恶意用户行为智能检测方法
CN110991027A (zh) * 2019-11-27 2020-04-10 华南理工大学 一种基于虚拟场景训练的机器人模仿学习方法
CN111339690A (zh) * 2019-04-26 2020-06-26 成都蓉奥科技有限公司 一种基于期望值函数的深度强化学习训练加速方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339690A (zh) * 2019-04-26 2020-06-26 成都蓉奥科技有限公司 一种基于期望值函数的深度强化学习训练加速方法
CN110209770A (zh) * 2019-06-03 2019-09-06 北京邮电大学 一种基于策略价值网络和树搜索增强的命名实体识别方法
CN110839031A (zh) * 2019-11-15 2020-02-25 中国人民解放军陆军工程大学 一种基于强化学习的恶意用户行为智能检测方法
CN110991027A (zh) * 2019-11-27 2020-04-10 华南理工大学 一种基于虚拟场景训练的机器人模仿学习方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112698572A (zh) * 2020-12-22 2021-04-23 西安交通大学 一种基于强化学习的结构振动控制方法、介质及设备
CN112949850A (zh) * 2021-01-29 2021-06-11 北京字节跳动网络技术有限公司 超参数确定方法、装置、深度强化学习框架、介质及设备
CN112949850B (zh) * 2021-01-29 2024-02-06 北京字节跳动网络技术有限公司 超参数确定方法、装置、深度强化学习框架、介质及设备
CN113052253A (zh) * 2021-03-31 2021-06-29 北京字节跳动网络技术有限公司 超参数确定方法、装置、深度强化学习框架、介质及设备
CN113392971A (zh) * 2021-06-11 2021-09-14 武汉大学 策略网络训练方法、装置、设备及可读存储介质
CN113554166A (zh) * 2021-06-16 2021-10-26 中国人民解放军国防科技大学 认知行为模型加速的深度q网络强化学习方法及设备
CN113609548A (zh) * 2021-07-05 2021-11-05 中铁工程设计咨询集团有限公司 一种桥梁布跨方法、装置、设备及可读存储介质
CN113609548B (zh) * 2021-07-05 2023-10-24 中铁工程设计咨询集团有限公司 一种桥梁布跨方法、装置、设备及可读存储介质
CN113763723A (zh) * 2021-09-06 2021-12-07 武汉理工大学 基于强化学习与动态配时的交通信号灯控制系统及方法
CN113763723B (zh) * 2021-09-06 2023-01-17 武汉理工大学 基于强化学习与动态配时的交通信号灯控制系统及方法
CN113807460A (zh) * 2021-09-27 2021-12-17 北京地平线机器人技术研发有限公司 智能体动作的确定方法和装置、电子设备和介质
CN113807460B (zh) * 2021-09-27 2024-05-14 北京地平线机器人技术研发有限公司 智能体动作的确定方法和装置、电子设备和介质

Also Published As

Publication number Publication date
CN112052936B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN112052936B (zh) 基于生成对抗机制的强化学习探索方法及装置
CN110168578B (zh) 具有任务特定路径的多任务神经网络
Cao et al. A neighbor-based learning particle swarm optimizer with short-term and long-term memory for dynamic optimization problems
Sunehag et al. Deep reinforcement learning with attention for slate markov decision processes with high-dimensional states and actions
van der Herten et al. A fuzzy hybrid sequential design strategy for global surrogate modeling of high-dimensional computer experiments
CN111898728A (zh) 一种基于多Agent强化学习的团队机器人决策方法
CN112801281A (zh) 基于量子化生成模型和神经网络的对抗生成网络构建方法
Wang et al. Cooling strategies for the moment-generating function in Bayesian global optimization
CN113222035B (zh) 基于强化学习和知识蒸馏的多类别不平衡故障分类方法
CN110738362A (zh) 一种基于改进的多元宇宙算法构建预测模型的方法
Song et al. A comprehensive evaluation and comparison of enhanced learning methods
Xin et al. Exploration entropy for reinforcement learning
Ganepola et al. Automating generative adversarial networks using neural architecture search: A review
Zhang et al. Reinforcement learning with actor-critic for knowledge graph reasoning
CN112131089B (zh) 软件缺陷预测的方法、分类器、计算机设备及存储介质
Yuan et al. Extending a class of continuous estimation of distribution algorithms to dynamic problems
Dhahri et al. Hierarchical learning algorithm for the beta basis function neural network
CN110033096B (zh) 一种用于强化学习的状态数据生成方法和系统
WO2021226709A1 (en) Neural architecture search with imitation learning
Gispen et al. Ground states of quantum many body lattice models via reinforcement learning
Hayashida et al. Improved anticipatory classifier system with internal memory for POMDPs with aliased states
CN114925190B (zh) 一种基于规则推理与gru神经网络推理的混合推理方法
CN116910481B (zh) 一种基于遗传算法的船舶任务系统装载弹量优化方法
CN116755046B (zh) 一种不完美专家策略的多功能雷达干扰决策方法
Ge et al. An efficient parallel pursuit algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant