CN114048834B - 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置 - Google Patents

基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置 Download PDF

Info

Publication number
CN114048834B
CN114048834B CN202111303694.2A CN202111303694A CN114048834B CN 114048834 B CN114048834 B CN 114048834B CN 202111303694 A CN202111303694 A CN 202111303694A CN 114048834 B CN114048834 B CN 114048834B
Authority
CN
China
Prior art keywords
neural network
reinforcement learning
task
review
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111303694.2A
Other languages
English (en)
Other versions
CN114048834A (zh
Inventor
王轩
张加佳
漆舒汉
袁昊
刘洋
唐琳琳
夏文
廖清
李君一
杜明欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202111303694.2A priority Critical patent/CN114048834B/zh
Publication of CN114048834A publication Critical patent/CN114048834A/zh
Application granted granted Critical
Publication of CN114048834B publication Critical patent/CN114048834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置,包括下述步骤:获取非完全博弈环境,确定任务目标;构建第一神经网络和基于未来值预测的强化学习方法;构建事后经验回顾池;对第一神经网络进行训练,直至第一神经网络收敛;构建渐进式神经网络,实现网络模型的渐进式扩展;选择下一个任务作为任务目标,利用基于未来值预测的强化学习方法持续训练,直至所有的任务都训练完成。本发明通过使用非完全信息博弈场景中丰富的智能体状态变化作为监督信号,解决该环境下的奖励稀疏问题,同时引入持续学习框架渐进式神经网络对未来值预测网络结构进行动态扩展,解决了在该环境下的多任务场景中的灾难性遗忘的问题。

Description

基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈 方法及装置
技术领域
本发明属于在非完全信息场景下的博弈决策方法的技术领域,具体涉及一种基于事后回 顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置。
背景技术
在现实世界中运行的计算系统暴露在持续产生的信息中,因此需要从动态的数据分布中 学习并记忆多个任务。随着时间的推移,在保留以前学习过的知识的同时通过适应新任务而 不断学习的能力,被称为持续学习(ContinuralLearning)或终身学习(LifelongLearning)。 在以深度学习为引领的人工智能第三次浪潮中,人们通常把强化学习(Reinforcement Learning,RL)与深度学习的结合称为深度强化学习(DeepReinforcement Learning,DRL)。 深度强化学习模型存在一个主要问题:它们容易发生灾难性遗忘或灾难性干扰,即如果用新 的信息训练模型会干扰先前学习的知识。这种现象往往会导致模型的性能下降,甚至在最坏 的情况下模型的旧知识会被新学习到的知识完全覆盖。
机器博弈由于与现实紧密关联的特性被认为是人工智能领域重要的研究方向之一。机器 博弈按照博弈参与者是否能观测到完整的博弈状态信息,通常分为完全信息博弈和非完全信 息博弈。完全信息博弈即参与者可以观测到完整的游戏状态,例如,象棋和围棋等博弈游戏 属于完备信息博弈。在非完全信息博弈中,参与者只能观测到博弈局面的部分状态,无法获 得完整的博弈状态信息。目前以AlphaGo为代表的完全信息博弈算法已经取得了巨大的突破, 然而非完全信息博弈相比于完全信息博弈存在更多的解决难点,例如博弈参与者无法准确掌 握当前博弈局面的收益信息、博弈状态空间巨大、博弈参与各方信息缺失和不对称等。因此, 非完全信息博弈领域仍然存在诸多问题值得研究。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于事后回顾和渐进式扩 展的持续强化学习非完全信息博弈方法及装置,较好的解决了非完全信息博弈场景中较为常 见的奖励稀疏和多子任务中持续学习的灾难性遗忘的问题。
为了达到上述目的,本发明采用以下技术方案:
本发明一方面提供了一种基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方 法,包括下述步骤:
获取非完全博弈环境,根据课程学习设计智能体在该非完全博弈环境中的所要完成的任 务目标序列,基于任务目标序列确定任务目标;
根据当前非完全博弈环境构建第一神经网络和基于未来值预测的强化学习方法,所述第 一神经网络通过智能体在非完全博弈环境中作出决策来收集状态数据和动作数据;所述基于 未来值预测的强化学习方法使用整体状态和标量奖励共同形式化,将感知量、测量值向量以 及目标感知量作为输入流,所述感知量是强化学习中有关博弈状态的表征,所述测量值向量 是一组维度较低的表征当前智能体状态好坏的向量;所述目标感知量是维度与测量值相同的 标量,用来表征测量值变化带来的收益。
构建事后经验回顾池,所述事后经验回顾是通过将奖励函数推广为更加广泛的目标奖励 函数实现对失败的任务的轨迹进行学习,加速学习的过程以及解决环境奖励稀疏的问题;所 述事后经验回顾池用于存放智能体与非完全博弈环境进行交互获取的交互数据,所述交互数 据包括状态数据和动作数据;
基于交互数据和基于未来值预测的强化学习方法对第一神经网络进行训练,直至第一神 经网络收敛;
构建第二神经网络,所述第二神经网络与第一神经网络结构相同,所训练的任务不同, 将第二神经网络加入到第一神经网络中构建渐进式神经网络,实现网络模型的渐进式扩展;
选择任务序列中的下一个任务作为任务目标,利用基于未来值预测的强化学习方法持续 训练,直至所有的任务都训练完成。
优选的,所述任务目标序列是根据任务的难易程度设计的,即在一个序列的任务[v1,v2…,vn]中,顶点v1是入度为0的任务,即课程的开始,在任务序列中vi∈vjs.t.i<j,任务vi在逻辑上先于vj且难度应小于vj
优选的,所述基于未来值预测的强化学习方法具体为:
假设观测值的结构为:ot=<st,mt,b>,其中st是原始的非完全博弈环境状态输入,mt是 一组智能体状态的测量值,b是智能体要达到的某一状态,令τ12…τn作为一组时间步的偏 移量,令
Figure BDA0003339320170000021
是未来的测量值向量和当前的测量值向量的对应差 值向量,智能体的目标是u(f:g)最大化:
u(f:g)=gTf
向量g作为参数化的智能体的目标,对于预测未来的测量值向量,使用参数化的函数逼 近器,用F表示:
Figure BDA0003339320170000031
其中,a∈A是动作,A表示智能体所能采取的行为,θ是要学习的F的参数,并且
Figure BDA0003339320170000032
表征 预测结果,
Figure BDA0003339320170000033
的维度和未来值向量f以及目标向量g的维度相匹配,因此,智能体学习的策略 就是得到产生最佳预测结果的操作:
at=argmaxa∈AgTf(ot,a,g,b;θ)。
优选的,所述事后经验回顾池采用事后经验回放算法构建,具体如下:
首先对传统的奖励函数rt=R(st,at),引入额外的目标goal,根据是否到达该目标获得奖 励,即为rt=R(st,at,gt)。其中st为状态,at为在状态st时所采取的动作,tt为环境反馈的奖 励值,在算法中,会将经验池中的数据(st,at,rt,g,st+1)提取出来,对其重新构造一个新的目标 g`t进行奖励重塑,得到(st,at,r`t,g`,st+1),来实现对经验的重复利用。
优选的,所述交互数据通过下述方式获取:
通过非完全信息博弈模拟环境生成状态数据并输入到第一神经网络,第一神经网络产生 合法的动作并返回给模拟环境,环境根据神经网络产生的动作给出得分以及下一个环境状态, 将以上生成的变量合并为经验记录,并将经验记录进行重塑生成新的经验记录放入事后回顾 经验池。
优选的,所述渐进神经网络以单列开始:对于第一个任务t1,一个L层的深度神经网络 且带有隐藏激活层
Figure BDA0003339320170000034
i≤L,当该L层神经网络已经在任务t1上训练收敛,当切换到 任务t2时,第一列的参数Θ(1)被“冻结”,然后在原来的模型中新增第二列Θ(2)且将其参数 实例化,其中隐藏层
Figure BDA0003339320170000035
通过横向来连接从
Figure BDA0003339320170000036
Figure BDA0003339320170000037
接收输入,推广到第K个任务:
Figure BDA0003339320170000038
式中,
Figure BDA0003339320170000039
是投影矩阵,对于卷积层,通过1x1的卷积进行降维。
优选的,所述基于交互数据和基于未来值预测的强化学习方法对第一神经网络进行训练, 直至第一神经网络收敛,具体为:
从所述非完全博弈环境中获取i时刻的环境状态输入si,通过第一神经网络的推导得到 动作ai,然后未来值预测算法会进行未来值的预测,得到未来值oi,将其存入经验池,训练 时,首先对经验池中的数据使用事后回顾算法扩充数据,然后神经网络按照权利三所述的未 来值预测算法的目标进行回归训练,假设收集的一组经验D=(oi,ai,gi,bi,fi),其中(oi,ai,gi,ti)是输入,fi是经过i的输出,其损失函数为:
Figure BDA0003339320170000041
随着不断收集新的经验,智能体使用的训练集D和预测函数也会发生变化,在经验池保 留最大M个最近的经验,每轮小批量地选择其中N个例子用于预测网络的迭代训练。
本发明另一方面提供了一种基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈 系统,应用于所述的基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法,包括 环境获取模块、网络构建模块、事后经验回顾池构建模块、第一训练模块、渐进式神经网络 模块以及第二训练模块;
所述环境获取模块用于获取非完全博弈环境,根据课程学习设计智能体在该非完全博弈 环境中的所要完成的任务目标序列,基于任务目标序列确定任务目标;
所述网络构建模块用于根据当前非完全博弈环境构建第一神经网络和基于未来值预测的 强化学习方法,所述第一神经网络通过智能体在非完全博弈环境中作出决策来收集状态数据 和动作数据;所述基于未来值预测的强化学习方法使用整体状态和标量奖励共同形式化;
所述事后经验回顾池构建模块用于构建事后经验回顾池,所述事后经验回顾是通过将奖 励函数推广为更加广泛的目标奖励函数实现对失败的任务的轨迹进行学习,加速学习的过程 以及解决环境奖励稀疏的问题;所述事后经验回顾池用于存放智能体与非完全博弈环境进行 交互获取的交互数据,所述交互数据包括状态数据和动作数据;
所述第一训练模块,用于基于交互数据和基于未来值预测的强化学习方法对第一神经网 络进行训练,直至第一神经网络收敛;
所述渐进式神经网络模块,用于构建第二神经网络,将第二神经网络加入到第一神经网 络中构建渐进式神经网络,实现网络模型的渐进式扩展;
所述第二训练模块,用于选择任务序列中的下一个任务作为任务目标,利用基于未来值 预测的强化学习方法持续训练,直至所有的任务都训练完成。
本发明另一方面提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序
指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于事后回 顾和渐进式扩展的持续强化学习非完全信息博弈方法。
本发明又一方面提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行 时,实现所述的基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法。
本发明与现有技术相比,具有如下优点和有益效果:
本申请基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法,分别针对该非 完全信息博弈中存在的奖励稀疏、多子任务两个难题提出解决方案。为了解决奖励稀疏问题, 本申请提出基于监督信号训练的未来值预测强化学习方法,通过使用非完全信息博弈场景中 丰富的智能体状态变化作为监督信号代替传统强化学习中的奖励信号,对每个预测网络进行 监督学习回归训练,并结合目标导向的强化学习方法决策动作。同时使用事后回顾方法塑造 一个离线的回顾经验池,以解决非完全信息博弈场景下监督信号不均匀的问题,提升未来值 预测算法的效率。
针对非完全信息博弈环境中的多子任务问题,本申请主要使用继承关系的课程学习逐步 学习各个子任务,对于课程学习过程中的知识迁移导致的灾难性遗忘问题,通过引入持续学 习框架渐进式神经网络对未来值预测网络结构进行动态扩展,在保证不忘记先前学习到的知 识的基础上对旧知识进行利用,并使用新的网络学习新知识。由于未来值预测网络各个离散 的预测网络的独立性,在面对不同维度任务时,自由的丢弃或扩展新的预测网络,以解决复 杂环境中各个任务动作维度不统一的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附 图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域 普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法的整体流 程图。
图2是本发明一种事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法的测试环 境Pommerman模拟环境图。
图3是本发明一种事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法的未来值 预测网络的结构图。
图4是本发明一种基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法的渐 进式扩展网络的示意图。
图5是本发明一种基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法的未 来值预测网络的渐进式扩展的网络结构图。
图6(a)、图6(b)是本发明一种事后回顾和渐进式扩展的持续强化学习非完全信息博 弈方法的Pommerman平台寻路场景图。
图7是本发明一种基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法中未 来值预测算法的效果与传统强化学习算法的对比。
图8是本发明一种基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法中加 入事后经验回顾池与未使用经验回顾池的效果对比。
图9(a)、图9(b)是本发明一种基于事后回顾和渐进式扩展的持续强化学习非完全信 息博弈方法在不同的任务中与其他强化学习算法的得分对比。
图10是本发明基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈系统的结构 示意图。
图11是本发明其中一个实施例中电子设备的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图, 对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请 一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出 创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含 在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实 施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地 理解的是,本申请所描述的实施例可以与其它实施例相结合。
本发明主要研究非完全信息条件下的策略求解问题:
(1)针对非完全信息博弈复杂环境的奖励稀疏、延迟等问题,本发明通过将稀疏的奖励信 号替换为丰富的状态变化信息,提出了未来值预测算法以利用监督信号学习训练。
(2)通过加入事后回顾经验池,使智能体在训练中获得均匀的的监督信号,加速智能体 的学习。
(3)引入课程学习,通过将非完全信息复杂环境中多个隐含的任务显示的拆解并由易到 难的逐步学习。
(4)针对持续学习中的灾难性遗忘问题,引入了动态扩展策略网络来达到对不同任务的 分别学习以及知识迁移。
如图1所示,本实施例提供的一种基于事后回顾和渐进式扩展的持续强化学习非完全信 息博弈方法,包括下述步骤:
1、获取并安装视频游戏模拟环境;
近年来DRL(深度强化学习)随着深度学习的热度增长也大热。于是各种新的强化学习 研究平台如雨后春芛冒出来,本发明使用了Pommerman作为验证发明有效性的实验环境。允 许开发使用视觉信息(屏幕缓冲区)进行博弈决策的AI机器人。它主要用于机器视觉学习, 尤其是深度强化学习的研究,通过Pommerman官网获取并安装Pommerman模拟游戏环境,如 图2所示。
2、构建神经网络;
如图3所示为使用深度强化学习解决非完全信息博弈场景的网络结构图,图中模型的输 入为Pommerman的每帧图像,模型的输出为对应游戏的操作,而中间层的网络的参数则是需 要使用深度强化学习训练的对应策略。本发明通过使用智能体在模拟环境中作出决策来收集 数据,根据收集到到状态和动作对使用深度学习算法来优化智能体的策略。如何基于视频游 戏特征训练好的模型是智能体性能的关键,同时是本发明的核心创新。
3、设计基于未来值预测的强化学习方法;
在非完全博弈复杂环境中,传统的强化学习往往会面对奖励设置的难题,包括奖励稀疏、 奖励延迟。通过奖励重塑可以设置出博弈环境的奖励,但是并不总是可以设计出一个符合预 期的奖励函数,并且奖励重塑极其依赖于先验知识和过去的经验。随着智能体与环境的交互, 智能体的状态会一直变化。倘若可以对这些变化信号进行监督,那么智能体可以利用监督学 习更容易的学习如何与复杂环境交互。针对上述问题,本发明提出与目标导向的强化学习相 结合的未来值预测算法,旨在解决非完全信息复杂博弈环境下的任务的不确定性导致的奖励 延迟、稀疏情景。
未来值预测算法不同于强化学习中常用基于奖励的形式化,而是使用整体状态和标量奖 励共同形式化。该方法使用整体状态和标量奖励共同形式化。将感知量st和测量值向量mt以 及目标感知量bt作为输入流。感知量通常是强化学习中有关博弈游戏状态的表征,比如游戏 画面,对局信息等。测量值向量是一组维度较低的表征当前智能体状态好坏的向量。目标感 知量是维度与测量值相同的标量,用来表征测量值变化带来的收益。感知量和测量值向量通 过时间步t相互关联,通过强化学习的方式收集对局数据,随着时间步的变化可以产生丰富 的监督信号。给定当前的感知量、测量值向量以及目标感知量,可以训练智能体预测不同动 作对未来测量值的影响。通过预测这些影响可以提供支持动作判断的信息,这样可以将感觉 运动控制表征为一种有监督学习。
考虑到在离散时间步上与非完全环境交互博弈的智能体,在每个时间步t,智能体接收到 观察值ot,并基于该观察值执行动作at。假设观测值的结构为:ot=<st,mt,b>,其中st是原 始的游戏环境状态输入,mt是一组智能体状态的测量值,b是智能体要达到的某一游戏状态, 令τ12…τn作为一组时间步的偏移量,令
Figure BDA0003339320170000081
是未来的测量值向 量和当前的测量值向量的对应差值向量,智能体的目标为是的u(f:g)最大化:
u(f:g)=gTf
向量g作为参数化的智能体的目标。做了预测未来的测量值向量,我们使用参数化的函数 逼近器,用F表示:
Figure BDA0003339320170000082
其中,a∈A是动作,θ是要学习的F的参数,并且
Figure BDA0003339320170000083
表征预测结果,
Figure BDA0003339320170000084
的维度和未来值向 量f以及目标向量g的维度相匹配,因此,智能体学习的策略就是得到产生最佳预测结果的操 作:
at=argmaxa∈AgTf(ot,a,g,b;θ)
测量时使用的目标向量并不需要与训练中看到的任何目标向量相同,智能体初始化为随 机策略,并与环境进行交互。假设智能体收集的一组经验:
Figure BDA0003339320170000085
其 中<oi,ai,gi,bi>是输入,并且fi是经i的输出,预测器将基于以下的回归损失训练
Figure BDA0003339320170000086
4、事后回顾经验池;
传统的强化学习算法只会学习完成目标任务,获得奖励的经验,然而那些“无效”或者 “失败”的经验中也蕴含了许多有效的值得学习的信息,事后经验回顾就是通过将奖励函数 推广为更加广泛的目标奖励函数实现对失败的任务的轨迹进行学习,可以加速学习的过程以 及解决环境奖励稀疏的问题。传统的奖励函数rt=R(st,at),通过输入当前的状态和动作获得 奖励,而木匾奖励函数还需要额外输入一个目标goal,根据是否到达该目标获得奖励,即为 rt=R(st,at,gt)。通过引入定义更为广泛的目标奖励函数,事后回顾经验池将目标设定为某 一个状态,这样即使没有到达最终的目标,智能体也可以在每回合学到一定的知识。
所述事后经验回顾池采用事后经验回放算法构建,具体如下:
首先对传统的奖励函数rt=R(st,at)引入额外的目标goal,根据是否到达该目标获得奖 励,即为rt=R(st,at,gt)其中st为状态,at为在状态st时所采取的动作,rt为环境反馈的奖励 值,在算法中,会将经验池中的数据(st,at,rt,g,st+1)提取出来,对其重新构造一个新的目标g`t进 行奖励重塑,得到(st,at,r`t,g`,st+1),来实现对经验的重复利用
事后经验回顾算法如下:
输入:
1.事后回顾策略A,采样策略S
2.初始化重放经验池R,回顾经验池R′
3.环境E,智能体策略π
4.迭代次数E,交互时间步T,事后回顾时间步K
输出:
Figure BDA0003339320170000091
5、基于渐进式扩展的持续强化学习方法
在非完全信息复杂博弈环境下,智能体通常需要学习多项技能(任务序列)才可以完成 最终的目的。学习解决复杂的任务序列同时利用转移和避免灾难性遗忘仍然是深度强化学习 的主要难题之一。精细微调(Fine-tune)是使用神经网络进行转移学习的一种选择方法:在 源域即数据经常丰富的地方上对模型进行预训练,将模型的输出层调整为目标域,然后通过 反向传播建立网络。将知识从生成模型迁移到判别模型,此后得到了广泛的成功。但是此方 法不适用于跨多个任务的转移。本发明引入了渐进式神经网络模型,该模型是一种模型体系 结构,明确支持跨任务序列的传输。在整个训练过程中,渐进式神经网络使用一组预先训练 完成的模型,并将这些模型横向连接,以提取新任务的有用特征。通过以这种方式组合先前 学习的特征,渐进式神经网络实现了丰富的组合性,不再要求瞬时的先验知识,而是通过特 征层次的每一层进行集成。此外,通过旧网络增加的新容量使这些模型具有重用旧知识和学 习新知识的灵活性。渐进式网络自然而然地积累了经验,并且通过设计避免了灾难性的遗忘, 这使得它成为解决长期存在的持续或终身学习问题的理想跳板。
采用渐近式扩展的神经网络扩展模型,渐进神经网络以单列开始:对于第一个任务t1,一 个L层的深度神经网络且带有隐藏激活层
Figure BDA0003339320170000101
当该L层神经网络已经在任务t1上 训练收敛。当切换到任务t2时,第一列的参数Θ(1)被“冻结”,然后在原来的模型中新增第 二列Θ(2)且将其参数实例化,其中隐藏层
Figure BDA0003339320170000102
通过横向来连接从
Figure BDA0003339320170000103
Figure BDA0003339320170000104
接收输入,推广到 第K个任务:
Figure BDA0003339320170000105
列横向连接到第i层的第k列,并且h0是网络的输入。
5.基于渐进式扩展的课程学习训练
随着强化学习智能体面临学习越来越复杂的任务的挑战,其中某些任务可能无法直接学 习。在课程学习领域的各种转移学习方法和框架允许智能体通过利用在一个或多个源任务中 获得的知识更好地学习困难的目标任务。
课程学习是一种优化智能体积累经验的顺序,以提高最终任务的性能或训练速度的方法。 通过泛化,可以利用在简单任务中快速获得的知识来减少对更复杂任务的探索。在最一般的 情况下,智能体可以从多个不同于最终马尔可夫决策的中间任务中获得经验,这种方法有的 要素之一是任务顺序,即如何生成课程图的边。大多数现有的工作都使用手工定义的课程, 由人来选择样本或任务的顺序。将未来值预测网络以及渐进式神经网络结合到课程学习的设 计中,则可以通过网络结构的动态扩展来设计课程的内容。在发明中采用包含的关系来设计 不同的任务,即在一个序列的任务[v1,v2,…,vn]中,顶点v1是入度为0的任务,即课程的开始。 在复杂的非完全信息博弈环境中往往需要智能体在不同的阶段进行不同的任务。而这些任务 又相互存在着递进的包含关系。通过这种设计,可以通过让智能体学习难度递增的任务,利 用和继承先前任务所学习到的知识。随着课程的学习,智能体可以在先前任务学习的基础上 逐步的掌握不同的技巧。最后一个课程是标准环境,智能体通过先前学到的技巧进行探索解 决。
6、使用构建的神经网络与获取到的模拟游戏环境进行交互获取游戏记录;
通过非完全信息博弈模拟环境生成状态数据并输入到神经网络,神经网络产生合法的动 作并返回给模拟环境,环境根据神经网络产生的动作给出得分以及下一个环境状态。将以上 生成的变量合并为经验记录。并将经验记录进行重塑生成新的经验记录放入事后回顾经验池。
7、使用获取的游戏记录根据相应的强化学习算法更新网络;
使用获取的经验记录使用梯度下降法更新神经网络,循环训练神经网络直到收敛。然后 选择课程学习中的下一个任务目标,通过渐进式扩展方法扩展神经网络模型,训练完成当前 选择的任务目标。重复此步骤直至课程学习中的所有任务目标都已经完成。
在另一个实施例中,本发明提供的一种在基于事后回顾和渐进式扩展的持续强化学习非 完全信息博弈优化方法,将该博弈策略优化方法应用于多人游戏中,实现多智能体博弈,实 现方式是:根据博弈场景特点提取每个智能体所处环境的原始状态表示矩阵,编码为一个 11*11*19的状态表征向量,作为网络输入;原始状态表示矩阵中需要包括地图信息、智能体 炸弹威力、敌方智能体信息、存活时长;网络主体结构采用卷积神经网络结构;分为训练和 测试两个步骤,训练时采用虚拟自我对局框架,其中最优反应策略求解采用中心化训练分散 式执行框架,通过智能体共享的全局信息和动作训练了一个中心化的估值网络Critic,并在损 失函数中添加了策略熵来平衡探索和利用,Actor网络用来拟合智能体的全局最优反应策略; 训练时,平均策略则是采用对Actor进行行为克隆从而更新网络参数;在训练和测试时均通 过平均策略决定每个智能体的动作,平均策略的状态输入与最优反应策略一致,且共用一个 主体卷积模块进行特征映射,假设N是智能体的可选动作总数,平均策略输出是一个N维向 量,表示每个智能体的动作概率分布,即智能体策略,智能体将采取N维向量中概率最大的 动作。
本发明的方法所取的有益效果如下:
1、实验设置
本发明以非完备信息条件下的游戏Pommerman为研究对象和测试平台,基于该测试平台 实现了该发明提出的算法。
1.1、Pommerman场景介绍
Pommerman是自2018年起NIPS举办的一个基于经典游戏机Bomberman的强化学习比 赛。如图2每场战斗都是在随机绘制的对称11*11网格上开始的,每个网格有四个智能体, 每个智能体最初位于四个角中的一个角落。在每个回合中,每个代理人都可以执行六个动作 中的一个:停止,向上,向下,向左,向右和放置炸弹。除了增益果实之外,网格上的每个 单元可以是通道,木墙或石砖壁。石砖和木质墙壁都是无法通行的,而木质墙壁则可以通过 炸弹爆炸来破坏。在木墙被摧毁之后,它有可能成为通道,也可能是为了揭示其中一个隐藏 的增益果实。游戏中有三种增益果实:弹药增加,射程增加和踢动炸弹。在Pommerman标准 环境中每个参与者控制最初位于与团队相同对角线角落的两个智能体,每个智能体仅能观察 到以其位置为中心的7*7区域。
Pommerman多智能体博弈环境是一个复杂游戏场景,游戏图像状态空间巨大,智能体将 面对总共约为13121种不同的图像状态,其中整张棋盘共有11*11=121个单元格,每个单元 格可能存在13种不同的物品。而智能体在面对同一图像状态时,由于对手的不同,也会导 致要求解的图像状态变化。智能体最终需要完成炸灭敌人的任务。为了完成这个任务,智能 体需要兼顾探索视野,炸开木板,寻找果实,以及躲避炸弹等任务。
1.2、实验开发环境
配置 名称
操作系统 Ubuntu16.04-5.4.0 64bit
开发语言 Python
CPU Intel(R)Xeon(R)Silver 4110CPU@2.10GHz
GPU Nvidia Tesla P100 16G
1.3、网络结构与参数
基于渐进式神经网络框架的未来值预测算法的网络结构如图5所示,渐进式未来值预测 网络分别使用感知模块、评估模块、目标模块以及标量模块进行特征提取,并将分别得到的 几个特征拼接在一起作为期望预测模块以及动作预测模块的输入,具体结构如表1所示。期 望预测模块用来预测智能体所有动作的期望值,而动作预测模块得到所有动作的分别的期望 值。预测时间步偏移向量为[1,2,3,8,16,32],假设时间步偏移向量为k,代表网络预测每个动 作在未来第k步时监督信号的变化。目标向量为固定值向量[1,1,-0.1,0.2,-3,-0.1,0.2]。假设动 作维度为N,监督信号维度为M,时间步偏移向量维度为K。未来值预测网络一次性输出N 个维度(M*K)的向量,智能体根据这N个向量分别乘以衰减过的目标向量,得到最大值的 动作即为网络要选取的动作。折扣因子γ=0.99。
表1渐进式未来值预测网络结构
Figure BDA0003339320170000121
2、实验结果
2.1未来值预测强化学习方法
2.1.1现有对比方法
(1)PPO算法:基于Actor-Critic框架的深度强化学习算法,适用于连续控制等高维动 作训练环境。
(2)DQN算法:基于值函数迭代的离线深度强化学习算法。
(3)DDPG算法:基于Actor-Critic框架的深度强化学习算法,采用确定性策略梯度策 略,适用于连续控制等高维动作训练环境。
为了验证未来值预测算法相较于传统深度强化学习算法的性能提升,本实验采用目前最 流行的强化学习算法:PPO、DQN和DDPG算法作为对比。的对比实验中使用了标准的非完全 信息博弈Pommerman环境,设置单智能体训练,队友和两个敌人为官方提供的规则智能体 SimpleAgent。由于对传统强化学习设置了奖励重塑函数,所以环境反馈的奖励值无法有效的 评估智能体的能力,因此通过胜率来对比与分析算法的相关性能。
如图7所示,在DQN算法中,即使使用了奖励重塑,也无法在环境中探索到相应解目标 状态。并且随着探索因子的下降,智能体最终会收敛到一个停在原地或者很少移动的状态, 这是由于向外探索更容易导致智能体的死亡,而不主动探索,等待队友将敌人歼灭是更容易 学习到的局部最优。PPO算法相比于DQN算法,PPO算法可以使用随机策略进行探索并通过 裁剪防止更新跨步过大或过小的问题,进一步平衡了探索和利用问题。DDPG算法相比于DQN 算法,DDPG训练一个确定性的策略,保证探索的有效性。相比于传统的强化学习算法,未来 值预测算法通过丰富的监督信号使得探索更具有效率,随着探索因子的下降,未来值预测智 能体的胜率也可以保持在0.3以上的水平。
2.2基于事后经验回顾的未来值预测强化学习方法
在标准的Pommerman非完全信息博弈环境中,未来值预测网络学习的监督信号在整局游 戏中是不均匀的。比如木板摧毁数量Woods,由于游戏中存在有限数量的木板,当智能体将 木板全部摧毁,之后的时间步中将无法再获得关于木板摧毁数量的监督信号。导致智能体在 训练中无法兼顾所有预测值的优化,Loss的收敛速度慢。本申请在标准Pommerman游戏环 境中分别实现了未来值预测算法以及基于事后回顾经验池辅助训练的未来值预测算法。值得 注意的是,未来值预测算法虽然是离线策略,使用的是离线的重放经验池。但是为了训练网 络回归预测,目标预测向量需要计算真实的未来值,而只有存放连续经验的重放经验池才可 以提供正确计算的真实未来值向量。所以在本实验中使用额外的一个回顾经验池辅助收集经 过事后回顾经验池修改的新的连续经验,智能体在训练时通过随机抽样的方式从两个重放经 验池中选择样本。如图8所示为验证事后回顾经验池效果的实验对比效果图,纵坐标为Loss 值,横坐标为训练的时间步长。从中可以看出,使用未来值预测算法的智能体Loss的收敛 速度相比于添加回顾经验池作为辅助训练智能体的要慢很多。通过结果对比可知,添加事后 回顾经验池辅助训练后,未来值预测算法的收敛速度有所提升。回顾经验池“伪造”了经验, 通过这些“伪造”的经验支持,智能体可以更加快速的学习到对应的知识,在全局看来,智 能体的能力上限并没有较大变化。
2.3基于渐进式扩展的持续强化学习
如图6(a)、图6(b)所示,基于Pommerman原始环境设计了四个课程:Maze-v1到v4,其中Maze-v4为Pommerman标准环境。Maze-v1为寻路场景,在该场景下智能体没有竞争对手并且具有全部视野,只需要去寻找地图上存在的增益果实即可。在Maze-v1环境中,智能体没有释放炸弹的动作,只是简单的学习寻路,为第一个课程设置。Maze-v2寻路场景与Maze-v1类似,只是将随机生成的增益果实替换为木板,并增加一个释放炸弹的动作,引导智能体学习释放炸弹并探索增益果实。而Maze-v3场景类似与标准环境,只是智能体的视野是整个棋盘。Maze-v1到Maze-v4的课程设计为逐步由易到难,并且对于每一对课程<Maze-vi, Maze-vj>都有Maze-vi∈Maze-vj如果i<j的话,符合课程学习的有向图定义。
在非完全信息复杂博弈环境Pommerman中,使用课程学习通过一步一步地学习各个子任 务更有利于智能体学习最终的目标。本实验通过设置两个智能体进行对比实验,DFP1为使用 课程学习的渐进式未来值预测智能体,DFP2为直接学习Pommerman标准环境的智能体。如图 9(a)、图9(b)所示,左图为两者的奖励值对比,右图为胜率对比。智能体的奖励值最终 超过0,也就是胜率超过0.5,而智能体2的胜率始终没有超过0.4。这是由于智能体通过先 前课程的训练掌握了各个子任务的技巧,并且通过渐进式网络动态扩展完成知识从先前任务 到最终任务的逐步迁移。智能体2直接面对Maze-v4环境,在没有预训练的情况下直接面对 一个整体目标或者说是含有所有子任务的最终目标。在没有通过子任务分别学习到相应技巧 的情况下,智能体收敛到一个局部最优,无法突破。这说明,通过添加课程设置,并结合渐 进式网络扩展,可以优化智能体在面对复杂环境时的探索效率,帮助智能体求解目标状态。
2.4在不同任务下的效果对比
如图2所示,为本发明提出智能体与DQN、PPO、DDPG以及Simple智能体在不同环境下 的得分情况,其中在Maze-v3以及Maze-v4中,智能体的得分为与Simple智能体对战100局 中胜局数减败局数。SimpleAgent是赛事官方给出的一个规则智能体,该智能体可以识别几 种状态对敌人进行包围攻击,同时可以在部分状态搜索到必杀局面。然而在某些情况无法避 免自杀,或者进入死局。未来值预测智能体在各个环境中都超过其他传统强化学习的智能体。 DQN几乎无法在复杂环境中有效地学习到知识,PPO与DDPG由于通过评价网络增强了探索 的有效性,在各个环境中表现相仿。
表2
Figure BDA0003339320170000151
本申请通过使用非完全信息博弈场景中丰富的智能体状态变化作为监督信号代替传统强 化学习中的奖励信号,解决非完全信息博弈环境下的奖励稀疏问题,同时引入持续学习框架 渐进式神经网络对未来值预测网络结构进行动态扩展,在保证不忘记先前学习到的知识的基 础上对旧知识进行利用,并使用新的网络学习新知识,解决了在非完全信息博弈环境下的多 任务场景中的灾难性遗忘的问题。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作 组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本 发明,某些步骤可以采用其它顺序或者同时进行。
基于与上述实施例中的基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法 相同的思想,本发明还提供了基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈系 统,该系统可用于执行上述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法。 为了便于说明,基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈系统实施例的结 构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构 并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同 的部件布置。
如图10所示,在本申请的另一个实施例中,提供了一种基于事后回顾和渐进式扩展的持 续强化学习非完全信息博弈系统100,该系统包括环境获取模块101、网络构建模块102、事 后经验回顾池构建模块103、第一训练模块104、渐进式神经网络模块105以及第二训练模块 106;
所述环境获取模块101用于获取非完全博弈环境,根据课程学习设计智能体在该非完全 博弈环境中的所要完成的任务目标序列,基于任务目标序列确定任务目标;
所述网络构建模块102用于根据当前非完全博弈环境构建第一神经网络和基于未来值预 测的强化学习方法,所述第一神经网络通过智能体在非完全博弈环境中作出决策来收集状态 数据和动作数据;所述基于未来值预测的强化学习方法使用整体状态和标量奖励共同形式化;
所述事后经验回顾池构建模块103用于构建事后经验回顾池,所述事后经验回顾是通过 将奖励函数推广为更加广泛的目标奖励函数实现对失败的任务的轨迹进行学习,加速学习的 过程以及解决环境奖励稀疏的问题;所述事后经验回顾池用于存放智能体与非完全博弈环境 进行交互获取的交互数据,所述交互数据包括状态数据和动作数据;
所述第一训练模块104,用于基于交互数据和基于未来值预测的强化学习方法对第一神 经网络进行训练,直至第一神经网络收敛;
所述渐进式神经网络模块105,用于构建第二神经网络,将第二神经网络加入到第一神 经网络中构建渐进式神经网络,实现网络模型的渐进式扩展;
所述第二训练模106块用于选择任务序列中的下一个任务作为任务目标,利用基于未来 值预测的强化学习方法持续训练,直至所有的任务都训练完成。
需要说明的是,本发明的基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈系 统与本发明的基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法一一对应,在 上述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法的实施例阐述的技术特 征及其有益效果均适用于基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈的实施 例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
此外,上述实施例的基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈系统的 实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相 应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即 将所述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈系统的内部结构划分成不 同的程序模块,以完成以上描述的全部或者部分功能。
如图11所示,在一个实施例中,提供了一种实现基于事后回顾和渐进式扩展的持续强化 学习非完全信息博弈方法的电子设备,所述电子设备200可以包括第一处理器201、第一存 储器202和总线,还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运 行的计算机程序,如多方隐私保护机器学习程序203。
其中,所述第一存储器202至少包括一种类型的可读存储介质,所述可读存储介质包括 闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元,例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备,例如电子设备200上配备的插接式移动硬盘、智能存储卡(Smart MediaCard, SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述第一存储器 202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202 不仅可以用于存储安装于电子设备200的应用软件及各类数据,例如多方隐私保护机器学习 程序203的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述第一处理器201在一些实施例中可以由集成电路组成,例如可以由单个封装的集成 电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多 个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种 控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(Control Unit),利用各 种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述第一存储器202内 的程序或者模块(例如联邦学习防御程序等),以及调用存储在所述第一存储器202内的数据, 以执行电子设备200的各种功能和处理数据。
图11仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图11示出的结构 并不构成对所述电子设备200的限定,可以包括比图示更少或者更多的部件,或者组合某些 部件,或者不同的部件布置。
所述电子设备200中的所述第一存储器202存储的多方隐私保护机器学习程序203是多 个指令的组合,在所述第一处理器201中运行时,可以实现:
获取非完全博弈环境,根据课程学习设计智能体在该非完全博弈环境中的所要完成的任 务目标序列,基于任务目标序列确定任务目标;
根据当前非完全博弈环境构建第一神经网络和基于未来值预测的强化学习方法,所述第 一神经网络通过智能体在非完全博弈环境中作出决策来收集状态数据和动作数据;所述基于 未来值预测的强化学习方法使用整体状态和标量奖励共同形式化;
构建事后经验回顾池,所述事后经验回顾是通过将奖励函数推广为更加广泛的目标奖励 函数实现对失败的任务的轨迹进行学习,加速学习的过程以及解决环境奖励稀疏的问题;所 述事后经验回顾池用于存放智能体与非完全博弈环境进行交互获取的交互数据,所述交互数 据包括状态数据和动作数据;
基于交互数据和基于未来值预测的强化学习方法对第一神经网络进行训练,直至第一神 经网络收敛;
构建第二神经网络,将第二神经网络加入到第一神经网络中构建渐进式神经网络,实现 网络模型的渐进式扩展;
选择任务序列中的下一个任务作为任务目标,利用基于未来值预测的强化学习方法持续 训练,直至所有的任务都训练完成。
进一步地,所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独 立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可 读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动 硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计 算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质 中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施 例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失 性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程 ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储 器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态 RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、 增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直 接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态 RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各 个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应 当认为是本说明书记载的范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制, 其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应 为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法,其特征在于,包括下述步骤:
获取非完全博弈环境,根据课程学习设计智能体在该非完全博弈环境中的所要完成的任务目标序列,基于任务目标序列确定任务目标;
根据当前非完全博弈环境构建第一神经网络和基于未来值预测的强化学习方法,所述第一神经网络通过智能体在非完全博弈环境中作出决策来收集状态数据和动作数据;所述基于未来值预测的强化学习方法使用整体状态和标量奖励共同形式化,将感知量、测量值向量以及目标感知量作为输入流,所述感知量是强化学习中有关博弈状态的表征,所述测量值向量是一组表征当前智能体状态好坏的向量;所述目标感知量是维度与测量值相同的标量,用来表征测量值变化带来的收益;
构建事后经验回顾池,所述事后经验回顾是通过将奖励函数推广为更加广泛的目标奖励函数实现对失败的任务的轨迹进行学习,加速学习的过程以及解决环境奖励稀疏的问题;所述事后经验回顾池用于存放智能体与非完全博弈环境进行交互获取的交互数据,所述交互数据包括状态数据和动作数据;
基于交互数据和基于未来值预测的强化学习方法对第一神经网络进行训练,直至第一神经网络收敛;
构建第二神经网络,所述第二神经网络与第一神经网络结构相同,所训练的任务不同,将第二神经网络加入到第一神经网络中构建渐进式神经网络,实现网络模型的渐进式扩展;
选择任务序列中的下一个任务作为任务目标,利用基于未来值预测的强化学习方法持续训练,直至所有的任务都训练完成;
将该基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法应用于多人游戏中,实现多智能体博弈,实现方式是:根据博弈场景特点提取每个智能体所处环境的原始状态表示矩阵,编码为一个11*11*19的状态表征向量,作为网络输入;原始状态表示矩阵中需要包括地图信息、智能体炸弹威力、敌方智能体信息、存活时长;网络主体结构采用卷积神经网络结构;分为训练和测试两个步骤,训练时采用虚拟自我对局框架,其中最优反应策略求解采用中心化训练分散式执行框架,通过智能体共享的全局信息和动作训练了一个中心化的估值网络Critic,并在损失函数中添加了策略熵来平衡探索和利用,Actor网络用来拟合智能体的全局最优反应策略;训练时,平均策略则是采用对Actor进行行为克隆从而更新网络参数;在训练和测试时均通过平均策略决定每个智能体的动作,平均策略的状态输入与最优反应策略一致,且共用一个主体卷积模块进行特征映射,假设N是智能体的可选动作总数,平均策略输出是一个N维向量,表示每个智能体的动作概率分布,即智能体策略,智能体将采取N维向量中概率最大的动作。
2.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法,其特征在于,所述任务目标序列是根据任务的难易程度设计的,即在一个序列的任务[v1,v2…,vn]中,顶点v1是入度为0的任务,即课程的开始,在任务序列中vi∈vjs.t.i<j,任务vi在逻辑上先于vj且难度应小于vj
3.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法,其特征在于,所述基于未来值预测的强化学习方法具体为:
假设观测值的结构为:ot=<st,mt,b>,其中st是原始的非完全博弈环境状态输入,mt是一组智能体状态的测量值,b是智能体要达到的某一状态,令τ12…τn作为一组时间步的偏移量,令
Figure FDA0003889904450000021
是未来的测量值向量和当前的测量值向量的对应差值向量,智能体的目标是u(f:g)最大化:
u(f:g)=gTf
向量g作为参数化的智能体的目标,对于预测未来的测量值向量,使用参数化的函数逼近器,用F表示:
Figure FDA0003889904450000022
其中,a∈A是动作,A表示智能体所能采取的行为,θ是要学习的F的参数,并且
Figure FDA0003889904450000023
表征预测结果,
Figure FDA0003889904450000024
的维度和未来值向量f以及目标向量g的维度相匹配,因此,智能体学习的策略就是得到产生最佳预测结果的操作:
at=argmaxa∈AgTf(ot,a,g,b;θ)。
4.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法,其特征在于,所述事后经验回顾池采用事后经验回放算法构建,具体如下:
首先对传统的奖励函数rt=R(st,at),引入额外的目标goal,根据是否到达该目标获得奖励,即为rt=R(st,at,gt);其中st为状态,at为在状态st时所采取的动作,rt为环境反馈的奖励值,在算法中,会将经验池中的数据(st,at,rt,g,st+1)提取出来,对其重新构造一个新的目标g`t进行奖励重塑,得到(st,at,r`t,g`,st+1),来实现对经验的重复利用。
5.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法,其特征在于,所述交互数据通过下述方式获取:
通过非完全信息博弈模拟环境生成状态数据并输入到第一神经网络,第一神经网络产生合法的动作并返回给模拟环境,环境根据神经网络产生的动作给出得分以及下一个环境状态,将以上生成的变量合并为经验记录,并将经验记录进行重塑生成新的经验记录放入事后回顾经验池。
6.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法,其特征在于,所述渐进式神经网络以单列开始:对于第一个任务t1,一个L层的深度神经网络且带有隐藏激活层
Figure FDA0003889904450000031
当该L层的深度神经网络已经在任务t1上训练收敛,当切换到任务t2时,第一列的参数Θ(1)被“冻结”,然后在原来的模型中新增第二列Θ(2)且将其参数实例化,其中隐藏层
Figure FDA0003889904450000032
通过横向来连接从
Figure FDA0003889904450000033
Figure FDA0003889904450000034
接收输入,推广到第K个任务:
Figure FDA0003889904450000035
其中,
Figure FDA0003889904450000036
表示隐藏激活层;
Figure FDA0003889904450000037
表示权值矩阵第i层的第k列;
Figure FDA0003889904450000038
表示
Figure FDA0003889904450000039
是将第i-1层的第j列横向连接到第i层的第k列;
式中,
Figure FDA00038899044500000310
是投影矩阵,对于卷积层,通过1x1的卷积进行降维。
7.根据权利要求1所述基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法,其特征在于,所述基于交互数据和基于未来值预测的强化学习方法对第一神经网络进行训练,直至第一神经网络收敛,具体为:
从所述非完全博弈环境中获取i时刻的环境状态输入si,通过第一神经网络的推导得到动作ai,然后未来值预测算法会进行未来值的预测,得到未来值oi,将其存入经验池,训练时,首先对经验池中的数据使用事后回顾算法扩充数据,然后神经网络按照权利三所述的未来值预测算法的目标进行回归训练,假设收集的一组经验D=(oi,ai,gi,bi,fi),其中(oi,ai,gi,bi)是输入,fi是经过i的输出,其损失函数为:
Figure FDA00038899044500000311
随着不断收集新的经验,智能体使用的训练集D和预测函数也会发生变化,在经验池保留最大M个最近的经验,每轮小批量地选择其中N个例子用于预测网络的迭代训练。
8.基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈系统,其特征在于,应用于权利要求1-7中任一项所述的基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法,包括环境获取模块、网络构建模块、事后经验回顾池构建模块、第一训练模块、渐进式神经网络模块以及第二训练模块;
所述环境获取模块用于获取非完全博弈环境,根据课程学习设计智能体在该非完全博弈环境中的所要完成的任务目标序列,基于任务目标序列确定任务目标;
所述网络构建模块用于根据当前非完全博弈环境构建第一神经网络和基于未来值预测的强化学习方法,所述第一神经网络通过智能体在非完全博弈环境中作出决策来收集状态数据和动作数据;所述基于未来值预测的强化学习方法使用整体状态和标量奖励共同形式化;
所述事后经验回顾池构建模块用于构建事后经验回顾池,所述事后经验回顾是通过将奖励函数推广为更加广泛的目标奖励函数实现对失败的任务的轨迹进行学习,加速学习的过程以及解决环境奖励稀疏的问题;所述事后经验回顾池用于存放智能体与非完全博弈环境进行交互获取的交互数据,所述交互数据包括状态数据和动作数据;
所述第一训练模块,用于基于交互数据和基于未来值预测的强化学习方法对第一神经网络进行训练,直至第一神经网络收敛;
所述渐进式神经网络模块,用于构建第二神经网络,将第二神经网络加入到第一神经网络中构建渐进式神经网络,实现网络模型的渐进式扩展;
所述第二训练模块用于选择任务序列中的下一个任务作为任务目标,利用基于未来值预测的强化学习方法持续训练,直至所有的任务都训练完成。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序
指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任意一项所述的基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法。
10.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法。
CN202111303694.2A 2021-11-05 2021-11-05 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置 Active CN114048834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111303694.2A CN114048834B (zh) 2021-11-05 2021-11-05 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111303694.2A CN114048834B (zh) 2021-11-05 2021-11-05 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置

Publications (2)

Publication Number Publication Date
CN114048834A CN114048834A (zh) 2022-02-15
CN114048834B true CN114048834B (zh) 2023-01-17

Family

ID=80207182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111303694.2A Active CN114048834B (zh) 2021-11-05 2021-11-05 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置

Country Status (1)

Country Link
CN (1) CN114048834B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114800510B (zh) * 2022-05-06 2024-01-23 武汉理工大学 考虑产品零件失效特征的工业机器人拆解序列规划方法
CN115576278B (zh) * 2022-09-30 2023-08-04 常州大学 基于时态均衡分析的多智能体多任务分层连续控制方法
CN115688858B (zh) * 2022-10-20 2024-02-09 哈尔滨工业大学(深圳) 一种细粒度专家行为模仿学习方法、装置、介质及终端
CN117892843B (zh) * 2024-03-18 2024-06-04 中国海洋大学 基于博弈论与密码学的机器学习数据遗忘方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291890A (zh) * 2020-05-13 2020-06-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、系统及存储介质
CN111632379A (zh) * 2020-04-28 2020-09-08 腾讯科技(深圳)有限公司 游戏角色行为控制方法、装置、存储介质及电子设备
CN111783944A (zh) * 2020-06-19 2020-10-16 中国人民解放军军事科学院战争研究院 基于组合训练的规则嵌入多智能体强化学习方法及装置
CN111860649A (zh) * 2020-07-21 2020-10-30 赵佳 基于多智能体强化学习的动作集合输出方法及系统
CN112149824A (zh) * 2020-09-15 2020-12-29 支付宝(杭州)信息技术有限公司 利用博弈论更新推荐模型的方法及装置
CN112215350A (zh) * 2020-09-17 2021-01-12 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的智能体控制方法及装置
WO2021058588A1 (en) * 2019-09-25 2021-04-01 Deepmind Technologies Limited Training action selection neural networks using hindsight modelling
CN112926744A (zh) * 2021-02-22 2021-06-08 中山大学 基于强化学习的非完全信息博弈方法、系统以及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310915B (zh) * 2020-01-21 2023-09-01 浙江工业大学 一种面向强化学习的数据异常检测防御方法
US12019967B2 (en) * 2020-05-04 2024-06-25 Nvidia Corporation Routing connections in integrated circuits based on reinforcement learning
CN112561032B (zh) * 2020-11-27 2022-12-23 中国电子科技集团公司第十五研究所 一种基于种群训练的多智能体强化学习方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021058588A1 (en) * 2019-09-25 2021-04-01 Deepmind Technologies Limited Training action selection neural networks using hindsight modelling
CN111632379A (zh) * 2020-04-28 2020-09-08 腾讯科技(深圳)有限公司 游戏角色行为控制方法、装置、存储介质及电子设备
CN111291890A (zh) * 2020-05-13 2020-06-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、系统及存储介质
CN111783944A (zh) * 2020-06-19 2020-10-16 中国人民解放军军事科学院战争研究院 基于组合训练的规则嵌入多智能体强化学习方法及装置
CN111860649A (zh) * 2020-07-21 2020-10-30 赵佳 基于多智能体强化学习的动作集合输出方法及系统
CN112149824A (zh) * 2020-09-15 2020-12-29 支付宝(杭州)信息技术有限公司 利用博弈论更新推荐模型的方法及装置
CN112215350A (zh) * 2020-09-17 2021-01-12 天津(滨海)人工智能军民融合创新中心 一种基于强化学习的智能体控制方法及装置
CN112926744A (zh) * 2021-02-22 2021-06-08 中山大学 基于强化学习的非完全信息博弈方法、系统以及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Applying Hindsight Experience Replay to Procedural Level Generation;Evan Kusuma Susanto 等;《2021 3rd East Indonesia Conference on Computer and Information Technology (EIConCIT)》;20210517;全文 *
基于深度强化学习的非完备信息3D视频游戏博弈算法研究;李明豪;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20200229(第2期);全文 *

Also Published As

Publication number Publication date
CN114048834A (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN114048834B (zh) 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置
CN111111220B (zh) 多人对战游戏的自对弈模型训练方法、装置和计算机设备
CN111282267B (zh) 信息处理方法、装置、介质及电子设备
US7636701B2 (en) Query controlled behavior models as components of intelligent agents
Mizukami et al. Building a computer Mahjong player based on Monte Carlo simulation and opponent models
CN111291890A (zh) 一种博弈策略优化方法、系统及存储介质
CN111111204A (zh) 交互模型训练方法、装置、计算机设备和存储介质
CN112016704B (zh) Ai模型训练方法、模型使用方法、计算机设备及存储介质
CN109847367A (zh) 一种游戏胜率的预测方法、模型生成方法和装置
CN111589120B (zh) 目标物控制方法、计算机设备及计算机可读存储介质
CN110639208B (zh) 交互式任务的控制方法、装置、存储介质和计算机设备
Gold Training goal recognition online from low-level inputs in an action-adventure game
CN111569429A (zh) 模型训练方法、模型使用方法、计算机设备及存储介质
CN112561032B (zh) 一种基于种群训练的多智能体强化学习方法及系统
CN110170171A (zh) 一种目标对象的控制方法及装置
CN112044076B (zh) 一种对象控制方法、装置及计算机可读存储介质
CN114404975B (zh) 决策模型的训练方法、装置、设备、存储介质及程序产品
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
CN113509726A (zh) 交互模型训练方法、装置、计算机设备和存储介质
CN113393063A (zh) 比赛结果预测方法、系统、程序产品及存储介质
CN115944921B (zh) 游戏数据处理方法、装置、设备及介质
Meisheri et al. Accelerating training in pommerman with imitation and reinforcement learning
CN114404976B (zh) 决策模型的训练方法、装置、计算机设备及存储介质
CN116966573A (zh) 交互模型处理方法、装置、计算机设备和存储介质
Jakubik A neural network approach to hearthstone win rate prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant