CN115496208A - 协同模式多样化导向的无监督多智能体强化学习方法 - Google Patents

协同模式多样化导向的无监督多智能体强化学习方法 Download PDF

Info

Publication number
CN115496208A
CN115496208A CN202211420475.7A CN202211420475A CN115496208A CN 115496208 A CN115496208 A CN 115496208A CN 202211420475 A CN202211420475 A CN 202211420475A CN 115496208 A CN115496208 A CN 115496208A
Authority
CN
China
Prior art keywords
collaborative
agent
joint
graph
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211420475.7A
Other languages
English (en)
Other versions
CN115496208B (zh
Inventor
季向阳
蒋雨航
邵键准
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202211420475.7A priority Critical patent/CN115496208B/zh
Publication of CN115496208A publication Critical patent/CN115496208A/zh
Application granted granted Critical
Publication of CN115496208B publication Critical patent/CN115496208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及无监督多智能体强化学习技术领域,特别涉及一种协同模式多样化导向的无监督多智能体强化学习方法,包括:获取多智能体系统的多个联合策略网络;根据联合策略网络控制多个智能体进入协同模式,并获取在协同模型下与环境的交互数据;基于交互数据建立协同模式图,利用其计算协同模式差异;根据其对智能体的轨迹进行伪回报标注得到伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新联合策略网络,实现多智能体的强化学习。由此,解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性,且多智能体系统依赖于精心设计的环境反馈的奖励信号,导致难以有效学习到多智能体的联合策略等问题。

Description

协同模式多样化导向的无监督多智能体强化学习方法
技术领域
本申请涉及无监督多智能体强化学习技术领域,特别涉及一种协同模式多样化导向的无监督多智能体强化学习方法。
背景技术
强化学习作为一类依赖较弱的监督信号—环境反馈的奖励信号的机器学习算法,在解决序列决策问题中,展现出了出色的能力。近年来,强化学习也被应用于针对解决多智能体系统中的博弈或合作问题,发展出多智能体强化学习的研究领域。
目前,多智能体强化学习已被广泛应用于探索自动驾驶、博弈AI(如德州扑克)等多个实际应用领域。然而,强化学习算法能够使智能体达成所期望的表现,很大程度上依赖于精心设计的奖励信号,由于需要引导多个智能体学习合作关系,使得在多智能体强化学习中也变得更加具有挑战性。
相关技术中,多数无监督强化学习算法主要针对于单智能体的情形,通过鼓励智能体的不同策略分别到访具有可区分性的状态分布,来促进不同策略间的多样性,从而学习到有用的策略;使得无监督强化学习算法局限于解决单智能体的情形,在多智能体系统中,受到快速增大的状态空间和智能体之间的交互的影响,并不能很好地学习到所需要联合策略模型。
发明内容
本申请提供一种无监督多智能体强化学习方法、装置、电子设备及存储介质,以解决相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性,且多智能体系统依赖于精心设计的环境反馈的奖励信号,导致难以有效学习到多智能体的联合策略等问题。
本申请第一方面实施例提供一种无监督多智能体强化学习方法,包括以下步骤:获取多智能体系统的多个联合策略网络;根据所述多个联合策略网络中任意联合策略网络控制所述多智能体系统中多个智能体进入协同模式,并获取所述多个智能体在所述协同模型下与环境的交互数据;基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图,利用所述协同模式图计算不同联合策略网络之间的协同模式差异;根据所述协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体在每一单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到的联合策略网络,直到满足预设停止条件,停止迭代学习,实现多智能体的强化学习。
可选地,所述协同模式与所述联合策略网络对应。
可选地,所述协同模式图用于对任一状态下的智能体间的关系进行建模,其中,所述协同模式图上的每个顶点对应于多智能体系统中的一个智能体,图上无向边的权重根据协同模式对应的协同模式函数得到。
可选地,所述基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图,包括:根据所述协同模式对应的协同模式函数建立所述交互数据的协同模式图,并将所述协同模式图加入图样本池。
可选地,所述利用所述协同模式图计算不同联合策略网络之间的协同模式差异,包括:对于每一个联合策略网络,从所述联合策略网络对应的图样本池中采样得到协同模式图集合;基于所述协同模式图集合计算格罗莫夫-瓦瑟斯坦差异,利用所述格罗莫夫-瓦瑟斯坦差异构建代价矩阵,并利用预设算法求解所述代价矩阵得到不同联合策略网络之间的协同模式差异。
可选地,所述协同模式差异的定义为:
Figure 929073DEST_PATH_IMAGE001
其中,
Figure 683403DEST_PATH_IMAGE002
Figure 108830DEST_PATH_IMAGE003
分别表示由联合策略
Figure 632215DEST_PATH_IMAGE004
所引导出的协同模式图,
Figure 62060DEST_PATH_IMAGE005
则表示协同模式图
Figure 38106DEST_PATH_IMAGE006
Figure 578809DEST_PATH_IMAGE003
的分布;
Figure 159963DEST_PATH_IMAGE007
是一个联合分布,代表能将概率质量从
Figure 495129DEST_PATH_IMAGE008
转移至
Figure 224051DEST_PATH_IMAGE009
的双射转移方案,
Figure 302865DEST_PATH_IMAGE010
表示
Figure 987793DEST_PATH_IMAGE011
是联合分布集合
Figure 493861DEST_PATH_IMAGE012
中的一个联合分布;
Figure 710079DEST_PATH_IMAGE013
表示所有边际分布分别为
Figure 592584DEST_PATH_IMAGE014
的联合分布集合;
Figure 882751DEST_PATH_IMAGE015
是格罗莫夫-瓦瑟斯坦差异,
Figure 825299DEST_PATH_IMAGE016
表示寻找到最优的联合分布
Figure 263234DEST_PATH_IMAGE007
使得其右侧表达式取到下确界。
可选地,所述格罗莫夫-瓦瑟斯坦差异的计算公式为:
Figure 683851DEST_PATH_IMAGE017
其中,
Figure 844836DEST_PATH_IMAGE018
分别表示
Figure 692706DEST_PATH_IMAGE019
中的俩个测度图,
Figure 617937DEST_PATH_IMAGE019
表示所有测度图G的集合;
Figure 842245DEST_PATH_IMAGE020
是一个定义在V上的博雷尔概率测度;i,j表示不同的智能体;V是顶点的集合;
Figure 107004DEST_PATH_IMAGE021
是任意不小于1的实数,即
Figure 391355DEST_PATH_IMAGE022
Figure 803882DEST_PATH_IMAGE023
表示对测度图
Figure 566302DEST_PATH_IMAGE024
中所有顶点求和;
Figure 934835DEST_PATH_IMAGE025
表示对测度图
Figure 390087DEST_PATH_IMAGE026
中所有顶点求和;
Figure 289910DEST_PATH_IMAGE027
表示测度图
Figure 856020DEST_PATH_IMAGE024
中顶点i, j间的边的权值;
Figure 829793DEST_PATH_IMAGE028
表示测度图
Figure 455946DEST_PATH_IMAGE029
中顶点i', j'间的边的权值;
Figure 843065DEST_PATH_IMAGE030
表示将测度图
Figure 947287DEST_PATH_IMAGE031
中顶点i转运到测度图
Figure 791878DEST_PATH_IMAGE029
中顶点i';
Figure 588932DEST_PATH_IMAGE032
表示将测度图
Figure 197768DEST_PATH_IMAGE024
中顶点j转运到测度图
Figure 371261DEST_PATH_IMAGE029
中顶点j';
Figure 319625DEST_PATH_IMAGE033
表示将对应边的权值作差后取
Figure 287581DEST_PATH_IMAGE021
次方;
其中,
Figure 383713DEST_PATH_IMAGE034
表示T是集合
Figure 829738DEST_PATH_IMAGE035
中的一个转运矩阵,
Figure 960505DEST_PATH_IMAGE036
表示所有满足条件的转运矩阵的集合,具体条件为:
Figure 286313DEST_PATH_IMAGE037
表示转运矩阵T作用于纬度为
Figure 869741DEST_PATH_IMAGE038
的单位矩阵将得到测度
Figure 119457DEST_PATH_IMAGE039
Figure 104730DEST_PATH_IMAGE040
表示转置后的转运矩阵TT作用于纬度为
Figure 352172DEST_PATH_IMAGE041
的单位矩阵将得到测度
Figure 422896DEST_PATH_IMAGE042
本申请第二方面实施例提供一种无监督多智能体强化学习装置,包括:获取模块,用于获取多智能体系统的多个联合策略网络;控制模块,用于根据所述多个联合策略网络中任意联合策略网络控制所述多智能体系统中多个智能体进入协同模式,并获取所述多个智能体在所述协同模型下与环境的交互数据;计算模块,用于基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图,利用所述协同模式图计算不同联合策略网络之间的协同模式差异;更新模块,用于根据所述协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体在每一单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到的联合策略网络,直到满足预设停止条件,停止迭代学习,实现多智能体的强化学习。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的无监督多智能体强化学习方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的无监督多智能体强化学习方法。
由此,本申请至少具有如下有益效果:
(1)本申请实施例提出协同模式图 (SPG)和协同模式差异 (DSP) 来对多智能体系统的联合策略所表现出的协同模式之间的差异进行了刻画,从而鼓励不同的联合策略表现出更多样化的协同模式,进而更有效地学习到可用、有意义的策略模型,为在环境反馈任务相关的奖励信号时迅速适应任务目标提供了更可靠的预训练模型。
(2)本申请实施例提供一种协同模式多样化导向的无监督多智能体强化学习框架,使得依赖本申请实施例习得的一系列联合策略所导向智能体间协同关系的差异尽可能大,来对智能体间关系的空间进行充分的探索,从而使得多智能体系统能够不依赖于环境反馈的奖励信号,学习到一系列多样化的、有意义的策略。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种无监督多智能体强化学习方法的流程图;
图2为根据本申请实施例提供的协同模式多样化导向的无监督多智能体强化学习框架中物理量关系图;
图3为根据本申请实施例提供的协同模式多样化导向的无监督多智能体强化学习框架中循环示意图;
图4为根据本申请实施例的无监督多智能体强化学习装置的示例图;
图5为根据本申请实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
强化学习作为一类依赖较弱的监督信号——环境反馈的奖励信号——的机器学习算法,在解决序列决策问题中,展现出了出色的能力。近年来,强化学习也被应用于针对解决多智能体系统中的博弈或合作问题,发展出多智能体强化学习的研究领域,特别地,在针对合作问题的多智能体强化学习中,每一个智能体被设定为受到感受野的限制,只能观测到当前状态的一部分特征(例如处在自己视野中的敌我智能体的信息、迷宫中自己周边的区域信息等),根据观测到的特征,各自通过策略模型计算得到动作,再一齐施加给环境,获得环境所反馈的、智能体间共享的奖励信号,如此反复与环境交互。
在多智能体强化学习中,所有智能体的目标就是最大化从环境反馈的总回报奖励。而目前多智能体强化学习已被广泛应用于探索自动驾驶、博弈AI(如德州扑克)等多个实际应用领域。然而强化学习算法是否能够使智能体达成所期望的表现,很大程度上依赖于精心设计的奖励信号,由于需要引导多个智能体学习合作关系,这个问题在多智能体强化学习中也变得更加具有挑战性。
与前述的经典强化学习相比,无监督强化学习致力于使得智能体在没有环境反馈的回报时,依旧能够学习一系列有用的策略和探索环境,当再次获得与任务相关的奖励信号时,这些策略可以被用作预训练模型来加速训练过程。
现有的多数无监督强化学习算法主要针对于单智能体的情形,通过鼓励智能体的不同策略分别到访具有可区分性的状态分布,来促进不同策略间的多样性,从而学习到有用的策略。然而对于多智能体系统而言,状态的空间大小会随着智能体的数量n上升而快速增长:O(n),其中单纯对状态分布进行区分,就已经变成一种巨大的计算代价。
同时多智能体系统中每个智能体不仅与环境交互,也与其他智能体存在互动,智能体间关系的多样性更是联合策略多样性中应该考量的主要部分,而这也是现有针对单智能体的无监督强化学习算法直接应用到多智能体系统中的局限所在。
本申请实施例提供一种在无监督强化学习条件下,通过促进协同模式的多样性,来使多智能体系统学会一系列多样化的联合策略的框架,并在本申请实施例下,无需环境的奖励信号,仅通过协同模式图 (SPG) 的模型来对每个状态下的智能体间的关系进行建模,鼓励不同联合策略引导产生的协同模式图的分布之间的差异性尽可能大,进而就能够更学习到有用的多智能体的联合策略。
下面参考附图描述本申请实施例的无监督多智能体强化学习方法、装置、车辆及存储介质。具体而言,图1为本申请实施例所提供的一种无监督多智能体强化学习方法的流程示意图。
如图1所示,该无监督多智能体强化学习方法包括以下步骤:
在步骤S101中,获取多智能体系统的多个联合策略网络。
其中,联合策略网络公式为:
Figure 476303DEST_PATH_IMAGE043
其中,Z是目标学习到的联合策略网络的数量;
Figure 316083DEST_PATH_IMAGE044
表示以
Figure 496877DEST_PATH_IMAGE045
为参数的联合策略,k表示第k组网络参数。
可以理解的是,本申请实施例通过获取多智能体系统的多个联合策略网络,以便于后续根据任意联合策略网络控制智能体系统中智能体进入协同模式。
在步骤S102中,根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式,并获取多个智能体在协同模型下与环境的交互数据。
其中,协同模式是智能体间长期表现出的合作模式/关系,分工协作、联合指挥、联合行动,在此不做具体限定。
其中,协同模式与联合策略网络对应。
可以理解的是,本申请实施例根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式,并获取多个智能体在协同模型下与环境的交互数据,以便于后续基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图。
在步骤S103中,基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图,利用协同模式图计算不同联合策略网络之间的协同模式差异。
其中,协同模式图可以是描述在某个状态下,多个智能体之间关系的图,在此不做具体限定。
其中,协同模式差异是为了量化不同协同模式之间的差异,协同模式差异的定义为:
Figure 789318DEST_PATH_IMAGE046
其中,
Figure 646416DEST_PATH_IMAGE002
Figure 340702DEST_PATH_IMAGE003
分别表示由联合策略
Figure 929947DEST_PATH_IMAGE004
所引导出的协同模式图,
Figure 975263DEST_PATH_IMAGE014
则表示协同模式图
Figure 370472DEST_PATH_IMAGE006
Figure 919265DEST_PATH_IMAGE003
的分布;
Figure 7307DEST_PATH_IMAGE007
是一个联合分布,代表能将概率质量从
Figure 461291DEST_PATH_IMAGE008
转移至
Figure 394612DEST_PATH_IMAGE047
的双射转移方案,
Figure 63491DEST_PATH_IMAGE010
表示
Figure 322434DEST_PATH_IMAGE048
是联合分布集合
Figure 748867DEST_PATH_IMAGE049
中的一个联合分布;
Figure 751458DEST_PATH_IMAGE013
表示所有边际分布分别为
Figure 274843DEST_PATH_IMAGE050
的联合分布集合;
Figure 439108DEST_PATH_IMAGE015
是格罗莫夫-瓦瑟斯坦差异,
Figure 369149DEST_PATH_IMAGE051
表示寻找到最优的联合分布
Figure 909852DEST_PATH_IMAGE007
使得其右侧表达式取到下确界。
可以理解的是,本申请实施例基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图,并利用协同模式图计算不同联合策略网络之间的协同模式差异,以便于后续根据协同模式差异对每个智能体轨迹进行伪回报标注。
在本申请实施例中,协同模式图用于对任一状态下的智能体间的关系进行建模,其中,协同模式图上的每个顶点对应于多智能体系统中的一个智能体,图上无向边的权重根据协同模式对应的协同模式函数得到。
其中,协同模式函数公式为:
Figure 287744DEST_PATH_IMAGE052
其中
Figure 888489DEST_PATH_IMAGE053
分别是智能体i,j 的该条轨迹中的历史观测值,
Figure 351832DEST_PATH_IMAGE054
是轨迹的空间,
Figure 633909DEST_PATH_IMAGE055
表示由两个轨迹空间张成的空间;
Figure 131886DEST_PATH_IMAGE056
表示正实数域。
其中,协同模式函数
Figure 637954DEST_PATH_IMAGE057
可以是任意形式的能够描述智能体间相对关系的函数,例如两个智能体之间的相对距离。
可以理解的是,本申请实施例中协同模式图用于对任一状态下的智能体间的关系进行建模,其中每个顶点对应于多智能体系统中的一个智能体,而图上无向边的权重是根据协同模式对应的协同模式函数得到,通过对智能体件的关系使用协同模式图来建模,以刻画不同协同模式之间的差异性。
在本申请实施例中,基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图,包括:根据协同模式对应的协同模式函数建立交互数据的协同模式图,并将协同模式图加入图样本池。
其中,图样本池可以是将协同模式图G加入图样本池DZ,其公式定义为:
Figure 854171DEST_PATH_IMAGE058
,其中图样本池用符号DZ表示,初始化为一个空集合{},并集符号U表示加入操作。
可以理解的是,本申请实施例通过协同模式对应的协同模式函数建立交互数据的协同模式图,并将协同模式图加入图样本池,以便于从本联合策略得到的协同模式图与其他联合策略得到的协同模式图的分布之间,计算出协同模式差异。
在本申请实施例中,利用协同模式图计算不同联合策略网络之间的协同模式差异,包括:对于每一个联合策略网络,从联合策略网络对应的图样本池中采样得到协同模式图集合;基于协同模式图集合计算格罗莫夫-瓦瑟斯坦差异,利用格罗莫夫-瓦瑟斯坦差异构建代价矩阵,并利用预设算法求解代价矩阵得到不同联合策略网络之间的协同模式差异。
其中,格罗莫夫-瓦瑟斯坦差异是一种量化两个图之间的距离的测度,计算公式为:
Figure 923627DEST_PATH_IMAGE059
其中,
Figure 276111DEST_PATH_IMAGE060
分别表示
Figure 953080DEST_PATH_IMAGE061
中的俩个测度图,
Figure 391015DEST_PATH_IMAGE061
表示所有测度图G的集合;
Figure 14894DEST_PATH_IMAGE062
是一个定义在V上的博雷尔概率测度;i,j表示不同的智能体;V是顶点的集合;
Figure 221885DEST_PATH_IMAGE021
是任意不小于1的实数,即
Figure 335334DEST_PATH_IMAGE063
Figure 260565DEST_PATH_IMAGE064
表示对测度图
Figure 484873DEST_PATH_IMAGE065
中所有顶点求和;
Figure 500364DEST_PATH_IMAGE066
表示对测度图
Figure 784715DEST_PATH_IMAGE067
中所有顶点求和;
Figure 931663DEST_PATH_IMAGE027
表示测度图
Figure 959662DEST_PATH_IMAGE065
中顶点i, j间的边的权值;
Figure 78927DEST_PATH_IMAGE068
表示测度图
Figure 534180DEST_PATH_IMAGE029
中顶点i', j'间的边的权值;
Figure 434002DEST_PATH_IMAGE030
表示将测度图
Figure 113DEST_PATH_IMAGE069
中顶点i转运到测度图
Figure 223153DEST_PATH_IMAGE029
中顶点i';
Figure 849306DEST_PATH_IMAGE032
表示将测度图
Figure 970846DEST_PATH_IMAGE065
中顶点j转运到测度图
Figure 340647DEST_PATH_IMAGE029
中顶点j';
Figure 434505DEST_PATH_IMAGE070
表示将对应边的权值作差后取
Figure 231560DEST_PATH_IMAGE021
次方;
其中,
Figure 840396DEST_PATH_IMAGE034
表示T是集合
Figure 748309DEST_PATH_IMAGE035
中的一个转运矩阵,
Figure 447406DEST_PATH_IMAGE071
表示所有满足条件的转运矩阵的集合,具体条件为:
Figure 415362DEST_PATH_IMAGE037
表示转运矩阵T作用于纬度为
Figure 511494DEST_PATH_IMAGE072
的单位矩阵将得到测度
Figure 223098DEST_PATH_IMAGE039
Figure 353865DEST_PATH_IMAGE040
表示转置后的转运矩阵TT作用于纬度为
Figure 430405DEST_PATH_IMAGE041
的单位矩阵将得到测度
Figure 748254DEST_PATH_IMAGE042
其中,协同模式差异是一种量化两种协同模式之间差异的测度即上述
Figure 263549DEST_PATH_IMAGE073
其中,代价矩阵公式为:
Figure 248823DEST_PATH_IMAGE074
,其中,0≤t1≤B1,0≤t2≤B2,其中,B1≤B2,且分别是两个SPG集合
Figure 745532DEST_PATH_IMAGE075
的元素数量。
其中,
Figure 550677DEST_PATH_IMAGE076
表示由策略
Figure 604084DEST_PATH_IMAGE077
导出的在t1步的协同模式图;
Figure 443864DEST_PATH_IMAGE078
表示由策略
Figure 862207DEST_PATH_IMAGE079
导出的在t2步的协同模式图;
Figure 420227DEST_PATH_IMAGE080
表示策略
Figure 11745DEST_PATH_IMAGE081
导出的协同模式图的集合;
Figure 971611DEST_PATH_IMAGE082
表示策略
Figure 623172DEST_PATH_IMAGE079
导出的协同模式图的集合。
其中,预设算法可以是Sinkhorn-Knopp算法,在此不做具体限定。
可以理解的是,本申请实施例从每个联合策略网络对应的图样本池中采样得到协同模式图集合,并基于协同模式图集合计算格罗莫夫-瓦瑟斯坦差异,利用格罗莫夫-瓦瑟斯坦差异构建代价矩阵,并利用预设算法求解代价矩阵得到不同联合策略网络之间的协同模式差异,主要是通过比较一个图中的边的关系与另一个图中的边的关系,来衡量两个图之间的差异,以便于后续计算得到智能体每一单步的伪回报。
在步骤S104中,根据协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体在每一单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到的联合策略网络,直到满足预设停止条件,停止迭代学习,实现多智能体的强化学习。
其中,伪回报定义为:
Figure 91325DEST_PATH_IMAGE083
,其中
Figure 486534DEST_PATH_IMAGE084
Figure 300907DEST_PATH_IMAGE085
是最优运输映射函数。
其中,
Figure 123369DEST_PATH_IMAGE086
表示策略
Figure 328085DEST_PATH_IMAGE077
导出的轨迹;
Figure 526986DEST_PATH_IMAGE087
表示由其他所有策略
Figure 195864DEST_PATH_IMAGE077
各自导出的轨迹集合;
Figure 189228DEST_PATH_IMAGE088
表示策略
Figure 130508DEST_PATH_IMAGE077
导出的第t步的协同模式图;
Figure 133099DEST_PATH_IMAGE089
表示由策略
Figure 656485DEST_PATH_IMAGE090
导出的第
Figure 820750DEST_PATH_IMAGE091
步的协同模式图;
Figure 58DEST_PATH_IMAGE092
表示策略
Figure 540761DEST_PATH_IMAGE077
导出的协同模式图的集合;
Figure 918653DEST_PATH_IMAGE093
表示策略
Figure 519398DEST_PATH_IMAGE090
导出的协同模式图的集合。
其中,预设停止条件可以是联合策略网络完成给定的优化次数,在此不做具体限定。
可以理解的是,本申请实施例根据协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体的每个单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到联合策略网络,直至满足设定的条件,停止迭代学习,实现多智能体的强化学习,使得依赖本申请实施例习得的一系列联合策略所导向智能体间协同关系的差异尽可能大,来对智能体间关系的空间进行充分的探索,从而使得多智能体系统能够不依赖于环境反馈的奖励信号,学习到一系列多样化的、有意义的策略。
根据本申请实施例提出的无监督多智能体强化学习方法,通过获取多智能体系统的多个联合策略网络,然后根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式,并获取在协同模型下与环境的交互数据,基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图,并利用其计算不同联合策略网络之间的协同模式差异,根据协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体的每个单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到联合策略网络,直至满足设定的条件,停止迭代学习,实现多智能体的强化学习,使得依赖本申请实施例习得的一系列联合策略所导向智能体间协同关系的差异尽可能大,来对智能体间关系的空间进行充分的探索,从而使得多智能体系统能够不依赖于环境反馈的奖励信号,学习到一系列多样化的、有意义的策略。由此,解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性,且多智能体系统依赖于精心设计的环境反馈的奖励信号,导致难以有效学习到多智能体的联合策略等问题。
下面将结合图2和图3对无监督多智能体强化学习方法进行详细阐述,具体如下:
1、一些概念定义如下:
定义一种测度图
Figure 671156DEST_PATH_IMAGE094
,其中
Figure 15550DEST_PATH_IMAGE095
是顶点的集合,
Figure 247948DEST_PATH_IMAGE096
是顶点,
Figure 19595DEST_PATH_IMAGE097
间无向边
Figure 970234DEST_PATH_IMAGE098
的权重,
Figure 790422DEST_PATH_IMAGE099
是一个定义在
Figure 142906DEST_PATH_IMAGE100
上的博雷尔概率测度。
Figure 85454DEST_PATH_IMAGE101
表示所有测度图G的集合,对于任意
Figure 523389DEST_PATH_IMAGE102
和所有
Figure 396536DEST_PATH_IMAGE103
,格罗莫夫-瓦瑟斯坦差异(GWD)可由下式得到:
Figure 603526DEST_PATH_IMAGE017
(1)
其中,
Figure 716976DEST_PATH_IMAGE060
分别表示
Figure 642206DEST_PATH_IMAGE061
中的俩个测度图,
Figure 804197DEST_PATH_IMAGE061
表示所有测度图G的集合;
Figure 131273DEST_PATH_IMAGE104
是一个定义在V上的博雷尔概率测度;i,j表示不同的智能体;V是顶点的集合;
Figure 150045DEST_PATH_IMAGE021
是任意不小于1的实数,即
Figure 562572DEST_PATH_IMAGE063
Figure 278986DEST_PATH_IMAGE064
表示对测度图
Figure 460569DEST_PATH_IMAGE065
中所有顶点求和;
Figure 915821DEST_PATH_IMAGE066
表示对测度图
Figure 550065DEST_PATH_IMAGE067
中所有顶点求和;
Figure 116175DEST_PATH_IMAGE027
表示测度图
Figure 355527DEST_PATH_IMAGE065
中顶点i, j间的边的权值;
Figure 981680DEST_PATH_IMAGE105
表示测度图
Figure 103220DEST_PATH_IMAGE029
中顶点i', j'间的边的权值;
Figure 473021DEST_PATH_IMAGE030
表示将测度图
Figure 816147DEST_PATH_IMAGE069
中顶点i转运到测度图
Figure 613201DEST_PATH_IMAGE029
中顶点i';
Figure 222037DEST_PATH_IMAGE032
表示将测度图
Figure 129951DEST_PATH_IMAGE065
中顶点j转运到测度图
Figure 78315DEST_PATH_IMAGE029
中顶点j';
Figure 46271DEST_PATH_IMAGE070
表示将对应边的权值作差后取
Figure 142403DEST_PATH_IMAGE021
次方;
其中,
Figure 854007DEST_PATH_IMAGE034
表示T是集合
Figure 407610DEST_PATH_IMAGE035
中的一个转运矩阵,
Figure 546468DEST_PATH_IMAGE106
表示所有满足条件的转运矩阵的集合,具体条件为:
Figure 129896DEST_PATH_IMAGE037
表示转运矩阵T作用于纬度为
Figure 645191DEST_PATH_IMAGE072
的单位矩阵将得到测度
Figure 364885DEST_PATH_IMAGE039
Figure 612327DEST_PATH_IMAGE040
表示转置后的转运矩阵TT作用于纬度为
Figure 683051DEST_PATH_IMAGE107
的单位矩阵将得到测度
Figure 736458DEST_PATH_IMAGE042
总体上,GWD(格罗莫夫-瓦瑟斯坦差异)通过比较一个图中的边的关系与另一个图中的边的关系,来衡量两个图之间的差异。对(1)式求解可以使用Sinkhorn-Knopp 算法进行迭代求解,GWD被本申请实施例所采用来计算两个协同模式图 (SPG) 之间的距离。
本申请实施例中提出协同模式图
Figure 576238DEST_PATH_IMAGE108
,(后文中将简写为
Figure 243848DEST_PATH_IMAGE109
)来对任一状态下的智能体间的关系进行建模,其中图上的每个顶点vi∈V对应于多智能体系统中的一个智能体i,图上无向边
Figure 801868DEST_PATH_IMAGE110
的权重
Figure 393387DEST_PATH_IMAGE111
则是根据给定的协同模式函数
Figure 87673DEST_PATH_IMAGE112
得到,其中
Figure 942497DEST_PATH_IMAGE113
分别是智能体
Figure 722234DEST_PATH_IMAGE114
的该条轨迹中的历史观测值,
Figure 117443DEST_PATH_IMAGE115
是轨迹的空间,
Figure 931816DEST_PATH_IMAGE116
表示由俩个轨迹空间张成的空间;
Figure 430975DEST_PATH_IMAGE117
表示正实数域。
该协同模式函数
Figure 698008DEST_PATH_IMAGE118
可以是任意形式的能够描述智能体间相对关系的函数,例如两个智能体之间的相对距离。
为了量化不同协同模式之间的差异,本申请实施例提出协同模式差异 (DSP),令
Figure 896908DEST_PATH_IMAGE119
是分别由联合策略
Figure 565787DEST_PATH_IMAGE120
所引导出的SPG的分布。
Figure 496834DEST_PATH_IMAGE121
是一个能将概率质量从P1转移至P2的双射转移方案,其中
Figure 251163DEST_PATH_IMAGE122
是所有边际分布分别为P1,P2的联合分布。则协同模式差异 (DSP) 被定义为:
Figure 988175DEST_PATH_IMAGE123
其中,
Figure 511560DEST_PATH_IMAGE002
Figure 128355DEST_PATH_IMAGE003
分别表示由联合策略
Figure 369981DEST_PATH_IMAGE004
所引导出的协同模式图,
Figure 645104DEST_PATH_IMAGE005
则表示协同模式图
Figure 288575DEST_PATH_IMAGE006
Figure 623742DEST_PATH_IMAGE003
的分布;
Figure 290346DEST_PATH_IMAGE007
是一个联合分布,代表能将概率质量从
Figure 369161DEST_PATH_IMAGE008
转移至
Figure 867138DEST_PATH_IMAGE047
的双射转移方案,
Figure 638785DEST_PATH_IMAGE010
表示
Figure 277839DEST_PATH_IMAGE048
是联合分布集合
Figure 160345DEST_PATH_IMAGE049
中的一个联合分布;
Figure 512829DEST_PATH_IMAGE013
表示所有边际分布分别为
Figure 455377DEST_PATH_IMAGE124
的联合分布集合;
Figure 830994DEST_PATH_IMAGE015
是格罗莫夫-瓦瑟斯坦差异,
Figure 251611DEST_PATH_IMAGE125
表示寻找到最优的联合分布
Figure 724181DEST_PATH_IMAGE007
使得其右侧表达式取到下确界。
2、本申请实施例的框架具体实施方案(如图2和图3所示):
首先初始化一系列联合策略网络
Figure 837631DEST_PATH_IMAGE126
,其中Z是目标学习到的联合策略网络的数量,
Figure 762861DEST_PATH_IMAGE127
表示以
Figure 174120DEST_PATH_IMAGE045
为参数的联合策略,k表示第k组网络参数。相应的,初始化一系列空的图样本池
Figure 235617DEST_PATH_IMAGE128
和经验回放样本池
Figure 519968DEST_PATH_IMAGE129
,而后在达到预设的迭代次数前,重复如下步骤1-5,示意图如图3所示。
步骤1、选取特定联合策略网络
随机选择或依次选择
Figure 932494DEST_PATH_IMAGE130
,并初始化多智能体系统的联合轨迹
Figure 898176DEST_PATH_IMAGE131
和所选取的策略
Figure 79759DEST_PATH_IMAGE132
对应的SPG集合
Figure 269432DEST_PATH_IMAGE133
步骤2、多智能体系统与环境交互获取数据
由联合策略网络得到联合动作a,与环境交互得到
Figure 169255DEST_PATH_IMAGE134
并将数据加入轨迹中
Figure 423781DEST_PATH_IMAGE135
。根据给定协同模式函数
Figure 725449DEST_PATH_IMAGE136
建立该时刻的协同模式图,并将其加入SPG集合
Figure 86023DEST_PATH_IMAGE137
和图样本池中
Figure 473142DEST_PATH_IMAGE138
。重复本步骤2直到当前轨迹结束。
步骤3、计算联合策略两两之间的DSP
对其他的每一个联合策略网络k≠z,从其对应的图样本池中采样得到SPG集合:
Figure 842944DEST_PATH_IMAGE139
,并完成如下内容。
使用Sinkhorn-Knopp 算法求解(1)式中的最优转运方案T得到
Figure 671223DEST_PATH_IMAGE140
,进而得到代价矩阵
Figure 468277DEST_PATH_IMAGE141
,其中,0≤t1≤B1,0≤t2≤B2,其中,B1≤B2,且分别是两个SPG集合
Figure 77113DEST_PATH_IMAGE142
的元素数量。其中,
Figure 250606DEST_PATH_IMAGE076
表示由策略
Figure 448238DEST_PATH_IMAGE077
导出的在t1步的协同模式图;
Figure 416194DEST_PATH_IMAGE143
表示由策略
Figure 512326DEST_PATH_IMAGE079
导出的在t2步的协同模式图;
Figure 223930DEST_PATH_IMAGE080
表示策略
Figure 26801DEST_PATH_IMAGE077
导出的协同模式图的集合;
Figure 165658DEST_PATH_IMAGE082
表示策略
Figure 749086DEST_PATH_IMAGE079
导出的协同模式图的集合。
令单射函数
Figure 998802DEST_PATH_IMAGE144
表示运输映射函数,使用Kuhn-Munkres算法求解如下最优运输问题得到
Figure 984075DEST_PATH_IMAGE145
和对
Figure 982249DEST_PATH_IMAGE146
间DSP的估计值:
Figure 52974DEST_PATH_IMAGE147
(3)
其中,
Figure 106380DEST_PATH_IMAGE148
表示策略
Figure 946160DEST_PATH_IMAGE077
导出的协同模式图的集合;
Figure 364503DEST_PATH_IMAGE149
表示策略
Figure 656944DEST_PATH_IMAGE079
导出的协同模式图的集合;
Figure 514042DEST_PATH_IMAGE150
表示对从t=0开始到t= B1的矩阵元
Figure 208328DEST_PATH_IMAGE151
进行求和。
步骤4、对轨迹进行伪回报的标注
从所有k≠z,
Figure 46840DEST_PATH_IMAGE152
中,选取使得估计得到的DSP
Figure 92157DEST_PATH_IMAGE153
值最小对应的k,即
Figure 487366DEST_PATH_IMAGE154
Figure 36159DEST_PATH_IMAGE155
和对应的最优运输映射函数
Figure 61884DEST_PATH_IMAGE156
代入下式得到每一步的伪回报
Figure 328917DEST_PATH_IMAGE157
Figure 527817DEST_PATH_IMAGE158
(4)
其中
Figure 931117DEST_PATH_IMAGE159
其中,
Figure 878475DEST_PATH_IMAGE086
表示策略
Figure 632805DEST_PATH_IMAGE077
导出的轨迹;
Figure 369817DEST_PATH_IMAGE087
表示由其他所有策略
Figure 893202DEST_PATH_IMAGE077
各自导出的轨迹集合;
Figure 260729DEST_PATH_IMAGE088
表示策略
Figure 236775DEST_PATH_IMAGE077
导出的第t步的协同模式图;
Figure 777478DEST_PATH_IMAGE160
表示由策略
Figure 420949DEST_PATH_IMAGE090
导出的第
Figure 943066DEST_PATH_IMAGE091
步的协同模式图;
Figure 671988DEST_PATH_IMAGE092
表示策略
Figure 750802DEST_PATH_IMAGE077
导出的协同模式图的集合;
Figure 248780DEST_PATH_IMAGE161
表示策略
Figure 692531DEST_PATH_IMAGE090
导出的协同模式图的集合。
Figure 908748DEST_PATH_IMAGE162
由 (1)式得到。
将计算得到的伪回报
Figure 791254DEST_PATH_IMAGE163
标注到相应轨迹
Figure 143737DEST_PATH_IMAGE164
上,并加入经验回放样本池,即
Figure 774701DEST_PATH_IMAGE165
其中,
Figure 212636DEST_PATH_IMAGE166
表示编号为Z的强化学习经验回放样本池;
Figure 633253DEST_PATH_IMAGE167
表示策略
Figure 105823DEST_PATH_IMAGE077
导出的轨迹;
Figure 891376DEST_PATH_IMAGE168
表示从t=1开始到t=B1的所有伪回报
Figure 816607DEST_PATH_IMAGE163
组成的集合。
步骤5、训练多智能体系统的联合策略网络
从经验回放样本池中进行采样,利用多智能体强化学习算法,通过梯度反向传播来优化多智能体系统的联合策略网络
Figure 40915DEST_PATH_IMAGE169
在具体实施中,本申请实施例对多智能体强化学习算法并没有严格的限制,并在实验中使用QMIX算法进行了验证。
综上,本申请实施例提供的方法则提出协同模式图 (SPG)和协同模式差异 (DSP)来对多智能体系统的联合策略所表现出的协同模式之间的差异进行了刻画,从而鼓励不同的联合策略表现出更多样化的协同模式,进而更有效地学习到可用、有意义的策略模型,为在环境反馈任务相关的奖励信号时迅速适应任务目标提供了更可靠的预训练模型。
其次参照附图描述根据本申请实施例提出的无监督多智能体强化学习装置。
图4是本申请实施例的无监督多智能体强化学习装置的方框示意图。
如图4所示,该无监督多智能体强化学习装置10包括:获取模块100、控制模块200、计算模块300和更新模块400。
其中,获取模块100用于获取多智能体系统的多个联合策略网络;控制模块200用于根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式,并获取多个智能体在协同模型下与环境的交互数据;计算模块300用于基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图,利用协同模式图计算不同联合策略网络之间的协同模式差异;更新模块400用于根据协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体在每一单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到的联合策略网络,直到满足预设停止条件,停止迭代学习,实现多智能体的强化学习。
需要说明的是,前述对无监督多智能体强化学习方法实施例的解释说明也适用于该实施例的无监督多智能体强化学习装置,此处不再赘述。
根据本申请实施例提出的无监督多智能体强化学习装置,通过获取多智能体系统的多个联合策略网络,然后根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式,并获取在协同模型下与环境的交互数据,基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图,并利用其计算不同联合策略网络之间的协同模式差异,根据协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体的每个单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到联合策略网络,直至满足设定的条件,停止迭代学习,实现多智能体的强化学习,使得依赖本申请实施例习得的一系列联合策略所导向智能体间协同关系的差异尽可能大,来对智能体间关系的空间进行充分的探索,从而使得多智能体系统能够不依赖于环境反馈的奖励信号,学习到一系列多样化的、有意义的策略。由此,解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性,且多智能体系统依赖于精心设计的环境反馈的奖励信号,导致难以有效学习到多智能体的联合策略等问题。
图5为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。
处理器502执行程序时实现上述实施例中提供的无监督多智能体强化学习方法。
进一步地,电子设备还包括:
通信接口503,用于存储器501和处理器502之间的通信。
存储器501,用于存放可在处理器502上运行的计算机程序。
存储器501可能包含高速RAM(Random Access Memory,随机存取存储器)存储器,也可能还包括非易失性存储器,例如至少一个磁盘存储器。
如果存储器501、处理器502和通信接口503独立实现,则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral Component,外部设备互连)总线或EISA(Extended Industry Standard Architecture,扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器501、处理器502及通信接口503,集成在一块芯片上实现,则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。
处理器502可能是一个CPU(Central Processing Unit,中央处理器),或者是ASIC(Application Specific Integrated Circuit,特定集成电路),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的无监督多智能体强化学习方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列,现场可编程门阵列等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种无监督多智能体强化学习方法,其特征在于,包括以下步骤:
获取多智能体系统的多个联合策略网络;
根据所述多个联合策略网络中任意联合策略网络控制所述多智能体系统中多个智能体进入协同模式,并获取所述多个智能体在所述协同模型下与环境的交互数据;
基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图,利用所述协同模式图计算不同联合策略网络之间的协同模式差异;
根据所述协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体在每一单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到的联合策略网络,直到满足预设停止条件,停止迭代学习,实现多智能体的强化学习。
2.根据权利要求1所述的方法,其特征在于,所述协同模式与所述联合策略网络对应。
3.根据权利要求1所述的方法,其特征在于,所述协同模式图用于对任一状态下的智能体间的关系进行建模,其中,所述协同模式图上的每个顶点对应于多智能体系统中的一个智能体,图上无向边的权重根据协同模式对应的协同模式函数得到。
4.根据权利要求1所述的方法,其特征在于,所述基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图,包括:
根据所述协同模式对应的协同模式函数建立所述交互数据的协同模式图,并将所述协同模式图加入图样本池。
5.根据权利要求4所述的方法,其特征在于,所述利用所述协同模式图计算不同联合策略网络之间的协同模式差异,包括:
对于每一个联合策略网络,从所述联合策略网络对应的图样本池中采样得到协同模式图集合;
基于所述协同模式图集合计算格罗莫夫-瓦瑟斯坦差异,利用所述格罗莫夫-瓦瑟斯坦差异构建代价矩阵,并利用预设算法求解所述代价矩阵得到不同联合策略网络之间的协同模式差异。
6.根据权利要求5所述的方法,其特征在于,所述协同模式差异的定义为:
Figure 488348DEST_PATH_IMAGE001
其中,
Figure 840831DEST_PATH_IMAGE002
Figure 721063DEST_PATH_IMAGE003
分别表示由联合策略
Figure 158997DEST_PATH_IMAGE004
所引导出的协同模式图,
Figure 579614DEST_PATH_IMAGE005
则表示协同模式图
Figure 52184DEST_PATH_IMAGE006
Figure 854049DEST_PATH_IMAGE007
的分布;
Figure 779280DEST_PATH_IMAGE008
是一个联合分布,代表能将概率质量从
Figure 3588DEST_PATH_IMAGE009
转移至
Figure 2768DEST_PATH_IMAGE010
的双射转移方案,
Figure 287119DEST_PATH_IMAGE011
表示
Figure 699645DEST_PATH_IMAGE008
是联合分布集合
Figure 727644DEST_PATH_IMAGE012
中的一个联合分布;
Figure 909227DEST_PATH_IMAGE013
表示所有边际分布分别为
Figure 285850DEST_PATH_IMAGE014
的联合分布集合;
Figure 185673DEST_PATH_IMAGE015
是格罗莫夫-瓦瑟斯坦差异,
Figure 751784DEST_PATH_IMAGE016
表示寻找到最优的联合分布
Figure 53452DEST_PATH_IMAGE017
使得其右侧表达式取到下确界。
7.根据权利要求6所述的方法,其特征在于,所述格罗莫夫-瓦瑟斯坦差异的计算公式为:
Figure 351709DEST_PATH_IMAGE018
其中,
Figure 738828DEST_PATH_IMAGE019
分别表示
Figure 108630DEST_PATH_IMAGE020
中的俩个测度图,
Figure 999226DEST_PATH_IMAGE020
表示所有测度图G的集合;
Figure 484696DEST_PATH_IMAGE021
是一个定义在V上的博雷尔概率测度;i,j表示不同的智能体;V是顶点的集合;
Figure 93532DEST_PATH_IMAGE022
是任意不小于1的实数,即
Figure 267024DEST_PATH_IMAGE023
Figure 277705DEST_PATH_IMAGE024
表示对测度图
Figure 183344DEST_PATH_IMAGE025
中所有顶点求和;
Figure 279476DEST_PATH_IMAGE026
表示对测度图
Figure 991081DEST_PATH_IMAGE027
中所有顶点求和;
Figure 856268DEST_PATH_IMAGE028
表示测度图
Figure 995126DEST_PATH_IMAGE029
中顶点i, j间的边的权值;
Figure 765504DEST_PATH_IMAGE030
表示测度图
Figure 15220DEST_PATH_IMAGE027
中顶点i', j'间的边的权值;
Figure 494DEST_PATH_IMAGE031
表示将测度图
Figure 310252DEST_PATH_IMAGE029
中顶点i转运到测度图
Figure 318660DEST_PATH_IMAGE027
中顶点i';
Figure 372066DEST_PATH_IMAGE032
表示将测度图
Figure 211846DEST_PATH_IMAGE025
中顶点j转运到测度图
Figure 692506DEST_PATH_IMAGE027
中顶点j';
Figure 673363DEST_PATH_IMAGE033
表示将对应边的权值作差后取
Figure 530460DEST_PATH_IMAGE022
次方;
其中,
Figure 224747DEST_PATH_IMAGE034
表示T是集合
Figure 876308DEST_PATH_IMAGE035
中的一个转运矩阵,
Figure 921624DEST_PATH_IMAGE036
表示所有满足条件的转运矩阵的集合,具体条件为:
Figure 254517DEST_PATH_IMAGE037
表示转运矩阵T作用于纬度为
Figure 803310DEST_PATH_IMAGE038
的单位矩阵将得到测度
Figure 891352DEST_PATH_IMAGE039
Figure 158385DEST_PATH_IMAGE040
表示转置后的转运矩阵TT作用于纬度为
Figure 544236DEST_PATH_IMAGE041
的单位矩阵将得到测度
Figure 947535DEST_PATH_IMAGE042
8.一种无监督多智能体强化学习装置,其特征在于,包括:
获取模块,用于获取多智能体系统的多个联合策略网络;
控制模块,用于根据所述多个联合策略网络中任意联合策略网络控制所述多智能体系统中多个智能体进入协同模式,并获取所述多个智能体在所述协同模型下与环境的交互数据;
计算模块,用于基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图,利用所述协同模式图计算不同联合策略网络之间的协同模式差异;
更新模块,用于根据所述协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体在每一单步的伪回报,并从经验回放样本池中采样,通过梯度反向传播来更新多智能体系统学习得到的联合策略网络,直到满足预设停止条件,停止迭代学习,实现多智能体的强化学习。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-7任一项所述的无监督多智能体强化学习方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-7任一项所述的无监督多智能体强化学习方法。
CN202211420475.7A 2022-11-15 2022-11-15 协同模式多样化导向的无监督多智能体强化学习方法 Active CN115496208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211420475.7A CN115496208B (zh) 2022-11-15 2022-11-15 协同模式多样化导向的无监督多智能体强化学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211420475.7A CN115496208B (zh) 2022-11-15 2022-11-15 协同模式多样化导向的无监督多智能体强化学习方法

Publications (2)

Publication Number Publication Date
CN115496208A true CN115496208A (zh) 2022-12-20
CN115496208B CN115496208B (zh) 2023-04-18

Family

ID=85115616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211420475.7A Active CN115496208B (zh) 2022-11-15 2022-11-15 协同模式多样化导向的无监督多智能体强化学习方法

Country Status (1)

Country Link
CN (1) CN115496208B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200090048A1 (en) * 2017-05-19 2020-03-19 Deepmind Technologies Limited Multi-task neural network systems with task-specific policies and a shared policy
CN111367657A (zh) * 2020-02-21 2020-07-03 重庆邮电大学 一种基于深度强化学习的计算资源协同合作方法
CN111552754A (zh) * 2020-04-24 2020-08-18 中国科学院空天信息创新研究院 一种舰船轨迹相似度度量方法及系统
CN113095488A (zh) * 2021-04-29 2021-07-09 电子科技大学 一种基于多智能体最大熵强化学习的合作博弈方法
WO2021208771A1 (zh) * 2020-04-18 2021-10-21 华为技术有限公司 强化学习的方法和装置
CN113919485A (zh) * 2021-10-19 2022-01-11 西安交通大学 基于动态层级通信网络的多智能体强化学习方法及系统
CN114219066A (zh) * 2021-10-29 2022-03-22 清华大学 基于瓦瑟斯坦距离的无监督强化学习方法及装置
CN114615744A (zh) * 2022-02-28 2022-06-10 湖北工业大学 一种知识迁移强化学习网络切片通感算资源协同优化方法
CN115130376A (zh) * 2022-06-21 2022-09-30 大连理工大学 一种基于行列式多样性引导的群体强化学习训练方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114880955B (zh) * 2022-07-05 2022-09-20 中国人民解放军国防科技大学 基于强化学习的兵棋多实体异步协同决策方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200090048A1 (en) * 2017-05-19 2020-03-19 Deepmind Technologies Limited Multi-task neural network systems with task-specific policies and a shared policy
CN111367657A (zh) * 2020-02-21 2020-07-03 重庆邮电大学 一种基于深度强化学习的计算资源协同合作方法
WO2021208771A1 (zh) * 2020-04-18 2021-10-21 华为技术有限公司 强化学习的方法和装置
CN111552754A (zh) * 2020-04-24 2020-08-18 中国科学院空天信息创新研究院 一种舰船轨迹相似度度量方法及系统
CN113095488A (zh) * 2021-04-29 2021-07-09 电子科技大学 一种基于多智能体最大熵强化学习的合作博弈方法
CN113919485A (zh) * 2021-10-19 2022-01-11 西安交通大学 基于动态层级通信网络的多智能体强化学习方法及系统
CN114219066A (zh) * 2021-10-29 2022-03-22 清华大学 基于瓦瑟斯坦距离的无监督强化学习方法及装置
CN114615744A (zh) * 2022-02-28 2022-06-10 湖北工业大学 一种知识迁移强化学习网络切片通感算资源协同优化方法
CN115130376A (zh) * 2022-06-21 2022-09-30 大连理工大学 一种基于行列式多样性引导的群体强化学习训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HONGTENG XU: "《Representing Graphs via Gromov-Wasserstein Factorization》", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
李文浩: "去中心化多智能体强化学习算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
陈鑫等: "基于高斯回归的连续空间多智能体跟踪学习", 《自动化学报》 *

Also Published As

Publication number Publication date
CN115496208B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
EP3605334A1 (en) Incentive control for multi-agent systems
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN108665065B (zh) 任务数据的处理方法、装置、设备和存储介质
CN111898770B (zh) 一种多智能体强化学习方法、电子设备及存储介质
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
CN114139637A (zh) 多智能体信息融合方法、装置、电子设备及可读存储介质
Wöhlke et al. A performance-based start state curriculum framework for reinforcement learning
CN115169519A (zh) 一种仿生鱼体自主智能游动模拟方法、装置及系统
CN108460462A (zh) 一种基于区间参数优化的区间神经网络学习方法
CN112084721A (zh) 一种多代理强化学习合作任务下的奖励函数建模方法
CN113962390A (zh) 基于深度强化学习网络构建多样化搜索策略的模型的方法
CN113778619A (zh) 多集群博弈的多智能体状态控制方法、装置及终端
CN102968663A (zh) 基于无标记样本的神经网络构建方法及其装置
CN114781248A (zh) 基于状态偏移矫正的离线强化学习方法及装置
CN112465148A (zh) 一种多智能体系统的网络参数更新方法、装置及终端设备
CN114219066A (zh) 基于瓦瑟斯坦距离的无监督强化学习方法及装置
Vidal Learning in multiagent systems: An introduction from a game-theoretic perspective
CN115496208B (zh) 协同模式多样化导向的无监督多智能体强化学习方法
CN111967199A (zh) 一种强化学习多代理合作任务下的代理贡献分配的方法
CN117540203A (zh) 一种集群机器人合作导航的多向课程学习训练方法及装置
CN117273057A (zh) 基于强化学习的多智能体协同对抗决策方法及装置
CN111811532A (zh) 基于脉冲神经网络的路径规划方法和装置
Badica et al. An approach of temporal difference learning using agent-oriented programming
CN113919475B (zh) 机器人技能学习的方法、装置、电子设备及存储介质
CN115879536A (zh) 一种基于因果效应的学习认知分析模型鲁棒性优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant