CN115496208A - 协同模式多样化导向的无监督多智能体强化学习方法 - Google Patents
协同模式多样化导向的无监督多智能体强化学习方法 Download PDFInfo
- Publication number
- CN115496208A CN115496208A CN202211420475.7A CN202211420475A CN115496208A CN 115496208 A CN115496208 A CN 115496208A CN 202211420475 A CN202211420475 A CN 202211420475A CN 115496208 A CN115496208 A CN 115496208A
- Authority
- CN
- China
- Prior art keywords
- collaborative
- agent
- joint
- graph
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及无监督多智能体强化学习技术领域,特别涉及一种协同模式多样化导向的无监督多智能体强化学习方法,包括:获取多智能体系统的多个联合策略网络;根据联合策略网络控制多个智能体进入协同模式,并获取在协同模型下与环境的交互数据;基于交互数据建立协同模式图,利用其计算协同模式差异;根据其对智能体的轨迹进行伪回报标注得到伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新联合策略网络,实现多智能体的强化学习。由此,解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性,且多智能体系统依赖于精心设计的环境反馈的奖励信号,导致难以有效学习到多智能体的联合策略等问题。
Description
技术领域
本申请涉及无监督多智能体强化学习技术领域,特别涉及一种协同模式多样化导向的无监督多智能体强化学习方法。
背景技术
强化学习作为一类依赖较弱的监督信号—环境反馈的奖励信号的机器学习算法,在解决序列决策问题中,展现出了出色的能力。近年来,强化学习也被应用于针对解决多智能体系统中的博弈或合作问题,发展出多智能体强化学习的研究领域。
目前,多智能体强化学习已被广泛应用于探索自动驾驶、博弈AI(如德州扑克)等多个实际应用领域。然而,强化学习算法能够使智能体达成所期望的表现,很大程度上依赖于精心设计的奖励信号,由于需要引导多个智能体学习合作关系,使得在多智能体强化学习中也变得更加具有挑战性。
相关技术中,多数无监督强化学习算法主要针对于单智能体的情形,通过鼓励智能体的不同策略分别到访具有可区分性的状态分布,来促进不同策略间的多样性,从而学习到有用的策略;使得无监督强化学习算法局限于解决单智能体的情形,在多智能体系统中,受到快速增大的状态空间和智能体之间的交互的影响,并不能很好地学习到所需要联合策略模型。
发明内容
本申请提供一种无监督多智能体强化学习方法、装置、电子设备及存储介质,以解决相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性,且多智能体系统依赖于精心设计的环境反馈的奖励信号,导致难以有效学习到多智能体的联合策略等问题。
本申请第一方面实施例提供一种无监督多智能体强化学习方法,包括以下步骤:获取多智能体系统的多个联合策略网络;根据所述多个联合策略网络中任意联合策略网络控制所述多智能体系统中多个智能体进入协同模式,并获取所述多个智能体在所述协同模型下与环境的交互数据;基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图,利用所述协同模式图计算不同联合策略网络之间的协同模式差异;根据所述协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体在每一单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到的联合策略网络,直到满足预设停止条件,停止迭代学习,实现多智能体的强化学习。
可选地,所述协同模式与所述联合策略网络对应。
可选地,所述协同模式图用于对任一状态下的智能体间的关系进行建模,其中,所述协同模式图上的每个顶点对应于多智能体系统中的一个智能体,图上无向边的权重根据协同模式对应的协同模式函数得到。
可选地,所述基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图,包括:根据所述协同模式对应的协同模式函数建立所述交互数据的协同模式图,并将所述协同模式图加入图样本池。
可选地,所述利用所述协同模式图计算不同联合策略网络之间的协同模式差异,包括:对于每一个联合策略网络,从所述联合策略网络对应的图样本池中采样得到协同模式图集合;基于所述协同模式图集合计算格罗莫夫-瓦瑟斯坦差异,利用所述格罗莫夫-瓦瑟斯坦差异构建代价矩阵,并利用预设算法求解所述代价矩阵得到不同联合策略网络之间的协同模式差异。
可选地,所述协同模式差异的定义为:
其中,和分别表示由联合策略所引导出的协同模式图,则表示协同模式图和的分布;是一个联合分布,代表能将概率质量从转移至的双射转移方案,表示是联合分布集合中的一个联合分布;表示所有边际分布分别为的联合分布集合;是格罗莫夫-瓦瑟斯坦差异,表示寻找到最优的联合分布使得其右侧表达式取到下确界。
可选地,所述格罗莫夫-瓦瑟斯坦差异的计算公式为:
其中,分别表示中的俩个测度图,表示所有测度图G的集合;是一个定义在V上的博雷尔概率测度;i,j表示不同的智能体;V是顶点的集合;是任意不小于1的实数,即;表示对测度图中所有顶点求和;表示对测度图中所有顶点求和;表示测度图中顶点i, j间的边的权值;表示测度图中顶点i', j'间的边的权值;表示将测度图中顶点i转运到测度图中顶点i';表示将测度图中顶点j转运到测度图中顶点j';表示将对应边的权值作差后取次方;
本申请第二方面实施例提供一种无监督多智能体强化学习装置,包括:获取模块,用于获取多智能体系统的多个联合策略网络;控制模块,用于根据所述多个联合策略网络中任意联合策略网络控制所述多智能体系统中多个智能体进入协同模式,并获取所述多个智能体在所述协同模型下与环境的交互数据;计算模块,用于基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图,利用所述协同模式图计算不同联合策略网络之间的协同模式差异;更新模块,用于根据所述协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体在每一单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到的联合策略网络,直到满足预设停止条件,停止迭代学习,实现多智能体的强化学习。
本申请第三方面实施例提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如上述实施例所述的无监督多智能体强化学习方法。
本申请第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如上述实施例所述的无监督多智能体强化学习方法。
由此,本申请至少具有如下有益效果:
(1)本申请实施例提出协同模式图 (SPG)和协同模式差异 (DSP) 来对多智能体系统的联合策略所表现出的协同模式之间的差异进行了刻画,从而鼓励不同的联合策略表现出更多样化的协同模式,进而更有效地学习到可用、有意义的策略模型,为在环境反馈任务相关的奖励信号时迅速适应任务目标提供了更可靠的预训练模型。
(2)本申请实施例提供一种协同模式多样化导向的无监督多智能体强化学习框架,使得依赖本申请实施例习得的一系列联合策略所导向智能体间协同关系的差异尽可能大,来对智能体间关系的空间进行充分的探索,从而使得多智能体系统能够不依赖于环境反馈的奖励信号,学习到一系列多样化的、有意义的策略。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请实施例提供的一种无监督多智能体强化学习方法的流程图;
图2为根据本申请实施例提供的协同模式多样化导向的无监督多智能体强化学习框架中物理量关系图;
图3为根据本申请实施例提供的协同模式多样化导向的无监督多智能体强化学习框架中循环示意图;
图4为根据本申请实施例的无监督多智能体强化学习装置的示例图;
图5为根据本申请实施例的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
强化学习作为一类依赖较弱的监督信号——环境反馈的奖励信号——的机器学习算法,在解决序列决策问题中,展现出了出色的能力。近年来,强化学习也被应用于针对解决多智能体系统中的博弈或合作问题,发展出多智能体强化学习的研究领域,特别地,在针对合作问题的多智能体强化学习中,每一个智能体被设定为受到感受野的限制,只能观测到当前状态的一部分特征(例如处在自己视野中的敌我智能体的信息、迷宫中自己周边的区域信息等),根据观测到的特征,各自通过策略模型计算得到动作,再一齐施加给环境,获得环境所反馈的、智能体间共享的奖励信号,如此反复与环境交互。
在多智能体强化学习中,所有智能体的目标就是最大化从环境反馈的总回报奖励。而目前多智能体强化学习已被广泛应用于探索自动驾驶、博弈AI(如德州扑克)等多个实际应用领域。然而强化学习算法是否能够使智能体达成所期望的表现,很大程度上依赖于精心设计的奖励信号,由于需要引导多个智能体学习合作关系,这个问题在多智能体强化学习中也变得更加具有挑战性。
与前述的经典强化学习相比,无监督强化学习致力于使得智能体在没有环境反馈的回报时,依旧能够学习一系列有用的策略和探索环境,当再次获得与任务相关的奖励信号时,这些策略可以被用作预训练模型来加速训练过程。
现有的多数无监督强化学习算法主要针对于单智能体的情形,通过鼓励智能体的不同策略分别到访具有可区分性的状态分布,来促进不同策略间的多样性,从而学习到有用的策略。然而对于多智能体系统而言,状态的空间大小会随着智能体的数量n上升而快速增长:O(n),其中单纯对状态分布进行区分,就已经变成一种巨大的计算代价。
同时多智能体系统中每个智能体不仅与环境交互,也与其他智能体存在互动,智能体间关系的多样性更是联合策略多样性中应该考量的主要部分,而这也是现有针对单智能体的无监督强化学习算法直接应用到多智能体系统中的局限所在。
本申请实施例提供一种在无监督强化学习条件下,通过促进协同模式的多样性,来使多智能体系统学会一系列多样化的联合策略的框架,并在本申请实施例下,无需环境的奖励信号,仅通过协同模式图 (SPG) 的模型来对每个状态下的智能体间的关系进行建模,鼓励不同联合策略引导产生的协同模式图的分布之间的差异性尽可能大,进而就能够更学习到有用的多智能体的联合策略。
下面参考附图描述本申请实施例的无监督多智能体强化学习方法、装置、车辆及存储介质。具体而言,图1为本申请实施例所提供的一种无监督多智能体强化学习方法的流程示意图。
如图1所示,该无监督多智能体强化学习方法包括以下步骤:
在步骤S101中,获取多智能体系统的多个联合策略网络。
可以理解的是,本申请实施例通过获取多智能体系统的多个联合策略网络,以便于后续根据任意联合策略网络控制智能体系统中智能体进入协同模式。
在步骤S102中,根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式,并获取多个智能体在协同模型下与环境的交互数据。
其中,协同模式是智能体间长期表现出的合作模式/关系,分工协作、联合指挥、联合行动,在此不做具体限定。
其中,协同模式与联合策略网络对应。
可以理解的是,本申请实施例根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式,并获取多个智能体在协同模型下与环境的交互数据,以便于后续基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图。
在步骤S103中,基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图,利用协同模式图计算不同联合策略网络之间的协同模式差异。
其中,协同模式图可以是描述在某个状态下,多个智能体之间关系的图,在此不做具体限定。
其中,协同模式差异是为了量化不同协同模式之间的差异,协同模式差异的定义为:
其中,和分别表示由联合策略所引导出的协同模式图,则表示协同模式图和的分布;是一个联合分布,代表能将概率质量从转移至的双射转移方案,表示是联合分布集合中的一个联合分布;表示所有边际分布分别为的联合分布集合;是格罗莫夫-瓦瑟斯坦差异,表示寻找到最优的联合分布使得其右侧表达式取到下确界。
可以理解的是,本申请实施例基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图,并利用协同模式图计算不同联合策略网络之间的协同模式差异,以便于后续根据协同模式差异对每个智能体轨迹进行伪回报标注。
在本申请实施例中,协同模式图用于对任一状态下的智能体间的关系进行建模,其中,协同模式图上的每个顶点对应于多智能体系统中的一个智能体,图上无向边的权重根据协同模式对应的协同模式函数得到。
可以理解的是,本申请实施例中协同模式图用于对任一状态下的智能体间的关系进行建模,其中每个顶点对应于多智能体系统中的一个智能体,而图上无向边的权重是根据协同模式对应的协同模式函数得到,通过对智能体件的关系使用协同模式图来建模,以刻画不同协同模式之间的差异性。
在本申请实施例中,基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图,包括:根据协同模式对应的协同模式函数建立交互数据的协同模式图,并将协同模式图加入图样本池。
可以理解的是,本申请实施例通过协同模式对应的协同模式函数建立交互数据的协同模式图,并将协同模式图加入图样本池,以便于从本联合策略得到的协同模式图与其他联合策略得到的协同模式图的分布之间,计算出协同模式差异。
在本申请实施例中,利用协同模式图计算不同联合策略网络之间的协同模式差异,包括:对于每一个联合策略网络,从联合策略网络对应的图样本池中采样得到协同模式图集合;基于协同模式图集合计算格罗莫夫-瓦瑟斯坦差异,利用格罗莫夫-瓦瑟斯坦差异构建代价矩阵,并利用预设算法求解代价矩阵得到不同联合策略网络之间的协同模式差异。
其中,格罗莫夫-瓦瑟斯坦差异是一种量化两个图之间的距离的测度,计算公式为:
其中,分别表示中的俩个测度图,表示所有测度图G的集合;是一个定义在V上的博雷尔概率测度;i,j表示不同的智能体;V是顶点的集合;是任意不小于1的实数,即;表示对测度图中所有顶点求和;表示对测度图中所有顶点求和;表示测度图中顶点i, j间的边的权值;表示测度图中顶点i', j'间的边的权值;表示将测度图中顶点i转运到测度图中顶点i';表示将测度图中顶点j转运到测度图中顶点j';表示将对应边的权值作差后取次方;
其中,预设算法可以是Sinkhorn-Knopp算法,在此不做具体限定。
可以理解的是,本申请实施例从每个联合策略网络对应的图样本池中采样得到协同模式图集合,并基于协同模式图集合计算格罗莫夫-瓦瑟斯坦差异,利用格罗莫夫-瓦瑟斯坦差异构建代价矩阵,并利用预设算法求解代价矩阵得到不同联合策略网络之间的协同模式差异,主要是通过比较一个图中的边的关系与另一个图中的边的关系,来衡量两个图之间的差异,以便于后续计算得到智能体每一单步的伪回报。
在步骤S104中,根据协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体在每一单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到的联合策略网络,直到满足预设停止条件,停止迭代学习,实现多智能体的强化学习。
其中,预设停止条件可以是联合策略网络完成给定的优化次数,在此不做具体限定。
可以理解的是,本申请实施例根据协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体的每个单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到联合策略网络,直至满足设定的条件,停止迭代学习,实现多智能体的强化学习,使得依赖本申请实施例习得的一系列联合策略所导向智能体间协同关系的差异尽可能大,来对智能体间关系的空间进行充分的探索,从而使得多智能体系统能够不依赖于环境反馈的奖励信号,学习到一系列多样化的、有意义的策略。
根据本申请实施例提出的无监督多智能体强化学习方法,通过获取多智能体系统的多个联合策略网络,然后根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式,并获取在协同模型下与环境的交互数据,基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图,并利用其计算不同联合策略网络之间的协同模式差异,根据协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体的每个单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到联合策略网络,直至满足设定的条件,停止迭代学习,实现多智能体的强化学习,使得依赖本申请实施例习得的一系列联合策略所导向智能体间协同关系的差异尽可能大,来对智能体间关系的空间进行充分的探索,从而使得多智能体系统能够不依赖于环境反馈的奖励信号,学习到一系列多样化的、有意义的策略。由此,解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性,且多智能体系统依赖于精心设计的环境反馈的奖励信号,导致难以有效学习到多智能体的联合策略等问题。
下面将结合图2和图3对无监督多智能体强化学习方法进行详细阐述,具体如下:
1、一些概念定义如下:
其中,分别表示中的俩个测度图,表示所有测度图G的集合;是一个定义在V上的博雷尔概率测度;i,j表示不同的智能体;V是顶点的集合;是任意不小于1的实数,即;表示对测度图中所有顶点求和;表示对测度图中所有顶点求和;表示测度图中顶点i, j间的边的权值;表示测度图中顶点i', j'间的边的权值;表示将测度图中顶点i转运到测度图中顶点i';表示将测度图中顶点j转运到测度图中顶点j';表示将对应边的权值作差后取次方;
总体上,GWD(格罗莫夫-瓦瑟斯坦差异)通过比较一个图中的边的关系与另一个图中的边的关系,来衡量两个图之间的差异。对(1)式求解可以使用Sinkhorn-Knopp 算法进行迭代求解,GWD被本申请实施例所采用来计算两个协同模式图 (SPG) 之间的距离。
本申请实施例中提出协同模式图,(后文中将简写为)来对任一状态下的智能体间的关系进行建模,其中图上的每个顶点vi∈V对应于多智能体系统中的一个智能体i,图上无向边的权重则是根据给定的协同模式函数得到,其中分别是智能体的该条轨迹中的历史观测值,是轨迹的空间,表示由俩个轨迹空间张成的空间;表示正实数域。
其中,和分别表示由联合策略所引导出的协同模式图,则表示协同模式图和的分布;是一个联合分布,代表能将概率质量从转移至的双射转移方案,表示是联合分布集合中的一个联合分布;表示所有边际分布分别为的联合分布集合;是格罗莫夫-瓦瑟斯坦差异,表示寻找到最优的联合分布使得其右侧表达式取到下确界。
2、本申请实施例的框架具体实施方案(如图2和图3所示):
首先初始化一系列联合策略网络,其中Z是目标学习到的联合策略网络的数量,表示以为参数的联合策略,k表示第k组网络参数。相应的,初始化一系列空的图样本池和经验回放样本池,而后在达到预设的迭代次数前,重复如下步骤1-5,示意图如图3所示。
步骤1、选取特定联合策略网络
步骤2、多智能体系统与环境交互获取数据
步骤3、计算联合策略两两之间的DSP
使用Sinkhorn-Knopp 算法求解(1)式中的最优转运方案T得到,进而得到代价矩阵,其中,0≤t1≤B1,0≤t2≤B2,其中,B1≤B2,且分别是两个SPG集合的元素数量。其中,表示由策略导出的在t1步的协同模式图;表示由策略导出的在t2步的协同模式图;表示策略导出的协同模式图的集合;表示策略导出的协同模式图的集合。
步骤4、对轨迹进行伪回报的标注
其中,表示策略导出的轨迹;表示由其他所有策略各自导出的轨迹集合;表示策略导出的第t步的协同模式图;表示由策略导出的第步的协同模式图;表示策略导出的协同模式图的集合;表示策略导出的协同模式图的集合。由 (1)式得到。
步骤5、训练多智能体系统的联合策略网络
在具体实施中,本申请实施例对多智能体强化学习算法并没有严格的限制,并在实验中使用QMIX算法进行了验证。
综上,本申请实施例提供的方法则提出协同模式图 (SPG)和协同模式差异 (DSP)来对多智能体系统的联合策略所表现出的协同模式之间的差异进行了刻画,从而鼓励不同的联合策略表现出更多样化的协同模式,进而更有效地学习到可用、有意义的策略模型,为在环境反馈任务相关的奖励信号时迅速适应任务目标提供了更可靠的预训练模型。
其次参照附图描述根据本申请实施例提出的无监督多智能体强化学习装置。
图4是本申请实施例的无监督多智能体强化学习装置的方框示意图。
如图4所示,该无监督多智能体强化学习装置10包括:获取模块100、控制模块200、计算模块300和更新模块400。
其中,获取模块100用于获取多智能体系统的多个联合策略网络;控制模块200用于根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式,并获取多个智能体在协同模型下与环境的交互数据;计算模块300用于基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图,利用协同模式图计算不同联合策略网络之间的协同模式差异;更新模块400用于根据协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体在每一单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到的联合策略网络,直到满足预设停止条件,停止迭代学习,实现多智能体的强化学习。
需要说明的是,前述对无监督多智能体强化学习方法实施例的解释说明也适用于该实施例的无监督多智能体强化学习装置,此处不再赘述。
根据本申请实施例提出的无监督多智能体强化学习装置,通过获取多智能体系统的多个联合策略网络,然后根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式,并获取在协同模型下与环境的交互数据,基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图,并利用其计算不同联合策略网络之间的协同模式差异,根据协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体的每个单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到联合策略网络,直至满足设定的条件,停止迭代学习,实现多智能体的强化学习,使得依赖本申请实施例习得的一系列联合策略所导向智能体间协同关系的差异尽可能大,来对智能体间关系的空间进行充分的探索,从而使得多智能体系统能够不依赖于环境反馈的奖励信号,学习到一系列多样化的、有意义的策略。由此,解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性,且多智能体系统依赖于精心设计的环境反馈的奖励信号,导致难以有效学习到多智能体的联合策略等问题。
图5为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括:
存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。
处理器502执行程序时实现上述实施例中提供的无监督多智能体强化学习方法。
进一步地,电子设备还包括:
通信接口503,用于存储器501和处理器502之间的通信。
存储器501,用于存放可在处理器502上运行的计算机程序。
存储器501可能包含高速RAM(Random Access Memory,随机存取存储器)存储器,也可能还包括非易失性存储器,例如至少一个磁盘存储器。
如果存储器501、处理器502和通信接口503独立实现,则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral Component,外部设备互连)总线或EISA(Extended Industry Standard Architecture,扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器501、处理器502及通信接口503,集成在一块芯片上实现,则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。
处理器502可能是一个CPU(Central Processing Unit,中央处理器),或者是ASIC(Application Specific Integrated Circuit,特定集成电路),或者是被配置成实施本申请实施例的一个或多个集成电路。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上的无监督多智能体强化学习方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列,现场可编程门阵列等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种无监督多智能体强化学习方法,其特征在于,包括以下步骤:
获取多智能体系统的多个联合策略网络;
根据所述多个联合策略网络中任意联合策略网络控制所述多智能体系统中多个智能体进入协同模式,并获取所述多个智能体在所述协同模型下与环境的交互数据;
基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图,利用所述协同模式图计算不同联合策略网络之间的协同模式差异;
根据所述协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体在每一单步的伪回报,并从经验回放样本池中采样获得完成伪回报标注的样本,通过梯度反向传播来更新多智能体系统学习得到的联合策略网络,直到满足预设停止条件,停止迭代学习,实现多智能体的强化学习。
2.根据权利要求1所述的方法,其特征在于,所述协同模式与所述联合策略网络对应。
3.根据权利要求1所述的方法,其特征在于,所述协同模式图用于对任一状态下的智能体间的关系进行建模,其中,所述协同模式图上的每个顶点对应于多智能体系统中的一个智能体,图上无向边的权重根据协同模式对应的协同模式函数得到。
4.根据权利要求1所述的方法,其特征在于,所述基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图,包括:
根据所述协同模式对应的协同模式函数建立所述交互数据的协同模式图,并将所述协同模式图加入图样本池。
5.根据权利要求4所述的方法,其特征在于,所述利用所述协同模式图计算不同联合策略网络之间的协同模式差异,包括:
对于每一个联合策略网络,从所述联合策略网络对应的图样本池中采样得到协同模式图集合;
基于所述协同模式图集合计算格罗莫夫-瓦瑟斯坦差异,利用所述格罗莫夫-瓦瑟斯坦差异构建代价矩阵,并利用预设算法求解所述代价矩阵得到不同联合策略网络之间的协同模式差异。
7.根据权利要求6所述的方法,其特征在于,所述格罗莫夫-瓦瑟斯坦差异的计算公式为:
其中,分别表示中的俩个测度图,表示所有测度图G的集合;是一个定义在V上的博雷尔概率测度;i,j表示不同的智能体;V是顶点的集合;是任意不小于1的实数,即;表示对测度图中所有顶点求和;表示对测度图中所有顶点求和;表示测度图中顶点i, j间的边的权值;表示测度图中顶点i', j'间的边的权值;表示将测度图中顶点i转运到测度图中顶点i';表示将测度图中顶点j转运到测度图中顶点j';表示将对应边的权值作差后取次方;
8.一种无监督多智能体强化学习装置,其特征在于,包括:
获取模块,用于获取多智能体系统的多个联合策略网络;
控制模块,用于根据所述多个联合策略网络中任意联合策略网络控制所述多智能体系统中多个智能体进入协同模式,并获取所述多个智能体在所述协同模型下与环境的交互数据;
计算模块,用于基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图,利用所述协同模式图计算不同联合策略网络之间的协同模式差异;
更新模块,用于根据所述协同模式差异对每个智能体的轨迹进行伪回报标注,得到每个智能体在每一单步的伪回报,并从经验回放样本池中采样,通过梯度反向传播来更新多智能体系统学习得到的联合策略网络,直到满足预设停止条件,停止迭代学习,实现多智能体的强化学习。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-7任一项所述的无监督多智能体强化学习方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-7任一项所述的无监督多智能体强化学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211420475.7A CN115496208B (zh) | 2022-11-15 | 2022-11-15 | 协同模式多样化导向的无监督多智能体强化学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211420475.7A CN115496208B (zh) | 2022-11-15 | 2022-11-15 | 协同模式多样化导向的无监督多智能体强化学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115496208A true CN115496208A (zh) | 2022-12-20 |
CN115496208B CN115496208B (zh) | 2023-04-18 |
Family
ID=85115616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211420475.7A Active CN115496208B (zh) | 2022-11-15 | 2022-11-15 | 协同模式多样化导向的无监督多智能体强化学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115496208B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200090048A1 (en) * | 2017-05-19 | 2020-03-19 | Deepmind Technologies Limited | Multi-task neural network systems with task-specific policies and a shared policy |
CN111367657A (zh) * | 2020-02-21 | 2020-07-03 | 重庆邮电大学 | 一种基于深度强化学习的计算资源协同合作方法 |
CN111552754A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种舰船轨迹相似度度量方法及系统 |
CN113095488A (zh) * | 2021-04-29 | 2021-07-09 | 电子科技大学 | 一种基于多智能体最大熵强化学习的合作博弈方法 |
WO2021208771A1 (zh) * | 2020-04-18 | 2021-10-21 | 华为技术有限公司 | 强化学习的方法和装置 |
CN113919485A (zh) * | 2021-10-19 | 2022-01-11 | 西安交通大学 | 基于动态层级通信网络的多智能体强化学习方法及系统 |
CN114219066A (zh) * | 2021-10-29 | 2022-03-22 | 清华大学 | 基于瓦瑟斯坦距离的无监督强化学习方法及装置 |
CN114615744A (zh) * | 2022-02-28 | 2022-06-10 | 湖北工业大学 | 一种知识迁移强化学习网络切片通感算资源协同优化方法 |
CN115130376A (zh) * | 2022-06-21 | 2022-09-30 | 大连理工大学 | 一种基于行列式多样性引导的群体强化学习训练方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880955B (zh) * | 2022-07-05 | 2022-09-20 | 中国人民解放军国防科技大学 | 基于强化学习的兵棋多实体异步协同决策方法和装置 |
-
2022
- 2022-11-15 CN CN202211420475.7A patent/CN115496208B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200090048A1 (en) * | 2017-05-19 | 2020-03-19 | Deepmind Technologies Limited | Multi-task neural network systems with task-specific policies and a shared policy |
CN111367657A (zh) * | 2020-02-21 | 2020-07-03 | 重庆邮电大学 | 一种基于深度强化学习的计算资源协同合作方法 |
WO2021208771A1 (zh) * | 2020-04-18 | 2021-10-21 | 华为技术有限公司 | 强化学习的方法和装置 |
CN111552754A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种舰船轨迹相似度度量方法及系统 |
CN113095488A (zh) * | 2021-04-29 | 2021-07-09 | 电子科技大学 | 一种基于多智能体最大熵强化学习的合作博弈方法 |
CN113919485A (zh) * | 2021-10-19 | 2022-01-11 | 西安交通大学 | 基于动态层级通信网络的多智能体强化学习方法及系统 |
CN114219066A (zh) * | 2021-10-29 | 2022-03-22 | 清华大学 | 基于瓦瑟斯坦距离的无监督强化学习方法及装置 |
CN114615744A (zh) * | 2022-02-28 | 2022-06-10 | 湖北工业大学 | 一种知识迁移强化学习网络切片通感算资源协同优化方法 |
CN115130376A (zh) * | 2022-06-21 | 2022-09-30 | 大连理工大学 | 一种基于行列式多样性引导的群体强化学习训练方法 |
Non-Patent Citations (3)
Title |
---|
HONGTENG XU: "《Representing Graphs via Gromov-Wasserstein Factorization》", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
李文浩: "去中心化多智能体强化学习算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
陈鑫等: "基于高斯回归的连续空间多智能体跟踪学习", 《自动化学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115496208B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3605334A1 (en) | Incentive control for multi-agent systems | |
CN110442129B (zh) | 一种多智能体编队的控制方法和系统 | |
CN108665065B (zh) | 任务数据的处理方法、装置、设备和存储介质 | |
CN111898770B (zh) | 一种多智能体强化学习方法、电子设备及存储介质 | |
CN114415735B (zh) | 面向动态环境的多无人机分布式智能任务分配方法 | |
CN114139637A (zh) | 多智能体信息融合方法、装置、电子设备及可读存储介质 | |
Wöhlke et al. | A performance-based start state curriculum framework for reinforcement learning | |
CN115169519A (zh) | 一种仿生鱼体自主智能游动模拟方法、装置及系统 | |
CN108460462A (zh) | 一种基于区间参数优化的区间神经网络学习方法 | |
CN112084721A (zh) | 一种多代理强化学习合作任务下的奖励函数建模方法 | |
CN113962390A (zh) | 基于深度强化学习网络构建多样化搜索策略的模型的方法 | |
CN113778619A (zh) | 多集群博弈的多智能体状态控制方法、装置及终端 | |
CN102968663A (zh) | 基于无标记样本的神经网络构建方法及其装置 | |
CN114781248A (zh) | 基于状态偏移矫正的离线强化学习方法及装置 | |
CN112465148A (zh) | 一种多智能体系统的网络参数更新方法、装置及终端设备 | |
CN114219066A (zh) | 基于瓦瑟斯坦距离的无监督强化学习方法及装置 | |
Vidal | Learning in multiagent systems: An introduction from a game-theoretic perspective | |
CN115496208B (zh) | 协同模式多样化导向的无监督多智能体强化学习方法 | |
CN111967199A (zh) | 一种强化学习多代理合作任务下的代理贡献分配的方法 | |
CN117540203A (zh) | 一种集群机器人合作导航的多向课程学习训练方法及装置 | |
CN117273057A (zh) | 基于强化学习的多智能体协同对抗决策方法及装置 | |
CN111811532A (zh) | 基于脉冲神经网络的路径规划方法和装置 | |
Badica et al. | An approach of temporal difference learning using agent-oriented programming | |
CN113919475B (zh) | 机器人技能学习的方法、装置、电子设备及存储介质 | |
CN115879536A (zh) | 一种基于因果效应的学习认知分析模型鲁棒性优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |