CN112101564A - 基于注意力机制的多智能体值函数分解方法及装置 - Google Patents
基于注意力机制的多智能体值函数分解方法及装置 Download PDFInfo
- Publication number
- CN112101564A CN112101564A CN202010824845.8A CN202010824845A CN112101564A CN 112101564 A CN112101564 A CN 112101564A CN 202010824845 A CN202010824845 A CN 202010824845A CN 112101564 A CN112101564 A CN 112101564A
- Authority
- CN
- China
- Prior art keywords
- network
- agent
- value
- qmix
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 53
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000006870 function Effects 0.000 claims abstract description 99
- 230000009471 action Effects 0.000 claims abstract description 42
- 230000008569 process Effects 0.000 claims abstract description 16
- 101000606504 Drosophila melanogaster Tyrosine-protein kinase-like otk Proteins 0.000 claims abstract description 12
- 238000004088 simulation Methods 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 239000003795 chemical substances by application Substances 0.000 claims description 260
- 239000000872 buffer Substances 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000003094 perturbing effect Effects 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 6
- 230000004913 activation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002079 cooperative effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种连续动作控制下基于注意力机制的多智能体值函数分解方法及装置,该方法包括:获取多个智能体决策下的状态轨迹;构建注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于注意力机制学习值函数分解的多智能体算法。
Description
技术领域
本发明涉及机器学习技术领域,特别涉及一种连续动作控制下基于注意力机制的多智能体值函数分解方法及装置。
背景技术
最近几年,强化学习在很多领域取得重大突破,例如围棋、星际争霸、Dota2等大规模策略优化问题。与目前流行的大多数单智能体强化学习算法不同,真实世界常常是多个智能体在动态变化的环境中相互竞争或合作的,因此智能体需要在适应多智能体环境的同时,学习与环境中其它智能体的交互。在多智能体控制算法中,值函数设计的环节具有十分关键的地位。由于值函数是一条样本轨道的奖励之和,因此有效的值函数设计可以加速多智能体学习。
目前基于值函数的多智能体算法主要有三类:独立值函数,中心值函数,分解值函数。其中,独立值函数学习算法将多个智能体单独训练,并最大化自己的值函数,是最简单的值函数学习算法。但是由于单个智能体的环境是动态非平稳的,因此这种方法违背了强化学习的基本假设。相较而言,中心值函数在计算单个智能体的状态动作值函数时考虑了其它智能体的动作,并在连续动作控制场景下超越了其它传统多智能体算法的性能,这种算法具有更强的鲁棒性。然而,由于多智能体合作环境为多人博弈场景,中心值函数的设计忽略了单个值函数的性质,其在复杂合作场景下性能欠佳。
将多个智能体的中心值函数进行分解是目前多智能体值函数学习的主流算法,具有代表性的算法为QMIX算法,该算法在基于全局状态信息的条件下,将各个智能体的值函数融合,并保证总体值函数相对于单个智能体的值函数是单调的。这种算法在复杂离散动作控制场景下取得了突出的效果。现实世界中多个智能体之间是相互影响的,在合作场景下多智能体间的Q值相对于总体值函数应当是单调的,而QMIX算法只考虑总体值函数相对于单个智能体的值函数的单调性,忽略了多智能体间Q值信息,缺乏一些探索性和合作性。同时,QMIX算法仅适用于离散动作控制的环境,而现实中的大多数多智能体环境是连续动作控制的。因此,如何将多智能体间的Q值与单个智能体的Q值有效结合,并应用在连续动作控制下的多智能体环境中具有一定的挑战性。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种连续动作控制下基于注意力机制的多智能体值函数分解方法,该方法设计出一种利用多智能体连续控制量下的状态轨迹在仿真环境中学习连续动作控制的值函数分解算法。
本发明的另一个目的在于提出一种连续动作控制下基于注意力机制的多智能体值函数分解装置。
为达到上述目的,本发明一方面实施例提出了一种连续动作控制下基于注意力机制的多智能体值函数分解方法,包括以下步骤:步骤S1:获取多个智能体决策下的状态轨迹;步骤S2:构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;步骤S3:基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对所述Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;步骤S4:根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
本发明实施例的连续动作控制下基于注意力机制的多智能体值函数分解方法,通过从工业应用与算法研究实际需要出发,研究基于注意力机制的多智能体值函数分解方法,并结合离轨策略学习算法DDPG,设计出一种利用多智能体连续控制量下的状态轨迹在仿真环境中学习连续动作控制的值函数分解算法。
另外,根据本发明上述实施例的连续动作控制下基于注意力机制的多智能体值函数分解方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述步骤S1,包括:根据应用场景设计部分观测仿真器,通过所述仿真器与所述应用场景进行交互得到所述应用场景下一时刻的观测状态。
进一步地,在本发明的一个实施例中,所述步骤S3,包括:
步骤S31,初始化所述仿真环境env、所述Attention注意力机制网络Attentionψ、所述各个智能体主值网络Qi、所述各个智能体主策略网络πi、所述QMIX主值网络QMIX、所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′;
步骤S32,在当前状态依据策略选取动作并转移到下一状态并得到当前时刻的奖励值rt,根据当前状态ot、当前动作at、当前时刻的奖励值rt和下一状态ot+1组成四元组(ot,at,rt,ot+1),并将所述四元组存储进生成数据缓存器Bπ;
步骤S33,在所述生成数据缓存器Bπ中的数据量达到预设数据量阈值后,每个时间步取出部分数据对所述Attention注意力机制网络、所述各个智能体主值网络、所述QMIX主值网络进行更新;
步骤S34,每隔预设时间利用确定性策略梯度对所述各个智能体主策略网络进行更新,并对所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′的参数进行软更新。
进一步地,在本发明的一个实施例中,所述步骤S33,包括:
S331,依据各个智能体的策略网络π′i和随机扰动选择下一时刻的动作:
进一步地,在本发明的一个实施例中,在所述步骤S34中,所述各个智能体主策略网络的更新方式为:
其中,k为计算梯度所用的样本编号,为对智能体i所选择的动作ai求梯度,为智能体i的值函数,ai为智能体i所选择的动作,a-i为除智能体i外的其它智能体所选择的动作,为对智能体i的策略网络求导,φi为智能体i的策略网络,oi为智能体i的观测。
进一步地,在本发明的一个实施例中,所述对所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′的参数的更新方式为:
φ′′←τφi+(1-τ)φ′i,
θ′i←τθi+(1-τ)θ′i,
其中,τ是超参数,用于控制从主网络更新副网络参数的程度。
进一步地,在本发明的一个实施例中,所述步骤S332进一步包括:
进一步地,在本发明的一个实施例中,还包括:将所述状态轨迹存入数据缓存器。
为达到上述目的,本发明另一方面实施例提出了一种连续动作控制下基于注意力机制的多智能体值函数分解装置,包括:获取模块,用于获取多个智能体决策下的状态轨迹;构建模块,用于构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;更新模块,用于基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对所述Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;生成模块,用于根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
本发明实施例的连续动作控制下基于注意力机制的多智能体值函数分解装置,通过从工业应用与算法研究实际需要出发,研究基于注意力机制的多智能体值函数分解方法,并结合离轨策略学习算法DDPG,设计出一种利用多智能体连续控制量下的状态轨迹在仿真环境中学习连续动作控制的值函数分解算法。
另外,根据本发明上述实施例的连续动作控制下基于注意力机制的多智能体值函数分解装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述获取模块进一步用于将所述状态轨迹存入数据缓存器。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的连续动作控制下基于注意力机制的多智能体值函数分解方法流程图;
图2为根据本发明实施例的连续动作控制下基于注意力机制的多智能体值函数分解方法流程框图;
图3为根据本发明实施例的环境的具体场景图;
图4为根据本发明实施例的训练过程图像;
图5为根据本发明实施例的连续动作控制下基于注意力机制的多智能体值函数分解装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的连续动作控制下基于注意力机制的多智能体值函数分解方法及装置,首先将参照附图描述根据本发明实施例提出的连续动作控制下基于注意力机制的多智能体值函数分解方法。
图1是本发明一个实施例的连续动作控制下基于注意力机制的多智能体值函数分解方法的流程图。
如图1所示,该连续动作控制下基于注意力机制的多智能体值函数分解方法包括以下步骤:
步骤S1:获取多个智能体决策下的状态轨迹。
具体地,如图2所示,获取多个智能体决策下的状态轨迹,并存入相应的数据缓存器中。根据应用场景设计部分观测仿真器,通过仿真器与应用场景进行交互得到训练时所需的数据。仿真器的输入是当前时刻各个智能体的动作输出返回的是环境下一时刻的观测状态
步骤S2:构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络。
具体地,如图2所示,构建参数为θi的各个智能体的主值网络Qi、参数为φi的各个智能体的主策略网络πi,参数为的QMIX主值网络,参数为ψ的Attention注意力机制网络,参数为θ′i的各个智能体的副值网络Q′i、参数为φ′i的各个智能体的副策略网络π′i,参数为的QMIX副值网络。
步骤S3:基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新。
可以理解的是,如图2所示,基于状态轨迹和离轨策略算法的多智能体值函数分解过程。各个智能体使用主策略网络πi与仿真环境进行交互,将四元组(ot,at,rt,ot+1)存入到缓存器Bπ中。通过值函数分解过程,步骤S2中的各个智能体的演员、评论家网络,QMIX混合网络和Attention注意力机制网络的参数持续更新。当训练进程收敛时,QMIX混合网络和Attention注意力机制网络在充分利用智能体自己的值函数信息和智能体间的值函数信息的条件下,已经可以很好地分解多智能体的整体值函数。
值函数分解过程的具体步骤为:
S31,初始化仿真环境env、Attention注意力机制网络Attentionψ、各个智能体主值网络Qi、各个智能体主策略网络πi、QMIX主值网络QMIX、各个智能体副值网络Q′i、各个智能体副策略网络π′i、QMIX副值网络QMIX′;
S32,在当前状态依据策略选取动作并转移到下一状态并得到当前时刻的奖励值rt,根据当前状态ot、当前动作at、当前时刻的奖励值rt和下一状态ot+1组成四元组(ot,at,rt,ot+1),并将四元组存储进生成数据缓存器Bπ;
S33,在生成数据缓存器Bπ中的数据量达到预设数据量阈值buffer_size后,每个时间步取出部分数据对Attention注意力机制网络、各个智能体主值网络、QMIX主值网络进行更新;
对各个智能体的主值网络Qi,QMIX混合网络,Attention注意力机制网络进行参数更新的过程如下:
S331,依据各个智能体的策略网络π′i和随机扰动选择下一时刻的动作:
首先计算除智能体i外,其它智能体值函数的加权和:
S34,每隔预设时间T利用确定性策略梯度对各个智能体主策略网络进行更新,并对各个智能体副值网络Q′i、各个智能体副策略网络π′i、QMIX副值网络QMIX′的参数进行软更新。
对各个智能体主策略网络进行更新包括:
其中,k为计算梯度所用的样本编号,为对智能体i所选择的动作ai求梯度,为智能体i的值函数,ai为智能体i所选择的动作,a-i为除智能体i外的其它智能体所选择的动作,为对智能体i的策略网络求导,φi为智能体i的策略网络,oi为智能体i的观测;
对各个智能体副值网络Q′i、各个智能体副策略网络π′i、QMIX副值网络QMIX′的参数进行软更新:
φ′i←τφi+(1-τ)φ′i
θ′i←τθi+(1-τ)θ′i
其中,τ是超参数,用于控制从主网络更新副网络参数的程度。
步骤S4:根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
具体地,如图2所示,在与环境的交互次数达到预设次数时,结束训练过程生成更新后的策略模型。其中,预设次数可以根据实际情况进行设置,在此不做具体限定,比如2M次,M为正整数。
下面通过具体的实施例对发明的基于状态轨迹和离轨策略算法的多智能体值函数分解学习方法进行详细说明。
对于一个高维连续控制任务,该任务的目的是控制三个智能体捕获一个随机游走的智能体,算法所控制的智能体速度较慢,随机游走的智能体速度较快,在该环境中还有两个不动的障碍物,图3是该环境的具体场景。对于该仿真环境中要控制的智能体而言,输入是16维状态量,输出动作是连续的5维变量。在所提出的基于状态轨迹和离轨策略算法的多智能体值函数分解算法中,各个智能体的策略网络包含三层隐藏层,结点数分别为64,64,64,激活函数为relu;各个智能体的值网络的嵌入层包含一层隐藏层,结点数为64,激活函数为relu;QMIX混合网络包含两层隐藏层,结点数为32,32,激活函数为relu;Attention注意力机制网络中的Query,Key,Value层各包含一层隐藏层,结点数为64,激活函数为relu。以上各个网络的参数都通过Adam优化器进行优化。
值函数分解过程中使用到的其他超参数如下表所示:
在Simple_tag环境中,中心化值函数策略MADDPG策略评估得分为700,而相比之下的基于注意力机制的多智能体值函数分解算法策略评估得分为1200,绘制出的图像如图4所示。从图4中可以看到基于注意力机制的多智能体值函数分解算法在2000个episode后性能大幅度提高,策略评估得分很快到达1100分以上。
根据本发明实施例提出的基于注意力机制的多智能体值函数分解方法,通过从工业应用与算法研究实际需要出发,研究基于状态轨迹的值函数分解过程,并结合离轨策略学习算法DDPG,设计出一种连续动作控制下基于注意力机制的多智能体值函数分解算法。
其次参照附图描述根据本发明实施例提出的连续动作控制下基于注意力机制的多智能体值函数分解装置。
图5为根据本发明一个实施例的连续动作控制下基于注意力机制的多智能体值函数分解装置结构示意图。
如图5所示,该连续动作控制下基于注意力机制的多智能体值函数分解装置10包括:获取模块100、构建模块200、更新模块300和生成模块400。
其中,获取模块100,获取多个智能体决策下的状态轨迹,将状态轨迹存入专家数据缓存器。
构建模块200,用于构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络。
更新模块300,用于基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新。
生成模块400,用于根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
需要说明的是,前述对基于注意力机制的多智能体值函数分解方法实施例的解释说明也适用于该实施例的基于注意力机制的多智能体值函数分解装置,此处不再赘述。
根据本发明实施例提出的基于注意力机制的多智能体值函数分解装置,通过从工业应用与算法研究实际需要出发,研究基于状态轨迹的值函数分解过程,并结合离轨策略学习算法DDPG,设计出一种连续动作控制下基于注意力机制的多智能体值函数分解算法。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种连续动作控制下基于注意力机制的多智能体值函数分解方法,其特征在于,包括以下步骤:
步骤S1:获取多个智能体决策下的状态轨迹;
步骤S2:构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;
步骤S3:基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对所述Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;以及
步骤S4:根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1,包括:
根据应用场景设计部分观测仿真器,通过所述仿真器与所述应用场景进行交互得到所述应用场景下一时刻的观测状态。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3,包括:
步骤S31,初始化所述仿真环境env、所述Attention注意力机制网络Attentionψ、所述各个智能体主值网络Qi、所述各个智能体主策略网络πi、所述QMIX主值网络QMIX、所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′;
步骤S32,在当前状态依据策略选取动作并转移到下一状态并得到当前时刻的奖励值rt,根据当前状态ot、当前动作at、当前时刻的奖励值rt和下一状态ot+1组成四元组(ot,at,rt,ot+1),并将所述四元组存储进生成数据缓存器Bπ;
步骤S33,在所述生成数据缓存器Bπ中的数据量达到预设数据量阈值后,每个时间步取出部分数据对所述Attention注意力机制网络、所述各个智能体主值网络、所述QMIX主值网络进行更新;
步骤S34,每隔预设时间利用确定性策略梯度对所述各个智能体主策略网络进行更新,并对所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′的参数进行软更新。
4.根据权利要求3所述的方法,其特征在于,所述步骤S33,包括:
S331,依据各个智能体的策略网络π′i和随机扰动选择下一时刻的动作:
8.根据权利要求1-7任意一项所述的基于注意力机制的多智能体值函数分解方法,其特征在于,还包括:
将所述状态轨迹存入数据缓存器。
9.一种连续动作控制下基于注意力机制的多智能体值函数分解装置,其特征在于,包括:
获取模块,用于获取多个智能体决策下的状态轨迹;
构建模块,用于构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;
更新模块,用于基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对所述Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;以及
生成模块,用于根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
10.根据权利要求9所述的基于注意力机制的多智能体值函数分解装置,其特征在于,所述获取模块进一步用于将所述状态轨迹存入数据缓存器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010824845.8A CN112101564B (zh) | 2020-08-17 | 2020-08-17 | 基于注意力机制的多智能体值函数分解方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010824845.8A CN112101564B (zh) | 2020-08-17 | 2020-08-17 | 基于注意力机制的多智能体值函数分解方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101564A true CN112101564A (zh) | 2020-12-18 |
CN112101564B CN112101564B (zh) | 2024-09-06 |
Family
ID=73753013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010824845.8A Active CN112101564B (zh) | 2020-08-17 | 2020-08-17 | 基于注意力机制的多智能体值函数分解方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101564B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313267A (zh) * | 2021-06-28 | 2021-08-27 | 浙江大学 | 一种基于值分解和注意力机制的多智能体强化学习方法 |
CN114004370A (zh) * | 2021-12-28 | 2022-02-01 | 中国科学院自动化研究所 | 基于深度强化学习网络构建对区域敏感的模型的方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170176994A1 (en) * | 2015-12-21 | 2017-06-22 | Disney Enterprises, Inc. | Method and device for multi-agent path planning |
CN109347149A (zh) * | 2018-09-20 | 2019-02-15 | 国网河南省电力公司电力科学研究院 | 基于深度q值网络强化学习的微电网储能调度方法及装置 |
CN109978176A (zh) * | 2019-03-05 | 2019-07-05 | 华南理工大学 | 一种基于状态动态感知的多智能体合作学习方法 |
CN111079305A (zh) * | 2019-12-27 | 2020-04-28 | 南京航空航天大学 | 一种基于λ-回报的异策略多智能体强化学习协作方法 |
CN111105034A (zh) * | 2019-12-24 | 2020-05-05 | 中国科学院自动化研究所 | 基于反事实回报的多智能体深度强化学习方法、系统 |
US20200160168A1 (en) * | 2018-11-16 | 2020-05-21 | Honda Motor Co., Ltd. | Cooperative multi-goal, multi-agent, multi-stage reinforcement learning |
CN111260027A (zh) * | 2020-01-10 | 2020-06-09 | 电子科技大学 | 一种基于强化学习的智能体自动决策方法 |
CN111488988A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 基于对抗学习的控制策略模仿学习方法及装置 |
-
2020
- 2020-08-17 CN CN202010824845.8A patent/CN112101564B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170176994A1 (en) * | 2015-12-21 | 2017-06-22 | Disney Enterprises, Inc. | Method and device for multi-agent path planning |
CN109347149A (zh) * | 2018-09-20 | 2019-02-15 | 国网河南省电力公司电力科学研究院 | 基于深度q值网络强化学习的微电网储能调度方法及装置 |
US20200160168A1 (en) * | 2018-11-16 | 2020-05-21 | Honda Motor Co., Ltd. | Cooperative multi-goal, multi-agent, multi-stage reinforcement learning |
CN109978176A (zh) * | 2019-03-05 | 2019-07-05 | 华南理工大学 | 一种基于状态动态感知的多智能体合作学习方法 |
CN111105034A (zh) * | 2019-12-24 | 2020-05-05 | 中国科学院自动化研究所 | 基于反事实回报的多智能体深度强化学习方法、系统 |
CN111079305A (zh) * | 2019-12-27 | 2020-04-28 | 南京航空航天大学 | 一种基于λ-回报的异策略多智能体强化学习协作方法 |
CN111260027A (zh) * | 2020-01-10 | 2020-06-09 | 电子科技大学 | 一种基于强化学习的智能体自动决策方法 |
CN111488988A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 基于对抗学习的控制策略模仿学习方法及装置 |
Non-Patent Citations (5)
Title |
---|
ALEKSANDRA MALYSHEVA 等: ""MAGNet: Multi-agent Graph Network for Deep Multi-agent Reinforcement Learning"", 2019 XVI INTERNATIONAL SYMPOSIUM "PROBLEMS OF REDUNDANCY IN INFORMATION AND CONTROL SYSTEMS" (REDUNDANCY), 20 February 2020 (2020-02-20) * |
T. RASHID 等: ""Qmix: Monotonic value function factorisation for deep multiagent reinforcement learning"", PROCEEDINGS OF THE 35TH INTERNATIONAL CONFERENCE MACHINE LEARNING》, 31 December 2018 (2018-12-31) * |
林安亚;凌青;: "多智能体网络中的分布式动态一致平均算法", 电子技术, no. 06, 25 June 2016 (2016-06-25) * |
潘莹;李德华;梁京章;王俊英;: "基于实用推理的多智能体协作强化学习算法", 华中科技大学学报(自然科学版), no. 04, 15 April 2010 (2010-04-15) * |
连传强;徐昕;吴军;李兆斌;: "面向资源分配问题的Q-CF多智能体强化学习", 智能系统学报, no. 02, 15 April 2011 (2011-04-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313267A (zh) * | 2021-06-28 | 2021-08-27 | 浙江大学 | 一种基于值分解和注意力机制的多智能体强化学习方法 |
CN113313267B (zh) * | 2021-06-28 | 2023-12-08 | 浙江大学 | 一种基于值分解和注意力机制的多智能体强化学习方法 |
CN114004370A (zh) * | 2021-12-28 | 2022-02-01 | 中国科学院自动化研究所 | 基于深度强化学习网络构建对区域敏感的模型的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112101564B (zh) | 2024-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Du et al. | A survey on multi-agent deep reinforcement learning: from the perspective of challenges and applications | |
Ding et al. | Challenges of reinforcement learning | |
CN112132263B (zh) | 一种基于强化学习的多智能体自主导航方法 | |
CN111856925A (zh) | 基于状态轨迹的对抗式模仿学习方法及装置 | |
CN109740741B (zh) | 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法 | |
CN112101564A (zh) | 基于注意力机制的多智能体值函数分解方法及装置 | |
CN113095488A (zh) | 一种基于多智能体最大熵强化学习的合作博弈方法 | |
CN112990485A (zh) | 基于强化学习的知识策略选择方法与装置 | |
CN113379027A (zh) | 一种生成对抗交互模仿学习方法、系统、存储介质及应用 | |
CN105512755A (zh) | 一种基于分解的多目标分布估计优化方法 | |
Park et al. | Quantum multi-agent reinforcement learning for autonomous mobility cooperation | |
Krichen | Deep reinforcement learning | |
Xu et al. | Living with artificial intelligence: A paradigm shift toward future network traffic control | |
CN116167415A (zh) | 一种多智能体协同及对抗中的策略决策方法 | |
Madni et al. | Augmenting MBSE with Digital Twin Technology: Implementation, Analysis, Preliminary Results, and Findings | |
Berthling-Hansen et al. | Automating behaviour tree generation for simulating troop movements (poster) | |
Tong et al. | Enhancing rolling horizon evolution with policy and value networks | |
Balachandar et al. | Collaboration of ai agents via cooperative multi-agent deep reinforcement learning | |
CN114818124B (zh) | 一种基于dppo的虚实融合栅格舵模型参数优化方法 | |
Li et al. | A model-based approach to solve the sparse reward problem | |
Wang et al. | Implicit posterior sampling reinforcement learning for continuous control | |
CN112215333B (zh) | 基于低阶高斯分布的多智能体协同探索方法及装置 | |
CN117083617A (zh) | 用于在二人零和博弈中近似纳什均衡的设备和方法 | |
Wu et al. | Prioritized experience-based reinforcement learning with human guidance: methdology and application to autonomous driving | |
Hua | Planning meets self-organization: Integrating interactive evolutionary computation with cellular automata for urban planning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |