CN112101564A - 基于注意力机制的多智能体值函数分解方法及装置 - Google Patents

基于注意力机制的多智能体值函数分解方法及装置 Download PDF

Info

Publication number
CN112101564A
CN112101564A CN202010824845.8A CN202010824845A CN112101564A CN 112101564 A CN112101564 A CN 112101564A CN 202010824845 A CN202010824845 A CN 202010824845A CN 112101564 A CN112101564 A CN 112101564A
Authority
CN
China
Prior art keywords
network
agent
value
qmix
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010824845.8A
Other languages
English (en)
Other versions
CN112101564B (zh
Inventor
杨以钦
马骁腾
李承昊
杨君
梁斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010824845.8A priority Critical patent/CN112101564B/zh
Publication of CN112101564A publication Critical patent/CN112101564A/zh
Application granted granted Critical
Publication of CN112101564B publication Critical patent/CN112101564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种连续动作控制下基于注意力机制的多智能体值函数分解方法及装置,该方法包括:获取多个智能体决策下的状态轨迹;构建注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。该方法设计出一种在连续控制量的仿真环境中基于注意力机制学习值函数分解的多智能体算法。

Description

基于注意力机制的多智能体值函数分解方法及装置
技术领域
本发明涉及机器学习技术领域,特别涉及一种连续动作控制下基于注意力机制的多智能体值函数分解方法及装置。
背景技术
最近几年,强化学习在很多领域取得重大突破,例如围棋、星际争霸、Dota2等大规模策略优化问题。与目前流行的大多数单智能体强化学习算法不同,真实世界常常是多个智能体在动态变化的环境中相互竞争或合作的,因此智能体需要在适应多智能体环境的同时,学习与环境中其它智能体的交互。在多智能体控制算法中,值函数设计的环节具有十分关键的地位。由于值函数是一条样本轨道的奖励之和,因此有效的值函数设计可以加速多智能体学习。
目前基于值函数的多智能体算法主要有三类:独立值函数,中心值函数,分解值函数。其中,独立值函数学习算法将多个智能体单独训练,并最大化自己的值函数,是最简单的值函数学习算法。但是由于单个智能体的环境是动态非平稳的,因此这种方法违背了强化学习的基本假设。相较而言,中心值函数在计算单个智能体的状态动作值函数时考虑了其它智能体的动作,并在连续动作控制场景下超越了其它传统多智能体算法的性能,这种算法具有更强的鲁棒性。然而,由于多智能体合作环境为多人博弈场景,中心值函数的设计忽略了单个值函数的性质,其在复杂合作场景下性能欠佳。
将多个智能体的中心值函数进行分解是目前多智能体值函数学习的主流算法,具有代表性的算法为QMIX算法,该算法在基于全局状态信息的条件下,将各个智能体的值函数融合,并保证总体值函数相对于单个智能体的值函数是单调的。这种算法在复杂离散动作控制场景下取得了突出的效果。现实世界中多个智能体之间是相互影响的,在合作场景下多智能体间的Q值相对于总体值函数应当是单调的,而QMIX算法只考虑总体值函数相对于单个智能体的值函数的单调性,忽略了多智能体间Q值信息,缺乏一些探索性和合作性。同时,QMIX算法仅适用于离散动作控制的环境,而现实中的大多数多智能体环境是连续动作控制的。因此,如何将多智能体间的Q值与单个智能体的Q值有效结合,并应用在连续动作控制下的多智能体环境中具有一定的挑战性。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种连续动作控制下基于注意力机制的多智能体值函数分解方法,该方法设计出一种利用多智能体连续控制量下的状态轨迹在仿真环境中学习连续动作控制的值函数分解算法。
本发明的另一个目的在于提出一种连续动作控制下基于注意力机制的多智能体值函数分解装置。
为达到上述目的,本发明一方面实施例提出了一种连续动作控制下基于注意力机制的多智能体值函数分解方法,包括以下步骤:步骤S1:获取多个智能体决策下的状态轨迹;步骤S2:构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;步骤S3:基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对所述Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;步骤S4:根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
本发明实施例的连续动作控制下基于注意力机制的多智能体值函数分解方法,通过从工业应用与算法研究实际需要出发,研究基于注意力机制的多智能体值函数分解方法,并结合离轨策略学习算法DDPG,设计出一种利用多智能体连续控制量下的状态轨迹在仿真环境中学习连续动作控制的值函数分解算法。
另外,根据本发明上述实施例的连续动作控制下基于注意力机制的多智能体值函数分解方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述步骤S1,包括:根据应用场景设计部分观测仿真器,通过所述仿真器与所述应用场景进行交互得到所述应用场景下一时刻的观测状态。
进一步地,在本发明的一个实施例中,所述步骤S3,包括:
步骤S31,初始化所述仿真环境env、所述Attention注意力机制网络Attentionψ、所述各个智能体主值网络Qi、所述各个智能体主策略网络πi、所述QMIX主值网络QMIX、所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′;
步骤S32,在当前状态
Figure BDA0002635816920000021
依据策略选取动作
Figure BDA0002635816920000022
并转移到下一状态
Figure BDA0002635816920000023
并得到当前时刻的奖励值rt,根据当前状态ot、当前动作at、当前时刻的奖励值rt和下一状态ot+1组成四元组(ot,at,rt,ot+1),并将所述四元组存储进生成数据缓存器Bπ
步骤S33,在所述生成数据缓存器Bπ中的数据量达到预设数据量阈值后,每个时间步取出部分数据对所述Attention注意力机制网络、所述各个智能体主值网络、所述QMIX主值网络进行更新;
步骤S34,每隔预设时间利用确定性策略梯度对所述各个智能体主策略网络进行更新,并对所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′的参数进行软更新。
进一步地,在本发明的一个实施例中,所述步骤S33,包括:
S331,依据各个智能体的策略网络π′i和随机扰动选择下一时刻的动作:
Figure BDA0002635816920000031
其中,
Figure BDA0002635816920000032
为智能体i的副策略网络,
Figure BDA0002635816920000033
代表引入的随机扰动;
S332,计算各个智能体的状态-动作值
Figure BDA0002635816920000034
Figure BDA0002635816920000035
其中,
Figure BDA0002635816920000036
为智能体i的状态-动作值;
Figure BDA0002635816920000037
为智能体i主值网络Qi中的两层全连接网络;
Figure BDA0002635816920000038
为智能体i主值网络Qi中的编码网络;
Figure BDA0002635816920000039
为除智能体i外,其它智能体值函数的加权和。
S333,计算各个智能体的目标状态-动作值
Figure BDA00026358169200000310
Figure BDA00026358169200000311
其中,
Figure BDA00026358169200000312
为智能体i的目标状态-动作值;
Figure BDA00026358169200000313
为智能体i目标主值网络Q′i中的两层全连接网络;
Figure BDA00026358169200000314
为智能体i目标主值网络Q′i中的编码网络;
Figure BDA00026358169200000315
为除智能体i外,其它智能体值函数的加权和。
S334,利用QMIX主值网络计算混合状态-动作值
Figure BDA00026358169200000316
Figure BDA00026358169200000317
其中,
Figure BDA00026358169200000318
为QMIX主值网络的两层全连接网络,并对该网络的权重取绝对值,s为所有智能体的全局观测。
S335,利用QMIX副值网络计算目标混合状态-动作值
Figure BDA00026358169200000319
Figure BDA00026358169200000320
其中,
Figure BDA00026358169200000321
为QMIX副值网络的两层全连接网络,并对该网络的权重取绝对值,s′为所有智能体的下一时刻的全局观测;
S336,利用梯度下降法更新所述各个智能体主值网络的参数θi,QMIX主值网络参数
Figure BDA00026358169200000322
Attention注意力机制网络参数ψ:
Figure BDA00026358169200000323
Figure BDA0002635816920000041
Figure BDA0002635816920000042
其中,
Figure BDA0002635816920000043
为混合状态-动作值,
Figure BDA0002635816920000044
为目标混合状态-动作值,N为从Bπ中采集到的样本数量。
进一步地,在本发明的一个实施例中,在所述步骤S34中,所述各个智能体主策略网络的更新方式为:
Figure BDA0002635816920000045
其中,k为计算梯度所用的样本编号,
Figure BDA0002635816920000046
为对智能体i所选择的动作ai求梯度,
Figure BDA0002635816920000047
为智能体i的值函数,ai为智能体i所选择的动作,a-i为除智能体i外的其它智能体所选择的动作,
Figure BDA0002635816920000048
为对智能体i的策略网络求导,φi为智能体i的策略网络,oi为智能体i的观测。
进一步地,在本发明的一个实施例中,所述对所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′的参数的更新方式为:
φ′←τφi+(1-τ)φ′i
θ′i←τθi+(1-τ)θ′i
Figure BDA0002635816920000049
其中,τ是超参数,用于控制从主网络更新副网络参数的程度。
进一步地,在本发明的一个实施例中,所述步骤S332进一步包括:
Figure BDA00026358169200000410
其中,
Figure BDA00026358169200000411
为输入的嵌入向量,
Figure BDA00026358169200000412
V为线性变换矩阵,Wq为query矩阵,Wk为key矩阵,这三个矩阵在所有智能体中共享,h为非线性转移函数。
进一步地,在本发明的一个实施例中,还包括:将所述状态轨迹存入数据缓存器。
为达到上述目的,本发明另一方面实施例提出了一种连续动作控制下基于注意力机制的多智能体值函数分解装置,包括:获取模块,用于获取多个智能体决策下的状态轨迹;构建模块,用于构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;更新模块,用于基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对所述Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;生成模块,用于根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
本发明实施例的连续动作控制下基于注意力机制的多智能体值函数分解装置,通过从工业应用与算法研究实际需要出发,研究基于注意力机制的多智能体值函数分解方法,并结合离轨策略学习算法DDPG,设计出一种利用多智能体连续控制量下的状态轨迹在仿真环境中学习连续动作控制的值函数分解算法。
另外,根据本发明上述实施例的连续动作控制下基于注意力机制的多智能体值函数分解装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述获取模块进一步用于将所述状态轨迹存入数据缓存器。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的连续动作控制下基于注意力机制的多智能体值函数分解方法流程图;
图2为根据本发明实施例的连续动作控制下基于注意力机制的多智能体值函数分解方法流程框图;
图3为根据本发明实施例的环境的具体场景图;
图4为根据本发明实施例的训练过程图像;
图5为根据本发明实施例的连续动作控制下基于注意力机制的多智能体值函数分解装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的连续动作控制下基于注意力机制的多智能体值函数分解方法及装置,首先将参照附图描述根据本发明实施例提出的连续动作控制下基于注意力机制的多智能体值函数分解方法。
图1是本发明一个实施例的连续动作控制下基于注意力机制的多智能体值函数分解方法的流程图。
如图1所示,该连续动作控制下基于注意力机制的多智能体值函数分解方法包括以下步骤:
步骤S1:获取多个智能体决策下的状态轨迹。
具体地,如图2所示,获取多个智能体决策下的状态轨迹,并存入相应的数据缓存器中。根据应用场景设计部分观测仿真器,通过仿真器与应用场景进行交互得到训练时所需的数据。仿真器的输入是当前时刻各个智能体的动作
Figure BDA0002635816920000061
输出返回的是环境下一时刻的观测状态
Figure BDA0002635816920000062
步骤S2:构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络。
具体地,如图2所示,构建参数为θi的各个智能体的主值网络Qi、参数为φi的各个智能体的主策略网络πi,参数为
Figure BDA0002635816920000066
的QMIX主值网络,参数为ψ的Attention注意力机制网络,参数为θ′i的各个智能体的副值网络Q′i、参数为φ′i的各个智能体的副策略网络π′i,参数为
Figure BDA0002635816920000067
的QMIX副值网络。
步骤S3:基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新。
可以理解的是,如图2所示,基于状态轨迹和离轨策略算法的多智能体值函数分解过程。各个智能体使用主策略网络πi与仿真环境进行交互,将四元组(ot,at,rt,ot+1)存入到缓存器Bπ中。通过值函数分解过程,步骤S2中的各个智能体的演员、评论家网络,QMIX混合网络和Attention注意力机制网络的参数持续更新。当训练进程收敛时,QMIX混合网络和Attention注意力机制网络在充分利用智能体自己的值函数信息和智能体间的值函数信息的条件下,已经可以很好地分解多智能体的整体值函数。
值函数分解过程的具体步骤为:
S31,初始化仿真环境env、Attention注意力机制网络Attentionψ、各个智能体主值网络Qi、各个智能体主策略网络πi、QMIX主值网络QMIX、各个智能体副值网络Q′i、各个智能体副策略网络π′i、QMIX副值网络QMIX′;
S32,在当前状态
Figure BDA0002635816920000063
依据策略选取动作
Figure BDA0002635816920000064
并转移到下一状态
Figure BDA0002635816920000065
并得到当前时刻的奖励值rt,根据当前状态ot、当前动作at、当前时刻的奖励值rt和下一状态ot+1组成四元组(ot,at,rt,ot+1),并将四元组存储进生成数据缓存器Bπ
S33,在生成数据缓存器Bπ中的数据量达到预设数据量阈值buffer_size后,每个时间步取出部分数据对Attention注意力机制网络、各个智能体主值网络、QMIX主值网络进行更新;
对各个智能体的主值网络Qi,QMIX混合网络,Attention注意力机制网络进行参数更新的过程如下:
S331,依据各个智能体的策略网络π′i和随机扰动选择下一时刻的动作:
Figure BDA0002635816920000071
其中,
Figure BDA0002635816920000072
为智能体i的主策略网络,
Figure BDA0002635816920000073
代表引入的随机扰动;
S332,计算各个智能体的状态-动作值
Figure BDA0002635816920000074
Figure BDA0002635816920000075
其中,
Figure BDA0002635816920000076
为智能体i的状态-动作值;
Figure BDA0002635816920000077
为智能体i主值网络Qi中的两层全连接网络;
Figure BDA0002635816920000078
为智能体i主值网络Qi中的编码网络;
Figure BDA0002635816920000079
为除智能体i外,其它智能体值函数的加权和。
S333,计算各个智能体的目标状态-动作值
Figure BDA00026358169200000710
首先计算除智能体i外,其它智能体值函数的加权和:
Figure BDA00026358169200000711
其中,
Figure BDA00026358169200000712
为输入的嵌入向量,
Figure BDA00026358169200000713
V为线性变换矩阵,Wq为query矩阵,Wk为key矩阵,这三个矩阵在所有智能体中共享,h为非线性转移函数。
Figure BDA00026358169200000714
其中,
Figure BDA00026358169200000715
为智能体i的目标状态-动作值;
Figure BDA00026358169200000716
为智能体i目标主值网络Q′i中的两层全连接网络;
Figure BDA00026358169200000717
为智能体i目标主值网络Q′i中的编码网络;
Figure BDA00026358169200000718
为除智能体i外,其它智能体值函数的加权和。
S334,利用QMIX主值网络计算混合状态-动作值
Figure BDA00026358169200000719
Figure BDA00026358169200000720
其中,
Figure BDA00026358169200000721
为QMIX主值网络的两层全连接网络,并对该网络的权重取绝对值,s为所有智能体的全局观测。
S335,利用QMIX副值网络计算目标混合状态-动作值
Figure BDA0002635816920000081
Figure BDA0002635816920000082
其中,
Figure BDA0002635816920000083
为QMIX副值网络的两层全连接网络,并对该网络的权重取绝对值,s′为所有智能体的下一时刻的全局观测。
S336,利用梯度下降法更新各个智能体主值网络的参数θi,QMIX主值网络参数
Figure BDA0002635816920000084
Attention注意力机制网络参数ψ:
Figure BDA0002635816920000085
Figure BDA0002635816920000086
Figure BDA0002635816920000087
其中,
Figure BDA0002635816920000088
为混合状态-动作值,
Figure BDA0002635816920000089
为目标混合状态-动作值,N为从Bπ中采集到的样本数量。
S34,每隔预设时间T利用确定性策略梯度对各个智能体主策略网络进行更新,并对各个智能体副值网络Q′i、各个智能体副策略网络π′i、QMIX副值网络QMIX′的参数进行软更新。
对各个智能体主策略网络进行更新包括:
Figure BDA00026358169200000810
其中,k为计算梯度所用的样本编号,
Figure BDA00026358169200000811
为对智能体i所选择的动作ai求梯度,
Figure BDA00026358169200000812
为智能体i的值函数,ai为智能体i所选择的动作,a-i为除智能体i外的其它智能体所选择的动作,
Figure BDA00026358169200000813
为对智能体i的策略网络求导,φi为智能体i的策略网络,oi为智能体i的观测;
对各个智能体副值网络Q′i、各个智能体副策略网络π′i、QMIX副值网络QMIX′的参数进行软更新:
φ′i←τφi+(1-τ)φ′i
θ′i←τθi+(1-τ)θ′i
Figure BDA00026358169200000814
其中,τ是超参数,用于控制从主网络更新副网络参数的程度。
步骤S4:根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
具体地,如图2所示,在与环境的交互次数达到预设次数时,结束训练过程生成更新后的策略模型。其中,预设次数可以根据实际情况进行设置,在此不做具体限定,比如2M次,M为正整数。
下面通过具体的实施例对发明的基于状态轨迹和离轨策略算法的多智能体值函数分解学习方法进行详细说明。
对于一个高维连续控制任务,该任务的目的是控制三个智能体捕获一个随机游走的智能体,算法所控制的智能体速度较慢,随机游走的智能体速度较快,在该环境中还有两个不动的障碍物,图3是该环境的具体场景。对于该仿真环境中要控制的智能体而言,输入是16维状态量,输出动作是连续的5维变量。在所提出的基于状态轨迹和离轨策略算法的多智能体值函数分解算法中,各个智能体的策略网络包含三层隐藏层,结点数分别为64,64,64,激活函数为relu;各个智能体的值网络的嵌入层包含一层隐藏层,结点数为64,激活函数为relu;QMIX混合网络包含两层隐藏层,结点数为32,32,激活函数为relu;Attention注意力机制网络中的Query,Key,Value层各包含一层隐藏层,结点数为64,激活函数为relu。以上各个网络的参数都通过Adam优化器进行优化。
值函数分解过程中使用到的其他超参数如下表所示:
Figure BDA0002635816920000091
在Simple_tag环境中,中心化值函数策略MADDPG策略评估得分为700,而相比之下的基于注意力机制的多智能体值函数分解算法策略评估得分为1200,绘制出的图像如图4所示。从图4中可以看到基于注意力机制的多智能体值函数分解算法在2000个episode后性能大幅度提高,策略评估得分很快到达1100分以上。
根据本发明实施例提出的基于注意力机制的多智能体值函数分解方法,通过从工业应用与算法研究实际需要出发,研究基于状态轨迹的值函数分解过程,并结合离轨策略学习算法DDPG,设计出一种连续动作控制下基于注意力机制的多智能体值函数分解算法。
其次参照附图描述根据本发明实施例提出的连续动作控制下基于注意力机制的多智能体值函数分解装置。
图5为根据本发明一个实施例的连续动作控制下基于注意力机制的多智能体值函数分解装置结构示意图。
如图5所示,该连续动作控制下基于注意力机制的多智能体值函数分解装置10包括:获取模块100、构建模块200、更新模块300和生成模块400。
其中,获取模块100,获取多个智能体决策下的状态轨迹,将状态轨迹存入专家数据缓存器。
构建模块200,用于构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络。
更新模块300,用于基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新。
生成模块400,用于根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
需要说明的是,前述对基于注意力机制的多智能体值函数分解方法实施例的解释说明也适用于该实施例的基于注意力机制的多智能体值函数分解装置,此处不再赘述。
根据本发明实施例提出的基于注意力机制的多智能体值函数分解装置,通过从工业应用与算法研究实际需要出发,研究基于状态轨迹的值函数分解过程,并结合离轨策略学习算法DDPG,设计出一种连续动作控制下基于注意力机制的多智能体值函数分解算法。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种连续动作控制下基于注意力机制的多智能体值函数分解方法,其特征在于,包括以下步骤:
步骤S1:获取多个智能体决策下的状态轨迹;
步骤S2:构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;
步骤S3:基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对所述Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;以及
步骤S4:根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1,包括:
根据应用场景设计部分观测仿真器,通过所述仿真器与所述应用场景进行交互得到所述应用场景下一时刻的观测状态。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3,包括:
步骤S31,初始化所述仿真环境env、所述Attention注意力机制网络Attentionψ、所述各个智能体主值网络Qi、所述各个智能体主策略网络πi、所述QMIX主值网络QMIX、所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′;
步骤S32,在当前状态
Figure FDA0002635816910000011
依据策略选取动作
Figure FDA0002635816910000012
并转移到下一状态
Figure FDA0002635816910000013
并得到当前时刻的奖励值rt,根据当前状态ot、当前动作at、当前时刻的奖励值rt和下一状态ot+1组成四元组(ot,at,rt,ot+1),并将所述四元组存储进生成数据缓存器Bπ
步骤S33,在所述生成数据缓存器Bπ中的数据量达到预设数据量阈值后,每个时间步取出部分数据对所述Attention注意力机制网络、所述各个智能体主值网络、所述QMIX主值网络进行更新;
步骤S34,每隔预设时间利用确定性策略梯度对所述各个智能体主策略网络进行更新,并对所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′的参数进行软更新。
4.根据权利要求3所述的方法,其特征在于,所述步骤S33,包括:
S331,依据各个智能体的策略网络π′i和随机扰动选择下一时刻的动作:
Figure FDA0002635816910000014
其中,
Figure FDA0002635816910000021
为智能体i的副策略网络,
Figure FDA0002635816910000022
代表引入的随机扰动;
S332,计算各个智能体的状态-动作值
Figure FDA0002635816910000023
Figure FDA0002635816910000024
其中,
Figure FDA0002635816910000025
为智能体i的状态-动作值;
Figure FDA0002635816910000026
为智能体i主值网络Qi中的两层全连接网络;
Figure FDA0002635816910000027
为智能体i主值网络Qi中的编码网络;
Figure FDA0002635816910000028
为除智能体i外,其它智能体值函数的加权和。
S333,计算各个智能体的目标状态-动作值
Figure FDA0002635816910000029
Figure FDA00026358169100000210
其中,
Figure FDA00026358169100000211
为智能体i的目标状态-动作值;
Figure FDA00026358169100000212
为智能体i目标主值网络Q′i中的两层全连接网络;
Figure FDA00026358169100000213
为智能体i目标主值网络Q′i中的编码网络;
Figure FDA00026358169100000214
为除智能体i外,其它智能体值函数的加权和。
S334,利用QMIX主值网络计算混合状态-动作值
Figure FDA00026358169100000215
Figure FDA00026358169100000216
其中,
Figure FDA00026358169100000217
为QMIX主值网络的两层全连接网络,并对该网络的权重取绝对值,s为所有智能体的全局观测。
S335,利用QMIX副值网络计算目标混合状态-动作值
Figure FDA00026358169100000218
Figure FDA00026358169100000219
其中,
Figure FDA00026358169100000220
为QMIX副值网络的两层全连接网络,并对该网络的权重取绝对值,s′为所有智能体的下一时刻的全局观测;
S336,利用梯度下降法更新所述各个智能体主值网络的参数θi,QMIX主值网络参数
Figure FDA00026358169100000228
Attention注意力机制网络参数ψ:
Figure FDA00026358169100000222
Figure FDA00026358169100000223
Figure FDA00026358169100000224
其中,
Figure FDA00026358169100000225
Figure FDA00026358169100000226
为混合状态-动作值,
Figure FDA00026358169100000227
为目标混合状态-动作值,N为从Bπ中采集到的样本数量。
5.根据权利要求3所述的方法,其特征在于,在所述步骤S34中,所述各个智能体主策略网络的更新方式为:
Figure FDA0002635816910000031
其中,k为计算梯度所用的样本编号,
Figure FDA0002635816910000032
为对智能体i所选择的动作ai求梯度,
Figure FDA0002635816910000033
为智能体i的值函数,ai为智能体i所选择的动作,a-i为除智能体i外的其它智能体所选择的动作,
Figure FDA0002635816910000034
为对智能体i的策略网络求导,φi为智能体i的策略网络,oi为智能体i的观测。
6.根据权利要求1所述的方法,其特征在于,所述对所述各个智能体副值网络Q′i、所述各个智能体副策略网络π′i、所述QMIX副值网络QMIX′的参数的更新方式为:
φ′i←τφi+(1-τ)φ′i
θ′i←τθi+(1-τ)θ′i
Figure FDA0002635816910000035
其中,τ是超参数,用于控制从主网络更新副网络参数的程度。
7.根据权利要求4所述的基于注意力机制的多智能体值函数分解方法,其特征在于,所述步骤S332进一步包括:
Figure FDA0002635816910000036
其中,
Figure FDA0002635816910000037
Figure FDA0002635816910000038
为输入的嵌入向量,
Figure FDA0002635816910000039
V为线性变换矩阵,Wq为query矩阵,Wk为key矩阵,这三个矩阵在所有智能体中共享,h为非线性转移函数。
8.根据权利要求1-7任意一项所述的基于注意力机制的多智能体值函数分解方法,其特征在于,还包括:
将所述状态轨迹存入数据缓存器。
9.一种连续动作控制下基于注意力机制的多智能体值函数分解装置,其特征在于,包括:
获取模块,用于获取多个智能体决策下的状态轨迹;
构建模块,用于构建Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络;
更新模块,用于基于状态轨迹和离轨策略算法的多智能体值函数分解学习过程,对所述Attention注意力机制网络、各个智能体的主值网络、各个智能体的主策略网络、QMIX主值网络、各个智能体的副值网络、各个智能体的副策略网络、QMIX副值网络进行更新;以及
生成模块,用于根据更新的多个网络生成更新后的策略模型,对策略模型进行测试。
10.根据权利要求9所述的基于注意力机制的多智能体值函数分解装置,其特征在于,所述获取模块进一步用于将所述状态轨迹存入数据缓存器。
CN202010824845.8A 2020-08-17 2020-08-17 基于注意力机制的多智能体值函数分解方法及装置 Active CN112101564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010824845.8A CN112101564B (zh) 2020-08-17 2020-08-17 基于注意力机制的多智能体值函数分解方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010824845.8A CN112101564B (zh) 2020-08-17 2020-08-17 基于注意力机制的多智能体值函数分解方法及装置

Publications (2)

Publication Number Publication Date
CN112101564A true CN112101564A (zh) 2020-12-18
CN112101564B CN112101564B (zh) 2024-09-06

Family

ID=73753013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010824845.8A Active CN112101564B (zh) 2020-08-17 2020-08-17 基于注意力机制的多智能体值函数分解方法及装置

Country Status (1)

Country Link
CN (1) CN112101564B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313267A (zh) * 2021-06-28 2021-08-27 浙江大学 一种基于值分解和注意力机制的多智能体强化学习方法
CN114004370A (zh) * 2021-12-28 2022-02-01 中国科学院自动化研究所 基于深度强化学习网络构建对区域敏感的模型的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170176994A1 (en) * 2015-12-21 2017-06-22 Disney Enterprises, Inc. Method and device for multi-agent path planning
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
CN109978176A (zh) * 2019-03-05 2019-07-05 华南理工大学 一种基于状态动态感知的多智能体合作学习方法
CN111079305A (zh) * 2019-12-27 2020-04-28 南京航空航天大学 一种基于λ-回报的异策略多智能体强化学习协作方法
CN111105034A (zh) * 2019-12-24 2020-05-05 中国科学院自动化研究所 基于反事实回报的多智能体深度强化学习方法、系统
US20200160168A1 (en) * 2018-11-16 2020-05-21 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
CN111260027A (zh) * 2020-01-10 2020-06-09 电子科技大学 一种基于强化学习的智能体自动决策方法
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170176994A1 (en) * 2015-12-21 2017-06-22 Disney Enterprises, Inc. Method and device for multi-agent path planning
CN109347149A (zh) * 2018-09-20 2019-02-15 国网河南省电力公司电力科学研究院 基于深度q值网络强化学习的微电网储能调度方法及装置
US20200160168A1 (en) * 2018-11-16 2020-05-21 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
CN109978176A (zh) * 2019-03-05 2019-07-05 华南理工大学 一种基于状态动态感知的多智能体合作学习方法
CN111105034A (zh) * 2019-12-24 2020-05-05 中国科学院自动化研究所 基于反事实回报的多智能体深度强化学习方法、系统
CN111079305A (zh) * 2019-12-27 2020-04-28 南京航空航天大学 一种基于λ-回报的异策略多智能体强化学习协作方法
CN111260027A (zh) * 2020-01-10 2020-06-09 电子科技大学 一种基于强化学习的智能体自动决策方法
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ALEKSANDRA MALYSHEVA 等: ""MAGNet: Multi-agent Graph Network for Deep Multi-agent Reinforcement Learning"", 2019 XVI INTERNATIONAL SYMPOSIUM "PROBLEMS OF REDUNDANCY IN INFORMATION AND CONTROL SYSTEMS" (REDUNDANCY), 20 February 2020 (2020-02-20) *
T. RASHID 等: ""Qmix: Monotonic value function factorisation for deep multiagent reinforcement learning"", PROCEEDINGS OF THE 35TH INTERNATIONAL CONFERENCE MACHINE LEARNING》, 31 December 2018 (2018-12-31) *
林安亚;凌青;: "多智能体网络中的分布式动态一致平均算法", 电子技术, no. 06, 25 June 2016 (2016-06-25) *
潘莹;李德华;梁京章;王俊英;: "基于实用推理的多智能体协作强化学习算法", 华中科技大学学报(自然科学版), no. 04, 15 April 2010 (2010-04-15) *
连传强;徐昕;吴军;李兆斌;: "面向资源分配问题的Q-CF多智能体强化学习", 智能系统学报, no. 02, 15 April 2011 (2011-04-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313267A (zh) * 2021-06-28 2021-08-27 浙江大学 一种基于值分解和注意力机制的多智能体强化学习方法
CN113313267B (zh) * 2021-06-28 2023-12-08 浙江大学 一种基于值分解和注意力机制的多智能体强化学习方法
CN114004370A (zh) * 2021-12-28 2022-02-01 中国科学院自动化研究所 基于深度强化学习网络构建对区域敏感的模型的方法

Also Published As

Publication number Publication date
CN112101564B (zh) 2024-09-06

Similar Documents

Publication Publication Date Title
Du et al. A survey on multi-agent deep reinforcement learning: from the perspective of challenges and applications
Ding et al. Challenges of reinforcement learning
CN112132263B (zh) 一种基于强化学习的多智能体自主导航方法
CN111856925A (zh) 基于状态轨迹的对抗式模仿学习方法及装置
CN109740741B (zh) 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法
CN112101564A (zh) 基于注意力机制的多智能体值函数分解方法及装置
CN113095488A (zh) 一种基于多智能体最大熵强化学习的合作博弈方法
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
CN113379027A (zh) 一种生成对抗交互模仿学习方法、系统、存储介质及应用
CN105512755A (zh) 一种基于分解的多目标分布估计优化方法
Park et al. Quantum multi-agent reinforcement learning for autonomous mobility cooperation
Krichen Deep reinforcement learning
Xu et al. Living with artificial intelligence: A paradigm shift toward future network traffic control
CN116167415A (zh) 一种多智能体协同及对抗中的策略决策方法
Madni et al. Augmenting MBSE with Digital Twin Technology: Implementation, Analysis, Preliminary Results, and Findings
Berthling-Hansen et al. Automating behaviour tree generation for simulating troop movements (poster)
Tong et al. Enhancing rolling horizon evolution with policy and value networks
Balachandar et al. Collaboration of ai agents via cooperative multi-agent deep reinforcement learning
CN114818124B (zh) 一种基于dppo的虚实融合栅格舵模型参数优化方法
Li et al. A model-based approach to solve the sparse reward problem
Wang et al. Implicit posterior sampling reinforcement learning for continuous control
CN112215333B (zh) 基于低阶高斯分布的多智能体协同探索方法及装置
CN117083617A (zh) 用于在二人零和博弈中近似纳什均衡的设备和方法
Wu et al. Prioritized experience-based reinforcement learning with human guidance: methdology and application to autonomous driving
Hua Planning meets self-organization: Integrating interactive evolutionary computation with cellular automata for urban planning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant