CN111967199B - 一种强化学习多代理合作任务下的代理贡献分配的方法 - Google Patents

一种强化学习多代理合作任务下的代理贡献分配的方法 Download PDF

Info

Publication number
CN111967199B
CN111967199B CN202011011848.6A CN202011011848A CN111967199B CN 111967199 B CN111967199 B CN 111967199B CN 202011011848 A CN202011011848 A CN 202011011848A CN 111967199 B CN111967199 B CN 111967199B
Authority
CN
China
Prior art keywords
agent
agents
estimation
reward
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011011848.6A
Other languages
English (en)
Other versions
CN111967199A (zh
Inventor
谭哲越
尹建伟
尚永衡
张鹿鸣
李莹
邓水光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011011848.6A priority Critical patent/CN111967199B/zh
Publication of CN111967199A publication Critical patent/CN111967199A/zh
Application granted granted Critical
Publication of CN111967199B publication Critical patent/CN111967199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Algebra (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种强化学习多代理合作任务下的代理贡献分配的方法,包括:每个代理独立观测环境状态,输入各自的策略网络,得到各自的动作决策;在模拟环境执行各代理的动作,环境反馈的全局奖励;将各代理之间的交互建模为一张无向图,使用此图计算出每个代理的贡献权值;使用各代理的贡献权值计算各代理的局部奖励,使用此局部奖励对每个代理各自的策略网络进行训练。该方法能够对多个代理与环境交互后的结果(奖励)进行贡献分配,能够起到可信度赋值的效果,给训练算法提供更加精准的奖励描述,帮助多代理系统在合作任务上学习到更好的策略。

Description

一种强化学习多代理合作任务下的代理贡献分配的方法
技术领域
本发明属于人工智能自动化领域,特别地涉及一种多代理强化学习合作任务下的代理贡献分配的方法。
背景技术
现代人工智能自动化领域使用强化学习来训练代理执行任务是一个常见的解决方案,其中,许多场景依赖多个代理进行合作来达成共同的目标。在多代理合作体系中,可以使用全局奖励信息作为全局价值函数和各代理价值函数的训练信号,也可以分别对各代理进行贡献度分配,估计各代理的局部奖励,并将其作为各代理的学习信号,为各代理的策略网络或价值网络提供训练用的梯度。
使用各代理的全部奖励在工程上的实现较为简单,一些场景下可以认为是将控制所有代理的模型视作一个整体进行训练。这种方法在代理数量较少时易于实现和控制,但代理数量较多时,模型的参数会指数级增大,使模型变得难以训练。这种情况下,考虑到工程实现的工作量和难度,通常会采用分布式独立训练各代理模型的方法,减轻模型的训练难度,然而这种方法需要有每个代理的局部奖励来提供独立的训练信号,在环境只提供一个全局奖励信号的情况下,进行贡献度分配来估计每个独立代理的贡献度大小变成了一个亟需解决的问题。
发明内容
为解决上述问题,本发明的目的在于提供一种多代理强化学习合作任务下的代理贡献分配的方法,其通过设置观测范围来对各代理之间的交互建模出一张无向图,并使用此图计算每个代理对其影响范围的影响系数估计,作为进行贡献分配的权重信息;同时,此图也也是对可信度赋值问题的一个描述;使用各代理的贡献权重计算其局部奖励估计,为各代理的策略网络的训练提供一个精准的学习信号。
为实现上述目的,本发明的解决方案为:
一种多代理强化学习合作任务下的奖励函数建模方法,包括:
通过设置观测范围来对各代理之间的交互建模出一张无向图,并使用此图计算每个代理的贡献权重,用于计算其局部奖励的估计,作为其训练价值网络或策略网络的训练信号。
具体的执行过程为:
每个代理独立观测环境状态,输入各自的价值网络,得到各候选动作的价值估计,选择拥有最大价值估计的动作作为当前动作决策;在模拟环境执行各代理的动作,得到环境反馈的全局奖励信号R。
构造无向图G(V,E),结点集合V:={v1,…,vN},其中vi为代理i对应的结点;同时图的边集E此时为空集。
设置观测范围D,遍历每个代理,根据当前的代理间距离,与所有距离小于D的代理之间添加一条边。其中,若代理的观测范围内没有其他代理,则表示其他代理对此代理的影响较小,在图中为独立的连通组件。在此过程结束后,对于边集E中的每一条边(vi,vj),其两端对应的代理的距离小于D。
使用所述图G计算每个代理的贡献权重估计,具体过程为:对于每一个代理对应的节点vi,按其影响范围内的节点数目和对应距离加权计算其影响系数Ii
Figure BDA0002697798150000021
vj∈Gi
其中,Gi为图G中节点vi所属的连通组件,
Figure BDA0002697798150000022
为结点vi到结点vj的距离(跳数)。
对所有代理的影响系数进行归一化,得到各代理的贡献权重wi
Figure BDA0002697798150000023
vj∈Gi
使用所述贡献权重计算各代理的局部奖励估计:
r′i=wi*R
使用所述计算过程得到的局部奖励估计作为训练用奖励信号,对各代理的价值网络或策略网络进行训练。
与现有技术相比,本发明具有的有益效果为:提供一种多代理强化学习合作任务下贡献分配的方法,估计多代理环境下的每个代理的局部奖励,用于提供独立的训练信号。其中,估计出的训练信号能够显著提升对应任务的性能表现。
附图说明
图1是各代理的观测范围(虚线框)和按规则构造出的图G。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
多代理进行合作任务的场景中,容易将所有代理的位置映射到一个二维的平面上去,接下来以此为例进行具体实施的说明。如图1所示,本例的场景如下:(1)5个代理,散布在二维平面上,每个代理之间的相对距离可以用欧式距离来衡量;(2)虚线框表示代理的观测范围,图1所示的三个虚线框分别为代理2、代理3和代理5的观测范围;(3)本例将得到的局部奖励估计作为多代理DQN算法奖励信号进行学习
根据当前代理的相对位置和接收到的局部奖励估计全局奖励并进行训练的流程具体为:
1、根据当前观测状态计算奖励结构图G的流程具体为:
a)构造无向图G(V,E),其中,结点集合V:={v1,…,vN},vi为代理i对应的结点;图的边集E此时为空集。
b)设置观测范围D,遍历每一个结点vi
i.如果vi的观测范围内有其他结点,如vj,则往边集E里面添加一条边(vi,vj);
ii.如果没有其他结点,则终止流程。
c)所述添加边的过程结束后,对于边集E中的每一条边(vi,vj),其两端对应的代理的距离小于D。
2、使用所述构造流程得到的图G和全局奖励来计算各代理局部奖励估计的流程具体为:
d)对于每一个代理对应的结点vi和它所属的连通组件Gi,按影响范围内的节点数和对应的距离加权计算其,得到此代理的影响系数Ii
Figure BDA0002697798150000041
vj∈Gi
其中,Gi为图G中节点vi所属的连通组件,
Figure BDA0002697798150000042
为结点vi到结点vj的距离(跳数)。
e)对所述各代理的影响系数进行归一化,得到各代理的贡献权重wi
Figure BDA0002697798150000043
vj∈Gi
f)使用所述贡献权重计算各代理的局部奖励估计:
r′i=wi*R
3、使用所述流程得到的局部奖励估计和多代理DQN算法进行训练的流程具体为:
g)对于各代理的局部价值函数,其时序差分的目标值为:
Figure BDA0002697798150000044
其中,Q′(s,a)为全局目标价值函数。
h)局部价值函数的损失函数为:
Figure BDA0002697798150000045
其中,Qi(s,a)为代理i的局部价值函数。
i)对于每个代理,其优势函数为:
Ai(si,ai)=Qi(s,a)-Vi(si)
其中,Qi(s,α)为独立局部价值函数,Ai(si,ai)和Vi(si)分别为每个代理自己维护的优势函数和状态价值函数。
j)使用所述得到的价值函数进行学习,计算每个代理自己的策略。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的一个实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种强化学习多代理合作任务下的代理贡献分配的方法,其特征在于,包括:
每个代理独立观测环境状态,输入各自的价值网络,得到各候选动作的价值估计,选择拥有最大价值估计的动作作为当前动作决策;
在模拟环境执行各代理的动作,得到环境反馈的全局奖励信息;
将各代理之间的交互建模为一张无向图,作为给各代理进行贡献分配的特征描述;
使用此无向图分别对每个代理计算贡献分配权重估计,得到每个代理的局部奖励估计;
使用得到的局部奖励估计计算各代理维护的价值函数的目标值,计算时序差分误差,为训练各代理的价值网络提供梯度信息;
其中,建模出的无向图能够对多个代理与环境交互后的奖励结果进行贡献分配,同时能够起到对各代理进行可信度赋值的效果,给训练算法提供更加精准的奖励描述;
所述的无向图通过设置各代理为图中节点,以各代理之间的距离作为边的权重进行构造;同时,设置超参数对代理观测的最大距离加以限制,仅在指定范围内的其他代理才会和当前代理添加有权边;根据具体场景和问题,设置此超参数等价于忽略范围外的代理的影响,从而减轻具体实施时的计算压力;
所述的局部奖励估计具体为:在所述无向图中,以各代理为中心,以可达节点数和距离为指标,分别计算当前代理对影响范围内其他代理的影响估计;汇总各代理影响估计,按量级进行贡献度分配,计算各代理的局部奖励估计,为各代理的策略网络学习提供训练信号。
CN202011011848.6A 2020-09-23 2020-09-23 一种强化学习多代理合作任务下的代理贡献分配的方法 Active CN111967199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011011848.6A CN111967199B (zh) 2020-09-23 2020-09-23 一种强化学习多代理合作任务下的代理贡献分配的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011011848.6A CN111967199B (zh) 2020-09-23 2020-09-23 一种强化学习多代理合作任务下的代理贡献分配的方法

Publications (2)

Publication Number Publication Date
CN111967199A CN111967199A (zh) 2020-11-20
CN111967199B true CN111967199B (zh) 2022-08-05

Family

ID=73386772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011011848.6A Active CN111967199B (zh) 2020-09-23 2020-09-23 一种强化学习多代理合作任务下的代理贡献分配的方法

Country Status (1)

Country Link
CN (1) CN111967199B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116240A (zh) * 2022-06-27 2022-09-27 中国科学院电工研究所 一种无信号灯交叉路口车辆协同控制方法及系统
CN117474077B (zh) * 2023-12-28 2024-04-23 清华大学 一种基于oar模型与强化学习的辅助决策方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978176A (zh) * 2019-03-05 2019-07-05 华南理工大学 一种基于状态动态感知的多智能体合作学习方法
CN110861634A (zh) * 2018-08-14 2020-03-06 本田技研工业株式会社 交互感知决策
CN110945542A (zh) * 2018-06-29 2020-03-31 东莞理工学院 一种基于智能电网的多智能体深度强化学习代理方法
CN111178496A (zh) * 2019-11-30 2020-05-19 浙江大学 多代理强化学习合作任务场景下的代理间交换知识的方法
AU2020101339A4 (en) * 2020-07-12 2020-08-20 Southwest University An Edge-Based Stochastic Proximal Gradient Algorithm for Decentralized Composite Optimization

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11586974B2 (en) * 2018-09-14 2023-02-21 Honda Motor Co., Ltd. System and method for multi-agent reinforcement learning in a multi-agent environment

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110945542A (zh) * 2018-06-29 2020-03-31 东莞理工学院 一种基于智能电网的多智能体深度强化学习代理方法
CN110861634A (zh) * 2018-08-14 2020-03-06 本田技研工业株式会社 交互感知决策
CN109978176A (zh) * 2019-03-05 2019-07-05 华南理工大学 一种基于状态动态感知的多智能体合作学习方法
CN111178496A (zh) * 2019-11-30 2020-05-19 浙江大学 多代理强化学习合作任务场景下的代理间交换知识的方法
AU2020101339A4 (en) * 2020-07-12 2020-08-20 Southwest University An Edge-Based Stochastic Proximal Gradient Algorithm for Decentralized Composite Optimization

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《稀疏奖励下基于MADDPG 算法的多智能体协同》;许诺;《现代计算机》;20200525;全文 *

Also Published As

Publication number Publication date
CN111967199A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN112084721A (zh) 一种多代理强化学习合作任务下的奖励函数建模方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN111967199B (zh) 一种强化学习多代理合作任务下的代理贡献分配的方法
CN104408518B (zh) 基于粒子群优化算法的神经网络学习优化方法
Peng et al. Input–output data-based output antisynchronization control of multiagent systems using reinforcement learning approach
CN111064633B (zh) 一种云边协同电力信息通信设备自动化测试资源分配方法
CN112947084A (zh) 一种基于强化学习的模型未知多智能体一致性控制方法
CN110673649A (zh) 基于拓扑优化的时变信道下无人机编队一致性控制方法、系统、装置及存储介质
CN111178496A (zh) 多代理强化学习合作任务场景下的代理间交换知识的方法
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
CN112818588B (zh) 一种电力系统的最优潮流计算方法、装置及存储介质
CN107832259A (zh) 一种基于时间序列和卡尔曼滤波的负荷预测方法
CN110247396A (zh) 基于自适应抗差无迹卡尔曼滤波的配电网状态估计方法及系统
CN113141012B (zh) 电网潮流调控决策推理方法
CN115562037B (zh) 一种非线性多智能体系统控制方法、装置、设备及应用
CN112180730A (zh) 一种多智能体系统分层最优一致性控制方法和装置
Li et al. Sequential particle-based sum-product algorithm for distributed inference in wireless sensor networks
CN117273057A (zh) 基于强化学习的多智能体协同对抗决策方法及装置
CN116976523A (zh) 基于部分可观测强化学习的分布式经济调度方法
CN115268275A (zh) 基于状态观测器的多智能体系统一致性跟踪方法及系统
CN114063438B (zh) 一种数据驱动的多智能体系统pid控制协议自学习方法
Zimmermann et al. Gradient-tracking over directed graphs for solving leaderless multi-cluster games
CN114791741A (zh) 事件触发下无人系统集群的无模型最优分组协同控制方法
CN112714165B (zh) 一种基于组合机制的分布式网络协作策略优化方法和装置
Boin et al. AVDDPG: Federated reinforcement learning applied to autonomous platoon control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant