CN112084721A - 一种多代理强化学习合作任务下的奖励函数建模方法 - Google Patents
一种多代理强化学习合作任务下的奖励函数建模方法 Download PDFInfo
- Publication number
- CN112084721A CN112084721A CN202011009883.4A CN202011009883A CN112084721A CN 112084721 A CN112084721 A CN 112084721A CN 202011009883 A CN202011009883 A CN 202011009883A CN 112084721 A CN112084721 A CN 112084721A
- Authority
- CN
- China
- Prior art keywords
- agent
- agents
- reward
- global
- undirected graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000006870 function Effects 0.000 title claims abstract description 18
- 230000002787 reinforcement Effects 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000009471 action Effects 0.000 claims abstract description 10
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 4
- 238000004088 simulation Methods 0.000 claims abstract description 4
- 230000000694 effects Effects 0.000 claims abstract 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims 1
- 238000005259 measurement Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 12
- 230000008901 benefit Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种多代理强化学习合作任务下的奖励函数建模方法,包括:每个代理独立观测环境状态,输入各自的策略网络,得到各自的动作决策;在模拟环境执行各代理的动作,得到每个代理各自的奖励;将各代理之间的交互建模为一张无向图,使用此图计算出每个代理的奖励的加权总和;使用加权后的奖励训练代理的策略网络。该方法能够对多个代理与环境交互后的结果进行整合,同时建模出的无向图能够起到可信度赋值的效果,给训练算法提供更加精准的奖励描述,帮助多代理系统在合作任务上学习到更好的策略。
Description
技术领域
本发明属于人工智能自动化领域,特别地涉及一种多代理强化学习合作任务下的奖励函数建模方法。
背景技术
现代人工智能自动化领域使用强化学习来训练代理执行任务是一个常见的解决方案,其中,许多场景依赖多个代理进行合作来达成共同的目标。在多代理合作体系中,可以用各代理的局部奖励作为各代理的学习信号,也可以使用特定的全局奖励来衡量估计全局的价值函数,为各代理的策略网络或价值网络提供训练用的梯度。
使用各代理的局部奖励在工程上的实现较为简单,一些场景下可以认为等价于独立训练各代理。通常来说,各代理使用独立的信号进行训练时难以对其他的代理的策略和意向进行估计,在训练过程中可能导致模拟执行任务时产生大量冲突;冲突的交互作为负样本,大量的负样本会导致网络难以训练。使用全局奖励作为训练信号的情况下,目前主流的方法为将各代理的局部奖励进行求和作为全局奖励估计。这种方法工程上的实现也较为简单,然而会导致失去代理之间的交互距离的信息描述,此全局奖励估计在一些场景下方差较大,可能导致最终训练得到的策略不是最优策略。
发明内容
为解决上述问题,本发明的目的在于提供一种多代理强化学习合作任务下的奖励函数建模方法,其通过设置观测范围来对各代理之间的交互建模出一张无向图,并使用此图计算全局奖励的估计,作为训练价值网络或策略网络的训练信号;同时,此图也能对可信度赋值的问题进行一个描述,为全局奖励的估计提供相关信息。
为实现上述目的,本发明的解决方案为:
一种多代理强化学习合作任务下的奖励函数建模方法,包括:
过设置观测范围来对各代理之间的交互建模出一张无向图,并使用此图计算全局奖励的估计,作为训练价值网络或策略网络的训练信号。
具体的执行过程为:
每个代理独立观测环境状态,输入各自的价值网络,得到各候选动作的价值估计,选择拥有最大价值估计的动作作为当前动作决策;在模拟环境执行各代理的动作,得到每个代理各自的局部环境反馈奖励,按代理编号分别记做r1,…,ri,…,rN,其中下标为各代理标号。
构造无向图G(V,E),结点集合V:={v1,…,vN},其中vi为代理i对应的结点;同时图的边集E此时为空集。
设置观测范围D,遍历每个代理,根据当前的代理间距离,与所有距离小于D的代理之间添加一条边。其中,若代理的观测范围内没有其他代理,则表示其他代理对此代理的影响较小,在图中为独立的连通组件。在此过程结束后,对于边集E中的每一条边(vi,vj),其两端对应的代理的距离小于D。
使用所述图G计算每个代理的全局奖励估计,具体过程为:对于每一个代理对应的节点vi,按距离加权汇总其他连通结点的局部奖励,得到此代理的全局奖励估计:
其中,ri为此代理自身的局部奖励,Gi为图G中节点i所属的连通组件,di,j为结点i到结点j的距离(跳数)。
对所述各代理的全局奖励估计进行加权求和,得到用于训练的全局奖励估计:
其中,N为结点总数。
使用所述计算过程得到的全局奖励估计作为训练用奖励信号,对价值网络或策略网络进行训练。
与现有技术相比,本发明具有的有益效果为:提供一种多代理强化学习合作任务下的奖励函数建模方法,估计多代理环境下的全局奖励,用于提供训练信号。其中,估计出的训练信号能够显著提升对应任务的性能表现。
附图说明
图1是各代理的观测范围(虚线框)和按规则构造出的图G。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
多代理进行合作任务的场景中,容易将所有代理的位置映射到一个二维的平面上去,接下来以此为例进行具体实施的说明。如图1所示,本例的场景如下:(1)5个代理,散布在二维平面上,每个代理之间的相对距离可以用欧式距离来衡量;(2)虚线框表示代理的观测范围,图1所示的三个虚线框分别为代理2、代理3和代理5的观测范围;(3)本例将得到的全局奖励估计作为多代理DQN算法奖励信号进行学习
根据当前代理的相对位置和接收到的局部奖励估计全局奖励并进行训练的流程具体为:
1、根据当前观测状态计算奖励结构图G的流程具体为:
a)构造无向图G(V,E),其中,结点集合V:={v1,…,vN},vi为代理i对应的结点;图的边集E此时为空集。
b)设置观测范围D,遍历每一个结点vi:
i.如果vi的观测范围内有其他结点,如vj,则往边集E里面添加一条边(vi,vj);
ii.如果没有其他结点,则终止流程。
c)所述添加边的过程结束后,对于边集E中的每一条边(vi,vj),其两端对应的代理的距离小于D。
2、使用所述构造流程得到的图G来计算全局奖励估计的流程具体为:
a)对于每一个代理对应的结点vi和它所属的连通组件Gi,按距离加权汇总其他连通结点的局部奖励,得到此代理的全局奖励估计r′i:
其中,ri为此代理的自身局部奖励,di,j为结点i到结点j的距离 (跳数)。
b)对所述各代理的全局奖励估计进行加权求和,得到用于训练的全局奖励估计:
3、使用所述流程得到的全局奖励估计和多代理DQN算法进行训练的流程具体为:
a)对于全局价值函数,其时序差分的目标值为:
b)全局价值函数的损失函数为:
c)对于每个独立的代理,其优势函数为:
Ai(si,ai)=Q(s,a)-Vi(si)
其中,Q(s,a)为全局价值函数,Ai(si,ai)和Vi(si)分别为每个代理自己维护的优势函数和状态价值函数。
d)使用所述得到的价值函数进行学习,计算每个代理自己的策略。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的一个实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种多代理强化学习合作任务下的奖励函数建模方法,其特征在于,包括:
每个代理独立观测环境状态,输入各自的价值网络,得到各候选动作的价值估计,选择拥有最大价值估计的动作作为当前动作决策;
在模拟环境执行各代理的动作,得到每个代理各自的环境反馈奖励;
将各代理之间的交互建模为一张无向图,作为全局奖励信息的特征描述;
使用此图计算分别对每个代理计算全局奖励估计值;对每个代理各自的估计值进行加权求和计算全局奖励;
使用计算得到的全局奖励计算价值函数的目标值,计算时序差分误差,为训练各代理的价值网络提供梯度信息;
其中,建模出的无向图能够对多个代理与环境交互后的结果进行整合,同时能够起到对各代理进行可信度赋值的效果,给训练算法提供更加精准的奖励描述。
2.如权利要求1所述的方法,其特征在于,
所述的无向图是通过设置各代理为图中节点,以各代理之间的距离作为边的权重进行构造;同时,设置超参数对代理观测的最大距离加以限制,仅在指定范围内的其他代理才会和当前代理添加有权边;根据具体场景和问题,设置此超参数等价于忽略范围外的代理的影响,从而减轻具体实施时的计算压力。
3.如权利要求1所述方法,其特征在于,
所述的全局奖励计算具体为:以各代理为中心,对其他代理计算对应的奖励权重,以跳数为度量指标,距离越远的代理权重越小,使用所计算得到的权重对其他代理的环境反馈进行加权求和,得到当前代理的全局奖励估计;对所有代理的全局奖励估计进行加权求和,作为训练用全局奖励估计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011009883.4A CN112084721A (zh) | 2020-09-23 | 2020-09-23 | 一种多代理强化学习合作任务下的奖励函数建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011009883.4A CN112084721A (zh) | 2020-09-23 | 2020-09-23 | 一种多代理强化学习合作任务下的奖励函数建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112084721A true CN112084721A (zh) | 2020-12-15 |
Family
ID=73739656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011009883.4A Pending CN112084721A (zh) | 2020-09-23 | 2020-09-23 | 一种多代理强化学习合作任务下的奖励函数建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084721A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801731A (zh) * | 2021-01-06 | 2021-05-14 | 广东工业大学 | 一种接单辅助决策的联邦强化学习方法 |
CN113361768A (zh) * | 2021-06-04 | 2021-09-07 | 重庆科技学院 | 一种粮食库健康状况预测方法,存储设备及服务器 |
CN116902006A (zh) * | 2023-08-29 | 2023-10-20 | 酷哇科技有限公司 | 基于策略约束通信的强化学习多车协同系统及方法 |
CN117474077A (zh) * | 2023-12-28 | 2024-01-30 | 清华大学 | 一种基于oar模型与强化学习的辅助决策方法和装置 |
CN117648123A (zh) * | 2024-01-30 | 2024-03-05 | 中国人民解放军国防科技大学 | 一种微服务快速集成方法、系统、设备及存储介质 |
CN117648123B (zh) * | 2024-01-30 | 2024-06-11 | 中国人民解放军国防科技大学 | 一种微服务快速集成方法、系统、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106684869A (zh) * | 2017-03-17 | 2017-05-17 | 燕山大学 | 一种考虑内外博弈的主动配电网故障恢复策略 |
WO2018212918A1 (en) * | 2017-05-18 | 2018-11-22 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
EP3593289A1 (en) * | 2017-05-19 | 2020-01-15 | Deepmind Technologies Limited | Training action selection neural networks using a differentiable credit function |
CN111178496A (zh) * | 2019-11-30 | 2020-05-19 | 浙江大学 | 多代理强化学习合作任务场景下的代理间交换知识的方法 |
AU2020100840A4 (en) * | 2020-05-26 | 2020-07-02 | Southwest University | Efficient Distributed Methods for Sparse Solution to Composite Optimization Problem |
-
2020
- 2020-09-23 CN CN202011009883.4A patent/CN112084721A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106684869A (zh) * | 2017-03-17 | 2017-05-17 | 燕山大学 | 一种考虑内外博弈的主动配电网故障恢复策略 |
WO2018212918A1 (en) * | 2017-05-18 | 2018-11-22 | Microsoft Technology Licensing, Llc | Hybrid reward architecture for reinforcement learning |
EP3593289A1 (en) * | 2017-05-19 | 2020-01-15 | Deepmind Technologies Limited | Training action selection neural networks using a differentiable credit function |
CN111178496A (zh) * | 2019-11-30 | 2020-05-19 | 浙江大学 | 多代理强化学习合作任务场景下的代理间交换知识的方法 |
AU2020100840A4 (en) * | 2020-05-26 | 2020-07-02 | Southwest University | Efficient Distributed Methods for Sparse Solution to Composite Optimization Problem |
Non-Patent Citations (2)
Title |
---|
MARYAM MARASHI: "Automatic reward shaping in Reinforcement Learning using graph analysis", 《2012 2ND INTERNATIONAL ECONFERENCE ON COMPUTER AND KNOWLEDGE ENGINEERING (ICCKE)》 * |
闫呈祥: "基于深度强化学习的城市交通灯控制方法研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801731A (zh) * | 2021-01-06 | 2021-05-14 | 广东工业大学 | 一种接单辅助决策的联邦强化学习方法 |
CN113361768A (zh) * | 2021-06-04 | 2021-09-07 | 重庆科技学院 | 一种粮食库健康状况预测方法,存储设备及服务器 |
CN116902006A (zh) * | 2023-08-29 | 2023-10-20 | 酷哇科技有限公司 | 基于策略约束通信的强化学习多车协同系统及方法 |
CN117474077A (zh) * | 2023-12-28 | 2024-01-30 | 清华大学 | 一种基于oar模型与强化学习的辅助决策方法和装置 |
CN117474077B (zh) * | 2023-12-28 | 2024-04-23 | 清华大学 | 一种基于oar模型与强化学习的辅助决策方法和装置 |
CN117648123A (zh) * | 2024-01-30 | 2024-03-05 | 中国人民解放军国防科技大学 | 一种微服务快速集成方法、系统、设备及存储介质 |
CN117648123B (zh) * | 2024-01-30 | 2024-06-11 | 中国人民解放军国防科技大学 | 一种微服务快速集成方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084721A (zh) | 一种多代理强化学习合作任务下的奖励函数建模方法 | |
CN111985093A (zh) | 一种带噪声估计器的自适应无迹卡尔曼滤波状态估计方法 | |
CN110442129B (zh) | 一种多智能体编队的控制方法和系统 | |
CN111967199B (zh) | 一种强化学习多代理合作任务下的代理贡献分配的方法 | |
CN107832259A (zh) | 一种基于时间序列和卡尔曼滤波的负荷预测方法 | |
CN108061887A (zh) | 一种基于模糊交互式多模型算法的临近空间目标跟踪方法 | |
Lei et al. | Distributed computation of Nash equilibria for monotone aggregative games via iterative regularization | |
CN108460462A (zh) | 一种基于区间参数优化的区间神经网络学习方法 | |
CN114626307B (zh) | 一种基于变分贝叶斯的分布式一致性目标状态估计方法 | |
CN115562037A (zh) | 一种非线性多智能体系统控制方法、装置、设备及应用 | |
CN114167295B (zh) | 基于多算法融合的锂离子电池soc估算方法与系统 | |
CN114740710A (zh) | 一种随机非线性多智能体的强化学习优化编队控制方法 | |
CN113792846A (zh) | 一种强化学习中超高精度探索环境下的状态空间处理方法、系统及电子设备 | |
CN104318072B (zh) | 基于qkf‑mmf的多传感器量化融合方法 | |
CN116088303B (zh) | 一种不确定复杂动态网络状态时变递推估计方法 | |
CN116734860A (zh) | 一种基于因子图的多auv自适应协同定位方法及系统 | |
CN111832723A (zh) | 一种基于多重目标神经网络的强化学习值函数更新方法 | |
CN115268275A (zh) | 基于状态观测器的多智能体系统一致性跟踪方法及系统 | |
CN116437290A (zh) | 一种基于csi指纹定位的模型融合方法 | |
CN115001937A (zh) | 面向智慧城市物联网的故障预测方法及装置 | |
CN116449360A (zh) | 一种基于长短时间记忆网络的机动目标跟踪方法 | |
CN117895920B (zh) | 通信链路故障下传感器网络分布式一致性卡尔曼滤波方法 | |
CN112101563A (zh) | 基于事后经验的信赖域策略优化方法、装置及相关设备 | |
Paternain et al. | Learning policies for markov decision processes in continuous spaces | |
CN115496208B (zh) | 协同模式多样化导向的无监督多智能体强化学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201215 |