CN112465148A - 一种多智能体系统的网络参数更新方法、装置及终端设备 - Google Patents

一种多智能体系统的网络参数更新方法、装置及终端设备 Download PDF

Info

Publication number
CN112465148A
CN112465148A CN202011364310.3A CN202011364310A CN112465148A CN 112465148 A CN112465148 A CN 112465148A CN 202011364310 A CN202011364310 A CN 202011364310A CN 112465148 A CN112465148 A CN 112465148A
Authority
CN
China
Prior art keywords
agent
parameters
reward
determining
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011364310.3A
Other languages
English (en)
Inventor
陈广勇
董一臻
郝建业
王琼
王平安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202011364310.3A priority Critical patent/CN112465148A/zh
Publication of CN112465148A publication Critical patent/CN112465148A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请适用于人工智能技术领域,提供了一种多智能体系统的网络参数更新方法、装置及终端设备,通过整个智能体系统的新颖性参数来确定整体内部奖励,然后基于各个智能体的贡献程度来确定每个智能体的局部内部奖励,再结合外部奖励来对确定每个智能体的网络更新参数,既从全局角度确定了内部奖励使得多智能体系统对全局状态空间的搜索更加全面,由根据每个智能体对整体新颖性参数的贡献程度确定智能体的内部奖励,充分考虑到了不同的智能体的探索能力的不同,减少重复、冗余的探索,加快训练速度,提升任务的完成效率。

Description

一种多智能体系统的网络参数更新方法、装置及终端设备
技术领域
本申请属于人工智能技术领域,尤其涉及一种多智能体系统的网络参数更 新方法、装置及终端设备。
背景技术
人工智能是研究开发用于模拟、扩展人的智能的理论、方法、技术及应用 的技术科学。人工智能研究的一个主要目标是由智能体(Agent)进行学习模拟人 类决策,从而胜任一些需要人类智能才能完成的复杂工作。单个智能体的功能 有限,无法应对复杂的任务,这推动了多智能体系统概念的产生。多智能体系 统由多个能够自主决策、互相交互的智能体相结合组成,它们共享同一个环境, 具有感知与执行机制。目前,多智能体系统已经成为人工智能领域的研究热点。
在协作型多智能体任务中,只有当多智能体联合完成一个任务后,才能够 获得一个外部奖励。对于没有进行过探索或探索次数的环境,如何有效地提高 探索效率是目前多智能体系统的训练过程中亟需解决的问题。对于上述问题, 目前通常是将多智能体系统看做一个整体,然后基于全局的状态新颖性参数程 度来确定每个智能体的局部信息,再基于各个智能体的局部信息来对每个智能 体的网络参数进行更新。使得更新了网络参数的多智能体系统能够最终决策出 最优的协同控制策略。然而这种方式没有考虑每个智能体的独特性,容易产生 冗余的探索行为,降低了合作任务的完成效率。
发明内容
有鉴于此,本申请实施例提供了一种多智能体系统的网络参数更新方法、 装置及终端设备,以解决目前基于深度学习的病虫害种类识别系统无法全面且 准确地识别出果树的病虫害种类的问题。
第一方面,本申请实施例提供一种多智能体系统的网络参数更新方法,包 括:
根据多智能体系统的新颖性参数确定整体内部奖励;
根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局部内部奖 励;
获取每个智能体的外部奖励;
根据每个智能体的局部内部奖励和外部奖励确定各个智能体的网络更新参 数,并将各个智能体的网络更新参数下发至各个智能体中,所述网络更新参数 用于控制各个智能体根据网络更新参数对自身的网络进行训练。
可选的,根据多智能体系统的新颖性参数确定整体内部奖励,包括:
根据当前时刻下多智能体在联合状态下采取联合动作的次数确定多智能体 系统的新颖性参数;
基于多智能体系统的新颖性参数确定整体内部奖励。
可选的,根据多智能体系统的新颖性参数确定整体内部奖励,包括:
根据预测误差来确定多智能体系统的新颖性参数;
基于多智能体系统的新颖性参数确定整体内部奖励。
可选的,根据多智能体系统的新颖性参数确定整体内部奖励,包括:
基于后继特征来确定多智能体系统的新颖性参数;
再基于多智能体系统的新颖性参数确定整体内部奖励。
可选的,根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局 部内部奖励,包括:
根据每个智能体的优势函数来确定每个智能体的贡献程度;
基于智能体的贡献程度和整体内部奖励确定出该智能体的局部内部奖励。
可选的,根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局 部内部奖励,包括:
基于当前智能体的后继特征来确定每个智能体的贡献程度;
基于智能体的贡献程度和整体内部奖励确定出该智能体的局部内部奖励。
可选的,根据每个智能体的局部内部奖励和外部奖励对自身的网络进行训 练,包括:
根据每个智能体的局部内部奖励和外部奖励确定各个智能体的网络更新参 数,并将各个智能体的网络更新参数下发至各个智能体中,包括:
根据每个智能体的局部内部奖励和外部奖励确定每个智能体的总体奖励;
根据每个智能体的总体奖励对每个智能体的网络参数进行更新,得到网络 更新参数。
第二方面,本申请实施例提供一种网络参数更新装置,包括:
第一确定单元,用于根据多智能体系统的新颖性参数确定整体内部奖励;
第二确定单元,用于根据整体内部奖励和每个智能体的贡献程度确定每个 智能体的局部内部奖励;
获取单元,用于获取每个智能体的外部奖励;
训练单元,用于根据每个智能体的局部内部奖励和外部奖励对自身的网络 进行训练。
第三方面,本申请实施例提供一种终端设备,所述终端设备包括处理器、 存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述 处理器执行所述计算机程序时实现如第一方面或第一方面的任意可选方式所述 的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读 存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面 或第一方面的任意可选方式所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,当计算机程序产品在 终端设备上运行时,使得终端设备执行上述第一方面或第一方面的任意可选方 式所述的方法。
实施本申请实施例提供的一种多智能体系统的网络参数更新方法、装置及 终端设备、终端设备、计算机可读存储介质及计算机程序产品具有以下有益效 果:
本申请实施例提供的一种多智能体系统的网络参数更新方法,通过整个智 能体系统的新颖性参数来确定整体内部奖励,然后基于各个智能体的贡献程度 来确定每个智能体的局部内部奖励,再结合外部奖励来对确定每个智能体的网 络更新参数,既从全局角度确定了内部奖励使得多智能体系统对全局状态空间 的搜索更加全面,由根据每个智能体对整体新颖性参数的贡献程度确定智能体 的内部奖励,充分考虑到了不同的智能体的探索能力的不同,减少重复、冗余 的探索,加快训练速度,提升任务的完成效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅 仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳 动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种多智能体系统的网络参数更新方法的示意 性流程图;
图2是本申请实施例提供一种网络参数更新装置结构示意图;
图3是本申请另一实施例提供的一种终端设备的结构示意图;
图4是本申请实施例提供的一种计算机可读存储介质的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术 之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当 清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中, 省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节 妨碍本申请的描述。
应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指 相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些 组合。另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第 二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
还应当理解,在本申请说明书中描述的参考“一个实施例”或“一些实施 例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特 征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例 中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例 中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的 实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具 有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强 调。
多智能体系统在社会、工业和国防等多个领域具有十分广泛的应用前景, 多智能体系统包括但不限于传感网络、无人机编队系统、多机器人合作系统、 生物网络、卫星姿态控制系统等。
如何让多智能体系统在稀疏奖励环境中学习到最优的协同策略,是实现多 智能体系统的协同控制的一大挑战。其中,稀疏奖励环境是指多外部奖励较少 的环境。例如,在扫地机器人任务中,多个扫地机器人要合作地清扫一块区域, 只有当所有机器人将所有区域清扫一遍时任务才视作完成,只有在所有机器人 将所有区域清扫完成才能够获得一个外部奖励。
因此,可以将上述合作清扫任务抽象为稀疏奖励环境下的多智能体强化学 习问题,每个扫地机器人视作一个智能体,只有在所有智能体合作完成整体任 务后才能获得一个稀疏的外部奖励。
在单智能体环境中,通常可以通过给强化学习的智能体赋予一个内部奖励, 然后结合外部奖励来更新该智能体的网络参数,然后基于更新后的网络参数训 练智能体网络。例如,基于智能体对当前观测的新颖性参数来赋予该智能体的 内部奖励,当前观测的新颖性参数越高则赋予的内部奖励越大,反之亦然。这 样能够促使智能体访问未知状态(或访问次数很少)的区域,从而起到探索作 用,发掘环境中的潜在奖励。而对于如何使得多智能体系统在稀疏奖励环境中 学习到最优的协同策略的问题,一种简单的解决方式是将单智能体下的基于新 颖性参数的探索方式直接应用于多智能体,使每个智能体都独立地进行探索。 然而这种方式容易导致多智能体系统不能对联合状态空间进行全面探索,并且 可能产生冗余的探索行为,导致探索效率低。另一种解决方式为将多智能体系 统看成一个整体,基于全局的状态新颖性参数程度计算内部奖励,所有智能体 使用相同的内部奖励结合外部奖励更新自身的网络参数,然后基于更新后的网 络参数进行训练。这种方式考虑了全局状态的新颖性参数,却忽视了多智能体 系统中每个智能体的独特性,同样容易产生冗余的探索行为,导致任务完成效 率低下。
为了解决上述缺陷,本申请实施例提供了一种多智能体的协同控制方法, 通过整个智能体系统的新颖性参数来确定整体内部奖励,然后基于各个智能体 的贡献程度来确定每个智能体的局部内部奖励,再结合外部奖励来对确定每个 智能体的网络更新参数,既从全局角度确定了内部奖励使得多智能体系统对全 局状态空间的搜索更加全面,由根据每个智能体对整体新颖性参数的贡献程度 确定智能体的内部奖励,充分考虑到了不同的智能体的探索能力的不同,减少 重复、冗余的探索,加快训练速度,提升任务的完成效率。
以下将对本申请实施例提供的多智能体系统的网络参数更新方法、装置及 终端设备进行详细的说明:
需要说明的是,本申请实施例提供的多智能体系统可以是传感网络、无人 机编队系统、多机器人合作系统、生物网络、卫星姿态控制系统等系统。具体 地,本申请实施例以多机器人合作系统为例进行说明。其中,上述多机器人合 作系统可以是多扫地机器人合作系统。
在本申请实施例中,上述多扫地机器人合作系统包括多个扫地机器人,每 个扫地机器人就是一个智能体。
在本申请实施例中,上述多智能体系统的网络参数更新方法应用于上述多 智能体系统的网络参数进行更新,以使上述多智能体系统在进行合作协同任务 时决策出最佳的协作策略。例如,使得上述多扫地机器人合作系统在扫地任务 中决策出由哪个智能体负责哪一部分区域的清洁的协作策略,同时减少提高多 扫地机器人合作系统的探索效率,以缩短扫地任务的时间。
在本申请实施例中,上述多智能体系统的网络参数更新方法可以由上述多 智能体系统中的任一一个智能体来执行,也可以是由独立于该多智能体系统的 具备数据处理能力的终端设备来执行。
示例性的,上述终端设备可以云服务器、计算机、手机等终端设备。该终 端设备可以与该多智能体系统中的每个智能体进行通信,以获取或下发各类数 据,例如获取每个智能体的环境反馈,下发网络更新参数等。
请参阅图1,图1是本申请实施例提供的一种多智能体系统的网络参数更 新方法的示意性流程图。
如图1所示,上述多智能体系统的网络参数更新方法可以包括S11~S14, 详述如下:
S11:根据多智能体系统的新颖性参数确定整体内部奖励。
在本申请实施例中,上述多智能体系统的新颖性参数是指多智能体系统的 当前联合状态与上一联合状态的差异值。
在本申请一实施例中,可以计算当前时刻下多智能体在联合状态下采取联 合动作的次数来确定多智能体系统的新颖性参数,再基于多智能体系统的新颖 性参数确定整体内部奖励。
具体地,假设t时刻下智能体们的联合状态为St,联合动作的为ut,C(St,ut) 表示在整个训练过程中多智能体系统在联合状态St下采取联合动作ut的次数。 而新颖性参数与多智能体系统在联合状态St下采取联合动作ut的次数的关系是 多智能体系统在联合状态St下采取联合动作ut的次数越多,则新颖性参数越小, 多智能体系统在联合状态St下采取联合动作ut的次数越少,则新颖性参数越大。 因此新颖性参数Nt可以表示为:
Figure BDA0002804979160000071
而整体内部奖励Rt可以根据新颖 性参数Nt和内部奖励权重β来确定,整体内部奖励可以表示为:
Figure BDA0002804979160000081
其中,内部奖励权重β可以根据实际网络训练情况来设定,在此不加以限制。
在本申请另一实施例中,可以根据预测误差来确定多智能体系统的新颖性 参数,再基于多智能体系统的新颖性参数确定整体内部奖励。
具体地,可以预先设定两个网络,其中一个网络为随机初始化且参数固定 不变(即不参与训练过程)的网络f,网络f的输入状态为(s,u),输出向量为 f(s,u);另外一个网络为随机初始化但是参数不是固定不变(即参与训练过程) 的网络
Figure BDA0002804979160000082
以同样的输入状态(s,u)输入到网络
Figure BDA0002804979160000083
中进行训练,得到的输出向量 为
Figure BDA0002804979160000084
其中输入状态(s,u)表示联合状态s和当前状态采取的动作u的联合向 量。
因此,将网络
Figure BDA0002804979160000085
的损失函数定义为:
Figure BDA0002804979160000086
对于同一个输入 状态s,用网络
Figure BDA0002804979160000087
去逼近网络f,就能够得到多智能体系统在训练过程中所有状 态信息。且预测误差
Figure BDA0002804979160000088
随着输出状态s的增加而减少,因此可以使 用预测误差
Figure BDA0002804979160000089
的倒数来反映多智能体系统所经历的联合状态的次 数。因此,将t时刻的多智能体系统的新颖性参数定义为:
Figure BDA00028049791600000810
而整体内部奖励Rt可以根据新颖性参数Nt和内部奖励权重β来确定,整体内部 奖励可以表示为:
Figure BDA00028049791600000811
在本申请另一实施例中,可以基于后继特征来确定多智能体系统的新颖性 参数,再基于多智能体系统的新颖性参数确定整体内部奖励。
具体地,用φ(s)表示多智能体系统的当前状态s的特征,用
Figure BDA00028049791600000812
表示多智 能体系统在当前状态s下根据当前策略π所经历的后续状态的折扣期望和。两个 状态st(当前时刻)和st+1(当前时刻的下一时刻)的后继特征之差的欧拉距离
Figure BDA00028049791600000813
可以反映在当前策略π下从当前状态st采取动作ut到达状 态st+1后,多智能体系统后续轨迹的差异。因此,可以将多智能体系统的新颖性 参数定义为:
Figure BDA0002804979160000091
而整体内部奖励Rt可以根据新颖性参数Nt和内部奖励权重β来确定,整体内部奖励可以表示为:
Figure BDA0002804979160000092
S12:根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局部 内部奖励。
在本申请实施例中,为了考虑每个智能体的独特性,以保证在探索过程中 能够充分利用每个智能体的探索能力,减少冗余的探索时间,在基于全局的新 颖性参数确定出整体内部奖励后,还需要针对每个智能体对内部奖励的贡献程 度来确定每个智能体的局部内部奖励的占比。
具体地,整体内部奖励为可以表示为Ri,智能体a的局部内部奖励记为ri a, 即智能体a的局部内部奖励表示为:ri a=pa×Ri,其中,pa为智能体a的局部内 部奖励占整体内部奖励的比例,且
Figure BDA0002804979160000093
在本申请一实施例中,可以确定每个智能体的优势函数来确定每个智能体 的贡献程度,然后基于智能体的贡献程度和整体内部奖励确定出该智能体的局 部内部奖励。
上述智能体a的优势函数可以表示为:
Figure BDA0002804979160000094
其中,Aa表示智能体a在当前策略π下,采取动作ua相比于采取其他动作对整 体(即多智能体系统)的新颖性参数的贡献程度,Aa越大,表示智能体a的当 前动作ua和其他动作相比对系统的训练贡献程度越大。通过上述优势函数计算 出所有智能体的贡献程度。需要说明书的是,N(S,U)即S11中的Nt。oa是智能 体a的自观测参数,可以根据现有的分布式部分可观测马尔科夫算法计算得到, 在此不加以赘述。ua表示智能体a的动作,U-a表示其他智能体的联合动作。
然后基于softmax函数确定出每个智能体的局部内在奖励的占比pa,每个 智能体的局部内在奖励的占比pa可以表示为:
Figure BDA0002804979160000101
其中,n为智能体的 个数,n为大于或等于2的正整数。
在本申请一实施例中,可以基于当前智能体的后继特征来确定每个智能体 的贡献程度,然后基于智能体的贡献程度和整体内部奖励确定出该智能体的局 部内部奖励。
具体地,基于后继特征的整体内部奖励是两个相邻的联合状态的后继状态 之间的差异,要计算每个智能体的状态变化对联合状态变化的贡献程度,可以 固定其他智能体状态不变,仅改变当前智能体状态,因此,每个智能体对整体 内部奖励的贡献程度可以表示为:
Figure BDA0002804979160000102
其中,
Figure BDA0002804979160000103
表示在 t时刻除了智能体a以外其他智能体的联合状态,
Figure BDA0002804979160000104
表示在t时刻智能体a的状态,
Figure BDA0002804979160000105
表示在t+1时刻智能体a的状态,da表示智能体a的状态变化对整个多智能体 系统后续状态变化的贡献程度。
然后就可以确定出每个智能体的局部内在奖励的占比pa,每个智能体的局 部内在奖励的占比pa可以表示为:
Figure BDA0002804979160000106
其中,n为智能体的个数,n为大 于或等于2的正整数。
S13:获取每个智能体的外部奖励。
在具体应用中,在每个时间t,每个智能体i根据自身观测oi选择一个动作 ui,组成一个联合动作u,与环境进行交互,并到下一个状态st+1,同时每个智 能体还能够获取与其对应的环境反馈rt(s,u)。将上述环境反馈确定为每个智能体 的外部奖励。
需要说明的是,上述智能体获取与其对应的环境反馈的过程可以参见现有 的多智能体强化学习过程,在此不再加以赘述。
S14:根据每个智能体的局部内部奖励和外部奖励确定各个智能体的网络 更新参数,并将各个智能体的网络更新参数下发至各个智能体中。
在本申请实施例中,上述结合上述每个智能体的局部内部奖励和外部奖励 确定每个智能体的总体奖励。然后基于每个智能体的总体奖励对每个智能体的 网络参数进行更新,得到每个智能体对应的网络更新参数。在确定出每个智能 体对应的网络更新参数后,可以将每个智能体对应的网络更新参数下发给其对 应的智能体,以控制每个智能体基于网络更新参数对自己的网络参数进行更新, 每个智能体在更新完自身的网络参数后,就能够基于更新后的网络参数进行训 练,进而得到能够做出最优协同策略的动作。需要说明的是,每个智能体的具 体的训练过程可以参见现有的智能体训练过程,本文对此不加以限制。
在本申请实施例中,可以将上述总体奖励定义为上述局部内部奖励和外部 奖励的总和。需要说明的是,还可以根据其他应用场景将总体奖励定义为上述 局部内部奖励和外部奖励的其他相关函数,本申请不对此加以限制。
在本申请实施例中,当每一个智能体均完成训练后,多智能体系统也完成 了训练,训练完成的多智能系统能够协同控制每一个智能体根据决策出的策略 执行相应地动作,实现协同控制。
在本申请一实施例中,由一组同质智能体进行协同合作任务,智能体间的 位置互换不影响任务的完成程度。如在扫地机器人场景中,扫地机器人组的任 务是合作地清扫一块区域,假设现有两个机器人分别为机器人1和机器人2, 它们的任务为分别去清扫房间A和房间B,让机器人1去清扫房间A、机器人 2去清扫房间B,和让机器人1去清扫房间B、机器人2去清扫房间A对整体 任务的完成程度是相同的,即都是机器人1和机器人2共同清扫了房间A和房 间B。因此,在确定局部内部奖励时,可以给予两个这两个机器人相同的内部 奖励。因此,更新智能体系统的全局新颖性评估函数时,使用数据增强的方式, 将原始的全局状态-动作对进行扩展,随机打乱智能体之间的位置以及相应的动 作,继而进行更新。
以上可以看出,本申请实施例提供的多智能体的协同控制方法,通过整个 智能体系统的新颖性参数来确定整体内部奖励,然后基于各个智能体的贡献程 度来确定每个智能体的局部内部奖励,再结合外部奖励来对确定每个智能体的 网络更新参数,既从全局角度确定了内部奖励使得多智能体系统对全局状态空 间的搜索更加全面,由根据每个智能体对整体新颖性参数的贡献程度确定智能 体的内部奖励,充分考虑到了不同的智能体的探索能力的不同,减少重复、冗 余的探索,加快训练速度,提升任务的完成效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后, 各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施 过程构成任何限定。
基于上述实施例所提供的多智能体系统的网络参数更新方法,本发明实施 例进一步给出实现上述方法实施例的装置的实施例。
请参阅图2,图2是本申请实施例提供的一种网络参数更新装置的结构示 意图。本申请实施例中,网络参数更新装置包括的各单元用于执行图1对应的 实施例中的各步骤。具体请参阅图1以及图1对应的实施例中的相关描述。为 了便于说明,仅示出了与本实施例相关的部分。如图2所示,多智能体系统20 包括:第一确定单元21、第二确定单元22、获取单元23以及更新单元24。其 中:
第一确定单元21用于根据多智能体系统的新颖性参数确定整体内部奖励。
第二确定单元22用于根据整体内部奖励和每个智能体的贡献程度确定每 个智能体的局部内部奖励。
获取单元23用于获取每个智能体的外部奖励。
更新单元24用于根据每个智能体的局部内部奖励和外部奖励确定各个智 能体的网络更新参数,并将各个智能体的网络更新参数下发至各个智能体中, 所述网络更新参数用于控制各个智能体根据网络更新参数对自身的网络进行训 练。
可选的,第一确定单元21具体用于:
根据当前时刻下多智能体在联合状态下采取联合动作的次数确定多智能体 系统的新颖性参数;
基于多智能体系统的新颖性参数确定整体内部奖励。
可选的,第一确定单元21具体用于:
根据预测误差来确定多智能体系统的新颖性参数;
基于多智能体系统的新颖性参数确定整体内部奖励。
可选的,第一确定单元21具体用于:
基于后继特征来确定多智能体系统的新颖性参数;
再基于多智能体系统的新颖性参数确定整体内部奖励。
可选地,第二确定单元22具体用于:
根据每个智能体的优势函数来确定每个智能体的贡献程度;
基于智能体的贡献程度和整体内部奖励确定出该智能体的局部内部奖励。
可选地,第二确定单元22具体用于:
基于当前智能体的后继特征来确定每个智能体的贡献程度;
基于智能体的贡献程度和整体内部奖励确定出该智能体的局部内部奖励.
可选地,上述更新单元24可以包括第三确定单元和参数更新单元。
第三确定单元用于根据每个智能体的局部内部奖励和外部奖励确定每个智 能体的总体奖励。
参数更新单元用于根据每个智能体的总体奖励对每个智能体的网络参数进 行更新,得到网络更新参数。
需要说明的是,上述模块/单元之间的信息交互、执行过程等内容,由于与 本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参照 方法实施例部分,此处不再赘述。
图3是本申请另一实施例提供的一种终端设备的结构示意图。如图3所示, 该实施例提供的终端设备3包括:处理器30、存储器31以及存储在所述存储 器31中并可在所述处理器30上运行的计算机程序32,例如多智能体系统的协 同控制的程序。处理器30执行所述计算机程序32时实现上述各个多智能体系 统的网络参数更新方法实施例中的步骤,例如图1所示的S11~S14。或者,所 述处理器30执行所述计算机程序32时实现上述各终端设备实施例中各模块/ 单元的功能,例如图2所示单元21~24的功能。
示例性的,所述计算机程序32可以被分割成一个或多个模块/单元,所述 一个或者多个模块/单元被存储在所述存储器31中,并由处理器30执行,以完 成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机 程序指令段,该指令段用于描述所述计算机程序32在所述终端设备3中的执行 过程。例如,所述计算机程序32可以被分割成第一获取单元和第一处理单元, 各单元具体功能请参阅图1对应地实施例中的相关描述,此处不赘述。
所述终端设备可包括但不仅限于,处理器30、存储器31。本领域技术人员 可以理解,图3仅仅是终端设备3的示例,并不构成对终端设备3的限定,可 以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如 所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),还可 以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用 集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或 者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理 器也可以是任何常规的处理器等。
所述存储器31可以是所述终端设备3的内部存储单元,例如终端设备3 的硬盘或内存。所述存储器31也可以是所述终端设备3的外部存储设备,例如 所述终端设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC), 安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述 存储器31还可以既包括所述终端设备3的内部存储单元也包括外部存储设备。 所述存储器31用于存储所述计算机程序以及所述终端设备所需的其他程序和 数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质。请参阅图4,图4是本 申请实施例提供的一种计算机可读存储介质的结构示意图,如图4所示,计算 机可读存储介质4中存储有计算机程序41,计算机程序41被处理器执行时可 实现上述多智能体系统的网络参数更新方法。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备 上运行时,使得终端设备执行时实现可实现上述多智能体系统的网络参数更新 方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上 述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上 述功能分配由不同的功能单元、模块完成,即将所述终端设备的内部结构划分 成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的 各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存 在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采 用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、 模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。 上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过 程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详 述或记载的部分,可以参照其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示 例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来 实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用 和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现 所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照 前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其 依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特 征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申 请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种多智能体系统的网络参数更新方法,其特征在于,包括:
根据多智能体系统的新颖性参数确定整体内部奖励;
根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局部内部奖励;
获取每个智能体的外部奖励;
根据每个智能体的局部内部奖励和外部奖励确定各个智能体的网络更新参数,并将各个智能体的网络更新参数下发至各个智能体中,所述网络更新参数用于控制各个智能体根据网络更新参数对自身的网络进行训练。
2.根据权利要求1所述的方法,其特征在于,根据多智能体系统的新颖性参数确定整体内部奖励,包括:
根据当前时刻下多智能体在联合状态下采取联合动作的次数确定多智能体系统的新颖性参数;
基于多智能体系统的新颖性参数确定整体内部奖励。
3.根据权利要求1所述的方法,其特征在于,根据多智能体系统的新颖性参数确定整体内部奖励,包括:
根据预测误差来确定多智能体系统的新颖性参数;
基于多智能体系统的新颖性参数确定整体内部奖励。
4.根据权利要求1所述的方法,其特征在于,根据多智能体系统的新颖性参数确定整体内部奖励,包括:
基于后继特征来确定多智能体系统的新颖性参数;
再基于多智能体系统的新颖性参数确定整体内部奖励。
5.根据权利要求1所述的方法,其特征在于,根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局部内部奖励,包括:
根据每个智能体的优势函数来确定每个智能体的贡献程度;
基于智能体的贡献程度和整体内部奖励确定出该智能体的局部内部奖励。
6.根据权利要求1所述的方法,其特征在于,根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局部内部奖励,包括:
基于当前智能体的后继特征来确定每个智能体的贡献程度;
基于智能体的贡献程度和整体内部奖励确定出该智能体的局部内部奖励。
7.根据权利要求1至6任一项所述的方法,其特征在于,根据每个智能体的局部内部奖励和外部奖励确定各个智能体的网络更新参数,并将各个智能体的网络更新参数下发至各个智能体中,包括:
根据每个智能体的局部内部奖励和外部奖励确定每个智能体的总体奖励;
根据每个智能体的总体奖励对每个智能体的网络参数进行更新,得到网络更新参数。
8.一种网络参数更新装置,其特征在于,包括:
第一确定单元,用于根据多智能体系统的新颖性参数确定整体内部奖励;
第二确定单元,用于根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局部内部奖励;
获取单元,用于获取每个智能体的外部奖励;
更新单元,用于根据每个智能体的局部内部奖励和外部奖励确定各个智能体的网络更新参数,并将各个智能体的网络更新参数下发至各个智能体中,所述网络更新参数用于控制各个智能体根据网络更新参数对自身的网络进行训练。
9.一种终端设备,其特征在于,所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202011364310.3A 2020-11-27 2020-11-27 一种多智能体系统的网络参数更新方法、装置及终端设备 Pending CN112465148A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011364310.3A CN112465148A (zh) 2020-11-27 2020-11-27 一种多智能体系统的网络参数更新方法、装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011364310.3A CN112465148A (zh) 2020-11-27 2020-11-27 一种多智能体系统的网络参数更新方法、装置及终端设备

Publications (1)

Publication Number Publication Date
CN112465148A true CN112465148A (zh) 2021-03-09

Family

ID=74809808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011364310.3A Pending CN112465148A (zh) 2020-11-27 2020-11-27 一种多智能体系统的网络参数更新方法、装置及终端设备

Country Status (1)

Country Link
CN (1) CN112465148A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268893A (zh) * 2021-07-19 2021-08-17 中国科学院自动化研究所 基于连通保持约束的群体围捕方法及装置
CN113867147A (zh) * 2021-09-29 2021-12-31 商汤集团有限公司 训练及控制方法、装置、计算设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030154092A1 (en) * 2000-05-19 2003-08-14 Thierry Bouron Method and system for behavioural simulation of a plurality of consumers, by multiagent simulation
CN110852448A (zh) * 2019-11-15 2020-02-28 中山大学 一种基于多智能体强化学习的合作型智能体的学习方法
CN111062491A (zh) * 2019-12-13 2020-04-24 周世海 一种基于强化学习的智能体探索未知环境方法
CN111898770A (zh) * 2020-09-29 2020-11-06 四川大学 一种多智能体强化学习方法、电子设备及存储介质
US20200372366A1 (en) * 2019-05-23 2020-11-26 Deepmind Technologies Limited Jointly learning exploratory and non-exploratory action selection policies

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030154092A1 (en) * 2000-05-19 2003-08-14 Thierry Bouron Method and system for behavioural simulation of a plurality of consumers, by multiagent simulation
US20200372366A1 (en) * 2019-05-23 2020-11-26 Deepmind Technologies Limited Jointly learning exploratory and non-exploratory action selection policies
CN110852448A (zh) * 2019-11-15 2020-02-28 中山大学 一种基于多智能体强化学习的合作型智能体的学习方法
CN111062491A (zh) * 2019-12-13 2020-04-24 周世海 一种基于强化学习的智能体探索未知环境方法
CN111898770A (zh) * 2020-09-29 2020-11-06 四川大学 一种多智能体强化学习方法、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268893A (zh) * 2021-07-19 2021-08-17 中国科学院自动化研究所 基于连通保持约束的群体围捕方法及装置
CN113867147A (zh) * 2021-09-29 2021-12-31 商汤集团有限公司 训练及控制方法、装置、计算设备和介质
CN113867147B (zh) * 2021-09-29 2024-06-11 商汤集团有限公司 训练及控制方法、装置、计算设备和介质

Similar Documents

Publication Publication Date Title
Du et al. A survey on multi-agent deep reinforcement learning: from the perspective of challenges and applications
Florensa et al. Reverse curriculum generation for reinforcement learning
US20220363259A1 (en) Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device
US8655822B2 (en) Probabilistic decision making system and methods of use
Victor et al. Multi-agent cognitive system for optimal solution search
US20210158162A1 (en) Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space
CN112465148A (zh) 一种多智能体系统的网络参数更新方法、装置及终端设备
CN114261400B (zh) 一种自动驾驶决策方法、装置、设备和存储介质
CN111178545A (zh) 一种动态强化学习决策训练系统
CN114169421A (zh) 基于内在动机的多智能体稀疏奖励环境协作探索方法
Gatto et al. Modeling deep reinforcement learning based architectures for cyber-physical systems
WO2024067115A1 (zh) 一种生成流模型的训练方法及相关装置
Zhang et al. Clique-based cooperative multiagent reinforcement learning using factor graphs
Badica et al. An approach of temporal difference learning using agent-oriented programming
CN116533234A (zh) 基于分层强化学习与分布式学习的多轴孔装配方法及系统
Fang et al. Quadrotor navigation in dynamic environments with deep reinforcement learning
Lyu Knowledge-based sequential decision-making under uncertainty
Tang et al. Reinforcement learning for robots path planning with rule-based shallow-trial
CN113599832A (zh) 基于环境模型的对手建模方法、装置、设备及存储介质
Kumar et al. A Novel Algorithm for Optimal Trajectory Generation Using Q Learning
Say et al. A model for cognitively valid lifelong learning
CN115496208B (zh) 协同模式多样化导向的无监督多智能体强化学习方法
Amhraoui et al. Expected Lenient Q-learning: a fast variant of the Lenient Q-learning algorithm for cooperative stochastic Markov games
Chen et al. Deep Recurrent Policy Networks for Planning Under Partial Observability
Bose et al. Time constraint finite-horizon path planning solution for micromouse extreme problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination