CN112465148A

CN112465148A - 一种多智能体系统的网络参数更新方法、装置及终端设备

Info

Publication number: CN112465148A
Application number: CN202011364310.3A
Authority: CN
Inventors: 陈广勇; 董一臻; 郝建业; 王琼; 王平安
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-09

Abstract

本申请适用于人工智能技术领域，提供了一种多智能体系统的网络参数更新方法、装置及终端设备，通过整个智能体系统的新颖性参数来确定整体内部奖励，然后基于各个智能体的贡献程度来确定每个智能体的局部内部奖励，再结合外部奖励来对确定每个智能体的网络更新参数，既从全局角度确定了内部奖励使得多智能体系统对全局状态空间的搜索更加全面，由根据每个智能体对整体新颖性参数的贡献程度确定智能体的内部奖励，充分考虑到了不同的智能体的探索能力的不同，减少重复、冗余的探索，加快训练速度，提升任务的完成效率。

Description

一种多智能体系统的网络参数更新方法、装置及终端设备

技术领域

本申请属于人工智能技术领域，尤其涉及一种多智能体系统的网络参数更新方法、装置及终端设备。

背景技术

人工智能是研究开发用于模拟、扩展人的智能的理论、方法、技术及应用的技术科学。人工智能研究的一个主要目标是由智能体(Agent)进行学习模拟人类决策，从而胜任一些需要人类智能才能完成的复杂工作。单个智能体的功能有限，无法应对复杂的任务，这推动了多智能体系统概念的产生。多智能体系统由多个能够自主决策、互相交互的智能体相结合组成，它们共享同一个环境，具有感知与执行机制。目前，多智能体系统已经成为人工智能领域的研究热点。

在协作型多智能体任务中，只有当多智能体联合完成一个任务后，才能够获得一个外部奖励。对于没有进行过探索或探索次数的环境，如何有效地提高探索效率是目前多智能体系统的训练过程中亟需解决的问题。对于上述问题，目前通常是将多智能体系统看做一个整体，然后基于全局的状态新颖性参数程度来确定每个智能体的局部信息，再基于各个智能体的局部信息来对每个智能体的网络参数进行更新。使得更新了网络参数的多智能体系统能够最终决策出最优的协同控制策略。然而这种方式没有考虑每个智能体的独特性，容易产生冗余的探索行为，降低了合作任务的完成效率。

发明内容

有鉴于此，本申请实施例提供了一种多智能体系统的网络参数更新方法、装置及终端设备，以解决目前基于深度学习的病虫害种类识别系统无法全面且准确地识别出果树的病虫害种类的问题。

第一方面，本申请实施例提供一种多智能体系统的网络参数更新方法，包括：

根据多智能体系统的新颖性参数确定整体内部奖励；

根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局部内部奖励；

获取每个智能体的外部奖励；

根据每个智能体的局部内部奖励和外部奖励确定各个智能体的网络更新参数，并将各个智能体的网络更新参数下发至各个智能体中，所述网络更新参数用于控制各个智能体根据网络更新参数对自身的网络进行训练。

可选的，根据多智能体系统的新颖性参数确定整体内部奖励，包括：

根据当前时刻下多智能体在联合状态下采取联合动作的次数确定多智能体系统的新颖性参数；

基于多智能体系统的新颖性参数确定整体内部奖励。

根据预测误差来确定多智能体系统的新颖性参数；

基于多智能体系统的新颖性参数确定整体内部奖励。

基于后继特征来确定多智能体系统的新颖性参数；

再基于多智能体系统的新颖性参数确定整体内部奖励。

可选的，根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局部内部奖励，包括：

根据每个智能体的优势函数来确定每个智能体的贡献程度；

基于智能体的贡献程度和整体内部奖励确定出该智能体的局部内部奖励。

基于当前智能体的后继特征来确定每个智能体的贡献程度；

可选的，根据每个智能体的局部内部奖励和外部奖励对自身的网络进行训练，包括：

根据每个智能体的局部内部奖励和外部奖励确定各个智能体的网络更新参数，并将各个智能体的网络更新参数下发至各个智能体中，包括：

根据每个智能体的局部内部奖励和外部奖励确定每个智能体的总体奖励；

根据每个智能体的总体奖励对每个智能体的网络参数进行更新，得到网络更新参数。

第二方面，本申请实施例提供一种网络参数更新装置，包括：

第一确定单元，用于根据多智能体系统的新颖性参数确定整体内部奖励；

第二确定单元，用于根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局部内部奖励；

获取单元，用于获取每个智能体的外部奖励；

训练单元，用于根据每个智能体的局部内部奖励和外部奖励对自身的网络进行训练。

第三方面，本申请实施例提供一种终端设备，所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第一方面的任意可选方式所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面的任意可选方式所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面或第一方面的任意可选方式所述的方法。

实施本申请实施例提供的一种多智能体系统的网络参数更新方法、装置及终端设备、终端设备、计算机可读存储介质及计算机程序产品具有以下有益效果：

本申请实施例提供的一种多智能体系统的网络参数更新方法，通过整个智能体系统的新颖性参数来确定整体内部奖励，然后基于各个智能体的贡献程度来确定每个智能体的局部内部奖励，再结合外部奖励来对确定每个智能体的网络更新参数，既从全局角度确定了内部奖励使得多智能体系统对全局状态空间的搜索更加全面，由根据每个智能体对整体新颖性参数的贡献程度确定智能体的内部奖励，充分考虑到了不同的智能体的探索能力的不同，减少重复、冗余的探索，加快训练速度，提升任务的完成效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种多智能体系统的网络参数更新方法的示意性流程图；

图2是本申请实施例提供一种网络参数更新装置结构示意图；

图3是本申请另一实施例提供的一种终端设备的结构示意图；

图4是本申请实施例提供的一种计算机可读存储介质的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

还应当理解，在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

多智能体系统在社会、工业和国防等多个领域具有十分广泛的应用前景，多智能体系统包括但不限于传感网络、无人机编队系统、多机器人合作系统、生物网络、卫星姿态控制系统等。

如何让多智能体系统在稀疏奖励环境中学习到最优的协同策略，是实现多智能体系统的协同控制的一大挑战。其中，稀疏奖励环境是指多外部奖励较少的环境。例如，在扫地机器人任务中，多个扫地机器人要合作地清扫一块区域，只有当所有机器人将所有区域清扫一遍时任务才视作完成，只有在所有机器人将所有区域清扫完成才能够获得一个外部奖励。

因此，可以将上述合作清扫任务抽象为稀疏奖励环境下的多智能体强化学习问题，每个扫地机器人视作一个智能体，只有在所有智能体合作完成整体任务后才能获得一个稀疏的外部奖励。

在单智能体环境中，通常可以通过给强化学习的智能体赋予一个内部奖励，然后结合外部奖励来更新该智能体的网络参数，然后基于更新后的网络参数训练智能体网络。例如，基于智能体对当前观测的新颖性参数来赋予该智能体的内部奖励，当前观测的新颖性参数越高则赋予的内部奖励越大，反之亦然。这样能够促使智能体访问未知状态(或访问次数很少)的区域，从而起到探索作用，发掘环境中的潜在奖励。而对于如何使得多智能体系统在稀疏奖励环境中学习到最优的协同策略的问题，一种简单的解决方式是将单智能体下的基于新颖性参数的探索方式直接应用于多智能体，使每个智能体都独立地进行探索。然而这种方式容易导致多智能体系统不能对联合状态空间进行全面探索，并且可能产生冗余的探索行为，导致探索效率低。另一种解决方式为将多智能体系统看成一个整体，基于全局的状态新颖性参数程度计算内部奖励，所有智能体使用相同的内部奖励结合外部奖励更新自身的网络参数，然后基于更新后的网络参数进行训练。这种方式考虑了全局状态的新颖性参数，却忽视了多智能体系统中每个智能体的独特性，同样容易产生冗余的探索行为，导致任务完成效率低下。

为了解决上述缺陷，本申请实施例提供了一种多智能体的协同控制方法，通过整个智能体系统的新颖性参数来确定整体内部奖励，然后基于各个智能体的贡献程度来确定每个智能体的局部内部奖励，再结合外部奖励来对确定每个智能体的网络更新参数，既从全局角度确定了内部奖励使得多智能体系统对全局状态空间的搜索更加全面，由根据每个智能体对整体新颖性参数的贡献程度确定智能体的内部奖励，充分考虑到了不同的智能体的探索能力的不同，减少重复、冗余的探索，加快训练速度，提升任务的完成效率。

以下将对本申请实施例提供的多智能体系统的网络参数更新方法、装置及终端设备进行详细的说明：

需要说明的是，本申请实施例提供的多智能体系统可以是传感网络、无人机编队系统、多机器人合作系统、生物网络、卫星姿态控制系统等系统。具体地，本申请实施例以多机器人合作系统为例进行说明。其中，上述多机器人合作系统可以是多扫地机器人合作系统。

在本申请实施例中，上述多扫地机器人合作系统包括多个扫地机器人，每个扫地机器人就是一个智能体。

在本申请实施例中，上述多智能体系统的网络参数更新方法应用于上述多智能体系统的网络参数进行更新，以使上述多智能体系统在进行合作协同任务时决策出最佳的协作策略。例如，使得上述多扫地机器人合作系统在扫地任务中决策出由哪个智能体负责哪一部分区域的清洁的协作策略，同时减少提高多扫地机器人合作系统的探索效率，以缩短扫地任务的时间。

在本申请实施例中，上述多智能体系统的网络参数更新方法可以由上述多智能体系统中的任一一个智能体来执行，也可以是由独立于该多智能体系统的具备数据处理能力的终端设备来执行。

示例性的，上述终端设备可以云服务器、计算机、手机等终端设备。该终端设备可以与该多智能体系统中的每个智能体进行通信，以获取或下发各类数据，例如获取每个智能体的环境反馈，下发网络更新参数等。

请参阅图1，图1是本申请实施例提供的一种多智能体系统的网络参数更新方法的示意性流程图。

如图1所示，上述多智能体系统的网络参数更新方法可以包括S11～S14，详述如下：

S11：根据多智能体系统的新颖性参数确定整体内部奖励。

在本申请实施例中，上述多智能体系统的新颖性参数是指多智能体系统的当前联合状态与上一联合状态的差异值。

在本申请一实施例中，可以计算当前时刻下多智能体在联合状态下采取联合动作的次数来确定多智能体系统的新颖性参数，再基于多智能体系统的新颖性参数确定整体内部奖励。

具体地，假设t时刻下智能体们的联合状态为S_t，联合动作的为u_t，C(S_t,u_t) 表示在整个训练过程中多智能体系统在联合状态S_t下采取联合动作u_t的次数。而新颖性参数与多智能体系统在联合状态S_t下采取联合动作u_t的次数的关系是多智能体系统在联合状态S_t下采取联合动作u_t的次数越多，则新颖性参数越小，多智能体系统在联合状态S_t下采取联合动作u_t的次数越少，则新颖性参数越大。因此新颖性参数N_t可以表示为：

而整体内部奖励R_t可以根据新颖性参数N_t和内部奖励权重β来确定，整体内部奖励可以表示为：

其中，内部奖励权重β可以根据实际网络训练情况来设定，在此不加以限制。

在本申请另一实施例中，可以根据预测误差来确定多智能体系统的新颖性参数，再基于多智能体系统的新颖性参数确定整体内部奖励。

具体地，可以预先设定两个网络，其中一个网络为随机初始化且参数固定不变(即不参与训练过程)的网络f，网络f的输入状态为(s,u)，输出向量为 f(s,u)；另外一个网络为随机初始化但是参数不是固定不变(即参与训练过程) 的网络

以同样的输入状态(s,u)输入到网络

中进行训练，得到的输出向量为

其中输入状态(s,u)表示联合状态s和当前状态采取的动作u的联合向量。

因此，将网络

的损失函数定义为：

对于同一个输入状态s，用网络

去逼近网络f，就能够得到多智能体系统在训练过程中所有状态信息。且预测误差

随着输出状态s的增加而减少，因此可以使用预测误差

的倒数来反映多智能体系统所经历的联合状态的次数。因此，将t时刻的多智能体系统的新颖性参数定义为：

在本申请另一实施例中，可以基于后继特征来确定多智能体系统的新颖性参数，再基于多智能体系统的新颖性参数确定整体内部奖励。

具体地，用φ(s)表示多智能体系统的当前状态s的特征，用

表示多智能体系统在当前状态s下根据当前策略π所经历的后续状态的折扣期望和。两个状态s_t(当前时刻)和s_t+1(当前时刻的下一时刻)的后继特征之差的欧拉距离

可以反映在当前策略π下从当前状态s_t采取动作u_t到达状态s_t+1后，多智能体系统后续轨迹的差异。因此，可以将多智能体系统的新颖性参数定义为：

S12：根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局部内部奖励。

在本申请实施例中，为了考虑每个智能体的独特性，以保证在探索过程中能够充分利用每个智能体的探索能力，减少冗余的探索时间，在基于全局的新颖性参数确定出整体内部奖励后，还需要针对每个智能体对内部奖励的贡献程度来确定每个智能体的局部内部奖励的占比。

具体地，整体内部奖励为可以表示为R_i，智能体a的局部内部奖励记为r_i ^a，即智能体a的局部内部奖励表示为：r_i ^a＝p^a×R_i，其中，p^a为智能体a的局部内部奖励占整体内部奖励的比例，且

在本申请一实施例中，可以确定每个智能体的优势函数来确定每个智能体的贡献程度，然后基于智能体的贡献程度和整体内部奖励确定出该智能体的局部内部奖励。

上述智能体a的优势函数可以表示为：

其中，A^a表示智能体a在当前策略π下，采取动作u^a相比于采取其他动作对整体(即多智能体系统)的新颖性参数的贡献程度，A^a越大，表示智能体a的当前动作u^a和其他动作相比对系统的训练贡献程度越大。通过上述优势函数计算出所有智能体的贡献程度。需要说明书的是，N(S,U)即S11中的N_t。o^a是智能体a的自观测参数，可以根据现有的分布式部分可观测马尔科夫算法计算得到，在此不加以赘述。u^a表示智能体a的动作，U^-a表示其他智能体的联合动作。

然后基于softmax函数确定出每个智能体的局部内在奖励的占比p^a，每个智能体的局部内在奖励的占比p^a可以表示为：

其中，n为智能体的个数，n为大于或等于2的正整数。

在本申请一实施例中，可以基于当前智能体的后继特征来确定每个智能体的贡献程度，然后基于智能体的贡献程度和整体内部奖励确定出该智能体的局部内部奖励。

具体地，基于后继特征的整体内部奖励是两个相邻的联合状态的后继状态之间的差异，要计算每个智能体的状态变化对联合状态变化的贡献程度，可以固定其他智能体状态不变，仅改变当前智能体状态，因此，每个智能体对整体内部奖励的贡献程度可以表示为：

其中，

表示在 t时刻除了智能体a以外其他智能体的联合状态，

表示在t时刻智能体a的状态，

表示在t+1时刻智能体a的状态，d^a表示智能体a的状态变化对整个多智能体系统后续状态变化的贡献程度。

然后就可以确定出每个智能体的局部内在奖励的占比p^a，每个智能体的局部内在奖励的占比p^a可以表示为：

其中，n为智能体的个数，n为大于或等于2的正整数。

S13：获取每个智能体的外部奖励。

在具体应用中，在每个时间t，每个智能体i根据自身观测oⁱ选择一个动作 uⁱ，组成一个联合动作u，与环境进行交互，并到下一个状态s_t+1，同时每个智能体还能够获取与其对应的环境反馈r_t(s,u)。将上述环境反馈确定为每个智能体的外部奖励。

需要说明的是，上述智能体获取与其对应的环境反馈的过程可以参见现有的多智能体强化学习过程，在此不再加以赘述。

S14：根据每个智能体的局部内部奖励和外部奖励确定各个智能体的网络更新参数，并将各个智能体的网络更新参数下发至各个智能体中。

在本申请实施例中，上述结合上述每个智能体的局部内部奖励和外部奖励确定每个智能体的总体奖励。然后基于每个智能体的总体奖励对每个智能体的网络参数进行更新，得到每个智能体对应的网络更新参数。在确定出每个智能体对应的网络更新参数后，可以将每个智能体对应的网络更新参数下发给其对应的智能体，以控制每个智能体基于网络更新参数对自己的网络参数进行更新，每个智能体在更新完自身的网络参数后，就能够基于更新后的网络参数进行训练，进而得到能够做出最优协同策略的动作。需要说明的是，每个智能体的具体的训练过程可以参见现有的智能体训练过程，本文对此不加以限制。

在本申请实施例中，可以将上述总体奖励定义为上述局部内部奖励和外部奖励的总和。需要说明的是，还可以根据其他应用场景将总体奖励定义为上述局部内部奖励和外部奖励的其他相关函数，本申请不对此加以限制。

在本申请实施例中，当每一个智能体均完成训练后，多智能体系统也完成了训练，训练完成的多智能系统能够协同控制每一个智能体根据决策出的策略执行相应地动作，实现协同控制。

在本申请一实施例中，由一组同质智能体进行协同合作任务，智能体间的位置互换不影响任务的完成程度。如在扫地机器人场景中，扫地机器人组的任务是合作地清扫一块区域，假设现有两个机器人分别为机器人1和机器人2，它们的任务为分别去清扫房间A和房间B，让机器人1去清扫房间A、机器人 2去清扫房间B，和让机器人1去清扫房间B、机器人2去清扫房间A对整体任务的完成程度是相同的，即都是机器人1和机器人2共同清扫了房间A和房间B。因此，在确定局部内部奖励时，可以给予两个这两个机器人相同的内部奖励。因此，更新智能体系统的全局新颖性评估函数时，使用数据增强的方式，将原始的全局状态-动作对进行扩展，随机打乱智能体之间的位置以及相应的动作，继而进行更新。

以上可以看出，本申请实施例提供的多智能体的协同控制方法，通过整个智能体系统的新颖性参数来确定整体内部奖励，然后基于各个智能体的贡献程度来确定每个智能体的局部内部奖励，再结合外部奖励来对确定每个智能体的网络更新参数，既从全局角度确定了内部奖励使得多智能体系统对全局状态空间的搜索更加全面，由根据每个智能体对整体新颖性参数的贡献程度确定智能体的内部奖励，充分考虑到了不同的智能体的探索能力的不同，减少重复、冗余的探索，加快训练速度，提升任务的完成效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

基于上述实施例所提供的多智能体系统的网络参数更新方法，本发明实施例进一步给出实现上述方法实施例的装置的实施例。

请参阅图2，图2是本申请实施例提供的一种网络参数更新装置的结构示意图。本申请实施例中，网络参数更新装置包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1以及图1对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。如图2所示，多智能体系统20 包括：第一确定单元21、第二确定单元22、获取单元23以及更新单元24。其中：

第一确定单元21用于根据多智能体系统的新颖性参数确定整体内部奖励。

第二确定单元22用于根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局部内部奖励。

获取单元23用于获取每个智能体的外部奖励。

更新单元24用于根据每个智能体的局部内部奖励和外部奖励确定各个智能体的网络更新参数，并将各个智能体的网络更新参数下发至各个智能体中，所述网络更新参数用于控制各个智能体根据网络更新参数对自身的网络进行训练。

可选的，第一确定单元21具体用于：

基于多智能体系统的新颖性参数确定整体内部奖励。

可选的，第一确定单元21具体用于：

根据预测误差来确定多智能体系统的新颖性参数；

基于多智能体系统的新颖性参数确定整体内部奖励。

可选的，第一确定单元21具体用于：

基于后继特征来确定多智能体系统的新颖性参数；

再基于多智能体系统的新颖性参数确定整体内部奖励。

可选地，第二确定单元22具体用于：

根据每个智能体的优势函数来确定每个智能体的贡献程度；

可选地，第二确定单元22具体用于：

基于当前智能体的后继特征来确定每个智能体的贡献程度；

基于智能体的贡献程度和整体内部奖励确定出该智能体的局部内部奖励.

可选地，上述更新单元24可以包括第三确定单元和参数更新单元。

第三确定单元用于根据每个智能体的局部内部奖励和外部奖励确定每个智能体的总体奖励。

参数更新单元用于根据每个智能体的总体奖励对每个智能体的网络参数进行更新，得到网络更新参数。

需要说明的是，上述模块/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参照方法实施例部分，此处不再赘述。

图3是本申请另一实施例提供的一种终端设备的结构示意图。如图3所示，该实施例提供的终端设备3包括：处理器30、存储器31以及存储在所述存储器31中并可在所述处理器30上运行的计算机程序32，例如多智能体系统的协同控制的程序。处理器30执行所述计算机程序32时实现上述各个多智能体系统的网络参数更新方法实施例中的步骤，例如图1所示的S11～S14。或者，所述处理器30执行所述计算机程序32时实现上述各终端设备实施例中各模块/ 单元的功能，例如图2所示单元21～24的功能。

示例性的，所述计算机程序32可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器31中，并由处理器30执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序32在所述终端设备3中的执行过程。例如，所述计算机程序32可以被分割成第一获取单元和第一处理单元，各单元具体功能请参阅图1对应地实施例中的相关描述，此处不赘述。

所述终端设备可包括但不仅限于，处理器30、存储器31。本领域技术人员可以理解，图3仅仅是终端设备3的示例，并不构成对终端设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器31可以是所述终端设备3的内部存储单元，例如终端设备3 的硬盘或内存。所述存储器31也可以是所述终端设备3的外部存储设备，例如所述终端设备3上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器31还可以既包括所述终端设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质。请参阅图4，图4是本申请实施例提供的一种计算机可读存储介质的结构示意图，如图4所示，计算机可读存储介质4中存储有计算机程序41，计算机程序41被处理器执行时可实现上述多智能体系统的网络参数更新方法。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述多智能体系统的网络参数更新方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述终端设备的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参照其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种多智能体系统的网络参数更新方法，其特征在于，包括：

根据多智能体系统的新颖性参数确定整体内部奖励；

获取每个智能体的外部奖励；

2.根据权利要求1所述的方法，其特征在于，根据多智能体系统的新颖性参数确定整体内部奖励，包括：

基于多智能体系统的新颖性参数确定整体内部奖励。

3.根据权利要求1所述的方法，其特征在于，根据多智能体系统的新颖性参数确定整体内部奖励，包括：

根据预测误差来确定多智能体系统的新颖性参数；

基于多智能体系统的新颖性参数确定整体内部奖励。

4.根据权利要求1所述的方法，其特征在于，根据多智能体系统的新颖性参数确定整体内部奖励，包括：

基于后继特征来确定多智能体系统的新颖性参数；

再基于多智能体系统的新颖性参数确定整体内部奖励。

5.根据权利要求1所述的方法，其特征在于，根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局部内部奖励，包括：

根据每个智能体的优势函数来确定每个智能体的贡献程度；

6.根据权利要求1所述的方法，其特征在于，根据整体内部奖励和每个智能体的贡献程度确定每个智能体的局部内部奖励，包括：

基于当前智能体的后继特征来确定每个智能体的贡献程度；

7.根据权利要求1至6任一项所述的方法，其特征在于，根据每个智能体的局部内部奖励和外部奖励确定各个智能体的网络更新参数，并将各个智能体的网络更新参数下发至各个智能体中，包括：

8.一种网络参数更新装置，其特征在于，包括：

获取单元，用于获取每个智能体的外部奖励；

更新单元，用于根据每个智能体的局部内部奖励和外部奖励确定各个智能体的网络更新参数，并将各个智能体的网络更新参数下发至各个智能体中，所述网络更新参数用于控制各个智能体根据网络更新参数对自身的网络进行训练。

9.一种终端设备，其特征在于，所述终端设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。