CN112465151A

CN112465151A - 一种基于深度强化学习的多智能体联邦协作方法

Info

Publication number: CN112465151A
Application number: CN202011490926.5A
Authority: CN
Inventors: 韦云凯; 周思佩; 冷甦鹏; 杨鲲; 刘强; 沈军
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-03-09

Abstract

本发明公开了一种基于深度强化学习的多智能体联邦协作方法，包括以下步骤：S1、对每个智能体建立深度强化学习模型；S2、为智能体建立对应的神经网络；S3、智能体与环境进行交互，将决策经验存储到经验池中，并且根据随机梯度下降法更新本地的神经网络模型；S4、将本地的神经网络模型参数传给协作平台；S5、对智能体上传的参数进行聚合处理，并将结果返回给各个智能体进行参数更新；S6、智能体进行软更新，得到最新的本地模型参数；S7、重复S3‑S6，直到完成目标任务。本发明的智能体在通过深度强化学习进行环境探索与决策的同时，利用联邦学习技术获取其他智能体学习经验，从而有效地提高智能体学习效率，且降低智能体之间的协作开销。

Description

一种基于深度强化学习的多智能体联邦协作方法

技术领域

本发明属于人工智能领域，具体针对在复杂任务下多智能体协作过程中面临的协作开销大以及协作效率低等问题，设计了一种基于深度强化学习的多智能体联邦协作方法，通过结合联邦学习技术，降低基于深度强化学习的多智能体协作过程中的开销，提高多智能体协作的效率。

背景技术

近年来，人工智能技术快速发展并得到了广泛的应用。其中，基于深度强化学习的智能体(Agent)是当前研究的重点方向之一，其通过感知周围的环境信息，进行智能决策，从而实现与环境的交互，完成相应的任务。

在现实问题中，单智能体的决策能力远远不够。使用一个中心化的智能体解决问题时，会遇到各种资源和条件的限制，导致单个智能体无法应对错综复杂的现实环境，而使用多个智能体相互协作可以有效提高决策中的信息完整度与决策效率。

但是，目前多智能体协作还面临着以下挑战：

首先，多智能体的环境通常是部分可观测的。在多智能体环境中，每个智能体所处的局部环境通常都不一样，这就使得它们收到的观测信息也不一样，而每个观测信息中都保留了一些局部的环境信息。在智能体之间建立沟通机制可以将每个智能体了解到的局部环境信息聚合起来，形成一个对整体环境的一个大致描述，从而提高算法的性能。但是，这就对沟通信息处理模块的性能提出了更高的要求，即要求该模块能够从繁杂的观测信息中过滤抽取出有效的信息，并形成对整体环境的一个高效的表达，这往往会带来不小的开销。

其次，多智能体的环境为非静态。在单智能体环境中，智能体只需要考虑自己的动作产生的结果即可。然而在多智能体环境中，智能体获得的环境反馈不仅和自身的策略有关，和其他智能体的策略也有关系。如果智能体之间各自交流，那么总体上完成任务需要的耗时将不断增加。

最后，多智能体易产生维数灾难。当智能体数量较多时，整体模型的规模也将变得十分庞大，而强化学习算法恰恰又需要从大量的采样数据中进行学习，这就使得模型的训练过程十分缓慢。如何利用多个智能体的模型来优化单个智能体的模型训练就显得尤为重要。

因此，针对当前多智能体协作面临的问题，设计一种在复杂条件下的多智能体协作技术，来提高多智能体协作效率以及增强协作的泛化能力，具有重要意义。

发明内容

本发明的目的在于克服现有技术的不足，提供一种智能体在通过深度强化学习进行环境探索与决策的同时，利用联邦学习技术获取其他智能体学习经验，从而有效地提高智能体学习效率，且降低智能体之间的协作开销的基于深度强化学习的多智能体联邦协作方法。

本发明的目的是通过以下技术方案来实现的：一种基于深度强化学习的多智能体联邦协作方法，包括以下步骤：

S1、对任务和智能体进行划分，对每个智能体建立深度强化学习模型，设置智能体在环境中的状态空间、智能体可决策的行为空间以及环境对智能体的行为奖励；

S2、根据深度强化学习算法，为每个智能体建立对应的神经网络，同一个任务区域内的智能体建立相同的神经网络模型，不同任务区域的智能体可以建立不同的神经网络模型；

S3、智能体根据分配的目标以及当前自身状态决策下一步采取的行为，并与环境进行交互，得到下一个自身状态，将该决策经验存储到经验池中，并且根据随机梯度下降法及时更新本地的神经网络模型；

S4、在循环达到设定的次数后，将本地的神经网络模型参数传给协作平台，进行后续的联邦学习；

S5、对所有智能体上传的参数进行聚合处理，并将结果返回给各个智能体进行参数更新；协作平台根据任务的类型以及增强型智能体模型对智能体进行划分，对具有相似任务以及相同模型的增强型智能体进行参数聚合，并返回对应的聚合结果；

S6、各个智能体将收到的返回结果与本地的神经网络参数进行软更新，得到最新的本地模型参数；

S7、重复S3-S6，直到完成目标任务。

进一步地，所述步骤S1对任务和智能体进行划分的具体实现方法为：将多个智能体分为多个任务区域，每个任务区域内有一个增强型智能体以及多个普通智能体；将每个任务区域内能力最强的智能体作为增强型智能体，其余智能体为普通智能体。

进一步地，所述步骤S1中建立深度强化学习模型为：设空间中共有N个智能体，智能体的编号分别从1到n，第i个智能体的编号为i；设状态空间为S，行为空间为A，奖励值为R，三元组<S，A，R>决定了具体的多智能体模型；

(1)状态空间：在相同的状态空间情况下，若第i个智能体的状态空间为S_i，第j个智能体的状态空间为S_j，则S_i＝S_j，1≤i≤N，1≤j≤N，i≠j；在不同的状态空间情况下，则根据具体场景建立智能体状态空间S_i和S_j；

(2)行为空间：对每个智能体建立行为空间，相同的状态空间智能体的行为空间一致；在不同的状态空间情况下，根据具体场景建立智能体行为空间；

(3)奖励值，多智能体系统的奖励值R包括以下三个奖励：

a)个体即时奖励r₁：环境即时反馈给当前智能体奖励，设当前状态为s_i，下一个状态为s_i+1，期望的状态为s_e，若|s_i+1-s_e|＜|s_i-s_e|，则判定为靠近目标，奖励p，否则为远离目标，奖励-p；

b)全局即时奖励r₂：当前环境给所有智能体的奖励，设当前全局智能体的状态为s_t，

为t时刻第j个智能体的状态，全局智能体下一个状态为s_t+1，完成任务时全局智能体的状态为s_e，若|s_t+1-s_e|＜|s_t-s_e|，则判定为靠近目标，对每个智能体奖励q，否则为远离目标，对每个智能体奖励-q；

其中，p、q为用户设定的正数，满足q≤p；

c)全局最终奖励r₃：当多智能体系统完成目标后给全局所有智能体的奖励，其他情况不奖励；全局最终奖励与总时间相关，即总时间越长，最终奖励越小，总时间越短，最终奖励越大；所以，全局最终奖励表示为

其中T为总时间，α、β为系数，α＜0，β＞0，由用户设定，并且满足β≥10(p+q)，保障r₃为(p+q)的数十倍及以上，促使智能体学习目前已知的近似最优策略；

所以，智能体的奖励值为：

另外，多智能体在选择动作获得即时奖励的同时，也需要考虑到未来的收益，因此智能体在t时刻的奖励值G_t表示为

其中，R_t+k+1表示智能体在t+k+1时刻的奖励值，

γ代表折扣系数，γ越大表示越看重未来的奖励，γ越小表示越看重当前奖励；

(4)模型组成：智能体的模型由交互网络Q(θ)、评价网络Q′(θ′)、经验池以及梯度更新函数组成，其中θ和θ′分别指的是交互网络以及评价网络的神经网络系数，由每层网络的权重和偏差组成；它们的作用和关系如下：

交互网络负责实时与环境进行交互，在t时刻，第i个智能体的输入状态为s_i，输出动作为a_i；当智能体执行完动作后，环境将给出下一个状态s_i+1和奖励R_i，智能体将四元组<s_i，a_i，R_i，s_i+1>存入经验池；

梯度更新函数使用梯度下降法，通过从经验池中获取四元组以及评价网络的输出对交互网络进行梯度更新，梯度下降法的公式为min(R_i+γmax_a′Q′(s_i+1，a′；θ′)-Q(s_i，a_i；θ))²，其中a′为执行完动作a_i到达状态s_i+1后可选的动作；

经过一定次数后，评价网络从交互网络中获取神经网络参数，并更新一部分自己的神经网络参数，以便保障评价网络梯度更新的准确性和算法的收敛性；

如此循环迭代，当智能体完成目标任务或者达到预定的迭代次数时结束，最终完成对智能体的深度强化学习模型的训练。

进一步地，所述步骤S5中参数聚合算法包括以下子步骤：

S51、任务区域内的普通智能体将本地参数样本上传至增强型智能体；

S52、增强型智能体对参数样本计算中心点，并计算各个参数样本至中心点的马氏距离；

S53、去除至中心点的马氏距离大于预设阈值的节点；

S54、对剩下的节点进行加权平均，并将结果返回给普通智能体；

S55、普通智能体以软更新方式更新本地的模型参数。

进一步地，所述步骤S52中计算中心点的具体实现方法为：记第i个普通智能体上传的模型参数样本为θ_i，每次增强型智能体或参数聚合协作平台收到的模型参数样本集合为Θ＝{θ_i}；通过计算平均值来得到样本的中心点θ_avg，即

n为模型参数样本的数量；

参数样本至中心点的马氏距离计算方法为：首先计算协方差矩阵∑_X，公式如下：

其中，X大小为n×m，即n个模型参数样本，每个样本有m维；

则第i个模型参数样本θ_i与中心点θ_avg的马氏距离D_ma(θ_i，θ_avg)为：

进一步地，所述步骤S54具体实现方法为：根据每个普通智能体的能力大小以及可信度对普通智能体打分，赋予不同权值；设第i个普通智能体的模型参数样本权值为w_i，设经过参数过滤后的模型参数样本集合为Φ，则加权平均的结果θ_agg为：

最后将结果θ_agg返回给每个普通智能体。

进一步地，所述步骤S55具体实现方法为：普通智能体收到增强型智能体或参数聚合协作平台返回的更新参数θ_agg后，以软更新的方式进行本地的神经网络模型更新，即以比重τ将θ_agg加入本地当前神经模型参数θ_t中，则更新完后的神经网络参数θ_t+1为：θ_t+1＝(1-τ)θ_t+τθ_agg，完成一次联邦学习过程，其中τ∈[0，1]；当τ为0时，表示不将更新参数θ_agg融入本地模型；当τ为1时，表示本地模型直接复制更新参数θ_agg。根据经验，比重τ在初始时设置一个相对较大的值，以便加快训练步伐，然后在训练迭代的过程中，逐步的降低比重，保证收敛稳定性。

本发明的有益效果是：本发明通过联邦学习加强基于深度强化学习的智能体之间的协作，多个智能体在通过深度强化学习进行环境探索与决策的同时，利用联邦学习技术获取其他智能体学习经验，从而有效地提高智能体学习效率，且降低智能体之间的协作开销。由于本发明方法具有一定的泛化能力，可以适用于不同场景下的多智能协作。

附图说明

图1为多智能体协作场景图；

图2为本发明的基于深度强化学习的多智能体联邦协作方法的流程图；

图3为本发明的参数聚合算法流程图。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

本发明中所描述的智能体具有实体特征，可以指网络安全检测中的高性能智能检测设备和普通智能检测设备，也可以指多个无人智能设备或系统，例如无人机、自动驾驶汽车、传感节点等。在网络安全检测中，智能检测设备或节点可被视为智能体，单个智能检测设备受限于自身计算能力以及部署在局部环境中，发挥的安全保护作用有限，因此它们之间需要通过多智能体协作来提高整体的安全保护能力，达到全局防御的效果。而在多个无人智能设备或系统中，为了完成一些任务，需要彼此间进行协作，也存在着主协调者以及从属者之间的协作。例如，在多无人机协同控制领域中，无人机可分为领机(Leader)以及从机(Follower)，而且需要它们进行有效的协作，完成目标跟踪、路径规划等任务，这也属于多智能体协作，并且在军事领域和民用领域具有重要的应用价值。多智能体协作场景如图1所示。在该场景中，有多个智能体需要协作完成任务，并且有一个参数聚合协作平台。智能体可以分为增强型智能体(E-Agent)和普通智能体(Agent)。可以根据智能体的能力大小，如通信、计算等资源，将部分拥有较强能力的智能体作为增强型智能体。根据实际情况，可以将复杂任务化分为多个子任务，即任务区域。在每个任务区域内部署多个普通智能体以及一个增强型智能体。同一任务区域内的智能体具有相同的模型，而不同任务区域内智能体模型不一定相同。

本发明在所有的智能体上部署深度强化学习算法，并且在增强型智能体以及参数聚合协作平台上部署联邦学习。其中，智能体将各自建立神经网络模型，并与环境进行交互，协作完成指定任务。而增强型智能体可以获得本区域内其他智能体的信息，通过聚合它们的参数信息并返回结果来加快其他智能体的本地神经模型参数更新，指导多智能体之间进行有效的协作，快速达成目标。同时，参数聚合协作平台也会获取每个任务区域内的增强型智能体的模型参数，并且对相似任务类型的增强型智能体实施联邦学习。利用联邦学习，增强型智能体和协作平台对智能体上传的参数进行聚合处理，剔除异常、离群的参数，并将剩余参数进行加权平均，并将结果返回给各个智能体进行参数更新。智能体将收到的结果与本地的神经网络参数进行软更新，即以一定的比重将结果加入到本地的参数中。这样每个智能体就可以学习其他智能体的经验，优化智能体的本地模型，形成较好的协作效果，共同完成任务。

如图2所示，本发明的一种基于深度强化学习的多智能体联邦协作方法，包括以下步骤：

对任务和智能体进行划分的具体实现方法为：将多个智能体分为多个任务区域，每个任务区域内有一个增强型智能体以及多个普通智能体；将每个任务区域内能力最强的智能体作为增强型智能体，其余智能体为普通智能体。

建立深度强化学习模型为：设空间中共有N个智能体，智能体的编号分别从1到n，第i个智能体的编号为i；设状态空间为S，行为空间为A，奖励值为R，三元组<S，A，R>决定了具体的多智能体模型；

(1)状态空间：对于每个智能体需要建立其状态空间，但是由于大多数情况下，多智能体是在一个大环境中进行空间探索以及完成任务，所以同一个任务区域的智能体一般具有相同的状态空间，不同任务区域的智能体可能具有不同的状态空间。因此，在相同的状态空间情况下，若第i个智能体的状态空间为S_i，第j个智能体的状态空间为S_j，则S_i＝S_j，1≤i≤N，1≤j≤N，i≠j，N为智能体数量；在不同的状态空间情况下，则根据具体场景建立智能体状态空间S_i和S_j；

(3)奖励值，多智能体系统的奖励值R包括以下三个奖励：

其中，p、q为用户设定的正数，满足q≤p；

c)全局最终奖励r₃：当多智能体系统完成目标后给全局所有智能体的奖励，其他情况不奖励；全局最终奖励与总时间(步数)相关，即总时间越长，最终奖励越小，总时间越短，最终奖励越大；所以，全局最终奖励表示为

其中T为总时间，α、β为系数，α＜0，β＞0，由用户设定，，可根据具体需求进行调整，满足β≥10(p+q)，保障r₃为(p+q)的数十倍及以上，促使智能体学习目前已知的近似最优策略；

所以，智能体的奖励值为：

其中，R_t+k+1表示智能体在t+k+1时刻的奖励值，

(这里为无限折扣模型，因此

i值无上限)；γ代表折扣系数，γ越大表示越看重未来的奖励，γ越小表示越看重当前奖励；

本部分基于联邦学习，协作平台以及增强型智能体会对智能体上传的参数进行处理并将结果返回给智能体，加快智能体学习进程。联邦学习主要的作用是对参数进行聚合，提高整体上模型参数的准确性。参数聚合算法流程如图3所示，包括以下子步骤：

计算中心点的具体实现方法为：记第i个普通智能体上传的模型参数样本为θ_i，每次增强型智能体或参数聚合协作平台收到的模型参数样本集合为Θ＝{θ_i}；通过计算平均值来得到样本的中心点θ_avg，即

n为模型参数样本的数量；

其中，X大小为n×m，即n个模型参数样本，每个样本有m维；

S53、去除至中心点的马氏距离大于预设阈值的节点；设定剔除阈值∈，若D_ma＞∈，则将该模型参数样本剔除；若D_ma≤∈，则保留该模型参数样本。阈值∈的值可以根据实际的需求灵活调整，∈越小有效参与聚合的样本越少，∈越大有效参与聚合的样本越多。

步骤S52和S53主要是对智能体所上传的模型参数样本进行预处理，过滤异常值，剔除离群点，保证最终结果的收敛性。

S54、对剩下的节点进行加权平均，并将结果返回给普通智能体；具体实现方法为：根据每个普通智能体的能力大小以及可信度对普通智能体打分，赋予不同权值；设第i个普通智能体的模型参数样本权值为w_i，设经过参数过滤后的模型参数样本集合为Φ，则加权平均的结果θ_agg为：

最后将结果θ_agg返回给每个普通智能体。

S55、普通智能体以软更新方式更新本地的模型参数；具体实现方法为：普通智能体收到增强型智能体或参数聚合协作平台返回的更新参数θ_agg后，以软更新的方式进行本地的神经网络模型更新，即以比重τ将θ_agg加入本地当前神经模型参数θ_t中，则更新完后的神经网络参数θ_t+1为：θ_t+1＝(1-τ)θ_t+τθ_agg，完成一次联邦学习过程，其中τ∈[0，1]；当τ为0时，表示不将更新参数θ_agg融入本地模型；当τ为1时，表示本地模型直接复制更新参数θ_agg。根据经验，比重τ在初始时设置一个相对较大的值，以便加快训练步伐，然后在训练迭代的过程中，逐步的降低比重，保证收敛稳定性。

S7、重复S3-S6，直到完成目标任务。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于深度强化学习的多智能体联邦协作方法，其特征在于，包括以下步骤：

S2、根据深度强化学习算法，为每个智能体建立神经网络；

S7、重复S3-S6，直到完成目标任务。

2.根据权利要求1所述的一种基于深度强化学习的多智能体联邦协作方法，其特征在于，所述步骤S1对任务和智能体进行划分的具体实现方法为：将多个智能体分为多个任务区域，每个任务区域内有一个增强型智能体以及多个普通智能体；将每个任务区域内能力最强的智能体作为增强型智能体，其余智能体为普通智能体。

3.根据权利要求1所述的一种基于深度强化学习的多智能体联邦协作方法，其特征在于，所述步骤S1中建立深度强化学习模型为：设空间中共有N个智能体，智能体的编号分别从1到n，第i个智能体的编号为i；设状态空间为S，行为空间为A，奖励值为R，三元组<S，A，R>决定了具体的多智能体模型；

(3)奖励值，多智能体系统的奖励值R包括以下三个奖励：

其中，p、q为用户设定的正数，满足q≤p；

所以，智能体的奖励值为：

其中，R_t+k+1表示智能体在t+k+1时刻的奖励值，

4.根据权利要求1所述的一种基于深度强化学习的多智能体联邦协作方法，其特征在于，所述步骤S5中参数聚合算法包括以下子步骤：

S53、去除至中心点的马氏距离大于预设阈值的节点；

S55、普通智能体以软更新方式更新本地的模型参数。

5.根据权利要求4所述的一种基于深度强化学习的多智能体联邦协作方法，其特征在于，所述步骤S52中计算中心点的具体实现方法为：记第i个普通智能体上传的模型参数样本为θ_i，每次增强型智能体或参数聚合协作平台收到的模型参数样本集合为Θ＝{θ_i}；通过计算平均值来得到样本的中心点θ_avg，即

n为模型参数样本的数量；

其中，X大小为n×m，即n个模型参数样本，每个样本有m维；

6.根据权利要求4所述的一种基于深度强化学习的多智能体联邦协作方法，其特征在于，所述步骤S54具体实现方法为：根据每个普通智能体的能力大小以及可信度对普通智能体打分，赋予不同权值；设第i个普通智能体的模型参数样本权值为w_i，设经过参数过滤后的模型参数样本集合为Φ，则加权平均的结果θ_agg为：

最后将结果θ_agg返回给每个普通智能体。

7.根据权利要求4所述的一种基于深度强化学习的多智能体联邦协作方法，其特征在于，所述步骤S55具体实现方法为：普通智能体收到增强型智能体或参数聚合协作平台返回的更新参数θ_agg后，以软更新的方式进行本地的神经网络模型更新，即以比重τ将θ_agg加入本地当前神经模型参数θ_t中，则更新完后的神经网络参数θ_t+1为：θ_t+1＝(1-τ)θ_t+τθ_agg，完成一次联邦学习过程，其中τ∈[0，1]；当τ为0时，表示不将更新参数θ_agg融入本地模型；当τ为1时，表示本地模型直接复制更新参数θ_agg。