CN113449867B

CN113449867B - 一种基于知识蒸馏的深度强化学习多智能体协作方法

Info

Publication number: CN113449867B
Application number: CN202110752371.5A
Authority: CN
Inventors: 韦云凯; 王志宏; 冷甦鹏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2022-07-12
Anticipated expiration: 2041-07-02
Also published as: CN113449867A

Abstract

本发明公开一种基于知识蒸馏的深度强化学习多智能体协作方法，应用于物联网领域，针对现有技术中多智能体协作过程中面临的协作开销大、协作效率低以及智能体模型复杂无法在轻量级物联网设备部署等问题，本发明通过将智能体分为有充足资源的教师智能体与资源较少的轻量型智能体，教师智能体部署复杂度较高的深度强化学习模型，基于历史经验和神经网络进行知识抽取，获取高效知识，并分享给本区域轻量级智能体，轻量型智能体部署复杂度较低的深度强化学习模型，对获得的高效知识样本进行蒸馏，并结合知识蒸馏的损失函数对神经网络进行梯度更新；本发明的方法，可以提高深度强化学习智能体学习效率，降低智能体之间的协作开销。

Description

一种基于知识蒸馏的深度强化学习多智能体协作方法

技术领域

本发明属于物联网领域，特别涉及一种多智能体协作技术。

背景技术

近年来，人工智能技术在物联网中应用广泛。其中，基于深度强化学习的智能体(Agent)来实现智能物联网是当前研究的重点方向之一，其通过多种传感器感知周围的环境信息，进行智能决策，从而实现与物联网环境的交互，从交互经验中进行学习，并完成相应的任务。

然而，在复杂的智能物联网环境中，单个智能体的学习和决策能力远远不够。使用一个中心化的智能体执行任务时，例如智能电网中的电力资源调度管理、智能计算卸载、主动边缘缓存等等，会受到计算资源、通信资源、感知资源等资源的限制，导致单个智能体无法应对错综复杂的物联网环境。在动态变化的复杂智能物联网环境中，每个智能体所处的局部环境通常都不一样，这就使得每个智能体对环境的感知信息都是不同的，而导致每个智能体不能对整体任务做出一致性的最优决策。在智能体之间建立交互机制可以将每个智能体感知到的局部环境信息聚合起来，形成一个对全局环境的统一描述，从让每个智能体做出优化决策。因此，使用多个智能体相互协作的模式应运而生，可以有效提高决策中的信息完整度与决策效率，是智能体重要的发展方向与应用模式。

但是，目前多智能体协作还面临着以下挑战：

首先，多智能体只能通过复杂交互获得智能物联网的全局信息。但是，这将引入不小的计算和通信开销。一方面，通信需求会随着智能体的数量增多迅速增大，带来巨大的通信压力；另一方面，这也要求智能体有足够的处理能力去从大量的信息中抽取全局环境信息，并且进一步去处理全局信息，形成最优决策。

其次，多智能体存在的智能物联网环境有很大的动态性，易产生维度灾难问题。在单智能体环境中，智能体只需从环境任务本身获得自身状态，然而在多智能体环境中，智能体本身也成为了环境的一部分，给环境带来复杂的动态性。一方面，智能体获得的环境反馈不仅和自身的策略有关，和其他智能体的策略也有关系；另一方面，单个智能体的状态不仅和任务环境有关，也和其他多个智能体的状态有关。

最后，智能体模型复杂，无法在轻量级物联网设备上部署。强化学习算法需要从大量的采样数据中进行学习，而这些样本的有效性很低，这就使得必须使用较为复杂的模型从大量的采样数据中进行学习。如何利用多个轻量级的智能体的模型来联合优化单个轻量级的智能体从而实现和复杂模型相近的性能，显得尤为重要。

因此，针对当前多智能体协作在物联网中面临的问题，设计一种在复杂智能物联网下的轻量级多智能体协作技术，来提高多智能体协作效率、增强协作的泛化能力以及降低部署要求，具有重要意义。

发明内容

为解决上述技术问题，本发明提出一种基于知识蒸馏的深度强化学习多智能体协作方法，通过结合知识蒸馏技术，降低基于深度强化学习的多智能体协作过程中的开销，提高多智能体协作的效率，降低了深度强化学习智能体在轻量级物联网设备上的部署难度。

本发明采用的技术方案为：一种基于知识蒸馏的深度强化学习多智能体协作方法，所述智能体通过多种传感器感知周围的环境信息，进行智能决策；所述智能体包括两类，分别为教师智能体和轻量级智能体；

将复杂任务划分为多个并行的子任务，每个子任务对应一个智能物联网区域；

每个智能物联网区域内包括一个教师智能体与多个轻量级智能体；每个智能体建立各自的深度强化学习神经网络模型，轻量级智能体将本地历史经验结合深度强化学习神经网络模型进行知识提取并上传给教师智能体；教师智能体根据所有轻量级智能体上传的知识，基于知识蒸馏进行聚合处理，并将聚合结果返回给该智能物联网区域内的轻量级智能体，轻量级智能体根据收到的返回结果进行知识蒸馏，更新本地模型参数。

各智能体的深度强化学习神经网络模型包括：策略网络、评价网络、经验缓存以及梯度更新函数；策略网络与评价网络采用相同的结构，所述结构具体为：一个共享的神经网络体和多个神经网络头；

策略网络负责实时与环境进行交互，在t时刻，输入状态s_i，随机选择一个策略网络头输出动作a_i；

所述经验缓存用于存储当前状态、当前状态对应的动作、当前状态对应的奖励、下一个状态；

评价网络根据输入的状态，输出使得评价网络取值最大的动作；评价网络还包括从策略网络中获取神经网络参数，更新自己的神经网络参数；

梯度更新函数使用梯度下降法，通过从经验缓存中获取五元组以及评价网络的输出对策略网络进行梯度更新。

所述聚合处理包括以下步骤：

A1：教师智能体对本地轻量级智能体上传的知识进行蒸馏，产生各样本目标特征向量；

A2：教师智能体对任务类型相同的其他智能物联网区域的教师智能体进行知识抽取，获取知识并进行蒸馏；

A3：教师智能体基于知识蒸馏的损失函数，利用进行蒸馏后的知识进行梯度下降，更新其深度强化学习神经网络模型参数；

A4：教师智能体基于历史经验和其深度强化学习神经网络模型进行知识抽取，获取高效知识，并分享给该智能物联网区域内的轻量级智能体；

A5：轻量级智能体对获得的高效知识样本进行蒸馏，并结合知识蒸馏的损失函数对其深度强化学习神经网络模型进行梯度更新。

所述知识抽取的实现过程为：

首先，产生基本知识

记第i个轻量级智能体的经验缓存为B_i＝{(s_j,a_j,r_j,s′_j)|j＝1…n}，其中n为样本数量，s′_j表示执行动作a_j后得到的状态，计算f_j＝mean(Q_1:L(s_j|θ))，其中s_j∈B，进而将<s_j,f_j>存入基本知识缓存D；

然后，计算样本置信度

对第i个轻量级智能体，利用策略网络对状态s_j∈B做出决策，且对于策略网络的每一个神经网络头都给出一个决策结果，记为{a₁,a₂,…,a_L}；进而计算知识样本(s_j,f_j)∈D的置信度为

其中，I为指示函数，L表示神经网络头的个数；

最后，产生高效知识样本

设定高效知识样本置信度阈值为∈，对于置信度η_j≥∈的知识样本进行分享，即对于第i个轻量级智能体，需要进行分享的高效知识样本为O＝{(s_i,f_i)|η_i≥∈}，∈取值在0-1之间。

所述知识蒸馏的实现过程为：

对知识样本以温度T进行蒸馏；智能体对于收到的每一个对分享的知识样本(s_i,f_i)，都给出一个隶属关系

形成知识蒸馏样本(s_i,f_i,m_i)，其中，s_i为物联网环境状态，f_i为状态s_i的特征；

接着，智能体对所有的样本按照温度T进行蒸馏，形成知识向量

进而形成训练样本(s_i,k_i,m_i)。

智能体通过蒸馏得到训练样本集之后，通过如下损失函数训练其深度强化学习神经网络模型：

其中，

δ是狄拉克δ函数，D_KL是相对熵，Q_l(θ)_j表示向量Q_l(θ)的第j个分量。

本发明的有益效果：本发明通过将智能体分为有充足资源的教师智能体与资源较少的轻量级智能体，每个智能物联网区域内包括一个教师智能体与多个轻量级智能体；教师智能体部署复杂度较高的深度强化学习模型，负责完成知识聚合，轻量级智能体部署复杂度较低的深度强化学习模型；教师智能体基于历史经验和神经网络进行知识抽取，获取高效知识，并分享给本区域轻量级智能体，轻量级智能体对获得的高效知识样本进行蒸馏，并结合知识蒸馏的损失函数对神经网络进行梯度更新；本发明的方法，可以提高深度强化学习智能体学习效率，降低智能体之间的协作开销，降低了智能体在多种轻量级物联网设备上的部署难度。

附图说明

图1是基于知识蒸馏的多智能体协作方法示意图；

图2是基于知识蒸馏的多智能体协作算法流程图；

图3是知识聚合算法流程图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

由于智能物联网环境的动态性、复杂性、状态部分可观性以及智能体规模上的维数灾难，多智能体环境存在复杂的协作问题。本发明设计了一种基于知识蒸馏的深度强化学习多智能体协作方法，多个智能体在通过深度强化学习对物联网环境进行探索学习与决策的同时，利用知识蒸馏技术提取其他智能体从历史经验中学到的知识，从而有效地提高了协作效率，保持了任务策略的多样性，降低了整体系统开销并且实现了轻量级智能体在多种物联网设备上的部署。下面对技术方案做具体的描述：

1、智能体的深度强化学习模型

本发明对物联网中的智能体建立深度强化学习模型，设定每个智能体的状态空间、行为空间、状态转移模型、奖励值、折扣因子以及初始策略。假设空间中共有n个智能体，每个智能体的编号分别从1到n，第i个智能体的编号为i。设状态空间为S，行为空间为A，状态转移模型为P，奖励值为R，折扣因子为γ，五元组<S,A,P,R,γ>决定了具体的多智能体模型。

(1)状态空间

对于每个智能体需要建立其状态空间，但是由于大多数情况下，多智能体是在一个较为复杂的物联网环境中进行空间探索以及完成任务，所以同一个任务区域的智能体一般具有相同的状态空间，不同任务区域的智能体可能具有不同的状态空间。因此，在相同的状态空间情况下，若第i个智能体的状态空间为S_i，第j个智能体的状态空间为S_j，则S_i＝S_j，1≤i,j≤N，i≠j。在不同的状态空间情况下，则S_i不一定等于S_j。因此，需要在具体任务区域下建立相应的局部状态空间。

(2)行为空间

同样的，需要对每个智能体建立行为空间，行为空间中包含了智能体在当下任务区域中可执行的所有动作。相同的状态空间智能体的行为空间一致。在不同的状态空间情况下，智能体的行为空间可能不同。

(3)状态转移模型

状态转移模型是物联网环境状态变化的概率模型，决定了任务环境在智能体执行一定的动作之后环境状态的变化规律。在多智能体物联网任务环境中，智能体本身也成为了物联网环境状态的一部分，因而物联网环境的状态转移模型更加复杂。

(4)奖励值

多智能体系统的奖励值R主要包括以下三个奖励：

a)局部实时奖励r₁：任务环境即时反馈给当前任务区域智能体的奖励值，根据当前智能体的任务目标完成度，给出相应的奖励值。奖励值的设定当前有很多方法可直接采用，本发明不限定具体奖励值的设定方法。为便于理解，举一例典型设置方法如：若当前智能体完成其任务目标，则给予正值奖励，奖励值大小是可根据运行效果进行调整的参数，实际应用经验中，该参数值通常设为1效果较好；否则，反馈负值奖励，一般设为正奖励值的相反数即可。

b)全局实时奖励r₂：当前任务环境给所有智能体的奖励，根据整体协作任务的完成度，给出相应的奖励值。如果整体协作完成共同任务，反馈正值奖励，否则反馈负值。奖励值设置与前述思路相似，但具体数值幅度大于a)中奖励值，如a)中奖励值设为1时，此处可以设为10。

c)最终全局任务完成度奖励r₃：根据任务的具体定义，对最终满足一定限制条件下的任务执行结果进行评价，给出最终全局任务的奖励值。该奖励值为较大的正值，该值可以与任务总执行时间有关。若总任务需要在尽量短的时间内完成，则总执行时间越长，最终奖励越小，总执行时间越短，最终奖励值越大，此时全局任务完成度奖励可以表示为r₃＝βe^-αT，其中T为任务执行总时间，他们的值可以根据具体的任务需求进行调整；若需要任务持续尽量长的时间，则总执行时间越长，最终奖励越大，总执行时间越短，最终奖励越小，此时全局任务完成度奖励可以表示为r₃＝βe^αT，其中α和β可以根据具体任务需求调整。通常，α为1-5之间的整数；β设置与奖励值相关，如前述奖励值r₁和r₂分别设为1和10时，β通常设置为100。

所以，智能体的奖励值为：

另外，因为任务环境的奖励有延时特性，智能体在做出决策时既要考虑即时奖励又要考虑未来可获得的奖励，因此智能体在t时刻执行决策的收益G_t可以表示为

其中，γ代表折扣因子，且γ∈(0,1]，γ越接近1表示越看重未来的奖励，γ越接近0表示越看重当前即时奖励。

(4)智能体模型组成

智能体的深度强化学习模型由这几部分组成，分别是Bootstrapped策略网络Q_1:L(θ)、评价网络Q′_1:L(θ′)、经验缓存以及梯度更新函数。其中，Q_1:L(θ)是一个由一个共享的神经网络体和多个神经网络头Q_l(θ)构成的，Q′_1:L(θ′)的结构和Q_1:L(θ)相同。如图1中深度强化学习模型所示，它们的作用和关系如下：策略网络负责实时与环境进行交互，在t时刻，输入状态s_i，随机选择一个策略网络头Q_l(θ)输出动作a_i；当智能体执行完动作后，环境将给出下一个状态s_i+1和奖励r_i，并根据分布m_i～P，随机产生一个隶属关系

智能体将五元组<s_i,a_i,r_i,s_i+1,m_i>存入经验缓存，其中

表示此样本可用于训练策略头Q_l(θ)；在所有的a_i中，必然存在一个特定的a_i，可使得评价网络Q′_l(s_i+1,a_i,θ′)取到最大值，为表述方便，将该特定的a_i记为a′。考虑到评价网络只要输入一个状态s，则可得到所有与a_i相关的Q′_l(s_i+1,a_i,θ′)值，故可直接获得a′的具体值。上标L表示神经网络头的个数，P表示一个概率分布，可以灵活采用多种分布，一般可直接采用伯努利分布。

梯度更新函数使用梯度下降法，通过从经验池中获取五元组<s_i,a_i,r_i,s_i+1,m_i>以及评价网络的输出对策略网络进行梯度更新，梯度下降法的目标为

经过一定更新循环次数后，该循环次数可根据任务需求和神经网络复杂度预先设置，通常可取1-10之间的整数，可结合采样规模、经验缓存大小等具体选择。评价网络从策略网络中获取神经网络参数，并更新一部分自己的神经网络参数，以便保障评价网络梯度更新的准确性和算法的收敛性。如此循环迭代，直到模型收敛，最终完成对智能体的深度强化学习模型的训练。

2、多智能体协作机制与算法流程

多智能体协作场景如图1所示。在该场景中，有多个智能体需要协作完成任务，并且通过知识蒸馏技术完成协作。智能体可以分为教师智能体(Teacher Agent)和轻量级智能体(Lightweight Agent,LWA)。教师智能体有较充足的通信、计算、能量等资源，足以独立完成给定的任务目标以及知识聚合过程，部署复杂度较高的深度强化学习智能体，负责完成知识聚合。轻量级智能体的通信、计算、能量等资源较少，不能独立完成给定任务目标，只能部署复杂度较低的深度强化学习智能体。根据实际情况，可以将一个复杂任务划分为多个可并行的子任务，即多个任务区域。在每个任务区域部署多个轻量级智能体以及一个教师智能体。同一任务区域内的智能体可以根据自身能力设计不同复杂度的模型，轻量级智能体尽可能设计轻量级模型，教师智能体部署复杂度较高的模型，所有智能体模型都不需要相同。

本发明在所有的智能体上部署深度强化学习算法和知识蒸馏算法。其中，智能体将各自建立不同的神经网络模型，并与环境进行交互，协作完成指定任务。而教师智能体可以获得本区域内其他智能体的信息，进行知识蒸馏，也就是通过聚合它们的经验知识并返回高效知识来供其他智能体进行协作训练，以更新神经网络参数，指导多智能体之间进行有效的协作，快速达成目标。同时，教师智能体也会获得每个任务区域内的教师智能体的信息，并且对相似任务类型的教师智能体进行知识抽取，进而实施知识聚合。

如图2所示，具体的多智能体协作算法如下：

step1：首先根据智能物联网中任务的特征，将任务划分为多个子任务，并将一个子任务分配给多个智能体执行，对每个轻量级智能体建立轻量级的深度强化学习模型，而给教师智能体建立复杂度较高的深度强化学习模型，设置智能体在区域任务环境中的状态空间、智能体可决策的行为空间以及环境对智能体的行为奖励。

step2：根据具体的深度强化学习算法，每个智能体建立并初始化对应的神经网络。

step3：智能体根据分配的子任务目标以及当前感知到的状态决策下一步采取的行为，并与环境进行交互，得到下一个状态，将该决策获得的四元组存储到经验缓存中，并且根据随机梯度下降法及时更新本地的神经网络模型。step2-step3持续循环，直到该智能体所分配到的子任务完成，将进入step4。

step4：将本地历史经验结合神经网络进行知识提取并上传给教师智能体，进行后续的知识蒸馏。

step5：教师智能体对所有轻量级智能体上传的知识，基于知识蒸馏进行聚合处理，并进一步提取其他区域内的教师智能体的知识进行知识聚合。教师智能体会对具有相似任务的教师智能体的知识进行知识聚合，并返回对应的聚合结果给相应区域的轻量级智能体。

step6：各个轻量级智能体根据收到的返回结果进行知识蒸馏，更新本地模型参数。

step7：重复step3-step6，直到完成目标任务。

3、知识聚合算法

本部分基于知识蒸馏以及教师智能体对智能体上传的知识进行处理并将结果返回给智能体，加快智能体学习进程。知识蒸馏主要的作用是对知识进行聚合，产生高效学习样本供轻量级神经网络模型进行训练。知识聚合算法流程如图3所示，步骤如下：

step1：任务区域内智能体将从本地历史经验抽取的知识样本上传至教师智能体；

step2：教师智能体对本地轻量级智能体上传的知识进行蒸馏，产生各样本目标特征向量。

step3：教师智能体对任务类型相同的其他区域的教师智能体进行知识抽取，获取知识并进行蒸馏。

step4：教师智能体基于知识蒸馏的损失函数，利用进行蒸馏后的知识进行梯度下降，更新神经网络参数。

step5：教师智能体基于历史经验和神经网络进行知识抽取，获取高效知识，并分享给本区域轻量级智能体。

step6：轻量级智能体对获得的高效知识样本进行蒸馏，并结合知识蒸馏的损失函数对神经网络进行梯度更新。

知识聚合算法中涉及到的知识抽取和知识蒸馏过程具体如下：

(1)知识抽取

本部分主要是基于智能体历史经验，结合神经网络抽取任务知识的过程，保证知识样本的高效性，具体如下：

a)产生基本知识

记第i个轻量级智能体的经验缓存为B_i＝{(s_j,a_j,r_j,s′_j)|j＝1…n}，其中n为样本数量，s′_j表示执行动作a_j后得到的状态，计算f_j＝mean(Q_1:L(s_j|θ))，其中s_j∈B，进而将<s_j,f_j>存入基本知识缓存D。

b)计算样本置信度

对第i个轻量级智能体，利用策略网络对状态s_j∈B做出决策，且对于策略网络的每一个头都应给出一个决策结果，记为{a₁,a₂,…,a_L}。进而计算样本(s_j,f_j)∈D的置信度为

其中I为指示函数。

c)产生高效知识样本

设定高效知识样本置信度阈值为∈，对于置信度η_j≥∈的知识样本进行分享，即对于第i个轻量级智能体，需要进行分享的高效知识样本为O＝{(s_i,f_i)|η_i≥∈}。其中，∈取值必须在0-1之间，其值越高，则置信度越高。一般取值至少在0.5以上，但很少直接设为1，因为会严重影响收敛速度。结合应用环境、需求与相关经验值，通常可设定∈值为0.8-0.9之间的数值。

(2)知识蒸馏

利用知识蒸馏方法，利用高效知识样本训练神经网络进行分析，具体如下：

a)对知识样本以温度T进行蒸馏

智能体对于收到的每一个对分享的知识(s_i,f_i)，都要给出一个隶属关系

形成知识蒸馏样本(s_i,f_i,m_i)。其中，s_i为物联网环境状态，f_i为状态s_i的特征。接着，智能体对所有的样本按照温度T进行蒸馏，形成知识向量

进而形成训练样本(s_i,k_i,m_i)。

b)训练网络

智能体通过蒸馏得到训练样本集之后，通过如下损失函数训练神经网络：

其中

δ是狄拉克δ函数，其数学描述为：δ(x)＝0,(x≠0)且

D_KL是相对熵，且

其中k_ij表示知识向量k_i的第j个分量，Q_l(θ)_j表示向量Q_l(θ)的第j个分量。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于知识蒸馏的深度强化学习多智能体协作方法，其特征在于，所述智能体通过多种传感器感知周围的环境信息，进行智能决策；所述智能体包括两类，分别为教师智能体和轻量级智能体；

每个智能物联网区域内包括一个教师智能体与多个轻量级智能体；每个智能体建立各自的深度强化学习神经网络模型，轻量级智能体将本地历史经验结合深度强化学习神经网络模型进行知识提取并上传给教师智能体；教师智能体根据所有轻量级智能体上传的知识，基于知识蒸馏进行聚合处理，并将聚合结果返回给该智能物联网区域内的轻量级智能体，轻量级智能体根据收到的返回结果进行知识蒸馏，更新本地模型参数；

梯度更新函数使用梯度下降法，通过从经验缓存中获取五元组以及评价网络的输出对策略网络进行梯度更新；

所述聚合处理包括以下步骤：

A5：轻量级智能体对获得的高效知识样本进行蒸馏，并结合知识蒸馏的损失函数对其深度强化学习神经网络模型进行梯度更新；

所述知识抽取的实现过程为：

首先，产生基本知识

然后，计算样本置信度

其中，I为指示函数，L表示神经网络头的个数；

最后，产生高效知识样本

设定高效知识样本置信度阈值为∈，对于置信度η_j≥∈的知识样本进行分享，即对于第i个轻量级智能体，需要进行分享的高效知识样本为O＝{(s_i,f_i)|η_i≥∈}，∈取值在0-1之间；

所述知识蒸馏的实现过程为：

进而形成训练样本(s_i,k_i,m_i)。

2.根据权利要求1所述的一种基于知识蒸馏的深度强化学习多智能体协作方法，其特征在于，智能体通过蒸馏得到训练样本集之后，通过如下损失函数训练其深度强化学习神经网络模型：

其中，