CN113449867B - 一种基于知识蒸馏的深度强化学习多智能体协作方法 - Google Patents
一种基于知识蒸馏的深度强化学习多智能体协作方法 Download PDFInfo
- Publication number
- CN113449867B CN113449867B CN202110752371.5A CN202110752371A CN113449867B CN 113449867 B CN113449867 B CN 113449867B CN 202110752371 A CN202110752371 A CN 202110752371A CN 113449867 B CN113449867 B CN 113449867B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- agent
- intelligent
- lightweight
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 42
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 11
- 239000003795 chemical substances by application Substances 0.000 claims description 218
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 23
- 238000003062 neural network model Methods 0.000 claims description 17
- 238000011156 evaluation Methods 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 15
- 230000002776 aggregation Effects 0.000 claims description 15
- 238000004220 aggregation Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 7
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000004821 distillation Methods 0.000 claims description 3
- 210000005036 nerve Anatomy 0.000 claims description 2
- 238000006116 polymerization reaction Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于知识蒸馏的深度强化学习多智能体协作方法,应用于物联网领域,针对现有技术中多智能体协作过程中面临的协作开销大、协作效率低以及智能体模型复杂无法在轻量级物联网设备部署等问题,本发明通过将智能体分为有充足资源的教师智能体与资源较少的轻量型智能体,教师智能体部署复杂度较高的深度强化学习模型,基于历史经验和神经网络进行知识抽取,获取高效知识,并分享给本区域轻量级智能体,轻量型智能体部署复杂度较低的深度强化学习模型,对获得的高效知识样本进行蒸馏,并结合知识蒸馏的损失函数对神经网络进行梯度更新;本发明的方法,可以提高深度强化学习智能体学习效率,降低智能体之间的协作开销。
Description
技术领域
本发明属于物联网领域,特别涉及一种多智能体协作技术。
背景技术
近年来,人工智能技术在物联网中应用广泛。其中,基于深度强化学习的智能体(Agent)来实现智能物联网是当前研究的重点方向之一,其通过多种传感器感知周围的环境信息,进行智能决策,从而实现与物联网环境的交互,从交互经验中进行学习,并完成相应的任务。
然而,在复杂的智能物联网环境中,单个智能体的学习和决策能力远远不够。使用一个中心化的智能体执行任务时,例如智能电网中的电力资源调度管理、智能计算卸载、主动边缘缓存等等,会受到计算资源、通信资源、感知资源等资源的限制,导致单个智能体无法应对错综复杂的物联网环境。在动态变化的复杂智能物联网环境中,每个智能体所处的局部环境通常都不一样,这就使得每个智能体对环境的感知信息都是不同的,而导致每个智能体不能对整体任务做出一致性的最优决策。在智能体之间建立交互机制可以将每个智能体感知到的局部环境信息聚合起来,形成一个对全局环境的统一描述,从让每个智能体做出优化决策。因此,使用多个智能体相互协作的模式应运而生,可以有效提高决策中的信息完整度与决策效率,是智能体重要的发展方向与应用模式。
但是,目前多智能体协作还面临着以下挑战:
首先,多智能体只能通过复杂交互获得智能物联网的全局信息。但是,这将引入不小的计算和通信开销。一方面,通信需求会随着智能体的数量增多迅速增大,带来巨大的通信压力;另一方面,这也要求智能体有足够的处理能力去从大量的信息中抽取全局环境信息,并且进一步去处理全局信息,形成最优决策。
其次,多智能体存在的智能物联网环境有很大的动态性,易产生维度灾难问题。在单智能体环境中,智能体只需从环境任务本身获得自身状态,然而在多智能体环境中,智能体本身也成为了环境的一部分,给环境带来复杂的动态性。一方面,智能体获得的环境反馈不仅和自身的策略有关,和其他智能体的策略也有关系;另一方面,单个智能体的状态不仅和任务环境有关,也和其他多个智能体的状态有关。
最后,智能体模型复杂,无法在轻量级物联网设备上部署。强化学习算法需要从大量的采样数据中进行学习,而这些样本的有效性很低,这就使得必须使用较为复杂的模型从大量的采样数据中进行学习。如何利用多个轻量级的智能体的模型来联合优化单个轻量级的智能体从而实现和复杂模型相近的性能,显得尤为重要。
因此,针对当前多智能体协作在物联网中面临的问题,设计一种在复杂智能物联网下的轻量级多智能体协作技术,来提高多智能体协作效率、增强协作的泛化能力以及降低部署要求,具有重要意义。
发明内容
为解决上述技术问题,本发明提出一种基于知识蒸馏的深度强化学习多智能体协作方法,通过结合知识蒸馏技术,降低基于深度强化学习的多智能体协作过程中的开销,提高多智能体协作的效率,降低了深度强化学习智能体在轻量级物联网设备上的部署难度。
本发明采用的技术方案为:一种基于知识蒸馏的深度强化学习多智能体协作方法,所述智能体通过多种传感器感知周围的环境信息,进行智能决策;所述智能体包括两类,分别为教师智能体和轻量级智能体;
将复杂任务划分为多个并行的子任务,每个子任务对应一个智能物联网区域;
每个智能物联网区域内包括一个教师智能体与多个轻量级智能体;每个智能体建立各自的深度强化学习神经网络模型,轻量级智能体将本地历史经验结合深度强化学习神经网络模型进行知识提取并上传给教师智能体;教师智能体根据所有轻量级智能体上传的知识,基于知识蒸馏进行聚合处理,并将聚合结果返回给该智能物联网区域内的轻量级智能体,轻量级智能体根据收到的返回结果进行知识蒸馏,更新本地模型参数。
各智能体的深度强化学习神经网络模型包括:策略网络、评价网络、经验缓存以及梯度更新函数;策略网络与评价网络采用相同的结构,所述结构具体为:一个共享的神经网络体和多个神经网络头;
策略网络负责实时与环境进行交互,在t时刻,输入状态si,随机选择一个策略网络头输出动作ai;
所述经验缓存用于存储当前状态、当前状态对应的动作、当前状态对应的奖励、下一个状态;
评价网络根据输入的状态,输出使得评价网络取值最大的动作;评价网络还包括从策略网络中获取神经网络参数,更新自己的神经网络参数;
梯度更新函数使用梯度下降法,通过从经验缓存中获取五元组以及评价网络的输出对策略网络进行梯度更新。
所述聚合处理包括以下步骤:
A1:教师智能体对本地轻量级智能体上传的知识进行蒸馏,产生各样本目标特征向量;
A2:教师智能体对任务类型相同的其他智能物联网区域的教师智能体进行知识抽取,获取知识并进行蒸馏;
A3:教师智能体基于知识蒸馏的损失函数,利用进行蒸馏后的知识进行梯度下降,更新其深度强化学习神经网络模型参数;
A4:教师智能体基于历史经验和其深度强化学习神经网络模型进行知识抽取,获取高效知识,并分享给该智能物联网区域内的轻量级智能体;
A5:轻量级智能体对获得的高效知识样本进行蒸馏,并结合知识蒸馏的损失函数对其深度强化学习神经网络模型进行梯度更新。
所述知识抽取的实现过程为:
首先,产生基本知识
记第i个轻量级智能体的经验缓存为Bi={(sj,aj,rj,s′j)|j=1…n},其中n为样本数量,s′j表示执行动作aj后得到的状态,计算fj=mean(Q1:L(sj|θ)),其中sj∈B,进而将<sj,fj>存入基本知识缓存D;
然后,计算样本置信度
对第i个轻量级智能体,利用策略网络对状态sj∈B做出决策,且对于策略网络的每一个神经网络头都给出一个决策结果,记为{a1,a2,…,aL};进而计算知识样本(sj,fj)∈D的置信度为其中,I为指示函数,L表示神经网络头的个数;
最后,产生高效知识样本
设定高效知识样本置信度阈值为∈,对于置信度ηj≥∈的知识样本进行分享,即对于第i个轻量级智能体,需要进行分享的高效知识样本为O={(si,fi)|ηi≥∈},∈取值在0-1之间。
所述知识蒸馏的实现过程为:
接着,智能体对所有的样本按照温度T进行蒸馏,形成知识向量
进而形成训练样本(si,ki,mi)。
智能体通过蒸馏得到训练样本集之后,通过如下损失函数训练其深度强化学习神经网络模型:
本发明的有益效果:本发明通过将智能体分为有充足资源的教师智能体与资源较少的轻量级智能体,每个智能物联网区域内包括一个教师智能体与多个轻量级智能体;教师智能体部署复杂度较高的深度强化学习模型,负责完成知识聚合,轻量级智能体部署复杂度较低的深度强化学习模型;教师智能体基于历史经验和神经网络进行知识抽取,获取高效知识,并分享给本区域轻量级智能体,轻量级智能体对获得的高效知识样本进行蒸馏,并结合知识蒸馏的损失函数对神经网络进行梯度更新;本发明的方法,可以提高深度强化学习智能体学习效率,降低智能体之间的协作开销,降低了智能体在多种轻量级物联网设备上的部署难度。
附图说明
图1是基于知识蒸馏的多智能体协作方法示意图;
图2是基于知识蒸馏的多智能体协作算法流程图;
图3是知识聚合算法流程图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
由于智能物联网环境的动态性、复杂性、状态部分可观性以及智能体规模上的维数灾难,多智能体环境存在复杂的协作问题。本发明设计了一种基于知识蒸馏的深度强化学习多智能体协作方法,多个智能体在通过深度强化学习对物联网环境进行探索学习与决策的同时,利用知识蒸馏技术提取其他智能体从历史经验中学到的知识,从而有效地提高了协作效率,保持了任务策略的多样性,降低了整体系统开销并且实现了轻量级智能体在多种物联网设备上的部署。下面对技术方案做具体的描述:
1、智能体的深度强化学习模型
本发明对物联网中的智能体建立深度强化学习模型,设定每个智能体的状态空间、行为空间、状态转移模型、奖励值、折扣因子以及初始策略。假设空间中共有n个智能体,每个智能体的编号分别从1到n,第i个智能体的编号为i。设状态空间为S,行为空间为A,状态转移模型为P,奖励值为R,折扣因子为γ,五元组<S,A,P,R,γ>决定了具体的多智能体模型。
(1)状态空间
对于每个智能体需要建立其状态空间,但是由于大多数情况下,多智能体是在一个较为复杂的物联网环境中进行空间探索以及完成任务,所以同一个任务区域的智能体一般具有相同的状态空间,不同任务区域的智能体可能具有不同的状态空间。因此,在相同的状态空间情况下,若第i个智能体的状态空间为Si,第j个智能体的状态空间为Sj,则Si=Sj,1≤i,j≤N,i≠j。在不同的状态空间情况下,则Si不一定等于Sj。因此,需要在具体任务区域下建立相应的局部状态空间。
(2)行为空间
同样的,需要对每个智能体建立行为空间,行为空间中包含了智能体在当下任务区域中可执行的所有动作。相同的状态空间智能体的行为空间一致。在不同的状态空间情况下,智能体的行为空间可能不同。
(3)状态转移模型
状态转移模型是物联网环境状态变化的概率模型,决定了任务环境在智能体执行一定的动作之后环境状态的变化规律。在多智能体物联网任务环境中,智能体本身也成为了物联网环境状态的一部分,因而物联网环境的状态转移模型更加复杂。
(4)奖励值
多智能体系统的奖励值R主要包括以下三个奖励:
a)局部实时奖励r1:任务环境即时反馈给当前任务区域智能体的奖励值,根据当前智能体的任务目标完成度,给出相应的奖励值。奖励值的设定当前有很多方法可直接采用,本发明不限定具体奖励值的设定方法。为便于理解,举一例典型设置方法如:若当前智能体完成其任务目标,则给予正值奖励,奖励值大小是可根据运行效果进行调整的参数,实际应用经验中,该参数值通常设为1效果较好;否则,反馈负值奖励,一般设为正奖励值的相反数即可。
b)全局实时奖励r2:当前任务环境给所有智能体的奖励,根据整体协作任务的完成度,给出相应的奖励值。如果整体协作完成共同任务,反馈正值奖励,否则反馈负值。奖励值设置与前述思路相似,但具体数值幅度大于a)中奖励值,如a)中奖励值设为1时,此处可以设为10。
c)最终全局任务完成度奖励r3:根据任务的具体定义,对最终满足一定限制条件下的任务执行结果进行评价,给出最终全局任务的奖励值。该奖励值为较大的正值,该值可以与任务总执行时间有关。若总任务需要在尽量短的时间内完成,则总执行时间越长,最终奖励越小,总执行时间越短,最终奖励值越大,此时全局任务完成度奖励可以表示为r3=βe-αT,其中T为任务执行总时间,他们的值可以根据具体的任务需求进行调整;若需要任务持续尽量长的时间,则总执行时间越长,最终奖励越大,总执行时间越短,最终奖励越小,此时全局任务完成度奖励可以表示为r3=βeαT,其中α和β可以根据具体任务需求调整。通常,α为1-5之间的整数;β设置与奖励值相关,如前述奖励值r1和r2分别设为1和10时,β通常设置为100。
另外,因为任务环境的奖励有延时特性,智能体在做出决策时既要考虑即时奖励又要考虑未来可获得的奖励,因此智能体在t时刻执行决策的收益Gt可以表示为
其中,γ代表折扣因子,且γ∈(0,1],γ越接近1表示越看重未来的奖励,γ越接近0表示越看重当前即时奖励。
(4)智能体模型组成
智能体的深度强化学习模型由这几部分组成,分别是Bootstrapped策略网络Q1:L(θ)、评价网络Q′1:L(θ′)、经验缓存以及梯度更新函数。其中,Q1:L(θ)是一个由一个共享的神经网络体和多个神经网络头Ql(θ)构成的,Q′1:L(θ′)的结构和Q1:L(θ)相同。如图1中深度强化学习模型所示,它们的作用和关系如下:策略网络负责实时与环境进行交互,在t时刻,输入状态si,随机选择一个策略网络头Ql(θ)输出动作ai;当智能体执行完动作后,环境将给出下一个状态si+1和奖励ri,并根据分布mi~P,随机产生一个隶属关系智能体将五元组<si,ai,ri,si+1,mi>存入经验缓存,其中表示此样本可用于训练策略头Ql(θ);在所有的ai中,必然存在一个特定的ai,可使得评价网络Q′l(si+1,ai,θ′)取到最大值,为表述方便,将该特定的ai记为a′。考虑到评价网络只要输入一个状态s,则可得到所有与ai相关的Q′l(si+1,ai,θ′)值,故可直接获得a′的具体值。上标L表示神经网络头的个数,P表示一个概率分布,可以灵活采用多种分布,一般可直接采用伯努利分布。
梯度更新函数使用梯度下降法,通过从经验池中获取五元组<si,ai,ri,si+1,mi>以及评价网络的输出对策略网络进行梯度更新,梯度下降法的目标为 经过一定更新循环次数后,该循环次数可根据任务需求和神经网络复杂度预先设置,通常可取1-10之间的整数,可结合采样规模、经验缓存大小等具体选择。评价网络从策略网络中获取神经网络参数,并更新一部分自己的神经网络参数,以便保障评价网络梯度更新的准确性和算法的收敛性。如此循环迭代,直到模型收敛,最终完成对智能体的深度强化学习模型的训练。
2、多智能体协作机制与算法流程
多智能体协作场景如图1所示。在该场景中,有多个智能体需要协作完成任务,并且通过知识蒸馏技术完成协作。智能体可以分为教师智能体(Teacher Agent)和轻量级智能体(Lightweight Agent,LWA)。教师智能体有较充足的通信、计算、能量等资源,足以独立完成给定的任务目标以及知识聚合过程,部署复杂度较高的深度强化学习智能体,负责完成知识聚合。轻量级智能体的通信、计算、能量等资源较少,不能独立完成给定任务目标,只能部署复杂度较低的深度强化学习智能体。根据实际情况,可以将一个复杂任务划分为多个可并行的子任务,即多个任务区域。在每个任务区域部署多个轻量级智能体以及一个教师智能体。同一任务区域内的智能体可以根据自身能力设计不同复杂度的模型,轻量级智能体尽可能设计轻量级模型,教师智能体部署复杂度较高的模型,所有智能体模型都不需要相同。
本发明在所有的智能体上部署深度强化学习算法和知识蒸馏算法。其中,智能体将各自建立不同的神经网络模型,并与环境进行交互,协作完成指定任务。而教师智能体可以获得本区域内其他智能体的信息,进行知识蒸馏,也就是通过聚合它们的经验知识并返回高效知识来供其他智能体进行协作训练,以更新神经网络参数,指导多智能体之间进行有效的协作,快速达成目标。同时,教师智能体也会获得每个任务区域内的教师智能体的信息,并且对相似任务类型的教师智能体进行知识抽取,进而实施知识聚合。
如图2所示,具体的多智能体协作算法如下:
step1:首先根据智能物联网中任务的特征,将任务划分为多个子任务,并将一个子任务分配给多个智能体执行,对每个轻量级智能体建立轻量级的深度强化学习模型,而给教师智能体建立复杂度较高的深度强化学习模型,设置智能体在区域任务环境中的状态空间、智能体可决策的行为空间以及环境对智能体的行为奖励。
step2:根据具体的深度强化学习算法,每个智能体建立并初始化对应的神经网络。
step3:智能体根据分配的子任务目标以及当前感知到的状态决策下一步采取的行为,并与环境进行交互,得到下一个状态,将该决策获得的四元组存储到经验缓存中,并且根据随机梯度下降法及时更新本地的神经网络模型。step2-step3持续循环,直到该智能体所分配到的子任务完成,将进入step4。
step4:将本地历史经验结合神经网络进行知识提取并上传给教师智能体,进行后续的知识蒸馏。
step5:教师智能体对所有轻量级智能体上传的知识,基于知识蒸馏进行聚合处理,并进一步提取其他区域内的教师智能体的知识进行知识聚合。教师智能体会对具有相似任务的教师智能体的知识进行知识聚合,并返回对应的聚合结果给相应区域的轻量级智能体。
step6:各个轻量级智能体根据收到的返回结果进行知识蒸馏,更新本地模型参数。
step7:重复step3-step6,直到完成目标任务。
3、知识聚合算法
本部分基于知识蒸馏以及教师智能体对智能体上传的知识进行处理并将结果返回给智能体,加快智能体学习进程。知识蒸馏主要的作用是对知识进行聚合,产生高效学习样本供轻量级神经网络模型进行训练。知识聚合算法流程如图3所示,步骤如下:
step1:任务区域内智能体将从本地历史经验抽取的知识样本上传至教师智能体;
step2:教师智能体对本地轻量级智能体上传的知识进行蒸馏,产生各样本目标特征向量。
step3:教师智能体对任务类型相同的其他区域的教师智能体进行知识抽取,获取知识并进行蒸馏。
step4:教师智能体基于知识蒸馏的损失函数,利用进行蒸馏后的知识进行梯度下降,更新神经网络参数。
step5:教师智能体基于历史经验和神经网络进行知识抽取,获取高效知识,并分享给本区域轻量级智能体。
step6:轻量级智能体对获得的高效知识样本进行蒸馏,并结合知识蒸馏的损失函数对神经网络进行梯度更新。
知识聚合算法中涉及到的知识抽取和知识蒸馏过程具体如下:
(1)知识抽取
本部分主要是基于智能体历史经验,结合神经网络抽取任务知识的过程,保证知识样本的高效性,具体如下:
a)产生基本知识
记第i个轻量级智能体的经验缓存为Bi={(sj,aj,rj,s′j)|j=1…n},其中n为样本数量,s′j表示执行动作aj后得到的状态,计算fj=mean(Q1:L(sj|θ)),其中sj∈B,进而将<sj,fj>存入基本知识缓存D。
b)计算样本置信度
c)产生高效知识样本
设定高效知识样本置信度阈值为∈,对于置信度ηj≥∈的知识样本进行分享,即对于第i个轻量级智能体,需要进行分享的高效知识样本为O={(si,fi)|ηi≥∈}。其中,∈取值必须在0-1之间,其值越高,则置信度越高。一般取值至少在0.5以上,但很少直接设为1,因为会严重影响收敛速度。结合应用环境、需求与相关经验值,通常可设定∈值为0.8-0.9之间的数值。
(2)知识蒸馏
利用知识蒸馏方法,利用高效知识样本训练神经网络进行分析,具体如下:
a)对知识样本以温度T进行蒸馏
智能体对于收到的每一个对分享的知识(si,fi),都要给出一个隶属关系 形成知识蒸馏样本(si,fi,mi)。其中,si为物联网环境状态,fi为状态si的特征。接着,智能体对所有的样本按照温度T进行蒸馏,形成知识向量
进而形成训练样本(si,ki,mi)。
b)训练网络
智能体通过蒸馏得到训练样本集之后,通过如下损失函数训练神经网络:
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (2)
1.一种基于知识蒸馏的深度强化学习多智能体协作方法,其特征在于,所述智能体通过多种传感器感知周围的环境信息,进行智能决策;所述智能体包括两类,分别为教师智能体和轻量级智能体;
将复杂任务划分为多个并行的子任务,每个子任务对应一个智能物联网区域;
每个智能物联网区域内包括一个教师智能体与多个轻量级智能体;每个智能体建立各自的深度强化学习神经网络模型,轻量级智能体将本地历史经验结合深度强化学习神经网络模型进行知识提取并上传给教师智能体;教师智能体根据所有轻量级智能体上传的知识,基于知识蒸馏进行聚合处理,并将聚合结果返回给该智能物联网区域内的轻量级智能体,轻量级智能体根据收到的返回结果进行知识蒸馏,更新本地模型参数;
各智能体的深度强化学习神经网络模型包括:策略网络、评价网络、经验缓存以及梯度更新函数;策略网络与评价网络采用相同的结构,所述结构具体为:一个共享的神经网络体和多个神经网络头;
策略网络负责实时与环境进行交互,在t时刻,输入状态si,随机选择一个策略网络头输出动作ai;
所述经验缓存用于存储当前状态、当前状态对应的动作、当前状态对应的奖励、下一个状态;
评价网络根据输入的状态,输出使得评价网络取值最大的动作;评价网络还包括从策略网络中获取神经网络参数,更新自己的神经网络参数;
梯度更新函数使用梯度下降法,通过从经验缓存中获取五元组以及评价网络的输出对策略网络进行梯度更新;
所述聚合处理包括以下步骤:
A1:教师智能体对本地轻量级智能体上传的知识进行蒸馏,产生各样本目标特征向量;
A2:教师智能体对任务类型相同的其他智能物联网区域的教师智能体进行知识抽取,获取知识并进行蒸馏;
A3:教师智能体基于知识蒸馏的损失函数,利用进行蒸馏后的知识进行梯度下降,更新其深度强化学习神经网络模型参数;
A4:教师智能体基于历史经验和其深度强化学习神经网络模型进行知识抽取,获取高效知识,并分享给该智能物联网区域内的轻量级智能体;
A5:轻量级智能体对获得的高效知识样本进行蒸馏,并结合知识蒸馏的损失函数对其深度强化学习神经网络模型进行梯度更新;
所述知识抽取的实现过程为:
首先,产生基本知识
记第i个轻量级智能体的经验缓存为Bi={(sj,aj,rj,s′j)|j=1…n},其中n为样本数量,s′j表示执行动作aj后得到的状态,计算fj=mean(Q1:L(sj|θ)),其中sj∈B,进而将<sj,fj>存入基本知识缓存D;
然后,计算样本置信度
对第i个轻量级智能体,利用策略网络对状态sj∈B做出决策,且对于策略网络的每一个神经网络头都给出一个决策结果,记为{a1,a2,…,aL};进而计算知识样本(sj,fj)∈D的置信度为其中,I为指示函数,L表示神经网络头的个数;
最后,产生高效知识样本
设定高效知识样本置信度阈值为∈,对于置信度ηj≥∈的知识样本进行分享,即对于第i个轻量级智能体,需要进行分享的高效知识样本为O={(si,fi)|ηi≥∈},∈取值在0-1之间;
所述知识蒸馏的实现过程为:
接着,智能体对所有的样本按照温度T进行蒸馏,形成知识向量
进而形成训练样本(si,ki,mi)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110752371.5A CN113449867B (zh) | 2021-07-02 | 2021-07-02 | 一种基于知识蒸馏的深度强化学习多智能体协作方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110752371.5A CN113449867B (zh) | 2021-07-02 | 2021-07-02 | 一种基于知识蒸馏的深度强化学习多智能体协作方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113449867A CN113449867A (zh) | 2021-09-28 |
CN113449867B true CN113449867B (zh) | 2022-07-12 |
Family
ID=77815022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110752371.5A Active CN113449867B (zh) | 2021-07-02 | 2021-07-02 | 一种基于知识蒸馏的深度强化学习多智能体协作方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113449867B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114418128B (zh) * | 2022-03-25 | 2022-07-29 | 新华三人工智能科技有限公司 | 一种模型部署的方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11062207B2 (en) * | 2016-11-04 | 2021-07-13 | Raytheon Technologies Corporation | Control systems using deep reinforcement learning |
CN109409500B (zh) * | 2018-09-21 | 2024-01-12 | 清华大学 | 基于知识蒸馏与非参数卷积的模型加速方法及装置 |
CN110728361B (zh) * | 2019-10-15 | 2022-05-13 | 四川虹微技术有限公司 | 一种基于强化学习的深度神经网络压缩方法 |
CN111931935B (zh) * | 2020-09-27 | 2021-01-15 | 中国人民解放军国防科技大学 | 基于One-shot 学习的网络安全知识抽取方法和装置 |
CN112465151A (zh) * | 2020-12-17 | 2021-03-09 | 电子科技大学长三角研究院(衢州) | 一种基于深度强化学习的多智能体联邦协作方法 |
CN112819159A (zh) * | 2021-02-24 | 2021-05-18 | 清华大学深圳国际研究生院 | 一种深度强化学习训练方法及计算机可读存储介质 |
-
2021
- 2021-07-02 CN CN202110752371.5A patent/CN113449867B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861442A (zh) * | 2021-03-10 | 2021-05-28 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113449867A (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | A deep reinforcement learning network for traffic light cycle control | |
Wang et al. | Opposition-based krill herd algorithm with Cauchy mutation and position clamping | |
CN103164742B (zh) | 一种基于粒子群优化神经网络的服务器性能预测方法 | |
CN113191484A (zh) | 基于深度强化学习的联邦学习客户端智能选取方法及系统 | |
Yan et al. | Nonlinear model predictive control based on collective neurodynamic optimization | |
CN110442129A (zh) | 一种多智能体编队的控制方法和系统 | |
Pan et al. | Multi-source transfer ELM-based Q learning | |
CN113033072A (zh) | 一种基于多头注意力指针网络的成像卫星任务规划方法 | |
CN113449867B (zh) | 一种基于知识蒸馏的深度强化学习多智能体协作方法 | |
Zhou et al. | Solving large-scale 0-1 knapsack problem by the social-spider optimisation algorithm | |
Paul et al. | Efficient planning of multi-robot collective transport using graph reinforcement learning with higher order topological abstraction | |
Huang et al. | Neural architecture search for class-incremental learning | |
Falcao et al. | Q-learning based hyper-heuristic for scheduling system self-parameterization | |
CN113905049A (zh) | 一种基于多分类和分布式强化学习的卸载决策优化方法 | |
Kishore et al. | Impact of autotuned fully connected layers on performance of self-supervised models for image classification | |
CN115903901A (zh) | 内部状态未知的无人集群系统输出同步优化控制方法 | |
Bodyanskiy et al. | Evolving cascaded neural network based on multidimensional Epanechnikov’s kernels and its learning algorithm | |
CN113157344B (zh) | 移动边缘计算环境下基于drl的能耗感知任务卸载方法 | |
Gan et al. | Digital twin-enabled adaptive scheduling strategy based on deep reinforcement learning | |
Hassanein et al. | Black-box tool for nonlinear system identification based upon fuzzy system | |
Wang et al. | Quality-oriented federated learning on the fly | |
CN105894114A (zh) | 一种基于动态条件玻尔兹曼机的太阳能预测方法 | |
Kumaran et al. | Deep Reinforcement Learning algorithms for Low Latency Edge Computing Systems | |
Misra et al. | Simplified polynomial neural network for classification task in data mining | |
Xie et al. | Research on clone mind evolution algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |