CN113543156B - 基于多智能体深度强化学习的工业无线网络资源分配方法 - Google Patents

基于多智能体深度强化学习的工业无线网络资源分配方法 Download PDF

Info

Publication number
CN113543156B
CN113543156B CN202110733227.7A CN202110733227A CN113543156B CN 113543156 B CN113543156 B CN 113543156B CN 202110733227 A CN202110733227 A CN 202110733227A CN 113543156 B CN113543156 B CN 113543156B
Authority
CN
China
Prior art keywords
industrial
neural network
deep neural
terminal
wireless network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110733227.7A
Other languages
English (en)
Other versions
CN113543156A (zh
Inventor
于海斌
刘晓宇
许驰
夏长清
金曦
曾鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Institute of Automation of CAS
Original Assignee
Shenyang Institute of Automation of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Institute of Automation of CAS filed Critical Shenyang Institute of Automation of CAS
Priority to CN202110733227.7A priority Critical patent/CN113543156B/zh
Publication of CN113543156A publication Critical patent/CN113543156A/zh
Application granted granted Critical
Publication of CN113543156B publication Critical patent/CN113543156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及工业无线网络技术,具体地说,是一种基于多智能体深度强化学习的工业无线网络资源分配方法,包括以下步骤:建立端边协同的工业无线网络;确立工业无线网络端边资源分配的优化问题;建立马尔科夫决策模型;采用多智能体深度强化学习方法,构建资源分配神经网络模型;离线训练神经网络模型,直至奖励收敛到稳定值;基于离线训练结果,工业无线网络在线执行资源分配,处理工业任务。本发明能够实时、高能效地对工业无线网络进行端边协同的资源分配,在满足有限能量、计算资源约束下,最小化系统开销。

Description

基于多智能体深度强化学习的工业无线网络资源分配方法
技术领域
本发明涉及有限能量、计算资源约束下的资源分配,属于工业无线网络技术领域,具体说是一种基于多智能体深度强化学习的工业无线网络资源分配方法。
背景技术
随着工业4.0的发展,大量的分布式工业终端通过工业无线网络互联互通,产生了海量的计算密集、时延敏感的工业任务。然而,工业终端本地的能量与计算资源是有限的,难以满足工业任务的服务质量要求。
部署在网络边缘侧的边缘计算服务器能够就近为工业终端提供计算资源支持,但是工业终端的大规模并发卸载,会造成边缘计算服务器满载和无线链路拥塞问题,增加额外的时延、能耗。将工业终端的能量、计算资源与边缘服务器的计算资源联合分配,建立端边协同的工业无线网络资源分配是一种有效解决途径。
然而传统的资源分配算法一般是基于已知的系统模型的,对于大规模机器间通信的工业场景,工业终端数量和数据是时变的,难以获得准确的系统模型,而且会造成算法的状态空间爆炸。深度强化学习,能够利用深度学习估计系统模型,结合强化学习求解资源分配,有效地解决了系统模型建模难和状态空间爆炸问题。
但是,目前常用的深度强化学习算法都是从单智能体角度出发的,即一个具有全局系统信息的智能体建模系统模型,求解资源分配策略。然而,工业终端是移动的,能量、计算资源的数量是时变的,单智能体难以跟踪系统信息的动态变化,同时,单智能体收集全局系统信息会增加时延、能耗。从多智能体角度出发,每个工业终端观测局部系统信息,通过彼此间的合作建模系统模型,求解资源分配策略,有效地解决了单智能体深度强化学习方法的缺陷。
发明内容
为实现上述发明目的,本发明提供基于多智能体深度强化学习的工业无线网络资源分配方法。针对工业无线网络中能量、计算资源有限的工业终端难以支持计算密集、时延敏感工业任务本地实时高效处理问题,考虑工业无线网络的动态时变特征所造成的传统方法建模难和算法状态空间爆炸的难点,特别是当大规模工业终端请求工业任务处理时,在有限能量、计算资源约束下,基于多智能体深度强化学习算法,实时、高效地对工业无线网络内多个工业终端进行资源分配,最小化系统开销。
本发明为实现上述目的所采用的技术方案是:
基于多智能体深度强化学习的工业无线网络资源分配方法,包括以下步骤:
1)建立端边协同的工业无线网络;
2)基于端边协同的工业无线网络,确立工业无线网络端边资源分配的优化问题;
3)根据优化问题,建立马尔科夫决策模型;
4)采用多智能体深度强化学习构建资源分配神经网络模型;
5)利用马尔科夫决策模型,对资源分配神经网络模型进行离线训练,直至奖励收敛到稳定值;
6)基于离线训练结果,工业无线网络在线执行资源分配,处理工业任务。
所述端边协同的工业无线网络,包括:N台工业基站和M个工业终端;
所述工业基站,具有边缘计算能力,以为工业终端提供计算资源,用于调度网络覆盖范围内的工业终端,以及工业终端与工业基站间通信;
所述工业终端,用于实时产生不同类型工业任务,通过无线信道与工业基站通信。
所述工业无线网络端边资源分配的优化问题为:
Figure BDA0003130487350000021
s.t.
C1:0≤pm≤P,
Figure BDA0003130487350000031
Figure BDA0003130487350000032
Figure BDA0003130487350000033
Figure BDA0003130487350000034
其中,
Figure BDA0003130487350000035
表示系统开销;Tm表示工业终端m的时延;Em表示工业终端m的能耗;ω表示时延权重,(1-ω)表示能耗权重;
Figure BDA0003130487350000036
表示工业基站集合,
Figure BDA0003130487350000037
表示工业终端集合,
Figure BDA0003130487350000038
C1为工业终端m的能量约束,pm表示工业终端m的发射功率,P表示最大发射功率;
C2为计算资源约束,
Figure BDA0003130487350000039
表示工业基站n分配给工业终端m的计算资源、Fn表示工业基站n的最大计算资源,卸载至工业基站n的工业终端所分得的计算资源总和不得超过工业基站n的最大计算资源;
C3为计算资源约束,卸载至工业基站n的工业终端m所分得的计算资源不得超过工业基站n的最大计算资源;
C4为计算决策约束,
Figure BDA00031304873500000310
表示工业终端m的计算决策,工业终端m仅能选择本地处理工业任务,即
Figure BDA00031304873500000311
或者卸载工业任务至工业基站n,即
Figure BDA00031304873500000312
C5为计算决策约束,若工业终端m卸载工业任务,其仅能卸载至工业基站集合
Figure BDA00031304873500000313
中的一台工业基站。
所述马尔科夫决策模型,是状态向量之间通过执行不同动作向量,实现长期累积奖励最优化的过程,使用转移概率描述为:
Figure BDA00031304873500000314
其中,从任意状态向量转移至另一状态向量的转移概率为fm,fm(t)*表示在时隙t状态向量间的最优转移概率,
Figure BDA00031304873500000315
为系统长期累积奖励,γ表示折扣比例,τ表示时隙;rm(t)=ωrm,d(t)+(1-ω)rm,e(t);
所述马尔科夫决策模型,包括状态向量、动作向量、奖励向量,其中:
所述状态向量为工业终端m在时隙t的状态,表示为
Figure BDA0003130487350000041
其中
Figure BDA0003130487350000042
表示工业终端m在时隙t开始时的计算决策,dm(t)表示工业终端m在时隙t产生的工业任务的数据量大小,cm(t)表示工业终端m在时隙t产生的工业任务的所需计算资源,
Figure BDA0003130487350000043
表示工业终端m在时隙t时与全部N台工业基站的距离;
所述动作向量为工业终端m在时隙t的动作,表示为am(t)={am,o(t),am,p(t)},其中am,o(t)表示工业终端m在时隙t结束时的计算决策,am,p(t)表示工业终端m在时隙t结束时的发射功率;
所述奖励向量为工业终端m在时隙t的获得的奖励,表示为rm(t)={rm,d(t),rm,e(t)},其中rm,d(t)表示工业终端m在时隙t的时延奖励,rm,e(t)表示工业终端m在时隙t的能耗奖励。
所述步骤4)具体为:
每个所述工业终端均为一个智能体,由一个actor结构和一个critic结构组成;
所述actor结构由一个actor-eval深度神经网络和一个actor-target深度神经网络组成:所述actor-eval深度神经网络和actor-target深度神经网络模型参数集合为
Figure BDA0003130487350000044
其中,
Figure BDA0003130487350000045
表示actor-eval深度神经网络和actor-target深度神经网络输入层神经元个数,
Figure BDA0003130487350000046
表示actor-eval深度神经网络和actor-target深度神经网络隐藏层神经元个数,
Figure BDA0003130487350000047
表示actor-eval深度神经网络和actor-target深度神经网络输出层神经元个数,θπ表示actor-eval深度神经网络超参,
Figure BDA0003130487350000048
表示actor-target深度神经网络超参;
所述critic结构由一个critic-eval深度神经网络和一个critic-target深度神经网络组成:所述critic-eval深度神经网络和critic-target深度神经网络模型参数集合为
Figure BDA0003130487350000051
其中,
Figure BDA0003130487350000052
表示critic-eval深度神经网络和critic-target深度神经网络输入层神经元个数,
Figure BDA0003130487350000053
表示critic-eval深度神经网络和critic-target深度神经网络隐藏层神经元个数,
Figure BDA0003130487350000054
表示critic-eval深度神经网络和critic-target深度神经网络输出层神经元个数,θQ表示critic-eval深度神经网络超参,
Figure BDA0003130487350000055
表示critic-target深度神经网络超参。
所述步骤5)包括以下步骤:
5.1)将工业终端m的当前时隙的状态向量sm与下一时隙的状态向量s'm输入actor结构,输出动作向量am和a'm,获得奖励rm和rm';
5.2)对每个工业终端循环执行步骤5.1),存储每个时隙的<sm(t),am(t),rm(t)>作为经验池经验,获得K条经验,根据经验的权重不同,分别存入两个经验池,K为常数;
5.3)将全部工业终端当前时隙的状态向量
Figure BDA0003130487350000056
当前时隙的动作向量
Figure BDA0003130487350000057
与下一时隙的状态向量
Figure BDA0003130487350000058
下一时隙的动作向量
Figure BDA0003130487350000059
输入工业终端m的critic结构,分别输出值函数
Figure BDA00031304873500000510
5.4)根据强化学习的贝尔曼更新公式
Figure BDA00031304873500000511
利用随机梯度下降方法更新actor-eval深度神经网络超参θπ和critic-eval深度神经网络超参θQ
5.5)利用
Figure BDA00031304873500000512
更新actor-target深度神经网络超参
Figure BDA00031304873500000513
利用
Figure BDA00031304873500000514
更新actor-eval深度神经网络超参
Figure BDA00031304873500000515
其中λ为更新因子,λ∈[0,1];
5.6)执行优先级权重经验回放,重复迭代步骤5.1)-5.5)直至奖励收敛到稳定值,获得训练完成的多智能体深度强化学习模型。
所述步骤5.1)中,采用贪婪算法动态改变动作向量输出概率,具体为:
使用
Figure BDA00031304873500000516
贪婪方法选择输出动作向量,其中ar(t)表示随机选择的动作向量,av(t)表示选择获得奖励最大的动作向量;
所述ε=(1-δ)Uε0表示选择概率,其中,ε0表示初始选择概率,δ表示衰减速度,U表示训练次数。
所述步骤5.2)中,设置两个经验池,分别存储不同权重的经验,随着神经网络模型训练次数变化,动态改变不同经验池中抽取经验的概率,具体为:
由于不同的经验对深度神经网络收敛贡献不同,把每条经验的下降梯度
Figure BDA0003130487350000061
作为经验的权重;
对任意K条经验的权重取平均值,即
Figure BDA0003130487350000062
权重高于权重平均值的经验,即
Figure BDA0003130487350000063
为高权重经验,权重低于权重平均值的经验,即
Figure BDA0003130487350000064
为低权重经验;
设置A、B两个经验池,A池存储高权值经验,B池存储低权值经验;训练初始阶段,A、B经验池随机采样经验的概率是相等的,随着训练次数增加,A经验池采样概率逐渐增加,B经验池采样概率逐渐减少;采样概率为
Figure BDA0003130487350000065
其中,0≤gx≤1表示A、B经验池的采样概率,g0表示A、B经验池的初始采样概率,
Figure BDA0003130487350000066
表示A、B经验池的采样概率衰减值,U表示训练次数。
所述步骤5.4)中,actor-eval深度神经网络梯度为
Figure BDA0003130487350000067
critic-eval深度神经网络梯度为
Figure BDA0003130487350000068
其中
Figure BDA0003130487350000069
表示actor-eval深度神经网络的下降梯度,
Figure BDA00031304873500000610
表示critic-eval深度神经网络的下降梯度,γ表示折扣比例,
Figure BDA00031304873500000611
表示数学期望,π表示actor-eval深度神经网络的当前策略。
所述步骤6)包括以下步骤:
6.1)将工业终端m当前时隙t的状态向量sm(t)作为离线训练完成的第m个智能体的actor结构的输入,得到输出动作向量am(t);
6.2)根据得到的输出动作向量am(t),工业终端m根据am(t)中的计算决策、发射功率分配计算和能量资源,处理工业任务;
6.3)对工业无线网络内全部M个工业终端执行步骤6.1)-6.2),得到M个工业终端的资源分配结果,根据资源分配结果处理工业任务。
本发明具有以下有益效果及优点:
1、本发明针对工业无线网络中工业终端产生的计算密集、时延敏感工业任务的服务质量需求,建立工业无线网络端边协同资源分配,使用基于多智能体深度强化学习的资源分配算法解决了工业无线网络动态时变特征造成的传统方法建模难和算法状态空间爆炸的问题,保证了能量、计算资源的合理分配,以及工业任务的实时高效处理。
2、本发明具有较强的通用性和实用性,能够自适应地处理工业无线动态时变特征,能够有效地实现有限能量、计算资源约束下的工业无线网络的资源分配,提高系统安全性和稳定性。
附图说明
图1是本发明方法流程图;
图2是端边协同的工业无线网络模型图;
图3是actor-eval和actor-target深度神经网络结构图;
图4是critic-eval和critic-target深度神经网络结构图;
图5是多智能体深度强化学习训练流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
本发明涉及工业无线网络技术,包括以下步骤:建立端边协同的工业无线网络;确立工业无线网络端边资源分配的优化问题;建立马尔科夫决策模型;采用多智能体深度强化学习方法,构建资源分配神经网络模型;离线训练神经网络模型,直至奖励收敛到稳定值;基于离线训练结果,工业无线网络在线执行资源分配,处理工业任务。本发明针对工业无线网络中工业终端产生的计算密集、时延敏感工业任务的服务质量需求,建立端边协同的工业无线网络模型,发明了基于多智能体深度强化学习的资源分配算法。该方法充分考虑工业无线网络动态时变特征所造成的传统方法建模难和算法状态空间爆炸的问题,能够在满足有限能量、计算资源约束下,合理分配能量、计算资源,保证工业任务的实时高效处理。
本发明主要包括以下实现过程,如图1:
1)建立端边协同的工业无线网络;
2)确立工业无线网络端边资源分配的优化问题;
3)建立马尔科夫决策模型;
4)采用多智能体深度强化学习构建资源分配神经网络模型;
5)离线训练神经网络模型,直至奖励收敛到稳定值;
6)基于离线训练结果,工业无线网络在线执行资源分配,处理工业任务。
该实施例是按照如图1所示的流程实施的,具体步骤如下:
1、建立端边协同的工业无线网络模型,如图2,包括:N台工业基站,以及M个工业终端;其中,工业基站用于调度网络覆盖范围内工业终端,以及工业终端与工业基站间通信;工业基站具有边缘计算能力,可为工业终端提供计算资源;工业终端,实时产生不同类型工业任务,通过无线信道与工业基站通信;工业终端的计算资源和能量均受限。
2、确立工业无线网络端边资源分配的优化问题:
Figure BDA0003130487350000081
s.t.
C1:0≤pm≤P,
Figure BDA0003130487350000082
Figure BDA0003130487350000083
Figure BDA0003130487350000084
Figure BDA0003130487350000091
其中,
Figure BDA0003130487350000092
表示系统开销;Tm表示工业终端m的时延;Em表示工业终端m的能耗;ω表示时延权重,(1-ω)表示能耗权重;
Figure BDA0003130487350000093
表示工业基站集合,
Figure BDA0003130487350000094
表示工业终端集合,
Figure BDA0003130487350000095
C1为工业终端m的能量约束,pm表示工业终端m的发射功率,P表示最大发射功率;C2为计算资源约束,
Figure BDA0003130487350000096
表示工业基站n分配给工业终端m的计算资源、Fn表示工业基站n的最大计算资源,卸载至工业基站n的工业终端所分得的计算资源总和不得超过工业基站n的最大计算资源;C3为计算资源约束,卸载至工业基站n的工业终端m所分得的计算资源不得超过工业基站n的最大计算资源;C4为计算决策约束,
Figure BDA0003130487350000097
表示工业终端m的计算决策,工业终端m仅能选择本地处理工业任务,即
Figure BDA0003130487350000098
或者卸载工业任务至工业基站n,即
Figure BDA0003130487350000099
C5为计算决策约束,若工业终端m卸载工业任务,其仅能卸载至工业基站集合
Figure BDA00031304873500000910
中的一台工业基站。
3、建立马尔科夫决策模型,其中状态向量、动作向量、奖励向量及转移概率的具体含义为:
(1)工业终端m在时隙t的状态向量为
Figure BDA00031304873500000911
其中
Figure BDA00031304873500000912
表示工业终端m在时隙t开始时的计算决策,
Figure BDA00031304873500000913
表示本地处理工业任务,
Figure BDA00031304873500000914
表示卸载工业任务至工业基站n;dm(t)表示工业终端m在时隙t产生的工业任务的数据量大小;cm(t)表示工业终端m在时隙t产生的工业任务的所需计算资源;
Figure BDA00031304873500000915
表示工业终端m在时隙t时与所有工业基站的距离;
(2)工业终端m在时隙t的动作向量为am(t)={am,o(t),am,p(t)},其中am,o(t),am,o(t)∈{0,1,..,n,..,N}表示工业终端m在时隙t结束时的计算决策,am,o(t)=0表示本地处理工业任务,am,o(t)=n表示卸载工业任务至工业基站n;am,p(t),am,p(t)∈{0,1,..,p,..,P}表示工业终端m在时隙t结束时的发射功率,am,p(t)=0表示本机处理工业任务,am,p(t)=p表示以发射功率p卸载工业任务;
(3)工业终端m在时隙t的奖励向量为rm(t)={rm,d(t),rm,e(t)},其中rm,d(t)表示工业终端m在时隙t的时延奖励,
Figure BDA0003130487350000101
表示本地处理总时延,
Figure BDA0003130487350000102
表示卸载至工业基站n处理的总时延;rm,e(t)表示工业终端m在时隙t的能耗奖励,
Figure BDA0003130487350000103
表示本地处理总能耗,
Figure BDA0003130487350000104
表示卸载至工业基站n处理的总能耗;
(4)在时隙t,状态向量间以概率fm(t)实现转移,通过最大化长期累积奖励实现转移概率的最优化,即
Figure BDA0003130487350000105
其中,fm(t)*表示最优转移概率,
Figure BDA0003130487350000106
为系统长期累积奖励,γ表示折扣比例,τ表示时隙;rm(t)=ωrm,d(t)+(1-ω)rm,e(t)同时考虑了时延和能量的系统开销。
4、采用多智能体深度强化学习构建资源分配神经网络模型,如图3、图4所示:
(1)每个工业终端为一个智能体,由一个actor结构和一个critic结构组成;
(2)初始化actor-eval深度神经网络和actor-target深度神经网络模型参数,
Figure BDA0003130487350000107
其中,
Figure BDA0003130487350000108
表示actor-eval深度神经网络和actor-target深度神经网络输入层神经元个数,
Figure BDA0003130487350000109
表示actor-eval深度神经网络和actor-target深度神经网络隐藏层神经元个数,
Figure BDA00031304873500001010
表示actor-eval深度神经网络和actor-target深度神经网络输出层神经元个数,θπ表示actor-eval深度神经网络超参,
Figure BDA00031304873500001011
表示actor-target深度神经网络超参;
(3)初始化critic-eval深度神经网络和critic-target深度神经网络模型参数,
Figure BDA00031304873500001012
其中,
Figure BDA00031304873500001013
表示critic-eval深度神经网络和critic-target深度神经网络输入层神经元个数,
Figure BDA00031304873500001014
表示critic-eval深度神经网络和critic-target深度神经网络隐藏层神经元个数,
Figure BDA00031304873500001015
表示critic-eval深度神经网络和critic-target深度神经网络输出层神经元个数,θQ表示critic-eval深度神经网络超参,
Figure BDA0003130487350000111
表示critic-target深度神经网络超参。
5、离线训练神经网络模型,直至奖励收敛到稳定值,如图5所示,具体步骤如下:
(1)将工业终端m时隙t的状态向量sm(t)输入actor-eval深度神经网络输出动作向量am(t),获得奖励rm(t),转移到下一状态向量sm(t+1);
采用贪婪算法动态改变动作向量输出概率,具体为:
使用
Figure BDA0003130487350000112
贪婪方法选择输出动作向量,其中ar(t)表示随机选择的动作向量,av(t)表示选择获得奖励最大的动作向量;
所述ε=(1-δ)Uε0表示选择概率,其中ε0表示初始选择概率,δ表示衰减速度,U表示训练次数。
(2)将工业终端m时隙t+1的状态向量sm(t+1)输入actor-target深度神经网络输出动作向量am(t+1),获得奖励rm(t+1);
(3)将每个时隙的<sm(t),am(t),rm(t)>作为经验,对每个工业终端循环执行步骤(1)-(2),获得K条经验,根据经验的权重不同,分别存入两个经验池;
(4)将全部工业终端在时隙t的状态向量S和动作向量A输入critic-eval深度神经网络获得值函数Qm(S,A);将全部工业终端在时隙t+1的状态向量S'和动作向量A'输入critic-target深度神经网络,获得值函数Qm(S',A');
(5)根据强化学习的贝尔曼更新公式
Figure BDA0003130487350000113
利用随机梯度下降方法更新actor-eval深度神经网络超参θπ和critic-eval深度神经网络超参θQ。其中,actor-eval深度神经网络梯度为
Figure BDA0003130487350000114
critic-eval深度神经网络梯度为
Figure BDA0003130487350000115
其中
Figure BDA0003130487350000116
表示actor-eval深度神经网络的下降梯度,
Figure BDA0003130487350000121
表示critic-eval深度神经网络的下降梯度,γ表示折扣比例,
Figure BDA0003130487350000122
表示数学期望,π表示actor-eval深度神经网络的当前策略;
(6)利用
Figure BDA0003130487350000123
Figure BDA0003130487350000124
更新actor-target深度神经网络超参
Figure BDA0003130487350000125
与actor-eval深度神经网络超参
Figure BDA0003130487350000126
其中λ为更新因子,λ∈[0,1]。
(7)执行优先级权重经验回放,重复迭代(1)-(6)直至奖励收敛到稳定值,得到训练完成的多智能体深度强化学习模型;
所述优先级权重经验回放具体为,设置两个经验池,分别存储不同权重的经验。随着神经网络模型训练次数变化,动态改变不同经验池中抽取经验的概率,具体为:
考虑不同的经验对深度神经网络收敛贡献不同,把每条经验的下降梯度
Figure BDA0003130487350000127
作为经验的权重;
对任意K条经验的权重取平均值,即
Figure BDA0003130487350000128
权重高于权重平均值的经验,即
Figure BDA0003130487350000129
为高权重经验,权重低于权重平均值的经验,即
Figure BDA00031304873500001210
为低权重经验;
设置A、B两个经验池,A池存储高权值经验,B池存储低权值经验;训练初始阶段,A、B经验池随机采样经验的概率是相等的,随着训练次数增加,A经验池采样概率逐渐增加,B经验池采样概率逐渐减少;采样概率为
Figure BDA00031304873500001211
其中0≤gx≤1表示A、B经验池的采样概率,g0表示A、B经验池的初始采样概率,
Figure BDA00031304873500001212
表示A、B经验池的采样概率衰减值。。
6、基于离线训练结果,工业无线网络在线执行资源分配,处理工业任务,包括以下步骤:
(1)将工业终端m当前时隙t的状态向量sm(t)作为离线训练完成的第m个智能体的actor结构的输入,得到输出动作向量am(t);
(2)根据得到的输出动作向量,工业终端m根据am(t)中的计算决策、发射功率分配计算和能量资源,处理工业任务;
(3)对工业无线网络内全部M个工业终端执行步骤(1)-(2),得到M个工业终端的资源分配结果,根据资源分配结果处理工业任务。

Claims (9)

1.基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,包括以下步骤:
1)建立端边协同的工业无线网络;
2)基于端边协同的工业无线网络,确立工业无线网络端边资源分配的优化问题;
3)根据优化问题,建立马尔科夫决策模型;
4)采用多智能体深度强化学习构建资源分配神经网络模型;
5)利用马尔科夫决策模型,对资源分配神经网络模型进行离线训练,直至奖励收敛到稳定值;
6)基于离线训练结果,工业无线网络在线执行资源分配,处理工业任务;所述工业无线网络端边资源分配的优化问题为:
Figure FDA0003537978400000011
s.t.
C1:0≤pm≤P,
C2:
Figure FDA0003537978400000012
C3:
Figure FDA0003537978400000013
C4:
Figure FDA0003537978400000014
C5:
Figure FDA0003537978400000015
其中,
Figure FDA0003537978400000016
表示系统开销;Tm表示工业终端m的时延;Em表示工业终端m的能耗;ω表示时延权重,(1-ω)表示能耗权重;
Figure FDA0003537978400000017
表示工业基站集合,
Figure FDA0003537978400000018
Figure FDA0003537978400000019
表示工业终端集合,
Figure FDA00035379784000000110
C1为工业终端m的能量约束,pm表示工业终端m的发射功率,P表示最大发射功率;
C2为计算资源约束,
Figure FDA00035379784000000111
表示工业基站n分配给工业终端m的计算资源、Fn表示工业基站n的最大计算资源,卸载至工业基站n的工业终端所分得的计算资源总和不得超过工业基站n的最大计算资源;
C3为计算资源约束,卸载至工业基站n的工业终端m所分得的计算资源不得超过工业基站n的最大计算资源;
C4为计算决策约束,
Figure FDA0003537978400000021
表示工业终端m的计算决策,工业终端m仅能选择本地处理工业任务,即
Figure FDA0003537978400000022
或者卸载工业任务至工业基站n,即
Figure FDA0003537978400000023
C5为计算决策约束,若工业终端m卸载工业任务,其仅能卸载至工业基站集合
Figure FDA0003537978400000024
中的一台工业基站。
2.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,所述端边协同的工业无线网络,包括:N台工业基站和M个工业终端;
所述工业基站,具有边缘计算能力,以为工业终端提供计算资源,用于调度网络覆盖范围内的工业终端,以及工业终端与工业基站间通信;
所述工业终端,用于实时产生不同类型工业任务,通过无线信道与工业基站通信。
3.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,所述马尔科夫决策模型,是状态向量之间通过执行不同动作向量,实现长期累积奖励最优化的过程,使用转移概率描述为:
Figure FDA0003537978400000025
其中,从任意状态向量转移至另一状态向量的转移概率为fm,fm(t)*表示在时隙t状态向量间的最优转移概率,
Figure FDA0003537978400000026
为系统长期累积奖励,γ表示折扣比例,τ表示时隙;rm(t)=ωrm,d(t)+(1-ω)rm,e(t);
所述马尔科夫决策模型,包括状态向量、动作向量、奖励向量,其中:
所述状态向量为工业终端m在时隙t的状态,表示为
Figure FDA0003537978400000031
其中
Figure FDA0003537978400000032
表示工业终端m在时隙t开始时的计算决策,dm(t)表示工业终端m在时隙t产生的工业任务的数据量大小,cm(t)表示工业终端m在时隙t产生的工业任务的所需计算资源,
Figure FDA0003537978400000033
表示工业终端m在时隙t时与全部N台工业基站的距离;
所述动作向量为工业终端m在时隙t的动作,表示为am(t)={am,o(t),am,p(t)},其中am,o(t)表示工业终端m在时隙t结束时的计算决策,am,p(t)表示工业终端m在时隙t结束时的发射功率;
所述奖励向量为工业终端m在时隙t的获得的奖励,表示为rm(t)={rm,d(t),rm,e(t)},其中rm,d(t)表示工业终端m在时隙t的时延奖励,rm,e(t)表示工业终端m在时隙t的能耗奖励。
4.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,所述步骤4)具体为:
每个工业终端均为一个智能体,由一个actor结构和一个critic结构组成;
所述actor结构由一个actor-eval深度神经网络和一个actor-target深度神经网络组成:所述actor-eval深度神经网络和actor-target深度神经网络模型参数集合为
Figure FDA0003537978400000034
其中,
Figure FDA0003537978400000035
表示actor-eval深度神经网络和actor-target深度神经网络输入层神经元个数,
Figure FDA0003537978400000036
表示actor-eval深度神经网络和actor-target深度神经网络隐藏层神经元个数,
Figure FDA0003537978400000037
表示actor-eval深度神经网络和actor-target深度神经网络输出层神经元个数,θπ表示actor-eval深度神经网络超参,
Figure FDA0003537978400000038
表示actor-target深度神经网络超参;
所述critic结构由一个critic-eval深度神经网络和一个critic-target深度神经网络组成:所述critic-eval深度神经网络和critic-target深度神经网络模型参数集合为
Figure FDA0003537978400000039
其中,
Figure FDA00035379784000000310
表示critic-eval深度神经网络和critic-target深度神经网络输入层神经元个数,
Figure FDA00035379784000000311
表示critic-eval深度神经网络和critic-target深度神经网络隐藏层神经元个数,
Figure FDA00035379784000000312
表示critic-eval深度神经网络和critic-target深度神经网络输出层神经元个数,θQ表示critic-eval深度神经网络超参,
Figure FDA0003537978400000041
表示critic-target深度神经网络超参。
5.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,所述步骤5)包括以下步骤:
5.1)将工业终端m的当前时隙的状态向量sm与下一时隙的状态向量s'm输入actor结构,输出动作向量am和a'm,获得奖励rm和r'm
5.2)对每个工业终端循环执行步骤5.1),存储每个时隙的<sm(t),am(t),rm(t)>作为经验池经验,获得K条经验,根据经验的权重不同,分别存入两个经验池,K为常数;
5.3)将全部工业终端当前时隙的状态向量
Figure FDA0003537978400000042
当前时隙的动作向量
Figure FDA0003537978400000043
与下一时隙的状态向量
Figure FDA0003537978400000044
下一时隙的动作向量
Figure FDA0003537978400000045
输入工业终端m的critic结构,分别输出值函数
Figure FDA0003537978400000046
5.4)根据强化学习的贝尔曼更新公式
Figure FDA0003537978400000047
γ表示折扣比例,利用随机梯度下降方法更新actor-eval深度神经网络超参θπ和critic-eval深度神经网络超参θQ
5.5)利用
Figure FDA0003537978400000048
更新actor-target深度神经网络超参
Figure FDA0003537978400000049
利用
Figure FDA00035379784000000410
更新actor-eval深度神经网络超参
Figure FDA00035379784000000411
其中λ为更新因子,λ∈[0,1];
5.6)执行优先级权重经验回放,重复迭代步骤5.1)-5.5)直至奖励收敛到稳定值,获得训练完成的多智能体深度强化学习模型。
6.根据权利要求5所述的基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,所述步骤5.1)中,采用贪婪算法动态改变动作向量输出概率,具体为:
使用
Figure FDA00035379784000000412
贪婪方法选择输出动作向量,其中ar(t)表示随机选择的动作向量,av(t)表示选择获得奖励最大的动作向量;
所述ε=(1-δ)Uε0表示选择概率,其中,ε0表示初始选择概率,δ表示衰减速度,U表示训练次数。
7.根据权利要求5所述的基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,所述步骤5.2)中,设置两个经验池,分别存储不同权重的经验,随着神经网络模型训练次数变化,动态改变不同经验池中抽取经验的概率,具体为:
由于不同的经验对深度神经网络收敛贡献不同,把每条经验的下降梯度▽θπ作为经验的权重;
对任意K条经验的权重取平均值,即
Figure FDA0003537978400000051
权重高于权重平均值的经验,即
Figure FDA0003537978400000052
为高权重经验,权重低于权重平均值的经验,即
Figure FDA0003537978400000053
为低权重经验;
设置A、B两个经验池,A池存储高权值经验,B池存储低权值经验;训练初始阶段,A、B经验池随机采样经验的概率是相等的,随着训练次数增加,A经验池采样概率逐渐增加,B经验池采样概率逐渐减少;采样概率为
Figure FDA0003537978400000054
其中,0≤gx≤1表示A、B经验池的采样概率,g0表示A、B经验池的初始采样概率,
Figure FDA0003537978400000055
表示A、B经验池的采样概率衰减值,U表示训练次数。
8.根据权利要求5所述的基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,所述步骤5.4)中,actor-eval深度神经网络梯度为
Figure FDA0003537978400000056
critic-eval深度神经网络梯度为
Figure FDA0003537978400000057
其中
Figure FDA0003537978400000058
表示actor-eval深度神经网络的下降梯度,
Figure FDA0003537978400000059
表示critic-eval深度神经网络的下降梯度,γ表示折扣比例,
Figure FDA00035379784000000510
表示数学期望,π表示actor-eval深度神经网络的当前策略。
9.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,所述步骤6)包括以下步骤:
6.1)将工业终端m当前时隙t的状态向量sm(t)作为离线训练完成的第m个智能体的actor结构的输入,得到输出动作向量am(t);
6.2)根据得到的输出动作向量am(t),工业终端m根据am(t)中的计算决策、发射功率分配计算和能量资源,处理工业任务;
6.3)对工业无线网络内全部M个工业终端执行步骤6.1)-6.2),得到M个工业终端的资源分配结果,根据资源分配结果处理工业任务。
CN202110733227.7A 2021-06-24 2021-06-24 基于多智能体深度强化学习的工业无线网络资源分配方法 Active CN113543156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110733227.7A CN113543156B (zh) 2021-06-24 2021-06-24 基于多智能体深度强化学习的工业无线网络资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110733227.7A CN113543156B (zh) 2021-06-24 2021-06-24 基于多智能体深度强化学习的工业无线网络资源分配方法

Publications (2)

Publication Number Publication Date
CN113543156A CN113543156A (zh) 2021-10-22
CN113543156B true CN113543156B (zh) 2022-05-06

Family

ID=78126265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110733227.7A Active CN113543156B (zh) 2021-06-24 2021-06-24 基于多智能体深度强化学习的工业无线网络资源分配方法

Country Status (1)

Country Link
CN (1) CN113543156B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114079953B (zh) * 2021-10-28 2023-05-23 深圳大学 无线网络系统的资源调度方法、装置、终端及存储介质
CN113983638A (zh) * 2021-10-29 2022-01-28 西安建筑科技大学 一种基于改进型dqn的室内热舒适控制方法及系统
CN114090239A (zh) * 2021-11-01 2022-02-25 国网江苏省电力有限公司信息通信分公司 一种基于模型的强化学习的边缘资源调度方法和装置
CN114039927B (zh) * 2021-11-04 2023-09-12 国网江苏省电力有限公司苏州供电分公司 一种用于电力信息网络路由流量的控制方法
CN114240192B (zh) * 2021-12-21 2022-06-24 特斯联科技集团有限公司 基于强化学习的园区能效提升的设备优化配置方法及系统
CN114500551B (zh) * 2021-12-31 2024-04-05 杭州未名信科科技有限公司 边缘计算传输负载均衡方法、装置、设备及存储介质
CN115499441A (zh) * 2022-09-15 2022-12-20 中原工学院 超密集网络中基于深度强化学习的边缘计算任务卸载方法
CN116233895B (zh) * 2023-05-04 2023-07-18 合肥工业大学 基于强化学习的5g配网节点通信优化方法、设备及介质
CN117667360B (zh) * 2024-01-31 2024-04-16 湘江实验室 面向大模型任务的计算与通信融合的智能算网调度方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111628855A (zh) * 2020-05-09 2020-09-04 中国科学院沈阳自动化研究所 基于深度强化学习的工业5g动态多优先级多接入方法
CN111629380A (zh) * 2020-05-09 2020-09-04 中国科学院沈阳自动化研究所 面向高并发多业务工业5g网络的动态资源分配方法
CN112533237A (zh) * 2020-11-16 2021-03-19 北京科技大学 工业互联网中支持大规模设备通信的网络容量优化方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10375585B2 (en) * 2017-07-06 2019-08-06 Futurwei Technologies, Inc. System and method for deep learning and wireless network optimization using deep learning
CN111245651B (zh) * 2020-01-08 2022-03-29 上海交通大学 一种基于功率控制和资源分配的任务卸载方法
CN112486690B (zh) * 2020-12-11 2024-01-30 重庆邮电大学 一种适用于工业物联网的边缘计算资源分配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111628855A (zh) * 2020-05-09 2020-09-04 中国科学院沈阳自动化研究所 基于深度强化学习的工业5g动态多优先级多接入方法
CN111629380A (zh) * 2020-05-09 2020-09-04 中国科学院沈阳自动化研究所 面向高并发多业务工业5g网络的动态资源分配方法
CN112533237A (zh) * 2020-11-16 2021-03-19 北京科技大学 工业互联网中支持大规模设备通信的网络容量优化方法

Also Published As

Publication number Publication date
CN113543156A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN113543156B (zh) 基于多智能体深度强化学习的工业无线网络资源分配方法
CN112367353B (zh) 基于多智能体强化学习的移动边缘计算卸载方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN113573324B (zh) 工业物联网中协作式任务卸载和资源分配的联合优化方法
CN111507601B (zh) 基于深度强化学习与区块链共识的资源优化分配决策方法
CN112512056B (zh) 一种移动边缘计算网络中多目标优化的计算卸载方法
CN110351754B (zh) 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法
CN111093203A (zh) 一种基于环境感知的服务功能链低成本智能部署方法
CN114285853B (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN113573363B (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
CN113726858B (zh) 一种基于强化学习的自适应ar任务卸载和资源分配方法
CN113961204A (zh) 一种基于多目标强化学习的车联网计算卸载方法及系统
CN117236561A (zh) 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质
CN113973113A (zh) 一种面向移动边缘计算的分布式服务迁移方法
CN111930435B (zh) 一种基于pd-bpso技术的任务卸载决策方法
CN116112488A (zh) 一种面向mec网络的细粒度任务卸载及资源分配方法
CN115756873B (zh) 一种基于联邦强化学习的移动边缘计算卸载方法和平台
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法
CN115413044A (zh) 一种工业无线网络的计算和通信资源联合分配方法
CN113452625B (zh) 基于深度强化学习的卸载调度与资源分配方法
CN115865914A (zh) 车辆边缘计算中基于联邦深度强化学习的任务卸载方法
CN113157344B (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法
CN114584951A (zh) 一种基于多智能体ddqn的联合计算卸载和资源分配方法
CN113784372A (zh) 一种面向终端多业务模型的联合优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant