CN113543156B - 基于多智能体深度强化学习的工业无线网络资源分配方法 - Google Patents
基于多智能体深度强化学习的工业无线网络资源分配方法 Download PDFInfo
- Publication number
- CN113543156B CN113543156B CN202110733227.7A CN202110733227A CN113543156B CN 113543156 B CN113543156 B CN 113543156B CN 202110733227 A CN202110733227 A CN 202110733227A CN 113543156 B CN113543156 B CN 113543156B
- Authority
- CN
- China
- Prior art keywords
- industrial
- neural network
- deep neural
- terminal
- wireless network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/22—Traffic simulation tools or models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及工业无线网络技术,具体地说,是一种基于多智能体深度强化学习的工业无线网络资源分配方法,包括以下步骤:建立端边协同的工业无线网络;确立工业无线网络端边资源分配的优化问题;建立马尔科夫决策模型;采用多智能体深度强化学习方法,构建资源分配神经网络模型;离线训练神经网络模型,直至奖励收敛到稳定值;基于离线训练结果,工业无线网络在线执行资源分配,处理工业任务。本发明能够实时、高能效地对工业无线网络进行端边协同的资源分配,在满足有限能量、计算资源约束下,最小化系统开销。
Description
技术领域
本发明涉及有限能量、计算资源约束下的资源分配,属于工业无线网络技术领域,具体说是一种基于多智能体深度强化学习的工业无线网络资源分配方法。
背景技术
随着工业4.0的发展,大量的分布式工业终端通过工业无线网络互联互通,产生了海量的计算密集、时延敏感的工业任务。然而,工业终端本地的能量与计算资源是有限的,难以满足工业任务的服务质量要求。
部署在网络边缘侧的边缘计算服务器能够就近为工业终端提供计算资源支持,但是工业终端的大规模并发卸载,会造成边缘计算服务器满载和无线链路拥塞问题,增加额外的时延、能耗。将工业终端的能量、计算资源与边缘服务器的计算资源联合分配,建立端边协同的工业无线网络资源分配是一种有效解决途径。
然而传统的资源分配算法一般是基于已知的系统模型的,对于大规模机器间通信的工业场景,工业终端数量和数据是时变的,难以获得准确的系统模型,而且会造成算法的状态空间爆炸。深度强化学习,能够利用深度学习估计系统模型,结合强化学习求解资源分配,有效地解决了系统模型建模难和状态空间爆炸问题。
但是,目前常用的深度强化学习算法都是从单智能体角度出发的,即一个具有全局系统信息的智能体建模系统模型,求解资源分配策略。然而,工业终端是移动的,能量、计算资源的数量是时变的,单智能体难以跟踪系统信息的动态变化,同时,单智能体收集全局系统信息会增加时延、能耗。从多智能体角度出发,每个工业终端观测局部系统信息,通过彼此间的合作建模系统模型,求解资源分配策略,有效地解决了单智能体深度强化学习方法的缺陷。
发明内容
为实现上述发明目的,本发明提供基于多智能体深度强化学习的工业无线网络资源分配方法。针对工业无线网络中能量、计算资源有限的工业终端难以支持计算密集、时延敏感工业任务本地实时高效处理问题,考虑工业无线网络的动态时变特征所造成的传统方法建模难和算法状态空间爆炸的难点,特别是当大规模工业终端请求工业任务处理时,在有限能量、计算资源约束下,基于多智能体深度强化学习算法,实时、高效地对工业无线网络内多个工业终端进行资源分配,最小化系统开销。
本发明为实现上述目的所采用的技术方案是:
基于多智能体深度强化学习的工业无线网络资源分配方法,包括以下步骤:
1)建立端边协同的工业无线网络;
2)基于端边协同的工业无线网络,确立工业无线网络端边资源分配的优化问题;
3)根据优化问题,建立马尔科夫决策模型;
4)采用多智能体深度强化学习构建资源分配神经网络模型;
5)利用马尔科夫决策模型,对资源分配神经网络模型进行离线训练,直至奖励收敛到稳定值;
6)基于离线训练结果,工业无线网络在线执行资源分配,处理工业任务。
所述端边协同的工业无线网络,包括:N台工业基站和M个工业终端;
所述工业基站,具有边缘计算能力,以为工业终端提供计算资源,用于调度网络覆盖范围内的工业终端,以及工业终端与工业基站间通信;
所述工业终端,用于实时产生不同类型工业任务,通过无线信道与工业基站通信。
所述工业无线网络端边资源分配的优化问题为:
s.t.
C1:0≤pm≤P,
C1为工业终端m的能量约束,pm表示工业终端m的发射功率,P表示最大发射功率;
C3为计算资源约束,卸载至工业基站n的工业终端m所分得的计算资源不得超过工业基站n的最大计算资源;
所述马尔科夫决策模型,是状态向量之间通过执行不同动作向量,实现长期累积奖励最优化的过程,使用转移概率描述为:
其中,从任意状态向量转移至另一状态向量的转移概率为fm,fm(t)*表示在时隙t状态向量间的最优转移概率,为系统长期累积奖励,γ表示折扣比例,τ表示时隙;rm(t)=ωrm,d(t)+(1-ω)rm,e(t);
所述马尔科夫决策模型,包括状态向量、动作向量、奖励向量,其中:
所述状态向量为工业终端m在时隙t的状态,表示为其中表示工业终端m在时隙t开始时的计算决策,dm(t)表示工业终端m在时隙t产生的工业任务的数据量大小,cm(t)表示工业终端m在时隙t产生的工业任务的所需计算资源,表示工业终端m在时隙t时与全部N台工业基站的距离;
所述动作向量为工业终端m在时隙t的动作,表示为am(t)={am,o(t),am,p(t)},其中am,o(t)表示工业终端m在时隙t结束时的计算决策,am,p(t)表示工业终端m在时隙t结束时的发射功率;
所述奖励向量为工业终端m在时隙t的获得的奖励,表示为rm(t)={rm,d(t),rm,e(t)},其中rm,d(t)表示工业终端m在时隙t的时延奖励,rm,e(t)表示工业终端m在时隙t的能耗奖励。
所述步骤4)具体为:
每个所述工业终端均为一个智能体,由一个actor结构和一个critic结构组成;
所述actor结构由一个actor-eval深度神经网络和一个actor-target深度神经网络组成:所述actor-eval深度神经网络和actor-target深度神经网络模型参数集合为其中,表示actor-eval深度神经网络和actor-target深度神经网络输入层神经元个数,表示actor-eval深度神经网络和actor-target深度神经网络隐藏层神经元个数,表示actor-eval深度神经网络和actor-target深度神经网络输出层神经元个数,θπ表示actor-eval深度神经网络超参,表示actor-target深度神经网络超参;
所述critic结构由一个critic-eval深度神经网络和一个critic-target深度神经网络组成:所述critic-eval深度神经网络和critic-target深度神经网络模型参数集合为其中,表示critic-eval深度神经网络和critic-target深度神经网络输入层神经元个数,表示critic-eval深度神经网络和critic-target深度神经网络隐藏层神经元个数,表示critic-eval深度神经网络和critic-target深度神经网络输出层神经元个数,θQ表示critic-eval深度神经网络超参,表示critic-target深度神经网络超参。
所述步骤5)包括以下步骤:
5.1)将工业终端m的当前时隙的状态向量sm与下一时隙的状态向量s'm输入actor结构,输出动作向量am和a'm,获得奖励rm和rm';
5.2)对每个工业终端循环执行步骤5.1),存储每个时隙的<sm(t),am(t),rm(t)>作为经验池经验,获得K条经验,根据经验的权重不同,分别存入两个经验池,K为常数;
5.6)执行优先级权重经验回放,重复迭代步骤5.1)-5.5)直至奖励收敛到稳定值,获得训练完成的多智能体深度强化学习模型。
所述步骤5.1)中,采用贪婪算法动态改变动作向量输出概率,具体为:
所述ε=(1-δ)Uε0表示选择概率,其中,ε0表示初始选择概率,δ表示衰减速度,U表示训练次数。
所述步骤5.2)中,设置两个经验池,分别存储不同权重的经验,随着神经网络模型训练次数变化,动态改变不同经验池中抽取经验的概率,具体为:
设置A、B两个经验池,A池存储高权值经验,B池存储低权值经验;训练初始阶段,A、B经验池随机采样经验的概率是相等的,随着训练次数增加,A经验池采样概率逐渐增加,B经验池采样概率逐渐减少;采样概率为其中,0≤gx≤1表示A、B经验池的采样概率,g0表示A、B经验池的初始采样概率,表示A、B经验池的采样概率衰减值,U表示训练次数。
所述步骤5.4)中,actor-eval深度神经网络梯度为critic-eval深度神经网络梯度为其中表示actor-eval深度神经网络的下降梯度,表示critic-eval深度神经网络的下降梯度,γ表示折扣比例,表示数学期望,π表示actor-eval深度神经网络的当前策略。
所述步骤6)包括以下步骤:
6.1)将工业终端m当前时隙t的状态向量sm(t)作为离线训练完成的第m个智能体的actor结构的输入,得到输出动作向量am(t);
6.2)根据得到的输出动作向量am(t),工业终端m根据am(t)中的计算决策、发射功率分配计算和能量资源,处理工业任务;
6.3)对工业无线网络内全部M个工业终端执行步骤6.1)-6.2),得到M个工业终端的资源分配结果,根据资源分配结果处理工业任务。
本发明具有以下有益效果及优点:
1、本发明针对工业无线网络中工业终端产生的计算密集、时延敏感工业任务的服务质量需求,建立工业无线网络端边协同资源分配,使用基于多智能体深度强化学习的资源分配算法解决了工业无线网络动态时变特征造成的传统方法建模难和算法状态空间爆炸的问题,保证了能量、计算资源的合理分配,以及工业任务的实时高效处理。
2、本发明具有较强的通用性和实用性,能够自适应地处理工业无线动态时变特征,能够有效地实现有限能量、计算资源约束下的工业无线网络的资源分配,提高系统安全性和稳定性。
附图说明
图1是本发明方法流程图;
图2是端边协同的工业无线网络模型图;
图3是actor-eval和actor-target深度神经网络结构图;
图4是critic-eval和critic-target深度神经网络结构图;
图5是多智能体深度强化学习训练流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
本发明涉及工业无线网络技术,包括以下步骤:建立端边协同的工业无线网络;确立工业无线网络端边资源分配的优化问题;建立马尔科夫决策模型;采用多智能体深度强化学习方法,构建资源分配神经网络模型;离线训练神经网络模型,直至奖励收敛到稳定值;基于离线训练结果,工业无线网络在线执行资源分配,处理工业任务。本发明针对工业无线网络中工业终端产生的计算密集、时延敏感工业任务的服务质量需求,建立端边协同的工业无线网络模型,发明了基于多智能体深度强化学习的资源分配算法。该方法充分考虑工业无线网络动态时变特征所造成的传统方法建模难和算法状态空间爆炸的问题,能够在满足有限能量、计算资源约束下,合理分配能量、计算资源,保证工业任务的实时高效处理。
本发明主要包括以下实现过程,如图1:
1)建立端边协同的工业无线网络;
2)确立工业无线网络端边资源分配的优化问题;
3)建立马尔科夫决策模型;
4)采用多智能体深度强化学习构建资源分配神经网络模型;
5)离线训练神经网络模型,直至奖励收敛到稳定值;
6)基于离线训练结果,工业无线网络在线执行资源分配,处理工业任务。
该实施例是按照如图1所示的流程实施的,具体步骤如下:
1、建立端边协同的工业无线网络模型,如图2,包括:N台工业基站,以及M个工业终端;其中,工业基站用于调度网络覆盖范围内工业终端,以及工业终端与工业基站间通信;工业基站具有边缘计算能力,可为工业终端提供计算资源;工业终端,实时产生不同类型工业任务,通过无线信道与工业基站通信;工业终端的计算资源和能量均受限。
2、确立工业无线网络端边资源分配的优化问题:
s.t.
C1:0≤pm≤P,
其中,表示系统开销;Tm表示工业终端m的时延;Em表示工业终端m的能耗;ω表示时延权重,(1-ω)表示能耗权重;表示工业基站集合,表示工业终端集合,C1为工业终端m的能量约束,pm表示工业终端m的发射功率,P表示最大发射功率;C2为计算资源约束,表示工业基站n分配给工业终端m的计算资源、Fn表示工业基站n的最大计算资源,卸载至工业基站n的工业终端所分得的计算资源总和不得超过工业基站n的最大计算资源;C3为计算资源约束,卸载至工业基站n的工业终端m所分得的计算资源不得超过工业基站n的最大计算资源;C4为计算决策约束,表示工业终端m的计算决策,工业终端m仅能选择本地处理工业任务,即或者卸载工业任务至工业基站n,即C5为计算决策约束,若工业终端m卸载工业任务,其仅能卸载至工业基站集合中的一台工业基站。
3、建立马尔科夫决策模型,其中状态向量、动作向量、奖励向量及转移概率的具体含义为:
(1)工业终端m在时隙t的状态向量为其中表示工业终端m在时隙t开始时的计算决策,表示本地处理工业任务,表示卸载工业任务至工业基站n;dm(t)表示工业终端m在时隙t产生的工业任务的数据量大小;cm(t)表示工业终端m在时隙t产生的工业任务的所需计算资源;表示工业终端m在时隙t时与所有工业基站的距离;
(2)工业终端m在时隙t的动作向量为am(t)={am,o(t),am,p(t)},其中am,o(t),am,o(t)∈{0,1,..,n,..,N}表示工业终端m在时隙t结束时的计算决策,am,o(t)=0表示本地处理工业任务,am,o(t)=n表示卸载工业任务至工业基站n;am,p(t),am,p(t)∈{0,1,..,p,..,P}表示工业终端m在时隙t结束时的发射功率,am,p(t)=0表示本机处理工业任务,am,p(t)=p表示以发射功率p卸载工业任务;
(3)工业终端m在时隙t的奖励向量为rm(t)={rm,d(t),rm,e(t)},其中rm,d(t)表示工业终端m在时隙t的时延奖励,表示本地处理总时延,表示卸载至工业基站n处理的总时延;rm,e(t)表示工业终端m在时隙t的能耗奖励,表示本地处理总能耗,表示卸载至工业基站n处理的总能耗;
(4)在时隙t,状态向量间以概率fm(t)实现转移,通过最大化长期累积奖励实现转移概率的最优化,即其中,fm(t)*表示最优转移概率,为系统长期累积奖励,γ表示折扣比例,τ表示时隙;rm(t)=ωrm,d(t)+(1-ω)rm,e(t)同时考虑了时延和能量的系统开销。
4、采用多智能体深度强化学习构建资源分配神经网络模型,如图3、图4所示:
(1)每个工业终端为一个智能体,由一个actor结构和一个critic结构组成;
(2)初始化actor-eval深度神经网络和actor-target深度神经网络模型参数,其中,表示actor-eval深度神经网络和actor-target深度神经网络输入层神经元个数,表示actor-eval深度神经网络和actor-target深度神经网络隐藏层神经元个数,表示actor-eval深度神经网络和actor-target深度神经网络输出层神经元个数,θπ表示actor-eval深度神经网络超参,表示actor-target深度神经网络超参;
(3)初始化critic-eval深度神经网络和critic-target深度神经网络模型参数,其中,表示critic-eval深度神经网络和critic-target深度神经网络输入层神经元个数,表示critic-eval深度神经网络和critic-target深度神经网络隐藏层神经元个数,表示critic-eval深度神经网络和critic-target深度神经网络输出层神经元个数,θQ表示critic-eval深度神经网络超参,表示critic-target深度神经网络超参。
5、离线训练神经网络模型,直至奖励收敛到稳定值,如图5所示,具体步骤如下:
(1)将工业终端m时隙t的状态向量sm(t)输入actor-eval深度神经网络输出动作向量am(t),获得奖励rm(t),转移到下一状态向量sm(t+1);
采用贪婪算法动态改变动作向量输出概率,具体为:
所述ε=(1-δ)Uε0表示选择概率,其中ε0表示初始选择概率,δ表示衰减速度,U表示训练次数。
(2)将工业终端m时隙t+1的状态向量sm(t+1)输入actor-target深度神经网络输出动作向量am(t+1),获得奖励rm(t+1);
(3)将每个时隙的<sm(t),am(t),rm(t)>作为经验,对每个工业终端循环执行步骤(1)-(2),获得K条经验,根据经验的权重不同,分别存入两个经验池;
(4)将全部工业终端在时隙t的状态向量S和动作向量A输入critic-eval深度神经网络获得值函数Qm(S,A);将全部工业终端在时隙t+1的状态向量S'和动作向量A'输入critic-target深度神经网络,获得值函数Qm(S',A');
(5)根据强化学习的贝尔曼更新公式利用随机梯度下降方法更新actor-eval深度神经网络超参θπ和critic-eval深度神经网络超参θQ。其中,actor-eval深度神经网络梯度为critic-eval深度神经网络梯度为其中表示actor-eval深度神经网络的下降梯度,表示critic-eval深度神经网络的下降梯度,γ表示折扣比例,表示数学期望,π表示actor-eval深度神经网络的当前策略;
(7)执行优先级权重经验回放,重复迭代(1)-(6)直至奖励收敛到稳定值,得到训练完成的多智能体深度强化学习模型;
所述优先级权重经验回放具体为,设置两个经验池,分别存储不同权重的经验。随着神经网络模型训练次数变化,动态改变不同经验池中抽取经验的概率,具体为:
设置A、B两个经验池,A池存储高权值经验,B池存储低权值经验;训练初始阶段,A、B经验池随机采样经验的概率是相等的,随着训练次数增加,A经验池采样概率逐渐增加,B经验池采样概率逐渐减少;采样概率为其中0≤gx≤1表示A、B经验池的采样概率,g0表示A、B经验池的初始采样概率,表示A、B经验池的采样概率衰减值。。
6、基于离线训练结果,工业无线网络在线执行资源分配,处理工业任务,包括以下步骤:
(1)将工业终端m当前时隙t的状态向量sm(t)作为离线训练完成的第m个智能体的actor结构的输入,得到输出动作向量am(t);
(2)根据得到的输出动作向量,工业终端m根据am(t)中的计算决策、发射功率分配计算和能量资源,处理工业任务;
(3)对工业无线网络内全部M个工业终端执行步骤(1)-(2),得到M个工业终端的资源分配结果,根据资源分配结果处理工业任务。
Claims (9)
1.基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,包括以下步骤:
1)建立端边协同的工业无线网络;
2)基于端边协同的工业无线网络,确立工业无线网络端边资源分配的优化问题;
3)根据优化问题,建立马尔科夫决策模型;
4)采用多智能体深度强化学习构建资源分配神经网络模型;
5)利用马尔科夫决策模型,对资源分配神经网络模型进行离线训练,直至奖励收敛到稳定值;
6)基于离线训练结果,工业无线网络在线执行资源分配,处理工业任务;所述工业无线网络端边资源分配的优化问题为:
s.t.
C1:0≤pm≤P,
C1为工业终端m的能量约束,pm表示工业终端m的发射功率,P表示最大发射功率;
C3为计算资源约束,卸载至工业基站n的工业终端m所分得的计算资源不得超过工业基站n的最大计算资源;
2.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,所述端边协同的工业无线网络,包括:N台工业基站和M个工业终端;
所述工业基站,具有边缘计算能力,以为工业终端提供计算资源,用于调度网络覆盖范围内的工业终端,以及工业终端与工业基站间通信;
所述工业终端,用于实时产生不同类型工业任务,通过无线信道与工业基站通信。
3.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,所述马尔科夫决策模型,是状态向量之间通过执行不同动作向量,实现长期累积奖励最优化的过程,使用转移概率描述为:
其中,从任意状态向量转移至另一状态向量的转移概率为fm,fm(t)*表示在时隙t状态向量间的最优转移概率,为系统长期累积奖励,γ表示折扣比例,τ表示时隙;rm(t)=ωrm,d(t)+(1-ω)rm,e(t);
所述马尔科夫决策模型,包括状态向量、动作向量、奖励向量,其中:
所述状态向量为工业终端m在时隙t的状态,表示为其中表示工业终端m在时隙t开始时的计算决策,dm(t)表示工业终端m在时隙t产生的工业任务的数据量大小,cm(t)表示工业终端m在时隙t产生的工业任务的所需计算资源,表示工业终端m在时隙t时与全部N台工业基站的距离;
所述动作向量为工业终端m在时隙t的动作,表示为am(t)={am,o(t),am,p(t)},其中am,o(t)表示工业终端m在时隙t结束时的计算决策,am,p(t)表示工业终端m在时隙t结束时的发射功率;
所述奖励向量为工业终端m在时隙t的获得的奖励,表示为rm(t)={rm,d(t),rm,e(t)},其中rm,d(t)表示工业终端m在时隙t的时延奖励,rm,e(t)表示工业终端m在时隙t的能耗奖励。
4.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,所述步骤4)具体为:
每个工业终端均为一个智能体,由一个actor结构和一个critic结构组成;
所述actor结构由一个actor-eval深度神经网络和一个actor-target深度神经网络组成:所述actor-eval深度神经网络和actor-target深度神经网络模型参数集合为其中,表示actor-eval深度神经网络和actor-target深度神经网络输入层神经元个数,表示actor-eval深度神经网络和actor-target深度神经网络隐藏层神经元个数,表示actor-eval深度神经网络和actor-target深度神经网络输出层神经元个数,θπ表示actor-eval深度神经网络超参,表示actor-target深度神经网络超参;
5.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,所述步骤5)包括以下步骤:
5.1)将工业终端m的当前时隙的状态向量sm与下一时隙的状态向量s'm输入actor结构,输出动作向量am和a'm,获得奖励rm和r'm;
5.2)对每个工业终端循环执行步骤5.1),存储每个时隙的<sm(t),am(t),rm(t)>作为经验池经验,获得K条经验,根据经验的权重不同,分别存入两个经验池,K为常数;
5.6)执行优先级权重经验回放,重复迭代步骤5.1)-5.5)直至奖励收敛到稳定值,获得训练完成的多智能体深度强化学习模型。
7.根据权利要求5所述的基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,所述步骤5.2)中,设置两个经验池,分别存储不同权重的经验,随着神经网络模型训练次数变化,动态改变不同经验池中抽取经验的概率,具体为:
由于不同的经验对深度神经网络收敛贡献不同,把每条经验的下降梯度▽θπ作为经验的权重;
9.根据权利要求1所述的基于多智能体深度强化学习的工业无线网络资源分配方法,其特征在于,所述步骤6)包括以下步骤:
6.1)将工业终端m当前时隙t的状态向量sm(t)作为离线训练完成的第m个智能体的actor结构的输入,得到输出动作向量am(t);
6.2)根据得到的输出动作向量am(t),工业终端m根据am(t)中的计算决策、发射功率分配计算和能量资源,处理工业任务;
6.3)对工业无线网络内全部M个工业终端执行步骤6.1)-6.2),得到M个工业终端的资源分配结果,根据资源分配结果处理工业任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110733227.7A CN113543156B (zh) | 2021-06-24 | 2021-06-24 | 基于多智能体深度强化学习的工业无线网络资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110733227.7A CN113543156B (zh) | 2021-06-24 | 2021-06-24 | 基于多智能体深度强化学习的工业无线网络资源分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113543156A CN113543156A (zh) | 2021-10-22 |
CN113543156B true CN113543156B (zh) | 2022-05-06 |
Family
ID=78126265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110733227.7A Active CN113543156B (zh) | 2021-06-24 | 2021-06-24 | 基于多智能体深度强化学习的工业无线网络资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113543156B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114079953B (zh) * | 2021-10-28 | 2023-05-23 | 深圳大学 | 无线网络系统的资源调度方法、装置、终端及存储介质 |
CN113983638A (zh) * | 2021-10-29 | 2022-01-28 | 西安建筑科技大学 | 一种基于改进型dqn的室内热舒适控制方法及系统 |
CN114090239A (zh) * | 2021-11-01 | 2022-02-25 | 国网江苏省电力有限公司信息通信分公司 | 一种基于模型的强化学习的边缘资源调度方法和装置 |
CN114039927B (zh) * | 2021-11-04 | 2023-09-12 | 国网江苏省电力有限公司苏州供电分公司 | 一种用于电力信息网络路由流量的控制方法 |
CN114240192B (zh) * | 2021-12-21 | 2022-06-24 | 特斯联科技集团有限公司 | 基于强化学习的园区能效提升的设备优化配置方法及系统 |
CN114500551B (zh) * | 2021-12-31 | 2024-04-05 | 杭州未名信科科技有限公司 | 边缘计算传输负载均衡方法、装置、设备及存储介质 |
CN115499441A (zh) * | 2022-09-15 | 2022-12-20 | 中原工学院 | 超密集网络中基于深度强化学习的边缘计算任务卸载方法 |
CN116233895B (zh) * | 2023-05-04 | 2023-07-18 | 合肥工业大学 | 基于强化学习的5g配网节点通信优化方法、设备及介质 |
CN117667360B (zh) * | 2024-01-31 | 2024-04-16 | 湘江实验室 | 面向大模型任务的计算与通信融合的智能算网调度方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111628855A (zh) * | 2020-05-09 | 2020-09-04 | 中国科学院沈阳自动化研究所 | 基于深度强化学习的工业5g动态多优先级多接入方法 |
CN111629380A (zh) * | 2020-05-09 | 2020-09-04 | 中国科学院沈阳自动化研究所 | 面向高并发多业务工业5g网络的动态资源分配方法 |
CN112533237A (zh) * | 2020-11-16 | 2021-03-19 | 北京科技大学 | 工业互联网中支持大规模设备通信的网络容量优化方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10375585B2 (en) * | 2017-07-06 | 2019-08-06 | Futurwei Technologies, Inc. | System and method for deep learning and wireless network optimization using deep learning |
CN111245651B (zh) * | 2020-01-08 | 2022-03-29 | 上海交通大学 | 一种基于功率控制和资源分配的任务卸载方法 |
CN112486690B (zh) * | 2020-12-11 | 2024-01-30 | 重庆邮电大学 | 一种适用于工业物联网的边缘计算资源分配方法 |
-
2021
- 2021-06-24 CN CN202110733227.7A patent/CN113543156B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111628855A (zh) * | 2020-05-09 | 2020-09-04 | 中国科学院沈阳自动化研究所 | 基于深度强化学习的工业5g动态多优先级多接入方法 |
CN111629380A (zh) * | 2020-05-09 | 2020-09-04 | 中国科学院沈阳自动化研究所 | 面向高并发多业务工业5g网络的动态资源分配方法 |
CN112533237A (zh) * | 2020-11-16 | 2021-03-19 | 北京科技大学 | 工业互联网中支持大规模设备通信的网络容量优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113543156A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113543156B (zh) | 基于多智能体深度强化学习的工业无线网络资源分配方法 | |
CN112367353B (zh) | 基于多智能体强化学习的移动边缘计算卸载方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN113573324B (zh) | 工业物联网中协作式任务卸载和资源分配的联合优化方法 | |
CN111507601B (zh) | 基于深度强化学习与区块链共识的资源优化分配决策方法 | |
CN112512056B (zh) | 一种移动边缘计算网络中多目标优化的计算卸载方法 | |
CN110351754B (zh) | 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法 | |
CN111093203A (zh) | 一种基于环境感知的服务功能链低成本智能部署方法 | |
CN114285853B (zh) | 设备密集型工业物联网中基于端边云协同的任务卸载方法 | |
CN113573363B (zh) | 基于深度强化学习的mec计算卸载与资源分配方法 | |
CN115065678A (zh) | 一种基于深度强化学习的多智能设备任务卸载决策方法 | |
CN113726858B (zh) | 一种基于强化学习的自适应ar任务卸载和资源分配方法 | |
CN113961204A (zh) | 一种基于多目标强化学习的车联网计算卸载方法及系统 | |
CN117236561A (zh) | 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质 | |
CN113973113A (zh) | 一种面向移动边缘计算的分布式服务迁移方法 | |
CN111930435B (zh) | 一种基于pd-bpso技术的任务卸载决策方法 | |
CN116112488A (zh) | 一种面向mec网络的细粒度任务卸载及资源分配方法 | |
CN115756873B (zh) | 一种基于联邦强化学习的移动边缘计算卸载方法和平台 | |
CN114615705B (zh) | 一种基于5g网络下单用户资源分配策略方法 | |
CN115413044A (zh) | 一种工业无线网络的计算和通信资源联合分配方法 | |
CN113452625B (zh) | 基于深度强化学习的卸载调度与资源分配方法 | |
CN115865914A (zh) | 车辆边缘计算中基于联邦深度强化学习的任务卸载方法 | |
CN113157344B (zh) | 移动边缘计算环境下基于drl的能耗感知任务卸载方法 | |
CN114584951A (zh) | 一种基于多智能体ddqn的联合计算卸载和资源分配方法 | |
CN113784372A (zh) | 一种面向终端多业务模型的联合优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |