CN109788566A - 基于深度增强学习的网络资源分配方法 - Google Patents

基于深度增强学习的网络资源分配方法 Download PDF

Info

Publication number
CN109788566A
CN109788566A CN201910047058.4A CN201910047058A CN109788566A CN 109788566 A CN109788566 A CN 109788566A CN 201910047058 A CN201910047058 A CN 201910047058A CN 109788566 A CN109788566 A CN 109788566A
Authority
CN
China
Prior art keywords
sbs
user
time period
lstm
transmission rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910047058.4A
Other languages
English (en)
Other versions
CN109788566B (zh
Inventor
潘甦
张亚楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910047058.4A priority Critical patent/CN109788566B/zh
Publication of CN109788566A publication Critical patent/CN109788566A/zh
Application granted granted Critical
Publication of CN109788566B publication Critical patent/CN109788566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明揭示了一种基于深度增强学习的网络资源分配方法,包括如下步骤:S1、建立基于缓存的CSCN的下行传输链路系统模型,通过分析用户使用模型中不同链路的数据传输速率计算SBS的数据传输速率;S2、提出博弈问题,以最大化网络吞吐量为目标,使用博弈论将问题公式化为一个多智能体非合作博弈问题;S3、使用LSTM模型来预测用户的移动模式,SBS根据用户的移动模式以及用户所连接的SBS的缓存状态来选择传输条件最优的用户;S4、建立RL‑LSTM框架,使得SBS完成对信道资源的有效分配。本发明充分考虑了用户的移动模式和用户所连接SBS的缓存状态,使得SBS选择传输条件最优的用户,提升了系统的网络吞吐量。

Description

基于深度增强学习的网络资源分配方法
技术领域
本发明涉及一种资源分配方法,具体而言,涉及一种基于深度增强学习的网络资源分配方法,属于新型蜂窝网络的信道资源分配领域。
背景技术
随着众多移动设备的广泛普及和应用,为了满足现阶段移动数据快速增长的需求,业内有关人士提出了大量全新的网络架构。
基于缓存的CSCN(Cloud-based small cell network,云小型蜂窝网络CSCN)是目前最具前景的架构之一,其由一个云池和若干个连接于云池的SBS(small base station,小基站)组成。由于SBS相对于宏基站具有功率小、价格低且能够灵活补充宏基站不能覆盖的盲区等优点,因此,对基于缓存的CSCN的资源分配研究非常有意义。
传统的随机分配方法通过SBS随机分配信道给用户,尽管这一方法能够实现网络信道资源的分配,但是采用这样的方式,会出现信道资源利用率低的问题,从而会导致用户满意度的降低。
综上所述,如何在现有技术的基础上提出一种全新的网络资源分配方法,充分结合诸多现有技术的优点、克服其不足,从而实现对信道资源的合理分配、最大限度地提高系统的网络吞吐量,也就成为了目前业内研究人员亟待解决的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种基于深度增强学习的网络资源分配方法,包括如下步骤:
S1、建立基于缓存的CSCN的下行传输链路系统模型,通过分析用户使用模型中不同链路的数据传输速率计算SBS的数据传输速率;
S2、提出博弈问题,以最大化网络吞吐量为目标,使用博弈论将问题公式化为一个多智能体非合作博弈问题;
S3、使用LSTM模型来预测用户的移动模式,SBS根据用户的移动模式以及用户所连接的SBS的缓存状态来选择传输条件最优的用户;
S4、建立RL-LSTM框架,使得SBS完成对信道资源的有效分配。
优选地,S1包括如下步骤:
S11、建立基于缓存的CSCN的下行传输链路系统模型,
所述基于缓存的CSCN的下行传输链路系统模型由一个云池和连接在云池上的L个SBS组成,每个SBS由l表示,时间段τ内考虑系统的网络吞吐量,将τ划分为F个等时间的时间周期t,τ=Ft;
在所述基于缓存的CSCN的下行传输链路系统模型中,U个用户由所有SBS通过C个子信道提供服务,每个子信道由c表示,每个用户连接到最近的SBS,在每个SBS中,每个子信道每次只能分配给一个用户,每个用户每次仅占用一个子信道,pl,c(t)代表在时间周期tSBSl的子信道c的传输功率;
内容服务器存储的请求内容为M,每个SBS的缓存存储的内容为G,其中G≤M;
用户请求的内容可通过两种传输链路进行独立传输,所述两种传输链路分别为由SBS缓存至用户以及由云池至SBS缓存再至用户。
优选地,S1还包括如下步骤:
S12、计算用户通过由SBS缓存至用户这一链路的传输速率,
用户在SBSl的子信道c的数据传输速率为
其中,gl,c(t)为信道增益系数,为路径损耗系数,dl,c(t)为在时间周期t用户与SBSl之间的距离,σ2为高斯噪声的功率;
S13、计算用户通过由云池至SBS缓存再至用户这一链路的传输速率,用户在SBSl的子信道c的数据传输速率为
其中,Vf为用户在回程链路的数据传输速率,Rl,c,1(t)为SBSl通过由SBS缓存至用户这一链路的数据传输速率;
S14、结合S12及S13的结果,得出在时间周期t内SBSl的数据传输速率为
其中,αl,c,t∈[0,1]表示在时间周期t内在子信道c上SBSl占用的时间百分比;均为指标函数,若SBSl通过由SBS缓存至用户这一链路通信并占用了子信道c,那么为1,否则为0;若SBSl通过由云池至SBS缓存再至用户这一链路通信并占用了子信道c,那么为1,否则为0。
优选地,S2包括如下步骤:
S21、使用博弈论将问题公式转化为一个多智能体非合作博弈问题,
其中L个SBS代表L个博弈方,集合Al={al,1,...,al,a,...,al,Al}是博弈方l可选择的一组动作向量,|Al|表示动作向量的数量;
是Al上的概率空间分布,其中,πl,a=Pr(a=al,a)表示博弈方l采用动作向量al,a的概率;
SBSl的一个动作向量表示为al=[(al,1,1,...,al,1,F),...,(al,C,1,...,al,C,F)],每个动作向量代表在时间段τ内一个SBS对所有C个子信道进行分配的配置,包括在每个时间周期t SBS是否选择了子信道c及在时间周期t在子信道c上占用的时间;
在τ的每一个时间周期t内每个SBS必须选择一个动作对al,c,t=(xl,c,tl,c,t)∈Al,其中,xl,c,t∈{0,1}表示如果在时间周期t SBSl选择了信道c,xl,c,t=1,否则为xl,c,t=0;αl,c,t∈[0,1]表示在时间周期t在子信道c上SBSl占用的时间百分比;
S22、根据S14中的公式,计算出在时间段τ内SBSl的效用函数为
其中,al表示SBSl的动作向量,a-l(t)表示其他所有SBS的动作向量,Rl(t)为在时间周期t SBSl的传输速率;
S23、每个SBS的目标均为最大化其效用函数,因此目标函数可写为
其中,l'表示除SBSl外,其他所有的SBS;
S24、根据所有SBS的策略来定义性能,
每个SBS的目标是参考所有其他SBS的动作空间的概率分布,选择最优概率分布πl来最大化效用函数,
将博弈问题写成
优选地,S3包括如下步骤:
S31、对用户移动位置进行预测,
使用LSTM模型来预测用户在下一个τ的位置,公式为
yτ=σ(W'hτ),
fτ=σ(Wf[hτ-1,xτ]+bf),
iτ=σ(Wi[hτ-1,xτ]+bi),
oτ=σ(Wo[hτ-1,xτ]+bo),
Cτ=fτ*Cτ-1+iτ*tanh(Wc[hτ-1,xτ]+bc),
其中,xτ=[pτ-k+1,...,pτ-k+i,...,pτ]是输入向量,pT-k+i代表用户在时间段T-k+1的位置;yτ是输出值,表示用户在下一个τ的预测位置;hτ是隐藏层输出向量;Cτ是细胞状态;Wi、Wo、Wf和Wc分别是当前输入向量xτ和输入门、输出门、遗忘门及细胞连接上的权重参数矩阵;W'是隐藏层和输出层连接上的权重参数矩阵;σ和tanh都是激活函数;
S32、对用户传输条件进行评估,
在时间周期t中,评估用户的传输条件的函数可定义为
f(t)=w1I(t)-w2d(t),
其中,I(t)∈(0,1)表示在时间周期t某个用户连接的SBS是否有其需要的缓存内容,有则I(t)=1,否则I(t)=0;d(t)表示这个用户和它所连接SBS之间的距离;w1和w2均为大于零的权重因子;用户的f(t)与用户被SBS选择的可能性成正比。
优选地,S4包括如下步骤:
S41、建立RL-LSTM框架,所述RL-LSTM框架由M个LSTM编码器、L个LSTM解码器以及多层感知网络(MLP)组成,每个SBS都被建模为LSTM网络解码器。解码器l预测第t个时间周期的动作向量xl,t和αl,c,t,xl,t和αl,c,t上的概率向量分别为
μl,c,t=S(Wμhl,t),αl,c,t~N(μl,c,t,Var(αl,c,t)),
其中,μl,c,t和Var(αl,c,t)分别是高斯分布的均值和方差;和Wμ∈Rn是参数;σ(.)是softmax函数,对于q=1,...,O,S(.)是S形函数,用于将值归一化为(0,1);hl,t是解码器l在时间周期t的隐藏层向量;是在时间周期t所有编码器的输入历史流量向量;xl,<t=[xl,1,...,xl,t-1];αl,c,<t=[αl,c,1,...,αl,c,t-1]。
S42、SBSl的整个动作序列的概率
其中,F代表时间段τ内的F个时间周期t,是在时间段τ所有编码器的输入历史流量序列;
S43、判断是否存在混合策略使博弈问题G存在纳什均衡,
使用训练数据集D来训练RL-LSTM框架,在训练阶段使用增强学习算法来计算奖励函数的期望值的梯度,反向传播算法来更新LSTM参数,当训练次数满足设置的最大训练时间周期时停止训练;
博弈问题G的基于梯度的学习算法允许收敛到该博弈的平衡点;在动作空间上存在最好的概率空间分布使得对于 策略向量π*∈ΔA=ΔA1×...×ΔAL是纳什平衡;
其中,表示采用策略πl给博弈方l带来的回报,表示Al上最好的概率空间分布,表示A-l上最好的概率空间分布。
与现有技术相比,本发明的优点主要体现在以下几个方面:
本发明的方法在信道分配的过程中充分考虑了用户的移动模式和用户所连接SBS的缓存状态,使得SBS能够选择传输条件最优的用户,有助于提升系统的网络吞吐量。
同时,本发明通过建立RL-LSTM框架的方式使得系统内的SBS能够有效地进行信道资源的合理分配,从而进一步提升了系统整体的网络吞吐量。
此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于其他关于网络资源分配的技术方案中,具有十分广阔的应用前景。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1为本发明的流程示意图;
图2为本发明的系统模型示意图。
具体实施方式
如图1所示,本发明揭示了一种基于深度增强学习的网络资源分配方法,本发明的方法在充分考虑用户的移动模式和用户所连接SBS的缓存状态的情况下,将基于缓存的CSCN的信道分配问题公式化为博弈问题,然后使用RL-LSTM框架来有效分配信道,提高网络吞吐量。具体而言,包括如下步骤:
S1、建立基于缓存的CSCN的下行传输链路系统模型,通过分析用户使用模型中不同链路的数据传输速率计算SBS的数据传输速率。
S2、提出博弈问题,以最大化网络吞吐量为目标,使用博弈论将问题公式化为一个多智能体非合作博弈问题,其中每个SBS的目标参考其他所有SBS的动作空间概率分布、选择最优概率分布来最大化效用函数。
S3、在信道分配中考虑用户的移动性将有助于提高系统的网络吞吐量。使用LSTM(Long Short-Term Memory,长短期记忆网络)模型来预测用户的移动模式,SBS根据用户的移动模式以及用户所连接的SBS的缓存状态来选择传输条件最优的用户。
S4、建立RL-LSTM(Reinforcement Learning-Long Short Term Memory,强化学习-长短期记忆网络)框架,使得SBS完成对信道资源的有效分配。
S1包括如下步骤:
S11、建立基于缓存的CSCN的下行传输链路系统模型,
如图2所示,所述基于缓存的CSCN的下行传输链路系统模型由一个云池和连接在云池上的L个SBS组成,每个SBS由l表示,我们在时间段τ内考虑系统的网络吞吐量,为了计算精确,我们将τ划分为F个等时间的时间周期t,τ=Ft。
在所述基于缓存的CSCN的下行传输链路系统模型中,U个用户由所有SBS通过C个子信道提供服务,每个子信道由c表示,每个用户连接到最近的SBS,在每个SBS中,每个子信道每次只能分配给一个用户,每个用户每次仅占用一个子信道,pl,c(t)代表在时间周期tSBSl的子信道c的传输功率。
内容服务器存储的请求内容为M,每个SBS的缓存存储的内容为G,其中G≤M。
用户请求的内容可通过两种传输链路进行独立传输,所述两种传输链路分别为由SBS缓存至用户以及由云池至SBS缓存再至用户。
S1还包括如下步骤:
S12、计算用户通过由SBS缓存至用户这一链路的传输速率,
用户在SBSl的子信道c的数据传输速率为
其中,gl,c(t)为信道增益系数,为路径损耗系数,dl,c(t)为在时间周期t用户与SBSl之间的距离,σ2为高斯噪声的功率。
S13、计算用户通过由云池至SBS缓存再至用户这一链路的传输速率,用户在SBSl的子信道c的数据传输速率为
其中,Vf为用户在回程链路的数据传输速率,Rl,c,1(t)为SBSl通过由SBS缓存至用户这一链路的数据传输速率。
S14、结合S12及S13的结果,得出在时间周期t内SBSl的数据传输速率为
其中,αl,c,t∈[0,1]表示在时间周期t内在子信道c上SBSl占用的时间百分比。均为指标函数,若SBSl通过由SBS缓存至用户这一链路通信并占用了子信道c,那么为1,否则为0。若SBSl通过由云池至SBS缓存再至用户这一链路通信并占用了子信道c,那么为1,否则为0。
S2包括如下步骤:
S21、使用博弈论将问题公式转化为一个多智能体非合作博弈问题,
其中L个SBS代表L个博弈方,集合是博弈方l可选择的一组动作向量,|Al|表示动作向量的数量。
是Al上的概率空间分布,其中,πl,a=Pr(a=al,a)表示博弈方l采用动作向量al,a的概率。
SBSl的一个动作向量表示为al=[(al,1,1,...,al,1,F),...,(al,C,1,...,al,C,F)],每个动作向量代表在时间段τ内一个SBS对所有C个子信道进行分配的配置,包括在每个时间周期t SBS是否选择了子信道c及在时间周期t在子信道c上占用的时间。
在τ的每一个时间周期t内每个SBS必须选择一个动作对al,c,t=(xl,c,tl,c,t)∈Al,其中,xl,c,t∈{0,1}表示如果在时间周期t SBSl选择了信道c,xl,c,t=1,否则为xl,c,t=0。αl,c,t∈[0,1]表示在时间周期t在子信道c上SBSl占用的时间百分比。
S22、根据S14中的公式,计算出在时间段τ内SBSl的效用函数为
其中,al表示SBSl的动作向量,a-l(t)表示其他所有SBS的动作向量,Rl(t)为在时间周期t SBSl的传输速率。在时间段τSBSl的性能不仅取决于它自己的动作,还取决于其他所有SBS所采用的动作。
S23、每个SBS的目标均为最大化其效用函数,因此目标函数可写为
其中,l'表示除SBSl外,其他所有的SBS。
S24、根据所有SBS的策略来定义性能,
每个SBS的目标是参考所有其他SBS的动作空间的概率分布,选择最优概率分布πl来最大化效用函数,
将博弈问题写成
S3包括如下步骤:
在SBS给用户分配信道的过程中,SBS默认选择用户传输条件最优的Umax个用户。计算用户的传输条件需要知道SBS与用户的距离和用户所连接SBS的缓存状态,SBS从而决定是否选择该用户。下面我们分成两个阶段:用户移动位置预测和用户传输条件评估。
S31、对用户移动位置进行预测,
使用LSTM模型来预测用户在下一个τ的位置,公式为
yτ=σ(W'hτ),
fτ=σ(Wf[hτ-1,xτ]+bf),
iτ=σ(Wi[hτ-1,xτ]+bi),
oτ=σ(Wo[hτ-1,xτ]+bo),
Cτ=fτ*Cτ-1+iτ*tanh(Wc[hτ-1,xτ]+bc),
其中,xτ=[pτ-k+1,...,pτ-k+i,...,pτ]是输入向量,pT-k+i代表用户在时间段T-k+1的位置。yτ是输出值,表示用户在下一个τ的预测位置。hτ是隐藏层输出向量。Cτ是细胞状态。Wi、Wo、Wf和Wc分别是当前输入向量xτ和输入门、输出门、遗忘门及细胞连接上的权重参数矩阵。W'是隐藏层和输出层连接上的权重参数矩阵。σ和tanh都是激活函数。
S32、对用户传输条件进行评估,
假设我们已经准确地预测了在时间段τ的用户位置并假设用户在两个位置之间进行均速运动,因此,我们首先根据用户的位置和缓存状态,在每个时间周期内评估用户的传输条件。
在时间周期t中,评估用户的传输条件的函数可定义为
f(t)=w1I(t)-w2d(t),
其中,I(t)∈(0,1)表示在时间周期t某个用户连接的SBS是否有其需要的缓存内容,有则I(t)=1,否则I(t)=0。d(t)表示这个用户和它所连接SBS之间的距离。w1和w2均为大于零的权重因子。用户的f(t)与用户被SBS选择的可能性成正比。在确定时间周期t内的用户后,SBS可将信道分配给用户。
S4包括如下步骤:
S41、建立RL-LSTM框架,所述RL-LSTM框架由M个LSTM编码器、L个LSTM解码器以及多层感知网络(MLP)组成,它用来预测所有SBS在下一个时间段τ的动作序列。每个SBS都被建模为LSTM网络解码器。解码器l预测第t个时间周期的动作向量xl,t和αl,c,t,xl,t和αl,c,t上的概率向量分别为
μl,c,t=S(Wμhl,t),αl,c,t~N(μl,c,t,Var(αl,c,t)),
其中,μl,c,t和Var(αl,c,t)分别是高斯分布的均值和方差。和Wμ∈Rn是参数。σ(.)是softmax函数,对于q=1,...,O,S(.)是S形函数,用于将值归一化为(0,1)。hl,t是解码器l在时间周期t的隐藏层向量。是在时间周期t所有编码器的输入历史流量向量。xl,<t=[xl,1,...,xl,t-1]。αl,c,<t=[αl,c,1,...,αl,c,t-1]。
S42、根据S41中的公式可得,SBSl的整个动作序列的概率
其中,F代表时间段τ内的F个时间周期t,是在时间段τ所有编码器的输入历史流量序列。
S43、通过S42中公式可以得到SBSl在时间段τ的一个动作序列的概率,需要判断是否存在混合策略使得博弈问题G存在纳什均衡。
此处需要证明博弈问题G存在纳什均衡。在本方案中使用训练数据集D来训练RL-LSTM框架,在训练阶段使用增强学习算法来计算奖励函数的期望值的梯度,反向传播算法来更新LSTM参数,当训练次数满足设置的最大训练时间周期时停止训练。
由于效用函数ul(al,a-l)是底数为2的对数函数(凸函数)的仿射组合,所有效用函数ul(al,a-l)也是凸函数。因此,博弈问题G的基于梯度的学习算法允许收敛到该博弈的平衡点。在动作空间上存在最好的概率空间分布使得对于 策略向量π*∈ΔA=ΔA1×...×ΔAL是纳什平衡。
其中,表示采用策略πl给博弈方l带来的回报,表示Al上最好的概率空间分布,表示A-l上最好的概率空间分布。
本发明的方法在信道分配的过程中充分考虑了用户的移动模式和用户所连接SBS的缓存状态,使得SBS能够选择传输条件最优的用户,有助于提升系统的网络吞吐量。
同时,本发明通过建立RL-LSTM框架的方式使得系统内的SBS能够有效地进行信道资源的合理分配,从而进一步提升了系统整体的网络吞吐量。
此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于其他关于网络资源分配的技术方案中,具有十分广阔的应用前景。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种基于深度增强学习的网络资源分配方法,其特征在于,包括如下步骤:
S1、建立基于缓存的CSCN的下行传输链路系统模型,通过分析用户使用模型中不同链路的数据传输速率计算SBS的数据传输速率;
S2、提出博弈问题,以最大化网络吞吐量为目标,使用博弈论将问题公式化为一个多智能体非合作博弈问题;
S3、使用LSTM模型来预测用户的移动模式,SBS根据用户的移动模式以及用户所连接的SBS的缓存状态来选择传输条件最优的用户;
S4、建立RL-LSTM框架,使得SBS完成对信道资源的有效分配。
2.根据权利要求1所述的基于深度增强学习的网络资源分配方法,其特征在于,S1包括如下步骤:
S11、建立基于缓存的CSCN的下行传输链路系统模型,
所述基于缓存的CSCN的下行传输链路系统模型由一个云池和连接在云池上的L个SBS组成,每个SBS由l表示,时间段τ内考虑系统的网络吞吐量,将τ划分为F个等时间的时间周期t,τ=Ft;
在所述基于缓存的CSCN的下行传输链路系统模型中,U个用户由所有SBS通过C个子信道提供服务,每个子信道由c表示,每个用户连接到最近的SBS,在每个SBS中,每个子信道每次只能分配给一个用户,每个用户每次仅占用一个子信道,pl,c(t)代表在时间周期t SBS l的子信道c的传输功率;
内容服务器存储的请求内容为M,每个SBS的缓存存储的内容为G,其中G≤M;
用户请求的内容可通过两种传输链路进行独立传输,所述两种传输链路分别为由SBS缓存至用户以及由云池至SBS缓存再至用户。
3.根据权利要求2所述的基于深度增强学习的网络资源分配方法,其特征在于,S1还包括如下步骤:
S12、计算用户通过由SBS缓存至用户这一链路的传输速率,
用户在SBSl的子信道c的数据传输速率为
其中,gl,c(t)为信道增益系数,为路径损耗系数,dl,c(t)为在时间周期t用户与SBS l之间的距离,σ2为高斯噪声的功率;
S13、计算用户通过由云池至SBS缓存再至用户这一链路的传输速率,
用户在SBSl的子信道c的数据传输速率为
其中,Vf为用户在回程链路的数据传输速率,Rl,c,1(t)为SBSl通过由SBS缓存至用户这一链路的数据传输速率;
S14、结合S12及S13的结果,得出在时间周期t内SBSl的数据传输速率为
其中,αl,c,t∈[0,1]表示在时间周期t内在子信道c上SBS l占用的时间百分比;均为指标函数,若SBSl通过由SBS缓存至用户这一链路通信并占用了子信道c,那么为1,否则为0;若SBSl通过由云池至SBS缓存再至用户这一链路通信并占用了子信道c,那么为1,否则为0。
4.根据权利要求3所述的基于深度增强学习的网络资源分配方法,其特征在于,S2包括如下步骤:
S21、使用博弈论将问题公式转化为一个多智能体非合作博弈问题,
其中L个SBS代表L个博弈方,集合是博弈方l可选择的一组动作向量,|Al|表示动作向量的数量;
是Al上的概率空间分布,其中,πl,a=Pr(a=al,a)表示博弈方l采用动作向量al,a的概率;
SBSl的一个动作向量表示为al=[(al,1,1,...,al,1,F),...,(al,C,1,...,al,C,F)],每个动作向量代表在时间段τ内一个SBS对所有C个子信道进行分配的配置,包括在每个时间周期tSBS是否选择了子信道c及在时间周期t在子信道c上占用的时间;
在τ的每一个时间周期t内每个SBS必须选择一个动作对al,c,t=(xl,c,tl,c,t)∈Al,其中,xl,c,t∈{0,1}表示如果在时间周期t SBS l选择了信道c,xl,c,t=1,否则为xl,c,t=0;αl,c,t∈[0,1]表示在时间周期t在子信道c上SBS l占用的时间百分比;
S22、根据S14中的公式,计算出在时间段τ内SBSl的效用函数为
其中,al表示SBS l的动作向量,a-l(t)表示其他所有SBS的动作向量,Rl(t)为在时间周期t SBS l的传输速率;
S23、每个SBS的目标均为最大化其效用函数,因此目标函数可写为
其中,l'表示除SBS l外,其他所有的SBS;
S24、根据所有SBS的策略来定义性能,
每个SBS的目标是参考所有其他SBS的动作空间的概率分布,选择最优概率分布πl来最大化效用函数,
将博弈问题写成
5.根据权利要求4所述的基于深度增强学习的网络资源分配方法,其特征在于,S3包括如下步骤:
S31、对用户移动位置进行预测,
使用LSTM模型来预测用户在下一个τ的位置,公式为
yτ=σ(W'hτ),
fτ=σ(Wf[hτ-1,xτ]+bf),
iτ=σ(Wi[hτ-1,xτ]+bi),
oτ=σ(Wo[hτ-1,xτ]+bo),
Cτ=fτ*Cτ-1+iτ*tanh(Wc[hτ-1,xτ]+bc),
其中,xτ=[pτ-k+1,...,pτ-k+i,...,pτ]是输入向量,pT-k+i代表用户在时间段T-k+1的位置;yτ是输出值,表示用户在下一个τ的预测位置;hτ是隐藏层输出向量;Cτ是细胞状态;Wi、Wo、Wf和Wc分别是当前输入向量xτ和输入门、输出门、遗忘门及细胞连接上的权重参数矩阵;W'是隐藏层和输出层连接上的权重参数矩阵;σ和tanh都是激活函数;
S32、对用户传输条件进行评估,
在时间周期t中,评估用户的传输条件的函数可定义为
f(t)=w1I(t)-w2d(t),
其中,I(t)∈(0,1)表示在时间周期t某个用户连接的SBS是否有其需要的缓存内容,有则I(t)=1,否则I(t)=0;d(t)表示这个用户和它所连接SBS之间的距离;w1和w2均为大于零的权重因子;用户的f(t)与用户被SBS选择的可能性成正比。
6.根据权利要求5所述的基于深度增强学习的网络资源分配方法,其特征在于,S4包括如下步骤:
S41、建立RL-LSTM框架,所述RL-LSTM框架由M个LSTM编码器、L个LSTM解码器以及多层感知网络(MLP)组成,每个SBS都被建模为LSTM网络解码器。解码器l预测第t个时间周期的动作向量xl,t和αl,c,t,xl,t和αl,c,t上的概率向量分别为
μl,c,t=S(Wμhl,t),αl,c,t~N(μl,c,t,Var(αl,c,t)),
其中,μl,c,t和Var(αl,c,t)分别是高斯分布的均值和方差;和Wμ∈Rn是参数;σ(.)是softmax函数,对于q=1,...,O,S(.)是S形函数,用于将值归一化为(0,1);hl,t是解码器l在时间周期t的隐藏层向量;是在时间周期t所有编码器的输入历史流量向量;xl,<t=[xl,1,...,xl,t-1];αl,c,<t=[αl,c,1,...,αl,c,t-1]。
S42、SBS l的整个动作序列的概率
其中,F代表时间段τ内的F个时间周期t,是在时间段τ所有编码器的输入历史流量序列;
S43、判断是否存在混合策略使博弈问题G存在纳什均衡,
使用训练数据集D来训练RL-LSTM框架,在训练阶段使用增强学习算法来计算奖励函数的期望值的梯度,反向传播算法来更新LSTM参数,当训练次数满足设置的最大训练时间周期时停止训练;
博弈问题G的基于梯度的学习算法允许收敛到该博弈的平衡点;在动作空间上存在最好的概率空间分布使得对于 策略向量是纳什平衡;
其中,表示采用策略πl给博弈方l带来的回报,表示Al上最好的概率空间分布,表示A-l上最好的概率空间分布。
CN201910047058.4A 2019-01-18 2019-01-18 基于深度增强学习的网络资源分配方法 Active CN109788566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910047058.4A CN109788566B (zh) 2019-01-18 2019-01-18 基于深度增强学习的网络资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910047058.4A CN109788566B (zh) 2019-01-18 2019-01-18 基于深度增强学习的网络资源分配方法

Publications (2)

Publication Number Publication Date
CN109788566A true CN109788566A (zh) 2019-05-21
CN109788566B CN109788566B (zh) 2023-05-09

Family

ID=66500922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910047058.4A Active CN109788566B (zh) 2019-01-18 2019-01-18 基于深度增强学习的网络资源分配方法

Country Status (1)

Country Link
CN (1) CN109788566B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245094A (zh) * 2019-06-18 2019-09-17 华中科技大学 一种基于深度学习的块级缓存预取优化方法和系统
CN111542107A (zh) * 2020-05-14 2020-08-14 南昌工程学院 一种基于增强学习的移动边缘网络资源分配方法
CN111582439A (zh) * 2020-04-14 2020-08-25 清华大学 状态部分可观测强化学习算法的高效采样更新方法及装置
CN116305268A (zh) * 2023-03-14 2023-06-23 中国医学科学院北京协和医院 一种基于有限状态机和多目标学习的数据发布方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008072083A2 (en) * 2006-12-11 2008-06-19 New Jersey Institute Of Technology Method and system for decentralized power control of a multi-antenna access point using game theory
CN107949025A (zh) * 2017-11-02 2018-04-20 南京南瑞集团公司 一种基于非合作博弈的网络选择方法
CN108022012A (zh) * 2017-12-01 2018-05-11 兰州大学 基于深度学习的车辆位置预测方法
CN108667734A (zh) * 2018-05-18 2018-10-16 南京邮电大学 一种基于q学习和lstm神经网络的快速路由决策算法
CN108986470A (zh) * 2018-08-20 2018-12-11 华南理工大学 粒子群算法优化lstm神经网络的行程时间预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008072083A2 (en) * 2006-12-11 2008-06-19 New Jersey Institute Of Technology Method and system for decentralized power control of a multi-antenna access point using game theory
CN107949025A (zh) * 2017-11-02 2018-04-20 南京南瑞集团公司 一种基于非合作博弈的网络选择方法
CN108022012A (zh) * 2017-12-01 2018-05-11 兰州大学 基于深度学习的车辆位置预测方法
CN108667734A (zh) * 2018-05-18 2018-10-16 南京邮电大学 一种基于q学习和lstm神经网络的快速路由决策算法
CN108986470A (zh) * 2018-08-20 2018-12-11 华南理工大学 粒子群算法优化lstm神经网络的行程时间预测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245094A (zh) * 2019-06-18 2019-09-17 华中科技大学 一种基于深度学习的块级缓存预取优化方法和系统
CN111582439A (zh) * 2020-04-14 2020-08-25 清华大学 状态部分可观测强化学习算法的高效采样更新方法及装置
CN111582439B (zh) * 2020-04-14 2021-08-10 清华大学 状态部分可观测强化学习算法的高效采样更新方法及装置
CN111542107A (zh) * 2020-05-14 2020-08-14 南昌工程学院 一种基于增强学习的移动边缘网络资源分配方法
CN116305268A (zh) * 2023-03-14 2023-06-23 中国医学科学院北京协和医院 一种基于有限状态机和多目标学习的数据发布方法及系统
CN116305268B (zh) * 2023-03-14 2024-01-05 中国医学科学院北京协和医院 一种基于有限状态机和多目标学习的数据发布方法及系统

Also Published As

Publication number Publication date
CN109788566B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN109788566A (zh) 基于深度增强学习的网络资源分配方法
CN109639760B (zh) 一种基于深度强化学习的d2d网络中的缓存策略方法
CN111666149B (zh) 基于深度强化学习的超密边缘计算网络移动性管理方法
Zhu et al. Deep reinforcement learning for mobile edge caching: Review, new features, and open issues
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN110113190A (zh) 一种移动边缘计算场景中卸载时延优化方法
Wang et al. Joint resource allocation and power control for D2D communication with deep reinforcement learning in MCC
CN116546021A (zh) 一种移动边缘计算中具有隐私保护的智能体策略学习方法
Zhang et al. Computing resource allocation scheme of IOV using deep reinforcement learning in edge computing environment
CN116361009B (zh) 一种mec计算卸载、资源分配及缓存联合优化方法
CN113573363B (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN116456493A (zh) 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质
Lan et al. Deep reinforcement learning for computation offloading and caching in fog-based vehicular networks
CN116566838A (zh) 一种区块链与边缘计算协同的车联网任务卸载和内容缓存方法
CN116321307A (zh) 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法
CN116321293A (zh) 基于多智能体强化学习的边缘计算卸载和资源分配方法
CN116208619A (zh) 一种智能反射表面辅助的车联网安全计算卸载方法、系统、设备及介质
Shang et al. Computation offloading and resource allocation in NOMA-MEC: A deep reinforcement learning approach
CN113438723B (zh) 一种高额奖励惩罚的竞争深度q网络功率控制方法
CN113407249B (zh) 一种面向位置隐私保护的任务卸载方法
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
CN111479312B (zh) 异构蜂窝网络内容缓存和基站休眠联合优化方法
CN116367231A (zh) 基于ddpg算法的边缘计算车联网资源管理联合优化方法
CN112953666B (zh) 认知无线网络中基于信道质量的频谱预测切换方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant