CN110445825B - 基于强化学习的超密集网络小站编码协作缓存方法 - Google Patents

基于强化学习的超密集网络小站编码协作缓存方法 Download PDF

Info

Publication number
CN110445825B
CN110445825B CN201810421373.4A CN201810421373A CN110445825B CN 110445825 B CN110445825 B CN 110445825B CN 201810421373 A CN201810421373 A CN 201810421373A CN 110445825 B CN110445825 B CN 110445825B
Authority
CN
China
Prior art keywords
state
file
station
time slot
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810421373.4A
Other languages
English (en)
Other versions
CN110445825A (zh
Inventor
潘志文
高深
刘楠
尤肖虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810421373.4A priority Critical patent/CN110445825B/zh
Publication of CN110445825A publication Critical patent/CN110445825A/zh
Application granted granted Critical
Publication of CN110445825B publication Critical patent/CN110445825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • H04L67/5682Policies or rules for updating, deleting or replacing the stored data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
    • H04L67/1078Resource delivery mechanisms
    • H04L67/108Resource delivery mechanisms characterised by resources being split in blocks or fragments

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种基于强化学习的超密集网络小站编码协作缓存方法,所述方法包括以下步骤:第一步:采集网络信息,设置参数:第二步:制定基于MDS编码的基站协作缓存方案:第三步:制定基站协作传输方案:第四步:用MDP来描述强化学习任务:第五步:明确强化学习目标:第六步:更新用于决策的Q表,第七步:随机设置起始状态;等,该方法利用小站协作编码缓存及协作传输为用户提供服务,通过强化学习挖掘收集到的真实网络中文件请求的转移模式,制定最优的缓存策略,作为一种数据驱动的机器学习方法,无需任何对数据先验分布的假设,更加适用于实际系统。且通过与环境实时交互,可追踪时变的文件流行度,执行最优的缓存策略,不需解NP‑hard问题。

Description

基于强化学习的超密集网络小站编码协作缓存方法
技术领域
本发明属于移动通信中的无线网络部署技术领域,具体涉及无线通信系统中一种基于强化学习的超密集网络小站编码协作缓存方法。
背景技术
在超密集网络中,小站可提升网络边缘用户的通信质量,有效提升频谱效率和系统吞吐量。随着网络终端数据量的迅速增长以及日趋严格的用户服务质量需求,移动网络边缘化应运而生。一种有效的办法是边缘存储,即在小站缓存文件来减少高峰期的海量数据传输,可有效减轻系统无线回程链路负载,提升用户体验。如何充分利用有限的存储空间缓存准确的文件,是一个值得研究的问题。
传统的缓存技术多是基站缓存完整的文件,用户连接一个基站,如果该基站没有缓存用户请求的文件,则需要通过宏站去核心网获取。在超密集网络中,用户处在多个小站的覆盖范围内,如果小站协作缓存文件,为用户协作传输,则可以使小站有限的缓存空间得到更加充分地利用。
从获取缓存决策的方法来看,传统的缓存技术往往是建模成一个优化问题来求解缓存决策,首先,建模的过程往往基于文件流行度服从特定的分布,实际网络中的文件流行度是时刻变化的,这种基于特定分布求解优化问题的方法不能追踪文件流行度的不断变化,从而使得出的缓存决策并不能很好地适用于实际网络;其次,即使是把文件流行度服从的分布换成瞬时的文件流行度,文件流行度变换一次,优化问题就要重新运行一次,带来巨大的网络开销,况且建模的优化问题往往是NP-hard(Non-Polynomial hard) 问题,求解非常困难;最后,由于缓存问题本身是根据网络中已经发生过的文件请求行为,作出缓存决策,为将要发生的文件请求行为做准备,基于传统解优化问题制定缓存决策的方法不能挖掘网络中文件请求的变化模式,从而使作出的缓存决策对将要发生的文件请求并不是最优的。隐藏在海量文件请求中的模式对有效制定缓存决策是至关重要的,可显著降低无线回程链路负载。机器学习作为一种数据驱动的方法,可通过建立智能系统,运行在复杂的环境中,用各种有效的方法分析数据,提取数据中的模式,因此,迫切的需要一种新的方案解决该技术问题。
发明内容
本发明提出一种以最小化平均累积系统回程链路负载为目标,在小站缓存文件总大小不超过小站缓存空间的前提下,基于强化学习的超密集网络小站编码协作缓存方法。该方法通过强化学习挖掘文件请求的转移模式,并根据挖掘到的模式制定小站编码协作缓存方法。将强化学习描述成一个MDP(Markov Decision Process),宏站作为机器通过不断地与环境交互,以最小化平均累积系统回程链路负载为目标,学习得到每个时隙的状态下其覆盖范围内的小站要执行的最优动作,这里的状态是大站观察到的环境的部分描述,包括这一时隙的文件流行度以及前一个时隙作出的协作缓存决策,这里的动作是指这一时隙作出的为下一个时隙文件请求服务的协作缓存决策。Q学习方法 (Q-learning)是一种强化学习方法,利用平均累积系统回程链路负载作为优化目标,通过不断地与环境交互,适应环境的动态变化,可挖掘出潜在的文件请求转移模式,得到稳定的Q表,进而得到与文件请求转移模式相匹配的最优协作缓存决策,结合MDS (Maximum Distance Separable)编码方法,将文件切片编码,最后将编码协作缓存结果传达给各小站,有效降低系统回程链路负载。
为了实现上述目的,本发明的技术方案如下:一种基于强化学习的超密集网络小站编码协作缓存方法,包括如下步骤:
第一步:采集网络信息,设置参数:采集网络中的宏站集合M={1,2,…,M},小站集合P={1,2,…,P},文件请求集合F={1,2,…,F},第m个宏站覆盖范围内的小站数目 pm,m∈M;获得小站缓存空间M,M由运营商根据网络运行情况和硬件成本自行确定;运营商根据超密集网络中的文件请求情况将一天时间划分为T个时隙,并设置每个时隙的时间起点,每个时隙划分为三个阶段:文件传输阶段,信息交换阶段和缓存决策阶段;
第二步:制定基于MDS编码的基站协作缓存方案:首先把文件f∈F分成n个碎片,然后通过MDS编码把n个碎片编码生成Cf(t)个数据包,每个数据包的大小与每个碎片大小相同,其中n的取值与该宏站覆盖范围内的小站数目相同;小站的缓存决策向量记为a(t)=[a1(t),a2(t),…,aF(t)],其中0≤af(t)≤1,f∈F代表t时隙在小站缓存第f个文件的比例,第m个宏站用MDS编码生成的数据包的个数Cf(t)为:
Cf(t)=(1+(pm-1)af(t))n,f∈F (1)
宏站存(1-af(t))n个数据包,每个小站存af(t)n个数据包,根据MDS编码性质,一次文件请求获得至少n个数据包即可以恢复整个文件;
第三步:制定基站协作传输方案:用户的每次文件请求首先从覆盖它的d个小站获得daf(t)n个数据包,其中d是接收信号功率大于一个阈值的基站的个数,阈值由运营商根据网络运行情况自行确定,若daf(t)≥1,则大站不需再传输数据包;否则大站再传输(1-daf(t))n个数据包给用户,由宏站传输的数据包称为回程链路负载;每次文件请求被d个小站服务的概率为pd,pd基于运营商的基站部署情况,根据用户位置的历史数据计算得到:在时间段τ内,每隔τ'时间间隔分别记录K个用户的位置,τ与τ'由运营商根据网络运行情况自行确定,记录用户k∈{1,2,…,K}在每个位置处接收信号功率大于一个阈值的基站个数d,那么基站个数为d的位置数目记为
Figure RE-GDA0002020572650000031
利用K个用户的历史位置计算得到
Figure RE-GDA0002020572650000032
第四步:用MDP来描述强化学习任务:
Figure RE-GDA0002020572650000033
其中X代表状态空间, A代表动作空间,
Figure RE-GDA0002020572650000034
代表状态转移概率,在x状态下执行动作a转移到x’状态的概率,R代表该转移带来的奖赏;
强化学习四元组在该问题中的具体形式如下:
1)动作空间:这里动作空间是F维连续空间,把每维0≤af(t)≤1,f∈F量化成L 个离散值,L由运营商根据宏站计算能力自行确定,则离散化的动作空间为 A={a1,a2,…,a|A|},其中任意一个动作向量
Figure RE-GDA0002020572650000035
需满足
Figure RE-GDA0002020572650000036
满足该条件的动作向量总个数为|A|;
2)在第t个时隙,第m个宏站覆盖范围内的pm个小站文件请求总次数记为向量 N(t)=[N1(t),N2(t),…,NF(t)],总文件流行度记为向量Θ(t)=[θ1(t),θ2(t),...,θF(t)],其中
Figure RE-GDA0002020572650000041
系统状态记为 x(t)=[Θ(t),a(t)];把Θ(t)量化成|Θ|个文件流行度向量,则状态空间记为 X={x1,x2,…,x|Θ||A|};
3)文件流行度随着时间的变化由马尔可夫过程建模,由于马尔可夫的转移概率未知,因此
Figure RE-GDA0002020572650000042
是未知的;
4)奖赏在这里定义成代价函数
Figure RE-GDA0002020572650000043
在(t-1)时隙的缓存决策阶段作出针对t时隙的缓存决策a(t),更新缓存的代价为:
Figure RE-GDA0002020572650000044
其中ω1代表更新一个文件所带来的回程链路负载的增加量,u[·]代表阶跃函数,当括号内的值大于0时,函数值为1,否则为0;在t时隙的信息交换阶段获得总文件流行度Θ(t)后,计算回程链路负载即小站缓存不匹配的代价为:
Figure RE-GDA0002020572650000045
其中ω2代表一个文件不匹配所带来的回程链路负载的增加量;总代价函数为二者之和:
Figure RE-GDA0002020572650000046
第五步:明确强化学习目标:
定义策略函数π(x),根据这个策略,可知在状态x(t-1)下要执行的动作 a(t)=π(x(t-1));定义γ折扣期望累积代价的状态值函数:
Figure RE-GDA0002020572650000051
其中
Figure RE-GDA0002020572650000052
代表从状态x(t-1)出发,使用策略π所带来的累积代价,x0表示起始状态,0≤γ<1是(t-1)时隙执行的动作π(x(t-1))对将来状态的影响程度的度量;
得到状态值函数后,便可得到状态-动作值函数:
Figure RE-GDA0002020572650000053
Figure RE-GDA0002020572650000054
代表从状态x(t-1)出发,执行动作a'(t)后再使用策略π带来的累积代价;
我们的目标是找到使期望累积代价
Figure RE-GDA0002020572650000055
最小的策略记为π*,最优值函数为
Figure RE-GDA0002020572650000056
根据最优策略下的(5)式和(6)式,可得到:
Figure RE-GDA0002020572650000057
也即:
Figure RE-GDA0002020572650000058
(7)(8)两式揭示了非最优策略的改进方式,即将策略选择的动作改变为当前最优的动作:
Figure RE-GDA0002020572650000059
在强化学习四元组已知的情况下,基于(9)式可用策略迭代或值迭代得到最优策略;
第六步:更新用于决策的Q表,此过程也称为Q-learning:
由于状态转移概率是未知的,所以无法通过策略迭代或值迭代得到最优的策略,考虑用平均累积代价来代替期望累积代价;同时由于状态转移概率未知导致从状态值函数到状态-动作值函数的转换困难,因此考虑直接估计状态-动作值函数;把(7)式带入 (6)式可得:
Figure RE-GDA00020205726500000510
(10)式揭示了在(t-1)时隙的状态x(t-1)下,执行动作a'(t)所带来代价的状态-动作值函数的真实值计算方法;
用时序差分强化学习算法,假设状态-动作对(x,a)已经出现过i次,用Qi(x,a)表示基于这i次状态-动作对估计出的值函数,当此状态-动作对第(i+1)次在第(t-1)时隙出现时,值函数更新为:
Figure RE-GDA0002020572650000061
第七步:随机设置起始状态x(0)=[Θ(0),a(0)],起始Q表:
Figure RE-GDA0002020572650000066
运营商根据网络变化快慢设置γ的值,范围为[0,1),值函数更新步长λ,范围为(0,1],设置当前时隙t=1;
第八步:使用ε-贪心法的策略
Figure RE-GDA0002020572650000062
选取状态x(t-1)下要执行的动作:
Figure 1
第九步:在第t个时隙的文件传输阶段,用户请求文件,基站根据第三步协作传输为用户服务;
第十步:在信息交换阶段,每个宏站覆盖范围内的所有小站将其在第t个时隙内文件请求次数报告给宏站,宏站汇总文件请求总次数记为向量N(t),并计算总文件流行度记为向量Θ(t);
第十一步:在第t个时隙的缓存决策阶段,此时转移到的状态为x(t)=[Θ(t),a(t)],根据(4)式计算代价函数
Figure RE-GDA0002020572650000064
第十二步:使用策略πt-1(x)估算在状态x(t)下要执行的动作:
Figure RE-GDA0002020572650000065
第十三步:更新第t时隙的Q表:
表中x=x(t-1),a=a(t)的元素更新为:
Figure RE-GDA0002020572650000071
表中其余元素保持不变:Qt(x,a)=Qt-1(x,a);
第十四步:更新策略:
对状态x=x(t-1):
Figure RE-GDA0002020572650000072
其余状态的策略保持不变:πt(x)=πt-1(x);
第十五步:如果
Figure RE-GDA0002020572650000076
则得到最优策略
Figure RE-GDA0002020572650000074
停止训练,得到最优缓存策略进入第十六步;否则,根据第二步的编码方法存储文件,t=t+1,即进入下一时隙,回到第八步,继续训练;
第十六步:从(t+1)时隙开始,系统在每个时隙根据最优缓存策略
Figure RE-GDA0002020572650000075
根据第二步的编码方法,把文件切片编码放置,服务于下一时隙的文件请求。
本发明与现有技术相比,具有如下有益效果:1)该技术方案利用小站协作编码缓存及协作传输为用户提供服务,通过强化学习挖掘收集到的真实网络中文件请求的转移模式,制定最优的缓存策略,2)该技术方案作为一种数据驱动的机器学习方法,无需任何对数据先验分布的假设,更加适用于实际系统;且通过与环境实时交互,可追踪时变的文件流行度,执行最优的缓存策略,过程简单可行,不需解NP-hard问题;3)该方法宏站作为机器,在第(t-1)个时隙收集其覆盖范围内各小站的文件请求情况及第 (t-2)时隙作出的缓存决策向量作为状态,根据Q表选取此状态下要执行的动作,即缓存决策,根据缓存决策把文件切片编码,将编码协作缓存结果下达给各小站,待进入第 t个时隙,收集到第t时隙的状态向量,计算第(t-1)时隙所作的缓存决策得到的累积系统回程链路负载,更新Q表,根据新的Q表选取第t时隙的状态下要执行的缓存决策,根据缓存决策把文件切片编码,将编码协作缓存结果下达给各小站,通过这种不断与环境交互的方式,最终学习得到在各个状态下采取的最优的协作缓存决策;4)该方案提出的方法基于强化学习制定协作缓存决策,宏站通过与环境的不断交互,收集状态信息,作出最优的协作缓存决策,并将决策传达给各小站,能有效利用小站有限的存储空间缓存最准确的文件,显著降低系统回程链路负载。
附图说明
图1为本发明的基于强化学习的超密集网络小站编码协作缓存方法完整流程图。
具体实施例
本发明的基于强化学习的超密集网络小站编码协作缓存方法,以LTE-A系统为例来给出一种实施例:
如图1所述,包括如下步骤:
第一步:采集网络信息,设置参数:采集网络中的宏站集合M={1,2,…,M},小站集合P={1,2,…,P},文件请求集合F={1,2,…,F},第m个宏站覆盖范围内的小站数目 pm,m∈M;获得小站缓存空间M,M由运营商根据网络运行情况和硬件成本自行确定;运营商根据超密集网络中的文件请求情况将一天时间划分为T个时隙,并设置每个时隙的时间起点,每个时隙划分为三个阶段:文件传输阶段,信息交换阶段和缓存决策阶段;
第二步:制定基于MDS编码的基站协作缓存方案:首先把文件f∈F分成n个碎片,然后通过MDS编码把n个碎片编码生成Cf(t)个数据包,每个数据包的大小与每个碎片大小相同,其中n的取值与该宏站覆盖范围内的小站数目相同;小站的缓存决策向量记为a(t)=[a1(t),a2(t),…,aF(t)],其中0≤af(t)≤1,f∈F代表t时隙在小站缓存第f个文件的比例,第m个宏站用MDS编码生成的数据包的个数Cf(t)为:
Cf(t)=(1+(pm-1)af(t))n,f∈F (1)
宏站存(1-af(t))n个数据包,每个小站存af(t)n个数据包,根据MDS编码性质,一次文件请求获得至少n个数据包即可以恢复整个文件;
第三步:制定基站协作传输方案:用户的每次文件请求首先从覆盖它的d个小站获得daf(t)n个数据包,其中d是接收信号功率大于一个阈值的基站的个数,阈值由运营商根据网络运行情况自行确定,若daf(t)≥1,则大站不需再传输数据包;否则大站再传输(1-daf(t))n个数据包给用户,由宏站传输的数据包称为回程链路负载;每次文件请求被d个小站服务的概率为pd,pd基于运营商的基站部署情况,根据用户位置的历史数据计算得到:在时间段τ内,每隔τ'时间间隔分别记录K个用户的位置,τ与τ'由运营商根据网络运行情况自行确定,记录用户k∈{1,2,…,K}在每个位置处接收信号功率大于一个阈值的基站个数d,那么基站个数为d的位置数目记为
Figure RE-GDA0002020572650000091
利用K个用户的历史位置计算得到
Figure RE-GDA0002020572650000092
第四步:用MDP来描述强化学习任务:
Figure RE-GDA0002020572650000093
其中X代表状态空间,A代表动作空间,
Figure RE-GDA0002020572650000094
代表状态转移概率,在x状态下执行动作a转移到x’状态的概率,R代表该转移带来的奖赏;
强化学习四元组在该问题中的具体形式如下:
1)动作空间:这里动作空间是F维连续空间,把每维0≤af(t)≤1,f∈F量化成L 个离散值,L由运营商根据宏站计算能力自行确定,则离散化的动作空间为 A={a1,a2,…,a|A|},其中任意一个动作向量
Figure RE-GDA0002020572650000095
需满足
Figure RE-GDA0002020572650000096
满足该条件的动作向量总个数为|A|;
2)在第t个时隙,第m个宏站覆盖范围内的pm个小站文件请求总次数记为向量 N(t)=[N1(t),N2(t),…,NF(t)],总文件流行度记为向量Θ(t)=[θ1(t),θ2(t),...,θF(t)],其中
Figure RE-GDA0002020572650000097
系统状态记为 x(t)=[Θ(t),a(t)];把Θ(t)量化成|Θ|个文件流行度向量,则状态空间记为 X={x1,x2,…,x|Θ||A|};
3)文件流行度随着时间的变化由马尔可夫过程建模,由于马尔可夫的转移概率未知,因此
Figure RE-GDA0002020572650000098
是未知的;
4)奖赏在这里定义成代价函数
Figure RE-GDA0002020572650000099
在(t-1)时隙的缓存决策阶段作出针对t时隙的缓存决策a(t),更新缓存的代价为:
Figure RE-GDA0002020572650000101
其中ω1代表更新一个文件所带来的回程链路负载的增加量,u[·]代表阶跃函数,当括号内的值大于0时,函数值为1,否则为0;在t时隙的信息交换阶段获得总文件流行度Θ(t)后,计算回程链路负载即小站缓存不匹配的代价为:
Figure RE-GDA0002020572650000102
其中ω2代表一个文件不匹配所带来的回程链路负载的增加量;总代价函数为二者之和:
Figure RE-GDA0002020572650000103
第五步:明确强化学习目标:
定义策略函数π(x),根据这个策略,可知在状态x(t-1)下要执行的动作 a(t)=π(x(t-1));定义γ折扣期望累积代价的状态值函数:
Figure RE-GDA0002020572650000104
其中
Figure RE-GDA0002020572650000105
代表从状态x(t-1)出发,使用策略π所带来的累积代价,x0表示起始状态,0≤γ<1是(t-1)时隙执行的动作π(x(t-1))对将来状态的影响程度的度量;
得到状态值函数后,便可得到状态-动作值函数:
Figure RE-GDA0002020572650000106
Figure RE-GDA0002020572650000107
代表从状态x(t-1)出发,执行动作a'(t)后再使用策略π带来的累积代价;
我们的目标是找到使期望累积代价
Figure RE-GDA0002020572650000111
最小的策略记为π*,最优值函数为
Figure RE-GDA0002020572650000112
根据最优策略下的(5)式和(6)式,可得到:
Figure RE-GDA0002020572650000113
也即:
Figure RE-GDA0002020572650000114
(7)(8)两式揭示了非最优策略的改进方式,即将策略选择的动作改变为当前最优的动作:
Figure RE-GDA0002020572650000115
在强化学习四元组已知的情况下,基于(9)式可用策略迭代或值迭代得到最优策略;
第六步:更新用于决策的Q表,此过程也称为Q-learning:
由于状态转移概率是未知的,所以无法通过策略迭代或值迭代得到最优的策略,考虑用平均累积代价来代替期望累积代价;同时由于状态转移概率未知导致从状态值函数到状态-动作值函数的转换困难,因此考虑直接估计状态-动作值函数;把(7)式带入(6)式可得:
Figure RE-GDA0002020572650000116
(10)式揭示了在(t-1)时隙的状态x(t-1)下,执行动作a'(t)所带来代价的状态-动作值函数的真实值计算方法;
用时序差分强化学习算法,假设状态-动作对(x,a)已经出现过i次,用Qi(x,a)表示基于这i次状态-动作对估计出的值函数,当此状态-动作对第(i+1)次在第(t-1)时隙出现时,值函数更新为:
Figure RE-GDA0002020572650000117
第七步:随机设置起始状态x(0)=[Θ(0),a(0)],起始Q表:
Figure RE-GDA0002020572650000118
运营商根据网络变化快慢设置γ的值,范围为[0,1),值函数更新步长λ,范围为(0,1],设置当前时隙t=1;
第八步:使用ε-贪心法的策略
Figure RE-GDA0002020572650000121
选取状态x(t-1)下要执行的动作:
Figure 2
第九步:在第t个时隙的文件传输阶段,用户请求文件,基站根据第三步协作传输为用户服务;
第十步:在信息交换阶段,每个宏站覆盖范围内的所有小站将其在第t个时隙内文件请求次数报告给宏站,宏站汇总文件请求总次数记为向量N(t),并计算总文件流行度记为向量Θ(t);
第十一步:在第t个时隙的缓存决策阶段,此时转移到的状态为x(t)=[Θ(t),a(t)],根据(4)式计算代价函数
Figure RE-GDA0002020572650000123
第十二步:使用策略πt-1(x)估算在状态x(t)下要执行的动作:
Figure RE-GDA0002020572650000124
第十三步:更新第t时隙的Q表:
表中x=x(t-1),a=a(t)的元素更新为:
Figure RE-GDA0002020572650000125
表中其余元素保持不变:Qt(x,a)=Qt-1(x,a);
第十四步:更新策略:
对状态x=x(t-1):
Figure RE-GDA0002020572650000126
其余状态的策略保持不变:πt(x)=πt-1(x);
第十五步:如果
Figure RE-GDA0002020572650000127
则得到最优策略
Figure RE-GDA0002020572650000128
停止训练,得到最优缓存策略进入第十六步;否则,根据第二步的编码方法存储文件,t=t+1,即进入下一时隙,回到第八步,继续训练;
第十六步:从(t+1)时隙开始,系统在每个时隙根据最优缓存策略
Figure RE-GDA0002020572650000131
根据第二步的编码方法,把文件切片编码放置,服务于下一时隙的文件请求。
上述技术方案基于强化学习,提出一种超密集网络小站编码协作缓存方法。在 Q-learning中,宏站作为机器,把文件流行度以及协作缓存决策作为状态,把协作缓存决策作为动作,把累积系统回程链路负载作为代价函数,通过不断与环境进行交互,以最小化代价函数为目标,学习得到稳定的Q表,进而得到每个状态下最优的协作缓存决策;利用Q-learning得到的最优缓存决策,用MDS编码得到编码协作缓存方案,宏站把方案传达给各小站。该方法利用机器学习方法,从数据中找模式,无需基于数据分布求解优化问题;能追踪实时变化的文件流行度,充分挖掘并利用潜在的文件请求转移模式来制定协作缓存决策,更适用于实际系统,有效降低系统回程链路负载,提供系统性能,提升用户体验。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (1)

1.一种基于强化学习的超密集网络小站编码协作缓存方法,其特征在于,所述方法包括以下步骤:
第一步:采集网络信息,设置参数:
第二步:制定基于MDS编码的基站协作缓存方案:
第三步:制定基站协作传输方案:
第四步:用MDP来描述强化学习任务:
第五步:明确强化学习目标:
第六步:更新用于决策的Q表,
第七步:随机设置起始状态;
第八步:使用ε-贪心法的策略
Figure FDA0003174185030000011
选取状态x(t-1)下要执行的动作:
第九步:在第t个时隙的文件传输阶段,用户请求文件,基站根据第三步协作传输为用户服务;
第十步:在信息交换阶段,每个宏站覆盖范围内的所有小站将其在第t个时隙内文件请求次数报告给宏站,宏站汇总文件请求总次数记为向量N(t),并计算总文件流行度记为向量Θ(t);
第十一步:在第t个时隙的缓存决策阶段,此时转移到的状态为x(t)=[Θ(t),a(t)],根据(4)式计算代价函数
Figure FDA0003174185030000012
第十二步:使用策略πt-1(x)估算在状态x(t)下要执行的动作:
Figure FDA0003174185030000013
第十三步:更新第t时隙的Q表:
表中x=x(t-1),a=a(t)的元素更新为:
Figure FDA0003174185030000014
表中其余元素保持不变:Qt(x,a)=Qt-1(x,a);
第十四步:更新策略:
对状态x=x(t-1):
Figure FDA0003174185030000015
其余状态的策略保持不变:πt(x)=πt-1(x);
第十五步:如果πt(x)=πt-1(x),
Figure FDA0003174185030000021
则得到最优策略
Figure FDA0003174185030000022
停止训练,得到最优缓存策略进入第十六步;否则,根据第二步的编码方法存储文件,t=t+1,即进入下一时隙,回到第八步,继续训练;
第十六步:从(t+1)时隙开始,系统在每个时隙根据最优缓存策略
Figure FDA0003174185030000023
根据第二步的编码方法,把文件切片编码放置,服务于下一时隙的文件请求;
所述第一步中采集网络信息,设置参数具体如下,采集网络中的宏站集合M={1,2,…,M},小站集合P=={1,2,…,P},文件请求集合F={1,2,…,F},第m个宏站覆盖范围内的小站数目pm,m∈M;获得小站缓存空间M,M由运营商根据网络运行情况和硬件成本自行确定;运营商根据超密集网络中的文件请求情况将一天时间划分为T个时隙,并设置每个时隙的时间起点,每个时隙划分为三个阶段:文件传输阶段,信息交换阶段和缓存决策阶段;
所述第二步中:制定基于MDS编码的基站协作缓存方案,具体如下,首先把文件f∈F分成n个碎片,然后通过MDS编码把n个碎片编码生成Cf(t)个数据包,每个数据包的大小与每个碎片大小相同,其中n的取值与该宏站覆盖范围内的小站数目相同;小站的缓存决策向量记为a(t)=[a1(t),a2(t),…,aF(t)],其中0≤af(t)≤1,f∈F代表t时隙在小站缓存第f个文件的比例,第m个宏站用MDS编码生成的数据包的个数Cf(t)为:
Cf(t)=(1+(pm-1)af(t))n,f∈F (1);
宏站存(1-af(t))n个数据包,每个小站存af(t)n个数据包,根据MDS编码性质,一次文件请求获得至少n个数据包即可以恢复整个文件;
所述第三步中:制定基站协作传输方案,具体如下,用户的每次文件请求首先从覆盖它的d个小站获得daf(t)n个数据包,其中d是接收信号功率大于一个阈值的基站的个数,阈值由运营商根据网络运行情况自行确定,若daf(t)≥1,则大站不需再传输数据包;否则大站再传输(1-daf(t))n个数据包给用户,由宏站传输的数据包称为回程链路负载;每次文件请求被d个小站服务的概率为pd,pd基于运营商的基站部署情况,根据用户位置的历史数据计算得到:在时间段τ内,每隔τ'时间间隔分别记录K个用户的位置,τ与τ'由运营商根据网络运行情况自行确定,记录用户k∈{1,2,…,K}在每个位置处接收信号功率大于一个阈值的基站个数d,那么基站个数为d的位置数目记为
Figure FDA00031741850300000310
利用K个用户的历史位置计算得到
Figure FDA0003174185030000031
所述第四步:用MDP来描述强化学习任务,具体如下:
Figure FDA0003174185030000032
其中X代表状态空间,A代表动作空间,
Figure FDA0003174185030000033
代表状态转移概率,在x状态下执行动作a转移到x’状态的概率,R代表该转移带来的奖赏;
强化学习四元组在该问题中的具体形式如下:
1)动作空间:这里动作空间是F维连续空间,把每维0≤af(t)≤1,f∈F量化成L个离散值,L由运营商根据宏站计算能力自行确定,则离散化的动作空间为A={a1,a2,…,aA},其中任意一个动作向量
Figure FDA0003174185030000034
j∈{1,2,…,|A|}需满足
Figure FDA0003174185030000035
满足该条件的动作向量总个数为|A|;
2)在第t个时隙,第m个宏站覆盖范围内的pm个小站文件请求总次数记为向量N(t)==[N1(t),N2(t),…,NF(t)],总文件流行度记为向量Θ(t)=[θ1(t),θ2(t),...,θF(t)],其中
Figure FDA0003174185030000036
系统状态记为x(t)=[Θ(t),a(t)];把Θ(t)量化成|Θ|个文件流行度向量,则状态空间记为X=={x1,x2,…,xΘA};
3)文件流行度随着时间的变化由马尔可夫过程建模,由于马尔可夫的转移概率未知,因此
Figure FDA0003174185030000037
是未知的;
4)奖赏在这里定义成代价函数
Figure FDA0003174185030000038
在(t-1)时隙的缓存决策阶段作出针对t时隙的缓存决策a(t),更新缓存的代价为:
Figure FDA0003174185030000039
其中ω1代表更新一个文件所带来的回程链路负载的增加量,u[·]代表阶跃函数,当括号内的值大于0时,函数值为1,否则为0;在t时隙的信息交换阶段获得总文件流行度Θ(t)后,计算回程链路负载即小站缓存不匹配的代价为:
Figure FDA0003174185030000041
其中ω2代表一个文件不匹配所带来的回程链路负载的增加量;总代价函数为二者之和:
Figure FDA0003174185030000042
所述第五步:明确强化学习目标具体如下,
定义策略函数π(x),根据这个策略,可知在状态x(t-1)下要执行的动作a(t)=π(x(t-1));定义γ折扣期望累积代价的状态值函数:
Figure FDA0003174185030000043
其中
Figure FDA0003174185030000044
代表从状态x(t-1)出发,使用策略π所带来的累积代价,x0表示起始状态,0≤γ<1是(t-1)时隙执行的动作π(x(t-1))对将来状态的影响程度的度量;
得到状态值函数后,便可得到状态-动作值函数:
Figure FDA0003174185030000045
Figure FDA0003174185030000046
代表从状态x(t-1)出发,执行动作a'(t)后再使用策略π带来的累积代价;
我们的目标是找到使期望累积代价
Figure FDA0003174185030000047
最小的策略记为π*,最优值函数为
Figure FDA0003174185030000048
根据最优策略下的(5)式和(6)式,可得到:
Figure FDA0003174185030000049
也即:
Figure FDA00031741850300000410
(7)(8)两式揭示了非最优策略的改进方式,即将策略选择的动作改变为当前最优的动作:
Figure FDA0003174185030000051
在强化学习四元组已知的情况下,基于(9)式可用策略迭代或值迭代得到最优策略;
所述第六步:更新用于决策的Q表,具体如下,
把(7)式带入(6)式可得:
Figure FDA0003174185030000052
(10)式揭示了在(t-1)时隙的状态x(t-1)下,执行动作a'(t)所带来代价的状态-动作值函数的真实值计算方法;
用时序差分强化学习算法,假设状态-动作对(x,a)已经出现过i次,用Qi(x,a)表示基于这i次状态-动作对估计出的值函数,当此状态-动作对第(i+1)次在第(t-1)时隙出现时,值函数更新为:
Figure FDA0003174185030000053
所述第七步:随机设置起始状态x(0)=[Θ(0),a(0)],起始Q表:
Figure FDA0003174185030000054
运营商根据网络变化快慢设置γ的值,范围为[0,1),值函数更新步长λ,范围为(0,1],设置当前时隙t=1;
所述第八步使用ε-贪心法的策略
Figure FDA0003174185030000055
选取状态x(t-1)下要执行的动作:
Figure FDA0003174185030000056
CN201810421373.4A 2018-05-04 2018-05-04 基于强化学习的超密集网络小站编码协作缓存方法 Active CN110445825B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810421373.4A CN110445825B (zh) 2018-05-04 2018-05-04 基于强化学习的超密集网络小站编码协作缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810421373.4A CN110445825B (zh) 2018-05-04 2018-05-04 基于强化学习的超密集网络小站编码协作缓存方法

Publications (2)

Publication Number Publication Date
CN110445825A CN110445825A (zh) 2019-11-12
CN110445825B true CN110445825B (zh) 2021-09-10

Family

ID=68427146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810421373.4A Active CN110445825B (zh) 2018-05-04 2018-05-04 基于强化学习的超密集网络小站编码协作缓存方法

Country Status (1)

Country Link
CN (1) CN110445825B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617991B (zh) * 2018-12-29 2021-03-30 东南大学 基于值函数近似的超密集异构网络小站编码协作缓存方法
CN111565419B (zh) * 2020-06-15 2024-03-19 河海大学常州校区 一种超密集网络中面向延迟优化的协作式边缘缓存方法
CN112218337B (zh) * 2020-09-04 2023-02-28 暨南大学 一种移动边缘计算中的缓存策略决策方法
CN112911614B (zh) * 2021-01-12 2022-05-03 重庆邮电大学 基于动态请求d2d网络中的协作编码缓存方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103647799A (zh) * 2008-09-30 2014-03-19 高通股份有限公司 用于提供和接收场地级传输和服务的装置和方法
CN107277159A (zh) * 2017-07-10 2017-10-20 东南大学 一种基于机器学习的超密集网络小站缓存方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103647799A (zh) * 2008-09-30 2014-03-19 高通股份有限公司 用于提供和接收场地级传输和服务的装置和方法
CN107277159A (zh) * 2017-07-10 2017-10-20 东南大学 一种基于机器学习的超密集网络小站缓存方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Big Data Deep Reinforcement Learning Approach to Next Generation Green Wireless Networks;He,Y等;《Analysis and Cache Design in Spatially Correlated HetNets With Base Station Cooperation》;20171208;全文 *
Cache-Enabled Opportunistic Cooperative MIMO for Video Streaming in Wireless Systems;An Liu等;《IEEE Transactions on Signal Processing》;20131114;全文 *
Machine Learning based Small Cell Cache Strategy for Ultra Dense Networks;Gao Shen等;《2017 9TH INTERNATIONAL CONFERENCE ON WIRELESS COMMUNICATIONS AND SIGNAL PROCESSING (WCSP)》;20171213;全文 *
基于SOA的移动适配平台的研究;杨明;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130115;第I139-212页 *

Also Published As

Publication number Publication date
CN110445825A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110445825B (zh) 基于强化学习的超密集网络小站编码协作缓存方法
CN109617991B (zh) 基于值函数近似的超密集异构网络小站编码协作缓存方法
CN110167176B (zh) 一种基于分布式机器学习的无线网络资源分配方法
CN112911608B (zh) 一种面向边缘智能网络的大规模接入方法
CN101711032A (zh) 对未知环境模型特性的认知无线电动态智能频谱接入方法
CN116782296A (zh) 一种基于数字孪生的车联网边缘计算卸载多目标决策方法
CN111556511B (zh) 一种基于智能边缘缓存的部分机会性干扰对齐方法
Ji et al. Reconfigurable intelligent surface enhanced device-to-device communications
CN112667406A (zh) 一种云边融合异构网络中任务卸载与数据缓存方法
Dai et al. Multi-objective intelligent handover in satellite-terrestrial integrated networks
CN114826454A (zh) 一种mec辅助的车联网通信系统中智能资源管理方法
CN113115355B (zh) 一种d2d系统中基于深度强化学习的功率分配方法
Zhao et al. Multi-agent deep reinforcement learning based resource management in heterogeneous V2X networks
Tang et al. Nonconvex dynamic spectrum allocation for cognitive radio networks via particle swarm optimization and simulated annealing
CN104009824A (zh) 一种基站协作上行链路系统中基于差分进化的导频辅助数据融合方法
CN114025359A (zh) 基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质
CN114118748A (zh) 一种服务质量预测方法、装置、电子设备及存储介质
CN113993168A (zh) 一种雾无线接入网中基于多智能体强化学习的协作缓存方法
Liu et al. Power allocation in ultra-dense networks through deep deterministic policy gradient
CN110505604B (zh) 一种d2d通信系统接入频谱的方法
CN117335926A (zh) 一种基于深度学习的自适应调制编码方法
CN115623445A (zh) 一种车联网环境下基于联邦学习的高效通信方法
CN113709882B (zh) 一种基于图论和强化学习的车联网通信资源分配方法
CN104616077A (zh) 基于Markov链和关联规则的用户业务行为预测方法
Tong et al. Cooperative spectrum sensing based on a modified shuffled frog leaping algorithm in 5G network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant