CN110445825B

CN110445825B - 基于强化学习的超密集网络小站编码协作缓存方法

Info

Publication number: CN110445825B
Application number: CN201810421373.4A
Authority: CN
Inventors: 潘志文; 高深; 刘楠; 尤肖虎
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2021-09-10
Anticipated expiration: 2038-05-04
Also published as: CN110445825A

Abstract

本发明提供一种基于强化学习的超密集网络小站编码协作缓存方法，所述方法包括以下步骤：第一步：采集网络信息，设置参数：第二步：制定基于MDS编码的基站协作缓存方案：第三步：制定基站协作传输方案：第四步：用MDP来描述强化学习任务：第五步：明确强化学习目标：第六步：更新用于决策的Q表，第七步：随机设置起始状态；等，该方法利用小站协作编码缓存及协作传输为用户提供服务，通过强化学习挖掘收集到的真实网络中文件请求的转移模式，制定最优的缓存策略，作为一种数据驱动的机器学习方法，无需任何对数据先验分布的假设，更加适用于实际系统。且通过与环境实时交互，可追踪时变的文件流行度，执行最优的缓存策略，不需解NP‑hard问题。

Description

基于强化学习的超密集网络小站编码协作缓存方法

技术领域

本发明属于移动通信中的无线网络部署技术领域，具体涉及无线通信系统中一种基于强化学习的超密集网络小站编码协作缓存方法。

背景技术

在超密集网络中，小站可提升网络边缘用户的通信质量，有效提升频谱效率和系统吞吐量。随着网络终端数据量的迅速增长以及日趋严格的用户服务质量需求，移动网络边缘化应运而生。一种有效的办法是边缘存储，即在小站缓存文件来减少高峰期的海量数据传输，可有效减轻系统无线回程链路负载，提升用户体验。如何充分利用有限的存储空间缓存准确的文件，是一个值得研究的问题。

传统的缓存技术多是基站缓存完整的文件，用户连接一个基站，如果该基站没有缓存用户请求的文件，则需要通过宏站去核心网获取。在超密集网络中，用户处在多个小站的覆盖范围内，如果小站协作缓存文件，为用户协作传输，则可以使小站有限的缓存空间得到更加充分地利用。

从获取缓存决策的方法来看，传统的缓存技术往往是建模成一个优化问题来求解缓存决策，首先，建模的过程往往基于文件流行度服从特定的分布，实际网络中的文件流行度是时刻变化的，这种基于特定分布求解优化问题的方法不能追踪文件流行度的不断变化，从而使得出的缓存决策并不能很好地适用于实际网络；其次，即使是把文件流行度服从的分布换成瞬时的文件流行度，文件流行度变换一次，优化问题就要重新运行一次，带来巨大的网络开销，况且建模的优化问题往往是NP-hard(Non-Polynomial hard) 问题，求解非常困难；最后，由于缓存问题本身是根据网络中已经发生过的文件请求行为，作出缓存决策，为将要发生的文件请求行为做准备，基于传统解优化问题制定缓存决策的方法不能挖掘网络中文件请求的变化模式，从而使作出的缓存决策对将要发生的文件请求并不是最优的。隐藏在海量文件请求中的模式对有效制定缓存决策是至关重要的，可显著降低无线回程链路负载。机器学习作为一种数据驱动的方法，可通过建立智能系统，运行在复杂的环境中，用各种有效的方法分析数据，提取数据中的模式，因此，迫切的需要一种新的方案解决该技术问题。

发明内容

本发明提出一种以最小化平均累积系统回程链路负载为目标，在小站缓存文件总大小不超过小站缓存空间的前提下，基于强化学习的超密集网络小站编码协作缓存方法。该方法通过强化学习挖掘文件请求的转移模式，并根据挖掘到的模式制定小站编码协作缓存方法。将强化学习描述成一个MDP(Markov Decision Process)，宏站作为机器通过不断地与环境交互，以最小化平均累积系统回程链路负载为目标，学习得到每个时隙的状态下其覆盖范围内的小站要执行的最优动作，这里的状态是大站观察到的环境的部分描述，包括这一时隙的文件流行度以及前一个时隙作出的协作缓存决策，这里的动作是指这一时隙作出的为下一个时隙文件请求服务的协作缓存决策。Q学习方法 (Q-learning)是一种强化学习方法，利用平均累积系统回程链路负载作为优化目标，通过不断地与环境交互，适应环境的动态变化，可挖掘出潜在的文件请求转移模式，得到稳定的Q表，进而得到与文件请求转移模式相匹配的最优协作缓存决策，结合MDS (Maximum Distance Separable)编码方法，将文件切片编码，最后将编码协作缓存结果传达给各小站，有效降低系统回程链路负载。

为了实现上述目的，本发明的技术方案如下：一种基于强化学习的超密集网络小站编码协作缓存方法，包括如下步骤：

第一步：采集网络信息，设置参数：采集网络中的宏站集合M＝{1,2,…,M}，小站集合P＝{1,2,…,P}，文件请求集合F＝{1,2,…,F}，第m个宏站覆盖范围内的小站数目 p_m,m∈M；获得小站缓存空间M，M由运营商根据网络运行情况和硬件成本自行确定；运营商根据超密集网络中的文件请求情况将一天时间划分为T个时隙，并设置每个时隙的时间起点，每个时隙划分为三个阶段：文件传输阶段，信息交换阶段和缓存决策阶段；

第二步：制定基于MDS编码的基站协作缓存方案：首先把文件f∈F分成n个碎片，然后通过MDS编码把n个碎片编码生成C_f(t)个数据包，每个数据包的大小与每个碎片大小相同，其中n的取值与该宏站覆盖范围内的小站数目相同；小站的缓存决策向量记为a(t)＝[a₁(t),a₂(t),…,a_F(t)]，其中0≤a_f(t)≤1,f∈F代表t时隙在小站缓存第f个文件的比例，第m个宏站用MDS编码生成的数据包的个数C_f(t)为：

C_f(t)＝(1+(p_m-1)a_f(t))n,f∈F (1)

宏站存(1-a_f(t))n个数据包，每个小站存a_f(t)n个数据包，根据MDS编码性质，一次文件请求获得至少n个数据包即可以恢复整个文件；

第三步：制定基站协作传输方案：用户的每次文件请求首先从覆盖它的d个小站获得da_f(t)n个数据包，其中d是接收信号功率大于一个阈值的基站的个数，阈值由运营商根据网络运行情况自行确定，若da_f(t)≥1，则大站不需再传输数据包；否则大站再传输(1-da_f(t))n个数据包给用户，由宏站传输的数据包称为回程链路负载；每次文件请求被d个小站服务的概率为p_d，p_d基于运营商的基站部署情况，根据用户位置的历史数据计算得到：在时间段τ内，每隔τ'时间间隔分别记录K个用户的位置，τ与τ'由运营商根据网络运行情况自行确定，记录用户k∈{1,2,…,K}在每个位置处接收信号功率大于一个阈值的基站个数d，那么基站个数为d的位置数目记为

利用K个用户的历史位置计算得到

第四步：用MDP来描述强化学习任务：

其中X代表状态空间， A代表动作空间，

代表状态转移概率，在x状态下执行动作a转移到x’状态的概率，R代表该转移带来的奖赏；

强化学习四元组在该问题中的具体形式如下：

1)动作空间：这里动作空间是F维连续空间，把每维0≤a_f(t)≤1,f∈F量化成L 个离散值，L由运营商根据宏站计算能力自行确定，则离散化的动作空间为 A＝{a¹,a²,…,a^|A|}，其中任意一个动作向量

需满足

满足该条件的动作向量总个数为|A|；

2)在第t个时隙，第m个宏站覆盖范围内的p_m个小站文件请求总次数记为向量 N(t)＝[N₁(t),N₂(t),…,N_F(t)]，总文件流行度记为向量Θ(t)＝[θ₁(t),θ₂(t),...,θ_F(t)]，其中

系统状态记为 x(t)＝[Θ(t),a(t)]；把Θ(t)量化成|Θ|个文件流行度向量，则状态空间记为 X＝{x¹,x²,…,x^|Θ||A|}；

3)文件流行度随着时间的变化由马尔可夫过程建模，由于马尔可夫的转移概率未知，因此

是未知的；

4)奖赏在这里定义成代价函数

在(t-1)时隙的缓存决策阶段作出针对t时隙的缓存决策a(t)，更新缓存的代价为：

其中ω₁代表更新一个文件所带来的回程链路负载的增加量，u[·]代表阶跃函数，当括号内的值大于0时，函数值为1，否则为0；在t时隙的信息交换阶段获得总文件流行度Θ(t)后，计算回程链路负载即小站缓存不匹配的代价为：

其中ω₂代表一个文件不匹配所带来的回程链路负载的增加量；总代价函数为二者之和：

第五步：明确强化学习目标：

定义策略函数π(x)，根据这个策略，可知在状态x(t-1)下要执行的动作 a(t)＝π(x(t-1))；定义γ折扣期望累积代价的状态值函数：

其中

代表从状态x(t-1)出发，使用策略π所带来的累积代价，x₀表示起始状态，0≤γ＜1是(t-1)时隙执行的动作π(x(t-1))对将来状态的影响程度的度量；

得到状态值函数后，便可得到状态-动作值函数：

代表从状态x(t-1)出发，执行动作a'(t)后再使用策略π带来的累积代价；

我们的目标是找到使期望累积代价

最小的策略记为π^*，最优值函数为

根据最优策略下的(5)式和(6)式，可得到：

也即：

(7)(8)两式揭示了非最优策略的改进方式，即将策略选择的动作改变为当前最优的动作：

在强化学习四元组已知的情况下，基于(9)式可用策略迭代或值迭代得到最优策略；

第六步：更新用于决策的Q表，此过程也称为Q-learning：

由于状态转移概率是未知的，所以无法通过策略迭代或值迭代得到最优的策略，考虑用平均累积代价来代替期望累积代价；同时由于状态转移概率未知导致从状态值函数到状态-动作值函数的转换困难，因此考虑直接估计状态-动作值函数；把(7)式带入 (6)式可得：

(10)式揭示了在(t-1)时隙的状态x(t-1)下，执行动作a'(t)所带来代价的状态-动作值函数的真实值计算方法；

用时序差分强化学习算法，假设状态-动作对(x,a)已经出现过i次，用Q_i(x,a)表示基于这i次状态-动作对估计出的值函数，当此状态-动作对第(i+1)次在第(t-1)时隙出现时，值函数更新为：

第七步：随机设置起始状态x(0)＝[Θ(0),a(0)]，起始Q表：

运营商根据网络变化快慢设置γ的值，范围为[0,1)，值函数更新步长λ，范围为(0,1]，设置当前时隙t＝1；

第八步：使用ε-贪心法的策略

选取状态x(t-1)下要执行的动作：

第九步：在第t个时隙的文件传输阶段，用户请求文件，基站根据第三步协作传输为用户服务；

第十步：在信息交换阶段，每个宏站覆盖范围内的所有小站将其在第t个时隙内文件请求次数报告给宏站，宏站汇总文件请求总次数记为向量N(t)，并计算总文件流行度记为向量Θ(t)；

第十一步：在第t个时隙的缓存决策阶段，此时转移到的状态为x(t)＝[Θ(t),a(t)]，根据(4)式计算代价函数

第十二步：使用策略π_t-1(x)估算在状态x(t)下要执行的动作：

第十三步：更新第t时隙的Q表：

表中x＝x(t-1),a＝a(t)的元素更新为：

表中其余元素保持不变：Q_t(x,a)＝Q_t-1(x,a)；

第十四步：更新策略：

对状态x＝x(t-1)：

其余状态的策略保持不变：π_t(x)＝π_t-1(x)；

第十五步：如果

则得到最优策略

停止训练，得到最优缓存策略进入第十六步；否则，根据第二步的编码方法存储文件，t＝t+1，即进入下一时隙，回到第八步，继续训练；

第十六步：从(t+1)时隙开始，系统在每个时隙根据最优缓存策略

根据第二步的编码方法，把文件切片编码放置，服务于下一时隙的文件请求。

本发明与现有技术相比，具有如下有益效果：1)该技术方案利用小站协作编码缓存及协作传输为用户提供服务，通过强化学习挖掘收集到的真实网络中文件请求的转移模式，制定最优的缓存策略，2)该技术方案作为一种数据驱动的机器学习方法，无需任何对数据先验分布的假设，更加适用于实际系统；且通过与环境实时交互，可追踪时变的文件流行度，执行最优的缓存策略，过程简单可行，不需解NP-hard问题；3)该方法宏站作为机器，在第(t-1)个时隙收集其覆盖范围内各小站的文件请求情况及第 (t-2)时隙作出的缓存决策向量作为状态，根据Q表选取此状态下要执行的动作，即缓存决策，根据缓存决策把文件切片编码，将编码协作缓存结果下达给各小站，待进入第 t个时隙，收集到第t时隙的状态向量，计算第(t-1)时隙所作的缓存决策得到的累积系统回程链路负载，更新Q表，根据新的Q表选取第t时隙的状态下要执行的缓存决策，根据缓存决策把文件切片编码，将编码协作缓存结果下达给各小站，通过这种不断与环境交互的方式，最终学习得到在各个状态下采取的最优的协作缓存决策；4)该方案提出的方法基于强化学习制定协作缓存决策，宏站通过与环境的不断交互，收集状态信息，作出最优的协作缓存决策，并将决策传达给各小站，能有效利用小站有限的存储空间缓存最准确的文件，显著降低系统回程链路负载。

附图说明

图1为本发明的基于强化学习的超密集网络小站编码协作缓存方法完整流程图。

具体实施例

本发明的基于强化学习的超密集网络小站编码协作缓存方法，以LTE-A系统为例来给出一种实施例：

如图1所述，包括如下步骤：

C_f(t)＝(1+(p_m-1)a_f(t))n,f∈F (1)

利用K个用户的历史位置计算得到

第四步：用MDP来描述强化学习任务：

其中X代表状态空间，A代表动作空间，

强化学习四元组在该问题中的具体形式如下：

需满足

满足该条件的动作向量总个数为|A|；

系统状态记为 x(t)＝[Θ(t),a(t)]；把Θ(t)量化成|Θ|个文件流行度向量，则状态空间记为 X＝{x¹,x2,…,x^|Θ||A|}；

是未知的；

4)奖赏在这里定义成代价函数

第五步：明确强化学习目标：

其中

得到状态值函数后，便可得到状态-动作值函数：

我们的目标是找到使期望累积代价

最小的策略记为π^*，最优值函数为

根据最优策略下的(5)式和(6)式，可得到：

也即：

第六步：更新用于决策的Q表，此过程也称为Q-learning：

由于状态转移概率是未知的，所以无法通过策略迭代或值迭代得到最优的策略，考虑用平均累积代价来代替期望累积代价；同时由于状态转移概率未知导致从状态值函数到状态-动作值函数的转换困难，因此考虑直接估计状态-动作值函数；把(7)式带入(6)式可得：

第七步：随机设置起始状态x(0)＝[Θ(0),a(0)]，起始Q表：

第八步：使用ε-贪心法的策略

选取状态x(t-1)下要执行的动作：

第十二步：使用策略π_t-1(x)估算在状态x(t)下要执行的动作：

第十三步：更新第t时隙的Q表：

表中x＝x(t-1),a＝a(t)的元素更新为：

表中其余元素保持不变：Q_t(x,a)＝Q_t-1(x,a)；

第十四步：更新策略：

对状态x＝x(t-1)：

其余状态的策略保持不变：π_t(x)＝π_t-1(x)；

第十五步：如果

则得到最优策略

上述技术方案基于强化学习，提出一种超密集网络小站编码协作缓存方法。在 Q-learning中，宏站作为机器，把文件流行度以及协作缓存决策作为状态，把协作缓存决策作为动作，把累积系统回程链路负载作为代价函数，通过不断与环境进行交互，以最小化代价函数为目标，学习得到稳定的Q表，进而得到每个状态下最优的协作缓存决策；利用Q-learning得到的最优缓存决策，用MDS编码得到编码协作缓存方案，宏站把方案传达给各小站。该方法利用机器学习方法，从数据中找模式，无需基于数据分布求解优化问题；能追踪实时变化的文件流行度，充分挖掘并利用潜在的文件请求转移模式来制定协作缓存决策，更适用于实际系统，有效降低系统回程链路负载，提供系统性能，提升用户体验。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种基于强化学习的超密集网络小站编码协作缓存方法，其特征在于，所述方法包括以下步骤：

第一步：采集网络信息，设置参数：

第二步：制定基于MDS编码的基站协作缓存方案：

第三步：制定基站协作传输方案：

第四步：用MDP来描述强化学习任务：

第五步：明确强化学习目标：

第六步：更新用于决策的Q表，

第七步：随机设置起始状态；

第八步：使用ε-贪心法的策略

选取状态x(t-1)下要执行的动作：

第十二步：使用策略π_t-1(x)估算在状态x(t)下要执行的动作：

第十三步：更新第t时隙的Q表：

表中x＝x(t-1),a＝a(t)的元素更新为：

表中其余元素保持不变：Q_t(x,a)＝Q_t-1(x,a)；

第十四步：更新策略：

对状态x＝x(t-1)：

其余状态的策略保持不变：π_t(x)＝π_t-1(x)；

第十五步：如果π_t(x)＝π_t-1(x),

则得到最优策略

根据第二步的编码方法，把文件切片编码放置，服务于下一时隙的文件请求；

所述第一步中采集网络信息，设置参数具体如下，采集网络中的宏站集合M＝{1,2,…,M}，小站集合P＝＝{1,2,…,P}，文件请求集合F＝{1,2,…,F}，第m个宏站覆盖范围内的小站数目p_m,m∈M；获得小站缓存空间M，M由运营商根据网络运行情况和硬件成本自行确定；运营商根据超密集网络中的文件请求情况将一天时间划分为T个时隙，并设置每个时隙的时间起点，每个时隙划分为三个阶段：文件传输阶段，信息交换阶段和缓存决策阶段；

所述第二步中：制定基于MDS编码的基站协作缓存方案，具体如下，首先把文件f∈F分成n个碎片，然后通过MDS编码把n个碎片编码生成C_f(t)个数据包，每个数据包的大小与每个碎片大小相同，其中n的取值与该宏站覆盖范围内的小站数目相同；小站的缓存决策向量记为a(t)＝[a₁(t),a₂(t),…,a_F(t)]，其中0≤a_f(t)≤1,f∈F代表t时隙在小站缓存第f个文件的比例，第m个宏站用MDS编码生成的数据包的个数C_f(t)为：

C_f(t)＝(1+(p_m-1)a_f(t))n,f∈F (1)；

所述第三步中：制定基站协作传输方案，具体如下，用户的每次文件请求首先从覆盖它的d个小站获得da_f(t)n个数据包，其中d是接收信号功率大于一个阈值的基站的个数，阈值由运营商根据网络运行情况自行确定，若da_f(t)≥1，则大站不需再传输数据包；否则大站再传输(1-da_f(t))n个数据包给用户，由宏站传输的数据包称为回程链路负载；每次文件请求被d个小站服务的概率为p_d，p_d基于运营商的基站部署情况，根据用户位置的历史数据计算得到：在时间段τ内，每隔τ'时间间隔分别记录K个用户的位置，τ与τ'由运营商根据网络运行情况自行确定，记录用户k∈{1,2,…,K}在每个位置处接收信号功率大于一个阈值的基站个数d，那么基站个数为d的位置数目记为