CN103781115B

CN103781115B - 一种蜂窝网络中基于传输代价的分布式基站缓存替换方法

Info

Publication number: CN103781115B
Application number: CN201410036819.3A
Authority: CN
Inventors: 王玮; 顾竞雄; 黄爱苹; 单杭冠; 张朝阳
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-01-25
Filing date: 2014-01-25
Publication date: 2017-09-08
Anticipated expiration: 2034-01-25
Also published as: CN103781115A

Abstract

本发明公开了一种蜂窝网络中基于传输代价的分布式基站缓存替换方法，属于通信领域。它的步骤为：用户请求获得业务时，服务基站将请求发送给网络中其他基站，其他基站将存储的业务数据传输给服务基站，同时服务基站更新缓存中的存储内容以使得网络传输总代价最小。其中基站在进行缓存更新时，考虑当前存储状态和之前请求业务数据时与其他基站的交互信息，估计可能的缓存替换策略对网络传输总代价的影响，通过Q学习（Q‑learning）的方法做出缓存替换的决策。各个基站分布式进行缓存替换，不需要基站间关于缓存数据内容进行额外的信息交互。本发明可用于移动蜂窝系统，具有存储功能的基站中，基于业务信息的基站缓存替换方法。

Description

一种蜂窝网络中基于传输代价的分布式基站缓存替换方法

技术领域

本发明涉及无线通信领域，具体涉及无线蜂窝系统中基于传输代价的分布式基站缓存替换方法。

背景技术

在过去的20年里，通信技术得到了迅猛的发展和广泛的应用，极大地推动了社会的发展，并为人们的生活方式带来深刻的影响。随着无线应用数量的飞速增长，传输的数据量不断增多，这对蜂窝网络造成了极大的负担，并且易造成延迟、掉话等状况导致用户的服务质量（QoS）变差。新型移动多媒体业务的不断涌现，如何在有限带宽资源上提供满足人们物质文化需求的移动业务，将对移动通信技术的发展提出巨大的挑战。

为克服有限带宽对移动通信系统容量的限制，满足不断丰富的业务类型和不断增长的用户需求，人们开始考虑在移动通信系统中采用流量本地化技术以降低网络负载，并进行了许多研究。研究表明在移动通信系统中将业务主动存储于基站中可以减小无线传输部分的流量，进而缓解蜂窝系统中的流量负载、改善系统的性能。

在蜂窝网络中，用户通常直接从服务器下载需要的应用，当网络发生拥塞时，服务质量会变得难以忍受。传统的降低网络负载的解决方案正如S.Androutsellis和Theotokis在论文“A survey of peer-to-peer file sharing technologies”中所述，采用对等网络（P2P）技术，由节点间进行数据交互。然而在蜂窝网络中用户通过无线链路共享内容，P2P方式将极大地增加空口上行链路负载。因此用户之间的P2P数据交互是不现实的，可行方法的是将业务存储在基站中，从而降低网络流量。

基站主动存储就是将一些热点业务主动存储于基站的存储器中，用户请求到来时，由小区基站将业务直接提供给用户。既避免了直接从服务器下载时网络拥塞的风险，又避免了采用P2P方式增加的无线上行链路负载。

采用基站主动存储技术时，文件的存储分配过程就是对传输代价和存储空间的折中，既要保证网络内的每个用户都能以合理的代价获得需要的业务，又要控制存储文件时系统中过分冗余的文件副本。

对不同业务，用户的关注程度是不一样的；而对于同一业务在随时间的推移，用户的关注也会改变。因此为了实现存储效率的最优，需要根据用户对不同业务关注度的变化动态地调整业务在各基站缓存中的存储分配。从而在考虑业务动态特性的情况下，实现存储效率的最优。已有一些文献对缓存更新方法进行了研究，常用的缓存替换算法主要分为以下三类：

1）基于业务的最近使用（recency）和请求频率（frequency）管理缓存

这是一类最为简单也很有效的方法，所考虑的两方面因素也是代表业务关注度信息的最重要部分。

2）基于文件函数的缓存替换算法

除上述因素外，决定文件是否被替换掉的因素还有很多，如文件大小、传输代价和失效时间等等。通过设定函数对这些因素进行综合考虑，可以适应在不同场景下的需求。不过在设置函数时也会引入额外的复杂度。

3）随机化的替换策略

基于一些随机化方案来进行数据替换，不需要文件特定数据结构的支持，易于实现。缺点在于，性能波动相对较大，难以评估。

以上三类方法都是将整个业务文件基于整体进行替换，但是可能会因个别基站过载或链路拥塞造成无法接收数据的风险；另外，由于各业务文件大小不一致，整体替换会造成存储空间的浪费，通过文件分组的部分替换，系统存储空间得到了最优利用。

发明内容

本发明的目的是利用Q学习方法，设计出一种蜂窝网络中基于传输代价的分布式基站缓存替换方法。

蜂窝网络中基于传输代价的分布式基站缓存替换方法，步骤如下：

1）当蜂窝系统中有业务s的请求到达时，收到请求的本地基站i根据自身与系统中其他基站间的传输代价c_ji，其中j＝1，2，...，N，N为蜂窝系统中基站数量，向相应基站发出请求获得业务数据分组；发送请求时，基站i检索自身索引表中其他基站的对业务s的存储信息，并按照代价由小到大依次发送请求，直至得到全部的数据分组K(s)为止；

2）当各基站收到来自基站i的数据业务请求时，各基站依照请求发送业务s的数据分组给基站i；各业务在缓存中以网络编码的方式进行存储，以保证传输不会受到个别基站过载或个别链路拥塞的影响，基站i只需接收足量的数据分组进行解码即可恢复业务s的原始数据；

3）基站i接收到数据分组并成功解码后，基站i根据此次请求更新缓存中各业务存储比例，即增大业务s的数据分组数量，减少其他业务的存储量；首先基站i的感知自身的存储状态m_i＝(m_i(s₁)，m_i(s₂)，...，m_i(s_L))，确定其在当前时刻t的决策行为a_i ^t，由于存储空间的有限性，其中决策矢量a_i ^t中元素之和必须为零；基站决策行为a_i ^t的确定应以最大化系统时间累积回报V^*为准，采用Q学习的方法（Q-learning）来确定每次请求时基站的决策行为，最终得到系统各状态下基站的最优决策行为集合；基站i做出决策行为后，根据决策行为a_i ^t进行缓存更新，得到新的状态矢量m_i′；

4）在各基站向请求基站i发送业务s的数据分组时，也同时附加发送其对各业务的存储信息，基站i在接收到该信息后更新自身索引表，即其他基站的存储信息h_ij(s)，以保证存储整个系统中各基站最新的存储信息；

所述的步骤2）中各业务存储信息方法为：

各业务以网络编码的方式存储于基站中，以保证传输过程不会受到个别基站过载或个别链路拥塞的影响，请求基站只需接收足量的数据分组进行解码即可恢复业务s的原始数据；

存储时各业务采用随机线性网络编码的方式进行存储，选择存储的有限域为GF(q)，原始的业务数据文件被分为M个数据分组，基站应接收K个数据分组以进行解码（K≥M），则基站能够成功解码的概率为：

为成功解码所需的平均数据分组数的上界为：

由此确定各业务完整解码所需的数据分组数；

所述的步骤3）中基站决策行为a_i ^t的确定应以最大化系统时间累积回报V^*为准，采用Q学习（Q-learning）来确定每次请求时基站决策行为的方法为：

由于各基站i独立且分布式确定决策行为，对于每个基站i得到的系统时间累积回报V_i ^*为：

为了得到最大的系统时间累积回报，对每一个状态-行为对定义Q值，对于基站i，最优Q值如下：

其中，m_i为i基站当前状态，m′_i为采用决策行为a后的基站转移状态，为两状态间的转移概率。因此，最优累积回报V_i ^*可以用Q值表示为因此，如果在每一个基站状态和决策行为条件下的最优Q值已知，则可以得到系统最优策略Q学习算法以递归的方式对每一个基站的Q值进行更新，更新准则如下：

其中，α为算法的学习速率，第t次请求到达后i基站更新得到的Q值，R为决策行为获得的相应报酬函数。

所述的步骤4）中计算决策行为获得的相应报酬函数的方法为：

由于最终目标是最小化蜂窝网络的传输代价，我们用传输代价的改变量来衡量决策行为的报酬。基站i的报酬函数由四部分组成如下：

其中，和分别代表请求基站i和其他基站由于业务s数据分组的增加得到的正收益，和分别代表请求基站i和其他基站由于其他业务数据分组的减少得到的负收益。以请求基站i的正收益为例说明报酬函数的计算方法：

基站i的索引表中存有其他基站从基站i实际接收业务s的分组数h_ij(s)和希望从基站i接收的最多业务分组数H_ij(s)。k为基站依决策行为增加的分组数，令传输业务s的基站集合为中的元素依传输代价分为以下三类：

（1）代表需要向请求基站发送所存储全部数据分组的基站集合：

（2）代表需要向请求基站发送所存储部分数据分组的基站集合：

（3）代表不需要向请求基站发送任何数据分组的基站集合：

基站集合的划分是基于各基站到i基站的链路代价确定。链路状态较好的基站向请求基站i传输全部的数据分组，即为链路状态较差的基站完全不向请求基站i传输数据分组，即为链路状态介于两者之间的基站向请求基站i传输部分数据分组，即为则基站i的正收益计算如下：

其中，表示请求基站i更新存储内容在实际传输中造成其他基站向基站i传输业务分组数量的变化：当基站时，由于i基站始终无需从j基站获取数据，因此基站i的缓存更新对从基站j的传输无影响；当基站时，表示基站i只需从基站j获取部分分组，当基站i增加存储内容时，从基站j获取的分组一定减少，若增加的文件分组数k不超过实际传输分组数，则增加的部分不再需要传输，即从基站j少传送k个分组，若增加的文件分组数k超过实际传输分组数，则完全不再需要从基站j获取数据分组；当基站时，表示基站i获取基站j存储的全部数据分组，此时，若希望从基站j取得分组数的上界H_ji(s)超过实际传输的分组数，则基站i增加存储内容会造成H_ji(s)下降，因此实际从基站j传输分组数减少，若希望从基站j取得分组数的上界H_ji(s)等于实际传输的分组数，则依然传输相同数量的分组。因此，有：

报酬函数R_i的基于部分同理计算。

本发明的有益效果：

本发明利用Q学习得到系统在不同状态下的最优策略行为集，设计出一种基于业务信息的基站缓存替换方法，在蜂窝系统存储空间受限的前提下提高了存储效率，最小化业务在系统中的传输代价，同时不需要基站间关于缓存数据内容进行额外的信息交互，有效地提升了服务质量。

附图说明

图1是蜂窝网络中基于传输代价的分布式基站缓存替换方法的系统模型；

图2是随着业务请求次数的增加，经过Q学习各业务分组数在基站缓存中的变化情况；

图3是不同基站数量的情况下，本发明方法和随机替换策略、LRU算法以及LFU算法在经过Q学习过程后，平均传输代价的比较；

图4是不同基站存储空间的情况下，本发明方法和随机替换策略、LRU算法以及LFU算法在经过Q学习过程后，平均传输代价的比较；

图5是不同业务数量的情况下，本发明方法和随机替换策略、LRU算法以及LFU算法在经过Q学习过程后，平均传输代价的比较。

具体实施方式

以下结合附图和实施例进一步说明本发明。

蜂窝系统的缓存替换模型如图1所示。当用户对于某业务发出请求时，本地基站向网络中的其他基站发出请求，收到请求的基站传输业务分组，请求基站接收到数据分组后解码出原始数据传输给用户。在传输过程结束后，基站更新缓存中存储的业务分组数，增加请求业务分数，减少其他业务分组。同时在传输过程中，基站更新保存其他基站存储信息的索引表。

假定网络中有N=10个基站，传输L=4个业务。每个业务接收K=1000个数据分组以恢复原始业务信息。假定折扣因子γ＝0.8，学习速率α＝0.7。用户对各业务的关注服从Zipf分布。

1）当蜂窝系统中有业务s的请求到达时，收到请求的本地基站i根据自身与系统中其他基站间的传输代价c_ji向相应基站发出请求获得业务数据分组；发送请求时，基站i检索自身索引表中其他基站的对业务s的存储信息h_ji，并按照代价由小到大依次发送请求，以及对业务分组数的最大期望需求H_ji。

2）当各基站收到来自基站i的数据业务请求时，各基站依照请求发送业务s的数据分组给基站i；各业务在缓存中以网络编码的方式进行存储，以保证传输不会受到个别基站过载或个别链路拥塞的影响，基站i接收足量的数据分组进行解码即可恢复业务s的原始数据；

3）基站i接收到数据分组并成功解码后，基站i根据此次请求更新缓存中各业务存储比例，即增大业务s的数据分组数量，减少其他业务的存储量；首先基站i的感知自身的存储状态m_i＝(m_i(s₁)，m_i(s₂)，...，m_i(s_L))，确定其在当前时刻t的决策行为a_i ^t，由于存储空间的有限性，其中决策矢量a_i ^t中元素之和必须为零；决策行为的目标是最小化业务在系统中传输代价，根据业务在各基站中存储状态，得到决策行为a_i ^t的报酬函数R_i。

4）以最大化系统时间累积回报V^*来衡量决策行为的收益，根据每次决策行为的报酬函数法R_i来递归计算Q值，最终得到系统各状态下基站的最优决策行为集合；基站i做出决策行为后，根据决策行为a_i ^t进行缓存更新，得到新的状态矢量m_i′；

5）在各基站向请求基站i发送业务s的数据分组时，也同时附加发送其对各业务的存储信息，基站i在接收到该信息后更新自身索引表，即其他基站的存储信息h_ij(s)，以保证存储整个系统中各基站最新的存储信息；

所述的步骤3）中计算决策行为获得的相应报酬函数的方法为：

其中，和分别代表请求基站i和其他基站由于业务s数据分组的增加得到的正收益，和分别代表请求基站i和其他基站由于其他业务数据分组的减少得到的负收益。下面给出报酬函数中各部分的具体计算方法：

基站i的索引表中存有其他基站从基站i实际接收业务s的分组数h_ij(s)和希望从基站i接收的最多业务分组数H_ij(s)。k为基站依决策行为增加的分组数，令传输业务s的基站集合为中的元素依传输代价分为三类：

（3）代表不需要向请求基站发送任何数据分组的基站集合：

基站集合的划分是基于各基站到i基站的链路代价确定。链路状态较好的基站向请求基站i传输全部的数据分组，即为链路状态较差的基站完全不向请求基站i传输数据分组，即为链路状态介于两者之间的基站向请求基站i传输部分数据分组，即为则基站i的正回报计算如下：

与上述分析相似，对于减少数据的业务，基站依然可以根据传输代价被分为如上所列的三类。减少存储业务的负收益可以被计算如下：

其中，

表示除了本地基站i以外，其他基站通过调整i中存储业务所得到的报酬。其他基站通过增加i基站存储业务分组数得到的正收益可以计算如下：

其中，

同样对于除本地基站i以外，其他基站通过调整i中存储业务所得到的负报酬计算如下：

其中，

根据以上分析，每一个基站都能够基于本地信息获得可行行为的报酬值R_i，从而提供了缓存更新策略的分析基础。

所述的步骤4）中基站决策行为a_i ^t的确定应以最大化系统时间累积回报V^*为准，采用Q学习的（Q-learning）来确定每次请求时基站决策行为的方法为：

其中，m_i为i基站当前状态，m′_i为采用决策行为a后的基站转移状态，为两状态间的转移概率。

因此，最优累积回报V_i ^*可以用Q值表示为因此，如果在每一个基站状态和决策行为条件下的最优Q值已知，则可以得到系统最优策略Q学习算法以递归的方式对每一个基站的Q值进行更新，更新准则如下：

通过计算机仿真表明，在经过一定次数（2300次左右）的学习过程后，基站中各业务的存储量达到稳态，见图2。对于不同的基站数N，本发明方法与传统的随机替换方法、LRU方法以及LFU方法相比平均传输代价有明显降低。随着网络规模的增大、基站数量的增多本发明方法的性能优势更加显著。对于基站存储空间变化的情况下，本发明方法平均传输代价明显低于传统的随机替换方法、LRU方法以及LFU方法，基站的存储空间越小，即对存储效率要求越高时，性能优势越明显。对于不同的业务数，本发明方法与传统的随机替换方法、LRU方法以及LFU方法相比平均传输代价依然有明显降低，业务数量越多时，平均传输代价的降低越多。

综合以上性能比较，我们不难发现本发明的基站缓存更新方法性能上远优于传统方法，且在大规模网络中优势更加突出。

Claims

1.一种蜂窝网络中基于传输代价的分布式基站缓存替换方法，其特征在于，

1)当蜂窝系统中有业务s的请求到达时，收到请求的本地基站i根据自身与系统中其他基站间的传输代价c_ji，其中j＝1,2,…,N，N为蜂窝系统中基站数量，向相应基站发出请求获得业务数据分组；发送请求时，基站i检索自身索引表中其他基站的对业务s的存储信息，并按照代价由小到大依次发送请求，直至得到全部的数据分组K(s)为止；

2)当各基站收到来自基站i的数据业务请求时，各基站依照请求发送业务s的数据分组给基站i；各业务在缓存中以网络编码的方式进行存储，以保证传输不会受到个别基站过载或个别链路拥塞的影响，基站i只需接收足量的数据分组进行解码即可恢复业务s的原始数据；

3)基站i接收到数据分组并成功解码后，基站i根据此次请求更新缓存中各业务存储比例，即增大业务s的数据分组数量，减少其他业务的存储量；首先基站i获得各业务s₁,s₂,…,s_L在本基站的存储状态m_i＝(m_i(s₁),m_i(s₂),…,m_i(s_L))，确定其在当前时刻t的存储调整决策行为a_i ^t，由于存储空间的有限性，其中决策矢量a_i ^t中元素之和必须为零；基站决策行为a_i ^t的确定应以最大化系统时间累积回报V^*为准，采用Q学习的方法(Q-learning)来确定每次请求时基站的决策行为，最终得到系统各状态下基站的最优决策行为集合；基站i做出决策行为后，根据决策行为a_i ^t进行缓存更新，得到新的存储状态矢量m_i；

4)在各基站向请求基站i发送业务s的数据分组时，也同时附加发送其对各业务的存储信息，基站i在接收到该信息后更新自身索引表，即其他基站的存储信息h_ij(s)，以保证存储整个系统中各基站最新的存储信息。

2.根据权利要求1所述的基站缓存替换方法，其特征在于，所述的步骤3)中基站存储调整决策行为a_i ^t的确定应以最大化系统时间累积回报V^*为准，采用Q学习(Q-learning)来确定每次请求时基站决策行为的方法为：

<mrow> <msup> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>*</mo> </msup> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>&infin;</mi> </munderover> <msup> <mi>&gamma;</mi> <mi>t</mi> </msup> <msubsup> <mi>R</mi> <mi>i</mi> <mi>t</mi> </msubsup> </mrow>

其中γ是回报随时间的折扣因子，γ^t为折扣因子γ的t次方，指代t个时间后的回报折扣比例；

<mrow> <msubsup> <mi>Q</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>E</mi> <mo>{</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> <mo>+</mo> <mi>&gamma;</mi> <munder> <mo>&Sigma;</mo> <mrow> <msup> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <mi>M</mi> </mrow> </munder> <msub> <mi>P</mi> <mrow> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>,</mo> <msup> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>&prime;</mo> </msup> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>b</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </munder> <msup> <msub> <mi>Q</mi> <mi>i</mi> </msub> <mo>*</mo> </msup> <mrow> <mo>(</mo> <msubsup> <mi>m</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> </mrow>

其中，m_i为i基站的存储状态，a_i为基站i的存储调整行为，m′_i为进行调整a_i后的基站i的转移存储状态，b为基站i在转移存储状态m′_i下的调整行为，M是基站存储状态的可能取值范围，A是基站存储调整行为的可能取值范围，为两状态间的转移概率；因此，最优累积回报V_i ^*用Q值表示为因此，如果在每一个基站状态和决策行为条件下的最优Q值已知，则得到系统最优策略Q学习算法以递归的方式对每一个基站的Q值进行更新，更新准则如下：

<mrow> <msubsup> <mi>Q</mi> <mi>i</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> <msubsup> <mi>Q</mi> <mi>i</mi> <mi>t</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <msubsup> <mi>R</mi> <mi>i</mi> <mi>t</mi> </msubsup> <mo>(</mo> <mrow> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>&gamma;V</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>+</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

其中，当前的估计累计回报V_i(m_i)＝max_a∈AQ_i(m_i,a)，V_i(m_i+a_i)为按a_i调整存储后的估计累计回报,α为算法的学习速率，第t次请求到达后i基站更新得到的Q值，R_i为决策行为获得的相应报酬函数。