CN109831806B

CN109831806B - 密集场景下面向用户优先级的基站协同缓存方法

Info

Publication number: CN109831806B
Application number: CN201910169065.1A
Authority: CN
Inventors: 衣孟杰; 张琰; 刘娟; 王玺钧; 孙婉莹; 闫朝星
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2021-07-06
Anticipated expiration: 2039-03-06
Also published as: CN109831806A

Abstract

本发明提出了一种在密集场景下面向用户优先级的基站协同缓存方法，主要解决现有技术中用户请求内容在基站缓存器中命中率低及因用户请求被无差异化服务导致高优先级用户被不公平对待的问题。其实现方案是：先根据所有用户的请求信息和基站缓存器中的信息建立基站协同缓存的深度强化学习模型；再对该模型进行离线训练和学习，得到学习好的深度强化学习模型；最后利用该学习好的深度强化学习模型在宏基站处进行在线的基站协同缓存决策。本发明不仅增大了用户的请求内容在基站缓存器中的命中率，而且可对不同优先级的用户提供差异化的服务，既能满足不同用户的上网需求，又能给运营商带来更大的利益，可用于用户在无线网络中对资源的访问。

Description

密集场景下面向用户优先级的基站协同缓存方法

技术领域

本发明属于通信技术领域，特别涉及一种基站协同缓存方法，可用于用户在无线网络中对资源的访问。

背景技术

随着移动通信网络技术以及各种智能移动终端设备的发展，人们生活和工作的各个方面都与互联网的联系越来越密切。在这个时代，每时每刻人们都需要通过无线网络来满足需求，这导致了无线网络中数据量的爆炸式增长。

最近几年，随着社交和娱乐软件的兴起，用户对于语音和视频的请求量越来越多，也越来越频繁。语音和视频的数据量远远大于文本的数据量，所以当这些音视频数据在无线网络中进行传输时会消耗大量资源。大量用户同时进行音视频服务请求，会造成无线网络的堵塞，导致用户请求的服务时延增大，使用户的上网体验下降。通过将可能被用户访问的内容预存到基站的缓存器中，可以避免用户在每次进行内容请求时都要从远端服务器中进行下载，大大减少了对用户的服务时延。

但是，在无线网络的基站处部署缓存器存在以下问题：1)单基站的缓存器容量有限，使基站缓存器的命中率不高；2)基站缓存器之间独立存储，会造成临近的基站缓存器单元中存有大量的冗余数据。近十年，全球无线网络用户密度持续增长。我国的平均用户密度高出全球近6倍,热点区域甚至增长了数十倍。网络中接入点和基站的密度也从每平方公里几个增加至几百个，形成了密集的无线网络，使得基站间的协同缓存成为了可能。

Chen Zhong等人在“A deep reinforcement learning-Based Framework forContent Caching”一文中提出一种Wolpertinger结构的深度强化学习方法来做基站处的缓存决策，可以提高单基站缓存器的命中率。但没有考虑多基站协同缓存的情况，且没有涉及到用户的优先级。

针对这一问题，J.He等人在“A Collaborative Framework for Innetwork VideoCaching in Mobile Networks”一文中提出了基于全网协作存储的缓存内容存放机制。协作缓存是指当用户的请求在当前的缓存器中没有命中时，可以将用户的请求转发至其他的基站缓存器来响应用户的请求内容。基站间的协作缓存可以提高缓存内容的多样性，减少存储冗余，提高缓存器利用率和用户请求内容的命中率。但是该方法依然没有考虑到用户的优先级问题，即每个用户发送的请求都被公平地处理。实际生活中，由于不同的用户所订购的网络套餐不同，就会有优先级的区别。高优先级的用户由于付费高，他们对于个人的上网体验要求也高；而低优先级的用户由于付费低，他们对于上网的体验要求相比高优先级的用户来说没有那么高。所以如果不考虑用户的优先级，付费高和付费低的用户被无差异的服务，这会使付费高的用户感到不公平，导致他们不再购买运营商所提供的高付费的网络套餐，进而使运营商的利润受到损失。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种在密集场景下面向用户优先级的基站协同缓存方法，以对不同优先级的用户提供差异化的服务，既能满足不同用户的上网需求，又能给运营商带来更大的利益。

为实现上述目的，本发明的技术方案包括如下：

(1)设基站包括一个宏基站和N个微基站，每个基站缓存器的容量大小为定值，假设为C，对基站缓存器的内容进行随机初始化，并由每个微基站中的一个用户A向为该用户提供服务的微基站发送内容请求，每个用户A向基站发送的请求内容服从zipf分布，且每个用户具有各自的优先级，N>＝1；

(2)为该用户A提供服务的微基站根据用户的请求，检索本地的微基站缓存器中是否已缓存了与用户请求相匹配的内容：

若有，则本地微基站向用户A返回用户所请求的内容，不进行基站缓存器的更新；

若没有，则为用户A提供服务的微基站将该用户的请求内容信息发送到宏基站，执行(3)；

(3)宏基站根据用户A的请求内容信息检索其他微基站和宏基站的缓存器中是否已缓存了与该用户的请求相匹配的内容：

若无，则宏基站从远端服务器获取用户A的请求内容后，执行(4)；

若有，则直接执行(4)；

(4)根据用户A的请求内容信息和基站缓存器中的信息，利用基站协同缓存的深度强化学习方法，将基站缓存器中的内容进行更新；

(4a)根据所有用户的请求信息和基站缓存器信息，建立基站协同缓存的深度强化学习模型；

(4b)利用深度强化学习模型进行离线训练和学习，得到学习好的基站协同缓存的深度强化学习模型；

(4c)利用学习好的深度强化学习模型在宏基站处进行在线的基站协同缓存决策；

(5)宏基站从更新后的基站缓存器中检索用户A的请求内容在基站缓存器中的位置，宏基站向该位置所在的基站发送命令，让该基站将用户A的请求内容发送给为用户A提供服务的本地微基站，并由本地微基站将请求内容发送给用户A。

本发明与现有技术相比，具有以下优点：

1、本发明中的基站缓存器由宏基站控制进行协同缓存，可使缓存的内容多样化，减少存储冗余，提高缓存器的利用率和用户请求信息的命中率。

2、本发明中考虑到用户具有不同的优先级，所以基站的缓存器资源会根据用户优先级进行调整，基站更愿意将缓存器资源优先分配给优先级高的用户，实现对用户的差异化服务。

3、本发明中的宏基站基于基站协同缓存的深度强化学习方法，只依赖于用户的请求内容信息和基站缓存器中的信息，将基站缓存器中的内容进行更新，可实现基站协同缓存的动态在线调整。

附图说明

图1为本发明的实现流程图；

图2为本发明中用深度强化学习模型更新基站缓存器内容的子流程图；

图3为本发明深度强化学习模型中的结构框图；

图4为本发明使用的通信场景图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

如图4所示，本实施例使用的场景，包含移动无线网络中的一个宏基站、三个微基站和每个微基站中的两个用户，每个基站都有一个缓存器，大小都设为100。宏基站可以向微基站发送命令，微基站根据宏基站的命令来进行缓存动作。宏基站与微基站之间，各个微基站之间，每个微基站和其所属的用户之间均可相互进行通信。根据用户使用的网络套餐将用户分为不同的优先级。在本发实例中用户的优先级有6个。

假设在每个微基站中用户轮流地向微基站发送请求，并且在每个时刻最多只允许一个用户向微基站发送一个请求，且每个用户所发送请求的内容大小是一样的。用户1发送的请求内容服从参数为1.25的zipf分布，用户2发送的请求内容服从参数为1.5的zipf分布，用户3发送的请求内容服从参数为1.3的zipf分布，用户4发送的请求内容服从参数为1.45的zipf分布，用户5发送的请求内容服从参数为1.36的zipf分布，用户6发送的请求内容服从参数为1.62的zipf分布；且在每个微基站中可以被用户请求的内容总数都是5000。

参照图1，本实例的实现步骤如下：

步骤1、初始化基站缓存器。

根据用户历史的请求内容将基站缓存器进行随机初始化，每一个微基站中的一个用户A向为其提供服务的微基站发送内容请求。

步骤2、为用户提供服务的本地微基站进行内容检索。

为该用户A提供服务的微基站根据用户的请求，检索本地的微基站缓存器中是否已缓存了与用户请求相匹配的内容：

若没有，则为用户A提供服务的微基站将该用户的请求内容信息发送到宏基站，执行步骤3；

步骤3、宏基站根据用户的请求内容信息检索用户的请求内容。

宏基站根据用户A的请求内容信息检索其他微基站和宏基站的缓存器中是否已缓存了与该用户的请求相匹配的内容：

若无，则宏基站从远端服务器获取用户A的请求内容后，再执行步骤4；

若有，则直接执行步骤4；

步骤4、宏基站基于基站协同缓存的深度强化学习方法更新基站缓存器中的内容。

宏基站基于基站协同缓存的深度强化学习方法，根据用户A的请求内容信息和基站缓存器中的信息，将基站缓存器中的内容进行更新。

参照图2，本步骤的具体实现如下：

4a)根据所有用户的请求内容信息和基站缓存器信息，建立基站协同缓存的深度强化学习模型：

4a1)设基站协同缓存的深度强化学习模型包括：环境模型模块和价值网络模块，如图3所示，其中环境模型模块包含：状态转移单元、动作空间单元和奖励函数单元；价值网络模块由深度神经网络构成，深度神经网络的输出映射为动作的价值；

4a2)根据所有用户的请求内容信息、基站缓存器中的信息和基站协同缓存的优化目标，确定环境模型模块中的状态转移单元、动作空间单元和奖励函数单元：

4a2.1)状态转移单元根据用户的请求内容信息特征、基站缓存器中的信息特征和价值网络模块输出的动作，对下一时刻基站缓存器中的信息特征和用户的请求内容信息特征进行状态转移；

所述用户的请求内容信息特征，是指在每一个微基站中，用户请求内容的短期特征、中期特征、长期特征和发送该请求内容的用户优先级特征，其中：

内容的短期特征，表示在微基站中该内容在最近的短期时间段内一共被请求的次数；

内容的中期特征，表示在微基站中该内容在最近的中期时间段内一共被请求的次数；

内容的长期特征，表示在微基站中该内容在最近的长期时间段内一共被请求的次数；

所述基站缓存器中的信息特征，是指每一个缓存内容在每一个微基站中，被请求的短期特征、中期特征和长期特征；

在本实例中，内容的短期特征表示内容在最近的10个时刻内一共被请求的次数，内容的中期特征表示内容在最近的100个时刻内一共被请求的次数，内容的长期特征表示内容在最近的1000个时刻内一共被请求的次数。

4a2.2)动作空间单元根据用户的请求内容信息特征和基站缓存器中的信息特征确定可供宏基站选择的动作空间，该动作空间是在宏基站进行基站协同缓存时，所有可能的缓存动作：

若用户请求的内容在基站缓存器中，则在基站缓存器中找一个位置，将这个位置处的内容与基站缓存器中被用户请求的内容进行位置互换，或是保持基站缓存器的状态不变；

若用户请求的内容不在基站缓存器中，则在基站缓存器中找一个位置，将这个位置处的内容用被用户请求的内容替换掉，或是保持基站缓存器的状态不变。

在本实例中，在每一个时刻，用户请求内容所对应的动作空间为A，其中A＝{0,1,...,p,...,400}。

其中p＝0表示保持基站缓存器中的内容不变，当微基站的用户没有发送内容请求时，设定该请求状态对应的缓存动作为0；

若被请求的内容在基站缓存器中，则p∈{1,2,...,100}，表示微基站1缓存中的第p个内容与基站缓存器中被用户请求的内容进行位置互换；p∈{101,102,...,200}，表示微基站2缓存中的第(p-100)个内容与基站缓存器中被用户请求的内容进行位置互换；p∈{201,202,...,300}，表示微基站3缓存中的第(p-200)个内容与基站缓存器中被用户请求的内容进行位置互换；p∈{301,302,...,400}，表示宏基站缓存中的第(p-300)个内容与基站缓存器中被用户请求的内容进行位置互换；

若被请求的内容不在基站缓存器中，则p∈{1,2,...,100}，表示微基站1缓存中的第p个内容被请求的内容替换掉；p∈{101,102,...,200}，表示微基站2缓存中的第(p-100)个内容被请求的内容替换掉；p∈{201,202,...,300}，表示微基站3缓存中的第(p-200)个内容被请求的内容替换掉；p∈{301,302,...,400}，表示宏基站缓存中的第(p-300)个内容被请求的内容替换掉。

4a2.3)奖励函数单元根据基站协同缓存的优化目标确定奖励函数：

该优化目标包括：优先级越高的用户请求的内容在基站缓存器中的命中率越大；所有用户的请求内容在基站缓存器中的命中率整体要大，且用户请求内容在基站缓存器中命中率的大小排序为：本地微基站>临近微基站>宏基站。

本步骤的具体实现如下：

首先，设奖励函数包含：短期奖励函数

和长期奖励函数

其中在本实施例中1<＝s<＝10，90<＝l<＝100；

接着，定义短期奖励函数如下：

其中，

表示从t时刻起的未来s个时刻，用户的请求内容在本地微基站缓存器中的命中率；

表示从t时刻起的未来s个时刻，用户的请求内容在临近微基站缓存器中的命中率；

表示从t时刻起的未来s个时刻，用户的请求内容在宏基站缓存器中的命中率；

式中，q_i表示第i个优先级用户的系数，i∈{1,2,...,n}，n表示用户优先级的个数；

表示从t时刻起的未来s个时刻，第i个优先级用户请求内容在本地微基站缓存器中的命中率；

表示从t时刻起的未来s个时刻，第i个优先级用户请求内容在临近微基站缓存器中的命中率；

表示从t时刻起的未来s个时刻，第i个优先级用户请求内容在宏基站缓存器中的命中率；*表示乘法数学运算；w_c表示在本地微基站中对应奖励函数的系数，w_n表示在临近微基站中对应奖励函数的系数，w_f表示在宏基站中对应奖励函数的系数，w_c＞w_n＞w_f；

接着，定义长期奖励函数如下：

其中，

表示从t时刻起的未来l个时刻，用户的请求内容在本地微基站缓存器中的命中率；

表示从t时刻起的未来l个时刻，用户的请求内容在临近微基站缓存器中的命中率；

表示从t时刻起的未来l个时刻，用户的请求内容在宏基站缓存器中的命中率；

式中，

表示从t时刻起的未来l个时刻，第i个优先级用户请求内容在本地微基站缓存器中的命中率；

表示从t时刻起的未来l个时刻，第i个优先级用户请求内容在临近微基站缓存器中的命中率；

表示从t时刻起的未来l个时刻，第i个优先级用户请求内容在宏微基站缓存器中的命中率；

然后，根据上述短期奖励函数和长期函数得到奖励函数r_t：

其中，w表示平衡短期奖励函数和长期奖励函数的系数。

所述第i个优先级用户请求内容在基站缓存器中的命中率，通过下式计算：

其中y∈{s,l}，x∈{c,n,f}，

R_ji表示在j时刻第i个优先级用户的请求内容；C_t表示在t时刻x基站缓存器中缓存的内容；

当y＝s，x＝c时，表示计算从t时刻起的未来s个时刻，第i个优先级用户请求内容在本地微基站缓存器中的命中率

当y＝s，x＝n时，表示计算从t时刻起的未来s个时刻，第i个优先级用户请求内容在临近微基站缓存器中的命中率

当y＝s，x＝f时，表示计算从t时刻起的未来l个时刻，第i个优先级用户请求内容在宏基站缓存器中的命中率

当y＝l，x＝c时，表示计算从t时刻起的未来l个时刻，第i个优先级用户请求内容在本地微基站缓存器中的命中率

当y＝l，x＝n时，表示计算从t时刻起的未来l个时刻，第i个请求内容在临近微基站缓存器中的命中率

当y＝l，x＝f时，表示计算从t时刻起的未来l个时刻，第i个优先级用户请求内容在宏微基站缓存器中的命中率

在本实例中，n＝6，每个优先级的系数为：

q₁＝0.1，q₂＝0.2，q₃＝0.3，q₄＝0.4，q₅＝0.5，q₆＝0.6。

w_c＝0.8，w_n＝0.5，w_f＝0.2，w＝0.001。

s＝1，l＝100。

4a3)由多层神经网络级联组成价值网络模块，该价值网络模块的输入层神经元个数由环境模型模块的状态信息特征决定，输出层的神经元个数由环境模型模块的动作空间维度决定，可选择的深度神经网络模型包括ANN、CNN、RNN、LSTM、AutoEncoder网络模型及其组合或者变体；

4b)利用深度强化学习模型进行离线训练和学习，得到学习好的基站协同缓存的深度强化学习模型；

参照图3，本步骤的具体实现如下：

4b1)在环境模型模块所提供的动作空间中，价值网络模块根据用户的请求内容信息和基站缓存器中的信息进行状态抽象，价值网络抽象出的基站缓存器中的信息特征和当前用户的请求内容信息特征的状态所对应的动作的价值越大，则对应的缓存动作越优。因此可以根据每个缓存动作价值输出的大小，选择最大价值所对应的动作就是当前状态下的最优缓存动作，并将所选择的最优缓存动作反馈给环境模型模块；

4b2)环境模型模块根据用户的请求内容信息特征、基站缓存器中的信息特征和价值网络模块反馈的最优缓存动作来进行状态转移，得到下一时刻用户的请求内容信息特征和基站缓存器中的信息特征，再根据奖励函数单元计算得出奖励值，将奖励值和改变后的状态信息反馈给价值网络；

4b3)价值网络模块根据环境模型模块反馈的奖励值和状态转移信息，进行价值网络的训练和更新；价值网络的更新遵循强化学习中的Bellman方程；

4b4)重复步骤4b1)-4b3)，直到基站协同缓存的深度强化学习模型达到收敛状态；

4c)利用学习好的深度强化学习模型在宏基站处进行在线的基站协同缓存决策；

4c1)根据实际的基站协同缓存过程，将用户的请求信息和基站缓存器中的信息输入给价值网络模块，在环境模型模块所提供的动作空间中，价值网络模块根据用户的请求内容信息和基站缓存器中的信息进行状态抽象，得到当前状态下的最优缓存动作；

4c2)环境模型模块执行最优缓存动作，更新基站缓存器中的内容，等待下一时刻用户请求内容的到来完成状态转移，得到下一时刻用户的请求内容信息特征和基站缓存器中的信息特征，再根据奖励函数单元计算得出奖励值，将奖励值和改变后的状态信息反馈给价值网络模块；

4c3)价值网络模块根据环境模型模块反馈的奖励值和状态转移信息，进行价值网络的训练和更新；

4c4)重复4c1)-4c3)，直到在线的基站协同缓存过程完成。

步骤5、将用户的请求内容发送给用户。

宏基站从更新后的基站缓存器中检索用户A的请求内容在基站缓存器中的位置，宏基站向该位置所在的基站发送命令，让该基站将用户A的请求内容发送给为用户A提供服务的本地微基站，并由本地微基站将请求内容发送给用户A。完成在密集场景下面向用户优先级的基站协同缓存过程。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或者替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.在密集场景下面向用户优先级的基站协同缓存方法，其特征在于，包括如下：

若有，则直接执行(4)；

(4)宏基站根据用户A的请求内容信息和基站缓存器中的信息，利用基站协同缓存的深度强化学习方法，将基站缓存器中的内容进行更新；

(4a)根据所有用户的请求内容信息和基站缓存器信息，建立基站协同缓存的深度强化学习模型，其实现如下：

(4a1)设基站协同缓存的深度强化学习模型包括：环境模型模块和价值网络模块；

(4a2)根据所有用户的请求内容信息、基站缓存器中的信息和基站协同缓存的优化目标，确定环境模型模块中的状态转移单元、动作空间单元和奖励函数单元，其实现如下：

(4a21)状态转移单元根据用户的请求内容信息特征、基站缓存器中的信息特征和价值网络模块输出的动作，对下一时刻基站缓存器中的信息特征和用户的请求内容信息特征进行状态转移；

所述用户的请求内容信息特征，是指在每一个微基站中，用户请求内容的短期特征、中期特征、长期特征和发送该请求内容的用户优先级特征，其中：内容的短期特征，表示在微基站中该内容在最近的短期时间段内一共被请求的次数；内容的中期特征，表示在微基站中该内容在最近的中期时间段内一共被请求的次数；内容的长期特征，表示在微基站中该内容在最近的长期时间段内一共被请求的次数；

(4a22)动作空间单元根据用户的请求内容信息特征和基站缓存器中的信息特征确定可供宏基站选择的动作空间；

(4a23)奖励函数单元根据基站协同缓存的优化目标确定奖励函数，该优化目标包括：优先级越高的用户请求的内容在基站缓存器中的命中率越大；所有用户的请求内容在基站缓存器中的命中率整体要大，且用户请求内容在基站缓存器中命中率的大小排序为：本地微基站>临近微基站>宏基站；

(4a3)由多层神经网络级联组成价值网络模块，该价值网络模块的输入层神经元个数由环境模型模块的状态信息特征决定，输出层的神经元个数由环境模型模块的动作空间维度决定；

(4b)利用深度强化学习模型进行离线训练和学习，得到学习好的基站协同缓存的深度强化学习模型，其实现如下：

(4b1)在环境模型模块所提供的动作空间中，价值网络模块根据用户的请求内容信息和基站缓存器中的信息进行状态抽象，得到当前状态下的最优缓存动作，并将所选择的最优缓存动作反馈给环境模型模块；

(4b2)环境模型模块根据用户的请求内容信息特征、基站缓存器中的信息特征和价值网络模块反馈的最优缓存动作来进行状态转移，得到下一时刻用户的请求内容信息特征和基站缓存器中的信息特征，再根据奖励函数单元计算得出奖励值，将奖励值和改变后的状态信息反馈给价值网络；

(4b3)价值网络模块根据环境模型模块反馈的奖励值和状态转移信息，进行价值网络的训练和更新；

(4b4)重复(4b1)-(4b3)，直到基站协同缓存的深度强化学习模型达到收敛状态；

(4c)利用学习好的深度强化学习模型在宏基站处进行在线的基站协同缓存决策，其实现如下：

(4c1)根据实际的基站协同缓存过程，将用户的请求内容信息和基站缓存器中的信息输入给价值网络模块，在环境模型模块所提供的动作空间中，价值网络模块根据用户的请求内容信息和基站缓存器中的信息进行状态抽象，得到当前状态下的最优缓存动作；

(4c2)环境模型模块执行最优缓存动作，更新基站缓存器中的内容，等待下一时刻用户请求内容的到来完成状态转移，得到下一时刻用户的请求内容信息特征和基站缓存器中的信息特征，再根据奖励函数单元计算得出奖励值，将奖励值和改变后的状态信息反馈给价值网络模块；

(4c3)价值网络模块根据环境模型模块反馈的奖励值和状态转移信息，进行价值网络的训练和更新；