CN110312277B

CN110312277B - 一种基于机器学习的移动网络边缘协作缓存模型构造方法

Info

Publication number: CN110312277B
Application number: CN201910277048.XA
Authority: CN
Inventors: 王晓飞; 李丁; 李文凯; 韩溢文; 王晨阳
Original assignee: Tianjin University
Current assignee: Pioneer Cloud Computing Shanghai Co ltd
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2022-01-28
Anticipated expiration: 2039-04-08
Also published as: CN110312277A

Abstract

本发明公开了一种基于机器学习的移动网络边缘协作缓存模型构造方法，步骤1、根据用户发送内容请求数据建立网络训练模型；步骤2、网络训练模型中判断路由模块按照自适应选择动作要求对用户发送内容请求数据进行基站识别；步骤3、网络训练模型中更新模块按照替换动作要求对本地基站缓存替换；步骤4、重复步骤1～3直至网络训练模型稳定，该方法可以显著降低用户接入时延、提高缓存命中率已经缓解主干网流量压力。

Description

一种基于机器学习的移动网络边缘协作缓存模型构造方法

技术领域

本发明涉及移动通信领域，尤其涉及一种基于机器学习的移动网络边缘协作缓存机制。

背景技术

随着无线接入技术和移动设备的迅速发展，互联网服务和应用程序逐渐迁移到移动网络。移动网络流量呈现爆发式的突涨，有限的无线频谱资源及传统的移动网络架构很难应付移动流量的爆发式增长。与此同时，移动用户对业务服务质量的要求也不断提升。研究发现大部分流量用于下载相同的流行内容, 这给移动网络带来了极大压力与挑战，重复内容传输增大了回传链路压力、浪费网络资源，降低用户体验。缓存技术应用十分广泛，从计算机系统的内存缓存，到网络系统网页缓存，再到内容核心网、云存储系统。在移动边缘网络中，以基站为主的蜂窝接入网中，每次用户请求视频、社交等业务，从基站到远端服务器之间都会产生很大的时延，更何况在短时间内大量用户对统一热门内容提出传输请求时，给网络链路带来了巨大的压力，同时造成带宽资源浪费、用户体验差等问题。为了避免上述问题，在边缘网络中部署缓存成为新的解决方案。

在基站部署缓存是移动边缘缓存的重要实现方式。在基站部署缓存是移动边缘缓存的重要实现方式。其中，根据缓存的部署位置，可将基站缓存分为宏基站缓存和微基站缓存，一般宏基站的覆盖面积、缓存容量会更大些。当基站部署缓存之后，用户请求内容的流程为：(1)用户发起内容请求，如果在小基站命中缓存，则小基站立刻响应用户；(2)如果在小基站没有命中，小基站将用户的内容请求转发至宏基站，如果在宏基站命中缓存，则立刻响应用户；(3) 如果在宏基站也没有命中，宏基站将用户请求转发至移动核心网，直至目标内容。在基站部署缓存，可以极大地缓解回程链路和移动核心网络的压力，并降低网络时延。

移动边缘缓存特性：(1)用户终端的移动性。无线边缘网络最大的特征就是用户终端的移动性，终端位置的持续变动会改变网络的拓扑结构，这就需要具备自适应的缓存策略来进行调整。(2)边缘网络的复杂性。信道的衰落和干扰导致无线环境的不确定性，缓存内容所需要的最佳环境可能在无线环境发生变化时失效。(3)缓存空间的有限性。单个基站或者用户终端的存储空间相对于主干网的存储空间都是有限的，再加上接入单个基站的用户数很少，可能导致缓存的命中率低。

缓存策略解决的问题是何处缓存，缓存哪些内容，如何更新缓存内容。缓存策略可以借助长期稳定的网络信息，如用户的历史请求、内容的流行度、网络拓扑、信道信息和用户时变的位置信息等。传统的缓存替换策略有基于时间的和频率，分别删除最近最少使用的对象(LRU)和最不常用的对象(LFU)，以及随机替、语义替换。上述缓存替换算法只考虑了内容访问的本地特征,由于缺乏基站间的协作,将这些基于本地信息的方法用于基站缓存替换时,存在缓存资源利用率不高的问题。与此同时，这些工作主要侧重于通过传统优化技术寻找最佳/次优解决方案，在动态环境中通常缺乏自适应性，并且需要几乎在现实世界中无法获取的全局信息。人工智能(AI)与机器学习(Machine Learning) 在无线通信中受到越来越多的关注。强化学习(Reinforcement Learning)是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。该领域的自适应环境的性能可以为边缘网络缓存问题提供解决方案。

发明内容

本发明的目的是提供面向移动网络中边缘协作缓存的解决方案，基于各层基站的计算存储能力，形成分层协作、同层协作的缓存框架以支撑大规模各类型的智能终端，并以学习机制来适应复杂动态多变的用户请求与网络环境，解决各层基站的内容请求路由与缓存替换问题，从而达到提高用户上网体验，减少用户访问时延。

为了解决现有问题，本发明所采用的技术方案是：

一种基于移动边缘协助缓存的通信网络模型构建方法，包括如下步骤：

步骤1、根据用户发送内容请求数据建立网络训练模型；

步骤2、网络训练模型中判断路由模块按照自适应选择动作要求对用户发送内容请求数据进行基站识别；

2.1若所选动作为本地基站，则本地基站中存在用户请求内容副本；

2.2若所选动作为协作基站服务，则将该次请求交由协作基站处理；

2.3若所选动作为远程网站服务，则该次请求传递至运营商网络，再由运营商网络从内容服务商请求内容；

2.31所述远程网站对缓存进行判断，若远程网站缓存已满，则进行缓存替换；否则执行请求内容；

步骤3、网络训练模型中更新模块按照替换动作要求对本地基站缓存替换；

步骤4、重复步骤1～3直至网络训练模型稳定。

使用强化学习(Q-learning)进行模型自适应学习，步骤如下:

定义最优缓存策略：π^*＝{π^*(s₁),π^*(s₂),...,π^*(s_n)}

获取价值函数：V_π(s,a)＝E[R(s₁,a₁)+γ₂R(s₂,a₂)+...|s₁＝s,π]

贝尔曼方程转换：

获取最优Q值：

f)迭代最优Q值方差：

与现有技术相比，本发明具有的优点：

与现有技术相比，本发明具有以下明显的优势和有意效果：

本发明提出一种基于学习的协作边缘缓存机制，区别于传统的单基站协作，提高了缓存性能，并且并非通过传统优化技术寻找最佳/次优解决方案，而是采用学习机制动态适应环境的变化。

本发明将内容流行度、传输时延具体模型化，将缓存替换问题与路由分发问题建模为MDP过程，着重于最小化用接入时延，以用户的服务体验来构建移动通信接入的通信模型。实验表明，运用本方法可以显著降低用户接入时延、提高缓存命中率已经缓解主干网流量压力。

附图说明

图1本发明一种基于机器学习的移动网络边缘协作缓存机制流程图；

图2边缘协作缓存体系架构；

具体实施方式

本发明的系统流程图如图1～2所示。

步骤1、根据用户发送内容请求数据建立网络训练模型；即，用户使用移动发送内容请求(以视频内容为例)，设备所接入的本地使用检测技术(如字段拦截、DPI检测)提取与视频内容相关的信息；本发明对用户请求处理是基于ZIPF定律对内容流行度建模:

其中R_f代表内容f流行度降序的等级，β代表偏度因子。我们假设

本发明对基站识别基于香浓定律技术无线传输速率与时延，即总体内容流行度变化缓慢。

本发明运用香农定律无线传输速率建模：

其中w表示信道带宽，σ²表示噪声功率，q_u表示基站n对用户u的传输功率， g_u,n表示信道增益，该值取决于基站n与用户u的距离。

本发明使用强化学习(Q-learning)进行模型自适应学习，步骤如下:

定义最优缓存策略：π^*＝{π^*(s₁),π^*(s₂),...,π^*(s_n)}

a)获取价值函数：V_π(s,a)＝E[R(s₁,a₁)+γ₂R(s₂,a₂)+...|s₁＝s,π]

b)贝尔曼方程转换：

c)获取最优Q值：

d)迭代最优Q值方差：

2)其中，使用Double DQN解决Q-learning高维难收敛以及过估计问题：

最优状态-动作Q函数近似：Q(s,a)≈Q(s,a；θ)

e)获取损失函数：

f)计算θ的梯度，实现End-to-end的优化目标；

2.31所述远程网站对缓存进行判断，若远程网站缓存已满，则进行缓存替换；否则执行请求内容；所述步骤2.31中对缓存替换按照如下方法：

使用马尔科夫决策过程对请求路由与内容替换问题建模：

g)状态s:当前请求内容+当前缓存情况；

h)动作a:1.用户请求由本地基站服务；

2.用户请求由协作基站服务；

3.用户请求由内容服务商服务；

i)奖励函数R(s,a)：基于用户传输时延制定；

步骤3、网络训练模型中更新模块按照替换动作要求对本地基站缓存替换；本地基站进行缓存替换选择，基于训练模型选取替换动作，若所选动作为不替换，则保存之前的缓存状态。若动作为替换某个内容，则基站执行替换策略；

基于时延，对所选动作进行奖惩，若是更合理的动作，则用户时延必会减少，加大奖励，若是不合理动作，用户时延加大，进行惩罚，引导基站朝着最小化时延的方向更新训练模型

步骤4、重复步骤1～3直至网络训练模型稳定。

应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于机器学习的移动网络边缘协作缓存模型构造方法，其区别特征在于:包括如下步骤：

步骤1、根据用户发送内容请求数据建立网络训练模型；对用户请求处理是基于ZIPF定律对内容流行度建模:

其中R_f代表内容f流行度降序的等级，β代表偏度因子；

步骤2、网络训练模型中判断路由模块按照自适应选择动作要求对用户发送内容请求数据进行基站识别；所述步骤2中的判断路由模块自适应选择动作过程：

a)定义最优缓存策略：π^*＝{π^*(s₁),π^*(s₂),...,π^*(s_n)}

b)获取价值函数：V_π(s,a)＝E[R(s₁,a₁)+γ₂R(s₂,a₂)+...|s₁＝s,π]

c)贝尔曼方程转换：

d)获取最优Q值：

e)迭代最优Q值方差：

其中：

2.31所述远程网站对缓存进行判断，若远程网站缓存已满，则进行缓存替换；否则执行请求内容；包括如下步骤:

使用马尔科夫决策过程对请求路由与内容替换问题建模：

运用香农定律无线传输速率建模：

其中:w表示信道带宽，σ²表示噪声功率，q_u表示基站n对用户u的传输功率，g_u,n表示信道增益，该值取决于基站n与用户u的距离；状态s:当前请求内容+当前缓存情况；动作a:1.用户请求由本地基站服务；

2.31a.用户请求由协作基站服务；

2.31b.用户请求由内容服务商服务；

f)奖励函数R(s,a)：基于用户传输时延制定；

步骤3、网络训练模型中更新模块按照替换动作要求对本地基站缓存替换；本地基站进行缓存替换选择，基于训练模型选取替换动作，若所选动作为不替换，则保存之前的缓存状态；若动作为替换某个内容，则基站执行替换策略；

基于时延，对所选动作进行奖惩，若是更合理的动作，则用户时延必会减少，加大奖励；若是不合理动作，用户时延加大，进行惩罚，引导基站朝着最小化时延的方向更新训练模型；

步骤4、重复步骤1～3直至网络训练模型稳定。