CN109831806B - 密集场景下面向用户优先级的基站协同缓存方法 - Google Patents

密集场景下面向用户优先级的基站协同缓存方法 Download PDF

Info

Publication number
CN109831806B
CN109831806B CN201910169065.1A CN201910169065A CN109831806B CN 109831806 B CN109831806 B CN 109831806B CN 201910169065 A CN201910169065 A CN 201910169065A CN 109831806 B CN109831806 B CN 109831806B
Authority
CN
China
Prior art keywords
base station
user
buffer
content
request content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910169065.1A
Other languages
English (en)
Other versions
CN109831806A (zh
Inventor
衣孟杰
张琰
刘娟
王玺钧
孙婉莹
闫朝星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910169065.1A priority Critical patent/CN109831806B/zh
Publication of CN109831806A publication Critical patent/CN109831806A/zh
Application granted granted Critical
Publication of CN109831806B publication Critical patent/CN109831806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出了一种在密集场景下面向用户优先级的基站协同缓存方法,主要解决现有技术中用户请求内容在基站缓存器中命中率低及因用户请求被无差异化服务导致高优先级用户被不公平对待的问题。其实现方案是:先根据所有用户的请求信息和基站缓存器中的信息建立基站协同缓存的深度强化学习模型;再对该模型进行离线训练和学习,得到学习好的深度强化学习模型;最后利用该学习好的深度强化学习模型在宏基站处进行在线的基站协同缓存决策。本发明不仅增大了用户的请求内容在基站缓存器中的命中率,而且可对不同优先级的用户提供差异化的服务,既能满足不同用户的上网需求,又能给运营商带来更大的利益,可用于用户在无线网络中对资源的访问。

Description

密集场景下面向用户优先级的基站协同缓存方法
技术领域
本发明属于通信技术领域,特别涉及一种基站协同缓存方法,可用于用户在无线网络中对资源的访问。
背景技术
随着移动通信网络技术以及各种智能移动终端设备的发展,人们生活和工作的各个方面都与互联网的联系越来越密切。在这个时代,每时每刻人们都需要通过无线网络来满足需求,这导致了无线网络中数据量的爆炸式增长。
最近几年,随着社交和娱乐软件的兴起,用户对于语音和视频的请求量越来越多,也越来越频繁。语音和视频的数据量远远大于文本的数据量,所以当这些音视频数据在无线网络中进行传输时会消耗大量资源。大量用户同时进行音视频服务请求,会造成无线网络的堵塞,导致用户请求的服务时延增大,使用户的上网体验下降。通过将可能被用户访问的内容预存到基站的缓存器中,可以避免用户在每次进行内容请求时都要从远端服务器中进行下载,大大减少了对用户的服务时延。
但是,在无线网络的基站处部署缓存器存在以下问题:1)单基站的缓存器容量有限,使基站缓存器的命中率不高;2)基站缓存器之间独立存储,会造成临近的基站缓存器单元中存有大量的冗余数据。近十年,全球无线网络用户密度持续增长。我国的平均用户密度高出全球近6倍,热点区域甚至增长了数十倍。网络中接入点和基站的密度也从每平方公里几个增加至几百个,形成了密集的无线网络,使得基站间的协同缓存成为了可能。
Chen Zhong等人在“A deep reinforcement learning-Based Framework forContent Caching”一文中提出一种Wolpertinger结构的深度强化学习方法来做基站处的缓存决策,可以提高单基站缓存器的命中率。但没有考虑多基站协同缓存的情况,且没有涉及到用户的优先级。
针对这一问题,J.He等人在“A Collaborative Framework for Innetwork VideoCaching in Mobile Networks”一文中提出了基于全网协作存储的缓存内容存放机制。协作缓存是指当用户的请求在当前的缓存器中没有命中时,可以将用户的请求转发至其他的基站缓存器来响应用户的请求内容。基站间的协作缓存可以提高缓存内容的多样性,减少存储冗余,提高缓存器利用率和用户请求内容的命中率。但是该方法依然没有考虑到用户的优先级问题,即每个用户发送的请求都被公平地处理。实际生活中,由于不同的用户所订购的网络套餐不同,就会有优先级的区别。高优先级的用户由于付费高,他们对于个人的上网体验要求也高;而低优先级的用户由于付费低,他们对于上网的体验要求相比高优先级的用户来说没有那么高。所以如果不考虑用户的优先级,付费高和付费低的用户被无差异的服务,这会使付费高的用户感到不公平,导致他们不再购买运营商所提供的高付费的网络套餐,进而使运营商的利润受到损失。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种在密集场景下面向用户优先级的基站协同缓存方法,以对不同优先级的用户提供差异化的服务,既能满足不同用户的上网需求,又能给运营商带来更大的利益。
为实现上述目的,本发明的技术方案包括如下:
(1)设基站包括一个宏基站和N个微基站,每个基站缓存器的容量大小为定值,假设为C,对基站缓存器的内容进行随机初始化,并由每个微基站中的一个用户A向为该用户提供服务的微基站发送内容请求,每个用户A向基站发送的请求内容服从zipf分布,且每个用户具有各自的优先级,N>=1;
(2)为该用户A提供服务的微基站根据用户的请求,检索本地的微基站缓存器中是否已缓存了与用户请求相匹配的内容:
若有,则本地微基站向用户A返回用户所请求的内容,不进行基站缓存器的更新;
若没有,则为用户A提供服务的微基站将该用户的请求内容信息发送到宏基站,执行(3);
(3)宏基站根据用户A的请求内容信息检索其他微基站和宏基站的缓存器中是否已缓存了与该用户的请求相匹配的内容:
若无,则宏基站从远端服务器获取用户A的请求内容后,执行(4);
若有,则直接执行(4);
(4)根据用户A的请求内容信息和基站缓存器中的信息,利用基站协同缓存的深度强化学习方法,将基站缓存器中的内容进行更新;
(4a)根据所有用户的请求信息和基站缓存器信息,建立基站协同缓存的深度强化学习模型;
(4b)利用深度强化学习模型进行离线训练和学习,得到学习好的基站协同缓存的深度强化学习模型;
(4c)利用学习好的深度强化学习模型在宏基站处进行在线的基站协同缓存决策;
(5)宏基站从更新后的基站缓存器中检索用户A的请求内容在基站缓存器中的位置,宏基站向该位置所在的基站发送命令,让该基站将用户A的请求内容发送给为用户A提供服务的本地微基站,并由本地微基站将请求内容发送给用户A。
本发明与现有技术相比,具有以下优点:
1、本发明中的基站缓存器由宏基站控制进行协同缓存,可使缓存的内容多样化,减少存储冗余,提高缓存器的利用率和用户请求信息的命中率。
2、本发明中考虑到用户具有不同的优先级,所以基站的缓存器资源会根据用户优先级进行调整,基站更愿意将缓存器资源优先分配给优先级高的用户,实现对用户的差异化服务。
3、本发明中的宏基站基于基站协同缓存的深度强化学习方法,只依赖于用户的请求内容信息和基站缓存器中的信息,将基站缓存器中的内容进行更新,可实现基站协同缓存的动态在线调整。
附图说明
图1为本发明的实现流程图;
图2为本发明中用深度强化学习模型更新基站缓存器内容的子流程图;
图3为本发明深度强化学习模型中的结构框图;
图4为本发明使用的通信场景图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
如图4所示,本实施例使用的场景,包含移动无线网络中的一个宏基站、三个微基站和每个微基站中的两个用户,每个基站都有一个缓存器,大小都设为100。宏基站可以向微基站发送命令,微基站根据宏基站的命令来进行缓存动作。宏基站与微基站之间,各个微基站之间,每个微基站和其所属的用户之间均可相互进行通信。根据用户使用的网络套餐将用户分为不同的优先级。在本发实例中用户的优先级有6个。
假设在每个微基站中用户轮流地向微基站发送请求,并且在每个时刻最多只允许一个用户向微基站发送一个请求,且每个用户所发送请求的内容大小是一样的。用户1发送的请求内容服从参数为1.25的zipf分布,用户2发送的请求内容服从参数为1.5的zipf分布,用户3发送的请求内容服从参数为1.3的zipf分布,用户4发送的请求内容服从参数为1.45的zipf分布,用户5发送的请求内容服从参数为1.36的zipf分布,用户6发送的请求内容服从参数为1.62的zipf分布;且在每个微基站中可以被用户请求的内容总数都是5000。
参照图1,本实例的实现步骤如下:
步骤1、初始化基站缓存器。
根据用户历史的请求内容将基站缓存器进行随机初始化,每一个微基站中的一个用户A向为其提供服务的微基站发送内容请求。
步骤2、为用户提供服务的本地微基站进行内容检索。
为该用户A提供服务的微基站根据用户的请求,检索本地的微基站缓存器中是否已缓存了与用户请求相匹配的内容:
若有,则本地微基站向用户A返回用户所请求的内容,不进行基站缓存器的更新;
若没有,则为用户A提供服务的微基站将该用户的请求内容信息发送到宏基站,执行步骤3;
步骤3、宏基站根据用户的请求内容信息检索用户的请求内容。
宏基站根据用户A的请求内容信息检索其他微基站和宏基站的缓存器中是否已缓存了与该用户的请求相匹配的内容:
若无,则宏基站从远端服务器获取用户A的请求内容后,再执行步骤4;
若有,则直接执行步骤4;
步骤4、宏基站基于基站协同缓存的深度强化学习方法更新基站缓存器中的内容。
宏基站基于基站协同缓存的深度强化学习方法,根据用户A的请求内容信息和基站缓存器中的信息,将基站缓存器中的内容进行更新。
参照图2,本步骤的具体实现如下:
4a)根据所有用户的请求内容信息和基站缓存器信息,建立基站协同缓存的深度强化学习模型:
4a1)设基站协同缓存的深度强化学习模型包括:环境模型模块和价值网络模块,如图3所示,其中环境模型模块包含:状态转移单元、动作空间单元和奖励函数单元;价值网络模块由深度神经网络构成,深度神经网络的输出映射为动作的价值;
4a2)根据所有用户的请求内容信息、基站缓存器中的信息和基站协同缓存的优化目标,确定环境模型模块中的状态转移单元、动作空间单元和奖励函数单元:
4a2.1)状态转移单元根据用户的请求内容信息特征、基站缓存器中的信息特征和价值网络模块输出的动作,对下一时刻基站缓存器中的信息特征和用户的请求内容信息特征进行状态转移;
所述用户的请求内容信息特征,是指在每一个微基站中,用户请求内容的短期特征、中期特征、长期特征和发送该请求内容的用户优先级特征,其中:
内容的短期特征,表示在微基站中该内容在最近的短期时间段内一共被请求的次数;
内容的中期特征,表示在微基站中该内容在最近的中期时间段内一共被请求的次数;
内容的长期特征,表示在微基站中该内容在最近的长期时间段内一共被请求的次数;
所述基站缓存器中的信息特征,是指每一个缓存内容在每一个微基站中,被请求的短期特征、中期特征和长期特征;
在本实例中,内容的短期特征表示内容在最近的10个时刻内一共被请求的次数,内容的中期特征表示内容在最近的100个时刻内一共被请求的次数,内容的长期特征表示内容在最近的1000个时刻内一共被请求的次数。
4a2.2)动作空间单元根据用户的请求内容信息特征和基站缓存器中的信息特征确定可供宏基站选择的动作空间,该动作空间是在宏基站进行基站协同缓存时,所有可能的缓存动作:
若用户请求的内容在基站缓存器中,则在基站缓存器中找一个位置,将这个位置处的内容与基站缓存器中被用户请求的内容进行位置互换,或是保持基站缓存器的状态不变;
若用户请求的内容不在基站缓存器中,则在基站缓存器中找一个位置,将这个位置处的内容用被用户请求的内容替换掉,或是保持基站缓存器的状态不变。
在本实例中,在每一个时刻,用户请求内容所对应的动作空间为A,其中A={0,1,...,p,...,400}。
其中p=0表示保持基站缓存器中的内容不变,当微基站的用户没有发送内容请求时,设定该请求状态对应的缓存动作为0;
若被请求的内容在基站缓存器中,则p∈{1,2,...,100},表示微基站1缓存中的第p个内容与基站缓存器中被用户请求的内容进行位置互换;p∈{101,102,...,200},表示微基站2缓存中的第(p-100)个内容与基站缓存器中被用户请求的内容进行位置互换;p∈{201,202,...,300},表示微基站3缓存中的第(p-200)个内容与基站缓存器中被用户请求的内容进行位置互换;p∈{301,302,...,400},表示宏基站缓存中的第(p-300)个内容与基站缓存器中被用户请求的内容进行位置互换;
若被请求的内容不在基站缓存器中,则p∈{1,2,...,100},表示微基站1缓存中的第p个内容被请求的内容替换掉;p∈{101,102,...,200},表示微基站2缓存中的第(p-100)个内容被请求的内容替换掉;p∈{201,202,...,300},表示微基站3缓存中的第(p-200)个内容被请求的内容替换掉;p∈{301,302,...,400},表示宏基站缓存中的第(p-300)个内容被请求的内容替换掉。
4a2.3)奖励函数单元根据基站协同缓存的优化目标确定奖励函数:
该优化目标包括:优先级越高的用户请求的内容在基站缓存器中的命中率越大;所有用户的请求内容在基站缓存器中的命中率整体要大,且用户请求内容在基站缓存器中命中率的大小排序为:本地微基站>临近微基站>宏基站。
本步骤的具体实现如下:
首先,设奖励函数包含:短期奖励函数
Figure BDA0001987326400000061
和长期奖励函数
Figure BDA0001987326400000062
其中在本实施例中1<=s<=10,90<=l<=100;
接着,定义短期奖励函数如下:
Figure BDA0001987326400000063
其中,
Figure BDA0001987326400000064
表示从t时刻起的未来s个时刻,用户的请求内容在本地微基站缓存器中的命中率;
Figure BDA0001987326400000065
表示从t时刻起的未来s个时刻,用户的请求内容在临近微基站缓存器中的命中率;
Figure BDA0001987326400000066
表示从t时刻起的未来s个时刻,用户的请求内容在宏基站缓存器中的命中率;
式中,qi表示第i个优先级用户的系数,i∈{1,2,...,n},n表示用户优先级的个数;
Figure BDA0001987326400000067
表示从t时刻起的未来s个时刻,第i个优先级用户请求内容在本地微基站缓存器中的命中率;
Figure BDA0001987326400000071
表示从t时刻起的未来s个时刻,第i个优先级用户请求内容在临近微基站缓存器中的命中率;
Figure BDA0001987326400000072
表示从t时刻起的未来s个时刻,第i个优先级用户请求内容在宏基站缓存器中的命中率;*表示乘法数学运算;wc表示在本地微基站中对应奖励函数的系数,wn表示在临近微基站中对应奖励函数的系数,wf表示在宏基站中对应奖励函数的系数,wc>wn>wf
接着,定义长期奖励函数如下:
Figure BDA0001987326400000073
其中,
Figure BDA0001987326400000074
表示从t时刻起的未来l个时刻,用户的请求内容在本地微基站缓存器中的命中率;
Figure BDA0001987326400000075
表示从t时刻起的未来l个时刻,用户的请求内容在临近微基站缓存器中的命中率;
Figure BDA0001987326400000076
表示从t时刻起的未来l个时刻,用户的请求内容在宏基站缓存器中的命中率;
式中,
Figure BDA0001987326400000077
表示从t时刻起的未来l个时刻,第i个优先级用户请求内容在本地微基站缓存器中的命中率;
Figure BDA0001987326400000078
表示从t时刻起的未来l个时刻,第i个优先级用户请求内容在临近微基站缓存器中的命中率;
Figure BDA0001987326400000079
表示从t时刻起的未来l个时刻,第i个优先级用户请求内容在宏微基站缓存器中的命中率;
然后,根据上述短期奖励函数和长期函数得到奖励函数rt
Figure BDA00019873264000000710
其中,w表示平衡短期奖励函数和长期奖励函数的系数。
所述第i个优先级用户请求内容在基站缓存器中的命中率,通过下式计算:
Figure BDA00019873264000000711
其中y∈{s,l},x∈{c,n,f},
Figure BDA0001987326400000081
Rji表示在j时刻第i个优先级用户的请求内容;Ct表示在t时刻x基站缓存器中缓存的内容;
当y=s,x=c时,表示计算从t时刻起的未来s个时刻,第i个优先级用户请求内容在本地微基站缓存器中的命中率
Figure BDA0001987326400000082
当y=s,x=n时,表示计算从t时刻起的未来s个时刻,第i个优先级用户请求内容在临近微基站缓存器中的命中率
Figure BDA0001987326400000083
当y=s,x=f时,表示计算从t时刻起的未来l个时刻,第i个优先级用户请求内容在宏基站缓存器中的命中率
Figure BDA0001987326400000084
当y=l,x=c时,表示计算从t时刻起的未来l个时刻,第i个优先级用户请求内容在本地微基站缓存器中的命中率
Figure BDA0001987326400000085
当y=l,x=n时,表示计算从t时刻起的未来l个时刻,第i个请求内容在临近微基站缓存器中的命中率
Figure BDA0001987326400000086
当y=l,x=f时,表示计算从t时刻起的未来l个时刻,第i个优先级用户请求内容在宏微基站缓存器中的命中率
Figure BDA0001987326400000087
在本实例中,n=6,每个优先级的系数为:
q1=0.1,q2=0.2,q3=0.3,q4=0.4,q5=0.5,q6=0.6。
wc=0.8,wn=0.5,wf=0.2,w=0.001。
s=1,l=100。
4a3)由多层神经网络级联组成价值网络模块,该价值网络模块的输入层神经元个数由环境模型模块的状态信息特征决定,输出层的神经元个数由环境模型模块的动作空间维度决定,可选择的深度神经网络模型包括ANN、CNN、RNN、LSTM、AutoEncoder网络模型及其组合或者变体;
4b)利用深度强化学习模型进行离线训练和学习,得到学习好的基站协同缓存的深度强化学习模型;
参照图3,本步骤的具体实现如下:
4b1)在环境模型模块所提供的动作空间中,价值网络模块根据用户的请求内容信息和基站缓存器中的信息进行状态抽象,价值网络抽象出的基站缓存器中的信息特征和当前用户的请求内容信息特征的状态所对应的动作的价值越大,则对应的缓存动作越优。因此可以根据每个缓存动作价值输出的大小,选择最大价值所对应的动作就是当前状态下的最优缓存动作,并将所选择的最优缓存动作反馈给环境模型模块;
4b2)环境模型模块根据用户的请求内容信息特征、基站缓存器中的信息特征和价值网络模块反馈的最优缓存动作来进行状态转移,得到下一时刻用户的请求内容信息特征和基站缓存器中的信息特征,再根据奖励函数单元计算得出奖励值,将奖励值和改变后的状态信息反馈给价值网络;
4b3)价值网络模块根据环境模型模块反馈的奖励值和状态转移信息,进行价值网络的训练和更新;价值网络的更新遵循强化学习中的Bellman方程;
4b4)重复步骤4b1)-4b3),直到基站协同缓存的深度强化学习模型达到收敛状态;
4c)利用学习好的深度强化学习模型在宏基站处进行在线的基站协同缓存决策;
4c1)根据实际的基站协同缓存过程,将用户的请求信息和基站缓存器中的信息输入给价值网络模块,在环境模型模块所提供的动作空间中,价值网络模块根据用户的请求内容信息和基站缓存器中的信息进行状态抽象,得到当前状态下的最优缓存动作;
4c2)环境模型模块执行最优缓存动作,更新基站缓存器中的内容,等待下一时刻用户请求内容的到来完成状态转移,得到下一时刻用户的请求内容信息特征和基站缓存器中的信息特征,再根据奖励函数单元计算得出奖励值,将奖励值和改变后的状态信息反馈给价值网络模块;
4c3)价值网络模块根据环境模型模块反馈的奖励值和状态转移信息,进行价值网络的训练和更新;
4c4)重复4c1)-4c3),直到在线的基站协同缓存过程完成。
步骤5、将用户的请求内容发送给用户。
宏基站从更新后的基站缓存器中检索用户A的请求内容在基站缓存器中的位置,宏基站向该位置所在的基站发送命令,让该基站将用户A的请求内容发送给为用户A提供服务的本地微基站,并由本地微基站将请求内容发送给用户A。完成在密集场景下面向用户优先级的基站协同缓存过程。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或者替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (4)

1.在密集场景下面向用户优先级的基站协同缓存方法,其特征在于,包括如下:
(1)设基站包括一个宏基站和N个微基站,每个基站缓存器的容量大小为定值,假设为C,对基站缓存器的内容进行随机初始化,并由每个微基站中的一个用户A向为该用户提供服务的微基站发送内容请求,每个用户A向基站发送的请求内容服从zipf分布,且每个用户具有各自的优先级,N>=1;
(2)为该用户A提供服务的微基站根据用户的请求,检索本地的微基站缓存器中是否已缓存了与用户请求相匹配的内容:
若有,则本地微基站向用户A返回用户所请求的内容,不进行基站缓存器的更新;
若没有,则为用户A提供服务的微基站将该用户的请求内容信息发送到宏基站,执行(3);
(3)宏基站根据用户A的请求内容信息检索其他微基站和宏基站的缓存器中是否已缓存了与该用户的请求相匹配的内容:
若无,则宏基站从远端服务器获取用户A的请求内容后,执行(4);
若有,则直接执行(4);
(4)宏基站根据用户A的请求内容信息和基站缓存器中的信息,利用基站协同缓存的深度强化学习方法,将基站缓存器中的内容进行更新;
(4a)根据所有用户的请求内容信息和基站缓存器信息,建立基站协同缓存的深度强化学习模型,其实现如下:
(4a1)设基站协同缓存的深度强化学习模型包括:环境模型模块和价值网络模块;
(4a2)根据所有用户的请求内容信息、基站缓存器中的信息和基站协同缓存的优化目标,确定环境模型模块中的状态转移单元、动作空间单元和奖励函数单元,其实现如下:
(4a21)状态转移单元根据用户的请求内容信息特征、基站缓存器中的信息特征和价值网络模块输出的动作,对下一时刻基站缓存器中的信息特征和用户的请求内容信息特征进行状态转移;
所述用户的请求内容信息特征,是指在每一个微基站中,用户请求内容的短期特征、中期特征、长期特征和发送该请求内容的用户优先级特征,其中:内容的短期特征,表示在微基站中该内容在最近的短期时间段内一共被请求的次数;内容的中期特征,表示在微基站中该内容在最近的中期时间段内一共被请求的次数;内容的长期特征,表示在微基站中该内容在最近的长期时间段内一共被请求的次数;
所述基站缓存器中的信息特征,是指每一个缓存内容在每一个微基站中,被请求的短期特征、中期特征和长期特征;
(4a22)动作空间单元根据用户的请求内容信息特征和基站缓存器中的信息特征确定可供宏基站选择的动作空间;
(4a23)奖励函数单元根据基站协同缓存的优化目标确定奖励函数,该优化目标包括:优先级越高的用户请求的内容在基站缓存器中的命中率越大;所有用户的请求内容在基站缓存器中的命中率整体要大,且用户请求内容在基站缓存器中命中率的大小排序为:本地微基站>临近微基站>宏基站;
(4a3)由多层神经网络级联组成价值网络模块,该价值网络模块的输入层神经元个数由环境模型模块的状态信息特征决定,输出层的神经元个数由环境模型模块的动作空间维度决定;
(4b)利用深度强化学习模型进行离线训练和学习,得到学习好的基站协同缓存的深度强化学习模型,其实现如下:
(4b1)在环境模型模块所提供的动作空间中,价值网络模块根据用户的请求内容信息和基站缓存器中的信息进行状态抽象,得到当前状态下的最优缓存动作,并将所选择的最优缓存动作反馈给环境模型模块;
(4b2)环境模型模块根据用户的请求内容信息特征、基站缓存器中的信息特征和价值网络模块反馈的最优缓存动作来进行状态转移,得到下一时刻用户的请求内容信息特征和基站缓存器中的信息特征,再根据奖励函数单元计算得出奖励值,将奖励值和改变后的状态信息反馈给价值网络;
(4b3)价值网络模块根据环境模型模块反馈的奖励值和状态转移信息,进行价值网络的训练和更新;
(4b4)重复(4b1)-(4b3),直到基站协同缓存的深度强化学习模型达到收敛状态;
(4c)利用学习好的深度强化学习模型在宏基站处进行在线的基站协同缓存决策,其实现如下:
(4c1)根据实际的基站协同缓存过程,将用户的请求内容信息和基站缓存器中的信息输入给价值网络模块,在环境模型模块所提供的动作空间中,价值网络模块根据用户的请求内容信息和基站缓存器中的信息进行状态抽象,得到当前状态下的最优缓存动作;
(4c2)环境模型模块执行最优缓存动作,更新基站缓存器中的内容,等待下一时刻用户请求内容的到来完成状态转移,得到下一时刻用户的请求内容信息特征和基站缓存器中的信息特征,再根据奖励函数单元计算得出奖励值,将奖励值和改变后的状态信息反馈给价值网络模块;
(4c3)价值网络模块根据环境模型模块反馈的奖励值和状态转移信息,进行价值网络的训练和更新;
(4c4)重复(4c1)-(4c3),直到在线的基站协同缓存过程完成;
(5)宏基站从更新后的基站缓存器中检索用户A的请求内容在基站缓存器中的位置,宏基站向该位置所在的基站发送命令,让该基站将用户A的请求内容发送给为用户A提供服务的本地微基站,并由本地微基站将请求内容发送给用户A。
2.根据权利要求1所述的方法,其特征在于(4a22)中确定可供宏基站选择的动作空间,是在宏基站进行基站协同缓存时,所有可能的缓存动作:
若用户请求的内容在基站缓存器中,则在基站缓存器中找一个位置,将这个位置处的内容与基站缓存器中被用户请求的内容进行位置互换,或是保持基站缓存器的状态不变;
若用户请求的内容不在基站缓存器中,则在基站缓存器中找一个位置,将这个位置处的内容用被用户请求的内容替换掉,或是保持基站缓存器的状态不变。
3.根据权利要求1所述的方法,其特征在于(4a23)中奖励函数单元根据基站协同缓存的优化目标确定奖励函数,其实现如下:
设奖励函数包含:短期奖励函数
Figure FDA0003077751810000031
和长期奖励函数
Figure FDA0003077751810000032
其中s<l;
第一步,定义短期奖励函数如下:
Figure FDA0003077751810000033
其中,
Figure FDA0003077751810000034
表示从t时刻起的未来s个时刻,用户的请求内容在本地微基站缓存器中的命中率;
Figure FDA0003077751810000041
表示从t时刻起的未来s个时刻,用户的请求内容在临近微基站缓存器中的命中率;
Figure FDA0003077751810000042
表示从t时刻起的未来s个时刻,用户的请求内容在宏基站缓存器中的命中率;
式中,qi表示第i个优先级用户的系数,i∈{1,2,...,n},n表示优先级的个数;
Figure FDA0003077751810000043
表示从t时刻起的未来s个时刻,第i个优先级用户请求内容在本地微基站缓存器中的命中率;
Figure FDA0003077751810000044
表示从t时刻起的未来s个时刻,第i个优先级用户求内容在临近微基站缓存器中的命中率;
Figure FDA0003077751810000045
表示从t时刻起的未来s个时刻,第i个优先级用户请求内容在宏基站缓存器中的命中率;*表示乘法数学运算;wc表示在本地微基站中对应奖励函数的系数,wn表示在临近微基站中对应奖励函数的系数,wf表示在宏基站中对应奖励函数的系数,wc>wn>wf
第二步,定义长期奖励函数如下:
Figure FDA0003077751810000046
其中,
Figure FDA0003077751810000047
表示从t时刻起的未来l个时刻,用户的请求内容在本地微基站缓存器中的命中率;
Figure FDA0003077751810000048
表示从t时刻起的未来l个时刻,用户的请求内容在临近微基站缓存器中的命中率;
Figure FDA0003077751810000049
表示从t时刻起的未来l个时刻,用户的请求内容在宏基站缓存器中的命中率;
式中,
Figure FDA00030777518100000410
表示从t时刻起的未来l个时刻,第i个优先级用户请求内容在本地微基站缓存器中的命中率;
Figure FDA00030777518100000411
表示从t时刻起的未来l个时刻,第i个优先级用户请求内容在临近微基站缓存器中的命中率;
Figure FDA00030777518100000412
表示从t时刻起的未来l个时刻,第i个优先级用户请求内容在宏微基站缓存器中的命中率;
第三步,根据第一步的短期奖励函数和第二步的长期函数得到奖励函数rt
Figure FDA0003077751810000051
其中,w表示平衡短期奖励函数和长期奖励函数的系数。
4.根据权利要求3所述的方法,其特征在于第i个优先级用户请求内容在基站缓存器中的命中率,通过下式计算:
Figure FDA0003077751810000052
其中y∈{s,l},x∈{c,n,f},
Figure FDA0003077751810000053
Rji表示在j时刻第i个优先级用户的请求内容;Ct表示在t时刻x基站缓存器中缓存的内容;
当y=s,x=c时,表示计算从t时刻起的未来s个时刻,第i个优先级用户请求内容在本地微基站缓存器中的命中率
Figure FDA0003077751810000054
当y=s,x=n时,表示计算从t时刻起的未来s个时刻,第i个优先级用户请求内容在临近微基站缓存器中的命中率
Figure FDA0003077751810000055
当y=s,x=f时,表示计算从t时刻起的未来l个时刻,第i个优先级用户请求内容在宏基站缓存器中的命中率
Figure FDA0003077751810000056
当y=l,x=c时,表示计算从t时刻起的未来l个时刻,第i个优先级用户请求内容在本地微基站缓存器中的命中率
Figure FDA0003077751810000057
当y=l,x=n时,表示计算从t时刻起的未来l个时刻,第i个优先级用户请求内容在临近微基站缓存器中的命中率
Figure FDA0003077751810000058
当y=l,x=f时,表示计算从t时刻起的未来l个时刻,第i个优先级用户请求内容在宏微基站缓存器中的命中率
Figure FDA0003077751810000059
CN201910169065.1A 2019-03-06 2019-03-06 密集场景下面向用户优先级的基站协同缓存方法 Active CN109831806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910169065.1A CN109831806B (zh) 2019-03-06 2019-03-06 密集场景下面向用户优先级的基站协同缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910169065.1A CN109831806B (zh) 2019-03-06 2019-03-06 密集场景下面向用户优先级的基站协同缓存方法

Publications (2)

Publication Number Publication Date
CN109831806A CN109831806A (zh) 2019-05-31
CN109831806B true CN109831806B (zh) 2021-07-06

Family

ID=66865459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910169065.1A Active CN109831806B (zh) 2019-03-06 2019-03-06 密集场景下面向用户优先级的基站协同缓存方法

Country Status (1)

Country Link
CN (1) CN109831806B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111045445B (zh) * 2019-10-23 2023-11-28 浩亚信息科技有限公司 一种基于强化学习的飞行器智能避撞方法、设备、介质
CN112039943B (zh) * 2020-07-23 2021-11-26 中山大学 一种面向互联网场景差异化服务的负载均衡的边缘协作缓存方法
CN113094368B (zh) * 2021-04-13 2022-08-05 成都信息工程大学 一种提升缓存访问命中率的系统及方法
CN113126498A (zh) * 2021-04-17 2021-07-16 西北工业大学 基于分布式强化学习的优化控制系统和控制方法
US11750719B2 (en) 2021-10-06 2023-09-05 Samsung Electronics Co., Ltd. Method of performing communication load balancing with multi-teacher reinforcement learning, and an apparatus for the same

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108174395A (zh) * 2018-01-15 2018-06-15 南京邮电大学 基于转移动作评估学习框架的基站缓存管理方法及系统
CN108259628A (zh) * 2018-02-28 2018-07-06 重庆邮电大学 异构蜂窝网络中内容缓存与用户关联联合优化方法
CN108989099A (zh) * 2018-07-02 2018-12-11 北京邮电大学 基于软件定义天地一体化网络的联合资源分配方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104125609B (zh) * 2013-04-28 2018-04-06 国际商业机器公司 家庭基站系统及其数据访问处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108174395A (zh) * 2018-01-15 2018-06-15 南京邮电大学 基于转移动作评估学习框架的基站缓存管理方法及系统
CN108259628A (zh) * 2018-02-28 2018-07-06 重庆邮电大学 异构蜂窝网络中内容缓存与用户关联联合优化方法
CN108989099A (zh) * 2018-07-02 2018-12-11 北京邮电大学 基于软件定义天地一体化网络的联合资源分配方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Cross-Layer Cooperative Caching for Software-Defined Radio Access Networks;Qiang Li,Wennian Shi,Tao Zhang,Tao Chen,Tao Han,Jing Zhang;《2017 IEEE/CIC International Conference on Communications in China (ICCC)》;20180405;第1节-第5节 *
Joint User Scheduling and Content Caching Strategy for Mobile Edge Networks Using Deep Reinforcement Learning;Yifei Wei,Zhiqiang Zhang,F. Richard Yu,Zhu Han;《2018 IEEE International Conference on Communications Workshops (ICC Workshops)》;20180705;第1节-第5节 *

Also Published As

Publication number Publication date
CN109831806A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109831806B (zh) 密集场景下面向用户优先级的基站协同缓存方法
Wang et al. Federated deep reinforcement learning for Internet of Things with decentralized cooperative edge caching
CN108093435B (zh) 基于缓存流行内容的蜂窝下行链路网络能效优化系统及方法
CN108848395B (zh) 基于果蝇优化算法的边缘协作缓存布置方法
CN114595632A (zh) 一种基于联邦学习的移动边缘缓存优化方法
CN106888257A (zh) 无线通信中雾节点的存储资源分配方法
Yin et al. QoS-oriented dynamic power allocation in NOMA-based wireless caching networks
CN106550039B (zh) 一种基于sd‑ran的跨层协作内容缓存方法及系统
Li et al. Deep reinforcement learning for cooperative edge caching in future mobile networks
CN101411229A (zh) 电信系统和方法
Huang et al. Delay-aware caching in internet-of-vehicles networks
WO2023159986A1 (zh) 一种分层网络体系结构中的协作缓存方法
CN107872478A (zh) 一种内容缓存方法、装置和系统
CN113282786B (zh) 一种基于深度强化学习的全景视频边缘协作缓存替换方法
CN112689163A (zh) 一种基于sdn和网内缓存的视频服务传输系统和方法
CN111698732B (zh) 微蜂窝无线网中面向时延的协作缓存优化方法
CN113543071A (zh) 一种车联网环境下异构节点协作边缘缓存方法
CN113810931A (zh) 一种面向移动边缘计算网络的自适应视频缓存方法
CN115720237A (zh) 边缘网络自适应比特率视频的缓存和资源调度方法
CN109951317B (zh) 一种基于用户驱动的流行度感知模型的缓存替换方法
CN102497389B (zh) 一种iptv 中基于大雨伞缓存算法的流媒体协作缓存管理方法及系统
Wang et al. Deep reinforcement learning for caching placement and content delivery in UAV NOMA networks
CN113395333B (zh) 基于智能体深度增强学习的多边缘基站联合缓存替换方法
Li et al. User dynamics-aware edge caching and computing for mobile virtual reality
CN111447506B (zh) 云边环境下基于延迟和成本均衡的流媒体内容放置方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant