CN107277159B - 一种基于机器学习的超密集网络小站缓存方法 - Google Patents

一种基于机器学习的超密集网络小站缓存方法 Download PDF

Info

Publication number
CN107277159B
CN107277159B CN201710555316.0A CN201710555316A CN107277159B CN 107277159 B CN107277159 B CN 107277159B CN 201710555316 A CN201710555316 A CN 201710555316A CN 107277159 B CN107277159 B CN 107277159B
Authority
CN
China
Prior art keywords
file
matrix
vector
files
caching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710555316.0A
Other languages
English (en)
Other versions
CN107277159A (zh
Inventor
潘志文
高深
刘楠
尤肖虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
White Box Shanghai Microelectronics Technology Co ltd
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201710555316.0A priority Critical patent/CN107277159B/zh
Publication of CN107277159A publication Critical patent/CN107277159A/zh
Application granted granted Critical
Publication of CN107277159B publication Critical patent/CN107277159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于机器学习的超密集网络小站缓存方法,首先在非高峰访问期引入K均值聚类方法分析历史访问数据,挖掘文件请求的空时模式,根据小站服务用户的文件偏好进行聚类,找出小站内流行的文件,实现类间的个性化缓存与类内的预测性缓存,同时利用历史访问数据与聚类结果构建用于新文件分类的训练集;然后在高峰访问期引入k近邻分类方法周期性地对不断出现的新文件进行分类,并缓存在偏好这类文件的小站类内;最后结合各类小站内历史流行文件与不断出现的新文件制定实时更新的缓存策略。本发明基于机器学习制定缓存策略,能充分利用小站有限的缓存空间存储小站所服务人群最需要的文件,显著降低系统回程链路负载,极大提升用户满意度。

Description

一种基于机器学习的超密集网络小站缓存方法
技术领域
本发明属于网络通信技术领域,涉及基站缓存方法,更为具体的说,是涉及无线通信系统中一种基于机器学习的超密集网络小站缓存方法。
背景技术
5G(the fifth generation)网络中移动通信量猛增,给移动网络运营商带来极大的挑战。在宏站覆盖范围内同频密集部署小站的超密集网络技术作为5G的候选技术之一,可有效提升频谱效率和系统吞吐量。超密集网络中小站常部署在一些难以抵达的位置,这给连接小站与核心网的光纤回程链路的安装带来了困难,为解决这个问题,无线回程技术应运而生。然而无线频谱资源是有限的,从大站卸载到超密集小站的海量移动通信量会给无线回程链路带来巨大压力。一种有效的回程链路通信量卸载技术是通过在小站预存文件来降低无线回程链路负载,进而提升用户体验。然而小站的缓存空间是有限的,为了更有效地缓存,要按照精心设计的缓存策略来选取更准确的文件缓存。
现有的缓存技术多是基于传统的优化算法来制定缓存策略的,而这些工作往往基于很强的假设,导致缓存策略难以适用于实际系统。而且,这些缓存策略一般根据历史访问数据制定,考虑到网络中在高峰访问期不断有新的文件会被大量访问,只根据从历史访问数据中得到的模式制定缓存策略,不能有效利用有限的缓存空间。
发明内容
为解决上述问题,本发明公开了一种基于机器学习的超密集网络小站缓存方法,以最小化系统回程链路负载为目标,在小站缓存文件总大小不超过小站缓存空间的前提下,基于K均值聚类和k近邻分类,通过机器学习识别文件请求中的模式,并根据挖掘到的模式制定小站缓存策略。
本发明对核心网端口的海量数据加以利用,充分挖掘隐藏在数据中的模式并用于制定缓存策略,可获得潜在的增益,显著降低无线回程链路负载,提升用户满意度,且这种完全基于数据的分析不需要任何不切实际的假设。机器学习是对数据进行分析和挖掘的主要工具,可用于提取核心网端口文件请求模式。由于不同地理位置的小站服务的人群有相似性也有差异性,导致文件访问在空间上存在着潜在的模式。同时,文件访问在相邻的请求时间段之间也存在着关联,即文件请求也存在着时间模式。此外,在网络的高峰访问期不断有新的文件会被大量访问。
基于此,本方法首先在非高峰访问期引入K均值聚类方法分析历史访问数据,挖掘文件请求的空时模式,根据小站所服务用户的文件偏好对小站进行聚类,找出各类小站内流行的文件,实现类间的个性化缓存与类内的预测性缓存,同时利用历史访问数据与聚类结果构建用于新文件分类的训练集;然后,在高峰访问期引入k近邻分类方法周期性地对不断出现的新文件进行分类,并缓存在偏好这类文件的小站类内;最后结合各类小站内历史流行文件与不断出现的新文件制定实时更新的缓存策略,显著降低系统回程链路负载,极大提升用户满意度。
为了达到上述目的,本发明提供如下技术方案:
基于机器学习的超密集网络小站缓存方法,包括如下步骤:
步骤1:采集网络信息及历史文件请求记录,设置参数:
采集网络中宏站集合
Figure BDA0001345566660000021
小站集合
Figure BDA0001345566660000022
历史请求文件集合
Figure BDA0001345566660000023
对应的各文件大小记为向量s=[s1,s2,...,sC],第(l-2)天的(t-τ,t]时间间隔内P个小站对C个文件的请求次数记为矩阵
Figure BDA00013455666600000215
代表实数,第(l-1)天的(t-τ,t]时间间隔内P个小站对C个文件的请求次数记为矩阵
Figure BDA0001345566660000026
其中,l代表日期标号,以天为单位,时间间隔τ为高峰访问期T的时长,t为高峰访问期的结束时刻;获得小站缓存空间S;运营商根据超密集网络中的小站数目设置小站聚类数目最大值Kmax;历史请求文件阈值δc
Figure BDA0001345566660000027
设置为第c个文件的总请求次数除以小站的数目;类缓存文件阈值
Figure BDA0001345566660000028
Figure BDA0001345566660000029
设置为第j类的小站数目除以2,K是类的个数;训练集大小Dtrain由文件数目C和文件请求次数矩阵Al-2(t,τ)共同确定;
步骤2:利用K均值聚类分析文件请求次数矩阵Al-2(t,τ),对小站进行聚类,挖掘文件请求中的空间模式:
步骤3:把文件请求次数矩阵Al-2(t,τ)转换为由元素0和1组成的文件请求指示矩阵
Figure BDA00013455666600000210
Figure BDA00013455666600000211
其中[·]pc代表矩阵的第p行第c列的元素,
Figure BDA00013455666600000212
代表指示函数,当花括号内的条件满足时,函数值为1,否则为0;
步骤4:通过选取集合Ωj
Figure BDA00013455666600000213
所指示的矩阵
Figure BDA00013455666600000214
的对应行生成第j类小站的文件请求指示矩阵
Figure BDA0001345566660000031
步骤5:根据文件请求指示矩阵
Figure BDA0001345566660000032
以及对应的类缓存文件阈值
Figure BDA0001345566660000033
选取各类小站偏好的文件优先缓存:
Figure BDA0001345566660000034
如果
Figure BDA0001345566660000035
则把c归为该类小站偏好的文件并存入向量
Figure BDA0001345566660000036
否则,存入向量
Figure BDA0001345566660000037
Figure BDA0001345566660000038
Figure BDA0001345566660000039
组成历史文件缓存顺序向量
Figure BDA00013455666600000310
步骤6:在不超过小站缓存空间S的前提下,结合历史文件缓存顺序向量
Figure BDA00013455666600000311
与文件大小向量s=[s1,s2,...,sC]进行文件缓存;定义元素全0的缓存决策矩阵XK(t),如果小站p缓存了文件c,则矩阵元素[XK(t)]pc=1;
步骤7:根据公式(5)计算第(l-1)天的系统回程链路负载:
Figure BDA00013455666600000312
其中
Figure BDA00013455666600000313
代表哈达玛乘积,向量f的第c个元素为
Figure BDA00013455666600000314
1是元素全为1的矩阵,向量g的第c个元素为
Figure BDA00013455666600000315
步骤8:利用从第(l-2)天文件请求次数矩阵Al-2(t,τ)中得到的缓存决策矩阵XK(t)及第(l-1)天文件请求次数矩阵Al-1(t,τ)挖掘文件请求中的时间模式,设置K=K+1,比较K和小站聚类数目最大值Kmax,若K<Kmax,则回到步骤2;否则,进行第步骤9;
步骤9:选取使公式(5)系统回程链路负载最小的聚类个数K,记录此聚类情况下的历史文件缓存顺序向量
Figure BDA00013455666600000316
步骤10:基于步骤3得到的文件请求指示矩阵
Figure BDA00013455666600000317
与步骤9历史文件缓存顺序向量中的
Figure BDA00013455666600000318
创建用来分类新文件的训练集
Figure BDA00013455666600000319
Figure BDA00013455666600000320
其中列向量
Figure BDA00013455666600000321
是矩阵
Figure BDA00013455666600000322
的第c列,表示P个小站对第c个文件的请求次数,yc∈{1,2,...,Y}是给第c个文件添加的类别,
Figure BDA0001345566660000041
C代表组合数,类别yc通过查找缓存顺序向量
Figure BDA0001345566660000042
中是否存在文件c来添加;
步骤11:设置第l天的采集新文件起始时刻t为高峰访问期起始时刻加上τ′,τ′为采集文件时间间隔;
步骤12:采集第l天的(t-τ′,t]时间间隔内的新文件请求记录,新文件集合为
Figure BDA0001345566660000043
对应的各文件大小记为向量s=[s1,s2,...,sC′],P个小站对新出现的C′个文件的请求次数矩阵记为
Figure BDA0001345566660000044
新请求文件阈值ρi
Figure BDA0001345566660000045
设置为第i个文件的总请求次数除以小站的数目;采用交叉验证法来选取最近邻的个数k;
步骤13:把新文件请求次数矩阵Al(t,τ′)转换为由元素0和1组成的新文件请求指示矩阵
Figure BDA0001345566660000046
Figure BDA0001345566660000047
步骤14:矩阵
Figure BDA0001345566660000048
的第i列是P个小站对第i个新文件的请求次数列向量,记为
Figure BDA0001345566660000049
Figure BDA00013455666600000410
利用k近邻分类新请求的文件:
步骤15:根据新文件类别yi
Figure BDA00013455666600000411
把新文件以标号(i+Ctotal)添加到相应的文件缓存顺序向量
Figure BDA00013455666600000412
中,Ctotal为在步骤9得到的小站偏好文件缓存顺序向量
Figure BDA00013455666600000413
中的文件数与第l天高峰访问期时刻(t-τ′)之前请求的新文件数之和;
步骤16:联合考虑历史受欢迎文件与新请求文件产生新的文件缓存顺序向量
Figure BDA00013455666600000414
步骤17:在不超过小站缓存空间S的前提下,结合
Figure BDA00013455666600000415
与文件大小向量s=[s1,s2,...,sC′]进行文件缓存;
步骤18:如还在高峰访问期,每隔一段时间间隔τ′,在t=t+τ′时刻执行步骤12到步骤17更新缓存的文件;如高峰访问期结束,进行第步骤19;
步骤19:停止执行。
进一步的,所述步骤2具体包括:
步骤2-1,初始化K个类的初始质心
Figure BDA00013455666600000416
uj为任意取值的C维行向量,小站聚类个数K的初始值设为2,设置初始代价函数E0=0;
步骤2-2,矩阵Al-2(t,τ)的第p行是第p个小站对C个文件的请求次数行向量,记为
Figure BDA0001345566660000051
将各行向量指派到最近的质心:
Figure BDA0001345566660000052
其中ξp是行向量
Figure BDA0001345566660000053
的类索引,||·||2代表2范数,聚成的K个类集合记为
Figure BDA0001345566660000054
步骤2-3,重新计算各类的质心
Figure BDA0001345566660000055
Figure BDA0001345566660000056
其中|·|代表集合的大小;
步骤2-4,计算代价函数EK
Figure BDA0001345566660000057
步骤2-5,比较EK和E0,如果-10-5≤EK-E0≤10-5,则设置E0=EK,回到2;否则,记录小站聚类结果Ωj
Figure BDA0001345566660000058
进行步骤3。
进一步的,所述步骤1到步骤10在非高峰访问期执行。
进一步的,所述步骤11中采集文件时间间隔设置为0.5小时。
进一步的,所述步骤14中利用k近邻分类新请求的文件过程包括:
步骤14-1,根据公式(8)给定的欧氏距离度量,在公式(6)所示的训练集
Figure BDA0001345566660000059
中找出与
Figure BDA00013455666600000510
最近邻的k个点,放入集合
Figure BDA00013455666600000511
中:
Figure BDA00013455666600000512
步骤14-2,在
Figure BDA00013455666600000513
中根据多数表决的决策规则决定
Figure BDA00013455666600000514
的类别yi
Figure BDA00013455666600000515
与现有技术相比,本发明具有如下优点和有益效果:
通过采集核心网的真实文件请求记录,从数据本身挖掘文件请求模式,用于制定缓存策略,不需要任何不切实际的假设,能很好地适用于实际系统,且能带来传统方法无可比拟的性能增益,显著降低系统回程链路负载,大幅度提升用户满意度。该方法在非高峰访问期,基于K均值聚类方法深入挖掘历史文件请求记录中的空时模式,把文件请求作为特征,对小站进行聚类,找出并存储每类小站偏好的文件,构建用于新文件分类的训练集;在高峰访问期,基于k近邻分类方法周期性地采集并分类网络中新请求的文件,根据分类结果不断地将新文件存储在相应的小站中。本发明提出的方法基于机器学习制定缓存策略,各类小站联合存储类内的历史流行文件与本类小站偏好的新文件,能充分利用小站有限的缓存空间存储小站所服务人群最需要的文件,可显著降低系统回程链路负载,极大提升用户满意度。
附图说明
图1为本发明提供的基于机器学习的超密集网络小站缓存方法流程图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提供的基于机器学习的超密集网络小站缓存方法,如图1所示,包括如下步骤:
步骤1:采集网络信息及历史文件请求记录,设置参数:
采集网络中宏站集合
Figure BDA0001345566660000061
小站集合
Figure BDA0001345566660000062
历史请求文件集合
Figure BDA0001345566660000063
对应的各文件大小记为向量s=[s1,s2,...,sC],第(l-2)天的(t-τ,t]时间间隔内P个小站对C个文件的请求次数记为矩阵
Figure BDA00013455666600000611
代表实数,第(l-1)天的(t-τ,t]时间间隔内P个小站对C个文件的请求次数记为矩阵
Figure BDA0001345566660000066
其中,l代表日期标号,以天为单位,第(l-1)天是第l天的前一天,第(l-2)天是第(l-1)天的前一天,时间间隔τ设置为高峰访问期T的时长,高峰访问期T由运营商根据网络运行情况自行确定,例如T取为8:00~19:00,t为高峰访问期的结束时刻;获得小站缓存空间S,S由运营商根据网络运行情况和硬件成本自行确定;运营商根据超密集网络中的小站数目自行设置小站聚类数目最大值Kmax;历史请求文件阈值δc
Figure BDA0001345566660000067
设置为第c个文件的总请求次数除以小站的数目;类缓存文件阈值
Figure BDA00013455666600000612
设置为第j类的小站数目除以2,K是类的个数;训练集大小Dtrain由文件数目C和文件请求次数矩阵Al-2(t,τ)共同确定;
步骤2:利用K均值聚类分析文件请求次数矩阵Al-2(t,τ),对小站进行聚类,挖掘文件请求中的空间模式:
1.初始化K个类的初始质心
Figure BDA00013455666600000610
uj为任意取值的C维行向量,C是历史请求文件的个数,小站聚类个数K的初始值设为2,设置初始代价函数E0=0;
2.矩阵Al-2(t,τ)的第p行是第p个小站对C个文件的请求次数行向量,记为
Figure BDA0001345566660000071
Figure BDA0001345566660000072
将各行向量指派到最近的质心:
Figure BDA0001345566660000073
其中ξp是行向量的类索引,||·||2代表2范数,聚成的K个类集合记为
Figure BDA0001345566660000075
3.重新计算各类的质心
Figure BDA0001345566660000076
Figure BDA0001345566660000077
其中|·|代表集合的大小;
4.计算代价函数EK
Figure BDA0001345566660000078
5.比较EK和E0,如果-10-5≤EK-E0≤10-5,则设置E0=EK,回到2;否则,记录小站聚类结果Ωj
Figure BDA0001345566660000079
进行步骤3;
步骤3:把文件请求次数矩阵Al-2(t,τ)转换为由元素0和1组成的文件请求指示矩阵
Figure BDA00013455666600000710
Figure BDA00013455666600000711
其中[·]pc代表矩阵的第p行第c列的元素,
Figure BDA00013455666600000712
代表指示函数,当花括号内的条件满足时,函数值为1,否则为0;
步骤4:通过选取集合Ωj
Figure BDA00013455666600000713
所指示的矩阵
Figure BDA00013455666600000714
的对应行生成第j类小站的文件请求指示矩阵
Figure BDA00013455666600000715
步骤5:根据文件请求指示矩阵
Figure BDA00013455666600000716
以及对应的类缓存文件阈值
Figure BDA00013455666600000717
选取各类小站偏好的文件优先缓存:
Figure BDA00013455666600000718
如果
Figure BDA00013455666600000719
则把c归为该类小站偏好的文件并存入向量
Figure BDA00013455666600000720
否则,存入向量
Figure BDA0001345566660000081
Figure BDA0001345566660000082
Figure BDA0001345566660000083
组成历史文件缓存顺序向量
Figure BDA0001345566660000084
步骤6:在不超过小站缓存空间S的前提下,结合历史文件缓存顺序向量
Figure BDA0001345566660000085
与文件大小向量s=[s1,s2,...,sC]进行文件缓存;定义元素全0的缓存决策矩阵XK(t),如果小站p缓存了文件c,则矩阵元素[XK(t)]pc=1;
步骤7:根据公式(5)计算第(l-1)天的系统回程链路负载:
Figure BDA0001345566660000086
其中
Figure BDA0001345566660000087
代表哈达玛乘积,向量f的第c个元素为
Figure BDA0001345566660000088
1是元素全为1的矩阵,向量g的第c个元素为
Figure BDA0001345566660000089
步骤8:利用从第(l-2)天文件请求次数矩阵Al-2(t,τ)中得到的缓存决策矩阵XK(t)及第(l-1)天文件请求次数矩阵Al-1(t,τ)挖掘文件请求中的时间模式,设置K=K+1,比较K和小站聚类数目最大值Kmax,若K<Kmax,则回到步骤2;否则,进行第步骤9;
步骤9:选取使公式(5)系统回程链路负载最小的聚类个数K,记录此聚类情况下的历史文件缓存顺序向量
Figure BDA00013455666600000810
步骤10:基于步骤3得到的文件请求指示矩阵
Figure BDA00013455666600000811
与步骤9历史文件缓存顺序向量中的
Figure BDA00013455666600000812
创建用来分类新文件的训练集
Figure BDA00013455666600000813
Figure BDA00013455666600000814
其中列向量
Figure BDA00013455666600000815
是矩阵
Figure BDA00013455666600000816
的第c列,表示P个小站对第c个文件的请求次数,yc∈{1,2,...,Y}是给第c个文件添加的类别,
Figure BDA00013455666600000817
C代表组合数,类别yc通过查找缓存顺序向量
Figure BDA00013455666600000818
中是否存在文件c来添加;
注:步骤1到步骤10在非高峰访问期执行;旨在从历史文件请求记录中挖掘小站中文件请求的空时模式,作出关于历史受欢迎文件(即偏好文件)的缓存决策;同时用历史数据构建训练集,用来对将会在高峰访问期新请求的文件进行分类缓存;
步骤11:设置第l天的采集新文件起始时刻t为高峰访问期起始时刻加上τ′,τ′为采集文件时间间隔,设置为0.5小时;
步骤12:采集第l天的(t-τ′,t]时间间隔内的新文件请求记录,新文件集合为
Figure BDA0001345566660000091
对应的各文件大小记为向量s=[s1,s2,...,sC′],P个小站对新出现的C′个文件的请求次数矩阵记为
Figure BDA0001345566660000092
新请求文件阈值ρi
Figure BDA0001345566660000093
设置为第i个文件的总请求次数除以小站的数目;采用交叉验证法来选取最近邻的个数k;
步骤13:把新文件请求次数矩阵Al(t,τ′)转换为由元素0和1组成的新文件请求指示矩阵
Figure BDA0001345566660000094
Figure BDA0001345566660000095
步骤14:矩阵
Figure BDA0001345566660000096
的第i列是P个小站对第i个新文件的请求次数列向量,记为
Figure BDA0001345566660000097
Figure BDA0001345566660000098
利用k近邻分类新请求的文件:
1.根据公式(8)给定的欧氏距离度量,在公式(6)所示的训练集
Figure BDA0001345566660000099
中找出与
Figure BDA00013455666600000910
最近邻的k个点,放入集合
Figure BDA00013455666600000911
中:
Figure BDA00013455666600000912
2.在
Figure BDA00013455666600000913
中根据多数表决的决策规则决定
Figure BDA00013455666600000914
的类别yi
Figure BDA00013455666600000915
步骤15:根据新文件类别yi
Figure BDA00013455666600000916
把新文件以标号(i+Ctotal)添加到相应的文件缓存顺序向量
Figure BDA00013455666600000917
中,Ctotal为在步骤9得到的小站偏好文件缓存顺序向量
Figure BDA00013455666600000918
中的文件数与第l天高峰访问期时刻(t-τ′)之前请求的新文件数之和;
步骤16:联合考虑历史受欢迎文件与新请求文件产生新的文件缓存顺序向量
Figure BDA00013455666600000919
步骤17:在不超过小站缓存空间S的前提下,结合
Figure BDA00013455666600000920
与文件大小向量s=[s1,s2,...,sC′]进行文件缓存;
步骤18:如还在高峰访问期,每隔一段时间间隔τ′,在t=t+τ′时刻执行步骤12到步骤17更新缓存的文件;如高峰访问期结束,进行第步骤19;
步骤19:停止执行。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (5)

1.基于机器学习的超密集网络小站缓存方法,其特征在于,包括如下步骤:
步骤1:采集网络信息及历史文件请求记录,设置参数:
采集网络中宏站集合
Figure FDA0002381031400000011
小站集合
Figure FDA0002381031400000012
历史请求文件集合
Figure FDA0002381031400000013
对应的各文件大小记为向量s=[s1,s2,...,sC],第(l-2)天的(t-τ,t]时间间隔内P个小站对C个文件的请求次数记为矩阵
Figure FDA0002381031400000014
第(l-1)天的(t-τ,t]时间间隔内P个小站对C个文件的请求次数记为矩阵
Figure FDA0002381031400000015
Figure FDA0002381031400000016
代表实数,其中,l代表日期标号,以天为单位,时间间隔τ为高峰访问期T的时长,t为高峰访问期的结束时刻;获得小站缓存空间S;运营商根据超密集网络中的小站数目设置小站聚类数目最大值Kmax;历史请求文件阈值δc
Figure FDA0002381031400000017
设置为第c个文件的总请求次数除以小站的数目;类缓存文件阈值
Figure FDA0002381031400000018
Figure FDA0002381031400000019
设置为第j类的小站数目除以2,K是类的个数;训练集大小Dtrain由文件数目C和文件请求次数矩阵Al-2(t,τ)共同确定;
步骤2:利用K均值聚类分析文件请求次数矩阵Al-2(t,τ),对小站进行聚类,挖掘文件请求中的空间模式:
步骤3:把文件请求次数矩阵Al-2(t,τ)转换为由元素0和1组成的文件请求指示矩阵
Figure FDA00023810314000000110
Figure FDA00023810314000000111
其中[·]pc代表矩阵的第p行第c列的元素,1{·}代表指示函数,当花括号内的条件满足时,函数值为1,否则为0;
步骤4:通过选取集合Ωj
Figure FDA00023810314000000112
所指示的矩阵
Figure FDA00023810314000000113
的对应行生成第j类小站的文件请求指示矩阵
Figure FDA00023810314000000114
步骤5:根据文件请求指示矩阵
Figure FDA00023810314000000115
以及对应的类缓存文件阈值
Figure FDA00023810314000000116
选取各类小站偏好的文件优先缓存:
Figure FDA00023810314000000117
如果
Figure FDA00023810314000000118
则把c归为该类小站偏好的文件并存入向量
Figure FDA00023810314000000119
否则,存入向量
Figure FDA00023810314000000120
Figure FDA00023810314000000121
Figure FDA00023810314000000122
组成历史文件缓存顺序向量
Figure FDA0002381031400000021
步骤6:在不超过小站缓存空间S的前提下,结合历史文件缓存顺序向量
Figure FDA0002381031400000022
与文件大小向量s=[s1,s2,...,sC]进行文件缓存;定义元素全0的缓存决策矩阵XK(t),如果小站p缓存了文件c,则矩阵元素[XK(t)]pc=1;
步骤7:根据公式(5)计算第(l-1)天的系统回程链路负载:
Figure FDA0002381031400000023
其中⊙代表哈达玛乘积,向量f的第c个元素为
Figure FDA0002381031400000024
1是元素全为1的矩阵,向量g的第c个元素为
Figure FDA0002381031400000025
步骤8:利用从第(l-2)天文件请求次数矩阵Al-2(t,τ)中得到的缓存决策矩阵XK(t)及第(l-1)天文件请求次数矩阵Al-1(t,τ)挖掘文件请求中的时间模式,设置K=K+1,比较K和小站聚类数目最大值Kmax,若K<Kmax,则回到步骤2;否则,进行第步骤9;
步骤9:选取使公式(5)系统回程链路负载最小的聚类个数K,记录此聚类情况下的历史文件缓存顺序向量
Figure FDA0002381031400000026
步骤10:基于步骤3得到的文件请求指示矩阵
Figure FDA0002381031400000027
与步骤9历史文件缓存顺序向量中的
Figure FDA0002381031400000028
Figure FDA0002381031400000029
创建用来分类新文件的训练集
Figure FDA00023810314000000210
Figure FDA00023810314000000211
其中列向量
Figure FDA00023810314000000212
c∈{1,2,...,Dtrain}是矩阵
Figure FDA00023810314000000213
的第c列,表示P个小站对第c个文件的请求次数,yc∈{1,2,...,Y}是给第c个文件添加的类别,
Figure FDA00023810314000000214
C代表组合数,类别yc通过查找缓存顺序向量
Figure FDA00023810314000000215
中是否存在文件c来添加;
步骤11:设置第l天的采集新文件起始时刻t为高峰访问期起始时刻加上τ′,τ′为采集文件时间间隔;
步骤12:采集第l天的(t-τ′,t]时间间隔内的新文件请求记录,新文件集合为
Figure FDA0002381031400000031
对应的各文件大小记为向量s=[s1,s2,...,sC′],P个小站对新出现的C′个文件的请求次数矩阵记为
Figure FDA0002381031400000032
新请求文件阈值ρi
Figure FDA0002381031400000033
设置为第i个文件的总请求次数除以小站的数目;采用交叉验证法来选取最近邻的个数k;
步骤13:把新文件请求次数矩阵Al(t,τ′)转换为由元素0和1组成的新文件请求指示矩阵
Figure FDA0002381031400000034
Figure FDA0002381031400000035
步骤14:矩阵
Figure FDA0002381031400000036
的第i列是P个小站对第i个新文件的请求次数列向量,记为
Figure FDA0002381031400000037
Figure FDA0002381031400000038
利用k近邻分类新请求的文件:
步骤15:根据新文件类别yi
Figure FDA0002381031400000039
把新文件以标号(i+Ctotal)添加到相应的文件缓存顺序向量
Figure FDA00023810314000000310
中,Ctotal为在步骤9得到的小站偏好文件缓存顺序向量
Figure FDA00023810314000000311
中的文件数与第l天高峰访问期时刻(t-τ′)之前请求的新文件数之和;
步骤16:联合考虑历史受欢迎文件与新请求文件产生新的文件缓存顺序向量
Figure FDA00023810314000000312
步骤17:在不超过小站缓存空间S的前提下,结合
Figure FDA00023810314000000313
Figure FDA00023810314000000314
与文件大小向量s=[s1,s2,...,sC′]进行文件缓存;
步骤18:如还在高峰访问期,每隔一段时间间隔τ′,在t=t+τ′时刻执行步骤12到步骤17更新缓存的文件;如高峰访问期结束,进行第步骤19;
步骤19:停止执行。
2.根据权利要求1所述的基于机器学习的超密集网络小站缓存方法,其特征在于,所述步骤2具体包括:
步骤2-1,初始化K个类的初始质心
Figure FDA00023810314000000315
uj为任意取值的C维行向量,小站聚类个数K的初始值设为2,设置初始代价函数E0=0;
步骤2-2,矩阵Al-2(t,τ)的第p行是第p个小站对C个文件的请求次数行向量,记为
Figure FDA00023810314000000316
将各行向量指派到最近的质心:
Figure FDA0002381031400000041
其中ξp是行向量
Figure FDA0002381031400000042
的类索引,||·||2代表2范数,聚成的K个类集合记为
Figure FDA0002381031400000043
步骤2-3,重新计算各类的质心
Figure FDA0002381031400000044
Figure FDA0002381031400000045
其中|·|代表集合的大小;
步骤2-4,计算代价函数EK
Figure FDA0002381031400000046
步骤2-5,比较EK和E0,如果-10-5≤EK-E0≤10-5,则设置E0=EK,回到步骤2-2;否则,记录小站聚类结果Ωj
Figure FDA0002381031400000047
进行步骤3。
3.根据权利要求1所述的基于机器学习的超密集网络小站缓存方法,其特征在于:所述步骤1到步骤10在非高峰访问期执行。
4.根据权利要求1所述的基于机器学习的超密集网络小站缓存方法,其特征在于:所述步骤11中采集文件时间间隔设置为0.5小时。
5.根据权利要求1所述的基于机器学习的超密集网络小站缓存方法,其特征在于,所述步骤14中利用k近邻分类新请求的文件过程包括:
步骤14-1,根据公式(8)给定的欧氏距离度量,在公式(6)所示的训练集
Figure FDA0002381031400000048
中找出与
Figure FDA0002381031400000049
最近邻的k个点,放入集合
Figure FDA00023810314000000410
中:
Figure FDA00023810314000000411
步骤14-2,在
Figure FDA00023810314000000412
中根据多数表决的决策规则决定
Figure FDA00023810314000000413
的类别yi
Figure FDA00023810314000000414
CN201710555316.0A 2017-07-10 2017-07-10 一种基于机器学习的超密集网络小站缓存方法 Active CN107277159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710555316.0A CN107277159B (zh) 2017-07-10 2017-07-10 一种基于机器学习的超密集网络小站缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710555316.0A CN107277159B (zh) 2017-07-10 2017-07-10 一种基于机器学习的超密集网络小站缓存方法

Publications (2)

Publication Number Publication Date
CN107277159A CN107277159A (zh) 2017-10-20
CN107277159B true CN107277159B (zh) 2020-05-08

Family

ID=60072340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710555316.0A Active CN107277159B (zh) 2017-07-10 2017-07-10 一种基于机器学习的超密集网络小站缓存方法

Country Status (1)

Country Link
CN (1) CN107277159B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446340B (zh) * 2018-03-02 2019-11-05 哈尔滨工业大学(威海) 一种面向海量小文件的用户热点数据访问预测方法
CN108600365B (zh) * 2018-04-20 2020-05-22 西安交通大学 一种基于排序学习的无线异构网络缓存方法
CN110445825B (zh) * 2018-05-04 2021-09-10 东南大学 基于强化学习的超密集网络小站编码协作缓存方法
CN110879852B (zh) * 2018-09-05 2022-06-21 南京大学 一种视频内容缓存方法
CN111860595A (zh) * 2020-06-17 2020-10-30 南京邮电大学 一种基于用户偏好预测的异构网络缓存决策方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106230888A (zh) * 2016-07-16 2016-12-14 柳州健科技有限公司 具有自学习功能的局域网络数据服务系统
CN106296305A (zh) * 2016-08-23 2017-01-04 上海海事大学 大数据环境下的电商网站实时推荐系统与方法
CN106503238A (zh) * 2016-11-07 2017-03-15 王昱淇 一种强化学习驱动的网络地图区域聚类预取方法
WO2017066393A1 (en) * 2015-10-13 2017-04-20 Home Box Office, Inc. Resource response expansion
CN106844740A (zh) * 2017-02-14 2017-06-13 华南师范大学 基于内存对象缓存系统的数据预读方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017066393A1 (en) * 2015-10-13 2017-04-20 Home Box Office, Inc. Resource response expansion
CN106230888A (zh) * 2016-07-16 2016-12-14 柳州健科技有限公司 具有自学习功能的局域网络数据服务系统
CN106296305A (zh) * 2016-08-23 2017-01-04 上海海事大学 大数据环境下的电商网站实时推荐系统与方法
CN106503238A (zh) * 2016-11-07 2017-03-15 王昱淇 一种强化学习驱动的网络地图区域聚类预取方法
CN106844740A (zh) * 2017-02-14 2017-06-13 华南师范大学 基于内存对象缓存系统的数据预读方法

Also Published As

Publication number Publication date
CN107277159A (zh) 2017-10-20

Similar Documents

Publication Publication Date Title
CN107277159B (zh) 一种基于机器学习的超密集网络小站缓存方法
Jiang et al. User preference learning-based edge caching for fog radio access network
Zhang et al. Dual attention-based federated learning for wireless traffic prediction
Wang et al. Machine learning for 5G and beyond: From model-based to data-driven mobile wireless networks
Wang et al. A machine learning framework for resource allocation assisted by cloud computing
Xia et al. Federated-learning-based client scheduling for low-latency wireless communications
Hammami et al. Network planning tool based on network classification and load prediction
CN112801411B (zh) 一种基于生成对抗网络的网络流量预测方法
CN111629052A (zh) 基于mec的内容缓存方法、节点、设备及存储介质
Liu et al. Intelligent mobile edge caching for popular contents in vehicular cloud toward 6G
CN114997737A (zh) 基于分层联邦学习的无人机小基站集群ran切片方法
Wu et al. Unsupervised deep transfer learning for fault diagnosis in fog radio access networks
Chan et al. Big data driven predictive caching at the wireless edge
Xu et al. PSARE: A RL-Based Online Participant Selection Scheme Incorporating Area Coverage Ratio and Degree in Mobile Crowdsensing
CN108600365B (zh) 一种基于排序学习的无线异构网络缓存方法
Wang et al. Extracting cell patterns from high-dimensional radio network performance datasets using self-organizing maps and K-means clustering
CN111818542B (zh) 一种基于大数据挖掘的网络重叠覆盖优化方法
Hajri et al. Caching improvement using adaptive user clustering
Mohammad et al. Optimal task allocation for mobile edge learning with global training time constraints
Yu et al. Proximal Policy Optimization-based Federated Client Selection for Internet of Vehicles
Wang et al. A model of telecommunication network performance anomaly detection based on service features clustering
Yu Application of mobile edge computing technology in civil aviation express marketing
Mansouri et al. A battery level aware MADM combination for the vertical handover decision making
CN114205238A (zh) 网络资源优化、模型训练方法、装置、存储介质及设备
Han et al. A novel handover detection model via frequent trajectory patterns mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210427

Address after: 201306 No.2, Sipailou, Xinjiekou Street, Xuanwu District, Pudong New Area, Shanghai

Patentee after: Shanghai Hanxin Industrial Development Partnership (L.P.)

Address before: Four pailou Nanjing Xuanwu District of Jiangsu Province, No. 2 211189

Patentee before: SOUTHEAST University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230916

Address after: 201615 room 301-6, building 6, no.1158, Jiuting Central Road, Jiuting Town, Songjiang District, Shanghai

Patentee after: White box (Shanghai) Microelectronics Technology Co.,Ltd.

Address before: No. 2, Sipailou, Xinjiekou Street, Xuanwu District, Pudong New Area, Shanghai, June 2013

Patentee before: Shanghai Hanxin Industrial Development Partnership (L.P.)

TR01 Transfer of patent right