CN108446340B - 一种面向海量小文件的用户热点数据访问预测方法 - Google Patents

一种面向海量小文件的用户热点数据访问预测方法 Download PDF

Info

Publication number
CN108446340B
CN108446340B CN201810174542.9A CN201810174542A CN108446340B CN 108446340 B CN108446340 B CN 108446340B CN 201810174542 A CN201810174542 A CN 201810174542A CN 108446340 B CN108446340 B CN 108446340B
Authority
CN
China
Prior art keywords
file
user
access
data
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810174542.9A
Other languages
English (en)
Other versions
CN108446340A (zh
Inventor
朱东杰
杜海文
李晓芳
刘海青
章江山
王玉华
孙云栋
张凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weihai Han Bao Network Technology Co Ltd
Harbin Institute of Technology Weihai
Original Assignee
Weihai Han Bao Network Technology Co Ltd
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weihai Han Bao Network Technology Co Ltd, Harbin Institute of Technology Weihai filed Critical Weihai Han Bao Network Technology Co Ltd
Priority to CN201810174542.9A priority Critical patent/CN108446340B/zh
Publication of CN108446340A publication Critical patent/CN108446340A/zh
Application granted granted Critical
Publication of CN108446340B publication Critical patent/CN108446340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向海量小文件的用户热点数据访问预测方法,从用户访问数据的特点入手,根据文件访问的关联性特点,使用用户相关的分布式海量小文件存储系统文件访问日志,训练Skip‑Gram模型,对文件的上下文访问特征进行提取,使用K‑means算法对文件特征聚类,对访问相似度高的文件进行集中分析,训练GRU模型,对文件间的关联性进行分析,并根据用户当前访问文件所属类别序列进行预测,将用户未来可能访问文件类别中的全部文件预取至缓存,减少了系统的I/O次数,整体上提升了分布式海量小文件存储系统读取效率。

Description

一种面向海量小文件的用户热点数据访问预测方法
技术领域
本发明涉及计算机领域,尤其涉及一种面向海量小文件的用户热点数据访问预测方法。
背景技术
智能设备和电子商务的快速发展带来了小文件数量的急剧增加。根据国际数据中心的报告,世界已进入ZB时代,全球数据量在两年内翻番。小文件是指文件大小在10KB到512KB之间。在大多数情况下,这些海量的小文件被保存在分布式存储系统中,以便用户可以使用任何可以访问网络的设备访问这些文件。云存储系统减少了用户对本地存储容量的需求,并且保证用户访问的文件均为最新副本。但是,在海量的小文件存储环境下,用户的文件访问操作呈现出高并发特性。
传统的分布式存储系统,如HDFS和Openstack Swift主要为大文件设计。他们大多使用直接读取模式来请求文件,而没有预取机制的设计。这会导致代理服务器必须在收到文件访问请求时随时请求存储服务器。而且,在并发访问量较大的情况下,为了保证高吞吐量,存储系统中的节点需要并行传输大量数据,带宽利用率较高。
海量的小文件的一个重要特点是它变冷的速度非常块——即所谓的Cold Data冷数据,研究表明:经常使用的数据只占大数据的1%到5%;另一方面“长尾效应”使传统缓存机制失效。如何针对大数据中这5%的热点数据建立相关的预测模型,并设计合理的海量小文件缓存机制,有效地解决长尾效应,是海量小文件云存储性能优化的难点。
因此,如何在海量小文件环境下,通过分析用户访问规律,设计一个高效的文件读取策略仍然是一个迫切的问题。
发明内容
针对上述现有技术存在的问题,本发明提供一种面向海量小文件的用户热点数据访问预测方法,解决了分布式存储系统在海量小文件环境下读取效率过低问题。
本发明提供的一种面向海量小文件的用户热点数据访问预测方法,其改进之处在于,所述方法包括如下步骤:
(1)读取分布式海量小文件存储系统产生的文件访问日志,得到文件访问历史序列;
(2)将所述文件访问历史序列进行预处理,得到用户相关的文件访问日志,构造训练样本数据和测试样本数据;
(3)使用所述训练样本数据对Skip-Gram模型进行训练,将训练完成后的Skip-Gram模型使用所述测试样本数据进行测试,根据测试结果,对所述Skip-Gram模型参数进行调优(即调整模型参数),并将调优后的Skip-Gram模型作为文件特征提取模型;
(4)使用所述文件特征提取模型对所述训练样本数据和所述测试样本数据进行特征提取,得到文件特征向量;使用K-means算法对所述文件特征向量进行聚类,通过修改所述K-means算法的参数实现聚类方法调优,确定文件与类别关系映射;
(5)根据所述文件与类别关系映射,将所述训练样本数据的文件访问数据转化为和文件类别访问训练数据,所述测试样本数据的文件访问数据转化为文件类别访问测试数据;
(6)使用所述文件类别访问训练数据对GRU模型进行训练,将训练完成后的GRU模型使用所述文件类别访问测试数据进行测试,并根据测试结果,对所述GRU模型参数进行调优,并将调优后的GRU模型、调优后的Skip-Gram模型和调优后的K-means算法进行组合,作为面向海量小文件的用户热点数据访问预测模型;
(7)将所述面向海量小文件的用户热点数据访问预测模型部署至代理节点;输入新的用户文件访问请求,所述面向海量小文件的用户热点数据访问预测模型输出下一时刻用户待访问的文件类别;所述代理结点根据所述文件与类别关系映射,将用户待访问的文件从底层存储设备缓存至代理节点进行缓存。
优选的,步骤(1)中,每两小时读取分布式海量小文件存储系统产生的文件访问日志后,将访问日志清空。
较优选的,步骤(2)所述进行预处理的方法包括:
顺序读取所述文件访问日志,根据用户信息和访问时间间隔对所述文件访问日志进行分离,将对所述文件访问日志的访问序列处理为各个用户的子访问序列,并按照75%、25%的比例划分为训练样本数据和测试样本数据;
在进行分离时,根据请求IP来源不同,对不同用户的文件访问日志进行分离,再将相同用户间隔10秒以上的文件访问之间进行分离。
较优选的,步骤(3)中,所述Skip-Gram模型采用的上下文窗口参数为5条文件访问记录,输入层维度为文件数量,隐藏层采用输入层维度数为行,输出层维度数为列的矩阵,输出层维度为300,在输出层使用softmax函数来执行回归;
所述Skip-Gram模型的输入层采用one-hot,隐藏层采用查找表结构进行优化,输出层输出文件上下文特征向量,即维度数的一维数组,实现对文件上下文特征的提取。
较优选的,步骤(4)中,所述K-means算法为非监督学习中的聚类算法,算法输入为文件特征向量,输出为文件与类别关系映射;
所述K-means算法的初始质心采用随机化的方式进行指定,K取值为300-500,输出的文件与类别关系映射使用Key-Value键值对的格式,使用空格隔开。
较优选的,步骤(5)转化方法包括:
预先将所述文件与类别关系映射读取至内存中,读取所述训练样本数据的每一个文件名元素,在所述文件与类别关系映射中查找文件名对应的分类,将对应的文件分类序列输出到所述文件类别访问训练数据;读取所述测试样本数据的每一个文件名元素,在所述文件与类别关系映射中查找文件名对应的分类,将对应的文件分类序列输出到所述文件类别访问测试数据。
较优选的,步骤(6)中,所述GRU模型的隐藏层采用GRU(门控循环单元),设有两个门:更新门和重置门,实现对有价值信息的保留和无价值信息的过滤。
较优选的,所述的更新门和重置门公式表示如下:
rt=σr(Wr·[ht-1,xt])
zt=σz(Wz·[ht-1,xt])
yt=σy(Wo·ht)
其中zt表示更新门;rt表示重置门;Wz表示更新门权重矩阵;Wr表示重置门权重矩阵;Wo表示输出门权重矩阵;ht表示神经元t的激活向量;表示神经元t的候选激活向量;xt表示神经元t的输入向量;yt表示神经元t的输出向量;tanh和σ为激活函数,*表示矩阵元素相乘,[]表示两个向量相连接;σr表示重置门激活函数;σz表示更新门激活函数;σy表示输出向量激活函数;h表示激活向量;ht-1表示神经元t-1的激活向量;表示候选状态权重矩阵。
较优选的,步骤(7)中,判断所述输出类别下的所有文件大小是否大于缓存空间大小,若是,则停止缓存,否则将所述输出类别下的所有文件加入系统缓存。
较优选的,所述调优后的GRU模型、调优后的Skip-Gram模型和调优后的K-means算法进行组合的步骤包括:将预处理过的文件访问历史序列输入调优后的Skip-Gram模型,输出文件的访问特征向量;将所述访问特征向量输入调优后的K-means算法,输出文件与类别的关系映射;将预处理过的文件访问日志根据所述文件与类别的关系映射得到用户相关的文件类别访问日志;将所述用户相关的文件类别访问日志作为GRU模型输入,得到热点文件类别输出。
本发明的技术方案中,从用户访问数据的特点入手,根据文件访问的关联性特点,使用用户相关的分布式海量小文件存储系统文件访问日志,训练Skip-Gram模型,对文件的上下文访问特征进行提取,使用K-means算法对文件特征聚类,对访问相似度高的文件进行集中分析,训练GRU模型,对文件间的关联性进行分析,并根据用户当前访问文件所属类别序列进行预测,将用户未来可能访问文件类别中的全部文件预取至缓存,减少了系统的I/O次数,整体上提升了分布式海量小文件存储系统读取效率。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的sigmoid激活函数图;
图3为本发明实施例的tanh激活函数图;
图4为本发明实施例的GRU神经元逻辑结构图.
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本实施例提供的一种面向海量小文件的用户热点数据访问预测方法,其流程图如图1所示,所述方法包括如下步骤:
(1)读取分布式海量小文件存储系统产生的文件访问日志,得到文件访问历史序列。本实施例中,分布式海量小文件存储系统产生的文件日志以文本文件形式存储在代理节点,计算节点每隔2小时向代理节点请求日志文件,并在读取后,将访问日志清空。
(2)将所述文件访问历史序列进行预处理,得到用户相关的文件访问日志,构造训练样本数据和测试样本数据。具体步骤包括:
①将日志文件逐行读取,使用空格分离当前行数据;
②将分离后数据的时间列、用户请求来源列、请求文件名列保存至数组a0;显然,由于日志文件是时间有序的,a0数组是时间有序的;
③对a0按照用户请求来源进行排序,得到第一关键字为用户请求来源,第二关键字为时间的有序数组;
④按序读取数组a0,依次输出请求文件名至文件,并用空格隔开,若第i行的时间与第i-1行的时间差距超过5秒,则将其分离为两次访问,在输出前额外输出空行,若第i行的用户请求来源与第i-1行的用户请求来源不一致,则将其分离为两次访问,在输出前额外输出空行,得到归类后的日志文件。
将序列数据的75%作为训练集对模型进行训练,将序列数据的25%作为测试集对模型效果进行测试。
本实施例举例说明,比如输入的文件访问历史序列仅包含用户A的文件访问历史序列,则在逐行读取并空格分离日志数据后,直接按序读取,判断相邻两条日志之间的时间差距,将时间差距小于5秒的日志计入同一集合,直到日志读取结束,将处理完成的访问集合作为用户相关的文件访问日志。又比如输入的文件访问历史序列包含用户A和用户B的文件访问历史序列,则在逐行读取并空格分离日志数据后,按序读取,将文件读取请求来源为用户A和文件读取请求来源为用户B的访问日志分别计入集合A和集合B。对于集合A和集合B,分别判断各自集合中相邻两条日志之间的时间差距,将时间差距小于5秒的日志计入同一集合,直到日志读取结束,将处理完成的访问集合作为用户相关的文件访问日志。
(3)使用所述训练样本数据对Skip-Gram模型进行训练,将训练完成后的Skip-Gram模型使用所述测试样本数据进行测试,根据测试结果,对所述Skip-Gram模型参数进行调优(即调整模型参数),根据聚类效果,最大化Skip-Gram模型的文件特征提取效果,将Skip-Gram模型得到的文件特征的聚类结果与人工分类结果进行比对,当分类结果的正确率达到峰值后,视为Skip-Gram表现达到最优,将调优后的Skip-Gram模型作为文件特征提取模型。具体步骤包括:
I.依次读入数据集中的文件,使用队列结构维护数据输入,当队列内元素大小大于5时,弹出头结点,并将队列中的元素代入下一步进行计算。
II.以队列中心元素构造one-hot向量,作为Skip-Gram模型的输入,使用向前算法计算上下文词概率作为模型输出。
III.将队列中的其余元素作为模型输出的校正值,使用向后传播算法对Skip-Gram模型进行调整。
IV.使用调整好的Skip-Gram模型,对数据集进行特征提取,提取出每一个文件的特征向量,输出到文件特征向量集。
(4)使用所述文件特征提取模型对所述训练样本数据和所述测试样本数据进行特征提取,得到文件特征向量;使用K-means算法对所述文件特征向量进行聚类,通过修改所述K-means算法的参数实现聚类方法调优,计算聚类结果与人工分类结果进行比对,当分类结果的正确率达到峰值后,视为K-means算法表现稳定,使用优化后的K-means算法计算文件与类别关系映射。本实施例K-means算法为非监督学习中的聚类算法,算法输入为文件特征向量,输出为文件与类别关系映射。且K-means算法的初始质心采用随机化的方式进行指定,K取值为300-500,输出的文件与类别关系映射使用Key-Value键值对的格式,使用空格隔开。具体步骤包括:
1)依次读入文件特征向量集,随机选取k个聚类中心。
2)计算每个文件特征向量与聚类中心的欧式距离,将文件归类于与当前文件特征向量欧氏距离最近的类别中。
3)重新计算k个类别内部与类别内所有点的欧氏距离之和最小的点,将其作为类别的中心点。
4)重复步骤2)—3),直到类别中心点不再移动。
5)得到文件与类别的对应关系,以Key-Value键值对的方式,输出文件与类别对应关系。
(5)根据所述文件与类别关系映射,将所述训练样本数据的文件访问数据转化为和文件类别访问训练数据,所述测试样本数据的文件访问数据转化为文件类别访问测试数据。具体的转化方法包括:预先将所述文件与类别关系映射读取至内存中,读取所述训练样本数据的每一个文件名元素,在所述文件与类别关系映射中查找文件名对应的分类,将对应的文件分类序列输出到所述文件类别访问训练数据;读取所述测试样本数据的每一个文件名元素,在所述文件与类别关系映射中查找文件名对应的分类,将对应的文件分类序列输出到所述文件类别访问测试数据。
(6)使用所述文件类别访问训练数据对GRU模型进行训练,将训练完成后的GRU模型使用所述文件类别访问测试数据进行测试,并根据测试结果,对所述GRU模型参数进行调优,最大化GRU模型的文件类别访问预测效果,当GRU模型的预测准确率达到极值后,视为GRU模型表现达到最优,并将调优后的GRU模型、调优后的Skip-Gram模型和调优后的K-means算法进行组合,作为面向海量小文件的用户热点数据访问预测模型。具体步骤包括:
i.GRU模型的隐藏层采用GRU(门控循环单元),该单元设有两个门:更新门和重置门来实现对有价值信息的保留和无价值信息的过滤。更新门和重置门表示如下:
更新门:用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。
重置门:用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多。
更新门和重置门公式表示如下:
rt=σr(Wr·[ht-1,xt])
zt=σz(Wz·[ht-1,xt])
yt=σy(Wo·ht)
其中zt表示更新门;rt表示重置门;Wz表示更新门权重矩阵;Wr表示重置门权重矩阵;Wo表示输出门权重矩阵;ht表示神经元t的激活向量;表示神经元t的候选激活向量;xt表示神经元t的输入向量;yt表示神经元t的输出向量;tanh和σ为激活函数,*表示矩阵元素相乘,[]表示两个向量相连接;σr表示重置门激活函数;σz表示更新门激活函数;σy表示输出向量激活函数;h表示激活向量;ht-1表示神经元t-1的激活向量;表示候选状态权重矩阵。式中,激活函数σ的计算公式为:
式中,f(x)表示σ激活函数;e-x表示自然常数的-x次幂。σ激活函数图像如图2所示,能够把输入的连续实值压缩到0和1之间,使GRU模型的变量具备可微性、连续性、单调性,从而达到便于计算的目的。
tanh激活函数计算公式为:
式中,f(x)表示tanh激活函数;ex表示自然常数的x次幂;e-x表示自然常数的-x次幂;tanh激活函数图像如图3所示,能够把输入的连续实值压缩到-1和1之间,使GRU模型的变量具备可微性、连续性、单调性,从而达到便于计算的目的。本实施例得到的GRU神经元逻辑结构如图4所示,表示GRU神经元输入输出数据的处理逻辑。
ii.将GRU隐藏神经元数量参数初始设置为2000,学习率初始设置为0.001,初始化隐藏状态(hidden states)为0。
iii.将训练集输入GRU模型,计算训练过程中GRU模型的损失值,当损失值趋于稳定不再下降的时候,终止训练,得到训练完成的GRU模型结构;
iv.将测试集输入GRU模型,计算文件预测结果与实际访问文件之间的差别,得到预测准确率,从而对GRU中的网络参数进行调整,逐步提高预测精度。
将预处理过的文件访问历史序列输入调优后的Skip-Gram模型,输出文件的访问特征向量;将所述访问特征向量输入调优后的K-means算法,输出文件与类别的关系映射;将预处理过的文件访问日志根据所述文件与类别的关系映射得到用户相关的文件类别访问日志;将所述用户相关的文件类别访问日志作为GRU模型输入,得到热点文件类别输出预测数据,同时作为调优后的GRU模型、调优后的Skip-Gram模型和调优后的K-means算法组合后的模型的输出。
v.将所述组合后的模型作为面向海量小文件的用户热点数据访问预测模型。
(7)将所述面向海量小文件的用户热点数据访问预测模型部署至代理节点;输入新的用户文件访问请求,所述面向海量小文件的用户热点数据访问预测模型输出下一时刻用户待访问的文件类别;所述代理结点根据所述文件与类别关系映射,将用户待访问的文件从底层存储设备缓存至代理节点进行缓存。优选的,本实施例缓存方法采用LRU模型对数据进行缓存,缓存空间大小为30MB,再判断所述输出类别下的所有文件大小是否大于缓存空间大小,若是,则停止缓存,否则将所述输出类别下的所有文件加入系统缓存。
冷数据与长尾效应是海量小文件存储系统性能优化面临的重要瓶颈。本发明建立热度预测模型,实现热点数据的预测来解决海量非结构化数据的长尾效应,提升了海量小文件存储系统读取操作的效率,提高了系统缓存利用率,降低了磁盘负载压力,减小了系统I/O次数。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种面向海量小文件的用户热点数据访问预测方法,其特征在于,所述方法包括如下步骤:
(1)读取分布式海量小文件存储系统产生的文件访问日志,得到文件访问历史序列;
(2)将所述文件访问历史序列进行预处理,得到用户相关的文件访问日志,构造训练样本数据和测试样本数据;
(3)使用所述训练样本数据对Skip-Gram模型进行训练,将训练完成后的Skip-Gram模型使用所述测试样本数据进行测试,根据测试结果,对所述Skip-Gram模型参数进行调优,并将调优后的Skip-Gram模型作为文件特征提取模型;
(4)使用所述文件特征提取模型对所述训练样本数据和所述测试样本数据进行特征提取,得到文件特征向量;使用K-means算法对所述文件特征向量进行聚类,通过修改所述K-means算法的参数实现聚类方法调优,确定文件与类别关系映射;
(5)根据所述文件与类别关系映射,将所述训练样本数据的文件访问数据转化为和文件类别访问训练数据,所述测试样本数据的文件访问数据转化为文件类别访问测试数据,其转化方法包括:预先将所述文件与类别关系映射读取至内存中,读取所述训练样本数据的每一个文件名元素,在所述文件与类别关系映射中查找文件名对应的分类,将对应的文件分类序列输出到所述文件类别访问训练数据;读取所述测试样本数据的每一个文件名元素,在所述文件与类别关系映射中查找文件名对应的分类,将对应的文件分类序列输出到所述文件类别访问测试数据;
(6)使用所述文件类别访问训练数据对GRU模型进行训练,将训练完成后的GRU模型使用所述文件类别访问测试数据进行测试,并根据测试结果,对所述GRU模型参数进行调优,并将调优后的GRU模型、调优后的Skip-Gram模型和调优后的K-means算法进行组合,作为面向海量小文件的用户热点数据访问预测模型;
(7)将所述面向海量小文件的用户热点数据访问预测模型部署至代理节点;输入新的用户文件访问请求,所述面向海量小文件的用户热点数据访问预测模型输出下一时刻用户待访问的文件类别;代理节点 根据所述文件与类别关系映射,将用户待访问的文件从底层存储设备缓存至代理节点进行缓存。
2.如权利要求1所述的用户热点数据访问预测方法,其特征在于,步骤(1)中,每两小时读取分布式海量小文件存储系统产生的文件访问日志后,将访问日志清空。
3.如权利要求1所述的用户热点数据访问预测方法,其特征在于,步骤(2)所述进行预处理的方法包括:
顺序读取所述文件访问日志,根据用户信息和访问时间间隔对所述文件访问日志进行分离,将对所述文件访问日志的访问序列处理为各个用户的子访问序列,并按照75%、25%的比例划分为训练样本数据和测试样本数据;
在进行分离时,根据请求IP来源不同,对不同用户的文件访问日志进行分离,再将相同用户间隔10秒以上的文件访问之间进行分离。
4.如权利要求1所述的用户热点数据访问预测方法,其特征在于,步骤(3)中,所述Skip-Gram模型采用的上下文窗口参数为5条文件访问记录,输入层维度为文件数量,隐藏层采用输入层维度数为行,输出层维度数为列的矩阵,输出层维度为300,在输出层使用softmax函数来执行回归;
所述Skip-Gram模型的输入层采用one-hot,隐藏层采用查找表结构进行优化,输出层输出文件上下文特征向量,即维度数的一维数组,实现对文件上下文特征的提取。
5.如权利要求1所述的用户热点数据访问预测方法,其特征在于,步骤(4)中,所述K-means算法为非监督学习中的聚类算法,其输入为文件特征向量,输出为文件与类别关系映射;
所述K-means算法的初始质心采用随机化的方式进行指定,K取值为300-500,输出的文件与类别关系映射使用Key-Value键值对的格式,使用空格隔开。
6.如权利要求1所述的用户热点数据访问预测方法,其特征在于,步骤(6)中,所述GRU模型的隐藏层采用GRU,并设有两个门:更新门和重置门。
7.如权利要求6所述的用户热点数据访问预测方法,其特征在于,所述更新门和重置门公式表示如下:
rt=σr(Wr·[ht-1,xt])
zt=σz(Wz·[ht-1,xt])
yt=σy(Wo·ht)
其中zt表示更新门;rt表示重置门;Wz表示更新门权重矩阵;Wr表示重置门权重矩阵;Wo表示输出门权重矩阵;ht表示神经元t的激活向量;表示神经元t的候选激活向量;xt表示神经元t的输入向量;yt表示神经元t的输出向量;tanh和σ为激活函数;σr表示重置门激活函数;σz表示更新门激活函数;σy表示输出向量激活函数;h表示激活向量;ht-1表示神经元t-1的激活向量;表示候选状态权重矩阵。
8.如权利要求1所述的用户热点数据访问预测方法,其特征在于,步骤(7)中,判断输出类别下的所有文件大小是否大于缓存空间大小,若是,则停止缓存,否则将所述输出类别下的所有文件加入系统缓存。
9.如权利要求1所述的用户热点数据访问预测方法,其特征在于,所述调优后的GRU模型、调优后的Skip-Gram模型和调优后的K-means算法进行组合的步骤包括:将预处理过的文件访问历史序列输入调优后的Skip-Gram模型,输出文件的访问特征向量;将所述访问特征向量输入调优后的K-means算法,输出文件与类别的关系映射;将预处理过的文件访问日志根据所述文件与类别的关系映射得到用户相关的文件类别访问日志;将所述用户相关的文件类别访问日志作为GRU模型输入,得到热点文件类别输出。
CN201810174542.9A 2018-03-02 2018-03-02 一种面向海量小文件的用户热点数据访问预测方法 Active CN108446340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810174542.9A CN108446340B (zh) 2018-03-02 2018-03-02 一种面向海量小文件的用户热点数据访问预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810174542.9A CN108446340B (zh) 2018-03-02 2018-03-02 一种面向海量小文件的用户热点数据访问预测方法

Publications (2)

Publication Number Publication Date
CN108446340A CN108446340A (zh) 2018-08-24
CN108446340B true CN108446340B (zh) 2019-11-05

Family

ID=63193062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810174542.9A Active CN108446340B (zh) 2018-03-02 2018-03-02 一种面向海量小文件的用户热点数据访问预测方法

Country Status (1)

Country Link
CN (1) CN108446340B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108932288B (zh) * 2018-05-22 2022-04-12 广东技术师范大学 一种基于Hadoop的海量小文件缓存方法
CN113626386A (zh) * 2018-10-22 2021-11-09 王梅 确定移动互联网内目标移动终端的数据状态的方法及系统
CN109634924B (zh) * 2018-11-02 2022-12-20 华南师范大学 基于机器学习的文件系统参数自动调优方法及系统
CN109407997B (zh) * 2018-11-09 2021-04-23 长沙理工大学 一种数据处理方法、装置、设备及可读存储介质
CN109213741A (zh) * 2018-11-22 2019-01-15 浙江中农在线电子商务有限公司 高性能日志存储方法及装置
CN110059025A (zh) * 2019-04-22 2019-07-26 北京电子工程总体研究所 一种缓存预取的方法和系统
CN110968272B (zh) * 2019-12-16 2021-01-01 华中科技大学 基于时间序列预测的海量小文件存储性能优化方法及系统
CN111460229B (zh) * 2020-02-23 2023-06-09 华中科技大学 单用户多工作负载之间json解析优化方法和系统
CN113535658B (zh) * 2020-04-20 2024-08-09 华为技术有限公司 一种文件预取方法、存储设备以及预取装置
CN112148681A (zh) * 2020-10-15 2020-12-29 南京邮电大学 一种基于分布式文件系统hdfs的小文件存取优化方法
CN112529737A (zh) * 2020-12-28 2021-03-19 山东鲁能软件技术有限公司 一种适用于电力信息系统的智能化缓存管理方法与系统
CN112836123B (zh) * 2021-02-03 2021-11-16 电子科技大学 一种基于知识图谱的可解释推荐系统
CN113076339B (zh) * 2021-03-18 2024-08-20 北京沃东天骏信息技术有限公司 一种数据缓存方法、装置、设备及存储介质
CN114443569A (zh) * 2021-12-24 2022-05-06 天翼云科技有限公司 文件访问方法、装置、设备及存储介质
CN118535074A (zh) * 2023-02-21 2024-08-23 华为技术有限公司 一种数据处理方法及数据存储系统
CN116361635B (zh) * 2023-06-02 2023-10-10 中国科学院成都文献情报中心 一种多维时序数据异常检测方法
CN117076387B (zh) * 2023-08-22 2024-03-01 北京天华星航科技有限公司 基于磁带的海量小文件的快速归档恢复系统
CN117472285B (zh) * 2023-12-26 2024-08-06 深圳市领德创科技有限公司 固态硬盘用智能运行加速方法、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103795781A (zh) * 2013-12-10 2014-05-14 西安邮电大学 一种基于文件预测的分布式缓存模型
CN107277159A (zh) * 2017-07-10 2017-10-20 东南大学 一种基于机器学习的超密集网络小站缓存方法
CN107292388A (zh) * 2017-06-27 2017-10-24 郑州云海信息技术有限公司 一种基于神经网络的热点数据的预测方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10440503B2 (en) * 2014-07-16 2019-10-08 TUPL, Inc. Machine learning-based geolocation and hotspot area identification
CN107038156A (zh) * 2017-04-28 2017-08-11 北京清博大数据科技有限公司 一种基于大数据的舆论热点预测方法
CN107330557A (zh) * 2017-06-28 2017-11-07 中国石油大学(华东) 一种基于社区划分和熵的舆情热点跟踪及预测方法与装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103795781A (zh) * 2013-12-10 2014-05-14 西安邮电大学 一种基于文件预测的分布式缓存模型
CN107292388A (zh) * 2017-06-27 2017-10-24 郑州云海信息技术有限公司 一种基于神经网络的热点数据的预测方法及系统
CN107277159A (zh) * 2017-07-10 2017-10-20 东南大学 一种基于机器学习的超密集网络小站缓存方法

Also Published As

Publication number Publication date
CN108446340A (zh) 2018-08-24

Similar Documents

Publication Publication Date Title
CN108446340B (zh) 一种面向海量小文件的用户热点数据访问预测方法
WO2020238293A1 (zh) 图像分类方法、神经网络的训练方法及装置
CN110059198B (zh) 一种基于相似性保持的跨模态数据的离散哈希检索方法
WO2021164772A1 (zh) 训练跨模态检索模型的方法、跨模态检索的方法和相关装置
CN106383891B (zh) 一种基于深度哈希的医学图像分布式检索方法
JP2020123331A (ja) 意図識別方法、装置、及びコンピュータ読み取り可能な記憶媒体
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
CN110968272B (zh) 基于时间序列预测的海量小文件存储性能优化方法及系统
CN104253855A (zh) 一种面向内容中心网络中基于内容分类的类别流行度缓存替换方法
US20230063148A1 (en) Transfer model training method and apparatus, and fault detection method and apparatus
CN109166615A (zh) 一种随机森林哈希的医学ct图像存储与检索方法
CN110941734A (zh) 基于稀疏图结构的深度无监督图像检索方法
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
Cheng et al. Hierarchical attributes learning for pedestrian re-identification via parallel stochastic gradient descent combined with momentum correction and adaptive learning rate
JP2002342136A (ja) ブロック・レベル・サンプリングを使用してデータベースのクラスタ化係数を判定する装置および方法
CN114556364B (zh) 用于执行神经网络架构搜索的计算机实现方法
CN111259147B (zh) 基于自适应注意力机制的句子级情感预测方法及系统
Yuan et al. Low-res MobileNet: An efficient lightweight network for low-resolution image classification in resource-constrained scenarios
CN115879508A (zh) 一种数据处理方法及相关装置
Chao Web cache intelligent replacement strategy combined with GDSF and SVM network re-accessed probability prediction
WO2024109907A1 (zh) 一种量化方法、推荐方法以及装置
WO2024114659A1 (zh) 一种摘要生成方法及其相关设备
Hou et al. Remote sensing image retrieval with deep features encoding of Inception V4 and largevis dimensionality reduction
Zhang et al. NAS4FBP: Facial beauty prediction based on neural architecture search
Yan et al. Semantic indexing with deep learning: a case study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant