CN108446340B

CN108446340B - 一种面向海量小文件的用户热点数据访问预测方法

Info

Publication number: CN108446340B
Application number: CN201810174542.9A
Authority: CN
Inventors: 朱东杰; 杜海文; 李晓芳; 刘海青; 章江山; 王玉华; 孙云栋; 张凯
Original assignee: Weihai Han Bao Network Technology Co Ltd; Harbin Institute of Technology Weihai
Current assignee: Weihai Han Bao Network Technology Co Ltd; Harbin Institute of Technology Weihai
Priority date: 2018-03-02
Filing date: 2018-03-02
Publication date: 2019-11-05
Anticipated expiration: 2038-03-02
Also published as: CN108446340A

Abstract

本发明公开了一种面向海量小文件的用户热点数据访问预测方法，从用户访问数据的特点入手，根据文件访问的关联性特点，使用用户相关的分布式海量小文件存储系统文件访问日志，训练Skip‑Gram模型，对文件的上下文访问特征进行提取，使用K‑means算法对文件特征聚类，对访问相似度高的文件进行集中分析，训练GRU模型，对文件间的关联性进行分析，并根据用户当前访问文件所属类别序列进行预测，将用户未来可能访问文件类别中的全部文件预取至缓存，减少了系统的I/O次数，整体上提升了分布式海量小文件存储系统读取效率。

Description

一种面向海量小文件的用户热点数据访问预测方法

技术领域

本发明涉及计算机领域，尤其涉及一种面向海量小文件的用户热点数据访问预测方法。

背景技术

智能设备和电子商务的快速发展带来了小文件数量的急剧增加。根据国际数据中心的报告，世界已进入ZB时代，全球数据量在两年内翻番。小文件是指文件大小在10KB到512KB之间。在大多数情况下，这些海量的小文件被保存在分布式存储系统中，以便用户可以使用任何可以访问网络的设备访问这些文件。云存储系统减少了用户对本地存储容量的需求，并且保证用户访问的文件均为最新副本。但是，在海量的小文件存储环境下，用户的文件访问操作呈现出高并发特性。

传统的分布式存储系统，如HDFS和Openstack Swift主要为大文件设计。他们大多使用直接读取模式来请求文件，而没有预取机制的设计。这会导致代理服务器必须在收到文件访问请求时随时请求存储服务器。而且，在并发访问量较大的情况下，为了保证高吞吐量，存储系统中的节点需要并行传输大量数据，带宽利用率较高。

海量的小文件的一个重要特点是它变冷的速度非常块——即所谓的Cold Data冷数据，研究表明：经常使用的数据只占大数据的1％到5％；另一方面“长尾效应”使传统缓存机制失效。如何针对大数据中这5％的热点数据建立相关的预测模型，并设计合理的海量小文件缓存机制，有效地解决长尾效应，是海量小文件云存储性能优化的难点。

因此，如何在海量小文件环境下，通过分析用户访问规律，设计一个高效的文件读取策略仍然是一个迫切的问题。

发明内容

针对上述现有技术存在的问题，本发明提供一种面向海量小文件的用户热点数据访问预测方法，解决了分布式存储系统在海量小文件环境下读取效率过低问题。

本发明提供的一种面向海量小文件的用户热点数据访问预测方法，其改进之处在于，所述方法包括如下步骤：

(1)读取分布式海量小文件存储系统产生的文件访问日志，得到文件访问历史序列；

(2)将所述文件访问历史序列进行预处理，得到用户相关的文件访问日志，构造训练样本数据和测试样本数据；

(3)使用所述训练样本数据对Skip-Gram模型进行训练，将训练完成后的Skip-Gram模型使用所述测试样本数据进行测试，根据测试结果，对所述Skip-Gram模型参数进行调优(即调整模型参数)，并将调优后的Skip-Gram模型作为文件特征提取模型；

(4)使用所述文件特征提取模型对所述训练样本数据和所述测试样本数据进行特征提取，得到文件特征向量；使用K-means算法对所述文件特征向量进行聚类，通过修改所述K-means算法的参数实现聚类方法调优，确定文件与类别关系映射；

(5)根据所述文件与类别关系映射，将所述训练样本数据的文件访问数据转化为和文件类别访问训练数据，所述测试样本数据的文件访问数据转化为文件类别访问测试数据；

(6)使用所述文件类别访问训练数据对GRU模型进行训练，将训练完成后的GRU模型使用所述文件类别访问测试数据进行测试，并根据测试结果，对所述GRU模型参数进行调优，并将调优后的GRU模型、调优后的Skip-Gram模型和调优后的K-means算法进行组合，作为面向海量小文件的用户热点数据访问预测模型；

(7)将所述面向海量小文件的用户热点数据访问预测模型部署至代理节点；输入新的用户文件访问请求，所述面向海量小文件的用户热点数据访问预测模型输出下一时刻用户待访问的文件类别；所述代理结点根据所述文件与类别关系映射，将用户待访问的文件从底层存储设备缓存至代理节点进行缓存。

优选的，步骤(1)中，每两小时读取分布式海量小文件存储系统产生的文件访问日志后，将访问日志清空。

较优选的，步骤(2)所述进行预处理的方法包括：

顺序读取所述文件访问日志，根据用户信息和访问时间间隔对所述文件访问日志进行分离，将对所述文件访问日志的访问序列处理为各个用户的子访问序列，并按照75％、25％的比例划分为训练样本数据和测试样本数据；

在进行分离时，根据请求IP来源不同，对不同用户的文件访问日志进行分离，再将相同用户间隔10秒以上的文件访问之间进行分离。

较优选的，步骤(3)中，所述Skip-Gram模型采用的上下文窗口参数为5条文件访问记录，输入层维度为文件数量，隐藏层采用输入层维度数为行，输出层维度数为列的矩阵，输出层维度为300，在输出层使用softmax函数来执行回归；

所述Skip-Gram模型的输入层采用one-hot，隐藏层采用查找表结构进行优化，输出层输出文件上下文特征向量，即维度数的一维数组，实现对文件上下文特征的提取。

较优选的，步骤(4)中，所述K-means算法为非监督学习中的聚类算法，算法输入为文件特征向量，输出为文件与类别关系映射；

所述K-means算法的初始质心采用随机化的方式进行指定，K取值为300-500，输出的文件与类别关系映射使用Key-Value键值对的格式，使用空格隔开。

较优选的，步骤(5)转化方法包括：

预先将所述文件与类别关系映射读取至内存中，读取所述训练样本数据的每一个文件名元素，在所述文件与类别关系映射中查找文件名对应的分类，将对应的文件分类序列输出到所述文件类别访问训练数据；读取所述测试样本数据的每一个文件名元素，在所述文件与类别关系映射中查找文件名对应的分类，将对应的文件分类序列输出到所述文件类别访问测试数据。

较优选的，步骤(6)中，所述GRU模型的隐藏层采用GRU(门控循环单元)，设有两个门：更新门和重置门，实现对有价值信息的保留和无价值信息的过滤。

较优选的，所述的更新门和重置门公式表示如下：

r_t＝σ_r(W_r·[h_t-1,x_t])

z_t＝σ_z(W_z·[h_t-1,x_t])

y_t＝σ_y(W_o·h_t)

其中z_t表示更新门；r_t表示重置门；W_z表示更新门权重矩阵；W_r表示重置门权重矩阵；W_o表示输出门权重矩阵；h_t表示神经元t的激活向量；表示神经元t的候选激活向量；x_t表示神经元t的输入向量；y_t表示神经元t的输出向量；tanh和σ为激活函数，*表示矩阵元素相乘，[]表示两个向量相连接；σ_r表示重置门激活函数；σ_z表示更新门激活函数；σ_y表示输出向量激活函数；h表示激活向量；h_t-1表示神经元t-1的激活向量；表示候选状态权重矩阵。

较优选的，步骤(7)中，判断所述输出类别下的所有文件大小是否大于缓存空间大小，若是，则停止缓存，否则将所述输出类别下的所有文件加入系统缓存。

较优选的，所述调优后的GRU模型、调优后的Skip-Gram模型和调优后的K-means算法进行组合的步骤包括：将预处理过的文件访问历史序列输入调优后的Skip-Gram模型，输出文件的访问特征向量；将所述访问特征向量输入调优后的K-means算法，输出文件与类别的关系映射；将预处理过的文件访问日志根据所述文件与类别的关系映射得到用户相关的文件类别访问日志；将所述用户相关的文件类别访问日志作为GRU模型输入，得到热点文件类别输出。

本发明的技术方案中，从用户访问数据的特点入手，根据文件访问的关联性特点，使用用户相关的分布式海量小文件存储系统文件访问日志，训练Skip-Gram模型，对文件的上下文访问特征进行提取，使用K-means算法对文件特征聚类，对访问相似度高的文件进行集中分析，训练GRU模型，对文件间的关联性进行分析，并根据用户当前访问文件所属类别序列进行预测，将用户未来可能访问文件类别中的全部文件预取至缓存，减少了系统的I/O次数，整体上提升了分布式海量小文件存储系统读取效率。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的sigmoid激活函数图；

图3为本发明实施例的tanh激活函数图；

图4为本发明实施例的GRU神经元逻辑结构图.

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举出优选实施例，对本发明进一步详细说明。然而，需要说明的是，说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解，即便没有这些特定的细节也可以实现本发明的这些方面。

本实施例提供的一种面向海量小文件的用户热点数据访问预测方法，其流程图如图1所示，所述方法包括如下步骤：

(1)读取分布式海量小文件存储系统产生的文件访问日志，得到文件访问历史序列。本实施例中，分布式海量小文件存储系统产生的文件日志以文本文件形式存储在代理节点，计算节点每隔2小时向代理节点请求日志文件，并在读取后，将访问日志清空。

(2)将所述文件访问历史序列进行预处理，得到用户相关的文件访问日志，构造训练样本数据和测试样本数据。具体步骤包括：

①将日志文件逐行读取，使用空格分离当前行数据；

②将分离后数据的时间列、用户请求来源列、请求文件名列保存至数组a0；显然，由于日志文件是时间有序的，a0数组是时间有序的；

③对a0按照用户请求来源进行排序，得到第一关键字为用户请求来源，第二关键字为时间的有序数组；

④按序读取数组a0，依次输出请求文件名至文件，并用空格隔开，若第i行的时间与第i-1行的时间差距超过5秒，则将其分离为两次访问，在输出前额外输出空行，若第i行的用户请求来源与第i-1行的用户请求来源不一致，则将其分离为两次访问，在输出前额外输出空行，得到归类后的日志文件。

将序列数据的75％作为训练集对模型进行训练，将序列数据的25％作为测试集对模型效果进行测试。

本实施例举例说明，比如输入的文件访问历史序列仅包含用户A的文件访问历史序列，则在逐行读取并空格分离日志数据后，直接按序读取，判断相邻两条日志之间的时间差距，将时间差距小于5秒的日志计入同一集合，直到日志读取结束，将处理完成的访问集合作为用户相关的文件访问日志。又比如输入的文件访问历史序列包含用户A和用户B的文件访问历史序列，则在逐行读取并空格分离日志数据后，按序读取，将文件读取请求来源为用户A和文件读取请求来源为用户B的访问日志分别计入集合A和集合B。对于集合A和集合B，分别判断各自集合中相邻两条日志之间的时间差距，将时间差距小于5秒的日志计入同一集合，直到日志读取结束，将处理完成的访问集合作为用户相关的文件访问日志。

(3)使用所述训练样本数据对Skip-Gram模型进行训练，将训练完成后的Skip-Gram模型使用所述测试样本数据进行测试，根据测试结果，对所述Skip-Gram模型参数进行调优(即调整模型参数)，根据聚类效果，最大化Skip-Gram模型的文件特征提取效果，将Skip-Gram模型得到的文件特征的聚类结果与人工分类结果进行比对，当分类结果的正确率达到峰值后，视为Skip-Gram表现达到最优，将调优后的Skip-Gram模型作为文件特征提取模型。具体步骤包括：

I.依次读入数据集中的文件，使用队列结构维护数据输入，当队列内元素大小大于5时，弹出头结点，并将队列中的元素代入下一步进行计算。

II.以队列中心元素构造one-hot向量，作为Skip-Gram模型的输入，使用向前算法计算上下文词概率作为模型输出。

III.将队列中的其余元素作为模型输出的校正值，使用向后传播算法对Skip-Gram模型进行调整。

IV.使用调整好的Skip-Gram模型，对数据集进行特征提取，提取出每一个文件的特征向量，输出到文件特征向量集。

(4)使用所述文件特征提取模型对所述训练样本数据和所述测试样本数据进行特征提取，得到文件特征向量；使用K-means算法对所述文件特征向量进行聚类，通过修改所述K-means算法的参数实现聚类方法调优，计算聚类结果与人工分类结果进行比对，当分类结果的正确率达到峰值后，视为K-means算法表现稳定，使用优化后的K-means算法计算文件与类别关系映射。本实施例K-means算法为非监督学习中的聚类算法，算法输入为文件特征向量，输出为文件与类别关系映射。且K-means算法的初始质心采用随机化的方式进行指定，K取值为300-500，输出的文件与类别关系映射使用Key-Value键值对的格式，使用空格隔开。具体步骤包括：

1)依次读入文件特征向量集，随机选取k个聚类中心。

2)计算每个文件特征向量与聚类中心的欧式距离，将文件归类于与当前文件特征向量欧氏距离最近的类别中。

3)重新计算k个类别内部与类别内所有点的欧氏距离之和最小的点，将其作为类别的中心点。

4)重复步骤2)—3)，直到类别中心点不再移动。

5)得到文件与类别的对应关系，以Key-Value键值对的方式，输出文件与类别对应关系。

(5)根据所述文件与类别关系映射，将所述训练样本数据的文件访问数据转化为和文件类别访问训练数据，所述测试样本数据的文件访问数据转化为文件类别访问测试数据。具体的转化方法包括：预先将所述文件与类别关系映射读取至内存中，读取所述训练样本数据的每一个文件名元素，在所述文件与类别关系映射中查找文件名对应的分类，将对应的文件分类序列输出到所述文件类别访问训练数据；读取所述测试样本数据的每一个文件名元素，在所述文件与类别关系映射中查找文件名对应的分类，将对应的文件分类序列输出到所述文件类别访问测试数据。

(6)使用所述文件类别访问训练数据对GRU模型进行训练，将训练完成后的GRU模型使用所述文件类别访问测试数据进行测试，并根据测试结果，对所述GRU模型参数进行调优，最大化GRU模型的文件类别访问预测效果，当GRU模型的预测准确率达到极值后，视为GRU模型表现达到最优，并将调优后的GRU模型、调优后的Skip-Gram模型和调优后的K-means算法进行组合，作为面向海量小文件的用户热点数据访问预测模型。具体步骤包括：

i.GRU模型的隐藏层采用GRU(门控循环单元)，该单元设有两个门：更新门和重置门来实现对有价值信息的保留和无价值信息的过滤。更新门和重置门表示如下：

更新门：用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。

重置门：用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。

更新门和重置门公式表示如下：

r_t＝σ_r(W_r·[h_t-1,x_t])

z_t＝σ_z(W_z·[h_t-1,x_t])

y_t＝σ_y(W_o·h_t)

其中z_t表示更新门；r_t表示重置门；W_z表示更新门权重矩阵；W_r表示重置门权重矩阵；W_o表示输出门权重矩阵；h_t表示神经元t的激活向量；表示神经元t的候选激活向量；x_t表示神经元t的输入向量；y_t表示神经元t的输出向量；tanh和σ为激活函数，*表示矩阵元素相乘，[]表示两个向量相连接；σ_r表示重置门激活函数；σ_z表示更新门激活函数；σ_y表示输出向量激活函数；h表示激活向量；h_t-1表示神经元t-1的激活向量；表示候选状态权重矩阵。式中，激活函数σ的计算公式为：

式中，f(x)表示σ激活函数；e^-x表示自然常数的-x次幂。σ激活函数图像如图2所示，能够把输入的连续实值压缩到0和1之间，使GRU模型的变量具备可微性、连续性、单调性，从而达到便于计算的目的。

tanh激活函数计算公式为：

式中，f(x)表示tanh激活函数；e^x表示自然常数的x次幂；e^-x表示自然常数的-x次幂；tanh激活函数图像如图3所示，能够把输入的连续实值压缩到-1和1之间，使GRU模型的变量具备可微性、连续性、单调性，从而达到便于计算的目的。本实施例得到的GRU神经元逻辑结构如图4所示，表示GRU神经元输入输出数据的处理逻辑。

ii.将GRU隐藏神经元数量参数初始设置为2000，学习率初始设置为0.001，初始化隐藏状态(hidden states)为0。

iii.将训练集输入GRU模型，计算训练过程中GRU模型的损失值，当损失值趋于稳定不再下降的时候，终止训练，得到训练完成的GRU模型结构；

iv.将测试集输入GRU模型，计算文件预测结果与实际访问文件之间的差别，得到预测准确率，从而对GRU中的网络参数进行调整，逐步提高预测精度。

将预处理过的文件访问历史序列输入调优后的Skip-Gram模型，输出文件的访问特征向量；将所述访问特征向量输入调优后的K-means算法，输出文件与类别的关系映射；将预处理过的文件访问日志根据所述文件与类别的关系映射得到用户相关的文件类别访问日志；将所述用户相关的文件类别访问日志作为GRU模型输入，得到热点文件类别输出预测数据，同时作为调优后的GRU模型、调优后的Skip-Gram模型和调优后的K-means算法组合后的模型的输出。

v.将所述组合后的模型作为面向海量小文件的用户热点数据访问预测模型。

(7)将所述面向海量小文件的用户热点数据访问预测模型部署至代理节点；输入新的用户文件访问请求，所述面向海量小文件的用户热点数据访问预测模型输出下一时刻用户待访问的文件类别；所述代理结点根据所述文件与类别关系映射，将用户待访问的文件从底层存储设备缓存至代理节点进行缓存。优选的，本实施例缓存方法采用LRU模型对数据进行缓存，缓存空间大小为30MB，再判断所述输出类别下的所有文件大小是否大于缓存空间大小，若是，则停止缓存，否则将所述输出类别下的所有文件加入系统缓存。

冷数据与长尾效应是海量小文件存储系统性能优化面临的重要瓶颈。本发明建立热度预测模型，实现热点数据的预测来解决海量非结构化数据的长尾效应，提升了海量小文件存储系统读取操作的效率，提高了系统缓存利用率，降低了磁盘负载压力，减小了系统I/O次数。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种面向海量小文件的用户热点数据访问预测方法，其特征在于，所述方法包括如下步骤：

(3)使用所述训练样本数据对Skip-Gram模型进行训练，将训练完成后的Skip-Gram模型使用所述测试样本数据进行测试，根据测试结果，对所述Skip-Gram模型参数进行调优，并将调优后的Skip-Gram模型作为文件特征提取模型；

(5)根据所述文件与类别关系映射，将所述训练样本数据的文件访问数据转化为和文件类别访问训练数据，所述测试样本数据的文件访问数据转化为文件类别访问测试数据，其转化方法包括：预先将所述文件与类别关系映射读取至内存中，读取所述训练样本数据的每一个文件名元素，在所述文件与类别关系映射中查找文件名对应的分类，将对应的文件分类序列输出到所述文件类别访问训练数据；读取所述测试样本数据的每一个文件名元素，在所述文件与类别关系映射中查找文件名对应的分类，将对应的文件分类序列输出到所述文件类别访问测试数据；

(7)将所述面向海量小文件的用户热点数据访问预测模型部署至代理节点；输入新的用户文件访问请求，所述面向海量小文件的用户热点数据访问预测模型输出下一时刻用户待访问的文件类别；代理节点根据所述文件与类别关系映射，将用户待访问的文件从底层存储设备缓存至代理节点进行缓存。

2.如权利要求1所述的用户热点数据访问预测方法，其特征在于，步骤(1)中，每两小时读取分布式海量小文件存储系统产生的文件访问日志后，将访问日志清空。

3.如权利要求1所述的用户热点数据访问预测方法，其特征在于，步骤(2)所述进行预处理的方法包括：

4.如权利要求1所述的用户热点数据访问预测方法，其特征在于，步骤(3)中，所述Skip-Gram模型采用的上下文窗口参数为5条文件访问记录，输入层维度为文件数量，隐藏层采用输入层维度数为行，输出层维度数为列的矩阵，输出层维度为300，在输出层使用softmax函数来执行回归；

5.如权利要求1所述的用户热点数据访问预测方法，其特征在于，步骤(4)中，所述K-means算法为非监督学习中的聚类算法，其输入为文件特征向量，输出为文件与类别关系映射；

6.如权利要求1所述的用户热点数据访问预测方法，其特征在于，步骤(6)中，所述GRU模型的隐藏层采用GRU，并设有两个门：更新门和重置门。

7.如权利要求6所述的用户热点数据访问预测方法，其特征在于，所述更新门和重置门公式表示如下：

r_t＝σ_r(W_r·[h_t-1,x_t])

z_t＝σ_z(W_z·[h_t-1,x_t])

y_t＝σ_y(W_o·h_t)

其中z_t表示更新门；r_t表示重置门；W_z表示更新门权重矩阵；W_r表示重置门权重矩阵；W_o表示输出门权重矩阵；h_t表示神经元t的激活向量；表示神经元t的候选激活向量；x_t表示神经元t的输入向量；y_t表示神经元t的输出向量；tanh和σ为激活函数；σ_r表示重置门激活函数；σ_z表示更新门激活函数；σ_y表示输出向量激活函数；h表示激活向量；h_t-1表示神经元t-1的激活向量；表示候选状态权重矩阵。

8.如权利要求1所述的用户热点数据访问预测方法，其特征在于，步骤(7)中，判断输出类别下的所有文件大小是否大于缓存空间大小，若是，则停止缓存，否则将所述输出类别下的所有文件加入系统缓存。

9.如权利要求1所述的用户热点数据访问预测方法，其特征在于，所述调优后的GRU模型、调优后的Skip-Gram模型和调优后的K-means算法进行组合的步骤包括：将预处理过的文件访问历史序列输入调优后的Skip-Gram模型，输出文件的访问特征向量；将所述访问特征向量输入调优后的K-means算法，输出文件与类别的关系映射；将预处理过的文件访问日志根据所述文件与类别的关系映射得到用户相关的文件类别访问日志；将所述用户相关的文件类别访问日志作为GRU模型输入，得到热点文件类别输出。