CN108462605B

CN108462605B - 一种数据的预测方法和装置

Info

Publication number: CN108462605B
Application number: CN201810120980.7A
Authority: CN
Inventors: 乔学明; 王贻亮; 张媛; 杨军洲; 刘乘麟; 荣以平; 朱伟义; 刘宁; 傅忠传; 朱东杰; 林艳; 孟平; 王超; 孙海峰; 姜婷; 汤耀
Original assignee: State Grid Corp of China SGCC; Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2022-03-15
Anticipated expiration: 2038-02-06
Also published as: CN108462605A

Abstract

本发明提供了一种数据的预测方法和装置，涉及数据处理的技术领域，该方法包括：获取文件访问日志，得到目标序列；对目标序列进行处理，得到目标训练样本和目标测试样本；将目标训练样本和目标测试样本输入到预测模型中，以根据预测模型得到的预测结果，调整预测模型，得到目标预测模型；基于目标预测模型对用户访问请求进行分析，得到预测数据集合，并基于所述预测数据集合的数据量对所述预测数据集合进行缓存。本发明解决了现有技术中存在的当用户进行数据的访问时，分布式存储系统的数据读取效率较低的技术的问题，本发明达到了提升分布式存储系统的数据读取效率的技术效果。

Description

一种数据的预测方法和装置

技术领域

本发明涉及数据处理的技术领域，尤其是涉及一种数据的预测方法和装置。

背景技术

一般的文件系统中，块的元数据管理都是由存储的应用程序决定，而每种文件系统都有自己独特的数据分布方式和维持磁盘元数据的数据结构。从海量小文件存储引发的元数据管理问题，对象存储较传统的文件系统进行一定的优化。对象存储采用扁平化命名方式，降低了多级目录组织的索引开销。同时由于采用部分元数据非集中式管理，对象存储减小了主控服务器负载，一定程度上减轻了分布式系统元数据访问瓶颈的问题。但在数据读取和缓存管理方面，对象存储就海量小文件读取效率仍不理想。

针对上述问题，还未提出有效的解决方案。

发明内容

有鉴于此，本发明的目的在于提供一种数据的预测方法和装置，以缓解了现有技术中用户在访问数据时，分布式存储系统的数据读取效率较低的技术问题。

第一方面，本发明实施例提供了一种数据的预测方法，该方法包括：获取文件访问日志，得到目标序列，其中，所述目标序列中包含访问用户的访问信息；对所述目标序列进行处理，得到目标训练样本和目标测试样本；将所述目标训练样本和所述目标测试样本输入到预测模型中，以根据所述预测模型得到的预测结果调整所述预测模型，得到目标预测模型；基于所述目标预测模型对用户访问请求进行分析，得到预测数据，并基于所述预测数据集合的数据量对所述预测数据集合进行缓存，其中，所述预测数据用于表征用户在下一时刻访问的数据集合。

进一步地，对所述文件历史访问序列进行处理，得到目标训练样本数据和目标测试样本数据包括：对所述目标序列进行归类，得到多个子目标序列，其中，所述子目标序列中包括每个用户在不同访问请求下的访问记录；对所述多个子目标序列按照预设比例进行切割，得到所述目标训练样本和所述目标测试样本。

进一步地，对所述目标序列进行归类，得到多个子目标序列包括：按照用户信息对所述目标序列进行分类，得到中间子目标序列，其中，所述中间子目标序列中包括同一用户的多个访问记录；基于所述多个访问记录中任意两个连续访问记录之间的第一时间间隔对所述中间子目标序列进行再次分类，得到所述子目标序列。

进一步地，基于所述多个访问记录中任意两个连续访问记录之间的第一时间间隔对所述中间子目标序列进行再次分类包括：将第一时间间隔所对应的任意两个连续访问记录归为同一个访问请求下的访问记录，其中，所述第一时间间隔为小于第一预设间隔的时间间隔。

进一步地，获取文件访问日志，得到目标序列包括：查询所述文件访问日志的创建时间；计算当前时间与所述创建时间之间的第二时间间隔；如果所述第二时间间隔大于第二预设时间间隔，则将文件访问日志存储至计算节点，从而得到所述目标序列，其中，所述计算节点为文件存储系统中的用于对所述文件访问日志进行处理的节点。

进一步地，将所述目标训练样本和所述目标测试样本输入到预测模型中，以根据所述预测模型得到的预测结果，调整所述预测模型，得到目标预测模型包括：构建所述预测模型；将所述目标训练样本输入所述预测模型中，对所述预测模型进行训练；将所述目标测试样本输入到训练之后的所述预测模型中，得到预测结果；基于所述预测结果，对训练之后的所述预测模型的参数进行调整，得到所述目标预测模型。

进一步地，基于所述目标预测模型对用户访问请求进行分析，得到预测数据集合，并基于所述预测数据集合的数据量对所述预测数据集合进行缓存包括：根据用户的访问请求，通过所述预测模型获取包含所述预测数据的预测数据集合；判断所述预测数据集合的数据量是否大于预设数据量；如果判断结果为是，则不将所述预测数据集合缓存至所述代理节点中，其中，所述代理节点为位于文件存储系统中的用于存储所述文件访问日志和所述预测数据集合的节点；如果判断结果为否，则将所述预测数据集合缓存至所述代理节点中。

第二方面，本发明实施例提供了一种数据的预测装置，该装置包括：获取装置，处理装置，校准装置和预测装置，其中，所述获取装置用于获取文件访问日志，得到目标序列，其中，所述目标序列中包含访问用户的访问信息；所述处理装置用于对所述目标序列进行处理，得到目标训练样本和目标测试样本；所述校准装置用于将所述目标训练样本和所述目标测试样本输入到预测模型中，以根据所述预测模型得到的预测结果调整所述预测模型，得到目标预测模型；所述预测装置用于基于所述目标预测模型对用户访问请求进行分析，得到预测数据，并基于所述预测数据集合的数据量对所述预测数据集合进行缓存，其中，所述预测数据用于表征用户在下一时刻访问的数据集合。

进一步地，所述处理装置还用于：对所述目标序列进行归类，得到多个子目标序列，其中，所述子目标序列中包括每个用户在不同访问请求下的访问记录；对所述多个子目标序列按照预设比例进行切割，得到所述目标训练样本和所述目标测试样本。

进一步地，所述处理装置还用于：按照用户信息对所述目标序列进行分类，得到中间子目标序列，其中，所述中间子目标序列中包括同一用户的多个访问记录；基于所述多个访问记录中任意两个连续访问记录之间的时间间隔对所述中间子目标序列进行再次分类，得到所述子目标序列。

在本发明实施例中，首先，获取文件访问日志，得到目标序列；然后，对目标序列进行处理，得到目标训练样本和目标测试样本；接下来，将目标训练样本和目标测试样本输入到预测模型中，以根据预测模型得到的预测结果，调整预测模型，得到目标预测模型；最后，基于目标预测模型对用户访问请求进行分析，得到预测数据集合，并基于所述预测数据集合的数据量对所述预测数据集合进行缓存。

本发明实施例中，通过目标预测模型对用户访问请求进行分析，从而得到预测数据集合的方式，能够将用户未来可能访问的数据进行缓存，减少了系统输入/输出的次数，整体上提升了分布式存储系统的读取效率，解决了现有技术中存在的当用户进行数据的访问时，分布式存储系统的数据读取效率较低的技术的问题，本发明达到了提升分布式存储系统的数据读取效率的技术效果。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据的预测方法的流程图；

图2为本发明实施例提供的另一种数据的预测方法的流程图；

图3为本发明实施例提供的一种数据的预测方法的详细流程图；

图4为本发明实施例提供的一种数据的预测装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

根据本发明实施例，提供了一种数据的预测方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种数据的预测方法，如图1所示，该方法包括如下步骤：

步骤S102，获取文件访问日志，得到目标序列，其中，所述目标序列中包含访问用户的访问信息。

步骤S104，对所述目标序列进行处理，得到目标训练样本和目标测试样本。

步骤S106，将所述目标训练样本和所述目标测试样本输入到预测模型中，以根据所述预测模型得到的预测结果，调整所述预测模型，得到目标预测模型。

步骤S108，基于所述目标预测模型对用户访问请求进行分析，得到预测数据集合，并基于所述预测数据集合的数据量对所述预测数据集合进行缓存，其中，所述预测数据集合用于表征用户在下一时刻访问的数据集合。

需要说明的是，在本发明实施例中，采用的预测模型为LSTM-RNN模型，所述文件访问日志为从分布式存储系统中存储的用于存储用户访问行为数据的日志。

在本发明实施例中，如图2所示，步骤S102，获取文件访问日志，得到目标序列包括：

步骤S1021，查询所述文件访问日志的创建时间。

步骤S1022，计算当前时间与所述创建时间之间的第二时间间隔。

步骤S1023，如果所述第二时间间隔大于第二预设时间间隔，则将文件访问日志存储至计算节点，从而得到所述目标序列，其中，所述计算节点为处于文件存储系统中的用于对所述文件访问日志进行处理的节点。

在本发明实施例中，分布式存储系统中的文件访问日志以文本文件的形式存储在代理节点中。本发明实施例中，可以查询代理节点中文件访问日志的创建时间，然后，计算当前时间和该创建时间之间的第二时间间隔，其中，所述第二预设时间间隔可以为2小时，所述第二时间间隔由模型测试人员自行设定的，在本发明实施例中不作具体限定。

如果所述第二时间间隔大于第二预设时间间隔，则将文件访问日志存储至计算节点中，从而得到所述目标序列。同时将所述文件访问日志备份至代理节点，命名为当前时间戳。

如果所述第二时间间隔小于第二预设时间间隔，则不对所述文件访问日志进行操作，在本发明实施例中，通过对分布式存储系统的代理节点中的文件访问日志进行查询和分析，得到所述目标序列。

在本发明实施例中，如图2所示，步骤S104，对所述目标序列进行处理，得到目标训练样本和目标测试样本包括：

步骤S1041，对所述目标序列进行归类，得到多个子目标序列，其中，所述子目标序列中包括每个用户在不同访问请求下的访问记录。

步骤S1042，对所述多个子目标序列按照预设比例进行切割，得到所述目标训练样本和所述目标测试样本。

在本发明实施例中，首先通过对所述目标序列进行归类，得到多个子目标序列；接着，对所述多个子目标序列按照预设比例进行切割，得到目标训练样本和目标测试样本。

例如，所述目标序列中包含1000个目标子序列，将其中700个目标子序列组成目标训练样本，将剩下的300目标子序列组成目标测试样本；所述预设比例由用户自行设定，在本发明实施例中不做具体限定。

可选地，如图3所示，步骤S1041，对所述目标序列进行归类，得到多个子目标序列还包括：

步骤S21，按照用户信息对所述目标序列进行分类，得到中间子目标序列，其中，所述中间子目标序列中包括同一用户的多个访问记录。

步骤S22，基于所述多个访问记录中任意两个连续访问记录之间的时间间隔对所述中间子目标序列进行再次分类，得到所述子目标序列。

在本发明实施例中，首先，对目标序列逐行读取，将每一行中任意两个连续的访问信息用空格分离，然后获取每一个访问信息的创建时间，组成时间列，获取每一个访问信息的来源，组成用户信息列；以及获取每一个访问信息的访问对象名，组成访问对象名列。

将所述时间列，所述用户信息列和所述访问对象名列保存至数组a₀中，其中，由于所述目标序列的访问信息是时间有序的，所以数组a₀中的数据也是时间有序的。

然后，将所述目标序列按照数组a₀中的所述用户信息列和所述时间列进行分类，得到多个所述中间子目标序列，其中，每个所述中间目标子序列中的每个访问信息占据一行。

最后，按照数组a₀中的所述访问对象名列，将每个所述中间子目标序列中的每个访问请求的访问对象名添加到相对应的访问请求之后，并用空格将每个访问请求的访问对象名和相对应的访问请求隔开；接着，基于每个所述中间目标子序列中任意连个连续访问记录之间的第一时间间隔对所述中间目标子序列再次进行分类，得到所述子目标序列。即，如果第i行的访问请求与第i-1行的访问请求的所述第一时间间隔大于第一预设时间间隔，则将这两个访问请求分离为两次访问请求，其中，所述第一预设时间间隔可以为5秒，所述第一预设时间间隔由用户自行设定，在本发明实施例中不做具体限定。

可选地，如图3所示，所述步骤S22，基于所述多个访问记录中任意两个连续访问记录之间的第一时间间隔对所述中间子目标序列进行再次分类还包括：

步骤S221，将第一时间间隔所对应的任意两个连续访问记录归为同一个访问请求下的访问记录，其中，所述第一时间间隔为小于第一预设间隔的时间间隔。

在本发明实施例中，如果第i行的访问请求与第i-1行的访问请求的所述第一时间间隔小于第一预设时间间隔，则将这两个访问请求视为一个访问请求。

在本发明实施例中，如图2所示，步骤S106，将所述目标训练样本和所述目标测试样本输入到预测模型中，以根据所述预测模型得到的预测结果，调整所述预测模型，得到目标预测模型还包括：

步骤S1061，构建所述预测模型。

步骤S1062，将所述目标训练样本输入所述预测模型中，对所述预测模型进行训练。

步骤S1063，将所述目标测试样本输入到训练之后的所述预测模型中，得到所述预测模型的预测结果。

步骤S1064，基于所述预测模型的预测结果，对训练之后的所述预测模型的参数进行调整，最大化所述预测模型的预测精度，得到所述目标预测模型。

在本发明实施例中，首先，构建所述预测模型，对所述预测模型的输入门公式，遗忘门公式，输出门公式和单元激活向量公式进行设置，公式如下：

f_t＝σ(W_f·[C_t-1,h_t-1,x_t]+b_f)

C′_t＝tanh(W_C·[h_t-1,x_t]+b_C)

i_t＝σ(W_i·[C_t-1,h_t-1,x_t]+b_i)

C_t＝f_t*C_t-1+(1-f_t)*C′_t

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中，f_t表示遗忘门，i_t表示输入门，o_t表示输出门，C_t表示神经元在t单元激活向量，W_f表示遗忘门权重矩阵，W_i表示输入门权重矩阵，W_o表示输出门权重矩阵，W_C表示隐藏层神经元与激活向量之间的权重矩阵，C_t′表示更新候选值，h_t表示神经元t的输出向量，x_t表示神经元t的输入向量。b_f表示遗忘门偏差值b_i表示输入门偏差值，b_o表示输出门偏差值，b_C表示神经元激活向量偏差值，tanh和σ为激活函数。

σ激活函数计算公式为：

tanh激活函数计算公式为：

将所述预测模型的隐藏神经元数量参数初始设置为2000，学习率初始设置为0.001，初始化隐藏状态设置为0。

然后，将所述目标训练样本输入预测模型，计算训练过程中所述预测模型的损失值，当损失值趋于稳定不再下降的时候，终止训练，得到训练完成的所述预测模型结构。

最后，将所述目标测试样本输入到完成训练的所述预测模型中，计算文件预测结果与实际情况之间的差别，得到预测准确率，从而对所述预测模型中的网络参数进行调整，最大化所述预测模型的预测精度，得到所述目标预测模型。

在本发明实施例中，通过对所述预测模型的训练，测试和参数调整，得到预测精确度最高的所述预测模型，将所述精确度最高的预测模型作为所述目标预测模型，并将所述目标预测模型作为以后预测用户在对分布式存储系统中的数据的预测模型。

在本发明实施例中，如图2所示，所述步骤S108，基于所述目标预测模型对用户访问请求进行分析，得到预测数据集合，并基于所述预测数据集合的数据量对所述预测数据集合进行缓存包括：

S1081，根据用户的访问请求，通过所述预测模型获取包含所述预测数据的预测数据集合；

步骤S1082，判断所述预测数据集合的数据量是否大于预设数据量。

步骤S1083，如果判断结果为是，则不将所述预测数据集合缓存至所述代理节点中，其中，所述代理节点为位于文件存储系统中的用于存储所述文件访问日志和所述预测数据集合的节点。

步骤S1084，如果判断结果为否，则将所述预测数据集合缓存至所述代理节点中。

在本发明实施例中，将所述目标预测模型部署在所述分布式存储系统的代理节点上，当所述目标预测模型获取到用户请求信息时，所述目标预测模型输出所述预测数据集合，并对所述预测数据集合包含的数据量的大小进行判断。

如果所述预测数据集合包含的数据量大于预设数据量，则不将所述数据量大于预设数据量的所述预测数据集合缓存至代理节点；如果所述预测数据集合包含的数据量小于预设数据量，则将所述数据量小于预设数据量的所述预测数据集合缓存至代理节点，其中，所述预设数量由用户自行设定，在本发明实施例中不做具体限定。

本发明实施例通过将所述预测数据集合缓存至代理节点，从而减少了分布式存储系统的I/O次数，提升了分布式存储系统的数据读取效率。

实施例二：

本发明实施例还提供了一种数据的预测装置，该数据的预测装置用于执行本发明实施例上述内容所提供的数据的预测方法，以下对本发明实施例提供的数据的预测装置做具体介绍。

图4为根据本发明实施例的一种数据的预测装置示意图，如图4所示，该机器学习模型效用的评估装置主要包括：获取装置10，处理装置20，校准装置30和测试装置40，其中，

所述获取装置10用于获取文件访问日志，得到目标序列，其中，所述目标序列中包含访问用户的访问信息；

所述处理装置20用于对所述目标序列进行处理，得到目标训练样本和目标测试样本；

所述校准装置30用于将所述目标训练样本和所述目标测试样本输入到预测模型中，以根据所述预测模型得到的预测结果调整所述预测模型，得到目标预测模型；

所述预测装置40用于基于所述目标预测模型对用户访问请求进行分析，得到预测数据，并基于所述预测数据集合的数据量对所述预测数据集合进行缓存，其中，所述预测数据用于表征用户在下一时刻访问的数据集合。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据的预测方法，其特征在于，包括：

获取文件访问日志，得到目标序列，其中，所述目标序列中包含访问用户的访问信息；

对所述目标序列进行处理，得到目标训练样本和目标测试样本，具体包括以下步骤：对所述目标序列进行归类，得到多个子目标序列，其中，所述子目标序列中包括每个用户在不同访问请求下的访问记录；对所述多个子目标序列按照预设比例进行切割，得到所述目标训练样本和所述目标测试样本；其中，对所述目标序列进行归类，得到多个子目标序列包括：按照用户信息对所述目标序列进行分类，得到中间子目标序列，其中，所述中间子目标序列中包括同一用户的多个访问记录；基于所述多个访问记录中任意两个连续访问记录之间的第一时间间隔对所述中间子目标序列进行再次分类，得到所述子目标序列；上述基于所述多个访问记录中任意两个连续访问记录之间的第一时间间隔对所述中间子目标序列进行再次分类包括：将第一时间间隔所对应的任意两个连续访问记录归为同一个访问请求下的访问记录，其中，所述第一时间间隔为小于第一预设间隔的时间间隔；

将所述目标训练样本和所述目标测试样本输入到预测模型中，以根据所述预测模型得到的预测结果，调整所述预测模型，得到目标预测模型；

基于所述目标预测模型对用户访问请求进行分析，得到预测数据集合，并基于所述预测数据集合的数据量对所述预测数据集合进行缓存，其中，所述预测数据集合用于表征用户在下一时刻访问的数据集合；上述基于所述目标预测模型对用户访问请求进行分析，得到预测数据集合，并基于所述预测数据集合的数据量对所述预测数据集合进行缓存包括：根据用户的访问请求，通过所述目标预测模型获取包含所述预测数据的预测数据集合；判断所述预测数据集合的数据量是否大于预设数据量；如果判断结果为是，则不将所述预测数据集合缓存至代理节点中，其中，所述代理节点为位于文件存储系统中的用于存储所述文件访问日志和所述预测数据集合的节点；如果判断结果为否，则将所述预测数据集合缓存至所述代理节点中。

2.根据权利要求1所述的方法，其特征在于，获取文件访问日志，得到目标序列包括：

查询所述文件访问日志的创建时间；

计算当前时间与所述创建时间之间的第二时间间隔；

如果所述第二时间间隔大于第二预设时间间隔，则将文件访问日志存储至计算节点，从而得到所述目标序列，其中，所述计算节点为处于文件存储系统中的用于对所述文件访问日志进行处理的节点。

3.根据权利要求1所述的方法，其特征在于，将所述目标训练样本和所述目标测试样本输入到预测模型中，以根据所述预测模型得到的预测结果，调整所述预测模型，得到目标预测模型包括：

构建所述预测模型；

将所述目标训练样本输入所述预测模型中，对所述预测模型进行训练；

将所述目标测试样本输入到训练之后的所述预测模型中，得到所述预测模型的预测结果；

基于所述预测模型的预测结果，对训练之后的所述预测模型的参数进行调整，最大化所述预测模型的预测精度，得到所述目标预测模型。

4.一种数据的预测装置，其特征在于，所述装置包括：获取装置，处理装置，校准装置和预测装置，其中，

所述获取装置用于获取文件访问日志，得到目标序列，其中，所述目标序列中包含访问用户的访问信息；

所述处理装置用于对所述目标序列进行处理，得到目标训练样本和目标测试样本，具体用于：对所述目标序列进行归类，得到多个子目标序列，其中，所述子目标序列中包括每个用户在不同访问请求下的访问记录；对所述多个子目标序列按照预设比例进行切割，得到所述目标训练样本和所述目标测试样本；其中，对所述目标序列进行归类，得到多个子目标序列包括：按照用户信息对所述目标序列进行分类，得到中间子目标序列，其中，所述中间子目标序列中包括同一用户的多个访问记录；基于所述多个访问记录中任意两个连续访问记录之间的第一时间间隔对所述中间子目标序列进行再次分类，得到所述子目标序列；上述基于所述多个访问记录中任意两个连续访问记录之间的第一时间间隔对所述中间子目标序列进行再次分类包括：将第一时间间隔所对应的任意两个连续访问记录归为同一个访问请求下的访问记录，其中，所述第一时间间隔为小于第一预设间隔的时间间隔；

所述校准装置用于将所述目标训练样本和所述目标测试样本输入到预测模型中，以根据所述预测模型得到的预测结果，调整所述预测模型，得到目标预测模型；

所述预测装置用于基于所述目标预测模型对用户访问请求进行分析，得到预测数据集合，并基于所述预测数据集合的数据量对所述预测数据集合进行缓存，其中，所述预测数据集合用于表征用户在下一时刻访问的数据集合；上述基于所述目标预测模型对用户访问请求进行分析，得到预测数据集合，并基于所述预测数据集合的数据量对所述预测数据集合进行缓存包括：根据用户的访问请求，通过所述目标预测模型获取包含所述预测数据的预测数据集合；判断所述预测数据集合的数据量是否大于预设数据量；如果判断结果为是，则不将所述预测数据集合缓存至代理节点中，其中，所述代理节点为位于文件存储系统中的用于存储所述文件访问日志和所述预测数据集合的节点；如果判断结果为否，则将所述预测数据集合缓存至所述代理节点中。