CN108462605B - 一种数据的预测方法和装置 - Google Patents
一种数据的预测方法和装置 Download PDFInfo
- Publication number
- CN108462605B CN108462605B CN201810120980.7A CN201810120980A CN108462605B CN 108462605 B CN108462605 B CN 108462605B CN 201810120980 A CN201810120980 A CN 201810120980A CN 108462605 B CN108462605 B CN 108462605B
- Authority
- CN
- China
- Prior art keywords
- target
- prediction
- prediction model
- data set
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000012360 testing method Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 230000004913 activation Effects 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据的预测方法和装置,涉及数据处理的技术领域,该方法包括:获取文件访问日志,得到目标序列;对目标序列进行处理,得到目标训练样本和目标测试样本;将目标训练样本和目标测试样本输入到预测模型中,以根据预测模型得到的预测结果,调整预测模型,得到目标预测模型;基于目标预测模型对用户访问请求进行分析,得到预测数据集合,并基于所述预测数据集合的数据量对所述预测数据集合进行缓存。本发明解决了现有技术中存在的当用户进行数据的访问时,分布式存储系统的数据读取效率较低的技术的问题,本发明达到了提升分布式存储系统的数据读取效率的技术效果。
Description
技术领域
本发明涉及数据处理的技术领域,尤其是涉及一种数据的预测方法和装置。
背景技术
一般的文件系统中,块的元数据管理都是由存储的应用程序决定,而每种文件系统都有自己独特的数据分布方式和维持磁盘元数据的数据结构。从海量小文件存储引发的元数据管理问题,对象存储较传统的文件系统进行一定的优化。对象存储采用扁平化命名方式,降低了多级目录组织的索引开销。同时由于采用部分元数据非集中式管理,对象存储减小了主控服务器负载,一定程度上减轻了分布式系统元数据访问瓶颈的问题。但在数据读取和缓存管理方面,对象存储就海量小文件读取效率仍不理想。
针对上述问题,还未提出有效的解决方案。
发明内容
有鉴于此,本发明的目的在于提供一种数据的预测方法和装置,以缓解了现有技术中用户在访问数据时,分布式存储系统的数据读取效率较低的技术问题。
第一方面,本发明实施例提供了一种数据的预测方法,该方法包括:获取文件访问日志,得到目标序列,其中,所述目标序列中包含访问用户的访问信息;对所述目标序列进行处理,得到目标训练样本和目标测试样本;将所述目标训练样本和所述目标测试样本输入到预测模型中,以根据所述预测模型得到的预测结果调整所述预测模型,得到目标预测模型;基于所述目标预测模型对用户访问请求进行分析,得到预测数据,并基于所述预测数据集合的数据量对所述预测数据集合进行缓存,其中,所述预测数据用于表征用户在下一时刻访问的数据集合。
进一步地,对所述文件历史访问序列进行处理,得到目标训练样本数据和目标测试样本数据包括:对所述目标序列进行归类,得到多个子目标序列,其中,所述子目标序列中包括每个用户在不同访问请求下的访问记录;对所述多个子目标序列按照预设比例进行切割,得到所述目标训练样本和所述目标测试样本。
进一步地,对所述目标序列进行归类,得到多个子目标序列包括:按照用户信息对所述目标序列进行分类,得到中间子目标序列,其中,所述中间子目标序列中包括同一用户的多个访问记录;基于所述多个访问记录中任意两个连续访问记录之间的第一时间间隔对所述中间子目标序列进行再次分类,得到所述子目标序列。
进一步地,基于所述多个访问记录中任意两个连续访问记录之间的第一时间间隔对所述中间子目标序列进行再次分类包括:将第一时间间隔所对应的任意两个连续访问记录归为同一个访问请求下的访问记录,其中,所述第一时间间隔为小于第一预设间隔的时间间隔。
进一步地,获取文件访问日志,得到目标序列包括:查询所述文件访问日志的创建时间;计算当前时间与所述创建时间之间的第二时间间隔;如果所述第二时间间隔大于第二预设时间间隔,则将文件访问日志存储至计算节点,从而得到所述目标序列,其中,所述计算节点为文件存储系统中的用于对所述文件访问日志进行处理的节点。
进一步地,将所述目标训练样本和所述目标测试样本输入到预测模型中,以根据所述预测模型得到的预测结果,调整所述预测模型,得到目标预测模型包括:构建所述预测模型;将所述目标训练样本输入所述预测模型中,对所述预测模型进行训练;将所述目标测试样本输入到训练之后的所述预测模型中,得到预测结果;基于所述预测结果,对训练之后的所述预测模型的参数进行调整,得到所述目标预测模型。
进一步地,基于所述目标预测模型对用户访问请求进行分析,得到预测数据集合,并基于所述预测数据集合的数据量对所述预测数据集合进行缓存包括:根据用户的访问请求,通过所述预测模型获取包含所述预测数据的预测数据集合;判断所述预测数据集合的数据量是否大于预设数据量;如果判断结果为是,则不将所述预测数据集合缓存至所述代理节点中,其中,所述代理节点为位于文件存储系统中的用于存储所述文件访问日志和所述预测数据集合的节点;如果判断结果为否,则将所述预测数据集合缓存至所述代理节点中。
第二方面,本发明实施例提供了一种数据的预测装置,该装置包括:获取装置,处理装置,校准装置和预测装置,其中,所述获取装置用于获取文件访问日志,得到目标序列,其中,所述目标序列中包含访问用户的访问信息;所述处理装置用于对所述目标序列进行处理,得到目标训练样本和目标测试样本;所述校准装置用于将所述目标训练样本和所述目标测试样本输入到预测模型中,以根据所述预测模型得到的预测结果调整所述预测模型,得到目标预测模型;所述预测装置用于基于所述目标预测模型对用户访问请求进行分析,得到预测数据,并基于所述预测数据集合的数据量对所述预测数据集合进行缓存,其中,所述预测数据用于表征用户在下一时刻访问的数据集合。
进一步地,所述处理装置还用于:对所述目标序列进行归类,得到多个子目标序列,其中,所述子目标序列中包括每个用户在不同访问请求下的访问记录;对所述多个子目标序列按照预设比例进行切割,得到所述目标训练样本和所述目标测试样本。
进一步地,所述处理装置还用于:按照用户信息对所述目标序列进行分类,得到中间子目标序列,其中,所述中间子目标序列中包括同一用户的多个访问记录;基于所述多个访问记录中任意两个连续访问记录之间的时间间隔对所述中间子目标序列进行再次分类,得到所述子目标序列。
在本发明实施例中,首先,获取文件访问日志,得到目标序列;然后,对目标序列进行处理,得到目标训练样本和目标测试样本;接下来,将目标训练样本和目标测试样本输入到预测模型中,以根据预测模型得到的预测结果,调整预测模型,得到目标预测模型;最后,基于目标预测模型对用户访问请求进行分析,得到预测数据集合,并基于所述预测数据集合的数据量对所述预测数据集合进行缓存。
本发明实施例中,通过目标预测模型对用户访问请求进行分析,从而得到预测数据集合的方式,能够将用户未来可能访问的数据进行缓存,减少了系统输入/输出的次数,整体上提升了分布式存储系统的读取效率,解决了现有技术中存在的当用户进行数据的访问时,分布式存储系统的数据读取效率较低的技术的问题,本发明达到了提升分布式存储系统的数据读取效率的技术效果。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据的预测方法的流程图;
图2为本发明实施例提供的另一种数据的预测方法的流程图;
图3为本发明实施例提供的一种数据的预测方法的详细流程图;
图4为本发明实施例提供的一种数据的预测装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
根据本发明实施例,提供了一种数据的预测方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种数据的预测方法,如图1所示,该方法包括如下步骤:
步骤S102,获取文件访问日志,得到目标序列,其中,所述目标序列中包含访问用户的访问信息。
步骤S104,对所述目标序列进行处理,得到目标训练样本和目标测试样本。
步骤S106,将所述目标训练样本和所述目标测试样本输入到预测模型中,以根据所述预测模型得到的预测结果,调整所述预测模型,得到目标预测模型。
步骤S108,基于所述目标预测模型对用户访问请求进行分析,得到预测数据集合,并基于所述预测数据集合的数据量对所述预测数据集合进行缓存,其中,所述预测数据集合用于表征用户在下一时刻访问的数据集合。
本发明实施例中,通过目标预测模型对用户访问请求进行分析,从而得到预测数据集合的方式,能够将用户未来可能访问的数据进行缓存,减少了系统输入/输出的次数,整体上提升了分布式存储系统的读取效率,解决了现有技术中存在的当用户进行数据的访问时,分布式存储系统的数据读取效率较低的技术的问题,本发明达到了提升分布式存储系统的数据读取效率的技术效果。
需要说明的是,在本发明实施例中,采用的预测模型为LSTM-RNN模型,所述文件访问日志为从分布式存储系统中存储的用于存储用户访问行为数据的日志。
在本发明实施例中,如图2所示,步骤S102,获取文件访问日志,得到目标序列包括:
步骤S1021,查询所述文件访问日志的创建时间。
步骤S1022,计算当前时间与所述创建时间之间的第二时间间隔。
步骤S1023,如果所述第二时间间隔大于第二预设时间间隔,则将文件访问日志存储至计算节点,从而得到所述目标序列,其中,所述计算节点为处于文件存储系统中的用于对所述文件访问日志进行处理的节点。
在本发明实施例中,分布式存储系统中的文件访问日志以文本文件的形式存储在代理节点中。本发明实施例中,可以查询代理节点中文件访问日志的创建时间,然后,计算当前时间和该创建时间之间的第二时间间隔,其中,所述第二预设时间间隔可以为2小时,所述第二时间间隔由模型测试人员自行设定的,在本发明实施例中不作具体限定。
如果所述第二时间间隔大于第二预设时间间隔,则将文件访问日志存储至计算节点中,从而得到所述目标序列。同时将所述文件访问日志备份至代理节点,命名为当前时间戳。
如果所述第二时间间隔小于第二预设时间间隔,则不对所述文件访问日志进行操作,在本发明实施例中,通过对分布式存储系统的代理节点中的文件访问日志进行查询和分析,得到所述目标序列。
在本发明实施例中,如图2所示,步骤S104,对所述目标序列进行处理,得到目标训练样本和目标测试样本包括:
步骤S1041,对所述目标序列进行归类,得到多个子目标序列,其中,所述子目标序列中包括每个用户在不同访问请求下的访问记录。
步骤S1042,对所述多个子目标序列按照预设比例进行切割,得到所述目标训练样本和所述目标测试样本。
在本发明实施例中,首先通过对所述目标序列进行归类,得到多个子目标序列;接着,对所述多个子目标序列按照预设比例进行切割,得到目标训练样本和目标测试样本。
例如,所述目标序列中包含1000个目标子序列,将其中700个目标子序列组成目标训练样本,将剩下的300目标子序列组成目标测试样本;所述预设比例由用户自行设定,在本发明实施例中不做具体限定。
可选地,如图3所示,步骤S1041,对所述目标序列进行归类,得到多个子目标序列还包括:
步骤S21,按照用户信息对所述目标序列进行分类,得到中间子目标序列,其中,所述中间子目标序列中包括同一用户的多个访问记录。
步骤S22,基于所述多个访问记录中任意两个连续访问记录之间的时间间隔对所述中间子目标序列进行再次分类,得到所述子目标序列。
在本发明实施例中,首先,对目标序列逐行读取,将每一行中任意两个连续的访问信息用空格分离,然后获取每一个访问信息的创建时间,组成时间列,获取每一个访问信息的来源,组成用户信息列;以及获取每一个访问信息的访问对象名,组成访问对象名列。
将所述时间列,所述用户信息列和所述访问对象名列保存至数组a0中,其中,由于所述目标序列的访问信息是时间有序的,所以数组a0中的数据也是时间有序的。
然后,将所述目标序列按照数组a0中的所述用户信息列和所述时间列进行分类,得到多个所述中间子目标序列,其中,每个所述中间目标子序列中的每个访问信息占据一行。
最后,按照数组a0中的所述访问对象名列,将每个所述中间子目标序列中的每个访问请求的访问对象名添加到相对应的访问请求之后,并用空格将每个访问请求的访问对象名和相对应的访问请求隔开;接着,基于每个所述中间目标子序列中任意连个连续访问记录之间的第一时间间隔对所述中间目标子序列再次进行分类,得到所述子目标序列。即,如果第i行的访问请求与第i-1行的访问请求的所述第一时间间隔大于第一预设时间间隔,则将这两个访问请求分离为两次访问请求,其中,所述第一预设时间间隔可以为5秒,所述第一预设时间间隔由用户自行设定,在本发明实施例中不做具体限定。
可选地,如图3所示,所述步骤S22,基于所述多个访问记录中任意两个连续访问记录之间的第一时间间隔对所述中间子目标序列进行再次分类还包括:
步骤S221,将第一时间间隔所对应的任意两个连续访问记录归为同一个访问请求下的访问记录,其中,所述第一时间间隔为小于第一预设间隔的时间间隔。
在本发明实施例中,如果第i行的访问请求与第i-1行的访问请求的所述第一时间间隔小于第一预设时间间隔,则将这两个访问请求视为一个访问请求。
在本发明实施例中,如图2所示,步骤S106,将所述目标训练样本和所述目标测试样本输入到预测模型中,以根据所述预测模型得到的预测结果,调整所述预测模型,得到目标预测模型还包括:
步骤S1061,构建所述预测模型。
步骤S1062,将所述目标训练样本输入所述预测模型中,对所述预测模型进行训练。
步骤S1063,将所述目标测试样本输入到训练之后的所述预测模型中,得到所述预测模型的预测结果。
步骤S1064,基于所述预测模型的预测结果,对训练之后的所述预测模型的参数进行调整,最大化所述预测模型的预测精度,得到所述目标预测模型。
在本发明实施例中,首先,构建所述预测模型,对所述预测模型的输入门公式,遗忘门公式,输出门公式和单元激活向量公式进行设置,公式如下:
ft=σ(Wf·[Ct-1,ht-1,xt]+bf)
C′t=tanh(WC·[ht-1,xt]+bC)
it=σ(Wi·[Ct-1,ht-1,xt]+bi)
Ct=ft*Ct-1+(1-ft)*C′t
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,ft表示遗忘门,it表示输入门,ot表示输出门,Ct表示神经元在t单元激活向量,Wf表示遗忘门权重矩阵,Wi表示输入门权重矩阵,Wo表示输出门权重矩阵,WC表示隐藏层神经元与激活向量之间的权重矩阵,Ct′表示更新候选值,ht表示神经元t的输出向量,xt表示神经元t的输入向量。bf表示遗忘门偏差值bi表示输入门偏差值,bo表示输出门偏差值,bC表示神经元激活向量偏差值,tanh和σ为激活函数。
将所述预测模型的隐藏神经元数量参数初始设置为2000,学习率初始设置为0.001,初始化隐藏状态设置为0。
然后,将所述目标训练样本输入预测模型,计算训练过程中所述预测模型的损失值,当损失值趋于稳定不再下降的时候,终止训练,得到训练完成的所述预测模型结构。
最后,将所述目标测试样本输入到完成训练的所述预测模型中,计算文件预测结果与实际情况之间的差别,得到预测准确率,从而对所述预测模型中的网络参数进行调整,最大化所述预测模型的预测精度,得到所述目标预测模型。
在本发明实施例中,通过对所述预测模型的训练,测试和参数调整,得到预测精确度最高的所述预测模型,将所述精确度最高的预测模型作为所述目标预测模型,并将所述目标预测模型作为以后预测用户在对分布式存储系统中的数据的预测模型。
在本发明实施例中,如图2所示,所述步骤S108,基于所述目标预测模型对用户访问请求进行分析,得到预测数据集合,并基于所述预测数据集合的数据量对所述预测数据集合进行缓存包括:
S1081,根据用户的访问请求,通过所述预测模型获取包含所述预测数据的预测数据集合;
步骤S1082,判断所述预测数据集合的数据量是否大于预设数据量。
步骤S1083,如果判断结果为是,则不将所述预测数据集合缓存至所述代理节点中,其中,所述代理节点为位于文件存储系统中的用于存储所述文件访问日志和所述预测数据集合的节点。
步骤S1084,如果判断结果为否,则将所述预测数据集合缓存至所述代理节点中。
在本发明实施例中,将所述目标预测模型部署在所述分布式存储系统的代理节点上,当所述目标预测模型获取到用户请求信息时,所述目标预测模型输出所述预测数据集合,并对所述预测数据集合包含的数据量的大小进行判断。
如果所述预测数据集合包含的数据量大于预设数据量,则不将所述数据量大于预设数据量的所述预测数据集合缓存至代理节点;如果所述预测数据集合包含的数据量小于预设数据量,则将所述数据量小于预设数据量的所述预测数据集合缓存至代理节点,其中,所述预设数量由用户自行设定,在本发明实施例中不做具体限定。
本发明实施例通过将所述预测数据集合缓存至代理节点,从而减少了分布式存储系统的I/O次数,提升了分布式存储系统的数据读取效率。
实施例二:
本发明实施例还提供了一种数据的预测装置,该数据的预测装置用于执行本发明实施例上述内容所提供的数据的预测方法,以下对本发明实施例提供的数据的预测装置做具体介绍。
图4为根据本发明实施例的一种数据的预测装置示意图,如图4所示,该机器学习模型效用的评估装置主要包括:获取装置10,处理装置20,校准装置30和测试装置40,其中,
所述获取装置10用于获取文件访问日志,得到目标序列,其中,所述目标序列中包含访问用户的访问信息;
所述处理装置20用于对所述目标序列进行处理,得到目标训练样本和目标测试样本;
所述校准装置30用于将所述目标训练样本和所述目标测试样本输入到预测模型中,以根据所述预测模型得到的预测结果调整所述预测模型,得到目标预测模型;
所述预测装置40用于基于所述目标预测模型对用户访问请求进行分析,得到预测数据,并基于所述预测数据集合的数据量对所述预测数据集合进行缓存,其中,所述预测数据用于表征用户在下一时刻访问的数据集合。
本发明实施例中,通过目标预测模型对用户访问请求进行分析,从而得到预测数据集合的方式,能够将用户未来可能访问的数据进行缓存,减少了系统输入/输出的次数,整体上提升了分布式存储系统的读取效率,解决了现有技术中存在的当用户进行数据的访问时,分布式存储系统的数据读取效率较低的技术的问题,本发明达到了提升分布式存储系统的数据读取效率的技术效果。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (4)
1.一种数据的预测方法,其特征在于,包括:
获取文件访问日志,得到目标序列,其中,所述目标序列中包含访问用户的访问信息;
对所述目标序列进行处理,得到目标训练样本和目标测试样本,具体包括以下步骤:对所述目标序列进行归类,得到多个子目标序列,其中,所述子目标序列中包括每个用户在不同访问请求下的访问记录;对所述多个子目标序列按照预设比例进行切割,得到所述目标训练样本和所述目标测试样本;其中,对所述目标序列进行归类,得到多个子目标序列包括:按照用户信息对所述目标序列进行分类,得到中间子目标序列,其中,所述中间子目标序列中包括同一用户的多个访问记录;基于所述多个访问记录中任意两个连续访问记录之间的第一时间间隔对所述中间子目标序列进行再次分类,得到所述子目标序列;上述基于所述多个访问记录中任意两个连续访问记录之间的第一时间间隔对所述中间子目标序列进行再次分类包括:将第一时间间隔所对应的任意两个连续访问记录归为同一个访问请求下的访问记录,其中,所述第一时间间隔为小于第一预设间隔的时间间隔;
将所述目标训练样本和所述目标测试样本输入到预测模型中,以根据所述预测模型得到的预测结果,调整所述预测模型,得到目标预测模型;
基于所述目标预测模型对用户访问请求进行分析,得到预测数据集合,并基于所述预测数据集合的数据量对所述预测数据集合进行缓存,其中,所述预测数据集合用于表征用户在下一时刻访问的数据集合;上述基于所述目标预测模型对用户访问请求进行分析,得到预测数据集合,并基于所述预测数据集合的数据量对所述预测数据集合进行缓存包括:根据用户的访问请求,通过所述目标预测模型获取包含所述预测数据的预测数据集合;判断所述预测数据集合的数据量是否大于预设数据量;如果判断结果为是,则不将所述预测数据集合缓存至代理节点中,其中,所述代理节点为位于文件存储系统中的用于存储所述文件访问日志和所述预测数据集合的节点;如果判断结果为否,则将所述预测数据集合缓存至所述代理节点中。
2.根据权利要求1所述的方法,其特征在于,获取文件访问日志,得到目标序列包括:
查询所述文件访问日志的创建时间;
计算当前时间与所述创建时间之间的第二时间间隔;
如果所述第二时间间隔大于第二预设时间间隔,则将文件访问日志存储至计算节点,从而得到所述目标序列,其中,所述计算节点为处于文件存储系统中的用于对所述文件访问日志进行处理的节点。
3.根据权利要求1所述的方法,其特征在于,将所述目标训练样本和所述目标测试样本输入到预测模型中,以根据所述预测模型得到的预测结果,调整所述预测模型,得到目标预测模型包括:
构建所述预测模型;
将所述目标训练样本输入所述预测模型中,对所述预测模型进行训练;
将所述目标测试样本输入到训练之后的所述预测模型中,得到所述预测模型的预测结果;
基于所述预测模型的预测结果,对训练之后的所述预测模型的参数进行调整,最大化所述预测模型的预测精度,得到所述目标预测模型。
4.一种数据的预测装置,其特征在于,所述装置包括:获取装置,处理装置,校准装置和预测装置,其中,
所述获取装置用于获取文件访问日志,得到目标序列,其中,所述目标序列中包含访问用户的访问信息;
所述处理装置用于对所述目标序列进行处理,得到目标训练样本和目标测试样本,具体用于:对所述目标序列进行归类,得到多个子目标序列,其中,所述子目标序列中包括每个用户在不同访问请求下的访问记录;对所述多个子目标序列按照预设比例进行切割,得到所述目标训练样本和所述目标测试样本;其中,对所述目标序列进行归类,得到多个子目标序列包括:按照用户信息对所述目标序列进行分类,得到中间子目标序列,其中,所述中间子目标序列中包括同一用户的多个访问记录;基于所述多个访问记录中任意两个连续访问记录之间的第一时间间隔对所述中间子目标序列进行再次分类,得到所述子目标序列;上述基于所述多个访问记录中任意两个连续访问记录之间的第一时间间隔对所述中间子目标序列进行再次分类包括:将第一时间间隔所对应的任意两个连续访问记录归为同一个访问请求下的访问记录,其中,所述第一时间间隔为小于第一预设间隔的时间间隔;
所述校准装置用于将所述目标训练样本和所述目标测试样本输入到预测模型中,以根据所述预测模型得到的预测结果,调整所述预测模型,得到目标预测模型;
所述预测装置用于基于所述目标预测模型对用户访问请求进行分析,得到预测数据集合,并基于所述预测数据集合的数据量对所述预测数据集合进行缓存,其中,所述预测数据集合用于表征用户在下一时刻访问的数据集合;上述基于所述目标预测模型对用户访问请求进行分析,得到预测数据集合,并基于所述预测数据集合的数据量对所述预测数据集合进行缓存包括:根据用户的访问请求,通过所述目标预测模型获取包含所述预测数据的预测数据集合;判断所述预测数据集合的数据量是否大于预设数据量;如果判断结果为是,则不将所述预测数据集合缓存至代理节点中,其中,所述代理节点为位于文件存储系统中的用于存储所述文件访问日志和所述预测数据集合的节点;如果判断结果为否,则将所述预测数据集合缓存至所述代理节点中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810120980.7A CN108462605B (zh) | 2018-02-06 | 2018-02-06 | 一种数据的预测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810120980.7A CN108462605B (zh) | 2018-02-06 | 2018-02-06 | 一种数据的预测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108462605A CN108462605A (zh) | 2018-08-28 |
CN108462605B true CN108462605B (zh) | 2022-03-15 |
Family
ID=63239787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810120980.7A Active CN108462605B (zh) | 2018-02-06 | 2018-02-06 | 一种数据的预测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108462605B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109831801B (zh) * | 2019-01-04 | 2021-09-28 | 东南大学 | 基于深度学习神经网络的用户行为预测的基站缓存方法 |
CN110008251B (zh) * | 2019-03-07 | 2023-07-04 | 平安科技(深圳)有限公司 | 基于时序数据的数据处理方法、装置和计算机设备 |
CN110968272B (zh) * | 2019-12-16 | 2021-01-01 | 华中科技大学 | 基于时间序列预测的海量小文件存储性能优化方法及系统 |
CN111192170B (zh) * | 2019-12-25 | 2023-05-30 | 平安国际智慧城市科技股份有限公司 | 题目推送方法、装置、设备和计算机可读存储介质 |
CN111830192B (zh) * | 2020-06-02 | 2022-05-31 | 合肥通用机械研究院有限公司 | 一种混空燃气燃烧性能测试系统及其测试方法 |
CN111970718B (zh) * | 2020-07-22 | 2022-03-11 | 西北工业大学 | 能量收集不可信中继网络中基于深度学习的功率分配方法 |
CN111858469B (zh) * | 2020-07-24 | 2024-01-26 | 成都成信高科信息技术有限公司 | 一种基于时间滑动窗口的自适应分级存储的方法 |
CN113850929B (zh) * | 2021-09-18 | 2023-05-26 | 广州文远知行科技有限公司 | 一种标注数据流处理的展示方法、装置、设备和介质 |
CN117370272A (zh) * | 2023-10-25 | 2024-01-09 | 浙江星汉信息技术股份有限公司 | 基于档案热度的档案管理方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106454437A (zh) * | 2015-08-12 | 2017-02-22 | 中国移动通信集团设计院有限公司 | 一种流媒体业务速率预测方法及装置 |
CN107292388A (zh) * | 2017-06-27 | 2017-10-24 | 郑州云海信息技术有限公司 | 一种基于神经网络的热点数据的预测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140173070A1 (en) * | 2012-12-13 | 2014-06-19 | Microsoft Corporation | Updating of digital content buffering order |
-
2018
- 2018-02-06 CN CN201810120980.7A patent/CN108462605B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106454437A (zh) * | 2015-08-12 | 2017-02-22 | 中国移动通信集团设计院有限公司 | 一种流媒体业务速率预测方法及装置 |
CN107292388A (zh) * | 2017-06-27 | 2017-10-24 | 郑州云海信息技术有限公司 | 一种基于神经网络的热点数据的预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108462605A (zh) | 2018-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108462605B (zh) | 一种数据的预测方法和装置 | |
Xu et al. | Evaluation of GO-based functional similarity measures using S. cerevisiae protein interaction and expression profile data | |
KR102251302B1 (ko) | 시간 인자와 결합한 협업 필터링 방법, 장치, 서버 및 저장 매체 | |
Azzeh | A replicated assessment and comparison of adaptation techniques for analogy-based effort estimation | |
EP1828939A1 (en) | System and method for adaptive query identification and acceleration | |
CN112398700B (zh) | 一种服务降级方法及装置、存储介质、计算机设备 | |
US20220245010A1 (en) | Time-series anomaly detection using an inverted index | |
US10445341B2 (en) | Methods and systems for analyzing datasets | |
Wang et al. | Robust functional sliced inverse regression | |
CN114202256B (zh) | 架构升级预警方法、装置、智能终端及可读存储介质 | |
CA2741085A1 (en) | Method and apparatus for default rating estimation | |
WO2018194565A1 (en) | Monitoring the thermal health of an electronic device | |
CN117150244B (zh) | 基于电参数分析的智能配电柜状态监测方法及系统 | |
CN117193502B (zh) | 基于机器学习的电竞主机电源状态分析方法 | |
CN116738261A (zh) | 基于聚类分箱的数值型特征离散化归因分析方法及装置 | |
CN116451081A (zh) | 数据漂移的检测方法、装置、终端及存储介质 | |
CN115934490A (zh) | 服务器性能预测模型训练方法、装置、设备及存储介质 | |
EP3454259A1 (en) | Autonomous agent system | |
CN115150159A (zh) | 一种流量检测方法、装置、设备及可读存储介质 | |
CN109978038B (zh) | 一种集群异常判定方法及装置 | |
CN113704220A (zh) | 一种基于LSTM和遗传算法的Ceph参数调优方法 | |
Blohsfeld et al. | Maintaining nonparametric estimators over data streams | |
CN110874469A (zh) | 数据库高危操作检测方法、装置、计算机设备和存储介质 | |
CN117807411B (zh) | 一种服务器性能指标预测方法、装置、电子设备 | |
Kepplinger et al. | Robust Prediction and Protein Selection with Adaptive PENSE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |