CN109753505B - 在大数据存储系统中创建临时存储单元的方法及系统 - Google Patents

在大数据存储系统中创建临时存储单元的方法及系统 Download PDF

Info

Publication number
CN109753505B
CN109753505B CN201811604488.3A CN201811604488A CN109753505B CN 109753505 B CN109753505 B CN 109753505B CN 201811604488 A CN201811604488 A CN 201811604488A CN 109753505 B CN109753505 B CN 109753505B
Authority
CN
China
Prior art keywords
access
time
data
storage system
temporary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811604488.3A
Other languages
English (en)
Other versions
CN109753505A (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Yinhua Information Technology Co ltd
Original Assignee
Jinan Yinhua Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Yinhua Information Technology Co ltd filed Critical Jinan Yinhua Information Technology Co ltd
Priority to CN201811604488.3A priority Critical patent/CN109753505B/zh
Publication of CN109753505A publication Critical patent/CN109753505A/zh
Application granted granted Critical
Publication of CN109753505B publication Critical patent/CN109753505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种在大数据存储系统的缓存设备中创建临时存储单元的方法及系统,其中方法包括:根据有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息;根据所述系统有效记录信息确定第二动态参数与第一动态参数的比值大于创建阈值时,大数据存储系统所包括的多个存储设备中每个存储设备读取各自的信息存储区域中的设备访问记录文件并对设备访问记录文件进行解析,以确定有效运行时间内的设备访问记录信息;根据预先设定的基本时间间隔将有效运行时间划分为多个时间段并获得多个时间关联性设备;在大数据存储系统的缓存设备中创建临时存储单元,并且将经过去重处理的临时文件集合中的每个候选文件存储到临时存储单元中。

Description

在大数据存储系统中创建临时存储单元的方法及系统
技术领域
本发明涉及大数据存储领域,并且更具体地,涉及一种在大数据存储系统的缓存设备中创建临时存储单元的方法及系统。
背景技术
目前,随着信息技术的日益发展,越来越多的设备能够生成并使用各种类型的数据。为了能够更好地在对数据进行分析的基础上来使用数据,通常需要利用大数据存储系统对数据进行存储。然而,在目前的大数据存储系统中,数据文件的数量越来越多。在某些情况下,大数据存储系统中数据文件的数量呈级数方式的增加。为了能够保证数据安全,大数据存储系统通常需要对访问者进行身份认证,并且在访问者通过身份认证的情况下允许访问者获取数据文件。在部分情况下,身份认证的时间较长而用户希望尽快获得数据。此外,大数据存储系统通常无法访问者提供快速的数据文件的访问,而是必须在大量的存储设备中进行检索后才能返回数据文件。
发明内容
根据本发明的一个方面,提供一种在大数据存储系统的缓存设备中创建临时存储单元的方法,所述方法包括:
响应于接收到用于请求在大数据存储系统的缓存设备内创建临时存储单元的创建请求,确定所述大数据存储系统在当前运行时间区间内的有效运行时间,获取所述大数据存储系统在当前运行时间区间内的系统访问记录信息,根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息,其中所述当前运行时间区间包括第一数量的自然日,并且有效运行时间包括第二数量的自然日,第一数量大于第二数量;
根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数,并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN;对大数据存储系统的系统记录设备中存储的数据记录文件进行解析,以确定有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN;
对大数据存储系统的系统记录设备中存储的历史记录文件进行解析,以确定所述大数据存储系统在前一个运行时间区间内的每小时平均被访问次数PAN并确定前一个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量PFN;
将CFN与PFN的比值确定为第一动态参数,并且将CAN与PAN的比值确定为第二参数,当第一动态参数大于1,并且第二动态参数与第一动态参数的比值大于创建阈值时,大数据存储系统所包括的多个存储设备中每个存储设备读取各自的信息存储区域中的设备访问记录文件并对设备访问记录文件进行解析,以确定有效运行时间内的设备访问记录信息,其中设备访问记录信息包括在有效运行时间内的多个日志记录并且每个日志记录用于记载针对于存储设备中的数据文件的访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;
根据预先设定的基本时间间隔将有效运行时间划分为多个时间段,其中每个时间段的时间长度等于预先设定的基本时间间隔,根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件,其中每个存储设备的时间统计文件包括多个时间记录,其中每个时间记录的内容包括:时间段的标识符、时间段的开始时间、时间段的结束时间、相关联的数据文件的总数量、时间段内被访问次数;
将每个存储设备的时间段内被访问次数大于次数阈值的时间段确定为每个存储设备的高访问度的时间段,并且将每个存储设备的时间段内被访问次数小于或等于次数阈值的时间段确定为每个存储设备的低访问度的时间段;根据每个时间记录确定每个存储设备的每个高访问度的时间段的时间段内被访问次数和每个低访问度的时间段的时间段内被访问次数,基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数,基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数,将多个存储设备中高访问度的时间段的平均被访问次数与低访问度的时间段的平均被访问次数的比值大于关联门限的存储设备确定为时间关联性存储设备,以获得多个时间关联性设备;
获取每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A和在前一个运行时间区间内的被访问次数B,将每个时间关联性存储设备的多个数据文件中被访问次数比率大于候选阈值的数据文件确定为候选文件,并将所确定的每个时间关联性存储设备的多个候选文件构成每个时间关联性存储设备的候选文件集合,其中被访问次数比率=被访问次数A/被访问次数B;
将每个时间关联性存储设备的候选文件集合进行合并以构成临时文件集合,并且对临时文件集合中的所有候选文件进行去重处理以获得经过去重处理的临时文件集合,在大数据存储系统的缓存设备中创建临时存储单元,并且将经过去重处理的临时文件集合中的每个候选文件存储到临时存储单元中。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,当所述临时检索结果符合结果输出要求并且对数据请求方进行身份认证的结果表明数据请求方为合法用户时,将临时检索结果发送给所述数据请求方而不利用查询条件在所述大数据存储系统的任何存储设备中进行检索。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果发送给所述数据请求方;
在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果中每个数据文件的摘要信息发送给所述数据请求方;
在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
在对数据请求方进行身份认证的结果表明数据请求方不是合法用户时,从临时检索结果的多个数据文件中选择至少一个展示文件,将每个展示文件的摘要信息发送给所述数据请求方。
在大数据存储系统的缓存设备中创建临时存储单元时,为所创建的临时存储单元设置生存时间计时器,当所述生存时间计时器期满时,删除所述临时存储单元。
其中所述生存时间计时器的初始值为50个小时、100个小时、150个小时、200个小时、300个小时或500个小时。
当利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果时,如果临时检索结果中的数据文件的数量与临时存储单元中的数据文件的总数量的比值大于预定比率时,将生存时间计时器的当前值增加1个小时;
其中所述预定比率为30%、40%、50%、60%、70%或80%。
还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间;
其中每个运行时间区间包括20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日;或者,每个运行时间区间包括至少100个自然日;
当前运行时间区间包括至少100个自然日;即第一数量至少为100;
与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间;
临时存储单元是在缓存设备中的创建的存储区域;
有效运行时间是从当前运行时间区间的第二个自然日开始到接收到创建请求时所在的自然日的前一个自然日结束的一段时间;
在确定第二数量小于5时,拒绝所述创建请求或忽略所述创建请求;
所述创建请求来自于大数据存储系统的管理设备;
在确定第二数量小于5时,向所述管理设备发送拒绝创建响应消息;
在所述大数据存储系统的系统记录设备中存储系统访问记录信息;所述系统访问记录信息用于实时记录大数据存储系统在当前运行时间区间内的所有数据文件的动态的总被访问次数;
在当前运行时间区间结束时,所述系统访问记录信息中具有大数据存储系统在当前运行时间区间内的所有数据文件的总被访问次数;
所述系统访问记录信息中具有当前运行时间区间之前的每个运行时间区间内的所有数据文件的总被访问次数;
根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息包括:将所述系统访问记录信息的所有被访问记录中访问起始时间在所述有效运行时间内的多个被访问记录构成系统有效记录信息;
其中被访问记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸。
根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数包括:将所述系统有效记录信息中的被访问记录的数量作为所述大数据存储系统在有效运行时间内的总被访问次数;
并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN包括:
确定有效运行时间所包括的小时的数量,将总被访问次数与有效运行时间所包括的小时的数量的比值确定为所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN;
所述大数据存储系统的系统记录设备还存储数据记录文件,所述数据记录文件包括多个存储记录,每个存储记录包括:数据文件的标识符、存储起始时间和存储结束时间;
确定有效运行时间内在大数据存储系统中连续存储时间超过第一存储阈值的数据文件的数量CFN包括:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与有效运行时间存在交集并且连续存储时间大于第一存储阈值的数据文件的数量作为有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN;
所述第一存储阈值为有效运行时间的时间长度的0.8倍;
所述系统记录设备中还存储历史记录文件,所述历史记录文件包括当前运行时间区间之前的每个运行时间区间内每小时平均被访问次数,以及当前运行时间区间之前的每个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量;
第二存储阈值为当前运行时间区间之前的每个运行时间区间的时间长度的0.8倍;
其中每个运行时间区间包括相同数量的自然日,每个运行时间区间的时间长度相同;
确定当前运行时间区间之前的每个运行时间区间所包括的小时的数量,将当前运行时间区间之前的每个运行时间区间的总被访问次数与当前运行时间区间之前的每个运行时间区间所包括的小时的数量的比值确定为所述大数据存储系统在当前运行时间区间之前的每个运行时间区间内的每小时平均被访问次数;
对于当前运行时间区间之前的每个运行时间区间:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与每个运行时间区间存在交集并且连续存储时间大于第二存储阈值的数据文件的数量作为每个运行时间区间内在大数据存储系统中连续存储时间大于第二存储阈值的数据文件的数量;
所述创建阈值为1.1、1.2、1.3、1.5、1.6或1.8;
每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储所述设备访问记录文件,数据存储区域用于存储多个数据文件;
每个存储设备的设备访问记录文件中包括多个设备访问记录信息,其中每个设备访问记录信息与相应的运行时间区间相关联,并用于记录在相应的运行时间区间中与存储设备的数据文件相关联的日志记录;
将访问起始时间在有效运行时间内的多个日志记录确定为每个存储设备的有效运行时间的多个日志记录;
确定有效运行时间内的设备访问记录信息包括:
将每个存储设备的有效运行时间的多个日志记录构成每个存储设备的有效运行时间内的设备访问记录信息;
预先设定的基本时间间隔为5分钟、6分钟、10分钟、12分钟、15分钟、20分钟或30分钟;
根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件包括:
根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集,根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录,将每个存储设备的多个时间记录组成每个存储设备的时间统计文件;
其中,根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集包括:
基于有效运行时间的设备访问记录信息中每个日志记录的访问起始时间所位于的时间区间,将每个日志记录分配到与所位于的时间区间相关联的时间段中,将每个时间段所包括的所有日志记录作为与每个时间段相关联的信息集;
根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录包括:对与每个时间段相关联的信息集内的所有日志记录进行统计以生成每个时间段各自的时间记录;
其中将每个时间段所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间段所包括的日志记录的数量作为时间段内被访问次数;
根据单个的数据文件在相同时间段内的日志记录的数量来确定数据文件在时间段内的被访问次数。
所述次数阈值为100、200、300、500、600、800、1000、1200、1500或2000;
基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数包括:
将每个高访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有高访问度的时间段的总被访问次数;
将每个存储设备的所有高访问度的时间段的总被访问次数除以相应存储设备的高访问度的时间段的数量,以获得每个存储设备的高访问度的时间段的平均被访问次数;
基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数包括:
将每个低访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有低访问度的时间段的总被访问次数;
将每个存储设备的所有低访问度的时间段的总被访问次数除以相应存储设备的低访问度的时间段的数量,以获得每个存储设备的低访问度的时间段的平均被访问次数;
所述关联门限为1.2、1.5、1.8、2、2.5或3。
根据每个时间关联性存储设备内的每个数据文件在有效运行时间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A;
根据每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的被访问次数B;
候选阈值为110%、120%、130%、150%、180%、200%或300%。
获得经过去重处理的临时文件集合之后,确定所述大数据存储系统的缓存设备的剩余存储空间,当剩余存储空间能够容纳经过去重处理的临时文件集合时,在大数据存储系统的缓存设备中创建临时存储单元;
当剩余存储空间不能够容纳经过去重处理的临时文件集合时,不在大数据存储系统的缓存设备中创建临时存储单元。
根据本发明的另一方面,提供一种在大数据存储系统的缓存设备中创建临时存储单元的系统,所述系统包括:
接收装置,响应于接收到用于请求在大数据存储系统的缓存设备内创建临时存储单元的创建请求,确定所述大数据存储系统在当前运行时间区间内的有效运行时间,获取所述大数据存储系统在当前运行时间区间内的系统访问记录信息,根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息,其中所述当前运行时间区间包括第一数量的自然日,并且有效运行时间包括第二数量的自然日,第一数量大于第二数量;
解析装置,根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数,并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN;对大数据存储系统的系统记录设备中存储的数据记录文件进行解析,以确定有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN;对大数据存储系统的系统记录设备中存储的历史记录文件进行解析,以确定所述大数据存储系统在前一个运行时间区间内的每小时平均被访问次数PAN并确定前一个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量PFN;
判断装置,将CFN与PFN的比值确定为第一动态参数,并且将CAN与PAN的比值确定为第二参数,当第一动态参数大于1,并且第二动态参数与第一动态参数的比值大于创建阈值时,大数据存储系统所包括的多个存储设备中每个存储设备读取各自的信息存储区域中的设备访问记录文件并对设备访问记录文件进行解析,以确定有效运行时间内的设备访问记录信息,其中设备访问记录信息包括在有效运行时间内的多个日志记录并且每个日志记录用于记载针对于存储设备中的数据文件的访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;
划分装置,根据预先设定的基本时间间隔将有效运行时间划分为多个时间段,其中每个时间段的时间长度等于预先设定的基本时间间隔,根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件,其中每个存储设备的时间统计文件包括多个时间记录,其中每个时间记录的内容包括:时间段的标识符、时间段的开始时间、时间段的结束时间、相关联的数据文件的总数量、时间段内被访问次数;
确定装置,将每个存储设备的时间段内被访问次数大于次数阈值的时间段确定为每个存储设备的高访问度的时间段,并且将每个存储设备的时间段内被访问次数小于或等于次数阈值的时间段确定为每个存储设备的低访问度的时间段;根据每个时间记录确定每个存储设备的每个高访问度的时间段的时间段内被访问次数和每个低访问度的时间段的时间段内被访问次数,基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数,基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数,将多个存储设备中高访问度的时间段的平均被访问次数与低访问度的时间段的平均被访问次数的比值大于关联门限的存储设备确定为时间关联性存储设备,以获得多个时间关联性设备;
处理装置,获取每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A和在前一个运行时间区间内的被访问次数B,将每个时间关联性存储设备的多个数据文件中被访问次数比率大于候选阈值的数据文件确定为候选文件,并将所确定的每个时间关联性存储设备的多个候选文件构成每个时间关联性存储设备的候选文件集合,其中被访问次数比率=被访问次数A/被访问次数B;
创建装置,将每个时间关联性存储设备的候选文件集合进行合并以构成临时文件集合,并且对临时文件集合中的所有候选文件进行去重处理以获得经过去重处理的临时文件集合,在大数据存储系统的缓存设备中创建临时存储单元,并且将经过去重处理的临时文件集合中的每个候选文件存储到临时存储单元中。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,当所述临时检索结果符合结果输出要求并且对数据请求方进行身份认证的结果表明数据请求方为合法用户时,将临时检索结果发送给所述数据请求方而不利用查询条件在所述大数据存储系统的任何存储设备中进行检索。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果发送给所述数据请求方;
在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果中每个数据文件的摘要信息发送给所述数据请求方;
在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
在对数据请求方进行身份认证的结果表明数据请求方不是合法用户时,从临时检索结果的多个数据文件中选择至少一个展示文件,将每个展示文件的摘要信息发送给所述数据请求方。
在大数据存储系统的缓存设备中创建临时存储单元时,为所创建的临时存储单元设置生存时间计时器,当所述生存时间计时器期满时,删除所述临时存储单元。
其中所述生存时间计时器的初始值为50个小时、100个小时、150个小时、200个小时、300个小时或500个小时。
当利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果时,如果临时检索结果中的数据文件的数量与临时存储单元中的数据文件的总数量的比值大于预定比率时,将生存时间计时器的当前值增加1个小时;
其中所述预定比率为30%、40%、50%、60%、70%或80%。
还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间;
其中每个运行时间区间包括20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日;或者,每个运行时间区间包括至少100个自然日;
当前运行时间区间包括至少100个自然日;即第一数量至少为100;
与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间;
临时存储单元是在缓存设备中的创建的存储区域;
有效运行时间是从当前运行时间区间的第二个自然日开始到接收到创建请求时所在的自然日的前一个自然日结束的一段时间;
在确定第二数量小于5时,拒绝所述创建请求或忽略所述创建请求;
所述创建请求来自于大数据存储系统的管理设备;
在确定第二数量小于5时,向所述管理设备发送拒绝创建响应消息;
在所述大数据存储系统的系统记录设备中存储系统访问记录信息;所述系统访问记录信息用于实时记录大数据存储系统在当前运行时间区间内的所有数据文件的动态的总被访问次数;
在当前运行时间区间结束时,所述系统访问记录信息中具有大数据存储系统在当前运行时间区间内的所有数据文件的总被访问次数;
所述系统访问记录信息中具有当前运行时间区间之前的每个运行时间区间内的所有数据文件的总被访问次数;
根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息包括:将所述系统访问记录信息的所有被访问记录中访问起始时间在所述有效运行时间内的多个被访问记录构成系统有效记录信息;
其中被访问记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸。
根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数包括:将所述系统有效记录信息中的被访问记录的数量作为所述大数据存储系统在有效运行时间内的总被访问次数;
并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN包括:
确定有效运行时间所包括的小时的数量,将总被访问次数与有效运行时间所包括的小时的数量的比值确定为所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN;
所述大数据存储系统的系统记录设备还存储数据记录文件,所述数据记录文件包括多个存储记录,每个存储记录包括:数据文件的标识符、存储起始时间和存储结束时间;
确定有效运行时间内在大数据存储系统中连续存储时间超过第一存储阈值的数据文件的数量CFN包括:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与有效运行时间存在交集并且连续存储时间大于第一存储阈值的数据文件的数量作为有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN;
所述第一存储阈值为有效运行时间的时间长度的0.8倍;
所述系统记录设备中还存储历史记录文件,所述历史记录文件包括当前运行时间区间之前的每个运行时间区间内每小时平均被访问次数,以及当前运行时间区间之前的每个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量;
第二存储阈值为当前运行时间区间之前的每个运行时间区间的时间长度的0.8倍;
其中每个运行时间区间包括相同数量的自然日,每个运行时间区间的时间长度相同;
确定当前运行时间区间之前的每个运行时间区间所包括的小时的数量,将当前运行时间区间之前的每个运行时间区间的总被访问次数与当前运行时间区间之前的每个运行时间区间所包括的小时的数量的比值确定为所述大数据存储系统在当前运行时间区间之前的每个运行时间区间内的每小时平均被访问次数;
对于当前运行时间区间之前的每个运行时间区间:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与每个运行时间区间存在交集并且连续存储时间大于第二存储阈值的数据文件的数量作为每个运行时间区间内在大数据存储系统中连续存储时间大于第二存储阈值的数据文件的数量;
所述创建阈值为1.1、1.2、1.3、1.5、1.6或1.8;
每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储所述设备访问记录文件,数据存储区域用于存储多个数据文件;
每个存储设备的设备访问记录文件中包括多个设备访问记录信息,其中每个设备访问记录信息与相应的运行时间区间相关联,并用于记录在相应的运行时间区间中与存储设备的数据文件相关联的日志记录;
将访问起始时间在有效运行时间内的多个日志记录确定为每个存储设备的有效运行时间的多个日志记录;
确定有效运行时间内的设备访问记录信息包括:
将每个存储设备的有效运行时间的多个日志记录构成每个存储设备的有效运行时间内的设备访问记录信息;
预先设定的基本时间间隔为5分钟、6分钟、10分钟、12分钟、15分钟、20分钟或30分钟;
根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件包括:
根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集,根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录,将每个存储设备的多个时间记录组成每个存储设备的时间统计文件;
其中,根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集包括:
基于有效运行时间的设备访问记录信息中每个日志记录的访问起始时间所位于的时间区间,将每个日志记录分配到与所位于的时间区间相关联的时间段中,将每个时间段所包括的所有日志记录作为与每个时间段相关联的信息集;
根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录包括:对与每个时间段相关联的信息集内的所有日志记录进行统计以生成每个时间段各自的时间记录;
其中将每个时间段所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间段所包括的日志记录的数量作为时间段内被访问次数;
根据单个的数据文件在相同时间段内的日志记录的数量来确定数据文件在时间段内的被访问次数。
所述次数阈值为100、200、300、500、600、800、1000、1200、1500或2000;
基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数包括:
将每个高访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有高访问度的时间段的总被访问次数;
将每个存储设备的所有高访问度的时间段的总被访问次数除以相应存储设备的高访问度的时间段的数量,以获得每个存储设备的高访问度的时间段的平均被访问次数;
基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数包括:
将每个低访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有低访问度的时间段的总被访问次数;
将每个存储设备的所有低访问度的时间段的总被访问次数除以相应存储设备的低访问度的时间段的数量,以获得每个存储设备的低访问度的时间段的平均被访问次数;
所述关联门限为1.2、1.5、1.8、2、2.5或3。
根据每个时间关联性存储设备内的每个数据文件在有效运行时间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A;
根据每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的被访问次数B;
候选阈值为110%、120%、130%、150%、180%、200%或300%。
获得经过去重处理的临时文件集合之后,确定所述大数据存储系统的缓存设备的剩余存储空间,当剩余存储空间能够容纳经过去重处理的临时文件集合时,在大数据存储系统的缓存设备中创建临时存储单元;
当剩余存储空间不能够容纳经过去重处理的临时文件集合时,不在大数据存储系统的缓存设备中创建临时存储单元。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明的在大数据存储系统的缓存设备中创建临时存储单元的方法的流程图;
图2为根据本发明的创建临时存储单元的示意图;以及
图3为根据本发明的在大数据存储系统的缓存设备中创建临时存储单元的系统的结构示意图。
具体实施方式
图1为根据本发明的在大数据存储系统的缓存设备中创建临时存储单元的方法100的流程图。
在步骤101,响应于接收到用于请求在大数据存储系统的缓存设备内创建临时存储单元的创建请求,确定所述大数据存储系统在当前运行时间区间内的有效运行时间,获取所述大数据存储系统在当前运行时间区间内的系统访问记录信息,根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息,其中所述当前运行时间区间包括第一数量的自然日,并且有效运行时间包括第二数量的自然日,第一数量大于第二数量。
还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间。其中每个运行时间区间包括20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日;或者,每个运行时间区间包括至少100个自然日。当前运行时间区间包括至少100个自然日;即第一数量至少为100。与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间。
临时存储单元是在缓存设备中的创建的存储区域。有效运行时间是从当前运行时间区间的第二个自然日开始到接收到创建请求时所在的自然日的前一个自然日结束的一段时间。在确定第二数量小于5时,拒绝所述创建请求或忽略所述创建请求。所述创建请求来自于大数据存储系统的管理设备,在确定第二数量小于5时,向所述管理设备发送拒绝创建响应消息。
其中多个运行时间区间中任意两个相邻的运行时间区间之间具有过渡时间段;所述过渡时间段占用任意两个相邻的运行时间区间中后一个运行时间区间的开始部分的一段时间、或者所述过渡时间段占用任意两个相邻的运行时间区间中前一个运行时间区间的结尾部分的一段时间。例如,每个运行时间区间为10个自然日,例如,当前运行时间区间为2018年10月1日至10日,即当前运行时间区间为2018年10月1日的00:00:00至10月10日的24:00:00。后一个运行时间区间为2018年10月11日的00:00:00至10月20日的24:00:00。通常,本申请可以将后一个运行时间区间的2018年10月11日的00:00:00至01:00:00的1个小时作为过渡时间段,并且在过渡时间段中进行解析、判断、识别等处理,即根据本申请的为了进行数据文件存储所采取的准备工作。可替换地,将2018年10月10日的23:00:00至24:00:00作为过渡时间段。应当了解的是,过渡时间段可以被认为是属于所在的运行时间区间,例如,过渡时间段属于后一个运行时间区间,或属于当前运行时间区间。在对任何运行时间区间进行相关信息的统计时,将过渡时间段内的数据信息进行并入统计,即过渡时间段属于所在的运行时间区间并参与数据统计。只是,实际上利用过渡时间段进行与数据文件存储相关的处理。即,无论过渡时间段的时间长度是1小时还是2小时,或其他合理数值,当前运行时间区间为10个完整的工作日,并且后一个运行时间区间也是10个完整的工作日。
在步骤102,根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数,并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN;对大数据存储系统的系统记录设备中存储的数据记录文件进行解析,以确定有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN。
在所述大数据存储系统的系统记录设备中存储系统访问记录信息;所述系统访问记录信息用于实时记录大数据存储系统在当前运行时间区间内的所有数据文件的动态的总被访问次数。在当前运行时间区间结束时,所述系统访问记录信息中具有大数据存储系统在当前运行时间区间内的所有数据文件的总被访问次数。所述系统访问记录信息中具有当前运行时间区间之前的每个运行时间区间内的所有数据文件的总被访问次数。根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息包括:将所述系统访问记录信息的所有被访问记录中访问起始时间在所述有效运行时间内的多个被访问记录构成系统有效记录信息。其中被访问记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸。
根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数包括:将所述系统有效记录信息中的被访问记录的数量作为所述大数据存储系统在有效运行时间内的总被访问次数。
并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN包括:确定有效运行时间所包括的小时的数量,将总被访问次数与有效运行时间所包括的小时的数量的比值确定为所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN。
所述大数据存储系统的系统记录设备还存储数据记录文件,所述数据记录文件包括多个存储记录,每个存储记录包括:数据文件的标识符、存储起始时间和存储结束时间。确定有效运行时间内在大数据存储系统中连续存储时间超过第一存储阈值的数据文件的数量CFN包括:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与有效运行时间存在交集并且连续存储时间大于第一存储阈值的数据文件的数量作为有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN。所述第一存储阈值为有效运行时间的时间长度的0.8倍。
在步骤103,对大数据存储系统的系统记录设备中存储的历史记录文件进行解析,以确定所述大数据存储系统在前一个运行时间区间内的每小时平均被访问次数PAN并确定前一个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量PFN。
所述系统记录设备中还存储历史记录文件,所述历史记录文件包括当前运行时间区间之前的每个运行时间区间内每小时平均被访问次数,以及当前运行时间区间之前的每个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量。第二存储阈值为当前运行时间区间之前的每个运行时间区间的时间长度的0.8倍。其中每个运行时间区间包括相同数量的自然日,每个运行时间区间的时间长度相同。
确定当前运行时间区间之前的每个运行时间区间所包括的小时的数量,将当前运行时间区间之前的每个运行时间区间的总被访问次数与当前运行时间区间之前的每个运行时间区间所包括的小时的数量的比值确定为所述大数据存储系统在当前运行时间区间之前的每个运行时间区间内的每小时平均被访问次数。对于当前运行时间区间之前的每个运行时间区间:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与每个运行时间区间存在交集并且连续存储时间大于第二存储阈值的数据文件的数量作为每个运行时间区间内在大数据存储系统中连续存储时间大于第二存储阈值的数据文件的数量。
在步骤104,将CFN与PFN的比值确定为第一动态参数,并且将CAN与PAN的比值确定为第二参数,当第一动态参数大于1,并且第二动态参数与第一动态参数的比值大于创建阈值时,大数据存储系统所包括的多个存储设备中每个存储设备读取各自的信息存储区域中的设备访问记录文件并对设备访问记录文件进行解析,以确定有效运行时间内的设备访问记录信息,其中设备访问记录信息包括在有效运行时间内的多个日志记录并且每个日志记录用于记载针对于存储设备中的数据文件的访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间。
所述创建阈值为1.1、1.2、1.3、1.5、1.6或1.8。每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储所述设备访问记录文件,数据存储区域用于存储多个数据文件。每个存储设备的设备访问记录文件中包括多个设备访问记录信息,其中每个设备访问记录信息与相应的运行时间区间相关联,并用于记录在相应的运行时间区间中与存储设备的数据文件相关联的日志记录。将访问起始时间在有效运行时间内的多个日志记录确定为每个存储设备的有效运行时间的多个日志记录。确定有效运行时间内的设备访问记录信息包括:将每个存储设备的有效运行时间的多个日志记录构成每个存储设备的有效运行时间内的设备访问记录信息。
在步骤105,根据预先设定的基本时间间隔将有效运行时间划分为多个时间段,其中每个时间段的时间长度等于预先设定的基本时间间隔,根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件,其中每个存储设备的时间统计文件包括多个时间记录,其中每个时间记录的内容包括:时间段的标识符、时间段的开始时间、时间段的结束时间、相关联的数据文件的总数量、时间段内被访问次数。
预先设定的基本时间间隔为5分钟、6分钟、10分钟、12分钟、15分钟、20分钟或30分钟。根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件包括:根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集,根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录,将每个存储设备的多个时间记录组成每个存储设备的时间统计文件。
其中,根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集包括:基于有效运行时间的设备访问记录信息中每个日志记录的访问起始时间所位于的时间区间,将每个日志记录分配到与所位于的时间区间相关联的时间段中,将每个时间段所包括的所有日志记录作为与每个时间段相关联的信息集。
根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录包括:对与每个时间段相关联的信息集内的所有日志记录进行统计以生成每个时间段各自的时间记录。其中将每个时间段所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间段所包括的日志记录的数量作为时间段内被访问次数。根据单个的数据文件在相同时间段内的日志记录的数量来确定数据文件在时间段内的被访问次数。
在步骤106,将每个存储设备的时间段内被访问次数大于次数阈值的时间段确定为每个存储设备的高访问度的时间段,并且将每个存储设备的时间段内被访问次数小于或等于次数阈值的时间段确定为每个存储设备的低访问度的时间段;根据每个时间记录确定每个存储设备的每个高访问度的时间段的时间段内被访问次数和每个低访问度的时间段的时间段内被访问次数,基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数,基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数,将多个存储设备中高访问度的时间段的平均被访问次数与低访问度的时间段的平均被访问次数的比值大于关联门限的存储设备确定为时间关联性存储设备,以获得多个时间关联性设备。
所述次数阈值为100、200、300、500、600、800、1000、1200、1500或2000。基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数包括:将每个高访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有高访问度的时间段的总被访问次数;将每个存储设备的所有高访问度的时间段的总被访问次数除以相应存储设备的高访问度的时间段的数量,以获得每个存储设备的高访问度的时间段的平均被访问次数。
基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数包括:将每个低访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有低访问度的时间段的总被访问次数。将每个存储设备的所有低访问度的时间段的总被访问次数除以相应存储设备的低访问度的时间段的数量,以获得每个存储设备的低访问度的时间段的平均被访问次数。所述关联门限为1.2、1.5、1.8、2、2.5或3。
在步骤107,获取每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A和在前一个运行时间区间内的被访问次数B,将每个时间关联性存储设备的多个数据文件中被访问次数比率大于候选阈值的数据文件确定为候选文件,并将所确定的每个时间关联性存储设备的多个候选文件构成每个时间关联性存储设备的候选文件集合,其中被访问次数比率=被访问次数A/被访问次数B。
根据每个时间关联性存储设备内的每个数据文件在有效运行时间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A。根据每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的被访问次数B。候选阈值为110%、120%、130%、150%、180%、200%或300%。
在步骤108,将每个时间关联性存储设备的候选文件集合进行合并以构成临时文件集合,并且对临时文件集合中的所有候选文件进行去重处理以获得经过去重处理的临时文件集合,在大数据存储系统的缓存设备中创建临时存储单元,并且将经过去重处理的临时文件集合中的每个候选文件存储到临时存储单元中。获得经过去重处理的临时文件集合之后,确定所述大数据存储系统的缓存设备的剩余存储空间,当剩余存储空间能够容纳经过去重处理的临时文件集合时,在大数据存储系统的缓存设备中创建临时存储单元。例如,经过去重处理的临时文件集合中所有候选文件(或被称为临时文件)的总存储尺寸小于缓存设备的剩余存储空间的60%、70%、80%或90%时,在大数据存储系统的缓存设备中创建临时存储单元。当剩余存储空间不能够容纳经过去重处理的临时文件集合时,不在大数据存储系统的缓存设备中创建临时存储单元。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,当所述临时检索结果符合结果输出要求并且对数据请求方进行身份认证的结果表明数据请求方为合法用户时,将临时检索结果发送给所述数据请求方而不利用查询条件在所述大数据存储系统的任何存储设备中进行检索。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果。当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果发送给所述数据请求方。在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果。当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果中每个数据文件的摘要信息发送给所述数据请求方。在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果。在对数据请求方进行身份认证的结果表明数据请求方不是合法用户时,从临时检索结果的多个数据文件中选择至少一个展示文件,将每个展示文件的摘要信息发送给所述数据请求方。
在大数据存储系统的缓存设备中创建临时存储单元时,为所创建的临时存储单元设置生存时间计时器,当所述生存时间计时器期满时,删除所述临时存储单元。其中所述生存时间计时器的初始值为50个小时、100个小时、150个小时、200个小时、300个小时或500个小时。当利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果时,如果临时检索结果中的数据文件的数量与临时存储单元中的数据文件的总数量的比值大于预定比率时,将生存时间计时器的当前值增加1个小时。其中所述预定比率为30%、40%、50%、60%、70%或80%。
图2为根据本发明的创建临时存储单元的示意图。在图2中,本申请获取每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A和在前一个运行时间区间内的被访问次数B,将每个时间关联性存储设备的多个数据文件中被访问次数比率大于候选阈值的数据文件确定为候选文件,并将所确定的每个时间关联性存储设备的多个候选文件构成每个时间关联性存储设备的候选文件集合。例如,候选文件集合201-1、201-2、201-3、……、201-n中的每个均与相对应的时间关联性存储设备相关联。
将每个时间关联性存储设备的候选文件集合候选文件集合201-1、201-2、201-3、……、201-n进行合并以构成临时文件集合202,并且对临时文件集合202中的所有候选文件(或被称为临时文件)进行去重处理以获得经过去重处理的临时文件集合,在大数据存储系统的缓存设备204中创建临时存储单元203,并且将经过去重处理的临时文件集合中的每个候选文件存储到临时存储单元203中。获得经过去重处理的临时文件集合之后,确定所述大数据存储系统的缓存设备204的剩余存储空间,当剩余存储空间能够容纳经过去重处理的临时文件集合时,在大数据存储系统的缓存设备204中创建临时存储单元203。例如,经过去重处理的临时文件集合中所有候选文件(或被称为临时文件)的总存储尺寸小于缓存设备204的剩余存储空间的60%、70%、80%或90%时,在大数据存储系统的缓存设备204中创建临时存储单元203。当剩余存储空间不能够容纳经过去重处理的临时文件集合时,不在大数据存储系统的缓存设备204中创建临时存储单元203。
图3为根据本发明的在大数据存储系统的缓存设备中创建临时存储单元的系统300的结构示意图。系统300包括:接收装置301、解析装置302、判断装置303、划分装置304、确定装置305、处理装置306以及创建装置307。
接收装置301响应于接收到用于请求在大数据存储系统的缓存设备内创建临时存储单元的创建请求,确定所述大数据存储系统在当前运行时间区间内的有效运行时间,获取所述大数据存储系统在当前运行时间区间内的系统访问记录信息,根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息,其中所述当前运行时间区间包括第一数量的自然日,并且有效运行时间包括第二数量的自然日,第一数量大于第二数量。
解析装置302根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数,并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN;对大数据存储系统的系统记录设备中存储的数据记录文件进行解析,以确定有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN。对大数据存储系统的系统记录设备中存储的历史记录文件进行解析,以确定所述大数据存储系统在前一个运行时间区间内的每小时平均被访问次数PAN并确定前一个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量PFN。
判断装置303将CFN与PFN的比值确定为第一动态参数,并且将CAN与PAN的比值确定为第二参数,当第一动态参数大于1,并且第二动态参数与第一动态参数的比值大于创建阈值时,大数据存储系统所包括的多个存储设备中每个存储设备读取各自的信息存储区域中的设备访问记录文件并对设备访问记录文件进行解析,以确定有效运行时间内的设备访问记录信息,其中设备访问记录信息包括在有效运行时间内的多个日志记录并且每个日志记录用于记载针对于存储设备中的数据文件的访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间.
划分装置304根据预先设定的基本时间间隔将有效运行时间划分为多个时间段,其中每个时间段的时间长度等于预先设定的基本时间间隔,根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件,其中每个存储设备的时间统计文件包括多个时间记录,其中每个时间记录的内容包括:时间段的标识符、时间段的开始时间、时间段的结束时间、相关联的数据文件的总数量、时间段内被访问次数。
确定装置305将每个存储设备的时间段内被访问次数大于次数阈值的时间段确定为每个存储设备的高访问度的时间段,并且将每个存储设备的时间段内被访问次数小于或等于次数阈值的时间段确定为每个存储设备的低访问度的时间段;根据每个时间记录确定每个存储设备的每个高访问度的时间段的时间段内被访问次数和每个低访问度的时间段的时间段内被访问次数,基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数,基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数,将多个存储设备中高访问度的时间段的平均被访问次数与低访问度的时间段的平均被访问次数的比值大于关联门限的存储设备确定为时间关联性存储设备,以获得多个时间关联性设备。
处理装置306获取每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A和在前一个运行时间区间内的被访问次数B,将每个时间关联性存储设备的多个数据文件中被访问次数比率大于候选阈值的数据文件确定为候选文件,并将所确定的每个时间关联性存储设备的多个候选文件构成每个时间关联性存储设备的候选文件集合,其中被访问次数比率=被访问次数A/被访问次数B。
创建装置307将每个时间关联性存储设备的候选文件集合进行合并以构成临时文件集合,并且对临时文件集合中的所有候选文件进行去重处理以获得经过去重处理的临时文件集合,在大数据存储系统的缓存设备中创建临时存储单元,并且将经过去重处理的临时文件集合中的每个候选文件存储到临时存储单元中。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,当所述临时检索结果符合结果输出要求并且对数据请求方进行身份认证的结果表明数据请求方为合法用户时,将临时检索结果发送给所述数据请求方而不利用查询条件在所述大数据存储系统的任何存储设备中进行检索。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果。当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果发送给所述数据请求方。在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果。当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果中每个数据文件的摘要信息发送给所述数据请求方。在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果。在对数据请求方进行身份认证的结果表明数据请求方不是合法用户时,从临时检索结果的多个数据文件中选择至少一个展示文件,将每个展示文件的摘要信息发送给所述数据请求方。
在大数据存储系统的缓存设备中创建临时存储单元时,为所创建的临时存储单元设置生存时间计时器,当所述生存时间计时器期满时,删除所述临时存储单元。其中所述生存时间计时器的初始值为50个小时、100个小时、150个小时、200个小时、300个小时或500个小时。
当利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果时,如果临时检索结果中的数据文件的数量与临时存储单元中的数据文件的总数量的比值大于预定比率时,将生存时间计时器的当前值增加1个小时。其中所述预定比率为30%、40%、50%、60%、70%或80%。
还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间。其中每个运行时间区间包括20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日;或者,每个运行时间区间包括至少100个自然日。当前运行时间区间包括至少100个自然日;即第一数量至少为100。与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间。
临时存储单元是在缓存设备中的创建的存储区域。有效运行时间是从当前运行时间区间的第二个自然日开始到接收到创建请求时所在的自然日的前一个自然日结束的一段时间。在确定第二数量小于5时,拒绝所述创建请求或忽略所述创建请求。所述创建请求来自于大数据存储系统的管理设备。在确定第二数量小于5时,向所述管理设备发送拒绝创建响应消息。
在所述大数据存储系统的系统记录设备中存储系统访问记录信息;所述系统访问记录信息用于实时记录大数据存储系统在当前运行时间区间内的所有数据文件的动态的总被访问次数。在当前运行时间区间结束时,所述系统访问记录信息中具有大数据存储系统在当前运行时间区间内的所有数据文件的总被访问次数。所述系统访问记录信息中具有当前运行时间区间之前的每个运行时间区间内的所有数据文件的总被访问次数。根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息包括:将所述系统访问记录信息的所有被访问记录中访问起始时间在所述有效运行时间内的多个被访问记录构成系统有效记录信息。其中被访问记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸。
根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数包括:将所述系统有效记录信息中的被访问记录的数量作为所述大数据存储系统在有效运行时间内的总被访问次数。并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN包括:确定有效运行时间所包括的小时的数量,将总被访问次数与有效运行时间所包括的小时的数量的比值确定为所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN。所述大数据存储系统的系统记录设备还存储数据记录文件,所述数据记录文件包括多个存储记录,每个存储记录包括:数据文件的标识符、存储起始时间和存储结束时间。
确定有效运行时间内在大数据存储系统中连续存储时间超过第一存储阈值的数据文件的数量CFN包括:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与有效运行时间存在交集并且连续存储时间大于第一存储阈值的数据文件的数量作为有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN。所述第一存储阈值为有效运行时间的时间长度的0.8倍。所述系统记录设备中还存储历史记录文件,所述历史记录文件包括当前运行时间区间之前的每个运行时间区间内每小时平均被访问次数,以及当前运行时间区间之前的每个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量。第二存储阈值为当前运行时间区间之前的每个运行时间区间的时间长度的0.8倍。其中每个运行时间区间包括相同数量的自然日,每个运行时间区间的时间长度相同。
确定当前运行时间区间之前的每个运行时间区间所包括的小时的数量,将当前运行时间区间之前的每个运行时间区间的总被访问次数与当前运行时间区间之前的每个运行时间区间所包括的小时的数量的比值确定为所述大数据存储系统在当前运行时间区间之前的每个运行时间区间内的每小时平均被访问次数。对于当前运行时间区间之前的每个运行时间区间:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与每个运行时间区间存在交集并且连续存储时间大于第二存储阈值的数据文件的数量作为每个运行时间区间内在大数据存储系统中连续存储时间大于第二存储阈值的数据文件的数量。
所述创建阈值为1.1、1.2、1.3、1.5、1.6或1.8。每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储所述设备访问记录文件,数据存储区域用于存储多个数据文件。每个存储设备的设备访问记录文件中包括多个设备访问记录信息,其中每个设备访问记录信息与相应的运行时间区间相关联,并用于记录在相应的运行时间区间中与存储设备的数据文件相关联的日志记录。将访问起始时间在有效运行时间内的多个日志记录确定为每个存储设备的有效运行时间的多个日志记录。
确定有效运行时间内的设备访问记录信息包括:将每个存储设备的有效运行时间的多个日志记录构成每个存储设备的有效运行时间内的设备访问记录信息。预先设定的基本时间间隔为5分钟、6分钟、10分钟、12分钟、15分钟、20分钟或30分钟。根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件包括:根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集,根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录,将每个存储设备的多个时间记录组成每个存储设备的时间统计文件。
其中,根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集包括:基于有效运行时间的设备访问记录信息中每个日志记录的访问起始时间所位于的时间区间,将每个日志记录分配到与所位于的时间区间相关联的时间段中,将每个时间段所包括的所有日志记录作为与每个时间段相关联的信息集。根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录包括:对与每个时间段相关联的信息集内的所有日志记录进行统计以生成每个时间段各自的时间记录。其中将每个时间段所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间段所包括的日志记录的数量作为时间段内被访问次数。根据单个的数据文件在相同时间段内的日志记录的数量来确定数据文件在时间段内的被访问次数。
所述次数阈值为100、200、300、500、600、800、1000、1200、1500或2000。基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数包括:将每个高访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有高访问度的时间段的总被访问次数。将每个存储设备的所有高访问度的时间段的总被访问次数除以相应存储设备的高访问度的时间段的数量,以获得每个存储设备的高访问度的时间段的平均被访问次数。基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数包括:将每个低访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有低访问度的时间段的总被访问次数。将每个存储设备的所有低访问度的时间段的总被访问次数除以相应存储设备的低访问度的时间段的数量,以获得每个存储设备的低访问度的时间段的平均被访问次数。所述关联门限为1.2、1.5、1.8、2、2.5或3。
根据每个时间关联性存储设备内的每个数据文件在有效运行时间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A。根据每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的被访问次数B。候选阈值为110%、120%、130%、150%、180%、200%或300%。获得经过去重处理的临时文件集合之后,确定所述大数据存储系统的缓存设备的剩余存储空间,当剩余存储空间能够容纳经过去重处理的临时文件集合时,在大数据存储系统的缓存设备中创建临时存储单元。当剩余存储空间不能够容纳经过去重处理的临时文件集合时,不在大数据存储系统的缓存设备中创建临时存储单元。

Claims (10)

1.一种在大数据存储系统的缓存设备中创建临时存储单元的方法,所述方法包括:
响应于接收到用于请求在大数据存储系统的缓存设备内创建临时存储单元的创建请求,确定所述大数据存储系统在当前运行时间区间内的有效运行时间,获取所述大数据存储系统在当前运行时间区间内的系统访问记录信息,根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息,其中所述当前运行时间区间包括第一数量的自然日,并且有效运行时间包括第二数量的自然日,第一数量大于第二数量;
根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数,并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN;对大数据存储系统的系统记录设备中存储的数据记录文件进行解析,以确定有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN;
对大数据存储系统的系统记录设备中存储的历史记录文件进行解析,以确定所述大数据存储系统在前一个运行时间区间内的每小时平均被访问次数PAN并确定前一个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量PFN;
将CFN与PFN的比值确定为第一动态参数,并且将CAN与PAN的比值确定为第二参数,当第一动态参数大于1,并且第二动态参数与第一动态参数的比值大于创建阈值时,大数据存储系统所包括的多个存储设备中每个存储设备读取各自的信息存储区域中的设备访问记录文件并对设备访问记录文件进行解析,以确定有效运行时间内的设备访问记录信息,其中设备访问记录信息包括在有效运行时间内的多个日志记录并且每个日志记录用于记载针对于存储设备中的数据文件的访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;所述创建阈值为1.1;
根据预先设定的基本时间间隔将有效运行时间划分为多个时间段,其中每个时间段的时间长度等于预先设定的基本时间间隔,根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件,其中每个存储设备的时间统计文件包括多个时间记录,其中每个时间记录的内容包括:时间段的标识符、时间段的开始时间、时间段的结束时间、相关联的数据文件的总数量、时间段内被访问次数;
将每个存储设备的时间段内被访问次数大于次数阈值的时间段确定为每个存储设备的高访问度的时间段,并且将每个存储设备的时间段内被访问次数小于或等于次数阈值的时间段确定为每个存储设备的低访问度的时间段;根据每个时间记录确定每个存储设备的每个高访问度的时间段的时间段内被访问次数和每个低访问度的时间段的时间段内被访问次数,基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数,基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数,将多个存储设备中高访问度的时间段的平均被访问次数与低访问度的时间段的平均被访问次数的比值大于关联门限的存储设备确定为时间关联性存储设备,以获得多个时间关联性设备;所述关联门限为1.2;
获取每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A和在前一个运行时间区间内的被访问次数B,将每个时间关联性存储设备的多个数据文件中被访问次数比率大于候选阈值的数据文件确定为候选文件,并将所确定的每个时间关联性存储设备的多个候选文件构成每个时间关联性存储设备的候选文件集合,其中被访问次数比率=被访问次数A/被访问次数B;
将每个时间关联性存储设备的候选文件集合进行合并以构成临时文件集合,并且对临时文件集合中的所有候选文件进行去重处理以获得经过去重处理的临时文件集合,在大数据存储系统的缓存设备中创建临时存储单元,并且将经过去重处理的临时文件集合中的每个候选文件存储到临时存储单元中。
2.根据权利要求1所述的方法,当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,当所述临时检索结果符合结果输出要求并且对数据请求方进行身份认证的结果表明数据请求方为合法用户时,将临时检索结果发送给所述数据请求方而不利用查询条件在所述大数据存储系统的任何存储设备中进行检索。
3.根据权利要求1-2中任意一项所述的方法,当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果发送给所述数据请求方;
在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
4.根据权利要求3所述的方法,当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果中每个数据文件的摘要信息发送给所述数据请求方;
在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
5.根据权利要求4所述的方法,当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
在对数据请求方进行身份认证的结果表明数据请求方不是合法用户时,从临时检索结果的多个数据文件中选择至少一个展示文件,将每个展示文件的摘要信息发送给所述数据请求方。
6.一种在大数据存储系统的缓存设备中创建临时存储单元的系统,所述系统包括:
接收装置,响应于接收到用于请求在大数据存储系统的缓存设备内创建临时存储单元的创建请求,确定所述大数据存储系统在当前运行时间区间内的有效运行时间,获取所述大数据存储系统在当前运行时间区间内的系统访问记录信息,根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息,其中所述当前运行时间区间包括第一数量的自然日,并且有效运行时间包括第二数量的自然日,第一数量大于第二数量;
解析装置,根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数,并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN;对大数据存储系统的系统记录设备中存储的数据记录文件进行解析,以确定有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN;对大数据存储系统的系统记录设备中存储的历史记录文件进行解析,以确定所述大数据存储系统在前一个运行时间区间内的每小时平均被访问次数PAN并确定前一个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量PFN;
判断装置,将CFN与PFN的比值确定为第一动态参数,并且将CAN与PAN的比值确定为第二参数,当第一动态参数大于1,并且第二动态参数与第一动态参数的比值大于创建阈值时,大数据存储系统所包括的多个存储设备中每个存储设备读取各自的信息存储区域中的设备访问记录文件并对设备访问记录文件进行解析,以确定有效运行时间内的设备访问记录信息,其中设备访问记录信息包括在有效运行时间内的多个日志记录并且每个日志记录用于记载针对于存储设备中的数据文件的访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;所述创建阈值为1.1;
划分装置,根据预先设定的基本时间间隔将有效运行时间划分为多个时间段,其中每个时间段的时间长度等于预先设定的基本时间间隔,根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件,其中每个存储设备的时间统计文件包括多个时间记录,其中每个时间记录的内容包括:时间段的标识符、时间段的开始时间、时间段的结束时间、相关联的数据文件的总数量、时间段内被访问次数;
确定装置,将每个存储设备的时间段内被访问次数大于次数阈值的时间段确定为每个存储设备的高访问度的时间段,并且将每个存储设备的时间段内被访问次数小于或等于次数阈值的时间段确定为每个存储设备的低访问度的时间段;根据每个时间记录确定每个存储设备的每个高访问度的时间段的时间段内被访问次数和每个低访问度的时间段的时间段内被访问次数,基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数,基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数,将多个存储设备中高访问度的时间段的平均被访问次数与低访问度的时间段的平均被访问次数的比值大于关联门限的存储设备确定为时间关联性存储设备,以获得多个时间关联性设备;所述关联门限为1.2;
处理装置,获取每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A和在前一个运行时间区间内的被访问次数B,将每个时间关联性存储设备的多个数据文件中被访问次数比率大于候选阈值的数据文件确定为候选文件,并将所确定的每个时间关联性存储设备的多个候选文件构成每个时间关联性存储设备的候选文件集合,其中被访问次数比率=被访问次数A/被访问次数B;
创建装置,将每个时间关联性存储设备的候选文件集合进行合并以构成临时文件集合,并且对临时文件集合中的所有候选文件进行去重处理以获得经过去重处理的临时文件集合,在大数据存储系统的缓存设备中创建临时存储单元,并且将经过去重处理的临时文件集合中的每个候选文件存储到临时存储单元中。
7.根据权利要求6所述的系统,
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,当所述临时检索结果符合结果输出要求并且对数据请求方进行身份认证的结果表明数据请求方为合法用户时,将临时检索结果发送给所述数据请求方而不利用查询条件在所述大数据存储系统的任何存储设备中进行检索。
8.根据权利要求6所述的系统,
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果;
当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果发送给所述数据请求方;
在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
9.根据权利要求6所述的系统,
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果中每个数据文件的摘要信息发送给所述数据请求方;
在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
10.根据权利要求6所述的系统,
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
在对数据请求方进行身份认证的结果表明数据请求方不是合法用户时,从临时检索结果的多个数据文件中选择至少一个展示文件,将每个展示文件的摘要信息发送给所述数据请求方。
CN201811604488.3A 2018-12-26 2018-12-26 在大数据存储系统中创建临时存储单元的方法及系统 Active CN109753505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811604488.3A CN109753505B (zh) 2018-12-26 2018-12-26 在大数据存储系统中创建临时存储单元的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811604488.3A CN109753505B (zh) 2018-12-26 2018-12-26 在大数据存储系统中创建临时存储单元的方法及系统

Publications (2)

Publication Number Publication Date
CN109753505A CN109753505A (zh) 2019-05-14
CN109753505B true CN109753505B (zh) 2022-06-24

Family

ID=66404011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811604488.3A Active CN109753505B (zh) 2018-12-26 2018-12-26 在大数据存储系统中创建临时存储单元的方法及系统

Country Status (1)

Country Link
CN (1) CN109753505B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515895B (zh) * 2019-08-30 2023-06-23 北京燕山电子设备厂 大数据存储系统中对数据文件进行关联存储的方法及系统
CN115599792B (zh) * 2022-12-13 2023-03-10 深圳市润信数据技术有限公司 一种物联网大数据分类存储方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104320448A (zh) * 2014-10-17 2015-01-28 张维加 一种基于大数据的计算设备的缓存与预取加速方法和装置
CN107911711A (zh) * 2017-10-24 2018-04-13 北京邮电大学 一种考虑分区的边缘缓存替换改进方法
CN108681556A (zh) * 2018-04-08 2018-10-19 华中科技大学 分布式指令域数据的访问方法及其系统
CN109033462A (zh) * 2018-08-30 2018-12-18 杜广香 在大数据存储的存储设备中确定低频数据项的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11080207B2 (en) * 2016-06-07 2021-08-03 Qubole, Inc. Caching framework for big-data engines in the cloud

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104320448A (zh) * 2014-10-17 2015-01-28 张维加 一种基于大数据的计算设备的缓存与预取加速方法和装置
CN107911711A (zh) * 2017-10-24 2018-04-13 北京邮电大学 一种考虑分区的边缘缓存替换改进方法
CN108681556A (zh) * 2018-04-08 2018-10-19 华中科技大学 分布式指令域数据的访问方法及其系统
CN109033462A (zh) * 2018-08-30 2018-12-18 杜广香 在大数据存储的存储设备中确定低频数据项的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
分布式文件系统海量小文件性能优化技术研究;李焱;《中国优秀硕士学位论文全文数据库》;20180715;正文第9-29页 *

Also Published As

Publication number Publication date
CN109753505A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN106648446B (zh) 一种用于时序数据的存储方法、装置及电子设备
CN108108127B (zh) 一种文件读取方法及系统
US10248674B2 (en) Method and apparatus for data quality management and control
CN110275983B (zh) 交通监控数据的检索方法及装置
KR102031588B1 (ko) 파일 저장 시의 색인 구현 방법 및 시스템
CN107015985B (zh) 一种数据存储与获取方法及装置
CN109033462B (zh) 在大数据存储的存储设备中确定低频数据项的方法及系统
CN109753505B (zh) 在大数据存储系统中创建临时存储单元的方法及系统
CN111046036A (zh) 数据同步方法、装置、系统及存储介质
CN108154024B (zh) 一种数据检索方法、装置及电子设备
CN112632129A (zh) 一种码流数据管理方法、装置及存储介质
US20190005252A1 (en) Device for self-defense security based on system environment and user behavior analysis, and operating method therefor
CN111913913B (zh) 访问请求的处理方法和装置
CN112148920B (zh) 数据管理方法
JP5956064B2 (ja) 計算機システム、データ管理方法、及び計算機
JP2023531751A (ja) 車載データ記憶方法およびシステム
CN109271097A (zh) 数据处理方法、数据处理装置和服务器
CN109542909B (zh) 识别大数据存储系统中的关联性存储设备的方法及系统
CN104317820B (zh) 报表的统计方法和装置
CN112632058A (zh) 轨迹确定方法、装置及设备、存储介质
CN111158606A (zh) 存储方法、装置、计算机设备和存储介质
CN109739817B (zh) 一种在大数据存储系统中存储数据文件的方法及系统
CN110362535B (zh) 一种文件管理方法、装置及系统
CN110363515B (zh) 权益卡账户信息查询方法、系统、服务器及可读存储介质
CN109240988B (zh) 用于避免大数据存储系统进入访问失衡状态的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220601

Address after: Room 411-3-29, No. 7617, Airport Road, Yaoqiang street, high tech Zone, Jinan City, Shandong Province

Applicant after: Jinan Yinhua Information Technology Co.,Ltd.

Address before: 252659 Shandong province Liaocheng City Linqing City Dai Wan Town, the village of the South Village Health Room

Applicant before: Du Guangxiang

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and system for creating temporary storage unit in big data storage system

Effective date of registration: 20220810

Granted publication date: 20220624

Pledgee: Ji'nan finance Company limited by guarantee

Pledgor: Jinan Yinhua Information Technology Co.,Ltd.

Registration number: Y2022980012304

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230728

Granted publication date: 20220624

Pledgee: Ji'nan finance Company limited by guarantee

Pledgor: Jinan Yinhua Information Technology Co.,Ltd.

Registration number: Y2022980012304

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and System for Creating Temporary Storage Units in Big Data Storage Systems

Effective date of registration: 20230801

Granted publication date: 20220624

Pledgee: Ji'nan finance Company limited by guarantee

Pledgor: Jinan Yinhua Information Technology Co.,Ltd.

Registration number: Y2023980050480

PE01 Entry into force of the registration of the contract for pledge of patent right