发明内容
根据本发明的一个方面,提供一种在大数据存储系统的缓存设备中创建临时存储单元的方法,所述方法包括:
响应于接收到用于请求在大数据存储系统的缓存设备内创建临时存储单元的创建请求,确定所述大数据存储系统在当前运行时间区间内的有效运行时间,获取所述大数据存储系统在当前运行时间区间内的系统访问记录信息,根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息,其中所述当前运行时间区间包括第一数量的自然日,并且有效运行时间包括第二数量的自然日,第一数量大于第二数量;
根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数,并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN;对大数据存储系统的系统记录设备中存储的数据记录文件进行解析,以确定有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN;
对大数据存储系统的系统记录设备中存储的历史记录文件进行解析,以确定所述大数据存储系统在前一个运行时间区间内的每小时平均被访问次数PAN并确定前一个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量PFN;
将CFN与PFN的比值确定为第一动态参数,并且将CAN与PAN的比值确定为第二参数,当第一动态参数大于1,并且第二动态参数与第一动态参数的比值大于创建阈值时,大数据存储系统所包括的多个存储设备中每个存储设备读取各自的信息存储区域中的设备访问记录文件并对设备访问记录文件进行解析,以确定有效运行时间内的设备访问记录信息,其中设备访问记录信息包括在有效运行时间内的多个日志记录并且每个日志记录用于记载针对于存储设备中的数据文件的访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;
根据预先设定的基本时间间隔将有效运行时间划分为多个时间段,其中每个时间段的时间长度等于预先设定的基本时间间隔,根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件,其中每个存储设备的时间统计文件包括多个时间记录,其中每个时间记录的内容包括:时间段的标识符、时间段的开始时间、时间段的结束时间、相关联的数据文件的总数量、时间段内被访问次数;
将每个存储设备的时间段内被访问次数大于次数阈值的时间段确定为每个存储设备的高访问度的时间段,并且将每个存储设备的时间段内被访问次数小于或等于次数阈值的时间段确定为每个存储设备的低访问度的时间段;根据每个时间记录确定每个存储设备的每个高访问度的时间段的时间段内被访问次数和每个低访问度的时间段的时间段内被访问次数,基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数,基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数,将多个存储设备中高访问度的时间段的平均被访问次数与低访问度的时间段的平均被访问次数的比值大于关联门限的存储设备确定为时间关联性存储设备,以获得多个时间关联性设备;
获取每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A和在前一个运行时间区间内的被访问次数B,将每个时间关联性存储设备的多个数据文件中被访问次数比率大于候选阈值的数据文件确定为候选文件,并将所确定的每个时间关联性存储设备的多个候选文件构成每个时间关联性存储设备的候选文件集合,其中被访问次数比率=被访问次数A/被访问次数B;
将每个时间关联性存储设备的候选文件集合进行合并以构成临时文件集合,并且对临时文件集合中的所有候选文件进行去重处理以获得经过去重处理的临时文件集合,在大数据存储系统的缓存设备中创建临时存储单元,并且将经过去重处理的临时文件集合中的每个候选文件存储到临时存储单元中。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,当所述临时检索结果符合结果输出要求并且对数据请求方进行身份认证的结果表明数据请求方为合法用户时,将临时检索结果发送给所述数据请求方而不利用查询条件在所述大数据存储系统的任何存储设备中进行检索。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果发送给所述数据请求方;
在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果中每个数据文件的摘要信息发送给所述数据请求方;
在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
在对数据请求方进行身份认证的结果表明数据请求方不是合法用户时,从临时检索结果的多个数据文件中选择至少一个展示文件,将每个展示文件的摘要信息发送给所述数据请求方。
在大数据存储系统的缓存设备中创建临时存储单元时,为所创建的临时存储单元设置生存时间计时器,当所述生存时间计时器期满时,删除所述临时存储单元。
其中所述生存时间计时器的初始值为50个小时、100个小时、150个小时、200个小时、300个小时或500个小时。
当利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果时,如果临时检索结果中的数据文件的数量与临时存储单元中的数据文件的总数量的比值大于预定比率时,将生存时间计时器的当前值增加1个小时;
其中所述预定比率为30%、40%、50%、60%、70%或80%。
还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间;
其中每个运行时间区间包括20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日;或者,每个运行时间区间包括至少100个自然日;
当前运行时间区间包括至少100个自然日;即第一数量至少为100;
与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间;
临时存储单元是在缓存设备中的创建的存储区域;
有效运行时间是从当前运行时间区间的第二个自然日开始到接收到创建请求时所在的自然日的前一个自然日结束的一段时间;
在确定第二数量小于5时,拒绝所述创建请求或忽略所述创建请求;
所述创建请求来自于大数据存储系统的管理设备;
在确定第二数量小于5时,向所述管理设备发送拒绝创建响应消息;
在所述大数据存储系统的系统记录设备中存储系统访问记录信息;所述系统访问记录信息用于实时记录大数据存储系统在当前运行时间区间内的所有数据文件的动态的总被访问次数;
在当前运行时间区间结束时,所述系统访问记录信息中具有大数据存储系统在当前运行时间区间内的所有数据文件的总被访问次数;
所述系统访问记录信息中具有当前运行时间区间之前的每个运行时间区间内的所有数据文件的总被访问次数;
根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息包括:将所述系统访问记录信息的所有被访问记录中访问起始时间在所述有效运行时间内的多个被访问记录构成系统有效记录信息;
其中被访问记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸。
根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数包括:将所述系统有效记录信息中的被访问记录的数量作为所述大数据存储系统在有效运行时间内的总被访问次数;
并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN包括:
确定有效运行时间所包括的小时的数量,将总被访问次数与有效运行时间所包括的小时的数量的比值确定为所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN;
所述大数据存储系统的系统记录设备还存储数据记录文件,所述数据记录文件包括多个存储记录,每个存储记录包括:数据文件的标识符、存储起始时间和存储结束时间;
确定有效运行时间内在大数据存储系统中连续存储时间超过第一存储阈值的数据文件的数量CFN包括:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与有效运行时间存在交集并且连续存储时间大于第一存储阈值的数据文件的数量作为有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN;
所述第一存储阈值为有效运行时间的时间长度的0.8倍;
所述系统记录设备中还存储历史记录文件,所述历史记录文件包括当前运行时间区间之前的每个运行时间区间内每小时平均被访问次数,以及当前运行时间区间之前的每个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量;
第二存储阈值为当前运行时间区间之前的每个运行时间区间的时间长度的0.8倍;
其中每个运行时间区间包括相同数量的自然日,每个运行时间区间的时间长度相同;
确定当前运行时间区间之前的每个运行时间区间所包括的小时的数量,将当前运行时间区间之前的每个运行时间区间的总被访问次数与当前运行时间区间之前的每个运行时间区间所包括的小时的数量的比值确定为所述大数据存储系统在当前运行时间区间之前的每个运行时间区间内的每小时平均被访问次数;
对于当前运行时间区间之前的每个运行时间区间:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与每个运行时间区间存在交集并且连续存储时间大于第二存储阈值的数据文件的数量作为每个运行时间区间内在大数据存储系统中连续存储时间大于第二存储阈值的数据文件的数量;
所述创建阈值为1.1、1.2、1.3、1.5、1.6或1.8;
每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储所述设备访问记录文件,数据存储区域用于存储多个数据文件;
每个存储设备的设备访问记录文件中包括多个设备访问记录信息,其中每个设备访问记录信息与相应的运行时间区间相关联,并用于记录在相应的运行时间区间中与存储设备的数据文件相关联的日志记录;
将访问起始时间在有效运行时间内的多个日志记录确定为每个存储设备的有效运行时间的多个日志记录;
确定有效运行时间内的设备访问记录信息包括:
将每个存储设备的有效运行时间的多个日志记录构成每个存储设备的有效运行时间内的设备访问记录信息;
预先设定的基本时间间隔为5分钟、6分钟、10分钟、12分钟、15分钟、20分钟或30分钟;
根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件包括:
根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集,根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录,将每个存储设备的多个时间记录组成每个存储设备的时间统计文件;
其中,根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集包括:
基于有效运行时间的设备访问记录信息中每个日志记录的访问起始时间所位于的时间区间,将每个日志记录分配到与所位于的时间区间相关联的时间段中,将每个时间段所包括的所有日志记录作为与每个时间段相关联的信息集;
根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录包括:对与每个时间段相关联的信息集内的所有日志记录进行统计以生成每个时间段各自的时间记录;
其中将每个时间段所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间段所包括的日志记录的数量作为时间段内被访问次数;
根据单个的数据文件在相同时间段内的日志记录的数量来确定数据文件在时间段内的被访问次数。
所述次数阈值为100、200、300、500、600、800、1000、1200、1500或2000;
基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数包括:
将每个高访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有高访问度的时间段的总被访问次数;
将每个存储设备的所有高访问度的时间段的总被访问次数除以相应存储设备的高访问度的时间段的数量,以获得每个存储设备的高访问度的时间段的平均被访问次数;
基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数包括:
将每个低访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有低访问度的时间段的总被访问次数;
将每个存储设备的所有低访问度的时间段的总被访问次数除以相应存储设备的低访问度的时间段的数量,以获得每个存储设备的低访问度的时间段的平均被访问次数;
所述关联门限为1.2、1.5、1.8、2、2.5或3。
根据每个时间关联性存储设备内的每个数据文件在有效运行时间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A;
根据每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的被访问次数B;
候选阈值为110%、120%、130%、150%、180%、200%或300%。
获得经过去重处理的临时文件集合之后,确定所述大数据存储系统的缓存设备的剩余存储空间,当剩余存储空间能够容纳经过去重处理的临时文件集合时,在大数据存储系统的缓存设备中创建临时存储单元;
当剩余存储空间不能够容纳经过去重处理的临时文件集合时,不在大数据存储系统的缓存设备中创建临时存储单元。
根据本发明的另一方面,提供一种在大数据存储系统的缓存设备中创建临时存储单元的系统,所述系统包括:
接收装置,响应于接收到用于请求在大数据存储系统的缓存设备内创建临时存储单元的创建请求,确定所述大数据存储系统在当前运行时间区间内的有效运行时间,获取所述大数据存储系统在当前运行时间区间内的系统访问记录信息,根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息,其中所述当前运行时间区间包括第一数量的自然日,并且有效运行时间包括第二数量的自然日,第一数量大于第二数量;
解析装置,根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数,并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN;对大数据存储系统的系统记录设备中存储的数据记录文件进行解析,以确定有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN;对大数据存储系统的系统记录设备中存储的历史记录文件进行解析,以确定所述大数据存储系统在前一个运行时间区间内的每小时平均被访问次数PAN并确定前一个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量PFN;
判断装置,将CFN与PFN的比值确定为第一动态参数,并且将CAN与PAN的比值确定为第二参数,当第一动态参数大于1,并且第二动态参数与第一动态参数的比值大于创建阈值时,大数据存储系统所包括的多个存储设备中每个存储设备读取各自的信息存储区域中的设备访问记录文件并对设备访问记录文件进行解析,以确定有效运行时间内的设备访问记录信息,其中设备访问记录信息包括在有效运行时间内的多个日志记录并且每个日志记录用于记载针对于存储设备中的数据文件的访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;
划分装置,根据预先设定的基本时间间隔将有效运行时间划分为多个时间段,其中每个时间段的时间长度等于预先设定的基本时间间隔,根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件,其中每个存储设备的时间统计文件包括多个时间记录,其中每个时间记录的内容包括:时间段的标识符、时间段的开始时间、时间段的结束时间、相关联的数据文件的总数量、时间段内被访问次数;
确定装置,将每个存储设备的时间段内被访问次数大于次数阈值的时间段确定为每个存储设备的高访问度的时间段,并且将每个存储设备的时间段内被访问次数小于或等于次数阈值的时间段确定为每个存储设备的低访问度的时间段;根据每个时间记录确定每个存储设备的每个高访问度的时间段的时间段内被访问次数和每个低访问度的时间段的时间段内被访问次数,基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数,基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数,将多个存储设备中高访问度的时间段的平均被访问次数与低访问度的时间段的平均被访问次数的比值大于关联门限的存储设备确定为时间关联性存储设备,以获得多个时间关联性设备;
处理装置,获取每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A和在前一个运行时间区间内的被访问次数B,将每个时间关联性存储设备的多个数据文件中被访问次数比率大于候选阈值的数据文件确定为候选文件,并将所确定的每个时间关联性存储设备的多个候选文件构成每个时间关联性存储设备的候选文件集合,其中被访问次数比率=被访问次数A/被访问次数B;
创建装置,将每个时间关联性存储设备的候选文件集合进行合并以构成临时文件集合,并且对临时文件集合中的所有候选文件进行去重处理以获得经过去重处理的临时文件集合,在大数据存储系统的缓存设备中创建临时存储单元,并且将经过去重处理的临时文件集合中的每个候选文件存储到临时存储单元中。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,当所述临时检索结果符合结果输出要求并且对数据请求方进行身份认证的结果表明数据请求方为合法用户时,将临时检索结果发送给所述数据请求方而不利用查询条件在所述大数据存储系统的任何存储设备中进行检索。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果发送给所述数据请求方;
在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果中每个数据文件的摘要信息发送给所述数据请求方;
在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,
在对数据请求方进行身份认证的结果表明数据请求方不是合法用户时,从临时检索结果的多个数据文件中选择至少一个展示文件,将每个展示文件的摘要信息发送给所述数据请求方。
在大数据存储系统的缓存设备中创建临时存储单元时,为所创建的临时存储单元设置生存时间计时器,当所述生存时间计时器期满时,删除所述临时存储单元。
其中所述生存时间计时器的初始值为50个小时、100个小时、150个小时、200个小时、300个小时或500个小时。
当利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果时,如果临时检索结果中的数据文件的数量与临时存储单元中的数据文件的总数量的比值大于预定比率时,将生存时间计时器的当前值增加1个小时;
其中所述预定比率为30%、40%、50%、60%、70%或80%。
还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间;
其中每个运行时间区间包括20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日;或者,每个运行时间区间包括至少100个自然日;
当前运行时间区间包括至少100个自然日;即第一数量至少为100;
与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间;
临时存储单元是在缓存设备中的创建的存储区域;
有效运行时间是从当前运行时间区间的第二个自然日开始到接收到创建请求时所在的自然日的前一个自然日结束的一段时间;
在确定第二数量小于5时,拒绝所述创建请求或忽略所述创建请求;
所述创建请求来自于大数据存储系统的管理设备;
在确定第二数量小于5时,向所述管理设备发送拒绝创建响应消息;
在所述大数据存储系统的系统记录设备中存储系统访问记录信息;所述系统访问记录信息用于实时记录大数据存储系统在当前运行时间区间内的所有数据文件的动态的总被访问次数;
在当前运行时间区间结束时,所述系统访问记录信息中具有大数据存储系统在当前运行时间区间内的所有数据文件的总被访问次数;
所述系统访问记录信息中具有当前运行时间区间之前的每个运行时间区间内的所有数据文件的总被访问次数;
根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息包括:将所述系统访问记录信息的所有被访问记录中访问起始时间在所述有效运行时间内的多个被访问记录构成系统有效记录信息;
其中被访问记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸。
根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数包括:将所述系统有效记录信息中的被访问记录的数量作为所述大数据存储系统在有效运行时间内的总被访问次数;
并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN包括:
确定有效运行时间所包括的小时的数量,将总被访问次数与有效运行时间所包括的小时的数量的比值确定为所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN;
所述大数据存储系统的系统记录设备还存储数据记录文件,所述数据记录文件包括多个存储记录,每个存储记录包括:数据文件的标识符、存储起始时间和存储结束时间;
确定有效运行时间内在大数据存储系统中连续存储时间超过第一存储阈值的数据文件的数量CFN包括:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与有效运行时间存在交集并且连续存储时间大于第一存储阈值的数据文件的数量作为有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN;
所述第一存储阈值为有效运行时间的时间长度的0.8倍;
所述系统记录设备中还存储历史记录文件,所述历史记录文件包括当前运行时间区间之前的每个运行时间区间内每小时平均被访问次数,以及当前运行时间区间之前的每个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量;
第二存储阈值为当前运行时间区间之前的每个运行时间区间的时间长度的0.8倍;
其中每个运行时间区间包括相同数量的自然日,每个运行时间区间的时间长度相同;
确定当前运行时间区间之前的每个运行时间区间所包括的小时的数量,将当前运行时间区间之前的每个运行时间区间的总被访问次数与当前运行时间区间之前的每个运行时间区间所包括的小时的数量的比值确定为所述大数据存储系统在当前运行时间区间之前的每个运行时间区间内的每小时平均被访问次数;
对于当前运行时间区间之前的每个运行时间区间:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与每个运行时间区间存在交集并且连续存储时间大于第二存储阈值的数据文件的数量作为每个运行时间区间内在大数据存储系统中连续存储时间大于第二存储阈值的数据文件的数量;
所述创建阈值为1.1、1.2、1.3、1.5、1.6或1.8;
每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储所述设备访问记录文件,数据存储区域用于存储多个数据文件;
每个存储设备的设备访问记录文件中包括多个设备访问记录信息,其中每个设备访问记录信息与相应的运行时间区间相关联,并用于记录在相应的运行时间区间中与存储设备的数据文件相关联的日志记录;
将访问起始时间在有效运行时间内的多个日志记录确定为每个存储设备的有效运行时间的多个日志记录;
确定有效运行时间内的设备访问记录信息包括:
将每个存储设备的有效运行时间的多个日志记录构成每个存储设备的有效运行时间内的设备访问记录信息;
预先设定的基本时间间隔为5分钟、6分钟、10分钟、12分钟、15分钟、20分钟或30分钟;
根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件包括:
根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集,根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录,将每个存储设备的多个时间记录组成每个存储设备的时间统计文件;
其中,根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集包括:
基于有效运行时间的设备访问记录信息中每个日志记录的访问起始时间所位于的时间区间,将每个日志记录分配到与所位于的时间区间相关联的时间段中,将每个时间段所包括的所有日志记录作为与每个时间段相关联的信息集;
根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录包括:对与每个时间段相关联的信息集内的所有日志记录进行统计以生成每个时间段各自的时间记录;
其中将每个时间段所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间段所包括的日志记录的数量作为时间段内被访问次数;
根据单个的数据文件在相同时间段内的日志记录的数量来确定数据文件在时间段内的被访问次数。
所述次数阈值为100、200、300、500、600、800、1000、1200、1500或2000;
基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数包括:
将每个高访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有高访问度的时间段的总被访问次数;
将每个存储设备的所有高访问度的时间段的总被访问次数除以相应存储设备的高访问度的时间段的数量,以获得每个存储设备的高访问度的时间段的平均被访问次数;
基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数包括:
将每个低访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有低访问度的时间段的总被访问次数;
将每个存储设备的所有低访问度的时间段的总被访问次数除以相应存储设备的低访问度的时间段的数量,以获得每个存储设备的低访问度的时间段的平均被访问次数;
所述关联门限为1.2、1.5、1.8、2、2.5或3。
根据每个时间关联性存储设备内的每个数据文件在有效运行时间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A;
根据每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的被访问次数B;
候选阈值为110%、120%、130%、150%、180%、200%或300%。
获得经过去重处理的临时文件集合之后,确定所述大数据存储系统的缓存设备的剩余存储空间,当剩余存储空间能够容纳经过去重处理的临时文件集合时,在大数据存储系统的缓存设备中创建临时存储单元;
当剩余存储空间不能够容纳经过去重处理的临时文件集合时,不在大数据存储系统的缓存设备中创建临时存储单元。
具体实施方式
图1为根据本发明的在大数据存储系统的缓存设备中创建临时存储单元的方法100的流程图。
在步骤101,响应于接收到用于请求在大数据存储系统的缓存设备内创建临时存储单元的创建请求,确定所述大数据存储系统在当前运行时间区间内的有效运行时间,获取所述大数据存储系统在当前运行时间区间内的系统访问记录信息,根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息,其中所述当前运行时间区间包括第一数量的自然日,并且有效运行时间包括第二数量的自然日,第一数量大于第二数量。
还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间。其中每个运行时间区间包括20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日;或者,每个运行时间区间包括至少100个自然日。当前运行时间区间包括至少100个自然日;即第一数量至少为100。与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间。
临时存储单元是在缓存设备中的创建的存储区域。有效运行时间是从当前运行时间区间的第二个自然日开始到接收到创建请求时所在的自然日的前一个自然日结束的一段时间。在确定第二数量小于5时,拒绝所述创建请求或忽略所述创建请求。所述创建请求来自于大数据存储系统的管理设备,在确定第二数量小于5时,向所述管理设备发送拒绝创建响应消息。
其中多个运行时间区间中任意两个相邻的运行时间区间之间具有过渡时间段;所述过渡时间段占用任意两个相邻的运行时间区间中后一个运行时间区间的开始部分的一段时间、或者所述过渡时间段占用任意两个相邻的运行时间区间中前一个运行时间区间的结尾部分的一段时间。例如,每个运行时间区间为10个自然日,例如,当前运行时间区间为2018年10月1日至10日,即当前运行时间区间为2018年10月1日的00:00:00至10月10日的24:00:00。后一个运行时间区间为2018年10月11日的00:00:00至10月20日的24:00:00。通常,本申请可以将后一个运行时间区间的2018年10月11日的00:00:00至01:00:00的1个小时作为过渡时间段,并且在过渡时间段中进行解析、判断、识别等处理,即根据本申请的为了进行数据文件存储所采取的准备工作。可替换地,将2018年10月10日的23:00:00至24:00:00作为过渡时间段。应当了解的是,过渡时间段可以被认为是属于所在的运行时间区间,例如,过渡时间段属于后一个运行时间区间,或属于当前运行时间区间。在对任何运行时间区间进行相关信息的统计时,将过渡时间段内的数据信息进行并入统计,即过渡时间段属于所在的运行时间区间并参与数据统计。只是,实际上利用过渡时间段进行与数据文件存储相关的处理。即,无论过渡时间段的时间长度是1小时还是2小时,或其他合理数值,当前运行时间区间为10个完整的工作日,并且后一个运行时间区间也是10个完整的工作日。
在步骤102,根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数,并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN;对大数据存储系统的系统记录设备中存储的数据记录文件进行解析,以确定有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN。
在所述大数据存储系统的系统记录设备中存储系统访问记录信息;所述系统访问记录信息用于实时记录大数据存储系统在当前运行时间区间内的所有数据文件的动态的总被访问次数。在当前运行时间区间结束时,所述系统访问记录信息中具有大数据存储系统在当前运行时间区间内的所有数据文件的总被访问次数。所述系统访问记录信息中具有当前运行时间区间之前的每个运行时间区间内的所有数据文件的总被访问次数。根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息包括:将所述系统访问记录信息的所有被访问记录中访问起始时间在所述有效运行时间内的多个被访问记录构成系统有效记录信息。其中被访问记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸。
根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数包括:将所述系统有效记录信息中的被访问记录的数量作为所述大数据存储系统在有效运行时间内的总被访问次数。
并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN包括:确定有效运行时间所包括的小时的数量,将总被访问次数与有效运行时间所包括的小时的数量的比值确定为所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN。
所述大数据存储系统的系统记录设备还存储数据记录文件,所述数据记录文件包括多个存储记录,每个存储记录包括:数据文件的标识符、存储起始时间和存储结束时间。确定有效运行时间内在大数据存储系统中连续存储时间超过第一存储阈值的数据文件的数量CFN包括:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与有效运行时间存在交集并且连续存储时间大于第一存储阈值的数据文件的数量作为有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN。所述第一存储阈值为有效运行时间的时间长度的0.8倍。
在步骤103,对大数据存储系统的系统记录设备中存储的历史记录文件进行解析,以确定所述大数据存储系统在前一个运行时间区间内的每小时平均被访问次数PAN并确定前一个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量PFN。
所述系统记录设备中还存储历史记录文件,所述历史记录文件包括当前运行时间区间之前的每个运行时间区间内每小时平均被访问次数,以及当前运行时间区间之前的每个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量。第二存储阈值为当前运行时间区间之前的每个运行时间区间的时间长度的0.8倍。其中每个运行时间区间包括相同数量的自然日,每个运行时间区间的时间长度相同。
确定当前运行时间区间之前的每个运行时间区间所包括的小时的数量,将当前运行时间区间之前的每个运行时间区间的总被访问次数与当前运行时间区间之前的每个运行时间区间所包括的小时的数量的比值确定为所述大数据存储系统在当前运行时间区间之前的每个运行时间区间内的每小时平均被访问次数。对于当前运行时间区间之前的每个运行时间区间:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与每个运行时间区间存在交集并且连续存储时间大于第二存储阈值的数据文件的数量作为每个运行时间区间内在大数据存储系统中连续存储时间大于第二存储阈值的数据文件的数量。
在步骤104,将CFN与PFN的比值确定为第一动态参数,并且将CAN与PAN的比值确定为第二参数,当第一动态参数大于1,并且第二动态参数与第一动态参数的比值大于创建阈值时,大数据存储系统所包括的多个存储设备中每个存储设备读取各自的信息存储区域中的设备访问记录文件并对设备访问记录文件进行解析,以确定有效运行时间内的设备访问记录信息,其中设备访问记录信息包括在有效运行时间内的多个日志记录并且每个日志记录用于记载针对于存储设备中的数据文件的访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间。
所述创建阈值为1.1、1.2、1.3、1.5、1.6或1.8。每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储所述设备访问记录文件,数据存储区域用于存储多个数据文件。每个存储设备的设备访问记录文件中包括多个设备访问记录信息,其中每个设备访问记录信息与相应的运行时间区间相关联,并用于记录在相应的运行时间区间中与存储设备的数据文件相关联的日志记录。将访问起始时间在有效运行时间内的多个日志记录确定为每个存储设备的有效运行时间的多个日志记录。确定有效运行时间内的设备访问记录信息包括:将每个存储设备的有效运行时间的多个日志记录构成每个存储设备的有效运行时间内的设备访问记录信息。
在步骤105,根据预先设定的基本时间间隔将有效运行时间划分为多个时间段,其中每个时间段的时间长度等于预先设定的基本时间间隔,根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件,其中每个存储设备的时间统计文件包括多个时间记录,其中每个时间记录的内容包括:时间段的标识符、时间段的开始时间、时间段的结束时间、相关联的数据文件的总数量、时间段内被访问次数。
预先设定的基本时间间隔为5分钟、6分钟、10分钟、12分钟、15分钟、20分钟或30分钟。根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件包括:根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集,根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录,将每个存储设备的多个时间记录组成每个存储设备的时间统计文件。
其中,根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集包括:基于有效运行时间的设备访问记录信息中每个日志记录的访问起始时间所位于的时间区间,将每个日志记录分配到与所位于的时间区间相关联的时间段中,将每个时间段所包括的所有日志记录作为与每个时间段相关联的信息集。
根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录包括:对与每个时间段相关联的信息集内的所有日志记录进行统计以生成每个时间段各自的时间记录。其中将每个时间段所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间段所包括的日志记录的数量作为时间段内被访问次数。根据单个的数据文件在相同时间段内的日志记录的数量来确定数据文件在时间段内的被访问次数。
在步骤106,将每个存储设备的时间段内被访问次数大于次数阈值的时间段确定为每个存储设备的高访问度的时间段,并且将每个存储设备的时间段内被访问次数小于或等于次数阈值的时间段确定为每个存储设备的低访问度的时间段;根据每个时间记录确定每个存储设备的每个高访问度的时间段的时间段内被访问次数和每个低访问度的时间段的时间段内被访问次数,基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数,基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数,将多个存储设备中高访问度的时间段的平均被访问次数与低访问度的时间段的平均被访问次数的比值大于关联门限的存储设备确定为时间关联性存储设备,以获得多个时间关联性设备。
所述次数阈值为100、200、300、500、600、800、1000、1200、1500或2000。基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数包括:将每个高访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有高访问度的时间段的总被访问次数;将每个存储设备的所有高访问度的时间段的总被访问次数除以相应存储设备的高访问度的时间段的数量,以获得每个存储设备的高访问度的时间段的平均被访问次数。
基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数包括:将每个低访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有低访问度的时间段的总被访问次数。将每个存储设备的所有低访问度的时间段的总被访问次数除以相应存储设备的低访问度的时间段的数量,以获得每个存储设备的低访问度的时间段的平均被访问次数。所述关联门限为1.2、1.5、1.8、2、2.5或3。
在步骤107,获取每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A和在前一个运行时间区间内的被访问次数B,将每个时间关联性存储设备的多个数据文件中被访问次数比率大于候选阈值的数据文件确定为候选文件,并将所确定的每个时间关联性存储设备的多个候选文件构成每个时间关联性存储设备的候选文件集合,其中被访问次数比率=被访问次数A/被访问次数B。
根据每个时间关联性存储设备内的每个数据文件在有效运行时间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A。根据每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的被访问次数B。候选阈值为110%、120%、130%、150%、180%、200%或300%。
在步骤108,将每个时间关联性存储设备的候选文件集合进行合并以构成临时文件集合,并且对临时文件集合中的所有候选文件进行去重处理以获得经过去重处理的临时文件集合,在大数据存储系统的缓存设备中创建临时存储单元,并且将经过去重处理的临时文件集合中的每个候选文件存储到临时存储单元中。获得经过去重处理的临时文件集合之后,确定所述大数据存储系统的缓存设备的剩余存储空间,当剩余存储空间能够容纳经过去重处理的临时文件集合时,在大数据存储系统的缓存设备中创建临时存储单元。例如,经过去重处理的临时文件集合中所有候选文件(或被称为临时文件)的总存储尺寸小于缓存设备的剩余存储空间的60%、70%、80%或90%时,在大数据存储系统的缓存设备中创建临时存储单元。当剩余存储空间不能够容纳经过去重处理的临时文件集合时,不在大数据存储系统的缓存设备中创建临时存储单元。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,当所述临时检索结果符合结果输出要求并且对数据请求方进行身份认证的结果表明数据请求方为合法用户时,将临时检索结果发送给所述数据请求方而不利用查询条件在所述大数据存储系统的任何存储设备中进行检索。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果。当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果发送给所述数据请求方。在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果。当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果中每个数据文件的摘要信息发送给所述数据请求方。在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果。在对数据请求方进行身份认证的结果表明数据请求方不是合法用户时,从临时检索结果的多个数据文件中选择至少一个展示文件,将每个展示文件的摘要信息发送给所述数据请求方。
在大数据存储系统的缓存设备中创建临时存储单元时,为所创建的临时存储单元设置生存时间计时器,当所述生存时间计时器期满时,删除所述临时存储单元。其中所述生存时间计时器的初始值为50个小时、100个小时、150个小时、200个小时、300个小时或500个小时。当利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果时,如果临时检索结果中的数据文件的数量与临时存储单元中的数据文件的总数量的比值大于预定比率时,将生存时间计时器的当前值增加1个小时。其中所述预定比率为30%、40%、50%、60%、70%或80%。
图2为根据本发明的创建临时存储单元的示意图。在图2中,本申请获取每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A和在前一个运行时间区间内的被访问次数B,将每个时间关联性存储设备的多个数据文件中被访问次数比率大于候选阈值的数据文件确定为候选文件,并将所确定的每个时间关联性存储设备的多个候选文件构成每个时间关联性存储设备的候选文件集合。例如,候选文件集合201-1、201-2、201-3、……、201-n中的每个均与相对应的时间关联性存储设备相关联。
将每个时间关联性存储设备的候选文件集合候选文件集合201-1、201-2、201-3、……、201-n进行合并以构成临时文件集合202,并且对临时文件集合202中的所有候选文件(或被称为临时文件)进行去重处理以获得经过去重处理的临时文件集合,在大数据存储系统的缓存设备204中创建临时存储单元203,并且将经过去重处理的临时文件集合中的每个候选文件存储到临时存储单元203中。获得经过去重处理的临时文件集合之后,确定所述大数据存储系统的缓存设备204的剩余存储空间,当剩余存储空间能够容纳经过去重处理的临时文件集合时,在大数据存储系统的缓存设备204中创建临时存储单元203。例如,经过去重处理的临时文件集合中所有候选文件(或被称为临时文件)的总存储尺寸小于缓存设备204的剩余存储空间的60%、70%、80%或90%时,在大数据存储系统的缓存设备204中创建临时存储单元203。当剩余存储空间不能够容纳经过去重处理的临时文件集合时,不在大数据存储系统的缓存设备204中创建临时存储单元203。
图3为根据本发明的在大数据存储系统的缓存设备中创建临时存储单元的系统300的结构示意图。系统300包括:接收装置301、解析装置302、判断装置303、划分装置304、确定装置305、处理装置306以及创建装置307。
接收装置301响应于接收到用于请求在大数据存储系统的缓存设备内创建临时存储单元的创建请求,确定所述大数据存储系统在当前运行时间区间内的有效运行时间,获取所述大数据存储系统在当前运行时间区间内的系统访问记录信息,根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息,其中所述当前运行时间区间包括第一数量的自然日,并且有效运行时间包括第二数量的自然日,第一数量大于第二数量。
解析装置302根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数,并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN;对大数据存储系统的系统记录设备中存储的数据记录文件进行解析,以确定有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN。对大数据存储系统的系统记录设备中存储的历史记录文件进行解析,以确定所述大数据存储系统在前一个运行时间区间内的每小时平均被访问次数PAN并确定前一个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量PFN。
判断装置303将CFN与PFN的比值确定为第一动态参数,并且将CAN与PAN的比值确定为第二参数,当第一动态参数大于1,并且第二动态参数与第一动态参数的比值大于创建阈值时,大数据存储系统所包括的多个存储设备中每个存储设备读取各自的信息存储区域中的设备访问记录文件并对设备访问记录文件进行解析,以确定有效运行时间内的设备访问记录信息,其中设备访问记录信息包括在有效运行时间内的多个日志记录并且每个日志记录用于记载针对于存储设备中的数据文件的访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间.
划分装置304根据预先设定的基本时间间隔将有效运行时间划分为多个时间段,其中每个时间段的时间长度等于预先设定的基本时间间隔,根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件,其中每个存储设备的时间统计文件包括多个时间记录,其中每个时间记录的内容包括:时间段的标识符、时间段的开始时间、时间段的结束时间、相关联的数据文件的总数量、时间段内被访问次数。
确定装置305将每个存储设备的时间段内被访问次数大于次数阈值的时间段确定为每个存储设备的高访问度的时间段,并且将每个存储设备的时间段内被访问次数小于或等于次数阈值的时间段确定为每个存储设备的低访问度的时间段;根据每个时间记录确定每个存储设备的每个高访问度的时间段的时间段内被访问次数和每个低访问度的时间段的时间段内被访问次数,基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数,基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数,将多个存储设备中高访问度的时间段的平均被访问次数与低访问度的时间段的平均被访问次数的比值大于关联门限的存储设备确定为时间关联性存储设备,以获得多个时间关联性设备。
处理装置306获取每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A和在前一个运行时间区间内的被访问次数B,将每个时间关联性存储设备的多个数据文件中被访问次数比率大于候选阈值的数据文件确定为候选文件,并将所确定的每个时间关联性存储设备的多个候选文件构成每个时间关联性存储设备的候选文件集合,其中被访问次数比率=被访问次数A/被访问次数B。
创建装置307将每个时间关联性存储设备的候选文件集合进行合并以构成临时文件集合,并且对临时文件集合中的所有候选文件进行去重处理以获得经过去重处理的临时文件集合,在大数据存储系统的缓存设备中创建临时存储单元,并且将经过去重处理的临时文件集合中的每个候选文件存储到临时存储单元中。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果,当所述临时检索结果符合结果输出要求并且对数据请求方进行身份认证的结果表明数据请求方为合法用户时,将临时检索结果发送给所述数据请求方而不利用查询条件在所述大数据存储系统的任何存储设备中进行检索。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果。当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果发送给所述数据请求方。在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果。当根据所述数据请求方的标识确定所述数据请求方处于大数据存储系统的白名单中时,在对数据请求方进行身份认证的结果并未确定的情况下,将临时检索结果中每个数据文件的摘要信息发送给所述数据请求方。在对数据请求方进行身份认证的结果表明数据请求方为合法用户时,根据查询条件在大数据存储系统的所有存储设备中进行检索以获得完整检索结果,将完整检索结果发送给所述数据请求方。
当在大数据存储系统的缓存设备中创建临时存储单元之后,在大数据存储系统接收到来自数据请求方的数据访问请求时,其中所述数据访问请求包括数据请求方的标识、查询条件和身份认证信息,在所述大数据存储系统利用身份认证信息对数据请求方进行身份认证的同时,利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果。在对数据请求方进行身份认证的结果表明数据请求方不是合法用户时,从临时检索结果的多个数据文件中选择至少一个展示文件,将每个展示文件的摘要信息发送给所述数据请求方。
在大数据存储系统的缓存设备中创建临时存储单元时,为所创建的临时存储单元设置生存时间计时器,当所述生存时间计时器期满时,删除所述临时存储单元。其中所述生存时间计时器的初始值为50个小时、100个小时、150个小时、200个小时、300个小时或500个小时。
当利用所述查询条件在缓存设备的临时存储单元中进行检索以获取临时检索结果时,如果临时检索结果中的数据文件的数量与临时存储单元中的数据文件的总数量的比值大于预定比率时,将生存时间计时器的当前值增加1个小时。其中所述预定比率为30%、40%、50%、60%、70%或80%。
还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间。其中每个运行时间区间包括20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日;或者,每个运行时间区间包括至少100个自然日。当前运行时间区间包括至少100个自然日;即第一数量至少为100。与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间。
临时存储单元是在缓存设备中的创建的存储区域。有效运行时间是从当前运行时间区间的第二个自然日开始到接收到创建请求时所在的自然日的前一个自然日结束的一段时间。在确定第二数量小于5时,拒绝所述创建请求或忽略所述创建请求。所述创建请求来自于大数据存储系统的管理设备。在确定第二数量小于5时,向所述管理设备发送拒绝创建响应消息。
在所述大数据存储系统的系统记录设备中存储系统访问记录信息;所述系统访问记录信息用于实时记录大数据存储系统在当前运行时间区间内的所有数据文件的动态的总被访问次数。在当前运行时间区间结束时,所述系统访问记录信息中具有大数据存储系统在当前运行时间区间内的所有数据文件的总被访问次数。所述系统访问记录信息中具有当前运行时间区间之前的每个运行时间区间内的所有数据文件的总被访问次数。根据所述有效运行时间对所述系统访问记录信息进行处理以获得系统有效记录信息包括:将所述系统访问记录信息的所有被访问记录中访问起始时间在所述有效运行时间内的多个被访问记录构成系统有效记录信息。其中被访问记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸。
根据所述系统有效记录信息确定所述大数据存储系统在有效运行时间内的总被访问次数包括:将所述系统有效记录信息中的被访问记录的数量作为所述大数据存储系统在有效运行时间内的总被访问次数。并基于总被访问次数和有效运行时间确定所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN包括:确定有效运行时间所包括的小时的数量,将总被访问次数与有效运行时间所包括的小时的数量的比值确定为所述大数据存储系统在有效运行时间内的每小时平均被访问次数CAN。所述大数据存储系统的系统记录设备还存储数据记录文件,所述数据记录文件包括多个存储记录,每个存储记录包括:数据文件的标识符、存储起始时间和存储结束时间。
确定有效运行时间内在大数据存储系统中连续存储时间超过第一存储阈值的数据文件的数量CFN包括:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与有效运行时间存在交集并且连续存储时间大于第一存储阈值的数据文件的数量作为有效运行时间内在大数据存储系统中连续存储时间大于第一存储阈值的数据文件的数量CFN。所述第一存储阈值为有效运行时间的时间长度的0.8倍。所述系统记录设备中还存储历史记录文件,所述历史记录文件包括当前运行时间区间之前的每个运行时间区间内每小时平均被访问次数,以及当前运行时间区间之前的每个运行时间区间内在大数据存储系统中连续存储时间超过第二存储阈值的数据文件的数量。第二存储阈值为当前运行时间区间之前的每个运行时间区间的时间长度的0.8倍。其中每个运行时间区间包括相同数量的自然日,每个运行时间区间的时间长度相同。
确定当前运行时间区间之前的每个运行时间区间所包括的小时的数量,将当前运行时间区间之前的每个运行时间区间的总被访问次数与当前运行时间区间之前的每个运行时间区间所包括的小时的数量的比值确定为所述大数据存储系统在当前运行时间区间之前的每个运行时间区间内的每小时平均被访问次数。对于当前运行时间区间之前的每个运行时间区间:确定多个数据文件中存储起始时间和存储结束时间之间的连续存储时间与每个运行时间区间存在交集并且连续存储时间大于第二存储阈值的数据文件的数量作为每个运行时间区间内在大数据存储系统中连续存储时间大于第二存储阈值的数据文件的数量。
所述创建阈值为1.1、1.2、1.3、1.5、1.6或1.8。每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储所述设备访问记录文件,数据存储区域用于存储多个数据文件。每个存储设备的设备访问记录文件中包括多个设备访问记录信息,其中每个设备访问记录信息与相应的运行时间区间相关联,并用于记录在相应的运行时间区间中与存储设备的数据文件相关联的日志记录。将访问起始时间在有效运行时间内的多个日志记录确定为每个存储设备的有效运行时间的多个日志记录。
确定有效运行时间内的设备访问记录信息包括:将每个存储设备的有效运行时间的多个日志记录构成每个存储设备的有效运行时间内的设备访问记录信息。预先设定的基本时间间隔为5分钟、6分钟、10分钟、12分钟、15分钟、20分钟或30分钟。根据多个时间段中的每个时间段和每个存储设备的设备访问记录信息确定每个存储设备的时间统计文件包括:根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集,根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录,将每个存储设备的多个时间记录组成每个存储设备的时间统计文件。
其中,根据多个时间段中的每个时间段的时间区间对每个存储设备在有效运行时间内的设备访问记录信息进行划分,以生成与每个时间段相关联的信息集包括:基于有效运行时间的设备访问记录信息中每个日志记录的访问起始时间所位于的时间区间,将每个日志记录分配到与所位于的时间区间相关联的时间段中,将每个时间段所包括的所有日志记录作为与每个时间段相关联的信息集。根据与每个时间段相关联的信息集生成每个存储设备的多个时间记录包括:对与每个时间段相关联的信息集内的所有日志记录进行统计以生成每个时间段各自的时间记录。其中将每个时间段所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间段所包括的日志记录的数量作为时间段内被访问次数。根据单个的数据文件在相同时间段内的日志记录的数量来确定数据文件在时间段内的被访问次数。
所述次数阈值为100、200、300、500、600、800、1000、1200、1500或2000。基于每个高访问度的时间段的时间段内被访问次数确定每个存储设备的高访问度的时间段的平均被访问次数包括:将每个高访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有高访问度的时间段的总被访问次数。将每个存储设备的所有高访问度的时间段的总被访问次数除以相应存储设备的高访问度的时间段的数量,以获得每个存储设备的高访问度的时间段的平均被访问次数。基于每个低访问度的时间段的时间段内被访问次数确定每个存储设备的低访问度的时间段的平均被访问次数包括:将每个低访问度的时间段的时间段内被访问次数进行累加以得到每个存储设备的所有低访问度的时间段的总被访问次数。将每个存储设备的所有低访问度的时间段的总被访问次数除以相应存储设备的低访问度的时间段的数量,以获得每个存储设备的低访问度的时间段的平均被访问次数。所述关联门限为1.2、1.5、1.8、2、2.5或3。
根据每个时间关联性存储设备内的每个数据文件在有效运行时间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在有效运行时间内的被访问次数A。根据每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的日志记录的数量来确定每个时间关联性存储设备内的每个数据文件在前一个运行时间区间内的被访问次数B。候选阈值为110%、120%、130%、150%、180%、200%或300%。获得经过去重处理的临时文件集合之后,确定所述大数据存储系统的缓存设备的剩余存储空间,当剩余存储空间能够容纳经过去重处理的临时文件集合时,在大数据存储系统的缓存设备中创建临时存储单元。当剩余存储空间不能够容纳经过去重处理的临时文件集合时,不在大数据存储系统的缓存设备中创建临时存储单元。