发明内容
根据本发明的一个方面,提供一种在大数据存储系统的存储设备中识别关联性时间单元的方法,所述方法包括:
在大数据存储系统的当前运行时间区间结束时,向大数据存储系统内用于存储数据文件的多个存储设备中的每个存储设备发送用于指示开始识别关联性时间单元的通知消息,其中当前运行时间区间包括DN个自然日;
在接收到通知消息后,每个存储设备读取各自的信息存储区域中的访问记录文件并对各自的访问记录文件进行解析,以确定相应存储设备在当前运行时间区间内的访问记录信息,其中在当前运行时间区间内的访问记录信息包括在当前运行时间区间内的多个日志记录并且每个日志记录用于记载存储设备中的单个数据文件在当前运行时间区间内的单次访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸、数据文件的摘要信息和数据文件的存储起始时间;
每个存储设备以每个整点小时为划分单元,将每个自然日分为三种类型的统计区间:高访问度区间、中访问度区间和低访问度区间,其中高访问度区间、中访问度区间和低访问度区间中的每个包括至少一个整点小时,为高访问度区间设置细分参数H、为中访问度区间设置细分参数M和为低访问度区间设置细分参数L;将高访问度区间中的每个整点小时划分为H个时间单元、将中访问度区间中的每个整点小时划分为M个时间单元以及将低访问度区间中的每个整点小时划分为L个时间单元,从而将当前运行时间区间所包括的DN个自然日中的每个自然日划分为数量相同的多个时间单元并确定当前运行时间区间所包括的时间单元的数量TN;
将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行关联性时间单元的识别过程:
根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的当前运行时间区间的时间统计文件,其中所述时间统计文件包括多个时间记录和与每个时间记录相关联的文件信息表,其中每个时间记录的内容包括:时间单元的标识符、时间单元的开始时间、时间单元的结束时间、相关联的数据文件的总数量、时间单元内的被访问次数、相关联的数据文件的总存储尺寸;与每个时间记录相关联的文件信息表的表名为时间记录中时间单元的标识符,并且文件信息表包括多条文件记录,其中每条文件记录为<数据文件的标识符、数据文件的摘要信息、数据文件在时间单元内的被访问次数、数据文件的存储尺寸、数据文件的起始存储时间>,根据文件信息表确定与每个时间单元相关联的多个数据文件并将与每个时间单元相关联的多个数据文件构成每个时间单元的文件组,确定每个时间单元的文件组所包括的数据文件的数量FNi,其FNi为第i个时间单元的文件组所包括的数据文件的数量,i为自然数并且TN≥i≥1;
将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件,其中每个时间单元的文件组具有一个基准数据文件和至少一个参考数据文件,将每个时间单元的文件组内基准数据文件的摘要信息与每个参考数据文件的摘要信息进行内容匹配以确定基准数据文件与每个参考数据文件的内容关联度,将每个时间单元内基准数据文件与每个参考数据文件的内容关联度的平均值作为每个时间单元的内容关联度TRi,
基于当前存储设备的信息存储区域中的存储统计文件确定当前运行时间区间结束时在当前存储设备中数据文件的总数量Ftotal,基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal,计算当前运行时间区间内每个时间单元的平均被访问次数ANaverage
基于每个时间单元的文件组中数据文件的数量FNi、每个时间单元内的被访问次数ANi、当前存储设备中数据文件的总数量Ftotal、每个时间单元的平均被访问次数ANaverage以及每个时间单元的内容关联度TRi计算每个时间单元的关联系数:
其中CRi为当前存储设备的第i个时间单元的关联系数、FNi是第i个时间单元的文件组中数据文件的数量,Ftotal是当前存储设备中数据文件的总数量,ANi是第i个时间单元内的被访问次数、ANaverage是当前存储设备在每个时间单元的平均被访问次数以及TRi是第i个时间单元的内容关联度,φ为调整因子,
将当前存储设备的多个时间单元中关联系数大于关联系数阈值的时间单元确定为当前存储设备在当前运行时间区间内的具有时间关联性的时间单元。
其中关联性时间单元是指所涉及的多个数据文件的关联系数大于关联系数阈值的时间单元。
每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储访问记录文件和存储统计文件,数据存储区域用于存储多个数据文件;
其中存储统计文件用于记录每个运行时间区间结束时,存储设备中数据文件的总数量;
其中高访问度区间包括10个小时,并且高访问度区间包括时间段17:00至24:00和时间段11:00至14:00、中访问度区间包括8个小时,并且中访问度区间包括时间段06:00至11:00和时间段14:00至17:00以及低访问度区间包括6个小时,并且低访问度区间包括时间段00:00至06:00;
其中细分参数H为6,细分参数M为3并且细分参数L为2;
将高访问度区间中的每个整点小时划分为6个时间单元、将中访问度区间中的每个整点小时划分为3个时间单元以及将低访问度区间中的每个整点小时划分为2个时间单元;
其中高访问度区间中的每个时间单元的时间长度为10分钟,中访问度区间中的每个时间单元的时间长度为20分钟,低访问度区间中的每个时间单元的时间长度为30分钟;
每个自然日包括的时间单元的数量为96;
其中每个存储设备在当前运行时间区间内的时间单元的数量相同并且每个时间单元的时间段相同;
其中根据用户设置来确定每个自然日的高访问度区间、中访问度区间和低访问度区间,或者根据系统配置文件来确定每个自然日的高访问度区间、中访问度区间和低访问度区间;
其中当前运行时间区间所包括的时间单元的数量TN=96×DN。
将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行包括:
将大数据存储系统的多个存储设备中的每个存储设备按照随机顺序依次作为当前存储设备并进行关联性时间单元的识别过程;
或者,
将大数据存储系统的多个存储设备中的每个存储设备按照存储设备的编号依次作为当前存储设备并进行关联性时间单元的识别过程。
根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的时间统计文件包括:
根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集,根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表,将多个时间记录和与每个时间记录相关联的文件信息表组成当前存储设备的时间统计文件;
其中,根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集包括:
基于当前运行时间区间的访问记录信息中每个日志记录的访问起始时间所位于的时间段,将每个日志记录分配到与所位于的时间段相关联的时间单元中,将每个时间单元所包括的所有日志记录作为与每个时间单元相关联的信息集;
根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表包括:对与每个时间单元相关联的信息集内的所有日志记录进行统计以生成每个时间单元各自的时间记录,并且对每个时间单元所涉及的所有数据文件进行统计以生成与每个时间记录相关联的文件信息表;
其中将每个时间单元所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间单元所包括的日志记录的数量作为时间单元内的被访问次数,根据每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸来确定相关联的数据文件的总存储尺寸;
即,将每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸的累加和作为相关联的数据文件的总存储尺寸;
根据单个的数据文件在相同时间单元内的日志记录的数量来确定数据文件在时间单元内的被访问次数。
基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal替换为:
将当前存储设备的在当前运行时间区间内的访问记录信息中(多个)日志记录的数量作为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal。
所述基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal为:
将当前运行时间区间的每个时间记录中的时间单元内的被访问次数的总和确定为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal。
在将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件时,如果单个时间单元的文件组中内具有在同一个时间单元内的被访问次数最多的至少两个数据文件时,从至少两个数据文件中随机选择一个数据文件作为基准数据文件并将其余的数据文件选择作为参考数据文件;
所述内容匹配包括:语义匹配、关键字匹配、主题匹配或文本匹配;
所述内容关联度的范围为从0%到100%;
所述关联系数阈值为20%、30%、40%、50%、60%、70%、80%、90%、100%、110%或120%。
还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间;
其中每个运行时间区间包括10个自然日、20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日;
或者,每个运行时间区间包括至少100个自然日;
当前运行时间区间包括至少100个自然日,DN≥100;
与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间。
所述访问记录文件中包括多个访问记录信息,其中每个访问记录信息与相应的运行时间区间相关联,并用于记录存储设备在相应的运行时间区间中与数据文件相关联的日志记录;
将访问起始时间在当前运行时间区间内的日志记录确定为当前运行时间区间的日志记录。
不同时间单元的文件组中能够存在一个或多个相同的数据文件。
其中多个运行时间区间中任意两个相邻的运行时间区间之间具有过渡时间段;所述过渡时间段占用任意两个相邻的运行时间区间中后一个运行时间区间的开始部分的一段时间、或者所述过渡时间段占用任意两个相邻的运行时间区间中前一个运行时间区间的结尾部分的一段时间
根据本发明的另一方面,提供一种在大数据存储系统的存储设备中识别关联性时间单元的系统,所述系统包括:
发送装置,在大数据存储系统的当前运行时间区间结束时,向大数据存储系统内用于存储数据文件的多个存储设备中的每个存储设备发送用于指示开始识别关联性时间单元的通知消息,其中当前运行时间区间包括DN个自然日;
解析装置,在接收到通知消息后,每个存储设备读取各自的信息存储区域中的访问记录文件并对各自的访问记录文件进行解析,以确定相应存储设备在当前运行时间区间内的访问记录信息,其中在当前运行时间区间内的访问记录信息包括在当前运行时间区间内的多个日志记录并且每个日志记录用于记载存储设备中的单个数据文件在当前运行时间区间内的单次访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸、数据文件的摘要信息和数据文件的存储起始时间;
划分装置,每个存储设备以每个整点小时为划分单元,将每个自然日分为三种类型的统计区间:高访问度区间、中访问度区间和低访问度区间,其中高访问度区间、中访问度区间和低访问度区间中的每个包括至少一个整点小时,为高访问度区间设置细分参数H、为中访问度区间设置细分参数M和为低访问度区间设置细分参数L;将高访问度区间中的每个整点小时划分为H个时间单元、将中访问度区间中的每个整点小时划分为M个时间单元以及将低访问度区间中的每个整点小时划分为L个时间单元,从而将当前运行时间区间所包括的DN个自然日中的每个自然日划分为数量相同的多个时间单元并确定当前运行时间区间所包括的时间单元的数量TN;
处理装置,将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行:
根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的当前运行时间区间的时间统计文件,其中所述时间统计文件包括多个时间记录和与每个时间记录相关联的文件信息表,其中每个时间记录的内容包括:时间单元的标识符、时间单元的开始时间、时间单元的结束时间、相关联的数据文件的总数量、时间单元内的被访问次数、相关联的数据文件的总存储尺寸;与每个时间记录相关联的文件信息表的表名为时间记录中时间单元的标识符,并且文件信息表包括多条文件记录,其中每条文件记录为<数据文件的标识符、数据文件的摘要信息、数据文件在时间单元内的被访问次数、数据文件的存储尺寸、数据文件的起始存储时间>,根据文件信息表确定与每个时间单元相关联的多个数据文件并将与每个时间单元相关联的多个数据文件构成每个时间单元的文件组,确定每个时间单元的文件组所包括的数据文件的数量FNi,其FNi为第i个时间单元的文件组所包括的数据文件的数量,i为自然数并且TN≥i≥1;
将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件,其中每个时间单元的文件组具有一个基准数据文件和至少一个参考数据文件,将每个时间单元的文件组内基准数据文件的摘要信息与每个参考数据文件的摘要信息进行内容匹配以确定基准数据文件与每个参考数据文件的内容关联度,将每个时间单元内基准数据文件与每个参考数据文件的内容关联度的平均值作为每个时间单元的内容关联度TRi,
基于当前存储设备的信息存储区域中的存储统计文件确定当前运行时间区间结束时在当前存储设备中数据文件的总数量Ftotal,基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal,计算当前运行时间区间内每个时间单元的平均被访问次数ANaverage
基于每个时间单元的文件组中数据文件的数量FNi、每个时间单元内的被访问次数ANi、当前存储设备中数据文件的总数量Ftotal、每个时间单元的平均被访问次数ANaverage以及每个时间单元的内容关联度TRi计算每个时间单元的关联系数:
其中CRi为当前存储设备的第i个时间单元的关联系数、FNi是第i个时间单元的文件组中数据文件的数量,Ftotal是当前存储设备中数据文件的总数量,ANi是第i个时间单元内的被访问次数、ANaverage是当前存储设备在每个时间单元的平均被访问次数以及TRi是第i个时间单元的内容关联度,φ为调整因子,
将当前存储设备的多个时间单元中关联系数大于关联系数阈值的时间单元确定为当前存储设备在当前运行时间区间内的具有时间关联性的时间单元。
其中关联性时间单元是指所涉及的多个数据文件的关联系数大于关联系数阈值的时间单元。
每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储访问记录文件和存储统计文件,数据存储区域用于存储多个数据文件;
其中存储统计文件用于记录每个运行时间区间结束时,存储设备中数据文件的总数量;
其中高访问度区间包括10个小时,并且高访问度区间包括时间段17:00至24:00和时间段11:00至14:00、中访问度区间包括8个小时,并且中访问度区间包括时间段06:00至11:00和时间段14:00至17:00以及低访问度区间包括6个小时,并且低访问度区间包括时间段00:00至06:00;
其中细分参数H为6,细分参数M为3并且细分参数L为2;
将高访问度区间中的每个整点小时划分为6个时间单元、将中访问度区间中的每个整点小时划分为3个时间单元以及将低访问度区间中的每个整点小时划分为2个时间单元;
其中高访问度区间中的每个时间单元的时间长度为10分钟,中访问度区间中的每个时间单元的时间长度为20分钟,低访问度区间中的每个时间单元的时间长度为30分钟;
每个自然日包括的时间单元的数量为96;
其中每个存储设备在当前运行时间区间内的时间单元的数量相同并且每个时间单元的时间段相同;
其中根据用户设置来确定每个自然日的高访问度区间、中访问度区间和低访问度区间,或者根据系统配置文件来确定每个自然日的高访问度区间、中访问度区间和低访问度区间;
其中当前运行时间区间所包括的时间单元的数量TN=96×DN。
将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行包括:
将大数据存储系统的多个存储设备中的每个存储设备按照随机顺序依次作为当前存储设备并进行;
或者,
将大数据存储系统的多个存储设备中的每个存储设备按照存储设备的编号依次作为当前存储设备并进行。
根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的时间统计文件包括:
根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集,根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表,将多个时间记录和与每个时间记录相关联的文件信息表组成当前存储设备的时间统计文件;
其中,根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集包括:
基于当前运行时间区间的访问记录信息中每个日志记录的访问起始时间所位于的时间段,将每个日志记录分配到与所位于的时间段相关联的时间单元中,将每个时间单元所包括的所有日志记录作为与每个时间单元相关联的信息集;
根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表包括:对与每个时间单元相关联的信息集内的所有日志记录进行统计以生成每个时间单元各自的时间记录,并且对每个时间单元所涉及的所有数据文件进行统计以生成与每个时间记录相关联的文件信息表;
其中将每个时间单元所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间单元所包括的日志记录的数量作为时间单元内的被访问次数,根据每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸来确定相关联的数据文件的总存储尺寸;
即,将每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸的累加和作为相关联的数据文件的总存储尺寸;
根据单个的数据文件在相同时间单元内的日志记录的数量来确定数据文件在时间单元内的被访问次数。
基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal替换为:
将当前存储设备的在当前运行时间区间内的访问记录信息中(多个)日志记录的数量作为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal。
所述基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal为:
将当前运行时间区间的每个时间记录中的时间单元内的被访问次数的总和确定为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal。
在将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件时,如果单个时间单元的文件组中内具有在同一个时间单元内的被访问次数最多的至少两个数据文件时,从至少两个数据文件中随机选择一个数据文件作为基准数据文件并将其余的数据文件选择作为参考数据文件;
所述内容匹配包括:语义匹配、关键字匹配、主题匹配或文本匹配;
所述内容关联度的范围为从0%到100%;
所述关联系数阈值为20%、30%、40%、50%、60%、70%、80%、90%、100%、110%或120%。
还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间;
其中每个运行时间区间包括10个自然日、20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日;
或者,每个运行时间区间包括至少100个自然日;
当前运行时间区间包括至少100个自然日,DN≥100;
与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间。
所述访问记录文件中包括多个访问记录信息,其中每个访问记录信息与相应的运行时间区间相关联,并用于记录存储设备在相应的运行时间区间中与数据文件相关联的日志记录;
将访问起始时间在当前运行时间区间内的日志记录确定为当前运行时间区间的日志记录。
不同时间单元的文件组中能够存在一个或多个相同的数据文件。
其中多个运行时间区间中任意两个相邻的运行时间区间之间具有过渡时间段;所述过渡时间段占用任意两个相邻的运行时间区间中后一个运行时间区间的开始部分的一段时间、或者所述过渡时间段占用任意两个相邻的运行时间区间中前一个运行时间区间的结尾部分的一段时间。
具体实施方式
图1为根据本发明的在大数据存储系统的存储设备中识别关联性时间单元的方法100的流程图。
在步骤101,在大数据存储系统的当前运行时间区间结束时,向大数据存储系统内用于存储数据文件的多个存储设备中的每个存储设备发送用于指示开始识别关联性时间单元的通知消息,其中当前运行时间区间包括DN个自然日。其中关联性时间单元是指所涉及的多个数据文件的关联系数大于关联系数阈值的时间单元。
还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间。其中每个运行时间区间包括10个自然日、20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日。或者,每个运行时间区间包括至少100个自然日。当前运行时间区间包括至少100个自然日,DN≥100。与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间。
其中多个运行时间区间中任意两个相邻的运行时间区间之间具有过渡时间段;所述过渡时间段占用任意两个相邻的运行时间区间中后一个运行时间区间的开始部分的一段时间、或者所述过渡时间段占用任意两个相邻的运行时间区间中前一个运行时间区间的结尾部分的一段时间。例如,每个运行时间区间为10个自然日,例如,当前运行时间区间为2018年10月1日至10日,即当前运行时间区间为2018年10月1日的00:00:00至10月10日的24:00:00。后一个运行时间区间为2018年10月11日的00:00:00至10月20日的24:00:00。通常,本申请可以将后一个运行时间区间的2018年10月11日的00:00:00至01:00:00的1个小时作为过渡时间段,并且在过渡时间段中进行解析、判断、识别等处理,即根据本申请的为了进行数据文件存储所采取的准备工作。可替换地,将2018年10月10日的23:00:00至24:00:00作为过渡时间段。应当了解的是,过渡时间段可以被认为是属于所在的运行时间区间,例如,过渡时间段属于后一个运行时间区间,或属于当前运行时间区间。在对任何运行时间区间进行相关信息的统计时,将过渡时间段内的数据信息进行并入统计,即过渡时间段属于所在的运行时间区间并参与数据统计。只是,实际上利用过渡时间段进行与数据文件存储相关的处理。即,无论过渡时间段的时间长度是1小时还是2小时,或其他合理数值,当前运行时间区间为10个完整的工作日,并且后一个运行时间区间也是10个完整的工作日。
在步骤102,在接收到通知消息后,每个存储设备读取各自的信息存储区域中的访问记录文件并对各自的访问记录文件进行解析,以确定相应存储设备在当前运行时间区间内的访问记录信息,其中在当前运行时间区间内的访问记录信息包括在当前运行时间区间内的多个日志记录并且每个日志记录用于记载存储设备中的单个数据文件在当前运行时间区间内的单次访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸、数据文件的摘要信息和数据文件的存储起始时间。
每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储访问记录文件和存储统计文件,数据存储区域用于存储多个数据文件。其中存储统计文件用于记录每个运行时间区间结束时,存储设备中数据文件的总数量。
所述访问记录文件中包括多个访问记录信息,其中每个访问记录信息与相应的运行时间区间相关联,并用于记录存储设备在相应的运行时间区间中与数据文件相关联的日志记录。将访问起始时间在当前运行时间区间内的日志记录确定为当前运行时间区间的日志记录。不同时间单元的文件组中能够存在一个或多个相同的数据文件。其中多个运行时间区间中任意两个相邻的运行时间区间之间具有过渡时间段;所述过渡时间段占用任意两个相邻的运行时间区间中后一个运行时间区间的开始部分的一段时间、或者所述过渡时间段占用任意两个相邻的运行时间区间中前一个运行时间区间的结尾部分的一段时间。
在步骤103,每个存储设备以每个整点小时为划分单元,将每个自然日分为三种类型的统计区间:高访问度区间、中访问度区间和低访问度区间,其中高访问度区间、中访问度区间和低访问度区间中的每个包括至少一个整点小时,为高访问度区间设置细分参数H、为中访问度区间设置细分参数M和为低访问度区间设置细分参数L;将高访问度区间中的每个整点小时划分为H个时间单元、将中访问度区间中的每个整点小时划分为M个时间单元以及将低访问度区间中的每个整点小时划分为L个时间单元,从而将当前运行时间区间所包括的DN个自然日中的每个自然日划分为数量相同的多个时间单元并确定当前运行时间区间所包括的时间单元的数量TN。
其中高访问度区间包括10个小时,并且高访问度区间包括时间段17:00至24:00和时间段11:00至14:00、中访问度区间包括8个小时,并且中访问度区间包括时间段06:00至11:00和时间段14:00至17:00以及低访问度区间包括6个小时,并且低访问度区间包括时间段00:00至06:00。其中细分参数H为6,细分参数M为3并且细分参数L为2。将高访问度区间中的每个整点小时划分为6个时间单元、将中访问度区间中的每个整点小时划分为3个时间单元以及将低访问度区间中的每个整点小时划分为2个时间单元。其中高访问度区间中的每个时间单元的时间长度为10分钟,中访问度区间中的每个时间单元的时间长度为20分钟,低访问度区间中的每个时间单元的时间长度为30分钟。每个自然日包括的时间单元的数量为96。其中每个存储设备在当前运行时间区间内的时间单元的数量相同并且每个时间单元的时间段相同。其中根据用户设置来确定每个自然日的高访问度区间、中访问度区间和低访问度区间,或者根据系统配置文件来确定每个自然日的高访问度区间、中访问度区间和低访问度区间。其中当前运行时间区间所包括的时间单元的数量TN=96×DN。
在步骤104,将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行。其中大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行包括:将大数据存储系统的多个存储设备中的每个存储设备按照随机顺序依次作为当前存储设备并进行;或者,将大数据存储系统的多个存储设备中的每个存储设备按照存储设备的编号依次作为当前存储设备并进行。
根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的当前运行时间区间的时间统计文件,其中所述时间统计文件包括多个时间记录和与每个时间记录相关联的文件信息表,其中每个时间记录的内容包括:时间单元的标识符、时间单元的开始时间、时间单元的结束时间、相关联的数据文件的总数量、时间单元内的被访问次数、相关联的数据文件的总存储尺寸;与每个时间记录相关联的文件信息表的表名为时间记录中时间单元的标识符,并且文件信息表包括多条文件记录,其中每条文件记录为<数据文件的标识符、数据文件的摘要信息、数据文件在时间单元内的被访问次数、数据文件的存储尺寸、数据文件的起始存储时间>,根据文件信息表确定与每个时间单元相关联的多个数据文件并将与每个时间单元相关联的多个数据文件构成每个时间单元的文件组,确定每个时间单元的文件组所包括的数据文件的数量FNi,其FNi为第i个时间单元的文件组所包括的数据文件的数量,i为自然数并且TN≥i≥1。
根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的时间统计文件包括:根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集,根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表,将多个时间记录和与每个时间记录相关联的文件信息表组成当前存储设备的时间统计文件。
其中,根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集包括:基于当前运行时间区间的访问记录信息中每个日志记录的访问起始时间所位于的时间段,将每个日志记录分配到与所位于的时间段相关联的时间单元中,将每个时间单元所包括的所有日志记录作为与每个时间单元相关联的信息集。
根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表包括:对与每个时间单元相关联的信息集内的所有日志记录进行统计以生成每个时间单元各自的时间记录,并且对每个时间单元所涉及的所有数据文件进行统计以生成与每个时间记录相关联的文件信息表。
其中将每个时间单元所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间单元所包括的日志记录的数量作为时间单元内的被访问次数,根据每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸来确定相关联的数据文件的总存储尺寸。即,将每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸的累加和作为相关联的数据文件的总存储尺寸。根据单个的数据文件在相同时间单元内的日志记录的数量来确定数据文件在时间单元内的被访问次数。
在步骤105,将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件,其中每个时间单元的文件组具有一个基准数据文件和至少一个参考数据文件,将每个时间单元的文件组内基准数据文件的摘要信息与每个参考数据文件的摘要信息进行内容匹配以确定基准数据文件与每个参考数据文件的内容关联度,将每个时间单元内基准数据文件与每个参考数据文件的内容关联度的平均值作为每个时间单元的内容关联度TRi。
在将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件时,如果单个时间单元的文件组中内具有在同一个时间单元内的被访问次数最多的至少两个数据文件时,从至少两个数据文件中随机选择一个数据文件作为基准数据文件并将其余的数据文件选择作为参考数据文件。所述内容匹配包括:语义匹配、关键字匹配、主题匹配或文本匹配。所述内容关联度的范围为从0%到100%。
在步骤106,基于当前存储设备的信息存储区域中的存储统计文件确定当前运行时间区间结束时在当前存储设备中数据文件的总数量Ftotal,基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal,计算当前运行时间区间内每个时间单元的平均被访问次数ANaverage
基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal替换为:将当前存储设备的在当前运行时间区间内的访问记录信息中(多个)日志记录的数量作为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal。所述基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal为:将当前运行时间区间的每个时间记录中的时间单元内的被访问次数的总和确定为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal。
在步骤107,基于每个时间单元的文件组中数据文件的数量FNi、每个时间单元内的被访问次数ANi、当前存储设备中数据文件的总数量Ftotal、每个时间单元的平均被访问次数ANaverage以及每个时间单元的内容关联度TRi计算每个时间单元的关联系数:
其中CRi为当前存储设备的第i个时间单元的关联系数、FNi是第i个时间单元的文件组中数据文件的数量,Ftotal是当前存储设备中数据文件的总数量,ANi是第i个时间单元内的被访问次数、ANaverage是当前存储设备在每个时间单元的平均被访问次数以及TRi是第i个时间单元的内容关联度,φ为调整因子,
在步骤108,将当前存储设备的多个时间单元中关联系数大于关联系数阈值的时间单元确定为当前存储设备在当前运行时间区间内的具有时间关联性的时间单元。所述关联系数阈值为20%、30%、40%、50%、60%、70%、80%、90%、100%、110%或120%。
图2为根据本发明的多个时间运行区间200的示意图。在大数据存储系统初始运行时或者在大数据存储系统运行中的特定时间,为大数据存储系统的运行设置多个运行时间区间。如图2所示,c。其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间n+1确定为当前运行时间区间。例如,当前时间为2018年10月12日12:00:00,并且运行时间区间n+1为2018年10月10日00:00:00至2018年10月20日24:00:00,则将运行时间区间n+1确定为当前运行时间区间。
其中运行时间区间1、运行时间区间2、运行时间区间3、……、运行时间区间n、运行时间区间n+1、运行时间区间n+2、运行时间区间n+3、……中的每个运行时间区间包括10个自然日、20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日。或者,每个运行时间区间包括至少100个自然日。当前运行时间区间包括至少100个自然日。与当前运行时间区间n+1相邻的时间区间是前一个运行时间区间n和后一个运行时间区间n+2。如图2所示,利用虚线来表示还未发生、还未到达或还未经历的运行时间区间,并且利用实线来表示已经过去、已经经历或已经发生的运行时间区间,或者正在经历或正在发生的运行时间区间。
其中多个运行时间区间中任意两个相邻的运行时间区间之间具有过渡时间段;所述过渡时间段占用任意两个相邻的运行时间区间中后一个运行时间区间的开始部分的一段时间、或者所述过渡时间段占用任意两个相邻的运行时间区间中前一个运行时间区间的结尾部分的一段时间。例如,每个运行时间区间为10个自然日,例如,当前运行时间区间为2018年10月1日至10日,即当前运行时间区间为2018年10月1日的00:00:00至10月10日的24:00:00。后一个运行时间区间为2018年10月11日的00:00:00至10月20日的24:00:00。通常,本申请可以将后一个运行时间区间的2018年10月11日的00:00:00至01:00:00的1个小时作为过渡时间段,并且在过渡时间段中进行解析、判断、识别等处理,即根据本申请的为了进行数据文件存储所采取的准备工作。可替换地,将2018年10月10日的23:00:00至24:00:00作为过渡时间段。应当了解的是,过渡时间段可以被认为是属于所在的运行时间区间,例如,过渡时间段属于后一个运行时间区间,或属于当前运行时间区间。在对任何运行时间区间进行相关信息的统计时,将过渡时间段内的数据信息进行并入统计,即过渡时间段属于所在的运行时间区间并参与数据统计。只是,实际上利用过渡时间段进行与数据文件存储相关的处理。即,无论过渡时间段的时间长度是1小时还是2小时,或其他合理数值,当前运行时间区间为10个完整的工作日,并且后一个运行时间区间也是10个完整的工作日。
图3为根据本发明的在大数据存储系统的存储设备中识别关联性时间单元的系统300的结构示意图。系统300包括:发送装置301、解析装置302、划分装置303以及处理装置304。
发送装置301在大数据存储系统的当前运行时间区间结束时,向大数据存储系统内用于存储数据文件的多个存储设备中的每个存储设备发送用于指示开始识别关联性时间单元的通知消息,其中当前运行时间区间包括DN个自然日。
解析装置302在接收到通知消息后,每个存储设备读取各自的信息存储区域中的访问记录文件并对各自的访问记录文件进行解析,以确定相应存储设备在当前运行时间区间内的访问记录信息,其中在当前运行时间区间内的访问记录信息包括在当前运行时间区间内的多个日志记录并且每个日志记录用于记载存储设备中的单个数据文件在当前运行时间区间内的单次访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸、数据文件的摘要信息和数据文件的存储起始时间。
划分装置303每个存储设备以每个整点小时为划分单元,将每个自然日分为三种类型的统计区间:高访问度区间、中访问度区间和低访问度区间,其中高访问度区间、中访问度区间和低访问度区间中的每个包括至少一个整点小时,为高访问度区间设置细分参数H、为中访问度区间设置细分参数M和为低访问度区间设置细分参数L;将高访问度区间中的每个整点小时划分为H个时间单元、将中访问度区间中的每个整点小时划分为M个时间单元以及将低访问度区间中的每个整点小时划分为L个时间单元,从而将当前运行时间区间所包括的DN个自然日中的每个自然日划分为数量相同的多个时间单元并确定当前运行时间区间所包括的时间单元的数量TN;
处理装置304将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行:根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的当前运行时间区间的时间统计文件,其中所述时间统计文件包括多个时间记录和与每个时间记录相关联的文件信息表,其中每个时间记录的内容包括:时间单元的标识符、时间单元的开始时间、时间单元的结束时间、相关联的数据文件的总数量、时间单元内的被访问次数、相关联的数据文件的总存储尺寸;与每个时间记录相关联的文件信息表的表名为时间记录中时间单元的标识符,并且文件信息表包括多条文件记录,其中每条文件记录为<数据文件的标识符、数据文件的摘要信息、数据文件在时间单元内的被访问次数、数据文件的存储尺寸、数据文件的起始存储时间>,根据文件信息表确定与每个时间单元相关联的多个数据文件并将与每个时间单元相关联的多个数据文件构成每个时间单元的文件组,确定每个时间单元的文件组所包括的数据文件的数量FNi,其FNi为第i个时间单元的文件组所包括的数据文件的数量,i为自然数并且TN≥i≥1;
将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件,其中每个时间单元的文件组具有一个基准数据文件和至少一个参考数据文件,将每个时间单元的文件组内基准数据文件的摘要信息与每个参考数据文件的摘要信息进行内容匹配以确定基准数据文件与每个参考数据文件的内容关联度,将每个时间单元内基准数据文件与每个参考数据文件的内容关联度的平均值作为每个时间单元的内容关联度TRi,
基于当前存储设备的信息存储区域中的存储统计文件确定当前运行时间区间结束时在当前存储设备中数据文件的总数量Ftotal,基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal,计算当前运行时间区间内每个时间单元的平均被访问次数ANaverage
基于每个时间单元的文件组中数据文件的数量FNi、每个时间单元内的被访问次数ANi、当前存储设备中数据文件的总数量Ftotal、每个时间单元的平均被访问次数ANaverage以及每个时间单元的内容关联度TRi计算每个时间单元的关联系数:
其中CRi为当前存储设备的第i个时间单元的关联系数、FNi是第i个时间单元的文件组中数据文件的数量,Ftotal是当前存储设备中数据文件的总数量,ANi是第i个时间单元内的被访问次数、ANaverage是当前存储设备在每个时间单元的平均被访问次数以及TRi是第i个时间单元的内容关联度,φ为调整因子,
将当前存储设备的多个时间单元中关联系数大于关联系数阈值的时间单元确定为当前存储设备在当前运行时间区间内的具有时间关联性的时间单元。
其中关联性时间单元是指所涉及的多个数据文件的关联系数大于关联系数阈值的时间单元。每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储访问记录文件和存储统计文件,数据存储区域用于存储多个数据文件。其中存储统计文件用于记录每个运行时间区间结束时,存储设备中数据文件的总数量。其中高访问度区间包括10个小时,并且高访问度区间包括时间段17:00至24:00和时间段11:00至14:00、中访问度区间包括8个小时,并且中访问度区间包括时间段06:00至11:00和时间段14:00至17:00以及低访问度区间包括6个小时,并且低访问度区间包括时间段00:00至06:00。其中细分参数H为6,细分参数M为3并且细分参数L为2。
将高访问度区间中的每个整点小时划分为6个时间单元、将中访问度区间中的每个整点小时划分为3个时间单元以及将低访问度区间中的每个整点小时划分为2个时间单元。其中高访问度区间中的每个时间单元的时间长度为10分钟,中访问度区间中的每个时间单元的时间长度为20分钟,低访问度区间中的每个时间单元的时间长度为30分钟。每个自然日包括的时间单元的数量为96。其中每个存储设备在当前运行时间区间内的时间单元的数量相同并且每个时间单元的时间段相同。其中根据用户设置来确定每个自然日的高访问度区间、中访问度区间和低访问度区间,或者根据系统配置文件来确定每个自然日的高访问度区间、中访问度区间和低访问度区间。其中当前运行时间区间所包括的时间单元的数量TN=96×DN。
将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行包括:将大数据存储系统的多个存储设备中的每个存储设备按照随机顺序依次作为当前存储设备并进行。或者,将大数据存储系统的多个存储设备中的每个存储设备按照存储设备的编号依次作为当前存储设备并进行。根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的时间统计文件包括:根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集,根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表,将多个时间记录和与每个时间记录相关联的文件信息表组成当前存储设备的时间统计文件。
其中,根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集包括:基于当前运行时间区间的访问记录信息中每个日志记录的访问起始时间所位于的时间段,将每个日志记录分配到与所位于的时间段相关联的时间单元中,将每个时间单元所包括的所有日志记录作为与每个时间单元相关联的信息集。
根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表包括:对与每个时间单元相关联的信息集内的所有日志记录进行统计以生成每个时间单元各自的时间记录,并且对每个时间单元所涉及的所有数据文件进行统计以生成与每个时间记录相关联的文件信息表。
其中将每个时间单元所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间单元所包括的日志记录的数量作为时间单元内的被访问次数,根据每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸来确定相关联的数据文件的总存储尺寸。即,将每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸的累加和作为相关联的数据文件的总存储尺寸。根据单个的数据文件在相同时间单元内的日志记录的数量来确定数据文件在时间单元内的被访问次数。
基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal替换为:将当前存储设备的在当前运行时间区间内的访问记录信息中(多个)日志记录的数量作为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal。所述基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal为:将当前运行时间区间的每个时间记录中的时间单元内的被访问次数的总和确定为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal。
在将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件时,如果单个时间单元的文件组中内具有在同一个时间单元内的被访问次数最多的至少两个数据文件时,从至少两个数据文件中随机选择一个数据文件作为基准数据文件并将其余的数据文件选择作为参考数据文件。所述内容匹配包括:语义匹配、关键字匹配、主题匹配或文本匹配。所述内容关联度的范围为从0%到100%。所述关联系数阈值为20%、30%、40%、50%、60%、70%、80%、90%、100%、110%或120%。还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间。其中每个运行时间区间包括10个自然日、20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日。或者,每个运行时间区间包括至少100个自然日。当前运行时间区间包括至少100个自然日,DN≥100。与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间。
所述访问记录文件中包括多个访问记录信息,其中每个访问记录信息与相应的运行时间区间相关联,并用于记录存储设备在相应的运行时间区间中与数据文件相关联的日志记录。将访问起始时间在当前运行时间区间内的日志记录确定为当前运行时间区间的日志记录。不同时间单元的文件组中能够存在一个或多个相同的数据文件。其中多个运行时间区间中任意两个相邻的运行时间区间之间具有过渡时间段;所述过渡时间段占用任意两个相邻的运行时间区间中后一个运行时间区间的开始部分的一段时间、或者所述过渡时间段占用任意两个相邻的运行时间区间中前一个运行时间区间的结尾部分的一段时间。