CN109492009B - 在大数据存储设备中识别关联性时间单元的方法及系统 - Google Patents

在大数据存储设备中识别关联性时间单元的方法及系统 Download PDF

Info

Publication number
CN109492009B
CN109492009B CN201811411597.3A CN201811411597A CN109492009B CN 109492009 B CN109492009 B CN 109492009B CN 201811411597 A CN201811411597 A CN 201811411597A CN 109492009 B CN109492009 B CN 109492009B
Authority
CN
China
Prior art keywords
time
file
storage device
current
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811411597.3A
Other languages
English (en)
Other versions
CN109492009A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Saian Technology Co ltd
Original Assignee
Guangzhou Saian Internet Of Things Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Saian Internet Of Things Technology Co ltd filed Critical Guangzhou Saian Internet Of Things Technology Co ltd
Priority to CN201811411597.3A priority Critical patent/CN109492009B/zh
Publication of CN109492009A publication Critical patent/CN109492009A/zh
Application granted granted Critical
Publication of CN109492009B publication Critical patent/CN109492009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种在大数据存储系统的存储设备中识别关联性时间单元的方法及系统,其中方法包括:向大数据存储系统内用于存储数据文件的多个存储设备中的每个存储设备发送用于指示开始识别关联性时间单元的通知消息;每个存储设备读取各自的信息存储区域中的访问记录文件并对各自的访问记录文件进行解析,以确定相应存储设备在当前运行时间区间内的访问记录信息;将当前运行时间区间划分为数量相同的多个时间单元;将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行识别处理;将当前存储设备的多个时间单元中关联系数大于关联系数阈值的时间单元确定为当前存储设备在当前运行时间区间内的具有时间关联性的时间单元。

Description

在大数据存储设备中识别关联性时间单元的方法及系统
技术领域
本发明涉及大数据存储领域,并且更具体地,涉及一种在大数据存储系统的存储设备中识别关联性时间单元的方法和系统。
背景技术
目前,随着大数据存储系统的使用越来越广泛,针对大数据存储系统的存储效率提升的改进方案也越来越多。例如,部分大数据存储系统通过冗余存储等方式来提高读取效率并且能够保证数据安全性。随着大数据存储系统的运行时间越来越长,数据文件的被访问通常会呈现与时间相关联的特点。例如,在中午或傍晚,针对食品、餐厅等的大数据分析需要频繁使用大数据存储系统,而在工作时间,针对工作内容的大数据分析需要频繁使用大数据存储系统。然而,现有技术中并没有针对时间对大数据存储系统中的数据文件进行关联分析或存储的手段。
发明内容
根据本发明的一个方面,提供一种在大数据存储系统的存储设备中识别关联性时间单元的方法,所述方法包括:
在大数据存储系统的当前运行时间区间结束时,向大数据存储系统内用于存储数据文件的多个存储设备中的每个存储设备发送用于指示开始识别关联性时间单元的通知消息,其中当前运行时间区间包括DN个自然日;
在接收到通知消息后,每个存储设备读取各自的信息存储区域中的访问记录文件并对各自的访问记录文件进行解析,以确定相应存储设备在当前运行时间区间内的访问记录信息,其中在当前运行时间区间内的访问记录信息包括在当前运行时间区间内的多个日志记录并且每个日志记录用于记载存储设备中的单个数据文件在当前运行时间区间内的单次访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸、数据文件的摘要信息和数据文件的存储起始时间;
每个存储设备以每个整点小时为划分单元,将每个自然日分为三种类型的统计区间:高访问度区间、中访问度区间和低访问度区间,其中高访问度区间、中访问度区间和低访问度区间中的每个包括至少一个整点小时,为高访问度区间设置细分参数H、为中访问度区间设置细分参数M和为低访问度区间设置细分参数L;将高访问度区间中的每个整点小时划分为H个时间单元、将中访问度区间中的每个整点小时划分为M个时间单元以及将低访问度区间中的每个整点小时划分为L个时间单元,从而将当前运行时间区间所包括的DN个自然日中的每个自然日划分为数量相同的多个时间单元并确定当前运行时间区间所包括的时间单元的数量TN;
将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行关联性时间单元的识别过程:
根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的当前运行时间区间的时间统计文件,其中所述时间统计文件包括多个时间记录和与每个时间记录相关联的文件信息表,其中每个时间记录的内容包括:时间单元的标识符、时间单元的开始时间、时间单元的结束时间、相关联的数据文件的总数量、时间单元内的被访问次数、相关联的数据文件的总存储尺寸;与每个时间记录相关联的文件信息表的表名为时间记录中时间单元的标识符,并且文件信息表包括多条文件记录,其中每条文件记录为<数据文件的标识符、数据文件的摘要信息、数据文件在时间单元内的被访问次数、数据文件的存储尺寸、数据文件的起始存储时间>,根据文件信息表确定与每个时间单元相关联的多个数据文件并将与每个时间单元相关联的多个数据文件构成每个时间单元的文件组,确定每个时间单元的文件组所包括的数据文件的数量FNi,其FNi为第i个时间单元的文件组所包括的数据文件的数量,i为自然数并且TN≥i≥1;
将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件,其中每个时间单元的文件组具有一个基准数据文件和至少一个参考数据文件,将每个时间单元的文件组内基准数据文件的摘要信息与每个参考数据文件的摘要信息进行内容匹配以确定基准数据文件与每个参考数据文件的内容关联度,将每个时间单元内基准数据文件与每个参考数据文件的内容关联度的平均值作为每个时间单元的内容关联度TRi
基于当前存储设备的信息存储区域中的存储统计文件确定当前运行时间区间结束时在当前存储设备中数据文件的总数量Ftotal,基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal,计算当前运行时间区间内每个时间单元的平均被访问次数ANaverage
Figure BDA0001878680780000021
基于每个时间单元的文件组中数据文件的数量FNi、每个时间单元内的被访问次数ANi、当前存储设备中数据文件的总数量Ftotal、每个时间单元的平均被访问次数ANaverage以及每个时间单元的内容关联度TRi计算每个时间单元的关联系数:
Figure BDA0001878680780000022
其中CRi为当前存储设备的第i个时间单元的关联系数、FNi是第i个时间单元的文件组中数据文件的数量,Ftotal是当前存储设备中数据文件的总数量,ANi是第i个时间单元内的被访问次数、ANaverage是当前存储设备在每个时间单元的平均被访问次数以及TRi是第i个时间单元的内容关联度,φ为调整因子,
Figure BDA0001878680780000031
将当前存储设备的多个时间单元中关联系数大于关联系数阈值的时间单元确定为当前存储设备在当前运行时间区间内的具有时间关联性的时间单元。
其中关联性时间单元是指所涉及的多个数据文件的关联系数大于关联系数阈值的时间单元。
每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储访问记录文件和存储统计文件,数据存储区域用于存储多个数据文件;
其中存储统计文件用于记录每个运行时间区间结束时,存储设备中数据文件的总数量;
其中高访问度区间包括10个小时,并且高访问度区间包括时间段17:00至24:00和时间段11:00至14:00、中访问度区间包括8个小时,并且中访问度区间包括时间段06:00至11:00和时间段14:00至17:00以及低访问度区间包括6个小时,并且低访问度区间包括时间段00:00至06:00;
其中细分参数H为6,细分参数M为3并且细分参数L为2;
将高访问度区间中的每个整点小时划分为6个时间单元、将中访问度区间中的每个整点小时划分为3个时间单元以及将低访问度区间中的每个整点小时划分为2个时间单元;
其中高访问度区间中的每个时间单元的时间长度为10分钟,中访问度区间中的每个时间单元的时间长度为20分钟,低访问度区间中的每个时间单元的时间长度为30分钟;
每个自然日包括的时间单元的数量为96;
其中每个存储设备在当前运行时间区间内的时间单元的数量相同并且每个时间单元的时间段相同;
其中根据用户设置来确定每个自然日的高访问度区间、中访问度区间和低访问度区间,或者根据系统配置文件来确定每个自然日的高访问度区间、中访问度区间和低访问度区间;
其中当前运行时间区间所包括的时间单元的数量TN=96×DN。
将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行包括:
将大数据存储系统的多个存储设备中的每个存储设备按照随机顺序依次作为当前存储设备并进行关联性时间单元的识别过程;
或者,
将大数据存储系统的多个存储设备中的每个存储设备按照存储设备的编号依次作为当前存储设备并进行关联性时间单元的识别过程。
根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的时间统计文件包括:
根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集,根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表,将多个时间记录和与每个时间记录相关联的文件信息表组成当前存储设备的时间统计文件;
其中,根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集包括:
基于当前运行时间区间的访问记录信息中每个日志记录的访问起始时间所位于的时间段,将每个日志记录分配到与所位于的时间段相关联的时间单元中,将每个时间单元所包括的所有日志记录作为与每个时间单元相关联的信息集;
根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表包括:对与每个时间单元相关联的信息集内的所有日志记录进行统计以生成每个时间单元各自的时间记录,并且对每个时间单元所涉及的所有数据文件进行统计以生成与每个时间记录相关联的文件信息表;
其中将每个时间单元所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间单元所包括的日志记录的数量作为时间单元内的被访问次数,根据每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸来确定相关联的数据文件的总存储尺寸;
即,将每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸的累加和作为相关联的数据文件的总存储尺寸;
根据单个的数据文件在相同时间单元内的日志记录的数量来确定数据文件在时间单元内的被访问次数。
基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal替换为:
将当前存储设备的在当前运行时间区间内的访问记录信息中(多个)日志记录的数量作为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal
所述基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal为:
将当前运行时间区间的每个时间记录中的时间单元内的被访问次数的总和确定为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal
在将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件时,如果单个时间单元的文件组中内具有在同一个时间单元内的被访问次数最多的至少两个数据文件时,从至少两个数据文件中随机选择一个数据文件作为基准数据文件并将其余的数据文件选择作为参考数据文件;
所述内容匹配包括:语义匹配、关键字匹配、主题匹配或文本匹配;
所述内容关联度的范围为从0%到100%;
所述关联系数阈值为20%、30%、40%、50%、60%、70%、80%、90%、100%、110%或120%。
还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间;
其中每个运行时间区间包括10个自然日、20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日;
或者,每个运行时间区间包括至少100个自然日;
当前运行时间区间包括至少100个自然日,DN≥100;
与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间。
所述访问记录文件中包括多个访问记录信息,其中每个访问记录信息与相应的运行时间区间相关联,并用于记录存储设备在相应的运行时间区间中与数据文件相关联的日志记录;
将访问起始时间在当前运行时间区间内的日志记录确定为当前运行时间区间的日志记录。
不同时间单元的文件组中能够存在一个或多个相同的数据文件。
其中多个运行时间区间中任意两个相邻的运行时间区间之间具有过渡时间段;所述过渡时间段占用任意两个相邻的运行时间区间中后一个运行时间区间的开始部分的一段时间、或者所述过渡时间段占用任意两个相邻的运行时间区间中前一个运行时间区间的结尾部分的一段时间
根据本发明的另一方面,提供一种在大数据存储系统的存储设备中识别关联性时间单元的系统,所述系统包括:
发送装置,在大数据存储系统的当前运行时间区间结束时,向大数据存储系统内用于存储数据文件的多个存储设备中的每个存储设备发送用于指示开始识别关联性时间单元的通知消息,其中当前运行时间区间包括DN个自然日;
解析装置,在接收到通知消息后,每个存储设备读取各自的信息存储区域中的访问记录文件并对各自的访问记录文件进行解析,以确定相应存储设备在当前运行时间区间内的访问记录信息,其中在当前运行时间区间内的访问记录信息包括在当前运行时间区间内的多个日志记录并且每个日志记录用于记载存储设备中的单个数据文件在当前运行时间区间内的单次访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸、数据文件的摘要信息和数据文件的存储起始时间;
划分装置,每个存储设备以每个整点小时为划分单元,将每个自然日分为三种类型的统计区间:高访问度区间、中访问度区间和低访问度区间,其中高访问度区间、中访问度区间和低访问度区间中的每个包括至少一个整点小时,为高访问度区间设置细分参数H、为中访问度区间设置细分参数M和为低访问度区间设置细分参数L;将高访问度区间中的每个整点小时划分为H个时间单元、将中访问度区间中的每个整点小时划分为M个时间单元以及将低访问度区间中的每个整点小时划分为L个时间单元,从而将当前运行时间区间所包括的DN个自然日中的每个自然日划分为数量相同的多个时间单元并确定当前运行时间区间所包括的时间单元的数量TN;
处理装置,将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行:
根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的当前运行时间区间的时间统计文件,其中所述时间统计文件包括多个时间记录和与每个时间记录相关联的文件信息表,其中每个时间记录的内容包括:时间单元的标识符、时间单元的开始时间、时间单元的结束时间、相关联的数据文件的总数量、时间单元内的被访问次数、相关联的数据文件的总存储尺寸;与每个时间记录相关联的文件信息表的表名为时间记录中时间单元的标识符,并且文件信息表包括多条文件记录,其中每条文件记录为<数据文件的标识符、数据文件的摘要信息、数据文件在时间单元内的被访问次数、数据文件的存储尺寸、数据文件的起始存储时间>,根据文件信息表确定与每个时间单元相关联的多个数据文件并将与每个时间单元相关联的多个数据文件构成每个时间单元的文件组,确定每个时间单元的文件组所包括的数据文件的数量FNi,其FNi为第i个时间单元的文件组所包括的数据文件的数量,i为自然数并且TN≥i≥1;
将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件,其中每个时间单元的文件组具有一个基准数据文件和至少一个参考数据文件,将每个时间单元的文件组内基准数据文件的摘要信息与每个参考数据文件的摘要信息进行内容匹配以确定基准数据文件与每个参考数据文件的内容关联度,将每个时间单元内基准数据文件与每个参考数据文件的内容关联度的平均值作为每个时间单元的内容关联度TRi
基于当前存储设备的信息存储区域中的存储统计文件确定当前运行时间区间结束时在当前存储设备中数据文件的总数量Ftotal,基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal,计算当前运行时间区间内每个时间单元的平均被访问次数ANaverage
Figure BDA0001878680780000061
基于每个时间单元的文件组中数据文件的数量FNi、每个时间单元内的被访问次数ANi、当前存储设备中数据文件的总数量Ftotal、每个时间单元的平均被访问次数ANaverage以及每个时间单元的内容关联度TRi计算每个时间单元的关联系数:
Figure BDA0001878680780000071
其中CRi为当前存储设备的第i个时间单元的关联系数、FNi是第i个时间单元的文件组中数据文件的数量,Ftotal是当前存储设备中数据文件的总数量,ANi是第i个时间单元内的被访问次数、ANaverage是当前存储设备在每个时间单元的平均被访问次数以及TRi是第i个时间单元的内容关联度,φ为调整因子,
Figure BDA0001878680780000072
将当前存储设备的多个时间单元中关联系数大于关联系数阈值的时间单元确定为当前存储设备在当前运行时间区间内的具有时间关联性的时间单元。
其中关联性时间单元是指所涉及的多个数据文件的关联系数大于关联系数阈值的时间单元。
每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储访问记录文件和存储统计文件,数据存储区域用于存储多个数据文件;
其中存储统计文件用于记录每个运行时间区间结束时,存储设备中数据文件的总数量;
其中高访问度区间包括10个小时,并且高访问度区间包括时间段17:00至24:00和时间段11:00至14:00、中访问度区间包括8个小时,并且中访问度区间包括时间段06:00至11:00和时间段14:00至17:00以及低访问度区间包括6个小时,并且低访问度区间包括时间段00:00至06:00;
其中细分参数H为6,细分参数M为3并且细分参数L为2;
将高访问度区间中的每个整点小时划分为6个时间单元、将中访问度区间中的每个整点小时划分为3个时间单元以及将低访问度区间中的每个整点小时划分为2个时间单元;
其中高访问度区间中的每个时间单元的时间长度为10分钟,中访问度区间中的每个时间单元的时间长度为20分钟,低访问度区间中的每个时间单元的时间长度为30分钟;
每个自然日包括的时间单元的数量为96;
其中每个存储设备在当前运行时间区间内的时间单元的数量相同并且每个时间单元的时间段相同;
其中根据用户设置来确定每个自然日的高访问度区间、中访问度区间和低访问度区间,或者根据系统配置文件来确定每个自然日的高访问度区间、中访问度区间和低访问度区间;
其中当前运行时间区间所包括的时间单元的数量TN=96×DN。
将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行包括:
将大数据存储系统的多个存储设备中的每个存储设备按照随机顺序依次作为当前存储设备并进行;
或者,
将大数据存储系统的多个存储设备中的每个存储设备按照存储设备的编号依次作为当前存储设备并进行。
根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的时间统计文件包括:
根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集,根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表,将多个时间记录和与每个时间记录相关联的文件信息表组成当前存储设备的时间统计文件;
其中,根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集包括:
基于当前运行时间区间的访问记录信息中每个日志记录的访问起始时间所位于的时间段,将每个日志记录分配到与所位于的时间段相关联的时间单元中,将每个时间单元所包括的所有日志记录作为与每个时间单元相关联的信息集;
根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表包括:对与每个时间单元相关联的信息集内的所有日志记录进行统计以生成每个时间单元各自的时间记录,并且对每个时间单元所涉及的所有数据文件进行统计以生成与每个时间记录相关联的文件信息表;
其中将每个时间单元所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间单元所包括的日志记录的数量作为时间单元内的被访问次数,根据每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸来确定相关联的数据文件的总存储尺寸;
即,将每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸的累加和作为相关联的数据文件的总存储尺寸;
根据单个的数据文件在相同时间单元内的日志记录的数量来确定数据文件在时间单元内的被访问次数。
基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal替换为:
将当前存储设备的在当前运行时间区间内的访问记录信息中(多个)日志记录的数量作为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal
所述基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal为:
将当前运行时间区间的每个时间记录中的时间单元内的被访问次数的总和确定为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal
在将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件时,如果单个时间单元的文件组中内具有在同一个时间单元内的被访问次数最多的至少两个数据文件时,从至少两个数据文件中随机选择一个数据文件作为基准数据文件并将其余的数据文件选择作为参考数据文件;
所述内容匹配包括:语义匹配、关键字匹配、主题匹配或文本匹配;
所述内容关联度的范围为从0%到100%;
所述关联系数阈值为20%、30%、40%、50%、60%、70%、80%、90%、100%、110%或120%。
还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间;
其中每个运行时间区间包括10个自然日、20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日;
或者,每个运行时间区间包括至少100个自然日;
当前运行时间区间包括至少100个自然日,DN≥100;
与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间。
所述访问记录文件中包括多个访问记录信息,其中每个访问记录信息与相应的运行时间区间相关联,并用于记录存储设备在相应的运行时间区间中与数据文件相关联的日志记录;
将访问起始时间在当前运行时间区间内的日志记录确定为当前运行时间区间的日志记录。
不同时间单元的文件组中能够存在一个或多个相同的数据文件。
其中多个运行时间区间中任意两个相邻的运行时间区间之间具有过渡时间段;所述过渡时间段占用任意两个相邻的运行时间区间中后一个运行时间区间的开始部分的一段时间、或者所述过渡时间段占用任意两个相邻的运行时间区间中前一个运行时间区间的结尾部分的一段时间。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明的在大数据存储系统的存储设备中识别关联性时间单元的方法的流程图;
图2为根据本发明的多个时间运行区间的示意图;以及
图3为根据本发明的在大数据存储系统的存储设备中识别关联性时间单元的系统的结构示意图。
具体实施方式
图1为根据本发明的在大数据存储系统的存储设备中识别关联性时间单元的方法100的流程图。
在步骤101,在大数据存储系统的当前运行时间区间结束时,向大数据存储系统内用于存储数据文件的多个存储设备中的每个存储设备发送用于指示开始识别关联性时间单元的通知消息,其中当前运行时间区间包括DN个自然日。其中关联性时间单元是指所涉及的多个数据文件的关联系数大于关联系数阈值的时间单元。
还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间。其中每个运行时间区间包括10个自然日、20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日。或者,每个运行时间区间包括至少100个自然日。当前运行时间区间包括至少100个自然日,DN≥100。与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间。
其中多个运行时间区间中任意两个相邻的运行时间区间之间具有过渡时间段;所述过渡时间段占用任意两个相邻的运行时间区间中后一个运行时间区间的开始部分的一段时间、或者所述过渡时间段占用任意两个相邻的运行时间区间中前一个运行时间区间的结尾部分的一段时间。例如,每个运行时间区间为10个自然日,例如,当前运行时间区间为2018年10月1日至10日,即当前运行时间区间为2018年10月1日的00:00:00至10月10日的24:00:00。后一个运行时间区间为2018年10月11日的00:00:00至10月20日的24:00:00。通常,本申请可以将后一个运行时间区间的2018年10月11日的00:00:00至01:00:00的1个小时作为过渡时间段,并且在过渡时间段中进行解析、判断、识别等处理,即根据本申请的为了进行数据文件存储所采取的准备工作。可替换地,将2018年10月10日的23:00:00至24:00:00作为过渡时间段。应当了解的是,过渡时间段可以被认为是属于所在的运行时间区间,例如,过渡时间段属于后一个运行时间区间,或属于当前运行时间区间。在对任何运行时间区间进行相关信息的统计时,将过渡时间段内的数据信息进行并入统计,即过渡时间段属于所在的运行时间区间并参与数据统计。只是,实际上利用过渡时间段进行与数据文件存储相关的处理。即,无论过渡时间段的时间长度是1小时还是2小时,或其他合理数值,当前运行时间区间为10个完整的工作日,并且后一个运行时间区间也是10个完整的工作日。
在步骤102,在接收到通知消息后,每个存储设备读取各自的信息存储区域中的访问记录文件并对各自的访问记录文件进行解析,以确定相应存储设备在当前运行时间区间内的访问记录信息,其中在当前运行时间区间内的访问记录信息包括在当前运行时间区间内的多个日志记录并且每个日志记录用于记载存储设备中的单个数据文件在当前运行时间区间内的单次访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸、数据文件的摘要信息和数据文件的存储起始时间。
每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储访问记录文件和存储统计文件,数据存储区域用于存储多个数据文件。其中存储统计文件用于记录每个运行时间区间结束时,存储设备中数据文件的总数量。
所述访问记录文件中包括多个访问记录信息,其中每个访问记录信息与相应的运行时间区间相关联,并用于记录存储设备在相应的运行时间区间中与数据文件相关联的日志记录。将访问起始时间在当前运行时间区间内的日志记录确定为当前运行时间区间的日志记录。不同时间单元的文件组中能够存在一个或多个相同的数据文件。其中多个运行时间区间中任意两个相邻的运行时间区间之间具有过渡时间段;所述过渡时间段占用任意两个相邻的运行时间区间中后一个运行时间区间的开始部分的一段时间、或者所述过渡时间段占用任意两个相邻的运行时间区间中前一个运行时间区间的结尾部分的一段时间。
在步骤103,每个存储设备以每个整点小时为划分单元,将每个自然日分为三种类型的统计区间:高访问度区间、中访问度区间和低访问度区间,其中高访问度区间、中访问度区间和低访问度区间中的每个包括至少一个整点小时,为高访问度区间设置细分参数H、为中访问度区间设置细分参数M和为低访问度区间设置细分参数L;将高访问度区间中的每个整点小时划分为H个时间单元、将中访问度区间中的每个整点小时划分为M个时间单元以及将低访问度区间中的每个整点小时划分为L个时间单元,从而将当前运行时间区间所包括的DN个自然日中的每个自然日划分为数量相同的多个时间单元并确定当前运行时间区间所包括的时间单元的数量TN。
其中高访问度区间包括10个小时,并且高访问度区间包括时间段17:00至24:00和时间段11:00至14:00、中访问度区间包括8个小时,并且中访问度区间包括时间段06:00至11:00和时间段14:00至17:00以及低访问度区间包括6个小时,并且低访问度区间包括时间段00:00至06:00。其中细分参数H为6,细分参数M为3并且细分参数L为2。将高访问度区间中的每个整点小时划分为6个时间单元、将中访问度区间中的每个整点小时划分为3个时间单元以及将低访问度区间中的每个整点小时划分为2个时间单元。其中高访问度区间中的每个时间单元的时间长度为10分钟,中访问度区间中的每个时间单元的时间长度为20分钟,低访问度区间中的每个时间单元的时间长度为30分钟。每个自然日包括的时间单元的数量为96。其中每个存储设备在当前运行时间区间内的时间单元的数量相同并且每个时间单元的时间段相同。其中根据用户设置来确定每个自然日的高访问度区间、中访问度区间和低访问度区间,或者根据系统配置文件来确定每个自然日的高访问度区间、中访问度区间和低访问度区间。其中当前运行时间区间所包括的时间单元的数量TN=96×DN。
在步骤104,将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行。其中大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行包括:将大数据存储系统的多个存储设备中的每个存储设备按照随机顺序依次作为当前存储设备并进行;或者,将大数据存储系统的多个存储设备中的每个存储设备按照存储设备的编号依次作为当前存储设备并进行。
根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的当前运行时间区间的时间统计文件,其中所述时间统计文件包括多个时间记录和与每个时间记录相关联的文件信息表,其中每个时间记录的内容包括:时间单元的标识符、时间单元的开始时间、时间单元的结束时间、相关联的数据文件的总数量、时间单元内的被访问次数、相关联的数据文件的总存储尺寸;与每个时间记录相关联的文件信息表的表名为时间记录中时间单元的标识符,并且文件信息表包括多条文件记录,其中每条文件记录为<数据文件的标识符、数据文件的摘要信息、数据文件在时间单元内的被访问次数、数据文件的存储尺寸、数据文件的起始存储时间>,根据文件信息表确定与每个时间单元相关联的多个数据文件并将与每个时间单元相关联的多个数据文件构成每个时间单元的文件组,确定每个时间单元的文件组所包括的数据文件的数量FNi,其FNi为第i个时间单元的文件组所包括的数据文件的数量,i为自然数并且TN≥i≥1。
根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的时间统计文件包括:根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集,根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表,将多个时间记录和与每个时间记录相关联的文件信息表组成当前存储设备的时间统计文件。
其中,根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集包括:基于当前运行时间区间的访问记录信息中每个日志记录的访问起始时间所位于的时间段,将每个日志记录分配到与所位于的时间段相关联的时间单元中,将每个时间单元所包括的所有日志记录作为与每个时间单元相关联的信息集。
根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表包括:对与每个时间单元相关联的信息集内的所有日志记录进行统计以生成每个时间单元各自的时间记录,并且对每个时间单元所涉及的所有数据文件进行统计以生成与每个时间记录相关联的文件信息表。
其中将每个时间单元所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间单元所包括的日志记录的数量作为时间单元内的被访问次数,根据每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸来确定相关联的数据文件的总存储尺寸。即,将每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸的累加和作为相关联的数据文件的总存储尺寸。根据单个的数据文件在相同时间单元内的日志记录的数量来确定数据文件在时间单元内的被访问次数。
在步骤105,将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件,其中每个时间单元的文件组具有一个基准数据文件和至少一个参考数据文件,将每个时间单元的文件组内基准数据文件的摘要信息与每个参考数据文件的摘要信息进行内容匹配以确定基准数据文件与每个参考数据文件的内容关联度,将每个时间单元内基准数据文件与每个参考数据文件的内容关联度的平均值作为每个时间单元的内容关联度TRi
在将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件时,如果单个时间单元的文件组中内具有在同一个时间单元内的被访问次数最多的至少两个数据文件时,从至少两个数据文件中随机选择一个数据文件作为基准数据文件并将其余的数据文件选择作为参考数据文件。所述内容匹配包括:语义匹配、关键字匹配、主题匹配或文本匹配。所述内容关联度的范围为从0%到100%。
在步骤106,基于当前存储设备的信息存储区域中的存储统计文件确定当前运行时间区间结束时在当前存储设备中数据文件的总数量Ftotal,基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal,计算当前运行时间区间内每个时间单元的平均被访问次数ANaverage
Figure BDA0001878680780000131
基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal替换为:将当前存储设备的在当前运行时间区间内的访问记录信息中(多个)日志记录的数量作为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal。所述基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal为:将当前运行时间区间的每个时间记录中的时间单元内的被访问次数的总和确定为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal
在步骤107,基于每个时间单元的文件组中数据文件的数量FNi、每个时间单元内的被访问次数ANi、当前存储设备中数据文件的总数量Ftotal、每个时间单元的平均被访问次数ANaverage以及每个时间单元的内容关联度TRi计算每个时间单元的关联系数:
Figure BDA0001878680780000132
其中CRi为当前存储设备的第i个时间单元的关联系数、FNi是第i个时间单元的文件组中数据文件的数量,Ftotal是当前存储设备中数据文件的总数量,ANi是第i个时间单元内的被访问次数、ANaverage是当前存储设备在每个时间单元的平均被访问次数以及TRi是第i个时间单元的内容关联度,φ为调整因子,
Figure BDA0001878680780000133
在步骤108,将当前存储设备的多个时间单元中关联系数大于关联系数阈值的时间单元确定为当前存储设备在当前运行时间区间内的具有时间关联性的时间单元。所述关联系数阈值为20%、30%、40%、50%、60%、70%、80%、90%、100%、110%或120%。
图2为根据本发明的多个时间运行区间200的示意图。在大数据存储系统初始运行时或者在大数据存储系统运行中的特定时间,为大数据存储系统的运行设置多个运行时间区间。如图2所示,c。其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间n+1确定为当前运行时间区间。例如,当前时间为2018年10月12日12:00:00,并且运行时间区间n+1为2018年10月10日00:00:00至2018年10月20日24:00:00,则将运行时间区间n+1确定为当前运行时间区间。
其中运行时间区间1、运行时间区间2、运行时间区间3、……、运行时间区间n、运行时间区间n+1、运行时间区间n+2、运行时间区间n+3、……中的每个运行时间区间包括10个自然日、20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日。或者,每个运行时间区间包括至少100个自然日。当前运行时间区间包括至少100个自然日。与当前运行时间区间n+1相邻的时间区间是前一个运行时间区间n和后一个运行时间区间n+2。如图2所示,利用虚线来表示还未发生、还未到达或还未经历的运行时间区间,并且利用实线来表示已经过去、已经经历或已经发生的运行时间区间,或者正在经历或正在发生的运行时间区间。
其中多个运行时间区间中任意两个相邻的运行时间区间之间具有过渡时间段;所述过渡时间段占用任意两个相邻的运行时间区间中后一个运行时间区间的开始部分的一段时间、或者所述过渡时间段占用任意两个相邻的运行时间区间中前一个运行时间区间的结尾部分的一段时间。例如,每个运行时间区间为10个自然日,例如,当前运行时间区间为2018年10月1日至10日,即当前运行时间区间为2018年10月1日的00:00:00至10月10日的24:00:00。后一个运行时间区间为2018年10月11日的00:00:00至10月20日的24:00:00。通常,本申请可以将后一个运行时间区间的2018年10月11日的00:00:00至01:00:00的1个小时作为过渡时间段,并且在过渡时间段中进行解析、判断、识别等处理,即根据本申请的为了进行数据文件存储所采取的准备工作。可替换地,将2018年10月10日的23:00:00至24:00:00作为过渡时间段。应当了解的是,过渡时间段可以被认为是属于所在的运行时间区间,例如,过渡时间段属于后一个运行时间区间,或属于当前运行时间区间。在对任何运行时间区间进行相关信息的统计时,将过渡时间段内的数据信息进行并入统计,即过渡时间段属于所在的运行时间区间并参与数据统计。只是,实际上利用过渡时间段进行与数据文件存储相关的处理。即,无论过渡时间段的时间长度是1小时还是2小时,或其他合理数值,当前运行时间区间为10个完整的工作日,并且后一个运行时间区间也是10个完整的工作日。
图3为根据本发明的在大数据存储系统的存储设备中识别关联性时间单元的系统300的结构示意图。系统300包括:发送装置301、解析装置302、划分装置303以及处理装置304。
发送装置301在大数据存储系统的当前运行时间区间结束时,向大数据存储系统内用于存储数据文件的多个存储设备中的每个存储设备发送用于指示开始识别关联性时间单元的通知消息,其中当前运行时间区间包括DN个自然日。
解析装置302在接收到通知消息后,每个存储设备读取各自的信息存储区域中的访问记录文件并对各自的访问记录文件进行解析,以确定相应存储设备在当前运行时间区间内的访问记录信息,其中在当前运行时间区间内的访问记录信息包括在当前运行时间区间内的多个日志记录并且每个日志记录用于记载存储设备中的单个数据文件在当前运行时间区间内的单次访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸、数据文件的摘要信息和数据文件的存储起始时间。
划分装置303每个存储设备以每个整点小时为划分单元,将每个自然日分为三种类型的统计区间:高访问度区间、中访问度区间和低访问度区间,其中高访问度区间、中访问度区间和低访问度区间中的每个包括至少一个整点小时,为高访问度区间设置细分参数H、为中访问度区间设置细分参数M和为低访问度区间设置细分参数L;将高访问度区间中的每个整点小时划分为H个时间单元、将中访问度区间中的每个整点小时划分为M个时间单元以及将低访问度区间中的每个整点小时划分为L个时间单元,从而将当前运行时间区间所包括的DN个自然日中的每个自然日划分为数量相同的多个时间单元并确定当前运行时间区间所包括的时间单元的数量TN;
处理装置304将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行:根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的当前运行时间区间的时间统计文件,其中所述时间统计文件包括多个时间记录和与每个时间记录相关联的文件信息表,其中每个时间记录的内容包括:时间单元的标识符、时间单元的开始时间、时间单元的结束时间、相关联的数据文件的总数量、时间单元内的被访问次数、相关联的数据文件的总存储尺寸;与每个时间记录相关联的文件信息表的表名为时间记录中时间单元的标识符,并且文件信息表包括多条文件记录,其中每条文件记录为<数据文件的标识符、数据文件的摘要信息、数据文件在时间单元内的被访问次数、数据文件的存储尺寸、数据文件的起始存储时间>,根据文件信息表确定与每个时间单元相关联的多个数据文件并将与每个时间单元相关联的多个数据文件构成每个时间单元的文件组,确定每个时间单元的文件组所包括的数据文件的数量FNi,其FNi为第i个时间单元的文件组所包括的数据文件的数量,i为自然数并且TN≥i≥1;
将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件,其中每个时间单元的文件组具有一个基准数据文件和至少一个参考数据文件,将每个时间单元的文件组内基准数据文件的摘要信息与每个参考数据文件的摘要信息进行内容匹配以确定基准数据文件与每个参考数据文件的内容关联度,将每个时间单元内基准数据文件与每个参考数据文件的内容关联度的平均值作为每个时间单元的内容关联度TRi
基于当前存储设备的信息存储区域中的存储统计文件确定当前运行时间区间结束时在当前存储设备中数据文件的总数量Ftotal,基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal,计算当前运行时间区间内每个时间单元的平均被访问次数ANaverage
Figure BDA0001878680780000161
基于每个时间单元的文件组中数据文件的数量FNi、每个时间单元内的被访问次数ANi、当前存储设备中数据文件的总数量Ftotal、每个时间单元的平均被访问次数ANaverage以及每个时间单元的内容关联度TRi计算每个时间单元的关联系数:
Figure BDA0001878680780000162
其中CRi为当前存储设备的第i个时间单元的关联系数、FNi是第i个时间单元的文件组中数据文件的数量,Ftotal是当前存储设备中数据文件的总数量,ANi是第i个时间单元内的被访问次数、ANaverage是当前存储设备在每个时间单元的平均被访问次数以及TRi是第i个时间单元的内容关联度,φ为调整因子,
Figure BDA0001878680780000163
将当前存储设备的多个时间单元中关联系数大于关联系数阈值的时间单元确定为当前存储设备在当前运行时间区间内的具有时间关联性的时间单元。
其中关联性时间单元是指所涉及的多个数据文件的关联系数大于关联系数阈值的时间单元。每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储访问记录文件和存储统计文件,数据存储区域用于存储多个数据文件。其中存储统计文件用于记录每个运行时间区间结束时,存储设备中数据文件的总数量。其中高访问度区间包括10个小时,并且高访问度区间包括时间段17:00至24:00和时间段11:00至14:00、中访问度区间包括8个小时,并且中访问度区间包括时间段06:00至11:00和时间段14:00至17:00以及低访问度区间包括6个小时,并且低访问度区间包括时间段00:00至06:00。其中细分参数H为6,细分参数M为3并且细分参数L为2。
将高访问度区间中的每个整点小时划分为6个时间单元、将中访问度区间中的每个整点小时划分为3个时间单元以及将低访问度区间中的每个整点小时划分为2个时间单元。其中高访问度区间中的每个时间单元的时间长度为10分钟,中访问度区间中的每个时间单元的时间长度为20分钟,低访问度区间中的每个时间单元的时间长度为30分钟。每个自然日包括的时间单元的数量为96。其中每个存储设备在当前运行时间区间内的时间单元的数量相同并且每个时间单元的时间段相同。其中根据用户设置来确定每个自然日的高访问度区间、中访问度区间和低访问度区间,或者根据系统配置文件来确定每个自然日的高访问度区间、中访问度区间和低访问度区间。其中当前运行时间区间所包括的时间单元的数量TN=96×DN。
将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行包括:将大数据存储系统的多个存储设备中的每个存储设备按照随机顺序依次作为当前存储设备并进行。或者,将大数据存储系统的多个存储设备中的每个存储设备按照存储设备的编号依次作为当前存储设备并进行。根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的时间统计文件包括:根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集,根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表,将多个时间记录和与每个时间记录相关联的文件信息表组成当前存储设备的时间统计文件。
其中,根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集包括:基于当前运行时间区间的访问记录信息中每个日志记录的访问起始时间所位于的时间段,将每个日志记录分配到与所位于的时间段相关联的时间单元中,将每个时间单元所包括的所有日志记录作为与每个时间单元相关联的信息集。
根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表包括:对与每个时间单元相关联的信息集内的所有日志记录进行统计以生成每个时间单元各自的时间记录,并且对每个时间单元所涉及的所有数据文件进行统计以生成与每个时间记录相关联的文件信息表。
其中将每个时间单元所涉及的数据文件的数量作为相关联的数据文件的总数量、将每个时间单元所包括的日志记录的数量作为时间单元内的被访问次数,根据每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸来确定相关联的数据文件的总存储尺寸。即,将每个时间单元所涉及的多个数据文件中每个数据文件的存储尺寸的累加和作为相关联的数据文件的总存储尺寸。根据单个的数据文件在相同时间单元内的日志记录的数量来确定数据文件在时间单元内的被访问次数。
基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal替换为:将当前存储设备的在当前运行时间区间内的访问记录信息中(多个)日志记录的数量作为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal。所述基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal为:将当前运行时间区间的每个时间记录中的时间单元内的被访问次数的总和确定为在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal
在将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件时,如果单个时间单元的文件组中内具有在同一个时间单元内的被访问次数最多的至少两个数据文件时,从至少两个数据文件中随机选择一个数据文件作为基准数据文件并将其余的数据文件选择作为参考数据文件。所述内容匹配包括:语义匹配、关键字匹配、主题匹配或文本匹配。所述内容关联度的范围为从0%到100%。所述关联系数阈值为20%、30%、40%、50%、60%、70%、80%、90%、100%、110%或120%。还包括在大数据存储系统初始运行时,为大数据存储系统的运行设置多个运行时间区间,其中每个运行时间区间包括相同数量的自然日,并且将当前时间所处的运行时间区间确定为当前运行时间区间。其中每个运行时间区间包括10个自然日、20个自然日、30个自然日、50个自然日、80个自然日、100个自然日或120个自然日。或者,每个运行时间区间包括至少100个自然日。当前运行时间区间包括至少100个自然日,DN≥100。与当前运行时间区间相邻的时间区间是前一个运行时间区间和后一个运行时间区间。
所述访问记录文件中包括多个访问记录信息,其中每个访问记录信息与相应的运行时间区间相关联,并用于记录存储设备在相应的运行时间区间中与数据文件相关联的日志记录。将访问起始时间在当前运行时间区间内的日志记录确定为当前运行时间区间的日志记录。不同时间单元的文件组中能够存在一个或多个相同的数据文件。其中多个运行时间区间中任意两个相邻的运行时间区间之间具有过渡时间段;所述过渡时间段占用任意两个相邻的运行时间区间中后一个运行时间区间的开始部分的一段时间、或者所述过渡时间段占用任意两个相邻的运行时间区间中前一个运行时间区间的结尾部分的一段时间。

Claims (6)

1.一种在大数据存储系统的存储设备中识别关联性时间单元的方法,所述方法包括:
在大数据存储系统的当前运行时间区间结束时,向大数据存储系统内用于存储数据文件的多个存储设备中的每个存储设备发送用于指示开始识别关联性时间单元的通知消息,其中当前运行时间区间包括DN个自然日;
在接收到通知消息后,每个存储设备读取各自的信息存储区域中的访问记录文件并对各自的访问记录文件进行解析,以确定相应存储设备在当前运行时间区间内的访问记录信息,其中在当前运行时间区间内的访问记录信息包括在当前运行时间区间内的多个日志记录并且每个日志记录用于记载存储设备中的单个数据文件在当前运行时间区间内的单次访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸、数据文件的摘要信息和数据文件的存储起始时间;
每个存储设备以每个整点小时为划分单元,将每个自然日分为三种类型的统计区间:高访问度区间、中访问度区间和低访问度区间,其中高访问度区间、中访问度区间和低访问度区间中的每个包括至少一个整点小时,为高访问度区间设置细分参数H、为中访问度区间设置细分参数M和为低访问度区间设置细分参数L;将高访问度区间中的每个整点小时划分为H个时间单元、将中访问度区间中的每个整点小时划分为M个时间单元以及将低访问度区间中的每个整点小时划分为L个时间单元,从而将当前运行时间区间所包括的DN个自然日中的每个自然日划分为数量相同的多个时间单元并确定当前运行时间区间所包括的时间单元的数量TN;
将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行:
根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的当前运行时间区间的时间统计文件,其中所述时间统计文件包括多个时间记录和与每个时间记录相关联的文件信息表,其中每个时间记录的内容包括:时间单元的标识符、时间单元的开始时间、时间单元的结束时间、相关联的数据文件的总数量、时间单元内的被访问次数、相关联的数据文件的总存储尺寸;与每个时间记录相关联的文件信息表的表名为时间记录中时间单元的标识符,并且文件信息表包括多条文件记录,其中每条文件记录为<数据文件的标识符、数据文件的摘要信息、数据文件在时间单元内的被访问次数、数据文件的存储尺寸、数据文件的起始存储时间>,根据文件信息表确定与每个时间单元相关联的多个数据文件并将与每个时间单元相关联的多个数据文件构成每个时间单元的文件组,确定每个时间单元的文件组所包括的数据文件的数量FNi,其FNi为第i个时间单元的文件组所包括的数据文件的数量,i为自然数并且TN≥i≥1;
将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件,其中每个时间单元的文件组具有一个基准数据文件和至少一个参考数据文件,将每个时间单元的文件组内基准数据文件的摘要信息与每个参考数据文件的摘要信息进行内容匹配以确定基准数据文件与每个参考数据文件的内容关联度,将每个时间单元内基准数据文件与每个参考数据文件的内容关联度的平均值作为每个时间单元的内容关联度TRi
基于当前存储设备的信息存储区域中的存储统计文件确定当前运行时间区间结束时在当前存储设备中数据文件的总数量Ftotal,基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal,计算当前运行时间区间内每个时间单元的平均被访问次数ANaverage
Figure FDA0003025716660000021
基于每个时间单元的文件组中数据文件的数量FNi、每个时间单元内的被访问次数ANi、当前存储设备中数据文件的总数量Ftotal、每个时间单元的平均被访问次数ANaverage以及每个时间单元的内容关联度TRi计算每个时间单元的关联系数:
Figure FDA0003025716660000022
其中CRi为当前存储设备的第i个时间单元的关联系数、FNi是第i个时间单元的文件组中数据文件的数量,Ftotal是当前存储设备中数据文件的总数量,ANi是第i个时间单元内的被访问次数、ANaverage是当前存储设备在每个时间单元的平均被访问次数以及TRi是第i个时间单元的内容关联度,φ为调整因子,
Figure FDA0003025716660000023
将当前存储设备的多个时间单元中关联系数大于关联系数阈值的时间单元确定为当前存储设备在当前运行时间区间内的具有时间关联性的时间单元。
2.根据权利要求1所述的方法,每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储访问记录文件和存储统计文件,数据存储区域用于存储多个数据文件;
其中存储统计文件用于记录每个运行时间区间结束时,存储设备中数据文件的总数量。
3.根据权利要求2所述的方法,根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的时间统计文件包括:
根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集,根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表,将多个时间记录和与每个时间记录相关联的文件信息表组成当前存储设备的时间统计文件。
4.一种在大数据存储系统的存储设备中识别关联性时间单元的系统,所述系统包括:
发送装置,在大数据存储系统的当前运行时间区间结束时,向大数据存储系统内用于存储数据文件的多个存储设备中的每个存储设备发送用于指示开始识别关联性时间单元的通知消息,其中当前运行时间区间包括DN个自然日;
解析装置,在接收到通知消息后,每个存储设备读取各自的信息存储区域中的访问记录文件并对各自的访问记录文件进行解析,以确定相应存储设备在当前运行时间区间内的访问记录信息,其中在当前运行时间区间内的访问记录信息包括在当前运行时间区间内的多个日志记录并且每个日志记录用于记载存储设备中的单个数据文件在当前运行时间区间内的单次访问信息;其中每个日志记录包括:数据文件的标识符、访问起始时间、访问结束时间、数据文件的存储尺寸、数据文件的摘要信息和数据文件的存储起始时间;
划分装置,每个存储设备以每个整点小时为划分单元,将每个自然日分为三种类型的统计区间:高访问度区间、中访问度区间和低访问度区间,其中高访问度区间、中访问度区间和低访问度区间中的每个包括至少一个整点小时,为高访问度区间设置细分参数H、为中访问度区间设置细分参数M和为低访问度区间设置细分参数L;将高访问度区间中的每个整点小时划分为H个时间单元、将中访问度区间中的每个整点小时划分为M个时间单元以及将低访问度区间中的每个整点小时划分为L个时间单元,从而将当前运行时间区间所包括的DN个自然日中的每个自然日划分为数量相同的多个时间单元并确定当前运行时间区间所包括的时间单元的数量TN;
处理装置,将大数据存储系统的多个存储设备中的每个存储设备依次作为当前存储设备并进行:
根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的当前运行时间区间的时间统计文件,其中所述时间统计文件包括多个时间记录和与每个时间记录相关联的文件信息表,其中每个时间记录的内容包括:时间单元的标识符、时间单元的开始时间、时间单元的结束时间、相关联的数据文件的总数量、时间单元内的被访问次数、相关联的数据文件的总存储尺寸;与每个时间记录相关联的文件信息表的表名为时间记录中时间单元的标识符,并且文件信息表包括多条文件记录,其中每条文件记录为<数据文件的标识符、数据文件的摘要信息、数据文件在时间单元内的被访问次数、数据文件的存储尺寸、数据文件的起始存储时间>,根据文件信息表确定与每个时间单元相关联的多个数据文件并将与每个时间单元相关联的多个数据文件构成每个时间单元的文件组,确定每个时间单元的文件组所包括的数据文件的数量FNi,其FNi为第i个时间单元的文件组所包括的数据文件的数量,i为自然数并且TN≥i≥1;
将每个时间单元的文件组中在时间单元内的被访问次数最多的数据文件选择作为基准数据文件并将其余的数据文件选择作为参考数据文件,其中每个时间单元的文件组具有一个基准数据文件和至少一个参考数据文件,将每个时间单元的文件组内基准数据文件的摘要信息与每个参考数据文件的摘要信息进行内容匹配以确定基准数据文件与每个参考数据文件的内容关联度,将每个时间单元内基准数据文件与每个参考数据文件的内容关联度的平均值作为每个时间单元的内容关联度TRi
基于当前存储设备的信息存储区域中的存储统计文件确定当前运行时间区间结束时在当前存储设备中数据文件的总数量Ftotal,基于当前运行时间区间的每个时间记录中的时间单元内的被访问次数计算在当前运行时间区间内当前存储设备中所有数据文件的总被访问次数ANtotal,计算当前运行时间区间内每个时间单元的平均被访问次数ANaverage
Figure FDA0003025716660000041
基于每个时间单元的文件组中数据文件的数量FNi、每个时间单元内的被访问次数ANi、当前存储设备中数据文件的总数量Ftotal、每个时间单元的平均被访问次数ANaverage以及每个时间单元的内容关联度TRi计算每个时间单元的关联系数:
Figure FDA0003025716660000042
其中CRi为当前存储设备的第i个时间单元的关联系数、FNi是第i个时间单元的文件组中数据文件的数量,Ftotal是当前存储设备中数据文件的总数量,ANi是第i个时间单元内的被访问次数、ANaverage是当前存储设备在每个时间单元的平均被访问次数以及TRi是第i个时间单元的内容关联度,φ为调整因子,
Figure FDA0003025716660000043
将当前存储设备的多个时间单元中关联系数大于关联系数阈值的时间单元确定为当前存储设备在当前运行时间区间内的具有时间关联性的时间单元。
5.根据权利要求4所述的系统,每个存储设备包括信息存储区域和数据存储区域,其中信息存储区域用于存储访问记录文件和存储统计文件,数据存储区域用于存储多个数据文件;
其中存储统计文件用于记录每个运行时间区间结束时,存储设备中数据文件的总数量。
6.根据权利要求5所述的系统,根据多个时间单元中的每个时间单元和当前存储设备的访问记录信息确定当前存储设备的时间统计文件包括:
根据多个时间单元中的每个时间单元的时间段对当前存储设备在当前运行时间区间的访问记录信息进行划分,以生成与每个时间单元相关联的信息集,根据与每个时间单元相关联的信息集生成多个时间记录和与每个时间记录相关联的文件信息表,将多个时间记录和与每个时间记录相关联的文件信息表组成当前存储设备的时间统计文件。
CN201811411597.3A 2018-11-25 2018-11-25 在大数据存储设备中识别关联性时间单元的方法及系统 Active CN109492009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811411597.3A CN109492009B (zh) 2018-11-25 2018-11-25 在大数据存储设备中识别关联性时间单元的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811411597.3A CN109492009B (zh) 2018-11-25 2018-11-25 在大数据存储设备中识别关联性时间单元的方法及系统

Publications (2)

Publication Number Publication Date
CN109492009A CN109492009A (zh) 2019-03-19
CN109492009B true CN109492009B (zh) 2023-06-23

Family

ID=65697759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811411597.3A Active CN109492009B (zh) 2018-11-25 2018-11-25 在大数据存储设备中识别关联性时间单元的方法及系统

Country Status (1)

Country Link
CN (1) CN109492009B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446079A (zh) * 2016-09-08 2017-02-22 中国科学院计算技术研究所 一种面向分布式文件系统的文件预取/缓存方法及装置
CN108804042A (zh) * 2018-06-16 2018-11-13 王梅 一种基于缓存内移出的数据组进行动态处理的方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138194A (ja) * 2009-12-25 2011-07-14 Sony Corp 情報処理装置、情報処理方法およびプログラム
CN103646111B (zh) * 2013-12-25 2017-02-15 普元信息技术股份有限公司 大数据环境下实现实时数据关联的系统及方法
CN106326220B (zh) * 2015-06-16 2019-08-27 阿里巴巴集团控股有限公司 数据存储方法及装置
US11010401B2 (en) * 2017-04-25 2021-05-18 Microsoft Technology Licensing, Llc Efficient snapshot generation of data tables

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446079A (zh) * 2016-09-08 2017-02-22 中国科学院计算技术研究所 一种面向分布式文件系统的文件预取/缓存方法及装置
CN108804042A (zh) * 2018-06-16 2018-11-13 王梅 一种基于缓存内移出的数据组进行动态处理的方法及系统

Also Published As

Publication number Publication date
CN109492009A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
US20160162498A1 (en) Method and system for file relocation
CN106202280B (zh) 一种信息处理方法及服务器
US20130006996A1 (en) Clustering E-Mails Using Collaborative Information
CN107329983B (zh) 一种机器数据分布式存储、读取方法及系统
US20210360077A1 (en) Determining session intent
CN104750703B (zh) 一种提高数据准确性的方法和装置
CN103930887A (zh) 使用行-列数据存储的查询汇总生成
US9305076B1 (en) Flattening a cluster hierarchy tree to filter documents
CN102073712B (zh) 基于动态变化帧的过程数据全息归档和反演方法
EP3080955A1 (en) Method and apparatus of determining time for sending information
CN106709851A (zh) 大数据检索方法及装置
CN111984495A (zh) 一种大数据监控方法、装置和存储介质
WO2016210208A1 (en) Social sketches
CN111371672A (zh) 消息推送方法及装置
CN107749888A (zh) 一种用户行为数据的统计方法
CN109542909B (zh) 识别大数据存储系统中的关联性存储设备的方法及系统
CN109993586B (zh) 一种营销产品的方法和装置
CA2540947A1 (en) Tracking space usage in a database
CN109492009B (zh) 在大数据存储设备中识别关联性时间单元的方法及系统
CN114185885A (zh) 一种基于列存数据库的流式数据处理方法及系统
CN114090631A (zh) 一种数据查询方法、装置、电子设备及存储介质
CN111913913B (zh) 访问请求的处理方法和装置
CN109063015B (zh) 热点内容的提取方法、装置及设备
CN110019054B (zh) 日志去重方法和系统、内容分发网络系统
CN110851758A (zh) 一种网页访客数量统计方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230531

Address after: Room 1501, No. 18 Jinmao East 1st Street, Nansha District, Guangzhou City, Guangdong Province, 511466 (Location: A101) (Office only)

Applicant after: Guangzhou Saian Internet of things Technology Co.,Ltd.

Address before: 252659 Shandong province Liaocheng City Linqing City Dai Wan Town, the village of the South Village Health Room

Applicant before: Du Guangxiang

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 1501, No. 18 Jinmao East 1st Street, Nansha District, Guangzhou City, Guangdong Province, 511400 (Location: A101) (Office only)

Patentee after: Guangdong Saian Technology Co.,Ltd.

Country or region after: China

Address before: Room 1501, No. 18 Jinmao East 1st Street, Nansha District, Guangzhou City, Guangdong Province, 511466 (Location: A101) (Office only)

Patentee before: Guangzhou Saian Internet of things Technology Co.,Ltd.

Country or region before: China