CN109240988A - 用于避免大数据存储系统进入访问失衡状态的方法及系统 - Google Patents

用于避免大数据存储系统进入访问失衡状态的方法及系统 Download PDF

Info

Publication number
CN109240988A
CN109240988A CN201811006479.4A CN201811006479A CN109240988A CN 109240988 A CN109240988 A CN 109240988A CN 201811006479 A CN201811006479 A CN 201811006479A CN 109240988 A CN109240988 A CN 109240988A
Authority
CN
China
Prior art keywords
data item
data
equipment
frequency
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811006479.4A
Other languages
English (en)
Other versions
CN109240988B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Malefeng Xiamen Intelligent Technology Co ltd
Original Assignee
Du Guangxiang
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Du Guangxiang filed Critical Du Guangxiang
Priority to CN201811006479.4A priority Critical patent/CN109240988B/zh
Publication of CN109240988A publication Critical patent/CN109240988A/zh
Application granted granted Critical
Publication of CN109240988B publication Critical patent/CN109240988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于避免大数据存储系统进入访问失衡状态的方法及系统,其中方法包括:根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件;计算大数据存储系统内低频存储设备的平衡系数;当大数据存储系统内低频存储设备的平衡系数大于平衡预警阈值时,从大数据存储系统内所有低频存储设备中确定选定组合的低频存储设备和多元组合的低频存储设备,针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,或针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态。

Description

用于避免大数据存储系统进入访问失衡状态的方法及系统
技术领域
本发明涉及大数据存储领域和云存储领域,并且更具体地,涉及一种用于避免大数据存储系统进入访问失衡状态的方法及系统。
背景技术
目前,随着各种类型的信息设备的使用变得越来越频繁,数据量正以几何级数的方式进行爆炸式增加。为了从海量的数据中获取有用信息,必须对海量的数据进行有效存储。大数据存储系统能够满足对对海量数据进行有效存储的需求。然而,在目前的大数据存储系统中,由于每个数据项的被访问次数不同,会导致存储设备之间的数据被访问次数的失衡,进而导致大数据系统的数据平衡性出现访问失衡的问题。为此,现有技术中存在对避免大数据存储系统进入访问失衡状态的需求。
发明内容
根据本发明的一个方面,提供一种用于避免大数据存储系统进入访问失衡状态的方法,所述方法包括:基于当前的统计时间区间和大数据存储系统内多个存储设备中每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件;其中所述访问信息统计文件包括数据项统计表,所述数据项统计表包括多个数据项记录,其中每个数据项记录的内容为6元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、存储起始时间>;
对每个存储设备的访问信息统计文件进行解析,将当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值Lthreshod的数据项确定为低频数据项,确定每个存储设备所包括的低频数据项的低频项数量;将多个存储设备中低频项数量大于低频设备阈值的存储设备确定为低频存储设备并确定大数据存储系统中低频存储设备的数量;
基于每个低频存储设备的访问信息统计文件,确定每个低频存储设备的每个低频数据项的存储尺寸和被访问次数并且确定每个低频存储设备的低频数据项的低频项数量,基于每个低频存储设备的访问信息统计文件确定每个低频存储设备各自的所有数据项的总被访问次数;根据每个低频存储设备的标识符和大数据存储系统的系统记录设备中的设备描述信息确定每个低频存储设备各自的总存储容量,和根据大数据存储系统的系统记录设备中的设备描述信息大数据存储系统中所有存储设备的总数量,计算大数据存储系统内低频存储设备的平衡系数:
其中α>0,β>0,χ>0并且α+β+χ=1
其中,DLB是大数据存储系统内低频存储设备的平衡系数;
LTNi为第i个低频存储设备的低频数据项的低频项数量,LDN为大数据存储系统中低频存储设备的数量;LTSij为第i个低频存储设备内第j个低频数据项的存储尺寸,LSi为第i个低频存储设备的所有低频数据项的总存储尺寸,LCi为第i个低频存储设备的总存储容量,
LTAij为第i个低频存储设备内第j个低频数据项的被访问次数,LAi为第i个低频存储设备的所有低频数据项的总被访问次数,LTi第i个低频存储设备的所有数据项的总被访问次数;
Dtotal为大数据存储系统中所有存储设备的总数量;
其中i为自然数,LDN≥i≥1并且j为自然数,LTNi≥j≥1,其中LDN≥100,并且LTNi≥100;
当大数据存储系统内低频存储设备的平衡系数大于平衡预警阈值时,确定每个低频存储设备中所有数据项的平均被访问次数Lavgi,计算每个低频存储设备的平均被访问次数Lavgi与低频次数阈值Lthreshod的比值Ri
其中LDN≥i≥1,
将大数据存储系统内所有低频存储设备中Ri大于1.2的低频存储设备确定为选定组合的低频存储设备,将大数据存储系统内所有低频存储设备中Ri小于或等于1.2的低频存储设备确定为多元组合的低频存储设备,
针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:
将所有数据项中被访问次数大于低频次数阈值Lthreshod×1.5的数据项确定为待选数据项以获得多个待选数据项并由多个待选数据项构成待选数据项集合,确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项,按照被访问次数的升序顺序将多个低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项,
1.1、基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的匹配度;
1.2、将所有待选数据项中与当前低频数据项的匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到空闲存储空间中;
1.3、从所述待选数据项集合中删除与当前低频数据项的匹配度最大的待选数据项;
1.4、确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行步骤1.5;如果不存在,则结束;
1.5、将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行步骤1.1;
针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:
确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项并且确定低频数据项的低频项数量Z,按照被访问次数的升序顺序将所有低频数据项进行排序以生成第二排序列表,从第二排序列表中排序为第1位的低频数据项开始并且按照升序顺序从第二排序列表中选择Y个低频数据项,其中Y MOD 3=0,并且0≤Z-Y<3;
按照低频数据项的被访问次数将所述Y个低频数据项分成第一预选数据项组、第二预选数据项组和第三预选数据项组,其中第一预选数据项组、第二预选数据项组和第三预选数据项组所包括的低频数据项的数量均相同,并且第一预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第二预选数据项组中任意低频数据项的被访问次数,第二预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第三预选数据项组中任意低频数据项的被访问次数;
2.1、从第一预选数据项组、第二预选数据项组和第三预选数据项组中分别挑选一个低频数据项,将所挑选的三个低频数据项组成一个新的数据项,将新的数据项保存到空闲存储空间中;
2.2、在第一预选数据项组、第二预选数据项组和第三预选数据项组中分别删除在步骤2.1中所挑选的一个低频数据项;
2.3、确定第一预选数据项组、第二预选数据项组和第三预选数据项组是否均包括低频数据项?如果是,则进行步骤2.1;如果否,则结束。
2、根据权利要求1所述的方法,还包括:
当用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时,或当接收到在大数据存储系统内进行失衡预警检测的请求时,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配阈值的至少一个选定的临时数据项,将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求;
在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件。
其中,当位于大数据存储系统外部的数据管理设备需要在大数据存储系统内进行失衡预警检测时,所述数据管理设备向所述大数据存储系统发送用于在大数据存储系统内进行失衡预警检测的请求;
其中将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备包括:
以所述大数据存储系统接收到用于在大数据存储系统内进行失衡预警检测的请求的时刻开始或者在用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满的时刻开始,将所述大数据存储系统随后从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备;
其中所述新的数据访问请求包括查询条件和查询条件的描述信息,所述临时数据项集合中包括多个临时数据项,并且每个临时数据项具有摘要信息,所述摘要信息用于概括地介绍临时数据项的内容;
其中由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度包括:
由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息进行基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配以确定每个临时数据项与所述查询条件的内容匹配度;
其中所述匹配度阈值为60%,并且内容匹配度的范围为[0%,100%];
其中在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求之后还包括:向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息,并且所述响应消息中携带用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的信息,其中在所述缓冲区中按照新的数据访问请求的被保存的时间长度来确定新的数据访问请求在所述缓冲区中的当前排队顺序,并且在当前排队顺序中按照被保存的时间长度的降序顺序对新的数据访问请求进行排序。
其中在每个存储设备的系统数据区域中保存运行日志文件;
其中当前的统计时间区间为大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;
或者,当前的统计时间区间为用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;
其中预定数量的自然日为10个自然日、20个自然日或30个自然日;
其中循环计时器的计时周期为1200小时、1500小时或1800小时,并且每当循环计时器期满时,所述循环计时器开始下一次计时;
其中基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息包括:
基于当前的统计时间区间对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在当前的统计时间区间内的多个日志记录;
按照数据项对每个存储设备在当前的统计时间区间内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息;
由每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息;
其中每个日志记录包括:数据项的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;
其中每个数据项具有摘要信息,所述摘要信息用于概括地介绍数据项的内容。
根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件包括:
对每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息进行统计以确定每个数据项的被访问次数;
将每个数据项的经过统计的访问信息中第一次被访问的访问起始时间确定为统计起始时间,将每个数据项的经过统计的访问信息中最后一次被访问的访问结束时间确定为统计结束时间;
基于每个数据项的经过统计的访问信息确定每个数据项的存储尺寸;
根据每个存储设备的存储信息区域中的存储信息文件来确定每个数据项在存储设备中的存储起始时间。
所述低频次数阈值为100、120、150或200;
所述系统记录设备中的设备描述信息包括:大数据存储系统所包括的所有存储设备的总数量、每个存储设备的总存储容量、每个存储设备的网络地址和/或每个存储设备加入所述大数据存储系统的时间;
每个存储设备的存储信息区域中的存储信息文件包括:数据项的总数量、每个数据项的存储尺寸、每个数据项的起始存储时间、每个数据项的标识符、每个数据项的摘要信息以及每个存储设备的空闲存储容量;
所述低频设备阈值为100、120、150、200、300、400或500;
其中平衡预警阈值为30%、40%、50%、55%、60%、65%或70%。
在针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态之后,或者在针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态之后,还包括:
根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作;
在确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求的情况下,对所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求进行解析以获新的查询条件;
在所述大数据存储系统的目录存储服务器中确定所述新的查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备;
将所述新的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述新的查询条件的至少一个数据项;
将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述新的数据访问请求所指示的数据请求方。
其中根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作包括:
8.1、根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序确定当前处理的数据访问请求,其中所述当前处理的数据访问请求是缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求;
8.2、对当前处理的数据访问请求进行解析以获取当前处理的查询条件;
8.3、在所述大数据存储系统的目录存储服务器中确定所述当前处理的查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备;
8.4、将所述当前处理的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述当前处理的查询条件的至少一个数据项;
8.5、将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述当前处理的数据访问请求所指示的数据请求方;
8.6、将缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求删除;
8.7、确定系统缓冲设备的缓冲区中是否具有被保存的任何数据访问请求,如果是,则进行步骤8.1;如果否,则确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。
根据本发明的另一方面,提供一种用于避免大数据存储系统进入访问失衡状态的系统,所述系统包括:
统计单元,基于当前的统计时间区间和大数据存储系统内多个存储设备中每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件;其中所述访问信息统计文件包括数据项统计表,所述数据项统计表包括多个数据项记录,其中每个数据项记录的内容为6元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、存储起始时间>;
计算单元,对每个存储设备的访问信息统计文件进行解析,将当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值Lthreshod的数据项确定为低频数据项,确定每个存储设备所包括的低频数据项的低频项数量;将多个存储设备中低频项数量大于低频设备阈值的存储设备确定为低频存储设备并确定大数据存储系统中低频存储设备的数量;
基于每个低频存储设备的访问信息统计文件,确定每个低频存储设备的每个低频数据项的存储尺寸和被访问次数并且确定每个低频存储设备的低频数据项的低频项数量,基于每个低频存储设备的访问信息统计文件确定每个低频存储设备各自的所有数据项的总被访问次数;根据每个低频存储设备的标识符和大数据存储系统的系统记录设备中的设备描述信息确定每个低频存储设备各自的总存储容量,和根据大数据存储系统的系统记录设备中的设备描述信息确定大数据存储系统中所有存储设备的总数量,
计算大数据存储系统内低频存储设备的平衡系数:
其中α>0,β>0,χ>0并且α+β+χ=1
其中,DLB是大数据存储系统内低频存储设备的平衡系数;
LTNi为第i个低频存储设备的低频数据项的低频项数量,LDN为大数据存储系统中低频存储设备的数量;LTSij为第i个低频存储设备内第j个低频数据项的存储尺寸,LSi为第i个低频存储设备的所有低频数据项的总存储尺寸,LCi为第i个低频存储设备的总存储容量,
LTAij为第i个低频存储设备内第j个低频数据项的被访问次数,LAi为第i个低频存储设备的所有低频数据项的总被访问次数,LTi第i个低频存储设备的所有数据项的总被访问次数;
Dtotal为大数据存储系统中所有存储设备的总数量;
其中i为自然数,LDN≥i≥1并且j为自然数,LTNi≥j≥1,其中LDN≥100,并且LTNi≥100;
当大数据存储系统内低频存储设备的平衡系数大于平衡预警阈值时,确定每个低频存储设备中所有数据项的平均被访问次数Lavgi,计算每个低频存储设备的平均被访问次数Lavgi与低频次数阈值Lthreshod的比值Ri
其中LDN≥i≥1,
分类单元,将大数据存储系统内所有低频存储设备中Ri大于1.2的低频存储设备确定为选定组合的低频存储设备,将大数据存储系统内所有低频存储设备中Ri小于或等于1.2的低频存储设备确定为多元组合的低频存储设备,
处理单元,针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:
将所有数据项中被访问次数大于低频次数阈值Lthreshod×1.5的数据项确定为待选数据项以获得多个待选数据项并由多个待选数据项构成待选数据项集合,确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项,按照被访问次数的升序顺序将多个低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项,
1.1、基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的匹配度;
1.2、将所有待选数据项中与当前低频数据项的匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到空闲存储空间中;
1.3、从所述待选数据项集合中删除与当前低频数据项的匹配度最大的待选数据项;
1.4、确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行1.5;如果不存在,则结束;
1.5、将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行1.1;
处理单元针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:
确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项并且确定低频数据项的低频项数量Z,按照被访问次数的升序顺序将所有低频数据项进行排序以生成第二排序列表,从第二排序列表中排序为第1位的低频数据项开始并且按照升序顺序从第二排序列表中选择Y个低频数据项,其中Y MOD 3=0,并且0≤Z-Y<3;
按照低频数据项的被访问次数将所述Y个低频数据项分成第一预选数据项组、第二预选数据项组和第三预选数据项组,其中第一预选数据项组、第二预选数据项组和第三预选数据项组所包括的低频数据项的数量均相同,并且第一预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第二预选数据项组中任意低频数据项的被访问次数,第二预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第三预选数据项组中任意低频数据项的被访问次数;
2.1、从第一预选数据项组、第二预选数据项组和第三预选数据项组中分别挑选一个低频数据项,将所挑选的三个低频数据项组成一个新的数据项,将新的数据项保存到空闲存储空间中;
2.2、在第一预选数据项组、第二预选数据项组和第三预选数据项组中分别删除在2.1中所挑选的一个低频数据项;
2.3、确定第一预选数据项组、第二预选数据项组和第三预选数据项组是否均包括低频数据项?如果是,则进行2.1;如果否,则结束。
还包括预处理单元,当用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时,或当接收到在大数据存储系统内进行失衡预警检测的请求时,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配阈值的至少一个选定的临时数据项,将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求;
在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件。
其中,当位于大数据存储系统外部的数据管理设备需要在大数据存储系统内进行失衡预警检测时,所述数据管理设备向所述大数据存储系统发送用于在大数据存储系统内进行失衡预警检测的请求;
其中将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备包括:
以所述大数据存储系统接收到用于在大数据存储系统内进行失衡预警检测的请求的时刻开始或者在用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满的时刻开始,将所述大数据存储系统随后从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备;
其中所述新的数据访问请求包括查询条件和查询条件的描述信息,所述临时数据项集合中包括多个临时数据项,并且每个临时数据项具有摘要信息,所述摘要信息用于概括地介绍临时数据项的内容;
其中由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度包括:
由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息进行基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配以确定每个临时数据项与所述查询条件的内容匹配度;
其中所述匹配度阈值为60%,并且内容匹配度的范围为[0%,100%];
其中在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求之后还包括:向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息,并且所述响应消息中携带用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的信息,其中在所述缓冲区中按照新的数据访问请求的被保存的时间长度来确定新的数据访问请求在所述缓冲区中的当前排队顺序,并且在当前排队顺序中按照被保存的时间长度的降序顺序对新的数据访问请求进行排序。
其中在每个存储设备的系统数据区域中保存运行日志文件;
其中当前的统计时间区间为大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;
或者,当前的统计时间区间为用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;
其中预定数量的自然日为10个自然日、20个自然日或30个自然日;
其中循环计时器的计时周期为1200小时、1500小时或1800小时,并且每当循环计时器期满时,所述循环计时器开始下一次计时;
其中统计单元基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息包括:
统计单元基于当前的统计时间区间对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在当前的统计时间区间内的多个日志记录;
统计单元按照数据项对每个存储设备在当前的统计时间区间内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息;
统计单元由每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息;
其中每个日志记录包括:数据项的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;
其中每个数据项具有摘要信息,所述摘要信息用于概括地介绍数据项的内容。
统计单元根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件包括:
统计单元对每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息进行统计以确定每个数据项的被访问次数;
统计单元将每个数据项的经过统计的访问信息中第一次被访问的访问起始时间确定为统计起始时间,将每个数据项的经过统计的访问信息中最后一次被访问的访问结束时间确定为统计结束时间;
统计单元基于每个数据项的经过统计的访问信息确定每个数据项的存储尺寸;
统计单元根据每个存储设备的存储信息区域中的存储信息文件来确定每个数据项在存储设备中的存储起始时间。
所述低频次数阈值为100、120、150或200;
所述系统记录设备中的设备描述信息包括:大数据存储系统所包括的所有存储设备的总数量、每个存储设备的总存储容量、每个存储设备的网络地址和/或每个存储设备加入所述大数据存储系统的时间;
每个存储设备的存储信息区域中的存储信息文件包括:数据项的总数量、每个数据项的存储尺寸、每个数据项的起始存储时间、每个数据项的标识符、每个数据项的摘要信息以及每个存储设备的空闲存储容量;
所述低频设备阈值为100、120、150、200、300、400或500;
其中平衡预警阈值为30%、40%、50%、55%、60%、65%或70%。
还包括调整单元,用于在针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态之后,或者在针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态之后,
根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作;
在确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求的情况下,对所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求进行解析以获新的查询条件;
在所述大数据存储系统的目录存储服务器中确定所述新的查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备;
将所述新的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述新的查询条件的至少一个数据项;
将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述新的数据访问请求所指示的数据请求方。
其中根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作包括:
16.1、根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序确定当前处理的数据访问请求,其中所述当前处理的数据访问请求是缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求;
16.2、对当前处理的数据访问请求进行解析以获取当前处理的查询条件;
16.3、在所述大数据存储系统的目录存储服务器中确定所述当前处理的查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备;
16.4、将所述当前处理的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述当前处理的查询条件的至少一个数据项;
16.5、将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述当前处理的数据访问请求所指示的数据请求方;
16.6、将缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求删除;
16.7、确定系统缓冲设备的缓冲区中是否具有被保存的任何数据访问请求,如果是,则进行16.1;如果否,则确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的用于避免大数据存储系统进入访问失衡状态的方法的流程图;
图2为根据本发明实施方式的对每个选定组合的低频存储设备进行处理的方法的流程图;
图3为根据本发明实施方式的对每个多元组合的低频存储设备进行处理的方法的流程图;以及
图4为根据本发明实施方式的用于避免大数据存储系统进入访问失衡状态的系统的结构示意图。
具体实施方式
图1为根据本发明实施方式的用于避免大数据存储系统进入访问失衡状态的方法100的流程图。
在步骤101,基于当前的统计时间区间和大数据存储系统内多个存储设备中每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件;其中所述访问信息统计文件包括数据项统计表,所述数据项统计表包括多个数据项记录,其中每个数据项记录的内容为6元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、存储起始时间>。
其中在每个存储设备的系统数据区域中保存(各自)的运行日志文件。其中运行日志文件包括多个日志记录,其中每个日志记录包括:数据项的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间。其中数据项的标识符可以是数据项的名称、数据项的唯一标识、数据项的编码等能够唯一识别数据项的信息。访问起始时间是指当前日志记录所涉及的数据项被访问的起始时间。访问结束时间是指当前日志记录所涉及的数据项被访问的结束时间。例如,当对存储设备中的数据项进行访问时可能会涉及读取、修改等操作,访问起始时间和访问结束时间用于表示本次操作的起始时间和结束时间。存储尺寸是数据项在存储设备中的存储尺寸。存储起始时间是数据项在存储设备或大数据存储系统中开始存储的起始时间,即,数据项被保存到存储设备或大数据存储系统中以提供访问服务的起始时间。在本申请中,访问包括读取和/或修改。
其中当前的统计时间区间为大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间。或者,当前的统计时间区间为用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间。其中预定数量的自然日为10个自然日、20个自然日或30个自然日。
例如,大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求或用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时的时间为2018年8月11日11:25:36,则大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求或用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时时所处的当前日期为2018年8月11日。大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求或用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时时所处的当前日期的前一日为2018年8月10日。当前的统计时间区间为大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求或用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时时所处的当前日期的前一日开始并且向前预定数量(例如,10个自然数)的自然日的一段时间,即当前的统计时间区间为2018年8月1日00:00:00至2018年8月10日23:59:59。
其中循环计时器的计时周期为1200小时、1500小时或1800小时,并且每当循环计时器期满时,所述循环计时器开始下一次计时。即每满1200小时、1500小时或1800小时,则循环计时器开始下一次计时。
其中基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息包括:
基于当前的统计时间区间对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在当前的统计时间区间内的多个日志记录;
按照数据项对每个存储设备在当前的统计时间区间内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息;
由每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息。
例如,当前的统计时间区间为2018年8月1日00:00:00至2018年8月10日23:59:59,即10个自然日,则基于2018年8月1日00:00:00至2018年8月10日23:59:59对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在2018年8月1日00:00:00至2018年8月10日23:59:59内的所有日志记录。按照数据项(例如,数据项的标识符)对每个存储设备在2018年8月1日00:00:00至2018年8月10日23:59:59内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息。每个数据项的经过统计的访问信息例如是每个数据项在当前的统计时间区间内的所有的被访问信息。将每个存储设备内每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息。
其中每个数据项具有摘要信息,所述摘要信息用于概括地介绍数据项的内容。例如,摘要信息为:从0开始C++,使用通俗易懂的介绍让你21天学会C++这门编程语言。
根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件包括:
对每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息进行统计以确定每个数据项的被访问次数;
将每个数据项的经过统计的访问信息中第一次被访问的访问起始时间确定为统计起始时间,将每个数据项的经过统计的访问信息中最后一次被访问的访问结束时间确定为统计结束时间;
基于每个数据项的经过统计的访问信息确定每个数据项的存储尺寸;
根据每个存储设备的存储信息区域中的存储信息文件来确定每个数据项在存储设备中的存储起始时间。
由于每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息包括多个日志记录,并且每个日志记录代表数据项被访问了1次,从而通过日志记录的数量来确定每个数据项的(总的)被访问次数。例如,当前的统计时间区间为2018年8月1日00:00:00至2018年8月10日23:59:59,数据项A在当前的统计时间区间内的第一次被访问的访问起始时间为2018年8月1日09:02:11,访问结束时间2018年8月1日09:05:36,并且数据项A在当前的统计时间区间内的最后一次被访问的访问起始时间为2018年8月10日22:26:53,访问结束时间2018年8月10日22:27:39,则数据项A在当前的统计时间区间内的统计起始时间为2018年8月1日09:02:11,并且统计结束时间为2018年8月10日22:27:39。
此外,根据经过统计的访问信息中任意的日志记录中的存储尺寸来确定每个数据项的存储尺寸。根据每个存储设备的存储信息区域中的存储信息文件中记载的每个数据项被复制/移动到存储设备中的时间来确定每个数据项在存储设备中的存储起始时间。
在步骤102,对每个存储设备的访问信息统计文件进行解析,将当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值Lthreshod的数据项确定为低频数据项,确定每个存储设备所包括的低频数据项的低频项数量;将多个存储设备中低频项数量大于低频设备阈值的存储设备确定为低频存储设备并确定大数据存储系统中低频存储设备的数量;
基于每个低频存储设备的访问信息统计文件,确定每个低频存储设备的每个低频数据项的存储尺寸和被访问次数并且确定每个低频存储设备的低频数据项的低频项数量,基于每个低频存储设备的访问信息统计文件确定每个低频存储设备各自的所有数据项的总被访问次数;根据每个低频存储设备的标识符和大数据存储系统的系统记录设备中的设备描述信息确定每个低频存储设备各自的总存储容量,和根据大数据存储系统的系统记录设备中的设备描述信息大数据存储系统中所有存储设备的总数量,
计算大数据存储系统的平衡系数:
其中α>0,β>0,χ>0并且α+β+χ=1
其中,DLB是大数据存储系统内低频存储设备的平衡系数;LTNi为第i个低频存储设备的低频数据项的低频项数量,LDN为大数据存储系统中低频存储设备的数量;LTSij为第i个低频存储设备内第j个低频数据项的存储尺寸,LSi为第i个低频存储设备的所有低频数据项的总存储尺寸,LCi为第i个低频存储设备的总存储容量,LTAij为第i个低频存储设备内第j个低频数据项的被访问次数,LAi为第i个低频存储设备的所有低频数据项的总被访问次数,LTi第i个低频存储设备的所有数据项的总被访问次数;Dtotal为大数据存储系统中所有存储设备的总数量;其中i为自然数,LDN≥i≥1并且j为自然数,LTNi≥j≥1,其中LDN≥100,并且LTNi≥100;
当大数据存储系统内低频存储设备的平衡系数大于平衡预警阈值时,确定每个低频存储设备中所有数据项的平均被访问次数Lavgi,计算每个低频存储设备的平均被访问次数Lavgi与低频次数阈值Lthreshod的比值Ri
其中LDN≥i≥1,
其中,低频次数阈值为100、120、150、175、200或任意合理数值。
系统记录设备中的设备描述信息包括:大数据存储系统所包括的所有存储设备的总数量、每个存储设备的总存储容量、每个存储设备的网络地址和/或每个存储设备加入所述大数据存储系统的时间。大数据存储系统所包括的存储设备的总数量是大数据存储系统中所有存储设备的总数量。每个存储设备的总存储容量是每个存储设备的存储空间的总容量、或可以是每个存储设备的可以用于存储数据项的存储空间的总容量。每个存储设备的网络地址例如是I P地址、MAC地址等。每个存储设备加入所述大数据存储系统的时间是指每个存储设备加入所述大数据存储系统以作为所述大数据存储系统中的存储设备来存储数据项的起始时间。
大数据存储系统还包括访问记录设备。访问记录设备中的访问描述信息包括:大数据存储系统在当前日期之前的每个自然日内的总被访问次数。当任意的自然日结束时或经过任意的自然日时,大数据存储系统会将刚刚结束或刚刚经过的自然日内大数据存储系统内所有存储设备的总被访问次数。通常,访问记录设备中的访问描述信息可以记录大数据存储系统在当前日期(今天)之前的预定数量的自然日的每个自然日内的总被访问次数。例如,预定数量的自然日为800个自然日。
每个存储设备的存储信息区域中的存储信息文件包括:数据项的总数量、每个数据项的存储尺寸、每个数据项的起始存储时间、每个数据项的标识符、每个数据项的摘要信息以及每个存储设备的空闲存储容量。数据项的总数量是指每个存储设备中所有数据项的总数量。每个数据项的存储尺寸是指每个数据项在存储设备中进行存储时的存储尺寸或所占用的存储空间。每个数据项的起始存储时间是指每个数据项在所归属的存储设备中开始存储的时间,例如,数据项被复制到存储设备中的时间。每个数据项的标识符可以是数据项的名称、数据项的唯一标识、数据项的编码等能够唯一识别数据项的信息。每个数据项的摘要信息用于概括地介绍临时数据项或数据项的内容。例如,摘要信息为:从0开始C++,使用通俗易懂的介绍让你21天学会C++这门编程语言。每个存储设备的空闲存储容量是指每个存储设备中能够存储新的数据项的空闲存储容量或剩余存储容量。
所述低频设备阈值为90、100、120、130、150、160、200、220、300、400或500等任意合理数值。其中平衡预警阈值为30%、40%、50%、55%、60%、65%或70%等任意合理数值。。
在步骤103,将大数据存储系统内所有低频存储设备中Ri大于1.2的低频存储设备确定为选定组合的低频存储设备,将大数据存储系统内所有低频存储设备中Ri小于或等于1.2的低频存储设备确定为多元组合的低频存储设备,
在步骤104,针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:
将所有数据项中被访问次数大于低频次数阈值Lthreshod×1.5的数据项确定为待选数据项以获得多个待选数据项并由多个待选数据项构成待选数据项集合,确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项,按照被访问次数的升序顺序将多个低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项,
1.1、基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的匹配度;
1.2、将所有待选数据项中与当前低频数据项的匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到空闲存储空间中;
1.3、从所述待选数据项集合中删除与当前低频数据项的匹配度最大的待选数据项;
1.4、确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行步骤1.5;如果不存在,则结束;
1.5、将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行步骤1.1;
或者,针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:
确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项并且确定低频数据项的低频项数量Z,按照被访问次数的升序顺序将所有数据项进行排序以生成第二排序列表,从第二排序列表中排序为第1位的数据项开始并且按照升序顺序从第二排序列表中选择Y个数据项,其中Y MOD 3=0,并且0≤Z-Y<3;
按照数据项的被访问次数将所述Y个数据项分成第一预选数据项组、第二预选数据项组和第三预选数据项组,其中第一预选数据项组、第二预选数据项组和第三预选数据项组所包括的数据项的数量均相同,并且第一预选数据项组中被访问次数最少的数据项的被访问次数大于或等于第二预选数据项组中任意数据项的被访问次数,第二预选数据项组中被访问次数最少的数据项的被访问次数大于或等于第三预选数据项组中任意数据项的被访问次数;
2.1、从第一预选数据项组、第二预选数据项组和第三预选数据项组中分别挑选一个数据项,将所挑选的三个数据项组成一个新的数据项,将新的数据项保存到空闲存储空间中;
2.2、在第一预选数据项组、第二预选数据项组和第三预选数据项组中分别删除在步骤2.1中所挑选的一个数据项;
2.3、确定第一预选数据项组、第二预选数据项组和第三预选数据项组是否均包括数据项?如果是,则进行步骤2.1;如果否,则结束。
在基于当前的统计时间区间和大数据存储系统内多个存储设备中每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息之前还包括:
当用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时,或当接收到在大数据存储系统内进行失衡预警检测的请求时,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配阈值的至少一个选定的临时数据项,将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求。
其中,当位于大数据存储系统外部的数据管理设备需要在大数据存储系统内进行失衡预警检测时,所述数据管理设备向所述大数据存储系统发送用于在大数据存储系统内进行失衡预警检测的请求。位于大数据存储系统外部的数据管理设备可以由大数据存储系统的维护人员、管理人员或运营人员进行操作或控制。例如,大数据存储系统的维护人员、管理人员或运营人员可以周期性地或根据实际运行情况来触发对大数据存储系统的数据平衡性的确定。大数据存储系统中包括多个存储设备,并且每个存储设备能够存储多个数据项.每个存储设备的存储容量可以是任意的合理数值。每个数据项可以是各种类型的数据文件,例如文本类型、音频类型、视频类型等的数据文件。其中低频数据项是指在特定时间内的被访问次数低于大数据存储系统的所有数据项的平均被访问次数,或低于存储设备的所有数据项的平均被访问次数等的数据项。低频存储设备例如是指特定时间内的所有数据项的总被访问次数低于大数据存储系统内所有存储设备各自的所有数据项的平均总被访问次数。
其中将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备包括:
以所述大数据存储系统接收到用于在大数据存储系统内进行失衡预警检测的请求的时刻开始或者在用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满的时刻开始,将所述大数据存储系统随后从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备。
在所述大数据存储系统接收到用于在大数据存储系统内进行失衡预警检测的请求的时刻开始,或者在用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满的时刻开始,可能会接收到多个新的数据访问请求。此时,促使将大数据存储系统随后从一个或多个任意的数据请求方所接收的所有新的数据访问请求全部重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备。通常,大数据存储系统会根据新的数据访问请求所包括的查询条件在所述大数据存储系统的目录存储服务器中确定查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备。将所述当前处理的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述当前处理的查询条件的至少一个数据项。而为了在大数据存储系统内进行失衡预警检测时,大数据存储系统将所有新的数据访问请求全部重定向到所述大数据存储系统的系统缓冲设备。其中系统缓冲设备位于大数据存储系统内部,并且用于存储包括多个临时数据项的临时数据项集合,或用于对数据访问请求进行缓冲。其中查询条件例如是,移动通信和5G和(上行链路或下行链路)。在这种情况下,查询条件的描述信息例如是,5G移动通信的上行链路或下行链路。临时数据项集合中包括多个临时数据项,并且每个临时数据项可以是各种类型的数据文件,例如文本类型、音频类型、视频类型等的数据文件。每个临时数据项或每个数据项均具有摘要信息并且摘要信息用于概括地介绍临时数据项或数据项的内容。例如,摘要信息为:从0开始C++,使用通俗易懂的介绍让你21天学会C++这门编程语言。
其中所述新的数据访问请求包括查询条件和查询条件的描述信息,所述临时数据项集合中包括多个临时数据项,并且每个临时数据项具有摘要信息,所述摘要信息用于概括地介绍临时数据项的内容;
其中由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度包括:
由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息进行基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配以确定每个临时数据项与所述查询条件的内容匹配度。本申请可以使用任何现有的文本比对方式来确定新的数据访问请求所包含的查询条件的描述信息与系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息之间的内容匹配度,其中文本比对方式例如是基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配。其中,每个临时数据项与所述查询条件的内容匹配度可以用于表明每个临时数据项与所述查询条件的相近程度、类似程度、相关程度或关联程度。
其中所述匹配度阈值为55%、60%、65%、70%或任意合理数值,并且内容匹配度的范围为[0%,100%],即内容匹配度可以是从0%到100%之间的任何数值。从多个临时数据项中选择内容匹配度大于匹配度阈值的至少一个选定的临时数据项,即从多个临时数据项中选择内容匹配度大于55%、60%、65%或70%的至少一个选定的临时数据项。将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求。将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方的目的是让数据请求方能够在大数据存储系统暂停数据访问服务的情况下获取与数据访问请求相关的内容,以促使数据请求方可以了解相关内容。
其中在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求之后还包括:向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息,并且所述响应消息中携带用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的信息,其中在缓冲区中按照新的数据访问请求的被保存的时间长度来确定新的数据访问请求在所述缓冲区中的当前排队顺序,并且在当前排队顺序中按照被保存的时间长度的降序顺序对新的数据访问请求进行排序。即,被保存的时间长度越长,则新的数据访问请求的当前排队顺序越靠前。优选地,在向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息之后还包括:周期性地向所述新的数据访问请求所指示的数据请求方发送用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的通知消息。
在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件。其中正在运行的数据访问操作是指存储设备对根据大数据存储系统所发送的查询条件在自身的存储空间内进行数据检索,将通过数据检索所获得的数据项构成数据项集合,将数据项集合通过大数据存储系统传送给数据请求方的操作处理。
在针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态之后,或者在针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态之后,还包括:
根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作。例如,系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序为:第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求,则根据第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作。
在确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求的情况下,对所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求进行解析以获新的查询条件。例如,当在确定系统缓冲设备的缓冲区中的第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求均已经被处理,因此系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。随后,对所述大数据存储系统从数据请求方所接收的第六数据访问请求进行解析以获新的查询条件。其中新的查询条件例如是,移动通信和5G和(上行链路或下行链路)。
在所述大数据存储系统的目录存储服务器中确定所述新的查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备。其中,目录存储服务器用于存储大数据存储系统内所有数据项的目录信息。例如,目录信息为数据项的标识符、数据项的摘要信息、数据项的元数据信息、数据项的关键字信息、数据项所位于的存储设备等。目录存储服务器根据查询条件或新的查询条件对存储大数据存储系统内所有数据项进行查询,例如,在数据项的摘要信息、数据项的元数据信息和/或数据项的关键字信息中利用新的查询条件(例如,移动通信和5G和(上行链路或下行链路))进行查询,以确定所述新的查询条件所涉及的多个数据项。根据目录信息确定每个数据项所位于、所存储于或所涉及的存储设备,由此确定多个数据项所涉及的至少一个目标存储设备。在特殊情况下,多个数据项可能位于同一目标存储设备中。
将所述新的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述新的查询条件的至少一个数据项。每个目标存储设备根据所述新的查询条件在自身所存储的所有数据项中进行检索,以获得至少一个数据项,并且将所获得的至少一个数据项发送给大数据存储系统的接口设备。优选地,本申请的大数据存储系统中不存在冗余的数据项,即每个数据项均是唯一的。其中,接口设备用于从数据请求方接收数据访问请求,并且接口设备用于将数据项集合或目标数据项集合发送给相应的数据请求方。
将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述新的数据访问请求所指示的数据请求方。大数据存储系统的接口设备将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且接口设备将所述目标数据项集合发送给所述新的数据访问请求所指示的数据请求方。
其中根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作包括:
8.1、根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序确定当前处理的数据访问请求,其中所述当前处理的数据访问请求是缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求。如上所述,例如,系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序为:第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求,则根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序确定当前处理的数据访问请求为第一数据访问请求。
8.2、对当前处理的数据访问请求进行解析以获取当前处理的查询条件。其中数据访问请求或当前处理的数据访问请求包括查询条件,因此对当前处理的数据访问请求进行解析能够获取当前处理的查询条件。其中当前处理的查询条件例如是,移动通信和5G和(上行链路或下行链路)。
8.3、在所述大数据存储系统的目录存储服务器中确定所述当前处理的查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备。其中,目录存储服务器用于存储大数据存储系统内所有数据项的目录信息。例如,目录信息为数据项的标识符、数据项的摘要信息、数据项的元数据信息、数据项的关键字信息、数据项所位于的存储设备等。目录存储服务器根据当前处理的查询条件对存储大数据存储系统内所有数据项进行查询,例如,在数据项的摘要信息、数据项的元数据信息和/或数据项的关键字信息中利用当前处理的查询条件(例如,移动通信和5G和(上行链路或下行链路))进行查询,以确定所述新的查询条件所涉及的多个数据项。根据目录信息确定每个数据项所位于、所存储于或所涉及的存储设备,由此确定多个数据项所涉及的至少一个目标存储设备。在特殊情况下,多个数据项可能位于同一目标存储设备中。
8.4、将所述当前处理的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述当前处理的查询条件的至少一个数据项。每个目标存储设备根据所述当前处理的查询条件在自身所存储的所有数据项中进行检索,以获得至少一个数据项,并且将所获得的至少一个数据项发送给大数据存储系统的接口设备。优选地,本申请的大数据存储系统中不存在冗余的数据项,即每个数据项均是唯一的。其中,接口设备用于从数据请求方接收数据访问请求,并且接口设备用于将数据项集合或目标数据项集合发送给相应的数据请求方。
8.5、将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述当前处理的数据访问请求所指示的数据请求方。接口设备将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且接口设备将所述目标数据项集合发送给所述新的数据访问请求所指示的数据请求方。
8.6、将缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求删除。例如,将缓冲区中多个数据访问请求的当前排队顺序中的第一数据访问请求删除。
8.7、确定系统缓冲设备的缓冲区中是否具有被保存的任何数据访问请求,如果是,则进行步骤8.1;如果否,则确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。例如,系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序为:第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求,并且当将缓冲区中多个数据访问请求的当前排队顺序中的第一数据访问请求删除后,则确定系统缓冲设备的缓冲区中具有被保存的任何数据访问请求,即第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求,则进行步骤801。
当将缓冲区中多个数据访问请求的当前排队顺序中的第五据访问请求删除后,则确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求,即第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求均完成了数据访问操作,则确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。即在确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求的情况下,对所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求进行解析以获新的查询条件,并进行相应处理。
在本申请中,如果存在不同的数据项或低频数据项的被访问次数相同,并且需要从数据项或低频数据项选择一个作为当前的数据项或当前的低频数据项时,从被访问次数相同的不同的数据项或低频数据项中随机进行选择。
图2为根据本发明实施方式的对每个选定组合的低频存储设备进行处理的方法200的流程图。如图2所示,针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态,具体内容如下所述。
针对于多个选定组合的低频存储设备中的当前的选定组合的低频存储设备:
方法200从步骤201处开始。
在步骤202,将所有数据项中被访问次数大于低频次数阈值Lthreshod×1.5(例如,还可以是低频次数阈值Lthreshod×1.6、低频次数阈值Lthreshod×1.8、低频次数阈值Lthreshod×2等)的数据项确定为待选数据项以获得多个待选数据项并由多个待选数据项构成待选数据项集合,确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项,按照被访问次数的升序顺序将多个低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项。在低频次数阈值为100的情况下,则对每个选定组合的低频存储设备进行:将所有数据项中被访问次数大于150的数据项确定为待选数据项以获得多个待选数据项并由多个待选数据项构成待选数据项集合,确定所有数据项中被访问次数小于100的多个低频数据项,按照被访问次数的升序顺序将多个低频数据项进行排序以生成第一排序列表。将第一排序列表中排序为第1位的低频数据项(被访问次数最少的低频数据项)作为当前低频数据项,即,将每个选定组合的低频存储设备中被访问次数最少的数据项(或低频数据项)作为当前低频数据项。
在步骤203,基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的匹配度。本申请可以使用任何现有的文本比对方式来确定当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息之间的内容匹配度,其中文本比对方式例如是基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配。其中,每个待选数据项与当前低频数据项的内容匹配度可以用于表明每个待选数据项与所述当前低频数据项的相近程度、类似程度、相关程度或关联程度。
在步骤204,将所有待选数据项中与当前低频数据项的匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到空闲存储空间中。将待选数据项集合的所有待选数据项中与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项进行数据项组合是指将与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项构成文件组,并且将与当前低频数据项的内容匹配度最大的待选数据项的摘要信息和当前低频数据项的摘要信息进行合并以构成文件组的摘要信息。将所构成的文件组作为一个新的数据项,并且将新的数据项保存到当前的选定组合的低频存储设备的空闲存储空间中,即没有存储数据项的存储空间中。
在步骤205,从所述待选数据项集合中删除与当前低频数据项的匹配度最大的待选数据项。在将新的数据项(所构成的文件组)保存到当前的选定组合的低频存储设备的空闲存储空间中之后,从所述待选数据项集合中删除与当前低频数据项的内容匹配度最大的待选数据项。此外,从当前的选定组合的低频存储设备的中将与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项删除(这是因为与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项所构成的文件组已经被保存到当前的选定组合的低频存储设备的的空闲存储空间中)。
在步骤206,确定第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行步骤207;如果不存在,则进行步骤208,结束。确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项的含义是确定所述第一排序列表中是否存在被访问次数高于当前低频数据项并且与所述当前低频数据项在第一排序列表中相邻的低频数据项。如,在当前低频数据项为排序为第1位的低频数据项时,则排序在当前低频数据项后1位的低频数据项为排序为第2位的低频数据项,即第一排序列表中被访问次数第二最少的低频数据项或数据项。如果存在,则进行步骤207,如果不存在,则进行步骤208,结束。
在步骤207,将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行步骤203;例如,将第一排序列表中排序为第2位的低频数据项选择作为当前低频数据项后进行步骤203,依次类推,将第一排序列表中排序为第3位、第4位、第5位、...、直至最后1位的低频数据项选择作为当前低频数据项为止。
图3为根据本发明实施方式的对每个多元组合的低频存储设备进行处理的方法300的流程图。如图3所示,针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态,具体内容如下所述。
针对于多个多元组合的低频存储设备中的当前的多元组合的低频存储设备:
方法300从步骤301处开始。
在步骤302,确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项并且确定低频数据项的低频项数量Z,按照被访问次数的升序顺序将所有低频数据项进行排序以生成第二排序列表,从第二排序列表中排序为第1位的数据项开始并且按照升序顺序从第二排序列表中选择Y个数据项,其中Y MOD 3=0,并且0≤Z-Y<3。在低频次数阈值为100的情况下,确定所有数据项中被访问次数小于100的多个低频数据项并且确定低频数据项的低频项数量Z。例如,低频项数量Z为136。按照被访问次数的升序顺序将所有低频数据项进行排序以生成第二排序列表。其中第二排序列表中包括Z个按照被访问次数从少到多进行排列的低频数据项。从第二排序列表中排序为第1位的低频数据项开始并且按照升序顺序从第二排序列表中选择Y个低频数据项,其中Y MOD 3=0,并且0≤Z-Y<3。由于Z为136并且Y对3取余为0,则Y为135。即,从136个低频数据项中选择135个低频数据项,并且剩余的1个低频数据项为所有低频数据项中被访问次数最多的低频数据项。
在步骤303,按照低频数据项的被访问次数将Y个低频数据项分成第一预选数据项组、第二预选数据项组和第三预选数据项组,其中第一预选数据项组、第二预选数据项组和第三预选数据项组包括的低频数据项的数量均相同。例如,将135个低频数据项分为3个预选数据项组,并且每个预选数据项组包括45个低频数据项。第一预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第二预选数据项组中任意低频数据项的被访问次数,第二预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第三预选数据项组中任意低频数据项的被访问次数。例如,第一预选数据项组中的低频数据项是在第二排序列表中排序为第91-135的低频数据项;第二预选数据项组中的低频数据项是在第二排序列表中排序为第46-90的低频数据项以及第三预选数据项组中的低频数据项是在第二排序列表中排序为第1-45的低频数据项。由于第二排序列表中的低频数据项是被访问次数的升序顺序进行排序的,因此,第一预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第二预选数据项组中任意低频数据项的被访问次数,第二预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第三预选数据项组中任意低频数据项的被访问次数。
在步骤304,从第一预选数据项组、第二预选数据项组和第三预选数据项组中分别挑选一个低频数据项,将所挑选的三个低频数据项组成一个新的数据项,将新的数据项保存到空闲存储空间中。例如,从第一预选数据项组、第二预选数据项组和第三预选数据项组中分别随机挑选一个低频数据项,将所挑选的三个低频数据项组成一个新的数据项,将新的数据项保存到当前的多元组合的低频存储设备的空闲存储空间中。
在步骤305,在第一预选数据项组、第二预选数据项组和第三预选数据项组中分别删除在步骤304中所挑选的一个低频数据项。
在步骤306,确定第一预选数据项组、第二预选数据项组和第三预选数据项组是否均包括低频数据项?如果是,则进行步骤304;如果否,则进行步骤307结束。
图4为根据本发明实施方式的用于避免大数据存储系统进入访问失衡状态的系统400的结构示意图。系统400包括:统计单元401、计算单元402、分类单元403、处理单元404、预处理单元405以及调整单元406。
统计单元401、,基于当前的统计时间区间和大数据存储系统内多个存储设备中每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件;其中所述访问信息统计文件包括数据项统计表,所述数据项统计表包括多个数据项记录,其中每个数据项记录的内容为6元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、存储起始时间>。
其中在每个存储设备的系统数据区域中保存(各自)的运行日志文件。其中运行日志文件包括多个日志记录,其中每个日志记录包括:数据项的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间。其中数据项的标识符可以是数据项的名称、数据项的唯一标识、数据项的编码等能够唯一识别数据项的信息。访问起始时间是指当前日志记录所涉及的数据项被访问的起始时间。访问结束时间是指当前日志记录所涉及的数据项被访问的结束时间。例如,当对存储设备中的数据项进行访问时可能会涉及读取、修改等操作,访问起始时间和访问结束时间用于表示本次操作的起始时间和结束时间。存储尺寸是数据项在存储设备中的存储尺寸。存储起始时间是数据项在存储设备或大数据存储系统中开始存储的起始时间,即,数据项被保存到存储设备或大数据存储系统中以提供访问服务的起始时间。在本申请中,访问包括读取和/或修改。
其中当前的统计时间区间为大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间。或者,当前的统计时间区间为用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间。其中预定数量的自然日为10个自然日、20个自然日或30个自然日。
例如,大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求或用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时的时间为2018年8月11日11:25:36,则大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求或用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时时所处的当前日期为2018年8月11日。大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求或用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时时所处的当前日期的前一日为2018年8月10日。当前的统计时间区间为大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求或用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时时所处的当前日期的前一日开始并且向前预定数量(例如,10个自然数)的自然日的一段时间,即当前的统计时间区间为2018年8月1日00:00:00至2018年8月10日23:59:59。
其中循环计时器的计时周期为1200小时、1500小时或1800小时,并且每当循环计时器期满时,所述循环计时器开始下一次计时。即每满1200小时、1500小时或1800小时,则循环计时器开始下一次计时。
其中基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息包括:基于当前的统计时间区间对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在当前的统计时间区间内的多个日志记录;按照数据项对每个存储设备在当前的统计时间区间内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息;由每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息。
例如,当前的统计时间区间为2018年8月1日00:00:00至2018年8月10日23:59:59,即10个自然日,则基于2018年8月1日00:00:00至2018年8月10日23:59:59对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在2018年8月1日00:00:00至2018年8月10日23:59:59内的所有日志记录。按照数据项(例如,数据项的标识符)对每个存储设备在2018年8月1日00:00:00至2018年8月10日23:59:59内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息。每个数据项的经过统计的访问信息例如是每个数据项在当前的统计时间区间内的所有的被访问信息。将每个存储设备内每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息。
其中每个数据项具有摘要信息,所述摘要信息用于概括地介绍数据项的内容。例如,摘要信息为:从0开始C++,使用通俗易懂的介绍让你21天学会C++这门编程语言。
根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件包括:
对每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息进行统计以确定每个数据项的被访问次数;
将每个数据项的经过统计的访问信息中第一次被访问的访问起始时间确定为统计起始时间,将每个数据项的经过统计的访问信息中最后一次被访问的访问结束时间确定为统计结束时间;
基于每个数据项的经过统计的访问信息确定每个数据项的存储尺寸;
根据每个存储设备的存储信息区域中的存储信息文件来确定每个数据项在存储设备中的存储起始时间。
由于每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息包括多个日志记录,并且每个日志记录代表数据项被访问了1次,从而通过日志记录的数量来确定每个数据项的(总的)被访问次数。例如,当前的统计时间区间为2018年8月1日00:00:00至2018年8月10日23:59:59,数据项A在当前的统计时间区间内的第一次被访问的访问起始时间为2018年8月1日09:02:11,访问结束时间2018年8月1日09:05:36,并且数据项A在当前的统计时间区间内的最后一次被访问的访问起始时间为2018年8月10日22:26:53,访问结束时间2018年8月10日22:27:39,则数据项A在当前的统计时间区间内的统计起始时间为2018年8月1日09:02:11,并且统计结束时间为2018年8月10日22:27:39。
此外,根据经过统计的访问信息中任意的日志记录中的存储尺寸来确定每个数据项的存储尺寸。根据每个存储设备的存储信息区域中的存储信息文件中记载的每个数据项被复制/移动到存储设备中的时间来确定每个数据项在存储设备中的存储起始时间。
计算单元402,对每个存储设备的访问信息统计文件进行解析,将当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值Lthreshod的数据项确定为低频数据项,确定每个存储设备所包括的低频数据项的低频项数量;将多个存储设备中低频项数量大于低频设备阈值的存储设备确定为低频存储设备并确定大数据存储系统中低频存储设备的数量;
基于每个低频存储设备的访问信息统计文件,确定每个低频存储设备的每个低频数据项的存储尺寸和被访问次数并且确定每个低频存储设备的低频数据项的低频项数量,基于每个低频存储设备的访问信息统计文件确定每个低频存储设备各自的所有数据项的总被访问次数;根据每个低频存储设备的标识符和大数据存储系统的系统记录设备中的设备描述信息确定每个低频存储设备各自的总存储容量,和根据大数据存储系统的系统记录设备中的设备描述信息大数据存储系统中所有存储设备的总数量,
计算大数据存储系统的平衡系数:
其中α>0,β>0,χ>0并且α+β+χ=1
其中,DLB是大数据存储系统内低频存储设备的平衡系数;LTNi为第i个低频存储设备的低频数据项的低频项数量,LDN为大数据存储系统中低频存储设备的数量;LTSij为第i个低频存储设备内第j个低频数据项的存储尺寸,LSi为第i个低频存储设备的所有低频数据项的总存储尺寸,LCi为第i个低频存储设备的总存储容量,LTAij为第i个低频存储设备内第j个低频数据项的被访问次数,LAi为第i个低频存储设备的所有低频数据项的总被访问次数,LTi第i个低频存储设备的所有数据项的总被访问次数;Dtotal为大数据存储系统中所有存储设备的总数量;其中i为自然数,LDN≥i≥1并且j为自然数,LTNi≥j≥1,其中LDN≥100,并且LTNi≥100;
当大数据存储系统内低频存储设备的平衡系数大于平衡预警阈值时,确定每个低频存储设备中所有数据项的平均被访问次数Lavgi,计算每个低频存储设备的平均被访问次数Lavgi与低频次数阈值Lthreshod的比值Ri
其中LDN≥i≥1,
其中,低频次数阈值为100、120、150、175、200或任意合理数值。
系统记录设备中的设备描述信息包括:大数据存储系统所包括的所有存储设备的总数量、每个存储设备的总存储容量、每个存储设备的网络地址和/或每个存储设备加入所述大数据存储系统的时间。大数据存储系统所包括的存储设备的总数量是大数据存储系统中所有存储设备的总数量。每个存储设备的总存储容量是每个存储设备的存储空间的总容量、或可以是每个存储设备的可以用于存储数据项的存储空间的总容量。每个存储设备的网络地址例如是I P地址、MAC地址等。每个存储设备加入所述大数据存储系统的时间是指每个存储设备加入所述大数据存储系统以作为所述大数据存储系统中的存储设备来存储数据项的起始时间。
大数据存储系统还包括访问记录设备。访问记录设备中的访问描述信息包括:大数据存储系统在当前日期之前的每个自然日内的总被访问次数。当任意的自然日结束时或经过任意的自然日时,大数据存储系统会将刚刚结束或刚刚经过的自然日内大数据存储系统内所有存储设备的总被访问次数。通常,访问记录设备中的访问描述信息可以记录大数据存储系统在当前日期(今天)之前的预定数量的自然日的每个自然日内的总被访问次数。例如,预定数量的自然日为800个自然日。
每个存储设备的存储信息区域中的存储信息文件包括:数据项的总数量、每个数据项的存储尺寸、每个数据项的起始存储时间、每个数据项的标识符、每个数据项的摘要信息以及每个存储设备的空闲存储容量。数据项的总数量是指每个存储设备中所有数据项的总数量。每个数据项的存储尺寸是指每个数据项在存储设备中进行存储时的存储尺寸或所占用的存储空间。每个数据项的起始存储时间是指每个数据项在所归属的存储设备中开始存储的时间,例如,数据项被复制到存储设备中的时间。每个数据项的标识符可以是数据项的名称、数据项的唯一标识、数据项的编码等能够唯一识别数据项的信息。每个数据项的摘要信息用于概括地介绍临时数据项或数据项的内容。例如,摘要信息为:从0开始C++,使用通俗易懂的介绍让你21天学会C++这门编程语言。每个存储设备的空闲存储容量是指每个存储设备中能够存储新的数据项的空闲存储容量或剩余存储容量。
所述低频设备阈值为90、100、120、130、150、160、200、220、300、400或500等任意合理数值。其中平衡预警阈值为30%、40%、50%、55%、60%、65%或70%等任意合理数值。。
分类单元403,将大数据存储系统内所有低频存储设备中Ri大于1.2的低频存储设备确定为选定组合的低频存储设备,将大数据存储系统内所有低频存储设备中Ri小于或等于1.2的低频存储设备确定为多元组合的低频存储设备。
处理单元404,针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:
将所有数据项中被访问次数大于低频次数阈值Lthreshod×1.5的数据项确定为待选数据项以获得多个待选数据项并由多个待选数据项构成待选数据项集合,确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项,按照被访问次数的升序顺序将多个低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项,
1.1、基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的匹配度;
1.2、将所有待选数据项中与当前低频数据项的匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到空闲存储空间中;
1.3、从所述待选数据项集合中删除与当前低频数据项的匹配度最大的待选数据项;
1.4、确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行步骤1.5;如果不存在,则结束;
1.5、将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行步骤1.1;
或者,针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:
确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项并且确定低频数据项的低频项数量Z,按照被访问次数的升序顺序将所有数据项进行排序以生成第二排序列表,从第二排序列表中排序为第1位的数据项开始并且按照升序顺序从第二排序列表中选择Y个数据项,其中Y MOD 3=0,并且0≤Z-Y<3;
按照数据项的被访问次数将所述Y个数据项分成第一预选数据项组、第二预选数据项组和第三预选数据项组,其中第一预选数据项组、第二预选数据项组和第三预选数据项组所包括的数据项的数量均相同,并且第一预选数据项组中被访问次数最少的数据项的被访问次数大于或等于第二预选数据项组中任意数据项的被访问次数,第二预选数据项组中被访问次数最少的数据项的被访问次数大于或等于第三预选数据项组中任意数据项的被访问次数;
2.1、从第一预选数据项组、第二预选数据项组和第三预选数据项组中分别挑选一个数据项,将所挑选的三个数据项组成一个新的数据项,将新的数据项保存到空闲存储空间中;
2.2、在第一预选数据项组、第二预选数据项组和第三预选数据项组中分别删除在步骤2.1中所挑选的一个数据项;
2.3、确定第一预选数据项组、第二预选数据项组和第三预选数据项组是否均包括数据项?如果是,则进行步骤2.1;如果否,则结束。
预处理单元405,在基于当前的统计时间区间和大数据存储系统内多个存储设备中每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息之前,当用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时,或当接收到在大数据存储系统内进行失衡预警检测的请求时,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配阈值的至少一个选定的临时数据项,将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求。
其中,当位于大数据存储系统外部的数据管理设备需要在大数据存储系统内进行失衡预警检测时,所述数据管理设备向所述大数据存储系统发送用于在大数据存储系统内进行失衡预警检测的请求。位于大数据存储系统外部的数据管理设备可以由大数据存储系统的维护人员、管理人员或运营人员进行操作或控制。例如,大数据存储系统的维护人员、管理人员或运营人员可以周期性地或根据实际运行情况来触发对大数据存储系统的数据平衡性的确定。大数据存储系统中包括多个存储设备,并且每个存储设备能够存储多个数据项.每个存储设备的存储容量可以是任意的合理数值。每个数据项可以是各种类型的数据文件,例如文本类型、音频类型、视频类型等的数据文件。其中低频数据项是指在特定时间内的被访问次数低于大数据存储系统的所有数据项的平均被访问次数,或低于存储设备的所有数据项的平均被访问次数等的数据项。低频存储设备例如是指特定时间内的所有数据项的总被访问次数低于大数据存储系统内所有存储设备各自的所有数据项的平均总被访问次数。
其中将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备包括:
以所述大数据存储系统接收到用于在大数据存储系统内进行失衡预警检测的请求的时刻开始或者在用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满的时刻开始,将所述大数据存储系统随后从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备。
在所述大数据存储系统接收到用于在大数据存储系统内进行失衡预警检测的请求的时刻开始,或者在用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满的时刻开始,可能会接收到多个新的数据访问请求。此时,促使将大数据存储系统随后从一个或多个任意的数据请求方所接收的所有新的数据访问请求全部重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备。通常,大数据存储系统会根据新的数据访问请求所包括的查询条件在所述大数据存储系统的目录存储服务器中确定查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备。将所述当前处理的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述当前处理的查询条件的至少一个数据项。而为了在大数据存储系统内进行失衡预警检测时,大数据存储系统将所有新的数据访问请求全部重定向到所述大数据存储系统的系统缓冲设备。其中系统缓冲设备位于大数据存储系统内部,并且用于存储包括多个临时数据项的临时数据项集合,或用于对数据访问请求进行缓冲。其中查询条件例如是,移动通信和5G和(上行链路或下行链路)。在这种情况下,查询条件的描述信息例如是,5G移动通信的上行链路或下行链路。临时数据项集合中包括多个临时数据项,并且每个临时数据项可以是各种类型的数据文件,例如文本类型、音频类型、视频类型等的数据文件。每个临时数据项或每个数据项均具有摘要信息并且摘要信息用于概括地介绍临时数据项或数据项的内容。例如,摘要信息为:从0开始C++,使用通俗易懂的介绍让你21天学会C++这门编程语言。
其中所述新的数据访问请求包括查询条件和查询条件的描述信息,所述临时数据项集合中包括多个临时数据项,并且每个临时数据项具有摘要信息,所述摘要信息用于概括地介绍临时数据项的内容;
其中由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度包括:
由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息进行基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配以确定每个临时数据项与所述查询条件的内容匹配度。本申请可以使用任何现有的文本比对方式来确定新的数据访问请求所包含的查询条件的描述信息与系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息之间的内容匹配度,其中文本比对方式例如是基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配。其中,每个临时数据项与所述查询条件的内容匹配度可以用于表明每个临时数据项与所述查询条件的相近程度、类似程度、相关程度或关联程度。
其中所述匹配度阈值为55%、60%、65%、70%或任意合理数值,并且内容匹配度的范围为[0%,100%],即内容匹配度可以是从0%到100%之间的任何数值。从多个临时数据项中选择内容匹配度大于匹配度阈值的至少一个选定的临时数据项,即从多个临时数据项中选择内容匹配度大于55%、60%、65%或70%的至少一个选定的临时数据项。将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求。将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方的目的是让数据请求方能够在大数据存储系统暂停数据访问服务的情况下获取与数据访问请求相关的内容,以促使数据请求方可以了解相关内容。
其中在系统缓冲设备的缓冲区内保存所述新的数据访问请求之后还包括:向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息,并且所述响应消息中携带用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的信息,其中在所述缓冲区中按照新的数据访问请求的被保存的时间长度来确定新的数据访问请求在所述缓冲区中的当前排队顺序,并且在当前排队顺序中按照被保存的时间长度的降序顺序对新的数据访问请求进行排序。即,被保存的时间长度越长,则新的数据访问请求的当前排队顺序越靠前。优选地,在向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息之后还包括:周期性地向所述新的数据访问请求所指示的数据请求方发送用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的通知消息。
在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件。其中正在运行的数据访问操作是指存储设备对根据大数据存储系统所发送的查询条件在自身的存储空间内进行数据检索,将通过数据检索所获得的数据项构成数据项集合,将数据项集合通过大数据存储系统传送给数据请求方的操作处理。
调整单元406,在针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态之后,或者在针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态之后,还包括:
根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作。例如,系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序为:第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求,则根据第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作。
在确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求的情况下,对所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求进行解析以获新的查询条件。例如,当在确定系统缓冲设备的缓冲区中的第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求均已经被处理,因此系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。随后,对所述大数据存储系统从数据请求方所接收的第六数据访问请求进行解析以获新的查询条件。其中新的查询条件例如是,移动通信和5G和(上行链路或下行链路)。
在所述大数据存储系统的目录存储服务器中确定所述新的查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备。其中,目录存储服务器用于存储大数据存储系统内所有数据项的目录信息。例如,目录信息为数据项的标识符、数据项的摘要信息、数据项的元数据信息、数据项的关键字信息、数据项所位于的存储设备等。目录存储服务器根据查询条件或新的查询条件对存储大数据存储系统内所有数据项进行查询,例如,在数据项的摘要信息、数据项的元数据信息和/或数据项的关键字信息中利用新的查询条件(例如,移动通信和5G和(上行链路或下行链路))进行查询,以确定所述新的查询条件所涉及的多个数据项。根据目录信息确定每个数据项所位于、所存储于或所涉及的存储设备,由此确定多个数据项所涉及的至少一个目标存储设备。在特殊情况下,多个数据项可能位于同一目标存储设备中。
将所述新的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述新的查询条件的至少一个数据项。每个目标存储设备根据所述新的查询条件在自身所存储的所有数据项中进行检索,以获得至少一个数据项,并且将所获得的至少一个数据项发送给大数据存储系统的接口设备。优选地,本申请的大数据存储系统中不存在冗余的数据项,即每个数据项均是唯一的。其中,接口设备用于从数据请求方接收数据访问请求,并且接口设备用于将数据项集合或目标数据项集合发送给相应的数据请求方。
将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述新的数据访问请求所指示的数据请求方。大数据存储系统的接口设备将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且接口设备将所述目标数据项集合发送给所述新的数据访问请求所指示的数据请求方。
其中根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作包括:
8.1、根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序确定当前处理的数据访问请求,其中所述当前处理的数据访问请求是缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求。如上所述,例如,系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序为:第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求,则根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序确定当前处理的数据访问请求为第一数据访问请求。
8.2、对当前处理的数据访问请求进行解析以获取当前处理的查询条件。其中数据访问请求或当前处理的数据访问请求包括查询条件,因此对当前处理的数据访问请求进行解析能够获取当前处理的查询条件。其中当前处理的查询条件例如是,移动通信和5G和(上行链路或下行链路)。
8.3、在所述大数据存储系统的目录存储服务器中确定所述当前处理的查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备。其中,目录存储服务器用于存储大数据存储系统内所有数据项的目录信息。例如,目录信息为数据项的标识符、数据项的摘要信息、数据项的元数据信息、数据项的关键字信息、数据项所位于的存储设备等。目录存储服务器根据当前处理的查询条件对存储大数据存储系统内所有数据项进行查询,例如,在数据项的摘要信息、数据项的元数据信息和/或数据项的关键字信息中利用当前处理的查询条件(例如,移动通信和5G和(上行链路或下行链路))进行查询,以确定所述新的查询条件所涉及的多个数据项。根据目录信息确定每个数据项所位于、所存储于或所涉及的存储设备,由此确定多个数据项所涉及的至少一个目标存储设备。在特殊情况下,多个数据项可能位于同一目标存储设备中。
8.4、将所述当前处理的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述当前处理的查询条件的至少一个数据项。每个目标存储设备根据所述当前处理的查询条件在自身所存储的所有数据项中进行检索,以获得至少一个数据项,并且将所获得的至少一个数据项发送给大数据存储系统的接口设备。优选地,本申请的大数据存储系统中不存在冗余的数据项,即每个数据项均是唯一的。其中,接口设备用于从数据请求方接收数据访问请求,并且接口设备用于将数据项集合或目标数据项集合发送给相应的数据请求方。
8.5、将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述当前处理的数据访问请求所指示的数据请求方。接口设备将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且接口设备将所述目标数据项集合发送给所述新的数据访问请求所指示的数据请求方。
8.6、将缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求删除。例如,将缓冲区中多个数据访问请求的当前排队顺序中的第一数据访问请求删除。
8.7、确定系统缓冲设备的缓冲区中是否具有被保存的任何数据访问请求,如果是,则进行步骤8.1;如果否,则确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。例如,系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序为:第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求,并且当将缓冲区中多个数据访问请求的当前排队顺序中的第一数据访问请求删除后,则确定系统缓冲设备的缓冲区中具有被保存的任何数据访问请求,即第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求,则进行步骤801。
当将缓冲区中多个数据访问请求的当前排队顺序中的第五据访问请求删除后,则确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求,即第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求均完成了数据访问操作,则确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。即在确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求的情况下,对所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求进行解析以获新的查询条件,并进行相应处理。
在本申请中,如果存在不同的数据项或低频数据项的被访问次数相同,并且需要从数据项或低频数据项选择一个作为当前的数据项或当前的低频数据项时,从被访问次数相同的不同的数据项或低频数据项中随机进行选择。

Claims (10)

1.一种用于避免大数据存储系统进入访问失衡状态的方法,所述方法包括:
基于当前的统计时间区间和大数据存储系统内多个存储设备中每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件;其中所述访问信息统计文件包括数据项统计表,所述数据项统计表包括多个数据项记录,其中每个数据项记录的内容为6元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、存储起始时间>;
对每个存储设备的访问信息统计文件进行解析,将当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值Lthreshod的数据项确定为低频数据项,确定每个存储设备所包括的低频数据项的低频项数量;将多个存储设备中低频项数量大于低频设备阈值的存储设备确定为低频存储设备并确定大数据存储系统中低频存储设备的数量;
基于每个低频存储设备的访问信息统计文件,确定每个低频存储设备的每个低频数据项的存储尺寸和被访问次数并且确定每个低频存储设备的低频数据项的低频项数量,基于每个低频存储设备的访问信息统计文件确定每个低频存储设备各自的所有数据项的总被访问次数;根据每个低频存储设备的标识符和大数据存储系统的系统记录设备中的设备描述信息确定每个低频存储设备各自的总存储容量,和根据大数据存储系统的系统记录设备中的设备描述信息大数据存储系统中所有存储设备的总数量,
计算大数据存储系统内低频存储设备的平衡系数:
其中α>0,β>0,χ>0并且α+β+χ=1
其中,DLB是大数据存储系统内低频存储设备的平衡系数;
LTNi为第i个低频存储设备的低频数据项的低频项数量,LDN为大数据存储系统中低频存储设备的数量;LTSij为第i个低频存储设备内第j个低频数据项的存储尺寸,LSi为第i个低频存储设备的所有低频数据项的总存储尺寸,LCi为第i个低频存储设备的总存储容量,
LTAij为第i个低频存储设备内第j个低频数据项的被访问次数,LAi为第i个低频存储设备的所有低频数据项的总被访问次数,LTi第i个低频存储设备的所有数据项的总被访问次数;
Dtotal为大数据存储系统中所有存储设备的总数量;
其中i为自然数,LDN≥i≥1并且j为自然数,LTNi≥j≥1,其中LDN≥100,并且LTNi≥100;
当大数据存储系统内低频存储设备的平衡系数大于平衡预警阈值时,确定每个低频存储设备中所有数据项的平均被访问次数Lavgi,计算每个低频存储设备的平均被访问次数Lavgi与低频次数阈值Lthreshod的比值Ri
其中LDN≥i≥1,
将大数据存储系统内所有低频存储设备中Ri大于1.2的低频存储设备确定为选定组合的低频存储设备,将大数据存储系统内所有低频存储设备中Ri小于或等于1.2的低频存储设备确定为多元组合的低频存储设备,
针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:
将所有数据项中被访问次数大于低频次数阈值Lthreshod×1.5的数据项确定为待选数据项以获得多个待选数据项并由多个待选数据项构成待选数据项集合,确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项,按照被访问次数的升序顺序将多个低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项,
1.1、基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的匹配度;
1.2、将所有待选数据项中与当前低频数据项的匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到空闲存储空间中;
1.3、从所述待选数据项集合中删除与当前低频数据项的匹配度最大的待选数据项;
1.4、确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行步骤1.5;如果不存在,则结束;
1.5、将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行步骤1.1;
针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:
确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项并且确定低频数据项的低频项数量Z,按照被访问次数的升序顺序将所有低频数据项进行排序以生成第二排序列表,从第二排序列表中排序为第1位的低频数据项开始并且按照升序顺序从第二排序列表中选择Y个低频数据项,其中Y MOD 3=0,并且0≤Z-Y<3;
按照低频数据项的被访问次数将所述Y个低频数据项分成第一预选数据项组、第二预选数据项组和第三预选数据项组,其中第一预选数据项组、第二预选数据项组和第三预选数据项组所包括的低频数据项的数量均相同,并且第一预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第二预选数据项组中任意低频数据项的被访问次数,第二预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第三预选数据项组中任意低频数据项的被访问次数;
2.1、从第一预选数据项组、第二预选数据项组和第三预选数据项组中分别挑选一个低频数据项,将所挑选的三个低频数据项组成一个新的数据项,将新的数据项保存到空闲存储空间中;
2.2、在第一预选数据项组、第二预选数据项组和第三预选数据项组中分别删除在步骤2.1中所挑选的一个低频数据项;
2.3、确定第一预选数据项组、第二预选数据项组和第三预选数据项组是否均包括低频数据项?如果是,则进行步骤2.1;如果否,则结束。
2.根据权利要求1所述的方法,还包括:
当用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时,或当接收到在大数据存储系统内进行失衡预警检测的请求时,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配阈值的至少一个选定的临时数据项,将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求;
在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件。
3.根据权利要求1-2中任意一项所述的方法,其中,当位于大数据存储系统外部的数据管理设备需要在大数据存储系统内进行失衡预警检测时,所述数据管理设备向所述大数据存储系统发送用于在大数据存储系统内进行失衡预警检测的请求;
其中将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备包括:
以所述大数据存储系统接收到用于在大数据存储系统内进行失衡预警检测的请求的时刻开始或者在用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满的时刻开始,将所述大数据存储系统随后从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备;
其中所述新的数据访问请求包括查询条件和查询条件的描述信息,所述临时数据项集合中包括多个临时数据项,并且每个临时数据项具有摘要信息,所述摘要信息用于概括地介绍临时数据项的内容;
其中由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度包括:
由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息进行基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配以确定每个临时数据项与所述查询条件的内容匹配度;
其中所述匹配度阈值为60%,并且内容匹配度的范围为[0%,100%];
其中在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求之后还包括:向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息,并且所述响应消息中携带用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的信息,其中在所述缓冲区中按照新的数据访问请求的被保存的时间长度来确定新的数据访问请求在所述缓冲区中的当前排队顺序,并且在当前排队顺序中按照被保存的时间长度的降序顺序对新的数据访问请求进行排序。
4.根据权利要求1-3中任意一项所述的方法,其中在每个存储设备的系统数据区域中保存运行日志文件;
其中当前的统计时间区间为大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;
或者,当前的统计时间区间为用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;
其中预定数量的自然日为10个自然日、20个自然日或30个自然日;
其中循环计时器的计时周期为1200小时、1500小时或1800小时,并且每当循环计时器期满时,所述循环计时器开始下一次计时;
其中基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息包括:
基于当前的统计时间区间对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在当前的统计时间区间内的多个日志记录;
按照数据项对每个存储设备在当前的统计时间区间内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息;
由每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息;
其中每个日志记录包括:数据项的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;
其中每个数据项具有摘要信息,所述摘要信息用于概括地介绍数据项的内容。
5.根据权利要求1-4中任意一项所述的方法,
根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件包括:
对每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息进行统计以确定每个数据项的被访问次数;
将每个数据项的经过统计的访问信息中第一次被访问的访问起始时间确定为统计起始时间,将每个数据项的经过统计的访问信息中最后一次被访问的访问结束时间确定为统计结束时间;
基于每个数据项的经过统计的访问信息确定每个数据项的存储尺寸;
根据每个存储设备的存储信息区域中的存储信息文件来确定每个数据项在存储设备中的存储起始时间。
6.一种用于避免大数据存储系统进入访问失衡状态的系统,所述系统包括:
统计单元,基于当前的统计时间区间和大数据存储系统内多个存储设备中每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件;其中所述访问信息统计文件包括数据项统计表,所述数据项统计表包括多个数据项记录,其中每个数据项记录的内容为6元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、存储起始时间>;
计算单元,对每个存储设备的访问信息统计文件进行解析,将当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值Lthreshod的数据项确定为低频数据项,确定每个存储设备所包括的低频数据项的低频项数量;将多个存储设备中低频项数量大于低频设备阈值的存储设备确定为低频存储设备并确定大数据存储系统中低频存储设备的数量;
基于每个低频存储设备的访问信息统计文件,确定每个低频存储设备的每个低频数据项的存储尺寸和被访问次数并且确定每个低频存储设备的低频数据项的低频项数量,基于每个低频存储设备的访问信息统计文件确定每个低频存储设备各自的所有数据项的总被访问次数;根据每个低频存储设备的标识符和大数据存储系统的系统记录设备中的设备描述信息确定每个低频存储设备各自的总存储容量,和根据大数据存储系统的系统记录设备中的设备描述信息确定大数据存储系统中所有存储设备的总数量,
计算大数据存储系统内低频存储设备的平衡系数:
其中α>0,β>0,χ>0并且α+β+χ=1
其中,DLB是大数据存储系统内低频存储设备的平衡系数;
LTNi为第i个低频存储设备的低频数据项的低频项数量,LDN为大数据存储系统中低频存储设备的数量;LTSij为第i个低频存储设备内第j个低频数据项的存储尺寸,LSi为第i个低频存储设备的所有低频数据项的总存储尺寸,LCi为第i个低频存储设备的总存储容量,
LTAij为第i个低频存储设备内第j个低频数据项的被访问次数,LAi为第i个低频存储设备的所有低频数据项的总被访问次数,LTi第i个低频存储设备的所有数据项的总被访问次数;
Dtotal为大数据存储系统中所有存储设备的总数量;
其中i为自然数,LDN≥i≥1并且j为自然数,LTNi≥j≥1,其中LDN≥100,并且LTNi≥100;
当大数据存储系统内低频存储设备的平衡系数大于平衡预警阈值时,确定每个低频存储设备中所有数据项的平均被访问次数Lavgi,计算每个低频存储设备的平均被访问次数Lavgi与低频次数阈值Lthreshod的比值Ri
其中LDN≥i≥1,
分类单元,将大数据存储系统内所有低频存储设备中Ri大于1.2的低频存储设备确定为选定组合的低频存储设备,将大数据存储系统内所有低频存储设备中Ri小于或等于1.2的低频存储设备确定为多元组合的低频存储设备,
处理单元,针对于多个选定组合的低频存储设备中的每个选定组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:
将所有数据项中被访问次数大于低频次数阈值Lthreshod×1.5的数据项确定为待选数据项以获得多个待选数据项并由多个待选数据项构成待选数据项集合,确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项,按照被访问次数的升序顺序将多个低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项,
1.1、基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的匹配度;
1.2、将所有待选数据项中与当前低频数据项的匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到空闲存储空间中;
1.3、从所述待选数据项集合中删除与当前低频数据项的匹配度最大的待选数据项;
1.4、确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行1.5;如果不存在,则结束;
1.5、将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行1.1;
处理单元针对于多个多元组合的低频存储设备中的每个多元组合的低频存储设备进行处理,以避免大数据存储系统进入访问失衡状态:
确定所有数据项中被访问次数小于低频次数阈值Lthreshod的多个低频数据项并且确定低频数据项的低频项数量Z,按照被访问次数的升序顺序将所有低频数据项进行排序以生成第二排序列表,从第二排序列表中排序为第1位的低频数据项开始并且按照升序顺序从第二排序列表中选择Y个低频数据项,其中Y MOD 3=0,并且0≤Z-Y<3;
按照低频数据项的被访问次数将所述Y个低频数据项分成第一预选数据项组、第二预选数据项组和第三预选数据项组,其中第一预选数据项组、第二预选数据项组和第三预选数据项组所包括的低频数据项的数量均相同,并且第一预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第二预选数据项组中任意低频数据项的被访问次数,第二预选数据项组中被访问次数最少的低频数据项的被访问次数大于或等于第三预选数据项组中任意低频数据项的被访问次数;
2.1、从第一预选数据项组、第二预选数据项组和第三预选数据项组中分别挑选一个低频数据项,将所挑选的三个低频数据项组成一个新的数据项,将新的数据项保存到空闲存储空间中;
2.2、在第一预选数据项组、第二预选数据项组和第三预选数据项组中分别删除在2.1中所挑选的一个低频数据项;
2.3、确定第一预选数据项组、第二预选数据项组和第三预选数据项组是否均包括低频数据项?如果是,则进行2.1;如果否,则结束。
7.根据权利要求6所述的系统,还包括预处理单元,当用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时,或当接收到在大数据存储系统内进行失衡预警检测的请求时,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配阈值的至少一个选定的临时数据项,将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求;
在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件。
8.根据权利要求6-7中任意一项所述的系统,其中,当位于大数据存储系统外部的数据管理设备需要在大数据存储系统内进行失衡预警检测时,所述数据管理设备向所述大数据存储系统发送用于在大数据存储系统内进行失衡预警检测的请求;
其中将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备包括:
以所述大数据存储系统接收到用于在大数据存储系统内进行失衡预警检测的请求的时刻开始或者在用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满的时刻开始,将所述大数据存储系统随后从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备;
其中所述新的数据访问请求包括查询条件和查询条件的描述信息,所述临时数据项集合中包括多个临时数据项,并且每个临时数据项具有摘要信息,所述摘要信息用于概括地介绍临时数据项的内容;
其中由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度包括:
由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息进行基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配以确定每个临时数据项与所述查询条件的内容匹配度;
其中所述匹配度阈值为60%,并且内容匹配度的范围为[0%,100%];
其中在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求之后还包括:向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息,并且所述响应消息中携带用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的信息,其中在所述缓冲区中按照新的数据访问请求的被保存的时间长度来确定新的数据访问请求在所述缓冲区中的当前排队顺序,并且在当前排队顺序中按照被保存的时间长度的降序顺序对新的数据访问请求进行排序。
9.根据权利要求6-8中任意一项所述的系统,其中在每个存储设备的系统数据区域中保存运行日志文件;
其中当前的统计时间区间为大数据存储系统接收到在大数据存储系统内进行失衡预警检测的请求时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;
或者,当前的统计时间区间为用于指示在大数据存储系统内进行失衡预警检测的循环计时器期满时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;
其中预定数量的自然日为10个自然日、20个自然日或30个自然日;
其中循环计时器的计时周期为1200小时、1500小时或1800小时,并且每当循环计时器期满时,所述循环计时器开始下一次计时;
其中统计单元基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息包括:
统计单元基于当前的统计时间区间对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在当前的统计时间区间内的多个日志记录;
统计单元按照数据项对每个存储设备在当前的统计时间区间内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息;
统计单元由每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息;
其中每个日志记录包括:数据项的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;
其中每个数据项具有摘要信息,所述摘要信息用于概括地介绍数据项的内容。
10.根据权利要求6-9中任意一项所述的系统,
统计单元根据每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件包括:
统计单元对每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息进行统计以确定每个数据项的被访问次数;
统计单元将每个数据项的经过统计的访问信息中第一次被访问的访问起始时间确定为统计起始时间,将每个数据项的经过统计的访问信息中最后一次被访问的访问结束时间确定为统计结束时间;
统计单元基于每个数据项的经过统计的访问信息确定每个数据项的存储尺寸;
统计单元根据每个存储设备的存储信息区域中的存储信息文件来确定每个数据项在存储设备中的存储起始时间。
CN201811006479.4A 2018-08-30 2018-08-30 用于避免大数据存储系统进入访问失衡状态的方法及系统 Active CN109240988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811006479.4A CN109240988B (zh) 2018-08-30 2018-08-30 用于避免大数据存储系统进入访问失衡状态的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811006479.4A CN109240988B (zh) 2018-08-30 2018-08-30 用于避免大数据存储系统进入访问失衡状态的方法及系统

Publications (2)

Publication Number Publication Date
CN109240988A true CN109240988A (zh) 2019-01-18
CN109240988B CN109240988B (zh) 2023-08-15

Family

ID=65067952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811006479.4A Active CN109240988B (zh) 2018-08-30 2018-08-30 用于避免大数据存储系统进入访问失衡状态的方法及系统

Country Status (1)

Country Link
CN (1) CN109240988B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117234434A (zh) * 2023-11-14 2023-12-15 苏州元脑智能科技有限公司 存储设备的操作控制方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106775461A (zh) * 2016-11-30 2017-05-31 华为技术有限公司 热点数据确定方法、设备及装置
CN107783720A (zh) * 2016-08-24 2018-03-09 深圳市深信服电子科技有限公司 一种数据均衡方法及存储设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783720A (zh) * 2016-08-24 2018-03-09 深圳市深信服电子科技有限公司 一种数据均衡方法及存储设备
CN106775461A (zh) * 2016-11-30 2017-05-31 华为技术有限公司 热点数据确定方法、设备及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117234434A (zh) * 2023-11-14 2023-12-15 苏州元脑智能科技有限公司 存储设备的操作控制方法及装置
CN117234434B (zh) * 2023-11-14 2024-02-20 苏州元脑智能科技有限公司 存储设备的操作控制方法及装置

Also Published As

Publication number Publication date
CN109240988B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN109033462A (zh) 在大数据存储的存储设备中确定低频数据项的方法及系统
CN100590620C (zh) 用于使记录在分区之间移动的系统和方法
CN104486129B (zh) 分布式环境下保障应用服务质量的方法及系统
CN104035925B (zh) 数据存储方法、装置和存储系统
CN101937474A (zh) 海量数据查询方法及设备
US9692817B2 (en) System and method for flexible holding storage during messaging
CN101068341B (zh) 流媒体调度系统及其媒体文件调度方法
CN106095575B (zh) 一种日志审计的装置、系统和方法
CN112947860B (zh) 一种分布式数据副本的分级存储与调度方法
CN103838659A (zh) 一种系统日志的控制方法和装置
CN107835437A (zh) 基于多缓存服务器的调度方法和装置
CN110109931B (zh) 一种用于防止rac实例间数据访问发生冲突的方法及系统
CN109271104A (zh) 一种用于确定大数据存储系统的运行状态的方法及系统
CN109271103A (zh) 一种在大数据存储系统中进行数据混合存储的方法及系统
CN109240988A (zh) 用于避免大数据存储系统进入访问失衡状态的方法及系统
US11681680B2 (en) Method, device and computer program product for managing index tables
CN109271101A (zh) 一种用于确定大数据存储系统的数据平衡性的方法及系统
CN109271102A (zh) 识别大数据存储系统中的低访问度存储设备的方法及系统
CN115460124B (zh) 跨机房传输链路优化的方法、装置、设备和存储介质
CN109150819B (zh) 一种攻击识别方法及其识别系统
CN107291777A (zh) 一种热点数据识别和处理的方法和装置
JP4648290B2 (ja) パケット転送装置、パケット分配方法、グループ所属プロセッサ変更方法、およびコンピュータプログラム
CN110517009B (zh) 实时公共层建设方法、装置及服务器
CN111382196B (zh) 分布式账务处理方法及系统
CN110661892B (zh) 一种域名配置信息处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230717

Address after: Unit 1401, No. 171, Tapu East Road, Siming District, Xiamen City, Fujian Province, 361001

Applicant after: Malefeng (Xiamen) Intelligent Technology Co.,Ltd.

Address before: 252659 Shandong province Liaocheng City Linqing City Dai Wan Town, the village of the South Village Health Room

Applicant before: Du Guangxiang

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant