CN109033462B - 在大数据存储的存储设备中确定低频数据项的方法及系统 - Google Patents

在大数据存储的存储设备中确定低频数据项的方法及系统 Download PDF

Info

Publication number
CN109033462B
CN109033462B CN201811006475.6A CN201811006475A CN109033462B CN 109033462 B CN109033462 B CN 109033462B CN 201811006475 A CN201811006475 A CN 201811006475A CN 109033462 B CN109033462 B CN 109033462B
Authority
CN
China
Prior art keywords
data
data item
storage
storage device
low frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811006475.6A
Other languages
English (en)
Other versions
CN109033462A (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Sibeishou Engineering Consulting Co ltd
Original Assignee
Guangzhou Sibeishou Engineering Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Sibeishou Engineering Consulting Co ltd filed Critical Guangzhou Sibeishou Engineering Consulting Co ltd
Priority to CN201811006475.6A priority Critical patent/CN109033462B/zh
Publication of CN109033462A publication Critical patent/CN109033462A/zh
Application granted granted Critical
Publication of CN109033462B publication Critical patent/CN109033462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种在用于大数据存储的存储设备中确定低频数据项的方法及系统,其中方法包括:在确定大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,确定每个存储设备的访问信息统计文件;基于访问信息统计文件确定当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值的多个预选数据项,根据大数据存储系统的系统记录设备中的设备描述信息确定每个存储设备的总存储容量,根据每个存储设备的存储信息区域中的存储信息文件来确定每个存储设备的空闲存储容量,确定每个存储设备中的每个预选数据项的低频系数;将每个存储设备中的多个预选数据项中低频系数小于低频系数阈值的预选数据项确定为低频数据项。

Description

在大数据存储的存储设备中确定低频数据项的方法及系统
技术领域
本发明涉及大数据存储领域和云存储领域,并且更具体地,涉及一种在用于大数据存储的存储设备中确定低频数据项的方法及系统。
背景技术
目前,随着各种类型的信息设备的使用变得越来越频繁,数据量正以几何级数的方式进行爆炸式增加。为了从海量的数据中获取有用信息,必须对海量的数据进行有效存储。大数据存储系统能够满足对对海量数据进行有效存储的需求。然而,在目前的大数据存储系统中,无法对大数据存储系统内的存储设备中的低频数据项进行识别。通常,由于低频数据项在存储设备中逐渐增多,会严重降低存储设备,甚至是大数据存储系统的数据访问效率。
发明内容
根据本发明的一个方面,提供一种在用于大数据存储的存储设备中确定低频数据项的方法,所述方法包括:
响应于接收到在大数据存储系统内用于大数据存储的多个存储设备的每个存储设备中确定低频数据项的请求,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配度阈值的至少一个选定的临时数据项,将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求;
在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件,并且基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据预先设定的访问时间间隔的阈值和每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件,其中访问时间间隔是数据项的相邻的两次被访问之间的一段时间;其中所述访问信息统计文件包括频率统计表,所述频率统计表包括多个频率记录,其中每个频率记录的内容为8元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、大于访问时间间隔的阈值的次数、最大访问时间间隔、最小访问时间间隔>;
基于所述访问信息统计文件确定当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值的多个预选数据项,根据所述大数据存储系统的系统记录设备中的设备描述信息确定每个存储设备的总存储容量,根据每个存储设备的存储信息区域中的存储信息文件来确定每个存储设备的空闲存储容量,根据下面的公式来确定每个存储设备中的每个预选数据项的低频系数:
Figure BDA0001784091080000021
其中DTFi为当前存储设备中第i个预选数据项的低频系数、timax为当前存储设备中第i个预选数据项的多个访问时间间隔中的最大访问时间间隔、timin为当前存储设备中第i个预选数据项的多个访问时间间隔中的最小访问时间间隔、tibegin为当前存储设备中第i个预选数据项的统计起始时间、tiend为当前存储设备中第i个预选数据项的统计结束时间、C为当前存储设备的总存储容量、R是当前存储设备的空闲存储容量、UNi为当前存储设备中第i个预选数据项的多个访问时间间隔中的大于访问时间间隔的阈值的次数、ANi为当前存储设备中第i个预选数据项的被访问次数,其中i为自然数并且PT≥i≥1,PT为当前存储设备中预选数据项的数量并且PT≥100;以及
将每个存储设备中的多个预选数据项中低频系数小于低频系数阈值的预选数据项确定为低频数据项。
其中,当位于大数据存储系统外部的数据管理设备需要在大数据存储系统内的存储设备中确定低频数据项时,所述数据管理设备向所述大数据存储系统发送在大数据存储系统内用于大数据存储的多个存储设备的每个存储设备中确定低频数据项的请求;
其中将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备包括:
以所述大数据存储系统接收到确定低频数据项的请求的时刻开始,将所述大数据存储系统随后从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备;
其中所述新的数据访问请求包括查询条件和查询条件的描述信息,所述临时数据项集合中包括多个临时数据项,并且每个临时数据项具有摘要信息,所述摘要信息用于概括地介绍临时数据项的内容;
其中由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度包括:
由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息进行基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配以确定每个临时数据项与所述查询条件的内容匹配度;
其中所述匹配度阈值为60%,并且内容匹配度的范围为[0%,100%];
其中在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求之后还包括:向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息,并且所述响应消息中携带用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的信息,其中在所述缓冲区中按照新的数据访问请求的被保存的时间长度来确定新的数据访问请求在所述缓冲区中的当前排队顺序,并且在当前排队顺序中按照被保存的时间长度的降序顺序对新的数据访问请求进行排序。
其中在每个存储设备的系统数据区域中保存各自的运行日志文件;
其中当前的统计时间区间为大数据存储系统接收到确定低频数据项的请求时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;其中预定数量的自然日为10个自然日、20个自然日或30个自然日;
其中基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息包括:
基于当前的统计时间区间对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在当前的统计时间区间内的多个日志记录;
按照数据项对每个存储设备在当前的统计时间区间内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息;
由每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息;
其中每个日志记录包括:数据项的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;
其中每个数据项具有摘要信息,所述摘要信息用于概括地介绍数据项的内容。
其中所述预先设定的访问时间间隔的阈值为5分钟、10分钟、15分钟或20分钟。
根据预先设定的访问时间间隔的阈值和每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件包括:
对每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息进行统计以确定每个数据项的被访问次数和所有访问时间间隔;
基于每个数据项的所有访问时间间隔确定每个数据项的大于访问时间间隔的阈值的次数、最大访问时间间隔和最小访问时间间隔;
将每个数据项的经过统计的访问信息中第一次被访问的访问起始时间确定为统计起始时间,将每个数据项的经过统计的访问信息中最后一次被访问的访问结束时间确定为统计结束时间;
基于每个数据项的经过统计的访问信息确定每个数据项的存储尺寸。
所述低频次数阈值为100、150或200;
所述系统记录设备中的设备描述信息包括:大数据存储系统所包括的所有存储设备的总数量、每个存储设备的总存储容量、每个存储设备的网络地址和/或每个存储设备加入所述大数据存储系统的时间;
每个存储设备的存储信息区域中的存储信息文件包括:数据项的总数量、每个数据项的存储尺寸、每个数据项的起始存储时间、每个数据项的标识符、每个数据项的摘要信息以及每个存储设备的空闲存储容量;
所述低频系数阈值为120、160或220。
在将每个存储设备中的多个预选数据项中低频系数小于低频系数阈值的预选数据项确定为低频数据项之后,还包括:
将每个存储设备的所有数据项中被访问次数大于低频次数阈值的2倍的数据项确定为待选数据项以获得多个待选数据项,并由多个待选数据项构成各自的待选数据项集合,将每个存储设备中低频系数小于低频系数阈值的多个低频数据项构成各自的低频数据项集合;
针对于多个存储设备中的当前的存储设备:
在当前的存储设备的低频数据项集合中的低频数据项的数量小于或等于当前的存储设备的待选数据项集合中的待选数据项的数量时,按照被访问次数的升序顺序将低频数据项集合中的所有低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项,
6.1、基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的内容匹配度;
6.2、将待选数据项集合的所有待选数据项中与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到当前的存储设备的空闲存储空间中;
6.3、从所述待选数据项集合中删除与当前低频数据项的内容匹配度最大的待选数据项;
6.4、确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行步骤6.5;如果不存在,则结束;
6.5、将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行步骤6.1;
或者,在当前的存储设备的低频数据项集合中的低频数据项的数量大于当前的存储设备的待选数据项集合中的待选数据项的数量时,将当前的存储设备的低频数据项集合中的所有低频数据项进行分组以生成多个低频数据项组,使得所述多个低频数据项组中的每个低频数据项组内所有低频数据项的总被访问次数大于低频次数阈值的1.5倍,并确定每个低频数据项组内所有低频数据项的平均被访问次数,其中每个低频数据项组的平均被访问次数之间的差值的绝对值小于20。
在将每个存储设备中的多个预选数据项中低频系数小于低频系数阈值的预选数据项确定为低频数据项之后,还包括:
根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作;
在确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求的情况下,对所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求进行解析以获新的查询条件;
在所述大数据存储系统的目录存储服务器中确定所述新的查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备;
将所述新的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述新的查询条件的至少一个数据项;
将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述新的数据访问请求所指示的数据请求方。
8、根据权利要求7所述的方法,其中根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作包括:
8.1、根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序确定当前处理的数据访问请求,其中所述当前处理的数据访问请求是缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求;
8.2、对当前处理的数据访问请求进行解析以获取当前处理的查询条件;
8.3、在所述大数据存储系统的目录存储服务器中确定所述当前处理的查询条件所涉及的多个数据项,并确定多个数据项所涉及的大数据存储系统中的至少一个目标存储设备;
8.4、将所述当前处理的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述当前处理的查询条件的至少一个数据项;
8.5、将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述当前处理的数据访问请求所指示的数据请求方;
8.6、将缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求删除;
8.7、确定系统缓冲设备的缓冲区中是否具有被保存的任何数据访问请求,如果是,则进行步骤8.1;如果否,则确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。
根据本发明的另一方面,提供一种在用于大数据存储的存储设备中确定低频数据项的系统,所述系统包括:
预处理单元,响应于接收到在大数据存储系统内用于大数据存储的多个存储设备的每个存储设备中确定低频数据项的请求,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配度阈值的至少一个选定的临时数据项,将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求;
统计单元,在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件,并且基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据预先设定的访问时间间隔的阈值和每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件,其中访问时间间隔是数据项的相邻的两次被访问之间的一段时间;其中所述访问信息统计文件包括频率统计表,所述频率统计表包括多个频率记录,其中每个频率记录的内容为8元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、大于访问时间间隔的阈值的次数、最大访问时间间隔、最小访问时间间隔>;
计算单元,基于所述访问信息统计文件确定当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值的多个预选数据项,根据所述大数据存储系统的系统记录设备中的设备描述信息确定每个存储设备的总存储容量,根据每个存储设备的存储信息区域中的存储信息文件来确定每个存储设备的空闲存储容量,根据下面的公式来确定每个存储设备中的每个预选数据项的低频系数:
Figure BDA0001784091080000061
其中DTFi为当前存储设备中第i个预选数据项的低频系数、timax为当前存储设备中第i个预选数据项的多个访问时间间隔中的最大访问时间间隔、timin为当前存储设备中第i个预选数据项的多个访问时间间隔中的最小访问时间间隔、tibegin为当前存储设备中第i个预选数据项的统计起始时间、tiend为当前存储设备中第i个预选数据项的统计结束时间、C为当前存储设备的总存储容量、R是当前存储设备的空闲存储容量、UNi为当前存储设备中第i个预选数据项的多个访问时间间隔中的大于访问时间间隔的阈值的次数、ANi为当前存储设备中第i个预选数据项的被访问次数,其中i为自然数并且PT≥i≥1,PT为当前存储设备中预选数据项的数量并且PT≥100;以及
将每个存储设备中的多个预选数据项中低频系数小于低频系数阈值的预选数据项确定为低频数据项。
其中,当位于大数据存储系统外部的数据管理设备需要在大数据存储系统内的存储设备中确定低频数据项时,所述数据管理设备向所述大数据存储系统发送在大数据存储系统内用于大数据存储的多个存储设备的每个存储设备中确定低频数据项的请求;
其中预处理单元将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备包括:
预处理单元以所述大数据存储系统接收到确定低频数据项的请求的时刻开始,将所述大数据存储系统随后从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备;
其中所述新的数据访问请求包括查询条件和查询条件的描述信息,所述临时数据项集合中包括多个临时数据项,并且每个临时数据项具有摘要信息,所述摘要信息用于概括地介绍临时数据项的内容;
其中预处理单元由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度包括:
预处理单元由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息进行基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配以确定每个临时数据项与所述查询条件的内容匹配度;
其中所述匹配度阈值为60%,并且内容匹配度的范围为[0%,100%];
其中预处理单元向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息,并且所述响应消息中携带用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的信息,其中在所述缓冲区中按照新的数据访问请求的被保存的时间长度来确定新的数据访问请求在所述缓冲区中的当前排队顺序,并且在当前排队顺序中按照被保存的时间长度的降序顺序对新的数据访问请求进行排序。
其中在每个存储设备的系统数据区域中保存运行日志文件;
其中当前的统计时间区间为大数据存储系统接收到确定低频数据项的请求时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;其中预定数量的自然日为10个自然日、20个自然日或30个自然日;
其中统计单元基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息包括:
统计单元基于当前的统计时间区间对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在当前的统计时间区间内的多个日志记录;
统计单元按照数据项对每个存储设备在当前的统计时间区间内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息;
统计单元将每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息;
其中每个日志记录包括:数据项的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;
其中每个数据项具有摘要信息,所述摘要信息用于概括地介绍数据项的内容。
其中所述预先设定的访问时间间隔的阈值为5分钟、10分钟、15分钟或20分钟。
统计单元根据预先设定的访问时间间隔的阈值和每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件包括:
统计单元对每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息进行统计以确定每个数据项的被访问次数和所有访问时间间隔;
统计单元基于每个数据项的所有访问时间间隔确定每个数据项的大于访问时间间隔的阈值的次数、最大访问时间间隔和最小访问时间间隔;
统计单元将每个数据项的经过统计的访问信息中第一次被访问的访问起始时间确定为统计起始时间,将每个数据项的经过统计的访问信息中最后一次被访问的访问结束时间确定为统计结束时间;
统计单元基于每个数据项的经过统计的访问信息确定每个数据项的存储尺寸。
所述低频次数阈值为100、150或200;
所述系统记录设备中的设备描述信息包括:大数据存储系统所包括的存储设备的总数量、每个存储设备的总存储容量、每个存储设备的网络地址或每个存储设备加入所述大数据存储系统的时间;
每个存储设备的存储信息区域中的存储信息文件包括:数据项的总数量、每个数据项的存储尺寸、每个数据项的起始存储时间、每个数据项的标识符、每个数据项的摘要信息以及每个存储设备的空闲存储容量;
所述低频系数阈值为120、160或220。
还包括调整单元,用于将每个存储设备的所有数据项中被访问次数大于低频次数阈值的2倍的数据项确定为待选数据项以获得多个待选数据项,并由多个待选数据项构成待选数据项集合,将每个存储设备的所有数据项中低频系数小于低频系数阈值的多个低频数据项构成低频数据项集合;
针对于多个存储设备中的当前的存储设备:
当当前的存储设备的低频数据项集合中的低频数据项的数量小于或等于待选数据项集合中的待选数据项的数量时,按照被访问次数的升序顺序将低频数据项集合中的所有低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项,
14.1、基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的内容匹配度;
14.2、将待选数据项集合的所有待选数据项中与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到当前的存储设备的空闲存储空间中;
14.3、从所述待选数据项集合中删除与当前低频数据项的内容匹配度最大的待选数据项;
14.4、确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行14.5;如果不存在,则结束;
14.5、将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行14.1;
或者,当低频数据项集合中的低频数据项的数量大于待选数据项集合中的待选数据项的数量时,将低频数据项集合中的所有低频数据项进行分组以生成多个低频数据项组,使得所述多个低频数据项组中的每个低频数据项组内所有低频数据项的总被访问次数大于低频次数阈值的1.5倍,并确定每个低频数据项组内所有低频数据项的平均被访问次数,其中每个低频数据项组的平均被访问次数之间的差值的绝对值小于20。
所述预处理单元根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作;
在确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求的情况下,对所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求进行解析以获新的查询条件;
在所述大数据存储系统的目录存储服务器中确定所述新的查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备;
将所述新的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述新的查询条件的至少一个数据项;
将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述新的数据访问请求所指示的数据请求方。
其中预处理单元根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作包括:
16.1、根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序确定当前处理的数据访问请求,其中所述当前处理的数据访问请求是缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求;
16.2、对当前处理的数据访问请求进行解析以获取当前处理的查询条件;
16.3、在所述大数据存储系统的目录存储服务器中确定所述当前处理的查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备;
16.4、将所述当前处理的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述当前处理的查询条件的至少一个数据项;
16.5、将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述当前处理的数据访问请求所指示的数据请求方;
16.6、将缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求删除;
16.7、确定系统缓冲设备的缓冲区中是否具有被保存的任何数据访问请求,如果是,则进行16.1;如果否,则确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明实施方式的在用于大数据存储的存储设备中确定低频数据项的方法的流程图;
图2为根据本发明实施方式的多个访问信息统计文件的示意图;以及
图3为根据本发明实施方式的在用于大数据存储的存储设备中确定低频数据项的系统的结构示意图。
具体实施方式
图1为根据本发明实施方式的在用于大数据存储的存储设备中确定低频数据项的方法100的流程图。
在步骤101,响应于接收到在大数据存储系统内用于大数据存储的多个存储设备的每个存储设备中确定低频数据项的请求,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配度阈值的至少一个选定的临时数据项,将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求。
当位于大数据存储系统外部的数据管理设备需要在大数据存储系统内的存储设备中确定低频数据项时,所述数据管理设备向所述大数据存储系统发送在大数据存储系统内用于大数据存储的多个存储设备的每个存储设备中确定低频数据项的请求。位于大数据存储系统外部的数据管理设备可以由大数据存储系统的维护人员、管理人员或运营人员进行操作或控制。例如,大数据存储系统的维护人员、管理人员或运营人员可以周期性地或根据实际运行情况来触发对低频数据项的识别或确定。大数据存储系统中包括多个存储设备,并且每个存储设备能够存储多个数据项.每个存储设备的存储容量可以是任意的合理数值。每个数据项可以是各种类型的数据文件,例如文本类型、音频类型、视频类型等的数据文件。其中低频数据项例如是指在特定时间内的被访问次数低于大数据存储系统的所有数据项的平均被访问次数,或低于存储设备的所有数据项的平均被访问次数等的数据项。
其中将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备包括:
以所述大数据存储系统接收到确定低频数据项的请求的时刻开始,将所述大数据存储系统随后从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备;
其中所述新的数据访问请求包括查询条件和查询条件的描述信息,所述临时数据项集合中包括多个临时数据项,并且每个临时数据项具有摘要信息,所述摘要信息用于概括地介绍临时数据项的内容。
在所述大数据存储系统接收到在大数据存储系统内用于大数据存储的多个存储设备的每个存储设备中确定低频数据项的请求的时刻开始,可能会接收到多个新的数据访问请求。此时,促使将大数据存储系统随后从一个或多个任意的数据请求方所接收的所有新的数据访问请求全部重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备。通常,大数据存储系统会根据新的数据访问请求所包括的查询条件在所述大数据存储系统的目录存储服务器中确定查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备。将所述当前处理的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述当前处理的查询条件的至少一个数据项。而为了进行低频数据项的识别或确定时,大数据存储系统将所有新的数据访问请求全部重定向到所述大数据存储系统的系统缓冲设备。其中系统缓冲设备位于大数据存储系统内部,并且用于存储包括多个临时数据项的临时数据项集合,或用于对数据访问请求进行缓冲。其中查询条件例如是,移动通信和5G和(上行链路或下行链路)。在这种情况下,查询条件的描述信息例如是,5G移动通信的上行链路或下行链路。临时数据项集合中包括多个临时数据项,并且每个临时数据项可以是各种类型的数据文件,例如文本类型、音频类型、视频类型等的数据文件。每个临时数据项或每个数据项均具有摘要信息并且摘要信息用于概括地介绍临时数据项或数据项的内容。例如,摘要信息为:从0开始C++,使用通俗易懂的介绍让你21天学会C++这门编程语言。
其中由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度包括:
由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息进行基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配以确定每个临时数据项与所述查询条件的内容匹配度。本申请可以使用任何现有的文本比对方式来确定新的数据访问请求所包含的查询条件的描述信息与系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息之间的内容匹配度,其中文本比对方式例如是基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配。其中,每个临时数据项与所述查询条件的内容匹配度可以用于表明每个临时数据项与所述查询条件的相近程度、类似程度、相关程度或关联程度。
其中所述匹配度阈值为55%、60%、65%、70%或任意合理数值,并且内容匹配度的范围为[0%,100%],即内容匹配度可以是从0%到100%之间的任何数值。从多个临时数据项中选择内容匹配度大于匹配度阈值的至少一个选定的临时数据项,即从多个临时数据项中选择内容匹配度大于55%、60%、65%或70%的至少一个选定的临时数据项。将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求。将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方的目的是让数据请求方能够在大数据存储系统暂停数据访问服务的情况下获取与数据访问请求相关的内容,以促使数据请求方可以了解相关内容。
其中在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求之后还包括:向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息,并且所述响应消息中携带用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的信息。其中在所述缓冲区中按照新的数据访问请求的被保存的时间长度来确定新的数据访问请求在所述缓冲区中的当前排队顺序,并且在当前排队顺序中按照被保存的时间长度的降序顺序对新的数据访问请求进行排序。即,被保存的时间长度越长,则新的数据访问请求的当前排队顺序越靠前。优选地,在向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息之后还包括:周期性地向所述新的数据访问请求所指示的数据请求方发送用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的通知消息。
在步骤102,在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件,并且基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据预先设定的访问时间间隔的阈值和每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件,其中访问时间间隔是数据项的相邻的两次被访问之间的一段时间;其中所述访问信息统计文件包括频率统计表,所述频率统计表包括多个频率记录,其中每个频率记录的内容为8元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、大于访问时间间隔的阈值的次数、最大访问时间间隔、最小访问时间间隔>。
其中正在运行的数据访问操作是指存储设备对根据大数据存储系统所发送的查询条件在自身的存储空间内进行数据检索,将通过数据检索所获得的数据项构成数据项集合,将数据项集合通过大数据存储系统传送给数据请求方的操作处理。
其中在每个存储设备的系统数据区域中保存运行日志文件。其中运行日志文件包括多个日志记录,其中每个日志记录包括:数据项的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间。其中数据项的标识符可以是数据项的名称、数据项的唯一标识、数据项的编码等能够唯一识别数据项的信息。访问起始时间是指当前日志记录所涉及的数据项被访问的起始时间。访问结束时间是指当前日志记录所涉及的数据项被访问的结束时间。例如,当对存储设备中的数据项进行访问时可能会涉及读取、修改等操作,访问起始时间和访问结束时间用于表示本次操作的起始时间和结束时间。存储尺寸是数据项在存储设备中的存储尺寸。存储起始时间是数据项在存储设备或大数据存储系统中开始存储的起始时间,即,数据项被保存到存储设备或大数据存储系统中以提供访问服务的起始时间。在本申请中,访问包括读取和/或修改。
其中当前的统计时间区间为大数据存储系统接收到确定低频数据项的请求时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;其中预定数量的自然日为10个自然日、20个自然日或30个自然日。例如,大数据存储系统接收到确定低频数据项的请求的时间为2018年8月11日11:25:36,则大数据存储系统接收到确定低频数据项的请求时所处的当前日期为2018年8月11日。大数据存储系统接收到确定低频数据项的请求时所处的当前日期的前一日为2018年8月10日。当前的统计时间区间为大数据存储系统接收到确定低频数据项的请求时所处的当前日期的前一日开始并且向前预定数量(例如,10个自然数)的自然日的一段时间,即当前的统计时间区间为2018年8月1日00:00:00至2018年8月10日23:59:59。
其中基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息包括:
基于当前的统计时间区间对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在当前的统计时间区间内的多个日志记录;
按照数据项对每个存储设备在当前的统计时间区间内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息;
由每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息。
例如,当前的统计时间区间为2018年8月1日00:00:00至2018年8月10日23:59:59,即10个自然日,则基于2018年8月1日00:00:00至2018年8月10日23:59:59对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在2018年8月1日00:00:00至2018年8月10日23:59:59内的所有日志记录。按照数据项(例如,数据项的标识符)对每个存储设备在2018年8月1日00:00:00至2018年8月10日23:59:59内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息。每个数据项的经过统计的访问信息例如是每个数据项在当前的统计时间区间内的所有的被访问信息。将每个存储设备内每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息。
其中每个数据项具有摘要信息,所述摘要信息用于概括地介绍数据项的内容。例如,摘要信息为:从0开始C++,使用通俗易懂的介绍让你21天学会C++这门编程语言。
其中访问时间间隔是数据项的相邻的两次被访问之间的一段时间,例如,当前的被访问的访问结束时间到下一次的被访问的访问起始时间之间的一段时间。其中所述预先设定的访问时间间隔的阈值为5分钟、10分钟、15分钟、20分钟或任意合理数值。通常,在当前的统计时间区间(或统计时间区间)内,数据项A被访问了5次并且每次被访问的时间均为30秒,那么数据项A当前的统计时间区间(或统计时间区间)具有4个访问时间间隔。
根据预先设定的访问时间间隔的阈值和每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件包括:
对每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息进行统计以确定每个数据项的被访问次数和所有访问时间间隔;
基于每个数据项的所有访问时间间隔确定每个数据项的大于访问时间间隔的阈值的次数、最大访问时间间隔和最小访问时间间隔;
将每个数据项的经过统计的访问信息中第一次被访问的访问起始时间确定为统计起始时间,将每个数据项的经过统计的访问信息中最后一次被访问的访问结束时间确定为统计结束时间;
基于每个数据项的经过统计的访问信息确定每个数据项的存储尺寸。
由于每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息包括多个日志记录,并且每个日志记录代表数据项被访问了1次,从而通过日志记录的数量来确定每个数据项的(总的)被访问次数。此外,将多个日志记录按照访问起始时间或访问结束时间进行排序,能够获得每个日志记录之间的访问时间间隔,从而确定所有访问时间间隔。进一步地,通过对预先设定的访问时间间隔的阈值和所有访问时间间隔进行比对能够确定每个数据项的大于访问时间间隔的阈值的次数,并且通过对所有访问时间间隔进行统计能够确定每个数据项的最大访问时间间隔和最小访问时间间隔。
例如,当前的统计时间区间为2018年8月1日00:00:00至2018年8月10日23:59:59,数据项A在当前的统计时间区间内的第一次被访问的访问起始时间为2018年8月1日09:02:11,访问结束时间2018年8月1日09:05:36,并且数据项A在当前的统计时间区间内的最后一次被访问的访问起始时间为2018年8月10日22:26:53,访问结束时间2018年8月10日22:27:39,则数据项A在当前的统计时间区间内的统计起始时间为2018年8月1日09:02:11,并且统计结束时间为2018年8月10日22:27:39。
此外,根据经过统计的访问信息中任意的日志记录中的存储尺寸来确定每个数据项的存储尺寸。
在步骤103,基于所述访问信息统计文件确定当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值的多个预选数据项,根据所述大数据存储系统的系统记录设备中的设备描述信息确定每个存储设备的总存储容量,根据每个存储设备的存储信息区域中的存储信息文件来确定每个存储设备的空闲存储容量,根据下面的公式来确定每个存储设备中的每个预选数据项的低频系数:
Figure BDA0001784091080000141
其中DTFi为当前存储设备中第i个预选数据项的低频系数、timax为当前存储设备中第i个预选数据项的多个访问时间间隔中的最大访问时间间隔、timin为当前存储设备中第i个预选数据项的多个访问时间间隔中的最小访问时间间隔、tibegin为当前存储设备中第i个预选数据项的统计起始时间、tiend为当前存储设备中第i个预选数据项的统计结束时间、C为当前存储设备的总存储容量、R是当前存储设备的空闲存储容量、UNi为当前存储设备中第i个预选数据项的多个访问时间间隔中的大于访问时间间隔的阈值的次数、ANi为当前存储设备中第i个预选数据项的被访问次数,其中i为自然数,PT为自然数并且PT≥i≥1,PT为当前存储设备中预选数据项的数量并且PT≥100。
其中,低频次数阈值为100、150、175、200或任意合理数值。所述系统记录设备中的设备描述信息包括:大数据存储系统所包括的存储设备的总数量、每个存储设备的总存储容量、每个存储设备的网络地址或每个存储设备加入所述大数据存储系统的时间。大数据存储系统所包括的存储设备的总数量是大数据存储系统中所有存储设备的总数量。每个存储设备的总存储容量是每个存储设备的存储空间的总容量、或可以是每个存储设备的可以用于存储数据项的存储空间的总容量。每个存储设备的网络地址例如是IP地址、MAC地址等。每个存储设备加入所述大数据存储系统的时间是指每个存储设备加入所述大数据存储系统以作为所述大数据存储系统中的存储设备来存储数据项的起始时间。
每个存储设备的存储信息区域中的存储信息文件包括:数据项的总数量、每个数据项的存储尺寸、每个数据项的起始存储时间、每个数据项的标识符、每个数据项的摘要信息以及每个存储设备的空闲存储容量。数据项的总数量是指每个存储设备中所有数据项的总数量。每个数据项的存储尺寸是指每个数据项在存储设备中进行存储时的存储尺寸或所占用的存储空间。每个数据项的起始存储时间是指每个数据项在所归属的存储设备中开始存储的时间,例如,数据项被复制到存储设备中的时间。每个数据项的标识符可以是数据项的名称、数据项的唯一标识、数据项的编码等能够唯一识别数据项的信息。每个数据项的摘要信息用于概括地介绍临时数据项或数据项的内容。例如,摘要信息为:从0开始C++,使用通俗易懂的介绍让你21天学会C++这门编程语言。每个存储设备的空闲存储容量是指每个存储设备中能够存储新的数据项的空闲存储容量或剩余存储容量。其中低频系数阈值为90、100、120、130、150、160、170、220等任意合理数值。
在步骤104,将每个存储设备中的多个预选数据项中低频系数小于低频系数阈值的预选数据项确定为低频数据项。即,本申请通过上述步骤,在大数据存储系统中用于大数据存储的每个存储设备中确定或识别低频数据项。
在将每个存储设备中的多个预选数据项中低频系数小于低频系数阈值的预选数据项确定为低频数据项之后,还包括:
将每个存储设备的所有数据项中被访问次数大于低频次数阈值的2倍的数据项确定为待选数据项以获得多个待选数据项,并由多个待选数据项构成待选数据项集合,将每个存储设备中低频系数小于低频系数阈值的多个低频数据项构成低频数据项集合。例如,当低频次数阈值为100时,则将每个存储设备的所有数据项中被访问次数大于200(100×2)的数据项确定为待选数据项以获得多个待选数据项。例如,当低频系数阈值为120时,则将每个存储设备中低频系数小于120的多个低频数据项构成低频数据项集合,即将每个存储设备中的所有低频数据项构成低频数据项集合。
当在当前的存储设备的低频数据项集合中的低频数据项的数量小于或等于在当前的存储设备的待选数据项集合中的待选数据项的数量时,按照被访问次数的升序顺序将低频数据项集合中的所有低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项。例如,当低频数据项集合中的低频数据项的数量(例如,326)小于待选数据项集合中的待选数据项的数量(例如,827)时,按照被访问次数的升序顺序(增多的顺序)将低频数据项集合中的所有低频数据项进行排序以生成第一排序列表。在第一排序列表中,排序靠前的数据项的被访问次数越少,并且排序靠后的数据项的被访问次数越多。将第一排序列表中排序为第1位的低频数据项(即,被访问次数最少的数据项或低频数据项)作为当前低频数据项。
6.1、基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的内容匹配度。本申请可以使用任何现有的文本比对方式来确定当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息之间的内容匹配度,其中文本比对方式例如是基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配。其中,每个待选数据项与当前低频数据项的内容匹配度可以用于表明每个待选数据项与所述当前低频数据项的相近程度、类似程度、相关程度或关联程度。
6.2、将待选数据项集合的所有待选数据项中与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到当前的存储设备的空闲存储空间中。将待选数据项集合的所有待选数据项中与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项进行数据项组合是指将与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项构成文件组,并且将与当前低频数据项的内容匹配度最大的待选数据项的摘要信息和当前低频数据项的摘要信息进行合并以构成文件组的摘要信息。将所构成的文件组作为一个新的数据项,并且将新的数据项保存到当前的存储设备的空闲存储空间中,即没有存储数据项的存储空间中。
6.3、从所述待选数据项集合中删除与当前低频数据项的内容匹配度最大的待选数据项。在将新的数据项(所构成的文件组)保存到当前的存储设备的空闲存储空间中之后,从所述待选数据项集合中删除与当前低频数据项的内容匹配度最大的待选数据项。此外,从当前的存储设备中将与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项删除(这是因为与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项所构成的文件组已经被保存到当前的存储设备的空闲存储空间中)。
6.4、确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行步骤6.5;如果不存在,则结束。确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项的含义是确定所述第一排序列表中是否存在被访问次数高于当前低频数据项并且与所述当前低频数据项在第一排序列表中相邻的低频数据项。如,在当前低频数据项为排序为第1位的低频数据项时,则排序在当前低频数据项后1位的低频数据项为排序为第2位的低频数据项,即第一排序列表中被访问次数第二最少的低频数据项或数据项。如果存在,则进行步骤6.5,如果不存在,则结束上述过程。
6.5、将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行步骤6.1。例如,将第一排序列表中排序为第2位的低频数据项选择作为当前低频数据项后进行步骤6.1,依次类推,将第一排序列表中排序为第3位、第4位、第5位、...、直至最后1位的低频数据项选择作为当前低频数据项为止。
或者,在当前的存储设备的低频数据项集合中的低频数据项的数量大于在当前的存储设备的待选数据项集合中的待选数据项的数量时,将在当前的存储设备的低频数据项集合中的所有低频数据项进行分组以生成多个低频数据项组,使得所述多个低频数据项组中的每个低频数据项组内所有低频数据项的总被访问次数大于低频次数阈值的1.5倍。确定每个低频数据项组内所有低频数据项的平均被访问次数。优选地,其中多个低频数据项组中任意两个低频数据项组的平均被访问次数之间的差值的绝对值小于20、30、40、50、60、70等任意合理数值。
例如,当低频数据项集合中的低频数据项的数量(例如,569)大于待选数据项集合中的待选数据项的数量(例如,516)时,将低频数据项集合中的569个低频数据项进行分组以生成多个低频数据项组。其中,本申请根据低频数据项集合中的低频数据项的数量K和分组参数Z来确定对低频数据项进行分组的分组数量G,其中
Figure BDA0001784091080000171
Z等于3、4、5等任意合理数值。当Z等于5时,
Figure BDA0001784091080000172
即将569个低频数据项分为113个低频数据项组。
附加地,多个低频数据项组中的每个低频数据项组内所有低频数据项的总被访问次数大于低频次数阈值的1.1倍、1.2倍、1.3倍、1.5倍或任意合理数值。确定每个低频数据项组内所有低频数据项的平均被访问次数,即每个低频数据项组的平均被访问次数。例如,低频数据项组包括低频数据项1-5,并且低频数据项1-5的被访问次数分别是95、76、110、82和102,则低频数据项组内所有低频数据项的平均被访问次数为93。其中多个低频数据项组中任意两个低频数据项组的平均被访问次数之间的差值的绝对值小于20、30、40、50、60、70等任意合理数值。
在将每个存储设备中的多个预选数据项中低频系数小于低频系数阈值的预选数据项确定为低频数据项之后,还包括:
根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作。例如,系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序为:第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求,则根据第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作。
在确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求的情况下,对所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求进行解析以获新的查询条件。例如,当在确定系统缓冲设备的缓冲区中的第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求均已经被处理,因此系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。随后,对所述大数据存储系统从数据请求方所接收的第六数据访问请求进行解析以获新的查询条件。其中新的查询条件例如是,移动通信和5G和(上行链路或下行链路)。
在所述大数据存储系统的目录存储服务器中确定所述新的查询条件所涉及的多个数据项,并确定多个数据项所涉及的大数据存储系统中的至少一个目标存储设备。其中,目录存储服务器用于存储大数据存储系统内所有数据项的目录信息。例如,目录信息为数据项的标识符、数据项的摘要信息、数据项的元数据信息、数据项的关键字信息、数据项所位于的存储设备等。目录存储服务器根据查询条件或新的查询条件对存储大数据存储系统内所有数据项进行查询,例如,在数据项的摘要信息、数据项的元数据信息和/或数据项的关键字信息中利用新的查询条件(例如,移动通信和5G和(上行链路或下行链路))进行查询,以确定所述新的查询条件所涉及的多个数据项。根据目录信息确定每个数据项所位于、所存储于或所涉及的存储设备,由此确定多个数据项所涉及的至少一个目标存储设备。在特殊情况下,多个数据项可能位于同一目标存储设备中。
将所述新的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述新的查询条件的至少一个数据项。每个目标存储设备根据所述新的查询条件在自身所存储的所有数据项中进行检索,以获得至少一个数据项,并且将所获得的至少一个数据项发送给大数据存储系统的接口设备。优选地,本申请的大数据存储系统中不存在冗余的数据项,即每个数据项均是唯一的。其中,接口设备用于从数据请求方接收数据访问请求,并且接口设备用于将数据项集合或目标数据项集合发送给相应的数据请求方。
将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述新的数据访问请求所指示的数据请求方。接口设备将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且接口设备将所述目标数据项集合发送给所述新的数据访问请求所指示的数据请求方。
其中根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作包括:
8.1、根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序确定当前处理的数据访问请求,其中所述当前处理的数据访问请求是缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求。如上所述,例如,系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序为:第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求,则根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序确定当前处理的数据访问请求为第一数据访问请求。
8.2、对当前处理的数据访问请求进行解析以获取当前处理的查询条件。其中数据访问请求或当前处理的数据访问请求包括查询条件,因此对当前处理的数据访问请求进行解析能够获取当前处理的查询条件。其中当前处理的查询条件例如是,移动通信和5G和(上行链路或下行链路)。
8.3、在所述大数据存储系统的目录存储服务器中确定所述当前处理的查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备。其中,目录存储服务器用于存储大数据存储系统内所有数据项的目录信息。例如,目录信息为数据项的标识符、数据项的摘要信息、数据项的元数据信息、数据项的关键字信息、数据项所位于的存储设备等。目录存储服务器根据当前处理的查询条件对存储大数据存储系统内所有数据项进行查询,例如,在数据项的摘要信息、数据项的元数据信息和/或数据项的关键字信息中利用当前处理的查询条件(例如,移动通信和5G和(上行链路或下行链路))进行查询,以确定所述新的查询条件所涉及的多个数据项。根据目录信息确定每个数据项所位于、所存储于或所涉及的存储设备,由此确定多个数据项所涉及的至少一个目标存储设备。在特殊情况下,多个数据项可能位于同一目标存储设备中。
8.4、将所述当前处理的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述当前处理的查询条件的至少一个数据项。每个目标存储设备根据所述当前处理的查询条件在自身所存储的所有数据项中进行检索,以获得至少一个数据项,并且将所获得的至少一个数据项发送给大数据存储系统的接口设备。优选地,本申请的大数据存储系统中不存在冗余的数据项,即每个数据项均是唯一的。其中,接口设备用于从数据请求方接收数据访问请求,并且接口设备用于将数据项集合或目标数据项集合发送给相应的数据请求方。
8.5、将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述当前处理的数据访问请求所指示的数据请求方。接口设备将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且接口设备将所述目标数据项集合发送给所述新的数据访问请求所指示的数据请求方。
8.6、将缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求删除。例如,将缓冲区中多个数据访问请求的当前排队顺序中的第一数据访问请求删除。
8.7、确定系统缓冲设备的缓冲区中是否具有被保存的任何数据访问请求,如果是,则进行步骤8.1;如果否,则确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。
例如,系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序为:第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求,并且当将缓冲区中多个数据访问请求的当前排队顺序中的第一数据访问请求删除后,则确定系统缓冲设备的缓冲区中具有被保存的任何数据访问请求,即第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求,则进行步骤801。
当将缓冲区中多个数据访问请求的当前排队顺序中的第五据访问请求删除后,则确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求,即第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求均完成了数据访问操作,则确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。即在确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求的情况下,对所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求进行解析以获新的查询条件,并进行相应处理。
在本申请中,如果存在不同的数据项或低频数据项的被访问次数相同,并且需要从数据项或低频数据项选择一个作为当前的数据项或当前的低频数据项时,从被访问次数相同的不同的数据项或低频数据项中随机进行选择。
图2为根据本发明实施方式的多个访问信息统计文件200的示意图。本申请在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件,并且基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据预先设定的访问时间间隔的阈值和每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件,其中访问时间间隔是数据项的相邻的两次被访问之间的一段时间。如图2所示,由于每个存储设备均具有各自的访问信息统计文件,因此存在多个访问信息统计文件200。访问信息统计文件包括频率统计表201,所述频率统计表201包括多个频率记录(序号为1、2、3、4、5、6、…),其中每个频率记录的内容为8元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、大于访问时间间隔的阈值的次数、最大访问时间间隔、最小访问时间间隔>。
如图2所示,访问信息统计文件1包括频率统计表201。频率统计表201中包括多个频率记录。频率统计表201中仅示出了6个频率记录,其中数据项的标识符分别为PPT入门、大数据系统介绍、太极张三丰、从0开始C++、美国旅游手册、三亚旅游攻略。例如,PPT入门和大数据系统介绍为PPT文件,太极张三丰和从0开始C++为视频文件,美国旅游手册和三亚旅游攻略为PDF文件。并且,在频率统计表201中示出了每个数据项的被访问次数、统计起始时间、统计结束时间、存储尺寸、大于访问时间间隔的阈值的次数、最大访问时间间隔和最小访问时间间隔。
图3为根据本发明实施方式的在用于大数据存储的存储设备中确定低频数据项的系统300的结构示意图。系统300包括:预处理单元301、统计单元302、计算单元303、确定单元304和调整单元305。
预处理单元301响应于接收到在大数据存储系统内用于大数据存储的多个存储设备的每个存储设备中确定低频数据项的请求,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配度阈值的至少一个选定的临时数据项,将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求。
当位于大数据存储系统外部的数据管理设备需要在大数据存储系统内的存储设备中确定低频数据项时,所述数据管理设备向所述大数据存储系统发送在大数据存储系统内用于大数据存储的多个存储设备的每个存储设备中确定低频数据项的请求。位于大数据存储系统外部的数据管理设备可以由大数据存储系统的维护人员、管理人员或运营人员进行操作或控制。例如,大数据存储系统的维护人员、管理人员或运营人员可以周期性地或根据实际运行情况来触发对低频数据项的识别或确定。大数据存储系统中包括多个存储设备,并且每个存储设备能够存储多个数据项.每个存储设备的存储容量可以是任意的合理数值。每个数据项可以是各种类型的数据文件,例如文本类型、音频类型、视频类型等的数据文件。其中低频数据项是指在特定时间内的被访问次数低于大数据存储系统的所有数据项的平均被访问次数,或低于存储设备的所有数据项的平均被访问次数等的数据项。
其中将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备包括:
以所述大数据存储系统接收到确定低频数据项的请求的时刻开始,将所述大数据存储系统随后从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备;
其中所述新的数据访问请求包括查询条件和查询条件的描述信息,所述临时数据项集合中包括多个临时数据项,并且每个临时数据项具有摘要信息,所述摘要信息用于概括地介绍临时数据项的内容。
在所述大数据存储系统接收到在大数据存储系统内用于大数据存储的多个存储设备的每个存储设备中确定低频数据项的请求的时刻开始,可能会接收到多个新的数据访问请求。此时,促使将大数据存储系统随后从一个或多个任意的数据请求方所接收的所有新的数据访问请求全部重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备。通常,大数据存储系统会根据新的数据访问请求所包括的查询条件在所述大数据存储系统的目录存储服务器中确定查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备。将所述当前处理的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述当前处理的查询条件的至少一个数据项。而为了进行低频数据项的识别或确定时,大数据存储系统将所有新的数据访问请求全部重定向到所述大数据存储系统的系统缓冲设备。其中系统缓冲设备位于大数据存储系统内部,并且用于存储包括多个临时数据项的临时数据项集合,或用于对数据访问请求进行缓冲。其中查询条件例如是,移动通信和5G和(上行链路或下行链路)。在这种情况下,查询条件的描述信息例如是,5G移动通信的上行链路或下行链路。临时数据项集合中包括多个临时数据项,并且每个临时数据项可以是各种类型的数据文件,例如文本类型、音频类型、视频类型等的数据文件。每个临时数据项或每个数据项均具有摘要信息并且摘要信息用于概括地介绍临时数据项或数据项的内容。例如,摘要信息为:从0开始C++,使用通俗易懂的介绍让你21天学会C++这门编程语言。
其中由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度包括:
由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息进行基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配以确定每个临时数据项与所述查询条件的内容匹配度。本申请可以使用任何现有的文本比对方式来确定新的数据访问请求所包含的查询条件的描述信息与系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息之间的内容匹配度,其中文本比对方式例如是基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配。其中,每个临时数据项与所述查询条件的内容匹配度可以用于表明每个临时数据项与所述查询条件的相近程度、类似程度、相关程度或关联程度。
其中所述匹配度阈值为55%、60%、65%、70%或任意合理数值,并且内容匹配度的范围为[0%,100%],即内容匹配度可以是从0%到100%之间的任何数值。从多个临时数据项中选择内容匹配度大于匹配度阈值的至少一个选定的临时数据项,即从多个临时数据项中选择内容匹配度大于55%、60%、65%或70%的至少一个选定的临时数据项。将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求。将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方的目的是让数据请求方能够在大数据存储系统暂停数据访问服务的情况下获取与数据访问请求相关的内容,以促使数据请求方可以了解相关内容。
其中在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求之后还包括:向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息,并且所述响应消息中携带用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的信息。其中在所述缓冲区中按照新的数据访问请求的被保存的时间长度来确定新的数据访问请求在所述缓冲区中的当前排队顺序,并且在当前排队顺序中按照被保存的时间长度的降序顺序对新的数据访问请求进行排序。即,被保存的时间长度越长,则新的数据访问请求的当前排队顺序越靠前。优选地,在向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息之后还包括:周期性地向所述新的数据访问请求所指示的数据请求方发送用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的通知消息。
统计单元302,在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件,并且基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据预先设定的访问时间间隔的阈值和每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件,其中访问时间间隔是数据项的相邻的两次被访问之间的一段时间;其中所述访问信息统计文件包括频率统计表,所述频率统计表包括多个频率记录,其中每个频率记录的内容为8元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、大于访问时间间隔的阈值的次数、最大访问时间间隔、最小访问时间间隔>。
其中正在运行的数据访问操作是指存储设备对根据大数据存储系统所发送的查询条件在自身的存储空间内进行数据检索,将通过数据检索所获得的数据项构成数据项集合,将数据项集合通过大数据存储系统传送给数据请求方的操作处理。
其中在每个存储设备的系统数据区域中保存运行日志文件。其中运行日志文件包括多个日志记录,其中每个日志记录包括:数据项的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间。其中数据项的标识符可以是数据项的名称、数据项的唯一标识、数据项的编码等能够唯一识别数据项的信息。访问起始时间是指当前日志记录所涉及的数据项被访问的起始时间。访问结束时间是指当前日志记录所涉及的数据项被访问的结束时间。例如,当对存储设备中的数据项进行访问时可能会涉及读取、修改等操作,访问起始时间和访问结束时间用于表示本次操作的起始时间和结束时间。存储尺寸是数据项在存储设备中的存储尺寸。存储起始时间是数据项在存储设备或大数据存储系统中开始存储的起始时间,即,数据项被保存到存储设备或大数据存储系统中以提供访问服务的起始时间。在本申请中,访问包括读取和/或修改。
其中当前的统计时间区间为大数据存储系统接收到确定低频数据项的请求时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;其中预定数量的自然日为10个自然日、20个自然日或30个自然日。例如,大数据存储系统接收到确定低频数据项的请求的时间为2018年8月11日11:25:36,则大数据存储系统接收到确定低频数据项的请求时所处的当前日期为2018年8月11日。大数据存储系统接收到确定低频数据项的请求时所处的当前日期的前一日为2018年8月10日。当前的统计时间区间为大数据存储系统接收到确定低频数据项的请求时所处的当前日期的前一日开始并且向前预定数量(例如,10个自然数)的自然日的一段时间,即当前的统计时间区间为2018年8月1日00:00:00至2018年8月10日23:59:59。
其中基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息包括:
基于当前的统计时间区间对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在当前的统计时间区间内的多个日志记录;
按照数据项对每个存储设备在当前的统计时间区间内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息;
由每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息。
例如,当前的统计时间区间为2018年8月1日00:00:00至2018年8月10日23:59:59,即10个自然日,则基于2018年8月1日00:00:00至2018年8月10日23:59:59对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在2018年8月1日00:00:00至2018年8月10日23:59:59内的所有日志记录。按照数据项(例如,数据项的标识符)对每个存储设备在2018年8月1日00:00:00至2018年8月10日23:59:59内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息。每个数据项的经过统计的访问信息例如是每个数据项在当前的统计时间区间内的所有的被访问信息。将每个存储设备内每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息。
其中每个数据项具有摘要信息,所述摘要信息用于概括地介绍数据项的内容。例如,摘要信息为:从0开始C++,使用通俗易懂的介绍让你21天学会C++这门编程语言。
其中访问时间间隔是数据项的相邻的两次被访问之间的一段时间,例如,当前的被访问的访问结束时间到下一次的被访问的访问起始时间之间的一段时间。其中所述预先设定的访问时间间隔的阈值为5分钟、10分钟、15分钟、20分钟或任意合理数值。通常,在当前的统计时间区间(或统计时间区间)内,数据项A被访问了5次并且每次被访问的时间均为30秒,那么数据项A当前的统计时间区间(或统计时间区间)具有4个访问时间间隔。
根据预先设定的访问时间间隔的阈值和每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件包括:
对每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息进行统计以确定每个数据项的被访问次数和所有访问时间间隔;
基于每个数据项的所有访问时间间隔确定每个数据项的大于访问时间间隔的阈值的次数、最大访问时间间隔和最小访问时间间隔;
将每个数据项的经过统计的访问信息中第一次被访问的访问起始时间确定为统计起始时间,将每个数据项的经过统计的访问信息中最后一次被访问的访问结束时间确定为统计结束时间;
基于每个数据项的经过统计的访问信息确定每个数据项的存储尺寸。
由于每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息包括多个日志记录,并且每个日志记录代表数据项被访问了1次,从而通过日志记录的数量来确定每个数据项的(总的)被访问次数。此外,将多个日志记录按照访问起始时间或访问结束时间进行排序,能够获得每个日志记录之间的访问时间间隔,从而确定所有访问时间间隔。进一步地,通过对预先设定的访问时间间隔的阈值和所有访问时间间隔进行比对能够确定每个数据项的大于访问时间间隔的阈值的次数,并且通过对所有访问时间间隔进行统计能够确定每个数据项的最大访问时间间隔和最小访问时间间隔。
例如,当前的统计时间区间为2018年8月1日00:00:00至2018年8月10日23:59:59,数据项A在当前的统计时间区间内的第一次被访问的访问起始时间为2018年8月1日09:02:11,访问结束时间2018年8月1日09:05:36,并且数据项A在当前的统计时间区间内的最后一次被访问的访问起始时间为2018年8月10日22:26:53,访问结束时间2018年8月10日22:27:39,则数据项A在当前的统计时间区间内的统计起始时间为2018年8月1日09:02:11,并且统计结束时间为2018年8月10日22:27:39。
此外,根据经过统计的访问信息中任意的日志记录中的存储尺寸来确定每个数据项的存储尺寸。
计算单元303,基于所述访问信息统计文件确定当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值的多个预选数据项,根据所述大数据存储系统的系统记录设备中的设备描述信息确定每个存储设备的总存储容量,根据每个存储设备的存储信息区域中的存储信息文件来确定每个存储设备的空闲存储容量,根据下面的公式来确定每个存储设备中的每个预选数据项的低频系数:
Figure BDA0001784091080000241
其中DTFi为当前存储设备中第i个预选数据项的低频系数、timax为当前存储设备中第i个预选数据项的多个访问时间间隔中的最大访问时间间隔、timin为当前存储设备中第i个预选数据项的多个访问时间间隔中的最小访问时间间隔、tibegin为当前存储设备中第i个预选数据项的统计起始时间、tiend为当前存储设备中第i个预选数据项的统计结束时间、C为当前存储设备的总存储容量、R是当前存储设备的空闲存储容量、UNi为当前存储设备中第i个预选数据项的多个访问时间间隔中的大于访问时间间隔的阈值的次数、ANi为当前存储设备中第i个预选数据项的被访问次数,其中i为自然数,PT为自然数并且PT≥i≥1,PT为当前存储设备中预选数据项的数量并且PT≥100。
其中,低频次数阈值为100、150、175、200或任意合理数值。所述系统记录设备中的设备描述信息包括:大数据存储系统所包括的存储设备的总数量、每个存储设备的总存储容量、每个存储设备的网络地址或每个存储设备加入所述大数据存储系统的时间。大数据存储系统所包括的存储设备的总数量是大数据存储系统中所有存储设备的总数量。每个存储设备的总存储容量是每个存储设备的存储空间的总容量、或可以是每个存储设备的可以用于存储数据项的存储空间的总容量。每个存储设备的网络地址例如是IP地址、MAC地址等。每个存储设备加入所述大数据存储系统的时间是指每个存储设备加入所述大数据存储系统以作为所述大数据存储系统中的存储设备来存储数据项的起始时间。
每个存储设备的存储信息区域中的存储信息文件包括:数据项的总数量、每个数据项的存储尺寸、每个数据项的起始存储时间、每个数据项的标识符、每个数据项的摘要信息以及每个存储设备的空闲存储容量。数据项的总数量是指每个存储设备中所有数据项的总数量。每个数据项的存储尺寸是指每个数据项在存储设备中进行存储时的存储尺寸或所占用的存储空间。每个数据项的起始存储时间是指每个数据项在所归属的存储设备中开始存储的时间,例如,数据项被复制到存储设备中的时间。每个数据项的标识符可以是数据项的名称、数据项的唯一标识、数据项的编码等能够唯一识别数据项的信息。每个数据项的摘要信息用于概括地介绍临时数据项或数据项的内容。例如,摘要信息为:从0开始C++,使用通俗易懂的介绍让你21天学会C++这门编程语言。每个存储设备的空闲存储容量是指每个存储设备中能够存储新的数据项的空闲存储容量或剩余存储容量。其中低频系数阈值为90、100、120、130、150、160、170、220等任意合理数值。
确定单元304将每个存储设备中的多个预选数据项中低频系数小于低频系数阈值的预选数据项确定为低频数据项。即,本申请通过上述步骤,在大数据存储系统中用于大数据存储的每个存储设备中确定或识别低频数据项。
在将每个存储设备中的多个预选数据项中低频系数小于低频系数阈值的预选数据项确定为低频数据项之后,还包括使用调整单元305将每个存储设备的所有数据项中被访问次数大于低频次数阈值的2倍的数据项确定为待选数据项以获得多个待选数据项,并由多个待选数据项构成待选数据项集合,将每个存储设备中低频系数小于低频系数阈值的多个低频数据项构成低频数据项集合。例如,当低频次数阈值为100时,则将每个存储设备的所有数据项中被访问次数大于100×2的数据项确定为待选数据项以获得多个待选数据项。例如,当低频系数阈值为120时,则将每个存储设备中低频系数小于120的多个低频数据项构成低频数据项集合,即将每个存储设备中的所有低频数据项构成低频数据项集合。
当低频数据项集合中的低频数据项的数量小于或等于待选数据项集合中的待选数据项的数量时,按照被访问次数的升序顺序将低频数据项集合中的所有低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项。例如,当低频数据项集合中的低频数据项的数量(例如,326)小于待选数据项集合中的待选数据项的数量(例如,827)时,按照被访问次数的升序顺序(增多的顺序)将低频数据项集合中的所有低频数据项进行排序以生成第一排序列表。在第一排序列表中,排序靠前的数据项的被访问次数越少,并且排序靠后的数据项的被访问次数越多。将第一排序列表中排序为第1位的低频数据项(即,被访问次数最少的数据项或低频数据项)作为当前低频数据项。
6.1、基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的内容匹配度。本申请可以使用任何现有的文本比对方式来确定当前低频数据项的摘要信息与与待选数据项集合中每个待选数据项的摘要信息之间的内容匹配度,其中文本比对方式例如是基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配。其中,每个待选数据项与当前低频数据项的内容匹配度可以用于表明每个每个待选数据项与所述当前低频数据项的相近程度、类似程度、相关程度或关联程度。
6.2、将待选数据项集合的所有待选数据项中与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到存储设备的空闲存储空间中。将待选数据项集合的所有待选数据项中与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项进行数据项组合是指将与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项构成文件组,并且将与当前低频数据项的内容匹配度最大的待选数据项的摘要信息和当前低频数据项的摘要信息进行合并以构成文件组的摘要信息。将所构成的文件组作为一个新的数据项,并且将新的数据项保存到存储设备的空闲存储空间中,即没有存储数据项的存储空间中。
6.3、从所述待选数据项集合中删除与当前低频数据项的内容匹配度最大的待选数据项。在将新的数据项(所构成的文件组)保存到存储设备的空闲存储空间中之后,从所述待选数据项集合中删除与当前低频数据项的内容匹配度最大的待选数据项。此外,从存储设备中将与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项删除(这是因为与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项所构成的文件组已经被保存到存储设备的空闲存储空间中)。
6.4、确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行步骤6.5;如果不存在,则结束。确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项的含义是确定确定所述第一排序列表中是否存在被访问次数高于当前低频数据项并且与所述当前低频数据项在第一排序列表中相邻的低频数据项。如,在当前低频数据项为排序为第1位的低频数据项时,则排序在当前低频数据项后1位的低频数据项为排序为第2位的低频数据项,即第一排序列表中被访问次数第二最少的低频数据项或数据项。如果存在,则进行步骤6.5,如果不存在,则结束上述过程。
6.5、将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行步骤6.1。例如,将第一排序列表中排序为第2位的低频数据项选择作为当前低频数据项后进行步骤6.1,依次类推,将第一排序列表中排序为第3位、第4位、第5位、...、直至最后1位的低频数据项选择作为当前低频数据项为止。
或者,当低频数据项集合中的低频数据项的数量大于待选数据项集合中的待选数据项的数量时,将低频数据项集合中的所有低频数据项进行分组以生成多个低频数据项组,使得所述多个低频数据项组中的每个低频数据项组内所有低频数据项的总被访问次数大于低频次数阈值的1.5倍。确定每个低频数据项组内所有低频数据项的平均被访问次数。优选地,其中多个低频数据项组中任意两个低频数据项组的平均被访问次数之间的差值的绝对值小于20、30、40、50、60、70等任意合理数值。
例如,当低频数据项集合中的低频数据项的数量(例如,569)大于待选数据项集合中的待选数据项的数量(例如,516)时,将低频数据项集合中的569个低频数据项进行分组以生成多个低频数据项组。其中,本申请根据低频数据项集合中的低频数据项的数量K和分组参数Z来确定对低频数据项进行分组的分组数量G,其中
Figure BDA0001784091080000261
Z等于3、4、5等任意合理数值。当Z等于5时,
Figure BDA0001784091080000262
即将569个低频数据项分为113个低频数据项组。
附加地,多个低频数据项组中的每个低频数据项组内所有低频数据项的总被访问次数大于低频次数阈值的1.1倍、1.2倍、1.3倍、1.5倍或任意合理数值。确定每个低频数据项组内所有低频数据项的平均被访问次数,即每个低频数据项组的平均被访问次数。例如,低频数据项组包括低频数据项1-5,并且低频数据项1-5的被访问次数分别是95、76、110、82和102,则低频数据项组内所有低频数据项的平均被访问次数为93。其中多个低频数据项组中任意两个低频数据项组的平均被访问次数之间的差值的绝对值小于20、30、40、50、60、70等任意合理数值。
在将每个存储设备中的多个预选数据项中低频系数小于低频系数阈值的预选数据项确定为低频数据项之后,还包括:
根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作。例如,系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序为:第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求,则根据第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作。
在确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求的情况下,对所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求进行解析以获新的查询条件。例如,当在确定系统缓冲设备的缓冲区中的第一数据访问请求、第二数据访问请求、第三数据访问请求、第四数据访问请求和第五数据访问请求均已经被处理,因此系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。随后,对所述大数据存储系统从数据请求方所接收的第六数据访问请求进行解析以获新的查询条件。其中新的查询条件例如是,移动通信和5G和(上行链路或下行链路)。
在所述大数据存储系统的目录存储服务器中确定所述新的查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备。其中,目录存储服务器用于存储大数据存储系统内所有数据项的目录信息。例如,目录信息为数据项的标识符、数据项的摘要信息、数据项的元数据信息、数据项的关键字信息、数据项所位于的存储设备等。目录存储服务器根据查询条件或新的查询条件对存储大数据存储系统内所有数据项进行查询,例如,在数据项的摘要信息、数据项的元数据信息和/或数据项的关键字信息中利用新的查询条件(例如,移动通信和5G和(上行链路或下行链路))进行查询,以确定所述新的查询条件所涉及的多个数据项。根据目录信息确定每个数据项所位于、所存储于或所涉及的存储设备,由此确定多个数据项所涉及的至少一个目标存储设备。在特殊情况下,多个数据项可能位于同一目标存储设备中。
将所述新的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述新的查询条件的至少一个数据项。每个目标存储设备根据所述新的查询条件在自身所存储的所有数据项中进行检索,以获得至少一个数据项,并且将所获得的至少一个数据项发送给大数据存储系统的接口设备。优选地,本申请的大数据存储系统中不存在冗余的数据项,即每个数据项均是唯一的。其中,接口设备用于从数据请求方接收数据访问请求,并且接口设备用于将数据项集合或目标数据项集合发送给相应的数据请求方。
将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述新的数据访问请求所指示的数据请求方。其中根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序对缓冲区中的每个数据访问请求进行数据访问操作包括:
8.1、根据系统缓冲设备的缓冲区中多个数据访问请求的当前排队顺序确定当前处理的数据访问请求,其中所述当前处理的数据访问请求是缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求。
8.2、对当前处理的数据访问请求进行解析以获取当前处理的查询条件。
8.3、在所述大数据存储系统的目录存储服务器中确定所述当前处理的查询条件所涉及的多个数据项,并确定多个数据项所涉及的至少一个目标存储设备。其中,目录存储服务器用于存储大数据存储系统内所有数据项的目录信息。
8.4、将所述当前处理的查询条件发送给每个目标存储设备,并且从每个目标存储设备接收符合所述当前处理的查询条件的至少一个数据项。
8.5、将从每个目标存储设备所接收的所有数据项组成目标数据项集合,并且将所述目标数据项集合发送给所述当前处理的数据访问请求所指示的数据请求方。
8.6、将缓冲区中多个数据访问请求的当前排队顺序中排序第一位的数据访问请求删除。
8.7、确定系统缓冲设备的缓冲区中是否具有被保存的任何数据访问请求,如果是,则进行步骤8.1;如果否,则确定系统缓冲设备的缓冲区中不具有被保存的任何数据访问请求。

Claims (8)

1.一种在用于大数据存储的存储设备中确定低频数据项的方法,所述方法包括:
响应于接收到在大数据存储系统内用于大数据存储的多个存储设备的每个存储设备中确定低频数据项的请求,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配度阈值的至少一个选定的临时数据项,将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求;
在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件,并且基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据预先设定的访问时间间隔的阈值和每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件,其中访问时间间隔是数据项的相邻的两次被访问之间的一段时间;其中所述访问信息统计文件包括频率统计表,所述频率统计表包括多个频率记录,其中每个频率记录的内容为8元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、大于访问时间间隔的阈值的次数、最大访问时间间隔、最小访问时间间隔>;
基于所述访问信息统计文件确定当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值的多个预选数据项,根据所述大数据存储系统的系统记录设备中的设备描述信息确定每个存储设备的总存储容量,根据每个存储设备的存储信息区域中的存储信息文件来确定每个存储设备的空闲存储容量,根据下面的公式来确定每个存储设备中的每个预选数据项的低频系数:
Figure FDA0003729522680000011
其中DTFi为当前存储设备中第i个预选数据项的低频系数、timax为当前存储设备中第i个预选数据项的多个访问时间间隔中的最大访问时间间隔、timin为当前存储设备中第i个预选数据项的多个访问时间间隔中的最小访问时间间隔、tibegin为当前存储设备中第i个预选数据项的统计起始时间、tiend为当前存储设备中第i个预选数据项的统计结束时间、C为当前存储设备的总存储容量、R是当前存储设备的空闲存储容量、UNi为当前存储设备中第i个预选数据项的多个访问时间间隔中的大于访问时间间隔的阈值的次数、ANi为当前存储设备中第i个预选数据项的被访问次数,其中i为自然数并且PT≥i≥1,PT为当前存储设备中预选数据项的数量并且PT≥100;以及
将每个存储设备中的多个预选数据项中低频系数小于低频系数阈值的预选数据项确定为低频数据项;
其中,当位于大数据存储系统外部的数据管理设备需要在大数据存储系统内的存储设备中确定低频数据项时,所述数据管理设备向所述大数据存储系统发送在大数据存储系统内用于大数据存储的多个存储设备的每个存储设备中确定低频数据项的请求;
其中将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备包括:
以所述大数据存储系统接收到确定低频数据项的请求的时刻开始,将所述大数据存储系统随后从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备;
其中所述新的数据访问请求包括查询条件和查询条件的描述信息,所述临时数据项集合中包括多个临时数据项,并且每个临时数据项具有摘要信息,所述摘要信息用于概括地介绍临时数据项的内容;
其中由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度包括:
由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息进行基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配以确定每个临时数据项与所述查询条件的内容匹配度;
其中所述匹配度阈值为60%,并且内容匹配度的范围为[0%,100%];
其中在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求之后还包括:向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息,并且所述响应消息中携带用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的信息,其中在所述缓冲区中按照新的数据访问请求的被保存的时间长度来确定新的数据访问请求在所述缓冲区中的当前排队顺序,并且在当前排队顺序中按照被保存的时间长度的降序顺序对新的数据访问请求进行排序;
在将每个存储设备中的多个预选数据项中低频系数小于低频系数阈值的预选数据项确定为低频数据项之后,还包括:
将每个存储设备的所有数据项中被访问次数大于低频次数阈值的2倍的数据项确定为待选数据项以获得多个待选数据项,并由多个待选数据项构成各自的待选数据项集合,将每个存储设备中低频系数小于低频系数阈值的多个低频数据项构成各自的低频数据项集合;
针对于多个存储设备中的当前的存储设备:
在当前的存储设备的低频数据项集合中的低频数据项的数量小于或等于当前的存储设备的待选数据项集合中的待选数据项的数量时,按照被访问次数的升序顺序将低频数据项集合中的所有低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项,
6.1、基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的内容匹配度;
6.2、将待选数据项集合的所有待选数据项中与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到当前的存储设备的空闲存储空间中;
6.3、从所述待选数据项集合中删除与当前低频数据项的内容匹配度最大的待选数据项;
6.4、确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行步骤6.5;如果不存在,则结束;
6.5、将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行步骤6.1。
2.根据权利要求1所述的方法,其中在每个存储设备的系统数据区域中保存各自的运行日志文件;
其中当前的统计时间区间为大数据存储系统接收到确定低频数据项的请求时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;其中预定数量的自然日为10个自然日、20个自然日或30个自然日;
其中基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息包括:
基于当前的统计时间区间对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在当前的统计时间区间内的多个日志记录;
按照数据项对每个存储设备在当前的统计时间区间内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息;
由每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息;
其中每个日志记录包括:数据项的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;
其中每个数据项具有摘要信息,所述摘要信息用于概括地介绍数据项的内容。
3.根据权利要求1-2中任意一项所述的方法,
其中所述预先设定的访问时间间隔的阈值为5分钟、10分钟、15分钟或20分钟;
根据预先设定的访问时间间隔的阈值和每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件包括:
对每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息进行统计以确定每个数据项的被访问次数和所有访问时间间隔;
基于每个数据项的所有访问时间间隔确定每个数据项的大于访问时间间隔的阈值的次数、最大访问时间间隔和最小访问时间间隔;
将每个数据项的经过统计的访问信息中第一次被访问的访问起始时间确定为统计起始时间,将每个数据项的经过统计的访问信息中最后一次被访问的访问结束时间确定为统计结束时间;
基于每个数据项的经过统计的访问信息确定每个数据项的存储尺寸。
4.根据权利要求1-2中任意一项所述的方法,
所述低频次数阈值为100、150或200;
所述系统记录设备中的设备描述信息包括:大数据存储系统所包括的所有存储设备的总数量、每个存储设备的总存储容量、每个存储设备的网络地址和/或每个存储设备加入所述大数据存储系统的时间;
每个存储设备的存储信息区域中的存储信息文件包括:数据项的总数量、每个数据项的存储尺寸、每个数据项的起始存储时间、每个数据项的标识符、每个数据项的摘要信息以及每个存储设备的空闲存储容量;
所述低频系数阈值为120、160或220。
5.一种在用于大数据存储的存储设备中确定低频数据项的系统,所述系统包括:
预处理单元,响应于接收到在大数据存储系统内用于大数据存储的多个存储设备的每个存储设备中确定低频数据项的请求,将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备,以由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度,从多个临时数据项中选择内容匹配度大于匹配度阈值的至少一个选定的临时数据项,将所选择的至少一个选定的临时数据项发送给所述新的数据访问请求所指示的数据请求方,并且在所述系统缓冲设备的缓冲区内保存所述新的数据访问请求;
统计单元,在确定所述大数据存储系统内的所有存储设备中均没有正在运行的数据访问操作时,获取所述大数据存储系统内多个存储设备中每个存储设备的运行日志文件,并且基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息,根据预先设定的访问时间间隔的阈值和每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件,其中访问时间间隔是数据项的相邻的两次被访问之间的一段时间;其中所述访问信息统计文件包括频率统计表,所述频率统计表包括多个频率记录,其中每个频率记录的内容为8元组<数据项的标识符、被访问次数、统计起始时间、统计结束时间、存储尺寸、大于访问时间间隔的阈值的次数、最大访问时间间隔、最小访问时间间隔>;
计算单元,基于所述访问信息统计文件确定当前的统计时间区间内每个存储设备的所有数据项中被访问次数小于低频次数阈值的多个预选数据项,根据所述大数据存储系统的系统记录设备中的设备描述信息确定每个存储设备的总存储容量,根据每个存储设备的存储信息区域中的存储信息文件来确定每个存储设备的空闲存储容量,根据下面的公式来确定每个存储设备中的每个预选数据项的低频系数:
Figure FDA0003729522680000051
其中DTFi为当前存储设备中第i个预选数据项的低频系数、timax为当前存储设备中第i个预选数据项的多个访问时间间隔中的最大访问时间间隔、timin为当前存储设备中第i个预选数据项的多个访问时间间隔中的最小访问时间间隔、tibegin为当前存储设备中第i个预选数据项的统计起始时间、tiend为当前存储设备中第i个预选数据项的统计结束时间、C为当前存储设备的总存储容量、R是当前存储设备的空闲存储容量、UNi为当前存储设备中第i个预选数据项的多个访问时间间隔中的大于访问时间间隔的阈值的次数、ANi为当前存储设备中第i个预选数据项的被访问次数,其中i为自然数并且PT≥i≥1,PT为当前存储设备中预选数据项的数量并且PT≥100;以及
将每个存储设备中的多个预选数据项中低频系数小于低频系数阈值的预选数据项确定为低频数据项;
其中,当位于大数据存储系统外部的数据管理设备需要在大数据存储系统内的存储设备中确定低频数据项时,所述数据管理设备向所述大数据存储系统发送在大数据存储系统内用于大数据存储的多个存储设备的每个存储设备中确定低频数据项的请求;
其中预处理单元将所述大数据存储系统从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备包括:
预处理单元以所述大数据存储系统接收到确定低频数据项的请求的时刻开始,将所述大数据存储系统随后从任意的数据请求方所接收的新的数据访问请求重定向到所述大数据存储系统的系统缓冲设备而不将所接收的新的数据访问请求发送给多个存储设备中的相应的存储设备;
其中所述新的数据访问请求包括查询条件和查询条件的描述信息,所述临时数据项集合中包括多个临时数据项,并且每个临时数据项具有摘要信息,所述摘要信息用于概括地介绍临时数据项的内容;
其中预处理单元由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项进行内容匹配以确定每个临时数据项的内容匹配度包括:
预处理单元由所述系统缓冲设备将新的数据访问请求所包含的查询条件的描述信息与所述系统缓冲设备的临时数据项集合中的每个临时数据项的摘要信息进行基于语义内容比对的内容匹配、基于关键字比对的内容匹配或基于语义内容和关键字相结合的内容匹配以确定每个临时数据项与所述查询条件的内容匹配度;
其中所述匹配度阈值为60%,并且内容匹配度的范围为[0%,100%];
其中预处理单元向所述新的数据访问请求所指示的数据请求方发送用于表明所述大数据存储系统暂停数据访问和所述新的数据访问请求已经被保存到所述系统缓冲设备的缓冲区中的响应消息,并且所述响应消息中携带用于表明来自数据请求方的新的数据访问请求在所述缓冲区中的当前排队顺序的信息,其中在所述缓冲区中按照新的数据访问请求的被保存的时间长度来确定新的数据访问请求在所述缓冲区中的当前排队顺序,并且在当前排队顺序中按照被保存的时间长度的降序顺序对新的数据访问请求进行排序;
还包括调整单元,用于将每个存储设备的所有数据项中被访问次数大于低频次数阈值的2倍的数据项确定为待选数据项以获得多个待选数据项,并由多个待选数据项构成待选数据项集合,将每个存储设备的所有数据项中低频系数小于低频系数阈值的多个低频数据项构成低频数据项集合;
针对于多个存储设备中的当前的存储设备:
当当前的存储设备的低频数据项集合中的低频数据项的数量小于或等于待选数据项集合中的待选数据项的数量时,按照被访问次数的升序顺序将低频数据项集合中的所有低频数据项进行排序以生成第一排序列表,将第一排序列表中排序为第1位的低频数据项作为当前低频数据项,
14.1、基于当前低频数据项的摘要信息与待选数据项集合中每个待选数据项的摘要信息进行内容匹配,以确定当前低频数据项与每个待选数据项的内容匹配度;
14.2、将待选数据项集合的所有待选数据项中与当前低频数据项的内容匹配度最大的待选数据项和当前低频数据项进行数据项组合,以形成一个新的数据项,将新的数据项保存到当前的存储设备的空闲存储空间中;
14.3、从所述待选数据项集合中删除与当前低频数据项的内容匹配度最大的待选数据项;
14.4、确定所述第一排序列表中是否存在排序在当前低频数据项后1位的低频数据项,如果存在,则进行14.5;如果不存在,则结束;
14.5、将所述第一排序列表中排序在当前低频数据项后1位的低频数据项选择作为当前低频数据项,进行14.1。
6.根据权利要求5所述的系统,其中在每个存储设备的系统数据区域中保存运行日志文件;
其中当前的统计时间区间为大数据存储系统接收到确定低频数据项的请求时所处的当前日期的前一日开始并且向前预定数量的自然日的一段时间;其中预定数量的自然日为10个自然日、20个自然日或30个自然日;
其中统计单元基于当前的统计时间区间和每个存储设备的运行日志文件确定每个存储设备中存储的多个数据项的经过统计的访问信息包括:
统计单元基于当前的统计时间区间对每个存储设备的运行日志文件中的所有日志记录进行选取以获得每个存储设备在当前的统计时间区间内的多个日志记录;
统计单元按照数据项对每个存储设备在当前的统计时间区间内的多个日志记录进行分类,以获得每个数据项的经过统计的访问信息;
统计单元将每个数据项的经过统计的访问信息构成每个存储设备中存储的多个数据项的经过统计的访问信息;
其中每个日志记录包括:数据项的标识符、访问起始时间、访问结束时间、存储尺寸和存储起始时间;
其中每个数据项具有摘要信息,所述摘要信息用于概括地介绍数据项的内容。
7.根据权利要求5-6中任意一项所述的系统,
其中所述预先设定的访问时间间隔的阈值为5分钟、10分钟、15分钟或20分钟;
统计单元根据预先设定的访问时间间隔的阈值和每个存储设备中存储的多个数据项的经过统计的访问信息确定每个存储设备的访问信息统计文件包括:
统计单元对每个存储设备中存储的多个数据项中每个数据项的经过统计的访问信息进行统计以确定每个数据项的被访问次数和所有访问时间间隔;
统计单元基于每个数据项的所有访问时间间隔确定每个数据项的大于访问时间间隔的阈值的次数、最大访问时间间隔和最小访问时间间隔;
统计单元将每个数据项的经过统计的访问信息中第一次被访问的访问起始时间确定为统计起始时间,将每个数据项的经过统计的访问信息中最后一次被访问的访问结束时间确定为统计结束时间;
统计单元基于每个数据项的经过统计的访问信息确定每个数据项的存储尺寸。
8.根据权利要求5-6中任意一项所述的系统,
所述低频次数阈值为100、150或200;
所述系统记录设备中的设备描述信息包括:大数据存储系统所包括的存储设备的总数量、每个存储设备的总存储容量、每个存储设备的网络地址或每个存储设备加入所述大数据存储系统的时间;
每个存储设备的存储信息区域中的存储信息文件包括:数据项的总数量、每个数据项的存储尺寸、每个数据项的起始存储时间、每个数据项的标识符、每个数据项的摘要信息以及每个存储设备的空闲存储容量;
所述低频系数阈值为120、160或220。
CN201811006475.6A 2018-08-30 2018-08-30 在大数据存储的存储设备中确定低频数据项的方法及系统 Active CN109033462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811006475.6A CN109033462B (zh) 2018-08-30 2018-08-30 在大数据存储的存储设备中确定低频数据项的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811006475.6A CN109033462B (zh) 2018-08-30 2018-08-30 在大数据存储的存储设备中确定低频数据项的方法及系统

Publications (2)

Publication Number Publication Date
CN109033462A CN109033462A (zh) 2018-12-18
CN109033462B true CN109033462B (zh) 2023-04-28

Family

ID=64626509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811006475.6A Active CN109033462B (zh) 2018-08-30 2018-08-30 在大数据存储的存储设备中确定低频数据项的方法及系统

Country Status (1)

Country Link
CN (1) CN109033462B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271104B (zh) * 2018-08-30 2024-07-26 衡阳市芊芊网络科技有限公司 一种用于确定大数据存储系统的运行状态的方法及系统
CN109753505B (zh) * 2018-12-26 2022-06-24 济南银华信息技术有限公司 在大数据存储系统中创建临时存储单元的方法及系统
CN109739817B (zh) * 2018-12-26 2023-01-03 深圳光点软件科技有限公司 一种在大数据存储系统中存储数据文件的方法及系统
CN112965810B (zh) * 2021-01-27 2022-06-24 合肥大多数信息科技有限公司 一种基于共享网络通道的多内核浏览器数据整合方法
CN116541365B (zh) * 2023-07-06 2023-09-15 成都泛联智存科技有限公司 文件存储方法、装置、存储介质及客户端

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106775461A (zh) * 2016-11-30 2017-05-31 华为技术有限公司 热点数据确定方法、设备及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106775461A (zh) * 2016-11-30 2017-05-31 华为技术有限公司 热点数据确定方法、设备及装置

Also Published As

Publication number Publication date
CN109033462A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109033462B (zh) 在大数据存储的存储设备中确定低频数据项的方法及系统
US6999957B1 (en) System and method for real-time searching
US6751627B2 (en) Method and apparatus to facilitate accessing data in network management protocol tables
US11301425B2 (en) Systems and computer implemented methods for semantic data compression
US6351747B1 (en) Method and system for providing data to a user based on a user&#39;s query
US9235635B2 (en) System and method for discovering story trends in real time from user generated content
CN105354251B (zh) 电力系统中基于Hadoop的电力云数据管理索引方法
CN107301215B (zh) 一种搜索结果缓存方法及装置、搜索方法及装置
US20020123989A1 (en) Real time filter and a method for calculating the relevancy value of a document
CN110597630B (zh) 一种分布式系统中内容资源的处理方法及系统
US20180232452A1 (en) Data retrieval method and system
CN109271104B (zh) 一种用于确定大数据存储系统的运行状态的方法及系统
CN113722106A (zh) 一种内存管理的方法和装置
CN110515895B (zh) 大数据存储系统中对数据文件进行关联存储的方法及系统
US20110218991A1 (en) System and method for automatic detection of needy queries
US11681680B2 (en) Method, device and computer program product for managing index tables
CN109542909B (zh) 识别大数据存储系统中的关联性存储设备的方法及系统
CN109240988B (zh) 用于避免大数据存储系统进入访问失衡状态的方法及系统
CN102663053A (zh) 一种基于图像内容搜索的分布式服务器系统
CN109753505B (zh) 在大数据存储系统中创建临时存储单元的方法及系统
CN109271102A (zh) 识别大数据存储系统中的低访问度存储设备的方法及系统
CN109271101A (zh) 一种用于确定大数据存储系统的数据平衡性的方法及系统
CN109446162B (zh) 确定移动互联网内目标移动终端的数据状态的方法及系统
US7191223B1 (en) System and method for real-time alerts
CN111159434A (zh) 一种在互联网存储集群中存储多媒体文件的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230403

Address after: Room 201, No. 2-2-2 Yingcai Street, Tianhe District, Guangzhou City, Guangdong Province, 510000 (Location: 2) (Office only)

Applicant after: Guangzhou sibeishou Engineering Consulting Co.,Ltd.

Address before: 252659 Shandong province Liaocheng City Linqing City Dai Wan Town, the village of the South Village Health Room

Applicant before: Du Guangxiang

GR01 Patent grant
GR01 Patent grant