CN116860761B - 一种数据获取方法、电子设备及存储介质 - Google Patents
一种数据获取方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116860761B CN116860761B CN202311128540.3A CN202311128540A CN116860761B CN 116860761 B CN116860761 B CN 116860761B CN 202311128540 A CN202311128540 A CN 202311128540A CN 116860761 B CN116860761 B CN 116860761B
- Authority
- CN
- China
- Prior art keywords
- target
- historical data
- data compression
- operating system
- compression packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000013144 data compression Methods 0.000 claims abstract description 242
- 238000013507 mapping Methods 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 11
- 238000013500 data storage Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/04—Protocols for data compression, e.g. ROHC
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据获取方法、电子设备及存储介质,涉及数据获取领域,所述方法包括:获取目标历史数据查询指令;获取所有的查询索引,以得到查询索引集ST;遍历ST中每一查询索引的第一层级,以确定出若干目标查询索引;遍历每一目标查询索引的第二层级,以在所有的目标索引中确定出若干目标操作系统类型;根据目标历史数据对应的目标属性,遍历每一目标操作系统类型对应的每一历史数据压缩包信息,以得到若干目标历史数据压缩包信息;确定出每一目标历史数据压缩包对应的目标硬盘标识列表;从所述目标硬盘标识列表中每一目标硬盘标识对应的目标机械硬盘中获取每一目标历史数据压缩包;提高了目标历史数据的获取效率。
Description
技术领域
本发明涉及数据获取领域,特别是涉及一种数据获取方法、电子设备及存储介质。
背景技术
随着互联网技术的快速发展,服务器在互联网中的地位越来越重要,作为互联网中的核心硬件设备,服务器承载着互联网中大部分的数据存储及数据处理任务;目前,软件的种类越来越多,使用各种软件的使用者数量也越来越大,服务器需要存储大量的历史数据,而用户在对一些历史数据进行分析时,通常通过遍历历史数据的方式获取符合用户设定条件的目标历史数据;但是,由于服务器所存储的历史数据的数量较大,遍历历史数据的方式会导致资源占用较多,目标历史数据获取效率较低。
发明内容
针对上述技术问题,本发明采用的技术方案为:
根据本申请的第一方面,提供了一种数据获取方法,所述方法包括以下步骤:
步骤100,响应于用户的目标历史数据查询操作,获取目标历史数据查询指令SQ=(TG,SG,MG);其中,TG为目标历史数据对应的时间点或时间段,SG为目标历史数据对应的操作系统类型标识,MG为目标历史数据对应的目标属性;
步骤200,获取所有的查询索引,以得到查询索引集ST=(ST1,ST2,…,STa,…,STb),a=1,2,…,b;其中,STa为第a个查询索引,b为查询索引的数量;每一查询索引包括树状结构的三个层级,第一层级包括历史数据对应的时间窗口信息,第二层级包括属于同一时间窗口信息的若干操作系统类型标识,第三层级包括每一操作系统类型标识对应的若干历史数据压缩包信息;每一历史数据压缩包信息包括历史数据压缩包中历史数据的目标属性和历史数据压缩包的存储位置信息;
步骤300,根据TG,遍历ST中每一查询索引的第一层级,以确定出若干目标查询索引;其中,每一目标查询索引的第一层级的时间窗口信息对应的时间窗口与TG存在重合;
步骤400,根据SG,遍历每一目标查询索引的第二层级,以在所有的目标查询索引中确定出若干目标操作系统类型标识;其中,每一目标操作系统类型标识与SG相同;
步骤500,根据MG,遍历每一目标操作系统类型标识对应的每一历史数据压缩包信息,以得到若干目标历史数据压缩包信息;其中,每一历史数据压缩包信息包括对应的历史数据压缩包的存储起始地址和存储终止地址;
步骤600,根据每一目标历史数据压缩包信息对应的时间窗口信息和操作系统类型标识,确定出每一目标历史数据压缩包对应的目标硬盘标识列表;
步骤700,根据每一目标历史数据压缩包信息对应的历史数据压缩包的存储起始地址和存储终止地址,从所述目标硬盘标识列表中每一目标硬盘标识对应的目标机械硬盘中获取每一目标历史数据压缩包。
可选的,步骤400包括以下步骤:
步骤410,获取n1个目标查询索引对应的初始第一向量GP=(GP1,GP2,…,GPm1,…,GPn1),m1=1,2,…,n1;其中,GPm1为GP内的第m1个目标查询索引对应的第一目标操作系统命中标识,GP内的每一第一目标操作系统命中标识的初始状态为第一状态;
步骤420,根据SG,遍历每一目标查询索引的第二层级;
步骤430,若第m1个目标查询索引的第二层级对应的若干操作系统类型中存在与SG对应的操作系统类型相同的操作系统类型,则将GPm1的第一状态更改为第二状态;否则,保持GPm1的状态为第一状态;以得到n1个目标查询索引对应的目标第一向量GP’=(GP’1,GP’2,…,GP’m1,…,GP’n1);其中,GP’m1为GP’内的第m1个目标查询索引对应的第二目标操作系统命中标识;
步骤440,获取GP’内状态为第二状态的每一第二目标操作系统命中标识,以得到中间目标操作系统命中标识列表WGP=(WGP1,WGP2,…,WGPm2,…,WGPn2),m2=1,2,…,n2;其中,WGPm2为WGP内的第m2个中间目标操作系统命中标识,n2为WGP内中间目标操作系统命中标识的数量;
步骤450,将WGP内每一中间目标操作系统命中标识对应的操作系统类型确定为目标操作系统类型,以得到n2个目标操作系统类型。
可选的,步骤500包括以下步骤:
步骤510,根据MG,遍历GP’内状态为第二状态的每一第二目标操作系统命中标识对应的第三层级;
步骤520,若第m1个目标操作系统类型对应的第三层级对应的若干历史数据压缩包信息对应的目标属性中存在与MG相同的历史数据压缩包信息,则保持GP’m1的状态为第二状态;否则,将GP’m1的状态更改为第一状态;以得到n1个目标查询索引对应的目标第二向量LGP’=(LGP’1,LGP’2,…,LGP’m1,…,LGP’n1);其中,LGP’m1为第m1目标查询索引对应的目标历史数据压缩包信息命中标识;
步骤530,获取LGP’内状态为第二状态的每一目标历史数据压缩包信息命中标识,以得到中间目标历史数据压缩包信息命中标识列表WGP’=(WGP’1,WGP’2,…,WGP’m3,…,WGP’n3),m3=1,2,…,n3;其中,WGP’m3为WGP’内的第m3个中间目标历史数据压缩包信息命中标识,n3为WGP’内中间目标历史数据压缩包信息命中标识的数量;
步骤540,将WGP’内每一中间目标历史数据压缩包信息命中标识对应的历史数据压缩包信息确定为目标历史数据压缩包信息,以得到n3个目标历史数据压缩包信息。
可选的,步骤600包括以下步骤:
步骤610,获取预设的机械硬盘标识映射表;其中,所述机械硬盘标识映射表包括b行,分别对应每一查询索引的时间窗口信息;每一行内包括对应的查询索引的第二层级的每一操作系统对应的硬盘标识列表;
步骤620,根据每一目标历史数据压缩包信息对应的时间窗口信息,遍历所述机械硬盘标识映射表每一行对应的查询索引的时间窗口信息,以得到若干候选查询索引;
步骤630,根据每一目标历史数据压缩包信息对应的操作系统类型标识,从若干候选查询索引的第二层级对应的若干操作系统类型标识中确定出若干目标操作系统类型标识;
步骤640,获取每一目标操作系统类型标识对应的目标硬盘标识列表,以得到目标硬盘标识列表集HT=(HT1,HT2,…,HTm2,…,HTn2);其中,HTm2为第m2个目标操作系统对应的目标硬盘标识列表;HTm2=(HTm2,1,HTm2,2,…,HTm2,v,…,HTm2,u(m2)),v=1,2,…,u(m2);其中,HTm2,v为第m2个目标操作系统类型标识对应的目标硬盘标识列表中的第v个机械硬盘标识,u(m2)为第m2个目标操作系统类型标识对应的目标硬盘标识列表中机械硬盘标识的数量。
可选的,步骤700包括以下步骤:
步骤710,获取每一目标历史数据压缩包信息对应的历史数据压缩包的存储区域标识,以得到目标历史数据存储区域标识列表KT=(KT1,KT2,…,KTm3,…,KTn3),m3=1,2,…,n3;其中,KTm3为第m3个目标历史数据压缩包信息对应的历史数据压缩包的存储区域标识,n3为目标历史数据压缩包信息的数量;KTm3=(KTm3,1,KTm3,2),KTm3,1为第m3个目标历史数据压缩包信息对应的历史数据压缩包的存储起始地址,KTm3,2为第m3个目标历史数据压缩包信息对应的历史数据压缩包的存储终止地址;
步骤720,从HT中获取第m3个目标历史数据压缩包信息对应的目标操作系统对应的目标硬盘标识列表HTm0;其中,m0的取值为1到n2之间的整数;
步骤730,获取HTm0内每一机械硬盘标识对应的每一机械硬盘上KTm3,1至KTm3,2之间存储的子目标历史数据压缩包,以得到第m3个目标历史数据压缩包对应的若干子目标历史数据压缩包;
步骤740,将第m3个目标历史数据压缩包对应的若干子目标历史数据压缩包进行整合,以得到第m3个目标历史数据压缩包。
可选的,所述目标属性通过以下步骤确定:
步骤110,获取预设的历史时间段内接收到的若干第二历史数据,确定出若干候选属性列表;每一候选属性列表包括若干候选属性;每一第二历史数据在对应的候选属性列表中具有一个唯一对应的候选属性;
步骤120,根据若干候选属性列表对所有第二历史数据进行分组,以得到若干第二历史数据组列表;其中,每一第二历史数据组列表内的每一第二历史数据组对应的候选属性列表相同;
步骤130,对每一第二历史数据组列表内的每一第二历史数据组进行压缩,以得到每一候选属性列表对应的第二历史数据压缩包列表;
步骤140,获取每一候选属性列表对应的第二历史数据读写时长,以得到每一候选属性列表对应的读写时长;其中,候选属性列表对应的读写时长为将该候选属性列表对应的每一第二历史数据压缩包存储于预设的固定存储区域,并从所述固定存储区域读取预设数量的第二历史数据样本所用的时长;
步骤150,将第二历史数据读写时长最短的候选属性列表内的候选属性作为目标属性。
可选的,所述获取每一候选属性列表对应的第二历史数据读写时长包括以下步骤:
步骤141,针对任一候选属性列表,获取将该候选属性列表对应的每一第二历史数据压缩包存储于预设的固定存储空间所用的第一时长;
步骤142,获取从存储有将该候选属性列表对应的每一第二历史数据压缩包的固定存储空间内,读取预设数量的第二历史数据样本所用的第二时长;
步骤143,根据所述第一时长和所述第二时长,确定该候选属性列表对应的第二历史数据读写时长。
可选的,根据所述第一时长和所述第二时长,确定该候选属性列表对应的第二历史数据读写时长,包括以下步骤:
步骤2431,获取预设的第一权重和第二权重;其中,第一权重小于第二权重,第一权重和第二权重之和等于1;
步骤2432,将第一权重和第一时长的乘积与第二权重和第二时长的乘积之和作为第二历史数据读写时长。
根据本申请的另一方面,还提供了一种非瞬时性计算机可读存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现上述数据获取方法。
根据本申请的另一方面,还提供了一种电子设备,包括处理器和上述非瞬时性计算机可读存储介质。
本发明至少具有以下有益效果:
本发明的数据获取方法,首先,根据用户输入的目标历史数据查询指令中的目标历史数据对应的时间或时间段,以及每一查询索引的第一层级记录的时间窗口,从若干查询索引中确定出目标查询索引;能够将不符合目标历史数据对应的时间或时间段的查询索引全部排除掉,只在目标查询索引内查询目标历史数据的信息,无需遍历所有的历史数据信息,从而大大降低资源占用,提高目标历史数据的获取效率。
进一步的,根据目标历史数据查询指令中的目标历史数据对应的操作系统类型,从目标查询索引的第二层级确定出目标操作系统类型;根据目标历史数据查询指令中的目标历史数据对应的属性在目标查询索引中目标操作系统类型对应的第三层级中,确定出目标历史数据压缩包的存储位置信息,从而获取对应的目标历史数据压缩包;能够将不符合目标历史数据对应的操作系统类型的历史数据信息全部排除,只在目标操作系统包含的历史数据信息内查询目标历史数据信息,以及目标历史数据压缩包的存储位置信息,从而获取对应的目标历史数据压缩包;无需遍历目标查询索引内的所有操作系统类型包含的历史数据信息,从而进一步的降低资源占用,提高目标历史数据的获取效率。
更进一步的,每一历史数据压缩包在对应的每一硬盘上的储存区域标识为同一个存储区域标识,由此,能够减少存储区域标识的存储量,同时,在获取历史数据压缩包时,只需要获取一个存储区域标识,即可从该历史数据压缩包对应的每一机械硬盘中获取对应的历史数据压缩包,减少存储区域标识的获取量,进一步提升历史数据获取效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据获取方法的流程图;
图2为本发明实施例提供的数据获取方法的应用场景图;
图3为本发明实施例提供的一种电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
下面将参照图1所述的数据获取方法的流程图,对一种数据获取方法进行介绍。
该数据获取方法包括以下步骤:
步骤100,响应于用户的目标历史数据查询操作,获取目标历史数据查询指令SQ=(TG,SG,MG);其中,TG为目标历史数据对应的时间或时间段,SG为目标历史数据对应的操作系统类型标识,MG为目标历史数据对应的目标属性。
本实施例中,用户在查询目标历史数据时,会首先输入查询指令,查询指令内包含目标历史数据对应的时间或时间段,例如,目标历史数据生成的时间为2023年1月1日12点;查询指令内还包含目标历史数据对应的操作系统类型,例如,目标历史数据对应的操作系统为Windows操作系统;查询指令内还包含目标历史数据对应的目标属性,该目标属性为文件属性;将上述用户输入的查询指令获取,得到SQ。
步骤200,获取所有的查询索引,以得到查询索引集ST=(ST1,ST2,…,STa,…,STb),a=1,2,…,b;其中,STa为第a个查询索引,b为查询索引的数量;每一查询索引包括树状结构的三个层级,第一层级包括历史数据对应的时间窗口信息,第二层级包括属于同一时间窗口信息的若干操作系统类型标识,第三层级包括每一操作系统类型标识对应的若干历史数据压缩包信息;每一历史数据压缩包信息包括历史数据压缩包中历史数据的目标属性和历史数据压缩包的存储位置信息。
本实施例中,服务器上会存储有若干个查询索引,每一历史时间段即历史时间窗口对应一个查询索引,每一查询索引记录了对应的历史时间段内所有的历史数据的信息,例如,以天为单位,每一天内的历史数据对应一个查询索引;每一历史数据不仅对应有生成的时间点,还对应有操作系统,因此,在查询索引对应的历史时间段内生成的历史数据会对应若干操作系统类型,作为查询索引的第二层级;第三层级包括每一操作系统类型对应的若干历史数据压缩包信息,历史数据压缩包是将若干历史数据压缩得到,历史数据压缩包信息包含了历史数据压缩包内每一历史数据对应的属性;历史数据的属性可以理解为历史数据的文件类型或文件大小等;历史数据压缩包的存储位置信息则记录了对应的历史数据压缩包在机械硬盘上存储的起止位置信息;由此,通过上述查询索引,能够将历史数据以历史时间段为单位进行划分,每一历史时间段内的历史数据划分到同一查询索引内,使得后期获取历史数据时能够快速定位到目标历史数据所属的目标查询索引,提高目标历史数据的获取效率。
步骤300,根据TG,遍历ST中每一查询索引的第一层级,以确定出若干目标查询索引;其中,每一目标查询索引的第一层级的时间窗口信息对应的时间窗口与TG存在重合。
本实施例中,每一查询索引的第一层级记录有历史时间段,如果历史时间段与TG存在重合,则将该历史时间段对应的查询索引确定为目标查询索引;需要说明的是,如果用户输入的TG是时间点,那么,目标查询索引为一个;如果用户输入的TG是时间段,目标查询索引可能为一个,也可能为多个;由此,能够根据用户输入的目标历史数据对应的时间点或时间段快速确定出包含有目标历史数据信息的目标查询索引,在后续的查询步骤中,只需要在目标查询索引内进行即可,从而大大降低资源占用,提高目标历史数据的获取效率。
步骤400,根据SG,遍历每一目标查询索引的第二层级,以在所有的目标查询索引中确定出若干目标操作系统类型;其中,每一目标操作系统类型与SG相同。
本实施例中,确定出目标查询索引之后,则根据SG,在目标查询索引的第二层级确定出目标操作系统类型;需要说明的是,如果用户输入的目标历史数据的对应的操作系统类型为一种,那么,在目标查询索引的第二层级确定出一种与用户输入的操作系统类型相同的目标操作系统类型;如果用户输入的目标历史数据的对应的操作系统类型为多种,那么,在目标查询索引的第二层级确定出多种与用户输入的每一操作系统类型一一相同的多种目标操作系统类型;能够将不符合目标历史数据对应的操作系统类型的历史数据信息全部排除,无需遍历目标查询索引内的所有操作系统类型包含的历史数据信息,从而进一步的降低资源占用,提高目标历史数据的获取效率。
步骤500,根据MG,遍历每一目标操作系统类型对应的每一历史数据压缩包信息,以得到若干目标历史数据压缩包信息;其中,每一历史数据压缩包信息包括对应的历史数据压缩包的存储起始地址和存储终止地址。
本实施例中,每一操作系统类型对应的第三层级则包含若干历史数据压缩包信息,将第三层级中历史数据压缩包信息所包含的目标属性与MG相同的历史数据压缩包信息确定为目标历史数据压缩包信息,从而确定出目标历史数据压缩包的信息。
步骤600,根据每一目标历史数据压缩包信息对应的时间窗口信息和操作系统类型标识,确定出每一目标历史数据压缩包对应的目标硬盘标识列表。
本实施例中,预设有机械硬盘标识映射表,该机械硬盘标识映射表内记录有每一目标操作系统类型所对应的目标机械硬盘标识列表,能够根据每一目标历史数据压缩包信息对应的时间窗口信息和操作系统类型标识,在所述机械硬盘标识映射表内确定出每一目标历史数据压缩包对应的目标硬盘标识列表。
步骤700,根据每一目标历史数据压缩包信息对应的历史数据压缩包的存储起始地址和存储终止地址,从所述目标硬盘标识列表中每一目标硬盘标识对应的目标机械硬盘中获取每一目标历史数据压缩包。
本实施例中,根据每一目标历史数据压缩包信息能够确定对应的目标操作系统类型,进一步得到对应的目标机械硬盘标识列表,然后根据每一目标历史数据压缩包信息对应的历史数据压缩包的存储起始地址和存储终止地址,从目标机械硬盘标识列表内每一目标机械硬盘标识对应的机械硬盘的相应存储区域,获取每一目标历史数据压缩包对应的若干子目标历史数据压缩包,并对每一目标历史数据压缩包对应的若干子目标历史数据压缩包进行整合,以得到SQ对应的每一目标历史数据压缩包。
本实施例的数据获取方法,首先,根据用户输入的目标历史数据查询指令中的目标历史数据对应的时间或时间段,以及每一查询索引的第一层级记录的时间窗口,从若干查询索引中确定出目标查询索引;能够将不符合目标历史数据对应的时间或时间段的查询索引全部排除掉,只在目标查询索引内查询目标历史数据的信息,无需遍历所有的历史数据信息,从而大大降低资源占用,提高目标历史数据的获取效率。
进一步的,根据目标历史数据查询指令中的目标历史数据对应的操作系统类型,从目标查询索引的第二层级确定出目标操作系统类型;根据目标历史数据查询指令中的目标历史数据对应的属性在目标查询索引中目标操作系统类型对应的第三层级中,确定出目标历史数据压缩包的存储位置信息,从而获取对应的目标历史数据压缩包;能够将不符合目标历史数据对应的操作系统类型的历史数据信息全部排除,只在目标操作系统包含的历史数据信息内查询目标历史数据信息,以及目标历史数据压缩包的存储位置信息,从而获取对应的目标历史数据压缩包;无需遍历目标查询索引内的所有操作系统类型包含的历史数据信息,从而进一步的降低资源占用,提高目标历史数据的获取效率。
更进一步的,每一历史数据压缩包在对应的每一硬盘上的储存区域标识为同一个存储区域标识,由此,能够减少存储区域标识的存储量,同时,在获取历史数据压缩包时,只需要获取一个存储区域标识,即可从该历史数据压缩包对应的每一机械硬盘中获取对应的历史数据压缩包,减少存储区域标识的获取量,进一步提升历史数据获取效率。
可选的,步骤400包括以下步骤:
步骤410,获取n1个目标查询索引对应的初始第一向量GP=(GP1,GP2,…,GPm1,…,GPn1),m1=1,2,…,n1;其中,GPm1为GP内的第m1个目标查询索引对应的第一目标操作系统命中标识,GP内的每一第一目标操作系统命中标识的初始状态为第一状态。
本实施例中,对获取到的n1个目标索引分别建立对应的第一目标操作系统命中标识,该第一目标操作系统命中标识用于表征对应的目标索引中是否存在与SG相同的操作系统类型;第一状态可以用数字表示,例如,用数字0表示第一状态,用数字1表示第二状态。
步骤420,根据SG,遍历每一目标查询索引的第二层级。
步骤430,若第m1个目标查询索引的第二层级对应的若干操作系统类型中存在与SG对应的操作系统类型相同的操作系统类型,则将GPm1的第一状态更改为第二状态;否则,保持GPm1的状态为第一状态;以得到n1个目标查询索引对应的目标第一向量GP’=(GP’1,GP’2,…,GP’m1,…,GP’n1);其中,GP’m1为GP’内的第m1个目标查询索引对应的第二目标操作系统命中标识。
本实施例中,根据用户输入的SQ中的SG,遍历n1个目标查询索引的第二层级,以得到第一向量GP’;该方法能够通过GP’内每一第二目标操作系统命中标识的状态,即可确定存在有目标操作系统类型的目标查询索引,无需将存在有目标操作系统类型的目标查询索引获取出来,从而减小资源占用,提高执行效率。
步骤440,获取GP’内状态为第二状态的每一第二目标操作系统命中标识,以得到中间目标操作系统命中标识列表WGP=(WGP1,WGP2,…,WGPm2,…,WGPn2),m2=1,2,…,n2;其中,WGPm2为WGP内的第m2个中间目标操作系统命中标识,n2为WGP内中间目标操作系统命中标识的数量。
本实施例中,GP’内状态为第二状态的第二目标操作系统命中标识,表示对应的操作系统类型为用户所需要的操作系统类型,能够将GP’内状态为第二状态的每一第二目标操作系统命中标识获取,以得到WGP。
步骤450,将WGP内每一中间目标操作系统命中标识对应的操作系统类型确定为目标操作系统类型,以得到n2个目标操作系统类型。
本实施例中,在一些特殊场景下,用户所输入的查询指令有可能不包括目标历史数据对应的目标属性,即用户需要目标操作系统对应的所有历史数据;针对该情况,本实施例中的上述步骤能够获取到符合用户需要的所有目标操作系统类型,将每一目标操作系统类型对应的所有历史数据压缩包从对应的机械硬盘获取即可,使得用户获取历史数据的方式更加灵活。
可选的,步骤500包括以下步骤:
步骤510,根据MG,遍历GP’内状态为第二状态的每一第二目标操作系统命中标识对应的第三层级。
步骤520,若第m1个目标操作系统类型对应的第三层级对应的若干历史数据压缩包信息对应的目标属性中存在与MG相同的历史数据压缩包信息,则保持GP’m1的状态为第二状态;否则,将GP’m1的状态更改为第一状态;以得到n1个目标查询索引对应的目标第二向量LGP’=(LGP’1,LGP’2,…,LGP’m1,…,LGP’n1);其中,LGP’m1为第m1目标查询索引对应的目标历史数据压缩包信息命中标识。
本实施例中,根据用户输入的SQ中的MG,遍历n2个目标操作系统类型对应的第三层级,以得到目标第二向量LGP’;该方法能够通过LGP’内每一历史数据压缩包信息命中标识的状态,即可确定存在有目标历史数据压缩包信息的目标操作系统,后续获取目标历史数据压缩包信息时,只需要在存在有目标历史数据压缩包信息的目标操作系统中遍历即可,无需遍历所有的操作系统类型对应的历史数据压缩包信息,从而提高历史数据获取的效率。
步骤530,获取LGP’内状态为第二状态的每一目标历史数据压缩包信息命中标识,以得到中间目标历史数据压缩包信息命中标识列表WGP’=(WGP’1,WGP’2,…,WGP’m3,…,WGP’n3),m3=1,2,…,n3;其中,WGP’m3为WGP’内的第m3个中间目标历史数据压缩包信息命中标识,n3为WGP’内中间目标历史数据压缩包信息命中标识的数量。
步骤540,将WGP’内每一中间目标历史数据压缩包信息命中标识对应的历史数据压缩包信息确定为目标历史数据压缩包信息,以得到n3个目标历史数据压缩包信息。
需要说明的是,每一目标历史数据压缩包信息包括对应的目标历史数据压缩包的存储区域位置以及目标属性,对应的目标操作系统类型则能够根据所在的目标查询索引确定。
可选的,步骤600包括以下步骤:
步骤610,获取预设的机械硬盘标识映射表;其中,所述机械硬盘标识映射表包括b行,分别对应每一查询索引的时间窗口信息;每一行内包括对应的查询索引的第二层级的每一操作系统对应的硬盘标识列表。
本实施例中,预设有机械硬盘标识映射表,该机械硬盘标识映射表包括b行,即对应于b个查询索引,每行预设的时间窗口信息与对应的查询索引的时间窗口信息相同;同时,每行内包括对应的查询索引对应的每一操作系统类型对应的硬盘标识列表,每一硬盘标识列表内记录有若干机械硬盘标识。
步骤620,根据每一目标历史数据压缩包信息对应的时间窗口信息,遍历所述机械硬盘标识映射表每一行对应的查询索引的时间窗口信息,以得到若干目标查询索引。
本实施例中,能够根据每一目标历史数据压缩包信息对应的时间窗口信息,确定每一目标历史数据压缩包信息在机械硬盘标识映射表内所处的行,然后获取每行对应的查询索引,以得到若干候选查询索引。
步骤630,根据每一目标历史数据压缩包信息对应的操作系统类型标识,从若干候选查询索引的第二层级对应的若干操作系统类型标识中确定出若干目标操作系统类型标识。
步骤640,获取每一目标操作系统类型标识对应的目标硬盘标识列表,以得到目标硬盘标识列表集HT=(HT1,HT2,…,HTm2,…,HTn2);其中,HTm2为第m2个目标操作系统类型标识对应的目标硬盘标识列表;HTm2=(HTm2,1,HTm2,2,…,HTm2,v,…,HTm2,u(m2)),v=1,2,…,u(m2);其中,HTm2,v为第m2个目标操作系统类型标识对应的目标硬盘标识列表中的第v个机械硬盘标识,u(m2)为第m2个目标操作系统类型标识对应的目标硬盘标识列表中机械硬盘标识的数量。
本实施例中,在预设的机械硬盘标识映射表内记录有每一目标操作系统类型标识对应的目标硬盘标识列表,通过每一目标操作系统类型标识对应的目标硬盘标识列表能够确定每一每一目标操作系统对应的历史数据压缩包所存储的硬盘地址。
可选的,步骤700包括以下步骤:
步骤710,获取每一目标历史数据压缩包信息对应的历史数据压缩包的存储区域标识,以得到目标历史数据存储区域标识列表KT=(KT1,KT2,…,KTm3,…,KTn3),m3=1,2,…,n3;其中,KTm3为第m3个目标历史数据压缩包信息对应的历史数据压缩包的存储区域标识,n3为目标历史数据压缩包信息的数量;KTm3=(KTm3,1,KTm3,2),KTm3,1为第m3个目标历史数据压缩包信息对应的历史数据压缩包的存储起始地址,KTm3,2为第m3个目标历史数据压缩包信息对应的历史数据压缩包的存储终止地址。
可以理解的是,本实施例中,任一目标历史数据压缩包信息对应的历史数据压缩包在对应的若干机械硬盘上的存储区域标识为同一个;由此,在获取目标历史数据压缩包时,只需要获取一个存储区域标识,即可从该目标历史数据压缩包对应的每一机械硬盘中获取对应的子目标历史数据压缩包,减少存储区域标识的获取量,进一步提升历史数据获取效率。
步骤720,从HT中获取第m3个目标历史数据压缩包信息对应的目标操作系统对应的目标硬盘标识列表HTm0;其中,m0的取值为1到n2之间的整数。
步骤730,获取HTm0内每一机械硬盘标识对应的每一机械硬盘上KTm3,1至KTm3,2之间存储的子目标历史数据压缩包,以得到第m3个目标历史数据压缩包对应的若干子目标历史数据压缩包。
步骤740,将第m3个目标历史数据压缩包对应的若干子目标历史数据压缩包进行整合,以得到第m3个目标历史数据压缩包。
本实施例中,以并行的方式从HTm0内每一机械硬盘标识对应的每一机械硬盘获取第m3个目标历史数据压缩包对应的每一子第一历史数据压缩包,使得获取每一子第一历史数据压缩包的时间相同,从而达到均衡从每一机械硬盘获取每一子第一历史数据压缩包的时间的效果,同时,也使得获取第m3个目标历史数据压缩包所用的时间最短,获取效率最高。
在一实例性的实施例中,所述目标属性通过以下步骤确定:
步骤110,获取预设的历史时间段内接收到的若干第二历史数据,确定出若干候选属性列表;每一候选属性列表包括若干候选属性;每一第二历史数据在对应的候选属性列表中具有一个唯一对应的候选属性。
本实施例中,第二历史数据对应有多个候选属性列表,例如,文件类型列表,文件大小列表等;能够获取到第二历史数据均对应的若干候选属性列表;可以理解的是,预设的历史时间段内接收的所有第二历史数据是作为统计分析的样本存在,其数量是较大的,在后续步骤中会以不同的候选属性列表对其进行读写速度的统计分析。
步骤120,根据若干候选属性列表对所有第二历史数据进行分组,以得到若干第二历史数据组列表;其中,每一第二历史数据组列表内的每一第二历史数据组对应的候选属性列表相同。
本实施例中,根据若干候选属性列表对所有的第二历史数据进行分组,会得到与每一候选属性列表对应的分组结果;例如,根据文件类型列表进行分组和根据文件大小列表进行分组,其分组得到的分组数量以及每一组内的第二历史数据大概率是不同的。
步骤130,对每一第二历史数据组列表内的每一第二历史数据组进行压缩,以得到每一候选属性列表对应的第二历史数据压缩包列表。
本实施例中,在根据每一候选属性列表对所有的第二历史数据进行分组后,需要对每一第二历史数据组进行压缩,由此,能够保证统计分析的条件是与实际存储与读取的条件是相同的,进而提高统计分析的准确性。
步骤140,获取每一候选属性列表对应的第二历史数据读写时长,以得到每一候选属性列表对应的读写时长;其中,候选属性列表对应的读写时长为将该候选属性列表对应的每一第二历史数据压缩包存储于预设的固定存储区域,并从所述固定存储区域读取预设数量的第二历史数据样本所用的时长。
本实施例中,得到每一候选属性列表对应的若干第二历史数据压缩包后,此时并不确定以哪种候选属性列表进行分组以及压缩得到的若干第二历史数据压缩包,在存储以及读取数据样本时所用的时长最短;基于此,本实施例中,分别获取将每一候选属性列表对应的每一第二历史数据压缩包存储于预设的固定存储区域,并从所述固定存储区域读取预设数量的第二历史数据样本所用的时长,以得到每一候选属性列表对应的第二历史数据读写时长。
步骤150,将第二历史数据读写时长最短的候选属性列表内的候选属性作为目标属性。
可以理解的是,第二历史数据读写时长最短表示以对应的候选属性列表对所有的第二历史数据进行分组后,对应的第二历史数据读写时长最短,读写效率最高;那么,将该候选属性列表内的候选属性作为目标属性;例如,确定出的候选属性列表为文件类型列表,那么,则将文件类型列表内的候选属性作为目标属性,在对后续获取到的历史数据进行分组时,则以文件类型列表内的候选属性对获取到的历史数据进行分组。
本实施例中,通过上述方法,能够确定出以哪一候选属性列表内的候选属性作为目标属性对获取到的历史数据进行分组,才能够使得对历史数据的存入和读取效率最高,从而进一步提高后期目标历史数据的获取效率。
可选的,所述获取每一候选属性列表对应的第二历史数据读写时长包括以下步骤:
步骤141,针对任一候选属性列表,获取将该候选属性列表对应的每一第二历史数据压缩包存储于预设的固定存储空间所用的第一时长。
步骤142,获取从存储有将该候选属性列表对应的每一第二历史数据压缩包的固定存储空间内,读取预设数量的第二历史数据样本所用的第二时长。
步骤143,根据所述第一时长和所述第二时长,确定该候选属性列表对应的第二历史数据读写时长。
本实施例中,历史数据的存入时长会影响历史数据处理的效率,因此,本实施例的第二历史数据的读写时长包括第二历史数据的存入时长和预设数量的第二历史数据样本的读取时长,由此,使得第二历史数据的读写时长确定更为合理,也能够从两个维度来反映历史数据的处理效率。
可选的,根据所述第一时长和所述第二时长,确定该候选属性列表对应的第二历史数据读写时长,包括以下步骤:
步骤2431,获取预设的第一权重和第二权重;其中,第一权重小于第二权重,第一权重和第二权重之和等于1;
步骤2432,将第一权重和第一时长的乘积与第二权重和第二时长的乘积之和作为第二历史数据读写时长。
本实施例中,通常情况下,历史数据存入只需要进行一次,而历史数据被获取的次数为多次,因此,本实施例设置第一时长对应的第一权重大于第二时长对应的第二权重,例如,第一权重的取值范围为0.3-0.4;从而使得确定出的第二历史数据的读写时长更加准确。
可选的,第一时长通过以下步骤得到:
步骤2411,获取LS=1;其中,LS为预设第一变量。
步骤2412,获取将第LS个属性对应的每一第二历史数据压缩包存储于同一预设存储空间所用时长TLS。
步骤2413,若LS<LS0,LS=LS+1,并执行步骤2412;以得到第一时长TN1=1/LS0×∑LS0 LS=1TLS;其中,LS0为预设的第一执行次数。
本实施例中,将第LS个属性对应的每一第二历史数据压缩包存储于同一预设存储空间LS0次,然后将每次所用的时长的均值作为第一时长,能够避免某一次历史数据压缩包存储时发生错误而造成第一时长确定错误的偶然情况发生,从而提高第一时长确定的准确性。
可选的,第二时长通过以下步骤得到:
步骤2421,获取LN=1;其中,LN为预设第二变量。
步骤2422,确定从存储有第LS个属性对应的每一第二历史数据压缩包的预设储存空间中,获取预设数量的数据样本所用的时长TLN。
步骤2423,若LN<LN0,LN=LN+1,并执行步骤2422;以得到第二时长TN2=1/LN0×∑LN0 LN=1TLN;其中,LN0为预设的第二执行次数。
本实施例中,从存储有第LS个属性对应的每一第二历史数据压缩包的预设储存空间中,获取预设数量的数据样本LN0次,然后将每次所用的时长的均值作为第二时长,能够避免某一次获取预设数量的数据样本时发生错误而造成第二时长确定错误的偶然情况发生,从而提高第二时长确定的准确性。
在一实例性的实施例中,针对上述实施例中的数据获取方法中的历史数据压缩包,提供一种历史数据压缩包存储的方法,该方法包括以下步骤:
步骤710,获取目标时间段内的第一历史数据压缩包列表集A=(A1,A2,…,Am,…,An),m=1,2,…,n;其中,Am为第m个操作系统对应的第一历史数据压缩包列表,n为第一历史数据压缩包列表的数量;Am=(Am,1,Am,2,…,Am,j,…,Am,f(m)),j=1,2,…,f(m);Am,j为Am中第j个第一历史数据压缩包,f(m)为Am中第一历史数据压缩包的数量;Am,j内每一第一历史数据的目标属性相同,Am,j内任一第一历史数据的目标属性与Am中其他的任一第一历史数据压缩包内的任一第一历史数据的目标属性不同;SAm,r>SAm,r+1,r=1,2,…,f(m)-1;SAm,r为根据Am,r对应的目标属性得到的查询优先级;所述目标属性为第一历史数据的文件属性。
本实施例中,对于在目标时间段内接收到的所有第一历史数据,首先根据每一第一历史数据对应的操作系统类型,对所有的第一历史数据进行分组,例如,将Windows操作系统对应的第一历史数据分为一组,将Android操作系统对应的第一历史数据分为一组;每一历史数据还具有若干属性,那么,能够将同一操作系统对应的每一第一历史数据按照目标属性进行再次分组,例如,目标属性为文件类型,文件类型括的doc文件、PPT文件、DLL文件以及exe文件等,doc文件和PPT文件属于同一文件类型,DLL文件和exe文件属于同一文件类型;由此,能够将每一操作系统对应的每一第一历史数据分为若干组;将每一操作系统对应的每一组第一历史数据进行压缩,得到若干第一历史数据压缩包,同时按照第一历史数据压缩包内第一历史数据的查询优先级的大小顺序对每一第一历史数据压缩包进行排序,能够得到Am,进而得到A;在后期查询目标历史数据时,能够根据所要查询的目标历史数据对应的时间、操作系统类型以及属性,快速确定包含有目标历史数据的第一历史数据压缩包的信息,从而提高获取目标历史数据的效率。
步骤720,根据Am中所有第一历史数据压缩包总的大小及单个机械硬盘的容量,确定Am对应的每一机械硬盘标识,以得到Am对应的机械硬盘标识集Ym=(Ym,1,Ym,2,…,Ym,p,…,Ym,h(m)),p=1,2,…,h(m);其中,Ym,p为Am对应的第p个机械硬盘标识,h(m)为Am对应的机械硬盘标识的数量。
本实施例中,对于目标时间段内的所有第一历史数据压缩包,以操作系统为单位来选择所需要的硬盘数量;能够获取到Am中每一第一历史数据压缩包的大小,进而得到Am中所有第一历史数据压缩包总的大小WAm,单个机械硬盘的容量W’能够直接获取,从而能够得到机械硬盘标识的数量h(m)=⌈WAm/W’⌉,其中,⌈⌉为预设的向上取整函数;进而确定Am对应的每一机械硬盘标识,以得到Am对应的机械硬盘标识集Ym;可以理解的是,由于本实施例中,每个操系统对应的第一历史数据压缩包的数量是不同的,故而,本实施例中,h(m)不是指代一个具体的函数或函数结果值,而是指代一个随着m的具体值的不同而可能的值,例如,当m=1时,h(m)=5;m=2时,h(m)=8;m=3时,h(m)=8。
本实施例中,根据每个操作系统类型对应的第一历史数据压缩包总的大小,确定机械硬盘的数量,使得所有的第一历史数据压缩包均能够存储于机械硬盘内,避免选择的机械硬盘总的容量小于WAm,导致无法完全存储每一第一历史数据压缩包的情况发生。
步骤730,根据Am中每一第一历史数据压缩包的大小将Ym,1、Ym,2、…、Ym,p、…、Ym,h(m)对应的机械硬盘均划分为f(m)个存储区域,每一存储区域对应一个存储区域标识,以得到Am对应的存储区域标识集Qm=(Qm,1,Qm,2,…,Qm,j,…,Qm,f(m));其中,Qm,j为Am,j对应的存储区域标识;Qm,r对应的存储区域的读写速度大于Qm,r+1对应的存储区域的读写速度;Am,j在每一机械硬盘上均对应同一存储区域标识。
本实施例中,确定出Am对应的h(m)个机械硬盘之后,需要将Am中的每一第一历史数据压缩包存储至h(m)个机械硬盘中,对于机械硬盘而言,不同存储区域的读写速度是不同的,机械硬盘的磁盘外侧的存储区域的读写速度大于内侧的存储区域的读写速度;根据机械硬盘的这一特性,能够将Am对应的每一机械硬盘划分为f(m)个存储区域,每一机械硬盘的划分存储区域的方式相同;由此,能够将查询优先级较高的第一历史数据压缩包储存至每一机械硬盘的读写速度较快的存储区域,以提高后期目标历史数据获取的效率。
需要说明的是,Am,j在每一机械硬盘上的存储区域标识都是同一存储区域标识,该存储区域标识记录有Am,j在每一机械硬盘的磁盘上的存储区域的起始存储位置和终止存储位置,在后期获取Am,j时,只需要获取一个存储区域标识,即可从f(m)个机械硬盘中获取对应的子第一历史数据压缩包,提升数据获取效率。
步骤740,将Am,j分割为h(m)个子第一历史数据压缩包,以得到Am,j对应的子第一历史数据压缩包集TAm,j=(TAm,j,1,TAm,j,2,…,TAm,j,p,…,TAm,j,h(m));其中,TAm,j,p为TAm,j中的第p个子第一历史数据压缩包。
本实施例中,Am对应有h(m)个机械硬盘,需要将Am,j存储于h(m)个机械硬盘中,则需要将Am,j分割为h(m)个子第一历史数据压缩包;由此,在后期获取Am,j时,能够同时从h(m)个机械硬盘中以并行的方式获取Am,j对应的每个子第一历史数据压缩包,同样的,在获取目标历史数据压缩包时,也能够以同样的方式获取,从而提高获取目标历史数据获取的效率。
步骤750,将TAm,j,p储存于第p个机械硬盘的Qm,j对应的存储区域内。
本实施例中,将Am,j分割为h(m)个子第一历史数据压缩包后,得到TAm,j,TAm,j中的每一子第一历史数据压缩包在h(m)个机械硬盘上均对应有存储区域,将TAm,j,p储存于第p个机械硬盘的Qm,j对应的存储区域内,即完成Am中所有的第一历史数据压缩包的存储。
本实施例的数据存储方法,获取到的第一历史数据压缩包列表集对应于目标时间段,第一历史数据压缩包列表集中每一第一历史数据压缩包对应于一个操作系统类型,每一第一历史数据的目标属性相同;由此,将目标时间段内的所有第一历史数据先按照操作系统类型分类,然后再按照第一历史数据的目标属性分类,在后期查询目标历史数据时,能够根据所要查询的目标历史数据对应的时间、操作系统类型以及属性,快速确定包含有目标历史数据的第一历史数据压缩包的信息,从而提高获取目标历史数据的效率。
进一步的,本发明根据各第一历史数据压缩包的查询优先级,对各第一历史数据压缩包进行排序;同时,根据每个操作系统类型对应的第一历史数据压缩包总的大小,确定机械硬盘的数量,使得所有的第一历史数据压缩包均能够存储于机械硬盘内;将查询优先级高的第一历史数据压缩包分割为若干子第一历史数据压缩包,将每一子第一历史数据压缩包存储于各机械硬盘的读写速度较快的存储区域,使得后期读取查询优先级较高的第一历史数据压缩包时,能够以最短的时间读取出来,从而提高第一历史数据压缩包的读取效率。
可选的,所述步骤730包括以下步骤:
步骤731,根据Am,获取目标数据大小列表W=(Wm,1,Wm,2,…,Wm,j,…,Wm,f(m));其中,Wm,j为Am,j对应的目标数据大小;Wm,j=WAm,j/h(m);WAm,j为Am,j的数据大小。
本实施例中,将Am,j均分为大小为Wm,j的h(m)个子第一历史数据压缩包,以在后续对应存储于h(m)个机械硬盘中,使得存储均衡,在后期获取相应的第一历史数据时,也能够使得对应的每个机械硬盘的获取时长均衡。
步骤732,根据W,从Am对应的每一机械硬盘的磁盘的最外侧逐渐向内将每一机械硬盘的磁盘划分为f(m)个目标存储区域。
可以理解的是,对机械硬盘而言,其外侧存储区域的读写速度大于内侧存储区域的读写速度,Am中的各第一历史数据压缩包是按照对应的优先级进行排序的,即排在较前位置的第一历史数据压缩包的优先级大于排在较后位置的第一历史数据压缩包的优先级;在Am中,Am,1的优先级最高,在针对Am,1进行机械硬盘存储区域划分时,首先根据Am,1的大小,从每一机械硬盘的最外侧开始,划分出一个大小为Wm,1的存储区域,从Am对应的每一机械硬盘的磁盘的最外侧逐渐向内将每一机械硬盘的磁盘划分为f(m)个目标存储区域;由此,能够保证查询优先级较高的第一历史数据压缩包能够储存于每一机械硬盘读写速度较快的存储区域,提高第一历史数据压缩包的存入速度,同时,也能够提高后期第一历史数据压缩包的获取速度。
步骤733,获取每一目标存储区域的存储区域标识,以得到Am对应的存储区域标识集Qm=(Qm,1,Qm,2,…,Qm,j,…,Qm,f(m));其中,Qm,j包括Qm,j对应的存储区域的起始存储地址和终止存储地址,且Qm,j对应的存储区域的存储空间大小不小于Wm,j。
上述步骤中,针对任一机械硬盘,每划分出一个存储区域,都对应有存储区域标识,该存储区域标识包括对应的存储区域的起始存储地址和终止存储地址,将每一第一历史数据压缩包对应的存储区域标识获取,即可得到Am对应的存储区域标识集Qm。
可选的,SAm,r通过以下步骤得到:
步骤711,获取Am,r对应的目标属性。
步骤712,根据Am,r对应的目标属性从预设的查询优先级映射表中获取SAm,r;其中,所述查询优先级映射表包括若干行,每一行对应一个目标属性以及该目标属性对应的查询优先级。
本实施例中,预设有查询优先级映射表,该查询优先级映射表内记录有每一目标属性对应的查询优先级,通过该查询优先级映射表能够获取到SAm,r。
可以理解的是,Am,r对应的优先级为Am,r被查询的频率,被查询的频率越高,表示该第一历史数据压缩包的重要程度越高。
可选的,TAm,j内任意两个子第一历史数据压缩包的大小相等。
本实施例中,将Am,j平均分割为h(m)个子历史数据压缩包,使得h(m)个机械硬盘中每一机械硬盘所存储的Am,j的子第一历史数据压缩包的大小相同,在后期获取Am,j时,从每一机械硬盘获取Am,j的子第一历史数据压缩包的时间相同,从而达到均衡从每一机械硬盘获取Am,j的子第一历史数据压缩包的时间的效果,同时,也使得获取Am,j所用的时间最短,获取效率最高。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。参见图2,程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
参见图3,本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
根据本申请的这种实施方式的电子设备。电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:上述至少一个处理器、上述至少一个储存器、连接不同系统组件(包括储存器和处理器)的总线。
其中,所述储存器存储有程序代码,所述程序代码可以被所述处理器执行,使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的步骤。
储存器可以包括易失性储存器形式的可读介质,例如随机存取储存器(RAM)和/或高速缓存储存器,还可以进一步包括只读储存器(ROM)。
储存器还可以包括具有一组(至少一个)程序模块的程序/实用工具,这样的程序模块包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线可以为表示几类总线结构中的一种或多种,包括储存器总线或者储存器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
电子设备也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器通过总线与电子设备的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (9)
1.一种数据获取方法,其特征在于,所述方法包括以下步骤:
步骤100,响应于用户的目标历史数据查询操作,获取目标历史数据查询指令SQ=(TG,SG,MG);其中,TG为目标历史数据对应的时间点或时间段,SG为目标历史数据对应的操作系统类型标识,MG为目标历史数据对应的目标属性;
步骤200,获取所有的查询索引,以得到查询索引集ST=(ST1,ST2,…,STa,…,STb),a=1,2,…,b;其中,STa为第a个查询索引,b为查询索引的数量;每一查询索引包括树状结构的三个层级,第一层级包括历史数据对应的时间窗口信息,第二层级包括属于同一时间窗口信息的若干操作系统类型标识,第三层级包括每一操作系统类型标识对应的若干历史数据压缩包信息;每一历史数据压缩包信息包括历史数据压缩包中历史数据的目标属性和历史数据压缩包的存储位置信息;
步骤300,根据TG,遍历ST中每一查询索引的第一层级,以确定出若干目标查询索引;其中,每一目标查询索引的第一层级的时间窗口信息对应的时间窗口与TG存在重合;
步骤400,根据SG,遍历每一目标查询索引的第二层级,以在所有的目标查询索引中确定出若干目标操作系统类型标识;其中,每一目标操作系统类型标识与SG相同;
步骤500,根据MG,遍历每一目标操作系统类型标识对应的每一历史数据压缩包信息,以得到若干目标历史数据压缩包信息;其中,每一历史数据压缩包信息包括对应的历史数据压缩包的存储起始地址和存储终止地址;
步骤600,根据每一目标历史数据压缩包信息对应的时间窗口信息和操作系统类型标识,确定出每一目标历史数据压缩包对应的目标硬盘标识列表;
步骤700,根据每一目标历史数据压缩包信息对应的历史数据压缩包的存储起始地址和存储终止地址,从所述目标硬盘标识列表中每一目标硬盘标识对应的目标机械硬盘中获取每一目标历史数据压缩包;
所述目标属性通过以下步骤确定:
步骤110,获取预设的历史时间段内接收到的若干第二历史数据,确定出若干候选属性列表;每一候选属性列表包括若干候选属性;每一第二历史数据在对应的候选属性列表中具有一个唯一对应的候选属性;
步骤120,根据若干候选属性列表对所有第二历史数据进行分组,以得到若干第二历史数据组列表;其中,每一第二历史数据组列表内的每一第二历史数据组对应的候选属性列表相同;
步骤130,对每一第二历史数据组列表内的每一第二历史数据组进行压缩,以得到每一候选属性列表对应的第二历史数据压缩包列表;
步骤140,获取每一候选属性列表对应的第二历史数据读写时长,以得到每一候选属性列表对应的读写时长;其中,候选属性列表对应的读写时长为将该候选属性列表对应的每一第二历史数据压缩包存储于预设的固定存储区域,并从所述固定存储区域读取预设数量的第二历史数据样本所用的时长;
步骤150,将第二历史数据读写时长最短的候选属性列表内的候选属性作为目标属性。
2.根据权利要求1所述的数据获取方法,其特征在于,步骤400包括以下步骤:
步骤410,获取n1个目标查询索引对应的初始第一向量GP=(GP1,GP2,…,GPm1,…,GPn1),m1=1,2,…,n1;其中,GPm1为GP内的第m1个目标查询索引对应的第一目标操作系统命中标识,GP内的每一第一目标操作系统命中标识的初始状态为第一状态;
步骤420,根据SG,遍历每一目标查询索引的第二层级;
步骤430,若第m1个目标查询索引的第二层级对应的若干操作系统类型中存在与SG对应的操作系统类型相同的操作系统类型,则将GPm1的第一状态更改为第二状态;否则,保持GPm1的状态为第一状态;以得到n1个目标查询索引对应的目标第一向量GP’=(GP’1,GP’2,…,GP’m1,…,GP’n1);其中,GP’m1为GP’内的第m1个目标查询索引对应的第二目标操作系统命中标识;
步骤440,获取GP’内状态为第二状态的每一第二目标操作系统命中标识,以得到中间目标操作系统命中标识列表WGP=(WGP1,WGP2,…,WGPm2,…,WGPn2),m2=1,2,…,n2;其中,WGPm2为WGP内的第m2个中间目标操作系统命中标识,n2为WGP内中间目标操作系统命中标识的数量;
步骤450,将WGP内每一中间目标操作系统命中标识对应的操作系统类型确定为目标操作系统类型,以得到n2个目标操作系统类型。
3.根据权利要求2所述的数据获取方法,其特征在于,步骤500包括以下步骤:
步骤510,根据MG,遍历GP’内状态为第二状态的每一第二目标操作系统命中标识对应的第三层级;
步骤520,若第m1个目标操作系统类型对应的第三层级对应的若干历史数据压缩包信息对应的目标属性中存在与MG相同的历史数据压缩包信息,则保持GP’m1的状态为第二状态;否则,将GP’m1的状态更改为第一状态;以得到n1个目标查询索引对应的目标第二向量LGP’=(LGP’1,LGP’2,…,LGP’m1,…,LGP’n1);其中,LGP’m1为第m1目标查询索引对应的目标历史数据压缩包信息命中标识;
步骤530,获取LGP’内状态为第二状态的每一目标历史数据压缩包信息命中标识,以得到中间目标历史数据压缩包信息命中标识列表WGP’=(WGP’1,WGP’2,…,WGP’m3,…,WGP’n3),m3=1,2,…,n3;其中,WGP’m3为WGP’内的第m3个中间目标历史数据压缩包信息命中标识,n3为WGP’内中间目标历史数据压缩包信息命中标识的数量;
步骤540,将WGP’内每一中间目标历史数据压缩包信息命中标识对应的历史数据压缩包信息确定为目标历史数据压缩包信息,以得到n3个目标历史数据压缩包信息。
4.根据权利要求2所述的数据获取方法,其特征在于,步骤600包括以下步骤:
步骤610,获取预设的机械硬盘标识映射表;其中,所述机械硬盘标识映射表包括b行,分别对应每一查询索引的时间窗口信息;每一行内包括对应的查询索引的第二层级的每一操作系统对应的硬盘标识列表;
步骤620,根据每一目标历史数据压缩包信息对应的时间窗口信息,遍历所述机械硬盘标识映射表每一行对应的查询索引的时间窗口信息,以得到若干候选查询索引;
步骤630,根据每一目标历史数据压缩包信息对应的操作系统类型标识,从若干候选查询索引的第二层级对应的若干操作系统类型标识中确定出若干目标操作系统类型标识;
步骤640,获取每一目标操作系统类型标识对应的目标硬盘标识列表,以得到目标硬盘标识列表集HT=(HT1,HT2,…,HTm2,…,HTn2);其中,HTm2为第m2个目标操作系统类型标识对应的目标硬盘标识列表;HTm2=(HTm2,1,HTm2,2,…,HTm2,v,…,HTm2,u(m2)),v=1,2,…,u(m2);其中,HTm2,v为第m2个目标操作系统类型标识对应的目标硬盘标识列表中的第v个机械硬盘标识,u(m2)为第m2个目标操作系统类型标识对应的目标硬盘标识列表中机械硬盘标识的数量。
5.根据权利要求4所述的数据获取方法,其特征在于,步骤700包括以下步骤:
步骤710,获取每一目标历史数据压缩包信息对应的历史数据压缩包的存储区域标识,以得到目标历史数据存储区域标识列表KT=(KT1,KT2,…,KTm3m3,…,KTn3)m3;m3其中,KTm3为第m3个目标历史数据压缩包信息对应的历史数据压缩包的存储区域标识,n3为目标历史数据压缩包信息的数量;KTm3=(KTm3,1,KTm3,2),KTm3,1为第m3个目标历史数据压缩包信息对应的历史数据压缩包的存储起始地址,KTm3,2为第m3个目标历史数据压缩包信息对应的历史数据压缩包的存储终止地址;
步骤720,从HT中获取第m3个目标历史数据压缩包信息对应的目标操作系统对应的目标硬盘标识列表HTm0;其中,m0的取值为1到n2之间的整数;
步骤730,获取HTm0内每一机械硬盘标识对应的每一机械硬盘上KTm3,1至KTm3,2之间存储的子目标历史数据压缩包,以得到第m3个目标历史数据压缩包对应的若干子目标历史数据压缩包;
步骤740,将第m3个目标历史数据压缩包对应的若干子目标历史数据压缩包进行整合,以得到第m3个目标历史数据压缩包。
6.根据权利要求1所述的数据获取方法,其特征在于,所述获取每一候选属性列表对应的第二历史数据读写时长包括以下步骤:
步骤141,针对任一候选属性列表,获取将该候选属性列表对应的每一第二历史数据压缩包存储于预设的固定存储空间所用的第一时长;
步骤142,获取从存储有将该候选属性列表对应的每一第二历史数据压缩包的固定存储空间内,读取预设数量的第二历史数据样本所用的第二时长;
步骤143,根据所述第一时长和所述第二时长,确定该候选属性列表对应的第二历史数据读写时长。
7.根据权利要求6所述的数据获取方法,其特征在于,根据所述第一时长和所述第二时长,确定该候选属性列表对应的第二历史数据读写时长,包括以下步骤:
步骤2431,获取预设的第一权重和第二权重;其中,第一权重小于第二权重,第一权重和第二权重之和等于1;
步骤2432,将第一权重和第一时长的乘积与第二权重和第二时长的乘积之和作为第二历史数据读写时长。
8.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7中任意一项所述的数据获取方法。
9.一种电子设备,其特征在于,包括处理器和权利要求8中所述的非瞬时性计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311128540.3A CN116860761B (zh) | 2023-09-04 | 2023-09-04 | 一种数据获取方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311128540.3A CN116860761B (zh) | 2023-09-04 | 2023-09-04 | 一种数据获取方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116860761A CN116860761A (zh) | 2023-10-10 |
CN116860761B true CN116860761B (zh) | 2023-11-17 |
Family
ID=88228984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311128540.3A Active CN116860761B (zh) | 2023-09-04 | 2023-09-04 | 一种数据获取方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116860761B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299108A (zh) * | 2018-11-05 | 2019-02-01 | 江苏瑞中数据股份有限公司 | 一种可变频率的wams实时数据库管理方法与系统 |
CN113434471A (zh) * | 2021-06-24 | 2021-09-24 | 平安国际智慧城市科技股份有限公司 | 数据处理方法、装置、设备及计算机存储介质 |
CN115481104A (zh) * | 2022-09-09 | 2022-12-16 | 航天信息股份有限公司 | 一种数据查询方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110202499A1 (en) * | 2010-02-12 | 2011-08-18 | Dell Products L.P. | Universal Traceability Strategy |
-
2023
- 2023-09-04 CN CN202311128540.3A patent/CN116860761B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299108A (zh) * | 2018-11-05 | 2019-02-01 | 江苏瑞中数据股份有限公司 | 一种可变频率的wams实时数据库管理方法与系统 |
CN113434471A (zh) * | 2021-06-24 | 2021-09-24 | 平安国际智慧城市科技股份有限公司 | 数据处理方法、装置、设备及计算机存储介质 |
CN115481104A (zh) * | 2022-09-09 | 2022-12-16 | 航天信息股份有限公司 | 一种数据查询方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116860761A (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595157B (zh) | 区块链数据的处理方法、装置、设备和存储介质 | |
US11620204B2 (en) | Methods and systems for determining system capacity | |
US10713589B1 (en) | Consistent sort-based record-level shuffling of machine learning data | |
CN110995459B (zh) | 异常对象识别方法、装置、介质及电子设备 | |
CN102725753B (zh) | 优化数据访问的方法及装置、优化数据存储的方法及装置 | |
CN111506396B (zh) | 用于构建具有优化结果的有效机器学习流水线的系统 | |
CN109558525B (zh) | 一种测试数据集的生成方法、装置、设备和存储介质 | |
US9852180B2 (en) | Systems and methods of accessing distributed data | |
EP3356951B1 (en) | Managing a database of patterns used to identify subsequences in logs | |
CN111339078A (zh) | 数据实时存储方法、数据查询方法、装置、设备、介质 | |
EP3748507B1 (en) | Automated software testing | |
US20230394307A1 (en) | Data caching method and apparatus for multiple concurrent deep learning training tasks | |
US11966356B2 (en) | Efficient usage of one-sided RDMA for linear probing | |
CN109388614A (zh) | 一种目录文件个数配额的方法、系统及设备 | |
CN111813517B (zh) | 任务队列的分配方法、装置、计算机设备及介质 | |
US11847121B2 (en) | Compound predicate query statement transformation | |
CN114332353A (zh) | 一种三维模型匹配方法、装置及电子设备和存储介质 | |
CN116860761B (zh) | 一种数据获取方法、电子设备及存储介质 | |
CN116560968A (zh) | 一种基于机器学习的仿真计算时间预测方法、系统及设备 | |
CN116860183B (zh) | 一种数据存储方法、电子设备及存储介质 | |
US11720554B2 (en) | Iterative query expansion for document discovery | |
CN115185998A (zh) | 目标字段查找方法及装置、服务器、计算机可读存储介质 | |
CA3069090C (en) | Optimal query scheduling according to data freshness requirements | |
US20230214394A1 (en) | Data search method and apparatus, electronic device and storage medium | |
US11481130B2 (en) | Method, electronic device and computer program product for processing operation commands |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |