CN117472967B - 一种基于数据使用热度的数据生命周期管理方法及系统 - Google Patents
一种基于数据使用热度的数据生命周期管理方法及系统 Download PDFInfo
- Publication number
- CN117472967B CN117472967B CN202311831008.8A CN202311831008A CN117472967B CN 117472967 B CN117472967 B CN 117472967B CN 202311831008 A CN202311831008 A CN 202311831008A CN 117472967 B CN117472967 B CN 117472967B
- Authority
- CN
- China
- Prior art keywords
- access
- data
- database
- target data
- span
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001550 time effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据使用热度的数据生命周期管理方法及系统,方法包括:根据在第一时间段内的各个目标数据的第一访问频次和同一数据的第一最大访问跨度将缓存队列中的各个目标数据存储至预设的数据库中;在第二时间段内获取至少一个访问数据的第二访问频次以及第二最大访问跨度,并判断第二访问频次是否大于第一访问频次以及第二最大访问跨度是否大于第一最大访问跨度;若大于第一访问频次且大于第一最大访问跨度,则将当前存储在冷数据子库的至少一个访问数据重新存储至温数据子库中。降低了频繁的更换存储位置可能会导致数据丢失的现象发生,而且解决了可能会导致访问效率降低的问题。
Description
技术领域
本发明属于数据管理技术领域,尤其涉及一种基于数据使用热度的数据生命周期管理方法及系统。
背景技术
目前,一般基于Hadoop、对象存储、OLAP分析型数据库等大数据生态圈组件对数据进行采集、存储、整合、呈现与使用、分析与应用、归档和销毁。还有根据数据使用频率和热度包括数据最后访问时间、分区值、分区/表最后修改时间等规则类型,对数据进行定期存储类型转换,以节省数据存储成本。结合元数据定义数据生命周期实现自动化存储转换以实现对数据生命周期进行管理。
但是目前对数据生命周期进行管理的过程中,只是将上传的数据直接进行随机划分热度,然后再在访问数据的同时,不断定义数据的热度,并根据定义结果再次更换存储位置。这样频繁的更换存储位置可能会导致数据丢失的现象发生,而且可能会导致访问效率降低。
发明内容
本发明提供一种基于数据使用热度的数据生命周期管理方法及系统,用于解决频繁的更换存储位置可能会导致数据丢失的现象发生,而且可能会导致访问效率降低的技术问题。
第一方面,本发明提供一种基于数据使用热度的数据生命周期管理方法,包括:获取上传的至少一个目标数据,将所述至少一个目标数据保存至缓存队列中;在缓存队列中的数据量达到预设阈值时,根据在第一时间段内的各个数据的第一访问频次和同一数据的第一最大访问跨度将所述缓存队列中的各个目标数据存储至预设的数据库中,所述数据库包括热数据子库、温数据子库和/或冷数据子库内,其中,所述第一访问频次和所述第一最大访问跨度发生在访问所述缓存队列中各个目标数据时;当发生数据访问操作时,根据至少一个访问请求在热数据子库、温数据子库和/或冷数据子库中查找与所述至少一个访问请求相对应的至少一个访问数据;在第二时间段内获取所述至少一个访问数据的第二访问频次以及第二最大访问跨度,并判断所述第二访问频次是否大于所述第一访问频次以及所述第二最大访问跨度是否大于第一最大访问跨度,其中,所述第二时间段的时间长度大于所述第一时间段的时间长度;若所述第二访问频次大于所述第一访问频次且所述第二最大访问跨度大于所述第一最大访问跨度,则将当前存储在冷数据子库的至少一个访问数据重新存储至温数据子库中,以及将当前存储在温数据子库的至少一个访问数据重新存储至热数据子库中。
第二方面,本发明提供一种基于数据使用热度的数据生命周期管理系统,包括:获取模块,配置为获取上传的至少一个目标数据,将所述至少一个目标数据保存至缓存队列中;存储模块,配置为在缓存队列中的数据量达到预设阈值时,根据在第一时间段内的各个数据的第一访问频次和同一数据的第一最大访问跨度将所述缓存队列中的各个目标数据存储至预设的数据库中,所述数据库包括热数据子库、温数据子库和/或冷数据子库内,其中,所述第一访问频次和所述第一最大访问跨度发生在访问所述缓存队列中各个目标数据时;查找模块,配置为当发生数据访问操作时,根据至少一个访问请求在热数据子库、温数据子库和/或冷数据子库中查找与所述至少一个访问请求相对应的至少一个访问数据;判断模块,配置为在第二时间段内获取所述至少一个访问数据的第二访问频次以及第二最大访问跨度,并判断所述第二访问频次是否大于所述第一访问频次以及所述第二最大访问跨度是否大于第一最大访问跨度,其中,所述第二时间段的时间长度大于所述第一时间段的时间长度;更新模块,配置为若所述第二访问频次大于所述第一访问频次且所述第二最大访问跨度大于所述第一最大访问跨度,则将当前存储在冷数据子库的至少一个访问数据重新存储至温数据子库中,以及将当前存储在温数据子库的至少一个访问数据重新存储至热数据子库中。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的基于数据使用热度的数据生命周期管理方法的步骤。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序指令被处理器执行时,使所述处理器执行本发明任一实施例的基于数据使用热度的数据生命周期管理方法的步骤。
本申请的基于数据使用热度的数据生命周期管理方法及系统,通过在第二时间段内获取至少一个访问数据的第二访问频次以及第二最大访问跨度,判断第二访问频次是否大于第一访问频次以及第二最大访问跨度是否大于第一最大访问跨度,能对数据的存储位置进行动态存储,而且由于通过第一访问频次以及第一最大访问跨度的筛选,会使得这次动态存储的调整不会很大,从而在保证了数据存储的合理性的同时,降低了频繁的更换存储位置可能会导致数据丢失的现象发生,而且解决了可能会导致访问效率降低的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种基于数据使用热度的数据生命周期管理方法的流程图;
图2为本发明一实施例提供的一种基于数据使用热度的数据生命周期管理系统的结构框图;
图3是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本申请的一种基于数据使用热度的数据生命周期管理方法的流程图。
如图1所示,基于数据使用热度的数据生命周期管理方法具体包括以下步骤:
步骤S101,获取上传的至少一个目标数据,将所述至少一个目标数据保存至缓存队列中。
在本步骤中,缓存队列包括传输子队列以及与传输子队列连通的存储子队列。
需要说明的是,获取不同时间段内上传至传输子队列中的至少一个目标数据集,其中,一目标数据集中包含一时间段内各个时间节点对应的目标数据;确定至少一个目标数据集中的数据量,基于数据量由小至大的顺序将至少一个目标数据集存储至存储子队列中,并判断存储子队列中的数据量是否达到预设数据量阈值。
在本实施例中,由于一段连续时间内上传的目标数据,其数据类型更偏向于相同或一致,若是直接将很长一段连续时间内上传的目标数据直接存储至存储子队列中,这样可能会因为第一时间段内的数据类型不丰富,导致后续出现在第一时间段内目标数据全部属于或者极大部分属于热数据子库中,或者全部属于或极大部分属于冷数据子库。因此,获取不同时间段内上传至传输子队列中的至少一个目标数据集,确定至少一个目标数据集中的数据量,基于数据量由小至大的顺序将至少一个目标数据集存储至存储子队列中,这样能够实现更加有效的将目标数据进行存储。
在一个具体实施例中,在缓存队列中的数据量未达到预设数据量阈值时,将至少一个目标数据一直存储在缓存队列中。具体为,在存储子队列中的数据量未达到预设数据量阈值时,将至少一个目标数据一直存储在存储子队列中。
步骤S102,在缓存队列中的数据量达到预设数据量阈值时,根据在第一时间段内的各个目标数据的第一访问频次和同一数据的第一最大访问跨度将所述缓存队列中的各个目标数据存储至预设的数据库中,所述数据库包括热数据子库、温数据子库和/或冷数据子库内,其中,所述第一访问频次和所述第一最大访问跨度发生在访问所述缓存队列中各个目标数据时。
在本步骤中,获取在第一时间段内的某一目标数据的第一访问频次和第一最大访问跨度,第一访问频次为在第一时间段内与某一目标数据相对应的访问请求的次数,第一最大访问跨度为在第一时间段内与某一目标数据相对应的相邻两个访问请求的最大时间间隔,其中,第一时间段为在缓存队列中的数据量达到预设数据量阈值后的一段时间;判断某一目标数据的第一访问频次是否大于预设频次阈值以及某一目标数据的第一最大访问跨度是否大于预设时间阈值;若某一目标数据的第一访问频次大于预设频次阈值以及某一目标数据的第一最大访问跨度不大于预设时间阈值,则将某一目标数据存储至热数据子库中;若某一目标数据的第一访问频次大于预设频次阈值以及某一目标数据的第一最大访问跨度大于预设时间阈值,或某一目标数据的第一访问频次不大于预设频次阈值以及某一目标数据的第一最大访问跨度不大于预设时间阈值,则将某一目标数据存储至温数据子库中;若某一目标数据的第一访问频次不大于预设频次阈值以及某一目标数据的第一最大访问跨度大于预设时间阈值,则将某一目标数据存储至冷数据子库中。
需要说明的是,在第一时间段内获取的各个目标数据的第一访问频次和同一数据的第一最大访问跨度,而且第一时间段为在缓存队列中的数据量达到预设数据量阈值后的一段时间。这样降低存储数据时间先后顺序导致第一访问频次和第一最大访问跨度的统计不够合理的现象发生。
例如,在一星期内,预设频次阈值设置为10次,预设时间阈值设置为2天。从而判断在一星期内某一目标数据的第一访问频次是否大于10次以及某一目标数据的第一最大访问跨度是否大于2天。
在一个具体实施例中,对热数据子库、温数据子库和冷数据子库分别设置保存时效。对热数据子库、温数据子库和冷数据子库中超过相应时效的数据进行删除。具体为,对存储在热数据子库的时间超过第一预设时间阈值的某一目标数据进行删除;对存储在温数据子库的时间超过第二预设时间阈值的某一目标数据进行删除;对存储在冷数据子库的时间超过第二预设时间阈值的某一目标数据进行删除。
例如,第一预设时间阈值设置为120天,第二预设时间阈值设置为60天,第二预设时间阈值设置为30天。
步骤S103,当发生数据访问操作时,根据至少一个访问请求在热数据子库、温数据子库和/或冷数据子库中查找与所述至少一个访问请求相对应的至少一个访问数据。
步骤S104,在第二时间段内获取所述至少一个访问数据的第二访问频次以及第二最大访问跨度,并判断所述第二访问频次是否大于所述第一访问频次以及所述第二最大访问跨度是否大于第一最大访问跨度,其中,所述第二时间段的时间长度大于所述第一时间段的时间长度。
在本步骤中,通过在第二时间段内获取至少一个访问数据的第二访问频次以及第二最大访问跨度,判断第二访问频次是否大于第一访问频次以及第二最大访问跨度是否大于第一最大访问跨度,能对数据的存储位置进行动态存储,而且由于通过第一访问频次以及第一最大访问跨度的筛选,会使得这次动态存储的调整不会很大,从而在保证了数据存储的合理性的同时,降低了频繁的更换存储位置可能会导致数据丢失的现象发生,而且解决了可能会导致访问效率降低的问题。
需要说明的是,若第二访问频次大于第一访问频次且第二最大访问跨度不大于第一最大访问跨度,则将当前存储在冷数据子库和温数据子库的至少一个访问数据全部重新存储至热数据子库中;若第二访问频次不大于第一访问频次且第二最大访问跨度大于第一最大访问跨度,则不改变至少一个访问数据的存储位置;若第二访问频次不大于第一访问频次且第二最大访问跨度不大于第一最大访问跨度,则将当前存储在冷数据子库的至少一个访问数据重新存储至温数据子库中,以及将当前存储在温数据子库的至少一个访问数据重新存储至热数据子库中。
步骤S105,若所述第二访问频次大于所述第一访问频次且所述第二最大访问跨度大于所述第一最大访问跨度,则将当前存储在冷数据子库的至少一个访问数据重新存储至温数据子库中,以及将当前存储在温数据子库的至少一个访问数据重新存储至热数据子库中。
综上,本申请的方法,通过在第二时间段内获取至少一个访问数据的第二访问频次以及第二最大访问跨度,判断第二访问频次是否大于第一访问频次以及第二最大访问跨度是否大于第一最大访问跨度,能对数据的存储位置进行动态存储,而且由于通过第一访问频次以及第一最大访问跨度的筛选,会使得这次动态存储的调整不会很大,从而在保证了数据存储的合理性的同时,降低了频繁的更换存储位置可能会导致数据丢失的现象发生,而且解决了可能会导致访问效率降低的问题。
请参阅图2,其示出了本申请的一种基于数据使用热度的数据生命周期管理系统的结构框图。
如图2所示,数据生命周期管理系统200,包括获取模块210、存储模块220、查找模块230、判断模块240以及更新模块250。
其中,获取模块210,配置为获取上传的至少一个目标数据,将所述至少一个目标数据保存至缓存队列中;存储模块220,配置为在缓存队列中的数据量达到预设阈值时,根据在第一时间段内的各个目标数据的第一访问频次和同一数据的第一最大访问跨度将所述缓存队列中的各个目标数据存储至预设的数据库中,所述数据库包括热数据子库、温数据子库和/或冷数据子库内,其中,所述第一访问频次和所述第一最大访问跨度发生在访问所述缓存队列中各个目标数据时;查找模块230,配置为当发生数据访问操作时,根据至少一个访问请求在热数据子库、温数据子库和/或冷数据子库中查找与所述至少一个访问请求相对应的至少一个访问数据;判断模块240,配置为在第二时间段内获取所述至少一个访问数据的第二访问频次以及第二最大访问跨度,并判断所述第二访问频次是否大于所述第一访问频次以及所述第二最大访问跨度是否大于第一最大访问跨度,其中,所述第二时间段的时间长度大于所述第一时间段的时间长度;更新模块250,配置为若所述第二访问频次大于所述第一访问频次且所述第二最大访问跨度大于所述第一最大访问跨度,则将当前存储在冷数据子库的至少一个访问数据重新存储至温数据子库中,以及将当前存储在温数据子库的至少一个访问数据重新存储至热数据子库中。
应当理解,图2中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图2中的诸模块,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序指令被处理器执行时,使所述处理器执行上述任意方法实施例中的基于数据使用热度的数据生命周期管理方法;
作为一种实施方式,本发明的计算机可读存储介质存储有计算机可执行指令,计算机可执行指令设置为:
获取上传的至少一个目标数据,将所述至少一个目标数据保存至缓存队列中;
在缓存队列中的数据量达到预设数据量阈值时,根据在第一时间段内的各个目标数据的第一访问频次和同一数据的第一最大访问跨度将所述缓存队列中的各个目标数据存储至预设的数据库中,所述数据库包括热数据子库、温数据子库和/或冷数据子库内,其中,所述第一访问频次和所述第一最大访问跨度发生在访问所述缓存队列中各个目标数据时;
当发生数据访问操作时,根据至少一个访问请求在热数据子库、温数据子库和/或冷数据子库中查找与所述至少一个访问请求相对应的至少一个访问数据;
在第二时间段内获取所述至少一个访问数据的第二访问频次以及第二最大访问跨度,并判断所述第二访问频次是否大于所述第一访问频次以及所述第二最大访问跨度是否大于第一最大访问跨度,其中,所述第二时间段的时间长度大于所述第一时间段的时间长度;
若所述第二访问频次大于所述第一访问频次且所述第二最大访问跨度大于所述第一最大访问跨度,则将当前存储在冷数据子库的至少一个访问数据重新存储至温数据子库中,以及将当前存储在温数据子库的至少一个访问数据重新存储至热数据子库中。
计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据基于数据使用热度的数据生命周期管理系统的使用所创建的数据等。此外,计算机可读存储介质可以包括高速随机存取存储器,还可以包括存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至基于数据使用热度的数据生命周期管理系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
图3是本发明实施例提供的电子设备的结构示意图,如图3所示,该设备包括:一个处理器310以及存储器320。电子设备还可以包括:输入装置330和输出装置340。处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接,图3中以通过总线连接为例。存储器320为上述的计算机可读存储介质。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例基于数据使用热度的数据生命周期管理方法。输入装置330可接收输入的数字或字符信息,以及产生与基于数据使用热度的数据生命周期管理系统的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。
上述电子设备可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于基于数据使用热度的数据生命周期管理系统中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取上传的至少一个目标数据,将所述至少一个目标数据保存至缓存队列中;
在缓存队列中的数据量达到预设数据量阈值时,根据在第一时间段内的各个目标数据的第一访问频次和同一数据的第一最大访问跨度将所述缓存队列中的各个目标数据存储至预设的数据库中,所述数据库包括热数据子库、温数据子库和/或冷数据子库内,其中,所述第一访问频次和所述第一最大访问跨度发生在访问所述缓存队列中各个目标数据时;
当发生数据访问操作时,根据至少一个访问请求在热数据子库、温数据子库和/或冷数据子库中查找与所述至少一个访问请求相对应的至少一个访问数据;
在第二时间段内获取所述至少一个访问数据的第二访问频次以及第二最大访问跨度,并判断所述第二访问频次是否大于所述第一访问频次以及所述第二最大访问跨度是否大于第一最大访问跨度,其中,所述第二时间段的时间长度大于所述第一时间段的时间长度;
若所述第二访问频次大于所述第一访问频次且所述第二最大访问跨度大于所述第一最大访问跨度,则将当前存储在冷数据子库的至少一个访问数据重新存储至温数据子库中,以及将当前存储在温数据子库的至少一个访问数据重新存储至热数据子库中。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于数据使用热度的数据生命周期管理方法,其特征在于,包括:
获取上传的至少一个目标数据,将所述至少一个目标数据保存至缓存队列中,所述缓存队列包括传输子队列以及与所述传输子队列连通的存储子队列;
所述获取上传的至少一个目标数据,将所述至少一个目标数据保存至缓存队列中包括:
获取不同时间段内上传至所述传输子队列中的至少一个目标数据集,其中,一目标数据集中包含一时间段内各个时间节点对应的目标数据;
确定所述至少一个目标数据集中的数据量,基于数据量由小至大的顺序将所述至少一个目标数据集存储至所述存储子队列中,并判断所述存储子队列中的数据量是否达到预设数据量阈值;
在缓存队列中的数据量达到预设数据量阈值时,根据在第一时间段内的各个目标数据的第一访问频次和同一数据的第一最大访问跨度将所述缓存队列中的各个目标数据存储至预设的数据库中,所述数据库包括热数据子库、温数据子库和/或冷数据子库内,其中,所述第一访问频次和所述第一最大访问跨度发生在访问所述缓存队列中各个目标数据时,所述第一访问频次为在第一时间段内与某一目标数据相对应的访问请求的次数,所述第一最大访问跨度为在第一时间段内与所述某一目标数据相对应的相邻两个访问请求的最大时间间隔;
当发生数据访问操作时,根据至少一个访问请求在热数据子库、温数据子库和/或冷数据子库中查找与所述至少一个访问请求相对应的至少一个访问数据;
在第二时间段内获取所述至少一个访问数据的第二访问频次以及第二最大访问跨度,并判断所述第二访问频次是否大于所述第一访问频次以及所述第二最大访问跨度是否大于第一最大访问跨度,其中,所述第二时间段的时间长度大于所述第一时间段的时间长度;
若所述第二访问频次大于所述第一访问频次且所述第二最大访问跨度大于所述第一最大访问跨度,则将当前存储在冷数据子库的至少一个访问数据重新存储至温数据子库中,以及将当前存储在温数据子库的至少一个访问数据重新存储至热数据子库中。
2.根据权利要求1所述的一种基于数据使用热度的数据生命周期管理方法,其特征在于,在获取上传的至少一个目标数据,将所述至少一个目标数据保存至缓存队列中之后,所述方法还包括:
在缓存队列中的数据量未达到预设数据量阈值时,将所述至少一个目标数据一直存储在所述缓存队列中。
3.根据权利要求1所述的一种基于数据使用热度的数据生命周期管理方法,其特征在于,所述根据在第一时间段内的各个目标数据的第一访问频次和同一数据的第一最大访问跨度将所述缓存队列中的各个目标数据存储至预设的数据库中包括:
获取在第一时间段内的某一目标数据的第一访问频次和第一最大访问跨度,其中,所述第一时间段为在缓存队列中的数据量达到预设数据量阈值后的一段时间;
判断某一目标数据的第一访问频次是否大于预设频次阈值以及某一目标数据的第一最大访问跨度是否大于预设时间阈值;
若某一目标数据的第一访问频次大于预设频次阈值以及某一目标数据的第一最大访问跨度不大于预设时间阈值,则将所述某一目标数据存储至所述热数据子库中;
若某一目标数据的第一访问频次大于预设频次阈值以及某一目标数据的第一最大访问跨度大于预设时间阈值,或某一目标数据的第一访问频次不大于预设频次阈值以及某一目标数据的第一最大访问跨度不大于预设时间阈值,则将所述某一目标数据存储至所述温数据子库中;
若某一目标数据的第一访问频次不大于预设频次阈值以及某一目标数据的第一最大访问跨度大于预设时间阈值,则将所述某一目标数据存储至所述冷数据子库中。
4.根据权利要求1所述的一种基于数据使用热度的数据生命周期管理方法,其特征在于,在根据在第一时间段内的各个数据的第一访问频次和同一数据的第一最大访问跨度将所述缓存队列中的各个目标数据存储至预设的数据库中之后,所述方法还包括:
对存储在所述热数据子库的时间超过第一预设时间阈值的某一目标数据进行删除;
对存储在所述温数据子库的时间超过第二预设时间阈值的某一目标数据进行删除;
对存储在所述冷数据子库的时间超过第三预设时间阈值的某一目标数据进行删除。
5.根据权利要求1所述的一种基于数据使用热度的数据生命周期管理方法,其特征在于,在判断所述第二访问频次是否大于所述第一访问频次以及所述第二最大访问跨度是否大于第一最大访问跨度之后,所述方法还包括:
若所述第二访问频次大于所述第一访问频次且所述第二最大访问跨度不大于所述第一最大访问跨度,则将当前存储在冷数据子库和温数据子库的至少一个访问数据全部重新存储至热数据子库中,所述缓存队列包括传输子队列以及与所述传输子队列连通的存储子队列;
所述获取上传的至少一个目标数据,将所述至少一个目标数据保存至缓存队列中包括:
获取不同时间段内上传至所述传输子队列中的至少一个目标数据集,其中,一目标数据集中包含一时间段内各个时间节点对应的目标数据;
确定所述至少一个目标数据集中的数据量,基于数据量由小至大的顺序将所述至少一个目标数据集存储至所述存储子队列中,并判断所述存储子队列中的数据量是否达到预设数据量阈值;
若所述第二访问频次不大于所述第一访问频次且所述第二最大访问跨度大于所述第一最大访问跨度,则不改变至少一个访问数据的存储位置;
若所述第二访问频次不大于所述第一访问频次且所述第二最大访问跨度不大于所述第一最大访问跨度,则将当前存储在冷数据子库的至少一个访问数据重新存储至温数据子库中,以及将当前存储在温数据子库的至少一个访问数据重新存储至热数据子库中。
6.一种基于数据使用热度的数据生命周期管理系统,其特征在于,包括:
获取模块,配置为获取上传的至少一个目标数据,将所述至少一个目标数据保存至缓存队列中,所述获取上传的至少一个目标数据,将所述至少一个目标数据保存至缓存队列中包括:
获取不同时间段内上传至传输子队列中的至少一个目标数据集,其中,一目标数据集中包含一时间段内各个时间节点对应的目标数据;
确定所述至少一个目标数据集中的数据量,基于数据量由小至大的顺序将所述至少一个目标数据集存储至存储子队列中,并判断所述存储子队列中的数据量是否达到预设数据量阈值;
存储模块,配置为在缓存队列中的数据量达到预设阈值时,根据在第一时间段内的各个目标数据的第一访问频次和同一数据的第一最大访问跨度将所述缓存队列中的各个目标数据存储至预设的数据库中,所述数据库包括热数据子库、温数据子库和/或冷数据子库内,其中,所述第一访问频次和所述第一最大访问跨度发生在访问所述缓存队列中各个目标数据时,所述第一访问频次为在第一时间段内与某一目标数据相对应的访问请求的次数,所述第一最大访问跨度为在第一时间段内与所述某一目标数据相对应的相邻两个访问请求的最大时间间隔;
查找模块,配置为当发生数据访问操作时,根据至少一个访问请求在热数据子库、温数据子库和/或冷数据子库中查找与所述至少一个访问请求相对应的至少一个访问数据;
判断模块,配置为在第二时间段内获取所述至少一个访问数据的第二访问频次以及第二最大访问跨度,并判断所述第二访问频次是否大于所述第一访问频次以及所述第二最大访问跨度是否大于第一最大访问跨度,其中,所述第二时间段的时间长度大于所述第一时间段的时间长度;
更新模块,配置为若所述第二访问频次大于所述第一访问频次且所述第二最大访问跨度大于所述第一最大访问跨度,则将当前存储在冷数据子库的至少一个访问数据重新存储至温数据子库中,以及将当前存储在温数据子库的至少一个访问数据重新存储至热数据子库中。
7.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311831008.8A CN117472967B (zh) | 2023-12-28 | 2023-12-28 | 一种基于数据使用热度的数据生命周期管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311831008.8A CN117472967B (zh) | 2023-12-28 | 2023-12-28 | 一种基于数据使用热度的数据生命周期管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117472967A CN117472967A (zh) | 2024-01-30 |
CN117472967B true CN117472967B (zh) | 2024-05-03 |
Family
ID=89635159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311831008.8A Active CN117472967B (zh) | 2023-12-28 | 2023-12-28 | 一种基于数据使用热度的数据生命周期管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117472967B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471875A (zh) * | 2018-09-25 | 2019-03-15 | 网宿科技股份有限公司 | 基于缓存数据的热度管理方法、服务器及存储介质 |
CN109857737A (zh) * | 2019-01-03 | 2019-06-07 | 平安科技(深圳)有限公司 | 一种冷热数据存储方法及装置、电子设备 |
CN110837480A (zh) * | 2019-11-07 | 2020-02-25 | 北京沃东天骏信息技术有限公司 | 缓存数据的处理方法及装置、计算机存储介质、电子设备 |
CN111597173A (zh) * | 2020-04-02 | 2020-08-28 | 上海瀚之友信息技术服务有限公司 | 一种数据仓库系统 |
WO2022062524A1 (zh) * | 2020-09-22 | 2022-03-31 | 华为技术有限公司 | 内存管理方法、装置、设备和存储介质 |
CN115167762A (zh) * | 2022-06-21 | 2022-10-11 | 钉钉(中国)信息技术有限公司 | 数据分层存储方法及装置 |
CN115543690A (zh) * | 2022-10-14 | 2022-12-30 | 济南浪潮数据技术有限公司 | 一种冷热数据冗余方法、装置、设备及存储介质 |
CN115686385A (zh) * | 2023-01-03 | 2023-02-03 | 苏州浪潮智能科技有限公司 | 一种数据存储方法、装置、计算机设备及存储介质 |
CN115883590A (zh) * | 2022-12-09 | 2023-03-31 | 北京易华录信息技术股份有限公司 | 一种光磁电融合的媒资数据分布式存储与管理方法、装置 |
CN116049305A (zh) * | 2022-12-23 | 2023-05-02 | 金篆信科有限责任公司 | 一种分布式数据库 |
CN116126235A (zh) * | 2022-12-27 | 2023-05-16 | 浪潮云信息技术股份公司 | 基于数据热度的分布式对象存储生命周期管理系统及方法 |
-
2023
- 2023-12-28 CN CN202311831008.8A patent/CN117472967B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471875A (zh) * | 2018-09-25 | 2019-03-15 | 网宿科技股份有限公司 | 基于缓存数据的热度管理方法、服务器及存储介质 |
CN109857737A (zh) * | 2019-01-03 | 2019-06-07 | 平安科技(深圳)有限公司 | 一种冷热数据存储方法及装置、电子设备 |
CN110837480A (zh) * | 2019-11-07 | 2020-02-25 | 北京沃东天骏信息技术有限公司 | 缓存数据的处理方法及装置、计算机存储介质、电子设备 |
CN111597173A (zh) * | 2020-04-02 | 2020-08-28 | 上海瀚之友信息技术服务有限公司 | 一种数据仓库系统 |
WO2022062524A1 (zh) * | 2020-09-22 | 2022-03-31 | 华为技术有限公司 | 内存管理方法、装置、设备和存储介质 |
CN115167762A (zh) * | 2022-06-21 | 2022-10-11 | 钉钉(中国)信息技术有限公司 | 数据分层存储方法及装置 |
CN115543690A (zh) * | 2022-10-14 | 2022-12-30 | 济南浪潮数据技术有限公司 | 一种冷热数据冗余方法、装置、设备及存储介质 |
CN115883590A (zh) * | 2022-12-09 | 2023-03-31 | 北京易华录信息技术股份有限公司 | 一种光磁电融合的媒资数据分布式存储与管理方法、装置 |
CN116049305A (zh) * | 2022-12-23 | 2023-05-02 | 金篆信科有限责任公司 | 一种分布式数据库 |
CN116126235A (zh) * | 2022-12-27 | 2023-05-16 | 浪潮云信息技术股份公司 | 基于数据热度的分布式对象存储生命周期管理系统及方法 |
CN115686385A (zh) * | 2023-01-03 | 2023-02-03 | 苏州浪潮智能科技有限公司 | 一种数据存储方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
NUMA架构下数据热度的内存数据库日志恢复技术;吴刚;阿卜杜热西提・热合曼;李梁;乔百友;韩东红;;计算机科学与探索;20180904(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117472967A (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10691722B2 (en) | Consistent query execution for big data analytics in a hybrid database | |
CN102937980B (zh) | 一种集群数据库数据查询方法 | |
US11636083B2 (en) | Data processing method and apparatus, storage medium and electronic device | |
CN101887398B (zh) | 一种动态提高服务器输入输出吞吐量的方法和系统 | |
CN111782692B (zh) | 一种频率控制方法及装置 | |
EP2541423A1 (en) | Replacement policy for resource container | |
WO2023109964A1 (zh) | 一种数据分析方法、装置、设备及计算机可读存储介质 | |
CN115221186A (zh) | 一种数据查询方法、系统、装置及电子设备 | |
CN117472967B (zh) | 一种基于数据使用热度的数据生命周期管理方法及系统 | |
CN110471914B (zh) | 一种实时数据处理中维度关联的方法及系统 | |
US11874835B2 (en) | Scheduling of query pipeline execution | |
CN116756190A (zh) | 数据缓存管理方法、装置、终端设备以及存储介质 | |
CN114064710A (zh) | 一种数据的查询方法及装置 | |
CN113177031B (zh) | 数据库共享缓存的处理方法、装置、电子设备和介质 | |
CN112069212B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN117056379B (zh) | 一种元数据缓存方法、装置、电子设备及可读存储介质 | |
CN115357578A (zh) | 一种加速Elasticsearch搜索的方法及装置 | |
US20230409573A1 (en) | Adaptive data prefetch | |
CN117609708A (zh) | 分布式全局逻辑日志生成方法、装置、电子设备及介质 | |
CN116561147A (zh) | 一种数据更新方法及系统 | |
CN114547037A (zh) | 数据图表缓存方法、介质、装置和计算设备 | |
KR101416556B1 (ko) | 스마트 폰 배터리 효율을 위한 모바일 뷰의 최적화 방법 | |
CN116776018A (zh) | 数据搜索方法、装置、电子设备和计算机程序产品 | |
CN116775700A (zh) | 一种数据缓存方法、装置及存储介质 | |
CN114003626A (zh) | 一种提升本地缓存命中率的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |