CN114518848B - 存储数据的处理方法、装置、设备和介质 - Google Patents

存储数据的处理方法、装置、设备和介质 Download PDF

Info

Publication number
CN114518848B
CN114518848B CN202210137267.XA CN202210137267A CN114518848B CN 114518848 B CN114518848 B CN 114518848B CN 202210137267 A CN202210137267 A CN 202210137267A CN 114518848 B CN114518848 B CN 114518848B
Authority
CN
China
Prior art keywords
data
unit
target data
storage system
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210137267.XA
Other languages
English (en)
Other versions
CN114518848A (zh
Inventor
王大瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210137267.XA priority Critical patent/CN114518848B/zh
Publication of CN114518848A publication Critical patent/CN114518848A/zh
Application granted granted Critical
Publication of CN114518848B publication Critical patent/CN114518848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0656Data buffering arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了存储数据的处理方法、装置、设备和介质,涉及计算机技术领域,尤其涉及数据存储技术领域。具体实现方案为:获取本地存储的各数据单元的访问频次描述信息,识别访问频次描述信息满足低频次访问条件的目标数据单元;检测到主节点的已存储数据量超过数量阈值时,获取主节点中各数据分段的有效率;按有效率由低到高的顺序,识别主节点中的目标数据分段;本地读出目标数据分段中的残余数据单元,将残余数据单元写入至持久化存储系统中;指示与主节点匹配的从节点对残余数据单元进行数据清理,对主节点中目标数据分段进行空洞清理。本公开实施例的技术方案提升了分级存储系统中数据迁移的效率,缓解了主节点存储数据过多的数据存储压力。

Description

存储数据的处理方法、装置、设备和介质
技术领域
本公开涉及计算机技术领域,具体涉及数据存储技术领域,尤其涉及一种存储数据的处理方法、装置、设备和介质。
背景技术
随着需要存储的数据不断增加,成本是存储系统的生命线之一,纠错存储系统,典型的,EC(Erasure coding,纠删码)文件存储系统,是常用的降成本的方式。它将数据分割成片段,把冗余数据块扩展、编码,并将其存储在不同的位置,比如磁盘、存储节点或者其它地理位置。与多副本存储相比,纠错存储系统可以做到比1倍稍微多一点的存储成本。
发明人通过实践发现,现有技术的缺陷为:纠错存储系统不适合频繁修改的业务场景,而目前常用的块存储引擎,原地修改恰好是用户经常用到的写入方式,因此,有待提出一种新的存储系统以兼顾存储性能和成本的。
发明内容
本公开提供了一种存储数据的处理方法、装置、设备和介质。
根据本公开的一方面,提供了一种分级存储系统,包括:分布式缓存系统以及持久化存储系统;
所述分布式缓存系统,包括多个主节点,以及与主节点分别匹配的多个从节点;各主节点与匹配的从节点,用于对第一类数据项进行备份存储;
所述持久化存储系统,用于对第二类数据项进行持久化容错存储;
其中,所述第一类数据项的访问频次高于所述第二类数据项的访问频次。
根据本公开的另一方面,提供了一种存储数据的处理方法,由所述分级存储系统中的主节点执行,包括:
在本地存储的各数据项中,识别满足低频次访问条件的目标数据项;
本地读出所述目标数据项,并将所述目标数据项写入至所述持久化存储系统中;
指示与所述主节点匹配的所述从节点对所述目标数据项进行数据清理。
根据本公开的另一方面,提供了一种存储数据的处理方法,由所述分级存储系统中的从节点执行,包括:
在检测到所述从节点的已存储数据量超过数量阈值时,获取所述从节点中各数据分段的有效率;每个数据分段用于存储多个数据单元;每个数据单元用于存储多个数据项;
按照有效率由低到高的顺序,识别所述从节点中的目标数据分段;
本地读出目标数据分段中的残余数据单元,并将所述残余数据单元重新追加写入至所述从节点中;
对所述从节点中的目标数据分段进行空洞清理。
根据本公开的另一方面,提供了一种存储数据的处理装置,由所述分级存储系统中的主节点执行,包括:
目标数据项识别模块,用于在本地存储的各数据项中,识别满足低频次访问条件的目标数据项;
目标数据项写入模块,用于本地读出所述目标数据项,并将所述目标数据项写入至所述持久化存储系统中;
数据清理模块,用于指示与所述主节点匹配的所述从节点对所述目标数据项进行数据清理。
根据本公开的另一方面,提供了一种存储数据的处理装置,由所述分级存储系统中的从节点执行,包括:
已存储数据量检测模块,用于在检测到所述从节点的已存储数据量超过数量阈值时,获取所述从节点中各数据分段的有效率;每个数据分段用于存储多个数据单元;每个数据单元用于存储多个数据项;
目标数据分段识别模块,用于按照有效率由低到高的顺序,识别所述从节点中的目标数据分段;
残余数据单元读取模块,用于本地读出所述目标数据分段中的残余数据单元,并将所述残余数据单元重新追加写入至所述从节点中;
空洞清理模块,用于对所述从节点中的目标数据分段进行空洞清理。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所提供的存储数据的处理方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行本公开所提供的存储数据的处理方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序被处理器执行时实现本公开所提供的存储数据的处理方法。
本公开实施例的技术方案提供了一种新的分级存储系统,以及基于该分级存储系统的新的数据迁移和垃圾回收方案。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的一种分级存储系统的结构示意图;
图2是根据本公开实施例提供的一种存储数据的处理方法的流程示意图;
图3是根据本公开实施例提供的另一种存储数据的处理方法的流程示意图;
图4是根据本公开实施例提供的另一种存储数据的处理方法的流程示意图;
图5是根据本公开实施例提供的一种存储数据的处理装置的结构示意图;
图6是根据本公开实施例提供的另一种存储数据的处理装置的结构示意图;
图7是用来实现本公开实施例的一种存储数据的处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
首先,为了便于理解本公开技术方案,首先将本公开的主要构思进行简单描述。
如前所述,相比于数据副本存储,纠错存储系统的缺点是不适合频繁修改的业务场景,基于此,发明人从性能和成本两方面考虑,创造性的提出了一种新的分级存储方式,也即:使用多副本存储系统缓冲用户的写入,纠错存储系统保存绝大多数的数据,以实现性能和成本的折中。
同时,发明人考虑到现有的各种存储系统中,数据迁移以及垃圾回收过程,仅仅是在单机过程中实现,有效性较差。因此,进一步提供了一种在该分级存储系统中的新的数据迁移和垃圾回收方案,有效实现了对冷热数据的分级存储,同时提升了数据迁移和垃圾回收的效率。
图1是根据本公开实施例提供的一种分级存储系统的结构示意图,本实施例适用于对不同访问频次的数据进行分级存储的情况。参考图1,该系统可以包括:分布式缓存系统110以及持久化存储系统120,其中:
分布式缓存系统110,包括多个主节点1101,也即,图1中的节点1、节点2、……、节点N,以及与主节点分别匹配的多个从节点;各主节点与匹配的从节点,用于对第一类数据项进行备份存储。
持久化存储系统120,用于对第二类数据项进行持久化容错存储。
其中,所述第一类数据项的访问频次高于所述第二类数据项的访问频次。
在本实施例中,将存储系统中访问频次高的数据称为热数据,也即,第一类数据项,并将存储系统中访问频次低的数据称为冷数据,也即,第二类数据项。相应的,使用由分布式缓存系统110和持久化存储系统120共同构成的分级存储系统,分等级存储冷热数据。可以实现性能和成本的折中。
在本实施例中,通过分布式缓存系统110中的多个节点对同一份热数据进行多接点的备份存储,例如,使用三个节点实现3备份存储,可以快速响应频繁修改的业务场景,满足用户对存储系统的性能要求;通过持久化存储系统120对长期不使用的冷数据进行纠错存储,可以最大程度的减少存储空间,满足用户对降成本的需求。
可选的,分布式缓存系统110可以是追加式文件存储系统,第一类数据项可以是用户读数据、写数据或者更新数据相对频率比较高的热数据。多节点备份存储是指:由多个主节点和多个从节点共同实现的备份存储。
可选的,用户每一次的数据写入操作均面向分布式存储系统110中的一个主节点,该主节点在接收到用户写入数据后,在将该用户写入数据进行本地存储的同时,会将该用户写入数据分发至与该主节点匹配的多个从节点中,由该主节点和匹配的多个从节点实现对该用户写入数据的备份存储。
其中,持久化存储系统120可以是ES文件存储系统,第二类数据项可以是用户读数据、写数据或者更新数据相对频率比较的冷数据,可以存储在持久化存储系统120中。
示例性的,假设可以使用分布式缓存系统110和持久化存储系统120进行数据的分级存储。具体的,分布式缓存系统用于存储访问频次高的数据,也就是存储第一类数据项;持久化存储系统用于存储访问频次低的数据,也就是存储第二类数据项。进一步的,当在分布式缓存系统存储的第一类数据项中的数据的访问频次降低时,可以将该数据进行数据迁移,存储至持久化存储系统中。
可选的,所述追加式文件存储系统中包括:多个主节点,以及与主节点分别匹配的多个从节点;每个主节点与匹配的多个从节点,用于对同一数据项进行备份存储。
其中,追加式文件存储系统可以是通过建立存储文件的文件块进行文件存储,再由建立索引表进行文件信息检索与信息读取,所设置回收策略是为了提高磁盘利用率,用判断文件块是否有空间写入文件提高文件存储效率进行存储,最后更新索引表使索引信息总处于最新状态。
示例性的,假设在追加式文件存储系统中,一个主节点匹配两个从节点,形成3副本模式。当需要在对数据项A进行存储时,会在主节点对该数据项A进行存储的同时,在与该主节点匹配的两个从节点中也进行数据项A的存储,以实现对数据项的备份存储。相应的,当主节点发生数据项丢失时,可以在从节点中对数据项进行查找,从而保证数据项的安全存储。
这样设置的好处在于:通过分布式缓存系统和持久化存储系统对数据进行分级存储,主要是通过数据的访问频次区分,可以分为第一类数据项和第二类数据项。这样可以通过访问频次分别存储于不同的文件存储系中,能够更加合理准确的对数据进行存储,进一步的,能够更加合理地利用存储空间。
本公开实施例的技术方案,通过由分布式缓存系统以及持久化存储系统共同构成的分级存储系统,可以实现对冷热数据进行分级保存,在使用多副本存储系统缓冲用户频繁读写的热数据的同时,以纠错存储的方式保存绝大多数的冷数据,提供了一种新的分级存储系统,有效实现了对冷热数据的分级存储,最大程度的兼顾了存储性能和存储成本的折中。
图2是根据本公开实施例提供的一种存储数据的处理方法的流程示意图,本实施例的技术方案应用于如本公开任意实施例所述的分级存储系统中。该方法可以由分级存储系统中分布式缓存系统内的主节点执行。本实施例适用于主节点将本地存储的访问频次低的冷数据迁移至持久化存储系统的情况,参考图2,该方法具体包括如下步骤:
S210、在本地存储的各数据项中,识别满足低频次访问条件的目标数据项。
可选的,低频次访问条件可以是主节点中设置的,对最近一次数据访问时间的限制条件。相应的,当一个数据项的最近一次数据访问时间满足低频次访问条件时,该数据项属于低频次访问的目标数据项;当一个数据项的最近一次数据访问时间不满足低频次访问条件时,该目标数据项属于高频次访问的非目标数据项。
或者,该低频次访问条件还可以是主节点中设置的,对设定时间区间内的访问次数的限制条件。相应的,当一个数据项在最近一周内的数据访问次数满足低频次访问条件时,该数据项属于低频次访问的目标数据项;当一个数据项在最近一周内的数据访问次数不满足低频次访问条件时,该目标数据项属于高频次访问的非目标数据项。
在本实施例中,可以每隔预设的间隔时长,例如1天、2天或者3天,等,触发执行对低频次访问条件的目标数据项的识别,还可以在接收到触发指令时,触发执行对低频次访问条件的目标数据项的识别,本实施例对此并不进行限制。
S220、本地读出所述目标数据项,并将所述目标数据项写入至所述持久化存储系统中。
在本实施例中,在主节点识别出本地存储的目标数据项,可以将上述目标数据项作为新的冷数据,迁移至持久化存储系统中进行存储。也即,将目标数据项从主节点中读出,并重新写入至持久化存储系统中,以实现对冷热数据的分离存储。
需要再次强调的时,本公开实施例的技术方案可以由分布式缓存系统内的多个主节点共同执行,进而可以以分布式迁移的方式,实现对冷热数据的分离存储,提升了数据迁移的效率。
S230、指示与所述主节点匹配的所述从节点对所述目标数据项进行数据清理。
如前所述,在分布式缓存系统中,每个主节点与多个从节点相匹配,用于对同一数据项进行备份存储。相应的,在将目标数据项从主节点移除后,相匹配的从节点也没有必要继续存储目标数据项了,进而,主节点可以将上述目标数据项的识别信息分别发送至匹配的从节点,以指示从节点本地对目标数据项进行数据清理。
本公开实施例的技术方案,通过在本地存储的各数据项中,识别满足低频次访问条件的目标数据项;本地读出所述目标数据项,并将所述目标数据项写入至所述持久化存储系统中;指示与所述主节点匹配的所述从节点对所述目标数据项进行数据清理的技术手段,提出了一种在新的分级存储系统中执行的一种新的数据迁移方案,有效实现了对冷热数据的分级存储,可以以分布式执行的方式,实现对分级存储系统中数据迁移,提升了分级存储系统中数据迁移的效率。同时,还可以有效缓解主节点由于存储数据过多,而造成的数据存储压力。
可选的,在本地存储的各数据项中,识别满足低频次访问条件的目标数据项,包括:获取本地存储的各数据单元的访问频次描述信息,并识别访问频次描述信息满足低频次访问条件的目标数据单元;其中,每个数据单元中包括多个数据项。
可选的,可以在所述分布式缓存系统中,对各数据项以数据单元的形式聚合存储,进而,每个数据单元中包括多个数据项。
其中,数据单元可以是存储多个数据项的单元,可以将一个数据单元称为一个slice,一个数据单元对应设定数据大小,例如1Mbit或者2Mbit等。访问频次描述信息是指用于描述一个数据单元中的各数据项的访问频次大小的信息。
示例性的,假设在主节点中存储有5个数据单元,分别为slice0、slice1、slice2、slice3和slice4,每个slice可以包含多个数据项。且每个slice对应一个访问频次描述信息,例如,可以为该slice内各数据项最近一次的访问时间。
在一个具体的例子中,slice0对应的访问时间为2021年11月25日、slice1对应的访问时间为2021年11月20日、slice2对应的访问时间为2021年5月25日、slice3对应的访问时间为2021年12月25日和slice4对应的访问时间为2022年1月12日。根据每个slice访问频次描述信息,以及预设的低频次访问条件,例如,未访问时长超过5天等,可以准确识别出访问频次描述信息满足低频次访问条件的目标数据单元。
这样设置的好处在于:通过获取本地存储的各数据单元的访问频次描述信息,并识别访问频次描述信息满足低频次访问条件的目标数据单元,可以及时对数据进行迁移,对冷热数据的分级存储进行有效管理。
图3是根据本公开实施例提供的另一种存储数据的处理方法的流程示意图,本实施例在上述各实施例的基础上,对在本地存储的各数据项中,识别满足低频次访问条件的目标数据项的操作进行进一步细化,参考图2,该方法具体包括如下步骤:
S310、依次获取本地存储的一个当前数据单元。
其中,在所述分布式缓存系统中,各数据项以数据单元的形式聚合存储,每个数据单元中包括多个数据项。
在本实施例中,考虑到如果以数据项作为最小单位进行数据迁移,需要操作的数据项数量会很大,进而会造成频繁将分布式缓存系统中的目标数据项写入至持久化存储系统的情况。为了避免频繁的数据迁移操作,可以将数据单元以聚合的方式进行存储,例如,可以按照数据项的数量或者数据项的数据总量为聚合方式进行聚合存储。
在一个具体的例子中,如果以数据项的数据总量为聚合方式进行聚合存储,例如,可以设定1Mbit为聚合总量,将数据总量为1Mbit的数据项聚合为一个数据单元,进而可以以数据单元为单位进行数据迁移操作。
S320、提取与所述当前数据单元匹配的历史操作时间。
其中,每个数据单元中的历史操作时间根据数据单元内各数据项最近一次的访问和修改时间中的至少一项更新。
如前所述,每个数据单元中一般包括多个数据项,进而可以在每次对一个数据单元中的一个数据项进行访问或者修改时,更新与该数据单元对应的历史操作时间,该历史操作数据可以从整体上反映该数据单元中各数据项的访问频次。
S330、判断所述历史操作时间与当前系统时间的差值是否超过预设的阈值门限,若是,执行S340,否则执行S350。
S340、将所述当前数据单元确定为目标数据单元,执行S350。
续前例,主节点中包含5个数据单元,分别为slice0、slice1、slice2、slice3和slice4,每个slice可以包含多个数据项。当每次对其中一个数据单元对应的一个数据项进行数据访问或者修改时,需要更新该数据项对应的slice的历史操作时间。进而,根据数据单元对应的历史操作时间,可以判断出该数据单元是否满足低频次访问条件。
相应的,如果slice0对应的历史操作时间为2021年11月25日、slice1对应的历史操作时间为2021年11月20日、slice2对应的历史操作时间为2021年5月25日、slice3对应的历史操作时间为2021年12月25日和slice4对应的历史操作时间为2022年1月12日,现在的系统时间为2022年1月22日。进一步的,设置低频次访问条件为6个月没有对其内部的任一数据项进行数据访问或者修改的数据单元,即为满足低频次访问条件的目标数据单元。
由于现在的系统时间为2022年1月22日,进而,通过循环执行5次针对slice的识别操作,可以识别出slice2满足低频次访问条件,即slice2为目标数据单元。
S350、判断是否完成对本地存储的全部数据单元的处理:若是,执行S360;否则,执行S310。
S360、本地读出所述目标数据单元,并将所述目标数据单元写入至所述持久化存储系统中。
S370、指示与所述主节点匹配的所述从节点对所述目标数据单元进行数据清理。
本发明实施例的技术方案通过获取本地存储的各数据单元,提取与每个数据单元匹配的历史操作时间;如果确定所述历史操作时间与当前系统时间的差值超过预设的阈值门限,则将当前数据单元确定为目标数据单元的方式,这样可以更加准确合理地对数据单元进行数据迁移,增加了数据迁移的准确性和可靠性,进而可以对冷热数据的分级存储进行有效管理。
在上述各实施例的基础上,可选的,所述方法还包括:在检测到所述主节点的已存储数据量超过数量阈值时,获取所述主节点中各数据分段的有效率;其中,每个数据分段中包括多个数据单元;按照有效率由低到高的顺序,识别所述主节点中的目标数据分段;本地读出目标数据分段中的残余数据单元,并将所述残余数据单元写入至所述持久化存储系统中;指示与所述主节点匹配的所述从节点对所述残余数据单元进行数据清理,并对所述主节点中的目标数据分段进行空洞清理。
可选的,在所述分布式缓存系统中,各数据单元可以以数据分段的形式进行聚合存储,进而,每个数据分段中包括多个数据单元。
其中,如前所述,本发明各实施例中的分布式缓存系统可以为追加式文件存储系统,所谓追加式文件存储系统,是指将当前写入的数据项追加在当前存储的最后一个数据项的尾部的方式,进行新数据项的存储的。上述存储方式具有的一个问题是,如果对之前存储的数据项进行了删除操作,该数据项所在的存储空间也无法再继续存储新的存储数据了,也即,出现了一个空洞。也即,针对使用该分布式缓存系统的分级存储系统,需要进行空洞的垃圾回收处理。
在本实施例中,提出了一种基于该分级存储系统的新的垃圾回收方案,提升了垃圾回收的效率。需要再次说明的是,现有的空洞清理方案仅仅是基于单机的,而在本发明各实施例中,因为使用了分布式缓存系统进行热数据的存储,进而,可以实现分布式的垃圾回收,以提升垃圾回收的效率。
在本实施例中,考虑到垃圾回收时,一般耗时较长,实现较复杂,进而,如果针对每个小的空洞均执行垃圾回收操作是,有效性较差,进而,在本实施例中引入了一个新的数据量衡量单位,数据分段。
相应的,一个数据分段可以包括多个数据单元,例如,1024个,或者2048个等。可以将一个数据分段看作为一个segment,也即一个segment可以包括多个slice。
具体的,在向追加式文件存储系统中的主节点写入数据记录时,数据记录可以首先写入至slice中,一个slice中可以存储一个或者多个数据项,一个slice对应设定数据大小,一个segment中存储有多个slice。
其中,有效率可以是数据分段中数据单元存储的有效率,或者说,一个数据分段中有多大比例的数据单元属于有效数据单元(也即,不属于空洞)。
可选的,可以首先统计segment中的有效数据单元数量,进而,可以根据有效数据单元数量除以一个segment的数据单元存储总量,得到该有效率。
残余数据单元可以是目标数据分段中当前存储有数据项的数据单元。所谓空洞清理,是指使用已存储的数据分段中存储的各数据项,对目标数据分段中存储的各数据项进行替换的过程,以对空洞所占用的存储空间进行回收释放,降低数据占用率。
可选的,获取所述主节点中内各数据分段的有效率,可以包括:
在所述主节点中,获取当前数据分段;根据所述当前数据分段中各数据单元的生效状态标识,统计有效数据单元数量;根据所述有效数据单元数量,以及与当前数据分段对应的数据单元存储总量,计算所述当前数据分段的有效率。
其中,生效状态标识可以是判断当前数据分段中各数据单元是否处在有效状态。具体的,当一个数据单元中存储有各数据项时,该数据单元的生效状态标识可以标识为有效状态,当一个数据单元中全部数据项均被删除时,该数据单元的生效状态标识可以标识为无效状态。
有效数据单元数量可以是在数据分段中包括的有效数据单元的数量。数据单元存储总量可以是数据分段中包含的数据单元的总数量,该数据单元存储总量一般为预设的固定值。
示例性的,假设主节点的存储数据的数量阈值为1Gbit,当检测到主节点的已存储数据量达到1Gbit,也即已存储数据量超过数量阈值,需要进一步的根据主节点中各数据分段的有效率,进行空洞清理。
具体的,假设主节点中包含5个segment,分别为segment0、segment1、segment2、segment3和segment4。当分别计算出segment0的有效率为30%、segment1的有效率为50%、segment2的有效率为60%、segment3的有效率为55%和segment4的有效率为80%。
进一步的,按照有效率由低到高的顺序,即为30%、50%、55%、60%和80%的顺序,识别所述主节点中的目标数据分段。则可以选取最末尾的一个数据分段,例如与30%对应的segment0作为目标数据分段。本地读出目标数据分段中的残余数据单元,也即segment0中当前生效状态标识为有效的数据单元。相应的,将各残余数据单元写入至持久化存储系统中。进而,指示与该主节点匹配的各从节点对残余数据单元进行数据清理,并对主节点中的目标数据分段进行空洞清理。
这样设置的好处在于:通过在检测到主节点的已存储数据量超过数量阈值时,获取主节点中各数据分段的有效率,进而识别出主节点中的目标数据分段,进一步地将目标数据分段中的残余数据单元写入至持久化存储系统中,并指示与主节点匹配的各从节点对残余数据单元进行数据清理后,对主节点中的目标数据分段进行空洞清理。这样可以缓解主节点由于存储数据过多,而造成的数据存储压力,从而能够合理得对有效率低的数据分段进行数据迁移,并进而对主节点进行有效的数据清理操作。
图4是根据本公开实施例提供的另一种存储数据的处理方法的流程示意图,本实施例的技术方案应用于如本公开任意实施例所述的分级存储系统中。该方法可以由分级存储系统中分布式缓存系统内的从节点执行。本实施例适用于从节点在本地存储空间不足时,进行本地的空洞清理的情况,参考图4,该方法具体包括如下步骤:
S410、在检测到所述从节点的已存储数据量超过数量阈值时,获取所述从节点中各数据分段的有效率。其中,每个数据分段用于存储多个数据单元;每个数据单元用于存储多个数据项。
在本实施例中,从节点在检测到本地存储的数据量超过了预设的数量阈值时,可以直接执行本地的空洞清理操作,以对自身节点进行内存释放,这样设置的原因在于:由于在主节点在进行垃圾回收的过程中,已经同步触发从节点对相应的残余数据单元进行了数据清理,因此不会有需要进行清理的数据,进而,从节点只需要关注对当前存在的空洞进行垃圾回收即可。
在本实施例中,从节点在触发空洞清理之前,首先获取有效率较低的目标数据分段,通过将上述目标数据分段中的各残余数据单元进行本地的追加存储,可以进一步生成更多的空洞,进而,后续执行的空洞清理策略,会执行的更加高效。
需要说明的是,从节点计算数据分段有效率的方式与主节点计算数据分段有效率的方式相一致,这里不再进行赘述。
S420、按照有效率由低到高的顺序,识别所述从节点中的目标数据分段。
S430、本地读出所述目标数据分段中的残余数据单元,并将所述残余数据单元重新追加写入至所述从节点中。
可以理解的是,在从节点的各目标数据分段中读出残余数据单元的目的,是为了从节点单次进行空洞清理的过程更加高效,因此,上述残余数据单元重新追加存储至该从节点即可,无需将其迁移至持久化存储系统中。
S440、对所述从节点中的目标数据分段进行空洞清理。
示例性的,假设从节点的存储数据的数量阈值为2Gbit,当检测到从节点的已存储数据量已经达到2Gbit,也即已存储数据量超过数量阈值,需要进一步的获取从节点中各数据分段的有效率。
具体的,假设从节点中包含5个segment,分别为segment0、segment1、segment2、segment3和segment4。通过计算各数据分段的有效率,确定segment0的有效率为35%、segment1的有效率为59%、segment2的有效率为67%、segment3的有效率为55%和segment4的有效率为88%。
进一步的,按照有效率由低到高的顺序,即为35%、55%、59%、67%和88%的顺序,识别所述从节点中的目标数据分段。例如,可以仅选取有效率最低的33%对应的segment0作为目标数据分段。本地读出各目标数据分段中的残余数据单元,也即segment0中的残余数据单元。相应的,将各残余数据单元写入至持久化存储系统中。进而,并将各残余数据单元重新追加写入至从节点中,并对从节点中的目标数据分段进行空洞清理。
本公开实施例的技术方案,通过在检测到从节点的已存储数据量超过数量阈值时,获取所述从节点中各数据分段的有效率;按照有效率由低到高的顺序,识别所述从节点中的目标数据分段;本地读出目标数据分段中的残余数据单元,并将所述残余数据单元重新追加写入至所述从节点中;对所述从节点中的目标数据分段进行空洞清理的技术方案,缓解了从节点由于存储数据过多,而造成的数据存储压力,从而能够合理得对有效率低的数据分段进行本机的追加存储数据,提高分布式缓存系统中,垃圾回收的效率。
图5是根据本公开实施例提供的一种存储数据的处理装置的结构示意图。该装置可以用于执行本公开任意实施例提供的存储数据的处理方法。该装置可以分级存储系统中的主节点执行,参考图5,该装置包括:目标数据项识别模块510、目标数据项写入模块520和数据清理模块530。其中:
目标数据项识别模块510,用于在本地存储的各数据项中,识别满足低频次访问条件的目标数据项;
目标数据项写入模块520,用于本地读出所述目标数据项,并将所述目标数据项写入至所述持久化存储系统中;
数据清理模块530,用于指示与所述主节点匹配的所述从节点对所述目标数据项进行数据清理。
本公开实施例的技术方案,通过在本地存储的各数据项中,识别满足低频次访问条件的目标数据项;本地读出所述目标数据项,并将所述目标数据项写入至所述持久化存储系统中;指示与所述主节点匹配的所述从节点对所述目标数据项进行数据清理的技术手段,提出了一种在新的分级存储系统中执行的一种新的数据迁移方案,有效实现了对冷热数据的分级存储,可以以分布式执行的方式,实现对分级存储系统中数据迁移,提升了分级存储系统中数据迁移的效率。同时,还可以有效缓解主节点由于存储数据过多,而造成的数据存储压力。
上述装置中,可选的是,所述目标数据项识别模块520,包括:
访问频次描述信息获取单元,用于获取本地存储的各数据单元的访问频次描述信息,并识别访问频次描述信息满足低频次访问条件的目标数据单元;其中,每个数据单元中包括多个数据项。
上述装置中,可选的是,目标数据项识别模块520,进一步用于:
获取本地存储的当前数据单元;
提取与所述当前数据单元匹配的历史操作时间,其中,每个数据单元中的历史操作时间根据数据单元内各数据项最近一次的访问和修改时间中的至少一项更新;
如果确定所述历史操作时间与当前系统时间的差值超过预设的阈值门限,则将所述当前数据单元确定为目标数据单元。
上述装置中,可选的是,所述装置还具体可以包括:
有效率获取单元,用于在检测到所述主节点的已存储数据量超过数量阈值时,获取所述主节点中各数据分段的有效率;其中,每个数据分段中包括多个数据单元;
目标数据分段识别单元,用于按照有效率由低到高的顺序,识别所述主节点中的目标数据分段;
数据写入单元,用于本地读出目标数据分段中的残余数据单元,并将所述残余数据单元写入至所述持久化存储系统中;
空洞清理单元,用于指示与所述主节点匹配的所述从节点对所述残余数据单元进行数据清理,并对所述主节点中的目标数据分段进行空洞清理。
上述装置中,可选的是,有效率获取单元,具体用于:
在所述主节点中,获取当前数据分段;
根据所述当前数据分段中各数据单元的生效状态标识,统计有效数据单元数量;
根据所述有效数据单元数量,以及与当前数据分段对应的数据单元存储总量,计算所述当前数据分段的有效率。
本公开实施例所提供的存储数据的处理装置可执行本公开任意实施例所提供的存储数据的处理方法,具备执行方法相应的功能模块和有益效果。
图6是根据本公开实施例提供的另一种存储数据的处理装置的结构示意图。该装置可以用于执行本公开任意实施例提供的存储数据的处理方法。该装置可以分级存储系统中的从节点执行,参考图6,该装置包括:已存储数据量检测模块610、目标数据分段识别模块620、残余数据单元读取模块630和空洞清理模块640。其中:
已存储数据量检测模块610,用于在检测到所述从节点的已存储数据量超过数量阈值时,获取所述从节点中各数据分段的有效率;每个数据分段用于存储多个数据单元;每个数据单元用于存储多个数据项;
目标数据分段识别模块620,用于按照有效率由低到高的顺序,识别所述从节点中的目标数据分段;
残余数据单元读取模块630,用于本地读出所述目标数据分段中的残余数据单元,并将所述残余数据单元重新追加写入至所述从节点中;
空洞清理模块640,用于对所述从节点中的目标数据分段进行空洞清理。
本公开实施例的技术方案,通过在检测到从节点的已存储数据量超过数量阈值时,获取所述从节点中各数据分段的有效率;按照有效率由低到高的顺序,识别所述从节点中的目标数据分段;本地读出所述目标数据分段中的残余数据单元,并将所述残余数据单元重新追加写入至所述从节点中;对所述从节点中的目标数据分段进行空洞清理的技术方案,缓解了从节点由于存储数据过多,而造成的数据存储压力,从而能够合理得对有效率低的数据分段进行本机的追加存储数据,提高分布式缓存系统中,垃圾回收的效率。
本公开实施例所提供的存储数据的处理装置可执行本公开任意实施例所提供的存储数据的处理方法,具备执行方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如存储数据的处理方法。例如,在一些实施例中,存储数据的处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM703并由计算单元701执行时,可以执行上文描述的存储数据的处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行存储数据的处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (10)

1.一种存储数据的处理方法,由分级存储系统中的主节点执行,包括:
获取本地存储的各数据单元的访问频次描述信息,并识别访问频次描述信息满足低频次访问条件的目标数据单元;其中,所述目标数据单元作为目标数据项;每个数据单元中包括多个数据项;
本地读出所述目标数据项,并将所述目标数据项写入至持久化存储系统中;
指示与所述主节点匹配的从节点对所述目标数据项进行数据清理;
在检测到所述主节点的已存储数据量超过数量阈值时,获取所述主节点中各数据分段的有效率;其中,每个数据分段中包括多个数据单元;
按照有效率由低到高的顺序,识别所述主节点中的目标数据分段;
本地读出目标数据分段中的残余数据单元,并将所述残余数据单元写入至所述持久化存储系统中;
指示与所述主节点匹配的所述从节点对所述残余数据单元进行数据清理,并对所述主节点中的目标数据分段进行空洞清理;
其中,所述分级存储系统,包括:分布式缓存系统以及持久化存储系统;
所述分布式缓存系统,包括多个主节点,以及与主节点分别匹配的多个从节点;各主节点与匹配的从节点,用于对第一类数据项进行备份存储;
所述持久化存储系统,用于对第二类数据项进行持久化容错存储;
其中,所述第一类数据项的访问频次高于所述第二类数据项的访问频次。
2.根据权利要求1所述的方法,其中,获取本地存储的各数据单元的访问频次描述信息,并识别访问频次描述信息满足低频次访问条件的目标数据单元,包括:
获取本地存储的当前数据单元;
提取与所述当前数据单元匹配的历史操作时间,其中,每个数据单元中的历史操作时间根据数据单元内各数据项最近一次的访问和修改时间中的至少一项更新;
如果确定所述历史操作时间与当前系统时间的差值超过预设的阈值门限,则将所述当前数据单元确定为目标数据单元。
3.根据权利要求1所述的方法,其中,获取所述主节点中内各数据分段的有效率,包括:
在所述主节点中,获取当前数据分段;
根据所述当前数据分段中各数据单元的生效状态标识,统计有效数据单元数量;
根据所述有效数据单元数量,以及与当前数据分段对应的数据单元存储总量,计算所述当前数据分段的有效率。
4.一种存储数据的处理方法,由分级存储系统中的从节点执行,包括:
在检测到所述从节点的已存储数据量超过数量阈值时,获取所述从节点中各数据分段的有效率;每个数据分段用于存储多个数据单元;每个数据单元用于存储多个数据项;
按照有效率由低到高的顺序,识别所述从节点中的目标数据分段;
本地读出所述目标数据分段中的残余数据单元,并将所述残余数据单元重新追加写入至所述从节点中;
对所述从节点中的目标数据分段进行空洞清理;
其中,所述分级存储系统,包括:分布式缓存系统以及持久化存储系统;
所述分布式缓存系统,包括多个主节点,以及与主节点分别匹配的多个从节点;各主节点与匹配的从节点,用于对第一类数据项进行备份存储;
所述持久化存储系统,用于对第二类数据项进行持久化容错存储;
其中,所述第一类数据项的访问频次高于所述第二类数据项的访问频次。
5.一种存储数据的处理装置,由分级存储系统中的主节点执行,包括:
目标数据项识别模块,用于获取本地存储的各数据单元的访问频次描述信息,并识别访问频次描述信息满足低频次访问条件的目标数据单元;其中,所述目标数据单元作为目标数据项;每个数据单元中包括多个数据项;
目标数据项写入模块,用于本地读出所述目标数据项,并将所述目标数据项写入至持久化存储系统中;
数据清理模块,用于指示与所述主节点匹配的从节点对所述目标数据项进行数据清理;
有效率获取单元,用于在检测到所述主节点的已存储数据量超过数量阈值时,获取所述主节点中各数据分段的有效率;其中,每个数据分段中包括多个数据单元;
目标数据分段识别单元,用于按照有效率由低到高的顺序,识别所述主节点中的目标数据分段;
数据写入单元,用于本地读出目标数据分段中的残余数据单元,并将所述残余数据单元写入至所述持久化存储系统中;
空洞清理单元,用于指示与所述主节点匹配的所述从节点对所述残余数据单元进行数据清理,并对所述主节点中的目标数据分段进行空洞清理;
其中,所述分级存储系统,包括:分布式缓存系统以及持久化存储系统;
所述分布式缓存系统,包括多个主节点,以及与主节点分别匹配的多个从节点;各主节点与匹配的从节点,用于对第一类数据项进行备份存储;
所述持久化存储系统,用于对第二类数据项进行持久化容错存储;
其中,所述第一类数据项的访问频次高于所述第二类数据项的访问频次。
6.根据权利要求5所述的装置,其中,目标数据项识别模块,进一步用于:
获取本地存储的当前数据单元;
提取与所述当前数据单元匹配的历史操作时间,其中,每个数据单元中的历史操作时间根据数据单元内各数据项最近一次的访问和修改时间中的至少一项更新;
如果确定所述历史操作时间与当前系统时间的差值超过预设的阈值门限,则将所述当前数据单元确定为目标数据单元。
7.根据权利要求5所述的装置,其中,有效率获取单元,具体用于:
在所述主节点中,获取当前数据分段;
根据所述当前数据分段中各数据单元的生效状态标识,统计有效数据单元数量;
根据所述有效数据单元数量,以及与当前数据分段对应的数据单元存储总量,计算所述当前数据分段的有效率。
8.一种存储数据的处理装置,由分级存储系统中的从节点执行,包括:
已存储数据量检测模块,用于在检测到所述从节点的已存储数据量超过数量阈值时,获取所述从节点中各数据分段的有效率;每个数据分段用于存储多个数据单元;每个数据单元用于存储多个数据项;
目标数据分段识别模块,用于按照有效率由低到高的顺序,识别所述从节点中的目标数据分段;
残余数据单元读取模块,用于本地读出所述目标数据分段中的残余数据单元,并将所述残余数据单元重新追加写入至所述从节点中;
空洞清理模块,用于对所述从节点中的目标数据分段进行空洞清理;
其中,所述分级存储系统,包括:分布式缓存系统以及持久化存储系统;
所述分布式缓存系统,包括多个主节点,以及与主节点分别匹配的多个从节点;各主节点与匹配的从节点,用于对第一类数据项进行备份存储;
所述持久化存储系统,用于对第二类数据项进行持久化容错存储;
其中,所述第一类数据项的访问频次高于所述第二类数据项的访问频次。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-3中任一所述的存储数据的处理方法,或者实现如权利要求4所述的存储数据的处理方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行时实现如权利要求1-3中任一所述的存储数据的处理方法,或者实现如权利要求4所述的存储数据的处理方法。
CN202210137267.XA 2022-02-15 2022-02-15 存储数据的处理方法、装置、设备和介质 Active CN114518848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210137267.XA CN114518848B (zh) 2022-02-15 2022-02-15 存储数据的处理方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210137267.XA CN114518848B (zh) 2022-02-15 2022-02-15 存储数据的处理方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN114518848A CN114518848A (zh) 2022-05-20
CN114518848B true CN114518848B (zh) 2023-01-20

Family

ID=81596895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210137267.XA Active CN114518848B (zh) 2022-02-15 2022-02-15 存储数据的处理方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN114518848B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116431081B (zh) * 2023-06-13 2023-11-07 广州图灵科技有限公司 分布式数据存储方法、系统、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109005059A (zh) * 2018-07-25 2018-12-14 无锡天脉聚源传媒科技有限公司 一种实现Redis自动备份的系统及方法
CN113220650A (zh) * 2021-04-27 2021-08-06 北京百度网讯科技有限公司 数据存储方法、装置、设备、存储介质及程序

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516471B (zh) * 2013-09-27 2017-04-12 国际商业机器公司 一种管理存储器系统的电源的方法和装置
CN105138673A (zh) * 2015-09-08 2015-12-09 浙江风向标科技有限公司 一种基于物联网的海量存储系统及存储方法
CN107870916A (zh) * 2016-09-23 2018-04-03 伊姆西Ip控股有限责任公司 存储管理方法及设备
CN106547859B (zh) * 2016-10-21 2021-02-09 杭州朗和科技有限公司 一种多租户数据存储系统下的数据文件的存储方法及装置
CN107612719B (zh) * 2017-08-29 2021-03-19 深圳市盛路物联通讯技术有限公司 物联网接入点的数据备份方法及装置
CN108519862B (zh) * 2018-03-30 2020-03-17 百度在线网络技术(北京)有限公司 区块链系统的存储方法、装置、系统和存储介质
CN108829787B (zh) * 2018-05-31 2022-06-17 郑州云海信息技术有限公司 一种元数据分布式系统
CN113901024A (zh) * 2021-09-26 2022-01-07 Oppo广东移动通信有限公司 数据存储系统、数据存储方法、可读介质和电子设备
CN114035750A (zh) * 2021-11-24 2022-02-11 北京度友信息技术有限公司 文件处理方法、装置、设备、介质及产品

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109005059A (zh) * 2018-07-25 2018-12-14 无锡天脉聚源传媒科技有限公司 一种实现Redis自动备份的系统及方法
CN113220650A (zh) * 2021-04-27 2021-08-06 北京百度网讯科技有限公司 数据存储方法、装置、设备、存储介质及程序

Also Published As

Publication number Publication date
CN114518848A (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN109947668B (zh) 存储数据的方法和装置
CN113364877B (zh) 数据处理方法、装置、电子设备和介质
CN109241023A (zh) 分布式存储系统数据存储方法、装置、系统及存储介质
CN114518848B (zh) 存储数据的处理方法、装置、设备和介质
CN112540731A (zh) 数据的追加写方法、装置、设备、介质和程序产品
CN115291806A (zh) 一种处理方法、装置、电子设备及存储介质
CN114996173A (zh) 一种管理存储设备写操作的方法和装置
CN109063210A (zh) 存储系统的资源对象查询方法、装置、设备及存储介质
CN112783447A (zh) 用于处理快照的方法、装置、设备、介质和产品
CN114625805B (zh) 一种回测配置方法、装置、设备及介质
CN115543918A (zh) 一种文件快照方法、系统、电子设备及存储介质
CN115617802A (zh) 一种全量快照快速生成方法、装置、电子设备及存储介质
CN115878035A (zh) 一种数据读取方法、装置、电子设备及存储介质
CN115587147A (zh) 一种数据处理方法及系统
CN112631517B (zh) 数据存储方法、装置、电子设备和存储介质
CN115510036A (zh) 数据迁移方法、装置、设备以及存储介质
CN113553216A (zh) 数据恢复方法、装置、电子设备及存储介质
CN111488128B (zh) 一种元数据的更新方法、装置、设备及介质
CN113835613A (zh) 一种文件读取方法、装置、电子设备和存储介质
CN117056133B (zh) 一种基于分布式物联网架构的数据备份方法、装置及介质
CN109739883A (zh) 提升数据查询性能的方法、装置和电子设备
CN114820079B (zh) 人群确定方法、装置、设备及介质
CN114780021B (zh) 副本修复方法、装置、电子设备及存储介质
CN115586871B (zh) 面向云计算场景的数据追加写方法、装置、设备以及介质
CN114500443B (zh) 消息推送方法、装置、系统、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant