CN113625959B - 一种数据处理方法和装置 - Google Patents

一种数据处理方法和装置 Download PDF

Info

Publication number
CN113625959B
CN113625959B CN202110745186.3A CN202110745186A CN113625959B CN 113625959 B CN113625959 B CN 113625959B CN 202110745186 A CN202110745186 A CN 202110745186A CN 113625959 B CN113625959 B CN 113625959B
Authority
CN
China
Prior art keywords
stripe
meta
data
bitmap information
strip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110745186.3A
Other languages
English (en)
Other versions
CN113625959A (zh
Inventor
何文龙
武模仁
赵煜
李欢欢
陶桐桐
胡永刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN202110745186.3A priority Critical patent/CN113625959B/zh
Publication of CN113625959A publication Critical patent/CN113625959A/zh
Application granted granted Critical
Publication of CN113625959B publication Critical patent/CN113625959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Memory System (AREA)

Abstract

本申请公开了一种数据处理方法和装置,多个数据大小不超过第一阈值的元对象聚合得到第一条带对象,在存在元对象删除时,可以获取一级位图信息;根据所述一级位图信息确定二级位图信息,所述二级位图信息记录了第一条带对象中每个元对象的状态信息;根据所述二级位图信息中的状态信息,确定所述第一条带对象中每个元对象的有效性;根据每个元对象的有效性对所述第一条带对象进行处理。这样,便可以根据聚合后第一条带对象中每个元对象的有效性,对无效数据进行垃圾回收处理或碎片整理,以提高存储空间有效利用率,大大降低存储空间的浪费。

Description

一种数据处理方法和装置
技术领域
本申请涉及数据处理领域,特别是涉及一种数据处理方法和装置。
背景技术
当前的分布式对象存储系统中,针对普通海量小对象已经实现了小对象聚合的功能,把多个小对象聚合为一个大对象,减少了Rados的对象数量,可以大大加快集群的重构速度,并提高系统的性能。
但是当前小对象聚合功能并不支持对无效聚合数据的垃圾回收,造成很大的存储空间浪费。
发明内容
为了解决上述技术问题,本申请提供了一种数据处理方法和装置,可以根据聚合后第一条带对象中每个元对象的有效性,对无效数据进行垃圾回收处理或碎片整理,以提高存储空间有效利用率,大大降低存储空间的浪费。
本申请实施例公开了如下技术方案:
第一方面,本申请实施例提供了一种数据处理方法,多个数据大小不超过第一阈值的元对象聚合得到第一条带对象,所述方法包括:
获取一级位图信息;
根据所述一级位图信息确定二级位图信息,所述二级位图信息记录了第一条带对象中每个元对象的状态信息;
根据所述二级位图信息中的状态信息,确定所述第一条带对象中每个元对象的有效性;
根据每个元对象的有效性对所述第一条带对象进行处理。
可选的,所述根据每个元对象的有效性对所述第一条带对象进行处理,包括:
根据每个元对象的有效性,对所述第一条带对象上有效数据和/或无效数据的长度进行统计;
若根据所述有效数据和/或无效数据的长度确定所述第一条带对象全部无效,对所述第一条带对象进行垃圾回收处理。
可选的,所述方法还包括:
若根据所述有效数据和/或无效数据的长度确定所述第一条带对象部分无效,确定无效数据的长度占所述第一条带对象的总长度的比例;
若所述比例超出第二阈值,对所述第一条带对象进行碎片整理;
若所述比例小于所述第二阈值,不对所述第一条带对象进行处理。
可选的,所述对所述第一条带对象进行碎片整理,包括:
若第二条带对象上无效数据的长度占所述第二条带对象的总长度的比例超出所述第二阈值,且所述第二条带对象上的元对象满足聚合条件,将所述第二条带对象上的有效数据与所述第一条带对象上的有效数据进行聚合,直到所述第一条带对象全部有效。
可选的,所述方法还包括:
若所述第二条带对象中的有效数据全部重新聚合到其他条带对象上,删除所述第二条带对象及所述第二条带对象对应的一级位图信息。
可选的,所述获取一级位图信息,包括:
若在前端删除元对象,从所述前端获取所述一级位图信息;
若在前端不存在删除元对象,从存储池中获取所述一级位图信息。
第二方面,本申请实施例提供了一种数据处理装置,多个数据大小不超过第一阈值的元对象聚合得到第一条带对象,所述装置包括:
获取单元,用于获取一级位图信息;
确定单元,用于根据所述一级位图信息确定二级位图信息,所述二级位图信息记录了第一条带对象中每个元对象的状态信息;
所述确定单元,还用于根据所述二级位图信息中的状态信息,确定所述第一条带对象中每个元对象的有效性;
处理单元,用于根据每个元对象的有效性对所述第一条带对象进行处理。
可选的,所述处理单元,具体用于:
根据每个元对象的有效性,对所述第一条带对象上有效数据和/或无效数据的长度进行统计;
若根据所述有效数据和/或无效数据的长度确定所述第一条带对象全部无效,对所述第一条带对象进行垃圾回收处理。
可选的,所述处理单元,具体用于:
若根据所述有效数据和/或无效数据的长度确定所述第一条带对象部分无效,确定无效数据的长度占所述第一条带对象的总长度的比例;
若所述比例超出第二阈值,对所述第一条带对象进行碎片整理;
若所述比例小于所述第二阈值,不对所述第一条带对象进行处理。
可选的,所述处理单元,具体用于:
若第二条带对象上无效数据的长度占所述第二条带对象的总长度的比例超出所述第二阈值,且所述第二条带对象上的元对象满足聚合条件,将所述第二条带对象上的有效数据与所述第一条带对象上的有效数据进行聚合,直到所述第一条带对象全部有效。
可选的,所述装置还包括删除单元:
所述删除单元,用于若所述第二条带对象中的有效数据全部重新聚合到其他条带对象上,删除所述第二条带对象及所述第二条带对象对应的一级位图信息。
可选的,所述获取单元,用于:
若在前端删除元对象,从所述前端获取所述一级位图信息;
若在前端不存在删除元对象,从存储池中获取所述一级位图信息。
由上述技术方案可以看出,本申请实施例具有以下优点:
多个数据大小不超过第一阈值的元对象聚合得到第一条带对象,在存在元对象删除时,可以获取一级位图信息;根据所述一级位图信息确定二级位图信息,所述二级位图信息记录了第一条带对象中每个元对象的状态信息;根据所述二级位图信息中的状态信息,确定所述第一条带对象中每个元对象的有效性;根据每个元对象的有效性对所述第一条带对象进行处理。这样,便可以根据聚合后第一条带对象中每个元对象的有效性,对无效数据进行垃圾回收处理或碎片整理,以提高存储空间有效利用率,大大降低存储空间的浪费。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理方法的流程图;
图2为本申请实施例提供的一种数据处理方法的流程图;
图3为本申请实施例提供的一种数据处理装置的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对本申请中涉及的名词进行解释:
分布式对象存储系统:指的是针对非结构化数据对象的分布式存储系统
小对象聚合:将小于等于一定大小例如512K的小对象聚合成一个大的对象存储到rados资源池中,聚合后该小对象可以称为元对象。
垃圾回收:将无效数据存储删除,释放内存。
碎片整理:当一个元对象中无效数据的长度占总长度的70%(可配置)及以上时,把有效数据对应对象重新聚合,删除原元对象无效数据,减少资源浪费,提高磁盘利用率。
为了解决传统技术中存在的存储空间浪费的技术问题,本申请实施例提供一种数据处理方法,参见图1,该方法包括:
S101、获取一级位图信息。
在分布式存储系统中,目前聚合的功能需要在开启分级的基础上进行的,将数据大小不超过第一阈值的元对象(此时的元对象可以称为小对象)聚合成一个大对象,将小对象对应的数据从热池子迁往冷池子中,把聚合好的大对象下刷到rados存储池中,并记录一级位图和二级位图到存储池中,一级位图中记录了找到二级位图所需信息,可以称为一级位图信息,如桶id、条带对象的总长度、配置规则等,二级位图中记录了每个小对象(元对象)的偏移量、长度、是否有效等状态信息。然后删除小对象中的数据,写入聚合属性到小对象元属性信息中,用来索引到数据实际存储的位置,进行数据的读取。其中,第一阈值可以根据需求设置,以使得用于聚合的元对象比较小,例如第一阈值可以是512KB。
这样,客户端在下载某个元对象时,首先根据是否有聚合属性判断该元对象是否是被聚合的聚合对象,如不是聚合对象,走正常下载流程;若是聚合对象,则首先根据聚合属性中聚合的信息获取该对象对应的数据保存在哪一个聚合大对象(条带对象)中,进而获取在聚合大对象中对应的数据,把数据返回给客户端即可。
需要说明的是,在对聚合后的大对象(条带对象)进行处理时,可以单独创建扫描线程和工作线程进行处理,扫描线程从前端删除元对象的记录链表中获取一级位图信息,查看是否有数据。若在前端删除元对象,从所述前端获取所述一级位图信息;若在前端不存在删除元对象,从存储池中获取所述一级位图信息。
S102、根据所述一级位图信息确定二级位图信息。
在得到一级位图信息后,可以将一级位图信息发送给工作线程处理,工作线程根据一级位图信息从存储池中读取二级位图信息。
二级位图信息记录了第一条带对象中每个元对象的状态信息,二级位图可以包括至少一个第一条带对象的二级位图信息。其中,状态信息包括一条带对象中每个元对象的偏移量、长度、是否有效等。
S103、根据所述二级位图信息中的状态信息,确定所述第一条带对象中每个元对象的有效性。
S104、根据每个元对象的有效性对所述第一条带对象进行处理。
遍历二级位图,获取二级位图中各个条带对象中每个元对象的有效性。以二级位图中的第一条带对象为例,以第一条带对象的总长度为单位,判断该第一条带对象中元对象的有效性,例如第一条带对象中包括10个元对象,其中第1-3个元对象的状态信息反映其有效,第4-10个元对象的状态信息反映其无效,从而得到每个元对象的有效性。
在执行S104时,可以根据每个元对象的有效性,对所述第一条带对象上有效数据和/或无效数据的长度进行统计。需要说明的是,在本实施例中,根据统计结果的情况不同,对第一条带对象的处理方式可能不同。在一种可能的实现方式中,若根据统计得到的有效数据和/或无效数据的长度确定第一条带对象全部无效,则删除该第一条带对象,对第一条带对象进行垃圾回收处理,释放存储空间。
在另一种可能的实现方式中,若根据统计得到的有效数据和/或无效数据的长度确定第一条带对象部分无效,则确定无效数据的长度占第一条带对象的总长度的比例,若该比例超出第二阈值,对第一条带对象进行碎片整理;若该比例小于所述第二阈值,不对第一条带对象进行处理。其中,第二阈值可以根据实际需求配置,例如可以是70%,当然也可以是其他数值,本实施例对此不做限定。
可以理解的是,由于可能存在多个条带对象(例如第一条带对象和第二条带对象)出现无效数据的长度占条带对象的总长度的比例超出第二阈值的情况,这样第一条带对象和第二条带对象都需要进行碎片处理。因此,为了避免无效数据占用存储空间,在进行碎片整理时,可以对满足聚合条件的不同条带对象进行重新聚合,从而使得聚合后得到的条带对象上全部有效。具体的,若第二条带对象上无效数据的长度占第二条带对象的总长度的比例超出所述第二阈值,且第二条带对象上的元对象满足聚合条件,将第二条带对象上的有效数据与第一条带对象上的有效数据进行聚合,直到第一条带对象全部有效。
若第二条带对象中的有效数据全部重新聚合到其他条带对象(例如第一条带对象或者除了第一条带对象和第二条带对象的其他需要碎片整理的条带对象)上,删除第二条带对象及第二条带对象对应的一级位图信息。
客户端在下载碎片整理重新聚合的元对象时,首先根据是否有聚合属性判断该元对象是否是被聚合的聚合对象,如不是聚合对象,走正常下载流程;若是聚合对象,则首先根据聚合属性中聚合的信息获取该对象对应的数据保存在哪一个聚合大对象(重新聚合后的条带对象)中,进而获取在聚合大对象中对应的数据,把数据返回给客户端即可。
由上述技术方案可以看出,本申请实施例具有以下优点:
多个数据大小不超过第一阈值的元对象聚合得到第一条带对象,在存在元对象删除时,可以获取一级位图信息;根据所述一级位图信息确定二级位图信息,所述二级位图信息记录了第一条带对象中每个元对象的状态信息;根据所述二级位图信息中的状态信息,确定所述第一条带对象中每个元对象的有效性;根据每个元对象的有效性对所述第一条带对象进行处理。这样,便可以根据聚合后第一条带对象中每个元对象的有效性,对无效数据进行垃圾回收处理或碎片整理,以提高存储空间有效利用率,大大降低存储空间的浪费。
接下来,将结合附图对本申请实施例提供的数据处理方法进行详细介绍。参见图2,所述方法包括:
S201、扫描线程获取一级位图信息。
S202、判断是否有前端删除元对象对应的一级位图,若是,执行S203,若否,执行S204。
S203、从前端获取一级位图信息。
具体的,可以从保存前端删除元对象信息的队列中获取一级位图信息。
S204、从存储池获取一级位图信息。
S205、根据一级位图信息从存储池读取二级位图信息。
S206、根据二级位图信息确定第一条带对象是否全部无效,若是,执行S211,若否,执行S207。
遍历二级位图中各个条带对象,从而确定各个条带对象是否全部无效。由于每个条带对象的处理方式相同,故本实施例主要以第一条带对象为例进行介绍。
S207、第一条带对象中无效数据的长度占总长度的比例是否超过70%,若是,执行S208,若否,执行S214。
S208、对第一条带对象进行碎片整理。
S209、更新第一条带对象中的元对象。
S210、确定重新聚合后的第一条带对象是否全部有效,若是,执行S211,若否,执行S208。
S211、删除第二条带对象。
由于第二条带对象中的有效数据全部聚合到第一条带对象上,因此,此时第二条带对象上全部无效,故删除。并从全局一级位图中删除第二条带对象的记录。
S212、是否条带对象已经处理完成,若是,执行S213,若否,执行S205。
S213、删除一级位图和二级位图。
S214、不处理。
基于图1对应实施例所提供的数据处理方法,本申请实施例提供了一种数据处理装置,参见图3,多个元对象聚合得到第一条带对象,所述装置包括:
获取单元301,用于获取一级位图信息;
确定单元302,用于根据所述一级位图信息确定二级位图信息,所述二级位图信息记录了第一条带对象中每个元对象的状态信息;
所述确定单元302,还用于根据所述二级位图信息中的状态信息,确定所述第一条带对象中每个元对象的有效性;
处理单元303,用于根据每个元对象的有效性对所述第一条带对象进行处理。
可选的,所述处理单元,具体用于:
根据每个元对象的有效性,对所述第一条带对象上有效数据和/或无效数据的长度进行统计;
若根据所述有效数据和/或无效数据的长度确定所述第一条带对象全部无效,对所述第一条带对象进行垃圾回收处理。
可选的,所述处理单元,具体用于:
若根据所述有效数据和/或无效数据的长度确定所述第一条带对象部分无效,确定无效数据的长度占所述第一条带对象的总长度的比例;
若所述比例超出第二阈值,对所述第一条带对象进行碎片整理;
若所述比例小于所述第二阈值,不对所述第一条带对象进行处理。
可选的,所述处理单元,具体用于:
若第二条带对象上无效数据的长度占所述第二条带对象的总长度的比例超出所述第二阈值,且所述第二条带对象上的元对象满足聚合条件,将所述第二条带对象上的有效数据与所述第一条带对象上的有效数据进行聚合,直到所述第一条带对象全部有效。
可选的,所述装置还包括删除单元:
所述删除单元,用于若所述第二条带对象中的有效数据全部重新聚合到其他条带对象上,删除所述第二条带对象及所述第二条带对象对应的一级位图信息。
可选的,所述获取单元,用于:
若在前端删除元对象,从所述前端获取所述一级位图信息;
若在前端不存在删除元对象,从存储池中获取所述一级位图信息。
由上述技术方案可以看出,本申请实施例具有以下优点:
多个数据大小不超过第一阈值的元对象聚合得到第一条带对象,在存在元对象删除时,可以获取一级位图信息;根据所述一级位图信息确定二级位图信息,所述二级位图信息记录了第一条带对象中每个元对象的状态信息;根据所述二级位图信息中的状态信息,确定所述第一条带对象中每个元对象的有效性;根据每个元对象的有效性对所述第一条带对象进行处理。这样,便可以根据聚合后第一条带对象中每个元对象的有效性,对无效数据进行垃圾回收处理或碎片整理,以提高存储空间有效利用率,大大降低存储空间的浪费。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种数据处理方法,其特征在于,多个数据大小不超过第一阈值的元对象聚合得到第一条带对象,所述方法包括:
获取一级位图信息;
根据所述一级位图信息确定二级位图信息,所述二级位图信息记录了第一条带对象中每个元对象的状态信息;
根据所述二级位图信息中的状态信息,确定所述第一条带对象中每个元对象的有效性;
根据每个元对象的有效性对所述第一条带对象进行处理;
所述根据每个元对象的有效性对所述第一条带对象进行处理,包括:
根据每个元对象的有效性,对所述第一条带对象上有效数据和/或无效数据的长度进行统计;
若根据所述有效数据和/或无效数据的长度确定所述第一条带对象全部无效,对所述第一条带对象进行垃圾回收处理;
若根据所述有效数据和/或无效数据的长度确定所述第一条带对象部分无效,确定无效数据的长度占所述第一条带对象的总长度的比例;
若所述比例超出第二阈值,对所述第一条带对象进行碎片整理;
若所述比例小于所述第二阈值,不对所述第一条带对象进行处理。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一条带对象进行碎片整理,包括:
若第二条带对象上无效数据的长度占所述第二条带对象的总长度的比例超出所述第二阈值,且所述第二条带对象上的元对象满足聚合条件,将所述第二条带对象上的有效数据与所述第一条带对象上的有效数据进行聚合,直到所述第一条带对象全部有效。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述第二条带对象中的有效数据全部重新聚合到其他条带对象上,删除所述第二条带对象及所述第二条带对象对应的一级位图信息。
4.根据权利要求1所述的方法,其特征在于,所述获取一级位图信息,包括:
若在前端删除元对象,从所述前端获取所述一级位图信息;
若在前端不存在删除元对象,从存储池中获取所述一级位图信息。
5.一种数据处理装置,其特征在于,多个数据大小不超过第一阈值的元对象聚合得到第一条带对象,所述装置包括:
获取单元,用于获取一级位图信息;
确定单元,用于根据所述一级位图信息确定二级位图信息,所述二级位图信息记录了第一条带对象中每个元对象的状态信息;
所述确定单元,还用于根据所述二级位图信息中的状态信息,确定所述第一条带对象中每个元对象的有效性;
处理单元,用于根据每个元对象的有效性对所述第一条带对象进行处理;
所述处理单元,具体用于:
根据每个元对象的有效性,对所述第一条带对象上有效数据和/或无效数据的长度进行统计;
若根据所述有效数据和/或无效数据的长度确定所述第一条带对象全部无效,对所述第一条带对象进行垃圾回收处理;
所述处理单元,具体用于:
若根据所述有效数据和/或无效数据的长度确定所述第一条带对象部分无效,确定无效数据的长度占所述第一条带对象的总长度的比例;
若所述比例超出第二阈值,对所述第一条带对象进行碎片整理;
若所述比例小于所述第二阈值,不对所述第一条带对象进行处理。
6.根据权利要求5所述的装置,其特征在于,所述处理单元,具体用于:
若第二条带对象上无效数据的长度占所述第二条带对象的总长度的比例超出所述第二阈值,且所述第二条带对象上的元对象满足聚合条件,将所述第二条带对象上的有效数据与所述第一条带对象上的有效数据进行聚合,直到所述第一条带对象全部有效。
CN202110745186.3A 2021-06-30 2021-06-30 一种数据处理方法和装置 Active CN113625959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110745186.3A CN113625959B (zh) 2021-06-30 2021-06-30 一种数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110745186.3A CN113625959B (zh) 2021-06-30 2021-06-30 一种数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN113625959A CN113625959A (zh) 2021-11-09
CN113625959B true CN113625959B (zh) 2023-12-29

Family

ID=78378810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110745186.3A Active CN113625959B (zh) 2021-06-30 2021-06-30 一种数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN113625959B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014776A (ja) * 2000-06-29 2002-01-18 Toshiba Corp ディスク制御システムおよびデータ再配置方法
CN103902465A (zh) * 2014-03-19 2014-07-02 华为技术有限公司 一种固态硬盘垃圾回收的方法、系统和固态硬盘控制器
CN110688323A (zh) * 2018-07-06 2020-01-14 华为技术有限公司 一种系统控制器和系统垃圾回收方法
CN111813342A (zh) * 2020-07-14 2020-10-23 济南浪潮数据技术有限公司 一种数据回收方法、装置、设备及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020007030A1 (zh) * 2018-07-06 2020-01-09 华为技术有限公司 一种系统控制器和系统垃圾回收方法
JP7323801B2 (ja) * 2019-11-06 2023-08-09 富士通株式会社 情報処理装置および情報処理プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002014776A (ja) * 2000-06-29 2002-01-18 Toshiba Corp ディスク制御システムおよびデータ再配置方法
CN103902465A (zh) * 2014-03-19 2014-07-02 华为技术有限公司 一种固态硬盘垃圾回收的方法、系统和固态硬盘控制器
CN110688323A (zh) * 2018-07-06 2020-01-14 华为技术有限公司 一种系统控制器和系统垃圾回收方法
CN111813342A (zh) * 2020-07-14 2020-10-23 济南浪潮数据技术有限公司 一种数据回收方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
海量小文件系统中基于聚合单元的空间回收机制;徐俊;何连跃;严巍巍;陈博;徐照淼;;计算机应用(S1);全文 *

Also Published As

Publication number Publication date
CN113625959A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
US20200175070A1 (en) Low ram space, high-throughput persistent key-value store using secondary memory
KR102007070B1 (ko) 메모리 관리 시의 중복 제거를 위해서 기준 세트로 기준 블록을 취합하는 기법
CN109271355B (zh) 一种清理日志文件缓存的方法及装置
CN107943718B (zh) 一种清理缓存文件的方法和装置
US8812563B2 (en) System for permanent file deletion
CN110147204B (zh) 一种元数据落盘方法、装置、系统及计算机可读存储介质
CN113366424A (zh) 用于重复数据删除存储器的可扩展垃圾收集
CN110399096B (zh) 分布式文件系统元数据缓存重删的方法、装置以及设备
CN113574498A (zh) 在重复数据删除存储系统的垃圾收集操作中标记受影响的相似群
CN110287201A (zh) 数据访问方法、装置、设备及存储介质
CN107704203A (zh) 聚合大文件的删除方法、装置、设备及计算机存储介质
CN111782707A (zh) 一种数据查询方法及系统
US10430383B1 (en) Efficiently estimating data compression ratio of ad-hoc set of files in protection storage filesystem with stream segmentation and data deduplication
CN113625959B (zh) 一种数据处理方法和装置
CN113641681B (zh) 一种空间自适应的海量数据查询方法
CN111221468A (zh) 存储块数据删除方法、装置、电子设备及云存储系统
CN115408342A (zh) 文件处理方法、装置及电子设备
JP6107341B2 (ja) データ管理プログラム,データ管理装置およびデータ管理方法
CN108153805A (zh) 一种高效清理Hbase时序数据的方法、系统
CN110990394B (zh) 分布式面向列数据库表的行数统计方法、装置和存储介质
CN113821166A (zh) 一种聚合多版本小对象的方法、装置及设备
CN112328587A (zh) ElasticSearch的数据处理方法和装置
US10506063B2 (en) Method and apparatus for caching user generated content messages
CN111143288A (zh) 一种数据存储方法、系统及相关装置
CN111625506A (zh) 一种基于删除队列的分布式数据删除方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant