CN111177075B - 一种垃圾数据的识别方法、系统、电子设备及存储介质 - Google Patents

一种垃圾数据的识别方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN111177075B
CN111177075B CN201911367801.0A CN201911367801A CN111177075B CN 111177075 B CN111177075 B CN 111177075B CN 201911367801 A CN201911367801 A CN 201911367801A CN 111177075 B CN111177075 B CN 111177075B
Authority
CN
China
Prior art keywords
tail
data
head
uploaded
storage pool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911367801.0A
Other languages
English (en)
Other versions
CN111177075A (zh
Inventor
赵煜
胡永刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201911367801.0A priority Critical patent/CN111177075B/zh
Publication of CN111177075A publication Critical patent/CN111177075A/zh
Priority to US17/789,336 priority patent/US11687489B2/en
Priority to PCT/CN2020/110732 priority patent/WO2021128893A1/zh
Application granted granted Critical
Publication of CN111177075B publication Critical patent/CN111177075B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • G06F12/0253Garbage collection, i.e. reclamation of unreferenced memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1737Details of further file system functions for reducing power consumption or coping with limited storage space, e.g. in mobile devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种垃圾数据的识别方法,所述识别方法包括向分布式对象存储系统上传对象;获取所述分布式对象存储系统的索引存储池中的头对象标识符;查询数据存储池中与所述头对象标识符对应的目标数据组;其中,所述目标数据组包括头对象的数据内容和所述头对象对应的尾对象标识符;将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象;将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。本申请能够识别分布式对象存储系统中的垃圾数据。本申请还公开了一种垃圾数据的识别系统、一种电子设备及一种存储介质,具有以上有益效果。

Description

一种垃圾数据的识别方法、系统、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种垃圾数据的识别方法、系统、一种电子设备及一种存储介质。
背景技术
在向分布式对象存储系统中上传对象时,需要将对象拆分为一个头对象以及多个小于等于4M的尾对象,将尾对象和头对象先后上传至数据存储池。但是在将尾对象写入数据存储池过程中,遇到断电等异常中段进程情况,会造成尾对象写入了数据存储池,记录尾对象信息的manifest结构和头对象数据并未写入数据存储池,写入数据存储池的尾对象就成了无法访问的垃圾数据。
因此,如何识别分布式对象存储系统中的垃圾数据是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种垃圾数据的识别方法、系统、一种电子设备及一种存储介质,能够识别分布式对象存储系统中的垃圾数据。
为解决上述技术问题,本申请提供一种垃圾数据的识别方法,该垃圾数据的识别方法包括:
向分布式对象存储系统上传对象;
获取所述分布式对象存储系统的索引存储池中的头对象标识符;
查询数据存储池中与所述头对象标识符对应的目标数据组;其中,所述目标数据组包括头对象的数据内容和所述头对象对应的尾对象标识符;
将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象;
将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。
可选的,所述向分布式对象存储系统上传对象包括:
将待上传对象拆分为待上传头对象和待上传尾对象;
为所述待上传头对象分配头对象标识符,为所述待上传尾对象分配尾对象标识符;
将所述待上传尾对象的数据内容按照拆分顺序写入所述数据存储池;
将所述待上传头对象的数据内容和所述待上传头对象对应的待上传尾对象的尾对象标识符作为所述目标数据组,写入所述数据存储池;
将所述待上传头对象的头对象标识符写入所述索引存储池。
可选的,所述待上传尾对象的尾对象标识符以manifest结构存储于所述数据存储池。
可选的,将待上传对象拆分为待上传头对象和待上传尾对象包括:
按照预设策略将所述待上传对象拆分为1个待上传头对象和多个待上传尾对象;
其中,所述待上传头对象的数据大小小于第一预设值,所述待上传尾对象的数据大小小于第二预设值,第一预设值小于第二预设值。
可选的,将所述待上传头对象的头对象标识符写入所述索引存储池包括:
将所述待上传头对象的头对象标识符写入所述索引存储池的桶中;
相应的,获取所述分布式对象存储系统的索引存储池中的头对象标识符包括:
从所述分布式对象存储系统的索引存储池的桶中获取所述头对象标识符。
可选的,在将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据之后,还包括:
删除所述数据存储池中的所述垃圾数据。
可选的,还包括:
当接收到对象访问指令时,查询所述索引存储池的中与所述对象访问指令对应的目标头对象标识符;
将所述数据存储池中与所述目标头对象标识符对应的头对象的数据内容和尾对象的数据内容作为访问结果返回至访问端。
本申请还提供了一种垃圾数据的识别系统,该垃圾数据的识别系统包括:
对象上传模块,用于向分布式对象存储系统上传对象;
头像标识符获取模块,用于获取所述分布式对象存储系统的索引存储池中的头对象标识符;
数据组查询模块,用于查询数据存储池中与所述头对象标识符对应的目标数据组;其中,所述目标数据组包括头对象的数据内容和所述头对象对应的尾对象标识符;
标记模块,用于将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象;
垃圾数据识别模块,用于将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。
本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述垃圾数据的识别方法执行的步骤。
本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述垃圾数据的识别方法执行的步骤。
本申请提供了一种垃圾数据的识别方法,包括向分布式对象存储系统上传对象;获取所述分布式对象存储系统的索引存储池中的头对象标识符;查询数据存储池中与所述头对象标识符对应的目标数据组;其中,所述目标数据组包括头对象的数据内容和所述头对象对应的尾对象标识符;将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象;将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。
本申请首先从分布式对象存储系统的索引存储池中获取头对象标识符,基于头对象标识符查询头对象对应的尾对象标识符,将数据存储池中尾对象标识符对应的尾对象标记为目标尾对象,进而将未被标记为目标尾对象的尾对象标记为垃圾数据。由于尾对象存储至数据存储池但头对象未存储至数据存储池会导致出现垃圾数据,因此本申请基于头对象标识符确定已存储至数据存储池的头对象对应的尾对象,进而将不存在对应头对象的尾对象标记为垃圾数据,可见本申请能够识别分布式对象存储系统中的垃圾数据。本申请同时还提供了一种垃圾数据的识别系统、一种电子设备和一种存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种垃圾数据的识别方法的流程图;
图2为本申请实施例所提供的一种头对象和尾对象的关系示意图;
图3为本申请实施例所提供的一种垃圾数据的识别系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面请参见图1,图1为本申请实施例所提供的一种垃圾数据的识别方法的流程图。
具体步骤可以包括:
S101:向分布式对象存储系统上传对象;
其中,本实施例应用于分部署对象存储系统中,作为一种可行的实施方式本实施例可以通过PUT指令的方式向分布式存储系统上传对象,在上传过程中可以先将对象拆分为一个头对象以及多个小于或等于预设大小的尾对象,每段头对象和尾对象都会按照命名规则生成一个唯一的标识符(即oid,object identifier,对象标识符)。首先将尾对象按照拆分的顺序依次分别写入数据存储池(即data存储池),然后再将记录尾对象标识符信息的manifest结构以及头对象数据内容写入数据存储池,最后再将头对象的标识符信息写入索引存储池(即index存储池)。可以理解的是,可以按照数据位置可以将对象拆分为头对象和尾对象,头对象为对象头部,尾对象为除对象头部的其他数据,一个对象可以拆分为一个头对象和至少一个尾对象。存储池是存储系统中存储数据的一组磁盘。
举例说明,本实施例中向分布式对象存储系统中存储对象的操作,例如需要向分布式对象存储系统上传目标数据A,此时先将目标数据A拆分为头对象A1、尾对象A2和尾对象A3,头对象A1的对象标识符为001,尾对象A2的对象标识符为002,尾对象A3的对象标识符为003,先将尾对象A2和尾对象A3的全部数据内容存储至数据存储池,再将头对象A1与对象标识符002和对象标识符003存储至数据存储池,最后将对象标识符001存储至索引存储池。
S102:获取所述分布式对象存储系统的索引存储池中的头对象标识符;
其中,在本步骤之前可以存在接收到垃圾数据检测指令的操作,当然本实施例也可以按照预设周期获取所述分布式对象存储系统的索引存储池中的头对象标识符,以实现对于分布式对象存储系统的垃圾数据定期检测。索引存储池中可以存储头对象的头对象标识符,具体的索引存储池中可以以桶的形式存储对象标识符。
S103:查询数据存储池中与所述头对象标识符对应的目标数据组;
其中,本步骤建立在已经得到头对象标识符的基础上,可以查询数据存储池中与头对象标识符对应的目标数据组,具体的,上述目标数据组可以包括头对象的数据内容和头对象对应的尾对象标识符。即在数据存储池中头对象的数据内容与尾对象的尾对象标识符一同存储在数据存储池中,在得到头对象标识符的基础上,可以从数据存储池中查询该头对象标识符对应的头对象的数据内容,进而得到与头对象数据内容对应的尾对象标识符。作为一种可行的实施方式,本实施例中头对象标识符可以根据头对象的数据内容进行映射(如哈希映射)得到,因此能够根据头对象标识符确定对应的头对象数据内容;同理可知,可以根据尾对象标识符确定对应的尾对象数据内容。
S104:将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象;
其中,本实施例可以确定目标数据组中的为对象标识符,进而将存储数据池中与目标数据组中的为对象标识符对应的尾对象标记为目标尾对象。也就是说,在将目标尾对象存储至数据存储池的过程中,目标尾对象对应的头对象数据也写入了数据存储池,目标尾对象不为垃圾数据。
S105:将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。
其中,本步骤建立在已经确定目标尾对象的基础上,可以将数据存储池中除目标尾对象之外的尾对象标记为垃圾数据,即存储池中不存在除所述目标尾对象之外的尾对象对应的头对象,这些尾对象无法进行访问。
本实施例首先从分布式对象存储系统的索引存储池中获取头对象标识符,基于头对象标识符查询头对象对应的尾对象标识符,将数据存储池中尾对象标识符对应的尾对象标记为目标尾对象,进而将未被标记为目标尾对象的尾对象标记为垃圾数据。由于尾对象存储至数据存储池,但头对象未存储至数据存储池会导致出现垃圾数据,因此本实施例基于头对象标识符确定已存储至数据存储池的头对象对应的尾对象,进而将不存在对应头对象的尾对象标记为垃圾数据,可见本实施例能够识别分布式对象存储系统中的垃圾数据。
作为对于图1对应实施例的进一步说明,在将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据之后,还可以删除所述数据存储池中的所述垃圾数据。
作为对于图1对应实施例的进一步说明,当接收到对象访问指令时,查询所述索引存储池的中与所述对象访问指令对应的目标头对象标识符;将所述数据存储池中与所述目标头对象标识符对应的头对象的数据内容和尾对象的数据内容作为访问结果返回至访问端。
作为对于图1对应实施例的进一步介绍,S101中上传对象的过程可以具体包括以下操作:
步骤1:将待上传对象拆分为待上传头对象和待上传尾对象;
其中,本步骤可以按照预设策略将所述待上传对象拆分为1个待上传头对象和多个待上传尾对象;其中,所述待上传头对象的数据大小小于第一预设值,所述待上传尾对象的数据大小小于第二预设值,第一预设值小于第二预设值。
步骤2:为所述待上传头对象分配头对象标识符,为所述待上传尾对象分配尾对象标识符;
步骤3:将所述待上传尾对象的数据内容按照拆分顺序写入所述数据存储池;
步骤4:将所述待上传头对象的数据内容和所述待上传头对象对应的待上传尾对象的尾对象标识符作为所述目标数据组,写入所述数据存储池;
其中,本步骤中待上传尾对象的尾对象标识符以manifest结构存储于所述数据存储池。具体的,manifest为存储系统中定义的一种数据,作用是管理应用对象和rados对象的对应关系,下载对象时,通过读取头对象中manifest信息,可下载完整的应用对象
步骤5:将所述待上传头对象的头对象标识符写入所述索引存储池。
作为一种可行的实施方式,上述实施方式中可以将所述待上传头对象的头对象标识符写入所述索引存储池的桶中,以便所述分布式对象存储系统的索引存储池的桶中获取所述头对象标识符。
下面通过在实际应用中的实施例说明上述实施例描述的流程。
在上传一个对象到分布式对象存储系统中分布式对象,存储系统会按照一定策略将对象数据拆分成一个512k大小的头对象以及多个小于等于4M的尾对象。存储系统将对象存入存储池的过程是,首先依次按顺序将所有尾对象存入数据存储池命名为各自的对象标识符,然后将记录所有尾对象的manifest结构和头对象一起存入数据存储池以头对象的对象标识符命名,最后将头对象的对象标识符信息写入到索引存储池中存储桶的对象标识符的存储空间中。
根据对象的存储策略以及各个对象标识符之间的关联关系,本实施例提出了一种识别垃圾数据的方法,遍历索引存储池中桶存储的对象标识符后,之后根据桶存储的对象标识符遍历数据存储池中头对象标识符并记上标记,最后根据头对象标识符,找出头对象对应的所有尾对象并记上标记。最终数据存储池中所有未做标记的尾对象均为垃圾数据。请参见图2,图2为本申请实施例所提供的一种头对象和尾对象的关系示意图,图2中h1、h2和h3为头对象标识符,t1、t2、t3、t4、t5、t6为尾对象标识符,同中存储有对象标识符h1、h2和h3,进而从数据存储池中查询h1、h2和h3对应的尾对象标识符t1、t2、t3、t4和t5,因此可以将未存储尾对象标识符的尾对象的数据内容标记为垃圾数据。
上述实施例提出一种识别存储系统中垃圾数据的方法,为清除存储系统垃圾提供了解决办法,丰富了分布式对象存储系统的功能,提高了存储系统磁盘空间的利用率,避免了磁盘空间的浪费,为垃圾数据清除提供准确的定位。
请参见图3,图3为本申请实施例所提供的一种垃圾数据的识别系统的结构示意图;
该系统可以包括:
对象上传模块100,用于向分布式对象存储系统上传对象;
头像标识符获取模块200,用于获取所述分布式对象存储系统的索引存储池中的头对象标识符;
数据组查询模块300,用于查询数据存储池中与所述头对象标识符对应的目标数据组;其中,所述目标数据组包括头对象的数据内容和所述头对象对应的尾对象标识符;
标记模块400,用于将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象;
垃圾数据识别模块500,用于将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。
本实施例首先从分布式对象存储系统的索引存储池中获取头对象标识符,基于头对象标识符查询头对象对应的尾对象标识符,将数据存储池中尾对象标识符对应的尾对象标记为目标尾对象,进而将未被标记为目标尾对象的尾对象标记为垃圾数据。由于尾对象存储至数据存储池但头对象未存储至数据存储池会导致出现垃圾数据,因此本实施例基于头对象标识符确定已存储至数据存储池的头对象对应的尾对象,进而将不存在对应头对象的尾对象标记为垃圾数据,可见本实施例能够识别分布式对象存储系统中的垃圾数据。
进一步的,对象上传模块100包括:
对象拆分单元,用于将待上传对象拆分为待上传头对象和待上传尾对象;
标识符分配单元,用于为所述待上传头对象分配头对象标识符,为所述待上传尾对象分配尾对象标识符;
数据写入单元,用于将所述待上传尾对象的数据内容按照拆分顺序写入所述数据存储池;还用于将所述待上传头对象的数据内容和所述待上传头对象对应的待上传尾对象的尾对象标识符作为所述目标数据组,写入所述数据存储池;还用于将所述待上传头对象的头对象标识符写入所述索引存储池。
进一步的,所述待上传尾对象的尾对象标识符以manifest结构存储于所述数据存储池。
进一步的,对象拆分单元具体为用于按照预设策略将所述待上传对象拆分为1个待上传头对象和多个待上传尾对象的单元;其中,所述待上传头对象的数据大小小于第一预设值,所述待上传尾对象的数据大小小于第二预设值,第一预设值小于第二预设值。
进一步的,数据写入单元用于将所述待上传头对象的头对象标识符写入所述索引存储池的桶中;
相应的,头像标识符获取模块200包括:
从所述分布式对象存储系统的索引存储池的桶中获取所述头对象标识符。
进一步的,还包括:
数据清除模块,用于在将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据之后,删除所述数据存储池中的所述垃圾数据。
进一步的,还包括:
对象访问模块,用于当接收到对象访问指令时,查询所述索引存储池的中与所述对象访问指令对应的目标头对象标识符;还用于将所述数据存储池中与所述目标头对象标识符对应的头对象的数据内容和尾对象的数据内容作为访问结果返回至访问端。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种电子设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种垃圾数据的识别方法,其特征在于,包括:
向分布式对象存储系统上传对象;
获取所述分布式对象存储系统的索引存储池中的头对象标识符;
查询数据存储池中与所述头对象标识符对应的目标数据组;其中,所述目标数据组包括头对象的数据内容和所述头对象对应的尾对象标识符;
将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象;
将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。
2.根据权利要求1所述识别方法,其特征在于,所述向分布式对象存储系统上传对象包括:
将待上传对象拆分为待上传头对象和待上传尾对象;
为所述待上传头对象分配头对象标识符,为所述待上传尾对象分配尾对象标识符;
将所述待上传尾对象的数据内容按照拆分顺序写入所述数据存储池;
将所述待上传头对象的数据内容和所述待上传头对象对应的待上传尾对象的尾对象标识符作为所述目标数据组,写入所述数据存储池;
将所述待上传头对象的头对象标识符写入所述索引存储池。
3.根据权利要求2所述识别方法,其特征在于,所述待上传尾对象的尾对象标识符以manifest结构存储于所述数据存储池。
4.根据权利要求2所述识别方法,其特征在于,将待上传对象拆分为待上传头对象和待上传尾对象包括:
按照预设策略将所述待上传对象拆分为1个待上传头对象和多个待上传尾对象;
其中,所述待上传头对象的数据大小小于第一预设值,所述待上传尾对象的数据大小小于第二预设值,所述第一预设值小于所述第二预设值。
5.根据权利要求2所述识别方法,其特征在于,将所述待上传头对象的头对象标识符写入所述索引存储池包括:
将所述待上传头对象的头对象标识符写入所述索引存储池的桶中;
相应的,获取所述分布式对象存储系统的索引存储池中的头对象标识符包括:
从所述分布式对象存储系统的索引存储池的桶中获取所述头对象标识符。
6.根据权利要求1所述识别方法,其特征在于,在将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据之后,还包括:
删除所述数据存储池中的所述垃圾数据。
7.根据权利要求1至6任一项所述识别方法,其特征在于,还包括:
当接收到对象访问指令时,查询所述索引存储池中与所述对象访问指令对应的目标头对象标识符;
将所述数据存储池中与所述目标头对象标识符对应的头对象的数据内容和尾对象的数据内容作为访问结果返回至访问端。
8.一种垃圾数据的识别系统,其特征在于,包括:
对象上传模块,用于向分布式对象存储系统上传对象;
头像标识符获取模块,用于获取所述分布式对象存储系统的索引存储池中的头对象标识符;
数据组查询模块,用于查询数据存储池中与所述头对象标识符对应的目标数据组;其中,所述目标数据组包括头对象的数据内容和所述头对象对应的尾对象标识符;
标记模块,用于将与所述目标数据组中的尾对象标识符对应的尾对象标记为目标尾对象;
垃圾数据识别模块,用于将所述数据存储池中除所述目标尾对象之外的尾对象标记为垃圾数据。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如权利要求1至7任一项所述垃圾数据的识别方法的步骤。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上述权利要求1至7任一项所述垃圾数据的识别方法的步骤。
CN201911367801.0A 2019-12-26 2019-12-26 一种垃圾数据的识别方法、系统、电子设备及存储介质 Active CN111177075B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911367801.0A CN111177075B (zh) 2019-12-26 2019-12-26 一种垃圾数据的识别方法、系统、电子设备及存储介质
US17/789,336 US11687489B2 (en) 2019-12-26 2020-08-24 Method and system for identifying garbage data, electronic device, and storage medium
PCT/CN2020/110732 WO2021128893A1 (zh) 2019-12-26 2020-08-24 一种垃圾数据的识别方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911367801.0A CN111177075B (zh) 2019-12-26 2019-12-26 一种垃圾数据的识别方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111177075A CN111177075A (zh) 2020-05-19
CN111177075B true CN111177075B (zh) 2022-04-22

Family

ID=70652192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911367801.0A Active CN111177075B (zh) 2019-12-26 2019-12-26 一种垃圾数据的识别方法、系统、电子设备及存储介质

Country Status (3)

Country Link
US (1) US11687489B2 (zh)
CN (1) CN111177075B (zh)
WO (1) WO2021128893A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177075B (zh) * 2019-12-26 2022-04-22 浪潮电子信息产业股份有限公司 一种垃圾数据的识别方法、系统、电子设备及存储介质
CN116136846B (zh) * 2023-04-19 2023-07-11 苏州浪潮智能科技有限公司 一种非结构化对象数据的管理方法、装置及存储系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5687368A (en) * 1994-07-22 1997-11-11 Iowa State University Research Foundation, Inc. CPU-controlled garbage-collecting memory module
CN106708912A (zh) * 2015-11-18 2017-05-24 中兴通讯股份有限公司 垃圾文件识别及管理方法、识别装置、管理装置和终端
CN107818136A (zh) * 2017-09-26 2018-03-20 华为技术有限公司 用于回收垃圾对象数据的方法和装置
CN110222039A (zh) * 2019-05-07 2019-09-10 平安科技(深圳)有限公司 数据存储及垃圾数据清理方法、装置、设备及存储介质

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7296180B1 (en) * 2004-06-30 2007-11-13 Sun Microsystems, Inc. Method for recovery of data
US20070044399A1 (en) 2005-08-15 2007-03-01 Sylvester Palko Window insulation apparatus
US7991807B2 (en) * 2007-11-21 2011-08-02 Sap Ag Method and system for garbage collection
US8074014B2 (en) * 2008-03-31 2011-12-06 Microsoft Corporation Storage systems using write off-loading
KR101562794B1 (ko) * 2009-08-04 2015-10-26 삼성전자주식회사 데이터 저장 장치
DE112010004863B4 (de) * 2009-12-17 2019-10-10 International Business Machines Corporation Datenverwaltung in Festkörperspeichersystemen
WO2012029256A1 (en) * 2010-08-31 2012-03-08 Nec Corporation Storage system
KR20120049604A (ko) * 2010-11-09 2012-05-17 삼성전자주식회사 모바일 디바이스의 메모리 관리 방법 및 장치
KR101713314B1 (ko) * 2013-05-03 2017-03-07 한국전자통신연구원 가비지 파일의 삭제 방법 및 시스템
WO2015066085A1 (en) * 2013-10-28 2015-05-07 Bawaskar Swapnil Prakash Selecting files for compaction
US9619381B2 (en) * 2013-12-24 2017-04-11 International Business Machines Corporation Collaborative health management in a storage system
US10255304B2 (en) * 2014-09-30 2019-04-09 International Business Machines Corporation Removal of garbage data from a database
US10338817B2 (en) * 2014-12-30 2019-07-02 Sandisk Technologies Llc Systems and methods for storage recovery
US20160306822A1 (en) * 2015-04-17 2016-10-20 Samsung Electronics Co., Ltd. Load balancing of queries in replication enabled ssd storage
US10254998B2 (en) * 2015-11-03 2019-04-09 Samsung Electronics Co., Ltd. Coordinated garbage collection of flash devices in a distributed storage system
US10540095B1 (en) * 2016-08-12 2020-01-21 Pure Storage, Inc. Efficient garbage collection for stable data
US10783136B1 (en) * 2017-02-28 2020-09-22 Virtuozzo International Gmbh Management of garbage data in distributed systems
CN107066604B (zh) 2017-04-25 2020-12-01 西安阳易信息技术有限公司 一种垃圾文件清理方法和终端
US10764045B2 (en) * 2017-06-30 2020-09-01 Microsoft Technology Licensing, Llc Encrypting object index in a distributed storage environment
US10659225B2 (en) * 2017-06-30 2020-05-19 Microsoft Technology Licensing, Llc Encrypting existing live unencrypted data using age-based garbage collection
CN107491523B (zh) 2017-08-17 2020-05-05 三星(中国)半导体有限公司 存储数据对象的方法及装置
CN108415986B (zh) 2018-02-11 2020-10-30 杭州朗和科技有限公司 一种数据处理方法、装置、系统、介质和计算设备
CN111177075B (zh) 2019-12-26 2022-04-22 浪潮电子信息产业股份有限公司 一种垃圾数据的识别方法、系统、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5687368A (en) * 1994-07-22 1997-11-11 Iowa State University Research Foundation, Inc. CPU-controlled garbage-collecting memory module
CN106708912A (zh) * 2015-11-18 2017-05-24 中兴通讯股份有限公司 垃圾文件识别及管理方法、识别装置、管理装置和终端
CN107818136A (zh) * 2017-09-26 2018-03-20 华为技术有限公司 用于回收垃圾对象数据的方法和装置
CN110222039A (zh) * 2019-05-07 2019-09-10 平安科技(深圳)有限公司 数据存储及垃圾数据清理方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"The use of scale invariant feature transform (SIFT) algorithms to identification garbage images based on product label";Wawan Setiawan等;《2017 3rd International Conference on Science in Information Technology (ICSITech)》;20180115;第1-6页 *
"垃圾对象的识别和清除";梁晟等;《第十五届全国数据库学术会议论文集》;19981001;第4-8页 *

Also Published As

Publication number Publication date
US11687489B2 (en) 2023-06-27
CN111177075A (zh) 2020-05-19
WO2021128893A1 (zh) 2021-07-01
US20220374394A1 (en) 2022-11-24

Similar Documents

Publication Publication Date Title
CN109669776B (zh) 检测任务的处理方法、装置和系统
CN111177075B (zh) 一种垃圾数据的识别方法、系统、电子设备及存储介质
CN105141672B (zh) 一种数据存储方法、装置及系统
CN107959695B (zh) 一种数据传输方法及装置
CN107807989B (zh) 小文件处理方法及装置
CN102110102A (zh) 数据处理方法及装置、文件识别方法及工具
CN110688065A (zh) 一种存储空间管理方法、系统、电子设备及存储介质
CN115878027A (zh) 一种存储对象的处理方法、装置、终端及存储介质
CN106095511A (zh) 一种服务器升级方法和装置
CN107066588A (zh) 一种数据库及相应的方法与设备
CN110795674B (zh) 一种配置更新方法及装置
CN110704573B (zh) 目录存储方法、装置、计算机设备及存储介质
CN114647618A (zh) 信令数据查询方法、信令数据索引库的构建方法及服务器
CN111552673A (zh) 文件处理方法、装置、电子设备及存储介质
CN116303250A (zh) 会计档案数据的管理方法、装置、电子设备及介质
CN115022289B (zh) 一种连续可用ip地址检测方法、装置、设备及存储介质
CN113821166A (zh) 一种聚合多版本小对象的方法、装置及设备
CN104717254B (zh) 文件访问的方法和云网关
CN114244805A (zh) 一种域名配置方法及设备
US8001533B2 (en) Maintaining object referential integrity for abstract objects
CN116226222B (zh) 基于时序数据库的数据段标记处理方法及装置
CN110968587A (zh) 一种数据处理方法及装置
CN113778329B (zh) 一种数据聚合方法、装置、设备及计算机可读存储介质
CN113486035B (zh) 数据记录批处理方法、装置、存储介质及电子设备
CN112748945B (zh) 一种数据存储方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant