CN106446155A - 用于在云存储系统中清理数据的方法和装置 - Google Patents

用于在云存储系统中清理数据的方法和装置 Download PDF

Info

Publication number
CN106446155A
CN106446155A CN201610844370.2A CN201610844370A CN106446155A CN 106446155 A CN106446155 A CN 106446155A CN 201610844370 A CN201610844370 A CN 201610844370A CN 106446155 A CN106446155 A CN 106446155A
Authority
CN
China
Prior art keywords
data
clearance
information
metadata information
cloud storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610844370.2A
Other languages
English (en)
Inventor
王姜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610844370.2A priority Critical patent/CN106446155A/zh
Priority to US15/374,923 priority patent/US10698863B2/en
Publication of CN106446155A publication Critical patent/CN106446155A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1727Details of free space management performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • G06F16/24544Join order optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Operations Research (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于在云存储系统中清理数据的方法和装置。根据本发明的方法包括以下步骤:在检测到用户删除一文件时,删除该文件对应的数据切片的元数据信息;其中,所述方法包括以下步骤:在需要清理数据时,导出待处理的全部数据切片;通过遍历元数据信息中的各个文件,确定可通过所述元数据信息进行访问的各个数据切片,从而得到相应的访问数据信息;基于所述访问数据信息,确定所述全部数据切片中的待清理数据,以对该待清理数据执行数据清理操作。本发明具有以下优点:避免了传统的直接删除文件的数据信息的方式中容易删除失败的问题,从而能够减少垃圾数据占用的存储空间,提高资源利用率和系统的负载水平。

Description

用于在云存储系统中清理数据的方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于在云存储系统中清理数据的方法和装置。
背景技术
对象存储服务提供了稳定、安全、高效以及高扩展的云存储服务,不仅直接面向用户提供服务,同时也为上层业务提供了强大支持,是公有云服务中一项非常重要的基础服务。对象存储服务一般将对象分为元数据(meta)和数据(data)两部分进行存储,data里存储着对象的实际数据,meta里维护着对象的元数据信息以及对data的映射。对对象的删除其实本质上是对meta及其所映射到的data的删除。对象存储以高规格的服务器资源,低廉的价格水平向用户提供高可靠的存储服务,因此如何保证对服务器资源的高效使用,降低服务器资源需求,是云存储服务中降低成本,进而实现盈利的一项重要内容。
在现有的技术方案中,对于数据的删除操作一般是直接删除,即用户发起对象的删除操作后,直接对数据的meta和data进行删除。然而该方式具有以下缺点:1)删除对象时,删除逻辑种类繁多而复杂,处理过程中由于程序自己本身或者硬件方面的原因,容易失败,从而导致系统中出现很多永远无法被删除的垃圾数据,使得存储空间被严重浪费,并且消耗时间长,用户体验差;2)对于直接删除数据的meta和data的方式,如果用户发起一个删除请求,需要等待系统全部完成meta和data的全部清理,才能给用户返回结果,整个过程中,耗时较长;3)对存储系统整体影响较大,由于服务器的资源是有限的,如果有大量的直接删除操作,其会消耗大量的服务器资源,从而使得系统没有足够的资源对用户提供其他更有价值的上传和下载等操作。
发明内容
本发明的目的是提供一种用于在云存储系统中清理数据的方法和装置。
根据本发明的一个方面,提供了一种用于在云存储系统中清理数据的方法,其中,所述清理装置将各个用户的数据按照特定大小切分成多个独立的数据切片来进行存储,所述方法包括以下步骤:
-在检测到用户删除一文件时,删除该文件对应的数据切片的元数据信息;
其中,所述方法包括以下步骤:
-在需要清理数据时,导出待处理的全部数据切片;
-通过遍历元数据信息中的各个文件,确定可通过所述元数据信息进行访问的各个数据切片,从而得到相应的访问数据信息;
-基于所述访问数据信息,确定所述全部数据切片中的待清理数据,以对该待清理数据执行数据清理操作。
根据本发明的一个方面,还提供了一种用于在云存储系统中清理数据的清理装置,其中,所述云存储系统中存储多个用户对应的数据,并且,所述云存储系统将各个用户的数据按照特定大小切分成多个独立的数据切片来进行存储,所述清理装置包括:
用于在检测到用户删除一文件时,删除该文件对应的数据切片的元数据信息的装置;
其中,所述清理装置包括:
用于在需要清理数据时,导出待处理的全部数据切片的装置;
用于通过遍历元数据信息中的各个文件,确定可通过所述元数据信息进行访问的各个数据切片,从而得到相应的访问数据信息的装置;
用于基于所述访问数据信息,确定所述全部数据切片中的待清理数据,以对该待清理数据执行数据清理操作的装置。
根据本发明的一个方面,提供了一种云存储系统,所述云存储系统包括一个或多个云存储设备,所述云存储设备包含根据本发明的清理装置。
与现有技术相比,本发明具有以下优点:通过在用户发起删除操作时删除相应文件的元数据信息并对云存储系统中进行清理,避免了传统的直接删除文件的数据信息的方式中容易删除失败的问题,从而能够减少垃圾数据占用的存储空间,提高资源利用率和系统的负载水平;并且,根据本发明的方案采用采用分布式多线程的方式,将所有数据分发到多个节点上分别进行处理,中心节点上管理每个节点的处理进度和结果,统一获取其执行结果,从而避免在确定待清理数据时产生大量的设备之间的交互,减少了网络消耗,减轻了各个设备的负载,提升了效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示意出了根据本发明的一种用于在云存储系统中清理数据的方法流程图;
图2示意出了根据本发明的一种用于在云存储系统中清理数据的清理装置的结构示意图;
图3示意出了根据本发明的一个示例性的云存储系统。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示意出了根据本发明的一种用于在云存储系统中清理数据的方法流程图。根据本发明的方法包括步骤S1、步骤S2、步骤S3和步骤S4。
其中,根据本发明的方法通过包含于云存储设备的清理装置来实现。所述云存储设备包括各种可用于提供云存储服务的网络设备。
所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述网络设备以及网络仅为举例,其他现有的或今后可能出现的用户设备、网络设备以及网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
参照图1,在步骤S1中,在检测到用户删除一文件时,清理装置删除该文件对应的数据切片的元数据信息。
其中,所述元数据信息(meta data)包括各种可用于在数据库中用于描述数据及其环境的数据。
根据本发明的第一示例,清理装置包含于百度的对象存储服务(BOS)系统,并且该云存储系统采用百度的molaDB数据库,将所述云存储系统将各个用户的数据按照特定大小切分成多个独立的数据切片来进行存储,并且,BOS系统将各个文件对象的元数据信息在Mola系统和MySQL系统中各存储一份。在检测到用户删除一文件时,清理装置删除该文件对应的数据切片的元数据信息(meta),并同时保留其数据信息(data)。meta的删除完成后即向该用户返回本次删除操作的结果。
继续参照图1进行说明,在步骤S2中,在需要清理数据时,清理装置导出待处理的全部数据切片。
优选地,在用户手动开始数据清理操作时或者经过特定周期后,清理装置导出待处理的全部数据切片。
接着,在步骤S3中,清理装置通过遍历元数据信息中的各个文件,确定可通过所述元数据信息进行访问的各个数据切片,从而得到相应的访问数据信息。
优选地,执行完步骤S2的操作并经过预定时间段后,执行步骤S3的操作。
优选地,所述访问数据信息包括列表信息,所述步骤S3包括步骤S301(图未示)。
在步骤S301中,清理装置通过遍历元数据信息中的每个文件,获得可通过所述元数据信息进行访问的各个数据切片的列表信息。
具体地,清理装置可直接获取该文件对象的该文件对象的各个部分的列表信息。
如果一文件对象的大小超过预定阈值,则清理装置分别获取该文件对象的各个部分各自对应的部分列表信息;接着,清理装置将获取到的各个部分列表信息进行合并,从而得到与该文件对象对应的各个数据切片的列表信息。
优选地,如果一文件对象需要二次检索才能获得列表信息,则清理装置通过二次检索操作,在一个总的列表信息中逐个追加该文件对象各个部分的列表信息。
优选地,所述云存储系统在元数据信息中存储小于预定阈值的小文件。清理装置通过遍历元数据信息中的小文件以外的文件对象,确定可通过所述元数据信息进行访问的各个数据切片。
继续对前述第一示例进行说明,清理装置将小于1M的各个文件对象存储在meta信息中,从而步骤S3中不对这些小于1M的文件进行遍历。清理装置按照文件大小将各个文案而对象分为common(大于1M且小于等于1G)、composed(大于1G且小于等于20G)和super(大于20G)三种类型,需要二次检索才能获得super类型的文件对象的列表信息。清理装置按照以下规则来遍历元数据信息中的各个文件:对于common类型的文件对象,直接获取该文件对象的该文件对象的各个部分的列表信息;对于composed类型的文件对象,清理装置分别获取该文件对象的各个部分各自对应的部分列表信息并将各个部分列表信息进行合并,从而得到与该文件对象对应的各个数据切片的列表信息;对于super类型的文件对象,通过二次检索操作,在一个总的列表信息中逐个追加该文件对象各个部分的列表信息。
在距离上次数据清理操作经过一天时,清理装置在步骤S2中导出待处理的全部数据切片,作为集合A。接着,清理装置基于上述规则,通过分别遍历在Mola系统所存储的元数据信息中的每个文件,获得可通过该元数据信息进行访问的各个数据切片的列表信息slice_list1,并通过遍历在MySQL系统的Refernce表中的所有src字段,获得可访问的各个数据切片的列表信息slice_list2,并将slice_list1和slice_list2作为数据访问信息。
继续参照图1进行说明,在步骤S4中,清理装置基于所述访问数据信息,确定所述全部数据切片中的待清理数据,以对该待清理数据执行数据清理操作。
具体地,清理装置将待处理的全部数据切片中不可通过元数据信息进行访问的一个或多个数据切片作为待清理数据。
优选地,清理装置通过对比待处理的全部数据切片和所述访问数据信息,并通过左外连接操作,确定所述待清理数据。
根据本发明的一个优选实施例,所述方法还包括步骤S5(图未示)。
在步骤S5中,清理装置获取用户已上传但未进行合并的数据切片的相关信息。
在步骤S4中,如果所确定的待清理数据包含用户已上传但未进行合并的一个或多个数据切片,则清理装置确定不对该一个或多个数据切片执行数据清理操作。
继续对前述第一示例进行说明,当用户上传大文件时,BOS系统提供三步上传,以保证大文件的上传操作得到更好的效果。在三步上传中,用户首先将数据分做多个部分依次上传,最后将上传的多个部分进行合并。如果用户未发起三步上传,并且用户没有删除这些部分时,这些部分可在BOS系统中的MultiUpload Part中进行访问。在步骤S5中,清理装置获取MultiUpload Part中可访问的各个数据切片的列表信息slice_list3,并将slice_list1、slice_list2和slice_list3对应的数据切片的总和作为集合B。接着,清理装置通过左外连接操作确定集合A中不在集合B中的各个数据切片为待清理数据,从而对其执行数据清理操作。
优选地,所述步骤S4还包括步骤S401(图未示)和步骤S402(图未示)。
在步骤S401中,清理装置将所述待清理数据转存至垃圾文件中,其中,用户可在该垃圾文件中恢复误删的数据切片。
在步骤S402中,清理装置删除所述垃圾文件中存储时间超过预定时间段的数据切片,以完成数据清理操作。
继续对前述第一示例进行说明,清理装置将待清理数转存储至天trash表中,如果发生误删,可从该trash表中进行恢复。经过预定时段段后,清理装置对trash表中的内容进行清理,以完成数据清理操作。
根据本发明的方法,通过在用户发起删除操作时删除相应文件的元数据信息并对云存储系统中进行清理,避免了传统的直接删除文件的数据信息的方式中容易删除失败的问题,从而能够减少垃圾数据占用的存储空间,提高资源利用率和系统的负载水平。
根据本发明的一个优选实施方案,所述云存储系统包括多个独立工作的处理节点和一个中心节点,所述方法由包含于所述处理节点的清理装置执行时,所述方法还包括步骤S6(图未示)。
在步骤S6中,清理装置执行完数据清理操作后,向作为中心节点的设备发送相应的处理结果信息,以供该中心节点对来自各个处理节点的处理结果信息进行处理。
其中,所述处理结果信息可包括已清理的数据切片的标识信息、个数信息,清理完成时间等等。
例如,图3示意出了根据本发明的一个示例性的云存储系统。参照图3,所述云存储系统包括3个作为处理节点的云存储设备,和1个作为中心节点的云存储设备。各个处理节点在执行完数据清理操作后,向作为中心节点的设备发送相应的处理结果信息,以供该中心节点对来自各个处理节点的处理结果信息进行处理。
根据本优选实施方案的方法,采用采用分布式多线程的方式,将所有数据分发到多个节点上分别进行处理,中心节点上管理每个节点的处理进度和结果,统一获取其执行结果,从而避免在确定待清理数据时产生大量的设备之间的交互,减少了网络消耗,减轻了各个设备的负载,提升了效率。。
图2示意出了根据本发明的一种用于在云存储系统中清理数据的清理装置的结构示意图。
根据本发明的清理装置包括:用于在检测到用户删除一文件时,删除该文件对应的数据切片的元数据信息的装置(以下简称“删除装置1”);用于在需要清理数据时,导出待处理的全部数据切片的装置(以下简称“导出装置2”);用于通过遍历元数据信息中的各个文件,确定可通过所述元数据信息进行访问的各个数据切片,从而得到相应的访问数据信息的装置(以下简称“第一确定装置3”);用于基于所述访问数据信息,确定所述全部数据切片中的待清理数据,以对该待清理数据执行数据清理操作的装置(以下简称“第二确定装置4”)。
参照图2,在检测到用户删除一文件时,删除装置1删除该文件对应的数据切片的元数据信息。
其中,所述元数据信息(meta data)包括各种可用于在数据库中用于描述数据及其环境的数据。
根据本发明的第一示例,清理装置包含于百度的对象存储服务(BOS)系统,并且该云存储系统采用百度的molaDB数据库,将所述云存储系统将各个用户的数据按照特定大小切分成多个独立的数据切片来进行存储,并且,BOS系统将各个文件对象的元数据信息在Mola系统和MySQL系统中各存储一份。在检测到用户删除一文件时,删除装置1删除该文件对应的数据切片的元数据信息(meta),并同时保留其数据信息(data)。meta的删除完成后即向该用户返回本次删除操作的结果。
继续参照图2进行说明,在需要清理数据时,导出装置2清理装置导出待处理的全部数据切片。
优选地,在用户手动开始数据清理操作时或者经过特定周期后,导出装置2导出待处理的全部数据切片。
接着,第一确定装置3通过遍历元数据信息中的各个文件,确定可通过所述元数据信息进行访问的各个数据切片,从而得到相应的访问数据信息。
优选地,执行完导出装置2操作并经过预定时间段后,执行第一确定装置3的操作。
优选地,所述访问数据信息包括列表信息,所述第一确定装置3包括用于通过遍历元数据信息中的每个文件,获得可通过所述元数据信息进行访问的各个数据切片的列表信息的装置(图未示,以下简称“列表获取装置”)。
列表获取装置通过遍历元数据信息中的每个文件,获得可通过所述元数据信息进行访问的各个数据切片的列表信息。
具体地,列表获取装置可直接获取该文件对象的该文件对象的各个部分的列表信息。
如果一文件对象的大小超过预定阈值,则列表获取装置分别获取该文件对象的各个部分各自对应的部分列表信息;接着,列表获取装置将获取到的各个部分列表信息进行合并,从而得到与该文件对象对应的各个数据切片的列表信息。
优选地,如果一文件对象需要二次检索才能获得列表信息,则列表获取装置通过二次检索操作,在一个总的列表信息中逐个追加该文件对象各个部分的列表信息。
优选地,所述云存储系统在元数据信息中存储小于预定阈值的小文件。第一确定装置3通过遍历元数据信息中的小文件以外的文件对象,确定可通过所述元数据信息进行访问的各个数据切片。
继续对前述第一示例进行说明,第一期确定装置3将小于1M的各个文件对象存储在meta信息中,从而不对这些小于1M的文件进行遍历。清理装置按照文件大小将各个文案而对象分为common(大于1M且小于等于1G)、composed(大于1G且小于等于20G)和super(大于20G)三种类型,需要二次检索才能获得super类型的文件对象的列表信息。清理装置按照以下规则来遍历元数据信息中的各个文件:对于common类型的文件对象,直接获取该文件对象的该文件对象的各个部分的列表信息;对于composed类型的文件对象,清理装置分别获取该文件对象的各个部分各自对应的部分列表信息并将各个部分列表信息进行合并,从而得到与该文件对象对应的各个数据切片的列表信息;对于super类型的文件对象,通过二次检索操作,在一个总的列表信息中逐个追加该文件对象各个部分的列表信息。
在距离上次数据清理操作经过一天时,导出装置2导出待处理的全部数据切片,作为集合A。接着,列表获取装置基于上述规则,通过分别遍历在Mola系统所存储的元数据信息中的每个文件,获得可通过该元数据信息进行访问的各个数据切片的列表信息slice_list1,并通过遍历在MySQL系统的Refernce表中的所有src字段,获得可访问的各个数据切片的列表信息slice_list2,并将slice_list1和slice_list2作为数据访问信息。
继续参照图2进行说明,第二确定装置4基于所述访问数据信息,确定所述全部数据切片中的待清理数据,以对该待清理数据执行数据清理操作。
具体地,第二确定装置4将待处理的全部数据切片中不可通过元数据信息进行访问的一个或多个数据切片作为待清理数据。
优选地,第二确定装置4通过对比待处理的全部数据切片和所述访问数据信息,并通过左外连接操作,确定所述待清理数据。
根据本发明的一个优选实施例,所述清理装置还包括用于获取用户已上传但未进行合并的数据切片的相关信息的装置(图未示,以下简称“上传获取装置”)。
上传获取装置获取用户已上传但未进行合并的数据切片的相关信息。
如果所确定的待清理数据包含用户已上传但未进行合并的一个或多个数据切片,则第二确定装置4确定不对该一个或多个数据切片执行数据清理操作。
继续对前述第一示例进行说明,当用户上传大文件时,BOS系统提供三步上传,以保证大文件的上传操作得到更好的效果。在三步上传中,用户首先将数据分做多个部分依次上传,最后将上传的多个部分进行合并。如果用户未发起三步上传,并且用户没有删除这些部分时,这些部分可在BOS系统中的MultiUpload Part中进行访问。上传获取装置获取MultiUpload Part中可访问的各个数据切片的列表信息slice_list3,并将slice_list1、slice_list2和slice_list3对应的数据切片的总和作为集合B。接着,清理装置通过左外连接操作确定集合A中不在集合B中的各个数据切片为待清理数据,从而对其执行数据清理操作。
优选地,所述第二确定装置4还包括用于将所述待清理数据转存至垃圾文件中的装置(图未示,以下简称“转存装置”),和用于删除所述垃圾文件中存储时间超过预定时间段的数据切片,以完成数据清理操作的装置(图未示,以下简称“数据删除装置”)。
转存装置将所述待清理数据转存至垃圾文件中,其中,用户可在该垃圾文件中恢复误删的数据切片。
数据删除装置删除所述垃圾文件中存储时间超过预定时间段的数据切片,以完成数据清理操作。
继续对前述第一示例进行说明,转存装置将待清理数转存储至天trash表中,如果发生误删,可从该trash表中进行恢复。经过预定时段段后,数据删除装置对trash表中的内容进行清理,以完成数据清理操作。
根据本发明的方案,通过在用户发起删除操作时删除相应文件的元数据信息并对云存储系统中进行清理,避免了传统的直接删除文件的数据信息的方式中容易删除失败的问题,从而能够减少垃圾数据占用的存储空间,提高资源利用率和系统的负载水平。
根据本发明的一个优选实施方案,所述云存储系统包括多个独立工作的处理节点和一个中心节点,所述清理装置包含于所述处理节点时,所述清理装置还包括用于的装置(图未示,以下简称“发送装置”)。
执行完数据清理操作后,发送装置向作为中心节点的设备发送相应的处理结果信息,以供该中心节点对来自各个处理节点的处理结果信息进行处理。
其中,所述处理结果信息可包括已清理的数据切片的标识信息、个数信息,清理完成时间等等。
例如,图3示意出了根据本发明的一个示例性的云存储系统。参照图3,所述云存储系统包括3个作为处理节点的云存储设备,和1个作为中心节点的云存储设备。各个处理节点在执行完数据清理操作后,向作为中心节点的设备发送相应的处理结果信息,以供该中心节点对来自各个处理节点的处理结果信息进行处理。
根据本优选实施方案,采用采用分布式多线程的方式,将所有数据分发到多个节点上分别进行处理,中心节点上管理每个节点的处理进度和结果,统一获取其执行结果,从而避免在确定待清理数据时产生大量的设备之间的交互,减少了网络消耗,减轻了各个设备的负载,提升了效率。
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (18)

1.一种用于在云存储系统中清理数据的方法,其中,所述云存储系统将各个用户的数据按照特定大小切分成多个独立的数据切片来进行存储,所述方法包括以下步骤:
-在检测到用户删除一文件时,删除该文件对应的数据切片的元数据信息;
其中,所述方法包括以下步骤:
-在需要清理数据时,导出待处理的全部数据切片;
-通过遍历元数据信息中的各个文件,确定可通过所述元数据信息进行访问的各个数据切片,从而得到相应的访问数据信息;
-基于所述访问数据信息,确定所述全部数据切片中的待清理数据,以对该待清理数据执行数据清理操作。
2.根据权利要求1所述的方法,其中,所述访问数据信息包括列表信息,所述步骤b包括以下步骤:
-遍历元数据信息中的每个文件,获得可通过所述元数据信息进行访问的各个数据切片的列表信息。
3.根据权利要求2所述的方法,其中,所述通过遍历元数据信息中的各个文件,确定可通过所述元数据信息进行访问的各个数据切片,从而得到相应的访问数据信息的步骤包括以下步骤:
-如果一文件对象的大小超过预定阈值,则分别获取该文件对象的各个部分各自对应的部分列表信息;
-将获取到的各个部分列表信息进行合并,从而得到与该文件对象对应的各个数据切片的列表信息。
4.根据权利要求1所述的方法,所述云存储系统在元数据信息中存储小于预定阈值的小文件,其中,所述通过遍历元数据信息中的各个文件,确定可通过所述元数据信息进行访问的各个数据切片,从而得到相应的访问数据信息的步骤包括以下步骤:
-通过遍历元数据信息中的小文件以外的文件对象,确定可通过所述元数据信息进行访问的各个数据切片。
5.根据权利要求1所述的方法,其中,所述方法包括以下步骤:
-获取用户已上传但未进行合并的数据切片的相关信息;
其中,所述基于所述访问数据信息,确定所述全部数据切片中的待清理数据,以对该待清理数据执行数据清理操作的步骤包括以下步骤:
-如果所确定的待清理数据包含用户已上传但未进行合并的一个或多个数据切片,则确定不对该一个或多个数据切片执行数据清理操作。
6.根据权利要求1所述的方法,其中,所述基于所述访问数据信息,确定所述全部数据切片中的待清理数据,以对该待清理数据执行数据清理操作的步骤包括以下步骤:
-通过对比待处理的全部数据切片和所述访问数据信息,并通过左外连接操作,确定所述待清理数据。
7.根据权利要求1所述的方法,其中,所述基于所述访问数据信息,确定所述全部数据切片中的待清理数据,以对该待清理数据执行数据清理操作的步骤包括以下步骤:
-将所述待清理数据转存至垃圾文件中,其中,用户可在该垃圾文件中恢复误删的数据切片;
-删除所述垃圾文件中存储时间超过预定时间段的数据切片,以完成数据清理操作。
8.根据权利要求1所述的方法,其中,云存储系统包括多个独立工作的处理节点和一个中心节点,所述方法由包含于所述处理节点的清理装置执行时,所述方法还包括以下步骤:
-执行完数据清理操作后,向作为中心节点的设备发送相应的处理结果信息,以供该中心节点对来自各个处理节点的处理结果信息进行处理。
9.一种用于在云存储系统中清理数据的清理装置,其中,所述云存储系统将各个用户的数据按照特定大小切分成多个独立的数据切片来进行存储,所述清理装置包括:
用于在检测到用户删除一文件时,删除该文件对应的数据切片的元数据信息的装置;
其中,所述清理装置包括:
用于在需要清理数据时,导出待处理的全部数据切片的装置;
用于通过遍历元数据信息中的各个文件,确定可通过所述元数据信息进行访问的各个数据切片,从而得到相应的访问数据信息的装置;
用于基于所述访问数据信息,确定所述全部数据切片中的待清理数据,以对该待清理数据执行数据清理操作的装置。
10.根据权利要求9所述的清理装置,其中,所述访问数据信息包括列表信息,所述用于通过遍历元数据信息中的各个文件,确定可通过所述元数据信息进行访问的各个数据切片,从而得到相应的访问数据信息的装置包括:
用于遍历元数据信息中的每个文件,获得可通过所述元数据信息进行访问的各个数据切片的列表信息的装置。
11.根据权利要求10所述的清理装置,其中,所述用于通过遍历元数据信息中的各个文件,确定可通过所述元数据信息进行访问的各个数据切片,从而得到相应的访问数据信息的装置用于:
如果一文件对象的大小超过预定阈值,则分别获取该文件对象的各个部分各自对应的部分列表信息;
将获取到的各个部分列表信息进行合并,从而得到与该文件对象对应的各个数据切片的列表信息。
12.根据权利要求9所述的清理装置,所述云存储系统在元数据信息中存储小于预定阈值的小文件,其中,所述用于通过遍历元数据信息中的各个文件,确定可通过所述元数据信息进行访问的各个数据切片,从而得到相应的访问数据信息的装置用于:
-通过遍历元数据信息中的小文件以外的文件对象,确定可通过所述元数据信息进行访问的各个数据切片。
13.根据权利要求9所述的清理装置,其中,所述清理装置包括:
用于获取用户已上传但未进行合并的数据切片的相关信息的装置;
其中,所述用于基于所述访问数据信息,确定所述全部数据切片中的待清理数据,以对该待清理数据执行数据清理操作的装置用于:
-如果所确定的待清理数据包含用户已上传但未进行合并的一个或多个数据切片,则确定不对该一个或多个数据切片执行数据清理操作。
14.根据权利要求9所述的清理装置,其中,所述用于基于所述访问数据信息,确定所述全部数据切片中的待清理数据,以对该待清理数据执行数据清理操作的装置用于:
-通过对比待处理的全部数据切片和所述访问数据信息,并通过左外连接操作,确定所述待清理数据。
15.根据权利要求9所述的清理装置,其中,所述用于基于所述访问数据信息,确定所述全部数据切片中的待清理数据,以对该待清理数据执行数据清理操作的装置包括:
-用于将所述待清理数据转存至垃圾文件的装置,其中,用户可在该垃圾文件中恢复误删的数据切片;
-用于删除所述垃圾文件中存储时间超过预定时间段的数据切片,以完成数据清理操作的装置。
16.根据权利要求9所述的清理装置,其中,云存储系统包括多个独立工作的处理节点和一个中心节点,包含于所述处理节点的清理装置包括:
用于在执行完数据清理操作后,向作为中心节点的设备发送相应的处理结果信息的装置,以供该中心节点对来自各个处理节点的处理结果信息进行处理。
17.一种云存储系统,所述云存储系统包括一个或多个云存储设备,所述云存储设备包含如权利要求9至16中任一项所述的清理装置。
18.根据权利要求17所述的云存储系统,其中,所述云存储系统包括多个作为处理节点的云存储设备,和一个或多个作为中心节点的云存储设备,所述作为中心节点的云存储设备对来自各个处理节点的处理结果信息进行处理。
CN201610844370.2A 2016-09-22 2016-09-22 用于在云存储系统中清理数据的方法和装置 Pending CN106446155A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610844370.2A CN106446155A (zh) 2016-09-22 2016-09-22 用于在云存储系统中清理数据的方法和装置
US15/374,923 US10698863B2 (en) 2016-09-22 2016-12-09 Method and apparatus for clearing data in cloud storage system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610844370.2A CN106446155A (zh) 2016-09-22 2016-09-22 用于在云存储系统中清理数据的方法和装置

Publications (1)

Publication Number Publication Date
CN106446155A true CN106446155A (zh) 2017-02-22

Family

ID=58165993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610844370.2A Pending CN106446155A (zh) 2016-09-22 2016-09-22 用于在云存储系统中清理数据的方法和装置

Country Status (2)

Country Link
US (1) US10698863B2 (zh)
CN (1) CN106446155A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727389A (zh) * 2018-07-16 2020-01-24 网宿科技股份有限公司 文件清理方法及系统
CN111400255A (zh) * 2019-09-26 2020-07-10 杭州海康威视系统技术有限公司 数据清理方法、装置及设备、存储介质
CN111597149A (zh) * 2020-04-27 2020-08-28 五八有限公司 一种数据库的数据清理方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111221468B (zh) * 2018-11-26 2023-10-13 杭州海康威视系统技术有限公司 存储块数据删除方法、装置、电子设备及云存储系统
JP7271410B2 (ja) * 2019-12-16 2023-05-11 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置およびファイル記録方法
JP7321917B2 (ja) 2019-12-16 2023-08-07 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置およびファイルアクセス方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866359A (zh) * 2010-06-24 2010-10-20 北京航空航天大学 一种机群文件系统中的小文件存储和访问方法
CN102193952A (zh) * 2010-03-19 2011-09-21 联想(北京)有限公司 元数据服务器、机群系统及机群系统中的文件创建方法
CN103678337A (zh) * 2012-09-06 2014-03-26 华为技术有限公司 数据清除方法、装置及系统
CN104156474A (zh) * 2014-08-25 2014-11-19 曙光信息产业股份有限公司 一种分布式文件系统中文件的快速删除方法
US20150234879A1 (en) * 2014-02-17 2015-08-20 International Business Machines Corporation Storage quota management
CN105141685A (zh) * 2015-08-18 2015-12-09 浪潮(北京)电子信息产业有限公司 文件读写系统及其元数据存储器和文件读写方法和装置
CN105912664A (zh) * 2016-04-11 2016-08-31 华为技术有限公司 一种文件处理方法和设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239354B2 (en) * 2005-03-03 2012-08-07 F5 Networks, Inc. System and method for managing small-size files in an aggregated file system
US6957222B1 (en) * 2001-12-31 2005-10-18 Ncr Corporation Optimizing an outer join operation using a bitmap index structure
JP2007025864A (ja) * 2005-07-13 2007-02-01 Oki Data Corp 画像処理装置
US8930496B2 (en) * 2005-12-19 2015-01-06 Commvault Systems, Inc. Systems and methods of unified reconstruction in storage systems
US8397083B1 (en) * 2006-08-23 2013-03-12 Netapp, Inc. System and method for efficiently deleting a file from secure storage served by a storage system
US8995824B2 (en) * 2008-01-14 2015-03-31 At&T Intellectual Property I, L.P. Digital video recorder with segmented program storage
KR101222129B1 (ko) * 2008-12-22 2013-01-15 한국전자통신연구원 메타데이터 서버 및 메타데이터 서버의 디스크볼륨 선정 방법
US20100332401A1 (en) * 2009-06-30 2010-12-30 Anand Prahlad Performing data storage operations with a cloud storage environment, including automatically selecting among multiple cloud storage sites
US9047312B1 (en) * 2011-03-30 2015-06-02 Amazon Technologies, Inc. System and method for deletion of extraneous delete marker objects
US9990253B1 (en) * 2011-03-31 2018-06-05 EMC IP Holding Company LLC System and method for recovering file systems without a replica
CN103460197A (zh) * 2011-09-21 2013-12-18 株式会社日立制作所 计算机系统、文件管理方法以及元数据服务器
US10229138B2 (en) * 2012-09-27 2019-03-12 Nokia Technologies Oy Method and apparatus for tagged deletion of user online history
US9442803B2 (en) * 2014-06-24 2016-09-13 International Business Machines Corporation Method and system of distributed backup for computer devices in a network

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193952A (zh) * 2010-03-19 2011-09-21 联想(北京)有限公司 元数据服务器、机群系统及机群系统中的文件创建方法
CN101866359A (zh) * 2010-06-24 2010-10-20 北京航空航天大学 一种机群文件系统中的小文件存储和访问方法
CN103678337A (zh) * 2012-09-06 2014-03-26 华为技术有限公司 数据清除方法、装置及系统
US20150234879A1 (en) * 2014-02-17 2015-08-20 International Business Machines Corporation Storage quota management
CN104156474A (zh) * 2014-08-25 2014-11-19 曙光信息产业股份有限公司 一种分布式文件系统中文件的快速删除方法
CN105141685A (zh) * 2015-08-18 2015-12-09 浪潮(北京)电子信息产业有限公司 文件读写系统及其元数据存储器和文件读写方法和装置
CN105912664A (zh) * 2016-04-11 2016-08-31 华为技术有限公司 一种文件处理方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沐连顺: "《云计算在大型企业中的应用》", 31 May 2014, 中国电力出版社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727389A (zh) * 2018-07-16 2020-01-24 网宿科技股份有限公司 文件清理方法及系统
CN110727389B (zh) * 2018-07-16 2023-10-20 网宿科技股份有限公司 文件清理方法及系统
CN111400255A (zh) * 2019-09-26 2020-07-10 杭州海康威视系统技术有限公司 数据清理方法、装置及设备、存储介质
CN111400255B (zh) * 2019-09-26 2023-04-28 杭州海康威视系统技术有限公司 数据清理方法、装置及设备、存储介质
CN111597149A (zh) * 2020-04-27 2020-08-28 五八有限公司 一种数据库的数据清理方法及装置
CN111597149B (zh) * 2020-04-27 2023-03-31 五八有限公司 一种数据库的数据清理方法及装置

Also Published As

Publication number Publication date
US20180081894A1 (en) 2018-03-22
US10698863B2 (en) 2020-06-30

Similar Documents

Publication Publication Date Title
CN106446155A (zh) 用于在云存储系统中清理数据的方法和装置
Liu et al. Storyflow: Tracking the evolution of stories
CN108268565B (zh) 基于数据仓库处理用户浏览行为数据的方法及系统
CN108694195B (zh) 一种分布式数据仓库的管理方法及系统
DE202015009779U1 (de) Implementierung semistrukturierter Daten als ein Datenbankelement erster Klasse
Bassil A data warehouse design for a typical university information system
Dhyani et al. Big data analytics using Hadoop
CN106202569A (zh) 一种基于大数据量的清洗方法
WO2014107441A2 (en) Social media impact assessment
CN106682227A (zh) 基于分布式文件系统的日志数据存储系统及读写方法
Sisodia et al. Fast prediction of web user browsing behaviours using most interesting patterns
Banica et al. Big data in business environment
Behera et al. A comparative study of distributed tools for analyzing streaming data
Cherubini et al. Cognitive storage for big data
Srikanth et al. Dynamic social media monitoring for fast-evolving online discussions
CN106503260B (zh) 一种提高数据库的有效存储空间的方法和装置
El Fazziki et al. A multi-agent based social crm framework for extracting and analysing opinions
WO2016206395A1 (zh) 周报信息处理方法及装置
Ramsingh et al. Data analytic on diabetic awareness with Hadoop streaming using map reduce in python
Keswani et al. Enhanced approach to attain competent Big Data pre-processing
US20170270223A1 (en) Autopoietic information processing system and method
Bin Research on tourism service intelligent recommendation system based on apriori-MD algorithm
Xhafa et al. Performance Evaluation of a MapReduce Hadoop-Based Implementation for Processing Large Virtual Campus Log Files
CN108243228A (zh) 用于数据调度的方法和智能伺服集群
Joseph et al. Survey on incremental and iterative models in big data mining environment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222