CN103353892A - 一种适应海量存储的数据清理方法及系统 - Google Patents

一种适应海量存储的数据清理方法及系统 Download PDF

Info

Publication number
CN103353892A
CN103353892A CN2013102821427A CN201310282142A CN103353892A CN 103353892 A CN103353892 A CN 103353892A CN 2013102821427 A CN2013102821427 A CN 2013102821427A CN 201310282142 A CN201310282142 A CN 201310282142A CN 103353892 A CN103353892 A CN 103353892A
Authority
CN
China
Prior art keywords
file
data
module
initial threshold
submodule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013102821427A
Other languages
English (en)
Inventor
鲁冬林
王超峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING NETEAST TECHNOLOGIES Co Ltd
Original Assignee
BEIJING NETEAST TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING NETEAST TECHNOLOGIES Co Ltd filed Critical BEIJING NETEAST TECHNOLOGIES Co Ltd
Priority to CN2013102821427A priority Critical patent/CN103353892A/zh
Publication of CN103353892A publication Critical patent/CN103353892A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种适应海量存储的数据清理方法,所述方法包含:步骤101)用于在云存储的挂载点下建立若干级目录,将文件存放于挂载的目录中,其中,各级目录的名称根据文件名的若干字节形成;步骤102)采用分布策略对指定的某一级目录进行检索,获得该目录下各文件的最后访问时间,所述的分布策略为同时启动多个进程;步骤103)依据各文件的最后访问时间与当前扫描时刻的差值判断应该删除哪些文件,具体为:设定初始阈值,查找上述差值大于初始阈值的文件作为待删除的文件;如果没有找到待清除的文件,则减小初始阈值,重新查找满足差值大于减小后的初始阈值的文件作为待删除文件,直至释放的存储空间满足需求。

Description

一种适应海量存储的数据清理方法及系统
技术领域
本发明涉及海量存储清理的问题,具体一种解决对海量存储介质进行数据清理的方法及系统。
背景技术
随着互联网快速地发展,网络运营商不停地建设基础网络设施,带宽在不断提升,但同时基于高带宽的互联网应用也在不断推陈出新,网民更加追求在线、实时、高清等互联网应用体验,由此造成互联网应用产生大量的数据文件,存储介质的容量也从GB发展到TB,再到现在的PB量级。
由于单块磁盘的容量非常有限,如果要建立几百个TB甚至几个PB量级的存储,需要管理的磁盘数据会非常大,因此海量存储技术应运而生,云存储就是海量存储技术的一种形式,利用云存储技术,可以将大量的独立磁盘对上层应用屏蔽,这些磁盘由云存储系统来管理和调度,而上层应用看到的只是由云存储提供的一个或几个挂载目录,对于上层应用而言,使用云存储的好处是既可以避免对磁盘的管理,同时又能使用超大的磁盘存储空间。
云存储的应用在提供了方便使用超大存储空间的同时,也带来的一定的问题。由于磁盘存储空间巨大,因此保存的文件数量相对于没有使用云存储时要大很多,当云存储空间即将耗尽,需要删除文件释放存储空间时,海量的文件导致数据清理工作无法正常进行。
发明内容
本发明的目的在于,为克服现有技术在海量存储方面的诸多缺陷,从而提供一种适应海量存储的数据清理方法及系统。
为实现上述目的,本发明提供了一种适应海量存储的数据清理方法,所述方法包含:
步骤101)用于在云存储的挂载点下建立若干级目录,将文件存放于挂载的目录中,其中,各级目录的名称根据文件名的若干字节形成;
步骤102)采用分布策略对指定的某一级目录进行检索,获得该目录下各文件的最后访问时间,所述的分布策略为同时启动多个进程;
步骤103)依据各文件的最后访问时间与当前扫描时刻的差值判断应该删除哪些文件,具体为:
设定初始阈值,查找上述差值大于初始阈值的文件作为待删除的文件;如果没有找到待清除的文件,则减小初始阈值,重新查找满足差值大于减小后的初始阈值的文件作为待删除文件,直至释放的存储空间满足需求。
上述步骤101)进一步包含:
步骤101-1)在云存储的挂载点下建立两级目录;
步骤102)第一级目录使用文件名首字节转换为十六进制字符后命名,名称范围是00-FF共256个目录,每个文件检查首字节后会被定位到一个一级目录中;第二级目录建立在一级目录中,使用文件名中末尾字节转换为十六进制字符后命名,名称范围为00-FF共256个目录,每个文件被定位到一级目录后,再检查文件名的末尾字节后,文件最终被保存到该一级目录下的一个二级目录中。
上述步骤102)在一台服务器启动多个进程,或者将数据检索任务部署至多台服务器上,同时对云存储内的文件数据进行检索;
其中,限定每个二级目录只允许一个数据检索子系统进行操作。
上述103)还包含删除某个指定文件的步骤。
为了实现上述方法,本发明提供了一种适应海量存储的数据清理系统,其特征在于,所述系统包含:存储模块,数据检索模块、分布式管理模块、智能决策模块和数据删除模块;
所述存储模块,用于在云存储的挂载点下建立若干级目录,将文件存放于挂载的目录中,其中,用文件名的若干字节构成各级目录的名称;
所述数据检索模块,用于检索指定目录中的指定类型文件,同时提取被检索文件的必要信息,然后将这些信息提供给智能决策模块,作为智能决策模块作出决策的依据;
所述分布式管理模块,用于采用分布式策略控制和管理若干个数据检索模块和数据删除模块;
所述智能决策模块,用于决策存储空间中的文件是否应该被删除以及控制数据检索模块是否应该结束该目标目录的检索操作,同时根据磁盘容量情况对设定的文件删除条件阈值进行动态调整;
所述数据删除模块,用于执行删除目标文件以及该目标文件相关的附属文件,同时向其他相关模块汇报目标文件删除信息;
其中,所述数据检索模块对分布式管理模块指定的目录进行检索,找到文件后查看文件最后访问时间,同时将最后访问时间传输至智能决策模块,智能决策模块返回判定结果,如果文件满足删除条件,则数据检索模块通知数据删除模块对文件进行删除。
上述数据检索模块进一步包含:
接收子模块,用于接收分布式管理模块指定待检索的目录号;
检索子模块,用于对于接收的目录进行检索;
终止检索子模块,用于接收智能决策模块返回的终止检索指令。
上述智能决策模块进一步包含:
初始阈值设定子模块,用于设定数据扫描模块扫描时所依据的时间段的长度值,当启动删除操作时以该初始阈值作为判断是否删除文件的依据;
第一判决输出子模块,当采用初始阈值没有找到能够删除的文件时,将启动自减子模块;
自减子模块,用于依据设定步长减小设定的初始阈值,该初始阈值包含依据初始阈值设定子模块设定的初始阈值也包含采用该自减子模块更新后的初始阈值;将减小的初始阈值输入扫描模块重新扫描;
数据扫描子模块,用于依据初始阈值子模块设定的初始阈值或者自减子模块更新的初始阈值确定待删除的文件,具体为当文件最近一次的更新时刻距离当前扫描时刻的差值大于或等于依据初始阈值子模块设定的初始阈值或者自减子模块更新的初始阈值时,则这些文件为待删除的文件;
累加子模块,用于将删除文件后增加的空间容量进行累加;和
判决子模块,用于将累加子模块得到的总空间容量与所需的总容量进行比较,如果累加子模块得到的总空间容量小于所需的总容量时,驱动数据检索模块继续检索;如果累加子模块得到的总空间容量大于所需的总容量时,则终止数据检索子模块的检索。
本发明提供一种解决在海量存储介质上进行数据清理的方法及系统,使用这种方法及系统后,可以解决由于海量存储中文件数量巨大导致的数据清理工作无法正常进行的问题,从而达到使存储介质上的空间能够及时得到释放,大量新数据能够及时保存到存储介质的目的。
与现有技术相比,本发明的技术优势在于:
使用本发明涉及的方法及系统后,在海量存储环境中存在巨大数量文件的场景下,数据清理工作得以正常进行,并且效率和可靠性上得到较大提升,从而使互联网用户迫切需要的新的数据能够及时保存到海量存储中,使得互联网用户获得丰富、及时、高效、可靠的互联网服务成为可能。
本发明提出一种解决在使用海量存储时进行数据清理的方法及系统,该方法及系统的基本思想是利用分布式及自适应技术来解决海量存储上数量巨大的数据的清理问题。所谓的分布式是指将原来部署在单台服务器上的磁盘清理系统部署到多台服务器上,通过分布式部署实现多个数据清理系统同时对云存储的挂载点进行数据检索和清理操作。所谓的自适应技术是指数据清理系统可以根据当前磁盘空间、指定的时间阈值、停止删除操作的磁盘使用空间阈值情况,自动调整时间阈值执行数据清理操作,直到剩余的存储空间满足要求。本发明适用于使用云存储作为存储介质,每天会产生大量新的数据文件,需要及时清理过期数据文件的应用场景。
附图说明
图1是本发明提供的数据检索子系统工作流程图。
具体实施方式
下面结合附图对本发明的内容进行详细说明。
为了实现这个目的,本发明提供的适应海量存储的数据清理方法及系统需要包括以下几个子系统:
一、数据存储分配子系统。
为了保证后续的数据清理工作正常进行,本系统需要在数据保存到云存储上时参与其中并进行相应的决策与处理,主要包括以下内容:
数据使用多级目录存储。
现有技术为了方便使用大量的磁盘,通常会采用云存储技术,云存储技术为上层应用提供了一个挂载点,这个挂载点对于上层应用而言就是一个目录,而容量则是几百个TB,甚至是几个PB,上层应用不需要关心这些存储空间究竟由多少块磁盘组成。但大量文件如果都存储在一个目录下是存在问题的,文件数量过大,对目录和其中的文件进行操作响应速度都会变慢,因此需要在该目录下创建子目录,以便降低响应速度变慢的风险。
由于文件数量众多,为了避免文件重名导致数据被覆盖,一般利用文件数据计算md5或者sha1hash的方式为文件重新命名以避免重名。目录名称可以利用文件名中的信息命名,本发明中在云存储的挂载点下再建立两级目录,第一级目录使用文件名首字节转换为十六进制字符后命名,名称范围是00-FF共256个目录,每个文件检查首字节后会被定位到一个一级目录中。第二级目录建立在一级目录中,使用文件名中末尾字节转换为十六进制字符后命名,名称范围为00-FF共256个目录,每个文件被定位到一级目录后,再检查文件名的末尾字节后,文件最终被保存到该一级目录下的一个二级目录中。
保存文件的二级目录数量共计有256*256=65536个。
二、分布式管理子系统。
传统的数据清理基本上都是本机清理本机的数据,由于一台服务器上的磁盘空间容量有限,这种方式可以实现数据及时清理的目的。但是在海量存储空间的环境下,这种方式则无法实现及时清理数据的目的,分布式管理子系统则支持对云存储进行分布式的数据清理工作。
所谓的分布式数据清理,包括允许数据检索子系统在一台服务器启动多个进程,以及允许数据检索子系统部署到多台服务器上,这些数据检索子系统可以同时对云存储内的数据进行检索,并与智能决策子系统和数据删除子系统配合完成数据清理工作。为了避免不同数据检索子系统同时操作一个数据文件导致的重复清理问题,分布式管理子系统限定每个二级目录只允许一个数据检索子系统进行操作,以降低出错风险和减少管理开销,因此最多会有65536个数据检索子系统同时在工作,每个数据检索子系统负责一个二级目录。当然实际部署时不可能同时存在这么多服务器,因此更多的情况下是一个数据检索子系统同时需要操作一个一级目录下的多个二级目录,甚至是多个一级目录。
三、智能决策子系统
智能决策子系统的主要作用是判断一个数据文件是否应该被清理,为了实现这个功能需要做如下工作:
1、优化的删除文件判断条件。
文件的删除条件包括两种,第一种是给定删除文件,即由人工或者其他系统决策删除哪些文件后通知数据删除子系统,这种情况是一种简单的定向删除方式,不在本发明的讨论范围内。第二种方式是依靠数据清理系统自己来判定哪些文件应该删除,要求数据清理系统具有决策能力。根据通用的方法,通常情况下认为最久未被访问的文件是最应该被删除的问题,因为这些文件被用户再次关注的概率非常低,在这种情况下要求数据清理系统能够检索出这些文件并进行排序,然后根据排序结果进行删除。但是按照这种处理逻辑,要求数据清理系统必须扫描全部的文件后才能形成排序结果,当文件数量巨大时显然可行性会非常低。
本发明中提出的优化的删除文件判定条件,是指仍然以访问时间作为判定条件,但避免对所有文件进行排序操作以减少扫描文件的数量。具体的设计思路是指定一个时间,比如从当前时间向前推60天,凡是60天之前的数据都认为是需要删除的数据,这样的设计可以实现边扫描边删除,从而打破原来那种将所有文件都扫描后,完成排序后才能开始删除的局面。很显然,优化后的删除文件判定条件效率更高,数据清理速度更快。
2、智能自适应判定机制。
优化后的判定条件有明显的效率优势,但也存在一定的风险,比如如果前推时间设置的不合理,可能出现一次扫描没有删除任何文件的情况,一旦出现这种情况,就会导致数据无法正常清理,存储空间无法释放的情况。
智能自适应判定机制是为了弥补这个缺陷而设计的,当数据扫描子系统完成一次扫描没有找到一个满足删除条件的文件时,或者在扫描过程中检索N个文件后仍没有找到一个满足删除条件的文件时(N可以根据情况自行设定),此时启动智能自适应判定机制。该机制的设计思想是自动调整前推时间,比如系统设定前推时间是Tpre=60天,当智能自适应机制启动后,可以根据系统设定的步长Step对该前推时间进行递减操作,比如步长Step=5天,Tpre’=60-5=55天。数据扫描子系统则使用新的前推时间Tpre’进行检索查找满足条件的文件。
智能自适应判定机制可以重复执行,使得Tpre’不断递减,直到剩余存储空间满足要求后终止。
四、数据检索子系统
数据检索子系统的作用是对分布式管理子系统指定的目录进行检索,找到文件后查看文件最后访问时间,同时将必要信息传递给智能决策子系统,由智能决策子系统返回判定结果,如果文件满足删除条件,数据检索子系统会通知数据删除子系统对文件进行删除。之后数据检索子系统重复执行上述过程。
当智能自适应机制启动时,数据检索子系统在存储空间满足要求前可能会对一个目录执行多次检索。
数据检索子系统需要依据智能决策系统给出的剩余空间是否满足要求的结论来终止检索行为。
五、数据删除子系统
数据删除子系统的工作不仅仅是删除数据检索子系统检索到的符合删除条件的文件。一个数据文件在一个大的系统中一定不是孤立存在的,因此当一个文件被删除时,一定会涉及到其他附属文件的删除,以及对其他系统或者模块的通知操作,数据删除子系统的职责就是执行与被删除文件相关的其他数据清理工作及上报通知其他系统或者模块的操作。由于这部分内容与本发明的设计思想关联性不大,因此不做过多描述。
本发明提供了一种适应海量存储的数据清理方法,所述方法包含:
步骤101)用于在云存储的挂载点下建立若干级目录,将文件存放于挂载的目录中,其中,各级目录的名称根据文件名的若干字节形成;
步骤102)采用分布策略对指定的某一级目录进行检索,获得该目录下各文件的最后访问时间,所述的分布策略为同时启动多个进程;
步骤103)依据各文件的最后访问时间与当前扫描时刻的差值判断应该删除哪些文件,具体为:
设定初始阈值,查找上述差值大于初始阈值的文件作为待删除的文件;如果没有找到待清除的文件,则减小初始阈值,重新查找满足差值大于减小后的初始阈值的文件作为待删除文件,直至释放的存储空间满足需求。
上述步骤101)进一步包含:
步骤101-1)在云存储的挂载点下建立两级目录;
步骤102)第一级目录使用文件名首字节转换为十六进制字符后命名,名称范围是00-FF共256个目录,每个文件检查首字节后会被定位到一个一级目录中;第二级目录建立在一级目录中,使用文件名中末尾字节转换为十六进制字符后命名,名称范围为00-FF共256个目录,每个文件被定位到一级目录后,再检查文件名的末尾字节后,文件最终被保存到该一级目录下的一个二级目录中。
上述步骤102)在一台服务器启动多个进程,或者将数据检索任务部署至多台服务器上,同时对云存储内的文件数据进行检索;
其中,限定每个二级目录只允许一个数据检索子系统进行操作。
上述103)还包含删除某个指定文件的步骤。
技术效果对比:
使用云存储的缓存服务系统采用了该发明涉及的方法及系统。
当前云存储空间为500TB,设定数据清理条件是当磁盘空间达到95%时开始执行数据清理工作,当磁盘空间达到90%时停止删除,每次释放的磁盘空间为25TB。缓存系统每天的平均入流量为2Gbps,折合存储空间为2*24*3600/8=21.6TB。
在未使用本发明中的数据清理系统前,数据清理程序在一天时间内无法正常完成删除工作,而新数据不断写入云存储,导致云存储很快被充满,新的数据无法保存,缓存系统由于没有最新的数据,导致服务流量下降。
使用本发明的数据清理系统后,数据清理程序工作正常,在几小时内即完成数据清理工作,及时释放出存储空间,使得每天的新数据得以及时保存到云存储上,缓存系统的服务流量保持稳定。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种适应海量存储的数据清理方法,所述方法包含:
步骤101)用于在云存储的挂载点下建立若干级目录,将文件存放于挂载的目录中,其中,各级目录的名称根据文件名的若干字节形成;
步骤102)采用分布策略对指定的某一级目录进行检索,获得该目录下各文件的最后访问时间,所述的分布策略为同时启动多个进程;
步骤103)依据各文件的最后访问时间与当前扫描时刻的差值判断应该删除哪些文件,具体为:
设定初始阈值,查找上述差值大于初始阈值的文件作为待删除的文件;如果没有找到待清除的文件,则减小初始阈值,重新查找差值大于减小后的初始阈值的文件作为待删除文件,直至释放的存储空间满足需求。
2.根据权利要求1所述的适应海量存储的数据清理方法,其特征在于,所述步骤101)进一步包含:
步骤101-1)在云存储的挂载点下建立两级目录;
步骤102)第一级目录使用文件名首字节转换为十六进制字符后命名,名称范围是00-FF共256个目录,每个文件检查首字节后会被定位到一个一级目录中;第二级目录建立在一级目录中,使用文件名中末尾字节转换为十六进制字符后命名,名称范围为00-FF共256个目录,每个文件被定位到一级目录后,再检查文件名的末尾字节后,文件最终被保存到该一级目录下的一个二级目录中。
3.根据权利要求2所述的适应海量存储的数据清理方法,其特征在于,所述步骤102)在一台服务器启动多个进程,或者将数据检索任务部署至多台服务器上,同时对云存储内的文件数据进行检索;
其中,限定每个二级目录只允许一个数据检索子系统进行操作。
4.根据权利要求1所述的适应海量存储的数据清理方法,其特征在于,所述103)还包含删除某个指定文件的步骤。
5.一种适应海量存储的数据清理系统,其特征在于,所述系统包含:存储模块,数据检索模块、分布式管理模块、智能决策模块和数据删除模块;
所述存储模块,用于在云存储的挂载点下建立若干级目录,将文件存放于挂载的目录中,其中,用文件名的若干字节构成各级目录的名称;
所述数据检索模块,用于检索指定目录中的指定类型文件,同时提取被检索文件的必要信息,然后将这些信息提供给智能决策模块,作为智能决策模块作出决策的依据;
所述分布式管理模块,用于采用分布式策略控制和管理若干个数据检索模块和数据删除模块;
所述智能决策模块,用于决策存储空间中的文件是否应该被删除以及控制数据检索模块是否应该结束该目标目录的检索操作,同时根据磁盘容量情况对设定的文件删除条件阈值进行动态调整;
所述数据删除模块,用于执行删除目标文件以及该目标文件相关的附属文件,同时向其他相关模块汇报目标文件删除信息;
其中,所述数据检索模块对分布式管理模块指定的目录进行检索,找到文件后查看文件最后访问时间,同时将最后访问时间传输至智能决策模块,智能决策模块返回判定结果,如果文件满足删除条件,则数据检索模块通知数据删除模块对文件进行删除。
6.根据权利要求5所述的适应海量存储的数据清理系统,其特征在于,所述数据检索模块进一步包含:
接收子模块,用于接收分布式管理模块指定待检索的目录号;
检索子模块,用于对于接收的目录进行检索;
终止检索子模块,用于接收智能决策模块返回的终止检索指令。
7.根据权利要求5所述的适应海量存储的数据清理系统,其特征在于,所述智能决策模块进一步包含:
初始阈值设定子模块,用于设定数据扫描模块扫描时所依据的时间段的长度值,当启动删除操作时以该初始阈值作为判断是否删除文件的依据;
第一判决输出子模块,当采用初始阈值没有找到能够删除的文件时,将启动自减子模块;
自减子模块,用于依据设定步长减小设定的初始阈值,该初始阈值包含依据初始阈值设定子模块设定的初始阈值也包含采用该自减子模块更新后的初始阈值;将减小的初始阈值输入扫描模块重新扫描;
数据扫描子模块,用于依据初始阈值子模块设定的初始阈值或者自减子模块更新的初始阈值确定待删除的文件,具体为当文件最近一次的更新时刻距离当前扫描时刻的差值大于或等于依据初始阈值子模块设定的初始阈值或者自减子模块更新的初始阈值时,则这些文件为待删除的文件;
累加子模块,用于将删除文件后增加的空间容量进行累加;和
判决子模块,用于将累加子模块得到的总空间容量与所需的总容量进行比较,如果累加子模块得到的总空间容量小于所需的总容量时,驱动数据检索模块继续检索;如果累加子模块得到的总空间容量大于所需的总容量时,则终止数据检索子模块的检索。
CN2013102821427A 2013-07-05 2013-07-05 一种适应海量存储的数据清理方法及系统 Pending CN103353892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013102821427A CN103353892A (zh) 2013-07-05 2013-07-05 一种适应海量存储的数据清理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013102821427A CN103353892A (zh) 2013-07-05 2013-07-05 一种适应海量存储的数据清理方法及系统

Publications (1)

Publication Number Publication Date
CN103353892A true CN103353892A (zh) 2013-10-16

Family

ID=49310264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013102821427A Pending CN103353892A (zh) 2013-07-05 2013-07-05 一种适应海量存储的数据清理方法及系统

Country Status (1)

Country Link
CN (1) CN103353892A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021160A (zh) * 2014-05-26 2014-09-03 北京金山安全软件有限公司 一种客户端数据清理方法和装置
CN104539703A (zh) * 2014-12-30 2015-04-22 深圳市兰丁科技有限公司 基于云存储的临时存储方法和系统
CN104750686A (zh) * 2013-12-25 2015-07-01 腾讯科技(深圳)有限公司 一种电子书签管理方法和装置
CN105426126A (zh) * 2015-11-11 2016-03-23 浪潮(北京)电子信息产业有限公司 云存储客户端多路恒定速率io缓存的构建方法及装置
CN106294773A (zh) * 2016-08-11 2017-01-04 北京小米移动软件有限公司 数据清理方法及装置
CN106708822A (zh) * 2015-07-20 2017-05-24 方正国际软件(北京)有限公司 一种文件存储方法和装置
CN107861686A (zh) * 2017-09-26 2018-03-30 深圳前海微众银行股份有限公司 文件存储方法、服务端和计算机可读存储介质
CN108536395A (zh) * 2018-04-03 2018-09-14 北京京东尚科信息技术有限公司 一种清理硬盘的方法和装置
CN108932236A (zh) * 2017-05-22 2018-12-04 北京金山云网络技术有限公司 一种文件管理方法、过期文件删除方法及装置
WO2019024910A1 (zh) * 2017-08-04 2019-02-07 杭州海康威视系统技术有限公司 存储资源回收方法、装置及系统
CN109710188A (zh) * 2018-12-24 2019-05-03 武汉烽火众智数字技术有限责任公司 一种磁盘数据管理方法、装置、设备及可读存储介质
CN109803022A (zh) * 2019-01-30 2019-05-24 浙江蓝鸽科技有限公司 一种数字化资源共享系统及其服务方法
CN113010812A (zh) * 2021-03-10 2021-06-22 北京百度网讯科技有限公司 信息采集方法、装置、电子设备和存储介质
CN113343070A (zh) * 2021-04-14 2021-09-03 统信软件技术有限公司 一种邮件搜索方法及计算设备
CN113434492A (zh) * 2021-06-21 2021-09-24 青岛海尔科技有限公司 数据的检测方法、装置、存储介质和电子装置
CN114706527A (zh) * 2022-03-24 2022-07-05 北京涵鑫盛科技有限公司 一种存储空间分布式的释放方法及分布式系统
CN114840140A (zh) * 2022-03-28 2022-08-02 阿里巴巴(中国)有限公司 云上数据缓存方法、装置、设备及存储介质
CN116627352A (zh) * 2023-06-19 2023-08-22 深圳市青葡萄科技有限公司 一种分布式存储器下的数据管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1997015A (zh) * 2006-11-24 2007-07-11 华为技术有限公司 缓存应用方法与装置以及文件传输系统
US20070276848A1 (en) * 2006-05-29 2007-11-29 Samsung Electronics Co., Ltd. Apparatus and method for managing data
CN101398869A (zh) * 2008-10-07 2009-04-01 深圳市蓝韵实业有限公司 一种海量数据存储方法
CN101795211A (zh) * 2010-01-13 2010-08-04 北京中创信测科技股份有限公司 一种数据存储方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070276848A1 (en) * 2006-05-29 2007-11-29 Samsung Electronics Co., Ltd. Apparatus and method for managing data
CN1997015A (zh) * 2006-11-24 2007-07-11 华为技术有限公司 缓存应用方法与装置以及文件传输系统
CN101398869A (zh) * 2008-10-07 2009-04-01 深圳市蓝韵实业有限公司 一种海量数据存储方法
CN101795211A (zh) * 2010-01-13 2010-08-04 北京中创信测科技股份有限公司 一种数据存储方法及系统

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750686B (zh) * 2013-12-25 2019-07-16 腾讯科技(深圳)有限公司 一种电子书签管理方法和装置
CN104750686A (zh) * 2013-12-25 2015-07-01 腾讯科技(深圳)有限公司 一种电子书签管理方法和装置
CN104021160A (zh) * 2014-05-26 2014-09-03 北京金山安全软件有限公司 一种客户端数据清理方法和装置
CN104021160B (zh) * 2014-05-26 2018-06-01 北京金山安全软件有限公司 一种客户端数据清理方法和装置
CN104539703B (zh) * 2014-12-30 2018-05-01 深圳市海蕴新能源有限公司 基于云存储的临时存储方法和系统
CN104539703A (zh) * 2014-12-30 2015-04-22 深圳市兰丁科技有限公司 基于云存储的临时存储方法和系统
CN106708822B (zh) * 2015-07-20 2020-04-28 方正国际软件(北京)有限公司 一种文件存储方法和装置
CN106708822A (zh) * 2015-07-20 2017-05-24 方正国际软件(北京)有限公司 一种文件存储方法和装置
CN105426126A (zh) * 2015-11-11 2016-03-23 浪潮(北京)电子信息产业有限公司 云存储客户端多路恒定速率io缓存的构建方法及装置
CN105426126B (zh) * 2015-11-11 2018-06-05 浪潮(北京)电子信息产业有限公司 云存储客户端多路恒定速率io缓存的构建方法及装置
EP3282371A1 (en) * 2016-08-11 2018-02-14 Beijing Xiaomi Mobile Software Co., Ltd. Data clearing method and apparatus, computer program and recording medium
CN106294773A (zh) * 2016-08-11 2017-01-04 北京小米移动软件有限公司 数据清理方法及装置
US10810172B2 (en) 2016-08-11 2020-10-20 Beijing Xiaomi Mobile Software Co., Ltd. Data clearing method, apparatus and storage medium
CN108932236A (zh) * 2017-05-22 2018-12-04 北京金山云网络技术有限公司 一种文件管理方法、过期文件删除方法及装置
WO2019024910A1 (zh) * 2017-08-04 2019-02-07 杭州海康威视系统技术有限公司 存储资源回收方法、装置及系统
CN107861686A (zh) * 2017-09-26 2018-03-30 深圳前海微众银行股份有限公司 文件存储方法、服务端和计算机可读存储介质
CN107861686B (zh) * 2017-09-26 2021-01-05 深圳前海微众银行股份有限公司 文件存储方法、服务端和计算机可读存储介质
CN108536395A (zh) * 2018-04-03 2018-09-14 北京京东尚科信息技术有限公司 一种清理硬盘的方法和装置
CN109710188B (zh) * 2018-12-24 2023-01-03 武汉烽火众智数字技术有限责任公司 一种磁盘数据管理方法、装置、设备及可读存储介质
CN109710188A (zh) * 2018-12-24 2019-05-03 武汉烽火众智数字技术有限责任公司 一种磁盘数据管理方法、装置、设备及可读存储介质
CN109803022A (zh) * 2019-01-30 2019-05-24 浙江蓝鸽科技有限公司 一种数字化资源共享系统及其服务方法
CN109803022B (zh) * 2019-01-30 2022-02-18 浙江蓝鸽科技有限公司 一种数字化资源共享系统及其服务方法
CN113010812A (zh) * 2021-03-10 2021-06-22 北京百度网讯科技有限公司 信息采集方法、装置、电子设备和存储介质
CN113010812B (zh) * 2021-03-10 2023-07-25 北京百度网讯科技有限公司 信息采集方法、装置、电子设备和存储介质
CN113343070A (zh) * 2021-04-14 2021-09-03 统信软件技术有限公司 一种邮件搜索方法及计算设备
CN113434492A (zh) * 2021-06-21 2021-09-24 青岛海尔科技有限公司 数据的检测方法、装置、存储介质和电子装置
CN113434492B (zh) * 2021-06-21 2024-07-19 青岛海尔科技有限公司 数据的检测方法、装置、存储介质和电子装置
CN114706527B (zh) * 2022-03-24 2022-09-20 北京涵鑫盛科技有限公司 一种存储空间分布式的释放方法及分布式系统
CN114706527A (zh) * 2022-03-24 2022-07-05 北京涵鑫盛科技有限公司 一种存储空间分布式的释放方法及分布式系统
CN114840140A (zh) * 2022-03-28 2022-08-02 阿里巴巴(中国)有限公司 云上数据缓存方法、装置、设备及存储介质
CN116627352A (zh) * 2023-06-19 2023-08-22 深圳市青葡萄科技有限公司 一种分布式存储器下的数据管理方法
CN116627352B (zh) * 2023-06-19 2024-03-08 深圳市青葡萄科技有限公司 一种分布式存储器下的数据管理方法

Similar Documents

Publication Publication Date Title
CN103353892A (zh) 一种适应海量存储的数据清理方法及系统
US8666955B2 (en) Data management method and data management system
EP3754515A1 (en) Reshard method and system in distributed storage system
US7117294B1 (en) Method and system for archiving and compacting data in a data storage array
US20120191675A1 (en) Device and method for eliminating file duplication in a distributed storage system
CN101739310B (zh) 一种循环备份的方法及装置
CN109284069A (zh) 一种存放备份数据的分布式存储系统及方法
US20090271456A1 (en) Efficient backup data retrieval
CN104301360A (zh) 一种日志数据记录的方法、日志服务器及系统
EP1902394B1 (en) Moving data from file on storage volume to alternate location to free space
CN102332029A (zh) 一种基于Hadoop的海量可归类小文件关联存储方法
CN103631940A (zh) 一种应用于hbase数据库的数据写入方法及系统
US11307937B1 (en) Efficient space reclamation in deduplication systems
CN102567522B (zh) 一种智能卡文件系统的管理方法及设备
CN102456048A (zh) 海量数据处理方法及系统
CN103488687A (zh) 用于大数据的搜索系统和搜索方法
CN106201771A (zh) 数据存储系统和数据读写方法
CN103823807B (zh) 一种去除重复数据的方法、装置及系统
CN104111924A (zh) 一种数据库系统
CN102104617A (zh) 一种网站运营系统存储海量图片数据的方法
CN111913925B (zh) 一种分布式存储系统中的数据处理方法及系统
CN104933051B (zh) 文件存储空间回收方法和装置
CN110647502A (zh) 一种文件加载方法、设备、装置和计算机存储介质
CN104246720B (zh) 确定用于去重复的段边界
CN110414865A (zh) 一种审核任务的分配方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20131016

RJ01 Rejection of invention patent application after publication