CN112463741A - 一种聚合大文件的清理方法及相关设备 - Google Patents
一种聚合大文件的清理方法及相关设备 Download PDFInfo
- Publication number
- CN112463741A CN112463741A CN202011327437.8A CN202011327437A CN112463741A CN 112463741 A CN112463741 A CN 112463741A CN 202011327437 A CN202011327437 A CN 202011327437A CN 112463741 A CN112463741 A CN 112463741A
- Authority
- CN
- China
- Prior art keywords
- file
- aggregated
- aggregation
- files
- large file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000002776 aggregation Effects 0.000 claims abstract description 106
- 238000004220 aggregation Methods 0.000 claims abstract description 106
- 238000012216 screening Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000003860 storage Methods 0.000 claims abstract description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 230000004931 aggregating effect Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 2
- 238000005201 scrubbing Methods 0.000 claims 2
- 230000008569 process Effects 0.000 abstract description 17
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000000872 buffer Substances 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1727—Details of free space management performed by the file system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/162—Delete operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Abstract
本发明提供了一种聚合大文件的清理方法及相关设备,属于数据处理的技术领域,解决了现有方案中无法实现聚合大文件存储空间快速释放,在清理过程中聚合大文件内的小文件的元数据过于频繁,增加系统压力的问题。所述方法包括:在对多个聚合大文件进行清理时,获取单个聚合大文件的信息;根据所述单个聚合大文件的信息与无效文件预设值筛选出待处理的单个聚合大文件;对所述待处理的单个聚合大文件内的小文件进行处理,生成单个优化聚合大文件;将所述单个优化聚合大文件替换所述待处理的单个聚合大文件;删除所述待处理的单个聚合大文件。
Description
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种聚合大文件的清理方法及相关设备。
背景技术
对于分布式文件系统(对象存储)小文件聚合场景,及聚合大文件,聚合小文件删除后,需要后台定时扫描删除、清理垃圾数据占用以释放存储空间。
现有技术方案,对聚合大文件进行清理时,需要将所有聚合大文件中的所有小文件进行清理后再进行存储空间的释放,清理过程耗时较长,无法及时释放存储空间,在清理过程中遇到故障时,无法完成对上述聚合文件的清理,已完成的部分清理工作变为无效工作,浪费时间成本与运行成本。
发明内容
本发明的目的在于提供一种聚合大文件的清理方法及相关设备,缓解了现有技术中清理过程耗时较长,无法及时释放存储空间,在清理过程中遇到故障时,已完成的部分清理工作变为无效工作,浪费时间成本与运行成本的技术问题。
第一方面,本发明提供一种聚合大文件的清理方法,包括:
在对多个聚合大文件进行清理时,获取各个聚合大文件的信息;
将各个聚合大文件的信息分别与无效文件预设值进行对比,筛选出待处理的聚合大文件;
对所述待处理的聚合大文件进行清理操作,具体为:对上述待处理的单个聚合大文件内的小文件进行处理,生成单个优化聚合大文件;
将上述单个优化聚合大文件替换上述待处理的单个聚合大文件;
删除上述待处理的单个聚合大文件。
可选的,上述获取单个聚合大文件的信息的步骤,包括:
获取扫描聚合目录,其中,上述扫描聚合目录为对上述多个聚合大文件进行扫描时生成的目录;
根据上述扫描聚合目录得到上述各个聚合大文件的信息。
可选的,上述根据上述各个聚合大文件的信息与有效文件预设值筛选出待处理的各个聚合大文件的步骤之前,还包括:
获取上述各个聚合大文件的信息的访问信息,其中,上述访问信息包括对上述各个聚合大文件的最近一次访问时间。
可选的,上述根据上述各个聚合大文件的信息与有效文件预设值筛选出待处理的聚合大文件的步骤,包括:
根据上述各个聚合大文件的最近一次访问时间与预设时间判断上述各个聚合大文件的信息是否稳定;
若上述各个聚合大文件的信息稳定,则基于上述无效文件预设值对上述各个聚合大文件的信息进行筛选处理,得到上述待处理的各个聚合大文件。
可选的,上述无效文件阈值包括预设无效空间阈值,
上述基于上述有无效件预设值对上述聚合大文件的信息进行筛选处理,得到上述待处理的聚合大文件的步骤,包括:
计算上述单个聚合大文件的信息的无效空间信息;
将所述聚合大文件的信息的所述无效空间信息与预设无效空间阈值进行对比,删除无效空间信息满足预设无效空间阈值的聚合大文件,筛选出所述待处理的聚合大文件。。
可选的,上述对上述待处理的单个聚合大文件内的小文件进行处理,生成单个优化聚合大文件的步骤,包括:
对上述待处理的单个聚合大文件内的所有小文件进行清理处理,得到有效小文件数据;
基于上述有效小文件数据生成上述单个优化聚合大文件。
可选的,上述方法还包括:
根据上述扫描聚合目录逐一对上述扫描聚合目录内的聚合大文件进行清理。
第二方面,本发明提供一种聚合大文件的清理装置,包括:
数据获取模块,用于在对多个聚合大文件进行清理时,获取各个聚合大文件信息;
筛选模块,用于将所述单各个聚合大文件的信息分别与无效文件预设值进行对比,筛选出待处理的聚合大文件;
生成模块,用于对上述待处理聚合大文件内的小文件进行处理,生成优化聚合大文件;
替换模块,用于将上述优化聚合大文件替换上述待处理聚合大文件;
删除模块,用于删除上述待处理聚合大文件。
第三方面,本发明提供一种电子设备,包括:储存器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,其特征在于,上述处理器用于执行存储器中存储的计算机程序时实现上述的聚合大文件的清理方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于:上述计算机程序被处理器执行时实现上述的聚合大文件的清理方法的步骤。
本发明提供的聚合大文件的清理方法,通过在对多个聚合大文件进行清理时,获取单个聚合大文件的信息;根据上述单个聚合大文件的信息与无效文件预设值筛选出待处理的单个聚合大文件;对上述待处理的单个聚合大文件内的小文件进行处理,生成单个优化聚合大文件;将上述单个优化聚合大文件替换上述待处理的单个聚合大文件;删除上述待处理的单个聚合大文件。针对聚合大文件清理流程,支持整聚合文件删除,与扫描清理,将聚合大文件中的小文件设置一定的生命周期宽限期,缓冲处理整文件删除与扫描处理的矛盾点,即等待时间;在扫描清理过程中逐个对聚合大文件进行清理,故障异常时清理中断时,清理迁移完成的部分聚合大文件,实现磁盘占用的及时释放。
相应地,本发明实施例提供的相关设备,也同样具有上述技术效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的聚合大文件的清理方法流程图;
图2为本发明实施例提供的聚合大文件的清理装置结构示意图;
图3为本发明实施例提供的电子设备结构示意图;
图4为本发明实施例提供的计算机可读存储介质结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供的一种聚合大文件的清理方法,请参考图1,包括:
101、在对多个聚合大文件进行清理时,获取各个聚合大文件的信息;
随着云计算、云存储、物联网等技术的不断发展,数据呈现爆炸式增长的趋势。在一些海量小文件场景,如社交购物网站、广电、网络视频等,系统产生文本、图片、音乐等大量小文件,这些文件具有如下特点:数量多,大小一般在1M以下。流动快,操作频繁(一次写入,多次读取)。通过将小文件以紧密对齐的方式聚合成一个大的聚合文件,然后再进行存储,能实现小文件高效存储,提高磁盘使用率,在文件读写过程中,降低Rados调用次数、减轻读写数据压力,提高小文件读写性能提升。
102、将所述单各个聚合大文件的信息分别与无效文件预设值进行对比,筛选出待处理的聚合大文件;
检查上述聚合大文件无效空间;
若当上述聚合大文件无效空间等于上述聚合大文件中的小文件数据量时,直接删除该聚合大文件;
若上述聚合大文件无效空间大于无效文件预设值,则把上述聚合大文件放入异步清理队列;
若上述聚合大文件无效空间小于无效文件预设值,则不对上述聚合大文件进行清理。
103、对上述待处理的单个聚合大文件内的小文件进行处理,生成单个优化聚合大文件;
对上述待处理的单个聚合大文件内的小文件进行遍历处理,上述遍历处理就是逐一读取集合中的所有元素的处理过程;
根据上述单个聚合大文件映射生成单个优化聚合大文件,上述优化聚合大文件用于对上述聚合大文件内的小文件重新整理。
104、将上述单个优化聚合大文件替换上述待处理的单个聚合大文件;
105、删除上述待处理的单个聚合大文件。
本发明提供的聚合大文件的清理方法,通过在对多个聚合大文件进行清理时,获取单个聚合大文件的信息;根据上述单个聚合大文件的信息与无效文件预设值筛选出待处理的单个聚合大文件;对上述待处理的单个聚合大文件内的小文件进行处理,生成单个优化聚合大文件;将上述单个优化聚合大文件替换上述待处理的单个聚合大文件;删除上述待处理的单个聚合大文件。针对聚合大文件清理流程,支持整聚合文件删除,与扫描清理,将聚合大文件中的小文件设置一定的生命周期宽限期,缓冲处理整文件删除与扫描处理的矛盾点,即等待时间;在扫描清理过程中逐个对聚合大文件进行清理,故障异常时清理中断时,清理迁移完成的部分聚合大文件,实现磁盘占用的及时释放。
在一种可能的实施方式中,上述获取各个聚合大文件的信息的步骤,包括:
获取扫描聚合目录,其中,上述扫描聚合目录为对上述多个聚合大文件进行扫描时生成的目录;
根据上述扫描聚合目录得到上述各个聚合大文件的信息。
示例性的,根据清理规则,定时扫描清理系统内的聚合大文件,获取扫描清理过程中产生的上述扫描聚合目录,根据上述扫描聚合目录获取上述扫描聚合目录内的上述各个聚合大文件的信息。
在一种可能的实施方式中,上述根据上述各个聚合大文件的信息与有效文件预设值筛选出待处理的聚合大文件的步骤之前,还包括:
获取上述各个聚合大文件的信息的访问信息,其中,上述访问信息包括对上述各个聚合大文件的最近一次访问时间。
示例性的,上述访问信息包括对上述各个聚合大文件的最近一次访问时间用于确定上述单个聚合大文件的访问操作是否稳定,避免对访问操作不稳定的各个聚合大文件进行扫描清理,避免产生清理不彻底或者错误清理的情况。
在一种可能的实施方式中,上述将所述单各个聚合大文件的信息分别与无效文件预设值进行对比,筛选出待处理的聚合大文件的步骤,包括:
根据上述单个聚合大文件的最近一次访问时间与预设时间判断上述单个聚合大文件的信息是否稳定;
示例性的,判断上述单个聚合大文件的最近一次访问时间是否大于或等于一小时,若上述单个聚合大文件的最近一次访问时间大于或等于一小时,则上述单个聚合大文件的信息稳定;
若上述单个聚合大文件的信息稳定,则基于上述无效文件预设值对上述单个聚合大文件的信息进行筛选处理,得到上述待处理的单个聚合大文件;
若上述单个聚合大文件的最近一次访问时间小于一小时,则上述单个聚合大文件的信息不稳定,不对上述单个聚合大文件进行清理。
避免对访问操作不稳定的单个聚合大文件进行扫描清理,避免产生清理不彻底或者错误清理的情况。
示例性的,上述单个聚合大文件的信息的访问信息还包括上述单个聚合大文件的信息的修改信息;
根据上述单个聚合大文件的信息的修改信息设置上述聚合大文件中的小文件生命周期宽限时间。
通过为上述聚合大文件中的小文件设置一定的生命周期宽限期,降低重组概率,降低清理重组系统压力。
在一种可能的实施方式中,上述无效文件阈值包括预设无效空间阈值,
上述基于上述有无效件预设值对上述单个聚合大文件的信息进行筛选处理,得到上述待处理的单个聚合大文件的步骤,包括:
计算上述单个聚合大文件的信息的无效空间信息;
根据上述单个聚合大文件的信息的上述无效空间信息与预设无效空间阈值筛选出上述待处理的单个聚合大文件。
示例性的,上述单个聚合大文件的信息的无效空间信息为X,预设无效空间阈值为Y,若X大于Y,则将上述单个聚合大文件的信息作为待处理的单个聚合大文件;若X等于或小于Y,则不对上述单个聚合大文件进行处理。
精确筛选所有聚合大文件中需要进行清理操作的聚合大文件,减少了清理目标,使得清理过程简洁,也使得清理过程的效率更高。
在一种可能的实施方式中,上述对上述待处理的单个聚合大文件内的小文件进行处理,生成单个优化聚合大文件的步骤,包括:
对上述待处理的单个聚合大文件内的所有小文件进行清理处理,得到有效小文件数据;
基于上述有效小文件数据生成上述单个优化聚合大文件。
示例性的,
对上述待处理的单个聚合大文件内的所有小文件进行遍历处理,通过上述小文件的图标数据判断遍历后的待处理的单个聚合大文件内的小文件是否存在;
如果待处理的单个聚合大文件内的小文件存在,即小文件数据还有效,则以上述待处理的单个聚合大文件映射一个新的聚合大文件,新的聚合大文件用于数据重新整理,上述新的聚合大文件即为单个优化聚合大文件;
如果待处理的单个聚合大文件内的小文件不存在,则完成上述对待处理的单个聚合大文件的清理。
示例性的,将上述有效的小文件数据写入单个优化聚合大文件的聚合缓存中,检查上述聚合缓存是否被写满;
若上述聚合缓存未被写满,则继续判断另一待处理的单个聚合大文件内的小文件是否存在,即,判断另一待处理的单个聚合大文件内的小文件是否有效,将另一待处理的单个聚合大文件内的有效小文件继续写入上述聚合缓存,直至写满上述聚合缓存;
若上述聚合缓存被写满,则更新上述有效小文件聚合属性,并根据另一聚合大文件映射生成另一优化聚合大文件。
示例性的,如果单个聚合大文件内的所有小文件遍历完成,触发当前聚合缓存,聚合元数据落盘;
数据、元数据下盘完成后,判断当前待处理的聚合大文件中的所有有效小文件是否全部重组完成,若上述所有有效小文件已全部完成重组,则对旧聚合文件进行删除;若上述所有有效小文件未全部完成重组,则删除旧聚合文件中重组成功的有效小文件。
在一种可能的实施方式中,上述方法还包括:
根据上述扫描聚合目录逐一对上述扫描聚合目录内的聚合大文件进行清理。
在扫描清理过程中逐个对聚合大文件进行清理,故障异常时清理中断时,清理迁移完成的部分聚合大文件,实现磁盘占用的及时释放。
第二方面,本发明提供一种聚合大文件的清理装置,请参考图2,包括:
数据获取模块201,用于在对多个聚合大文件进行清理时,获取各个聚合大文件信息;
筛选模块202,用于将各个聚合大文件的信息分别与无效文件预设值进行对比,筛选出待处理的聚合大文件;
生成模块203,用于对上述待处理聚合大文件内的小文件进行处理,生成优化聚合大文件;
替换模块204,用于将上述优化聚合大文件替换上述待处理聚合大文件;
删除模块205,用于删除上述待处理聚合大文件。
第三方面,本发明还提供一种电子设备300,请参考图3,包括:储存器310、处理器320以及存储在上述存储器中并可在上述处理器上运行的计算机程序311,上述处理器320用于执行存储器310中存储的计算机程序311时实现如上述的聚合大文件的清理方法的步骤。
第四方面,请参考图4,本发明还提供一种计算机可读存储介质400,其上存储有计算机程序411,上述计算机程序411被处理器执行时实现如上述的聚合大文件的清理方法的步骤。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
又例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,再例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种聚合大文件的清理方法,其特征在于,包括:
在对多个聚合大文件进行清理时,获取各个聚合大文件的信息;
将所述各个聚合大文件的信息分别与无效文件预设值进行对比,筛选出待处理的聚合大文件;
对所述待处理的聚合大文件进行清理操作,具体为:对所述待处理的单个聚合大文件内的小文件进行处理,生成单个优化聚合大文件;
将所述单个优化聚合大文件替换所述待处理的单个聚合大文件;
删除所述待处理的单个聚合大文件。
2.根据权利要求1所述的聚合大文件的清理方法,其特征在于,所述获取各个聚合大文件的信息的步骤,包括:
获取扫描聚合目录,其中,所述扫描聚合目录为对所述多个聚合大文件进行扫描时生成的目录;
根据所述扫描聚合目录得到所述各个聚合大文件的信息。
3.根据权利要求1所述的聚合大文件的清理方法,其特征在于,在所述将所述各个聚合大文件的信息分别与无效文件预设值进行对比,筛选出待处理的聚合大文件的步骤之前,还包括:
获取所述单个聚合大文件的信息的访问信息,其中,所述访问信息包括对所述单个聚合大文件的最近一次访问时间。
4.根据权利要求3所述的聚合大文件的清理方法,其特征在于,所述将所述各个聚合大文件的信息分别与无效文件预设值进行对比,筛选出待处理的聚合大文件的步骤,包括:
根据所述聚合大文件的最近一次访问时间与预设时间判断所述聚合大文件的信息是否稳定;
若所述聚合大文件的信息稳定,则基于所述无效文件预设值对所述聚合大文件的信息进行筛选处理,得到所述待处理的聚合大文件。
5.根据权利要求4所述的聚合大文件的清理方法,其特征在于,所述无效文件阈值包括预设无效空间阈值;
所述基于所述有无效件预设值对所述聚合大文件的信息进行筛选处理,得到所述待处理的聚合大文件的步骤,包括:
计算所述聚合大文件的信息的无效空间信息;
将所述聚合大文件的信息的所述无效空间信息与预设无效空间阈值进行对比,删除无效空间信息满足预设无效空间阈值的聚合大文件,筛选出所述待处理的聚合大文件。
6.根据权利要求1所述的聚合大文件的清理方法,其特征在于,所述对所述待处理的单个聚合大文件内的小文件进行处理,生成单个优化聚合大文件的步骤,包括:
对所述待处理的单个聚合大文件内的所有小文件进行清理处理,得到有效小文件数据;
基于所述有效小文件数据生成所述单个优化聚合大文件。
7.根据权利要求2所述的聚合大文件的清理方法,其特征在于,还包括:
根据所述扫描聚合目录逐一对所述扫描聚合目录内的聚合大文件进行清理。
8.一种聚合大文件的清理装置,其特征在于,包括:
数据获取模块,用于在对多个聚合大文件进行清理时,获取各个聚合大文件信息;
筛选模块,用于将所述单各个聚合大文件的信息分别与无效文件预设值进行对比,筛选出待处理的聚合大文件;
生成模块,用于对所述待处理聚合大文件内的小文件进行处理,生成优化聚合大文件;
替换模块,用于将所述优化聚合大文件替换所述待处理聚合大文件;
删除模块,用于删除所述待处理聚合大文件。
9.一种电子设备,包括:储存器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任一项所述的聚合大文件的清理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的聚合大文件的清理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011327437.8A CN112463741A (zh) | 2020-11-24 | 2020-11-24 | 一种聚合大文件的清理方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011327437.8A CN112463741A (zh) | 2020-11-24 | 2020-11-24 | 一种聚合大文件的清理方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112463741A true CN112463741A (zh) | 2021-03-09 |
Family
ID=74799700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011327437.8A Withdrawn CN112463741A (zh) | 2020-11-24 | 2020-11-24 | 一种聚合大文件的清理方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463741A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113031871A (zh) * | 2021-03-26 | 2021-06-25 | 山东英信计算机技术有限公司 | 数据追加聚合方法、装置、电子设备及可读存储介质 |
-
2020
- 2020-11-24 CN CN202011327437.8A patent/CN112463741A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113031871A (zh) * | 2021-03-26 | 2021-06-25 | 山东英信计算机技术有限公司 | 数据追加聚合方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108319654B (zh) | 计算系统、冷热数据分离方法及装置、计算机可读存储介质 | |
KR101505263B1 (ko) | 데이터 중복 제거 방법 및 장치 | |
US11615000B2 (en) | Method and backup server for processing expired backups | |
CN110489405B (zh) | 数据处理的方法、装置和服务器 | |
CN111444192B (zh) | 块链式账本中全局状态的哈希的生成方法、装置及设备 | |
CN110888837B (zh) | 对象存储小文件归并方法及装置 | |
CN109947373B (zh) | 一种数据处理方法和装置 | |
CN110457305B (zh) | 数据去重方法、装置、设备及介质 | |
CN109213450B (zh) | 一种基于闪存阵列的关联元数据删除方法、装置及设备 | |
CN105893471B (zh) | 一种数据处理方法及电子设备 | |
US20210182160A1 (en) | System and method for generating file system and block-based incremental backups using enhanced dependencies and file system information of data blocks | |
CN112714359A (zh) | 视频推荐方法、装置、计算机设备及存储介质 | |
CN105653209A (zh) | 一种对象存储数据传输方法及装置 | |
CN107085613B (zh) | 入库文件的过滤方法和装置 | |
CN115114232A (zh) | 一种历史版本对象列举方法、装置及其介质 | |
CN115840731A (zh) | 文件处理方法、计算设备及计算机存储介质 | |
KR20150035876A (ko) | 데이터 중복 제거 방법 및 장치 | |
CN114721594A (zh) | 一种分布式存储方法、装置、设备及机器可读存储介质 | |
US11429311B1 (en) | Method and system for managing requests in a distributed system | |
CN112463741A (zh) | 一种聚合大文件的清理方法及相关设备 | |
CN112965939A (zh) | 一种文件合并方法、装置和设备 | |
CN105760114B (zh) | 一种并行文件系统资源管理方法、装置和系统 | |
TWI420333B (zh) | 分散式的重複數據刪除系統及其處理方法 | |
US9111015B1 (en) | System and method for generating a point-in-time copy of a subset of a collectively-managed set of data items | |
CN115543918A (zh) | 一种文件快照方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210309 |