CN112905541B - 镜像仓库垃圾清理方法和装置 - Google Patents

镜像仓库垃圾清理方法和装置 Download PDF

Info

Publication number
CN112905541B
CN112905541B CN201911220658.2A CN201911220658A CN112905541B CN 112905541 B CN112905541 B CN 112905541B CN 201911220658 A CN201911220658 A CN 201911220658A CN 112905541 B CN112905541 B CN 112905541B
Authority
CN
China
Prior art keywords
mirror image
traversing
warehouse
mirror
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911220658.2A
Other languages
English (en)
Other versions
CN112905541A (zh
Inventor
梁晓雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201911220658.2A priority Critical patent/CN112905541B/zh
Publication of CN112905541A publication Critical patent/CN112905541A/zh
Application granted granted Critical
Publication of CN112905541B publication Critical patent/CN112905541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system

Abstract

本发明公开了一种镜像仓库垃圾清理方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:在接收到镜像垃圾清理指令后,对镜像仓库执行至少两次遍历操作;确定每一次遍历操作对应的待删除镜像层文件集合;根据每一次遍历操作对应的待删除镜像层文件集合,计算集合交集;根据集合交集,对镜像仓库进行垃圾清理。该实施方式能够在业务不中断的情况下进行镜像仓库垃圾清理。

Description

镜像仓库垃圾清理方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种镜像仓库垃圾清理方法和装置。
背景技术
在镜像仓库运行一段时间或者镜像仓库存储资源紧张时,需要对镜像仓库进行垃圾清理,即删除位于镜像仓库内的镜像层文件,以释放存储空间,缓解镜像仓库服务器压力。
因为对镜像仓库的写操作如新增镜像,可能会使待删除镜像层文件变为不可删除的镜像层文件,所以目前对镜像仓库进行垃圾清理时,通过配置镜像仓库为只读模式或者直接停止镜像仓库服务,防止待删除镜像层文件变为不可删除的镜像层文件。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
一般依赖镜像仓库的业务每秒都可能有写操作,而目前镜像仓库垃圾清理的方式,会导致与镜像仓库相关的业务中断。
发明内容
有鉴于此,本发明实施例提供一种镜像仓库垃圾清理方法和装置,能够在镜像仓库业务不中断的情况下进行镜像仓库垃圾清理。
为实现上述目的,根据本发明实施例的一个方面,提供了一种镜像仓库垃圾清理方法,包括:
在接收到镜像垃圾清理指令后,对所述镜像仓库执行至少两次遍历操作;
确定每一次所述遍历操作对应的待删除镜像层文件集合;
根据每一次所述遍历操作对应的所述待删除镜像层文件集合,计算集合交集;
根据所述集合交集,对所述镜像仓库进行垃圾清理。
优选地,所述遍历操作,包括:遍历所述镜像仓库中的所有镜像的元数据,为所述所有镜像标记依赖文件集合。
优选地,所述确定每一次所述遍历操作对应的待删除镜像层文件集合,包括:
针对每一个所述遍历操作,执行:
确定所述遍历操作所遍历的所述镜像仓库当前存储的所有镜像层文件;
根据所述当前存储的所有镜像层文件和所述依赖文件集合,确定所述遍历操作对应的待删除镜像层文件集合。
优选地,镜像仓库垃圾清理方法,进一步包括:
为所述遍历操作设置遍历参数,使所述遍历操作的次数等于所述遍历参数。
优选地,所述计算集合交集,包括:
循环执行下述步骤,直至所述遍历参数变为零;
计算当前遍历操作对应的待删除镜像层文件集合与所述当前遍历操作对应的上一次遍历操作所对应的目标待删除镜像层文件集合之间的交集;
将当前遍历参数减1;
判断所述当前遍历参数是否为零,
如果否,则将所述交集作为所述当前遍历操作对应的目标待删除镜像层文件集合;将所述当前遍历操作为上一次遍历操作,并将下一次遍历操作作为当前遍历操作。
优选地,相邻两次遍历操作的时间间隔不小于12h。
优选地,所述遍历参数不小于3。
优选地,所述对所述镜像仓库进行垃圾清理,包括:
针对所述镜像仓库中的每一个存储层,执行:
删除所述存储层中与所述集合交集相关的待删除镜像层文件,以使所述集合交集为空集。
根据本发明实施例的第二方面,提供了一种镜像仓库垃圾清理装置,包括:遍历单元、差量计算单元以及清理单元,其中,
所述遍历单元,用于在接收到镜像垃圾清理指令后,对所述镜像仓库执行至少两次遍历操作;
所述差量计算单元,用于确定每一次所述遍历单元执行的所述遍历操作对应的待删除镜像层文件集合,根据每一次所述遍历操作对应的所述待删除镜像层文件集合,计算集合交集;
所述清理单元,用于根据所述差量计算单元计算出的所述集合交集,对所述镜像仓库进行垃圾清理。
上述发明中的一个实施例具有如下优点或有益效果:通过对所述镜像仓库执行至少两次遍历操作,在业务不中断过程中,一旦业务运行,与业务相关的层文件就不在待删除镜像层文件集合内,因此,至少两次遍历操作得到的待删除镜像层文件集合可能存在差异,通过计算集合交集,可尽可能的从待删除镜像层文件集合中去掉不可被删除层文件,因此,根据集合交集,对镜像仓库进行垃圾清理,可避免清理掉运行业务所需的层文件,因此,能够在业务不中断的情况下进行镜像仓库垃圾清理。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的镜像仓库垃圾清理方法的主要流程的示意图;
图2是根据本发明实施例的镜像仓库垃圾清理方法的部分流程的示意图;
图3是根据本发明实施例的镜像仓库垃圾清理方法的部分流程的示意图;
图4是根据本发明实施例的镜像仓库的结构示意图;
图5是根据本发明实施例的镜像仓库垃圾清理装置的主要单元的示意图;
图6是本发明实施例可以应用于其中的示例性系统架构图;
图7是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明的实施例以及实施例中的技术特征可以相互结合。
镜像是应用的打包,其需要部署到容器引擎上面使用,则下述使用镜像可以为从镜像仓库下载镜像、上传镜像到镜像仓库等。一般来说,私有镜像仓库是服务于公司或企业内部使用的镜像仓库。镜像仓库可会提供一个删除/上传镜像的页面或者api,供使用者对镜像仓库里面的镜像对应操作。该镜像仓库可以由管理服务器和多个存储服务器组成。该管理服务器用来管理多个存储服务器,多个存储服务器用来分布式存储镜像元数据和镜像层文件。
比如,用户制作一个名称为jdk的镜像,然后,要把这个jdk镜像上传到镜像仓库,此时进行的是上传操作。可通过命令“docker push<镜像仓库名>”来操作。在敲打了这个命令以后,本地docker将镜像上传到远端的镜像仓库上的步骤可包括:将jdk镜像依赖的层文件上传到镜像仓库,将jdk镜像的元数据上传到镜像仓库,元数据记录了jdk镜像的依赖层文件和配置信息如依赖层文件的存储位置等。
又比如,当需要在本地终端或者应用服务器上运行该jdk的应用,则从镜像仓库把这个jdk镜像下载下来,然后使用本地终端或者应用服务器上的容器引擎来启动这个jdk镜像。其中从镜像仓库下载jdk镜像文件这个操作可使用命令“docker pull<镜像仓库名>/jdk”来实现的。在执行这个docker pull命令后,下载镜像可包括步骤:将jdk镜像的元数据下载到本地,由元数据来获取此镜像的依赖层信息;根据得到的依赖层信息,将jdk镜像的依赖层文件下载到本地。在下载完成后,本地就已经有一个jdk镜像了,然后使用容器引擎启动这个jdk镜像,就会有对应的jdk镜像运行实例,也就是容器运行,称为jdk容器。这个运行的jdk容器,就是通过jdk镜像部署的最终状态。
因此,镜像仓库一般是存储镜像元数据和镜像的实际文件(即镜像层文件)的存储器。在镜像仓库中,该镜像元数据和镜像层文件一般是分开存储的。其中,镜像层文件是分层存储的。一个镜像的元数据记录了该镜像所依赖的镜像层文件信息。不同镜像可能存在相同的镜像层文件。
针对由管理服务器和多个存储服务器组成的镜像仓库来说,管理服务器总体管理这些存储服务器。该管理服务器和多个镜像仓库存储服务器可为实体服务器,也可为云服务器等虚拟服务器。
镜像的元数据与镜像层文件之间的关系:镜像的元数据记录了镜像层文件的信息,比如:针对镜像imageA和imageB,其中,镜像imageA的元数据可为:imageA:{a,b,c}(即镜像imageA对应的层文件信息)以及a,b,c的存储位置等;镜像imageB的元数据可为:imageB:{a,b,d}(即镜像imageB对应的层文件信息)以及a,b,d的存储位置等。
删除一个镜像一般是对镜像的元数据做删除,而对镜像的镜像层文件数据不做删除。因为如果删除镜像层文件数据,可能导致有共同依赖该镜像层文件的其它镜像不可用。而随着镜像层文件的增多,可能存在大量的不会再被使用的已经停服的镜像的镜像层文件占据镜像仓库,造成镜像仓库存储空间的浪费,所以,对镜像层文件的删除依赖镜像仓库垃圾清理(Garbage collection,GC)。
针对现有的镜像仓库垃圾清理的方式来说,在进行镜像仓库垃圾清理过程中,如果允许用户操作镜像比如上传文件到镜像仓库,而与用户操作镜像相关的层文件可能并没有被标记,所以,GC会把这个镜像的层文件删除,导致这个镜像的元数据存在,但是实际镜像层文件丢了。对外表现为,可以查到这个镜像,但是,无法下载该镜像到本地终端/应用服务器。另外,镜像仓库的镜像存储量可达十万级别,镜像文件存储量可达百TB级别,业务每秒都可能有镜像下载/上传操作。停服或者将镜像仓库设置为只读模式,将严重影响业务。因此,在镜像仓库不停服时,实现镜像仓库垃圾清理方法则显得尤为重要。
如图1所示,本发明实施例提供一种镜像仓库垃圾清理方法,该镜像仓库垃圾清理方法可包括如下步骤:
S101:在接收到镜像垃圾清理指令后,对所述镜像仓库执行至少两次遍历操作;
S102:确定每一次所述遍历操作对应的待删除镜像层文件集合;
S103:根据每一次所述遍历操作对应的所述待删除镜像层文件集合,计算集合交集;
S104:根据所述集合交集,对所述镜像仓库进行垃圾清理。
由于至少两次遍历操作中每一次遍历操作的时间不同,那么,处于使用状态的镜像也会存在差异。经过该至少两次遍历操作后,能够将镜像仓库中所有可能被使用的镜像对应的镜像层文件标记出来。那么,基于至少两次遍历操作,计算出的集合交集确定出的未被使用过的镜像层文件被认定为属于镜像仓库垃圾清理需要清除的镜像层文件,即大概率属于不会被调用的镜像层文件。
上述计算集合交集的具体实施方式可为:计算至少两次所述遍历操作对应的所述待删除镜像层文件集合之间的交集。
即:
K=α1∩α2∩…∩αN
其中,K表征集合交集/至少两次遍历操作对应的所述待删除镜像层文件集合之间的交集;α1表征第1次遍历操作对应的待删除镜像层文件集合;α2表征第2次遍历操作对应的待删除镜像层文件集合;αN表征第N次遍历操作对应的待删除镜像层文件集合;其中,N为不小于2的正整数。比如:镜像仓库中存储有ImageA、ImageB、ImageC、ImageD、ImageE等,其中,ImageA的层文件集合{a,b,c},ImageB的层文件集合{b,c,d},ImageC的层文件集合{a,b,e,f},ImageD的层文件集合{b,e,f,g},ImageE的层文件集合{b,e,f,g,h},在第一次遍历操作时,只有ImageA和ImageB处于使用状态,则α1={e,f,g,h};在第二次遍历操作时,只有ImageA和ImageC处于使用状态,则α2={d,g,h};在第三次遍历操作时,只有ImageA和ImageD处于使用状态,则α3={d,h};则经过这三次遍历操作后,K={h}。又比如,第一次遍历操作得到的待删除镜像层文件集合为{d,e,f},第二次遍历操作得到的待删除镜像层文件集合为{e,f},第三次遍历操作得到的待删除镜像层文件集合为{e,f},则三次交集为{e,f},在每相邻两次遍历操作间隔时间足够长,而且循环参数比较大,交集得到的为这一段时间冷门不用的层文件,可以直接删除。
因此,在图1示出的实施例所提供的技术方案中,通过对所述镜像仓库执行至少两次遍历操作,在镜像仓库的业务不中断过程中,一旦镜像被使用(镜像被下载或者被上传),与业务相关的镜像层文件就不再属于待删除镜像层文件集合内,因此,至少两次遍历操作得到的待删除镜像层文件集合可能存在差异,通过计算集合交集,可尽可能的从待删除镜像层文件集合中去掉不可被删除层文件。根据集合交集,对镜像仓库进行垃圾清理,可避免清理掉所需的镜像层文件,因此,能够在镜像仓库的业务不中断的情况下进行镜像仓库垃圾清理。
上述镜像仓库的业务不中断是指镜像仓库的各个镜像可随时的被下载、删除、还可随时的向镜像仓库上传镜像等。
在本发明一个实施例中,遍历操作,包括:遍历所述镜像仓库中的所有镜像的元数据,为所述所有镜像标记依赖文件集合。一般来说,镜像的元数据记录有镜像层文件的信息,比如,针对两个镜像imageA和imageB来说,其中:ImageA的元数据为:{a,b,c},即记录ImageA的层文件信息为:ImageA的层文件包括有目录tmp/下的层文件a、目录tmp/下的层文件b、目录tmp/下的层文件c;ImageB的元数据为:{a,b,d},即记录ImageB的层文件信息为:ImageB的层文件包括有目录tmp/下的层文件a、目录tmp/下的层文件b、目录tmp/下的层文件d。则在本实施例中,若针对ImageB的层文件进行垃圾清理,可为ImageA标记依赖文件集合为{a,b,c}。则该次遍历操作对应的待删除镜像层文件集合{d},以保证ImageA能够正常使用。
在本发明一个实施例中,如图2所示,上述确定每一次遍历操作对应的待删除镜像层文件集合可具体包括如下步骤:
针对每一次遍历操作,执行:
S201:确定所述遍历操作所遍历的所述镜像仓库当前存储的所有镜像层文件;
S202:根据所述当前存储的所有镜像层文件和所述依赖文件集合,确定所述遍历操作对应的待删除镜像层文件集合。
该当前存储的所有镜像层文件可通过遍历镜像仓库的目录获得。
依赖文件集合是指正常运行的镜像所依赖的镜像层文件的集合。该镜像所依赖的镜像层文件的集合通过遍历所有镜像元数据获得。由于镜像元数据可记载有镜像的使用状态,处于使用状态的镜像所对应的层文件即构成了依赖文件集合。
S202的具体实现方式可为,从所有镜像层文件中去除依赖文件集合中包含的镜像层文件,即得到待删除镜像层文件集合。比如,所有层文件包括目录tmp/下的镜像层文件a、b、c、d、e、f以及g,经过第一次遍历操作,得到依赖文件集合包括:ImageA的{a,b,c}、ImageC的{a,b,e,f},则该第一次遍历操作得到待删除镜像层文件集合即为{d,g};经过第二次遍历操作,得到依赖文件集合包括:ImageC的{a,b,e,f}和ImageD的{a,b,f,g},则该第二次遍历操作得到待删除镜像层文件集合即为{c,d}。
在本发明一个实施例中,为所述遍历操作设置遍历参数,使所述遍历操作的次数等于所述遍历参数。一方面能够使遍历操作能够自动停止,另一方面通过设置遍历参数可以尽可能的减少误删层文件的可能性。通过测试发现,该遍历参数不小于3时,实现了反复确认层文件是否不会被再使用。可避免误删层文件,保证清理的完整性和合理性的同时,能够比较快速的完成镜像仓库垃圾清理。
在本发明一个实施例中,如图3所示,计算至少两次所述遍历操作对应的所述待删除镜像层文件集合之间的交集的步骤可具体包括:
S301:预先设置遍历参数;
比如:在该步骤中设置的遍历参数为3。
S302:确定当前遍历操作对应的待删除镜像层文件集合;
S303:计算当前遍历操作对应的待删除镜像层文件集合与所述当前遍历操作对应的上一次遍历操作所对应的目标待删除镜像层文件集合之间的交集;
值得说明的是,当当前遍历操作为第一次遍历操作时,该第一次遍历操作对应的上一次遍历操作所对应的目标待删除镜像层文件集合为空集。
S304:将当前遍历参数减1;
S305:判断所述当前遍历参数是否为零,如果是,则执行S306;否则,执行S307;
S306:结束当前流程;
S307:将所述交集作为所述当前遍历操作对应的目标待删除镜像层文件集合;将所述当前遍历操作为上一次遍历操作,并将下一次遍历操作作为当前遍历操作,并执行S303。
即通过循环执行上述步骤S303至S307,直至所述遍历参数变为零,以计算至少两次所述遍历操作对应的所述待删除镜像层文件集合之间的交集。通过上述过程,在每一次循环中仅针对两个集合计算交集,可节省资源消耗。
在本发明一个实施例中,执行相邻两次所述遍历操作的时间间隔不小于12h。优选地,执行相邻两次所述遍历操作的时间间隔不小于7天。该间隔时间内几乎在使用的镜像都可至少被使用一次,使两次遍历操作的差异比较明显。而在遍历操作中即可获知,而间隔时间过短,可能有的镜像因为在这个间隔时间内未被使用过而被误删。通过测试发现,本发明实施例提供的时间间隔可大大降低层文件误删的可能性,同时能够保证已经完全停服的镜像对应的层文件被清理干净,而不影响其他为停服的镜像的正常使用。
在本发明一个实施例中,对所述镜像仓库进行垃圾清理的具体实施方式可包括:针对所述镜像仓库中的每一个存储层,执行:删除所述存储层中与所述交集相关的待删除镜像层文件,以使所述交集为空集。即按照存储层,分层删除待删除镜像层文件,比如:如图4所示,该镜像仓库400包括有存储层1、2、3、4、5、…,其中,存储层1存储有层文件a、b、c、d、…,存储层2存储有层文件e、f、g、h、…,存储层3存储有层文件i、j、k、l、m、…,存储层4存储有层文件n、p、z、u、…,存储层5存储有层文件s、y、q、r、…,而不同存储层存储的层文件完全不相同。则在通过上述各个步骤得到的集合交集/至少两次所述遍历操作对应的所述待删除镜像层文件集合之间的交集为{h,j,m,n,z,y}后,可先从存储层1开始,存储层1并不包含与交集相关的待删除镜像层文件,则跳到存储层2,删除存储层2存储的层文件h,继续跳到存储层3,删除存储层3存储的层文件j、m,跳到存储层4,删除存储层4存储的层文件n、z,跳到存储层5,删除存储层5存储的层文件y,以避免待删除镜像层文件被漏删。上述这些存储层可分布在镜像仓库的不同的存储服务器上,而镜像仓库的一个存储服务器可包含有多个存储层。
如图5所示,本发明实施例提供一种镜像仓库垃圾清理装置500,该镜像仓库垃圾清理装置500包括:遍历单元501、差量计算单元502以及清理单元503,其中,
所述遍历单元501,用于在接收到镜像垃圾清理指令后,对所述镜像仓库执行至少两次遍历操作;
所述差量计算单元502,用于确定每一次所述遍历单元501执行的所述遍历操作对应的待删除镜像层文件集合,根据每一次所述遍历操作对应的所述待删除镜像层文件集合,计算集合交集;
所述清理单元503,用于根据所述差量计算单元502计算出的所述集合交集,对所述镜像仓库进行垃圾清理。
在本发明一个实施例中,所述遍历单元501执行的遍历操作,包括:遍历所述镜像仓库中的所有镜像的元数据,为所述所有镜像标记依赖文件集合。
在本发明一个实施例中,所述差量计算单元502,用于针对每一个所述遍历操作,执行:确定所述遍历操作所遍历的所述镜像仓库当前存储的所有镜像层文件;根据所述当前存储的所有镜像层文件和所述依赖文件集合,确定所述遍历操作对应的待删除镜像层文件集合。
在本发明一个实施例中,所述遍历单元501,进一步用于为所述遍历操作设置遍历参数,使所述遍历操作的次数等于所述遍历参数。
在本发明一个实施例中,所述差量计算单元502,用于循环执行下述步骤,直至所述遍历参数变为零;
计算当前遍历操作对应的待删除镜像层文件集合与所述当前遍历操作对应的上一次遍历操作所对应的目标待删除镜像层文件集合之间的交集;
将当前遍历参数减1;
判断所述当前遍历参数是否为零,
如果否,则将所述交集作为所述当前遍历操作对应的目标待删除镜像层文件集合;将所述当前遍历操作为上一次遍历操作,并将下一次遍历操作作为当前遍历操作。
在本发明一个实施例中,所述遍历单元501执行相邻两次所述遍历操作的时间间隔不小于12h。
在本发明一个实施例中,遍历参数不小于3。
在本发明一个实施例中,所述清理单元503,用于针对所述镜像仓库中的每一个存储层,执行:删除所述存储层中与所述集合交集相关的待删除镜像层文件,以使所述集合交集为空集。
上述镜像仓库垃圾清理方法或镜像仓库垃圾清理装置可依托镜像仓库中的管理服务器完成。
图6示出了可以应用本发明实施例的镜像仓库垃圾清理方法或镜像仓库垃圾清理装置的示例性系统架构600。
如图6所示,系统架构600可以包括终端设备601、602、603,网络604和镜像仓库的管理服务器605。网络604用以在终端设备601、602、603和镜像仓库的管理服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备601、602、603通过网络604与镜像仓库的服务器605交互,以下载镜像或者上传镜像等。终端设备601、602、603上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
镜像仓库的管理服务器605可以为终端设备601、602、603提供用户需要的镜像,镜像仓库的管理服务器605还可以确定每一次遍历操作对应的待删除镜像层文件集合;根据每一次遍历操作对应的待删除镜像层文件集合,计算集合交集,并将计算出的集合交集反馈给镜像仓库/镜像服务器。
需要说明的是,本发明实施例所提供的镜像仓库垃圾清理方法一般由镜像仓库的管理服务器605执行,相应地,镜像仓库垃圾清理装置一般设置于镜像仓库的管理服务器605中。
应该理解,图6中的终端设备、网络和镜像仓库的管理服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和镜像仓库的管理服务器。
下面参考图7,其示出了适于用来实现本发明实施例的管理服务器的计算机系统700的结构示意图。图7示出的管理服务器仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 70https://www.baidu.com/s?wd=服务器&tn=39042058_41_oem_dg3通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括遍历单元、差量计算单元以及清理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,清理单元还可以被描述为“向所连接的镜像仓库/镜像服务器发送清除指令的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:在接收到镜像垃圾清理指令后,对所述镜像仓库执行至少两次遍历操作;确定每一次所述遍历操作对应的待删除镜像层文件集合;根据每一次所述遍历操作对应的所述待删除镜像层文件集合,计算集合交集;根据所述集合交集,对所述镜像仓库进行垃圾清理。
根据本发明实施例的技术方案,通过对所述镜像仓库执行至少两次遍历操作,在业务不中断过程中,一旦业务运行,与业务相关的层文件就不在待删除镜像层文件集合内,因此,至少两次遍历操作得到的待删除镜像层文件集合可能存在差异,通过计算集合交集,可尽可能的从待删除镜像层文件集合中去掉不可被删除镜像层文件,因此,根据集合交集,对镜像仓库进行垃圾清理,可避免清理掉运行业务所需的层文件,因此,能够在业务不中断的情况下进行镜像仓库垃圾清理。
另外,根据本发明实施例的技术方案,遍历操作,包括:遍历镜像仓库中的所有镜像的元数据,为所有镜像标记依赖文件集合,镜像的元数据记录有镜像层文件的信息,则通过元数据可以很容易的为在运行业务所对应的镜像确定出依赖文件集合,则通过依赖文件集合,可以更容易及准确的得到待删除镜像层文件集合。
根据本发明实施例的技术方案,为所述遍历操作设置遍历参数,使所述遍历操作的次数等于所述遍历参数。一方面能够使遍历操作能够自动停止,另一方面通过设置遍历参数可以尽可能的减少误删层文件的可能性。通过测试发现,该遍历参数不小于3时,可避免误删层文件,保证清理的完整性和合理性的同时,能够比较快速的完成镜像仓库垃圾清理。
根据本发明实施例的技术方案,执行相邻两次所述遍历操作的时间间隔不小于12h。优选地,执行相邻两次所述遍历操作的时间间隔不小于7天。该间隔时间内几乎在使用的镜像都可至少被使用一次,而在遍历操作中即可获知,而间隔时间过短,可能有的镜像因为在这个间隔时间内未被使用过而被误删。通过测试发现,本发明实施例提供的时间间隔可大大降低层文件误删的可能性,同时能够保证已经完全停服的镜像对应的层文件被清理干净,而不影响其他为停服的镜像的正常使用。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (9)

1.一种镜像仓库垃圾清理方法,其特征在于,包括:
在接收到镜像垃圾清理指令后,对所述镜像仓库执行至少两次遍历操作;
确定每一次所述遍历操作对应的待删除镜像层文件集合;
根据每一次所述遍历操作对应的所述待删除镜像层文件集合,计算集合交集;
根据所述集合交集,对所述镜像仓库进行垃圾清理;
所述对所述镜像仓库进行垃圾清理,包括:
针对所述镜像仓库中的每一个存储层,执行删除所述存储层中与所述集合交集相关的待删除镜像层文件,以使所述集合交集为空集;
所述计算集合交集,包括:
循环执行下述步骤,直至为所述遍历操作设置的遍历参数变为零;
计算当前遍历操作对应的待删除镜像层文件集合与所述当前遍历操作对应的上一次遍历操作所对应的目标待删除镜像层文件集合之间的交集;
将当前遍历参数减1;
判断所述当前遍历参数是否为零,
如果否,则将所述交集作为所述当前遍历操作对应的目标待删除镜像层文件集合;将所述当前遍历操作为上一次遍历操作,并将下一次遍历操作作为当前遍历操作。
2.根据权利要求1所述镜像仓库垃圾清理方法,其特征在于,所述遍历操作,包括:
遍历所述镜像仓库中的所有镜像的元数据,为所述所有镜像标记依赖文件集合。
3.根据权利要求2所述镜像仓库垃圾清理方法,其特征在于,所述确定每一次所述遍历操作对应的待删除镜像层文件集合,包括:
针对每一个所述遍历操作,执行:
确定所述遍历操作所遍历的所述镜像仓库当前存储的所有镜像层文件;
根据所述当前存储的所有镜像层文件和所述依赖文件集合,确定所述遍历操作对应的待删除镜像层文件集合。
4.根据权利要求1至3任一所述镜像仓库垃圾清理方法,其特征在于,进一步包括:
为所述遍历操作设置遍历参数,使所述遍历操作的次数等于所述遍历参数。
5.根据权利要求1至3中任一所述镜像仓库垃圾清理方法,其特征在于,
相邻两次所述遍历操作的时间间隔不小于12h。
6.根据权利要求4所述镜像仓库垃圾清理方法,其特征在于,所述遍历参数不小于3。
7.一种镜像仓库垃圾清理装置,其特征在于,包括:遍历单元、差量计算单元以及清理单元,其中,
所述遍历单元,用于在接收到镜像垃圾清理指令后,对所述镜像仓库执行至少两次遍历操作;
所述差量计算单元,用于确定每一次所述遍历单元执行的所述遍历操作对应的待删除镜像层文件集合,根据每一次所述遍历操作对应的所述待删除镜像层文件集合,计算集合交集;
所述清理单元,用于根据所述差量计算单元计算出的所述集合交集,对所述镜像仓库进行垃圾清理;
所述清理单元,进一步用于针对所述镜像仓库中的每一个存储层,执行删除所述存储层中与所述集合交集相关的待删除镜像层文件,以使所述集合交集为空集;
所述差量计算单元,进一步用于循环执行下述步骤,直至为所述遍历操作设置的遍历参数变为零;
计算当前遍历操作对应的待删除镜像层文件集合与所述当前遍历操作对应的上一次遍历操作所对应的目标待删除镜像层文件集合之间的交集;
将当前遍历参数减1;
判断所述当前遍历参数是否为零,
如果否,则将所述交集作为所述当前遍历操作对应的目标待删除镜像层文件集合;将所述当前遍历操作为上一次遍历操作,并将下一次遍历操作作为当前遍历操作。
8.一种镜像仓库垃圾清理装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201911220658.2A 2019-12-03 2019-12-03 镜像仓库垃圾清理方法和装置 Active CN112905541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911220658.2A CN112905541B (zh) 2019-12-03 2019-12-03 镜像仓库垃圾清理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911220658.2A CN112905541B (zh) 2019-12-03 2019-12-03 镜像仓库垃圾清理方法和装置

Publications (2)

Publication Number Publication Date
CN112905541A CN112905541A (zh) 2021-06-04
CN112905541B true CN112905541B (zh) 2024-04-05

Family

ID=76103918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911220658.2A Active CN112905541B (zh) 2019-12-03 2019-12-03 镜像仓库垃圾清理方法和装置

Country Status (1)

Country Link
CN (1) CN112905541B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116842001A (zh) * 2023-08-29 2023-10-03 合肥中科类脑智能技术有限公司 镜像数据清理方法、装置及电子设备、人工智能平台

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107105054A (zh) * 2017-05-17 2017-08-29 郑州云海信息技术有限公司 一种面向docker镜像仓库的镜像垃圾清理系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10795779B2 (en) * 2017-02-17 2020-10-06 Sap Se Asynchronous garbage collection in database redo log replay

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107105054A (zh) * 2017-05-17 2017-08-29 郑州云海信息技术有限公司 一种面向docker镜像仓库的镜像垃圾清理系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Encouraging urban households to segregate the waste they generate: Insights from a field experiment in Delhi, India;Shivani Wadehra等;《Resources, Conservation and Recycling》;全文 *
磁盘垃圾文件快速清理工具设计及实现;周利荣;;微型机与应用(07);全文 *

Also Published As

Publication number Publication date
CN112905541A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
US10803016B2 (en) Predictive models of file access patterns by application and file type
US8990529B2 (en) Method for optimizing cleaning of maps in flashcopy cascades containing incremental maps
US9965207B2 (en) Maintenance of cloned computer data
US11074134B2 (en) Space management for snapshots of execution images
CN109271343A (zh) 一种应用于键值存储系统中的数据合并方法和装置
US20170060455A1 (en) Determining data locality in a distributed system using aggregation of locality summaries
US9996459B2 (en) Reclaiming of sequential storage medium
CN115827162A (zh) 一种智能化处理镜像仓库数据方法、装置、介质及设备
CN110119386B (zh) 数据处理方法、数据处理装置、介质和计算设备
CN112905541B (zh) 镜像仓库垃圾清理方法和装置
CN112783887A (zh) 一种基于数据仓库的数据处理方法及装置
CN107220248A (zh) 一种用于存储数据的方法和装置
CN111488117B (zh) 用于管理元数据的方法、电子设备和计算机可读介质
US10535011B2 (en) Predicting capacity based upon database elements
US9298487B2 (en) Managing virtual machine images in a distributed computing environment
CN109472540B (zh) 业务处理方法和装置
US11416468B2 (en) Active-active system index management
US11734277B2 (en) Database buffer pool optimization
US20210096763A1 (en) Method, device, and computer program product for managing storage system
CN116263757A (zh) 一种数据处理的方法及相关装置
US9086860B2 (en) Bi-directional linking of product build information
JP6059682B2 (ja) データ移行方法とデータ移行システムと移行元サーバと移行先サーバとデータ移行プログラム
CN117349255A (zh) 一种对象数据处理方法及设备
CN110750268A (zh) 文件清理方法、装置、计算机可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant