CN113688104A - 一种文件清理方法、装置、设备及可读存储介质 - Google Patents

一种文件清理方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113688104A
CN113688104A CN202110856472.7A CN202110856472A CN113688104A CN 113688104 A CN113688104 A CN 113688104A CN 202110856472 A CN202110856472 A CN 202110856472A CN 113688104 A CN113688104 A CN 113688104A
Authority
CN
China
Prior art keywords
file
cleaning
sequence
files
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110856472.7A
Other languages
English (en)
Inventor
刘程程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN202110856472.7A priority Critical patent/CN113688104A/zh
Publication of CN113688104A publication Critical patent/CN113688104A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本申请公开了一种文件清理方法、装置、设备及可读存储介质。本申请公开的方法包括:实时记录用户所删除的已删文件的第一文件信息;按照第一文件信息在所记录的所有已删文件中的出现次数的大小排列第一文件信息得到第一序列;若达到清理时间点,则获取当前设备中存在的任一个目标文件的、与第一文件信息类别相同的第二文件信息;若第一序列中存在第二文件信息,则确定第二文件信息在第一序列中的排列位置对应的清理分数,根据清理分数确定是否删除目标文件。本申请能够基于用户删除文件的行为定位用户真正想要删除的文件,符合用户的清理习惯,降低文件被误删的概率。本申请提供的一种文件清理装置、设备及可读存储介质,也同样具有上述技术效果。

Description

一种文件清理方法、装置、设备及可读存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种文件清理方法、装置、设备及可读存储介质。
背景技术
目前,服务器的使用量与日俱增,随着服务器的长时间使用会产生大量的文件资源碎片。服务器产生的文件资源碎片不仅会占用大量的硬盘空间,而且会消耗大量运维时间。一些通用的文件清理工具可以用于清理服务器中的文件,但一般只能按照最近最久未使用等常规方式定位需要清理的文件,但实际上最近最久未使用的文件不一定是用户想要删除的文件,因此使用通用文件清理工具可能导致文件误删,而真正无用的文件又没有被删除。
因此,如何定位用户想要删除的文件并及时清理这些文件,是本领域技术人员需要解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种文件清理方法、装置、设备及可读存储介质,以定位用户想要删除的文件并及时清理这些文件。其具体方案如下:
第一方面,本申请提供了一种文件清理方法,包括:
实时记录用户所删除的已删文件的第一文件信息;
统计所述第一文件信息在所记录的所有已删文件中的出现次数,并按照所述出现次数的大小排列所述第一文件信息,得到第一序列;
若达到清理时间点,则获取当前设备中存在的任一个目标文件的第二文件信息;所述第一文件信息与所述第二文件信息的类别相同;
若所述第一序列中存在所述第二文件信息,则确定所述第二文件信息在所述第一序列中的排列位置对应的清理分数,并根据所述清理分数确定是否删除所述目标文件。
优选地,所述统计所述第一文件信息在所记录的所有已删文件中的出现次数,并按照所述出现次数的大小排列所述第一文件信息,得到第一序列,包括:
若所述第一文件信息为文件类型,则统计各个文件类型在所记录的所有已删文件中的类型出现次数,并按照所述类型出现次数降序排列各个文件类型,得到类型序列;
若所述第一文件信息为文件路径,则统计各个文件路径在所记录的所有已删文件中的路径出现次数,并按照所述路径出现次数降序排列各个文件路径,得到路径序列;
若所述第一文件信息为文件名称的分词,则统计各个分词在所记录的所有已删文件中的分词出现次数,并按照所述分词出现次数降序排列各个分词,得到分词序列;
将所述类型序列和/或所述路径序列和/或所述分词序列作为所述第一序列。
优选地,所述若所述第一序列中存在所述第二文件信息,则确定所述第二文件信息在所述第一序列中的排列位置对应的清理分数,包括:
若所述第二文件信息为文件类型,则确定所述目标文件的文件类型在所述类型序列中的排列位置对应的清理分数;
若所述第二文件信息为文件路径,则确定所述目标文件的文件路径在所述路径序列中的排列位置对应的清理分数;
若所述第二文件信息为文件名称的分词,则确定所述目标文件的文件名称的分词在所述分词序列中的排列位置对应的清理分数。
优选地,所述根据所述清理分数确定是否删除所述目标文件,包括:
若当前设备开启了自动清理功能,则在仅有一个清理分数的情况下,判断该清理分数是否不小于第一阈值;
若是,则自动删除所述目标文件;
若否,则展示所述目标文件。
优选地,所述根据所述清理分数确定是否删除所述目标文件,包括:
若当前设备开启了自动清理功能,则在有至少两个清理分数的情况下,获取每个清理分数分别对应的清理权值;
按照第一公式计算综合分数;所述第一公式为:
Figure BDA0003184323360000031
其中,fs为综合分数,n为所述类型序列和/或所述路径序列和/或所述分词序列中的最大排列位置,x为清理分数的个数,a1......ax为x个清理分数,S1......Sx为各个清理分数分别对应的清理权值;
判断所述综合分数是否不小于第二阈值;
若是,则自动删除所述目标文件;
若否,则展示所述目标文件。
优选地,还包括:
利用扫描方式确定当前设备中存在的至少两个文件;
按照文件大小和/或文件修改时间和/或文件修改次数分别排列所述至少两个文件,得到文件大小序列和/或修改时间序列和/或修改次数序列;
将所述至少两个文件中的任一个文件作为所述目标文件,并确定所述目标文件在所述文件大小序列和/或所述修改时间序列和/或所述修改次数序列中的排列位置对应的清理分数;
相应地,所述根据所述清理分数确定是否删除所述目标文件,包括:
若当前设备开启了自动清理功能,则在有至少两个清理分数的情况下,获取每个清理分数分别对应的清理权值;
按照第一公式计算综合分数;所述第一公式为:
Figure BDA0003184323360000032
其中,fs为综合分数,n为所述类型序列和/或所述路径序列和/或所述分词序列、和所述文件大小序列和/或所述修改时间序列和/或所述修改次数序列中的最大排列位置,x为清理分数的个数,a1......ax为x个清理分数,S1......Sx为各个清理分数分别对应的清理权值;
根据所述至少两个文件中的每个文件对应的综合分数确定是否删除各个文件。
优选地,所述根据所述至少两个文件中的每个文件对应的综合分数确定是否删除各个文件,包括:
记录所述至少两个文件中的每个文件对应的综合分数,并按照所述综合分数降序排列所述至少两个文件,得到待清理列表;
若所述待清理列表中存在综合分数不小于第二阈值的文件,则删除所述待清理列表中综合分数不小于第二阈值的文件;
若所述待清理列表中不存在综合分数不小于第二阈值的文件,则展示所述待清理列表。
第二方面,本申请提供了一种文件清理装置,包括:
记录模块,用于实时记录用户所删除的已删文件的第一文件信息;
统计模块,用于统计所述第一文件信息在所记录的所有已删文件中的出现次数,并按照所述出现次数的大小排列所述第一文件信息,得到第一序列;
获取模块,用于若达到清理时间点,则获取当前设备中存在的任一个目标文件的第二文件信息;所述第一文件信息与所述第二文件信息的类别相同;
清理模块,用于若所述第一序列中存在所述第二文件信息,则确定所述第二文件信息在所述第一序列中的排列位置对应的清理分数,并根据所述清理分数确定是否删除所述目标文件。
第三方面,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的文件清理方法。
第四方面,本申请提供了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的文件清理方法。
通过以上方案可知,本申请提供了一种文件清理方法,包括:实时记录用户所删除的已删文件的第一文件信息;统计所述第一文件信息在所记录的所有已删文件中的出现次数,并按照所述出现次数的大小排列所述第一文件信息,得到第一序列;若达到清理时间点,则获取当前设备中存在的任一个目标文件的第二文件信息;所述第一文件信息与所述第二文件信息的类别相同;若所述第一序列中存在所述第二文件信息,则确定所述第二文件信息在所述第一序列中的排列位置对应的清理分数,并根据所述清理分数确定是否删除所述目标文件。
可见,本申请能够对用户所删除的已删文件进行信息统计,从而得到第一序列,若设备中的任一个当前存在的目标文件的文件信息在第一序列中出现,则表明当前存在的目标文件的文件信息与用户所删除的已删文件的文件信息重合,那么当前存在的目标文件极有可能也是用户想要删除的文件,因此确定当前存在的目标文件的文件信息在第一序列中的排列位置对应的清理分数,并根据清理分数确定是否删除目标文件。该方案能够统计并记录用户所删除文件的文件信息,并据此在设备中寻找与已删文件的文件信息相同的信息,从而确定设备中需要删除的文件,是基于用户删除文件的行为清理文件的方案,能够定位用户真正想要删除的文件并及时清理这些文件。所定位的需删除文件符合用户日常的清理习惯,很可能是用户真正想要删除的文件,可降低文件被误删的概率,减少了繁杂及长期的人工作业,极大地提高了运维效率。
相应地,本申请提供的一种文件清理装置、设备及可读存储介质,也同样具有上述技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种文件清理方法流程图;
图2为本申请公开的一种文件清理装置示意图;
图3为本申请公开的一种电子设备示意图;
图4为本申请公开的另一种文件清理方法流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,通用的文件清理工具一般只能按照最近最久未使用等常规方式定位需要清理的文件,但实际上最近最久未使用的文件不一定是用户想要删除的文件,因此使用通用文件清理工具可能导致文件误删,而真正无用的文件又没有被删除。为此,本申请提供了一种文件清理方案,能够定位用户想要删除的文件并及时清理这些文件。
参见图1所示,本申请实施例公开了一种文件清理方法,应用于任意设备(如:服务器、计算机等),包括:
S101、实时记录用户所删除的已删文件的第一文件信息。
用户所删除的已删文件为一个或多个,每个文件都有类型(如pdf、word等)、名称、路径、大小等文件信息。因此第一文件信息可以为类型、名称、路径等。
S102、统计第一文件信息在所记录的所有已删文件中的出现次数,并按照出现次数的大小排列第一文件信息,得到第一序列。
若所记录的所有已删文件有6个,分别为2个pdf文件,3个word文件,1个xml文件。假设第一文件信息为文件类型,那么第一序列为:[word,pdf,xml],此序列即为类型序列。
据此,当第一文件信息为文件路径或文件名称的分词时,可得到相应的序列。例如:假设2个pdf文件的文件名称均为:临时文件;3个word文件的文件名称均为:执行章程;1个xml文件的文件名称为:窗口展示代码。那么分别对“临时文件”、“执行章程”、“窗口展示代码”进行分词,可得到多个分词,将这些分词按照出现次数降序排列,即可得到分词序列。其中,可基于NLP(Natural Language Processing,自然语言处理)对文件名称进行分词,同时可根据语言类型分别处理。例如:文件名称遇到英文时,按照英文分词;遇到中文时,按照中文分词。
在一种具体实施方式中,统计第一文件信息在所记录的所有已删文件中的出现次数,并按照出现次数的大小排列第一文件信息,得到第一序列,包括:若第一文件信息为文件类型,则统计各个文件类型在所记录的所有已删文件中的类型出现次数,并按照类型出现次数降序排列各个文件类型,得到类型序列;若第一文件信息为文件路径,则统计各个文件路径在所记录的所有已删文件中的路径出现次数,并按照路径出现次数降序排列各个文件路径,得到路径序列;若第一文件信息为文件名称的分词,则统计各个分词在所记录的所有已删文件中的分词出现次数,并按照分词出现次数降序排列各个分词,得到分词序列;将类型序列和/或路径序列和/或分词序列作为第一序列。
可见,第一序列最多有3个,分别为:类型序列、路径序列和分词序列;最少有一个,分别为:类型序列或路径序列或分词序列。当然,第一序列也可以有2个。
S103、若达到清理时间点,则获取当前设备中存在的任一个目标文件的第二文件信息;第一文件信息与第二文件信息的类别相同。
其中,第一文件信息与第二文件信息的类别相同即:当第一文件信息为文件类型时,第二文件信息也是文件类型;当第一文件信息为文件路径时,第二文件信息也是文件路径;当第一文件信息为文件名称的分词时,第二文件信息也是文件名称的分词。
S104、若第一序列中存在第二文件信息,则确定第二文件信息在第一序列中的排列位置对应的清理分数,并根据清理分数确定是否删除目标文件。
在一种具体实施方式中,若第一序列中存在第二文件信息,则确定第二文件信息在第一序列中的排列位置对应的清理分数,包括:若第二文件信息为文件类型,则确定目标文件的文件类型在类型序列中的排列位置对应的清理分数;若第二文件信息为文件路径,则确定目标文件的文件路径在路径序列中的排列位置对应的清理分数;若第二文件信息为文件名称的分词,则确定目标文件的文件名称的分词在分词序列中的排列位置对应的清理分数。
由于上述第一序列可以有多个,因此清理分数也可以有多个。当第一序列有3个,分别为:类型序列、路径序列和分词序列时,清理分数也对应有3个。
在一种具体实施方式中,根据清理分数确定是否删除目标文件,包括:若当前设备开启了自动清理功能,则在仅有一个清理分数的情况下,判断该清理分数是否不小于第一阈值;若是,则自动删除目标文件;若否,则展示目标文件。可见,当设备开启了自动清理功能,且在仅有一个清理分数的情况下,直接可判断清理分数与第一阈值的大小,若清理分数大于第一阈值,则表明目标文件与已删文件极为相似,因此可以直接删除目标文件;否则,展示目标文件,以便用户确认是否删除该目标文件。
在一种具体实施方式中,根据清理分数确定是否删除目标文件,包括:若当前设备开启了自动清理功能,则在有至少两个清理分数的情况下,获取每个清理分数分别对应的清理权值;
按照第一公式计算综合分数;第一公式为:
Figure BDA0003184323360000081
其中,fs为综合分数,n为类型序列和/或路径序列和/或分词序列中的最大排列位置,x为清理分数的个数,a1......ax为x个清理分数,S1......Sx为各个清理分数分别对应的清理权值;
判断综合分数是否不小于第二阈值;
若是,则自动删除目标文件;
若否,则展示目标文件。
可见,当设备开启了自动清理功能,且在有至少两个清理分数的情况下,可以按照第一公式计算综合分数,从而根据综合分数确定是否删除目标文件。
在此情况下,第一公式中的x的取值范围为:1≤x≤3。当x=3,且S1与类型序列对应,S2与路径序列对应,S3与分词序列对应时,S1>S3>S2。可见,S1、S3、S2实际上与类型序列、路径序列、分词序列分别对应,其对应关系以及具体取值可根据实际情况灵活调整。
任一序列中的任一排列位置对应的清理分数可以为:n-排列位置。例如:若排列位置为序列中的第2位,则清理分数为:n-2。可见,在类型序列、路径序列和分词序列中,排列位置越靠前,清理分数越大,越容易被删除。本实施例能够对当前设备中存在的任一个文件进行判断,从而确定其是否需要被删除。
可见,本实施例能够对用户所删除的已删文件进行信息统计,从而得到第一序列,若设备中的任一个当前存在的目标文件的文件信息在第一序列中出现,则表明当前存在的目标文件的文件信息与用户所删除的已删文件的文件信息重合,那么当前存在的目标文件极有可能也是用户想要删除的文件,因此确定当前存在的目标文件的文件信息在第一序列中的排列位置对应的清理分数,并根据清理分数确定是否删除目标文件。该方案能够统计并记录用户所删除文件的文件信息,并据此在设备中寻找与已删文件的文件信息相同的信息,从而确定设备中需要删除的文件,是基于用户删除文件的行为清理文件的方案,能够定位用户真正想要删除的文件并及时清理这些文件。所定位的需删除文件符合用户日常的清理习惯,很可能是用户真正想要删除的文件,可降低文件被误删的概率,减少了繁杂及长期的人工作业,极大地提高了运维效率。
基于上述实施例,需要说明的是,若从当前设备中的所有文件中一次性定位多个需要删除的文件,则在一种具体实施方式中,还包括:
利用扫描方式确定当前设备中存在的至少两个文件(如:当前设备中的所有文件);
按照文件大小和/或文件修改时间和/或文件修改次数分别排列至少两个文件,得到文件大小序列和/或修改时间序列和/或修改次数序列;
将至少两个文件中的任一个文件作为目标文件,并确定目标文件在文件大小序列和/或修改时间序列和/或修改次数序列中的排列位置对应的清理分数;
相应地,根据清理分数确定是否删除目标文件,包括:
若当前设备开启了自动清理功能,则在有至少两个清理分数的情况下,获取每个清理分数分别对应的清理权值;
按照第一公式计算综合分数;第一公式为:
Figure BDA0003184323360000091
其中,fs为综合分数,n为类型序列和/或路径序列和/或分词序列、和文件大小序列和/或修改时间序列和/或修改次数序列中的最大排列位置,x为清理分数的个数,a1......ax为x个清理分数,S1......Sx为各个清理分数分别对应的清理权值;
根据至少两个文件中的每个文件对应的综合分数确定是否删除各个文件。
其中,根据至少两个文件中的每个文件对应的综合分数确定是否删除各个文件,包括:记录至少两个文件中的每个文件对应的综合分数,并按照综合分数降序排列至少两个文件,得到待清理列表;若待清理列表中存在综合分数不小于第二阈值的文件,则删除待清理列表中综合分数不小于第二阈值的文件;若待清理列表中不存在综合分数不小于第二阈值的文件,则展示待清理列表,以便用户从中挑选需要删除的文件。
可见,从当前设备中的所有文件中一次性定位多个需要删除的文件时,不仅要考虑每个文件与已删文件的联系,还需考虑每个文件与当前设备中的所有文件的联系,因此不仅可以基于用户删除文件的行为清理文件,还可以考虑待清理文件在当前设备中是否真的可用。
其中,按照文件大小降序排列至少两个文件,以使较大文件排列在前,增加大文件被清理的概率,从而增加存储可用空间。按照文件修改时间从早到晚排列至少两个文件,以使修改时间最久的文件排列在前,增加修改时间最久的文件被清理的概率;文件的修改时间最久表明该文件长时间未使用。按照文件修改次数升序排列至少两个文件,以使文件修改次数少的文件排列在前,增加此类文件被清理的概率;文件的修改次数越少表明该文件使用频率低。
在此情况下,第一公式中的x的取值范围为:2≤x≤6。假设x=6,且S1与类型序列对应,S2与路径序列对应,S3与分词序列对应,S4与文件大小序列对应,S5与文件修改时间序列对应,S6与文件修改次数序列对应,那么S1>S3>S2,同时S4、S5、S6基于用户对存储空间的要求、对文件的可用性等预设和调整。可见,S1、S3、S2 S4、S5、S6实际上与类型序列、路径序列、分词序列、文件大小序列、修改时间序列、修改次数序列分别对应,其对应关系以及具体取值可根据实际情况灵活调整。
下面对本申请实施例提供的一种文件清理装置进行介绍,下文描述的一种文件清理装置与上文描述的一种文件清理方法可以相互参照。
参见图2所示,本申请实施例公开了第二方面,本申请提供了一种文件清理装置,包括:
记录模块201,用于实时记录用户所删除的已删文件的第一文件信息;
统计模块202,用于统计第一文件信息在所记录的所有已删文件中的出现次数,并按照出现次数的大小排列第一文件信息,得到第一序列;
获取模块203,用于若达到清理时间点,则获取当前设备中存在的任一个目标文件的第二文件信息;第一文件信息与第二文件信息的类别相同;
清理模块204,用于若第一序列中存在第二文件信息,则确定第二文件信息在第一序列中的排列位置对应的清理分数,并根据清理分数确定是否删除目标文件。
在一种具体实施方式中,统计模块,包括:
第一统计单元,用于若第一文件信息为文件类型,则统计各个文件类型在所记录的所有已删文件中的类型出现次数,并按照类型出现次数降序排列各个文件类型,得到类型序列;
第二统计单元,用于若第一文件信息为文件路径,则统计各个文件路径在所记录的所有已删文件中的路径出现次数,并按照路径出现次数降序排列各个文件路径,得到路径序列;
第三统计单元,用于若第一文件信息为文件名称的分词,则统计各个分词在所记录的所有已删文件中的分词出现次数,并按照分词出现次数降序排列各个分词,得到分词序列;
确定单元,用于将类型序列和/或路径序列和/或分词序列作为第一序列。
在一种具体实施方式中,清理模块具体用于:
若第二文件信息为文件类型,则确定目标文件的文件类型在类型序列中的排列位置对应的清理分数;
和/或
若第二文件信息为文件路径,则确定目标文件的文件路径在路径序列中的排列位置对应的清理分数;
和/或
若第二文件信息为文件名称的分词,则确定目标文件的文件名称的分词在分词序列中的排列位置对应的清理分数。
在一种具体实施方式中,清理模块具体用于:
若当前设备开启了自动清理功能,则在仅有一个清理分数的情况下,判断该清理分数是否不小于第一阈值;
若是,则自动删除目标文件;
若否,则展示目标文件。
在一种具体实施方式中,清理模块具体用于:
若当前设备开启了自动清理功能,则在有至少两个清理分数的情况下,获取每个清理分数分别对应的清理权值;
按照第一公式计算综合分数;第一公式为:
Figure BDA0003184323360000121
其中,fs为综合分数,n为类型序列和/或路径序列和/或分词序列中的最大排列位置,x为清理分数的个数,a1......ax为x个清理分数,S1......Sx为各个清理分数分别对应的清理权值;
判断综合分数是否不小于第二阈值;
若是,则自动删除目标文件;
若否,则展示目标文件。
在一种具体实施方式中,还包括:
扫描模块,用于利用扫描方式确定当前设备中存在的至少两个文件;
排列模块,用于按照文件大小和/或文件修改时间和/或文件修改次数分别排列至少两个文件,得到文件大小序列和/或修改时间序列和/或修改次数序列;
确定模块,用于将至少两个文件中的任一个文件作为目标文件,并确定目标文件在文件大小序列和/或修改时间序列和/或修改次数序列中的排列位置对应的清理分数;
相应地,清理模块具体用于:
若当前设备开启了自动清理功能,则在有至少两个清理分数的情况下,获取每个清理分数分别对应的清理权值;
按照第一公式计算综合分数;第一公式为:
Figure BDA0003184323360000122
其中,fs为综合分数,n为类型序列和/或路径序列和/或分词序列、和文件大小序列和/或修改时间序列和/或修改次数序列中的最大排列位置,x为清理分数的个数,a1......ax为x个清理分数,S1......Sx为各个清理分数分别对应的清理权值;
根据至少两个文件中的每个文件对应的综合分数确定是否删除各个文件。
在一种具体实施方式中,清理模块具体用于:
记录至少两个文件中的每个文件对应的综合分数,并按照综合分数降序排列至少两个文件,得到待清理列表;
若待清理列表中存在综合分数不小于第二阈值的文件,则删除待清理列表中综合分数不小于第二阈值的文件;
若待清理列表中不存在综合分数不小于第二阈值的文件,则展示待清理列表。
其中,关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本实施例提供了一种文件清理装置,该装置能够基于用户删除文件的行为定位用户真正想要删除的文件,符合用户的清理习惯,降低文件被误删的概率。
下面对本申请实施例提供的一种电子设备进行介绍,下文描述的一种电子设备与上文描述的一种文件清理方法及装置可以相互参照。
参见图3所示,本申请实施例公开了一种电子设备,包括:
存储器301,用于保存计算机程序;
处理器302,用于执行所述计算机程序,以实现上述任意实施例公开的方法。
下面对本申请实施例提供的一种可读存储介质进行介绍,下文描述的一种可读存储介质与上文描述的一种文件清理方法、装置及设备可以相互参照。
一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例公开的文件清理方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
若利用一个管理设备同时纳管多个设备,以对这些被纳管设备中的文件进行清理,那么首先设置一个管理端,在管理端设定行为监测、定时扫描、推荐计算、文件清理、参数配置等模块。
行为监测模块,用于监测任一个被管设备上的用户删除文件的行为,并记录用户所删文件的文件类型、文件名称、名称分词(文件名称经NLP分词后得到)、文件路径等。若不同被管设备的操作系统不同,按照基于操作系统类型分别进行监测,如:针对linux系统监测rm命令,针对windows系统监测delete或shift+delete。
定时扫描模块,用于定时扫描任一个被管设备上的现有文件(除系统关键目录之外的文件及目录,如:user目录等),并记录扫描到的文件的文件名称、名称分词、文件类型、文件大小、文件修改时间、文件修改次数等。
推荐计算模块,用于计算各个现有文件需要被清理的推荐值。
文件清理模块,用于按推荐计算模块计算出的推荐值进行排序,按照用户预设的阈值进行自动删除,若用户未开启自动删除功能,可执行手动删除。
参数配置模块,用于启停自动删除功能,自动删除功能的阈值、被管设备(如服务器)的个数和名称。推荐计算模块中涉及的各个权值、排列位置最大值等。这些参数用户均可以自由修改。
请参见图4,具体实施过程如下:
(1)启动参数配置模块,以配置服务器个数及服务器名称,生成以服务器名称命名的相应个数的数据库表。
(2)配置排序最大值n,定时扫描时间间隔t,已删除文件类型权值S1,已删除文件路径权值S2,已删除文件名称分词权值S3,现有文件大小权值S4,现有文件修改时间权值S5,现有文件修改次数权值S6,自动删除阈值δ。
(3)启动行为监测模块,监测用户的删除文件行为,例:linux监测rm命令,windows监测delete和shift+delete等。
其中,记录被删除文件的文件类型、文件名称、文件路径以及经过NLP分词后的文件名称分词,以服务器为单位记录到数据库表中。若文件名称为中文,则启动中文分词引擎(例:Ansj)进行分词,若文件名称为英文,则启动英文分词引擎(例:NLTK)进行分词。将得到的各个分词存入到数据库中,重复分词只记录一次,但同时记录重复次数。
(4)启动定时扫描模块。
以时间t为单位,扫描服务器中除系统关键目录之外的所有文件目录及文件,记录文件名称、名称分词、文件类型、文件大小、文件修改时间、文件修改次数,以服务器为单位记录到数据库表中。扫描到的文件的名称分词以文件为基准对应记录,即:一个文件对应记录一组分词。不同文件若有重复的分词,则都分别记录。
(5)启动推荐计算模块。
针对任一个服务器对应的数据库表,将其中的已删除文件的文件类型按照出现次数从多到少进行排序,将其中的已删除文件的文件路径按照出现次数从多到少进行排序,将所有已删文件的名称分词按照重复次数从多到少进行排序,可得到3个已删文件对应的序列。排序从1开始进行编号。
扫描当前数据库表对应的服务器,得到该服务器中的所有现有文件,将这些文件按照文件大小由大到小排序,按照修改时间从最早的时间开始排序,,按照修改次数从最小的开始排序,可得到3个现有文件对应的序列。排序从1开始进行编号。
至此可得到6个序列,针对该服务器中的任一个现有文件,判断该现有文件的文件类型、文件路径、名称分词是否出现在已删文件对应的任一个序列中,若有出现,则确定排列位置和相应推荐分数;若未出现,则判断下一个现有文件。
假设某一现有文件出现在已删文件对应的3个序列中,且在文件类型序列中排列位置为b,那么相应推荐分数为n-b;在文件路径序列中排列位置为c,那么相应推荐分数为n-c;在分词序列中排列位置为d,那么相应推荐分数为n-d。同时,该现有文件在文件大小序列中排列位置为e,那么相应推荐分数为n-e;在修改时间序列中排列位置为f,那么相应推荐分数为n-f;在修改次数序列中排列位置为j,那么相应推荐分数为n-j。
设总推荐分数为fs,则基于权值S1、S2、S3、S4、S5、S6相应调整推荐分数,则有:S1*(n-b),S2*(n-c),S3*(n-d),S4*(n-e),S5*(n-f),S6*(n-j),那么该现有文件的总推荐分数为:
Figure BDA0003184323360000151
将fs以及相应文件的名称记录到推荐分数表中。若再次扫描时,fs发生变化,则记录最新的值。
(6)启动文件清理模块。
若fs≥δ,且启用了自动删除功能,则删除文件;若fs<δ,则展示推荐列表,按fs从大到小进行排序,可多选删除。
(7)清理推荐列表随推荐计算结果实时更新。
(8)若启动了自动删除功能,则不同服务器的文件可根据⑧自动删除,若未启用,则用户可选择查看不同服务器的文件推荐列表,选择文件进行删除。
可见,本实施例用一个管理端可以同时清理多个设备上的文件,且基于用户删除文件的行为进行清理,使得每台服务器所自动清理的文件都符合用户的清理习惯。基于NLP解析的文件名称分词,提高了推荐计算的准确性。定时扫描和自动清理,用户无需手动操作即可完成服务器文件碎片的清理,文件清理不再单纯的依赖人工维护,减少了繁杂及长期的人工作业,极大地提高了运维效率。同时针对不同服务器提供单独的推荐列表,使得差异化处理更加方便快捷。
本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种文件清理方法,其特征在于,包括:
实时记录用户所删除的已删文件的第一文件信息;
统计所述第一文件信息在所记录的所有已删文件中的出现次数,并按照所述出现次数的大小排列所述第一文件信息,得到第一序列;
若达到清理时间点,则获取当前设备中存在的任一个目标文件的第二文件信息;所述第一文件信息与所述第二文件信息的类别相同;
若所述第一序列中存在所述第二文件信息,则确定所述第二文件信息在所述第一序列中的排列位置对应的清理分数,并根据所述清理分数确定是否删除所述目标文件。
2.根据权利要求1所述的文件清理方法,其特征在于,所述统计所述第一文件信息在所记录的所有已删文件中的出现次数,并按照所述出现次数的大小排列所述第一文件信息,得到第一序列,包括:
若所述第一文件信息为文件类型,则统计各个文件类型在所记录的所有已删文件中的类型出现次数,并按照所述类型出现次数降序排列各个文件类型,得到类型序列;
若所述第一文件信息为文件路径,则统计各个文件路径在所记录的所有已删文件中的路径出现次数,并按照所述路径出现次数降序排列各个文件路径,得到路径序列;
若所述第一文件信息为文件名称的分词,则统计各个分词在所记录的所有已删文件中的分词出现次数,并按照所述分词出现次数降序排列各个分词,得到分词序列;
将所述类型序列和/或所述路径序列和/或所述分词序列作为所述第一序列。
3.根据权利要求2所述的文件清理方法,其特征在于,所述若所述第一序列中存在所述第二文件信息,则确定所述第二文件信息在所述第一序列中的排列位置对应的清理分数,包括:
若所述第二文件信息为文件类型,则确定所述目标文件的文件类型在所述类型序列中的排列位置对应的清理分数;
若所述第二文件信息为文件路径,则确定所述目标文件的文件路径在所述路径序列中的排列位置对应的清理分数;
若所述第二文件信息为文件名称的分词,则确定所述目标文件的文件名称的分词在所述分词序列中的排列位置对应的清理分数。
4.根据权利要求3所述的文件清理方法,其特征在于,所述根据所述清理分数确定是否删除所述目标文件,包括:
若当前设备开启了自动清理功能,则在仅有一个清理分数的情况下,判断该清理分数是否不小于第一阈值;
若是,则自动删除所述目标文件;
若否,则展示所述目标文件。
5.根据权利要求3所述的文件清理方法,其特征在于,所述根据所述清理分数确定是否删除所述目标文件,包括:
若当前设备开启了自动清理功能,则在有至少两个清理分数的情况下,获取每个清理分数分别对应的清理权值;
按照第一公式计算综合分数;所述第一公式为:
Figure FDA0003184323350000021
其中,fs为综合分数,n为所述类型序列和/或所述路径序列和/或所述分词序列中的最大排列位置,x为清理分数的个数,a1......ax为x个清理分数,S1......Sx为各个清理分数分别对应的清理权值;
判断所述综合分数是否不小于第二阈值;
若是,则自动删除所述目标文件;
若否,则展示所述目标文件。
6.根据权利要求3所述的文件清理方法,其特征在于,还包括:
利用扫描方式确定当前设备中存在的至少两个文件;
按照文件大小和/或文件修改时间和/或文件修改次数分别排列所述至少两个文件,得到文件大小序列和/或修改时间序列和/或修改次数序列;
将所述至少两个文件中的任一个文件作为所述目标文件,并确定所述目标文件在所述文件大小序列和/或所述修改时间序列和/或所述修改次数序列中的排列位置对应的清理分数;
相应地,所述根据所述清理分数确定是否删除所述目标文件,包括:
若当前设备开启了自动清理功能,则在有至少两个清理分数的情况下,获取每个清理分数分别对应的清理权值;
按照第一公式计算综合分数;所述第一公式为:
Figure FDA0003184323350000031
其中,fs为综合分数,n为所述类型序列和/或所述路径序列和/或所述分词序列、和所述文件大小序列和/或所述修改时间序列和/或所述修改次数序列中的最大排列位置,x为清理分数的个数,a1......ax为x个清理分数,S1......Sx为各个清理分数分别对应的清理权值;
根据所述至少两个文件中的每个文件对应的综合分数确定是否删除各个文件。
7.根据权利要求6所述的文件清理方法,其特征在于,所述根据所述至少两个文件中的每个文件对应的综合分数确定是否删除各个文件,包括:
记录所述至少两个文件中的每个文件对应的综合分数,并按照所述综合分数降序排列所述至少两个文件,得到待清理列表;
若所述待清理列表中存在综合分数不小于第二阈值的文件,则删除所述待清理列表中综合分数不小于第二阈值的文件;
若所述待清理列表中不存在综合分数不小于第二阈值的文件,则展示所述待清理列表。
8.一种文件清理装置,其特征在于,包括:
记录模块,用于实时记录用户所删除的已删文件的第一文件信息;
统计模块,用于统计所述第一文件信息在所记录的所有已删文件中的出现次数,并按照所述出现次数的大小排列所述第一文件信息,得到第一序列;
获取模块,用于若达到清理时间点,则获取当前设备中存在的任一个目标文件的第二文件信息;所述第一文件信息与所述第二文件信息的类别相同;
清理模块,用于若所述第一序列中存在所述第二文件信息,则确定所述第二文件信息在所述第一序列中的排列位置对应的清理分数,并根据所述清理分数确定是否删除所述目标文件。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的文件清理方法。
10.一种可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的文件清理方法。
CN202110856472.7A 2021-07-28 2021-07-28 一种文件清理方法、装置、设备及可读存储介质 Pending CN113688104A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110856472.7A CN113688104A (zh) 2021-07-28 2021-07-28 一种文件清理方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110856472.7A CN113688104A (zh) 2021-07-28 2021-07-28 一种文件清理方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113688104A true CN113688104A (zh) 2021-11-23

Family

ID=78578081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110856472.7A Pending CN113688104A (zh) 2021-07-28 2021-07-28 一种文件清理方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113688104A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023087857A1 (zh) * 2021-11-22 2023-05-25 中兴通讯股份有限公司 一种电子设备的控制方法、电子设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023087857A1 (zh) * 2021-11-22 2023-05-25 中兴通讯股份有限公司 一种电子设备的控制方法、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
EP2289007B1 (en) Search results ranking using editing distance and document information
US7103610B2 (en) Method, system and computer product for integrating case based reasoning data and failure modes, effects and corrective action data
US7634741B2 (en) Method and apparatus for managing a selection list based on previous entries
JP6919569B2 (ja) ログ分析システム、方法、及び記録媒体
EP0413485A2 (en) Performance improvement tool for rule based expert systems
US9946715B1 (en) Document processing system and method
CN110874530A (zh) 关键词提取方法、装置、终端设备及存储介质
CN106294206B (zh) 一种缓存数据处理方法以及装置
CN111026621B (zh) 面向Elasticsearch集群的监控报警方法、装置、设备、介质
JP2017091113A (ja) イベント解析装置、イベント解析システム、イベント解析方法、およびイベント解析プログラム
JP2008186157A (ja) Webページ再収集方式
CN113688104A (zh) 一种文件清理方法、装置、设备及可读存储介质
CN111352698A (zh) 一种jvm参数的调整方法及装置
US9152705B2 (en) Automatic taxonomy merge
US20090157670A1 (en) Contents-retrieving apparatus and method
EP2354971A1 (en) Document analysis system
CN107590233B (zh) 一种文件管理方法及装置
CN110688846A (zh) 周期词挖掘方法、系统、电子设备及可读存储介质
JP2009080559A (ja) 検索システム、方法およびプログラム
EP0364179A2 (en) Method and apparatus for extracting keywords from text
CN112836124A (zh) 一种画像数据获取方法、装置、电子设备及存储介质
US6938219B2 (en) Method and system for displaying actions and historical content in an output view
CN108170664B (zh) 基于重点关键词的关键词拓展方法和装置
CN110333968B (zh) 应用于数据库的数据管理方法、装置及计算机设备
CN110633430B (zh) 事件发现方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination