CN115374065A - 一种基于云平台日志记录监控的文件清理方法及系统 - Google Patents

一种基于云平台日志记录监控的文件清理方法及系统 Download PDF

Info

Publication number
CN115374065A
CN115374065A CN202211306090.8A CN202211306090A CN115374065A CN 115374065 A CN115374065 A CN 115374065A CN 202211306090 A CN202211306090 A CN 202211306090A CN 115374065 A CN115374065 A CN 115374065A
Authority
CN
China
Prior art keywords
file
state
access time
cleaned
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211306090.8A
Other languages
English (en)
Other versions
CN115374065B (zh
Inventor
王涛
杨斌
姜维豪
张守恒
单世伟
夏波
吴岩松
陈璞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jerei Digital Technology Co Ltd
Original Assignee
Shandong Jerei Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jerei Digital Technology Co Ltd filed Critical Shandong Jerei Digital Technology Co Ltd
Priority to CN202211306090.8A priority Critical patent/CN115374065B/zh
Publication of CN115374065A publication Critical patent/CN115374065A/zh
Application granted granted Critical
Publication of CN115374065B publication Critical patent/CN115374065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于云平台日志记录监控的文件清理方法及系统,涉及文件清理领域,该方法包括通过云平台确定服务器中待监控清理的目标项目;云平台与服务器通过网络进行通信连接;按照所述目标项目的文件目录创建各文件索引;通过对所述目标项目中各文件进行监听,采用日志对各文件的索引、创建时间和访问时间进行记录,获得日志记录信息;确定所述目标项目的监测指标;所述监测指标包括监测周期;根据所述监测周期对所述日志记录信息进行遍历,通过所述日志记录信息中各文件的访问时间和创建时间确定待清理文件;对所述待清理文件进行清理。本发明提高了文件清理的效率和准确性。

Description

一种基于云平台日志记录监控的文件清理方法及系统
技术领域
本发明涉及文件清理技术领域,特别是涉及一种基于云平台日志记录监控的文件清理方法及系统。
背景技术
在网站运营和建设过程中,经常会对网站的栏目、页面以及内容进行修改或者更新,在这个过程中会有一些文件继续使用,而有一些文件则不再需要使用。时间一久,便会在网站中产生大量的冗余文件,那么对于网站的维护管理便会增加相应的成本,同时这些文件还会增加网站所在服务器的容量空间压力,给网站所在服务器内容的管理带来比较大的困难和麻烦。
目前对于垃圾文件的清理,大多数情况下,主要依靠网站运营的技术人员来进行手动处理,这样由于对网站掌握熟悉程度的差异,处理的效率和效果也可能存在较大差距。由此可发现,通过手动处理的方式,依旧会产生大量的冗余历史文件,且需要花费较多的人力和时间。所以需要通过一种自动化处理的方式,对历史文件进行自动处理。
发明内容
本发明的目的是提供一种基于云平台日志记录监控的文件清理方法及系统,提高了文件清理的效率和准确性。
为实现上述目的,本发明提供了如下方案:
一种基于云平台日志记录监控的文件清理方法,包括:
通过云平台确定服务器中待监控清理的目标项目;所述云平台与所述服务器通过网络进行通信连接;
按照所述目标项目的文件目录创建各文件索引;
通过对所述目标项目中各文件进行监听,采用日志对各文件的索引、创建时间和访问时间进行记录,获得日志记录信息;
确定所述目标项目的监测指标;所述监测指标包括监测周期;
根据所述监测周期对所述日志记录信息进行遍历,通过所述日志记录信息中各文件的访问时间和创建时间确定待清理文件;
对所述待清理文件进行清理。
可选地,所述确定所述目标项目的监测指标,具体包括:
对所述目标项目的日志记录信息进行设定周期的观察,遍历所述目标项目中所有文件,若所述日志记录信息中文件存在一次访问时间,则将访问时间与创建时间相减作为文件的访问时间间隔周期,若所述日志记录信息中文件存在两次以上的访问时间,则将最后一次访问时间与上一次访问时间相减作为文件的访问时间间隔周期;
将所述目标项目中文件的访问时间间隔周期从大到小进行排序,并将排序后的访问时间间隔周期三等分为第一区间、第二区间和第三区间,将所述第一区间中访问时间间隔周期的平均值作为最大值M,将所述第二区间中访问时间间隔周期的平均值作为扫描周期A,将所述第三区间中访问时间间隔周期的平均值作为最小值S。
可选地,所述根据所述监测周期对所述日志记录信息进行遍历,通过所述日志记录信息中各文件的访问时间和创建时间确定待清理文件,具体包括:
按照扫描周期A根据文件索引对目标项目中的各文件的日志记录信息进行遍历,确定各文件的状态;所述文件的状态包括正常状态、待复审状态、待跟踪状态、待清理状态和已清理状态;
在每次遍历时:
当文件存在两次以上访问时间时,若文件的第t次访问时间与第t-1次访问时间的差值小于或等于最小值S,则文件为正常状态;若文件的第t次访问时间与第t-1次访问时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若文件的第t次访问时间与第t-1次访问时间的差值大于或等于最大值M,则文件状态为待复审状态;
当文件存在一次访问时间时,若文件的访问时间与创建时间的差值小于或等于最小值S,则文件为正常状态;若文件的访问时间与创建时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若文件的访问时间与创建时间的差值大于或等于最大值M,则文件状态为待复审状态;
当文件不存在访问时间时,若当前时间与文件的创建时间的差值小于或等于最小值S,则文件为正常状态;若当前时间与文件的创建时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若当前时间与文件的创建时间的差值大于或等于最大值M,则文件状态为待复审状态;
对于状态为待复审状态的文件,判断是否存在连续三个扫描周期A均为待复审状态,若是则将待复审状态更改为待清理状态;
若对待清理状态的文件进行了清理,则将清理后的文件状态更改为已清理状态。
可选地,所述按照所述目标项目的文件目录创建各文件索引,具体包括:
将所述目标项目最外侧目录作为根目录,采用最小二叉树原则方式对所述根目录下各层目录进行检索,直到当前目录不存在子目录的情况,对检索到的目录创建索引;
对记录的目录下的所有非目录文件进行检索,并为各非目录文件创建索引。
可选地,所述对所述待清理文件进行清理之前,还包括:
遍历待清理状态的文件,获取各文件的目录信息,在设定备份存储空间下,对待清理状态的文件进行对应相同目录信息的备份。
本发明还公开了一种基于云平台日志记录监控的文件清理系统,包括:
目标项目确定模块,用于通过云平台确定服务器中待监控清理的目标项目;所述云平台与所述服务器通过网络进行通信连接;
文件索引创建模块,用于按照所述目标项目的文件目录创建各文件索引;
日志记录信息确定模块,用于通过对所述目标项目中各文件进行监听,采用日志对各文件的索引、创建时间和访问时间进行记录,获得日志记录信息;
监测指标确定模块,用于确定所述目标项目的监测指标;所述监测指标包括监测周期;
待清理文件确定模块,用于根据所述监测周期对所述日志记录信息进行遍历,通过所述日志记录信息中各文件的访问时间和创建时间确定待清理文件;
待清理文件清理模块,用于对所述待清理文件进行清理。
可选地,所述监测指标确定模块,具体包括:
各文件访问时间间隔周期确定单元,用于对所述目标项目的日志记录信息进行设定周期的观察,遍历所述目标项目中所有文件,若所述日志记录信息中文件存在一次访问时间,则将访问时间与创建时间相减作为文件的访问时间间隔周期,若所述日志记录信息中文件存在两次以上的访问时间,则将最后一次访问时间与上一次访问时间相减作为文件的访问时间间隔周期;
监测指标确定单元,用于将所述目标项目中文件的访问时间间隔周期从大到小进行排序,并将排序后的访问时间间隔周期三等分为第一区间、第二区间和第三区间,将所述第一区间中访问时间间隔周期的平均值作为最大值M,将所述第二区间中访问时间间隔周期的平均值作为扫描周期A,将所述第三区间中访问时间间隔周期的平均值作为最小值S。
可选地,所述待清理文件确定模块,具体包括:
待清理文件确定单元,用于按照扫描周期A根据文件索引对目标项目中的各文件的日志记录信息进行遍历,确定各文件的状态;所述文件的状态包括正常状态、待复审状态、待跟踪状态、待清理状态和已清理状态;
在每次遍历时:
当文件存在两次以上访问时间时,若文件的第t次访问时间与第t-1次访问时间的差值小于或等于最小值S,则文件为正常状态;若文件的第t次访问时间与第t-1次访问时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若文件的第t次访问时间与第t-1次访问时间的差值大于或等于最大值M,则文件状态为待复审状态;
当文件存在一次访问时间时,若文件的访问时间与创建时间的差值小于或等于最小值S,则文件为正常状态;若文件的访问时间与创建时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若文件的访问时间与创建时间的差值大于或等于最大值M,则文件状态为待复审状态;
当文件不存在访问时间时,若当前时间与文件的创建时间的差值小于或等于最小值S,则文件为正常状态;若当前时间与文件的创建时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若当前时间与文件的创建时间的差值大于或等于最大值M,则文件状态为待复审状态;
对于状态为待复审状态的文件,判断是否存在连续三个扫描周期A均为待复审状态,若是则将待复审状态更改为待清理状态;
若对待清理状态的文件进行了清理,则将清理后的文件状态更改为已清理状态。
可选地,所述文件索引创建模块,具体包括:
目录索引创建单元,用于将所述目标项目最外侧目录作为根目录,采用最小二叉树原则方式对所述根目录下各层目录进行检索,直到当前目录不存在子目录的情况,对检索到的目录创建索引;
文件索引创建单元,用于对记录的目录下的所有非目录文件进行检索,并为各非目录文件创建索引。
可选地,还包括:
文件备份模块,用于遍历待清理状态的文件,获取各文件的目录信息,在设定备份存储空间下,对待清理状态的文件进行对应相同目录信息的备份。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种基于云平台日志记录监控的文件清理方法及系统,通过对目标网站中各文件进行监听,并对文件的创建时间和访问时间基于文件索引进行日志记录,根据日志记录信息中,各文件的访问时间和创建时间判断出待清理文件并进行清理,实现了历史冗余文件的自动化清理,降低了人工清理存在的不可控性和差异性,保证了网站项目的简洁性,提高了文件清理的效率和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于云平台日志记录监控的文件清理方法流程示意图;
图2为本发明一种基于云平台日志记录监控的文件清理系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于云平台日志记录监控的文件清理方法及系统,提高了文件清理的效率和准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
对于服务器中程序文件,若长时间不被调用,则将该程序文件视为冗余文件,冗余文件的增多会占用服务器的容量空间,影响服务器的利用率,因此冗余文件的清理十分必要。
另外,服务器的程序文件经常需要升级,在升级过程中,采用增量升级方式对原程序文件进行覆盖,在升级完成后,程序涉及到需要使用的文件会发生改变,也会产生一批不再使用的程序文件,这些文件量很大且分布错杂,难以逐一查找清理。
对于上述两种情况,本发明提供了一种基于云平台日志记录监控的文件清理方法及系统。
图1为本发明一种基于云平台日志记录监控的文件清理方法流程示意图,如图1所示,一种基于云平台日志记录监控的文件清理方法,包括:
步骤101:通过云平台确定服务器中待监控清理的目标项目;所述云平台与所述服务器通过网络进行通信连接。
云平台与服务器具体通过有线通信连接,通过云平台监控多台服务器。
步骤102:按照所述目标项目的文件目录创建各文件索引。
创建文件索引:针对目标网站目录中的所有文件详细信息、名称、类型、所属目录、创建时间、最后修改时间、最后访问时间(请求时间)、上次审核时间、文件状态进行记录,并为各文件分配唯一标识ID,文件索引主要是为了方便后续文件的查找。
目标项目进入监测周期后,会自动进行分析并对目录中的文件创建索引;通过索引模块系统为每个文件创建索引,针对目录中的所有文件详细信息,名称、类型、所属目录、创建时间、最后修改时间、最后请求时间、上次审核时间和文件状态进行记录,并为其分配唯一标示ID,文件索引主要是为了方便后续文件的查找。
为所有文件及目录创建索引,需要创建文件索引的类型分为目录索引和文件索引两种。
其中,步骤102具体包括:
将所述目标项目最外侧目录作为根目录,采用最小二叉树原则方式对所述根目录下各层目录进行检索,直到当前目录不存在子目录的情况,对检索到的目录创建索引;
对记录的目录下的所有非目录文件进行检索,并为各非目录文件创建索引。
需要说明的是,在创建记录的过程中,索引的名称、类型、所属目录、创建时间、最后修改时间、最后访问时间、状态都需要记录,当创建的同时,也为该索引分配一个唯一ID,并将该ID加入到文件属性中。此外,在创建索引时,通过读取文件ID判别,如果文件为首次创建索引则直接创建出相对应的索引,如果文件索引已经存在,则直接在索引出对该ID文件相关信息进行修改。
步骤103:通过对所述目标项目中各文件进行监听,采用日志对各文件的索引、创建时间和访问时间进行记录,获得日志记录信息。
以日志的形式对目标项目的文件资源进行监控,同时获取并解析目标文件请求使用过程中,所记录的日志信息。
监听过程中,每当有用户浏览或使用网站时,会触发监听,此时通过日志记录用户浏览或使用网站过程中,对目标网站网页及网页中包含的相关文件中每个文件单独进行一次日志记录,记录访问的文件ID、文件名称以及访问时间。
步骤104:确定所述目标项目的监测指标;所述监测指标包括监测周期。
由于对于文件的使用情况,在目标项目中该资源的请求使用情况能够反应出目前该文件的一个真实状态,当目标项目中某个页面被访问时,页面中的所有相关资源的请求都会被做一条记录。因此,预先安装部署的nginx服务,nginx会对所有类型文件的监听,当资源被请求时,会首先经过nginx,并对该条访问的时间、文件名和目录进行记录。
在完成预先定义的观察周期后,确定出目标项目的文件清理策略所需的关键监测指标值。
其中,步骤104具体包括:
对所述目标项目的日志记录信息进行设定周期的观察,遍历所述目标项目中所有文件,观察阶段完成后,索引单元读取日志单元中所有由nginx产生的日志,索引单元将所有日志按照时间正序依次与该任务的所有文件索引依次做对比。对比过程中索引单元将按照目录和文件名作为对比依据,若完全相同,则将该文件索引的最后访问时间更新为日志记录时间。所有日志对比完成后,索引单元可得到所有文件索引的最后访问时间。
若所述日志记录信息中文件存在一次访问时间,则将访问时间与创建时间相减作为文件的访问时间间隔周期,若所述日志记录信息中文件存在两次以上的访问时间,则将最后一次访问时间与上一次访问时间相减作为文件的访问时间间隔周期;
将所述目标项目中文件的访问时间间隔周期从大到小进行排序,并将排序后的访问时间间隔周期三等分为第一区间、第二区间和第三区间,将所述第一区间中访问时间间隔周期的平均值作为最大值M,将所述第二区间中访问时间间隔周期的平均值作为扫描周期A,将所述第三区间中访问时间间隔周期的平均值作为最小值S。
步骤105:根据所述监测周期对所述日志记录信息进行遍历,通过所述日志记录信息中各文件的访问时间和创建时间确定待清理文件。
当目标项目和监测指标确定之后,自动进入监测状态。
其中,步骤105具体包括:
按照扫描周期A根据文件索引对目标项目中的各文件的日志记录信息进行遍历,确定各文件的状态;所述文件的状态包括正常状态、待复审状态、待跟踪状态、待清理状态和已清理状态。
对目标项目中的各文件进行的日志记录信息进行遍历时对各文件状态进行审核,审核包括初审和复审。
正常状态,文件仍在正常使用,下个遍历周期不需要审核,新创建的文件默认状态为正常。
待复审状态,文件已长时间没有使用,需要进行复审。
待跟踪状态,该文件目前正常使用,存在冗余可能,下个遍历周期需要审核。
待清理状态,该文件已确定为冗余文件,需要被清理。
已清理状态,该文件已确定为冗余文件,且已经被清理。
在每次遍历时:
初审包括:当文件存在两次以上访问时间时,若文件的第t次访问时间与第t-1次访问时间的差值小于或等于最小值S,则文件为正常状态;若文件的第t次访问时间与第t-1次访问时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若文件的第t次访问时间与第t-1次访问时间的差值大于或等于最大值M,则文件状态为待复审状态;
当文件存在一次访问时间时,若文件的访问时间与创建时间的差值小于或等于最小值S,则文件为正常状态;若文件的访问时间与创建时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若文件的访问时间与创建时间的差值大于或等于最大值M,则文件状态为待复审状态;
当文件不存在访问时间时,若当前时间与文件的创建时间的差值小于或等于最小值S,则文件为正常状态;若当前时间与文件的创建时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若当前时间与文件的创建时间的差值大于或等于最大值M,则文件状态为待复审状态。
复审包括:对待复审的文件进行再次审核,根据索引文件ID查询其详细请求日志记录明细,对于状态为待复审状态的文件,判断是否存在连续三个扫描周期A均为待复审状态,若是则将待复审状态更改为待清理状态,若否,则将待复审状态修改为待跟踪状态。
所述日志记录信息中每条日志记录均包括文件索引、文件名和访问时间。
步骤106:对所述待清理文件进行清理。
对待清理状态的文件进行清理。若对待清理状态的文件进行了清理,则将清理后的文件状态更改为已清理状态。
其中,步骤106之前,还包括:
遍历待清理状态的文件,获取各文件的目录信息,在设定备份存储空间下,对待清理状态的文件进行对应相同目录信息的备份,若需要备份的文件目录不存在则,则直接在备份存储空间下创建该目录,创建后将文件进行复制备份。复制备份完成后,首先对文件进行清理删除操作,清理删除操作完成后,对文件索引的状态该为已清理。文件清理完成后,因为目录与文件是成包含关系,当类型为目录的文件索引需要清理,当该目录需要清理时,在备份存储空间下,必然已存在该目录,所以对索引类型为目录性质的文件进行清理时,可直接进行清理,无需备份。
本发明采用了一种文件索引方式,在对文件进行查找及相关处理时,更加的方便高效。本发明采用了一种对于文件状态的识别方法,通过该方法能够判别出文件状态,找出冗余的历史文件。本发明使用了一种索引备份清理的策略,在清理冗余文件的同时,进行自动对应备份,保障特殊情况下需要恢复文件时,方便找到对应文件。
图2为本发明一种基于云平台日志记录监控的文件清理系统结构示意图,如图2所示,一种基于云平台日志记录监控的文件清理系统,包括:
目标项目确定模块201,用于通过云平台确定服务器中待监控清理的目标项目;所述云平台与所述服务器通过网络进行通信连接;
文件索引创建模块202,用于按照所述目标项目的文件目录创建各文件索引;
日志记录信息确定模块203,用于通过对所述目标项目中各文件进行监听,采用日志对各文件的索引、创建时间和访问时间进行记录,获得日志记录信息;
监测指标确定模块204,用于确定所述目标项目的监测指标;所述监测指标包括监测周期;
待清理文件确定模块205,用于根据所述监测周期对所述日志记录信息进行遍历,通过所述日志记录信息中各文件的访问时间和创建时间确定待清理文件;
待清理文件清理模块206,用于对所述待清理文件进行清理。
所述监测指标确定模块204,具体包括:
各文件访问时间间隔周期确定单元,用于对所述目标项目的日志记录信息进行设定周期的观察,遍历所述目标项目中所有文件,若所述日志记录信息中文件存在一次访问时间,则将访问时间与创建时间相减作为文件的访问时间间隔周期,若所述日志记录信息中文件存在两次以上的访问时间,则将最后一次访问时间与上一次访问时间相减作为文件的访问时间间隔周期;
监测指标确定单元,用于将所述目标项目中文件的访问时间间隔周期从大到小进行排序,并将排序后的访问时间间隔周期三等分为第一区间、第二区间和第三区间,将所述第一区间中访问时间间隔周期的平均值作为最大值M,将所述第二区间中访问时间间隔周期的平均值作为扫描周期A,将所述第三区间中访问时间间隔周期的平均值作为最小值S。
所述待清理文件确定模块205,具体包括:
待清理文件确定单元,用于按照扫描周期A根据文件索引对目标项目中的各文件的日志记录信息进行遍历,确定各文件的状态;所述文件的状态包括正常状态、待复审状态、待跟踪状态、待清理状态和已清理状态;
在每次遍历时:
当文件存在两次以上访问时间时,若文件的第t次访问时间与第t-1次访问时间的差值小于或等于最小值S,则文件为正常状态;若文件的第t次访问时间与第t-1次访问时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若文件的第t次访问时间与第t-1次访问时间的差值大于或等于最大值M,则文件状态为待复审状态;
当文件存在一次访问时间时,若文件的访问时间与创建时间的差值小于或等于最小值S,则文件为正常状态;若文件的访问时间与创建时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若文件的访问时间与创建时间的差值大于或等于最大值M,则文件状态为待复审状态;
当文件不存在访问时间时,若当前时间与文件的创建时间的差值小于或等于最小值S,则文件为正常状态;若当前时间与文件的创建时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若当前时间与文件的创建时间的差值大于或等于最大值M,则文件状态为待复审状态;
对于状态为待复审状态的文件,判断是否存在连续三个扫描周期A均为待复审状态,若是则将待复审状态更改为待清理状态;
若对待清理状态的文件进行了清理,则将清理后的文件状态更改为已清理状态。
所述文件索引创建模块202,具体包括:
目录索引创建单元,用于将所述目标项目最外侧目录作为根目录,采用最小二叉树原则方式对所述根目录下各层目录进行检索,直到当前目录不存在子目录的情况,对检索到的目录创建索引;
文件索引创建单元,用于对记录的目录下的所有非目录文件进行检索,并为各非目录文件创建索引。
所述日志记录信息中每条日志记录均包括文件索引、文件名和访问时间。
一种基于云平台日志记录监控的文件清理系统,还包括:文件备份模块,用于遍历待清理状态的文件,获取各文件的目录信息,在设定备份存储空间下,对待清理状态的文件进行对应相同目录信息的备份,当备份完成后对原文件进行清理。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于云平台日志记录监控的文件清理方法,其特征在于,包括:
通过云平台确定服务器中待监控清理的目标项目;所述云平台与所述服务器通过网络进行通信连接;
按照所述目标项目的文件目录创建各文件索引;
通过对所述目标项目中各文件进行监听,采用日志对各文件的索引、创建时间和访问时间进行记录,获得日志记录信息;
确定所述目标项目的监测指标;所述监测指标包括监测周期;
根据所述监测周期对所述日志记录信息进行遍历,通过所述日志记录信息中各文件的访问时间和创建时间确定待清理文件;
对所述待清理文件进行清理。
2.根据权利要求1所述的基于云平台日志记录监控的文件清理方法,其特征在于,所述确定所述目标项目的监测指标,具体包括:
对所述目标项目的日志记录信息进行设定周期的观察,遍历所述目标项目中所有文件,若所述日志记录信息中文件存在一次访问时间,则将访问时间与创建时间相减作为文件的访问时间间隔周期,若所述日志记录信息中文件存在两次以上的访问时间,则将最后一次访问时间与上一次访问时间相减作为文件的访问时间间隔周期;
将所述目标项目中文件的访问时间间隔周期从大到小进行排序,并将排序后的访问时间间隔周期三等分为第一区间、第二区间和第三区间,将所述第一区间中访问时间间隔周期的平均值作为最大值M,将所述第二区间中访问时间间隔周期的平均值作为扫描周期A,将所述第三区间中访问时间间隔周期的平均值作为最小值S。
3.根据权利要求2所述的基于云平台日志记录监控的文件清理方法,其特征在于,所述根据所述监测周期对所述日志记录信息进行遍历,通过所述日志记录信息中各文件的访问时间和创建时间确定待清理文件,具体包括:
按照扫描周期A根据文件索引对目标项目中的各文件的日志记录信息进行遍历,确定各文件的状态;所述文件的状态包括正常状态、待复审状态、待跟踪状态、待清理状态和已清理状态;
在每次遍历时:
当文件存在两次以上访问时间时,若文件的第t次访问时间与第t-1次访问时间的差值小于或等于最小值S,则文件为正常状态;若文件的第t次访问时间与第t-1次访问时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若文件的第t次访问时间与第t-1次访问时间的差值大于或等于最大值M,则文件状态为待复审状态;
当文件存在一次访问时间时,若文件的访问时间与创建时间的差值小于或等于最小值S,则文件为正常状态;若文件的访问时间与创建时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若文件的访问时间与创建时间的差值大于或等于最大值M,则文件状态为待复审状态;
当文件不存在访问时间时,若当前时间与文件的创建时间的差值小于或等于最小值S,则文件为正常状态;若当前时间与文件的创建时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若当前时间与文件的创建时间的差值大于或等于最大值M,则文件状态为待复审状态;
对于状态为待复审状态的文件,判断是否存在连续三个扫描周期A均为待复审状态,若是则将待复审状态更改为待清理状态;
若对待清理状态的文件进行了清理,则将清理后的文件状态更改为已清理状态。
4.根据权利要求1所述的基于云平台日志记录监控的文件清理方法,其特征在于,所述按照所述目标项目的文件目录创建各文件索引,具体包括:
将所述目标项目最外侧目录作为根目录,采用最小二叉树原则方式对所述根目录下各层目录进行检索,直到当前目录不存在子目录的情况,对检索到的目录创建索引;
对记录的目录下的所有非目录文件进行检索,并为各非目录文件创建索引。
5.根据权利要求1所述的基于云平台日志记录监控的文件清理方法,其特征在于,所述对所述待清理文件进行清理之前,还包括:
遍历待清理状态的文件,获取各文件的目录信息,在设定备份存储空间下,对待清理状态的文件进行对应相同目录信息的备份。
6.一种基于云平台日志记录监控的文件清理系统,其特征在于,包括:
目标项目确定模块,用于通过云平台确定服务器中待监控清理的目标项目;所述云平台与所述服务器通过网络进行通信连接;
文件索引创建模块,用于按照所述目标项目的文件目录创建各文件索引;
日志记录信息确定模块,用于通过对所述目标项目中各文件进行监听,采用日志对各文件的索引、创建时间和访问时间进行记录,获得日志记录信息;
监测指标确定模块,用于确定所述目标项目的监测指标;所述监测指标包括监测周期;
待清理文件确定模块,用于根据所述监测周期对所述日志记录信息进行遍历,通过所述日志记录信息中各文件的访问时间和创建时间确定待清理文件;
待清理文件清理模块,用于对所述待清理文件进行清理。
7.根据权利要求6所述的基于云平台日志记录监控的文件清理系统,其特征在于,所述监测指标确定模块,具体包括:
各文件访问时间间隔周期确定单元,用于对所述目标项目的日志记录信息进行设定周期的观察,遍历所述目标项目中所有文件,若所述日志记录信息中文件存在一次访问时间,则将访问时间与创建时间相减作为文件的访问时间间隔周期,若所述日志记录信息中文件存在两次以上的访问时间,则将最后一次访问时间与上一次访问时间相减作为文件的访问时间间隔周期;
监测指标确定单元,用于将所述目标项目中文件的访问时间间隔周期从大到小进行排序,并将排序后的访问时间间隔周期三等分为第一区间、第二区间和第三区间,将所述第一区间中访问时间间隔周期的平均值作为最大值M,将所述第二区间中访问时间间隔周期的平均值作为扫描周期A,将所述第三区间中访问时间间隔周期的平均值作为最小值S。
8.根据权利要求7所述的基于云平台日志记录监控的文件清理系统,其特征在于,所述待清理文件确定模块,具体包括:
待清理文件确定单元,用于按照扫描周期A根据文件索引对目标项目中的各文件的日志记录信息进行遍历,确定各文件的状态;所述文件的状态包括正常状态、待复审状态、待跟踪状态、待清理状态和已清理状态;
在每次遍历时:
当文件存在两次以上访问时间时,若文件的第t次访问时间与第t-1次访问时间的差值小于或等于最小值S,则文件为正常状态;若文件的第t次访问时间与第t-1次访问时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若文件的第t次访问时间与第t-1次访问时间的差值大于或等于最大值M,则文件状态为待复审状态;
当文件存在一次访问时间时,若文件的访问时间与创建时间的差值小于或等于最小值S,则文件为正常状态;若文件的访问时间与创建时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若文件的访问时间与创建时间的差值大于或等于最大值M,则文件状态为待复审状态;
当文件不存在访问时间时,若当前时间与文件的创建时间的差值小于或等于最小值S,则文件为正常状态;若当前时间与文件的创建时间的差值大于最小值S且小于最大值M,则文件状态为待跟踪状态;若当前时间与文件的创建时间的差值大于或等于最大值M,则文件状态为待复审状态;
对于状态为待复审状态的文件,判断是否存在连续三个扫描周期A均为待复审状态,若是则将待复审状态更改为待清理状态;
若对待清理状态的文件进行了清理,则将清理后的文件状态更改为已清理状态。
9.根据权利要求6所述的基于云平台日志记录监控的文件清理系统,其特征在于,所述文件索引创建模块,具体包括:
目录索引创建单元,用于将所述目标项目最外侧目录作为根目录,采用最小二叉树原则方式对所述根目录下各层目录进行检索,直到当前目录不存在子目录的情况,对检索到的目录创建索引;
文件索引创建单元,用于对记录的目录下的所有非目录文件进行检索,并为各非目录文件创建索引。
10.根据权利要求6所述的基于云平台日志记录监控的文件清理系统,其特征在于,还包括:
文件备份模块,用于遍历待清理状态的文件,获取各文件的目录信息,在设定备份存储空间下,对待清理状态的文件进行对应相同目录信息的备份。
CN202211306090.8A 2022-10-25 2022-10-25 一种基于云平台日志记录监控的文件清理方法及系统 Active CN115374065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211306090.8A CN115374065B (zh) 2022-10-25 2022-10-25 一种基于云平台日志记录监控的文件清理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211306090.8A CN115374065B (zh) 2022-10-25 2022-10-25 一种基于云平台日志记录监控的文件清理方法及系统

Publications (2)

Publication Number Publication Date
CN115374065A true CN115374065A (zh) 2022-11-22
CN115374065B CN115374065B (zh) 2023-02-28

Family

ID=84072959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211306090.8A Active CN115374065B (zh) 2022-10-25 2022-10-25 一种基于云平台日志记录监控的文件清理方法及系统

Country Status (1)

Country Link
CN (1) CN115374065B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116340732A (zh) * 2023-05-29 2023-06-27 天翼云科技有限公司 一种过期数据的自动清理方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060150029A1 (en) * 2005-01-06 2006-07-06 Fujitsu Limited Method and apparatus for providing monitoring-information, and computer product
CN107025066A (zh) * 2016-09-14 2017-08-08 阿里巴巴集团控股有限公司 在基于闪存的存储介质中写入存储数据的方法和装置
CN107943718A (zh) * 2017-12-07 2018-04-20 网宿科技股份有限公司 一种清理缓存文件的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060150029A1 (en) * 2005-01-06 2006-07-06 Fujitsu Limited Method and apparatus for providing monitoring-information, and computer product
CN107025066A (zh) * 2016-09-14 2017-08-08 阿里巴巴集团控股有限公司 在基于闪存的存储介质中写入存储数据的方法和装置
CN107943718A (zh) * 2017-12-07 2018-04-20 网宿科技股份有限公司 一种清理缓存文件的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈薇薇等: "《基于生命周期控制的电子文件安全删除方案》", 《小型微型计算机系统》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116340732A (zh) * 2023-05-29 2023-06-27 天翼云科技有限公司 一种过期数据的自动清理方法、装置及电子设备
CN116340732B (zh) * 2023-05-29 2023-08-04 天翼云科技有限公司 一种过期数据的自动清理方法、装置及电子设备

Also Published As

Publication number Publication date
CN115374065B (zh) 2023-02-28

Similar Documents

Publication Publication Date Title
US5983239A (en) Storage management system with file aggregation supporting multiple aggregated file counterparts
US8560569B2 (en) Method and apparatus for performing bulk file system attribute retrieval
US8965941B2 (en) File list generation method, system, and program, and file list generation device
CN109213756B (zh) 数据存储、检索方法、装置、服务器和存储介质
US20080065663A1 (en) Reestablishing process context
US20030065898A1 (en) System for managing object storage and retrieval in partitioned storage media
US20080201366A1 (en) Changed files list with time buckets for efficient storage management
KR20110009098A (ko) 편집 거리 및 문서 정보를 이용한 검색 결과 랭킹
CN115374065B (zh) 一种基于云平台日志记录监控的文件清理方法及系统
US5963961A (en) Database reconstruction using embedded database backup codes
US20080065637A1 (en) Locating last processed data
CN113906406A (zh) 数据库管理系统
CN112817958A (zh) 电力规划数据采集方法、装置及智能终端
CN110795614A (zh) 一种索引自动优化方法及装置
CN110109906B (zh) 数据存储系统及方法
JP4422742B2 (ja) 全文検索システム
CN116303628B (zh) 基于Elasticsearch的告警数据查询方法、系统及设备
CN113239012A (zh) 一种数据库迁移方法、装置、电子设备和存储介质
CN1904881A (zh) 数据库归档数据的检索方法
CN111984625B (zh) 数据库负载特征处理方法、装置、介质和电子设备
CN112433888B (zh) 数据处理方法及装置、存储介质和电子设备
CN114546965A (zh) 一种大数据仓库数据生命周期治理的方法
KR101583283B1 (ko) Db2 데이터베이스에서 데이터를 복원하는 방법 및 장치
CN115658626B (zh) 一种分布式网络小文件存储管理方法
CN116974468B (zh) 一种基于大数据的设备数据存储管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant