CN114546999A - 一种数据清理方法、装置、电子设备及存储介质 - Google Patents

一种数据清理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114546999A
CN114546999A CN202210079772.3A CN202210079772A CN114546999A CN 114546999 A CN114546999 A CN 114546999A CN 202210079772 A CN202210079772 A CN 202210079772A CN 114546999 A CN114546999 A CN 114546999A
Authority
CN
China
Prior art keywords
cleaning
data
cleaned
rule
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210079772.3A
Other languages
English (en)
Inventor
林皓
王哲
杨泳
熊明强
贾春燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing VRV Software Corp Ltd
Original Assignee
Beijing VRV Software Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing VRV Software Corp Ltd filed Critical Beijing VRV Software Corp Ltd
Priority to CN202210079772.3A priority Critical patent/CN114546999A/zh
Publication of CN114546999A publication Critical patent/CN114546999A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据清理方法、装置、电子设备及存储介质,属于数据库技术领域,能够解决现有技术中Elasticsearch中存储的数据量剧增,导致系统资源不断减少,进而使得查询效率变低的问题。该方法包括:获取清理参数,清理参数包括清理索引和清理规则;基于清理规则,将Elasticsearch中与清理索引对应的数据中的待清理数据进行清理处理;本方案通过对待清理数据进行清理处理,减少了Elasticsearch中存储的数据量,降低了Elasticsearch的存储压力,节省了系统资源,提升了Elasticsearch存储和查询的执行效率。

Description

一种数据清理方法、装置、电子设备及存储介质
技术领域
本申请涉及数据库技术领域,尤其涉及一种数据清理方法、装置、电子设备及存储介质。
背景技术
分布式实时搜索引擎(Elasticsearch)是一个基于全文搜索引擎(ApacheLucene)的开源搜索引擎,它不仅包括了全文搜索功能,还可以进行以下工作:分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索;实时分析的分布式搜索引擎;可以扩展到上百台服务器,处理结构化或非结构化数据。
但随着线上项目业务的持续运行,Elasticsearch中存储的数据越来越多,各类索引内存储的数据暴涨,导致系统资源不断减少,进而使得查询效率变低。
因此,亟需一种可以减轻Elasticsearch压力,提升查询效率的数据处理方法。
发明内容
本申请实施例提供了一种数据清理方法、装置、电子设备及存储介质,以解决现有技术中Elasticsearch中存储的数据量剧增,导致系统资源不断减少,进而使得查询效率变低的问题。
本申请实施例的第一方面,提供一种数据清理方法,该方法包括:获取清理参数,清理参数包括清理索引和清理规则;基于清理规则,将Elasticsearch中与清理索引对应的数据中的待清理数据进行清理处理。
可选地,清理规则包括:清理日期规则;基于清理规则,将Elasticsearch中与清理索引对应的数据中的待清理数据进行清理处理,包括:将Elasticsearch中与清理索引对应的数据中,上报时间满足清理日期规则的数据,确定为待清理数据;对待清理数据进行清理处理。
可选地,清理规则还包括:清理手段,清理手段包括删除处理或先转存再删除处理;对待清理数据进行清理处理,包括:在清理手段为删除处理的情况下,删除待清理数据;在清理手段为先转存再删除处理的情况下,将待清理数据转存至目标区域之后,删除待清理数据。
可选地,获取清理参数,包括:从清理规则表中获取清理参数,清理规则表中包括至少一条清理参数;获取清理参数之前,该方法还包括:显示清理规则表;接收对清理规则表的更改操作;响应于更改操作,更新清理规则表。
可选地,基于清理规则,将Elasticsearch中与清理索引对应的数据中的待清理数据进行清理处理之后,该方法还包括:显示待清理数据的清理状态;其中,清理状态包括以下任一项:清理中,清理成功,清理失败。
可选地,基于清理规则,将Elasticsearch中与清理索引对应的数据中的待清理数据进行清理处理之后,该方法还包括:保存待清理数据的清理结果;其中,清理结果包括以下任一项:清理成功,清理失败。
本申请实施例的第二方面,提供一种数据清理装置,该装置包括:获取模块和清理模块;该获取模块,用于获取清理参数,清理参数包括清理索引和清理规则;该清理模块,用于基于清理规则,将Elasticsearch中与清理索引对应的数据中的待清理数据进行清理处理。
可选地,清理规则包括:清理日期规则;该清理模块,具体用于将Elasticsearch中与清理索引对应的数据中,上报时间满足清理日期规则的数据,确定为待清理数据;对待清理数据进行清理处理。
可选地,清理规则还包括:清理手段,清理手段包括删除处理或先转存再删除处理;该清理模块,具体用于在清理手段为删除处理的情况下,删除待清理数据;在清理手段为先转存再删除处理的情况下,在将待清理数据转存至目标区域之后,删除待清理数据。
可选地,本申请实施例的装置还包括显示模块、接收模块和更新模块;该获取模块,具体用于从清理规则表中获取清理参数,清理规则表中包括至少一条清理参数;该显示模块,用于在获取清理参数之前,显示清理规则表;该接收模块,用于接收对清理规则表的更改操作;该更新模块,用于响应于更改操作,更新清理规则表。
可选地,该显示模块,还用于在基于清理规则,将Elasticsearch中与清理索引对应的数据中的待清理数据进行清理处理之后,显示待清理数据的清理状态;其中,清理状态包括以下任一项:清理中,清理成功,清理失败。
可选地,本申请实施例的装置还包括存储模块;该存储模块,还用于在基于清理规则,将Elasticsearch中与清理索引对应的数据中的待清理数据进行清理处理之后,保存待清理数据的清理结果;其中,清理结果包括以下任一项:清理成功,清理失败。
本申请实施例的第三方面,提供一种电子设备,该电子设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的程序或指令,该程序或指令被该处理器执行时实现如第一方面所述的数据清理方法的步骤。
本申请实施例的第四方面,提供一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现如第一方面所述的数据清理方法的步骤。
本申请实施例的第五方面,提供一种计算机程序产品,其中,该计算机程序产品包括计算机程序或指令,当该计算机程序产品在处理器上运行时,使得处理器执行该计算机程序或指令,实现如第一方面所述的数据清理方法的步骤。
本申请实施例的第六方面,提供了一种芯片,该芯片包括处理器和通信接口,该通信接口和该处理器耦合,该处理器用于运行程序或指令,实现如第一方面所述的数据清理方法。
本申请实施例提供的技术方案与现有技术相比具有如下优点:
本申请实施例中,获取清理参数,清理参数包括清理索引和清理规则;基于清理规则,将Elasticsearch中与清理索引对应的数据中的待清理数据进行清理处理;即从Elasticsearch中获取清理参数中包含的清理索引对应的全部数据,基于清理规则,从该清理索引对应的全部数据中确定待清理数据,对待清理数据进行清理处理;通过对待清理数据进行清理处理,减少了Elasticsearch中存储的数据量,降低了Elasticsearch的存储压力,节省了系统资源,提升了Elasticsearch存储和查询的执行效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的数据清理方法的流程示意图之一;
图2为本申请实施例提供的数据清理方法的流程示意图之二;
图3为本申请实施例提供的数据清理方法的流程示意图之三;
图4为本申请实施例提供的数据清理方法的流程示意图之四;
图5为本申请实施例提供的数据清理方法的流程示意图之五;
图6为本申请实施例提供的一种数据清理装置的结构框图;
图7为本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
本申请实施例中的电子设备可以为移动电子设备,也可以为非移动电子设备。移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等;非移动电子设备可以为个人计算机(personalcomputer,PC);本申请实施例不作具体限定。
本申请实施例提供的数据清理方法的执行主体可以为上述的电子设备(包括移动电子设备和非移动电子设备),也可以为该电子设备中能够实现该数据清理方法的功能模块和/或功能实体,也可以是服务器,还可以是服务器上能够实现该数据清理方法的功能模块和/或功能实体,具体的可以根据实际使用需求确定,本申请实施例不作限定。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的数据清理方法进行详细地说明。
如图1所示,本申请实施例提供一种数据清理方法,下面以执行主体为电子设备为例,对本申请实施例提供的数据清理方法进行示例性的说明。该方法可以包括下述的步骤101至步骤102。
101、获取清理参数。
其中,清理参数包括清理索引和清理规则。
可选地,清理参数可以存放在Elasticsearch中,也可以存放在其他数据库中。
可以理解,清理参数存放在其他数据库中,获取清理参数之前需要先部署好其他数据库和Elasticsearch(如在两者之间部署好连接通道)。
102、基于清理规则,将Elasticsearch中与清理索引对应的数据中的待清理数据进行清理处理。
可以理解,获取一条清理参数,根据该清理参数得到了清理索引和清理规则,从Elasticsearch中获取与清理索引相同的索引对应的数据,即得到了清理索引对应的全部数据,基于清理规则,从该清理索引对应的全部数据中确定待清理数据,再对待清理数据进行清理处理。
可以理解,清理参数可以存放在表中(以下简称清理规则表),也可以以文本形式存放,只要能满足存放清理参数即可,本申请实施例对于存储方式不做限定。
可以理解,清理规则表可以是常规表格,如Excel表格;也可以是映射表;也可以是线性表,如队列、栈等;本申请实施例不做限定。
示例性地,假设清理参数存储在清理规则表,清理规则表中可以包括至少一条清理参数,清理参数可以为清理规则表中的任意一条,也就是说,本申请实施例例提供的数据清理方法可以适用于清理规则表中的任一条清理参数。
具体地,遍历清理规则表,每次获取到清理规则表中的一条清理参数,基于清理规则,将Elasticsearch中与清理索引对应的数据中的待清理数据进行清理处理;重复执行步骤101至步骤102,直到获取到清理规则表中的最后一条清理参数,将最后一条清理参数中的清理索引对应的数据中的待清理数据进行清理处理。
示例性地,以清理参数存储在清理规则表中为例,在程序开发中,建立一个列表List<TableRule>,基于清理规则表中的清理参数得到一条待存入列表数据,每条待存入列表数据包括:清理索引的索引名称,清理规则;遍历清理规则表,直到获取到最后一条清理参数,将得到的多条待存入列表数据存入到List<TableRule>中,程序遍历List<TableRule>,获取List<TableRule>中的一条数据,该一条数据包含清理索引名称和清理规则,基于清理规则确定出该清理索引下的待清理数据,对待清理数据进行清理处理,直到处理到列表List<TableRule>中的最后一条数据。
可以理解,本申请实施例的数据清理方法可以通过程序实现(以下简称清理程序),如果清理参数存放在其他数据库中,在对待清理数据清理之前,需要先配置好清理程序和其他数据库连接需要的参数(如:用户名、密码、统一资源定位符等),以及清理程序和Elasticsearch连接需要的参数(如:Elasticsearch用户名、Elasticsearch密码、Elasticsearch主机、Elasticsearch端口号等);如果清理参数存放在Elasticsearch上,只需配置好清理程序和Elasticsearch连接需要的参数。
本申请实施例中,获取清理参数,根据该清理参数得到了清理索引和清理规则,从Elasticsearch中获取与清理索引相同的索引对应的数据,即得到了清理索引对应的全部数据,基于清理规则,从该清理索引对应的全部数据中确定待清理数据,再对待清理数据进行清理处理;通过对待清理数据进行清理处理,减少了Elasticsearch中存储的数据量,降低了Elasticsearch的存储压力,节省了系统资源,提升了Elasticsearch存储和查询的执行效率。
可选地,清理规则包括:清理日期规则,结合图1,如图2所示,上述步骤102具体可以通过下述步骤102a和步骤102b实现。
102a、基于清理规则,将Elasticsearch中与清理索引对应的数据中,上报时间满足清理日期规则的数据,确定为待清理数据。
可以理解,清理日期规则用于指示清理时间范围,所述清理时间范围用于表征所述待清理数据的上报时间所在的时间范围。
可选地,清理日期规则中包括一个时间节点,该时间节点用于指示将数据的上报时间在该时间节点之前的数据确定为待清理数据;清理日期规则还可以包括一个时长,该时长用于指示将数据的上报时间距当前时间超过时长的数据确定为待清理数据;清理日期规则中还可以包括其他用于确定待清理数据的日期,本申请实施例不做限定。
示例性地,假设清理日期规则包括一个时间节点,该时间节点用于指示将数据的上报时间在该时间节点之前的数据确定为待清理数据,如清理日期规则为清理2021年10月1日之前的数据,则可以根据清理日期规则将数据的上报时间在2021年10月1日之前的数据确定为待清理数据;假设清理日期规则包括一个时长,该时长用于指示将数据的上报时间距当前时间超过时长的数据确定为待清理数据,如清理日期规则为清理上报时间距当前时间超过12个月的数据,则可以根据清理日期规则将数据的上报时间距当前时间超过12个月的数据确定为待清理数据。
102b、对待清理数据进行清理处理。
本申请实施例中,将清理索引内的数据满足清理日期规则的数据确定为待清理数据,并进行清理处理,清理掉一部分长久未使用的数据可以减少Elasticsearch的存储压力,节省了系统资源,提升了Elasticsearch存储和查询的执行效率,解决了项目在生产环境中Elasticsearch磁盘占用率高,以及因为存储数据过多导致的查询慢的问题,提升了用户体验。
可选地,清理规则还包括:清理手段,清理手段包括删除处理或先转存再删除处理。上述步骤102b具体可以通过下述步骤102c和步骤102d实现。
102c、在清理手段为删除处理的情况下,删除待清理数据。
可以理解,清理手段用于指示对待清理数据进行删除处理或先转存再删除处理,示例性地,对于时间比较久且不会再使用的数据可以直接删除,对于时间比较久,但仍有可能被使用到的数据需要先转存再删除。
102d、在清理手段为先转存再删除处理的情况下,将待清理数据转存至目标区域之后,删除待清理数据。
可以理解,目标存储区域可以是按需要给定的存储路径对应的区域,也可以是默认的存储路径对应的存储区域,本申请实施例不做限定。
示例性地,Elasticsearch中的一个需要清理的索引,记为索引A,索引A中包含数据1,数据2,数据3,数据4,清理日期规则中包括用于指示清理数据上报时间距当前时间超过6个月的数据,其中,数据1的数据上报时间距当前时间不足6个月,无需做清理处理,数据2、数据3和数据4的数据上报时间距当前时间超过6个月,需要做清理处理;基于不同的清理手段,对于上述待清理数据进行清理,存在以下几种可能:第一种可能:索引A中所有需要做清理处理的数据都需要先转存再删除,存储区域为默认的存储区域,即索引A中的数据2、数据3和数据4都先转存到默认的存储区域,再删除掉;第二种可能:索引A中所有需要做清理处理的数据都需要先转存再删除,存储区域为用户指定的存储区域,即索引A中的数据2、数据3和数据4都先转存到用户指定的存储区域,再删除掉;第三种可能:索引A中所有需要做清理处理的数据都需要先转存再删除,用户指定了部分数据的存储区域,则其余数据的存储区域为默认存储区域,如索引A中数据2用户指定了存储区域,则数据2存入用户指定的存储区域后,再从索引A中将其删除,数据3和数据4未指定存储区域,则转存到默认的存储区域,再从索引A中将其删除;第四种可能:索引A部分数据需要先转存再删除,部分数据直接删除,如索引A中的数据2需要先转存到默认存储区域或者用户指定的存储区域,再从索引A中将其删除,索引A中数据3和数据4直接删除;第五种可能:索引A中的的待清理数据直接删除,如索引A中数据2、数据3和数据4无需转存,直接删除掉。
可以理解,如果目标存储区域与Elasticsearch不在同一设备上,则需要先配置好清理程序与目标区域所在的设备进行连接需要的参数,将清理程序和目标区域所在的设备进行连接后,再将需要转存的数据存储到指定路径下的存储区域;如果目标存储区域与Elasticsearch在同一设备上,则可直接将需要转存的数据存储到指定路径下的存储区域。
可选地,对于确定待清理数据并进行清理处理的方法,可以是确定一条清理处理一条,也可以是同时确定一批(多条数据),清理处理一批,也可以是一条一条确定,多条待清理数据作为一批进行清理处理,具体的确定待清理数据并进行清理处理的方法,本申请实施例不做限定。
可以理解,为了节约存储空间,需要转存的数据可以先进行压缩再转存;对于待转存的数据,可以单条压缩后再转存,也可以将多条转存到同一存储区域的待转存数据打包压缩再转存。
本申请实施例中,对于待清理数据,根据清理手段不同,可以直接删除或者先转存再删除,对于有些存储时间比较久并且很久未被使用到的数据,可以直接删除掉,减少Elasticsearch的存储压力,节省了系统资源,提升了Elasticsearch存储和查询的执行效率;但有些数据虽然存储的时间比较久,但其也有可能被使用到,因此需要将其转存到其他存储区域,防止需要的时候数据丢失,进一步提升了用户的体验。
可选地,清理规则还包括:数据重要程度阈值、数据所占内存阈值。
可以理解,重要程度阈值可以根据历史经验预设一个固定值,也可以根据实际数据被使用的频率高低确定,本申请实施例不做具体限定。
可以理解,数据所占内存阈值可以根据历史经验预设一个固定值,也可以根据实际数据占用内存的大小经过一定计算得到,本申请实施例不做具体限定。
可以理解,清理日期规则、清理手段、数据重要程度阈值和数据所占内存阈值可以结合使用。
示例性地,Elasticsearch中的一个需要清理的索引,记为索引A,索引A中包含数据1,数据2,数据3,数据4,清理日期规则中包括用于指示清理数据上报时间距当前时间超过6个月的数据,其中,数据1和数据2的数据上报时间距当前时间不足6个月,数据3和数据4的数据上报时间距当前时间超过6个月,按照清理日期规则,数据1和数据2无需做清理处理,数据3和数据4需要做清理处理;按照清理日期规则结合数据重要程度阈值,数据3的重要程度小于数据重要程度阈值,数据4的重要程度大于数据重要程度阈值,则数据3需要做清理处理,数据4无需做清理处理,即:将满足清理日期规则的数据结合数据重要程度阈值做进一步判断,对于数据的重要程度大于数据重要程度阈值的数据不做清理处理;按照清理日期规则结合数据重要程度阈值与数据所占内存阈值确定待清理数据,数据1所占内存大于数据所占内存阈值,数据2所占内存小于数据所占内存阈值,进一步判断,数据1的重要程度小于数据重要程度阈值,则数据1需要做清理处理,数据4无需做清理处理,即:将不满足清理日期规则的数据,进一步确定数据所占内存是否大于数据所占内存阈值,对于数据所占内存大于数据所占内存阈值的数据,如果该数据的数据重要程度小于数据重要程度阈值,则也需要做清理处理。
可以理解,数据重要程度阈值和数据所占内存阈值也可以用于指示清理手段是直接删除还是先转存再删除。示例性地,Elasticsearch中的一个需要清理的索引内的一个待清理数据,记为数据A,基于不同的清理手段,有以下几种可能:第一种可能:数据A的清理手段为删除处理,但数据A重要程度大于数据重要程度阈值,因此数据A的清理手段更改为先转存到目标区域,再做删除处理;第二种可能:数据A的清理手段为先转存再删除处理,数据A所占的内存大于数据所占内存阈值,数据A的重要程度大于数据重要程度阈值,数据A的清理手段不变;第三种可能:数据A的清理手段为先转存再删除处理,数据A所占的内存大于数据所占内存阈值,数据A的重要程度小于数据重要程度阈值,数据A的清理手段更改为删除处理;第四种可能:数据A的清理手段为先转存再删除处理,数据A所占的内存小于数据所占内存阈值,数据A的清理手段不变。
本申请实施例中,清理规则还包括:数据重要程度阈值、数据所占内存阈值,对于根据清理日期规则确定的待清理数据,再结合数据重要程度阈值和数据所占内存阈值进一步确定是否需要做清理处理,对于清理手段是删除的待清理数据,也可以根据数据重要程度阈值和数据所占内存阈值进一步确定数据是否需要先转存再删除。基于上述清理规则,删除掉部分数据,可以减少Elasticsearch的存储压力,节省了系统资源的同时,也进一步确保数据不会丢失,提升了用户体验。
可选地,结合图1,如图3所示,上述步骤101具体可以通过下述步骤101a实现,上述步骤101之前本申请实施例的数据清理方法还包括下述步骤103、步骤104和步骤105。
101a、从清理规则表中获取清理参数。
其中,清理规则表中包括至少一条清理参数。
可以理解,清理规则表可以是根据可以根据实际需要建立,也可以是从与清理规则表相关的管理系统中获取。
103、显示清理规则表。
可以理解,清理规则表默认显示在配置页面上,用户可以根据需要选择隐藏显示或者显示。
104、接收对清理规则表的更改操作。
其中,更改操作包括新增、删除和修改。
示例性地,在配置页面上显示清理规则表,在清理规则表需要新增时,单击鼠标右键选择新增;在清理规则表需要删除时,选中要删除的一行或者多行,单击鼠标右键选择删除;在清理规则表需要修改时,选中需要修改的数据,双击鼠标左键进入编辑模式即可进行修改,编辑完默认保存。
105、响应于更改操作,更新清理规则表。
可以理解,界面上显示的清理规则表被更改以后,对应后台的清理规则表也会同步被更改。
本申请实施例中,用户可以通过界面对清理规则表进行新增、删除和修改操作,本申请实施例的方法响应于用户的更改操作实时更新清理规则表,界面友好,操作简单,进一步提升了用户体验。
可选地,在更新清理规则表之前,将原清理规则表进行备份。
可以理解,在更新前将原清理规则表备份,由此,当用户误操作,或者更改以后想要回退到更改前的清理规则表,就可以选择使用备份的清理规则表,进一步提升用户的体验。
可选地,结合图3,如图4所示,上述步骤102之后,本申请实施例的数据清理方法还包括下述步骤106。
106、显示待清理数据的清理状态。
其中,清理状态包括以下任一项:清理中,清理成功,清理失败。
可以理解,清理状态显示可以是用户在执行清理操作之前,通过单击显示状态显示,也可以是默认的自动显示,用户可以灵活选择是否显示清理状态,对于正在显示的清理状态,用户也可以通过单击隐藏显示使得清理状态不再显示。
示例性地,用户在执行数据清理操作之前,单击显示状态,则执行清理操作后,当正在清理待清理数据时,状态显示栏会显示清理中;当清理结束,并且所有待清理数据都已清理完成时,状态显示栏会显示清理成功;当清理结束,但有待清理数据未被清理(如查找不到待清理数据,则无法清理),或者清理过程出现中断等异常时,状态显示栏会显示清理失败。
本申请实施例中,通过界面显示待清理数据的清理状态,用户从界面上就可以看到清理状态是清理中、清理成功还是清理失败,用户界面友好,提升了用户体验。
可选地,如图4所示,上述步骤102之后,本申请实施例的数据清理方法还包括下述步骤107。
107、保存待清理数据的清理结果。
其中,清理结果包括以下任一项:清理成功,清理失败。
可以理解,待清理数据的清理结果可以是用户在执行清理操作之后,通过单击保存将清理结果进行保存,也可以是默认的自动保存,用户可以灵活选择清理结果保存的存储区域,如果用户不做选择,清理结果保存在默认路径下的存储区域。具体的,清理结果是清理成功,保存的清理结果中会有用户对清理规则表做的所有操作,如删除了哪几条数据,删除的时间,如果是数据需要转存,转存的存储区域对应的路径等,都会写入清理结果中;如果是清理失败,清理结果中会保存清理失败的原因,如设备异常、清理被中断等,如果部分数据清理成功但部分数据清理失败,清理结果会保存对于清理成功的数据的操作,如删除了哪几条数据,删除的时间,如果是数据需要转存,转存的存储区域对应的路径等,对于清理失败的数据会保存清理失败的原因,如查找不到某一条需要删除数据的位置等。
本申请实施例中,通过将待清理数据的清理结果进行保存,可以方便用户查看清理结果,如果清理失败,用户也能够根据保存的结果查找到失败的原因,进一步提升了用户体验。
示例性地,如图5所示,以清理规则包括:清理日期规则和清理手段为例,下述步骤501至步骤507为一种可选地数据清理方法的处理流程。
501、加载清理规则表。
502、遍历清理规则表中是否存在清理参数。
其中,清理参数包括:清理索引和清理规则。
如果是,则执行步骤503,否则,执行步骤507。
503、遍历清理索引内是否存在满足清理日期规则的待清理数据。
如果是,则执行步骤504,否则,执行步骤502。
504、待清理数据是否需要转存。
如果是,则执行步骤505,否则,执行步骤506。
505、压缩并转存待清理数据到目标存储区域。
506、删除待清理数据。
可以理解,步骤506删除完数据后继续执行步骤503,直到索引内所有待清理数据删除完成。
507、结束。
图6为本申请实施例示出的一种数据清理装置的结构框图,如图6所示,包括:获取模块601和清理模块602;该获取模块601,用于获取清理参数,清理参数包括清理索引和清理规则;该清理模块602,用于基于清理规则,将Elasticsearch中与清理索引对应的数据中的待清理数据进行清理处理。
可选地,清理规则包括:清理日期规则;该清理模块602,具体用于将Elasticsearch中与清理索引对应的数据中,上报时间满足清理日期规则的数据,确定为待清理数据;对待清理数据进行清理处理。
可选地,清理规则还包括:清理手段,清理手段包括删除处理或先转存再删除处理;该清理模块602,具体用于在清理手段为删除处理的情况下,删除待清理数据;在清理手段为先转存再删除处理的情况下,在将待清理数据转存至目标区域之后,删除待清理数据。
可选地,本申请实施例的装置还包括显示模块603、接收模块604和更新模块605;该获取模块601,具体用于从清理规则表中获取清理参数,清理规则表中包括至少一条清理参数;该显示模块603,用于在获取清理参数之前,显示清理规则表;该接收模块604,用于接收对清理规则表的更改操作;该更新模块605,用于响应于更改操作,更新清理规则表。
可选地,该显示模块603,还用于在基于清理规则,将Elasticsearch中与清理索引对应的数据中的待清理数据进行清理处理之后,显示待清理数据的清理状态;其中,清理状态包括以下任一项:清理中,清理成功,清理失败。
可选地,本申请实施例的装置还包括存储模块606;该存储模块606,用于在基于清理规则,将Elasticsearch中与清理索引对应的数据中的待清理数据进行清理处理之后,保存待清理数据的清理结果;其中,清理结果包括以下任一项:清理成功,清理失败。
需要说明的是:如图6所示,数据清理装置600中一定包括的模块用实线框示意,如获取模块601和清理模块602;数据清理装置600中可以包括也可以不包括的模块用虚线框示意,如显示模块603,接收模块604,更新模块605和存储模块606。
需要说明的是,上述数据清理装置可以为本申请上述方法实施例中的电子设备,也可以是该电子设备中能够实现该装置实施例功能的功能模块和/或功能实体,本申请实施例不做限定。
本申请实施例中,各模块可以实现上述方法实施例提供的数据清理方法,且能达到相同的技术效果,为避免重复,这里不再赘述。
本实施例中各种实现方式具有的有益效果具体可以参见上述数据清理方法实施例中相应实现方式所具有的有益效果,为避免重复,此处不再赘述。
本申请实施例还提供一种电子设备,该电子设备可以包括:处理器701,存储器702以及存储在存储器702上并可在处理器701上运行的程序或指令,该程序或指令被处理器701执行时可以实现上述方法实施例提供的数据清理方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例提供一种可读存储介质,该可读存储介质上存储程序或指令,该程序或指令被处理器执行时实现上述方法实施例提供的数据清理方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种计算机程序产品,其中,该计算机程序产品包括计算机程序或指令,当该计算机程序产品在处理器上运行时,使得处理器执行该计算机程序或指令,实现上述方法实施例提供的数据清理方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述数据清理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置,服务器和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种数据清理方法,其特征在于,所述方法包括:
获取清理参数,所述清理参数包括清理索引和清理规则;
基于所述清理规则,将Elasticsearch中与所述清理索引对应的数据中的待清理数据进行清理处理。
2.根据权利要求1所述的方法,其特征在于,所述清理规则包括:清理日期规则;
所述基于所述清理规则,将Elasticsearch中与所述清理索引对应的数据中的待清理数据进行清理处理,包括:
将Elasticsearch中与所述清理索引对应的数据中,上报时间满足所述清理日期规则的数据,确定为所述待清理数据;
对所述待清理数据进行清理处理。
3.根据权利要求2所述的方法,其特征在于,所述清理规则还包括:清理手段,所述清理手段包括删除处理或先转存再删除处理;
所述对所述待清理数据进行清理处理,包括:
在所述清理手段为删除处理的情况下,删除所述待清理数据;
在所述清理手段为先转存再删除处理的情况下,将所述待清理数据转存至目标区域之后,删除所述待清理数据。
4.根据权利要求1所述的方法,其特征在于,所述获取清理参数,包括:
从清理规则表中获取所述清理参数,所述清理规则表中包括至少一条清理参数;
所述获取清理参数之前,所述方法还包括:
显示所述清理规则表;
接收对所述清理规则表的更改操作;
响应于所述更改操作,更新所述清理规则表。
5.根据权利要求1至4任一所述的方法,其特征在于,所述基于所述清理规则,将Elasticsearch中与所述清理索引对应的数据中的待清理数据进行清理处理之后,所述方法还包括:
显示所述待清理数据的清理状态;
其中,所述清理状态包括以下任一项:清理中,清理成功,清理失败。
6.根据权利要求1至4任一所述的方法,其特征在于,所述基于所述清理规则,将Elasticsearch中与所述清理索引对应的数据中的待清理数据进行清理处理之后,所述方法还包括:
保存所述待清理数据的清理结果;
其中,所述清理结果包括以下任一项:清理成功,清理失败。
7.一种数据清理装置,其特征在于,所述装置包括:获取模块和清理模块;
所述获取模块,用于获取清理参数,所述清理参数包括清理索引和清理规则;
所述清理模块,用于基于所述清理规则,将Elasticsearch中与所述清理索引对应的数据中的待清理数据进行清理处理。
8.根据权利要求7所述的装置,其特征在于,所述清理规则包括:清理日期规则;
所述清理模块,具体用于将Elasticsearch中与所述清理索引对应的数据中,上报时间满足清理日期规则的数据,确定为所述待清理数据;对所述待清理数据进行清理处理。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的数据清理方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的数据清理方法的步骤。
CN202210079772.3A 2022-01-24 2022-01-24 一种数据清理方法、装置、电子设备及存储介质 Pending CN114546999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210079772.3A CN114546999A (zh) 2022-01-24 2022-01-24 一种数据清理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210079772.3A CN114546999A (zh) 2022-01-24 2022-01-24 一种数据清理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114546999A true CN114546999A (zh) 2022-05-27

Family

ID=81671663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210079772.3A Pending CN114546999A (zh) 2022-01-24 2022-01-24 一种数据清理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114546999A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076440A (zh) * 2023-10-16 2023-11-17 北京人大金仓信息技术股份有限公司 间隔分区表上全局索引的异步清理方法、存储介质和设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117076440A (zh) * 2023-10-16 2023-11-17 北京人大金仓信息技术股份有限公司 间隔分区表上全局索引的异步清理方法、存储介质和设备

Similar Documents

Publication Publication Date Title
EP2752779A2 (en) System and method for distributed database query engines
CN111339073A (zh) 实时数据处理方法、装置、电子设备及可读存储介质
WO2017096892A1 (zh) 索引构建方法、查询方法及对应装置、设备、计算机存储介质
EP3264291A1 (en) Data block processing method and device
CN114546999A (zh) 一种数据清理方法、装置、电子设备及存储介质
CN110321364B (zh) 信用卡管理系统的交易数据查询方法、装置及终端
CN109240893B (zh) 应用运行状态查询方法及终端设备
CN112783447A (zh) 用于处理快照的方法、装置、设备、介质和产品
CN109977104B (zh) 数据管理方法及装置
CN111753141B (zh) 一种数据管理方法及相关设备
CN113656626B (zh) 一种图像数据保存方法、装置、计算机设备和存储介质
CN110678854B (zh) 数据查询的方法和装置
CN111552674A (zh) 日志处理方法及设备
CN117235051B (zh) 一种数据库的管理方法、装置、电子设备和存储介质
CN113722389B (zh) 数据管理方法、装置、电子设备及计算机可读存储介质
CN111290927A (zh) 一种数据监控方法和装置
CN113220230B (zh) 数据导出方法及其装置、电子设备以及存储介质
CN112948381B (zh) 数据处理方法、系统、计算机设备及可读存储介质
CN115905213A (zh) 报表存储方法、装置及电子设备
CN109783162B (zh) 方法函数管理方法、装置、计算机设备及存储介质
CN117234596A (zh) 实时数据的指标值计算方法、装置、设备及存储介质
CN117709902A (zh) 基于bom文件的物料录入方法、装置、设备及介质
CN114153794A (zh) 多文件上传方法以及相关设备
CN114880355A (zh) 数据处理方法、电子设备和计算机可读存储介质
CN116595110A (zh) 一种数据存储方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination