CN112328587A - ElasticSearch的数据处理方法和装置 - Google Patents

ElasticSearch的数据处理方法和装置 Download PDF

Info

Publication number
CN112328587A
CN112328587A CN202011293372.XA CN202011293372A CN112328587A CN 112328587 A CN112328587 A CN 112328587A CN 202011293372 A CN202011293372 A CN 202011293372A CN 112328587 A CN112328587 A CN 112328587A
Authority
CN
China
Prior art keywords
data
processed
storage
elasticsearch
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011293372.XA
Other languages
English (en)
Inventor
邵乐鹏
李军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Health Medical Big Data Co ltd
Original Assignee
Shandong Health Medical Big Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Health Medical Big Data Co ltd filed Critical Shandong Health Medical Big Data Co ltd
Priority to CN202011293372.XA priority Critical patent/CN112328587A/zh
Publication of CN112328587A publication Critical patent/CN112328587A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了ElasticSearch的数据处理方法和装置,该方法包括:获取并加载至少一个配置文件,其中,配置文件包括预警阈值和分段大小;遍历ElasticSearch的数据集群,并根据预警阈值确定待处理数据;获取待处理数据的存储信息,其中,存储信息包括数据存储总量、文档总数和分片数;根据存储信息和分段大小,确定待处理数据的数据处理策略;根据数据处理策略对待处理数据进行数据处理。本方案能够提升ElasticSearch的搜索效率。

Description

ElasticSearch的数据处理方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及ElasticSearch的数据处理方法和装置。
背景技术
ElasticSearch是一个实时的分布式搜索和分析引擎。由于其具有水平伸缩能力,可以随着业务的增长,或者数据规模的增加,通过添加更多的仪器,部署更多的ElasticSearch实例来承载更多的数据,完成数据的扩容和伸缩。因此,ElasticSearch广泛应用在各种信息搜索和数据分析的应用软件中。
然而,随着经济和社会等多方面发展需求的提高,需要对ElasticSearch中的文档进行频繁的删除和更新。目前,在对ElasticSearch中的文档进行更新和删除时,仅仅是进行文档标记处理,文档中处理过的数据并没有因为删除和更新而实际删除,如此导致检索过程中会存在大量的无效数据,从而ElasticSearch的搜索效率较低。
发明内容
本发明提供了ElasticSearch的数据处理方法和装置,能够提升ElasticSearch的搜索效率。
第一方面,本发明实施例提供了ElasticSearch的数据处理方法,包括:
获取并加载至少一个配置文件,其中,所述配置文件包括预警阈值和分段大小;
遍历所述ElasticSearch的数据集群,并根据所述预警阈值确定待处理数据;
获取所述待处理数据的存储信息,其中,所述存储信息包括:数据存储总量、文档总数和分片数;
根据所述存储信息和所述分段大小,确定所述待处理数据的数据处理策略;
根据所述数据处理策略对所述待处理数据进行数据处理。
可选地,所述遍历所述ElasticSearch的数据集群,根据所述预警阈值确定待处理数据,包括:
根据预设的数据查询方式,对所述ElasticSearch的数据集群进行遍历查询;
针对所述ElasticSearch的数据集群中的每一个数据集,均执行:
S1:判断所述数据集中的逻辑删除数据数量是否满足大于第一预警阈值;
S2:判断所述数据集中的逻辑删除数据大小占比是否满足大于第二预警阈值;
将满足步骤S1和S2中至少一个的各个数据集确定为所述待处理数据。
可选地,所述根据预设的数据查询方式,对所述ElasticSearch的数据集群进行遍历查询,包括:
根据预设的查询时间对所述ElasticSearch的数据集群中的所述逻辑删除数据数量和所述逻辑删除数据大小占比进行遍历查询;
和/或,
根据预设的时间间隔对所述ElasticSearch的数据集群中的所述逻辑删除数据数量和所述逻辑删除数据大小占比进行循环查询。
可选地,所述根据所述存储信息和所述分段大小,确定所述待处理数据的数据处理策略,包括:
根据如下公式,确定所述待处理数据经过数据处理后的合并分段数:
Figure BDA0002784498620000031
其中,所述合并分段数用于表征所述待处理数据经处理后每页所能存储的数据段数,所述数据存储总量用于表征所述待处理数据所占用的存储空间大小,所述文档总数用于表征所述待处理数据所包含的相同文档数量,所述分片数用于表征存储有所述待处理数据的设备数量,所述分段大小用于表征经处理后的所述待处理数据中每一段数据所占用的存储空间大小。
可选地,所述根据所述数据处理策略对所述待处理数据进行数据处理,包括:
从所述待处理数据中获取有效存储数据,其中,所述有效存储数据为所述待处理数据中未被删除的数据;
将所述有效存储数据按照所述合并分段数进行存储,获得至少一个数据存储页;
将所述至少一个数据存储页按照存储顺序进行合并,以及将所述待处理数据所在的各个文档进行清除。
第二方面,本发明实施例还提供了ElasticSearch的数据处理装置,包括:加载模块、第一确定模块、获取模块、第二确定模块和数据处理模块;
所述加载模块,用于获取并加载至少一个配置文件,其中,所述配置文件包括预警阈值和分段大小;
所述第一确定模块,用于遍历所述ElasticSearch的数据集群,并根据所述加载模块中配置的所述预警阈值确定待处理数据;
所述获取模块,用于获取所述第一确定模块确定的所述待处理数据的存储信息,其中,所述存储信息包括:数据存储总量、文档总数和分片数;
所述第二确定模块,用于根据所述获取模块获取到的所述存储信息和所述分段大小,确定所述待处理数据的数据处理策略;
所述数据处理模块,用于根据所述第二确定模块确定的所述数据处理策略对所述待处理数据进行数据处理。
可选地,所述第一确定模块,还用于执行如下操作:
根据预设的数据查询方式,对所述ElasticSearch的数据集群进行遍历查询;
针对所述ElasticSearch的数据集群中的每一个数据集,均执行:
S1:判断所述数据集中的逻辑删除数据数量是否满足大于第一预警阈值;
S2:判断所述数据集中的逻辑删除数据大小占比是否满足大于第二预警阈值;
将满足步骤S1和S2中至少一个的各个数据集确定为所述待处理数据。
可选地,所述第一确定模块,还用于执行如下操作:
根据预设的查询时间对所述ElasticSearch的数据集群中的所述逻辑删除数据数量和所述逻辑删除数据大小占比进行遍历查询;
和/或,
根据预设的时间间隔对所述ElasticSearch的数据集群中的所述逻辑删除数据数量和所述逻辑删除数据大小占比进行循环查询。
可选地,所述第二确定模块,还用于执行如下操作:
根据如下公式,确定所述待处理数据经过数据处理后的合并分段数:
Figure BDA0002784498620000041
其中,所述合并分段数用于表征所述待处理数据经处理后每页所能存储的数据段数,所述数据存储总量用于表征所述待处理数据所占用的存储空间大小,所述文档总数用于表征所述待处理数据所包含的相同文档数量,所述分片数用于表征存储有所述待处理数据的设备数量,所述分段大小用于表征经处理后的所述待处理数据中每一段数据所占用的存储空间大小。
可选地,所述数据处理模块,还用于执行如下操作:
从所述待处理数据中获取有效存储数据,其中,所述有效存储数据为所述待处理数据中未被删除的数据;
将所述有效存储数据按照所述合并分段数进行存储,获得至少一个数据存储页;
将所述至少一个数据存储页按照存储顺序进行合并,以及将所述待处理数据所在的各个文档进行清除。
由上述技术方案可知,在对ElasticSearch的数据进行处理时,首先是通过在配置文件中配置用于判断是否对当前数据进行数据处理的预警阈值,通过该预警阈值,即可确定出需要进行数据处理的待处理数据,进一步可以根据该待处理数据确定出其包含数据存储总量、文档总数和分片数的存储信息。如此可根据配置文件中的分段大小以及上述存储信息确定出该待处理数据的数据处理策略,以通过该数据处理策略完成对该待处理数据的处理。由此可见,本方案通过配置预警阈值以确定是否考虑进行数据处理,进一步通过存储信息和分段大小以确定如何对该待处理数据进行处理,如此即可实现在无效数据达到一定量时,能够及时对ElasticSearch中的数据进行处理,以避免由于无效数据的堆积而影响ElasticSearch的搜索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种ElasticSearch的数据处理方法的流程图;
图2是本发明另一个实施例提供的一种ElasticSearch的数据处理方法的流程图;
图3是本发明一个实施例提供的一种ElasticSearch的数据处理装置所在设备的示意图;
图4是本发明一个实施例提供的一种ElasticSearch的数据处理装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种ElasticSearch的数据处理方法,该方法可以包括如下步骤:
步骤101:获取并加载至少一个配置文件,其中,配置文件包括预警阈值和分段大小;
步骤102:遍历ElasticSearch的数据集群,并根据预警阈值确定待处理数据;
步骤103:获取待处理数据的存储信息,其中,存储信息包括:数据存储总量、文档总数和分片数;
步骤104:根据存储信息和分段大小,确定待处理数据的数据处理策略;
步骤105:根据数据处理策略对待处理数据进行数据处理。
在本发明实施例中,在对ElasticSearch的数据进行处理时,首先是通过在配置文件中配置用于判断是否对当前数据进行数据处理的预警阈值,通过该预警阈值,即可确定出需要进行数据处理的待处理数据,进一步可以根据该待处理数据确定出其包含数据存储总量、文档总数和分片数的存储信息。如此可根据配置文件中的分段大小以及上述存储信息确定出该待处理数据的数据处理策略,以通过该数据处理策略完成对该待处理数据的处理。由此可见,本方案通过配置预警阈值以确定是否考虑进行数据处理,进一步通过存储信息和分段大小以确定如何对该待处理数据进行处理,如此即可实现在无效数据达到一定量时,能够及时对ElasticSearch中的数据进行处理,以避免由于无效数据的堆积而影响ElasticSearch的搜索效率。
如图1所示的ElasticSearch的数据处理方法,在本发明实施例中,遍历ElasticSearch的数据集群,根据预警阈值确定待处理数据时,具体可以包括:
根据预设的数据查询方式,对ElasticSearch的数据集群进行遍历查询;
针对ElasticSearch的数据集群中的每一个数据集,均执行:
S1:判断数据集中的逻辑删除数据数量是否满足大于第一预警阈值;
S2:判断数据集中的逻辑删除数据大小占比是否满足大于第二预警阈值;
将满足步骤S1和S2中至少一个的各个数据集确定为待处理数据。
在本发明实施例中,通过对ElasticSearch的数据集群进行遍历查询,即可获知到该数据集群中的逻辑删除数据数量和逻辑删除数据大小占比。通过设定用于判断逻辑删除数据数量的第一预警阈值和用于判断逻辑删除数据大小占比的第二预警阈值,以确定出需要进行数据处理的待处理数据。由此可见,通过设定第一预警阈值和第二预警阈值,可以根据对ElasticSearch搜索性能的要求,对第一预警阈值和第二预警阈值进行设定,进而可以将需要进行删除的数据确定出来,提升了待处理数据确定的准确性,同时也保证了能够对待处理数据进行有效的处理。
如图1所示的ElasticSearch的数据处理方法,在本发明实施例中,根据预设的数据查询方式,对ElasticSearch的数据集群进行遍历查询时,可以包括如下步骤:
根据预设的查询时间对ElasticSearch的数据集群中的逻辑删除数据数量和逻辑删除数据大小占比进行遍历查询;
和/或,
根据预设的时间间隔对ElasticSearch的数据集群中的逻辑删除数据数量和逻辑删除数据大小占比进行循环查询。
在本发明实施例中,在进行数据集群的查询时,可以根据逻辑删除数据量的需求,选择合适的数据查询方式。比如逻辑删除数据量的需求较大时,可以设定时间间隔,选择实时进行循环查询的方式。再比如逻辑删除数据量的需求较小时,可以设定查询的时间,选择定时查询的方式,如此可以针对不同的数据处理需求选择不同的数据查询方式,能够极大的释放数据查询所占用的内存,从而也有助于提升处理器的执行效率。
如图1所示的ElasticSearch的数据处理方法,在本发明实施例中,在根据存储信息和分段大小,确定待处理数据的数据处理策略时,具体可以通过以下方式来确定:
根据如下公式,确定待处理数据经过数据处理后的合并分段数:
Figure BDA0002784498620000081
其中,合并分段数用于表征待处理数据经处理后每页所能存储的数据段数,数据存储总量用于表征待处理数据所占用的存储空间大小,文档总数用于表征待处理数据所包含的相同文档数量,分片数用于表征存储有待处理数据的设备数量,分段大小用于表征经处理后的待处理数据中每一段数据所占用的存储空间大小。
在本发明实施例中,在确定如何对待处理数据进行处理时,也就是说,在确定对待处理数据中不能删除的数据进行再存储的存储方式时,本方案考虑利用合并分段数的公式来计算每页所能存储数据的段数,从而可以根据确定出的合并分段数进行数据存储。通过如此方式来确定数据处理策略,不仅可以实现数据的规则化存储,而且可以通过不同的要求改变变量值,以满足数据存储的要求。因此,本方案能够避免由于数据任意存储,分布混乱而影响ElasticSearch的执行效率的问题。
如图1所示的ElasticSearch的数据处理方法,在根据数据处理策略对待处理数据进行数据处理时,具体可以包括以下步骤:
从待处理数据中获取有效存储数据,其中,有效存储数据为待处理数据中未被删除的数据;
将有效存储数据按照合并分段数进行存储,获得至少一个数据存储页;
将至少一个数据存储页按照存储顺序进行合并,以及将待处理数据所在的各个文档进行清除。
在本发明实施例中,由于待处理数据中同时包括已标记被删除的数据和不能被删除的数据。因此,本方案在进行数据处理时,首先将不能被删除的数据(有效存储数据)都提取出来,然后根据确定好的合并分段数进行存储,如此即可得到至少一个存储有该不能被删除数据的数据存储页,然后将各个数据存储页按照存储顺序进行合并,并将原来存储有待处理数据的各个文档进行清除,如此即实现了对有效数据的重新整理和更新,并将无效的数据进行了清理。因此,本方案不仅可以释放大量的内存和硬盘空间,而且在ElasticSearch进行数据搜索时,可以避免由于大量的无效数据而影响到ElasticSearch的搜索效率。
如图2所示,本发明另一个实施例还提供了一种ElasticSearch的数据处理方法,该方法可以包括如下步骤:
步骤201:获取并加载至少一个配置文件。
在本发明实施例中,进行配置文件加载时,可以加载一个配置文件,也可以同时加载多个配置文件。配置文件可以根据不同的需求来携带不同的内容。例如,用于对访问进行审核的IP、端口PORT、用户以及密码等。另外,还需要配置用于对数据进行判断的索引名称、分段大小,以及用于比较逻辑删除数据数量和逻辑删除数据大小占比的预警阈值,以保证在对ElasticSearch的数据进行查询时,可以通过从配置文件中调用该预警阈值进行判断分析,以进一步确定是否需要对该数据进行数据处理。
步骤202:确定数据查询方式。
由于不同应用软件配置的ElasticSearch搜索需求不同,以及不同时段的搜索需求也不同,即ElasticSearch的数据搜索和处理频繁程度不同。因此,在本方案中可以考虑采用不同的数据查询方式,即可以选择采用定时查询和实时监控查询两种数据查询方式。
以定时查询的方式为例,可以预先设定查询时间,比如设定的查询时间为每天的23:00。如此,在每天的该时间会自动对ElasticSearch的数据进行遍历查询,即查询ElasticSearch的数据集群中的逻辑删除数据数量和逻辑删除数据大小占比的情况。
以实时监控查询的方式为例,可以预先设定时间间隔,比如设定的查询时间间隔为5分钟。如此,每隔5分钟就会自动对ElasticSearch的数据进行循环查询。同样地,查询内容为ElasticSearch的数据集群中的逻辑删除数据数量和逻辑删除数据大小占比的情况。
无论是定时查询方式还是实时监控查询方式,其都可实现对ElasticSearch的数据集群中的逻辑删除数据数量和逻辑删除数据大小占比情况的遍历查询。区别在于,实时监控查询的方式必然会占用更多的空间,而定时查询的方式在数据变化和更新频繁的情况下通常无法及时对无效数据做出响应,如果采用多个定时的定时查询方式,其所占用的空间也会较大。因此,根据不同的需求,选择合适的ElasticSearch的数据查询方式有助于提升处理器的执行效率。
步骤203:对比逻辑删除数据与预警阈值,确定待处理数据。
在本发明实施例中,通过对ElasticSearch的数据进行查询,即可知数据集中的逻辑删除数据数量和逻辑删除数据的大小占比,然后通过从配置文件中获知预先配置好的预警阈值,即可确定是否需要对该数据进行处理。具体地,需要判断数据集中的逻辑删除数据数量是否大于第一预警阈值,以及判断数据集中的逻辑删除数据大小占比是否大于第二预警阈值,如此即可确定出需要对逻辑删除数据进行清理的待处理数据。
比如,通过对ElasticSearch的数据进行查询扫描,确定出逻辑删除数据的数量有1GB,而通过从配置文件中获知第一阈值为800MB,那么便可知该1GB的逻辑删除数据所分布的各个文档中的所有数据即为需要进行数据处理的待处理数据。
再如,通过对ElasticSearch的数据进行查询扫描,确定出逻辑删除数据的大小为1GB,而总的数据大小为4GB,而通过从配置文件中获知的第二阈值为15%,那么即可知逻辑删除文件的大小占比1/4=25%大于第二阈值,需要进行数据处理,即该4GB的数据所包含的数据即为待处理数据。
当然,此处需要注意的是,实际应用中,数据集中的逻辑删除数据量大于第一预警阈值和数据集中的逻辑删除数据大小占比大于第二预警阈值这两个待处理数据的判断依据中,可以设定同时满足时才能确定为待处理数据,也可以择其一满足即可确定为待处理数据,这依据不同的需求进行设定。
步骤204:获取待处理数据的存储信息。
在本发明实施例中,当确定了待处理数据后,需要确定该待处理数据的存储信息,该存储信息应该至少要包括数据存储总量、文档总数和分片数。其中,数据存储总量即为待处理数据所占用的总大小、文档总数即为待处理数据所包含了几个文档的数据、分片数则为该待处理数据分布在几个设备中,抑或是分布在几个分布式文件系统中。
比如,通过数据查询获知,有1GB的逻辑删除数据,且此1GB的逻辑删除数据分布在两个文件中(一个原本文件,一个副本文件),该两个文件中的数据总大小为8GB,该8GB的数据分别存储在4台设备中,或存储在4个分布式文件系统中。那么,可知该待处理数据的数据存储总量为8GB,文档总数为2,分片数为4。
步骤205:根据存储信息和分段大小,确定待处理数据的数据处理策略。
在本发明实施例中,数据处理策略实际为如何将待处理数据中的不能被删除的数据进行存储。因此本方案通过计算确定每一页所能存储的段数,以确定如何将待处理数据进行存储。
在上述待处理数据的存储信息获取的过程中,确定出了待处理数据的数据存储总量、文档总数和分片数的值,而通过配置文件中配置分段大小,通过如下公式即可以得到每页所能存储的数据段数,公式如下所示:
Figure BDA0002784498620000111
比如,接上述步骤204实例,若从配置文件中获知分段大小为3GB,即可以确定其合并分段数为8/(2*4*3)=1段(需要指出的是,每页合并分段数的最小单位是1,且是整数,需要进1取整,因此此处取1),如此可知,在对待处理数据中不能被删除的数据进行再存储时需要将这些数据以每页1端,每段3GB的方式进行存储。
步骤206:根据数据处理策略,对待处理数据进行数据处理。
在本发明实施例,待处理数据进行数据处理的主要思路为,将待处理数据中没有被标记删除的数据提取出来,然后重新进行存储,存储完成后将原来存储有待处理数据的各个文档进行清除。如此就需要确定如何将这些提取出来的数据进行存储,接上述步骤205实例,即需要将提取出来的数据以每页1段,每段3GB的大小进行存储,然后将存储有该提取出来的数据的各个存储页进行合并,得到新的文档。
如图3和图4所示,本发明实施例提供了一种ElasticSearch的数据处理装置所在的设备和ElasticSearch的数据处理装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的ElasticSearch的数据处理装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的ElasticSearch的数据处理装置,包括加载模块401、第一确定模块402、获取模块403、第二确定模块404和数据处理模块405;
加载模块401,用于获取并加载至少一个配置文件,其中,配置文件包括预警阈值和分段大小;
第一确定模块402,用于遍历ElasticSearch的数据集群,并根据加载模块401中配置的预警阈值确定待处理数据;
获取模块403,用于获取第一确定模块402确定的待处理数据的存储信息,其中,存储信息包括数据存储总量、文档总数和分片数;
第二确定模块404,用于根据获取模块403获取到的存储信息和分段大小,确定待处理数据的数据处理策略;
数据处理模块405,用于根据第二确定模块404确定的数据处理策略对待处理数据进行数据处理。
可选地,如图4所示的ElasticSearch的数据处理装置,在本发明实施例中,第一确定模块402,还用于执行如下操作:
根据预设的数据查询方式,对ElasticSearch的数据集群进行遍历查询;
针对ElasticSearch的数据集群中的每一个数据集,均执行:
S1:判断数据集中的逻辑删除数据数量是否满足大于第一预警阈值;
S2:判断数据集中的逻辑删除数据大小占比是否满足大于第二预警阈值;
将满足步骤S1和S2中至少一个的各个数据集确定为待处理数据。
可选地,如图4所示的ElasticSearch的数据处理装置,在本发明实施例中,第一确定模块402,还用于执行如下操作:
根据预设的查询时间对ElasticSearch的数据集群中的逻辑删除数据数量和逻辑删除数据大小占比进行遍历查询;
和/或,
根据预设的时间间隔对ElasticSearch的数据集群中的逻辑删除数据数量和逻辑删除数据大小占比进行循环查询。
可选地,如图4所示的ElasticSearch的数据处理装置,在本发明实施例中,第二确定模块404,还用于执行如下操作:
根据如下公式,确定待处理数据经过数据处理后的合并分段数:
Figure BDA0002784498620000131
其中,合并分段数用于表征待处理数据经处理后每页所能存储的数据段数,数据存储总量用于表征待处理数据所占用的存储空间大小,文档总数用于表征待处理数据所包含的相同文档数量,分片数用于表征存储有待处理数据的设备数量,分段大小用于表征经处理后的待处理数据中每一段数据所占用的存储空间大小。
可选地,如图4所示的ElasticSearch的数据处理装置,在本发明实施例中,数据处理模块405,还用于执行如下操作:
从待处理数据中获取有效存储数据,其中,有效存储数据为待处理数据中未被删除的数据;
将有效存储数据按照合并分段数进行存储,获得至少一个数据存储页;
将至少一个数据存储页按照存储顺序进行合并,以及将待处理数据所在的各个文档进行清除。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.ElasticSearch的数据处理方法,其特征在于,包括:
获取并加载至少一个配置文件,其中,所述配置文件包括预警阈值和分段大小;
遍历所述ElasticSearch的数据集群,并根据所述预警阈值确定待处理数据;
获取所述待处理数据的存储信息,其中,所述存储信息包括数据存储总量、文档总数和分片数;
根据所述存储信息和所述分段大小,确定所述待处理数据的数据处理策略;
根据所述数据处理策略对所述待处理数据进行数据处理。
2.根据权利要求1所述的方法,其特征在于,所述遍历所述ElasticSearch的数据集群,并根据所述预警阈值确定待处理数据,包括:
根据预设的数据查询方式,对所述ElasticSearch的数据集群进行遍历查询;
针对所述ElasticSearch的数据集群中的每一个数据集,均执行:
S1:判断所述数据集中的逻辑删除数据数量是否满足大于第一预警阈值;
S2:判断所述数据集中的逻辑删除数据大小占比是否满足大于第二预警阈值;
将满足步骤S1和S2中至少一个的各个数据集确定为所述待处理数据。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的数据查询方式,对所述ElasticSearch的数据集群进行遍历查询,包括:
根据预设的查询时间对所述ElasticSearch的数据集群中的所述逻辑删除数据数量和所述逻辑删除数据大小占比进行遍历查询;
和/或,
根据预设的时间间隔对所述ElasticSearch的数据集群中的所述逻辑删除数据数量和所述逻辑删除数据大小占比进行循环查询。
4.根据权利要求1所述的方法,其特征在于,所述根据所述存储信息和所述分段大小,确定所述待处理数据的数据处理策略,包括:
根据如下公式,确定所述待处理数据经过数据处理后的合并分段数:
Figure FDA0002784498610000021
其中,所述合并分段数用于表征所述待处理数据经处理后每页所能存储的数据段数,所述数据存储总量用于表征所述待处理数据所占用的存储空间大小,所述文档总数用于表征所述待处理数据所包含的相同文档数量,所述分片数用于表征存储有所述待处理数据的设备数量,所述分段大小用于表征经处理后的所述待处理数据中每一段数据所占用的存储空间大小。
5.根据权利要求4所述的方法,其特征在于,所述根据所述数据处理策略对所述待处理数据进行数据处理,包括:
从所述待处理数据中获取有效存储数据,其中,所述有效存储数据为所述待处理数据中未被删除的数据;
将所述有效存储数据按照所述合并分段数进行存储,获得至少一个数据存储页;
将所述至少一个数据存储页按照存储顺序进行合并,以及将所述待处理数据所在的各个文档进行清除。
6.ElasticSearch的数据处理装置,其特征在于,包括:加载模块、第一确定模块、获取模块、第二确定模块和数据处理模块;
所述加载模块,用于获取并加载至少一个配置文件,其中,所述配置文件包括预警阈值和分段大小;
所述第一确定模块,用于遍历所述ElasticSearch的数据集群,并根据所述加载模块中配置的所述预警阈值确定待处理数据;
所述获取模块,用于获取所述第一确定模块确定的所述待处理数据的存储信息,其中,所述存储信息包括数据存储总量、文档总数和分片数;
所述第二确定模块,用于根据所述获取模块获取到的所述存储信息和所述分段大小,确定所述待处理数据的数据处理策略;
所述数据处理模块,用于根据所述第二确定模块确定的所述数据处理策略对所述待处理数据进行数据处理。
7.根据权利要求6所述的装置,其特征在于,
所述第一确定模块,还用于执行如下操作:
根据预设的数据查询方式,对所述ElasticSearch的数据集群进行遍历查询;
针对所述ElasticSearch的数据集群中的每一个数据集,均执行:
S1:判断所述数据集中的逻辑删除数据数量是否满足大于第一预警阈值;
S2:判断所述数据集中的逻辑删除数据大小占比是否满足大于第二预警阈值;
将满足步骤S1和S2中至少一个的各个数据集确定为所述待处理数据。
8.根据权利要求7所述的装置,其特征在于,
所述第一确定模块,还用于执行如下操作:
根据预设的查询时间对所述ElasticSearch的数据集群中的所述逻辑删除数据数量和所述逻辑删除数据大小占比进行遍历查询;
和/或,
根据预设的时间间隔对所述ElasticSearch的数据集群中的所述逻辑删除数据数量和所述逻辑删除数据大小占比进行循环查询。
9.根据权利要求6所述的装置,其特征在于,
所述第二确定模块,还用于执行如下操作:
根据如下公式,确定所述待处理数据经过数据处理后的合并分段数:
Figure FDA0002784498610000031
其中,所述合并分段数用于表征所述待处理数据经处理后每页所能存储的数据段数,所述数据存储总量用于表征所述待处理数据所占用的存储空间大小,所述文档总数用于表征所述待处理数据所包含的相同文档数量,所述分片数用于表征存储有所述待处理数据的设备数量,所述分段大小用于表征经处理后的所述待处理数据中每一段数据所占用的存储空间大小。
10.根据权利要求9所述的装置,其特征在于,
所述数据处理模块,还用于执行如下操作:
从所述待处理数据中获取有效存储数据,其中,所述有效存储数据为所述待处理数据中未被删除的数据;
将所述有效存储数据按照所述合并分段数进行存储,获得至少一个数据存储页;
将所述至少一个数据存储页按照存储顺序进行合并,以及将所述待处理数据所在的各个文档进行清除。
CN202011293372.XA 2020-11-18 2020-11-18 ElasticSearch的数据处理方法和装置 Pending CN112328587A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011293372.XA CN112328587A (zh) 2020-11-18 2020-11-18 ElasticSearch的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011293372.XA CN112328587A (zh) 2020-11-18 2020-11-18 ElasticSearch的数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN112328587A true CN112328587A (zh) 2021-02-05

Family

ID=74322495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011293372.XA Pending CN112328587A (zh) 2020-11-18 2020-11-18 ElasticSearch的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN112328587A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113760933A (zh) * 2021-08-25 2021-12-07 福建天泉教育科技有限公司 一种数据更新方法及终端

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1494365A (en) * 1974-04-10 1977-12-07 Honeywell Inf Systems Apparatus for selectively clearing a cache store in a processor having segmentation and paging
CN104572643A (zh) * 2013-10-10 2015-04-29 北大方正集团有限公司 搜索方法和搜索引擎
CN106469122A (zh) * 2015-08-14 2017-03-01 群联电子股份有限公司 有效数据合并方法、存储器控制器与存储器储存装置
CN106649461A (zh) * 2016-09-26 2017-05-10 浪潮电子信息产业股份有限公司 一种自动化清理维护ElasticSearch日志索引文件的方法
CN107885458A (zh) * 2017-09-28 2018-04-06 努比亚技术有限公司 一种磁盘碎片的整理方法、终端和计算机可读存储介质
CN110427364A (zh) * 2019-06-21 2019-11-08 北京奇艺世纪科技有限公司 一种数据处理方法、装置、电子设备及存储介质
CN110597797A (zh) * 2019-09-16 2019-12-20 北京百度网讯科技有限公司 表空间碎片回收方法、装置、电子设备及存储介质
CN111309267A (zh) * 2020-02-26 2020-06-19 Oppo广东移动通信有限公司 存储空间的分配方法、装置、存储设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1494365A (en) * 1974-04-10 1977-12-07 Honeywell Inf Systems Apparatus for selectively clearing a cache store in a processor having segmentation and paging
CN104572643A (zh) * 2013-10-10 2015-04-29 北大方正集团有限公司 搜索方法和搜索引擎
CN106469122A (zh) * 2015-08-14 2017-03-01 群联电子股份有限公司 有效数据合并方法、存储器控制器与存储器储存装置
CN106649461A (zh) * 2016-09-26 2017-05-10 浪潮电子信息产业股份有限公司 一种自动化清理维护ElasticSearch日志索引文件的方法
CN107885458A (zh) * 2017-09-28 2018-04-06 努比亚技术有限公司 一种磁盘碎片的整理方法、终端和计算机可读存储介质
CN110427364A (zh) * 2019-06-21 2019-11-08 北京奇艺世纪科技有限公司 一种数据处理方法、装置、电子设备及存储介质
CN110597797A (zh) * 2019-09-16 2019-12-20 北京百度网讯科技有限公司 表空间碎片回收方法、装置、电子设备及存储介质
CN111309267A (zh) * 2020-02-26 2020-06-19 Oppo广东移动通信有限公司 存储空间的分配方法、装置、存储设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113760933A (zh) * 2021-08-25 2021-12-07 福建天泉教育科技有限公司 一种数据更新方法及终端
CN113760933B (zh) * 2021-08-25 2023-11-03 福建天泉教育科技有限公司 一种数据更新方法及终端

Similar Documents

Publication Publication Date Title
US11238098B2 (en) Heterogenous key-value sets in tree database
US10552378B2 (en) Dividing a dataset into sub-datasets having a subset of values of an attribute of the dataset
KR102564170B1 (ko) 데이터 객체 저장 방법, 장치, 및 이를 이용한 컴퓨터 프로그램이 저장되는 컴퓨터 판독가능한 저장 매체
CN107577436B (zh) 一种数据存储方法及装置
US9262511B2 (en) System and method for indexing streams containing unstructured text data
Zhang et al. Hashfile: An efficient index structure for multimedia data
CN110858210A (zh) 数据查询方法及装置
CN113641681B (zh) 一种空间自适应的海量数据查询方法
CN112328587A (zh) ElasticSearch的数据处理方法和装置
WO2011137684A1 (zh) 基于嵌入式系统的信息记录的检索方法和装置
US11860840B2 (en) Update of deduplication fingerprint index in a cache memory
Zhang et al. Improving write performance of LSMT-based key-value store
Zhang et al. Improved deduplication through parallel binning
KR102354343B1 (ko) 블록체인 기반의 지리공간 데이터를 위한 공간 데이터 인덱싱 방법 및 장치
US9824105B2 (en) Adaptive probabilistic indexing with skip lists
CN112015791A (zh) 数据处理方法、装置、电子设备及计算机存储介质
US11853577B2 (en) Tree structure node compaction prioritization
CN116048396B (zh) 基于日志结构化合并树的数据存储装置和存储控制方法
CN116955286B (zh) 一种文件搜索与分类管理方法、系统及装置
KR100511164B1 (ko) 웹 검색엔진에서의 실시간 사용자 질의 분석에 기반한and 연산용 색인데이터의 캐슁 방법
Shen et al. A Distributed Caching Scheme for Improving Read-write Performance of HBase
CN116340272A (zh) 一种基于热度感知的存储引擎性能优化方法
CN117688125A (zh) 一种索引管理方法、服务器及服务器集群
CN116204549A (zh) 数据查询方法、装置、计算机设备、存储介质和程序产品
CN118051478A (zh) 一种分布式块存储小文件聚合索引管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210205