CN108897858B - 分布式集群索引分片的评估方法及装置、电子设备 - Google Patents

分布式集群索引分片的评估方法及装置、电子设备 Download PDF

Info

Publication number
CN108897858B
CN108897858B CN201810698652.5A CN201810698652A CN108897858B CN 108897858 B CN108897858 B CN 108897858B CN 201810698652 A CN201810698652 A CN 201810698652A CN 108897858 B CN108897858 B CN 108897858B
Authority
CN
China
Prior art keywords
index
interval
configuration information
cluster
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810698652.5A
Other languages
English (en)
Other versions
CN108897858A (zh
Inventor
任娜
王立新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201810698652.5A priority Critical patent/CN108897858B/zh
Publication of CN108897858A publication Critical patent/CN108897858A/zh
Application granted granted Critical
Publication of CN108897858B publication Critical patent/CN108897858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种分布式集群索引分片的评估方法及装置、电子设备,所述方法包括:获取业务方所选定的集群的配置信息以及业务方指定的单个索引的数据量的预估值;获取分布式集群的节点配置信息;根据集群的配置信息、单个索引的数据量的预估值以及节点配置信息,计算得到单个索引的分片数量区间。利用上述方案可以使索引分片等技术问题对用户透明,用户不需要了解分布式集群本身的运行以及性能相关问题,直接根据选定的配置信息及业务索引数据量的预估值,可以得到索引的分片数量区间,方便用户根据分片数量区间建立对应的索引,提高索引建立的合理性,有效避免业务发展可能出现的性能问题。

Description

分布式集群索引分片的评估方法及装置、电子设备
技术领域
本发明涉及软件领域,具体涉及一种分布式集群索引分片的评估方法及装置、电子设备。
背景技术
分布式搜索服务器,如ElasticSearch(以下简称ES),可以利用分布式集群提供分布式多用户能力的全文搜索引擎,能够达到实时搜索,稳定、可靠、快速。ES可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上,使得一个索引可以存储超过一个节点容量的数据,从而构成分布式集群搜索。但ES本身限定了只能在索引创建时一次指定分片的数量,在索引创建后分片数量不能再进行更改。因此,在建立索引时,需要预先考虑如何创建合理的分片数量,如过度分片,每个分片都是有额外的成本的,当建立的分片数量过多,分片开始竞争相同的硬件资源时,性能便会逐步下降;同时,增大了合并分片查询结果时的复杂度,增大了查询耗时;且如果在大量分片上只维护了很少的数据,则将导致最终的文档相关性较差。当分片数量过少时,分片本身过大,可能会对分布式集群从故障中恢复的能力产生负面影响。当分片的数量建立不合理时,只能重新创建索引,又使得整个过程耗时较多且影响业务使用。
基于上述问题,使得用户在建立索引时,需要先了解ES应如何设置分片,对用户限定了技术门槛要求。但实际在建立索引时,很多用户往往只想得到明确的分片数量,甚至都不关心随意的设置可能带来的问题。但现有技术还不能使用户直接得到合理的分片数量。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的分布式集群索引分片的评估方法及装置、电子设备。
根据本发明的一个方面,提供了一种分布式集群索引分片的评估方法,其包括:
获取业务方所选定的集群的配置信息以及业务方指定的单个索引的数据量的预估值;
获取分布式集群的节点配置信息;
根据集群的配置信息、单个索引的数据量的预估值以及节点配置信息,计算得到单个索引的分片数量区间。
根据本发明的另一方面,提供了一种分布式集群索引分片的评估装置,其包括:
获取模块,适于获取业务方所选定的集群的配置信息以及业务方指定的单个索引的数据量的预估值;
节点获取模块,适于获取分布式集群的节点配置信息;
分片计算模块,适于根据集群的配置信息、单个索引的数据量的预估值以及节点配置信息,计算得到单个索引的分片数量区间。
根据本发明的又一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述分布式集群索引分片的评估方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述分布式集群索引分片的评估方法对应的操作。
根据本发明提供的分布式集群索引分片的评估方法及装置、电子设备,获取业务方所选定的集群的配置信息以及业务方指定的单个索引的数据量的预估值;获取分布式集群的节点配置信息;根据集群的配置信息、单个索引的数据量的预估值以及节点配置信息,计算得到单个索引的分片数量区间。利用本发明可以使索引分片等技术问题对用户透明,用户不需要了解分布式集群本身的运行以及性能相关问题,直接根据选定的配置信息及业务索引数据量的预估值,可以得到索引的分片数量区间。方便用户根据分片数量区间建立对应的索引,提高索引建立的合理性,有效避免业务发展可能出现的性能问题。且本发明基于分布式集群配置信息和业务方需求的索引信息确定分片数量区间,使得得到的分片数量区间既满足业务方需求,又适合分布式集群配置,可以合理的保存数据,避免性能问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的分布式集群索引分片的评估方法的流程图;
图2示出了根据本发明另一个实施例的分布式集群索引分片的评估方法的流程图;
图3示出了根据本发明一个实施例的分布式集群索引分片的评估装置的功能框图;
图4示出了根据本发明一个实施例的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的分布式集群索引分片的评估方法的流程图。如图1所示,分布式集群索引分片的评估方法具体包括如下步骤:
步骤S101,获取业务方所选定的集群的配置信息以及业务方指定的单个索引的数据量的预估值。
考虑到业务方可能对集群的配置不熟悉,或者便于业务方选择,服务方可以依据部署经验把上述配置信息打包成多个固定模板形式,形成不同的集群套餐。集群套餐可以方便业务方直接选择,降低了对业务方的技术门槛要求,提高了后续对集群索引分片操作的便利性。在本发明中分布式集群为ElasticSearch分布式集群(以下简称ES分布式集群)。
业务方需要根据自己的业务需求建立索引,以便加快搜索速度,尽可能达到实时搜索的效果。在业务方使用ES分布式集群建立索引时,可以利用ES分布式集群本身对分片的管理,为索引建立多个分片。ES分布式集群对分片中数据的存储、分片中数据的查询、查询结果汇总等管理对业务方而言均是透明的,业务方不需要了解ES分布式集群中分片如何进行数据存储、查询、结果汇总等处理,仅在建立索引时指定分片数量即可。
由于业务方其主要关注点在于利用ES分布式集群进行搜索,而不了解在建立索引时设置多少个分片数量更为合理。本实施例基于业务方所了解的内容在业务方建立索引时,提供给业务方索引具体的分片数量,引导业务方建立合理的索引和分片。
业务方对业务所需的单个索引数据量可以给出预估值,预估值与业务息息相关,即业务方可以指定单个索引的数据量估算值,如500G。业务方还可以选定业务需要的ES分布式集群的集群配置信息。集群套餐的配置信息具体包括如内存总容量,由于ES分布式集群本身特性其会运行JVM锁住内存,本领域技术人员在配置ES分布式集群时即便有足够的内存,也会尽量使内存总容量不超过32G,避免浪费内存,降低CPU的性能,为ES分布式集群配置的内存总容量需要考虑不影响ES分布式集群本身的运行,且一般不会动态扩容。内存总容量会影响索引分片数量的设置,内存总容量较小时,设置在其上的分片本身可存储的数据量也会受限较小,索引的数据量的预估值较大时,可能需要设置多个分片,才能满足业务的需求;内存总容量较大时,设置在其上的分片本身存储的数据量可以大些,根据索引的数据量的预估值,可以设置少量分片。集群套餐的配置信息还可以包括磁盘容量,由于磁盘容量可以通过动态扩容实现,其对索引分片数量设置的影响较小。不同的配置信息的集群可以设置的索引分片数量也不同。集群套餐可以有多种配置方式,不同配置方式的配置信息不同,以便可以满足不同业务的需求。
步骤S102,获取分布式集群的节点配置信息。
分布式集群的节点包括了主机Master节点和数据Date节点,1个主机Master节点可以对应1个或多个的数据Date节点,从而组成一个ES分布式集群。从ES分布式集群获取到对应的节点配置信息,节点配置信息包括节点总数。如ES分布式集群中配置3个节点,节点总数为3。在ES分布式集群中,节点总数为1时,也是合理的。具体的节点总数根据实施时ES分布式集群的具体情况设置。
不同分片可以设置在相同或不同的节点上,如分片1、分片2、分片3设置在节点1上,分片4、分片5、分片6设置在节点2上,节点总数也影响索引分片数量的多少。
步骤S103,根据集群套餐的配置信息、单个索引的数据量的预估值以及节点配置信息,计算得到单个索引的分片数量区间。
执行上述步骤获取到集群套餐的配置信息、单个索引的数据量的预估值以及节点配置信息后,可以根据集群套餐的配置信息中的内存总容量、单个索引的数据量的预估值以及节点配置信息,计算得到单个索引的分片数量。分片数量与单个索引的数据量的预估值成正比,与节点总数成反比,与内存总容量成反比。当单个索引的数据量的预估值越大,单个索引要建立的分片个数越大;当节点总数越大,单个索引要建立的分片个数越小;当内存总容量越大,单个索引要建立的分片个数越小。具体的,如分片数量=单个索引的数据量的预估值/节点总数/内存总容量。单个索引的数据量的预估值为500G,节点总数为5,内存总容量为25G,可以得出分片数量为4,即对于该索引,在选定的ES分布式集群套餐中,最多可以建立4个分片。
优选地,在计算单个索引的分片数量时,不使用全部的内存总容量,而使用内存一部分容量,以便应对发生问题时,还有空闲的内存以供使用。此时,需要先确定内存占用量区间。即确定内存可以使用的最大值和最小值,内存占用量区间根据不同实施情况进行确定。再根据内存占用量区间、单个索引的数据量的预估值以及节点总数,计算得到单个索引的分片数量区间。分片数量区间的最大值/最小值与单个索引的数据量的预估值成正比;分片数量区间的最大值/最小值与节点总数成反比;分片数量区间的最大值与内存占用量区间的最大值成反比,分片数量区间的最小值与内存占用量区间的最小值成反比。当单个索引的数据量的预估值越大,单个索引要建立的分片数量区间的最大值越大,其最小值也越大;当节点总数越大,分片数量区间的最大值越小,其最小值也越小;当内存占用量区间的最大值越大,分片数量区间的最小值越小,当内存占用量区间的最小值越大,分片数量区间的最大值越小。具体的,如分片数量=单个索引的数据量的预估值/节点总数/内存占用量区间[最小值,最大值]。单个索引的数据量的预估值为500G,节点总数为5个,内存总容量为25G,内存占用量区间最小值为10G,可以得出分片数量最大值10;内存占用量区间最大值为20G,可以得出分片数量最小值5;从而得到分片数量区间为5-10个。业务方可以在分片数量区间内任选一个数值作为建立索引时的分片数量。
根据本发明提供的分布式集群索引分片的评估方法,获取业务方所选定的集群的配置信息以及业务方指定的单个索引的数据量的预估值;获取分布式集群的节点配置信息;根据集群的配置信息、单个索引的数据量的预估值以及节点配置信息,计算得到单个索引的分片数量区间。利用本发明可以使ES索引分片等技术问题对用户透明,用户不需要了解ES本身的运行以及性能相关问题,直接根据选定的配置信息及业务索引数据量的预估值,可以得到索引的分片数量区间。方便用户根据分片数量区间建立对应的索引,提高索引建立的合理性,有效避免业务发展可能出现的性能问题。且本发明基于分布式集群配置信息和业务方需求的索引信息确定分片数量区间,使得得到的分片数量区间既满足业务方需求,又适合分布式集群配置,可以合理的保存数据,避免性能问题。
图2示出了根据本发明另一个实施例的分布式集群索引分片的评估方法的流程图。如图2所示,分布式集群索引分片的评估方法具体包括如下步骤:
步骤S201,获取业务方所选定的集群的配置信息以及业务方指定的单个索引的数据量的预估值。
步骤S202,获取分布式集群的节点配置信息。
步骤S203,根据集群的配置信息、单个索引的数据量的预估值以及节点配置信息,计算得到单个索引的分片数量区间。
以上步骤参照图1实施例中步骤S101-S103的描述,在此不再赘述。
步骤S204,获取索引的副本个数。
考虑到ES分布式集群中某个节点可能会发生网络故障如离线、宕机等情况,还需要对索引建立副本。建立索引的副本,可以对分片进行复制,使复制的分片与原分片设置于不同节点。当某一节点发生故障时,可以使用其他节点上复制的分片继续进行搜索或恢复数据等,避免业务受到影响,提高数据的高可用性。副本个数可以根据业务需求或设备情况等设置。副本个数可以直接由业务方指定,或者从ES分布式集群中获取其设定的索引的副本个数。
步骤S205,根据单个节点所能建立的分片数量最大值、副本个数、节点总数以及单个索引的分片数量区间,计算得到对应集群的配置信息所能建立的索引个数区间。
索引个数建立的多少与业务相关,同时也受到ES分布式集群本身配置信息的影响。索引会影响搜索结果的快慢速度、运行性能等多个方面。建立多少个索引更为合理,业务方是无法直接确定的。在本实施例中,根据单个节点所能建立的分片数量最大值、副本个数、节点总数以及单个索引的分片数量区间,可以计算得到利用集群套餐所能建立的索引个数区间。即得到业务方可以建立多少个索引。业务方可以根据得到的索引个数区间,从中选择合适的索引个数来建立索引。单个节点所能建立的分片数据最大值为将ES分布式集群中1个节点的内存总容量全部占用来建立分片时,所能建立的分片数量最大值。该分片数量最大值通过大量多次的压力测试得到。
具体的,索引个数区间的最大值/最小值与单个节点所能建立的分片数量最大值成正比;索引个数区间的最大值/最小值与节点总数成正比;索引个数区间的最大值/最小值与副本个数成反比;索引个数区间的最大值与单个索引的分片数量区间的最小值成反比;索引个数区间的最小值与单个索引的分片数量区间的最大值成反比。当单个节点所能建立的分片数量最大值越大,索引个数区间的最大值越大,其最小值也越大;当节点总数越大,索引个数区间的最大值越大,其最小值也越大;当副本个数越大,索引个数区间的最大值越小,其最小值也越小;当单个索引的分片数量区间的最大值越大,索引个数区间的最小值越小,当单个索引的分片数量区间的最小值越大,索引个数区间的最大值越小。
如索引个数区间=单个节点所能建立的分片数量最大值*节点总数/(1+副本个数)/单个索引的分片数量区间[最小值,最大值]。单个节点所能建立的分片数量最大值为20个,节点总数为3个,副本个数为1个,单个索引的分片数量区间最小值为5个,可以得出索引个数区间最大值为6,单个索引的分片数量区间最大值为10个,可以得出索引个数区间最小值为3,索引个数区间为3-6个。即对于该数据量的索引,对应的对选定的ES分布式集群的配置信息,可以建立3-6个。
根据本发明提供的分布式集群索引分片的评估方法,根据选定的配置信息及业务索引数据量的预估值,可以得到索引的分片数量区间。方便用户根据分片数量区间建立对应的索引,提高索引建立的合理性,有效避免业务发展可能出现的性能问题。进一步,还可以根据单个节点所能建立的分片数量最大值、副本个数、节点总数以及单个索引的分片数量区间,计算得到对应的集群配置信息所能建立的索引个数区间,引导业务方建立合理个数的索引,在既满足业务方需求的同时,又适合分布式集群配置,合理的保存数据,避免性能问题。
图3示出了根据本发明一个实施例的分布式集群索引分片的评估装置的功能框图。如图3所示,分布式集群索引分片的评估装置包括如下模块:
获取模块310适于:获取业务方所选定的集群的配置信息以及业务方指定的单个索引的数据量的预估值。
节点获取模块320适于:获取分布式集群的节点配置信息。
分片计算模块330适于:根据集群的配置信息、单个索引的数据量的预估值以及节点配置信息,计算得到单个索引的分片数量区间。
进一步,分片计算模块330还适于:确定内存占用量区间;根据内存占用量区间、单个索引的数据量的预估值以及节点总数,计算得到单个索引的分片数量区间。
可选地,装置还包括索引计算模块340适于:获取索引的副本个数;根据单个节点所能建立的分片数量最大值、副本个数、节点总数以及单个索引的分片数量区间,计算得到对应集群的配置信息所能建立的索引个数区间。
以上各模块的具体描述可参照各方法实施例中对应的步骤的描述,在此不再赘述。
根据本发明提供的分布式集群索引分片的评估装置,获取业务方所选定的集群的配置信息以及业务方指定的单个索引的数据量的预估值;获取分布式集群的节点配置信息;根据集群的配置信息、单个索引的数据量的预估值以及节点配置信息,计算得到单个索引的分片数量区间。利用本发明可以使ES索引分片等技术问题对用户透明,用户不需要了解ES本身的运行以及性能相关问题,直接根据选定的配置信息及业务索引数据量的预估值,可以得到索引的分片数量区间。方便用户根据分片数量区间建立对应的索引,提高索引建立的合理性,有效避免业务发展可能出现的性能问题。且本发明基于分布式集群配置信息和业务方需求的索引信息确定分片数量区间,使得得到的分片数量区间既满足业务方需求,又适合分布式集群配置,可以合理的保存数据,避免性能问题。
本申请还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的ES分布式集群索引分片的评估方法。
图4示出了根据本发明一个实施例的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图4所示,该电子设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述ES分布式集群索引分片的评估方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行上述任意方法实施例中的ES分布式集群索引分片的评估方法。程序410中各步骤的具体实现可以参见上述ES分布式集群索引分片的评估实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的ES分布式集群索引分片的评估装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (12)

1.一种分布式集群索引分片的评估方法,包括:
获取业务方所选定的集群的配置信息以及所述业务方指定的单个索引的数据量的预估值,所述集群套餐的配置信息包括内存总容量;
获取分布式集群的节点配置信息,所述节点配置信息包括节点总数;
根据所述集群的配置信息、单个索引的数据量的预估值以及节点配置信息,计算得到单个索引的分片数量区间;其中,分片数量=(所述单个索引的数据量的预估值÷所述节点总数)÷所述内存总容量。
2.根据权利要求1所述的方法,其中,所述根据所述集群的配置信息、单个索引的数据量的预估值以及节点配置信息,计算得到单个索引的分片数量区间进一步包括:
确定内存占用量区间;
根据所述内存占用量区间、单个索引的数据量的预估值以及节点总数,计算得到单个索引的分片数量区间。
3.根据权利要求2所述的方法,其中,所述分片数量区间的最大值/最小值与所述单个索引的数据量的预估值成正比;
所述分片数量区间的最大值/最小值与所述节点总数成反比;
所述分片数量区间的最大值与所述内存占用量区间的最小值成反比,所述分片数量区间的最小值与所述内存占用量区间的最大值成反比。
4.根据权利要求1-3中任一项所述的方法,其中,在所述计算得到单个索引的分片数量区间之后,所述方法还包括:
获取索引的副本个数;
根据单个节点所能建立的分片数量最大值、所述副本个数、所述节点总数以及所述单个索引的分片数量区间,计算得到对应所述集群的配置信息所能建立的索引个数区间;其中,索引个数=所述单个节点所能建立的分片数量最大值×所述节点总数÷(1+所述副本个数)÷所述单个索引的分片数量。
5.根据权利要求4所述的方法,其中,所述索引个数区间的最大值/最小值与所述单个节点所能建立的分片数量最大值成正比;
所述索引个数区间的最大值/最小值与所述节点总数成正比;
所述索引个数区间的最大值/最小值与所述副本个数成反比;
所述索引个数区间的最大值与所述单个索引的分片数量区间的最小值成反比;所述索引个数区间的最小值与所述单个索引的分片数量区间的最大值成反比。
6.一种分布式集群索引分片的评估装置,其包括:
获取模块,适于获取业务方所选定的集群的配置信息以及所述业务方指定的单个索引的数据量的预估值,所述集群套餐的配置信息包括内存总容量;
节点获取模块,适于获取分布式集群的节点配置信息,所述节点配置信息包括节点总数;
分片计算模块,适于根据所述集群的配置信息、单个索引的数据量的预估值以及节点配置信息,计算得到单个索引的分片数量区间;其中,分片数量=(所述单个索引的数据量的预估值÷所述节点总数)÷所述内存总容量。
7.根据权利要求6所述的装置,其中,所述分片计算模块进一步适于:
确定内存占用量区间;根据所述内存占用量区间、单个索引的数据量的预估值以及节点总数,计算得到单个索引的分片数量区间。
8.根据权利要求7所述的装置,其中,所述分片数量区间的最大值/最小值与所述单个索引的数据量的预估值成正比;
所述分片数量区间的最大值/最小值与所述节点总数成反比;
所述分片数量区间的最大值与所述内存占用量区间的最小值成反比,所述分片数量区间的最小值与所述内存占用量区间的最大值成反比。
9.根据权利要求6-8任一项所述的装置,其中,所述装置还包括:
索引计算模块,适于获取索引的副本个数;根据单个节点所能建立的分片数量最大值、所述副本个数、所述节点总数以及所述单个索引的分片数量区间,计算得到对应所述集群的配置信息所能建立的索引个数区间。
10.根据权利要求9所述的装置,其中,所述索引个数区间的最大值/最小值与所述单个节点所能建立的分片数量最大值成正比;
所述索引个数区间的最大值/最小值与所述节点总数成正比;
所述索引个数区间的最大值/最小值与所述副本个数成反比;
所述索引个数区间的最大值与所述单个索引的分片数量区间的最小值成反比;所述索引个数区间的最小值与所述单个索引的分片数量区间的最大值成反比。
11.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-5中任一项所述的分布式集群索引分片的评估方法对应的操作。
12.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-5中任一项所述的分布式集群索引分片的评估方法对应的操作。
CN201810698652.5A 2018-06-29 2018-06-29 分布式集群索引分片的评估方法及装置、电子设备 Active CN108897858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810698652.5A CN108897858B (zh) 2018-06-29 2018-06-29 分布式集群索引分片的评估方法及装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810698652.5A CN108897858B (zh) 2018-06-29 2018-06-29 分布式集群索引分片的评估方法及装置、电子设备

Publications (2)

Publication Number Publication Date
CN108897858A CN108897858A (zh) 2018-11-27
CN108897858B true CN108897858B (zh) 2021-06-22

Family

ID=64347357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810698652.5A Active CN108897858B (zh) 2018-06-29 2018-06-29 分布式集群索引分片的评估方法及装置、电子设备

Country Status (1)

Country Link
CN (1) CN108897858B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111240577B (zh) * 2018-11-28 2023-08-15 中国移动通信集团山东有限公司 基于mpp数据库的数据多分片存储方法及装置
CN112579726A (zh) * 2019-09-29 2021-03-30 伊姆西Ip控股有限责任公司 管理索引表的方法、设备和计算机程序产品
CN113609245B (zh) * 2021-06-24 2023-12-22 济南浪潮数据技术有限公司 一种索引的分片扩容方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467570A (zh) * 2010-11-17 2012-05-23 日电(中国)有限公司 用于分布式数据仓库的连接查询系统和方法
WO2013147785A1 (en) * 2012-03-29 2013-10-03 Hitachi Data Systems Corporation Highly available search index with storage node addition and removal
CN107391508A (zh) * 2016-05-16 2017-11-24 顺丰科技有限公司 数据加载方法和系统
CN107566531A (zh) * 2017-10-17 2018-01-09 厦门市美亚柏科信息股份有限公司 一种支持均衡资源的Elasticsearch集群扩展方法
CN108038239A (zh) * 2017-12-27 2018-05-15 中科鼎富(北京)科技发展有限公司 一种异构数据源规范化处理方法、装置及服务器

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565198B2 (en) * 2015-06-23 2020-02-18 Microsoft Technology Licensing, Llc Bit vector search index using shards
US10394822B2 (en) * 2015-09-25 2019-08-27 Mongodb, Inc. Systems and methods for data conversion and comparison
CN107544848B (zh) * 2017-08-30 2019-10-25 深圳云天励飞技术有限公司 集群扩展方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467570A (zh) * 2010-11-17 2012-05-23 日电(中国)有限公司 用于分布式数据仓库的连接查询系统和方法
WO2013147785A1 (en) * 2012-03-29 2013-10-03 Hitachi Data Systems Corporation Highly available search index with storage node addition and removal
CN107391508A (zh) * 2016-05-16 2017-11-24 顺丰科技有限公司 数据加载方法和系统
CN107566531A (zh) * 2017-10-17 2018-01-09 厦门市美亚柏科信息股份有限公司 一种支持均衡资源的Elasticsearch集群扩展方法
CN108038239A (zh) * 2017-12-27 2018-05-15 中科鼎富(北京)科技发展有限公司 一种异构数据源规范化处理方法、装置及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Elasticsearch的分布式智能搜索引擎的研究与实现;曾亚飞;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315;第25-46页 *
基于ElasticSearch的海量AIS数据存储方法;郑义成等;《指挥信息系统与技术》;20160630;第7卷(第3期);全文 *

Also Published As

Publication number Publication date
CN108897858A (zh) 2018-11-27

Similar Documents

Publication Publication Date Title
CN106302702B (zh) 数据的分片存储方法、装置及系统
CN107391629B (zh) 集群间数据迁移方法、系统、服务器及计算机存储介质
JP5449628B2 (ja) マルチステージを使用したカテゴリ情報の決定
CN107798108B (zh) 一种异步任务查询方法及设备
CN108897858B (zh) 分布式集群索引分片的评估方法及装置、电子设备
US20050044547A1 (en) System and method for allocating system resources
CN109032796B (zh) 一种数据处理方法和装置
EP3161662B1 (en) Optimized browser render process
CN108829510B (zh) 线程绑定处理方法和装置
CN109359060B (zh) 数据抽取方法、装置、计算设备及计算机存储介质
CN107329802B (zh) 一种虚拟机创建方法及电子设备
EP4012573A1 (en) Graph reconstruction method and apparatus
CN111046004B (zh) 一种数据文件存储方法、装置、设备及存储介质
CN112433812A (zh) 一种虚拟机跨集群迁移方法、系统、设备及计算机介质
CN111858014A (zh) 资源分配方法及装置
CN115150268A (zh) Kubernetes集群的网络配置方法、装置、及电子设备
CN110175182B (zh) 数据核对方法及装置
JP2002342403A (ja) フォールスパス検出装置、フォールスパス検出方法およびそのプログラム
CN113687908A (zh) Pmem虚拟机的创建方法、装置、设备及可读存储介质
CN109033189B (zh) 链路结构日志的压缩方法、装置、服务器及可读存储介质
CN113342647A (zh) 一种测试数据的生成方法及装置
CN112988367A (zh) 资源的分配方法、装置、计算机设备及可读存储介质
CN109039801B (zh) 分布式集群的套餐超用检测方法及装置、计算设备
CN111090629B (zh) 一种数据文件存储方法、装置、设备及存储介质
CN110287004B (zh) 基于docker容器技术的基础环境镜像预热方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant