CN116701485A - 基于分布式检索系统的系统优化装置、方法、设备及介质 - Google Patents
基于分布式检索系统的系统优化装置、方法、设备及介质 Download PDFInfo
- Publication number
- CN116701485A CN116701485A CN202310686042.4A CN202310686042A CN116701485A CN 116701485 A CN116701485 A CN 116701485A CN 202310686042 A CN202310686042 A CN 202310686042A CN 116701485 A CN116701485 A CN 116701485A
- Authority
- CN
- China
- Prior art keywords
- cluster
- monitoring
- retrieval
- distributed
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012544 monitoring process Methods 0.000 claims abstract description 177
- 238000005192 partition Methods 0.000 claims abstract description 28
- 230000002159 abnormal effect Effects 0.000 claims abstract description 25
- 239000012634 fragment Substances 0.000 claims abstract description 21
- 238000007726 management method Methods 0.000 claims description 58
- 238000013500 data storage Methods 0.000 claims description 19
- 238000012546 transfer Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 230000005856 abnormality Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 abstract description 14
- 239000002699 waste material Substances 0.000 abstract description 10
- 238000012545 processing Methods 0.000 description 11
- 238000013508 migration Methods 0.000 description 10
- 230000005012 migration Effects 0.000 description 10
- 238000013467 fragmentation Methods 0.000 description 7
- 238000006062 fragmentation reaction Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000000903 blocking effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于分布式检索系统的系统优化装置、方法、设备及介质,涉及计算机技术领域,该装置包括:倾斜均衡策略模块,用于设置当前分布式检索集群的监测规则、监测范围和监测指标阈值;动态均衡监测模块,用于根据监测规则、监测范围和监测指标阈值对分布式检索集群的倾斜情况进行监测;倾斜均衡管理模块,用于根据集群监测信息对分布式检索集群的资源分布和请求分布分别进行动态均衡管理和分区分层管理。本申请通过对分布式检索系统的分片存储和检索流程中加入倾斜监测机制、倾斜均衡管理机制和请求分区分层控制机制,实现当前分布式检索集群的均衡优化,维护了资源和请求的平衡,从而避免倾斜所导致的请求异常和资源浪费问题。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种基于分布式检索系统的系统优化装置、方法、设备及介质。
背景技术
当前的分布式检索系统运行时,由于每个检索数据集拥有较大的独立控制权限,尤其是在每个索引分片及其数据副本大小的控制和分片的位置分布上有较高的灵活性,从而导致整个分布式检索集群中的分片分布和请求分布容易出现倾斜问题,例如,数据存储容量倾斜,即数据存储总是落到集群中少数节点,又如请求倾斜,请求总是落到少数节点,从而引起性能利用不平衡和资源浪费的现象,尤其是在整个分布式检索集群的数据存储达到临界水位时,会出现集群大量检索请求异常的情况,从而降低了分布式检索系统的性能利用率,导致集群请求异常和资源浪费。
发明内容
有鉴于此,本发明的目的在于提供一种基于分布式检索系统的系统优化装置、方法、设备及介质,能够实现当前分布式检索集群的均衡优化,维护了资源和请求的平衡,从而避免倾斜所带来的请求异常和资源浪费的问题。其具体方案如下:
第一方面,本申请公开了一种基于分布式检索系统的系统优化装置,包括:
倾斜均衡策略模块,用于设置当前分布式检索集群的监测规则、监测范围和监测指标阈值;
动态均衡监测模块,用于根据所述倾斜均衡策略模块设置的所述监测规则、所述监测范围和所述监测指标阈值对所述分布式检索集群中的各检索节点的倾斜情况进行监测得到相应的集群监测信息;
倾斜均衡管理模块,用于根据接收到的所述动态均衡监测模块上报的所述集群监测信息对所述分布式检索集群的资源分布进行动态均衡管理,并根据所述集群监测信息对所述分布式检索集群的请求的分布进行分区分层管理以实现所述当前分布式检索集群的均衡优化。
可选的,所述基于分布式检索系统的系统优化装置,还包括:
集群状态保护模块,用于当所述分布式检索集群出现大范围请求异常时,熔断所述检索节点的检索服务,并将后续请求转移至其它检索节点以保护所述分布式检索集群的运行稳定。
可选的,所述倾斜均衡策略模块运行于所述分布式检索集群的主检索节点上、所述动态均衡监测模块运行于所述分布式检索集群的数据存储检索节点上以及所述倾斜均衡管理模块运行于所述分布式检索集群的数据存储检索节点和主检索节点上。
可选的,所述动态均衡监测模块,具体用于:
根据所述倾斜均衡策略模块设置的所述监测规则、所述监测范围,从分片存储和请求分发的角度对所述分布式检索集群中的各检索节点进行监测得到相应的节点信息;
基于所述倾斜均衡策略模块设置的所述监测指标阈值对所述节点信息中相关的指标数据进行告警分析得到相应的告警分析信息;
将所述节点信息和所述告警分析信息进行汇总得到相应的集群监测信息。
可选的,所述倾斜均衡管理模块,包括:
数据倾斜控制单元,用于根据所述集群监测信息确定所述当前分布式检索集群中各检索节点的数据倾斜情况,并基于所述数据倾斜情况对所述分布式检索集群的资源分布进行动态均衡管理,直至达到资源平衡;
请求分层控制单元,用于根据所述集群监测信息确定所述当前分布式检索集群中各检索节点的请求倾斜情况,并基于所述请求倾斜情况对所述分布式检索集群的请求分布进行分区分层管理,直至达到请求平衡。
可选的,所述数据倾斜控制单元,具体用于:
基于所述数据倾斜情况确定出所述分布式检索集群中资源存储差异异常的检索节点;
对所述检索节点的资源分布进行数据均衡转移和接收操作。
可选的,所述请求分层控制单元,具体用于:
对所述集群监测信息中各所述检索节点的历史请求和当前请求进行汇总统计以确定各所述检索节点的请求频率分布;
基于所述请求频率分布对各所述检索节点进行冷温热分区管理得到分区后的热区节点、温区节点和冷区节点;所述热区节点、温区节点和冷区节点分别表示请求繁忙程度不同的节点;
对于请求繁忙的所述热区节点,则检索所述热区节点对应的分片副本所在的位置,并将请求转移至所述位置对应的所述冷区节点或所述温区节点。
第二方面,本申请公开了一种基于分布式检索系统的系统优化方法,应用于前述公开的基于分布式检索系统的系统优化装置,包括:
设置当前分布式检索集群的监测规则、监测范围和监测指标阈值;
根据所述监测规则、所述监测范围和所述监测指标阈值对所述分布式检索集群中的各检索节点的倾斜情况进行监测得到相应的集群监测信息;
根据所述集群监测信息对所述分布式检索集群的资源分布进行动态均衡管理,并根据所述集群监测信息对所述分布式检索集群的请求的分布进行分区分层管理以实现所述当前分布式检索集群的均衡优化。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的基于分布式检索系统的系统优化方法的步骤。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的基于分布式检索系统的系统优化方法的步骤。
可见,本申请提供了一种基于分布式检索系统的系统优化装置,包括:倾斜均衡策略模块,用于设置当前分布式检索集群的监测规则、监测范围和监测指标阈值;动态均衡监测模块,用于根据所述倾斜均衡策略模块设置的所述监测规则、所述监测范围和所述监测指标阈值对所述分布式检索集群中的各检索节点的倾斜情况进行监测得到相应的集群监测信息;倾斜均衡管理模块,用于根据接收到的所述动态均衡监测模块上报的所述集群监测信息对所述分布式检索集群的资源分布进行动态均衡管理,并根据所述集群监测信息对所述分布式检索集群的请求的分布进行分区分层管理以实现所述当前分布式检索集群的均衡优化。由此可知,本申请通过对分布式检索系统的分片存储和检索流程中加入倾斜监测机制、倾斜均衡管理机制和请求分区分层控制机制,从而能够实现当前分布式检索集群的均衡优化,维护了资源和请求的平衡,从而避免倾斜所带来的请求异常和资源浪费的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种基于分布式检索系统的系统优化装置结构示意图;
图2为本申请公开的一种具体的基于分布式检索系统的系统优化装置结构示意图;
图3为本申请公开的一种基于分布式检索系统的系统优化方法流程图;
图4为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前,分布式检索系统运行时,由于每个检索数据集拥有较大的独立控制权限,尤其是在每个索引分片及其数据副本大小的控制和分片的位置分布上有较高的灵活性,从而导致整个分布式检索集群中的分片分布和请求分布容易出现倾斜问题,例如,数据存储容量倾斜,即数据存储总是落到集群中少数节点,又如请求倾斜,请求总是落到少数节点,从而引起性能利用不平衡和资源浪费的现象,尤其是在整个分布式检索集群的数据存储达到临界水位时,会出现集群大量检索请求异常的情况,从而降低了分布式检索系统的性能利用率,导致集群请求异常和资源浪费。为此,本申请提供了一种基于分布式检索系统的系统优化系统,能够实现当前分布式检索集群的均衡优化,维护了资源和请求的平衡,从而避免倾斜所带来的请求异常和资源浪费的问题。
需要指出的是,分布式检索系统一种快速检索系统框架,它的工作模式意味着可以把自身的数据处理工作分散在整个检索系统的所有组成节点上,保证每个组成节点都能参与到数据的存储和读写请求工作中,保证整个检索系统可以均衡、快速且高效的运行,并快速反馈客户端发出的检索请求。
本申请实施例还公开了一种基于分布式检索系统的系统优化装置,参见图1所示,该装置包括:
倾斜均衡策略模块11,用于设置当前分布式检索集群的监测规则、监测范围和监测指标阈值。
可以理解的是,所述倾斜均衡策略模块11运行于所述分布式检索集群的主检索节点上,并且上述倾斜均衡策略模块11为对用户开放的,即用于向用户提供的自定义策略配置入口,用于设置监测当前分布式检索集群的各种指标的监测指标阈值、监测规则、监测范围等,还用于配置分片均衡管理时的基准策略,在本实施例的均衡策略中涉及到的所有阈值的设置均存在系统默认设置的阈值,并且当用户对分布式检索集群存在特殊集群设定的需求或用户存在自主定义的需求时,也可通过配置窗口进行自动设定并生效。
需要指出的是,在业务过程中部分特殊角色节点,如coordinator节点和master节点,这两种节点主要用于接收请求并分发以及实现集群层面的管理,无需纳入后续的均衡管理,普通数据节点是数据存储和检索请求响应的主要角色,但由于硬件配置和集群分区机制的存在,导致不同数据节点具有不同的容量阈值,需要在倾斜均衡策略模块11中做好相关的参数或阈值的配置,即根据实际集群情况进行具体的数据动态均衡阈值、请求均衡转移阈值等的配置,提供均衡依据。也即倾斜均衡策略模块主要负责提供自定义监测和决策参数的配置入口,在不同的模块中作为动作触发依据,合理的参数定义可使集群保持最优的均衡处理效率,而且自主定义参数优先级大于默认参数的优先级。
例如,监测规则设定,即设置监测上报的频率为1min/次、节点请求均值的统计时段为30分钟或1小时、节点请求峰值的获取时段为30min,即在30分钟内统计峰值次数;监测范围设定,即设置监测范围包含segment缓存、分片存储、请求分布等;监测指标阈值的明细设定,即query峰值阈值可设定为1000、query均值阈值可设定为800、分片存储容量峰值阈值可设定为75%、分片存储容量均值阈值可设定为70%、segment内存占用峰值阈值可设定为80%、segment内存占用均值阈值可设定为70%,并且当频繁出现告警时,让动态均衡监测模块12可以直接跳过1min/次的上报频率,直接启用熔断上报,触发倾斜均衡管理模块13处理集群分片均衡。
动态均衡监测模块12,用于根据所述倾斜均衡策略模块设置的所述监测规则、所述监测范围和所述监测指标阈值对所述分布式检索集群中的各检索节点的倾斜情况进行监测得到相应的集群监测信息。
可以理解的是,所述动态均衡监测模块12运行于所述分布式检索集群的数据存储检索节点上,通过动态均衡监测模块进行整体的资源和请求情况监测以收集倾斜均衡管理模块所需的决策信息,为倾斜均衡管理模块提供触发条件和分析条件,即从分片存储和请求分发的维度,根据所述倾斜均衡策略模块11设置的所述监测规则、所述监测范围和所述监测指标阈值对所述分布式检索集群中的各检索节点的倾斜情况进行监测得到相应的集群监测信息。
作为一种具体的实施例,所述动态均衡监测模块12,具体用于根据所述倾斜均衡策略模块11设置的所述监测规则、所述监测范围,从分片存储和请求分发的角度对所述分布式检索集群中的各检索节点进行监测得到相应的节点信息;基于所述倾斜均衡策略模块11设置的所述监测指标阈值对所述节点信息中相关的指标数据进行告警分析得到相应的告警分析信息;将所述节点信息和所述告警分析信息进行汇总得到相应的集群监测信息。可以理解的是,动态均衡监测模块12主要是从分片存储和请求分发的维度进行分布式检索集群中各检索节点的倾斜情况的监控,得到包含分片segment缓存、分片数据容量、节点数据容量、过去30分钟节点请求均值和节点请求峰值、当前节点请求情况等节点信息的集群监测信息,之后将集群监测信息汇总至倾斜均衡管理模块13进行动态均衡分析,进而进行节点数据和请求分布的均衡管理;
可以理解的是,所述动态均衡监测模块12运行于所述分布式检索集群的数据存储检索节点上,从分片存储和请求分发的维度,根据所述倾斜均衡策略模块11设置的所述监测规则、所述监测范围,动态对各检索节点的分片存储、请求分发、segment缓存等进行倾斜监测,并结合均衡策略定义的各种指标阈值进行监测信息的告警分析以便及时获取所监控指标的性能和资源使用问题,然后汇总历史分片存储、请求分布分发、segment缓存等监测情况和告警分析信息,这些信息将用作分片均衡操作的分析处理依据,封装传递交给分片均衡模块13进行操作处理。
例如,动态均衡监测模块12读取解析倾斜均衡策略模块11定义的监测规则和监测范围,即监测上报频率1min/次、节点请求均值的统计时段为30分钟或1小时、节点请求峰值的获取时段为30分钟、监测范围含segment缓存/分片存储/请求分布、query峰值阈值设定为1000、query均值阈值设定为800、分片存储容量峰值阈值设定为75%、分片存储容量均值阈值设定为70%、segment内存占用峰值阈值设定为80%、segment内存占用均值阈值设定为70%等,然后监控收集分布式检索集群过去30分钟的资源消耗均值,如节点1在过去30分钟的query均值、分片存储容量均值以及请求segment内存占用均值,如果资源消耗均值均超过倾斜均衡策略模块11定义的阈值,则直接标记为均值超限告警,并监测分布式检索集群过去30分钟的query峰值、分片存储容量峰值和segment内存占用峰值,如果存在峰值超过倾斜均衡策略模块11定义的阈值,则直接标记为峰值超限告警,最后汇总所有的节点监测信息和告警分析信息,并封装上报至倾斜均衡管理模块13。
倾斜均衡管理模块13,用于根据接收到的所述动态均衡监测模块上报的所述集群监测信息对所述分布式检索集群的资源分布进行动态均衡管理,并根据所述集群监测信息对所述分布式检索集群的请求的分布进行分区分层管理以实现所述当前分布式检索集群的均衡优化。
可以理解的是,所述倾斜均衡管理模块13运行于所述分布式检索集群的数据存储检索节点和主检索节点上,用于接收动态均衡监测模块12发送的集群监测信息以实时感知当前分布式检索集群的实时均衡状况,并对所述分布式检索集群的资源分布进行动态均衡管理以及对所述分布式检索集群的请求的分布进行分区分层管理。例如,接收动态均衡监测模块12传递的集群监测信息,解析该集群监测信息的节点信息,如节点1的query均值为900、query峰值为1100、分片存储容量均值为75%、分片存储容量峰值为85%、segment内存占用均值为80%、segment内存占用峰值为90%,以及query均值、segment内存占用均值超阈值等告警信息。然后,根据接收解析到的集群监测信息,分析节点存储情况,例如,节点1的分片存储容量均值在过去30min达到了75%、分片存储容量峰值超过85%、或segment内存占用峰值达到了90%、segment内存占用均值达到80%,其中的均值和峰值均超过预警阈值,接收到动态均衡监测模块12直接的超限告警,则确认为分布式检索集群存在资源倾斜风险,然后启动分片迁移动作直至迁移完成达到平衡。
作为一种具体的实施例,所述倾斜均衡管理模块13,包括数据倾斜控制单元和请求分层控制单元。其中,数据倾斜控制单元,用于根据所述集群监测信息确定所述当前分布式检索集群中各检索节点的数据倾斜情况,并基于所述数据倾斜情况对所述分布式检索集群的资源分布进行动态均衡管理,直至达到资源平衡;请求分层控制单元,用于根据所述集群监测信息确定所述当前分布式检索集群中各检索节点的请求倾斜情况,并基于所述请求倾斜情况对所述分布式检索集群的请求分布进行分区分层管理,直至达到请求平衡。
作为一种具体的实施例,所述数据倾斜控制单元,具体用于基于所述数据倾斜情况确定出所述分布式检索集群中资源存储差异异常的检索节点;对所述检索节点的资源分布进行数据均衡转移和接收操作。可以理解的是,倾数据倾斜控制单元对集群中资源存储差异异常的节点进行均衡管理,即对数据均衡差异较大的节点进行等次对比迁移,例如,根据动态均衡监测模块12监测分布式检索集群中分片的分布情况,对数据进行动态均衡管理,也即通过与异常节点均值相等的节点进行数据均衡转移和接收,即在分布式检索集群中数据存储最多的节点和数据存储最少的节点之间进行数据迁移,数据存储次多的节点和数据存储次少的节点之间进行数据迁移接收,其他节点以此类推。需要说明的是,在数据均衡转移的过程中分析出分片动态较高的节点优先转移,而且还需评估数据均衡转移后的新均衡情况是否达到转移节点和接收节点之间的数据平衡,以避免分片较大数据迁移后引起新的均衡问题。
作为一种具体的实施例,所述请求分层控制单元,具体用于:对所述集群监测信息中各所述检索节点的历史请求和当前请求进行汇总统计以确定各所述检索节点的请求频率分布;基于所述请求频率分布对各所述检索节点进行冷温热分区管理得到分区后的热区节点、温区节点和冷区节点;所述热区节点、温区节点和冷区节点分别表示请求繁忙程度不同的节点;对于请求繁忙的所述热区节点,则检索所述热区节点对应的分片副本所在的位置,并将请求转移至所述位置对应的所述冷区节点或所述温区节点。可以理解的是,本实施例中,对节点请求进行分层管理,并对繁忙程度不同的节点进行节点请求再分布以优化集群请求负载情况。例如,根据动态均衡监测模块12传输的集群监测信息,对所述分布式检索集群中的各节点历史请求和当前请求进行汇总统计得出各检索节点的请求频率分布,然后综合所有节点的请求频率分布将各检索节点分为冷温热三层区域的节点,主动对后续的请求进行调配,即对于请求繁忙的热区节点,将检索到其对应分片副本所在的位置,如果其副本所在位置为冷区节点或温区节点,则请求转移该冷区节点或温区节点进行执行,避免请求繁忙的节点出现大量请求异常的情况。例如,汇总统计动态均衡监测模块12传递的所有节点的query分布情况,按照动态的query均值将所有节点进行冷温热分区管理,当监测到某节点请求频率异常时,如节点1的请求query均值达到1000以及query峰值达到1200,则触发分区请求转移,在冷区或温区寻找分片副本并将达到峰值节点的请求进行转移,并优先冷区转移,以达到新的请求平衡,避免部分节点请求过多导致请求堵塞异常问题。
一种具体的实施例中,所述倾斜均衡管理模块13还用于解析集群监测信息中的请求发送响应情况,如果有大量异常失败的请求出现,则需要分步迁移后续转发的请求,例如,首次转移50%的请求,如果依旧有大量失败的异常请求,则继续转移剩余50%的一半,直至请求正常,然后重新均衡其它超限阈值的请求至该节点。
可以理解的是,倾斜均衡管理模块13主要用于统筹动态均衡监测模块12的监控信息和触发告警信息,根据实际检索集群遭遇的场景问题执行倾斜管理动作,动态迅速的处理当前集群资源倾斜和请求倾斜问题,灵活再分布节点的数据和请求分布,优化资源利用并保护集群的运行稳定。
更进一步的,作为一种优选的实施方式,上述基于分布式检索系统的系统优化装置,还包括:
集群状态保护模块,用于当所述分布式检索集群出现大范围请求异常时,熔断所述检索节点的检索服务,并将后续请求转移至其它检索节点以保护所述分布式检索集群的运行稳定。
可以理解的是,由于分片迁移和请求转移会消耗资源且具有时延特性,可能会导致大量堆积的请求失败异常,严重时导致请求队列阻塞,且负载过重节点的请求完全失败,所以需要添加集群状态保护,即在倾斜均衡触发之后并不会立即将分片和请求重新均衡分布,所以需要在重点监测的热区节点进行请求异常处理,如果遭遇热区节点较多请求异常的情况,需要立即熔断节点的检索服务,并强制将后续请求转移至冷区节点或温区节点进行处理,避免热区节点负载过重导致异常的情况,保证检索服务和业务的稳定运行。例如,倾斜均衡策略模块11设定默认请求熔断阈值为80%,即当某节点出现query请求失败率达到80%,且监测到该节点为已触发数据迁移或请求转移的节点,则进行节点请求熔断,停止节点的请求处理服务,并将后续进入该分片的请求进行同级转发,强制转移至请求分区的冷温区副本进行处理,其中冷区副本转移的优先级大于温区副本,当该节点的数据迁移或请求转移结束,以10min为重试间隔重新进行熔断服务节点的请求任务分发,如果请求服务正常处理,则节点正式上线恢复请求处理服务。也就是说,集群状态保护主要用于在节点遭遇极端情况下做出熔断保护操作,给故障排除争取时间和空间,保护集群的运行安全;。
例如,如图2所示,动态均衡监测提供基础的集群检测信息和分析信息例如,动态对集群各检索节点的分片存储、请求分发、segment缓存等进行倾斜监测,分析基础场景的资源情况汇总输出历史分片存储、请求分布分发、segment缓存等监测信息和告警分析信息,倾斜均衡策略为用户提供可配置当前场景环境的参数窗口,从场景本身进行倾斜均衡策略的源头数据的形成,定义最合理的均衡策略规则,倾斜均衡管理模块提供实际资源均衡和请求均衡保护的策略操作,也即根据监测数据信息,评估并均衡资源分布,并分层管理请求的分布分发,使检索集群可以快速有效的进行均衡优化,解决倾斜问题,保护集群健康稳定的运行,然后结合集群状态保护模块共同维持检索集群的运行稳定和安全,也即集群状态保护模块在倾斜均衡管理之外提供的请求熔断机制,保证在节点极端运行的情况下及时响应转移节点请求,避免大量异常请求导致的检索请求阻塞和集群负载异常问题,从而保证集群安全运行。也就是说,在常规业务中针对集群载荷较高、数据请求出现均衡问题且检索性能出现下降异常时的场景,对分布式检索系统的数据倾斜和请求倾斜场景进行监控调度,通过一系列的倾斜均衡管理操作对检索服务进行数据和请求再均衡以及分区分层管理实现对检索请求进行管理优化,动态均衡监测可以对集群节点和资源和请求倾斜情况和异常告警进行有效监控上报,倾斜均衡策略可根据实际集群需求和场景进行自主参数的定义,对集群资源的均衡处理和请求再分布提供依据阈值,倾斜均衡管理通过集群资源倾斜情况进行检索分片,并将请求进行分区分层管理,优化集群的资源平衡性和请求平衡性以保护集群运行平稳,集群状态保护为集群的极端异常场景提供熔断保护,保证异常状态下集群非正常运行时的性能稳定和服务安全,从而可以有效优化分布式检索集群的数据分布和检索性能分布,使检索服务的运行更加稳定、可靠、安全。
由此可知,本申请实施例中,通过对分布式检索系统的分片存储和检索流程中加入倾斜监测机制、倾斜均衡管理机制和请求分区分层控制机制,从而能够实现当前分布式检索集群的均衡优化,维护了资源和请求的平衡,从而避免倾斜所带来的请求异常和资源浪费的问题。
相应的,本发明实施例公开了一种基于分布式检索系统的系统优化方法,应用于上述的基于分布式检索系统的系统优化装置,参见图3所示,该方法包括:
步骤S11:设置当前分布式检索集群的监测规则、监测范围和监测指标阈值。
步骤S12:根据所述监测规则、所述监测范围和所述监测指标阈值对所述分布式检索集群中的各检索节点的倾斜情况进行监测得到相应的集群监测信息。
步骤S13:根据所述集群监测信息对所述分布式检索集群的资源分布进行动态均衡管理,并根据所述集群监测信息对所述分布式检索集群的请求的分布进行分区分层管理以实现所述当前分布式检索集群的均衡优化。
可见,本申请实施例中,通过设置当前分布式检索集群的监测规则、监测范围和监测指标阈值;根据监测规则、监测范围和监测指标阈值对分布式检索集群中的各检索节点的倾斜情况进行监测得到相应的集群监测信息;根据集群监测信息对分布式检索集群的资源分布进行动态均衡管理,并根据集群监测信息对分布式检索集群的请求的分布进行分区分层管理。本申请对分布式检索系统的分片存储和检索流程中加入倾斜监测机制、倾斜均衡管理机制和请求分区分层控制机制,从而能够实现当前分布式检索集群的均衡优化,维护了资源和请求的平衡,从而避免倾斜所带来的请求异常和资源浪费的问题。
关于上述基于分布式检索系统的系统优化方法的具体内容,可参考前述关于基于分布式检索系统的系统优化装置的详细介绍,这里就不再赘述。
进一步的,本申请实施例还提供了一种电子设备。图4是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图4为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的基于分布式检索系统的系统优化方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的基于分布式检索系统的系统优化方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的基于分布式检索系统的系统优化方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种基于分布式检索系统的系统优化装置、方法、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于分布式检索系统的系统优化装置,其特征在于,包括:
倾斜均衡策略模块,用于设置当前分布式检索集群的监测规则、监测范围和监测指标阈值;
动态均衡监测模块,用于根据所述倾斜均衡策略模块设置的所述监测规则、所述监测范围和所述监测指标阈值对所述分布式检索集群中的各检索节点的倾斜情况进行监测得到相应的集群监测信息;
倾斜均衡管理模块,用于根据接收到的所述动态均衡监测模块上报的所述集群监测信息对所述分布式检索集群的资源分布进行动态均衡管理,并根据所述集群监测信息对所述分布式检索集群的请求的分布进行分区分层管理以实现所述当前分布式检索集群的均衡优化。
2.根据权利要求1所述的基于分布式检索系统的系统优化装置,其特征在于,还包括:
集群状态保护模块,用于当所述分布式检索集群出现大范围请求异常时,熔断所述检索节点的检索服务,并将后续请求转移至其它检索节点以保护所述分布式检索集群的运行稳定。
3.根据权利要求1所述的基于分布式检索系统的系统优化装置,其特征在于,所述倾斜均衡策略模块运行于所述分布式检索集群的主检索节点上、所述动态均衡监测模块运行于所述分布式检索集群的数据存储检索节点上以及所述倾斜均衡管理模块运行于所述分布式检索集群的数据存储检索节点和主检索节点上。
4.根据权利要求1所述的基于分布式检索系统的系统优化装置,其特征在于,所述动态均衡监测模块,具体用于:
根据所述倾斜均衡策略模块设置的所述监测规则、所述监测范围,从分片存储和请求分发的角度对所述分布式检索集群中的各检索节点进行监测得到相应的节点信息;
基于所述倾斜均衡策略模块设置的所述监测指标阈值对所述节点信息中相关的指标数据进行告警分析得到相应的告警分析信息;
将所述节点信息和所述告警分析信息进行汇总得到相应的集群监测信息。
5.根据权利要求1所述的基于分布式检索系统的系统优化装置,其特征在于,所述倾斜均衡管理模块,包括:
数据倾斜控制单元,用于根据所述集群监测信息确定所述当前分布式检索集群中各检索节点的数据倾斜情况,并基于所述数据倾斜情况对所述分布式检索集群的资源分布进行动态均衡管理,直至达到资源平衡;
请求分层控制单元,用于根据所述集群监测信息确定所述当前分布式检索集群中各检索节点的请求倾斜情况,并基于所述请求倾斜情况对所述分布式检索集群的请求分布进行分区分层管理,直至达到请求平衡。
6.根据权利要求5所述的基于分布式检索系统的系统优化装置,其特征在于,所述数据倾斜控制单元,具体用于:
基于所述数据倾斜情况确定出所述分布式检索集群中资源存储差异异常的检索节点;
对所述检索节点的资源分布进行数据均衡转移和接收操作。
7.根据权利要求5所述的基于分布式检索系统的系统优化装置,其特征在于,所述请求分层控制单元,具体用于:
对所述集群监测信息中各所述检索节点的历史请求和当前请求进行汇总统计以确定各所述检索节点的请求频率分布;
基于所述请求频率分布对各所述检索节点进行冷温热分区管理得到分区后的热区节点、温区节点和冷区节点;所述热区节点、温区节点和冷区节点分别表示请求繁忙程度不同的节点;
对于请求繁忙的所述热区节点,则检索所述热区节点对应的分片副本所在的位置,并将请求转移至所述位置对应的所述冷区节点或所述温区节点。
8.一种基于分布式检索系统的系统优化方法,其特征在于,应用于上述权利要求1至7任一项所述的基于分布式检索系统的系统优化装置,包括:
设置当前分布式检索集群的监测规则、监测范围和监测指标阈值;
根据所述监测规则、所述监测范围和所述监测指标阈值对所述分布式检索集群中的各检索节点的倾斜情况进行监测得到相应的集群监测信息;
根据所述集群监测信息对所述分布式检索集群的资源分布进行动态均衡管理,并根据所述集群监测信息对所述分布式检索集群的请求的分布进行分区分层管理以实现所述当前分布式检索集群的均衡优化。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求8所述的基于分布式检索系统的系统优化方法的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求8所述的基于分布式检索系统的系统优化方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310686042.4A CN116701485A (zh) | 2023-06-09 | 2023-06-09 | 基于分布式检索系统的系统优化装置、方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310686042.4A CN116701485A (zh) | 2023-06-09 | 2023-06-09 | 基于分布式检索系统的系统优化装置、方法、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116701485A true CN116701485A (zh) | 2023-09-05 |
Family
ID=87833516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310686042.4A Pending CN116701485A (zh) | 2023-06-09 | 2023-06-09 | 基于分布式检索系统的系统优化装置、方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701485A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851538A (zh) * | 2024-03-07 | 2024-04-09 | 济南浪潮数据技术有限公司 | 一种分布式检索方法、系统、设备及介质 |
-
2023
- 2023-06-09 CN CN202310686042.4A patent/CN116701485A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851538A (zh) * | 2024-03-07 | 2024-04-09 | 济南浪潮数据技术有限公司 | 一种分布式检索方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11546644B2 (en) | Bandwidth control method and apparatus, and device | |
US9268840B2 (en) | Providing services across systems that manage distributed replicas | |
US7475108B2 (en) | Slow-dynamic load balancing method | |
US8832476B2 (en) | Power allotment distribution in a data center | |
US9584617B2 (en) | Allocating cache request in distributed cache system based upon cache object and marker identifying mission critical data | |
US9870370B2 (en) | Enterprise level data collection systems and methodologies | |
US8191068B2 (en) | Resource management system, resource information providing method and program | |
CN111818159B (zh) | 数据处理节点的管理方法、装置、设备及存储介质 | |
US20200042608A1 (en) | Distributed file system load balancing based on available node capacity | |
CN116701485A (zh) | 基于分布式检索系统的系统优化装置、方法、设备及介质 | |
EP3993346B1 (en) | Method and device for distributed data storage | |
CN104639645A (zh) | 网络负载均衡方法、装置及集群服务系统 | |
US8185912B1 (en) | Rerouting messages to parallel queue instances | |
CN107872517A (zh) | 一种数据处理方法及装置 | |
US7085815B2 (en) | Scalable memory management of token state for distributed lock managers | |
US20090313634A1 (en) | Dynamically selecting an optimal path to a remote node | |
CN109815204B (zh) | 一种基于拥塞感知的元数据请求分发方法及设备 | |
CN111352746B (zh) | 消息限流方法、存储介质 | |
CN109510730A (zh) | 分布式系统及其监控方法、装置、电子设备及存储介质 | |
US11567553B2 (en) | Power supply unit power level protection limits | |
CN111669294B (zh) | 监控系统配置方法、装置、监控系统和存储介质 | |
US11586274B2 (en) | Managing server performance and reliability during reductions in a number of power supply units | |
JPH0660043A (ja) | 負荷分散制御方式 | |
CN113938482B (zh) | 内容分发网络的调度方法、调度系统、服务器及存储介质 | |
CN117724942A (zh) | 一种系统访问管理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |