CN112001623A - 软件负载均衡的健康度的评估方法、系统、介质和设备 - Google Patents

软件负载均衡的健康度的评估方法、系统、介质和设备 Download PDF

Info

Publication number
CN112001623A
CN112001623A CN202010846840.5A CN202010846840A CN112001623A CN 112001623 A CN112001623 A CN 112001623A CN 202010846840 A CN202010846840 A CN 202010846840A CN 112001623 A CN112001623 A CN 112001623A
Authority
CN
China
Prior art keywords
load balancing
layer
forwarding
layer load
health
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010846840.5A
Other languages
English (en)
Inventor
孙姗姗
丁利锋
郭俊
胡光瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202010846840.5A priority Critical patent/CN112001623A/zh
Publication of CN112001623A publication Critical patent/CN112001623A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45504Abstract machines for programme code execution, e.g. Java virtual machine [JVM], interpreters, emulators

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种软件负载均衡的健康度的评估方法、系统、介质和设备。评估方法包括:评估所述软件负载均衡的内部性能的健康度;通过模拟四层负载均衡转发器的转发场景,探测所述四层负载均衡转发器的转发性能,评估所述四层负载均衡转发器的健康度;通过模拟七层负载均衡转发集群的转发场景,探测所述七层负载均衡转发集群的转发性能,评估所述七层负载均衡转发集群的健康度。实施本发明,不仅能够评估软件负载均衡的内部性能的健康度,还能够对四层负载均衡转发器及七层负载均衡转发集群的健康度进行评估,及时发现问题,进而提升运维工作的质量和效率。

Description

软件负载均衡的健康度的评估方法、系统、介质和设备
技术领域
本发明涉及计算机应用技术领域,更为具体而言,涉及一种软件负载均衡的健康度的评估方法、系统、介质和设备。
背景技术
目前,国内外公有云对负载均衡的健康度评估基本上是基于对进程、物理机、管控面这几个层级的指标进行分析判断,但是仅根据这些监控指标对负载均衡的健康度进行评估,只能体现出当前这个负载均衡集群是存在问题,并不能探测出具体是哪一个负载均衡器出现了问题,因此,会使运维人员在快速定位故障这一方面产生难度,从而影响运维人员定位故障的效率,甚至在一定程度上还会对用户的业务产生不利影响。
发明内容
为解决上述现有技术存在的问题,本发明提供了一种软件负载均衡的健康度的评估方法、系统、存储介质和计算机设备,通过对软件负载均衡的各项指标进行监控和探测,实时评估每个部分的健康度,帮助运维人员及时判断是否有故障发生。
根据本发明实施方式的第一面,提供了一种软件负载均衡的健康度的评估方法,包括:评估所述软件负载均衡的内部性能的健康度;通过模拟四层负载均衡转发器的转发场景,探测所述四层负载均衡转发器的转发性能,评估所述四层负载均衡转发器的健康度;通过模拟七层负载均衡转发集群的转发场景,探测所述七层负载均衡转发集群的转发性能,评估所述七层负载均衡转发集群的健康度。
根据上述实施方式,可以对软件负载均衡的各项指标进行实时探测,并判断各项指标的健康度,确定软件负载均衡是否处于健康状态,帮助运维人员及时判断是否有故障发生,进而提升运维工作的质量和效率,降低故障影响。具体而言,不仅对软件负载均衡的内部性能的健康度进行评估,还可以通过转发性能定位出健康度下降的具体的四层负载均衡转发器,以及确定健康度有问题的七层负载均衡转发集群,从而不仅帮助运维人员发现故障,还帮助运维人员定位故障转发器或故障范围。
在本发明的一些实施方式中,评估所述软件负载均衡的内部性能的健康度包括:获取物理机的CPU负载、CPU使用率,监控所述CPU负载、CPU使用率中的任意一者的变动量是否超过第一阈值,若所述变动量超过第一阈值,则确定所述软件负载均衡的健康度下降。
在本发明的一些实施方式中,评估所述软件负载均衡的内部性能的健康度包括:获取历史进程数,判断当前进程数与历史进程数是否一致,若不一致,则确定所述软件负载均衡的健康度下降。
在本发明的一些实施方式中,评估所述软件负载均衡的内部性能的健康度包括:通过在预定的节点定时抓包,通过所述抓包检测到存在节点不通时,查看日志,若日志显示存在错误,则确定所述软件负载均衡的健康度下降。
在本发明的一些实施方式中,评估所述软件负载均衡的内部性能的健康度包括:获取包括丢包率、连接数、吞吐量、时延、新建连接速率的数据层面指标,确定所述数据层面指标是否处于正常范围,若任意一个数据层面指标处于正常范围之外,则确定所述软件负载均衡的健康度下降。
在本发明的一些实施方式中,通过模拟访问探测所述软件负载均衡的四层负载均衡转发器的转发性能包括:根据上游交换机的类型确定IP五元组,所述IP五元组包括源IP、目标IP、源端口号、目标端口号以及协议号;根据IP五元组匹配规则,创建四层访问测试路径,其中,使每一条四层访问测试路径通过目标四层负载均衡转发器;在预定周期内通过所述四层访问测试路径访问所述目标四层负载均衡转发器;获取访问所述目标四层负载均衡转发器的成功率。
在本发明的一些实施方式中,通过该四层负载均衡转发器的转发性能评估所述四层负载均衡转发器的健康度包括:判断访问所述目标四层负载均衡转发器的成功率是否低于第二阈值;若低于第二阈值,则确定所述目标四层负载均衡转发器处于不健康的状态。
在确定目标四层负载均衡转发器处于不健康的状态时,可以确定该目标四层负载均衡转发器故障,实现快速、准确的故障定位,帮助运维人员及时处理故障,从而提升运维效率,降低故障影响。
在本发明的一些实施方式中,通过模拟访问探测所述软件负载均衡的七层负载均衡转发集群的转发性能包括:通过变换不同的客户端访问目标七层负载均衡转发集群;获取访问所述目标七层负载均衡转发集群的成功率。
在本发明的一些实施方式中,通过该七层负载均衡转发集群的转发性能评估所述七层负载均衡转发集群的健康度包括:判断访问所述目标七层负载均衡转发集群的成功率是否低于第三阈值;若低于第三阈值,则确定所述目标七层负载均衡转发集群器处于不健康的状态。
在本发明的一些实施方式中,所述评估方法还包括:获取流量数据,根据所述流量数据确定所述流量变动比例;判断所述流量变动比例与第四阈值和第五阈值的大小关系,第四阈值小于第五阈值;若所述流量变动比例大于第四阈值且小于等于第五阈值,则确定所述软件负载均衡处于亚健康状态;若所述流量变动比例大于第五阈值,则确定所述软件负载均衡处于不健康状态。
根据本发明实施方式的第二方面,提供了一种软件负载均衡的健康度的评估系统,包括:内部性能评估模块,用于评估所述软件负载均衡的内部性能的健康度;
四层负载均衡评估模块,用于通过模拟四层负载均衡转发器的转发场景,探测所述四层负载均衡转发器的转发性能,评估所述四层负载均衡转发器的健康度;七层负载均衡评估模块,用于通过模拟七层负载均衡转发集群的转发场景,探测所述七层负载均衡转发集群的转发性能,评估所述七层负载均衡转发集群的健康度。
根据上述实施方式,可以对软件负载均衡的各项指标进行实时探测,并判断各项指标的健康度,确定软件负载均衡是否处于健康状态,帮助运维人员及时判断是否有故障发生,进而提升运维工作的质量和效率,降低故障影响。具体而言,不仅对软件负载均衡的内部性能的健康度进行评估,还可以通过转发性能定位出健康度下降的具体的四层负载均衡转发器,以及确定健康度有问题的七层负载均衡转发集群,从而不仅帮助运维人员发现故障,还帮助运维人员定位故障转发器或故障范围。
在本发明的一些实施方式中,评估所述软件负载均衡的内部性能的健康度包括:获取物理机的CPU负载、CPU使用率,监控所述CPU负载、CPU使用率中的任意一者的变动量是否超过第一阈值,若所述变动量超过第一阈值,则确定所述软件负载均衡的健康度下降。
在本发明的一些实施方式中,评估所述软件负载均衡的内部性能的健康度包括:获取历史进程数,判断当前进程数与历史进程数是否一致,若不一致,则确定所述软件负载均衡的健康度下降。
在本发明的一些实施方式中,评估所述软件负载均衡的内部性能的健康度包括:通过在预定的节点定时抓包,通过所述抓包检测到存在节点不通时,查看日志,若日志显示存在错误,则确定所述软件负载均衡的健康度下降。
在本发明的一些实施方式中,评估所述软件负载均衡的内部性能的健康度包括:获取包括丢包率、连接数、吞吐量、时延、新建连接速率的数据层面指标,确定所述数据层面指标是否处于正常范围,若任意一个数据层面指标处于正常范围之外,则确定所述软件负载均衡的健康度下降。
在本发明的一些实施方式中,通过模拟访问探测所述软件负载均衡的四层负载均衡转发器的转发性能包括:根据上游交换机的类型确定IP五元组,所述IP五元组包括源IP、目标IP、源端口号、目标端口号以及协议号;根据IP五元组匹配规则,创建四层访问测试路径,其中,使每一条四层访问测试路径通过目标四层负载均衡转发器;在预定周期内通过所述四层访问测试路径访问所述目标四层负载均衡转发器;获取访问所述目标四层负载均衡转发器的成功率。
在本发明的一些实施方式中,通过该四层负载均衡转发器的转发性能评估所述四层负载均衡转发器的健康度包括:判断访问所述目标四层负载均衡转发器的成功率是否低于第二阈值;若低于第二阈值,则确定所述目标四层负载均衡转发器处于不健康的状态。
在确定目标四层负载均衡转发器处于不健康的状态时,可以确定该目标四层负载均衡转发器故障,实现快速、准确的故障定位,帮助运维人员及时处理故障,从而提升运维效率,降低故障影响。
在本发明的一些实施方式中,通过模拟访问探测所述软件负载均衡的七层负载均衡转发集群的转发性能包括:通过变换不同的客户端访问目标七层负载均衡转发集群;获取访问所述目标七层负载均衡转发集群的成功率。
在本发明的一些实施方式中,通过该七层负载均衡转发集群的转发性能评估所述七层负载均衡转发集群的健康度包括:判断访问所述目标七层负载均衡转发集群的成功率是否低于第三阈值;若低于第三阈值,则确定所述目标七层负载均衡转发集群器处于不健康的状态。
在本发明的一些实施方式中,所述评估系统还包括:流量数据获取模块,用于获取流量数据;流量变动确定模块,用于根据所述流量数据确定所述流量变动比例;判断模块,用于判断所述流量变动比例与第四阈值和第五阈值的大小关系,第四阈值小于第五阈值;健康度确定模块,用于:当所述判断模块判断所述流量变动比例大于第四阈值且小于等于第五阈值,则确定所述软件负载均衡处于亚健康状态;当所述判断模块判断所述流量变动比例大于第五阈值,则确定所述软件负载均衡处于不健康状态。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时可以实现如下操作:所述操作包括如上任意一种实施方式所述的评估方法所包含的步骤。
根据本发明实施例的第四方面,提供一种包括存储器和处理器的计算机设备,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时能够实现如上任意一种实施方式所述的评估方法。
本发明实施方式提供的软件负载均衡的健康度的评估方法、系统、存储介质和计算机设备,通过对负载均衡的各项指标进行监控和探测,实时评估每个部分的健康度,帮助运维人员及时判断是否有故障发生,进而提升运维工作的质量和效率,降低故障影响。
附图说明
图1是根据本发明一种实施方式的软件负载均衡的健康度的评估方法的流程示意图;
图2是客户端根据四层负载均衡规则访问四层负载均衡转发器的示意图;
图3是客户端根据七层负载均衡规则访问七层负载均衡转发集群的示意图;
图4是根据本发明一种实施方式的软件负载均衡的健康度的评估方法所应用的故障处理系统的架构图;
图5是根据本发明一种实施方式的软件负载均衡的健康度的评估系统的架构图。
具体实施方式
以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本发明的保护范围。还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。
下面对本文中使用的术语进行简要说明。
LD:Load Director,负载均衡器;
CLB:Cloud Load Balance,负载均衡;
CPU负载:正在运行和准备运行的进程总数,即等待处理的任务队列;
CPU使用率:程序在运行期间实时占用的CPU的百分比,是对一个时间段内CPU使用状况的统计;
进程:一个具有一定独立功能的程序关于某个数据集合的一次运行活动,它是操作系统的基本单元;
丢包率:测试中所丢失数据包数量占所发送的数据组的比率;
连接数:能够同时建立的连接会话个数;
吞吐量:网络设备在每一秒内处理数据包的最大能力;
时延:系统处理数据包所需要的时间;
新建连接速率:每一秒内防火墙所能够处理的HTTP新建连接请求的数量;
交换机:一种在通信系统中完成信息交换功能的设备;
五元组:通常指的是源IP地址、源端口、目的IP地址、目的端口和传输层协议;
SLA:Service-Level Agreement,服务等级协议。
图1是根据本发明一种实施方式的软件负载均衡的健康度的评估方法的流程示意图。
如图1所示,在本发明的一种实施方式中,所述软件负载均衡的健康度的评估方法可包括:步骤S11、步骤S12和步骤S13,下面对上述步骤进行具体的描述。
在步骤S11中,评估软件负载均衡的内部性能的健康度。在可选的实施方式中,可以从物理机层级、进程层级、管控面层级、数据面层级等多个方面的指标对软件负载均衡的内部性能的健康度进行评估。具体评估方法如下:
(1)物理机层级的分析
由于包括CPU负载、CPU使用率等指标在负载均衡运行时一般不会有大的波动,因此,可以通过监控CPU负载、CPU使用率等指标是否存在突然的异常增量或者降量来判断负载均衡是否出现异常。具体而言,获取物理机的CPU负载、CPU使用率,通过监控所述CPU负载、CPU使用率中的任意一者的变动量是否超过第一阈值,当所述变动量超过第一阈值时,则确定所述软件负载均衡的健康度下降,出现了异常,应当提醒运维人员迅速去排障,以尽快对故障进行处理。
(2)进程层级的分析
由于负载均衡的数据都储存在本地,因此,可以通过对比已有的进程数数据与当前监控的进程数数据,判断负载均衡的健康度是否下降。具体而言,获取历史进程数,并判断当前进程数与所述历史进程数是否一致,在当前进程数与所述历史进程数不一致时,确定软件负载均衡的健康度下降,应当提醒运维人员快速进行排障工作。
(3)管控面层级的分析
管控面的健康度可以通过对日志的查看来进行评估和判断。具体的,通过在预定的节点定时抓包,并且,在检测到存在节点不通的现象时,查看日志,当日志显示存在错误时,确定软件负载均衡的健康度下降,此时,应当结合日志中显示的报错信息明确故障点,以尽快对故障进行处理。
(4)数据面层级的分析
数据面的健康度可以通过丢包率、连接数、吞吐量、时延、新建连接速率等数据面指标是否处于对应的指标正常范围内进行评估。在可选的实施方式中,运用大数据技术,统计在日常负载均衡运行正常时,每个数据面指标的正常值范围,当任意一个数据层面指标处于正常范围之外,则确定软件负载均衡的健康度下降,应当提醒运维人员快速进行排障工作。
通过对上述物理机层级、进程层级、管控面层级、数据面层级等多个方面的指标进行分析,并在任意一项指标异常时判断负载均衡健康度下降,可以帮助运维人员及时判断是否有故障发生,在有故障发生时,及时提醒运维人员进行相应的处理,从而提升运维工作的质量和效率,降低故障影响。
在可选的实施方式中,对不同的流量数据设定对应的监控阈值,然后,通过获取流量数据的变动比例,并与其对应的监控阈值进行比较,判断负载均衡是否监健康,以及健康程度,从而确定是否发出告警,以及发出告警的严重程度。例如,对一项流量数据设定第一监控阈值为50%,第二监控阈值为80%,当监控到该项流量数据的变动比例超过第二监控阈值80%时,判断负载均衡处于非常不健康的状态,发出严重告警;当监控到该项流量数据的变动比例不超过第二监控阈值80%,但是超过第一监控阈值50%时,判断该负载均衡处于亚健康的状态,发出告警。
在步骤S12中,通过模拟四层负载均衡转发器的转发场景,探测所述四层负载均衡转发器的转发性能,评估所述四层负载均衡转发器的健康度。
在本发明的实施方式中,对于四层负载均衡转发器的探测,通过两个维度来考虑,一方面是对转发能力的探测,另一方面是对配置的探测。在转发能力方面,可能出现进程宕机或者四层负载均衡转发器失去转发能力这两种情况。如果是进程宕机,则直接发出告警和故障信息;如果是负载均衡器失去转发能力,或者是因为缺少配置而导致的问题,则需要通过本发明提供的四层负载均衡转发器探测方法来实现四层负载均衡转发器的健康度评估,具体方法如下:
首先,由于不同交换机的IP五元组匹配算法不太一样,因此,本发明需要结合四层软件负载均衡的上游交换机类型确定IP五元组,该IP五元组包括源IP、目标IP、源端口号、目标端口号以及协议号。
其次,根据交换机的IP五元组匹配规则,创建四层规则访问测试路径,并基于IP五元组实现快速匹配,将所述四层规则访问测试路径构成的访问请求消息发送给固定的目标四层负载均衡转发器,将使每一条四层规则访问测试路径通过一台固定的目标四层负载均衡转发器。可选的,四层规则访问测试路径包括:固定的客户端IP、端口和负载均衡的VIP(虚拟IP)。
需要说明的是,如图2所示,客户端根据四层负载均衡规则进行模拟访问时,访问数据流可以根据一条四层负载均衡规则确定要通过的固定的某一台四层负载均衡转发器。因此,在四层负载均衡转发集群保持不变的情况下,每一条四层负载均衡规则访问测试路径固定通过该四层负载均衡转发集群中的一台固定的四层负载均衡转发器。
再次,在预定周期内通过所述四层规则访问测试路径访问所述目标四层负载均衡转发器,以得到成功访问所述目标四层负载均衡转发器的成功率。可选的,由操作人员输入预定周期数据。
最后,通过判断访问所述目标四层负载均衡转发器的成功率是否低于预设的阈值,可以确定所述目标四层负载均衡转发器是否为不健康的状态。具体的,当成功率低于预设的阈值时,则确定所述目标四层负载均衡转发器处于不健康的状态,此时,可以快速定位故障的四层负载均衡转发器,并让数据流量走其他的四层负载均衡转发器,从而将故障影响降至最小。在可选的实施方式中,所述预设的阈值根据产品SLA值设定。可选的,所述预设的阈值例如设定为99%。
采用本发明的上述方法,可以通过探测业务访问是否正常,判断四层负载均衡转发节点的健康运行情况。当数据流在业务访问中是畅通的,则判断对应的四层负载均衡转发器为健康状态;当数据流在业务访问中是不通的,则判断对应的四层负载均衡转发器出现故障,处于不健康的状态。由此,可以快速定位产生故障的具体的四层负载均衡转发器,并及时处理故障信息,从而降低故障的影响。
在步骤S13中,通过模拟七层负载均衡转发集群的转发场景,探测所述七层负载均衡转发集群的转发性能,评估所述七层负载均衡转发集群的健康度。
在本发明的实施方式中,如图3所示,客户端根据七层负载均衡规则进行模拟访问时,访问数据流由同一个七层负载均衡转发集群内的七层负载均衡转发器随机接管分发,因此,本发明提供的七层负载均衡转发集群探测方法可以评估七层负载均衡转发集群的健康度。具体方法如下:
首先,创建大量七层负载均衡访问规则,并通过变换客户端向目标七层负载均衡转发集群发起访问,并获取访问所述目标七层负载均衡转发集群的成功率。在可选的实施方式中,在预定周期内通过所述七层负载均衡访问规则访问所述目标七层负载均衡转发集群。可选的,由操作人员输入预定周期数据,以定期访问目标七层负载均衡转发集群。
其次,判断访问所述目标七层负载均衡转发集群的成功率是否低于预设的阈值,可以确定所述目标七层负载均衡转发集群是否为不健康的状态。具体的,当成功率低于预设的阈值时,则确定所述目标七层负载均衡转发集群处于不健康的状态。在可选的实施方式中,所述预设的阈值根据产品SLA值设定。可选的,所述预设的阈值例如设定为99%。
在可选的实施方式中,当确定所述目标七层负载均衡转发集群处于不健康的状态,可以通过人工介入的方式对所述目标七层负载均衡转发集群中的七层负载均衡转发器进行逐台检查,并对故障的七层负载均衡转发器进行隔离,从而将故障影响降至最小。
采用本发明的上述方法,不仅能够评估软件负载均衡的内部性能的健康度、确定七层负载均衡转发集群的健康状态,还可以在负载均衡处于不健康状态的前提下,确定出现问题的具体的某台四层负载均衡器,便于运维人员快速定位故障位置,从而降低故障发生所带来的影响。
在可选的实施方式中,本发明提供的软件负载均衡的健康度的评估方法可以应用于基于软件负载均衡的故障处理方法和系统中。
图4是根据本发明一种实施方式的软件负载均衡的健康度的评估方法所应用的故障处理系统的架构图。
如图4所示,该系统包含CLB一体化运维平台110、数据分析组件121、数据收集组件122、数据存储组件123和agent组件130。其中,CLB一体化运维平台110包括运行健康度评估组件111、业务影响定位组件112、故障自动定位组件113和故障自动隔离组件114。下面对上述各组件进行具体的描述。
agent组件130,部署在各个监控点,用于实时采集相应监控点的健康信息。其中,所述监控点包括所述容器、四层转发节点和七层转发节点。在可选的实施方式中,agent组件一方面采用动态采集技术,实时采集宿主的健康情况,包括上报转发节点和管控节点的流量、日志、配置等信息,并将信息整合提取发送给数据储存组件123;另一方面接收来自故障自动隔离组件114的命令,对该命令中的故障节点实施隔离操作,从而实现监控采集和故障隔离的功能。
数据存储组件123,一方面将来自agent组件130的信息归类整理,并按照要求发送给下游需求方;另一方面收集来自故障自动定位组件113和故障自动隔离组件114发出的信息,用以更新应急预案等方面的信息。
数据收集组件122,一方面负责对agent组件130中全网的agent发送的数据进行收集和汇总,并按照既定要求发送给相应的功能组件;另一方面,在必要情况下,从数据存储组件123中拉取历史数据。
数据分析组件121,用于根据不同的分析、监控要求进行智能化分析、预测以及预警。
运行健康度评估组件111,利用大数据技术,结合采集到的动态数据,实时分析软件负载均衡的运行健康度,提供预警功能,并将结果上报给下游需求方。
业务影响定位组件112,利用配置管理和动态采集技术,自动定位业务影响,划分业务影响等级并上报给下游需求方。
故障自动定位组件113,基于软件负载均衡,利用配置管理、动态采样技术,自动定位出故障节点,并上报给下游需求方。
故障自动隔离组件114,用于接收故障自动定位组件113的信息,对已经明确的故障节点进行隔离,尽快恢复业务。
将本发明所提供的软件负载均衡的健康度的评估方法应用于上述故障处理系统的运行健康度评估组件111和故障自动定位组件113,可以有效配合上述故障处理系统,从而利用软件负载均衡一体化运维平台,将健康度评估、业务影响分析、故障定位以及故障隔离进行结合,实现提前预警、及时定位、即时处理的功能,从而尽可能降低故障产生的影响范围和影响时间,并尽快恢复业务。
图5是根据本发明一种实施方式的软件负载均衡的健康度的评估系统的架构图。
如图5所示,所述评估系统包括:
内部性能评估模块210,用于评估所述软件负载均衡的内部性能的健康度。在可选的实施方式中,该内部性能评估模块210可以从物理机层级、进程层级、管控面层级、数据面层级等多个方面的指标对软件负载均衡的内部性能的健康度进行评估。具体评估方法与本发明的实施方式中软件负载均衡的健康度的评估方法相同,在此不再赘述。
四层负载均衡评估模块220,用于通过模拟四层负载均衡转发器的转发场景,探测所述四层负载均衡转发器的转发性能,评估所述四层负载均衡转发器的健康度。
在可选的实施方式中,首先,由于不同交换机的IP五元组匹配算法不太一样,因此,本发明需要结合四层软件负载均衡的上游交换机类型确定IP五元组,该IP五元组包括源IP、目标IP、源端口号、目标端口号以及协议号。
其次,根据交换机的IP五元组匹配规则,创建四层规则访问测试路径,并基于IP五元组实现快速匹配,将所述四层规则访问测试路径构成的访问请求消息发送给固定的目标四层负载均衡转发器,将使每一条四层规则访问测试路径通过一台固定的目标四层负载均衡转发器。可选的,四层规则访问测试路径包括:固定的客户端IP、端口和负载均衡的VIP(虚拟IP)。
再次,在预定周期内通过所述四层规则访问测试路径访问所述目标四层负载均衡转发器,以得到成功访问所述目标四层负载均衡转发器的成功率。可选的,由操作人员输入预定周期数据。
最后,通过判断访问所述目标四层负载均衡转发器的成功率是否低于预设的阈值,可以确定所述目标四层负载均衡转发器是否为不健康的状态。具体的,当成功率低于预设的阈值时,则确定所述目标四层负载均衡转发器处于不健康的状态,此时,可以快速定位故障的四层负载均衡转发器,并让数据流量走其他的四层负载均衡转发器,从而将故障影响降至最小。在可选的实施方式中,所述预设的阈值根据产品SLA值设定。可选的,所述预设的阈值例如设定为99%。
采用本发明的上述评估系统,可以通过探测业务访问是否正常,判断四层负载均衡转发节点的健康运行情况。当数据流在业务访问中是畅通的,则判断对应的四层负载均衡转发器为健康状态;当数据流在业务访问中是不通的,则判断对应的四层负载均衡转发器出现故障,处于不健康的状态。由此,可以快速定位产生故障的具体的四层负载均衡转发器,并及时处理故障信息,从而降低故障的影响。
七层负载均衡评估模块230,用于通过模拟七层负载均衡转发集群的转发场景,探测所述七层负载均衡转发集群的转发性能,评估所述七层负载均衡转发集群的健康度。
在可选的实施方式中,首先,创建大量七层负载均衡访问规则,并通过变换客户端向目标七层负载均衡转发集群发起访问,并获取访问所述目标七层负载均衡转发集群的成功率。在可选的实施方式中,在预定周期内通过所述七层负载均衡访问规则访问所述目标七层负载均衡转发集群。可选的,由操作人员输入预定周期数据,以定期访问目标七层负载均衡转发集群。
其次,判断访问所述目标七层负载均衡转发集群的成功率是否低于预设的阈值,可以确定所述目标七层负载均衡转发集群是否为不健康的状态。具体的,当成功率低于预设的阈值时,则确定所述目标七层负载均衡转发集群处于不健康的状态,在可选的实施方式中,所述预设的阈值根据产品SLA值设定。可选的,所述预设的阈值例如设定为99%。
在可选的实施方式中,当确定所述目标七层负载均衡转发集群处于不健康的状态,可以通过人工介入的方式对所述目标七层负载均衡转发集群中的七层负载均衡转发器进行逐台检查,并对故障的七层负载均衡转发器进行隔离,从而将故障影响降至最小。
流量数据获取模块240,用于获取各项流量数据。
流量变动确定模块250,用于根据各项流量数据确定各项流量的变动比例。
判断模块260,用于判断各项流量的变动比例与其对应的监控阈值的大小关系。其中,所述监控阈值包括第一监控阈值和第二监控阈值。在可选的实施方式中,可对一项流量数据的监控阈值设定为:第一监控阈值50%,第二监控阈值80%。
健康度确定模块270,用于根据流量的变动比例与其对应的监控阈值的大小关系,确定负载均衡是否监健康,以及健康程度。在可选的实施方式中,通过确定负载均衡是否监健康,以及健康程度,可以对应的确定是否发出告警,以及发出告警的严重程度。例如,对一项流量数据设定第一监控阈值为50%,第二监控阈值为80%,当判断模块260判断该项流量数据的变动比例超过第二监控阈值80%时,判断负载均衡处于非常不健康的状态,发出严重告警;当监控到该项流量数据的变动比例不超过第二监控阈值80%,但是超过第一监控阈值50%时,判断该负载均衡处于亚健康的状态,发出告警。
采用本发明的上述评估系统,不仅能够评估软件负载均衡的内部性能的健康度、确定七层负载均衡转发集群的健康状态,还可以在负载均衡处于不健康状态的前提下,确定出现问题的具体的某台四层负载均衡器,便于运维人员快速定位故障位置,从而降低故障发生所带来的影响。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
相应的,本发明实施方式还提供一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时可以实现如下操作:所述操作包括如上任意一种实施方式所述评估方法所包含的步骤,在此不再赘述。其中,所述存储介质可以包括:例如,光盘、硬盘、软盘、闪存、磁带等。
另外,本发明实施方式还提供一种包括存储器和处理器的计算机设备,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时能够实现如上任意一种实施方式所述的评估方法。所述计算机设备可以是,例如,服务器、台式计算机、笔记本计算机、平板电脑等。
本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。

Claims (22)

1.一种软件负载均衡的健康度的评估方法,其特征在于,所述评估方法包括:
评估所述软件负载均衡的内部性能的健康度;
通过模拟四层负载均衡转发器的转发场景,探测所述四层负载均衡转发器的转发性能,评估所述四层负载均衡转发器的健康度;
通过模拟七层负载均衡转发集群的转发场景,探测所述七层负载均衡转发集群的转发性能,评估所述七层负载均衡转发集群的健康度。
2.如权利要求1所述的评估方法,其特征在于,评估所述软件负载均衡的内部性能的健康度包括:
获取物理机的CPU负载、CPU使用率,
监控所述CPU负载、CPU使用率中的任意一者的变动量是否超过第一阈值,
若所述变动量超过第一阈值,则确定所述软件负载均衡的健康度下降。
3.如权利要求1所述的评估方法,其特征在于,评估所述软件负载均衡的内部性能的健康度包括:
获取历史进程数,
判断当前进程数与历史进程数是否一致,
若不一致,则确定所述软件负载均衡的健康度下降。
4.如权利要求1所述的评估方法,其特征在于,评估所述软件负载均衡的内部性能的健康度包括:
通过在预定的节点定时抓包,
通过所述抓包检测到存在节点不通时,查看日志,
若日志显示存在错误,则确定所述软件负载均衡的健康度下降。
5.如权利要求1所述的评估方法,其特征在于,评估所述软件负载均衡的内部性能的健康度包括:
获取包括丢包率、连接数、吞吐量、时延、新建连接速率的数据层面指标,
确定所述数据层面指标是否处于正常范围,
若任意一个数据层面指标处于正常范围之外,则确定所述软件负载均衡的健康度下降。
6.如权利要求1至5任意一项所述的评估方法,其特征在于,通过模拟访问探测所述软件负载均衡的四层负载均衡转发器的转发性能包括:
根据上游交换机的类型确定IP五元组,所述IP五元组包括源IP、目标IP、源端口号、目标端口号以及协议号;
根据IP五元组匹配规则,创建四层访问测试路径,其中,使每一条四层访问测试路径通过目标四层负载均衡转发器;
在预定周期内通过所述四层访问测试路径访问所述目标四层负载均衡转发器;
获取访问所述目标四层负载均衡转发器的成功率。
7.如权利要求6所述的评估方法,其特征在于,通过该四层负载均衡转发器的转发性能评估所述四层负载均衡转发器的健康度包括:
判断访问所述目标四层负载均衡转发器的成功率是否低于第二阈值;
若低于第二阈值,则确定所述目标四层负载均衡转发器处于不健康的状态。
8.如权利要求1至5任意一项所述的评估方法,其特征在于,通过模拟访问探测所述软件负载均衡的七层负载均衡转发集群的转发性能包括:
通过变换不同的客户端访问目标七层负载均衡转发集群;
获取访问所述目标七层负载均衡转发集群的成功率。
9.如权利要求8所述的评估方法,其特征在于,通过该七层负载均衡转发集群的转发性能评估所述七层负载均衡转发集群的健康度包括:
判断访问所述目标七层负载均衡转发集群的成功率是否低于第三阈值;
若低于第三阈值,则确定所述目标七层负载均衡转发集群器处于不健康的状态。
10.如权利要求1所述的评估方法,其特征在于,还包括:
获取流量数据,
根据所述流量数据确定所述流量变动比例;
判断所述流量变动比例与第四阈值和第五阈值的大小关系,第四阈值小于第五阈值;
若所述流量变动比例大于第四阈值且小于等于第五阈值,则确定所述软件负载均衡处于亚健康状态;
若所述流量变动比例大于第五阈值,则确定所述软件负载均衡处于不健康状态。
11.一种软件负载均衡的健康度的评估系统,其特征在于,所述评估系统包括:
内部性能评估模块,用于评估所述软件负载均衡的内部性能的健康度;
四层负载均衡评估模块,用于通过模拟四层负载均衡转发器的转发场景,探测所述四层负载均衡转发器的转发性能,评估所述四层负载均衡转发器的健康度;
七层负载均衡评估模块,用于通过模拟七层负载均衡转发集群的转发场景,探测所述七层负载均衡转发集群的转发性能,评估所述七层负载均衡转发集群的健康度。
12.如权利要求11所述的评估系统,其特征在于,评估所述软件负载均衡的内部性能的健康度包括:
获取物理机的CPU负载、CPU使用率,
监控所述CPU负载、CPU使用率中的任意一者的变动量是否超过第一阈值,
若所述变动量超过第一阈值,则确定所述软件负载均衡的健康度下降。
13.如权利要求11所述的评估系统,其特征在于,评估所述软件负载均衡的内部性能的健康度包括:
获取历史进程数,
判断当前进程数与历史进程数是否一致,
若不一致,则确定所述软件负载均衡的健康度下降。
14.如权利要求11所述的评估系统,其特征在于,评估所述软件负载均衡的内部性能的健康度包括:
通过在预定的节点定时抓包,
通过所述抓包检测到存在节点不通时,查看日志,
若日志显示存在错误,则确定所述软件负载均衡的健康度下降。
15.如权利要求11所述的评估系统,其特征在于,评估所述软件负载均衡的内部性能的健康度包括:
获取包括丢包率、连接数、吞吐量、时延、新建连接速率的数据层面指标,
确定所述数据层面指标是否处于正常范围,
若任意一个数据层面指标处于正常范围之外,则确定所述软件负载均衡的健康度下降。
16.如权利要求11至15任意一项所述的评估系统,其特征在于,通过模拟访问探测所述软件负载均衡的四层负载均衡转发器的转发性能包括:
根据上游交换机的类型确定IP五元组,所述IP五元组包括源IP、目标IP、源端口号、目标端口号以及协议号;
根据IP五元组匹配规则,创建四层访问测试路径,其中,使每一条四层访问测试路径通过目标四层负载均衡转发器;
在预定周期内通过所述四层访问测试路径访问所述目标四层负载均衡转发器;
获取访问所述目标四层负载均衡转发器的成功率。
17.如权利要求16所述的评估系统,其特征在于,通过该四层负载均衡转发器的转发性能评估所述四层负载均衡转发器的健康度包括:
判断访问所述目标四层负载均衡转发器的成功率是否低于第二阈值;
若低于第二阈值,则确定所述目标四层负载均衡转发器处于不健康的状态。
18.如权利要求11至15任意一项所述的评估系统,其特征在于,通过模拟访问探测所述软件负载均衡的七层负载均衡转发集群的转发性能包括:
通过变换不同的客户端访问目标七层负载均衡转发集群;
获取访问所述目标七层负载均衡转发集群的成功率。
19.如权利要求18所述的评估系统,其特征在于,通过该七层负载均衡转发集群的转发性能评估所述七层负载均衡转发集群的健康度包括:
判断访问所述目标七层负载均衡转发集群的成功率是否低于第三阈值;
若低于第三阈值,则确定所述目标七层负载均衡转发集群器处于不健康的状态。
20.如权利要求11所述的评估系统,其特征在于,还包括:
流量数据获取模块,用于获取流量数据;
流量变动确定模块,用于根据所述流量数据确定所述流量变动比例;
判断模块,用于判断所述流量变动比例与第四阈值和第五阈值的大小关系,第四阈值小于第五阈值;
健康度确定模块,用于:当所述判断模块判断所述流量变动比例大于第四阈值且小于等于第五阈值,则确定所述软件负载均衡处于亚健康状态;当所述判断模块判断所述流量变动比例大于第五阈值,则确定所述软件负载均衡处于不健康状态。
21.一种计算机可读存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1-10中任一项所述评估方法的步骤。
22.一种计算机设备,包括存储器和处理器,其特征在于,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时能够实现如权利要求1-10中任一项所述的评估方法。
CN202010846840.5A 2020-08-21 2020-08-21 软件负载均衡的健康度的评估方法、系统、介质和设备 Pending CN112001623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010846840.5A CN112001623A (zh) 2020-08-21 2020-08-21 软件负载均衡的健康度的评估方法、系统、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010846840.5A CN112001623A (zh) 2020-08-21 2020-08-21 软件负载均衡的健康度的评估方法、系统、介质和设备

Publications (1)

Publication Number Publication Date
CN112001623A true CN112001623A (zh) 2020-11-27

Family

ID=73473439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010846840.5A Pending CN112001623A (zh) 2020-08-21 2020-08-21 软件负载均衡的健康度的评估方法、系统、介质和设备

Country Status (1)

Country Link
CN (1) CN112001623A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021810A (zh) * 2007-03-08 2007-08-22 山东浪潮齐鲁软件产业股份有限公司 软件系统性能评估方法
US20180091591A1 (en) * 2016-09-23 2018-03-29 Microsoft Technology Licensing, Llc Live migration of probe enabled load balanced endpoints in a software defined network
CN108377222A (zh) * 2018-01-15 2018-08-07 顺丰科技有限公司 基于软件的负载均衡实现方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021810A (zh) * 2007-03-08 2007-08-22 山东浪潮齐鲁软件产业股份有限公司 软件系统性能评估方法
US20180091591A1 (en) * 2016-09-23 2018-03-29 Microsoft Technology Licensing, Llc Live migration of probe enabled load balanced endpoints in a software defined network
CN108377222A (zh) * 2018-01-15 2018-08-07 顺丰科技有限公司 基于软件的负载均衡实现方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US11442803B2 (en) Detecting and analyzing performance anomalies of client-server based applications
US11671342B2 (en) Link fault isolation using latencies
CN111092786B (zh) 网络设备安全认证服务可靠性增强系统
CN108306747B (zh) 一种云安全检测方法、装置和电子设备
CN105721184A (zh) 一种网络链路质量的监控方法及装置
US8924787B2 (en) Network debugging
CN110809060B (zh) 一种应用服务器集群的监控系统及监控方法
CN107888455A (zh) 一种数据检测方法、装置和系统
CN112714013B (zh) 一种在云环境下的应用故障定位方法
WO2017000536A1 (zh) 一种bfd检测方法与装置
CN112994972B (zh) 一种分布式探针监测平台
CN113938407A (zh) 基于带内网络遥测系统的数据中心网络的故障检测方法及装置
CN112350854A (zh) 一种流量故障定位方法、装置、设备及存储介质
CN112003747A (zh) 云虚拟网关的故障定位方法
KR20190002280A (ko) 5g 분산 클라우드 시스템의 빅 데이터를 이용하여 장애를 관리하는 장치 및 방법
CN116723136A (zh) 应用fcm聚类算法的网络检测数据的方法
CN112001623A (zh) 软件负载均衡的健康度的评估方法、系统、介质和设备
CN111865667B (zh) 网络连通性故障根因定位方法及装置
CN105933153A (zh) 集群故障监测方法及装置
CN110099004A (zh) 一种网络安全路由方法及系统
CN117014914A (zh) 网络故障的定位方法及装置
Liu et al. Brownfield Measurement: A Practical Grey Failure Identification and Localization Method in Incremental Deployment Network
CN114710424B (zh) 基于软件定义网络的主机侧数据包处理延时测量方法
CN111552605B (zh) 基于网络端数据流信息的故障定位方法、系统和装置
CN117931491A (zh) 故障区域检测方法、装置、终端设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination