CN112838962B - 一种大数据集群的性能瓶颈检测方法及装置 - Google Patents

一种大数据集群的性能瓶颈检测方法及装置 Download PDF

Info

Publication number
CN112838962B
CN112838962B CN202011624491.9A CN202011624491A CN112838962B CN 112838962 B CN112838962 B CN 112838962B CN 202011624491 A CN202011624491 A CN 202011624491A CN 112838962 B CN112838962 B CN 112838962B
Authority
CN
China
Prior art keywords
host node
bottleneck
index
data cluster
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011624491.9A
Other languages
English (en)
Other versions
CN112838962A (zh
Inventor
王夕夕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN202011624491.9A priority Critical patent/CN112838962B/zh
Publication of CN112838962A publication Critical patent/CN112838962A/zh
Application granted granted Critical
Publication of CN112838962B publication Critical patent/CN112838962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning

Abstract

本发明实施例涉及计算机技术领域,尤其涉及一种大数据集群的性能瓶颈检测方法及装置。包括:获取大数据集群中的各主机节点的各主指标的指标值;所述各主指标是从所述大数据集群中的各主机节点获取的;针对任一主机节点,根据所述主机节点的各主指标的指标值,确定所述主机节点是否处于异常状态;根据处于异常状态的各主机节点在所述大数据集群中的网络拓扑位置,确定所述大数据集群中的瓶颈设备。检测方式更加准确,同时将大数据集群作为一个立体的网络进行检测,既能发现主机瓶颈设备,也能发现网络瓶颈设备。可以更加全面地检测大数据集群中的瓶颈设备。

Description

一种大数据集群的性能瓶颈检测方法及装置
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种大数据集群的性能瓶颈检测方法及装置。
背景技术
大数据集群的设备量巨大,通常由数百至上千台主机设备和数十台网络设备组成一个集群。大数据集群的硬件特点就是设备数量多、设备节点多、连接环节多,因而若设备瓶颈,则引起集群出现异常的概率就会大幅提升。
此外,设备瓶颈的形式也是多种多样。若设备或设备部件完全损坏,则高可用机制会隔离故障设备,将故障设备从集群中剔除。若设备出现性能下降,即设备仍能处理数据流,但是数据处理能力下降,变成了集群中的“慢节点”,对于这类瓶颈软硬件系统没有监控报错。因而,如何在没有告警提示的情况下,快速筛查出该类瓶颈设备,是运维工作的一大难点。
目前检测大数据集群的瓶颈设备采用常规监控指标判断的方法,比如CPU使用率、内存使用率、IO(输入输出设备)繁忙度等,如果这些指标连续高于阈值,则成为慢节点怀疑对象。但该方法受集群负载量的影响较大,在集群负载量不同的情况下,这些常规监控指标可出现较大的波动,因而难以对监控指标进行定义。检测不准确,误报率高。且只能针对主机节点进行检测,若与主机节点相连的网络设备如交换机出现了慢节点的瓶颈,则不能被检测到。
综上,目前亟需一种大数据集群的性能瓶颈检测方法及装置,用以解决不能全面且准确地检测大数据集群中的瓶颈的问题。
发明内容
本发明实施例提供一种大数据集群的性能瓶颈检测方法及装置,用以解决不能全面且准确地检测大数据集群中的瓶颈的问题。
本发明实施例提供一种大数据集群的性能瓶颈检测方法,包括:
获取大数据集群中的各主机节点的各主指标的指标值;所述各主指标是从所述大数据集群中的各主机节点获取的;
针对任一主机节点,根据所述主机节点的各主指标的指标值,确定所述主机节点是否处于异常状态;
根据处于异常状态的各主机节点在所述大数据集群中的网络拓扑位置,确定所述大数据集群中的瓶颈设备。
获取所述瓶颈设备的各辅指标的指标值;所述各辅指标是瓶颈设备采集自身的各硬件部件的运行指标;
根据所述各辅指标的指标值,确定所述瓶颈设备的异常原因。
通过对大数据集群各主机节点进行检测,获得各主指标的指标值,从而对各主机节点的运行状态进行检测,弥补了检测常规监控指标的情况下对监控指标难以定义的缺陷,检测方式更加准确。同时通过处于异常状态的各主机节点在大数据集群中的网络拓扑位置确定瓶颈设备,将大数据集群作为一个立体的网络进行检测,既能发现主机瓶颈设备,也能发现网络瓶颈设备。可以更加全面地检测大数据集群中的性能瓶颈。由于辅指标是瓶颈设备采集自身的各硬件部件的运行指标,因此在通过主指标确定了瓶颈设备之后,再结合辅指标快速发现症结点,二者有机地结合在一起,从宏观和局部两个方面层层递进,逐层检测,使整个检测过程更加高效和可靠。
可选地,根据处于异常状态的各主机节点在所述大数据集群中的网络拓扑位置,确定所述大数据集群中的瓶颈设备,包括:
若同一交换机下的一个或多个机架下的所有主机节点均处于异常状态,则确定瓶颈设备为交换机;
若同一交换机下的一个或多个机架下存在处于异常状态的主机节点及处于正常状态的主机节点,则针对任一处于异常状态的主机节点,根据处于异常状态的主机节点中存在异常的各主指标,确定所述处于异常状态的主机节点是否为瓶颈设备。
通过处于异常状态的各主机节点在大数据集群中的布局,可以确定瓶颈设备是交换机或主机节点,若为主机节点,还需进一步判断瓶颈是集群数据倾斜引起的还是服务器自身原因引起的。如此,既能发现主机设备的问题,也能发现网络设备的问题。可以更加全面地检测大数据集群中的瓶颈设备。
可选地,根据处于异常状态的主机节点中存在异常的各主指标,确定所述处于异常状态的主机节点是否为瓶颈设备,包括:
若处于异常状态的主机节点中仅存在一个主指标异常,则确定所述处于异常状态的主机节点为瓶颈设备;
若处于异常状态的主机节点中存在多个主指标异常,则根据所述处于异常状态的主机节点的各辅指标,确定所述处于异常状态的主机节点的异常原因。
由于若主机节点中存在多个主指标异常,则可能是出现了数据倾斜,即在该主机节点上分配了过多的任务数据导致服务器压力大。该种情况并非设备瓶颈,因而在主机节点中存在多个主指标异常的情况时,还需结合辅指标进行判断,从而能够提高瓶颈检测的准确性。
可选地,所述方法还包括:
若根据所述处于异常状态的主机节点的各辅指标确定所述处于异常状态的主机节点的异常原因为数据倾斜,则调整所述处于异常状态的主机节点的任务量。
由于若为主机节点分配了过多的任务量时也会导致主机节点的主指标和辅指标异常,因此若判断该主机节点并非服务器自身原因导致的瓶颈,则调整该主机节点的任务量即可,而无需将其作为瓶颈设备进行排查。
可选地,所述主指标包括存储延时指标、计算资源分配和重分配指标和网络速率指标;
所述辅指标包括以下至少一项:CPU使用率、文件系统使用率、硬盘使用率,磁盘busy程度,物理盘IO响应速度、内存使用率、垃圾回收发生频次、网卡检测状态、端口状态、错包数。
通过主、辅两级指标进行性能瓶颈的检测,同时主指标包括存储延时指标、计算资源分配和重分配指标和网络速率指标,从三个维度进行检测,提高了在大数据集群中检测瓶颈设备的准确性;辅指标用于辅助主指标,在主指标进行初步检测后,通过辅指标的进一步检测可以更加快速准确地发现症结点。
可选地,获取所述瓶颈设备的辅指标的指标值,包括:
若确定所述大数据集群中的瓶颈设备为交换机,则获取所述交换机的端口状态和所述交换机的错包数;
若确定所述大数据集群中的瓶颈设备为主机节点,若存在异常的主指标是存储延时指标,则获取所述主机节点的以下辅指标中的至少一项:硬盘使用率,磁盘忙碌程度,物理盘IO响应速度;若存在异常的主指标是计算资源分配和重分配指标,则获取所述主机节点的以下辅指标中的至少一项:内存使用率、垃圾回收发生频次;若存在异常的主指标是网络速率指标,则获取所述主机节点的以下辅指标中的至少一项:网卡检测状态、端口状态、错包数。
通过设置不同的瓶颈设备获取其相应的辅指标,不同的异常主指标获取其相应的辅指标,可以提高在大数据集群中检测瓶颈问题的效率。
本发明实施例还提供一种大数据集群的性能瓶颈检测装置,包括:
获取单元,用于获取大数据集群中的各主机节点的各主指标的指标值;所述各主指标是从所述大数据集群中的各主机节点获取的;
判断单元,用于针对任一主机节点,根据所述主机节点的各主指标的指标值,确定所述主机节点是否处于异常状态;
处理单元,用于根据处于异常状态的各主机节点在所述大数据集群中的网络拓扑位置,确定所述大数据集群中的瓶颈设备;
所述获取单元,还用于获取所述瓶颈设备的各辅指标的指标值;所述各辅指标是瓶颈设备采集自身的各硬件部件的运行指标;
所述处理单元,还用于根据所述各辅指标的指标值,确定所述瓶颈设备的异常原因。
本发明实施例还提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行上述任一方式所列的大数据集群的性能瓶颈检测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行上述任一方式所列的大数据集群的性能瓶颈检测方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示例性示出了本申请实施例提供的一种大数据集群;
图2为本发明实施例示出的一种可能的大数据集群的性能瓶颈检测方法;
图3为本发明实施例中所涉及到的整体性流程的示意图;
图4为本发明实施例示出的一种可能的大数据集群的瓶颈检测装置。
具体实施方式
为使本申请的目的、实施方式和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
基于本申请描述的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请所附权利要求保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换,例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
为了更好地理解本方案中的系统整体架构,下面对系统的整体架构作一下说明,系统的架构图如图1所示:
图1示例性示出了本申请实施例提供的一种大数据集群,包括多个网络设备节点和多个主机节点。网络设备节点包括汇聚层和接入层中的多个交换机。汇聚层中包括多个汇聚交换机,为简化说明,图中仅示出一个汇聚交换机101;接入层包括多个接入交换机如接入交换机201、接入交换机202、接入交换机203和接入交换机204;主机节点包括主机节点301、主机节点302、主机节点303、主机节点304、主机节点305和主机节点306。其中,主机节点301与接入交换机201和202相连,主机节点302与接入交换机201和202相连,主机节点303与接入交换机201和202相连;主机节点304与接入交换机203和204相连,主机节点305与接入交换机203和204相连,主机节点306与接入交换机203和204相连。接入交换机201、接入交换机202、接入交换机203和接入交换机204接入汇聚交换机101。图1中的直线表示各节点之间的数据传输关系。
在图1所示的大数据集群中,主机节点和交换机都可能成为瓶颈节点,从而引起集群读写异常。
目前检测大数据集群慢节点问题的方案主要有两种。第一种方法利用大数据集群的多副本写入策略,记录数据多副本写入时主节点的耗时和各副本节点的耗时,通过一些算法得到耗时指标,并基于此耗时指标检测集群中是否存在慢节点。第二种方法根据常规监控指标判断,比如CPU使用率、内存使用率、IO(输入输出设备)繁忙度等,如果连续高于阈值,则成为慢节点怀疑对象。
第一种方法重点在于检测主机节点的存储延时层面,是预测磁盘瓶颈的好方法,但是这也是其局限所在,不能全方位地从多个维度检测主机节点的性能。
第二种方法受集群负载量的影响较大,在集群负载量不同的情况下,这些常规监控指标可出现较大的波动,因而难以对监控指标进行定义。检测不准确,误报率高。
此外,现有方案集中于针对主机节点的检测,都不能检测网络设备节点,在网状拓扑中,如果网络设备出现性能问题,即网络慢节点,现有技术难以判断。
图2示出了本发明实施例提供的一种可能的大数据集群的性能瓶颈检测方法,包括:
步骤201、获取大数据集群中的各主机节点的各主指标的指标值;所述各主指标是从所述大数据集群中的各主机节点获取的;
步骤202、针对任一主机节点,根据所述主机节点的各主指标的指标值,确定所述主机节点是否处于异常状态;
步骤203、根据处于异常状态的各主机节点在所述大数据集群中的网络拓扑位置,确定所述大数据集群中的瓶颈设备。
通过对大数据集群各主机节点进行检测,获得各主指标的指标值,从而对各主机节点的运行状态进行检测,弥补了检测常规监控指标的情况下对监控指标难以定义的缺陷,检测方式更加准确。同时通过处于异常状态的各主机节点在大数据集群中的网络拓扑位置确定瓶颈设备,将大数据集群作为一个立体的网络进行检测,既能发现主机瓶颈设备,也能发现网络瓶颈设备。可以更加全面地检测大数据集群中的性能瓶颈。
在步骤201中,获取大数据集群中的各主机节点的各主指标的指标值;所述各主指标是从所述大数据集群中的各主机节点获取的;
可选地,主指标可以为存储延时指标、计算资源分配和重分配指标和网络速率指标。
可选地,存储延时通过大数据集群存储组件hdfs获得,存储组件hdfs进行IO延时的检测。即在大数据集群的所有数据节点上,通过对hdfs源码的调整,设定超时阈值,增加IO写入的超时判断,对每个写IO的延时进行判断,如果超过阈值,就打印在该节点的日志中。各节点每5分钟对超时日志进行计算,统计超时频次,并上传至判断系统。
可选地,计算资源分配和重分配通过大数据集群yarn组件获得,大数据集群yarn组件进行计算资源分配的检测。即在资源管理节点上,每5分钟分析此时间段内所有的任务过程日志,统计各个资源节点分配计算任务的次数,以及出现临时性任务失败,导致该任务再次被分配的次数,并上传至判断系统。
可选地,对大数据集群进行网络速率的检测,即在监控主机上对集群中的所有节点收取网络流量、速率,检查各节点的流量均衡度和网卡速率变化,按5分钟时间间隔检测,并上传至判断系统。
可选地,上述主指标的指标值超过了其相应的阈值,会被上传至判断系统。
可选地,对各主机节点的主指标的指标值的记录是按照大数据集群的网络拓扑结构进行记录的。在判断系统中将上述三个维度的指标根据网络拓扑结构形成网状数组。以图1所示的大数据集群中的系统架构为例,对其中各主机节点的指标值按照如下的网状数组进行记录,如表1所示:
Figure BDA0002878983830000091
表1
在步骤202中,针对任一主机节点,根据所述主机节点的各主指标的指标值,确定所述主机节点是否处于异常状态;
可选地,上述主指标中的任一个主指标的指标值超过了阈值,且超过阈值的次数大于预设次数,则会判断为其相应的主机节点处于异常状态。例如,主机节点301的存储延时超过阈值,若5分钟内超过阈值3次,预设次数为5次,发生频次不大于预设次数,则不会判断为处于异常状态,不作处理,持续观察;若5分钟内超过阈值10次,大于预设次数,则判断为处于异常状态。
在步骤203中,根据处于异常状态的各主机节点在所述大数据集群中的网络拓扑位置,确定所述大数据集群中的瓶颈设备。
可选地,若同一交换机下的一个或多个机架下的所有主机节点均处于异常状态,则确定瓶颈设备为交换机;
若同一交换机下的一个或多个机架下存在处于异常状态的主机节点及处于正常状态的主机节点,则针对任一处于异常状态的主机节点,根据处于异常状态的主机节点中存在异常的各主指标,确定所述处于异常状态的主机节点是否为瓶颈设备。
通过处于异常状态的各主机节点在大数据集群中的布局,可以确定瓶颈设备是交换机或主机节点,若为主机节点,还需进一步判断瓶颈是集群数据倾斜引起的还是服务器自身原因引起的。如此,既能发现主机设备的问题,也能发现网络设备的问题。可以更加全面地检测大数据集群中的瓶颈设备。
可选地,在确定所述大数据集群中的瓶颈设备之后,还包括:
获取所述瓶颈设备的各辅指标的指标值;所述各辅指标是瓶颈设备采集自身的各硬件部件的运行指标;
根据所述各辅指标的指标值,确定所述瓶颈设备的异常原因。
由于辅指标是瓶颈设备采集自身的各硬件部件的运行指标,因此在通过主指标确定了瓶颈设备之后,再结合辅指标快速发现症结点,二者有机地结合在一起,从宏观和局部两个方面层层递进,逐层检测,使整个检测过程更加高效和可靠。
可选地,所述辅指标包括以下至少一项:CPU使用率、文件系统使用率、硬盘使用率,磁盘busy程度,物理盘IO响应速度、内存使用率、垃圾回收发生频次、网卡检测状态、端口状态、错包数。
通过主、辅两级指标进行性能瓶颈的检测,同时主指标包括存储延时指标、计算资源分配和重分配指标和网络速率指标,从三个维度进行检测,提高了在大数据集群中检测瓶颈设备的准确性;辅指标用于辅助主指标,在主指标进行初步检测后,通过辅指标的进一步检测可以更加快速准确地发现症结点。
以图1所示的大数据集群的系统架构为例,接入交换机201下连接由主机节点301、302和303构成的一个机架,接入交换机202下连接由主机节点301、302和303构成的一个机架;若主机节点301、302和303均处于异常状态,则确定瓶颈设备为接入交换机201和/或202。然后获取上述交换机的各辅指标的指标值,根据辅指标的指标值判断具体的瓶颈设备及异常原因。例如,分别获取接入交换机201和202的上下联端口状态和错包数,若接入交换机201和202的上联端口状态和错包数均正常,接入交换机201的下联端口状态和错包数正常,接入交换机202的下联端口状态和错包数不正常,则说明瓶颈设备为接入交换机202。
若主机节点301和302处于异常状态,主机节点303处于正常状态,则需分别针对主机节点301和302中存在异常的各主指标进行判断,从而确定主机节点301和302是否为性能瓶颈设备。
以上仅为示例,本发明实施例对此不作限制。
可选地,确定所述处于异常状态的主机节点是否为瓶颈设备,包括:
若处于异常状态的主机节点中仅存在一个主指标异常,则确定所述处于异常状态的主机节点为瓶颈设备;
若处于异常状态的主机节点中存在多个主指标异常,则根据所述处于异常状态的主机节点的各辅指标,确定所述处于异常状态的主机节点的异常原因。
可选地,异常原因可能为数据倾斜,即在该主机节点上分配了过多的任务数据导致服务器压力大;也可能是服务器本身的性能出现了瓶颈。因此需要结合辅指标进一步判断。从而能够提高瓶颈检测的准确性。
例如,针对处于异常状态的主机节点301而言,若其仅有一个主指标异常,即存储延时超过阈值的次数大于预设次数,则可确定主机节点301为瓶颈设备;若其存在两个主指标异常,即存储延时超过阈值的次数大于预设次数的同时,计算资源分配和重分配的次数也大于预设次数,因为当有多个主指标发生异常的情况下,很有可能是发生了数据倾斜,而非发生瓶颈,此时则需根据辅指标具体判断其是否为瓶颈设备。
可选地,判断主机节点是否为故障设备的方法可以为,根据主机节点的CPU使用率和文件系统使用率进行判断。例如获取处于异常状态的主机节点301的CPU使用率和文件系统使用率,发现其CPU使用率和文件系统使用率与其它节点相比均较低,则该节点发生数据倾斜概率低,着重检查主机节点301服务器本身;若发现其CPU使用率和文件系统使用率与其它节点相比均较高,则该节点发生数据倾斜概率较大,即数据处理的任务量过大,任务量均堆砌在该主机节点上。此时应先判断是否存在数据倾斜现象。
可选地,若根据所述处于异常状态的主机节点的各辅指标确定所述处于异常状态的主机节点的异常原因为数据倾斜,则调整所述处于异常状态的主机节点的任务量。
由于若为主机节点分配了过多的任务量时也会导致主机节点的主指标和辅指标异常,因此若判断该主机节点并非服务器自身原因导致的瓶颈,则调整该主机节点的任务量即可,而无需将其作为瓶颈设备进行排查。
可选地,若根据所述处于异常状态的主机节点的各辅指标确定所述处于异常状态的主机节点是瓶颈设备,则需结合辅指标对其异常原因进行进一步排查。
例如,若确定瓶颈设备为主机节点301,则根据其存在异常的主指标确定选取判断的辅指标。若其存在异常的主指标是存储延时指标,则获取所述主机节点的以下辅指标中的至少一项:硬盘使用率,磁盘忙碌程度,物理盘IO响应速度。若主机节点301的上述辅指标存在异常,例如超过了预设阈值,则对硬盘进行更换。
若存在异常的主指标是计算资源分配和重分配指标,则获取所述主机节点的以下辅指标中的至少一项:内存使用率、垃圾回收发生频次;若主机节点301的上述辅指标存在异常,例如超过了预设阈值,则可更换硬件或进行相应的参数调整。
若存在异常的主指标是网络速率指标,则获取所述主机节点的以下辅指标中的至少一项:网卡检测状态、端口状态、错包数。若主机节点301的上述辅指标存在异常,例如超过了预设阈值,则对网卡、网线和/或交换机端口进行更换。
通过设置不同的瓶颈设备获取其相应的辅指标,不同的异常主指标获取其相应的辅指标,可以提高在大数据集群中检测瓶颈问题的效率。
可选地,经过上述判断后,输出带推荐分值的黑名单和相应的解决方案组合。黑名单是潜在瓶颈和问题,处理方法是针对瓶颈现象预设的解决方案。黑名单和解决方案可以是一对多的关系。每个解决方案有推荐分值,分值越大越推荐。维护人员根据推荐顺序处理瓶颈后,为推荐方案打分,规则库根据反馈调整推荐分值,反复迭代。通过加入一线运维人员的反馈,使检测流程形成闭环,可以保证慢节点判断规则库更有效,更准确。
为了更清楚地介绍上述大数据集群的性能瓶颈检测方法,下面结合图3,对本发明实施例中所涉及到的流程进行整体性说明。如图3所示,可以包括如下步骤:
步骤301、获取大数据集群中的各主机节点的各主指标的指标值;
步骤302、判断各主指标的指标值超过阈值的次数是否大于预设次数;若是,则说明其对应的主机节点存在异常,进入步骤303;若否,则进入步骤312;
步骤303、判断同一交换机下的一个或多个机架下的所有主机节点均处于异常状态或同一交换机下的一个或多个机架下存在处于异常状态的主机节点及处于正常状态的主机节点;若为前者,则确定瓶颈设备为交换机,进入步骤304;若为后者,则需确定所述处于异常状态的主机节点是否为瓶颈设备,进入步骤306;
步骤304、结合辅指标判断具体的发生瓶颈的交换机并确定异常原因;
步骤305、修复网络设备,进入步骤312;
步骤306、针对任一处于异常状态的主机节点,判断该主机节点中是否仅存在一个主指标异常,若是,则说明该主机节点为瓶颈节点,进入步骤307;若否,则进入步骤309;
步骤307、结合辅指标判断异常原因;
步骤308、修复主机;进入步骤312;
步骤309、结合辅指标判断是否出现数据倾斜;若是则进入步骤310,若否,则进入步骤307;
步骤310、数据重平衡;
步骤311、判断异常的主指标是否恢复,若是,则进入步骤312;若否则进入步骤307;
步骤312、结束。
本发明实施例还提供一种大数据集群的性能瓶颈检测装置,如图4所示,包括:
获取单元401,用于获取大数据集群中的各主机节点的各主指标的指标值;所述各主指标是从所述大数据集群中的各主机节点获取的;
判断单元402,用于针对任一主机节点,根据所述主机节点的各主指标的指标值,确定所述主机节点是否处于异常状态;
处理单元403,用于根据处于异常状态的各主机节点在所述大数据集群中的网络拓扑位置,确定所述大数据集群中的瓶颈设备;
所述获取单元401,还用于获取所述瓶颈设备的各辅指标的指标值;所述各辅指标是瓶颈设备采集自身的各硬件部件的运行指标;
所述处理单元403,还用于根据所述各辅指标的指标值,确定所述瓶颈设备的异常原因。
本发明实施例还提供一种计算设备,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行上述任一方式所列的大数据集群的性能瓶颈检测方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行上述任一方式所列的大数据集群的性能瓶颈检测方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (9)

1.一种大数据集群的性能瓶颈检测方法,其特征在于,包括:
获取大数据集群中的各主机节点的各主指标的指标值;所述各主指标是从所述大数据集群中的各主机节点获取的;
针对任一主机节点,根据所述主机节点的各主指标的指标值,确定所述主机节点是否处于异常状态;
根据处于异常状态的各主机节点在所述大数据集群中的网络拓扑位置,确定所述大数据集群中的瓶颈设备;
获取所述瓶颈设备的各辅指标的指标值;所述各辅指标是瓶颈设备采集自身的各硬件部件的运行指标;
根据所述各辅指标的指标值,确定所述瓶颈设备的异常原因。
2.如权利要求1所述的方法,其特征在于,
根据处于异常状态的各主机节点在所述大数据集群中的网络拓扑位置,确定所述大数据集群中的瓶颈设备,包括:
若同一交换机下的一个或多个机架下的所有主机节点均处于异常状态,则确定瓶颈设备为交换机;
若同一交换机下的一个或多个机架下存在处于异常状态的主机节点及处于正常状态的主机节点,则针对任一处于异常状态的主机节点,根据处于异常状态的主机节点中存在异常的各主指标,确定所述处于异常状态的主机节点是否为瓶颈设备。
3.如权利要求2所述的方法,其特征在于,根据处于异常状态的主机节点中存在异常的各主指标,确定所述处于异常状态的主机节点是否为瓶颈设备,包括:
若处于异常状态的主机节点中仅存在一个主指标异常,则确定所述处于异常状态的主机节点为瓶颈设备;
若处于异常状态的主机节点中存在多个主指标异常,则根据所述处于异常状态的主机节点的各辅指标,确定所述处于异常状态的主机节点的异常原因。
4.如权利要求3所述的方法,其特征在于,还包括:
若根据所述处于异常状态的主机节点的各辅指标确定所述处于异常状态的主机节点的异常原因为数据倾斜,则调整所述处于异常状态的主机节点的任务量。
5.如权利要求1至4任一项所述的方法,其特征在于,所述主指标包括存储延时指标、计算资源分配和重分配指标和网络速率指标;
所述辅指标包括以下至少一项:CPU使用率、文件系统使用率、硬盘使用率、磁盘busy程度、物理盘IO响应速度、内存使用率、垃圾回收发生频次、网卡检测状态、端口状态、错包数。
6.如权利要求5所述的方法,其特征在于,
获取所述瓶颈设备的辅指标的指标值,包括:
若确定所述大数据集群中的瓶颈设备为交换机,则获取所述交换机的端口状态和所述交换机的错包数;
若确定所述大数据集群中的瓶颈设备为主机节点,若存在异常的主指标是存储延时指标,则获取所述主机节点的以下辅指标中的至少一项:硬盘使用率,磁盘忙碌程度,物理盘IO响应速度;若存在异常的主指标是计算资源分配和重分配指标,则获取所述主机节点的以下辅指标中的至少一项:内存使用率、垃圾回收发生频次;若存在异常的主指标是网络速率指标,则获取所述主机节点的以下辅指标中的至少一项:网卡检测状态、端口状态、错包数。
7.一种大数据集群的性能瓶颈检测装置,其特征在于,包括:
获取单元,用于获取大数据集群中的各主机节点的各主指标的指标值;所述各主指标是从所述大数据集群中的各主机节点获取的;
判断单元,用于针对任一主机节点,根据所述主机节点的各主指标的指标值,确定所述主机节点是否处于异常状态;
处理单元,用于根据处于异常状态的各主机节点在所述大数据集群中的网络拓扑位置,确定所述大数据集群中的瓶颈设备;
所述获取单元,还用于获取所述瓶颈设备的各辅指标的指标值;所述各辅指标是瓶颈设备采集自身的各硬件部件的运行指标;
所述处理单元,还用于根据所述各辅指标的指标值,确定所述瓶颈设备的异常原因。
8.一种计算设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行权利要求1-6中任一项所述的大数据集群的性能瓶颈检测方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行权利要求1-6中任一项所述的大数据集群的性能瓶颈检测方法。
CN202011624491.9A 2020-12-31 2020-12-31 一种大数据集群的性能瓶颈检测方法及装置 Active CN112838962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011624491.9A CN112838962B (zh) 2020-12-31 2020-12-31 一种大数据集群的性能瓶颈检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011624491.9A CN112838962B (zh) 2020-12-31 2020-12-31 一种大数据集群的性能瓶颈检测方法及装置

Publications (2)

Publication Number Publication Date
CN112838962A CN112838962A (zh) 2021-05-25
CN112838962B true CN112838962B (zh) 2022-10-18

Family

ID=75924368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011624491.9A Active CN112838962B (zh) 2020-12-31 2020-12-31 一种大数据集群的性能瓶颈检测方法及装置

Country Status (1)

Country Link
CN (1) CN112838962B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114422391A (zh) * 2021-11-29 2022-04-29 马上消费金融股份有限公司 分布式系统的检测方法、电子设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104954153A (zh) * 2014-03-24 2015-09-30 中兴通讯股份有限公司 节点故障检测方法及装置
CN108009040A (zh) * 2017-12-12 2018-05-08 杭州时趣信息技术有限公司 一种确定故障根因的方法、系统和计算机可读存储介质
CN111767202A (zh) * 2020-07-08 2020-10-13 中国工商银行股份有限公司 异常检测方法、装置、电子设备和介质
CN111984499A (zh) * 2020-08-04 2020-11-24 中国建设银行股份有限公司 一种大数据集群的故障检测方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10791018B1 (en) * 2017-10-16 2020-09-29 Amazon Technologies, Inc. Fault tolerant stream processing
CN110166264B (zh) * 2018-02-11 2022-03-08 北京三快在线科技有限公司 一种故障定位方法、装置及电子设备
CN109714229B (zh) * 2018-12-27 2020-09-04 山东超越数控电子股份有限公司 一种分布式存储系统的性能瓶颈定位方法
CN110716842B (zh) * 2019-10-09 2023-11-21 北京小米移动软件有限公司 集群故障检测方法和装置
CN110932894A (zh) * 2019-11-22 2020-03-27 北京金山云网络技术有限公司 云存储系统的网络故障定位方法、装置及电子设备
CN112019932B (zh) * 2020-08-27 2022-05-24 广州华多网络科技有限公司 网络故障根因定位方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104954153A (zh) * 2014-03-24 2015-09-30 中兴通讯股份有限公司 节点故障检测方法及装置
CN108009040A (zh) * 2017-12-12 2018-05-08 杭州时趣信息技术有限公司 一种确定故障根因的方法、系统和计算机可读存储介质
CN111767202A (zh) * 2020-07-08 2020-10-13 中国工商银行股份有限公司 异常检测方法、装置、电子设备和介质
CN111984499A (zh) * 2020-08-04 2020-11-24 中国建设银行股份有限公司 一种大数据集群的故障检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数据库集群系统多指标动态负载均衡技术研究;刘倍雄等;《电子设计工程》;20181120(第22期);全文 *

Also Published As

Publication number Publication date
CN112838962A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
JP5267684B2 (ja) 運用管理装置、運用管理方法、及びプログラム記憶媒体
US8930757B2 (en) Operations management apparatus, operations management method and program
CN112988398B (zh) 一种微服务动态伸缩及迁移方法和装置
CN106886485B (zh) 系统容量分析预测方法及装置
WO2013042789A1 (ja) 運用管理装置、運用管理方法、及びプログラム
JP2010186310A (ja) 運用管理装置および運用管理方法ならびにそのプログラム
JP6521096B2 (ja) 表示方法、表示装置、および、プログラム
WO2020214408A1 (en) Timeout mode for storage devices
US20230136274A1 (en) Ceph Media Failure and Remediation
JP5267748B2 (ja) 運用管理システム、運用管理方法、及びプログラム
CN110737924B (zh) 一种数据保护的方法和设备
CN112838962B (zh) 一种大数据集群的性能瓶颈检测方法及装置
JP6252309B2 (ja) 監視漏れ特定処理プログラム,監視漏れ特定処理方法及び監視漏れ特定処理装置
Ghiasvand et al. Anomaly detection in high performance computers: A vicinity perspective
CN113992602B (zh) 一种电缆监测数据上传方法、装置、设备以及存储介质
CN102546652B (zh) 一种服务器负载平衡系统及方法
JP5459431B2 (ja) 運用管理装置および運用管理方法
CN115690681A (zh) 异常判断依据的处理方法、异常判断方法及装置
CN106686082B (zh) 存储资源调整方法及管理节点
CN111625185B (zh) 一种磁盘故障监控的方法、系统及相关组件
Zhu et al. CPU and network traffic anomaly detection method for cloud data center
Kang et al. Spatiotemporal real-time anomaly detection for supercomputing systems
CN107479977B (zh) 一种确定设备性能的方法和设备
CN115150253B (zh) 一种故障根因确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant