CN114444827B - 一种集群性能的评估方法和装置 - Google Patents

一种集群性能的评估方法和装置 Download PDF

Info

Publication number
CN114444827B
CN114444827B CN202011189775.XA CN202011189775A CN114444827B CN 114444827 B CN114444827 B CN 114444827B CN 202011189775 A CN202011189775 A CN 202011189775A CN 114444827 B CN114444827 B CN 114444827B
Authority
CN
China
Prior art keywords
historical
time interval
performance index
historical performance
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011189775.XA
Other languages
English (en)
Other versions
CN114444827A (zh
Inventor
张洪林
陈刚
苏伟杰
温健军
杨孝平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Sichuan Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Sichuan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Sichuan Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202011189775.XA priority Critical patent/CN114444827B/zh
Publication of CN114444827A publication Critical patent/CN114444827A/zh
Application granted granted Critical
Publication of CN114444827B publication Critical patent/CN114444827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Development Economics (AREA)
  • Computational Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Marketing (AREA)

Abstract

本申请公开了一种集群性能的评估方法和装置,该方法包括:获取待评估的集群的性能指标;基于所述性能指标和预先训练的模型,确定所述性能指标对应的时间区间,所述模型基于历史性能指标和所述历史性能指标对应的历史时间区间训练得到,所述时间区间包括忙时间区间或闲时间区间;获取预先确定的与所述时间区间对应的评估阈值,不同的时间区间对应不同的评估阈值,所述评估阈值基于预设算法对历史时间区间对应的历史性能指标进行分析处理得到;基于所述性能指标和所述评估阈值,对所述集群进行性能评估。本申请实施例的评估阈值是能够跟随历史性能指标进行智能调整的动态阈值,更贴近实际场景,从而可以有效地对集群进行评估。

Description

一种集群性能的评估方法和装置
技术领域
本申请涉及性能评估领域,尤其涉及一种集群性能的评估方法和装置。
背景技术
目前,在集群的运行过程中,通常需要对集群的性能进行评估,以找准集群的瓶颈或发现集群是否异常。具体地,在集群的运行过程中,可以对集群的性能指标(比如每秒查询率(Query Per Second,QPS)等)进行监控,若该性能指标超过预设阈值,则确定集群运行异常,此时可以触发告警或提示,实现对集群的性能评估。
然而,在实际应用中,上述预设阈值通常基于人工经验确定得到,在基于该预设阈值进行性能评估时,往往会出现漏告警或误告警的问题,导致无法对集群的性能进行准确评估。
发明内容
本申请实施例提供一种集群性能的评估方法和装置,用于解决目前无法对集群的性能进行准确评估的问题。
为解决上述技术问题,本申请实施例是这样实现的:
第一方面,提出一种集群性能的评估方法,包括:
获取待评估的集群的性能指标;
基于所述性能指标和预先训练的模型,确定所述性能指标对应的时间区间,所述模型基于历史性能指标和所述历史性能指标对应的历史时间区间训练得到,所述时间区间包括忙时间区间或闲时间区间;
获取预先确定的与所述时间区间对应的评估阈值,不同的时间区间对应不同的评估阈值,所述评估阈值基于预设算法对历史时间区间对应的历史性能指标进行分析处理得到;
基于所述性能指标和所述评估阈值,对所述集群进行性能评估。
第二方面,提出一种集群性能的评估装置,包括:
第一获取单元,获取待评估的集群的性能指标;
确定单元,基于所述性能指标和预先训练的模型,确定所述性能指标对应的时间区间,所述模型基于历史性能指标和所述历史性能指标对应的历史时间区间训练得到,所述时间区间包括忙时间区间或闲时间区间;
第二获取单元,获取预先确定的与所述时间区间对应的评估阈值,不同的时间区间对应不同的评估阈值,所述评估阈值基于预设算法对历史时间区间对应的历史性能指标进行分析处理得到;
性能评估单元,基于所述性能指标和所述评估阈值,对所述集群进行性能评估。
第三方面,提出一种电子设备,该电子设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,该可执行指令在被执行时使该处理器执行以下操作:
获取待评估的集群的性能指标;
基于所述性能指标和预先训练的模型,确定所述性能指标对应的时间区间,所述模型基于历史性能指标和所述历史性能指标对应的历史时间区间训练得到,所述时间区间包括忙时间区间或闲时间区间;
获取预先确定的与所述时间区间对应的评估阈值,不同的时间区间对应不同的评估阈值,所述评估阈值基于预设算法对历史时间区间对应的历史性能指标进行分析处理得到;
基于所述性能指标和所述评估阈值,对所述集群进行性能评估。
第四方面,提出一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下方法:
获取待评估的集群的性能指标;
基于所述性能指标和预先训练的模型,确定所述性能指标对应的时间区间,所述模型基于历史性能指标和所述历史性能指标对应的历史时间区间训练得到,所述时间区间包括忙时间区间或闲时间区间;
获取预先确定的与所述时间区间对应的评估阈值,不同的时间区间对应不同的评估阈值,所述评估阈值基于预设算法对历史时间区间对应的历史性能指标进行分析处理得到;
基于所述性能指标和所述评估阈值,对所述集群进行性能评估。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请实施例在获取到集群的性能指标并基于该性能指标对集群进行性能评估时,首先,可以基于预先训练的模型确定性能指标对应忙时间区间还是闲时间区间;其次,基于确定的时间区间获取预先确定的与该时间区间对应的评估阈值,该评估阈值基于预设算法对历史时间区间对应的历史性能指标进行分析处理得到;最后,基于评估阈值和性能指标,对集群进行评估。由于在对集群性能评估时,考虑到集群的性能指标对应的忙闲时间区间,并基于忙闲时间区间各自对应的评估阈值进行性能评估,因此,可以实现基于集群的忙闲状态使用不同评估阈值进行性能评估的目的,使得评估结果更加准确;由于评估阈值基于历史性能指标确定得到,历史性能指标会随着时间更新,即当前的性能指标在后续会作为历史性能指标参与评估阈值的计算,因此,评估阈值是能够跟随历史性能指标进行智能调整的动态阈值,更贴近实际场景,能够作为集群性能指标的有效参考,为业务系统集群健康度、告警等提供重要参考指标,从而可以有效地对集群进行评估。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个实施例集群性能的评估方法的流程示意图;
图2是本申请的一个实施例模型训练方法的流程示意图;
图3是本申请的一个实施例忙时间区间和闲时间区间的示意图;
图4是本申请的一个实施例集群性能的评估方法的流程示意图;
图5是本申请的一个实施例电子设备的结构示意图;
图6是本申请的一个实施例集群性能的评估装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
目前,在对集群的性能进行评估时,针对集群的性能指标,可以通过经验估算一个固定的告警阈值,当集群的性能指标超过该阈值时,可以触发告警或提示,然而,由于该阈值是基于经验确定得到的,因此会存在设置过高或过低的问题,若阈值设置过高,则当集群出现异常时,将无法及时触发应有的告警或者提示,达不到应有的作用;若阈值设置偏低,则会存在集群正常但触发了告警的问题,导致误告警次数太多,运维人员会因为告警太多而疲于处理告警,存在大量的无用功。
此外,还可以针对性能指标计算动态阈值,基于动态阈值对集群的性能进行评估。然而,目前的动态阈值不够准确,无法基于多种维度进行预测,只能解决普通场景下的应用,对于场景复杂的情况无法做出准确的预估,导致无法准确地进行性能评估。
为了解决上述技术问题,本申请实施例提供一种集群性能的评估方法和装置,该方法包括:获取待评估的集群的性能指标;基于所述性能指标和预先训练的模型,确定所述性能指标对应的时间区间,所述模型基于历史性能指标和所述历史性能指标对应的历史时间区间训练得到,所述时间区间包括忙时间区间或闲时间区间;获取预先确定的与所述时间区间对应的评估阈值,不同的时间区间对应不同的评估阈值,所述评估阈值基于预设算法对历史时间区间对应的历史性能指标进行分析处理得到;基于所述性能指标和所述评估阈值,对所述集群进行性能评估。
由于在对集群性能评估时,考虑到集群的性能指标对应的忙闲时间区间,并基于忙闲时间区间各自对应的评估阈值进行性能评估,因此,可实现基于集群的忙闲状态使用不同评估阈值进行性能评估的目的,使得评估结果更加准确;由于评估阈值基于历史性能指标确定得到,历史性能指标会随着时间更新,即当前的性能指标在后续会作为历史性能指标参与评估阈值的计算,因此,评估阈值是能够跟随历史性能指标进行智能调整的动态阈值,更贴近实际场景,能够作为集群性能指标的有效参考,为业务系统集群健康度、告警等提供重要参考指标,从而可以有效地对集群进行评估。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1是本申请的一个实施例集群性能的评估方法的流程示意图。所述方法如下所述。
S102:获取待评估的集群的性能指标。
在对集群的性能进行评估时,可以获取集群当前的性能指标。其中,集群的性能指标可以是QPS或其他可以表征集群性能的指标,本实施例中可以以QPS为例进行说明。
S104:基于所述性能指标和预先训练的模型,确定所述性能指标对应的时间区间,所述模型基于历史性能指标和所述历史性能指标对应的历史时间区间训练得到,所述时间区间包括忙时间区间或闲时间区间。
在S104中,可以预先训练用于确定集群忙闲状态的模型,这样,在获取到集群当前的性能指标后,可以基于预先训练的模型确定集群当前的忙闲状态,即确定集群当前的性能指标对应的时间区间,该时间区间包括忙时间区间(对应集群的忙状态)或闲时间区间(对应集群的闲状态)。
本实施例中,上述模型可以基于历史性能指标和历史性能指标对应的历史时间区间训练得到,具体实现方式如下:
第一步,获取集群的历史性能指标。
首先,可以确定集群中单台主机的历史性能指标。
本实施例中,可以以性能指标为QPS指标为例进行说明,在确定单台主机的QPS时,可以通过以下公式进行计算:
QPS=(总PV数*80%)/(每天秒数*20%)其中,总PV数可以理解为单台主机每日页面被浏览的次数。
在通过上述方法确定得到单台主机的历史QPS后,可以基于相同的方法确定集群中其他单台主机的历史QPS。
其次,基于集群中每台主机的历史性能指标,确定集群在单位时间内的历史性能指标。
本实施例中,可以以集群中每台主机的PV为基础,通过PageRank算法公式计算出集群的性能指标值PR。PageRank算法公式如下:
其中,Mpi为所有对pi节点有出链的节点集合,L(pj)是节点pj的出链数目,N是节点总数,α为常数,可以取值为0.85。
基于上述PageRank算法公式,可以计算每个告警元的PR值,计算方式可以采用幂迭代法,具体地,在初次迭代时,可以赋予任意的PageRank初值,每迭代一次,PageRank值被修正一次,在多次迭代使得PageRank值趋于平稳时,该PageRank值可以作为最终结果。
最后,对集群的多个历史性能指标按时间进行排序,得到具有时序特征的历史性能指标。
第二步,对历史性能指标进行分析,确定历史性能指标对应的历史时间区间,该历史时间区间包括历史忙时间区间和历史闲时间区间。
首先,可以获取用于进行忙闲标记的忙闲阈值。
忙闲阈值可以基于单位时间内的历史性能指标的平均值和预设的波动值确定得到。其中,单位时间可以是一天,波动值可以按照经验设定,具体可以按照业务集群的特点及忙闲程度指定,用于对忙闲区间的标记提供范围。
本实施例中,波动值可以有两个,相应的,忙闲阈值也可以是两个,两个忙闲阈值可以分别用于对当前时刻和下一时刻的性能指标进行忙闲标记。比如,若ui为单位时间内性能指标的平均值,波动值为μ1和μ2,则可以得到忙闲阈值λi1=ui1和λi2=ui2
本实施例中,可以利用忙闲算法得到代表指定时间粒度忙闲分布规律的0,1序列S1和S2,通过S1和S2可以得到最终忙闲分布规律序列S=[s1,s2,……,sn],si∈{0,1,2},其中0代表闲,1代表忙,2代表过渡段。
序列S具体计算方式如下:
本实施例中,可以仅考虑0和1的情况。
其次,针对每个历史性能指标,可以判断历史性能指标是否大于或等于上述忙闲阈值,若是,则可以将该历史性能指标标记为忙;若否,则可以将该历史性能指标标记为闲。
再次,将时间上连续的每N个历史性能指标划分为一组,针对任一组性能指标,若该组性能指标中标记为忙的性能指标的个数大于或等于N/2,则将该组性能指标标记为忙;反之,若该组性能指标中标记为忙的性能指标的个数小于N/2,则将该组性能指标标记为闲。
最后,以标记忙闲后的多组性能指标为基础,将该多组性能指标视为多个已标记忙闲的历史性能指标,并将时间上连续的多组性能指标进行分组,然后执行上述忙闲标记的算法,对分组后的多组性能指标进行忙闲标记,……,如此循环,最终可以得到集群的历史性能指标对应的历史时间区间。
历史时间区间可以是历史忙时间区间,也可以是历史闲时间区间,且针对任一历史时间区间,该区间的时长大于或等于设定时长,即找出集群的历史性能指标的长期忙闲时间区间分布,得到按照忙闲时分类的时序数据。其中,设定时间可以根据实际情况确定,可以是每小时,也可以是每天。
第三步:基于预设的神经网络算法对历史性能指标和历史时间区间进行学习训练,得到上述模型。
预设的神经网络算法可以是长短期记忆网络(Long Short-Term Memory,LSTM)算法,在基于该算法进行模型训练时,可以构建LSTM模型,具体可以包括如下步骤:定义一个序贯模型;添加一个双向SimpleRNN层;添加一个Dropout层;添加一个双向LSTM层;添加一个全连接层;编译模型。
在构建得到LSTM模型后,可以以历史性能指标作为模型输入,以历史时间区间作为模型输出进行学习训练,最终可以得到用于进行忙闲时间区间评估的模型。具体的算法流程可以参见图2。
在模型训练结束后,基于该模型可以得到如图3所示的忙闲时间区间。图3中,横坐标标识时间,纵坐标表示集群的性能指标,图3所示的曲线表示性能指标,中间的横线表示忙闲阈值,矩形线表示忙闲时间区间。
在通过上述方法训练得到模型后,在获取到集群当前的性能指标的情况下,可以结合历史性能指标确定得到集群当前的性能指标对应的时间区间,该时间区间可以是忙时间区间,也可以是闲时间区间。
S106:获取预先确定的与所述时间区间对应的评估阈值,不同的时间区间对应不同的评估阈值,所述评估阈值基于预设算法对所述时间区间对应的历史性能指标进行分析处理得到。
在S106中,可以基于集群的性能指标所对应的时间区间,获取预先确定得到的与该时间区间对应的评估阈值,其中,忙时间区间和闲时间区间对应的评估阈值不同,这样,在后续基于评估阈值对集群进行性能评估时,因此,可以基于集群的忙闲状态使用不同评估阈值进行性能评估,从而可以使得评估结果更加准确。
本实施例中,忙时间区间对应的评估阈值可以表示为第一评估阈值,闲时间区间对应的评估阈值可以表示为第二评估阈值,该第一评估阈值可以基于预设算法对历史忙时间区间对应的历史性能指标进行分析处理得到,该第二评估阈值可以基于预设算法对历史闲时间区间对应的历史性能指标进行分析处理得到,即第一评估阈值和第二评估阈值的确定方法相同。以下将以如何确定得到第一评估阈值为例进行说明。
本实施例中,在确定上述第一评估阈值时,具体实现方式如下:
首先,获取历史忙时间区间对应的多个历史性能指标,该时间区间为集群当前性能指标所对应的时间区间。
其次,基于上述多个历史性能指标,确定该多个历史性能指标对应的特征参数,该特征参数可以包括第一特征值、第二特征值、方差、峰态系数和偏态系数中的至少一种。
本实施例中,上述第一特征值可以等于所述多个历史性能指标的最大值的0.4倍,即,若将第一特征值表示为α,则α=0.4*Max(时间区间内的多个历史性能指标)。
上述第二特征值可以等于多个历史性能指标的最小值和0.6倍的第一数值的和,该第一数值等于多个历史性能指标的最大值向下取整后与该多个历史性能指标的最小值向下取整后的差值,即若将第二特征值表示为β,则:
β=Min(时间区间内的多个历史性能指标)+0.6*(向上取整(Max(时间区间内的多个历史性能指标))-向下取整(Min(时间区间内的多个历史性能指标)))。
上述方差可以基于现有的方法确定得到,这里不再详细说明。
上述峰态系数用于衡量数据分布是否是正态分布,正态分布的峰态系数为0;当峰态系数小于-2或大于2时,可以认为数据不符合正态分布。峰态系数可以通过以下公式确定得到:
上述偏态系数可以用来衡量数据平均值相对总体数据的偏移情况,正态分布的偏态系数等于0;若偏态系数大于0,则说明数据的平均值比数据的中位数要大,反之则平均值要比中位数小。偏态系数可以通过以下公式确定得到:
最后,基于上述特征参数,确定第一评估阈值。
本实施例中,第一评估阈值可以包括误告警阈值和漏告警阈值,该漏告警阈值用于对异常情况下未触发告警的性能指标进行识别,该误告警阈值用于避免无效告警。
在基于特征参数确定误告警阈值和漏告警阈值时,具体实现方式如下:
第一步,可以判断时间区间内的多个历史性能指标的最大值是否小于上述第一特征值,若是,则可以将多个历史性能指标对应的设定置信区间的上界值确定为误告警阈值,将该设定置信区间的下界值确定为漏告警阈值,其中,优选地,该设定置信区间可以是99.5%;若否,则可以执行下一步;
第二步,可以判断时间区间内的多个历史性能指标中大于上述第二特征值的个数是否小于上述第一特征值。
若是,则判断多个历史性能指标的方差是否小于第一设定值,若是,则可以基于3σ准则确定误告警阈值和漏告警阈值;若否,则可以基于正态分布确定误告警阈值和漏告警阈值,其中,第一设定值优选可以是15。
本实施例中,基于3σ准则的误告警阈值和漏告警阈值的判断方法如下:
统计学中异常值上界的计算方法如下:
异常值上界=上四分位数+(上四分位数-下四分位数)*K(K=3),在满足-定条件时,算法将K取3代入上面公式所计算出来的值作为误告警阈值;
统计学中异常值下界的计算方法如下:
异常值下界=下四分位点+(上四分位点-下四分位点)*K(K=-3),在满足-定条件时,算法将K取-3代入上面公式计算出的值作为漏告警阈值。
基于正态分布的误告警阈值和漏告警阈值的判断方法如下:
统计学中正态分布规律分布规律公式如下:
基于该公式,可以将置信度为99.74%的置信区间右边界的值作为误告警阈值,将置信度为0.25%的置信区间左边界的值作为漏告警阈值。
在上述第二步的判断中,若多个历史性能指标中大于第二特征值的个数大于或等于第一特征值,则可以基于多个历史性能指标的峰态系数选择不同的方法确定误告警阈值和漏告警阈值,具体地:
在峰态系数大于等于-1且小于等于1的情况下,可以截取多个历史性能指标中大于第二特征值的历史性能指标,并基于截取到的历史性能指标,利用正态分布确定误告警阈值和漏告警阈值;
在峰态系数大于-2且小于-1或大于1且小于2的情况下,若偏态系数大于0,则可以剔除多个历史性能指标中第一数量的最大值(优选地,可以剔除10%的最大值),基于剔除数据后的历史性能指标,利用正态分布确定误告警阈值和漏告警阈值;若偏态系数小于或等于0,则剔除多个历史性能指标中第二数量的最小值(优选地,可以剔除10%的最小值),基于剔除数据后的历史性能指标,利用正态分布确定误告警阈值和漏告警阈值;
在峰态系数小于等于-2或大于等于2的情况下,若偏态系数大于0,则剔除多个历史性能指标中第三数量的最大值(优选地,可以剔除20%的最大值),基于剔除数据后的历史性能指标,利用正态分布确定误告警阈值和漏告警阈值;若偏态系数小于或等于0,则剔除多个历史性能指标中第四数量的最小值(优选地,可以剔除20%的最小值),基于剔除数据后的历史性能指标,利用切比雪夫不等式确定误告警阈值和漏告警阈值。
本实施例中,在利用切比雪夫不等式确定误告警阈值和漏告警阈值时,具体实现方式如下:
切比雪夫不等式如下:
这个公式表示在任意一个数据集中,位于其平均数m个标准差范围内的比例(或部分)总是至少为1-1/m2,其中m为大于1的任意正数。用该不等式处理非正态分布的数据。依据公式刻得:所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内,可以将5个标准差范围的右边界作为误告警阈值,将5个标准差范围的左边界作为漏告警阈值。
在基于上述方法确定得到第一评估阈值后,可以基于相同的方法确定第二评估阈值。
在一种实现方式中,基于特征参数确定第一评估阈值和第二评估阈值的算法逻辑如下:
输入:样本数据集Data(即历史性能指标)、历史忙闲时间区间
输出:忙闲时时间区间对应的误告警阈值和漏告警阈值
首先,根据mangshi_dict和xianshi_dict的时间区间将data分类,保存为子数据字典data_son_dict,键为时间区间的起始时间,值为该时间区间内的数据;
其次,遍历data_son_dict字典,得到键time_begin和键相对应的数据data_son:
若data_son中的最大值小于α(即上述第一特征值):
直接设置误告警阈值为99.5%置信区间上界值,漏告警阈值为99.5%置信区间下界值;
统计data_son中大于β的数据个数num;
若num小于α:
若data_son的方差小于15:3σ准则计算误告警阈值和漏告警阈值;
若data_son的方差大于15:正态分布计算误告警阈值和漏告警阈值;
若num大于或等于α:
计算data_son的峰态系数δ;
若-1<=δ<=1:
取data_son中大于β的数据,基于该数据用正态分布计算误告警阈值和漏告警阈值;
若-2<δ<-1或者1<δ<2:
计算data_son的偏态系数η;
若η大于0:剔除10%的最大值,基于该数据用正态分布计算误告警阈值和漏告警阈值
若η小于或等于0:剔除10%的最小值,基于该数据用正态分布计算误告警阈值和漏告警阈值
若δ<=-2或者δ>=2:
计算data_son的偏态系数η;
若η大于0:剔除20%的最大值,基于该数据用正态分布计算误告警阈值和漏告警阈值;
若η小于或等于0:剔除20%的最小值,基于该数据用切比雪夫不等式计算误告警阈值和漏告警阈值;
保存为阈值字典,键为time_begin,即为所需的动态阈值范围。
需要说明的是,由于评估阈值是基于集群的历史性能指标确定得到的,而集群的历史性能指标会随着时间更新,即当前的性能指标在后续会作为历史性能指标参与评估阈值的计算,因此,本申请实施例中的评估阈值是能够跟随历史性能指标进行智能调整的动态阈值,更贴近实际场景,能够作为集群性能指标的有效参考,为业务系统集群健康度、告警等提供重要参考指标,从而可以有效地对集群进行评估。
S108:基于所述性能指标和所述评估阈值,对所述集群进行性能评估。
在评估阈值包括漏告警阈值和误告警阈值的情况下,基述性能指标和评估阈值,对集群进行性能评估时,若集群的性能指标在误告警阈值的范围内,则可以不需要告警,相较于现有技术中会触发告警而言,本申请实施例可以取消触发告警,从而避免出现无效告警;若集群的性能指标在漏告警阈值的范围内,则可以触发告警,相较于现有技术中不会触发告警而言,本申请实施例可以触发告警,从而可以使得工作人员及时发现集群的异常。
本申请实施例在获取到集群的性能指标并基于该性能指标对集群进行性能评估时,首先,可以基于预先训练的模型确定性能指标对应忙时间区间还是闲时间区间;其次,基于确定的时间区间获取预先确定的与该时间区间对应的评估阈值,该评估阈值基于预设算法对该时间区间对应的历史性能指标进行分析处理得到;最后,基于评估阈值和性能指标,对集群进行评估。由于在对集群性能评估时,考虑到集群的性能指标对应的忙闲时间区间,并基于忙闲时间区间各自对应的评估阈值进行性能评估,因此,可以实现基于集群的忙闲状态使用不同评估阈值进行性能评估的目的,使得评估结果更加准确;由于评估阈值基于历史性能指标确定得到,历史性能指标会随着时间更新,即当前的性能指标在后续会作为历史性能指标参与评估阈值的计算,因此,评估阈值是能够跟随历史性能指标进行智能调整的动态阈值,更贴近实际场景,能够作为集群性能指标的有效参考,为业务系统集群健康度、告警等提供重要参考指标,从而可以有效地对集群进行评估。
为了便于理解本申请实施例提供的技术方案,可以参见图4。图4位本申请的一个实施例集群性能的评估方法的流程示意图,图4所示实施例可以包括以下步骤:
S401:确定待评估的集群中单台主机的历史性能指标。
S402:基于集群中每台主机的历史性能指标,确定集群的历史性能指标。
S403:对集群的多个历史性能指标按时间进行排序,得到具有时序特征的历史性能指标。
S404:对集群的历史性能指标进行分析,确定历史性能指标对应的历史时间区间。
历史时间区间包括历史忙时间区间和历史闲时间区间。
S405:基于预设的神经网络算法对所历史性能指标和历史时间区间进行学习训练,得到用于进行忙闲时评估的模型。
S406:针对不同的历史时间区间以及不同历史时间区间内的历史性能指标,确定不同历史时间区间对应的误告警阈值和漏告警阈值。
S407:获取集群的性能指标。
S408:基于集群的性能指标和预先训练的模型,确定该性能指标对应的时间区间。
S409:获取预先确定的与该时间区间对应的误告警阈值和漏告警阈值。
S410:若集群的性能指标在误告警阈值的范围内,则取消告警;若集群的性能指标在漏告警阈值的范围内,则触发告警。
上述S401至S410的具体实现方式可以参见图1所示实施例的具体实现方式,这里不再重复说明。
本申请实施例在对集群性能指标数据进行采集分析后,可以基于不同维度:1、普通工作日监控指标值(业务高峰期、业务正常期、业务空闲期);2、月初月末监控指标值(月初月末的业务高峰期、业务正常期、业务空闲期);3、节假日监控指标值(节假日的业务高峰期、业务正常期、业务空闲期);将以上数据分为忙时和闲时两大类,分别对忙时和闲时以不同且合理的初始值进行计算,让计算结果更加准确,为业务集群性能评估提供了科学的依据,更贴近业务的实际场景,从而实现智能调整性能指标的阈值,为业务系统集群健康度、告警等提供重要参考指标。此外,本申请实施例提供的技术方案无需人工指定业务系统性能指标阈值,完全通过系统算法结合历史数据进行评估得到,且具备动态弹性变化的特性,针对业务的变化能够自动适应,同时以忙闲时将数据进行分类评估,提高了数据的准确性,为业务集群的健康度、性能瓶颈评估等均有可靠的参考依据。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
图5是本申请的一个实施例电子设备的结构示意图。请参考图5,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成基于集群性能的评估装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取待评估的集群的性能指标;
基于所述性能指标和预先训练的模型,确定所述性能指标对应的时间区间,所述模型基于历史性能指标和所述历史性能指标对应的历史时间区间训练得到,所述时间区间包括忙时间区间或闲时间区间;
获取预先确定的与所述时间区间对应的评估阈值,不同的时间区间对应不同的评估阈值,所述评估阈值基于预设算法对历史时间区间对应的历史性能指标进行分析处理得到;
基于所述性能指标和所述评估阈值,对所述集群进行性能评估。
上述如本申请图5所示实施例揭示的集群性能的评估装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1和图4的方法,并实现集群性能的评估装置在图1和图4所示实施例中的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1和图4所示实施例的方法,并具体用于执行以下操作:
获取待评估的集群的性能指标;
基于所述性能指标和预先训练的模型,确定所述性能指标对应的时间区间,所述模型基于历史性能指标和所述历史性能指标对应的历史时间区间训练得到,所述时间区间包括忙时间区间或闲时间区间;
获取预先确定的与所述时间区间对应的评估阈值,不同的时间区间对应不同的评估阈值,所述评估阈值基于预设算法对历史时间区间对应的历史性能指标进行分析处理得到;
基于所述性能指标和所述评估阈值,对所述集群进行性能评估。
图6是本申请的一个实施例集群性能的评估装置60的结构示意图。请参考图6,在一种软件实施方式中,所述集群性能的评估装置60可包括:第一获取单元61、确定单元62、第二获取单元63和性能评估单元64,其中:
第一获取单元61,获取待评估的集群的性能指标;
确定单元62,基于所述性能指标和预先训练的模型,确定所述性能指标对应的时间区间,所述模型基于历史性能指标和所述历史性能指标对应的历史时间区间训练得到,所述时间区间包括忙时间区间或闲时间区间;
第二获取单元63,获取预先确定的与所述时间区间对应的评估阈值,不同的时间区间对应不同的评估阈值,所述评估阈值基于预设算法对历史时间区间对应的历史性能指标进行分析处理得到;
性能评估单元64,基于所述性能指标和所述评估阈值,对所述集群进行性能评估。
可选地,所述确定单元62,通过以下方式训练得到所述模型:
获取所述集群的历史性能指标,所述历史性能指标包括QPS指标;
对所述历史性能指标进行分析,确定所述历史性能指标对应的历史时间区间,所述历史时间区间包括历史忙时间区间和历史闲时间区间;
基于预设的神经网络算法对所述历史性能指标和所述历史时间区间进行学习训练,得到所述模型。
可选地,所述确定单元62,获取所述集群的历史性能指标,包括:
确定所述集群中单台主机的历史性能指标;
基于所述集群中每台主机的历史性能指标,确定所述集群的历史性能指标;
对所述集群的多个历史性能指标按时间进行排序,得到具有时序特征的历史性能指标。
可选地,所述确定单元62,对所述历史性能指标进行分析,确定所述历史性能指标对应的历史时间区间,包括:
获取用于进行忙闲标记的忙闲阈值,所述忙闲阈值基于单位时间内的性能指标的平均值和预设的波动值确定得到;
针对每个历史性能指标,若所述历史性能指标大于或等于所述忙闲阈值,则将所述历史性能指标标记为忙;若所述历史性能指标小于所述忙闲阈值,则将所述历史性能指标标记为闲;
循环执行以下步骤,直至得到所述历史性能指标对应的历史时间区间,其中,任一历史时间区间的时长大于或等于设定时长:
将时间上连续的每N个历史性能指标划分为一组,针对任一组历史性能指标,若被标记为忙的历史性能指标的个数大于或等于N/2,则将所述一组历史性能指标标记为忙;若被标记为忙的历史性能指标的个数小于N/2,则将所述一组历史性能指标标记为闲。
可选地,所述评估阈值包括第一评估阈值或第二评估阈值,所述第一评估阈值对应所述忙时间区间,所述第二评估阈值对应所述闲时间区间;
其中,所述第二获取单元63,通过以下方式确定得到所述第一评估阈值:
获取与历史忙时间区间对应的多个历史性能指标;
基于所述多个历史性能指标,确定所述多个历史性能指标对应的特征参数,所述特征参数包括第一特征值、第二特征值、方差、峰态系数和偏态系数中的至少一种,所述第一特征值等于所述多个历史性能指标的最大值的0.4倍,所述第二特征值等于所述多个历史性能指标的最小值和0.6倍的第一数值的和,所述第一数值等于所述多个历史性能指标的最大值向下取整后与所述多个历史性能指标的最小值向下取整后的差值;
基于所述特征参数,确定所述第一评估阈值。
可选地,所述第一评估阈值包括误告警阈值和漏告警阈值,所述漏告警阈值用于对异常情况下未触发告警的性能指标进行识别,所述误告警阈值用于避免无效告警;
其中,所述第二获取单元63,基于所述特征参数,确定所述第一评估阈值,包括:
若所述多个历史性能指标的最大值小于所述第一特征值,则将所述多个历史性能指标对应的设定置信区间的上界值确定为所述误告警阈值,将所述设定置信区间的下界值确定为所述漏告警阈值;
若所述多个历史性能指标中大于所述第二特征值的个数小于所述第一特征值,则,在所述多个历史性能指标的方差小于第一设定值的情况下,基于3σ准则确定所述误告警阈值和所述漏告警阈值;在所述方差大于或等于所述第一设定值的情况下,基于正态分布确定所述误告警阈值和所述漏告警阈值;
若所述多个历史性能指标中大于所述第二特征值的个数大于或等于所述第一特征值,则:
在所述峰态系数大于等于-1且小于等于1的情况下,基于所述多个历史性能指标中大于所述第二特征值的性能指标,利用正态分布确定所述误告警阈值和所述漏告警阈值;
在所述峰态系数大于-2且小于-1或大于1且小于2的情况下,若所述偏态系数大于0,则剔除所述多个历史性能指标中第一数量的最大值,基于剔除数据后的历史性能指标,利用正态分布确定所述误告警阈值和所述漏告警阈值;若所述偏态系数小于或等于0,则剔除所述多个历史性能指标中第二数量的最小值,基于剔除数据后的历史性能指标,利用正态分布确定所述误告警阈值和所述漏告警阈值;
在所述峰态系数小于等于-2或大于等于2的情况下,若所述偏态系数大于0,则剔除所述多个历史性能指标中第三数量的最大值,基于剔除数据后的历史性能指标,利用正态分布确定所述误告警阈值和所述漏告警阈值;若所述偏态系数小于或等于0,则剔除所述多个历史性能指标中第四数量的最小值,基于剔除数据后的历史性能指标,利用切比雪夫不等式确定所述误告警阈值和所述漏告警阈值。
可选地,所述评估阈值包括漏告警阈值和误告警阈值;所述性能评估单元64,基于所述性能指标和所述评估阈值,对所述集群进行性能评估,包括:
若所述性能指标在所述误告警阈值的范围内,则取消告警;
若所述性能指标在所述漏告警阈值的范围内,则触发告警。
本申请实施例提供的集群性能的评估装置60还可执行图1和图4的方法,并实现集群性能的评估装置60在图1和图4所示实施例的功能,本申请实施例在此不再赘述。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (9)

1.一种集群性能的评估方法,其特征在于,包括:
获取待评估的集群的性能指标;
基于所述性能指标和预先训练的模型,确定所述性能指标对应的时间区间,所述模型基于历史性能指标和所述历史性能指标对应的历史时间区间训练得到,所述时间区间包括忙时间区间或闲时间区间;
获取预先确定的与所述时间区间对应的评估阈值,不同的时间区间对应不同的评估阈值,所述评估阈值基于预设算法对历史时间区间对应的历史性能指标进行分析处理得到;
基于所述性能指标和所述评估阈值,对所述集群进行性能评估;
其中,所述模型通过以下方式训练得到:
获取所述集群的历史性能指标,所述历史性能指标包括QPS指标;
对所述历史性能指标进行分析,确定所述历史性能指标对应的历史时间区间,所述历史时间区间包括历史忙时间区间和历史闲时间区间;
基于预设的神经网络算法对所述历史性能指标和所述历史时间区间进行学习训练,得到所述模型。
2.如权利要求1所述的方法,其特征在于,获取所述集群的历史性能指标,包括:
确定所述集群中单台主机的历史性能指标;
基于所述集群中每台主机的历史性能指标,确定所述集群的历史性能指标;
对所述集群的多个历史性能指标按时间进行排序,得到具有时序特征的历史性能指标。
3.如权利要求1所述的方法,其特征在于,对所述历史性能指标进行分析,确定所述历史性能指标对应的历史时间区间,包括:
获取用于进行忙闲标记的忙闲阈值,所述忙闲阈值基于单位时间内的性能指标的平均值和预设的波动值确定得到;
针对每个历史性能指标,若所述历史性能指标大于或等于所述忙闲阈值,则将所述历史性能指标标记为忙;若所述历史性能指标小于所述忙闲阈值,则将所述历史性能指标标记为闲;
循环执行以下步骤,直至得到所述历史性能指标对应的历史时间区间,其中,任一历史时间区间的时长大于或等于设定时长:
将时间上连续的每N个历史性能指标划分为一组,针对任一组历史性能指标,若被标记为忙的历史性能指标的个数大于或等于N/2,则将所述一组历史性能指标标记为忙;若被标记为忙的历史性能指标的个数小于N/2,则将所述一组历史性能指标标记为闲。
4.如权利要求1所述的方法,其特征在于,所述评估阈值包括第一评估阈值或第二评估阈值,所述第一评估阈值对应所述忙时间区间,所述第二评估阈值对应所述闲时间区间;
其中,所述第一评估阈值通过以下方式确定得到:
获取与历史忙时间区间对应的多个历史性能指标;
基于所述多个历史性能指标,确定所述多个历史性能指标对应的特征参数,所述特征参数包括第一特征值、第二特征值、方差、峰态系数和偏态系数中的至少一种,所述第一特征值等于所述多个历史性能指标的最大值的0.4倍,所述第二特征值等于所述多个历史性能指标的最小值和0.6倍的第一数值的和,所述第一数值等于所述多个历史性能指标的最大值向下取整后与所述多个历史性能指标的最小值向下取整后的差值;
基于所述特征参数,确定所述第一评估阈值。
5.如权利要求4所述的方法,其特征在于,所述第一评估阈值包括误告警阈值和漏告警阈值,所述漏告警阈值用于对异常情况下未触发告警的性能指标进行识别,所述误告警阈值用于避免无效告警;
其中,基于所述特征参数,确定所述第一评估阈值,包括:
若所述多个历史性能指标的最大值小于所述第一特征值,则将所述多个历史性能指标对应的设定置信区间的上界值确定为所述误告警阈值,将所述设定置信区间的下界值确定为所述漏告警阈值;
若所述多个历史性能指标中大于所述第二特征值的个数小于所述第一特征值,则,在所述多个历史性能指标的方差小于第一设定值的情况下,基于3σ准则确定所述误告警阈值和所述漏告警阈值;在所述方差大于或等于所述第一设定值的情况下,基于正态分布确定所述误告警阈值和所述漏告警阈值;
若所述多个历史性能指标中大于所述第二特征值的个数大于或等于所述第一特征值,则:
在所述峰态系数大于等于-1且小于等于1的情况下,基于所述多个历史性能指标中大于所述第二特征值的性能指标,利用正态分布确定所述误告警阈值和所述漏告警阈值;
在所述峰态系数大于-2且小于-1或大于1且小于2的情况下,若所述偏态系数大于0,则剔除所述多个历史性能指标中第一数量的最大值,基于剔除数据后的历史性能指标,利用正态分布确定所述误告警阈值和所述漏告警阈值;若所述偏态系数小于或等于0,则剔除所述多个历史性能指标中第二数量的最小值,基于剔除数据后的历史性能指标,利用正态分布确定所述误告警阈值和所述漏告警阈值;
在所述峰态系数小于等于-2或大于等于2的情况下,若所述偏态系数大于0,则剔除所述多个历史性能指标中第三数量的最大值,基于剔除数据后的历史性能指标,利用正态分布确定所述误告警阈值和所述漏告警阈值;若所述偏态系数小于或等于0,则剔除所述多个历史性能指标中第四数量的最小值,基于剔除数据后的历史性能指标,利用切比雪夫不等式确定所述误告警阈值和所述漏告警阈值。
6.如权利要求1所述的方法,其特征在于,所述评估阈值包括漏告警阈值和误告警阈值;基于所述性能指标和所述评估阈值,对所述集群进行性能评估,包括:
若所述性能指标在所述误告警阈值的范围内,则取消告警;
若所述性能指标在所述漏告警阈值的范围内,则触发告警。
7.一种集群性能的评估装置,其特征在于,包括:
第一获取单元,获取待评估的集群的性能指标;
确定单元,基于所述性能指标和预先训练的模型,确定所述性能指标对应的时间区间,所述模型基于历史性能指标和所述历史性能指标对应的历史时间区间训练得到,所述时间区间包括忙时间区间或闲时间区间;
第二获取单元,获取预先确定的与所述时间区间对应的评估阈值,不同的时间区间对应不同的评估阈值,所述评估阈值基于预设算法对历史时间区间对应的历史性能指标进行分析处理得到;
性能评估单元,基于所述性能指标和所述评估阈值,对所述集群进行性能评估;
所述确定单元,通过以下方式训练得到所述模型:
获取所述集群的历史性能指标,所述历史性能指标包括QPS指标;
对所述历史性能指标进行分析,确定所述历史性能指标对应的历史时间区间,所述历史时间区间包括历史忙时间区间和历史闲时间区间;
基于预设的神经网络算法对所述历史性能指标和所述历史时间区间进行学习训练,得到所述模型。
8.一种电子设备,其特征在于,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,该可执行指令在被执行时使该处理器执行以下操作:
获取待评估的集群的性能指标;
基于所述性能指标和预先训练的模型,确定所述性能指标对应的时间区间,所述模型基于历史性能指标和所述历史性能指标对应的历史时间区间训练得到,所述时间区间包括忙时间区间或闲时间区间;
获取预先确定的与所述时间区间对应的评估阈值,不同的时间区间对应不同的评估阈值,所述评估阈值基于预设算法对历史时间区间对应的历史性能指标进行分析处理得到;
基于所述性能指标和所述评估阈值,对所述集群进行性能评估;
其中,所述模型通过以下方式训练得到:
获取所述集群的历史性能指标,所述历史性能指标包括QPS指标;
对所述历史性能指标进行分析,确定所述历史性能指标对应的历史时间区间,所述历史时间区间包括历史忙时间区间和历史闲时间区间;
基于预设的神经网络算法对所述历史性能指标和所述历史时间区间进行学习训练,得到所述模型。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下方法:
获取待评估的集群的性能指标;
基于所述性能指标和预先训练的模型,确定所述性能指标对应的时间区间,所述模型基于历史性能指标和所述历史性能指标对应的历史时间区间训练得到,所述时间区间包括忙时间区间或闲时间区间;
获取预先确定的与所述时间区间对应的评估阈值,不同的时间区间对应不同的评估阈值,所述评估阈值基于预设算法对历史时间区间对应的历史性能指标进行分析处理得到;
基于所述性能指标和所述评估阈值,对所述集群进行性能评估;
其中,所述模型通过以下方式训练得到:
获取所述集群的历史性能指标,所述历史性能指标包括QPS指标;
对所述历史性能指标进行分析,确定所述历史性能指标对应的历史时间区间,所述历史时间区间包括历史忙时间区间和历史闲时间区间;
基于预设的神经网络算法对所述历史性能指标和所述历史时间区间进行学习训练,得到所述模型。
CN202011189775.XA 2020-10-30 2020-10-30 一种集群性能的评估方法和装置 Active CN114444827B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011189775.XA CN114444827B (zh) 2020-10-30 2020-10-30 一种集群性能的评估方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011189775.XA CN114444827B (zh) 2020-10-30 2020-10-30 一种集群性能的评估方法和装置

Publications (2)

Publication Number Publication Date
CN114444827A CN114444827A (zh) 2022-05-06
CN114444827B true CN114444827B (zh) 2023-09-08

Family

ID=81357647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011189775.XA Active CN114444827B (zh) 2020-10-30 2020-10-30 一种集群性能的评估方法和装置

Country Status (1)

Country Link
CN (1) CN114444827B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115190038B (zh) * 2022-06-23 2024-04-19 联想(北京)有限公司 一种状态确定方法以及装置
CN116701153B (zh) * 2023-08-09 2023-10-27 云账户技术(天津)有限公司 结算服务性能的评估方法、装置、电子设备及存储介质
CN117193676B (zh) * 2023-11-08 2024-02-09 苏州元脑智能科技有限公司 一种存储设备性能评估的方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279982A (zh) * 2015-11-13 2016-01-27 北京航空航天大学 一种基于数据驱动的单交叉口动态交通信号控制方法
CN106412931A (zh) * 2016-12-16 2017-02-15 重庆邮电大学 一种基于多时隙融合机制的lte‑u空闲信道评估方法
CN110572297A (zh) * 2019-08-09 2019-12-13 网宿科技股份有限公司 网络性能的评估方法、服务器及存储介质
CN110618933A (zh) * 2019-08-15 2019-12-27 华为技术有限公司 性能分析方法与系统、电子设备与存储介质
CN110825579A (zh) * 2019-09-18 2020-02-21 平安科技(深圳)有限公司 服务器性能监控方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279982A (zh) * 2015-11-13 2016-01-27 北京航空航天大学 一种基于数据驱动的单交叉口动态交通信号控制方法
CN106412931A (zh) * 2016-12-16 2017-02-15 重庆邮电大学 一种基于多时隙融合机制的lte‑u空闲信道评估方法
CN110572297A (zh) * 2019-08-09 2019-12-13 网宿科技股份有限公司 网络性能的评估方法、服务器及存储介质
CN110618933A (zh) * 2019-08-15 2019-12-27 华为技术有限公司 性能分析方法与系统、电子设备与存储介质
CN110825579A (zh) * 2019-09-18 2020-02-21 平安科技(深圳)有限公司 服务器性能监控方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姜红英 ; 周会兰 ; .基于概率论的无线网络性能预警方法.通信管理与技术.2012,(03),62-64. *

Also Published As

Publication number Publication date
CN114444827A (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN114444827B (zh) 一种集群性能的评估方法和装置
CN109558295B (zh) 一种性能指标异常检测方法及装置
CN112258093B (zh) 风险等级的数据处理方法及装置、存储介质、电子设备
CN110008080B (zh) 基于时间序列的业务指标异常检测方法、装置和电子设备
CN110058977A (zh) 基于流式处理的监控指标异常检测方法、装置及设备
CN110083475B (zh) 一种异常数据的检测方法及装置
CN112633412A (zh) 异常用电检测方法、设备及存储介质
CN109857618B (zh) 一种监控方法、装置及系统
CN114595210A (zh) 一种多维数据的异常检测方法、装置及电子设备
CN114911788B (zh) 一种数据插补方法、装置及存储介质
CN113708987B (zh) 网络异常检测方法及装置
CN114356734A (zh) 服务异常检测方法和装置、设备、存储介质
CN111784160A (zh) 一种河流水文情势变化的评估方法及系统
CN112100037B (zh) 告警级别识别方法、装置、电子设备及存储介质
CN115756812A (zh) 一种资源调整方法及装置、存储介质
CN111783883A (zh) 一种异常数据的检测方法及装置
CN113064930A (zh) 数据仓库的冷热数据识别方法、装置及电子设备
CN115238779B (zh) 一种云盘的异常检测方法、装置、设备及介质
CN115567371B (zh) 一种异常检测方法、装置、设备及可读存储介质
CN113079047B (zh) 一种告警处理方法及装置
CN113076451B (zh) 异常行为识别和风险模型库的建立方法、装置及电子设备
CN111695829B (zh) 一种指标波动周期计算方法、装置、存储介质及电子设备
CN112738340B (zh) 话务量的预测方法、装置、设备及存储介质
CN113590608A (zh) 一种基于数据流处理的用户用电信息即采即校方法
CN114358581A (zh) 性能指标的异常阈值确定方法和装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant