CN107957934B - 一种服务器运行时状态的跨层度量方法及系统 - Google Patents

一种服务器运行时状态的跨层度量方法及系统 Download PDF

Info

Publication number
CN107957934B
CN107957934B CN201711050056.8A CN201711050056A CN107957934B CN 107957934 B CN107957934 B CN 107957934B CN 201711050056 A CN201711050056 A CN 201711050056A CN 107957934 B CN107957934 B CN 107957934B
Authority
CN
China
Prior art keywords
class
server
cosine
space
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711050056.8A
Other languages
English (en)
Other versions
CN107957934A (zh
Inventor
何慧虹
赵丽
刘谦
王勇
樊冬进
麻志毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201711050056.8A priority Critical patent/CN107957934B/zh
Publication of CN107957934A publication Critical patent/CN107957934A/zh
Application granted granted Critical
Publication of CN107957934B publication Critical patent/CN107957934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种服务器运行时状态的跨层度量方法及系统,将预先采集的目标服务器数据转换成变化向量,并将变化向量转换成余弦空间的点;对余弦空间的点进行聚类,得到所有时刻的分类数,并计算每个分类的类中心位置和边界;将余弦空间的点作为输入计算目标服务器的余弦空间的点所属类,将类中心位置作为输入计算目标服务器的变化向量到所属类的类内距离;根据目标服务器的余弦空间的点所属类和类内距离,得出服务器的运行时健康度状态。本发明解决了当前服务器状态模型主要以当前资源利用率和已发生的告警作为输入,难以追踪健康度变化过程,不具备服务器提前预警的能力。

Description

一种服务器运行时状态的跨层度量方法及系统
技术领域
本发明涉及一种服务器运行时状态的度量技术,具体涉及一种服务器运行时状态的跨层度量方法及系统。
背景技术
虚拟化技术的不断成熟以及相关技术的不断演进,极大提升软件系统的可靠性和可用性的同时,也为传统的服务器运维带来了新的挑战。从IaaS(Infrastructure as aService)、PaaS(Platform as a Service)、SaaS(Software as a Service)到容器云引领的CaaS(Container as aService)和微服务架构,都致力于将基础设施、中间件等各种软、硬件资源虚拟成一种服务提供给软件系统,使得软件系统与底层运行环境解除绑定,增强了软件部署的灵活性、可靠性和可用性。为了应对上述高灵活性和高弹性的资源分配架构给大规模服务器运维带来的新挑战:服务器的故障引发根源越来越难追溯,服务器故障产生的影响也越来越难以评估。产业界目前普遍采用各种模型以度量服务器的状态,从而可以评估服务器故障的影响范围。
然而,注意到目前服务器状态模型主要着眼于服务器自身,以硬件资源利用率和告警信息作为模型输入,用以评估当前服务器对外可提供服务的能力和故障、告警的紧急程度,并不支持深入分析服务器内部运行状态,因此它难以用于追溯引发服务器故障的根本原因,例如服务器内存利用率过高是由于某一虚拟机内的业务处理请求发生异常导致,也难以评估该故障或告警对上层业务造成的影响。这些模型普遍将服务器及其承载的服务(如虚拟机、容器等)割裂对待,忽略了服务器和承载服务之间相互影响的关系,导致不能深入分析服务器内部运行状态,例如承载服务运行状态对服务器硬件状态的影响程度,并还原告警和故障发生的原因。更深远的说,由于这些服务器状态模型还停留在服务器表征层面,难以用来探究服务器状态变化的深层原因,因此难以作为容量规划决策的依据。
发明内容
为解决上述现有技术中的不足,本发明的目的是提供一种服务器运行时状态的跨层度量方法及系统,解决了当前服务器状态模型主要以当前资源利用率和已发生的告警作为输入,难以追踪健康度变化过程,不具备服务器提前预警的能力;解决了当前服务器状态模型忽略服务器及其承载服务相互影响关系,导致健康度度量还停留在表层,无法深入分析导致健康度变化的根本原因,也难以为容量规划提出依据的问题。
本发明的目的是采用下述技术方案实现的:
本发明提供一种服务器运行时状态的跨层度量方法,其改进之处在于:
将预先采集的目标服务器数据转换成变化向量,并将变化向量转换成余弦空间的点;
对余弦空间的点进行聚类,得到所有时刻的分类数,并计算每个分类的类中心位置和边界;
将余弦空间的点作为输入计算目标服务器的余弦空间的点所属类,将类中心位置作为输入计算目标服务器的变化向量到所属类的类内距离;
根据目标服务器的余弦空间的点所属类和类内距离,得出服务器的运行时健康度状态。
进一步地:所述将预先采集的目标服务器数据转换成变化向量,并将变化向量转换成余弦空间的点,包括:
根据预先采集的目标服务器数据计算变化向量;
根据变化向量计算变化向量模;
将变化向量模投射到方向余弦空间中,得到余弦空间的点。
进一步地:所述变化向量用下式表示:
式中:为服务器x在ti时刻的采集值,为服务器x在ti-Δt时刻的采集值为,ΔHi x为服务器x从ti-Δt时刻至ti时刻的变化向量;ri 1,ri 2,...,ri m分别为基础设施层指标中关键部件资源的利用率,/>为第w个容器的健康存活率,Jcw,i为第w个容器cti在观察窗口内接收到的输入数量,Jcw,i-Δt为第w个容器cti-Δt在观察窗口内接收到的输入数量,Jrw,i为第w个容器cti在观察窗口内符合要求响应的请求数量,Jrw,i-Δt为第w个容器cti-Δt在观察窗口内符合要求响应的请求数量,i表示第ti个采集时刻,m为基础设施层采集的指标总数;h是健康度healthy的缩写。
进一步地:令l=m+3,用h统一表示的分量,则服务器x在ti时刻的变化向量表示为:
所述变化向量模用下式表示:
所述余弦空间的点用下式表示:
式中:l表示采集的所有指标项种类;为/>映射到方向余弦空间中的点;为/>映射到方向余弦空间中的点的向量,分别表示为
进一步地,所述对余弦空间的点进行聚类,得到所有时刻的分类数,并计算每个分类的类中心位置,包括:
计算采集的服务器数据的变化向量矩阵,并将变化向量矩阵投射到方向余弦空间中得到余弦矩阵;
对余弦矩阵进行降维处理后得到降维后的余弦矩阵;
对降维后的余弦矩阵进行聚类,得到每个时刻变化方向分类情况;
根据每个时刻变化方向分类情况得到所有时刻的分类数向量;
根据分类数向量计算每个分类的类中心位置。
进一步地,所述服务器数据的变化向量矩阵用下式表示:
式中,表示第j台服务器在第k天第i次计算中得到的变化向量,
所述余弦矩阵用下式表示:
式中:表示第n台服务器在第m天中的第w次计算得到的余弦矩阵。
进一步地,所述降维后的余弦矩阵表示为:
式中:N'n,m为降维后的余弦矩阵,表示降维后的余弦矩阵的每个元素;令P=[ρi,t,r],i=1...w,t=1...g,r=1...l;P为N'n,m的特征矩阵;ρi,t,r为第i次计算第t个分量的降维特征向量中的第r个元素;
降维后的余弦矩阵的每个元素表示为:
进一步地,所述根据每个时刻变化方向分类情况得到所有时刻的分类数向量,包括:
使用聚类算法对降维后的余弦矩阵N'n,m按照计算次序划分成w个子空间,每个空间由每天计算时刻的余弦空间的点构成;
对每个空间进行聚类,得到每个计算时刻的变化方向分类情况,记第i个时刻得到qi个分类,所有时刻的分类数组成分类数向量,表示为Q=[qi]T,i=1...w。
进一步地,所述每个分类的类中心位置表示为:
其中:
式中:取第i个时刻内第j个分类内各个分量的期望作为类中心点;ni,j,d为第d天第i时刻属于第j分类的元素个数。
进一步地,所述将余弦空间的点作为输入计算目标服务器的余弦空间的点所属类,将每个分类的类中心距离作为输入计算目标服务器的变化向量到所属类的类内距离,包括:
将主成分分析后的类中心点C'i,j=[E(z'i,j,t)]T,i=1...w,j=1...qi,t=1...g映射回原方向余弦空间,如果此前没有应用主成分分析,则直接使用计算得到的类中心点;
将映射回原方向余弦空间的类中心点通过特征矩阵P进行重构,得到原方向余弦空间中的类中心点,表达式如下:
C=[Ci,j]T,i=1...w,j=1...qi
其中:Ci,j=PT·C'i,j
进一步地,计算所述每个分类的边界包括:
计算每个分类的变化向量模的期望;
根据变化向量模的期望计算每个分类的边界。
进一步地,所述每个分类的变化向量模的期望表示为:
每个分类的边界表示为:
式中:Mi,j为每个分类的变化向量模的期望,表示第k台服务器在第d天第i次计算中得到的变化向量ni,j,d为第d天第i时刻属于第j分类的元素个数。
进一步地,所述目标服务器的余弦空间的点所属类表示为:
其中,/>
所述类内距离表示为:
式中:表示类内距离,具体指目标服务器采集指标变化程度在所属类中的相对位置,/>表示目标服务器x的第i次计算得到的余弦空间的点在主成分分析后对应的点。
进一步地,所述根据目标服务器的余弦空间的点所属类和类内距离,得出服务器运行时的健康度状态,包括:
重复计算目标服务器的余弦空间的点所属类及类内距离直至达到迭代次数最大值,得到服务器的所属类别向量;
根据所属类别向量计算目标服务器的类内距离的平均值;
根据平均值的大小度量目标服务器的健康度。
进一步地,所述服务器的所属类别向量表示为:
所述类内距离的平均值表示为:
式中:表示n次计算得到服务器x从ti时刻起所属类别向量,服务器x的状态类别为/>中出现次数最多的类别/>
本发明提供一种服务器运行时状态的跨层度量系统,其改进之处在于:
转换模块,用于将预先采集的目标服务器数据转换成变化向量,并将变化向量转换成余弦空间的点;
第一计算模块,用于对余弦空间中的点进行聚类,得到所有时刻的分类数,并计算每个分类的类中心位置和边界;
第二计算模块,用于将余弦空间的点作为输入计算目标服务器的余弦空间的点所属类,将每个分类的类中心位置作为输入计算目标服务器的变化向量到所属类的类中心位置;
度量模块,用于根据目标服务器的余弦空间的点所属类和类内距离,得出服务器的运行时健康度状态。
进一步地:所述转换模块,进一步包括:
第一计算单元,用于根据预先采集的目标服务器数据计算变化向量;
第二计算单元,用于根据变化向量计算变化向量模;
第三计算单元,用于将变化向量模投射到方向余弦空间中,得到余弦空间的点。
进一步地:所述第一计算模块,进一步包括:
投射单元,用于计算采集的服务器数据的变化向量矩阵,并将变化向量矩阵投射到方向余弦空间中得到余弦矩阵;
降维单元,用于对余弦矩阵进行降维处理后得到降维后的余弦矩阵;
聚类单元,用于对降维后的余弦矩阵进行聚类,得到每个时刻变化方向分类情况;
第一获得单元,用于根据每个时刻变化方向分类情况得到所有时刻的分类数向量;
第四计算单元,用于根据分类数向量计算每个分类的类中心距离。
进一步地:所述度量模块,进一步包括:
第二获得单元,用于重复n次计算目标服务器余弦空间的点所属类别及类中心距离直至达到迭代次数最大值,得到服务器的所属类别向量;
第五计算单元,用于根据所属类别向量计算目标服务器的类别时的类内距离的平均值;
度量单元,用于根据平均值的大小度量目标服务器的健康度。
与最接近的现有技术相比,本发明提供的技术方案具有的有益效果是:
本发明将预先采集的目标服务器数据转换成变化向量,并将变化向量转换成余弦空间的点;对余弦空间的点进行聚类,得到所有时刻的分类数,并计算每个分类的类中心位置和边界;将余弦空间的点作为输入计算目标服务器的余弦空间的点所属类,将类中心位置作为输入计算目标服务器的变化向量到所属类的类内距离;根据目标服务器的余弦空间的点所属类和类内距离,得出服务器的运行时健康度状态。本发明提供的技术方案贯穿服务器基础设施、虚拟机/容器、中间件和应用层的服务器运行时状态跨层度量方法,解决了:
(1)当前服务器状态模型主要以当前资源利用率和已发生的告警作为输入,难以追踪健康度变化过程,不具备服务器提前预警的能力;
(2)当前服务器状态模型忽略服务器及其承载服务相互影响关系,导致健康度度量还停留在表层,无法深入分析导致健康度变化的根本原因,也难以为容量规划提出依据的问题。
附图说明
图1是本发明提供的一种服务器运行时状态的跨层度量方法的流程简图;
图2是本发明提供的一种服务器运行时状态的跨层度量方法的详细流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
a)本发明具体的技术方案服务器状态跨层度量方法主要由训练和在线应用两阶段构成,由数据转换、聚类相关分析和在线分类三个主要活动构成,描述如下:
1.在进入训练或在线应用阶段之前,把采集数据转换成变化向量和余弦空间的点;
2.在训练阶段,对转换后的余弦矩阵进行PCA降维,对降维后的数据应用DBSCAND无监督聚类方法进行聚类,利用符号定义法输入人工定制规则来决定每个类所代表的健康度,并根据余弦矩阵和变化向量矩阵计算每个类的类中心和边界;
3.在在线应用阶段,通过计算余弦空间的点和训练阶段得到的余弦空间中的类中心距离决定该余弦空间的点所属类,通过计算变化向量到变化向量空间中的类中心距离得到该变化向量的类内距离,从而得到该变化向量在所属类中所处位置;;
4.重复执行步骤3若干次,综合每次计算的变化类型和类内距离值给出服务器的运行时健康度状态评价
以下是本发明主要变量的定义:
选取服务器如下监测指标作为计算指标。
基础设施层指标:关键部件资源的利用率r1,r2,...,rm
容器层指标:容器健康存活率
即在目标服务器上运行的健康容器数目cthealthy除以总体容器数目cttotal。容器指的是应用层的载体,例如进程、虚拟机和docker等。容器健康指的是在观察窗口内能够正常向外发送心跳消息。
应用层:目标服务器上接收的总任务数/请求数Jc与总任务成功率/成功响应请求率Jr。Jc实指以应用运维人员关注的指标刻画该服务器在观察窗口内接收的输入,Jr实指满足要求的请求响应数除以总体请求数。因此:
jci表示第i个容器cti在观察窗口内接收到的输入数量;
表示第i个容器cti在观察窗口内符合要求响应的请求数量,
健康度计算间隔周期为Δt,一天之中一共计算w次。
以下是步骤的具体说明:
步骤1:数据转换:
设服务器x在ti时刻的采集值为在ti-Δt时刻的采集值为/>则服务器x从ti-Δt时刻至ti时刻的变化向量为:
令l=m+3,用h统一表示的分量,h为健康度healthy的缩写,则服务器x在ti时刻的变化向量可表示为:
然后,计算变化向量的模,计算方法如下:
将变化向量进一步映射到方向余弦空间中的某个点,计算方法如下:
因此,为/>映射到方向余弦空间中的某个点,这样就完成了变化向量到方向余弦空间中的映射。
变化向量用于直观刻画采集指标值的变化量,而余弦空间的点则用以刻画采集指标值的变化方向。
步骤2:对余弦空间中的点进行聚类和分析:
假设n台服务器m天,每次健康度计算对应的采集值表示为Xn,m,即
根据步骤1,可计算出Xn,m的变化向量矩阵Mn,m,即:
其中/>表示第j台服务器在第k天第i次计算中得到的变化向量,即
进一步将Mn,m投射到方向余弦空间中得到Nn,m,即
如果采集指标过多,可对Nn,m运用PCA(主成分分析法)提取Nn,m中的主成分,达到降维效果。记Nn,m的特征矩阵为P,降维后的矩阵为N'n,m,则
其中:降维后的余弦矩阵为表示主成分分析法降维后余弦矩阵的每个元素;i,1i,g表示主成分分析法将一个l维的向量压缩成一个g维的向量;P=[ρi,t,r],i=1...w,t=1...g,r=1...l;P为Nn,m的特征矩阵;ρi,t,r为第i次计算第t个分量的降维特征向量中的第l个元素;
P=[ρi,t,r],i=1...w,t=1...g,r=1...l
N'n,m通过Nn,m和P进行计算得到,计算方法如下:
其中ρi,t,r为第i次计算第t个分量的降维特征向量中的第l个元素。
然后,使用DBSCAND聚类算法对N'n,m按照计算次序划分成w个子空间,每个空间由每天该计算时刻的余弦空间的点构成,对每个空间进行聚类,从而得到每个计算时刻的变化方向分类情况,记第i个时刻得到qi个分类,所有时刻的分类数组成向量Q=[qi]T,i=1...w
取第i个时刻内第j个分类内各个分量的期望作为类中心点,计算方法如下:
C'i,j=[E(z'i,j,t)]T,i=1...w,j=1...qi,t=1...g,其中:
其中ni,j,d为第d天第i时刻属于第j分类的元素个数。
得到每个时刻内的分类后,还需要为每个分类赋予现实意义的涵义。本发明借鉴了变化向量分析方法中常用的符号法,为各层指标采集值的整体变化方向组合人工赋予现实涵义,由于方向余弦表示的正是变化方向(向上增长或向下减少或持平),因此可以将每个分类中心点对应到不同的变化方向组合,从而获得该分类的现实涵义。由于人工定义的是采集指标的变化方向,因此需要将主成分分析后的类中心点映射回方向余弦空间(如果此前没有应用PCA方法,则直接使用计算得到的类中心点即可),将上述计算得到的类中心点通过特征矩阵P进行重构,得到原方向余弦空间中的类中心点,计算方法如下:
C=[Ci,j]T,i=1...w,j=1...qi,其中:Ci,j=PT·C'i,j
基于符号法赋予方向余弦空间中的分类现实意义的表如下所示:
表1各层指标变化方向组合与服务器健康状态类型映射表
其中,“+”表示类中心点的基础设施层/容器层/应用层方向余弦分量大于0的个数多于小于0的个数,“0”表示两者个数相等,“-”表示前者个数少于后者,例如:
基础设施层为“+”
注意到表1仅表示了部分组合代表的状态,因为这个和服务器运行的应用密切相关,需要运维人员根据经验进行赋值。此外,使用者也可以自定义“+”的阈值条件,例如当只有不低于80%的分量余弦值大于0时,该层余弦值才大于0.
为每个时刻内所有类中心点按照指标层次进行统计,然后根据表1查询得到该类代表的服务器状态。由于Ci,j与C'i,j一一映射,也得知了C'i,j所属类别。
仅仅知道C'i,j所属类别仅能定性地描述服务器状态,为了定量描述服务器状态,本发明采用了类内距离进行描述。首先,需要为每个分类计算其在变化向量空间中的特征。由于变化向量和方向余弦空间的点是一一对应的,因此可以得到每个分类在变化向量空间中的元素。分类的分布特征通过类边界进行描述,刻画了该分类覆盖的空间范围。
首先计算每个分类的变化向量模的期望,计算方法如下:
然后每个类的类边界通过变化向量模的标准差进行描述,计算方法如下:
其中ni,j,d为第d天第i时刻属于第j分类的元素个数
步骤3:在线应用时计算目标服务器所属类和类内距离
根据步骤一进行数据转换,可得到服务器x在ti时刻的变化向量以及在方向余弦空间中的映射/>根据步骤二已知ti时刻的分类情况和各个分类的覆盖范围。则服务器x在ti时刻所属类别/>等于距离/>最近的类中心点所属类,即:
其中/>
根据表1需要特别指出的是,如果即x的变化向量的模和对应类的模特征满足该不等式,则认为服务器处于“平稳期”。
类内距离表示该服务器采集指标变化程度在所属类中的相对位置,计算方法如下:
通过计算余弦空间的点和余弦空间中的类中心位置(这个类中心位置是C'i,j=[E(z'i,j,t)]T,i=1...w,j=1...qi,t=1...g)计算余弦空间的点所属类,通过计算变化向量到变化向量空间中的类中心位置(这个类中心的每一个分量通过是计算)得到变化向量的类内距离,最终得到变化向量在所属类中所处位置;
步骤4:度量服务器的健康度
重复步骤三n次计算得到服务器x从ti时刻起所属类别向量则服务器x的状态类别为/>即/>中出现次数最多的类别,类内距离则等于该类别时的类内距离的平均值,计算方法如下:
/>
式中:ch为容器健康存活率,m为关键部件数目,n为容器数目,Jc为以应用运维人员关注的指标刻画该服务器在观察窗口内接收的输入,Jr为满足要求的请求响应数除以总体请求数。
两个空间用来描述不同维度的状态:余弦空间的点所属类发生在余弦空间中的,用来定性描述状态,包括衰退、健康状态,类内距离发生在变化向量空间的,用来定量描述程度(比如“严重”“轻微”),两者结合起来就得到了一个比较综合的评价如“严重衰退”“非常健康”。如果所属类是“健康”,那么平均值越大表示离健康状态越远,说明不是那么健康;如果所属类是“失效”,那么平均值越大表示离失效状态越远,表示轻微失效。
实施例二、
基于同样的发明构思,本发明还提供一种服务器运行时状态的跨层度量系统,包括:
转换模块,用于将预先采集的目标服务器数据转换成变化向量,并将变化向量转换成余弦空间的点;
第一计算模块,用于对余弦空间中的点进行聚类,得到所有时刻的分类数,并计算每个分类的类中心位置和边界;
第二计算模块,用于将余弦空间的点作为输入计算目标服务器的余弦空间的点所属类,将每个分类的类中心位置作为输入计算目标服务器的变化向量到所属类的类中心位置;
度量模块,用于根据目标服务器的余弦空间的点所属类和类内距离,得出服务器的运行时健康度状态。
进一步地:所述转换模块,进一步包括:
第一计算单元,用于根据预先采集的目标服务器数据计算变化向量;
第二计算单元,用于根据变化向量计算变化向量模;
第三计算单元,用于将变化向量模投射到方向余弦空间中,得到余弦空间的点。
进一步地:所述第一计算模块,进一步包括:
投射单元,用于计算采集的服务器数据的变化向量矩阵,并将变化向量矩阵投射到方向余弦空间中得到余弦矩阵;
降维单元,用于对余弦矩阵进行降维处理后得到降维后的余弦矩阵;
聚类单元,用于对降维后的余弦矩阵进行聚类,得到每个时刻变化方向分类情况;
第一获得单元,用于根据每个时刻变化方向分类情况得到所有时刻的分类数向量;
第四计算单元,用于根据分类数向量计算每个分类的类中心距离。
进一步地:所述度量模块,进一步包括:
第二获得单元,用于重复n次计算目标服务器余弦空间的点所属类别及类中心距离直至达到迭代次数最大值,得到服务器的所属类别向量;
第五计算单元,用于根据所属类别向量计算目标服务器的类别时的类内距离的平均值;
度量单元,用于根据平均值的大小度量目标服务器的健康度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (9)

1.一种服务器运行时状态的跨层度量方法,其特征在于:
将预先采集的目标服务器数据转换成变化向量,并将变化向量转换成余弦空间的点;
对余弦空间的点进行聚类,得到所有时刻的分类数,并计算每个分类的类中心位置和边界;
将余弦空间的点作为输入计算目标服务器的余弦空间的点所属类,将类中心位置作为输入计算目标服务器的变化向量到所属类的类内距离;
根据目标服务器的余弦空间的点所属类和类内距离,得出服务器的运行时健康度状态;
所述将预先采集的目标服务器数据转换成变化向量,并将变化向量转换成余弦空间的点,包括:
根据预先采集的目标服务器数据计算变化向量;
根据变化向量计算变化向量模;
将变化向量模投射到方向余弦空间中,得到余弦空间的点;
所述变化向量用下式表示:
式中:为服务器x在ti时刻的采集值,为服务器x在ti-Δt时刻的采集值为,/>为服务器x从ti-Δt时刻至ti时刻的变化向量;ri 1,ri 2,...,ri m分别为基础设施层指标中关键部件资源的利用率,/>为第w个容器的健康存活率,Jcw,i为第w个容器cti在观察窗口内接收到的输入数量,Jcw,i-Δt为第w个容器cti-Δt在观察窗口内接收到的输入数量,Jrw,i为第w个容器cti在观察窗口内符合要求响应的请求数量,Jrw,i-Δt为第w个容器cti-Δt在观察窗口内符合要求响应的请求数量,i表示第ti个采集时刻,m为基础设施层采集的指标总数;h是健康度healthy的缩写;
令l=m+3,用h统一表示的分量,则服务器x在ti时刻的变化向量表示为:
所述变化向量模用下式表示:
所述余弦空间的点用下式表示:
式中:l表示采集的所有指标项种类;为/>映射到方向余弦空间中的点;为/>映射到方向余弦空间中的点的向量,分别表示为
所述对余弦空间的点进行聚类,得到所有时刻的分类数,并计算每个分类的类中心位置,包括:
计算采集的服务器数据的变化向量矩阵,并将变化向量矩阵投射到方向余弦空间中得到余弦矩阵;
所述服务器数据的变化向量矩阵用下式表示:
式中,表示第j台服务器在第k天第i次计算中得到的变化向量,
所述余弦矩阵用下式表示:
式中:表示第n台服务器在第m天中的第w次计算得到的余弦矩阵;
对余弦矩阵进行降维处理后得到降维后的余弦矩阵;
所述降维后的余弦矩阵表示为:
式中:N'n,m为降维后的余弦矩阵,表示降维后的余弦矩阵的每个元素;令P=[ρi,t,r],i=1...w,t=1...g,r=1...l;P为N'n,m的特征矩阵;ρi,t,r为第i次计算第t个分量的降维特征向量中的第r个元素;
降维后的余弦矩阵的每个元素表示为:
对降维后的余弦矩阵进行聚类,得到每个时刻变化方向分类情况;
根据每个时刻变化方向分类情况得到所有时刻的分类数向量;
根据分类数向量计算每个分类的类中心位置;
所述每个分类的类中心位置表示为:
C'i,j=[E(z'i,j,t)]T,i=1...w,j=1...qi,t=1...g;
其中:
式中:取第i个时刻内第j个分类内各个分量的期望作为类中心点;ni,j,d为第d天第i时刻属于第j分类的元素个数。
2.如权利要求1所述的跨层度量方法,其特征在于,所述根据每个时刻变化方向分类情况得到所有时刻的分类数向量,包括:
使用聚类算法对降维后的余弦矩阵N'n,m按照计算次序划分成w个子空间,每个空间由每天计算时刻的余弦空间的点构成;
对每个空间进行聚类,得到每个计算时刻的变化方向分类情况,记第i个时刻得到qi个分类,所有时刻的分类数组成分类数向量,表示为Q=[qi]T,i=1...w。
3.如权利要求1所述的跨层度量方法,其特征在于,所述将余弦空间的点作为输入计算目标服务器的余弦空间的点所属类,将每个分类的类中心距离作为输入计算目标服务器的变化向量到所属类的类内距离,包括:
将主成分分析后的类中心点C'i,j=[E(z'i,j,t)]T,i=1...w,j=1...qi,t=1...g映射回原方向余弦空间,如果此前没有应用主成分分析,则直接使用计算得到的类中心点;
将映射回原方向余弦空间的类中心点通过特征矩阵P进行重构,得到原方向余弦空间中的类中心点,表达式如下:
C=[Ci,j]T,i=1...w,j=1...qi
其中:Ci,j=PT·Ci',j
4.如权利要求3所述的跨层度量方法,其特征在于,计算所述每个分类的边界包括:
计算每个分类的变化向量模的期望;
根据变化向量模的期望计算每个分类的边界。
5.如权利要求4所述的跨层度量方法,其特征在于,所述每个分类的变化向量模的期望表示为:
每个分类的边界表示为:
式中:Mi,j为每个分类的变化向量模的期望,表示第k台服务器在第d天第i次计算中得到的变化向量ni,j,d为第d天第i时刻属于第j分类的元素个数。
6.如权利要求5所述的跨层度量方法,其特征在于,所述目标服务器的余弦空间的点所属类表示为:
其中,/>
所述类内距离表示为:
式中:表示类内距离,具体指目标服务器采集指标变化程度在所属类中的相对位置,表示目标服务器x的第i次计算得到的余弦空间的点在主成分分析后对应的点。
7.如权利要求6所述的跨层度量方法,其特征在于,所述根据目标服务器的余弦空间的点所属类和类内距离,得出服务器运行时的健康度状态,包括:
重复计算目标服务器的余弦空间的点所属类及类内距离直至达到迭代次数最大值,得到服务器的所属类别向量;
根据所属类别向量计算目标服务器的类内距离的平均值;
根据平均值的大小度量目标服务器的健康度。
8.如权利要求7所述的跨层度量方法,其特征在于,所述服务器的所属类别向量表示为:
所述类内距离的平均值表示为:
式中:表示n次计算得到服务器x从ti时刻起所属类别向量,服务器x的状态类别为中出现次数最多的类别/>
9.一种服务器运行时状态的跨层度量系统,用于实现如权利要求1所述的一种服务器运行时状态的跨层度量方法,其特征在于,包括:
转换模块,用于将预先采集的目标服务器数据转换成变化向量,并将变化向量转换成余弦空间的点;
第一计算模块,用于对余弦空间中的点进行聚类,得到所有时刻的分类数,并计算每个分类的类中心位置和边界;
第二计算模块,用于将余弦空间的点作为输入计算目标服务器的余弦空间的点所属类,将每个分类的类中心位置作为输入计算目标服务器的变化向量到所属类的类中心位置;
度量模块,用于根据目标服务器的余弦空间的点所属类和类内距离,得出服务器的运行时健康度状态。
CN201711050056.8A 2017-10-31 2017-10-31 一种服务器运行时状态的跨层度量方法及系统 Active CN107957934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711050056.8A CN107957934B (zh) 2017-10-31 2017-10-31 一种服务器运行时状态的跨层度量方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711050056.8A CN107957934B (zh) 2017-10-31 2017-10-31 一种服务器运行时状态的跨层度量方法及系统

Publications (2)

Publication Number Publication Date
CN107957934A CN107957934A (zh) 2018-04-24
CN107957934B true CN107957934B (zh) 2023-10-13

Family

ID=61963443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711050056.8A Active CN107957934B (zh) 2017-10-31 2017-10-31 一种服务器运行时状态的跨层度量方法及系统

Country Status (1)

Country Link
CN (1) CN107957934B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103152438A (zh) * 2013-04-09 2013-06-12 上海理想信息产业(集团)有限公司 一种云计算环境下业务健康度获取方法
CN106777622A (zh) * 2016-12-06 2017-05-31 山东瀚岳智能科技股份有限公司 基于人工智能的机电设备在线故障诊断的方法及系统
CN106776288A (zh) * 2016-11-25 2017-05-31 北京航空航天大学 一种基于Hadoop的分布式系统的健康度量方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9672207B2 (en) * 2015-10-19 2017-06-06 International Business Machines Corporation System, method, and recording medium for determining and discerning items with multiple meanings

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103152438A (zh) * 2013-04-09 2013-06-12 上海理想信息产业(集团)有限公司 一种云计算环境下业务健康度获取方法
CN106776288A (zh) * 2016-11-25 2017-05-31 北京航空航天大学 一种基于Hadoop的分布式系统的健康度量方法
CN106777622A (zh) * 2016-12-06 2017-05-31 山东瀚岳智能科技股份有限公司 基于人工智能的机电设备在线故障诊断的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Zakaria Gheid ,Yacine Challal .An efficient and privacy-preserving similarity evaluation for big data analytics.UCC '15: Proceedings of the 8th International Conference on Utility and Cloud Computing.2015,第281–289页. *
何慧虹 ; 王勇 ; 史亮.分布式环境下基于ZooKeeper服务的数据同步研究.《信息网络安全》.2015,(第9期),第227-230页. *
黄丹.文件分发系统的资源分配策略.《中国博士学位论文全文数据库 信息科技辑》.2013,(第10期),全文. *

Also Published As

Publication number Publication date
CN107957934A (zh) 2018-04-24

Similar Documents

Publication Publication Date Title
US10769009B2 (en) Root cause analysis for correlated development and operations data
US10354201B1 (en) Scalable clustering for mixed machine learning data
US20190087737A1 (en) Anomaly detection and automated analysis in systems based on fully masked weighted directed
US20190146982A1 (en) Cluster evaluation in unsupervised learning of continuous data
US20210042628A1 (en) Building a federated learning framework
EP2515233A1 (en) Detecting and diagnosing misbehaving applications in virtualized computing systems
JP2018514859A (ja) 分散型モデル構築
CN108090516A (zh) 自动生成机器学习样本的特征的方法及系统
US8775338B2 (en) Computer-implemented systems and methods for constructing a reduced input space utilizing the rejected variable space
US9330160B2 (en) Software application complexity analysis
US10394631B2 (en) Anomaly detection and automated analysis using weighted directed graphs
CN110633194B (zh) 一种硬件资源在特定环境下的性能评估方法
US11972382B2 (en) Root cause identification and analysis
CN106980571A (zh) 一种测试用例集的构建方法和设备
US20170147934A1 (en) Method and system for quantitatively evaluating the confidence in information received from a user based on cognitive behavior
WO2017071369A1 (zh) 一种预测用户离网的方法和设备
CN110245650A (zh) 振动智能检测方法及相关产品
US10824956B1 (en) System and method for price estimation of reports before execution in analytics
CN109918313A (zh) 一种基于GBDT决策树的SaaS软件性能故障诊断方法
CN103957116A (zh) 一种云故障数据的决策方法及系统
CN112700131A (zh) 基于人工智能的ab测试方法、装置、计算机设备及介质
US10248462B2 (en) Management server which constructs a request load model for an object system, load estimation method thereof and storage medium for storing program
CN107957934B (zh) 一种服务器运行时状态的跨层度量方法及系统
US11461586B2 (en) Learned interaction with a virtual scenario
CN113158435A (zh) 基于集成学习的复杂系统仿真运行时间预测方法与设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant