CN113360358B - 一种自适应计算it智能运维健康指数的方法及系统 - Google Patents

一种自适应计算it智能运维健康指数的方法及系统 Download PDF

Info

Publication number
CN113360358B
CN113360358B CN202110710423.2A CN202110710423A CN113360358B CN 113360358 B CN113360358 B CN 113360358B CN 202110710423 A CN202110710423 A CN 202110710423A CN 113360358 B CN113360358 B CN 113360358B
Authority
CN
China
Prior art keywords
data
index
health
alarm
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110710423.2A
Other languages
English (en)
Other versions
CN113360358A (zh
Inventor
王晓光
王紫薇
丁锐
徐育毅
刘璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guangtong Youyun Technology Co ltd
Hangzhou Youyun Software Co ltd
Original Assignee
Beijing Guangtong Youyun Technology Co ltd
Hangzhou Youyun Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guangtong Youyun Technology Co ltd, Hangzhou Youyun Software Co ltd filed Critical Beijing Guangtong Youyun Technology Co ltd
Priority to CN202110710423.2A priority Critical patent/CN113360358B/zh
Publication of CN113360358A publication Critical patent/CN113360358A/zh
Application granted granted Critical
Publication of CN113360358B publication Critical patent/CN113360358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Educational Administration (AREA)
  • Computer Hardware Design (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种自适应计算IT智能运维健康指数的方法及系统,包括以下步骤:从数据接入层出发经过数据治理、数据清理成为标准格式的数据接入;在数据质量管理模块进行数据质量分析并在进行展示;算法平台从数据平台取数据后,算法代码在算法平台运行;当某个应用或资源的健康分低于正常值时,辅助运维人员进行问题的关联分析以及对可能发生异常的情况进行提前感知。本发明的有益效果为:针对层次分析法的缺点,本发明的目标是充分发挥智能算法的特点,以海量的历史数据作为学习的对象,构建出一套自适应计算IT智能运维健康指数的方法及系统,结合层次分析法和智能算法相结合的自适应动态权重指标体系,具备智能优化、自动学习的特点。

Description

一种自适应计算IT智能运维健康指数的方法及系统
技术领域
本发明涉及智能IT运维的领域,具体涉及一种自适应计算IT智能运维健康指数的方法及系统。
背景技术
在IT运维场景中,运维系统随着用户量的增加、数据量的增大,业务系统的压力也越来越大。为了方便运维人员监控应用系统的健康程度,对异常进行监控和分析,业务需要设计一套系统健康度体系,并以应用系统为核心,计算关联的网络、主机、数据库、中间件的故障影响范围,得出是否导致应用系统故障,从而帮助管理者针对应用系统故障快速定位和解决,满足客户实际需求。传统的应用系统健康度系统大多采用“层次分析法”(AnalyticHierarchy Process)为基础的专家体系。层次分析法是一种定性和定量相结合的、系统的、层次化的分析方法。它的原理是根据问题的性质和要达到的总目标,将问题分解为不同的组成因素,并按照因素间的相互关联影响以及隶属关系将因素按不同的层次聚集组合,形成一个多层次的分析结构模型,从而最终使问题归结为最低层(供决策的方案、措施等)相对于最高层(总目标)的相对重要权值的确定或相对优劣次序的排定。运用层次分析法构造系统模型时,大体可以分为以下四个步骤:1)建立层次结构模型;2)构造判断(成对比较)矩阵;3)层次单排序及其一致性检验;4)层次总排序及其一致性检验;
“层次分析法”的优点在于:1)每个层次中的每个因素对结果的影响程度都是量化的和清晰的。2)决策方法比较简洁实用,可解释性比较好。把定性和定量的方法结合起来,使复杂的问题分解,便于理解。3)不需要数据的训练,所需的定量数据信息较少。它把判断各要素的相对重要型的步骤留给了专家,让专家对权重进行设置,从而可以应付很多缺少数据采集的场景。4)适用性广泛,基本可以应用到各种决策判断的场景,可以很方便的和行业和背景知识相结合。
传统的应用系统健康度系统所普遍采用的“层次分析法”的特点是在对复杂决策问题的本质、影响因素及其内在关系等进行深入研究的基础上,利用较少的定量信息使决策的思维过程数学化,从而为多目标、多准则或无结构特性的复杂决策问题提供简便的决策方法,是对难以完全定量的复杂系统做出决策的模型和方法。
“层次分析法”的缺点在于:1)作为一种专家系统,层次体系中各种指标阈值和权重需要预先设定。定量数据较少,定性数据较多。2)阈值和权重的设置工作量比较大,需要对业务有比较深刻的理解,对于专家的依赖程度比较高。3)随着数据维度的上升和应用场景的指数级增加,最终层次分析法会遇到“算不过来”的瓶颈。4)缺少自学习的功能,应变能力不足。
在IT运维领域,传统的应用系统健康度系统大多采用层次分析法为基础的专家体系,这种方法的最大问题是各种指标阈值和权重需要专家去设定,无法满足系统指标动态变化以及系统管理能力越来越大的需求。
发明内容
本发明的目的是克服上述技术的不足,而提供了一种自适应计算IT智能运维健康指数的方法及系统。
本发明的目的是通过如下技术方案来完成的:一种自适应计算IT智能运维健康指数的方法,主要包括以下步骤:从数据接入层出发经过数据治理、数据清理成为标准格式的数据接入;在数据质量管理模块进行数据质量分析并在数据质量展示模块进行展示,数据分析员对数据质量进行处理查看;算法平台从数据平台取数据后,算法代码在算法平台运行,算法运行后计算多维度健康分,通过多维度汇聚信息结合专家经验综合得出资源和应用的健康分;当某个应用或资源的健康分低于正常值时,查看具体的异常指标异常告警,辅助运维人员进行问题的关联分析以及对可能发生异常的情况进行提前感知。
更进一步的,所述的多维度健康分包括告警健康分、指标健康分、调用链健康分,系统健康度的考察对象是针对系统应用或针对应用下面的资源的,表达的形式也包括两种,一种是针对系统拓扑结构的健康度展示形式,另一种是针对资源图的健康度展示形式。
更进一步的,计算指标健康度首先需要抽象出关键业务点的关键性能指标,并建立之间的关系,形成一个多层结构,作为计算健康度的基础框架;资源的关键指标和阈值判断最初由业务专家给出,判断指标是否异常,并确定其贡献度权重,生成对象健康度评分;在这个基础上,根据异常工单建立异常数据库,然后执行层次分析法与决策树算法相结合的健康度权重调节算法,对算法进行更新,从而得到更加优化的权重配置;整体步骤分成两个阶段:异常训练数据库建立阶段和异常模型判别阶段;
第一个阶段是异常训练数据库的建立阶段,从告警、指标、工单、日志四个方面出发,选取模糊层次分析法评判出每个方面的权重,分别进行评价,加权累计得出故障总的风险值;
具体而言,分为以下的步骤:
1)建立递阶层次结构模型:自下而上建立包含目标层、准则层和指标层;
2)分别计算指标层基础指标;
对于数值指标,开始根据专家经验来设定数值范围和权重;
对于告警、工单和日志指标的计算;
计算告警指标需要以某业务系统所触发的具体告警内容为出发点,结合深度学习中的自然语言处理的相关技术,对告警内容进行分词处理,词频统计,词向量转换,时间序列衰减多种技术处理后,得到一个代表系统当前运行状态的分值;
对于日志和工单,计算其指标分数;
3)构建三角模糊数判断矩阵
为了准确评价各个要素的权重,以上一层的要素作为判断准则对下一层要素进行两两比较来确定矩阵元素值;由运维专家来完成相关权重的设定,结合层次分析法的1~9标度定量描述,获得专家对综合评判指标重要性的倾向标度,进行模糊化处理获得反映综合评价指标重要性的模糊数判断矩阵;
4)归一化与一致性检验
运用和积法计算各判断矩阵的最大特征值和特征向量,然后对特征向量进行归一化,得到权重排序,并依据各个层次的权重排序,得出权重总排序;然后对权重向量进行一致性检验;其步骤如下(1)计算一致性指标CI=(Kmax-n)/(n-1);(2)计算平均随机一致性指标RI;RI是多次重复随机判断矩阵特征值的计算后取算数平均值的结果;(3)计算权重一致性指标CR=CI/RI;
5)构建异常数据库
执行1)-4)的步骤,记录一段时间内的系统异常数据,异常案例的判断一般结合工单、重要告警、故障记录的,最后由专家进行筛选比对和确认;从而构建系统异常数据仓库,结合正常数据,构建训练样本,为第二阶段的计算做准备;第二阶段是异常模型判别阶段:当经历了第一阶段以后,就拥有一个具备丰富数据的异常样本库了;即可执行第二阶段的计算,其步骤如下:
(1)、测试数据准备;
(2)、将数据进行分层,得到指标层数据;
(3)、根据训练集数据的得分进行分类;
(4)、利用决策树算法,在训练集的基础上进行模型训练;
(5)、根据分类结果利用评分卡模型对测试集数据进行打分,输出打分结果;
最后通过我们得到系统的健康度分数,并且通过与前端拓扑图相结合的方式展示出来,便于运维人员在第一时间全面的洞察系统的健康程度,以及异常的分布情况和关联关系,加速问题排查的效率和准确率。
更进一步的,告警指标的具体计算方案:告警指标基于固定时间窗口内的告警等级所占比例的统计计算,选定一个固定长度的时间窗口,对该时间窗口内的属于某业务系统的所有告警进行统计分析,计算不同等级告警的占比,将各种不同占比的告警进行权重计算,通过权重求和得到总体告警指标分,对应的计算公式为:
Figure BDA0003132841720000031
其中:
HT0=100:表示时间窗口T内没有任何告警;
R=(r0,r1....rn)T:表示时间窗口T内不同等级告警所占比例,满足:
Figure BDA0003132841720000041
W=(W0,W1....Wn)T:表时间窗口T内不同等级告警的权重,满足:
Figure BDA0003132841720000042
采用深度学习中的BERT分类算法,结合该业务系统所依赖的具体资源拓扑结构,将具体告警分门别类地与依赖的具体资源关联起来,进而确定该具体资源所对应地告警内容,采用同样的告警指标计算方案,对该资源进行单独的组件计算。
更进一步的,本发明公开了一种自适应计算IT智能运维健康指数的系统,主要包括数据接入层、数据质量管理模块、算法平台、经验计算模块、智能洞察模块,其中,
数据接入层,用于经过数据治理、数据清理成为标准格式的数据接入;
数据质量管理模块,用于进行数据质量分析并在数据质量展示模块进行展示;
算法平台,用于将读取的数据通过算法进行运算后计算多维度健康分;
经验计算模块,用于通过多维度汇聚信息结合专家经验综合得出资源和应用的健康分;
智能洞察模块,用于智能洞察产品的业务流程走向以及不同模块的分工。
本发明的有益效果为:针对层次分析法的缺点,本发明的目标是充分发挥智能算法的特点,以海量的历史数据作为学习的对象,构建出一套自适应计算IT智能运维健康指数的方法及系统,结合层次分析法和智能算法相结合的自适应动态权重指标体系,具备智能优化、自动学习的特点。
附图说明
图1为IT运维自适应健康度系统的整体业务框架示意图。
图2为针对系统拓扑结构的健康度展示形式的示意图。
图3为本发明的资源图的形式来进行健康度的展示的示意图。
图4为建立递阶层次结构模型示意图。
图5为异常模型判别阶段示意图。
具体实施方式
下面将结合附图对本发明做详细的介绍:
本发明的计算原理是通过模糊层次分析法和系统健康度分析方法论构建异常案例训练数据,然后利用机器学习算法得到判别模型,最终得到系统健康分。
图1呈现了IT运维自适应健康度系统的整体业务框架,展示了传统经验库与算法平台以及智能洞察产品的业务流程走向以及不同模块的分工。它自上而下的包含数据接入、数据处理、算法平台、经验计算、智能洞察等模块。
它的计算流程是:从数据接入层出发经过数据治理、数据清理等成为标准格式的数据接入。在数据质量管理模块进行数据质量分析并在数据质量展示模块进行展示,数据分析员对数据质量进行处理查看。算法平台从数据平台取数后,算法代码在算法平台运行,算法运行后计算多维度健康分,例如:告警健康分、指标健康分、调用链健康分等等,通过多维度汇聚信息结合专家经验综合得出资源和应用的健康分。该流程图显示了整个业务流程的走向,并且包含了角色的分工,展示了不同平台之间的关系。该业务的梳理便于我们进行下一步的需求分析以及产品设计和最终的功能呈现。通过产品的不同功能去解决不同运维场景的问题。
系统健康分反映了应用或资源的整体运行状况,但某个应用或资源的健康分低于正常值时,可以查看到具体的异常指标异常告警等等,辅助运维人员进行问题的关联分析以及对可能发生异常的情况进行提前感知,能提高运维效率以及提早发现问题。
系统健康度的考察对象可以是针对系统应用的,也可以是针对应用下面的资源的。表达的形式也包括两种,一种是针对系统拓扑结构的健康度展示形式,另一种是针对资源图的健康度展示形式。
针对系统拓扑结构的健康度展示首先构建业务系统的拓扑结构,并将各个模块依赖的网络、中间件、数据库等资源对象梳理出来。而系统健康度本身也可以分为告警、指标、日志、工单等多个子维度。指标健康度分析首先通过计算单指标的健康度,然后再通过多指标健康度聚会整合成某个资源整体的指标健康度,例如动态基线异常检测,使用历史数据对接下来某时间段的指标进行预测,预测出某种动态基线,再通过实时指标的数据与预测动态基线进行比较,超出基线的范围大小以及次数均影响单指标健康分的计算,而由于每个指标的特性并不相同,不同单指标健康分的计算方式也不相同,需要进行不同方法的数据处理以及智能算法的处理。计算完单指标健康分后,通过赋予单指标不同的权重,最终可以汇聚成多指标的健康分。而告警健康分通过知识图谱、自然语言处理等等方法,通过告警信息中语义提取,得出告警信息中相似度信息,通过算法合理提高某些核心告警信息的权重抑或降低某些告警信息权重。通过多种维度和方式计算出告警健康度,再聚合多种维度信息,最终汇聚成整个资源的健康度,从不同的角度和思维模式进行健康度的计算更加的全面、富含更多的信息,使得得出的健康分更具说服力和可信度,同时在资源亮红灯的情况下,也可从更多维度给出辅助运维人员排查异常的决策信息和提示。
针对系统拓扑结构的健康度展示从应用拓扑图的角度出发,分层对资源信息进行了划分,从应用出发往下进行钻取,分别分为服务、组件、进程、主机,中间线段显示不同模块之前的关联关系,点击任一模块可查看该应用下的指标健康分详情、告警健康分详情等等。拓扑图直观的展示了该应用下的所有组成,运维人员通过查看不同模块的健康分详情,可便于运维人员进行进一步的关系发现。这样清晰的拓扑结构更便于发现问题,而详情页会罗列与该异常相关的异常指标信息、告警信息、调用链信息等等,这些信息对于有一定经验的运维人员而言,可以非常好的辅助他们进行主要可能原因的梳理,可以快速定位到几个核心指标核心模块,再使用其运维知识进行查看,这在复杂系统的应用中有非常好的效果。
当前的应用系统都过于庞大和复杂,运维人员虽然可以利用专业知识在查看到一些异常信息后进行进一步的挖掘,但在找到核心问题的过程中没有链路可以摸索,传统的告警信息也过于杂乱不能剥丝抽茧找到最根本原因,这会在异常排查的过程中消耗非常多的时间,产生大量的经济损耗和人力消耗。而智能健康分可以起到的作用就是将庞大的应用进行分层治理,并展示他们之间的关系,而同时指标和告警的详细信息又会根据重要程度统一进行先后顺序的排列,不进行分层处理。这样展示的好处是,应用的拓扑关系进行了详细的展示,而关键告警信息也得到了更直观突出的显示,不会因为拓扑层级靠后而被忽视。
同时我们也采用了另一种表达方式——资源图的形式来进行健康度的展示,资源图展示了该应用下的所有资源,不同资源的健康分用不同的颜色卡进行显示,健康以绿色显示,异常以绿色显示,采用不同的颜色渐变卡显示分数变化时的颜色改变。低于60分时则采用红色显示。资源图采用的是平铺方式进行显示,各个资源之间显示是独立的,没有连接关系,将健康度更低的资源向前排列,便于运维人员直接进行查看。
点击资源图可查看该资源下的指标与告警信息的详情,可查看每个单指标的健康分信息,而界面中也有专家进行修正的输入方式。指标以实时的可视化界面进行展示,运维人员可查看到通过动态基线产生的指标预测数据以及真实的指标数据。此处的告警、指标信息的展示与应用拓扑图下应用的指标、告警信息详情页不同,该详情页会详细的展示出每个单指标的实时曲线,可进行专家人工反馈进行调整,会展示出与资源相关的单条告警信息,也可通过时间段进行更详细的查询。由于最小颗粒度信息为资源,故指标信息与告警信息可进行更加详细的划分。与应用拓扑图的作用不同,资源图详情页的作用主要是便于运维人员在日常运维工作中进行查看,可查看某个指标、某个告警是否出现异常,及时进行处理和排查,避免造成更大的问题与损失。而应用拓扑图从更加宏观的角度进行查看,主要用于运维人员在紧急情况下缩短运维排查时间,帮助运维人员快速梳理头绪,在抓到几条主线后,在利用运维人员专业知识进行进一步的信息挖掘。基于需求出发点的不同,故详情页设计也不相同。
计算指标健康度首先需要抽象出关键业务点的关键性能指标,并建立之间的关系,形成一个多层结构,作为计算健康度的基础框架。资源的关键指标和阈值判断最初由业务专家给出,判断指标是否异常,并确定其贡献度权重,生成对象健康度评分。在这个基础上,根据异常工单建立异常数据库,然后执行下图所示的层次分析法与决策树算法相结合的健康度权重调节算法,对算法进行更新,从而得到更加优化的权重配置。整体步骤分成两个阶段:异常训练数据库建立阶段和异常模型判别阶段。
第一个阶段是异常训练数据库的建立阶段。我们从告警、指标、工单、日志四个方面出发,选取模糊层次分析法评判出每个方面的权重,分别进行评价,加权累计得出故障总的风险值。
具体而言,分为以下的步骤:
1)建立递阶层次结构模型:自下而上建立包含目标层、准则层和指标层。
2)分别计算指标层基础指标
对于数值指标,开始会根据专家经验来设定数值范围和权重如下表所示。
Figure BDA0003132841720000071
对于告警、工单和日志指标的计算
计算告警指标需要以某业务系统所触发的具体告警内容为出发点,结合深度学习中的自然语言处理的相关技术,对告警内容进行分词处理,词频统计,词向量转换,时间序列衰减等多种技术处理后,得到一个可以代表系统当前运行状态的分值。
告警指标的具体计算方案有多种多样,本发明公开一种告警指标的计算方案。告警指标可以基于固定时间窗口内的告警等级所占比例的统计计算,其主要思想是,选定一个固定长度的时间窗口(比如3分钟,5分钟,10分钟等),对该时间窗口内的属于某业务系统的所有告警进行统计分析,计算不同等级告警的占比,将各种不同占比的告警进行权重计算,通过权重求和可以得到总体告警指标分,对应的计算公式为:
Figure BDA0003132841720000081
其中:
HT0=100:表示时间窗口T内没有任何告警。
R=(r0,r1....rn)T:表示时间窗口T内不同等级告警所占比例,满足:
Figure BDA0003132841720000082
W=(W0,W1....Wn)T:表时间窗口T内不同等级告警的权重,满足:
Figure BDA0003132841720000083
更进一步的,采用深度学习中的BERT分类算法,结合该业务系统所依赖的具体资源拓扑结构,可以将具体告警分门别类地与依赖的具体资源关联起来,进而可以确定该具体资源所对应地告警内容,采用同样的告警指标计算方案,可以对该资源进行单独的组件计算。
对于日志和工单,也采用同样的方法进行计算其指标分数。
3)构建三角模糊数判断矩阵
为了准确评价各个要素的权重,我们以上一层的要素作为判断准则对下一层要素进行两两比较来确定矩阵元素值。我们请运维专家来完成相关权重的设定,结合层次分析法的1~9标度定量描述,获得专家对综合评判指标重要性的倾向标度,进行模糊化处理获得反映综合评价指标重要性的模糊数判断矩阵。
4)归一化与一致性检验
运用和积法计算各判断矩阵的最大特征值和特征向量,然后对特征向量进行归一化,得到权重排序,并依据各个层次的权重排序,得出权重总排序。然后对权重向量进行一致性检验。其步骤如下(1)计算一致性指标CI=(Kmax-n)/(n-1);(2)计算平均随机一致性指标RI;RI是多次重复随机判断矩阵特征值的计算后取算数平均值的结果。(3)计算权重一致性指标CR=CI/RI。
5)构建异常数据库
执行1-4的步骤,记录一段时间内的系统异常数据,异常案例的判断一般结合工单、重要告警、故障记录的,最后由专家进行筛选比对和确认。从而可以构建系统异常数据仓库,结合正常数据,构建训练样本,为第二阶段的计算做准备。通常这个时间段在6个月以上。
第二阶段是异常模型判别阶段:当经历了第一阶段以后,我们就拥有一个具备丰富数据的异常样本库了。我们即可执行第二阶段的计算,其步骤如图所示:
最后通过我们可以得到系统的健康度分数,并且通过与前端拓扑图相结合的方式展示出来,便于运维人员在第一时间全面的洞察系统的健康程度,以及异常的分布情况和关联关系,加速问题排查的效率和准确率。
本发明一般建议采用Python、JAVA等脚本语言来实现。
可以理解的是,对本领域技术人员来说,对本发明的技术方案及发明构思加以等同替换或改变都应属于本发明所附的权利要求的保护范围。

Claims (4)

1.一种自适应计算IT智能运维健康指数的方法,其特征在于:主要包括以下步骤:从数据接入层出发经过数据治理、数据清理成为标准格式的数据接入;在数据质量管理模块进行数据质量分析并在数据质量展示模块进行展示,数据分析员对数据质量进行处理查看;算法平台从数据平台取数据后,算法代码在算法平台运行,算法运行后计算多维度健康分,通过多维度汇聚信息结合专家经验综合得出资源和应用的健康分;当某个应用或资源的健康分低于正常值时,查看具体的异常指标异常告警,辅助运维人员进行问题的关联分析以及对可能发生异常的情况进行提前感知;
计算指标健康度首先需要抽象出关键业务点的关键性能指标,并建立之间的关系,形成一个多层结构,作为计算健康度的基础框架;资源的关键指标和阈值判断最初由业务专家给出,判断指标是否异常,并确定其贡献度权重,生成对象健康度评分;在这个基础上,根据异常工单建立异常数据库,然后执行层次分析法与决策树算法相结合的健康度权重调节算法,对算法进行更新,从而得到更加优化的权重配置;整体步骤分成两个阶段:异常训练数据库建立阶段和异常模型判别阶段;
第一个阶段是异常训练数据库的建立阶段,从告警、指标、工单、日志四个方面出发,选取模糊层次分析法评判出每个方面的权重,分别进行评价,加权累计得出故障总的风险值;
具体而言,分为以下的步骤:
1)建立递阶层次结构模型:自下而上建立包含目标层、准则层和指标层;
2)分别计算指标层基础指标;
对于数值指标,开始根据专家经验来设定数值范围和权重;
对于告警、工单和日志指标的计算;
计算告警指标需要以某业务系统所触发的具体告警内容为出发点,结合深度学习中的自然语言处理的相关技术,对告警内容进行分词处理,词频统计,词向量转换,时间序列衰减多种技术处理后,得到一个代表系统当前运行状态的分值;
对于日志和工单,计算其指标分数;
3)构建三角模糊数判断矩阵
为了准确评价各个要素的权重,以上一层的要素作为判断准则对下一层要素进行两两比较来确定矩阵元素值;由运维专家来完成相关权重的设定,结合层次分析法的1~9标度定量描述,获得专家对综合评判指标重要性的倾向标度,进行模糊化处理获得反映综合评价指标重要性的模糊数判断矩阵;
4)归一化与一致性检验
运用和积法计算各判断矩阵的最大特征值和特征向量,然后对特征向量进行归一化,得到权重排序,并依据各个层次的权重排序,得出权重总排序;然后对权重向量进行一致性检验;其步骤如下(1)计算一致性指标CI=(Kmax-n)/(n-1);(2)计算平均随机一致性指标RI;RI是多次重复随机判断矩阵特征值的计算后取算数平均值的结果;(3)计算权重一致性指标CR=CI/RI;
5)构建异常数据库
执行1)-4)的步骤,记录一段时间内的系统异常数据,异常案例的判断一般结合工单、重要告警、故障记录的,最后由专家进行筛选比对和确认;从而构建系统异常数据仓库,结合正常数据,构建训练样本,为第二阶段的计算做准备;第二阶段是异常模型判别阶段:当经历了第一阶段以后,就拥有一个具备丰富数据的异常样本库了;即可执行第二阶段的计算,其步骤如下:
(1)、测试数据准备;
(2)、将数据进行分层,得到指标层数据;
(3)、根据训练集数据的得分进行分类;
(4)、利用决策树算法,在训练集的基础上进行模型训练;
(5)、根据分类结果利用评分卡模型对测试集数据进行打分,输出打分结果;
最后得到系统的健康度分数,并且通过与前端拓扑图相结合的方式展示出来,便于运维人员在第一时间全面的洞察系统的健康程度,以及异常的分布情况和关联关系,加速问题排查的效率和准确率。
2.根据权利要求1所述的适应计算IT智能运维健康指数的方法,其特征在于:所述的多维度健康分包括告警健康分、指标健康分、调用链健康分,系统健康度的考察对象是针对系统应用或针对应用下面的资源的,表达的形式也包括两种,一种是针对系统拓扑结构的健康度展示形式,另一种是针对资源图的健康度展示形式。
3.根据权利要求1所述的适应计算IT智能运维健康指数的方法,其特征在于:告警指标的具体计算方案:告警指标基于固定时间窗口内的告警等级所占比例的统计计算,选定一个固定长度的时间窗口,对该时间窗口内的属于某业务系统的所有告警进行统计分析,计算不同等级告警的占比,将各种不同占比的告警进行权重计算,通过权重求和得到总体告警指标分,对应的计算公式为:
Figure DEST_PATH_IMAGE001
其中:
HT0=100:表示时间窗口T内没有任何告警;
R=( r0,r1....rn)T:表示时间窗口T内不同等级告警所占比例,满足:
Figure 90923DEST_PATH_IMAGE002
W=(W 0, W 1.... W n)T:表示时间窗口 T内不同等级告警的权重,满足:
Figure DEST_PATH_IMAGE003
采用深度学习中的BERT 分类算法,结合该业务系统所依赖的具体资源拓扑结构,将具体告警分门别类地与依赖的具体资源关联起来,进而确定该具体资源所对应地告警内容,采用同样的告警指标计算方案,对该资源进行单独的组件计算。
4.一种自适应计算IT智能运维健康指数的系统,其特征在于:该系统采用如权利要求1所述的自适应计算IT智能运维健康指数的方法,主要包括数据接入层、数据质量管理模块、算法平台、经验计算模块、智能洞察模块,其中,
数据接入层,用于经过数据治理、数据清理成为标准格式的数据接入;
数据质量管理模块,用于进行数据质量分析并在数据质量展示模块进行展示;
算法平台,用于将读取的数据通过算法进行运算后计算多维度健康分;
经验计算模块,用于通过多维度汇聚信息结合专家经验综合得出资源和应用的健康分;
智能洞察模块,用于智能洞察产品的业务流程走向以及不同模块的分工。
CN202110710423.2A 2021-06-25 2021-06-25 一种自适应计算it智能运维健康指数的方法及系统 Active CN113360358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110710423.2A CN113360358B (zh) 2021-06-25 2021-06-25 一种自适应计算it智能运维健康指数的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110710423.2A CN113360358B (zh) 2021-06-25 2021-06-25 一种自适应计算it智能运维健康指数的方法及系统

Publications (2)

Publication Number Publication Date
CN113360358A CN113360358A (zh) 2021-09-07
CN113360358B true CN113360358B (zh) 2022-05-27

Family

ID=77536456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110710423.2A Active CN113360358B (zh) 2021-06-25 2021-06-25 一种自适应计算it智能运维健康指数的方法及系统

Country Status (1)

Country Link
CN (1) CN113360358B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554366B (zh) * 2021-09-23 2021-12-14 山东大学 消毒产品生产企业的分类监督方法及相关设备
CN115190039B (zh) * 2022-07-31 2023-08-08 苏州浪潮智能科技有限公司 一种设备健康评测方法、系统、设备以及存储介质
CN115460061B (zh) * 2022-08-03 2024-04-30 中国科学院信息工程研究所 基于智能运维场景的健康度评价方法及装置
CN116521517A (zh) * 2023-02-09 2023-08-01 海看网络科技(山东)股份有限公司 一种基于业务拓扑多模型融合的iptv系统健康度评估方法
CN115865649B (zh) * 2023-02-28 2023-05-12 网思科技股份有限公司 一种智能运维管理控制方法、系统和存储介质
CN116633434B (zh) * 2023-07-24 2023-09-19 北京翌特视讯科技有限公司 多功能综合业务光端机的传输监测方法及系统
CN116719665B (zh) * 2023-08-11 2023-11-28 国家气象信息中心(中国气象局气象数据中心) 一种气象数值模式异常状态的智能判识方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105007170A (zh) * 2015-05-11 2015-10-28 大连理工大学 一种基于fahp-svm理论的wlan网络负载综合评价方法
CN109447531A (zh) * 2018-12-25 2019-03-08 国网福建省电力有限公司 一种基于神经网络健康度评价的智能电表状态评价方法
CN109492777A (zh) * 2018-09-14 2019-03-19 国电电力宁夏新能源开发有限公司 一种基于机器学习算法平台的风电机组健康管理方法
CN109670611A (zh) * 2018-12-29 2019-04-23 四川中电启明星信息技术有限公司 一种电力信息系统故障诊断方法及装置
CN111062508A (zh) * 2019-03-28 2020-04-24 华北电力大学(保定) 一种基于大数据技术评估风电机组实时运行状态的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170206477A1 (en) * 2016-01-20 2017-07-20 American Express Travel Related Services Company, Inc. System and method for health monitoring of business processes and systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105007170A (zh) * 2015-05-11 2015-10-28 大连理工大学 一种基于fahp-svm理论的wlan网络负载综合评价方法
CN109492777A (zh) * 2018-09-14 2019-03-19 国电电力宁夏新能源开发有限公司 一种基于机器学习算法平台的风电机组健康管理方法
CN109447531A (zh) * 2018-12-25 2019-03-08 国网福建省电力有限公司 一种基于神经网络健康度评价的智能电表状态评价方法
CN109670611A (zh) * 2018-12-29 2019-04-23 四川中电启明星信息技术有限公司 一种电力信息系统故障诊断方法及装置
CN111062508A (zh) * 2019-03-28 2020-04-24 华北电力大学(保定) 一种基于大数据技术评估风电机组实时运行状态的方法

Also Published As

Publication number Publication date
CN113360358A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN113360358B (zh) 一种自适应计算it智能运维健康指数的方法及系统
CN111614491B (zh) 一种面向电力监控系统安全态势评估指标选取方法及系统
CN112859822B (zh) 基于人工智能的设备健康分析及故障诊断的方法及系统
CN113156917B (zh) 基于人工智能的电网设备故障诊断方法及系统
CN113887616B (zh) 一种epg连接数的实时异常检测方法
CN114548637A (zh) 一种基于ahp-rst的电力通信骨干数据网络安全综合评估方法
CN109544399B (zh) 基于多源异构数据的输电设备状态评价方法及装置
CN113572625B (zh) 故障预警方法、预警装置、设备及计算机介质
CN111290913A (zh) 一种基于运维数据预测的故障定位可视化系统和方法
CN108170769A (zh) 一种基于决策树算法的装配制造质量数据处理方法
CN111199361A (zh) 基于模糊推理理论的电力信息系统健康评估方法及系统
CN111953543A (zh) 一种基于pca-ahp的量子通信网络可靠性状况的评估方法
CN111539493A (zh) 一种告警预测方法、装置、电子设备及存储介质
CN112966962A (zh) 一种电商企业评优方法
CN113542017A (zh) 基于网络拓扑和多指标的一种网络故障定位方法
CN112712256A (zh) 一种低压配网设备检修顺序评估方法
CN114841598A (zh) 针对操作风险的决策方法、装置、设备和程序产品
CN111027841A (zh) 一种基于梯度提升决策树的低压台区线损计算方法
KR101884908B1 (ko) 빅데이터 분석 기반 신뢰도 예측 장치
CN116091206B (zh) 信用评价方法、装置、电子设备及存储介质
CN115378928B (zh) 基于云服务的监控方法及系统
KR101884907B1 (ko) 빅데이터 분석 기반 신뢰도 예측 방법
CN113538021A (zh) 一种商场门店存续预测机器学习算法
CN113722195B (zh) 基于ahp层级分析法的局域网运行评估系统及方法
Wang et al. LSTM-based alarm prediction in the mobile communication network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 030, building 3, No.6 heting street, Qingshanhu street, Lin'an City, Hangzhou City, Zhejiang Province

Applicant after: HANGZHOU YOUYUN SOFTWARE Co.,Ltd.

Applicant after: Beijing Guangtong Youyun Technology Co., Ltd

Address before: Room 030, building 3, No.6 heting street, Qingshanhu street, Lin'an City, Hangzhou City, Zhejiang Province

Applicant before: HANGZHOU YOUYUN SOFTWARE Co.,Ltd.

Applicant before: Beijing Guangtong Xinda Software Co., Ltd

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant