CN108289035A - 一种直观的网络及业务系统运行状态展现方法及系统 - Google Patents

一种直观的网络及业务系统运行状态展现方法及系统 Download PDF

Info

Publication number
CN108289035A
CN108289035A CN201710661404.9A CN201710661404A CN108289035A CN 108289035 A CN108289035 A CN 108289035A CN 201710661404 A CN201710661404 A CN 201710661404A CN 108289035 A CN108289035 A CN 108289035A
Authority
CN
China
Prior art keywords
listed
index
threshold value
analysis
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710661404.9A
Other languages
English (en)
Other versions
CN108289035B (zh
Inventor
王俊
张贤孝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI BETA SOFTWARE CO Ltd
Original Assignee
SHANGHAI BETA SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI BETA SOFTWARE CO Ltd filed Critical SHANGHAI BETA SOFTWARE CO Ltd
Priority to CN201710661404.9A priority Critical patent/CN108289035B/zh
Publication of CN108289035A publication Critical patent/CN108289035A/zh
Application granted granted Critical
Publication of CN108289035B publication Critical patent/CN108289035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]

Abstract

本发明公开了一种直观的网络及业务系统运行状态展现方法,包括以下步骤:为运维对象创建抽象运维对象指标的分析模型;基于经验对不同的对象进行挂牌阈值定义;采集模型定义的各类指标进行挂撤牌分析;根据分析结果进行相应的挂撤牌操作;还公开了一种直观的网络及业务系统运行状态展现系统。将多种指标抽象为独特的特征牌,为指标创建业务关联,以一种更直观更动态的展现方式,对运维对象进行监控和管理,不仅增强了可视化的效果,也提高了工作效率;通过挂牌的技术手段,合理的建立运行状态模型,分析运维对象的运行情况,减少运维人员的告警学习处理成本,提升对运行状态的理解,提高运维的效率和体验。

Description

一种直观的网络及业务系统运行状态展现方法及系统
技术领域
本发明涉及运维管理技术领域,尤其涉及一种直观的网络及业务系统运行状态展现方法及系统。
背景技术
在现代IT运维体系中,普遍采用告警机制进行状态管理,告警机制基于预定的阈值,定期采集指标并通过算法与阈值进行对比分析,对于不满足既定阈值的指标进行警告,从而达到监控运维对象运行状态,反馈运维对象的变化异常的目的。告警方式一定程度上能够保证运维对象的稳定运行,满足管理需求。
随着网络规模的扩大,业务环境的日益复杂,各类运维管理对象的指标不尽相同,主机、链路、业务及业务依赖的数据库、中间件等运维对象会产生大量的告警信息,告警本身可以帮助运维管理人员了解运维对象出现的异常,但是海量的告警信息会大大降低运维人员的体验和效率,无法明确的了解定位到底出现了什么问题。而且单一的指标告警缺乏业务视角关联,无法通过告警数据整体性的反映运维对象的运行状态。
发明内容
鉴于目前存在的上述不足,本发明提供一种直观的网络及业务系统运行状态展现方法及系统,能够将多种指标抽象为独特的特征牌,为指标创建业务关联,以一种更直观更动态的展现方式,对运维对象进行监控和管理,不仅增强了可视化的效果,也提高了工作效率。
为达到上述目的,本发明的实施例采用如下技术方案:
一种直观的网络及业务系统运行状态展现方法,所述直观的网络及业务系统运行状态展现方法包括以下步骤:
为运维对象创建抽象运维对象指标的分析模型;
基于经验对不同的对象进行挂牌阈值定义;
采集模型定义的各类指标进行挂撤牌分析;
根据分析结果进行相应的挂撤牌操作。
依照本发明的一个方面,所述为运维对象创建抽象运维对象指标的分析模型包括:构建了包括性能、可用、在用、安全、合规的五种模型,模型组成包括指标、阈值和权重。
具体可包括为各类运维对象定义性能、可用、在用、安全和合规模型,整理分类运维对象各类指标;各模型的定义方式如下:
(1)性能模型-卡:整理运维对象的指标中与性能相关的指标,对于主机类主要涉及设备计算、网络性能、对于业务类主要涉及业务访问、并发性能。
(2)可用模型-断:整理运维对象的指标中与状态相关的指标,对于主机类主要涉及设备运行状态、采集状态等、对于业务类主要涉及业务运行状态、业务访问状态等。
(3)在用模型-闲:在用模型与性能模型较为接近,对于主机类主要涉及计算、网络负载、对于业务类主要涉及业务访问、并发负载。
(4)安全模型-危:整理运维对象的指标中与状态相关的指标,如防火墙状态、杀毒软件状态等;整理运维对象网络异常事件,如ARP攻击、DoS拒绝服务等;整理业务的异常事件,如越权访问、违规服务等。
(5)合规模型-乱:深入运维对象的流量指标统计,分析流量规律,整理不符合规律的网络行为,包括IP异常、流量异常等。
依照本发明的一个方面,所述指标、阈值和权重如下所示:
指标:包括挂牌指标和快照指标,挂牌指标参与挂牌计算、快照指标记录详细信息并可向挂牌指标转化;
阈值:包括挂牌阈值和预挂牌阈值,挂牌阈值判断挂牌越限条件、预挂牌阈值辅助分析是否符合挂牌条件;
权重:根据指标的重要性排序,影响大的指标权重高,影响小的指标权重小。
依照本发明的一个方面,所述分析模型的算法为:
[W1*(T1/D1)+W2*(T2/D2)+…+Wn(Tn/Dn)]/n>D
其中W代表指标权重,T1~Tn代表指标的实际值,D1~Dn代表指标的挂牌阈值,D代表对象总挂牌阈值。
依照本发明的一个方面,所述采集模型定义的各类指标进行挂撤牌运算包括:采用基于最近历史权重的方式进行挂撤牌分析,结合了历史和权重两种分析方式,根据不同的历史数据,合理分析真实的运行状态。
依照本发明的一个方面,所述最近历史权重方式的算法如下:
[W1*S1+W2*S2+…+Wn*Sn]/n>D(W1>W2>…>Wn)
其中W代表历史权重,且时间从近到远的顺序按从大到小分布,S代表连续历史时间点的实际计算值,D根据需要分别为对象挂牌阈值或预挂牌阈值。
依照本发明的一个方面,所述基于经验对不同的对象进行挂牌阈值定义包括:进行挂牌阈值和预挂牌阈值的定义,默认预挂牌条件是挂牌条件的百分比递减。
依照本发明的一个方面,所述采集模型定义的各类指标进行挂撤牌分析包括:结合指标权重、历史权重,通过算法分析是否符合挂牌条件,若条件符合,挂牌;若条件不符合,计入下次挂牌运算的前置条件。
依照本发明的一个方面,所述根据分析结果进行相应的挂撤牌操作包括:若指标计算值满足挂牌阈值且最近历史低于预挂牌阈值,直接予以挂牌;若指标计算值满足预挂牌阈值且最近历史高于预挂牌阈值,则判断连续出现统计指标高于挂牌阈值或满足指定次数后予以挂牌;挂牌后若指标计算值连续若干次低于挂牌阈值,进行撤牌;其他情况不予处理。
依照本发明的一个方面,所述根据分析结果进行相应的挂撤牌操作包括:本次统计低于挂牌阈值,连续计数置0;若本次统计低于预挂牌阈值,次数计数置0。
依照本发明的一个方面,所述根据分析结果进行相应的挂撤牌操作包括:计算本次统计状态,若对象当前有挂牌,则判断本次统计是否低于挂牌阈值;若本次统计低于挂牌阈值,连续计数自增1,若后续出现大于挂牌阈值的情况,则连续计数置0;当后续出现连续N次(n<5)小于挂牌阈值的情况,则撤牌。
依照本发明的一个方面,所述直观的网络及业务系统运行状态展现方法包括:实时收集挂撤牌信息形成状态知识库。
依照本发明的一个方面,所述直观的网络及业务系统运行状态展现方法包括:根据对状态知识库的分析,实现模型中指标、阈值和权值的个性化调整。
一种直观的网络及业务系统运行状态展现系统,所述展现系统包括:
模型模块,用于为运维对象创建抽象运维对象指标的分析模型;
阈值模块,用于基于经验对不同的对象进行挂牌阈值定义;
分析模块,用于采集模型定义的各类指标进行挂撤牌分析;
挂撤牌模块,用于根据分析结果进行相应的挂撤牌操作。
依照本发明的一个方面,所述展现系统包括:状态调整模块,用于实时收集挂撤牌信息形成状态知识库,及根据对状态知识库的分析,实现模型中指标、阈值和权值的个性化调整。
本发明实施的优点:本发明所述的直观的网络及业务系统运行状态展现方法,包括以下步骤:为运维对象创建抽象运维对象指标的分析模型;基于经验对不同的对象进行挂牌阈值定义;采集模型定义的各类指标进行挂撤牌分析;根据分析结果进行相应的挂撤牌操作;将多种指标抽象为独特的特征牌,为指标创建业务关联,以一种更直观更动态的展现方式,对运维对象进行监控和管理,包括网络、链路、业务、主机、数据库、中间件等对象,不仅增强了可视化的效果,也提高了工作效率;通过挂牌的技术手段,合理的建立运行状态模型,分析运维对象的运行情况,减少运维人员的告警学习处理成本,提升对运行状态的理解,提高运维的效率和体验。挂牌技术为运维对象的不同运行状态建立了模型,包括性能、可用、在用、安全和合规等,在模型中关联不同的指标、阈值和算法,当挂牌的条件被触发后,对运维对象进行挂牌,直观反映运维对象当前的多种运行状态,帮助运维人员快速定位运维对象异常分析的方向或原因,减少分析时间,提升效率。挂牌技术作为一项改进性的技术,区别于单一维度的指标告警,采用模型化的方案定义运维对象的运行状态,提供业务视角的管理方案,减少运维人员单个指标的学习成本,提高整体业务化理解,便于运维人员定位和排查问题。
具体表现在以下几个方面:
1、模型的分类和构建;本方法对运维对象的各类指标、数据进行了分类关联,赋予了指标业务意义,并根据历史经验定义了各指标的计算权值,形成完整的业务模型,有效的描述了运维对象的真实运行情况,并其适用于同类对象的扩展。
2、抽象化状态描述;本方法重点突出了性能、在用、可用、安全和合规等运行状态,区别于告警仅单一的对指标进行监测和越限提示,从业务的角度大大增强了关联性,充分提高了运维人员对运行状态的理解,降低对运维内容的学习成本。
3、挂撤牌合理分析;本方法采用了基于最近历史权重的方式进行挂撤牌分析,不仅着眼于一个时间点的运行状态情况,还有效的整合了历史信息,能客观的反映运维对象的整体运行状态,并通过挂撤牌方式进行管理提示。
4、多状态展现;本方法支持同时展现多种运行状态,部分运行状态互斥,但大部分运行状态可以共存,可以有效直观的反映运维对象的真实运行情况,将运维人员从繁琐的指标告警中解放出来,提升业务理解,提高运维效率。
5、个性化调整;本方法的挂撤牌信息形成状态知识库,采用机器学习的方法分析各运维对象的信息,形成规律性、有意义的知识,用以优化对象的挂牌和预挂牌阈值,调整算法权重,推动挂牌模型的个性化调整,提高挂撤牌的准确性和专业程度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一所述的一种直观的网络及业务系统运行状态展现方法示意图;
图2为本发明所述的基于最近历史权重的挂牌分析流程图;
图3为本发明实施例二所述的一种直观的网络及业务系统运行状态展现方法示意图;
图4为本发明所述的挂牌知识分析影响模型个性化的示意图;
图5为本发明实施例三所述的直观的网络及业务系统运行状态展现系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1和图2所示,一种直观的网络及业务系统运行状态展现方法,所述直观的网络及业务系统运行状态展现方法包括以下步骤:
步骤S1:为运维对象创建抽象运维对象指标的分析模型;
所述步骤S1为运维对象创建抽象运维对象指标的分析模型的具体实施方式包括:构建了包括性能、可用、在用、安全、合规的五种模型,模型组成包括指标、阈值和权重。
其中,所述指标、阈值和权重如下所示:
指标:包括挂牌指标和快照指标,挂牌指标参与挂牌计算、快照指标记录详细信息并可向挂牌指标转化;
阈值:包括挂牌阈值和预挂牌阈值,挂牌阈值判断挂牌越限条件、预挂牌阈值辅助分析是否符合挂牌条件;
权重:根据指标的重要性排序,影响大的指标权重高,影响小的指标权重小。
所述分析模型的算法为:
[W1*(T1/D1)+W2*(T2/D2)+…+Wn(Tn/Dn)]/n>D
其中W代表指标权重,T1~Tn代表指标的实际值,D1~Dn代表指标的挂牌阈值,D代表对象总挂牌阈值。
在实际应用中,为各类运维对象定义性能、可用、在用、安全和合规模型,整理分类运维对象各类指标,定义挂牌阈值和预挂牌阈值,并按不同的权重有机组合,构建描述运行状态的关联关系,各模型的定义方式如下:
(1)性能模型-卡:整理运维对象的指标中与性能相关的指标,对于主机类主要涉及设备计算、网络性能、对于业务类主要涉及业务访问、并发性能。根据历史经验对各指标制定挂牌阈值和预挂牌阈值,并按指标的重要程度进行权重划分。若各指标的计算结果大于制定挂牌条件,则进行挂牌,以下公式可简单说明:
[W1*(T1/D1)+W2*(T2/D2)+…+Wn(Tn/Dn)]/n>D
其中W代表指标权重,T1~Tn代表指标的实际值,D1~Dn代表指标的挂牌阈值,D代表对象总挂牌阈值。算法目的是将多个性能指标抽象为对象运行性能状态。
(2)可用模型-断:整理运维对象的指标中与状态相关的指标,对于主机类主要涉及设备运行状态、采集状态等、对于业务类主要涉及业务运行状态、业务访问状态等。
(3)在用模型-闲:在用模型与性能模型较为接近,对于主机类主要涉及计算、网络负载、对于业务类主要涉及业务访问、并发负载。
(4)安全模型-危:整理运维对象的指标中与状态相关的指标,如防火墙状态、杀毒软件状态等;整理运维对象网络异常事件,如ARP攻击、DoS拒绝服务等;整理业务的异常事件,如越权访问、违规服务等。
(5)合规模型-乱:深入运维对象的流量指标统计,分析流量规律,整理不符合规律的网络行为,包括IP异常、流量异常等。
在实际应用中,所述分析模型可包括:
为各类运维对象定义性能、可用、在用、安全和合规模型,整理分类运维对象各类指标,定义挂牌阈值和预挂牌阈值,并按不同的权重有机组合,构建描述运行状态的关联关系。
设备卡模型包括CPU使用率、内存使用率、空间使用率、磁盘IO速率、带宽使用率、进程数量等挂牌指标;断模型包括运行状态、连续运行时长、采集状态、中断事件等挂牌指标;闲模型包括CPU使用率、内存使用率、空间使用率、磁盘IO速率、带宽使用率、进程数量等挂牌指标;乱模型包括IP波动、流量波动、网络丢包等挂牌指标;危模型包括主机安全事件、网络安全事件、文件异常变更、防火墙异常、杀毒软件状态等挂牌指标。
业务卡模型包括访问人数、访问流量、访问时延等挂牌指标;断模型包括运行状态、连续运行时长、接口状态、采集状态等挂牌指标;闲模型包括访问人数、访问流量、访问时延等挂牌指标;乱模型包括IP波动、访问流量波动、接口流量波动等挂牌指标;危模型包括业务安全事件、网络安全事件等挂牌指标。
快照指标的选取无限制,旨在详细的记录挂牌的细节,具体指标可按对运维对象的理解进行添加。
步骤S2:基于经验对不同的对象进行挂牌阈值定义;
所述步骤S2基于经验对不同的对象进行挂牌阈值定义的具体实施方式包括:进行挂牌阈值和预挂牌阈值的定义,默认预挂牌条件是挂牌条件的百分比递减。挂牌阈值和预挂牌阈值根据历史运行经验进行设置,不同的模型需采用不同的阈值。权重设置同理需根据指标的重要性进行排列,并设置为不同的权重。
步骤S3:采集模型定义的各类指标进行挂撤牌分析;
所述步骤S3采集模型定义的各类指标进行挂撤牌分析的具体实施方式包括:根据模型中的指标定义进行指标采集。采集指标汇入模型,计算其统计结果是否符合挂牌阈值或预挂牌阈值。采用基于最近历史权重的方式进行挂撤牌分析,结合了历史和权重两种分析方式,根据不同的历史数据,合理分析真实的运行状态。结合指标权重、历史权重,通过算法分析是否符合挂牌条件,若条件符合,挂牌;若条件不符合,计入下次挂牌运算的前置条件。
(1)挂牌方案
首先根据模型中定义的采集频率采集各模型的数据,并使用挂牌公式计算本次统计状态是否高于挂牌阈值。若本次统计高于挂牌阈值,则再计算本次统计之前连续N次(n<10)的情况,以下公式可简单说明:
[W1*S1+W2*S2+…+Wn*Sn]/n>D(W1>W2>…>Wn)
其中W代表历史权重,且时间从近到远的顺序按从大到小分布,S代表连续历史时间点的实际计算值,D根据需要分别为对象挂牌阈值或预挂牌阈值。
1)本次统计高于挂牌阈值且历史挂牌计算值小于预挂牌阈值,则判断该对象挂牌。
2)本次统计高于挂牌阈值且历史挂牌计算值大于预挂牌阈值,则本次不予挂牌。当后续统计连续出现统计指标高于挂牌阈值或满足指定次数后,则判断该对象挂牌。
3)本次统计低于挂牌阈值,连续计数置0;若本次统计低于预挂牌阈值,次数计数置0。
(2)撤牌方案
使用挂牌公式计算本次统计状态,若对象当前有挂牌,则判断本次统计是否低于挂牌阈值。若本次统计低于挂牌阈值,连续计数自增1,若后续出现大于挂牌阈值的情况,则连续计数置0。当后续出现连续N次(n<5)小于挂牌阈值的情况,则撤牌。
步骤S4:根据分析结果进行相应的挂撤牌操作。
所述步骤S4根据分析结果进行相应的挂撤牌操作的具体实施方式包括:
若运维对象已经挂某类型的牌,不再重复挂同类型的牌。
模型统计值大于挂牌阈值,越限连续计数自增1,越限次数计数自增1。若加权历史挂牌统计值小于预挂牌阈值,直接挂牌;若加权历史挂牌统计值大于预挂牌阈值。判断越限连续计数或越限次数计数是否满足要求,满足条件则进行挂牌,不满足条件不处理。
模型统计值大于预挂牌阈值,小于挂牌阈值,越限连续计数置0,越限计数不变。
模型统计值小于预挂牌阈值,越限连续计数置0,越限次数计数置0。
运维对象挂牌后,模型统计值低于挂牌阈值,撤牌连续计数自增1;模型统计值高于挂牌阈值,撤牌连续计数置0。当撤牌连续计数满足指定要求后,予以撤牌。
首先需定义运维对象的状态模型,包括挂牌阈值和预挂牌阈值,默认预挂牌条件是挂牌条件的百分比递减。各对象需创建卡、乱、闲、断、危五种模型并关联不同的指标并按模型进行指标采集,然后采用指标权重和历史权重对运行状态进行分析,若指标计算值满足挂牌阈值且最近历史低于预挂牌指标,直接予以挂牌;若指标计算值满足预挂牌阈值且最近历史高于预挂牌指标,则判断连续出现统计指标高于挂牌阈值或满足指定次数后予以挂牌;挂牌后若指标计算值连续若干次低于挂牌阈值,进行撤牌;其他情况不予处理。
通过模型的分类和构建,对运维对象的各类指标、数据进行了分类关联,赋予了指标业务意义,并根据历史经验定义了各指标的计算权值,形成完整的业务模型,有效的描述了运维对象的真实运行情况,并其适用于同类对象的扩展。
通过抽象化状态描述,重点突出了性能、在用、可用、安全和合规等运行状态,区别于告警仅单一的对指标进行监测和越限提示,从业务的角度大大增强了关联性,充分提高了运维人员对运行状态的理解,降低对运维内容的学习成本。
对挂撤牌的合理分析,通过采用基于最近历史权重的方式进行挂撤牌分析,不仅着眼于一个时间点的运行状态情况,还有效的整合了历史信息,能客观的反映运维对象的整体运行状态,并通过挂撤牌方式进行管理提示。
通过多状态展现,支持同时展现多种运行状态,部分运行状态互斥,但大部分运行状态可以共存,可以有效直观的反映运维对象的真实运行情况,将运维人员从繁琐的指标告警中解放出来,提升业务理解,提高运维效率。
实施例二
如图2、图3和图4所示,一种直观的网络及业务系统运行状态展现方法,所述直观的网络及业务系统运行状态展现方法包括以下步骤:
步骤S1:为运维对象创建抽象运维对象指标的分析模型;
所述步骤S1为运维对象创建抽象运维对象指标的分析模型的具体实施方式包括:构建了包括性能、可用、在用、安全、合规的五种模型,模型组成包括指标、阈值和权重。
其中,所述指标、阈值和权重如下所示:
指标:包括挂牌指标和快照指标,挂牌指标参与挂牌计算、快照指标记录详细信息并可向挂牌指标转化;
阈值:包括挂牌阈值和预挂牌阈值,挂牌阈值判断挂牌越限条件、预挂牌阈值辅助分析是否符合挂牌条件;
权重:根据指标的重要性排序,影响大的指标权重高,影响小的指标权重小。
所述分析模型的算法为:
[W1*(T1/D1)+W2*(T2/D2)+…+Wn(Tn/Dn)]/n>D
其中W代表指标权重,T1~Tn代表指标的实际值,D1~Dn代表指标的挂牌阈值,D代表对象总挂牌阈值。
在实际应用中,为各类运维对象定义性能、可用、在用、安全和合规模型,整理分类运维对象各类指标,定义挂牌阈值和预挂牌阈值,并按不同的权重有机组合,构建描述运行状态的关联关系,各模型的定义方式如下:
(1)性能模型-卡:整理运维对象的指标中与性能相关的指标,对于主机类主要涉及设备计算、网络性能、对于业务类主要涉及业务访问、并发性能。根据历史经验对各指标制定挂牌阈值和预挂牌阈值,并按指标的重要程度进行权重划分。若各指标的计算结果大于制定挂牌条件,则进行挂牌,以下公式可简单说明:
[W1*(T1/D1)+W2*(T2/D2)+…+Wn(Tn/Dn)]/n>D
其中W代表指标权重,T1~Tn代表指标的实际值,D1~Dn代表指标的挂牌阈值,D代表对象总挂牌阈值。算法目的是将多个性能指标抽象为对象运行性能状态。
(2)可用模型-断:整理运维对象的指标中与状态相关的指标,对于主机类主要涉及设备运行状态、采集状态等、对于业务类主要涉及业务运行状态、业务访问状态等。
(3)在用模型-闲:在用模型与性能模型较为接近,对于主机类主要涉及计算、网络负载、对于业务类主要涉及业务访问、并发负载。
(4)安全模型-危:整理运维对象的指标中与状态相关的指标,如防火墙状态、杀毒软件状态等;整理运维对象网络异常事件,如ARP攻击、DoS拒绝服务等;整理业务的异常事件,如越权访问、违规服务等。
(5)合规模型-乱:深入运维对象的流量指标统计,分析流量规律,整理不符合规律的网络行为,包括IP异常、流量异常等。
在实际应用中,所述分析模型可包括:
为各类运维对象定义性能、可用、在用、安全和合规模型,整理分类运维对象各类指标,定义挂牌阈值和预挂牌阈值,并按不同的权重有机组合,构建描述运行状态的关联关系。
设备卡模型包括CPU使用率、内存使用率、空间使用率、磁盘IO速率、带宽使用率、进程数量等挂牌指标;断模型包括运行状态、连续运行时长、采集状态、中断事件等挂牌指标;闲模型包括CPU使用率、内存使用率、空间使用率、磁盘IO速率、带宽使用率、进程数量等挂牌指标;乱模型包括IP波动、流量波动、网络丢包等挂牌指标;危模型包括主机安全事件、网络安全事件、文件异常变更、防火墙异常、杀毒软件状态等挂牌指标。
业务卡模型包括访问人数、访问流量、访问时延等挂牌指标;断模型包括运行状态、连续运行时长、接口状态、采集状态等挂牌指标;闲模型包括访问人数、访问流量、访问时延等挂牌指标;乱模型包括IP波动、访问流量波动、接口流量波动等挂牌指标;危模型包括业务安全事件、网络安全事件等挂牌指标。
快照指标的选取无限制,旨在详细的记录挂牌的细节,具体指标可按对运维对象的理解进行添加。
步骤S2:基于经验对不同的对象进行挂牌阈值定义;
所述步骤S2基于经验对不同的对象进行挂牌阈值定义的具体实施方式包括:进行挂牌阈值和预挂牌阈值的定义,默认预挂牌条件是挂牌条件的百分比递减。挂牌阈值和预挂牌阈值根据历史运行经验进行设置,不同的模型需采用不同的阈值。权重设置同理需根据指标的重要性进行排列,并设置为不同的权重。
步骤S3:采集模型定义的各类指标进行挂撤牌分析;
所述步骤S3采集模型定义的各类指标进行挂撤牌分析的具体实施方式包括:根据模型中的指标定义进行指标采集。采集指标汇入模型,计算其统计结果是否符合挂牌阈值或预挂牌阈值。采用基于最近历史权重的方式进行挂撤牌分析,结合了历史和权重两种分析方式,根据不同的历史数据,合理分析真实的运行状态。结合指标权重、历史权重,通过算法分析是否符合挂牌条件,若条件符合,挂牌;若条件不符合,计入下次挂牌运算的前置条件。
(1)挂牌方案
首先根据模型中定义的采集频率采集各模型的数据,并使用挂牌公式计算本次统计状态是否高于挂牌阈值。若本次统计高于挂牌阈值,则再计算本次统计之前连续N次(n<10)的情况,以下公式可简单说明:
[W1*S1+W2*S2+…+Wn*Sn]/n>D(W1>W2>…>Wn)
其中W代表历史权重,且时间从近到远的顺序按从大到小分布,S代表连续历史时间点的实际计算值,D根据需要分别为对象挂牌阈值或预挂牌阈值。
1)本次统计高于挂牌阈值且历史挂牌计算值小于预挂牌阈值,则判断该对象挂牌。
2)本次统计高于挂牌阈值且历史挂牌计算值大于预挂牌阈值,则本次不予挂牌。当后续统计连续出现统计指标高于挂牌阈值或满足指定次数后,则判断该对象挂牌。
3)本次统计低于挂牌阈值,连续计数置0;若本次统计低于预挂牌阈值,次数计数置0。
(2)撤牌方案
使用挂牌公式计算本次统计状态,若对象当前有挂牌,则判断本次统计是否低于挂牌阈值。若本次统计低于挂牌阈值,连续计数自增1,若后续出现大于挂牌阈值的情况,则连续计数置0。当后续出现连续N次(n<5)小于挂牌阈值的情况,则撤牌。
步骤S4:根据分析结果进行相应的挂撤牌操作。
所述步骤S4根据分析结果进行相应的挂撤牌操作的具体实施方式包括:
若运维对象已经挂某类型的牌,不再重复挂同类型的牌。
模型统计值大于挂牌阈值,越限连续计数自增1,越限次数计数自增1。若加权历史挂牌统计值小于预挂牌阈值,直接挂牌;若加权历史挂牌统计值大于预挂牌阈值。判断越限连续计数或越限次数计数是否满足要求,满足条件则进行挂牌,不满足条件不处理。
模型统计值大于预挂牌阈值,小于挂牌阈值,越限连续计数置0,越限计数不变。
模型统计值小于预挂牌阈值,越限连续计数置0,越限次数计数置0。
运维对象挂牌后,模型统计值低于挂牌阈值,撤牌连续计数自增1;模型统计值高于挂牌阈值,撤牌连续计数置0。当撤牌连续计数满足指定要求后,予以撤牌。
首先需定义运维对象的状态模型,包括挂牌阈值和预挂牌阈值,默认预挂牌条件是挂牌条件的百分比递减。各对象需创建卡、乱、闲、断、危五种模型并关联不同的指标并按模型进行指标采集,然后采用指标权重和历史权重对运行状态进行分析,若指标计算值满足挂牌阈值且最近历史低于预挂牌指标,直接予以挂牌;若指标计算值满足预挂牌阈值且最近历史高于预挂牌指标,则判断连续出现统计指标高于挂牌阈值或满足指定次数后予以挂牌;挂牌后若指标计算值连续若干次低于挂牌阈值,进行撤牌;其他情况不予处理。
步骤S5:实时收集挂撤牌信息形成状态知识库。
具体可包括:根据对状态知识库的分析,实现模型中指标、阈值和权值的个性化调整。挂牌记录自动添加到状态知识库,根据对状态知识库的分析,挖掘各运维对象的特性,并实现模型的个性化调整。
挂牌快照指标变化趋势基本符合挂牌的规律性变化,能够反映挂牌时的运行状态,建议将该快照加入挂牌指标列表。
挂牌阈值和预挂牌阈值设置的不合理,设置太高导致挂牌次数少,无法定位问题;设置太低导致频繁挂牌,影响用户使用。根据历史挂牌情况分析挂牌阈值和预挂牌阈值的合理性,并给出调整的阈值。
挂牌权重的设置未能突出影响较大的指标,越限次数多、程度深的指标权重少,越限少的指标权重高,计算结果不能有效反映运行状态,建议用户调整权重,并给出调整建议。
运维人员可以直接调整模型初始值,并对历史知识产生的调整建议进行具体操作。
在实际应用中,如图4所示,包括以下具体实施:
挂牌模型对于同一类对象提供默认的初始阈值,运维人员可以根据对运行对象的理解手动调整不同对象初始值;当挂牌运行一段时间后,状态知识库形成一定的数据规模,可对运行状态知识进行分析统计,提炼各对象个性化的特征趋势,推动挂牌阈值个性化调整,从而实现对象模型个性化、精准化的良性循环。
(1)调整指标模型
在建立指标模型时,不仅定义了挂牌指标,同时也定义了快照指标,挂牌指标参与挂牌计算,依据行业经验选取影响较大的指标;快照指标不参与挂牌计算,依据行业经验选取有影响较小的指标。在实际的运行环境中,由于各对象的软硬件环境不尽相同,各指标发挥的功效也有着差异。在统一模型的基础上,分析各对象的快照特征,提炼相关性和一致性,若快照指标存在能反映运行状态的规律性波动且规律命中率超过80%,判断快照指标对该对象影响较大,建议用户将快照指标加入该对象的模型。
(2)调整挂牌阈值和预挂牌阈值
初始的挂牌阈值和预挂牌阈值仅保证挂牌功能可以正常运行,支持运维人员手动调整初始阈值。为了适应各对象不同的软硬件环境,需在运行过程中不断对阈值进行优化调整。主要调整思路为历史运行指标普遍高于阈值,说明阈值设置低;运行指标极大部分低于阈值,说明阈值设置高。预置内容为80%指标历史数据高于预挂牌阈值,判断该对象的预挂牌阈值低,建议用户调整预挂牌阈值并根据历史数据给出推荐阈值;60%指标历史数据高于挂牌阈值,判断该对象的挂牌阈值低,建议用户调整挂牌阈值并根据历史数据给出推荐阈值;95%指标历史低于挂牌阈值,判断该对象的挂牌阈值高,建议用户调整挂牌阈值并根据历史数据给出推荐阈值。
(3)调整指标权重
初始的指标权重根据指标的影响程度进行定义,默认不建议运维人员手动调整。在实际挂牌历史中,各类指标对挂牌的影响程度也不尽相同,当某类指标在挂牌历史中的影响规律性高于其他指标,规律命中率超过80%,对于挂牌起着较为重要的作用,建议用户提升该指标的权重并根据历史数据给出推荐权重。当某类指标在挂牌历史中对挂牌分析没有明显效果,建议用户降低该指标的权重并给出推荐权重。
通过模型的分类和构建,对运维对象的各类指标、数据进行了分类关联,赋予了指标业务意义,并根据历史经验定义了各指标的计算权值,形成完整的业务模型,有效的描述了运维对象的真实运行情况,并其适用于同类对象的扩展。
通过抽象化状态描述,重点突出了性能、在用、可用、安全和合规等运行状态,区别于告警仅单一的对指标进行监测和越限提示,从业务的角度大大增强了关联性,充分提高了运维人员对运行状态的理解,降低对运维内容的学习成本。
对挂撤牌的合理分析,通过采用基于最近历史权重的方式进行挂撤牌分析,不仅着眼于一个时间点的运行状态情况,还有效的整合了历史信息,能客观的反映运维对象的整体运行状态,并通过挂撤牌方式进行管理提示。
通过多状态展现,支持同时展现多种运行状态,部分运行状态互斥,但大部分运行状态可以共存,可以有效直观的反映运维对象的真实运行情况,将运维人员从繁琐的指标告警中解放出来,提升业务理解,提高运维效率。
通过个性化调整,收集挂撤牌信息形成状态知识库,采用机器学习的方法分析各运维对象的信息,形成规律性、有意义的知识,用以优化对象的挂牌和预挂牌阈值,调整算法权重,推动挂牌模型的个性化调整,提高挂撤牌的准确性和专业程度。
实施例三
如图5所示,一种直观的网络及业务系统运行状态展现系统,所述展现系统包括:
模型模块1,用于为运维对象创建抽象运维对象指标的分析模型;
阈值模块2,用于基于经验对不同的对象进行挂牌阈值定义;
分析模块3,用于采集模型定义的各类指标进行挂撤牌分析;
挂撤牌模块4,用于根据分析结果进行相应的挂撤牌操作。
其中,所述展现系统包括:状态调整模块5,用于实时收集挂撤牌信息形成状态知识库,及根据对状态知识库的分析,实现模型中指标、阈值和权值的个性化调整。
通过所述的展现系统,可以实现直观的网络及业务系统运行状态展现,具体通过如下流程实现:
(一)为运维对象创建抽象运维对象指标的分析模型;
所述为运维对象创建抽象运维对象指标的分析模型的具体实施方式包括:构建了包括性能、可用、在用、安全、合规的五种模型,模型组成包括指标、阈值和权重。
其中,所述指标、阈值和权重如下所示:
指标:包括挂牌指标和快照指标,挂牌指标参与挂牌计算、快照指标记录详细信息并可向挂牌指标转化;
阈值:包括挂牌阈值和预挂牌阈值,挂牌阈值判断挂牌越限条件、预挂牌阈值辅助分析是否符合挂牌条件;
权重:根据指标的重要性排序,影响大的指标权重高,影响小的指标权重小。
所述分析模型的算法为:
[W1*(T1/D1)+W2*(T2/D2)+…+Wn(Tn/Dn)]/n>D
其中W代表指标权重,T1~Tn代表指标的实际值,D1~Dn代表指标的挂牌阈值,D代表对象总挂牌阈值。
在实际应用中,为各类运维对象定义性能、可用、在用、安全和合规模型,整理分类运维对象各类指标,定义挂牌阈值和预挂牌阈值,并按不同的权重有机组合,构建描述运行状态的关联关系,各模型的定义方式如下:
(1)性能模型-卡:整理运维对象的指标中与性能相关的指标,对于主机类主要涉及设备计算、网络性能、对于业务类主要涉及业务访问、并发性能。根据历史经验对各指标制定挂牌阈值和预挂牌阈值,并按指标的重要程度进行权重划分。若各指标的计算结果大于制定挂牌条件,则进行挂牌,以下公式可简单说明:
[W1*(T1/D1)+W2*(T2/D2)+…+Wn(Tn/Dn)]/n>D
其中W代表指标权重,T1~Tn代表指标的实际值,D1~Dn代表指标的挂牌阈值,D代表对象总挂牌阈值。算法目的是将多个性能指标抽象为对象运行性能状态。
(2)可用模型-断:整理运维对象的指标中与状态相关的指标,对于主机类主要涉及设备运行状态、采集状态等、对于业务类主要涉及业务运行状态、业务访问状态等。
(3)在用模型-闲:在用模型与性能模型较为接近,对于主机类主要涉及计算、网络负载、对于业务类主要涉及业务访问、并发负载。
(4)安全模型-危:整理运维对象的指标中与状态相关的指标,如防火墙状态、杀毒软件状态等;整理运维对象网络异常事件,如ARP攻击、DoS拒绝服务等;整理业务的异常事件,如越权访问、违规服务等。
(5)合规模型-乱:深入运维对象的流量指标统计,分析流量规律,整理不符合规律的网络行为,包括IP异常、流量异常等。
在实际应用中,所述分析模型可包括:
为各类运维对象定义性能、可用、在用、安全和合规模型,整理分类运维对象各类指标,定义挂牌阈值和预挂牌阈值,并按不同的权重有机组合,构建描述运行状态的关联关系。
设备卡模型包括CPU使用率、内存使用率、空间使用率、磁盘IO速率、带宽使用率、进程数量等挂牌指标;断模型包括运行状态、连续运行时长、采集状态、中断事件等挂牌指标;闲模型包括CPU使用率、内存使用率、空间使用率、磁盘IO速率、带宽使用率、进程数量等挂牌指标;乱模型包括IP波动、流量波动、网络丢包等挂牌指标;危模型包括主机安全事件、网络安全事件、文件异常变更、防火墙异常、杀毒软件状态等挂牌指标。
业务卡模型包括访问人数、访问流量、访问时延等挂牌指标;断模型包括运行状态、连续运行时长、接口状态、采集状态等挂牌指标;闲模型包括访问人数、访问流量、访问时延等挂牌指标;乱模型包括IP波动、访问流量波动、接口流量波动等挂牌指标;危模型包括业务安全事件、网络安全事件等挂牌指标。
快照指标的选取无限制,旨在详细的记录挂牌的细节,具体指标可按对运维对象的理解进行添加。
(二)基于经验对不同的对象进行挂牌阈值定义;
所述基于经验对不同的对象进行挂牌阈值定义的具体实施方式包括:进行挂牌阈值和预挂牌阈值的定义,默认预挂牌条件是挂牌条件的百分比递减。挂牌阈值和预挂牌阈值根据历史运行经验进行设置,不同的模型需采用不同的阈值。权重设置同理需根据指标的重要性进行排列,并设置为不同的权重。
(三)采集模型定义的各类指标进行挂撤牌分析;
所述采集模型定义的各类指标进行挂撤牌分析的具体实施方式包括:根据模型中的指标定义进行指标采集。采集指标汇入模型,计算其统计结果是否符合挂牌阈值或预挂牌阈值。采用基于最近历史权重的方式进行挂撤牌分析,结合了历史和权重两种分析方式,根据不同的历史数据,合理分析真实的运行状态。结合指标权重、历史权重,通过算法分析是否符合挂牌条件,若条件符合,挂牌;若条件不符合,计入下次挂牌运算的前置条件。
(1)挂牌方案
首先根据模型中定义的采集频率采集各模型的数据,并使用挂牌公式计算本次统计状态是否高于挂牌阈值。若本次统计高于挂牌阈值,则再计算本次统计之前连续N次(n<10)的情况,以下公式可简单说明:
[W1*S1+W2*S2+…+Wn*Sn]/n>D(W1>W2>…>Wn)
其中W代表历史权重,且时间从近到远的顺序按从大到小分布,S代表连续历史时间点的实际计算值,D根据需要分别为对象挂牌阈值或预挂牌阈值。
1)本次统计高于挂牌阈值且历史挂牌计算值小于预挂牌阈值,则判断该对象挂牌。
2)本次统计高于挂牌阈值且历史挂牌计算值大于预挂牌阈值,则本次不予挂牌。当后续统计连续出现统计指标高于挂牌阈值或满足指定次数后,则判断该对象挂牌。
3)本次统计低于挂牌阈值,连续计数置0;若本次统计低于预挂牌阈值,次数计数置0。
(2)撤牌方案
使用挂牌公式计算本次统计状态,若对象当前有挂牌,则判断本次统计是否低于挂牌阈值。若本次统计低于挂牌阈值,连续计数自增1,若后续出现大于挂牌阈值的情况,则连续计数置0。当后续出现连续N次(n<5)小于挂牌阈值的情况,则撤牌。
(四)根据分析结果进行相应的挂撤牌操作。
所述根据分析结果进行相应的挂撤牌操作的具体实施方式包括:
若运维对象已经挂某类型的牌,不再重复挂同类型的牌。
模型统计值大于挂牌阈值,越限连续计数自增1,越限次数计数自增1。若加权历史挂牌统计值小于预挂牌阈值,直接挂牌;若加权历史挂牌统计值大于预挂牌阈值。判断越限连续计数或越限次数计数是否满足要求,满足条件则进行挂牌,不满足条件不处理。
模型统计值大于预挂牌阈值,小于挂牌阈值,越限连续计数置0,越限计数不变。
模型统计值小于预挂牌阈值,越限连续计数置0,越限次数计数置0。
运维对象挂牌后,模型统计值低于挂牌阈值,撤牌连续计数自增1;模型统计值高于挂牌阈值,撤牌连续计数置0。当撤牌连续计数满足指定要求后,予以撤牌。
首先需定义运维对象的状态模型,包括挂牌阈值和预挂牌阈值,默认预挂牌条件是挂牌条件的百分比递减。各对象需创建卡、乱、闲、断、危五种模型并关联不同的指标并按模型进行指标采集,然后采用指标权重和历史权重对运行状态进行分析,若指标计算值满足挂牌阈值且最近历史低于预挂牌指标,直接予以挂牌;若指标计算值满足预挂牌阈值且最近历史高于预挂牌指标,则判断连续出现统计指标高于挂牌阈值或满足指定次数后予以挂牌;挂牌后若指标计算值连续若干次低于挂牌阈值,进行撤牌;其他情况不予处理。
(五)实时收集挂撤牌信息形成状态知识库。
具体可包括:根据对状态知识库的分析,实现模型中指标、阈值和权值的个性化调整。挂牌记录自动添加到状态知识库,根据对状态知识库的分析,挖掘各运维对象的特性,并实现模型的个性化调整。
挂牌快照指标变化趋势基本符合挂牌的规律性变化,能够反映挂牌时的运行状态,建议将该快照加入挂牌指标列表。
挂牌阈值和预挂牌阈值设置的不合理,设置太高导致挂牌次数少,无法定位问题;设置太低导致频繁挂牌,影响用户使用。根据历史挂牌情况分析挂牌阈值和预挂牌阈值的合理性,并给出调整的阈值。
挂牌权重的设置未能突出影响较大的指标,越限次数多、程度深的指标权重少,越限少的指标权重高,计算结果不能有效反映运行状态,建议用户调整权重,并给出调整建议。
运维人员可以直接调整模型初始值,并对历史知识产生的调整建议进行具体操作。
在实际应用中,包括以下具体实施:
挂牌模型对于同一类对象提供默认的初始阈值,运维人员可以根据对运行对象的理解手动调整不同对象初始值;当挂牌运行一段时间后,状态知识库形成一定的数据规模,可对运行状态知识进行分析统计,提炼各对象个性化的特征趋势,推动挂牌阈值个性化调整,从而实现对象模型个性化、精准化的良性循环。
(1)调整指标模型
在建立指标模型时,不仅定义了挂牌指标,同时也定义了快照指标,挂牌指标参与挂牌计算,依据行业经验选取影响较大的指标;快照指标不参与挂牌计算,依据行业经验选取有影响较小的指标。在实际的运行环境中,由于各对象的软硬件环境不尽相同,各指标发挥的功效也有着差异。在统一模型的基础上,分析各对象的快照特征,提炼相关性和一致性,若快照指标存在能反映运行状态的规律性波动且规律命中率超过80%,判断快照指标对该对象影响较大,建议用户将快照指标加入该对象的模型。
(2)调整挂牌阈值和预挂牌阈值
初始的挂牌阈值和预挂牌阈值仅保证挂牌功能可以正常运行,支持运维人员手动调整初始阈值。为了适应各对象不同的软硬件环境,需在运行过程中不断对阈值进行优化调整。主要调整思路为历史运行指标普遍高于阈值,说明阈值设置低;运行指标极大部分低于阈值,说明阈值设置高。预置内容为80%指标历史数据高于预挂牌阈值,判断该对象的预挂牌阈值低,建议用户调整预挂牌阈值并根据历史数据给出推荐阈值;60%指标历史数据高于挂牌阈值,判断该对象的挂牌阈值低,建议用户调整挂牌阈值并根据历史数据给出推荐阈值;95%指标历史低于挂牌阈值,判断该对象的挂牌阈值高,建议用户调整挂牌阈值并根据历史数据给出推荐阈值。
(3)调整指标权重
初始的指标权重根据指标的影响程度进行定义,默认不建议运维人员手动调整。在实际挂牌历史中,各类指标对挂牌的影响程度也不尽相同,当某类指标在挂牌历史中的影响规律性高于其他指标,规律命中率超过80%,对于挂牌起着较为重要的作用,建议用户提升该指标的权重并根据历史数据给出推荐权重。当某类指标在挂牌历史中对挂牌分析没有明显效果,建议用户降低该指标的权重并给出推荐权重。
通过模型的分类和构建,对运维对象的各类指标、数据进行了分类关联,赋予了指标业务意义,并根据历史经验定义了各指标的计算权值,形成完整的业务模型,有效的描述了运维对象的真实运行情况,并其适用于同类对象的扩展。
通过抽象化状态描述,重点突出了性能、在用、可用、安全和合规等运行状态,区别于告警仅单一的对指标进行监测和越限提示,从业务的角度大大增强了关联性,充分提高了运维人员对运行状态的理解,降低对运维内容的学习成本。
对挂撤牌的合理分析,通过采用基于最近历史权重的方式进行挂撤牌分析,不仅着眼于一个时间点的运行状态情况,还有效的整合了历史信息,能客观的反映运维对象的整体运行状态,并通过挂撤牌方式进行管理提示。
通过多状态展现,支持同时展现多种运行状态,部分运行状态互斥,但大部分运行状态可以共存,可以有效直观的反映运维对象的真实运行情况,将运维人员从繁琐的指标告警中解放出来,提升业务理解,提高运维效率。
通过个性化调整,收集挂撤牌信息形成状态知识库,采用机器学习的方法分析各运维对象的信息,形成规律性、有意义的知识,用以优化对象的挂牌和预挂牌阈值,调整算法权重,推动挂牌模型的个性化调整,提高挂撤牌的准确性和专业程度。
本发明实施的优点:本发明所述的直观的网络及业务系统运行状态展现方法,包括以下步骤:为运维对象创建抽象运维对象指标的分析模型;基于经验对不同的对象进行挂牌阈值定义;采集模型定义的各类指标进行挂撤牌分析;根据分析结果进行相应的挂撤牌操作;将多种指标抽象为独特的特征牌,为指标创建业务关联,以一种更直观更动态的展现方式,对运维对象进行监控和管理,包括网络、链路、业务、主机、数据库、中间件等对象,不仅增强了可视化的效果,也提高了工作效率;通过挂牌的技术手段,合理的建立运行状态模型,分析运维对象的运行情况,减少运维人员的告警学习处理成本,提升对运行状态的理解,提高运维的效率和体验。挂牌技术为运维对象的不同运行状态建立了模型,包括性能、可用、在用、安全和合规等,在模型中关联不同的指标、阈值和算法,当挂牌的条件被触发后,对运维对象进行挂牌,直观反映运维对象当前的多种运行状态,帮助运维人员快速定位运维对象异常分析的方向或原因,减少分析时间,提升效率。挂牌技术作为一项改进性的技术,区别于单一维度的指标告警,采用模型化的方案定义运维对象的运行状态,提供业务视角的管理方案,减少运维人员单个指标的学习成本,提高整体业务化理解,便于运维人员定位和排查问题。
具体表现在以下几个方面:
1、模型的分类和构建;本方法对运维对象的各类指标、数据进行了分类关联,赋予了指标业务意义,并根据历史经验定义了各指标的计算权值,形成完整的业务模型,有效的描述了运维对象的真实运行情况,并其适用于同类对象的扩展。
2、抽象化状态描述;本方法重点突出了性能、在用、可用、安全和合规等运行状态,区别于告警仅单一的对指标进行监测和越限提示,从业务的角度大大增强了关联性,充分提高了运维人员对运行状态的理解,降低对运维内容的学习成本。
3、挂撤牌合理分析;本方法采用了基于最近历史权重的方式进行挂撤牌分析,不仅着眼于一个时间点的运行状态情况,还有效的整合了历史信息,能客观的反映运维对象的整体运行状态,并通过挂撤牌方式进行管理提示。
4、多状态展现;本方法支持同时展现多种运行状态,部分运行状态互斥,但大部分运行状态可以共存,可以有效直观的反映运维对象的真实运行情况,将运维人员从繁琐的指标告警中解放出来,提升业务理解,提高运维效率。
5、个性化调整;本方法的挂撤牌信息形成状态知识库,采用机器学习的方法分析各运维对象的信息,形成规律性、有意义的知识,用以优化对象的挂牌和预挂牌阈值,调整算法权重,推动挂牌模型的个性化调整,提高挂撤牌的准确性和专业程度。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (15)

1.一种直观的网络及业务系统运行状态展现方法,其特征在于,所述直观的网络及业务系统运行状态展现方法包括以下步骤:
为运维对象创建抽象运维对象指标的分析模型;
基于经验对不同的对象进行挂牌阈值定义;
采集模型定义的各类指标进行挂撤牌分析;
根据分析结果进行相应的挂撤牌操作。
2.根据权利要求1所述的直观的网络及业务系统运行状态展现方法,其特征在于,所述为运维对象创建抽象运维对象指标的分析模型包括:构建了包括性能、可用、在用、安全、合规的五种模型,模型组成包括指标、阈值和权重。
3.根据权利要求2所述的直观的网络及业务系统运行状态展现方法,其特征在于,所述指标、阈值和权重如下所示:
指标:包括挂牌指标和快照指标,挂牌指标参与挂牌计算、快照指标记录详细信息并可向挂牌指标转化;
阈值:包括挂牌阈值和预挂牌阈值,挂牌阈值判断挂牌越限条件、预挂牌阈值辅助分析是否符合挂牌条件;
权重:根据指标的重要性排序,影响大的指标权重高,影响小的指标权重小。
4.根据权利要求1所述的直观的网络及业务系统运行状态展现方法,其特征在于,所述分析模型的算法为:
[W1*(T1/D1)+W2*(T2/D2)+…+Wn(Tn/Dn)]/n>D
其中W代表指标权重,T1~Tn代表指标的实际值,D1~Dn代表指标的挂牌阈值,D代表对象总挂牌阈值。
5.根据权利要求1所述的直观的网络及业务系统运行状态展现方法,其特征在于,所述采集模型定义的各类指标进行挂撤牌运算包括:采用基于最近历史权重的方式进行挂撤牌分析,结合了历史和权重两种分析方式,根据不同的历史数据,合理分析真实的运行状态。
6.根据权利要求5所述的直观的网络及业务系统运行状态展现方法,其特征在于,所述最近历史权重方式的算法如下:
[W1*S1+W2*S2+…+Wn*Sn]/n>D (W1>W2>…>Wn)
其中W代表历史权重,且时间从近到远的顺序按从大到小分布,S代表连续历史时间点的实际计算值,D根据需要分别为对象挂牌阈值或预挂牌阈值。
7.根据权利要求6所述的直观的网络及业务系统运行状态展现方法,其特征在于,所述基于经验对不同的对象进行挂牌阈值定义包括:进行挂牌阈值和预挂牌阈值的定义,默认预挂牌条件是挂牌条件的百分比递减。
8.根据权利要求7所述的直观的网络及业务系统运行状态展现方法,其特征在于,所述采集模型定义的各类指标进行挂撤牌分析包括:结合指标权重、历史权重,通过算法分析是否符合挂牌条件,若条件符合,挂牌;若条件不符合,计入下次挂牌运算的前置条件。
9.根据权利要求8所述的直观的网络及业务系统运行状态展现方法,其特征在于,所述根据分析结果进行相应的挂撤牌操作包括:若指标计算值满足挂牌阈值且最近历史低于预挂牌阈值,直接予以挂牌;若指标计算值满足预挂牌阈值且最近历史高于预挂牌阈值,则判断连续出现统计指标高于挂牌阈值或满足指定次数后予以挂牌;挂牌后若指标计算值连续若干次低于挂牌阈值,进行撤牌;其他情况不予处理。
10.根据权利要求9所述的直观的网络及业务系统运行状态展现方法,其特征在于,所述根据分析结果进行相应的挂撤牌操作包括:本次统计低于挂牌阈值,连续计数置0;若本次统计低于预挂牌阈值,次数计数置0。
11.根据权利要求9所述的直观的网络及业务系统运行状态展现方法,其特征在于,所述根据分析结果进行相应的挂撤牌操作包括:计算本次统计状态,若对象当前有挂牌,则判断本次统计是否低于挂牌阈值;若本次统计低于挂牌阈值,连续计数自增1,若后续出现大于挂牌阈值的情况,则连续计数置0;当后续出现连续N次(n<5)小于挂牌阈值的情况,则撤牌。
12.根据权利要求1至11之一所述的直观的网络及业务系统运行状态展现方法,其特征在于,所述直观的网络及业务系统运行状态展现方法包括:实时收集挂撤牌信息形成状态知识库。
13.根据权利要求12所述的直观的网络及业务系统运行状态展现方法,其特征在于,所述直观的网络及业务系统运行状态展现方法包括:根据对状态知识库的分析,实现模型中指标、阈值和权值的个性化调整。
14.一种直观的网络及业务系统运行状态展现系统,其特征在于,所述展现系统包括:
模型模块,用于为运维对象创建抽象运维对象指标的分析模型;
阈值模块,用于基于经验对不同的对象进行挂牌阈值定义;
分析模块,用于采集模型定义的各类指标进行挂撤牌分析;
挂撤牌模块,用于根据分析结果进行相应的挂撤牌操作。
15.根据权利要求14所述的直观的网络及业务系统运行状态展现系统,其特征在于,所述展现系统包括:状态调整模块,用于实时收集挂撤牌信息形成状态知识库,及根据对状态知识库的分析,实现模型中指标、阈值和权值的个性化调整。
CN201710661404.9A 2017-08-04 2017-08-04 一种直观的网络及业务系统运行状态展现方法及系统 Active CN108289035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710661404.9A CN108289035B (zh) 2017-08-04 2017-08-04 一种直观的网络及业务系统运行状态展现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710661404.9A CN108289035B (zh) 2017-08-04 2017-08-04 一种直观的网络及业务系统运行状态展现方法及系统

Publications (2)

Publication Number Publication Date
CN108289035A true CN108289035A (zh) 2018-07-17
CN108289035B CN108289035B (zh) 2021-09-17

Family

ID=62831470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710661404.9A Active CN108289035B (zh) 2017-08-04 2017-08-04 一种直观的网络及业务系统运行状态展现方法及系统

Country Status (1)

Country Link
CN (1) CN108289035B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112702188A (zh) * 2020-12-10 2021-04-23 北京直真科技股份有限公司 一种基于传输spn或ptn网络流量隐患分析方法
CN113612644A (zh) * 2021-08-05 2021-11-05 烽火通信科技股份有限公司 一种传输网网元动态仿真方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102123149A (zh) * 2011-03-04 2011-07-13 哈尔滨工程大学 面向服务的大规模网络安全态势评估装置及方法
CN104182904A (zh) * 2014-07-02 2014-12-03 国家电网公司 一种变电站集中监控海量数据的多维分析可视化展示方法
CN104579843A (zh) * 2015-01-14 2015-04-29 浪潮通信信息系统有限公司 一种基于挂牌机制的网元健康度分析方法及装置
CN105530118A (zh) * 2015-05-04 2016-04-27 上海北塔软件股份有限公司 一种用于运维管理的采集方法及系统
CN105608519A (zh) * 2015-11-09 2016-05-25 国家电网公司 一种电网通信设备运行状态的预测算法
CN105678389A (zh) * 2016-01-08 2016-06-15 上海北塔软件股份有限公司 一种用于运维管理的检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102123149A (zh) * 2011-03-04 2011-07-13 哈尔滨工程大学 面向服务的大规模网络安全态势评估装置及方法
CN104182904A (zh) * 2014-07-02 2014-12-03 国家电网公司 一种变电站集中监控海量数据的多维分析可视化展示方法
CN104579843A (zh) * 2015-01-14 2015-04-29 浪潮通信信息系统有限公司 一种基于挂牌机制的网元健康度分析方法及装置
CN105530118A (zh) * 2015-05-04 2016-04-27 上海北塔软件股份有限公司 一种用于运维管理的采集方法及系统
CN105608519A (zh) * 2015-11-09 2016-05-25 国家电网公司 一种电网通信设备运行状态的预测算法
CN105678389A (zh) * 2016-01-08 2016-06-15 上海北塔软件股份有限公司 一种用于运维管理的检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112702188A (zh) * 2020-12-10 2021-04-23 北京直真科技股份有限公司 一种基于传输spn或ptn网络流量隐患分析方法
CN113612644A (zh) * 2021-08-05 2021-11-05 烽火通信科技股份有限公司 一种传输网网元动态仿真方法及系统
CN113612644B (zh) * 2021-08-05 2023-07-21 烽火通信科技股份有限公司 一种传输网网元动态仿真方法及系统

Also Published As

Publication number Publication date
CN108289035B (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
US10476749B2 (en) Graph-based fusing of heterogeneous alerts
CN107666410B (zh) 网络安全分析系统及方法
CN108494810A (zh) 面向攻击的网络安全态势预测方法、装置及系统
CN111092852B (zh) 基于大数据的网络安全监控方法、装置、设备及存储介质
Jun et al. Design of complex event-processing IDS in internet of things
CN106951984A (zh) 一种系统健康度动态分析预测方法及装置
US20060074621A1 (en) Apparatus and method for prioritized grouping of data representing events
CN106600115A (zh) 一种企业信息系统运维智能分析方法
CN111181799B (zh) 一种网络流量监控方法及设备
US10476752B2 (en) Blue print graphs for fusing of heterogeneous alerts
Ye et al. EWMA forecast of normal system activity for computer intrusion detection
CN107239707A (zh) 一种用于信息系统的威胁数据处理方法
CN106657038A (zh) 一种基于对称度Sketch的网络流量异常检测与定位方法
CN110298601A (zh) 一种基于规则引擎的实时业务风控系统
CN102034148A (zh) 一种监控系统的事件预警及防风暴策略的实现方法
CN109088869A (zh) Apt攻击检测方法及装置
CN106254137A (zh) 监管系统的告警根源分析系统及方法
CN105635085A (zh) 基于动态健康度模型的安全大数据分析系统及方法
CN109992473A (zh) 应用系统的监控方法、装置、设备及存储介质
CN102456032B (zh) 数据库安全保护方法和装置
CN108289035A (zh) 一种直观的网络及业务系统运行状态展现方法及系统
CN104246787A (zh) 用于模式发现的参数调节
JP2018196054A (ja) 評価プログラム、評価方法および情報処理装置
CN112526905B (zh) 一种针对指标异常的处理方法及系统
CN109743339A (zh) 电力厂站的网络安全监测方法和装置、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant