CN108074022A - 一种基于集中运维的硬件资源分析与评估方法 - Google Patents
一种基于集中运维的硬件资源分析与评估方法 Download PDFInfo
- Publication number
- CN108074022A CN108074022A CN201610989588.7A CN201610989588A CN108074022A CN 108074022 A CN108074022 A CN 108074022A CN 201610989588 A CN201610989588 A CN 201610989588A CN 108074022 A CN108074022 A CN 108074022A
- Authority
- CN
- China
- Prior art keywords
- analysis
- data
- indexes
- index
- hardware resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000012544 monitoring process Methods 0.000 claims abstract description 99
- 230000008569 process Effects 0.000 claims abstract description 40
- 238000012423 maintenance Methods 0.000 claims abstract description 20
- 238000011156 evaluation Methods 0.000 claims description 114
- 230000005540 biological transmission Effects 0.000 claims description 22
- 230000000737 periodic effect Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000010219 correlation analysis Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000012300 Sequence Analysis Methods 0.000 claims description 9
- 238000012098 association analyses Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000013210 evaluation model Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000005192 partition Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 6
- 238000013499 data model Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000005856 abnormality Effects 0.000 claims description 5
- 230000006872 improvement Effects 0.000 claims description 5
- 230000006837 decompression Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 claims description 4
- 238000012806 monitoring device Methods 0.000 claims description 4
- 241001123248 Arma Species 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 6
- 238000011084 recovery Methods 0.000 abstract 1
- 238000007621 cluster analysis Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于集中运维的硬件资源分析与评估方法,包括下述步骤:1)定义系统硬件资源监测指标的类型;2)系统硬件资源指标的分周期采集;3)建立系统硬件资源监测指标的分析与评估模型;4)系统硬件资源分析与评估。本发明提供的技术方案针对集中运维模式的多级系统的自动化设备资源数据,提出了多种有效的分析与评估方法,以预测系统资源发展趋势,挖掘系统运行过程的规则和存在的安全隐患,协助调度自动化运维人员全面掌握系统可能出现的问题,提升多级智能电网调度控制系统风险防御水平,满足电网的快速发展对调度控制系统运维工作的要求。
Description
技术领域
本发明涉及电力系统的分析与评估方法,具体涉及一种基于集中运维的硬件资源分析与评估方法。
背景技术
智能电网调度控制系统是由国家电网公司统一组织、多家技术企业集中研发的世界上规模最大的电网调度控制系统,采用多级分层结构,实现了电网调度业务的“横向集成,纵向贯通”,实现了特大电网的实时监测、事故协同处置以及全局经济调度。“十三五”期间,随着特高压交直流互联电网的快速发展,电网安全稳定运行对智能电网调度控制系统的要求不断提高。
国家电网公司的管理体制正在向集约化、精益化变革,智能电网调度控制系统的运维模式已经开始由分散运维模式向集中运维模式转变,为全面加强智能电网调度控制系统的安全稳定性,提高系统调度自动化设备资源的可用性水平,迫切需要集中运维中心统一监视和准确判断设备运行状态和发展趋势,需要进一步以先进的分析评估技术为依托,在集中运维模式下的状态评估工作为抓手,实现对多级调度控制系统设备的安全预警,促进调度自动化专业全过程管理水平的全面提升,推动调度自动化专业技术水平的快速发展,夯实电网安全生产基础。
现有的调度控制系统资源监视与分析评估局限于各个调控中心内部,多级系统之间的数据不共享,分析内容侧重于实时监视和短期数据统计,缺乏对多级系统资源使用情况的统一表达,以及大量历史信息和综合指标的有效分析与评估,无法充分利用多级系统海量数据资源及时发现系统存在的安全隐患。针对近期国家电网公司系统的安全事故,公司提出了“三查三强化”安全专项行动,进一步明确要深入开展隐患排查治理工作;要发现调度控制系统的深层安全隐患必须充分利用多级系统的海量数据,并采用有效的分析评估方法。
发明内容
为解决上述现有技术中的不足,本发明的目的是提供一种基于集中运维的硬件资源分析与评估方法,针对集中运维模式的多级系统的自动化设备资源数据,提出了多种有效的分析与评估方法,以预测系统资源发展趋势,挖掘系统运行过程的规则和存在的安全隐患,协助调度自动化运维人员全面掌握系统可能出现的问题,提升多级智能电网调度控制系统风险防御水平,满足电网的快速发展对调度控制系统运维工作的要求。
本发明的目的是采用下述技术方案实现的:
本发明提供一种基于集中运维的硬件资源分析与评估方法,其改进之处在于,所述方法包括下述步骤:
1)定义系统硬件资源监测指标的类型;
2)系统硬件资源指标的分周期采集;
3)建立系统硬件资源监测指标的分析与评估模型;
4)系统硬件资源分析与评估。
进一步地,所述步骤1)中,硬件资源监测指标包括接入调度数据网中的所有应用服务器和重要工作站的磁盘空间使用率、CPU占用率以及内存使用率三种监测指标;或监测指标按采集周期划分为实时指标和周期性统计指标,其中实时指标要求更新周期为3-5秒,周期性统计指标的更新周期为5或10分钟两种周期。
进一步地,所述三种监测指标中,
CPU占用率——调度数据网内某个节点的CPU即时利用率,在数据点表中一条记录一个值,用遥测发送;
内存使用率——各系统内某个节点的内存即时利用率;在数据点表中一条记录一个值,用遥测发送;
磁盘空间使用率——各系统内某个节点的磁盘空间使用率,该节点的根目录和主用户目录的空间使用率;在数据点表中一条记录一个值,用遥测发送。
进一步地,所述步骤2)包括下述步骤:
步骤2.1实时指标的采集;
步骤2.2周期性统计指标采集。
进一步地,所述步骤2.1实时指标的采集包括::实时指标的通过接入调度数据网的前置采集服务器,采用DL476协议的字符串数据块分别与各调控中心调度控制系统进行数据传输,硬件资源监测指标的收集和传输包括各地系统数据的发送端、系统数据的接收端、通信传输协议的设定来实现智能电网调度控制系统硬件资源监测指标的集中采集;依据系统数据发送端和接收端双方事先约定好的数据通信索引文件,从各地系统实时数据库中获取所需要的硬件资源监测指标传输给集中运维中心;集中运维中心数据接收程序与省级及以上调控中心采集系统建立TCP连接,接收各类数据,并存储到运维中心系统的实时数据库中;步骤如下:
(1)首先创建TCP连接;
(2)发送启动应用:DL476为A_ASSOCIATE;
(3)收到启动确认:DL476为A_ASSOCIATE_ACK;
(4)发送端即时扫描数据通信索引文件中的数据,如果有变化数据产生或者时间达到全数据周期的要求,则发送数据报文;
(5)接收端对收到的数据报文进行确认;
(6)若15秒内没有数据传输,发送端或接收端发送测试报文,对端给予确认;DL476为A_TEST;
(7)发送端或接收端关闭连接,对端给予确认;DL476为A_ABORT表示断开,A_ABORT_ACK表示断开确认。
进一步地,所述步骤2.2中:周期性统计指标由文件服务客户端、指标采集客户端和指标汇总与分析客户端组成;周期性统计指标由文件服务客户端、指标采集客户端和指标汇总与分析客户端组成,通过scp或ftp文件服务将周期性指标按设定的周期加密传输给集中运维中心,集中运维中心通过解压、解密和解析程序将周期性指标直接存入历史数据库中;
所述步骤2.2包括下述步骤:
1)某个时间点得到各节点服务器或工作站上的采集指标,采集周期从配置库中读取,将指标写入实时数据库中;
2)历史采样程序将采集指标按采样周期写入历史库中存档;
3)分析汇总程序将历史库中的采样数据读出,通过分析与评估程序对基础数据进行加工,后写入相应的历史指标库中,并形成分析与评估日志文件;
4)调控中心的文件服务客户端按周期读取分析与评估日志文件,通过ftp或scp服务定时将加密文件传输到集中运维中心指定的文件服务客户端的指定目录下;
5)集中运维中心将指定目录下的文件解压、解密后,将分析与评估的指标写入实时库中,通过人机界面进行监视,且数据的刷新周期与采集周期相同。
进一步地,所述步骤3)中,所述分析与评估模型包括系统硬件资源监测指标分析与评估递归模型和多级系统硬件资源监测指标分析与评估立方体模型。
进一步地,所述系统硬件资源监测指标分析与评估递归模型由低级的基础数据通过递归计算形成高级的分析与评估指标,包括配置数据、基础数据、监测指标、单个设备统计指标、系统资源统计指标和计算评估指标六个部分;分别为:
1)配置数据——系统所监测的各类设备的数量、设备类型、型号属性信息和各类设备监测指标的限值设置;
2)基础数据采集——包括CPU使用率、内存占用率和磁盘分区使用率,系统硬件资源监测指标是通过对基础数据的监测、分析和统计生成;
3)监测指标——通过配置数据中的指标限值,对基础采集数据进行监测的量,包括越限起止时间、满载起止时间和资源增长率;
4)单个设备统计指标——按日、月、年度对各个设备监测指标进行统计,包括各类监测指标的持续时间、次数、详细信息、越限率、满载率和增长率,并依据配置数据中的设备型号、类型和厂家属性从局部对系统硬件资源进行分类统计,生成针对性的统计数据;
5)系统资源统计指标——按日、月、年度对监测指标进行统计,包括各类监测指标的持续时间、次数、百分比、越限率、满载率和增长率;从整体对一个系统的硬件资源使用情况进行评估和分析,生成全局性的统计数据;
6)计算评估指标——按日、月、年度对统计指标进行数值分析,包括平均值、最大值、最小值、四分位百分比分布、时间堆积分布、按指标结果依据设备类型和持续时间进行计算,分别生成从局部和整体对系统硬件资源风险预测的基础数据。
9、如权利要求7所述的硬件资源分析与评估方法,其特征在于,所述多级系统硬件资源监测指标分析与评估立方体模型分别从A、Q和Y三个维度对系统硬件资源进行分析与评估,其中A表示从属于国、分、省三级调控中心不同地区的系统,Q表示某一种评估指标,Y表示时间,其中每个单位立方体表示某地区某时间段内评估指标的平均值。
进一步地,其特征在于,所述步骤4)中,包括系统硬件资源基本指标的定义和计算,系统硬件资源风险趋势分析,系统硬件资源监测指标聚类中心分析和硬件资源监测指标关联分析。
进一步地,所述系统硬件资源基本指标的定义和计算包括:
1)单个设备日越限率=单个设备日越限持续时间/24;
2)单系统某类设备日越限率=单系统某类设备日越限持续时间/24*某类设备个数;
3)全系统某类设备日越限率=全系统某类设备日越限持续时间/24*全系统某类设备个数;
4)全系统硬件资源日越限率=全系统硬件资源日越限持续时间/24*全系统监视设备个数;
5)单个设备月越限率=单个设备月越限持续时间/24*月度天数;
6)单系统某类设备月越限率=单系统某类设备月越限持续时间/24*月度天数*某类设备个数;
7)全系统某类设备月越限率=全系统某类设备月越限持续时间/24*月度天数*全系统某类设备个数;
8)全系统硬件资源月越限率=全系统硬件资源月越限持续时间/24*月度天数*全系统监视设备个数;
9)单个设备年越限率=单个设备各月越限率之和;
10)单系统某类设备年越限率=单系统某类设备各月越限率之和;
11)全系统某类设备年越限率=全系统某类设备各月越限率之和;
12)全系统硬件资源年越限率=全系统硬件资源各月越限率之和;
13)某类指标的月平均越限率=全年各月度某类指标计算值之和/12(月度数);
14)某类指标的日平均越限率=全年各日度某类指标计算值之和/365或366(年度天数);
15)单个设备资源使用的增长率=(t时刻单个设备资源使用率-m时刻单个设备资源使用率)/(t-m),其中t>m;
16)单个设备越限率百分比=单个设备越限率/该系统该类设备越限率*100%;
17)某系统某类设备越限率百分比=某系统某类设备越限率/该系统硬件资源越限率*100%;
18)全系统某类设备越限率百分比=全系统某类设备越限率/全系统硬件资源越限率*100%;
19)系统资源满载率百分比=系统资源满载次数/系统资源越限次数*100%;
20)系统资源满载率百分比=系统资源满载持续时间/系统资源越限持续时间*100%;
21)系统资源使用率四分位百分比分析:按0-100%进行四分位等分,计算每个区间中资源使用率的占比和分布;
单位时间都转化为小时计算。
进一步地,所述系统硬件资源风险趋势分析包括:
假定影响因素为x1,x2,…,xk,由回归分析得知:
Yt=β1x1+β2x2+…+βpxp+Z (4-1)
Yt=β1x1+β2x2+…+βpxp+Z (4-1)
其中:Y是评估指标的观测值,Yt表示第t个观测值,为预测对象,Z为误差,其中β0,β1,β2,...,βp P为一组不全为零的数,P是一个数域,Yt,Yt-1,...,Yt-p分别表示第t个观测值、第t-1个观测值,...,第t-p个观测值,作为预测对象Yt受到自身变化的影响,其规律由下式体现,
Yt=β1Yt-1+β2Yt-2+…+βpYt-p+Zt (4-2)
误差项在不同时期具有依存关系,由下式表示,
Zt=εt+α1εt-1+α2εt-2...+αqεt-q (4-3)
其中,εt,εt-1,...,εt-q表示单位向量,α1,α2,...,αq P为一组不全为零的数,P是一个数域,由此,获得评估指标的ARMA模型表达式:
Yt=β0+β1Yt-1+β2Yt-2+…+βpYt-p+εt+α1εt-1+α2εt-2…+αqεt-q (4-4)
通过对数据模型的计算,预测资源使用率的未来趋势,评估硬件资源使用情况的风险;
集中运维中心使用ARIMA模型对磁盘分区使用率越限持续时间进行时间序列分析,其步骤如下:
1>检查待计算指标的时间序列是否存在缺失值,若存在缺失值则用上一个时间间隔数据进行填充,上一个时间间隔数据不存在用下一个时间间隔数据;
2>利用自相关分析和偏相关分析方式分析时间序列的随机性、平稳性及季节性,选择时间序列分析模型进行计算(基本数学定义);
3>数据模型确定后对计算指标进行拟合(基本数学定义),根据拟合后的数据与时间的关系,形成时间序列分析图;
4>经过对时间序列拟合曲线形状的分析计算指标走势,并结合多种指标的数值分析结果说明系统资源使用情况存在的风险(如果观测量是故障率的话,拟合出来的结果就是风险评估的趋势结果)。
进一步地,所述系统硬件资源监测指标聚类中心分析使用划分法进行分析,即给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N;且K个分组满足下列条件:
<1>每一个分组至少包含一个数据纪录;
<2>每一个数据纪录属于且仅属于一个分组;
对于给定的K个分组,给出初始的分组方法,以后通过反复迭代改变分组,使得每一次改进之后的分组方案都较前一次好,包括下述步骤:
1>初始化:输入基因表达矩阵作为对象集X,输入指定聚类类数N,并在X中随机选取N个对象作为初始聚类中心;设定迭代终止条件;
2>进行迭代:根据相似度准则将数据对象分配到最接近的聚类中心,从而形成一类;初始化隶属度矩阵(隶属度属于模糊评价函数里的概念);
3>更新聚类中心;然后以每一类的平均向量作为新的聚类中心,重新分配数据对象;
4>反复执行第2>步和第3>步直至满足终止条件,终止条件包括设定最大循环次数或者聚类中心收敛误差容限;
5>评价标准:
假设有m个数据源,c个聚类中心,μc为第c个聚类中心,x(i)表示第i个数据对象,i表示从1开始,一直到m个,是计数单位,μ表示聚类中心;该公式的意思指的是将每个类中的数据与每个聚类中心做差的平方和使得J最小,意味着分割的效果最好;
系统硬件资源评估指标的聚类分析最终形成分布图,并得到评估指标和数值聚类中心。
进一步地,所述硬件资源监测指标关联分析包括:集中运维中心对系统硬件资源评估指标和系统的关键运行进程进行关联分析,并定义关联规则,使用Apriori算法进行关联分析的步骤如下:
1)对硬件资源评估指标和进程所属的应用类型(关于应用的分类,我们在之前的专利中有说明数据采集的应用类型,智能电网调度控制系统中有专门对应用类型的标准分类定义。可以查阅相关书籍或标准)进行分类;按照时间分别进行排序,在每个进程故障下记录同时刻资源评估指标,并求和;
2)将每个进程故障时的资源评估指标出现高频变化或异常情况的次数小于2次的进程进行减枝,去除掉偶然因素;
3)在余下的进程和资源评估指标对应表中去除掉其他进程故障时资源评估指标出现高频(高频是一个相对量,根据样本空间的大小可以自行定义。本发明中频次大于10%时,都认为具有高相关度)变化或异常的记录,避免由于其他进程异常影响当前关联分析结果;
4)计算剩下进程和资源评估指标对应表出现高频变化或异常时的频次,对频次低于10%的进行减枝,即去除不确定性,剩下的进程和资源评估指标对应表即认为具有强相关性,计算置信度。
与最接近的现有技术相比,本发明提供的技术方案具有的优异效果是:
1)在集中运维模式下规范了智能电网调度控制系统硬件资源的监测范围和指标类型,形成了系统硬件资源统一规范的评估标准,有利于同行业范围内标准化指标的对比。
2)采用分周期多方式的数据采集方法,减轻了在集中运维模式下各级智能电网调度控制系统数据传输的压力,采取方式轻便灵活,有利于对多级系统监测指标的个性化配置。
3)在集中运维模式下建立了智能电网调度控制系统硬件资源监测指标的分析与评估模型,明确了各类指标的构成和关系,实现了对单系统硬件资源和多级系统硬件资源进行分析、评估和对比,并为系统硬件资源指标的深度分析提供了基础数据。
4)在集中运维模式下提出了智能电网调度控制系统硬件资源分析与评估的数值分析方法,采用时间序列分析评估系统硬件资源风险趋势,采用聚类分析计算各类评估指标的数值分布中心,采用关联分析挖掘关键进程异常对系统资源使用率造成的潜在风险,并通过条件概率的计算从数值上表达两者的关联程度。
附图说明
图1是本发明提供的实时指标传输流程图;
图2是本发明提供的周期性指标传输流程图;
图3是本发明提供的多级系统硬件资源指标分析与评估立方体模型图;
图4是本发明提供的系统硬件资源使用率聚类分析示意图,其中图4(a)、4(b)分别为评估指标,图4(c)-4(f)的点为聚类分析后各类内部成员;
图5为本发明提供的基于集中运维的硬件资源分析与评估方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的组件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,本发明的这些实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。
依据本发明基于集中运维的智能电网调度控制系统硬件资源分析与评估方法,器流程图如图5所示,包括以下步骤:
1)定义系统硬件资源监测指标的类型,针对接入调度数据网中的所有应用服务器和重要工作站的磁盘空间使用率、CPU占用率以及内存使用率三种监测指标。为了减轻通信数据传输压力,进一步将监测指标按采集周期划分为实时指标和周期性统计指标,其中实时指标要求更新周期为3-5秒,周期性统计指标的更新周期为5或10分钟两种周期;
定义系统硬件资源指标类型:
集中运维中心对智能电网调度控制系统硬件资源使用情况进行监视,主要是针对接入调度数据网中的所有应用服务器和重要工作站的磁盘空间使用率、CPU占用率以及内存使用率三种监测指标。为了减轻通信数据传输压力,进一步将监测指标按采集周期划分为实时指标和周期性统计指标,其中实时指标要求更新周期为3-5秒,周期性统计指标的更新周期为5或10分钟两种周期。三类指标的具体定义如下所列:
CPU使用率——各系统内某个节点的CPU即时利用率。在数据点表中一条记录一个值,用遥测发送。
内存使用率——各系统内某个节点的内存即时利用率。在数据点表中一条记录一个值,用遥测发送。
磁盘空间使用率——各系统内某个节点的磁盘空间使用率,重点关心该节点的根目录和主用户目录的空间使用率。在数据点表中一条记录一个值,用遥测发送。
2)系统硬件资源指标的分周期采集方法,实时指标的通过接入调度数据网的前置采集服务器采用DL476协议的字符串数据块分别与各调控中心调度控制系统进行数据传输;周期性指标由文件服务客户端、指标采集客户端和指标汇总与分析客户端组成,通过scp或ftp文件服务将周期性指标按设定的周期加密传输给集中运维中心,集中运维中心通过解压、解密和解析程序将周期性指标直接存入历史数据库中。
2.1实时指标的采集:
实时指标的通过接入调度数据网的前置采集服务器采用DL476协议的字符串数据块分别与各调控中心调度控制系统进行数据传输,硬件资源监测指标的收集和传输包括各地系统数据的采集端、系统数据的接收端、通信传输协议的设定来实现智能电网调度控制系统硬件资源监测指标的集中采集。为了达到这一目标,需要集中运维中心具备各系统硬件资源监测指标的接收功能,省级及以上调控中心具备系统硬件资源监测指标的转发功能。
首先依据双方事先约定好的数据通信索引文件,从各地系统实时库中获取所需要的硬件资源监测指标传输给集中运维中心。集中运维中心数据接收程序与省级及以上调控中心采集系统建立TCP连接,接收各类数据,并存储到运维中心系统的实时库中。实时性指标的传输流程如图1所示:
1)首先创建TCP连接。
2)发送启动应用:DL476为A_ASSOCIATE。
3)收到启动确认:DL476为A_ASSOCIATE_ACK。
4)发送端即时扫描数据通信索引文件中的数据,如果有变化数据产生或者时间达到全数据周期的要求,则发送数据报文。
5)接收端对收到的数据报文进行确认。
6)若15秒内没有系统数据传输,发送端或接收端可以发送测试报文,对端给予确认。DL476为A_TEST(原因码区分测试和测试确认)。
7)发送端或接收端可以关闭连接,对端可以给予确认。DL476为A_ABORT表示断开,A_ABORT_ACK表示断开确认。
2.2周期性指标采集
周期性指标由文件服务客户端、指标采集客户端和指标汇总与分析客户端组成。指标采集客户端部署在被采集设备上,通过读历史库、运行测试程序、系统日志和操作系统信息等方式提取硬件资源监测指标,发送到指标汇总与分析客户端在调控中心本地对指标进行分类、统计、汇总和分析后,将处理好的指标压缩后发送给前置服务客户端后通过scp或ftp文件服务将周期性指标按设定的周期加密传输给集中运维中心,集中运维中心通过解压、解密和解析程序将周期性指标直接存入历史数据库中进行后期分析统计。周期性指标的传输流程如图2所示:
(1)某个时间点得到各节点服务器或工作站上的采集指标,采集周期从配置库中读取,将指标写入实时数据库中。
(2)历史采样程序将采集指标按采样周期写入历史库中存档。
(3)分析汇总程序将历史库中的采样数据读出,通过分析与评估程序对基础数据进行加工,后写入相应的历史指标库中,并形成分析与评估日志文件。
(4)调控中心的文件服务客户端按周期读取分析与评估日志文件,通过ftp或scp服务定时将加密文件传输到集中运维中心指定的文件服务客户端的指定目录下。
(5)集中运维中心将指定目录下的文件解压、解密后,将分析与评估的指标写入实时库中,通过人机界面进行监视,且数据的刷新周期与采集周期相同。
3)建立系统硬件资源监测指标的分析与评估模型,包括系统硬件资源监测指标分析与评估递归模型和多级系统硬件资源监测指标分析与评估立方体模型。
具体的:
3.1系统硬件资源监测指标分析与评估递归模型
系统资源监测指标分析与评估采用了递归模型,由低级的基础数据通过递归计算形成高级的分析与评估指标,其包括配置数据、基础数据、监测指标、单个设备统计指标、系统资源统计指标和计算评估指标六个部分,如下表1所示。
1)配置数据——系统所监测的各类设备的数量、设备类型、型号等属性信息和各类设备监测指标的限值设置。
2)基础数据采集——包括CPU使用率、内存占用率和磁盘分区使用率,系统硬件资源监测指标是通过对基础数据的监测、分析和统计生成。
3)监测指标——通过配置数据中的指标限值,对基础采集数据进行监测的量,包括越限起止时间、满载起止时间和资源增长率。
4)单个设备统计指标——按日、月、年度对各个设备监测指标进行统计,包括各类监测指标的持续时间、次数、详细信息、越限率、满载率、增长率,并依据配置数据中的设备型号、类型和厂家等属性从局部对系统硬件资源进行分类统计,生成针对性的统计数据。
5)系统资源统计指标——按日、月、年度对监测指标进行统计,包括各类监测指标的持续时间、次数、百分比、越限率、满载率、增长率。从整体对一个系统的硬件资源使用情况进行评估和分析,生成全局性的统计数据。
6)计算评估指标——按日、月、年度对统计指标进行数值分析,包括平均值、最大值、最小值、四分位百分比分布、时间堆积分布、按指标结果依据设备类型和持续时间进行计算,分别生成从局部和整体对系统硬件资源风险预测的基础数据。
表1系统硬件资源监测指标分析与评估递归模型表
3.2多级系统硬件资源监测指标分析与评估立方体模型
多级系统硬件资源监测指标分析与评估采用了立方体模型,如图3所示,分别从A、Q和Y三个维度对系统硬件资源进行分析与评估,其中A——表示从属于国、分、省三级调控中心不同地区的系统,Q——表示某一种评估指标,Y——表示时间。立方体模型能够对不同地区的系统通过时间轴的推移对不同的统计指标进行分析与对比,其中每个单位立方体表示某地区某时间段内该指标的平均值。
4)系统硬件资源分析与评估方法,包括系统硬件资源基本指标的定义和计算方法,系统硬件资源风险趋势分析方法,系统硬件资源监测指标聚类中心分析方法和硬件资源监测指标关联分析方法。
4.1基本指标的计算
单位时间都转化为小时计算。
1)单个设备日越限率=单个设备日越限持续时间/24
2)单系统某类设备日越限率=单系统某类设备日越限持续时间/24*某类设备个数
3)全系统某类设备日越限率=全系统某类设备日越限持续时间/24*全系统某类设备个数
4)全系统硬件资源日越限率=全系统硬件资源日越限持续时间/24*全系统监视设备个数
5)单个设备月越限率=单个设备月越限持续时间/24*月度天数
6)单系统某类设备月越限率=单系统某类设备月越限持续时间/24*月度天数*某类设备个数
7)全系统某类设备月越限率=全系统某类设备月越限持续时间/24*月度天数*全系统某类设备个数
8)全系统硬件资源月越限率=全系统硬件资源月越限持续时间/24*月度天数*全系统监视设备个数
9)单个设备年越限率=单个设备各月越限率之和
10)单系统某类设备年越限率=单系统某类设备各月越限率之和
11)全系统某类设备年越限率=全系统某类设备各月越限率之和
12)全系统硬件资源年越限率=全系统硬件资源各月越限率之和
13)某类指标的月平均越限率=全年各月度某类指标计算值之和/12(月度数)
14)某类指标的日平均越限率=全年各日度某类指标计算值之和/365或366(年度天数)
15)单个设备资源使用的增长率=(t时刻单个设备资源使用率-m时刻单个设备资源使用率)/(t-m),其中t>m
16)单个设备越限率百分比=单个设备越限率/该系统该类设备越限率*100%
17)某系统某类设备越限率百分比=某系统某类设备越限率/该系统硬件资源越限率*100%
18)全系统某类设备越限率百分比=全系统某类设备越限率/全系统硬件资源越限率*100%
19)系统资源满载率百分比=系统资源满载次数/系统资源越限次数*100%
20)系统资源满载率百分比=系统资源满载持续时间/系统资源越限持续时间*100%
21)系统资源使用率四分位百分比分析:按0-100%进行四分位等分,计算每个区间中资源使用率的占比和分布。
4.2风险趋势分析
智能电网调度控制系统硬件资源的风险趋势分析采用了时间序列分析法ARIMA模型,对评估指标的历史数据进行建模,将评估指标随时间推移而形成的数据序列看作是一个随机序列,这组随机变量所具有的依存关系体现着原始数据在时间上的延续性。一方面,受外界因素的影响,另一方面,又有自身变动规律,假定影响因素为x1,x2,…,xk,由回归分析,
Yt=β1x1+β2x2+…+βpxp+Z (4-1)
Yt=β1x1+β2x2+…+βpxp+Z (4-1)
其中:Y是评估指标的观测值,Yt表示第t个观测值,t是下标,Yt的意思是评估指标的观测值,为预测对象,Z为误差,其中β0,β1,β2,...,βp P为一组不全为零的数,P是一个数域,Yt,Yt-1,...,Yt-p分别表示第t个观测值、第t-1个观测值,...,第t-p个观测值,作为预测对象Yt受到自身变化的影响,其规律由下式体现,
Yt=β1Yt-1+β2Yt-2+…+βpYt-p+Zt (4-2)
误差项在不同时期具有依存关系,由下式表示,
Zt=εt+α1εt-1+α2εt-2...+αqεt-q (4-3)
其中,εt,εt-1,...,εt-q表示单位向量,α1,α2,...,αq P为一组不全为零的数,P是一个数域,由此,获得评估指标的ARMA模型表达式:
Yt=β0+β1Yt-1+β2Yt-2+…+βpYt-p+εt+α1εt-1+α2εt-2...+αqεt-q (4-4)
通过对数据模型的计算,预测资源使用率的未来趋势,评估硬件资源使用情况的风险。集中运维中心使用ARIMA模型对磁盘使用率越限持续时间进行时间序列分析的步骤如下:
1)检查待计算指标的时间序列是否存在缺失值,若存在缺失值则用上一个时间间隔(上一个时间间隔数据不存在用下一个时间间隔数据)数据进行填充。
2)利用自相关分析和偏相关分析等方法分析时间序列的随机性、平稳性及季节性,选择合理的时间序列分析模型进行计算。
3)数据模型确定后对计算指标进行拟合,根据拟合后的数据与时间的关系,形成时间序列分析图。
4)经过对时间序列拟合曲线形状的分析计算指标走势,并结合多种指标的数值分析结果说明系统资源使用情况存在的风险。
4.3聚类中心分析
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。系统硬件资源使用率的聚类分析主要使用划分法(partitioning methods)进行分析,即给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:
(1)每一个分组至少包含一个数据纪录;
(2)每一个数据纪录属于且仅属于一个分组;
对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。聚类算法的一般步骤:
1)初始化。输入基因表达矩阵作为对象集X,输入指定聚类类数N,并在X中随机选取N个对象作为初始聚类中心。设定迭代中止条件,比如最大循环次数或者聚类中心收敛误差容限。
2)进行迭代。根据相似度准则将数据对象分配到最接近的聚类中心,从而形成一类。初始化隶属度矩阵。
3)更新聚类中心。然后以每一类的平均向量作为新的聚类中心,重新分配数据对象。
4)反复执行第二步和第三步直至满足中止条件。
5)评价标准:
假设有M个数据源,C个聚类中心。μc为聚类中心。该公式的意思也就是将每个类中的数据与每个聚类中心做差的平方和,J最小,意味着分割的效果最好。
系统硬件资源评估指标的聚类分析最终形成分布图,并得到评估指标和数值聚类中心,如图4所示(其中(a)、(b)图中为评估指标,图(b)-(f)中的X为聚合点,图(c)-(f)的点为聚类分析后各类内部成员)。
4.4关联分析:
系统硬件资源评估指标的关联分析使用了Apriori算法,这是一种最有影响的挖掘布尔关联规则频繁项集的算法。算法使用频繁项集性质的先验知识,使用一种称作逐层搜索的迭代方法。首先,找出频繁1-项集的集合。该集合记作L1。L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k-项集。找每个Lκ需要一次数据扫描。具体的步骤包括连接步和剪枝步迭代进行。
连接步:为找Lκ,通过Lκ-1与自己连接产生候选k-项集的集合。该候选项集的集合记作Cκ。设L1和L2是Lκ-1中的项集。记号Li[j]表示Li的第j项(例如,L1[k-2]表示L1的倒数第3项)。为方便计,假定事务或项集中的项按字典次序排序。执行连接Lκ-1;其中,Lκ-1的元素是可连接的,如果它们前(k-2)个项相同;即,Lκ-1的元素L1和L2是可连接的,如果(L1[1]=L2[1])∧(L1[2]=L2[2])∧…∧(L1[k-2]=L2[k-2])∧(L1[k-1]<L2[k-1])。条件(L1[k-1]<L2[k-1])是简单地保证不产生重复。连接L1和L2产生的结果项集是L1[1],L1[2]…L1[k-1],L2[k-1]。
剪枝步:Cκ是Lκ的超集;即,它的成员可以是,也可以不是频繁的,但所有的频繁k-项集都包含在Cκ中。扫描数据库,确定Cκ中每个候选的计数,从而确定Lκ(即,根据定义,计数值不小于最小支持度计数的所有候选是频繁的,从而属于Lκ)。然而,Cκ可能很大,这样所涉及的计算量就很大。为压缩Cκ,用以下办法使用Apriori性质:任何非频繁的(k-1)-项集都不是可能是频繁k-项集的子集。因此,如果一个候选k-项集的(k-1)-子集不在Lκ-1中,则该候选也不可能是频繁的,从而可以由Cκ中删除。这种子集测试可以使用所有频繁项集的散列树快速完成。
集中运维中心对系统硬件资源评估指标和系统的关键运行进程进行了关联分析,并定义关联规则,使用Apriori算法进行关联分析的步骤如下:
1)对硬件资源评估指标和进程进行分类;按照时间分别进行排序,在每个进程故障下记录同时刻资源评估指标,并求和。
2)将每个进程故障时的资源评估指标出现高频变化或异常情况的次数小于2次的进程进行减枝,去除掉偶然因素。
3)在余下的进程和资源评估指标对应表中去除掉其他进程故障时资源评估指标也出现高频变化或异常的记录,避免由于其他进程异常影响当前关联分析结果。
4)计算剩下进程和资源评估指标对应表出现高频变化或异常时的频次,对频次低于10%的进行减枝,即去除不确定性,剩下的进程和资源评估指标对应表即认为具有强相关性,计算置信度。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。
Claims (14)
1.一种基于集中运维的硬件资源分析与评估方法,其特征在于,所述方法包括下述步骤:
1)定义系统硬件资源监测指标的类型;
2)系统硬件资源指标的分周期采集;
3)建立系统硬件资源监测指标的分析与评估模型;
4)系统硬件资源分析与评估。
2.如权利要求1所述的硬件资源分析与评估方法,其特征在于,所述步骤1)中,硬件资源监测指标包括接入调度数据网中的所有应用服务器和重要工作站的磁盘空间使用率、CPU占用率以及内存使用率三种监测指标;或监测指标按采集周期划分为实时指标和周期性统计指标,其中实时指标要求更新周期为3-5秒,周期性统计指标的更新周期为5或10分钟两种周期。
3.如权利要求2所述的硬件资源分析与评估方法,其特征在于,所述三种监测指标中,
CPU占用率——调度数据网内某个节点的CPU即时利用率,在数据点表中一条记录一个值,用遥测发送;
内存使用率——各系统内某个节点的内存即时利用率;在数据点表中一条记录一个值,用遥测发送;
磁盘空间使用率——各系统内某个节点的磁盘空间使用率,该节点的根目录和主用户目录的空间使用率;在数据点表中一条记录一个值,用遥测发送。
4.如权利要求1所述的硬件资源分析与评估方法,其特征在于,所述步骤2)包括下述步骤:
步骤2.1实时指标的采集;
步骤2.2周期性统计指标采集。
5.如权利要求4所述的硬件资源分析与评估方法,其特征在于,所述步骤2.1实时指标的采集包括:实时指标的通过接入调度数据网的前置采集服务器,采用DL476协议的字符串数据块分别与各调控中心调度控制系统进行数据传输,硬件资源监测指标的收集和传输包括各地系统数据的发送端、系统数据的接收端、通信传输协议的设定来实现智能电网调度控制系统硬件资源监测指标的集中采集;依据系统数据发送端和接收端双方事先约定好的数据通信索引文件,从各地系统实时数据库中获取所需要的硬件资源监测指标传输给集中运维中心;集中运维中心数据接收程序与省级及以上调控中心采集系统建立TCP连接,接收各类数据,并存储到运维中心系统的实时数据库中;步骤如下:
(1)首先创建TCP连接;
(2)发送启动应用:DL476为A_ASSOCIATE;
(3)收到启动确认:DL476为A_ASSOCIATE_ACK;
(4)发送端即时扫描数据通信索引文件中的数据,如果有变化数据产生或者时间达到全数据周期的要求,则发送数据报文;
(5)接收端对收到的数据报文进行确认;
(6)若15秒内没有数据传输,发送端或接收端发送测试报文,对端给予确认;DL476为A_TEST;
(7)发送端或接收端关闭连接,对端给予确认;DL476为A_ABORT表示断开,A_ABORT_ACK表示断开确认。
6.如权利要求4所述的硬件资源分析与评估方法,其特征在于,所述步骤2.2中,周期性统计指标由文件服务客户端、指标采集客户端和指标汇总与分析客户端组成;周期性统计指标由文件服务客户端、指标采集客户端和指标汇总与分析客户端组成,通过scp或ftp文件服务将周期性指标按设定的周期加密传输给集中运维中心,集中运维中心通过解压、解密和解析程序将周期性指标直接存入历史数据库中;所述步骤2.2包括下述步骤:
1)某个时间点得到各节点服务器或工作站上的采集指标,采集周期从配置库中读取,将指标写入实时数据库中;
2)历史采样程序将采集指标按采样周期写入历史库中存档;
3)分析汇总程序将历史库中的采样数据读出,通过分析与评估程序对基础数据进行加工,后写入相应的历史指标库中,并形成分析与评估日志文件;
4)调控中心的文件服务客户端按周期读取分析与评估日志文件,通过ftp或scp服务定时将加密文件传输到集中运维中心指定的文件服务客户端的指定目录下;
5)集中运维中心将指定目录下的文件解压、解密后,将分析与评估的指标写入实时库中,通过人机界面进行监视,且数据的刷新周期与采集周期相同。
7.如权利要求1所述的硬件资源分析与评估方法,其特征在于,所述步骤3)中,所述分析与评估模型包括系统硬件资源监测指标分析与评估递归模型和多级系统硬件资源监测指标分析与评估立方体模型。
8.如权利要求7所述的硬件资源分析与评估方法,其特征在于,所述系统硬件资源监测指标分析与评估递归模型由低级的基础数据通过递归计算形成高级的分析与评估指标,包括配置数据、基础数据、监测指标、单个设备统计指标、系统资源统计指标和计算评估指标六个部分;分别为:
1)配置数据——系统所监测的各类设备的数量、设备类型、型号属性信息和各类设备监测指标的限值设置;
2)基础数据采集——包括CPU使用率、内存占用率和磁盘分区使用率,系统硬件资源监测指标是通过对基础数据的监测、分析和统计生成;
3)监测指标——通过配置数据中的指标限值,对基础采集数据进行监测的量,包括越限起止时间、满载起止时间和资源增长率;
4)单个设备统计指标——按日、月、年度对各个设备监测指标进行统计,包括各类监测指标的持续时间、次数、详细信息、越限率、满载率和增长率,并依据配置数据中的设备型号、类型和厂家属性从局部对系统硬件资源进行分类统计,生成针对性的统计数据;
5)系统资源统计指标——按日、月、年度对监测指标进行统计,包括各类监测指标的持续时间、次数、百分比、越限率、满载率和增长率;从整体对一个系统的硬件资源使用情况进行评估和分析,生成全局性的统计数据;
6)计算评估指标——按日、月、年度对统计指标进行数值分析,包括平均值、最大值、最小值、四分位百分比分布、时间堆积分布、按指标结果依据设备类型和持续时间进行计算,分别生成从局部和整体对系统硬件资源风险预测的基础数据。
9.如权利要求7所述的硬件资源分析与评估方法,其特征在于,所述多级系统硬件资源监测指标分析与评估立方体模型分别从A、Q和Y三个维度对系统硬件资源进行分析与评估,其中A表示从属于国、分、省三级调控中心不同地区的系统,Q表示某一种评估指标,Y表示时间,其中每个单位立方体表示某地区某时间段内评估指标的平均值。
10.如权利要求1所述的硬件资源分析与评估方法,其特征在于,所述步骤4)中,包括系统硬件资源基本指标的定义和计算,系统硬件资源风险趋势分析,系统硬件资源监测指标聚类中心分析和硬件资源监测指标关联分析。
11.如权利要求10所述的硬件资源分析与评估方法,其特征在于,所述系统硬件资源基本指标的定义和计算包括:
1)单个设备日越限率=单个设备日越限持续时间/24;
2)单系统某类设备日越限率=单系统某类设备日越限持续时间/24*某类设备个数;
3)全系统某类设备日越限率=全系统某类设备日越限持续时间/24*全系统某类设备个数;
4)全系统硬件资源日越限率=全系统硬件资源日越限持续时间/24*全系统监视设备个数;
5)单个设备月越限率=单个设备月越限持续时间/24*月度天数;
6)单系统某类设备月越限率=单系统某类设备月越限持续时间/24*月度天数*某类设备个数;
7)全系统某类设备月越限率=全系统某类设备月越限持续时间/24*月度天数*全系统某类设备个数;
8)全系统硬件资源月越限率=全系统硬件资源月越限持续时间/24*月度天数*全系统监视设备个数;
9)单个设备年越限率=单个设备各月越限率之和;
10)单系统某类设备年越限率=单系统某类设备各月越限率之和;
11)全系统某类设备年越限率=全系统某类设备各月越限率之和;
12)全系统硬件资源年越限率=全系统硬件资源各月越限率之和;
13)某类指标的月平均越限率=全年各月度某类指标计算值之和/12(月度数);
14)某类指标的日平均越限率=全年各日度某类指标计算值之和/365或366(年度天数);
15)单个设备资源使用的增长率=(t时刻单个设备资源使用率-m时刻单个设备资源使用率)/(t-m),其中t>m;
16)单个设备越限率百分比=单个设备越限率/该系统该类设备越限率*100%;
17)某系统某类设备越限率百分比=某系统某类设备越限率/该系统硬件资源越限率*100%;
18)全系统某类设备越限率百分比=全系统某类设备越限率/全系统硬件资源越限率*100%;
19)系统资源满载率百分比=系统资源满载次数/系统资源越限次数*100%;
20)系统资源满载率百分比=系统资源满载持续时间/系统资源越限持续时间*100%;
21)系统资源使用率四分位百分比分析:按0-100%进行四分位等分,计算每个区间中资源使用率的占比和分布;
单位时间都转化为小时计算。
12.如权利要求10所述的硬件资源分析与评估方法,其特征在于,所述系统硬件资源风险趋势分析包括:
假定影响因素为x1,x2,…,xk,由回归分析得知:
Yt=β1x1+β2x2+…+βpxp+Z (4-1)
其中:Y是评估指标的观测值,Yt表示第t个观测值,为预测对象,Z为误差,其中 为一组不全为零的数,P是一个数域,Yt,Yt-1,...,Yt-p分别表示第t个观测值、第t-1个观测值,...,第t-p个观测值,作为预测对象Yt受到自身变化的影响,其规律由下式体现,
Yt=β1Yt-1+β2Yt-2+…+βpYt-p+Zt (4-2)
误差项在不同时期具有依存关系,由下式表示,
Zt=εt+α1εt-1+α2εt-2…+αqεt-q (4-3)
其中,εt,εt-1,...,εt-q表示单位向量,为一组不全为零的数,P是一个数域,由此,获得评估指标的ARMA模型表达式:
Yt=β0+β1Yt-1+β2Yt-2+…+βpYt-p+εt+α1εt-1+α2εt-2…+αqεt-q (4-4)
通过对数据模型的计算,预测资源使用率的未来趋势,评估硬件资源使用情况的风险;
集中运维中心使用ARIMA模型对磁盘分区使用率越限持续时间进行时间序列分析,其步骤如下:
1>检查待计算指标的时间序列是否存在缺失值,若存在缺失值则用上一个时间间隔数据进行填充,上一个时间间隔数据不存在用下一个时间间隔数据;
2>利用自相关分析和偏相关分析方式分析时间序列的随机性、平稳性及季节性,选择时间序列分析模型进行计算;
3>数据模型确定后对计算指标进行拟合,根据拟合后的数据与时间的关系,形成时间序列分析图;
4>经过对时间序列拟合曲线形状的分析计算指标走势,并结合多种指标的数值分析结果说明系统资源使用情况存在的风险。
13.如权利要求10所述的硬件资源分析与评估方法,其特征在于,所述系统硬件资源监测指标聚类中心分析使用划分法进行分析,即给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N;且K个分组满足下列条件:
<1>每一个分组至少包含一个数据纪录;
<2>每一个数据纪录属于且仅属于一个分组;
对于给定的K个分组,给出初始的分组方法,以后通过反复迭代改变分组,使得每一次改进之后的分组方案都较前一次好,包括下述步骤:
1>初始化:输入基因表达矩阵作为对象集X,输入指定聚类类数N,并在X中随机选取N个对象作为初始聚类中心;设定迭代终止条件;
2>进行迭代:根据相似度准则将数据对象分配到最接近的聚类中心,从而形成一类;初始化隶属度矩阵;
3>更新聚类中心;然后以每一类的平均向量作为新的聚类中心,重新分配数据对象;
4>反复执行第2>步和第3>步直至满足终止条件,终止条件包括设定最大循环次数或者聚类中心收敛误差容限;
5>评价标准:
<mrow>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>c</mi>
<mo>,</mo>
<mi>&mu;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<mo>|</mo>
<mo>|</mo>
<msup>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>-</mo>
<msub>
<mi>&mu;</mi>
<mi>c</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
<mo>|</mo>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>-</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
假设有m个数据源,c个聚类中心,μc为第c个聚类中心,x(i)表示第i个数据对象,i表示从1开始,一直到m个,是计数单位,μ表示聚类中心;该公式的意思指的是将每个类中的数据与每个聚类中心做差的平方和使得J最小,意味着分割的效果最好;
系统硬件资源评估指标的聚类分析最终形成分布图,并得到评估指标和数值聚类中心。
14.如权利要求10所述的硬件资源分析与评估方法,其特征在于,所述硬件资源监测指标关联分析包括:集中运维中心对系统硬件资源评估指标和系统的关键运行进程进行关联分析,并定义关联规则,使用Apriori算法进行关联分析的步骤如下:
1)对硬件资源评估指标和进程所属的应用类型进行分类;按照时间分别进行排序,在每个进程故障下记录同时刻资源评估指标,并求和;
2)将每个进程故障时的资源评估指标出现高频变化或异常情况的次数小于2次的进程进行减枝,去除掉偶然因素;
3)在余下的进程和资源评估指标对应表中去除掉其他进程故障时资源评估指标出现高频变化或异常的记录,避免由于其他进程异常影响当前关联分析结果;
4)计算剩下进程和资源评估指标对应表出现高频变化或异常时的频次,对频次低于10%的进行减枝,即去除不确定性,剩下的进程和资源评估指标对应表即认为具有强相关性,计算置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610989588.7A CN108074022A (zh) | 2016-11-10 | 2016-11-10 | 一种基于集中运维的硬件资源分析与评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610989588.7A CN108074022A (zh) | 2016-11-10 | 2016-11-10 | 一种基于集中运维的硬件资源分析与评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108074022A true CN108074022A (zh) | 2018-05-25 |
Family
ID=62154559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610989588.7A Pending CN108074022A (zh) | 2016-11-10 | 2016-11-10 | 一种基于集中运维的硬件资源分析与评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108074022A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108696530A (zh) * | 2018-06-01 | 2018-10-23 | 北京中海闻达信息技术有限公司 | 一种在线加密数据安全评估方法和装置 |
CN109408347A (zh) * | 2018-09-28 | 2019-03-01 | 北京九章云极科技有限公司 | 一种指标实时分析系统及指标实时计算方法 |
CN109460344A (zh) * | 2018-09-26 | 2019-03-12 | 国家计算机网络与信息安全管理中心 | 一种服务器的运维分析方法与系统 |
CN109656790A (zh) * | 2018-10-29 | 2019-04-19 | 平安科技(深圳)有限公司 | 系统提示控制方法、装置、计算机及计算机可读存储介质 |
CN110275773A (zh) * | 2018-10-30 | 2019-09-24 | 湖北省农村信用社联合社网络信息中心 | 基于真实数据模型拟合的Paas资源循环利用指标系统 |
CN113610409A (zh) * | 2021-08-12 | 2021-11-05 | 北京中电普华信息技术有限公司 | 一种电费回收风险预警方法及装置 |
CN114070707A (zh) * | 2020-11-10 | 2022-02-18 | 北京市天元网络技术股份有限公司 | 一种互联网性能监控方法及系统 |
CN115147008A (zh) * | 2022-08-02 | 2022-10-04 | 中国神华能源股份有限公司 | 基于数据湖技术电厂机组存储资源实时评估方法及系统 |
CN115373507A (zh) * | 2022-10-26 | 2022-11-22 | 北京品立科技有限责任公司 | 一种基于电能损耗的整机资源均衡管理方法及系统 |
CN116744321A (zh) * | 2023-08-11 | 2023-09-12 | 中维建技术有限公司 | 一种用于5g通信智能运维一体化平台的数据调控方法 |
CN117688464A (zh) * | 2024-02-04 | 2024-03-12 | 国网上海市电力公司 | 一种基于多源传感器数据的隐患分析方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013201874A (ja) * | 2012-03-26 | 2013-10-03 | Toshiba Corp | 電力系統の需給制御方法およびそのシステム |
CN103401699A (zh) * | 2013-07-18 | 2013-11-20 | 深圳先进技术研究院 | 一种云数据中心安全监控预警系统及方法 |
CN105184886A (zh) * | 2015-09-01 | 2015-12-23 | 浪潮集团有限公司 | 一种云数据中心智能巡检系统及方法 |
CN105515820A (zh) * | 2015-09-25 | 2016-04-20 | 上海北塔软件股份有限公司 | 一种用于运维管理的健康分析方法 |
CN105681298A (zh) * | 2016-01-13 | 2016-06-15 | 成都安信共创检测技术有限公司 | 公共信息平台中的数据安全异常监测方法及系统 |
CN105868876A (zh) * | 2015-01-21 | 2016-08-17 | 国家电网公司 | 一种基于过程监视的集中运维故障闭环处理方法 |
CN106022477A (zh) * | 2016-05-18 | 2016-10-12 | 国网信通亿力科技有限责任公司 | 智能分析决策系统及方法 |
-
2016
- 2016-11-10 CN CN201610989588.7A patent/CN108074022A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013201874A (ja) * | 2012-03-26 | 2013-10-03 | Toshiba Corp | 電力系統の需給制御方法およびそのシステム |
CN103401699A (zh) * | 2013-07-18 | 2013-11-20 | 深圳先进技术研究院 | 一种云数据中心安全监控预警系统及方法 |
CN105868876A (zh) * | 2015-01-21 | 2016-08-17 | 国家电网公司 | 一种基于过程监视的集中运维故障闭环处理方法 |
CN105184886A (zh) * | 2015-09-01 | 2015-12-23 | 浪潮集团有限公司 | 一种云数据中心智能巡检系统及方法 |
CN105515820A (zh) * | 2015-09-25 | 2016-04-20 | 上海北塔软件股份有限公司 | 一种用于运维管理的健康分析方法 |
CN105681298A (zh) * | 2016-01-13 | 2016-06-15 | 成都安信共创检测技术有限公司 | 公共信息平台中的数据安全异常监测方法及系统 |
CN106022477A (zh) * | 2016-05-18 | 2016-10-12 | 国网信通亿力科技有限责任公司 | 智能分析决策系统及方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108696530A (zh) * | 2018-06-01 | 2018-10-23 | 北京中海闻达信息技术有限公司 | 一种在线加密数据安全评估方法和装置 |
CN109460344B (zh) * | 2018-09-26 | 2023-04-28 | 国家计算机网络与信息安全管理中心 | 一种服务器的运维分析方法与系统 |
CN109460344A (zh) * | 2018-09-26 | 2019-03-12 | 国家计算机网络与信息安全管理中心 | 一种服务器的运维分析方法与系统 |
CN109408347A (zh) * | 2018-09-28 | 2019-03-01 | 北京九章云极科技有限公司 | 一种指标实时分析系统及指标实时计算方法 |
CN109656790A (zh) * | 2018-10-29 | 2019-04-19 | 平安科技(深圳)有限公司 | 系统提示控制方法、装置、计算机及计算机可读存储介质 |
CN110275773A (zh) * | 2018-10-30 | 2019-09-24 | 湖北省农村信用社联合社网络信息中心 | 基于真实数据模型拟合的Paas资源循环利用指标系统 |
CN110275773B (zh) * | 2018-10-30 | 2020-08-28 | 湖北省农村信用社联合社网络信息中心 | 基于真实数据模型拟合的Paas资源循环利用指标系统 |
CN114070707A (zh) * | 2020-11-10 | 2022-02-18 | 北京市天元网络技术股份有限公司 | 一种互联网性能监控方法及系统 |
CN113610409A (zh) * | 2021-08-12 | 2021-11-05 | 北京中电普华信息技术有限公司 | 一种电费回收风险预警方法及装置 |
CN115147008A (zh) * | 2022-08-02 | 2022-10-04 | 中国神华能源股份有限公司 | 基于数据湖技术电厂机组存储资源实时评估方法及系统 |
CN115373507B (zh) * | 2022-10-26 | 2023-01-06 | 北京品立科技有限责任公司 | 一种基于电能损耗的整机资源均衡管理方法及系统 |
CN115373507A (zh) * | 2022-10-26 | 2022-11-22 | 北京品立科技有限责任公司 | 一种基于电能损耗的整机资源均衡管理方法及系统 |
CN116744321A (zh) * | 2023-08-11 | 2023-09-12 | 中维建技术有限公司 | 一种用于5g通信智能运维一体化平台的数据调控方法 |
CN116744321B (zh) * | 2023-08-11 | 2023-11-14 | 中维建技术有限公司 | 一种用于5g通信智能运维一体化平台的数据调控方法 |
CN117688464A (zh) * | 2024-02-04 | 2024-03-12 | 国网上海市电力公司 | 一种基于多源传感器数据的隐患分析方法及系统 |
CN117688464B (zh) * | 2024-02-04 | 2024-04-19 | 国网上海市电力公司 | 一种基于多源传感器数据的隐患分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108074022A (zh) | 一种基于集中运维的硬件资源分析与评估方法 | |
Bahga et al. | Analyzing massive machine maintenance data in a computing cloud | |
CN103176974B (zh) | 优化数据库中访问路径的方法和装置 | |
CN111027615B (zh) | 基于机器学习的中间件故障预警方法和系统 | |
CN102130783A (zh) | 神经网络的智能化告警监控方法 | |
CN109753591A (zh) | 业务流程预测性监控方法 | |
CN112785108A (zh) | 一种基于调控云的电网运行数据关联分析方法及系统 | |
CN112445844B (zh) | 大数据平台财务数据管理控制系统 | |
Ishii et al. | An online data access prediction and optimization approach for distributed systems | |
Vazhkudai et al. | GUIDE: a scalable information directory service to collect, federate, and analyze logs for operational insights into a leadership HPC facility | |
CN115544519A (zh) | 对计量自动化系统威胁情报进行安全性关联分析的方法 | |
CN112487053B (zh) | 海量财务数据异常控制提取工作方法 | |
CN113689079A (zh) | 基于多元线性回归和聚类分析的台区线损预测方法及系统 | |
Rost et al. | Evolution of Degree Metrics in Large Temporal Graphs | |
CN110888850B (zh) | 一种基于电力物联网平台的数据质量检测方法 | |
Lin et al. | Using Computing Intelligence Techniques to Estimate Software Effort | |
CN112463853B (zh) | 通过云平台进行财务数据行为筛选工作方法 | |
Lazar et al. | Predicting network traffic using TCP anomalies | |
De Fazio et al. | CaseID Detection for Process Mining: A Heuristic-Based Methodology | |
Khan et al. | Predictive process monitoring using a Markov model technique | |
CN117555888B (zh) | 一种基于ap聚类算法的终端历史数据维护方法 | |
CN117667585B (zh) | 一种基于运维质量管理数据库的运维效率评估方法及系统 | |
CN113890018B (zh) | 一种基于数据关联分析的配电网薄弱点辨识方法 | |
Valletta | CaseID Detection for Process Mining: A Heuristic-Based Methodology | |
Wei et al. | A Method of Abnormal Measurement Screening for Special Transformer Users Based on Correlation Measurement Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100192 Beijing city Haidian District Qinghe small Camp Road No. 15 Applicant after: CHINA ELECTRIC POWER RESEARCH INSTITUTE Co.,Ltd. Applicant after: STATE GRID CORPORATION OF CHINA Address before: 100192 Beijing city Haidian District Qinghe small Camp Road No. 15 Applicant before: China Electric Power Research Institute Applicant before: State Grid Corporation of China |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180525 |