CN110865924B - 电力信息系统内部服务器健康度诊断方法与健康诊断框架 - Google Patents

电力信息系统内部服务器健康度诊断方法与健康诊断框架 Download PDF

Info

Publication number
CN110865924B
CN110865924B CN201911205455.6A CN201911205455A CN110865924B CN 110865924 B CN110865924 B CN 110865924B CN 201911205455 A CN201911205455 A CN 201911205455A CN 110865924 B CN110865924 B CN 110865924B
Authority
CN
China
Prior art keywords
server
health
matrix
health degree
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911205455.6A
Other languages
English (en)
Other versions
CN110865924A (zh
Inventor
王电钢
黄林
毛启均
黄昆
潘可佳
李嘉周
杨洁
田园
许珂
杨旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Sichuan Electric Power Co Ltd
Original Assignee
State Grid Sichuan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Sichuan Electric Power Co Ltd filed Critical State Grid Sichuan Electric Power Co Ltd
Priority to CN201911205455.6A priority Critical patent/CN110865924B/zh
Publication of CN110865924A publication Critical patent/CN110865924A/zh
Application granted granted Critical
Publication of CN110865924B publication Critical patent/CN110865924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明公开了电力信息系统内部服务器健康度诊断方法与健康诊断框架,解决了需人为判断设备的重要性和不同设备的重要程度,定性分析和定量分析工作量大,主观因素占重大,结果不可靠;未考虑设备性能发生改变导致健康模型不准确的问题。本发明包括电力信息系统内部服务器实时与历史健康度的诊断方法与健康诊断框架。本发明实时查询模型的漂移情况仅需专家确认调整少量发生告警时刻的健康度评分,极大减少专家定性分析的工作量,从而使系统的健康结果更稳定可靠,精准提示运维人员检查设备,减少损失。

Description

电力信息系统内部服务器健康度诊断方法与健康诊断框架
技术领域
本发明涉及信息系统运维评估领域,具体涉及电力信息系统内部服务器健康度诊断方法与健康诊断框架。
背景技术
随着信息技术的不断发展和进步,不少电网公司在对业务工作支撑力不断提升和主营业务大幅度融合的同时,也使得各信息系统的规模急剧膨胀,系统运行逐渐呈现出基础设施齐备、采集信息量大、应用广泛等特点。面对越发复杂的系统和爆炸式增长的数据,传统被动式运维手段(等待故障发生后检修)难以适应当前电力信息系统高速发展的要求。因此,各地区电网公司提出了众多健康诊断方法,但其重点关注的是诊断电力设备(配电网设备等)的健康度,而忽略了电力信息系统内部服务器的健康度诊断。相对配电网设备,电力信息系统内部服务器也同样重要,其发生故障同样会导致电力系统发生异常。此时,迫切需要一种适用于电力信息系统内部服务器的有效的健康诊断技术,用于及时发现电力信息系统中发生的问题,减少系统异常造成的损失。
在面对电力设备的健康度诊断方面,申请号201310548163.9、名称为“一种考虑地区差异化的配电网健康度自诊断方法”的专利公开了一种针对配电网健康度的诊断方法,其使用AHP健康诊断方法,分析各区域两两间的重要程度,设置指标评分公式,对系统的健康度进行评分。
申请号为201610885310.5、名称为“一种计及可信度评价的配网设备健康度动态诊断方法”的专利公开了一种针对配电网的动态健康度诊断方法。该发明专利公开的方法第一步分析故障设备与正常设备的相关性,确定重要设备状态变量;第二步对提取的重要设备状态变量进行预处理;第三步对状态变量进行打分,并根据建立的评语集和对应的其隶属函数评估系统的健康状态,其与申请号为201310548163.9的专利的差异在于数据预处理的方法、隶属函数的定义和提出了动态参数修正的方法。
申请号201410485849.2、名称为“一种配电网健康指数的评估方法”,其对具有非线性模式分类性能和具有很强的自组织、自学习能力特点的采用人工神经网络进行分析;对具有表达直观、形式统一、模块性强和推理机制简单特点的采用层次分析法和专家系统进行分析,并引用众多统计学、机器学习方法求解健康度。
上述方法需专家凭借经验判断设备与设备哪个更重要,重要多少,当面对海量类型的设备时,定性分析和定量分析工作量大,主观因素占重大,导致结果不可靠;未考虑健康模型不准确的原因可能是设备性能发生改变,此时需要提示运维人员检查设备;难以应用到电力信息系统。
发明内容
本发明所要解决的技术问题是:需人为判断设备的重要性和不同设备的重要程度,定性分析和定量分析工作量大,主观因素占重大,结果不可靠;未考虑设备性能发生改变导致健康模型不准确。本发明提供了解决上述问题的一种电力信息系统内部服务器实时健康度诊断方法。
本发明通过下述技术方案实现:
综合数据预处理技术、粒子群算法、层次分析法等技术的一种健康诊断分析方法。
一种电力信息系统内部服务器实时健康度诊断方法,包括以下步骤:
为了建立适用于电力信息系统的健康诊断模型,本发明结合电力信息系统的特征和实际运维需求,对AHP健康诊断方法进行改进,传统AHP算法需要根据专家经验设置判断矩阵,进而计算系统的健康度。判断矩阵表示形式如下所示:
Figure BDA0002296828450000021
其中Ai表示类型i的服务器的判断矩阵,其中ajk表示服务器采集的第j个指标相对第k个指标的重要程度。
如果需为每台服务器建立判断矩阵,需要专家定性的分析服务器中每两个指标间的关系。但是系统中包含成百上千台服务器,每台服务器在性能和应用场景等方面具有一定差异,无法像电力设备那样设置相同的特征矩阵。另一方面,采集的指标大部分为主机的CPU使用率、内存使用率、网络流量等性能指标,难以定性分析哪个指标比哪个指标重要。而且如果知道哪个指标对系统的健康度影响更大时,可以有目的的升级其对应的硬件设备,提高系统的健康度。所以,查找适宜的特征矩阵成为电力信息系统健康诊断的一个重点和难点。
对上述问题,本发明的基本思路是以历史告警数据为参考依据,来查找每台服务器最优的判断矩阵,从而诊断系统的健康度,其中应用了粒子群算法和神经网络中的激活函数。
传统AHP算法仅考虑判断矩阵的最大特征值对应的特征向量,此处考虑判断矩阵前n个特征值对应的特征向量,增加准确度。
本发明增加激活函数,弥补AHP算法仅能查找指标与健康度之间的非线性关系的缺陷。
S1:服务器历史信息采集:基于电力信息系统的数据采集和监控系统,收集现有的电力信息系统中的服务器各指标数据(CPU使用率、内存使用率、网络出入流量、磁盘使用率、系统持续运行时间等)及告警数据(CPU平均使用率告警、内存使用率告警、访问状态告警、PING检测状态告警等)。
S2:数据预处理:对服务器各指标数据进行数据预处理得到预处理后的服务器各指标数据;
S3:健康模型的建立:以所述S2中得到的预处理后的服务器各指标数据为参考依据,构建健康诊断计算框架步骤如下:
S301:为每台服务器建立随机初始判断矩阵及随机初始速度矩阵,建立方式如下:
当类型为i的服务器采集了Ci个指标,则为其建立判断矩阵的维度为[Ci,Ci],如下所示:
Figure BDA0002296828450000031
其中Ai表示类型i的服务器的判断矩阵,判断矩阵的初始化方式为以随机数[0,1]进行填充,但需使其满足矩阵对称位置元素的和为1,即以满足ajk+akj=1的随机数填充判断矩阵;
Ai建立完成后,进行一致性检验,一致性检验方法与AHP算法一致,如未通过一致性检验,则重新生成判断矩阵,直至为每台服务器生成M个判断矩阵;
以与判断矩阵相同的维度[Ci,Ci],为每个判断矩阵建立初始速度矩阵,以更新判断矩阵,速度矩阵建立如下:
Figure BDA0002296828450000032
Si表示类型i的服务器的速度矩阵,其中sjk表示ajk的运动速度,随机初始速度矩阵以随机数[0,max_speed]填充,max_speed表示设置的最大运动速度;
S302:以S301为服务器设置判断矩阵相同的方式,为整个系统建立初始随机初始判断矩阵SA及初始速度矩阵SS,其维度为系统中包含的主机台数;
S303:计算每台服务器的每个判断矩阵的特征向量,取从大到小排序的前n个特征值对应n个特征向量Vi1,Vi2,…,Vin;
其中Vij表示服务器i判断矩阵Ai的第j个特征向量;
计算整个系统的判断矩阵的特征向量,取从大到小排序的前n个特征值对应n个特征向量SVi1,SVi2,…,SVin
S304:计算每一服务器的健康度,计算方式如下:
给定任一服务器i,其采集的Ci个指标组成的向量KPIi为[kpi1,kpi2,…,kpiCi],其特征矩阵对应的健康度计算公式如下:
host_scorei,j=KPIi*Vij T (3)
其中host_scorei,j表示服务器i的第j个特征向量的健康度,计算前n个特征向量对应健康度的加权和作为主机最终的健康度,计算公式如下:
Figure BDA0002296828450000041
其中,host_scorei表示服务器i的整体健康度,sigmoid表示激活函数,λj表示第j个特征向量的特征值;
S305:进一步的,根据所有主机的健康度组成主机健康度向量表示为HOST,Host=[host_score1,host_score2,…],计算系统判断矩阵SA前n个特征向量对应的健康度,计算公式如下:
system_scorej=Hosti*SVj T (5)
其中system_scorej表示系统第j个特征向量SVj的健康度,计算前n个特征向量对应健康度的加权和作为系统最终的健康度system_score,计算公式如下:
Figure BDA0002296828450000042
S306:计算适应函数
由于系统定时采集数据,产生一组kpi向量,所以每个时刻均可使用相同的判断矩阵计算健康度,定义时刻t的健康度为system_score(t),适应度可定义为实际健康度和计算健康度的均方误差的相反数,公式如下:
Figure BDA0002296828450000043
适应度越大表示误差越小,判断矩阵越精确;
S307:假设设置的粒子群规模为M,重复S301至S307共M次,由于每次均随机选取判断函数和速度矩阵,所以将产生M个适应度,记录适应度最大的服务器判断矩阵为当前迭代的最优服务器判断矩阵best_Ai,适应度最大的系统判断矩阵为当前迭代的最优系统判断矩阵best_SA;
S308:当最大适应度大于全局适应度时,全局适应度初始为0,更新全局适应度为最大适应度,全局判断矩阵globle_best_A为best_A,否则globle_best_matrix保持不变;
S309:更新服务器速度矩阵和系统速度矩阵,公式如下:
Si new=ωSi+2*rand*(globle_best_Ai-Ai)+2*rand*(best_Ai-Ai) (8)
SSnew=ωSS+2*rand*(globle_best_SA-SAi)+2*rand*(best_SA-SAi) (9)
其中ω为惯性因子,表示原速度矩阵保留的比例,rand为选取的随机数;
S310:更新判断矩阵,公式如下:
Ai new=Ai+Si (10)
SAnew=SA+SS (11)
S311:重复执行S302到S310,直至全局适应度fitness大于用户设置的值;得到的全局服务器判断矩阵Ai和全局系统判断矩阵SAi;
S4:健康诊断:每当系统采集一次指标,依据所述S3中的健康诊断框架计算健康度并实时展示,当系统健康度超过某一阈值时,产生报警,提示运维人员。
进一步地,数据预处理包括顺序进行的对所述S1收集现有的电力信息系统中的服务器各指标数据的数据标准化和缺失值处理;
在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。
如CPU使用率、内存使用率的值域为[0,100],而网络流量的取值则可能是不超过带宽限制的任意正数。考虑到数据中可能存在异常值,所述数据标准化的过程分为顺序进行的两步流程:第一步基于箱型图上下限的概念去除数据中的异常值、第二步对数据进行z-score标准化;
由于得到的数据并不是完整无缺的,其中存在着很多缺失值,重复值等,因此要对数据进行第一步的处理,以保证数据在训练时,不会因为样本缺陷而影响训练结果:
所述缺失值处理的过程分为两种情况:对数据标准化后的数据丢失进行处理分为单次未采集到的单次缺省值和长时间内多次未采集到连续缺省值两种情况,单次缺省值通过趋势预测算法进行预测单次缺省值并填充,连续缺省值我们标记其为-1,表示真正的异常。
进一步地,由于服务器的判断矩阵包含了当前服务指标对健康度的影响程度信息。当系统长时间健康度较低时,可为升级服务器相应的硬件设备提供参考。
另外,系统的判断矩阵包含了每台服务器对系统健康度的影响程度信息,可为升级服务器提供参考。
预先设置健康度阈值、误报次数阈值和重要程度改变量阈值,依据所述服务器与系统的特征矩阵判断是否升级服务器相应的硬件设备步骤为:
S601:实时监控服务器主机实时采集的电力信息系统中的服务器各指标数据;
S602:依据S3健康诊断框架计算健康度;判断健康度是否超过健康度阈值,如健康度没有超过健康度阈值则跳至S606结束,如果健康度超过健康度阈值,则进入S603;
S603:报警并提示人工处理状况,当判断报警提示为误报,则累计误报次数,判断误报次数是否超过误报次数阈值,如误报次数没有超过误报次数阈值则跳至S606结束,如误报次数超过误报次数阈值,则进入S604;
S604:模型重置环节:计算设备重要程度改变量,如所述设备重要程度改变量大于预设的设备重要程度改变量阈值,则跳至S606结束,如果所述设备重要程度改变量不大于预设的设备重要程度改变量阈值,则进入至S605;
S605:设备更新提示环节:进行更新设备选择,如选是更新设备,则进行模型重建后跳至S606结束,如选否不更新设备,则直接跳至S606结束;
S606:结束环节。
一种电力信息系统内部服务器历史健康度诊断方法,包括以下步骤:
S101:基于电力信息系统的数据采集和监控系统,收集现有的电力信息系统中的服务器各指标数据;
S102:依据所述S101收集的现有的电力信息系统中的服务器各指标数据,根据服务器功能的差异,将服务器分为Apache、HPUnixServer、HTTP、IBMAixServer、LinuxServer、MySQL、Oracle、Tomcat、Windows、Weblogic等类型,确定每种类型服务器采集的指标数量Ci;
S103:统计各个时间段的告警日志信息,计算各告警类型的信息熵,初始以信息熵作为各类型告警的初始权重,然后由专家根据经验调整权重,得到各类告警的权重w1,w2,…,wi,然后统计历史各个时刻的告警系统的健康度,公式如下:
Figure BDA0002296828450000061
Figure BDA0002296828450000062
其中total_score表示系统无异常发生时的总分,即所有告警权重的总和,health_score(t)为系统总分减去t时刻发生告警的权重之和,表示t时刻系统的健康度,健康度越高表示系统发生告警的权重和越小,越健康。
进一步地,还包括步骤S105:专家确认误报、漏报等情况异常低的健康度是否合理,并补充漏报告警对应的健康度,得到更新后的历史各时刻系统的健康度health_score(t)。
一种电力信息系统内部服务器的健康诊断框架,包括特征矩阵、对应每个特征矩阵的特征向量、指标、激活函数和健康度;
所述特征矩阵包括每个服务器主机和整个系统的特征矩阵;
所述特征矩阵与对应每个特征矩阵的特征向量用于计算指标与服务器主机健康度之间、服务器主机健康度与整个系统健康度之间的非线性关系;
所述激活函数用于查找指标与健康度之间的线性关系;
所述指标为基于电力信息系统的数据采集和监控系统,收集现有的电力信息系统中的服务器各指标数据。
本发明具有如下的优点和有益效果:
本发明提出一种基于PSO算法,根据历史告警数据对系统每时刻进行健康度评分的方法,从而得到各设备的相对重要程度。相对专家凭借经验设置各设备的相对重要程度,仅需专家确认调整少量发生告警时刻的健康度评分,极大减少专家定性分析的工作量,从而使系统的健康结果更稳定可靠。
本发明实时查询模型的漂移情况,能根据判断矩阵的变化情况,精确的得出哪台服务器的什么硬件设备发生了变动,精准提示运维人员检查设备,减少损失。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明的电力信息系统健康诊断方法流程图。
图2为本发明的健康诊断计算框架。
图3为本发明的健康诊断流程。
具体实施方式
在对本发明的任意实施例进行详细的描述之前,应该理解本发明的应用不局限于下面的说明或附图中所示的结构的细节。本发明可采用其它的实施例,并且可以以各种方式被实施或被执行。基于本发明中的实施例,本领域普通技术人员在没有做出创造性改进前提下所获得的所有其它实施例,均属于本发明保护的范围。
如图1、2所示,一种电力信息系统内部服务器实时健康度诊断方法,包括以下步骤:
S1:服务器历史信息采集:基于电力信息系统的数据采集和监控系统,收集现有的电力信息系统中的服务器各指标数据;
S2:数据预处理:对服务器各指标数据进行数据预处理得到预处理后的服务器各指标数据;
S3:健康模型的建立:以所述S2中得到的预处理后的服务器各指标数据为参考依据,构建健康诊断计算框架步骤如下:
S301:为每台服务器建立随机初始判断矩阵及随机初始速度矩阵,建立方式如下:
当类型为i的服务器采集了Ci个指标,则为其建立判断矩阵的维度为[Ci,Ci],如下所示:
Figure BDA0002296828450000081
其中Ai表示类型i的服务器的判断矩阵,判断矩阵的初始化方式为以随机数[0,1]进行填充,但需使其满足矩阵对称位置元素的和为1,即以满足ajk+akj=1的随机数填充判断矩阵;
Ai建立完成后,进行一致性检验,一致性检验方法与AHP算法一致,如未通过一致性检验,则重新生成判断矩阵,直至为每台服务器生成M个判断矩阵;
以与判断矩阵相同的维度[Ci,Ci],为每个判断矩阵建立初始速度矩阵,以更新判断矩阵,速度矩阵建立如下:
Figure BDA0002296828450000082
Si表示类型i的服务器的速度矩阵,其中sjk表示ajk的运动速度,随机初始速度矩阵以随机数[0,max_speed]填充,max_speed表示设置的最大运动速度;
S302:以S301为服务器设置判断矩阵相同的方式,为整个系统建立初始随机初始判断矩阵SA及初始速度矩阵SS,其维度为系统中包含的主机台数;
S303:计算每台服务器的每个判断矩阵的特征向量,取从大到小排序的前n个特征值对应n个特征向量Vi1,Vi2,…,Vin;
其中Vij表示服务器i判断矩阵Ai的第j个特征向量;
计算整个系统的判断矩阵的特征向量,取从大到小排序的前n个特征值对应n个特征向量SVi1,SVi2,…,SVin
S304:计算每一服务器的健康度,计算方式如下:
给定任一服务器i,其采集的Ci个指标组成的向量KPIi为[kpi1,kpi2,…,kpiCi],其特征矩阵对应的健康度计算公式如下:
host_scorei,j=KPIi*Vij T (3)
其中host_scorei,j表示服务器i的第j个特征向量的健康度,计算前n个特征向量对应健康度的加权和作为主机最终的健康度,计算公式如下:
Figure BDA0002296828450000091
其中,host_scorei表示服务器i的整体健康度,sigmoid表示激活函数,λj表示第j个特征向量的特征值;
S305:进一步的,根据所有主机的健康度组成主机健康度向量表示为HOST,Host=[host_score1,host_score2,…],计算系统判断矩阵SA前n个特征向量对应的健康度,计算公式如下:
system_scorej=Hosti*SVj T (5)
其中system_scorej表示系统第j个特征向量SVj的健康度,计算前n个特征向量对应健康度的加权和作为系统最终的健康度system_score,计算公式如下:
Figure BDA0002296828450000092
S306:计算适应函数
由于系统定时采集数据,产生一组kpi向量,所以每个时刻均可使用相同的判断矩阵计算健康度,定义时刻t的健康度为system_score(t),适应度可定义为实际健康度和计算健康度的均方误差的相反数,公式如下:
Figure BDA0002296828450000093
适应度越大表示误差越小,判断矩阵越精确;
S307:假设设置的粒子群规模为M,重复S301至S307共M次,由于每次均随机选取判断函数和速度矩阵,所以将产生M个适应度,记录适应度最大的服务器判断矩阵为当前迭代的最优服务器判断矩阵best_Ai,适应度最大的系统判断矩阵为当前迭代的最优系统判断矩阵best_SA;
S308:当最大适应度大于全局适应度时,全局适应度初始为0,更新全局适应度为最大适应度,全局判断矩阵globle_best_A为best_A,否则globle_best_matrix保持不变;
S309:更新服务器速度矩阵和系统速度矩阵,公式如下:
Si new=ωSi+2*rand*(globle_best_Ai-Ai)+2*rand*(best_Ai-Ai) (8)
SSnew=ωSS+2*rand*(globle_best_SA-SAi)+2*rand*(best_SA-SAi) (9)
其中ω为惯性因子,表示原速度矩阵保留的比例,rand为选取的随机数;
S310:更新判断矩阵,公式如下:
Ai new=Ai+Si (10)
SAnew=SA+SS (11)
S311:重复执行S302到S310,直至全局适应度fitness大于用户设置的值;得到的全局服务器判断矩阵Ai和全局系统判断矩阵SAi;
S4:健康诊断:每当系统采集一次指标,依据所述S3中的健康诊断框架计算健康度并实时展示,当系统健康度超过某一阈值时,产生报警,提示运维人员。
优选的,数据预处理包括顺序进行的对所述S1收集现有的电力信息系统中的服务器各指标数据的数据标准化和缺失值处理;
所述数据标准化的过程分为顺序进行的两步流程:第一步基于箱型图上下限的概念去除数据中的异常值、第二步对数据进行z-score标准化;
所述缺失值处理的过程分为两种情况:对数据标准化后的数据丢失进行处理分为单次未采集到的单次缺省值和长时间内多次未采集到连续缺省值两种情况,单次缺省值通过趋势预测算法进行预测单次缺省值并填充,连续缺省值我们标记其为-1,表示真正的异常。
优选的,如图3所示,预先设置健康度阈值、误报次数阈值和重要程度改变量阈值,依据所述服务器与系统的特征矩阵判断是否升级服务器相应的硬件设备步骤为:
S601:实时监控服务器主机实时采集的电力信息系统中的服务器各指标数据;
S602:依据S3健康诊断框架计算健康度;判断健康度是否超过健康度阈值,如健康度没有超过健康度阈值则跳至S606结束,如果健康度超过健康度阈值,则进入S603;
S603:报警并提示人工处理状况,当判断报警提示为误报,则累计误报次数,判断误报次数是否超过误报次数阈值,如误报次数没有超过误报次数阈值则跳至S606结束,如误报次数超过误报次数阈值,则进入S604;
S604:模型重置环节:计算设备重要程度改变量,如所述设备重要程度改变量大于预设的设备重要程度改变量阈值,则跳至S606结束,如果所述设备重要程度改变量不大于预设的设备重要程度改变量阈值,则进入至S605;
S605:设备更新提示环节:进行更新设备选择,如选是更新设备,则进行模型重建后跳至S606结束,如选否不更新设备,则直接跳至S606结束;
S606:结束环节。
一种电力信息系统内部服务器历史健康度诊断方法,包括以下步骤:
S101:基于电力信息系统的数据采集和监控系统,收集现有的电力信息系统中的服务器各指标数据;
S102:依据所述S101收集的现有的电力信息系统中的服务器各指标数据,根据服务器功能的差异,将服务器分为Apache、HPUnixServer、HTTP、IBMAixServer、LinuxServer、MySQL、Oracle、Tomcat、Windows、Weblogic等类型,确定每种类型服务器采集的指标数量Ci;
S103:统计各个时间段的告警日志信息,计算各告警类型的信息熵,初始以信息熵作为各类型告警的初始权重,然后由专家根据经验调整权重,得到各类告警的权重w1,w2,…,wi,然后统计历史各个时刻的告警系统的健康度,公式如下:
Figure BDA0002296828450000111
Figure BDA0002296828450000112
其中total_score表示系统无异常发生时的总分,即所有告警权重的总和,health_score(t)为系统总分减去t时刻发生告警的权重之和,表示t时刻系统的健康度,健康度越高表示系统发生告警的权重和越小,越健康。
优选的,还包括步骤S105:专家确认误报、漏报等情况异常低的健康度是否合理,并补充漏报告警对应的健康度,得到更新后的历史各时刻系统的健康度health_score(t)。
如图2所示,一种电力信息系统内部服务器的健康诊断框架,包括特征矩阵、对应每个特征矩阵的特征向量、指标、激活函数和健康度;
所述特征矩阵包括每个服务器主机和整个系统的特征矩阵;
所述特征矩阵与对应每个特征矩阵的特征向量用于计算指标与服务器主机健康度之间、服务器主机健康度与整个系统健康度之间的非线性关系;
所述激活函数用于查找指标与健康度之间的线性关系;
所述指标为基于电力信息系统的数据采集和监控系统,收集现有的电力信息系统中的服务器各指标数据。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种电力信息系统内部服务器实时健康度诊断方法,其特征在于,包括以下步骤:
S1:服务器历史信息采集:基于电力信息系统的数据采集和监控系统,收集现有的电力信息系统中的服务器各指标数据;
S2:数据预处理:对服务器各指标数据进行数据预处理得到预处理后的服务器各指标数据;
S3:健康模型的建立:以所述S2中得到的预处理后的服务器各指标数据为参考依据,构建健康诊断计算框架步骤如下:
S301:为每台服务器建立随机初始判断矩阵及随机初始速度矩阵,建立方式如下:
当类型为i的服务器采集了Ci个指标,则为其建立判断矩阵的维度为[Ci,Ci],如下所示:
Figure FDA0004166135650000011
其中Ai表示类型i的服务器的判断矩阵,判断矩阵的初始化方式为以随机数[0,1]进行填充,但需使其满足矩阵对称位置元素的和为1,即以满足ajk+akj=1的随机数填充判断矩阵;
Ai建立完成后,进行一致性检验,一致性检验方法与AHP算法一致,如未通过一致性检验,则重新生成判断矩阵,直至为每台服务器生成M个判断矩阵;
以与判断矩阵相同的维度[Ci,Ci],为每个判断矩阵建立初始速度矩阵,以更新判断矩阵,速度矩阵建立如下:
Figure FDA0004166135650000012
Si表示类型i的服务器的速度矩阵,其中sjk表示ajk的运动速度,随机初始速度矩阵以随机数[0,max_speed]填充,max_speed表示设置的最大运动速度;
S302:以S301为服务器设置判断矩阵相同的方式,为整个系统建立初始随机初始判断矩阵SA及初始速度矩阵SS,其维度为系统中包含的主机台数;
S303:计算每台服务器的每个判断矩阵的特征向量,取从大到小排序的前n个特征值对应n个特征向量Vi1,Vi2,…,Vin;
其中Vij表示服务器i判断矩阵Ai的第j个特征向量;
计算整个系统的判断矩阵的特征向量,取从大到小排序的前n个特征值对应n个特征向量SVi1,SVi2,…,SVin
S304:计算每一服务器的健康度,计算方式如下:
给定任一服务器i,其采集的Ci个指标组成的向量KPIi为[kpi1,kpi2,…,kpiCi],其特征矩阵对应的健康度计算公式如下:
host_scorei,j=KPIi*Vij T (3)
其中host_scorei,j表示服务器i的第j个特征向量的健康度,计算前n个特征向量对应健康度的加权和作为主机最终的健康度,计算公式如下:
Figure FDA0004166135650000021
其中,host_scorei表示服务器i的整体健康度,sigmoid表示激活函数,λj表示第j个特征向量的特征值;
S305:进一步的,根据所有主机的健康度组成主机健康度向量表示为HOST,Host=[host_score1,host_score2,…],计算系统判断矩阵SA前n个特征向量对应的健康度,计算公式如下:
system_scorej=Hosti*SVj T (5)
其中system_scorej表示系统第j个特征向量SVj的健康度,计算前n个特征向量对应健康度的加权和作为系统最终的健康度system_score,计算公式如下:
Figure FDA0004166135650000022
S306:计算适应函数
由于系统定时采集数据,产生一组kpi向量,所以每个时刻均可使用相同的判断矩阵计算健康度,定义时刻t的健康度为system_score(t),适应度可定义为实际健康度和计算健康度的均方误差的相反数,公式如下:
Figure FDA0004166135650000031
适应度越大表示误差越小,判断矩阵越精确;
S307:假设设置的粒子群规模为M,重复S301至S307共M次,由于每次均随机选取判断函数和速度矩阵,所以将产生M个适应度,记录适应度最大的服务器判断矩阵为当前迭代的最优服务器判断矩阵best_Ai,适应度最大的系统判断矩阵为当前迭代的最优系统判断矩阵best_SA;
S308:当最大适应度大于全局适应度时,全局适应度初始为0,更新全局适应度为最大适应度,全局判断矩阵globle_best_A为best_A,否则globle_best_matrix保持不变;
S309:更新服务器速度矩阵和系统速度矩阵,公式如下:
Si new=ωSi+2*rand*(globle_best_Ai-Ai)+2*rand*(best_Ai-Ai) (8)
SSnew=ωSS+2*rand*(globle_best_SA-SAi)+2*rand*(best_SA-SAi) (9)
其中ω为惯性因子,表示原速度矩阵保留的比例,rand为选取的随机数;
S310:更新判断矩阵,公式如下:
Ai new=Ai+Si (10)
SAnew=SA+SS (11)
S311:重复执行S302到S310,直至全局适应度fitness大于用户设置的值;得到的全局服务器判断矩阵Ai和全局系统判断矩阵SAi;
S4:健康诊断:每当系统采集一次指标,依据所述S3中的健康诊断框架计算健康度并实时展示,当系统健康度超过某一阈值时,产生报警,提示运维人员。
2.根据权利要求1所述的一种电力信息系统内部服务器实时健康度诊断方法,其特征在于,数据预处理包括顺序进行的对所述S1收集现有的电力信息系统中的服务器各指标数据的数据标准化和缺失值处理;
所述数据标准化的过程分为顺序进行的两步流程:第一步基于箱型图上下限的概念去除数据中的异常值、第二步对数据进行z-score标准化;
所述缺失值处理的过程分为两种情况:对数据标准化后的数据丢失进行处理分为单次未采集到的单次缺省值和长时间内多次未采集到连续缺省值两种情况,单次缺省值通过趋势预测算法进行预测单次缺省值并填充,连续缺省值我们标记其为-1,表示真正的异常。
3.根据权利要求1所述的一种电力信息系统内部服务器实时健康度诊断方法,其特征在于,预先设置健康度阈值、误报次数阈值和重要程度改变量阈值,依据所述服务器与系统的特征矩阵判断是否升级服务器相应的硬件设备步骤为:
S601:实时监控服务器主机实时采集的电力信息系统中的服务器各指标数据;
S602:依据S3健康诊断框架计算健康度;判断健康度是否超过健康度阈值,如健康度没有超过健康度阈值则跳至S606结束,如果健康度超过健康度阈值,则进入S603;
S603:报警并提示人工处理状况,当判断报警提示为误报,则累计误报次数,判断误报次数是否超过误报次数阈值,如误报次数没有超过误报次数阈值则跳至S606结束,如误报次数超过误报次数阈值,则进入S604;
S604:模型重置环节:计算设备重要程度改变量,如所述设备重要程度改变量大于预设的设备重要程度改变量阈值,则跳至S606结束,如果所述设备重要程度改变量不大于预设的设备重要程度改变量阈值,则进入至S605;
S605:设备更新提示环节:进行更新设备选择,如选是更新设备,则进行模型重建后跳至S606结束,如选否不更新设备,则直接跳至S606结束;
S606:结束环节。
4.一种电力信息系统内部服务器的健康诊断框架,用于实现权利要求1-3任意一项所述的电力信息系统内部服务器实时健康度诊断方法,其特征在于,包括特征矩阵、对应每个特征矩阵的特征向量、指标、激活函数和健康度;
所述特征矩阵包括每个服务器主机和整个系统的特征矩阵;
所述特征矩阵与对应每个特征矩阵的特征向量用于计算指标与服务器主机健康度之间、服务器主机健康度与整个系统健康度之间的非线性关系;
所述激活函数用于查找指标与健康度之间的线性关系;
所述指标为基于电力信息系统的数据采集和监控系统,收集现有的电力信息系统中的服务器各指标数据。
CN201911205455.6A 2019-11-29 2019-11-29 电力信息系统内部服务器健康度诊断方法与健康诊断框架 Active CN110865924B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911205455.6A CN110865924B (zh) 2019-11-29 2019-11-29 电力信息系统内部服务器健康度诊断方法与健康诊断框架

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911205455.6A CN110865924B (zh) 2019-11-29 2019-11-29 电力信息系统内部服务器健康度诊断方法与健康诊断框架

Publications (2)

Publication Number Publication Date
CN110865924A CN110865924A (zh) 2020-03-06
CN110865924B true CN110865924B (zh) 2023-05-16

Family

ID=69657203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911205455.6A Active CN110865924B (zh) 2019-11-29 2019-11-29 电力信息系统内部服务器健康度诊断方法与健康诊断框架

Country Status (1)

Country Link
CN (1) CN110865924B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111698301A (zh) * 2020-05-29 2020-09-22 成都新希望金融信息有限公司 一种保证服务延续的服务管理方法、装置及存储介质
CN112134361A (zh) * 2020-09-29 2020-12-25 南京邦州电力自动化有限公司 一种配电网智能监控系统
CN112950908B (zh) * 2021-02-03 2022-12-30 重庆川仪自动化股份有限公司 一种数据监测预警方法、系统、介质及电子终端
CN113515433B (zh) * 2021-07-28 2023-08-15 中移(杭州)信息技术有限公司 告警日志处理方法、装置、设备及存储介质
CN117891691A (zh) * 2024-01-18 2024-04-16 广东粤云数智科技有限公司 一种大数据服务器的防护系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747212A (zh) * 2014-01-04 2014-04-23 国网四川省电力公司信息通信公司 一种集成动力环境监控数据的变电站视频监控系统的实现方法
JP2015060437A (ja) * 2013-09-19 2015-03-30 日本電気株式会社 機器情報収集装置、機器情報収集方法、及びプログラム
CN105677538A (zh) * 2016-01-11 2016-06-15 中国科学院软件研究所 一种基于故障预测的云计算系统自适应监测方法
CN106407069A (zh) * 2015-07-30 2017-02-15 Ls 产电株式会社 用于管理能量管理系统中的数据库的设备和方法
CN106845562A (zh) * 2017-03-21 2017-06-13 湖北民族学院 光伏组件的故障监测系统及数据处理方法
CN107358338A (zh) * 2017-06-09 2017-11-17 国网冀北电力有限公司 一种多业务和硬件融合的d5000系统健康度分层优先评价方法
CN108733532A (zh) * 2017-04-18 2018-11-02 北京京东尚科信息技术有限公司 大数据平台的健康度管控方法、装置、介质及电子设备
CN110070461A (zh) * 2019-04-17 2019-07-30 南瑞集团有限公司 一种电力信息系统健康度评估方法及其评估系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6847917B2 (en) * 2001-05-24 2005-01-25 Simmonds Precision Products, Inc. Method and apparatus for selecting condition indicators in determining the health of a component
JP3922375B2 (ja) * 2004-01-30 2007-05-30 インターナショナル・ビジネス・マシーンズ・コーポレーション 異常検出システム及びその方法
CA3128758A1 (en) * 2013-03-15 2014-09-25 Mueller International, Llc System for measuring properties of water in a water distribution system
US10404547B2 (en) * 2014-02-27 2019-09-03 Intel Corporation Workload optimization, scheduling, and placement for rack-scale architecture computing systems
US9672091B2 (en) * 2015-11-10 2017-06-06 Samsung Electronics Co., Ltd. Storage device and debugging method thereof
US9948521B2 (en) * 2016-01-11 2018-04-17 Equinix, Inc. Architecture for data center infrastructure monitoring
US10585739B2 (en) * 2017-04-28 2020-03-10 International Business Machines Corporation Input data correction
US10797960B2 (en) * 2017-12-22 2020-10-06 At&T Intellectual Property I, L.P. Guided network management

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015060437A (ja) * 2013-09-19 2015-03-30 日本電気株式会社 機器情報収集装置、機器情報収集方法、及びプログラム
CN103747212A (zh) * 2014-01-04 2014-04-23 国网四川省电力公司信息通信公司 一种集成动力环境监控数据的变电站视频监控系统的实现方法
CN106407069A (zh) * 2015-07-30 2017-02-15 Ls 产电株式会社 用于管理能量管理系统中的数据库的设备和方法
CN105677538A (zh) * 2016-01-11 2016-06-15 中国科学院软件研究所 一种基于故障预测的云计算系统自适应监测方法
CN106845562A (zh) * 2017-03-21 2017-06-13 湖北民族学院 光伏组件的故障监测系统及数据处理方法
CN108733532A (zh) * 2017-04-18 2018-11-02 北京京东尚科信息技术有限公司 大数据平台的健康度管控方法、装置、介质及电子设备
CN107358338A (zh) * 2017-06-09 2017-11-17 国网冀北电力有限公司 一种多业务和硬件融合的d5000系统健康度分层优先评价方法
CN110070461A (zh) * 2019-04-17 2019-07-30 南瑞集团有限公司 一种电力信息系统健康度评估方法及其评估系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鞠平等.电力系统健康诊断.电力自动化设备.2004,全文. *

Also Published As

Publication number Publication date
CN110865924A (zh) 2020-03-06

Similar Documents

Publication Publication Date Title
CN110865924B (zh) 电力信息系统内部服务器健康度诊断方法与健康诊断框架
CN105117602B (zh) 一种计量装置运行状态预警方法
CN104732276B (zh) 一种计量生产设施故障在线诊断方法
CN110232203B (zh) 知识蒸馏优化rnn短期停电预测方法、存储介质及设备
CN110320892A (zh) 基于Lasso回归的污水处理设备故障诊断系统及方法
CN105467971B (zh) 一种电力二次设备监测系统及方法
CN105425768B (zh) 一种电力二次设备监测装置及方法
CN109471698B (zh) 云环境下虚拟机异常行为检测系统和方法
CN110912737A (zh) 一种基于混合模型的动态感知性能预告警方法
CN109492790A (zh) 基于神经网络与数据挖掘的风电机组健康管理方法
CN111124852A (zh) 一种基于bmc健康管理模块的故障预测方法及系统
CN110703743A (zh) 设备故障预测与检测系统和方法
CN114611372A (zh) 一种基于物联网边缘计算的工业设备健康预测方法
CN112904148A (zh) 智能电缆运行监测系统、方法及装置
CN117032165A (zh) 一种工业设备故障诊断方法
CN115564182A (zh) 一种基于电网资源业务中台的电网分析方法
CN118353162A (zh) 一种电厂变压器智能检测预警方法及系统
CN117592975A (zh) 基于云计算的高速公路机电设备运维决策处理方法及系统
CN105741184A (zh) 一种变压器状态评估方法及装置
CN116714469A (zh) 充电桩健康监测方法、装置、终端及存储介质
CN115936663A (zh) 一种电力系统的维护方法及装置
CN110288325A (zh) 一种建筑施工问题整改方法
CN110533213A (zh) 基于支持向量机的输电线路缺陷风险建模及其预测方法
CN111382946B (zh) 设备健康状态的自主评估方法、系统及工业互联网设备
CN117131947B (zh) 架空输电线路故障预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant