CN115441456A

CN115441456A - 一种电网调度支持系统故障诊断方法及装置

Info

Publication number: CN115441456A
Application number: CN202210988167.8A
Authority: CN
Inventors: 沈嘉灵; 吴海伟; 江叶峰; 张首魁; 翟明玉; 孙云枫; 张珂珩; 季学纯; 李�昊; 王宇冬; 黄鑫健; 陈子韵; 高尚; 李佳阳; 徐丽燕; 季惠英; 沙一川
Original assignee: State Grid Jiangsu Electric Power Co Ltd; Nari Technology Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co Ltd; Nari Technology Co Ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-12-06

Abstract

本发明公开了一种电网调度支持系统故障诊断方法及装置，方法包括：获取服务器、进程的运维指标采集数据；在预设固定时间，基于指标时序预测算法得到预设时间范围的指标未来预测数据；结合运维指标异常检测算法，识别系统运行故障，生成运行故障信息；汇总所有运行故障信息，完成运行故障检测，发送运行故障告警。本发明实现了海量模型情况下的运维指标时序预测技术，建立自适应和自学习模型构建与优化架构，基于指标预测自动设置动态阈值，通过基于海量运维数据的多技术融合分析，实时、快速、准确识别系统故障，实现经验型向智能分析型管理转变，实现系统故障精准感知，保障调控系统安全可靠稳定运行。

Description

一种电网调度支持系统故障诊断方法及装置

技术领域

本发明属于电网调控技术领域，更具体地，涉及一种电网调度支持系统故障诊断方法及装置。

背景技术

随着新型电力系统加快建设，新一代调度技术支持系统充分继承D5000系统技术成果并进行了全面升级，新系统呈现出“系统规模更大、数据范围更广、应用种类丰富、服务成千上万”的特征，这对系统运维提出了新的要求。

传统采用人工、半自动化的运维方式，需要借助系统运维人员大量的经验知识和重复性“人脑劳动”，工作量大且效率低；采用基于专家经验值、固定阈值的故障检测传统算法，难以在误报和漏报间找到平衡点，发生系统故障时如何从海量运维监测数据中识别故障源难度大，系统运维工作强度大且智能化程度低，系统运维模式面临“故障发现难、问题定位慢、问题分析难、问题解决慢”等局面。

目前，大数据、人工智能等ICT先进技术已被广泛应用于系统运维领域，可以有效降低传统运维模式下人工工作量，提高工作效率。但单维数据分析形成了一个个运维数据孤岛，无法感知系统全局运行状态。

发明内容

本发明的目的是针对以上不足，提供一种电网调度支持系统故障诊断方法，以及实现该方法的诊断装置，基于海量运维数据的多技术融合与多维度分析，实现经验型向智能分析型管理转变，推动被动感知异常向主动故障预防转变，满足系统故障快速诊断、快速定位、快速响应、快速解决的需求，实现系统故障精准感知，为调控系统安全可靠稳定运行提供技术保障解决传统系统运维被动异常感知、人工运维为主、运维数据孤岛等问题。

为实现上述目的，本发明是通过以下技术方案实现的：

第一方面，本发明提供了一种电网调度支持系统故障诊断方法，包括以下步骤：

获取服务器、进程的运维指标采集数据；

在预设固定时间，基于指标时序预测算法得到预设时间范围的指标未来预测数据；

结合运维指标异常检测算法，识别系统运行故障，生成运行故障信息；

汇总所有运行故障信息，完成运行故障检测，发送运行故障告警。

可选的，上述基于指标时序预测算法得到预设时间范围的指标未来预测数据，包括：

在预设固定时间，获取预设时间范围内的运维指标采样数据；

对运维指标采样数据进行曲线分类；

根据运维指标采样数据的曲线分类结果，根据时序预测算法更新或重新训练时序预测模型；

根据时序预测模型，预测下一个预设时间范围的运维指标采样数据并保存至数据仓库。

可选的，上述根据时序预测算法更新或重新训练时序预测模型，包括：

获取上一预设时间训练得到的指标时序预测模型，判断曲线分类结果与指标时序预测模型是否匹配；

如果不匹配或不存在，根据时序预测算法重新训练时序预测模型并保存；

如果匹配，根据时序预测算法更新时序预测模型并保存。

可选的，在两次预设固定时间之间，增加根据预设周期，根据周期内预测数据和实际采集数据，迭代更新时序预测模型与参数，并更新预设时间范围的后续运维指标采样数据。

可选的，上述对运维指标采样数据进行曲线分类，包括：

判断是否存在数据缺失量超过预设范围，如果是，则属于缺失型；

判断数据是否为恒定值，如果是，则属于恒值型；

判断是否最大值小于中位数的预设倍数，如果是，则属于微浮动型；

判断是否基于ADF检验判定序列平稳性，如果是，则基于傅立叶变换和自相关系数检测时序数据是否存在周期：如果存在周期，则属于周期型；如果不存在周期，属于平稳型；

还包括，按日切分运维指标采样数据进行曲线分类：

判断近几日是否存在缺失数据量超过预设范围，如果是，则属于近期缺失型；

判断近几日数据是否为恒定值，如果是，则属于近期恒值型；

判断近几日是否最大值小于中位数的1.1倍，如果是，则属于近期微浮动型；

判断近几日是否基于ADF检验判定序列平稳的，如果是，则属于近期平稳型；

如果上述均不是，则属于不规则型。

可选的，上述时序预测算法包括但不限于LGB算法、LSTM算法、指数平均算法；其中，所述LGB算法对应于周期型；所述LSTM算法对应于不规则型；所述指数平均算法对应于缺失型、恒值型、微浮动型、平稳型、近期缺失型、近期恒值型、近期微浮动型和近期平稳型。

可选的，上述运维指标异常检测算法，包括：

基于实时采集的运维指标数据缺失异常检测算法；

基于Mann-kendall法的运维指标缓慢爬坡异常检测算法；

基于多算法集成学习的运维指标跳跃突变异常检测算法。

可选的，上述基于Mann-kendall法的运维指标缓慢爬坡异常检测算法，包括：

获取预设时间周期内的运维指标采样数据；

基于Mann-kendall法检验运维指标数据趋势；

根据预设检测时间窗口大小重复上述步骤，预设若存在连续数个时间窗口内运维指标数据趋势均呈单调递增，则判定运维指标存在缓慢爬坡异常，并生成指标缓慢爬坡运行故障信息。

可选的，上述基于多算法集成学习的运维指标跳跃突变异常检测算法，包括：

根据运维指标采样周期，实时获取运维指标采样数据序列；

将运维指标采样数据基于多算法进行异常值检测，如有超过半数将新数据判断为异常，则认为该条数据可能存在异常，则生成指标跳跃突变运行故障信息；

所述多算法包括但不限于N-sigma、TukeyTest和LOF。

可选的，上述汇总所有运行故障信息，完成运行故障检测，发送运行故障告警，包括：

实时获取得到的运行故障告警信息，基于多阈值的告警分级，发送运行故障分级告警；

在预设固定时间，获取运行故障告警信息进行多指标告警归纳，保存并发送运行故障归纳告警；

基于相关性系数的多维度告警分析算法，保存并发送运行故障分析告警。

可选的，上述多阈值，包括：

基于多算法集成学习得到的基准阈值；

基于未来预测指标得到的动态阈值；

基于专家经验得到的红线阈值。

可选的，上述告警分级包括：

当指标采集值小于基准阈值，保存为提示告警；

当指标采集值大于基准阈值且小于动态阈值，保存为次要告警；

当指标采集值大于动态阈值且小于红线阈值，保存并发送重要告警；

当指标采集值大于红线阈值，保存并发送紧急告警。

可选的，上述多维度告警分析，包括：

(a)实时获取运行故障信息，并基于历史运行故障信息进行相关性分析，抑制运行指标重复性告警，生成运行突发性异常故障告警；包括：

实时与历史运行故障信息数据强相关，抑制运行指标重复性告警；

实时与历史运行故障信息数据弱相关，生成运行突发性异常故障告警；

(b)基于服务器、进程运行故障信息的相关性分析，生成进程影响链告警。

所述相关性系数包括但不限于Pearson相关系数(皮尔逊相关系数)，Kendall tau相关系数(肯德尔相关性系数)，Spearman rho相关系数(斯皮尔曼秩相关性系数)。

第二方面，本发明还提供了一种电网调度支持系统故障诊断装置，用于实行上述的诊断方法，包括如下模块：

运维指标采集数据获取模块，用于获取服务器、进程的运维指标采集数据；

指标未来预测数据生成模块，用于根据预设固定时间，基于指标时序预测算法得到预设时间范围的指标未来预测数据；

运维指标异常检测算法模块，用于根据异常检测算法生成运行故障信息；

运行故障告警生成模块，用于汇总所有运行故障信息，发送运行故障告警。

可选的，上述指标未来预测数据生成模块包括：

指标采样曲线分类子模块，用于将运维指标采集数据进行分类；

运维指标时序预测子模块，用于根据训练和更新运维指标预测模型，并根据模型生成指标预测数据。

可选的，上述运维指标异常检测算法模块，包括：

运维指标缺失检测子模块，用于生成指标缺失故障信息；

运维指标缓慢爬坡检测子模块，用于基于运维指标缓慢爬坡异常检测算法，生成指标缓慢爬坡故障信息；

运维指标跳跃突变检测子模块，用于基于运维指标跳跃突变异常检测算法，生成指标跳跃突变故障信息。

可选的，上述运行故障告警生成模块，包括：

运行故障分级告警实时生成子模块，用于实时获取运行故障告警信息，基于多阈值告警分级，保存并发送运行故障分级告警；

运行故障归纳告警生成子模块，用于根据预设固定时间，获取运行故障告警信息进行多指标告警归纳，保存并发送运行故障归纳告警；

运行故障分析告警生成子模块，用于获取运行故障告警信息，基于相关性系数的多维度告警分析，保存并发送运行故障分析告警。

与现有技术相比，本发明的有益效果为：

本发明所述基于人工智能的电网调度支持系统故障诊断方法，实现了海量模型情况下的运维指标时序预测技术，建立自适应和自学习模型构建与优化架构，基于指标预测自动设置动态阈值，通过基于海量运维数据的多技术融合分析，实时、快速、准确识别系统故障，实现经验型向智能分析型管理转变。

本发明所述诊断方法实现多阈值告警分级、多指标告警归纳、多维度告警降噪，建立全方位实时故障诊断体系，满足系统故障快速诊断、快速定位、快速响应、快速解决的需求，实现系统故障精准感知，保障调控系统安全可靠稳定运行。

本发明自动基于运维指标实时采集数据与指标预测数据的评估结果迭代时序预测模型和参数，实时更新动态阈值，有效降低系统故障误报率，提升系统故障诊断准确性。

本发明通过实时学习指标运行规律设置动态阈值，通过实时故障诊断快速、准确识别系统故障，解决了基于专家经验值、固定阈值的故障检测算法易误报、漏报的痛点。

附图说明

图1为本发明实施例1提供的一种电网调度支持系统故障诊断方法的步骤流程图；

图2为本发明实施例1所述的指标时序预测算法流程图；

图3为本发明实施例1所述的指标未来预测数据迭代更新流程图；

图4为本发明实施例1所述的多阈值告警分级图。

具体实施方式

下面将结合附图和具体实施例更详细地描述本发明的优选实施方式。

实施例1

本实施例提供一种基于人工智能的电网调度支持系统故障诊断方法，其流程如图1所示，具体包括如下步骤。

步骤S1、获取服务器、进程的运维指标采集数据。

运维指标采集数据是通过专业工具采集获得的时间序列数据，比如每分钟采样一次内存使用率，采集数据内容包括采集时间和采集值，在运行监视系统中以服务器名称、组件名称、指标名称和指标分组名称的组合对任一运行监视指标进行描述。

本发明基于运维指标采集数据，采用多维数据关联、人工智能算法等技术实现基础硬件、平台组件以及应用软件等全方位实时运行故障检测，基础硬件以电网调控系统所在服务器为运行监测对象，平台组件以及应用软件以进程为运行监测对象，常见运行监视指标如表1所示。

表1常见运行监视指标

步骤S2、在预设固定时间，基于指标时序预测算法得到预设时间范围的指标未来预测数据，具体包括以下步骤。

步骤S21、在预设固定时间，获取预设时间范围内的运维指标采样数据。

在本实施例中，预设每日0:01，基于指标时序预测算法得到的当日的指标未来预测数据。

步骤S22、对步骤S21得到的运维指标采样数据进行曲线分类。

具体分类步骤如下：

S22.1判断是否存在数据缺失量超过预设范围，如果是，则属于缺失型；

S22.2判断数据是否为恒定值，如果是，则属于恒值型；

S22.3判断是否最大值小于中位数的预设倍数，如果是，则属于微浮动型；

S22.4判断是否基于ADF检验判定序列平稳性，如果是：

基于傅立叶变换和自相关系数检测时序数据是否存在周期，

S22.4.1如果存在周期，则属于周期型；

S22.4.2如果不存在周期，属于平稳型。

S22.5按日切分运维指标采样数据进行曲线分类：

S22.5.1判断近几日是否存在缺失数据量超过预设范围，如果是，则属于近期缺失型；

S22.5.2判断近几日数据是否为恒定值，如果是，则属于近期恒值型

S22.5.3判断近几日是否最大值小于中位数的1.1倍，如果是，则属于近期微浮动型

S22.5.4判断近几日是否基于ADF检验判定序列平稳的，如果是，则属于近期平稳型；

如果经步骤S22.1至S22.5判断均不是，则属于不规则型。

电网调控领域实时业务应用对电网进行实时监控和分析，核心进程通常采用一主多备的运行方式。其中，主机进程的运维指标采样数据会随业务应用使用波动，若波动幅度较大时，曲线数据类型为不规则型，在实际运维中属于重点关注对象，波动幅度较小时，曲线数据类型为微浮动型；备机进程则运维指标采样数据相对平稳，数据类型为平稳型。

电网调控领域离线分析类业务应用对历史数据进行分析，每日在预设固定时间开始数据分析，核心进程的运维指标采样数据会随业务应用使用大幅波动，数据分析完成后进程结束并释放资源，曲线数据类型为周期型。

实时业务应用进程可能在任意时刻发生主备切换，此后主备进程的运维指标采样数据特性互换，即新主机进程可能由平稳型变为不规则型，新备机进程可能由不规则型变为平稳型。因此，需要判断近期运维指标采样数据特性，即曲线数据类型还包括：近期缺失型、近期恒值型、近期微浮动型、近期平稳型。

本发明采用一个运维采集指标对应一个时序预测模型的方式，针对电网调控系统运维采集指标数据特性差异较大的特点，可以有效解决单一模型无法满足所有运维采集指标数据曲线的模型评估要求的问题。

本发明结合运维指标采样数据特性和实际业务应用场景，将服务器、业务应用进程的运维指标采样数据分为：缺失型、恒值型、微浮动型、平稳型、周期型、不规则型，以及近期缺失型、近期恒值型、近期微浮动型、近期平稳型等。针对电网调控系统运行监视指标多的特点，仅周期型和不规则型训练时序预测模型，可以有效减少模型训练个数，提高模型构建效率，满足系统运行监视实时性的要求。

在本实施例中，在2022年3月8日0:01:00获取某服务器上某应用主机核心进程前7天的内存运维指标采样数据，通过步骤S22得到曲线分类结果：该数据为不规则型时间序列。

步骤S23、根据步骤S22的运维指标采样数据的曲线分类结果，根据时序预测算法更新或重新训练模型。

S231.获取上一预设时间训练得到的指标时序预测模型，判断曲线分类结果与指标时序预测模型是否匹配。

S232.如果不匹配或不存在，根据时序预测算法重新训练模型并保存。

S233.如果匹配，根据时序预测算法更新模型并保存。

时序预测算法包括但不限于：LGB算法、LSTM算法、指数平均算法。其中，周期型与LGB算法具有对应关系；不规则性与LSTM算法具有对应关系；缺失型、恒值型、微浮动型、平稳型、近期缺失型、近期恒值型、近期微浮动型、近期平稳型与指数平均算法具有对应关系。

如图3所示，若上一预设时间训练得到的指标时序预测模型，经反复迭代更新，时序模型评估结果不满足预设阈值，需根据时序预测算法重新训练模型。

针对电网调控领域业务应用进程平稳运行状态下，时序数据曲线特征不变的特性，通过运维指标采集数据曲线分类、模型迭代与参数更新等方式，有效减少LGB算法、LSTM算法模型训练个数，极大的提高了模型构建效率，能够满足系统运行监视实时性的要求。

在本实施例中，获取2022年3月7日的指标时序预测模型版本V1。假定版本V1为LSTM模型，则两者匹配，则根据LSTM算法迭代更新训练优化LSTM模型参数，并保存为版本V2。假定版本V1为LGB模型，则两者不匹配，则根据LSTM算法进行模型训练得到LSTM模型，并保存为版本V2。

步骤S24、根据步骤S23得到的时序预测模型，预测下一个预设时间范围的运维指标采样数据并保存至数据仓库。

在本实施例中，通过模型预测得到2022年3月8日全天1440个采样点的预测数据，并保存至模型仓库。

进一步的，在两次预设固定时间之间，增加根据预设周期，根据周期内预测数据和实际采集数据，迭代更新步骤S23得到的时序预测模型与参数，并更新预设时间范围的后续运维指标采样数据。

在本实施例中，预设3月8日1至23时的每个整点，获取前1个小时内的预测数据和实际采集数据，迭代更新时序预测模型，并更新该整点时刻至3月9日00:00的运维指标采样预测数据。

进一步的，结合不同运维指标的数据特性，时序预测算法根据时序模型评估结果动态调整，反复迭代寻找最优参数。

本发明突破了海量模型情况下的运维指标时序预测技术，建立了自适应和自学习模型构建与优化架构，通过实时学习指标运行规律设置动态阈值，通过实时故障诊断快速、准确识别系统故障，解决了基于专家经验值、固定阈值的故障检测算法易误报、漏报的痛点。

步骤S3、结合运维指标异常检测算法，识别系统运行故障，生成运行故障信息。

对于步骤S3中的异常检测算法，具体包括如下算法：

算法A、基于实时采集的运维指标数据，进行缺失异常检测。判断运维指标采样数据是否为空，如果是，则生成指标缺失运行故障信息。

算法B、基于Mann-kendall法的运维指标缓慢爬坡异常检测算法。

当所述运维指标为服务器的内存使用量、磁盘分区inode使用率、操作系统句柄使用量，以及进程的内存使用量、句柄使用量、客户端调用连接数量、core文件数量时，结合算法B识别系统运行故障，并生成指标缓慢爬坡运行故障信息。

算法B的具体步骤包括：

步骤B01、获取预设时间周期内的运维指标采样数据P为[P₁,P₂,......,P_n]。

预设时间周期包括但不限于分钟、小时、日、周、月、季或年等。

在本实施例中，假定需要监测的运维指标为：节点Node1的内存指标数据，针对采集周期为1分钟，指标检测窗口为1小时，在某日1:00获取节点Node1从0:01到1:00的内存指标数据：[P₁,P₂,......,P₆₀]。

步骤B02、基于Mann-kendall法检验运维指标数据趋势。

Mann-kendall趋势检验(以下简称：MK)是非参数检验，不要求数据是正态分布的，不要求变化趋势是线性的。MK趋势检验已经广泛运用于环境、气候、地理等领域。

MK趋势检验结果tau接近1时表示强烈的正相关，即指标随时间呈单调递增趋势。根据预设检验阈值，大于该阈值时判定指标存在缓慢爬坡趋势。窄窗口，适用于指标爬坡速度较快的场景；宽窗口，适用于指标爬坡速度缓慢但时间较长的场景。

在本实施例中，某服务器上的进程1和进程2在某日1:01到2:00的内存指标数据，在该日2:00检验近1小时趋势计算得到的tau值如表2所示，可知相同时间长度下，指标爬坡量越大即爬坡速度越快，tau值越大。

表2

进程	数据起始值	数据结束值	数据增长	tau值
					进程1	1025MB	1917MB	892MB	0.99
进程2	3203MB	3187MB	16MB	0.7

在本实施例中，某服务器上进程2在某日10:01到11:00在该日11:00检验近1小时趋势计算得到的tau值、0:01到次日0:00的内存指标数据在次日0:00检验近1日趋势计算得到的tau值如表3所示，可知在相同爬坡速度下，持续指标爬坡时间越长，tau值越大。

表3

数据起始时间	数据起始值	数据结束时间	数据结束值	数据增长	tau值
						10:01	3272MB	11:00	3282MB	10MB	0.71
0:01	3182MB	次日0:00	3405MB	223MB	0.98

步骤B03、根据预设检测时间窗口大小重复步骤B01和B02，预设若存在连续数个时间窗口内运维指标数据趋势均呈单调递增，则判定运维指标存在缓慢爬坡异常，并生成指标缓慢爬坡运行故障信息。

基于滑动窗口进行周期性趋势检测是指，每次仅判断一个窗口内指标趋势。即对于序列[P₁,P₂,......,P_n]，计算该序列的tau值并判断趋势。预设步长为k，即每次窗口右移k个单位，宽度不变，即计算序列[P_1+k,P_2+k,......,P_n+k]的tau值并判断趋势。预设连续m个窗口趋势均为单调递增，则判定在近k*m个单位内指标存在缓慢爬坡异常。

窄窗口小步长，常用于判断中短期趋势，适用于指标爬坡速度较快的场景；宽窗口大步长，常用于判断长期趋势，适用于指标爬坡速度缓慢但持续时间较长的场景。

在本实施例中，假定检测时间窗口为15分钟，连续时间窗口数为4，进程Proc1在某日1:00至2:15每15分钟检验近1小时趋势计算得到的tau值，如表4所示。进程Proc1在2:15分时满足连续4个生成运行故障信息，判定时间窗口内运维指标数据趋势均呈单调递增，指标存在缓慢爬坡异常，并生成指标缓慢爬坡运行故障信息。

表4

检测时间	数据起始时间	数据结束时间	tau值
				1:00	0:01	1:00	-0.64
1:15	0:16	1:15	-0.13
				1:30	0:31	1:30	0.61
1:45	0:46	1:45	0.98
				2:00	1:01	2:00	0.98
2:15	1:16	2:15	0.98

算法C、基于多算法集成学习的运维指标跳跃突变异常检测算法，包括以下步骤：

步骤C1、根据运维指标采样周期，实时获取运维指标采样数据序列。

步骤C2、将运维指标采样数据基于多算法进行异常值检测，如有超过半数将新数据判断为异常，则认为该条数据可能存在异常，则生成指标跳跃突变运行故障信息。

所述多算法包括但不限于N-sigma、TukeyTest、LOF等。

在本实施例中，某服务器Node1在某日22:00实时获取运维指标采样数据序列为[P₁...P₆₀]，假定基于N-sigma、TukeyTest、LOF等多算法进行异常值检测，判断结果如表5所示，超过半数将新数据判定为异常，认为该条数据可能存在异常，生成指标跳跃突变运行故障信息。

表5

算法	判断结果
		N-sigma	异常
TukeyTest	异常
		LOF	正常

步骤S4、汇总所有运行故障信息，完成运行故障检测，发送运行故障告警。

步骤S41、实时获取步骤S3得到的运行故障告警信息，基于多阈值告警分级，发送运行故障分级告警，如图4所示。

S411.所述多阈值包括：

S411.1基于多算法集成学习得到的基准阈值；

S411.2基于步骤S2得到的未来预测指标得到的动态阈值；

S411.3基于专家经验得到的红线阈值；

S412.所述告警分级包括：

S412.1当指标采集值小于基准阈值，保存为提示告警；

S412.2当指标采集值大于基准阈值且小于动态阈值，保存为次要告警；

S412.3当指标采集值大于动态阈值且小于红线阈值，保存并发送重要告警；

S412.4当指标采集值大于红线阈值，保存并发送紧急告警。

在本实施例中，某服务器Node1在某日22:00生成的指标跳跃突变运行故障信息中，指标采集值大于基准阈值且小于动态阈值，保存并发送发送次要跳跃突变告警。

步骤S42、在预设固定时间，获取步骤S3得到的运行故障告警信息进行多指标告警归纳，保存并发送运行故障归纳告警。

所述多指标包括但不限于表1中的所有运维采集指标类型。

所述告警归纳还包括，基于历史运行故障告警的统计告警。

所述告警归纳还包括，环比上一检测周期基于历史运行故障信息的告警发现。

在本实施例中，首先预设每日0:00，基于步骤S3得到的运行故障告警信息进行告警归纳，发送运行故障归纳告警。

在本实施例中，假定某服务器Node2在2022年3月2日0:00，统计3月1日0:00至3月2日0:00的运行故障告警信息，归纳告警如下：“2022年3月1日，Node2节点指标采样率99.5％，指标缺失共14个，其中内存使用量指标缺失6个，某磁盘分区使用率指标缺失8个；指标跳跃突变率99.3％，指标跳跃突变共21个，其中CPU使用率指标跳跃突变15个，1分钟平均负载指标跳跃突变6个；内存使用量指标9:00至19:00累计泄漏2G，平均泄漏速度200M/小时。”

步骤S43、基于相关性系数的多维度告警分析算法，保存并发送运行故障分析告警。

S431.实时获取运行故障信息，并基于历史运行故障信息进行相关性分析，抑制运行指标重复性告警，生成运行突发性异常故障告警。

具体包括：

S431.1实时与历史运行故障信息数据强相关，抑制运行指标重复性告警；

S431.2实时与历史运行故障信息数据弱相关，生成运行突发性异常故障告警。

电网调控领域离线分析类业务应用每日固定时间对历史数据进行分析，运维数据与时间存在强相关性，基于历史运行告警信息进行相关性分析有利于减少重复性告警信息。

在本实施例中，假定某服务器上进程2历史运行故障信息数据特征：平均每日2:00至10:00内存使用量泄漏8.1G，平均泄漏速度1G/小时。

在本实施例中，假定进程2当日8:00获得的指标缓慢爬坡运行故障信息：当日2:00至8:00内存使用量泄漏6.2G，平均泄漏速度1G/小时，与历史运行故障信息数据强相关，则抑制运行指标重复性告警；

在本实施例中，假定进程2当日8:30获得的指标缓慢爬坡运行故障信息：当日2:00至8:30内存使用量泄漏13G，平均泄漏速度2G/小时，与历史运行故障信息数据弱相关，则生成运行突发性异常故障告警。

S432.基于服务器、进程运行故障信息的相关性分析，生成进程影响链告警。

电网调控领域部分业务应用采用独占服务器的部署方式，服务器与进程运维数据具有强相关性，进程运行故障直接影响服务器运行状态。

在本实施例中，假定对某服务器Node3和服务器上进程Proc3的历史30天运行告警信息进行相关性分析得到二者具有强相关性，则生成进程影响链告警。

本发明通过多阈值告警分级、多指标告警归纳、多维度告警降噪，大幅减少实时运维监测告警数量，减少故障分析工作量，有效降低系统运维工作难度，实现系统故障精准感知，满足系统故障的快速诊断、快速定位、快速响应、快速解决的需求，建立全方位实时故障诊断体系，实现系统故障精准感知，保障系统稳定运行。

进一步的，本发明提供的面向电网调控系统的运行故障检测方法支持自动定期检测，也支持检测历史数据。

历史数据检测过程为：根据智能运维平台Aiop历史数据检测需要，指定检测开始时间和结束时间，重复步骤S1至S4生成历史运行故障告警。通过历史数据检测有效帮助发现由于人工巡检的局限性未发现的运维问题。

实施例2

本发明提供一种基于人工智能的电网调度支持系统故障诊断装置，包括如下模块：

模块M1、运维指标采集数据获取模块，用于获取服务器、进程的运维指标采集数据。

模块M2、指标未来预测数据生成模块，用于根据预设固定时间，基于指标时序预测算法得到预设时间范围的指标未来预测数据。

模块M201、指标采样曲线分类子模块，用于将运维指标采集数据进行分类。

模块M202、运维指标时序预测子模块，用于根据训练和更新运维指标预测模型，并根据模型生成指标预测数据。

模块M3、运维指标异常检测算法模块，用于根据异常检测算法生成运行故障信息。

模块M301、运维指标缺失检测子模块，用于生成指标缺失故障信息。

模块M302、运维指标缓慢爬坡检测子模块，用于基于运维指标缓慢爬坡异常检测算法，生成指标缓慢爬坡故障信息。

模块M303、运维指标跳跃突变检测子模块，用于基于运维指标跳跃突变异常检测算法，生成指标跳跃突变故障信息。

模块M4、运行故障告警生成模块，用于汇总所有运行故障信息，发送运行故障告警。

模块M401、运行故障分级告警实时生成子模块，用于实时获取运行故障告警信息，基于多阈值告警分级，保存并发送运行故障分级告警。

模块M402、运行故障归纳告警生成子模块，用于根据预设固定时间，获取运行故障告警信息进行多指标告警归纳，保存并发送运行故障归纳告警。

模块M403、运行故障分析告警生成子模块，用于获取运行故障告警信息，基于相关性系数的多维度告警分析，保存并发送运行故障分析告警。

其中，模块M403包括如下功能：

实时、历史运行故障告警信息的相关性分析功能；

服务器、进程运行故障告警信息的相关性分析功能；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和技术原理的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的，这些修改和变更也应视为本发明的保护范围。

Claims

1.一种电网调度支持系统故障诊断方法，其特征是，包括以下步骤：

获取服务器、进程的运维指标采集数据；

2.根据权利要求1所述的一种电网调度支持系统故障诊断方法，其特征在于，所述基于指标时序预测算法得到预设时间范围的指标未来预测数据，包括：

对运维指标采样数据进行曲线分类；

3.根据权利要求2所述的一种电网调度支持系统故障诊断方法，其特征在于，所述根据时序预测算法更新或重新训练时序预测模型，包括：

如果匹配，根据时序预测算法更新时序预测模型并保存。

4.根据权利要求2所述的一种电网调度支持系统故障诊断方法，其特征在于，所述对运维指标采样数据进行曲线分类，包括：

判断数据是否为恒定值，如果是，则属于恒值型；

还包括，按日切分运维指标采样数据进行曲线分类：

如果上述均不是，则属于不规则型。

5.根据权利要求4所述的一种电网调度支持系统故障诊断方法，其特征在于，所述时序预测算法包括但不限于LGB算法、LSTM算法、指数平均算法；其中，所述LGB算法对应于周期型；所述LSTM算法对应于不规则型；所述指数平均算法对应于缺失型、恒值型、微浮动型、平稳型、近期缺失型、近期恒值型、近期微浮动型和近期平稳型。

6.根据权利要求1所述的一种电网调度支持系统故障诊断方法，其特征在于，所述运维指标异常检测算法，包括：

基于实时采集的运维指标数据缺失异常检测算法；

基于Mann-kendall法的运维指标缓慢爬坡异常检测算法；

基于多算法集成学习的运维指标跳跃突变异常检测算法。

7.根据权利要求6所述的一种电网调度支持系统故障诊断方法，其特征在于，所述基于Mann-kendall法的运维指标缓慢爬坡异常检测算法，包括：

获取预设时间周期内的运维指标采样数据；

基于Mann-kendall法检验运维指标数据趋势；

8.根据权利要求6所述的一种电网调度支持系统故障诊断方法，其特征在于，所述基于多算法集成学习的运维指标跳跃突变异常检测算法，包括：

根据运维指标采样周期，实时获取运维指标采样数据序列；

所述多算法包括但不限于N-sigma、TukeyTest和LOF。

9.根据权利要求1所述的一种电网调度支持系统故障诊断方法，其特征在于，所述汇总所有运行故障信息，完成运行故障检测，发送运行故障告警，包括：

10.根据权利要求9所述的一种电网调度支持系统故障诊断方法，其特征在于，所述多阈值，包括：

基于多算法集成学习得到的基准阈值；

基于未来预测指标得到的动态阈值；

基于专家经验得到的红线阈值。

11.根据权利要求9所述的一种电网调度支持系统故障诊断方法，其特征在于，所述告警分级包括：

当指标采集值小于基准阈值，保存为提示告警；

当指标采集值大于红线阈值，保存并发送紧急告警。

12.根据权利要求9所述的一种电网调度支持系统故障诊断方法，其特征在于，所述多维度告警分析，包括：

13.一种电网调度支持系统故障诊断装置，用于实行权利要求1-12任意一项所述的诊断方法，其特征在于，包括以下模块：

14.根据权利要求13所述的电网调度支持系统故障诊断装置，其特征在于，所述指标未来预测数据生成模块包括：

15.根据权利要求13所述的电网调度支持系统故障诊断装置，其特征在于，所述运维指标异常检测算法模块，包括：

运维指标缺失检测子模块，用于生成指标缺失故障信息；

16.根据权利要求13所述的电网调度支持系统故障诊断装置，其特征在于，所述运行故障告警生成模块，包括：