发明内容
针对现有技术存在的上述不足,本发明提供一种基于调度控制系统故障辨识及趋性分析系统和方法,可实现调度控制系统实时运行状态感知且全景模拟的智能辅助服务,提升系统安全风险预处理能力。
一种基于调度控制系统故障辨识及趋性分析系统,包括系统监视模块、专家库管理模块、故障辨识及分析处理模块、及风险趋势分析及智能辅助决策模块,系统监视模块和专家库管理模块均分别与故障辨识及分析处理模块、及故障辨识及分析处理模块连接;
所述系统监视模块,与调控系统、二次安全防护系统、调度数据网系统连接,用于智能监测系统网络状态、服务器运行状态、业务运行状态、重要数据运行状态、业务关键指标状态、系统运行日志,并将监视内容和结果发送给与之相连的故障辨识及分析处理模块、风险趋势分析及智能辅助决策模块,对于异常情况主动给出告警;
所述故障辨识及分析处理模块,用于通过利用系统监视模块对调控系统、二次安全防护系统和调度数据网系统的监视结果,在发现系统故障后结合专家库进行分析处理,若故障不符合异常特征,则继续进行监视,若确实发生故障,则智能进行故障处理;
所述风险趋势分析及智能辅助决策模块,用于通过系统监视模块对调控系统、二次安全防护系统、调度数据网系统进行监视,当发现系统存在风险异常,则通过风险趋势分析及智能辅助决策模块结合专家库进行诊断分析,若风险异常不符合异常特征,则返回进行进行监视,若判断风险异常存在,则进行风险预警并给出解决方案,辅助故障解决。
进一步的,所述专家库管理模块集知识发现与积累、知识发布于一体,提供完善的专家库管理支撑服务,同时作为故障辨识处理专家库系统,专家库涵盖大量框架化、程式化的故障处理案例并基于过程式知识表示法、知识模型表示法和面向对象知识表示法,通过采用继承和封装技术,减少系统故障分析过程的冗余性,快速建立故障处理的理论知识和知识运用的方法,将故障处理集框架化、程式化,将文本内容转化为机器可识别的操作步骤,便于系统检索、分析和直接执行,为人工智能提供训练样本,为调度自动化运维人员提供有效的帮助,其具体实现方式如下:
导入框架化、机构化的故障处理集,形成知识库,供人工智能训练及故障处理;
系统各运行程序运行逻辑及运行节点异常特征;
将自主学习,自主辨别和处理的故障形成案例并入专家库;
导入各系统使用手册和说明文档管理,并支持分类和检索。
进一步的,所述故障辨识及分析处理模块采用人工神经网络ANN、人工智能技术进行故障辨识及智能分析处理,其具体的步骤如下:
首先,通过人工神经网络构建系统故障集原型,通过分析被诊断系统各个组成设备和程序的属性,并用不同层次类来描述设备和程序对应的故障异常特征,即赋予“神经元”属性,并通过神经网络传导来实现描述整个系统故障情况下的动态行为,故障异常特征包括:设备异常特征、网络异常特征、异常告警特征、安防策略特征、接口程序特征、日志错误信息特征;所有异常特征用于神经元传递及触发故障机制。“神经元”属性即系统监视模块所监视之应用状态属性、设备状态属性、网络状态属性,各属性之间的连接关系称之为“神经网络”;
其次,结合专家库管理模块所提供的大量和充分的故障实例,形成故障诊断模型的训练样本集,运用DS学习算法对样本集进行训练,通过训练学习使系统实现知识的自我组织,自我学习能力,经学习后,在神经元及它们之间的有向权重连接中蕴涵了处理问题的知识;
最后,系统借助人工神经网络神经元属性,以及人工干预的方法,不断加强对人工智能的训练。
进一步的,所述风险趋势分析及智能辅助决策模块具体实现方法如下:利用机器学习tree-bee和卷积神经网络算法,结合智能监视结果、故障辨识及多维分析过程,设置故障规则及对应解决方案,通过thought-->study-->way方式模拟人工思维及处理方式,利用智能监视内容,分析各系统运行数据以及故障前系统各项异常特征,根据系统发生故障,监视信息作为驱动输入,按照“神经元”知识指导的推理策略调动知识库在故障中的程序规则或设备状态搜索求得故障预测的结果,用附加动量因子对系统模型结构进行诊断,并改变动量因子的取值,并使用局部逼近的径向基函数实现的系统的故障预测,用“神经元”的属性及状态作为输入,可能的故障位置作为输出,当程序规则的条件部分与诊断输入信息相匹配,就将该规则作为可用规则放入候选队列中,再通过冲突消解,将其作为进一步推理的证据直至得到诊断结果,最终实现对风险的趋性分析;
趋性分析结果结合专家库各类故障模型,对于可能导致的的后果智能给出风险提示和解决方案。
一种基于调度控制系统故障辨识及趋性分析方法,其特征在于采用上述系统进行,所述方法包括如下步骤:
步骤一、故障智能辨识与处理:通过利用系统监视模块对调控系统、二次安全防护系统和调度数据网系统的监视结果,在发现系统故障后结合专家库进行分析处理,若故障不符合异常特征,则继续进行监视,若确实发生故障,则智能进行故障处理;
步骤二、风险趋势分析及智能辅助决策:通过系统监视模块对调控系统、二次安全防护系统、调度数据网系统进行监视,当发现系统存在风险异常,则通过风险趋势分析及智能辅助决策模块结合专家库进行诊断分析,若风险异常不符合异常特征,则返回进行进行监视,若判断风险异常存在,则进行风险预警并给出解决方案,辅助故障解决。
进一步的,所述步骤一具体为:
首先,通过人工神经网络构建系统故障集原型,通过分析被诊断系统各个组成设备和程序的属性,并用不同层次类来描述设备和程序对应的故障异常特征,即赋予“神经元”属性,并通过神经网络传导来实现描述整个系统故障情况下的动态行为,故障异常特征包括:设备异常特征、网络异常特征、异常告警特征、安防策略特征、接口程序特征、日志错误信息特征;所有异常特征用于神经元传递及触发故障机制。“神经元”属性即系统监视模块所监视之应用状态属性、设备状态属性、网络状态属性,各属性之间的连接关系称之为“神经网络”;
其次,结合专家库管理模块所提供的大量和充分的故障实例,形成故障诊断模型的训练样本集,运用DS学习算法对样本集进行训练,通过训练学习使系统实现知识的自我组织,自我学习能力,经学习后,在神经元及它们之间的有向权重连接中蕴涵了处理问题的知识;
最后,系统借助人工神经网络神经元属性,以及人工干预的方法,不断加强对人工智能的训练。
进一步的,所述步骤二具体为:
利用机器学习tree-bee和卷积神经网络算法,结合智能监视结果、故障辨识及多维分析过程,设置故障规则及对应解决方案,通过thought-->study-->way方式模拟人工思维及处理方式,利用智能监视内容,分析各系统运行数据以及故障前系统各项异常特征,根据系统发生故障,监视信息作为驱动输入,按照“神经元”知识指导的推理策略调动知识库在故障中的程序规则或设备状态搜索求得故障预测的结果,用附加动量因子对系统模型结构进行诊断,并改变动量因子的取值,并使用局部逼近的径向基函数实现的系统的故障预测,用“神经元”的属性及状态作为输入,可能的故障位置作为输出,当程序规则的条件部分与诊断输入信息相匹配,就将该规则作为可用规则放入候选队列中,再通过冲突消解,将其作为进一步推理的证据直至得到诊断结果,最终实现对风险的趋性分析;
趋性分析结果结合专家库各类故障模型,对于可能导致的的后果智能给出风险提示和解决方案。
本发明基于调度控制系统故障前后各异常特征,将人工神经网络人工智能技术应用于电网调度控制系统领域,依托数据检测和清洗、垂直搜索、异常数据辨识等技术,实现系统实时运行状态感知且全景模拟的智能辅助服务,集成先进的实时状态感知、量化态势评估,实现智能电网调度控制系统故障的实时监测、动态辨识与分析、风险预估、智能响应和高效服务,提升系统安全风险预处理能力。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。
请参阅图1,本发明基于调度控制系统故障辨识及趋性分析系统其中一个实施例包括系统监视模块1、专家库管理模块2、故障辨识及分析处理模块3、及风险趋势分析及智能辅助决策模块4,系统监视模块1和专家库管理模块2均分别与故障辨识及分析处理模块3、及故障辨识及分析处理模块4连接。
所述系统监视模块1,与调控系统5、二次安全防护系统6、调度数据网系统7连接,用于智能监测系统网络状态、服务器运行状态、业务运行状态、重要数据运行状态、业务关键指标状态、系统运行日志等,对于异常情况主动给出告警,告警方式包括弹窗、电话、短信、app推送等方式。其中所述调控系统5用于变电站和电厂数据采集和监视,所述二次安全防护系统6用于调控系统至变电站、电厂后台装置的端口限制和数据加密处理,所述调度数据网系统7用于提供数据采集所需的通道和网络。
所述系统监视模块1的具体监视内容如下:
调度控制系统监视:通过数据库提供的DCI接口,从数据库HISDB/ALARM模式告警表中下获取调控系统5的运行信息,包括:交换机工况(表switch_warn,获取交换机状态及端口状态),应用状态(app_gk,获取应用主备机切换及投退状态),数据库资源信息(data_base_resource,获取数据库资源信息),通道工况(channel_gk,获取通道切换及投退情况);
调度数据网监视:通过调度数据网系统7提供的对外接口(DADC),实时获取通信链路上骨干网路由器,接入网路由器实时运行状态,主站至各厂站链路状态,获取底层数据交换及系统交互流量包,实时监视调度数据网各节点运行状态;
二次安防系统监视:调度数据网系统7主要是通过对网络安全监视平台进行数据接入,接口方式采用数据库访问及约定的接口文件方式获取,数据库访问网络安全监视平台主要包括:主站至厂站隧道运行状态(sd_state),主站与厂站交互状态告警信息(chan_gk);接口文件主要是导出主站与厂站之间安防加密策略,包括IP地址信息,端口开放信息;通过以上两种方式实时监测隧道状态及加密策略情况。
所述系统监视模块1还用于将监视内容和结果发送给与之相连的故障辨识及分析处理模块3、风险趋势分析及智能辅助决策模块4。
所述故障辨识及分析处理模块3,用于通过利用系统监视模块1对调控系统5、二次安全防护系统6和调度数据网系统7的监视结果,在发现系统故障后结合专家库进行分析处理,若故障不符合异常特征,则继续进行监视,若确实发生故障,则智能进行故障处理。具体的,其用于实现对故障的进一步分析和处理,对上述系统监视模块1所监视的内容和故障进行分析,故障辨识是在总结原有大量系统故障处理过程和人工处理经验的基础上利用人工智能技术,模拟人工思维方式,学习人工处理过程,通过分析调控系统5的故障,再结合二次安全防护系统6和调度数据网系统7智能监测获取的结果,综合分析各系统可能存在的故障点,智能分析系统日志、程序运行日志、进程状态、业务状态、网络状态、服务器资源状态等手段实现故障的智能诊断,准确定位故障原因,给出智能化解决方案。
所述专家库管理模块2,集知识发现与积累、知识发布于一体,提供完善的专家库管理支撑服务。同时作为故障辨识处理专家库系统,专家库涵盖大量框架化、程式化的故障处理案例并基于过程式知识表示法、知识模型表示法和面向对象知识表示法,通过采用继承和封装技术,减少系统故障分析过程的冗余性,快速建立故障处理的理论知识和知识运用的方法,将故障处理集框架化、程式化,将文本内容转化为机器可识别的操作步骤,便于系统检索、分析和直接执行,为人工智能提供训练样本,为调度自动化运维人员提供有效的帮助。具体实现方式如下:
(1)导入框架化、机构化的故障处理集,形成知识库,供人工智能训练及故障处理;
(2)系统各运行程序运行逻辑及运行节点异常特征;
(3)将自主学习,自主辨别和处理的故障形成案例并入专家库;
(4)导入各系统使用手册和说明文档管理,并支持分类和检索。
所述专家库管理模块2将上述内容框架化、程式化,将文本内容转化为机器可识别的操作步骤,便于系统检索、分析和直接执行。
所述故障辨识及分析处理模块3采用人工神经网络(artificialneuralnetwork)ANN、人工智能技术进行故障辨识及智能分析处理,其具体的步骤如下:
首先,通过人工神经网络构建系统故障集原型,通过分析被诊断系统各个组成设备和程序的属性,并用不同层次类来描述设备和程序对应的故障异常特征,即赋予“神经元”属性,并通过神经网络传导来实现描述整个系统故障情况下的动态行为。故障异常特征包括:设备异常特征、网络异常特征、异常告警特征、安防策略特征、接口程序特征、日志错误信息特征等,所有异常特征用于神经元传递及触发故障机制。“神经元”属性即系统监视模块1所监视之应用状态属性、设备状态属性、网络状态属性等,各属性之间的连接关系称之为“神经网络”。
其次,结合专家库管理模块2所提供的大量和充分的故障实例,形成故障诊断模型的训练样本集,运用DS学习算法对样本集进行训练,通过训练学习使系统实现知识的自我组织,自我学习能力。经学习后,在神经元及它们之间的有向权重连接中蕴涵了处理问题的知识,它的知识表达是隐式的并具有一定的联想和泛化能力,对已训练的故障诊断模型,执行计算速度会更快,故障处理效率也就更高。
最后,系统借助人工神经网络神经元属性,以及人工干预的方法,不断加强对人工智能的训练,提升故障辨识和分析处理的准确度。整个故障智能辨识的难点在于人工学习需要大量经验总结、场景模拟和实践才能做到自主全面分析各项故障因素的能力,最终达到故障自动辨识、自动处理的目的。
图2为故障辨识及分析处流程,通过系统监视模块1对调控系统5、二次安全防护系统6、调度数据网系统7进行监视,发现系统故障后通过故障辨识及分析处理模块3结合专家库管理模块2进行分析处理,若故障不符合异常特征,则继续进行监视,若确实发生故障,则智能进行故障处理。
具体实施例如下:
scada应用故障:人工神经网络通过系统监视模块1监视到调控系统5各应用状态,各应用作为“神经元”,赋予“正常、故障、断网、退出”等运行状态,其中“故障、断网、退出”作为异常状态,其异常特征通过智能监视showservice显示结果判断,进一步触发“神经元”传导,主动分析包括及$HOME/bin下对应core信息,数据库/HISDB/ALARM进程告警信息,$HOME/var/log/sys_process.log报错日志信息,以2019-08-01 12:23:35,scada应用故障为例:
showservice监视结果判断具体发生故障时间及故障应用,发现2019-08-01 12:23:35分,scada应用故障;
系统结合专家库管理模块2中应用故障处理方法,智能处理,通过“seeproc”命令运行结果检查具体故障进程,发现为scada应用关键进程sca_point故障退出;
通过“find.-name‘$HOME/bin/core*sca_point””检查$HOME/bin下程序异常core文件,确定sca_point程序异常;
通过“grep"run unusual,exit"$HOME/var/logsys_process.log|grep'servicescada'|awk'{print$4$12}'|sed's/process_id:/:/g'|sed's/err_type:/:/g'|sed's/src_host_name:/:/g'|sed's/s:/:/g'|sed's/,//g'|sort-u`”获取$HOME/var/log/sys_process.log日志报错信息,定位scada应用关键进程sca_point故障退出;
通过“SELECT OCCUR_TIME,PROCESS_NAME,SERVICE_NAME,CONTENT FROMPROCESS_GK WHERE OCCUR_TIME=TO_DATE(‘2019-08-01 12:23:35’,‘yyyy-MM-dd HH24:mm:ss’)AND PROCESS_NAME=‘sca_point’”检索数据库HISDB/ALARM进程工况表(process_gk)内容,定位出故障进程sca_point;
结合专家库,判断出sca_point进程由于配置文件异常损坏导致程序运行出现异常,程序core掉后导致scada应用出现故障,系统根据故障案例处理办法,更换正常配置文件,重新运行程序后系统恢复正常。
某厂站通道故障:通过统监视模块1监视到调控系统5至各厂站通道状态,根据FES通道监视结果定位具体故障通道,利用ping厂站IP、厂站交换机地址、厂站网关、主站网关、telnetip端口等方式进行故障判定,同时利用ssh登录调度数据网相关路由器、交换机查看相关厂站通信运行状态以及二次安防加密策略情况,综合判定之后给出通道故障原因及解决办法;以某厂站通道中断为例进行判断,调控系统5前置服务器地址为10.88.33.1,厂站RTU地址为10.101.58.1,厂站交换机地址10.101.58.100,厂站网关为10.101.58.254,端口为2404:
通过调控系统5前置服务器10.88.33.1,ping厂站10.101.58.1,如果ping的通,telnet ip端口不通,判定为站端服务问题或安防加密策略问题;
若ping厂站RTU10.101.58.1不通,ping厂站交换机10.101.58.100通,判定为站端网络问题或安防加密策略问题;
若ping厂站交换机10.101.58.100不通,判定为安防加密策略问题及交换机问题;
若ping厂站网关10.101.58.254不通,ping厂站交换机10.101.58.100不通,判定为数据网或安防加密策略问题;
通过系统监视模块1监测调度数据网系统7各路由器,发现数据网各路由器节点网络状态正常;
通过系统监视模块1监测二次安全防护系统6缺失至厂站端IP的安防加密策略;
系统结合调控系统5ping的结果,调度数据网系统7及二次安全防护系统6监视结果,最终确定为加密策略问题,系统根据故障处理案例,自主添加安防加密策略,开通10.88.33.1对厂站RTU地址为10.101.58.1的2404端口访问。
所述风险趋势分析及智能辅助决策模块4,是在对系统监视模块1监视内容和故障处理结果进行分析的基础上,结合各系统运行数据,主动捕捉故障前系统各项异常特征(设备异常特征、网络异常特征、异常告警特征、安防策略特征、接口程序特征、日志错误信息特征等),将系统可能存在的风险及趋势推送给运维人员,辅助其对系统进行风险预判和评估,风险趋势分析的难点在于故障前系统异常特征的把控和捕捉,以及模拟人工思维和处理方式,快速定位本系统问题以及系统间故障问题,智能给出风险趋势及解决方案,最终达到提前消除和规避风险的目的,其实现方法如下:
利用机器学习tree-bee和卷积神经网络算法,结合上述智能监视结果、故障辨识及多维分析过程,设置故障规则及对应解决方案,通过thought-->study-->way方式模拟人工思维及处理方式,利用智能监视内容,分析各系统运行数据以及故障前系统各项异常特征,根据系统发生故障,监视信息作为驱动输入,按照“神经元”知识指导的推理策略调动知识库在故障中的程序规则或设备状态搜索求得故障预测的结果(由网络结构信息、设备状态、系统间的连接和异常特征的属性等组成)。用附加动量因子对系统模型结构进行诊断,并改变动量因子的取值,并使用局部逼近的径向基函数实现的系统的故障预测,用“神经元”的属性及状态作为输入,可能的故障位置作为输出,当程序规则的条件部分与诊断输入信息相匹配,就将该规则作为可用规则放入候选队列中,再通过冲突消解,将其作为进一步推理的证据直至得到诊断结果,最终实现对风险的趋性分析。趋性分析结果结合专家库各类故障模型,对于可能导致的的后果智能给出风险提示和解决方案。
图3为趋性分析及辅助决策流程,通过系统监视模块1,对调控系统5、二次安全防护系统6、调度数据网系统7进行监视,当发现系统存在风险异常,则通过风险趋势分析及智能辅助决策模块4结合专家库进行诊断分析,若风险异常不符合异常特征,则返回进行进行监视,若判断风险异常存在,则进行风险预警并给出解决方案,辅助故障解决。
图3是趋性分析及辅助决策流程图,其具体实施案例如下:
磁盘越限风险:系统通过系统监视模块1获取异常特征:sca1-1服务器“/分区”使用率90%且持续增长。系统通过卷积神经网络开始分析与之相关的风险项,以磁盘分区占用率较高为信号输入,按照“神经元”知识指导的推理策略调动知识库在故障中的程序规则或设备状态搜索求得故障预测的结果:“/分区”磁盘占用率过高不及时处理会导致根分区空间占满,从而导致服务器运行日志和运行程序读写异常,造成服务器变慢,系统功能异常等不可预计故障风险。磁盘清理可分为两类,一类为确认可清除内容,一类为风险清除内容,确认可清除内容由“神经元”属性确定,可为操作系统日志、系统程序日志等,风险清除内容为暂无法确定归属,需人工干预方可确认,具体分析如下:
结合专家库分析,“/分区”具体使用情况可通过“du-sh/*”进行分析处理;
最终分析可清理内容包括“/var/log/spool/clientmqueue/*”、“/var/log/memory.log*”、等大文件,以及部分“/tmp/*”文件;
“/var/log/spool/clientmqueue/*”日志为操作系统消息邮件垃圾,“/var/log/memory.log*”日志为操作系统记录日志,可直接清理,前置清理方式为“ls|xargs rm*”,后者情况方式为“cat/dev/null>memory.log”
“/tmp/*”文件无法确定内容,系统给出风险提示,推送运维人员进行处理。