CN110569139B - 一种针对信息系统的生命力保障系统及方法 - Google Patents
一种针对信息系统的生命力保障系统及方法 Download PDFInfo
- Publication number
- CN110569139B CN110569139B CN201910713218.4A CN201910713218A CN110569139B CN 110569139 B CN110569139 B CN 110569139B CN 201910713218 A CN201910713218 A CN 201910713218A CN 110569139 B CN110569139 B CN 110569139B
- Authority
- CN
- China
- Prior art keywords
- information
- function
- database
- station
- functional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/008—Reliability or availability analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0736—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function
- G06F11/0739—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function in a data processing system embedded in automotive or aircraft systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3013—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is an embedded system, i.e. a combination of hardware and software dedicated to perform a certain function in mobile devices, printers, automotive or aircraft systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Mobile Radio Communication Systems (AREA)
- Alarm Systems (AREA)
Abstract
一种针对信息系统的生命力保障系统及方法,所述的信息系统包括运行在多个不同权限与职责的操作台位上的功能任务以及管理数据库,通过管理数据库存储信息系统运行过程中的指标参数数值以及各操作台位之间的业务关联关系;生命力保障系统包括监控模块、分析模块、定位模块、决策模块和决策执行模块以及生命力保障数据库;本发明在系统内通过系统的动态重组的方式来实现自恢复效果。本发明提供的系统通过故障实时监测,并快速恢复故障功能,尽量降低功能故障造成的影响,且恢复过程是通过信息系统内部台位间的功能转移与动态配置,整个过程自动化实现,提高了信息系统整体的可用性。
Description
技术领域
本发明涉及一种生命力保障系统及方法。
背景技术
故障处理是提高系统可靠性的重要手段。人们对工程系统在应对外部干扰时适应性要求也发生着变化,从开始的以可靠性理论为代表的故障后维修,发展到以健康管理理论为代表的故障的预测与预防,再到以工程弹性系统(ERS)理论为代表的主动适应与自我恢复。
故障的被动维修。最开始,人们对人造工程系统的适应性要求是一种被动式的,围绕系统的故障,及时发现故障、维修故障,恢复系统的可用状态,并以此来评估系统的可靠性与维修性指标,发展出了可靠性、维修性和保障性理论。在可靠性理论中也采取了在系统设计阶段事前分析、事前应对的策略,如故障模式影响分析技术与故障树分析技术。故障模式影响分析技术通过假设系统内部件发生某些可能的故障,分析这些故障对系统的影响以及导致该故障发生的原因,提前给出应对措施,从而达到避免该故障发生或减弱该故障造成的影响的目的。
故障的实时监测与预防性维修。随着传感器技术的推广应用,可实时获取系统的部分状态信息,并依此综合判断系统的故障状态,而随着数据分析技术的运用,可建立故障发生的趋势模型,从而对系统故障进行预测,于是健康管理技术(Prognostics and HealthManagement,PHM)诞生了。健康管理技术注重故障的实时监视与预兆性预报,并能根据历史数据预测系统的故障发生时间,提前布置预防性维修活动,而不是等故障发生后的被动式维修,因此健康管理技术在提高工程系统的适应性方面前进了一步。
故障的自主修复。自然界的“自组织”系统,如生态系统,在外界干扰后部分破坏后会自我修复,人们把这样的过程也称作“弹性”。弹性观点起源于20世纪60、70年代的生态学。1973年,Holling发表了题为《生态系统的弹性和稳定性》(Resilience and Stabilityof Ecological Systems)的开创性论文,为生态弹性以及各种其他领域的弹性理论研究提供了基础。Holling将弹性定义为在维持系统结构、功能和反馈等不变的前提下,通过调整系统状态变量和驱动变量等参数,系统能吸收的扰动。在工程技术领域,美国国防部提出了工程弹性系统理论(Engineering Resilience System),并提出了工程弹性系统的四个关键特性,包括:1)击退/抵御/吸收;2)恢复能力;3)适应能力;4)广泛的效用。工程弹性系统理论强调对外部干扰的主动适应与对自身故障的主动恢复。
发明内容
本发明解决的技术问题是:克服现有技术的不足,提供一种针对信息系统的生命力保障系统及方法。
本发明的技术方案是:一种针对信息系统的生命力保障系统,所述的信息系统包括运行在多个不同权限与职责的操作台位上的功能任务以及管理数据库,通过管理数据库存储信息系统运行过程中的指标参数数值以及各操作台位之间的业务关联关系;所述的生命力保障系统包括监控模块、分析模块、定位模块、决策模块和决策执行模块以及生命力保障数据库;
监控模块选择监视对象指标参数并设置所述指标参数的标准值域范围,存入生命力保障数据库中,周期性从信息系统管理数据库中读取各台位的监控对象指标参数数值,将获得的参数数值保存到生命力保障数据库中;
分析模块周期性从生命力保障数据库读取监控对象指标参数数值;分析监控对象指标参数数值与设置的标准值域范围之间的偏差,判断偏差是否在要求的范围内,若满足则不作处理,否则,将存在偏差的监控对象指标参数在生命力保障数据库中进行标记并存储其数值偏差幅度;
定位模块从生命力保障数据库中选取标记的监控对象指标参数,定位出该监控对象指标参数所属的操作台位,以及与该操作台位关联的操作台位,生成定位结果信息通知关联台位,并将定位结果存入在生命力保障数据库中;
决策模块从生命力保障数据库中获取定位结果,确认需要重新分配的功能任务,作出指派任务的决策,并将决策结果存储在生命力保障数据库中;
决策执行模块根据决策结果在选定的操作台位上重新配置功能任务清单,并通知相关操作台位,完成对故障操作台位功能的恢复。
优选的,所述的监控对象指标参数包括结构指标参数、功能指标参数与信息指标参数三类中的一类或多类;
其中,结构指标参数是指将影响信息系统结构状态的监控参数,包括操作台位CPU的负载、内存的负载、硬盘剩余空间大小以及操作台位的启动状态;功能指标参数包括功能任务运行累积时间数据,当前正在处理的功能任务清单以及当前任务完成后的后续处理任务清单;信息指标参数包括操作台位与管理数据库之间的信息发送参数。
优选的,所述的监控模块提供监控对象指标参数及其标准值域范围的编辑维护功能,并将编辑输入的数值存储在生命力保障数据库中。
优选的,所述的分析模块在发现偏差的情况下生成警报信号并向信息系统管理员发送告警。
优选的,所述分析模块通过下述方式确定偏差:
对于结构指标参数中的操作台位CPU的负载、内存的负载,通过首先进行傅里叶变换再进行频域内幅值比较的方式确定偏差;
对于结构指标参数中的硬盘剩余空间大小,以及功能指标参数中的功能任务运行累积时间数据采用数值比较的方式确定偏差;
对于信息指标参数中的操作台位与管理数据库之间的信息发送参数通过信息发送时间间隔是否超范围确定偏差;
针对结构指标参数中的操作台位启动状态,通过判断操作台位启动状态的布尔值确定偏差。
优选的,所述的信息系统中各操作台位上的功能任务在运行过程中自行收集运行时间累积数据,功能任务启动时,记录开始时间,功能任务执行过程中累积计时,功能任务执行完成后,由操作员确认,记录结束时间,若功能任务执行过程中由于外部干扰或功能异常,无法正常结束,累积计时持续,直到分析模块中分析累积计时超过标准值域范围,判断功能故障。
优选的,所述的定位模块通过下述方式实现:
从生命力保障数据库中选取标记有偏差超幅值的监控对象指标参数,根据生命力保障数据库中的信息定位该监控对象指标参数运行的操作台位信息,生成包含操作台位信息、功能任务信息、故障类型信息的定位结果;
根据定位的操作台位信息从管理数据库中获取关联操作台位信息,将定位结果发送至关联操作台位及系统管理员,并将定位结果存入在生命力保障数据库中;
上述功能任务信息包括故障操作台位故障时正在处理的功能任务清单以及后续处理任务清单。
优选的,所述的决策模块通过下述方式实现:
1)获取定位结果,确定需要重新配置的功能任务清单;
2)获取功能任务清单的限制条件信息,所述的限制条件信息包括:关联台位操作人员的权限,职责与技能,关联操作台位所处的物理位置,关联操作台位自身的未完成的功能任务清单以及功能任务的优先级;
3)判断关联操作台位所处的物理位置是否满足需要重新配置的功能任务清单执行要求,针对满足条件的关联操作台位执行4);
4)针对需要重新配置的功能任务清单每一项功能任务均判断是否在关联台位操作人员的权限与职责范围内,关联台位操作人员是否具备需要重新配置的功能任务清单的操作技能,针对均满足上述条件的关联操作台位则执行5);
5)判断关联操作台位的数量,若不少于一个,则任意选取其中一个关联操作台位,执行步骤6);否则,则从满足步骤3)条件的关联操作台位中任意选取一个关联操作台位执行步骤6);
6)将需要重新配置的功能任务清单以及对应选取的关联操作台位作为决策结果存入生命力保证数据库。
优选的,所述步骤(5)中若关联操作台位数量超过2个,则优选选取功能任务的优先级低于需要重新配置的功能任务清单的关联操作平台执行步骤6)。
优选的,所述步骤2)中获取的功能任务清单的限制条件信息为对信息系统操作台位、功能任务、操作员权限、职责与技能预先分析后,存入信息系统管理数据库中。
优选的,所述的决策执行模块通过下述方式实现:
从生命力保障数据库中读取决策结果,根据决策结果生成通知文本发送给选定的关联操作台位,由该台位操作员进行确认,确认后在该操作台位完成功能模块清单上功能任务的重新配置,针对已执行但未结束的功能模块从管理数据库中获取其已运行的无故障数据进行运行恢复;
操作员根据功能任务的优先级按顺序执行功能任务,从而完成对故障操作台位功能的恢复。
优选的,本发明系统当故障台位重新具备工作条件时,向选取的关联操作台位发送通知;所述关联操作台位确认后,完成当前正在执行的功能任务,向原故障操作台发送功能移交信息,待原故障操作台确认后将所有新增配置的功能任务清单移除,并向原故障台位发送新增配置功能任务清单中已完成功能任务以及未完成功能任务清单,由原故障台位后续执行所述未完成功能任务清单。
优选的,所述的周期性为秒级。
一种针对信息系统的生命力保障方法,通过下述方式实现:
第一步,选择监视对象指标参数并设置所述指标参数的标准值域范围,存入生命力保障数据库中,周期性从信息系统管理数据库中读取各操作台位的监控对象指标参数数值,将获得的参数数值保存到生命力保障数据库中;
第二步,周期性从生命力保障数据库读取监控对象指标参数数值;分析监控对象指标参数数值与设置的标准值域范围之间的偏差,判断偏差是否在要求的范围内,若满足则不作处理,否则,将存在偏差的监控对象指标参数在生命力保障数据库中进行标记并存储其数值偏差幅度;
第三步,从生命力保障数据库中选取标记的监控对象指标参数,定位出该监控对象指标参数所属的操作台位,以及与该操作台位关联的操作台位,生成定位结果信息通知关联台位,并将定位结果存入在生命力保障数据库中;
第四步,从生命力保障数据库中获取定位结果,确认需要重新分配的功能任务,作出指派任务的决策,并将决策结果存储在生命力保障数据库中;
第五步,根据决策结果在选定的操作台位上重新配置功能任务清单,并通知相关操作台位,完成对故障操作台位功能的恢复;
所述的信息系统包括运行在多个不同权限与职责的操作台位上的功能任务以及管理数据库,通过管理数据库存储信息系统运行过程中的指标参数数值以及各操作台位之间的业务关联关系;
所述的监控对象指标参数包括结构指标参数、功能指标参数与信息指标参数三类中的一类或多类;
其中,结构指标参数是指将影响信息系统结构状态的监控参数,包括操作台位CPU的负载、内存的负载、硬盘剩余空间大小以及操作台位的启动状态;功能指标参数包括功能任务运行累积时间数据,当前正在处理的功能任务清单以及当前任务完成后的后续处理任务清单;信息指标参数包括操作台位与管理数据库之间的信息发送参数。
优选的,所述第四步中的决策结果通过下述方式确定:
1)获取定位结果,确定需要重新配置的功能任务清单;
2)获取功能任务清单的限制条件信息,所述的限制条件信息包括:关联台位操作人员的权限,职责与技能,关联操作台位所处的物理位置,关联操作台位自身的未完成的功能任务清单以及功能任务的优先级;
3)判断关联操作台位所处的物理位置是否满足需要重新配置的功能任务清单执行要求,针对满足条件的关联操作台位执行4);
4)针对需要重新配置的功能任务清单每一项功能任务均判断是否在关联台位操作人员的权限与职责范围内,关联台位操作人员是否具备需要重新配置的功能任务清单的操作技能,针对均满足上述条件的关联操作台位则执行5);
5)判断关联操作台位的数量,若不少于一个,则任意选取其中一个关联操作台位,或者选取功能任务的优先级低于需要重新配置的功能任务清单的关联操作平台执行步骤6);否则,从满足步骤3)条件的关联操作台位中任意选取一个关联操作台位执行步骤6);
6)将需要重新配置的功能任务清单以及对应选取的关联操作台位作为决策结果存入生命力保证数据库。
本发明与现有技术相比有益效果为:
本发明是一种体现系统级自恢复的思想,与工程弹性系统理论的区别在于,本发明强调在系统内通过系统的动态重组的方式来实现自恢复效果。本发明提供的系统通过故障实时监测,并快速恢复故障功能,尽量降低功能故障造成的影响,且恢复过程是通过信息系统内部台位间的功能转移与动态配置,整个过程自动化实现,提高了信息系统整体的可用性。
本发明能够实时监控信息系统各模块的状态,某模块故障后能够准确进行定位并且能够通过系统内其它台位上通过动态配置,自动恢复该功能模块,从而保持信息系统的生命力。
本系统实现了信息系统故障的实时监测、快速定位和快速恢复,将故障对信息系统的任务影响大大降低。
本发明中的决策模块在选择恢复故障功能的操作台位时,综合考虑了操作台位的位置信息,操作员的权限、职责和操作技能信息,快速自动化选择一个合理的操作台位来进行功能恢复,提高了系统自恢复的效率,提升了系统整体可用性水平。
附图说明
图1为本发明系统框图;
图2为本发明监控模块流程图;
图3为本发明分析模块流程图;
图4为本发明定位模块流程图;
图5为本发明决策模块流程图;
图6为本发明决策执行模块流程图;
图7为本发明实施例系统结构图。
具体实施方式
下面结合附图1-6及实例对本发明作详细说明。
本发明提供一种针对信息系统的生命力保障系统,能够实时监视信息系统各模块的状态,出现故障时及时定位故障模块,选择恢复策略并执行,持续保持系统完成任务的能力。本发明针对的对象信息系统必须具有管理数据库,通过管理数据库存储信息系统运行过程中的指标参数数值(此处的指标参数数值可以理解为信息系统内所有可存储的运行过程参数数值或者根据需求自行选择的部分运行过程参数数值)以及各操作台位之间的业务关联关系;具体如图1所示,本发明系统包括监控模块、分析模块、定位模块、决策模块和决策执行模块以及生命力保障数据库;下面分别对各个模块进行说明。
一、监控模块
如图2所示,监控模块选择监视对象指标参数并设置所述指标参数的标准值域范围,存入生命力保障数据库中,周期性从信息系统管理数据库中读取各台位的监控对象指标参数数值,将获得的参数数值保存到生命力保障数据库中;
监控对象指标参数包括结构指标参数、功能指标参数与信息指标参数三类中的一类或多类,可根据实际情况进行选择。监控模块可以提供监控对象指标参数及其标准值域范围的编辑维护功能,并将编辑输入的数值存储在生命力保障数据库中。
其中,结构指标参数是指将影响信息系统结构状态的监控参数,包括操作台位CPU的负载、内存的负载、硬盘剩余空间大小以及操作台位的启动状态;功能指标参数包括功能任务运行累积时间数据,当前正在处理的功能任务清单以及当前任务完成后的后续处理任务清单;信息指标参数包括操作台位与管理数据库之间的信息发送参数,例如最新网络报文发送时间和网络报文发送速率。
二、分析模块
如图3所示,分析模块周期性从生命力保障数据库读取监控对象指标参数数值;分析监控对象指标参数数值与设置的标准值域范围之间的偏差,判断偏差是否在要求的范围内,若满足则不作处理,否则,将存在偏差的监控对象指标参数在生命力保障数据库中进行标记并存储其数值偏差幅度;实际应用过程中,分析模块在发现偏差的情况下可以生成警报信号并向信息系统管理员发送告警。分析模块针对具体的监控对象指标参数分别采用如下不同的方式进行处理:
对于结构指标参数中的操作台位CPU的负载、内存的负载,通过首先进行傅里叶变换再进行频域内幅值比较的方式确定偏差;
对于结构指标参数中的硬盘剩余空间大小,以及功能指标参数中的功能任务运行累积时间数据采用数值比较的方式确定偏差;数值比较中的标准值域范围一般由上限与下限组成,<值域下限,值域上限>,若指标参数超出所述值域范围,则认定出现故障。
对于信息指标参数中的操作台位与管理数据库之间的信息发送参数通过信息发送时间间隔是否超范围确定偏差;
针对结构指标参数中的操作台位启动状态,通过判断操作台位启动状态的布尔值确定偏差。
具体针对功能任务运行累积时间数据,由于信息系统中各操作台位上的功能任务在运行过程中自行收集运行时间累积数据,功能任务启动时,记录开始时间,功能任务执行过程中累积计时,功能任务执行完成后,由操作员确认,记录结束时间,若功能任务执行过程中由于外部干扰或功能异常,无法正常结束,累积计时持续,因此,当累积计时超过标准值域范围时则判断出现功能故障。
想要说明的是,本模块中的周期性的周期确定与监控模块中的周期相同,均为秒级,例如一个可行的实例为1s。
三、定位模块
定位模块从生命力保障数据库中选取标记的监控对象指标参数,定位出该监控对象指标参数所属的操作台位,以及与该操作台位关联的操作台位,生成定位结果信息通知关联台位,并将定位结果存入在生命力保障数据库中;具体如图4所示,处理步骤如下:
1)从生命力保障数据库中选取标记有偏差超幅值的监控对象指标参数,根据生命力保障数据库中的信息定位该监控对象指标参数运行的操作台位信息,生成包含操作台位信息、功能任务信息、故障类型信息的定位结果;
2)根据定位的操作台位信息从管理数据库中获取关联操作台位信息,将定位结果发送至关联操作台位及系统管理员,并将定位结果存入在生命力保障数据库中;
上述功能任务信息包括故障操作台位故障时正在处理的功能任务清单以及后续处理任务清单。
四、决策模块
决策模块从生命力保障数据库中获取定位结果,确认需要重新分配的功能任务,作出指派任务的决策,并将决策结果存储在生命力保障数据库中;具体如图5所示,步骤如下:
1)获取定位结果,确定需要重新配置的功能任务清单;
2)获取功能任务清单的限制条件信息,所述的限制条件信息包括:关联台位操作人员的权限,职责与技能,关联操作台位所处的物理位置,关联操作台位自身的未完成的功能任务清单以及功能任务的优先级;上述获取的功能任务清单的限制条件信息为对信息系统操作台位、功能任务、操作员权限、职责与技能预先分析后,存入信息系统管理数据库中。
信息系统中每个操作台位都有预先分配的功能职责与操作权限,对应于某一操作角色(即操作员),且具有一定的技能要求。角色按管理层级,上级可替代下级,但下级不可替代上级,如指挥员能替代一般操作员。所以每一个台位包含多种属性,存入信息系统的管理数据库中。
3)判断关联操作台位所处的物理位置是否满足需要重新配置的功能任务清单执行要求,针对满足条件的关联操作台位执行4),不满足该物理位置要求的操作台不执行后续处理;
根据功能任务所在操作台位的位置限制,选择功能恢复的关联操作台位必须满足执行后续功能任务所具备的环境条件,因为有些功能必须与外部环境信息进行交互;所以每个台位根据位置要求,在数据库中都预设有一个可替代台位列表即关联操作台位。
4)针对需要重新配置的功能任务清单每一项功能任务均判断是否在关联台位操作人员的权限与职责范围内,关联台位操作人员是否具备需要重新配置的功能任务清单的操作技能,针对均满足上述条件的关联操作台位则执行5);
本例中给出一种实现方式,即上级可替代下级,但下级不可替代上级的原则,结合操作技能从关联操作台位中选择满足要求的操作台位。
5)判断关联操作台位的数量,若不少于一个,则任意选取其中一个关联操作台位,执行步骤6);当步骤(5)中若关联操作台位数量超过2个,则优选选取功能任务的优先级低于需要重新配置的功能任务清单的关联操作平台执行步骤6);
否则,则从满足步骤3)条件的关联操作台位中任意选取一个关联操作台位执行步骤6);
6)将需要重新配置的功能任务清单以及对应选取的关联操作台位作为决策结果存入生命力保证数据库。
五、决策执行模块
决策执行模块根据决策结果在选定的操作台位上重新配置功能任务清单,并通知相关操作台位,完成对故障操作台位功能的恢复,具体如图6所示,步骤如下:
1)从生命力保障数据库中读取决策结果,根据决策结果生成通知文本发送给选定的关联操作台位,由该台位操作员进行确认,确认后在该操作台位完成功能模块清单上功能任务的重新配置,针对已执行但未结束的功能模块从管理数据库中获取其已运行的无故障数据进行运行恢复;
重新配置的过程是在新操作台位的功能菜单中新增一个一级菜单,该菜单下将故障台位后续执行的模块功能按执行顺序一一列举,新台位操作员可立即启动新增功能,以替代故障台位,完成后续优先级更高的工作。
2)操作员根据功能任务的优先级按顺序执行功能任务,从而完成对故障操作台位功能的恢复。
六、功能扩展
当故障台位重新具备工作条件时,向选取的关联操作台位发送通知;所述关联操作台位确认后,完成当前正在执行的功能任务,向原故障操作台发送功能移交信息,待原故障操作台确认后将所有新增配置的功能任务清单移除,并向原故障台位发送新增配置功能任务清单中已完成功能任务以及未完成功能任务清单,由原故障台位后续执行所述未完成功能任务清单。
实施例
以某舰船指挥与保障管理系统为例来说明生命力保障系统的执行过程。指挥与保障管理系统是负责舰船上飞机对象的指挥、调运、后勤保障、维修等任务。该系统主要组成如附图7所示,包含飞行指挥与飞行保障两个分系统,飞行指挥分系统又包括飞行指挥工作台、进场调度指挥工作台和甲板交通管制工作台,飞行保障分系统又包括飞行保障工作台,机务保障工作台和机务维修工作台。为该系统设计了专门的生命力保障系统,设置有生命力保障工作台和生命力保障数据库。注:本例中的工作台即为上述操作平台。
其中飞行保障工作台操作人员负责对即将投入使用的任务飞机进行飞行前状态确认,收集现场飞机状态检查员上报的信息,确认飞机具备起飞条件,并上报给飞行指挥工作台操作人员。现假设飞行保障工作台发生故障,软件卡死,需要重启计算机,生命力保障系统的工作过程描述如下。
监测模块首先设置监控对象指标参数,以及参数的预设值和偏差范围标准,然后将包含飞行保障工作台的所有台位的结构指标参数、功能指标参数与信息指标参数周期性采集,发送至生命力保障数据库。
分析模块分析出飞行保障工作台结构指标中的CPU负载超出阈值范围,信息指标中的超时未见信息发送,将上述信息组织成告警信息发送给系统管理员。
定位模块根据分析模块的结果定位到飞行保障工作台,并分析出飞行保障工作台的关联台位,包括飞行指挥工作台,进场调度指挥工作台与甲板交通管制指挥工作台,将定位结果信息发送给上述关联工作台。
决策模块获取当前故障台位正在执行的功能以及该功能的后续功能列表,例如正在执行的功能为查看飞机飞行计划功能,后续功能包括A.检查飞机飞行前准备过程,B.检查飞机勤务保障状态,C.查看飞机维护日志等,分析该功能任务清单关联的限制条件,先从物理位置来说,飞行保障工作台要求停机位置,上述三个关联台位都符合要求,再从操作员权限、职责和技能来判断,其中飞行指挥员的权限、职责和技能都符合,其它两个台位的权限不符合权限要求,从而选定飞行指挥工作台作为故障功能清单恢复的工作台位,生成决策结果发送给飞行指挥员,并存入生命力保障数据库。
决策执行模块读取决策结果,在选定的飞行指挥员工作台上重新配置故障台位当前正执行功能以及后续功能列表中的功能,并生成通知信息,发送给系统管理台位。从而完成对故障台位功能的恢复。
当飞行保障工作台恢复功能后,向飞行指挥员工作台发送已恢复信息,飞行指挥员工作台执行完当前功能后,给飞行保障工作台发送功能移交信息,待飞行保障工作台确认后,移除新增功能列表,并向飞行保障工作台发送已执行功能清单和未执行功能清单。飞行保障工作台恢复功能权限。
本发明未详细说明部分属于本领域技术人员公知常识。
Claims (15)
1.一种针对信息系统的生命力保障系统,所述的信息系统包括运行在多个不同权限与职责的操作台位上的功能任务以及管理数据库,通过管理数据库存储信息系统运行过程中的指标参数数值以及各操作台位之间的业务关联关系;其特征在于:包括监控模块、分析模块、定位模块、决策模块和决策执行模块以及生命力保障数据库;
监控模块选择监视对象指标参数并设置所述指标参数的标准值域范围,存入生命力保障数据库中,周期性从信息系统管理数据库中读取各台位的监控对象指标参数数值,将获得的参数数值保存到生命力保障数据库中;
分析模块周期性从生命力保障数据库读取监控对象指标参数数值;分析监控对象指标参数数值与设置的标准值域范围之间的偏差,判断偏差是否在要求的范围内,若满足则不作处理,否则,将存在偏差的监控对象指标参数在生命力保障数据库中进行标记并存储其数值偏差幅度;
定位模块从生命力保障数据库中选取标记的监控对象指标参数,定位出该监控对象指标参数所属的操作台位,以及与该操作台位关联的操作台位,生成定位结果信息通知关联台位,并将定位结果存入在生命力保障数据库中;
决策模块从生命力保障数据库中获取定位结果,确认需要重新分配的功能任务,作出指派任务的决策,并将决策结果存储在生命力保障数据库中;
决策执行模块根据决策结果在选定的操作台位上重新配置功能任务清单,并通知相关操作台位,完成对故障操作台位功能的恢复。
2.根据权利要求1所述的系统,其特征在于:所述的监控对象指标参数包括结构指标参数、功能指标参数与信息指标参数三类中的一类或多类;
其中,结构指标参数是指将影响信息系统结构状态的监控参数,包括操作台位CPU的负载、内存的负载、硬盘剩余空间大小以及操作台位的启动状态;功能指标参数包括功能任务运行累积时间数据,当前正在处理的功能任务清单以及当前任务完成后的后续处理任务清单;信息指标参数包括操作台位与管理数据库之间的信息发送参数。
3.根据权利要求1所述的系统,其特征在于:所述的监控模块提供监控对象指标参数及其标准值域范围的编辑维护功能,并将编辑输入的数值存储在生命力保障数据库中。
4.根据权利要求1或2所述的系统,其特征在于:所述的分析模块在发现偏差的情况下生成警报信号并向信息系统管理员发送告警。
5.根据权利要求2所述的系统,其特征在于:所述分析模块通过下述方式确定偏差:
对于结构指标参数中的操作台位CPU的负载、内存的负载,通过首先进行傅里叶变换再进行频域内幅值比较的方式确定偏差;
对于结构指标参数中的硬盘剩余空间大小,以及功能指标参数中的功能任务运行累积时间数据采用数值比较的方式确定偏差;
对于信息指标参数中的操作台位与管理数据库之间的信息发送参数通过信息发送时间间隔是否超范围确定偏差;
针对结构指标参数中的操作台位启动状态,通过判断操作台位启动状态的布尔值确定偏差。
6.根据权利要求5所述的系统,其特征在于:所述的信息系统中各操作台位上的功能任务在运行过程中自行收集运行时间累积数据,功能任务启动时,记录开始时间,功能任务执行过程中累积计时,功能任务执行完成后,由操作员确认,记录结束时间,若功能任务执行过程中由于外部干扰或功能异常,无法正常结束,累积计时持续,直到分析模块中分析累积计时超过标准值域范围,判断功能故障。
7.根据权利要求1所述的系统,其特征在于:所述的定位模块通过下述方式实现:
从生命力保障数据库中选取标记有偏差超幅值的监控对象指标参数,根据生命力保障数据库中的信息定位该监控对象指标参数运行的操作台位信息,生成包含操作台位信息、功能任务信息、故障类型信息的定位结果;
根据定位的操作台位信息从管理数据库中获取关联操作台位信息,将定位结果发送至关联操作台位及系统管理员,并将定位结果存入在生命力保障数据库中;
上述功能任务信息包括故障操作台位故障时正在处理的功能任务清单以及后续处理任务清单。
8.根据权利要求1所述的系统,其特征在于:所述的决策模块通过下述方式实现:
1)获取定位结果,确定需要重新配置的功能任务清单;
2)获取功能任务清单的限制条件信息,所述的限制条件信息包括:关联台位操作人员的权限,职责与技能,关联操作台位所处的物理位置,关联操作台位自身的未完成的功能任务清单以及功能任务的优先级;
3)判断关联操作台位所处的物理位置是否满足需要重新配置的功能任务清单执行要求,针对满足条件的关联操作台位执行4);
4)针对需要重新配置的功能任务清单每一项功能任务均判断是否在关联台位操作人员的权限与职责范围内,关联台位操作人员是否具备需要重新配置的功能任务清单的操作技能,针对均满足上述条件的关联操作台位则执行5);
5)判断关联操作台位的数量,若不少于一个,则任意选取其中一个关联操作台位,执行步骤6);否则,则从满足步骤3)条件的关联操作台位中任意选取一个关联操作台位执行步骤6);
6)将需要重新配置的功能任务清单以及对应选取的关联操作台位作为决策结果存入生命力保证数据库。
9.根据权利要求8所述的系统,其特征在于:所述步骤5)中若关联操作台位数量超过2个,则选取功能任务的优先级低于需要重新配置的功能任务清单的关联操作平台执行步骤6)。
10.根据权利要求8所述的系统,其特征在于:所述步骤2)中获取的功能任务清单的限制条件信息为对信息系统操作台位、功能任务、操作员权限、职责与技能预先分析后,存入信息系统管理数据库中。
11.根据权利要求1或8所述的系统,其特征在于:所述的决策执行模块通过下述方式实现:
从生命力保障数据库中读取决策结果,根据决策结果生成通知文本发送给选定的关联操作台位,由该台位操作员进行确认,确认后在该操作台位完成功能模块清单上功能任务的重新配置,针对已执行但未结束的功能模块从管理数据库中获取其已运行的无故障数据进行运行恢复;
操作员根据功能任务的优先级按顺序执行功能任务,从而完成对故障操作台位功能的恢复。
12.根据权利要求1所述的系统,其特征在于:当故障台位重新具备工作条件时,向选取的关联操作台位发送通知;所述关联操作台位确认后,完成当前正在执行的功能任务,向原故障操作台发送功能移交信息,待原故障操作台确认后将所有新增配置的功能任务清单移除,并向原故障台位发送新增配置功能任务清单中已完成功能任务以及未完成功能任务清单,由原故障台位后续执行所述未完成功能任务清单。
13.根据权利要求1所述的系统,其特征在于:所述的周期性为秒级。
14.一种针对信息系统的生命力保障方法,其特征在于通过下述方式实现:
第一步,选择监视对象指标参数并设置所述指标参数的标准值域范围,存入生命力保障数据库中,周期性从信息系统管理数据库中读取各操作台位的监控对象指标参数数值,将获得的参数数值保存到生命力保障数据库中;
第二步,周期性从生命力保障数据库读取监控对象指标参数数值;分析监控对象指标参数数值与设置的标准值域范围之间的偏差,判断偏差是否在要求的范围内,若满足则不作处理,否则,将存在偏差的监控对象指标参数在生命力保障数据库中进行标记并存储其数值偏差幅度;
第三步,从生命力保障数据库中选取标记的监控对象指标参数,定位出该监控对象指标参数所属的操作台位,以及与该操作台位关联的操作台位,生成定位结果信息通知关联台位,并将定位结果存入在生命力保障数据库中;
第四步,从生命力保障数据库中获取定位结果,确认需要重新分配的功能任务,作出指派任务的决策,并将决策结果存储在生命力保障数据库中;
第五步,根据决策结果在选定的操作台位上重新配置功能任务清单,并通知相关操作台位,完成对故障操作台位功能的恢复;
所述的信息系统包括运行在多个不同权限与职责的操作台位上的功能任务以及管理数据库,通过管理数据库存储信息系统运行过程中的指标参数数值以及各操作台位之间的业务关联关系;
所述的监控对象指标参数包括结构指标参数、功能指标参数与信息指标参数三类中的一类或多类;
其中,结构指标参数是指将影响信息系统结构状态的监控参数,包括操作台位CPU的负载、内存的负载、硬盘剩余空间大小以及操作台位的启动状态;功能指标参数包括功能任务运行累积时间数据,当前正在处理的功能任务清单以及当前任务完成后的后续处理任务清单;信息指标参数包括操作台位与管理数据库之间的信息发送参数。
15.根据权利要求14所述的方法,其特征在于:所述第四步中的决策结果通过下述方式确定:
1)获取定位结果,确定需要重新配置的功能任务清单;
2)获取功能任务清单的限制条件信息,所述的限制条件信息包括:关联台位操作人员的权限,职责与技能,关联操作台位所处的物理位置,关联操作台位自身的未完成的功能任务清单以及功能任务的优先级;
3)判断关联操作台位所处的物理位置是否满足需要重新配置的功能任务清单执行要求,针对满足条件的关联操作台位执行4);
4)针对需要重新配置的功能任务清单每一项功能任务均判断是否在关联台位操作人员的权限与职责范围内,关联台位操作人员是否具备需要重新配置的功能任务清单的操作技能,针对均满足上述条件的关联操作台位则执行5);
5)判断关联操作台位的数量,若不少于一个,则任意选取其中一个关联操作台位,或者选取功能任务的优先级低于需要重新配置的功能任务清单的关联操作平台执行步骤6);否则,从满足步骤3)条件的关联操作台位中任意选取一个关联操作台位执行步骤6);
6)将需要重新配置的功能任务清单以及对应选取的关联操作台位作为决策结果存入生命力保证数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910713218.4A CN110569139B (zh) | 2019-08-02 | 2019-08-02 | 一种针对信息系统的生命力保障系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910713218.4A CN110569139B (zh) | 2019-08-02 | 2019-08-02 | 一种针对信息系统的生命力保障系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569139A CN110569139A (zh) | 2019-12-13 |
CN110569139B true CN110569139B (zh) | 2023-04-14 |
Family
ID=68774529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910713218.4A Active CN110569139B (zh) | 2019-08-02 | 2019-08-02 | 一种针对信息系统的生命力保障系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569139B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111610778B (zh) * | 2020-06-23 | 2021-06-29 | 中国核动力研究设计院 | 一种提高工控系统稳定性的自适应监测系统 |
CN115470276B (zh) * | 2022-09-14 | 2024-08-27 | 中国人民解放军海军工程大学 | 一种舰艇或潜航设备生命力计算辅助教学系统 |
CN116384980B (zh) * | 2023-05-25 | 2023-08-25 | 杭州青橄榄网络技术有限公司 | 一种报修方法与系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550100A (zh) * | 2015-12-11 | 2016-05-04 | 国家电网公司 | 一种信息系统故障自动恢复的方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4869050B2 (ja) * | 2006-12-11 | 2012-02-01 | キヤノン株式会社 | 管理装置及び管理方法 |
-
2019
- 2019-08-02 CN CN201910713218.4A patent/CN110569139B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550100A (zh) * | 2015-12-11 | 2016-05-04 | 国家电网公司 | 一种信息系统故障自动恢复的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110569139A (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569139B (zh) | 一种针对信息系统的生命力保障系统及方法 | |
KR101341231B1 (ko) | 발전설비의 신뢰도 중심 정비 관리방법 | |
CN106357426A (zh) | 一种基于工业云的大规模分布式智能数据采集系统及方法 | |
WO2010070070A4 (de) | Adaptives zentrales wartungssystem und verfahren zum planen von wartungsvorgängen von systemen | |
CN103745293A (zh) | 一种rcm分析方法 | |
CN109062723A (zh) | 服务器故障的处理方法和装置 | |
CN108454879B (zh) | 飞机故障处理系统和方法及计算机设备 | |
CN109669844A (zh) | 设备故障处理方法、装置、设备和存储介质 | |
CN105099783A (zh) | 一种实现业务系统告警应急处置自动化的方法及系统 | |
RU2589353C2 (ru) | Система для рекомендации технического обслуживания вертолетного двигателя | |
CN117670033A (zh) | 一种安全检查方法、系统、电子设备及存储介质 | |
CN117149522A (zh) | 一种桥梁数据智能容灾备份系统和方法 | |
CN117851257A (zh) | 基于云计算的分布式软件测试环境构建系统 | |
CN108288997A (zh) | 一种传输网络光功率自动采集系统 | |
CN109995554A (zh) | 多级数据中心主备切换的控制方法及云调度指挥器 | |
Paz Barroso et al. | HEDOMS—Human error and disturbance occurrence in manufacturing systems: Toward the development of an analytical framework | |
CN112000451A (zh) | 批量作业调度系统、方法、设备及存储介质 | |
CN110609761B (zh) | 确定故障源的方法、装置、存储介质和电子设备 | |
CN117194154A (zh) | 一种基于微服务的apm全链路监控系统及方法 | |
Santhosh et al. | A Bayesian network approach for the quantitative assessment of resilience of critical systems | |
US20220237100A1 (en) | Preventive Controller Switchover | |
CN107590647A (zh) | 船舶管理系统的伺服监管系统 | |
CN112365182A (zh) | 基于任务与功能的船用设备维修工作类型分析方法及装置 | |
CN114069871A (zh) | 一种变电站静默监视调度系统及方法 | |
Malefaki et al. | Modeling software rejuvenation on a redundant system using Monte Carlo simulation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |