CN104360918A - 一种智能变电站系统自诊断与自恢复方法 - Google Patents
一种智能变电站系统自诊断与自恢复方法 Download PDFInfo
- Publication number
- CN104360918A CN104360918A CN201410544515.8A CN201410544515A CN104360918A CN 104360918 A CN104360918 A CN 104360918A CN 201410544515 A CN201410544515 A CN 201410544515A CN 104360918 A CN104360918 A CN 104360918A
- Authority
- CN
- China
- Prior art keywords
- self
- recoverage
- recovery method
- server
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Hardware Redundancy (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开了一种智能变电站系统自诊断与自恢复方法,包括如下步骤:(1)监控服务器主机定期获取系统核心进程站用内存大小,当其数值超过预定的阈值启动自恢复;(2)通过监控服务器主机与监控客户端之间的闭环自检进行异常检测,当监测异常次数累积超过预定阈值启动自恢复;(3)自恢复启动后,进行双服务器的主备切换操作,且主机重启产生异常的服务进程。本发明的智能变电站系统自诊断与自恢复方法利用系统运行期基本的画面刷新、数据刷新、告警上送等特性,在监控服务器主机和监控客户端之间形成闭环的定时自检功能,当自检结果符合异常条件时,利用系统的热备特性,启动系统的自恢复策略,以保证系统的长期运行可靠。
Description
技术领域
本发明属于电力系统智能变电站综合自动化领域,具体涉及一种智能变电站系统自诊断与自恢复方法。
背景技术
监控服务器在变电站长时间的运行过程中,可能会由于多种原因(比如一些隐藏漏洞)而出现异常,严重的异常会给用户带来恶劣影响。系统常见的异常如下:内存泄露不断累积导致的应用程序奔溃;系统资源泄露如socket、文件句柄不断累积导致的系统异常;进程或现场死锁导致的应用异常;对非法数据处理的保护性不够导致的程序异常(指针异常、堆栈被破坏)等。上述原因发生在监控系统的核心服务进程时,会导致监控系统表现出以下的特征:在线监控画面实时数据不刷新;产生的实时告警信息无法上传到操作员站;无法下发遥控命令;报表中没有历史数据;无法查询出历史告警信息。
因此,系统软件在发布前的测试很难保证没有任何问题,智能化的自诊断与自恢复功能是非常有必要的。
发明内容
本发明的目的是提供一种智能变电站系统自诊断与自恢复方法,保证系统的稳定可靠运行,并为查找出系统异常原因提供可靠依据。
为了实现以上目的,本发明所采用的技术方案是:一种智能变电站系统自诊断与自恢复方法,包括如下步骤:
(1)监控系统是按照主机、备机双服务器热备用的方式运行的,监控服务器主机首先进行本机核心进程的内存状况定时监测,定期获取系统核心进程站用内存大小,当其数值超过预定的阈值且无下降趋势时启动自恢复;
(2)通过监控服务器主机与监控客户端之间的闭环自检检查实时数据处理流程和消息数据处理流程是否正常,当监测异常次数累积超过预定阈值启动自恢复;
(3)自恢复启动后,进行双服务器的主备切换操作,且主机重启产生异常的服务进程。
在自恢复启动的同时系统启动异常断面信息录波功能,收集监控服务器主机、备机和操作员站在异常时刻一段时间内的断面环境数据进行存储。
通过监控服务器与监控客户端之间的闭环自检检测核心进程异常的过程如下:
(1)由监控服务器的主机产生不同类型的自检模拟数据,且各种类型的数据分别按照预定规则变化,按照一定规约产生变化数据;
(2)监控客户端周期读取数据,并比较其是否按照预定规则产生变化,以此来验证整个实时数据处理流程是否存在异常;
(3)监控客户端定时将自检结果报告给监控服务器主机。
自恢复由监控服务器上的角色控制进程执行,在自恢复启动时,首先在主服务器上触发,在接收到自恢复通知后,角色控制进程主动产生主备切换操作,将主机的本机角色切换为备,并重启产生异常的核心进程。
本发明的智能变电站系统自诊断与自恢复方法利用系统运行期基本的画面刷新、数据刷新、告警上送等特性,在监控服务器主机和监控客户端之间形成闭环的定时自检功能,当自检结果符合异常条件时,利用系统的热备特性,启动系统的自恢复策略,以保证系统的长期运行可靠。
在启动自恢复的同时开启系统录波功能,收集系统断面环境数据,保证系统的稳定可靠运行,并为查找出系统异常原因、对系统异常状况的归纳分析提供了实时、准确的数据依据。
附图说明
图1为本发明自诊断与自恢复方法架构图;
图2为客户与服务自检逻辑流程图;
图3为以系统网络节点为单位的录波数据结构。
具体实施方式
下面结合附图及具体的实施例对本发明进行进一步介绍。
针对监控服务器核心进程异常场景分析,归纳为内存泄露、异常退出(coredump)、线程死锁、线程死循环和其他等五种类型。异常时导致的结果分别是:在线监控画面实时数据不刷新、产生的告警无法上送至操作员站、无法下发控制命令、报表中查不到历史数据、无法查询到历史告警信息等。对于应用进程的产生的死循环、进程死锁或线程死锁会导致系统出现数据不刷新、命令无法下发现象。通过抓取线程的执行堆栈,并结合该线程的CPU率,集合堆栈对应的设计源代码,可以通过人工分析的方式得出当前运行状况,但若是先自动检测,则需对已有应用架构作出较大调整。针对核心进程运行中的各类异常以及业务应用结果是否正常,本发明的设计的自检与恢复机制,监控系统是按照主机、备机双服务器热备用的方式运行的,在监控服务器上部署自检应用服务模块,主机上的服务模块处于活动状态,备机上的服务模块处于热备用状态;在监控客户端部署业务应用自检程序,如图1所示。
本发明智能变电站系统自诊断与自恢复方法包括如下步骤:
(1)当应用进程产生的内存泄露较大时,会导致操作系统运行性能下降,因此监控服务器主机的自检应用服务模块首先进行本机核心进程的内存状况定时监测,定期获取系统核心进程站用内存大小,当其数值超过预定的阈值且无下降趋势时启动自恢复。
(2)通过监控服务器主机与监控客户端之间形成闭环的自检策略,用于检查实时数据处理流程和消息数据处理流程是否正常,当监测异常次数累积超过预定阈值启动自恢复,具体检测过程如下:
ⅰ、由监控服务器主机上的自检应用服务模块产生自检模拟数据,分别有模拟量(yc)、状态量(yx)和控制量(yk)三种,如表1所示,在自检数据模拟模块中,上述模拟量、状态量和控制量分别按照3秒、2秒和5秒的方式变化,按照一定规约产生变化数据,分别经由业务服务的处理流程和消息传递流程进行流转。
表1.自检数据一览表
ⅱ、监控客户端的业务应用自检程序定时从本地的实时库中,依据上述特征模拟量、状态量和控制量测点,周期读取数据,并比较是否按照预定规则产生变化,以此来验证整个实时数据处理流程是否存在异常。其中测点的ID按照系统最大容量限制,设置为内置标示,不需额外配置。
ⅲ、监控客户端业务应用自检程序定时将自检结果通过消息服务总线报告给监控服务器主机上的自检应用服务模块。
ⅳ、在监控服务器的自检数据模拟模块中,建立自检结果判断逻辑,如图2所示。自检结果变量iErrCounter默认值为0,当自检异常时,周期累加1,周期设置为10秒,当iErrCounter>=12(两分钟),则认为异常产生,启动自恢复。
(3)自恢复启动后,进行双服务器的主备切换操作,且主机重启产生异常的服务进程。
本实施例中核心进程在主角色服务器处于运行状态,在备角色服务器处于热备用状态。自恢复由监控服务器上的角色控制进程执行,在自恢复启动时,首先在主服务器上触发,在接收到自恢复通知后,角色控制进程主动产生主备切换操作,将主机的本机角色切换为备,并重启产生异常的核心进程。
另外,异常发生时刻的现场环境非常宝贵。当某核心进程发生异常时,该进程的运行堆栈、加载资源状况、内存使用、内部线程的CPU率应立刻抓取保存;操作系统的负载情况、网络流量、磁盘读写率也应及时抓取,否则事后仅通过进程的日志输出很难合理分析。在自恢复启动的同时也需要启动系统录波功能,在被触发后,系统录波功能会在全网节点上执行,即收集监控服务器主机、备机和操作员站在异常时刻一段时间内的断面环境数据进行存储,保存为格式化的文本文件,用于事后分析使用,录波的数据如图3。
以上实施例仅用于帮助理解本发明的核心思想,不能以此限制本发明,对于本领域的技术人员,凡是依据本发明的思想,对本发明进行修改或者等同替换,在具体实施方式及应用范围上所做的任何改动,均应包含在本发明的保护范围之内。
Claims (4)
1.一种智能变电站系统自诊断与自恢复方法,其特征在于,包括如下步骤:
(1)监控系统是按照主机、备机双服务器热备用的方式运行的,监控服务器主机首先进行本机核心进程的内存状况定时监测,定期获取系统核心进程站用内存大小,当其数值超过预定的阈值且无下降趋势时启动自恢复;
(2)通过监控服务器主机与监控客户端之间的闭环自检检查实时数据处理流程和消息数据处理流程是否正常,当监测异常次数累积超过预定阈值启动自恢复;
(3)自恢复启动后,进行双服务器的主备切换操作,且主机重启产生异常的服务进程。
2.根据权利要求1所述的智能变电站系统自诊断与自恢复方法,其特征在于:在自恢复启动的同时系统启动异常断面信息录波功能,收集监控服务器主机、备机和操作员站在异常时刻一段时间内的断面环境数据进行存储。
3.根据权利要求1所述的智能变电站系统自诊断与自恢复方法,其特征在于,通过监控服务器与监控客户端之间的闭环自检检测核心进程异常的过程如下:
(1)由监控服务器的主机产生不同类型的自检模拟数据,且各种类型的数据分别按照预定规则变化,按照一定规约产生变化数据;
(2)监控客户端周期读取数据,并比较其是否按照预定规则产生变化,以此来验证整个实时数据处理流程是否存在异常;
(3)监控客户端定时将自检结果报告给监控服务器主机。
4.根据权利要求1所述的智能变电站系统自诊断与自恢复方法,其特征在于:自恢复由监控服务器上的角色控制进程执行,在自恢复启动时,首先在主服务器上触发,在接收到自恢复通知后,角色控制进程主动产生主备切换操作,将主机的本机角色切换为备,并重启产生异常的核心进程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410544515.8A CN104360918B (zh) | 2014-10-15 | 2014-10-15 | 一种智能变电站系统自诊断与自恢复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410544515.8A CN104360918B (zh) | 2014-10-15 | 2014-10-15 | 一种智能变电站系统自诊断与自恢复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104360918A true CN104360918A (zh) | 2015-02-18 |
CN104360918B CN104360918B (zh) | 2017-08-29 |
Family
ID=52528182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410544515.8A Expired - Fee Related CN104360918B (zh) | 2014-10-15 | 2014-10-15 | 一种智能变电站系统自诊断与自恢复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104360918B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183587A (zh) * | 2015-09-28 | 2015-12-23 | 云瑞科技(天津)有限公司 | 通讯管理机的通讯进程管理方法及装置 |
CN105426294A (zh) * | 2015-11-04 | 2016-03-23 | 许继集团有限公司 | 智能变电站监控系统运行的日志生成及诊断方法 |
CN106230664A (zh) * | 2016-09-08 | 2016-12-14 | 国电南瑞科技股份有限公司 | 调度主站前置机状态异常监测及自恢复方法 |
CN106598016A (zh) * | 2015-10-14 | 2017-04-26 | 山东鲁能智能技术有限公司 | 变电站巡检机器人集中监控系统的故障自诊断系统及方法 |
CN107025243A (zh) * | 2016-02-02 | 2017-08-08 | 北京神州泰岳软件股份有限公司 | 一种资源数据的查询方法、查询客户端和查询系统 |
CN109902916A (zh) * | 2019-01-15 | 2019-06-18 | 中国电力科学研究院有限公司 | 一种面向攻击的电力工控系统业务自恢复方法及系统 |
CN114553331A (zh) * | 2022-02-25 | 2022-05-27 | 上海创远仪器技术股份有限公司 | 针对无线电监测站实现系统自检的方法、装置、处理器及其计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070079171A1 (en) * | 2005-09-30 | 2007-04-05 | Mehrdad Aidun | No data loss it disaster recovery over extended distances |
CN101408861A (zh) * | 2007-10-11 | 2009-04-15 | 鸿富锦精密工业(深圳)有限公司 | 应用程序实时监控系统及方法 |
CN101582787B (zh) * | 2008-05-16 | 2011-12-07 | 中兴通讯股份有限公司 | 一种双机备份系统及备份方法 |
CN101651580B (zh) * | 2009-09-08 | 2012-09-05 | 中兴通讯股份有限公司 | 一种触发双机切换的方法及装置 |
-
2014
- 2014-10-15 CN CN201410544515.8A patent/CN104360918B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070079171A1 (en) * | 2005-09-30 | 2007-04-05 | Mehrdad Aidun | No data loss it disaster recovery over extended distances |
CN101408861A (zh) * | 2007-10-11 | 2009-04-15 | 鸿富锦精密工业(深圳)有限公司 | 应用程序实时监控系统及方法 |
CN101582787B (zh) * | 2008-05-16 | 2011-12-07 | 中兴通讯股份有限公司 | 一种双机备份系统及备份方法 |
CN101651580B (zh) * | 2009-09-08 | 2012-09-05 | 中兴通讯股份有限公司 | 一种触发双机切换的方法及装置 |
Non-Patent Citations (1)
Title |
---|
蔡媛媛: "电力监控服务器的无人自检系统的研究与开发", 《万方学术论文》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183587A (zh) * | 2015-09-28 | 2015-12-23 | 云瑞科技(天津)有限公司 | 通讯管理机的通讯进程管理方法及装置 |
CN105183587B (zh) * | 2015-09-28 | 2018-10-26 | 云瑞科技(天津)有限公司 | 通讯管理机的通讯进程管理方法及装置 |
CN106598016A (zh) * | 2015-10-14 | 2017-04-26 | 山东鲁能智能技术有限公司 | 变电站巡检机器人集中监控系统的故障自诊断系统及方法 |
CN105426294A (zh) * | 2015-11-04 | 2016-03-23 | 许继集团有限公司 | 智能变电站监控系统运行的日志生成及诊断方法 |
CN107025243A (zh) * | 2016-02-02 | 2017-08-08 | 北京神州泰岳软件股份有限公司 | 一种资源数据的查询方法、查询客户端和查询系统 |
CN106230664A (zh) * | 2016-09-08 | 2016-12-14 | 国电南瑞科技股份有限公司 | 调度主站前置机状态异常监测及自恢复方法 |
CN106230664B (zh) * | 2016-09-08 | 2020-02-04 | 国电南瑞科技股份有限公司 | 调度主站前置机状态异常监测及自恢复方法 |
CN109902916A (zh) * | 2019-01-15 | 2019-06-18 | 中国电力科学研究院有限公司 | 一种面向攻击的电力工控系统业务自恢复方法及系统 |
CN114553331A (zh) * | 2022-02-25 | 2022-05-27 | 上海创远仪器技术股份有限公司 | 针对无线电监测站实现系统自检的方法、装置、处理器及其计算机可读存储介质 |
CN114553331B (zh) * | 2022-02-25 | 2024-04-19 | 上海创远仪器技术股份有限公司 | 针对无线电监测站实现系统自检的方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104360918B (zh) | 2017-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104360918A (zh) | 一种智能变电站系统自诊断与自恢复方法 | |
CN101753357A (zh) | 一种网络服务器集中监控系统和方法 | |
CN104126182A (zh) | 远程通信的系统和方法 | |
US20190372352A1 (en) | Method and device for controlling solar energy system, central controller and solar energy system | |
CN104122508B (zh) | 一种智能配电终端后备电源系统的在线监测方法 | |
CN108872762B (zh) | 电子设备漏电检测方法、装置、电子设备及存储介质 | |
WO2016183967A1 (zh) | 一种关键组件的故障告警方法、装置及大数据管理系统 | |
CN104699589A (zh) | 风扇错误侦测系统及方法 | |
CN110502396A (zh) | 一种服务器风扇健康状态监控及失效预警方法和装置 | |
CN103326885A (zh) | 一种报警信息的处理方法及装置 | |
CN103973516A (zh) | 一种数据处理系统中实现监控功能的方法及装置 | |
US20170244252A1 (en) | Autonomous Operational Platform for Micro-Grid Energy Management | |
CN102890486A (zh) | 集中式锅炉远程监控系统及其控制方法 | |
CN104679710A (zh) | 一种面向半导体生产线搬运系统软件故障快速恢复方法 | |
WO2023125702A1 (zh) | 换电站的云管理方法、系统、服务器及存储介质 | |
CN202632054U (zh) | 自动化设备远程监控系统 | |
CN104618461A (zh) | 一种基于动码云手机的服务器监控方法 | |
CN102541665A (zh) | 一种降低电子芯片温度的方法和装置 | |
CN105512554A (zh) | 系统监控方法和装置 | |
CN104346233A (zh) | 一种用于计算机系统的故障恢复方法及装置 | |
CN111047807B (zh) | 数据处理方法、报警平台、电子设备及存储介质 | |
WO2019036915A1 (zh) | 基于物联网的机房安全监控方法、装置及存储介质 | |
Prakash et al. | Smart Shut-Down and Recovery Mechanism for Industrial Machines Using Internet of Things | |
KR102418892B1 (ko) | 신뢰구간에 기반한 에너지 절감 방법 및 이를 이용한 장치 | |
CN110162320B (zh) | 不间断电源系统升级方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170829 Termination date: 20201015 |