CN107678915A - 一种输变电设备监测平台基础资源监控方法 - Google Patents

一种输变电设备监测平台基础资源监控方法 Download PDF

Info

Publication number
CN107678915A
CN107678915A CN201710836414.1A CN201710836414A CN107678915A CN 107678915 A CN107678915 A CN 107678915A CN 201710836414 A CN201710836414 A CN 201710836414A CN 107678915 A CN107678915 A CN 107678915A
Authority
CN
China
Prior art keywords
power transmission
monitoring
basic resource
transforming equipment
platform basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710836414.1A
Other languages
English (en)
Inventor
邬蓉蓉
朱时阳
张炜
蒲金雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of Guangxi Power Grid Co Ltd
Original Assignee
Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of Guangxi Power Grid Co Ltd filed Critical Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority to CN201710836414.1A priority Critical patent/CN107678915A/zh
Publication of CN107678915A publication Critical patent/CN107678915A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]

Abstract

一种输变电设备监测平台基础资源监控方法,包括以下步骤:(1)实时采集被监控对象的状态数据;(2)如果所述状态数据超过预定的阈值,产生告警通知,否则将所述状态数据进行展示。通过使用本发明的方法,就可实现对各类异构组件进行集中化的采集分析,对各类被监控对象产生的大量数据进行集中监控管理和汇聚。并从不同角度展示输变电设备监测平台基础资源运行的健康状态,提升精细化管理能力,为运维部门科学规划提供重要数据依据。

Description

一种输变电设备监测平台基础资源监控方法
技术领域
本发明涉及电力监测技术领域,尤其涉及一种输变电设备监测平台基础资源监控方法。
背景技术
大数据时代已经来临,随着IT基础架构日趋复杂和庞大,目前输变电设备状态监控中心系统对IT运行环境缺乏一套科学、有效、准确的分析能力,IT分析和规划完全依赖经验主义,无法对各类异构组件,如主机、数据库、应用等进行集中化的采集分析,也无法对各类被管对象产生的大量数据进行集中监测处理,更无法从不同角度展示输变电设备状态监控中心系统IT运行的健康状态。
发明内容
为克服现有技术的不足之处,本发明的目的在于建立一套集中、统一的集中监控方法,实时跟踪输变电设备状态监测平台各类基础设施的运行状态,实现对各类异构设备的集中化管理,实现真正意义上的主动化监测。
为实现上述目的,本发明采用的技术方案为:
一种输变电设备监测平台基础资源监控方法,包括以下步骤:
S1:实时采集被监控对象的状态数据;
S2:对所述状态数据进行判断,如果所述状态数据超过预定的阈值,产生告警通知,否则将所述状态数据进行展示。
优选的,所述步骤S1中的监控对象包括主机监控、数据库监控和web应用性能监控。
优选的,所述主机监控使用无代理方式或有代理方式采集状态数据,所述无代理方式采用分布式,所述有代理方式采用自动轮询方式。
优选的,所述无代理方式通过采集适配器实现,所述采集适配器包括Telnet、SSH、SSH2、JDBC/ODBC、WMI、FTP、SNMP和JMX。
优选的,所述主机监控包括CPU监控、内存监控、磁盘监控和进程监控。
优选的,所述数据库监控通过Agent方式或无Agent方式实现。
优选的,所述Web应用性能监控通过模拟用户行为来实现。
优选的,所述步骤S2中的告警通知包括短信通知、邮件通知和声音通知。
优选的,所述步骤S2中的展示具体为:在性能工作区中将多个被监控对象的多个性能指标按照一定的业务逻辑进行组织和呈现。
优选的,所述展示还包括在性能工作区中,为不同的业务创建不同的工作区,在所述工作区中组织和定义与之相关的不同的监控对象的各个性能指标,并且以不同的形式展示。
本发明的益处在于:
(1)对各类异构组件主机、数据库、应用等进行集中化的采集分析,对各类被监控对象产生的大量数据进行集中监测管理和汇聚。
(2)实现对各类异构组件运行状态集中化展示管理,将原本孤立的IT运行监测手段纳入到统一的平台管理架构中进行集中的查看和分析。
(3)实现从基础资源管理到应用性能管理的跨越,着重关注应用性能质量。
(4)从不同角度展示输变电设备监测平台基础资源运行的健康状态,提升精细化管理能力,为运维部门科学规划提供重要数据依据,协助运维部门从成本中心迈向价值中心。
(5)将多个被管理对象的多个性能指标按照一定的业务逻辑进行组织和呈现,从而使用户能够在同一个管理界面中一目了然的查看所有与其管理职责相关的性能指标。
(6)提供多种告警通知方式,便于管理人员能够第一时间接到通知。
(7)提供可视化的性能工作区图形界面,便于运维人员快速找到故障设备的位置。
附图说明
图1为本发明的工作流程图。
图2为本发明主机监控系统参数展示图。
具体实施方式
一种输变电设备监测平台基础资源监控方法,如图1所示,包括以下步骤:
S1:实时采集被监控对象的状态数据;
S2:对所述状态数据进行判断,如果所述状态数据超过预定的阈值,产生告警通知,否则将所述状态数据进行展示。
在本实施例中,对基础资源的监控主要包括主机监控、数据库监控和web应用性能监控。其中:
1、主机监控
主机监控状态数据的采集方式包括无代理采集和有代理采集。对于无代理方式采集,本实施例提供了各类采集适配器,如Telnet、SSH、SSH2、JDBC/ODBC、WMI、FTP、SNMP、JMX等方式来实现采集,足以满足相关技术规范要求的操作系统等的管理要求。监测平台支持各类采集任务配置、采集作业解析、采集周期调整、数据采集方式管理能力。同时,监测平台还支持分布式采集机制,能够提供管理数据的分布式采集,由其实现统一的采集数据管理和汇聚。而对于有代理采集,监测平台提供单一探针的方式实现对主机的智能监测,在被监测主机上安装Agent之后,能够根据用户的配置自动轮询网络中各被监控主机的系统参数,包括:CPU、内存、交换区、文件系统、磁盘I/O、日志文件等。对每个被监控对象的参数收集内容、轮询间隔等均可以由管理员进行定制,进一步可以设定解决问题的自动化操作。
主机监控包括CPU监控、内存监控、磁盘监控和进程监控。其中:
(1)CPU监控
针对CPU的监控,主要监测CPU用户态使用时间、CPU系统态使用时间、CPU等待IO的时间和CPU空闲时间等,当CPU的使用率超过阈值时,产生告警通知。
(2)内存监控
针对内存的监控,监测平台主要提供了内存利用率、交换空间利用率、交换空间大小、交换空间使用情况、内存页交换速率、内存错页率、内存页面调进速率、内存页面调出速率等指标来监测物理内存、虚拟内存、以及系统页面调入、调出情况。当这些指标超过预先设定的阈值值,产生告警。
(3)磁盘监控
针对磁盘的监控,监测平台通过分区利用率、分区容量、磁盘分区利用率、硬盘容量等指标监测硬盘和分区的使用情况,通过硬盘读速率、硬盘写速率、硬盘平均读速度和硬盘平均写速率等指标监测硬盘的使用情况。当这些指标超过预先设定的阈值值,产生告警。
(4)进程监控
监测平台提供对进程的进程名称、进程ID、父进程ID、运行该进程的用户、进程优先级、运行终端等的监测。监测平台还提供对进程运行状态的监测,包括进程活、进程死、进程Sleep、进程等待等状态。当进程启动或者僵死时,产生告警,通知系统管理员。同时提供对进程进行停止等操作。
2、数据库监控
数据库监控的范围包括各重要应用系统中使用的各类数据库。支持通过Agent或无Agent方式实现对Oracle、Sysbase、SQL Server、MySQL、DB2等常用数据库的监测和管理。
数据库监控可在数据库问题对应用及最终用户构成影响前主动加以识别,这一功能是通过多个预定义阈值事件和状态来完成的,这些预定义的指标跟踪的信息会根据数据库软件版本的不同而有所区别,主要指标包括:
(1)DB status、Instance status、Listener Status
(2)占用CPU、内存情况、SGA、PGA
(3)Buffer Cache,分类、缓冲、共享池和事务处理性能,如每类平均行数和字典高速缓存命中率
(4)Connection 并行连接数,死连接数等
(5)Process,重算分段统计数字,如缩减量和等待获取百分比
(6)Lock(锁)的占用情况信息
(7)DB Space、表空间空间管理,如表格剩余空间和分割、分段最大极限
(8)Transation(事务)错误状况,如跟踪文件、SYS.DUAL状态、快照错误
(9)SQL Statistics,表格和索引性能,包括高速缓存表格数量和全表格扫描速率
(10)物理读写,报警记录信息,如数据块损坏、剩余资源队列、内部错误和I/O读/写故障
3、Web应用性能监控
对于Apache等Web服务软件,主要关注其性能参数的监测,包括对Web应用服务的可用性、性能等方面的监测,例如对于各种Web服务响应的速度、服务状态是否正常等。
监测平台通过其服务响应监测工具来监测Apache的这些性能参数,其实现方式主要是通过模拟用户行为来监测Apache的状态和响应状况。
在实际工作中,用户的一个交易,例如打开网页、验证、登录、查询、确定提交等,都会由多个步骤组成,用户可以在监测策略中定义每一交易步骤(如Get、Post、Head等各种操作),并逐步测量其响应速度,并提供直观的数据展现,这样就可以让维护人员清晰的了解此类交易的处理速度,定位交易中响应较慢的步骤,以便迅速解决问题。
监测平台提供了多种的结果展示机制。对于主机系统参数的展示,如图2所示。监测平台提供性能工作区功能,即将多个被管理对象的多个性能指标按照一定的业务逻辑进行组织和呈现。从而使用户能够在同一个管理界面中一目了然的查看所有与其管理职责相关的性能指标。同时,在性能工作区的图形界面中,能够为不同的业务创建不同的工作区,在其中组织和定义与之相关的不同的管理对象的各个性能指标,并且以不同的形式展示。
本实施例中,监测平台还提供多种告警通知方式,可以在产生不同级别告警时,根据不同情况以各种不同方式通知用户,包括短信通知、邮件通知和声音通知。其中:
(1)短信通知
目前,手机短信已经成为最常用、最有效的个人通知手段之一,因此监测平台支持和短信平台进行集成,以适应用户这种需要。管理员只要在监测平台中设置通知的对象、时机、方式和内容,当需要通知时,监测平台会自动调用相关的短信发送程序,将短信内容及时发送到指定的手机号码。
(2)邮件通知
监测平台提供配置界面对要自动发送E-Mail的告警进行配置,如通知的对象、时机、方式和内容,系统将通过JavaMail应用程序利用指定的、已有的邮件服务器发送邮件。邮件通知的内容可任意定制,默认包括告警源、告警描述、故障发生的时间、告警级别等信息。
(3)声音通知
监测平台将告警提示的声音文件部署在指定的监控终端中,在该终端上配置音箱,可以通过定义相关的规则,在发生相应告警时,通过音箱报告该告警的标题、级别、类别等信息。
通过使用本发明的方法,就可实现对各类异构组件如主机、数据库、应用等进行集中化的采集分析,对各类被监控对象产生的大量数据进行集中监测管理和汇聚。并从不同角度展示输变电设备监测平台基础资源运行的健康状态,提升精细化管理能力,为运维部门科学规划提供重要数据依据。同时,将多个被管理对象的多个性能指标按照一定的业务逻辑进行组织和呈现,从而使用户能够在同一个管理界面中一目了然的查看所有与其管理职责相关的性能指标。

Claims (10)

1.一种输变电设备监测平台基础资源监控方法,其特征在于,包括以下步骤:
S1:实时采集被监控对象的状态数据;
S2:对所述状态数据进行判断,如果所述状态数据超过预定的阈值,产生告警通知,否则将所述状态数据进行展示。
2.根据权利要求1所述的一种输变电设备监测平台基础资源监控方法,其特征在于,所述步骤S1中的监控对象包括主机监控、数据库监控和web应用性能监控。
3.根据权利要求2所述的一种输变电设备监测平台基础资源监控方法,其特征在于,所述主机监控使用无代理方式或有代理方式采集状态数据,所述无代理方式采用分布式,所述有代理方式采用自动轮询方式。
4.根据权利要求3所述的一种输变电设备监测平台基础资源监控方法,其特征在于,所述无代理方式通过采集适配器实现,所述采集适配器包括Telnet、SSH、SSH2、JDBC/ODBC、WMI、FTP、SNMP和JMX。
5.根据权利要求2所述的一种输变电设备监测平台基础资源监控方法,其特征在于,所述主机监控包括CPU监控、内存监控、磁盘监控和进程监控。
6.根据权利要求2所述的一种输变电设备监测平台基础资源监控方法,其特征在于,所述数据库监控通过Agent方式或无Agent方式实现。
7.根据权利要求2所述的一种输变电设备监测平台基础资源监控方法,其特征在于,所述Web应用性能监控通过模拟用户行为来实现。
8.根据权利要求1所述的一种输变电设备监测平台基础资源监控方法,其特征在于,所述步骤S2中的告警通知包括短信通知、邮件通知和声音通知。
9.根据权利要求1所述的一种输变电设备监测平台基础资源监控方法,其特征在于,所述步骤S2中的展示具体为:在性能工作区中将多个被监控对象的多个性能指标按照一定的业务逻辑进行组织和呈现。
10.根据权利要求9所述的一种输变电设备监测平台基础资源监控方法,其特征在于,所述展示还包括在性能工作区中,为不同的业务创建不同的工作区,在所述工作区中组织和定义与之相关的不同的监控对象的各个性能指标,并且以不同的形式展示。
CN201710836414.1A 2017-09-16 2017-09-16 一种输变电设备监测平台基础资源监控方法 Pending CN107678915A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710836414.1A CN107678915A (zh) 2017-09-16 2017-09-16 一种输变电设备监测平台基础资源监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710836414.1A CN107678915A (zh) 2017-09-16 2017-09-16 一种输变电设备监测平台基础资源监控方法

Publications (1)

Publication Number Publication Date
CN107678915A true CN107678915A (zh) 2018-02-09

Family

ID=61137518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710836414.1A Pending CN107678915A (zh) 2017-09-16 2017-09-16 一种输变电设备监测平台基础资源监控方法

Country Status (1)

Country Link
CN (1) CN107678915A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522186A (zh) * 2018-11-19 2019-03-26 郑州云海信息技术有限公司 一种基于Linux磁盘访问的监控方法及系统
CN110557283A (zh) * 2019-08-29 2019-12-10 海南电网有限责任公司 配电通信网管控方法、服务器、系统及可读存储介质
CN111651322A (zh) * 2020-05-29 2020-09-11 山东中创软件商用中间件股份有限公司 一种进程监控告警方法、系统及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201623722U (zh) * 2010-04-06 2010-11-03 珠海市鸿瑞信息技术有限公司 电力二次系统信息安全运维监管平台
CN102523140A (zh) * 2012-01-12 2012-06-27 江苏电力信息技术有限公司 一种用于电力客户服务系统运维的实时监测装置
CN103023695A (zh) * 2012-11-28 2013-04-03 绍兴电力局 基于电力调度自动化的主站系统监测模型
CN103491354A (zh) * 2013-10-10 2014-01-01 国家电网公司 一种系统运行监控可视化平台
US20160328307A1 (en) * 2015-05-08 2016-11-10 Quanta Computer Inc. Resource monitoring system and method thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201623722U (zh) * 2010-04-06 2010-11-03 珠海市鸿瑞信息技术有限公司 电力二次系统信息安全运维监管平台
CN102523140A (zh) * 2012-01-12 2012-06-27 江苏电力信息技术有限公司 一种用于电力客户服务系统运维的实时监测装置
CN103023695A (zh) * 2012-11-28 2013-04-03 绍兴电力局 基于电力调度自动化的主站系统监测模型
CN103491354A (zh) * 2013-10-10 2014-01-01 国家电网公司 一种系统运行监控可视化平台
US20160328307A1 (en) * 2015-05-08 2016-11-10 Quanta Computer Inc. Resource monitoring system and method thereof

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522186A (zh) * 2018-11-19 2019-03-26 郑州云海信息技术有限公司 一种基于Linux磁盘访问的监控方法及系统
CN109522186B (zh) * 2018-11-19 2021-11-05 郑州云海信息技术有限公司 一种基于Linux磁盘访问的监控方法及系统
CN110557283A (zh) * 2019-08-29 2019-12-10 海南电网有限责任公司 配电通信网管控方法、服务器、系统及可读存储介质
CN110557283B (zh) * 2019-08-29 2022-06-17 海南电网有限责任公司 配电通信网管控方法、服务器、系统及可读存储介质
CN111651322A (zh) * 2020-05-29 2020-09-11 山东中创软件商用中间件股份有限公司 一种进程监控告警方法、系统及装置

Similar Documents

Publication Publication Date Title
US11968264B2 (en) Systems and methods for operation management and monitoring of bots
Birke et al. Failure analysis of virtual and physical machines: patterns, causes and characteristics
CN110278097B (zh) 一种基于Android系统的服务器运维系统及方法
US6321263B1 (en) Client-based application availability
US7685269B1 (en) Service-level monitoring for storage applications
US8041807B2 (en) Method, system and program product for determining a number of concurrent users accessing a system
US7917536B2 (en) Systems, methods and computer program products for managing a plurality of remotely located data storage systems
CN107807872A (zh) 一种输变电系统运行状态监测方法
US8229953B2 (en) Metric correlation and analysis
CN106487574A (zh) 自动化运行维护监测系统
CN108259270A (zh) 一种数据中心统一管理系统设计方法
US11093349B2 (en) System and method for reactive log spooling
EP1759303A2 (en) Agent-less systems, methods and computer program products for managing a plurality of remotely located data storage systems
CN102567531B (zh) 一种通用的轻量级数据库状态监控方法
JP2004164637A (ja) ベースライン化および自動しきい値処理を行う仕組みを与える方法および装置
CN104022903A (zh) 一站式自动化运维系统
CN107832187A (zh) 一种输变电设备状态监测系统
CN107678915A (zh) 一种输变电设备监测平台基础资源监控方法
CN107704361A (zh) 一种输变电设备监测平台基础资源监控系统
Sukhija et al. Event management and monitoring framework for HPC environments using ServiceNow and Prometheus
CN109800133A (zh) 一种统一监控告警的方法、一站式监控告警平台及系统
CN114389937A (zh) 一种运维监控管理系统
CN109558299A (zh) 业务监控与预警的方法、装置、设备及存储介质
CN109032904A (zh) 被监控、管理服务器及数据获取、分析方法和管理系统
CN113076229B (zh) 一种通用的企业级信息技术监控系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180209