CN105516293A - 一种智能变电站云资源监控系统 - Google Patents

一种智能变电站云资源监控系统 Download PDF

Info

Publication number
CN105516293A
CN105516293A CN201510875130.4A CN201510875130A CN105516293A CN 105516293 A CN105516293 A CN 105516293A CN 201510875130 A CN201510875130 A CN 201510875130A CN 105516293 A CN105516293 A CN 105516293A
Authority
CN
China
Prior art keywords
monitoring
module
user
data
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510875130.4A
Other languages
English (en)
Inventor
吴奕
李喜旺
于同伟
潘鹏飞
李忠诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Shenyang Institute of Computing Technology of CAS
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Shenyang Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd, Shenyang Institute of Computing Technology of CAS filed Critical State Grid Corp of China SGCC
Priority to CN201510875130.4A priority Critical patent/CN105516293A/zh
Publication of CN105516293A publication Critical patent/CN105516293A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • H04L67/025Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种智能变电站云资源监控系统,数据存储模块连接数据采集模块,将数据采集模块采集到的数据进行存储;云监控管理模块连接数据存储模块,调取数据存储模块的数据进行监控管理,并对监控结果进行决策;WEB服务模块连接云监控管理模块,接收云监控管理模块发送的决策信息,与用户进行人机交互。本发明提出面向用户的云资源监控解决方案,用户自定义监控请求,以用户请求驱动监控策略;面向用户的WEB服务端,便于用户随时随地的查看云资源运行状态,实现服务和应用级别的监控,满足用户服务质量的要求。

Description

一种智能变电站云资源监控系统
技术领域
本发明涉及智能变电站云技术,具体地说是一种智能变电站云资源监控系统。
背景技术
云计算模式是继客户/服务器、服务计算模式之后信息技术演进的一类新的技术体系,在摩尔定律驱动使计算资源日益丰富、高速宽带通信迅速成长的背景下,云计算通过新一代分布式处理技术,不仅可以低成本实现“集中计算”和海量数据处理,而且颠覆了传统信息系统中“硬件”和“软件”系统建立和应用的概念,实现了以“服务”形式提供虚拟的“基础设施(硬件和网络)”、“软件平台”和“软件应用”。
智能变电站的网络化及应用建设的成熟发展,为云计算技术应用提供了必要的技术条件。云计算是分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡、热备份冗余等传统计算机和网络技术发展融合的产物,云计算技术架构具有高可靠性、高利用率、高可扩展性的特征优势,符合智能变电站先进、可靠、集成、低碳、环保的智能技术要求。
云计算环境下的资源监控是云计算平台体系结构中必不可少的组成部分,云资源监控是云计算平台的系统管理、虚拟机迁移、负载均衡、作业调度、故障检测和服务等的基础前提,对提高云计算平台的服务质量有关键性的作用。云计算的宗旨是为用户提供服务,而现有的云资源监控解决方案却缺乏面向用户的监控机制。
发明内容
针对现有技术的不足,本发明提供一种用户自定义监控请求,以用户请求驱动监控策略的智能变电站云资源监控系统。
本发明为实现上述目的所采用的技术方案是:
一种智能变电站云资源监控系统,数据存储模块连接数据采集模块,将数据采集模块采集到的数据进行存储;
云监控管理模块连接数据存储模块,调取数据存储模块的数据进行监控管理,并对监控结果进行决策;
WEB服务模块连接云监控管理模块,接收云监控管理模块发送的决策信息,与用户进行人机交互。
所述数据采集模块包括虚拟机代理服务器、物理机代理服务器及监控脚本。
所述数据存储模块为RRD数据库。
所述云监控管理模块包括监控脚本管理模块、监控参数管理模块、分析决策模块和告警系统,其中,监控脚本管理模块调用监控参数管理模块的监控参数,检测监控脚本,将检测结果发送到分析决策模块,生成决策信息;告警系统接收分析决策模块的决策信息进行告警处理。
所述决策信息包括监控报告、告警信息和资源调度指令。
所述告警处理过程包括:用户通过WEB服务模块根据阈值列表将需要报警的性能参数度量值和相对应的告警阈值上传至告警系统,告警系统定时向数据存储模块轮询性能参数度量值,并根据对应的报警策略得到告警状态,当告警状态为故障状态时,向用户发送报警信息。
所述故障状态包括被监控系统宕机以及服务终端与网络连接错误。
所述用户通过WEB服务模块根据阈值列表将需要报警的性能参数度量值和相对应的告警阈值上传至告警系统包括以下步骤:
步骤1:根据用户需求初始化阈值列表;
步骤2:告警系统定时遍历所有的阈值列表中的度量值,并从监控数据中采集每个度量值对应的数据值;
步骤3:遍历一个特定度量值的阈值列表中的所有阈值,并比较值与阈值的关系;
步骤4:当满足事件触发判定条件时,从阈值列表读取相关事件并触发;
步骤5:当遍历阈值列表中定义的该度量值的所有阈值之后,结束阈值触发流程。
所述阈值列表由阈值组成,每个阈值由判定条件和与之相关联的触发事件组成。
本发明具有以下有益效果及优点:
1.本发明提出面向用户的云资源监控解决方案,用户自定义监控请求,以用户请求驱动监控策略。
2.面向用户的WEB服务端,便于用户随时随地的查看云资源运行状态,实现服务和应用级别的监控,满足用户服务质量的要求。
附图说明
图1是本发明的结构图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
如图1所示,本发明通过数据采集模块部署在云计算平台中各个服务器(包括虚拟机实例)的监控代理(虚拟机代理、物理机代理及监控脚本)对云计算平台的各项软硬件资源进行监控数据采集,物理机代理收集物理服务器资源信息;虚拟机代理收集虚拟机实例资源信息;监控脚本收集云计算平台中的应用和软件的状态信息。
监控代理由多个线程组成:采集发布线程用于收集被监控节点的度量值并发布到组播地址;监听线程负责监听组播端口,并将这些度量值数据保存在内存中,输出线程将所有节点的监控数据发送出去。数据采集模块接收XML格式的监控数据,并存于数据存储模块(RRD数据库)。监控代理不会长时间保存数据,只是监听并暂时将监控数据保存在内存中。监控代理可以向组播地址发布两种类型的度量值数据,监控系统内置的度量值以及用户自定义的度量值,包括CPU、负载、内存、进程数、磁盘、系统启动时间、系统时钟、操作系统等方面的信息,实现对物理机服务器和虚拟机服务器的性能监控。
数据存储模块使用RRDtool工具将数据采集模块采集的数据存在RRD环形数据库中。RRD是专门为时间序列数据存储而设计开发的环形数据库,RRDtool对监控数据有良好的存储和处理效果,随着时间的推移,监控数据占用的磁盘空间将迅速增大,而RRD数据库使用固定大小的文档来存储数据,因而会避免磁盘空间的不断消耗。
云监控管理模块是智能变电站云资源监控系统的核心模块,包括监控脚本管理、监控参数管理、分析决策中心及告警系统。
监控脚本管理实现用户自定义监控脚本功能,用户通过WEB服务模块自定义监控脚本,或者进行任务描述由监控系统从数据库中选择相符的监控脚本。对每一个监控脚本,其输出的监控数据格式固定为:<度量值名称,类型,值,单位>,并通过脚本测试程序检测监控脚本的输出是否符合规定,这样才能保证监控数据格式的一致性。如果测试正确,则将该监控脚本存于数据库中永久保存。使用这种机制大大增加应用程序监控的可扩展性,并且随着时间的推移,系统的监控功能将越来越全面。
监控参数管理,用户不仅可以通过WEB服务模块提交监控脚本而且能够自定义监控参数。为了尽可能的降低性能开销,监控系统只提供最基本的参数性能指标。而为了实现按需监控用户可以添加额外的监控参数,监控参数管理将主动修改监控代理的配置文件,监控代理通过配置文件来决定采集哪些数据指标。
分析决策模块具有运行参数管理、阈值设定功能,并对采集到的监控信息进行汇总分析处理,与用户设定的阈值进行评估,并将评估结果存储和生成监控报告,最终完成告警提醒功能。
分析决策模块对采集到的监控数据预处理后,调用分析决策库中的相应规则,对服务器、应用等被监控对象进行评级,并生成监控报告和告警信息,以及资源调度指令。对数据的分析决策方式主要分为两种:
(1)数据统计:通过对监控数据的一些统计操作(例如取平均值、求和等),并结合告警系统的相关配置,生成告警状态,决定是否发送报警信息。
(2)分析方式:该数据处理方法需要对数据平滑处理,之后与历史信息进行对比分析,从而生成合理的资源调度指令,提高云计算平台总体性能。
在整个监控数据的分析决策过程中,人为因素是必不可少的。通过制定合理的分析决策规则和加入人为的判断逻辑,可以大大提高监控系统的实际可用性。
告警系统是监控系统必不可少的一部分,对于不同的度量值系统根据不同的报警策略来驱动报警程序,最终以电子邮件、手机短信等方式发出故障警报消息。
告警系统的处理流程如下:用户通过WEB服务模块将需要报警的性能参数度量值和相对应的告警阈值上传至监控系统,告警系统定时向RRD数据库轮询该度量值的值,并根据对应的报警策略得到告警状态,当被监控系统出现宕机、服务终端、网络连接错误等系统故障时,向用户发送报警信息。
阈值触发机制:阈值触发是指某类型的性能指标超过监控系统设定的阈值时,触发相关联的处理行为。监控系统维护一个阈值列表,每个阈值列表包含多个阈值,每个阈值由判定条件和与之相关联的触发事件所组成。具体处理流程如下:
1)根据用户需求初始化阈值列表;
2)监控系统定时遍历所有的阈值列表中的度量值,并从监控数据中采集每个度量值对应的数据值;
3)遍历一个特定度量值的阈值列表中的所有阈值,并比较值与阈值的关系;
4)当满足事件触发判定条件时,从阈值列表读取相关事件并触发。当遍历阈值列表中定义的该度量值的所有阈值之后,结束阈值触发流程。
WEB服务模块负责与用户数据交互,管理员通过WEB服务查看云计算平台的运行状况并进行系统管理和控制,普通用户通过WEB服务查看其云资源运行状态和使用情况、监控报告、自定义监控需求、接受告警信息等。
WEB服务模块接收JSON格式监控数据,并根据这些JSON数据生成监控图表和监控报告。用户可自定义监控需求,包括监控请求、监控参数、告警阐值、警报方式等。告警通知定时查看所有资源的运行状态,当检测到系统故障、某性能指标超过用户定义或者系统默认阈值等触发条件时,发出报警信息展示给用户。
智能变电站云资源监控系统提出面向用户的云资源监控解决方案,用户自定义监控请求,以用户请求驱动监控策略。面向用户的WEB服务端,便于用户随时随地的查看云资源运行状态,实现服务和应用级别的监控,满足用户服务质量的要求。

Claims (9)

1.一种智能变电站云资源监控系统,其特征在于:数据存储模块连接数据采集模块,将数据采集模块采集到的数据进行存储;
云监控管理模块连接数据存储模块,调取数据存储模块的数据进行监控管理,并对监控结果进行决策;
WEB服务模块连接云监控管理模块,接收云监控管理模块发送的决策信息,与用户进行人机交互。
2.根据权利要求1所述的智能变电站云资源监控系统,其特征在于:所述数据采集模块包括虚拟机代理服务器、物理机代理服务器及监控脚本。
3.根据权利要求1所述的智能变电站云资源监控系统,其特征在于:所述数据存储模块为RRD数据库。
4.根据权利要求1所述的智能变电站云资源监控系统,其特征在于:所述云监控管理模块包括监控脚本管理模块、监控参数管理模块、分析决策模块和告警系统,其中,监控脚本管理模块调用监控参数管理模块的监控参数,检测监控脚本,将检测结果发送到分析决策模块,生成决策信息;告警系统接收分析决策模块的决策信息进行告警处理。
5.根据权利要求4所述的智能变电站云资源监控系统,其特征在于:所述决策信息包括监控报告、告警信息和资源调度指令。
6.根据权利要求4所述的智能变电站云资源监控系统,其特征在于:所述告警处理过程包括:用户通过WEB服务模块根据阈值列表将需要报警的性能参数度量值和相对应的告警阈值上传至告警系统,告警系统定时向数据存储模块轮询性能参数度量值,并根据对应的报警策略得到告警状态,当告警状态为故障状态时,向用户发送报警信息。
7.根据权利要求6所述的智能变电站云资源监控系统,其特征在于:所述故障状态包括被监控系统宕机以及服务终端与网络连接错误。
8.根据权利要求6所述的智能变电站云资源监控系统,其特征在于:所述用户通过WEB服务模块根据阈值列表将需要报警的性能参数度量值和相对应的告警阈值上传至告警系统包括以下步骤:
步骤1:根据用户需求初始化阈值列表;
步骤2:告警系统定时遍历所有的阈值列表中的度量值,并从监控数据中采集每个度量值对应的数据值;
步骤3:遍历一个特定度量值的阈值列表中的所有阈值,并比较值与阈值的关系;
步骤4:当满足事件触发判定条件时,从阈值列表读取相关事件并触发;
步骤5:当遍历阈值列表中定义的该度量值的所有阈值之后,结束阈值触发流程。
9.根据权利要求6或8所述的智能变电站云资源监控系统,其特征在于:所述阈值列表由阈值组成,每个阈值由判定条件和与之相关联的触发事件组成。
CN201510875130.4A 2015-12-03 2015-12-03 一种智能变电站云资源监控系统 Pending CN105516293A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510875130.4A CN105516293A (zh) 2015-12-03 2015-12-03 一种智能变电站云资源监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510875130.4A CN105516293A (zh) 2015-12-03 2015-12-03 一种智能变电站云资源监控系统

Publications (1)

Publication Number Publication Date
CN105516293A true CN105516293A (zh) 2016-04-20

Family

ID=55723924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510875130.4A Pending CN105516293A (zh) 2015-12-03 2015-12-03 一种智能变电站云资源监控系统

Country Status (1)

Country Link
CN (1) CN105516293A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106878064A (zh) * 2017-01-16 2017-06-20 腾讯科技(深圳)有限公司 数据监控方法和装置
CN106886477A (zh) * 2017-02-20 2017-06-23 郑州云海信息技术有限公司 一种云系统中监控阈值设定方法及装置
CN108847977A (zh) * 2018-06-14 2018-11-20 平安科技(深圳)有限公司 一种业务数据的监控方法、存储介质和服务器
CN109245966A (zh) * 2018-11-05 2019-01-18 郑州云海信息技术有限公司 云平台的服务状态的监控方法和装置
CN109308245A (zh) * 2018-09-07 2019-02-05 郑州市景安网络科技股份有限公司 一种服务器资源预警方法、装置、设备及可读存储介质
CN109547553A (zh) * 2018-11-29 2019-03-29 国电南瑞科技股份有限公司 基于私有云的区域变电站管理系统及管理方法
CN109726211A (zh) * 2018-12-27 2019-05-07 无锡华云数据技术服务有限公司 一种分布式时序数据库
CN110048887A (zh) * 2019-04-16 2019-07-23 深圳市致宸信息科技有限公司 一种云计算数据采集系统及方法
CN112711514A (zh) * 2020-12-30 2021-04-27 北京珞安科技有限责任公司 一种终端设备的监控系统、方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366312A (zh) * 2013-07-15 2013-10-23 国家电网公司 一种智能变电站云系统
US20140108653A1 (en) * 2012-09-25 2014-04-17 Huawei Technologies Co., Ltd. Man-Machine Interaction Data Processing Method and Apparatus
CN103986790A (zh) * 2014-06-05 2014-08-13 浪潮电子信息产业股份有限公司 一种云数据中心基础设施监控告警的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140108653A1 (en) * 2012-09-25 2014-04-17 Huawei Technologies Co., Ltd. Man-Machine Interaction Data Processing Method and Apparatus
CN103366312A (zh) * 2013-07-15 2013-10-23 国家电网公司 一种智能变电站云系统
CN103986790A (zh) * 2014-06-05 2014-08-13 浪潮电子信息产业股份有限公司 一种云数据中心基础设施监控告警的方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106878064A (zh) * 2017-01-16 2017-06-20 腾讯科技(深圳)有限公司 数据监控方法和装置
CN106878064B (zh) * 2017-01-16 2021-08-13 腾讯科技(深圳)有限公司 数据监控方法和装置
CN106886477A (zh) * 2017-02-20 2017-06-23 郑州云海信息技术有限公司 一种云系统中监控阈值设定方法及装置
CN106886477B (zh) * 2017-02-20 2021-06-29 郑州云海信息技术有限公司 一种云系统中监控阈值设定方法及装置
CN108847977A (zh) * 2018-06-14 2018-11-20 平安科技(深圳)有限公司 一种业务数据的监控方法、存储介质和服务器
CN108847977B (zh) * 2018-06-14 2021-06-25 平安科技(深圳)有限公司 一种业务数据的监控方法、存储介质和服务器
CN109308245A (zh) * 2018-09-07 2019-02-05 郑州市景安网络科技股份有限公司 一种服务器资源预警方法、装置、设备及可读存储介质
CN109245966A (zh) * 2018-11-05 2019-01-18 郑州云海信息技术有限公司 云平台的服务状态的监控方法和装置
CN109547553A (zh) * 2018-11-29 2019-03-29 国电南瑞科技股份有限公司 基于私有云的区域变电站管理系统及管理方法
CN109726211A (zh) * 2018-12-27 2019-05-07 无锡华云数据技术服务有限公司 一种分布式时序数据库
CN110048887A (zh) * 2019-04-16 2019-07-23 深圳市致宸信息科技有限公司 一种云计算数据采集系统及方法
CN112711514A (zh) * 2020-12-30 2021-04-27 北京珞安科技有限责任公司 一种终端设备的监控系统、方法及装置

Similar Documents

Publication Publication Date Title
CN105516293A (zh) 一种智能变电站云资源监控系统
CN108491305B (zh) 一种服务器故障的检测方法及系统
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN107544839B (zh) 虚拟机迁移系统、方法及装置
US11348023B2 (en) Identifying locations and causes of network faults
CN111176879A (zh) 设备的故障修复方法及装置
CN110287081A (zh) 一种服务监控系统和方法
CN103853627A (zh) 由与物理机器相关地分析虚拟机器性能问题原因的方法和系统
CN108092813A (zh) 数据中心综合管理系统服务器硬件管理框架及实现方法
CN103973815A (zh) 一种跨数据中心存储环境统一监控方法
CN102929773A (zh) 信息采集方法和装置
CN106027674A (zh) 一种互联网与智能制造相结合的架构系统
CN109412902A (zh) 一种电力调度数据网系统的智能监测方法、存储设备、终端和系统
US20190215262A1 (en) System and method for dynamically testing networked target systems
Demirbaga et al. Autodiagn: An automated real-time diagnosis framework for big data systems
CN111339466A (zh) 接口管理方法、装置、电子设备及可读存储介质
WO2024164730A1 (zh) 一种混合云管的异常实时上报方法、系统、设备和介质
CN110750425A (zh) 数据库监控方法、装置、系统和存储介质
CN107291589A (zh) 在机器人操作系统中提升系统可靠性的方法
CN112149975B (zh) 一种基于人工智能的apm监控系统及监控方法
CN104618461A (zh) 一种基于动码云手机的服务器监控方法
CN103944777B (zh) 分布式监控系统信息处理方法和系统
CN113835961B (zh) 告警信息监控方法、装置、服务器及存储介质
CN105892387B (zh) 基于跨平台多点数据采集mpca模型的机房隐患自动上报装置及方法
CN113407430A (zh) 基于应用性能监控的单指标参数采集方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Ge Weichun

Inventor after: Wu Yi

Inventor after: Li Xiwang

Inventor after: Yu Tongwei

Inventor after: Pan Pengfei

Inventor after: Li Zhongcheng

Inventor before: Wu Yi

Inventor before: Li Xiwang

Inventor before: Yu Tongwei

Inventor before: Pan Pengfei

Inventor before: Li Zhongcheng

CB03 Change of inventor or designer information
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160420

WD01 Invention patent application deemed withdrawn after publication