CN107070744A - 服务器监控方法 - Google Patents

服务器监控方法 Download PDF

Info

Publication number
CN107070744A
CN107070744A CN201710173697.6A CN201710173697A CN107070744A CN 107070744 A CN107070744 A CN 107070744A CN 201710173697 A CN201710173697 A CN 201710173697A CN 107070744 A CN107070744 A CN 107070744A
Authority
CN
China
Prior art keywords
server
monitored
data
module
link control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710173697.6A
Other languages
English (en)
Inventor
颜洪奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Union Information Technology Co Ltd
Original Assignee
Shanghai Union Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Union Information Technology Co Ltd filed Critical Shanghai Union Information Technology Co Ltd
Priority to CN201710173697.6A priority Critical patent/CN107070744A/zh
Publication of CN107070744A publication Critical patent/CN107070744A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开一种服务器监控方法,每一服务器连接控制模块通过对应的节点监控模块与对应的待监控服务器建立长连接,每一节点监控模块监控对应的待监控服务器的服务器运行状态数据和任务状态数据并上报给对应的服务器连接控制模块;每一服务器连接控制模块将服务器运行状态数据、任务状态数据及对应的识别信息上报给数据处理模块,将待监控服务器的在线状态数据上报给数据处理模块;数据处理模块分析出每一待监控服务器的服务器运行状态、任务状态以及在线状态;显示模块显示每一待监控服务器的服务器运行状态、任务状态以及在线状态。实现了复杂网络下对服务器的在线状态、运行状态、任务状态的实时监控。

Description

服务器监控方法
技术领域
本发明涉及分布式系统技术领域,特别是涉及一种服务器监控方法。
背景技术
分布式系统中的服务器集群,通常都有一定规模,从数台、数十台到成百上千台。这些服务器的部署可以是同一机房中跨网段的,也可以是同一地区跨IDC(互联网数据中心)机房的,还可以是跨地域跨IDC机房的,对于这种复杂网络环境下的分布式系统,如何对这些分布式的服务器进行及时高效的在线状态、运行状态和运行任务状态的监控是当前存在的难题之一。
对于分布式系统来说,它的服务器部署通常是跨网段、跨IDC机房、跨地域的,这带来了巨大的网络环境的差异、网络复杂性和网络不稳定性。对于要进行高密度计算、存储和I/O的分布式系统来说,如果高效地监控服务器的在线状态和运行状态(如CPU使用率、内存使用率、网络实时带宽、关键的存储空间占用量等)是必须的。
在分布式系统中,在运行的任务量可以很多,任务的类型也很多样化,对于这些任务的实时运行状态(如CPU使用率、内存使用率、网络使用情况、运行日志等)的监控也是必须的。
目前分布式系统监控中,Zabbix是应用得比较多的一个,它是一个企业级的开源分布式监控解决方案,由一个国外的团队持续维护更新,软件可以自由下载使用,运作团队靠提供收费的技术支持赢利。
Zabbix功能:具备常见的商业监控软件所具备的功能(主机的性能监控、网络设备性能监控、数据库性能监控、FTP等通用协议监控、多种告警方式、详细的报表图表绘制)支持自动发现网络设备和服务器;支持分布式,能集中展示、管理分布式的监控点;扩展性强,server提供通用接口,可以自己开发完善各类监控。
Zabbix对大型的跨IDC机房、跨地域的分布式系统的监控有如下缺点:
1、对于大型分布式系统,特别是跨IDC机房和跨地域的分布式系统来说,Zabbix对这种复杂网络的适用性不好,监控能力弱,对服务器异常响应不及时,不能及时发现服务器的网络异常和运行异常。
2、Zabbix只有单server端来收集和处理数据,当它的性能出现瓶颈时,会导致整个Zabbix系统添加主机不正常,代理端的数据无法正常收集或是Zabbix服务端的服务器性能严重下降,错误报告CPU占用过高或I/O占用过高等问题
3、Zabbix不支持对分布系统中运行任务进行定制化的状态监控
综上,Zabbix的缺点主要有三点:对复杂网络的适应性不好,单server端是整个监控系统的瓶颈,不支持定制化的任务运行状态监控。
发明内容
本发明针对现有技术存在的问题和不足,提供一种服务器监控方法。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供一种服务器监控方法,其特征在于,其包括与待监控服务器一一对应的节点监控模块、至少一服务器连接控制模块、一数据处理模块、一显示模块和一数据库,每一节点监控模块设置于对应的待监控服务器中,每一服务器连接控制模块通信连接至少一个节点监控模块,包括以下步骤:
S1、每一服务器连接控制模块通过对应的节点监控模块与对应的待监控服务器建立长连接;
S2、每一节点监控模块监控对应的待监控服务器的服务器运行状态数据和任务状态数据,并将该服务器运行状态数据、任务状态数据以及该待监控服务器的识别信息上报给对应的服务器连接控制模块,其中,每一待监控服务器均具备一唯一的识别信息;
S3、每一服务器连接控制模块将接收的该服务器运行状态数据、任务状态数据及对应的识别信息上报给该数据处理模块;
S4、每一服务器连接控制模块不断发送和接收该节点监控模块反馈的心跳数据或服务器运行状态数据和任务状态数据,并将该待监控服务器的在线状态数据上报给该数据处理模块;
S5、该数据处理模块处理每一服务器连接控制模块上报的服务器运行状态数据、任务状态数据、在线状态数据及对应的识别信息,并分析出每一待监控服务器的服务器运行状态、任务状态以及在线状态;
S6、该显示模块显示每一待监控服务器的服务器运行状态、任务状态以及在线状态;
S7、该数据库存储每一待监控服务器的服务器运行状态、任务状态以及在线状态。
较佳地,该服务器监控方法还包括一中央管理模块,该中央管理模块在接收一需新增待监控服务器的请求时,调用一致性哈希算法为该新增的待监控服务器分配一对应的服务器连接控制模块;
该分配的服务器连接控制模块创建与该新增待监控服务器上的新增的节点监控模块的长连接;
该新增的节点监控模块通过建立的长连接发送心跳数据和服务器运行数据至该分配的服务器连接控制模块;
该分配的服务器连接控制模块收到数据后调用该数据处理模块对该些数据进行处理,并记录在数据库中;
该数据处理模块根据该新增待监控服务器的在线状态数据和运行状态数据判定该新增待监控服务器的在线状态和运行状态。
较佳地,该服务器监控方法还包括一用于供用户设置需要增加或删除某一待监控服务器上的运行任务的设置界面;
该中央管理模块在接收到该设置界面传输来的需增加或删除某一待监控服务器上的运行任务的指令时,查询该数据库,查询出所有该运行任务对应的服务器连接控制模块,并将该指令解析后通过长连接发给运行该运行任务的待监控服务器对应的节点监控模块,该对应的节点监控模块收到该指令后将启动或停止对该运行任务的监控。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
1、实现了复杂网络下对待监控服务器的在线状态和运行状态的实时监控;
2、能够实时添加被监控服务器;
3、支持任意个服务器连接控制模块的server端,实现了动态的负载均衡策略来支持大型分布式系统的大量服务器的监控;
4、可以对服务器中的运行的任务进行定制化状态监控。
附图说明
图1为本发明较佳实施例的服务器监控方法的流程图。
图2为本发明较佳实施例的添加待监控服务器的时序图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供一种服务器监控方法,其包括与待监控服务器一一对应的节点监控模块、至少一服务器连接控制模块、一数据处理模块、一显示模块和一数据库,每一节点监控模块设置于对应的待监控服务器中,每一服务器连接控制模块通信连接至少一个节点监控模块,包括以下步骤:
步骤101、每一服务器连接控制模块通过对应的节点监控模块与对应的待监控服务器建立长连接;
步骤102、每一节点监控模块监控对应的待监控服务器的服务器运行状态数据和任务状态数据,并将该服务器运行状态数据、任务状态数据以及该待监控服务器的识别信息上报给对应的服务器连接控制模块,其中,每一待监控服务器均具备一唯一的识别信息;
步骤103、每一服务器连接控制模块将接收的该服务器运行状态数据、任务状态数据及对应的识别信息上报给该数据处理模块;
步骤104、每一服务器连接控制模块不断发送和接收该节点监控模块反馈的心跳数据或服务器运行状态数据和任务状态数据,并将该待监控服务器的在线状态数据上报给该数据处理模块;
步骤105、该数据处理模块处理每一服务器连接控制模块上报的服务器运行状态数据、任务状态数据、在线状态数据及对应的识别信息,并分析出每一待监控服务器的服务器运行状态、任务状态以及在线状态;
步骤106、该显示模块显示每一待监控服务器的服务器运行状态、任务状态以及在线状态;
步骤107、该数据库存储每一待监控服务器的服务器运行状态、任务状态以及在线状态。
如图2所示,以下为本实施例一个完整的新增一个待监控服务器的流程:
1、假设有一台新的被监控节点(待监控服务器),为该待监控服务器安装监控Agent程序和对应的配置文档,并启动该待监控服务器;
2、监控Agent程序将读取和该待监控服务器对应配置文档,并依据配置文档中的URL地址,访问中央管理模块;
3、当中央管理模块收到有新的监控Agent程序的请求时,就调用一致性哈希算法为该待监控服务器分配一个对应的服务器连接控制模块,并将这些数据写入到数据库的Host表中;
4、分配的服务器连接控制模块收到中央管理模块的指令后,创建一个和新的监控Agent程序下的节点监控模块的长连接;
5、节点监控模块和服务器连接控制模块建立长连接后,将通过建立的长连接发送心跳数据和服务器运行数据到服务器连接控制模块;
6、服务器连接控制模块收到数据后会调用数据处理模块,对这些数据进行处理,并记录在数据库的Node表中;
7、当服务器掉线(如宕机,网络断开)时,长连接会断开,或者心跳数据包异常时(无数据包发送、数据包间隔时间增加)服务器连接控制模块能实时收到,从而判断服务器是否在线和连接的网络质量;
8、数据处理模块根据待监控服务器的在线状态数据和运行状态数据,可以判断出待监控服务器的在线状态和运行状态。
重复以上步骤,即可添加多个待监控服务器。
以下为本实施例一个完整的为被监控服务器添加/删除一个运行任务的流程:
1、在Web管理程序的HTML界面上设置要增加/删除指定被监控服务器上的运行任务;
2、Web管理程序将会把需增加或删除某一待监控服务器上的运行任务的指令发送给中央管理模块;
3、中央管理模块会查找数据库,查询到所有该运行任务所对应的服务器连接控制模块,并将该指令解析后通过长连接发给运行这个运行任务的被监控服务器的节点监控模块;
4、节点监控模块收到指令后将启动/停止对任务的监控,并上报数据;
5、数据经长连接发送到数据处理模块后,会记录在数据库的NodeTask
表中。
重复以上步骤,即为被监控服务器添加/删除多个运行任务。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (3)

1.一种服务器监控方法,其特征在于,其包括与待监控服务器一一对应的节点监控模块、至少一服务器连接控制模块、一数据处理模块、一显示模块和一数据库,每一节点监控模块设置于对应的待监控服务器中,每一服务器连接控制模块通信连接至少一个节点监控模块,包括以下步骤:
S1、每一服务器连接控制模块通过对应的节点监控模块与对应的待监控服务器建立长连接;
S2、每一节点监控模块监控对应的待监控服务器的服务器运行状态数据和任务状态数据,并将该服务器运行状态数据、任务状态数据以及该待监控服务器的识别信息上报给对应的服务器连接控制模块,其中,每一待监控服务器均具备一唯一的识别信息;
S3、每一服务器连接控制模块将接收的该服务器运行状态数据、任务状态数据及对应的识别信息上报给该数据处理模块;
S4、每一服务器连接控制模块不断发送和接收该节点监控模块反馈的心跳数据或服务器运行状态数据和任务状态数据,并将该待监控服务器的在线状态数据上报给该数据处理模块;
S5、该数据处理模块处理每一服务器连接控制模块上报的服务器运行状态数据、任务状态数据、在线状态数据及对应的识别信息,并分析出每一待监控服务器的服务器运行状态、任务状态以及在线状态;
S6、该显示模块显示每一待监控服务器的服务器运行状态、任务状态以及在线状态;
S7、该数据库存储每一待监控服务器的服务器运行状态、任务状态以及在线状态。
2.如权利要求1所述的服务器监控方法,其特征在于,该服务器监控方法还包括一中央管理模块,该中央管理模块在接收一需新增待监控服务器的请求时,调用一致性哈希算法为该新增的待监控服务器分配一对应的服务器连接控制模块;
该分配的服务器连接控制模块创建与该新增待监控服务器上的新增的节点监控模块的长连接;
该新增的节点监控模块通过建立的长连接发送心跳数据和服务器运行数据至该分配的服务器连接控制模块;
该分配的服务器连接控制模块收到数据后调用该数据处理模块对该些数据进行处理,并记录在数据库中;
该数据处理模块根据该新增待监控服务器的在线状态数据和运行状态数据判定该新增待监控服务器的在线状态和运行状态。
3.如权利要求2所述的服务器监控方法,其特征在于,该服务器监控方法还包括一用于供用户设置需要增加或删除某一待监控服务器上的运行任务的设置界面;
该中央管理模块在接收到该设置界面传输来的需增加或删除某一待监控服务器上的运行任务的指令时,查询该数据库,查询出所有该运行任务对应的服务器连接控制模块,并将该指令解析后通过长连接发给运行该运行任务的待监控服务器对应的节点监控模块,该对应的节点监控模块收到该指令后将启动或停止对该运行任务的监控。
CN201710173697.6A 2017-03-22 2017-03-22 服务器监控方法 Pending CN107070744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710173697.6A CN107070744A (zh) 2017-03-22 2017-03-22 服务器监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710173697.6A CN107070744A (zh) 2017-03-22 2017-03-22 服务器监控方法

Publications (1)

Publication Number Publication Date
CN107070744A true CN107070744A (zh) 2017-08-18

Family

ID=59619998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710173697.6A Pending CN107070744A (zh) 2017-03-22 2017-03-22 服务器监控方法

Country Status (1)

Country Link
CN (1) CN107070744A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109194634A (zh) * 2018-08-22 2019-01-11 国家计算机网络与信息安全管理中心 一种支持横向扩展的Zabbix集群架构系统及应用方法
CN112260902A (zh) * 2020-10-23 2021-01-22 深圳前海微众银行股份有限公司 网络设备监控方法、装置、设备及存储介质
CN112564932A (zh) * 2019-09-26 2021-03-26 北京比特大陆科技有限公司 目标服务器掉线通知方法及装置
WO2021093171A1 (zh) * 2019-11-15 2021-05-20 苏州浪潮智能科技有限公司 一种监控方法、系统、设备及存储介质
CN115080337A (zh) * 2021-03-16 2022-09-20 网联清算有限公司 数据监控方法、装置、系统、服务器及可读存储介质
CN116360992A (zh) * 2023-03-30 2023-06-30 郑州地铁集团有限公司运营分公司 基于容器化微服务的轨道交通供电智能运维方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753357A (zh) * 2008-12-18 2010-06-23 方大集团股份有限公司 一种网络服务器集中监控系统和方法
US20140330965A1 (en) * 2011-10-26 2014-11-06 International Business Machines Corporation Server cluster monitoring
CN104199957A (zh) * 2014-09-17 2014-12-10 合一网络技术(北京)有限公司 一种Redis通用代理的实现方法
CN105791028A (zh) * 2016-04-26 2016-07-20 浪潮(北京)电子信息产业有限公司 一种服务器集群的监控方法、服务器及系统
CN106209482A (zh) * 2016-09-13 2016-12-07 郑州云海信息技术有限公司 一种数据中心监控方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753357A (zh) * 2008-12-18 2010-06-23 方大集团股份有限公司 一种网络服务器集中监控系统和方法
US20140330965A1 (en) * 2011-10-26 2014-11-06 International Business Machines Corporation Server cluster monitoring
CN104199957A (zh) * 2014-09-17 2014-12-10 合一网络技术(北京)有限公司 一种Redis通用代理的实现方法
CN105791028A (zh) * 2016-04-26 2016-07-20 浪潮(北京)电子信息产业有限公司 一种服务器集群的监控方法、服务器及系统
CN106209482A (zh) * 2016-09-13 2016-12-07 郑州云海信息技术有限公司 一种数据中心监控方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109194634A (zh) * 2018-08-22 2019-01-11 国家计算机网络与信息安全管理中心 一种支持横向扩展的Zabbix集群架构系统及应用方法
CN109194634B (zh) * 2018-08-22 2023-10-13 国家计算机网络与信息安全管理中心 一种支持横向扩展的Zabbix集群架构系统及应用方法
CN112564932A (zh) * 2019-09-26 2021-03-26 北京比特大陆科技有限公司 目标服务器掉线通知方法及装置
WO2021093171A1 (zh) * 2019-11-15 2021-05-20 苏州浪潮智能科技有限公司 一种监控方法、系统、设备及存储介质
CN112260902A (zh) * 2020-10-23 2021-01-22 深圳前海微众银行股份有限公司 网络设备监控方法、装置、设备及存储介质
CN115080337A (zh) * 2021-03-16 2022-09-20 网联清算有限公司 数据监控方法、装置、系统、服务器及可读存储介质
CN116360992A (zh) * 2023-03-30 2023-06-30 郑州地铁集团有限公司运营分公司 基于容器化微服务的轨道交通供电智能运维方法及系统
CN116360992B (zh) * 2023-03-30 2023-11-17 郑州地铁集团有限公司运营分公司 基于容器化微服务的轨道交通供电智能运维方法及系统

Similar Documents

Publication Publication Date Title
CN107070744A (zh) 服务器监控方法
CN112073265B (zh) 一种基于分布式边缘计算的物联网监控方法和系统
US10389596B2 (en) Discovering application topologies
CN106941431A (zh) 服务器监控系统
US8824335B2 (en) Endpoint-to-endpoint communications status monitoring
CN110851278A (zh) 一种基于微服务架构的配网自动化主站移动应用服务管理方法和系统
US20040024859A1 (en) Method and apparatus for communications network resource utilization assessment
CN105429791B (zh) 一种分布式服务状态检测器及方法
CN102064975B (zh) 网络设备监管方法及系统
CN106412113A (zh) 一种能源云服务系统及其通信方法
CN104243185B (zh) 一种体验式业务监控系统
CN109784508A (zh) 一种基于云平台的电网全景监测运维管理方法及系统
CN110659109B (zh) 一种openstack集群虚拟机监控系统及方法
US20060230309A1 (en) System for remote fault management in a wireless network
US20120144018A1 (en) Dynamic Rate Heartbeating for Inter-Node Status Updating
CN106656682A (zh) 集群心跳检测方法、系统及装置
CN108696400A (zh) 网络监测方法和装置
CN103716173A (zh) 一种存储监控系统及监控告警发布的方法
CN106453541A (zh) 一种数据同步的方法、服务器以及数据同步系统
CN112333020B (zh) 一种基于五元组的网络安全监测及数据报文解析系统
CN109074287A (zh) 基础设施资源状态
CN103795575A (zh) 一种面向多数据中心的系统监控方法
CN112327777A (zh) 一种数据采集系统及方法
AU2014237655A1 (en) Accessing multiple Converged Infrastructure systems
Safrianti et al. Real-time network device monitoring system with simple network management protocol (SNMP) model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170818