CN110890988B - 一种服务器集群运行监控系统 - Google Patents

一种服务器集群运行监控系统 Download PDF

Info

Publication number
CN110890988B
CN110890988B CN201911216359.1A CN201911216359A CN110890988B CN 110890988 B CN110890988 B CN 110890988B CN 201911216359 A CN201911216359 A CN 201911216359A CN 110890988 B CN110890988 B CN 110890988B
Authority
CN
China
Prior art keywords
module
acquisition module
information acquisition
sub information
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911216359.1A
Other languages
English (en)
Other versions
CN110890988A (zh
Inventor
王超
杨彬彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui San Shi Software Technology Co ltd
Original Assignee
Anhui Sanshi Information Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Sanshi Information Technology Service Co ltd filed Critical Anhui Sanshi Information Technology Service Co ltd
Priority to CN201911216359.1A priority Critical patent/CN110890988B/zh
Publication of CN110890988A publication Critical patent/CN110890988A/zh
Application granted granted Critical
Publication of CN110890988B publication Critical patent/CN110890988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及监控系统,具体涉及一种服务器集群运行监控系统,包括第一监控服务器、用于采集监控节点上机器码指令的代理指令采集模块、用于采集监控节点上信息数据的子信息采集模块,第一监控服务器通过服务器切换模块与第二监控服务器连接,代理指令采集模块与用于汇总机器码指令的指令采集服务模块相连,指令采集服务模块与用于对机器码指令进行过滤的数据过滤模块相连;本发明提供的技术方案能够有效克服现有技术所存在的通信可靠性较低、分析不够全面、不能及时找出故障节点和解决方案的缺陷。

Description

一种服务器集群运行监控系统
技术领域
本发明涉及监控系统,具体涉及一种服务器集群运行监控系统。
背景技术
随着信息时代的到来,大数据、云计算和机器学习等逐渐成为计算机领域的研究热点。大数据、云计算和机器学习具有一个共同的特点:需要进行复杂而庞大的计算。因此,往往需要使用大量计算机服务器组成一个或多个集群进行并行计算,合力完成一项或多项计算任务。近年来随着使用需求不断扩大,计算机服务器集群规模也从原来的几十台逐渐发展成几百台、几千台,甚至几万台。
随着计算机服务器集群的大规模化,如何管控集群性能指标并及时发现集群存在的问题,进行及时处理逐渐成为机房运维人员面临的的难题。现有服务器集群运行监控系统的通信可靠性较低,数据容易丢失,并且分析不够全面,不能及时找出故障节点以及解决方案。
发明内容
(一)解决的技术问题
针对现有技术所存在的上述缺点,本发明提供了一种服务器集群运行监控系统,能够有效克服现有技术所存在的通信可靠性较低、分析不够全面、不能及时找出故障节点和解决方案的缺陷。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种服务器集群运行监控系统,包括第一监控服务器、用于采集监控节点上机器码指令的代理指令采集模块、用于采集监控节点上信息数据的子信息采集模块,所述第一监控服务器通过服务器切换模块与第二监控服务器连接;
所述代理指令采集模块与用于汇总机器码指令的指令采集服务模块相连,所述指令采集服务模块与用于对机器码指令进行过滤的数据过滤模块相连,所述数据过滤模块将过滤后的机器码指令发送到分布式存储模块中存储,所述第一监控服务器与用于对所述分布式存储模块中存储的机器码指令进行分析并得出异常结果的指令分析模块相连;
所述子信息采集模块与用于汇总信息数据的分信息采集模块相连,所述分信息采集模块将汇总后的信息数据发送到分布式存储模块中存储,所述第一监控服务器根据所述分布式存储模块中存储的信息数据通过工作状态扫描模块对各监控节点的工作状态进行巡查,所述第一监控服务器根据所述工作状态扫描模块的巡查结果对个别监控节点进行指定访问的指定访问模块相连;
所述代理指令采集模块与指令采集服务模块、子信息采集模块与分信息采集模块之间均采用分岔树形式连接。
优选地,所述第一监控服务器根据所述指定访问模块的指定访问结果通过故障类型判断模块对监控节点出现的故障类型进行判断,所述第一监控服务器与用于预先设定并存储各故障类型对应解决方案的方案设定模块相连。
优选地,所述故障类型判断模块根据监控节点出现故障类型的严重程度对该监控节点显示的图标颜色进行更换。
优选地,所述第一监控服务器与用于向管理者发送故障类型对应所述方案设定模块中解决方案的无线通信模块相连。
优选地,所述子信息采集模块检测到与分信息采集模块断开连接时,所述子信息采集模块寻找另一分信息采集模块建立连接。
优选地,所述子信息采集模块与用于计算和其他分信息采集模块之间分岔路径距离的分岔路径计算模块相连,所述子信息采集模块根据所述分岔路径计算模块的计算结果选取分岔路径距离最短的分信息采集模块建立连接。
优选地,所述子信息采集模块检测到与分信息采集模块断开连接时,在保存的前驱节点列表信息中删除该分信息采集模块的信息,并在与另一分信息采集模块建立连接时,将另一分信息采集模块的信息添加到前驱节点列表信息中。
优选地,所述机器码指令包括内存指令、CPU指令、磁盘IO指令、网络流量指令、TCP连接数指令、应用进程参数指令。
优选地,所述服务器切换模块根据管理者设定的手动模式或自动模式进行服务器切换。
优选地,所述分布式存储模块内部划分存储空间,每个所述存储空间对应存储所述指令采集服务模块汇总的机器码指令或所述分信息采集模块汇总的信息数据。
(三)有益效果
与现有技术相比,本发明所提供的一种服务器集群运行监控系统,具有以下有益效果:
1、代理指令采集模块与指令采集服务模块、子信息采集模块与分信息采集模块之间均采用分岔树形式连接,代理指令采集模块采集监控节点上机器码指令,指令采集服务模块汇总代理指令采集模块采集的机器码指令;子信息采集模块采集监控节点上信息数据,分信息采集模块汇总子信息采集模块采集的信息数据,不仅能够保证数据通信的可靠性,同时还能够全面采集分析数据,为监控的准确性提供保证;
2、第一监控服务器根据分布式存储模块中存储的信息数据通过工作状态扫描模块对各监控节点的工作状态进行巡查,第一监控服务器根据工作状态扫描模块的巡查结果通过指定访问模块对个别监控节点进行指定访问,第一监控服务器根据指定访问模块的指定访问结果通过故障类型判断模块对监控节点出现的故障类型进行判断,并从方案设定模块中调取故障类型对应解决方案,从而能够快速有效找出故障节点和解决方案。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明系统示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种服务器集群运行监控系统,如图1所示,包括第一监控服务器、用于采集监控节点上机器码指令的代理指令采集模块、用于采集监控节点上信息数据的子信息采集模块,第一监控服务器通过服务器切换模块与第二监控服务器连接;
代理指令采集模块与用于汇总机器码指令的指令采集服务模块相连,指令采集服务模块与用于对机器码指令进行过滤的数据过滤模块相连,数据过滤模块将过滤后的机器码指令发送到分布式存储模块中存储,第一监控服务器与用于对分布式存储模块中存储的机器码指令进行分析并得出异常结果的指令分析模块相连;
子信息采集模块与用于汇总信息数据的分信息采集模块相连,分信息采集模块将汇总后的信息数据发送到分布式存储模块中存储,第一监控服务器根据分布式存储模块中存储的信息数据通过工作状态扫描模块对各监控节点的工作状态进行巡查,第一监控服务器根据工作状态扫描模块的巡查结果对个别监控节点进行指定访问的指定访问模块相连;
代理指令采集模块与指令采集服务模块、子信息采集模块与分信息采集模块之间均采用分岔树形式连接。
第一监控服务器根据指定访问模块的指定访问结果通过故障类型判断模块对监控节点出现的故障类型进行判断,第一监控服务器与用于预先设定并存储各故障类型对应解决方案的方案设定模块相连。
故障类型判断模块根据监控节点出现故障类型的严重程度对该监控节点显示的图标颜色进行更换。
第一监控服务器与用于向管理者发送故障类型对应方案设定模块中解决方案的无线通信模块相连。
子信息采集模块检测到与分信息采集模块断开连接时,子信息采集模块寻找另一分信息采集模块建立连接。
子信息采集模块与用于计算和其他分信息采集模块之间分岔路径距离的分岔路径计算模块相连,子信息采集模块根据分岔路径计算模块的计算结果选取分岔路径距离最短的分信息采集模块建立连接。
子信息采集模块检测到与分信息采集模块断开连接时,在保存的前驱节点列表信息中删除该分信息采集模块的信息,并在与另一分信息采集模块建立连接时,将另一分信息采集模块的信息添加到前驱节点列表信息中。
机器码指令包括内存指令、CPU指令、磁盘IO指令、网络流量指令、TCP连接数指令、应用进程参数指令。
服务器切换模块根据管理者设定的手动模式或自动模式进行服务器切换。
分布式存储模块内部划分存储空间,每个存储空间对应存储指令采集服务模块汇总的机器码指令或分信息采集模块汇总的信息数据。
代理指令采集模块与指令采集服务模块、子信息采集模块与分信息采集模块之间均采用分岔树形式连接,代理指令采集模块采集监控节点上机器码指令,指令采集服务模块汇总代理指令采集模块采集的机器码指令;子信息采集模块采集监控节点上信息数据,分信息采集模块汇总子信息采集模块采集的信息数据,不仅能够保证数据通信的可靠性,同时还能够全面采集分析数据,为监控的准确性提供保证。
子信息采集模块检测到与分信息采集模块断开连接时,子信息采集模块寻找另一分信息采集模块建立连接。
子信息采集模块与用于计算和其他分信息采集模块之间分岔路径距离的分岔路径计算模块相连,子信息采集模块根据分岔路径计算模块的计算结果选取分岔路径距离最短的分信息采集模块建立连接。
子信息采集模块检测到与分信息采集模块断开连接时,在保存的前驱节点列表信息中删除该分信息采集模块的信息,并在与另一分信息采集模块建立连接时,将另一分信息采集模块的信息添加到前驱节点列表信息中。
机器码指令包括内存指令、CPU指令、磁盘IO指令、网络流量指令、TCP连接数指令、应用进程参数指令。
第一监控服务器根据分布式存储模块中存储的信息数据通过工作状态扫描模块对各监控节点的工作状态进行巡查,第一监控服务器根据工作状态扫描模块的巡查结果通过指定访问模块对个别监控节点进行指定访问,第一监控服务器根据指定访问模块的指定访问结果通过故障类型判断模块对监控节点出现的故障类型进行判断,并从方案设定模块中调取故障类型对应解决方案,从而能够快速有效找出故障节点和解决方案。
故障类型判断模块根据监控节点出现故障类型的严重程度对该监控节点显示的图标颜色进行更换。
第一监控服务器与用于向管理者发送故障类型对应方案设定模块中解决方案的无线通信模块相连。
本申请技术方案中,服务器切换模块根据管理者设定的手动模式或自动模式进行服务器切换,分布式存储模块内部划分存储空间,每个存储空间对应存储指令采集服务模块汇总的机器码指令或分信息采集模块汇总的信息数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种服务器集群运行监控系统,其特征在于:包括第一监控服务器、用于采集监控节点上机器码指令的代理指令采集模块、用于采集监控节点上信息数据的子信息采集模块,所述第一监控服务器通过服务器切换模块与第二监控服务器连接;
所述代理指令采集模块与用于汇总机器码指令的指令采集服务模块相连,所述指令采集服务模块与用于对机器码指令进行过滤的数据过滤模块相连,所述数据过滤模块将过滤后的机器码指令发送到分布式存储模块中存储,所述第一监控服务器与用于对所述分布式存储模块中存储的机器码指令进行分析并得出异常结果的指令分析模块相连;
所述子信息采集模块与用于汇总信息数据的分信息采集模块相连,所述分信息采集模块将汇总后的信息数据发送到分布式存储模块中存储,所述第一监控服务器根据所述分布式存储模块中存储的信息数据通过工作状态扫描模块对各监控节点的工作状态进行巡查,所述第一监控服务器根据所述工作状态扫描模块的巡查结果对个别监控节点进行指定访问的指定访问模块相连;
所述第一监控服务器根据所述指定访问模块的指定访问结果通过故障类型判断模块对监控节点出现的故障类型进行判断,所述第一监控服务器与用于预先设定并存储各故障类型对应解决方案的方案设定模块相连;
所述代理指令采集模块与指令采集服务模块、子信息采集模块与分信息采集模块之间均采用分岔树形式连接。
2.根据权利要求1所述的服务器集群运行监控系统,其特征在于:所述故障类型判断模块根据监控节点出现故障类型的严重程度对该监控节点显示的图标颜色进行更换。
3.根据权利要求1所述的服务器集群运行监控系统,其特征在于:所述第一监控服务器与用于向管理者发送故障类型对应所述方案设定模块中解决方案的无线通信模块相连。
4.根据权利要求1所述的服务器集群运行监控系统,其特征在于:所述子信息采集模块检测到与分信息采集模块断开连接时,所述子信息采集模块寻找另一分信息采集模块建立连接。
5.根据权利要求4所述的服务器集群运行监控系统,其特征在于:所述子信息采集模块与用于计算和其他分信息采集模块之间分岔路径距离的分岔路径计算模块相连,所述子信息采集模块根据所述分岔路径计算模块的计算结果选取分岔路径距离最短的分信息采集模块建立连接。
6.根据权利要求4所述的服务器集群运行监控系统,其特征在于:所述子信息采集模块检测到与分信息采集模块断开连接时,在保存的前驱节点列表信息中删除该分信息采集模块的信息,并在与另一分信息采集模块建立连接时,将另一分信息采集模块的信息添加到前驱节点列表信息中。
7.根据权利要求1所述的服务器集群运行监控系统,其特征在于:所述机器码指令包括内存指令、CPU指令、磁盘IO指令、网络流量指令、TCP连接数指令、应用进程参数指令。
8.根据权利要求1所述的服务器集群运行监控系统,其特征在于:所述服务器切换模块根据管理者设定的手动模式或自动模式进行服务器切换。
9.根据权利要求1所述的服务器集群运行监控系统,其特征在于:所述分布式存储模块内部划分存储空间,每个所述存储空间对应存储所述指令采集服务模块汇总的机器码指令或所述分信息采集模块汇总的信息数据。
CN201911216359.1A 2019-12-02 2019-12-02 一种服务器集群运行监控系统 Active CN110890988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911216359.1A CN110890988B (zh) 2019-12-02 2019-12-02 一种服务器集群运行监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911216359.1A CN110890988B (zh) 2019-12-02 2019-12-02 一种服务器集群运行监控系统

Publications (2)

Publication Number Publication Date
CN110890988A CN110890988A (zh) 2020-03-17
CN110890988B true CN110890988B (zh) 2022-04-22

Family

ID=69750005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911216359.1A Active CN110890988B (zh) 2019-12-02 2019-12-02 一种服务器集群运行监控系统

Country Status (1)

Country Link
CN (1) CN110890988B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231681A (zh) * 2011-06-27 2011-11-02 中国建设银行股份有限公司 一种高可用集群计算机系统及其故障处理方法
CN107943668A (zh) * 2017-12-15 2018-04-20 江苏神威云数据科技有限公司 计算机服务器集群日志监控方法及监控平台
CN108282349A (zh) * 2017-01-05 2018-07-13 湖南移商动力网络技术有限公司 基于集群服务器故障处理技术

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10496067B2 (en) * 2015-08-07 2019-12-03 Siemens Aktiengesellschaft Automation and control distributed data management systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231681A (zh) * 2011-06-27 2011-11-02 中国建设银行股份有限公司 一种高可用集群计算机系统及其故障处理方法
CN108282349A (zh) * 2017-01-05 2018-07-13 湖南移商动力网络技术有限公司 基于集群服务器故障处理技术
CN107943668A (zh) * 2017-12-15 2018-04-20 江苏神威云数据科技有限公司 计算机服务器集群日志监控方法及监控平台

Also Published As

Publication number Publication date
CN110890988A (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN107943668B (zh) 计算机服务器集群日志监控方法及监控平台
US10749939B2 (en) Application monitoring for cloud-based architectures
CN104407964B (zh) 一种基于数据中心的集中监控系统及方法
CN112073265B (zh) 一种基于分布式边缘计算的物联网监控方法和系统
EP2871803B1 (en) Network node failure predictive system
CN112187514A (zh) 一种数据中心网络设备智能运维系统、方法及终端
CN113708493B (zh) 基于云边协同的配电终端运维方法、装置和计算机设备
US20200257581A1 (en) Fault prediction and detection using time-based distributed data
CN111431754A (zh) 配用电通信网故障分析方法和系统
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN115033463B (zh) 一种系统异常类型确定方法、装置、设备和存储介质
CN112463892A (zh) 一种基于风险态势的预警方法及系统
CN109800133A (zh) 一种统一监控告警的方法、一站式监控告警平台及系统
CN115344207A (zh) 数据处理方法、装置、电子设备及存储介质
CN114885014A (zh) 一种外场设备状态的监测方法、装置、设备及介质
CN113760634A (zh) 一种数据处理方法和装置
CN110890988B (zh) 一种服务器集群运行监控系统
CN117194154A (zh) 一种基于微服务的apm全链路监控系统及方法
CN112260902A (zh) 网络设备监控方法、装置、设备及存储介质
CN115865696A (zh) 一种基于光分配网的业务管理系统
CN115714773A (zh) 基于云端大数据的工业设备数据共享方法
CN116302826A (zh) 一种智能运维监控平台、方法、存储介质及电子设备
CN114706893A (zh) 故障检测方法、装置、设备及存储介质
CN112416638A (zh) 一种消息中间件故障自愈系统
CN115705259A (zh) 故障处理方法、相关设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230807

Address after: 6/F, Building F2, Xingmengyuan Scientific Research, No. 198 Mingzhu Road, High tech Zone, Hefei City, Anhui Province, 230000

Patentee after: ANHUI SAN SHI SOFTWARE TECHNOLOGY Co.,Ltd.

Address before: 230000 room 406, zone B, entrepreneurship incubation center, National University Science Park, high tech Zone, Hefei, Anhui Province

Patentee before: ANHUI SANSHI INFORMATION TECHNOLOGY SERVICE CO.,LTD.