CN107360019A - 一种服务器的线程监控方法及系统 - Google Patents

一种服务器的线程监控方法及系统 Download PDF

Info

Publication number
CN107360019A
CN107360019A CN201710419874.4A CN201710419874A CN107360019A CN 107360019 A CN107360019 A CN 107360019A CN 201710419874 A CN201710419874 A CN 201710419874A CN 107360019 A CN107360019 A CN 107360019A
Authority
CN
China
Prior art keywords
server
alert event
monitoring
thread
threads
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710419874.4A
Other languages
English (en)
Inventor
方敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Bill Trading Center Co Ltd
Original Assignee
Wuhan Bill Trading Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Bill Trading Center Co Ltd filed Critical Wuhan Bill Trading Center Co Ltd
Priority to CN201710419874.4A priority Critical patent/CN107360019A/zh
Publication of CN107360019A publication Critical patent/CN107360019A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种服务器的线程监控方法及系统,方法包括:S1、判断服务器的配置文件中是否将服务器监控实例设置为有效模式;S2、如果服务器监控实例被设置为有效模式,则在服务器启动时,启动服务器监控实例;S3、每间隔监视时间段,通过服务器监控实例对当前正在执行的线程数量进行监控;S4、在中心监控服务器接收到线程统计事件和报警事件之后,持久化保存到数据库中。本发明的有益效果是:本技术方案根据负荷动态增加或减少服务器,实现负荷均衡和资源的有效利用。

Description

一种服务器的线程监控方法及系统
技术领域
本发明涉及线程监控领域,特别涉及一种服务器的线程监控方法及系统。
背景技术
目前,服务器并没有配置专门用来采集线程数量信息的服务器监控实例,同样的,当线程并发数太多或太少的时候,也没有专门的服务器监控实例来实时通知客户端,以及通过增加或减少服务器来维持负荷均衡,以及实现资源的合理利用。
发明内容
本发明提供了一种服务器的线程监控方法及系统,解决了现有技术的技术问题。
本发明解决上述技术问题的技术方案如下:
一种服务器的线程监控方法,包括:
S1、判断服务器的配置文件中是否将服务器监控实例设置为有效模式;
S2、如果所述服务器监控实例被设置为有效模式,则在所述服务器启动时,以监视时间段、线程数阈值列表和中心监控服务器的名称为启动参数,启动所述服务器监控实例;
S3、每间隔所述监视时间段,通过所述服务器监控实例对当前正在执行的线程数量进行监控,生成包括所述当前正在执行的线程数量的线程统计事件,并将所述线程统计事件发送至所述中心监控服务器;
将所述当前正在执行的线程数量与所述线程数阈值列表中的阈值进行比较,根据比较结果生成报警事件,将所述报警事件发送至所述中心监控服务器;
S4、在接收到所述所述线程统计事件和所述报警事件之后,持久化保存到数据库中,将所述报警事件转化为客户端待处理的事件,经消息服务器和连接服务器发送至中控端,在所述中控端的服务器管理列表中对所述服务器进行标记,以便所述中控端对所述服务器管理列表中的每个服务器进行统一调配。
本发明的有益效果是:本技术方案对服务器的线程进行监控,并对当前正在执行的线程数量进行分析,生成相应的线程统计事件和报警事件,并发送到中心监控服务器进行处理,根据负荷动态增加或减少服务器,实现负荷均衡和资源的有效利用。
在上述技术方案的基础上,本发明还可以做如下改进。
优选地,步骤S3中,将所述当前正在执行的线程数量与所述线程数阈值列表中的阈值进行比较,根据比较结果生成报警事件的方法具体包括:
如果所述当前正在执行的线程数量大于所述线程数阈值列表中的最大阈值,则生成第一优先级别的第一报警事件;
如果所述当前正在执行的线程数量小于所述最大阈值且大于预设阈值,则生成第二优先级别的第二报警事件,其中,所述第一优先级别比所述第二优先级别高。
优选地,步骤S4中,所述中心监控服务器接收到所述所述报警事件事件之后,还包括:
判断所述报警事件是否为所述第一报警事件,如是,则启动新的备用服务器,否则判断所述报警事件的原因是否为服务器系统故障,如是,则重新启动所述服务器。
一种服务器的线程监控系统,包括:至少一个服务器、中心监控服务器、消息服务器、连接服务器和中控端;
所述至少一个服务器中的每个服务器用于判断配置文件中是否将服务器监控实例设置为有效模式;以及
如果所述服务器监控实例被设置为有效模式,则在所述服务器启动时,以监视时间段、线程数阈值列表和中心监控服务器的名称为启动参数,启动所述服务器监控实例;以及
每间隔所述监视时间段,通过所述服务器监控实例对当前正在执行的线程数量进行监控,生成包括所述当前正在执行的线程数量的线程统计事件,将所述线程统计事件发送至所述中心监控服务器;以及
将所述当前正在执行的线程数量与所述线程数阈值列表中的阈值进行比较,根据比较结果生成报警事件,将所述报警事件发送至所述中心监控服务器;
所述中心监控服务器用于在接收到所述所述线程统计事件和所述报警事件之后,持久化保存到数据库中,将所述报警事件转化为客户端待处理的事件,经消息服务器和连接服务器发送至中控端,在所述中控端的服务器管理列表中对所述服务器进行标记,以便所述中控端对所述服务器管理列表中的每个服务器进行统一调配。
优选地,所述服务器具体用于:
如果所述当前正在执行的线程数量大于所述线程数阈值列表中的最大阈值,则生成第一优先级别的第一报警事件;
如果所述当前正在执行的线程数量小于所述最大阈值且大于预设阈值,则生成第二优先级别的第二报警事件,其中,所述第一优先级别比所述第二优先级别高。
优选地,所述中心监控服务器还用于:
在接收到所述报警事件之后,判断所述报警事件是否为所述第一报警事件,如是,则启动新的备用服务器,否则判断所述报警事件的原因是否为服务器系统故障,如是,则重新启动所述服务器。
附图说明
图1为本发明实施例提供的一种服务器的线程监控方法的流程示意图;
图2为本发明另一实施例提供的一种服务器的线程监控系统的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种服务器的线程监控方法,包括:
S1、判断服务器的配置文件中是否将服务器监控实例设置为有效模式;
S2、如果服务器监控实例被设置为有效模式,则在服务器启动时,以监视时间段、线程数阈值列表和中心监控服务器的名称为启动参数,启动服务器监控实例;
S3、每间隔监视时间段,通过服务器监控实例对当前正在执行的线程数量进行监控,生成包括当前正在执行的线程数量的线程统计事件,并将线程统计事件发送至中心监控服务器;
将当前正在执行的线程数量与线程数阈值列表中的阈值进行比较,根据比较结果生成报警事件,将报警事件发送至中心监控服务器;
S4、在中心监控服务器接收到线程统计事件和报警事件之后,持久化保存到数据库中,将报警事件转化为客户端待处理的事件,经消息服务器和连接服务器发送至中控端,在中控端的服务器管理列表中对服务器进行标记,以便中控端对服务器管理列表中的每个服务器进行统一调配。
应理解,首先需判断配置文件中是否设置了服务器监控实例的有效模式,如果设置了,则在服务器启动的同时,启动服务器监控实例,用以监控当前正在实行的线程数,根据当前正在实行的线程数生成相应的报警事件,发送给中心监控服务器处理。
具体地,步骤S3中,将当前正在执行的线程数量与线程数阈值列表中的阈值进行比较,根据比较结果生成报警事件的方法具体包括:
如果当前正在执行的线程数量大于线程数阈值列表中的最大阈值,则生成第一优先级别的第一报警事件;
如果当前正在执行的线程数量小于最大阈值且大于预设阈值,则生成第二优先级别的第二报警事件,其中,第一优先级别比第二优先级别高。
应理解,如果当前正在执行的线程数量大于线程数阈值列表中的最大阈值,则表示当前线程的并行数太大,当前负载过重,需生成第一优先级别的第一报警事件,用以通知客户端,启动备用服务器,以便实现负载均衡;如果当前正在执行的线程数量小于最大阈值且大于预设阈值,则表示当前线程的并行数超过了预设阈值,需生成第二优先级别的第二报警事件,用以通知客户端,调节负载。
具体地,步骤S4中,中心监控服务器接收到报警事件事件之后,还包括:
判断报警事件是否为第一优先级别的报警事件,如是,则启动新的备用服务器,否则判断报警事件的原因是否为服务器系统故障,如是,则重新启动服务器。
应理解,在中心监控服务器接收到服务器发送的报警事件之后,需要判断该报警事件是否为第一优先级别即最高优先级别的报警事件,如果是,则表示内存严重不足,启动新的备用服务器,以便实现负载均衡。如果不是,则继续判断是否因为服务器系统故障生成该报警事件,如果是,则需要重新启动服务器,以便排除系统故障。
如图2所示,一种服务器的线程监控系统,包括:至少一个服务器1、中心监控服务器2、消息服务器3、连接服务器4和中控端5;
至少一个服务器1中的每个服务器用于判断配置文件中是否将服务器监控实例设置为有效模式;以及
如果服务器监控实例被设置为有效模式,则在服务器启动时,以监视时间段、线程数阈值列表和中心监控服务器的名称为启动参数,启动服务器监控实例;以及
每间隔监视时间段,通过服务器监控实例对当前正在执行的线程数量进行监控,生成包括当前正在执行的线程数量的线程统计事件,并将线程统计事件发送至中心监控服务器;
将当前正在执行的线程数量与线程数阈值列表中的阈值进行比较,根据比较结果生成报警事件,将报警事件发送至中心监控服务器;
中心监控服务器2用于在接收到线程统计事件和报警事件之后,持久化保存到数据库中,将报警事件转化为客户端待处理的事件,经消息服务器3和连接服务器4发送至中控端5,在中控端5的服务器管理列表中对服务器进行标记,以便中控端对服务器管理列表中的每个服务器进行统一调配。
具体地,服务器具体用于:
如果当前正在执行的线程数量大于线程数阈值列表中的最大阈值,则生成第一优先级别的第一报警事件;
如果当前正在执行的线程数量小于最大阈值且大于预设阈值,则生成第二优先级别的第二报警事件,其中,第一优先级别比第二优先级别高。
具体地,中心监控服务器2还用于:
在接收到报警事件之后,判断报警事件是否为第一报警事件,如是,则启动新的备用服务器,否则判断报警事件的原因是否为服务器系统故障,如是,则重新启动服务器。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种服务器的线程监控方法,其特征在于,包括:
S1、判断服务器的配置文件中是否将服务器监控实例设置为有效模式;
S2、如果所述服务器监控实例被设置为有效模式,则在所述服务器启动时,以监视时间段、线程数阈值列表和中心监控服务器的名称为启动参数,启动所述服务器监控实例;
S3、每间隔所述监视时间段,通过所述服务器监控实例对当前正在执行的线程数量进行监控,生成包括所述当前正在执行的线程数量的线程统计事件,并将所述线程统计事件发送至所述中心监控服务器;
将所述线程数量与所述线程数阈值列表中的阈值进行比较,根据比较结果生成报警事件,将所述报警事件发送至所述中心监控服务器;
S4、在所述中心监控服务器接收到所述线程统计事件和所述报警事件之后,持久化保存到数据库中,将所述报警事件转化为客户端待处理的事件,经消息服务器和连接服务器发送至中控端,在所述中控端的服务器管理列表中对所述服务器进行标记,以便所述中控端对所述服务器管理列表中的每个服务器进行统一调配。
2.根据权利要求1所述的一种服务器的线程监控方法,其特征在于,步骤S3中,将所述当前正在执行的线程数量与所述线程数阈值列表中的阈值进行比较,根据比较结果生成报警事件的方法具体包括:
如果所述当前正在执行的线程数量大于所述线程数阈值列表中的最大阈值,则生成第一优先级别的第一报警事件;
如果所述当前正在执行的线程数量小于所述最大阈值且大于预设阈值,则生成第二优先级别的第二报警事件,其中,所述第一优先级别比所述第二优先级别高。
3.根据权利要求1或2所述的一种服务器的线程监控方法,其特征在于,步骤S4中,所述中心监控服务器接收到所述报警事件之后,还包括:
判断所述报警事件是否为所述第一报警事件,如是,则启动新的备用服务器,否则判断所述报警事件的原因是否为服务器系统故障,如是,则重新启动所述服务器。
4.一种服务器的线程监控系统,其特征在于,包括:至少一个服务器、中心监控服务器、消息服务器、连接服务器和中控端;
所述至少一个服务器中的每个服务器用于判断配置文件中是否将服务器监控实例设置为有效模式;以及
如果所述服务器监控实例被设置为有效模式,则在所述服务器启动时,以监视时间段、线程数阈值列表和中心监控服务器的名称为启动参数,启动所述服务器监控实例;以及
每间隔所述监视时间段,通过所述服务器监控实例对当前正在执行的线程数量进行监控,生成包括所述当前正在执行的线程数量的线程统计事件,并将所述线程统计事件发送至所述中心监控服务器;以及
将所述当前正在执行的线程数量与所述线程数阈值列表中的阈值进行比较,根据比较结果生成报警事件,将所述报警事件发送至所述中心监控服务器;
所述中心监控服务器用于在接收到所述所述线程统计事件和所述报警事件之后,持久化保存到数据库中,将所述报警事件转化为客户端待处理的事件,经消息服务器和连接服务器发送至中控端,在所述中控端的服务器管理列表中对所述服务器进行标记,以便所述中控端对所述服务器管理列表中的每个服务器进行统一调配。
5.根据权利要求4所述的一种服务器的线程监控系统,其特征在于,所述服务器具体用于:
如果所述当前正在执行的线程数量大于所述线程数阈值列表中的最大阈值,则生成第一优先级别的第一报警事件;
如果所述当前正在执行的线程数量小于所述最大阈值且大于预设阈值,则生成第二优先级别的第二报警事件,其中,所述第一优先级别比所述第二优先级别高。
6.根据权利要求4或5所述的一种服务器的线程监控系统,其特征在于,所述中心监控服务器还用于:
在接收到所述报警事件之后,判断所述报警事件是否为所述第一报警事件,如是,则启动新的备用服务器,否则判断所述报警事件的原因是否为服务器系统故障,如是,则重新启动所述服务器。
CN201710419874.4A 2017-06-06 2017-06-06 一种服务器的线程监控方法及系统 Withdrawn CN107360019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710419874.4A CN107360019A (zh) 2017-06-06 2017-06-06 一种服务器的线程监控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710419874.4A CN107360019A (zh) 2017-06-06 2017-06-06 一种服务器的线程监控方法及系统

Publications (1)

Publication Number Publication Date
CN107360019A true CN107360019A (zh) 2017-11-17

Family

ID=60272225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710419874.4A Withdrawn CN107360019A (zh) 2017-06-06 2017-06-06 一种服务器的线程监控方法及系统

Country Status (1)

Country Link
CN (1) CN107360019A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840179A (zh) * 2018-12-15 2019-06-04 中国平安人寿保险股份有限公司 RocketMQ线程数监控方法、装置、电子设备及存储介质
CN111475387A (zh) * 2019-01-24 2020-07-31 阿里巴巴集团控股有限公司 一种服务器过载判断方法及服务器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102340415A (zh) * 2011-06-23 2012-02-01 北京新媒传信科技有限公司 一种服务器集群系统的监控方法和一种服务器集群系统
CN104410671A (zh) * 2014-11-03 2015-03-11 深圳市蓝凌软件股份有限公司 一种快照抓取方法和数据监控工具
CN104954184A (zh) * 2015-06-15 2015-09-30 四川长虹电器股份有限公司 云端后台服务器集群的监控、告警方法及系统
CN105591816A (zh) * 2015-12-10 2016-05-18 北京合力思腾科技股份有限公司 It运维服务器的运行状态检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102340415A (zh) * 2011-06-23 2012-02-01 北京新媒传信科技有限公司 一种服务器集群系统的监控方法和一种服务器集群系统
CN104410671A (zh) * 2014-11-03 2015-03-11 深圳市蓝凌软件股份有限公司 一种快照抓取方法和数据监控工具
CN104954184A (zh) * 2015-06-15 2015-09-30 四川长虹电器股份有限公司 云端后台服务器集群的监控、告警方法及系统
CN105591816A (zh) * 2015-12-10 2016-05-18 北京合力思腾科技股份有限公司 It运维服务器的运行状态检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840179A (zh) * 2018-12-15 2019-06-04 中国平安人寿保险股份有限公司 RocketMQ线程数监控方法、装置、电子设备及存储介质
CN111475387A (zh) * 2019-01-24 2020-07-31 阿里巴巴集团控股有限公司 一种服务器过载判断方法及服务器

Similar Documents

Publication Publication Date Title
US20170300359A1 (en) Policy based workload scaler
CN107066332B (zh) 分布式系统及其调度方法和调度装置
EP3376379A1 (en) Task management methods and system, and computer storage medium
CN111124829A (zh) 一种kubernetes计算节点状态监测方法
CN106790565A (zh) 一种网络附属存储集群系统
DE102017112752A1 (de) Ladeverfahren und elektronische Vorrichtung
CN109412874A (zh) 设备资源的配置方法、装置、服务器及存储介质
CN107360019A (zh) 一种服务器的线程监控方法及系统
CN104461731B (zh) 一种动态资源扩展中虚拟机资源回收方法和装置
US11966273B2 (en) Throughput-optimized, quality-of-service aware power capping system
CN111262783B (zh) 一种动态路由的方法及装置
CN102622291A (zh) 一种进程的监控方法及系统
CN103605575A (zh) 一种Cloud Foundry平台应用调度系统及方法
CN107360052A (zh) 一种服务器的内存监控方法及系统
CN109104334B (zh) 监控系统中节点的管理方法和装置
JP2020522978A (ja) 電気装置の負荷管理のための方法およびアセンブリ
CN113157390B (zh) 一种电力终端中针对电力应用的容器资源管理方法和装置
CN114036032A (zh) 一种实时程序的监控方法及装置
CN114706663A (zh) 一种计算资源调度方法、介质及计算设备
CN111563069B (zh) 一种工控设备的探针配置方法和系统
US20190155359A1 (en) Method for automatically managing the electricity consumption of a server farm
CN106302594B (zh) 一种确定进程负载情况的方法和装置
CN108494853B (zh) 一种海量设备状态自维护方法及其装置和系统
WO2024009846A1 (ja) データ提供プラットフォーム、データ提供システム、データ提供方法、及びプログラム
CN112261076B (zh) 下载服务分离方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20171117