CN106027286A - 一种通信系统中节点的监控方法及系统 - Google Patents
一种通信系统中节点的监控方法及系统 Download PDFInfo
- Publication number
- CN106027286A CN106027286A CN201610293018.4A CN201610293018A CN106027286A CN 106027286 A CN106027286 A CN 106027286A CN 201610293018 A CN201610293018 A CN 201610293018A CN 106027286 A CN106027286 A CN 106027286A
- Authority
- CN
- China
- Prior art keywords
- communication
- monitoring
- module
- communication system
- interior joint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/02—Standardisation; Integration
- H04L41/0246—Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols
- H04L41/0273—Exchanging or transporting network management information using the Internet; Embedding network management web servers in network elements; Web-services-based protocols using web services for network management, e.g. simple object access protocol [SOAP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
- H04L47/125—Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种通信系统中节点的监控方法及系统,其中方法包括:步骤1:对通信系统中由多个通信节点构成的多个通信链路进行监控;步骤2:定时采集所有通信节点中积压线程的数量;步骤3:当出现一个或多个通信节点中的积压线程的数量达到或超出预设阀值时,发出告警,所述积压线程数量达到或超出预设阀值的通信节点对应的通信链路停止工作,结束。通过监控各通信节点线程积压情况,达到一定积压阀值,通知前端该通信节点异常,避免交易拥塞堵死,提前规避风险,使客户端和用户无感知,提升用户体验;提前发现过载的应用,避免单节点拥堵,造成用户体验慢或者应用堵死导致瘫痪的情况。
Description
技术领域
本发明涉及一种通信系统中节点的监控方法及系统。
背景技术
互联网行业的发展,推动了电信行业的改革,由过去IBM小型机、ORACLE、TUXEDO向X86、Mysql、服务云化发展,三大运营商逐步实现云化改造。
云化部署后降低了单机维护成本和升级成本,但单节点的性能和稳定性与之前相比有所降低,要保证用户良好体验,做到7*24小时不间断服务,必须提前发现单节点故障,提前做出应对处理,防患于未然。
发明内容
本发明所要解决的技术问题是提供一种通过增加线程监控保障处理,提高系统稳定性和用户良好感知的通信系统中节点的监控方法及系统。
本发明解决上述技术问题的技术方案如下:一种通信系统中节点的监控方法,具体包括以下步骤:
步骤1:对通信系统中由多个通信节点构成的多个通信链路进行监控;
步骤2:定时采集所有通信节点中积压线程的数量;
步骤3:当出现一个或多个通信节点中的积压线程的数量达到或超出预设阀值时,发出告警,所述积压线程数量达到或超出预设阀值的通信节点对应的通信链路停止工作,结束。
本发明的有益效果是:通过监控各通信节点线程积压情况,达到一定积压阀值,通知前端该通信节点异常,避免交易拥塞堵死,提前规避风险,使客户端和用户无感知,提升用户体验;提前发现过载的应用,避免单节点拥堵,造成用户体验慢或者应用堵死导致瘫痪的情况。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述3具体包括以下步骤:
步骤3.1:选取一个通信链路作为当前通信链路;
步骤3.2:判断当前通信链路中的所有通信节点中线程积压的数量是否都小于预设阀值,如果是,执行步骤3.4;否则,执行步骤3.3;
步骤3.3:发出告警,当前通信链路停止工作,执行步骤3.4;
步骤3.4:判断是否还存在未判断通信链路,如果是,执行步骤3.1;否则,结束。
采用上述进一步方案的有益效果是,通信链路中可以包括多个通信节点,一旦其中任何一个通信节点线程积压数量超出阀值就会造成通信拥塞,因此,当任何一个通信节点出现线程积压数量超出阀值,立即停止所在通信链路的通信工作。
进一步,还包括步骤4:将监控过程及告警信息生成监控日志,并将监控日志进行保存。
采用上述进一步方案的有益效果是,通过监控日志可以在出问题后可以找到问题时间点和异常数据信息,便于维护人员对问题及时进行解决。
进一步,所述阀值通过预设固定值结合监控日志进行设置。
采用上述进一步方案的有益效果是,通过监控日志可以对已经设定的阀值进行调整,达到最佳,不会出现过载也不会出现负载不足的情况。
本发明解决上述技术问题的技术方案如下:一种通信系统中节点的监控系统,包括监控模块、采集模块和判断告警模块;
所述监控模块用于对通信系统中由多个通信节点构成的多个通信链路进行监控;
所述采集模块用于定时采集所有通信节点中积压线程的数量;
所述判断告警模块当出现一个或多个通信节点中的积压线程的数量达到或超出预设阀值时,发出告警,所述积压线程数量达到或超出预设阀值的通信节点对应的通信链路停止工作,结束。
本发明的有益效果是:通过监控各通信节点线程积压情况,达到一定积压阀值,通知前端该通信节点异常,避免交易拥塞堵死,提前规避风险,使客户端和用户无感知,提升用户体验;提前发现过载的应用,避免单节点拥堵,造成用户体验慢或者应用堵死导致瘫痪的情况。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述判断告警模块包括选取模块、判断模块和结束模块;
所述选取模块用于选取一个通信链路作为当前通信链路;
所述判断模块用于判断当前通信链路中的所有通信节点中线程积压的数量是否都小于预设阀值,如果是,触发结束模块;否则,发出告警,当前通信链路停止工作,触发结束模块;
所述结束模用于判断是否还存在未判断通信链路,如果是,触发选取模块选取其他通信链路为当前通信链路;否则,结束。
采用上述进一步方案的有益效果是,通信链路中可以包括多个通信节点,一旦其中任何一个通信节点线程积压数量超出阀值就会造成通信拥塞,因此,当任何一个通信节点出现线程积压数量超出阀值,立即停止所在通信链路的通信工作。
进一步,还包括日志模块,所述日志模块用于将监控过程及告警信息生成监控日志,并将监控日志进行保存。
采用上述进一步方案的有益效果是,通过监控日志可以在出问题后可以找到问题时间点和异常数据信息,便于维护人员对问题及时进行解决。
进一步,所述阀值通过预设固定值结合监控日志进行设置。
采用上述进一步方案的有益效果是,通过监控日志可以对已经设定的阀值进行调整,达到最佳,不会出现过载也不会出现负载不足的情况。
本方案的核心在于通过weblogic提供的监控脚本,编写python脚本,实现对weblogic线程队列ThreadTotal、ThreadIdle指标监控,特点如下:
1、增加的监控脚本为后台程序,不依赖应用本身;
2、增加的监控不影响应用本身运行;
3、监控数据定时打印到指定日志文件,出问题后可以找到问题时间点和异常数据信息;
4、通过监控数据结果,根据经验设置阀值,达到阀值实现应用切换。
附图说明
图1为本发明实施例1所述的一种通信系统中节点的监控方法流程图;
图2为本发明实施例1所述的一种通信系统中节点的监控系统结构框图。
附图中,各标号所代表的部件列表如下:
1、监控模块,2、采集模块,3、判断告警模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明实施例1所述的一种通信系统中节点的监控方法,具体包括以下步骤:
步骤1:对通信系统中由多个通信节点构成的多个通信链路进行监控;
步骤2:定时采集所有通信节点中积压线程的数量;
步骤3:当出现一个或多个通信节点中的积压线程的数量达到或超出预设阀值时,发出告警,所述积压线程数量达到或超出预设阀值的通信节点对应的通信链路停止工作,结束。
本发明实施例2所述的一种通信系统中节点的监控方法,在实施例1的基础上,所述3具体包括以下步骤:
步骤3.1:选取一个通信链路作为当前通信链路;
步骤3.2:判断当前通信链路中的所有通信节点中线程积压的数量是否都小于预设阀值,如果是,执行步骤3.4;否则,执行步骤3.3;
步骤3.3:发出告警,当前通信链路停止工作,执行步骤3.4;
步骤3.4:判断是否还存在未判断通信链路,如果是,执行步骤3.1;否则,结束。
本发明实施例3所述的一种通信系统中节点的监控方法,在实施例1或2的基础上,还包括步骤4:将监控过程及告警信息生成监控日志,并将监控日志进行保存。
本发明实施例4所述的一种通信系统中节点的监控方法,在实施例3的基础上,所述阀值通过预设固定值结合监控日志进行设置。
如图2所示,为本发明实施例1所述的一种通信系统中节点的监控系统,包括监控模块1、采集模块2和判断告警模块3;
所述监控模块1用于对通信系统中由多个通信节点构成的多个通信链路进行监控;
所述采集模块2用于定时采集所有通信节点中积压线程的数量;
所述判断告警模块3当出现一个或多个通信节点中的积压线程的数量达到或超出预设阀值时,发出告警,所述积压线程数量达到或超出预设阀值的通信节点对应的通信链路停止工作,结束。
本发明实施例2所述的一种通信系统中节点的监控系统,在实施例1的基础上,所述判断告警模块3包括选取模块、判断模块和结束模块;
所述选取模块用于选取一个通信链路作为当前通信链路;
所述判断模块用于判断当前通信链路中的所有通信节点中线程积压的数量是否都小于预设阀值,如果是,触发结束模块;否则,发出告警,当前通信链路停止工作,触发结束模块;
所述结束模用于判断是否还存在未判断通信链路,如果是,触发选取模块选取其他通信链路为当前通信链路;否则,结束。
本发明实施例3所述的一种通信系统中节点的监控系统,在实施例1或2的基础上,还包括日志模块,所述日志模块用于将监控过程及告警信息生成监控日志,并将监控日志进行保存。
本发明实施例4所述的一种通信系统中节点的监控系统,在实施例3的基础上,所述阀值通过预设固定值结合监控日志进行设置。
具体实现方案及步骤:
1、编写线程监控脚本,后台获取总线程数ThreadTotal,空闲线程数ThreadIdle,并打印到指定目录文件中;
idleThreadCount=cmo.getExecuteThreadIdleCount()+cmo.getStandbyThreadCount()
threadTotalCount=cmo.getExecuteThreadTotalCount();
2、增加监控脚本,监控文件中记录的线程数,并计算排队线程数tail-1/onebosslog/tsnboss/threadlog/95tsnswitch$DATE.log|grep95tsnswitch|tail-1|awk'{print$10}'|read Idle95switchtail-1/onebosslog/tsnboss/threadlog/95tsnswitch$DATE.log|grep95tsnswitch|tail-1|awk'{print$14}'|read Total95switch
thread_busy95=$(($Total95switch-$Idle95switch));
3、监控脚本监控云化节点下的各个应用;
4、根据设置的阀值,如果达到阀值通知前端应用停止发送交易,阀值设置大小可以根据日常系统运行情况根据经验判断,根据一般经验,积压阀值超过100时,系统压力已经过载,可作为参考值。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种通信系统中节点的监控方法,其特征在于,具体包括以下步骤:
步骤1:对通信系统中由多个通信节点构成的多个通信链路进行监控;
步骤2:定时采集所有通信节点中积压线程的数量;
步骤3:当出现一个或多个通信节点中的积压线程的数量达到或超出预设阀值时,发出告警,所述积压线程数量达到或超出预设阀值的通信节点对应的通信链路停止工作,结束。
2.根据权利要求1所述的一种通信系统中节点的监控方法,其特征在于,所述3具体包括以下步骤:
步骤3.1:选取一个通信链路作为当前通信链路;
步骤3.2:判断当前通信链路中的所有通信节点中线程积压的数量是否都小于预设阀值,如果是,执行步骤3.4;否则,执行步骤3.3;
步骤3.3:发出告警,当前通信链路停止工作,执行步骤3.4;
步骤3.4:判断是否还存在未判断通信链路,如果是,执行步骤3.1;否则,结束。
3.根据权利要求1或2所述的一种通信系统中节点的监控方法,其特征在于,还包括步骤4:将监控过程及告警信息生成监控日志,并将监控日志进行保存。
4.根据权利要求3所述的一种通信系统中节点的监控方法,其特征在于,所述阀值通过预设固定值结合监控日志进行设置。
5.一种通信系统中节点的监控系统,其特征在于,包括监控模块、采集模块和判断告警模块;
所述监控模块用于对通信系统中由多个通信节点构成的多个通信链路进行监控;
所述采集模块用于定时采集所有通信节点中积压线程的数量;
所述判断告警模块当出现一个或多个通信节点中的积压线程的数量达到或超出预设阀值时,发出告警,所述积压线程数量达到或超出预设阀值的通信节点对应的通信链路停止工作。
6.根据权利要求5所述的一种通信系统中节点的监控系统,其特征在于,所述判断告警模块包括选取模块、判断模块和结束模块;
所述选取模块用于选取一个通信链路作为当前通信链路;
所述判断模块用于判断当前通信链路中的所有通信节点中线程积压的数量是否都小于预设阀值,如果是,触发结束模块;否则,发出告警,当前通信链路停止工作,触发结束模块;
所述结束模用于判断是否还存在未判断通信链路,如果是,触发选取模块选取其他通信链路为当前通信链路;否则,结束。
7.根据权利要求5或6所述的一种通信系统中节点的监控系统,其特征在于,还包括日志模块,所述日志模块用于将监控过程及告警信息生成监控日志,并将监控日志进行保存。
8.根据权利要求7所述的一种通信系统中节点的监控系统,其特征在于,所述阀值通过预设固定值结合监控日志进行设置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610293018.4A CN106027286A (zh) | 2016-05-05 | 2016-05-05 | 一种通信系统中节点的监控方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610293018.4A CN106027286A (zh) | 2016-05-05 | 2016-05-05 | 一种通信系统中节点的监控方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106027286A true CN106027286A (zh) | 2016-10-12 |
Family
ID=57081247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610293018.4A Pending CN106027286A (zh) | 2016-05-05 | 2016-05-05 | 一种通信系统中节点的监控方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106027286A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7093251B2 (en) * | 1999-01-19 | 2006-08-15 | Netiq Corporation | Methods, systems and computer program products for monitoring interrelated tasks executing on a computer using queues |
CN101083557A (zh) * | 2007-06-29 | 2007-12-05 | 中兴通讯股份有限公司 | 一种基于snmp的ip网络集群管理方法 |
CN102567484A (zh) * | 2011-12-19 | 2012-07-11 | 天津市电力公司 | 一种用于实现微网系统控制策略的过程控制方法及系统 |
CN103428272A (zh) * | 2013-07-16 | 2013-12-04 | 无限极(中国)有限公司 | 一种中间件线程的监控调度系统及方法 |
CN103825785A (zh) * | 2014-03-24 | 2014-05-28 | 北京中电普华信息技术有限公司 | 一种服务节点的监测方法及装置 |
CN103856963A (zh) * | 2014-03-05 | 2014-06-11 | 浪潮通信信息系统有限公司 | 一种创建智能通信通道的方法 |
-
2016
- 2016-05-05 CN CN201610293018.4A patent/CN106027286A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7093251B2 (en) * | 1999-01-19 | 2006-08-15 | Netiq Corporation | Methods, systems and computer program products for monitoring interrelated tasks executing on a computer using queues |
CN101083557A (zh) * | 2007-06-29 | 2007-12-05 | 中兴通讯股份有限公司 | 一种基于snmp的ip网络集群管理方法 |
CN102567484A (zh) * | 2011-12-19 | 2012-07-11 | 天津市电力公司 | 一种用于实现微网系统控制策略的过程控制方法及系统 |
CN103428272A (zh) * | 2013-07-16 | 2013-12-04 | 无限极(中国)有限公司 | 一种中间件线程的监控调度系统及方法 |
CN103856963A (zh) * | 2014-03-05 | 2014-06-11 | 浪潮通信信息系统有限公司 | 一种创建智能通信通道的方法 |
CN103825785A (zh) * | 2014-03-24 | 2014-05-28 | 北京中电普华信息技术有限公司 | 一种服务节点的监测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108200544B (zh) | 短信下发方法和短信平台 | |
US8989002B2 (en) | System and method for controlling threshold testing within a network | |
CN111130912B (zh) | 内容分发网络的异常定位方法、服务器及存储介质 | |
CN105141447B (zh) | Can总线负载率监控方法及系统 | |
CN109558301A (zh) | 一种分布式系统数据监测方法、装置及相关设备 | |
CN102083091A (zh) | 网管告警管理方法和系统以及告警采集服务器 | |
CN111130821B (zh) | 一种掉电告警的方法、处理方法及装置 | |
CN102638373B (zh) | 一种接入设备的告警预投入实现方法 | |
US20030145084A1 (en) | System and method for decentralized system and network performance assessment and verification | |
CN110730087A (zh) | 一种告警风暴的处理方法及装置 | |
US20080002569A1 (en) | Method and apparatus for identifying a fault in a communications link | |
CN102088720A (zh) | Ip多媒体子系统网络中的网元监测方法、系统和设备 | |
EP1622310A2 (en) | Administration system for network management systems | |
CN110224872B (zh) | 一种通信方法、装置及存储介质 | |
CN106027286A (zh) | 一种通信系统中节点的监控方法及系统 | |
CN103391303B (zh) | 服务故障公告方法及使用该方法的服务器 | |
CN113760634A (zh) | 一种数据处理方法和装置 | |
CN111522672A (zh) | 一种用于熔断数据重复消费的方法及系统 | |
CN105791023A (zh) | 光网络单元onu管理的方法、装置以及系统 | |
CN110445647A (zh) | 一种物联网数据诊断及纠错方法 | |
CN109889369A (zh) | 一种多网冗余数据传输方法 | |
CN106385384B (zh) | 一种报文发送方法及网络设备 | |
CN112437146B (zh) | 一种设备状态同步方法、装置及系统 | |
CN105007143A (zh) | 一种实现呼叫保存和恢复的方法及系统 | |
US8566634B2 (en) | Method and system for masking defects within a network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161012 |
|
RJ01 | Rejection of invention patent application after publication |