CN104539479A - 一种分布式服务监控系统及方法 - Google Patents
一种分布式服务监控系统及方法 Download PDFInfo
- Publication number
- CN104539479A CN104539479A CN201410779287.2A CN201410779287A CN104539479A CN 104539479 A CN104539479 A CN 104539479A CN 201410779287 A CN201410779287 A CN 201410779287A CN 104539479 A CN104539479 A CN 104539479A
- Authority
- CN
- China
- Prior art keywords
- monitoring unit
- service
- monitoring
- monitored service
- monitored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Computer And Data Communications (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明公开一种分布式服务监控系统,其能够全面完整地监控服务状态,从而把漏报、误报降到最低,不再受单个监控单元自身故障的干扰,通过提高监控系统自身的高可用性来提高整个服务的高可用性。该系统包括m个监控单元,m为大于1的整数,这些监控单元部署在m个点,覆盖不同地区、不同网络运营商、不同机房;监控单元组成分布式结构,各个监控单元彼此联系;如果n个或n个以上监控单元检测到被监控服务出现故障,1≤n≤m,则进行故障转移;服务恢复后,如果n个或n个以上监控单元检测到被监控服务已经恢复,1≤n≤m,则进行故障恢复。还提供了采用该系统的方法。
Description
技术领域
本发明涉及网络服务监控的技术领域,具体地涉及一种分布式服务监控系统及方法。
背景技术
在高可用网络服务系统中,对服务进行监控并及时执行故障转移是保证服务高可用性的重要手段。现有的监控系统主要有两种:
1.本地监控
在被监控服务所在服务器上设置监控系统,监控服务进程是否存活。
2.远程监控
在远程服务器上设置监控系统,通过ping或心跳等手段判断被监控服务是否存活。
以上两种方案均属于单点监控,并且其故障恢复措施简单。前者通过重启服务以期故障自动修复;后者通过修改IP或域名指向来屏蔽有故障服务并指向新服务,从而完成故障转移。
现有两种方案的缺陷有:
1.状态检测不准确
单点监控无法完整反映被监控服务的真实状态,从而造成检测到的服务状态不准确甚至误报的问题。
第一种监控系统无法获取外部网络状态,比如外部应用与被监控服务之间网络不可达。这样就无法及时的发现故障并进行故障转移。
第二种监控系统无法全面反映不同网络运营商、不同地区对被监控服务的影响。
以上两种系统都无法正确处理监控程序自身故障时的情景。
2.故障转移措施简单粗暴
很多故障通过重启服务并不能得到修复,所以这些情况下第一种监控系统无法正常地进行故障转移或恢复。
第二种监控系统在进行故障转移时并不能选择真正最优的备份服务。比如,监控系统总是选择与它处在相同机房的备份服务进行转移。因为同机房的网络状况大部分情况下好于跨机房的网络状况。从而,给监控系统造成该备份服务要优于其他备份服务的假象。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种分布式服务监控系统,其能够全面完整地监控服务状态,从而把漏报、误报降到最低,不再受单个监控单元自身故障的干扰,通过提高监控系统自身的高可用性来提高整个服务的高可用性。
本发明的技术解决方案是:这种分布式服务监控系统,该系统包括m个监控单元,m为大于1的整数,这些监控单元部署在m个点,覆盖不同地区、不同网络运营商、不同机房;监控单元组成分布式结构,各个监控单元彼此联系;如果n个或n个以上监控单元检测到被监控服务出现故障,1≤n≤m,则进行故障转移;服务恢复后,如果n个或n个以上监控单元检测到被监控服务已经恢复,1≤n≤m,则进行故障恢复。
由于监控单元部署在m个点,覆盖不同地区、不同网络运营商、不同机房,监控单元组成分布式结构,各个监控单元彼此联系,所以这种分布式服务监控系统能够全面完整地监控服务状态,从而把漏报、误报降到最低,不再受单个监控单元自身故障的干扰,通过提高监控系统自身的高可用性来提高整个服务的高可用性。
还提供了采用该系统的方法,该方法包括以下步骤:
(1)将m个监控单元部署在m个点,m为大于2的整数,覆盖不同地区、不同网络运营商、不同机房;
(2)监控单元组成分布式结构,各个监控单元彼此联系;
(3)判断是否有n个或n个以上监控单元检测到被监控服务出现故障,1≤n≤m,是则执行步骤(4),否则重新判断是否有n个或n个以上监控单元检测到被监控服务出现故障;
(4)从这m个监控单元中选举一个作为主监控单元来执行故障转移;
(5)从各监控单元推举的最优备份服务中,选举最终的备份服务以备故障转移,备份服务选定以后,主监控单元执行故障转移;
(6)判断是否有n个或n个以上监控单元检测到被监控服务已经恢复,1≤n≤m,是则执行步骤(7),否则重新判断是否有n个或n个以上监控单元检测到被监控服务已经恢复;
(7)当被监控服务进入恢复后,从各监控单元中选举一个作为主监控单元执行故障恢复。
附图说明
图1为采用本发明的分布式服务监控系统的方法的流程图。
图2为根据本发明的监控单元的示意图。
图3为根据本发明的故障转移的示意图。
图4为根据本发明的故障恢复的示意图。
具体实施方式
这种分布式服务监控系统,该系统包括m个监控单元,m为大于1的整数,这些监控单元部署在m个点,覆盖不同地区、不同网络运营商、不同机房;监控单元组成分布式结构,各个监控单元彼此联系;如果n个或n个以上监控单元检测到被监控服务出现故障,1≤n≤m,则进行故障转移;服务恢复后,如果n个或n个以上监控单元检测到被监控服务已经恢复,1≤n≤m,则进行故障恢复。
由于监控单元部署在m个点,覆盖不同地区、不同网络运营商、不同机房,监控单元组成分布式结构,各个监控单元彼此联系,所以这种分布式服务监控系统能够全面完整地监控服务状态,从而把漏报、误报降到最低,不再受单个监控单元自身故障的干扰,通过提高监控系统自身的高可用性来提高整个服务的高可用性。
如图1所示,还提供了采用该系统的方法,该方法包括以下步骤:
(1)将m个监控单元部署在m个点,m为大于1的整数,覆盖不同地区、不同网络运营商、不同机房;
(2)监控单元组成分布式结构,各个监控单元彼此联系;
(3)判断是否有n个或n个以上监控单元检测到被监控服务出现故障,1≤n≤m,是则执行步骤(4),否则重新判断是否有n个或n个以上监控单元检测到被监控服务出现故障;
(4)从这m个监控单元中选举一个作为主监控单元来执行故障转移;
(5)从各监控单元推举的最优备份服务中,选举最终的备份服务以备故障转移(由于每个监控程序所监测到的各个服务的健康系数不同,所以每个监控程序所认为的最优备份服务不一定相同。为了让最终选出来的最优备份服务最接近事实,各监控程序需要推举自己认为的最优备份服务,然后再利用Raft算法进行选举,选出最终的备份服务以备故障转移。),备份服务选定以后,主监控单元执行故障转移;
(6)在故障转移完成之后,各监控程序仍然检测出现故障的服务,直到该服务从故障中恢复(手工或自动)或此服务永久下线(手动)。判断是否有n个或n个以上监控单元检测到被监控服务已经恢复,1≤n≤m,是则执行步骤(7),否则重新判断是否有n个或n个以上监控单元检测到被监控服务已经恢复;
(7)当被监控服务进入恢复(客观恢复)后,从各监控单元中选举一个作为主监控单元执行故障恢复。
另外,所述步骤(2)中各个监控单元彼此联系通过以下两种方法实现:
监控单元在启动时读取配置文件中的其他监控单元的地址,并进行连接;
监控单元连接被监控服务,向被监控服务报告自己的地址并请求其他监控单元的地址进行连接。
当然,还可以采用其他任何方式使各个监控单元相互发现。
另外,所述步骤(3)中每个监控单元通过ping或心跳的方式检测服务状态并维护一个健康系数,在检测到服务出现故障时通知其他监控单元。
另外,n=3,m=10。
另外,所述步骤(4)、(5)、(7)中的选举是通过Raft算法(参见网页http://raftconsensus.github.io/)进行选举。这样能够保证选举出好的主监控单元和真正最优的备份服务,故障转移更合理,故障恢复更有效。
因为车机终端分布在全国各地并且使用的不同网络运营商,所以,车机接入服务被部署在不同的数据中心。如果单靠服务本地的监控脚本或处在主中心的监控系统对服务进行监控,漏报率和误报率比较高。
采用本发明中的方案后,可显著降低漏报率和误报率,并把原来连接故障服务的车机终端合理地分配到其他一个或多个接入服务上去。这样,对提升系统的高可用性有重要意义。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (6)
1.一种分布式服务监控系统,其特征在于:该系统包括m个监控单元,m为大于1的整数,这些监控单元部署在m个点,覆盖不同地区、不同网络运营商、不同机房;监控单元组成分布式结构,各个监控单元彼此联系;如果n个或n个以上监控单元检测到被监控服务出现故障,1≤n≤m,则进行故障转移;服务恢复后,如果n个或n个以上监控单元检测到被监控服务已经恢复,1≤n≤m,则进行故障恢复。
2.一种采用根据权利要求1所述的分布式服务监控系统的方法,其特征在于:该方法包括以下步骤:
(1)将m个监控单元部署在m个点,m为大于1的整数,覆盖不同地区、不同网络运营商、不同机房;
(2)监控单元组成分布式结构,各个监控单元彼此联系;
(3)判断是否有n个或n个以上监控单元检测到被监控服务出现故障,1≤n≤m,是则执行步骤(4),否则重新判断是否有n个或n个以上监控单元检测到被监控服务出现故障;
(4)从这m个监控单元中选举一个作为主监控单元来执行故障转移;
(5)从各监控单元推举的最优备份服务中,选举最终的备份服务以备故障转移,备份服务选定以后,主监控单元执行故障转移;
(6)判断是否有n个或n个以上监控单元检测到被监控服务已经恢复,1≤n≤m,是则执行步骤(7),否则重新判断是否有n个或n个以上监控单元检测到被监控服务已经恢复;
(7)当被监控服务进入恢复后,从各监控单元中选举一个作为主监控单元执行故障恢复。
3.根据权利要求2所述的方法,其特征在于:所述步骤(2)中各个监控单元彼此联系通过以下两种方法实现:
监控单元在启动时读取配置文件中的其他监控单元的地址,并进行连接;
监控单元连接被监控服务,向被监控服务报告自己的地址并请求其他监控单元的地址进行连接。
4.根据权利要求2所述的方法,其特征在于:所述步骤(3)中每个监控单元通过ping或心跳的方式检测服务状态并维护一个健康系数,在检测到服务出现故障时通知其他监控单元。
5.根据权利要求4所述的方法,其特征在于:n=3,m=10。
6.根据权利要求5所述的方法,其特征在于:所述步骤(4)、(5)、(7)中的选举是通过Raft算法进行选举。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410779287.2A CN104539479A (zh) | 2014-12-16 | 2014-12-16 | 一种分布式服务监控系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410779287.2A CN104539479A (zh) | 2014-12-16 | 2014-12-16 | 一种分布式服务监控系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104539479A true CN104539479A (zh) | 2015-04-22 |
Family
ID=52854948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410779287.2A Pending CN104539479A (zh) | 2014-12-16 | 2014-12-16 | 一种分布式服务监控系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104539479A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105429791A (zh) * | 2015-11-03 | 2016-03-23 | 国网技术学院 | 一种分布式服务状态检测器及方法 |
CN107395458A (zh) * | 2017-07-31 | 2017-11-24 | 东软集团股份有限公司 | 系统监控方法及装置 |
CN107579873A (zh) * | 2017-08-30 | 2018-01-12 | 杭州安恒信息技术有限公司 | 一种监测网站可用性的方法 |
CN107634863A (zh) * | 2017-10-25 | 2018-01-26 | 北京百悟科技有限公司 | 用于域名解析容灾服务的分布式监控装置及方法 |
CN108984349A (zh) * | 2018-08-17 | 2018-12-11 | 杭州朗和科技有限公司 | 主节点选举方法及装置、介质和计算设备 |
WO2019037771A1 (zh) * | 2017-08-25 | 2019-02-28 | 贵州白山云科技股份有限公司 | 一种实现智能流量调度的方法及装置及其计算机可读存储介质和计算机设备 |
CN110780891A (zh) * | 2019-11-01 | 2020-02-11 | 北京车和家信息技术有限公司 | 监控系统的部署方法及部署装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101877656A (zh) * | 2010-06-11 | 2010-11-03 | 武汉虹信通信技术有限责任公司 | 一种网管监控系统及其实现并行处理故障告警的方法 |
CN102347976A (zh) * | 2011-07-25 | 2012-02-08 | 北京安天电子设备有限公司 | 分布式网络服务器监控方法及系统 |
CN102546256A (zh) * | 2012-01-12 | 2012-07-04 | 易云捷讯科技(北京)有限公司 | 用于对云计算服务进行监控的系统及方法 |
EP2546789A1 (en) * | 2011-07-15 | 2013-01-16 | Khalifa University of Science, Technology and Research | Method and system for distributed and collaborative monitoring |
CN102882909A (zh) * | 2011-07-15 | 2013-01-16 | 易云捷讯科技(北京)有限公司 | 云计算服务监控系统及方法 |
-
2014
- 2014-12-16 CN CN201410779287.2A patent/CN104539479A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101877656A (zh) * | 2010-06-11 | 2010-11-03 | 武汉虹信通信技术有限责任公司 | 一种网管监控系统及其实现并行处理故障告警的方法 |
EP2546789A1 (en) * | 2011-07-15 | 2013-01-16 | Khalifa University of Science, Technology and Research | Method and system for distributed and collaborative monitoring |
CN102882909A (zh) * | 2011-07-15 | 2013-01-16 | 易云捷讯科技(北京)有限公司 | 云计算服务监控系统及方法 |
CN102347976A (zh) * | 2011-07-25 | 2012-02-08 | 北京安天电子设备有限公司 | 分布式网络服务器监控方法及系统 |
CN102546256A (zh) * | 2012-01-12 | 2012-07-04 | 易云捷讯科技(北京)有限公司 | 用于对云计算服务进行监控的系统及方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105429791A (zh) * | 2015-11-03 | 2016-03-23 | 国网技术学院 | 一种分布式服务状态检测器及方法 |
CN105429791B (zh) * | 2015-11-03 | 2016-12-28 | 国网技术学院 | 一种分布式服务状态检测器及方法 |
CN107395458A (zh) * | 2017-07-31 | 2017-11-24 | 东软集团股份有限公司 | 系统监控方法及装置 |
CN107395458B (zh) * | 2017-07-31 | 2020-05-22 | 东软集团股份有限公司 | 系统监控方法及装置 |
WO2019037771A1 (zh) * | 2017-08-25 | 2019-02-28 | 贵州白山云科技股份有限公司 | 一种实现智能流量调度的方法及装置及其计算机可读存储介质和计算机设备 |
US11271859B2 (en) | 2017-08-25 | 2022-03-08 | Guizhou Baishancloud Technology Co., Ltd. | Method and apparatus for realizing intelligent traffic scheduling, computer readable storage medium thereof and computer device |
CN107579873A (zh) * | 2017-08-30 | 2018-01-12 | 杭州安恒信息技术有限公司 | 一种监测网站可用性的方法 |
CN107634863A (zh) * | 2017-10-25 | 2018-01-26 | 北京百悟科技有限公司 | 用于域名解析容灾服务的分布式监控装置及方法 |
CN108984349A (zh) * | 2018-08-17 | 2018-12-11 | 杭州朗和科技有限公司 | 主节点选举方法及装置、介质和计算设备 |
CN108984349B (zh) * | 2018-08-17 | 2021-10-08 | 杭州朗和科技有限公司 | 主节点选举方法及装置、介质和计算设备 |
CN110780891A (zh) * | 2019-11-01 | 2020-02-11 | 北京车和家信息技术有限公司 | 监控系统的部署方法及部署装置 |
CN110780891B (zh) * | 2019-11-01 | 2023-12-22 | 北京车和家信息技术有限公司 | 监控系统的部署方法及部署装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104539479A (zh) | 一种分布式服务监控系统及方法 | |
CN108880917B (zh) | 控制面设备的切换方法、装置及转控分离系统 | |
CN102355368B (zh) | 一种网络设备的故障处理方法及系统 | |
CN104486155A (zh) | 一种数据库集群监控的方法及系统 | |
CN105933407A (zh) | 一种实现Redis集群高可用的方法及系统 | |
CN102903026A (zh) | 智能变电站二次设备动态重构系统和方法 | |
CN106791223A (zh) | 一种监控终端掉线原因的检测方法及系统 | |
CN112218321B (zh) | 主备链路切换方法、装置、通信设备和存储介质 | |
CN104749467A (zh) | 配电终端自诊断方法及系统 | |
CN105847092A (zh) | 一种web网站即时监控方法及装置 | |
CN103414920B (zh) | 通过信令流量判断业务状态的系统和方法 | |
CN104268805A (zh) | 一种线路管理方法及系统 | |
CN101924661A (zh) | 告警的处理方法及装置 | |
JP2011160086A (ja) | 障害区間判定装置 | |
CN101980478B (zh) | 设备故障的检测处理方法、装置和网络设备 | |
CN101820368A (zh) | 以太网链路故障检测方法及装置 | |
US10838473B2 (en) | Smart internet and power connector | |
CN116909817A (zh) | 专线控制方法、装置、计算机设备和存储介质 | |
JP6074376B2 (ja) | 遠隔監視システム | |
CN110087333B (zh) | 一种防止业务中断的方法、装置、设备及存储介质 | |
JP2019009714A (ja) | ネットワーク監視システムおよびネットワーク監視方法 | |
CN107329875B (zh) | 一种存储设备告警处理方法 | |
JP2009187428A (ja) | 警備システム | |
KR100675741B1 (ko) | 이동형 소프트웨어를 사용한 보호계전 제어시스템 및 방법 | |
CN110278106B (zh) | 一种用于Oracle数据库长距双活网络高可用的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150422 |
|
RJ01 | Rejection of invention patent application after publication |