CN113572644A - 一种互联网云拨测自动化监控方法及装置 - Google Patents
一种互联网云拨测自动化监控方法及装置 Download PDFInfo
- Publication number
- CN113572644A CN113572644A CN202110841536.6A CN202110841536A CN113572644A CN 113572644 A CN113572644 A CN 113572644A CN 202110841536 A CN202110841536 A CN 202110841536A CN 113572644 A CN113572644 A CN 113572644A
- Authority
- CN
- China
- Prior art keywords
- information
- alarm
- dial
- address
- analysis system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 73
- 238000012544 monitoring process Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000013515 script Methods 0.000 claims abstract description 30
- 238000012423 maintenance Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000012806 monitoring device Methods 0.000 claims description 2
- 230000004044 response Effects 0.000 abstract description 2
- 239000000047 product Substances 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 239000013065 commercial product Substances 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007921 spray Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
- H04L43/0829—Packet loss
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及自动化监控领域,提供了一种互联网云拨测自动化监控方法及装置,目的在于监控暴露在互联网端目标服务器的网络应答情况,以便及时通知运维人员应急处置。主要方案包括:步骤1:在互联网云主机上通过crontab命令定时执行mtr.py脚本。步骤2:在mtr.py中,通过mtr命令探测目标I P地址网络路由情况并获取最后一跳丢包率。步骤3:将所获取到得最后一跳丢包率,拨测目标I P地址等信息转发到sp l unk日志分析系统。步骤4:通过日志分析系统定时任务轮询步骤2中发送到日志分析系统得相关信息,将丢包率超过告警阈值得目标地址,拨测站点统计收集出来。步骤5:通过告警平台,将相关信息发送给相关运维人员,运维人员根据告警信息进行应急处置。
Description
技术领域
本技术运用于自动化监控领域,实现对我行互联网服务不间断云拨测并进行实时监控,解决暴漏于互联网端的应用服务器网络应答监控告警的难题。
背景技术
目前我行暴漏于互联网端的应用服务较多,不但有直接面向真实终端用户的应用服务,比如直销银行,微信小程序等,也有面向互联网三方平台的应用服务,比如开放平台,外联平台。如果在互联网中由于系统异常或者网络波动,都会导致我行业务受到影响,并影响用户体验。出于系统业务连续性考虑,科技运维团队需要能第一时间感知暴漏于互联网中的应用服务异常情况,以便能及时做出有效的应急处置。
目前市面上现有的互联网云拨测产品解决方案主要是通过多个云拨测站点定时拨测互联网服务访问链接,通过返回报文判断服务可用性以及服务耗时情况。另外通过多个拨测站点获取的信息聚合以后判断互联网服务的健康情况。以上技术方案有以下几点不足:
1)虽然能定时获取互联网服务的健康情况,但是由于互联网网络波动的不确定性,会经常由于互联网网络某个中间环节波动(可能是某个中间节点服务器异常,也可能是运行商正常网络调整等原因)造成拨测告警,从而经常产生告警噪音。后面将通过步骤4.2至步骤4.5解决告警噪音的问题
2)由于目前市面上的产品主要是商业产品,拨测频率,拨测站点只能按照商业产品框架中提供的参数进行设置,商业产品提供的拨测站点,拨测频率可能无法满足我行的实际业务要求,无法根据我行自身情况进行量身定制。在我们的技术方案中,拨测频率是按照服务器crontab任务设置,最小粒度为每分钟,拨测站点根据我行自身业务,通过三大运营商根据实际需求采购虚拟云主机,在每个站点拨测脚本中配置。
3)商业产品无论按照拨测频率,拨测站点,拨测服务收费,采购成本均相比自研成本较高(自研只存在采购互联网云主机成本)。
发明内容
本方案主要解决问题是基于在互联网云主机上针对我行暴漏在互联网上的应用服务器进行云拨测,及时感知应用服务器的网络应答情况,如果发现互联网服务出现异常,通过短信,微信等方式第一时间告知科技运维人员。
本发明为解决上述技术问题采用以下技术手段:
一种互联网云拨测自动化监控方法,包括以下步骤:
步骤1:在互联网云主机上通过crontab命令定时执行mtr.py脚本;
步骤2:在mtr.py中,通过mtr命令探测目标IP地址网络路由情况并获取最后一跳丢包率;
步骤3:将所获取到得最后一跳丢包率和拨测IP地址网络路由情况信息转发到splunk日志分析系统;
步骤4:通过日志分析系统定时任务轮询步骤2中发送到日志分析系统的相关信息,统计丢包率超过告警阈值的目标地址及拨测站点信息,后续根据数据统计情况告警通知科技运维人员;
步骤5:通过告警平台,将相关信息发送给相关运维人员,运维人员根据告警信息进行应急处置。
在上述技术方案中,所述步骤2包括以下步骤:
步骤2.1:通过mtr.py脚本中open函数读取IP地址与域名映射关系的配置文件,逐行读取配置信息;
步骤2.2:通过多线程的方式,并行从配置文件读取得到目标地址,拨测渠道说明;
步骤2.3:通过将目标地址传入命令os.popen('mtr-n-r%s-j'%(ip)),获取每一个目标地址网络路由信息,并将结果自动转成JSON格式报文;
步骤2.4:通过json.loads函数将步骤2.3中json格式报文转成python格式报文,并转存outputjson数组中,通过outputjson["hubs"][-1]自动获取最后一跳相关信息,hubs代表步骤2.3结果报文变量outputjson的子元素hubs,-1代表hubs元素的最后一个子元素。
在上述技术方案中,所述步骤3包括以下步骤:
步骤3.1:将目标地址IP放入outputjson["last"][targetIP],拨测渠道说明放入outputjson["last"]['channel'],最后将outputjson变量赋予jsonData变量的event属性,jsonData变量的sourcetype属性手动设置为manual;
步骤3.2:调用requests.post(url,json=jsonData,headers=headers,verify=False)函数,发送包含目标地址IP、目标地址说明和MTR最后一跳信息的jsonData数据至splunk日志分析系统。
在上述技术方案中,所述步骤4包括以下步骤:
步骤4.1:在splunk日志分析系统在的服务器上部署srv-mtrin-all.py脚本,并配置到crontab任务中定时轮询;
步骤4.2:在srv-mtrin-all.py脚本中,通过SPL语言,搜索步骤3.2上送到日志分析系统的相关信息,将近段时间内丢包率超过告警阈值的目标IP地址筛选出来;
步骤4.3:为了降低告警噪音,从同一站点在时间段n内多次出现丢包率超过告警阈值以及不同站点在时间段n内同时出现丢包率超过告警阈值两个维度触发,聚合筛选出符合以上两种维度告警条件的目标地址,拨测渠道说明,失败率,错误数,总数等信息发送到告警平台。
在上述技术方案中,所述步骤5包括以下步骤:
步骤5.1:告警平台接收到步骤4.3发送的信息后,将相关告警信息通过企业微信或者短信的方式发送给相关运维人员。
本发明还提供了一种互联网云拨测自动化监控装置,包括:
脚本执行模块:在互联网云主机上通过crontab命令定时执行mtr.py脚本;
路由信息及丢包率获取模块:在mtr.py中,通过mtr命令探测目标IP地址网络路由情况并获取最后一跳丢包率;
信息转发模块:将所获取到得最后一跳丢包率和拨测IP地址网络路由情况信息转发到splunk日志分析系统;
日子分析告警模块:通过日志分析系统定时任务轮询步骤2中发送到日志分析系统的相关信息,统计丢包率超过告警阈值的目标地址及拨测站点信息,后续根据数据统计情况告警通知科技运维人员;
通知模块:通过告警平台,将相关信息发送给相关运维人员,运维人员根据告警信息进行应急处置。
在上述技术方案中,所述路由信息及丢包率获取模块:
通过mtr.py脚本中open函数读取IP地址与域名映射关系的配置文件,逐行读取配置信息;
通过多线程的方式,并行从配置文件读取得到目标地址,拨测渠道说明;
通过将目标地址传入命令os.popen('mtr-n-r%s-j'%(ip)),获取每一个目标地址网络路由信息,并将结果自动转成JSON格式报文;
通过json.loads函数将json格式报文转成python格式报文,并转存outputjson数组中,通过outputjson["hubs"][-1]自动获取最后一跳相关信息,hubs代表outputjson的子元素hubs,-1代表hubs元素的最后一个子元素。
在上述技术方案中,信息转发模块:
将目标地址IP放入outputjson["last"][targetIP],拨测渠道说明放入outputjson["last"]['channel'],最后将outputjson变量赋予jsonData变量的event属性,jsonData变量的sourcetype属性手动设置为manual;
调用requests.post(url,json=jsonData,headers=headers,verify=False)函数,发送包含目标地址IP、目标地址说明和MTR最后一跳信息的jsonData数据至splunk日志分析系统。
在上述技术方案中,日子分析告警模块:
在splunk日志分析系统在的服务器上部署srv-mtrin-all.py脚本,并配置到crontab任务中定时轮询;
在srv-mtrin-all.py脚本中,通过SPL语言,搜索日志分析系统的相关信息,将近段时间内丢包率超过告警阈值的目标IP地址筛选出来;
为了降低告警噪音,从同一站点在时间段n内多次出现丢包率超过告警阈值以及不同站点在时间段n内同时出现丢包率超过告警阈值两个维度触发,聚合筛选出符合以上两种维度告警条件的目标地址,拨测渠道说明,失败率,错误数,总数等信息发送到告警平台。
在上述技术方案中,通知模块:告警平台接收到告警信息后,将相关告警信息通过企业微信或者短信的方式发送给相关运维人员。
因为本发明采用上述技术手段,因此具备以下有益效果:
本方案相比市面上现有技术,根据我行自身情况量身定制,通过步骤4.2至步骤4.5实现拨测频率粒度更细致,利用SPLUNK日志分析系统SPL语言,定时搜索近段时间内各拨测站点各拨测地址的丢包率以及拨测耗时,搜索条件更灵活,不仅可以按照目标服务器地址(可以是域名,也可以是目标IP),也可以按照不同拨测站点搜索,且可以更根据不同站点拨测成功率聚合条件搜索,达到降低告警噪音的目的。同时,由于拨测脚本告警脚本属于自研,只需采购一定数量的互联网云主机即可,大大降低了成本。
具体实施方式
为方便本领域技术人员更好的理解本申请的技术方案,做出如下具体实施说明。
本发明提供了一种互联网云拨测自动化监控方法,包括以下步骤:
步骤1:在互联网云主机上通过crontab命令定时执行mtr.py脚本;
步骤2:在mtr.py中,通过mtr命令探测目标IP地址网络路由情况并获取最后一跳丢包率;
步骤3:将所获取到得最后一跳丢包率,拨测IP地址等信息转发到splunk日志分析系统;
步骤4:通过日志分析系统定时任务轮询步骤2中发送到日志分析系统得相关信息,将丢包率超过告警阈值得目标地址,拨测站点统计收集出来;
步骤5:通过告警平台,将相关信息发送给相关运维人员,运维人员根据告警信息进行应急处置;
上述技术方案中,所述步骤2包括以下步骤:
步骤2.1:通过mtr.py脚本中open函数读取IP地址与域名映射关系的配置文件,逐行读取配置信息,每行配置信息以等号分隔,等号左侧代表一个目标地址IP或者域名,等号右侧代表目标地址说明,
例如:sftp.***.com=**银行SFTP服务器;
192.**.**.1=**服务器;
步骤2.2:通过多线程的方式,并行读取到配置信息中的每行的目标地址和目标地址说明;
步骤2.3:步骤2.3:通过将目标地址传入命令os.popen('mtr-n-r%s-j'%(ip)),获取每一个目标地址网络路由信息,并将结果自动转成JSON格式报文
例如通过python脚本执行命令“mtr-n-rsftp.***.com-j”,得到如下结果:
步骤2.4:通过json.loads函数将步骤1.3中json格式报文转成python格式报文,并转存outputjson数组中。通过outputjson["hubs"][-1]便可自动获取最后一跳相关信息。hubs代表步骤2.3结果报文变量outputjson的子元素hubs,-1代表hubs元素的最后一个子元素。
最后一跳的信息从步骤2.3中获取,结果如下:
主要信息如下:
host代表最后一跳目标地址
Loss%代表丢包率
上述技术方案中,所述步骤3包括以下步骤:
步骤3.1:将目标地址IP放入outputjson["last"][targetIP],拨测渠道说明放入outputjson["last"]['channel'],最后将outputjson变量赋予json Data变量的event属性,jsonData变量的sourcetype属性手动设置为manual
具体步骤如下:
首先通过以下脚本逐行读取步骤2.3的返回报文,并拼装成output字符串forline in fo.readlines():
line=line.strip()
output+=line
然后将output字符串通过json.loads方法装载
outputjson=json.loads(output)
接着将最后一跳网络路由信息,拨测渠道说明,目标地址,拨测站点等信息放入outputjson["last"]数组;
outputjson["last"]=outputjson["hubs"][-1]
outputjson["last"]['channel']=拨测渠道说明
outputjson["last"]['send_adr']='**联通'
outputjson["last"]['targetIP']=目标地址IP
最后配置最终需要发送的json数据
在日志分析系统SPLUNK中,sourcetype代表来源类型,属性值为manual,代表发送的jsonData类型手工配置,发送http报文时必须要配置的默认值;
步骤3.2:调用requests.post(url,json=jsonData,headers=headers,verify=False)函数,发送jsonData数据(包括目标地址IP,拨测渠道说明,最后一跳网络路由信息)至splunk日志分析系统。
上述技术方案中,所述步骤4包括以下步骤:
步骤4.1:在splunk日志分析系统所有服务器上部署srv-mtrin-all.py脚本,并配置到crontab任务中定时轮询;
步骤4.2:在srv-mtrin-all.py脚本中,首先通过import引用splunklib包,通过splunklib.client.connect函数建立python脚本到splunk日志索引服务器的连接,并配置参数kwargs的属性“earliest_time”:“-10m”,此属性代表将搜索近10分钟内所有拨测站点拨测的索引事件。
步骤4.3:通过SPL语言,搜索步骤3.2上送到日志分析系统的相关信息,将近10分钟内丢包率超过20%的所有事件搜索出来,然后通过拨测站点以及拨测渠道分组汇总,最终显示出拨测丢包率超过20%的数量,拨测站点,拨测渠道
语句如下:
Search index=channel_mtr|spath last.mode|search last.mode=正向拨测|spath last.Loss%|search last.Loss%>20|stats count as errnum by last_adr,last.channel|last.channel|tablelast.send_adr,last.channel,Errnum
步骤4.4:通过join type=inner语句,将以上搜索语句和该时间内所有拨测时间进行关联,最终计算出每个拨测节点单位时间内的拨测失败率,语句如下:
join type=inner last.send_adr,last.channel[search index=channel_mtr|spath last.mode|search last.mode=正向拨测|stats count as totalnum bylast.send_adr,last.channel|table last.send_adr,last.channel,totalnum]|evalpercent=round(errnum/totalnum*100,2)
步骤4.5:通过以上搜索语句最后筛选出拨测失败大于0的拨测站点,并按照错误数倒序显示,显示内容为拨测站点,拨测渠道,失败率,拨测错误数,拨测总数,语句如下:
search errnum>0|table last.send_adr,last.channel,percent,errnum,totalnum|sort-errnum
根据以上搜索语句,即可以将近段时间内所有拨测站点的拨测失败率汇总统计,通过聚合的手段达到降低告警噪音的目的。
步骤4.6:将步骤4.5搜索语句传入方法job=splunklib.client.connect.jobs.create(searchquery,**kwargs),最终搜索出事件集合job.results(),遍历该事件集合,取出拨测站点,拨测渠道,拨测总数,拨测失败数。
步骤4.7:当近段时间内出现大于等于2个拨测站点存在拨测失败的事件时,及调用告警平台,以此逻辑再次达到降低告警噪音的目的。
上述技术方案中,所述步骤5包括以下步骤:
步骤5.1:告警平台接收到步骤4.3发送的信息后,将相关告警信息通过企业微信或者短信的方式发送给相关运维人员。
Claims (10)
1.一种互联网云拨测自动化监控方法,其特征在于,包括以下步骤:
步骤1:在互联网云主机上通过crontab命令定时执行mtr.py脚本;
步骤2:在mtr.py中,通过mtr命令探测目标IP地址网络路由情况并获取最后一跳丢包率;
步骤3:将所获取到得最后一跳丢包率和拨测IP地址网络路由情况信息转发到splunk日志分析系统;
步骤4:通过日志分析系统定时任务轮询步骤2中发送到日志分析系统的相关信息,统计丢包率超过告警阈值的目标地址及拨测站点信息,后续根据数据统计情况告警通知科技运维人员;
步骤5:通过告警平台,将相关信息发送给相关运维人员,运维人员根据告警信息进行应急处置。
2.根据权利要求1所述的.一种互联网云拨测自动化监控方法,其特征在于:所述步骤2包括以下步骤:
步骤2.1:通过mtr.py脚本中open函数读取IP地址与域名映射关系的配置文件,逐行读取配置信息;
步骤2.2:通过多线程的方式,并行从配置文件读取得到目标地址,拨测渠道说明;
步骤2.3:通过将目标地址传入命令os.popen('mtr-n-r%s-j'%(ip)),获取每一个目标地址网络路由信息,并将结果自动转成JSON格式报文;
步骤2.4:通过json.loads函数将步骤2.3中json格式报文转成python格式报文,并转存outputjson数组中,通过outputjson["hubs"][-1]自动获取最后一跳相关信息,hubs代表步骤2.3结果报文变量outputjson的子元素hubs,-1代表hubs元素的最后一个子元素。
3.根据权利要求1所述的一种互联网云拨测自动化监控方法,其特征在于:所述步骤3包括以下步骤:
步骤3.1:将目标地址IP放入outputjson["last"][targetIP],拨测渠道说明放入outputjson["last"]['channel'],最后将outputjson变量赋予jsonData变量的event属性,jsonData变量的sourcetype属性手动设置为manual;
步骤3.2:调用requests.post(url,json=jsonData,headers=headers,verify=False)函数,发送包含目标地址IP、目标地址说明和MTR最后一跳信息的jsonData数据至splunk日志分析系统。
4.根据权利要求1所述的一种互联网云拨测自动化监控方法,其特征在于:所述步骤4包括以下步骤:
步骤4.1:在splunk日志分析系统在的服务器上部署srv-mtrin-all.py脚本,并配置到crontab任务中定时轮询;
步骤4.2:在srv-mtrin-all.py脚本中,通过SPL语言,搜索步骤3.2上送到日志分析系统的相关信息,将近段时间内丢包率超过告警阈值的目标IP地址筛选出来;
步骤4.3:为了降低告警噪音,从同一站点在时间段n内多次出现丢包率超过告警阈值以及不同站点在时间段n内同时出现丢包率超过告警阈值两个维度触发,聚合筛选出符合以上两种维度告警条件的目标地址,拨测渠道说明,失败率,错误数,总数等信息发送到告警平台。
5.根据权利要求1所述的一种互联网云拨测自动化监控方法,其特征在于:所述步骤5包括以下步骤:
步骤5.1:告警平台接收到步骤4.3发送的信息后,将相关告警信息通过企业微信或者短信的方式发送给相关运维人员。
6.一种互联网云拨测自动化监控装置,其特征在于,包括:
脚本执行模块:在互联网云主机上通过crontab命令定时执行mtr.py脚本;
路由信息及丢包率获取模块:在mtr.py中,通过mtr命令探测目标IP地址网络路由情况并获取最后一跳丢包率;
信息转发模块:将所获取到得最后一跳丢包率和拨测IP地址网络路由情况信息转发到splunk日志分析系统;
日子分析告警模块:通过日志分析系统定时任务轮询步骤2中发送到日志分析系统的相关信息,统计丢包率超过告警阈值的目标地址及拨测站点信息,后续根据数据统计情况告警通知科技运维人员;
通知模块:通过告警平台,将相关信息发送给相关运维人员,运维人员根据告警信息进行应急处置。
7.根据权利要求6所述的.一种互联网云拨测自动化监控方法,其特征在于:所述路由信息及丢包率获取模块:
通过mtr.py脚本中open函数读取IP地址与域名映射关系的配置文件,逐行读取配置信息;
通过多线程的方式,并行从配置文件读取得到目标地址,拨测渠道说明;
通过将目标地址传入命令os.popen('mtr-n-r%s-j'%(ip)),获取每一个目标地址网络路由信息,并将结果自动转成JSON格式报文;
通过json.loads函数将json格式报文转成python格式报文,并转存outputjson数组中,通过outputjson["hubs"][-1]自动获取最后一跳相关信息,hubs代表outputjson的子元素hubs,-1代表hubs元素的最后一个子元素。
8.根据权利要求6所述的一种互联网云拨测自动化监控方法,其特征在于:信息转发模块:
将目标地址IP放入outputjson["last"][targetIP],拨测渠道说明放入outputjson["last"]['channel'],最后将outputjson变量赋予jsonData变量的event属性,jsonData变量的sourcetype属性手动设置为manual;
调用requests.post(url,json=jsonData,headers=headers,verify=False)函数,发送包含目标地址IP、目标地址说明和MTR最后一跳信息的jsonData数据至splunk日志分析系统。
9.根据权利要求6所述的一种互联网云拨测自动化监控方法,其特征在于:日子分析告警模块:
在splunk日志分析系统在的服务器上部署srv-mtrin-all.py脚本,并配置到crontab任务中定时轮询;
在srv-mtrin-all.py脚本中,通过SPL语言,搜索日志分析系统的相关信息,将近段时间内丢包率超过告警阈值的目标IP地址筛选出来;
为了降低告警噪音,从同一站点在时间段n内多次出现丢包率超过告警阈值以及不同站点在时间段n内同时出现丢包率超过告警阈值两个维度触发,聚合筛选出符合以上两种维度告警条件的目标地址,拨测渠道说明,失败率,错误数,总数等信息发送到告警平台。
10.根据权利要求6所述的一种互联网云拨测自动化监控方法,其特征在于:通知模块:告警平台接收到告警信息后,将相关告警信息通过企业微信或者短信的方式发送给相关运维人员。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110841536.6A CN113572644B (zh) | 2021-07-26 | 2021-07-26 | 一种互联网云拨测自动化监控方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110841536.6A CN113572644B (zh) | 2021-07-26 | 2021-07-26 | 一种互联网云拨测自动化监控方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113572644A true CN113572644A (zh) | 2021-10-29 |
CN113572644B CN113572644B (zh) | 2024-01-23 |
Family
ID=78167115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110841536.6A Active CN113572644B (zh) | 2021-07-26 | 2021-07-26 | 一种互联网云拨测自动化监控方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113572644B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7523190B1 (en) * | 1999-12-23 | 2009-04-21 | Bickerstaff Cynthia L | Real-time performance assessment of large area network user experience |
CN102055626A (zh) * | 2010-12-31 | 2011-05-11 | 北京中创信测科技股份有限公司 | 一种ip网络质量检测方法及系统 |
WO2012088905A1 (zh) * | 2010-12-28 | 2012-07-05 | 中兴通讯股份有限公司 | 一种通讯网络系统及通讯设备的巡检子系统和巡检方法 |
CN103905440A (zh) * | 2014-03-28 | 2014-07-02 | 哈尔滨工程大学 | 一种基于日志和snmp信息融合的网络安全态势感知分析方法 |
US20160100325A1 (en) * | 2014-01-27 | 2016-04-07 | Google Inc. | Wireless network monitoring device |
CN108683569A (zh) * | 2018-06-06 | 2018-10-19 | 国家计算机网络与信息安全管理中心 | 一种面向云服务基础设施的业务监测方法及系统 |
CN109039795A (zh) * | 2017-06-12 | 2018-12-18 | 贵州白山云科技股份有限公司 | 一种云服务器资源监控方法和系统 |
WO2019114830A1 (zh) * | 2017-12-14 | 2019-06-20 | 北京金山云网络技术有限公司 | 一种网络质量监测方法、装置、电子设备及存储介质 |
CN109981377A (zh) * | 2019-04-10 | 2019-07-05 | 北京搜狐新媒体信息技术有限公司 | 一种分布式数据中心链路监控方法及系统 |
CN110519122A (zh) * | 2019-08-22 | 2019-11-29 | 北京世纪互联宽带数据中心有限公司 | 一种基于Mtr的网络质量自动监控装置与方法 |
CN111224842A (zh) * | 2019-12-31 | 2020-06-02 | 大唐软件技术股份有限公司 | 一种互联网服务质量监测方法和装置 |
-
2021
- 2021-07-26 CN CN202110841536.6A patent/CN113572644B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7523190B1 (en) * | 1999-12-23 | 2009-04-21 | Bickerstaff Cynthia L | Real-time performance assessment of large area network user experience |
WO2012088905A1 (zh) * | 2010-12-28 | 2012-07-05 | 中兴通讯股份有限公司 | 一种通讯网络系统及通讯设备的巡检子系统和巡检方法 |
CN102055626A (zh) * | 2010-12-31 | 2011-05-11 | 北京中创信测科技股份有限公司 | 一种ip网络质量检测方法及系统 |
US20160100325A1 (en) * | 2014-01-27 | 2016-04-07 | Google Inc. | Wireless network monitoring device |
CN103905440A (zh) * | 2014-03-28 | 2014-07-02 | 哈尔滨工程大学 | 一种基于日志和snmp信息融合的网络安全态势感知分析方法 |
CN109039795A (zh) * | 2017-06-12 | 2018-12-18 | 贵州白山云科技股份有限公司 | 一种云服务器资源监控方法和系统 |
WO2019114830A1 (zh) * | 2017-12-14 | 2019-06-20 | 北京金山云网络技术有限公司 | 一种网络质量监测方法、装置、电子设备及存储介质 |
CN109962790A (zh) * | 2017-12-14 | 2019-07-02 | 北京金山云网络技术有限公司 | 一种网络质量监测方法、装置、电子设备及存储介质 |
CN108683569A (zh) * | 2018-06-06 | 2018-10-19 | 国家计算机网络与信息安全管理中心 | 一种面向云服务基础设施的业务监测方法及系统 |
CN109981377A (zh) * | 2019-04-10 | 2019-07-05 | 北京搜狐新媒体信息技术有限公司 | 一种分布式数据中心链路监控方法及系统 |
CN110519122A (zh) * | 2019-08-22 | 2019-11-29 | 北京世纪互联宽带数据中心有限公司 | 一种基于Mtr的网络质量自动监控装置与方法 |
CN111224842A (zh) * | 2019-12-31 | 2020-06-02 | 大唐软件技术股份有限公司 | 一种互联网服务质量监测方法和装置 |
Non-Patent Citations (1)
Title |
---|
刘殊;: "基于Hadoop的分布式云监控平台系统的研究与设计", 电子设计工程, no. 15 * |
Also Published As
Publication number | Publication date |
---|---|
CN113572644B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8396834B2 (en) | Real time web usage reporter using RAM | |
US20210152455A1 (en) | Centralized analytical monitoring of ip connected devices | |
CN106911523B (zh) | 移动互联网用户通过lte上网问题定位的方法和系统 | |
CN103295155B (zh) | 证券核心业务系统监控方法 | |
CN102143507A (zh) | 一种业务质量监测方法、系统、以及分析方法和系统 | |
CN108521353A (zh) | 定位性能瓶颈的处理方法、设备及可读存储介质 | |
CN104539053A (zh) | 基于爬虫技术的电力调度自动化巡检机器人及巡检方法 | |
US9176807B2 (en) | Random event capturing mechanism for application systems | |
CN109150635A (zh) | 故障影响分析方法及装置 | |
CN103532795A (zh) | 一种检测web业务系统可用性的监控系统及方法 | |
CN110209518A (zh) | 一种多数据源日志数据集中收集存储方法及装置 | |
CN114208125B (zh) | 使用跟踪路由聚合的网络问题节点标识 | |
US20230412674A1 (en) | Topology-aware load balancing method and apparatus, and computer device | |
CN111258971A (zh) | 一种基于访问日志的应用状态监控报警系统及方法 | |
CN103905219A (zh) | 一种业务平台中通信信息的监控存储系统及方法 | |
CN107070744A (zh) | 服务器监控方法 | |
CN109586975A (zh) | 业务质量异常的感知方法及系统 | |
CN116166499A (zh) | 数据监测方法、装置、电子设备及非易失性存储介质 | |
CN113794719B (zh) | 一种基于Elasticsearch技术网络异常流量分析方法、装置和电子设备 | |
TWI448975B (zh) | 應用於影像監控平台的分散式運算系統 | |
CN103944779B (zh) | 一种wap业务性能监测方法及系统 | |
CN110633191B (zh) | 实时监控软件系统业务健康度的方法和系统 | |
CN113572644A (zh) | 一种互联网云拨测自动化监控方法及装置 | |
Rathore et al. | Maintaining SmartX multi‐view visibility for OF@ TEIN+ distributed cloud‐native edge boxes | |
CN113923127A (zh) | 一种多系统数据分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |