CN107864057A - 一种基于联网状态的联机自动检查及告警方法 - Google Patents
一种基于联网状态的联机自动检查及告警方法 Download PDFInfo
- Publication number
- CN107864057A CN107864057A CN201711084747.XA CN201711084747A CN107864057A CN 107864057 A CN107864057 A CN 107864057A CN 201711084747 A CN201711084747 A CN 201711084747A CN 107864057 A CN107864057 A CN 107864057A
- Authority
- CN
- China
- Prior art keywords
- alarm
- inspection
- domain name
- networking state
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0811—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于联网状态的联机自动检查及告警方法,在一定时间间隔内读取主机上的检查列表,逐条获取包括域名、节点名和IP地址的检查清单,逐条检查节点名对应的域名,状态码正常时访问检查清单的下一条,无法获取域名对应网站的状态码或状态码异常时,利用Linux网络命令探测当前节点名对应主机的80端口是否能正常建立三次握手协议,不行则告警,否则继续访问检查清单的下一条。本发明能高频且主动发现服务器及网络连接故障,第一时间告警,准确定位到故障节点,有效代替运维人员日常的网络巡检工作,提高工作效率及巡检质量,降低维护成本;通过预设的告警程序,可以第一时间广泛通知到所有相关技术人员,缩短故障排查的时间。
Description
技术领域
本发明涉及数字信息的传输,例如电报通信的技术领域,特别涉及一种能自动检查服务器状态并在发现故障时自动告警的基于联网状态的联机自动检查及告警方法。
背景技术
互联网发展迅速,现代企业越来越多业务需要接入互联网,与其他网点进行交互,各种服务器均需要实时接入互联网提供相应的服务,因此,如果服务器一旦断网或主机故障,将对企业的业务造成不可弥补的损失。
现有技术中,采用类似于Zabbix的监测平台对服务器的联网状态进行检查和监测。Zabbix监测平台是一个基于WEB界面的、提供分布式系统监视以及网络监视功能的平台,其能监视各种网络参数以保证服务器系统的安全运营,并提供灵活的通知机制以让系统管理员快速定位且解决存在的各种问题。Zabbix监测平台由2部分构成,包括ZabbixServer与可选组件Zabbix Agent,其中,Zabbix Agent需要安装在被监视的目标服务器上,主要完成对硬件信息或与操作系统有关的内存、CPU等信息的收集,其可以运行在Linux、Solaris、HP-UX、AIX、Free BSD、Open BSD、OS X、Tru64/OSF1、Windows NT4.0、Windows(2000/2003/XP/Vista)等系统上,而Zabbix Server可以单独监视远程服务器的服务状态,也可以与Zabbix Agent配合,轮询Zabbix Agent主动接收监视数据,还可被动接收ZabbixAgent发送的数据。
然而,用Zabbix平台做巡检,Zabbix的脚本时间不能大于三秒,容易出现网络健康度探测误报的情况,当发生一次判断认为网络故障的时候,程序需要再验证多次来获取准确结果,由于Zabbix先知脚本执行时间不能大于三秒,从而导致Netcat程序无法在Zabbix程序里配置多次验证。因此,随着服务器数量的增加,以往采用的传统人工巡检的方式出现了工作量大、工作效率低下、容易产生遗漏且实时性也无法满足企业的要求的弊端。
发明内容
为了解决现有技术中存在的问题,本发明提供一种优化的基于联网状态的联机自动检查及告警方法,能够定时自动检查服务器及网络是否存在故障的告警方法,一旦发现服务器及网络存在问题,可以在第一时间告知运维人员进行处理。
本发明所采用的技术方案是,一种基于联网状态的联机自动检查及告警方法,所述方法包括以下步骤:
步骤1:启动主机,检查并确认主机处于联网状态,启动监测;
步骤2:以时间T为间隔,读取主机上的检查列表,逐条获取包括域名、节点名和IP地址的检查清单;
步骤3:利用Linux网络命令,逐条检查步骤2获取的节点名对应的域名;
步骤4:当无法获取所述域名对应网站的状态码或状态码异常时,进行步骤5,否则当前域名访问正常,访问检查清单的下一条;
步骤5:利用Linux网络命令,探测当前节点名对应主机的80端口是否能正常建立TCP三次握手协议,如能正常建立,则访问检查清单的下一条,返回步骤4,否则进行步骤6;
步骤6:调用告警程序。
优选地,所述步骤2中,T为2~10分钟。
优选地,所述步骤2中,检查列表为文本文档,所述域名、节点名和IP地址间设置分隔符。
优选地,所述步骤6中,告警程序包括电话平台告警和即时通讯平台告警。
优选地,所述步骤6中,告警程序为电话平台告警,将预设好的告警人手机号及告警内容进行组装,调用电话平台的接口,接口接收组装后的信息,进行电话告警。
优选地,所述步骤6中,告警程序为即时通讯平台告警,将预设好的告警人手机号及告警内容进行组装,调用即时通讯平台的消息接口,接口接收组装后的信息,进行即时通讯平台告警。
本发明提供了一种优化的基于联网状态的联机自动检查及告警方法,通过在一定的时间间隔内,读取主机上的检查列表,逐条获取包括域名、节点名和IP地址的检查清单,逐条检查节点名对应的域名,状态码正常时访问检查清单的下一条,而当无法获取所述域名对应网站的状态码或状态码异常时,利用Linux网络命令,探测当前节点名对应主机的80端口是否能正常建立TCP三次握手协议,如还是不行则调用告警程序,否则继续访问检查清单的下一条。本发明能高频率且主动发现企业所属服务器故障及网络连接故障,在第一时间明确告警运维人员进行进一步的故障处理,有效减少从故障发现到故障处理的时间,并且可以准确定位到故障节点,对于拥有大量对外提供服务的企业可以有效代替运维人员日常的网络巡检工作,大大提高运维人员的工作效率及巡检质量,降低维护成本;通过预设的告警程序,可以第一时间更加广泛的通知到所有相关技术人员,而不用再由人逐一通知,缩短故障排查的时间。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例对本发明做进一步的详细描述,但本发明的保护范围并不限于此。
本发明涉及一种基于联网状态的联机自动检查及告警方法,由于大型的机房节点数量巨大,且包括很多专属域名的专用节点,如果直接探测80端口则误报会较多,脚本执行时间加长,故本发明的逻辑是先验证这个机房所服务的网站,当网站打不开的时候再进行TCP四次握手协议探测。本发明的实现原理为访问预先编制好的检查清单,通过遍历清单中的服务器信息,实现对列表中的所有服务器进行联网情况检查,从而判断服务器是否存在故障。
所述方法包括以下步骤。
步骤1:启动主机,检查并确认主机处于联网状态,启动监测。
本发明中,首先确保发起监测的主机为联网状态,监测的相关程序启动后会长期驻留在该主机的内存中。
步骤2:以时间T为间隔,读取主机上的检查列表,逐条获取包括域名、节点名和IP地址的检查清单。
所述步骤2中,T为2~10分钟。
所述步骤2中,检查列表为文本文档,所述域名、节点名和IP地址间设置分隔符。
本发明中,一般情况下,T取5分钟,每五分钟读取一次位于主机上的检查列表,逐条获取域名、节点名和IP地址。
本发明中,每一个检查任务一般都设置有超时时间,时间间隔结束后,检查列表上不会继续附着有检查清单。
本发明中,一般情况下,检查列表采取手动维护的方式,手动配置。
本发明中,将域名、节点名和IP地址配置为检查清单,检查清单的每一行即为一个检查目标,每一行采用分隔符分隔域名、节点名和IP地址信息,如“#”号,作为不同属性的信息的分隔,举例来说,“baidu.com#杭州节点#127.0.0.1”。
步骤3:利用Linux网络命令,逐条检查步骤2获取的节点名对应的域名。
步骤4:当无法获取所述域名对应网站的状态码或状态码异常时,进行步骤5,否则当前域名访问正常,访问检查清单的下一条。
本发明中,当请求不能正常建立HTTP协议或者网络不通时,就会出现状态码异常。
步骤5:利用Linux网络命令,探测当前节点名对应主机的80端口是否能正常建立TCP三次握手协议,如能正常建立,则访问检查清单的下一条,返回步骤4,否则进行步骤6。
本发明中,开始遍历检查清单的列表,逐条检查获取的节点名对应的域名,后台执行命令并返回监测服务器的状态码,状态码赋值给变量“status”。
本发明中,进行第一次判断时,当变量“status”获取到的http状态码为200或者301时,表示获取到域名对应网站的状态码,当前域名访问正常,依序进行下一条检查清单的检查,否则开始进行下一判断;第二次判断时,使用Linux自带的Netcat工具对服务器的80端口进行探测,即是否能正常建立TCP四次握手协议,当无法建立TCP四次握手协议时,即端口不通,程序认为是节点故障,返回结果赋值给变量“Result”。
本发明中,TCP四次握手指的是在互联网上的两台设备之间建立通信的原理与流程,是本领域技术人员容易理解的内容。
步骤6:调用告警程序。
所述步骤6中,告警程序包括电话平台告警和即时通讯平台告警。
所述步骤6中,告警程序为电话平台告警,将预设好的告警人手机号及告警内容进行组装,调用电话平台的接口,接口接收组装后的信息,进行电话告警。
所述步骤6中,告警程序为即时通讯平台告警,将预设好的告警人手机号及告警内容进行组装,调用即时通讯平台的消息接口,接口接收组装后的信息,进行即时通讯平台告警。
本发明中,程序告警分为两种,一种为电话告警,另一种为即时通讯平台告警,如钉钉平台。
本发明中,电话告警,将预设好的告警人手机号及告警内容进行组装,将组装好的字符串以get参数的方式传送给电话告警接口,接口接收后进行电话告警。举例来说,”http://112.17.252.36:8080/SchedulingProject/warn/voice_warn?cont ent=$nodename”80端口不通”&name=$nodename”80端口不通”&tel=12345678900”。
本发明中,即时通讯平台告警,如钉钉告警,将预设好的告警人手机号及告警内容进行组装,将组装好的字符串以post参数的方式传给钉钉告警接口,接口接收后进行告警。举例来说,"https://oapi.dingtalk.com/robot/send?access_token='秘钥'"-H"Content-Type:application/json"-d"{\"msgtype\":\"text\",\"text\":{\"content\":\"$title\n$msg\"},\"at\":{\"atMobiles\":[\"\"],\"isAtAll\":false}}"
本发明通过在一定的时间间隔内,读取主机上的检查列表,逐条获取包括域名、节点名和IP地址的检查清单,逐条检查节点名对应的域名,状态码正常时访问检查清单的下一条,而当无法获取所述域名对应网站的状态码或状态码异常时,利用Linux网络命令,探测当前节点名对应主机的80端口是否能正常建立TCP三次握手协议,如还是不行则调用告警程序,否则继续访问检查清单的下一条。本发明能高频率且主动发现企业所属服务器故障及网络连接故障,在第一时间明确告警运维人员进行进一步的故障处理,有效减少从故障发现到故障处理的时间,并且可以准确定位到故障节点,对于拥有大量对外提供服务的企业可以有效代替运维人员日常的网络巡检工作,大大提高运维人员的工作效率及巡检质量,降低维护成本;通过预设的告警程序,可以第一时间更加广泛的通知到所有相关技术人员,而不用再由人逐一通知,缩短故障排查的时间。
Claims (6)
1.一种基于联网状态的联机自动检查及告警方法,其特征在于:所述方法包括以下步骤:
步骤1:启动主机,检查并确认主机处于联网状态,启动监测;
步骤2:以时间T为间隔,读取主机上的检查列表,逐条获取包括域名、节点名和IP地址的检查清单;
步骤3:利用Linux网络命令,逐条检查步骤2获取的节点名对应的域名;
步骤4:当无法获取所述域名对应网站的状态码或状态码异常时,进行步骤5,否则当前域名访问正常,访问检查清单的下一条;
步骤5:利用Linux网络命令,探测当前节点名对应主机的80端口是否能正常建立TCP三次握手协议,如能正常建立,则访问检查清单的下一条,返回步骤4,否则进行步骤6;
步骤6:调用告警程序。
2.根据权利要求1所述的一种基于联网状态的联机自动检查及告警方法,其特征在于:所述步骤2中,T为2~10分钟。
3.根据权利要求1所述的一种基于联网状态的联机自动检查及告警方法,其特征在于:所述步骤2中,检查列表为文本文档,所述域名、节点名和IP地址间设置分隔符。
4.根据权利要求1所述的一种基于联网状态的联机自动检查及告警方法,其特征在于:所述步骤6中,告警程序包括电话平台告警和即时通讯平台告警。
5.根据权利要求4所述的一种基于联网状态的联机自动检查及告警方法,其特征在于:所述步骤6中,告警程序为电话平台告警,将预设好的告警人手机号及告警内容进行组装,调用电话平台的接口,接口接收组装后的信息,进行电话告警。
6.根据权利要求4所述的一种基于联网状态的联机自动检查及告警方法,其特征在于:所述步骤6中,告警程序为即时通讯平台告警,将预设好的告警人手机号及告警内容进行组装,调用即时通讯平台的消息接口,接口接收组装后的信息,进行即时通讯平台告警。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711084747.XA CN107864057B (zh) | 2017-11-07 | 2017-11-07 | 一种基于联网状态的联机自动检查及告警方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711084747.XA CN107864057B (zh) | 2017-11-07 | 2017-11-07 | 一种基于联网状态的联机自动检查及告警方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107864057A true CN107864057A (zh) | 2018-03-30 |
CN107864057B CN107864057B (zh) | 2020-12-25 |
Family
ID=61701172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711084747.XA Active CN107864057B (zh) | 2017-11-07 | 2017-11-07 | 一种基于联网状态的联机自动检查及告警方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107864057B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109327343A (zh) * | 2018-11-27 | 2019-02-12 | 武汉烽火信息集成技术有限公司 | 用于openstack云环境的自动化巡检方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120017112A1 (en) * | 2010-07-19 | 2012-01-19 | Power Integrations, Inc. | System and method for provisioning and running a cross-cloud test grid |
CN104539053A (zh) * | 2014-12-31 | 2015-04-22 | 国家电网公司 | 基于爬虫技术的电力调度自动化巡检机器人及巡检方法 |
CN106411578A (zh) * | 2016-09-12 | 2017-02-15 | 国网山东省电力公司电力科学研究院 | 一种适应于电力行业的网站监控系统及方法 |
CN106789284A (zh) * | 2016-12-28 | 2017-05-31 | 郑州云海信息技术有限公司 | 一种基于Zabbix和Docker的监控系统和方法 |
-
2017
- 2017-11-07 CN CN201711084747.XA patent/CN107864057B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120017112A1 (en) * | 2010-07-19 | 2012-01-19 | Power Integrations, Inc. | System and method for provisioning and running a cross-cloud test grid |
CN104539053A (zh) * | 2014-12-31 | 2015-04-22 | 国家电网公司 | 基于爬虫技术的电力调度自动化巡检机器人及巡检方法 |
CN106411578A (zh) * | 2016-09-12 | 2017-02-15 | 国网山东省电力公司电力科学研究院 | 一种适应于电力行业的网站监控系统及方法 |
CN106789284A (zh) * | 2016-12-28 | 2017-05-31 | 郑州云海信息技术有限公司 | 一种基于Zabbix和Docker的监控系统和方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109327343A (zh) * | 2018-11-27 | 2019-02-12 | 武汉烽火信息集成技术有限公司 | 用于openstack云环境的自动化巡检方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107864057B (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102163280B1 (ko) | 엣지 컴퓨팅 기반 네트워크 모니터링 방법, 장치 및 시스템 | |
US8732516B2 (en) | Method and system for providing customer controlled notifications in a managed network services system | |
US7525422B2 (en) | Method and system for providing alarm reporting in a managed network services environment | |
US8812649B2 (en) | Method and system for processing fault alarms and trouble tickets in a managed network services system | |
US8738760B2 (en) | Method and system for providing automated data retrieval in support of fault isolation in a managed services network | |
US8924533B2 (en) | Method and system for providing automated fault isolation in a managed services network | |
US6813634B1 (en) | Network fault alerting system and method | |
US8676945B2 (en) | Method and system for processing fault alarms and maintenance events in a managed network services system | |
US11632320B2 (en) | Centralized analytical monitoring of IP connected devices | |
KR102076862B1 (ko) | 네트워크 성능지표를 시각화하는 방법 및 장치, 및 시스템 | |
US20120297059A1 (en) | Automated creation of monitoring configuration templates for cloud server images | |
CN104219091A (zh) | 一种网络运行故障检测系统及其方法 | |
US20060230309A1 (en) | System for remote fault management in a wireless network | |
CN109361548A (zh) | 一种基于主动安全的ims网络行为诊断预警方法及装置 | |
CN103532795A (zh) | 一种检测web业务系统可用性的监控系统及方法 | |
EP2778925A2 (en) | Dashboard notifications on management console during a remote control session | |
CN102546292A (zh) | 检测服务器应用健康状态的方法和装置 | |
CN103259684A (zh) | 互联网业务监控方法和系统 | |
Safrianti et al. | Real-time network device monitoring system with simple network management protocol (snmp) model | |
CN106487598B (zh) | 异构冗余Snmp协议多实例实现系统及其实现方法 | |
CN107864057A (zh) | 一种基于联网状态的联机自动检查及告警方法 | |
CN106059787A (zh) | 一种小型机服务器状态的获取方法及装置 | |
CN103916254A (zh) | 一种动态认证行为分析方法及系统 | |
CN104539463A (zh) | 一种网络设备配置文件联机属性交叉检查方法及系统 | |
Han et al. | Computer network failure and solution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Zhejiang Zhongcai Building No. 68 Binjiang District road Hangzhou City, Zhejiang Province, the 310052 and 15 layer Applicant after: Hangzhou Anheng Information Technology Co.,Ltd. Address before: Zhejiang Zhongcai Building No. 68 Binjiang District road Hangzhou City, Zhejiang Province, the 310052 and 15 layer Applicant before: DBAPPSECURITY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |