CN108429656A - 一种监控物理机网卡连接状态的方法 - Google Patents

一种监控物理机网卡连接状态的方法 Download PDF

Info

Publication number
CN108429656A
CN108429656A CN201810164779.9A CN201810164779A CN108429656A CN 108429656 A CN108429656 A CN 108429656A CN 201810164779 A CN201810164779 A CN 201810164779A CN 108429656 A CN108429656 A CN 108429656A
Authority
CN
China
Prior art keywords
physical machine
monitoring
network interface
interface card
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810164779.9A
Other languages
English (en)
Inventor
马桂成
季统凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
G Cloud Technology Co Ltd
Original Assignee
G Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G Cloud Technology Co Ltd filed Critical G Cloud Technology Co Ltd
Priority to CN201810164779.9A priority Critical patent/CN108429656A/zh
Publication of CN108429656A publication Critical patent/CN108429656A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/54Presence management, e.g. monitoring or registration for receipt of user log-on information, or the connection status of the users

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及云平台网络监控技术领域,特别是一种监控物理机网卡连接状态的方法。本发明首先监控服务获取物理机列表,包含每个物理机的主机名、IP地址、监控代理服务端口等信息;然后设检查监控代理的连接状态;监控代理获取本地物理机网卡列表,包含每个网卡的名称;接着直接检查物理机每张网卡连接到交换机的状态和带宽,不需要Ping其他物理机节点或域名;监控服务统一保存监控代理收集上来的网卡状态信息到数据库里面;最后监控服务查询每张网卡历史状态信息判断是否符合规则,当符合规则就告警通知干系人。本发明解决了监控物理机网卡连接状态不够及时、低效、依赖其他物理机或依赖DNS服务、需要人工检查、不支持检查多张网卡;可应用于云平台网络监控技术领域。

Description

一种监控物理机网卡连接状态的方法
技术领域
本发明涉及云平台网络监控技术领域,特别是一种监控物理机网卡连接状态的方法。
背景技术
一般的公有云计算平台上有数量庞大的计算节点,而每个计算节点上可能存在多个正在运行的多个虚拟机,每个虚拟机上都可能运行了一个或多个应用程序。由于许多虚拟机的应用程序监控都依赖连通外部网络,这样会存在以下隐患:
一是虚拟机应用程序都依赖网络,当物理机其中一张物理网卡网络异常,若不能及时发现就造成不必要的损失。
二是常规的网络异常监控都只是通过ping IP地址或ping域名,而目标IP地址可能禁IP、域名过于依赖DNS服务,从而使得检查手段不够完善。
三是人工方式检查网卡连接到交换机的方式,一个服务器通常有两到张网卡,效率太低,并且不能及时发现问题,特别是非工作时间。
为了解决上述问题,需要有一种监控物理机网卡连接状态的方法。通过一种监控物理机网卡连接状态的方法,以快速、高效、不依赖其他物理机、不依赖DNS服务、自动检查、支持检查多张网卡的方式,能够监控物理机网卡连接状态,并及时发送告警消息或告警恢复消息通知干系人。
发明内容
本发明解决的技术问题在于提供一种监控物理机网卡连接状态的方法;解决监控物理机网卡连接状态不够及时、低效、依赖其他物理机或依赖DNS服务、需要人工检查、不支持检查多张网卡等问题。
本发明解决上述技术问题的技术方案是:
所述的方法包括如下步骤:
步骤1:监控服务获取物理机列表;
步骤2:检查监控代理的连接状态;
步骤3:监控代理获取本地物理机网卡列表;
步骤4:检查网卡的连接状态;
步骤5:保存最新的连接状态;
步骤6:监控服务根据规则判断是否需要告警;
所述的步骤2是向检查监控代理发送请求,当请求超时或连接断开时候,再检查物理机的IP地址能否Ping通,从而划分物理机所处状态;当物理机IP不能Ping通时,物理机为网络异常状态;当物理机能Ping通,但请求超时或连接断开,物理机为服务异常状态;当物理机能Ping通,请求正常返回,物理机为正常状态;当物理机从正常状态变成网络异常或服务异常状态,则发送告警消息通知干系人;当从网络异常或服务异常状态变成正常状态,则发送恢复告警恢复消息通知干系人。
所述的步骤1,监控服务获取平台下所有的物理机列表,包含物理机的主机名、IP地址、监控代理服务端口等信息。
所述的步骤3获取本地物理网卡列表,包含每个网卡的名称。
所述的步骤4监控代理直接检查物理机每张网卡连接到交换机的状态和带宽,不需要Ping其他物理机节点或域名。
所述的步骤5,监控服务统一保存监控代理收集上来的网卡状态信息到数据库里面。
所述的步骤6,监控服务查询每张网卡历史状态信息判断是否符合规则,当符合规则就告警通知干系人;
所述的规则,是指一种条件判断的逻辑,当逻辑为真就表示符合规则。
所述的条件判断是指网卡状态在最近一定次数历史数据都处于异常状态是其中一种条件;当网卡带宽变小也属于其中一种条件。
所述的监控服务是统一监控各个物理机的监控服务程序;
所述的监控代理是收集单个物理机的代理程序,主要收集物理机本地网卡的连接状态信息,并将收集好的信息汇总给监控服务程序。
本发明通过一种监控物理机网卡连接状态的方法,解决了监控物理机网卡连接状态不够及时、低效、依赖其他物理机或依赖DNS服务、需要人工检查、不支持检查多张网卡等问题。本发明监控物理机网卡连接状态的方法,是云平台自动完成,区别于人工检查的方法。本发明提供方法是定期实时检查,区别于一般一次性检查的方法。本发明是直接检查物理机和交换机的连接状态,不需要通过Ping IP地址或者Ping域名的方式,也不需要通过TCP协议连接到其他端口,区域于一般通过Ping检查或TCP协议检查的方式的检查方法。本发明方面能够检查每个物理机上所有的物理机网卡,区别于一般只能检查其中一张网卡的方法。本发明提供方法是基于Linux操作系统,区别一般在其他操作系统的方法。
附图说明
下面结合附图对本发明进一步说明:
图1为本发明流程图。
具体实施方式
本发明的实施方式有多种,这里以云平台为例说明其中一种实现方法,流程图如图1所示,具体实施过程如下
1、监控服务获取物理机列表,代码如下:
2、检查监控代理的连接状态,命令行如下:
3、监控代理获取本地物理机网卡列表,代码如下:
4、检查网卡的连接状态并获取带宽,命令行如下:
Ethtool网卡名称|grep Speed
判断返回的结果:
1、当返回为“Speed:XXXXMb/s”,其中XXXX是当前的带宽值且表示网卡连接正常;
2、当返回为“Speed:Unknown!”,表示网卡连接异常
5、保存最新的连接状态,代码如下:
6、监控服务根据规则判断是否需要告警,命令行如下:
整个流程结束。

Claims (7)

1.一种监控物理机网卡连接状态的方法,其特征在于:所述的方法包括如下步骤:
步骤1:监控服务获取物理机列表;
步骤2:检查监控代理的连接状态;
步骤3:监控代理获取本地物理机网卡列表;
步骤4:检查网卡的连接状态;
步骤5:保存最新的连接状态;
步骤6:监控服务根据规则判断是否需要告警;
所述的步骤2是向检查监控代理发送请求,当请求超时或连接断开时候,再检查物理机的IP地址能否Ping通,从而划分物理机所处状态;当物理机IP不能Ping通时,物理机为网络异常状态;当物理机能Ping通,但请求超时或连接断开,物理机为服务异常状态;当物理机能Ping通,请求正常返回,物理机为正常状态;当物理机从正常状态变成网络异常或服务异常状态,则发送告警消息通知干系人;当从网络异常或服务异常状态变成正常状态,则发送恢复告警恢复消息通知干系人。
2.根据权利要求1所述的方法,其特征在于:所述的步骤1,监控服务获取平台下所有的物理机列表,包含物理机的主机名、IP地址、监控代理服务端口等信息。
3.根据权利要求1所述的方法,其特征在于:所述的步骤3获取本地物理网卡列表,包含每个网卡的名称。
4.根据权利要求1所述的方法,其特征在于:所述的步骤4监控代理直接检查物理机每张网卡连接到交换机的状态和带宽,不需要Ping其他物理机节点或域名。
5.根据权利要求1所述的方法,其特征在于:所述的步骤5,监控服务统一保存监控代理收集上来的网卡状态信息到数据库里面。
6.根据权利要求1所述的方法,其特征在于:所述的步骤6,监控服务查询每张网卡历史状态信息判断是否符合规则,当符合规则就告警通知干系人;
所述的规则,是指一种条件判断的逻辑,当逻辑为真就表示符合规则。
所述的条件判断是指网卡状态在最近一定次数历史数据都处于异常状态是其中一种条件;当网卡带宽变小也属于其中一种条件。
7.根据权利要求1至6任一项所述的方法,其特征在于:
所述的监控服务是统一监控各个物理机的监控服务程序;
所述的监控代理是收集单个物理机的代理程序,主要收集物理机本地网卡的连接状态信息,并将收集好的信息汇总给监控服务程序。
CN201810164779.9A 2018-02-28 2018-02-28 一种监控物理机网卡连接状态的方法 Withdrawn CN108429656A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810164779.9A CN108429656A (zh) 2018-02-28 2018-02-28 一种监控物理机网卡连接状态的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810164779.9A CN108429656A (zh) 2018-02-28 2018-02-28 一种监控物理机网卡连接状态的方法

Publications (1)

Publication Number Publication Date
CN108429656A true CN108429656A (zh) 2018-08-21

Family

ID=63157114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810164779.9A Withdrawn CN108429656A (zh) 2018-02-28 2018-02-28 一种监控物理机网卡连接状态的方法

Country Status (1)

Country Link
CN (1) CN108429656A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639796A (zh) * 2018-12-11 2019-04-16 浪潮电子信息产业股份有限公司 一种负载均衡实现方法、装置、设备及可读存储介质
CN109710487A (zh) * 2018-11-29 2019-05-03 同盾控股有限公司 一种监控方法和装置
CN110752972A (zh) * 2019-10-29 2020-02-04 北京浪潮数据技术有限公司 一种网卡状态监控方法、装置、设备及介质
CN112003760A (zh) * 2020-07-25 2020-11-27 苏州浪潮智能科技有限公司 检测虚拟化管理系统网络虚接的方法、装置、设备、产品
CN115002067A (zh) * 2022-04-19 2022-09-02 深圳市共进电子股份有限公司 客户端主机名处理方法、装置、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296132A (zh) * 2008-06-23 2008-10-29 北京中星微电子有限公司 一种监测网卡的方法、系统及一种监测装置
CN103139018A (zh) * 2013-04-03 2013-06-05 国电南瑞科技股份有限公司 一种调变一体化系统下的网卡状态监测与tcp通信方法
US20150288587A1 (en) * 2013-01-03 2015-10-08 International Business Machines Corporation Efficient and scalable method for handling rx packet on a mr-iov array of nics

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101296132A (zh) * 2008-06-23 2008-10-29 北京中星微电子有限公司 一种监测网卡的方法、系统及一种监测装置
US20150288587A1 (en) * 2013-01-03 2015-10-08 International Business Machines Corporation Efficient and scalable method for handling rx packet on a mr-iov array of nics
CN103139018A (zh) * 2013-04-03 2013-06-05 国电南瑞科技股份有限公司 一种调变一体化系统下的网卡状态监测与tcp通信方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710487A (zh) * 2018-11-29 2019-05-03 同盾控股有限公司 一种监控方法和装置
CN109639796A (zh) * 2018-12-11 2019-04-16 浪潮电子信息产业股份有限公司 一种负载均衡实现方法、装置、设备及可读存储介质
CN110752972A (zh) * 2019-10-29 2020-02-04 北京浪潮数据技术有限公司 一种网卡状态监控方法、装置、设备及介质
CN112003760A (zh) * 2020-07-25 2020-11-27 苏州浪潮智能科技有限公司 检测虚拟化管理系统网络虚接的方法、装置、设备、产品
CN112003760B (zh) * 2020-07-25 2022-02-18 苏州浪潮智能科技有限公司 检测虚拟化管理系统网络虚接的方法、装置、设备、产品
CN115002067A (zh) * 2022-04-19 2022-09-02 深圳市共进电子股份有限公司 客户端主机名处理方法、装置、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN108429656A (zh) 一种监控物理机网卡连接状态的方法
US9647910B2 (en) Management server and control method of the management server for managing a service system virtually built using connected components
CN106776212B (zh) 容器集群部署多进程应用的监管系统及方法
CN103607297B (zh) 一种计算机集群系统的故障处理方法
CN109960634B (zh) 一种应用程序监控方法、装置及系统
CN110740072B (zh) 一种故障检测方法、装置和相关设备
US8443078B2 (en) Method of determining equivalent subsets of agents to gather information for a fabric
CN106506490B (zh) 一种分布式计算控制方法以及分布式计算系统
CN103873279A (zh) 一种服务器管理方法,及装置
JP5560936B2 (ja) 構成情報取得方法、仮想プローブおよび構成情報取得制御装置
CN107181834A (zh) 一种redis管理虚拟IP地址的方法、装置及redis系统
CN111176888A (zh) 云存储的容灾方法、装置及系统
US7024583B2 (en) Method and apparatus for detecting file system corruption
CN106021070A (zh) 服务器集群监测方法及装置
US20040073648A1 (en) Network calculator system and management device
CN106982244A (zh) 在云网络环境下实现动态流量的报文镜像的方法和装置
JP2013222313A (ja) 障害連絡効率化システム
CN106790411B (zh) 虚拟交换机与物理交换机的非聚合端口级联系统及方法
CN106603330A (zh) 一种云平台检查虚拟机连接状态的方法
US20060072707A1 (en) Method and apparatus for determining impact of faults on network service
CN108089968A (zh) 一种宿主机监控虚拟机数据库状态的方法
CN106899659B (zh) 分布式系统及其管理方法和管理装置
CN105490847A (zh) 一种私有云存储系统中节点故障实时检测及处理方法
CN113055203B (zh) Sdn控制平面的异常恢复方法及装置
CN112187919B (zh) 一种存储节点管理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180821

WW01 Invention patent application withdrawn after publication