CN106452971A - 一种基于分布式集群系统的监控网口检测方法及系统 - Google Patents

一种基于分布式集群系统的监控网口检测方法及系统 Download PDF

Info

Publication number
CN106452971A
CN106452971A CN201610956753.9A CN201610956753A CN106452971A CN 106452971 A CN106452971 A CN 106452971A CN 201610956753 A CN201610956753 A CN 201610956753A CN 106452971 A CN106452971 A CN 106452971A
Authority
CN
China
Prior art keywords
network interface
data
cluster
multicast address
monitoring network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610956753.9A
Other languages
English (en)
Other versions
CN106452971B (zh
Inventor
张大帅
周龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201610956753.9A priority Critical patent/CN106452971B/zh
Publication of CN106452971A publication Critical patent/CN106452971A/zh
Application granted granted Critical
Publication of CN106452971B publication Critical patent/CN106452971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于分布式集群系统的监控网口检测方法及系统,包括:S1、检测监控网口是否存在非本集群数据节点的代理进程发送的数据;若存在,则执行S2;其中,所述监控网口为管理节点与数据节点进行数据交互的网口;S2、获取预存的组播地址修改规则;S3、根据所述组播地址修改规则对配置文件中的本集群的组播地址进行修改,并将修改结果推送至本集群中其他数据节点上;可见,在方案中,若检测到监控网口有非本集群内节点发来的数据时,会自动修改本集群中配置文件中的组播地址,使之不同与局域网中其他集群,从而只搜集本集群节点的数据,以解决集群间监控数据相互干扰的问题。

Description

一种基于分布式集群系统的监控网口检测方法及系统
技术领域
本发明涉及分布式集群系统管理领域,更具体地说,涉及一种基于分布式集群系统的监控网口检测方法及系统。
背景技术
分布式集群系统一般包含多台服务器Server,这些服务器组成一个集群系统。分布式集群系统的监控模块Monitor需监控集群中各个Server节点的性能和硬件指标状态,比如各节点的cpu利用率、内存利用率、电源和主板温度等。监控模块需要在各个节点上部署代理进程M_agent,M_agent模块负责实时的搜集所属节点的性能和硬件指标数据,通过UDP协议以单播或组播的方式向指定的端口发送这些数据;除此之外,还需在集群管理服务器节点上部署监控客户端进程M_client,该模块通过TCP协议从指定端口接收其他节点发送的数据,并将数据保存在数据库DB中,供系统管理员实时的监测、查看。由于集群中Monitor部署完成后,默认状态下组播地址是固定的,所以各集群中的Monitor组播地址在初始情况下都相同,当局域网中存在多个集群时,集群之间的监控数据会相互干扰,使M_agent分析汇总数据不准确。
因此,如何解决集群间监控数据相互干扰的问题,是本领域技术人员需要解决的。
发明内容
本发明的目的在于提供一种基于分布式集群系统的监控网口检测方法及系统,以解决集群间监控数据相互干扰的问题。
为实现上述目的,本发明实施例提供了如下技术方案:
一种基于分布式集群系统的监控网口检测方法,包括:
S1、检测监控网口是否存在非本集群数据节点的代理进程发送的数据;若存在,则执行S2;其中,所述监控网口为管理节点与数据节点进行数据交互的网口;
S2、获取预存的组播地址修改规则;
S3、根据所述组播地址修改规则对配置文件中的本集群的组播地址进行修改,并将修改结果推送至本集群中其他数据节点上。
其中,将修改结果推送至本集群中其他数据节点上之后,还包括:
间隔预定时长后,继续检测所述监控网口是否存在非本集群数据节点的代理进程发送的数据;
若存在,则获取预存的另一组播地址修改规则,并基于所述另一组播地址修改规则继续执行S3,直至所述监控网口不存在非本集群数据节点的代理进程发送的数据。
其中,还包括:
若检测到监控网口的TCP通信负载高于预定阈值,则按照预定切换规则,将所述管理节点与数据节点进行数据交互的网口切换至TCP通信负载较低的网口。
其中,所述按照预定切换规则,将所述管理节点与数据节点进行数据交互的网口切换至TCP通信负载较低的网口,包括:
计算所述管理节点每个网口的TCP通信负载,并将TCP通信负载最低的网口作为目标网口;
将所述管理节点与数据节点进行数据交互的网口切换至所述目标网口。
一种基于分布式集群系统的监控网口检测系统,包括:
检测模块,用于检测监控网口是否存在非本集群数据节点的代理进程发送的数据;其中,所述监控网口为管理节点与数据节点进行数据交互的网口;
组播地址修改规则获取模块,用于在所述监控网口存在非本集群数据节点的代理进程发送的数据时,获取预存的组播地址修改规则;
组播地址修改模块,用于根据所述组播地址修改规则对配置文件中的本集群的组播地址进行修改,并将修改结果推送至本集群中其他数据节点上。
其中,所述检测模块,还用将修改结果推送至本集群中其他数据节点上,且间隔预定时长后,继续检测所述监控网口是否存在非本集群数据节点的代理进程发送的数据;
若存在,则通过所述组播地址修改规则获取模块获取预存的另一组播地址修改规则,并基于所述另一组播地址修改规则继续触发所述组播地址修改模块,直至所述监控网口不存在非本集群数据节点的代理进程发送的数据。
其中,还包括:
网口切换模块,用于检测到监控网口的TCP通信负载高于预定阈值时,按照预定切换规则,将所述管理节点与数据节点进行数据交互的网口切换至TCP通信负载较低的网口。
其中,所述网口切换模块,通过计算所述管理节点每个网口的TCP通信负载,将所述管理节点与数据节点进行数据交互的网口切换至TCP通信负载最低的网口。
通过以上方案可知,本发明实施例提供的一种基于分布式集群系统的监控网口检测方法,包括:S1、检测监控网口是否存在非本集群数据节点的代理进程发送的数据;若存在,则执行S2;其中,所述监控网口为管理节点与数据节点进行数据交互的网口;S2、获取预存的组播地址修改规则;S3、根据所述组播地址修改规则对配置文件中的本集群的组播地址进行修改,并将修改结果推送至本集群中其他数据节点上;可见,在方案中,若检测到监控网口有非本集群内节点发来的数据时,会自动修改本集群中配置文件中的组播地址,使之不同与局域网中其他集群,从而只搜集本集群节点的数据,以解决集群间监控数据相互干扰的问题;本发明还公开一种基于分布式集群系统的监控网口检测系统,同样能实现上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的集群Monitor监控流程示意图;
图2为本发明实施例公开的一种基于分布式集群系统的监控网口检测方法流程示意图;
图3为本发明实施例公开的监控网口检测示意图;
图4为本发明实施例公开的一种基于分布式集群系统的监控网口检测系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于分布式集群系统的监控网口检测方法及系统,以解决集群间监控数据相互干扰的问题。
参见图1,在本实施例提供的四节点集群Monitor监控流程示意图。虚线方框代表集群中的Monitor模块,其中Slave1、Slave2、Slave3代表本集群中的各数据节点,均部署了M_agent守护进程,用于搜集每个数据节点的性能和硬件指标值;各Slave节点的M_agent通过UDP协议进行通信。Master代表本集群中的管理节点,部署了M_client守护进程,M_client通过TCP协议获取M_agent发送的数据,存于监控数据库中,并将这些数据进行汇总在管理平台上进行展示,方便管理平台能实时的监控集群状态。
但是由于集群中Monitor部署完成后,默认状态下组播地址是固定的,所以各集群中的Monitor组播地址在初始情况下都相同,当局域网中存在多个集群时,集群之间的监控数据会相互干扰,使M_agent分析汇总数据不准确。因此,在本实施例中,在管理节点Master上添加一个tcp通信状态监测模块,该模块的守护进程Check_tcp在后台来执行本实施例所公开的技术方案,以解决集群间监控数据相互干扰的问题。
参见图2,本发明实施例提供的一种基于分布式集群系统的监控网口检测方法,包括:
S1、检测监控网口是否存在非本集群数据节点的代理进程发送的数据;若存在,则执行S2;其中,所述监控网口为管理节点与数据节点进行数据交互的网口;
具体的,参见图3,本实施例提供的Check_tcp模块功能示意图。图中Slave代表各数据节点,虚线框代表管理节点Master,框中展示的是Check_tcp进程的功能。管理节点中的守护进程Check_tcp会实时的检测监控网口的M_agent数据包,若检测到数据包中携带的ip地址不是本集群节点的ip地址,则说明接收到的数据包为非本集群内节点的M_agent数据包,即该局域网段内还存在其他的集群,并且本集群的管理节点搜集了其他集群节点的指标信息,这时需要对配置文件的组播地址进行修改。
S2、获取预存的组播地址修改规则;
具体的,若检测到有非本集群数据节点的代理进程发送的数据,则守护进程Check_tcp会读取数据库中制定好的组播地址修改方案,需要说明的是,数据库中事先制定了多个新的组播地址,区别于默认的组播地址。
S3、根据所述组播地址修改规则对配置文件中的本集群的组播地址进行修改,并将修改结果推送至本集群中其他数据节点上。
具体的,通过获取的预存的组播地址修改规则自动修改本集群Monitor配置文件中的组播地址,并将其推送到集群中其他数据节点上,以保证集群各节点组播地址相同,直至检测到监控网口中不再包含非本集群节点的M_agent数据包为止。
需要说明的是,将修改结果推送至本集群中其他数据节点上之后,还包括:间隔预定时长后,继续检测所述监控网口是否存在非本集群数据节点的代理进程发送的数据;
若存在,则获取预存的另一组播地址修改规则,并基于所述另一组播地址修改规则继续执行S3,直至所述监控网口不存在非本集群数据节点的代理进程发送的数据。
具体的,在本实施例中,若在间隔预定预定时长后,在监控网口依然存在非本集群数据节点的代理进程发送的数据,则从数据库中获取另一新的组播地址修改规则,对配置文件及其他节点进行修改。
基于上述技术方案,本方案还包括:
若检测到监控网口的TCP通信负载高于预定阈值,则按照预定切换规则,将所述管理节点与数据节点进行数据交互的网口切换至TCP通信负载较低的网口。
其中,所述按照预定切换规则,将所述管理节点与数据节点进行数据交互的网口切换至TCP通信负载较低的网口,包括:计算所述管理节点每个网口的TCP通信负载,并将TCP通信负载最低的网口作为目标网口;将所述管理节点与数据节点进行数据交互的网口切换至所述目标网口。
需要说明的是,本方案中的Check_tcp进程同时也负责对管理节点各网口的tcp通信状态进行检测,如果检测到当前监控网口的tcp通信负载过高时,例如高于最大负载的80%,则Check_tcp会自适应的将监控链路动态的切换到其他通信负载较低的网卡上,确保M_client能持续稳定的搜集监控数据,保证监控数据包不丢失。
下面对本发明实施例提供的监控网口检测系统进行介绍,下文描述的监控网口检测系统与上文描述的监控网口检测方法可以相互参照。
参见图4,本发明实施例提供的一种基于分布式集群系统的监控网口检测系统,包括:
检测模块100,用于检测监控网口是否存在非本集群数据节点的代理进程发送的数据;其中,所述监控网口为管理节点与数据节点进行数据交互的网口;
组播地址修改规则获取模块200,用于在所述监控网口存在非本集群数据节点的代理进程发送的数据时,获取预存的组播地址修改规则;
组播地址修改模块300,用于根据所述组播地址修改规则对配置文件中的本集群的组播地址进行修改,并将修改结果推送至本集群中其他数据节点上。
基于上述技术方案,所述检测模块,还用将修改结果推送至本集群中其他数据节点上,且间隔预定时长后,继续检测所述监控网口是否存在非本集群数据节点的代理进程发送的数据;
若存在,则通过所述组播地址修改规则获取模块获取预存的另一组播地址修改规则,并基于所述另一组播地址修改规则继续触发所述组播地址修改模块,直至所述监控网口不存在非本集群数据节点的代理进程发送的数据。
基于上述技术方案,本方案还包括:
网口切换模块,用于检测到监控网口的TCP通信负载高于预定阈值时,按照预定切换规则,将所述管理节点与数据节点进行数据交互的网口切换至TCP通信负载较低的网口。
基于上述技术方案,所述网口切换模块,通过计算所述管理节点每个网口的TCP通信负载,将所述管理节点与数据节点进行数据交互的网口切换至TCP通信负载最低的网口。
本发明实施例提供的一种基于分布式集群系统的监控网口检测方法,包括:S1、检测监控网口是否存在非本集群数据节点的代理进程发送的数据;若存在,则执行S2;其中,所述监控网口为管理节点与数据节点进行数据交互的网口;S2、获取预存的组播地址修改规则;S3、根据所述组播地址修改规则对配置文件中的本集群的组播地址进行修改,并将修改结果推送至本集群中其他数据节点上;可见,在方案中,若检测到监控网口有非本集群内节点发来的数据时,会自动修改本集群中配置文件中的组播地址,使之不同与局域网中其他集群,从而只搜集本集群节点的数据,以解决集群间监控数据相互干扰的问题;本发明还公开一种基于分布式集群系统的监控网口检测系统,同样能实现上述技术效果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于分布式集群系统的监控网口检测方法,其特征在于,包括:
S1、检测监控网口是否存在非本集群数据节点的代理进程发送的数据;若存在,则执行S2;其中,所述监控网口为管理节点与数据节点进行数据交互的网口;
S2、获取预存的组播地址修改规则;
S3、根据所述组播地址修改规则对配置文件中的本集群的组播地址进行修改,并将修改结果推送至本集群中其他数据节点上。
2.根据权利要求1所述的监控网口检测方法,其特征在于,将修改结果推送至本集群中其他数据节点上之后,还包括:
间隔预定时长后,继续检测所述监控网口是否存在非本集群数据节点的代理进程发送的数据;
若存在,则获取预存的另一组播地址修改规则,并基于所述另一组播地址修改规则继续执行S3,直至所述监控网口不存在非本集群数据节点的代理进程发送的数据。
3.根据权利要求1或2所述的监控网口检测方法,其特征在于,还包括:
若检测到监控网口的TCP通信负载高于预定阈值,则按照预定切换规则,将所述管理节点与数据节点进行数据交互的网口切换至TCP通信负载较低的网口。
4.根据权利要求3所述的监控网口检测方法,其特征在于,所述按照预定切换规则,将所述管理节点与数据节点进行数据交互的网口切换至TCP通信负载较低的网口,包括:
计算所述管理节点每个网口的TCP通信负载,并将TCP通信负载最低的网口作为目标网口;
将所述管理节点与数据节点进行数据交互的网口切换至所述目标网口。
5.一种基于分布式集群系统的监控网口检测系统,其特征在于,包括:
检测模块,用于检测监控网口是否存在非本集群数据节点的代理进程发送的数据;其中,所述监控网口为管理节点与数据节点进行数据交互的网口;
组播地址修改规则获取模块,用于在所述监控网口存在非本集群数据节点的代理进程发送的数据时,获取预存的组播地址修改规则;
组播地址修改模块,用于根据所述组播地址修改规则对配置文件中的本集群的组播地址进行修改,并将修改结果推送至本集群中其他数据节点上。
6.根据权利要求5所述的监控网口检测系统,其特征在于,
所述检测模块,还用将修改结果推送至本集群中其他数据节点上,且间隔预定时长后,继续检测所述监控网口是否存在非本集群数据节点的代理进程发送的数据;
若存在,则通过所述组播地址修改规则获取模块获取预存的另一组播地址修改规则,并基于所述另一组播地址修改规则继续触发所述组播地址修改模块,直至所述监控网口不存在非本集群数据节点的代理进程发送的数据。
7.根据权利要求5或6所述的监控网口检测系统,其特征在于,还包括:
网口切换模块,用于检测到监控网口的TCP通信负载高于预定阈值时,按照预定切换规则,将所述管理节点与数据节点进行数据交互的网口切换至TCP通信负载较低的网口。
8.根据权利要求7所述的监控网口检测系统,其特征在于,
所述网口切换模块,通过计算所述管理节点每个网口的TCP通信负载,将所述管理节点与数据节点进行数据交互的网口切换至TCP通信负载最低的网口。
CN201610956753.9A 2016-10-27 2016-10-27 一种基于分布式集群系统的监控网口检测方法及系统 Active CN106452971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610956753.9A CN106452971B (zh) 2016-10-27 2016-10-27 一种基于分布式集群系统的监控网口检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610956753.9A CN106452971B (zh) 2016-10-27 2016-10-27 一种基于分布式集群系统的监控网口检测方法及系统

Publications (2)

Publication Number Publication Date
CN106452971A true CN106452971A (zh) 2017-02-22
CN106452971B CN106452971B (zh) 2019-09-24

Family

ID=58180603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610956753.9A Active CN106452971B (zh) 2016-10-27 2016-10-27 一种基于分布式集群系统的监控网口检测方法及系统

Country Status (1)

Country Link
CN (1) CN106452971B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114338612A (zh) * 2021-12-22 2022-04-12 威创集团股份有限公司 一种组播地址的动态分配方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102307246A (zh) * 2010-09-25 2012-01-04 广东电子工业研究院有限公司 基于云计算的虚拟机间安全通信保护系统及其方法
CN102681883A (zh) * 2011-03-17 2012-09-19 新奥特(北京)视频技术有限公司 一种媒体资产检索浏览系统中的资源调用的方法及系统
CN102759977A (zh) * 2011-04-29 2012-10-31 无锡江南计算技术研究所 一种电源无线控制系统及控制方法
US20160149789A1 (en) * 2014-11-25 2016-05-26 International Business Machines Corporation Integrating a communication bridge into a data processing system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102307246A (zh) * 2010-09-25 2012-01-04 广东电子工业研究院有限公司 基于云计算的虚拟机间安全通信保护系统及其方法
CN102681883A (zh) * 2011-03-17 2012-09-19 新奥特(北京)视频技术有限公司 一种媒体资产检索浏览系统中的资源调用的方法及系统
CN102759977A (zh) * 2011-04-29 2012-10-31 无锡江南计算技术研究所 一种电源无线控制系统及控制方法
US20160149789A1 (en) * 2014-11-25 2016-05-26 International Business Machines Corporation Integrating a communication bridge into a data processing system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114338612A (zh) * 2021-12-22 2022-04-12 威创集团股份有限公司 一种组播地址的动态分配方法、系统、设备及存储介质
CN114338612B (zh) * 2021-12-22 2023-03-24 威创集团股份有限公司 一种组播地址的动态分配方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN106452971B (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN102281156B (zh) 分级网络管理系统的应急控制方法及系统
CN108259215B (zh) 一种设备管理方法及装置
CN113810293B (zh) 网络择优代理方法、装置、电子设备、服务器及存储介质
CN103067206A (zh) 物联网跨机房分布式全自动热备用服务器切换系统
CN106130796A (zh) Sdn网络拓扑流量可视化监控方法及控制终端
CN103974140B (zh) 一种基于tr069协议的大规模交互电视终端管理方法及系统
TW200832252A (en) Methods and system for utility network outage detection
CN103795575A (zh) 一种面向多数据中心的系统监控方法
CN104641612A (zh) 用于精确时间协议(ptp)实体的配置的智能监管
CN105530115A (zh) 一种实现操作管理维护功能的方法及装置
EP2522171A1 (en) Network optimisation
CN106357473A (zh) 分布式多机系统、控制方法及控制装置
CN102075351A (zh) 一种网管远程控制方法及系统
CN117751567A (zh) 公用设施通信网络的动态处理分发
CN109245940A (zh) 一种网络设备发现及检测的方法
CN105207835A (zh) 一种无线局域网的网元工作状态的判定方法及装置
CN106452971A (zh) 一种基于分布式集群系统的监控网口检测方法及系统
US20100036943A1 (en) Method of network management
CN104081743A (zh) 一种链路管理方法、设备和通信系统
US8537692B2 (en) Network failure detecting method and device
CN106878177A (zh) 一种路由处理方法及装置
CN104967539B (zh) 一种无线mesh网络管理信息数据的获取方法
CN107612764A (zh) 一种传输网管数据采集装置和方法
CN101657994B (zh) 发现分布式通信网络中的断开组件
JP5686188B2 (ja) 経路探索プログラムおよび情報処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant