CN1466055A - 机群网络中间代理结点的选择方法 - Google Patents

机群网络中间代理结点的选择方法 Download PDF

Info

Publication number
CN1466055A
CN1466055A CNA021421641A CN02142164A CN1466055A CN 1466055 A CN1466055 A CN 1466055A CN A021421641 A CNA021421641 A CN A021421641A CN 02142164 A CN02142164 A CN 02142164A CN 1466055 A CN1466055 A CN 1466055A
Authority
CN
China
Prior art keywords
node
agent
module
group
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA021421641A
Other languages
English (en)
Other versions
CN100334557C (zh
Inventor
程菊生
吴雪丽
胡毅
金正操
顾光导
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CNB021421641A priority Critical patent/CN100334557C/zh
Publication of CN1466055A publication Critical patent/CN1466055A/zh
Application granted granted Critical
Publication of CN100334557C publication Critical patent/CN100334557C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Hardware Redundancy (AREA)

Abstract

一种机群网络通信的方法。本网络通信的方法引入了中间代理结点。在系统启动时,能够自动进行中间代理结点的选择,而在系统运行过程中,当中间代理结点出现故障而不能完成既定功能时,也同样能够选择出新的中间代理结点。

Description

机群网络中间代理结点的选择方法
技术领域
本发明涉及计算机机群网络的通信方法,尤其涉及机群网络通信中间代理结点的选择方法。
背景技术
计算机在运行过程中,可能会出现各种异常情况,计算机管理员需要随时了解其运行状态,及时得知出现的异常情况,并进行相应的处理,保证计算机系统的安全稳定运行。
计算机机群系统是多台服务器(结点机)组成,它们通过专用高速网络聚合在一起,构成一个超级服务器。在实际应用中,机群系统的安全稳定运行显得尤为重要,因此,有必要对机群系统中的所有结点机软硬件的运行情况进行监控,随时发现问题,并排除故障,而且,人们更希望把整个机群系统作为一个单一映像进行监控。这就需要有一个能够对整个机群系统进行监控的监控系统。
目前,经常使用的一种监控系统采用的通信方案是:监控主机直接与各个结点机通信,获取监控信息(如图1所示)。先由运行于各结点机服务器上的代理程序获取所在结点机2的运行状态信息,然后直接传送给监控主机1,实现监控主机对各服务器的监控。
现有通信方法存在许多明显的缺陷:
首先,现有方案仅适用于结点数较少的情况,当结点数目增大到一定数量时,采用这种直接的通信方式就不能够满足要求。例如,所监控的机群共有256个结点,如果采用TCP(传输控制协议)作为底层通信协议,则监控主机需要维持256个TCP连接,这会占用大量的系统资源,甚至根本不能实现。如果采用UDP(用户数据报协议)作为底层通信协议,则监控主机有可能在同一时间收到大量的UDP包,一旦监控主机未能及时处理这些包,就很有可能出现丢包情况,即出现丢失监控信息的情况。对于这种情况,目前还没有较好的解决办法。
其次,监控系统作为机群系统的重要组成部分,是作为后台服务运行的,它不能占用过多的系统资源而影响机群系统的其他应用的运行。而按照现有的监控系统通信方案,监控系统的运行会占用大量的系统资源,从而干扰机群系统的正常运行。为此,需要一种新的实现方式,尽可能地少占用系统资源,使得监控系统在整个机群系统中的运行开销降至最低。
再次,现有监控系统的通信方案不能很好地保证对各个结点数据采集的同步性,也就是说,不能同步地对各个结点机在同一时刻的运行情况进行收集。这样,就不能够客观、准确地了解机群系统的整体运行情况,而且也不能体现整个机群系统的单一映像特征。
基于现有监控系统通信方案的上述缺陷,我们迫切需要一种新的技术解决方案,能够适用于多结点的大型机群系统,在不占用过多的系统资源的前提下,同步地对各个结点机的运行情况进行监控。而且,新的解决方案应当能够保证监控系统安全、稳定地运行。
发明内容
本发明的目的在于提供一种新的机群网络系统的通信方案。
本发明的另外一个目的在于提供一种机群监控系统中间代理结点的选择方法。
本发明的再一个目的在于提供一种在中间代理结点失效时自动替换的方法。
本发明的进一步目的在于提供一种能够安全稳定运行的监控网络。
本发明是一种解决机群监控网络中间代理结点选择的方法,该方法包括:将被监控机群的所有结点机分为若干个组,在各结点机上运行一个结点采集模块,负责对结点数据的采集,在每个节点机上都运行中间代理模块,使中间代理模块可以运行于两种状态,在系统启动时,对中间代理结点进行初始设置,在系统运行过程中,如果出现中间代理模块失效,进行动态的替换。
附图说明
图1表示现有监控网络的结构。
图2表示根据本发明的分级监控网络的通信结构。
图3表示根据本发明的分级监控网络引入中间代理结点选择方法后的通信结构。
图4表示根据本发明的系统启动时的NP配置过程。
图5表示根据本发明的系统运行过程中的NP替换过程。
具体实施方式
为了实现本发明的目的,可以采用如下方法。如附图2所示,在监控主机上运行着基本服务模块(BSP)11,所有的结点机分为若干个组12,在各个组中,每个节点机上都运行着结点采集模块(NA)13,而每组中有一个结点机上还运行着结点代理模块(NP)14。NA模块和NP模块都是运行于结点机操作系统之上的软件或程序。
其中,BSP负责在需要了解机群系统运行状态时发出数据采集命令,然后等待并接收由结点机返回的数据,对其进行汇总和分析处理;NP负责在收到来自BSP的采集命令后,将采集命令传送给该组中所有结点机的NA模块,然后等待并接收NA模块返回的数据,将其汇总后统一发送给BSP;NA则负责周期性地采集所在结点机的运行状态数据,并在收到采集命令后立即返回最新一次的采集数据。
在一次信息采集过程中,BSP通过UDP广播方式把采集命令发送到所有的NP,NP收到采集命令后,再通过UDP广播方式把命令发送到所在组中所有NA。运行于各结点机上NA周期性地采集所在结点机的运行状态数据,当收到所在组中某个结点机上的NP发出的采集命令时,就将数据传递给该NP,再由NP把收集到的数据统一传递给监控主机上运行的BSP。监控主机上运行的BSP接到各个NP传来的所有结点机的运行状态数据,进行汇总和分析,实现对整个机群的监控。
采用这种分级策略,结点代理模块在整个监控网络中起着关键作用,如果某个结点代理模块由于意外原因不能正常工作,监控主机就不能及时获得相应组所有结点的运行状态数据。
可见,需要进一步解决两个问题:第一,对代理结点(运行结点代理模块的结点)的选择,第二,如果代理结点本身出现故障而不能继续行使代理功能,选出新的代理结点。
本发明在于让中间代理模块NP可以运行于两种状态:使能状态(NPenable)和禁止状态(NPdisable)。
如图3所示,在监控主机上运行着基本服务模块(BSP)11,所有的结点机分为m个组12,每个组中有n个结点机,在各个组中,每个结点机上都同时运行着结点采集模块(NA)13和结点代理模块NP(包括运行于使能状态的NPenable21和禁止状态的NPdisable22),但是,在每个组中,只有一个结点机上运行的NP处于使能状态,即NPenable
在一次信息采集过程中,BSP通过UDP广播方式把采集命令发送到所有的NPenable,NPenable收到采集命令后,再通过UDP广播方式把命令发送到所在组中所有NA。运行于各结点机上NA周期性地采集所在结点机的运行状态数据,当收到所在组的NPenable发出的采集命令时,就将数据传递给该NPenable,再由NPenable把收集到的数据统一传递给监控主机上运行的BSP。监控主机上运行的BSP接到各个NPenable传来的所有结点机的运行状态数据,进行汇总和分析,实现对整个机群的监控。
根据以上说明,我们可以看出,只有处于使能状态的NP(即NPenable)才真正行使中间代理结点的职能,负责在BSP与NP之间传递命令和数据。如果NPenable所在结点机出现意外情况,导致该NPenable无法正常工作(我们称之为NP失效),监控系统就无法对该NPenable所在组的结点机进行监控。
本发明着眼于不同情况下对NP两种运行状态的转换来实现中间代理结点的自动选择和替换。
中间代理结点的自动选择,需要综合两种情况,一种是监控系统启动时的NPenable选择,另一种是监控系统运行过程中NPenable的替换。下面结合附图详细说明对NPenable选择和替换的方法:
一、系统启动时的NPenable选择。
如图4所示,监控系统启动时,每个结点机上都运行NA、NP两个模块。所有NP模块处于初始化状态,向BSP发送心跳信息。BSP记下每组结点中第一个心跳的NP,并把它作为该组结点的NPenable,然后,以广播方式发出NP配置命令31,通知该组中所有的NP。被选择的NP改变其状态为使能状态NPenable,并向BSP发出NP配置响应32,其它NP改变其状态为禁止状态。NPenable进一步以广播方式向该组中所有NA发出NP配置通告,告知NPenable所在的位置。
二、监控系统运行过程中的NPenable替换。
在监控系统运行过程中,如果NPenable所在结点机出现故障,可能会导致NPenable不能完成既定功能。因此,要求系统能够及时检测出NP失效的情况,并选出新的NPenable
处于使能状态的NP(即NPenable)会不停地向BSP发送心跳信息,而处于禁止状态的NP(即NPdisable)不向BSP发送心跳信息。这样,BSP能够随时与各组结点中的NPenable保持联系。一旦某组结点中的NPenable失效,BSP就会迅速得知这一情况,并按下述过程进行NP选择。
如图5所示,BSP要在某组结点中选出新的NPenable,首先向该组中所有NP模块发送NP选择命令35。每个NP模块(不管其是否处于使能状态)都向BSP发送NP选择响应36,BSP记下第一个发送响应的NP,把它作为该组结点的NPenable,然后以广播方式发送NP配置命令31,通知该组中的所有NP。被选择作为NPenable的NP模块改变其状态为使能状态,并向BSP发出NP配置响应32,其它NP模块改变其状态为禁止状态(如果原来处于使能状态)或者保持其禁止状态。接下来,新的NPenable进一步以广播方式向该组中所有NA模块发送NP配置通告33,告知NPenable所在的位置。
我们不难看出,根据本发明的方法,监控系统可以实现对大型机群系统的监控。而且,在监控系统启动时,能够自动进行中间代理结点的选择,而在在监控系统运行过程中,当中间代理结点出现故障而不能完成既定功能时,也同样能够选择出新的中间代理结点,从而保证监控系统的稳定运行。
显然,关于各种程序的内部结构,本技术领域的技术人员根据本发明对其编程是很容易的,这里就不再赘述。
本领域的技术人员可以对本发明的计算机机群通信的方法和系统进行各种改动和变型而不脱离本发明的精神和范围。这样倘若本发明的这些修改和变型属于本发明权利要求及其等同技术范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1、一种机群网络通信中间代理结点选择的方法,该方法包括如下步骤:
在各结点机上运行一个结点采集模块,负责对结点数据的采集;
在每个结点机上都运行中间代理模块;
使中间代理模块可以运行于两种状态;
在系统启动时,对中间代理结点进行初始设置;
在系统运行过程中,如果出现中间代理模块失效,进行动态的替换。
2、如权利要求1所述的中间代理结点选择的方法,所述使中间代理模块可以运行于两种状态包括步骤:使中间代理模块处于使能状态或禁止状态,处于使能状态的中间代理模块所在结点为当前的中间代理结点,负责在监控主机和各结点机之间传递命令和数据。
3、如权利要求1所述的中间代理结点选择的方法,所述对中间代理结点进行初始设置包括步骤:监控主机向各个中间代理模块发出设置命令,各个中间代理模块返回设置回应,被设置为使能状态的中间代理模块向该组内各结点采集模块发出设置通告。
4、如权利要求1所述的中间代理结点选择的方法,所述进行动态替换包括步骤:监控主机向各个中间代理模块发出选择命令,各个中间代理模块返回选择回应,监控主机向各个中间代理模块发出设置命令,各个中间代理模块返回设置回应,被设置为使能状态的中间代理模块向该组内各结点采集模块发出设置通告。
5、如权利要求1、2、3、4中的任一个的中间代理结点选择的方法,进一步包括步骤:将所述机群分的节点机为若干组,每个组内建立一个所述中间代理模块。
CNB021421641A 2002-06-10 2002-08-27 机群网络中间代理结点的选择方法 Expired - Fee Related CN100334557C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB021421641A CN100334557C (zh) 2002-06-10 2002-08-27 机群网络中间代理结点的选择方法

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CN02237849.9 2002-06-10
CN20022378499 2002-06-10
CN02237849 2002-06-10
CN20021256268 2002-07-25
CN02125626 2002-07-25
CN02125626.8 2002-07-25
CNB021421641A CN100334557C (zh) 2002-06-10 2002-08-27 机群网络中间代理结点的选择方法

Publications (2)

Publication Number Publication Date
CN1466055A true CN1466055A (zh) 2004-01-07
CN100334557C CN100334557C (zh) 2007-08-29

Family

ID=34198442

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB021421641A Expired - Fee Related CN100334557C (zh) 2002-06-10 2002-08-27 机群网络中间代理结点的选择方法

Country Status (1)

Country Link
CN (1) CN100334557C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102291467A (zh) * 2011-09-15 2011-12-21 电子科技大学 一种适应私有云环境的通信平台和通信方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1142491C (zh) * 2000-01-11 2004-03-17 国际商业机器公司 测试服务器性能的框架系统及方法
CN1430749A (zh) * 2000-05-22 2003-07-16 新兴网络公司 访问网络资源的系统和方法
FI20002311A (fi) * 2000-10-19 2002-04-20 Nokia Corp Verkkoelementin asetusten hallintamenetelmä

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102291467A (zh) * 2011-09-15 2011-12-21 电子科技大学 一种适应私有云环境的通信平台和通信方法
CN102291467B (zh) * 2011-09-15 2014-04-09 电子科技大学 一种适应私有云环境的通信平台和通信方法

Also Published As

Publication number Publication date
CN100334557C (zh) 2007-08-29

Similar Documents

Publication Publication Date Title
CN1111994C (zh) 在严格实时条件下容错通讯方法
CN109597723B (zh) 用于地铁综合监控系统的双机热备冗余实现系统及方法
CN1194316C (zh) 一种计算机网络远程网络监控方法
US6928589B1 (en) Node management in high-availability cluster
US7518983B2 (en) Proxy response apparatus
US20030158933A1 (en) Failover clustering based on input/output processors
CN1717658A (zh) 集群系统的心跳机构
CN1741489A (zh) 构建多机系统高可用的自愈合逻辑环故障检测与容忍方法
CN104320311A (zh) 一种scada分布式平台下的心跳检测方法
CN1992707A (zh) 一种组播业务快速恢复方法及网络设备
CN112217847A (zh) 微服务平台及其实现方法、电子设备及存储介质
CN112637368A (zh) 分布式工业数据采集系统及方法
CN1315288C (zh) 双网络通信系统的不间断切换方法
CN101056254A (zh) 一种网络存储设备的扩展方法、系统及其装置
CN1508689A (zh) 一种远程获取被监控计算机信息的系统和方法
CN102118274A (zh) 一种状态监控方法、装置和系统
CN1404671A (zh) 经由冗余网络控制的多重网络故障容错
CN100334557C (zh) 机群网络中间代理结点的选择方法
CN1725758A (zh) 用于使分布式系统同步的方法
CN116260893B (zh) 一种数据处理系统消息订阅发布装置
CN1717659A (zh) 具有互联的集群系统及方法
CN113485793B (zh) 基于容器技术的多源异构数据接入通道在线弹性扩展方法
CN101055556A (zh) 一种多cpu系统及cpu之间消息传递的方法
CN1466056A (zh) 一种机群监控系统和方法
CN116089079A (zh) 一种基于大数据的计算机资源分配管理系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070829

Termination date: 20200827