CN102340410B - 集群管理系统及方法 - Google Patents

集群管理系统及方法 Download PDF

Info

Publication number
CN102340410B
CN102340410B CN201010236219.3A CN201010236219A CN102340410B CN 102340410 B CN102340410 B CN 102340410B CN 201010236219 A CN201010236219 A CN 201010236219A CN 102340410 B CN102340410 B CN 102340410B
Authority
CN
China
Prior art keywords
cluster management
management module
service
module
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010236219.3A
Other languages
English (en)
Other versions
CN102340410A (zh
Inventor
胡良俊
全锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Futian Quantum Technology Co ltd
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201010236219.3A priority Critical patent/CN102340410B/zh
Priority to EP10854966.8A priority patent/EP2597818A4/en
Priority to US13/811,371 priority patent/US20130139178A1/en
Priority to PCT/CN2010/080402 priority patent/WO2012009936A1/zh
Publication of CN102340410A publication Critical patent/CN102340410A/zh
Application granted granted Critical
Publication of CN102340410B publication Critical patent/CN102340410B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/042Network management architectures or arrangements comprising distributed management centres cooperatively managing the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/02Standardisation; Integration
    • H04L41/024Standardisation; Integration using relational databases for representation of network management data, e.g. managing via structured query language [SQL]

Abstract

本发明公开了一种集群管理系统及方法,该系统包括:存储模块,用于保存多个进程的进程标识和多个进程的通讯地址;多个集群管理模块,与多个进程一一对应,其中,多个集群管理模块中的每个集群管理模块均用于从存储模块获取多个进程中除自身对应的进程之外的其它进程的通讯地址,并使用其它进程的通讯地址获取其它进程包含的服务;多个服务管理模块,与多个集群管理模块一一对应,其中,多个服务管理模块中的每个服务管理模块均用于从自身对应的集群管理模块获取其它进程包含的服务,并用于调用其它进程包含的服务。本发明保证了服务的正常使用,提高了网管的管理能力。

Description

集群管理系统及方法
技术领域
本发明涉及通信领域,具体而言,涉及一种集群管理系统及方法。
背景技术
集群管理系统按可划分为多个子系统:性能管理子系统、告警管理子系统和安全管理子系统等。同一个子系统内又可分为多个功能模块:南向模块、北向模块和服务器处理模块等,其中,每个模块可称之为一个服务。集群管理系统就是由众多的服务组成的一个系统。
随着通讯技术的不断发展,管理网络的规模越来越大,并且其类型各种各样,各种类型的网络都有各自的网管系统。为了管理上的方便,对多种网络施行统一管理非常必要,这就对网管系统的管理能力和本身的性能提出了很高要求。
为解决这个问题,相关技术中通常采用分布式设计,即将网管的服务分布式运行在多台主机中,利用多台机器的硬件资源来提高网管的管理能力。图1是根据相关技术的集群管理系统的部署结构的示意图,包括一个管理进程以及多个从进程,其中,由管理进程控制系统中所有从进程的状态,以提高网管的管理能力。
但是,这种由管理进程管理多个从进程的结构,对管理进程可靠性的要求非常高,因为一旦该管理进程失效,整个集群管理系统将都不能工作。
发明内容
针对相关技术中集群管理系统采用一个管理进程和多个从进程,一旦管理进程失效,整个集群管理系统将都不能工作的问题而提出本发明,为此,本发明的主要目的在于提供一种集群管理系统及方法,以解决上述问题。
为了实现上述目的,根据本发明的一个方面,提供了一种集群管理系统。
根据本发明的集群管理系统包括:存储模块,用于保存多个进程的进程标识和多个进程的通讯地址;多个集群管理模块,与多个进程一一对应,其中,多个集群管理模块中的每个集群管理模块均用于从存储模块获取多个进程中除自身对应的进程之外的其它进程的通讯地址,并使用其它进程的通讯地址获取其它进程包含的服务;多个服务管理模块,与多个集群管理模块一一对应,其中,多个服务管理模块中的每个服务管理模块均用于从自身对应的集群管理模块获取其它进程包含的服务,并用于调用其它进程包含的服务。
进一步地,上述集群管理系统还包括:多个监听模块,与多个服务管理模块一一对应,用于记录自身对应的服务管理模块获取的其它进程包含的服务的可用信息,其中,可用信息用于指示服务可用或者不可用;多个服务管理模块中的每个服务管理模块还用于接收来自自身对应的监听模块的可用信息,并用于根据可用信息,调用其它进程包含的服务。
进一步地,上述集群管理系统还包括:多个定时器,与多个集群管理模块一一对应;多个集群管理模块中的每个集群管理模块还用于当自身对应的定时器到时,向多个集群管理模块中除自身之外的其它集群管理模块发送检测消息,其中,检测消息用于检测自身与其它集群管理模块的连接关系;以及多个集群管理模块中的每个集群管理模块还用于当检测到没有接收到来自其它集群管理模块中的一个或多个集群管理模块的响应消息时,删除一个或多个集群管理模块对应的进程。
进一步地,多个集群管理模块中的每个集群管理模块还用于向存储模块写入自身对应的进程的通讯地址。
进一步地,上述集群管理系统还包括:判断模块,用于判断存储模块是否已经保存有多个进程中的一个或多个进程的进程标识;更新模块,用于在判断结果为是时,更新一个或多个进程的通讯地址,其中,通讯地址包括以下至少之一:互联网协议IP地址、监听端口信息。
进一步地,多个集群管理模块之间通过UDP进行通讯。
进一步地,多个集群管理模块中的每个集群管理模块还用于管理自身对应的集群管理模块对应的进程包含的服务。
为了实现上述目的,根据本发明的另一个方面,提供了一种集群管理方法。
根据本发明的集群管理方法包括:集群管理模块从存储模块获取多个进程中除自身对应的进程之外的其它进程的通讯地址;集群管理模块使用其它进程的通讯地址获取其它进程包含的服务,并发送给自身对应的服务管理模块;服务管理模块调用其它进程包含的服务。
进一步地,在服务管理模块调用其它进程包含的服务之前,还包括:监听模块记录自身对应的服务管理模块获取的其它进程包含的服务的可用信息,其中,可用信息用于指示服务可用或者不可用;监听模块向服务管理模块发送可用信息;服务管理模块根据可用信息,执行调用其它进程包含的服务的操作。
进一步地,在集群管理模块从存储模块获取多个进程中除自身对应的进程之外的其它进程的通讯地址之前,还包括:集群管理模块当自身对应的定时器到时,向多个集群管理模块中除自身之外的其它集群管理模块发送检测消息,其中,检测消息用于检测自身与其它集群管理模块的连接关系;集群管理模块当检测到没有接收到来自其它集群管理模块中的一个或多个集群管理模块的响应消息时,删除一个或多个集群管理模块对应的进程。
进一步地,在集群管理模块从存储模块获取多个进程中除自身对应的进程之外的其它进程的通讯地址之前,还包括:集群管理模块向存储模块写入自身对应的进程的通讯地址。
通过本发明,采用集群的分布式设计,解决了相关技术中集群管理系统采用一个管理进程和多个从进程,一旦管理进程失效,整个集群管理系统将都不能工作的问题,保证了服务的正常使用,提高了网管的管理能力。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据相关技术的集群管理系统的部署结构的示意图;
图2是根据本发明实施例的集群管理系统的结构框图;
图3是根据本发明优选实施例的集群管理系统的部署结构的示意图;
图4是根据本发明实施例的集群管理方法的流程图;
图5是根据本发明优选实施例的集群管理方法的交互流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
根据本发明的实施例,提供了一种集群管理系统。图2是根据本发明实施例的集群管理系统的结构框图,包括存储模块22,集群管理模块24和服务管理模块26。下面对其结构进行详细描述。
存储模块22,用于保存多个进程的进程标识和多个进程的通讯地址。
多个集群管理模块24,连接至存储模块22,与多个进程一一对应,其中,多个集群管理模块24中的每个集群管理模块24均用于从存储模块22获取多个进程中除自身对应的进程之外的其它进程的通讯地址,并使用其它进程的通讯地址获取其它进程包含的服务。
多个服务管理模块26,与多个集群管理模块24一一对应,并分别连接至其对应的集群管理模块24,其中,多个服务管理模块26中的每个服务管理模块26均用于管理自身对应的集群管理模块24对应的进程包含的服务,并用于从自身对应的集群管理模块24获取其它进程包含的服务,并用于调用其它进程包含的服务。
相关技术中,集群管理系统采用一个管理进程和多个从进程,这样,一旦管理进程失效,整个集群管理系统将都不能工作。本发明实施例中,采用集群的分布式设计,每个进程可以通过集群管理模块24获取其它进程包含的服务,从而当某个进程失效时,可以选择存在该服务的其它进程,然后,通过调用该其它进程中的该服务,可以保证该服务的正常使用。
需要说明的是,上述存储模块22可以为数据库。
需要说明的是,对于上述服务管理模块26用于管理自身对应的集群管理模块24对应的进程包含的服务,其管理方式可以参考相关技术中管理进程和多个从进程的管理方式。
需要说明的是,为提高负荷,同一个服务在不同进程可能都存在,当有命令发到服务时,由服务管理模块决定发给哪个进程处理。
优选地,上述集群管理系统还包括:多个监听模块28,与多个服务管理模块26一一对应,用于记录自身对应的服务管理模块26获取的其它进程包含的服务的可用信息,其中,可用信息用于指示服务可用或者不可用;多个服务管理模块26中的每个服务管理模块26还用于接收来自自身对应的监听模块28的可用信息,并用于根据可用信息,调用其它进程包含的服务。
本优选实施例中,监听模块28记录了其它进程包含的服务的可用信息,可以为服务管理模块26调用的操作提供支持,以便服务管理模块26选择存在某一服务的其它进程,然后,通过调用该其它进程中的该服务,保证该服务的正常使用。
优选地,上述集群管理系统还包括:多个定时器,与多个集群管理模块24一一对应;多个集群管理模块24中的每个集群管理模块24还用于当自身对应的定时器到时,向多个集群管理模块24中除自身之外的其它集群管理模块24发送检测消息,其中,检测消息用于检测自身与其它集群管理模块24的连接关系;以及多个集群管理模块24中的每个集群管理模块24还用于当检测到没有接收到来自其它集群管理模块24中的一个或多个集群管理模块24的响应消息时,删除一个或多个集群管理模块24对应的进程。
本优选实施例中,集群管理模块24之间通过检测消息进行相互的通讯检测,以便准确删除通讯存在问题的一个或多个集群管理模块24对应的进程。同时,定时器可以用于控制集群管理模块24发送检测消息的频率,从而避免过度频繁的检测消息给通讯网络的冲击。
优选地,多个集群管理模块中的每个集群管理模块24还用于向存储模块22写入自身对应的进程的通讯地址。
本优选实施例中,多个集群管理模块24中的每个集群管理模块24将自身对应的进程的通讯地址写入存储模块22,以便其它集群管理模块24进行获取,有利于各个集群管理模块24对其对应的进程包含的服务进行通讯,实现两两容灾。
优选地,上述集群管理系统还包括判断模块,用于判断所述存储模块是否已经保存有多个进程中的一个或多个进程的进程标识;更新模块,用于在判断结果为是时,更新一个或多个进程的通讯地址,其中,通讯地址包括以下至少之一:互联网协议(InternetProtoco1,简称为IP)地址、监听端口信息。
优选地,多个集群管理模块之间通过用户数据协议(User DateProtocol,简称为UDP)进行通讯。
本优选实施例中,采用无连接的UDP通讯协议,可以减少资源占用。
优选地,多个集群管理模块中的每个集群管理模块还用于管理自身对应的集群管理模块对应的进程包含的服务。
本发明还提供了一个优选实施例,结合了上述多个优选实施例的技术方案,下面结合图3来详细描述。
图3是根据本发明优选实施例的集群管理系统的部署结构的示意图,如图3所示,网管进程A,B,C都连接到同一个数据库,每个网管进程中都包含有集群管理模块,服务管理模块,以及若干服务。每个进程都会监听一个UDP端口,并写入到同一个数据库中。集群管理模块从数据库中获取另外两个进程的IP和端口后,A,B,C相互通讯,获取所有的服务信息,并传给服务管理模块。服务管理模块通知监听模块,现在有a1,a2,b1,b2这些服务可用。当要调用某个服务时,以进程A为例,假定要调用服务b1,由于b1在进程B和C中都提供,服务管理模块按照一定策略调用B或者C中的一个。如有是调用服务b2,那么只能调用到进程B。
进程A,B,C之间还通过集群管理模块定时发送定时检查,如果某个进程意外退出,由服务管理模块将这个进程包含的服务去掉,并通知监听模块某些服务不可用。假定B意外退出,那么要通知监听模块b2不可用,但是b1仍然可用,因为b1在C进程中还存在,对b1的调用可以到C进程。
根据本发明的实施例,还提供了一种集群管理方法,该集群管理方法可以基于上述集群管理系统而实现。图4是根据本发明实施例的集群管理方法的流程图,包括如下的步骤S402至步骤S406。
步骤S402,集群管理模块24从存储模块22获取多个进程中除自身对应的进程之外的其它进程的通讯地址。
步骤S404,集群管理模块24使用其它进程的通讯地址获取其它进程包含的服务,并发送给自身对应的服务管理模块26。
步骤S406,服务管理模块26调用其它进程包含的服务。
相关技术中,集群管理系统采用一个管理进程和多个从进程,这样,一旦管理进程失效,整个集群管理系统将都不能工作。本发明实施例中,采用集群的分布式设计,每个进程可以通过集群管理模块24获取其它进程包含的服务,从而当某个进程失效时,可以选择存在该服务的其它进程,然后,通过调用该其它进程中的该服务,可以保证该服务的正常使用。
需要说明的是,上述存储模块22可以为数据库。
需要说明的是,对于上述服务管理模块26用于管理自身对应的集群管理模块24对应的进程包含的服务,其管理方式可以参考相关技术中管理进程和多个从进程的管理方式。
需要说明的是,上述服务管理模块26还可以管理自身对应的集群管理模块对应的进程包含的服务。
优选地,在服务管理模块26调用其它进程包含的服务之前,监听模块28记录自身对应的服务管理模块26获取的其它进程包含的服务的可用信息,其中,可用信息用于指示服务可用或者不可用;监听模块28向服务管理模块26发送可用信息;服务管理模块26根据可用信息,执行调用其它进程包含的服务的操作。
本优选实施例中,监听模块28记录了其它进程包含的服务的可用信息,可以为服务管理模块26调用的操作提供支持,以便服务管理模块26选择存在某一服务的其它进程,然后,通过调用该其它进程中的该服务,保证该服务的正常使用。
优选地,在集群管理模块24从存储模块22获取多个进程中除自身对应的进程之外的其它进程的通讯地址之前,集群管理模块24当自身对应的定时器到时,向多个集群管理模块24中除自身之外的其它集群管理模块24发送检测消息,其中,检测消息用于检测自身与其它集群管理模块24的连接关系;集群管理模块24当检测到没有接收到来自其它集群管理模块24中的一个或多个集群管理模块24的响应消息时,删除一个或多个集群管理模块24对应的进程。
本优选实施例中,集群管理模块24之间通过检测消息进行相互的通讯检测,以便准确删除通讯存在问题的一个或多个集群管理模块24对应的进程。同时,定时器可以用于控制集群管理模块24发送检测消息的频率,从而避免过度频繁的检测消息给通讯网络的冲击。
优选地,在集群管理模块24从存储模块22获取多个进程中除自身对应的进程之外的其它进程的通讯地址之前,集群管理模块24向存储模块22写入自身对应的进程的通讯地址。
本优选实施例中,多个集群管理模块24中的每个集群管理模块24将自身对应的进程的通讯地址写入存储模块22,以便其它集群管理模块24进行获取,有利于各个集群管理模块24对其对应的进程包含的服务进行通讯,实现两两容灾。
优选地,集群标识是安装的时候生成,属于同一个集群的多个进程共同提供一套网管对外的服务,它们的集群标识相同。
优选地,进程标识是安装时候生成,每个进程的标识都不一样。进程可能是重启,本进程的信息已经存在存储模块用,用进程标识判断本进程信息是否已经存在,如果存在则更新一下本进程的IP,端口信息。
本发明还提供了一个优选实施例,结合了上述多个优选实施例的技术方案,下面结合图5来详细描述。
图5是根据本发明优选实施例的集群管理方法的交互流程图,包括如下的步骤S502至步骤S516。
步骤S502,A进程启动后查询数据库,用集群标识和进程标识判断A进程信息是否存在。
其中,进程标识,集群标识都是在安装的时候生成,进程标识对于每个进程都不同,集群标识在同一个集群内相同。
如果存在则更新进程的通讯IP和进程的监听端口信息,如果不存在则将A进程的集群标识、进程标识、进程的通讯IP和进程的监听端口信息写入数据库,并获取本集群的其它进程的信息。
具体地,数据库表可按照下表1进行设计,以便A进程的写入。
表1用于写入集群标识、进程标识、进程的通讯IP和进程的监听端口的数据库的示意表
  CLUSTERID   集群标识(字符串)
  NODEID   进程标识(字符串)
  IP   进程的通讯IP(字符串)
  PORT   进程的监听端口(数值)
步骤S504,A进程向本集群内其它进程发送请求消息。
需要说明的是,本优选实施例中假定是A进程向B进程发送UDP请求消息。
如果采用TCP连接,进程两两建立连接,连接总数为n*(n-1),在进程数比较多的情况下连接总数太多,会消耗很多系统资源,所以这里无连接的UDP方式传送命令。UDP带来的问题是消息可能在传送中丢失,解决方式是重传数据包,即发送一个包后等待对方确认才发送下一包,若到一定时间仍然未收到确认,重传这一包数据,若重传几次仍然没有收到确认,认为对方不通,放弃发送。下面的命令都是假定UDP传送,其处理方式相同,不再重述。
步骤S506,如果B进程正常,那么B进程会发送一个响应消息,该响应消息的内容为B进程包含的服务信息。
步骤S508,A进程向B进程发送自身包含的服务信息。
步骤S510,A进程通知监听模块,B进程中的这些服务可用。
步骤S512,B进程通知监听模块,A进程中的这些服务可用。
步骤S514,A进程向B进程发送定时检查命令。
步骤S516,B进程向A进程返回定时检查响应。
如果A进程连续几次发送定时检查命令都没有收到定时检查响应,则A进程先判定B进程已经意外退出,然后从服务管理模块将B进程包含的服务删除,并通知监听模块这些B进程包含的服务不可用。
需要说明的是,在上述A进程连续几次发送定时检查命令都没有收到定时检查响应的情况下,还可能是A进程和B进程之间的网络断开。对于这种情况,B进程也会出现连续几次发送定时检查命令都没有收到来自A进程的定时检查响应的情况,则B进程也判定A进程不可用。此时,A进程和B进程事实上都存在,都可能单独提供部分服务功能,但彼此之间孤立,不能互相调用。
需要说明的是,本优选实施例仅仅描述了两个进程之间的交互情况。实际应用中,多个进程之间的交互情况都可以参照上述两个进程之间的交互情况,从而实现多个进程共同完成整个集群的管理。
因此,本优选实施例可以实现如下的技术效果:
1)进程间两两互相通讯,任一进程出现问题,其它进程还可以正常工作,集群中的其它服务还可以使用。
2)可以在运行期间,加入新进程,做到动态扩容。可以增加新的服务功能,也可以增加与现有相同的服务,对现有服务分担负荷。
3)服务变为可用和不可用,上层应用都能得到通知,因此上层应用可以做处理,如重传服务不可用期间数据,以保证数据完整性。
4)集群内进程间通讯采用UDP通讯,与另外一种采用广播消息通讯的集群技术相比,广播消息要求各个机器在一个子网内,而本方案不受限制。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
综上所述,根据本发明的上述实施例,提供了一种集群管理系统及方法,采用集群的分布式设计,解决了相关技术中集群管理系统采用一个管理进程和多个从进程,一旦管理进程失效,整个集群管理系统将都不能工作的问题,保证了服务的正常使用,提高了网管的管理能力。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种集群管理系统,其特征在于,包括:
存储模块,用于保存多个进程的进程标识和所述多个进程的通讯地址;
多个集群管理模块,与所述多个进程一一对应,其中,所述多个集群管理模块中的每个集群管理模块均用于从所述存储模块获取所述多个进程中除自身对应的进程之外的其它进程的通讯地址,并使用所述其它进程的通讯地址获取所述其它进程包含的服务;
多个服务管理模块,与所述多个集群管理模块一一对应,其中,所述多个服务管理模块中的每个服务管理模块均用于从自身对应的集群管理模块获取所述其它进程包含的服务,并用于调用所述其它进程包含的所述服务;
多个定时器,与所述多个集群管理模块一一对应;
所述多个集群管理模块中的每个集群管理模块还用于当自身对应的定时器到时,向所述多个集群管理模块中除自身之外的其它集群管理模块发送检测消息,其中,所述检测消息用于检测自身与所述其它集群管理模块的连接关系;以及
所述多个集群管理模块中的每个集群管理模块还用于当检测到没有接收到来自所述其它集群管理模块中的一个或多个集群管理模块的响应消息时,删除所述一个或多个集群管理模块对应的进程。
2.根据权利要求1所述的系统,其特征在于,还包括:
多个监听模块,与所述多个服务管理模块一一对应,用于记录自身对应的服务管理模块获取的所述其它进程包含的服务的可用信息,其中,所述可用信息用于指示所述服务可用或者不可用;
所述多个服务管理模块中的每个服务管理模块还用于接收来自自身对应的监听模块的可用信息,并用于根据所述可用信息,调用所述其它进程包含的所述服务。
3.根据权利要求1所述的系统,其特征在于,所述多个集群管理模块中的每个集群管理模块还用于向所述存储模块写入自身对应的进程的通讯地址。
4.根据权利要求1所述的系统,其特征在于,还包括:
判断模块,用于判断所述存储模块是否已经保存有所述多个进程中的一个或多个进程的进程标识;
更新模块,用于在判断结果为是时,更新所述一个或多个进程的所述通讯地址,其中,所述通讯地址包括以下至少之一:互联网协议IP地址、监听端口信息。
5.根据权利要求1所述的系统,其特征在于,所述多个集群管理模块之间通过用户数据协议UDP进行通讯。
6.根据权利要求1所述的系统,其特征在于,所述多个集群管理模块中的每个集群管理模块还用于管理自身对应的集群管理模块对应的进程包含的服务。
7.一种集群管理方法,其特征在于,包括:
集群管理模块从存储模块获取多个进程中除自身对应的进程之外的其它进程的通讯地址;
所述集群管理模块使用所述其它进程的通讯地址获取所述其它进程包含的服务,并发送给自身对应的服务管理模块;
所述服务管理模块调用所述其它进程包含的所述服务;
在所述集群管理模块从所述存储模块获取所述多个进程中除自身对应的进程之外的其它进程的通讯地址之前,还包括:
所述集群管理模块当自身对应的定时器到时,向所述多个集群管理模块中除自身之外的其它集群管理模块发送检测消息,其中,所述检测消息用于检测自身与所述其它集群管理模块的连接关系;
所述集群管理模块当检测到没有接收到来自所述其它集群管理模块中的一个或多个集群管理模块的响应消息时,删除所述一个或多个集群管理模块对应的进程。
8.根据权利要求7所述的方法,其特征在于,在所述服务管理模块调用所述其它进程包含的所述服务之前,还包括:
监听模块记录自身对应的服务管理模块获取的所述其它进程包含的服务的可用信息,其中,所述可用信息用于指示所述服务可用或者不可用;
所述监听模块向所述服务管理模块发送所述可用信息;
所述服务管理模块根据所述可用信息,执行调用所述其它进程包含的所述服务的操作。
9.根据权利要求7所述的方法,其特征在于,在所述集群管理模块从所述存储模块获取所述多个进程中除自身对应的进程之外的其它进程的通讯地址之前,还包括:
所述集群管理模块向所述存储模块写入自身对应的进程的通讯地址。
CN201010236219.3A 2010-07-21 2010-07-21 集群管理系统及方法 Expired - Fee Related CN102340410B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201010236219.3A CN102340410B (zh) 2010-07-21 2010-07-21 集群管理系统及方法
EP10854966.8A EP2597818A4 (en) 2010-07-21 2010-12-28 SYSTEM AND METHOD FOR MANAGING CLUSTERS
US13/811,371 US20130139178A1 (en) 2010-07-21 2010-12-28 Cluster management system and method
PCT/CN2010/080402 WO2012009936A1 (zh) 2010-07-21 2010-12-28 集群管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010236219.3A CN102340410B (zh) 2010-07-21 2010-07-21 集群管理系统及方法

Publications (2)

Publication Number Publication Date
CN102340410A CN102340410A (zh) 2012-02-01
CN102340410B true CN102340410B (zh) 2014-09-10

Family

ID=45496471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010236219.3A Expired - Fee Related CN102340410B (zh) 2010-07-21 2010-07-21 集群管理系统及方法

Country Status (4)

Country Link
US (1) US20130139178A1 (zh)
EP (1) EP2597818A4 (zh)
CN (1) CN102340410B (zh)
WO (1) WO2012009936A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102710452B (zh) * 2012-06-26 2014-12-17 深圳市华力特电气股份有限公司 一种管理多客户端访问的方法和装置
CN102891904A (zh) * 2012-09-07 2013-01-23 佳都新太科技股份有限公司 一种在集群系统里实现快速FailOver的方法
CN104753689B (zh) * 2013-12-30 2018-05-11 成都鼎桥通信技术有限公司 一种宽带集群通信系统的用户管理方法
CN107547215A (zh) * 2016-06-23 2018-01-05 中兴通讯股份有限公司 一种网络管理方法及子网管理器
CN106354870B (zh) * 2016-09-18 2019-07-12 中国科学院计算技术研究所 一种数据加载的方法和设备
CN106547634B (zh) * 2016-11-28 2020-07-31 武汉斗鱼网络科技有限公司 一种跨进程通信的方法及装置
CN110347694B (zh) * 2019-07-12 2022-03-25 中国工商银行股份有限公司 一种基于物联网的设备监控方法、装置及系统
US11221906B2 (en) * 2020-01-10 2022-01-11 International Business Machines Corporation Detection of shared memory faults in a computing job
JP2023104302A (ja) * 2022-01-17 2023-07-28 株式会社日立製作所 クラスタシステム、復旧方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0511925A2 (en) * 1991-04-30 1992-11-04 International Business Machines Corporation Dynamic backup and recovery of focal points in a computer network
CN1719831A (zh) * 2005-07-15 2006-01-11 清华大学 基于集群路由器结构的高可用分布式边界网关协议系统
CN101605089A (zh) * 2008-06-11 2009-12-16 华为技术有限公司 Bgp动态迁移方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001031848A2 (en) * 1999-10-27 2001-05-03 Nortel Networks Limited Managed network node including multiple managed resources
US7185076B1 (en) * 2000-05-31 2007-02-27 International Business Machines Corporation Method, system and program products for managing a clustered computing environment
US7590985B1 (en) * 2002-07-12 2009-09-15 3Par, Inc. Cluster inter-process communication transport
US7801857B2 (en) * 2003-12-19 2010-09-21 Solace Systems, Inc. Implicit routing in content based networks
US8533808B2 (en) * 2006-02-02 2013-09-10 Check Point Software Technologies Ltd. Network security smart load balancing using a multiple processor device
CN101349974B (zh) * 2007-07-16 2011-07-13 中兴通讯股份有限公司 一种分布式系统中提高多核cpu处理能力的方法
JP5130997B2 (ja) * 2008-03-31 2013-01-30 日本電気株式会社 分散リソース管理システム、分散リソース管理方法、及び分散リソース管理プログラム
CN101482829A (zh) * 2009-01-22 2009-07-15 华为技术有限公司 集群系统、处理装置及集群系统冗余方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0511925A2 (en) * 1991-04-30 1992-11-04 International Business Machines Corporation Dynamic backup and recovery of focal points in a computer network
CN1719831A (zh) * 2005-07-15 2006-01-11 清华大学 基于集群路由器结构的高可用分布式边界网关协议系统
CN101605089A (zh) * 2008-06-11 2009-12-16 华为技术有限公司 Bgp动态迁移方法和装置

Also Published As

Publication number Publication date
EP2597818A1 (en) 2013-05-29
US20130139178A1 (en) 2013-05-30
WO2012009936A1 (zh) 2012-01-26
CN102340410A (zh) 2012-02-01
EP2597818A4 (en) 2015-01-07

Similar Documents

Publication Publication Date Title
CN102340410B (zh) 集群管理系统及方法
US8073420B2 (en) Sensor net management method
US8838703B2 (en) Method and system for message processing
US9125044B2 (en) Method for generating and registering identification in wireless sensor network
CN101848107B (zh) Snmp网元及snmp网元与私有协议网元通信的方法
CN108924274B (zh) 域名系统dns处理方法、装置、存储介质及电子设备
CN101257406B (zh) 网元发现方法和系统
CN108363653A (zh) 监控系统的部署方法、装置、计算机设备及存储介质
WO2014056345A1 (zh) 监控任务的管理方法及装置
CN104579889A (zh) 一种用于调用网络功能的方法及装置
CN104936202A (zh) 基于CoAP协议的6LoWPAN无线传感网络管理系统
CN1781282A (zh) 一种ad-hoc网络,一种网络设备及其配置管理的方法
US9661597B2 (en) Method and device for deregistering terminal peripheral
CN109831473A (zh) 物流服务提供方法及设备
WO2014067319A1 (zh) 机器类型通信系统中终端外设注销方法及装置、网关
JP3730545B2 (ja) サービス制御アプリケーション実行方法及びシステム
CN103327643B (zh) 微波网元及微波网元间的信息传输方法、装置
CN111083182B (zh) 分布式物联网设备管理方法及装置
JP2003140986A (ja) 遠隔監視システムおよび通信制御方法
CN113904953B (zh) 通信设备的离线检测方法、装置和设备
CN104080099A (zh) 一种无线控制器通信方法及无线控制器
CN112887450B (zh) 一种物联网设备的通讯地址配置方法和装置
CN115086173B (zh) 网络升级过程中的可靠性保障方法和装置
CN101437267B (zh) 逻辑资源归属控制设备更新方法、装置及通信系统
WO2022254517A1 (ja) 通信システム及び通信制御方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20171017

Address after: 510000 unit 2414-2416, building, No. five, No. 371, Tianhe District, Guangdong, China

Patentee after: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Address before: 518057 Nanshan District science and technology, Guangdong Province, South Road, No. 55, No.

Patentee before: ZTE Corp.

CB03 Change of inventor or designer information

Inventor after: Yang Yuandan

Inventor before: Hu Liangjun

Inventor before: Quan Rui

CB03 Change of inventor or designer information
TR01 Transfer of patent right

Effective date of registration: 20171023

Address after: 200000 building 218, No. 1, West Tianmu Road, Shanghai, Jingan District, 21

Patentee after: SHANGHAI FUTIAN QUANTUM TECHNOLOGY Co.,Ltd.

Address before: 510000 unit 2414-2416, building, No. five, No. 371, Tianhe District, Guangdong, China

Patentee before: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140910

CF01 Termination of patent right due to non-payment of annual fee