CN102412988A - 一种业务信息系统及其实现持续运营的方法 - Google Patents

一种业务信息系统及其实现持续运营的方法 Download PDF

Info

Publication number
CN102412988A
CN102412988A CN2011103584792A CN201110358479A CN102412988A CN 102412988 A CN102412988 A CN 102412988A CN 2011103584792 A CN2011103584792 A CN 2011103584792A CN 201110358479 A CN201110358479 A CN 201110358479A CN 102412988 A CN102412988 A CN 102412988A
Authority
CN
China
Prior art keywords
node
main equipment
configuration file
cluster
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103584792A
Other languages
English (en)
Inventor
戴文军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN2011103584792A priority Critical patent/CN102412988A/zh
Publication of CN102412988A publication Critical patent/CN102412988A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明披露了一种业务信息系统及其实现持续运营的方法,其中系统包括:管理控制装置将系统运行相同或者不同用户业务的多个设备节点按相同或不同的业务运行组配置成一个或多个设备集群,并启动设备集群;设备集群在启动后从本集群多个设备节点中选出一主设备节点。本发明利用现有的业务信息系统的用户单位原本就存在的诸多服务器设备,为这些服务器设备节点构成多个业务集群,因而能够在确保用户业务持续运营的基础上,降低用户投资、管理的复杂度和维护的费用。

Description

一种业务信息系统及其实现持续运营的方法
技术领域
本发明涉及计算机网络技术领域,尤其涉及业务信息系统及其实现持续运营的方法。
背景技术
随着信息化建设的不断推进,各个企业事业单位的活动越来越多地依赖于其关键的业务信息系统,这些业务信息系统对整个机构的运营和发展起着至关重要的作用,一旦发生宕机故障或者业务应用故障,将会给整个机构带来巨大的经济损失。由此可见,对于那些需要保障信息安全和提供不间断的信息服务的机构来说,业务系统的容错性和不间断性显得尤为重要。
如何保障各种关键业务持续运营,达到有序经营的良性循环,已成为当今企业事业单位和IT领域急需解决的关键问题。
目前要解决上述问题常用的保护方式是通过1+1热备来实现业务运营的高可用。1+1热备构建需要备份服务器与主应用服务器一比一地构建,备份服务器在主应用服务器正常时处于启动状态,但未激活相对应业务所需要的资源。主应用服务器在发生故障时,备份服务器接管只在主应用服务器上才有的业务所需要的资源,继续提供业务。由于1+1热备需要用户一比一地配置备份服务器,这对于用户投资和后期管理、能耗等方面都是一个比较大的问题。
因此,需要提供一种系统和方法,能够在确保用户业务持续运营的基础上,降低用户投资、管理的复杂度和维护的费用。
发明内容
本发明所要解决的技术问题是提供一种业务信息系统及其实现持续运营的方法,能够在确保用户业务持续运营的基础上降低用户投资费用。
为了解决上述技术问题,本发明提供了一种业务信息系统,包括管理控制装置和设备集群,其中:
管理控制装置,用于将系统运行相同或者不同用户业务的多个设备节点按相同或不同的业务运行组配置成一个或多个设备集群,并启动设备集群;
设备集群,用于在启动后从本集群多个设备节点中选出一主设备节点。
进一步地,
设备集群还通过选出的主设备节点获取本集群中所有需要运行的业务运行组的状态,根据获取的状态启动需要运行但未启动的业务运行组的设备节点运行。
进一步地,管理控制装置包括依次连接的集群配置模块和节点通信模块,其中:
集群配置模块,用于将系统中多个设备节点按业务运行组配置成设备集群,将按设备节点加入系统的顺序排列的所有设备节点的优先级随设备节点的IP地址一起记载在形成的配置文件中输出给节点通信模块;
节点通信模块,用于根据每一设备集群的配置文件中包含的所有设备节点的优先级和IP地址,将该配置文件传输给相应的设备集群中优先级最高的设备节点,同时发出启动集群的命令。
进一步地,设备节点中嵌入的实现持续业务运营装置包括信息发送/接收模块、从属集群识别模块以及主设备节点选举模块,其中:
信息发送/接收模块,用于在接收到发送的配置文件后,将本设备集群内所有运行的设备节点的名称和所述配置文件分别组装在第一消息的两个域中,然后将第一消息和启动集群命令广播到设备集群中;将收到的第一消息输出给从属集群识别模块,并在收到启动集群命令时将包含本设备节点优先级的配置文件及其版本号组装在第二消息相应的域广播到设备集群中;将收到的所有的第二消息输出给主设备节点选举模块;
从属集群识别模块,用于解析输入的第一消息相应的域,如果查询到设备节点的名称包含本设备节点的名称,则识别本设备节点属于接收的配置文件对应的设备集群,将该配置文件及其版本号保存;
主设备节点选举模块,用于根据从接收的所有的第二消息相应的域中解析出的配置文件及其版本号选举出本设备集群中的主设备节点。
进一步地,
主设备节点选举模块分别将所有设备节点的优先级以及所有配置文件版本号相应地进行一一比对,将设备节点的优先级最高且配置文件版本最新的设备节点选举为所述主设备节点;如果选出的主设备节点为本设备节点,在配置文件中设置所属设备集群的IP地址,并记录主设备节点的标识,并该将配置文件输出给信息发送/接收模块;如果选出的主设备节点不为本设备节点,则从输入的第三消息相应的域解析出配置文件,根据该配置文件设置主设备节点的标识;
信息发送/接收模块将输入的配置文件组装在第三消息相应的域广播到设备集群中;将收到的第三消息输出给主设备节点选举模块。
进一步地,实现持续业务运营装置实施例还包括运行设备节点查找模块,其中:
主设备节点选举模块如果选出的主设备节点为本设备节点,根据输入的第三消息向运行设备节点查找模块输出启动运行组命令;
运行设备节点查找模块,用于根据启动运行组命令获取本集群中所有需要运行的业务运行组的状态,根据该状态确认其中待启动的业务运行组;根据设定的业务组运行的顺序,依次判断设备节点上运行的业务组是否与该待启动的业务组相冲突,直至找到有设备节点运行的业务组不与该待启动的业务组相冲突,则向信息发送/接收模块输出启动业务组命令;
信息发送/接收模块根据启动业务组命令向相应的一个或多个设备节点发出启动业务组指令;根据收到的启动业务组指令设置需要的资源,并启动运行相应的业务。
进一步地,
运行设备节点查找模块若查询所有设备节点运行的业务组均与该待启动的业务组相冲突,则设置该业务组的状态为停运状态,并随后定期地继续查找适合启动运行该业务组的设备节点。
进一步地,实现持续业务运营装置实施例还包括资源监控模块,其中:
信息发送/接收模块在启动本设备节点运行业务的同时,向资源监控模块输出业务组资源监控命令;
资源监控模块,用于根据业务组资源监控命令对启动运行该业务设置的资源进行监控,若发现被监控的资源失效,根据预设策略确定针对该失效资源的措施。
进一步地,
资源监控模块确定针对失效资源的措施所依据的预设策略,包括资源失效时是否可重复启动、重复启动资源的次数限制、重复启动资源的时间间隔以及可设置的资源阈限中的一种或多种;若发现被监控的资源失效,则根据该资源可重复启动策略再次启动该资源;当资源再次启动失败时,向信息发送/接收模块输出组资源异常信息;
信息发送/接收模块根据组资源异常信息向主设备节点发出业务组资源异常消息;接收到组资源异常消息的主设备节点向发出该消息的设备节点发出停止运行业务组指令,同时向运行设备节点查找模块输出查找业务组运行设备节点命令;接收到停止业务组运行指令的所述设备节点关闭业务运行需要的所有资源;
运行设备节点查找模块根据输入的查找业务组运行设备节点命令查找可运行该业务组的设备节点,直至找到有设备节点运行的业务组不与该业务组相冲突,则向信息发送/接收模块输出启动业务组命令。
进一步地,
信息发送/接收模块还定期地向其它设备节点发送心跳测试指令,若在规定的时间未收到其它设备节点返回的心跳响应指令,并若判断发生故障的是主设备节点,则将包含本设备节点优先级的配置文件及其版本号组装在第二消息相应的域广播到设备集群中,重新动主设备节点的选举;若判断发生故障的不是主设备节点,则通过运行设备节点查找模块将运行在该发生故障的设备节点上的所有业务组运行到其它设备节点上。
为了解决上述技术问题,本发明提供了一种业务信息系统实现持续运营的方法,包括:
管理控制装置将系统运行相同或者不同用户业务的多个设备节点按相同或不同的业务运行组配置成一个或多个设备集群,并启动设备集群;
启动后的设备集群从本集群多个设备节点中选出一主设备节点。
进一步地,该方法还包括:
设备集群通过主设备节点获取本集群中所有需要运行的业务运行组的状态,根据获取的状态启动需要运行但未启动的业务运行组的设备节点运行。
进一步地,管理控制装置将系统运行相同或者不同用户业务的多个设备节点按相同或不同的业务运行组配置成一个或多个设备集群,并启动设备集群,具体包括:
将系统中多个设备节点按业务运行组配置成设备集群,并将按设备节点加入系统的顺序排列的所有设备节点的优先级随设备节点的IP地址一起记载在形成的配置文件中;
根据配置文件中的所有设备节点的优先级和IP地址,将该配置文件传输给相应的设备集群中优先级最高的设备节点,同时发出启动集群的命令。
进一步地,启动后的所述设备集群从本集群多个设备节点中选出一主设备节点,具体包括:
设备集群中优先级最高的设备节点接收到配置文件后,将本集群内所有运行设备节点的名称和配置文件分别组装在第一消息的两个域中,将第一消息和启动集群命令一起广播到所述设备集群中;
收到第一消息的设备节点解析该消息相应的域,如果查询到设备节点的名称中包含本设备节点的名称,则识别本设备节点属于接收的配置文件对应的设备集群,将该配置文件及其版本号保存;根据收到的启动集群命令将包含本设备节点优先级的配置文件及其版本号组装在第二消息相应的域广播到设备集群中;
收到第二消息的设备节点根据从该消息相应的域中解析出的配置文件及其版本号选举出设备集群中的主设备节点。
进一步地,设备节点根据从该消息相应的域中解析出的配置文件及其版本号选举出设备集群中的主设备节点,具体包括:
将所有设备节点的优先级以及所有配置文件版本号相应地进行一一比对,选取设备节点的优先级最高且相应的配置文件版本最新的设备节点为主设备节点;
如果选出的主设备节点为本设备节点,则在配置文件中设置所属设备集群的IP地址,并记录主设备节点的标识,并将该配置文件组装在第三消息相应的域广播到设备集群中;
未被选为主设备节点的设备节点从接收的第三消息相应的域解析出配置文件,根据该配置文件设置主设备节点的标识。
进一步地,设备集群通过所述主设备节点获取本集群中所有需要运行的业务运行组的状态,根据获取的状态启动其中未启动的业务运行组的设备节点运行,具体包括:
主设备节点获取本集群中所有需要运行的业务运行组的状态,根据该状态确认其中待启动的业务运行组;根据设定的业务组运行的顺序,依次判断设备节点上运行的业务组是否与该待启动的业务组相冲突,直至找到有设备节点运行的业务组不与该待启动的业务组相冲突,则向相应的一个或多个设备节点发出启动业务组指令;
收到启动业务组指令的设备节点设置运行业务组需要的资源,并启动运行相应的业务。
进一步地,该方法还包括:
主设备节点若查询所有设备节点运行的业务组均与该待启动的业务组相冲突,则设置该业务组的状态为停运状态,并随后定期地继续查找适合启动运行该业务组的设备节点。
进一步地,该方法还包括:
设备节点对启动运行相应的业务所设置的资源进行监控,若发现监控的资源失效,根据预设策略确定针对该失效资源采取的措施。
进一步地,该方法还包括:
每一设备节点定期地向其它设备节点发送心跳测试指令,若在规定的时间未收到其它设备节点返回的心跳响应指令,并若判断发生故障的是主设备节点,则将包含本设备节点优先级的所述配置文件及其版本号组装在第二消息相应的域广播到设备集群中,重新启动主设备节点的选举;若判断发生故障的不是主设备节点,则通过主设备节点将运行在该发生故障的设备节点上的所有业务组运行到其它设备节点上。
本发明利用现有的业务信息系统的用户单位原本就存在的诸多服务器设备,为这些服务器设备节点构成多个业务集群,因而能够在确保用户业务持续运营的基础上,降低用户投资、管理的复杂度和维护的费用。
附图说明
图1为本发明的业务信息系统实施例的结构示意图;
图2为图1所示的业务信息系统实施例中管理控制装置实施例的结构示意图;
图3为图1所示的设备集群的设备节点中实现持续业务运营装置实施例的结构示意图。
具体实施方式
以下结合附图和优选实施例对本发明的技术方案进行详细地阐述。应该理解,下面例举的实施例仅用于说明和解释本发明,而不构成对本发明技术方案的限制。
如图1所示,是本发明提供的业务信息系统实施例的结构,至少包括管理控制装置和设备集群,其中:
管理控制装置,用于将系统运行相同或者不同用户业务的多个设备节点按相同或不同的业务运行组配置成一个或多个设备集群,并启动设备集群;
设备集群,用于在启动后从本集群多个设备节点中选出一主设备节点。
在上述系统实施例中,
设备集群还通过选出的主设备节点获取本集群中所有需要运行的业务运行组的状态,根据获取的状态启动其中未启动的业务运行组的设备节点运行。
上述系统实施例中,还包括交换机,用于管理控制装置通过传输控制协议和网间协议(TCP/IP,Transmission Control Protocol/Internet Protocol)与设备集群中的设备节点通信。
在上述系统实施例中,管理控制装置进一步包括依次连接的集群配置模块110和节点通信模块120,其中:
集群配置模块110,用于将系统中多个设备节点按业务运行组配置成设备集群,将按设备节点加入系统的顺序排列的设备节点的优先级随设备节点的IP地址一起记载在配置文件中输出给节点通信模块120;
节点通信模块120,用于根据每一设备集群的配置文件中的所有设备节点及其优先级和IP地址,将该配置文件传输给相应的设备集群中优先级最高的设备节点,同时发出启动集群的命令。
在上述系统实施例中,
设备节点的优先级即由集群配置模块110记录的设备节点加入系统的顺序。用户(业务信息系统的维护人员)通过该集群配置模块110可以人为地调整设备节点在设备集群中的优先级。
根据设备节点的使用频度高或者设备节点处于长期开机运行状态,需要人为地调整其在设备集群中的优先级为高。
图1所示的系统实施例中,管理控制装置与设备集群的关系仅仅是一种逻辑关系,实际上管理控制装置在物理上可以是运行在任意一个设备集群的设备节点内的软件装置(譬如一个软件平台),也可以是在一个专用的服务器上运行的管理控制装置软件。
在上述系统实施例中,嵌入在设备集群的设备节点中的本发明的实现持续业务运营装置实施例,其结构如图3所示,包括信息发送/接收模块210、从属集群识别模块220以及主设备节点选举模块230,其中:
信息发送/接收模块210,用于在优先级最高时接收到管理控制装置发送的配置文件,将本设备集群内所有运行的设备节点的名称和配置文件分别组装在第一消息的两个域中,然后将第一消息和启动集群命令广播到设备集群中;将收到的第一消息输出给从属集群识别模块220,并在收到启动集群命令时将包含本设备节点优先级的配置文件及其版本号组装在第二消息相应的域广播到设备集群中;将收到的所有的第二消息输出给主设备节点选举模块230;
从属集群识别模块220,用于解析输入的第一消息相应的域,如果查询到设备节点名称包含本设备节点的名称,则识别本设备节点属于接收的配置文件对应的设备集群,将该配置文件及其版本号保存;
主设备节点选举模块230,用于根据从所有的第二消息相应的域中解析出的配置文件及其版本号选举出设备集群中的主设备节点。
在上述系统实施例中,
主设备节点选举模块230分别将所有设备节点的优先级以及所有配置文件版本号相应地进行一一比对,将设备节点的优先级最高且配置文件版本最新的设备节点选举为主设备节点;如果选出的主设备节点为本设备节点,在配置文件中设置所属设备集群的IP地址,并记录主设备节点的标识,并该将配置文件输出给信息发送/接收模块210;如果选出的主设备节点不为本设备节点,则从输入的第三消息相应的域解析出配置文件,根据该配置文件设置主设备节点的标识;
信息发送/接收模块210将该配置文件组装在第三消息相应的域广播到设备集群中;将收到的第三消息输出给主设备节点选举模块230。
在上述系统实施例中,实现持续业务运营装置实施例还包括运行设备节点查找模块240,其中:
主设备节点选举模块230如果选出的主设备节点为本设备节点,根据输入的第三消息向运行设备节点查找模块240输出启动运行组命令;
运行设备节点查找模块240,用于根据输入的启动运行组命令获取本集群中所有需要运行的业务运行组的状态,根据该状态确认其中待启动的业务运行组;根据设定的业务组运行的顺序,依次判断设备节点上运行的业务组是否与该待启动的业务组相冲突,直至找到有设备节点运行的业务组不与该待启动的业务组相冲突,则向信息发送/接收模块210输出启动业务组命令;
信息发送/接收模块210根据输入的启动业务组命令向相应的一个或多个设备节点发出启动业务组指令;根据收到的启动业务组指令设置需要的资源,并启动运行相应的业务。
在上述系统实施例中,
运行设备节点查找模块240若查询所有设备节点运行的业务组均与该待启动的业务组相冲突,则设置该业务组的状态为停运状态,并随后定期地继续查找适合启动运行该业务组的设备节点。
在上述系统实施例中,实现持续业务运营装置实施例还包括资源监控模块250,其中:
信息发送/接收模块210在启动本设备节点运行业务的同时,向资源监控模块250输出业务组资源监控命令;
资源监控模块250,用于根据输入的业务组资源监控命令对启动运行该业务设置的资源进行监控,若发现被监控的资源失效,根据预设策略确定针对该失效资源的措施。
在上述系统实施例中,
资源监控模块250确定针对失效资源的措施所依据的预设策略,包括资源失效时是否可重复启动、重复启动资源的次数限制、重复启动资源的时间间隔以及可设置的资源阈限中的一种或多种;若发现被监控的资源失效,则根据该资源可重复启动策略再次启动该资源。
在上述系统实施例中,
资源监控模块250在资源再次启动失败时,向信息发送/接收模块210输出组资源异常信息;
信息发送/接收模块210根据输入的组资源异常信息向主设备节点发出业务组资源异常消息;接收到组资源异常消息的主设备节点向发出该消息的设备节点发出停止运行业务组指令,同时向运行设备节点查找模块240输出查找业务组运行设备节点命令;接收到停止业务组运行指令的设备节点关闭业务运行需要的所有资源;
运行设备节点查找模块240根据输入的查找业务组运行设备节点命令查找可运行该业务组的设备节点,直至找到有设备节点运行的业务组不与该业务组相冲突,则向信息发送/接收模块210输出启动业务组命令。
在上述系统实施例中,
信息发送/接收模块210还用于定期地向其它设备节点发送心跳测试指令,若在规定的时间未收到其它设备节点返回的心跳响应指令,并若判断发生故障的是主设备节点,将包含本设备节点优先级的配置文件及其版本号组装在第二消息相应的域广播到设备集群中,重新动主设备节点的选举;若判断发生故障的不是主设备节点,则通过运行设备节点查找模块240将运行在该发生故障的设备节点上的所有业务组运行到其它设备节点上。
本发明针对上述系统实施例,相应地还提供了业务信息系统实现持续运营的方法实施例,包括:
管理控制装置将系统运行相同或者不同用户业务的多个设备节点按相同或不同的业务运行组配置成一个或多个设备集群,并启动设备集群;
启动后的设备集群从本集群多个设备节点中选出一主设备节点。
上述方法实施例还包括:
设备集群通过选出的主设备节点获取本集群中所有需要运行的业务运行组的状态,根据获取的状态启动其中未启动的业务运行组的设备节点运行。
在上述方法实施例中,管理控制装置将系统运行相同或者不同用户业务的多个设备节点按相同或不同的业务运行组配置成一个或多个设备集群,并启动设备集群,具体包括:
将系统中多个设备节点按业务运行组配置成设备集群,并将按设备节点加入系统的顺序排列的所有设备节点的优先级随设备节点的IP地址一起记载在形成的配置文件中;
根据配置文件中至少包含的所有设备节点及其优先级和IP地址,将该配置文件传输给相应的设备集群中优先级最高的设备节点,同时发出启动集群的命令;其中设备节点的优先级即设备节点加入系统的顺序。
在上述方法实施例中,启动后的设备集群从本集群多个设备节点中选出一主设备节点,具体包括:
设备集群中优先级最高的设备节点接收到配置文件后,将本集群内所有运行设备节点的名称和配置文件分别组装在第一消息的两个域中,将第一消息和启动集群命令一起广播到设备集群中;
收到第一消息的设备节点解析该消息相应的域,如果查询到设备节点的名称中包含本设备节点的名称,则识别本设备节点属于接收的配置文件对应的设备集群,便将该配置文件及其版本号保存;根据收到的启动集群命令将包含本设备节点优先级的配置文件及其版本号组装在第二消息相应的域广播到设备集群中;
收到第二消息的设备节点根据从该消息相应的域中解析出的配置文件及其版本号选举出设备集群中的主设备节点。
在上述方法实施例中,收到第二消息的设备节点根据从该消息相应的域中解析出的配置文件及其版本号选举出设备集群中的主设备节点,具体包括:
将所有设备节点的优先级以及所有配置文件版本号相应地进行一一比对,选取设备节点的优先级最高且配置文件版本最新的设备节点为主设备节点;
如果选出的主设备节点为本设备节点,在配置文件中设置所属设备集群的IP地址,并记录主设备节点的标识,并将该配置文件组装在第三消息相应的域广播到设备集群中;
未被选为主设备节点的设备节点从接收的第三消息相应的域解析出配置文件,根据该配置文件设置主设备节点的标识。
在上述方法实施例中,设备集群通过选出的主设备节点获取本集群中所有需要运行的业务运行组的状态,根据获取的状态启动其中未启动的业务运行组的设备节点运行,具体包括:
主设备节点获取本集群中所有需要运行的业务运行组的状态,根据该状态确认其中待启动的业务运行组;根据设定的业务组运行的顺序,依次判断设备节点上运行的业务组是否与该待启动的业务组相冲突,直至找到有设备节点运行的业务组不与该待启动的业务组相冲突,则向相应的一个或多个设备节点发出启动业务组指令;
收到启动业务组指令的设备节点设置运行业务组需要的资源,并启动运行相应的业务。
上述方法实施例还包括:
主设备节点若查询所有设备节点运行的业务组均与该待启动的业务组相冲突,则设置该业务组的状态为停运状态,并随后定期地继续查找适合启动运行该业务组的设备节点。
上述方法实施例还包括:
设备节点对启动运行相应的业务所设置的资源进行监控,若发现被监控的资源失效,根据预设策略确定针对该失效资源采取的措施。
在上述方法实施例中,设备节点确定针对失效资源的措施所依据的预设策略,包括资源失效时是否可重复启动、重复启动资源的次数限制、重复启动资源的时间间隔以及可设置的资源阈限中的一种或多种;设备节点对启动运行相应的业务所设置的资源进行监控,若发现被监控的资源失效,根据预设策略确定针对该失效资源的措施,具体包括:
若发现被监控的资源失效,则根据该资源可重复启动策略再次启动该资源。
上述方法实施例还包括:
设备节点在资源再次启动失败时,向主设备节点发出业务组资源异常消息;在收到主设备节点发出的停止运行业务组指令后,关闭业务运行需要的所有资源;
主设备节点查找可运行该业务组的设备节点,直至找到有设备节点运行的业务组不与该业务组相冲突,则向该设备节点发出启动业务组指令。
上述方法实施例还包括:
每一设备节点定期地向其它设备节点发送心跳测试指令,若在规定的时间未收到其它设备节点返回的心跳响应指令,并若判断发生故障的是主设备节点,则将包含本设备节点优先级的配置文件及其版本号组装在第二消息相应的域广播到设备集群中,重新启动主设备节点的选举;若判断发生故障的不是主设备节点,则通过主设备节点将运行在该发生故障的设备节点上的所有业务组运行到其它设备节点上。
对于本领域的专业人员来说,在了解了本发明内容和原理后,能够在不背离本发明的原理和范围的情况下,根据本发明的方法进行形式和细节上的各种修正和改变,但是这些基于本发明的修正和改变仍在本发明的权利要求保护范围之内。

Claims (19)

1.一种业务信息系统,其特征在于,包括管理控制装置和设备集群,其中:
管理控制装置,用于将系统运行相同或者不同用户业务的多个设备节点按相同或不同的业务运行组配置成一个或多个设备集群,并启动设备集群;
设备集群,用于在启动后从本集群多个设备节点中选出一主设备节点。
2.按照权利要求1所述的系统,其特征在于,
所述设备集群还通过选出的主设备节点获取本集群中所有需要运行的业务运行组的状态,根据获取的状态启动所述需要运行但未启动的业务运行组的设备节点运行。
3.按照权利要求2所述的系统,其特征在于,所述管理控制装置包括依次连接的集群配置模块和节点通信模块,其中:
集群配置模块,用于将所述系统中多个设备节点按所述业务运行组配置成所述设备集群,将按所述设备节点加入所述系统的顺序排列的所有设备节点的优先级随所述设备节点的IP地址一起记载在形成的配置文件中输出给节点通信模块;
节点通信模块,用于根据每一设备集群的配置文件中包含的所有设备节点的优先级和IP地址,将该配置文件传输给相应的设备集群中优先级最高的设备节点,同时发出启动集群的命令。
4.按照权利要求3所述的系统,其特征在于,所述设备节点中嵌入的实现持续业务运营装置包括信息发送/接收模块、从属集群识别模块以及主设备节点选举模块,其中:
信息发送/接收模块,用于在接收到所述发送的配置文件后,将本设备集群内所有运行的设备节点的名称和所述配置文件分别组装在第一消息的两个域中,然后将第一消息和启动集群命令广播到设备集群中;将收到的第一消息输出给从属集群识别模块,并在收到启动集群命令时将包含本设备节点优先级的配置文件及其版本号组装在第二消息相应的域广播到所述设备集群中;将收到的所有的第二消息输出给主设备节点选举模块;
从属集群识别模块,用于解析输入的第一消息相应的域,如果查询到所述设备节点的名称包含本设备节点的名称,则识别本设备节点属于接收的配置文件对应的设备集群,将该配置文件及其版本号保存;
主设备节点选举模块,用于根据从接收的所有的第二消息相应的域中解析出的配置文件及其版本号选举出本设备集群中的所述主设备节点。
5.按照权利要求4所述的系统,其特征在于,
所述主设备节点选举模块分别将所有设备节点的优先级以及所有配置文件版本号相应地进行一一比对,将设备节点的优先级最高且配置文件版本最新的设备节点选举为所述主设备节点;如果选出的所述主设备节点为本设备节点,在配置文件中设置所属设备集群的IP地址,并记录所述主设备节点的标识,并该将配置文件输出给信息发送/接收模块;如果选出的所述主设备节点不为本设备节点,则从输入的第三消息相应的域解析出所述配置文件,根据该配置文件设置所述主设备节点的标识;
所述信息发送/接收模块将输入的所述配置文件组装在第三消息相应的域广播到设备集群中;将收到的第三消息输出给所述主设备节点选举模块。
6.按照权利要求4所述的系统,其特征在于,所述实现持续业务运营装置实施例还包括运行设备节点查找模块,其中:
所述主设备节点选举模块如果选出的主设备节点为本设备节点,根据输入的第三消息向运行设备节点查找模块输出启动运行组命令;
运行设备节点查找模块,用于根据所述启动运行组命令获取本集群中所有需要运行的业务运行组的状态,根据该状态确认其中待启动的业务运行组;根据设定的业务组运行的顺序,依次判断设备节点上运行的业务组是否与该待启动的业务组相冲突,直至找到有设备节点运行的业务组不与该待启动的业务组相冲突,则向所述信息发送/接收模块输出启动业务组命令;
所述信息发送/接收模块根据所述启动业务组命令向相应的一个或多个设备节点发出启动业务组指令;根据收到的启动业务组指令设置需要的资源,并启动运行相应的业务。
7.按照权利要求6所述的系统,其特征在于,
所述运行设备节点查找模块若查询所有设备节点运行的业务组均与该待启动的业务组相冲突,则设置该业务组的状态为停运状态,并随后定期地继续查找适合启动运行该业务组的设备节点。
8.按照权利要求6所述的系统,其特征在于,所述实现持续业务运营装置实施例还包括资源监控模块,其中:
所述信息发送/接收模块在启动本设备节点运行业务的同时,向资源监控模块输出业务组资源监控命令;
资源监控模块,用于根据所述业务组资源监控命令对启动运行该业务设置的资源进行监控,若发现被监控的资源失效,根据预设策略确定针对该失效资源的措施。
9.按照权利要求8所述的系统,其特征在于,
所述资源监控模块确定针对失效资源的措施所依据的预设策略,包括资源失效时是否可重复启动、重复启动资源的次数限制、重复启动资源的时间间隔以及可设置的资源阈限中的一种或多种;若发现被监控的资源失效,则根据该资源可重复启动策略再次启动该资源;当资源再次启动失败时,向所述信息发送/接收模块输出组资源异常信息;
所述信息发送/接收模块根据所述组资源异常信息向主设备节点发出业务组资源异常消息;接收到组资源异常消息的所述主设备节点向发出该消息的设备节点发出停止运行业务组指令,同时向所述运行设备节点查找模块输出查找业务组运行设备节点命令;接收到所述停止业务组运行指令的所述设备节点关闭业务运行需要的所有资源;
所述运行设备节点查找模块根据输入的所述查找业务组运行设备节点命令查找可运行该业务组的设备节点,直至找到有设备节点运行的业务组不与该业务组相冲突,则向所述信息发送/接收模块输出启动业务组命令。
10.按照权利要求6至9任一项所述的系统,其特征在于,
所述信息发送/接收模块还定期地向其它设备节点发送心跳测试指令,若在规定的时间未收到其它设备节点返回的心跳响应指令,并若判断发生故障的是主设备节点,则将包含本设备节点优先级的配置文件及其版本号组装在第二消息相应的域广播到设备集群中,重新动主设备节点的选举;若判断发生故障的不是主设备节点,则通过所述运行设备节点查找模块将运行在该发生故障的设备节点上的所有业务组运行到其它设备节点上。
11.一种业务信息系统实现持续运营的方法,包括:
管理控制装置将系统运行相同或者不同用户业务的多个设备节点按相同或不同的业务运行组配置成一个或多个设备集群,并启动设备集群;
启动后的所述设备集群从本集群多个设备节点中选出一主设备节点。
12.按照权利要求11所述的方法,其特征在于,还包括:
所述设备集群通过所述主设备节点获取本集群中所有需要运行的业务运行组的状态,根据获取的状态启动所述需要运行但未启动的业务运行组的设备节点运行。
13.按照权利要求12所述的方法,其特征在于,所述管理控制装置将系统运行相同或者不同用户业务的多个设备节点按相同或不同的业务运行组配置成一个或多个设备集群,并启动设备集群,具体包括:
将系统中多个设备节点按业务运行组配置成设备集群,并将按所述设备节点加入所述系统的顺序排列的所有设备节点的优先级随所述设备节点的IP地址一起记载在形成的配置文件中;
根据所述配置文件中的所有设备节点的优先级和IP地址,将该配置文件传输给相应的设备集群中优先级最高的设备节点,同时发出启动集群的命令。
14.按照权利要求13所述的方法,其特征在于,所述启动后的所述设备集群从本集群多个设备节点中选出一主设备节点,具体包括:
所述设备集群中优先级最高的设备节点接收到所述配置文件后,将本集群内所有运行设备节点的名称和配置文件分别组装在第一消息的两个域中,将第一消息和启动集群命令一起广播到所述设备集群中;
收到第一消息的所述设备节点解析该消息相应的域,如果查询到所述设备节点的名称中包含本设备节点的名称,则识别本设备节点属于接收的配置文件对应的设备集群,将该配置文件及其版本号保存;根据收到的启动集群命令将包含本设备节点优先级的配置文件及其版本号组装在第二消息相应的域广播到设备集群中;
收到第二消息的所述设备节点根据从该消息相应的域中解析出的所述配置文件及其版本号选举出设备集群中的主设备节点。
15.按照权利要求14所述的方法,其特征在于,所述设备节点根据从该消息相应的域中解析出的所述配置文件及其版本号选举出设备集群中的主设备节点,具体包括:
将所有设备节点的优先级以及所有配置文件版本号相应地进行一一比对,选取设备节点的优先级最高且相应的配置文件版本最新的设备节点为所述主设备节点;
如果选出的所述主设备节点为本设备节点,则在所述配置文件中设置所属设备集群的IP地址,并记录所述主设备节点的标识,并将该配置文件组装在第三消息相应的域广播到所述设备集群中;
未被选为主设备节点的设备节点从接收的第三消息相应的域解析出配置文件,根据该配置文件设置所述主设备节点的标识。
16.按照权利要求12所述的方法,其特征在于,所述设备集群通过所述主设备节点获取本集群中所有需要运行的业务运行组的状态,根据获取的状态启动其中未启动的业务运行组的设备节点运行,具体包括:
所述主设备节点获取本集群中所有需要运行的业务运行组的状态,根据该状态确认其中待启动的业务运行组;根据设定的业务组运行的顺序,依次判断设备节点上运行的业务组是否与该待启动的业务组相冲突,直至找到有设备节点运行的业务组不与该待启动的业务组相冲突,则向相应的一个或多个设备节点发出启动业务组指令;
收到启动业务组指令的设备节点设置运行业务组需要的资源,并启动运行相应的业务。
17.按照权利要求16所述的方法,其特征在于,还包括:
所述主设备节点若查询所有设备节点运行的业务组均与该待启动的业务组相冲突,则设置该业务组的状态为停运状态,并随后定期地继续查找适合启动运行该业务组的所述设备节点。
18.按照权利要求16或17所述的方法,其特征在于,还包括:
所述设备节点对启动运行相应的业务所设置的资源进行监控,若发现监控的资源失效,根据预设策略确定针对该失效资源采取的措施。
19.按照权利要求14至17任一项所述的方法,其特征在于,还包括:
每一设备节点定期地向其它设备节点发送心跳测试指令,若在规定的时间未收到其它设备节点返回的心跳响应指令,并若判断发生故障的是所述主设备节点,则将包含本设备节点优先级的所述配置文件及其版本号组装在第二消息相应的域广播到设备集群中,重新启动所述主设备节点的选举;若判断发生故障的不是所述主设备节点,则通过所述主设备节点将运行在该发生故障的设备节点上的所有业务组运行到其它设备节点上。
CN2011103584792A 2011-11-14 2011-11-14 一种业务信息系统及其实现持续运营的方法 Pending CN102412988A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103584792A CN102412988A (zh) 2011-11-14 2011-11-14 一种业务信息系统及其实现持续运营的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103584792A CN102412988A (zh) 2011-11-14 2011-11-14 一种业务信息系统及其实现持续运营的方法

Publications (1)

Publication Number Publication Date
CN102412988A true CN102412988A (zh) 2012-04-11

Family

ID=45914850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103584792A Pending CN102412988A (zh) 2011-11-14 2011-11-14 一种业务信息系统及其实现持续运营的方法

Country Status (1)

Country Link
CN (1) CN102412988A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102843259A (zh) * 2012-08-21 2012-12-26 武汉达梦数据库有限公司 集群内中间件自管理热备方法及系统
CN103873279A (zh) * 2012-12-13 2014-06-18 腾讯科技(深圳)有限公司 一种服务器管理方法,及装置
CN104601365A (zh) * 2014-12-05 2015-05-06 杭州华三通信技术有限公司 一种节点设备监测方法以及装置
CN104639347A (zh) * 2013-11-07 2015-05-20 北大方正集团有限公司 一种多集群监控方法、装置及系统
CN104683446A (zh) * 2015-01-29 2015-06-03 广州杰赛科技股份有限公司 一种云存储集群节点服务状态实时监控方法和系统
CN104750544A (zh) * 2013-12-30 2015-07-01 中国银联股份有限公司 应用于分布式系统中的进程管理系统及进程管理方法
CN104754016A (zh) * 2013-12-31 2015-07-01 中国移动通信集团河南有限公司 对等网络中节点集群实现方法、装置及系统
CN104750562A (zh) * 2013-12-30 2015-07-01 中国银联股份有限公司 分布式系统中的锁处理系统及方法
CN105743671A (zh) * 2014-12-10 2016-07-06 华为技术有限公司 一种扩容方法、控制器及系统
CN107196779A (zh) * 2016-03-15 2017-09-22 中国电信股份有限公司 用于实现网络自愈的方法、节点和系统
CN108092857A (zh) * 2018-01-15 2018-05-29 郑州云海信息技术有限公司 一种分布式系统心跳检测方法及相关装置
CN108811079A (zh) * 2013-08-05 2018-11-13 诺基亚技术有限公司 用于在集群选择中的跳数使用的方法、装置和计算机程序产品
CN108874454A (zh) * 2018-06-27 2018-11-23 郑州云海信息技术有限公司 一种目标驱动程序的自适应启动方法及装置
CN109274986A (zh) * 2017-07-17 2019-01-25 中兴通讯股份有限公司 多中心容灾方法、系统、存储介质和计算机设备
CN109395418A (zh) * 2018-11-13 2019-03-01 上海葡萄纬度科技有限公司 总线主从设备确定方法和系统及其介质与总线设备
CN109981364A (zh) * 2019-03-25 2019-07-05 联想(北京)有限公司 网络的管理方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101217402A (zh) * 2008-01-15 2008-07-09 杭州华三通信技术有限公司 一种提高集群可靠性的方法和一种高可靠性通信节点
CN101778002A (zh) * 2010-02-02 2010-07-14 浪潮(北京)电子信息产业有限公司 一种大规模集群系统及其构建方法
CN102110071A (zh) * 2011-03-04 2011-06-29 浪潮(北京)电子信息产业有限公司 一种虚拟机集群系统及其实现方法
CN102202425A (zh) * 2011-06-24 2011-09-28 中国人民解放军国防科学技术大学 基于主从异构型数传模块的卫星集群自组织组网方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101217402A (zh) * 2008-01-15 2008-07-09 杭州华三通信技术有限公司 一种提高集群可靠性的方法和一种高可靠性通信节点
CN101778002A (zh) * 2010-02-02 2010-07-14 浪潮(北京)电子信息产业有限公司 一种大规模集群系统及其构建方法
CN102110071A (zh) * 2011-03-04 2011-06-29 浪潮(北京)电子信息产业有限公司 一种虚拟机集群系统及其实现方法
CN102202425A (zh) * 2011-06-24 2011-09-28 中国人民解放军国防科学技术大学 基于主从异构型数传模块的卫星集群自组织组网方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102843259A (zh) * 2012-08-21 2012-12-26 武汉达梦数据库有限公司 集群内中间件自管理热备方法及系统
CN103873279B (zh) * 2012-12-13 2015-07-15 腾讯科技(深圳)有限公司 一种服务器管理方法,及装置
CN103873279A (zh) * 2012-12-13 2014-06-18 腾讯科技(深圳)有限公司 一种服务器管理方法,及装置
US9985859B2 (en) 2012-12-13 2018-05-29 Tencent Technology (Shenzhen) Company Limited Method and system for managing servers
CN108811079B (zh) * 2013-08-05 2021-01-22 诺基亚技术有限公司 用于在集群选择中的跳数使用的方法、装置和计算机程序产品
CN108811079A (zh) * 2013-08-05 2018-11-13 诺基亚技术有限公司 用于在集群选择中的跳数使用的方法、装置和计算机程序产品
CN104639347A (zh) * 2013-11-07 2015-05-20 北大方正集团有限公司 一种多集群监控方法、装置及系统
CN104750562B (zh) * 2013-12-30 2018-09-21 中国银联股份有限公司 分布式系统中的锁处理系统及方法
CN104750562A (zh) * 2013-12-30 2015-07-01 中国银联股份有限公司 分布式系统中的锁处理系统及方法
CN104750544B (zh) * 2013-12-30 2018-09-04 中国银联股份有限公司 应用于分布式系统中的进程管理系统及进程管理方法
CN104750544A (zh) * 2013-12-30 2015-07-01 中国银联股份有限公司 应用于分布式系统中的进程管理系统及进程管理方法
CN104754016A (zh) * 2013-12-31 2015-07-01 中国移动通信集团河南有限公司 对等网络中节点集群实现方法、装置及系统
CN104754016B (zh) * 2013-12-31 2019-01-18 中国移动通信集团河南有限公司 对等网络中节点集群实现方法、装置及系统
CN104601365A (zh) * 2014-12-05 2015-05-06 杭州华三通信技术有限公司 一种节点设备监测方法以及装置
CN105743671A (zh) * 2014-12-10 2016-07-06 华为技术有限公司 一种扩容方法、控制器及系统
CN104683446A (zh) * 2015-01-29 2015-06-03 广州杰赛科技股份有限公司 一种云存储集群节点服务状态实时监控方法和系统
CN107196779A (zh) * 2016-03-15 2017-09-22 中国电信股份有限公司 用于实现网络自愈的方法、节点和系统
CN107196779B (zh) * 2016-03-15 2020-11-03 中国电信股份有限公司 用于实现网络自愈的方法、节点和系统
CN109274986A (zh) * 2017-07-17 2019-01-25 中兴通讯股份有限公司 多中心容灾方法、系统、存储介质和计算机设备
CN109274986B (zh) * 2017-07-17 2021-02-12 中兴通讯股份有限公司 多中心容灾方法、系统、存储介质和计算机设备
CN108092857A (zh) * 2018-01-15 2018-05-29 郑州云海信息技术有限公司 一种分布式系统心跳检测方法及相关装置
CN108874454A (zh) * 2018-06-27 2018-11-23 郑州云海信息技术有限公司 一种目标驱动程序的自适应启动方法及装置
CN108874454B (zh) * 2018-06-27 2021-12-17 郑州云海信息技术有限公司 一种目标驱动程序的自适应启动方法及装置
CN109395418A (zh) * 2018-11-13 2019-03-01 上海葡萄纬度科技有限公司 总线主从设备确定方法和系统及其介质与总线设备
CN109395418B (zh) * 2018-11-13 2022-02-11 上海葡萄纬度科技有限公司 总线主从设备确定方法和系统及其介质与总线设备
CN109981364A (zh) * 2019-03-25 2019-07-05 联想(北京)有限公司 网络的管理方法和系统

Similar Documents

Publication Publication Date Title
CN102412988A (zh) 一种业务信息系统及其实现持续运营的方法
CN102025798B (zh) 地址分配处理方法、装置和系统
CN1874223B (zh) 实现网络设备mac和ip绑定的接入控制方法
CN102185718B (zh) 一种系统升级方法及其装置
CN103138912B (zh) 数据同步方法及系统
CN102195815B (zh) 网络管理方法和装置
CN103701913B (zh) 数据同步方法及装置
CN104301141B (zh) 一种保存配置信息的方法、装置及系统
CN102263667B (zh) 网络管理系统以及网络管理处理方法
CN102394914A (zh) 集群脑裂处理方法和装置
CN104301142A (zh) 一种配置文件的备份方法和设备
CN101651710A (zh) 基于p2p的容灾备份方法
CN103036719A (zh) 一种基于主备集群服务器的跨地区服务容灾方法及装置
CN105471995A (zh) 基于SOA的大规模Web服务机群高可用实现方法
CN103618627A (zh) 一种管理虚拟机的方法、装置及系统
CN103001809A (zh) 用于云存储系统的服务节点状态监控方法
CN105407117A (zh) 分布式备份数据的方法、装置和系统
CN103607310A (zh) 一种异地容灾的仲裁方法
US10037253B2 (en) Fault handling methods in a home service system, and associated household appliances and servers
CN103024065A (zh) 用于云存储系统的系统配置管理方法
CN109548019A (zh) 一种配网方法及系统
CN102291262B (zh) 一种容灾的方法、装置及系统
US9451483B2 (en) Mobile communication system, communication system, control node, call-processing node, and communication control method
CN103036934A (zh) 基于镜像的广域网集群部署系统和方法
CN104703165A (zh) 一种处理无线接入的方法、转发设备及网络控制器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120411