CN104717077A

CN104717077A - 一种管理数据中心的方法、装置及系统

Info

Publication number: CN104717077A
Application number: CN201310675155.0A
Authority: CN
Inventors: 曹璐; 朱祥磊; 徐丽娜; 胡国辉; 田力; 张栋
Original assignee: China Mobile Group Shandong Co Ltd
Current assignee: China Mobile Group Shandong Co Ltd
Priority date: 2013-12-11
Filing date: 2013-12-11
Publication date: 2015-06-17
Anticipated expiration: 2033-12-11
Also published as: CN104717077B

Abstract

本发明公开了一种管理数据中心的方法，包括：管理中心确定自身管理的数据中心出现故障时，获取自身管理的各个数据中心的当前权重值；根据各个数据中心的所述权重值，确定出待关闭的数据中心，向所述待关闭的数据中心发出关闭通知消息、以及业务切换通知消息。本发明还提供了一种管理数据中心的系统及装置，采用本发明能够在数据中心之间出现故障时，保证权重值高的数据中心的运行状态，从而保证系统的承载能力，保证服务质量。

Description

一种管理数据中心的方法、装置及系统

技术领域

本发明涉及通信领域的管理技术，尤其涉及一种管理数据中心的方法、装置及系统。

背景技术

为确保大型数据中心业务系统灾难时数据不丢失，并能快速恢复业务，建立双活数据中心作为容灾系统。由于上述双活数据中心容灾系统存在如下缺陷：在异地环境的双活数据中心对网络条件要求非常严格，只要网络稍有中断或延迟就会引起网络波动，从而引起服务不可用，以致在网络终端的情况下引起“脑裂”现象。因此，提出了增加仲裁节点的方法，即在双活数据中心之外增加仲裁节点，三个中心组成环状网络，在双活数据中心之间断网时，第三中心进行仲裁。

虽然上述增加仲裁节点的方法具有一定的容错机制，但是，当仲裁节点的网络与所述双活数据中心之间的网络不通时，两个数据中心还会不知道谁可以更合适对外访问，从而导致数据不一致的现象发生；另外，由于仲裁节点平时不能承担生产任务，在双活数据中心断网时，系统承载能力将降低，从而影响对外服务。

发明内容

有鉴于此，本发明的目的在于提供一种管理数据中心的方法、装置及系统，能保证系统的承载能力，保证服务质量。

为达到上述目的，本发明的技术方案是这样实现的：

本发明提供了一种管理数据中心的方法，所述方法包括：

管理中心确定自身管理的数据中心出现故障时，获取自身管理的各个数据中心的当前权重值；

根据各个数据中心的所述权重值，确定出待关闭的数据中心，向所述待关闭的数据中心发出关闭通知消息、以及业务切换通知消息。

上述方案中，所述管理中心确定自身管理的数据中心出现故障之前，所述方法还包括：

根据所述管理中心管理的各个数据中心的运行参数，分别计算所述各个数据中心的权重值，并发出所述各个数据中心的权重值。

上述方案中，所述确定待关闭的数据中心之后，所述方法还包括：

所述管理中心获取自身权重值以及当前处于开启状态的数据中心的权重值；

比较所述自身权重值以及所述当前处于开启状态的数据中心的权重值，当所述当前处于开启状态的数据中心的权重值高时，向所述权重值高的数据中心发出管理通知，使所述权重值高的数据中心作为临时管理中心。

本发明还提供了一种管理数据中心的方法，所述方法包括：

数据中心判断是否接收到关闭通知消息及业务切换通知消息，

若接收到，则根据所述业务切换通知消息将自身的业务切换至处于开启状态的数据中心，并根据所述关闭通知消息停止运行。

上述方案中，所述数据中心判断是否接收到关闭通知及业务切换通知之前，所述方法还包括：将自身的运行参数发出；以及接收自身对应的权重值。

本发明提供了一种管理数据中心的方法，所述方法包括：

管理中心确定自身管理的数据中心出现故障时，获取自身管理的各个数据中心的当前权重值；根据各个数据中心的所述权重值，确定关闭的数据中心，向所述关闭的数据中心发出关闭通知消息、以及业务切换通知消息；

所述各个数据中心判断是否接收到关闭通知消息及业务切换通知消息，若接收到，则根据所述业务切换通知消息将自身的业务切换至处于开启状态的数据中心，并根据所述关闭通知消息停止运行。

本发明还提供了一种管理中心，所述管理中心包括：控制单元及仲裁单元；其中，

控制单元，用于确定自身管理的数据中心出现故障时，获取自身管理的各个数据中心的当前权重值；

仲裁单元，用于根据控制单元获取到的各个数据中心的所述权重值，确定出待关闭的数据中心，向所述待关闭的数据中心发出关闭通知消息、以及业务切换通知消息。

上述方案中，所述控制单元，还用于根据自身管理的各个数据中心的运行参数，分别计算并发出所述各个数据中心的权重值。

上述方案中，所述仲裁单元，还用于获取自身权重值以及当前处于开启状态的数据中心的权重值；比较所述自身权重值以及所述当前处于开启状态的数据中心的权重值，当所述当前处于开启状态的数据中心的权重值高时，向所述权重值高的数据中心发出管理通知，使所述权重值高的数据中心作为临时管理中心。

本发明提供了一种数据中心，所述数据中心包括：

控制单元，用于判断是否接收到关闭通知消息及业务切换通知消息，若接收到，则根据所述业务切换通知消息将自身的业务切换至处于开启状态的数据中心，并根据所述关闭通知消息停止运行；

收发单元，用于根据控制单元的通知，将自身的业务发出。

上述方案中，所述收发单元，还用于将自身的运行参数发出；以及接收自身对应的权重值。

本发明还提供了一种管理数据中心的系统，所述系统包括：管理中心、至少两个数据中心；其中，

所述数据中心为上述方案中所述的数据中心；

所述管理中心为上述方案中所述的管理中心。

本发明所提供的管理数据中心的方法、装置及系统，能根据两个中心的业务量和性能情况计算权重值，在灾难场景下能优先保证权重高的数据中心存活；

另外，能通过获取各个数据中心的权重值，保证在数据中心两两网络中断时，仍然有数据中心能提供服务。这是目前所有IT厂商的双活方案中没法实现的。由管理中心统一实现灾难的捕获，验证，处理以及恢复，实现可灵活配置，更符合业务的容灾机制。

附图说明

图1为本发明管理数据中心的方法流程示意图一；

图2为本发明管理数据中心的方法流程示意图二；

图3为本发明管理数据中心的方法流程示意图三；

图4为本发明权重值计算方法流程示意图；

图5为本发明心跳机制流程示意图；

图6为本发明发送故障报告的方法流程示意图；

图7为本发明管理数据中心的方法流程示意图四；

图8为本发明管理中心的组成结构示意图；

图9为本发明数据中心的组成结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

实施例一、

本发明实施例提供的多个数据中心情况下的管理数据中心的方法，如图1所示，管理中心侧的操作流程为：

步骤101：管理中心判断自身管理的数据中心是否出现故障，若是，则执行步骤102；否则，结束处理流程。

步骤102：管理中心获取自身管理的各个数据中心的当前权重值。

步骤103：管理中心根据各个数据中心的所述权重值，确定出待关闭的数据中心，向所述待关闭的数据中心发出关闭通知消息、以及业务切换通知消息。

这里，上述步骤101之前，还可以包括：管理中心根据自身管理的各个数据中心的运行参数，分别计算并发出所述各个数据中心的权重值。

其中，所述运行参数可以包括：数据中心的业务量、连接数、资源使用情况等参数；

所述计算可以为：根据预设的规则计算，比如，可以为数据中心的任意一个运行参数高于该运行参数的预设值，则该数据中心的权重值增加指定数值等；

发出的所述各个数据中心的权重值的格式可以为：数据中心标识、节点标识、时间、权重值。

优选地，步骤103之后，还可以包括：管理中心获取自身权重值以及所述开启的数据中心的权重值，并比较所获取权重值以及所述开启的数据中心的权重值，当所述开启的数据中心的权重值高时，向所述开启的数据中心发出管理通知，使所述开启的数据中心作为临时管理中心。

其中，所述获取开启的数据中心的权重值为：获取时间距离当前最近的权重值。

优选地，当将管理权限交由当前权重值高的数据中心之后，还可以包括：获取管理权限的数据中心，实时判断出现故障的数据中心重新开启，若是，则再次判断当前权重值最高的数据中心及管理中心，当管理中心权重值最高时，将管理权限交由管理中心，各个数据中心恢复原工作流程，即执行步骤101。

所述判断自身管理的数据中心是否出现故障可以包括：所述管理中心接收到任意一个自身管理的数据中心发来的故障报告，比如任意一个数据中心发来其与其他数据中心之间的通信中断的报告；所述任意一个数据中心与其他数据中心之间的通信中断的判断方法可以为：利用现有技术中的心跳机制进行判定，这里不做赘述。

实施例二、

本发明提供的一种管理数据中心的方法中数据中心侧的操作流程，如图2所示，包括：

步骤201：数据中心判断是否接收到关闭通知消息及业务切换通知消息，若接收到，则执行步骤202；否则，结束处理流程。

步骤202：根据所述业务切换通知消息将自身的业务切换至处于开启状态的数据中心，并根据所述关闭通知消息停止运行。

优选地，执行步骤201之前，还可以包括：所述数据中心将自身的运行参数发出；以及接收自身对应的权重值。

优选地，执行步骤201之前，还可以包括：发出故障报告；其中，所述故障报告的获取方法可以为：利用现有技术中的心跳机制进行判定，这里不做赘述。

优选地，在执行步骤201时，若所述数据中心没有接受到关闭通知及业务切换通知，则所述数据中心按照现有技术进行操作，并且还可以接收其他数据中心切换来的业务。

实施例三、

本实施例提供的管理数据中心的方法，如图3所示，可以包括：

步骤301：管理中心确定自身管理的数据中心出现故障时，获取自身管理的各个数据中心的当前权重值。

步骤302：所述管理中心根据各个数据中心的所述权重值，确定关闭的数据中心，向所述关闭的数据中心发出关闭通知消息、以及业务切换通知消息。

步骤303：所述各个数据中心判断是否接收到关闭通知消息及业务切换通知消息，若接收到，若接收到，则执行步骤304；否则，结束处理流程。

步骤304：所述数据中心根据所述业务切换通知消息将自身的业务切换至处于开启状态的数据中心，并根据所述关闭通知消息停止运行。

这里，上述步骤301之前，还可以包括：根据自身管理的各个数据中心的运行参数，分别计算并发出所述各个数据中心的权重值。其中，所述运行参数可以包括：数据中心的业务量、连接数、资源使用情况等参数；

所述计算可以包括：在管理中心和数据中心网络正常的情况下，由管理中心实时和准实时获取数据中心的情况，如业务量、连接数、资源使用情况等，根据预先配置的规则，自动计算两个数据中心的权重，两数据中心总和100，并将数值存放在三个中心的运行控制系统中，保存格式为(数据中心名，节点名，时间，权重值)。在管理中心或任一数据中心网络故障下，以能拿到的最后一次权重值为准。比如，图4所示的权重值计算方法，假设有两个数据中心：数据中心一及数据中心二，则其获取权重值的方法为：管理中心向数据中心一及数据中心二定期发送调查请求；数据中心一及数据中心二根据所述调查请求返回运行参数；所述管理中心根据各个数据中心返回的运行参数计算并保存各个数据中心对应的权重值；所述管理中心分别向所述数据中心一及数据中心二发出对应的权重值。

优选地，步骤302之后，还可以包括：获取自身权重值以及所述开启的数据中心的权重值；比较所述自身权重值以及所述开启的数据中心的权重值，当所述开启的数据中心的权重值高时，向所述开启的数据中心发出管理通知，使所述开启的数据中心作为临时管理中心。

其中，所述获取开启的数据中心的权重值为获取时间距离当前最近的权重值。

优选地，当将管理权限交由当前权重值高的数据中心之后，还可以包括：获取管理权限的数据中心，实时判断出现故障的数据中心重新开启，若是，则再次判断当前权重值最高的数据中心及管理中心，当管理中心权重值最高时，将管理权限交由管理中心，各个数据中心恢复原工作流程，即执行步骤301。

所述判断自身管理的数据中心是否出现故障可以包括：所述管理中心接收到任意一个自身管理的数据中心发来的故障报告，比如任意一个数据中心发来其与其他数据中心之间的通信中断的报告；所述任意一个数据中心与其他数据中心之间的通信中断的判断方法可以为：利用现有技术中的心跳机制进行判定，这里不做赘述。比如，图5所示，每个数据中心定期(默认30秒)到管理中心处更新租约。如果管理中心发现有节点没有按时更新，会申请再等待一个租期，如果到期还没有更新，如果另一个中心正常，管理中心发起操作，关闭超时中心的服务；如果另一个中心也没有响应，表明仲裁站点于两业务中心通讯中断，终止仲裁站点服务。

或者，除了权限控制，中心的集群监控外，运行控制系统层还提供了灾难统一处理机制，针对生产系统可能出现的各种异常状况，进行灾难捕获，并调用相关（存储，数据库，应用等）的验证，起停，恢复等命令，进行自动的、可配置的处理。同时，完备的灾难统一管理不要求产品实现异常处理，只需要实现对应的接口，由事件处理来统一管理，有效回避存储虚拟化集群和应用集群的相互影响，也屏蔽了各家厂商双活方案的差异，从而完善出更通用，更适合业务的高可用方案。

以双活数据中心中主要的灾难场景为例，两个数据中心之间网络全断，仲裁节点和数据中心之间都通，存活的数据中心(假定数据中心一)和仲裁节点网络故障，数据中心二修复，仲裁节点修复；比如，如图6所示，假如数据中心一出现故障，则数据中心一向管理中心发出故障报告；所述管理中心从事件库中找到对应的流程后，向数据中心一发起确认查询，再调用对应的处理脚本给数据中心一进行故障处理。

优选地，执行步骤303之前，还可以包括：所述数据中心将自身的运行参数发出；以及接收自身对应的权重值。

优选地，执行步骤303之前，还可以包括：发出故障报告；其中，所述故障报告的获取方法可以为：利用现有技术中的心跳机制进行判定，这里不做赘述。

优选地，在执行步骤303时，若所述数据中心没有接受到关闭通知及业务切换通知，则所述数据中心按照现有技术进行操作，并且还可以接收其他数据中心切换来的业务。任何一个中心丢失后，管理中心角色自动切换到最高权限的Executor，保证二次故障时，生产系统的高可用。整个环境修复后，管理中心切换为仲裁节点，恢复正常状况。

具体的，当系统如图7所示包括数据中心一、数据中心二以及管理中心时，本发明管理数据中心的方法包括：

第一步：数据中心一向管理中心报告，一中心和二中心通讯中断。

第二步：管理中心分别在一中心，二中心上调用验证程序进行验证

第三步：管理中心的运行控制系统根据结果判断，一二中心之间通讯中断。

第四步：校验最新权重值后，确认一中心业务重要，优先启用数据中心一的业务，同时调用切换程序，关闭数据中心二的服务，将业务切换到一中心。完成后，管理中心角色切换到一中心，由一中心负责集群管理

第五步：一三中心通讯中断，由于一中心能保证管理中心和一个Execution的存在，一中心继续提供服务。

第六步：二中心修复后，重新加入集群，原业务切回二中心。

第八步：三中心修复后，重新加入集群，在灾难的善后处理中确认系统服务初始状态，管理中心切换回三中心。

实施例四、

本发明提供了一种管理中心，如图8所示，所述管理中心包括：控制单元及仲裁单元；其中，

控制单元，用于若确定自身管理的数据中心出现故障，则获取自身管理的各个数据中心的权重值；

仲裁单元，用于根据控制单元获取到的所述各个数据中心的权重值，确定关闭的数据中心及开启的数据中心，向所述关闭的数据中心发出关闭通知、以及业务切换通知。

所述控制单元，还用于根据自身管理的各个数据中心的运行参数，分别计算并发出所述各个数据中心的权重值。

所述仲裁单元，还用于获取自身权重值以及所述开启的数据中心的权重值；比较所述自身权重值以及所述开启的数据中心的权重值，当所述开启的数据中心的权重值高时，向所述开启的数据中心发出管理通知，使所述开启的数据中心作为临时管理中心。其中，所述运行参数可以包括：数据中心的业务量、连接数、资源使用情况等参数；

所述发出所述各个数据中心的权重值的格式可以为：数据中心标识、节点标识、时间、权重值。

实施例五、

本发明提供了一种数据中心，如图9所示，所述数据中心包括：

控制单元，用于判断是否接收到关闭通知及业务切换通知，若接收到，则根据所述业务切换通知收发单元将自身的业务切换至开启的数据中心，并根据所述关闭通知停止运行；

收发单元，用于根据控制单元的通知，将自身的业务发出。

所述收发单元，还用于将自身的运行参数发出；以及接收自身对应的权重值。

所述收发单元，还用于发出故障报告；其中，所述故障报告的获取方法可以为：利用现有技术中的心跳机制进行判定，这里不做赘述。

优选地，若所述数据中心没有接受到关闭通知及业务切换通知，则所述收发单元，还用于按照现有技术进行操作，并且还可以接收其他数据中心切换来的业务。

实施例六、

本发明提供了一种管理数据中心的系统，可以包括：管理中心、及至少两个数据中心；其中，

所述管理中心，用于确定自身管理的数据中心出现故障，则获取自身管理的各个数据中心的权重值，根据所述各个数据中心的权重值，确定关闭的数据中心及开启的数据中心，向所述关闭的数据中心发出关闭通知、以及业务切换通知；

所述数据中心，用于判断是否接收到关闭通知及业务切换通知，若接收到，则根据所述业务切换通知将自身的业务切换至开启的数据中心，并根据所述关闭通知停止运行。

这里，所述管理中心，还用于根据自身管理的各个数据中心的运行参数，分别计算并发出所述各个数据中心的权重值。其中，所述运行参数可以包括：数据中心的业务量、连接数、资源使用情况等参数；

所述管理中心，具体用于在和数据中心网络正常的情况下，实时和准实时获取数据中心的情况，如业务量、连接数、资源使用情况等，根据预先配置的规则，自动计算两个数据中心的权重，两数据中心总和100，并将数值存放在三个中心的运行控制系统中，保存格式为(数据中心名，节点名，时间，权重值)。在管理中心或任一数据中心网络故障下，以能拿到的最后一次权重值为准。比如，图4所示的权重值计算方法，假设有两个数据中心：数据中心一及数据中心二，则其获取权重值的方法为：管理中心向数据中心一及数据中心二定期发送调查请求；数据中心一及数据中心二根据所述调查请求返回运行参数；所述管理中心根据各个数据中心返回的运行参数计算并保存各个数据中心对应的权重值；所述管理中心分别向所述数据中心一及数据中心二发出对应的权重值。

优选地，所述管理中心，具体用于获取自身权重值以及所述开启的数据中心的权重值；比较所述自身权重值以及所述开启的数据中心的权重值，当所述开启的数据中心的权重值高时，向所述开启的数据中心发出管理通知，使所述开启的数据中心作为临时管理中心。

优选地，所述管理中心，还用于当将管理权限交由当前权重值高的数据中心；相应的，所述数据中心，还用于获取管理权限之后，实时判断出现故障的数据中心重新开启，若是，则再次判断当前权重值最高的数据中心及管理中心，当管理中心权重值最高时，将管理权限交由管理中心，各个数据中心恢复原工作流程。

所述管理中心，具体用于接收到任意一个自身管理的数据中心发来的故障报告，比如任意一个数据中心发来其与其他数据中心之间的通信中断的报告；所述任意一个数据中心与其他数据中心之间的通信中断的判断方法可以为：利用现有技术中的心跳机制进行判定，这里不做赘述。比如，图5所示，每个数据中心定期(默认30秒)到管理中心处更新租约。如果管理中心发现有节点没有按时更新，会申请再等待一个租期，如果到期还没有更新，如果另一个中心正常，管理中心发起操作，关闭超时中心的服务；如果另一个中心也没有响应，表明仲裁站点于两业务中心通讯中断，终止仲裁站点服务。

优选地，所述数据中心，还用于将自身的运行参数发出；以及接收自身对应的权重值。

优选地，所述数据中心，还用于发出故障报告；其中，所述故障报告的获取方法可以为：利用现有技术中的心跳机制进行判定，这里不做赘述。

优选地，所述数据中心，还用于没有接受到关闭通知及业务切换通知，则所述数据中心按照现有技术进行操作，并且还可以接收其他数据中心切换来的业务。任何一个中心丢失后，管理中心角色自动切换到最高权限的Executor，保证二次故障时，生产系统的高可用。整个环境修复后，管理中心切换为仲裁节点，恢复正常状况。

优选地，数据中心与管理中心之间采用环状结构搭建IP和SAN网络，并采用物理隔离的线路实现冗余。

所述数据中心中具备负载均衡层，可采用传统负载均衡技术实现将业务请求均衡负载到后端服务器。本层只作为结构描述使用，采用传统技术即可实现。

所述数据中心中具备服务提供层，通常采用中间件技术封装为一个个服务实现，该层连接本地数据库服务器，并对外提供服务。如果两个数据中心的数据库为同一个数据库，则每个中心仅连接本地节点。如果两个数据中心的数据库为不同的数据库，则必须考虑数据的双向同步复制问题，这个既可以通过运行控制层实现，也可通过其他同步的应用软件实现。

所述管理节点，具体用于根据既定义的规则对负载均衡层的业务进行梳理，按照权重值由高到低的顺序分配业务到本中心的数据库服务节点，如果所有服务器节点均无法响应，回复灾难信号，寻求切换操作。实现业务级同步复制，如果两个数据中心的数据库为不同的数据库，可将业务请求分发到另一个数据中心，两个数据中心同时完成业务办理后返回成功信息，保证两个数据中心数据库的数据一致性。如果两个数据中心的数据库为同一个数据，如oracle的rac，则不需本功能。结合实现各类故障场景下的判断、应急和容灾的切换、回切的操作，自我决定是否提供对外服务等(受数据库集群、存储虚拟化集群影响，并在很多场景下切换存在随机性)。

管理中心用于集群的管理、维持站点间心跳、管理业务中心权限以及灾难情况下的处理。如果仲裁站点出现故障，管理中心自动漂移到权限最高,节点号最小的节点上。保证在集群中始终存在一个管理中心。

数据中心，定期向管理中心提供心跳信息，灾难场景下根据管理中心的执行进行相应的动作。在仲裁站点出现故障时，可以担任管理中心的角色。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种管理数据中心的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述管理中心确定自身管理的数据中心出现故障之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述确定待关闭的数据中心之后，所述方法还包括：

4.一种管理数据中心的方法，其特征在于，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，所述数据中心判断是否接收到关闭通知及业务切换通知之前，所述方法还包括：将自身的运行参数发出；以及接收自身对应的权重值。

6.一种管理数据中心的方法，其特征在于，所述方法包括：

7.一种管理中心，其特征在于，所述管理中心包括：控制单元及仲裁单元；其中，

8.根据权利要求7所述的管理中心，其特征在于，

9.根据权利要求8所述的管理中心，其特征在于，

所述仲裁单元，还用于获取自身权重值以及当前处于开启状态的数据中心的权重值；比较所述自身权重值以及所述当前处于开启状态的数据中心的权重值，当所述当前处于开启状态的数据中心的权重值高时，向所述权重值高的数据中心发出管理通知，使所述权重值高的数据中心作为临时管理中心。

10.一种数据中心，其特征在于，所述数据中心包括：

收发单元，用于根据控制单元的通知，将自身的业务发出。

11.根据权利要求10所述的数据中心，其特征在于，

12.一种管理数据中心的系统，其特征在于，所述系统包括：管理中心、至少两个数据中心；其中，

所述数据中心为权利要求10或11所述的数据中心；

所述管理中心为权利要求7-9任一项所述的管理中心。