CN112527469B

CN112527469B - 一种云计算服务器的容错组合方法

Info

Publication number: CN112527469B
Application number: CN202011586362.5A
Authority: CN
Inventors: 程宏兵; 朱思; 江灿; 王本安
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2024-03-01
Anticipated expiration: 2040-12-29
Also published as: CN112527469A

Abstract

一种云计算服务器的容错组合方法，系统为协同任务请求分配一个的标识符，将请求对应查询相关服务模块列表；将服务清单发送到选择和计划模块中准备执行；等待接收到分析和分类模块恢复空闲虚拟机列表后，该配置模块选择将执行该计划的虚拟机集群并将该计划转发及处理；监视器模块来监测虚拟机集群的执行情况。本发明具有高可用、资源利用率高、透明容错的优点。

Description

一种云计算服务器的容错组合方法

技术领域

本发明涉及一种容错配置方法，特别涉及一种云计算服务器的容错组合方法。

背景技术

随着云计算的快速发展以及云计算平台提供商的迅速增多，越来越多的团体、组织、或机构将原本部署在内部数据中心的资源或服务转移至云计算平台上，以便于管理并节约成本。然而这种做法存在一定的风险，即云平台的可用性是否得到保障。可用性是指软件系统在一段给定时间内正常工作的时间占总时间的比重，通常用百分比来衡量。

云计算平台将各种IT资源以服务的方式通过互联网交付给用户。其中，虚拟化技术实现了IT资源的逻辑抽象和统一表示，是支撑云计算最重要的技术基石。目前，较为成熟的开源或商业云平台产品中，使用最为广泛的容错方案有两种，即虚拟机重启和虚拟机热备份。虚拟机重启是指在一个集群中，某个物理机出现故障，发生故障的物理机上的虚拟机将会在物理机集群上的某一个正常运行的物理机上重启，以达到物理机故障消除的目的。虚拟机热备份是通过虚拟机同步技术，将一台主虚拟机的状态实时传输到另一台从虚拟机上去，主虚拟机失效后，从虚拟机可以继续提供服务。

这两种方案初见成效，但很难大幅度提升整体云计算。问题表现在：1、CPU、内存资源消耗过多。云计算平台中资源是按照使用量计费的，过多的资源用以提供非功能需求将会导致资源利用率过低和成本增加。例如虚拟机热备份中，资源使用率仅有50％，因此仅有少数关键虚拟机使用该方案。2、容错效果不佳，例如仅能屏蔽物理机故障。在云计算平台中，按照体系结构自上而下的层次关系可以划分为四层，应用/服务层，虚拟机层，物理机层，以及集群层。针对不同层面的故障，应有针对性的容错方案。而上述的虚拟机重启和虚拟机热备份仅能屏蔽物理机层故障。3、容错方案难以动态调整。云计算平台是一个复杂且易变的开放性环境，所以容错配置应该根据当前系统状态做出自适应调整。而目前云平台下的容错方案的调整需要管理员手动调整。

由此可见，目前云计算平台的容错策略以及容错配置方法难以满足高可用的需求。

发明内容

为解决现有技术的不足，提供一种基于有机计算的容错服务组合方法，这种方法可以监测并收集系统中虚拟机的运行信息，对用户需求与系统运行信息的分析，选择合适的容错方案，并自动化的配置到云计算平台中，提高系统的高可用性。

为实现上述目的，本发明采用以下技术方案：

一种云计算服务器的容错组合方法，包括以下步骤：

步骤一，用户通过可视化界面发起协同任务，系统为该请求分配一个唯一的标识符，该标识符旨在让配置模块找到最合适的配置计划，以促进发现并最大限度地减少其服务数量；

步骤二，将步骤一中的请求发送到查询模块当中，在该模块当中，去服务提供商注册中心查询出响应该请求的服务模块列表，注册中心可以提供大量功能相同但服务质量不同的服务，因此需要选择具体配置计划中的候选服务，拟定候选服务清单；

步骤三，将步骤二的候选服务清单发送到选择和计划模块中，然后在选择和计划模块中起草准备执行的配置计划，并将该计划将被存档在日志中，以便可能的重复使用；

步骤四，该计划被发送到配置模块/重新配置模块，等待接收到分析和分类模块恢复空闲虚拟机列表后，该配置模块选择将执行该计划的虚拟机集群并将该计划转发给它们来进行处理；

步骤五，通过监视器模块来监测虚拟机集群的执行情况；若执行成功，则将每个虚拟机执行的结果发送给分析和分类模块；若执行失败，则将错误信息存入到日志中，并携带请求拟定候选服务清单，跳转至步骤二重新执行；

步骤六，将步骤五中得到的结果进行分析；如果执行成功，则将最终结果并将其发送到用户界面，将结果展现给用户；若执行失败，则将故障发送到故障识别模块，由其使用对应的容错技术来检查出详细出错原因，并将经容错技术处理之后的信息打包为一个新的任务计划，最后跳转到步骤四执行。

监视器模块的目标是执行虚拟机和运行服务上可用信息的聚合，以给出底层系统的状态和动态的全局描述，称为情况参数，监视器的检测数据如下：

1、注册数据:服务具有动态可用性。供应商变更时，可随时发布、修改或从注册簿中删除。系统需要知道服务中的变化，例如，能够合并可用的新服务或停止使用不可用的服务。为了便于这项工作，登记处将通知监测员，监测员必须考虑这些因素，以便系统适应新的状态；

2、来自虚拟机集群的数据:它包含来自与服务执行相关的虚拟机的数据，例如，执行结果、每个虚拟机的任务进度状态以及空闲虚拟机列表，以便配置模块选择执行协同任务的虚拟机。为了实现高效和主动的资源分配，并避免故障期间的供应，必须持续监控云中虚拟机的运行状况。

为了监测故障原因，使用了一种故障检测机制：该机制监控每个虚拟机的响应时间或执行进度。它通常用于通过验证设备的响应时间是否超过阈值来检测设备故障，或者定期监控节点的活动。监视器周期性地轮询机器，比如3次余震，这些机器中的每一个都向监视器发送消息，在接收到消息时开始执行“离开时间”，因为机器可能由于带宽而不能同时接收消息，并且机器可能不在相同的物理位置。然后对于一个规则的间隔Q，他们发送消息指示执行的连续性。如果监视器在“定时器到期”时间内没有收到消息，它会等待另一个时间段，即2Q，因为消息接收不良可能是由于网络问题(图2)。如果监视器在2Q内没有接收到该消息，它就宣布机器已经发生故障。

为了对用户透明地管理故障，虚拟机的详细信息及其在云计算中的功能存储在日志文件中，以及处理的所有请求的计划(每个组合的计划)。已注册虚拟机的数据用于减少系统故障概况和开发容错模型故障。虽然配置计划（响应请求的计划）用于减少回答的时间，即不是重新安排组合，但如果有一个计划回答了此请求，则计划和选择会在历史中搜索，否则它会从一开始就进行计划。为了避免备份过载，很少可用的查询将被删除。

本发明的优点：

1、高可用。用户的任务被分配多个虚拟机上处理时，在处理的过程中，若某个虚拟机发生故障，则容错机制会重新为该子任务分配一个空闲虚拟机，来继续处理用户的任务。

2、资源利用率高。由于记录了出错任务的信息，则只需将这一个子任务放入到另一个空闲虚拟机当中执行，而不用将整个协同任务重新处理。

3、透明容错。当用户的任务在虚拟机上处理的过程当中发生错误时，这个错误会由系统内部处理，而不会报告给用户。

本发明要解决的技术问题在于，针对现有云计算平台中资源消耗过多、容错性能不足、配置复杂、无法动态配置的问题，提出了一种基于“有机计算”的容错服务组合架构。本发明，通过监测运行时软件体系结构收集系统中虚拟机的运行时信息，通过对用户需求与系统运行时信息的分析，选择当前系统合适的容错方案，并自动化的配置到云计算平台中，以此来提高系统的高可用性。

附图说明

图1 为本发明“有机计算”容错服务组合架构执行流程示意图。

图2 为本发明当中监测器监测虚拟机是否正常运作示意图。

具体实施方式

参照附图，本发明是一种云计算服务器的容错组合方法，其主要作用是提高容错性能，以达到提升资源有效利用率的目的。

接下来将结合用户发出组合请求为例，说明具体的实施步骤：

步骤1.1，用户通过可视化界面发起协同任务，即组合请求。

步骤1.2，系统会为该请求分配一个唯一的标识符，该标识符旨在让配置模块找到最合适的配置计划，以促进发现并最大限度地减少其服务数量。

步骤2.1，将步骤1中的组合请求发送到查询模块当中。

步骤2.2，查询模块会去服务提供商的注册中心查询出响应该组合请求的服务模块列表。注册中心可以提供大量功能相同但服务质量不同的服务，因此需要选择具体配置计划中的候选服务，拟定候选服务清单。

步骤2.3，将候选服务清单发送到选择和计划模块中。

步骤3.1，在选择和计划模块中，基于步骤2发送过来的候选服务清单来起草准备执行的配置计划。

步骤3.2，将该配置计划存档在日志中，以便可能的重复使用，特别是出错时会使用到。

步骤3.3，将该计划发送到配置模块/重新配置模块。

步骤4.1，此时虽已接收到了步骤3中的配置计划，但需要等待分析和分类模块发送过来的空闲虚拟机列表后，才可进行配置。

步骤4.2，当接收到分析和分类模块发送过来的空闲虚拟机列表后，然后配置模块根据该空闲虚拟机列表和步骤3中的配置计划来为用户选择处理用户协同任务的虚拟机集群。

步骤4.3，最后由虚拟机集群来处理用户的协同任务。

步骤5，通过监视器模块来监测虚拟机集群的执行情况。若执行成功，则将每个虚拟机执行的结果发送给分析和分类模块；若执行失败，则将错误信息存入到日志中，并从日志文件中取出请求拟定候选服务清单，跳转至步骤2重新执行。

步骤6，对步骤5中得到的结果进行分析。若结果无误，则将最终结果发送到可视化界面，将结果展现给用户；若执行失败，则将错误结果发送到故障识别模块，由其使用对应的容错技术来检查出详细出错原因，并携带错误信息跳转到步骤4执行。

Claims

1.一种云计算服务器的容错组合方法，其特征在于包括以下步骤：

步骤一，用户通过可视化界面发起协同任务，系统为该任务分配一个唯一的标识符，该标识用于让配置模块找到最合适的配置计划，以发现并最大限度地减少其服务数量；

步骤二，将步骤一中的任务发送到查询模块当中，在该模块当中，去服务提供商注册中心查询出响应该请求的服务模块列表，注册中心提供大量功能相同但服务质量不同的服务，需要选择具体配置计划中的候选服务，拟定候选服务清单；

步骤三，将步骤二的候选服务清单发送到选择和计划模块中，然后在选择和计划模块中起草准备执行的配置计划，并将该计划将被存档在日志中，以便重复使用；

步骤四，该计划被发送到配置模块或重新配置模块，等待接收到分析和分类模块恢复空闲虚拟机列表后，该配置模块或重新配置模块选择将执行该计划的虚拟机集群并将该计划转发给虚拟机集群来进行处理；