CN112527469B - 一种云计算服务器的容错组合方法 - Google Patents

一种云计算服务器的容错组合方法 Download PDF

Info

Publication number
CN112527469B
CN112527469B CN202011586362.5A CN202011586362A CN112527469B CN 112527469 B CN112527469 B CN 112527469B CN 202011586362 A CN202011586362 A CN 202011586362A CN 112527469 B CN112527469 B CN 112527469B
Authority
CN
China
Prior art keywords
module
virtual machine
plan
fault
execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011586362.5A
Other languages
English (en)
Other versions
CN112527469A (zh
Inventor
程宏兵
朱思
江灿
王本安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202011586362.5A priority Critical patent/CN112527469B/zh
Publication of CN112527469A publication Critical patent/CN112527469A/zh
Application granted granted Critical
Publication of CN112527469B publication Critical patent/CN112527469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)

Abstract

一种云计算服务器的容错组合方法,系统为协同任务请求分配一个的标识符,将请求对应查询相关服务模块列表;将服务清单发送到选择和计划模块中准备执行;等待接收到分析和分类模块恢复空闲虚拟机列表后,该配置模块选择将执行该计划的虚拟机集群并将该计划转发及处理;监视器模块来监测虚拟机集群的执行情况。本发明具有高可用、资源利用率高、透明容错的优点。

Description

一种云计算服务器的容错组合方法
技术领域
本发明涉及一种容错配置方法,特别涉及一种云计算服务器的容错组合方法。
背景技术
随着云计算的快速发展以及云计算平台提供商的迅速增多,越来越多的团体、组织、或机构将原本部署在内部数据中心的资源或服务转移至云计算平台上,以便于管理并节约成本。然而这种做法存在一定的风险,即云平台的可用性是否得到保障。可用性是指软件系统在一段给定时间内正常工作的时间占总时间的比重,通常用百分比来衡量。
云计算平台将各种IT资源以服务的方式通过互联网交付给用户。其中,虚拟化技术实现了IT资源的逻辑抽象和统一表示,是支撑云计算最重要的技术基石。目前,较为成熟的开源或商业云平台产品中,使用最为广泛的容错方案有两种,即虚拟机重启和虚拟机热备份。虚拟机重启是指在一个集群中,某个物理机出现故障,发生故障的物理机上的虚拟机将会在物理机集群上的某一个正常运行的物理机上重启,以达到物理机故障消除的目的。虚拟机热备份是通过虚拟机同步技术,将一台主虚拟机的状态实时传输到另一台从虚拟机上去,主虚拟机失效后,从虚拟机可以继续提供服务。
这两种方案初见成效,但很难大幅度提升整体云计算。问题表现在:1、CPU、内存资源消耗过多。云计算平台中资源是按照使用量计费的,过多的资源用以提供非功能需求将会导致资源利用率过低和成本增加。例如虚拟机热备份中,资源使用率仅有50%,因此仅有少数关键虚拟机使用该方案。2、容错效果不佳,例如仅能屏蔽物理机故障。在云计算平台中,按照体系结构自上而下的层次关系可以划分为四层,应用/服务层,虚拟机层,物理机层,以及集群层。针对不同层面的故障,应有针对性的容错方案。而上述的虚拟机重启和虚拟机热备份仅能屏蔽物理机层故障。3、容错方案难以动态调整。云计算平台是一个复杂且易变的开放性环境,所以容错配置应该根据当前系统状态做出自适应调整。而目前云平台下的容错方案的调整需要管理员手动调整。
由此可见,目前云计算平台的容错策略以及容错配置方法难以满足高可用的需求。
发明内容
为解决现有技术的不足,提供一种基于有机计算的容错服务组合方法,这种方法可以监测并收集系统中虚拟机的运行信息,对用户需求与系统运行信息的分析,选择合适的容错方案,并自动化的配置到云计算平台中,提高系统的高可用性。
为实现上述目的,本发明采用以下技术方案:
一种云计算服务器的容错组合方法,包括以下步骤:
步骤一,用户通过可视化界面发起协同任务,系统为该请求分配一个唯一的标识符,该标识符旨在让配置模块找到最合适的配置计划,以促进发现并最大限度地减少其服务数量;
步骤二,将步骤一中的请求发送到查询模块当中,在该模块当中,去服务提供商注册中心查询出响应该请求的服务模块列表,注册中心可以提供大量功能相同但服务质量不同的服务,因此需要选择具体配置计划中的候选服务,拟定候选服务清单;
步骤三,将步骤二的候选服务清单发送到选择和计划模块中,然后在选择和计划模块中起草准备执行的配置计划,并将该计划将被存档在日志中,以便可能的重复使用;
步骤四,该计划被发送到配置模块/重新配置模块,等待接收到分析和分类模块恢复空闲虚拟机列表后,该配置模块选择将执行该计划的虚拟机集群并将该计划转发给它们来进行处理;
步骤五,通过监视器模块来监测虚拟机集群的执行情况;若执行成功,则将每个虚拟机执行的结果发送给分析和分类模块;若执行失败,则将错误信息存入到日志中,并携带请求拟定候选服务清单,跳转至步骤二重新执行;
步骤六,将步骤五中得到的结果进行分析;如果执行成功,则将最终结果并将其发送到用户界面,将结果展现给用户;若执行失败,则将故障发送到故障识别模块,由其使用对应的容错技术来检查出详细出错原因,并将经容错技术处理之后的信息打包为一个新的任务计划,最后跳转到步骤四执行。
监视器模块的目标是执行虚拟机和运行服务上可用信息的聚合,以给出底层系统的状态和动态的全局描述,称为情况参数,监视器的检测数据如下:
1、注册数据:服务具有动态可用性。供应商变更时,可随时发布、修改或从注册簿中删除。系统需要知道服务中的变化,例如,能够合并可用的新服务或停止使用不可用的服务。为了便于这项工作,登记处将通知监测员,监测员必须考虑这些因素,以便系统适应新的状态;
2、来自虚拟机集群的数据:它包含来自与服务执行相关的虚拟机的数据,例如,执行结果、每个虚拟机的任务进度状态以及空闲虚拟机列表,以便配置模块选择执行协同任务的虚拟机。为了实现高效和主动的资源分配,并避免故障期间的供应,必须持续监控云中虚拟机的运行状况。
为了监测故障原因,使用了一种故障检测机制:该机制监控每个虚拟机的响应时间或执行进度。它通常用于通过验证设备的响应时间是否超过阈值来检测设备故障,或者定期监控节点的活动。监视器周期性地轮询机器,比如3次余震,这些机器中的每一个都向监视器发送消息,在接收到消息时开始执行“离开时间”,因为机器可能由于带宽而不能同时接收消息,并且机器可能不在相同的物理位置。然后对于一个规则的间隔Q,他们发送消息指示执行的连续性。如果监视器在“定时器到期”时间内没有收到消息,它会等待另一个时间段,即2Q,因为消息接收不良可能是由于网络问题(图2)。如果监视器在2Q内没有接收到该消息,它就宣布机器已经发生故障。
为了对用户透明地管理故障,虚拟机的详细信息及其在云计算中的功能存储在日志文件中,以及处理的所有请求的计划(每个组合的计划)。已注册虚拟机的数据用于减少系统故障概况和开发容错模型故障。虽然配置计划(响应请求的计划)用于减少回答的时间,即不是重新安排组合,但如果有一个计划回答了此请求,则计划和选择会在历史中搜索,否则它会从一开始就进行计划。为了避免备份过载,很少可用的查询将被删除。
本发明的优点:
1、高可用。用户的任务被分配多个虚拟机上处理时,在处理的过程中,若某个虚拟机发生故障,则容错机制会重新为该子任务分配一个空闲虚拟机,来继续处理用户的任务。
2、资源利用率高。由于记录了出错任务的信息,则只需将这一个子任务放入到另一个空闲虚拟机当中执行,而不用将整个协同任务重新处理。
3、透明容错。当用户的任务在虚拟机上处理的过程当中发生错误时,这个错误会由系统内部处理,而不会报告给用户。
本发明要解决的技术问题在于,针对现有云计算平台中资源消耗过多、容错性能不足、配置复杂、无法动态配置的问题,提出了一种基于“有机计算”的容错服务组合架构。本发明,通过监测运行时软件体系结构收集系统中虚拟机的运行时信息,通过对用户需求与系统运行时信息的分析,选择当前系统合适的容错方案,并自动化的配置到云计算平台中,以此来提高系统的高可用性。
附图说明
图1 为本发明“有机计算”容错服务组合架构执行流程示意图。
图2 为本发明当中监测器监测虚拟机是否正常运作示意图。
具体实施方式
参照附图,本发明是一种云计算服务器的容错组合方法,其主要作用是提高容错性能,以达到提升资源有效利用率的目的。
接下来将结合用户发出组合请求为例,说明具体的实施步骤:
步骤1.1,用户通过可视化界面发起协同任务,即组合请求。
步骤1.2,系统会为该请求分配一个唯一的标识符,该标识符旨在让配置模块找到最合适的配置计划,以促进发现并最大限度地减少其服务数量。
步骤2.1,将步骤1中的组合请求发送到查询模块当中。
步骤2.2,查询模块会去服务提供商的注册中心查询出响应该组合请求的服务模块列表。注册中心可以提供大量功能相同但服务质量不同的服务,因此需要选择具体配置计划中的候选服务,拟定候选服务清单。
步骤2.3,将候选服务清单发送到选择和计划模块中。
步骤3.1,在选择和计划模块中,基于步骤2发送过来的候选服务清单来起草准备执行的配置计划。
步骤3.2,将该配置计划存档在日志中,以便可能的重复使用,特别是出错时会使用到。
步骤3.3,将该计划发送到配置模块/重新配置模块。
步骤4.1,此时虽已接收到了步骤3中的配置计划,但需要等待分析和分类模块发送过来的空闲虚拟机列表后,才可进行配置。
步骤4.2,当接收到分析和分类模块发送过来的空闲虚拟机列表后,然后配置模块根据该空闲虚拟机列表和步骤3中的配置计划来为用户选择处理用户协同任务的虚拟机集群。
步骤4.3,最后由虚拟机集群来处理用户的协同任务。
步骤5,通过监视器模块来监测虚拟机集群的执行情况。若执行成功,则将每个虚拟机执行的结果发送给分析和分类模块;若执行失败,则将错误信息存入到日志中,并从日志文件中取出请求拟定候选服务清单,跳转至步骤2重新执行。
步骤6,对步骤5中得到的结果进行分析。若结果无误,则将最终结果发送到可视化界面,将结果展现给用户;若执行失败,则将错误结果发送到故障识别模块,由其使用对应的容错技术来检查出详细出错原因,并携带错误信息跳转到步骤4执行。

Claims (1)

1.一种云计算服务器的容错组合方法,其特征在于包括以下步骤:
步骤一,用户通过可视化界面发起协同任务,系统为该任务分配一个唯一的标识符,该标识用于让配置模块找到最合适的配置计划,以发现并最大限度地减少其服务数量;
步骤二,将步骤一中的任务发送到查询模块当中,在该模块当中,去服务提供商注册中心查询出响应该请求的服务模块列表,注册中心提供大量功能相同但服务质量不同的服务,需要选择具体配置计划中的候选服务,拟定候选服务清单;
步骤三,将步骤二的候选服务清单发送到选择和计划模块中,然后在选择和计划模块中起草准备执行的配置计划,并将该计划将被存档在日志中,以便重复使用;
步骤四,该计划被发送到配置模块或重新配置模块,等待接收到分析和分类模块恢复空闲虚拟机列表后,该配置模块或重新配置模块选择将执行该计划的虚拟机集群并将该计划转发给虚拟机集群来进行处理;
步骤五,通过监视器模块来监测虚拟机集群的执行情况;若执行成功,则将每个虚拟机执行的结果发送给分析和分类模块;若执行失败,则将错误信息存入到日志中,并携带请求拟定候选服务清单,跳转至步骤二重新执行;
步骤六,将步骤五中得到的结果进行分析;如果执行成功,则将最终结果并将其发送到用户界面,将结果展现给用户;若执行失败,则将故障发送到故障识别模块,由其使用对应的容错技术来检查出详细出错原因,并将经容错技术处理之后的信息打包为一个新的任务计划,最后跳转到步骤四执行。
CN202011586362.5A 2020-12-29 2020-12-29 一种云计算服务器的容错组合方法 Active CN112527469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011586362.5A CN112527469B (zh) 2020-12-29 2020-12-29 一种云计算服务器的容错组合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011586362.5A CN112527469B (zh) 2020-12-29 2020-12-29 一种云计算服务器的容错组合方法

Publications (2)

Publication Number Publication Date
CN112527469A CN112527469A (zh) 2021-03-19
CN112527469B true CN112527469B (zh) 2024-03-01

Family

ID=74977620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011586362.5A Active CN112527469B (zh) 2020-12-29 2020-12-29 一种云计算服务器的容错组合方法

Country Status (1)

Country Link
CN (1) CN112527469B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113037569A (zh) * 2021-04-19 2021-06-25 杭州和利时自动化有限公司 一种基于双服务器的冗余服务方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101969475A (zh) * 2010-11-15 2011-02-09 张军 基于云计算的商业数据可控分发与融合应用系统
CN102394774A (zh) * 2011-10-31 2012-03-28 广东电子工业研究院有限公司 云计算操作系统的控制器服务状态监控和故障恢复方法
CN103024060A (zh) * 2012-12-20 2013-04-03 中国科学院深圳先进技术研究院 一种开放式云计算大规模集群监控系统及方法
CN103778031A (zh) * 2014-01-15 2014-05-07 华中科技大学 一种云环境下的分布式系统多级故障容错方法
KR20150074708A (ko) * 2013-12-24 2015-07-02 주식회사 케이티 클라우드 시스템에서의 가상 머신 배치 방법 및 장치
CN107885577A (zh) * 2017-11-08 2018-04-06 滁州学院 一种基于任务主副本和重提交结合的云计算资源混合式容错调度方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101969475A (zh) * 2010-11-15 2011-02-09 张军 基于云计算的商业数据可控分发与融合应用系统
CN102394774A (zh) * 2011-10-31 2012-03-28 广东电子工业研究院有限公司 云计算操作系统的控制器服务状态监控和故障恢复方法
CN103024060A (zh) * 2012-12-20 2013-04-03 中国科学院深圳先进技术研究院 一种开放式云计算大规模集群监控系统及方法
KR20150074708A (ko) * 2013-12-24 2015-07-02 주식회사 케이티 클라우드 시스템에서의 가상 머신 배치 방법 및 장치
CN103778031A (zh) * 2014-01-15 2014-05-07 华中科技大学 一种云环境下的分布式系统多级故障容错方法
CN107885577A (zh) * 2017-11-08 2018-04-06 滁州学院 一种基于任务主副本和重提交结合的云计算资源混合式容错调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向IaaS的云计算系统可用性评估;李阿妮;张晓;赵晓南;张伯阳;柳春懿;;计算机科学;20161015(第10期);全文 *

Also Published As

Publication number Publication date
CN112527469A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
US11477105B2 (en) Monitoring of replicated data instances
US10983880B2 (en) Role designation in a high availability node
US9141491B2 (en) Highly available server system based on cloud computing
US8839035B1 (en) Cloud-based test execution
EP3276492B1 (en) Failover and recovery for replicated data instances
CN105659562B (zh) 一种用于容障的方法和数据处理系统和包括用于容障的计算机可用代码的存储设备
US20140122941A1 (en) Auxiliary method, apparatus and system for diagnosing failure of virtual machine
CN109343939B (zh) 一种分布式集群及并行计算任务调度方法
WO2017114325A1 (zh) 故障处理方法、装置及系统
CN111338774A (zh) 分布式定时任务调度系统及计算装置
CN103164283A (zh) 一种虚拟桌面系统中虚拟化资源动态调度管理方法及系统
US20110191627A1 (en) System And Method for Handling a Failover Event
CN102833310B (zh) 一种基于虚拟化技术的工作流引擎集群系统
US10616313B2 (en) Scalable monitoring of long running multi-step data intensive workloads
CN105373431A (zh) 一种计算机系统资源的管理方法及计算机资源管理系统
CN104158707A (zh) 一种检测并处理集群脑裂的方法和装置
US20210406127A1 (en) Method to orchestrate a container-based application on a terminal device
CN110727508A (zh) 一种任务调度系统和调度方法
CN111143170A (zh) 云手机监控系统和方法
CN112527469B (zh) 一种云计算服务器的容错组合方法
CN107368324A (zh) 一种组件升级方法、装置和系统
CN105373563B (zh) 数据库切换方法及装置
CN111835809B (zh) 工单消息分配方法、装置、服务器及存储介质
US10990385B1 (en) Streaming configuration management
CN114598591B (zh) 嵌入式平台节点故障恢复系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant