CN109151045B - 一种分布式云系统及监控方法 - Google Patents

一种分布式云系统及监控方法 Download PDF

Info

Publication number
CN109151045B
CN109151045B CN201811043841.5A CN201811043841A CN109151045B CN 109151045 B CN109151045 B CN 109151045B CN 201811043841 A CN201811043841 A CN 201811043841A CN 109151045 B CN109151045 B CN 109151045B
Authority
CN
China
Prior art keywords
computing
node
target
nodes
computing node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811043841.5A
Other languages
English (en)
Other versions
CN109151045A (zh
Inventor
徐鹏
韩庆绵
李振豪
章润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
CETC 54 Research Institute
Original Assignee
Beijing University of Posts and Telecommunications
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications, CETC 54 Research Institute filed Critical Beijing University of Posts and Telecommunications
Priority to CN201811043841.5A priority Critical patent/CN109151045B/zh
Publication of CN109151045A publication Critical patent/CN109151045A/zh
Application granted granted Critical
Publication of CN109151045B publication Critical patent/CN109151045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种分布式云系统及监控方法,该方法包括:分布式连接的多个云平台,每个云平台为一个节点;所有节点呈环状依次进行监控;所述节点分为Master节点和多个计算节点,其中:所述Master节点,用于发送同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若目标计算节点的计算资源不足以处理目标任务时,所述目标计算节点选取已备份所述目标计算节点的计算资源的其他计算节点对所述目标任务进行处理;所述计算节点,用于对用户提交的所述目标任务进行计算或存储数据。本发明实施例解决了用户在资源受限环境中使用单个云平台时,由于单个云平台中的资源不足,导致计算能力不足的问题。

Description

一种分布式云系统及监控方法
技术领域
本发明实施例涉及云计算技术领域,尤其涉及一种分布式云系统及监控方法。
背景技术
云计算技术的出现是近年来信息技术发展的又一里程碑,随着云计算技术的不断发展成熟,云计算的各项技术特性受到越来越多的认可。
在当前的云计算技术中,尤其是基础架构即服务(Infrastructure as aService,以下简称IaaS)云实践中,云计算平台的规模化应用场景居多,甚至有规模越来越大的趋势。在云计算的规模化应用场景中,云平台的建设者往往倾向于首先建设大规模的数据中心,然后在大规模的数据中心部署云计算平台软件,进而将大规模的数据中心升级为大规模的云计算数据中心。在此场景中,云计算的动态的资源调度和控制能力使得整个数据中心的(服务器)硬件利用率得到了极大的提升,同时通过资源调度技术与服务器能耗管理技术的整合也进一步提高了整个数据中心的能耗利用率,考虑到数据中心的规模化效应,云计算的引入为大规模数据中心带来了可观的成本的降低和利润的提升。但是这种大规模化的云平台的建设也带来了一系列的问题,如:云数据中心对场地、供电、带宽等提出了极高的要求,往往会在云数据中心所在地形成用电的热点,甚至可能影响周边区域的供电。而从安全角度看,这种大规模建设的云数据中心也不得不面对更加严重的安全风险。因此,云平台的建设者通过建立规模较小的单一云平台,以减小建设难度。
然而在资源受限环境的应用场景中,单一云平台由于规模小,资源少以及计算能力不足等因素,使得用户在使用单一云平台时,由于资源不足,导致云平台对用户提交的任务出现计算能力不足的问题。
发明内容
本发明实施例为解决现有技术中单一云平台处理数据出现资源不足的缺陷,提供了一种分布式云系统及监控方法。
第一方面,本发明实施例提供了一种分布式云系统,包括:分布式连接的多个云平台,每个云平台为一个节点;所有节点呈环状依次进行监控;所述节点分为Master节点和多个计算节点,其中:所述Master节点,用于发送同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若目标计算节点的计算资源不足以处理目标任务时,所述目标计算节点选取已备份所述目标计算节点的计算资源的其他计算节点对所述目标任务进行处理;所述计算节点,用于对用户提交的所述目标任务进行计算或存储数据。
第二方面,本发明实施例提供了一种基于第一方面所述的分布式云系统的监控方法,包括:获取多个计算节点的数据信息,根据所述数据信息生成同步数据指令;发送所述同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据进行数据同步,若目标计算节点的计算资源不足以处理目标任务时,所述目标计算节点选取已备份所述目标计算节点的计算资源的其他计算节点对所述目标任务进行处理。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第二方面所述的分布式云系统监控方法。
第四方面,本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第二方面所述的分布式云系统监控方法。
本发明实施例提供的一种分布式云系统及监控方法,通过将多个云平台采用分布式连接构成一种分布式云系统,再从中选取一个云平台作为Master节点对其他云平台的资源进行数据同步,以使得目标计算节点的计算资源不足时,目标计算节点选取已备份其计算资源的其他计算节点对目标任务进行处理,解决了用户在资源受限环境中使用单个云平台导致的资源不足以及计算能力不足的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的分布式云系统的结构示意图;
图2为本发明实施例提供的分布式云系统监控方法的流程示意图;
图3为本发明实施例提供的分布式云系统监控方法的时序图;
图4为本发明实施例提供的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
云平台整合了互联网应用三大核心要素:计算、存储、网络,面向用户提供公用化的互联网基础设施服务。通过采用虚拟化技术,将云平台虚拟出多个类似独立主机的部分,能够实现单机多用户,通过运用高性能服务器与优质网络带宽,有效解决了传统主机租用价格偏高、服务品质参差不齐等缺点,全面满足了中小企业、个人站长用户对主机租用服务低成本,高可靠,易管理的需求。然而,随着计算资源和存储资源的需求逐渐加大,单一云平台的资源以及计算能力已无法满足用户需求,其服务质量已难以提供保障。在本发明实施例中,资源受限环境具有CPU资源、内存资源等受限制的特定,一些嵌入式设备、智能手机和配置降低的个人电脑都属于资源受环境下的应用设备。在资源受限环境下,计算密集的应用将会运行的非常缓慢,甚至无法执行。
图1为本发明实施例提供的分布式云系统的结构示意图,如图1所示,本发明实施例提供了一种分布式云系统,包括:
分布式连接的多个云平台,每个云平台为一个节点;所有节点呈环状依次进行监控;
所述节点分为Master节点101和多个计算节点102,其中:
所述Master节点101,用于发送同步数据指令到所述分布式云系统的多个计算节点102中,以供多个计算节点根据所述同步数据指令进行数据同步,若目标计算节点102的计算资源不足以处理目标任务时,所述目标计算节点102选取已备份所述目标计算节点102的计算资源的其他计算节点102对所述目标任务进行处理;
所述计算节点102,用于对用户提交的所述目标任务进行计算或存储数据。
在本发明实施例中,Master节点101和多个计算节点102都属于分布式云系统中的云平台,根据其实现的功能不同作出不同命名,在本发明实施例中,以1个Master节点101和3个计算节点102进行说明,计算节点102的具体数量在本发明实施例中不作具体限定。另外,本发明实施例提到的目标计算节点和其他节点均为本发明实施例中提供的分布式云系统中的节点,只是以其在实现功能时进行区分,在本发明实施例中不作具体限定。
具体地,首先将多个云平台通过网络进行分布式连接,每一个云平台和其他平台进行连接,并且都作为网络上的一个节点可以单独对访问其节点的用户提供计算或者存储服务,再将所有的节点通过一个监控环103依次逻辑连接,以实现每个节点对逆时针或者顺时针方向的下一个节点进行监控,由此构建成一个分布式云系统。然后在构建后的分布式云系统中选取一个节点作为Master节点101对整个分布式云系统中的计算资源、存储资源和故障等进行数据同步处理,所有的计算节点会根据Master节点的同步数据信息进行备份和同步,当目标计算节点102的计算资源不足以处理用户提交的任务时,目标计算节点102会根据在本节点中已同步的数据信息,例如,根据其他节点102的负载情况,向其他计算节点102发送切换指令,以使得已备份目标计算节点102的计算资源的其他计算节点102对用户提交的任务进行处理。此时,原目标计算节点102停止对目标任务进行处理。
在构建后的分布式云系统第一次启动时,通过网络监视工具采集所有节点的性能指标,根据采集到各节点的CPU使用率、内存利用率和网络带宽等负载情况,从所有节点中选举出一个Master节点101。此时,选举出的Master节点101拥有整个分布式云系统的最高权限,对其他节点的存储资源、计算资源以及故障进行同步控制。例如,当某些节点出现故障时,Master节点101将故障节点进行关闭。需要说明的是,倘若Master节点101出现故障,处于监控环103上和Master节点101逆时针或者顺时针方向相邻的下一个计算节点102将会取代发生故障的Master节点101,新的Master节点101将会获取整个分布式云系统的最高权限,如果新的Master节点101由于CPU使用率、内存利用率和网络宽带的负载情况过大而无法控制整个分布式云系统时,会顺势将相邻的下一个计算节点102转换成Master节点101,直到新的Master节点101可完全控制整个分布式云系统。
本发明实施例将多个单一云平台构建成一个分布式云系统,并从构建后的分布式云系统中选取一个云平台作为Master节点101,通过选取的Master节点101对整个系统中的其他计算节点102的资源进行数据同步控制,解决了用户在资源受限环境中使用单个云平台时,由于单个云平台资源不足,导致云平台对用户提交的任务出现计算能力不足的问题。
在上述实施例的基础上,可参考图1所示,所述Master节点101还用于:
发送同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若所述目标计算节点102出现故障时,其他计算节点102启动已备份所述目标计算节点102的计算资源对所述目标任务进行处理。
当分布式云系统中的某个计算节点102在接收到用户任务请求后出现故障,监控节点监控到出现故障的计算节点102长时间未响应,此时监控节点会发送故障更新信息到其他计算节点,其他节点根据故障更新信息查找是否已备份故障计算节点102的计算资源的同步数据,以及自身节点运行状态,例如,负载情况,判断是否替代故障节点进行相应的用户服务,若监控节点中已备份故障节点的同步数据,此时监控节点也可以根据运行状态选择是否代替故障节点对目标任务进行处理。另外,由于分布式云系统上的每个节点都采用环状依次监控的方式,因此,当被监控的节点发生故障时,监控节点将会跳过发生故障的节点而监控下一个节点。
本发明实施例中,Master节点101发送同步数据指令到各个计算节点中,以供其他计算节点代替故障节点处理目标任务,当用户提交的任务需要故障节点执行时,若其他计算节点根据Master节点101发送的同步数据备份了故障节点的计算资源,将代替故障节点继续执行目标任务,从而保证用户的任务顺利进行,同时提高了整个系统的可用性。
图2为本发明实施例提供的分布式云系统监控方法的流程示意图,如图2所示,本发明实施例提供了一种分布式云系统监控方法,包括:
步骤201,获取多个计算节点的数据信息,根据所述数据信息生成同步数据指令;
步骤202,发送所述同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若目标计算节点的计算资源不足以处理目标任务时,所述目标计算节点选取已备份所述目标计算节点的计算资源的其他计算节点对所述目标任务进行处理。
在上述实施例提供的分布式云系统中,对本发明实施例提供的分布式云系统监控方法进行说明。在本发明实施例中,执行主体为Master节点,通过步骤201,Master节点获取到各计算节点的同步数据,其中同步数据包括有计算节点的运行状态,例如,CPU使用率、内存利用率和网络带宽的负载情况,并且,通过Master节点将同步数据发送到分布式云系统的各个计算节点中,如果目标计算节点的负载率过高,此时目标计算节点将会根据同步数据,向已备份目标计算节点的计算资源的其他节点发送指令,并选取其处于低负载或者空闲的节点的其他计算资源对目标任务处理数据。
本发明实施例中,目标计算节点根据Master节点发送的同步数据指令,获取到其他计算节点的数据同步情况,当目标计算节点的计算资源不足时,从分布式云系统中的其他计算节点中选取符合条件的计算节点完成目标任务,有效的解决了单个云平台资源不足的问题,进一步提高了分布式云系统中各节点的资源利用率。
在上述实施例的基础上,所述方法还包括:
发送所述同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若所述目标计算节点出现故障时,其他计算节点启动已备份所述目标计算节点的计算资源对所述目标任务进行处理。
在上述实施例提供的分布式云系统工作时,每个节点主要被用于分布式云系统中某个特定区域或领域的用户,此时各个节点相对独立运作;在某一节点出现故障时,处于同一分布式云系统的其他节点将启用已备份的故障节点的计算资源供用户使用。需要说明的是,其他节点的计算资源中包含故障节点相应计算资源的备份,并且根据自身的运行状态,从而判断是否来替代故障节点进行相应的用户服务。
另外,当一个计算节点出现故障时,Master节点可以将计算节点上运行的虚拟机镜像通过热迁移技术在不停机的情况下迁移至其他空闲节点。当计算节点出现物理损坏时,也可以在3分钟左右将计算节点上的业务迁移至其他节点运行,具有较高的可靠性。
本发明实施例中,当用户提交的任务需要故障节点执行时,其他计算节点通过Master节点发送的同步数据指令完成同步,并将已备份故障节点的计算资源启动,保证了用户任务顺利完成,同时提高了整个系统的可用性,从而提高了分布式云系统的资源利用率。
在上述实施例的基础上,具体地,所述发送所述同步数据指令到所述分布式云系统的多个计算节点中,包括:
发送所述同步数据指令到所述分布式云系统中的多个计算节点中,以供每个计算节点之间进行用户数据备份和虚拟机镜像备份。
若有新增用户提交目标任务到所述分布式云系统中,则获取新增用户对应的操作日志;
发送所述新增用户对应的操作日志到其他计算节点,以供其他计算节点对新增用户数据进行所述用户数据备份。
Master节点对处于分布式云系统中的每个计算节点发送同步数据指令,使每个计算节点中都备份有其他计算节点的用户数据,而虚拟机镜像则在处理相同或相似领域的节点之间进行备份,也可根据分布式云系统的运用需求,在整个分布式云系统资源充足的情况下,将虚拟机镜像在每个节点中进行备份。其中,每个计算节点中的虚拟机镜像的备份也可以直接通过各个计算节点自行向其他计算节点发送备份请求。
在本发明实施例中,分布式云系统中的每个节点可以单独的为用户提供服务,用户可以通过登入任意节点连接到系统中,并且正常的使用云服务。因此在每个节点之间需要进行用户数据的备份,同时为了保证分布式云系统的高可用性,用户使用的虚拟机镜像数据也需要进行同步备份。其中,用户数据通过数据一致性协议来进行同步备份,虚拟机镜像则通过网络传输的方式备份到其他节点,保证任意节点故障后能够通过其他节点及时处理用户任务。
具体地,当有新增用户通过任意节点登入到上述实施例提供的分布式云系统时,Master节点的将所有新增用户的任务请求收集后统一处理,并且Master节点为每一个新增用户的任务请求创建对应的操作日志,然后将操作日志发送至其他节点。当所有节点接收操作日志后,每个节点都会对新增用户数据进行备份。另外,Master节点会通过操作日志指定具有和新增用户的任务请求相同或相似领域的节点对新增用户的任务请求提供服务。
本发明实施例对用户数据和虚拟机镜像进行备份,保证了分布式云系统在异常情况下的系统可用性,同时通过对虚拟机镜像的快速部署和实时备份,能较大程度提高分布式云系统的效能,确保分布式云系统中的节点能迅速从故障中恢复并继续提供服务,提高了系统的可靠性与稳定性。
另外,通过Master节点对新增用户数据和任务请求进行统一处理,使每个节点的用户数据保持一致性,并且通过操作日志合理分配新增用户的任务请求到对应的节点进行处理,提高了整个系统的高可用性,并且通过对用户数据进行备份,保证了用户数据在分布式云系统中永久不丢失。
在上述实施例的基础上,步骤202,所述发送所述同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若目标计算节点的计算资源不足以处理目标任务时,所述目标计算节点选取已备份所述目标计算节点的计算资源的其他节点对所述目标任务进行处理,还包括:
若目标计算节点的计算资源不足以处理目标任务时,则向所述分布式云系统中新增新的计算节点,所述新增新的计算节点包括开启所述分布式云系统中未开启的计算节点、开启所述分布式云系统中故障已处理的计算节点或开启新加入所述分布式云系统的计算节点;
获取所述新的计算节点的注册信息;
发送所述新的计算节点的注册信息到其他计算节点,以供所述新的计算节点加入到所述分布式云系统中。
图3为本发明实施例提供的分布式云系统监控方法的时序图,如图3所示,具体步骤包括:
步骤S1,新的计算平台向Master节点发送注册信息;
步骤S2,Master节点更新本地的备份数据;
步骤S3,Master节点向其他节点发送同步数据的指令;
步骤S4,其他节点在本地更新并同步新的计算节点的备份数据;
步骤S5,其他节点向Master节点发送更新后的同步数据;
步骤S6,Master节点向新的计算节点发送同步数据指令;
步骤S7,新的计算节点在本地更新同步数据。
若目标计算节点的计算资源不足以处理目标任务,目标节点通过选取其他节点中的计算资源还是不足以处理目标任务时,Master节点动态获取分布式云系统中所有节点的运行情况,同时收集每个节点的CPU使用率、内存利用率和网络带宽的使用情况,综合所有节点的CPU负载情况来判断系统的负载是否过重。若此时系统中的大部分节点都处于高负载状态,导致没有合适的节点处理目标任务,此时,Master节点通过开启分布式云系统中未开启的计算节点、故障已处理的计算节点或开启新加入的计算节点,从而减轻分布式云系统的压力,并且将开启的新的计算节点的注册信息发送到其他节点,以供新的计算节点对目标任务进行处理,同时其他节点和新的计算节点重新构成新的监控环。
通过在分布式云系统中加入新的节点,实现动态的资源调整与分配,避免了资源不足的情况,实现了分布式云系统的高可用性。
在上述实施例的基础上,在所述发送所述同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若所述目标计算节点出现故障时,其他计算节点启动已备份所述目标计算节点的计算资源对所述目标任务进行处理之前,包括:
对所述目标计算节点进行主动探测,若所述目标计算节点未响应,则向任意其他计算节点发送心跳包;
若接收到任意其他计算节点返回所述心跳包,则判断获知所述目标计算节点发生故障;
若没有接收到任意其他计算节点返回所述心跳包,则判断获知所述分布式云系统的网络出现故障。
为了能够及时检测出故障节点,将上述实施例提供的分布式系统中的每个节点通过IP或者唯一性进行标识,并将每个节点依次分布在一个监控环上,天然的形成一个监控环。监控环中每个节点,主动对其逆时针或者顺时针方向的下一个节点进行主动探测,判断被监控节点的运行状况。在本发明实施例中,以Master节点为监控节点进行说明,当Master节点向逆时针方向的下一个节点进行监控,如果Master节点发送3次主动探测后,未收到被监控节点的响应信息,则向监控环中其他节点发送心跳包,如果此时有任意节点响应,则Master节点判断被监控节点出现故障;如果此时未收到其他任意节点的响应信息,则Master节点判断周围网络出现故障。需要说明的是,本发明实施例提供的监控机制对其他节点同样适用,在此不对节点的类型作具体限定。
通过建立简易的监控环机制对分布式云系统中的各个节点进行监控,更加准确的判断出故障节点,以使得分布式云系统能够快速判断整个系统的运转情况,从而提高系统的稳定性和可用性。
在上述实施例的基础上,进一步地,所述发送所述同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述数据同步指令进行数据同步,若所述目标计算节点出现故障时,其他计算节点启动已备份所述目标计算节点的计算资源对所述目标任务进行处理,包括:
若所述目标计算节点出现故障时,关闭所述目标计算节点中已备份的虚拟机镜像,同时将所述目标计算节点中已备份的其他计算节点的虚拟机镜像删除;
发送出现故障的所述目标计算节点的故障信息到其他节点,以供已备份所述目标计算节点的计算资源的其他计算节点对所述目标任务进行处理。
为了能够在发现故障节点后,及时恢复故障节点的相应数据,需要完备的故障恢复机制。节点发生故障时,分布式云系统中有三个角色,分别是故障节点,监控节点,接收节点。其中,故障节点需要关闭已备份的虚拟机镜像,并且将本节点中存储的其他节点的虚拟机镜像备份进行删除,此时,监控节点需要发送故障节点的故障信息到接收节点。
进一步地,当监控节点发送故障节点的故障信息到接收节点之后,如果监控节点和接收节点中有故障节点的虚拟机镜像备份,则监控节点和接收节点启动本地备份的故障节点相应的虚拟机镜像,以供用户提交的任务可以在备份了故障节点相应的虚拟机镜像的其他节点中进行处理;如果故障节点中备份了监控节点和接收节点的虚拟机镜像,由于故障节点已处于宕机状态,此时将监控节点和接收节点的虚拟机镜像备份到其他节点中。需要说明的是,在本发明实施例中,接收节点代表的是除故障节点以外的任意节点,当故障节点是Master节点时,监控Master节点的相邻节点自动转换为Master节点。
本发明实施例通过建立一套完整的故障恢复协议,在分布式云系统中的节点出现故障后,能够及时的恢复相应的虚拟机镜像,使得整个系统保持稳定,提高了分布式云系统的可用性。
图4为本发明实施例提供的电子设备结构示意图,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。通信接口402可以用于电子设备与云平台之间的信息传输。处理器401可以调用存储器403中的逻辑指令,以执行如下方法:获取多个计算节点的数据信息,根据所述数据信息生成同步数据指令;发送所述同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若目标计算节点的计算资源不足以处理目标任务时,所述目标计算节点选取已备份所述目标计算节点的的计算资源的其他计算节点对所述目标任务进行处理。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取多个计算节点的数据信息,根据所述数据信息生成同步数据指令;发送所述同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若目标计算节点的计算资源不足以处理目标任务时,所述目标节点选取已备份所述目标计算节点的计算资源的其他计算节点对所述目标任务进行处理。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储服务器指令,该计算机指令使计算机执行上述实施例所提供的分布式云系统监控方法,例如包括:获取多个计算节点的数据信息,根据所述数据信息生成同步数据指令;发送所述同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若目标计算节点的计算资源不足以处理目标任务时,所述目标计算节点选取已备份所述目标计算节点的计算资源的其他计算节点对所述目标任务进行处理。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种分布式云系统,其特征在于,包括:分布式连接的多个云平台,每个云平台为一个节点;所有节点呈环状依次进行监控;
所述节点分为Master节点和多个计算节点,其中:
所述Master节点,用于发送同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若目标计算节点的计算资源不足以处理目标任务时,所述目标计算节点选取已备份所述目标计算节点的计算资源的其他计算节点对所述目标任务进行处理,其中,所述Master节点拥有整个分布式云系统的最高权限,对其他节点的存储资源、计算资源以及故障进行同步控制;
所述计算节点,用于对用户提交的所述目标任务进行计算或存储数据。
2.根据权利要求1所述的系统,其特征在于,所述Master节点还用于:发送同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若所述目标计算节点出现故障时,其他计算节点启动已备份所述目标计算节点的计算资源对所述目标任务进行处理。
3.一种基于权利要求1或2所述分布式云系统的监控方法,其特征在于,包括:
获取多个计算节点的数据信息,根据所述数据信息生成同步数据指令;
发送所述同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若目标计算节点的计算资源不足以处理目标任务时,所述目标计算节点选取已备份所述目标计算节点的计算资源的其他计算节点对所述目标任务进行处理。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
发送所述同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若所述目标计算节点出现故障时,其他计算节点启动已备份所述目标计算节点的计算资源对所述目标任务进行处理。
5.根据权利要求3所述的方法,其特征在于,所述发送所述同步数据指令到所述分布式云系统的多个计算节点中,包括:
发送所述同步数据指令到所述分布式云系统中的多个计算节点中,以供每个计算节点之间进行用户数据备份和虚拟机镜像备份;
若有新增用户提交目标任务到所述分布式云系统中,则获取新增用户对应的操作日志;
发送所述新增用户对应的操作日志到其他计算节点,以供其他计算节点对新增用户数据进行所述用户数据备份。
6.根据权利要求3所述的方法,其特征在于,所述发送所述同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若目标计算节点的计算资源不足以处理目标任务时,所述目标计算节点选取已备份所述目标计算节点的计算资源的其他节点对所述目标任务进行处理,还包括:
若目标计算节点的计算资源不足以处理目标任务时,则向所述分布式云系统中新增新的计算节点,所述新增新的计算节点包括开启所述分布式云系统中未开启的计算节点、开启所述分布式云系统中故障已处理的计算节点或开启新加入所述分布式云系统的计算节点;
获取所述新的计算节点的注册信息;
发送所述新的计算节点的注册信息到其他计算节点,以供所述新的计算节点加入到所述分布式云系统中。
7.根据权利要求4所述的方法,其特征在于,在所述发送所述同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述同步数据指令进行数据同步,若所述目标计算节点出现故障时,其他目标计算节点启动已备份所述目标计算节点的计算资源对所述目标任务进行处理之前,包括:
对所述目标计算节点进行主动探测,若所述目标计算节点未响应,则向任意其他计算节点发送心跳包;
若接收到任意其他计算节点返回所述心跳包,则判断获知所述目标计算节点发生故障;
若没有接收到任意其他计算节点返回所述心跳包,则判断获知所述分布式云系统的网络出现故障。
8.根据权利要求4或7所述的方法,其特征在于,所述发送所述同步数据指令到所述分布式云系统的多个计算节点中,以供多个计算节点根据所述数据同步指令进行数据同步,若所述目标计算节点出现故障时,其他计算节点启动已备份所述目标计算节点的计算资源对所述目标任务进行处理,包括:
若所述目标计算节点出现故障时,关闭所述目标计算节点中已备份的虚拟机镜像,同时将所述目标计算节点中已备份的其他计算节点的虚拟机镜像删除;
发送出现故障的所述目标计算节点的故障信息到其他节点,以供已备份所述目标计算节点的计算资源的其他计算节点对所述目标任务进行处理。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求3至8任一项所述的分布式云系统的监控方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求3至8任一项所述的分布式云系统的监控方法。
CN201811043841.5A 2018-09-07 2018-09-07 一种分布式云系统及监控方法 Active CN109151045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811043841.5A CN109151045B (zh) 2018-09-07 2018-09-07 一种分布式云系统及监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811043841.5A CN109151045B (zh) 2018-09-07 2018-09-07 一种分布式云系统及监控方法

Publications (2)

Publication Number Publication Date
CN109151045A CN109151045A (zh) 2019-01-04
CN109151045B true CN109151045B (zh) 2020-05-19

Family

ID=64823713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811043841.5A Active CN109151045B (zh) 2018-09-07 2018-09-07 一种分布式云系统及监控方法

Country Status (1)

Country Link
CN (1) CN109151045B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110086854A (zh) * 2019-03-28 2019-08-02 广东紫晶信息存储技术股份有限公司 一种分布式私有云系统
CN109981163A (zh) * 2019-04-10 2019-07-05 大连大学 一种基于资源表征的卫星网络资源管理方法
CN110347531A (zh) * 2019-07-05 2019-10-18 湖南省华芯医疗器械有限公司 一种避免数据丢失的机器热插拔工作方法及系统
CN110300191A (zh) * 2019-07-29 2019-10-01 崔翛龙 服务系统及数据处理方法
CN110554933A (zh) * 2019-08-30 2019-12-10 苏州浪潮智能科技有限公司 一种云管理平台、云平台服务的跨云高可用方法及系统
CN110636120B (zh) * 2019-09-09 2022-02-08 广西东信易联科技有限公司 一种基于业务请求的分布式资源协调系统及其方法
CN110708375A (zh) * 2019-09-30 2020-01-17 恩亿科(北京)数据科技有限公司 一种数据处理方法、装置及系统
CN110865987A (zh) * 2019-11-18 2020-03-06 杭州安恒信息技术股份有限公司 一种文件同步方法、装置、设备及介质
CN113259174B (zh) * 2021-06-07 2021-10-19 上海慧捷智能技术有限公司 一种基于多云架构的联络中心系统及其实现的方法
CN115277378B (zh) * 2022-05-19 2024-03-19 亿点云计算(珠海)有限公司 基于有状态服务的服务切换方法、装置、终端及存储介质
CN115174155B (zh) * 2022-06-14 2023-05-02 中国南方电网有限责任公司超高压输电公司南宁监控中心 工业主机终端安全防护方法、存储介质及计算机装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104506357A (zh) * 2014-12-22 2015-04-08 国云科技股份有限公司 一种高可用集群节点管理方法
CN104753994A (zh) * 2013-12-27 2015-07-01 杭州海康威视系统技术有限公司 基于集群服务器系统的数据同步方法及其装置
CN106790455A (zh) * 2016-12-08 2017-05-31 中国科学院软件研究所 一种基于混合模式的分布式云管理系统及方法
CN107544839A (zh) * 2016-06-27 2018-01-05 腾讯科技(深圳)有限公司 虚拟机迁移系统、方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9405579B2 (en) * 2012-10-11 2016-08-02 International Business Machines Corporation Seamless extension of local computing power

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104753994A (zh) * 2013-12-27 2015-07-01 杭州海康威视系统技术有限公司 基于集群服务器系统的数据同步方法及其装置
CN104506357A (zh) * 2014-12-22 2015-04-08 国云科技股份有限公司 一种高可用集群节点管理方法
CN107544839A (zh) * 2016-06-27 2018-01-05 腾讯科技(深圳)有限公司 虚拟机迁移系统、方法及装置
CN106790455A (zh) * 2016-12-08 2017-05-31 中国科学院软件研究所 一种基于混合模式的分布式云管理系统及方法

Also Published As

Publication number Publication date
CN109151045A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109151045B (zh) 一种分布式云系统及监控方法
US10735509B2 (en) Systems and methods for synchronizing microservice data stores
CN109831500B (zh) Kubernetes集群中配置文件与Pod的同步方法
US11940965B2 (en) Data migration method and apparatus
US10983880B2 (en) Role designation in a high availability node
US20190235979A1 (en) Systems and methods for performing computing cluster node switchover
US11057471B2 (en) Edge application management method and system
CN103414712B (zh) 一种分布式虚拟桌面管理系统和方法
CN110581782B (zh) 一种容灾数据的处理方法、装置及系统
CN113067850B (zh) 一种多云场景下的集群编排系统
US10860375B1 (en) Singleton coordination in an actor-based system
CN104158707A (zh) 一种检测并处理集群脑裂的方法和装置
US20180097701A1 (en) Method for processing virtual machine cluster and computer system
CN104660386A (zh) 一种基于安腾平台下提高db2容灾高可用性的方法
CN111935244B (zh) 一种业务请求处理系统及超融合一体机
CN109254876A (zh) 云计算系统中数据库的管理方法和装置
WO2014177085A1 (zh) 分布式多副本数据存储方法及装置
WO2017071384A1 (zh) 报文处理的方法及装置
CN113467873A (zh) 虚拟机的调度方法、装置、电子设备及存储介质
CN110069365B (zh) 管理数据库的方法和相应的装置、计算机可读存储介质
US8621260B1 (en) Site-level sub-cluster dependencies
WO2015196692A1 (zh) 一种云计算系统以及云计算系统的处理方法和装置
CN103780433B (zh) 自愈式虚拟资源配置管理数据架构
CN107483257B (zh) 一种基于x86和arm混合环境的应用系统部署方法及架构
CN111355605A (zh) 一种云平台的虚拟机故障恢复方法及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant