CN105187482B - 一种PaaS平台故障自愈实现的方法及消息服务器 - Google Patents

一种PaaS平台故障自愈实现的方法及消息服务器 Download PDF

Info

Publication number
CN105187482B
CN105187482B CN201510425961.1A CN201510425961A CN105187482B CN 105187482 B CN105187482 B CN 105187482B CN 201510425961 A CN201510425961 A CN 201510425961A CN 105187482 B CN105187482 B CN 105187482B
Authority
CN
China
Prior art keywords
dea
resource pool
message
state
health monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510425961.1A
Other languages
English (en)
Other versions
CN105187482A (zh
Inventor
郭庆涛
陈瑞
张华兵
邱子良
黄建华
赵铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Power Supply Bureau Co Ltd
Original Assignee
Shenzhen Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Bureau Co Ltd filed Critical Shenzhen Power Supply Bureau Co Ltd
Priority to CN201510425961.1A priority Critical patent/CN105187482B/zh
Publication of CN105187482A publication Critical patent/CN105187482A/zh
Application granted granted Critical
Publication of CN105187482B publication Critical patent/CN105187482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供一种PaaS平台故障自愈实现的方法,其在包括多个资源池DEA、消息服务器MS、健康监控管理服务器HMS和云控制器CC的PaaS平台上实现,包括消息服务器MS根据分布式消息队列系统NATS在每一预设的间隔时间到达时,确定出其与每一资源池DEA形成的路由状态及每一资源池DEA的应用状态;形成相应的诊断信息上报给健康监控管理服务器HMS进行处理,并接收云控制器CC根据健康监控管理服务器HMS处理后的诊断信息输出的相应指令集,控制相应的资源池DEA的路由状态及其对应的应用状态进行调整。实施本发明实施例,能够提高PaaS平台可移植性,确保PaaS平台安全性。

Description

一种PaaS平台故障自愈实现的方法及消息服务器
技术领域
本发明涉及云计算技术领域,尤其涉及一种PaaS平台故障自愈实现的方法及消息服务器。
背景技术
随着 IT 技术的迅猛发展,云计算技术及理念的深入应用,云安全越来越成为安全业界关注的重点。一方面,云计算应用的无边界性和流动性等特点引发了很多新的安全问题,另一方面,云计算技术及理念也对传统安全技术及应用产生了深远的影响。
按照服务类型的不同,云计算技术分为 SaaS(Soft as a Service,软件即服务)、PaaS(Platform as a Service,平台即服务)和IaaS(Infrastructure as aService,基础设施即服务)。其中,PaaS 就是云计算中的应用基础设施服务,由于PaaS平台在云架构中位于中间层,其上层是 SaaS 平台,其下层是 IaaS 平台,因此PaaS 也可以称为中间件即服务。
与其它类型的平台相比,PaaS平台对应用程序安全性的要求比IaaS平台和SaaS平台都要高,其提供了独立于基础架构管理和监视的应用程序管理和监控功能,因此亟需一种PaaS平台故障自愈的机制确保PaaS平台的安全性。。
发明内容
本发明实施例所要解决的技术问题在于,提供一种PaaS平台故障自愈实现的方法及消息服务器,能够提高PaaS平台可移植性,确保PaaS平台安全性。
为了解决上述技术问题,本发明实施例提供了一种PaaS平台故障自愈实现的方法,其在包括多个资源池DEA、消息服务器MS、健康监控管理服务器HMS和云控制器CC的PaaS平台上实现,所述方法包括:
所述消息服务器MS根据分布式消息队列系统NATS在每一预设的间隔时间到达时,确定出其与每一资源池DEA形成的路由状态及每一资源池DEA的应用状态;其中,所述路由状态包括导通和关断;所述应用状态包括正常和故障;以及
根据所述确定的每一资源池DEA的路由状态及其对应的应用状态,形成相应的诊断信息上报给所述健康监控管理服务器HMS进行处理,并接收所述云控制器CC根据所述健康监控管理服务器HMS处理后的诊断信息输出的相应指令集,且根据所述接收到的相应指令集,控制相应的资源池DEA的路由状态及其对应的应用状态进行调整。
其中,所述根据所述确定的每一资源池DEA的路由状态及其对应的应用状态,形成相应的诊断信息上报给所述健康监控管理服务器HMS进行处理,并接收所述云控制器CC根据所述健康监控管理服务器HMS处理后的诊断信息输出的相应指令集,且根据所述接收到的相应指令集,控制相应的资源池DEA的路由状态及其对应的应用状态进行调整的具体步骤包括:
当一个或多个资源池DEA与所述消息服务器MS形成的路由状态为关断时,所述消息服务器MS形成第一诊断信息上报给所述健康监控管理服务器HMS进行处理,并接收所述云控制器CC根据所述健康监控管理服务器HMS处理后的第一诊断信息输出的第一指令集,从所述路由状态为导通的资源池DEA中选择一个或多个,接管所述路由状态均为关断的资源池DEA上的相关服务。
其中,所述根据所述确定的每一资源池DEA的路由状态及其对应的应用状态,形成相应的诊断信息上报给所述健康监控管理服务器HMS进行处理,并接收所述云控制器CC根据所述健康监控管理服务器HMS处理后的诊断信息输出的相应指令集,且根据所述接收到的相应指令集,控制相应的资源池DEA的路由状态及其对应的应用状态进行调整的具体步骤包括:
当一个或多个资源池DEA与所述消息服务器MS形成的路由状态为导通时,所述消息服务器MS进一步检测到所述路由状态为导通的资源池DEA之至少有其一对应的应用状态为故障,则形成第二诊断信息上报给所述健康监控管理服务器HMS进行处理,并接收所述云控制器CC根据所述健康监控管理服务器HMS处理后的第二诊断信息输出的第二指令集,控制所述应用状态为故障的资源池DEA的路由状态均为关断,且从所述应用状态为正常的资源池DEA中选择一个或多个,接管所述应用状态均为故障的资源池DEA上的相关服务。
其中,所述相关服务包括应用程序运行时服务、应用程序管理服务、数据服务和消息传递及排队服务。
本发明实施例还提供了一种PaaS平台故障自愈实现的方法,其在包括多个资源池DEA、消息服务器MS、健康监控管理服务器HMS和云控制器CC的PaaS平台上实现,所述方法包括:
所述消息服务器MS根据分布式消息队列系统NATS在每一预设的间隔时间到达时,确定出其与每一资源池DEA形成的路由状态及每一资源池DEA的应用状态;其中,所述路由状态包括导通和关断;所述应用状态包括正常和故障;
当一个或多个资源池DEA与所述消息服务器MS形成的路由状态为关断时,所述消息服务器MS形成第一诊断信息上报给所述健康监控管理服务器HMS进行处理;
所述健康监控管理服务器HMS接收所述消息服务器MS上报的第一诊断信息后,与其从所述云控制器CC接收到的期望数进行对比,并根据对比结果,形成处理后的诊断信息发送给所述云控制器CC;
所述云控制器CC根据所述健康监控管理服务器HMS处理后的诊断信息对所述期望数进行更新,并输出第一指令集给所述消息服务器MS;
所述消息服务器MS接收所述云控制器CC输出的第一指令集,从所述路由状态为导通的资源池DEA中选择一个或多个,接管所述路由状态均为关断的资源池DEA上的相关服务。
其中,所述相关服务包括应用程序运行时服务、应用程序管理服务、数据服务和消息传递及排队服务。
本发明实施例又提供了一种PaaS平台故障自愈实现的方法,其在包括多个资源池DEA、消息服务器MS、健康监控管理服务器HMS和云控制器CC的PaaS平台上实现,所述方法包括:
所述消息服务器MS根据分布式消息队列系统NATS在每一预设的间隔时间到达时,确定出其与每一资源池DEA形成的路由状态及每一资源池DEA的应用状态;其中,所述路由状态包括导通和关断;所述应用状态包括正常和故障;
当一个或多个资源池DEA与所述消息服务器MS形成的路由状态为导通时,所述消息服务器MS进一步检测到所述路由状态为导通的资源池DEA之至少有其一对应的应用状态为故障,则形成第二诊断信息上报给所述健康监控管理服务器HMS进行处理;
所述健康监控管理服务器HMS接收所述消息服务器MS上报的第二诊断信息后,与其从所述云控制器CC接收到的期望数进行对比,并根据对比结果,形成处理后的诊断信息发送给所述云控制器CC;
所述云控制器CC根据所述健康监控管理服务器HMS处理后的诊断信息对所述期望数进行更新,并输出第二指令集给所述消息服务器MS;
所述消息服务器MS接收所述云控制器CC输出的第二指令集,控制所述应用状态为故障的资源池DEA的路由状态均为关断,且从所述应用状态为正常的资源池DEA中选择一个或多个,接管所述应用状态均为故障的资源池DEA上的相关服务。
其中,所述相关服务包括应用程序运行时服务、应用程序管理服务、数据服务和消息传递及排队服务。
本发明实施例又提供了一种消息服务器MS,其与多个资源池DEA、消息服务器MS、健康监控管理服务器HMS和云控制器CC形成PaaS平台,所述消息服务器MS包括:
确定单元,用于所述消息服务器MS根据分布式消息队列系统NATS在每一预设的间隔时间到达时,确定出其与每一资源池DEA形成的路由状态及每一资源池DEA的应用状态;其中,所述路由状态包括导通和关断;所述应用状态包括正常和故障;以及
控制调整单元,用于根据所述确定的每一资源池DEA的路由状态及其对应的应用状态,形成相应的诊断信息上报给所述健康监控管理服务器HMS进行处理,并接收所述云控制器CC根据所述健康监控管理服务器HMS处理后的诊断信息输出的相应指令集,且根据所述接收到的相应指令集,控制相应的资源池DEA的路由状态及其对应的应用状态进行调整。
其中,所述控制调整单元包括:
第一控制调整模块,用于当一个或多个资源池DEA与所述消息服务器MS形成的路由状态为关断时,所述消息服务器MS形成第一诊断信息上报给所述健康监控管理服务器HMS进行处理,并接收所述云控制器CC根据所述健康监控管理服务器HMS处理后的第一诊断信息输出的第一指令集,从所述路由状态为导通的资源池DEA中选择一个或多个,接管所述路由状态均为关断的资源池DEA上的相关服务。
其中,所述控制调整单元还包括:
第二控制调整模块,用于当一个或多个资源池DEA与所述消息服务器MS形成的路由状态为导通时,所述消息服务器MS进一步检测到所述路由状态为导通的资源池DEA之至少有其一对应的应用状态为故障,则形成第二诊断信息上报给所述健康监控管理服务器HMS进行处理,并接收所述云控制器CC根据所述健康监控管理服务器HMS处理后的第二诊断信息输出的第二指令集,控制所述应用状态为故障的资源池DEA的路由状态均为关断,且从所述应用状态为正常的资源池DEA中选择一个或多个,接管所述应用状态均为故障的资源池DEA上的相关服务。
实施本发明实施例,具有如下有益效果:
在本发明实施例中,由于消息服务器MS可在每一预设的间隔时间到达后,根据各资源池DEA的路由状态及应用状态形成诊断信息进行上报,并接收云控制器CC根据健康监控管理服务器HMS处理后的诊断信息输出的不同指令集,采用相应的指令集对问题资源池DEA(如路由关断或应用故障)服务的接管,从而实现故障自愈,因此能够提高PaaS平台可移植性,确保PaaS平台安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
图1为本发明实施例一提供的一种PaaS平台故障自愈实现的方法的流程图;
图2为图1中PaaS平台的系统结构示意图;
图3为本发明实施例二提供的一种PaaS平台故障自愈实现的方法的流程图;
图4为本发明实施例二提供的一种PaaS平台故障自愈实现的方法中应用场景的一系统结构示意图;
图5为本发明实施例二提供的一种PaaS平台故障自愈实现的方法中应用场景的另一系统结构示意图;
图6为本发明实施例三提供的PaaS平台故障自愈实现的方法中进入谐波值越限校核计算模式的流程图;
图7为本发明实施例提供的消息服务器MS的系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
如图1所示,为本发明实施例一提供的一种PaaS平台故障自愈实现的方法,其在包括多个资源池DEA、消息服务器MS、健康监控管理服务器HMS和云控制器CC的PaaS平台(如图2所示)上实现,所述方法包括:
步骤S101、所述消息服务器MS根据分布式消息队列系统NATS在每一预设的间隔时间到达时,确定出其与每一资源池DEA形成的路由状态及每一资源池DEA的应用状态;其中,所述路由状态包括导通和关断;所述应用状态包括正常和故障;
具体过程为,PaaS平台上定义的相关服务包括应用程序运行时服务、应用程序管理服务、数据服务和消息传递及排队服务,且每一项服务都将是可移植的。由于PaaS平台上的每一个应用实例容器都包括相同且完整的可运行服务,因此应用程序将以容器的封装方式在所有IaaS层间移植,屏蔽IaaS层的差异。
而资源池DEA都相当于上述应用实例容器,用于管理应用实例的整个生命周期,能够与云控制器CC通讯进行应用实例的启动和停止。在应用实例的整个生命周期中,资源池DEA都会对其保持跟踪监控,同时使用Warden在操作系统环境(可同时面向物理设备或者虚拟机)中构建独立、完全隔离的资源环境,能够对CPU、内存、硬盘资源、网络资源等进行控制,并周期性地通过分布式消息队列系统NATS将应用实例的状态信息(包括每一资源池DEA与消息服务器MS形成的路由状态及其对应的应用状态)进行广播,该NATS消息主要是被健康监控管理服务器HMS接收。
步骤S102、根据所述确定的每一资源池DEA的路由状态及其对应的应用状态,形成相应的诊断信息上报给所述健康监控管理服务器HMS进行处理,并接收所述云控制器CC根据所述健康监控管理服务器HMS处理后的诊断信息输出的相应指令集,且根据所述接收到的相应指令集,控制相应的资源池DEA的路由状态及其对应的应用状态进行调整。
具体过程为,PaaS平台自愈可实现物理可用的跨域部署(即物理设备故障)和应用故障的自愈,具体如下:
(1)物理可用的跨域部署:当一个或多个资源池DEA与消息服务器MS形成的路由状态为关断时,消息服务器MS形成第一诊断信息上报给健康监控管理服务器HMS进行处理,并接收云控制器CC根据健康监控管理服务器HMS处理后的第一诊断信息输出的第一指令集,从路由状态为导通的资源池DEA中选择一个或多个,接管路由状态均为关断的资源池DEA上的相关服务;
具体为,当消息服务器MS获取到一个或多个资源池DEA出现物理链路故障(即路由状态存在关断)时,形成第一诊断信息报送给健康监控管理服务器HMS进行处理。待健康监控管理服务器HMS接收到第一诊断信息后,健康监控管理服务器HMS与从云控制器CC接收到的期望数进行对比,形成处理后的诊断信息,并发送给云控制器CC更新原有期望数并同时使得云控制器CC生成第一指令集。在消息服务器MS接收到第一指令集后,从路由状态为导通的资源池DEA中选择一个或多个,接管那些路由状态均为关断的资源池DEA上的相关服务,从而实现PaaS平台故障自愈。
(2)应用故障的自愈:当一个或多个资源池DEA与消息服务器MS形成的路由状态为导通时,消息服务器MS进一步检测到路由状态为导通的资源池DEA之至少有其一对应的应用状态为故障,则形成第二诊断信息上报给健康监控管理服务器HMS进行处理,并接收云控制器CC根据所述健康监控管理服务器HMS处理后的第二诊断信息输出的第二指令集,控制应用状态为故障的资源池DEA的路由状态均为关断,且从应用状态为正常的资源池DEA中选择一个或多个,接管应用状态均为故障的资源池DEA上的相关服务。
具体为,当消息服务器MS获取到一个或多个资源池DEA出现应用故障(即应用状态存在故障)时,形成第二诊断信息报送给健康监控管理服务器HMS进行处理。待健康监控管理服务器HMS接收到第二诊断信息后,健康监控管理服务器HMS与从云控制器CC接收到的期望数进行对比,形成处理后的诊断信息,并发送给云控制器CC更新原有期望数并同时使得云控制器CC生成第二指令集。在消息服务器MS接收到第二指令集后,控制应用状态为故障的资源池DEA的路由状态均为关断,且从应用状态为正常的资源池DEA中选择一个或多个,接管那些应用状态均为故障的资源池DEA上的相关服务,即关闭应用状态均为故障的资源池DEA,重新启用应用状态为正常的资源池DEA接管,从而实现PaaS平台故障自愈。其中,应用状态的故障包括应用系统自身存在Bug,内存无法自动释放,或者连接数过多,应用运行时间过长,负载过高导致应用崩溃等等。
应当说明的是,由于资源池DEA作为应用实例容器,因此通过消息服务器MS上报的诊断信息(包括第一诊断信息和第二诊断信息)包括资源池DEA的路由状态、应用状态,以及应用系统的运行状态、版本和实例数,可与云控制器CC接收到的期望数进行对比,主要原因在于一旦物理链路或应用出现故障时,实例数会发生减少的变化。
如图3所示,为本发明实施例二提供的一种PaaS平台故障自愈实现的方法,其在包括多个资源池DEA、消息服务器MS、健康监控管理服务器HMS和云控制器CC的PaaS平台上实现,所述方法包括:
步骤S201、所述消息服务器MS根据分布式消息队列系统NATS在每一预设的间隔时间到达时,确定出其与每一资源池DEA形成的路由状态及每一资源池DEA的应用状态;其中,所述路由状态包括导通和关断;所述应用状态包括正常和故障;
步骤S202、当一个或多个资源池DEA与所述消息服务器MS形成的路由状态为关断时,所述消息服务器MS形成第一诊断信息上报给所述健康监控管理服务器HMS进行处理;
步骤S203、所述健康监控管理服务器HMS接收所述消息服务器MS上报的第一诊断信息后,与其从所述云控制器CC接收到的期望数进行对比,并根据对比结果,形成处理后的诊断信息发送给所述云控制器CC;
步骤S204、所述云控制器CC根据所述健康监控管理服务器HMS处理后的诊断信息对所述期望数进行更新,并输出第一指令集给所述消息服务器MS;
步骤S205、所述消息服务器MS接收所述云控制器CC输出的第一指令集,从所述路由状态为导通的资源池DEA中选择一个或多个,接管所述路由状态均为关断的资源池DEA上的相关服务。
在本发明实施例二中,PaaS平台上定义的相关服务包括应用程序运行时服务、应用程序管理服务、数据服务和消息传递及排队服务,且每一项服务都将是可移植的。由于PaaS平台上的每一个应用实例容器都包括相同且完整的可运行服务,因此应用程序将以容器的封装方式在所有IaaS层间移植,屏蔽IaaS层的差异。
而资源池DEA都相当于上述应用实例容器,用于管理应用实例的整个生命周期,能够与云控制器CC通讯进行应用实例的启动和停止。在应用实例的整个生命周期中,资源池DEA都会对其保持跟踪监控,同时使用Warden在操作系统环境(可同时面向物理设备或者虚拟机)中构建独立、完全隔离的资源环境,能够对CPU、内存、硬盘资源、网络资源等进行控制,并周期性地通过分布式消息队列系统NATS将应用实例的状态信息(包括每一资源池DEA与消息服务器MS形成的路由状态及其对应的应用状态)进行广播,该NATS消息主要是被健康监控管理服务器HMS接收。
当消息服务器MS获取到一个或多个资源池DEA出现物理链路故障(即路由状态存在关断)时,形成第一诊断信息报送给健康监控管理服务器HMS进行处理。待健康监控管理服务器HMS接收到第一诊断信息后,健康监控管理服务器HMS与从云控制器CC接收到的期望数进行对比,形成处理后的诊断信息,并发送给云控制器CC更新原有期望数并同时使得云控制器CC生成第一指令集。在消息服务器MS接收到第一指令集后,从路由状态为导通的资源池DEA中选择一个或多个,接管那些路由状态均为关断的资源池DEA上的相关服务,从而实现PaaS平台故障自愈。
应当说明的是,由于资源池DEA作为应用实例容器,因此通过消息服务器MS上报的诊断信息(包括第一诊断信息和第二诊断信息)包括资源池DEA的路由状态、应用状态,以及应用系统的运行状态、版本和实例数,可与云控制器CC接收到的期望数进行对比,主要原因在于一旦物理链路或应用出现故障时,实例数会发生减少的变化。
如图4和图5所示,对本发明实施例二提供的一种PaaS平台故障自愈实现的方法中应用场景进一步说明:
资源池DEA1、DEA2和DEA3中预设的间隔时间均为2分钟,在下一个2分钟到达时,通过分布式消息队列系统NATS将与消息服务器MS形成的路由状态及其对应的应用状态进行广播给消息服务器MS。
此时,消息服务器MS在2分钟未接收到资源池DEA2广播的NATS消息,如图4所示,形成第一诊断信息报送给健康监控管理服务器HMS进行处理,而健康监控管理服务器HMS接收到第一诊断信息后,健康监控管理服务器HMS与从云控制器CC接收到的期望数(假设该值为3)进行对比,形成处理后的诊断信息,并发送给云控制器CC更新原有期望数(此时更新为2)并同时使得云控制器CC生成第一指令集(切断与资源池DEA2的链接,从资源池DEA1和资源池DEA3中选择资源池DEA3接管资源池DEA2的所有服务)。
在消息服务器MS接收到上述第一指令集后,选择资源池DEA3接管资源池DEA2的所有服务,如图5所示,从而实现PaaS平台故障自愈。
如图6所示,为本发明实施例三提供的一种PaaS平台故障自愈实现的方法,其在包括多个资源池DEA、消息服务器MS、健康监控管理服务器HMS和云控制器CC的PaaS平台上实现,所述方法包括:
步骤S301、所述消息服务器MS根据分布式消息队列系统NATS在每一预设的间隔时间到达时,确定出其与每一资源池DEA形成的路由状态及每一资源池DEA的应用状态;其中,所述路由状态包括导通和关断;所述应用状态包括正常和故障;
步骤S302、当一个或多个资源池DEA与所述消息服务器MS形成的路由状态为导通时,所述消息服务器MS进一步检测到所述路由状态为导通的资源池DEA之至少有其一对应的应用状态为故障,则形成第二诊断信息上报给所述健康监控管理服务器HMS进行处理;
步骤S303、所述健康监控管理服务器HMS接收所述消息服务器MS上报的第二诊断信息后,与其从所述云控制器CC接收到的期望数进行对比,并根据对比结果,形成处理后的诊断信息发送给所述云控制器CC;
步骤S304、所述云控制器CC根据所述健康监控管理服务器HMS处理后的诊断信息对所述期望数进行更新,并输出第二指令集给所述消息服务器MS;
步骤S305、所述消息服务器MS接收所述云控制器CC输出的第二指令集,控制所述应用状态为故障的资源池DEA的路由状态均为关断,且从所述应用状态为正常的资源池DEA中选择一个或多个,接管所述应用状态均为故障的资源池DEA上的相关服务。
在本发明实施例三中,PaaS平台上定义的相关服务包括应用程序运行时服务、应用程序管理服务、数据服务和消息传递及排队服务,且每一项服务都将是可移植的。由于PaaS平台上的每一个应用实例容器都包括相同且完整的可运行服务,因此应用程序将以容器的封装方式在所有IaaS层间移植,屏蔽IaaS层的差异。
而资源池DEA都相当于上述应用实例容器,用于管理应用实例的整个生命周期,能够与云控制器CC通讯进行应用实例的启动和停止。在应用实例的整个生命周期中,资源池DEA都会对其保持跟踪监控,同时使用Warden在操作系统环境(可同时面向物理设备或者虚拟机)中构建独立、完全隔离的资源环境,能够对CPU、内存、硬盘资源、网络资源等进行控制,并周期性地通过分布式消息队列系统NATS将应用实例的状态信息(包括每一资源池DEA与消息服务器MS形成的路由状态及其对应的应用状态)进行广播,该NATS消息主要是被健康监控管理服务器HMS接收。
当消息服务器MS获取到一个或多个资源池DEA出现应用故障(即应用状态存在故障)时,形成第二诊断信息报送给健康监控管理服务器HMS进行处理。待健康监控管理服务器HMS接收到第二诊断信息后,健康监控管理服务器HMS与从云控制器CC接收到的期望数进行对比,形成处理后的诊断信息,并发送给云控制器CC更新原有期望数并同时使得云控制器CC生成第二指令集。在消息服务器MS接收到第二指令集后,控制应用状态为故障的资源池DEA的路由状态均为关断,且从应用状态为正常的资源池DEA中选择一个或多个,接管那些应用状态均为故障的资源池DEA上的相关服务,即关闭应用状态均为故障的资源池DEA,重新启用应用状态为正常的资源池DEA接管,从而实现PaaS平台故障自愈。
应当说明的是,由于资源池DEA作为应用实例容器,因此通过消息服务器MS上报的诊断信息(包括第一诊断信息和第二诊断信息)包括资源池DEA的路由状态、应用状态,以及应用系统的运行状态、版本和实例数,可与云控制器CC接收到的期望数进行对比,主要原因在于一旦物理链路或应用出现故障时,实例数会发生减少的变化。
如图7所示,为本发明实施例四提供的一种消息服务器MS,其与多个资源池DEA、消息服务器MS、健康监控管理服务器HMS和云控制器CC形成PaaS平台,所述消息服务器MS包括:
确定单元710,用于所述消息服务器MS根据分布式消息队列系统NATS在每一预设的间隔时间到达时,确定出其与每一资源池DEA形成的路由状态及每一资源池DEA的应用状态;其中,所述路由状态包括导通和关断;所述应用状态包括正常和故障;以及
控制调整单元720,用于根据所述确定的每一资源池DEA的路由状态及其对应的应用状态,形成相应的诊断信息上报给所述健康监控管理服务器HMS进行处理,并接收所述云控制器CC根据所述健康监控管理服务器HMS处理后的诊断信息输出的相应指令集,且根据所述接收到的相应指令集,控制相应的资源池DEA的路由状态及其对应的应用状态进行调整。
其中,控制调整单元720包括:
第一控制调整模块7201,用于当一个或多个资源池DEA与所述消息服务器MS形成的路由状态为关断时,所述消息服务器MS形成第一诊断信息上报给所述健康监控管理服务器HMS进行处理,并接收所述云控制器CC根据所述健康监控管理服务器HMS处理后的第一诊断信息输出的第一指令集,从所述路由状态为导通的资源池DEA中选择一个或多个,接管所述路由状态均为关断的资源池DEA上的相关服务。
其中,控制调整单元720还包括:
第二控制调整模块7202,用于当一个或多个资源池DEA与所述消息服务器MS形成的路由状态为导通时,所述消息服务器MS进一步检测到所述路由状态为导通的资源池DEA之至少有其一对应的应用状态为故障,则形成第二诊断信息上报给所述健康监控管理服务器HMS进行处理,并接收所述云控制器CC根据所述健康监控管理服务器HMS处理后的第二诊断信息输出的第二指令集,控制所述应用状态为故障的资源池DEA的路由状态均为关断,且从所述应用状态为正常的资源池DEA中选择一个或多个,接管所述应用状态均为故障的资源池DEA上的相关服务。
实施本发明实施例,具有如下有益效果:
在本发明实施例中,由于消息服务器MS可在每一预设的间隔时间到达后,根据各资源池DEA的路由状态及应用状态形成诊断信息进行上报,并接收云控制器CC根据健康监控管理服务器HMS处理后的诊断信息输出的不同指令集,采用相应的指令集对问题资源池DEA(如路由关断或应用故障)服务的接管,从而实现故障自愈,因此能够提高PaaS平台可移植性,确保PaaS平台安全性。
值得注意的是,上述系统实施例中,所包括的各个系统单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (4)

1.一种PaaS平台故障自愈实现的方法,其特征在于,其在包括多个资源池DEA、消息服务器MS、健康监控管理服务器HMS和云控制器CC的PaaS平台上实现,所述方法包括:
所述消息服务器MS根据分布式消息队列系统NATS在每一预设的间隔时间到达时,确定出其与每一资源池DEA形成的路由状态及每一资源池DEA的应用状态;其中,所述路由状态包括导通和关断;所述应用状态包括正常和故障;
当一个或多个资源池DEA与所述消息服务器MS形成的路由状态为关断时,所述消息服务器MS形成第一诊断信息上报给所述健康监控管理服务器HMS进行处理;其中,所述第一诊断信息包括资源池DEA的路由状态、应用状态,以及应用系统的运行状态、版本和实例数;
所述健康监控管理服务器HMS接收所述消息服务器MS上报的第一诊断信息后,与其从所述云控制器CC接收到的期望数进行对比,并根据对比结果,形成处理后的诊断信息发送给所述云控制器CC;
所述云控制器CC根据所述健康监控管理服务器HMS处理后的诊断信息对所述期望数进行更新,并输出第一指令集给所述消息服务器MS;
所述消息服务器MS接收所述云控制器CC输出的第一指令集,从所述路由状态为导通的资源池DEA中选择一个或多个,接管所述路由状态均为关断的资源池DEA上的相关服务。
2.如权利要求1所述的方法,其特征在于,所述相关服务包括应用程序运行时服务、应用程序管理服务、数据服务和消息传递及排队服务。
3.一种PaaS平台故障自愈实现的方法,其特征在于,其在包括多个资源池DEA、消息服务器MS、健康监控管理服务器HMS和云控制器CC的PaaS平台上实现,所述方法包括:
所述消息服务器MS根据分布式消息队列系统NATS在每一预设的间隔时间到达时,确定出其与每一资源池DEA形成的路由状态及每一资源池DEA的应用状态;其中,所述路由状态包括导通和关断;所述应用状态包括正常和故障;
当一个或多个资源池DEA与所述消息服务器MS形成的路由状态为导通时,所述消息服务器MS进一步检测到所述路由状态为导通的资源池DEA之至少有其一对应的应用状态为故障,则形成第二诊断信息上报给所述健康监控管理服务器HMS进行处理;其中,所述第二诊断信息包括资源池DEA的路由状态、应用状态,以及应用系统的运行状态、版本和实例数;
所述健康监控管理服务器HMS接收所述消息服务器MS上报的第二诊断信息后,与其从所述云控制器CC接收到的期望数进行对比,并根据对比结果,形成处理后的诊断信息发送给所述云控制器CC;
所述云控制器CC根据所述健康监控管理服务器HMS处理后的诊断信息对所述期望数进行更新,并输出第二指令集给所述消息服务器MS;
所述消息服务器MS接收所述云控制器CC输出的第二指令集,控制所述应用状态为故障的资源池DEA的路由状态均为关断,且从所述应用状态为正常的资源池DEA中选择一个或多个,接管所述应用状态均为故障的资源池DEA上的相关服务。
4.如权利要求3所述的方法,其特征在于,所述相关服务包括应用程序运行时服务、应用程序管理服务、数据服务和消息传递及排队服务。
CN201510425961.1A 2015-07-20 2015-07-20 一种PaaS平台故障自愈实现的方法及消息服务器 Active CN105187482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510425961.1A CN105187482B (zh) 2015-07-20 2015-07-20 一种PaaS平台故障自愈实现的方法及消息服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510425961.1A CN105187482B (zh) 2015-07-20 2015-07-20 一种PaaS平台故障自愈实现的方法及消息服务器

Publications (2)

Publication Number Publication Date
CN105187482A CN105187482A (zh) 2015-12-23
CN105187482B true CN105187482B (zh) 2018-09-28

Family

ID=54909323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510425961.1A Active CN105187482B (zh) 2015-07-20 2015-07-20 一种PaaS平台故障自愈实现的方法及消息服务器

Country Status (1)

Country Link
CN (1) CN105187482B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710545B (zh) * 2018-03-23 2021-04-02 上海精鲲计算机科技有限公司 一种远程监控故障自愈系统
CN108846484A (zh) * 2018-04-11 2018-11-20 北京百度网讯科技有限公司 故障自愈系统、方法、计算机设备及存储介质
CN112217692A (zh) * 2020-02-19 2021-01-12 杜义平 网络系统、网络诊断处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102281329A (zh) * 2011-08-02 2011-12-14 北京邮电大学 一种PaaS云平台的资源调度方法和系统
CN102932210A (zh) * 2012-11-23 2013-02-13 北京搜狐新媒体信息技术有限公司 一种PaaS云平台的节点监控方法和系统
CN103354503A (zh) * 2013-05-23 2013-10-16 浙江闪龙科技有限公司 一种可自动检测及替换故障节点的云存储系统及其方法
CN103716182A (zh) * 2013-12-12 2014-04-09 中国科学院信息工程研究所 一种面向实时云平台的故障检测与容错方法及系统
CN103746855A (zh) * 2014-01-27 2014-04-23 华为技术有限公司 电信云中异常事件的处理方法及装置
CN104657150A (zh) * 2015-03-13 2015-05-27 浪潮集团有限公司 一种集群环境下的自动化运维方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102281329A (zh) * 2011-08-02 2011-12-14 北京邮电大学 一种PaaS云平台的资源调度方法和系统
CN102932210A (zh) * 2012-11-23 2013-02-13 北京搜狐新媒体信息技术有限公司 一种PaaS云平台的节点监控方法和系统
CN103354503A (zh) * 2013-05-23 2013-10-16 浙江闪龙科技有限公司 一种可自动检测及替换故障节点的云存储系统及其方法
CN103716182A (zh) * 2013-12-12 2014-04-09 中国科学院信息工程研究所 一种面向实时云平台的故障检测与容错方法及系统
CN103746855A (zh) * 2014-01-27 2014-04-23 华为技术有限公司 电信云中异常事件的处理方法及装置
CN104657150A (zh) * 2015-03-13 2015-05-27 浪潮集团有限公司 一种集群环境下的自动化运维方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
实现可靠计算的容错网格结构;邱敏,桂小林;《微电子学与计算机》;20050820;第22卷(第7期);第99页-第102页 *

Also Published As

Publication number Publication date
CN105187482A (zh) 2015-12-23

Similar Documents

Publication Publication Date Title
JP5031218B2 (ja) コンピュータクラスタのノードのフェールオーバー範囲
US8352801B2 (en) Systems, methods, and apparatus to debug a network application by utilizing a cloned network and an interactive debugging technique
JP6466003B2 (ja) Vnfフェイルオーバの方法及び装置
CN106452846A (zh) 故障处理方法、虚拟架构管理系统和业务管理系统
CN108369544A (zh) 计算系统中延期的服务器恢复
CN105187482B (zh) 一种PaaS平台故障自愈实现的方法及消息服务器
WO2018212928A1 (en) System and method for mapping a connectivity state of a network
CN110333961B (zh) 多系统音频管理设备、方法及计算机可读存储介质
CN104158707A (zh) 一种检测并处理集群脑裂的方法和装置
CN112464497A (zh) 基于分布式系统的故障演练方法、装置、设备及介质
CN110730095B (zh) 一种面向云计算平台的数据安全应急演练方法和系统
CN106161086B (zh) 主控板重启的控制方法及装置
CN114900430A (zh) 容器网络优化方法、装置、计算机设备和存储介质
CN103931139B (zh) 一种冗余保护方法、装置、设备及系统
CN115426274B (zh) 资源预警方法、装置、电子设备及存储介质
CN105550065A (zh) 一种进行数据库服务器通信管理的方法和装置
CN115454333A (zh) 云计算平台与存储系统的对接方法及装置
CN106357704A (zh) 一种基于开发环境的服务调用方法及装置
CN110413207A (zh) 降低存储系统的数据恢复时间的方法、设备和程序产品
CN110673793B (zh) 存储设备节点事件管理方法、系统及电子设备和存储介质
CN108717384B (zh) 一种数据备份方法及装置
CN111459514A (zh) 一种终端升级的处理方法、服务器及基站
CN111083719A (zh) 一种网元容量弹性调整的方法、装置和存储介质
CN114567536B (zh) 异常数据处理方法、装置、电子设备和存储介质
CN110532135B (zh) 一种集群系统的服务迁移方法、系统、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant