CN101677276A - 一种执行环境的管理方法、装置及系统 - Google Patents

一种执行环境的管理方法、装置及系统 Download PDF

Info

Publication number
CN101677276A
CN101677276A CN 200810216272 CN200810216272A CN101677276A CN 101677276 A CN101677276 A CN 101677276A CN 200810216272 CN200810216272 CN 200810216272 CN 200810216272 A CN200810216272 A CN 200810216272A CN 101677276 A CN101677276 A CN 101677276A
Authority
CN
China
Prior art keywords
execution environment
plm
eem
entity
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200810216272
Other languages
English (en)
Other versions
CN101677276B (zh
Inventor
张鑫
巢真
金雪锋
唐冠军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN 200810216272 priority Critical patent/CN101677276B/zh
Publication of CN101677276A publication Critical patent/CN101677276A/zh
Application granted granted Critical
Publication of CN101677276B publication Critical patent/CN101677276B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种集群系统,包括:平台管理子系统和至少一个执行环境管理实体,其中,所述执行环境管理实体,用于根据维护的计算资源CR对象信息,监控对应的执行环境EE所关联的计算资源CR对象,在监控到CR对象的状态发生变化,向所述平台管理子系统上报相应的状态变化事件报文;所述平台管理子系统,用于接收所述执行环境管理实体上报的状态变化事件报文,根据该状态变化事件报文中的状态变化信息以及预设的第一处理策略,向对应的执行环境管理实体下发相应的管理命令;从而实现PLM能感知当前执行环境EE的状态变化。

Description

一种执行环境的管理方法、装置及系统
技术领域
本发明涉及通信技术领域,尤其涉及一种执行环境的管理方法、集群系统平台管理子系统和执行环境管理实体。
背景技术
当今电信系统多采用计算集群(Computer Cluster)的方式作为核心控制设备,如CPCI、ATCA等刀片式服务架构。通常计算集群环境中采用分布式的方式进行业务的部署,如图1所示,为计算集群的逻辑模块示意图,一般包含网络管理Agent(Network Management Agent)、高可用性(HA,HighAvailability)管理子系统,软件管理(Software Management)子系统,平台管理(PLM,Platform Management)子系统,业务模块(Application),其中,网络管理Agent负责接收或者返回网络管理者发出的命令,并返回设备的故障信息,用以故障定位和修复;HA管理子系统负责集群环境中的冗余和业务倒换等管理,保证业务能不受软硬件故障而停止;软件管理子系统负责集群中的软件版本和软件包管理,控制软件升级过程;PLM负责实时监控和发现硬件资源的状态和故障,以及执行硬件的修复、重启等管理操作,例如,PLM发现硬件故障后通知HA管理中间件处理;且PLM平台管理子系统通过外部连接硬件管理hardware Management子系统来实现不同平台的硬件资源管理。目前的PLM通常包含两种资源,即执行环境(EE,Execution Environment)资源、硬件实体(HE,Hardware Entity)资源(如单板,传感器,看门狗等),其中执行环境EE对应集群环境中一个成员(即业务模块所在的单板)的操作系统,硬件实体HE对应HPI中的硬件资源实体;
发明人在实现本发明的过程中,发现:随着技术的发展,尽管电信操作系统由过去以嵌入式操作系统为主逐渐转化成以服务器式操作系统为主,但是目前的PLM仍然无法有效管理执行环境EE资源,例如:现有的PLM无法感知所管理的EE的状态变化。
发明内容
本发明实施例提供一种执行环境的管理方法、平台管理子系统、执行环境管理实体和集群系统,以实现能感知执行环境EE的状态变化。
本发明实施例提供如下技术方案:
一种集群系统,包括:平台管理子系统和至少一个执行环境管理实体,
所述执行环境管理实体,用于根据维护的计算资源CR对象信息,监控对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化时,向所述平台管理子系统上报相应的状态变化事件报文;
所述平台管理子系统,用于根据该状态变化事件报文中的状态变化信息以及预设的第一处理策略,向对应的执行环境管理实体发送相应的管理命令。
以及,一种平台管理PLM子系统,包括:
第一通信模块,用于接收执行环境管理EEM实体上报的状态变化事件报文,所述状态变化事件报文包含状态变化信息,以及向对应的执行环境管理实体发送相应的管理命令;
第一处理模块,用于根据预设的第一处理策略和所述状态变化信息确定待发的管理命令,通过所述第一通信模块向对应的执行环境管理实体下发所述管理命令。
以及,一种执行环境管理EEM实体,包括:
监控模块,用于根据维护的计算资源CR对象信息,监控与当前EEM实体对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化时,通过第二通信模块发送相应的状态变化事件报文;
第二通信模块,用于向平台管理PLM子系统上报相应的状态变化事件报文,所述状态变化事件报文包含状态变化信息。
以及,一种执行环境的管理方法,所述方法包括:
根据维护的计算资源CR对象信息,监控当前执行环境所关联的计算资源CR对象;
当监控到CR对象的状态发生变化时,向平台管理子系统PLM上报相应的状态变化事件报文,使得所述平台管理PLM子系统根据预设的第一处理策略和所述状态变化事件报文下发相应的管理命令。
以及,一种执行环境的管理方法,所述方法包括:
接收执行环境管理EEM实体上报的状态变化事件报文,该状态变化事件报文包含状态变化信息;
根据该状态变化事件报文中的状态变化信息和预设的第一处理策略,向该EEM实体下发相应的管理命令。
本发明实施例的集群系统、PLM子系统、EEM实体,以及执行环境的管理方法中,PLM通过EEM实体监控与当前执行环境EE所关联的计算资源CR,实现监控执行环境EE(即实现对执行环境EE细粒度的监控),当EEM实体监控到CR对象的状态发生变化时,向PLM上报相应的事件报文,以实现PLM能及时感知当前执行环境EE的状态变化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术的一种集群系统的组网示意图;
图2为本发明实施例涉及的对象模型依赖关系示意图;
图3为本发明实施例提供的CR类示意图;
图4为本发明实施例提供的一种集群系统的逻辑示意图;
图5为本发明实施例提供的另一种集群系统的逻辑示意图;
图6为本发明实施例提供的一种集群系统的部署示意图;
图7为本发明提供的平台管理PLM子系统实施例一的结构示意图;
图8为本发明提供的平台管理PLM子系统实施例二的结构示意图;
图9为本发明提供的执行环境管理实体实施例一的结构示意图;
图10为本发明提供的执行环境管理实体实施例二的结构示意图;
图11为本发明提供的执行环境管理实体实施例三的结构示意图;
图12为本发明提供的执行环境管理实体实施例四的结构示意图;
图13为本发明提供的执行环境的管理方法实施例一的流程示意图;
图14为为本发明提供的执行环境的管理方法实施例二的流程示意图;
图15为本发明提供的执行环境的管理方法实施例三的流程示意图;
图16为本发明提供的执行环境的管理方法实施例四的交互示意图;
图17为本发明提供的执行环境的管理方法实施例五的交互示意图;
图18为本发明提供的执行环境的管理方法实施例六的交互示意图;
图19为本发明提供的执行环境的管理方法实施例七的流程示意图;
图20为本发明提供的执行环境的管理方法实施例八的流程示意图;
图21为本发明提供的执行环境的管理方法实施例九的交互示意图;
图22为本发明提供的执行环境的启动方法实施例一的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有的平台管理(Platform Management、PLM)子系统与执行环境(Execution Environment、EE)之间由于其异构性不能直接进行管理的现状,本发明实施例提供一种执行环境管理(Execution Environment Management、EEM)实体,平台管理(Platform Management、PLM)子系统,以及一种在集群系统中管理执行环境的方法,来统一对不同的执行环境EE进行管理,这里不同的执行环境EE可以包括:不同构架的操作系统(如Linux与Vxworks),不同版本的操作系统(如Linux2.4、Linux2.6),操作系统和虚拟化系统之间等,应当理解的是:执行环境EE指能够为中间件和应用程序提供执行环境的实体,如操作系统OS,或者虚拟机等;相应的,本发明实施例还提供一种集群系统;
需要说明的是:为了便于后续描述,将平台管理PLM子系统简称为PLM,将执行环境管理EEM实体简称为EEM,将执行环境EE简称为EE;
本发明实施例中,通过引入执行环境管理EEM实体与平台管理PLM子系统通信以实现感知执行环境EE的状态变化;EEM实体通过监控与当前执行环境EE所关联的计算资源(Computing Resource、CR),实现监控执行环境EE(即实现对执行环境EE细粒度的监控),当监控到CR对象的状态发生变化时,向PLM上报相应的事件报文,以实现PLM能及时感知当前执行环境EE的状态变化。
本发明实施例中,在PLM中引入计算资源(Computing Resource、CR)的概念。CR概念的层次在EE之下,从对象角度,EE依赖CR的状态,CR故障则EE故障,CR是EE的自对象;EE依赖于特定的CR来为上层的组件环境和应用程序提供必要的执行资源。CR在不同的硬件环境下包含:CPU、内存、存储资源、网络适配器、其他IO资源等。在一种实现下,计算资源CR可以包括:
基本计算资源:CPU占用率,磁盘占用率,内存占用率,网口使用率等;
扩展计算资源:关键进程,关键内核模块,用户自定义资源。
在另一种实现下,计算资源CR可以包括:
本地计算资源:其包括虚拟的计算资源,如内核模块,进程;以及,物理计算资源,如网络适配器;
计算资源的使用状态:如CPU占用率,磁盘占用率,内存占用率。应当理解的是:前述为例,计算资源CR的划分不限于此。
请参阅图2,为本发明实施例涉及的对象模型依赖关系示意图,如图2所示,
HPI Domain是指HPI模块范畴的,HPI Entity是HPI范畴内的管理对象类;
Cluster Domain是指集群管理模块的范畴,而Cluster Member集群成员则是其管理的对象类。
中间较为详细的部分都是平台管理范畴的管理对象类;
PLM Entity是所有CR、HE和EE对象的父类,主要用于集中管理所有对象,简化存储和查询过程,没有实际的意义,主要功能都是子类来提供;
HE类是硬件资源抽象,例如:单板等,是映射硬件管理的对象,与HPI的HPI Entity一一对应。
EE类是执行环境的抽象类,例如:Linux OS,虚拟机等,它依赖于一个或多个HE。EE类因存在Host方式的虚拟化环境,可能存在EE与EE的依赖关系。
CR是EEM领域的对象,可以理解的是EEM可以是PLM外部扩展模块,CR类是EE类的细化抽象类,主要代表系统资源下的其他小资源,例如:内核模块,系统服务,CR是用来细化EE的管理粒度而抽象的对象,EE类依赖CR类。CR类支持自己再细化,所以存在CR与CR方式的依赖关系。
请参阅图3,为本发明实施例涉及的CR类示意图,其中,CR资源的状态和信息就抽象成CR对象的属性,CR资源操作就抽象成CR对象的方法;如图3所示,在一种实现下,CR对象属性包括:
CRName:CR的名字,CR的唯一标识;
CRType:CR的类型,标志此CR属于何种类型;
CRReadinessState:CR的就绪状态,标志CR是否能正常工作;
CRPresenceState:CR的在位状态,标注CR是不是已经启动,与CRReadinessState的区别为检查是否存在而不是能不能正常工作;
CRDefaultPolicy:CR出现故障后的默认修复策略,可以配置成复位、修复、重新实例化等。
CRNotificationLevel:CR通知级别,关键、重要、一般、较低等,关键故障在修复上一般采取隔离EE重新启动;
在一种实现下,CR对象方法包括:
CR_INSTANTIATION:实例化该CR管理对象;
CR_UNINSTANTIATION:销毁该CR的管理对象;
CR_HEALTHCHECK:CR的健康状态检查;一般有EEM定时执行,校验失败将产生故障Notification上报。
CR_REPAIRE:CR出现故障的修复方法;
CR_RESET:CR的复位方法;
请参见图4为本发明实施例提供的一种集群系统的示意图,如图4所示,本发明实施例的集群系统包括:平台管理PLM子系统200和执行环境管理EEM实体300(EEM实体可以理解为EEM模块),集群系统中一般包括至少两个集群成员,每个集群成员一般包含至少一个执行环境EE(如OS),而EEM与执行环境EE对应,应当理解的是:本发明实施例集群系统可以包括一个或多个EEM实体300,每个EEM实体300对应一个EE400,这里的EE400包括操作系统OS、虚拟机等;PLM200通过EEM300对相应的执行环境、计算资源CR进行管理,这里的管理可以包括:升级、故障检测、故障修复或重启等;应当理解的是:从对象角度,EEM实体300管理的对象是计算资源CR,而执行环境EE依赖CR;
其中,EEM300,用于根据维护的计算资源CR对象信息,监控对应的执行环境EE所关联的计算资源CR对象,在监控到CR对象的状态发生变化,向PLM200上报相应的事件报文,所述事件报文包含状态变化信息;
其中,这里的计算资源CR对象信息,在一种实现下,可以是CR对象表,该CR对象表可以包含从当前EEM300对应的EE抽象出的每个CR对象的属性信息和方法信息;以及,这里的状态变化信息,例如EE故障类型信息、EE故障级别信息和/或故障附加信息;
在一种实现下,可以将CR类型(CRType)与EE故障类型进行映射,如:关键进程或关键模块故障映射成EE核心部件故障;CPU占用率超过阈值事件,内存占用率超过阈值事件,或网口流量超过阈值事件映射成EE基本部件故障;
以及,可以将CR通知级别(CRNotificationLevel)与EE故障级别进行映射,如EE故障级别信息表示关键故障、重要故障、一般故障等。
在一种实现下,EEM300为第一EEM,用于根据维护的计算资源CR对象信息,监控对应的执行环境EE所关联的计算资源CR对象,在监控到CR对象的状态发生变化,获得与所述CR对象状态变化对应的EE状态变化信息,向所述平台管理子系统上报相应的状态变化事件报文,所述报文中包含EE状态变化信息。
以及,PLM200,用于根据该事件报文中的状态变化信息以及预设的第一处理策略,向对应的EEM300下发相应的管理命令;在一种实现下,这里的第一处理策略可以理解为EE故障恢复策略,PLM中保存有EE故障恢复策略;这里的管理命令包括但不限于:锁定Lock、解锁Unlock、关闭Shutdown、启动start、重启Restart和修复Repair等。其中,Lock命令用于使EE停止提供服务,停止应用程序的运行,但可以运行EEM程序;Unlock命令用于使EE重新开始提供服务;Shutdown命令用于关机,比如,在检测到设备温度过高时,PLM下发关机命令)Restart命令用于使EE重新启动;在重启过程中,可进行启动配置校验。Repair命令用于指EE已经准备好重新进入服务态,在此之前要重新评估原先造成EE失效的状态。
以及,本发明实施例集群系统中,EEM300进一步用于接收并执行PLM200下发的管理命令,从而实现相应的操作,如重启操作系统、锁定操作系统、或修复故障等。这里的管理命令包括:与所述上报的事件报文对应的管理命令,或由平台管理PLM用户触发PLM200所发出的管理命令。
以及,为了实现通过PLM直接管理EE,本发明实施例集群系统中,PLM200,进一步用于根据PLM用户发出的操作信息,向该操作信息关联的EE所对应的EEM实体下发相应的管理命令,并接收该EEM实体返回的处理结果信息。这里的操作信息,如:脚本,其中描述了被操作的对象,表示进行何种操作的信息等。
请参见图5为本发明实施例提供的另一种集群系统的示意图,如图5所示,与图4的区别在于,本发明实施例的集群系统进一步可以包括:硬件资源管理HPI400,用于管理集群系统中的硬件资源HE Entity,例如:单板资源,单板上的传感器,单板上的子卡资源等;应当理解的是:从对象角度,EEM实体300管理的对象是计算资源CR,而执行环境EE依赖CR;
可见,本发明实施例的集群系统中通过PLM接收到EEM实体在监控到CR对象的状态发生变化时所上报的事件报文,以实现PLM能及时感知当前执行环境EE的状态变化;
以及,通过PLM接收事件报文后,向对应的EEM300下发相应的管理命令,由EEM300执行管理命令完成相应的操作(如修复故障,或重新加载某个故障的内核模块),以克服现有嵌入式操作系统中,一旦应用程序和操作系统本身两者中一个出现问题,都必须重启系统的问题;
进一步的,本发明实施例的集群系统中通过PLM在收到PLM用户发出的操作命令后,向该操作命令关联的EE对应的EEM下发管理命令,以及接收事件报文后,向对应的EEM300下发管理命令,克服了现有的平台管理(Platform Management、PLM)子系统与执行环境(Execution Environment、EE)之间由于其异构性不能直接进行管理的缺陷,从而通过PLM与EEM实体的通信实现了统一、集中的对不同执行环境EE进行管理,使PLM拥有跨OS类型、OS版本、不区分OS还是虚拟机环境等关键特性。
请参见图6为本发明实施例提供的一种计算集群系统的部署示意图,如图4所示,机框500包括单板501、单板502和单板503;其中,单板503上部署有平台管理PLM子系统200以及操作系统OS 401;单板501上部署有执行环境管理EEM实体300以及操作系统OS 402,这里的EEM300与OS 402相关联;单板502上部署有执行环境管理EEM实体300以及操作系统OS 403,这里的EEM300与OS 403相关联;并且,单板501、502上部署的EEM300与部署在单板503上的PLM200通信以实现管理OS。应当理解的是:单板503为管理单板,单板501、502为业务单板。
请参见图7为本发明提供的平台管理PLM子系统实施例一的结构示意图,本发明实施例PLM通过EEM可以管理执行环境EE、计算资源CR,用于根据所接收的EEM上报的事件报文中的状态变化信息以及预设的第一处理策略,向对应的EEM下发相应的管理命令;如图5所示,本发明实施例平台管理PLM子系统包括:
第一通信模块203,用于接收来自EEM实体上报的状态变化事件报文,所述事件报文包含状态变化信息,以及向对应的EEM下发相应的管理命令;
第一处理模块202,用于根据预设的第一处理策略和所述状态变化信息确定待发的管理命令,通过第一通信模块203向对应的EEM下发相应的管理命令。
本发明实施例的PLM中,可以进一步包括:对象管理模块201,用于根据所述状态变化事件报文中的状态变化信息,维护上报所述状态变化事件报文的EEM实体所对应的执行环境EE对象。应当理解的是:对象管理模块201查找并维护所有管理对象的状态,这里的管理对象包括EE对象、HE对象、PLM Entity对象等;并且,EEM实体可以通过注册/注销等影响PLM中EE对象的状态。
以及,本发明实施例的PLM中,可以进一步包括:转发模块204,用于根据来自PLM用户发出的操作信息,从对象管理模块201中找到与所述操作信息关联的EE对象,通过第一通信模块203将相应的管理命令发送给与所述EE对象对应的EEM实体;
可见,本发明实施例的PLM子系统通过接收到EEM实体上报的事件报文,以实现PLM能及时感知当前执行环境EE的状态变化;
以及,通过PLM接收事件报文后,向对应的EEM下发相应的管理命令,由EEM执行管理命令完成相应的操作(如修复故障,或重新加载某个故障的内核模块),以克服现有嵌入式操作系统中,一旦应用程序和操作系统本身两者中一个出现问题,都必须重启系统的问题;
进一步的,通过PLM在收到PLM用户发出的操作命令后,向该操作命令关联的EE对应的EEM下发管理命令,以及接收事件报文后,向对应的EEM300下发管理命令,克服了现有的平台管理PLM子系统与执行环境EE之间由于其异构性不能直接进行管理的缺陷,从而使PLM拥有跨OS类型、OS版本、不区分OS还是虚拟机环境等关键特性。
请参见图8为本发明提供的平台管理PLM子系统实施例二的结构示意图,如图8所示,本发明实施例平台管理PLM子系统包括:
第一通信模块213,用于接收来自EEM实体上报的事件报文,所述事件报文包含状态变化信息,并向对应的EEM下发相应的管理命令,以及接收来自EEM的校验请求,所述校验请求包含当前EEM对应的EE本地实际配置信息,并向相应的EEM返回校验结果信息;在一种实现下,这里校验请求为EE系统启动时,由EEM发送的。
第一处理模块212,用于根据预设的第一处理策略和所述状态变化信息确定待发的管理命令,通过第一通信模块213向对应的EEM下发相应的管理命令;
对象管理模块211,用于根据所述状态变化信息,维护上报所述状态变化事件报文的EEM实体所对应的执行环境EE对象;
转发模块214,用于根据来自PLM用户发出的操作信息,从对象管理模块211中找到与所述操作信息关联的EE对象,通过第一通信模块213将相应的管理命令(如锁定、重启、解锁命令)发送给与所述EE对象对应的EEM实体;
以及,配置校验模块215,用于根据所述校验请求,校验EE的实际配置信息和参照配置信息是否一致,并通过第一通信模块213返回校验结果信息。
可见,本发明实施例的PLM子系统通过接收到EEM实体上报的事件报文,以实现PLM能及时感知当前执行环境EE的状态变化;
以及,通过PLM接收事件报文后,向对应的EEM下发相应的管理命令,由EEM执行管理命令完成相应的操作(如修复故障,或重新加载某个故障的内核模块),以克服现有嵌入式操作系统中,一旦应用程序和操作系统本身两者中一个出现问题,都必须重启系统的问题;
以及,通过PLM在收到PLM用户发出的操作命令后,向该操作命令关联的EE对应的EEM下发管理命令,以及接收事件报文后,向对应的EEM300下发管理命令,克服了现有的平台管理PLM子系统与执行环境EE之间由于其异构性不能直接进行管理的缺陷,从而使PLM拥有跨OS类型、OS版本、不区分OS还是虚拟机环境等关键特性;
进一步的,通过在EE系统启动时,进行EE配置数据的校验,完善了EE(操作系统)的启动认证,避免了因出现版本不匹配所造成的业务程序不能正常运行,对系统的可靠性造成的冲击。
请参见图9为本发明提供的执行环境管理EEM实体实施例一的结构示意图,本发明实施例EEM实体用于向PLM提供CR资源监控和查询的能力,将状态变化事件(用于故障通知或区间变化)上报给PLM,并执行PLM下发的管理命令;如图9所示,包括:
监控模块302,用于根据维护的计算资源CR对象信息,监控与当前EEM实体对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化,通过第二通信模块301发送相应的状态变化事件报文;其中,这里的CR对象的状态发生变化,如:CPU占用率区间变化、内存占用率区间变化或磁盘占用率区间变化,网口丢包率或者错包率的区间变化;关键进程或关键内核模块发生故障,以及用户自定义资源发生变化等。
在一种实现下,可以将CR类型(CRType)与EE故障类型进行映射,如:关键进程或关键模块故障映射成EE核心部件故障;再如:CPU占用率超过阈值事件,内存占用率超过阈值事件,或网口流量超过阈值事件映射成EE基本部件故障;
以及,可以将CR通知级别(CRNotificationLevel)与EE故障级别进行映射,如EE故障级别信息表示关键故障、重要故障、一般故障等。
相应的,在一种实现下,监控模块302,具体用于根据维护的计算资源CR对象信息,监控与当前EEM实体对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化时,获得与所述CR对象状态变化对应的EE状态变化信息(如EE故障类型信息、EE故障级别信息等),通过第二通信模块301发送相应的状态变化事件报文,所述状态变化事件报文包含EE状态变化信息。
以及,第二通信模块301,用于向平台管理子系统PLM上报相应的状态变化事件报文,所述事件报文包含状态变化信息,该状态变化信息例如EE故障类型信息、EE故障级别信息和/或故障附加信息。
需要说明的是:在实际应用中,本发明实施例EEM实体可以作为对应的执行环境的后台进程,如Daemon进程。
可见,本发明实施例中,通过EEM实体在监控到CR对象的状态发生变化时向PLM上报事件报文,以实现PLM能及时感知当前执行环境EE的状态变化。
请参见图10为本发明提供的执行环境管理EEM实体实施例二的结构示意图,如图10所示,本发明实施例EEM包括:
策略模块313,用于保存有第二处理策略;
监控模块312,用于根据维护的计算资源CR对象信息,监控与当前EEM实体对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化时,根据所述策略模块313中与该CR对象状态变化所匹配的第二处理策略通过第二通信模块311发送相应的状态变化事件报文,所述匹配的第二处理策略为上报的处理方式;
第二通信模块311,用于向平台管理子系统PLM上报相应的状态变化事件报文,所述事件报文包含状态变化信息;
本发明实施例EEM,进一步包括:本地修复模块314,用于进行本地修复或复位处理;
相应的,监控模块312,进一步用于根据所述策略模块313中与该CR对象状态变化所匹配的第二处理策略由本地修复模块314进行修复处理,所述匹配的第二处理策略为本地修复处理方式;从而实现在EEM实体中也可以针对小故障进行一些简单的修复,以减少上报PLM的事件。
请参见图11为本发明提供的执行环境管理EEM实体实施例三的结构示意图,如图11所示,本发明实施例EEM包括:
监控模块323,用于根据维护的计算资源CR对象信息,监控与当前EEM实体对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化,通过第二通信模块321发送相应的状态变化事件报文;
第二通信模块321,用于向平台管理子系统PLM上报相应的状态变化事件报文,所述事件报文包含状态变化信息;具体的是:第二通信模块321与PLM接口;
在PLM感知到EE(如OS)发生变化后,如:EE核心部件故障,确定进行的锁定或修复或重启时,PLM下发相应管理命令;或者由PLM用户触发PLM下发相应管理命令,相应的,第二通信模块321,进一步用于接收PLM下发的管理命令;
则,本发明实施例EEM,进一步包括:命令解析模块322,用于解释并执行PLM下发的管理命令,通过第二通信模块将命令执行结果返回给PLM;这里执行管理命令,有些管理命令,可以是命令解析模块322直接执行相应的命令;也可以是解释命令之后调用其他模块执行命令,例如:当管理命令为Restart命令时,由命令解析模块322调用启动管理模块324重启相应的EE(OS)。
以及,启动管理模块324,用于进行执行环境(操作系统)启动管理以及在启动过程中与PLM通信完成当前执行环境配置信息的校验,包括:通过第二通信模块321向PLM发送校验请求及接收PLM返回的校验结果信息,并根据校验结果信息继续进行处理(挂起或继续启动);从而完善了操作系统的启动认证。
如当业务单板上部署有多个执行环境时,本发明实施例EEM,进一步包括:EE适配模块325,用于适配不同的执行环境,例如:屏蔽不同操作系统、或操作系统的不同版本等。应当理解的是:如果操作系统相同,本发明实施例的EEM可以不包括EE适配模块325。
请参见图12为本发明提供的执行环境管理EEM实体实施例四的结构示意图,如图12所示,本发明实施例四的EEM与实施例三的EEM的区别在于:进一步包括:策略模块334,用于保存有第二处理策略,这里的第二处理策略为EEM实体本地的处理策略;
监控模块333,用于根据维护的计算资源CR对象信息,监控与当前EEM实体对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化时,根据所述策略模块334中与该CR对象状态变化所匹配的第二处理策略通过第二通信模块331发送相应的事件报文,所述匹配的第二处理策略为故障上报的处理方式;
本发明实施例EEM,进一步包括:本地修复模块335,用于进行本地修复或复位处理;
相应的,监控模块333,进一步用于根据所述策略模块334中与该CR对象状态变化所匹配的第二处理策略由本地修复模块335进行修复处理,所述匹配的第二处理策略为本地修复处理方式。由于其他模块的功能与实施例三的EEM实体相同,故不赘述!
请参见图13为本发明提供的执行环境的管理方法实施例一的流程示意图,如图13所示,一种执行环境的管理方法,应用于本发明实施例的集群系统中的EEM实体,包括如下步骤:
步骤S601、根据维护的计算资源CR对象信息,监控当前执行环境所关联的计算资源CR对象;
具体可以为:根据维护的计算资源CR对象表,监控当前EEM实体对应的执行环境所关联的计算资源CR对象;
在一种实现下,这里的计算资源CR对象可以包括两部分:
基本计算资源:CPU占用率,磁盘占用率,内存占用率,网口使用率等;
扩展计算资源:关键进程,关键内核模块,用户自定义资源。
在另一种实现下,这里的计算资源CR对象可以包括两部分:
本地计算资源:又可以分成两部分:虚拟的计算资源,如内核模块,进程;物理计算资源,如网络适配器;
计算资源的使用状态,如CPU占用率,磁盘占用率,内存占用率。
步骤S602、当监控到CR对象的状态发生变化时,向平台管理子系统PLM上报相应的状态变化事件报文,使得所述平台管理PLM子系统根据预设第一处理策略和所述状态变化事件报文下发相应的管理命令。
以及,步骤S602中,向平台管理子系统PLM上报相应的状态变化事件报文包括:
获得与所述CR对象状态变化对应的EE状态变化信息,向所述平台管理子系统上报相应的状态变化事件报文,所述状态变化事件报文包含EE状态变化信息,如:故障级别信息、故障类型信息和/或故障附加信息。
可见,本发明实施例中,通过EEM实体在监控到CR对象的状态发生变化时向PLM上报事件报文,以实现PLM能及时感知当前执行环境EE的状态变化。
请参见图14为本发明提供的执行环境的管理方法实施例二的流程示意图,如图14所示,一种执行环境的管理方法,应用于本发明实施例的集群系统中的EEM实体,包括如下步骤:
步骤S701、根据维护的计算资源CR对象信息,监控当前执行环境所关联的计算资源CR对象;
步骤S702、当监控到CR对象的状态发生变化时,确定与该CR对象状态变化所匹配的第二处理策略;
步骤S703、当匹配的第二处理策略为故障上报方式时,向平台管理PLM子系统上报相应的状态变化事件报文,并执行步骤S704;
步骤S704、接收所述平台管理PLM子系统下发的管理命令,所述管理命令包括:与该状态变化事件报文对应的管理命令;例如:锁定Lock、解锁Unlock、重启Restart、关闭Shutdown或修复Repair等。
步骤S705、解释和执行所述PLM下发的管理命令,并返回所述管理命令的执行结果。
步骤S706、当匹配的第二处理策略为本地修复时,进行本地的修复或复位处理。
其中,当所述状态变化事件报文用于表示EE核心部件发生故障(故障通知报文)时,所述平台管理PLM子系统根据预设的第一处理策略(即故障恢复策略)和所述状态变化事件报文向对应的EEM实体下发相应的管理命令,如:用于重启执行环境EE的Restart命令。
请参见图15为本发明提供的执行环境的管理方法实施例三的流程示意图,如图15所示,一种执行环境的管理方法,应用于本发明实施例的集群系统中的EEM实体,包括如下步骤:
步骤S801、EEM启动EE健康检查;
具体可以是:系统定时器定时触发EEM启动EE健康检查(周期进行EE健康检查),或者是PLM强制触发EE监控检查。
步骤S802、从EEM自身维护的CR对象表中获取第一个CR对象;
步骤S803-S804、检查该CR对象的当前状态,当检查结果是CR健康时,执行步骤S808;当检查结果是CR故障时,执行步骤S805;
这里的CR对象,例如:CPU占用率,磁盘占用率,Mem占用率,网口使用率(流量、速率、丢包率、错包率),关键进程,关键内核模块,用户自定义资源;
这里的CR故障,例如:CPU占用率超过阈值,内存占用率超过阈值,网口流量超过阈值,或关键进程故障等;
步骤S805、确定与所述CR故障匹配的第二处理策略;当与所述CR故障匹配的第二处理策略为本地修复或复位时,执行步骤S806;当与所述CR故障匹配的第二处理策略为故障上报方式时,执行步骤S807;
在一种实现下,步骤S805前,可以进一步包括:出现健康检查失败后,对检查失败计数器作加1处理,(应当理解的是:恢复健康情况下对检查失败计数器作清零处理);检查失败计数器超过阈值进行故障后处理,即执行步骤S805;
以及,在一种实现下,可以预先设置上报故障事件报文的故障级别,对于一般故障或较低故障,可以采用在本地修复或复位处理,以避免向PLM上报相应的事件报文,增加告警信息;对于关键、重要级别的故障,可以采用向PLM上报状态变化事件报文(故障事件报文);
或者,在另一种实现下,本地修复或者复位超过设定阈值时,也可以采用向PLM上报故障事件报文。
步骤S806、对所述故障进行修复或复位处理;并转步骤S810;
步骤S807、向PLM上报相应的状态变化事件报文;并转步骤S810;
在一种实现下,所述状态变化事件报文包含状态变化信息,如故障类型信息、故障级别信息等,故障类型信息表示当前EE发生的故障类型(核心部件故障、基本部件故障),故障级别信息表示故障的严重程度(致命、关键、重要、一般、较低)。
步骤S808-S809、从EEM自身维护的CR对象表中获取下一个CR对象,并检查该CR对象的当前状态;当检查结果是CR健康时,执行步骤S810;当检查结果是CR故障时,返回执行步骤S805;
步骤S810、判断当前CR对象是否为所述CR对象表中的最后一个CR对象,如果当前CR对象是最后一个CR对象,执行步骤S811;如果当前CR对象不是最后一个对象,返回执行步骤S808;
步骤S811、结束本次EE健康检查。
在一种实现下,实现的代码如下:
EEM_Do_Health_Check()
{
   RC_Item=Get_First_RC_Item_From_Table();//从RC对象表获取第一个RC对象
   While(RC_Item!=NULL)
   {
      Switch(RC_Item.Status)//根据当前CR的状态分别处理
      {
          case HEALTH://处于健康状态的CR对象
               //出现健康检查失败后对检查失败计数器加1,恢复健康情况下做清零
               if(RC_Item.CR_HEALTHCHECK()!=HEALTH)
               {
                   RC_Item.FaultCount++;
               }
               else
               {
                   RC_Item.FaultCount=0;
               }
               //检查失败计数器超过阈值进行故障后处理
                   if(RC_Item.FaultCount>=RC_Item.MAX_FAULT_TIME)
               {
                   //根据本地修复策略进行
                   switch(RC_Item.CRRepairePolicy){
                   case REPAIRE://进行修复处理
                       RC_Item.CR_REPAIRE();
                       RC_Item.RepaireCount++;
                       break;
                   case RESET://进行复位处理
                       RC_Item.CR_RESET();
                       RC_Item.ResetCount++;
                       break;
                  case REPORT_FAULT_EVENT://上报PLM故障事件
                     EEM_Report_CR_Fault_EVENT(RC_Item);
                     break;
                  }
                  RC_Item.Status=FAULT;//置此CR为故障状态
              }
              break;
         case FAULT://处于故障状态的CR对象
              //恢复健康则转换回健康状态
              if(RC_Item.CR_HEALTHCHECK()==HEALTH)
              {
                  RC_Item.Status=HEALTH;
                  RC_Item.RepaireCount=0;
                  RC_Item.ResetCount=0;
              }
              //修复或者复位超过设定阈值,需要上报PLM故障事件
              if(RC_Item.RepaireCount>=RC_Item.MAX_REPAIRE_TIME||
RC_Item.ResetCount>=RC_Item.MAX_RESET_TIME)
              {
                  EEM_Report_CR_Fault_EVENT(RC_Item);
              }
              //继续修复或者复位
              switch(RC_Item.CRRepairePolicy){
              case:
                  RC_Item.CR_REPAIRE();
                  RC_Item.RepaireCount++;
                  break;
              case:
                  RC_Item.CR_RESET();
                  RC_Item.ResetCount++;
                  break;
              }
              break;
      }
      RC_Item=Get_Next_RC_Item_From_Table();//获取表中下一个RC对象
   }
}
本发明实施例中,当EE的CR对象状态发生变化时,与该EE对应EEM可以向PLM上报相应的状态变化事件报文,由PLM根据保存的第一处理策略向对应的EEM下发相应的管理命令。为了更好的理解,请参见图16为本发明提供的执行环境的管理方法实施例四的交互示意图,如图16所示,一种执行环境的管理方法,应用于本发明实施例的集群系统,包括如下步骤:
步骤901、EEM监控对应的EE,这里的EE可以理解为正在处理业务(处于服务状态)的操作系统OS;
步骤902、EE(操作系统)发生关键故障,比如:内存泄漏,硬件设备锁死,文件系统被破坏等。
步骤903、EEM实体监控到关键故障发生,具体可以采用实施例三的具体方法进行监控;
在一种实现下,EEM通过监控关键进程发现EE(操作系统)故障;
步骤904、EEM实体确定与当前关键故障匹配的第二处理策略;这里的第二处理策略可以为:关键故障则上报;
步骤905、EEM根据所述第二处理策略,向PLM上报关键故障事件;
步骤906、PLM根据关键故障事件确定与所述事件匹配的第一处理策略;这里的第一处理策略可以为:关键故障则重启EE;
步骤907、PLM向EEM下发用于重启EE(OS)的管理命令;这里的管理命令为Restart命令;
步骤908、EEM根据所述管理命令(Restart命令),重启相应的EE(操作系统)。
请参见图17为本发明提供的执行环境的管理方法实施例五的交互示意图,如图17所示,一种执行环境的管理方法,应用于本发明实施例的集群系统,包括如下步骤:
步骤911、EEM监控对应的EE,这里的EE可以理解为正在处理业务(处于服务状态)的操作系统OS;
步骤912、EE(操作系统)发生故障。
步骤913、EEM实体监控到故障发生,具体可以采用实施例三的具体方法进行监控;
步骤914、EEM实体确定与当前故障匹配的第二处理策略;这里的第二处理策略可以为:普通故障则本地修复;
步骤915、EEM对发生故障的EE执行本地修复处理;
步骤916、EEM接收EE返回的修复成功信息。
请参见图18为本发明提供的执行环境的管理方法实施例六的交互示意图,如图18所示,一种执行环境的管理方法,应用于本发明实施例的集群系统,包括如下步骤:
步骤921、EEM监控对应的EE,这里的EE可以理解为正在处理业务(处于服务状态)的操作系统OS;
步骤922、EE操作系统发生关键故障;
步骤923、EEM实体监控到关键故障发生,具体可以采用实施例三的具体方法进行监控;
步骤924、EEM向PLM上报故障事件;本发明实施例中,是EEM监控到发生故障后,即时通知PLM;步骤925、PLM根据该故障事件确定与所述事件匹配的第一处理策略;这里的第一故障策略可以为:关键故障则重启;步骤926、PLM向EEM下发用于重启EE(OS)的管理命令;这里的管理命令为restart命令;
步骤927、EEM重启该EE(OS);
步骤928、EEM接收该EE(OS)重启成功信息;
步骤929、EEM向PLM上报EE重启成功信息。
针对传统的PLM无法有效管理执行环境资源的问题,本发明实施例的PLM能实现有效管理EE,其中,本发明实施例的PLM能向对应的EEM实体下发管理命令,使得该EEM实体执行收到的管理命令,以进行相应的锁定或修复或重启等操作,从而实现使得状态变化的CR对象状态恢复。
本发明实施例PLM向对应的EEM实体下发管理命令,包括如下情况:
a.EEM上报状态变迁事件给PLM后,PLM根据(第一处理策略)恢复策略,向对应的EEM实体下发相应的管理指令;
b.PLM接收PLM用户发出的操作命令,向对应的EEM实体下发相应的管理命令。
请参见图19为本发明提供的执行环境的管理方法实施例七的流程示意图,如图19所示,一种执行环境的管理方法,应用于本发明实施例的集群系统中的PLM,包括如下步骤:
步骤S930、接收执行环境管理EEM实体上报的状态变化事件报文,该状态变化事件报文包含状态变化信息;
具体可以是:接收执行环境管理EEM实体上报的状态变化事件报文,该状态变化事件报文包含故障类型信息、故障级别信息,表示EE发生关键故障;
步骤S931、根据该状态变化事件报文中的状态变化信息和预设的第一处理策略,向该EEM实体下发相应的管理命令。
其中,步骤S931具体可以包括:根据该状态变化事件报文中的状态变化信息,确定与所述事件匹配的第一处理策略;
根据所述匹配的第一处理策略下发对应的管理命令。
在一种实现下,状态变化信息包含故障类型信息,如EE核心部件故障、EE基本部件故障等,和/或故障级别信息,如致命故障、关键故障、重要故障、一般故障、较低故障等;
当状态变化事件报文中包含“关键故障”的级别信息时,确定的与所述事件匹配的第一处理策略为:“关键故障”采取隔离EE重新启动;则相应的,下发用于重启EE操作系统的重启命令;
当状态变化事件报文中包含“一般故障”的级别信息时,确定的与所述事件匹配的第一处理策略为:针对发生故障的CR对象,“一般故障”采取重新加载CR对象进行修复;则相应的,下发用于修复执行环境EE的修复命令。
当状态变化事件报文中包含“EE核心部件故障”的故障类型信息、“关键故障”的级别信息时,确定的与所述事件匹配的第一处理策略为:“EE核心部件发生关键故障”采取隔离EE重新启动;则相应的,下发用于重启EE操作系统的重启命令;
可见,本发明实施例中通过PLM接收到EEM实体在监控到CR对象的状态发生变化时所上报的事件报文,以实现PLM能及时感知当前执行环境EE的状态变化;
以及,通过PLM接收事件报文后,向对应的EEM下发相应的管理命令,使得EEM执行管理命令完成相应的操作,以克服现有嵌入式操作系统中,一旦应用程序和操作系统本身两者中一个出现问题,都必须重启系统的问题。
以及,本发明实施例中,通过PLM在收到事件报文后,向对应的EEM下发管理命令,克服了现有的平台管理PLM子系统与执行环境EE之间由于其异构性不能直接进行管理的缺陷,从而通过PLM与EEM实体的通信实现了统一、集中的对不同执行环境EE进行管理,使PLM拥有跨OS类型、OS版本、不区分OS还是虚拟机环境等关键特性。
请参见图20为本发明提供的执行环境的管理方法实施例八的流程示意图,如图20所示,一种执行环境的管理方法,应用于本发明实施例的集群系统中的PLM,包括如下步骤:
步骤S940、接收平台管理用户发出的操作信息;
例如:当集群系统启动且集群成员的操作系统需要升级更新时,平台管理用户下发用于升级该集群成员的操作系统的操作信息,如:软件升级脚本;
步骤S941、根据该操作信息,向与该操作信息关联的执行环境EE对应的EEM实体下发相应的管理命令;
例如:当操作信息是软件升级脚本时,首先下发锁定命令,该锁定命令用于使EE停止提供服务,停止应用程序的运行,但可以运行EEM程序;然后等锁定成功后,下发Restart命令,该Restart命令用于使EE(OS)重启;最后下发解锁命令。
步骤S942、接收该EEM实体返回的处理结果信息,并向平台管理用户返回相应的操作结果信息。
例如:当操作信息是软件升级脚本时,这里的处理结果可以是锁定命令执行结果,或重启命令执行结果,或解锁命令执行结果;这里的操作结果信息可以是软件升级成功信息。
可见,本发明实施例中,通过PLM在收到PLM用户发出的操作信息后,向该操作信息关联的EE对应的EEM下发管理命令,克服了现有的平台管理PLM子系统与执行环境EE之间由于其异构性不能直接进行管理的缺陷,从而通过PLM与EEM实体的通信实现了统一、集中的对不同执行环境EE进行管理,使PLM拥有跨OS类型、OS版本、不区分OS还是虚拟机环境等关键特性。
传统的PLM无法有效管理执行环境(为了便于理解,下面以EE为操作系统来进行描述),只能通过复位操作系统依赖的硬件来实现操作系统的升级、或重启,这种粗粒度的管理造成了系统无法运用当前先进的快速重启机制,而硬件级别的重启耗费的时间是很长的,一旦出现升级失败,想回退为原来的操作系统将更加费时和困难。针对这种现状,本发明实施例的集群系统能够快速启动操作系统,无需通过硬件级别的重启来升级操作系统,大大减少重新启动时间,提高了系统的可用性。
请参见图21为本发明提供执行环境的管理方法实施例九的流程示意图,这里的管理具体为升级,应当理解的是:PLM通过EEM可以对执行环境进行管理,这里的管理包括但不限于:升级、故障检测、故障修复、重启等,为了方便理解,如下以OS为EE的例子进行描述;如图21所示,一种执行环境的管理方法,应用于本发明实施例的集群系统,包括如下步骤:
步骤S1001、维护人员通过网管系统下发软件升级脚本;
步骤S1002、PLM根据该软件升级脚本,向对应的EEM下发锁定命令,使得OS停止提供服务,停止应用程序的运行;
步骤S1003、EEM返回锁定成功信息;
步骤S1004、操作系统退出集群,停止提供服务;
步骤S1005、PLM下发Restart命令给EEM;
步骤S1006、EEM从镜像文件服务器中获取新的镜像文件(Boot Image文件);
步骤S1007、EEM对该操作系统部署新的镜像文件;
具体可以是:EEM下发新的Boot Image文件,将Boot Image存放到该操作系统的启动目录,同时修改该操作系统的启动配置,将启动选项指向新的Boot Image。
步骤S1008、EEM重启该操作系统;
步骤S1009、该操作系统启动进程向EEM请求自身的配置数据;
步骤S1010、EEM向PLM请求该操作系统的配置数据;
步骤S1011、PLM向EEM下发相应的配置数据;
步骤S1012、EEM对该配置数据进行校验;
步骤S1013、在对该配置数据校验成功后,EEM将配置数据传递给操作系统的启动进程;
步骤S1014、操作系统启动成功;
步骤S1015、EEM监控到操作系统启动成功;
步骤S1016、EEM向PLM返回启动成功信息;
步骤S1017、PLM下发解锁命令给EEM,使得EEM重新开始对操作系统进行CR对象监控和事件上报;
步骤S1018、EEM返回解锁成功信息;
步骤S1019、操作系统进入集群,开始提供服务;
步骤S1020、PLM向网管返回软件升级成功信息。
需要说明的是:在升级之前执行软件升级脚本,主要用于将系统备份,备份旧的版本镜像文件(如果在本地),释放相关资源(内存),如果系统升级失败回退版本用。
而镜像文件(Boot Image)是完整的OS版本,是用于引导启动操作系统,Boot Image的版本就是操作系统的版本。
进一步的,在集群系统中,某个集群成员是否为合法成员是通过此成员向集群服务器注册来进行认证的,认证通过的成员才允许正常的执行应用程序,以及接纳业务,这是对集群系统业务安全性的考虑。目前认证一般包含两个方面,硬件配置属性的认证和应用软件模块版本的认证。对于配置信息的认证而言,由于电信系统多采用服务器式(Linux、Sorilars等)操作系统中,应用程序除了对硬件配置信息很敏感,对于操作系统的内核版本、配置,内核模块版本等配置信息也十分敏感,如果出现配置信息不匹配将造成业务程序不能正常运行,对系统的可靠性造成极大的冲击。针对这种现状,本发明实施例在执行环境的启动过程中,提供对执行环境(操作系统)的配置信息的验证,以进一步完善执行环境(操作系统)的启动认证;
请参阅图22,为本发明实施例的执行环境的启动方法的流程图,如图22所示,包括如下步骤:
开始:操作系统启动;
步骤S1100、操作系统初始进程启动;
步骤S1101、EEM进程启动;
步骤S1102、EEM获取本地操作系统实际配置信息,例如:操作系统的内核版本、内核模块版本等;
步骤S1103、EEM向PLM发送校验请求,其中所述校验请求包含所述实际配置信息;
步骤S1104、EEM接收PLM返回的实际配置信息和参照配置信息的匹配是否一致的结果;当两者不一致时,执行步骤S1105;当两者一致时,执行步骤S1109;
步骤S1105、EEM请求PLM确认操作,当返回的确认结果是等待时,则执行步骤S1106;当返回的确认结果是重启操作系统时,则执行步骤S1107;
步骤S1106、判断等待超时次数是否达到阀值N,如果等待超时次数<N,则继续等待;反之,则执行步骤S1109;
步骤S1107、判断是否重新加载,当确定是重新加载时,执行步骤S1108;反之,执行步骤S1100;
步骤S1108、加载指定镜像文件;
步骤S1109、继续启动其他系统进程,等其他系统进程都启动完成,则操作系统启动完成。
可见,在操作系统启动过程中,在获得正确的配置信息前,初始进程挂起等待。在PLM对配置信息进行校验成功的情况下,EEM将配置信息传递给操作系统,启动过程继续进行;通过对操作系统的配置信息的验证,以进一步完善操作系统的启动认证;从而避免了一旦出现配置信息不匹配所造成的业务程序不能正常运行的后果。
应当理解的是:也可以通过EEM在系统引导过程中尝试与PLM通信发送启动事件,获取操作系统配置校验信息(参照值),并校验本地保存配置信息和配置校验信息(参照值)是否一致,当校验成功时,EEM向操作系统初始化进程传递校验通过的配置数据,启动过程继续进行。
综上所述,本发明实施例的集群系统、PLM子系统、EEM实体,以及执行环境的管理方法中通过PLM接收到EEM实体在监控到CR对象的状态发生变化时所向上报的事件报文,以实现PLM能及时感知当前执行环境EE的状态变化;
以及,通过PLM接收事件报文后,向对应的EEM下发相应的管理命令,由EEM执行管理命令完成相应的操作(如修复故障,或重新加载某个故障的内核模块),以克服现有嵌入式操作系统中,一旦应用程序和操作系统本身两者中一个出现问题,都必须重启系统的问题;
以及,本发明实施例的集群系统中通过PLM在收到PLM用户发出的操作命令后,向该操作命令关联的EE对应的EEM下发管理命令,以及接收事件报文后,向对应的EEM下发管理命令,克服了现有的平台管理PLM子系统与执行环境EE之间由于其异构性不能直接进行管理的缺陷,从而通过PLM与EEM实体的通信实现了统一、集中的对不同执行环境EE进行管理,使PLM拥有跨OS类型、OS版本、不区分OS还是虚拟机环境等关键特性。
以及,本发明实施例中,当需要升级EE(OS)时,PLM接收到网管下发的升级脚本后,通过向对应的EEM下发锁定、重启、和解锁命令,EEM解析并执行该命令后,升级或重启相应的操作系统,从而实现快速启动操作系统,无需通过硬件级别的重启来升级操作系统,大大减少重新启动时间,提高了系统的可用性。
进一步的,本发明实施例在执行环境的启动过程中,提供对执行环境(操作系统)的配置信息的验证,以进一步完善执行环境(操作系统)的启动认证;从而避免了一旦出现配置信息不匹配所造成的业务程序不能正常运行的后果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述仅为本发明的几个实施例,本领域的技术人员依据申请文件公开的可以对本发明进行各种改动或变型而不脱离本发明的精神和范围。

Claims (21)

1、一种集群系统,其特征在于,包括:平台管理子系统和至少一个执行环境管理实体,其中,
所述执行环境管理实体,用于根据维护的计算资源CR对象信息,监控对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化,向所述平台管理子系统上报相应的状态变化事件报文;
所述平台管理子系统,用于根据该状态变化事件报文中的状态变化信息以及预设的第一处理策略,向对应的执行环境管理实体发送相应的管理命令。
2、如权利要求1所述的系统,其特征在于,所述平台管理子系统,进一步用于根据平台管理用户发出的操作信息,向该操作信息关联的执行环境所对应的执行环境管理实体发送相应的管理命令,并接收该执行环境管理实体返回的处理结果信息。
3、如权利要求1或2所述的系统,其特征在于,所述执行环境管理实体,进一步用于执行所述平台管理子系统发送的管理命令。
4、一种平台管理PLM子系统,其特征在于,包括:
第一通信模块,用于接收执行环境管理EEM实体上报的状态变化事件报文,所述状态变化事件报文包含状态变化信息,以及向对应的执行环境管理实体发送相应的管理命令;
第一处理模块,用于根据预设的第一处理策略和所述状态变化信息确定待发的管理命令,通过所述第一通信模块向对应的执行环境管理实体下发所述管理命令。
5、如权利要求4所述的平台管理PLM子系统,其特征在于,所述平台管理PLM子系统进一步包括:
对象管理模块,用于根据所述状态变化信息,维护上报所述状态变化事件报文的EEM实体所对应的执行环境EE对象。
6、如权利要求5所述的平台管理PLM子系统,其特征在于,所述平台管理PLM子系统进一步包括:
转发模块,用于根据来自平台管理用户发出的操作信息,从所述对象管理模块中找到与所述操作信息关联的EE对象,通过所述第一通信模块将相应的管理命令发送给与所述EE对象对应的EEM实体。
7、如权利要求4所述的平台管理PLM子系统,其特征在于,所述第一通信模块,进一步用于接收来自EEM实体的校验请求,所述校验请求包含所述EEM实体对应的EE的实际配置信息,并向所述EEM实体返回校验结果信息;
所述平台管理PLM子系统进一步包括:配置校验模块,用于根据所述校验请求,校验EE的实际配置信息和参照配置信息是否一致,并通过所述第一通信模块返回校验结果信息。
8、一种执行环境管理EEM实体,其特征在于,包括:
监控模块,用于根据维护的计算资源CR对象信息,监控与当前EEM实体对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化时,通过第二通信模块发送相应的状态变化事件报文;
第二通信模块,用于向平台管理PLM子系统上报相应的状态变化事件报文,所述状态变化事件报文包含状态变化信息。
9、如权利要求8所述的执行环境管理EEM实体,其特征在于,所述第二通信模块,进一步用于接收平台管理PLM子系统下发的管理命令;
所述执行环境管理EEM实体,进一步包括:
命令解析模块,用于解释并执行或调用其他模块执行所述管理命令,通过所述第二通信模块向所述PLM子系统返回相应的命令执行结果。
10、如权利要求9所述的执行环境管理EEM实体,其特征在于,进一步包括:
启动管理模块,用于进行执行环境启动管理以及在启动过程中通过所述第二通信模块向所述PLM子系统发送校验请求及接收所述PLM子系统返回的校验结果信息,并根据校验结果信息进行处理。
11、如权利要求10所述的执行环境管理EEM实体,其特征在于,进一步包括:EE适配模块,用于适配不同的执行环境。
12、如权利要求8至11任一项所述的执行环境管理EEM实体,其特征在于,所述监控模块为第一监控模块,用于根据维护的计算资源CR对象信息,监控与当前EEM实体对应的执行环境所关联的计算资源CR对象,在监控到CR对象的状态发生变化时,根据与该CR对象状态变化所匹配的第二处理策略通过所述第二通信模块发送相应的状态变化事件报文,所述匹配的第二处理策略为上报处理方式。
13、如权利要求12所述的执行环境管理EEM实体,其特征在于,进一步包括:本地修复模块,用于进行本地修复或复位处理;
所述第一监控模块,进一步用于根据与该CR对象状态变化所匹配的第一处理策略通过所述本地修复模块进行修复处理,所述匹配的第一处理策略为本地修复处理方式。
14、一种执行环境的管理方法,其特征在于,所述方法包括:
根据维护的计算资源CR对象信息,监控当前执行环境所关联的计算资源CR对象;
当监控到CR对象的状态发生变化时,向平台管理子系统PLM上报相应的状态变化事件报文,使得所述平台管理PLM子系统根据预设的第一处理策略和所述状态变化事件报文下发相应的管理命令。
15、如权利要求14所述的方法,其特征在于,所述向平台管理子系统PLM上报相应的状态变化事件报文包括:
获得与所述CR对象的状态变化对应的EE状态变化信息,向所述平台管理子系统上报相应的状态变化事件报文,所述状态变化事件报文包含EE状态变化信息。
16、如权利要求14所述的方法,其特征在于,所述向平台管理子系统PLM上报相应的状态变化事件报文的步骤前,进一步包括:
根据监控到的CR对象的状态变化,确定与该CR对象状态变化所匹配的第二处理策略,所述匹配的第二处理策略为上报处理方式;
则,所述向平台管理子系统PLM上报相应的状态变化事件报文为:根据所述匹配的上报处理方式的第二处理策略向平台管理子系统PLM上报相应的状态变化事件报文。
17、如权利要求14所述的方法,其特征在于,所述方法进一步包括:
执行所述平台管理PLM子系统下发的管理命令,并返回所述管理命令的执行结果,所述管理命令包括:与该状态变化事件报文对应的管理命令,或由平台管理PLM用户触发所述平台管理PLM子系统所发出的管理命令。
18、一种执行环境的管理方法,其特征在于,所述方法包括:
接收执行环境管理EEM实体上报的状态变化事件报文,该状态变化事件报文包含状态变化信息;
根据该状态变化事件报文中的状态变化信息和预设的第一处理策略,向该EEM实体下发相应的管理命令。
19、如权利要求18所述的方法,其特征在于,所述根据该状态变化事件报文中的状态变化信息和预设的第一处理策略,向该EEM实体下发相应的管理命令包括:
根据该状态变化事件报文中的状态变化信息,确定与所述状态变化事件匹配的第一处理策略;
根据所述匹配的第一处理策略下发对应的管理命令。
20、如权利要求18或19所述的方法,其特征在于,所述管理命令至少包括:锁定命令、解锁命令、关闭命令、启动命令、重启命令或修复命令。
21、如权利要求18或19所述的方法,其特征在于,所述方法进一步包括:
接收平台管理用户发出的操作信息;
根据该操作信息,向与该操作信息关联的执行环境EE对应的EEM实体下发相应的管理命令。
CN 200810216272 2008-09-16 2008-09-16 一种执行环境的管理方法、装置及系统 Expired - Fee Related CN101677276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810216272 CN101677276B (zh) 2008-09-16 2008-09-16 一种执行环境的管理方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810216272 CN101677276B (zh) 2008-09-16 2008-09-16 一种执行环境的管理方法、装置及系统

Publications (2)

Publication Number Publication Date
CN101677276A true CN101677276A (zh) 2010-03-24
CN101677276B CN101677276B (zh) 2012-12-12

Family

ID=42029700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810216272 Expired - Fee Related CN101677276B (zh) 2008-09-16 2008-09-16 一种执行环境的管理方法、装置及系统

Country Status (1)

Country Link
CN (1) CN101677276B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103475677A (zh) * 2012-06-07 2013-12-25 中兴通讯股份有限公司 一种PaaS云平台中管理虚拟节点的方法、装置及系统
CN103502938A (zh) * 2011-03-10 2014-01-08 瑞典爱立信有限公司 平台管理(plm)信息模型中的虚拟化支持
CN104331311A (zh) * 2014-11-19 2015-02-04 广东欧珀移动通信有限公司 一种升级包生成方法和装置
WO2016107270A1 (zh) * 2014-12-31 2016-07-07 华为技术有限公司 管理设备的方法、设备和设备管理控制器
CN106254126A (zh) * 2016-08-18 2016-12-21 浪潮(北京)电子信息产业有限公司 一种基于daemon模式的管理网络系统
CN109274521A (zh) * 2018-08-24 2019-01-25 郑州云海信息技术有限公司 一种分布式存储系统模式的自动升级方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103502938A (zh) * 2011-03-10 2014-01-08 瑞典爱立信有限公司 平台管理(plm)信息模型中的虚拟化支持
CN103502938B (zh) * 2011-03-10 2017-02-15 瑞典爱立信有限公司 平台管理(plm)信息模型中的虚拟化支持
CN103475677A (zh) * 2012-06-07 2013-12-25 中兴通讯股份有限公司 一种PaaS云平台中管理虚拟节点的方法、装置及系统
CN103475677B (zh) * 2012-06-07 2018-08-28 南京中兴软件有限责任公司 一种PaaS云平台中管理虚拟节点的方法、装置及系统
CN104331311A (zh) * 2014-11-19 2015-02-04 广东欧珀移动通信有限公司 一种升级包生成方法和装置
CN104331311B (zh) * 2014-11-19 2017-07-28 广东欧珀移动通信有限公司 一种升级包生成方法和装置
WO2016107270A1 (zh) * 2014-12-31 2016-07-07 华为技术有限公司 管理设备的方法、设备和设备管理控制器
CN105808407A (zh) * 2014-12-31 2016-07-27 华为技术有限公司 管理设备的方法、设备和设备管理控制器
US10042583B2 (en) 2014-12-31 2018-08-07 Huawei Technologies Co., Ltd. Device management method, device, and device management controller
CN105808407B (zh) * 2014-12-31 2019-09-13 华为技术有限公司 管理设备的方法、设备和设备管理控制器
CN106254126A (zh) * 2016-08-18 2016-12-21 浪潮(北京)电子信息产业有限公司 一种基于daemon模式的管理网络系统
CN109274521A (zh) * 2018-08-24 2019-01-25 郑州云海信息技术有限公司 一种分布式存储系统模式的自动升级方法及装置

Also Published As

Publication number Publication date
CN101677276B (zh) 2012-12-12

Similar Documents

Publication Publication Date Title
US9514160B2 (en) Automatic recovery of a failed standby database in a cluster
US7802128B2 (en) Method to avoid continuous application failovers in a cluster
CN101677276B (zh) 一种执行环境的管理方法、装置及系统
US10303459B2 (en) Electronic system with update control mechanism and method of operation thereof
CN105518629A (zh) 云部署基础结构确认引擎
US11048538B2 (en) Autonomous cell-based control plane for scalable virtualized computing
AU2020285262B2 (en) Error recovery method and apparatus
US10353786B2 (en) Virtualization substrate management device, virtualization substrate management system, virtualization substrate management method, and recording medium for recording virtualization substrate management program
US11210150B1 (en) Cloud infrastructure backup system
WO2022007418A1 (zh) 云平台块设备异常审计方法、装置、设备及存储介质
CN106814977A (zh) 基于多存储厂商的多路径软件的管理方法及系统
JP2007133544A (ja) 障害情報解析方法及びその実施装置
WO2023184875A1 (zh) 一种裸金属磁盘备份方法、装置及计算机可读存储介质
CN110990124A (zh) 云主机恢复方法和装置
US11182252B2 (en) High availability state machine and recovery
JP5352027B2 (ja) 計算機システムの管理方法及び管理装置
US7890793B1 (en) Techniques for restoring file system resources
US20080313378A1 (en) Method And System To Determine Device Criticality For Hot-Plugging In Computer Configurations
US20230161643A1 (en) Lifecycle management for workloads on heterogeneous infrastructure
CN108984356A (zh) 一种it产品测试方法及装置
US7334096B1 (en) Architecture and apparatus for atomic multi-volume operations
US7328318B1 (en) System and method for atomic multi-volume operations
CN114598604A (zh) 虚拟网络功能实例信息的监控方法、监控装置及终端
CN111258805B (zh) 一种服务器的硬盘状态监控方法、设备和计算机设备
CN109412888B (zh) 虚拟交换机监控方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121212

Termination date: 20170916