CN107547273A - 一种电力系统虚拟实例高可用的保障方法及系统 - Google Patents

一种电力系统虚拟实例高可用的保障方法及系统 Download PDF

Info

Publication number
CN107547273A
CN107547273A CN201710712017.3A CN201710712017A CN107547273A CN 107547273 A CN107547273 A CN 107547273A CN 201710712017 A CN201710712017 A CN 201710712017A CN 107547273 A CN107547273 A CN 107547273A
Authority
CN
China
Prior art keywords
information
virtual instance
module
migration
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710712017.3A
Other languages
English (en)
Other versions
CN107547273B (zh
Inventor
田兵
李明
于展鹏
徐浩
曲延盛
张丞
刘范范
汤耀庭
刘荫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201710712017.3A priority Critical patent/CN107547273B/zh
Publication of CN107547273A publication Critical patent/CN107547273A/zh
Application granted granted Critical
Publication of CN107547273B publication Critical patent/CN107547273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Power Sources (AREA)

Abstract

本发明公开了一种电力系统虚拟实例高可用的保障方法及系统,方法包括以下步骤:步骤1,初始化配置;步骤2,环境实时监测;步骤3,流式消息通信;步骤4,五元组模型分析判断;步骤5,虚拟实例迁移。系统包括:初始化配置模块、环境实时监测模块、流式消息通信模块、五元组模型分析判断模块和虚拟实例迁移模块。本发明保证了在云环境下应用系统前端访问可不间断运行,系统能够主动的进行扫描,当发现物理设备故障时,根据本发明的五元组模型进行分析,对故障是否对系统运行造成致命影响给予判断,当判断发现故障会影响应用系统虚拟实例运行时,会启动虚拟机迁移与恢复机制,从而保证业务虚拟实例前端访问不间断。

Description

一种电力系统虚拟实例高可用的保障方法及系统
技术领域
本发明涉及一种服务器故障下的电力系统虚拟实例高可用的保障方法及系统,属于电力系统云数据处理技术领域。
背景技术
随着电力行业“十三五规划”任务的逐步开始,各级电力企业云计算平台逐步建立,按照国家的倡导,越来越多的云平台采用开源技术加自主开发的思路落地。由于电力行业的特殊性,在信息化建设过程中,安全性一直是重中之重。特别是部分核心业务,对系统的不间断运行要求很高,对系统停机几乎是零容忍。系统的高可用机制能保证在硬件发生故障、或遭受损坏时,系统的不间断运行。这对电力行业的系统具有非常重要的意义。
云计算采用存储分布式的架构,避免了数据层面因为硬件故障而对系统造成的影响。在应用层面,虚拟化的广泛使用为计算资源服务提供了更多可能,但是除了VMware等少数商业虚拟化产品外,大部分开源虚拟化技术,如KVM(Kernel-based Virtual Machine,KVM虚拟机)、Xen(思捷Xen虚拟机)等都没有源生的虚拟实例高可用机制,并且VMware等商业软件的虚拟实例高可用机制也不能直接移植到KVM、Xen等开源虚拟化环境下使用。这就为采用开源技术加自主研发的云计算平台,埋下了系统高可用性机制缺陷隐患,具体体现在以下两个方面:
(1)物理故障发现和判断自动化程度低
目前,物理故障的发现依赖于人工或分散的各监控平台,没有针对云计算环境下,统一的硬件故障发现管理;即使在发生硬件故障时,也没有完整的判断依据,能清晰的分析出故障发生对云平台承载业务系统的虚拟机的影响,例如硬盘故障、网络故障是否会造成灾难性事件,是否需要进行虚拟机迁移或恢复往往依赖于人工经验。
(2)缺少有效地虚机自动迁移和恢复机制
当故障发生时,没有一套有效的、自动的虚拟机迁移与恢复机制;或者依赖于VMware等商业化软件的功能,当使用KVM等开源虚拟化的时候,往往需要人工根据经验和操作手册进行逐步操作;由于人工能力的不同和操作延时,往往不能保证虚拟机所承载业务的不间断运行,给业务造成一定稳定性隐患。
综上所述,现有开源虚拟化技术存在虚拟实例可用性低的问题,无法保证虚拟机所承载业务的不间断运行。
发明内容
针对现有技术的不足,本发明提出了一种服务器故障下的电力系统虚拟实例高可用的保障方法及系统,其能够保障虚拟实例可用性,保证在云环境下应用系统前端访问的不间断运行。
本发明解决其技术问题采取的技术方案是:
本发明实施例提供的一种电力系统虚拟实例高可用的保障方法,它包括以下步骤:
步骤1,初始化配置:录入服务器的IPMI管理口信息、服务器的角色信息和通信网络信息,并根据录入的信息建立一个基础数据库,用于存储管理云计算环境下所有虚拟机、物理机器的配置核关联信息,当信息发生变化时进行信息同步;
步骤2,环境实时监测:对云计算环境下的网络和计算状态信息进行实时监控;
步骤3,流式消息通信:对实时监控模块采集的状态信息以流式(stream)消息的方式进行处理和传输,将数据缓存在本地且消息被处理后删除本地缓存;
步骤4,五元组模型分析判断:通过五元组模型对实时监控状态数据进行判断,分析现有云计算环境下是否发生了计算节点服务器严重故障,得出是否需要进行虚拟实例迁移的判断机制,对于需要进行迁移的向迁移模块传递迁移触发指令;
步骤5,虚拟实例迁移:通过故障设备关机、资产管理模块信息读取与回写、虚拟实例创建、共享存储挂载、虚拟实例配置与恢复过程完成虚拟实例的迁移工作。
进一步的,所述步骤1的具体过程为:将云平台的环境基础信息输入到配置文件中,基础信息包括需要监控的服务器的IPMI IP、用户名、口令,服务器在云平台中的角色,以及云平台中网络的VLAN信息、网卡信息,并配置通信链路使被监控网络IP可达。
进一步的,所述步骤2的具体过程包括以下步骤:
步骤21,采用IPMI、Ping或SNMP方式发起环境监测扫描,扫描云计算平台的网络环境和计算环境,实现对物理运行状态的实时监控,采用秒级间隔扫描,且两次扫描之间的时间间隔可设定;
步骤22,对网络环境和计算环境扫描过程中,获取以下参数:
(1)计算节点服务器的电源状态,
(2)虚拟访问存储网络的运行状态,
(3)管理网络的运行状态,
(4)生产网络的运行状态,
(5)计算节点是否运行本次存储;
步骤23,将采集到的状态数据推送给下一步骤。
进一步的,所述步骤3的具体过程包括以下步骤:
步骤31,以流式消息方式接收采集到的状态数据,通过消息通道的消息汇聚和分类为后续消息处理分析做准备;
步骤32,传输通道对数据进行缓存,通过设置在本地磁盘缓存,缓存在本地磁盘的数据在被处理后进行删除。
进一步的,所述步骤4的具体过程包括以下步骤:
步骤41,对状态信息进行过滤,对于非计算节点状态全部去除,并对数据的完整性做出判断,随之启动五元组分析模型;
步骤42,对状态信息进行五元组模型分析;利用五元组模型对数据读取分析流程包括以下步骤:
1)读取通过IPMI tools检测到的IPMI power状态,如果Power状态为off则直接跳到第5)步,否则继续第2)步判断;
2)读取管理网的状态(通过Ping管理网IP获得的状态信息);
3)读取生产网络的状态(通过ssh到目标机上后执行命令获得的状态信息);
4)读取虚机访问后端存储网的状态;
5)以上步骤读出的五元组状态数据(IPMI power状态,虚机访问后端存储网状态,管理网状态,生产网状态,是否也用作存储节点)进行汇聚,每组状态数据有On、OFF和UNKNOWN三个可用值;
6)根据所有读出结果,获得整体状态统计信息,汇入五元组模型进行分析;每种检测指标失败的总个数超过阈值就打log,所述log包含整个系统多元组状态,则不做处理.否则继续;
7)五元组模型分析结束后吐出结果,正常则返回等待下一轮分析判断;如果状态异常将进行再一次检测,与本次状态进行对比,用以防止误判;
8)如果第二次检测结果与第一次检测结果一致,为相同的异常状态时,则标记为异常,并进行迁移;
步骤43,如果需要迁移则打包相关信息生成迁移消息,并触发迁移。
进一步的,所述步骤5的具体过程包括以下步骤:
步骤51,通过IPMI网络对故障物理设备做关机处理;
步骤52,依据迁移消息传递过来的物理机信息,从MySQL的资产数据库中查询读取虚拟实例信息;
步骤53,根据虚拟实例信息,自动重建虚拟实例;
步骤54,虚拟实例建好后,根据虚拟实例信息,利用分布式共享存储技术通过脚本执行实现相关资源的挂载,并完成网络配置工作,从而完成虚拟实例的迁移;
步骤55,虚拟实例迁移完成后,生成日志记录。
本发明实施例提供的一种电力系统虚拟实例高可用的保障系统,它包括:
初始化配置模块,用以录入服务器的IPMI管理口信息、服务器的角色信息和通信网络信息,并根据录入的信息建立一个基础数据库,所述基础数据库用于存储管理云计算环境下所有虚拟机、物理机器的配置核关联信息,当信息发生变化时进行信息同步;
环境实时监测模块,用以对云计算环境下的网络和计算状态信息进行实时监控;
流式消息通信模块,用以对实时监控模块采集的状态信息以流式(stream)消息的方式进行处理和传输,将数据缓存在本地且消息被处理后删除本地缓存;
五元组模型分析判断模块,用以通过五元组模型对实时监控状态数据进行判断,分析现有云计算环境下是否发生了计算节点服务器严重故障,得出是否需要进行虚拟实例迁移的判断机制,对于需要进行迁移的向迁移模块传递迁移触发指令;
虚拟实例迁移模块,用以通过故障设备关机、资产管理模块信息读取与回写、虚拟实例创建、共享存储挂载、虚拟实例配置与恢复过程完成虚拟实例的迁移工作。
进一步的,所述环境实时监测模块包括:
环境监测扫描模块,用以采用IPMI、Ping或SNMP方式发起环境监测扫描,扫描云计算平台的网络环境和计算环境,实现对物理运行状态的实时监控,采用秒级间隔扫描,且两次扫描之间的时间间隔可设定;
参数获取模块,用以在对网络环境和计算环境扫描过程中获取以下参数:(1)计算节点服务器的电源状态,(2)虚拟访问存储网络的运行状态,(3)管理网络的运行状态,(4)生产网络的运行状态,(5)计算节点是否运行本次存储;
数据推送模块,用以将采集到的状态数据推送给流式消息通信模块。
进一步的,所述五元组模型分析判断模块包括:
信息过滤模块,用以对状态信息进行过滤,对于非计算节点状态全部去除,并对数据的完整性做出判断;
信息分析模块,用以对状态信息进行五元组模型分析;
迁移触发模块,用以打包需要迁移的相关信息生成迁移消息,并触发虚拟实例迁移模块进行迁移工作。
进一步的,所述虚拟实例迁移模块包括:
关机处理模块,用以通过IPMI网络对故障物理设备做关机处理;
查询读取模块,用以依据迁移消息传递过来的物理机信息,从MySQL的资产数据库中查询读取虚拟实例信息;
重建模块,用以根据虚拟实例信息进行重建虚拟实例;
挂载模块,用以在虚拟实例建好后,根据虚拟实例信息,利用分布式共享存储技术通过脚本执行实现相关资源的挂载,并完成网络配置工作,从而完成虚拟实例的迁移;
日志生成模块,用以在虚拟实例迁移完成后生成日志记录。
本发明的有益效果如下:
本发明的实施例技术方案提供了一种在云计算数据中心环境下,当服务器硬件故障发生、遭受损坏时,能够自动检测相关信息,传递信息,基于模型的自动化判断机制,并根据判断结果在发生需要进行迁移的故障、损坏发生时,启动虚拟实例的自动化迁移;其整个过程将有效的保证虚拟实例的高可用性,进一步保证业务应用系统前端访问响应不间断运行。
本发明的实施例技术方案保证了在云环境下应用系统前端访问可不间断运行,系统能够主动的进行扫描,当发现物理设备故障时,根据本发明的五元组模型进行分析,对故障是否对系统运行造成致命影响给予判断,当判断发现故障会影响应用系统虚拟实例运行时,会启动虚拟机迁移与恢复机制,从而保证业务虚拟实例前端访问不间断。
与现有技术相比较,本发明主要取得了如下有益效果:
(1)物理状态实时监控
实现了实时的物理设备运行状态监测,能够自动化的进行采集,并能对多种资源故障信息进行统一汇总,减轻了运维人员的巡检工作负担。
(2)故障智能判断
当发生物理设备故障时,通过五元组模型进行逻辑分析,对故障的影响程度进行及时判断,对于影响虚拟机业务运行的严重故障及时进行预警,并启动虚拟机迁移与恢复机制。
(3)自动迁移恢复机制,保证虚拟实例高可用
设计了一套完整的虚拟机迁移与恢复机制,当确认为物理故障时,将启动该机制,自动化的实现故障设备上虚拟机到其他物理设备的迁移和恢复等疏散工作,从而保证虚拟实例的高可用,进一步保证业务虚拟实例前端访问的不间断。
(4)检测服务本身的高可用
设计了一个高可用的服务架构,并将此检测服务放入其中,检测服务本身可以在几台服务器之间切换,保证在单台物理服务器故障时不影响虚拟实例高可用的正常运行。
附图说明
图1为本发明实施例1的一种电力系统虚拟实例高可用的保障方法的流程图;
图2为本发明实施例2的一种电力系统虚拟实例高可用的保障系统的结构示意图;
图3为本发明实施例3的一种电力系统虚拟实例高可用的保障系统的结构示意图;
图4为本发明实施例3的一种电力系统虚拟实例高可用的保障方法的流程图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例1
如图1所示,本实施例提供的一种电力系统虚拟实例高可用的保障方法,它包括以下步骤:
步骤1,初始化配置:录入服务器的IPMI管理口信息、服务器的角色信息和通信网络信息,并根据录入的信息建立一个基础数据库,用于存储管理云计算环境下所有虚拟机、物理机器的配置核关联信息,当信息发生变化时进行信息同步;
步骤2,环境实时监测:对云计算环境下的网络和计算状态信息进行实时监控;
步骤3,流式消息通信:对实时监控模块采集的状态信息以流式(stream)消息的方式进行处理和传输,将数据缓存在本地且消息被处理后删除本地缓存;
步骤4,五元组模型分析判断:通过五元组模型对实时监控状态数据进行判断,分析现有云计算环境下是否发生了计算节点服务器严重故障,得出是否需要进行虚拟实例迁移的判断机制,对于需要进行迁移的向迁移模块传递迁移触发指令;
步骤5,虚拟实例迁移:通过故障设备关机、资产管理模块信息读取与回写、虚拟实例创建、共享存储挂载、虚拟实例配置与恢复过程完成虚拟实例的迁移工作。
作为本实施例的一种可能实现方式,所述步骤1的具体过程为:将云平台的环境基础信息输入到配置文件中,基础信息包括需要监控的服务器的IPMI IP、用户名、口令,服务器在云平台中的角色,以及云平台中网络的VLAN信息、网卡信息,并配置通信链路使被监控网络IP可达。
作为本实施例的一种可能实现方式,所述步骤2的具体过程包括以下步骤:
步骤21,采用IPMI、Ping或SNMP方式发起环境监测扫描,扫描云计算平台的网络环境和计算环境,实现对物理运行状态的实时监控,采用秒级间隔扫描,且两次扫描之间的时间间隔可设定;
步骤22,对网络环境和计算环境扫描过程中,获取以下参数:
(1)计算节点服务器的电源状态,
(2)虚拟访问存储网络的运行状态,
(3)管理网络的运行状态,
(4)生产网络的运行状态,
(5)计算节点是否运行本次存储;
步骤23,将采集到的状态数据推送给下一步骤。
作为本实施例的一种可能实现方式,所述步骤3的具体过程包括以下步骤:
步骤31,以流式消息方式接收采集到的状态数据,通过消息通道的消息汇聚和分类为后续消息处理分析做准备;
步骤32,传输通道对数据进行缓存,通过设置在本地磁盘缓存,缓存在本地磁盘的数据在被处理后进行删除。
作为本实施例的一种可能实现方式,所述步骤4的具体过程包括以下步骤:
步骤41,对状态信息进行过滤,对于非计算节点状态全部去除,并对数据的完整性做出判断,随之启动五元组分析模型;
步骤42,对状态信息进行五元组模型分析;利用五元组模型对数据读取分析流程包括以下步骤:
1)读取通过IPMI tools检测到的IPMI power状态,如果Power状态为off则直接跳到第5)步,否则继续第2)步判断;
2)读取管理网的状态(通过Ping管理网IP获得的状态信息);
3)读取生产网络的状态(通过ssh到目标机上后执行命令获得的状态信息);
4)读取虚机访问后端存储网的状态;
5)以上步骤读出的五元组状态数据(IPMI power状态,虚机访问后端存储网状态,管理网状态,生产网状态,是否也用作存储节点)进行汇聚,每组状态数据有On、OFF和UNKNOWN三个可用值;
6)根据所有读出结果,获得整体状态统计信息,汇入五元组模型进行分析;每种检测指标失败的总个数超过阈值就打log,所述log包含整个系统多元组状态,则不做处理.否则继续;
7)五元组模型分析结束后吐出结果,正常则返回等待下一轮分析判断;如果状态异常将进行再一次检测,与本次状态进行对比,用以防止误判;
8)如果第二次检测结果与第一次检测结果一致,为相同的异常状态时,则标记为异常,并进行迁移;
步骤43,如果需要迁移则打包相关信息生成迁移消息,并触发迁移。
作为本实施例的一种可能实现方式,所述步骤5的具体过程包括以下步骤:
步骤51,通过IPMI网络对故障物理设备做关机处理;
步骤52,依据迁移消息传递过来的物理机信息,从MySQL的资产数据库中查询读取虚拟实例信息;
步骤53,根据虚拟实例信息,自动重建虚拟实例;
步骤54,虚拟实例建好后,根据虚拟实例信息,利用分布式共享存储技术通过脚本执行实现相关资源的挂载,并完成网络配置工作,从而完成虚拟实例的迁移;
步骤55,虚拟实例迁移完成后,生成日志记录。
本实施例技术方案能够在云计算数据中心环境下,当服务器硬件故障发生、遭受损坏时,能够自动检测相关信息,传递信息,基于模型的启动自动化判断机制,并根据判断结果在发生需要进行迁移的故障、损坏发生时,启动虚拟实例的自动化迁移;其整个过程将有效的保证虚拟实例的高可用性,进一步保证业务应用系统前端访问响应不间断运行。
实施例2
如图2所示,本实施例提供的一种电力系统虚拟实例高可用的保障系统,它包括:
初始化配置模块,用以录入服务器的IPMI管理口信息、服务器的角色信息和通信网络信息,并根据录入的信息建立一个基础数据库,所述基础数据库用于存储管理云计算环境下所有虚拟机、物理机器的配置核关联信息,当信息发生变化时进行信息同步;
环境实时监测模块,用以对云计算环境下的网络和计算状态信息进行实时监控;
流式消息通信模块,用以对实时监控模块采集的状态信息以流式(stream)消息的方式进行处理和传输,将数据缓存在本地且消息被处理后删除本地缓存;
五元组模型分析判断模块,用以通过五元组模型对实时监控状态数据进行判断,分析现有云计算环境下是否发生了计算节点服务器严重故障,得出是否需要进行虚拟实例迁移的判断机制,对于需要进行迁移的向迁移模块传递迁移触发指令;
虚拟实例迁移模块,用以通过故障设备关机、资产管理模块信息读取与回写、虚拟实例创建、共享存储挂载、虚拟实例配置与恢复过程完成虚拟实例的迁移工作。
作为本实施例的一种可能实现方式,所述环境实时监测模块包括:
环境监测扫描模块,用以采用IPMI、Ping或SNMP方式发起环境监测扫描,扫描云计算平台的网络环境和计算环境,实现对物理运行状态的实时监控,采用秒级间隔扫描,且两次扫描之间的时间间隔可设定;
参数获取模块,用以在对网络环境和计算环境扫描过程中获取以下参数:(1)计算节点服务器的电源状态,(2)虚拟访问存储网络的运行状态,(3)管理网络的运行状态,(4)生产网络的运行状态,(5)计算节点是否运行本次存储;
数据推送模块,用以将采集到的状态数据推送给流式消息通信模块。
作为本实施例的一种可能实现方式,所述五元组模型分析判断模块包括:
信息过滤模块,用以对状态信息进行过滤,对于非计算节点状态全部去除,并对数据的完整性做出判断;
信息分析模块,用以对状态信息进行五元组模型分析;
迁移触发模块,用以打包需要迁移的相关信息生成迁移消息,并触发虚拟实例迁移模块进行迁移工作。
作为本实施例的一种可能实现方式,所述虚拟实例迁移模块包括:
关机处理模块,用以通过IPMI网络对故障物理设备做关机处理;
查询读取模块,用以依据迁移消息传递过来的物理机信息,从MySQL的资产数据库中查询读取虚拟实例信息;
重建模块,用以根据虚拟实例信息进行重建虚拟实例;
挂载模块,用以在虚拟实例建好后,根据虚拟实例信息,利用分布式共享存储技术通过脚本执行实现相关资源的挂载,并完成网络配置工作,从而完成虚拟实例的迁移;
日志生成模块,用以在虚拟实例迁移完成后生成日志记录。
本发明的实施例技术方案保证了在云环境下应用系统前端访问可不间断运行,系统能够主动的进行扫描,当发现物理设备故障时,根据本发明的五元组模型进行分析,对故障是否对系统运行造成致命影响给予判断,当判断发现故障会影响应用系统虚拟实例运行时,会启动虚拟机迁移与恢复机制,从而保证业务虚拟实例前端访问不间断。
实施例3
如图3和4所示,作为实施例1和实施例2相结合的一种具体应用,本实施例提供了一种电力系统虚拟实例高可用的保障系统及方法。
一、所述保障系统的结构组成
如图3所示,所述保障系统在云计算数据中心环境下,当服务器硬件故障发生、遭受损坏时,能够自动检测相关信息,传递信息,并基于模型的启动自动化判断机制,并根据判断结果在发生需要进行迁移的故障、损坏发生时,启动虚拟实例的自动化迁移;整个过程将有效的保证虚拟实例的高可用性,进一步保证业务应用系统前端访问响应不间断运行。云计算数据中心环境包括网络资源池、计算资源池和共享存储资源池,计算资源池中的设备对应着虚拟机VM。
保障系统的具体结构组成包括:
(1)资产管理模块
资产管理模块的初始化配置由运维人员手动填入,包括服务器的IPMI管理口信息、服务器的角色信息、通信网络信息等,资产管理模块将根据输入的信息建立一个基础数据库,用于存储管理云计算环境下所有虚拟机、物理机器的配置核关联信息,当信息发生变化时,各系统会将信息同步到资产管理模块。
(2)实时监控模块
实时监控模块作为一个常驻的服务在后台运行,对云计算环境下的网络、计算状态信息进行实时监控,主要采用IPMI(Intelligent Platform Management Interface,智能平台管理接口)、Ping、SNMP(Simple Network Management Protocol,简单网络管理协议)等几种方式发起环境监测扫描,扫描秒级间隔,两次扫描之间的时间间隔可以被定义,采集器将采集到的数据推送到消息通道模块。
(3)消息通道模块
消息通道模块对实时监控模块采集的状态信息以流式(stream)消息的方式进行处理和传输,为防止数据未处理期间丢失,将数据缓存在本地,消息被处理后会删除本地缓存。所有和五元组分析判断相关的计算环境、网络环境状态数据通过消息通道传递给五元组判断模块。
(4)五元组判断模块
五元组判断模块是通过五元组模型,对实时监控状态数据进行判断,分析现有云计算环境下是否发生了计算节点服务器严重故障,而得出是否需要进行虚拟实例迁移的判断机制,对于需要进行迁移的向迁移模块传递迁移触发指令,五元组是此发明的关键模块,在测试过程中发现如果设计不合理,对环境故障判断失误,启动一个和原虚拟实例一样的实例争抢共享存储造成数据不一致,此模块的设计原则是当无法判断环境情况时宁愿不做任何操作。
(5)虚拟实例迁移模块
虚拟实例迁移模块负责实现自接受迁移指令后到完成虚拟实例迁移的整个过程自动化实现。具体包括:故障设备关机、资产管理模块信息读取与回写、虚拟实例创建、共享存储挂载、虚拟实例配置与恢复等。
二、保障方法的具体流程如下:
步骤1:环境实时监测
(1)初始情况运维人员需要手动的将云平台的环境基础信息输入到配置文件中,包括需要监控的服务器的IPMI IP、用户名、口令,服务器在云平台中的角色,云平台中网络的VLAN信息、网卡信息等,并配置控制器端与云平台的通信,使所以被监控网络IP可达。
(2)控制器端用IPMI、Ping、SNMP等几种发起环境监测扫描,扫描云计算平台的网络环境、计算环境,实现对物理运行状态的实时监控。扫描秒级间隔,控制器端的采集器可以设定两次扫描之间的时间间隔,此模块采用轮询方式,所以当集群特别大时建议增大时间间隔。
(3)对网络环境、计算环境扫描过程中,控制器采集端会自动获得如下几类参数:
计算节点服务器的电源状态
虚拟访问存储网络的运行状态
管理网络的运行状态
生产网络的运行状态
计算节点是否运行本次存储
(3)采集器将采集到的状态数据推送给消息通道,采集器不缓存数据,数据以消息形式推送向消息通道。
步骤2:流式消息通信
(1)接收控制器端采集器推送的数据,以流式消息方式接收,通过消息通道的消息汇聚和分类,为后续步骤消息处理分析做好准备。
(2)为防止数据传输过程中丢失,传输通道可以对数据进行缓存。通过设置在本地磁盘缓存,可以有效解决消息在传输过程中某个环节丢失,缓存在本地磁盘的数据,在五元组分析判断模块获取后,即删除掉,防止占用大量磁盘或者存储空间。
步骤3:五元组模型分析判断
(1)状态信息通过消息通道传递到五元组分析模型,首先会对状态信息进行过滤,对于非计算节点状态全部去除,并对数据的完整性做出判断,随之启动分析模型。
(2)进行五元组模型分析,数据读取分析流程如下:
读取通过IPMI tools检测到的IPMI power状态,如果Power状态为off则直接跳到第5步,否则继续第2步判断;
读取管理网状态(通过Ping管理网IP获得的状态信息);
读取生产网络状态(通过ssh到目标机上后执行命令获得的状态信息);
读取虚机访问后端存储网状态;
以上步骤读出的五元组状态数据(IPMI power状态,虚机访问后端存储网状态,管理网状态,生产网状态,是否也用作存储节点)进行汇聚,每组状态数据有三个可用值On,OFF,UNKNOWN。
根据所有读出结果,获得整体状态统计信息,汇入五元组模型进行分析;每种检测指标失败的总个数超过阈值就打log包含整个系统多元组状态,不做处理.否则继续。
五元组模型分析结束后,会吐出结果,正常则返回等待下一轮分析判断;如果状态异常将进行再一次检测,与本次状态进行对比,防止误判。
第二次检测结果与第一次检测结果一致,为相同的异常状态时,则标记为异常,进行迁移。
需要迁移则打包相关信息生成迁移消息,传递到虚拟实例迁移模块,触发迁移。当然判断模块中加入了复杂情况的排除机制,即对监控服务器的总数与同时发生故障的服务器数量进行对比,如果比值或者数量超过了阈值,则判断为整个云平台或者整个网络的故障,此时进行迁移并没有效果,则不进行任何操作,只是发出异常报警。
步骤4:虚拟实例迁移
根据五元组模型分析判断结果,确定为需要进行虚拟实例迁移的,则启动虚拟实例迁移流程,具体过程描述如下:
(1)系统通过IPMI网络对故障物理设备做关机处理,按照逻辑,整个运行环境中只能有一个相同IP、信息的虚拟实例存在,否则会造成冲突带来更大的麻烦,所以关闭故障物理设备为虚拟实例迁移的第一步。
(2)调用虚拟实例资产管理模块,依据迁移消息传递过来的物理机信息,从MySQL的资产数据库中查询读取虚拟实例相关信息。
(3)启动虚拟实例恢复模块,根据从资产管理模块中读取的虚拟实例信息,自动重建虚拟实例。
(4)虚拟实例建好后,根据从资产管理模块中读取的虚拟实例信息,利用分布式共享存储技术,通过脚本执行实现相关资源的挂载,并完成网络配置等工作,从而最终完成虚拟实例迁移。
(5)虚拟实例迁移完成后,会生成日志记录,并将相关信息回写入资产管理模块。
与现有技术相比较,本发明主要取得了如下有益效果:
(1)物理状态实时监控
实现了实时的物理设备运行状态监测,能够自动化的进行采集,并能对多种资源故障信息进行统一汇总,减轻了运维人员的巡检工作负担。
(2)故障智能判断
当发生物理设备故障时,通过五元组模型进行逻辑分析,对故障的影响程度进行及时判断,对于影响虚拟机业务运行的严重故障及时进行预警,并启动虚拟机迁移与恢复机制。
(3)自动迁移恢复机制,保证虚拟实例高可用
设计了一套完整的虚拟机迁移与恢复机制,当确认为物理故障时,将启动该机制,自动化的实现故障设备上虚拟机到其他物理设备的迁移和恢复等疏散工作,从而保证虚拟实例的高可用,进一步保证业务虚拟实例前端访问的不间断。
(4)检测服务本身的高可用
设计了一个高可用的服务架构,并将此检测服务放入其中,检测服务本身可以在几台服务器之间切换,保证在单台物理服务器故障时不影响虚拟实例高可用的正常运行。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (10)

1.一种电力系统虚拟实例高可用的保障方法,其特征是,包括以下步骤:
步骤1,初始化配置:录入服务器的IPMI管理口信息、服务器的角色信息和通信网络信息,并根据录入的信息建立一个基础数据库,用于存储管理云计算环境下所有虚拟机、物理机器的配置核关联信息,当信息发生变化时进行信息同步;
步骤2,环境实时监测:对云计算环境下的网络和计算状态信息进行实时监控;
步骤3,流式消息通信:对实时监控模块采集的状态信息以流式消息的方式进行处理和传输,将数据缓存在本地且消息被处理后删除本地缓存;
步骤4,五元组模型分析判断:通过五元组模型对实时监控状态数据进行判断,分析现有云计算环境下是否发生了计算节点服务器严重故障,得出是否需要进行虚拟实例迁移的判断机制,对于需要进行迁移的向迁移模块传递迁移触发指令;
步骤5,虚拟实例迁移:通过故障设备关机、资产管理模块信息读取与回写、虚拟实例创建、共享存储挂载、虚拟实例配置与恢复过程完成虚拟实例的迁移工作。
2.如权利要求1所述的一种电力系统虚拟实例高可用的保障方法,其特征是,所述步骤1的具体过程为:将云平台的环境基础信息输入到配置文件中,基础信息包括需要监控的服务器的IPMI IP、用户名和口令,服务器在云平台中的角色,以及云平台中网络的VLAN信息、网卡信息,并配置通信链路使被监控网络IP可达。
3.如权利要求2所述的一种电力系统虚拟实例高可用的保障方法,其特征是,所述步骤2的具体过程包括以下步骤:
步骤21,采用IPMI、Ping或SNMP方式发起环境监测扫描,扫描云计算平台的网络环境和计算环境,实现对物理运行状态的实时监控,采用秒级间隔扫描,且两次扫描之间的时间间隔可设定;
步骤22,对网络环境和计算环境扫描过程中,获取以下参数:
(1)计算节点服务器的电源状态,
(2)虚拟访问存储网络的运行状态,
(3)管理网络的运行状态,
(4)生产网络的运行状态,
(5)计算节点是否运行本次存储;
步骤23,将采集到的状态数据推送给下一步骤。
4.如权利要求3所述的一种电力系统虚拟实例高可用的保障方法,其特征是,所述步骤3的具体过程包括以下步骤:
步骤31,以流式消息方式接收采集到的状态数据,通过消息通道的消息汇聚和分类为后续消息处理分析做准备;
步骤32,传输通道对数据进行缓存,通过设置在本地磁盘缓存,缓存在本地磁盘的数据在被处理后进行删除。
5.如权利要求4所述的一种电力系统虚拟实例高可用的保障方法,其特征是,所述步骤4的具体过程包括以下步骤:
步骤41,对状态信息进行过滤,对于非计算节点状态全部去除,并对数据的完整性做出判断,随之启动五元组分析模型;
步骤42,对状态信息进行五元组模型分析;利用五元组模型对数据读取分析流程包括以下步骤:
1)读取通过IPMI tools检测到的IPMI power状态,如果Power状态为off则直接跳到第5)步,否则继续第2)步判断;
2)读取管理网的状态;
3)读取生产网络的状态;
4)读取虚机访问后端存储网的状态;
5)以上步骤读出的五元组状态数据进行汇聚,每组状态数据有On、OFF和UNKNOWN三个可用值;所述五元组状态数据包括IPMI power状态、虚机访问后端存储网状态、管理网状态、生产网状态和是否也用作存储节点;
6)根据所有读出结果,获得整体状态统计信息,汇入五元组模型进行分析;每种检测指标失败的总个数超过阈值就打log,所述log包含整个系统多元组状态,则不做处理.否则继续;
7)五元组模型分析结束后吐出结果,正常则返回等待下一轮分析判断;如果状态异常将进行再一次检测,与本次状态进行对比,用以防止误判;
8)如果第二次检测结果与第一次检测结果一致,为相同的异常状态时,则标记为异常,并进行迁移;
步骤43,如果需要迁移则打包相关信息生成迁移消息,并触发迁移。
6.如权利要求5所述的一种电力系统虚拟实例高可用的保障方法,其特征是,所述步骤5的具体过程包括以下步骤:
步骤51,通过IPMI网络对故障物理设备做关机处理;
步骤52,依据迁移消息传递过来的物理机信息,从MySQL的资产数据库中查询读取虚拟实例信息;
步骤53,根据虚拟实例信息,自动重建虚拟实例;
步骤54,虚拟实例建好后,根据虚拟实例信息,利用分布式共享存储技术通过脚本执行实现相关资源的挂载,并完成网络配置工作,从而完成虚拟实例的迁移;
步骤55,虚拟实例迁移完成后,生成日志记录。
7.一种电力系统虚拟实例高可用的保障系统,其特征是,包括:
初始化配置模块,用以录入服务器的IPMI管理口信息、服务器的角色信息和通信网络信息,并根据录入的信息建立一个基础数据库,所述基础数据库用于存储管理云计算环境下所有虚拟机、物理机器的配置核关联信息,当信息发生变化时进行信息同步;
环境实时监测模块,用以对云计算环境下的网络和计算状态信息进行实时监控;
流式消息通信模块,用以对实时监控模块采集的状态信息以流式消息的方式进行处理和传输,将数据缓存在本地且消息被处理后删除本地缓存;
五元组模型分析判断模块,用以通过五元组模型对实时监控状态数据进行判断,分析现有云计算环境下是否发生了计算节点服务器严重故障,得出是否需要进行虚拟实例迁移的判断机制,对于需要进行迁移的向迁移模块传递迁移触发指令;
虚拟实例迁移模块,用以通过故障设备关机、资产管理模块信息读取与回写、虚拟实例创建、共享存储挂载、虚拟实例配置与恢复过程完成虚拟实例的迁移工作。
8.如权利要求7所述的一种电力系统虚拟实例高可用的保障系统,其特征是,所述环境实时监测模块包括:
环境监测扫描模块,用以采用IPMI、Ping或SNMP方式发起环境监测扫描,扫描云计算平台的网络环境和计算环境,实现对物理运行状态的实时监控,采用秒级间隔扫描,且两次扫描之间的时间间隔可设定;
参数获取模块,用以在对网络环境和计算环境扫描过程中获取以下参数:(1)计算节点服务器的电源状态,(2)虚拟访问存储网络的运行状态,(3)管理网络的运行状态,(4)生产网络的运行状态,(5)计算节点是否运行本次存储;
数据推送模块,用以将采集到的状态数据推送给流式消息通信模块。
9.如权利要求7所述的一种电力系统虚拟实例高可用的保障系统,其特征是,所述五元组模型分析判断模块包括:
信息过滤模块,用以对状态信息进行过滤,对于非计算节点状态全部去除,并对数据的完整性做出判断;
信息分析模块,用以对状态信息进行五元组模型分析;
迁移触发模块,用以打包需要迁移的相关信息生成迁移消息,并触发虚拟实例迁移模块进行迁移工作。
10.如权利要求7所述的一种电力系统虚拟实例高可用的保障系统,其特征是,所述虚拟实例迁移模块包括:
关机处理模块,用以通过IPMI网络对故障物理设备做关机处理;
查询读取模块,用以依据迁移消息传递过来的物理机信息,从MySQL的资产数据库中查询读取虚拟实例信息;
重建模块,用以根据虚拟实例信息进行重建虚拟实例;
挂载模块,用以在虚拟实例建好后,根据虚拟实例信息,利用分布式共享存储技术通过脚本执行实现相关资源的挂载,并完成网络配置工作,从而完成虚拟实例的迁移;
日志生成模块,用以在虚拟实例迁移完成后生成日志记录。
CN201710712017.3A 2017-08-18 2017-08-18 一种电力系统虚拟实例高可用的保障方法及系统 Active CN107547273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710712017.3A CN107547273B (zh) 2017-08-18 2017-08-18 一种电力系统虚拟实例高可用的保障方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710712017.3A CN107547273B (zh) 2017-08-18 2017-08-18 一种电力系统虚拟实例高可用的保障方法及系统

Publications (2)

Publication Number Publication Date
CN107547273A true CN107547273A (zh) 2018-01-05
CN107547273B CN107547273B (zh) 2020-06-23

Family

ID=60958300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710712017.3A Active CN107547273B (zh) 2017-08-18 2017-08-18 一种电力系统虚拟实例高可用的保障方法及系统

Country Status (1)

Country Link
CN (1) CN107547273B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255625A (zh) * 2018-01-16 2018-07-06 华南理工大学 用于复杂系统构建高可用模型
CN110177018A (zh) * 2019-06-04 2019-08-27 北京百度网讯科技有限公司 用于控制网络状态的方法及装置
CN110297690A (zh) * 2019-06-28 2019-10-01 深圳前海微众银行股份有限公司 基于云计算的虚拟机使用方法、装置、设备及可读存储介质
CN111711964A (zh) * 2020-04-30 2020-09-25 国家计算机网络与信息安全管理中心 一种系统容灾能力测试方法
CN111865695A (zh) * 2020-07-28 2020-10-30 浪潮云信息技术股份公司 一种云环境下自动故障处理的方法及系统
CN113722338A (zh) * 2020-05-25 2021-11-30 中移(苏州)软件技术有限公司 一种数据同步方法、数据同步装置、电子设备及存储介质
CN115543971A (zh) * 2022-11-29 2022-12-30 天津南大通用数据技术股份有限公司 一种mpp数据库实现高可用的方法
CN116866154A (zh) * 2023-09-05 2023-10-10 湖北华中电力科技开发有限责任公司 一种基于虚拟机集群的配电网通讯服务智能调度管理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120102084A1 (en) * 2010-10-21 2012-04-26 Matti Hiltunen Methods, Devices, and Computer Program Products for Maintaining Network Presence While Conserving Power Consumption
CN102662751A (zh) * 2012-03-30 2012-09-12 浪潮电子信息产业股份有限公司 一种提高基于热迁移虚拟机系统可用性的方法
CN103281306A (zh) * 2013-05-03 2013-09-04 四川省电力公司信息通信公司 云数据中心虚拟化基础架构平台
CN103455880A (zh) * 2013-08-29 2013-12-18 国家电网公司 一种基于虚拟化技术的电网调度自动化系统
CN103729280A (zh) * 2013-12-23 2014-04-16 国云科技股份有限公司 一种虚拟机高可用机制
CN105488610A (zh) * 2015-11-23 2016-04-13 国网山东省电力公司信息通信公司 一种电力应用系统故障实时分析诊断系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120102084A1 (en) * 2010-10-21 2012-04-26 Matti Hiltunen Methods, Devices, and Computer Program Products for Maintaining Network Presence While Conserving Power Consumption
CN102662751A (zh) * 2012-03-30 2012-09-12 浪潮电子信息产业股份有限公司 一种提高基于热迁移虚拟机系统可用性的方法
CN103281306A (zh) * 2013-05-03 2013-09-04 四川省电力公司信息通信公司 云数据中心虚拟化基础架构平台
CN103455880A (zh) * 2013-08-29 2013-12-18 国家电网公司 一种基于虚拟化技术的电网调度自动化系统
CN103729280A (zh) * 2013-12-23 2014-04-16 国云科技股份有限公司 一种虚拟机高可用机制
CN105488610A (zh) * 2015-11-23 2016-04-13 国网山东省电力公司信息通信公司 一种电力应用系统故障实时分析诊断系统及方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255625A (zh) * 2018-01-16 2018-07-06 华南理工大学 用于复杂系统构建高可用模型
CN108255625B (zh) * 2018-01-16 2021-02-26 华南理工大学 基于构建高可用模型的复杂系统的评价方法
CN110177018A (zh) * 2019-06-04 2019-08-27 北京百度网讯科技有限公司 用于控制网络状态的方法及装置
CN110297690A (zh) * 2019-06-28 2019-10-01 深圳前海微众银行股份有限公司 基于云计算的虚拟机使用方法、装置、设备及可读存储介质
CN111711964A (zh) * 2020-04-30 2020-09-25 国家计算机网络与信息安全管理中心 一种系统容灾能力测试方法
CN111711964B (zh) * 2020-04-30 2024-02-02 国家计算机网络与信息安全管理中心 一种系统容灾能力测试方法
CN113722338A (zh) * 2020-05-25 2021-11-30 中移(苏州)软件技术有限公司 一种数据同步方法、数据同步装置、电子设备及存储介质
CN111865695A (zh) * 2020-07-28 2020-10-30 浪潮云信息技术股份公司 一种云环境下自动故障处理的方法及系统
CN115543971A (zh) * 2022-11-29 2022-12-30 天津南大通用数据技术股份有限公司 一种mpp数据库实现高可用的方法
CN116866154A (zh) * 2023-09-05 2023-10-10 湖北华中电力科技开发有限责任公司 一种基于虚拟机集群的配电网通讯服务智能调度管理系统
CN116866154B (zh) * 2023-09-05 2023-11-28 湖北华中电力科技开发有限责任公司 一种基于虚拟机集群的配电网通讯服务智能调度管理系统

Also Published As

Publication number Publication date
CN107547273B (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN107547273A (zh) 一种电力系统虚拟实例高可用的保障方法及系统
US11354131B2 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
US10389596B2 (en) Discovering application topologies
US11379292B2 (en) Baseline modeling for application dependency discovery, reporting, and management tool
US20210173763A1 (en) Intelligent services for application dependency discovery, reporting, and management tool
US11663055B2 (en) Dependency analyzer in application dependency discovery, reporting, and management tool
US20220300397A1 (en) Discovery crawler for application dependency discovery, reporting, and management tool
CN103812699A (zh) 基于云计算的监控管理系统
US20200409824A1 (en) Intelligent services and training agent for application dependency discovery, reporting, and management tool
CN103440160B (zh) 虚拟机恢复方法和虚拟机迁移方法以及装置与系统
CN110309130A (zh) 一种用于主机性能监控的方法及装置
CN107179957A (zh) 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
US10129373B2 (en) Recovery of a network infrastructure to facilitate business continuity
US20210374044A1 (en) Testing agent for application dependency discovery, reporting, and management tool
CN102902615B (zh) 一种Lustre并行文件系统错误报警方法及其系统
CN103716173A (zh) 一种存储监控系统及监控告警发布的方法
Malik et al. A measurement study of open source SDN layers in OpenStack under network perturbation
CN115102877B (zh) 一种虚拟网卡网络检测方法、装置、设备及介质
CN108199901A (zh) 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN108021431B (zh) 基于Web数据交互管理Hive的方法及其系统
CN106911522A (zh) 一种基于云环境的故障处理方法及系统
US20140019797A1 (en) Resource management in ephemeral environments
Yin et al. A flexible cyber security experimentation platform architecture based on docker
EP4242850A2 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
Liu et al. Towards a community cloud storage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant