CN111078454A - 一种云平台配置恢复方法及装置 - Google Patents

一种云平台配置恢复方法及装置 Download PDF

Info

Publication number
CN111078454A
CN111078454A CN201911303621.6A CN201911303621A CN111078454A CN 111078454 A CN111078454 A CN 111078454A CN 201911303621 A CN201911303621 A CN 201911303621A CN 111078454 A CN111078454 A CN 111078454A
Authority
CN
China
Prior art keywords
configuration
configuration parameters
cloud platform
parameters
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201911303621.6A
Other languages
English (en)
Inventor
吕沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fiberhome Telecommunication Technologies Co Ltd
Original Assignee
Fiberhome Telecommunication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fiberhome Telecommunication Technologies Co Ltd filed Critical Fiberhome Telecommunication Technologies Co Ltd
Priority to CN201911303621.6A priority Critical patent/CN111078454A/zh
Publication of CN111078454A publication Critical patent/CN111078454A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management

Abstract

本发明公开了一种云平台配置恢复方法及装置。该方法包括:在云平台系统部署过程中,定期读取系统状态参数及配置参数,所述状态参数用于判断系统是否处于正常状态,所述配置参数用于记录系统当前的配置信息;若系统处于正常状态,则存储当前的配置参数;若系统发生异常,则利用上一次存储的配置参数对系统进行恢复。本发明能够在系统发生异常时快速恢复。

Description

一种云平台配置恢复方法及装置
技术领域
本发明属于云计算技术领域,更具体地,涉及一种云平台配置恢复方法及装置。
背景技术
Openstack是一个开源的云计算管理平台项目,由几个主要的组件组合起来完成具体工作。在基于Openstack搭建云计算的IAAS(Infrastructure as a Service,基础设施即服务)时,通常遇到和不同厂家设备进行对接的场景。尤其是在多区域分布式部署的情况下,云平台各节点之间的管理网络需要互通,由于各厂商交换机实现细节不同而造成链路聚合协商失败,可能导致云平台管理网络出现中断。而云平台使用管理网络进行配置下发,硬件适配问题会造成所有连接到此交换机的网卡在下发某特定配置的时候都会出现网络中断,在这种情况下,配置也无法经过云平台下发,造成死循环,除非人工干预才能恢复。由于网络接口配置大都是批量下发的,人工干预只能逐台配置恢复,效率低下,无法实现云平台的快速部署。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种云平台配置恢复方法及装置,通过存储最新的系统处于正常状态下的配置参数,能够在系统发生异常时快速恢复。
为实现上述目的,按照本发明的第一方面,提供了一种云平台配置恢复方法,包括:
在云平台系统部署过程中,定期读取系统状态参数及配置参数,所述状态参数用于判断系统是否处于正常状态,所述配置参数用于记录系统当前的配置信息;
若系统处于正常状态,则存储当前的配置参数;
若系统发生异常,则利用上一次存储的配置参数对系统进行恢复。
优选地,所述存储当前的配置参数具体是:
采用状态栈进行配置参数的存储,若当前的配置参数与所述状态栈栈顶的配置参数不同,则将当前的配置参数入栈。
优选地,还包括:预先定义错误码及每个所述错误码对应的修复方式,则所述利用上一次存储的配置参数对系统进行恢复具体是:
根据所述状态参数生成错误码;
根据所述错误码调用对应的修复方式,利用上一次存储的配置参数对系统进行恢复。
优选地,还包括:若系统发生异常,则生成告警信息。
按照本发明的第二方面,提供了一种云平台配置恢复装置,包括:
读取模块,用于在云平台系统部署过程中,定期读取系统状态参数及配置参数,所述状态参数用于判断系统是否处于正常状态,所述配置参数用于记录系统当前的配置信息;
存储模块,用于若系统处于正常状态,则存储当前的配置参数;
修复模块,用于若系统发生异常,则利用上一次存储的配置参数对系统进行恢复。
按照本发明的第三方面,提供了一种电子设备,包括处理器和存储器,其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现上述任一项方法。
按照本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有有益效果:能够在系统发生异常时快速恢复,可以继续进行后续的配置,不要人工修复,能够大大提高云平台的端到端部署效率;相对于现有技术都是注重自动发现问题,而不是自动解决问题,本发明立足于解决物理设备兼容性问题造成的断网,提出了从具体问题抽象到未来自动感知并修复故障的思路,从长远来看,本发明设计思想可以将云平台的运行行为对接到独立的势态感知系统,并且使用独立的网络平面来支撑这种通信交互,使得系统运维更加智能和简单。
附图说明
图1是本发明实施例提供的一种云平台配置恢复方法的流程示意图;
图2是本发明实施例提供的一种云平台配置恢复方法应用的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明所提实施例的一种云平台配置恢复方法,如图1所示,包括:
S11,在云平台系统部署过程中,定期读取系统状态参数及配置参数,状态参数用于判断系统是否处于正常状态,配置参数用于记录系统当前的配置信息。
openstack启动时,进行初始化后台进程,并定时读取巡检程序检测的各项参数,例如交换机配置信息、对接后端存储信息、服务器网卡信息等,这些参数按照功能被分为两类,一类是状态参数,用来判断系统是否处于正常状态,一类是配置参数,用来记录系统正常运行时的配置信息,以便发生异常时进行恢复。这两类参数是从使用目的上进行了划分,实际上对于某个具体的参数,可能同时是状态参数和配置参数。
S12,若系统处于正常状态,则存储当前的配置参数。当系统处于正常状态时,会不断更新存储的配置参数,以便当系统出现异常需要进行恢复时,可以获取到最近的系统处于正常状态时的配置参数。
在系统初始化后的第一次读取前,可以通过人工干预等方式等确保系统处于正常状态。这时将第一次读取的配置参数存储起来。
定期读取系统状态参数及配置参数,根据状态参数判断系统处于正常状态的情况下,将当前读取的配置参数与上一次存储的配置参数进行比对,若当前的配置参数和上一次存储的配置参数相同,可以不进行存储操作,视为存储了当前的配置参数,若不同,则存储当前的配置参数。
在一个实施例中,采用状态栈用来进行配置参数的存储;若当前的配置参数与状态栈栈顶的配置参数不同,则将当前的配置参数入栈,写入本地数据库,此操作可以通过RCU机制来保证读写同步;若最新正常状态的配置参数和栈顶的配置参数相同,则不入栈。这样栈顶始终存储发生异常前系统最新的正常状态下的配置参数。
S13,若系统发生异常,则利用上一次存储的配置参数对系统进行恢复。即利用发生异常前系统最新的正常状态下的配置参数对系统进行恢复。
系统异常可能是系统部署发生错误,或者管理网络发生异常、或者存储网络发生发生异常、或者数据网络发生故障等。
在一个实施例中,支持灵活对接各种配置的状态并提供注册机制支持将预先自定义的错误码注册到修复系统。预先自定义的错误码易于辨识,例如001管理网络故障、002存储网络故障、003数据网络故障等。注册支持以静态注册的方式将错误码以哈希的形式存放在数据库中。修复系统可以是一个守护进程,预先定义了不同的错误码对应的修复方式,系统发生异常时,根据状态参数生成错误码,当检测到对应的错误码上报后,根据错误码调用对应的修复方式,利用上一次存储的配置参数对系统进行恢复。还支持上报告警,生成告警信息提示用户。这样用户可以随时取消某种错误的配置进行系统修复。具体地,读取错误码,判断错误码是否已注册;若否,则重新读取状态参数和配置参数;若是,比较当前配置信息与栈顶配置参数进行比较;若当前配置信息与栈顶配置参数不同,则从状态栈出栈更新当前配置,对系统进行恢复;若相同,则需要进行人工进行修复。
本发明实施例的一种云平台配置恢复装置,包括:读取模块,用于在云平台系统部署过程中,定期读取系统状态参数及配置参数,状态参数用于判断系统是否处于正常状态,配置参数用于记录系统当前的配置信息;存储模块,用于若系统处于正常状态,则存储当前的配置参数;修复模块,用于若系统发生异常,则利用上一次存储的配置参数对系统进行恢复。
在一个实施例中,存储模块是状态栈,若当前的配置参数与所述状态栈栈顶的配置参数不同,则将当前的配置参数入栈。
在一个实施例中,云平台配置恢复装置包括注册模块,用于预先定义错误码及每个所述错误码对应的修复方式,则修复模块包括:错误码生成模块,用来根据状态参数生成错误码;恢复模块,用于根据错误码调用对应的修复方式,利用上一次存储的配置参数对系统进行恢复。
在一个实施例中,云平台配置恢复装置包括:告警模块,用于若系统发生异常,则生成告警信息。
本发明的云平台配置恢复方法的一种应用示例如图2所示,本发明的云平台系统包括:物理基础设施管理模块(PIM)、主控制节点、备控制节点和多个计算节点,图中只示出了2个计算节点。PIM用于负责资源池内硬件设备的集中管理,提供配置管理、故障管理和性能监控等能力。主控制节点和备控制节点用来充当云平台的控制器,提供一个工具来管理配置云资源;计算节点用来提供计算资源。每个控制节点和计算节点都有一个hbs client组件,主控制节点还有一个hbs agent组件。云平台启动部署后;hbs agent组件循环检测hbs client组件的运行状态,将第一次读取的配置参数入栈;若hbs client组件及网络交换机的运行状态都正常,则保存最新的配置参数;若hbs client组件或网络交换机的运行状态异常,则将配置回退到上一次保存的最新的配置参数,来保证网络正常,这是仍然可以继续下发后续的配置;还可以将状态异常信息推送给PIM进行告警。在上述方案的基础上,需要和PIM系统配合使用,当对接交换机的配置发生改变,需要服务器端和交换机端同步修改,修复后才能够恢复网络通信,PIM自身的故障检测发出相应的网络故障告警。上述所有流程也可以单独运行在PIM中,这样PIM感知到和VIM通信中断之后,也会对其托管的交换机进行配置检测并且进行修复。
这样,本发明可以自动发现问题然后上报报警,还可以做到在短时间内自动恢复到上一次正常的状态,不需要大规模人工干预。即提供了一种安全保障机制,如果遇到恶意配置或者失误造成服务不正常,可以在告警的同时,一定程度恢复上一步正常的配置,和其他备份还原机制结合起来,保护云平台的正常运行。
为了实现上述实施例,本发明实施例还提出一种电子设备,包括:处理器和存储器。其中,存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。
存储器中存储有计算机程序,计算机程序被处理器执行时可以实现上述任一云平台配置恢复方法实施例的技术方案。存储器中存储有云平台配置恢复方法的计算机程序,包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理。
处理器可以是一种集成电路芯片,具有信号的处理能力。处理器在接收到执行指令后,执行程序。可选的,上述存储器内的软件程序以及模块还可包括操作系统,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通信,从而提供其他软件组件的运行环境。
本实施例提供的电子设备,可以用于执行上述任一云平台配置恢复方法实施例的技术方案,其实现原理、技术效果与上述方法类似,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现上述任一云平台配置恢复方法实施例的技术方案。其实现原理、技术效果与上述方法类似,此处不再赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种云平台配置恢复方法,其特征在于,包括:
在云平台系统部署过程中,定期读取系统状态参数及配置参数,所述状态参数用于判断系统是否处于正常状态,所述配置参数用于记录系统当前的配置信息;
若系统处于正常状态,则存储当前的配置参数;
若系统发生异常,则利用上一次存储的配置参数对系统进行恢复。
2.如权利要求1所述的一种云平台配置恢复方法,其特征在于,所述存储当前的配置参数具体是:
采用状态栈进行配置参数的存储,若当前的配置参数与所述状态栈栈顶的配置参数不同,则将当前的配置参数入栈。
3.如权利要求1至2所述的一种云平台配置恢复方法,其特征在于,还包括:预先定义错误码及每个所述错误码对应的修复方式,则所述利用上一次存储的配置参数对系统进行恢复具体是:
根据所述状态参数生成错误码;
根据所述错误码调用对应的修复方式,利用上一次存储的配置参数对系统进行恢复。
4.如权利要求1至2所述的一种云平台配置恢复方法,其特征在于,还包括:若系统发生异常,则生成告警信息。
5.一种云平台配置恢复装置,其特征在于,包括:
读取模块,用于在云平台系统部署过程中,定期读取系统状态参数及配置参数,所述状态参数用于判断系统是否处于正常状态,所述配置参数用于记录系统当前的配置信息;
存储模块,用于若系统处于正常状态,则存储当前的配置参数;
修复模块,用于若系统发生异常,则利用上一次存储的配置参数对系统进行恢复。
6.如权利要求5所述的一种云平台配置恢复装置,其特征在于,所述存储模块是状态栈,若当前的配置参数与所述状态栈栈顶的配置参数不同,则将当前的配置参数入栈。
7.如权利要求5或6所述的一种云平台配置恢复装置,其特征在于,包括:
注册模块,用于预先定义错误码及每个所述错误码对应的修复方式,则所述修复模块包括:
错误码生成模块,用来根据所述状态参数生成错误码;
恢复模块,用于根据所述错误码调用对应的修复方式,利用上一次存储的配置参数对系统进行恢复。
8.如权利要求5或6所述的一种云平台配置恢复装置,其特征在于,包括:
告警模块,用于若系统发生异常,则生成告警信息。
9.一种电子设备,包括处理器和存储器,其特征在于,
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1至4中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的方法。
CN201911303621.6A 2019-12-17 2019-12-17 一种云平台配置恢复方法及装置 Withdrawn CN111078454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911303621.6A CN111078454A (zh) 2019-12-17 2019-12-17 一种云平台配置恢复方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911303621.6A CN111078454A (zh) 2019-12-17 2019-12-17 一种云平台配置恢复方法及装置

Publications (1)

Publication Number Publication Date
CN111078454A true CN111078454A (zh) 2020-04-28

Family

ID=70315223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911303621.6A Withdrawn CN111078454A (zh) 2019-12-17 2019-12-17 一种云平台配置恢复方法及装置

Country Status (1)

Country Link
CN (1) CN111078454A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112039760A (zh) * 2020-08-31 2020-12-04 杭州叙简科技股份有限公司 一种物联网网关的数据自动恢复系统及数据自动恢复方法
CN112596744A (zh) * 2020-12-24 2021-04-02 航天信息股份有限公司 一种生成云平台镜像的方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1904846A (zh) * 2006-08-09 2007-01-31 华为技术有限公司 一种配置恢复装置和方法
CN103220180A (zh) * 2013-04-27 2013-07-24 华南理工大学 一种OpenStack云平台异常的处理方法
CN108989134A (zh) * 2018-09-04 2018-12-11 山东浪潮云投信息科技有限公司 基于sdn的虚拟化网络数据平面配置恢复系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1904846A (zh) * 2006-08-09 2007-01-31 华为技术有限公司 一种配置恢复装置和方法
CN103220180A (zh) * 2013-04-27 2013-07-24 华南理工大学 一种OpenStack云平台异常的处理方法
CN108989134A (zh) * 2018-09-04 2018-12-11 山东浪潮云投信息科技有限公司 基于sdn的虚拟化网络数据平面配置恢复系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112039760A (zh) * 2020-08-31 2020-12-04 杭州叙简科技股份有限公司 一种物联网网关的数据自动恢复系统及数据自动恢复方法
CN112039760B (zh) * 2020-08-31 2022-08-02 杭州叙简科技股份有限公司 一种物联网网关的数据自动恢复系统及数据自动恢复方法
CN112596744A (zh) * 2020-12-24 2021-04-02 航天信息股份有限公司 一种生成云平台镜像的方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
JP6333410B2 (ja) 障害処理方法、関連装置、およびコンピュータ
US8910172B2 (en) Application resource switchover systems and methods
CN111324192A (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
JP5531625B2 (ja) 通信システム及びその障害検出方法
CN112477919B (zh) 一种适用于列车控制系统平台的动态冗余备份方法及系统
CN110618864A (zh) 一种中断任务恢复方法及装置
CN111078454A (zh) 一种云平台配置恢复方法及装置
CN108737153B (zh) 区块链灾备系统、方法、服务器和计算机可读存储介质
CN108243031B (zh) 一种双机热备的实现方法及装置
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、系统及介质
CN111813348A (zh) 统一存储设备中的节点事件处理装置、方法、设备及介质
CN113742165A (zh) 双主控设备及主备控制方法
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
CN113778607A (zh) 虚拟机实现高可用方法及装置、云管理平台、存储介质
GB2532076A (en) Backup method, pre-testing method for environment updating and system thereof
JP2003345620A (ja) 多ノードクラスタシステムのプロセス監視方法
CN114860494A (zh) 一种sas拓展器配置自适应系统
JP6654662B2 (ja) サーバ装置およびサーバシステム
KR20140140719A (ko) 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법
JP2014078067A (ja) データベースシステム、データベース装置、データベースの障害回復方法およびプログラム
CN111258823A (zh) 一种主从服务器的切换方法及系统
JP3325785B2 (ja) 計算機の故障検出・回復方式
CN110554932A (zh) 一种api模块异常检测方法
CN109617761B (zh) 一种主备服务器切换方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200428