CN108959547B - 一种pv快照分布式数据库集群恢复方法 - Google Patents

一种pv快照分布式数据库集群恢复方法 Download PDF

Info

Publication number
CN108959547B
CN108959547B CN201810707314.3A CN201810707314A CN108959547B CN 108959547 B CN108959547 B CN 108959547B CN 201810707314 A CN201810707314 A CN 201810707314A CN 108959547 B CN108959547 B CN 108959547B
Authority
CN
China
Prior art keywords
cluster
node
nodes
snapshot
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810707314.3A
Other languages
English (en)
Other versions
CN108959547A (zh
Inventor
厉颖
赵山
朱勇
张立勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wave Cloud Computing Service Co Ltd
Original Assignee
Shanghai Inspur Cloud Computing Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Inspur Cloud Computing Service Co Ltd filed Critical Shanghai Inspur Cloud Computing Service Co Ltd
Priority to CN201810707314.3A priority Critical patent/CN108959547B/zh
Publication of CN108959547A publication Critical patent/CN108959547A/zh
Application granted granted Critical
Publication of CN108959547B publication Critical patent/CN108959547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating

Abstract

本发明特别涉及一种PV快照分布式数据库集群恢复方法。该PV快照分布式数据库集群恢复方法,在Kubernetes环境下,采用自动化流程部署,包括集群节点信息过滤和创建集群两部分;当容器调度中分布式数据库集群出现故障或是出现数据丢失的情况时,自动启动非集群节点,过滤去除掉快照恢复数据中集群节点主机信息,保留节点的数据信息,快速创建分布式数据库集群。该PV快照分布式数据库集群恢复方法,不依赖集群特定节点信息,自动化操作,减少了人工干预,能够将备份的快照数据快速恢复到新创建正常集群中,提高了分布式集群的故障恢复能力,保障了集群的可用性。

Description

一种PV快照分布式数据库集群恢复方法
技术领域
本发明涉及基于Kubernetes的容器技术领域,特别涉及一种PV快照分布式数据库集群恢复方法。
背景技术
目前分布式集群多在物理机、虚拟机环境部署,将不同的服务器节点上面部署相同的服务模块,通过分布式调度软件进行统一的调度,对外提供服务和访问。分布式数据库集群通过多节点、自动切换等特性,可为用户提供高并发和高可用的数据库访问能力。但是当分布式数据库集群出现故障,集群节点无法自动切换对外提供服务,或是数据丢失的情况下,需要人工做大量的工作去恢复集群,费时费力,并且易出错。随着互联网+、云计算、物联网等技术的发展,应用的快速交付、以及可靠运行,快速恢复服务能力已成为用户关心的主要问题。
Kubernetes是建立于是Docker之上,构建一个容器的调度服务,通过Kubernetes集群来进行云端容器集群的管理。持久存储卷PV(Persistent Volume)持久存储卷声明和PVC(Persistent Volume Claim)是Kubernetes提供的两种资源,用于抽象存储细节。
基于上述情况,借助当下流行的云计算Kubernetes容器技术,本发明提出了一种PV快照分布式数据库集群恢复方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的PV快照分布式数据库集群恢复方法。
本发明是通过如下技术方案实现的:
一种PV快照分布式数据库集群恢复方法,其特征在于:在Kubernetes环境下,采用自动化流程部署,包括集群节点信息过滤和创建集群两部分;当容器调度中分布式数据库集群出现故障或是出现数据丢失的情况时,自动启动非集群节点,过滤去除掉快照恢复数据中集群节点主机信息,保留节点的数据信息,快速创建分布式数据库集群。
所述PV快照分布式数据库集群恢复方法,包括以下步骤:
(1)根据指定的快照恢复数据存储卷,开启快照故障恢复阈值,启动快照恢复流程;
(2)以非集群方式启动集群节点,去除快照恢复数据中集群节点主机信息,保留节点的数据信息;
(3)停止非集群节点方式启动的集群节点;
(4)以集群方式启动集群节点,循环查找集群内主节点,若找到主节点,将该集群节点加入到该集群中,若找不到主节点,当该节点作为主节点初始化集群;
(5)等待Kubernetes调度其他节点查找到该主节点,加入该集群。
所述步骤(1)中,如果不开启快照故障恢复阈值,则该方法适用于新创建分布式集群过程。
所述步骤(2)中,节点采用快照恢复的数据,用非集群方式启动节点,恢复集群根据原有快照数据,不依赖于原集群特定的节点信息,可以是原集群中同步数据的任一节点,过滤去除集群节点主机信息,然后创建集群。
所述PV快照分布式数据库集群恢复方法,以正常数据已做快照备份和快照数据恢复到持久卷为前置条件。
具体包括以下步骤:
(1)判断是否开启故障恢复阈值;
若开启故障恢复阈值,执行步骤(2)开启集群节点信息过滤流程;以非集群方式启动集群节点,启动数据位置为快照恢复的数据位置;启动后的集群节点不带集群的节点状态信息;
若未开启故障恢复阈值,执行步骤(4)创建集群流程;
(2)连接该非集群节点方式启动的集群节点,执行过滤数据操作,去除快照恢复数据中原集群节点的状态信息;
(3)停止该非集群节点方式启动的集群节点;
(4)以集群方式启动该集群节点,开启创建集群流程;
(5)根据预设定的集群节点主机名称,循环查找集群主节点;
若未找到主节点,则将该当前节点作为主节点,初始化集群节点;
若找到主节点,则将该当前节点作为从节点加入到集群中,主节点数据同步到当前节点;
(6)判断集群是否添加其它节点;
若集群存在其它节点,执行步骤(5);
若集群不存在其它节点,结束恢复流程。
本发明的有益效果是:该PV快照分布式数据库集群恢复方法,不依赖集群特定节点信息,自动化操作,减少了人工干预,能够将备份的快照数据快速恢复到新创建正常集群中,提高了分布式集群的故障恢复能力,保障了集群的可用性。
附图说明
附图1为本发明PV快照分布式数据库集群恢复方法示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该PV快照分布式数据库集群恢复方法,在Kubernetes环境下,采用自动化流程部署,包括集群节点信息过滤和创建集群两部分;当容器调度中分布式数据库集群出现故障或是出现数据丢失的情况时,自动启动非集群节点,过滤去除掉快照恢复数据中集群节点主机信息,保留节点的数据信息,快速创建分布式数据库集群。
所述PV快照分布式数据库集群恢复方法,包括以下步骤:
(1)根据指定的快照恢复数据存储卷,开启快照故障恢复阈值,启动快照恢复流程;
(2)以非集群方式启动集群节点,去除快照恢复数据中集群节点主机信息,保留节点的数据信息;
(3)停止非集群节点方式启动的集群节点;
(4)以集群方式启动集群节点,循环查找集群内主节点,若找到主节点,将该集群节点加入到该集群中,若找不到主节点,当该节点作为主节点初始化集群;
(5)等待Kubernetes调度其他节点查找到该主节点,加入该集群。
所述步骤(1)中,如果不开启快照故障恢复阈值,则该方法适用于新创建分布式集群过程。
所述步骤(2)中,节点采用快照恢复的数据,用非集群方式启动节点,恢复集群根据原有快照数据,不依赖于原集群特定的节点信息,可以是原集群中同步数据的任一节点,过滤去除集群节点主机信息,然后创建集群。
所述PV快照分布式数据库集群恢复方法,以正常数据已做快照备份和快照数据恢复到持久卷为前置条件。
具体包括以下步骤:
(1)判断是否开启故障恢复阈值;
若开启故障恢复阈值,执行步骤(2)开启集群节点信息过滤流程;以非集群方式启动集群节点,启动数据位置为快照恢复的数据位置;启动后的集群节点不带集群的节点状态信息;
若未开启故障恢复阈值,执行步骤(4)创建集群流程;
(2)连接该非集群节点方式启动的集群节点,执行过滤数据操作,去除快照恢复数据中原集群节点的状态信息;
(3)停止该非集群节点方式启动的集群节点;
(4)以集群方式启动该集群节点,开启创建集群流程;
(5)根据预设定的集群节点主机名称,循环查找集群主节点;
若未找到主节点,则将该当前节点作为主节点,初始化集群节点;
若找到主节点,则将该当前节点作为从节点加入到集群中,主节点数据同步到当前节点;
(6)判断集群是否添加其它节点;
若集群存在其它节点,执行步骤(5);
若集群不存在其它节点,结束恢复流程。

Claims (3)

1.一种PV快照分布式数据库集群恢复方法,其特征在于:在Kubernetes环境下,采用自动化流程部署,包括集群节点信息过滤和创建集群两部分;当容器调度中分布式数据库集群出现故障或是出现数据丢失的情况时,自动启动非集群节点,过滤去除掉快照恢复数据中集群节点主机信息,保留节点的数据信息,快速创建分布式数据库集群;包括以下步骤:
(1)根据指定的快照恢复数据存储卷,开启快照故障恢复阈值,启动快照恢复流程;
如果不开启快照故障恢复阈值,则该方法适用于新创建分布式集群过程;
(2)以非集群方式启动集群节点,去除快照恢复数据中集群节点主机信息,保留节点的数据信息;
节点采用快照恢复的数据,用非集群方式启动节点,恢复集群根据原有快照数据,不依赖于原集群特定的节点信息,可以是原集群中同步数据的任一节点,过滤去除集群节点主机信息,然后创建集群;
(3)停止非集群节点方式启动的集群节点;
(4)以集群方式启动集群节点,循环查找集群内主节点,若找到主节点,将该集群节点加入到该集群中,若找不到主节点,当该节点作为主节点初始化集群;
(5)等待Kubernetes调度其他节点查找到该主节点,加入该集群。
2.根据权利要求1任意一项所述的PV快照分布式数据库集群恢复方法,其特征在于:以正常数据已做快照备份和快照数据恢复到持久卷为前置条件。
3.根据权利要求2所述的PV快照分布式数据库集群恢复方法,其特征在于,具体包括以下步骤:
(1)判断是否开启故障恢复阈值;
若开启故障恢复阈值,执行步骤(2)开启集群节点信息过滤流程;以非集群方式启动集群节点,启动数据位置为快照恢复的数据位置;启动后的集群节点不带集群的节点状态信息;
若未开启故障恢复阈值,执行步骤(4)创建集群流程;
(2)连接该非集群节点方式启动的集群节点,执行过滤数据操作,去除快照恢复数据中原集群节点的状态信息;
(3)停止该非集群节点方式启动的集群节点;
(4)以集群方式启动该集群节点,开启创建集群流程;
(5)根据预设定的集群节点主机名称,循环查找集群主节点;
若未找到主节点,则将当前节点作为主节点,初始化集群节点;
若找到主节点,则将该当前节点作为从节点加入到集群中,主节点数据同步到当前节点;
(6)判断集群是否添加其它节点;
若集群存在其它节点,执行步骤(5);
若集群不存在其它节点,结束恢复流程。
CN201810707314.3A 2018-07-02 2018-07-02 一种pv快照分布式数据库集群恢复方法 Active CN108959547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810707314.3A CN108959547B (zh) 2018-07-02 2018-07-02 一种pv快照分布式数据库集群恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810707314.3A CN108959547B (zh) 2018-07-02 2018-07-02 一种pv快照分布式数据库集群恢复方法

Publications (2)

Publication Number Publication Date
CN108959547A CN108959547A (zh) 2018-12-07
CN108959547B true CN108959547B (zh) 2022-02-18

Family

ID=64484954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810707314.3A Active CN108959547B (zh) 2018-07-02 2018-07-02 一种pv快照分布式数据库集群恢复方法

Country Status (1)

Country Link
CN (1) CN108959547B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400107B (zh) * 2020-04-21 2023-03-03 贵州新致普惠信息技术有限公司 一种数据库多主集群的自启恢复系统及方法
CN111427605B (zh) * 2020-06-15 2020-10-16 广东睿江云计算股份有限公司 基于docker的分布式代码自动更新部署方法及系统
CN113391952B (zh) * 2021-06-07 2022-03-11 北京同创永益科技发展有限公司 一种云原生环境基于lvm快照的自动化备份方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110154A (zh) * 2011-02-21 2011-06-29 中国科学院计算技术研究所 一种集群文件系统中文件冗余存储方法
CN103365741A (zh) * 2012-03-30 2013-10-23 伊姆西公司 用于虚拟机集群的快照和恢复的方法和设备
CN104111878A (zh) * 2014-02-20 2014-10-22 西安未来国际信息股份有限公司 基于虚拟机快照的hadoop集群自动化恢复技术
CN105162878A (zh) * 2015-09-24 2015-12-16 网宿科技股份有限公司 基于分布式存储的文件分发系统及方法
CN106610876A (zh) * 2015-10-23 2017-05-03 中兴通讯股份有限公司 数据快照的恢复方法及装置
WO2017202258A1 (en) * 2016-05-24 2017-11-30 Huawei Technologies Co., Ltd. Automated generation of deployment workflows for cloud platforms based on logical stacks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110154A (zh) * 2011-02-21 2011-06-29 中国科学院计算技术研究所 一种集群文件系统中文件冗余存储方法
CN103365741A (zh) * 2012-03-30 2013-10-23 伊姆西公司 用于虚拟机集群的快照和恢复的方法和设备
CN104111878A (zh) * 2014-02-20 2014-10-22 西安未来国际信息股份有限公司 基于虚拟机快照的hadoop集群自动化恢复技术
CN105162878A (zh) * 2015-09-24 2015-12-16 网宿科技股份有限公司 基于分布式存储的文件分发系统及方法
CN106610876A (zh) * 2015-10-23 2017-05-03 中兴通讯股份有限公司 数据快照的恢复方法及装置
WO2017202258A1 (en) * 2016-05-24 2017-11-30 Huawei Technologies Co., Ltd. Automated generation of deployment workflows for cloud platforms based on logical stacks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Docker容器的云平台设计与实现;李灿彬;《科技广场》;20170630;全文 *

Also Published As

Publication number Publication date
CN108959547A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN102981931B (zh) 虚拟机备份方法及装置
CN108959547B (zh) 一种pv快照分布式数据库集群恢复方法
US8949188B2 (en) Efficient backup and restore of a cluster aware virtual input/output server (VIOS) within a VIOS cluster
CN102629224A (zh) 一种基于云平台的一体化数据容灾方法及其装置
CN105335251A (zh) 一种故障恢复方法及系统
CN102681917A (zh) 一种操作系统及其修复方法
CN105242990A (zh) 基于云平台的数据备份方法和装置
CN104461773A (zh) 一种虚拟机备份去重的方法
CN103051681A (zh) 一种面向分布式文件系统的协作式日志系统
CN103092724A (zh) 用于嵌入式电力终端的系统自恢复方法
CN111966526A (zh) 一种基于云平台数据中心的虚拟机备份方法及装置
CN105183591A (zh) 一种高可用集群的实现方法及系统
CN104516796A (zh) 一种基于命令集的网元备份与恢复方法及装置
US20120324279A1 (en) Method and Apparatus of Backing up Subversion Repository
CN110858168B (zh) 集群节点故障处理方法、装置及集群节点
CN113986450A (zh) 一种虚拟机备份方法及装置
Malloth et al. View synchronous communication in large scale networks
CN104407942A (zh) 一种基于异地存储的Linux操作系统备份恢复方法
CN109725916B (zh) 流处理的拓扑结构更新系统和方法
CN111090537A (zh) 集群启动方法、装置、电子设备及可读存储介质
CN106648474A (zh) 一种基于逻辑卷恢复虚拟机磁盘的方法
CN103327105A (zh) hadoop系统中从属节点服务自动恢复方法
CN115658390A (zh) 容器容灾方法、系统、装置、设备及计算机可读存储介质
CN114584459A (zh) 一种实现容器云平台主备高可用的方法
CN103197992B (zh) GlusterFS脑裂的自动化恢复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190307

Address after: Room 411, 238, Jiangchang Third Road, Zhabei District, Shanghai, 200436

Applicant after: Shanghai wave Cloud Computing Service Co., Ltd.

Address before: 250100 S06 Floor, No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province

Applicant before: Shandong Hui Trade Electronic Port Co., Ltd.

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Li Ying

Inventor after: Zhao Shan

Inventor after: Zhu Yong

Inventor after: Zhang Liyong

Inventor before: Li Ying

Inventor before: Zhao Shan

GR01 Patent grant
GR01 Patent grant