CN113672341A - 一种提高k8s集群稳定性的方法、系统、装置及存储介质 - Google Patents
一种提高k8s集群稳定性的方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN113672341A CN113672341A CN202110868349.7A CN202110868349A CN113672341A CN 113672341 A CN113672341 A CN 113672341A CN 202110868349 A CN202110868349 A CN 202110868349A CN 113672341 A CN113672341 A CN 113672341A
- Authority
- CN
- China
- Prior art keywords
- cluster
- key value
- storage system
- data
- distributed key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012544 monitoring process Methods 0.000 claims abstract description 25
- 238000011084 recovery Methods 0.000 claims description 14
- 238000000926 separation method Methods 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000013500 data storage Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/061—Improving I/O performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0614—Improving the reliability of storage systems
- G06F3/0619—Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出的一种提高k8s集群稳定性的方法、系统、装置及存储介质,所述方法包括:监控宿主机的运行环境,若宿主机在预设时间间隔内的重启次数超过预设次数阈值或IO读写速度低于预设次数阈值,通过etcd API进行数据备份;若当前集群内的节点数目大于预设数目阈值,将k8s平台服务与etcd运行环境分离。本发明通过提高etcd的稳定性,在一定程度上提高k8s集群服务的稳定性,进而更好的实现对业务平台的支撑。
Description
技术领域
本发明涉及云平台技术领域,更具体的说是涉及一种提高k8s集群稳定性的方法、系统、装置及存储介质。
背景技术
kubernetes,简称K8s,是用8代替8个字符“ubernete”而成的缩写。是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应用部署,规划,更新,维护的一种机制。
在Kubernetes集群中,etcd为Kubernetes集群的服务发现、配置中心功能起到了关键性的作用。etcd是CoreOS团队于2016年6月发起的开源项目,他的目标是构建一个高可用的分布式键值(key_value)数据库。etcd内部采用raft协议作为一致性算法,etcd是基于Go语言实现的,etcd比较多的应用场景适用于服务发现,服务发现(Service Disvocery)要解决的是分布式系统中最常见的问题之一,在同一个分布式集群中的进程或服务如何才能找到对方并建立连接。
当前,在集群环境中,如果etcd出现故障无法正常提供服务,整个k8s环境下服务pod无法启动导致业务会崩溃,使整个k8s集群基本无法使用。在日常,云平台运行过程中也会出现etcd故障导致的云平台无法使用的情况。可见,etcd的稳定性对于k8s集群的稳定性具有直接的影响。
因此,如何提高etcd的稳定性,进而支撑k8s平台的稳定运行,是我们亟待解决的问题。
发明内容
针对以上问题,本发明的目的在于提供一种提高k8s集群稳定性的方法、系统、装置及存储介质,通过提高etcd的稳定性,在一定程度上提高k8s集群服务的稳定性,进而更好的实现对业务平台的支撑。
本发明为实现上述目的,通过以下技术方案实现:一种提高k8s集群稳定性的方法,包括:
监控宿主机的运行环境,若宿主机在预设时间间隔内的重启次数超过预设次数阈值或IO读写速度低于预设次数阈值,通过分布式键值存储系统的应用接口(etcd API)以定时同步的方式将etcd的集群数据进行备份;
若当前etcd出现故障,利用备份的集群数据进行数据状态恢复;
若当前集群内的节点数目大于预设数目阈值,将k8s平台服务与etcd运行环境分离。
进一步,所述通过分布式键值存储系统的应用接口以定时同步的方式将分布式键值存储系统的集群数据进行备份包括:
在etcd运行环境中创建存储空间;
在etcd运行环境中创建定时同步任务,并为定时同步任务设置同步时间;
通过etcd集群API接口,启动定时任务,根据设置的同步时间不断将etcd集群数据同步到存储空间。
进一步,所述若当前分布式键值存储系统出现故障,利用备份的集群数据进行数据状态恢复包括:
监控分布式键值存储系统的运行状态;
若当前分布式键值存储系统出现故障,指定数据恢复时间,采集存储空间内相应时间的集群数据,并使用采集的集群数据覆盖当前分布式键值存储系统的集群数据。
进一步,在所述etcd集群每个节点上均配置了定时同步任务,并为每个定时同步任务指定对应的存储空间。
进一步,所述在分布式键值存储系统的运行环境中创建存储空间具体为:
在etcd运行环境中创建固定数据备份空间或者接入外部存储空间作为执行定时同步任务的存储空间。
进一步,所述将k8s平台服务与etcd运行环境分离包括:
将etcd的集群部署在单独的宿主机节点上;
将所述宿主机节点与k8s云平台部署在同一个集群下。
相应的,本发明还公开了一种提高k8s集群稳定性的系统,包括:
环境监控单元,用于监控宿主机在预设时间间隔内的重启次数和IO读写速度;数据备份单元,用于通过etcd API以定时同步的方式将分布式键值存储系统的集群数据进行备份;
恢复单元,用于利用备份的集群数据进行数据状态恢复;
集群监控单元,用于监控集群内的节点数目;
环境分离单元,用于将k8s平台服务与etcd运行环境分离。
进一步,所述数据备份单元包括:
备份空间创建模块,用于在etcd运行环境中创建存储空间;
任务创建模块,用于在etcd运行环境中创建定时同步任务,并为定时同步任务设置同步时间;
任务执行模块,用于通过etcd API启动定时同步任务,根据设置的同步时间将etcd集群数据同步到存储空间;
指定模块,用于为etcd集群每个节点上配置定时任务,并为每个定时任务指定相应的存储空间。
进一步,所述环境分离单元具体用于:将etcd的集群部署在单独的宿主机节点上;将所述宿主机节点与k8s云平台部署在同一个集群下。
相应的,本发明公开了一种提高k8s集群稳定性的装置,包括:
存储器,用于存储提高k8s集群稳定性的程序;
处理器,用于执行所述提高k8s集群稳定性的程序时实现如上文任一项所述提高k8s集群稳定性的方法步骤。
相应的,本发明公开了一种可读存储介质,所述可读存储介质上存储有提高k8s集群稳定性的程序,所述提高k8s集群稳定性的程序被处理器执行时实现如上文任一项所述提高k8s集群稳定性的方法步骤。
对比现有技术,本发明有益效果在于:
1、本发明针对宿主机环境稳定性较差时,通过etcd API进行数据备份,将etcd数据与其自身的数据存储机制分离。如果etcd故障需要恢复时,可以正常的恢复到指定日期的数据状态。防止出现etcd自身数据出现问题无法恢复的情况,有效的保证了数据的完整性。
2.本发明针对对于集群规模较大时,etcd与k8s云平台服务部署在同一个宿主机环境下带来不稳定性增大。采取将etcd集群与k8s云平台运行环境分离的方法,一方面避免了etcd与云平台服务的资源抢占,提高了etcd自身的稳定性和k8s服务的稳定性;另一方面实现了运行环境的解耦,当云平台服务的运行节点异常,不会对etcd集群服务带来任何影响。
3、本发明从etcd稳定性对k8s云平台的重要作用角度提高了etcd集群的稳定性,使etcd集群的高稳定性的基础更好的支撑k8s平台的正常运行,从而保障业务的正常运行。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
附图1是本发明的方法流程图;
附图2是本发明的系统结构图。
图中,1为环境监控单元;2为数据备份单元;3为恢复单元;4为集群监控单元;5为环境分离单元;6为备份空间创建模块;7为任务创建模块;8为任务执行模块;9为指定模块。
具体实施方式
本发明的核心是提供一种提高k8s集群稳定性的方法,当前,在集群环境中,如果etcd出现故障无法正常提供服务,整个k8s环境下服务pod无法启动导致业务会崩溃,使整个k8s集群基本无法使用。在日常,云平台运行过程中也会出现etctd故障导致的云平台无法使用的情况。可见,etcd的稳定性对于k8s集群的稳定性具有直接的影响。
而本发明提供的提高k8s集群稳定性的方法,首先,针对宿主机环境稳定性较差时,通过etcd API进行数据备份,将etcd数据与其自身的数据存储机制分离。如果etcd故障需要恢复时,可以正常的恢复到指定日期的数据状态。防止出现etcd自身数据出现问题无法恢复的情况,有效的保证了数据的完整性。其次,针对对于集群规模较大时,etcd与k8s云平台服务部署在同一个宿主机环境下带来不稳定性增大。本发明采取将etcd集群与k8s云平台运行环境分离的方法,一方面避免了etcd与云平台服务的资源抢占,提高了etcd自身的稳定性和k8s服务的稳定性;另一方面实现了运行环境的解耦,当云平台服务的运行节点异常,不会对etcd集群服务带来任何影响。由此可见,本发明从etcd稳定性对k8s云平台的重要作用角度提高了etcd集群的稳定性,使etcd集群的高稳定性的基础更好的支撑k8s平台的正常运行,从而保障业务的正常运行。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
如图1所示,本实施例提供了一种提高k8s集群稳定性的方法,包括如下步骤:
S1:监控宿主机的运行环境,若宿主机在预设时间间隔内的重启次数超过预设次数阈值或IO读写速度低于预设次数阈值,通过etcd API以定时同步的方式将etcd的集群数据进行备份。
在本步骤中,若宿主机在预设时间间隔内的重启次数超过预设次数阈值或IO读写速度低于预设次数阈值,可视为宿主机的运行环境稳定性较差。在宿主机的运行环境稳定性差时,经常出现系统重启或IO延迟较大。etct集群本身的机制是通过raft选举机制进行leader选举,如果通信故障将导致leader成员心跳不能被其他成员获取,从而进行新一轮的选举。选举完成后follower成员将从leader成员进行数据同步。如果在选举前follower成员因为网络或磁盘IO原因导致数据同步异常。当选举完成后新的leader成员正好是选举前有异常数据的成员,这时再从该成员到其他成员进行数据同步时就会出现问题。当进行数据恢复时,这种异常数据对etcd来说是无法正常启动的。
具体来说:etcd默认的工作目录下生成两个子目录snap和wal。由于在etcd中所有数据的修改在提交前都要先写入WAL文件中,使用WAL进行数据的存储使得etcd拥有故障快速回复和数据回滚。etcd为防止WAL文件过多会创建快照,snap子目录用于存储etcd的快照数据状态。Wal子目录用于记录整个数据变化的全部历程。但是,网络或磁盘I/O异常导致备份数据异常则会导致etcd数据无法正常读取,如果再进行etcd集群成员数据的同步,整个集群的同步状态将存在异常数据。一旦etcd集群崩溃,进行集群恢复时,异常数据是无法读取和恢复的。因此,为了保证数据的完整性,本步骤直接通过etcd API以定时同步的方式将etcd的集群数据进行备份。
其中,通过etcd API以定时同步的方式将etcd的集群数据进行备份具体包括:
首先,在etcd运行环境中创建存储空间,即在etcd运行环境中创建固定备份数据空间或者接入外部存储空间,作为执行定时同步任务的存储空间。然后,以定时同步的方式将etcd的集群数据进行备份。最后,通过etcd集群API接口,启动定时任务,根据设置的同步时间不断将etcd集群数据同步到存储空间。
S2:若当前etcd出现故障,利用备份的集群数据进行数据状态恢复。
具体来说:首先,监控分布式键值存储系统的运行状态。若当前分布式键值存储系统出现故障,指定数据恢复时间,采集存储空间内相应时间的集群数据,并使用采集的集群数据覆盖当前的etcd集群数据。
通常,通过一个集群节点的备份数据就可以进行数据状态。为了防止单节点API异常导致备份数据异常,本步骤在etcd集群的每个节点中均配置了定时同步任务,并为每个定时同步任务指定了相应的存储空间,可以进行多个节点的数据同时备份。
S3:若当前集群内的节点数目大于预设数目阈值,将k8s平台服务与etcd运行环境分离。
当前,etcd作为分布式键值数据库对k8s云平台业务支撑起到关键性的作用。在集群规模较小、业务数量较少时,通常将etcd集群与云平台服务部署在同一个宿主机环境下。但是采用此种部署方式存在以下两种缺陷:
1、如果云平台服务增加或机器性能较差会导致宿主机崩溃,etcd集群因此会受到影响,集群节点故障会导致etcd无法启动,进而影响整个k8s平台无法使用。
2、随着集群规模的进一步扩大,k8s集群规模越大,所需要同步的数据资源越多,导致etcd需要处理和同步的数据量大幅度增加,数据处理量的增大会导致etcd的不稳定,故障率会显著提高。
因此,为了提高etcd集群稳定性,更好的支撑k8s云平台业务稳定性,本步骤首先检测当前集群的规模,若当前集群内的节点数目大于预设数目阈值,说明当前的集群规模较大,此时,将etcd集群运行节点与服务运行节点分离,使用单独集群部署etcd服务。具体为:将etcd的集群部署在单独的宿主机节点上,并将宿主机节点与k8s云平台部署在同一个集群下。其中,为了满足raft选举机制的实现,部署etcd集群选择的节点个数为奇数。
本实施例提供了一种提高k8s集群稳定性的方法,从etcd稳定性对k8s云平台的重要作用角度提高了etcd集群的稳定性,使etcd集群在高稳定性的基础上更好的支撑k8s平台的正常运行,从而保障业务的正常运行。
实施例二:
基于实施例一,如图2所示,本发明还公开了一种提高k8s集群稳定性的系统,包括:环境监控单元1、数据备份单元2、恢复单元3、集群监控单元4和环境分离单元5。
环境监控单元1,用于监控宿主机在预设时间间隔内的重启次数和IO读写速度。若宿主机在预设时间间隔内的重启次数超过预设次数阈值或IO读写速度低于预设次数阈值,可视为宿主机的运行环境稳定性较差。则触发数据备份单元2启动。
数据备份单元2,用于通过etcd API以定时同步的方式将分布式键值存储系统的集群数据进行备份。数据备份单元2具体包括:
备份空间创建模块6,用于在etcd运行环境中创建存储空间。
任务创建模块7,用于在etcd运行环境中创建定时同步任务,并为定时同步任务设置同步时间。
任务执行模块8,用于通过etcd API启动定时同步任务,根据设置的同步时间将etcd集群数据同步到存储空间。
指定模块9,用于为etcd集群每个节点上配置定时任务,并为每个定时任务指定相应的存储空间。
恢复单元3,用于利用备份的集群数据进行数据状态恢复。恢复单元3具体用于:监控分布式键值存储系统的运行状态;若当前分布式键值存储系统出现故障,指定数据恢复时间,采集存储空间内相应时间的集群数据,并使用采集的集群数据覆盖当前分布式键值存储系统的集群数据。
集群监控单元4,用于监控集群内的节点数目。若当前集群内的节点数目大于预设数目阈值,说明当前的集群规模较大,则触发环境分离单元5启动。
环境分离单元5,用于将k8s平台服务与etcd运行环境分离。环境分离单元5具体用于:将etcd的集群部署在单独的宿主机节点上,将所述宿主机节点设置在k8s云平台所属的集群下。
本实施例提供了一种提高k8s集群稳定性的系统,首先,通过etcd API进行数据备份,将etcd数据与其自身的数据存储机制分离。如果etcd故障需要恢复时,可以正常的恢复到指定日期的数据状态。防止出现etcd自身数据出现问题无法恢复的情况,有效的保证了数据的完整性。其次,采取了将etcd集群与k8s云平台运行环境分离的方法,一方面避免了etcd与云平台服务的资源抢占,提高了etcd自身的稳定性和k8s服务的稳定性;另一方面实现了运行环境的解耦,当云平台服务的运行节点异常,不会对etcd集群服务带来任何影响。由此,通过提高etcd的稳定性,在一定程度上提高k8s集群服务的稳定性,进而更好的实现对业务平台的支撑。
实施例三:
本实施例公开了一种提高k8s集群稳定性的装置,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的提高k8s集群稳定性的程序时实现以下步骤:
1、监控宿主机的运行环境,若宿主机在预设时间间隔内的重启次数超过预设次数阈值或IO读写速度低于预设次数阈值,通过etcd API以定时同步的方式将etcd的集群数据进行备份。
2、若当前etcd出现故障,利用备份的集群数据进行数据状态恢复。
3、若当前集群内的节点数目大于预设数目阈值,将k8s平台服务与etcd运行环境分离。
进一步的,本实施例中的提高k8s集群稳定性的装置,还可以包括:
输入接口,用于获取外界导入的提高k8s集群稳定性的程序,并将获取到的提高k8s集群稳定性的程序保存至所述存储器中,还可以用于获取外界终端设备传输的各种指令和参数,并传输至处理器中,以便处理器利用上述各种指令和参数展开相应的处理。本实施例中,所述输入接口具体可以包括但不限于USB接口、串行接口、语音输入接口、指纹输入接口、硬盘读取接口等。
输出接口,用于将处理器产生的各种数据输出至与其相连的终端设备,以便于与输出接口相连的其他终端设备能够获取到处理器产生的各种数据。本实施例中,所述输出接口具体可以包括但不限于USB接口、串行接口等。
通讯单元,用于在提高k8s集群稳定性的装置和外部服务器之间建立远程通讯连接,以便于提高k8s集群稳定性的装置能够将镜像文件挂载到外部服务器中。本实施例中,通讯单元具体可以包括但不限于基于无线通讯技术或有线通讯技术的远程通讯单元。
键盘,用于获取用户通过实时敲击键帽而输入的各种参数数据或指令。
显示器,用于运行服务器供电线路短路定位过程的相关信息进行实时显示。
鼠标,可以用于协助用户输入数据并简化用户的操作。
本实施例提供了一种提高k8s集群稳定性的装置,首先,通过etcd API进行数据备份,将etcd数据与其自身的数据存储机制分离。有效的防止出现etcd自身数据出现问题无法恢复的情况,保证了数据的完整性。其次,采取了将etcd集群与k8s云平台运行环境分离的方法,提高了etcd自身的稳定性和k8s服务的稳定性。
实施例四:
本实施例还公开了一种可读存储介质,这里所说的可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动硬盘、CD-ROM或技术领域内所公知的任意其他形式的存储介质。可读存储介质中存储有提高k8s集群稳定性的程序,所述提高k8s集群稳定性的程序被处理器执行时实现以下步骤:
1、监控宿主机的运行环境,若宿主机在预设时间间隔内的重启次数超过预设次数阈值或IO读写速度低于预设次数阈值,通过etcd API以定时同步的方式将etcd的集群数据进行备份。
2、若当前etcd出现故障,利用备份的集群数据进行数据状态恢复。
3、若当前集群内的节点数目大于预设数目阈值,将k8s平台服务与etcd运行环境分离。
本实施例提供了一种可读存储介质,首先,通过etcd API进行数据备份,将etcd数据与其自身的数据存储机制分离。如果etcd故障需要恢复时,可以正常的恢复到指定日期的数据状态。防止出现etcd自身数据出现问题无法恢复的情况,有效的保证了数据的完整性。其次,采取了将etcd集群与k8s云平台运行环境分离的方法,一方面避免了etcd与云平台服务的资源抢占,提高了etcd自身的稳定性和k8s服务的稳定性;另一方面实现了运行环境的解耦,当云平台服务的运行节点异常,不会对etcd集群服务带来任何影响。
综上所述,本发明从etcd稳定性对k8s云平台的重要作用角度提高了etcd集群的稳定性,使etcd集群在高稳定性的基础上更好的支撑k8s平台的正常运行,从而保障业务的正常运行。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的方法而言,由于其与实施例公开的系统相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。
同理,在本发明各个实施例中的各处理单元可以集成在一个功能模块中,也可以是各个处理单元物理存在,也可以两个或两个以上处理单元集成在一个功能模块中。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的提高k8s集群稳定性的方法、系统、装置及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (10)
1.一种提高k8s集群稳定性的方法,其特征在于,包括:
监控宿主机的运行环境,若宿主机在预设时间间隔内的重启次数超过预设次数阈值或IO读写速度低于预设次数阈值,通过分布式键值存储系统的应用接口以定时同步的方式将分布式键值存储系统的集群数据进行备份;
若当前分布式键值存储系统出现故障,利用备份的集群数据进行数据状态恢复;若当前集群内的节点数目大于预设数目阈值,将k8s平台服务与分布式键值存储系统的运行环境分离。
2.根据权利要求1所述的提高k8s集群稳定性的方法,其特征在于,所述通过分布式键值存储系统的应用接口以定时同步的方式将分布式键值存储系统的集群数据进行备份包括:
在分布式键值存储系统的运行环境中创建存储空间;
在分布式键值存储系统的运行环境中创建定时同步任务,并为定时同步任务设置同步时间;
通过分布式键值存储系统的集群应用接口启动定时同步任务,根据设置的同步时间将分布式键值存储系统的集群数据同步到存储空间。
3.根据权利要求2所述的提高k8s集群稳定性的方法,其特征在于,所述若当前分布式键值存储系统出现故障,利用备份的集群数据进行数据状态恢复包括:监控分布式键值存储系统的运行状态;
若当前分布式键值存储系统出现故障,指定数据恢复时间,采集存储空间内相应时间的集群数据,并使用采集的集群数据覆盖当前分布式键值存储系统的集群数据。
4.根据权利要求2所述的提高k8s集群稳定性的方法,其特征在于,在所述分布式键值存储系统集群的每个节点中均配置了定时同步任务,并为每个定时同步任务指定了相应的存储空间。
5.根据权利要求2所述的提高k8s集群稳定性的方法,其特征在于,所述在分布式键值存储系统的运行环境中创建存储空间具体为:
在分布式键值存储系统的运行环境中创建固定备份数据空间或者接入外部存储空间,作为执行定时同步任务的存储空间。
6.根据权利要求1所述的提高k8s集群稳定性的方法,其特征在于,所述将k8s平台服务与etcd运行环境分离包括:
将分布式键值存储系统的集群部署在单独的宿主机节点上;
将所述宿主机节点与k8s云平台部署在同一个集群下。
7.一种提高k8s集群稳定性的系统,其特征在于,包括:
环境监控单元,用于监控宿主机在预设时间间隔内的重启次数和IO读写速度;数据备份单元,用于通过分布式键值存储系统的应用接口以定时同步的方式将分布式键值存储系统的集群数据进行备份;
恢复单元,用于利用备份的集群数据进行数据状态恢复;
集群监控单元,用于监控集群内的节点数目;
环境分离单元,用于将k8s平台服务与分布式键值存储系统的运行环境分离。
8.根据权利要求7所述的提高k8s集群稳定性的系统,所述数据备份单元包括:备份空间创建模块,用于在分布式键值存储系统的运行环境中创建存储空间;任务创建模块,用于在分布式键值存储系统的运行环境中创建定时同步任务,并为定时同步任务设置同步时间;任务执行模块,用于通过分布式键值存储系统的集群应用接口启动定时同步任务,根据设置的同步时间将分布式键值存储系统的集群数据同步到存储空间;
指定模块,用于为分布式键值存储系统集群的每个节点配置定时同步任务,并为每个定时同步任务指定相应的存储空间。
9.一种提高k8s集群稳定性的装置,其特征在于,包括:
存储器,用于存储提高k8s集群稳定性的程序;
处理器,用于执行所述提高k8s集群稳定性的程序时实现如权利要求1至6任一项权利要求所述的提高k8s集群稳定性的方法步骤。
10.一种可读存储介质,其特征在于:所述可读存储介质上存储有提高k8s集群稳定性的程序,所述提高k8s集群稳定性的程序被处理器执行时实现如权利要求1至6任一项权利要求所述的提高k8s集群稳定性的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110868349.7A CN113672341A (zh) | 2021-07-30 | 2021-07-30 | 一种提高k8s集群稳定性的方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110868349.7A CN113672341A (zh) | 2021-07-30 | 2021-07-30 | 一种提高k8s集群稳定性的方法、系统、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113672341A true CN113672341A (zh) | 2021-11-19 |
Family
ID=78540820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110868349.7A Pending CN113672341A (zh) | 2021-07-30 | 2021-07-30 | 一种提高k8s集群稳定性的方法、系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113672341A (zh) |
-
2021
- 2021-07-30 CN CN202110868349.7A patent/CN113672341A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102214128A (zh) | 多用途恢复环境 | |
CN112506702B (zh) | 数据中心容灾方法、装置、设备及存储介质 | |
JP7215971B2 (ja) | 記憶機器のデータ位置の処理方法及び処理装置、コンピュータ機器並びにコンピュータ読み取り可能な記憶媒体 | |
CN110659158A (zh) | 基于双机热备环境的Influx DB数据备份方法 | |
CN109361777B (zh) | 分布式集群节点状态的同步方法、同步系统及相关装置 | |
CN111966467B (zh) | 基于kubernetes容器平台灾备的方法及装置 | |
CN111752488B (zh) | 存储集群的管理方法、装置、管理节点及存储介质 | |
CN111787113B (zh) | 一种节点故障的处理方法、装置、存储介质和电子设备 | |
CN110351313B (zh) | 数据缓存方法、装置、设备及存储介质 | |
CN110647425A (zh) | 一种数据库恢复方法及装置 | |
CN113626238B (zh) | ctdb服务健康状态监控方法、系统、装置及存储介质 | |
CN114020279A (zh) | 应用软件分布式部署方法、系统、终端及存储介质 | |
CN111984474B (zh) | 一种双控集群故障恢复的方法、系统及设备 | |
CN113672341A (zh) | 一种提高k8s集群稳定性的方法、系统、装置及存储介质 | |
JP5798056B2 (ja) | 呼処理情報の冗長化制御システムおよびこれに利用する予備保守サーバ | |
CN111427721B (zh) | 异常恢复方法及装置 | |
CN103327105A (zh) | hadoop系统中从属节点服务自动恢复方法 | |
CN114020503A (zh) | 分布式文件系统透明故障切换的优化方法、系统及装置 | |
CN115858101B (zh) | 容器资源视图隔离的方法、装置以及电子设备 | |
WO2024061219A1 (zh) | 一种信息更新方法、装置、设备、存储介质及程序产品 | |
CN113608750B (zh) | 监控组件的部署方法、装置、计算机设备以及存储介质 | |
CN117149095B (zh) | 基于nas的集群管理方法、装置、计算机设备及介质 | |
CN109995560A (zh) | 云资源池管理系统及方法 | |
CN114064349A (zh) | 一种数据处理方法、装置、设备和存储介质 | |
CN115421853A (zh) | 基于容器集群的存储系统管理方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |