CN113656215A - 一种基于集中配置的自动化容灾方法、系统、介质和设备 - Google Patents
一种基于集中配置的自动化容灾方法、系统、介质和设备 Download PDFInfo
- Publication number
- CN113656215A CN113656215A CN202110818604.7A CN202110818604A CN113656215A CN 113656215 A CN113656215 A CN 113656215A CN 202110818604 A CN202110818604 A CN 202110818604A CN 113656215 A CN113656215 A CN 113656215A
- Authority
- CN
- China
- Prior art keywords
- disaster recovery
- resource
- checking
- dependent
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011084 recovery Methods 0.000 title claims abstract description 209
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000001419 dependent effect Effects 0.000 claims abstract description 123
- 230000036541 health Effects 0.000 claims abstract description 81
- 230000003862 health status Effects 0.000 claims description 45
- 238000003860 storage Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1479—Generic software techniques for error detection or fault masking
- G06F11/1492—Generic software techniques for error detection or fault masking by run-time replication performed by the application software
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明公开了一种基于集中配置的自动化容灾方法、系统、介质及电子设备,包括:从策略中心获取预先写入的容灾资源策略配置信息,根据容灾资源策略配置信息对客户端的自我健康状态进行检查;根据客户端的自我健康状态的检查结果,对客户端的依赖资源健康状态或容灾切换存在状态进行检查;根据依赖资源健康状态的检查结果或容灾切换存在状态的检查结果,执行容灾资源策略配置。通过服务器端直接进行依赖资源质量判断,能够有效判断依赖资源的服务状态,精确判断故障依赖资源,真实服务场景情况下,能够提升容灾切换的时效性,能够有效降低故障时长。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于集中配置的自动化容灾方法、系统、介质和设备。
背景技术
目前互联网系统中应用程序需要依赖大量资源,例如API(ApplicationProgramming Interface,应用程序接口)接口服务、数据库服务等。随着业务发展,依赖的资源数据越来越多,同时应用程序的可用性要求越来越高,现有容灾系统和方案都是针对固定的资源,固定的场景,人为进行触发。
现有容灾系统都是从依赖资源端判断是否执行切换,无法覆盖调用的全链路,即有依赖资源端服务正常,网络异常的情况下导致调用异常,无法完全覆盖调用过程的全部环节,可能产生误判。并且,容灾系统进行切换都是在依赖资源端进行的,同时都是进行域名解析切换,由于域名解析TTL(Time To Live,缓存时间)存在,无法及时在调用端生效,导致故障时长增加;另外,目前的容灾系统存在多资源切换操作入口不统一,不便于管理,存在多资源在不同的维护人员维护的情况,不同的资源的容灾管理和容灾方案入口均不同,维护和管理成本高。
有鉴于此,目前亟需一种多资源多场景自动化的容灾方案,能够提升容灾切换的时效性,有效降低故障时长。
发明内容
有鉴于此,本发明实施例的目的在于提供一种基于集中配置的自动化容灾方法、系统、介质和电子设备,能够提升容灾切换的时效性降低故障时长。
为达到上述目的,第一方面,本发明实施例提供一种基于集中配置的自动化容灾方法,包括:
从策略中心获取预先写入的容灾资源策略配置信息,根据所述容灾资源策略配置信息对客户端的自我健康状态进行检查;
根据所述客户端的自我健康状态的检查结果,对所述客户端的依赖资源健康状态或容灾切换存在状态进行检查;
根据所述依赖资源健康状态的检查结果或所述容灾切换存在状态的检查结果,执行所述容灾资源策略配置。
在一些可能的实施方式中,所述从策略中心获取预先写入的容灾资源策略配置信息,根据所述容灾资源策略配置信息对客户端的自我健康状态进行检查,具体包括:
从所述策略中心获取所述容灾资源策略配置信息,按照所述容灾资源策略配置信息中的依赖资源的监测周期和检查方法进行客户端的自我健康状态检查。
在一些可能的实施方式中,所述根据所述客户端的自我健康状态的检查结果,对所述客户端的依赖资源健康状态或容灾切换存在状态进行检查,具体包括:
当所述客户端的自我健康状态的检查结果为不健康时,进行依赖资源健康状态检查;
当所述客户端的自我健康状态的检查结果为健康时,进行容灾切换存在状态检查。
在一些可能的实施方式中,在所述当客户端的自我健康状态的检查结果为不健康时,进行依赖资源健康状态检查之后,还包括:
当所述依赖资源健康状态的检查结果为健康时,判定导致所述客户端的自我健康状态的检查结果为不健康是因为所述客户端的自身原因,则进行第一节点容灾切换,所述的节点容灾切换是指将不健康的客户端切换至其它健康的客户端;
当所述依赖资源健康状态的检查结果为不健康时,进行备用依赖资源健康状态的检查,根据所述备用依赖资源健康状态的检查结果,执行所述容灾资源策略配置。
在一些可能的实施方式中,所述的当所述检查依赖资源检查结果为不健康时,进行备用依赖资源健康状态检查,根据所述备用依赖资源健康状态的检查结果,执行所述容灾策略配置,具体包括:
当所述备用依赖资源健康状态的检查结果为健康时,通过路由切换的方式将不健康的依赖资源切换至所述备用依赖资源,完成容灾资源策略配置;
当所述备用依赖资源健康状态检查结果为不健康时,则进行第二节点容灾切换,所述第二节点容灾切换是指将不健康的客户端切换至其它健康的客户端,完成容灾资源策略配置。
在一些可能的实施方式中,所述的当所述客户端的自我健康状态检查的结果为健康时,进行是否存在容灾切换检查,还包括:
当存在所述容灾切换时,判定已经将不健康的依赖资源切换至健康的备用依赖资源,对已切换的备用依赖资源的原有地址的健康状态进行检查,根据检查结果进行容灾资源策略配置;
当所述容灾切换不存在时,结束容灾资源策略配置。
在一些可能的实施方式中,所述的对已切换的依赖资源的原有地址的健康状态进行检查,根据检查结果进行容灾资源策略配置,具体包括:
当所述已切换的依赖资源的原有地址的健康状态为健康时,执行容灾资源策略配置回滚,完成容灾资源策略配置;
当所述已切换的依赖资源的原有地址的健康状态为不健康时,不执行容灾资源策略配置。
第二方面,本发明提供了一种基于集中配置的自动化容灾系统,包括:
第一检查单元,用于从策略中心获取预先写入的容灾资源策略配置信息,根据所述容灾资源策略配置信息对客户端的自我健康状态进行检查;
第二检查单元,用于根据所述客户端的自我健康状态的检查结果,对所述客户端的依赖资源健康状态或容灾切换存在状态进行检查;
执行单元,用于根据所述依赖资源健康状态的检查结果或所述容灾切换存在状态的检查结果,执行所述容灾资源策略配置。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任意一种基于集中配置的自动化容灾方法。
第四方面,本发明提供了一种电子设备,其包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上所述的任意一种基于集中配置的自动化容灾方法。
上述技术方案具有如下有益效果:
本发明实施例提供的一种基于集中配置的自动化容灾的方法、系统、介质及电子设备,从策略中心获取预先写入的容灾资源策略配置信息,根据容灾资源策略配置信息对客户端的自我健康状态进行检查;根据客户端的自我健康状态的检查结果,对客户端的依赖资源健康状态或容灾切换存在状态进行检查;根据依赖资源健康状态的检查结果或容灾切换存在状态的检查结果,执行容灾资源策略配置。通过服务器端直接进行依赖资源质量判断,能够有效判断依赖资源的服务状态,精确判断故障依赖资源,真实服务场景情况下,能够提升容灾切换的时效性,能够有效降低故障时长。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于集中配置的自动化容灾方法的流程图;
图2是本发明实施例的一种基于集中配置的自动化容灾方法的整体流程部署图;
图3是本发明实施例的一种基于集中配置的自动化容灾系统的结构图;
图4是本发明实施例的一种计算机可读存储介质的功能框图;
图5是本发明实施例的一种电子设备的功能框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1是本发明实施例的一种基于集中配置的自动化容灾方法的流程图。如图1所示,该方法包括如下步骤:
S110,从策略中心获取预先写入的容灾资源策略配置信息,根据所述容灾资源策略配置信息对客户端的自我健康状态进行检查。
本实施例中,客户端获取策略中心的容灾资源策略配置信息,按照容灾资源策略配置信息中配置的依赖资源的监测周期、检查方法进行自我健康状态检查;获取当前的服务状态,为后续容灾资源策略配置的执行提供充分条件。健康状态是指客户端的服务情况,例如服务的延迟、响应时间、状态码、返回大小等信息,用于标注服务是否正常,即客户端的服务是否正常。
在一些实施例中,通过中心配置节点提供容灾策略配置,将容灾策略配置写入策略中心,包括容灾资源策略配置的增加、修改、删除和查看功能,同时可设置策略执行周期、调度源和目的、提供策略查询和已执行策略查询等功能。策略中心通过中心存储节点对容灾策略配置进行存储,是统一的存储介质;依据存储的容灾策略配置,对服务器端的容灾资源策略进行更新。
作为一种举例说明,一条完整的容灾资源策略配置描述信息应该包括策略的Id、名称、执行周期、检查方法、源地址、备用资源地址、创建时间、修改时间和删除时间等,例如:
Id:策略的唯一Id;
Name:策略的人为命名;
Period:策略执行周期;
Method:策略的检查方法;
Source:策略的源地址;
Backup:策略的备用资源地址;
Status:策略执行状态;
Enable:是否可执行;
Createtime:策略创建时间;
Updatatime:策略修改时间;
Exectime:策略执行时间。
本发明实施例的容灾策略配置有且仅有这一个操作入口,通过该操作入口对容灾策略统一配置、存储和执行,确保了容灾策略执行的统一性、高效性。
S120,根据所述客户端的自我健康状态的检查结果,对所述客户端的依赖资源健康状态或容灾切换存在状态进行检查。
本实施例中,依赖资源是指生产服务依赖的网络资源,可以包括:www的网页服务、mysql数据库服务、memcache、redis之类的缓存服务和kafka数据队列服务等。依赖资源健康状态检查是通过常见的网络探测方式,检查服务的可用性情况,检查方式可以包括ping、wget或curl等。
在一些实施例中,当客户端自我检查结果为不健康的时,开始对依赖资源健康状态进行检查,通过对依赖资源健康状态检查结果来判断客户端的自我健康状态检查为不健康时,是不是由于依赖资源的不健康导致的,也就是说,判断客户端的不健康是客户端的依赖资源导致的,还是客户端的自身原因导致的。
在一些实施例中,当客户端自我检查结果为健康的情况下,进行历史切换记录检查,查找是否已有容灾切换,即检查历史切换记录,看看是否之前进行过将不健康的依赖资源切换至备用依赖资源,依据检查结果判断是否进行容灾策略回滚。
S130,根据依赖资源健康状态的检查结果或所述容灾切换存在状态的检查结果,执行容灾资源策略配置。
在一些实施例中,当客户端自我健康检查结果为不健康,但是依赖资源健康状态检查结果为健康时,可以判定是客户端的自身问题导致的客户端不能正常进行服务,此时,进行节点的容灾切换,将服务器的节点流量切换到其他健康的备用节点上,也就是说将这个不健康的客户端自动切换到其它健康的客户端上,确保容灾资源策略配置的完整性。作为一个举例说明,容灾切换的方式是路由切换,可以有效规避网络、dns缓存等影响,例如绕过dns域名解析过程,避免了dns缓存的TTL(Time To Live,缓存时间)影响,增加容灾策略执行的时效性,具有更直接、更高效的特点。
在一些实施例中,在客户端的自我健康状态检查和依赖资源健康检查均不健康时,对备用的依赖资源健康状态进行检查,查看是否具有可以替换的备用依赖资源;当备用的依赖资源健康时,执行容灾资源策略配置,进行备用依赖资源的路由切换,将不健康的依赖资源替换为健康的备用依赖资源,保证客户端自身服务健康。
在一些实施例中,客户端的自我健康状态检查、依赖资源健康状态检查、备用依赖资源健康状态检查均为不健康且无法修复的情况下,容灾资源策略配置引入无法修复的打底策略,即在无可用容灾策略的情况下,将不健康的客户端切换至其他健康的客户端上,本发明实施例考虑到生产环境中的各种情况,能够最大限度的保障服务正常。
在一些实施例中,当客户端自我健康检查结果为健康时,检查是否存在容灾切换,也就是检查历史切换记录,看看之前是否存在将依赖资源切换至备用依赖资源的情况,当存在容灾切换时,对已切换过得依赖资源的原有地址的健康状态进行检查,当依赖资源的原有地址的健康状态检查结果为健康时,满足回滚条件,执行回滚容灾策略;反之,不满足本次回滚条件,不执行容灾资源策略配置。
在一些实施例中,当客户端自我健康检查结果为健康时,检查是否存在容灾切换,也就是检查历史切换记录,看看之前是否切换过备用依赖资源,当客户端检查不存在已执行的切换时,不执行容灾资源策略配置。
为了使本领域技术人员更加理解本发明实施例提供的技术方案,下面对本发明实施例提供的基于集中配置的自动化容灾方法进行详细说明。附图2为本发明实施例提供的一种基于集中配置的自动化容灾方法的整体流程部署图,具体包括如下步骤:
S1,进行容灾资源策略配置,通过中心配置节点提供容灾资源策略配置,提供容灾资源策略增加、修改、删除和查看功能,有且仅有这一个操作入口;
S2,对策略配置进行存储和更新,通过策略中心的中心存储节点对容灾策略配置进行存储,策略中心是统一的存储介质,依据存储的容灾资源策略配置,更新客户端的容灾策略;
S3,自我检查,客户端进行自我健康状态检查,根据自我状态检查结果判断是否对依赖资源健康状况进行检查,检查客户端的自我不健康是不是依赖资源的不健康导致的,同时对历史切换记录进行检查,即检查是否存在容灾切换;
S4,资源检查,对依赖资源健康状态进行检查。当客户端的自我健康状态检查的结果为不健康时,进行依赖资源健康状态检查,根据依赖资源健康状态检查结果,判断客户端的不健康是不是因为依赖资源的不健康导致的;
S5,备用资源检查,对服务器端提供的备用依赖资源健康状态进行检查,当依赖资源不健康时,判断备用依赖资源是否健康可用;当备用依赖资源健康时,执行容灾资源策略配置,进行备用依赖资源的路由切换,将不健康的依赖资源替换为健康的备用依赖资源,保证客户端自身服务健康;
S6,节点容灾切换,当客户端的自我健康状态检查结果为不健康,但是依赖资源的检查结果为健康时,进行第一容灾节点切换;当依赖资源健康状态检查为不健康且备用依赖资源的健康状态检查也不健康的情况下,执行第二节点容灾切换,将不健康的客户端切换至健康的客户端上;
S7,检查切换,当客户端自我健康状态检查为健康时,提供服务器端容灾切换状态的监控功能,检查历史切换记录,即检查之前进行的切换;
S8,检查依赖资源的原有地址,提供服务器端已执行的容灾资源监控状态检查功能,用于在服务器端服务健康且已执行容灾策略情况下,评估被切换的依赖资源的原有地址是否健康;
S9,切换回滚,提供服务器端容灾策略回滚功能,用于在服务器端服务健康且已切换的依赖资源的原有地址健康的情况下,回滚容灾资源策略。
本发明实施例提供的一种基于集中配置的自动化容灾方法具有可配置策略、自动化判断、自动化执行和恢复回滚,能够及时进行对不健康服务进行容灾止损,将灾难损失降低到最低,同时也降低了人为容灾操作可能导致的误判。
本发明实施例的容灾切换的方式是路由指向策略变更,绕过dns域名解析过程,避免了dns缓存的TTL,具有更直接、更高效的特点;
本发明实施例的容灾方法可用于多种依赖资源的容灾兼容性强,由于容灾策略使用IP路由的方式,能够有效针对www的网页服务,mysql数据库服务,memcache、redis之类的缓存服务,kafka数据队列服务的容灾场景;
本发明实施例的容灾方法引入在无法修复的打底策略,即节点流量没办法按照现有策略恢复的情况下,会进行客户端之间的切换,将不健康的客户端切换至健康的客户端,即将流量切换到其他的健康节点,确保容灾策略的完整性。考虑到生产环境中的各种情况,能够最大限度地保障服务正常,同时有自动回滚策略,在检查判断后智能进行容灾方案回滚,在生产环境应用更智能。
实施例二
如图3所示,本发明实施例提供了一种基于集中配置的自动化容灾系统,包括:
第一检查单元310,用于从策略中心获取预先写入的容灾资源策略配置信息,根据容灾资源策略配置信息对客户端的自我健康状态进行检查。
第一检查单元310从策略中心获取预先写入的容灾资源策略配置信息,根据容灾资源策略配置信息对客户端的自我健康状态进行检查。
本实施例中,第一检查单元310从策略中心获取预先写入的容灾资源策略配置信息,按照容灾资源策略配置信息中配置的依赖资源的监测周期、检查方法进行自我健康状态检查;获取当前的服务状态,为后续容灾资源策略配置的执行提供充分条件。健康状态是指客户端的服务情况,例如服务的延迟、响应时间、状态码、返回大小等信息,用于标注服务是否正常。
在一些实施例中,通过中心配置节点提供容灾策略配置,将容灾策略配置写入策略中心,包括容灾资源策略配置的增加、修改、删除、查看功能,同时可设置策略执行周期、调度源和目的、提供策略查询、已执行策略查询等功能。策略中心通过中心存储节点对容灾策略配置进行存储,是统一的存储介质;依据存储的容灾策略配置,对服务器端的容灾策略进行更新。
第二检查单元320,用于根据客户端的自我健康状态的检查结果,对客户端的依赖资源健康状态或容灾切换存在状态进行检查。
本实施例中,依赖资源是指生产服务依赖的网络资源,可以包括:www的网页服务、mysql数据库服务、memcache、redis之类的缓存服务和kafka数据队列服务等。依赖资源健康状态检查是通过常见的网络探测方式,检查服务的可用性情况,检查方式可以包括ping、wget、curl等。
在一些实施例中,当第二检查单元320对客户端自我检查结果为不健康的时,开始对依赖资源健康状态进行检查,通过对依赖资源健康状态检查结果来判断客户端的自我不健康是不是由于依赖资源的不健康导致的。
在一些实施例中,当第二检查单元320对客户端自我检查结果为健康的情况下,进行历史切换记录检查,查找是否已有容灾切换,如果存在容灾切换,则开始进行容灾策略回滚。
执行单元330,用于根据依赖资源健康状态的检查结果或容灾切换存在状态的检查结果,执行容灾资源策略配置。
在一些实施例中,当执行单元330对客户端自我健康检查结果不健康,但是依赖资源健康状态检查结果为健康时,就可以判定为客户端的不健康是由于自身原因导致的,不是因为依赖资源的不健康导致的,此时,进行节点的容灾切换,将不健康的客户端切换至其它健康的客户端上,即将服务器的节点流量切换到其他健康的节点上,确保容灾资源策略配置的完整性。作为一个举例说明,容灾切换的方式是路由切换,可以有效规避网络、dns缓存等影响,例如绕过dns域名解析过程,避免了dns缓存的TTL(Time To Live,缓存时间)影响,增加容灾策略执行的时效性,具有更直接、更高效的特点。
当依赖资源健康状态检查发现不健康的依赖资源时,执行单元330对备用依赖资源的健康状态进行检查,为后续执行容灾切换提供必要条件。
在一些实施例中,当执行单元330对客户端自我健康检查结果为健康时,检查是否存在容灾切换,即检查历史切换记录,当存在容灾切换时,对切换的依赖资源的原有地址的健康状态进行检查,当原有地址的健康状态检查结果为健康时,满足回滚条件,执行回滚容灾策略;反之,当原有地址的健康状态检查结果为不健康时,表明原来切换的依赖资源仍然不健康,此时就不满足本次回滚条件,不能执行容灾资源策略配置。
当执行单元330对客户端检查不存在已执行的切换时,整个容灾过程执行完成,结束本次容灾资源策略配置。
在一些实施例中,当执行单元330对客户端的自我健康状态检查和依赖资源健康检查均不健康时,对备用的依赖资源健康状态进行检查,查看是否具有可以替换的备用依赖资源;当备用的依赖资源健康时,执行容灾资源策略配置,进行备用依赖资源的路由切换,将不健康的依赖资源替换为健康的备用依赖资源,保证客户端自身服务健康。容灾资源策略配置执行完成后,结束本次容灾资源策略配置。
在一些实施例中,当执行单元330对客户端的自我健康状态检查、依赖资源健康状态检查、备用依赖资源健康状态检查均为不健康且无法修复的情况下,容灾资源策略配置引入无法修复的打底策略,即在无可用容灾策略的情况下,将不健康的客户端切换至健康的客户端上,即将服务器的节点流量切换至其他的健康节点,本发明实施例考虑到生产环境中的各种情况,能够最大限度的保障服务正常。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
实施例三
如图4所示,本发明实施例还提供了一种计算机可读存储介质400,计算机可读存储介质400内存储有计算机程序410,该计算机程序410被处理器执行时,实现:
从策略中心获取预先写入的容灾资源策略配置信息,根据容灾资源策略配置信息对客户端的自我健康状态进行检查;
根据客户端的自我健康状态的检查结果,对客户端的依赖资源健康状态或容灾切换存在状态进行检查;
根据依赖资源健康状态的检查结果或容灾切换存在状态的检查结果,执行容灾资源策略配置。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
实施例四
请参见图5,本发明实施例还提供一种电子设备。图5是本发明的一个实施例电子设备的结构示意图。请参考图5,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponentInterconnect,外设部件互连标准)总线或EISA(Extended IndustryStandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成基于集中配置的自动化容灾系统。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
从策略中心获取预先写入的容灾资源策略配置信息,根据容灾资源策略配置信息对客户端的自我健康状态进行检查;
根据客户端的自我健康状态的检查结果,对客户端的依赖资源健康状态或容灾切换存在状态进行检查;
根据依赖资源健康状态的检查结果或容灾切换存在状态的检查结果,执行容灾资源策略配置。
上述如图1以及图2所示实施例揭示的基于集中配置的自动化容灾系统的执行方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1以及图2的方法,并实现基于集中配置的自动化容灾系统在图1以及图2所示实施例的功能,本发明实施例在此不再赘述。
当然,除了软件实现方式之外,本发明的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本发明提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种基于集中配置的自动化容灾方法,其特征在于,包括:
从策略中心获取预先写入的容灾资源策略配置信息,根据所述容灾资源策略配置信息对客户端的自我健康状态进行检查;
根据所述客户端的自我健康状态的检查结果,对所述客户端的依赖资源健康状态或容灾切换存在状态进行检查;
根据所述依赖资源健康状态的检查结果或所述容灾切换存在状态的检查结果,执行所述容灾资源策略配置。
2.根据权利要求1所述的方法,其特征在于,所述从策略中心获取预先写入的容灾资源策略配置信息,根据所述容灾资源策略配置信息对客户端的自我健康状态进行检查,具体包括:
从所述策略中心获取所述容灾资源策略配置信息,按照所述容灾资源策略配置信息中配置的依赖资源的监测周期和检查方法进行客户端的自我健康状态检查。
3.根据权利要求1所述的方法,其特征在于,所述根据所述客户端的自我健康状态的检查结果,对所述客户端的依赖资源健康状态或容灾切换存在状态进行检查,具体包括:
当所述客户端的自我健康状态的检查结果为不健康时,进行依赖资源健康状态检查;
当所述客户端的自我健康状态的检查结果为健康时,进行容灾切换存在状态检查。
4.根据权利要求3所述的方法,其特征在于,所述的根据所述依赖资源健康状态的检查结果,执行所述容灾资源策略配置,具体包括:
当所述依赖资源健康状态的检查结果为健康时,判定导致所述客户端的自我健康状态的检查结果为不健康的原因为所述客户端自身原因,则进行第一节点容灾切换,所述第一节点容灾切换是指将不健康的客户端切换至其它健康的客户端,完成容灾资源策略配置;
当所述依赖资源健康状态的检查结果为不健康时,进行备用依赖资源健康状态的检查,根据所述备用依赖资源健康状态的检查结果,执行所述容灾资源策略配置。
5.根据权利要求4所述的方法,其特征在于,所述的根据所述备用依赖资源健康状态的检查结果,执行所述容灾资源策略配置,具体包括:
当所述备用依赖资源健康状态的检查结果为健康时,通过路由切换的方式将不健康的依赖资源切换至健康的备用依赖资源,完成容灾资源策略配置;
当所述备用依赖资源健康状态检查结果为不健康时,判定所述客户端没有可用的依赖资源和可用的备用依赖资源,则进行第二节点容灾切换,所述第二节点容灾切换是指将不健康的客户端切换至其它健康的客户端,完成容灾资源策略配置。
6.根据权利要求3所述的方法,其特征在于,所述的根据所述容灾切换存在状态的检查结果,执行所述容灾资源策略配置,具体包括:
当所述容灾切换存在状态的检查结果为存在时,判定已经将不健康的依赖资源切换至健康的备用依赖资源,对已切换的依赖资源的原有地址的健康状态进行检查,根据检查结果进行容灾资源策略配置;
当所述容灾切换存在状态的检查结果为不存在时,不执行容灾资源策略配置。
7.根据权利要求6所述的方法,其特征在于,所述的对已切换的依赖资源的原有地址的健康状态进行检查,根据检查结果进行容灾资源策略配置,具体包括:
当所述已切换的依赖资源的原有地址的健康状态的检查结果为健康时,自动执行容灾资源策略配置回滚,完成容灾资源策略配置;
当所述已切换的依赖资源的原有地址的健康状态的检查结果为不健康时,不执行容灾资源策略配置。
8.一种基于集中配置的自动化容灾系统,其特征在于,包括:
第一检查单元,从策略中心获取预先写入的容灾资源策略配置信息,根据所述容灾资源策略配置信息对客户端的自我健康状态进行检查;
第二检查单元,根据所述客户端的自我健康状态的检查结果,对所述客户端的依赖资源健康状态或容灾切换存在状态进行检查;
执行单元,根据所述依赖资源健康状态的检查结果或所述容灾切换存在状态的检查结果,执行所述容灾资源策略配置。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任意一项所述的一种基于集中配置的自动化容灾方法。
10.一种电子设备,其特征在于,其包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-7中任意一项所述的一种基于集中配置的自动化容灾方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110818604.7A CN113656215B (zh) | 2021-07-20 | 一种基于集中配置的自动化容灾方法、系统、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110818604.7A CN113656215B (zh) | 2021-07-20 | 一种基于集中配置的自动化容灾方法、系统、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113656215A true CN113656215A (zh) | 2021-11-16 |
CN113656215B CN113656215B (zh) | 2024-07-09 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113949631A (zh) * | 2021-11-19 | 2022-01-18 | 网宿科技股份有限公司 | 客户端容灾的处理方法、系统及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104407947A (zh) * | 2014-10-29 | 2015-03-11 | 中国建设银行股份有限公司 | 主备nas切换方法及装置 |
CN104954324A (zh) * | 2014-03-26 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 一种Session容灾方法及装置 |
US20180316705A1 (en) * | 2017-04-30 | 2018-11-01 | Splunk Inc. | User interface for defining anomaly action rules in a network security system |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104954324A (zh) * | 2014-03-26 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 一种Session容灾方法及装置 |
CN104407947A (zh) * | 2014-10-29 | 2015-03-11 | 中国建设银行股份有限公司 | 主备nas切换方法及装置 |
US20180316705A1 (en) * | 2017-04-30 | 2018-11-01 | Splunk Inc. | User interface for defining anomaly action rules in a network security system |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113949631A (zh) * | 2021-11-19 | 2022-01-18 | 网宿科技股份有限公司 | 客户端容灾的处理方法、系统及电子设备 |
CN113949631B (zh) * | 2021-11-19 | 2024-05-03 | 网宿科技股份有限公司 | 客户端容灾的处理方法、系统及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111258851B (zh) | 一种集群的告警方法、装置、设置及存储介质 | |
WO2021208184A1 (zh) | 一种节点流量的调入、恢复方法、系统及中心服务器 | |
CN109271359B (zh) | 日志信息处理方法、装置、电子设备及可读存储介质 | |
CN113656168A (zh) | 一种流量的自动容灾和调度的方法、系统、介质和设备 | |
CN113067875A (zh) | 基于微服务网关动态流控的访问方法和装置以及设备 | |
CN112241350B (zh) | 微服务评估方法、装置、计算设备及微服务检测系统 | |
CN110247977B (zh) | 一种基于边缘计算的数据融合的方法和系统 | |
CN109739527A (zh) | 一种客户端灰度发布的方法、装置、服务器和存储介质 | |
CN113497721B (zh) | 网络故障定位方法与装置 | |
CN113656215A (zh) | 一种基于集中配置的自动化容灾方法、系统、介质和设备 | |
CN113656215B (zh) | 一种基于集中配置的自动化容灾方法、系统、介质和设备 | |
CN116582415A (zh) | 一种网络设备健康度的评估方法及装置 | |
CN113064765B (zh) | 节点异常处理方法、装置、电子设备及机器可读存储介质 | |
CN113037685B (zh) | 数据传输方法和电子设备 | |
CN110837431A (zh) | 服务控制方法、装置、计算机设备及计算机可读存储介质 | |
CN112988405B (zh) | 微服务自动降级方法、装置及计算设备 | |
CN109753383B (zh) | 清分计算方法及装置 | |
CN114037539A (zh) | 一种保险出单链路异常检测方法及装置 | |
CN107919980B (zh) | 一种集群化系统的评测方法和装置 | |
CN110391952B (zh) | 一种性能分析方法、装置及其设备 | |
US20200394129A1 (en) | Self healing software utilizing regression test fingerprints | |
CN117149396B (zh) | 一种集群故障转移方法及装置、设备及存储介质 | |
CN110866225A (zh) | 风险控制方法、装置、电子设备及存储介质 | |
CN115208895B (zh) | 一种用于区块链技术的自动化组网方法及系统 | |
US20230421429A1 (en) | Techniques for monitoring node status using a throughput metric |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230506 Address after: Room 501-502, 5/F, Sina Headquarters Scientific Research Building, Block N-1 and N-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193 Applicant after: Sina Technology (China) Co.,Ltd. Address before: 100193 7th floor, scientific research building, Sina headquarters, plot n-1, n-2, Zhongguancun Software Park, Dongbei Wangxi Road, Haidian District, Beijing, 100193 Applicant before: Sina.com Technology (China) Co.,Ltd. |
|
GR01 | Patent grant |