CN110569149A - 基于故障探测触发Oracle容灾自动应急切换的方法 - Google Patents

基于故障探测触发Oracle容灾自动应急切换的方法 Download PDF

Info

Publication number
CN110569149A
CN110569149A CN201910870904.2A CN201910870904A CN110569149A CN 110569149 A CN110569149 A CN 110569149A CN 201910870904 A CN201910870904 A CN 201910870904A CN 110569149 A CN110569149 A CN 110569149A
Authority
CN
China
Prior art keywords
switching
fault
database
oracle
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910870904.2A
Other languages
English (en)
Other versions
CN110569149B (zh
Inventor
程永新
林小勇
罗智宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI NEW CENTURY NETWORK Co Ltd
Original Assignee
SHANGHAI NEW CENTURY NETWORK Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI NEW CENTURY NETWORK Co Ltd filed Critical SHANGHAI NEW CENTURY NETWORK Co Ltd
Priority to CN201910870904.2A priority Critical patent/CN110569149B/zh
Publication of CN110569149A publication Critical patent/CN110569149A/zh
Application granted granted Critical
Publication of CN110569149B publication Critical patent/CN110569149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Abstract

本发明公开了一种基于故障探测触发Oracle容灾自动应急切换的方法,包括以下步骤:S1:确定故障探测种类,制定应急切换方向,建立决策树模型;S2:对Oracle容灾架构的各节点状态进行实时故障探测,获取故障信息;S3:将故障信息经过决策树模型进行匹配,获取最终切换方案并执行;S4:验证容灾自动应急切换完成后的运行状态,确认切换结果。本发明以通用的Oracle容灾架构中常用且重要性高的应急切换操作为载体,提供安全稳定的切换方法;保障在故障发生时候按照正常流程自动完成切换流程,并反馈切换后的运行状态;故障产生时通过预定义的决策树方式层层判断,提升了判断的效率并且降低了人工判断的误差。

Description

基于故障探测触发Oracle容灾自动应急切换的方法
技术领域
本发明涉及一种数据库容灾切换方法,尤其涉及一种基于故障探测触发Oracle容灾自动应急切换的方法。
背景技术
随着信息化的进步及业务的高速发展,对应用的数据安全性及连续性要求越来越高,而Oracle数据库作为一款主流的关系数据库在大中型企业、金融机构、政府部门等诸多领域应用广泛,承载着企业底层数据的支持。所以Oracle的容灾自动应急切换直接关系到用户相关核心业务系统的数据安全及应用连续性。
针对上述问题Oracle提供了多种高可用集群的解决方案,如RAC、Data Guard、MAA等,其中RAC所有节点和部署内容均在一个机房或数据中心内,对容灾的业务需求无法完全满足;Data Guard这个方案就适合多机房的。某机房一个production的数据库,另外其他机房部署standby的数据库。Standby数据库分物理的和逻辑的。物理的standby数据库主要用于production失败后做切换。而逻辑的standby数据库则在平时可以分担production数据库的读负载。MAA其实不是独立的第三种,而是前面两种的结合,来提供最高的可用性。每个机房内部署RAC集群,多个机房间用Data Guard同步。由此可见Oracle数据库的安全性和连续性服务的保障主要在于准确判断切换条件自动通过Data Guard切换Oracle节点。
目前对于Data Guard容灾集群的切换分两种,即正常切换和应急切换,两种方式虽然应对的场景不同,但实现过程均需要人工参与,业务需要中断,无法真正保障到业务的可持续性,并且切换的条件主要依赖于人工的经验来判断,判断过程没有记录,切换的合理性无从评估,这对切换操作的必要性、数据安全性以及业务连续性都是潜在威胁。
因此,有必要通过一种决策树的方式来判断Oracle容灾切换的条件及切换的具体节点并由此触发自动切换的操作流程实现相对精准及有效的容灾自动切换。
发明内容
本发明要解决的技术问题是提供一种基于故障探测触发Oracle容灾自动应急切换的方法,实现精准及有效的容灾自动切换。
本发明为解决上述技术问题而采用的技术方案是提供一种基于故障探测触发Oracle容灾自动应急切换的方法,包括以下步骤:S1:确定故障探测种类,制定应急切换方向,建立决策树模型;S2:对Oracle容灾架构的各节点状态进行实时故障探测,获取故障信息;S3:将故障信息经过决策树模型进行匹配,获取最终切换方案并执行;S4:验证容灾自动应急切换完成后的运行状态,确认切换结果。
进一步的,所述步骤S1具体包括:S11:根据Oracle容灾架构确定故障探测种类,所述故障探测的种类包括非双活备份架构故障、单集群架构故障和异地双中心数据库故障;S12:根据故障探测种类及其应急切换操作,制定不同的故障对应触发的应急切换方向;所述非双活备份架构故障的应急操作包括:修改数据库承载业务数据读取的指向地址和存储配置的指向地址;所述单集群架构故障的应急操作包括:停止故障数据库集群节点监听,修改集群监听优先级,变更故障节点状态;所述异地双中心数据库故障的应急操作包括:停止故障数据库的中心数据库的监听服务,修改虚拟服务地址DNS映射优先级;S13:根据应急切换方向,建立决策树模型,制定故障发生后决策树的流程规则。
进一步的,所述Oracle容灾架构包括主数据库和物理备用数据库,所述主数据库连接到主服务器,所述主服务器连接有多个主机节点;所述物理备用数据库连接到备用服务器,所述备用服务器连接有多个备用机节点。
进一步的,所述主机节点进行读/写事务的处理,所述主服务器进行数据处理,所述主数据库进行数据的存储;所述主服务器重新传输数据流并重新应用到备用服务器,所述物理备用数据库存储备份数据;所述备用机节点只进行读访问。
进一步的,所述步骤S3具体包括:S31:根据故障信息进行分解,确定故障所属集群,故障所属集群中的节点:S32:配置决策树引导算法;S33:根据故障所属群集的节点信息,通过决策树引导算法逐层分析节点角色、节点数据库的版本和节点对应的实例,确认切换方向和切换脚本;S34:将确认的应急切换脚本交由自动化工具进行执行。
进一步的,所述节点角色包括备用角色和主角色,所述节点数据库的版本包括Oracle12c和Oracle11g;所述节点数据库对应多个实例时,在进行故障切换时对多个实例进行判断,确认节点对应的实例。
进一步的,所述步骤S4具体包括:容灾应急切换完成后,通过实时探测返回切换后新的主数据库和各个备用数据库状态;验证节点是否正常访问,同时查看原来备用角色的节点是否调整成主角色的节点,如果节点能正常访问,且备用角色的节点调整成主角色的节点,则切换成功;否则切换失败自动回滚到故障发生时的初始状态。
本发明对比现有技术有如下的有益效果:本发明提供的基于故障探测触发Oracle容灾自动应急切换的方法,以通用的Oracle容灾架构中常用且重要性高的应急切换操作为载体,提供安全稳定的切换方法;保障在故障发生时候按照正常流程自动完成切换流程,并反馈切换后的运行状态;故障产生时通过预定义的决策树方式层层判断,提升了判断的效率并且降低了人工判断的误差。
附图说明
图1为本发明实施例中基于故障探测触发Oracle容灾自动应急切换的方法流程图;
图2为本发明实施例中Oracle容灾框架结构示意图;
图3为本发明实施例中决策树判断流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1为本发明实施例中基于故障探测触发Oracle容灾自动应急切换的方法结构示意图。
请参见图1,本发明提供的基于故障探测触发Oracle容灾自动应急切换的方法,包括以下步骤:
S1:确定故障探测种类,制定应急切换方向,建立决策树模型;
S2:对Oracle容灾架构的各节点状态进行实时故障探测,获取故障信息;
S3:将故障信息经过决策树模型进行匹配,获取最终切换方案并执行;
S4:验证容灾自动应急切换完成后的运行状态,确认切换结果。
具体的,本发明提供的基于故障探测触发Oracle容灾自动应急切换的方法,步骤S1具体包括:
S11:根据Oracle容灾架构确定故障探测种类,所述故障探测的种类包括非双活备份架构故障、单集群架构故障和异地双中心数据库故障;
S12:根据故障探测种类及其应急切换操作,制定不同的故障对应触发的应急切换方向;所述非双活备份架构故障的应急操作包括:修改数据库承载业务数据读取的指向地址和存储配置的指向地址;所述单集群架构故障的应急操作包括:停止故障数据库集群节点监听,修改集群监听优先级,变更故障节点状态;所述异地双中心数据库故障的应急操作包括:停止故障数据库的中心数据库的监听服务,修改虚拟服务地址DNS映射优先级;
S13:根据应急切换方向,建立决策树模型,制定故障发生后决策树的流程规则。
请参见图2,本发明提供的基于故障探测触发Oracle容灾自动应急切换的方法,以Oracle 11g Data Guard版本的一个主数据库和一个备用数据库的异地容灾架构来进行说明,Oracle容灾架构包括主数据库和物理备用数据库,所述主数据库连接到主服务器,所述主服务器连接有多个主机节点;所述物理备用数据库连接到备用服务器,所述备用服务器连接有多个备用机节点。主机节点进行读/写事务的处理,所述主服务器进行数据处理,所述主数据库进行数据的存储;所述主服务器重新传输数据流并重新应用到备用服务器,所述物理备用数据库存储备份数据;所述备用机节点只进行读访问。
具体的,本发明提供的基于故障探测触发Oracle容灾自动应急切换的方法,步骤S3具体包括:
S31:根据故障信息进行分解,确定故障所属集群,故障所属集群中的节点:
S32:配置决策树引导算法;
S33:根据故障所属群集的节点信息,通过决策树引导算法逐层分析节点角色、节点数据库的版本和节点对应的实例,确认切换方向和切换脚本;节点角色包括备用角色和主角色,Oracle12c和Oracle11g;所述节点数据库对应多个实例时,在进行故障切换时对多个实例进行判断,确认节点对应的实例。数据库的版本不同,承载的业务所执行的指向配置命令不同。
S34:将确认的应急切换脚本交由自动化工具进行执行。
如图3所示,根据整理的故障数据,首先判断故障所在节点角色是备用节点还是主节点,然后判断节点所在数据库的版本,再进行具体节点判断,然后判断具体节点故障类型确认切换操作并执行。
容灾应急切换完成后,通过实时探测返回切换后新的主数据库和各个备用数据库状态;验证节点是否正常访问,同时查看原来备用角色的节点是否调整成主角色的节点,如果节点能正常访问,且备用角色的节点调整成主角色的节点,则切换成功;否则切换失败自动回滚到故障发生时的初始状态。
综上所述,本发明提供的基于故障探测触发Oracle容灾自动应急切换的方法,以通用的Oracle容灾架构中常用且重要性高的应急切换操作为载体,提供安全稳定的切换方法;保障在故障发生时候按照正常流程自动完成切换流程,并反馈切换后的运行状态;故障产生时通过预定义的决策树方式层层判断,提升了判断的效率并且降低了人工判断的误差。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。

Claims (7)

1.一种基于故障探测触发Oracle容灾自动应急切换的方法,其特征在于,包括以下步骤:
S1:确定故障探测种类,制定应急切换方向,建立决策树模型;
S2:对Oracle容灾架构的各节点状态进行实时故障探测,获取故障信息;
S3:将故障信息经过决策树模型进行匹配,获取最终切换方案并执行;
S4:验证容灾自动应急切换完成后的运行状态,确认切换结果。
2.如权利要求1所述的基于故障探测触发Oracle容灾自动应急切换的方法,其特征在于,所述步骤S1具体包括:
S11:根据Oracle容灾架构确定故障探测种类,所述故障探测的种类包括非双活备份架构故障、单集群架构故障和异地双中心数据库故障;
S12:根据故障探测种类及其应急切换操作,制定不同的故障对应触发的应急切换方向;所述非双活备份架构故障的应急操作包括:修改数据库承载业务数据读取的指向地址和存储配置的指向地址;所述单集群架构故障的应急操作包括:停止故障数据库集群节点监听,修改集群监听优先级,变更故障节点状态;所述异地双中心数据库故障的应急操作包括:停止故障数据库的中心数据库的监听服务,修改虚拟服务地址DNS映射优先级;
S13:根据应急切换方向,建立决策树模型,制定故障发生后决策树的流程规则。
3.如权利要求2所述的基于故障探测触发Oracle容灾自动应急切换的方法,其特征在于,所述Oracle容灾架构包括主数据库和物理备用数据库,所述主数据库连接到主服务器,所述主服务器连接有多个主机节点;所述物理备用数据库连接到备用服务器,所述备用服务器连接有多个备用机节点。
4.如权利要求3所述的基于故障探测触发Oracle容灾自动应急切换的方法,其特征在于,所述主机节点进行读/写事务的处理,所述主服务器进行数据处理,所述主数据库进行数据的存储;所述主服务器重新传输数据流并重新应用到备用服务器,所述物理备用数据库存储备份数据;所述备用机节点只进行读访问。
5.如权利要求1所述的基于故障探测触发Oracle容灾自动应急切换的方法,其特征在于,所述步骤S3具体包括:
S31:根据故障信息进行分解,确定故障所属集群,故障所属集群中的节点:
S32:配置决策树引导算法;
S33:根据故障所属群集的节点信息,通过决策树引导算法逐层分析节点角色、节点数据库的版本和节点对应的实例,确认切换方向和切换脚本;
S34:将确认的应急切换脚本交由自动化工具进行执行。
6.如权利要求5所述的基于故障探测触发Oracle容灾自动应急切换的方法,其特征在于,所述节点角色包括备用角色和主角色,所述节点数据库的版本包括Oracle12c和Oracle11g;所述节点数据库对应多个实例时,在进行故障切换时对多个实例进行判断,确认节点对应的实例。
7.如权利要求6所述的基于故障探测触发Oracle容灾自动应急切换的方法,其特征在于,所述步骤S4具体包括:容灾应急切换完成后,通过实时探测返回切换后新的主数据库和各个备用数据库状态,验证节点是否正常访问,同时查看原来备用角色的节点是否调整成主角色的节点,如果节点能正常访问,且备用角色的节点调整成主角色的节点,则切换成功;否则切换失败自动回滚到故障发生时的初始状态。
CN201910870904.2A 2019-09-16 2019-09-16 基于故障探测触发Oracle容灾自动应急切换的方法 Active CN110569149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910870904.2A CN110569149B (zh) 2019-09-16 2019-09-16 基于故障探测触发Oracle容灾自动应急切换的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910870904.2A CN110569149B (zh) 2019-09-16 2019-09-16 基于故障探测触发Oracle容灾自动应急切换的方法

Publications (2)

Publication Number Publication Date
CN110569149A true CN110569149A (zh) 2019-12-13
CN110569149B CN110569149B (zh) 2023-07-25

Family

ID=68780401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910870904.2A Active CN110569149B (zh) 2019-09-16 2019-09-16 基于故障探测触发Oracle容灾自动应急切换的方法

Country Status (1)

Country Link
CN (1) CN110569149B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309128A (zh) * 2019-07-05 2019-10-08 广东铭太信息科技有限公司 Oracle备份文件自动导入装置及其实现方法、利用该装置进行备份文件导入的方法
CN112463440A (zh) * 2020-11-13 2021-03-09 中国建设银行股份有限公司 容灾切换方法、系统、存储介质及计算机设备
CN113515349A (zh) * 2021-07-28 2021-10-19 中国工商银行股份有限公司 一种高性能应急回切方法及装置
CN113595760A (zh) * 2021-06-23 2021-11-02 阿里巴巴新加坡控股有限公司 一种系统故障的处理方法和装置
CN114827080A (zh) * 2022-06-06 2022-07-29 武汉四通信息服务有限公司 Ip切换方法、系统
CN115794769A (zh) * 2022-10-09 2023-03-14 云和恩墨(北京)信息技术有限公司 高可用数据库管理的方法、电子设备及存储介质
WO2023093379A1 (zh) * 2021-11-26 2023-06-01 中兴通讯股份有限公司 容灾倒换方法、系统、电子设备和存储介质
CN116208472A (zh) * 2023-02-28 2023-06-02 中国工商银行股份有限公司 站点切换方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN105574590A (zh) * 2015-12-28 2016-05-11 中国民航信息网络股份有限公司 自适应总控灾备切换装置、系统及信号发生方法
WO2017220033A1 (zh) * 2016-06-24 2017-12-28 平安科技(深圳)有限公司 服务器集群及适用于该集群的数据库资源组切换控制方法
CN108153603A (zh) * 2017-12-08 2018-06-12 上海陆家嘴国际金融资产交易市场股份有限公司 数据库服务器故障处理方法、装置和存储介质
CN109828863A (zh) * 2019-01-10 2019-05-31 网联清算有限公司 数据容灾方法、装置、存储介质及计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN105574590A (zh) * 2015-12-28 2016-05-11 中国民航信息网络股份有限公司 自适应总控灾备切换装置、系统及信号发生方法
WO2017220033A1 (zh) * 2016-06-24 2017-12-28 平安科技(深圳)有限公司 服务器集群及适用于该集群的数据库资源组切换控制方法
CN108153603A (zh) * 2017-12-08 2018-06-12 上海陆家嘴国际金融资产交易市场股份有限公司 数据库服务器故障处理方法、装置和存储介质
CN109828863A (zh) * 2019-01-10 2019-05-31 网联清算有限公司 数据容灾方法、装置、存储介质及计算机设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309128A (zh) * 2019-07-05 2019-10-08 广东铭太信息科技有限公司 Oracle备份文件自动导入装置及其实现方法、利用该装置进行备份文件导入的方法
CN110309128B (zh) * 2019-07-05 2020-07-17 广东铭太信息科技有限公司 Oracle备份文件自动导入装置及其实现方法、利用该装置进行备份文件导入的方法
CN112463440A (zh) * 2020-11-13 2021-03-09 中国建设银行股份有限公司 容灾切换方法、系统、存储介质及计算机设备
CN113595760A (zh) * 2021-06-23 2021-11-02 阿里巴巴新加坡控股有限公司 一种系统故障的处理方法和装置
CN113595760B (zh) * 2021-06-23 2023-05-16 阿里巴巴新加坡控股有限公司 一种系统故障的处理方法和装置
CN113515349A (zh) * 2021-07-28 2021-10-19 中国工商银行股份有限公司 一种高性能应急回切方法及装置
WO2023093379A1 (zh) * 2021-11-26 2023-06-01 中兴通讯股份有限公司 容灾倒换方法、系统、电子设备和存储介质
CN114827080A (zh) * 2022-06-06 2022-07-29 武汉四通信息服务有限公司 Ip切换方法、系统
CN114827080B (zh) * 2022-06-06 2022-09-23 武汉四通信息服务有限公司 Ip切换方法、系统
CN115794769A (zh) * 2022-10-09 2023-03-14 云和恩墨(北京)信息技术有限公司 高可用数据库管理的方法、电子设备及存储介质
CN115794769B (zh) * 2022-10-09 2024-03-19 云和恩墨(北京)信息技术有限公司 高可用数据库管理的方法、电子设备及存储介质
CN116208472A (zh) * 2023-02-28 2023-06-02 中国工商银行股份有限公司 站点切换方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110569149B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN110569149A (zh) 基于故障探测触发Oracle容灾自动应急切换的方法
EP2281240B1 (en) Maintaining data integrity in data servers across data centers
US7536586B2 (en) System and method for the management of failure recovery in multiple-node shared-storage environments
CN103647834B (zh) 一种用于处理多阶段分布式任务调度的系统及方法
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
CN103559245A (zh) 一种分布式事务提交故障的处理方法、装置和系统
CN103226598B (zh) 访问数据库的方法和装置以及数据库管理系统
CN103995868B (zh) 面向分布式系统的全局事务管理器及事务处理方法
CN106598490A (zh) 区块链数据的访问方法和区块链管理系统
CN103782573A (zh) 对客户端和应用掩盖服务器停运
CN103593266A (zh) 一种基于仲裁盘机制的双机热备方法
US7730029B2 (en) System and method of fault tolerant reconciliation for control card redundancy
CN103885854A (zh) 一种数据备份方法、装置及系统
CN105930226B (zh) 一种数据处理方法及装置
CN113515499A (zh) 一种数据库服务方法及系统
CN104462497A (zh) 基于关系型数据库的跨库事务处理方法和系统
Padhye et al. Scalable transaction management with snapshot isolation for NoSQL data storage systems
CN109298976B (zh) 一种异构数据库集群备份系统及方法
CN106331166A (zh) 一种存储资源的访问方法及装置
CN112181723A (zh) 一种金融灾备方法、装置、存储介质及电子设备
CN105938446B (zh) 基于rdma和硬件事务性内存支持的数据复制容错方法
CN103297264A (zh) 一种云平台故障恢复方法和系统
US10728326B2 (en) Method and system for high availability topology for master-slave data systems with low write traffic
CN102339305B (zh) 基于偏序关系日志的数据库集群故障恢复方法
CN107229539A (zh) 一种用于磁盘镜像高可用集群diskless的处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant