CN117130813A - 一种数据库故障自愈修复方法、装置、设备及介质 - Google Patents

一种数据库故障自愈修复方法、装置、设备及介质 Download PDF

Info

Publication number
CN117130813A
CN117130813A CN202311085412.5A CN202311085412A CN117130813A CN 117130813 A CN117130813 A CN 117130813A CN 202311085412 A CN202311085412 A CN 202311085412A CN 117130813 A CN117130813 A CN 117130813A
Authority
CN
China
Prior art keywords
self
database
healing
performance index
emergency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311085412.5A
Other languages
English (en)
Inventor
何广辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An E Wallet Electronic Commerce Co Ltd
Original Assignee
Ping An E Wallet Electronic Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An E Wallet Electronic Commerce Co Ltd filed Critical Ping An E Wallet Electronic Commerce Co Ltd
Priority to CN202311085412.5A priority Critical patent/CN117130813A/zh
Publication of CN117130813A publication Critical patent/CN117130813A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及数据库运维技术领域,公开了一种数据库故障自愈修复方法、装置、计算机设备及介质,所述方法包括:获取数据库的当前性能指标参数;将所述当前性能指标参数与预设异常区间进行比较,以确定所述当前性能指标参数中的异常性能指标参数;基于异常性能指标参数以及预先建立的关联关系列表确定一个或多个应急场景;根据所述应急场景从自愈工具集中调用与应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复;通过引入该数据库故障自愈修复方法,使数据库在出现应急场景时得到了处理或者得到了延缓,为数据库运维人员提供更充裕的时间上线进行人工处理。

Description

一种数据库故障自愈修复方法、装置、设备及介质
技术领域
本发明涉及数据库运维技术领域,尤其涉及一种数据库故障自愈修复方法、装置、设备及介质。
背景技术
随着数据库的规模的增长,主流的数据库应急场景处理基本都是报警系统通知数据库运维人员,再通过数据库运维人员上线处理。这样的运维方式太消耗人力,且中间人工上线的链条时间太长,已经错过了最佳的处理时间,对整体服务产生了影响。
发明内容
本发明提供一种数据库故障自愈修复方法、装置、计算机设备及介质,以解决现有技术中通过人工对数据库的故障进行修复而导致的修复时间长的问题。
第一方面,提供了一种数据库故障自愈修复方法,所述方法包括:
获取数据库的当前性能指标参数;
将所述当前性能指标参数与预设异常区间进行比较,以确定所述当前性能指标参数中的异常性能指标参数;
基于异常性能指标参数以及预先建立的关联关系列表确定一个或多个应急场景,其中,所述关联关系列表表示异常性能指标参数与应急场景的关系,每一个应急场景对应多个异常性能指标参数;
根据所述应急场景从自愈工具集中调用与应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复,其中,所述自愈工具集部署在数据库中,且包含至少一种自愈服务。
于本发明一实施例中,在确定所述应急场景后,所述方法还包括:
判断所述应急场景是否满足自愈修复条件;
若所述应急场景满足自愈修复条件,则根据所述应急场景调用与所述应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复。
于本发明一实施例中,在所述数据库在出现故障而通过自愈服务完成自愈修复后,所述方法还包括:
获取验证信息;
根据所述验证信息对完成自愈修复的修复结果进行验证,得到验证结果;
在所述验证结果满足预设修复成功条件时,确定对数据库的修复成功;
在所述验证结果不满足预设修复成功条件时,确定对数据库的修复失败,并调用预先建立的与应急场景相对应的应急处置策略对数据库的故障进行处置。
于本发明一实施例中,在获取数据库的当前性能指标参数的步骤前,所述方法还包括:
设置异常检测线程和自愈修复线程;所述异常检测线程用于对所述当前性能指标数据进行筛选以确定异常性能指标参数,所述自愈修复线程用于运行自愈服务以完成数据库的自愈修复。
于本发明一实施例中,若根据预先建立的关联关系列表确定的应急场景包括多个,则在对多个应急场景进行修复时,按照所述应急场景的优先级大小先后调用自愈服务,直至数据库自愈修复成功。
于本发明一实施例中,所述获取数据库的性能指标参数,包括:
通过实时采集的方式或以设定时间间隔获取所述数据库的当前性能指标参数。
于本发明一实施例中,所述确定所述当前性能指标参数中的异常性能指标参数,包括:
将位于预设异常区间内的当前性能指标参数作为异常性能指标参数。
第二方面,提供了一种数据库故障自愈修复装置,所述装置包括:
参数获取模块,用于获取数据库的当前性能指标参数;
比较模块,用于将所述当前性能指标参数与预设异常区间进行比较,以确定所述当前性能指标参数中的异常性能指标参数;
应急场景确定模块,用于基于异常性能指标参数以及预先建立的关联关系列表确定一个或多个应急场景;其中,所述关联关系列表表示异常性能指标参数与应急场景的关系,每一个应急场景对应多个异常性能指标参数;
自愈修复模块,用于根据所述应急场景从自愈工具集中调用与应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复,其中,所述自愈工具集部署在数据库中,且包含至少一种自愈服务。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述数据库故障自愈修复方法的步骤。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述数据库故障自愈修复方法的步骤。
上述的数据库故障自愈修复方法、装置、计算机设备及存储介质,所实现的方案中,可以先获取数据库的当前性能指标参数;将所述当前性能指标参数与预设异常区间进行比较,以确定所述当前性能指标参数中的异常性能指标参数;基于异常性能指标参数以及预先建立的关联关系列表确定一个或多个应急场景,其中,所述关联关系列表表示异常性能指标参数与应急场景的关系,每一个应急场景对应多个异常性能指标参数;根据所述应急场景从自愈工具集中调用与应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复,其中,所述自愈工具集部署在数据库中,且包含至少一种自愈服务;本发明可以通过实时从数据库中获取数据库的性能指标参数,并判断出现异常的异性能指标参数以及对应异常性能指标参数的应急场景,再针对性地获取与应急场景相关的自愈服务,最终完成异常修复,可见,通过引入该数据库故障自愈修复方法,使数据库在出现应急场景时得到了处理或者得到了延缓;同时也将自愈服务集成到了工具集中,避免因冗长的命令导致的运维故障或效率问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一示例性实施例示出的一种数据库故障自愈修复方法的一应用环境示意图;
图2为本申请一示例性实施例示出的一种数据库故障自愈修复方法的流程示意图;
图3为本申请一示例性实施例示出的一种数据库故障自愈修复方法的流程图;
图4为本申请一示例性实施例示出的一种数据库故障自愈修复装置的一结构示意图;
图5为本申请一示例性实施例示出的计算机设备的一结构示意图;
图6为本申请一示例性实施例示出的计算机设备的另一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的一种数据库故障自愈修复方法,可应用在如图1的应用环境中,其中,客户端通过有线网络或无线网络与服务端进行通信。应该理解,图1中的客户端和服务端的数目仅仅是示意性的。根据实际需要,可以具有任意数目的客户端和服务端。在本发明中,服务端可以先获取数据库的当前性能指标参数;将所述当前性能指标参数与预设异常区间进行比较,以确定所述当前性能指标参数中的异常性能指标参数;基于异常性能指标参数以及预先建立的关联关系列表确定一个或多个应急场景,其中,所述关联关系列表表示异常性能指标参数与应急场景的关系,每一个应急场景对应多个异常性能指标参数;根据所述应急场景从自愈工具集中调用与应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复,其中,所述自愈工具集部署在数据库中,且包含至少一种自愈服务;本发明可以通过实时从数据库中获取数据库的性能指标参数,并判断出现异常的异性能指标参数以及对应异常性能指标参数的应急场景,再针对性地获取与应急场景相关的自愈服务,最终完成异常修复,可见,通过引入该数据库故障自愈修复方法,使数据库在出现应急场景时得到了处理或者得到了延缓;同时也将自愈服务集成到了工具集中,避免因冗长的命令导致的运维故障或效率问题。
其中,客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群,可以是提供各种服务的服务器,其可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器,本处不对此进行限制。下面通过具体的实施例对本发明进行详细的描述。
本申请的实施例分别提出一种数据库故障自愈修复方法、一种数据库故障自愈修复装置、一种计算机设备、一种计算机可读存储介质,以下将对这些实施例进行详细描述。
请参阅图2,图2是本申请的一示例性实施例示出的一种数据库故障自愈修复方法的流程图。该方法可以应用于图1所示的实施环境,并由该实施环境中的服务端具体执行。应理解的是,该方法也可以适用于其它的示例性实施环境,并由其它实施环境中的设备具体执行,本实施例不对该方法所适用的实施环境进行限制。
请参阅图2,图2为本申请一示例性的一种数据库故障自愈修复方法的流程图,该体检档案存储方法至少包括步骤S210至步骤S240,详细介绍如下:
步骤S210,获取数据库的当前性能指标参数;
数据库指的是目标服务器上配置的数据库,目标服务器可以是监控服务器需要监测的服务器,其中,监测服务器是可执行数据库告警方法的第三方服务器,用于监测目标服务器的运行状态;目标服务器也可以是执行数据库告警方法的服务器。数据库包括但不限于MySQL(关系型数据库)、Oracle(一个面向Internet计算环境的关系型数据库)、SqlServer(具备完全web支持的数据库系统)
性能指标参数指的是目标服务器中操作系统和数据库的运行指标参数,获取数据库的当前性能指标参数,可以理解为,通过监控服务器获取目标服务器中数据库的当前性能指标参数。
在一实施例中,所述获取数据库的性能指标参数,包括:
通过实时采集的方式或以设定时间间隔获取所述数据库的当前性能指标参数。
可理解地,设定时间间隔可以根据需求设定,比如设定时间间隔为2分钟。需要说明的是,设定时间间隔可以根据实际需求进行设定。
本发明通过实时或者定时接收所述性能指标参数性,满足获取所述性能指标参数的多样性。
步骤S220,将所述当前性能指标参数与预设异常区间进行比较,以确定所述当前性能指标参数中的异常性能指标参数;
在获取到当前性能指标参数后,目标服务器通过执行相应的数据筛选方法对当前性能指标参数进行筛选来获取数据库的异常性能指标参数;异常性能指标参数可以是监测的性能指标参数中存在异常的指标参数。
在一实施例中,所述确定所述当前性能指标参数中的异常性能指标参数,包括:
将位于预设异常区间内的当前性能指标参数作为异常性能指标参数。
以MySQL数据库为例,假如在正常情况下,每秒传输的事务处理个数为30个,预设异常区间为10~20个,那么若在当前时刻下,每秒传输的事务处理个数为15,则落入到预设异常区间10~20中,则此时的TPS为异常性能指标参数,基于当前的TPS可以认为MySQL数据库发生异常。
同样的,采用类似的比较方法,可以从所有当前性能指标参数中筛选出异常性能指标参数。
在一实施例中,在获取数据库的性能指标参数的步骤前,所述方法还包括:
设置异常检测线程和自愈修复线程;所述异常检测线程用于对所述当前性能指标数据进行筛选以确定异常性能指标参数,所述自愈修复线程用于运行自愈服务以完成数据库的自愈修复。
具体地,可以在数据库所在的服务器上设置一个异常检测线程和一个自愈修复线程,异常检测线程和自愈修复线程可以并行的执行,也可以串行的执行。需要说明的是,从对数据的处理效率来说,异常检测线程和自愈修复线程并行执行效率高于异常检测线程和自愈修复线程的串行执行,本领域技术人员可以根据实际需求进行相应的选择。但一般来说,为了提高对数据的处理效率,本实施例中选择并行执行异常检测线程和自愈修复线程。
步骤S230,基于异常性能指标参数以及预先建立的关联关系列表确定一个或多个应急场景,其中,所述关联关系列表表示异常性能指标参数与应急场景的关系,每一个应急场景对应多个异常性能指标参数;
关联关系列表是预先建立的,在该表中预先标定性能指标参数与应急场景的对应关系,这些对应关系可以专家团队进行定制。
表1关联关系表
假如,服务器在确定出异常性能指标参数a、a1、a2时,那么可以通过表1查找到对应应急场景a;若服务器在确定出异常性能指标参数b、b1、b2时,那么可以通过表1查找到对应应急场景b。
在一实施例中,在确定所述应急场景后,所述方法还包括:
判断所述应急场景是否满足自愈修复条件;
若所述应急场景满足自愈修复条件,则根据所述应急场景调用与所述应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复。
确定应急场景后,可不立刻针对应急场景进行后续处理,而是可先确定应急场景对应的类型是否为需要处理的应急场景,这是因为应急场景可能包括多种类型,根据实际需求,有的应急场景需要处理,而有的则可能不需要处理,对于需要处理的应急场景,可根据所述应急场景从自愈工具集中调用与应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复。
步骤S240,根据所述应急场景从自愈工具集中调用与应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复,其中,所述自愈工具集部署在数据库中,且包含至少一种自愈服务。
需要说明的是,在自愈工具集中,预先存储若干种自愈服务,每一种自愈服务都是根据应急场景下的人工处理动作,整个处愈工具集可以认为是一个自愈服务的集合。
若多个异常性能指标对应一个应急场景,如表1所示,假如,服务器在确定出异常性能指标参数a、a1、a2时,那么可以通过表1查找到对应应急场景a,相对应的自愈服务为自愈服务a;若服务器在确定出异常性能指标参数b、b1、b2时,那么可以通过表1查找到对应应急场景b,相对应的自愈服务为自愈服务b。
在一实施例中,若根据预先建立的关联关系列表确定的应急场景包括多个,则在对多个应急场景进行修复时,按照所述应急场景的优先级大小先后调用自愈服务,直至数据库自愈修复成功。
表2关联关系表
请参阅表2,比如,异常检测线程检测到异常性能指标参数a、a1、a2,通过表2可以查询到异常性能指标参数a、a1、a2对应应急场景a和应急场景b,那么此时可以根据应急场景的优先级调用相应的自愈服务,其中的优先级可以按一定的规则预先定义。具体地,若应急场景a的优先级高于应急场景b的优先级,则在对数据库进行修复时,首先调用自愈服务a对数据库进行修复,若利用修复成功则结束修复流程,若自愈服务a不能修复数据库,则调用自愈服务b对数据库进行修复。
请参阅图3,图3为本申请一示例性实施例示出的一种数据库故障自愈修复方法的流程图。如图3所示,在所述数据库在出现故障而通过自愈服务完成自愈修复后,所述方法还包括:
步骤S310,获取验证信息;
步骤S320,根据所述验证信息对完成自愈修复的修复结果进行验证,得到验证结果;
步骤S330,在所述验证结果满足预设修复成功条件时,确定对数据库的修复成功;
步骤S340,在所述验证结果不满足预设修复成功条件时,确定对数据库的修复失败,并调用预先建立的与应急场景相对应的应急处置策略对数据库的故障进行处置。
可以理解地,在数据库完成自愈修复后,根据验证信息对修复结果进行验证,得到验证结果;若验证结果表征修复成功时,则确定验证结果表征修复成功,进而确定数据库自愈修复完成。例如应急场景为CPU占用率升高至80%时,若修复结果为自愈修复后的CPU占用率为23%,而验证信息为CPU占用率小于30%,则修复成功。若自愈修复失败,则调用预先建立的与应急场景相对应的应急处置策略对数据库的故障进行处置。例如,在触发应急场景的一瞬间执行相应的自愈服务处理问题,若自愈修复失败,则可以先进行资源释放,降低服务影响,为数据库运维人员赢得更多的处理时间。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
可见,在上述方案中,通过获取数据库的当前性能指标参数;将所述当前性能指标参数与预设异常区间进行比较,以确定所述当前性能指标参数中的异常性能指标参数;基于异常性能指标参数以及预先建立的关联关系列表确定一个或多个应急场景,其中,所述关联关系列表表示异常性能指标参数与应急场景的关系,每一个应急场景对应多个异常性能指标参数;根据所述应急场景从自愈工具集中调用与应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复,其中,所述自愈工具集部署在数据库中,且包含至少一种自愈服务;本发明可以通过实时从数据库中获取数据库的性能指标参数,并判断出现异常的异性能指标参数以及对应异常性能指标参数的应急场景,再针对性地获取与应急场景相关的自愈服务,最终完成异常修复,可见,通过引入该数据库故障自愈修复方法,使数据库在出现应急场景时得到了处理或者得到了延缓;同时也将自愈服务集成到了工具集中,避免因冗长的命令导致的运维故障或效率问题。
在一实施例中,提供一种数据库故障自愈修复装置,该数据库故障自愈修复装置与上述实施例中数据库故障自愈修复方法一一对应。如图4所示,该数据库故障自愈修复装置包括:参数获取模块410、比较模块420、应急场景确定模块430、自愈修复模块440。各功能模块详细说明如下:
参数获取模块410,用于获取数据库的当前性能指标参数;
比较模块420,用于将所述当前性能指标参数与预设异常区间进行比较,以确定所述当前性能指标参数中的异常性能指标参数;
应急场景确定模块430,用于基于异常性能指标参数以及预先建立的关联关系列表确定一个或多个应急场景;其中,所述关联关系列表表示异常性能指标参数与应急场景的关系,每一个应急场景对应多个异常性能指标参数;
自愈修复模块440,用于根据所述应急场景从自愈工具集中调用与应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复,其中,所述自愈工具集部署在数据库中,且包含至少一种自愈服务。
在一实施例中,所述预设异常判断规则包括多个预设异常区间,所述比较模块用于将位于预设异常区间内的当前性能指标参数作为异常性能指标参数。
在一实施例中,所述装置还包括判断模块,用于在确定所述应急场景后,判断所述应急场景是否满足自愈修复条件;若所述应急场景满足自愈修复条件,则根据所述应急场景调用与所述应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复。
在一实施例中,所述参数获取模块通过实时采集的方式或以设定时间间隔获取所述数据库的当前性能指标参数。
在一实施例中,所述装置还包括:验证模块,用于获取验证信息;根据所述验证信息对完成自愈修复的修复结果进行验证,得到验证结果;在所述验证结果满足预设修复成功条件时,确定对数据库的修复成功;在所述验证结果不满足预设修复成功条件时,确定对数据库的修复失败,并调用预先建立的与应急场景相对应的应急处置策略对数据库的故障进行处置。
在一实施例中,所述装置还包括线程设置模块,用于在获取数据库的当前性能指标参数的步骤前,设置异常检测线程和自愈修复线程;所述异常检测线程用于对所述当前性能指标数据进行筛选以确定异常性能指标参数,所述自愈修复线程用于运行自愈服务以完成数据库的自愈修复。
在一实施例中,若根据预先建立的关联关系列表确定的应急场景包括多个,则在对多个应急场景进行修复时,按照所述应急场景的优先级大小先后调用自愈服务,直至数据库自愈修复成功;若一个应急场景对应多个自愈服务,则按照自愈服务的优先级大小先后调用多个自愈服务,直至数据库自愈修复成功。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据库故障自愈修复方法服务端侧的功能或步骤。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种数据库故障自愈修复方法客户端侧的功能或步骤。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取数据库的当前性能指标参数;
将所述当前性能指标参数与预设异常区间进行比较,以确定所述当前性能指标参数中的异常性能指标参数;
基于异常性能指标参数以及预先建立的关联关系列表确定一个或多个应急场景,其中,所述关联关系列表表示异常性能指标参数与应急场景的关系,每一个应急场景对应多个异常性能指标参数;
根据所述应急场景从自愈工具集中调用与应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复,其中,所述自愈工具集部署在数据库中,且包含至少一种自愈服务。
于本发明一实施例中,所述确定所述当前性能指标参数是否为异常性能指标参数,包括:
将位于预设异常区间内的当前性能指标参数作为异常性能指标参数。
于本发明一实施例中,在确定所述应急场景后,所述方法还包括:
判断所述应急场景是否满足自愈修复条件;
若所述应急场景满足自愈修复条件,则根据所述应急场景调用与所述应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复。
于本发明一实施例中,所述获取数据库的性能指标参数,包括:
通过实时采集的方式或以设定时间间隔获取所述数据库的当前性能指标参数。
于本发明一实施例中,在所述数据库在出现故障而通过自愈服务完成自愈修复后,所述方法还包括:
获取验证信息;
根据所述验证信息对完成自愈修复的修复结果进行验证,得到验证结果;
在所述验证结果满足预设修复成功条件时,确定对数据库的修复成功;
在所述验证结果不满足预设修复成功条件时,确定对数据库的修复失败,并调用预先建立的与应急场景相对应的应急处置策略对数据库的故障进行处置。
于本发明一实施例中,在获取数据库的当前性能指标参数的步骤前,所述方法还包括:
设置异常检测线程和自愈修复线程;所述异常检测线程用于对所述当前性能指标数据进行筛选以确定异常性能指标参数,所述自愈修复线程用于运行自愈服务以完成数据库的自愈修复。
于本发明一实施例中,若根据预先建立的关联关系列表确定的应急场景包括多个,则在对多个应急场景进行修复时,按照所述应急场景的优先级大小先后调用自愈服务,直至数据库自愈修复成功。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取数据库的当前性能指标参数;
将所述当前性能指标参数与预设异常判断规则进行比较,以确定所述当前性能指标参数是否为异常性能指标参数;
在所述当前性能指标参数为异常性能指标参数时,基于异常性能指标参数以及预先建立的关联关系列表确定应急场景,其中,所述关联关系列表表示异常性能指标参数与应急场景的关系;
根据所述应急场景从自愈工具集中调用与应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复,其中,所述自愈工具集部署在数据库中,且包含至少一种自愈服务。
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中,服务端侧的相关描述,为避免重复,这里不再一一描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据库故障自愈修复方法,其特征在于,所述方法包括:
获取数据库的当前性能指标参数;
将所述当前性能指标参数与预设异常区间进行比较,以确定所述当前性能指标参数中的异常性能指标参数;
基于异常性能指标参数以及预先建立的关联关系列表确定一个或多个应急场景,其中,所述关联关系列表表示异常性能指标参数与应急场景的关系,每一个应急场景对应多个异常性能指标参数;
根据所述应急场景从自愈工具集中调用与应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复,其中,所述自愈工具集部署在数据库中,且包含至少一种自愈服务。
2.根据权利要求1所述的数据库故障自愈修复方法,其特征在于,在确定所述应急场景后,所述方法还包括:
判断所述应急场景是否满足自愈修复条件;
若所述应急场景满足自愈修复条件,则根据所述应急场景调用与所述应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复。
3.根据权利要求1所述的数据库故障自愈修复方法,其特征在于,在所述数据库在出现故障而通过自愈服务完成自愈修复后,所述方法还包括:
获取验证信息;
根据所述验证信息对完成自愈修复的修复结果进行验证,得到验证结果;
在所述验证结果满足预设修复成功条件时,确定对数据库的修复成功;
在所述验证结果不满足预设修复成功条件时,确定对数据库的修复失败,并调用预先建立的与应急场景相对应的应急处置策略对数据库的故障进行处置。
4.根据权利要求1所述的数据库故障自愈修复方法,其特征在于,在获取数据库的当前性能指标参数的步骤前,所述方法还包括:
设置异常检测线程和自愈修复线程;所述异常检测线程用于对所述当前性能指标数据进行筛选以确定异常性能指标参数,所述自愈修复线程用于运行自愈服务以完成数据库的自愈修复。
5.根据权利要求1所述的数据库故障自愈修复方法,其特征在于,若根据预先建立的关联关系列表确定的应急场景包括多个,则在对多个应急场景进行修复时,按照所述应急场景的优先级大小先后调用自愈服务,直至数据库自愈修复成功。
6.根据权利要求1所述的数据库故障自愈修复方法,其特征在于,所述获取数据库的性能指标参数,包括:
通过实时采集的方式或以设定时间间隔获取所述数据库的当前性能指标参数。
7.根据权利要求1所述的数据库故障自愈修复方法,其特征在于,所述确定所述当前性能指标参数中的异常性能指标参数,包括:
将位于预设异常区间内的当前性能指标参数作为异常性能指标参数。
8.一种数据库故障自愈修复装置,其特征在于,所述装置包括:
参数获取模块,用于获取数据库的当前性能指标参数;
比较模块,用于将所述当前性能指标参数与预设异常判断规则进行比较,以确定所述当前性能指标参数中的异常性能指标参数;
应急场景确定模块,用于基于异常性能指标参数以及预先建立的关联关系列表确定一个或多个应急场景,其中,所述关联关系列表表示异常性能指标参数与应急场景的关系,每一个应急场景对应多个异常性能指标参数;
自愈修复模块,用于根据所述应急场景从自愈工具集中调用与应急场景对应的自愈服务以使数据库在出现故障时完成自愈修复,其中,所述自愈工具集部署在数据库中,且包含至少一种自愈服务。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的数据库故障自愈修复方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据库故障自愈修复方法的步骤。
CN202311085412.5A 2023-08-25 2023-08-25 一种数据库故障自愈修复方法、装置、设备及介质 Pending CN117130813A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311085412.5A CN117130813A (zh) 2023-08-25 2023-08-25 一种数据库故障自愈修复方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311085412.5A CN117130813A (zh) 2023-08-25 2023-08-25 一种数据库故障自愈修复方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN117130813A true CN117130813A (zh) 2023-11-28

Family

ID=88850265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311085412.5A Pending CN117130813A (zh) 2023-08-25 2023-08-25 一种数据库故障自愈修复方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117130813A (zh)

Similar Documents

Publication Publication Date Title
CN110990183B (zh) 数据库集群的异常检测方法、装置、计算机可读存储介质
CN106936622A (zh) 一种分布式存储系统升级方法和装置
CN111355610A (zh) 一种基于边缘网络的异常处理方法及装置
CN110618890B (zh) 故障处理方法、装置、电子设备及计算机可读存储介质
CN111416836B (zh) 基于Nginx的服务器维护方法、装置、计算机设备及存储介质
CN115994044B (zh) 基于监控服务的数据库故障处理方法、装置及分布式集群
CN113220540A (zh) 业务管理方法、装置、计算机设备和存储介质
CN110291505A (zh) 减少应用的恢复时间
CN111770022A (zh) 基于链路监控的扩容方法、系统、设备及计算机存储介质
CN114528350A (zh) 集群脑裂的处理方法、装置、设备及可读存储介质
CN111198921A (zh) 数据库的切换方法、装置、计算机设备和存储介质
CN108255703B (zh) 一种sql脚本的故障修复方法及其终端
CN112436962B (zh) 区块链共识网络动态扩展方法、电子设备、系统及介质
CN117130813A (zh) 一种数据库故障自愈修复方法、装置、设备及介质
CN113535449B (zh) 异常事件修复处理方法、装置、计算机设备及存储介质
CN112463883A (zh) 基于大数据同步平台的可靠性监控方法、装置、设备
CN109462510B (zh) 一种cdn节点质量评估的方法及装置
CN114564358A (zh) 变更操作的合规性审查方法、装置、设备、介质和产品
CN115378841A (zh) 设备接入云平台状态的检测方法及装置、存储介质、终端
CN115174129A (zh) 异常节点检测方法、装置、计算机设备和存储介质
CN112561506A (zh) 基于虚拟货币的直播数据处理方法、系统、设备及介质
CN114385498A (zh) 性能测试方法、系统、计算机设备及可读存储介质
CN110890977B (zh) 云平台的主机节点监控方法、装置和计算机设备
CN110489208B (zh) 虚拟机配置参数核查方法、系统、计算机设备和存储介质
CN110086660B (zh) 一种数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination