CN116340045A

CN116340045A - 数据库异常处理方法、装置、设备和计算机可读存储介质

Info

Publication number: CN116340045A
Application number: CN202310325491.6A
Authority: CN
Inventors: 高新刚
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-06-27

Abstract

本申请实施例公开了一种数据库异常处理方法，该方法包括：在数据库集群中存在异常的数据库节点的情况下，对异常的数据库节点进行多访问链路探测，得到目标探测数据；其中，目标探测数据表征数据库节点的可用性、连接状态以及运行情况；基于目标探测数据，确定异常的数据库节点的异常类型；基于异常的数据库节点的节点类型和异常类型，对异常的数据库节点进行处理。本申请实施例还公开了一种数据库异常处理装置、设备和计算机可读存储介质。

Description

数据库异常处理方法、装置、设备和计算机可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据库异常处理方法、装置、设备和计算机可读存储介质。

背景技术

数据库技术已被广泛应用于金融、交通、医疗、教育等各个行业，因此数据库的容灾能力成为各行各业重点关注的问题。一般，数据库容灾方案是通过监控系统对数据库节点进行故障探测，在探测到主节点故障的情况下，采用高可用(High Availability，HA)容灾策略进行主从切换，以提高数据库的容灾能力。然而，在实现过程中，发明人发现现有技术中至少存在如下问题：在探测到数据库节点故障时直接进行主从切换，容易导致数据库脑裂。

发明内容

为解决上述技术问题，本申请实施例期望提供一种数据库异常处理方法、装置、设备和计算机可读存储介质，解决了现有技术在探测到数据库节点故障时直接进行主从切换，容易导致数据库脑裂的问题。

本申请的技术方案是这样实现的：

在数据库集群中存在异常的数据库节点的情况下，对所述异常的数据库节点进行多访问链路探测，得到目标探测数据；其中，所述目标探测数据表征所述数据库节点的可用性、连接状态以及运行情况；

基于所述目标探测数据，确定所述异常的数据库节点的异常类型；

基于所述异常的数据库节点的节点类型和所述异常类型，对所述异常的数据库节点进行处理。

上述方案中，所述方法还包括：

采集所述数据库集群中的多个数据库节点的心跳数据和状态数据；

基于所述心跳数据，确定所述数据库集群中具有异常风险的数据库节点；

基于所述状态数据，确定所述具有异常风险的数据库节点是否异常。

上述方案中，所述对所述异常的数据库节点进行多访问链路探测，得到目标探测数据，包括：

基于哨兵选择机制，从所述数据库集群中确定用于进行多访问链路探测的多个哨兵节点；其中，所述多个哨兵节点与所述多访问链路具有一一对应关系；

通过所述多个哨兵节点，对所述异常的数据库节点进行多访问链路探测得到所述目标探测数据。

上述方案中，所述基于哨兵选择机制，从所述数据库集群中确定用于进行多访问链路探测的多个哨兵节点，包括：

基于所述心跳数据，确定所述数据库集群中存活的数据库节点；

从所述存活的数据库节点中确定与所述异常的数据库节点所处位置不同的n个数据库节点，得到所述多个哨兵节点。

上述方案中，所述对所述异常的数据库节点进行多访问链路探测得到所述目标探测数据，包括：

依次对所述异常的数据库节点的可用性、所述异常的数据库节点的连接状态、所述异常的数据库节点对应的实例的存活状态以及所述异常的数据库节点对应的服务器的存活状态进行多访问链路探测，得到所述目标探测数据。

上述方案中，所述基于所述目标探测数据，确定所述异常的数据库节点的异常类型，包括：

在基于所述目标探测数据确定所述异常的数据库节点对应的服务器异常的情况下，确定所述异常类型为第一异常类型；

在基于所述目标探测数据确定所述异常的数据库节点对应的实例异常的情况下，确定所述异常类型为第二异常类型；

在基于所述目标探测数据确定所述异常的数据库节点对应的实例无法连接的情况下，确定所述异常类型为第三异常类型；

在基于所述目标探测数据确定所述异常的数据库节点不可用的情况下，确定所述异常类型为第四异常类型。

上述方案中，所述基于所述异常的数据库节点的节点类型和所述异常类型，对所述异常的数据库节点进行处理，包括：

基于所述节点类型和所述异常类型，确定异常处理策略；

基于所述异常处理策略对所述异常的数据库节点进行处理。

上述方案中，所述基于所述节点类型和所述异常类型，确定异常处理策略，包括：

在所述节点类型为主节点且所述异常类型为第一异常类型，或者，所述节点类型为主节点且所述异常类型为第二异常类型的情况下，确定所述异常处理策略为停止使用所述异常的数据库节点，并对所述数据库集群中的数据库节点进行主从切换；

在所述节点类型为主节点且所述异常类型为第三异常类型，或者，所述节点类型为主节点且所述异常类型为第四异常类型的情况下，确定所述异常处理策略为发送告警提示。

一种数据库异常处理装置，所述装置包括：

探测单元，用于在数据库集群中存在异常的数据库节点的情况下，对所述异常的数据库节点进行多访问链路探测，得到目标探测数据；其中，所述目标探测数据表征所述数据库节点的可用性、连接状态以及运行情况；

处理单元，用于基于所述目标探测数据，确定所述异常的数据库节点的异常类型；

所述处理单元，用于基于所述异常的数据库节点的节点类型和所述异常类型，对所述异常的数据库节点进行处理。

一种数据库异常处理设备，所述设备包括：处理器、存储器和通信总线；

所述通信总线用于实现所述处理器和所述存储器之间的通信连接；

所述处理器用于执行所述存储器中的数据库异常处理程序，以实现上述的数据库异常处理方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述的数据库异常处理方法的步骤。

本申请的实施例所提供的数据库异常处理方法、装置、设备和存储介质，因为在数据库集群中存在异常的数据库节点的情况下，对异常的数据库节点进行多访问链路探测得到目标探测数据，能够从多个访问链路上去探测异常的数据库节点的异常情况，所得到的目标探测数据更全面、更能够反映异常的数据库节点的异常情况；基于目标探测数据确定异常的数据库节点的异常类型，通过进行多访问链路探测得到的目标探测数据，能够甄别出异常的数据库节点的异常类型，便于后续基于异常类型对异常的数据库节点做出正确的处理；基于异常的数据库节点的节点类型和异常类型对异常的数据库节点进行处理，能够针对不同类型的异常情况做出不同的处理，以针对性地解决数据库存在的异常，从而避免数据库脑裂，提高数据库的容灾能力；如此，从多个访问链路上去探测异常的数据库节点的异常情况，所得到的目标探测数据更全面、更能够反映异常的数据库节点的异常情况，进而基于目标探测数据能够甄别出异常的数据库节点的异常类型，从而基于异常的数据库节点的节点类型和异常类型对异常的数据库节点进行处理，能够针对不同类型的异常情况做出不同的处理，针对性地解决数据库存在的异常，从而避免数据库脑裂，提高数据库的容灾能力，克服了现有技术中在探测到数据库节点故障时直接进行主从切换，容易导致数据库脑裂的问题。

附图说明

图1为本申请实施例提供的一种数据库异常处理方法的流程示意图；

图2为本申请实施例提供的另一种数据库异常处理方法的流程示意图；

图3为本申请实施例提供的又一种数据库异常处理方法的流程示意图；

图4为本申请实施例提供的一种数据库异常处理装置的结构示意图；

图5为本申请实施例提供的一种数据库异常处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

应理解，说明书通篇中提到的“本申请实施例”或“前述实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“本申请实施例中”或“在前述实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在未做特殊说明的情况下，电子设备执行本申请实施例中的任一步骤，可以是电子设备的处理器执行该步骤。还值得注意的是，本申请实施例并不限定电子设备执行下述步骤的先后顺序。另外，不同实施例中对数据进行处理所采用的方式可以是相同的方法或不同的方法。还需说明的是，本申请实施例中的任一步骤是电子设备可以独立执行的，即电子设备执行下述实施例中的任一步骤时，可以不依赖于其它步骤的执行。

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请实施例提供一种数据库异常处理方法，该方法可以应用于数据库异常处理设备中，参照图1所示，该方法包括以下步骤：

步骤101、在数据库集群中存在异常的数据库节点的情况下，对异常的数据库节点进行多访问链路探测，得到目标探测数据。

其中，目标探测数据表征数据库节点的可用性、连接状态以及运行情况。

在本申请实施例中，数据库集群中包括多个数据库节点，多个数据库节点可以分布在不同的服务器上。数据库集群中存在异常的数据库节点，说明数据库集群中可能存在不可用的数据库节点、或数据库实例宕掉的数据库节点、或数据库实例端口不存在的数据库节点、或所在服务器宕机的数据库节点等异常数据库节点。目标探测数据是对异常的数据库节点进行多访问链路探测后得到的探测数据，能够表征数据库节点的可用性、连接状态以及运行情况；其中，多访问链路探测是为了从多个访问链路上去探测异常的数据库节点的异常情况，确定是机器的故障，还是网络的故障，还是机房的故障、机柜的故障、交换机的故障，便于后续确定异常的数据库节点的异常类型，进而做出正确的处理策略。

在一种可行的实现方式中，可以采用哨兵探测机制，对异常的数据库节点进行多访问链路探测得到目标探测数据。

步骤102、基于目标探测数据，确定异常的数据库节点的异常类型。

在本申请实施例中，通过进行多访问链路探测得到的目标探测数据，能够甄别出异常的数据库节点的异常类型，便于后续基于异常类型对异常的数据库节点做出正确的处理。进一步地，通过进行多访问链路探测得到的目标探测数据，能够确定出异常的数据库节点是因数据库不可用而出现的异常、或数据库实例无法连接而出现的异常、或数据库实例未存活而出现的异常、或数据库实例的端口不存在而出现的异常、或对应的服务器未存活出现而出现的异常等。

在一种可行的实现方式中，可以对目标探测数据进行分析，确定异常的数据库节点的异常类型。

步骤103、基于异常的数据库节点的节点类型和异常类型，对异常的数据库节点进行处理。

在本申请实施例中，基于异常的数据库节点的节点类型和异常类型对异常的数据库节点进行处理，能够针对不同类型的异常情况做出不同的处理，以针对性地解决数据库存在的异常，从而避免数据库脑裂，提高数据库的容灾能力，降低用户的数据资产损失和业务风险，满足金融监管和安全可信的应用要求。

在一种可行的实现方式中，在异常的数据库节点的节点类型为从节点的情况下，可以停止使用异常的数据库节点并发出告警提示，以便运维人员对异常的数据库节点进行处理；在异常的数据库节点的节点类型为主节点的情况下，可以基于不同的异常类型做出不同的处理；如，在异常类型表征硬件服务器故障或数据库只读故障的情况下，进行主从切换；在异常类型表征数据库性能出现问题或数据库假死的情况下，发出告警提示，不作切换，以避免出现数据库脑裂，保证数据库切换指令和数据库切换方式的正确性。

本申请实施例所提供的数据库异常处理方法，从多个访问链路上去探测异常的数据库节点的异常情况，所得到的目标探测数据更全面、更能够反映异常的数据库节点的异常情况，进而基于目标探测数据能够甄别出异常的数据库节点的异常类型，从而基于异常的数据库节点的节点类型和异常类型对异常的数据库节点进行处理，能够针对不同类型的异常情况做出不同的处理，针对性地解决数据库存在的异常，从而避免数据库脑裂，提高数据库的容灾能力，克服了现有技术中在探测到数据库节点故障时直接进行主从切换，容易导致数据库脑裂的问题。

基于前述实施例，本申请实施例提供一种数据库异常处理方法，参照图2所示，该方法包括以下步骤：

步骤201、数据库异常处理设备采集数据库集群中的多个数据库节点的心跳数据和状态数据。

在本申请实施例中，心跳数据用于表征数据库节点的存活状态，也即通过心跳数据能够确定数据库节点是否存活。状态数据表征数据库节点的运行情况，可以用于判断数据库节点是否异常。如图3所示，数据库(Database，DB)集群包括多个DB节点，可以通过秒级探测获取多个DB节点的心跳数据和状态数据。在一种可行的实现方式中，可以通过主动采集的方式或是被动采集的方式获取多个DB节点的心跳数据和状态数据；如，数据库异常处理设备主动向多个DB节点发送心跳数据的获取请求，或，定时将多个DB节点的心跳数据发送给数据库异常处理设备。

在本申请实施例中，可以采用因特网包探索器(Packet Internet Groper，PING)探测方法对多个DB节点的端口进行秒级探测，得到多个DB节点的心跳数据；如果采用PING探测方法向某一DB节点发送检测数据后，能够接收到这个DB节点返回的响应数据，则证明这个DB节点存活；如果采用PING探测方法向某一DB节点发送检测数据后，未(或未在规定时间内)接收到这个DB节点返回的响应数据，则证明这个DB节点非存活。进一步地，采集心跳数据的时间可以为每秒一次，以随时感知数据库节点的运行情况，达到秒级探测，提高数据库故障感知的敏感度。

在本申请实施例中，可以从服务器层面和数据库实例层面对数据库节点进行秒级探测得到状态数据；其中，状态数据的探测时间可以为五秒一次；服务器层面的探测数据可以包括服务器的中央处理器(Central Processing Unit，CPU)运行情况、服务器磁盘的输入/输出(Input/Output，I/O)性能、内存状态以及带宽情况等；数据库层面的探测数据可以包括并发写的性能、查询的性能以及内部I/O性能等。

其中，从服务器层面和数据库实例层面对数据库节点进行秒级探测得到状态数据的实现方式可以为：依次对数据库节点的可用性、数据库节点的连接状态、数据库节点对应的实例的存活状态以及数据库节点对应的服务器的存活状态进行秒级探测得到状态数据。其中，数据库节点的可用性用于表征数据库节点是否可用；数据库节点的连接状态用于表征数据库节点是否能正常连接；数据库节点对应的实例的存活状态用于保证数据库实例是否存活(也即，数据库实例是否异常)；数据库节点对应的服务器的存活状态用于表征数据库节点所在服务器是否异常。

依次对依次对数据库节点的可用性、数据库节点的连接状态、数据库节点对应的实例的存活状态以及数据库节点对应的服务器的存活状态进行秒级探测，是为了从多个方面来对数据库节点进行秒级探测，使状态数据更全面，进而使基于状态数据确定的异常数据库节点更准确，保证了异常检测的准确率。

在一种可行的实现方式中，可以采用哨兵探测机制，依次对数据库节点的可用性、数据库节点的连接状态、数据库节点对应的实例的存活状态以及数据库节点对应的服务器的存活状态进行秒级探测得到状态数据；其中，哨兵探测机制是将存活的数据库节点确定为哨兵节点，通过哨兵节点来进行探测。具体地，首先获取存活的实例节点(根据心跳数据确定存活的实例节点)，将存活的实例节点确定为哨兵节点，将需要进行探活的实例节点随机打散，并按照哨兵节点的数量进行分组得到多个需要进行探活的实例组，然后建立哨兵节点与实例组直接的对应关系，将每组数据依次发送给对应的哨兵节点进行探活，探活优先级顺序依次为数据库可用性检测、数据库连接检测、实例存活检测、服务器存活检测，若高优先级任务成功后则不再进行该节点的低优先级探活任务，若上一优先级任务失败后则进行下一优先级探活任务，直到所有探活任务完成；探测得到的样例数据(即状态数据)如下：1、数据库可用性失败，数据库连接检测成功：{“select”:false，“connect”:true，“telnet”:true，“ping”:true}；2、数据库可用性失败，数据库连接检测失败，实例存活检测成功：{“select”:false，“connect”:false，“telnet”:true，“ping”:true}；3、数据库可用性失败，数据库连接检测失败，实例存活检测失败，服务器存活检测成功：{“select”:false，“connect”:false，“telnet”:false，“ping”:true}4、数据库可用性失败，数据库连接检测失败，实例存活检测失败，服务器存活检测失败：{“select”:false，“connect”:false，“telnet”:false，“ping”:false}。

步骤202、数据库异常处理设备基于心跳数据，确定数据库集群中具有异常风险的数据库节点。

在本申请实施例中，具有异常风险的数据库节点是数据库集群中当前可能存在异常风险的节点，换句话说，具有异常风险的数据库节点可以是非存活的数据库节点。由于数据库节点可能因为网络问题而未及时返回响应数据，但这种情况下的数据库节点并不是异常节点，因此基于心跳数据只能确定数据库节点是否具有异常风险，并不能完全确定数据库节点是否异常。

步骤203、数据库异常处理设备基于状态数据，确定具有异常风险的数据库节点是否异常。

由于心跳数据只能用于确定具有异常风险的数据库节点，因此还需要基于状态数据进一步确定具有异常风险的数据库节点是否是异常的，保证异常检测的准确性，防止误测。

在一种可行的实现方式中，可以对状态数据进行分析，确定具有异常风险的数据库节点是否异常；进一步地，可以预先存储每一指标对应的故障数据，然后将状态数据与每一指标对应的故障数据进行对比，确定状态数据中是否存在异常指标，若存在，则确定具有异常风险的数据库节点是异常的，若不存在，则确定具有异常风险的数据库节点未出现异常，也即说明具有异常风险的数据库节点的心跳正常、数据库运行正常，本次异常探测结束。

需要说明的是，在确定数据库节点是否异常时，需要先通过心跳数据确定数据库节点的存活状态，在数据库节点处于非存活状态的情况下，再基于状态数据确定数据库节点是否异常，以提高异常探测的处理速率和异常探测的准确率。

步骤204、在数据库集群中存在异常的数据库节点的情况下，数据库异常处理设备基于哨兵选择机制，从数据库集群中确定用于进行多访问链路探测的多个哨兵节点。

其中，多个哨兵节点与多访问链路具有一一对应关系。

在本申请实施例中，哨兵选择机制用于确定进行多访问链路探测的多个哨兵节点；在选择哨兵节点时，需要注意，每一哨兵节点要能够探测不同的访问链路。

其中，步骤204中基于哨兵选择机制从数据库集群中确定用于进行多访问链路探测的多个哨兵节点的操作可以通过以下步骤来实现：

步骤204a、数据库异常处理设备基于心跳数据，确定数据库集群中存活的数据库节点。

在本申请实施例中，可以基于数据库集群中多个数据库节点的心跳数据，确定数据库集群中存活的数据库节点。

步骤204b、数据库异常处理设备从存活的数据库节点中确定与异常的数据库节点所处位置不同的n个数据库节点，得到多个哨兵节点。

在本申请实施例中，从存活的数据库节点中确定与异常的数据库节点所处位置不同的n个数据库节点，是为了能够从多个不同访问链路对异常的数据库节点进行探测。在一种可实现的方式中，哨兵选择机制可以为：从存活的数据库节点中选择与异常的数据库节点同一机房的节点1个，选择与异常的数据库节点异机房的节点2个。

步骤205、数据库异常处理设备通过多个哨兵节点，对异常的数据库节点进行多访问链路探测得到目标探测数据。

其中，步骤205中对异常的数据库节点进行多访问链路探测得到目标探测数据的操作可以通过以下步骤来实现：

步骤205a、数据库异常处理设备依次对异常的数据库节点的可用性、异常的数据库节点的连接状态、异常的数据库节点对应的实例的存活状态以及异常的数据库节点对应的服务器的存活状态进行多访问链路探测，得到目标探测数据。

在本申请其他实施例中，如果依次对具有异常风险的数据库节点的可用性、具有异常风险的数据库节点的连接状态、具有异常风险的数据库节点对应的实例的存活状态以及具有异常风险的数据库节点对应的服务器的存活状态进行秒级探测的过程中，出现连续三次任意优先级探测失败，那么可以进行多访问链路探测。

需要说明的是，目标探测数据是通过多个哨兵节点探测得到的，而状态数据是通过单个哨兵节点探测得到的。并且，无论是采集的心跳数据，还是目标探测数据，或是状态数据，由于采集的数据的可读性不高，因此在使用之前，均需要对数据进行格式转换，便于后续处理；并且，如图3所示，采集的数据均可以存储至数据库，以便于后续查询或追溯。

步骤206、数据库异常处理设备基于目标探测数据，确定异常的数据库节点的异常类型。

在一种可行的实现方式中，可以通过容灾决策模块，基于目标探测数据确定异常的数据库节点的异常类型。

其中，步骤206可以通过以下步骤来实现：

步骤206a、数据库异常处理设备在基于目标探测数据确定异常的数据库节点对应的服务器异常的情况下，确定异常类型为第一异常类型。

在本申请实施例中，服务器是异常的数据库节点对应的服务器，服务器可以为异常的数据库节点所在的服务器。第一异常类型为异常的数据库节点对应的服务器异常，也即此时异常的数据库节点出现异常的原因是因为所在服务器(即服务器)出现了异常，如，出现服务器未存活、服务器宕机等异常。

在一种可行的实现方式中，如果对目标探测数据进行分析后，确定异常的数据库对应的服务器异常，那么此时异常的数据库节点的异常类型为第一异常类型。示例地，硬件服务器宕机这一异常对应的目标探测数据为：{“select”:false，“connect”:false，“telnet”:false，“ping”:false}。

步骤206b、数据库异常处理设备在基于目标探测数据确定所述异常的数据库节点对应的实例异常的情况下，确定异常类型为第二异常类型。

在本申请实施例中，第二异常类型为异常的数据库节点对应的实例异常。异常的数据库节点对应的实例异常，说明，异常的数据库节点对应的服务器未出现异常但异常的数据库节点对应的实例异常，也即，异常的数据库节点对应的服务器存活，但异常的数据库节点对应的实例未存活或实例端口不存在，这种情况下，异常的数据库节点的异常类型为第二异常类型。示例地，服务器存活、实例宕掉、实例端口不存在这一异常对应的目标探测数据为：{“select”:false，“connect”:false，“telnet”:false，“ping”:true}。

步骤206c、数据库异常处理设备在基于目标探测数据确定异常的数据库节点对应的实例无法连接的情况下，确定异常类型为第三异常类型。

在本申请实施例中，第三异常类型为异常的数据库节点对应的实例无法连接。异常的数据库节点对应的实例无法连接，说明，异常的数据库节点对应的服务器未出现异常、且异常的数据库节点对应的实例未出现异常、但异常的数据库节点对应的实例无法连接，也即，异常的数据库节点对应的服务器存活、且异常的数据库节点对应的实例存活但实例无法连接，这种情况下，异常的数据库节点的异常类型为第三异常类型。示例地，服务器存活，实例存活，实例无法连接这一异常对应的目标探测数据为：{“select”:false，“connect”:false，“telnet”:true，“ping”:true}。

步骤206d、数据库异常处理设备在基于目标探测数据确定异常的数据库节点不可用的情况下，确定异常类型为第四异常类型。

在本申请实施例中，第三异常类型为异常的数据库节点不可用。异常的数据库节点不可用，说明，异常的数据库节点对应的服务器未出现异常、且异常的数据库节点对应的实例未出现异常、且异常的数据库节点对应的实例能成功连接、但异常的数据库节点不可用，也即，异常的数据库节点对应的服务器存活、且异常的数据库节点对应的实例存活且实例能成功连接、但异常的数据库节点不可用，这种情况下，确定异常类型为第四异常类型。示例地，服务器存活，实例存活，实例连接正常，数据库夯住这一异常对应的目标探测数据为：{“select”:false，“connect”:true，“telnet”:true，“ping”:true}。

步骤207、数据库异常处理设备基于节点类型和异常类型，确定异常处理策略。

其中，步骤207可以通过以下步骤来实现：

步骤207a、在节点类型为主节点且异常类型为第一异常类型，或者，节点类型为主节点且异常类型为第二异常类型的情况下，数据库异常处理设备确定异常处理策略为停止使用异常的数据库节点，并对数据库集群中的数据库节点进行主从切换。

在本申请实施例中，节点类型为主节点且异常类型为第一异常类型，说明，当前数据库集群的主节点发生异常、且导致主节点异常的是主节点所在服务器异常；节点类型为主节点且异常类型为第二异常类型，说明，当前数据库集群的主节点发生异常、且导致主节点异常的是主节点对应的实例异常；这两种情况下，均停止使用异常的主节点，并对数据库集群中的数据库节点进行主从切换；进一步地，还可以对异常情况发出告警提示，以便管理人员及时处理异常；在一种可行的实现方式中，如果导致主节点异常的是主节点对应的实例异常，那么可以由管理人员确定是否进行主从切换。

在本申请其他实施例中，如果节点类型为主节点且异常类型为第一异常类型，那么可以确定异常处理策略为failover切换；如果节点类型为主节点且异常类型为第二异常类型，那么可以确定异常处理策略为online切换。其中，failover切换与online切换的不同在于，failover切换是在硬件服务器故障时，要停止使用主节点，并进行主从切换；而online切换是在数据库只读故障时，还可以选择将主节点作为从节点去使用(由管理人员确定是否能作为从节点去使用)，并进行主从切换。

步骤207b、在节点类型为主节点且异常类型为第三异常类型，或者，节点类型为主节点且且异常类型为第四异常类型的情况下，数据库异常处理设备确定异常处理策略为发送告警提示。

在本申请实施例中，节点类型为主节点且异常类型为第三异常类型，当前数据库集群的主节点发生异常、且导致主节点异常的是主节点对应的实例无法连接；节点类型为主节点且异常类型为第四异常类型，说明当前数据库集群的主节点发生异常、且导致主节点异常的是数据库不可用；这两种情况下，均发送告警提示，由管理人员来处理异常。

在本申请其他实施例中，如果异常的数据库节点的节点类型为从节点，那么可以停止使用从节点并发送告警提示。

步骤208、数据库异常处理设备基于异常处理策略对异常的数据库节点进行处理。

如果通过容灾决策模块确定需要进行主从切换，那么需要执行以下步骤：1、对环境进行初始化、设置中断信号、检查传入的配置信息是否正确；2、根据传入的配置信息连接所有节点，检查有无宕机节点，检查所有节点的权限是否正常，检查其它节点是否是当前主节点的从节点，检查所有从节点复制状态是否正常；3、如果在2中检查发现某一节点的节点状态检查失败或者无法访问，会将该节点加入到忽略组中，后续操作不再对该节点进行变更，防止主从切换失败；4、检查当前主节点的服务状态是否正常，如果发现当前主节点服务正常，说明没有发生故障，此时不具备主从切换的条件，主从切换失败并结束5、检查备主节点的复制状态是否正常，如果发现备主节点复制状态异常或者无法提供服务，说明备主不具备升级为主节点的条件，主从切换也会失败；6、在当前主节点异常、且备主节点和从节点均满足切换条件的情况下，进行主从切换，并强制关闭老主节点，如果经过测试，老主节点所在的服务器可以访问，尝试强制停止老主节点的数据库进程，关闭虚拟IP，确保业务无法再访问到老主节点。

在其他实施例中，如果异常的数据库节点的节点类型是从节点，那么可以参照主节点在异常情况下的处理方式，如：若从节点的异常类型为第一异常类型或第二异常类型，则停止使用从节点；若从节点的异常类型为第三异常类型或第四异常类型，则发出告警提示，由管理人员来处理异常。

如图3所示，步骤301、通过秒级监控从服务器层面和数据库实例层面采集多个DB节点的心跳数据和状态数据；步骤302、将采集的探测数据存储到数据库中，并进行数据的格式化；步骤303、容灾决策模块定期读取存储的探测数据，判断是否有异常指标的数据库节点；步骤304、容灾决策模块确定存在异常指标或缺失异常指标的数据库节点时，容灾决策模块将调用各机房的哨兵节点对这些具有异常风险的节点进行多访问链路探测；步骤305、如果哨兵节点发现所谓的具有异常风险的节点心跳正常，DB运行正常，那么本次故障探测结束；步骤306、如果哨兵节点发现具有异常风险的节点确认无法工作，将二次探测数据(目标探测数据)传输给容灾决策模块；步骤307、容灾决策模块通过一系列数据的分析，判断出异常类型，确定异常类型对应的异常处理策略，做出正确的切换决策；步骤308、双机集群(Highly Available，HA)切换模块接收到容灾决策模块的切换指令后，对数据库节点进行主从切换。

本申请实施例提供的数据库异常处理方法，能够通过秒级监控对故障进行高效感知，并通过容灾决策模块能够对故障现象进行甄别，快速识别故障类型(即异常类型)，进而做出正确的数据库切换决策；其中，容灾决策模块中包括丰富的故障知识库，可以对多种数据库故障的逻辑判断，通过对秒级监控指标数据和哨兵探测结果数据的分析，判断出故障类型，对极端故障场景设定针对性的故障决策逻辑，避免出现数据库脑裂，保证数据库切换指令和数据库切换方式的正确性，同时该容灾决策模块可以适用于大部分主从架构的数据库类型。

需要说明的是，本实施例中与其它实施例中相同步骤和相同内容的说明，可以参照其它实施例中的描述，此处不再赘述。

基于前述实施例，本申请实施例提供一种数据库异常处理装置，该数据库异常处理装置可以应用于图1和2对应的实施例提供的数据库异常处理方法中，参照图4所示，该数据库异常处理装置4可以包括：

探测单元41，用于在数据库集群中存在异常的数据库节点的情况下，对异常的数据库节点进行多访问链路探测，得到目标探测数据；其中，目标探测数据表征数据库节点的可用性、连接状态以及运行情况；

处理单元42，用于基于目标探测数据，确定异常的数据库节点的异常类型；

处理单元42，用于基于异常的数据库节点的节点类型和异常类型，对异常的数据库节点进行处理。

在本申请的其他实施例中，处理单元42具体用于执行以下步骤：

采集数据库集群中的多个数据库节点的心跳数据和状态数据；

基于心跳数据，确定数据库集群中具有异常风险的数据库节点；

基于状态数据，确定具有异常风险的数据库节点是否异常。

在本申请的其他实施例中，探测单元41具体用于执行以下步骤：

基于哨兵选择机制，从数据库集群中确定用于进行多访问链路探测的多个哨兵节点；其中，多个哨兵节点与多访问链路具有一一对应关系；

通过多个哨兵节点，对异常的数据库节点进行多访问链路探测得到目标探测数据。

基于心跳数据，确定数据库集群中存活的数据库节点；

从存活的数据库节点中确定与异常的数据库节点所处位置不同的n个数据库节点，得到多个哨兵节点；n为正整数。

依次对异常的数据库节点的可用性、异常的数据库节点的连接状态、异常的数据库节点对应的实例的存活状态以及异常的数据库节点对应的服务器的存活状态进行多访问链路探测，得到目标探测数据。

在基于目标探测数据确定异常的数据库节点对应的服务器异常的情况下，确定异常类型为第一异常类型；

在基于目标探测数据确定异常的数据库节点对应的实例异常的情况下，确定异常类型为第二异常类型；

在基于目标探测数据确定异常的数据库节点对应的实例无法连接的情况下，确定异常类型为第三异常类型；

在基于目标探测数据确定异常的数据库节点不可用的情况下，确定异常类型为第四异常类型。

基于节点类型和异常类型，确定异常处理策略；

基于异常处理策略对异常的数据库节点进行处理。

在节点类型为主节点且异常类型为第一异常类型，或者，节点类型为主节点且异常类型为第二异常类型的情况下，确定异常处理策略为停止使用异常的数据库节点，并对数据库集群中的数据库节点进行主从切换；

在节点类型为主节点且异常类型为第三异常类型，或者，节点类型为主节点且异常类型为第四异常类型的情况下，确定异常处理策略为发送告警提示。

需要说明的是，各个单元所执行的步骤的具体说明可以参照图1和2对应的实施例提供的数据库异常处理方法中，此处不再赘述。

本申请实施例所提供的数据库异常处理装置，从多个访问链路上去探测异常的数据库节点的异常情况，所得到的目标探测数据更全面、更能够反映异常的数据库节点的异常情况，进而基于目标探测数据能够甄别出异常的数据库节点的异常类型，从而基于异常的数据库节点的节点类型和异常类型对异常的数据库节点进行处理，能够针对不同类型的异常情况做出不同的处理，针对性地解决数据库存在的异常，从而避免数据库脑裂，提高数据库的容灾能力，克服了现有技术中在探测到数据库节点故障时直接进行主从切换，容易导致数据库脑裂的问题。

基于前述实施例，本申请的实施例提供一种数据库异常处理设备，该数据库异常处理设备可以应用于图1和2对应的实施例提供的数据库异常处理方法中，参照图5所示，该数据库异常处理设备5可以包括：处理器51、存储器52和通信总线53，其中：

通信总线53用于实现处理器51和存储器52之间的通信连接；

处理器51用于执行存储器52中的数据库异常处理程序，以实现以下步骤：

在数据库集群中存在异常的数据库节点的情况下，对异常的数据库节点进行多访问链路探测，得到目标探测数据；其中，目标探测数据表征数据库节点的可用性、连接状态以及运行情况；

基于目标探测数据，确定异常的数据库节点的异常类型；

基于异常的数据库节点的节点类型和异常类型，对异常的数据库节点进行处理。

在本申请的其他实施例中，处理器51用于执行存储器52中的数据库异常处理程序还可以实现以下步骤：

基于状态数据，确定具有异常风险的数据库节点是否异常。

在本申请的其他实施例中，处理器51用于执行存储器52中的数据库异常处理程序的对异常的数据库节点进行多访问链路探测，得到目标探测数据，以实现以下步骤：

在本申请的其他实施例中，处理器51用于执行存储器52中的数据库异常处理程序的基于哨兵选择机制，从数据库集群中确定用于进行多访问链路探测的多个哨兵节点，以实现以下步骤：

基于心跳数据，确定数据库集群中存活的数据库节点；

在本申请的其他实施例中，处理器51用于执行存储器52中的数据库异常处理程序的对异常的数据库节点进行多访问链路探测得到目标探测数据，以实现以下步骤：

在本申请的其他实施例中，处理器51用于执行存储器52中的数据库异常处理程序的基于目标探测数据，确定异常的数据库节点的异常类型，以实现以下步骤：

在本申请的其他实施例中，处理器51用于执行存储器52中的数据库异常处理程序的基于异常的数据库节点的节点类型和异常类型，对异常的数据库节点进行处理，以实现以下步骤：

基于节点类型和异常类型，确定异常处理策略；

基于异常处理策略对异常的数据库节点进行处理。

在本申请的其他实施例中，处理器51用于执行存储器52中的数据库异常处理程序的基于节点类型和异常类型，确定异常处理策略，以实现以下步骤：

需要说明的是，处理器所执行的步骤的具体说明可以参照图1和2对应的实施例提供的数据库异常处理方法中，此处不再赘述。

本申请实施例所提供的数据库异常处理设备，从多个访问链路上去探测异常的数据库节点的异常情况，所得到的目标探测数据更全面、更能够反映异常的数据库节点的异常情况，进而基于目标探测数据能够甄别出异常的数据库节点的异常类型，从而基于异常的数据库节点的节点类型和异常类型对异常的数据库节点进行处理，能够针对不同类型的异常情况做出不同的处理，针对性地解决数据库存在的异常，从而避免数据库脑裂，提高数据库的容灾能力，克服了现有技术中在探测到数据库节点故障时直接进行主从切换，容易导致数据库脑裂的问题。

基于前述实施例，本申请的实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现图1和2对应的实施例提供的数据库异常处理方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种数据库异常处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述异常的数据库节点进行多访问链路探测，得到目标探测数据，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于哨兵选择机制，从所述数据库集群中确定用于进行多访问链路探测的多个哨兵节点，包括：

基于心跳数据，确定所述数据库集群中存活的数据库节点；

从所述存活的数据库节点中确定与所述异常的数据库节点所处位置不同的n个数据库节点，得到所述多个哨兵节点；n为正整数。

5.根据权利要求3所述的方法，其特征在于，所述对所述异常的数据库节点进行多访问链路探测得到所述目标探测数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述目标探测数据，确定所述异常的数据库节点的异常类型，包括：

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述基于所述异常的数据库节点的节点类型和所述异常类型，对所述异常的数据库节点进行处理，包括：

基于所述节点类型和所述异常类型，确定异常处理策略；

基于所述异常处理策略对所述异常的数据库节点进行处理。

8.根据权利要求7所述的方法，其特征在于，所述基于所述节点类型和所述异常类型，确定异常处理策略，包括：

9.一种数据库异常处理装置，其特征在于，所述装置包括：

10.一种数据库异常处理设备，其特征在于，所述设备包括：处理器、存储器和通信总线；

所述处理器用于执行所述存储器中的数据库异常处理程序，以实现如权利要求1-8中任一项所述的数据库异常处理方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-8中任一项所述的数据库异常处理方法的步骤。