CN106027290B

CN106027290B - 故障处理方法及装置

Info

Publication number: CN106027290B
Application number: CN201610316996.6A
Authority: CN
Inventors: 张锐
Original assignee: Yongxing Shenzhen Polytron Technologies Inc
Current assignee: Yongxing Shenzhen Polytron Technologies Inc
Priority date: 2016-05-12
Filing date: 2016-05-12
Publication date: 2019-03-29
Anticipated expiration: 2036-05-12
Also published as: CN106027290A

Abstract

本发明公开了一种故障处理方法，应用于数据库集群，该故障处理方法包括以下步骤：接收并对客户端返回的业务请求失败信息进行计数，其中，所述业务请求失败信息携带有主节点信息或从节点信息；在有从节点的计数值达到第一预设阈值时，将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点，由迁移的其它从节点代替计数值达到第一预设阈值的从节点向客户端提供服务。本发明还公开了一种故障处理装置。本发明能够提高数据库集群工作的稳定性。

Description

故障处理方法及装置

技术领域

本发明涉及数据库技术领域，尤其涉及一种故障处理方法及装置。

背景技术

目前，数据库集群广泛应用于各种领域，用于储存海量数据。通常的，数据库集群由一台主节点和多台从节点组成，其中，主节点和从节点均配置有虚拟IP，使得客户端可以通过虚拟IP访问数据库，以查询数据或操作数据。然而，在实际运行过程中，数据库集群经常面对海量的数据写入或读取，使得数据库集群存在一定的故障率。

现有技术中，对于数据库集群的故障处理并不完善：在主节点发生故障时，通常进行主从倒换，即将一台从节点提升为主节点，并将原主节点的虚拟IP迁移至新的主节点，以维持数据库集群正常运行。但是，当有从节点发生故障时，现有技术并没有对从节点进行维护的策略，随着更多的从节点发生故障，将使得整个数据库集群崩溃，停止服务。现有技术中，存在数据库集群工作稳定性较低的问题。

发明内容

本发明的主要目的在于提供一种故障处理方法及装置，旨在提高数据库集群工作的稳定性。

为实现上述目的，本发明提供一种故障处理方法，应用于包括主节点和多个从节点的数据库集群，该故障处理方法包括以下步骤：

接收并对客户端返回的业务请求失败信息进行计数，其中，所述业务请求失败信息携带有主节点信息或从节点信息；

在有从节点的计数值达到第一预设阈值时，将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点，由迁移的其它从节点代替计数值达到第一预设阈值的从节点向客户端提供服务。

可选地，所述将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点的步骤之前，还包括：

在有从节点的计数值达到第一预设阈值时，确定各从节点的计数值是否均达到所述第一预设阈值；

若否则转入执行所述将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点的步骤，包括：

确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点，作为迁移节点；

将计数值达到第一预设阈值的从节点的虚拟IP迁移至所述迁移节点。

可选地，所述确定各从节点的计数值是否均达到所述第一预设阈值的步骤之前，还包括：

在各从节点的计数值均达到所述第一预设阈值时，将各从节点的虚拟IP迁移至所述主节点。

可选地，所述确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点的步骤之后，还包括：

在存在多个当前负载最小的从节点时，将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。

可选地，所述接收并统计客户端返回的业务请求失败信息的步骤之后，还包括：

在所述主节点的计数值达到第二预设阈值时，将所述主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。

此外，为实现上述目的，本发明还提供一种故障处理装置，应用于包括主节点和多个从节点的数据库集群，该故障处理装置包括：

统计模块，用于接收并对客户端返回的业务请求失败信息进行计数，其中，所述业务请求失败信息携带有主节点信息或从节点信息；

迁移模块，用于在有从节点的计数值达到第一预设阈值时，将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点，由迁移的其它从节点代替计数值达到第一预设阈值的从节点向客户端提供服务。

可选地，所述迁移模块还用于，

在有从节点的计数值达到第一预设阈值时，确定各从节点的计数值是否均达到所述第一预设阈值；以及

在存在计数值未达到所述第一预设阈值的从节点时，确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点，作为迁移节点；以及

可选地，所述迁移模块还用于，在各从节点的计数值均达到所述第一预设阈值时，将各从节点的虚拟IP迁移至主节点。

可选地，所述迁移模块还用于，在存在多个当前负载最小的从节点时，将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。

可选地，所述迁移模块还用于，在所述主节点的计数值达到第二预设阈值时，将所述主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。

本发明提出的故障处理方法及装置，通过统计客户端返回的业务请求失败信息的数量，对从节点的工作状态进行判断，以在有从节点故障时，将故障从节点的虚拟IP迁移至其它从节点，由迁移的其它从节点代替故障从节点提供服务，从而维持整个数据库集群的正常工作，提高数据库集群工作的稳定性。

附图说明

图1为本发明故障处理方法第一实施例的流程示意图；

图2为本发明故障处理方法第二实施例的流程示意图；

图3为本发明故障处理方法第三实施例的流程示意图；

图4为本发明故障处理装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种故障处理方法，应用于数据库集群，该数据库集群包括主节点和多个从节点，参照图1，在本发明故障处理方法的第一实施例中，该故障处理方法包括：

步骤S10，接收并对客户端返回的业务请求失败信息进行计数，其中，所述业务请求失败信息携带有主节点信息或从节点信息；

在本发明实施例中，该故障处理方法由故障处理装置执行。通过故障处理装置统计客户端返回的业务请求失败信息，对从节点的工作状态进行判断，以在有从节点故障时，将故障从节点的虚拟IP迁移至其它从节点，由迁移的其它从节点代替故障从节点提供服务，从而维持整个数据库集群的正常工作。

具体的，客户端用于访问数据库集群的业务请求中携带有具体的从节点或主节点的虚拟IP，以访问指定的从节点或主节点。客户端在发出携带虚拟IP的业务请求的同时，开始计时，若在第一预设时间段内未接收到数据库集群的响应，则确定此次业务请求失败，发送业务请求失败信息至故障处理装置。其中，本实施例并不限定该第一预设时间段的取值，具体可按实际需要进行设置，例如，本实施例将第一预设时间段设置为5秒。

故障处理装置接收各客户端发送的业务请求失败信息，并根据接收的业务请求失败信息中携带的虚拟IP对相应的主节点或从节点进行计数。例如，在接收到的业务请求失败信息所携带的虚拟IP对应主节点时，则对主节点的计数值加1；在接收到的业务请求失败信息携带的虚拟IP对应从节点1时，则对从节点1的计数值加1；在接收到的业务请求失败信息携带的虚拟IP对应从节点2时，则对从节点2的计数值加1。

此外，在其它实施例中，在对客户端返回的业务请求失败信息进行统计时，若在接收到对应主节点或从节点的业务请求失败信息之后第二预设时间段内，未接到对应该同一主节点或从节点的业务请求失败信息，则初始化该主节点或从节点的计数值，重新开始统计。其中，本实施例并不限定该第二预设时间段的取值，具体可按实际需要进行设置，例如，本实施例将第二预设时间段设置为1小时。

步骤S20，在有从节点的计数值达到第一预设阈值时，将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点，由迁移的其它从节点代替计数值达到第一预设阈值的从节点向客户端提供服务。

基于前述描述，本领域技术人员可以理解的是，本实施例对接收的业务请求失败信息进行统计的目的在于确定是否有从节点或主节点发生故障。

在本发明实施例中，若有从节点的计数值达到第一预设阈值，则确定该从节点发送故障，不能继续提供服务。此时，将该计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点，本领域技术人员可以理解的是，在完成迁移转之后，指向前述虚拟IP的业务请求将被导向至该迁移的其它节点，由该迁移的其它从节点代替计数值达到第一预设阈值的从节点向业务请求的源客户端提供服务。

其中，第一预设阈值用于对从节点是否发生故障进行限定，本实施例对其取值不做限制，具体可按实际需要进行设置，例如，本实施例将该第一预设阈值设置为10，即针对同一从节点，当对应该从节点的业务请求失败信息的计数值为10时，确定该从节点故障，此时将该从节点的虚拟IP迁移至其它从节点。

本实施例提出的故障处理方法，通过统计客户端返回的业务请求失败信息的数量，对从节点的工作状态进行判断，以在有从节点故障时，将故障从节点的虚拟IP迁移至其它从节点，由迁移的其它从节点代替故障从节点提供服务，从而维持整个数据库集群的正常工作，提高数据库集群工作的稳定性。

进一步地，基于第一实施例，提出了本发明故障处理方法的第二实施例，参照图2，在本实施中，步骤S20之前，还包括：

步骤S30，在有从节点的计数值达到第一预设阈值时，确定各从节点的计数值是否均达到所述第一预设阈值；

若否则转入执行步骤S20，步骤S20包括：

步骤S201，确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点，作为迁移节点；

步骤S202，将计数值达到第一预设阈值的从节点的虚拟IP迁移至所述迁移节点。

需要说明的是，以下仅对本实施例与第一实施例的区别进行说明，其他可具体参照第一实施例，此处不再赘述。

在本发明实施例中，在对故障从节点的虚拟IP进行迁移之前，首先对其它从节点的故障状态进行判断，即确定各从节点的计数值是否均达到前述第一预设阈值，在存在计数值未达到第一预设阈值的从节点时，判定此时可以进行迁移。然后确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点，作为迁移节点，再将计数值达到第一预设阈值的从节点的虚拟IP迁移至所述迁移节点。

进一步的，在本发明实施例中，前述在确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点时，若存在多个当前负载最小的从节点时，将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。

进一步的，为确保数据库集群的服务不中断，在本发明实施例中，步骤S30之后，还包括：

步骤S40，在各从节点的计数值均达到所述第一预设阈值时，将各从节点的虚拟IP迁移至所述主节点。

基于前述描述，本领域技术人员可以理解的是，在各从节点的计数值均达到所述第一预设阈值时，说明此时所有的从节点均发生故障，不能继续提供服务，因此，本实施例在各从节点的计数值均达到前述第一预设阈值时，由故障处理装置将各从节点的虚拟IP均迁移至主节点，由主节点代理故障的各从节点继续提供服务。

本实施例通过在判定有从节点故障时，将故障从节点的虚拟IP迁移至当前负载最小的正常从节点，以维持数据库集群较高的工作效率；并在所有从节点故障时，将各从节点的虚拟IP均迁移至主节点，由主节点继续提供服务，确保服务不中断。

进一步地，基于前述任一实施例，提出了本发明故障处理方法的第三实施例，参照图3，在本实施例中，步骤S10之后，还包括：

步骤S50，在所述主节点的计数值达到第二预设阈值时，将所述主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。

需要说明的是，以下仅对本实施例与前述各实施例的区别进行说明，其它可分别参照前述各实施例，此处不再赘述。

参照前述关于迁移从节点虚拟IP的描述，在本发明实施例中，在主节点发生故障时，同样需要将主节点的虚拟IP进行迁移。

具体的，在统计的主节点的计数值达到第二预设阈值时，故障处理装置确定主节点故障，进一步地确定计数值未达到第一预设阈值的从节点，将主节点的虚拟IP迁移至确定的从节点，由迁移的从节点代替故障主节点继续提供服务。

其中，第二预设阈值用于对主节点是否发生故障进行限定，本实施例对其取值不做限制，具体可按实际需要进行设置，可以设置为与第一预设阈值相同，也可以设置为与第一预设阈值不同，例如，本实施例将该第二预设阈值设置为10，即针对主节点，当对应主节点的业务请求失败信息的计数值为10时，确定该主节点故障，此时将该主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。

进一步地，为维持整个数据库集群的工作效率，可选地，在迁移主节点的虚拟IP时，可将主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点中当前负载最小的从节点；其中，若存在多个当前负载最小的从节点，则将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。

本实施例通过在主节点故障时，将主节点的虚拟IP迁移至正常工作的从节点，确保数据库集群工作的稳定性。

本发明还提供一种执行前述故障处理方法的故障处理装置，应用于数据库集群，该数据库集群包括主节点和多个从节点，参照图4，在本发明故障处理装置的第一实施例中，该故障处理装置包括：

统计模块10，用于接收并对客户端返回的业务请求失败信息进行计数，其中，所述业务请求失败信息携带有主节点信息或从节点信息；

在本发明实施例中，通过故障处理装置统计客户端返回的业务请求失败信息，对从节点的工作状态进行判断，以在有从节点故障时，将故障从节点的虚拟IP迁移至其它从节点，由迁移的其它从节点代替故障从节点提供服务，从而维持整个数据库集群的正常工作。

统计模块10接收各客户端发送的业务请求失败信息，并根据接收的业务请求失败信息中携带的虚拟IP对相应的主节点或从节点进行计数。例如，在接收到的业务请求失败信息所携带的虚拟IP对应主节点时，则对主节点的计数值加1；在接收到的业务请求失败信息携带的虚拟IP对应从节点1时，则对从节点1的计数值加1；在接收到的业务请求失败信息携带的虚拟IP对应从节点2时，则对从节点2的计数值加1。

此外，在其它实施例中，在对客户端返回的业务请求失败信息进行统计时，若在接收到对应主节点或从节点的业务请求失败信息之后第二预设时间段内，未接到对应该同一主节点或从节点的业务请求失败信息，则统计模块10初始化该主节点或从节点的计数值，重新开始统计。其中，本实施例并不限定该第二预设时间段的取值，具体可按实际需要进行设置，例如，本实施例将第二预设时间段设置为1小时。

迁移模块20，用于在有从节点的计数值达到第一预设阈值时，将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点，由迁移的其它从节点代替计数值达到第一预设阈值的从节点向客户端提供服务。

在本发明实施例中，若有从节点的计数值达到第一预设阈值，则迁移模块20确定该从节点发送故障，不能继续提供服务。此时，迁移模块20将该计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点，本领域技术人员可以理解的是，在完成迁移转之后，指向前述虚拟IP的业务请求将被导向至该迁移的其它节点，由该迁移的其它从节点代替计数值达到第一预设阈值的从节点向业务请求的源客户端提供服务。

其中，第一预设阈值用于对从节点是否发生故障进行限定，本实施例对其取值不做限制，具体可按实际需要进行设置，例如，本实施例将该第一预设阈值设置为10，即针对同一从节点，当对应该从节点的业务请求失败信息的计数值为10时，迁移模块20确定该从节点故障，此时将该从节点的虚拟IP迁移至其它从节点。

本实施例提出的故障处理装置，通过统计客户端返回的业务请求失败信息的数量，对从节点的工作状态进行判断，以在有从节点故障时，将故障从节点的虚拟IP迁移至其它从节点，由迁移的其它从节点代替故障从节点提供服务，从而维持整个数据库集群的正常工作，提高数据库集群工作的稳定性。

进一步地，基于第一实施例，提出了本发明故障处理装置的第二实施例，在本实施中，所述迁移模块20还用于，

在本发明实施例中，在对故障从节点的虚拟IP进行迁移之前，迁移模块20首先对其它从节点的故障状态进行判断，即确定各从节点的计数值是否均达到前述第一预设阈值，在存在计数值未达到第一预设阈值的从节点时，迁移模块20判定此时可以进行迁移。然后确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点，作为迁移节点，再将计数值达到第一预设阈值的从节点的虚拟IP迁移至所述迁移节点。

进一步的，在本发明实施例中，前述在确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点时，若存在多个当前负载最小的从节点时，迁移模块20将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。

进一步的，为确保数据库集群的服务不中断，在本发明实施例中，迁移模块20还用于，在各从节点的计数值均达到所述第一预设阈值时，将各从节点的虚拟IP迁移至所述主节点。

基于前述描述，本领域技术人员可以理解的是，在各从节点的计数值均达到所述第一预设阈值时，说明此时所有的从节点均发生故障，不能继续提供服务，因此，本实施例在各从节点的计数值均达到前述第一预设阈值时，由迁移模块20将各从节点的虚拟IP均迁移至主节点，由主节点代理故障的各从节点继续提供服务。

进一步地，基于前述任一实施例，提出了本发明故障处理装置的第三实施例，在本实施例中，所述迁移模块20还用于，在所述主节点的计数值达到第二预设阈值时，将所述主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。

参照前述关于迁移从节点虚拟IP的描述，在本发明实施例中，在主节点发生故障时，同样需要迁移模块20将主节点的虚拟IP进行迁移。

具体的，在统计的主节点的计数值达到第二预设阈值时，迁移模块20确定主节点故障，进一步地确定计数值未达到第一预设阈值的从节点，将主节点的虚拟IP迁移至确定的从节点，由迁移的从节点代替故障主节点继续提供服务。

其中，第二预设阈值用于对主节点是否发生故障进行限定，本实施例对其取值不做限制，具体可按实际需要进行设置，可以设置为与第一预设阈值相同，也可以设置为与第一预设阈值不同，例如，本实施例将该第二预设阈值设置为10，即针对主节点，当对应主节点的业务请求失败信息的计数值为10时，迁移模块20确定该主节点故障，此时将该主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。

进一步地，为维持整个数据库集群的工作效率，可选地，在迁移主节点的虚拟IP时，迁移模块20可将主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点中当前负载最小的从节点；其中，若存在多个当前负载最小的从节点，则迁移模块20将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术邻域，均同理包括在本发明的专利保护范围内。

Claims

1.一种故障处理方法，应用于数据库集群，其特征在于，所述数据库集群包括主节点和多个从节点，所述故障处理方法包括以下步骤：

2.根据权利要求1所述的故障处理方法，其特征在于，所述将计数值达到第一预设阈值的从节点的虚拟IP迁移至其它从节点的步骤之前，还包括：

3.根据权利要求2所述的故障处理方法，其特征在于，所述确定各从节点的计数值是否均达到所述第一预设阈值的步骤之后，还包括：

4.根据权利要求2所述的故障处理方法，其特征在于，所述确定计数值未达到所述第一预设阈值的从节点中当前负载最小的从节点的步骤之后，还包括：

5.根据权利要求1-4任一项所述的故障处理方法，其特征在于，所述接收并对客户端返回的业务请求失败信息进行计数的步骤之后，还包括：

6.一种故障处理装置，应用于数据库集群，其特征在于，所述数据库集群包括主节点和多个从节点，所述故障处理装置包括：

7.根据权利要求6所述的故障处理装置，其特征在于，所述迁移模块还用于，

8.根据权利要求7所述的故障处理装置，其特征在于，所述迁移模块还用于，在各从节点的计数值均达到所述第一预设阈值时，将各从节点的虚拟IP迁移至主节点。

9.根据权利要求7所述的故障处理装置，其特征在于，所述迁移模块还用于，在存在多个当前负载最小的从节点时，将多个当前负载最小的从节点中额定负载最大的从节点作为迁移节点。

10.根据权利要求6-9任一项所述的故障处理装置，其特征在于，所述迁移模块还用于，在所述主节点的计数值达到第二预设阈值时，将所述主节点的虚拟IP迁移至计数值未达到第一预设阈值的从节点。