CN115687019A

CN115687019A - 数据库集群的故障处理方法、智能监控平台、设备和介质

Info

Publication number: CN115687019A
Application number: CN202211391499.4A
Authority: CN
Inventors: 吴鹏成
Original assignee: Ping An E Wallet Electronic Commerce Co Ltd
Current assignee: Ping An E Wallet Electronic Commerce Co Ltd
Priority date: 2022-11-08
Filing date: 2022-11-08
Publication date: 2023-02-03

Abstract

本申请涉及数据处理技术领域，提供了一种数据库集群的故障处理方法、智能监控平台、设备和介质，数据库集群包括主数据库和至少一台从数据库，主数据库和从数据库均已容器化，该方法包括：监控数据库集群的运行状态信息；若根据监控到的运行状态信息确定主数据库发生故障，则获取主数据库的主库故障信息；根据主库故障信息和历史切换记录，进行第一故障处理；其中，历史切换记录存储于智能监控平台，第一故障处理包括：备库切换、数据库扩容和数据恢复。一方面，实现主数据库应急扩容恢复方案，降低了数据库运维人员的工作量，提升了主数据库故障后的运维效率；另一方面，根据历史切换记录进行资源匹配，既可以防止资源超配，又可以实现并发恢复。

Description

数据库集群的故障处理方法、智能监控平台、设备和介质

技术领域

本申请涉及数据处理技术领域，尤其是涉及到一种数据库集群的故障处理方法、智能监控平台、计算机设备和可读存储介质。

背景技术

随着企业进入快速发展期，数据已经成为推动数据经济发展的关键生产要素，发展数字经济是实现经济高质量发展、构建现代化经济体系的必由之路。

但是，因为企业存在各种各样的复杂业务场景，对于数据库运维人员来说会成为一项重要的挑战，一人千库的情况在现代的数据库运维中比比皆是，当发生大面积甚至机房级的数据库故障的情况下，会使数据库运维人员手足无措，导致数据库故障后运维效率较低。

发明内容

有鉴于此，本申请提供了一种数据库集群的故障处理方法、智能监控平台、计算机设备和可读存储介质，降低了数据库运维人员的工作量，提升了主数据库故障后的运维效率。

第一方面，本申请实施例提供了一种数据库集群的故障处理方法，应用于智能监控平台，数据库集群包括主数据库和至少一台从数据库，主数据库和从数据库均已容器化，方法包括：

监控数据库集群的运行状态信息；

若根据监控到的运行状态信息确定主数据库发生故障，则获取主数据库的主库故障信息；

根据主库故障信息和历史切换记录，进行第一故障处理；

其中，历史切换记录存储于智能监控平台，第一故障处理包括：备库切换、数据库扩容和数据恢复。

根据本申请实施例的上述数据库集群的故障处理方法，还可以具有以下附加技术特征：

在上述技术方案中，可选地，根据主库故障信息和历史切换记录，进行第一故障处理，包括：

根据主库故障信息，判断是主数据库的主库原容器发生故障还是主数据库的主库原宿主机发生故障；

若主数据库的主库原容器发生故障，则根据历史切换记录，将主数据库切换到备库，并在主库原宿主机上重新启动一个主库新容器，将主库新容器的状态路径挂载到主库原宿主机的原状态路径，以在主库新容器中恢复主数据库的数据，以及将主数据库设置为主库新容器的从数据库。

在上述任一技术方案中，可选地，该方法还包括：

若主数据库的主库原宿主机发生故障，则根据历史切换记录，将主数据库切换到备库，再将主数据库切换到第一预留宿主机上对应的容器中，并根据主数据库的镜像备份数据在第一预留宿主机上对应的容器中恢复主数据库的数据，以及将主数据库设置为第一预留宿主机上对应的容器的从数据库。

在上述任一技术方案中，可选地，该方法还包括：

若根据监控到的运行状态信息确定从数据库发生故障，则获取从数据库的从库故障信息，并根据从库故障信息和历史切换记录，进行第二故障处理；

其中，第二故障处理包括数据库扩容和数据恢复。

在上述任一技术方案中，可选地，根据从库故障信息和历史切换记录，进行第二故障处理，包括：

根据从库故障信息，判断是从数据库的从库原容器发生故障还是从数据库的从库原宿主机发生故障；

若从数据库的从库原容器发生故障，则根据历史切换记录，在从库原宿主机上重新启动一个从库新容器，将从库新容器的状态路径挂载到从库原宿主机的原状态路径，以在从库新容器中恢复从数据库的数据，以及将从数据库设置为从库新容器的从数据库。

在上述任一技术方案中，可选地，该方法还包括：

若从数据库的从库原宿主机发生故障，则根据历史切换记录，将从数据库切换到第二预留宿主机上对应的容器中，并根据从数据库的镜像备份数据在第二预留宿主机上对应的容器中恢复从数据库的数据，以及将从数据库设置为第二预留宿主机上对应的容器的从数据库。

在上述任一技术方案中，可选地，该方法还包括：

在进行第一故障处理或第二故障处理后，根据处理结果更新历史切换记录。

第二方面，本申请实施例提供了一种智能监控平台，智能监控平台用于对数据库集群的故障进行处理，数据库集群包括主数据库和至少一台从数据库，主数据库和从数据库均已容器化，平台包括：

监控模块，用于监控数据库集群的运行状态信息；

获取模块，用于若根据监控到的运行状态信息确定主数据库发生故障，则获取主数据库的主库故障信息；

处理模块，用于根据主库故障信息和历史切换记录，进行第一故障处理；

根据本申请实施例的上述智能监控平台，还可以具有以下附加技术特征：

在上述技术方案中，可选地，处理模块，具体用于：根据主库故障信息，判断是主数据库的主库原容器发生故障还是主数据库的主库原宿主机发生故障；若主数据库的主库原容器发生故障，则根据历史切换记录，将主数据库切换到备库，并在主库原宿主机上重新启动一个主库新容器，将主库新容器的状态路径挂载到主库原宿主机的原状态路径，以在主库新容器中恢复主数据库的数据，以及将主数据库设置为主库新容器的从数据库。

在上述任一技术方案中，可选地，处理模块，具体用于：若主数据库的主库原宿主机发生故障，则根据历史切换记录，将主数据库切换到备库，再将主数据库切换到第一预留宿主机上对应的容器中，并根据主数据库的镜像备份数据在第一预留宿主机上对应的容器中恢复主数据库的数据，以及将主数据库设置为第一预留宿主机上对应的容器的从数据库。

在上述任一技术方案中，可选地，获取模块，还用于若根据监控到的运行状态信息确定从数据库发生故障，则获取从数据库的从库故障信息；处理模块，还用于根据从库故障信息和历史切换记录，进行第二故障处理；其中，第二故障处理包括数据库扩容和数据恢复。

在上述任一技术方案中，可选地，处理模块，具体用于：根据从库故障信息，判断是从数据库的从库原容器发生故障还是从数据库的从库原宿主机发生故障；若从数据库的从库原容器发生故障，则根据历史切换记录，在从库原宿主机上重新启动一个从库新容器，将从库新容器的状态路径挂载到从库原宿主机的原状态路径，以在从库新容器中恢复从数据库的数据，以及将从数据库设置为从库新容器的从数据库。

在上述任一技术方案中，可选地，处理模块，具体用于：若从数据库的从库原宿主机发生故障，则根据历史切换记录，将从数据库切换到第二预留宿主机上对应的容器中，并根据从数据库的镜像备份数据在第二预留宿主机上对应的容器中恢复从数据库的数据，以及将从数据库设置为第二预留宿主机上对应的容器的从数据库。

在上述任一技术方案中，可选地，处理模块，还用于在进行第一故障处理或第二故障处理后，根据处理结果更新历史切换记录。

第三方面，本申请实施例提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器存储可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，该可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如第一方面的方法的步骤。

第五方面，本申请实施例提供了一种芯片，该芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如第一方面的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面的方法。

本申请实施例，持续监控数据库集群中的主数据库和从数据库的运行状态信息，分析运行状态信息，确定是否发生故障。在根据运行状态信息确定主数据库发生故障的情况下，根据主数据库的主库故障信息和智能监控平台已存储的历史切换记录，进行备库切换、数据库扩容以及数据恢复的处理。

通过本申请实施例的技术方案，一方面，将整个复杂的扩容、自动化恢复机制做到全过程无人工参与，所有操作均自动化完成，使得主数据库应急扩容恢复方案更加快捷、稳定，可以提高主数据库运维可用率，降低了数据库运维人员的工作量，提升了主数据库故障后的运维效率。

另一方面，智能AI监控平台会根据历史切换记录进行资源匹配，既可以防止资源超配，又可以实现并发恢复。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例的数据库集群的故障处理过程的示意图；

图2示出了本申请实施例的数据库集群的故障处理方法的流程示意图之一；

图3示出了本申请实施例的数据库集群的故障处理方法的流程示意图之二；

图4示出了本申请实施例的数据库集群的故障处理方法的流程示意图之三；

图5示出了本申请实施例的智能监控平台的结构框图；

图6示出了本申请实施例的计算机设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

目前，有很多数据库自动化备份、一键还原的工具及脚本，对于数据库的备份还原起到至关重要的作用，但是如果是大面积或者机房级别的故障，运维人员依旧需要花大量的时间去找出可以进行还原的新服务器，再在该新机器上部署需要备份还原的工具，最终才能根据工具进行备份还原。这对于机房级别的灾难，是无法在最短的时间内将故障恢复到故障之前的水平的，因此，依然考验企业数据库运维人员及相关底层运维人员的快速恢复能力。

尤其在金融行业，这种情况尤为难以运维。因为金融行业的强监管，需要被监管的数据库必须是在自建IDC(Internet Data Center，互联网数据中心)中进行运维，如果在云上可以很容易的实现服务器的扩缩容，但是在传统IDC中这就成为了很难的问题。如果碰到上述大面积甚至机房级别的数据库故障，数据库运维人员要通过几天甚至十几天的工作才能将数据库恢复到发生故障之前的水平，并且，在恢复期间还有各种各样可能存在的一些问题。

针对这种大面积甚至机房级别的故障，当然，也包含单台或者少量数据库的故障，本申请实施例，采用智能AI监控平台来实现自动化应急扩容恢复操作，降低了数据库运维人员的工作量，提升了数据库故障后的运维效率。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的数据库集群的故障处理方法、智能监控平台、计算机设备和可读存储介质进行详细地说明。

本申请实施例提供了一种数据库集群的故障处理方法，应用于智能监控平台，智能监控平台存储有历史切换记录，数据库集群包括主数据库和至少一台从数据库，主数据库和从数据库均已容器化，如图1所示，智能监控平台与主数据库和至少一台从数据库通信连接，用于对主数据库和从数据库进行自动化应急扩容恢复操作。

如图2所示，该方法包括：

步骤201，监控数据库集群的运行状态信息；

步骤202，若根据监控到的运行状态信息确定主数据库发生故障，则获取主数据库的主库故障信息；

步骤203，根据主库故障信息和历史切换记录，进行第一故障处理，其中第一故障处理包括：备库切换、数据库扩容和数据恢复。

在该实施例中，所有数据库已实现docker容器化，数据库应用部署在docker中，数据持久化放在该docker所在宿主机上，I/O瓶颈可控，高可用节点分布在不同的宿主机上。

通过本申请实施例的技术方案，一方面，将整个复杂的扩容、自动化恢复机制做到全过程无人工参与，所有操作均自动化完成，使得主数据库应急扩容恢复方案更加快捷、稳定，可以提高主数据库运维可用率，降低了主数据库运维人员的工作量，提升了主数据库故障后的运维效率。

在本申请的一个实施例中，示例性地，以mysql举例，假定单个数据库发生故障，如果确定是主数据库发生故障，则进一步地根据主数据库的主库故障信息，判断是主数据库的主库原容器发生故障还是主数据库的主库原宿主机发生故障。

第一种情况，如果是主数据库的主库原容器发生故障，则根据历史切换记录，高可用节点自动生效将主数据库切换到备库，并且，将在主库原宿主机上重新启动一个主库新容器，以及将该主库新容器的状态路径挂载到主库原宿主机的原状态路径，从而使得主库新容器可以无缝恢复主数据库的数据，并且将原来的主数据库自动接上主库新容器，成为其从数据库，其中，恢复的主数据库的数据包括配置、用户、库、表、记录等数据。

通过上述方式，实现了在主数据库的主库原容器发生故障的情况下，依据历史切换记录进行资源匹配，达到较好的扩容恢复效果。

第二种情况，如果是主数据库的主库原宿主机发生故障，则根据历史切换记录，高可用节点自动生效将主数据库切换到备库，再将主数据库切换到第一预留宿主机上对应的容器中，并根据主数据库的镜像备份数据在第一预留宿主机上对应的容器中恢复主数据库的数据，以及将原来的主数据库自动接上第一预留宿主机中对应的容器，成为其从数据库，其中，第一预留宿主机为多个预留宿主机中的一个。

通过上述方式，实现了在主数据库的主库原宿主机发生故障的情况下，依据历史切换记录进行资源匹配，达到较好的扩容恢复效果。

在本申请的一个实施例中，如图3所示，该方法包括：

步骤301，监控数据库集群的运行状态信息；

步骤302，根据运行状态信息，判断是主数据库还是从数据库发生故障，若确定主数据库发生故障，则进入步骤303，若确定从数据库发生故障，则进入步骤304；

步骤303，获取主数据库的主库故障信息，并根据主库故障信息和历史切换记录，进行第一故障处理，其中第一故障处理包括：备库切换、数据库扩容和数据恢复；

步骤304，获取从数据库的从库故障信息，并根据从库故障信息和历史切换记录，进行第二故障处理；其中，第二故障处理包括数据库扩容和数据恢复。

本申请实施例，持续监控数据库集群中的主数据库和从数据库的运行状态信息，分析运行状态信息，确定是否发生故障。在根据运行状态信息确定从数据库发生故障的情况下，根据从数据库的从库故障信息和智能监控平台已存储的历史切换记录，进行数据库扩容和数据恢复的处理。

通过本申请实施例的技术方案，一方面，将整个复杂的扩容、自动化恢复机制做到全过程无人工参与，所有操作均自动化完成，使得从数据库应急扩容恢复方案更加快捷、稳定，可以提高从数据库运维可用率，降低了数据库运维人员的工作量，提升了从数据库故障后的运维效率。

在本申请的一个实施例中，如果确定是从数据库发生故障，则进一步地根据从数据库的从库故障信息，判断是从数据库的从库原容器发生故障还是从数据库的从库原宿主机发生故障。

第一种情况，如果是从数据库的从库原容器发生故障，则无需进行备库切换，而是根据历史切换记录，在从库原宿主机上重新启动一个从库新容器，将从库新容器的状态路径挂载到从库原宿主机的原状态路径，从而在从库新容器中无缝恢复原来的从数据库中的数据，并且将原来的从数据库自动接上从库新容器，成为其从数据库，其中，恢复的从数据库的数据包括配置、用户、库、表、记录等数据。

通过上述方式，实现了在从数据库的从库原容器发生故障的情况下，依据历史切换记录进行资源匹配，达到较好的扩容恢复效果。

第二种情况，如果是从数据库的从库原宿主机发生故障，则无需进行备库切换，而是根据历史切换记录，将从数据库切换到第二预留宿主机上对应的容器中，并且，如果原主能够恢复的话，则根据从数据库的镜像备份数据在第二预留宿主机上对应的容器中恢复从数据库的数据，以及将从数据库设置为第二预留宿主机上对应的容器的从数据库。

通过上述方式，实现了在从数据库的从库原宿主机发生故障的情况下，依据历史切换记录进行资源匹配，达到较好的扩容恢复效果。

在本申请的一个实施例中，如图4所示，该方法包括：

步骤401，监控数据库集群的运行状态信息；

步骤402，根据运行状态信息，判断是主数据库还是从数据库发生故障，若确定主数据库发生故障，则进入步骤403，若确定从数据库发生故障，则进入步骤404；

步骤403，获取主数据库的主库故障信息，并根据主库故障信息和历史切换记录，进行第一故障处理，其中第一故障处理包括：备库切换、数据库扩容和数据恢复；

步骤404，获取从数据库的从库故障信息，并根据从库故障信息和历史切换记录，进行第二故障处理；其中，第二故障处理包括数据库扩容和数据恢复；

步骤405，根据处理结果更新历史切换记录。

在该实施例中，无论是进行主数据库还是从数据库的扩容恢复后，均将切换信息进行存储，也即更新历史切换记录，为后续的扩容恢复提供资源分配依据，确保扩容恢复效果。

本申请实施例，不论是主数据库还是从数据库，恢复及分配的信息会记录在智能AI监控平台中，当大面积或者机房级别数据库故障时，智能AI监控平台会根据记录的分配信息进行资源匹配，既可以防止资源超配，又可以实现并发恢复，且在数据库运维的时间上和效率上都会有质的飞跃。并且，整个过程由智能AI监控平台进行分析、评估、下发命令，全程无需人工介入，以及在业务恢复原状后，会根据数据库中记录的信息生成报表供数据库运维人员分析问题、供领导进行决策。

作为上述数据库集群的故障处理方法的具体实现，本申请实施例提供了一种智能监控平台，智能监控平台用于对数据库集群的故障进行处理，智能监控平台存储有历史切换记录，数据库集群包括主数据库和至少一台从数据库，主数据库和从数据库均已容器化。如图5所示，该智能监控平台500包括：监控模块501、获取模块502以及处理模块503。

其中，监控模块501，用于监控数据库集群的运行状态信息；获取模块502，用于若根据监控到的运行状态信息确定主数据库发生故障，则获取主数据库的主库故障信息；处理模块503，用于根据主库故障信息和历史切换记录，进行第一故障处理；第一故障处理包括：备库切换、数据库扩容和数据恢复。

在上述技术方案中，可选地，处理模块503，具体用于：根据主库故障信息，判断是主数据库的主库原容器发生故障还是主数据库的主库原宿主机发生故障；若主数据库的主库原容器发生故障，则根据历史切换记录，将主数据库切换到备库，并在主库原宿主机上重新启动一个主库新容器，将主库新容器的状态路径挂载到主库原宿主机的原状态路径，以在主库新容器中恢复主数据库的数据，以及将主数据库设置为主库新容器的从数据库。

在上述任一技术方案中，可选地，处理模块503，具体用于：若主数据库的主库原宿主机发生故障，则根据历史切换记录，将主数据库切换到备库，再将主数据库切换到第一预留宿主机上对应的容器中，并根据主数据库的镜像备份数据在第一预留宿主机上对应的容器中恢复主数据库的数据，以及将主数据库设置为第一预留宿主机上对应的容器的从数据库。

在上述任一技术方案中，可选地，获取模块502，还用于若根据监控到的运行状态信息确定从数据库发生故障，则获取从数据库的从库故障信息；处理模块503，还用于根据从库故障信息和历史切换记录，进行第二故障处理；其中，第二故障处理包括数据库扩容和数据恢复。

在上述任一技术方案中，可选地，处理模块503，具体用于：根据从库故障信息，判断是从数据库的从库原容器发生故障还是从数据库的从库原宿主机发生故障；若从数据库的从库原容器发生故障，则根据历史切换记录，在从库原宿主机上重新启动一个从库新容器，将从库新容器的状态路径挂载到从库原宿主机的原状态路径，以在从库新容器中恢复从数据库的数据，以及将从数据库设置为从库新容器的从数据库。

在上述任一技术方案中，可选地，处理模块503，具体用于：若从数据库的从库原宿主机发生故障，则根据历史切换记录，将从数据库切换到第二预留宿主机上对应的容器中，并根据从数据库的镜像备份数据在第二预留宿主机上对应的容器中恢复从数据库的数据，以及将从数据库设置为第二预留宿主机上对应的容器的从数据库。

在上述任一技术方案中，可选地，处理模块503，还用于在进行第一故障处理或第二故障处理后，根据处理结果更新历史切换记录。

本申请实施例中的智能监控平台500可以是计算机设备，也可以是计算机设备中的部件，例如集成电路或芯片。该计算机设备可以是终端，也可以为除终端之外的其他设备。示例性的，计算机设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载计算机设备、移动上网装置(Mobile Internet Device，MID)、增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(Ultra-Mobile Personal Computer，UMPC)、上网本或者个人数字助理(Personal DigitalAssistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(Personal Computer，PC)、电视机(Television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的智能监控平台500可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的智能监控平台500能够实现图1的数据库集群的故障处理方法实施例实现的各个过程，为避免重复，这里不再赘述。

本申请实施例还提供一种计算机设备，如图6所示，该计算机设备600包括处理器601和存储器602，存储器602上存储有可在处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述数据库集群的故障处理方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的计算机设备包括上述的移动计算机设备和非移动计算机设备。

存储器602可用于存储软件程序以及各种数据。存储器602可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器602可以包括易失性存储器或非易失性存储器，或者，存储器602可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器602包括但不限于这些和任意其它适合类型的存储器。

处理器601可包括一个或多个处理单元；可选的，处理器601集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述数据库集群的故障处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述数据库集群的故障处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例还提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述数据库集群的故障处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种数据库集群的故障处理方法，其特征在于，应用于智能监控平台，所述数据库集群包括主数据库和至少一台从数据库，所述主数据库和所述从数据库均已容器化，所述方法包括：

监控所述数据库集群的运行状态信息；

若根据监控到的所述运行状态信息确定所述主数据库发生故障，则获取所述主数据库的主库故障信息；

根据所述主库故障信息和历史切换记录，进行第一故障处理；

其中，所述历史切换记录存储于所述智能监控平台，所述第一故障处理包括：备库切换、数据库扩容和数据恢复。

2.根据权利要求1所述的方法，其特征在于，所述根据所述主库故障信息和历史切换记录，进行第一故障处理，包括：

根据所述主库故障信息，判断是所述主数据库的主库原容器发生故障还是所述主数据库的主库原宿主机发生故障；

若所述主数据库的主库原容器发生故障，则根据所述历史切换记录，将所述主数据库切换到备库，并在所述主库原宿主机上重新启动一个主库新容器，将所述主库新容器的状态路径挂载到所述主库原宿主机的原状态路径，以在所述主库新容器中恢复所述主数据库的数据，以及将所述主数据库设置为所述主库新容器的从数据库。

3.根据权利要求2所述的方法，其特征在于，还包括：

若所述主数据库的主库原宿主机发生故障，则根据所述历史切换记录，将所述主数据库切换到备库，再将所述主数据库切换到第一预留宿主机上对应的容器中，并根据所述主数据库的镜像备份数据在所述第一预留宿主机上对应的容器中恢复所述主数据库的数据，以及将所述主数据库设置为所述第一预留宿主机上对应的容器的从数据库。

4.根据权利要求1至3中任一项所述的方法，其特征在于，还包括：

若根据监控到的运行状态信息确定所述从数据库发生故障，则获取所述从数据库的从库故障信息，并根据所述从库故障信息和所述历史切换记录，进行第二故障处理；

其中，所述第二故障处理包括数据库扩容和数据恢复。

5.根据权利要求4所述的方法，其特征在于，所述根据所述从库故障信息和所述历史切换记录，进行第二故障处理，包括：

根据所述从库故障信息，判断是所述从数据库的从库原容器发生故障还是所述从数据库的从库原宿主机发生故障；

若所述从数据库的从库原容器发生故障，则根据所述历史切换记录，在所述从库原宿主机上重新启动一个从库新容器，将所述从库新容器的状态路径挂载到所述从库原宿主机的原状态路径，以在所述从库新容器中恢复所述从数据库的数据，以及将所述从数据库设置为所述从库新容器的从数据库。

6.根据权利要求5所述的方法，其特征在于，还包括：

若所述从数据库的从库原宿主机发生故障，则根据所述历史切换记录，将所述从数据库切换到第二预留宿主机上对应的容器中，并根据所述从数据库的镜像备份数据在所述第二预留宿主机上对应的容器中恢复所述从数据库的数据，以及将所述从数据库设置为所述第二预留宿主机上对应的容器的从数据库。

7.根据权利要求4所述的方法，其特征在于，还包括：

在进行所述第一故障处理或所述第二故障处理后，根据处理结果更新所述历史切换记录。

8.一种智能监控平台，其特征在于，所述智能监控平台用于对数据库集群的故障进行处理，所述数据库集群包括主数据库和至少一台从数据库，所述主数据库和所述从数据库均已容器化，所述平台包括：

监控模块，用于监控所述数据库集群的运行状态信息；

获取模块，用于若根据监控到的所述运行状态信息确定所述主数据库发生故障，则获取所述主数据库的主库故障信息；

处理模块，用于根据所述主库故障信息和历史切换记录，进行第一故障处理；

9.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器存储有在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的数据库集群的故障处理方法的步骤。

10.一种可读存储介质，其上存储有程序或指令，其特征在于，所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的数据库集群的故障处理方法的步骤。