CN112307123A

CN112307123A - 一种分布式数据库故障预警方法、装置、设备和存储介质

Info

Publication number: CN112307123A
Application number: CN202011205439.XA
Authority: CN
Inventors: 王天宇; 刘远; 郭颂
Original assignee: Beijing Minglue Zhaohui Technology Co Ltd
Current assignee: Beijing Minglue Zhaohui Technology Co Ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-02

Abstract

本发明公开了一种分布式数据库故障预警方法、装置、设备和存储介质，分布式数据库故障预警方法，包括：接收统计模块发送的第一信号、第二信号，当识别出第一信号则判断分布式数据库集群中long_task占比超过第一阈值；接收预测模块发送的第三信号、第四信号，当识别出第三信号则判断分布式数据库集群中未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值；当布式数据库集群中long_task占比超过第一阈值或者未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值，则输出预警信号。实现更加准确的对数据库未来可能发生的故障进行预警，从而避免当故障发生时恢复速度慢造成的损失。

Description

一种分布式数据库故障预警方法、装置、设备和存储介质

技术领域

本发明涉及分布式数据库故障预警，具体为一种分布式数据库故障预警方法、装置、设备和存储介质。

背景技术

分布式数据库在集群负载较高时均会出现处理效率降低的现象，此时极容易造成集群无法正常使用，一旦集群处于这种状态，恢复起来耗费时长较多，会对业务造成很大的影响,尤其是在目前互联网直播、网络购物平台销售物品过程中，将会给使用者带来巨大损失，单纯设置报警阈值，而且布式数据库集群的负载可能受到多种因素的影响，并不能做到准确的对集群可能出现的状态做出预警，虽然这种局限可以依靠放低预警标准进行一定程度掩盖，但同时也会造成很多的误报警，因此，提前预知集群负载较高的发生，成为亟待解决的问题。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种分布式数据库故障预警方法、装置、设备和存储介质，解决目前存在的问题。

为达到上述目的，本发明提供的技术方案如下：

根据本发明的一个方面，一种分布式数据库故障预警方法，包括：

接收统计模块发送的第一信号、第二信号，当识别出第一信号则判断分布式数据库集群中long_task占比超过第一阈值；

接收预测模块发送的第三信号、第四信号，当识别出第三信号则判断分布式数据库集群中未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值；

当布式数据库集群中long_task占比超过第一阈值或者未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值，则输出预警信号。

进一步的，所述第一信号、第二信号发送过程为：

设分布式数据库集群中节点数为N，每个节点的cpu数为M；

所述统计模块统计分布式数据库集群中task_info总的task数和long_task数；

当分布式数据库集群中总的task数超过M*N同时long_task占比超过第一阈值时生成并发送第一信号，否则生成并发送第二信号。

进一步的，所述第三信号、第四信号发送过程为：

预测模块对未来预设时间段t1内分布式数据库集群queue_size的变化趋势

当未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值则生成并发送第三信号，否则生成并发送第四信号。

进一步的，所述预测模块提取时间段t2内thread_pool中排队的线程的数目queue_size序列作为样本输入到预设模型中进行训练，利用训练好的所述模型对预设时间段t1的queue_size变化趋势进行预测，t2可取一周、多周或一个月。

进一步的，所述第一阈值为40％-60％；

和/或

所述第二阈值为100*N，其中，N＝分布式数据库集群中节点数；

和/或

所述t1的取值范围为0.5-2h。

第一阈值、第二阈值t1、t2也可以根据实际情况选择其他数值；

根据本发明的另一个方面，一种分布式数据库故障预警装置，包括：

统计模块，配置用于，根据分布式数据库集群中long_task占比是否超过第一阈值，发出第一信号或第二信号；

预测模块，配置用于，根据分布式数据库集群中未来预设时间段t1内分布式数据库集群的queue_size数目是否超过第二阈值，发出第三信号或第四信号；

通信模块，配置用于，接收统计模块发送的第一信号、第二信号，接收预测模块发送的第三信号、第四信号；

判断模块，配置用于，当布式数据库集群中long_task占比超过第一阈值或者未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值，则输出预警信号。

进一步的，所述统计模块发送第一信号、第二信号过程为：

设分布式数据库集群中节点数为N，每个节点的cpu数为M；

统计分布式数据库集群中task_info总的task数和long_task数，当分布式数据库集群中总的task数超过M*N同时long_task占比超过第一阈值时生成并发送第一信号，否则生成并发送第二信号。

进一步的，所述预测模块发送第三信号、第四信号过程为：

进一步的，所述预测模块还配置用于，

提取时间段t2内thread_pool中排队的线程的数目queue_size序列作为样本输入到预设模型中进行训练，利用训练好的所述模型对预设时间段t1的queue_size变化趋势进行预测。

根据本发明的另一个方面，提供了一种设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如上任一项所述的方法。

根据本发明的另一个方面，提供了一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现如上任一项所述的方法。

与现有技术相比，本发明具有以下有益效果：

1、本发明示例的分布式数据库故障预警方法，利用task_info及thread_pool两个层面上反应分布式数据库集群(本申请也称之为集群)状态的信息，thread_pool相对于task_info更加底层也更细粒度，通过两种信息各自的特性寻找适合的报警阈值后进行结合，设置第一阈值、第二阈值，防止二者的预警在某些情况下是覆盖的或者忽略某些情况，在实际生产中某些情况下二者单一的信息都具有一定局限性，将二者结合后就可以更全面的反应集群的状态，此时再进行预警就可以达到即保证了预警的准确性又尽可能的减少了误报，实现更加准确的对数据库未来可能发生的故障进行预警，从而避免当故障发生时恢复速度慢造成的损失。

2、本发明示例的分布式数据库故障预警装置，Task_info的报警阈值设置，首先当数据库中正在处理的task总数超过集群的节点数*每个节点机器的cpu个数时就说明集群对task的处理已经达到了瓶颈，此时集群处于繁忙状态了，而在这种情况下一旦long_task的数目又超过了总的task数的一定占比集群超负荷，导致task的处理能力下降，而一旦不满足上述两点则说明集群对task的响应还在可接受的范围内即：总的task数目不是很多，只是有很多复杂的task比较耗时或task数目很多但都不是很复杂可以很快处理完，同时通过或运算使用queue_size的预测结果进行预警大量queue_size在集群中运行是有造成集群故障的风险，保证了预警的准确性又尽可能的减少了误报，实现更加准确的对数据库未来可能发生的故障进行预警，从而避免当故障发生时恢复速度慢造成的损失。

附图说明

图1为本发明分布式数据库故障预警方法的流程图；

图2为本发明的设备的结构示意图。

具体实施方式

为了更好的了解本发明的技术方案，下面结合说明书附图和具体实施例对本发明作进一步说明。

实施例1

一种分布式数据库故障预警装置，包括：

统计模块，配置用于，根据分布式数据库集群中long_task占比是否超过第一阈值，发出第一信号或第二信号；所述统计模块发送第一信号、第二信号过程为：设分布式数据库集群中节点数为N，每个节点的cpu数为M；统计分布式数据库集群中task_info总的task数和long_task数，当分布式数据库集群中总的task数超过M*N同时long_task占比超过第一阈值时生成并发送第一信号，否则生成并发送第二信号，进一步的，Task_info的报警阈值的设置，首先当数据库中正在处理的task总数超过集群的节点数*每个节点机器的cpu个数时就说明集群对task的处理已经达到了瓶颈，集群处于繁忙状态了，而在这种情况下一旦long_task的数目又超过了总的task数的50％集群超负荷，导致task的处理能力下降，不满足上述两点则说明集群对task的响应还在可接受的范围内，即总的task数目不是很多，只是有很多复杂的task比较耗时或task数目很多但都不是很复杂可以很快处理完。

预测模块，配置用于，根据分布式数据库集群中未来预设时间段t1内分布式数据库集群的queue_size数目是否超过第二阈值，发出第三信号或第四信号；所述预测模块发送第三信号、第四信号过程为：预测模块对未来预设时间段t1内分布式数据库集群queue_size的变化趋势当未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值则生成并发送第三信号，否则生成并发送第四信号；具体预测过程，所述预测模块将时间段t内thread_pool中排队的线程的数目queue_size序列作为样本输入到预设模型中进行训练，利用训练好的所述模型对预设时间段t1的queue_size变化趋势进行预测。Prophet的输入值是一个包含两列的数组：ds和y，ds代表具体的时间，y是数值变量，对thread_pool的预测中ds为精确到秒的时间序列如2020-02-01 12:32:00，y值为此时刻对应的thread_pool信息中排队的线程的数目queue_size值。每隔五分钟提取一次值做记录得到一个月的ds和y值的序列作为样本输入Prophet得到相应的模型。预警装置运行时只需要每隔一个小时对下一个小时的queue_size值进行预测，同时只需要取Prophet预测结果中的yhat也就是准确值，不需要得到上限预测值和下限预测值。有了预测值就可以根据未来一小时内是否会超过某一阈值来设置预警。

根据分布式数据库的task_info以及thread_pool的使用情况动态的预测集群未来一段时间内是否会发生故障，统计集群中存在的处理时长较长的task占比，并利用Prophet模型来预测未来一段时间集群thread_pool中排队的线程数变化趋势，最终结合二者得到的结果，进行进行或运算判断是否进行预警。

本实施例提供一种分布式数据库故障装置的预警方法，包括：

步骤1：接收统计模块发送的第一信号、第二信号，当识别出第一信号则判断分布式数据库集群中long_task占比超过第一阈值，本实施例第一信号为1、第二信号为0，第一阈值为40％-60％，优选50％；其中，所述第一信号、第二信号发送过程为：

步骤1-1：设分布式数据库集群中节点数为N，每个节点的cpu数为M；

步骤1-2：所述统计模块统计分布式数据库集群中task_info总的task数和long_task数；

步骤1-3：当分布式数据库集群中总的task数超过M*N同时long_task占比超过第一阈值时生成并发送1，否则生成并发送0。

步骤2：接收预测模块发送的第三信号、第四信号，当识别出第三信号则判断分布式数据库集群中未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值，本实施例第三信号为1、第四信号为0，t1的取值范围为0.5-2h，优选为1h，第二阈值为100*N，N＝分布式数据库集群中节点数；其中，所述第三信号、第四信号发送过程为：

步骤2-1：预测模块对未来预设时间段t1内分布式数据库集群queue_size的变化趋势；具体过程为：所述预测模块将时间段t内thread_pool中排队的线程的数目queue_size序列作为样本输入到预设模型中进行训练，利用训练好的所述模型对预设时间段t1的queue_size变化趋势进行预测，预设模型选择Prophet模型，集群的中queue_size的变化趋势通常因业务的使用而变化，而业务的使用通常因商业需求而具有一定内在规律，适用Prophet来进行预测，借助prophet神经网络模型来进行自动分析判断，辅助运维人员工作的同时确保了预警的及时准确，保障集群的稳定。

步骤2-2：当未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值则生成并发送1，否则生成并发送0。

步骤3：当布式数据库集群中long_task占比超过第一阈值(50％)或者未来预设时间段t1(1h)内分布式数据库集群的queue_size数目超过第二阈值(100*N)，则输出预警信号，相关运维人员根据预警信号提前清杀task来使集群恢复，可以保证在集群出现问题之前运维人员就可以获得相应信息，从而采取相关措施，避免了真的出现故障带来的损失。

将Prophet的预测结果以及task_info的统计结果进行或运算并输出结果决定是否报警

使用queue_size的预测结果，一旦有业务的大量大任务在集群中运行是有造成集群故障的风险的，但这种情况通常又不会产生大量的排队线程，将二者结合后就可以更全面的反应集群的状态，此时再进行预警就可以达到即保证了预警的准确性又尽可能的减少了误报，实现更加准确的对数据库未来可能发生的故障进行预警，从而避免当故障发生时恢复速度慢造成的损失。

本实施例的一种设备，所述设备包括：一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行上述任一项所述的方法，通过处理器执行分布式数据库故障预警方法，设置第一阈值、第二阈值，防止二者的预警在某些情况下是覆盖的或者忽略某些情况，在实际生产中某些情况下二者单一的信息都具有一定局限性，将二者结合后就可以更全面的反应集群的状态，此时再进行预警就可以达到即保证了预警的准确性又尽可能的减少了误报，实现更加准确的对数据库未来可能发生的故障进行预警，从而避免当故障发生时恢复速度慢造成的损失。

本实施例的一种存储有计算机程序的计算机可读存储介质，其特征是，该程序被处理器执行时实现上述任一项所述的方法，储存有被处理器执行时实现分布式数据库故障预警方法，实现更加准确的对数据库未来可能发生的故障进行预警，从而避免当故障发生时恢复速度慢造成的损失。进一步介绍如下：

计算机系统包括中央处理单元(CPU)101，其可以根据存储在只读存储器(ROM)102中的程序或者从存储部分加载到随机访问存储器(RAM)103中的程序而执行各种适当的动作和处理。在RAM103中，还存储有系统操作所需的各种程序和数据。CPU 101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。

以下部件连接至I/O接口105：包括键盘、鼠标等的输入部分106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分109。通信部分109经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口105。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分108。

特别地，根据本发明的实施例，上文参考流程图1描述的过程可以被实现为计算机软件程序。例如，本发明的实施例1包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)101执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的框图2，图示了按照本发明各种实施例1的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种分布式数据库故障预警装置，包括：统计模块、预测模块、通信模块、判断模块，其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，统计模块还可以被描述为“根据分布式数据库集群中long_task占比是否超过第一阈值，发出第一信号或第二信号的统计模块”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的分布式数据库故障预警方法。

例如，所述电子设备可以实现如图1中所示的：步骤S1：接收统计模块发送的第一信号、第二信号，当识别出第一信号则判断分布式数据库集群中long_task占比超过第一阈值；步骤S2：接收预测模块发送的第三信号、第四信号，当识别出第三信号则判断分布式数据库集群中未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值；步骤S3：当布式数据库集群中long_task占比超过第一阈值同时未来预设时间段t1内分布式数据库集群的queue_size数目超过第二阈值，则输出预警信号。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能。

上述数据说明本发明一种治疗甲状腺增生的外用中药组合物乳膏具有标本兼治、药效迅速，有效率高等优点。由于已经通过以上实施例描述了本发明，任何等同替换对于本发明来说都是显而易见的并且包含在本发明之中。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种分布式数据库故障预警方法，其特征在于，包括：

2.根据权利要求1所述的分布式数据库故障预警方法，其特征在于，所述第一信号、第二信号发送过程为：

设分布式数据库集群中节点数为N，每个节点的cpu数为M；

3.根据权利要求1所述的分布式数据库故障预警方法，其特征在于，所述第三信号、第四信号发送过程为：

4.根据权利要求1或3所述的分布式数据库故障预警方法，其特征在于，所述预测模块提取时间段t2内thread_pool中排队的线程的数目queue_size序列作为样本输入到预设模型中进行训练，利用训练好的所述模型对预设时间段t1的queue_size变化趋势进行预测。

5.根据权利要求1所述的分布式数据库故障预警方法，其特征在于，所述第一阈值为40％-60％；

和/或

所述t1的取值范围为0.5-2h。

6.一种分布式数据库故障预警装置，其特征在于，包括：

7.根据权利要求6所述的分布式数据库故障预警装置，其特征在于，所述统计模块发送第一信号、第二信号过程为：

设分布式数据库集群中节点数为N，每个节点的cpu数为M；

8.根据权利要求6所述的分布式数据库故障预警装置，其特征在于，所述预测模块发送第三信号、第四信号过程为：

9.根据权利要求6或8所述的分布式数据库故障预警装置，其特征在于，所述预测模块还配置用于，

10.一种设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行权利要求1-5任一项所述的方法；或一种存储有计算机程序的计算机可读存储介质，该程序被处理器执行时实现权利要求1-5任一项所述的方法。