CN115688016A

CN115688016A - 一种用于大型数据库智能运维的一体化方法

Info

Publication number: CN115688016A
Application number: CN202211325005.2A
Authority: CN
Inventors: 魏建香; 陈佳华; 周钰锦; 陈宇行; 陈之航
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-02-03

Abstract

本发明公开了一种用于大型数据库智能运维的一体化方法，利用zabbix监控工具获取数据库的各项指标值，通过对数据库进行测试操作，使用RSR算法选出30个KPI；随后对数据库进行随机频繁操作，获取30个KPI的指标值，利用GAN对其进行数据增强，基于增强后的数据，使用prophet时间序列预测模型预测每一个KPI的阈值，当某个KPI值超出阈值时定义为异常值并发送报警，基于KPI阈值对数据库的健康度进行定义，并对健康度状态进行等级分类，之后构建运维知识库，当数据库报警时，综合考虑异常指标和数据库健康度等级，在运维知识库中选取应对策略传递给管理员，由管理员决定执行策略或是修改策略后执行，以达到数据库智能运维的目的。

Description

一种用于大型数据库智能运维的一体化方法

技术领域

本发明涉及一种数据库运维方法，具体涉及一种用于大型数据库智能运维的一体化方法，属于计算机应用领域。

背景技术

目前大型数据库运维还依赖于数据库运维人员进行全人工的运维和巡检工作，往往需要运维人员根据自身的经验对数据库的运行状态进行判断，并对出现的各种告警和异常情况进行深入的分析和处理，工作强度大，运维压力大是当前数据库运维面临的突出问题。

在数据库运维中往往都是出现异常和问题后才由运维人员通过海量日志的手工分析对异常进行追溯和故障排除，运维人员一般会受制于自身运维经验，故障排除和运行恢复的时间不定，这将影响了业务系统的稳定运行。同时异常出现在非正常工作时间，运维人员并不能及时对数据库异常进行检测和排除，反应不够及时，很难做到365天*24小时不间断运维和管理。

现有的运维系统都是简单的对运维的一些指标和日志进行收集，缺乏对运行状态的自动采集与自动感知，还需要运维人员对海量运维数据进行人工的分析，极大的增加了运维管理的难度。运维方式被动响应，无法通过基于基础架构、实时和历史运行数据进行趋势、提前预测，影响业务正常开展；系统越来越复杂，指标数量庞大，分析难度越来越大，难通过指标快速定位问题。

因此，传统数据库运维存在严重依赖于运维人员经验、侧重于事后处理、响应敏捷度低、运维难度高等问题。

发明内容

本发明的目的在于提供一种用于大型数据库智能运维的一体化方法，用以解决传统数据库运维存在严重依赖于运维人员经验、侧重于事后处理、响应敏捷度低、运维难度高等问题。

为实现上述目的，本发明提供了一种用于大型数据库智能运维的一体化方法，包括以下步骤：

步骤1、关键性能指标KPI选择：在数据库服务器中部署zabbix监测工具用于获取数据库的各项指标值，分别对数据库进行每秒1次100％读、100％写、50％读50％写的频繁操作，三种操作各10000次，然后使用秩和比算法RSR选出综合排名前30个KPI，同时记下每个KPI在哪个操作下方差波动最大；

步骤2、数据增强及指标阈值确定：重新对数据库进行共计10000次的随机读写频繁操作，通过zabbix工具获得30个KPI指标数据，利用生成对抗网络GAN对所述KPI指标数据进行数据增强，得到新的10000个KPI指标数据，与原有的KPI指标数据进行合并形成包含20000行的KPI指标数据，再利用时间序列预测模型prophet预测每个KPI的阈值范围，当某个KPI值超出其预测阈值的上下限时定义为异常值并报警；

步骤3、对数据库进行健康度定义及分类：数据库健康度定义公式如下：

其中，X_i表示第i个KPI指标的当前值，X_iQ3、X_iQ1为所取KPI的上下阈值，初始定义为上下四分卫数，数据库健康度公式用于计算数据库当前健康度的值，然后，利用支持向量机SVM分类算法对数据库的健康状态进行等级分类；

步骤4、构建运维知识库：运维知识库包含异常操作库和规则映射库，首先构建异常操作库，针对数据库异常原因制定各类限制操作，然后构建规则映射库，针对读写不同操作引发的问题制定各类规则，规则映射异常操作库中的操作；

步骤5、智能运维：当数据库报警时，根据异常指标对读写操作的敏感程度判断选择何种规则，并综合考虑数据库健康度等级，智能选择异常指标的对应策略，然后将异常指标与对应策略传递给管理员；管理员接收到异常指标与对应策略后，决定执行策略或是修改策略后执行，若策略被修改，将修改后的策略更新至运维知识库。

作为本发明的进一步改进，步骤1中，所述KPI选择步骤利用Zabbix自动监测数据库性能指标的数值，并保存到My SQL数据库的history表中，根据时间戳文本文件找到对应时间戳内性能指标的数值并保存，将保存下来的所有性能指标的数值混合成一个数值矩阵，行对应10000次操作对应的时间戳，列对应110个性能指标在该时间戳内监测的数值。

作为本发明的进一步改进，步骤1中，首先对每一列数据归一化，然后对归一化的数据求每列的方差，接着利用RSR算法对这些性能指标的数值编秩并计算数据的秩和比，绘制数据的RSR分布表，计算回归方差并做回归分析，将其代入到回归方程中得出性能指标的分档排序，形成性能指标的排名，最终排名前列的指标作为该数据库的KPI。

作为本发明的进一步改进，步骤2中的数据增强步骤具体为：首先进行数据预处理，读取110个指标的数值矩阵文件，求出110个指标10000次操作下各自指标值的均值，把数值矩阵中为负值的值替换为该指标的数值均值，再将处理后的数值矩阵进行归一化并输入到生成器里，通过隐藏层和输出层的权重计算，最终得到输出结果，采用随机优化算法adam优化更新迭代过程，使目标函数达到最小值，利用训练的模型参数生成增强数据，将生成的增强数据反归一化后保存。

作为本发明的进一步改进，步骤2中的阈值确定步骤具体为：对各性能指标的原始数据和生成对抗网络生成的假数据统合后，利用prophet时间序列分析模型在基于历史KPI数值波动阈值范围内预测各个数据库KPI未来一段时间的数值，时刻更新阈值并发送从客户端到服务器端的HTTP请求消息，然后利用flask框架启动一个线程来实时拉取数据库中最新的数据；接着，时刻接收更新阈值时发送的HTTP请求，每隔1分钟，线程循环一次，获取数据库中最新的数据并且判断是否超过或者小于prophet预测的指标阈值范围，超过上限或小于下限都会发送报警；同时把故障时的异常指标的相关数据信息记录并保存到本地文件中。

作为本发明的进一步改进，步骤3中的健康状态分类步骤具体为：利用支持向量机根据健康度数值的大小将数据库的所有不健康状态分为不同类别：调用Sklearn模型中的数据子集聚类算法MiniMatchKmeans，导入所有健康度数据进行初步训练并保存训练数据；然后调用Sklearn模型中的SVM，使用SVM中的支持向量机分类算法SVC这一分类算法库，设置目标函数的惩罚系数C为1.0，kernel参数设置为linear线性核函数，将健康度数据和MiniMatchKmeans分类算法保存的训练数据拟合并利用SVM训练进行分类。

作为本发明的进一步改进，步骤5中的智能运维步骤具体为：综合考虑数据库健康度等级，智能选择异常指标的对应策略：当数据库健康度在亚健康范畴时，在决策规则库中找到异常指标所对应的规则，再将规则在异常操作库中所映射的第一条限制操作传递给数据库管理员DBA；当数据库健康度在病态范畴时，在将规则所映射的第一条限制操作传递给数据库管理员DBA的基础上，针对其余规则所映射的限制操作，生成一个[0,1]区间内的随机数，若随机数超过0.5，则传递此限制操作，反之，则不传递。

作为本发明的进一步改进，若在已传递操作1的基础上，在规则库中找出限制读操作的规则1，则规则1映射操作1和操作2，此时根据随机数决定是否传递操作2。

本发明的有益效果如下：

1、对Zabbix原始监测的各个性能指标的数据利用GAN进行数据增强，有利于扩展用于模型训练的数据集，提高算法的精度；

2、利用RSR算法对Zabbix监控的各性能指标的数据和GAN网络生成的数据统合后对性能指标进行一个综合排序，形成该数据库性能指标的排名，最终取出排名靠前的指标作为该数据库的KPI，以便后续形成对数据库运行状态的全面、科学、客观的评估；

3、利用prophet时间序列分析模型在基于历史KPI数值波动阈值范围内预测各个数据库KPI未来一段时间的数值，帮助后续的KPI决策模型做出正确的决策，另一方面也可以使运维人员能够对异常和故障进行跟踪追溯，定期上报数据库智能运维的分析趋势，有效支撑管理层决策，保持数据库运维稳定，通过Zabbix实时监测各KPI的数值和prophet预测来不断更新KPI的阈值范围，对超出阈值范围的离群点记为异常，并报警将异常指标发送给决策服务模块；

4、由于只用一个prophet模型只能判断当前数据库是否处于健康状态，但是并不能判断数据库的不健康等级，所以基于prophet时间序列分析在同一时间戳内抛出的所有指标异常定义一个当前时间戳的数据库系统健康度HDDS来辅助判断分析数据库的健康状态等级，以确保整个系统的正常运作；

5、在HDDS的基础之上，利用SVM支持向量机对数据库不健康时刻生成的健康度进行分类，为后续数据库智能执行做铺垫；

6、通过预先定义好的策略，根据智能决策模块定义的健康度数值和在智能感知模块Zabbix监测并抛出的超出prophet预测的阈值范围的故障综合考虑，从而判断某指标异常变动时需要执行哪种策略并执行该种策略达到智能执行的目的。

附图说明

图1为发明的技术路线图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

如图1所示，本发明提供了一种大型数据库智能运维的一体化方法，主要利用zabbix监控工具获取数据库的各项指标值，通过对数据库进行测试操作，使用RSR算法选出30个KPI；随后对数据库进行随机频繁操作，获取30个KPI的指标值，利用GAN对其进行数据增强，基于增强后的数据，使用prophet时间序列预测模型预测每一个KPI的阈值，当某个KPI值超出阈值时定义为异常值并发送报警，基于KPI阈值对数据库的健康度进行定义，并对健康度状态进行等级分类，之后构建运维知识库，当数据库报警时，综合考虑异常指标和数据库健康度等级，在运维知识库中选取应对策略传递给管理员，由管理员决定执行策略或是修改策略后执行，以达到数据库智能运维的目的。

具体来讲，主要包括以下步骤：

步骤1、关键性能指标KPI(Key Performance Indicator)选择：在数据库服务器中部署zabbix监测工具用于获取数据库的各项指标值，分别对数据库进行每秒1次100％读、100％写、50％读50％写的频繁操作，三种操作各10000次，获得基于上述三种操作的所有数据库性能指标后，使用秩和比算法RSR(Rank Sum Ratio)选出综合排名前30个KPI，同时记下每个KPI在哪个操作下方差波动最大，即记录每个KPI的敏感操作；

步骤2、数据增强及指标阈值确定：重新对数据库进行共计10000次的随机读写频繁操作，通过zabbix工具获得30个KPI指标数据，利用生成对抗网络GAN(GenerativeAdversarial Network)对所述KPI指标数据进行数据增强，得到新的10000个KPI指标数据，与原有的KPI指标数据进行合并形成包含20000行的KPI指标数据，再利用时间序列预测模型prophet预测每个KPI的阈值范围，当某个KPI值超出其预测阈值的上下限时定义为异常值并报警；

其中，X_i表示第i个KPI指标的当前值，X_iQ3、X_iQ1为所取KPI的上下阈值，初始定义为上下四分卫数，数据库健康度公式用于计算数据库当前健康度的值，然后，利用支持向量机SVM(Support Vector Machine)分类算法对数据库的健康状态进行等级分类，如亚健康或病态；

步骤4、构建运维知识库：运维知识库包含异常操作库和规则映射库，首先构建异常操作库，针对数据库异常原因制定各类限制操作(如操作1：更改读写比例，操作2：更改读间隔...)，然后构建规则映射库，针对读写不同操作引发的问题制定各类规则，规则映射异常操作库中的操作(如规则1表示限制读操作，其在知识库中的映射操作为1和2)；

需要说明的是：步骤1中，所述KPI选择步骤利用Zabbix自动监测数据库性能指标的数值，并保存到My SQL数据库的history表中，根据时间戳文本文件找到对应时间戳内性能指标的数值并保存，将保存下来的所有性能指标的数值混合成一个数值矩阵，行对应10000次操作对应的时间戳，列对应110个性能指标在该时间戳内监测的数值。

步骤1中，所述KPI选择步骤首先对每一列数据归一化，然后对归一化的数据求每列的方差，接着利用RSR算法对这些性能指标的数值编秩并计算数据的秩和比，绘制数据的RSR分布表，计算回归方差并做回归分析，将其代入到回归方程中得出性能指标的分档排序，形成性能指标的排名，最终排名前列的指标作为该数据库的KPI。

以下是通过RSR算法筛选出的30个KPI：

步骤2中的数据增强步骤具体为：首先进行数据预处理，读取110个指标的数值矩阵文件，求出110个指标10000次操作下各自指标值的均值，把数值矩阵中为负值的值替换为该指标的数值均值，再将处理后的数值矩阵进行归一化并输入到生成器里，通过隐藏层和输出层的权重计算，最终得到输出结果，采用随机优化算法adam(Adaptive momentum)优化更新迭代过程，使目标函数达到最小值，最后设置训练参数batch_size为100，学习率为0.0002，epoch为100，以读写为标签分类(写为1，读为0)训练GAN模型并保存模型参数，利用训练的模型参数生成增强数据，将生成的增强数据反归一化后保存。

步骤2中的阈值确定步骤具体为：对各性能指标的原始数据和生成对抗网络生成的假数据统合后，利用prophet时间序列分析模型在基于历史KPI数值波动阈值范围内预测各个数据库KPI未来一段时间的数值，时刻更新阈值并发送从客户端到服务器端的HTTP请求消息，然后利用flask框架启动一个线程来实时拉取数据库中最新的数据；接着，时刻接收更新阈值时发送的HTTP请求，每隔1分钟，线程循环一次，获取数据库中最新的数据并且判断是否超过或者小于prophet预测的指标阈值范围，超过上限或小于下限都会发送报警；同时把故障时的异常指标的相关数据信息记录并保存到本地文件中。

步骤3中的健康状态分类步骤具体为：利用支持向量机根据健康度数值的大小将数据库的所有不健康状态分为不同类别：调用Sklearn模型(全称Scikit-Learn，是基于Python语言的机器学习工具)中的数据子集聚类算法MiniMatchKmeans，导入所有健康度数据进行初步训练并保存训练数据；然后调用Sklearn模型中的SVM，使用SVM中的支持向量机分类算法SVC(Support Vector Classification)这一分类算法库，设置目标函数的惩罚系数C为1.0，kernel参数设置为linear线性核函数，将健康度数据和MiniMatchKmeans分类算法保存的训练数据拟合并利用SVM训练进行分类。

步骤4的构建运维知识库，具体举例为：

首先定义好七种执行策略，其中包含7种建议的操作，如下表所示，分别是删除用户(R W)、更改读写比例Update+0.1(R)、更改读写比例Select+0.1(W)、更改写间隔+10s(W)、更改读间隔+10s(R)、更改查询上限-10(W)、更新创建用户时间+60s(R W)。

序号	操作	含义
			1	"/aiops/service2/api/delete_user？user_count＝1",	删除用户(R W)
2	"/aiops/service2/api/update/operator_rate？Update＝1",	更改读写比例Update+0.1(R)
			3	"/aiops/service2/api/update/operator_rate？Select＝1",	更改读写比例Select+0.1(W)
4	"/aiops/service2/api/update/time_gap？GapType＝Update",	更改写间隔+10s(W)
			5	"/aiops/service2/api/update/time_gap？GapType＝Select",	更改读间隔+10s(R)
6	"/aiops/service2/api/update/select_limit",	更改查询上限-10(W)
			7	"/aiops/service2/api/update/create_user_time",	更新创建用户时间+60s(R W)

然后构建决策规则映射库，“1”代表需要限制读操作，选取运维知识库中序列2和5的操作，“2”代表需要限制写操作，选取运维知识库中序列3、4和6的操作，“3”代表需要限制读和写操作，选取运维知识库中序列1和7的操作。如下表所示。

分级号	选取操作
		“1”	2、5
“2”	3、4、6
		“3”	1、7
“4”	2
		“5”	3
“6”	7

步骤5中的智能运维步骤具体为：根据prophet时间序列预测模型预测数据库的30个KPI的阈值范围，再利用Zabbix实时监测KPI的数值并判断KPI的数值是否在其阈值范围内，从而判断当前数据库指标是否异常，若正常则返回用户体验，若指标异常则返回健康度模型判断指标健康度。

综合考虑数据库健康度等级，智能选择异常指标的对应策略：当数据库健康度在亚健康范畴时，在决策规则库中找到异常指标所对应的规则，再将规则在异常操作库中所映射的第一条限制操作传递给数据库管理员DBA(Database Administrator)；当数据库健康度在病态范畴时，在将规则所映射的第一条限制操作传递给数据库管理员DBA的基础上，针对其余规则所映射的限制操作，生成一个[0,1]区间内的随机数，若随机数超过0.5，则传递此限制操作，反之，则不传递。若在已传递操作1的基础上，在规则库中找出限制读操作的规则1，则规则1映射操作1和操作2，此时根据随机数决定是否传递操作2。

如果有多个异常指标，而各个指标对应的操作opt不相同，如指标1对应的操作opt为“R”，而指标2对应的操作opt为“W”，那么首先在7种运维操作中随机选择与“R”相关的操作，在一定的时间间隔后(例如30秒)再在7种运维操作中随机选择与“W”相关的操作。如果两个指标对应的操作opt相同，则在7种运维操作中随机选择与之相同的操作执行。由于采用了随机的方式，不一定是最优的执行方案，因此需要利用优化的方法来进行智能执行。

综上所述，本发明对Zabbix原始监测的各个性能指标的数据利用GAN进行数据增强，有利于扩展用于模型训练的数据集，提高算法的精度；利用RSR算法对Zabbix监控的各性能指标的数据和GAN网络生成的数据统合后对性能指标进行一个综合排序，形成该数据库性能指标的排名，最终取出排名靠前的指标作为该数据库的KPI，以便后续形成对数据库运行状态的全面、科学、客观的评估；利用prophet时间序列分析模型在基于历史KPI数值波动阈值范围内预测各个数据库KPI未来一段时间的数值，帮助后续的KPI决策模型做出正确的决策，另一方面也可以使运维人员能够对异常和故障进行跟踪追溯，定期上报数据库智能运维的分析趋势，有效支撑管理层决策，保持数据库运维稳定，通过Zabbix实时监测各KPI的数值和prophet预测来不断更新KPI的阈值范围，对超出阈值范围的离群点记为异常，并报警将异常指标发送给决策服务模块；由于只用一个prophet模型只能判断当前数据库是否处于健康状态，但是并不能判断数据库的不健康等级，所以基于prophet时间序列分析在同一时间戳内抛出的所有指标异常定义一个当前时间戳的数据库系统健康度HDDS来辅助判断分析数据库的健康状态等级，以确保整个系统的正常运作；在HDDS的基础之上，利用SVM支持向量机对数据库不健康时刻生成的健康度进行分类，为后续数据库智能执行做铺垫；通过预先定义好的策略，根据智能决策模块定义的健康度数值和在智能感知模块Zabbix监测并抛出的超出prophet预测的阈值范围的故障综合考虑，从而判断某指标异常变动时需要执行哪种策略并执行该种策略达到智能执行的目的。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种用于大型数据库智能运维的一体化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于：步骤1中，所述KPI选择步骤利用Zabbix自动监测数据库性能指标的数值，并保存到My SQL数据库的history表中，根据时间戳文本文件找到对应时间戳内性能指标的数值并保存，将保存下来的所有性能指标的数值混合成一个数值矩阵，行对应10000次操作对应的时间戳，列对应110个性能指标在该时间戳内监测的数值。

3.根据权利要求1所述的方法，其特征在于：步骤1中，首先对每一列数据归一化，然后对归一化的数据求每列的方差，接着利用RSR算法对这些性能指标的数值编秩并计算数据的秩和比，绘制数据的RSR分布表，计算回归方差并做回归分析，将其代入到回归方程中得出性能指标的分档排序，形成性能指标的排名，最终排名前列的指标作为该数据库的KPI。

4.根据权利要求1所述的方法，其特征在于，步骤2中的数据增强步骤具体为：首先进行数据预处理，读取110个指标的数值矩阵文件，求出110个指标10000次操作下各自指标值的均值，把数值矩阵中为负值的值替换为该指标的数值均值，再将处理后的数值矩阵进行归一化并输入到生成器里，通过隐藏层和输出层的权重计算，最终得到输出结果，采用随机优化算法adam优化更新迭代过程，使目标函数达到最小值，利用训练的模型参数生成增强数据，将生成的增强数据反归一化后保存。

5.根据权利要求1所述的方法，其特征在于，步骤2中的阈值确定步骤具体为：对各性能指标的原始数据和生成对抗网络生成的假数据统合后，利用prophet时间序列分析模型在基于历史KPI数值波动阈值范围内预测各个数据库KPI未来一段时间的数值，时刻更新阈值并发送从客户端到服务器端的HTTP请求消息，然后利用flask框架启动一个线程来实时拉取数据库中最新的数据；接着，时刻接收更新阈值时发送的HTTP请求，每隔1分钟，线程循环一次，获取数据库中最新的数据并且判断是否超过或者小于prophet预测的指标阈值范围，超过上限或小于下限都会发送报警；同时把故障时的异常指标的相关数据信息记录并保存到本地文件中。

6.根据权利要求1所述的方法，其特征在于，步骤3中的健康状态分类步骤具体为：利用支持向量机根据健康度数值的大小将数据库的所有不健康状态分为不同类别：调用Sklearn模型中的数据子集聚类算法MiniMatchKmeans，导入所有健康度数据进行初步训练并保存训练数据；然后调用Sklearn模型中的SVM，使用SVM中的支持向量机分类算法SVC这一分类算法库，设置目标函数的惩罚系数C为1.0，kernel参数设置为linear线性核函数，将健康度数据和MiniMatchKmeans分类算法保存的训练数据拟合并利用SVM训练进行分类。

7.根据权利要求1所述的方法，其特征在于，步骤5中的智能运维步骤具体为：综合考虑数据库健康度等级，智能选择异常指标的对应策略：当数据库健康度在亚健康范畴时，在决策规则库中找到异常指标所对应的规则，再将规则在异常操作库中所映射的第一条限制操作传递给数据库管理员DBA；当数据库健康度在病态范畴时，在将规则所映射的第一条限制操作传递给数据库管理员DBA的基础上，针对其余规则所映射的限制操作，生成一个[0,1]区间内的随机数，若随机数超过0.5，则传递此限制操作，反之，则不传递。

8.根据权利要求7所述的方法，其特征在于：若在已传递操作1的基础上，在规则库中找出限制读操作的规则1，则规则1映射操作1和操作2，此时根据随机数决定是否传递操作2。