CN114637620A

CN114637620A - 一种基于svm算法的数据库系统异常分类预测方法

Info

Publication number: CN114637620A
Application number: CN202210235059.3A
Authority: CN
Inventors: 沈克勤; 王伟
Original assignee: Nanjing Kaite Information Technology Co ltd
Current assignee: Nanjing Kaite Information Technology Co ltd
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-17
Anticipated expiration: 2042-03-10
Also published as: CN114637620B

Abstract

本发明公开了一种基于SVM算法的数据库系统异常分类预测方法，核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)，本发明同时解决了系统监测技术领域常见的数据分布不平衡以及预测模型更新等问题，提高了系统监测的预测准确性。另外，本发明通过引入动态样本权重构建方法，使得本发明可以对目标系统进行动态预警，减少人为干预的随机性。最后，本发明的流程相对简单，运行成本较低。

Description

一种基于SVM算法的数据库系统异常分类预测方法

技术领域

本发明涉及一种基于SVM算法的数据库系统异常分类预测方法，属于技术领域。

背景技术

目标系统经常出现异常状态，从而影响系统性能，因此需要对系统异常情况进行预测。传统的统计分析方法所需参数少、结构简单，但会受到严格的统计假设如多重共线性等因素的影响，可能会导致模型的准确率降低，失去预警功能。逻辑回归、支持向量机等经典机器学习算法因约束条件少、准确率高、方法灵活性强等优点，在监测技术领域得到了广泛应用，然而现有的机器方法大多会面临数据分布平衡以及概念漂移等问题，从而使得预测结果不准确，导致预警错误率比较高。

具体地，在目标系统监测预警方面，归纳起来，主要有两种方式：

(1)传统的统计分析方法，即把系统监测到的指标与是否出现异常的二元变量进行回归分析，包括单指标回归以及多指标回归。其中，单指标方法虽然在某些情况下表现良好，但其严重依赖某一个指标，具有较大的局限性；5-10 个指标回归的准确率更高，但会面临较严重的多重共线性问题。

(2)机器学习方法，逻辑回归、支持向量机、决策树等经典机器学习算法因约束条件少、准确率高等优点，在监测技术领域得到了广泛应用。然而现有的方法大多会面临数据分布平衡以及概念漂移等问题，从而使得预测结果不准确，导致预警错误率较高。

现有技术在解决数据库系统监测预警方面的数据分布不平衡问题以及概念漂移问题存在一定的局限性。本发明在现有技术方法基础上提出包含错误分类代价的敏感支持向量机目标函数，并引入一个样本权重更新函数，同时解决了上述两个问题。

发明内容

本发明所要解决的技术问题是，提供一种可以对系统进行动态预警的预测分类方法，可以解决现有技术中处理数据分布不平衡以及概念漂移等问题的局限性，有效地提高了系统异常的预测准确性。

为解决上述技术问题，本发明采用的技术方案为：

一种基于SVM算法的数据库系统异常分类预测方法，包括以下步骤：

步骤一，爬取目标系统的工作日志：构造时间长度为T，包含多个指标的样本集{(xⁱ，yⁱ)，i＝1…T}，i为用时间点标识的样本序号，x为监测到的指标，yⁱ为目标系统是否异常，根据时间点对指标x进行标识，目标系统异常则yⁱ标注为 1，非异常则标注为0，形成数据集；

步骤二，处理数据集：对监测的指标进行标准化处理；

步骤三，对标准化处理后的数据集进行降维处理；使用主成分分析方法，对监测指标体系进行降维处理，以主元贡献率达到90％以上为准则，由主成分算法系统自动确定主成分数量；主成分为筛选后的指标x，获得总体数据集；

步骤四，构建支持向量机目标函数，即模型：

式(1)中，γ为法向量，来自于支持向量机方法中的最优超平面等式 γ^Tx+b＝0，等式中b为位移项，x为监测到的指标；δ_i和δ_j代表松弛变量，n₁和 n₂分别代表目标系统异常的样本数量和目标系统正常的样本数量；C为错误分类的惩罚因子，为模型的定值，一般取值为[1，+∞]，具体取值根据所处理问题的特征；C₊代表目标系统异常被错误分类为目标系统正常的错误分类代价，C_-代表目标系统正常被错误分类为目标系统异常的错误分类代价，C₊＝(n₂/n₁)²， C_-＝(n₁/n₂)²；

步骤五，构建样本权重更新公式：设定时间权重惩罚力度以及时间权重参数，具体步骤如下：

a，设定模型的循环次数为M；

b，在总体数据集上选择模型的训练集，选择方法是在样本中随机选择90％的样本为训练样本，10％的样本为测试样本；

c，初始化每个训练样本的权重：设定所有时间点样本的初始权重相同，第一次训练循环中，所有样本的初始权重是相同的，也即：

式(2)中，

为样本的权重；

d，开始第1次训练循环：根据步骤四中的模型，基于选出的训练集样本进行模型训练，生成该次训练的预测模型也即基分类器或弱分类器；

e，第m次训练循环时，样本权重根据分类器权重计算结果对样本的权重进行更新循环，样本权重的更新公式为：

式(3)中，

其定义为时间权重的惩罚方向；

其定义为第m个基分类器的权重，e^m表示第m次循环时的分类错误率，也即模型预测结果的错误率；λ为控制时间权重的惩罚力度，取值在[0，1]之间，其值越大，代表时间权重的惩罚力度越大；tⁱ为时间权重，样本越旧，tⁱ越小， tⁱ＝i，i为以时间点标识的样本序号；1＜m＜M；

f，计算第1次训练的分类错误率e^m，也即模型预测结果的错误率，如果错误分类率e^m大于f，f取值在0.3-0.6之间，则回到步骤d重新训练；

g，如果错误分类率e^m小于f，计算基分类器权重，并根据式(3)对样本的权重进行更新；

h，按照步骤d～g进行第2次到第M次循环；

步骤六，M次循环后，生成最终的输出结果为：

式(4)中，Sign为符号函数，最终输出结果为1或0；Γ(x)是一个强分类器，也即最终的预测模型；其中f_m(x)为第m次循环得出的基分类器，由支持向量机算法自动生成，是一个弱分类器，预测分类结果较差；

步骤七，模型测试：选取训练集之外的10％测试样本作为测试集进行模型测试。

步骤一中，指标包括用户访问量、CPU温度或系统内存占用率。

步骤一中，目标系统异常的意思为：系统瘫痪或CPU使用率超过95％时，则为目标系统异常。

步骤二中，标准化处理的方法为：减去均值再除以标准差的方法。

步骤三中，降维处理的方法为：使用主成分分析方法，对监测指标体系进行降维处理，以主元贡献率达到90％以上为准则，由主成分分析方法自动确定主成分数量。

分类错误率e^m是模型预测的系统状态与系统实际状态不符合的样本数量与全部训练样本的比值。

本发明中的名词解释：

支持向量机：支持向量机(Support Vector Machine，SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器 (generalizedlinear classifier)，其决策边界是对学习样本求解的最大边距超平面(maximum-marginhyperplane)。其使用铰链损失函数(hinge loss)计算经验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险 (structural risk)，是一个具有稀疏性和稳健性的分类器。

数据分布不平衡：以二元数据为例，所谓不平衡的数据集，意思就是两个类中一个类的实例比另一个要高，这个问题不仅存在于二进制类数据中，也存在于多类数据中。

概念漂移：数据分布会随着时间推移发生变化，从而使得基于原数据构建的旧模型不再适合新样本，模型准确率降低，不再具有参考性。

本发明的核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)，本发明同时解决了系统监测技术领域常见的数据分布不平衡以及预测模型更新等问题，提高了目标系统弄的分类预测准确性。另外，本发明通过引入动态样本权重构建方法，使得本发明可以对目标系统进行动态预警，减少人为干预的随机性。最后，本发明的流程相对简单，运行成本较低。

附图说明

图1为本发明的流程图；

图2为本发明的预测准确率图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示，一种基于SVM算法的数据库系统异常分类预测方法，建立包含错误分类惩罚因子的敏感支持向量机目标函数：

其中，γ为法向量，来自于支持向量机方法中的最优超平面等式γ^Tx+b＝0，等式中b为位移项，x为用于预测的监测指标体系。一般而言，监测到的样本集是线性不可分的，需引进入松弛变量δ_i和δ_j，这两个变量是算法内部自动优化的变量，无需给出具体的函数形式。n₁和n₂分别代表系统异常的样本数量和系统正常的样本数量，C为错误分类的惩罚因子。C₊代表系统异常被错误分类为系统正常的错误分类代价，C_-系统正常被错误分类为系统异常的错误分类代价，一般而言设定C₊＝(n₂/n₁)²，C_-＝(n₁/n₂)²。错误分类代价与数据集的不平衡程度有关，也与错误分类带来的决策失误损失有关，也可根据目标系统的特性主观设定，比如当系统异常被误分类为系统正常的成本比较大时，此时C₊的值也应当较大。如何错误分类代价设定需要因地制宜。

通过爬取目标系统的工作日志，构造时间长度为T，包含多个指标的样本集{(xⁱ，yⁱ)，i＝1…T}，i为用时间点标识的样本序号，x为监测到的指标体系，包含用户访问量、CPU温度、系统内存占用率等指标；yⁱ用来刻画目标系统是否异常，比如系统瘫痪或CPU使用率超过95％等，标注异常情况为1，非异常情况为0。

设定训练的循环系数M。

第一次循环中，所有样本的初始权重是相同的，也即：

其中，

为样本的权重，i为用时间点标识的样本序号。

第m次循环时，样本权重将根据分类器权重计算结果对样本的权重进行更新循环，样本权重的更新公式为：

其中，

其定义为时间权重的惩罚方向。

其定义为第m个基分类器的权重，e^m表示第m次循环时的分类错误率(也即模型预测结果的错误率)。λ为控制时间权重的惩罚力度，一般[0，1]之间，其值越大，代表时间权重的惩罚力度越大。tⁱ为时间权重，样本越旧，tⁱ越小，本发明用tⁱ＝i来表示，i为以时间点标识的样本序号，这个等式表示样本数据发生的时间距离目前越远，该样本的权重越小。时间权重也可根据实际情况主观设定。

每次循环生成一个基分类器，这些分类器都是弱分类器，分类预测的准确率比较低。

M次循环后，生成最终的输出结果为：

Sign为符号函数，最终输出结果为1或0。Γ(x)是一个强分类器，也即最终的预测模型。其中f_m(x)为第m次循环得出的基分类器，由支持向量机算法自动生成，这是一个弱分类器，预测分类结果较差；α_m为各个基分类器的权重，

e^m表示第m次循环时的分类错误率。之后即可以根据监测指标来预测目标系统是否将面临异常。

本发明改进了传统的机器学习算法，通过引入样本权重更新公式

从而使模型在关注新样本的同时充分利用历史数据信息，实现动态预警。

具体地，本实施例实现的核心步骤流程如下：

1>爬取工作日志。从系统日志库中，爬取目标系统时间长度为T的工作日志。

2>形成数据集。基于所述工作日志，对时间点进行标识，把异常时间点标识为1，正常时间点标识为0。基于所述工作日志，构建目标系统的监测指标体系，包含时间长度T内所有时间点的用户访问量、CPU温度、系统内存占用率等多个指标。形成时间点是否异常为因变量和多个监测指标为自变量的数据集。

3>处理数据集。对监测的指标进行标准化处理，使用传统的减去均值再除以标准差的方法进行处理。

4>对数据集进行降维处理。使用主成分分析方法，对监测指标体系进行降维处理，以主元贡献率达到90％以上为准则，由主成分算法系统自动确定主成分数量。

5>构建支持向量机目标函数。设定惩罚因子以及错误分类代价参数，设定系统异常被误分类为系统正常的惩罚因子大于相反情况的惩罚因子，以此解决数据分布不平衡的问题。

6>构建样本权重更新公式。设定时间权重惩罚力度以及时间权重参数，使得模型给予早期时间点的样本权重较低，以此解决监测模型过度依赖旧样本的问题。

7>设定模型的循环次数为M。

8>在总体数据集上选择模型的训练集。选择方法是在样本中随机选择90％的样本为训练样本，10％的样本为测试样本。

9>初始化每个训练样本的权重。设定所有时间点样本的初始权重相同。

10>开始第1次循环。根据步骤5中的支持向量机目标函数模型，基于选出的训练集样本进行模型训练，生成该次训练的预测模型也即基分类器或弱分类器。

11>计算第1次训练的分类错误率(也即模型预测结果的错误率)，如果错误分类率大于f(一般取值在0.3-0.6之间)，回到步骤10重新训练。

12>如果错误分类率小于f，计算基分类器权重，并根据给定公式对样本的权重进行更新。

13>按照步骤10、11进行第2次到第M次循环。

14>输出最终的预测模型。先按照每次循环的结果得出基分类器，再通过加权求和得出强分类器，也即最终的预测模型。

15>模型测试。选取训练集之外的10％样本作为测试集进行模型测试。

16>算法评价。使用总体样本的分类预测准确率对模型算法进行评价。

如图2所示，为本发明预测准确率的操作实例，具体步骤如下：

第一步：设定对目标系统进行检查的指定时间段，确定需要选取的预测指标体系。

第二步：对所选取时间段内的系统状态是否异常进行标识，并采集所有时间点的预测指标体系的相关数据。

第三步：对采集并保存的指标体系进行数据预处理，删除异常指标，对指标体系进行标准化处理，并进行主成分降维至5个指标。

第四步，对模型的参数进行设置，设置惩罚因子为10，并根据公式计算错误分类的两个惩罚因子。训练样本占比为90％，设定循环次数为10次。设定错误分类率阀值为0.4。

第五步，使用统计软件进行模型训练。

第六步，使用10％的测试样本集进行模型测试，计算模型的预测准确率。

第七步，重复试验50次，并对每次模型的预测准确率进行显示。

由图2可以看出：本发明对系统状态的分类预测准确率在0.7-0.9之间，准确率较高。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于SVM算法的数据库系统异常分类预测方法，其特征在于，包括以下步骤：

步骤一，爬取目标系统的工作日志：构造时间长度为T，包含多个指标的样本集{(xⁱ，yⁱ)，i＝1…T}，i为用时间点标识的样本序号，x为监测到的指标，yⁱ为目标系统是否异常，根据时间点对指标x进行标识，目标系统异常则yⁱ标注为1，非异常则标注为0，形成数据集；

步骤二，处理数据集：对监测的指标进行标准化处理；

步骤四，构建支持向量机目标函数，即模型：

式(1)中，γ为法向量，来自于支持向量机方法中的最优超平面等式γ^Tx+b＝0，等式中b为位移项，x为监测到的指标；δ_i和δ_j代表松弛变量，n₁和n₂分别代表目标系统异常的样本数量和目标系统正常的样本数量；C为错误分类的惩罚因子，为模型的定值；C₊代表目标系统异常被错误分类为目标系统正常的错误分类代价，C_-代表目标系统正常被错误分类为目标系统异常的错误分类代价，C₊＝(n₂/n₁)²，C_-＝(n₁/n₂)²；

a，设定模型的循环次数为M；

c，初始化每个训练样本的权重：设定所有时间点样本的初始权重相同，

第一次训练循环中，所有样本的初始权重是相同的，也即：

式(2)中，

为样本的权重；

式(3)中，

其定义为时间权重的惩罚方向；

其定义为第m个基分类器的权重，e^m表示第m次循环时的分类错误率，也即模型预测结果的错误率；λ为控制时间权重的惩罚力度，取值在[0，1]之间，其值越大，代表时间权重的惩罚力度越大；tⁱ为时间权重，样本越旧，tⁱ越小，tⁱ＝i，i为以时间点标识的样本序号；1＜m＜M；

h，按照步骤d～g进行第2次到第M次循环；

步骤六，M次循环后，生成最终的输出结果为：

2.根据权利要求1所述的一种基于SVM算法的数据库系统异常分类预测方法，其特征在于，步骤一中，指标包括用户访问量、CPU温度或系统内存占用率。

3.根据权利要求1所述的一种基于SVM算法的数据库系统异常分类预测方法，其特征在于，步骤一中，目标系统异常的意思为：系统瘫痪或CPU使用率超过95％时，则为目标系统异常。

4.根据权利要求1所述的一种基于SVM算法的数据库系统异常分类预测方法，其特征在于，步骤二中，标准化处理的方法为：减去均值再除以标准差的方法。

5.根据权利要求1所述的一种基于SVM算法的数据库系统异常分类预测方法，其特征在于，步骤三中，降维处理的方法为：使用主成分分析方法，对监测指标体系进行降维处理，以主元贡献率达到90％以上为准则，由主成分分析方法自动确定主成分数量。

6.根据权利要求1所述的一种基于SVM算法的数据库系统异常分类预测方法，其特征在于，分类错误率e^m是模型预测的系统状态与系统实际状态不符合的样本数量与全部训练样本的比值。