CN114637620A - 一种基于svm算法的数据库系统异常分类预测方法 - Google Patents

一种基于svm算法的数据库系统异常分类预测方法 Download PDF

Info

Publication number
CN114637620A
CN114637620A CN202210235059.3A CN202210235059A CN114637620A CN 114637620 A CN114637620 A CN 114637620A CN 202210235059 A CN202210235059 A CN 202210235059A CN 114637620 A CN114637620 A CN 114637620A
Authority
CN
China
Prior art keywords
weight
model
sample
training
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210235059.3A
Other languages
English (en)
Other versions
CN114637620B (zh
Inventor
沈克勤
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Kaite Information Technology Co ltd
Original Assignee
Nanjing Kaite Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Kaite Information Technology Co ltd filed Critical Nanjing Kaite Information Technology Co ltd
Priority to CN202210235059.3A priority Critical patent/CN114637620B/zh
Publication of CN114637620A publication Critical patent/CN114637620A/zh
Application granted granted Critical
Publication of CN114637620B publication Critical patent/CN114637620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于SVM算法的数据库系统异常分类预测方法,核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器),本发明同时解决了系统监测技术领域常见的数据分布不平衡以及预测模型更新等问题,提高了系统监测的预测准确性。另外,本发明通过引入动态样本权重构建方法,使得本发明可以对目标系统进行动态预警,减少人为干预的随机性。最后,本发明的流程相对简单,运行成本较低。

Description

一种基于SVM算法的数据库系统异常分类预测方法
技术领域
本发明涉及一种基于SVM算法的数据库系统异常分类预测方法,属于 技术领域。
背景技术
目标系统经常出现异常状态,从而影响系统性能,因此需要对系统异常情 况进行预测。传统的统计分析方法所需参数少、结构简单,但会受到严格的统 计假设如多重共线性等因素的影响,可能会导致模型的准确率降低,失去预警 功能。逻辑回归、支持向量机等经典机器学习算法因约束条件少、准确率高、 方法灵活性强等优点,在监测技术领域得到了广泛应用,然而现有的机器方法 大多会面临数据分布平衡以及概念漂移等问题,从而使得预测结果不准确,导 致预警错误率比较高。
具体地,在目标系统监测预警方面,归纳起来,主要有两种方式:
(1)传统的统计分析方法,即把系统监测到的指标与是否出现异常的二 元变量进行回归分析,包括单指标回归以及多指标回归。其中,单指标方法虽 然在某些情况下表现良好,但其严重依赖某一个指标,具有较大的局限性;5-10 个指标回归的准确率更高,但会面临较严重的多重共线性问题。
(2)机器学习方法,逻辑回归、支持向量机、决策树等经典机器学习算 法因约束条件少、准确率高等优点,在监测技术领域得到了广泛应用。然而现 有的方法大多会面临数据分布平衡以及概念漂移等问题,从而使得预测结果不 准确,导致预警错误率较高。
现有技术在解决数据库系统监测预警方面的数据分布不平衡问题以及概 念漂移问题存在一定的局限性。本发明在现有技术方法基础上提出包含错误分 类代价的敏感支持向量机目标函数,并引入一个样本权重更新函数,同时解决 了上述两个问题。
发明内容
本发明所要解决的技术问题是,提供一种可以对系统进行动态预警的预测 分类方法,可以解决现有技术中处理数据分布不平衡以及概念漂移等问题的局 限性,有效地提高了系统异常的预测准确性。
为解决上述技术问题,本发明采用的技术方案为:
一种基于SVM算法的数据库系统异常分类预测方法,包括以下步骤:
步骤一,爬取目标系统的工作日志:构造时间长度为T,包含多个指标的 样本集{(xi,yi),i=1…T},i为用时间点标识的样本序号,x为监测到的指标,yi为 目标系统是否异常,根据时间点对指标x进行标识,目标系统异常则yi标注为 1,非异常则标注为0,形成数据集;
步骤二,处理数据集:对监测的指标进行标准化处理;
步骤三,对标准化处理后的数据集进行降维处理;使用主成分分析方法, 对监测指标体系进行降维处理,以主元贡献率达到90%以上为准则,由主成分 算法系统自动确定主成分数量;主成分为筛选后的指标x,获得总体数据集;
步骤四,构建支持向量机目标函数,即模型:
Figure BDA0003540217040000021
式(1)中,γ为法向量,来自于支持向量机方法中的最优超平面等式 γTx+b=0,等式中b为位移项,x为监测到的指标;δi和δj代表松弛变量,n1和 n2分别代表目标系统异常的样本数量和目标系统正常的样本数量;C为错误分 类的惩罚因子,为模型的定值,一般取值为[1,+∞],具体取值根据所处理问题 的特征;C+代表目标系统异常被错误分类为目标系统正常的错误分类代价,C-代表目标系统正常被错误分类为目标系统异常的错误分类代价,C+=(n2/n1)2, C-=(n1/n2)2
步骤五,构建样本权重更新公式:设定时间权重惩罚力度以及时间权重参 数,具体步骤如下:
a,设定模型的循环次数为M;
b,在总体数据集上选择模型的训练集,选择方法是在样本中随机选择90% 的样本为训练样本,10%的样本为测试样本;
c,初始化每个训练样本的权重:设定所有时间点样本的初始权重相同, 第一次训练循环中,所有样本的初始权重是相同的,也即:
Figure BDA0003540217040000031
式(2)中,
Figure BDA0003540217040000032
为样本的权重;
d,开始第1次训练循环:根据步骤四中的模型,基于选出的训练集样本 进行模型训练,生成该次训练的预测模型也即基分类器或弱分类器;
e,第m次训练循环时,样本权重根据分类器权重计算结果对样本的权重 进行更新循环,样本权重的更新公式为:
Figure RE-GDA0003620888610000033
式(3)中,
Figure BDA0003540217040000034
其定义为时间权重的惩罚方向;
Figure BDA0003540217040000035
其定义为第m个基分类器的权重,em表示第m次循环时的分类错误率,也即 模型预测结果的错误率;λ为控制时间权重的惩罚力度,取值在[0,1]之间,其 值越大,代表时间权重的惩罚力度越大;ti为时间权重,样本越旧,ti越小, ti=i,i为以时间点标识的样本序号;1<m<M;
f,计算第1次训练的分类错误率em,也即模型预测结果的错误率,如果 错误分类率em大于f,f取值在0.3-0.6之间,则回到步骤d重新训练;
g,如果错误分类率em小于f,计算基分类器权重,并根据式(3)对样本 的权重进行更新;
h,按照步骤d~g进行第2次到第M次循环;
步骤六,M次循环后,生成最终的输出结果为:
Figure BDA0003540217040000036
式(4)中,Sign为符号函数,最终输出结果为1或0;Γ(x)是一个强分类 器,也即最终的预测模型;其中fm(x)为第m次循环得出的基分类器,由支持 向量机算法自动生成,是一个弱分类器,预测分类结果较差;
步骤七,模型测试:选取训练集之外的10%测试样本作为测试集进行模型 测试。
步骤一中,指标包括用户访问量、CPU温度或系统内存占用率。
步骤一中,目标系统异常的意思为:系统瘫痪或CPU使用率超过95%时, 则为目标系统异常。
步骤二中,标准化处理的方法为:减去均值再除以标准差的方法。
步骤三中,降维处理的方法为:使用主成分分析方法,对监测指标体系进 行降维处理,以主元贡献率达到90%以上为准则,由主成分分析方法自动确定 主成分数量。
分类错误率em是模型预测的系统状态与系统实际状态不符合的样本数量 与全部训练样本的比值。
本发明中的名词解释:
支持向量机:支持向量机(Support Vector Machine,SVM)是一类按监督 学习(supervised learning)方式对数据进行二元分类的广义线性分类器 (generalizedlinear classifier),其决策边界是对学习样本求解的最大边距超平 面(maximum-marginhyperplane)。其使用铰链损失函数(hinge loss)计算经 验风险(empirical risk)并在求解系统中加入了正则化项以优化结构风险 (structural risk),是一个具有稀疏性和稳健性的分类器。
数据分布不平衡:以二元数据为例,所谓不平衡的数据集,意思就是两个 类中一个类的实例比另一个要高,这个问题不仅存在于二进制类数据中,也存 在于多类数据中。
概念漂移:数据分布会随着时间推移发生变化,从而使得基于原数据构建 的旧模型不再适合新样本,模型准确率降低,不再具有参考性。
本发明的核心思想是针对同一个训练集训练不同的分类器(弱分类器), 然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器),本 发明同时解决了系统监测技术领域常见的数据分布不平衡以及预测模型更新 等问题,提高了目标系统弄的分类预测准确性。另外,本发明通过引入动态样 本权重构建方法,使得本发明可以对目标系统进行动态预警,减少人为干预的 随机性。最后,本发明的流程相对简单,运行成本较低。
附图说明
图1为本发明的流程图;
图2为本发明的预测准确率图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,一种基于SVM算法的数据库系统异常分类预测方法, 建立包含错误分类惩罚因子的敏感支持向量机目标函数:
Figure BDA0003540217040000051
其中,γ为法向量,来自于支持向量机方法中的最优超平面等式γTx+b=0, 等式中b为位移项,x为用于预测的监测指标体系。一般而言,监测到的样本 集是线性不可分的,需引进入松弛变量δi和δj,这两个变量是算法内部自动优 化的变量,无需给出具体的函数形式。n1和n2分别代表系统异常的样本数量和 系统正常的样本数量,C为错误分类的惩罚因子。C+代表系统异常被错误分类 为系统正常的错误分类代价,C-系统正常被错误分类为系统异常的错误分类代 价,一般而言设定C+=(n2/n1)2,C-=(n1/n2)2。错误分类代价与数据集的不平衡 程度有关,也与错误分类带来的决策失误损失有关,也可根据目标系统的特性主观设定,比如当系统异常被误分类为系统正常的成本比较大时,此时C+的值 也应当较大。如何错误分类代价设定需要因地制宜。
通过爬取目标系统的工作日志,构造时间长度为T,包含多个指标的样本 集{(xi,yi),i=1…T},i为用时间点标识的样本序号,x为监测到的指标体系,包 含用户访问量、CPU温度、系统内存占用率等指标;yi用来刻画目标系统是否 异常,比如系统瘫痪或CPU使用率超过95%等,标注异常情况为1,非异常 情况为0。
设定训练的循环系数M。
第一次循环中,所有样本的初始权重是相同的,也即:
Figure BDA0003540217040000052
其中,
Figure BDA0003540217040000061
为样本的权重,i为用时间点标识的样本序号。
第m次循环时,样本权重将根据分类器权重计算结果对样本的权重进行 更新循环,样本权重的更新公式为:
Figure RE-GDA0003620888610000063
其中,
Figure BDA0003540217040000063
其定义为时间权重的惩罚方向。
Figure BDA0003540217040000064
其定义为第m个基分类器的权重,em表示第m次循环时的分类错误率(也即 模型预测结果的错误率)。λ为控制时间权重的惩罚力度,一般[0,1]之间,其 值越大,代表时间权重的惩罚力度越大。ti为时间权重,样本越旧,ti越小, 本发明用ti=i来表示,i为以时间点标识的样本序号,这个等式表示样本数据 发生的时间距离目前越远,该样本的权重越小。时间权重也可根据实际情况主 观设定。
每次循环生成一个基分类器,这些分类器都是弱分类器,分类预测的准确 率比较低。
M次循环后,生成最终的输出结果为:
Figure BDA0003540217040000065
Sign为符号函数,最终输出结果为1或0。Γ(x)是一个强分类器,也即最 终的预测模型。其中fm(x)为第m次循环得出的基分类器,由支持向量机算法 自动生成,这是一个弱分类器,预测分类结果较差;αm为各个基分类器的权重,
Figure BDA0003540217040000066
em表示第m次循环时的分类错误率。之后即可以根据监测指 标来预测目标系统是否将面临异常。
本发明改进了传统的机器学习算法,通过引入样本权重更新公式
Figure BDA0003540217040000067
从 而使模型在关注新样本的同时充分利用历史数据信息,实现动态预警。
具体地,本实施例实现的核心步骤流程如下:
1>爬取工作日志。从系统日志库中,爬取目标系统时间长度为T的工作日志。
2>形成数据集。基于所述工作日志,对时间点进行标识,把异常时间点标识 为1,正常时间点标识为0。基于所述工作日志,构建目标系统的监测指标 体系,包含时间长度T内所有时间点的用户访问量、CPU温度、系统内存 占用率等多个指标。形成时间点是否异常为因变量和多个监测指标为自变 量的数据集。
3>处理数据集。对监测的指标进行标准化处理,使用传统的减去均值再除以 标准差的方法进行处理。
4>对数据集进行降维处理。使用主成分分析方法,对监测指标体系进行降维 处理,以主元贡献率达到90%以上为准则,由主成分算法系统自动确定主 成分数量。
5>构建支持向量机目标函数。设定惩罚因子以及错误分类代价参数,设定系 统异常被误分类为系统正常的惩罚因子大于相反情况的惩罚因子,以此解 决数据分布不平衡的问题。
6>构建样本权重更新公式。设定时间权重惩罚力度以及时间权重参数,使得 模型给予早期时间点的样本权重较低,以此解决监测模型过度依赖旧样本 的问题。
7>设定模型的循环次数为M。
8>在总体数据集上选择模型的训练集。选择方法是在样本中随机选择90%的 样本为训练样本,10%的样本为测试样本。
9>初始化每个训练样本的权重。设定所有时间点样本的初始权重相同。
10>开始第1次循环。根据步骤5中的支持向量机目标函数模型,基于选出 的训练集样本进行模型训练,生成该次训练的预测模型也即基分类器或弱 分类器。
11>计算第1次训练的分类错误率(也即模型预测结果的错误率),如果错 误分类率大于f(一般取值在0.3-0.6之间),回到步骤10重新训练。
12>如果错误分类率小于f,计算基分类器权重,并根据给定公式对样本的 权重进行更新。
13>按照步骤10、11进行第2次到第M次循环。
14>输出最终的预测模型。先按照每次循环的结果得出基分类器,再通过加 权求和得出强分类器,也即最终的预测模型。
15>模型测试。选取训练集之外的10%样本作为测试集进行模型测试。
16>算法评价。使用总体样本的分类预测准确率对模型算法进行评价。
如图2所示,为本发明预测准确率的操作实例,具体步骤如下:
第一步:设定对目标系统进行检查的指定时间段,确定需要选取的预测指 标体系。
第二步:对所选取时间段内的系统状态是否异常进行标识,并采集所有时 间点的预测指标体系的相关数据。
第三步:对采集并保存的指标体系进行数据预处理,删除异常指标,对指 标体系进行标准化处理,并进行主成分降维至5个指标。
第四步,对模型的参数进行设置,设置惩罚因子为10,并根据公式计算错 误分类的两个惩罚因子。训练样本占比为90%,设定循环次数为10次。设定 错误分类率阀值为0.4。
第五步,使用统计软件进行模型训练。
第六步,使用10%的测试样本集进行模型测试,计算模型的预测准确率。
第七步,重复试验50次,并对每次模型的预测准确率进行显示。
由图2可以看出:本发明对系统状态的分类预测准确率在0.7-0.9之间,准 确率较高。
应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在 上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到 单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反 映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特 征更多特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前 面公开的实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确 地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技 术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施 例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的 而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离 所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说 许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是 说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通 技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于SVM算法的数据库系统异常分类预测方法,其特征在于,包括以下步骤:
步骤一,爬取目标系统的工作日志:构造时间长度为T,包含多个指标的样本集{(xi,yi),i=1…T},i为用时间点标识的样本序号,x为监测到的指标,yi为目标系统是否异常,根据时间点对指标x进行标识,目标系统异常则yi标注为1,非异常则标注为0,形成数据集;
步骤二,处理数据集:对监测的指标进行标准化处理;
步骤三,对标准化处理后的数据集进行降维处理;使用主成分分析方法,对监测指标体系进行降维处理,以主元贡献率达到90%以上为准则,由主成分算法系统自动确定主成分数量;主成分为筛选后的指标x,获得总体数据集;
步骤四,构建支持向量机目标函数,即模型:
Figure FDA0003540217030000011
式(1)中,γ为法向量,来自于支持向量机方法中的最优超平面等式γTx+b=0,等式中b为位移项,x为监测到的指标;δi和δj代表松弛变量,n1和n2分别代表目标系统异常的样本数量和目标系统正常的样本数量;C为错误分类的惩罚因子,为模型的定值;C+代表目标系统异常被错误分类为目标系统正常的错误分类代价,C-代表目标系统正常被错误分类为目标系统异常的错误分类代价,C+=(n2/n1)2,C-=(n1/n2)2
步骤五,构建样本权重更新公式:设定时间权重惩罚力度以及时间权重参数,具体步骤如下:
a,设定模型的循环次数为M;
b,在总体数据集上选择模型的训练集,选择方法是在样本中随机选择90%的样本为训练样本,10%的样本为测试样本;
c,初始化每个训练样本的权重:设定所有时间点样本的初始权重相同,
第一次训练循环中,所有样本的初始权重是相同的,也即:
Figure FDA0003540217030000021
式(2)中,
Figure FDA0003540217030000022
为样本的权重;
d,开始第1次训练循环:根据步骤四中的模型,基于选出的训练集样本进行模型训练,生成该次训练的预测模型也即基分类器或弱分类器;
e,第m次训练循环时,样本权重根据分类器权重计算结果对样本的权重进行更新循环,样本权重的更新公式为:
Figure DEST_PATH_FDA0003620888600000023
式(3)中,
Figure FDA0003540217030000024
其定义为时间权重的惩罚方向;
Figure FDA0003540217030000025
其定义为第m个基分类器的权重,em表示第m次循环时的分类错误率,也即模型预测结果的错误率;λ为控制时间权重的惩罚力度,取值在[0,1]之间,其值越大,代表时间权重的惩罚力度越大;ti为时间权重,样本越旧,ti越小,ti=i,i为以时间点标识的样本序号;1<m<M;
f,计算第1次训练的分类错误率em,也即模型预测结果的错误率,如果错误分类率em大于f,f取值在0.3-0.6之间,则回到步骤d重新训练;
g,如果错误分类率em小于f,计算基分类器权重,并根据式(3)对样本的权重进行更新;
h,按照步骤d~g进行第2次到第M次循环;
步骤六,M次循环后,生成最终的输出结果为:
Figure FDA0003540217030000026
式(4)中,Sign为符号函数,最终输出结果为1或0;Γ(x)是一个强分类器,也即最终的预测模型;其中fm(x)为第m次循环得出的基分类器,由支持向量机算法自动生成,是一个弱分类器,预测分类结果较差;
步骤七,模型测试:选取训练集之外的10%测试样本作为测试集进行模型测试。
2.根据权利要求1所述的一种基于SVM算法的数据库系统异常分类预测方法,其特征在于,步骤一中,指标包括用户访问量、CPU温度或系统内存占用率。
3.根据权利要求1所述的一种基于SVM算法的数据库系统异常分类预测方法,其特征在于,步骤一中,目标系统异常的意思为:系统瘫痪或CPU使用率超过95%时,则为目标系统异常。
4.根据权利要求1所述的一种基于SVM算法的数据库系统异常分类预测方法,其特征在于,步骤二中,标准化处理的方法为:减去均值再除以标准差的方法。
5.根据权利要求1所述的一种基于SVM算法的数据库系统异常分类预测方法,其特征在于,步骤三中,降维处理的方法为:使用主成分分析方法,对监测指标体系进行降维处理,以主元贡献率达到90%以上为准则,由主成分分析方法自动确定主成分数量。
6.根据权利要求1所述的一种基于SVM算法的数据库系统异常分类预测方法,其特征在于,分类错误率em是模型预测的系统状态与系统实际状态不符合的样本数量与全部训练样本的比值。
CN202210235059.3A 2022-03-10 2022-03-10 一种基于svm算法的数据库系统异常分类预测方法 Active CN114637620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210235059.3A CN114637620B (zh) 2022-03-10 2022-03-10 一种基于svm算法的数据库系统异常分类预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210235059.3A CN114637620B (zh) 2022-03-10 2022-03-10 一种基于svm算法的数据库系统异常分类预测方法

Publications (2)

Publication Number Publication Date
CN114637620A true CN114637620A (zh) 2022-06-17
CN114637620B CN114637620B (zh) 2024-04-16

Family

ID=81947631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210235059.3A Active CN114637620B (zh) 2022-03-10 2022-03-10 一种基于svm算法的数据库系统异常分类预测方法

Country Status (1)

Country Link
CN (1) CN114637620B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577287A (zh) * 2022-09-30 2023-01-06 湖南工程学院 数据处理方法、设备及计算机可读存储介质
CN117909333A (zh) * 2024-02-02 2024-04-19 深圳天朴科技有限公司 基于大数据结合人工智能实现数据的筛选方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学习的不平衡数据分类方法
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN112465040A (zh) * 2020-12-01 2021-03-09 杭州电子科技大学 一种基于类不平衡学习算法的软件缺陷预测方法
US10970650B1 (en) * 2020-05-18 2021-04-06 King Abdulaziz University AUC-maximized high-accuracy classifier for imbalanced datasets
WO2021243848A1 (zh) * 2020-06-03 2021-12-09 枣庄学院 一种无线传感网异常检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学习的不平衡数据分类方法
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
US10970650B1 (en) * 2020-05-18 2021-04-06 King Abdulaziz University AUC-maximized high-accuracy classifier for imbalanced datasets
WO2021243848A1 (zh) * 2020-06-03 2021-12-09 枣庄学院 一种无线传感网异常检测方法
CN112465040A (zh) * 2020-12-01 2021-03-09 杭州电子科技大学 一种基于类不平衡学习算法的软件缺陷预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王波;王怀彬;: "基于主动学习的非均衡异常数据分类算法研究", 信息网络安全, no. 10, 10 October 2017 (2017-10-10), pages 48 - 55 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115577287A (zh) * 2022-09-30 2023-01-06 湖南工程学院 数据处理方法、设备及计算机可读存储介质
CN115577287B (zh) * 2022-09-30 2023-05-30 湖南工程学院 数据处理方法、设备及计算机可读存储介质
CN117909333A (zh) * 2024-02-02 2024-04-19 深圳天朴科技有限公司 基于大数据结合人工智能实现数据的筛选方法及系统

Also Published As

Publication number Publication date
CN114637620B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
US11650968B2 (en) Systems and methods for predictive early stopping in neural network training
CN108985335B (zh) 核反应堆包壳材料辐照肿胀的集成学习预测方法
CN113259331B (zh) 一种基于增量学习的未知异常流量在线检测方法及系统
CN114637620B (zh) 一种基于svm算法的数据库系统异常分类预测方法
CN111834010A (zh) 一种基于属性约简和XGBoost的COVID-19检测假阴性识别方法
CN109656818B (zh) 一种软件密集系统故障预测方法
CN116303786B (zh) 一种基于多维数据融合算法的区块链金融大数据管理系统
CN118171180A (zh) 基于人工智能的设备状态预测方法和装置
CN110956331A (zh) 数字工厂运营状态预测方法、系统、装置
CN117633688A (zh) 一种基于岭回归-k均值聚类-LOF-LSTM融合算法的大规模电力数据异常检测方法
CN117521063A (zh) 基于残差神经网络并结合迁移学习的恶意软件检测方法及装置
KR20210158740A (ko) 기계학습 성능 기반 클러스터링 평가 장치 및 그 방법
CN116956197A (zh) 基于深度学习的能源设施故障预测方法、装置及电子设备
Lu et al. Multi-class malware classification using deep residual network with non-softmax classifier
US20230385664A1 (en) A computer-implemented method for deriving a data processing and inference pipeline
CN111026661B (zh) 一种软件易用性全面测试方法及系统
CN111160419B (zh) 一种基于深度学习的电子式互感器数据分类预测方法及装置
US20220405599A1 (en) Automated design of architectures of artificial neural networks
CN118204832B (zh) 基于贝叶斯深度学习的TCNCSA-BiGRU的刀具磨损预测方法
CN116776134B (zh) 一种基于PCA-SFFS-BiGRU的光伏出力预测方法
CN116429406B (zh) 大型机械设备故障诊断模型的构建方法及装置
CN117992726B (zh) 一种面向旋转机械的多级预警方法、装置、设备及介质
Ampuła Boosting trees in application to hand grenades fuzes
US20210319259A1 (en) Method and apparatus for extracting a pattern of time series data
CN117932342A (zh) 一种风电机组齿轮箱故障诊断方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant