CN114202110A - 一种基于rf-xgboost的业务故障预测方法及装置 - Google Patents

一种基于rf-xgboost的业务故障预测方法及装置 Download PDF

Info

Publication number
CN114202110A
CN114202110A CN202111403175.3A CN202111403175A CN114202110A CN 114202110 A CN114202110 A CN 114202110A CN 202111403175 A CN202111403175 A CN 202111403175A CN 114202110 A CN114202110 A CN 114202110A
Authority
CN
China
Prior art keywords
model
xgboost
predicted
sample
positive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111403175.3A
Other languages
English (en)
Other versions
CN114202110B (zh
Inventor
郭兆旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unihub China Information Technology Co Ltd
Original Assignee
Unihub China Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unihub China Information Technology Co Ltd filed Critical Unihub China Information Technology Co Ltd
Priority to CN202111403175.3A priority Critical patent/CN114202110B/zh
Publication of CN114202110A publication Critical patent/CN114202110A/zh
Application granted granted Critical
Publication of CN114202110B publication Critical patent/CN114202110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于RF‑XGBOOST的业务故障预测方法及装置,其中,该方法包括:建业务监控指标,对采集的指标数据进行预处理形成样本;将样本数据分为训练集和测试集,基于训练集分别构建RF模型和XGBOOST模型,并通过权重线性组合两种模型构建RF‑XGBOOST模型;基于测试集对RF‑XGBOOST模型进行评价;利用RF‑XGBOOST模型对业务进行实时监控,对预测故障的结果进行告警,并进行告警处置;对预测错误的结果通过人工研判进行校正并记录;将未来一段时间内的真实数据纳入模型样本中。该方法及装置通过构建RF‑XGBOOST模型的不断训练,将机器学习与专家经验优势互补,进行故障预判和预处理。

Description

一种基于RF-XGBOOST的业务故障预测方法及装置
技术领域
本发明涉及业务系统故障处理领域,尤其是一种基于RF-XGBOOST的业务故障预测方法及装置。
背景技术
目前业务系统在故障处理方面存在两个显著的问题:
1、业务系统的故障发现和故障处置存在滞后性,通常在故障发生后,有业务需求并发现业务不可用时才发现业务故障,故障处置中的故障定位和故障处置滞后性会更显著。
2、业务系统故障处置存在人才梯度,新人和专家在故障发现、故障定位和故障处置中存在明显差异。
发明内容
为了解决故障发现和故障处理的滞后性问题,本发明提供一种基于RF-XGBOOST的业务故障预测方法及装置,通过构建RF-XGBOOST模型,利用机器学习和专家经验的优势互补,实现故障预判和故障预处理,提高故障发现和故障处置的及时性和有效性,并且RF-XGBOOST模型的不断训练,可以持续提高预测准确度。
为实现上述目的,本发明采用下述技术方案:
在本发明一实施例中,提出了一种基于RF-XGBOOST的业务故障预测方法,该方法包括:
构建业务监控指标,对采集的指标数据进行预处理形成样本;
将样本数据分为训练集和测试集,基于训练集分别构建RF模型和XGBOOST模型,并通过权重线性组合两种模型构建RF-XGBOOST模型;基于测试集对RF-XGBOOST模型进行评价;
利用RF-XGBOOST模型对业务进行实时监控,对预测故障的结果进行告警,并进行告警处置;对预测错误的结果通过人工研判进行校正并记录;
将未来一段时间内的真实数据纳入模型样本中。
进一步地,RF模型构建过程如下:
选取业务监控指标作为输入变量,利用训练集构建RF模型,训练集的样本量为0.8n,n为样本数量,RF模型的输出结果为预测值和预测概率;
假设第i个样本的RF模型预测值为wi,RF模型预测概率为xi,则RF模型的预测概率向量为X=(x1,x2,……,x0.8n);
利用公式(1)计算出RF模型的识别准确率为α,公式(1)如下:
Figure BDA0003371795940000021
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数。
进一步地,XGBOOST模型构建过程如下:
选取业务监控指标作为输入变量,利用训练集构建XGBOOST模型,训练集的样本量为0.8n,n为样本数量,XGBOOST模型的输出结果为预测值和预测概率;
假设第i个样本的XGBOOST模型预测值为Wi,XGBOOST模型预测概率为yi,则XGBOOST模型的预测概率向量为Y=(y1,y2,……,y0.8n);
利用公式(1)计算出XGBOOST模型的识别准确率为β,公式(1)如下:
Figure BDA0003371795940000031
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数。
进一步地,RF-XGBOOST模型构建过程如下:
假设RF模型的权重为
Figure BDA0003371795940000032
XGBOOST模型的权重为
Figure BDA0003371795940000033
则将RF模型的预测概率向量X和XGBOOST模型的预测概率向量Y按权重线性组合的预测概率向量Z如下:
Figure BDA0003371795940000034
假设向量Z为RF-XGBOOST模型的预测概率向量,RF-XGBOOST模型的阈值为ε,则第i个样本的RF-XGBOOST模型预测值为gi
Figure BDA0003371795940000035
若RF-XGBOOST模型预测值gi值为1,则代表发生故障,否则未发生故障;因此,RF-XGBOOST模型预测值向量G如下:
G=(g1,g2,。。。g0.8n) (4)
进一步地,基于测试集对RF-XGBOOST模型进行评价,包括:
将训练好的RF-XGBOOST模型应用到测试集上,利用公式(1)评价模型的优劣,公式(1)如下:
Figure BDA0003371795940000036
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数;
若达标则输出最佳的RF-XGBOOST模型;否则重新执行构建预测模型,进行参数优化;若一直不达标,重新选取业务监控指标,重新构建模型。
在本发明一实施例中,还提出了一种基于RF-XGBOOST的业务故障预测装置,该装置包括:
样本采集模块,用于构建业务监控指标,对采集的指标数据进行预处理形成样本;
模型构建模块,用于将样本数据分为训练集和测试集,基于训练集分别构建RF模型和XGBOOST模型,并通过权重线性组合两种模型构建RF-XGBOOST模型;
模型评价模块,用于基于测试集对RF-XGBOOST模型进行评价;
模型应用模块,用于利用RF-XGBOOST模型对业务进行实时监控,对预测故障的结果进行告警,并进行告警处置;对预测错误的结果通过人工研判进行校正并记录;
模型优化模块,用于将未来一段时间内的真实数据纳入模型样本中。
进一步地,RF模型构建过程如下:
选取业务监控指标作为输入变量,利用训练集构建RF模型,训练集的样本量为0.8n,n为样本数量,RF模型的输出结果为预测值和预测概率;
假设第i个样本的RF模型预测值为wi,RF模型预测概率为xi,则RF模型的预测概率向量为X=(x1,x2,……,x0.8n);
利用公式(1)计算出RF模型的识别准确率为α,公式(1)如下:
Figure BDA0003371795940000051
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数。
进一步地,XGBOOST模型构建过程如下:
选取业务监控指标作为输入变量,利用训练集构建XGBOOST模型,训练集的样本量为0.8n,n为样本数量,XGBOOST模型的输出结果为预测值和预测概率;
假设第i个样本的XGBOOST模型预测值为Wi,XGBOOST模型预测概率为yi,则XGBOOST模型的预测概率向量为Y=(y1,y2,……,y0.8n);
利用公式(1)计算出XGBOOST模型的识别准确率为β,公式(1)如下:
Figure BDA0003371795940000052
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数。
进一步地,RF-XGBOOST模型构建过程如下:
假设RF模型的权重为
Figure BDA0003371795940000053
XGBOOST模型的权重为
Figure BDA0003371795940000054
则将RF模型的预测概率向量X和XGBOOST模型的预测概率向量Y按权重线性组合的预测概率向量Z如下:
Figure BDA0003371795940000055
假设向量Z为RF-XGBOOST模型的预测概率向量,RF-XGBOOST模型的阈值为ε,则第i个样本的RF-XGBOOST模型预测值为gi
Figure BDA0003371795940000061
若RF-XGBOOST模型预测值gi值为1,则代表发生故障,否则未发生故障;因此,RF-XGBOOST模型预测值向量G如下:
G=(g1,g2,。。。g0.8n) (4)
进一步地,模型评价模块,具体用于:
将训练好的RF-XGBOOST模型应用到测试集上,利用公式(1)评价模型的优劣,公式(1)如下:
Figure BDA0003371795940000062
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数;
若达标则输出最佳的RF-XGBOOST模型;否则重新执行构建预测模型,进行参数优化;若一直不达标,重新选取业务监控指标,重新构建模型。
在本发明一实施例中,还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现前述基于RF-XGBOOST的业务故障预测方法。
在本发明一实施例中,还提出了一种计算机可读存储介质,计算机可读存储介质存储有执行基于RF-XGBOOST的业务故障预测方法的计算机程序。
有益效果:
1、本发明中故障预测模型结合机器学习和专家经验优势,可以持续提高故障预测准确性。
2、本发明中故障预测模型可以实现业务故障自动预判及故障预处置,解决通用场景中故障发现和故障处理的滞后性问题。
附图说明
图1是本发明基于RF-XGBOOST的业务故障预测方法框架图;
图2是本发明基于RF-XGBOOST的业务故障预测方法流程示意图;
图3是本发明基于RF-XGBOOST的业务故障预测装置结构示意图;
图4是本发明计算机设备结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神,应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种基于RF-XGBOOST的业务故障预测方法及装置,通过构建RF-XGBOOST模型的不断训练,将机器学习与专家经验优势互补,进行故障预判和故障预处理,解决故障发现和故障处理的滞后性问题。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
图1是本发明基于RF-XGBOOST的业务故障预测方法框架图。如图1所示,该方法可以归纳为5个部分:
1、准备样本
需要通过专家经验确认业务监控对象,构建监控指标,采集并计算指标数据(采集的指标数据与监控指标之间是强相关关系,此处的计算有求均值,求最大值、求差值等,本发明不再展开),对采集的指标数据进行预处理形成样本。
2、构建模型
将样本数据分为训练集和测试集,训练集用于训练模型,测试集用于评价模型的准确性。
基于训练集分别构建RF(随机森林算法)模型和XGBOOST(梯度提升算法的机器学习函数库)模型,并通过权重法将两种模型组合构建RF-XGBOOST模型。
3、模型评价
利用测试集对RF-XGBOOST模型进行评价,如果达标可以输出模型投产使用,如果不达标则需要重新训练构建模型。
4、模型应用
利用RF-XGBOOST模型对业务监控指标实时监控指标数据进行判断,发现异常指标数据,触发阈值ε,进行故障预测告警,并进行告警处置。如果告警误报,需要通过人工研判进行校正,并将人工研判结果记录,作为后续训练的数据。
5、模型优化
RF-XGBOOST模型运行一段时间后,可以将此间真实数据作为样本继续训练和评价模型,持续提高模型的预判准确度。
图2是本发明基于RF-XGBOOST的业务故障预测方法流程示意图。
如图2所示,具体流程如下:
1、确认业务监控对象
包含业务性能、业务调用资源的性能和故障信息,可以从业务系统及资源监控模块获取。
2、构建监控指标
基于业务性能、故障信息和调用的资源性能构建监控指标。
3、数据预处理
对数据进行数据清洗、数据变换、数据规约和数据处理形成数据宽表。
4、构建预测模型
假定{(ui,vi)},i=1,2,…,n,其中n为样本数量,其中ui=(ui1,ui2,……,uiq)为模型的第i个样本的输入变量,q为模型特征数量,uij为第i个样本的j个指标,vi为模型的第i个样本的目标变量,即是否故障。采用随机划分方法选取80%的样本作为训练集,20%的样本作为测试集,构建RF-XGBOOST模型;RF-XGBOOST模型是在单一的RF模型和XGBOOST模型的基础上按权重线性组合两算法集成的;下面先利用训练集分别构建RF模型和XGBOOST模型;训练集的样本量为0.8n,0.8n不管是整数还是小数,这里都先这样表示;当0.8n为小数时,计算时将会四舍五入为整数。
RF模型构建过程如下:选取业务监控指标作为输入变量,利用训练集构建RF模型,RF模型的输出结果为预测值和预测概率;这里设第i个样本的RF模型预测值为wi,RF模型预测概率为xi,则RF模型的预测概率向量为X=(x1,x2,……,x0.8n);RF模型的结果样例如下表1:
表1 RF模型的结果样例表
样本序号 输入变量 目标变量 预测值 预测概率
1 u<sub>1</sub> v<sub>1</sub> w<sub>1</sub> x<sub>1</sub>
2 u<sub>2</sub> v<sub>2</sub> w<sub>2</sub> x<sub>2</sub>
为了评价RF模型的识别效果的优劣,选用将精准率和召回率组合的综合评价指标(F1)作为识别准确率;综合评价指标(F1)定义如下:
Figure BDA0003371795940000101
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数;
利用公式(1)可计算出RF模型的识别准确率为α,其中α为RF模型的识别准确率,是一个数值;
同样地构建XGBOOST模型如下:选取业务监控指标作为输入变量,利用训练集构建XGBOOST模型,XGBOOST模型的输出结果为预测值和预测概率;这里设第i个样本的XGBOOST模型预测值为Wi,XGBOOST模型预测概率为yi,则XGBOOST模型的预测概率向量为Y=(y1,y2,……,y0.8n);利用公式(1)可计算出XGBOOST模型的识别准确率为β,其中β为XGBOOST模型的识别准确率,是一个数值,这里面的β和α是两个不同的数值;
RF-XGBOOST模型的构建过程如下:假定RF模型的权重为
Figure BDA0003371795940000111
XGBOOST模型的权重为
Figure BDA0003371795940000112
这里的权重是根据识别准确率组合获得的;那么将RF模型的预测概率向量X和XGBOOST模型的预测概率Y按权重线性组合的预测概率向量Z如下:
Figure BDA0003371795940000113
假设向量Z为RF-XGBOOST模型的预测概率向量,RF-XGBOOST模型的阈值为ε,则第i个样本的RF-XGBOOST模型预测值为gi,定义如公式(3)所示:
Figure BDA0003371795940000114
若RF-XGBOOST模型预测值gi值为1,则代表发生故障,否则未发生故障;因此,RF-XGBOOST模型预测值向量G如下:
G=(g1,g2,……,g0.8n) (4)
向量Z和向量G是RF-XGBOOST模型的故障预测概率向量和预测值向量。
5、模型评价
将训练好的RF-XGBOOST模型应用到测试集上,利用综合评价指标(F1)即公式(1)评价模型的优劣;若F1大于0.8,则输出最佳的RF-XGBOOST模型;否则重新执行步骤4,进行参数优化;若一直不能大于0.8,重新选取监控指标,重新构建模型。
5、基于RF-XGBOOST模型对业务进行实时监控。
6、对于预判故障的结果进行告警并采取相应措施。
7、人工研判对预测错误的结果进行校正并录入数据库,然后对于未来一段时间真实发生情况,发生故障数据再次纳入模型样本中继续训练模型,优化模型。
需要说明的是,尽管在上述实施例及附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
为了对上述基于RF-XGBOOST的业务故障预测方法进行更为清楚的解释,下面结合一个具体的实施例来进行说明,然而值得注意的是该实施例仅是为了更好地说明本发明,并不构成对本发明不当的限定。
实现场景一:
1、确认业务监控对象:业务性能、故障记录、调用资源1和调用资源2。
2、构建监控指标
基于业务性能、故障信息和调用的资源性能构建监控指标。示例如下表2:
表2
Figure BDA0003371795940000131
3、数据预处理
对数据进行数据清洗、数据变换、数据规约和数据处理形成数据宽表。
4、构建预测模型
采用随机划分方法选取80%的样本作为训练集,20%的样本作为测试集,使用训练集构建RF-XGBOOST模型,并计算出RF-XGBOOST模型的故障预测概率向量和预测值向量。
5、模型评价
将训练好的RF-XGBOOST模型应用到测试集上,利用综合评价指标(F1)评价模型的优劣;若F1大于0.8,则输出最佳的RF-XGBOOST模型;否则重新执行步骤4进行参数优化;若一直不能大于0.8,则重新选取监控指标,重新构建模型。
5、基于RF-XGBOOST模型对业务进行实时监控。
6、对于预判故障的结果进行告警并采取相应措施。
7、人工研判对预测错误的结果进行校正并录入数据库,然后对于未来一段时间真实发生情况,发生故障数据再次纳入模型样本中继续训练模型,优化模型。
基于同一发明构思,本发明还提出一种基于RF-XGBOOST的业务故障预测装置。该装置的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的术语“模块”,可以是实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是本发明基于RF-XGBOOST的业务故障预测装置结构示意图。如图3所示,该装置包括:
样本采集模块101,用于构建业务监控指标,对采集的指标数据进行预处理形成样本;
模型构建模块102,用于将样本数据分为训练集和测试集,基于训练集分别构建RF模型和XGBOOST模型,并通过权重线性组合两种模型构建RF-XGBOOST模型;
RF模型构建过程如下:
选取业务监控指标作为输入变量,利用训练集构建RF模型,训练集的样本量为0.8n,n为样本数量,RF模型的输出结果为预测值和预测概率;
假设第i个样本的RF模型预测值为wi,RF模型预测概率为xi,则RF模型的预测概率向量为X=(x1,x2,……,x0.8n);
利用公式(1)计算出RF模型的识别准确率为α,公式(1)如下:
Figure BDA0003371795940000151
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数。
XGBOOST模型构建过程如下:
选取业务监控指标作为输入变量,利用训练集构建XGBOOST模型,训练集的样本量为0.8n,n为样本数量,XGBOOST模型的输出结果为预测值和预测概率;
假设第i个样本的XGBOOST模型预测值为Wi,XGBOOST模型预测概率为yi,则XGBOOST模型的预测概率向量为Y=(y1,y2,……,y0.8n);
利用公式(1)计算出XGBOOST模型的识别准确率为β,公式(1)如下:
Figure BDA0003371795940000161
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数。
RF-XGBOOST模型构建过程如下:
假设RF模型的权重为
Figure BDA0003371795940000162
XGBOOST模型的权重为
Figure BDA0003371795940000163
则将RF模型的预测概率向量X和XGBOOST模型的预测概率向量Y按权重线性组合的预测概率向量Z如下:
Figure BDA0003371795940000164
假设向量Z为RF-XGBOOST模型的预测概率向量,RF-XGBOOST模型的阈值为ε,则第i个样本的RF-XGBOOST模型预测值为gi
Figure BDA0003371795940000165
若RF-XGBOOST模型预测值gi值为1,则代表发生故障,否则未发生故障;因此,RF-XGBOOST模型预测值向量G如下:
G=(g1,g2,。。。g0.8n) (4)
模型评价模块103,用于基于测试集对RF-XGBOOST模型进行评价;
将训练好的RF-XGBOOST模型应用到测试集上,利用公式(1)评价模型的优劣,公式(1)如下:
Figure BDA0003371795940000166
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数;
若达标则输出最佳的RF-XGBOOST模型;否则重新执行构建预测模型,进行参数优化;若一直不达标,重新选取业务监控指标,重新构建模型。
模型应用模块104,用于利用RF-XGBOOST模型对业务进行实时监控,对预测故障的结果进行告警,并进行告警处置;对预测错误的结果通过人工研判进行校正并记录。
模型优化模块105,用于将未来一段时间内的真实数据纳入模型样本中。
应当注意,尽管在上文详细描述中提及了基于RF-XGBOOST的业务故障预测装置的若干模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
基于前述发明构思,如图4所示,本发明还提出一种计算机设备200,包括存储器210、处理器220及存储在存储器210上并可在处理器220上运行的计算机程序230,处理器220执行计算机程序230时实现前述基于RF-XGBOOST的业务故障预测方法。
基于前述发明构思,本发明还提出一种计算机可读存储介质,计算机可读存储介质存储有执行前述基于RF-XGBOOST的业务故障预测方法的计算机程序。
本发明提出的基于RF-XGBOOST的业务故障预测方法及装置,故障预测模型结合机器学习和专家经验优势,可以持续提高故障预测准确性;故障预测模型可以实现业务故障自动预判及故障预处置,解决通用场景中故障发现和故障处理的滞后性问题。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包含的各种修改和等同布置。
对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (12)

1.一种基于RF-XGBOOST的业务故障预测方法,其特征在于,该方法包括:
构建业务监控指标,对采集的指标数据进行预处理形成样本;
将样本数据分为训练集和测试集,基于训练集分别构建RF模型和XGBOOST模型,并通过权重线性组合两种模型构建RF-XGBOOST模型;基于测试集对RF-XGBOOST模型进行评价;
利用RF-XGBOOST模型对业务进行实时监控,对预测故障的结果进行告警,并进行告警处置;对预测错误的结果通过人工研判进行校正并记录;
将未来一段时间内的真实数据纳入模型样本中。
2.根据权利要求1所述的基于RF-XGBOOST的业务故障预测方法,其特征在于,所述RF模型构建过程如下:
选取业务监控指标作为输入变量,利用训练集构建RF模型,训练集的样本量为0.8n,n为样本数量,RF模型的输出结果为预测值和预测概率;
假设第i个样本的RF模型预测值为wi,RF模型预测概率为xi,则RF模型的预测概率向量为X=(x1,x2,……,x0.8n);
利用公式(1)计算出RF模型的识别准确率为α,公式(1)如下:
Figure FDA0003371795930000011
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数。
3.根据权利要求1所述的基于RF-XGBOOST的业务故障预测方法,其特征在于,所述XGBOOST模型构建过程如下:
选取业务监控指标作为输入变量,利用训练集构建XGBOOST模型,训练集的样本量为0.8n,n为样本数量,XGBOOST模型的输出结果为预测值和预测概率;
假设第i个样本的XGBOOST模型预测值为Wi,XGBOOST模型预测概率为yi,则XGBOOST模型的预测概率向量为Y=(y1,y2,……,y0.8n);
利用公式(1)计算出XGBOOST模型的识别准确率为β,公式(1)如下:
Figure FDA0003371795930000021
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数。
4.根据权利要求1所述的基于RF-XGBOOST的业务故障预测方法,其特征在于,所述RF-XGBOOST模型构建过程如下:
假设RF模型的权重为
Figure FDA0003371795930000022
XGBOOST模型的权重为
Figure FDA0003371795930000023
则将RF模型的预测概率向量X和XGBOOST模型的预测概率向量Y按权重线性组合的预测概率向量Z如下:
Figure FDA0003371795930000024
假设向量Z为RF-XGBOOST模型的预测概率向量,RF-XGBOOST模型的阈值为ε,则第i个样本的RF-XGBOOST模型预测值为gi
Figure FDA0003371795930000025
若RF-XGBOOST模型预测值gi值为1,则代表发生故障,否则未发生故障;因此,RF-XGBOOST模型预测值向量G如下:
G=(g1,g2,。。。g0.8n) (4)。
5.根据权利要求1所述的基于RF-XGBOOST的业务故障预测方法,其特征在于,基于测试集对RF-XGBOOST模型进行评价,包括:
将训练好的RF-XGBOOST模型应用到测试集上,利用公式(1)评价模型的优劣,公式(1)如下:
Figure FDA0003371795930000031
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数;
若达标则输出最佳的RF-XGBOOST模型;否则重新执行构建预测模型,进行参数优化;若一直不达标,重新选取业务监控指标,重新构建模型。
6.一种基于RF-XGBOOST的业务故障预测装置,其特征在于,该装置包括:
样本采集模块,用于构建业务监控指标,对采集的指标数据进行预处理形成样本;
模型构建模块,用于将样本数据分为训练集和测试集,基于训练集分别构建RF模型和XGBOOST模型,并通过权重线性组合两种模型构建RF-XGBOOST模型;
模型评价模块,用于基于测试集对RF-XGBOOST模型进行评价;
模型应用模块,用于利用RF-XGBOOST模型对业务进行实时监控,对预测故障的结果进行告警,并进行告警处置;对预测错误的结果通过人工研判进行校正并记录;
模型优化模块,用于将未来一段时间内的真实数据纳入模型样本中。
7.根据权利要求6所述的基于RF-XGBOOST的业务故障预测装置,其特征在于,所述RF模型构建过程如下:
选取业务监控指标作为输入变量,利用训练集构建RF模型,训练集的样本量为0.8n,n为样本数量,RF模型的输出结果为预测值和预测概率;
假设第i个样本的RF模型预测值为wi,RF模型预测概率为xi,则RF模型的预测概率向量为X=(x1,x2,……,x0.8n);
利用公式(1)计算出RF模型的识别准确率为α,公式(1)如下:
Figure FDA0003371795930000041
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数。
8.根据权利要求6所述的基于RF-XGBOOST的业务故障预测装置,其特征在于,所述XGBOOST模型构建过程如下:
选取业务监控指标作为输入变量,利用训练集构建XGBOOST模型,训练集的样本量为0.8n,n为样本数量,XGBOOST模型的输出结果为预测值和预测概率;
假设第i个样本的XGBOOST模型预测值为Wi,XGBOOST模型预测概率为yi,则XGBOOST模型的预测概率向量为Y=(y1,y2,……,y0.8n);
利用公式(1)计算出XGBOOST模型的识别准确率为β,公式(1) 如下:
Figure FDA0003371795930000051
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数。
9.根据权利要求6所述的基于RF-XGBOOST的业务故障预测装置,其特征在于,所述RF-XGBOOST模型构建过程如下:
假设RF模型的权重为
Figure FDA0003371795930000052
XGBOOST模型的权重为
Figure FDA0003371795930000053
则将RF模型的预测概率向量X和XGBOOST模型的预测概率向量Y按权重线性组合的预测概率向量Z如下:
Figure FDA0003371795930000054
假设向量Z为RF-XGBOOST模型的预测概率向量,RF-XGBOOST模型的阈值为ε,则第i个样本的RF-XGBOOST模型预测值为gi
Figure FDA0003371795930000055
若RF-XGBOOST模型预测值gi值为1,则代表发生故障,否则未发生故障;因此,RF-XGBOOST模型预测值向量G如下:
G=(g1,g2,。。。g0.8n) (4)。
10.根据权利要求6所述的基于RF-XGBOOST的业务故障预测装置,其特征在于,所述模型评价模块,具体用于:
将训练好的RF-XGBOOST模型应用到测试集上,利用公式(1)评价模型的优劣,公式(1)如下:
Figure FDA0003371795930000056
其中,T为被预测为正的正样本分类数,P为被预测为正的负样本分类数,Q被预测为负的正样本分类数;
若达标则输出最佳的RF-XGBOOST模型;否则重新执行构建预测模型,进行参数优化;若一直不达标,重新选取业务监控指标,重新构建模型。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-5任一项所述方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1-5任一项所述方法的计算机程序。
CN202111403175.3A 2021-11-24 2021-11-24 一种基于rf-xgboost的业务故障预测方法及装置 Active CN114202110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111403175.3A CN114202110B (zh) 2021-11-24 2021-11-24 一种基于rf-xgboost的业务故障预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111403175.3A CN114202110B (zh) 2021-11-24 2021-11-24 一种基于rf-xgboost的业务故障预测方法及装置

Publications (2)

Publication Number Publication Date
CN114202110A true CN114202110A (zh) 2022-03-18
CN114202110B CN114202110B (zh) 2024-10-18

Family

ID=80648661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111403175.3A Active CN114202110B (zh) 2021-11-24 2021-11-24 一种基于rf-xgboost的业务故障预测方法及装置

Country Status (1)

Country Link
CN (1) CN114202110B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407800A (zh) * 2023-09-11 2024-01-16 北京工商大学 一种基于随机森林和XGBoost模型的社交媒体机器人检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021109578A1 (zh) * 2019-12-02 2021-06-10 北京天元创新科技有限公司 业务运维中告警的预测方法、装置与电子设备
US11169288B1 (en) * 2017-12-07 2021-11-09 Triad National Security, Llc Failure prediction and estimation of failure parameters

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11169288B1 (en) * 2017-12-07 2021-11-09 Triad National Security, Llc Failure prediction and estimation of failure parameters
WO2021109578A1 (zh) * 2019-12-02 2021-06-10 北京天元创新科技有限公司 业务运维中告警的预测方法、装置与电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩金鹏;李冬梅;王嵩;: "基于PSO_RF双向特征选择和LightGBM设备故障检测", 计算机系统应用, no. 07, 15 July 2020 (2020-07-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117407800A (zh) * 2023-09-11 2024-01-16 北京工商大学 一种基于随机森林和XGBoost模型的社交媒体机器人检测方法及系统

Also Published As

Publication number Publication date
CN114202110B (zh) 2024-10-18

Similar Documents

Publication Publication Date Title
CN113899577B (zh) 异常模型学习装置、方法及记录介质
CN110378487A (zh) 横向联邦学习中模型参数验证方法、装置、设备及介质
CN115800272B (zh) 基于拓扑识别的电网故障分析方法、系统、终端及介质
CN112639833A (zh) 可自适应神经网络
CN110472268B (zh) 一种桥梁监测数据模态识别方法及装置
CN116184988B (zh) 基于多模态数据的故障预测方法、装置、设备及存储介质
CN111290967A (zh) 一种软件缺陷预测方法、装置、设备及存储介质
CN111695624B (zh) 数据增强策略的更新方法、装置、设备及存储介质
US20220245405A1 (en) Deterioration suppression program, deterioration suppression method, and non-transitory computer-readable storage medium
JP7331369B2 (ja) 異常音追加学習方法、データ追加学習方法、異常度算出装置、指標値算出装置、およびプログラム
CN108551412B (zh) 监控数据降噪处理方法和装置
CN117076258A (zh) 一种基于互联网云端的远程监控方法及系统
CN114202110A (zh) 一种基于rf-xgboost的业务故障预测方法及装置
CN114004258B (zh) 一种半监督的心电异常检测方法
CN106357458B (zh) 网元异常检测方法及装置
CN117975999A (zh) 阀冷设备故障检测方法、装置、计算机设备及存储介质
CN114169460A (zh) 样本筛选方法、装置、计算机设备和存储介质
CN113918433A (zh) 一种自适应的智慧网络设备性能指标异常检测装置及方法
CN111190800B (zh) 预测主机的批量运行时长的方法、系统、装置及存储介质
CN116628615A (zh) 数据异常检测方法、装置、设备以及存储介质
CN116166997A (zh) 一种智能主轴服役状态诊断方法、系统、设备及介质
JP2022088341A (ja) 機器学習装置及び方法
CN112732519A (zh) 一种事件监控方法及装置
CN118380007B (zh) 语音增强方法、模型训练方法、装置及相关设备
CN113950086B (zh) 确定无线网络问题根因的方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant