CN111275288A - 基于XGBoost的多维数据异常检测方法与装置 - Google Patents

基于XGBoost的多维数据异常检测方法与装置 Download PDF

Info

Publication number
CN111275288A
CN111275288A CN201911423436.0A CN201911423436A CN111275288A CN 111275288 A CN111275288 A CN 111275288A CN 201911423436 A CN201911423436 A CN 201911423436A CN 111275288 A CN111275288 A CN 111275288A
Authority
CN
China
Prior art keywords
data
value
xgboost
model
anomaly detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911423436.0A
Other languages
English (en)
Other versions
CN111275288B (zh
Inventor
葛凌峰
杜彬
田锐
庄浩君
王宝鑫
刘茂明
宋峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huadian International Power Co Ltd Technical Service Branch
HUADIAN POWER INTERNATIONAL Co Ltd SHILIQUAN POWER PLANT
Original Assignee
Huadian International Power Co Ltd Technical Service Branch
HUADIAN POWER INTERNATIONAL Co Ltd SHILIQUAN POWER PLANT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huadian International Power Co Ltd Technical Service Branch, HUADIAN POWER INTERNATIONAL Co Ltd SHILIQUAN POWER PLANT filed Critical Huadian International Power Co Ltd Technical Service Branch
Priority to CN201911423436.0A priority Critical patent/CN111275288B/zh
Publication of CN111275288A publication Critical patent/CN111275288A/zh
Application granted granted Critical
Publication of CN111275288B publication Critical patent/CN111275288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

本发明属于电厂安全控制系统领域,尤其涉及一种基于XGBoost的多维数据异常检测方法与装置。其特征在于:步骤一:数据采集清洗,步骤二:对清洗后的数据进行标准化处理,统一不同维度数据之间量纲;步骤三:特征抽取及降维,步骤四:异常检测模型训练,用XGBoost方法对降维数据进行训练,建立设备异常的预测模型;步骤五:异常在线检测,若超过了给定阀值,那么判定发生异常。本发明适合于处理和预测设备的重要异常事件,充分利用集成学习的思想和技术,有效利用设备传感器检测的多维数据信息中的重要特征,进而实现基于电厂实时测点数据的在线异常检测。本发明采集数据量大,分析误差小,预警结果准确率高。

Description

基于XGBoost的多维数据异常检测方法与装置
技术领域
本发明属于火力发电领域,涉及一种源自传感器测点的多维数据的异常检测方法及装置, 具体是一种基于XGBoost的多维数据异常检测方法与装置。
背景技术
随着火电厂信息化建设的快速发展,设备的故障诊断和预测性维护越来越得到人们的重 视。火电厂存在了大量大型设备,设备结构复杂且工作环境恶劣,容易引发各类故障,如果 不能及时发现并维修,会严重影响到其运行的安全性和可靠性。并且,一旦电厂的关键设备 发生故障停机,将影响火电厂系统运行稳定,造成巨大的经济损失,甚至影响国民经济的稳 定发展,所以对于电厂运行设备的故障研究和预测性维护也就提上了日程。
在当前的异常检测方法中,对于大型电厂设备的异常检测方法通常可以分为两类:机理 模型和数理模型。机理模型是指通过基于物理学原理,运用数学方法,建立异常检测诊断的 物理学模型,并用该模型计算设备运行过程中的各项指标,并与实测结果进行比对。如果两 者之间的差距过大,则认为设备存在异常。机理模型的主要问题在于运用物理学原理建立分 析模型时,存在大量的前提假设和简化条件,不适合真实情况下的复杂系统。
另一类异常检测技术尝试运用数据分析和机器学习的方法来建立数理模型,自动化、智 能化的寻找数据特征与异常模式之间的映射关系,提升异常检测方法的准确性。数理模型的 优势在于方法充分挖掘信息本身的数据,最大程度的实现数据驱动,减少人为干预,提升异 常预测的准确率。然而,火电厂在运行过程中,设备种类多、结构复杂,随之产生的数据也 具有维度高、数量大的特点。对于此,无论是对于机理模型也好还是数理模型也好,均提出 了巨大的挑战。
中国专利201410745943.7公开了一种自适应量子神经网络汽轮机故障趋势预测方法。所 述方法对传统的三层BP神经网络模型进行改进,引入量子神经网络,在输入层中对不同历史 数据进行趋势贡献力分析,加强最新数据对趋势的影响力,增加输入层至输出层的直接连接 权,在输出层根据信号特征自适应调整激励函数,以提高收敛速度和预测精度;引入自适应 学习效率的方法,以提高收敛速度。该方法具有很好的可靠性和稳健性,是解决汽轮机故障 趋势预测的关键技术研究,可以广泛应用在汽轮机故障趋势预测中。其存在的不足是预测误 差较大,对后续控制有较大影响。
发明内容
针对现有技术存在的问题,本发明基于火电厂设备的真实多维测点数据,针对当前的设 备异常检测方法在应对多维数据时速度慢、准确率低的问题,提出了一种基于XGBoost的多 维时序数据异常检测方法与装置。
本发明是这样实现的,一种基于XGBoost的多维数据异常检测方法,其特征在于:包括 以下步骤:
步骤一:数据采集清洗,从电厂设备监测软件中获取实时测点数据,随后对原始多维数 据进行清洗,去除缺失值和异常值;
步骤二:对清洗后的数据进行标准化处理,统一不同维度数据之间量纲;
步骤三:特征抽取及降维,对标准化处理之后的数据进行特征抽取及降维;主要是计算 原始数据的相关性,同时基于主成分分析的方法,对原始数据的特征进行线性变化,将数据 从多维度空间映射到低维度空间,减少数据维数;
步骤四:异常检测模型训练,用XGBoost方法对降维数据进行训练,建立设备异常的预 测模型;
步骤五:异常在线检测,将需要预测的数据输入到训练后的检测模型,获取模型预测值, 将预测值和传感器实测值做差求取绝对值,若绝对值超过了给定阀值,那么判定发生异常。
XGBoost算法是在GBDT的基础上对boosting算法的改进,解决GBDT算法模型难以并行 计算问题,实现对模型过拟合问题的有效控制。GBDT是一种迭代的决策树算法,为便于求解 目标函数,GBDT常用回归树生长过程错误分类产生的残差平方作为损失函数,即通过拟合残 差平方构造损失函数。
XGBoost算法对GBDT的不足进行了改进。XGBoost增加了对树模型复杂度的衡量,在回 归树生成过程分裂节点的选取考虑了损失和模型复杂度两个因素,在权衡模型低损失高复杂 和模型低复杂高损失后,求取最优解,防止一味追求降低损失函数产生过拟合现象,且速度 快,准确性高,是有效的集成学习算法。
相比于LSTM算法,XGBoost算法并不严格要求数据集在时间戳上有较为完整的连续性。 在实际生产运行过程中,工业设备并不总是持续运转的,会根据实际情况有不连续的启停阶 段,这就导致传感器测点获取的数据是不连续的(在较长的一段时间内缺失数据或数据值为 0)。对于这类数据,训练一个完整的LSTM预测模型是困难的,然而若是分段训练LSTM模型 会造成模型较多、管理复杂。然而,XGBoost算法并不要求训练数据在时间戳上是连续的, 并且XGBoost算法训练速度更快也更加轻量。
具体优选方案是:
所述的对原始多维数据进行清洗,具体步骤是:
步骤1-1:确定所述原始多维数据中的干扰值,所述干扰值记为xt,并将所述干扰值xt去除;所述干扰值xt去除后,所述原始多维数据的数据序列中存在因所述干扰值xt去除而产 生的空白位;
步骤1-2:将所述干扰值xt前一个非干扰值xt-1及所述干扰值后一个非干扰值xt+1加和平 均以得到插入值x't,并将所述插入值x't插入至所述空白位;
具体的,所述插入值x't的公式为:
Figure BDA0002352936570000031
所述的统一不同维度数据之间量纲是指,将填充后的数据中的数值统一置于0到1的范 围之内,填充后的数据进行归一化处理进行归一化处理的公式为:
Figure BDA0002352936570000032
其中,x为填充后的数据中需要进行归一化处理的数值,min为填充后的数据中的最小值, max为填充后的数据中的最大值,x*为归一化后的数值。
所述的步骤三,基于主成分分析的特征抽取方法的步骤如下:
步骤3-1:计算相关系数矩阵。输入N个测点的数据{X1,X2,...,XN},依据公式(3)计算每两个测点之间的皮尔逊相关系数,形成相关系数矩阵。其中rij(i,j=1,2,..., n)表示原始向量Xi,Xj关联程度的相关系数;
Figure BDA0002352936570000033
Figure BDA0002352936570000034
其中,rij为一维向量Xi和Xj的相关系数,Xik表示一维向量Xi中的第k个元素,Xjk表示 一维向量Xj中的第k个元素,表示一维向量Xi的平均值,表示一维向量Xj的平均值,计 算公式为:
Figure BDA0002352936570000041
步骤3-2:计算特征值和特征向量,首先解特征方程|λE-R|=0(其中E是单位向量,R 表示相关系数矩阵)求出特征值,并按大小排序,然后分别求出对应特征值λi(i=1,2,...,n) 的特征向量Ui(i=1,2,...,n),依据下面公式计算主成分矩阵Y,
Figure BDA0002352936570000042
步骤3-3:计算每个特征向量的信息贡献率,计算特征值λi(i=1,2,...,n)的累计方差贡 献率CPV,其公式如下:
Figure BDA0002352936570000043
所述的步骤四包括以下步骤:
步骤4-1:基于XGBoost算法建立测点值回归模型,基于步骤3的特征抽取结果,使用 有监督学习进行模型训练,给定特征抽取后的数据集合:
Figure BDA0002352936570000044
其中
Figure BDA0002352936570000045
为一组输入的传感器数据向量,yi为训练 时的预测传感器数值标签,训练XGBoost回归模型使得:
Figure BDA0002352936570000046
其中
Figure BDA0002352936570000047
表示测点预测值,wj表示模型的权重,xij表示输入的样本;
步骤4-2:定义损失函数,XGBoost算法需要对传感器数据进行学习之后进行数值预测进 而辅助判断设备的运行状态,其损失函数定义如下所示:
Figure BDA0002352936570000048
步骤4-3:确定XGBoost集成算法的训练模型,其形式化定义如下:
Figure BDA0002352936570000049
在公式(9)中,fk代表一棵决策树。
所述的步骤五:异常在线预测,是指基于步骤四训练的XGBoost回归模型M,给定一组 输入数据
Figure BDA0002352936570000051
根据模型M输出预测值
Figure BDA0002352936570000052
计算出预测值和真实值之间的差值d:
Figure BDA0002352936570000053
设定一个阈值ε用于判断设备状态,如果d≤ε则认为设备处于正常运行状态,反之则认 为设备出现异常,进行预警。
所述的测点数据包括一次风机轴承振动、一次风机电流、磨煤机电流、分离器出口压差、 炉膛负压,汽机轴承振动和温度、凝汽器真空度、凝结水泵电流、滤网压差和振动、循环水 泵出口压力、主给水出口压力、主给水出口温度、除氧器水位和除氧器温度。
一种安装基于XGBoost的多维数据异常检测方法的装置,其特征在于,包括电气连接的 存储有以上方法实现程序的存储器、处理器、I/O设备和报警装置,I/O设备连接安装电厂监 测软件的计算机和/或网络,访问并且取得实时测点数据。
所述的处理器通过无线传输连接手持用户端。
本发明的优点及积极效果为:
相比于LSTM等机器学习方法,本发明适合于处理和预测时间序列中时间不连续的、或是 中间间隔和延迟相对较长的时间序列数据,适用于通过对时间序列的分析拟合来进行异常的 检测和判定。本发明充分利用集成学习的思想和技术,有效利用设备传感器检测的多维数据 信息中的重要特征,进而实现基于电厂实时测点数据的在线异常检测。本发明采集数据量大, 训练速度快,分析误差小,预警结果准确率高。
附图说明
图1是本发明的流程方框图;
图2是本发明实施例的某大型设备排气温度测点的异常检测效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行 进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定 本发明。
下面结合附图对本发明的应用原理作详细的描述。
实施例1:
如图1所示,基于XGBoost的多维数据异常检测方法,包括:
步骤1:数据采集清洗。原始多维数据多源自火电厂设备传感器的实时采集数据,由于 传感器长期使用的劣化问题或是数据在传输过程中噪声的影响,有可能在所述原始数据中可 能存在一些明显处于所述传感器测量范围之外的数值或者是直接实现为0或者空值。这样的 数据(本实施例中称为干扰值)并不能说明设备的运行处于异常状态,而将这样的数据输入到 异常检测系统进行异常检测时,往往会带来错报的结果。所以,在得到所述原始数据之后, 需要对所述原始数据进行预处理以去除这些干扰值。
1-1:确定所述原始多维数据中的干扰值,所述干扰值记为xt,并将所述干扰值xt去除; 所述干扰值xt去除后,所述原始多维数据的数据序列中存在因所述干扰值xt去除而产生的空 白位;
1-2:将所述干扰值xt前一个非干扰值xt-1及所述干扰值后一个非干扰值xt+1加和平均以 得到插入值x't,并将所述插入值x't插入至所述空白位。
具体的,所述插入值x't的公式为:
Figure BDA0002352936570000061
测点数据包括一次风机轴承振动、一次风机电流、磨煤机电流、分离器出口压差、炉膛 负压,汽机轴承振动和温度、凝汽器真空度、凝结水泵电流、滤网压差和振动、循环水泵出 口压力、主给水出口压力、主给水出口温度、除氧器水位和除氧器温度。
步骤2:标准化处理。将所述原始多维数据中的所述干扰值去除后,所述原始数据中的 数值之间的差距会非常大,所以需要对填充后的数据进行归一化处理,以使得填充后的数据 中所有数值的值域处于相同的范围;优选地,本实施例中,选择将填充后的数据中的数值统一 置于0到1的范围之内。
作为示例,对填充后的数据进行归一化处理进行归一化处理的公式为:
Figure BDA0002352936570000062
其中,x为填充后的数据中需要进行归一化处理的数值,min为填充后的数据中的最小值, max为填充后的数据中的最大值,x*为归一化后的数值。
步骤3:特征抽取与降维。计算原始数据的相关性,同时基于主成分分析的方法,对原 始数据的特征进行线性变化,从原始数据中抽取出主要特征。在研究面向多变量的统计分析 问题时,变量越多,计算量和增加分析问题的复杂性就越大。因此,人们希望在进行定量分 析的过程中,发现并抽取出关键变量。涉及的变量较少,但是包含的信息量足够多。主成分 分析利用降维的思想,通过构造原始指标的适当线性组合,产生一系列互不线性相关的综合 性指标,从中选出少数几个新的综合指标,并且使它们尽可能多地含有原始指标所含有的信 息,即用较少的指标去解释原来资料的信息。具体实现方法是通过一系列的数学变换,将给 定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减 的顺序排列。在数学变换中保持变量的总方不变,使第一变量具有最大的方差,称为第一主 成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。基于主成分分析的 特征抽取方法的步骤如下:
步骤3-1:计算相关系数矩阵。输入N个测点的数据{X1,X2,...,XN},依据公式(3)计算每两个测点之间的皮尔逊相关系数,形成相关系数矩阵。其中rij(i,j=1,2,..., n)表示原始向量Xi,Xj关联程度的相关系数。
Figure BDA0002352936570000071
Figure BDA0002352936570000072
其中,rij为一维向量Xi和Xj的相关系数,Xik表示一维向量Xi中的第k个元素,Xjk表示 一维向量Xj中的第k个元素,表示一维向量Xi的平均值,表示一维向量Xj的平均值,计 算公式为:
Figure BDA0002352936570000073
步骤3-2:计算特征值和特征向量。首先解特征方程|λE-R|=0(其中E是单位向量,R 表示相关系数矩阵)求出特征值,并按大小排序,然后分别求出对应特征值λi(i=1,2,...,n) 的特征向量Ui(i=1,2,...,n)。依据下面公式计算主成分矩阵Y。
Figure BDA0002352936570000074
步骤3-3:计算每个特征向量的信息贡献率,计算特征值λi(i=1,2,...,n)的累计方差贡 献率CPV(cumulative percent variance),其公式如下:
Figure BDA0002352936570000081
步骤4:基训练于XGBoost算法训练异常检测模型。基于前面步骤抽取的特征,训练基 于XGBoost算法的异常检测模型。
步骤4-1:基于XGBoost算法建立测点值回归模型。基于步骤3的特征抽取结果,使用 有监督学习进行模型训练。给定特征抽取后的数据集合:
Figure BDA0002352936570000082
其中
Figure BDA0002352936570000083
为一组输入的传感器数据向量,yi为训练 时的预测传感器数值标签。训练XGBoost回归模型使得:
Figure BDA0002352936570000084
其中
Figure BDA0002352936570000085
表示测点预测值,wj表示模型的权重,xij表示输入的样本。
步骤4-2:定义损失函数。XGBoost算法需要对传感器数据进行学习之后进行数值预测进 而辅助判断设备的运行状态,其损失函数定义如下所示:
Figure BDA0002352936570000086
步骤4-3:确定XGBoost集成算法的训练模型,其形式化定义如下:
Figure BDA0002352936570000087
在公式(9)中,fk代表一棵决策树。在基于XGBoost算法的模型训练过程中,每棵决策 树是一个一个往里面加的,每加一个都希望能够带来效果的提升。回归模型的训练过程就是 树不断添加的过程。一开始树是0,然后往里面加树,相当于多了一个函数,再加第二棵树, 相当于又多了一个函数...等等,这里需要保证加入新的函数能够提升整体对表达效果。提升 表达效果的意思就是说加上新的树之后,目标函数(就是损失)的值会下降。
步骤5:异常在线预测。基于第4步训练的XGBoost回归模型M,给定一组输入数据
Figure BDA0002352936570000088
根据模型M输出预测值
Figure BDA0002352936570000089
计算出预测值和真实值之间的差值d:
Figure BDA00023529365700000810
设定一个阈值ε用于判断设备状态,如果d≤ε则认为设备处于正常运行状态,反之则认 为设备出现异常,进行预警。
如图2展示了某大型设备排气温度测点的异常检测效果。纵轴单位为摄氏度,横轴为采 样点。如圆圈标记所示,实线线条代表模型预测值,虚线线条代表实测值。从图中可以看出, 模型预测值和实测值之间存在着比较大的偏差,可认为设备在此处发生异常,从而进行预警。
实施例2:
一种安装上述方法的检测装置,包括电气连接的存储有以上方法实现程序的存储器、处 理器、I/O设备和报警装置,I/O设备连接安装电厂的监测软件的计算机和/或网络,访问并 且取得实时测点数据。
处理器通过无线传输连接手持用户端。通过手持设备远距离监控预警。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原 则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于XGBoost的多维数据异常检测方法,其特征在于:包括以下步骤:
步骤一:数据采集清洗,从电厂设备监测软件中获取实时测点数据,随后对原始多维数据进行清洗,去除缺失值和异常值;
步骤二:对清洗后的数据进行标准化处理,统一不同维度数据之间量纲;
步骤三:特征抽取及降维,对标准化处理之后的数据进行特征抽取及降维;主要是计算原始数据的相关性,同时基于主成分分析的方法,对原始数据的特征进行线性变化,将数据从多维度空间映射到低维度空间,减少数据维数;
步骤四:异常检测模型训练,用XGBoost方法对降维数据进行训练,建立设备异常的预测模型;
步骤五:异常在线检测,将需要预测的数据输入到训练后的检测模型,获取模型预测值,将预测值和传感器实测值做差求取绝对值,若绝对值超过了给定阀值,那么判定发生异常。
2.如权利要求1所述的基于XGBoost的多维数据异常检测方法,其特征在于,所述的对原始多维数据进行清洗,具体步骤是:
步骤1-1:确定所述原始多维数据中的干扰值,所述干扰值记为xt,并将所述干扰值xt去除;所述干扰值xt去除后,所述原始多维数据的数据序列中存在因所述干扰值xt去除而产生的空白位;
步骤1-2:将所述干扰值xt前一个非干扰值xt-1及所述干扰值后一个非干扰值xt+1加和平均以得到插入值x't,并将所述插入值x't插入至所述空白位;
具体的,所述插入值x't的公式为:
Figure FDA0002352936560000011
3.如权利要求1所述的基于XGBoost的多维数据异常检测方法,其特征在于,所述的统一不同维度数据之间量纲是指,将填充后的数据中的数值统一置于0到1的范围之内,填充后的数据进行归一化处理进行归一化处理的公式为:
Figure FDA0002352936560000012
其中,x为填充后的数据中需要进行归一化处理的数值,min为填充后的数据中的最小值,max为填充后的数据中的最大值,x*为归一化后的数值。
4.如权利要求1所述的基于XGBoost的多维数据异常检测方法,其特征在于,所述的步骤三,基于主成分分析的特征抽取方法的步骤如下:
步骤3-1:计算相关系数矩阵。输入N个测点的数据{X1,X2,...,XN},依据公式(3)计算每两个测点之间的皮尔逊相关系数,形成相关系数矩阵。其中rij(i,j=1,2,...,n)表示原始向量Xi,Xj关联程度的相关系数;
Figure FDA0002352936560000021
Figure FDA0002352936560000022
其中,rij为一维向量Xi和Xj的相关系数,Xik表示一维向量Xi中的第k个元素,Xjk表示一维向量Xj中的第k个元素,表示一维向量Xi的平均值,表示一维向量Xj的平均值,计算公式为:
Figure FDA0002352936560000023
步骤3-2:计算特征值和特征向量,首先解特征方程|λE-R|=0(其中E是单位向量,R表示相关系数矩阵)求出特征值,并按大小排序,然后分别求出对应特征值λi(i=1,2,...,n)的特征向量Ui(i=1,2,...,n),依据下面公式计算主成分矩阵Y,
Figure FDA0002352936560000024
步骤3-3:计算每个特征向量的信息贡献率,计算特征值λi(i=1,2,...,n)的累计方差贡献率CPV,其公式如下:
Figure FDA0002352936560000025
5.如权利要求1所述的基于XGBoost的多维数据异常检测方法,其特征在于,所述的步骤四包括以下步骤:
步骤4-1:基于XGBoost算法建立测点值回归模型,基于步骤3的特征抽取结果,使用有监督学习进行模型训练,给定特征抽取后的数据集合:
Figure FDA0002352936560000031
其中
Figure FDA0002352936560000032
为一组输入的传感器数据向量,yi为训练时的预测传感器数值标签,训练XGBoost回归模型使得:
Figure FDA0002352936560000033
其中
Figure FDA0002352936560000034
表示测点预测值,wj表示模型的权重,xij表示输入的样本;
步骤4-2:定义损失函数,XGBoost算法需要对传感器数据进行学习之后进行数值预测进而辅助判断设备的运行状态,其损失函数定义如下所示:
Figure FDA0002352936560000035
步骤4-3:确定XGBoost集成算法的训练模型,其形式化定义如下:
Figure FDA0002352936560000036
在公式(9)中,fk代表一棵决策树。
6.如权利要求1所述的基于XGBoost的多维数据异常检测方法,其特征在于,所述的步骤五:异常在线预测,是指基于步骤四训练的XGBoost回归模型M,给定一组输入数据
Figure FDA0002352936560000037
根据模型M输出预测值
Figure FDA0002352936560000038
计算出预测值和真实值之间的差值d:
Figure FDA0002352936560000039
设定一个阈值ε用于判断设备状态,如果d≤ε则认为设备处于正常运行状态,反之则认为设备出现异常,进行预警。
7.如权利要求1所述的基于XGBoost的多维数据异常检测方法,其特征在于,所述的测点数据包括一次风机轴承振动、一次风机电流、磨煤机电流、分离器出口压差、炉膛负压,汽机轴承振动和温度、凝汽器真空度、凝结水泵电流、滤网压差和振动、循环水泵出口压力、主给水出口压力、主给水出口温度、除氧器水位和除氧器温度。
8.一种安装有权利要求1-7所述基于XGBoost的多维数据异常检测装置,其特征在于,包括电气连接的存储有以上方法实现程序的存储器、处理器、I/O设备和报警装置,I/O设备连接安装电厂监测软件的计算机和/或网络,访问并且取得实时测点数据。
9.根据权利要求5所述的基于XGBoost的多维数据异常检测装置,其特征在于,所述的处理器通过无线传输连接手持用户端。
CN201911423436.0A 2019-12-31 2019-12-31 基于XGBoost的多维数据异常检测方法与装置 Active CN111275288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911423436.0A CN111275288B (zh) 2019-12-31 2019-12-31 基于XGBoost的多维数据异常检测方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911423436.0A CN111275288B (zh) 2019-12-31 2019-12-31 基于XGBoost的多维数据异常检测方法与装置

Publications (2)

Publication Number Publication Date
CN111275288A true CN111275288A (zh) 2020-06-12
CN111275288B CN111275288B (zh) 2023-12-26

Family

ID=70998788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911423436.0A Active CN111275288B (zh) 2019-12-31 2019-12-31 基于XGBoost的多维数据异常检测方法与装置

Country Status (1)

Country Link
CN (1) CN111275288B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708678A (zh) * 2020-08-18 2020-09-25 北京志翔科技股份有限公司 一种异常监测方法及装置
CN111780910A (zh) * 2020-06-28 2020-10-16 缪新建 一种风力涡轮机螺栓紧固件压力检测装置及异常检测方法
CN112148723A (zh) * 2020-10-15 2020-12-29 珠海大横琴科技发展有限公司 一种基于电子围网的异常数据优化方法、装置及电子设备
CN112485597A (zh) * 2020-12-01 2021-03-12 国家电网公司华中分部 基于多源数据的电力系统输电线路故障诊断方法及系统
CN112559803A (zh) * 2020-07-08 2021-03-26 北京德风新征程科技有限公司 一种基于迭代的数据异常检测方法和检测系统
CN112633781A (zh) * 2021-03-08 2021-04-09 江苏海平面数据科技有限公司 一种基于车联网大数据的车辆能耗评价方法
CN112668200A (zh) * 2021-01-06 2021-04-16 西安理工大学 一种特种设备安全性分析的方法及系统
CN113221453A (zh) * 2021-04-30 2021-08-06 华风数据(深圳)有限公司 风电机组齿轮箱输出轴故障监测预警方法
CN113806351A (zh) * 2021-11-19 2021-12-17 国能信控互联技术有限公司 一种火电机组发电数据异常值处理方法及装置
CN114253242A (zh) * 2021-12-21 2022-03-29 上海纽酷信息科技有限公司 一种基于vpn的物联网云端设备数据采集系统
CN114662696A (zh) * 2020-12-23 2022-06-24 微软技术许可有限责任公司 时间序列异常排名
CN114692515A (zh) * 2022-06-01 2022-07-01 中材邦业(杭州)智能技术有限公司 一种基于时间滞后xgboost模型的熟料游离钙含量软测量方法
CN114754973A (zh) * 2022-05-23 2022-07-15 中国航空工业集团公司哈尔滨空气动力研究所 基于机器学习的风洞测力试验数据智能诊断与分析方法
CN115438035A (zh) * 2022-10-27 2022-12-06 江西师范大学 一种基于kpca和混合相似度的数据异常处理方法
CN115825755A (zh) * 2022-12-30 2023-03-21 哈尔滨光宇新能源有限公司 一种储能电池电芯电压一致性评估方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011059015A (ja) * 2009-09-11 2011-03-24 Toshiba Corp 干渉波検出装置及び干渉波検出方法
WO2015176565A1 (zh) * 2014-05-22 2015-11-26 袁志贤 一种基于多维时间序列的电气设备故障预测方法
CN106127546A (zh) * 2016-06-20 2016-11-16 重庆房慧科技有限公司 一种基于智慧社区大数据的商品推荐方法
CN108287782A (zh) * 2017-06-05 2018-07-17 中兴通讯股份有限公司 一种多维数据异常检测方法及装置
CN108564286A (zh) * 2018-04-19 2018-09-21 天合泽泰(厦门)征信服务有限公司 一种基于大数据征信的人工智能金融风控授信评定方法和系统
CN109299156A (zh) * 2018-08-21 2019-02-01 平安科技(深圳)有限公司 电子装置、基于XGBoost的电力数据异常预测方法及存储介质
CN110324316A (zh) * 2019-05-31 2019-10-11 河南恩湃高科集团有限公司 一种基于多种机器学习算法的工控异常行为检测方法
US20190318202A1 (en) * 2016-10-31 2019-10-17 Tencent Technology (Shenzhen) Company Limited Machine learning model training method and apparatus, server, and storage medium
CN110399935A (zh) * 2019-08-02 2019-11-01 哈工大机器人(合肥)国际创新研究院 基于孤立森林机器学习的机器人实时异常监测方法及系统
CN110441065A (zh) * 2019-07-04 2019-11-12 杭州华电江东热电有限公司 基于lstm的燃气轮机在线检测方法与装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334380A (ja) * 2003-05-02 2004-11-25 Yasuhiro Tanaka 著作物管理方法。
CN109239021A (zh) * 2018-11-07 2019-01-18 河南农业大学 一种非扫描聚焦式光学表面等离子共振检测装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011059015A (ja) * 2009-09-11 2011-03-24 Toshiba Corp 干渉波検出装置及び干渉波検出方法
WO2015176565A1 (zh) * 2014-05-22 2015-11-26 袁志贤 一种基于多维时间序列的电气设备故障预测方法
CN106127546A (zh) * 2016-06-20 2016-11-16 重庆房慧科技有限公司 一种基于智慧社区大数据的商品推荐方法
US20190318202A1 (en) * 2016-10-31 2019-10-17 Tencent Technology (Shenzhen) Company Limited Machine learning model training method and apparatus, server, and storage medium
CN108287782A (zh) * 2017-06-05 2018-07-17 中兴通讯股份有限公司 一种多维数据异常检测方法及装置
CN108564286A (zh) * 2018-04-19 2018-09-21 天合泽泰(厦门)征信服务有限公司 一种基于大数据征信的人工智能金融风控授信评定方法和系统
CN109299156A (zh) * 2018-08-21 2019-02-01 平安科技(深圳)有限公司 电子装置、基于XGBoost的电力数据异常预测方法及存储介质
CN110324316A (zh) * 2019-05-31 2019-10-11 河南恩湃高科集团有限公司 一种基于多种机器学习算法的工控异常行为检测方法
CN110441065A (zh) * 2019-07-04 2019-11-12 杭州华电江东热电有限公司 基于lstm的燃气轮机在线检测方法与装置
CN110399935A (zh) * 2019-08-02 2019-11-01 哈工大机器人(合肥)国际创新研究院 基于孤立森林机器学习的机器人实时异常监测方法及系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111780910A (zh) * 2020-06-28 2020-10-16 缪新建 一种风力涡轮机螺栓紧固件压力检测装置及异常检测方法
CN112559803A (zh) * 2020-07-08 2021-03-26 北京德风新征程科技有限公司 一种基于迭代的数据异常检测方法和检测系统
CN111708678A (zh) * 2020-08-18 2020-09-25 北京志翔科技股份有限公司 一种异常监测方法及装置
CN112148723A (zh) * 2020-10-15 2020-12-29 珠海大横琴科技发展有限公司 一种基于电子围网的异常数据优化方法、装置及电子设备
CN112485597A (zh) * 2020-12-01 2021-03-12 国家电网公司华中分部 基于多源数据的电力系统输电线路故障诊断方法及系统
CN114662696A (zh) * 2020-12-23 2022-06-24 微软技术许可有限责任公司 时间序列异常排名
CN112668200A (zh) * 2021-01-06 2021-04-16 西安理工大学 一种特种设备安全性分析的方法及系统
CN112668200B (zh) * 2021-01-06 2023-08-29 西安理工大学 一种特种设备安全性分析的方法及系统
CN112633781A (zh) * 2021-03-08 2021-04-09 江苏海平面数据科技有限公司 一种基于车联网大数据的车辆能耗评价方法
CN113221453A (zh) * 2021-04-30 2021-08-06 华风数据(深圳)有限公司 风电机组齿轮箱输出轴故障监测预警方法
CN113806351B (zh) * 2021-11-19 2022-04-19 国能信控互联技术有限公司 一种火电机组发电数据异常值处理方法及装置
CN113806351A (zh) * 2021-11-19 2021-12-17 国能信控互联技术有限公司 一种火电机组发电数据异常值处理方法及装置
CN114253242A (zh) * 2021-12-21 2022-03-29 上海纽酷信息科技有限公司 一种基于vpn的物联网云端设备数据采集系统
CN114253242B (zh) * 2021-12-21 2023-12-26 上海纽酷信息科技有限公司 一种基于vpn的物联网云端设备数据采集系统
CN114754973A (zh) * 2022-05-23 2022-07-15 中国航空工业集团公司哈尔滨空气动力研究所 基于机器学习的风洞测力试验数据智能诊断与分析方法
CN114692515A (zh) * 2022-06-01 2022-07-01 中材邦业(杭州)智能技术有限公司 一种基于时间滞后xgboost模型的熟料游离钙含量软测量方法
CN114692515B (zh) * 2022-06-01 2022-09-02 中材邦业(杭州)智能技术有限公司 一种基于时间滞后xgboost模型的熟料游离钙含量软测量方法
CN115438035A (zh) * 2022-10-27 2022-12-06 江西师范大学 一种基于kpca和混合相似度的数据异常处理方法
CN115825755A (zh) * 2022-12-30 2023-03-21 哈尔滨光宇新能源有限公司 一种储能电池电芯电压一致性评估方法
CN115825755B (zh) * 2022-12-30 2023-09-19 哈尔滨昆宇新能源有限公司 一种储能电池电芯电压一致性评估方法

Also Published As

Publication number Publication date
CN111275288B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN111275288B (zh) 基于XGBoost的多维数据异常检测方法与装置
CN110441065B (zh) 基于lstm的燃气轮机在线检测方法与装置
CN111596604B (zh) 一种基于数字孪生的工程装备故障智能诊断与自愈控制系统及方法
CN109492193B (zh) 基于深度机器学习模型的异常网络数据生成与预测方法
CN106682814B (zh) 一种基于故障知识库的风电机组故障智能诊断方法
CN109146246B (zh) 一种基于自动编码器和贝叶斯网络的故障检测方法
CN111275367B (zh) 一种区域综合能源系统能效状态评价方法
CN113255848B (zh) 基于大数据学习的水轮机空化声信号辨识方法
CN106644162B (zh) 基于邻域保持嵌入回归算法的环网柜线芯温度软测量方法
CN110685868A (zh) 一种基于改进梯度提升机的风电机组故障检测方法及装置
WO2023197461A1 (zh) 一种基于工况相似性评估的齿轮箱故障预警方法及系统
CN105607631B (zh) 间歇过程弱故障模型控制限建立方法及弱故障监测方法
CN111639842B (zh) 一种设备健康评估方法、评估系统以及设备健康预测方法
CN111103137A (zh) 基于深度神经网络的风力涡轮机齿轮箱故障诊断方法
CN114519923A (zh) 一种电厂智能诊断预警方法和系统
CN115434875A (zh) 基于时空神经网络的风电机组故障状态检测方法
CN114091600B (zh) 一种数据驱动的卫星关联故障传播路径辨识方法及系统
CN117290800B (zh) 一种基于超图注意力网络的时序异常检测方法及系统
Li et al. A novel adaptive STFT-SFA based fault detection method for nonstationary processes
CN116738868B (zh) 一种滚动轴承剩余寿命预测方法
CN114462636A (zh) 一种工业时序数据通过数据处理进行在线异常监测方法
CN112988529A (zh) 一种基于机器学习进行数据库系统性能预测的方法及系统
CN117688496B (zh) 面向卫星遥测多维时序数据的异常诊断方法、系统及设备
Liu et al. Bearing fault diagnosis analysis based on improved adaptive search algorithms and SVMs
CN111123890B (zh) 一种特种设备故障监测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant