CN111275288A - 基于XGBoost的多维数据异常检测方法与装置 - Google Patents
基于XGBoost的多维数据异常检测方法与装置 Download PDFInfo
- Publication number
- CN111275288A CN111275288A CN201911423436.0A CN201911423436A CN111275288A CN 111275288 A CN111275288 A CN 111275288A CN 201911423436 A CN201911423436 A CN 201911423436A CN 111275288 A CN111275288 A CN 111275288A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- xgboost
- model
- anomaly detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000002159 abnormal effect Effects 0.000 claims abstract description 17
- 230000005856 abnormality Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000004140 cleaning Methods 0.000 claims abstract description 8
- 230000009467 reduction Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 239000003245 coal Substances 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012847 principal component analysis method Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000013178 mathematical model Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000009529 body temperature measurement Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 238000010946 mechanistic model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Abstract
本发明属于电厂安全控制系统领域,尤其涉及一种基于XGBoost的多维数据异常检测方法与装置。其特征在于:步骤一:数据采集清洗,步骤二:对清洗后的数据进行标准化处理,统一不同维度数据之间量纲;步骤三:特征抽取及降维,步骤四:异常检测模型训练,用XGBoost方法对降维数据进行训练,建立设备异常的预测模型;步骤五:异常在线检测,若超过了给定阀值,那么判定发生异常。本发明适合于处理和预测设备的重要异常事件,充分利用集成学习的思想和技术,有效利用设备传感器检测的多维数据信息中的重要特征,进而实现基于电厂实时测点数据的在线异常检测。本发明采集数据量大,分析误差小,预警结果准确率高。
Description
技术领域
本发明属于火力发电领域,涉及一种源自传感器测点的多维数据的异常检测方法及装置, 具体是一种基于XGBoost的多维数据异常检测方法与装置。
背景技术
随着火电厂信息化建设的快速发展,设备的故障诊断和预测性维护越来越得到人们的重 视。火电厂存在了大量大型设备,设备结构复杂且工作环境恶劣,容易引发各类故障,如果 不能及时发现并维修,会严重影响到其运行的安全性和可靠性。并且,一旦电厂的关键设备 发生故障停机,将影响火电厂系统运行稳定,造成巨大的经济损失,甚至影响国民经济的稳 定发展,所以对于电厂运行设备的故障研究和预测性维护也就提上了日程。
在当前的异常检测方法中,对于大型电厂设备的异常检测方法通常可以分为两类:机理 模型和数理模型。机理模型是指通过基于物理学原理,运用数学方法,建立异常检测诊断的 物理学模型,并用该模型计算设备运行过程中的各项指标,并与实测结果进行比对。如果两 者之间的差距过大,则认为设备存在异常。机理模型的主要问题在于运用物理学原理建立分 析模型时,存在大量的前提假设和简化条件,不适合真实情况下的复杂系统。
另一类异常检测技术尝试运用数据分析和机器学习的方法来建立数理模型,自动化、智 能化的寻找数据特征与异常模式之间的映射关系,提升异常检测方法的准确性。数理模型的 优势在于方法充分挖掘信息本身的数据,最大程度的实现数据驱动,减少人为干预,提升异 常预测的准确率。然而,火电厂在运行过程中,设备种类多、结构复杂,随之产生的数据也 具有维度高、数量大的特点。对于此,无论是对于机理模型也好还是数理模型也好,均提出 了巨大的挑战。
中国专利201410745943.7公开了一种自适应量子神经网络汽轮机故障趋势预测方法。所 述方法对传统的三层BP神经网络模型进行改进,引入量子神经网络,在输入层中对不同历史 数据进行趋势贡献力分析,加强最新数据对趋势的影响力,增加输入层至输出层的直接连接 权,在输出层根据信号特征自适应调整激励函数,以提高收敛速度和预测精度;引入自适应 学习效率的方法,以提高收敛速度。该方法具有很好的可靠性和稳健性,是解决汽轮机故障 趋势预测的关键技术研究,可以广泛应用在汽轮机故障趋势预测中。其存在的不足是预测误 差较大,对后续控制有较大影响。
发明内容
针对现有技术存在的问题,本发明基于火电厂设备的真实多维测点数据,针对当前的设 备异常检测方法在应对多维数据时速度慢、准确率低的问题,提出了一种基于XGBoost的多 维时序数据异常检测方法与装置。
本发明是这样实现的,一种基于XGBoost的多维数据异常检测方法,其特征在于:包括 以下步骤:
步骤一:数据采集清洗,从电厂设备监测软件中获取实时测点数据,随后对原始多维数 据进行清洗,去除缺失值和异常值;
步骤二:对清洗后的数据进行标准化处理,统一不同维度数据之间量纲;
步骤三:特征抽取及降维,对标准化处理之后的数据进行特征抽取及降维;主要是计算 原始数据的相关性,同时基于主成分分析的方法,对原始数据的特征进行线性变化,将数据 从多维度空间映射到低维度空间,减少数据维数;
步骤四:异常检测模型训练,用XGBoost方法对降维数据进行训练,建立设备异常的预 测模型;
步骤五:异常在线检测,将需要预测的数据输入到训练后的检测模型,获取模型预测值, 将预测值和传感器实测值做差求取绝对值,若绝对值超过了给定阀值,那么判定发生异常。
XGBoost算法是在GBDT的基础上对boosting算法的改进,解决GBDT算法模型难以并行 计算问题,实现对模型过拟合问题的有效控制。GBDT是一种迭代的决策树算法,为便于求解 目标函数,GBDT常用回归树生长过程错误分类产生的残差平方作为损失函数,即通过拟合残 差平方构造损失函数。
XGBoost算法对GBDT的不足进行了改进。XGBoost增加了对树模型复杂度的衡量,在回 归树生成过程分裂节点的选取考虑了损失和模型复杂度两个因素,在权衡模型低损失高复杂 和模型低复杂高损失后,求取最优解,防止一味追求降低损失函数产生过拟合现象,且速度 快,准确性高,是有效的集成学习算法。
相比于LSTM算法,XGBoost算法并不严格要求数据集在时间戳上有较为完整的连续性。 在实际生产运行过程中,工业设备并不总是持续运转的,会根据实际情况有不连续的启停阶 段,这就导致传感器测点获取的数据是不连续的(在较长的一段时间内缺失数据或数据值为 0)。对于这类数据,训练一个完整的LSTM预测模型是困难的,然而若是分段训练LSTM模型 会造成模型较多、管理复杂。然而,XGBoost算法并不要求训练数据在时间戳上是连续的, 并且XGBoost算法训练速度更快也更加轻量。
具体优选方案是:
所述的对原始多维数据进行清洗,具体步骤是:
步骤1-1:确定所述原始多维数据中的干扰值,所述干扰值记为xt,并将所述干扰值xt去除;所述干扰值xt去除后,所述原始多维数据的数据序列中存在因所述干扰值xt去除而产 生的空白位;
步骤1-2:将所述干扰值xt前一个非干扰值xt-1及所述干扰值后一个非干扰值xt+1加和平 均以得到插入值x't,并将所述插入值x't插入至所述空白位;
具体的,所述插入值x't的公式为:
所述的统一不同维度数据之间量纲是指,将填充后的数据中的数值统一置于0到1的范 围之内,填充后的数据进行归一化处理进行归一化处理的公式为:
其中,x为填充后的数据中需要进行归一化处理的数值,min为填充后的数据中的最小值, max为填充后的数据中的最大值,x*为归一化后的数值。
所述的步骤三,基于主成分分析的特征抽取方法的步骤如下:
步骤3-1:计算相关系数矩阵。输入N个测点的数据{X1,X2,...,XN},依据公式(3)计算每两个测点之间的皮尔逊相关系数,形成相关系数矩阵。其中rij(i,j=1,2,..., n)表示原始向量Xi,Xj关联程度的相关系数;
其中,rij为一维向量Xi和Xj的相关系数,Xik表示一维向量Xi中的第k个元素,Xjk表示 一维向量Xj中的第k个元素,表示一维向量Xi的平均值,表示一维向量Xj的平均值,计 算公式为:
步骤3-2:计算特征值和特征向量,首先解特征方程|λE-R|=0(其中E是单位向量,R 表示相关系数矩阵)求出特征值,并按大小排序,然后分别求出对应特征值λi(i=1,2,...,n) 的特征向量Ui(i=1,2,...,n),依据下面公式计算主成分矩阵Y,
步骤3-3:计算每个特征向量的信息贡献率,计算特征值λi(i=1,2,...,n)的累计方差贡 献率CPV,其公式如下:
所述的步骤四包括以下步骤:
步骤4-1:基于XGBoost算法建立测点值回归模型,基于步骤3的特征抽取结果,使用 有监督学习进行模型训练,给定特征抽取后的数据集合:其中为一组输入的传感器数据向量,yi为训练 时的预测传感器数值标签,训练XGBoost回归模型使得:
步骤4-2:定义损失函数,XGBoost算法需要对传感器数据进行学习之后进行数值预测进 而辅助判断设备的运行状态,其损失函数定义如下所示:
步骤4-3:确定XGBoost集成算法的训练模型,其形式化定义如下:
在公式(9)中,fk代表一棵决策树。
设定一个阈值ε用于判断设备状态,如果d≤ε则认为设备处于正常运行状态,反之则认 为设备出现异常,进行预警。
所述的测点数据包括一次风机轴承振动、一次风机电流、磨煤机电流、分离器出口压差、 炉膛负压,汽机轴承振动和温度、凝汽器真空度、凝结水泵电流、滤网压差和振动、循环水 泵出口压力、主给水出口压力、主给水出口温度、除氧器水位和除氧器温度。
一种安装基于XGBoost的多维数据异常检测方法的装置,其特征在于,包括电气连接的 存储有以上方法实现程序的存储器、处理器、I/O设备和报警装置,I/O设备连接安装电厂监 测软件的计算机和/或网络,访问并且取得实时测点数据。
所述的处理器通过无线传输连接手持用户端。
本发明的优点及积极效果为:
相比于LSTM等机器学习方法,本发明适合于处理和预测时间序列中时间不连续的、或是 中间间隔和延迟相对较长的时间序列数据,适用于通过对时间序列的分析拟合来进行异常的 检测和判定。本发明充分利用集成学习的思想和技术,有效利用设备传感器检测的多维数据 信息中的重要特征,进而实现基于电厂实时测点数据的在线异常检测。本发明采集数据量大, 训练速度快,分析误差小,预警结果准确率高。
附图说明
图1是本发明的流程方框图;
图2是本发明实施例的某大型设备排气温度测点的异常检测效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行 进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定 本发明。
下面结合附图对本发明的应用原理作详细的描述。
实施例1:
如图1所示,基于XGBoost的多维数据异常检测方法,包括:
步骤1:数据采集清洗。原始多维数据多源自火电厂设备传感器的实时采集数据,由于 传感器长期使用的劣化问题或是数据在传输过程中噪声的影响,有可能在所述原始数据中可 能存在一些明显处于所述传感器测量范围之外的数值或者是直接实现为0或者空值。这样的 数据(本实施例中称为干扰值)并不能说明设备的运行处于异常状态,而将这样的数据输入到 异常检测系统进行异常检测时,往往会带来错报的结果。所以,在得到所述原始数据之后, 需要对所述原始数据进行预处理以去除这些干扰值。
1-1:确定所述原始多维数据中的干扰值,所述干扰值记为xt,并将所述干扰值xt去除; 所述干扰值xt去除后,所述原始多维数据的数据序列中存在因所述干扰值xt去除而产生的空 白位;
1-2:将所述干扰值xt前一个非干扰值xt-1及所述干扰值后一个非干扰值xt+1加和平均以 得到插入值x't,并将所述插入值x't插入至所述空白位。
具体的,所述插入值x't的公式为:
测点数据包括一次风机轴承振动、一次风机电流、磨煤机电流、分离器出口压差、炉膛 负压,汽机轴承振动和温度、凝汽器真空度、凝结水泵电流、滤网压差和振动、循环水泵出 口压力、主给水出口压力、主给水出口温度、除氧器水位和除氧器温度。
步骤2:标准化处理。将所述原始多维数据中的所述干扰值去除后,所述原始数据中的 数值之间的差距会非常大,所以需要对填充后的数据进行归一化处理,以使得填充后的数据 中所有数值的值域处于相同的范围;优选地,本实施例中,选择将填充后的数据中的数值统一 置于0到1的范围之内。
作为示例,对填充后的数据进行归一化处理进行归一化处理的公式为:
其中,x为填充后的数据中需要进行归一化处理的数值,min为填充后的数据中的最小值, max为填充后的数据中的最大值,x*为归一化后的数值。
步骤3:特征抽取与降维。计算原始数据的相关性,同时基于主成分分析的方法,对原 始数据的特征进行线性变化,从原始数据中抽取出主要特征。在研究面向多变量的统计分析 问题时,变量越多,计算量和增加分析问题的复杂性就越大。因此,人们希望在进行定量分 析的过程中,发现并抽取出关键变量。涉及的变量较少,但是包含的信息量足够多。主成分 分析利用降维的思想,通过构造原始指标的适当线性组合,产生一系列互不线性相关的综合 性指标,从中选出少数几个新的综合指标,并且使它们尽可能多地含有原始指标所含有的信 息,即用较少的指标去解释原来资料的信息。具体实现方法是通过一系列的数学变换,将给 定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减 的顺序排列。在数学变换中保持变量的总方不变,使第一变量具有最大的方差,称为第一主 成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。基于主成分分析的 特征抽取方法的步骤如下:
步骤3-1:计算相关系数矩阵。输入N个测点的数据{X1,X2,...,XN},依据公式(3)计算每两个测点之间的皮尔逊相关系数,形成相关系数矩阵。其中rij(i,j=1,2,..., n)表示原始向量Xi,Xj关联程度的相关系数。
其中,rij为一维向量Xi和Xj的相关系数,Xik表示一维向量Xi中的第k个元素,Xjk表示 一维向量Xj中的第k个元素,表示一维向量Xi的平均值,表示一维向量Xj的平均值,计 算公式为:
步骤3-2:计算特征值和特征向量。首先解特征方程|λE-R|=0(其中E是单位向量,R 表示相关系数矩阵)求出特征值,并按大小排序,然后分别求出对应特征值λi(i=1,2,...,n) 的特征向量Ui(i=1,2,...,n)。依据下面公式计算主成分矩阵Y。
步骤3-3:计算每个特征向量的信息贡献率,计算特征值λi(i=1,2,...,n)的累计方差贡 献率CPV(cumulative percent variance),其公式如下:
步骤4:基训练于XGBoost算法训练异常检测模型。基于前面步骤抽取的特征,训练基 于XGBoost算法的异常检测模型。
步骤4-1:基于XGBoost算法建立测点值回归模型。基于步骤3的特征抽取结果,使用 有监督学习进行模型训练。给定特征抽取后的数据集合:其中为一组输入的传感器数据向量,yi为训练 时的预测传感器数值标签。训练XGBoost回归模型使得:
步骤4-2:定义损失函数。XGBoost算法需要对传感器数据进行学习之后进行数值预测进 而辅助判断设备的运行状态,其损失函数定义如下所示:
步骤4-3:确定XGBoost集成算法的训练模型,其形式化定义如下:
在公式(9)中,fk代表一棵决策树。在基于XGBoost算法的模型训练过程中,每棵决策 树是一个一个往里面加的,每加一个都希望能够带来效果的提升。回归模型的训练过程就是 树不断添加的过程。一开始树是0,然后往里面加树,相当于多了一个函数,再加第二棵树, 相当于又多了一个函数...等等,这里需要保证加入新的函数能够提升整体对表达效果。提升 表达效果的意思就是说加上新的树之后,目标函数(就是损失)的值会下降。
设定一个阈值ε用于判断设备状态,如果d≤ε则认为设备处于正常运行状态,反之则认 为设备出现异常,进行预警。
如图2展示了某大型设备排气温度测点的异常检测效果。纵轴单位为摄氏度,横轴为采 样点。如圆圈标记所示,实线线条代表模型预测值,虚线线条代表实测值。从图中可以看出, 模型预测值和实测值之间存在着比较大的偏差,可认为设备在此处发生异常,从而进行预警。
实施例2:
一种安装上述方法的检测装置,包括电气连接的存储有以上方法实现程序的存储器、处 理器、I/O设备和报警装置,I/O设备连接安装电厂的监测软件的计算机和/或网络,访问并 且取得实时测点数据。
处理器通过无线传输连接手持用户端。通过手持设备远距离监控预警。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原 则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于XGBoost的多维数据异常检测方法,其特征在于:包括以下步骤:
步骤一:数据采集清洗,从电厂设备监测软件中获取实时测点数据,随后对原始多维数据进行清洗,去除缺失值和异常值;
步骤二:对清洗后的数据进行标准化处理,统一不同维度数据之间量纲;
步骤三:特征抽取及降维,对标准化处理之后的数据进行特征抽取及降维;主要是计算原始数据的相关性,同时基于主成分分析的方法,对原始数据的特征进行线性变化,将数据从多维度空间映射到低维度空间,减少数据维数;
步骤四:异常检测模型训练,用XGBoost方法对降维数据进行训练,建立设备异常的预测模型;
步骤五:异常在线检测,将需要预测的数据输入到训练后的检测模型,获取模型预测值,将预测值和传感器实测值做差求取绝对值,若绝对值超过了给定阀值,那么判定发生异常。
4.如权利要求1所述的基于XGBoost的多维数据异常检测方法,其特征在于,所述的步骤三,基于主成分分析的特征抽取方法的步骤如下:
步骤3-1:计算相关系数矩阵。输入N个测点的数据{X1,X2,...,XN},依据公式(3)计算每两个测点之间的皮尔逊相关系数,形成相关系数矩阵。其中rij(i,j=1,2,...,n)表示原始向量Xi,Xj关联程度的相关系数;
其中,rij为一维向量Xi和Xj的相关系数,Xik表示一维向量Xi中的第k个元素,Xjk表示一维向量Xj中的第k个元素,表示一维向量Xi的平均值,表示一维向量Xj的平均值,计算公式为:
步骤3-2:计算特征值和特征向量,首先解特征方程|λE-R|=0(其中E是单位向量,R表示相关系数矩阵)求出特征值,并按大小排序,然后分别求出对应特征值λi(i=1,2,...,n)的特征向量Ui(i=1,2,...,n),依据下面公式计算主成分矩阵Y,
步骤3-3:计算每个特征向量的信息贡献率,计算特征值λi(i=1,2,...,n)的累计方差贡献率CPV,其公式如下:
5.如权利要求1所述的基于XGBoost的多维数据异常检测方法,其特征在于,所述的步骤四包括以下步骤:
步骤4-1:基于XGBoost算法建立测点值回归模型,基于步骤3的特征抽取结果,使用有监督学习进行模型训练,给定特征抽取后的数据集合:其中为一组输入的传感器数据向量,yi为训练时的预测传感器数值标签,训练XGBoost回归模型使得:
步骤4-2:定义损失函数,XGBoost算法需要对传感器数据进行学习之后进行数值预测进而辅助判断设备的运行状态,其损失函数定义如下所示:
步骤4-3:确定XGBoost集成算法的训练模型,其形式化定义如下:
在公式(9)中,fk代表一棵决策树。
7.如权利要求1所述的基于XGBoost的多维数据异常检测方法,其特征在于,所述的测点数据包括一次风机轴承振动、一次风机电流、磨煤机电流、分离器出口压差、炉膛负压,汽机轴承振动和温度、凝汽器真空度、凝结水泵电流、滤网压差和振动、循环水泵出口压力、主给水出口压力、主给水出口温度、除氧器水位和除氧器温度。
8.一种安装有权利要求1-7所述基于XGBoost的多维数据异常检测装置,其特征在于,包括电气连接的存储有以上方法实现程序的存储器、处理器、I/O设备和报警装置,I/O设备连接安装电厂监测软件的计算机和/或网络,访问并且取得实时测点数据。
9.根据权利要求5所述的基于XGBoost的多维数据异常检测装置,其特征在于,所述的处理器通过无线传输连接手持用户端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911423436.0A CN111275288B (zh) | 2019-12-31 | 2019-12-31 | 基于XGBoost的多维数据异常检测方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911423436.0A CN111275288B (zh) | 2019-12-31 | 2019-12-31 | 基于XGBoost的多维数据异常检测方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111275288A true CN111275288A (zh) | 2020-06-12 |
CN111275288B CN111275288B (zh) | 2023-12-26 |
Family
ID=70998788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911423436.0A Active CN111275288B (zh) | 2019-12-31 | 2019-12-31 | 基于XGBoost的多维数据异常检测方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111275288B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708678A (zh) * | 2020-08-18 | 2020-09-25 | 北京志翔科技股份有限公司 | 一种异常监测方法及装置 |
CN111780910A (zh) * | 2020-06-28 | 2020-10-16 | 缪新建 | 一种风力涡轮机螺栓紧固件压力检测装置及异常检测方法 |
CN112148723A (zh) * | 2020-10-15 | 2020-12-29 | 珠海大横琴科技发展有限公司 | 一种基于电子围网的异常数据优化方法、装置及电子设备 |
CN112485597A (zh) * | 2020-12-01 | 2021-03-12 | 国家电网公司华中分部 | 基于多源数据的电力系统输电线路故障诊断方法及系统 |
CN112559803A (zh) * | 2020-07-08 | 2021-03-26 | 北京德风新征程科技有限公司 | 一种基于迭代的数据异常检测方法和检测系统 |
CN112633781A (zh) * | 2021-03-08 | 2021-04-09 | 江苏海平面数据科技有限公司 | 一种基于车联网大数据的车辆能耗评价方法 |
CN112668200A (zh) * | 2021-01-06 | 2021-04-16 | 西安理工大学 | 一种特种设备安全性分析的方法及系统 |
CN113221453A (zh) * | 2021-04-30 | 2021-08-06 | 华风数据(深圳)有限公司 | 风电机组齿轮箱输出轴故障监测预警方法 |
CN113806351A (zh) * | 2021-11-19 | 2021-12-17 | 国能信控互联技术有限公司 | 一种火电机组发电数据异常值处理方法及装置 |
CN114253242A (zh) * | 2021-12-21 | 2022-03-29 | 上海纽酷信息科技有限公司 | 一种基于vpn的物联网云端设备数据采集系统 |
CN114662696A (zh) * | 2020-12-23 | 2022-06-24 | 微软技术许可有限责任公司 | 时间序列异常排名 |
CN114692515A (zh) * | 2022-06-01 | 2022-07-01 | 中材邦业(杭州)智能技术有限公司 | 一种基于时间滞后xgboost模型的熟料游离钙含量软测量方法 |
CN114754973A (zh) * | 2022-05-23 | 2022-07-15 | 中国航空工业集团公司哈尔滨空气动力研究所 | 基于机器学习的风洞测力试验数据智能诊断与分析方法 |
CN115438035A (zh) * | 2022-10-27 | 2022-12-06 | 江西师范大学 | 一种基于kpca和混合相似度的数据异常处理方法 |
CN115825755A (zh) * | 2022-12-30 | 2023-03-21 | 哈尔滨光宇新能源有限公司 | 一种储能电池电芯电压一致性评估方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011059015A (ja) * | 2009-09-11 | 2011-03-24 | Toshiba Corp | 干渉波検出装置及び干渉波検出方法 |
WO2015176565A1 (zh) * | 2014-05-22 | 2015-11-26 | 袁志贤 | 一种基于多维时间序列的电气设备故障预测方法 |
CN106127546A (zh) * | 2016-06-20 | 2016-11-16 | 重庆房慧科技有限公司 | 一种基于智慧社区大数据的商品推荐方法 |
CN108287782A (zh) * | 2017-06-05 | 2018-07-17 | 中兴通讯股份有限公司 | 一种多维数据异常检测方法及装置 |
CN108564286A (zh) * | 2018-04-19 | 2018-09-21 | 天合泽泰(厦门)征信服务有限公司 | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 |
CN109299156A (zh) * | 2018-08-21 | 2019-02-01 | 平安科技(深圳)有限公司 | 电子装置、基于XGBoost的电力数据异常预测方法及存储介质 |
CN110324316A (zh) * | 2019-05-31 | 2019-10-11 | 河南恩湃高科集团有限公司 | 一种基于多种机器学习算法的工控异常行为检测方法 |
US20190318202A1 (en) * | 2016-10-31 | 2019-10-17 | Tencent Technology (Shenzhen) Company Limited | Machine learning model training method and apparatus, server, and storage medium |
CN110399935A (zh) * | 2019-08-02 | 2019-11-01 | 哈工大机器人(合肥)国际创新研究院 | 基于孤立森林机器学习的机器人实时异常监测方法及系统 |
CN110441065A (zh) * | 2019-07-04 | 2019-11-12 | 杭州华电江东热电有限公司 | 基于lstm的燃气轮机在线检测方法与装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004334380A (ja) * | 2003-05-02 | 2004-11-25 | Yasuhiro Tanaka | 著作物管理方法。 |
CN109239021A (zh) * | 2018-11-07 | 2019-01-18 | 河南农业大学 | 一种非扫描聚焦式光学表面等离子共振检测装置 |
-
2019
- 2019-12-31 CN CN201911423436.0A patent/CN111275288B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011059015A (ja) * | 2009-09-11 | 2011-03-24 | Toshiba Corp | 干渉波検出装置及び干渉波検出方法 |
WO2015176565A1 (zh) * | 2014-05-22 | 2015-11-26 | 袁志贤 | 一种基于多维时间序列的电气设备故障预测方法 |
CN106127546A (zh) * | 2016-06-20 | 2016-11-16 | 重庆房慧科技有限公司 | 一种基于智慧社区大数据的商品推荐方法 |
US20190318202A1 (en) * | 2016-10-31 | 2019-10-17 | Tencent Technology (Shenzhen) Company Limited | Machine learning model training method and apparatus, server, and storage medium |
CN108287782A (zh) * | 2017-06-05 | 2018-07-17 | 中兴通讯股份有限公司 | 一种多维数据异常检测方法及装置 |
CN108564286A (zh) * | 2018-04-19 | 2018-09-21 | 天合泽泰(厦门)征信服务有限公司 | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 |
CN109299156A (zh) * | 2018-08-21 | 2019-02-01 | 平安科技(深圳)有限公司 | 电子装置、基于XGBoost的电力数据异常预测方法及存储介质 |
CN110324316A (zh) * | 2019-05-31 | 2019-10-11 | 河南恩湃高科集团有限公司 | 一种基于多种机器学习算法的工控异常行为检测方法 |
CN110441065A (zh) * | 2019-07-04 | 2019-11-12 | 杭州华电江东热电有限公司 | 基于lstm的燃气轮机在线检测方法与装置 |
CN110399935A (zh) * | 2019-08-02 | 2019-11-01 | 哈工大机器人(合肥)国际创新研究院 | 基于孤立森林机器学习的机器人实时异常监测方法及系统 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111780910A (zh) * | 2020-06-28 | 2020-10-16 | 缪新建 | 一种风力涡轮机螺栓紧固件压力检测装置及异常检测方法 |
CN112559803A (zh) * | 2020-07-08 | 2021-03-26 | 北京德风新征程科技有限公司 | 一种基于迭代的数据异常检测方法和检测系统 |
CN111708678A (zh) * | 2020-08-18 | 2020-09-25 | 北京志翔科技股份有限公司 | 一种异常监测方法及装置 |
CN112148723A (zh) * | 2020-10-15 | 2020-12-29 | 珠海大横琴科技发展有限公司 | 一种基于电子围网的异常数据优化方法、装置及电子设备 |
CN112485597A (zh) * | 2020-12-01 | 2021-03-12 | 国家电网公司华中分部 | 基于多源数据的电力系统输电线路故障诊断方法及系统 |
CN114662696A (zh) * | 2020-12-23 | 2022-06-24 | 微软技术许可有限责任公司 | 时间序列异常排名 |
CN112668200A (zh) * | 2021-01-06 | 2021-04-16 | 西安理工大学 | 一种特种设备安全性分析的方法及系统 |
CN112668200B (zh) * | 2021-01-06 | 2023-08-29 | 西安理工大学 | 一种特种设备安全性分析的方法及系统 |
CN112633781A (zh) * | 2021-03-08 | 2021-04-09 | 江苏海平面数据科技有限公司 | 一种基于车联网大数据的车辆能耗评价方法 |
CN113221453A (zh) * | 2021-04-30 | 2021-08-06 | 华风数据(深圳)有限公司 | 风电机组齿轮箱输出轴故障监测预警方法 |
CN113806351B (zh) * | 2021-11-19 | 2022-04-19 | 国能信控互联技术有限公司 | 一种火电机组发电数据异常值处理方法及装置 |
CN113806351A (zh) * | 2021-11-19 | 2021-12-17 | 国能信控互联技术有限公司 | 一种火电机组发电数据异常值处理方法及装置 |
CN114253242A (zh) * | 2021-12-21 | 2022-03-29 | 上海纽酷信息科技有限公司 | 一种基于vpn的物联网云端设备数据采集系统 |
CN114253242B (zh) * | 2021-12-21 | 2023-12-26 | 上海纽酷信息科技有限公司 | 一种基于vpn的物联网云端设备数据采集系统 |
CN114754973A (zh) * | 2022-05-23 | 2022-07-15 | 中国航空工业集团公司哈尔滨空气动力研究所 | 基于机器学习的风洞测力试验数据智能诊断与分析方法 |
CN114692515A (zh) * | 2022-06-01 | 2022-07-01 | 中材邦业(杭州)智能技术有限公司 | 一种基于时间滞后xgboost模型的熟料游离钙含量软测量方法 |
CN114692515B (zh) * | 2022-06-01 | 2022-09-02 | 中材邦业(杭州)智能技术有限公司 | 一种基于时间滞后xgboost模型的熟料游离钙含量软测量方法 |
CN115438035A (zh) * | 2022-10-27 | 2022-12-06 | 江西师范大学 | 一种基于kpca和混合相似度的数据异常处理方法 |
CN115825755A (zh) * | 2022-12-30 | 2023-03-21 | 哈尔滨光宇新能源有限公司 | 一种储能电池电芯电压一致性评估方法 |
CN115825755B (zh) * | 2022-12-30 | 2023-09-19 | 哈尔滨昆宇新能源有限公司 | 一种储能电池电芯电压一致性评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111275288B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275288B (zh) | 基于XGBoost的多维数据异常检测方法与装置 | |
CN110441065B (zh) | 基于lstm的燃气轮机在线检测方法与装置 | |
CN111596604B (zh) | 一种基于数字孪生的工程装备故障智能诊断与自愈控制系统及方法 | |
CN109492193B (zh) | 基于深度机器学习模型的异常网络数据生成与预测方法 | |
CN106682814B (zh) | 一种基于故障知识库的风电机组故障智能诊断方法 | |
CN109146246B (zh) | 一种基于自动编码器和贝叶斯网络的故障检测方法 | |
CN111275367B (zh) | 一种区域综合能源系统能效状态评价方法 | |
CN113255848B (zh) | 基于大数据学习的水轮机空化声信号辨识方法 | |
CN106644162B (zh) | 基于邻域保持嵌入回归算法的环网柜线芯温度软测量方法 | |
CN110685868A (zh) | 一种基于改进梯度提升机的风电机组故障检测方法及装置 | |
WO2023197461A1 (zh) | 一种基于工况相似性评估的齿轮箱故障预警方法及系统 | |
CN105607631B (zh) | 间歇过程弱故障模型控制限建立方法及弱故障监测方法 | |
CN111639842B (zh) | 一种设备健康评估方法、评估系统以及设备健康预测方法 | |
CN111103137A (zh) | 基于深度神经网络的风力涡轮机齿轮箱故障诊断方法 | |
CN114519923A (zh) | 一种电厂智能诊断预警方法和系统 | |
CN115434875A (zh) | 基于时空神经网络的风电机组故障状态检测方法 | |
CN114091600B (zh) | 一种数据驱动的卫星关联故障传播路径辨识方法及系统 | |
CN117290800B (zh) | 一种基于超图注意力网络的时序异常检测方法及系统 | |
Li et al. | A novel adaptive STFT-SFA based fault detection method for nonstationary processes | |
CN116738868B (zh) | 一种滚动轴承剩余寿命预测方法 | |
CN114462636A (zh) | 一种工业时序数据通过数据处理进行在线异常监测方法 | |
CN112988529A (zh) | 一种基于机器学习进行数据库系统性能预测的方法及系统 | |
CN117688496B (zh) | 面向卫星遥测多维时序数据的异常诊断方法、系统及设备 | |
Liu et al. | Bearing fault diagnosis analysis based on improved adaptive search algorithms and SVMs | |
CN111123890B (zh) | 一种特种设备故障监测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |