CN110083593A - 电站运行参数清洗及修复方法、修复系统 - Google Patents

电站运行参数清洗及修复方法、修复系统 Download PDF

Info

Publication number
CN110083593A
CN110083593A CN201910326323.2A CN201910326323A CN110083593A CN 110083593 A CN110083593 A CN 110083593A CN 201910326323 A CN201910326323 A CN 201910326323A CN 110083593 A CN110083593 A CN 110083593A
Authority
CN
China
Prior art keywords
parameter
data
sequence
vector
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910326323.2A
Other languages
English (en)
Other versions
CN110083593B (zh
Inventor
徐搏超
蒋寻寒
阮圣奇
吴仲
陈开峰
王松浩
任磊
胡中强
蒋怀锋
宋勇
朱涛
李强
张宁
王家庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datang Boiler Pressure Vessel Examination Center Co Ltd
East China Electric Power Test Institute of China Datang Corp Science and Technology Research Institute Co Ltd
Original Assignee
Datang Boiler Pressure Vessel Examination Center Co Ltd
East China Electric Power Test Institute of China Datang Corp Science and Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datang Boiler Pressure Vessel Examination Center Co Ltd, East China Electric Power Test Institute of China Datang Corp Science and Technology Research Institute Co Ltd filed Critical Datang Boiler Pressure Vessel Examination Center Co Ltd
Priority to CN201910326323.2A priority Critical patent/CN110083593B/zh
Publication of CN110083593A publication Critical patent/CN110083593A/zh
Application granted granted Critical
Publication of CN110083593B publication Critical patent/CN110083593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Quality & Reliability (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明一种电站运行参数清洗及修复方法,包括以下步骤:步骤一、对电站参数进行关联性分析,判断参数序列为强关联性实时参数序列、强关联性稀疏参数序列,独立参数序列中的一种;步骤二、识别参数噪点;步骤三、噪点预测清洗。本发明还公开一种基于大数据技术的电站运行参数清洗及修复的系统。本发明具有有效地区分“脏数据”和设备状态异常数据,同时对异常点给出的预测值具有较高的精度的优点。

Description

电站运行参数清洗及修复方法、修复系统
技术领域
本发明涉及大数据处理技术领域,尤其涉及电站运行参数清洗及修复方法。
背景技术
电站机组在运行过程中会产生海量数据流,这些数据是信息挖掘的基础。由于传感器短时失效、外界干扰以及传输错误等因素都会产生“脏数据”,在进行大数据分析前需完成对这些数据的清洗工作。但在实际生产过程中,有时也会产生一些反映设备异常运行状态的数据,这些真实的数据往往也会被归类为“脏数据”。因此大数据清洗过程中需要对“脏数据”进行辨别,避免误清洗引起的信息丢失。
工程信息领域的清洗工作一直是国内外研究热点,常用方法包括:基于滑动窗口模型的清洗方法;基于卡尔曼滤波和滑动窗口模型,克服了标签动态跃迁带来的延迟问题。通过构建动态可调窗口以提高数据清洗的准确度。这些数据清洗方法在通用的单一序列异常值处理中有着较为良好的表现。电力数据流具有明确的物理意义,参数间关联性较强,以上的清洗方法往往忽略了这一重要特性。
目前对电站数据的处理一般都是将运行参数据转为抽象序列进而完成数据清洗。电站数据具有体量大、关联性强和物理意义明确等特点,这些显著特征在以往的数据清洗方法中并没有得到体现。
发明内容
本发明所要解决的技术问题在于如何有效地区分“脏数据”和设备状态异常数据,同时对异常点给出的预测值具有较高的精度。
本发明通过以下技术手段实现解决上述技术问题的:一种电站运行参数清洗及修复方法,包括以下步骤:
步骤一、对电站参数进行关联性分析,判断参数序列为强关联性实时参数序列、强关联性稀疏参数序列,独立参数序列中的一种;
步骤二、识别参数噪点;
步骤三、噪点预测清洗。
优选地,所述步骤三中的噪点预测清洗具体包括:
若参数序列为独立参数序列,则对该噪点进行预测清洗;
若参数序列为强关联性稀疏参数序列,如果关联参数数据在同一时刻均异常,判断此时设备异常;如果关联参数中个别序列在某时刻出现异常,对关联参数序列在同一时刻做预测,预测值与测量值偏差超过2%则认为此时设备异常,否则为传感器异常;
若参数序列为强关联性实时参数序列,如果参数序列出现连续多个异常值,为设备异常;如果关联参数中个别序列在某时刻出现异常,或者关联参数出现若干异常点,为传感器异常。
优选地,所述步骤一采用数据关联规则对参数进行关联性分析,包括以下步骤:
S1、在数据集内找出所有的频繁项目集,即某些项目组成的集合在所有数据集中出现的频率不小于给定支持度;从频繁2-项集一直求到频繁k-项集;
S2、通过求出的频繁k-项集和置信度构建规则,如果关联度和置信度均不小于设定阈值,则这一规则认定为强关联规则。
优选地,所述步骤二采用DBSCAN算法识别参数噪点。
优选地,DBSCAN算法包括以下步骤:
(1)随机从样本数据集X选出数据点p;
(2)计算X中点除p外其他数据到点p的距离dist(p,q);如果所有计算距离均小于Eps,则将对p包含的数据加1,循环计算直到找完所有数据点的距离值为止:
(3)找出p的Eps领域中包含的数据点的数量D,判断D≥MinPts是否成立,若成立则将p标记为核心点;如果不成立,则将p标记为噪点。
(4)重复步骤(3)的算法步骤,直至将所有的数据都被标记完为止;此时的数据类型应该只有两类:核心点数据和噪点数据;
其中,X表示数据集;p、q分别表示数据集X中不同的数据点;Eps表示邻域的最大半径;Eps邻域表示数据集X中任一点,以该点位圆心,Eps为半径的圆形区域内的点集;MinPts表示Eps邻域中的最少点数。
优选地,采用相关向量机对所述步骤三中的噪点预测清洗。
优选地,所述相关向量机的建立包括以下步骤:
相关向量机的建立包括以下步骤:
S1:初始化噪声方差σ2和超参数α;
S2:计算出权重的后验方差∑和均值μ;
S3:重新估计σ2和α;
S4:迭代后再次计算权重的后验方差∑和均值μ;
S5:判断是否到达最大循环次数或迭代精度;
S6:筛出相关向量,即筛除超参数αi趋于无穷大所对应的权值和基函数,其余样本为相关向量;
其中,αi表示超参数向量α的第i+1个元素。
优选地,所述相关向量机的建立包括以下步骤:
数据集X作为训练样本集{(xi,ti),i=1,2,…,N};
xi:第i个的训练数据的列向量,ti:训练数据的目标向量t的第i个分量,N:样本数量;
非线性模型表示为t=y(x;w)+ε;
目标值t独立分布,样本集中伴有均值为0、方差为σ2的高斯噪声ε;
在给定的训练样本集中寻找逼近函数y(x;w);
相关向量机的预测模型输出:
式中w:权值向量,w=[w0,w1,…wN];Φ:基函数,Φ=[φ(x1),φ(x2),…,φ(xN)]T,φ(x1):训练样本点x1对应的基函数;K(x,xi):训练样本集中全体列向量x与第i个训练数据xi的核函数,wi:权值向量w中的第i+1个元素,w0:权值向量w第1个元素;由于目标值tn独立分布,整个训练样本集的似然函数为:
p(t|w,σ2):在权值向量w和噪声方差σ2存在情况下目标向量t的概率分布函数;
这里权值w满足高斯先验概率分布;
式中α:权值向量w的先验分布的超参数;α=[α01,…,αN]T,αi:超参数向量α的第i+1个元素;p(w|α):超参数α存在情况下,权值向量w的概率分布函数;
这里超参数向量α和噪声方差σ2符合Gamma概率分布,它们的概率分布如下所示:
p(σ2)=Gamma(σ2|c,d) (5)
P(α):超参数向量α的概率分布函数;P(σ2):噪声方差σ2的概率分布函数;a,b为超参数的Gamma分布函数中的参数;c,d为噪声方差σ2的Gamma分布函数中的参数;
由贝叶斯定理得到后验概率分布为:
p(w,α,σ2|t)=P(w|t,α,σ2)P(α,σ2|t) (6)
根据马尔科夫性质,待预测输入向量x*的目标值t*的概率预测公式
p(t*|t)=∫P(t*|w,α,σ2)P(w,α,σ2|t)dwdαdσ2 (7)
由于式(7)中的P(w,α,σ2|t)无法直接积分求解,故分解为:
P(w,α,σ2|t)=P(w|t,α,σ2)P(α,σ2|t) (8)
其中后验概率P(w|t,α,σ2)由下式得到:
μ:权值向量w后验概率的均值向量;Σ:权值向量w后验概率的协方差矩阵;权值向量w均值μ和后验概率分布协方差Σ表达式如下:
μ=σ-2ΣΦTt,Σ=(σ-2ΦTΦ+Α)-1 (10)
式中A=diag(α01,…,αN);
由权值后验分布的均值μ估计权值,Σ表征模型预测的不确定性;
最后p(t*|t)近似等价于下式:
αMP,σ2 MP表示的α,σ2的最优值;此时,相关向量学习转为最大化p(α,σ2|t)找到αMP,σ2 MP;求p(α,σ2|t)的最大值即求p(t|α,σ2)最大;
式中C=σ2I+ΦA-1ΦT,其中I为单位矩阵;对式(12)两边取对数,再分别对求偏导,得到:
μi:均值向量μ的第i个元素,γi=1-Σii,Σii是Σ的第i个对角线上的元素;将αi new、(σ2)new作为公式(6)的输入,迭代式(6),直至αi以及wi收敛;若αi趋于无穷大,对应的wi趋于零;从而导致解的稀疏性;对于非零wi所对应的学习样本称为相关向量;对待测数据x*作如下估计:
式中y*=μTφ(x*);
y*是所有权重的平均值,作为t*的预测值。
优选地,收敛条件是迭代次数达到1000次或者两次迭代结果的梯度小于10-3
本发明还公开一种基于大数据技术的电站运行参数清洗及修复的系统,包括
关联性分析模块,用以对电站参数进行关联性分析,判断参数序列为强关联性实时参数序列、强关联性稀疏参数序列,独立参数序列中的一种;
参数噪点识别模块,用以对强关联的电站参数其噪点进行识别;
噪点预测清洗,若参数序列为独立参数序列,则对该噪点进行预测清洗;若参数序列为强关联性稀疏参数序列,如果关联参数数据在同一时刻均异常,判断此时设备异常;如果关联参数中个别序列在某时刻出现异常,对关联参数序列在同一时刻做预测,预测值与测量值偏差超过2%则认为此时设备异常,否则为传感器异常;若参数序列为强关联性实时参数序列,如果参数序列出现连续多个异常值,为设备异常;如果关联参数中个别序列在某时刻出现异常,或者关联参数出现若干异常点,为传感器异常。
本发明的优点在于:
(1)利用电站参数特征和关联性,细化了运行数据的清洗策略。对强关联性实时序列、强关联性稀疏序列和独立序列分别给出有针对性的清洗方法。
(2)该清洗方法有效的区分了“脏数据”和设备状态异常点。运行数据清洗兼顾参数的物理意义,弥补了抽象序列处理的局限性。
(3)引入相关向量机对“脏数据”进行预测,试验分析结果表明,预测结果精度较高,可实现对“脏数据”的修复。
附图说明
图1为本发明实施例1中机组出力和压气机压比运行历史数据曲线图。
图2为本发明实施例1中机组出力和机组压比变化量线性拟合结果曲线图。
图3为本发明实施例2中转速原始数据的曲线图。
图4为本发明实施例2中加入异常值后数据的曲线图。
图5为本发明实施例2中清洗后数据的曲线图。
图6为本发明实施例2中机组出力和压气机压比运行数据的曲线图。
图7为本发明实施例3中机组出力数据异常情况下,机组出力和压气机压比运行数据曲线图。
图8为发明实施例3中数据修改后,RVM模型预测的机组出力数据的曲线图。
图9发明实施例4中在大气温度数据异常情况下,大气湿度和大气温度采集数据的曲线图。
其中,1表示压气机压比,2表示机组出力,3表示大气湿度,4表示大气温度。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。
实施例1
本实施例公开一种电站运行参数清洗及修复方法,包括以下步骤:
步骤一、对电站参数进行关联性分析,判断参数序列为强关联性实时参数序列、强关联性稀疏参数序列,独立参数序列中的一种;
(1)大数据关联规则
电站运行参数间往往具有较强的关联性,本实施例选用关联规则挖掘参数间的关联信息。
挖掘过程主要包括:
一、在数据集内找出所有的频繁项目集,即某些项目组成的集合在所有数据集中出现的频率不小于给定的阈值—支持度(Support),从频繁2-项集一直求到频繁k-项集。
二、通过求出的频繁k-项集和置信度(Confidence)构建规则,如果置信度不小于最小置信度,则这一规则可以认定为关联规则。
对于关联规则X、Y,其中X和Y分别是规则的前件和结果,则关联规则的支持度(support)可以表示为包含X和Y的事务集T在故障总事务集D中所占的百分比,即:
关联规则在D中的置信度是包含X的事务中,包含Y的百分比,即:
强关联规则要求同时满足支持度和置信度最小阈值。支持度表征规则发生的可能性;置信度代表当X存在时,Y同时存在的概率。
(2)基于关联规则的参数关联性分析
燃机电厂运行参数是数值型数据,参数间关联性往往体现在数据的变化趋势上。基于此,本实施例选用斜率表征数据序列的变化趋势,将标准化的斜率映射为布尔型数据后,再通过Apriori算法进行信息挖掘。
首先对数据序列进行区间化处理,根据参数类型选取合适宽度的滑动窗口S对时间序列X进行截取;线性拟合每段区间的斜率,标准化处理后使得所有斜率全部落在[–1,1]内;对区间[–1,1]进行均分,各段斜率区间映射为布尔型,见表1。
表1子序列符号化表示
经过上述预处理,数值序列映射为有限个元素的布尔型序列。以两参数序列X1和X2的关联性分析为例:
(1)选用相同的时间窗口S等距截取两时间序列X1和X2,线性拟合对斜率标准化,再映射为布尔型序列;
(2)两个参数序列中相同序号下的元素组成一个子事务,所有子事务构成一个完整事务集。通过Apriori算法找出完整事务集中频繁项集,大于最小支持度和最低置信度的作为关联规则。它反映了两参数在相同时间段内的趋势相互响应情况。
(3)设参数序列X1和X2间已求出有N条关联规则,为了综合表征两参数序列间的关联程度和置信度,本实施例提出一种描述序列间关联度和置信度的方法,见式(3)、(4):
式(3)中,x1和x2是频繁项集中两个项,分别属于X1和X2序列中的两个元素,x1、x2取值集合为{a,b,c,d,e}。
Pcorrelation(X1→X2)——序列X1与X2的关联度;
Pcorrelation(X1→X2)——关联规则X1→X2的置信度;
x1i——参数序列X1第i个子序列(子事务)的符号化表示;
x2i——参数序列X2第i个子序列(子事务)的符号化表示;
N表示子序列个数。
设定关联度和置信度阈值均为0.5,关联度和置信度均大于阈值的两参数序列认定为强关联序列,否则为两参数间无明显关联性,为独立序列。
时序关联性实例分析
以机组喘振事故停机过程中机组压比(压气机压比)和机组出力两个运行实测参数数据为例,机组压比序列为X1、机组出力序列为X2。机组从正常状态到出力持续变动的时间区间数据构成待处理数据集。滑动窗口S=10,数据集长度L=420,截得子序列个数N=42。原始数据序列和线性拟合处理后的图像见图1和图2。
对两参数进行分析,数据处理结果见表2。
表2满足阈值的子序列支持和置信度
1a,1b,1c——参序列X1中三个斜率段符号化表示,对应斜率段见表1;
2a,2b,2c——参序列X2中三个斜率段符号化表示,对应斜率段见表1;
从表2计算得出,机组出力和压比变化量序列间的关联度0.83和置信度0.61都大于阈值0.5,
关联度计算:0.34+0.27+0.22=0.83;
置信度计算:0.34×0.82+0.27×0.71+0.22×0.64=0.61;
故认定这两个参数具有较强的关联性。从图1中可以看出,两个参数的趋势线变化较为一致。
步骤二、识别参数噪点;
电站运行参数运行时往往要求其短期变化幅度不超过一定阈值,因而数据序列具有较好的平滑性,取值范围相对固定。基于密度模式的空间数据聚类方法(density-basedspatial clustering of applications with noise,DBSCAN算法)能够适应任意形态的类簇,并筛除空间中的噪声孤立点,非常适用于运行参数序列的异常值识别。本实施例选用该算法对传感器测量数据进行异常点检测分析。DBSCAN算法的描述如下(以机组出力序列X2为例):
(1)随机从机组出力序列X2选出某点x;
(2)计算X2序列中所有点(除x外)到点x的欧式距离dist(x’,x),如果所有计算距离均小于Eps,则x包含的数据加1,循环计算直到找到所有点的距离。
x’——序列X2中除x所有点;
Eps——邻域最大半径,本实施例中设为3.5;
Eps邻域——序列X2中任一点x,以x为圆心,Eps为半径的圆形区域内的点集;
(3)找出x的Eps邻域中包含的数据个数D进行判断,当D≥MinPts(在Eps邻域中的最少点数),将x标记为核心点;否则将x标记为噪点。
MinPts——任意簇中点的最小数,本实施例中设为2.5;
核心的——区域点数大于MinPts,区域内点为核心点;
噪点——区域点数小于MinPts,区域内点为噪点;
(4)重复步骤(3)的算法步骤,直至将所有的数据都被标记完为止。此时序列X2应该只有两类:核心点和噪点。
步骤三、噪点预测清洗;
对于标记出的噪点,需要进一步区别“脏数据”和设备异常状态点。大部分故障在发生前都具有征兆,这些异常信息往往蕴含在历史数据序列里。基于历史数据对异常点进行预测,可以在一定程度上反映该时刻设备的真实状态。对于突发性故障,可以结合关联序列进行补充判断。
综合考虑数据清洗的时间和计算量成本问题,本实施例选用在小样本处理具有突出优点的相关向量机(Relevance vector machine,RVM)算法。
RVM建立,包括以下步骤:
S1:初始化噪声方差σ2和超参数α,最大迭代次数设为1000、迭代精度为两次迭代的结果的梯度小于10-3
S2:计算出权重的后验方差∑和均值μ;
S3:重新估计σ2和α;
S4:迭代后再次计算权重的后验方差∑和均值μ;
S5:判断是否到达最大循环次数或迭代精度;
S6:达到最大循环次数或迭代精度,筛出相关向量,即筛除超参数αi趋于无穷大所对应的权值和基函数,其余样本为相关向量;
S7:根据得到的最优αMP,σ2 MP对机组出力序列X2的测试数据进行预测,得到预测结果。
本实施例以机组出力序列X2为例,建立RVM模型:
(1)给定参数X2的近期历史数据作为训练样本集{(xi,ti),i=1,2,…,N},xi:第i个的训练数据的列向量,ti:训练数据的目标向量t的第i个分量,N:样本数量。
非线性模型表示为t=y(x;w)+ε。
目标值t独立分布,样本集中伴有均值为0、方差为σ2的高斯噪声ε。回归计算的目的就是在给定的训练样本集中寻找逼近函数y(x;w)。
相关向量机的预测模型输出:
式中w:权值向量,w=[w0,w1,…wN];Φ:基函数,Φ=[φ(x1),φ(x2),…,φ(xN)]T,φ(x1):训练样本点x1对应的基函数;K(x,xi):训练样本集中全体列向量x与第i个训练数据xi的核函数,wi:权值向量w中的第i+1个元素,w0:权值向量w第1个元素;由于目标值tn独立分布,整个训练样本集的似然函数为:
p(t|w,σ2):在权值向量w和噪声方差σ2存在情况下目标向量t的概率分布函数。
若直接对式(6)采用最大似然估计求解权值向量w和噪声方差σ2,则会产生严重过拟合,这里权值w满足高斯先验概率分布;
式中α:权值向量w的先验分布的超参数。α=[α01,…,αN]T,αi:超参数向量α的第i+1个元素。p(w|α):超参数α存在情况下,权值向量w的概率分布函数。
这里超参数向量α和噪声方差σ2符合Gamma概率分布,它们的概率分布如下所示:
p(σ2)=Gamma(σ2|c,d) (9)
P(α):超参数的概率分布函数,P(σ2):噪声方差σ2的概率分布函数。a,b:超参数的Gamma分布函数中的参数。c,d:噪声方差σ2的Gamma分布函数中的参数。这里a,b,c,d取10-4。由贝叶斯定理得到后验概率分布为:
p(w,α,σ2|t)=P(w|t,α,σ2)P(α,σ2|t) (10)
根据马尔科夫性质,待预测输入向量x*的目标值t*的概率预测公式
p(t*|t)=∫P(t*|w,α,σ2)P(w,α,σ2|t)dwdαdσ2 (11)
由于式(11)中的P(w,α,σ2|t)无法直接积分求解,故分解为:
P(w,α,σ2|t)=P(w|t,α,σ2)P(α,σ2|t) (12)
其中后验概率P(w|t,α,σ2)由下式得到:
μ:权值向量w后验概率的均值向量。Σ:权值向量w后验概率的协方差矩阵。权值向量w均值μ和后验概率分布协方差Σ表达式如下:
μ=σ-2ΣΦTt,Σ=(σ-2ΦTΦ+Α)-1 (14)
式中A=diag(α01,…,αN);
由权值后验分布的均值μ估计权值,Σ表征模型预测的不确定性。
最后p(t*|t)近似等价于下式:
αMP,σ2 MP表示的α,σ2的最优值。此时,相关向量学习转为最大化p(α,σ2|t)找到αMP,σ2 MP。求p(α,σ2|t)的最大值即求p(t|α,σ2)最大。
式中C=σ2I+ΦA-1ΦT,其中I为单位矩阵。对式(16)两边取对数,再分别对求偏导,得到:
μi:均值向量μ的第i个元素,γi=1-Σii,Σii是Σ的第i个对角线上的元素。将αi new、(σ2)new作为公式(10)的输入,迭代式(10),在迭代过程中,αi会同步更新。αi会趋于无穷大,对应的wi趋于零(停止条件是要么达到1000次,要么两次迭代结果的梯度小于10-3),从而导致解的稀疏性。非零wi所对应的学习样本称为相关向量(RV);对待测数据x*作如下估计:
式中;
y*是所有权重的平均值,作为t*的预测值。
(4)参数异常值清洗流程
本发明根据运行参数的时效性特征将数据序列分为实时序列(最大时间间隔单位为分钟)和稀疏序列(最小时间间隔为小时)。结合参数关联性分析,对电站运行参数序列分析可分为以下三种情况:强关联性实时序列、强关联性稀疏序列,独立序列。
(4.1)对于独立的参数序列,使用DBSCAN聚类对其检测分析,发现噪点后通过RVM模型预测清洗。针对关联性强的参数组合,分以下两种情况分别处理:
(4.2)稀疏参数序列:如果关联参数数据在同一时刻均异常,判断此时设备异常,应对设备进行故障诊断。如果关联参数中个别序列在某时刻出现异常,对关联参数序列在同一时刻做预测,偏差较大则认为此时设备异常,否则为传感器异常。
(4.3)实时参数序列:如果参数序列出现连续多个异常值,基于安全性原则,为设备异常。如果关联参数中个别序列在某时刻出现异常,或者关联参数出现若干异常点,为传感器异常。
实施例2
独立序列清洗案例
选取某电厂1号机组正常启机过程的转速数据作为分析参数。首先通过历史数据训练相关向量回归机。测试数据集长度L=1800,原始数据见图3所示,该数据序列不存在噪声点和缺失值。
为检验本项目清洗的实用性,在原来第200、800、1200、1500个数据,共四处数据加入异常,将第600、1000个数据,共两处数据剔除(成为缺失点),人为构建一个需要清洗的序列,见图4所示。清洗流程对待清洗序列进行识别和预测,清洗后结果见图5所示。
第200、800、1200、1500个异常数据点,第600、1000个缺失数据点,预测结果和偏差如表3所示。
表3转速预测结果和偏差
从表3可知,该清洗方案对于异常数据具有较强的灵敏度,异常点预测数据精度较高。
实施例3
强关联性实时序列清洗案例
将实施例2选用这两个参数作为试验序列。首先基于历史数据作为输入来训练相关向量回归机。利用正常数据完成对RVM模型的训练,然后输入第一组测试数据,待测数据集长度L=840,原始数据见图6。1表示压气机压比,2表示机组出力。
从图6中可以看出,压比序列从第326个数据点到第348个数据连续出现了异常变动,为了保证设备安全,此时应对设备进行故障排查分析。本次故障经现场排查后发现短时间的突发性滤网堵塞。
输入第二组待测数据,待测数据集长度L=420。按照上述流程再次进行筛选。第二组数据见图7。
从图7中可以看到,在160-170个数据点,机组出力和压气机压比数据几乎同步出现多个数据变化,且变化趋势基本一致,故认为该段时间为设备异常状态时段,后期在第342、343个数据点只有机组出力参数出现异常变动,压气机参数并没有相应变化且变化平稳,故分析该异常点为监测机组出力的仪器出现异常。
此时,用RVM模型对该点进行预测,见表4:
表4机组出力预测结果
从图8中可以看出,RVM模型预测的机组出力值与原始数据序列较为符合,同时与关联序列压气机压比数据也有较好的对应。
实施例4
强关联性稀疏序列清洗案例
大气温度和大气湿度参数具有较强的关联性,这两个参数在相当长的一段时间内变化幅度很小,故对这两个参数的数据可以稀疏采集存储。首先通过历史数据训练相关向量回归机,然后输入待测数据进行清洗。待测数据集长度L=240,原始数据见图9。其中3表示大气湿度,4表示大气温度
从图9中可以发现,大气湿度和大气温度呈现出相反的变化规律,且关联性较强。大气湿度和大气温度在第36-40点区间内同时出现尖峰,故认定该段时间为状态异常。在第156个数据点处,大气温度序列出现了异常点,对同一时刻的湿度参数进行预测分析,预测结果和误差见4所示。
表4大气湿度预测结果和偏差
由表4中的预测偏差可知,大气湿度变化量在第156个数据点处的误差0.5%小于2%,故认为大气温度序列在第156个数据点处发生了传感数据异常,需要对大气温度序列在该点处的数据进行清洗,并给出预测值代替。
需要说明的是,在本发明中,如若存在第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种电站运行参数清洗及修复方法,其特征在于,包括以下步骤:
步骤一、对电站参数进行关联性分析,判断参数序列为关联性参数序列、独立参数序列中的一种;
步骤二、识别参数噪点;
步骤三、噪点预测清洗。
2.根据权利要求1所述的一种电站运行参数清洗及修复方法,其特征在于,步骤一中的关联性参数序列包括关联性参数序列包括强关联性稀疏参数序列、强关联性实时参数序列;
所述步骤三中的噪点预测清洗,具体包括:
若参数序列为独立参数序列,则对该噪点进行预测清洗;
若参数序列为强关联性稀疏参数序列,如果关联参数数据在同一时刻均异常,判断此时设备异常;如果关联参数中个别序列在某时刻出现异常,对关联参数序列在同一时刻做预测,预测值与测量值偏差超过设定值,则认为此时设备异常,否则为传感器异常;
若参数序列为强关联性实时参数序列,如果参数序列出现连续多个异常值,为设备异常;如果关联参数中个别序列在某时刻出现异常,或者关联参数出现若干异常点,为传感器异常。
3.根据权利要求1或2所述的一种电站运行参数清洗及修复方法,其特征在于,所述步骤一中对参数进行关联性分析,包括以下步骤:
S1、在数据集内找出所有的频繁项目集,即某些项目组成的集合在所有数据集中出现的频率不小于给定支持度;从频繁2-项集一直求到频繁k-项集;
S2、通过求出的频繁k-项集和置信度构建规则,如果关联度和置信度均不小于设定阈值,则这一规则认定为强关联规则。
4.根据权利要求1或2所述的一种电站运行参数清洗及修复方法,其特征在于,所述步骤二采用DBSCAN算法识别参数噪点。
5.根据权利要求4所述的一种电站运行参数清洗及修复方法,其特征在于,DBSCAN算法包括以下步骤:
(1)随机从样本数据集X选出数据点p;
(2)计算X中点除p外其他数据到点p的距离dist(p,q);如果所有计算距离均小于Eps,则将对p包含的数据加1,循环计算直到找完所有数据点的距离值为止;
(3)找出p的Eps领域中包含的数据点的数量D,判断D≥MinPts是否
成立,若成立则将p标记为核心点;如果不成立,则将p标记为噪点。
(4)重复步骤(3)的算法步骤,直至将所有的数据都被标记完为止;此时的数据类型应该只有两类:核心点数据和噪点数据;
其中,X表示数据集;p、q分别表示数据集X中不同的数据点;Eps表示邻域的最大半径;Eps邻域表示数据集X中任一点,以该点位圆心,Eps为半径的圆形区域内的点集;MinPts表示Eps邻域中的最少点数。
6.根据权利要求1或2所述的一种电站运行参数清洗及修复方法,其特征在于,采用相关向量机的对所述步骤三中噪点数据机型预测。
7.根据权利要求6所述的一种电站运行参数清洗及修复方法,其特征在于,相关向量机的建立包括以下步骤:
S1:初始化噪声方差σ2和超参数α;
S2:计算出权重的后验方差∑和均值μ;
S3:重新估计σ2和α;
S4:迭代后再次计算权重的后验方差∑和均值μ;
S5:判断是否到达最大循环次数或迭代精度;
S6:筛出相关向量,即筛除超参数αi趋于无穷大所对应的权值和基函数,其余样本为相关向量;
其中,αi表示超参数向量α的第i+1个元素。
8.根据权利要求7所述的一种电站运行参数清洗及修复方法,其特征在于,所述相关向量机的建立包括以下步骤:
数据集X作为训练样本集{(xi,ti),i=1,2,…,N};
xi:第i个的训练数据的列向量,ti:训练数据的目标向量t的第i个分量,N:样本数量;
非线性模型表示为t=y(x;w)+ε;
目标值t独立分布,样本集中伴有均值为0、方差为σ2的高斯噪声ε;
在给定的训练样本集中寻找逼近函数y(x;w);
相关向量机的预测模型输出:
式中w:权值向量,w=[w0,w1,…wN];Φ:基函数,Φ=[φ(x1),φ(x2),…,φ(xN)]T,φ(x1):训练样本点x1对应的基函数;K(x,xi):训练样本集中全体列向量x与第i个训练数据xi的核函数,wi:权值向量w中的第i+1个元素,w0:权值向量w第1个元素;由于目标值tn独立分布,整个训练样本集的似然函数为:
p(t|w,σ2):在权值向量w和噪声方差σ2存在情况下目标向量t的概率分布函数;
这里权值w满足高斯先验概率分布;
式中α:权值向量w的先验分布的超参数;α=[α01,…,αN]T,αi:超参数向量α的第i+1个元素;p(w|α):超参数α存在情况下,权值向量w的概率分布函数;
这里超参数向量α和噪声方差σ2符合Gamma概率分布,它们的概率分布如下所示:
p(σ2)=Gamma(σ2|c,d)(5)
P(α):超参数的概率分布函数;P(σ2):噪声方差σ2的概率分布函数;a,b为超参数的Gamma分布函数中的参数;c,d为噪声方差σ2的Gamma分布函数中的参数;
由贝叶斯定理得到后验概率分布为:
p(w,α,σ2|t)=P(w|t,α,σ2)P(α,σ2|t)(6)
根据马尔科夫性质,待预测输入向量x*的目标值t*的概率预测公式
p(t*|t)=∫P(t*|w,α,σ2)P(w,α,σ2|t)dwdαdσ2(7)
由于式(7)中的P(w,α,σ2|t)无法直接积分求解,故分解为:
P(w,α,σ2|t)=P(w|t,α,σ2)P(α,σ2|t)(8)
其中后验概率P(w|t,α,σ2)由下式得到:
μ:权值向量w后验概率的均值向量;Σ:权值向量w后验概率的协方差矩阵;权值向量w均值μ和后验概率分布协方差Σ表达式如下:
μ=σ-2ΣΦTt,Σ=(σ-2ΦTΦ+Α)-1 (10)
式中A=diag(α01,…,αN);
由权值后验分布的均值μ估计权值,Σ表征模型预测的不确定性;
最后p(t*|t)近似等价于下式:
αMP,σ2 MP表示的α,σ2的最优值;此时,相关向量学习转为最大化p(α,σ2|t)找到αMP,σ2 MP;求p(α,σ2|t)的最大值即求p(t|α,σ2)最大;
式中C=σ2I+ΦA-1ΦT,其中I为单位矩阵;对式(12)两边取对数,再分别对求偏导,得到:
μi:均值向量μ的第i个元素,γi=1-Σii,Σii是Σ的第i个对角线上的元素;将αi new、(σ2)new作为公式(6)的输入,迭代式(6),直至αi以及wi收敛;对于非零wi所对应的学习样本称为相关向量;对待测数据x*作如下估计:
式中y*=μTφ(x*);
y*是所有权重的平均值,作为t*的预测值。
9.根据权利要求8所述的一种电站运行参数清洗及修复方法,其特征在于,收敛条件是迭代次数达到1000次或者两次迭代结果的梯度小于10-3
10.一种基于大数据技术的电站运行参数清洗及修复的系统,其特征在于,包括:
关联性分析模块,用以对电站参数进行关联性分析,判断参数序列为强关联性实时参数序列、强关联性稀疏参数序列,独立参数序列中的一种;
参数噪点识别模块,用以对强关联的电站参数其噪点进行识别;
噪点预测清洗,若参数序列为独立参数序列,则对该噪点进行预测清洗;若参数序列为强关联性稀疏参数序列,如果关联参数数据在同一时刻均异常,判断此时设备异常;如果关联参数中个别序列在某时刻出现异常,对关联参数序列在同一时刻做预测,预测值与测量值偏差超过设定值,则认为此时设备异常,否则为传感器异常;若参数序列为强关联性实时参数序列,如果参数序列出现连续多个异常值,为设备异常;如果关联参数中个别序列在某时刻出现异常,或者关联参数出现若干异常点,为传感器异常。
CN201910326323.2A 2019-04-23 2019-04-23 电站运行参数清洗及修复方法、修复系统 Active CN110083593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910326323.2A CN110083593B (zh) 2019-04-23 2019-04-23 电站运行参数清洗及修复方法、修复系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910326323.2A CN110083593B (zh) 2019-04-23 2019-04-23 电站运行参数清洗及修复方法、修复系统

Publications (2)

Publication Number Publication Date
CN110083593A true CN110083593A (zh) 2019-08-02
CN110083593B CN110083593B (zh) 2023-02-10

Family

ID=67416152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910326323.2A Active CN110083593B (zh) 2019-04-23 2019-04-23 电站运行参数清洗及修复方法、修复系统

Country Status (1)

Country Link
CN (1) CN110083593B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179591A (zh) * 2019-12-30 2020-05-19 银江股份有限公司 一种路网交通时序特征数据质量诊断与修复方法
CN111177138A (zh) * 2019-12-30 2020-05-19 深圳市恒泰能源科技有限公司 电力需求侧的大数据分析方法、装置、设备及存储介质
CN111768082A (zh) * 2020-06-02 2020-10-13 广东电网有限责任公司 一种基于大数据分析的电力设备状态评估方法
CN112001596A (zh) * 2020-07-27 2020-11-27 北京科技大学 一种时间序列数据异常点检测方法及系统
CN113723486A (zh) * 2021-08-23 2021-11-30 水利部交通运输部国家能源局南京水利科学研究院 一种离心泵多模态监测数据清洗及建模方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101690A1 (zh) * 2014-12-22 2016-06-30 国家电网公司 基于时间序列分析的输变电设备的状态监测数据清洗方法
CN106909490A (zh) * 2017-02-28 2017-06-30 国网福建省电力有限公司 一种监测设备数据流评估和噪声消除方法
CN106909664A (zh) * 2017-02-28 2017-06-30 国网福建省电力有限公司 一种电力设备数据流故障识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101690A1 (zh) * 2014-12-22 2016-06-30 国家电网公司 基于时间序列分析的输变电设备的状态监测数据清洗方法
CN106909490A (zh) * 2017-02-28 2017-06-30 国网福建省电力有限公司 一种监测设备数据流评估和噪声消除方法
CN106909664A (zh) * 2017-02-28 2017-06-30 国网福建省电力有限公司 一种电力设备数据流故障识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
范庚等: "电子系统状态时间序列预测的优化相关向量机方法", 《系统工程与电子技术》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179591A (zh) * 2019-12-30 2020-05-19 银江股份有限公司 一种路网交通时序特征数据质量诊断与修复方法
CN111177138A (zh) * 2019-12-30 2020-05-19 深圳市恒泰能源科技有限公司 电力需求侧的大数据分析方法、装置、设备及存储介质
CN111768082A (zh) * 2020-06-02 2020-10-13 广东电网有限责任公司 一种基于大数据分析的电力设备状态评估方法
CN112001596A (zh) * 2020-07-27 2020-11-27 北京科技大学 一种时间序列数据异常点检测方法及系统
CN112001596B (zh) * 2020-07-27 2023-10-31 北京科技大学 一种时间序列数据异常点检测方法及系统
CN113723486A (zh) * 2021-08-23 2021-11-30 水利部交通运输部国家能源局南京水利科学研究院 一种离心泵多模态监测数据清洗及建模方法

Also Published As

Publication number Publication date
CN110083593B (zh) 2023-02-10

Similar Documents

Publication Publication Date Title
CN110083593A (zh) 电站运行参数清洗及修复方法、修复系统
Roemer et al. An overview of selected prognostic technologies with application to engine health management
KR101872342B1 (ko) 개선된 RTC(Real-time contrasts) 기법을 이용한 지능형 이상 진단 방법 및 장치
CN110555230B (zh) 基于集成gmdh框架的旋转机械剩余寿命预测方法
Niaki et al. Economic and economic-statistical designs of MEWMA control charts—a hybrid Taguchi loss, Markov chain, and genetic algorithm approach
Wanner et al. How Much AI Do You Require? Decision Factors for Adopting AI Technology.
CN107146004A (zh) 一种基于数据挖掘的矿渣粉磨系统健康状态识别系统及方法
CN115828140B (zh) 邻域互信息与随机森林相融合故障检测方法、系统及应用
Huang et al. An effective fault diagnosis method for centrifugal chillers using associative classification
EP2529186A1 (en) Robust automated determination of the hierarchical structure of utility monitoring systems
Chen et al. A health index construction framework for prognostics based on feature fusion and constrained optimization
Loboda et al. Gas turbine fault diagnosis using probabilistic neural networks
CN109636110A (zh) 一种获取继电保护装置运行状态的方法及装置
CN105930629A (zh) 一种基于海量运行数据的在线故障诊断方法
CN116224137A (zh) 一种ups设备故障预警方法及系统
Chen et al. A deep learning feature fusion based health index construction method for prognostics using multiobjective optimization
Chen et al. Multicondition operation fault detection for chillers based on global density-weighted support vector data description
Chen et al. Convolution-graph attention network with sensor embeddings for remaining useful life prediction of turbofan engines
Zhang et al. Complementary ensemble adaptive local iterative filtering and its application to rolling bearing fault diagnosis
Xu et al. Anomaly detection with gru based bi-autoencoder for industrial multimode process
Bashiri et al. Multi-objective efficient design of np control chart using data envelopment analysis
Hou et al. Application of fuzzy logic and variable precision rough set approach in a remote monitoring manufacturing process for diagnosis rule induction
Dui et al. Reliability Evaluation and Prediction Method with Small Samples.
Hu et al. TS-InvarNet: Anomaly detection and localization based on tempo-spatial KPI invariants in distributed services
Eustace A real-world application of fuzzy logic and influence coefficients for gas turbine performance diagnostics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant