CN106599271A - 一种燃煤机组排放监测时序数据异常值检测方法 - Google Patents
一种燃煤机组排放监测时序数据异常值检测方法 Download PDFInfo
- Publication number
- CN106599271A CN106599271A CN201611202669.4A CN201611202669A CN106599271A CN 106599271 A CN106599271 A CN 106599271A CN 201611202669 A CN201611202669 A CN 201611202669A CN 106599271 A CN106599271 A CN 106599271A
- Authority
- CN
- China
- Prior art keywords
- sample
- point
- data
- distribution
- time series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 23
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 230000002159 abnormal effect Effects 0.000 title abstract description 9
- 238000009826 distribution Methods 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 59
- 230000008859 change Effects 0.000 claims abstract description 8
- 238000003064 k means clustering Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims description 26
- 239000003245 coal Substances 0.000 claims description 23
- 238000007689 inspection Methods 0.000 claims description 22
- 238000013480 data collection Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 238000010998 test method Methods 0.000 abstract description 3
- 230000004044 response Effects 0.000 abstract description 2
- 238000010977 unit operation Methods 0.000 abstract description 2
- 238000000551 statistical hypothesis test Methods 0.000 abstract 1
- 239000000428 dust Substances 0.000 description 14
- 239000000779 smoke Substances 0.000 description 9
- 230000005684 electric field Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- RAHZWNYVWXNFOC-UHFFFAOYSA-N Sulphur dioxide Chemical compound O=S=O RAHZWNYVWXNFOC-UHFFFAOYSA-N 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 239000003344 environmental pollutant Substances 0.000 description 3
- 231100000719 pollutant Toxicity 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 238000006477 desulfuration reaction Methods 0.000 description 2
- 230000023556 desulfurization Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000003500 flue dust Substances 0.000 description 2
- 239000007789 gas Substances 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- GQPLMRYTRLFLPF-UHFFFAOYSA-N Nitrous Oxide Chemical class [O-][N+]#N GQPLMRYTRLFLPF-UHFFFAOYSA-N 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000004087 circulation Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种燃煤机组排放监测时序数据异常值检测方法,具体是运用k‑means聚类算法,根据机组运行状态和环保设施运行方式对测点全工况历史样本数据集进行工况划分,然后针对每个工况历史样本集,基于统计假设检验方法,建立异常值检测模型,根据工况样本集的数据分布特征选择不同的假设检验方法对测点时序数据进行在线辨识,及时定位与历史分布和当前变化趋势不一致的异常点。本发明使用假设检验方法对现场监测数据进行异常值在线检测,动态辨识与历史分布或当前变化趋势不一致的异常点,为更为复杂的故障监测提供早期预警,提高了报警工作的精细化程度,提升在线监测管理水平和快速响应能力。
Description
技术领域
本发明属于能源领域,具体涉及一种燃煤机组排放监测时序数据异常值检测方法。
背景技术
随着我国节能减排工作的不断深入开展,燃煤机组污染物排放标准要求越来越严苛。2014年,国家发改委、环保部等部门联合制定了《煤电节能减排升级与改造行动计划(2014-2020年)》,提出了燃煤机组达到燃气轮机组污染物排放标准的要求,即所谓的超低排放,要求在基准氧含量6%条件下,烟尘、二氧化硫、氮氧化物排放浓度分别不高于10、35、50mg/Nm3。
为了响应国家政策的号召,江苏省燃煤机组于2014年开始大力开展超低排放改造,江苏方天电力技术有限公司在政府部门和有关政策的支持下,致力于开展超低排放系统数据在线监控和超低排放电价考核管理工作,将燃煤机组超低排放系统相关数据实施联网集成,其中包括负荷工况参数和烟囱排口SO2、NOx、烟尘浓度、氧量、温度、湿度、压力以及相关环保系统过程辅助参数。
随着超低排放改造工作的不断开展,燃煤机组污染物排放浓度数据的正常与否成为发电企业关注的焦点问题之一。燃煤机组超低排放监测数据随时间变化,是典型的时间序列数据。因此,超低排放时序数据中的异常值有2种类型:1、远离正常值分布范围的孤立点,即与历史分布不一致的异常点;2、由于时间序列数据变化的惯性,异常值会表现为不同于之前的变化趋势,即与当前趋势不一致的异常点。此外,超低排放监测数据以快至10秒、慢至1分钟的时间间隔进行采集,因此一个测点一年的数据记录条数约在52.6~315万之间。因此,超低排放时序数据异常值检测,就是要在这上百万条记录中发现数据正常分布的特征,建立高效的在线检测方法及时发现时序数据变化过程中的异常点,给出报警。
传统的监测数据异常值检测应用最多的是3西格玛法,它是根据测点在正常状态下的历史数据,分别计算出算术平均值μ和标准差σ,然后将正常值的范围设定在区间[μ-3σ,μ+3σ]内,超出这个范围的数据就是异常值。但是在燃煤机组超低排放异常值在线检测场景下,这种固定报警阈值的方法存在以下缺陷:
1)机组和超低排放设施的运行工况和运行方式是不断变化的,在不同的状态下测点会表现出不同的变化特征,进而导致不同状态下的测点数据的均值和方法表现出差异,使得基于全工况样本集得到的固定阈值不能很好地适应持续变化的运行工况;
2)由于固定阈值是在全工况样本集上得到的,为了适应所有工况其取值范围必然相对宽松,这就使得落在阈值范围内、但是其变化趋势异常的数据点无法被有效识别,导出出现漏检情况;
3)3西格玛法是基于数据呈正态分布这个假设的,而燃煤机组超低排放测点的监测数据即使在稳态工况下也不一定服从正态分布,因此3西格玛法不完全适用于燃煤机组超低排放应用。
发明内容
本发明的针对现有技术中的不足,提供一种燃煤机组排放监测时序数据异常值检测方法。
为实现上述目的,本发明采用以下技术方案:
一种燃煤机组排放监测时序数据异常值检测方法,其特征在于,包括以下步骤:
采用k-means聚类算法,对测点全工况历史样本数据集S进行工况划分,将相同工况的数据点归为一类;
针对每个工况样本集SC,基于统计假设检验方法,建立异常值检测模型;
根据工况样本集SC的数据特征选择不同的假设检验方法对测点时序数据进行辨识,定位与历史分布和当前变化趋势不一致的异常点。
为优化上述技术方案,采取的具体措施还包括:
所述工况划分包括:
随机选取全工况历史样本数据集S中的k个数据点作为初始聚类中心点;
对于全工况历史样本数据集S中每一个数据点,计算该数据点与各个初始聚类中心点之间的欧式距离,得到距离最近的初始聚类中心点,将这个初始聚类中心点的类作为该数据点的类;
对于每一个聚类,计算该聚类中所有数据点的均值,并将均值作为新聚类中心点;
计算每一个聚类中心点的变化,当最大变化值不超过预定的阈值,终止算法,得到k个聚类中心,表示k个不同的工况划分。
当工况样本集SC的样本数量>200时,使用KDE核密度估计方法,计算样本集SC数据分布的概率密度函数,得到95%置信区间,并根据新样本x是否落入95%置信区间来判断是否为异常点。
所述概率密度函数为其中f为概率密度,x1,x2...,xN为独立同分布F的N个样本点,K为满足对称性及∫K(x)dx=1的核函数,h(h>0)为平滑参数,σ是样本标准差。
当工况样本集SC的样本数量≤200时,通过W检验判定工况样本集SC是否满足正态分布。
将N个独立观察值按从小到大的次序排列,记为x(1),x(2)...,x(N);
计算W检验统计量其中为样本均值,ai(W)的值根据样本容量N和样本排序下标i从W检验的系数ai(W)表中得到,
根据显著水平α和样本容量N,基于W检验统计量的p分位数Zp表得到统计量W的α分位数Wα;
通过比较W和Wα来判断总体是否服从正态分布。
当工况样本集SC满足正态分布时,根据分布的平均值μ和标准差σ,计算出95%置信区间[μ-1.96σ,μ+1.96σ],并根据新样本x是否落入95%置信区间来判断是否为异常点。
将容量分别为N1、N2的源分布样本和检测分布样本中的所有数据混合,按照大小顺序排列;
计算源分布样本和检测分布样本的秩和,分别记为W1、W2;
计算源分布样本和检测分布样本的U检验统计量U1、U2:
将U1、U2中的最小值作为检验的统计量U=min{U1,U2};
根据源分布样本和检测分布样本的容量N1、N2和置信水平α,基于U检验的临界值表得到统计量U的临界值Uα;
通过比较U和Uα来判断源分布样本和检测分布样本是否来自于同一分布。
本发明的有益效果是:基于统计假设检验的异常值检测方法,对海量运行数据进行工况划分,不同的工况使用不同的样本集,提高了报警工作的精细化程度;这种方法没有使用基于正态分布假设的固定报警阈值,使用了无需先验知识的假设检验方法,提高了方法的通用性;同时,这种方法不仅可以对已有数据集进行异常值检测,也可以用于对现场数据进行异常值在线检测,前者可以用于数据发掘之前的数据与处理过程,后者可以用于工业控制过程,有着广阔的应用前景。
附图说明
图1是本发明的方法流程图。
图2是测试机组全年烟尘排放浓度监测数据。
图3是测试样本集的趋势图。
图4是异常值检测图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
本发明是采取以下技术方案进行实现的。
一、工况划分
采用k-means聚类算法对测点全工况历史样本数据集S进行工况划分,将相同工况的数据点归为一类。k-means算法的处理过程如下:
1、随机选取数据集S中的k个数据点作为初始聚类中心点;
2、while循环:
1)对于数据集S中每一个数据点,计算其与各个聚类中心点之间的欧式距离,找到距离最近的聚类中心点,将这个中心点的类作为该数据点的类;
2)对于每一个聚类,计算该聚类中所有数据点的均值,并将其作为该聚类新的中心点;
3)计算每一个聚类中心点的变化,如果最大变化值不超过预定的阈值,说明聚类趋于稳定,则终止算法。
在对数据点进行聚类的过程中,一旦聚类数量k确定,k-means算法将在若干次迭代之后得到k个聚类中心,表示k个不同的工况划分。
二、异常值检测方法
1、异常值检测总体思路
基于假设检验的时序数据异常值检测方法处理流程如附图1所示,假设检验过程如下:
1)当工况样本集SC的样本数量>200时,使用KDE核密度估计方法,计算该样本集数据分布的概率密度函数,进而得到95%的置信区间。如果新样本x落入这个区间内,则判断该点为正常,否则为异常;
2)当样本数量≤200时,由于KDE核密度估计方法要求样本数量要足够多,因此首先通过Shapiro-Wilk检验(W检验)判定工况样本集SC是否满足正态分布:如果满足正态分布,则利用正态分布的性质,根据分布的平均值μ和标准差σ,计算出95%置信区间[μ-1.96σ,μ+1.96σ],根据新样本x是否落入该区间来判断其是否为异常点;如果不满足正态分布,则转入下一步;
3)当样本数量≤200,且工况样本集SC不满足正态分布时,使用Mann-Whitney检验(U检验)来判断新到来的样本x是否来自于工况样本集SC的数据分布。
2、基于KDE的异常值检测方法
基于KDE的异常值检测方法,首先是使用核密度估计方法,根据已知的历史样本数据求得未知总体的概率密度函数;然后,利用概率密度函数计算95%置信区间,当数值落在置信区间内则认为其正常,否则判断其为异常点。
1)概率密度函数估计
核密度估计(Kernel Density Estimation,KDE)是一类基于概率密度函数的非参数估计法,它从数据样本本身出发研究数据分布的特征,其基本思想是:基于已知的历史数据,对未知总体的概率密度函数进行估计,使估计到的密度函数与真正的密度函数间的均方积分误差最小。
核密度估计方法,就是借助一个移动的单元格(核函数)放在每一个数据点的位置上;然后,将核函数的作用效果叠加起来,获得一条光滑的曲线。而核函数的选择条件为单个峰值下的函数面积为1。
假设x1,x2...,xN为独立同分布F的N个样本点,设其概率密度为f,则其核密度函数估计为:
公式(1)中的K被称为核函数,通常满足对称性及∫K(x)dx=1,核函数是一种加权函数,利用数据点xi到x的距离(x-xi)来决定xi在估计点x的密度时所起的作用,一般选择标准正态函数作为核函数,如公式(2)所示,则离x点越近的样本点其加权也越大。
公式(1)中的h(h>0)是一个平滑参数,称为带宽(band width),带宽值的选择对估计f(x)的影响很大。当h很小时,只有特别接近x的点才起较大作用;随着h的增大,则距离x远一些点的作用也随之增加。标准正态核函数的带宽h可由Silverman拇指法则得到:
式中σ是样本标准差。
2)95%置信区间估计
对于一个给定的数据分布(概率密度函数已知),95%置信度区间是指服从该分布的任意随机变量将有95%的可能性落在该区间内。对于具有对称性的概率密度函数,则是概率为2.5%至97.5%之间的样本数值。
特别地,对于服从N(μ,σ2)正态分布的样本,其95%置信区间[μ-1.96σ,μ+1.96σ],其中μ、σ分别为样本均值和标准差。
3、正态性检验-Shapiro-Wilk检验(W检验)
为了处理小样本情况,本方法采用Shapiro-Wilk检验,即W检验,来确定工况样本是否服从正态分布。在满足正态性(通过W检验)的前提下,直接通过正态分布的95%置信区间估计方法得到正常数据的取值范围,不在这个取值范围内的数值就被认为是异常点。
检验步骤如下:
1)将N个独立观察值按从小到大的次序排列,记为:x(1),x(2)...,x(N);
2)依次将x(1),x(2)...,x(N)的值带入公式(4)计算W检验统计量:
式中为样本均值;ai(W)的值根据样本容量(等同于独立观察值)N和样本排序下标i从W检验的系数ai(W)表中得到;[N/2]根据公式(5)计算:
3)根据预先设定的显著水平α和样本容量N,查W检验统计量的p分位数Zp表得到统计量W的α分位数Wα;如果W<Wα,则拒绝原假设H0,认为总体不服从正态分布;否则,接受假设H0,认为总体服从正态分布。
4、同分布检验-Mann-Whitney检验(U检验)
对于不服从正态分布的样本,可以采用Mann-Whitney检验(U检验)来判断两组样本数据是否来自于同一分布。在异常值在线检测应用场景中,将工况历史样本作为源分布,将在工况历史样本集中加入待检测的样本点后形成的样本作为检测分布,则如果以不低于95%的概率来源于同一分布的话,就认为待检测点为正常点,将其历史样本集后并没有改变源数据分布。
其检验步骤如下:
1)将容量分别为N1、N2的两组样本中所有数据混合,然后按照大小顺序排列;最小值的秩为1,第二小的值秩为2,以此类推。如果有数值相等的情形,则取这几个数值排序下标的平均值作为其秩,如:样本(3,5,5,9)中,数值5的秩为(2+3)/2=2.5,所有样本的秩为(1,2.5,2.5,4);
2)根据上一步中得到的秩,分别求出两个样本的秩和,即样本集中所有数值的秩之和,记为W1、W2;
3)按照公式(6)分别计算两个样本的U检验统计量U1、U2:
4)将U1、U2中的最小值作为本次检验的统计量U=min{U1,U2};
5)根据两个样本的容量N1、N2和置信水平α,查U检验的临界值表得到统计量的U的临界值Uα;
6)比较U和Uα,如果U<Uα,则拒绝原假设H0,认为两组样本来源于不同分布;否则,接受原假设H0,认为两组样本分布没有差异。
以下结合算法的实施过程对本发明作具体的介绍:
以一台装机容量为600MW的燃煤机组(以下称为测试机组),2015年7月至2016年6月1年的除尘超低排放设施运行数据为样本建立模型,以2016年7月1日数据为测试样本,以烟尘排放浓度为目标测点,检测其时序数据中的异常值。
测试机组的除尘超低排放设施采用脱硫前干式除尘+脱硫后湿式除尘工艺,其中干式除尘器有4个电室4个电场,湿式除尘器有8个电场。采集测点包括:机组负荷、所有电场的二次电流和二次电压、排口的烟尘排放浓度,其中机组负荷代表机组运行工况,决定了除尘设施入口烟气参数;所有电场的运行状态(运行、停运)的不同组合代表了除尘设施的运行方式。
按照本方法的处理流程,首先要使用聚类方法对测试机组烟尘排放浓度全工况历史样本集进行工况划分。由于烟尘排放浓度受机组负荷和除尘设施运行方式的影响,因此选择这些测点作为工况划分参数,对历史样本及进行分组,将相似工况下的排放浓度数据放在一起形成工况样本集。为了便于展示,表1中仅列出了以机组负荷为工况参数进行聚类得到的工况统计数据。
表1测试机组历史样本集工况划分结果
由于进行了超低排放改造,烟尘排放浓度降至烟尘超低排放标准10mg/m3以下。因此,为了不影响样本均值和标准差的计算结果,将烟尘排放浓度数值>10的样本剔除。测试机组全年烟尘排放浓度监测数据如图2所示。
以烟尘排放浓度全年监测数据为历史样本集,其均值μ=4.08、标准差σ=0.41,则根据3西格玛法其95%置信区间为[2.85,5.31]。图3是测试样本集的趋势图,图中用横线标注出了95%置信区间的上下限,从图中可以看出所有数据都落在了置信区间内,本方法没有发现任何异常值。
根据工况划分的结果,通过计算每个测试样本到每个工况聚类中心(用机组负荷平均值、所有电场运行状态组成的向量表示)的距离,然后将距离最近的聚类作为该数据点所属工况,并以该工况的样本作为源样本,通过假设检验逻辑来判断数据点是否异常。
使用本方法在测试样本集上进行测试得到的异常值检测,结果如图4所示,异常值分别出现在样本序号50和256处,图中用圆圈标出。这两处异常都是趋势图中出现突变的地方,使得之前的变化趋势被破坏,但是其取值又没有超出3西格玛法的95%置信区间[2.85,5.31]。由此可见,本方法对与当前趋势不一致的异常点比较敏感,可以高效地从时间序列数据中发现异常值。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (8)
1.一种燃煤机组排放监测时序数据异常值检测方法,其特征在于,包括以下步骤:
采用k-means聚类算法,对测点全工况历史样本数据集S进行工况划分,将相同工况的数据点归为一类;
针对每个工况样本集SC,基于统计假设检验方法,建立异常值检测模型;
根据工况样本集SC的数据特征选择不同的假设检验方法对测点时序数据进行辨识,定位与历史分布和当前变化趋势不一致的异常点。
2.如权利要求1所述的一种燃煤机组排放监测时序数据异常值检测方法,其特征在于:所述工况划分包括:
随机选取全工况历史样本数据集S中的k个数据点作为初始聚类中心点;
对于全工况历史样本数据集S中每一个数据点,计算该数据点与各个初始聚类中心点之间的欧式距离,得到距离最近的初始聚类中心点,将这个初始聚类中心点的类作为该数据点的类;
对于每一个聚类,计算该聚类中所有数据点的均值,并将均值作为新聚类中心点;计算每一个聚类中心点的变化,当最大变化值不超过预定的阈值,终止算法,得到k个聚类中心,表示k个不同的工况划分。
3.如权利要求1所述的一种燃煤机组排放监测时序数据异常值检测方法,其特征在于:当工况样本集SC的样本数量>200时,使用KDE核密度估计方法,计算样本集SC数据分布的概率密度函数,得到95%置信区间,并根据新样本x是否落入95%置信区间来判断是否为异常点。
4.如权利要求3所述的一种燃煤机组排放监测时序数据异常值检测方法,其特征在于:所述概率密度函数为其中f为概率密度,x1,x2...,xN为独立同分布F的N个样本点,K为满足对称性及∫K(x)dx=1的核函数,h(h>0)为平滑参数,σ是样本标准差。
5.如权利要求1所述的一种燃煤机组排放监测时序数据异常值检测方法,其特征在于:当工况样本集SC的样本数量≤200时,通过W检验判定工况样本集SC是否满足正态分布。
6.如权利要求5所述的一种燃煤机组排放监测时序数据异常值检测方法,其特征在于:
将N个独立观察值按从小到大的次序排列,记为x(1),x(2)…,x(N);
计算W检验统计量其中为样本均值,ai(W)的值根据样本容量N和样本排序下标i从W检验的系数ai(W)表中得到,
根据显著水平α和样本容量N,基于W检验统计量的p分位数Zp表得到统计量W的α分位数Wα;
通过比较W和Wα来判断总体是否服从正态分布。
7.如权利要求5所述的一种燃煤机组排放监测时序数据异常值检测方法,其特征在于:当工况样本集SC满足正态分布时,根据分布的平均值μ和标准差σ,计算出95%置信区间[μ-1.96σ,μ+1.96σ],并根据新样本x是否落入95%置信区间来判断是否为异常点。
8.如权利要求5所述的一种燃煤机组排放监测时序数据异常值检测方法,其特征在于:
将容量分别为N1、N2的源分布样本和检测分布样本中的所有数据混合,按照大小顺序排列;
计算源分布样本和检测分布样本的秩和,分别记为W1、W2;
计算源分布样本和检测分布样本的U检验统计量U1、U2:
将U1、U2中的最小值作为检验的统计量U=min{U1,U2};
根据源分布样本和检测分布样本的容量N1、N2和置信水平α,基于U检验的临界值表得到统计量U的临界值Uα;
通过比较U和Uα来判断源分布样本和检测分布样本是否来自于同一分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611202669.4A CN106599271A (zh) | 2016-12-22 | 2016-12-22 | 一种燃煤机组排放监测时序数据异常值检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611202669.4A CN106599271A (zh) | 2016-12-22 | 2016-12-22 | 一种燃煤机组排放监测时序数据异常值检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106599271A true CN106599271A (zh) | 2017-04-26 |
Family
ID=58600958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611202669.4A Pending CN106599271A (zh) | 2016-12-22 | 2016-12-22 | 一种燃煤机组排放监测时序数据异常值检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106599271A (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460789A (zh) * | 2018-03-19 | 2018-08-28 | 国家基础地理信息中心 | 一种人造地表时序变化在线检测系统与方法 |
CN108874749A (zh) * | 2018-06-22 | 2018-11-23 | 西南科技大学 | 一种高考志愿录取概率模型的建立方法 |
CN108897954A (zh) * | 2018-06-29 | 2018-11-27 | 龙源(北京)风电工程技术有限公司 | 基于BootStrap置信度计算的风电机组温度预警方法及其系统 |
CN108955855A (zh) * | 2018-06-08 | 2018-12-07 | 山东大学 | 面向旋转机械的振动信号特征提取方法、监测方法及装置 |
CN109283416A (zh) * | 2018-11-20 | 2019-01-29 | 广东电网有限责任公司 | 一种敏感设备故障率的计算方法及装置 |
CN109325294A (zh) * | 2018-09-25 | 2019-02-12 | 云南电网有限责任公司电力科学研究院 | 一种火电机组空气预热器性能状态的证据表征构建方法 |
CN109347653A (zh) * | 2018-09-07 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 一种指标异常发现方法和装置 |
CN109558416A (zh) * | 2018-11-07 | 2019-04-02 | 北京先进数通信息技术股份公司 | 一种异常交易的检测方法、装置及存储介质 |
CN109670549A (zh) * | 2018-12-20 | 2019-04-23 | 华润电力技术研究院有限公司 | 火电机组的数据筛选方法、装置以及计算机设备 |
CN109856299A (zh) * | 2018-11-26 | 2019-06-07 | 国家电网有限公司 | 一种变压器在线监测差异化阈值动态设置方法、系统 |
CN109902703A (zh) * | 2018-09-03 | 2019-06-18 | 华为技术有限公司 | 一种时间序列异常检测方法及装置 |
CN110010202A (zh) * | 2017-09-22 | 2019-07-12 | 北京蓝标一成科技有限公司 | 一种判断流苏石斛纯种相近度的方法的建立、判断标准以及判断方法 |
CN110648071A (zh) * | 2019-09-26 | 2020-01-03 | 杭州数梦工场科技有限公司 | 风险控制方法与装置 |
CN111414999A (zh) * | 2020-04-27 | 2020-07-14 | 新智数字科技有限公司 | 一种设备运行状态的监测方法及装置 |
CN111581191A (zh) * | 2020-04-10 | 2020-08-25 | 岭东核电有限公司 | 核安全数据校验方法、装置、计算机设备及存储介质 |
CN111879522A (zh) * | 2020-07-24 | 2020-11-03 | 山东大学 | 基于时序概率的汽轮机运行监测和故障判别方法及系统 |
CN111931132A (zh) * | 2020-09-27 | 2020-11-13 | 浙江浙能技术研究院有限公司 | 一种基于标准差和绝对离差中位数的烟气nox浓度异常值处理方法 |
CN112037106A (zh) * | 2020-08-07 | 2020-12-04 | 汉威科技集团股份有限公司 | 一种基于特征互相关性和概率密度的数据异常分析方法 |
CN112231475A (zh) * | 2020-10-14 | 2021-01-15 | 宁夏回族自治区教育信息化管理中心 | 一种基于动态分布函数的数据检测预警方法 |
CN112270063A (zh) * | 2020-08-07 | 2021-01-26 | 四川航天川南火工技术有限公司 | 一种火工系统灵敏参量假设检验方法 |
CN112285287A (zh) * | 2020-10-19 | 2021-01-29 | 广东长天思源环保科技股份有限公司 | 一种烟气在线监测数据预处理方法 |
CN113420816A (zh) * | 2021-06-24 | 2021-09-21 | 北京市生态环境监测中心 | 一种针对全光谱水质监测设备的数据异常值确定方法 |
CN113486302A (zh) * | 2021-07-12 | 2021-10-08 | 浙江网商银行股份有限公司 | 数据处理方法及装置 |
CN113542236A (zh) * | 2021-06-28 | 2021-10-22 | 中孚安全技术有限公司 | 一种基于核密度估计和指数平滑算法的异常用户检测方法 |
CN113804838A (zh) * | 2021-09-28 | 2021-12-17 | 浙江富春江环保科技研究有限公司 | 一种用于二噁英在线检测的边界报警方法 |
CN114239743A (zh) * | 2021-12-22 | 2022-03-25 | 电子科技大学 | 一种基于稀疏时间序列数据的事件发生时间预测方法 |
CN114323664A (zh) * | 2021-12-13 | 2022-04-12 | 中国船舶重工集团公司第七0三研究所 | 一种燃气轮机燃气振动异常的检测方法 |
CN115223365A (zh) * | 2022-07-15 | 2022-10-21 | 北京市智慧交通发展中心(北京市机动车调控管理事务中心) | 一种基于阻尼Holt模型的路网速度预测及异常识别方法 |
CN117233342A (zh) * | 2023-09-05 | 2023-12-15 | 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) | 一种基于置信区间算法的入河排污口精准监测方法及系统 |
CN117251816A (zh) * | 2023-10-26 | 2023-12-19 | 南方电网能源发展研究院有限责任公司 | 碳排放数据的验证方法、装置、计算机设备和存储介质 |
CN117273471A (zh) * | 2023-11-22 | 2023-12-22 | 天津市德丰金属制品有限公司 | 一种钢丝生产制程监管方法及系统 |
CN117289778A (zh) * | 2023-11-27 | 2023-12-26 | 惠州市鑫晖源科技有限公司 | 一种工控主机电源健康状态的实时监测方法 |
CN117849558A (zh) * | 2024-03-06 | 2024-04-09 | 武汉格蓝若智能技术股份有限公司 | 电容式电压互感器主电容击穿故障在线监测方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105573290A (zh) * | 2015-12-16 | 2016-05-11 | 浙江中烟工业有限责任公司 | 卷烟工厂超高速条盒包装机多工况过程在线监测与故障诊断方法 |
-
2016
- 2016-12-22 CN CN201611202669.4A patent/CN106599271A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105573290A (zh) * | 2015-12-16 | 2016-05-11 | 浙江中烟工业有限责任公司 | 卷烟工厂超高速条盒包装机多工况过程在线监测与故障诊断方法 |
Non-Patent Citations (2)
Title |
---|
沈锋: "1370例肝内胆管细胞癌肝切除术的疗效及预后因素分析", 《中华消化外科杂志》 * |
陈新星: "车联网中基于核密度估计的异常数据检测算法", 《有线电视技术》 * |
Cited By (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110010202A (zh) * | 2017-09-22 | 2019-07-12 | 北京蓝标一成科技有限公司 | 一种判断流苏石斛纯种相近度的方法的建立、判断标准以及判断方法 |
CN110010202B (zh) * | 2017-09-22 | 2023-04-21 | 北京蓝标一成科技有限公司 | 一种判断流苏石斛纯种相近度的方法的建立、判断标准以及判断方法 |
CN108460789A (zh) * | 2018-03-19 | 2018-08-28 | 国家基础地理信息中心 | 一种人造地表时序变化在线检测系统与方法 |
CN108460789B (zh) * | 2018-03-19 | 2020-05-26 | 国家基础地理信息中心 | 一种人造地表时序变化在线检测系统与方法 |
CN108955855A (zh) * | 2018-06-08 | 2018-12-07 | 山东大学 | 面向旋转机械的振动信号特征提取方法、监测方法及装置 |
CN108955855B (zh) * | 2018-06-08 | 2020-05-08 | 山东大学 | 面向旋转机械的振动信号特征提取方法、监测方法及装置 |
CN108874749A (zh) * | 2018-06-22 | 2018-11-23 | 西南科技大学 | 一种高考志愿录取概率模型的建立方法 |
CN108897954A (zh) * | 2018-06-29 | 2018-11-27 | 龙源(北京)风电工程技术有限公司 | 基于BootStrap置信度计算的风电机组温度预警方法及其系统 |
CN109902703A (zh) * | 2018-09-03 | 2019-06-18 | 华为技术有限公司 | 一种时间序列异常检测方法及装置 |
CN109347653A (zh) * | 2018-09-07 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 一种指标异常发现方法和装置 |
CN109347653B (zh) * | 2018-09-07 | 2021-06-04 | 创新先进技术有限公司 | 一种指标异常发现方法和装置 |
CN109325294B (zh) * | 2018-09-25 | 2023-08-11 | 云南电网有限责任公司电力科学研究院 | 一种火电机组空气预热器性能状态的证据表征构建方法 |
CN109325294A (zh) * | 2018-09-25 | 2019-02-12 | 云南电网有限责任公司电力科学研究院 | 一种火电机组空气预热器性能状态的证据表征构建方法 |
CN109558416A (zh) * | 2018-11-07 | 2019-04-02 | 北京先进数通信息技术股份公司 | 一种异常交易的检测方法、装置及存储介质 |
CN109283416A (zh) * | 2018-11-20 | 2019-01-29 | 广东电网有限责任公司 | 一种敏感设备故障率的计算方法及装置 |
CN109856299A (zh) * | 2018-11-26 | 2019-06-07 | 国家电网有限公司 | 一种变压器在线监测差异化阈值动态设置方法、系统 |
CN109670549A (zh) * | 2018-12-20 | 2019-04-23 | 华润电力技术研究院有限公司 | 火电机组的数据筛选方法、装置以及计算机设备 |
CN109670549B (zh) * | 2018-12-20 | 2020-09-01 | 华润电力技术研究院有限公司 | 火电机组的数据筛选方法、装置以及计算机设备 |
CN110648071A (zh) * | 2019-09-26 | 2020-01-03 | 杭州数梦工场科技有限公司 | 风险控制方法与装置 |
CN111581191A (zh) * | 2020-04-10 | 2020-08-25 | 岭东核电有限公司 | 核安全数据校验方法、装置、计算机设备及存储介质 |
CN111581191B (zh) * | 2020-04-10 | 2023-10-13 | 岭东核电有限公司 | 核安全数据校验方法、装置、计算机设备及存储介质 |
CN111414999A (zh) * | 2020-04-27 | 2020-07-14 | 新智数字科技有限公司 | 一种设备运行状态的监测方法及装置 |
CN111414999B (zh) * | 2020-04-27 | 2023-08-22 | 新奥新智科技有限公司 | 一种设备运行状态的监测方法及装置 |
CN111879522A (zh) * | 2020-07-24 | 2020-11-03 | 山东大学 | 基于时序概率的汽轮机运行监测和故障判别方法及系统 |
CN112037106A (zh) * | 2020-08-07 | 2020-12-04 | 汉威科技集团股份有限公司 | 一种基于特征互相关性和概率密度的数据异常分析方法 |
CN112037106B (zh) * | 2020-08-07 | 2023-12-15 | 汉威科技集团股份有限公司 | 一种基于特征互相关性和概率密度的数据异常分析方法 |
CN112270063A (zh) * | 2020-08-07 | 2021-01-26 | 四川航天川南火工技术有限公司 | 一种火工系统灵敏参量假设检验方法 |
CN112270063B (zh) * | 2020-08-07 | 2023-03-28 | 四川航天川南火工技术有限公司 | 一种火工系统灵敏参量假设检验方法 |
CN111931132B (zh) * | 2020-09-27 | 2020-12-22 | 浙江浙能技术研究院有限公司 | 一种基于标准差和绝对离差中位数的烟气nox浓度异常值处理方法 |
CN111931132A (zh) * | 2020-09-27 | 2020-11-13 | 浙江浙能技术研究院有限公司 | 一种基于标准差和绝对离差中位数的烟气nox浓度异常值处理方法 |
CN112231475A (zh) * | 2020-10-14 | 2021-01-15 | 宁夏回族自治区教育信息化管理中心 | 一种基于动态分布函数的数据检测预警方法 |
CN112285287B (zh) * | 2020-10-19 | 2022-08-16 | 广东长天思源环保科技股份有限公司 | 一种烟气在线监测数据预处理方法 |
CN112285287A (zh) * | 2020-10-19 | 2021-01-29 | 广东长天思源环保科技股份有限公司 | 一种烟气在线监测数据预处理方法 |
CN113420816B (zh) * | 2021-06-24 | 2024-09-06 | 北京市生态环境监测中心 | 一种针对全光谱水质监测设备的数据异常值确定方法 |
CN113420816A (zh) * | 2021-06-24 | 2021-09-21 | 北京市生态环境监测中心 | 一种针对全光谱水质监测设备的数据异常值确定方法 |
CN113542236A (zh) * | 2021-06-28 | 2021-10-22 | 中孚安全技术有限公司 | 一种基于核密度估计和指数平滑算法的异常用户检测方法 |
CN113486302A (zh) * | 2021-07-12 | 2021-10-08 | 浙江网商银行股份有限公司 | 数据处理方法及装置 |
CN113804838B (zh) * | 2021-09-28 | 2022-07-26 | 浙江富春江环保科技研究有限公司 | 一种用于二噁英在线检测的边界报警方法 |
CN113804838A (zh) * | 2021-09-28 | 2021-12-17 | 浙江富春江环保科技研究有限公司 | 一种用于二噁英在线检测的边界报警方法 |
CN114323664A (zh) * | 2021-12-13 | 2022-04-12 | 中国船舶重工集团公司第七0三研究所 | 一种燃气轮机燃气振动异常的检测方法 |
CN114239743A (zh) * | 2021-12-22 | 2022-03-25 | 电子科技大学 | 一种基于稀疏时间序列数据的事件发生时间预测方法 |
CN114239743B (zh) * | 2021-12-22 | 2023-12-15 | 电子科技大学 | 一种基于稀疏时间序列数据的天气事件发生时间预测方法 |
CN115223365B (zh) * | 2022-07-15 | 2023-09-29 | 北京市智慧交通发展中心(北京市机动车调控管理事务中心) | 一种基于阻尼Holt模型的路网速度预测及异常识别方法 |
CN115223365A (zh) * | 2022-07-15 | 2022-10-21 | 北京市智慧交通发展中心(北京市机动车调控管理事务中心) | 一种基于阻尼Holt模型的路网速度预测及异常识别方法 |
CN117233342A (zh) * | 2023-09-05 | 2023-12-15 | 生态环境部华南环境科学研究所(生态环境部生态环境应急研究所) | 一种基于置信区间算法的入河排污口精准监测方法及系统 |
CN117251816A (zh) * | 2023-10-26 | 2023-12-19 | 南方电网能源发展研究院有限责任公司 | 碳排放数据的验证方法、装置、计算机设备和存储介质 |
CN117273471A (zh) * | 2023-11-22 | 2023-12-22 | 天津市德丰金属制品有限公司 | 一种钢丝生产制程监管方法及系统 |
CN117289778A (zh) * | 2023-11-27 | 2023-12-26 | 惠州市鑫晖源科技有限公司 | 一种工控主机电源健康状态的实时监测方法 |
CN117289778B (zh) * | 2023-11-27 | 2024-03-26 | 惠州市鑫晖源科技有限公司 | 一种工控主机电源健康状态的实时监测方法 |
CN117849558A (zh) * | 2024-03-06 | 2024-04-09 | 武汉格蓝若智能技术股份有限公司 | 电容式电压互感器主电容击穿故障在线监测方法及装置 |
CN117849558B (zh) * | 2024-03-06 | 2024-05-24 | 武汉格蓝若智能技术股份有限公司 | 电容式电压互感器主电容击穿故障在线监测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599271A (zh) | 一种燃煤机组排放监测时序数据异常值检测方法 | |
Katzberg et al. | Variable precision extension of rough sets | |
CN109816031B (zh) | 一种基于数据不均衡度量的变压器状态评估聚类分析方法 | |
CN112799898B (zh) | 基于分布式故障检测的互联系统故障节点定位方法及系统 | |
CN109978048A (zh) | 一种脱硫塔浆液循环泵故障分析与诊断方法 | |
CN103512751A (zh) | 一种基于概率神经网络的轴承健康状态识别方法 | |
CN115048985B (zh) | 一种电气设备故障判别方法 | |
CN112083371A (zh) | 一种基于lof的异常高压计量点筛查方法及系统 | |
CN112417763B (zh) | 输电线路的缺陷诊断方法、装置、设备及存储介质 | |
CN110889441A (zh) | 一种基于距离和点密度的变电设备数据异常识别方法 | |
CN112949735A (zh) | 一种基于离群数据挖掘的液态危化品挥发浓度异常发现方法 | |
CN110930057A (zh) | 基于lof算法的配电变压器检验结果可信度的量化评判方法 | |
CN113721182B (zh) | 一种电力互感器性能在线监测结果可靠度评估方法及系统 | |
CN113112188A (zh) | 一种基于预筛选动态集成的电力调度监控数据异常检测方法 | |
CN115809805A (zh) | 基于边缘计算的电网多源数据处理方法 | |
CN117313019B (zh) | 一种基于深度强化学习的数据异常检测方法 | |
Fu et al. | Trimming outliers using trees: winning solution of the large-scale energy anomaly detection (LEAD) competition | |
CN114597886A (zh) | 基于区间二型模糊聚类分析的配电网运行状态评估方法 | |
Zhu et al. | Automatic fault diagnosis in cloud infrastructure | |
CN109784777B (zh) | 基于时序信息片段云相似度度量的电网设备状态评估方法 | |
CN115587331A (zh) | 电网设备运行状态诊断预测方法及系统 | |
CN116184955A (zh) | 运行阈值设置方法及监控方法、监控系统 | |
CN109507517B (zh) | 基于双侧功率大数据比对的配电变压器运行状态分析方法 | |
CN111881502A (zh) | 一种基于模糊聚类分析的桥梁状态判别方法 | |
Sun et al. | Double Window Concept Drift Detection Method Based on Sample Distribution Statistical Test |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170426 |
|
RJ01 | Rejection of invention patent application after publication |