CN108345574B - 相关双数据流异常检测与修正的方法 - Google Patents

相关双数据流异常检测与修正的方法 Download PDF

Info

Publication number
CN108345574B
CN108345574B CN201710058111.1A CN201710058111A CN108345574B CN 108345574 B CN108345574 B CN 108345574B CN 201710058111 A CN201710058111 A CN 201710058111A CN 108345574 B CN108345574 B CN 108345574B
Authority
CN
China
Prior art keywords
data
ccs
equal
window
data stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710058111.1A
Other languages
English (en)
Other versions
CN108345574A (zh
Inventor
吴宏杰
张聪
章晓明
秦宁宁
朱树才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Inspection And Certification Institute
Original Assignee
Wuxi Metrology Testing Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Metrology Testing Institute filed Critical Wuxi Metrology Testing Institute
Priority to CN201710058111.1A priority Critical patent/CN108345574B/zh
Publication of CN108345574A publication Critical patent/CN108345574A/zh
Application granted granted Critical
Publication of CN108345574B publication Critical patent/CN108345574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Abstract

本发明公开了相关双数据流异常检测与修正的方法,属于工业过程建模和数据处理领域。本发明利用聚类分析与窗口匹配,实现了单输入数据流的异常点检测与修正。引入高斯过程回归(GPR)模型,建立输入‑输出数据流的预测模型,通过实时观察数据流与预测模型的输出进行窗口比较,进一步解决了输出数据流中的异常数据检测与修正。该方法不仅考虑了数据流的一般特征,还利用数据流间的相关性,解决了实际中不确定输入输出多数据流异常点难以正确检测和修正的问题。

Description

相关双数据流异常检测与修正的方法
技术领域
本发明涉及相关双数据流异常检测与修正的方法,属于工业过程建模和数据处理领域。
背景技术
离散的生产数据经过持续的采集,宏观上构成了数据流。这些实时采集的数据流,受测量精度、测量误差、噪声、周围环境干扰等诸多不确定性因素的影响,使得实际系统获得的数据流除了具有实时、连续、有序、快速到达等固有特点,还具有不确定性。例如在白酒酿造的生产监测过程中,需要测量蒸汽压力和蒸汽流量两类数据流,和一般测量过程类似,测量得到的数据流必然包含许多不确定性,形成了不确定数据流。但另一方面,蒸汽压力与蒸汽流量这两种不确定数据流,彼此之间又存在相关性。
一般,单数据流只需要克服单一数据流的不确定性问题,就可以进行数据流中异常点的检测;然而,相关的不确定多数据流,由于数据流之间存在相关性(如上述的蒸汽压力和蒸汽流量),因此在对其的异常数据检测中,需要考虑数据流之间的相关性,增加了对数据流不确定性的辨识与校正的难度。(在不引起混淆的情况下,不确定数据流在本申请中简称为数据流。)
目前,对于单一数据流异常检测的方法,第一类是基于数据的统计分析特性:在方法实现上相对简单,易于执行,但由于以窗口统计特性代替数据本身,数据个体间的变化被封装在统计特征模式中加以表示,不能体现数据的个体变化,难以检测窗口内数据流的异常点。第二类是基于数据流分布特性的异常检测方法:根据数据分布特点建立分布模型,当实时到达的数据不符合分布模型时,则认为是异常数据,虽然这种方法检测准确率高,但实际应用中,很难确定数据流的分布形式,因此适用性不强。第三类是基于预测模型的数据流异常检测方法:通过建立预测模型,实现以在线模式、自适应的检测数据流异常点。上述常见的几类方法,可以实现对单数据流的异常检测,但均没有考虑数据流彼此之间的相关性,对数据不确定性的影响情况,而这一影响因素会拉低数据流在进行不确定性检测时的准确程度。
发明内容
鉴于以上分析,本发明针对具有输入与输出相关性的不确定多数据流检测问题,给出了一种具有输入与输出相关性的双数据流的异常检测与修正方法,尤其是用于白酒酿造过程中与蒸汽相关的双数据流的异常检测与修正的方法。本发明给出的方法,考虑了:数据流之间的相关性对数据流不确定性的影响,这将有助于提高数据流在进行不确定性检测时的准确程度。
本发明提供了一种具有输入与输出相关性的双数据流异常检测与修正的方法,可以有效检测出两类数据流中存在的不确定数据,并进行修正,修正后的数据有助于精准控制生产过程。比如,本发明方法用于白酒酿造中蒸汽相关双数据流异常检测与修正中,有助于精准控制蒸馏过程,提高酒品的质量与产量。本发明方法能够检测出白酒酿造中具有相关特性的蒸汽双数据流中存在的异常数据,并给出该异常数据的修正方法,本发明方法包含对数据流的离线处理过程和在线处理过程,在对数据在线处理过程可以完成对异常数据的修正。
本方法以时间序列建立索引号,聚类分析历史数据,生成索引号与两种相关数据流的簇中心集合的映射关系。一方面通过窗口匹配模式,实现对在线观测到的输入数据流进行异常检测与修正;另一方面,将修正后的输入数据流经高斯过程回归预测模型输出,与包含在线观测到的输出数据流在内的聚类输出数据流的簇集合进行窗口比较,辨识并修正输出数据流中的异常数据。从而,完成对相关双数据流的异常检测与修正。
本发明的具有输入与输出相关性的双数据流异常检测与修正的方法,包含对数据流的离线处理和在线处理2个过程:
其中,具有输入与输出相关性的双数据流是指:作为输入数据流的数据和作为输出数据流的数据,且输入数据流是输出数据流的函数。离线处理过程中,双数据流基于相同时间序列I={i|1,2,···,n};其中,为便于表述,一轮生产过程被划分为n个时间序列,每个序号也称为时间索引号i,最末端的索引号为n。生产过程中,会对输入数据流和输出数据流进行多轮次的采集与记录,其中输入数据流为X,输出数据流为Y;第j轮采集的数据流标记为Xj=X{xj1,xj2···,xjn}(其中,xjn}是指在第j轮的第n个时间索引处采集到的输入数据流)和Yj={yj1,yj2···,yjn}(,其中,yjn是指第j轮在第n个时间索引处,采集到的输出数据流);若共计输入数据和输出数据被采集了m轮,则每轮在第i个索引号处的采样数据以数据簇CXi=[x1i···xmi]T,CYi=[y1i···ymi]T表示(其中,上标T代表转置)。在线处理过程中,某一轮基于序列I采集的输入数据流为X*={x1*,x2*,x3*,...,xn*}(此处的下标1、2、3、n的含义是时间序列I中的顺序索引号),采集的输出数据流为Y*={y1*,y2*,y3*,...,yn*}(此处的下标1、2、3、n的含义是时间序列I中的顺序索引号),X*和Y*中均包含了不确定的异常数据,X*和Y*为将被检测和修正的目标数据流。
1.离线处理过程可描述如下:
若共计输入数据和输出数据被采集了m轮,对I的每个索引号i的数据簇CXi,CYi,分别计算其簇中心
Figure BDA0001217210430000031
Figure BDA0001217210430000032
形成离线簇中心集合
Figure BDA0001217210430000033
Figure BDA0001217210430000034
分别建立时间索引I与CCSx,CCSy的映射关系曲线CCIC:CCSx→fx(I)和CCSy→fy(I),fx表示I与CCSx之间的映射关系,fy表示I与CCSy之间的映射关系。
2.对每一次采集到的索引号为k的新数据,向前提取宽度为w的数据窗口,对其进行异常数据检测和修正的在线处理过程,具体步骤可描述为如下:
步骤1:标记已提取的数据窗口分别为Xk*={xk-w+1*,xk-w*,···,xk*}和Yk*={yk-w+1*,yk-w*,···,yk*},并在簇中心集合中,对应提取
Figure BDA0001217210430000035
Figure BDA0001217210430000036
其中n≥k≥w-1,w≥1,若遇到当前数据的索引号为本轮较为靠前的数据,即1≤k<w-1,w≥1时,则从前一轮采集的数据中顺次选取最新的数据,保持窗口数据宽度为w。
步骤2:对数据窗口Xk*进行异常数据检测和修正,得到修正后无异常数据窗口Xk*,具体的方法操作可以描述如下:
步骤2-1:对照相同序列号位置,计算数据窗口Xk*与CCSxk的单数据差值
Figure BDA0001217210430000037
下标i代表索引号,且k-w+1≤i≤k。
步骤2-2:若存在|Δux|≥Δxth,其中u代表满足条件|Δux|≥Δxth的所有索引号,且k-w+1≤u≤k,则以CCSxk
Figure BDA0001217210430000038
替代数据窗口Xk*中的数据xu*,更新计算Δix。其中,k-w+1≤i≤k,Δxth为根据生产工艺所标定的输入数据误差容限值,即误差小于此容限值的单个输入数据测量值,为满足工艺要求的测量值。
步骤2-3:计算窗口差值
Figure BDA0001217210430000039
步骤2-4:若Mx超过标定误差Mxth,则找出与CCSxk之间具有最大单数据差值的xv*,确定索引号v,以CCSxk
Figure BDA00012172104300000310
数替代数据窗口Xk*中xv*,更新计算Δix,其中k-w+1≤i≤k,返回步骤2-3;否则,则向用户返回修正后的数据窗口Xk*。其中,k-w+1≤i≤k,k-w+1≤v≤k,Mxth为根据生产工艺所标定的输入数据误差和的容限值,即误差和小于此容限值的多个输入数据测量值,为满足工艺要求的多个测量值。
步骤3:基于公式(1)和(2),形成在线簇中心集合CCSxk*,CCSyk*
Figure BDA00012172104300000311
Figure BDA00012172104300000312
步骤4:计算CCSxk*和CCSxk的协方差向量c和CCSxk的协方差矩阵C,基于公式(3)的GPR预测模型,得到预测输出Yk'={yk-w+1',yk-w',···,yk'},数据序列yk-w+1',yk-w',···,yk'是以修正后的输入数据的数据窗口数据Xk*为输入值,基于离线信息和GPR预测模型,得到预测输出数据的数据窗口的预测数据。
Yk'=cT(CCSxk*)C-1CCSyk (3)
步骤5:对预测输出数据Yk'进行对比检测,间接实现对Yk*中异常数据的检测和修正,具体的方法操作可以描述如下:
步骤5-1:逐个计算数据窗口Yk`与CCSyk*中,相同序列号位置处的单数据差值
Figure BDA0001217210430000041
下标i代表索引号,且k-w+1≤i≤k。。
步骤5-2:根据系统预先设定的Δyth,判断是否存在|Δpy|>Δyth,其中p代表满足条件|Δpy|>Δyth的的所有索引号,且k-w+1≤p≤k,若存在,则将CCSyk
Figure BDA0001217210430000042
替代数据窗口Yk*中yp*,更新计算Δiy,其中,k-w+1≤i≤k,Δyth为根据生产工艺所标定的输出数据误差容限值,即误差小于此容限值的单个输出数据测量值,为满足工艺要求的测量值。
步骤5-3:计算窗口差值
Figure BDA0001217210430000043
步骤5-4:根据系统预先设定的标定误差Myth,若My>Myth,则找出与CCSyk*之间具有最大单数据差值的yq`,确定索引号q,以CCSyk
Figure BDA0001217210430000044
替代Yk*中yq*,更新计算Δiy,其中k-w+1≤i≤k,返回步骤5-3;否则,则向用户返回修正后的数据流Yk*。其中,k-w+1≤i≤k,k-w+1≤q≤k,Myth为根据生产工艺所标定的输出数据误差和的容限值,即误差和小于此容限值的多个输出数据测量值,为满足工艺要求的多个测量值。
步骤6:双数据流异常数据检测和修正的在线处理过程结束,输出修正后无异常数据流Xk*和Yk*。
英文缩写说明:
簇中心集合:ClusterCenter Sample,缩写为CCS;
簇中心映射曲线:ClusterCenterIndex Curve,缩写为CCIC。
本发明的优点:
利用聚类分析与窗口匹配,实现了单输入数据流的异常点检测与修正。引入高斯过程回归(GPR)模型,建立输入-输出数据流的预测模型,通过在线观察数据流与预测模型的输出进行窗口比较,进一步解决了输出数据流中的异常数据检测与修正。该方法不仅考虑了数据流的一般特征,还利用数据流间的相关性,解决了实际中不确定输入输出多数据流异常点难以正确检测和修正的问题。
附图说明
图1是具有相关性的不确定双数据流的异常检测方法流程图。
图2是蒸汽压力簇中心映射曲线及窗口数据检测实例图。
具体实施方案
下面是对本发明进行具体描述。
实施例1
下面结合附图所示,对本发明做进一步详述:
白酒酿造过程中,特别是在固态酿造过程中,蒸汽压力和蒸汽流量影响着蒸馏出酒的品质和产量(可参见文献:[1]潘爱珍,赵学敏,张光腾,等.固液双态混合蒸馏设备及工艺的初步研究[J].农业机械,2012(16):158-161.[2]张光腾,潘爱珍,司振军.燃料乙醇新蒸馏工艺及其设备的研究[J].价值工程,2012,31(28):32-33.[3]饶家权,冯波,杜礼泉,等.上甑速度与曲酒产质量关系的研究[J].酿酒科技,2012(1):27-29.[4]杨亚茹,刘登峰,徐国强,等.基于LabVIEW的白酒自动化装甑蒸馏监控系统[J].酿酒科技,2016(5):92-95.),因此蒸汽压力和蒸汽流量测量的准确程度,关系着酒品与产量。在对蒸汽数据测量的过程中,这两种蒸汽数据流除自身具有不确定性的同时;基于白酒生产工艺设计的原理,彼此之间又具有输入和输出的相关性,因此在本发明实例的描述中,蒸汽压力数据流又被称为输入数据流,蒸汽流量数据流又被称为输出数据流。
实例中以白酒酿造过程中具有输入-输出相关性的蒸汽压力与蒸汽流量作为检测和修正的对象,具体描述其在多时间段上产生的不确定性数据流异常的检测方法与修正策略。实施过程包括离线处理和在线处理2个过程(可参看图1具有相关性的不确定双数据流的异常检测方法流程图)。
其中,蒸汽相关双数据流是指:作为输入数据流的蒸汽压力数据和作为输出数据流的蒸汽流量数据,且输入数据流是输出数据流的函数。离线处理过程中,双数据流基于相同时间序列I={i|1,2,···,n},其中,为便于表述,白酒酿造过程中,一轮酿造过程被划分为n个时间序列,每个序号也称为时间索引号i,最末端的索引号为n。白酒酿造中,会对蒸汽压力和流量数据进行多轮次的采集与记录,其中输入数据流为蒸汽压力数据流X,输出数据流为蒸汽流量数据流Y;第j轮采集的数据流标记为Xj=X{xj1,xj2···,xjn}其中,xjn是指在第j轮的第n个时间索引处采集到的蒸汽压力数据流)和Yj={yj1,yj2···,yjn}(其中,yjn是指第j轮在第n个时间索引处,采集到的蒸汽流量数据流);若共计蒸汽压力和流量数据被采集了m轮,则每轮在第i个索引号处的采样数据以数据簇CXi=[x1i···xmi]T,CYi=[y1i···ymi]T表示(其中,上标T代表转置)。在线处理过程中,某一轮基于序列I采集的输入数据流,即蒸汽压力数据流为X*={x1*,x2*,x3*,...,xn*}(此处的下标1、2、3、n的含义是时间序列I中的顺序索引号),采集的输出数据流,即蒸汽流量数据流为Y*={y1*,y2*,y3*,...,yn*}(此处的下标1、2、3、n的含义是时间序列I中的顺序索引号),X*和Y*中均包含了不确定的异常数据,X*和Y*为将被检测和修正的目标数据流。
1.离线处理过程
对多轮次采集的蒸汽压力和蒸汽流量数据流进行聚类分析,预先采集蒸汽压力和蒸汽流量数据,形成数据流,组成历史数据库。基于相同时间序列I={i|1,2,···,n},多轮次(白酒酿造中称之为多个班组)采集并记录蒸汽压力和蒸汽流量数据,从而形成2个数据流:蒸汽压力数据流标记为输入数据流X,蒸汽流量数据流标记为输出数据流Y,第j个班组采集的数据流标记为Xj={xj1,xj2···,xjn}和Yj={yj1,yj2···,yjn};m个班组在第i个索引号处的采样数据以数据簇CXi=[x1i···xmi]T,CYi=[y1i···ymi]T表示。则蒸汽压力与蒸汽流量的历史数据库也可以以X=[CX1CX2···CXn]和Y=[CY1CY2···CYn]的形式表示。具体数据标识可以参见发明内容中的描述。
完成簇中心映射曲线CCIC的生成,具体生成方法如下:对数据流X,Y中每个索引号i对应的数据簇CXi,CYi,计算其均值
Figure BDA0001217210430000061
Figure BDA0001217210430000062
该均值作为该簇(即第i簇)的簇中心(简称簇心);进一步,基于数据流X,Y各自具有的n个簇和簇中心,建立簇中心集合CCS,可表示为:
Figure BDA0001217210430000063
Figure BDA0001217210430000064
再进一步,基于索引号I和簇中心集合CCS对应建立簇中心映射曲线CCIC:CCSx→fx(I)和CCSy→fy(I)。如图2给出的对蒸汽压力数据流X聚类分析后,其簇中心映射曲线CCSx→fx(I)。fx表示I与CCSx之间的映射关系,fy表示I与CCSy之间的映射关系。
2.在线处理过程
在生产过程中,在线采集并记录输入数据流和输出数据流,其中输入数据流是在线测得的蒸汽压力数据流,记作X*={x1*,x2*,x3*,...,xn*};输出数据流是在线测得的蒸汽流量数据流,记作Y*={y1*,y2*,y3*,...,yn*}。X*和Y*之间存在相关性,且均包含了不确定的异常数据,X*和Y*将被作为检测和修正的目标数据流。
以当前索引号为k,测得蒸汽压力数据xk*和蒸汽流量数据yk*时的情况为具体实例,介绍在线处理过程,具体步骤可描述为如下:
步骤1:基于当前测得的蒸汽压力数据xk*和蒸汽流量数据yk*,向前提取包含xk*和yk*在内w个数据,组成数据窗口Xk*={xk-w+1*,xk-w*,···,xk*}和Yk*={yk-w+1*,yk-w*,···,yk*},并在簇中心集合中,对应提取
Figure BDA0001217210430000071
Figure BDA0001217210430000072
其中n≥k≥w-1,w≥1。若遇到当前数据的索引号为本轮较为靠前的数据,即1≤k<w-1,w≥1时,则从前一轮采集的数据中顺次选取最新的数据,保持窗口数据宽度为w。
步骤2:对输入数据流,即蒸汽压力数据流进行异常检测与修正,方法上是利用CCIC曲线片段CCSxk,对数据窗口Xk*进行异常数据检测和修正,得到修正后无异常数据流Xk*,具体的方法操作可以描述如下:
步骤2-1:逐个计算数据窗口Xk*与CCSxk中,相同序列号位置处的单数据差值
Figure BDA0001217210430000073
下标i代表索引号,且k-w+1≤i≤k,显然存在w个单数据差值Δix
步骤2-2:根据系统预先设定的Δxth,在w个Δix中判断,是否存在|Δux|≥Δxth,其中
k-w+1≤u≤k,若存在,将CCSxk
Figure BDA0001217210430000074
替代在线采集数据窗口Xk*中的数据xu*,更新计算Δix,其中k-w+1≤i≤k。(某个窗口数据对比检测效果,可参看附图2中的细节放大图)
步骤2-3:计算窗口差值
Figure BDA0001217210430000075
步骤2-4:根据系统预先设定的标定误差Mxth,若Mx>Mxth,则找出与CCSxk之间具有最大单数据差值的xv*,确定索引号v,以CCSxk
Figure BDA0001217210430000076
数替代Xk*中xv*,更新计算Δix,其中k-w+1≤i≤k,返回步骤2-3;否则,则向用户返回修正后的数据流Xk*。
步骤3:对输出数据流,即蒸汽流量数据流进行异常检测与修正。具体的方法操作可以描述如下:
步骤3-1:基于公式(1)和(2),形成在线簇中心集合CCSxk*,CCSyk*。
Figure BDA0001217210430000077
Figure BDA0001217210430000078
步骤3-2:基于公式(3)的GPR预测模型得到预测输出Yk'={yk-w+1',yk-w',···,yk'}:
Yk'=cT(CCSxk*)C-1CCSyk(3)
其中,c为CCSxk*和CCSxk之间的协方差向量,C为CCSxk的协方差矩阵,Yk'为预测输出值。
步骤3-3:利用预测输出数据流Yk'与在线簇中心集合CCSyk*,间接对数据窗口Yk*进行异常数据检测和修正,得到修正后无异常数据流Yk*,具体的方法操作如下:
步骤3-3-1:逐个计算数据窗口Yk`与CCSyk*中,相同序列号位置处的单数据差值
Figure BDA0001217210430000081
其中k-w+1≤i≤k,显然存在w个单数据差值Δiy
步骤3-3-2:根据系统预先设定的Δyth,在w个Δiy中判断,是否存在|Δpy|>Δyth,其中k-w+1≤p≤k,若存在,则将CCSyk
Figure BDA0001217210430000082
替替代数据窗口Yk*中yp*,更新计算Δiy,其中k-w+1≤i≤k。
步骤3-3-3:计算窗口差值
Figure BDA0001217210430000083
步骤3-3-4:根据系统预先设定的标定误差Myth,若My>Myth,则找出与CCSyk*之间具有最大单数据差值的yq`,确定索引号q,以CCSyk
Figure BDA0001217210430000084
替代Yk*中yq*,更新计算Δiy,其中k-w+1≤i≤k,返回步骤3-3-3;否则,则向用户返回修正后的数据流Yk*。
实施例2:本发明方法应用实例数据
表1与表2分别为某一轮蒸汽压力和蒸汽流量数据流的数据检测与修正情况表。
在本实例中,表1包含4类数据:时间索引号,原始数据、比较数据和修正数据。4类数据的物理含义如下:时间索引序列号I=1,2,...,108,即每轮生产过程被划分为n=108个时间段;原始数据为在线采集的蒸汽压力数据X*;比较数据为离线过程计算得出的簇中心数据CCSx,用来校对原始数据;修正数据为原始数据经检测出不确定数据后,利用比较数据修正后的数据。
表1给出了一个时间序列长度为108的发明应用实例:在每个时间索引号处,在线采集的蒸汽压力数据值(即:发明内容中所描述的输入数据流、表1中原始数据)和簇中心数据(表1中比较数据)值进行比对,基于本发明的描述,超过蒸汽压力误差容限值Δxth或蒸汽压力误差和容限值Mxth的在线采集的数据,会被修正为对应索引号处的簇中心数据(表1中比较数据),最终得到修正后的数据(表1中修正数据)。与被修正数据相关的表格,将用灰色底色表示。
表2为与表1在同一轮的蒸汽流量数据流的数据检测与修正情况表,本表中包含5类数据:时间索引号,原始数据、预测数据、比较数据和修正数据。在本实例中,5类数据的物理含义如下:时间索引序列号I=1,2,...,108,即每轮被划分为n=108时间段;原始数据为在线采集的蒸汽流量数据流Y*(即发明内容中所描述的输出数据流);预测数据为蒸汽压力数据流经GPR预测模型得到预测输出数据(基于公式(3));比较数据为离线过程计算得出的簇中心数据CCSy,用来校对原始数据;修正数据为:检测出预测数据中存在的不确定数据,利用比较数据间接去修正原始数据,从而得到的修正数据。
表2给出了一个时间序列长度为108的发明应用实例:在每个时间索引号处,蒸汽流量的预测输出数据(表2中预测数据),与在线簇中心集合数据(表2中比较数据)值进行比对,基于本发明的描述,若存在超过蒸汽流量误差容限值Δyth或蒸汽流量误差和容限值Myth的数据,会将在线采集的蒸汽流量数据流Y*(表2中原始数据)的相应索引号处的数据修正为簇中心数据(表2中比较数据),最终得到修正后的数据(表2中修正数据)。与被修正数据相关的表格,将用加粗和灰色底色表示。
表1某一轮蒸汽压力数据流的数据检测与修正情况表(n=108)
Figure BDA0001217210430000091
Figure BDA0001217210430000101
表2某一轮蒸汽流量数据流的数据检测与修正情况表(n=108)
Figure BDA0001217210430000102
Figure BDA0001217210430000111
Figure BDA0001217210430000121
虽然本发明已以较佳实施例公开如上,但其并非用以限定本发明,任何熟悉此技术的人,在不脱离本发明的精神和范围内,都可做各种的改动与修饰,因此本发明的保护范围应该以权利要求书所界定的为准。

Claims (6)

1.一种相关双数据流异常检测与修正的方法,其特征在于,所述相关双数据流是指:作为输入数据流的数据和作为输出数据流的数据,且输入数据流是输出数据流的函数,所述方法包含对双数据流的离线处理过程和在线处理过程,在线处理过程可以完成对异常数据的修正;离线处理过程中,双数据流基于相同时间序列I={i|1,2,…,n};其中,为便于表述,一轮生产过程被划分为n个时间序列,每个序号也称为时间索引号i,最末端的索引号为n;生产过程中,会对输入数据流和输出数据流进行多轮次的采集与记录,其中输入数据流为X,输出数据流为Y;第j轮采集的数据流标记为Xj={xj1,xj2…,xjn}和Yj={yj1,yj2…,yjn};若共计输入数据和输出数据被采集了m轮,则每轮在第i个索引号处的采样数据以数据簇CXi=[x1i … xmi]T,CYi=[y1i … ymi]T表示;在线处理过程中,某一轮基于序列I采集的输入数据流为X={x1,x2,x3,...xn},采集的输出数据流为Y={y1,y2,y3,...,yn},X和Y中均包含了不确定的异常数据,X和Y为将被检测和修正的目标数据流;其中离线处理过程描述如下:若共计输入数据和输出数据被采集了m轮,对I的每个索引号i的数据簇CXi,CYi,分别计算其簇中心
Figure FDA0003159860540000011
Figure FDA0003159860540000012
形成离线簇中心集合
Figure FDA0003159860540000013
Figure FDA0003159860540000014
分别建立时间索引I与CCSx,CCSy的映射关系曲线CCIC:CCSx→fx(I)和CCSy→fy(I),fx表示I与CCSx之间的映射关系,fy表示I与CCSy之间的映射关系;
所述方法包括对每一次采集到的索引号为k的新数据,向前提取宽度为w的数据窗口,对其进行异常数据检测和修正的在线处理过程,步骤如下:
步骤1:标记已提取的数据窗口分别为Xk={xk-w+1,xk-w,…,xk}和Yk={yk-w+1,yk-w,…,yk},并在簇中心集合中,对应提取
Figure FDA0003159860540000015
Figure FDA0003159860540000016
其中n≥k≥w-1,w≥1,若遇到当前数据的索引号为本轮较为靠前的数据,即1≤k<w-1,w≥1时,则从前一轮采集的数据中顺次选取最新的数据,保持窗口数据宽度为w;
步骤2:对数据窗口Xk进行异常数据检测和修正,得到修正后无异常数据窗口Xk*;
步骤3:基于公式(1)和(2),形成在线簇中心集合CCSxk*,CCSyk*:
Figure FDA0003159860540000017
Figure FDA0003159860540000018
步骤4:计算CCSxk*和CCSxk的协方差向量c和CCSxk的协方差矩阵C,基于公式(3)的GPR预测模型,得到预测输出Yk'={yk-w+1',yk-w',…,yk'},数据序列yk-w+1',yk-w',…,yk'是以修正后的输入数据的数据窗口数据Xk*为输入值,基于离线信息和GPR预测模型,得到的预测输出数据的数据窗口的预测数据;
Yk'=cT(CCSxk*)C-1CCSyk (3)
步骤5:对预测输出数据Yk'进行对比检测,间接实现对Y中异常数据的检测和修正;
步骤6:双数据流异常数据检测和修正的在线处理过程结束,输出修正后无异常数据流Xk*和Yk*。
2.根据权利要求1所述的方法,其特征在于,所述步骤2具体包括:
步骤2-1:对照相同序列号位置,计算数据窗口Xk与CCSxk的单数据差值
Figure FDA0003159860540000021
下标i代表索引号,且k-w+1≤i≤k;
步骤2-2:若存在|Δux|≥Δxth,其中u代表满足条件|Δux|≥Δxth的所有索引号,且k-w+1≤u≤k,则以CCSxk
Figure FDA0003159860540000022
替代数据窗口Xk中的数据xu,更新计算Δix,其中,k-w+1≤i≤k,Δxth为根据生产工艺所标定的输入数据误差容限值;
步骤2-3:计算窗口差值
Figure FDA0003159860540000023
步骤2-4:若Mx超过标定误差Mxth,则找出与CCSxk之间具有最大单数据差值的xv,确定索引号v,以CCSxk
Figure FDA0003159860540000024
替代数据窗口Xk中xv,更新计算Δix,其中k-w+1≤i≤k,返回步骤2-3;否则,则向用户返回修正后的数据窗口Xk*;其中,k-w+1≤v≤k,Mxth为根据生产工艺所标定的输入数据误差和的容限值。
3.根据权利要求1所述的方法,其特征在于,所述步骤5具体包括:
步骤5-1:逐个计算数据窗口Yk`与CCSyk*中,相同序列号位置处的单数据差值
Figure FDA0003159860540000025
下标i代表索引号,且k-w+1≤i≤k;
步骤5-2:根据系统预先设定的Δyth,判断是否存|Δpy|>Δyth,其中p代表满足条件|Δpy|>Δyth的所有索引号,且k-w+1≤p≤k,若存在,则将CCSyk
Figure FDA0003159860540000026
替代数据窗口Yk中yp,更新计算Δiy,其中k-w+1≤i≤k;其中,Δyth为根据生产工艺所标定的输出数据误差容限值;
步骤5-3:计算窗口差值
Figure FDA0003159860540000027
步骤5-4:根据系统预先设定的标定误差Myth,若My>Myth,则找出与CCSyk*之间具有最大单数据差值的yq`,确定索引号q,以CCSyk
Figure FDA0003159860540000031
替代Yk中yq,更新计算Δiy,其中k-w+1≤i≤k,返回步骤5-3;否则,则向用户返回修正后的数据流Yk*;其中,k-w+1≤q≤k,Myth为根据生产工艺所标定的输出数据误差和的容限值。
4.权利要求1~3任一所述的方法在白酒酿造方面的应用。
5.根据权利要求4所述的应用,其特征在于,所述应用是应用于蒸馏工艺。
6.根据权利要求4所述的应用,其特征在于,所述输入数据流、输出数据流分别为蒸汽压力数据流和蒸汽流量数据流。
CN201710058111.1A 2017-01-23 2017-01-23 相关双数据流异常检测与修正的方法 Active CN108345574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710058111.1A CN108345574B (zh) 2017-01-23 2017-01-23 相关双数据流异常检测与修正的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710058111.1A CN108345574B (zh) 2017-01-23 2017-01-23 相关双数据流异常检测与修正的方法

Publications (2)

Publication Number Publication Date
CN108345574A CN108345574A (zh) 2018-07-31
CN108345574B true CN108345574B (zh) 2021-09-03

Family

ID=62962767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710058111.1A Active CN108345574B (zh) 2017-01-23 2017-01-23 相关双数据流异常检测与修正的方法

Country Status (1)

Country Link
CN (1) CN108345574B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110070132B (zh) * 2019-04-24 2022-06-10 华中科技大学无锡研究院 风电场scada系统缺失数据修复结果的修正补偿方法
CN110071934B (zh) * 2019-04-30 2021-03-26 中国人民解放军国防科技大学 用于网络异常检测的局部敏感性计数摘要方法及系统
CN116756136B (zh) * 2023-08-16 2023-10-31 深圳市明心数智科技有限公司 鱼塘监测设备数据自动化处理方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7031884B1 (en) * 2002-07-12 2006-04-18 Netscout Systems, Inc. System and method for analyzing data streams
CN103336906A (zh) * 2013-07-15 2013-10-02 哈尔滨工业大学 环境传感器的采集数据流中连续异常检测的抽样gpr方法
CN103345593A (zh) * 2013-07-31 2013-10-09 哈尔滨工业大学 面向传感器单数据流的聚集异常检测方法
CN103400152A (zh) * 2013-08-20 2013-11-20 哈尔滨工业大学 基于分层聚类的滑动窗口多数据流异常检测方法
CN103974311A (zh) * 2014-05-21 2014-08-06 哈尔滨工业大学 基于改进高斯过程回归模型的状态监测数据流异常检测方法
CN104123448A (zh) * 2014-07-14 2014-10-29 南京理工大学 基于上下文的多数据流异常检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7031884B1 (en) * 2002-07-12 2006-04-18 Netscout Systems, Inc. System and method for analyzing data streams
CN103336906A (zh) * 2013-07-15 2013-10-02 哈尔滨工业大学 环境传感器的采集数据流中连续异常检测的抽样gpr方法
CN103345593A (zh) * 2013-07-31 2013-10-09 哈尔滨工业大学 面向传感器单数据流的聚集异常检测方法
CN103400152A (zh) * 2013-08-20 2013-11-20 哈尔滨工业大学 基于分层聚类的滑动窗口多数据流异常检测方法
CN103974311A (zh) * 2014-05-21 2014-08-06 哈尔滨工业大学 基于改进高斯过程回归模型的状态监测数据流异常检测方法
CN104123448A (zh) * 2014-07-14 2014-10-29 南京理工大学 基于上下文的多数据流异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
滑动窗口模型下的数据流自适应异常检测方法研究;庞景月;《中国优秀硕士学位论文全文数据库》;20130730;全文 *

Also Published As

Publication number Publication date
CN108345574A (zh) 2018-07-31

Similar Documents

Publication Publication Date Title
CN108345574B (zh) 相关双数据流异常检测与修正的方法
US10496730B2 (en) Factor analysis device, factor analysis method, and factor analysis program
CN108804784A (zh) 一种基于贝叶斯高斯混合模型的即时学习软测量建模方法
CN109389314A (zh) 一种基于最优近邻成分分析的质量软测量与监测方法
JP6362808B1 (ja) 情報処理装置および情報処理方法
CN106897774B (zh) 基于蒙特卡洛交叉验证的多个软测量算法集群建模方法
CN109407649B (zh) 一种基于故障特征变量选择的故障类型匹配方法
Jadhav et al. Grading of soybean leaf disease based on segmented image using k-means clustering
CN112000081B (zh) 基于多块信息提取和马氏距离的故障监测方法及系统
JPWO2018096683A1 (ja) 要因分析方法、要因分析装置および要因分析プログラム
Sankaran et al. Plant disease detection and recognition using K means clustering
CN114020598B (zh) 一种时间序列数据的异常检测方法、装置及设备
CN110084301B (zh) 一种基于隐马尔可夫模型的多工况过程工况辨识方法
CN109542070B (zh) 一种基于双目标优化算法的动态过程监测方法
CN109325065A (zh) 基于动态隐变量模型的多采样率软测量方法
CN108827905B (zh) 一种基于局部加权Lasso的近红外模型在线更新方法
Chen et al. Apple leaf disease regcognition method base on improved ShuffleNet V2
CN113312587B (zh) 基于arima预测和回归预测的传感器采集数据缺失值处理方法
CN110619176A (zh) 一种基于dbn-rlssvm的航煤闪点预测方法
Orozco et al. Zero-shot and few-shot time series forecasting with ordinal regression recurrent neural networks
CN106250527B (zh) 基于pearson相关系数的合金牌号识别方法
Arshad et al. Process monitoring using successive sampling and a repetitive scheme
Wiling Monitoring of Sona Massori Paddy Crop and its Pests Using Image Processing
JP6841039B2 (ja) 要因分析装置、要因分析方法、および、プログラム
Bharti et al. Detection and classification of plant diseases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221109

Address after: 214101 No. 8, Dongting Chunxin East Road, Xishan District, Wuxi City, Jiangsu Province

Patentee after: Wuxi inspection and Certification Institute

Address before: 214122 No. 8, Dongting Chunxin East Road, Xishan District, Wuxi City, Jiangsu Province

Patentee before: WUXI METROLOGY TESTING INSTITUTE