CN114238305A - 数据清洗方法和数据清洗装置 - Google Patents
数据清洗方法和数据清洗装置 Download PDFInfo
- Publication number
- CN114238305A CN114238305A CN202111628053.4A CN202111628053A CN114238305A CN 114238305 A CN114238305 A CN 114238305A CN 202111628053 A CN202111628053 A CN 202111628053A CN 114238305 A CN114238305 A CN 114238305A
- Authority
- CN
- China
- Prior art keywords
- data
- quality
- time interval
- rate
- predefined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 116
- 238000004140 cleaning Methods 0.000 title abstract description 28
- 230000008859 change Effects 0.000 claims abstract description 86
- 230000002159 abnormal effect Effects 0.000 claims abstract description 65
- 238000012544 monitoring process Methods 0.000 claims abstract description 37
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000013480 data collection Methods 0.000 claims description 23
- 230000005856 abnormality Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 238000012423 maintenance Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 10
- 238000012806 monitoring device Methods 0.000 claims description 10
- 238000005406 washing Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 34
- 239000010865 sewage Substances 0.000 description 29
- 239000010802 sludge Substances 0.000 description 24
- 238000007405 data analysis Methods 0.000 description 17
- 238000004519 manufacturing process Methods 0.000 description 17
- 238000004062 sedimentation Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000005086 pumping Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 239000013049 sediment Substances 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001877 deodorizing effect Effects 0.000 description 1
- 238000011010 flushing procedure Methods 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本公开提供一种数据清洗方法和数据清洗装置。该方法包括:生成对数据采集设备采集的数据筛选的约束条件集;在每预定义时间间隔内:接收数据采集设备在预定义时间间隔内采集的数据和数据采集设备的监控设备在预定义时间间隔内生成的监控信息;根据监控信息确定在预定义时间间隔内的采集是否存在异常;若存在异常,则将数据的质量标识设置为低质量;若不存在异常,则确定数据是否满足约束条件集;若不满足约束条件集中的任一约束条件,则将质量标识设置为低质量;若满足约束条件集中的每一约束条件,则根据数据相对前一预定义时间间隔内采集的数据的变化率是否超过预定义变化率阈值,将质量标识设置为中间质量或高质量;关联地存储数据和质量标识。
Description
技术领域
本公开涉及一种数据清洗方法以及实施这种方法的数据清洗装置。
背景技术
随着企业信息化的推进,以大数据、机器学习、人工智能为基础的智能化应用正在越来越多地应用于工业领域,数据清洗作为数据处理中至关重要的环节,清洗后的数据很大程度上决定了后续数据分析的结果的准确性。低质量的数据导致低质量的数据分析、甚至错误的决策。目前的数据清洗方法普遍是由数据工程师使用通用规则和可视化算法对已采集的数据进行处理,准确性不高。
发明内容
本公开的一方面提供了一种用于工业系统中的数据采集设备的数据清洗方法。该数据清洗方法包括:生成用于对数据采集设备所采集的数据进行筛选的约束条件集;以及在每预定义时间间隔内进行以下操作:接收数据采集设备在预定义时间间隔内采集的数据以及数据采集设备的监控设备在预定义时间间隔内生成的监控信息;根据监控信息确定在预定义时间间隔内数据采集设备对数据的采集是否存在异常;在存在异常的情况下,将数据的质量标识设置为低质量;在不存在异常的情况下,确定数据是否满足约束条件集中的每一约束条件;在数据不满足约束条件集中的任一约束条件的情况下,将数据的质量标识设置为低质量;在数据满足约束条件集中的每一约束条件的情况下,根据数据相对于数据采集设备在前一个预定义时间间隔内所采集的数据的变化率是否超过预定义变化率阈值,将数据的质量标识设置为中间质量或高质量;以及关联地存储该数据和质量标识。
本公开的另一方面,还提供一种用于工业系统中的数据采集设备的数据清洗装置。该数据清洗装置包括:约束条件集生成模块、通信模块、处理模块和存储模块。约束条件集生成模块被配置为生成用于对数据采集设备所采集的数据进行筛选的约束条件集。通信模块,被配置为在每预定义时间间隔内接收数据采集设备在预定义时间间隔内采集的数据以及数据采集设备的监控设备在预定义时间间隔内生成的监控信息。处理模块,被配置为在每预定义时间间隔内进行以下操作:根据监控信息确定在预定义时间间隔内数据采集设备对数据的采集是否存在异常;在存在异常的情况下,将数据的质量标识设置为低质量;在不存在异常的情况下,确定数据是否满足约束条件集中的每一约束条件;在数据不满足约束条件集中的任一约束条件的情况下,将数据的质量标识设置为低质量;在数据满足约束条件集中的每一约束条件的情况下,根据数据相对于数据采集设备在前一个预定义时间间隔内所采集的数据的变化率是否超过预定义变化率阈值,将数据的质量标识设置为中间质量或高质量。存储模块被配置为关联地存储该数据和质量标识。
附图说明
通过下面结合附图对实施例的描述,本公开的方面、特征和优点将变得更加清楚和容易理解,其中:
图1A是根据本公开实施例的数据清洗方法和装置的应用场景示意图;
图1B是在其中实施根据本公开实施例的数据清洗方法的示例工业系统。
图2是根据本公开实施例的数据清洗方法的流程示意图;
图3是根据本公开另一实施例的数据清洗方法的流程示意图;
图4是根据本公开又一实施例的数据清洗方法的流程示意图;
图5是根据本公开实施例的数据清洗装置的框图;
图6是根据本公开实施例的计算机可读存储介质的示意图。
具体实施方式
下面将参考本公开的示例性实施例对本公开进行详细描述。然而,本公开不限于这里所描述的实施例,其可以以许多不同的形式来实施。所描述的实施例仅用于使本公开彻底和完整,并全面地向本领域的技术人员传递本公开的构思。所描述的各个实施例的特征可以互相组合或替换,除非明确排除或根据上下文应当排除。
如前所述,目前的数据清洗方法普遍是由数据工程师使用诸如回归法、分箱法、聚类法等通用规则对已生成的数据进行处理。一方面,这些通用规则本身具有一定的主观性和偶然性,数据工程师所选择的规则未必适合其处理的数据。另一方面,由于数据工程师只面向最终数据,并不了解数据来源的生产工艺和工况,与生产工艺和工况有关的因素没有纳入数据清洗过程中。这导致目前的数据清洗缺乏生产背景信息、不反映生产工艺和工况,进而导致后续的数据分析模型合理性差、实践性弱,数据分析结果可靠性低。
本公开的实施例提供一种数据清洗方法和数据清洗装置。该数据清洗方法与对现场数据的实时采集同步进行对现场数据的质量分类,为所采集的现场数据设置表示其质量等级的质量标识,以供后续数据建模和数据分析使用。在根据本公开实施例的数据清洗方法中,将数据采集设备的采集对象(即现场工艺单元)的生产工艺和工况实时地考虑为设置质量标识的因素,使得数据清洗的结果中包含生产背景信息,进而使得后续的数据建模更具实践性、数据分析的结果更具可靠性。
图1A是根据本公开实施例的数据清洗方法和装置的应用场景示意图。
参考图1A,在特定工业系统中,存在多个现场工艺单元,例如,在用于污水处理工艺的工业系统中,存在诸如进水总管、进水闸门、粗格栅池、细格栅池、增压泵、压榨机、沉砂池、鼓风机、除臭管、缺氧池、好氧池、沉淀池、各种泵等现场工艺单元,这些现场工艺单元在本文中统称为采集对象110。采集对象110可以配备一个或多个数据采集设备120,用于对采集对象110在工艺过程中产生的现场数据进行采集,数据采集设备120可以是诸如压力表、液位计、流量计、电流表、电压表、磁力计等仪器仪表或者具有数据采集功能的其他设备。采集对象110、数据采集设备120与相应的监控设备130连接,监控设备130可以包括但不限于可编程逻辑控制器(Programmable Logic Controller,PLC)、数据采集与监视控制系统150(Supervisory Control And Data Acquisition,SCADA)或它们的组合。监控设备130通过内部存储有执行针对采集对象110、数据采集设备120的逻辑运算、顺序控制、定时、计数、故障、报警等操作的指令以数字方式来控制各种类型的采集对象110,或者通过内部布置有执行这些操作的电子电路以模拟方式来控制采集对象110。监控设备130可以生成监控信息,以记录与采集对象110、数据采集设备120和与采集对象110具有联动关系的设备(例如,另一个采集对象110)在监控期间发生的诸如定时、计数、故障、报警等信息。
如图1A所示,根据本公开实施例的数据清洗装置140通过现场以太网与监控设备130通信。该通信基于用于控制过程的对象连接与嵌入(OLE for Process Control,OPC)协议进行,OPC协议定义了监控设备130与数据清洗装置140之间的接口,协调它们之间进行的访问实时数据、监控报警和事件、访问历史数据和其他应用等通信操作。数据清洗装置140可以被集成在计算机、服务器、智能设备等之中。经过数据清洗装置140处理的数据被设置有质量标识,为数据的进一步分析提供参考依据。数据清洗装置140可以通过人机界面或与其通信的具有显示功能的其他设备向用户显示清洗结果。
图1B是其中实施根据本公开实施例的数据清洗方法的示例工业系统。
为更方便地描述根据本公开实施例的数据清洗方法,图1B示出了示例工业系统。如图1B所示,该示例工业系统包括相当于图1A中的采集对象110的用于污水处理工艺中的沉淀池110、相当于图1A中的数据采集设备120的对沉淀池110中的污泥厚度进行测量的污泥厚度仪120、向沉淀池110泵送待处理污水的污水泵160、向沉淀池泵送沉淀剂的加药泵170。下文结合图1B所示的示例工业系统来说明根据本公开实施例的数据清洗方法。
图2是根据本公开实施例的数据清洗方法200的流程示意图。
参考图2,根据本公开实施例的数据清洗方法包括步骤S210-S240。
在步骤S210,生成用于对数据采集设备120所采集的数据PV进行筛选的约束条件集U,其可以包含一个或多个约束条件。这些约束条件包括但不限于根据数据采集设备120的设备特性确定的约束条件、根据数据采集设备120的采集对象110的设备特性确定的约束条件、或者根据与采集对象110具有联动关系的设备对该采集对象110的影响确定的约束条件。
以图1B所示的示例工业系统为例。生成用于对污泥厚度仪120所采集的数据PV进行筛选的约束条件集U={U1,U2…,Uk},(k≥1)。约束条件集U可以包括根据污泥厚度仪120的设备特性确定的约束条件U1,例如,U1可以是污泥厚度仪120的量程,将此量程考虑为设置数据PV的质量等级的因素,当数据PV超量程时,数据PV被视为低质量数据。约束条件集U还可以包括根据沉淀池110的设备特性确定的约束条件U2,例如,U2可以是沉淀池110能够容纳的污泥的最大厚度,将此最大厚度考虑为设置数据PV的质量等级的因素,当数据PV超过最大厚度时,数据PV被视为低质量数据。约束条件集U还可以包括根据与沉淀池110具有联动关系的设备对沉淀池的影响来确定的约束条件U3。例如,根据沉淀池110在污水处理工艺中的功能,其需要混合污水和沉淀剂进行反应,沉淀池110的污泥厚度主要受污水泵160向其泵送的污水量和加药泵170向其泵送的沉淀剂量的影响。污水泵160和加药泵170就可以称为与沉淀池110有联动关系的设备。约束条件U3可以是作为污水泵120泵送的最大污水量和加药泵170泵送的最大沉淀剂量的函数的最大值,将此最大值考虑为设置数据PV的质量等级的因素,当数据PV超过此最大值时,数据PV被视为低质量数据。
以上描述的约束条件U1、U2和U3仅仅是为了说明而举例,针对不同的工业系统或工业系统内的不同数据采集设备120,可以生成不同的约束条件集。换言之,约束条件集取决于采集对象110在具体工艺过程中的功能。
根据本公开实施例的约束条件集U的生成可以由具有计算功能的装置(例如,数据清洗装置)自动生成。例如,可以从工业系统的功能设计文件和联锁控制文件中提取相关设备(例如,数据采集设备120、采集对象110、与采集对象110具有联动关系的设备)的功能参数,并基于这些功能参数生成约束条件集。
生成约束条件集U后,每预定义时间间隔Δt执行步骤S215~S240。预定义时间间隔Δt的时长可以依据所期望的数据分析准确度来确定。例如,在图1B所示的示例中,该预定义时间间隔Δt被设定为1秒。
在步骤S215,接收数据采集设备120在预定义时间间隔Δt(例如,第0~1秒,第1~2秒,第3~4秒,……,第n-1~n秒等)内采集的数据(例如,PV1、PV2、PV3、……、PVn-1、PVn等)以及采集对象110的监控设备130在此时间间隔Δt内生成的监控信息(例如,M1、M2、M3、……、Mn-1、Mn等)。
以图1B所示的示例工业系统为例。例如,在第n预定义时间间隔Δtn(即,第n-1~n秒)期间,接收污泥厚度仪120在此期间采集的数据PVn以及由控制设备130在此期间生成的监控信息Mn。
在步骤S220,根据监控信息Mn确定在此预定义时间间隔Δtn内数据采集设备120对数据的采集是否存在异常。在存在异常的情况下,方法200前进到步骤S230,将数据PVn的质量标识Fn设置为低质量FL。
以图1B所示的示例工业系统为例。根据在第n-1~n秒内生成的监控信息Mn确定在此期间内污泥厚度仪120对数据PVn的采集是否存在异常,可以包括,根据监控信息Mn确定沉淀池110、污泥厚度仪120、污水泵160以及加药泵170是否存在异常,并且在存在异常的情况下,将数据PVn的质量标识Fn设置为低质量FL。
例如,当监控信息Mn指示针对沉淀池110、污泥厚度仪120、污水泵160、加药泵170中的至少一个的报警在此预定义时间间隔内被触发时,可以确定存在异常,并且将质量标识Fn设置为低质量FL。举例来说,当污泥厚度仪120发生故障时,控制设备130会触发相应报警以通知工作人员维修。污泥厚度仪120在报警之后可能仍采集数据,但该数据与生产工艺无关。由此,若监控信息Mn指示在预定义时间间隔Δtn内触发了针对污泥厚度仪120的报警,则可以确定污泥厚度仪120在预定义时间间隔Δtn内对数据PVn的采集存在异常,从而将数据PVn的质量标识Fn设置为低质量FL。
又例如,当监控信息Mn指示沉淀池110、污泥厚度仪120、污水泵160和加药泵170在预定义时间间隔Δtn内处于维护状态的情况下,可以确定存在异常。举例来说,可能需要暂停污水处理来冲洗沉淀池110,沉淀池110可自动地或人工地被置于维护状态。可以通过在监控信息Mn中包含维护状态标志以反正沉淀池110是否被置于维护状态,例如设置当维护状态标志为1时表示沉淀池110处于维护状态,当维护状态标志为0时表示沉淀池110不处于维护状态。污泥厚度仪120在沉淀池被置于维护状态之后可能仍采集数据,但该数据与生产工艺无关。由此,若预定义时间间隔Δtn内的监控信息Mn指示沉淀池110处于维护状态,则可以确定污泥厚度仪120在预定义时间间隔Δtn内对数据PVn的采集存在异常,从而将数据PVn的质量标识Fn设置为低质量FL。
再例如,同样考虑由于需要暂停污水处理工艺来冲洗沉淀池110,污水泵160停止向沉淀池110泵送污水,而改由清水泵(图1B中未示出)向沉淀池110泵送清水,此时,污水泵160的运行状态为停止,清水泵的运行状态为运行。可以通过在监控信息Mn中包含污水泵的第一运行状态标志和清水泵的第二运行状态标志来表示污水泵160和清水泵各自的运行状态。例如,设置当第一运行状态标志为1且第二运行状态为0时表示污水泵160处于停止状态且清水泵处于运行状态。污泥厚度仪120在冲洗沉淀池110期间可能仍采集数据,但该数据与生产工艺无关。由此,若预定义时间间隔Δtn内的监控信息Mn指示污水泵160处于停止状态且清水泵处于运行状态,则可以确定污泥厚度仪120在预定义时间间隔Δtn内对数据PVn的采集存在异常,从而将数据PVn的质量标识Fn设置为低质量FL。
再例如,还可以将监控信息Mn中包含的由OPC协议定义的数据品质戳Q的值作为确定是否存在异常的依据。OPC协议所定义的数据品质戳Q是表示在基于OPC协议进行通信的通信链路上传递的信息数据的品质的标签,其值指示信息数据的品质和出现该品质的可能原因。例如,OPC协议定义了数据品质戳Q的值可以是1~35、64~91、192~195、216~219,其中,1~35对应的品质是“Bad”,64~91对应的品质是“Uncertain”,192~195和216~219对应的品质是“Good”。例如,Q为4对应的含义是“Bad,Configuration Error”,表示信息数据的品质差,且可能是由于服务器中的配置错误引起的。由此,当监控信息Mn指示OPC协议所定义的数据品质戳Q的值在1~35范围内时,可以确定污泥厚度仪120在预定义时间间隔Δtn内对数据PVn的采集存在异常,将数据PVn的质量标识Fn设置为低质量FL。
以上根据监控信息确定在预定义时间间隔内数据采集设备120对数据的采集是否存在异常的方式仅仅是为了举例而非限制性,也非穷举。确定采集对象110、数据采集设备120和/或与采集对象具有联动关系的设备是否有异常的具体方式是根据这些设备在工艺过程中的功能和操作来确定的。
回到步骤S220,在不存在异常的情况下,方法200前进到步骤S225,确定数据PV是否满足约束条件集U中的每一约束条件。并且,在数据PV不满足约束条件集中的任一约束条件的情况下,方法前进到步骤S230,将数据PV的质量标识F设置为低质量FL。
以图1B的示例工业系统为例,在步骤S220确定不存在异常的情况下,在步骤S225确定数据PVn是否满足约束条件集U中的每一约束条件,如前述的示例性约束条件U1~U3,并且,在确定数据PVn不满足U1~U3中的任一个时,将数据PVn的质量标识Fn设置为低质量FL。例如,U1是污泥厚度仪120的量程,当数据PVn超量程时,将数据PVn的质量标识Fn设置为低质量FL。或者,例如,U2是沉淀池本身110能容纳的最大污泥厚度,当数据PVn超过此最大厚度时,将数据PVn的质量标识Fn设置为低质量FL。或者,例如,U3是根据污水泵120泵送的最大污水量和加药泵170泵送的最大沉淀剂量确定的污泥厚度最大值,当数据PVn超过此最大值时,将数据PVn的质量标识Fn设置为低质量FL。
反之,在步骤S225确定数据PVn满足约束条件集U中的每一约束条件的情况下,方法200前进到步骤S235,根据数据PVn相对于数据采集设备120在前一个预定义时间间隔Δtn-1内所采集的数据PVn-1的变化率ρn是否超过预定义变化率阈值ρT,将数据PVn的质量标识Fn设置为中间质量FM或高质量FH。在不存在前一个预定义时间间隔的情况下,即在当前预定义时间间隔为第一个时间间隔Δt1的情况下,确定变化率ρ1不超过预定义变化率阈值ρT。
在步骤S230或步骤S235之后,方法200前进到步骤S240,关联地存储数据PVn和其质量标识Fn。
由此,根据本公开实施例的数据清洗方法200将现场工艺单元(即采集对象110)的生产工艺和工况纳入其中作为为现场数据设置质量标识的因素,将生产背景信息融入到对现场数据的质量分类中,提高了数据清洗结果的可靠性。
此外,根据本公开实施例的数据清洗方法200在对数据进行质量标识时还进一步考虑数据变化率,以便对数据进行更精细化的分类。下面参考图3和图3的实施例对此进行具体说明。
图3是根据本公开另一实施例的数据清洗方法300的流程示意图。
参考图2和图3,方法300中的步骤S310、S315、S330、S350分别与方法200中的步骤S210、S215、S230、S240相同,为简便起见,此处不再重复对步骤S310、S315、S330、S350和步骤S350的描述。方法300与方法200的不同之处在于,如图3中的虚线框所示,与图2中的步骤S235对应地,根据数据PVn相对于数据采集设备120在前一个预定义时间间隔Δtn-1内所采集的数据的变化率ρn是否超过预定义变化率阈值ρT,将数据PVn的质量标识Fn设置为中间质FL量或高质量FH,进一步包括步骤S335~S345。
如图3所示,当在步骤S325(与图2中的S225相同)中确定数据PVn满足约束条件集U中的每一约束条件时,方法300前进到步骤S335,确定数据PVn相对于数据采集设备120在前一个预定义时间间隔Δtn-1内所采集的数据PVn-1的变化率ρn=|(PVn-PVn-1)/PVn-1|是否超过预定义变化率阈值ρT。在ρn>ρT的情况下,方法300前进到步骤S340,将数据PVn的质量标识Fn设置为中间质量FM。反之,在ρn≤ρT的情况下,方法300前进到步骤S345,将数据PVn的质量标识Fn设置为高质量FH。预定义变化率阈值ρT可以例如根据采集对象110的设备特性和数据分析要求的准确度和/或根据本领域专家经验来确定。
步骤S335~S345将不为低质量的数据进一步细分为中间质量数据和高质量数据,其作用在于将工艺过程中存在的某些干扰也反应到数据质量标识中,有助于进行数据分析时对数据的选择更加理想。中间质量FM表征的是在当前预定义时间间隔Δtn内可能出现了一些干扰,这些干扰导致此期间所采集的数据PVn相对于在上一个预定义时间间隔Δtn-1内所采集的数据PVn-1的幅度变化超过预期。举例来说,以图1B所示的示例工业系统为例,污水泵160的泵送压力容易受到与其邻近的其他泵(诸如不属于本工业系统但与污水泵160位置临近的其他泵)的启停的干扰,使得在发生这些泵的启停的预定义时间间隔Δtn内采集的数据PVn相对于在上一个预定义时间间隔Δtn-1内采集的数据PVn-1的变化率超过预定义变化率阈值ρT,本文将这种情况视为数据PVn发生了异常波动。在后续的数据分析中,取决于分析的目的和准确度,数据PVn可能需要被排除也可能不需要被排除,将数据PVn的质量等级进一步细分为低质量FL、中间质量FM和高质量FH有助于数据分析时对其更准确地取舍。
由此,根据本公开实施例的数据清洗方法300通过将数据的质量等级进一步细分为低质量、中间质量和高质量,能够将工艺过程中的一些干扰也反应到数据数据清洗的结果中,有助于提高后续数据分析的可靠性。
图4是根据本公开另一实施例的数据清洗方法400的流程示意图。
参考图2和图4,方法400中的步骤S410、S420、S425、S430、S470分别与方法200中的步骤S210、S215、S220、S225、S240相同。为简便起见,不再重复对步骤S410、S420、S425、S430和S470的描述。
下面仅描述方法400与方法200的不同之处。
方法400中,还包括步骤S415。在步骤S415,创建异常波动标志L,其值可以包括表示数据采集设备120所采集的数据PV没有发生异常波动的第一值,例如0,或者表示数据采集设备120所采集的数据PV发生了异常波动的第二值,例如1。并且,异常波动标志L的初始值被设置为第一值。
方法400中,在步骤S425(与方法200中的S220相同)根据监控信息Mn确定在预定义时间间隔Δtn内数据采集设备120对数据PVn的采集存在异常的情况下,前进到步骤S435,将数据PVn的质量标识Fn设置为低质量FL,并且将异常波动标志Ln设置为第一值,即Ln=0,此处的“设置”涵盖了在异常波动标志在前一个预定义时间间隔内已经为第一值的情况下维持异常波动标志的值不变的情形。
方法400中,在步骤S430(与方法200中的S225相同)确定数据PVn不满足约束条件集U中的任一约束条件的情况下,同样前进到步骤S435。
方法400中,如图4中的虚线框所示,与图2中的步骤S235对应地,根据数据PVn相对于数据采集设备120在前一个预定义时间间隔Δtn-1内所采集的数据PVn-1的变化率ρn是否超过预定义变化率阈值ρT将数据PVn的质量标识Fn设置为中间质量FM或高质量FH,进一步包括步骤S440~S465。
在步骤S430(与方法200中的S225相同)确定数据PVn满足约束条件集U中的每一约束条件的情况下,前进到步骤S440,确定数据PVn相对于数据采集设备在前一个预定义时间间隔Δtn-1内所采集的数据PVn-1的变化率ρn=|(PVn-PVn-1)/PVn-1|是否超过预定义变化率阈值ρT。
在ρn>ρT的情况下,方法400前进到步骤S445,开始计时(例如,通过计时器等),该计时tc的初始值被设置为0,即tc=0。紧接着,继续前进到步骤S450,将数据PVn的质量标识Fn设置为中间质量FM,并将异常波动标志Ln设置为第二值,例如Ln=1,此处的“设置”涵盖了在异常波动标志在前一个预定义时间间隔内已经为第二值的情况下维持异常波动标志的值不变的情形。
在ρn≤ρT的情况下,方法400前进到步骤S455,判断上一个预定义时间间隔Δtn-1内得到的异常波动标志Ln-1的值是否为第二值。
若Ln-1的值为第一值,例如Ln=0,则前进到步骤S465,将数据PVn的质量标识Fn设置为设置高质量FH,并且将异常波动标志Ln维持为第一值。
若Ln-1的值为第二值,例如Ln=1,则前进到步骤S460,判断计时tc是否已达预定义退出时间tdelay,即判断从变化率ρ恢复到预定义变化率阈值ρT以下的时间起是否已经过预定义退出时间tdelay。
若计时tc≥tdelay,表明从变化率ρ恢复到预定义变化率阈值ρT以下的时间起已经经过预定义退出时间tdelay,则前进到步骤S465。
反之,若计时tc<tdelay,表明从变化率ρ恢复到预定义变化率阈值ρT以下的时间起尚未经过预定义退出时间tdelay,则前进到步骤S450,将数据PVn的质量标识Fn设置为中间质量FM,并且将异常波动标志Ln维持为第二值。
在步骤S435、S450、S465之后,方法400前进到步骤S470,关联地存储数据PVn和质量标识Fn。
方法400创建了异常波动标志L,并且只要出现变化率ρ大于预定义变化率阈值ρT就开始计时,且仅当检测到在预定义退出时间tdelay之内连续采集的数据PV的变化率ρ都不超过预定义变化率阈值ρT的情况下,才会将最新采集数据的质量认定为高质量。这样做的原因在于,在一些实例中,使数据采集设备所采集的数据发生异常波动的影响因素(例如,前述的污水泵160受到邻近的泵的启停的影响)可能会持续一段时间,即使在这段时间内采集的某个数据“看起来”属于高质量数据,但期望适用更严格的数据筛选标准,将这段时间内的所有数据都视为发生了异常波动。方法400通过监测变化率ρn恢复到预定义变化率阈值以下的时间是否达到预定义退出时间tdelay,来实现将持续的异常波动期间采集的数据都筛选出来。
由此,根据本公开实施例的数据清洗方法400不仅将将生产背景信息融入到对数据的质量分类中,还进一步将持续的异常波动也反应在数据清洗的结果中,提高其在后续数据分析过程中的参考价值,进而提升数据分析的准确度。
此外,方法200、300和400还可以包括在每预定义时间间隔Δt内执行滑动平均滤波的步骤。即,将最近的预定数量j个预定义时间间隔内采集的数据PVn、PVn-1、……、PVn-j+1的平均值计算为滑动平均值PVn’。预定数量j为大于1的整数(j>1),且平均值包括但不限于算术平均值和加权平均值。并且,方法200、300和400还可以包括与数据PVn和质量标识Fn关联地存储该滑动平均值PVn’的步骤。
以算数平均为例,给定j为3,预定义时间间隔Δt为1秒,到第3预定义时间间隔Δt3已采集3个数据PV1、PV2和PV3,计算PV1、PV2和PV3的算术平均值1/3*(PV1+PV2+PV3)作为第3个预定义时间间隔Δt3内的滑动平均值PV1’,即第一个滑动平均值,并且与数据PV3和数据质量F3关联地存储互动平均值PV1’;同理,到第4个预定义时间间隔Δt4已采集4个数据PV1、PV2、PV3和PV4,计算PV2、PV3和PV4的算术平均值1/3*(PV2+PV3++PV4)作为第4预定义时间间隔Δt3内的滑动平均值PV2’,即第二个滑动平均值,并且与数据PV4和数据质量F4关联地存储互动平均值PV2’;以此类推。
执行滑动平均滤波的作用在于过滤掉所采集的各个数据PV之间频繁起伏的随机误差,消除噪声等,滑动平均值PV1’、PV2’、……、PVn’所拟合的曲线平滑,更能反映数据PV随时间发展的真实趋势,可选择性地用于后续数据分析。例如,数据PV、质量标识F和滑动平均值PV’中的一个或多个可以可视化的方式呈现给数据工程师,为其提供更可靠的数据支撑。
图5是根据本公开实施例的数据清洗装置140的框图。
参考图5,数据清洗装置140可以包括约束条件生成模块510,通信模块520、处理模块530和存储模块540。
数据清洗装置140可以实施前面描述的数据清洗方法200、300和400。
具体地,约束条件集生成模块510被配置为生成用于对数据采集设备120所采集的数据PV进行筛选的约束条件集U。
通信模块520被配置为在每预定义时间间隔Δt内,接收数据采集设备120在此预定义时间间隔Δt内采集的数据PV以及数据采集设备120的监控设备130在此预定义时间间隔Δt内生成的监控信息M。
处理模块530被配置为在每预定义时间间隔Δt内(例如,在第n个预定义时间间隔Δtn内)进行以下操作:根据监控信息Mn确定在预定义时间间隔Δtn内数据采集设备120对数据PVn的采集是否存在异常;在存在异常的情况下,将数据PVn的质量标识Fn设置为低质量FL;在不存在异常的情况下,确定数据PVn是否满足约束条件集U中的每一约束条件;在数据不满足约束条件集U中的任一约束条件的情况下,将数据PVn的质量标识Fn设置为低质量FL;在数据PVn满足约束条件集U中的每一约束条件的情况下,根据数据PVn相对于数据采集设备120在前一个预定义时间间隔Δtn-1内所采集的数据PVn-1的变化率ρn是否超过预定义变化率阈值ρT,将数据PVn的质量标识Fn设置为中间质量FM或高质量FH。在仅经历了第一个预定义时间间隔Δt1,仅采集了数据PV1的情况下,不存在前一个预定义时间间隔,确定变化率ρ1不超过预定义变化率阈值ρT。
存储模块540被配置为关联地存储数据PVn和所述质量标识Fn。
前面已经结合图1B和图2详细描述了数据清洗装置140实施数据清洗方法200的过程,为简便起见,此处不再赘述。
在本公开的一个实施例中,图6所示的处理模块530被配置为通过执行以下操作来将数据PVn的质量标识Fn设置为中间质量FM或高质量FH:确定数据PVn相对于数据采集设备120在前一个预定义时间间隔Δtn-1内所采集的数据PVn-1的变化率ρn是否超过预定义变化率阈值ρT;在变化率ρn超过预定义变化率阈值ρT的情况下,将数据PVn的质量标识Fn设置为中间质量FM;在变化率ρn不超过预定义变化率阈值ρT的情况下,将数据PVn的质量标识Fn设置为高质量FH。
前面已经结合图1B和图3详细描述了数据清洗装置140实施数据清洗方法300的过程,为简便起见,此处不再赘述。
在本公开的另一个实施例中,数据清洗装置140还可以包括异常波动标志创建模块550(图5中虚线所示),其被配置为创建异常波动标志L并将其初始值设置为第一值。异常波动标志L的值包括表示非异常波动的所述第一值,例如0,和表示异常波动的第二值,例如1。
处理模块530还被配置为在每预定义时间间隔Δt内进行以下操作,例如在第n个预定义时间间隔Δtn内:在根据监控信息Mn确定数据采集装置对数据PVn的采集存在异常的情况下,将异常波动标志Ln设置为第一值。或者,在数据PVn不满足所述约束条件集U中的任一约束条件的情况下,将异常波动标志Ln设置为第一值。此处的“设置”涵盖了在异常波动标志在前一个预定义时间间隔内已经为第一值的情况下维持异常波动标志的值不变的情形。
处理模块530还被配置为通过执行以下操作来将数据PVn的质量标识Fn设置为中间质量FM或高质量FH:PVn确定数据相对于数据采集设备120在前一个预定义时间间隔Δtn-1内所采集的数据PVn-1的变化率ρn是否超过预定义变化率阈值ρT;在变化率ρn超过预定义变化率阈值ρT的情况下,开始计时,例如,设定计时tc的初始值为tc=0,将数据质量标识Fn设置为中间质量FM,并且将异常波动标志Ln设置为第二值,此处的“设置”涵盖了在异常波动标志在前一个预定义时间间隔内已经为第二值的情况下维持异常波动标志的值不变的情形;在变化率ρn不超过预定义变化率阈值ρT的情况下,确定异常波动标志Ln-1是否为第二值;在异常波动标志Ln-1为第一值的情况下,将数据PVn的质量标识设置为高质量FH,并且将异常波动标志Ln维持为第一值;在异常波动标志Ln-1为第二值的情况下,确定计时是否已达预定义退出时间tdelay;在计时已达预定义退出时间tdelay的情况下,将数据质量标识Fn设置为高质量FH,并且将异常波动标志Ln设置为第一值;在计时未达预定义退出时间tdelay的情况下,将数据质量标识Fn设置为中间质量FM,并且将异常波动标志Ln维持为第二值。
由于前面已经结合图1B和图4详细描述了数据清洗装置140实施数据清洗方法400的过程,为简便起见,此处不再赘述。
图6是根据本公开实施例的计算机可读存储介质600的流程示意图。如图6所示,根据本公开实施例的计算机可读存储介质600上存储有计算机可读指令610。当计算机可读指令610由处理器运行时,执行参照以上图2至图4描述的根据本公开实施例的数据清洗方法200、300和400。处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元。
根据本发明实施例,还提供了一种计算机程序产品,该计算机程序产品可以存储在云端或本地的存储介质上或处于传输介质中。在该计算机程序产品包括的计算机程序被计算机或处理器运行时用于执行本发明实施例的数据清洗方法的相应步骤,并且用于实现根据本发明实施例的数据清洗装置中的相应模块。
以上,参照附图描述了根据本公开实施例的数据清洗方法和实施这些数据清洗方法的数据清洗装置、以及计算机可读存储介质。根据本公开实施例的用于工业系统中的数据采集设备的数据清洗方法和装置,与现场数据的实时采集同步地进行按这些现场数据的质量等级为其设置质量标识,并且将采集对象的工艺设计和实时工况作为设置质量标识的因素,使得生产背景信息、生产工艺和工况能被反应到数据清洗的结果中,能够提升后续数据分析模的合理性和数据分析结果的可靠性。
本公开的说明书和权利要求书及附图中的术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本公开的系统和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (13)
1.一种用于工业系统中的数据采集设备的数据清洗方法,包括:
生成用于对所述数据采集设备所采集的数据进行筛选的约束条件集;和
在每预定义时间间隔内进行以下操作:
接收所述数据采集设备在所述预定义时间间隔内采集的数据以及所述数据采集设备的监控设备在所述预定义时间间隔内生成的监控信息;
根据所述监控信息确定在所述预定义时间间隔内所述数据采集设备对所述数据的采集是否存在异常;
在存在异常的情况下,将所述数据的质量标识设置为低质量;
在不存在异常的情况下,确定所述数据是否满足所述约束条件集中的每一约束条件;
在所述数据不满足所述约束条件集中的任一约束条件的情况下,将所述数据的质量标识设置为低质量;
在所述数据满足所述约束条件集中的每一约束条件的情况下,根据所述数据相对于所述数据采集设备在前一个预定义时间间隔内所采集的数据的变化率是否超过预定义变化率阈值,将所述数据的质量标识设置为中间质量或高质量,其中,在不存在所述前一个预定义时间间隔的情况下,确定所述变化率不超过所述预定义变化率阈值;以及
关联地存储所述数据和所述质量标识。
2.如权利要求1所述的数据清洗方法,其中,根据所述数据相对于所述数据采集设备在前一个预定义时间间隔内所采集的数据的变化率是否超过预定义变化率阈值,将所述数据的质量标识设置为中间质量或高质量,包括:
确定所述数据相对于所述数据采集设备在前一个预定义时间间隔内所采集的数据的变化率是否超过预定义变化率阈值;
在所述变化率超过所述预定义变化率阈值的情况下,将所述数据的质量标识设置为中间质量;以及
在所述变化率不超过所述预定义变化率阈值的情况下,将所述数据的质量标识设置为高质量。
3.如权利要求1所述的数据清洗方法,还包括:
创建异常波动标志并将其初始值设置为第一值,其中,所述异常波动标志的值包括表示非异常波动的所述第一值和表示异常波动的第二值;以及
在每预定义时间间隔内:
在存在异常的情况下,将所述异常波动标志设置为所述第一值;
在所述数据不满足所述约束条件集中的任一约束条件的情况下,将所述异常波动标志设置为所述第一值;
其中,根据所述数据相对于所述数据采集设备在前一个预定义时间间隔内所采集的数据的变化率是否超过预定义变化率阈值,将所述数据的质量标识设置为中间质量或高质量,包括:
确定所述数据相对于所述数据采集设备在前一个预定义时间间隔内所采集的数据的变化率是否超过预定义变化率阈值;
在所述变化率超过所述预定义变化率阈值的情况下,开始计时,将所述数据的质量标识设置为中间质量,并且将所述异常波动标志设置为所述第二值;
在所述变化率不超过所述预定义变化率阈值的情况下,确定前一个预定义时间间隔内的异常波动标志是否为所述第二值;
在所述前一个预定义时间间隔内的异常波动标志为所述第一值的情况下,将所述数据的质量标识设置为高质量,并且将所述异常波动标志维持为所述第一值;
在所述前一个预定义时间间隔内的异常波动标志为所述第二值的情况下,确定所述计时是否已达预定义退出时间;
在所述计时已达所述预定义退出时间的情况下,将所述数据的质量标识设置为高质量,并且将所述异常波动标志设置为所述第一值;以及
在所述计时未达所述预定义退出时间的情况下,将所述数据的质量标识设置为中间质量,并且将所述异常波动标志维持为所述第二值。
4.如权利要求1至3中任一项所述的数据清洗方法,其中,所述约束条件集包括根据所述数据采集设备的设备特性确定的约束条件、根据所述数据采集设备的采集对象的设备特性确定的约束条件、和/或根据与所述采集对象具有联动关系的设备对所述采集对象的影响确定的约束条件。
5.如权利要求1至3中任一项所述的数据清洗方法,其中,根据所述监控信息确定在所述预定义时间间隔内所述数据采集设备对所述数据的采集是否存在异常包括,在所述监控信息指示以下各项之一的情况下确定存在异常:
针对所述采集对象、所述数据采集设备和/或与所述采集对象具有联动关系的设备的报警被触发;以及
所述采集对象、所述数据采集设备、通信链路和/或与所述采集对象具有联动关系的设备处于维护或故障状态。
6.如权利要求1至3中任一项所述的数据清洗方法,还包括在每预定义时间间隔内:
将最近的预定数量个预定义时间间隔内所采集的数据的平均值计算为滑动平均值,所述预定数量为大于1的整数;以及
与所述数据和所述数据质量标识关联地存储所述滑动平均值。
7.一种用于工业系统中的数据采集设备的数据清洗装置,包括:
约束条件集生成模块,被配置为生成用于对所述数据采集设备所采集的数据进行筛选的约束条件集;
通信模块,被配置为在每预定义时间间隔内接收所述数据采集设备在所述预定义时间间隔内采集的数据以及所述数据采集设备的监控设备在所述预定义时间间隔内生成的监控信息;
处理模块,被配置为在每预定义时间间隔内进行以下操作:
根据所述监控信息确定在所述预定义时间间隔内所述数据采集设备对所述数据的采集是否存在异常;
在存在异常的情况下,将所述数据的质量标识设置为低质量;
在不存在异常的情况下,确定所述数据是否满足所述约束条件集中的每一约束条件;
在所述数据不满足所述约束条件集中的任一约束条件的情况下,将所述数据的质量标识设置为低质量;
在所述数据满足所述约束条件集中的每一约束条件的情况下,根据所述数据相对于所述数据采集设备在前一个预定义时间间隔内所采集的数据的变化率是否超过预定义变化率阈值,将所述数据的质量标识设置为中间质量或高质量,其中,在不存在前一个预定义时间间隔的情况下,确定所述变化率不超过所述预定义变化率阈值;和
存储模块,被配置为关联地存储所述数据和所述质量标识。
8.如权利要求7所述的数据清洗装置,其中,所述处理模块通过执行以下操作将所述数据的质量标识设置为中间质量或高质量:
确定所述数据相对于所述数据采集设备在前一个预定义时间间隔内所采集的数据的变化率是否超过预定义变化率阈值;
在所述变化率超过所述预定义变化率阈值的情况下,将所述数据的质量标识设置为中间质量;以及
在所述变化率不超过所述预定义变化率阈值的情况下,将所述数据的质量标识设置为高质量。
9.如权利要求7所述的数据清洗装置,还包括:
异常标志创建模块,被配置为创建异常波动标志并将其初始值设置为第一值,其中,所述异常波动标志的值包括表示非异常波动的所述第一值或表示异常波动的第二值;并且
所述处理模块还被配置为在每预定义时间间隔内还进行以下操作:
在存在异常的情况下,将所述异常波动标志设置为所述第一值;
在所述数据不满足所述约束条件集中的任一约束条件的情况下,将所述异常波动标志设置为所述第一值;
其中,根据所述数据相对于所述数据采集设备在前一个预定义时间间隔内所采集的数据的变化率是否超过预定义变化率阈值,将所述数据的质量标识设置为中间质量或高质量,包括:
确定所述数据相对于所述数据采集设备在前一个预定义时间间隔内所采集的数据的变化率是否超过预定义变化率阈值;
在所述变化率超过所述预定义变化率阈值的情况下,开始计时,将所述数据的质量标识设置为中间质量,并且将所述异常波动标志设置为所述第二值;
在所述变化率不超过所述预定义变化率阈值的情况下,确定前一个预定义时间间隔内的异常波动标志是否为所述第二值;
在前一个预定义时间间隔内的异常波动标志为所述第一值的情况下,将所述数据的质量标识设置为高质量,并且将所述异常波动标志维持为所述第一值;
在前一个预定义时间间隔内的异常波动标志为所述第二值的情况下,确定所述计时是否已达预定义退出时间;
在所述计时已达所述预定义退出时间的情况下,将所述数据质量标识设置为高质量,并且将所述异常波动标志设置为所述第一值;以及
在所述计时未达所述预定义退出时间的情况下,将所述数据质量标识设置为中间质量,并且将所述异常波动标志维持为所述第二值。
10.如权利要求7至9中任一项所述的数据清洗装置,其中,所述约束条件集包括根据所述数据采集设备的设备特性确定的约束条件、根据所述数据采集设备的采集对象的设备特性确定的约束条件、和/或根据与所述采集对象具有联动关系的设备对所述采集对象的影响确定的约束条件。
11.如权利要求7至9中任一项所述的数据清洗装置,其中,所述处理模块在所述监控信息指示以下各项之一的情况下确定存在异常:
针对所述采集对象、所述数据采集设备和/或与所述采集对象具有联动关系的设备的报警被触发;以及
所述采集对象、所述数据采集设备和/或与所述采集对象具有联动关系的设备处于维护状态。
12.如权利要求7至9中任一项所述的数据清洗装置,其中,
所述处理模块还被配置为在每预定义时间间隔内,将最近的预定数量个预定义时间间隔内所采集的数据的平均值计算为滑动平均值,并且所述预定数量为大于1的整数;并且
所述存储模块还被配置为与所述数据和所述数据质量标识关联地存储所述滑动平均值。
13.一种计算机可读存储介质,其上存储有程序指令,当所述程序指令被处理器执行时,使得所述处理器执行由权利要求1-7中任一项所述的数据清洗方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111628053.4A CN114238305B (zh) | 2021-12-28 | 2021-12-28 | 数据清洗方法和数据清洗装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111628053.4A CN114238305B (zh) | 2021-12-28 | 2021-12-28 | 数据清洗方法和数据清洗装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114238305A true CN114238305A (zh) | 2022-03-25 |
CN114238305B CN114238305B (zh) | 2024-10-01 |
Family
ID=80764142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111628053.4A Active CN114238305B (zh) | 2021-12-28 | 2021-12-28 | 数据清洗方法和数据清洗装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114238305B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100757A (zh) * | 2022-06-20 | 2022-09-23 | 重庆长安汽车股份有限公司 | 汽车数据的存储方法、装置、车辆及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170103101A1 (en) * | 2015-10-07 | 2017-04-13 | Telogis, Inc. | System for database data quality processing |
CN112380204A (zh) * | 2020-11-16 | 2021-02-19 | 浙江大华技术股份有限公司 | 一种数据质量的评估方法及装置 |
KR20210103747A (ko) * | 2020-02-14 | 2021-08-24 | 주식회사 케이티 | 무선품질데이터의 레이블링 방법 및 레이블링 장치 |
CN113570200A (zh) * | 2021-06-30 | 2021-10-29 | 国电南瑞科技股份有限公司 | 一种基于多维信息的电网运行状态监测方法及系统 |
US11204851B1 (en) * | 2020-07-31 | 2021-12-21 | International Business Machines Corporation | Real-time data quality analysis |
-
2021
- 2021-12-28 CN CN202111628053.4A patent/CN114238305B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170103101A1 (en) * | 2015-10-07 | 2017-04-13 | Telogis, Inc. | System for database data quality processing |
KR20210103747A (ko) * | 2020-02-14 | 2021-08-24 | 주식회사 케이티 | 무선품질데이터의 레이블링 방법 및 레이블링 장치 |
US11204851B1 (en) * | 2020-07-31 | 2021-12-21 | International Business Machines Corporation | Real-time data quality analysis |
CN112380204A (zh) * | 2020-11-16 | 2021-02-19 | 浙江大华技术股份有限公司 | 一种数据质量的评估方法及装置 |
CN113570200A (zh) * | 2021-06-30 | 2021-10-29 | 国电南瑞科技股份有限公司 | 一种基于多维信息的电网运行状态监测方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100757A (zh) * | 2022-06-20 | 2022-09-23 | 重庆长安汽车股份有限公司 | 汽车数据的存储方法、装置、车辆及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114238305B (zh) | 2024-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109981328B (zh) | 一种故障预警方法及装置 | |
CN107871190A (zh) | 一种业务指标监控方法及装置 | |
JP2007156653A (ja) | 水処理プラントの運転管理方法および装置 | |
CN104976139B (zh) | 一种基于高斯模型的机械设备状态诊断方法 | |
EP3026518A1 (en) | Method for Root analysis of an alarm flood sequence | |
CN102355381A (zh) | 自适应的差分自回归移动平均模型的流量预测方法和系统 | |
GB2522926A (en) | Method of identifying anomalies | |
EP3100122A1 (de) | Verfahren zum bereitstellen von zuverlässigen sensordaten | |
WO2021061956A1 (en) | Blockage detection using machine learning | |
CN114238305A (zh) | 数据清洗方法和数据清洗装置 | |
CN115454778A (zh) | 大规模云网络环境下的时序指标异常智能监控系统 | |
EP3187950A1 (en) | A method for managing alarms in a control system | |
JP2019153045A (ja) | データ処理装置及びデータ処理方法 | |
CN114962239A (zh) | 一种基于智能物联网的设备故障检测方法 | |
CN113361142A (zh) | 一种多元参数退化相依的细纱机可靠性评估方法 | |
CN116841790A (zh) | 一种基于风险控制的离线业务监控方法及系统 | |
JP2019191990A (ja) | 維持管理支援システム及び維持管理支援方法 | |
CN111712771B (zh) | 能够执行问题诊断的数据处理装置以及方法 | |
CN113955149B (zh) | 一种电机系统的健康诊断方法和装置 | |
CN109072721B (zh) | 适用于电力生产工厂回路的供水泵送管理 | |
CN113468818B (zh) | 风力发电机组的绕组运行状态监测方法和装置 | |
US20230205161A1 (en) | Method and apparatus for monitoring industrial devices | |
CN114970311A (zh) | 一种远端模块寿命预测模型的建立方法与寿命预测方法 | |
CN114547900A (zh) | 一种自动化生产线电动机运行状态评估方法 | |
CN117076260B (zh) | 一种参数及设备异常检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: 3101, 27th Floor, Building 1, Yard 38, East 3rd Ring North Road, Chaoyang District, Beijing, 100026 Applicant after: Suez Environmental Technology (Beijing) Co.,Ltd. Address before: 100026 31 / F, Taikang financial building, building 1, courtyard 38, East Third Ring Road North, Chaoyang District, Beijing Applicant before: Suez Water Treatment Co,.Ltd. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |