CN114896228B - 基于过滤规则多级组合优化的工业数据流清洗模型和方法 - Google Patents

基于过滤规则多级组合优化的工业数据流清洗模型和方法 Download PDF

Info

Publication number
CN114896228B
CN114896228B CN202210454916.9A CN202210454916A CN114896228B CN 114896228 B CN114896228 B CN 114896228B CN 202210454916 A CN202210454916 A CN 202210454916A CN 114896228 B CN114896228 B CN 114896228B
Authority
CN
China
Prior art keywords
data
rule
pca
cleaning
num
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210454916.9A
Other languages
English (en)
Other versions
CN114896228A (zh
Inventor
张映锋
张�诚
张党
刘佳杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210454916.9A priority Critical patent/CN114896228B/zh
Publication of CN114896228A publication Critical patent/CN114896228A/zh
Application granted granted Critical
Publication of CN114896228B publication Critical patent/CN114896228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

为解决数据流清洗算法适用的数据类型单一以及难以动态优化以适应外部环境变化的技术问题,本发明提出了一种基于过滤规则多级组合优化的工业数据流清洗模型和方法,将数据检测、修复、过滤规则配置、过滤规则优化融为一体,能够为规则匹配模型提供可信任的数据输入;将主成分分析与随机森林算法引入规则匹配模型的构建,能在依据输入数据特征自匹配合适数据过滤规则的同时,通过获取解释能力更强的低维数据提高自匹配精度;所设计的过滤规则库具有可重构与可拓展特点并支持对规则的复杂逻辑描述,在对清洗后数据引入质量评估与反馈后,能够以自学习与自适应的方式应对多场景下多源数据的处理,突破传统面向单一应用场景的数据清洗算法的局限性。

Description

基于过滤规则多级组合优化的工业数据流清洗模型和方法
技术领域
本发明涉及一种数据流清洗模型、方法、存储介质和电子设备,能够实现对脏数据流的自学习、自匹配式的检测和修复,从而提高数据的准确性和可信性。
背景技术
先进传感技术、物联技术、人工智能技术在驱动工业领域向“多维度、透明化、泛在感知”全新模式转变的同时,对智能决策所输入数据的质量与效率提出了更高的需求。但随机外部扰动等问题常导致所采集的数据存在缺失、噪声、重复等质量问题,大量研究表明数据质量异常将严重影响决策与分析的可靠性及正确性。因此数据清洗已成为数据仓库领域、数据挖掘领域以及数据质量管理领域一项关键研究内容。
近年来,在数据清洗方面的研究主要有:
江苏满运软件科技有限公司公开的发明专利《数据清洗方法、系统、存储介质及电子设备》(201811627786.4),通过选择数据源的目标源表,确定数据来源并进行数据清洗,降低数据同步的出错率。
武汉理工光科股份有限公司公开的发明专利《一种多级平台间数据清洗与同步方法及系统》(202010784073.X),通过多级平台对数据进行多层次性的清洗,确保数据的可靠性和有效性。
蔚来汽车有限公司公开的发明专利《脏数据识别方法及装置、数据清洗方法及装置、控制器》(201810737680.3),提出了一种脏数据识别和清理方法,首先提取领域规则库,然后通过多重判别规则对脏数据进行识别和清洗。
大连海事大学公开的发明专利《一种面向海洋数据流的数据清洗方法和系统》(201910432271.7),对实时数据流进行有限的一体式异常点检测、异常点修复和缺失值填补。
东北电力大学公开的发明专利《一种基于关联规则的电网设备数据流清洗方法》(201910475890.4),基于关联规则对电网设备数据流进行清洗,将多种小波基函数的神经网络应用到数据清洗中,完成组合预测。
上述研究和发明创造在数据流清洗的自动化与实时性等方面已发挥一定的推动作用,但仍存在以下问题:
1)数据流清洗过程中仅针对特定类型的数据错误进行检测与修复,无法以自匹配方式有效应对数据种类与数据错误类型多样的应用场景;
2)数据清洗过程中无法实现基于实时数据的清洗算法自学习与自适应。
发明内容
为解决数据流清洗算法适用的数据类型单一以及难以动态优化以适应外部环境变化的技术问题,本发明提出了一种基于过滤规则多级组合优化的数据流清洗模型、方法、存储介质和电子设备,目的是通过过滤规则与数据特征间的自匹配,实现面向多数据种类与多数据错误类型的数据清洗,提高数据清洗算法的自学习与自适应能力。
本发明的技术方案是:
基于过滤规则多级组合优化的数据流清洗模型,其特殊之处在于:所述数据流清洗模型是按照下述方法建立的:
步骤1:数据流初步检测;
对输入的初始数据流进行初步检测,包括数据超出阈值、重复、缺失、不一致检测,并使用NA替换检测出的异常数据;
步骤2:训练数据集构造;
选取异常最少的一段原始数据D,并向原始数据D中加入不同程度的异常数据进行脏化处理,以模拟数据清洗方法应用阶段将遇到的各种数据异常问题,得到脏数据集即为训练数据集;
步骤3:数据特征提取;
从集中趋势、离散程度、分布形态和其他特征四方面,对输入的训练数据进行数据特征提取;所述其他特征包括数据相关性、数据自相关性、数据量和缺失比例;
步骤4:数据过滤规则库建立;
根据所采集数据可能出现的各种质量问题及智能决策对输入数据的质量需求,选取多种异常检测算法和异常修复算法进行自由组合、逐一匹配集成,形成面向异常数据的异常检测算法-异常修复算法的多种数据过滤规则,将其放入数据过滤规则库中;
步骤5:数据特征-规则关联链构建;
使用数据过滤规则库中的各条数据过滤规则,依次对步骤2得到的训练数据集R中的数据进行清洗,并将清洗后数据与原始数据D的相对误差作为评价指标,选取评价最高的数据过滤规则并将其写入数据特征-规则关联链;
步骤6:规则匹配模型构造;
针对构建的数据特征-规则关联链,进一步学习数据特征和规则之间的匹配关系,构建规则匹配模型,该规则匹配模型即为所述数据流清洗模型。
进一步地,还包括步骤7:利用所述数据清洗模型对实际输入数据进行清洗后的数据进行质量评估,若评估结果超出所设阈值,则重复步骤6以更新所述数据流清洗模型。
进一步地,所述步骤4中:
异常检测算法包括3倍标准差法、箱型法和基于密度的空间聚类算法;
异常修复算法包括就近填补法、基于平均值的填补法、基于相关性的填补法和加权移动平均法。
进一步地,所述步骤5具体为:
步骤5.1:构建数据特征-规则关联链,将其表示为:
RuCh=<Num,Fea,G>
式中,Num为样本序号;Fea为步骤3提取的数据特征集合;G为类别标签,代表对应特征集合Fea的最合适数据过滤规则;
步骤5.2:分别使用各数据过滤规则中的算法对所述训练数据集进行处理,获得清洗后数据矩阵Rk,并计算Rk与原始数据D的相对误差将其表示为:
式中,当1≤Num≤m时,num=Num,当m<Num≤mp,num=Num%m;m为采集所述初始数据流的传感器数目;
步骤5.3:比较相对误差的大小,令G等于获取最小相对误差的数据过滤规则类别标签,从而使数据特征-规则关联链RuCh=<Num,Fea,G>中每一数据特征Fea对应的数据过滤规则为最优,将其表示为:
式中,s为数据过滤规则库中的数据过滤规则的数目。
进一步地,所述步骤6具体为:
步骤6.1:针对构建的数据特征-规则关联链RuCh=<Num,Fea,G>中的Fea进行主成分分分析,获取解释能力更充分的低维数据Pca与特征向量矩阵P,将其表示为:
Pca={pca1,pca2,pca3,…,pcam}
P=[p1,p2,p3,…,pk]k<<m
式中,pi=[q1,q2,q3,…,qn]T,表示特征向量;
步骤6.2:使用Pca替换数据特征-规则关联链RuCh中的Fea,获得新的数据特征-规则关联链RuCh′=<Num,Pca,G>;
步骤6.3:通过随机森林算法对RuCh′=<Num,Pca,G>进行学习,获取规则匹配模型RF:
RF=rf(Pcatest,G)。
本发明同时还提供了一种基于过滤规则多级组合优化的数据流清洗方法,其特殊之处在于:
对实际输入数据先进行归一化再进行降维处理后,将处理结果输入权利要求1-5任一项所述的数据流清洗模型中,为其匹配最优的数据过滤规则对其进行数据清洗。
进一步地,对实际输入数据进行处理的方法具体为:
首先,对实际输入数据Test={t1,t2,t3,…,tm}采用所述步骤1的方法进行初步异常检测;
然后,对实际输入数据Test={t1,t2,t3,…,tm}进行主成分分析,得到转换结果PCATest
PCAtest=Test*P。
本发明还提供了一种存储介质,其特殊之处在于,所述存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求6或7所述的数据流清洗方法。
本发明还提供了一种电子设备,其特殊之处在于,所述电子设备包括:
处理器;
存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求6或7所述的数据流清洗方法。
与现有技术相比,本发明的有益效果:
本发明将数据检测、数据修复、过滤规则配置、过滤规则优化融为一体,能够为数据驱动的规则匹配模型提供可信任的数据输入;将主成分分析与随机森林算法引入规则匹配模型的构建,能够在依据输入数据特征自匹配合适数据过滤规则的同时,通过获取解释能力更强的低维数据提高自匹配精度;所设计的过滤规则库具有可重构与可拓展特点并支持对规则的复杂逻辑描述,在对清洗后数据引入质量评估与反馈后,基于过滤规则多级组合优化(包括分层级数据检测清洗、多规则匹配)的数据清洗方法能够以自学习与自适应的方式应对多场景下多源数据的处理,突破传统面向单一应用场景的数据清洗算法的局限性。
附图说明
图1是本发明方法的总体框架图。
图2是本发明方法的总体流程图。
图3是本发明的泳道图。
具体实施方式
下面结合实施例和附图对本发明作进一步详细说明。
如图1-3所示,本发明所提供的基于过滤规则多级组合优化的数据流清洗方法,目的是通过过滤规则与数据特征间的自匹配,实现面向多数据种类与多数据错误类型的数据流清洗,提高数据清洗算法的自学习与自适应能力。
具体实施步骤如下:
步骤1:数据流初步检测;
对输入的初始数据流进行初步检测,包括数据超出阈值、重复、缺失、不一致四项检测,并使用NA填补(替换)检测出的异常数据。
步骤2:训练数据集构造;
应用箱型法选取异常最少的一段原始数据D,并向原始数据D中加入不同程度的异常数据进行脏化处理,以模拟数据清洗方法应用阶段将遇到的各种数据异常问题,得到脏数据集即为训练数据集R;
具体包括以下步骤:
步骤2.1:在传感器j所采集的数据流中应用箱型法选取数据质量较高的一段数据Dj,将其表示为:
Dj={dj1,dj2,…,djt,…,djn}
式中,djt表示传感器j在时刻t采集的数据,n表示数据的总量;
步骤2.2:假设已部署m个相关或独立的传感器,则重复步骤2.1,直至构建n×m维原始数据矩阵D,将其表示为:
步骤2.3:对选定的原始数据矩阵D进行p次脏化处理,即在原始数据矩阵D中加入不同比例的噪声、缺失,从而得到n×mp维训练数据矩阵R,将其表示为:
式中,Rp(dmn)表示第p次对数据dmn脏化处理后得到的数据。
步骤2.4:为便于后续构建数据特征-规则关联链,令Num代表n×mp维训练数据矩阵中列向量R的序号,即Num∈{1,2,…,mp};
步骤3:数据特征提取;
针对输入数据,从集中趋势、离散程度、分布形态和其他特征四方面进行数据特征提取。其中,对训练数据R进行特征提取,将训练数据的特征用于在数据清洗方法训练阶段构建由数据特征与数据过滤规则组成的规则匹配模型。在实际的应用环境下,对输入的数据进行特征提取,将实际数据特征用作数据清洗方法应用阶段的输入参数,通过规则匹配模型为具有该特征的数据匹配最优数据过滤规则;
具体包括以下步骤:
步骤3.1:利用集中趋势衡量数据在总体水平向其中心聚集靠拢的程度,其测度指标主要包括算术平均数、调和平均值与加权平均值以衡量数据的集中趋势,将其表示为:
1)算术平均值
2)加权平均值
3)调和平均值
式中,xt为某一传感器在t时刻采集的数据,n为时段T内该传感器的采样次数,wt为xt在时段T内重复出现的次数;
步骤3.2:利用离散程度刻画数据总体分布的变异状况和取值差异,其测度指标主要包括极差、平均差、方差、标准差与变异系数,将其表示为:
1)极差
fea4=max(xt)-min(xt)
2)平均差
3)方差
4)标准差
5)变异系数
式中,
步骤3.3:利用分布形态反映数据总体分布的形状,如分布是否对称、尖鞘程度、峰凸程度,其测度指标主要包括偏态系数与峰态系数,将其表示为:
1)偏态系数
2)峰态系数
步骤3.4:其他特征为本发明添加的描述数据的其他测度指标,主要包括数据相关性、数据自相关性、数据量和缺失比例,将其表示为:
1)数据相关性
式中,xt为某一传感器在t时刻采集的数据,yt为另一传感器在t时刻采集的数据;为变量yt的平均值。
2)数据自相关性
fea12=cor(xt,xt-i),i=1,2,3…t
3)数据量
fea13=n
4)缺失比例
式中,fea13表示一段时间内数据流包含的数据个数,error为数据集中检测到的存在的异常点的数量;
步骤3.5:构建任一时段内数据的特征集合Fea,将其表示为:Fea={fea1,fea2,fea3,…,fea14},特征集合Fea即为提取的数据特征;
步骤4:数据过滤规则库建立;
根据所采集数据可能出现的各种质量问题及智能决策对输入数据的质量需求(如数据准确性、数据完整性、数据可靠性),选取多种合适的通用或特定领域的异常检测算法与异常修复算法,进而将用于数据流清洗的异常检测算法与异常修复算法进行逐一匹配集成,形成面向异常数据的异常检测算法-异常修复算法的数据过滤规则,多条数据过滤规则共同组成数据过滤规则库Ru;
具体包括以下步骤:
步骤4.1:本发明选用的异常检测算法主要为3倍标准差法、箱型法和基于密度的空间聚类算法(DBSCAN);3种算法的具体设定为:
1)3倍标准差法:将超过三倍标准差的数据认定为异常值。
2)箱型法:将数据进行分段处理,计算每一段的上限和下限,将超出上下限的数据划分为异常值。
3)DBSCAN:以每个数据点为中心,设定邻域半径和临近点数量的阈值,如果样本点的邻域内临近点的数量少于阈值,则设定为异常点。
步骤4.2:本发明选用的数据异常修复算法主要包括就近填补法、基于平均值的填补法、基于相关性的填补法、加权移动平均法;4种算法的具体设定为:
1)就近填补法:对于异常数据采用最近的正常数据进行填补;
2)基于平均值的填补法:对异常值采用数据整体的平均值进行填充;
3)基于相关性的填补法,主要针对具有一定相关性的数据之间的填充;
4)加权移动平均法,对缺失值采用前后正常数据的加权平均值进行填充;
步骤4.3:将选定的3种异常检测算法与4种异常修复算法逐一匹配,形成深度检测算法-异常修复算法过滤规则Ruk,k∈{1,2,…,12}。
步骤4.4:步骤4.3得到的12条数据过滤规则组成数据过滤规则库Ru,将其表示为:
Ru={Ru1,Ru2,Ru3,…,Ru12}
步骤5:数据特征-规则关联链构建;
使用规则库Ru中的12条数据过滤规则,依次对n×mp维训练数据矩阵R中的数据进行清洗,在此基础上将清洗后数据与原始数据D的相对误差作为评价指标,选取评价最高的数据过滤规则并将其写入数据特征-规则关联链;
具体包括以下步骤:
步骤5.1:构建数据特征-规则关联链,将其表示为:
RuCh=<Num,Fea,G>
式中,Num为样本序号,G为类别标签,代表对应特征集合Fea的最合适数据过滤规则;
步骤5.2:分别使用12条数据过滤规则中的算法对n×mp维训练数据矩阵R进行处理,获得n×mp维清洗后数据矩阵Rk,并计算Rk与原始数据D的相对误差将其表示为:
式中,当1≤Num≤m时,num=Num,当m<Num≤mp,num=Num%m。
步骤5.3:比较相对误差的大小,令G等于获取最小相对误差的数据过滤规则类别标签,从而使数据特征-规则关联链RuCh=<Num,Fea,G>中每一数据特征Fea对应的数据过滤规则为最优,将其表示为:
步骤6:规则匹配模型构造;
针对构建的数据特征-规则关联链,依次应用主成分分析与随机森林算法进一步学习数据特征和规则之间的匹配关系,从而构建规则匹配模型RF;
具体步骤如下:
步骤6.1:针对构建的数据特征-规则关联链RuCh=<Num,Fea,G>中的Fea={fea1,fea2,f3,…,fea14}进行主成分分分析,获取解释能力更充分的低维数据Pca与特征向量矩阵P,将其表示为:
Pca={pca1,pca2,pca3,…,pcam}
P=[p1,p2,p3,…,pk],k<<m
式中,pi=[q1,q2,q3,…,qn]T,表示特征向量;
步骤6.2:使用Pca替换数据特征-规则关联链RuCh中的Fea,获得新的数据特征-规则关联链RuCh′=<Num,Pca,G>;
步骤6.3:通过随机森林算法对RuCh′=<Num,Pca,G>进行学习,获取规则匹配模型RF,将其表示为:
RF=rf(Pcatest,G)
步骤7:数据清洗
在数据清洗方法应用阶段,应用主成分分析对实际输入数据先进行归一化然后进行降维处理,以增强数据的差异性。然后将处理结果输入步骤6建立的规则匹配模型RF为其匹配最优的数据过滤规则对其进行数据清洗;
具体包括以下步骤:
步骤7.1:对实际输入数据Test={t1,t2,t3,…,tm}执行步骤1,以完成初步异常检测;
步骤7.2:对实际输入数据Test={t1,t2,t3,…,tm}进行主成分分析,以获取转换结果PCATest,将其表示为:
PCAtest=Test*P
步骤7.3:在此基础上利用步骤6.3最终获得的规则匹配模型RF对数据所对应的规则过滤算法进行预测,为输入数据选择合适的数据过滤规则,从而完成数据清洗;
步骤8:规则匹配模型更新;
通过箱型法对清洗后数据进行质量评估,若评估结果超出所设阈值C(阈值根据对数据质量的要求设定),则重复步骤6以更新规则匹配模型;
具体方法为:
在步骤7.3执行后,利用箱型法对清洗后数据进行质量评估,若计算得到的异常值超过所设阈值C(如数据量的5%),则重复步骤6对规则匹配模型重新训练。

Claims (7)

1.基于过滤规则多级组合优化的数据流清洗模型,其特征在于:所述数据流清洗模型是按照下述方法建立的:
步骤1:数据流初步检测;
对输入的初始数据流进行初步检测,包括数据超出阈值、重复、缺失、不一致检测,并使用NA替换检测出的异常数据;
步骤2:训练数据集构造;
选取异常最少的一段原始数据D,并向原始数据D中加入不同程度的异常数据进行脏化处理,以模拟数据清洗方法应用阶段将遇到的各种数据异常问题,得到脏数据集即为训练数据集;
步骤3:数据特征提取;
从集中趋势、离散程度、分布形态和其他特征四方面,对输入的训练数据进行数据特征提取;所述其他特征包括数据相关性、数据自相关性、数据量和缺失比例;
步骤4:数据过滤规则库建立;
根据所采集数据可能出现的各种质量问题及智能决策对输入数据的质量需求,选取多种异常检测算法和异常修复算法进行自由组合、逐一匹配集成,形成面向异常数据的异常检测算法-异常修复算法的多种数据过滤规则,将其放入数据过滤规则库中;
步骤5:数据特征-规则关联链构建;
使用数据过滤规则库中的各条数据过滤规则,依次对步骤2得到的训练数据集R中的数据进行清洗,并将清洗后数据与原始数据D的相对误差作为评价指标,选取评价最高的数据过滤规则并将其写入数据特征-规则关联链;
步骤5.1:构建数据特征-规则关联链,将其表示为:
RuCh=<Num,Fea,G>
式中,Num为样本序号;Fea为步骤3提取的数据特征集合;G为类别标签,代表对应特征集合Fea的最合适数据过滤规则;
步骤5.2:分别使用各数据过滤规则中的算法对所述训练数据集进行处理,获得清洗后数据矩阵Rk,并计算Rk与原始数据D的相对误差将其表示为:
式中,当1≤Num≤m时,num=Num,当m<Num≤mp,num=Num%m;m为采集所述初始数据流的传感器数目;
步骤5.3:比较相对误差的大小,令G等于获取最小相对误差的数据过滤规则类别标签,从而使数据特征-规则关联链RuCh=<Num,Fea,G>中每一数据特征Fea对应的数据过滤规则为最优,将其表示为:
式中,s为数据过滤规则库中的数据过滤规则的数目;
步骤6:规则匹配模型构造;
针对构建的数据特征-规则关联链,进一步学习数据特征和规则之间的匹配关系,构建规则匹配模型,该规则匹配模型即为所述数据流清洗模型;
步骤6.1:针对构建的数据特征-规则关联链RuCh=<Num,Fea,G>中的Fea进行主成分分分析,获取解释能力更充分的低维数据Pca与特征向量矩阵P,将其表示为:
Pca={pca1,pca2,pca3,…,pcam}
P=[p1,p2,p3,…,pk]k<<m
式中,pi=[q1,q2,q3,…,qn]T,表示特征向量;
步骤6.2:使用Pca替换数据特征-规则关联链RuCh中的Fea,获得新的数据特征-规则关联链RuCh′=<Num,Pca,G>;
步骤6.3:通过随机森林算法对RuCh′=<Num,Pca,G>进行学习,获取规则匹配模型RF:
RF=rf(Pcatest,G)。
2.根据权利要求1所述的数据流清洗模型,其特征在于,还包括步骤7:利用所述数据清洗模型对实际输入数据进行清洗后的数据进行质量评估,若评估结果超出所设阈值,则重复步骤6以更新所述数据流清洗模型。
3.根据权利要求1或2所述的数据流清洗模型,其特征在于,所述步骤4中:
异常检测算法包括3倍标准差法、箱型法和基于密度的空间聚类算法;
异常修复算法包括就近填补法、基于平均值的填补法、基于相关性的填补法和加权移动平均法。
4.一种基于过滤规则多级组合优化的数据流清洗方法,其特征在于:
对实际输入数据先进行归一化再进行降维处理后,将处理结果输入权利要求1-3任一项所述的数据流清洗模型中,为其匹配最优的数据过滤规则对其进行数据清洗。
5.根据权利要求4所述的数据流清洗方法,其特征在于,对实际输入数据进行处理的方法具体为:
首先,对实际输入数据Test={t1,t2,t3,…,tm}采用所述步骤1的方法进行初步异常检测;
然后,对实际输入数据Test={t1,t2,t3,…,tm}进行主成分分析,得到转换结果PCATest
PCAtest=Test*P。
6.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求4或5所述的数据流清洗方法。
7.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如权利要求4或5所述的数据流清洗方法。
CN202210454916.9A 2022-04-27 2022-04-27 基于过滤规则多级组合优化的工业数据流清洗模型和方法 Active CN114896228B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210454916.9A CN114896228B (zh) 2022-04-27 2022-04-27 基于过滤规则多级组合优化的工业数据流清洗模型和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210454916.9A CN114896228B (zh) 2022-04-27 2022-04-27 基于过滤规则多级组合优化的工业数据流清洗模型和方法

Publications (2)

Publication Number Publication Date
CN114896228A CN114896228A (zh) 2022-08-12
CN114896228B true CN114896228B (zh) 2024-04-05

Family

ID=82719287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210454916.9A Active CN114896228B (zh) 2022-04-27 2022-04-27 基于过滤规则多级组合优化的工业数据流清洗模型和方法

Country Status (1)

Country Link
CN (1) CN114896228B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116775639A (zh) * 2023-08-08 2023-09-19 阿里巴巴(中国)有限公司 数据处理方法、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728689B1 (en) * 2000-11-14 2004-04-27 International Business Machines Corporation Method and apparatus for generating a data classification model using interactive adaptive learning algorithms
CN101930461A (zh) * 2010-08-20 2010-12-29 郑茂 通信网络的数字图像可视化管理和检索
CN104346442A (zh) * 2014-10-14 2015-02-11 济南大学 一种面向流程对象数据的规则提取方法
CN108647808A (zh) * 2018-04-11 2018-10-12 济南大学 一种生产参数优化预测方法、装置、设备及存储介质
CN110135740A (zh) * 2019-05-20 2019-08-16 济南大学 面向燃煤锅炉流程对象的实时知识发现方法及系统
CN110543903A (zh) * 2019-08-23 2019-12-06 国网江苏省电力有限公司电力科学研究院 一种gis局部放电大数据系统的数据清洗方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728689B1 (en) * 2000-11-14 2004-04-27 International Business Machines Corporation Method and apparatus for generating a data classification model using interactive adaptive learning algorithms
CN101930461A (zh) * 2010-08-20 2010-12-29 郑茂 通信网络的数字图像可视化管理和检索
CN104346442A (zh) * 2014-10-14 2015-02-11 济南大学 一种面向流程对象数据的规则提取方法
CN108647808A (zh) * 2018-04-11 2018-10-12 济南大学 一种生产参数优化预测方法、装置、设备及存储介质
CN110135740A (zh) * 2019-05-20 2019-08-16 济南大学 面向燃煤锅炉流程对象的实时知识发现方法及系统
CN110543903A (zh) * 2019-08-23 2019-12-06 国网江苏省电力有限公司电力科学研究院 一种gis局部放电大数据系统的数据清洗方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于数据增强和模型更新的异常流量检测技术;张浩;陈龙;魏志强;;信息网络安全;20200210(第02期);全文 *
网络传输态势感知的研究与实现;卓莹;龚春叶;龚正虎;;通信学报;20100925(第09期);全文 *

Also Published As

Publication number Publication date
CN114896228A (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
CN108334936B (zh) 基于迁移卷积神经网络的故障预测方法
Harvey et al. Automated feature design for numeric sequence classification by genetic programming
CN111666169B (zh) 一种基于改进的孤立森林算法和高斯分布的联合数据异常检测方法
CN110929029A (zh) 一种基于图卷积神经网络的文本分类方法及系统
EP2614470B1 (en) Method for providing with a score an object, and decision-support system
CN111899254A (zh) 基于半监督学习自动标注工业产品外观缺陷图像的方法
CN108399434B (zh) 基于特征提取的高维时间序列数据的分析预测方法
CN114841257A (zh) 一种基于自监督对比约束下的小样本目标检测方法
Bodyanskiy Computational intelligence techniques for data analysis
CN114896228B (zh) 基于过滤规则多级组合优化的工业数据流清洗模型和方法
Yang et al. A fuzzy-soft learning vector quantization for control chart pattern recognition
CN115587543A (zh) 基于联邦学习和lstm的刀具剩余寿命预测方法及系统
CN115021679A (zh) 一种基于多维离群点检测的光伏设备故障检测方法
CN108665001B (zh) 一种基于深度置信网络的跨被试空闲态检测方法
CN115147341A (zh) 一种基于生物视觉启发的织物表面缺陷分类深度网络方法
CN109934352B (zh) 智能模型的自动进化方法
CN108898157B (zh) 基于卷积神经网络的数值型数据的雷达图表示的分类方法
CN116400168A (zh) 一种基于深度特征聚类的电网故障诊断方法及系统
CN113469977B (zh) 一种基于蒸馏学习机制的瑕疵检测装置、方法、存储介质
CN114298164A (zh) 基于klms算法和趋势滤波的自适应故障预测方法
Vera et al. A bio-inspired computational high-precision dental milling system
CN116391193A (zh) 以基于能量的潜变量模型为基础的神经网络的方法和设备
CN117668701B (zh) Ai人工智能机器学习系统及方法
Khotimah et al. Adaptive SOMMI (Self Organizing Map Multiple Imputation) base on Variation Weight for Incomplete Data
Glandorf et al. HyperSparse Neural Networks: Shifting Exploration to Exploitation through Adaptive Regularization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant