CN114896228B

CN114896228B - 基于过滤规则多级组合优化的工业数据流清洗模型和方法

Info

Publication number: CN114896228B
Application number: CN202210454916.9A
Authority: CN
Inventors: 张映锋; 张�诚; 张党; 刘佳杰
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2024-04-05
Anticipated expiration: 2042-04-27
Also published as: CN114896228A

Abstract

为解决数据流清洗算法适用的数据类型单一以及难以动态优化以适应外部环境变化的技术问题，本发明提出了一种基于过滤规则多级组合优化的工业数据流清洗模型和方法，将数据检测、修复、过滤规则配置、过滤规则优化融为一体，能够为规则匹配模型提供可信任的数据输入；将主成分分析与随机森林算法引入规则匹配模型的构建，能在依据输入数据特征自匹配合适数据过滤规则的同时，通过获取解释能力更强的低维数据提高自匹配精度；所设计的过滤规则库具有可重构与可拓展特点并支持对规则的复杂逻辑描述，在对清洗后数据引入质量评估与反馈后，能够以自学习与自适应的方式应对多场景下多源数据的处理，突破传统面向单一应用场景的数据清洗算法的局限性。

Description

基于过滤规则多级组合优化的工业数据流清洗模型和方法

技术领域

本发明涉及一种数据流清洗模型、方法、存储介质和电子设备，能够实现对脏数据流的自学习、自匹配式的检测和修复，从而提高数据的准确性和可信性。

背景技术

先进传感技术、物联技术、人工智能技术在驱动工业领域向“多维度、透明化、泛在感知”全新模式转变的同时，对智能决策所输入数据的质量与效率提出了更高的需求。但随机外部扰动等问题常导致所采集的数据存在缺失、噪声、重复等质量问题，大量研究表明数据质量异常将严重影响决策与分析的可靠性及正确性。因此数据清洗已成为数据仓库领域、数据挖掘领域以及数据质量管理领域一项关键研究内容。

近年来，在数据清洗方面的研究主要有：

江苏满运软件科技有限公司公开的发明专利《数据清洗方法、系统、存储介质及电子设备》(201811627786.4)，通过选择数据源的目标源表，确定数据来源并进行数据清洗，降低数据同步的出错率。

武汉理工光科股份有限公司公开的发明专利《一种多级平台间数据清洗与同步方法及系统》(202010784073.X)，通过多级平台对数据进行多层次性的清洗，确保数据的可靠性和有效性。

蔚来汽车有限公司公开的发明专利《脏数据识别方法及装置、数据清洗方法及装置、控制器》(201810737680.3)，提出了一种脏数据识别和清理方法，首先提取领域规则库，然后通过多重判别规则对脏数据进行识别和清洗。

大连海事大学公开的发明专利《一种面向海洋数据流的数据清洗方法和系统》(201910432271.7)，对实时数据流进行有限的一体式异常点检测、异常点修复和缺失值填补。

东北电力大学公开的发明专利《一种基于关联规则的电网设备数据流清洗方法》(201910475890.4)，基于关联规则对电网设备数据流进行清洗，将多种小波基函数的神经网络应用到数据清洗中，完成组合预测。

上述研究和发明创造在数据流清洗的自动化与实时性等方面已发挥一定的推动作用，但仍存在以下问题：

1)数据流清洗过程中仅针对特定类型的数据错误进行检测与修复，无法以自匹配方式有效应对数据种类与数据错误类型多样的应用场景；

2)数据清洗过程中无法实现基于实时数据的清洗算法自学习与自适应。

发明内容

为解决数据流清洗算法适用的数据类型单一以及难以动态优化以适应外部环境变化的技术问题，本发明提出了一种基于过滤规则多级组合优化的数据流清洗模型、方法、存储介质和电子设备，目的是通过过滤规则与数据特征间的自匹配，实现面向多数据种类与多数据错误类型的数据清洗，提高数据清洗算法的自学习与自适应能力。

本发明的技术方案是：

基于过滤规则多级组合优化的数据流清洗模型，其特殊之处在于：所述数据流清洗模型是按照下述方法建立的：

步骤1：数据流初步检测；

对输入的初始数据流进行初步检测，包括数据超出阈值、重复、缺失、不一致检测，并使用NA替换检测出的异常数据；

步骤2：训练数据集构造；

选取异常最少的一段原始数据D，并向原始数据D中加入不同程度的异常数据进行脏化处理，以模拟数据清洗方法应用阶段将遇到的各种数据异常问题，得到脏数据集即为训练数据集；

步骤3：数据特征提取；

从集中趋势、离散程度、分布形态和其他特征四方面，对输入的训练数据进行数据特征提取；所述其他特征包括数据相关性、数据自相关性、数据量和缺失比例；

步骤4：数据过滤规则库建立；

根据所采集数据可能出现的各种质量问题及智能决策对输入数据的质量需求，选取多种异常检测算法和异常修复算法进行自由组合、逐一匹配集成，形成面向异常数据的异常检测算法-异常修复算法的多种数据过滤规则，将其放入数据过滤规则库中；

步骤5：数据特征-规则关联链构建；

使用数据过滤规则库中的各条数据过滤规则，依次对步骤2得到的训练数据集R中的数据进行清洗，并将清洗后数据与原始数据D的相对误差作为评价指标，选取评价最高的数据过滤规则并将其写入数据特征-规则关联链；

步骤6：规则匹配模型构造；

针对构建的数据特征-规则关联链，进一步学习数据特征和规则之间的匹配关系，构建规则匹配模型，该规则匹配模型即为所述数据流清洗模型。

进一步地，还包括步骤7：利用所述数据清洗模型对实际输入数据进行清洗后的数据进行质量评估，若评估结果超出所设阈值，则重复步骤6以更新所述数据流清洗模型。

进一步地，所述步骤4中：

异常检测算法包括3倍标准差法、箱型法和基于密度的空间聚类算法；

异常修复算法包括就近填补法、基于平均值的填补法、基于相关性的填补法和加权移动平均法。

进一步地，所述步骤5具体为：

步骤5.1：构建数据特征-规则关联链，将其表示为：

RuCh＝<Num,Fea,G>

式中，Num为样本序号；Fea为步骤3提取的数据特征集合；G为类别标签，代表对应特征集合Fea的最合适数据过滤规则；

步骤5.2：分别使用各数据过滤规则中的算法对所述训练数据集进行处理，获得清洗后数据矩阵R^k，并计算R^k与原始数据D的相对误差将其表示为：

式中，当1≤Num≤m时，num＝Num，当m<Num≤mp，num＝Num％m；m为采集所述初始数据流的传感器数目；

步骤5.3：比较相对误差的大小，令G等于获取最小相对误差的数据过滤规则类别标签，从而使数据特征-规则关联链RuCh＝<Num,Fea,G>中每一数据特征Fea对应的数据过滤规则为最优，将其表示为：

式中，s为数据过滤规则库中的数据过滤规则的数目。

进一步地，所述步骤6具体为：

步骤6.1：针对构建的数据特征-规则关联链RuCh＝<Num,Fea,G>中的Fea进行主成分分分析，获取解释能力更充分的低维数据Pca与特征向量矩阵P，将其表示为：

Pca＝{pca₁,pca₂,pca₃,…,pca_m}

P＝[p₁,p₂,p₃,…,p_k]k＜＜m

式中，p_i＝[q₁,q₂,q₃,…,q_n]^T，表示特征向量；

步骤6.2：使用Pca替换数据特征-规则关联链RuCh中的Fea，获得新的数据特征-规则关联链RuCh′＝<Num,Pca,G>；

步骤6.3：通过随机森林算法对RuCh′＝<Num,Pca,G>进行学习，获取规则匹配模型RF：

RF＝rf(Pca_test,G)。

本发明同时还提供了一种基于过滤规则多级组合优化的数据流清洗方法，其特殊之处在于：

对实际输入数据先进行归一化再进行降维处理后，将处理结果输入权利要求1-5任一项所述的数据流清洗模型中，为其匹配最优的数据过滤规则对其进行数据清洗。

进一步地，对实际输入数据进行处理的方法具体为：

首先，对实际输入数据Test＝{t₁,t₂,t₃,…,t_m}采用所述步骤1的方法进行初步异常检测；

然后，对实际输入数据Test＝{t₁,t₂,t₃,…,t_m}进行主成分分析，得到转换结果PCA_Test：

PCA_test＝Test*P。

本发明还提供了一种存储介质，其特殊之处在于，所述存储介质上存储有计算机程序，所述计算机程序被所述处理器运行时执行如权利要求6或7所述的数据流清洗方法。

本发明还提供了一种电子设备，其特殊之处在于，所述电子设备包括：

处理器；

存储介质，其上存储有计算机程序，所述计算机程序被所述处理器运行时执行如权利要求6或7所述的数据流清洗方法。

与现有技术相比，本发明的有益效果：

本发明将数据检测、数据修复、过滤规则配置、过滤规则优化融为一体，能够为数据驱动的规则匹配模型提供可信任的数据输入；将主成分分析与随机森林算法引入规则匹配模型的构建，能够在依据输入数据特征自匹配合适数据过滤规则的同时，通过获取解释能力更强的低维数据提高自匹配精度；所设计的过滤规则库具有可重构与可拓展特点并支持对规则的复杂逻辑描述，在对清洗后数据引入质量评估与反馈后，基于过滤规则多级组合优化(包括分层级数据检测清洗、多规则匹配)的数据清洗方法能够以自学习与自适应的方式应对多场景下多源数据的处理，突破传统面向单一应用场景的数据清洗算法的局限性。

附图说明

图1是本发明方法的总体框架图。

图2是本发明方法的总体流程图。

图3是本发明的泳道图。

具体实施方式

下面结合实施例和附图对本发明作进一步详细说明。

如图1-3所示，本发明所提供的基于过滤规则多级组合优化的数据流清洗方法，目的是通过过滤规则与数据特征间的自匹配，实现面向多数据种类与多数据错误类型的数据流清洗，提高数据清洗算法的自学习与自适应能力。

具体实施步骤如下：

步骤1：数据流初步检测；

对输入的初始数据流进行初步检测，包括数据超出阈值、重复、缺失、不一致四项检测，并使用NA填补(替换)检测出的异常数据。

步骤2：训练数据集构造；

应用箱型法选取异常最少的一段原始数据D，并向原始数据D中加入不同程度的异常数据进行脏化处理，以模拟数据清洗方法应用阶段将遇到的各种数据异常问题，得到脏数据集即为训练数据集R；

具体包括以下步骤：

步骤2.1：在传感器j所采集的数据流中应用箱型法选取数据质量较高的一段数据D_j，将其表示为：

D_j＝{d_j1,d_j2,…,d_jt,…,d_jn}

式中，d_jt表示传感器j在时刻t采集的数据，n表示数据的总量；

步骤2.2：假设已部署m个相关或独立的传感器，则重复步骤2.1，直至构建n×m维原始数据矩阵D，将其表示为：

步骤2.3：对选定的原始数据矩阵D进行p次脏化处理，即在原始数据矩阵D中加入不同比例的噪声、缺失，从而得到n×mp维训练数据矩阵R，将其表示为：

式中，R_p(d_mn)表示第p次对数据d_mn脏化处理后得到的数据。

步骤2.4：为便于后续构建数据特征-规则关联链，令Num代表n×mp维训练数据矩阵中列向量R的序号，即Num∈{1,2,…,mp}；

步骤3：数据特征提取；

针对输入数据，从集中趋势、离散程度、分布形态和其他特征四方面进行数据特征提取。其中，对训练数据R进行特征提取，将训练数据的特征用于在数据清洗方法训练阶段构建由数据特征与数据过滤规则组成的规则匹配模型。在实际的应用环境下，对输入的数据进行特征提取，将实际数据特征用作数据清洗方法应用阶段的输入参数，通过规则匹配模型为具有该特征的数据匹配最优数据过滤规则；

具体包括以下步骤：

步骤3.1：利用集中趋势衡量数据在总体水平向其中心聚集靠拢的程度，其测度指标主要包括算术平均数、调和平均值与加权平均值以衡量数据的集中趋势，将其表示为：

1)算术平均值

2)加权平均值

3)调和平均值

式中，x_t为某一传感器在t时刻采集的数据，n为时段T内该传感器的采样次数，w_t为x_t在时段T内重复出现的次数；

步骤3.2：利用离散程度刻画数据总体分布的变异状况和取值差异，其测度指标主要包括极差、平均差、方差、标准差与变异系数，将其表示为：

1)极差

fea₄＝max(x_t)-min(x_t)

2)平均差

3)方差

4)标准差

5)变异系数

式中，

步骤3.3：利用分布形态反映数据总体分布的形状，如分布是否对称、尖鞘程度、峰凸程度，其测度指标主要包括偏态系数与峰态系数，将其表示为：

1)偏态系数

2)峰态系数

步骤3.4：其他特征为本发明添加的描述数据的其他测度指标，主要包括数据相关性、数据自相关性、数据量和缺失比例，将其表示为：

1)数据相关性

式中，x_t为某一传感器在t时刻采集的数据，y_t为另一传感器在t时刻采集的数据；为变量y_t的平均值。

2)数据自相关性

fea₁₂＝cor(x_t,x_t-i)，i＝1,2,3…t

3)数据量

fea₁₃＝n

4)缺失比例

式中，fea₁₃表示一段时间内数据流包含的数据个数，error为数据集中检测到的存在的异常点的数量；

步骤3.5：构建任一时段内数据的特征集合Fea，将其表示为：Fea＝{fea₁,fea₂,fea₃,…,fea₁₄}，特征集合Fea即为提取的数据特征；

步骤4：数据过滤规则库建立；

根据所采集数据可能出现的各种质量问题及智能决策对输入数据的质量需求(如数据准确性、数据完整性、数据可靠性)，选取多种合适的通用或特定领域的异常检测算法与异常修复算法，进而将用于数据流清洗的异常检测算法与异常修复算法进行逐一匹配集成，形成面向异常数据的异常检测算法-异常修复算法的数据过滤规则，多条数据过滤规则共同组成数据过滤规则库Ru；

具体包括以下步骤：

步骤4.1：本发明选用的异常检测算法主要为3倍标准差法、箱型法和基于密度的空间聚类算法(DBSCAN)；3种算法的具体设定为：

1)3倍标准差法：将超过三倍标准差的数据认定为异常值。

2)箱型法：将数据进行分段处理，计算每一段的上限和下限，将超出上下限的数据划分为异常值。

3)DBSCAN：以每个数据点为中心，设定邻域半径和临近点数量的阈值，如果样本点的邻域内临近点的数量少于阈值，则设定为异常点。

步骤4.2：本发明选用的数据异常修复算法主要包括就近填补法、基于平均值的填补法、基于相关性的填补法、加权移动平均法；4种算法的具体设定为：

1)就近填补法：对于异常数据采用最近的正常数据进行填补；

2)基于平均值的填补法：对异常值采用数据整体的平均值进行填充；

3)基于相关性的填补法，主要针对具有一定相关性的数据之间的填充；

4)加权移动平均法，对缺失值采用前后正常数据的加权平均值进行填充；

步骤4.3：将选定的3种异常检测算法与4种异常修复算法逐一匹配，形成深度检测算法-异常修复算法过滤规则Ru_k，k∈{1,2,…,12}。

步骤4.4：步骤4.3得到的12条数据过滤规则组成数据过滤规则库Ru，将其表示为：

Ru＝{Ru₁,Ru₂,Ru₃,…,Ru₁₂}

步骤5：数据特征-规则关联链构建；

使用规则库Ru中的12条数据过滤规则，依次对n×mp维训练数据矩阵R中的数据进行清洗，在此基础上将清洗后数据与原始数据D的相对误差作为评价指标，选取评价最高的数据过滤规则并将其写入数据特征-规则关联链；

具体包括以下步骤：

步骤5.1：构建数据特征-规则关联链，将其表示为：

RuCh＝<Num,Fea,G>

式中，Num为样本序号，G为类别标签，代表对应特征集合Fea的最合适数据过滤规则；

步骤5.2：分别使用12条数据过滤规则中的算法对n×mp维训练数据矩阵R进行处理，获得n×mp维清洗后数据矩阵R^k，并计算R^k与原始数据D的相对误差将其表示为：

式中，当1≤Num≤m时，num＝Num，当m<Num≤mp，num＝Num％m。

步骤6：规则匹配模型构造；

针对构建的数据特征-规则关联链，依次应用主成分分析与随机森林算法进一步学习数据特征和规则之间的匹配关系，从而构建规则匹配模型RF；

具体步骤如下：

步骤6.1：针对构建的数据特征-规则关联链RuCh＝<Num,Fea,G>中的Fea＝{fea₁,fea₂,f₃,…,fea₁₄}进行主成分分分析，获取解释能力更充分的低维数据Pca与特征向量矩阵P，将其表示为：

Pca＝{pca₁,pca₂,pca₃,…,pca_m}

P＝[p₁,p₂,p₃,…,p_k],k＜＜m

式中，p_i＝[q₁,q₂,q₃,…,q_n]^T，表示特征向量；

步骤6.3：通过随机森林算法对RuCh′＝<Num,Pca,G>进行学习，获取规则匹配模型RF，将其表示为：

RF＝rf(Pca_test,G)

步骤7：数据清洗

在数据清洗方法应用阶段，应用主成分分析对实际输入数据先进行归一化然后进行降维处理，以增强数据的差异性。然后将处理结果输入步骤6建立的规则匹配模型RF为其匹配最优的数据过滤规则对其进行数据清洗；

具体包括以下步骤：

步骤7.1：对实际输入数据Test＝{t₁,t₂,t₃,…,t_m}执行步骤1，以完成初步异常检测；

步骤7.2：对实际输入数据Test＝{t₁,t₂,t₃,…,t_m}进行主成分分析，以获取转换结果PCA_Test，将其表示为：

PCA_test＝Test*P

步骤7.3：在此基础上利用步骤6.3最终获得的规则匹配模型RF对数据所对应的规则过滤算法进行预测，为输入数据选择合适的数据过滤规则，从而完成数据清洗；

步骤8：规则匹配模型更新；

通过箱型法对清洗后数据进行质量评估，若评估结果超出所设阈值C(阈值根据对数据质量的要求设定)，则重复步骤6以更新规则匹配模型；

具体方法为：

在步骤7.3执行后，利用箱型法对清洗后数据进行质量评估，若计算得到的异常值超过所设阈值C(如数据量的5％)，则重复步骤6对规则匹配模型重新训练。

Claims

1.基于过滤规则多级组合优化的数据流清洗模型，其特征在于：所述数据流清洗模型是按照下述方法建立的：

步骤1：数据流初步检测；

步骤2：训练数据集构造；

步骤3：数据特征提取；

步骤4：数据过滤规则库建立；

步骤5：数据特征-规则关联链构建；

步骤5.1：构建数据特征-规则关联链，将其表示为：

RuCh＝<Num,Fea,G>

式中，s为数据过滤规则库中的数据过滤规则的数目；

步骤6：规则匹配模型构造；

针对构建的数据特征-规则关联链，进一步学习数据特征和规则之间的匹配关系，构建规则匹配模型，该规则匹配模型即为所述数据流清洗模型；

Pca＝{pca₁,pca₂,pca₃,…,pca_m}

P＝[p₁,p₂,p₃,…,p_k]k＜＜m

式中，p_i＝[q₁,q₂,q₃,…,q_n]^T，表示特征向量；

RF＝rf(Pca_test,G)。

2.根据权利要求1所述的数据流清洗模型，其特征在于，还包括步骤7：利用所述数据清洗模型对实际输入数据进行清洗后的数据进行质量评估，若评估结果超出所设阈值，则重复步骤6以更新所述数据流清洗模型。

3.根据权利要求1或2所述的数据流清洗模型，其特征在于，所述步骤4中：

4.一种基于过滤规则多级组合优化的数据流清洗方法，其特征在于：

对实际输入数据先进行归一化再进行降维处理后，将处理结果输入权利要求1-3任一项所述的数据流清洗模型中，为其匹配最优的数据过滤规则对其进行数据清洗。

5.根据权利要求4所述的数据流清洗方法，其特征在于，对实际输入数据进行处理的方法具体为：

PCA_test＝Test*P。

6.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被所述处理器运行时执行如权利要求4或5所述的数据流清洗方法。

7.一种电子设备，其特征在于，所述电子设备包括：

处理器；

存储介质，其上存储有计算机程序，所述计算机程序被所述处理器运行时执行如权利要求4或5所述的数据流清洗方法。