CN110414079A

CN110414079A - 一种具有因果关系的不一致数据处理方法

Info

Publication number: CN110414079A
Application number: CN201910610569.2A
Authority: CN
Inventors: 邓建新; 单路宝; 唐锐; 叶志兴; 贺德强; 李先旺
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-11-05

Abstract

本发明公开了一种具有因果关系的不一致数据处理方法，属于数据处理技术应用领域，针对具有因果关系的数据，面对不同来源的具有相同属性的多维数据其原因数据不同，结果数据也不同的不一致情况，提出首先对不一致性进行判断，然后对真正不一致数据进行处理的方法。该方法利用偏最小二乘法建立多因变量对多自变量的回归模型，然后利用自适应变异的粒子群优化算法来求解最优的值，进而实现不一致数据的处理。该方法能够有效解决神经网络等黑箱模型不直观、数据量要求大的缺点，同时，也为数据质量优化和数据预处理提供了一种新方法，在数据驱动服务应用、大数据领域的数据预处理等方面都有市场前景。

Description

一种具有因果关系的不一致数据处理方法

技术领域

本发明涉及数据处理领域，尤其涉及一种具有因果关系的不一致数据处理方法。

背景技术

随着信息处理技术的不断发展，各行各业已建立了很多的计算机信息系统，也积累了大量的数据，导致数据已然成为非常核心和不可或缺的战略资源，准确而又可靠的数据可以为制定正确的方针决策奠定扎实的基础。但数据质量很大程度影响数据处理应用，数据质量不高会导致数据不能有效的被利用。其中，不一致数据是最典型的数据质量，改善不一致性数据对于为提高数据可用性，确保大规模数据的正常使用有着十分重要的意义。

现有不一致数据处理方法主要有：基于删除的修复方法，基于数据依赖的修复方法以及消除冲突的方法。而以上方法均有所缺陷，首先，基于删除的修复方法会造成很多有效信息的丢失，甚至有可能会带来新的不一致数据；其次，基于数据依赖的修复方法很难找出数据间的依赖关系，并且计算特别复杂；最后，现有的冲突消除的方法只能对特定的应用进行冲突消解，很难适应于复杂的不同的应用场景，并且效率与准确度，稳定性与拓展性都不够。

发明内容

本发明的目的在于提供一种具有因果关系的不一致数据处理方法，以解决现有的冲突消除的方法只能对特定的应用进行冲突消解，很难适应于复杂的不同的应用场景，并且效率与准确度，稳定性与拓展性都不够的技术问题。

一种具有因果关系的不一致数据处理方法，所述方法包括如下步骤：

步骤1：将n个不同来源的有相同属性的多维具有因果关系的数据集组成的样本形成矩阵，n是正整数，矩阵的行代表数据样本，列代表数据维度，同时将矩阵中n个不同来源的数据进行两两组合，得到组合数据；

步骤2：分别对每个组合数据进行不一致判断；

步骤3：如果判断结果是所有组合均是不一致的，则认为所有来源的数据均是不一致的，需要进行不一致处理；如果判断结果是所有组合均是一致的，则认为所有来源的数据均是一致的，不必进行不一致处理；否则，则认为所有来源的数据存在不一致的情况，需要进行不一致处理；

步骤4：如果判断结果为不一致，则合并所有数据样本来建立偏最小二乘法(Partial Least Squares，PLS)回归模型，并利用粒子群优化算法(Particle SwarmOptimization，PSO)优化算法来求解最优的值，进而完成不一致情况的处理。

进一步地，所述步骤2的具体过程为：

步骤2.1：选择任一来源的数据，利用PLS回归建模方法建立性q个因变量对p个自变量的回归模型；

步骤2.2：计算因变量的模型拟合值与实际值之间的相对误差，并找出每个因变量中的最大相对误差记为ε_i(i＝1,2,…,q)；

步骤2.3：计算出每个因变量相对误差的标准差为σ_i(i＝1,2,…,q)，并将ε_i与3σ_i中较大的值记为ξ_i(i＝1,2,…,q)；

步骤2.4：将另一来源的数据的自变量代入上述回归模型，得到相应因变量的预测值，并计算出因变量预测值与实际值之间的相对误差ε_i'(i＝1,2,…,q)，如果每一个数据样本均存在ε_i′＞ξ_i的情况，则认为两个来源的数据均不一致，需要进行不一致处理；如果每一个数据样本均不存在ε_i′＞ξ_i的情况，则认为两个来源的数据均一致，不必进行不一致处理；否则，则认为两个来源的数据存在不一致的情况，需要进行不一致处理。

进一步地，所述步骤4中建立PLS回归模型的具体过程为：

步骤4.1：定义自变量矩阵为X＝(x_ij)_n×p，定义因变量矩阵为Y＝(y_ij)_n×q，将每个样本减去维度变量的均值除以该维度的标准差来进行标准化，定义自变量矩阵X标准化处理后的矩阵为E₀＝(e_ij)_n×p，因变量矩阵Y标准化处理后的矩阵为F₀＝(f_ij)_n×q；

步骤4.2：求矩阵E₀ ^TF₀F₀ ^TE₀最大特征值所对应的单位特征向量w₁＝(w₁₁,w₁₂,…,w_1p)^T，求得第一轮成分t₁＝w₁₁x₁+w₁₂x₂+…+w_1px_p的得分向量即有E₀和F₀对t₁的回归模型为：

其中，α₁＝(α₁₁,α₁₂,…,α_1p)^T，β₁＝(β₁₁,β₁₂…,β_1q)^T为两个回归方程的模型效应载荷，可用式(2)来表示；E₁和F₁为残差矩阵；

步骤4.3：求矩阵E₁ ^TF₀F₀ ^TE₁最大特征值所对应的单位特征向量w₂＝(w₂₁,w₂₂,…,w_2p)^T，求得第二轮成分t₂＝w₂₁x₁+w₂₂x₂+…+w_2px_p的得分向量回归方程为：

其中，

步骤4.4：通过交叉有效性检验来确定模型是否达到精度要求；

步骤4.5：假设最终有r个成分t₁,t₂,…,t_r使得模型精度达到要求，有

将代入式(7)，得到因变量标准化矩阵F₀对自变量标准化矩阵E₀的偏最小二乘回归方程，如下：

F₀＝E₀w₁ ^*β₁ ^T+…+E₀w_r ^*β_r ^T+F_r (8)

其中，

即q个原始因变量对p个自变量的偏最小二乘回归方程为：

其中，和S_xi分别为自变量矩阵X的第i列数据的均值和标准差，和S_yj分别为因变量矩阵Y的第j列数据的均值和标准差。

进一步地，所述步骤4.4的具体过程为：

步骤4.4.1：去掉第i(i＝1,2,…,n)个样本，用余下的n-1个样本在提取h个主成分下拟合回归方程，然后将去掉的第i个样本代入该回归方程，得到预测值对i＝1,2,…,n重复以上验证，得到提取h个主成分时因变量矩阵Y的预测误差平方和为：

步骤4.4.2：用所有的样本在提取h个主成分下拟合回归方程，定义第i个样本的预测值为得到因变量矩阵Y的误差平方和为：

步骤4.4.3：在提取主成分时，比值SSE(h)/SS(h-1)越小越好，设定限定值为0.05，即当时，增加新的成分有利于模型精度的提高，定义交叉有效性为

在建模的每一步计算结束之前，均要进行交叉性检验，若Q_h ²＜1-0.95²＝0.0975，则表示模型精度达到要求，可以停止提取成分；若Q_h ²≥0.0975，表示模型精度未达到要求，应继续提取成分。

进一步地，所述步骤4中并利用PSO优化算法来求解最优的值的具体过程为：

步骤4.6：以q个因变量之和为目标，以p个自变量作为优化变量，通过已建立的PLS回归模型，利用自适应变异的PSO算法的寻优功能，来求解最终的最优值。

进一步地，所述步骤4.6中的优化过程，

步骤4.6.1：初始化，设定惯性权重w，加速因子c₁和c₂，自适应变异概率P_m，最大迭代次数和粒子的速度区间[-V_max,V_max]，自变量的变化范围如式(10)所示，在可行解空间中随机初始化m个粒子的位置和速度；

x_j∈[min(x_ij),max(x_ij)](1≤i≤n,1≤j≤p) (10)

步骤4.6.2：计算适应度值，根据式(11)所示的适应度函数计算每个粒子的适应度值，并找出个体极值Pbest和群体极值Gbest，第k个粒子的速度为V_k＝(V_k1,V_k2,…,V_kp)^T，其个体极值为P_k＝(P_k1,P_k2,…,P_kp)^T，种群的全局极值为P_g＝(P_g1,P_g2,…,P_gp)^T，

F(x)＝y₁+y₂+…y_q (11)

步骤4.6.3：粒子的速度和位置更新，按照更新公式(12)和(13)更新粒子的速度和位置，产生新种群：

V_ij ^l+1＝wV_ij ^l+c₁r₁(P_ij ^l-x_ij ^l)+c₂r₂(P_gj ^l-x_ij ^l) (12)

x_ij ^l+1＝x_ij ^l+V_ij ^l+1 (13)

式中，i＝1,2,…,m；j＝1,2,…,p，l为当前的迭代次数，V_ij为粒子的速度，r₁和r₂为分布于[0,1]之间的随机数；

步骤4.6.4：自适应变异，新种群中的粒子根据自适应变异概率P_m，某个粒子的某些变量发生变异，形成新的粒子；

步骤4.6.5：个体极值和群体极值更新，比较粒子的适应度值和自身极值Pbest，如果当前粒子适应度值比Pbest更优，则更新Pbest为当前粒子所在的位置；比较粒子的适应度值和种群极值，如果当前粒子适应度值比Gbest更优，则更新Gbest为当前粒子所在位置；

步骤4.6.6：若寻优达到最大迭代次数，则结束寻优。

本发明采用了上述技术方案，本发明具有以下技术效果：

本发明利用偏最小二乘法建立多因变量对多自变量的回归模型，然后利用自适应变异的粒子群优化算法来求解最优的值，进而实现不一致数据的处理。该方法能够有效解决神经网络等黑箱模型不直观、数据量要求大的缺点，同时，也为数据质量优化和数据预处理提供了一种新方法，在数据驱动服务应用、大数据领域的数据预处理等方面都有市场前景。

附图说明

图1为本发明流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举出优选实施例，对本发明进一步详细说明。然而，需要说明的是，说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解，即便没有这些特定的细节也可以实现本发明的这些方面。

请参阅图1，本发明提供一种具有因果关系的不一致数据处理方法，所述方法包括如下步骤：

步骤1：将n个不同来源的有相同属性的多维具有因果关系的数据集组成的样本形成矩阵，n是正整数，矩阵的行代表数据样本，列代表数据维度，同时将矩阵中n个不同来源的数据进行两两组合，得到组合数据。

n代表来源数量，p代表自变量个数，q代表因变量个数，如表1所示。假定同一来源的数据均是一致的，则该种不一致情况的处理步骤如下：

表1不同来源有相同属性的多维具有因果关系的数据样本矩阵

将表1中n个不同来源的数据进行两两组合。

步骤2：分别对每个组合数据进行不一致判断。

判断的具体过程为：

步骤2.1：选择任一来源的数据，利用PLS回归建模方法建立性q个因变量对p个自变量的回归模型。

步骤2.2：计算因变量的模型拟合值与实际值之间的相对误差，并找出每个因变量中的最大相对误差记为ε_i(i＝1,2,…,q)。

步骤2.3：计算出每个因变量相对误差的标准差为σ_i(i＝1,2,…,q)，并将ε_i与3σ_i中较大的值记为ξ_i(i＝1,2,…,q)。

步骤2.4：将另一来源的数据的自变量代入上述回归模型，得到相应因变量的预测值，并计算出因变量预测值与实际值之间的相对误差ε_i'(i＝1,2,…,q)。如果每一个数据样本均存在ε_i′＞ξ_i的情况，则认为两个来源的数据均不一致，需要进行不一致处理；如果每一个数据样本均不存在ε_i′＞ξ_i的情况，则认为两个来源的数据均一致，不必进行不一致处理；否则，则认为两个来源的数据存在不一致的情况，需要进行不一致处理。

步骤3：如果判断结果是所有组合均是不一致的，则认为所有来源的数据均是不一致的，需要进行不一致处理；如果判断结果是所有组合均是一致的，则认为所有来源的数据均是一致的，不必进行不一致处理；否则，则认为所有来源的数据存在不一致的情况，需要进行不一致处理。

步骤4：如果判断结果为不一致，则合并所有数据样本来建立PLS回归模型，并利用PSO优化算法来求解最优的值，进而完成不一致情况的处理。处理流程(这里仅以两个来源的数据来进行处理)如图1所示，其中实线表示ξ_i的确定。

建立PLS回归模型的具体过程为：

步骤4.1：定义自变量矩阵为X＝(x_ij)_n×p，定义因变量矩阵为Y＝(y_ij)_n×q，将每个样本减去维度变量的均值除以该维度的标准差来进行标准化，定义自变量矩阵X标准化处理后的矩阵为E₀＝(e_ij)_n×p，因变量矩阵Y标准化处理后的矩阵为F₀＝(f_ij)_n×q。

其中，

步骤4.4：通过交叉有效性检验来确定模型是否达到精度要求。

F₀＝E₀w₁ ^*β₁ ^T+…+E₀w_r ^*β_r ^T+F_r (8)

其中，

即q个原始因变量对p个自变量的偏最小二乘回归方程为：

并利用PSO优化算法来求解最优的值的具体过程为：

优化过程，

x_j∈[min(x_ij),max(x_ij)](1≤i≤n,1≤j≤p) (10)。

F(x)＝y₁+y₂+…y_q (11)。

V_ij ^l+1＝wV_ij ^l+c₁r₁(P_ij ^l-x_ij ^l)+c₂r₂(P_gj ^l-x_ij ^l) (12)

x_ij ^l+1＝x_ij ^l+V_ij ^l+1 (13)

式中，i＝1,2,…,m；j＝1,2,…,p，l为当前的迭代次数，V_ij为粒子的速度，r₁和r₂为分布于[0,1]之间的随机数。

步骤4.6.4：自适应变异，新种群中的粒子根据自适应变异概率P_m，某个粒子的某些变量发生变异，形成新的粒子。

步骤4.6.5：个体极值和群体极值更新，比较粒子的适应度值和自身极值Pbest，如果当前粒子适应度值比Pbest更优，则更新Pbest为当前粒子所在的位置；比较粒子的适应度值和种群极值，如果当前粒子适应度值比Gbest更优，则更新Gbest为当前粒子所在位置。

步骤4.6.6：若寻优达到最大迭代次数，则结束寻优。

应用实例：

在进行挤压铸造研究中，有多个机构进行同种材料的挤压铸造工艺研究，但报道的工艺参数却有些差异，需要对其进行一致性处理，如表2为收集不同机构提供的A356铝合金的挤压铸造工艺参数数据，主要的4个工艺参数是浇注温度(x₁)、比压(x₂)、保压时间(x₃)和模具预热温度(x₄)；3个性能指标是材料抗拉强度(y₁)、延伸率(y₂)和硬度(y₃)。

表2机构1提供的A356铝合金挤压铸造工艺参数数据

通过以上方法，选择来源1的数据，建立性能指标y_j(j＝1,2,3)对工艺参数x_i(i＝1,2,3,4)的PLS回归方程为：

计算得出ξ₁＝6.23％，ξ₂＝17.97％，ξ₃＝7.71％。

将来源2提供的工艺参数数据代入上述PLS回归方程得到相应的性能指标值，并计算出与实际值之间的相对误差，具体见表3。

表3来源2性能指标模型拟合值和实际值之间的相对误差

通过比较得知，来源2的5组A356铝合金的挤压铸造工艺参数均与机构1提供的不一致，需要不一致的下一步处理。为此，将来源1和来源2的工艺参数数据合并在一起，建立新的偏最小二乘回归模型，为：

并综合PLS回归模型的极值寻优，设定惯性权重w＝0.729，加速因子c₁＝c₂＝1.49445；变异概率：设定P_m＝0.3；粒子的速度范围：设定V_min＝-2，V_max＝2初始化种群：个体的长度为4，随机产生100个个体作为初始种群；设定最大迭代次数为200次。

经过运算，该实例中处理A356铝合金挤压铸造工艺参数不一致问题得到的最终结果为：工艺参数浇注温度为800℃，比压为200MPa，保压时间为30s，模具预热温度为300℃；性能指标抗拉强度为244.96MPa，延伸率为5.68％，硬度为83.25HB。

针对具有因果关系的数据，面对不同来源的具有相同属性的多维数据其原因数据不同，结果数据也不同的不一致情况，提出首先对不一致性进行判断，然后对真正不一致数据进行处理的方法。该方法利用偏最小二乘法(Partial Least Squares,PLS)建立多因变量对多自变量的回归模型，然后利用自适应变异的粒子群优化算法(Particle SwarmOptimization,PSO)来求解最优的值，进而实现不一致数据的处理。该方法能够有效解决神经网络等黑箱模型不直观、数据量要求大的缺点，同时，也为数据质量优化和数据预处理提供了一种新方法，在数据驱动服务应用、大数据领域的数据预处理等方面都有市场前景。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点，对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种具有因果关系的不一致数据处理方法，其特征在于，所述方法包括如下步骤：

步骤2：分别对每个组合数据进行不一致判断；

步骤4：如果判断结果为不一致，则合并所有数据样本来建立偏最小二乘法(PartialLeast Squares，PLS)回归模型，并利用粒子群优化算法(Particle Swarm Optimization，PSO)优化算法来求解最优的值，进而完成不一致情况的处理。

2.根据权利要求1所述的一种具有因果关系的不一致数据处理方法，其特征在于：所述步骤2的具体过程为：

3.根据权利要求1所述的一种具有因果关系的不一致数据处理方法，其特征在于：所述步骤4中建立PLS回归模型的具体过程为：

其中，

F₀＝E₀w₁ ^*β₁ ^T+…+E₀w_r ^*β_r ^T+F_r (8)

其中，

即q个原始因变量对p个自变量的偏最小二乘回归方程为：

4.根据权利要求3所述的一种具有因果关系的不一致数据处理方法，其特征在于：所述步骤4.4的具体过程为：

5.根据权利要求1所述的一种具有因果关系的不一致数据处理方法，其特征在于：所述步骤4中并利用PSO优化算法来求解最优的值的具体过程为：

6.根据权利要求5所述的一种具有因果关系的不一致数据处理方法，其特征在于：所述步骤4.6中的优化过程，

x_j∈[min(x_ij),max(x_ij)](1≤i≤n,1≤j≤p) (10)

F(x)＝y₁+y₂+…y_q (11)

V_ij ^l+1＝wV_ij ^l+c₁r₁(P_ij ^l-x_ij ^l)+c₂r₂(P_gj ^l-x_ij ^l) (12)

x_ij ^l+1＝x_ij ^l+V_ij ^l+1 (13)

步骤4.6.6：若寻优达到最大迭代次数，则结束寻优。