CN110414079A - 一种具有因果关系的不一致数据处理方法 - Google Patents
一种具有因果关系的不一致数据处理方法 Download PDFInfo
- Publication number
- CN110414079A CN110414079A CN201910610569.2A CN201910610569A CN110414079A CN 110414079 A CN110414079 A CN 110414079A CN 201910610569 A CN201910610569 A CN 201910610569A CN 110414079 A CN110414079 A CN 110414079A
- Authority
- CN
- China
- Prior art keywords
- data
- inconsistent
- value
- particle
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种具有因果关系的不一致数据处理方法,属于数据处理技术应用领域,针对具有因果关系的数据,面对不同来源的具有相同属性的多维数据其原因数据不同,结果数据也不同的不一致情况,提出首先对不一致性进行判断,然后对真正不一致数据进行处理的方法。该方法利用偏最小二乘法建立多因变量对多自变量的回归模型,然后利用自适应变异的粒子群优化算法来求解最优的值,进而实现不一致数据的处理。该方法能够有效解决神经网络等黑箱模型不直观、数据量要求大的缺点,同时,也为数据质量优化和数据预处理提供了一种新方法,在数据驱动服务应用、大数据领域的数据预处理等方面都有市场前景。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种具有因果关系的不一致数据处理方法。
背景技术
随着信息处理技术的不断发展,各行各业已建立了很多的计算机信息系统,也积累了大量的数据,导致数据已然成为非常核心和不可或缺的战略资源,准确而又可靠的数据可以为制定正确的方针决策奠定扎实的基础。但数据质量很大程度影响数据处理应用,数据质量不高会导致数据不能有效的被利用。其中,不一致数据是最典型的数据质量,改善不一致性数据对于为提高数据可用性,确保大规模数据的正常使用有着十分重要的意义。
现有不一致数据处理方法主要有:基于删除的修复方法,基于数据依赖的修复方法以及消除冲突的方法。而以上方法均有所缺陷,首先,基于删除的修复方法会造成很多有效信息的丢失,甚至有可能会带来新的不一致数据;其次,基于数据依赖的修复方法很难找出数据间的依赖关系,并且计算特别复杂;最后,现有的冲突消除的方法只能对特定的应用进行冲突消解,很难适应于复杂的不同的应用场景,并且效率与准确度,稳定性与拓展性都不够。
发明内容
本发明的目的在于提供一种具有因果关系的不一致数据处理方法,以解决现有的冲突消除的方法只能对特定的应用进行冲突消解,很难适应于复杂的不同的应用场景,并且效率与准确度,稳定性与拓展性都不够的技术问题。
一种具有因果关系的不一致数据处理方法,所述方法包括如下步骤:
步骤1:将n个不同来源的有相同属性的多维具有因果关系的数据集组成的样本形成矩阵,n是正整数,矩阵的行代表数据样本,列代表数据维度,同时将矩阵中n个不同来源的数据进行两两组合,得到组合数据;
步骤2:分别对每个组合数据进行不一致判断;
步骤3:如果判断结果是所有组合均是不一致的,则认为所有来源的数据均是不一致的,需要进行不一致处理;如果判断结果是所有组合均是一致的,则认为所有来源的数据均是一致的,不必进行不一致处理;否则,则认为所有来源的数据存在不一致的情况,需要进行不一致处理;
步骤4:如果判断结果为不一致,则合并所有数据样本来建立偏最小二乘法(Partial Least Squares,PLS)回归模型,并利用粒子群优化算法(Particle SwarmOptimization,PSO)优化算法来求解最优的值,进而完成不一致情况的处理。
进一步地,所述步骤2的具体过程为:
步骤2.1:选择任一来源的数据,利用PLS回归建模方法建立性q个因变量对p个自变量的回归模型;
步骤2.2:计算因变量的模型拟合值与实际值之间的相对误差,并找出每个因变量中的最大相对误差记为εi(i=1,2,…,q);
步骤2.3:计算出每个因变量相对误差的标准差为σi(i=1,2,…,q),并将εi与3σi中较大的值记为ξi(i=1,2,…,q);
步骤2.4:将另一来源的数据的自变量代入上述回归模型,得到相应因变量的预测值,并计算出因变量预测值与实际值之间的相对误差εi'(i=1,2,…,q),如果每一个数据样本均存在εi′>ξi的情况,则认为两个来源的数据均不一致,需要进行不一致处理;如果每一个数据样本均不存在εi′>ξi的情况,则认为两个来源的数据均一致,不必进行不一致处理;否则,则认为两个来源的数据存在不一致的情况,需要进行不一致处理。
进一步地,所述步骤4中建立PLS回归模型的具体过程为:
步骤4.1:定义自变量矩阵为X=(xij)n×p,定义因变量矩阵为Y=(yij)n×q,将每个样本减去维度变量的均值除以该维度的标准差来进行标准化,定义自变量矩阵X标准化处理后的矩阵为E0=(eij)n×p,因变量矩阵Y标准化处理后的矩阵为F0=(fij)n×q;
步骤4.2:求矩阵E0 TF0F0 TE0最大特征值所对应的单位特征向量w1=(w11,w12,…,w1p)T,求得第一轮成分t1=w11x1+w12x2+…+w1pxp的得分向量即有E0和F0对t1的回归模型为:
其中,α1=(α11,α12,…,α1p)T,β1=(β11,β12…,β1q)T为两个回归方程的模型效应载荷,可用式(2)来表示;E1和F1为残差矩阵;
步骤4.3:求矩阵E1 TF0F0 TE1最大特征值所对应的单位特征向量w2=(w21,w22,…,w2p)T,求得第二轮成分t2=w21x1+w22x2+…+w2pxp的得分向量回归方程为:
其中,
步骤4.4:通过交叉有效性检验来确定模型是否达到精度要求;
步骤4.5:假设最终有r个成分t1,t2,…,tr使得模型精度达到要求,有
将代入式(7),得到因变量标准化矩阵F0对自变量标准化矩阵E0的偏最小二乘回归方程,如下:
F0=E0w1 *β1 T+…+E0wr *βr T+Fr (8)
其中,
即q个原始因变量对p个自变量的偏最小二乘回归方程为:
其中,和Sxi分别为自变量矩阵X的第i列数据的均值和标准差,和Syj分别为因变量矩阵Y的第j列数据的均值和标准差。
进一步地,所述步骤4.4的具体过程为:
步骤4.4.1:去掉第i(i=1,2,…,n)个样本,用余下的n-1个样本在提取h个主成分下拟合回归方程,然后将去掉的第i个样本代入该回归方程,得到预测值对i=1,2,…,n重复以上验证,得到提取h个主成分时因变量矩阵Y的预测误差平方和为:
步骤4.4.2:用所有的样本在提取h个主成分下拟合回归方程,定义第i个样本的预测值为得到因变量矩阵Y的误差平方和为:
步骤4.4.3:在提取主成分时,比值SSE(h)/SS(h-1)越小越好,设定限定值为0.05,即当时,增加新的成分有利于模型精度的提高,定义交叉有效性为
在建模的每一步计算结束之前,均要进行交叉性检验,若Qh 2<1-0.952=0.0975,则表示模型精度达到要求,可以停止提取成分;若Qh 2≥0.0975,表示模型精度未达到要求,应继续提取成分。
进一步地,所述步骤4中并利用PSO优化算法来求解最优的值的具体过程为:
步骤4.6:以q个因变量之和为目标,以p个自变量作为优化变量,通过已建立的PLS回归模型,利用自适应变异的PSO算法的寻优功能,来求解最终的最优值。
进一步地,所述步骤4.6中的优化过程,
步骤4.6.1:初始化,设定惯性权重w,加速因子c1和c2,自适应变异概率Pm,最大迭代次数和粒子的速度区间[-Vmax,Vmax],自变量的变化范围如式(10)所示,在可行解空间中随机初始化m个粒子的位置和速度;
xj∈[min(xij),max(xij)](1≤i≤n,1≤j≤p) (10)
步骤4.6.2:计算适应度值,根据式(11)所示的适应度函数计算每个粒子的适应度值,并找出个体极值Pbest和群体极值Gbest,第k个粒子的速度为Vk=(Vk1,Vk2,…,Vkp)T,其个体极值为Pk=(Pk1,Pk2,…,Pkp)T,种群的全局极值为Pg=(Pg1,Pg2,…,Pgp)T,
F(x)=y1+y2+…yq (11)
步骤4.6.3:粒子的速度和位置更新,按照更新公式(12)和(13)更新粒子的速度和位置,产生新种群:
Vij l+1=wVij l+c1r1(Pij l-xij l)+c2r2(Pgj l-xij l) (12)
xij l+1=xij l+Vij l+1 (13)
式中,i=1,2,…,m;j=1,2,…,p,l为当前的迭代次数,Vij为粒子的速度,r1和r2为分布于[0,1]之间的随机数;
步骤4.6.4:自适应变异,新种群中的粒子根据自适应变异概率Pm,某个粒子的某些变量发生变异,形成新的粒子;
步骤4.6.5:个体极值和群体极值更新,比较粒子的适应度值和自身极值Pbest,如果当前粒子适应度值比Pbest更优,则更新Pbest为当前粒子所在的位置;比较粒子的适应度值和种群极值,如果当前粒子适应度值比Gbest更优,则更新Gbest为当前粒子所在位置;
步骤4.6.6:若寻优达到最大迭代次数,则结束寻优。
本发明采用了上述技术方案,本发明具有以下技术效果:
本发明利用偏最小二乘法建立多因变量对多自变量的回归模型,然后利用自适应变异的粒子群优化算法来求解最优的值,进而实现不一致数据的处理。该方法能够有效解决神经网络等黑箱模型不直观、数据量要求大的缺点,同时,也为数据质量优化和数据预处理提供了一种新方法,在数据驱动服务应用、大数据领域的数据预处理等方面都有市场前景。
附图说明
图1为本发明流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
请参阅图1,本发明提供一种具有因果关系的不一致数据处理方法,所述方法包括如下步骤:
步骤1:将n个不同来源的有相同属性的多维具有因果关系的数据集组成的样本形成矩阵,n是正整数,矩阵的行代表数据样本,列代表数据维度,同时将矩阵中n个不同来源的数据进行两两组合,得到组合数据。
n代表来源数量,p代表自变量个数,q代表因变量个数,如表1所示。假定同一来源的数据均是一致的,则该种不一致情况的处理步骤如下:
表1不同来源有相同属性的多维具有因果关系的数据样本矩阵
将表1中n个不同来源的数据进行两两组合。
步骤2:分别对每个组合数据进行不一致判断。
判断的具体过程为:
步骤2.1:选择任一来源的数据,利用PLS回归建模方法建立性q个因变量对p个自变量的回归模型。
步骤2.2:计算因变量的模型拟合值与实际值之间的相对误差,并找出每个因变量中的最大相对误差记为εi(i=1,2,…,q)。
步骤2.3:计算出每个因变量相对误差的标准差为σi(i=1,2,…,q),并将εi与3σi中较大的值记为ξi(i=1,2,…,q)。
步骤2.4:将另一来源的数据的自变量代入上述回归模型,得到相应因变量的预测值,并计算出因变量预测值与实际值之间的相对误差εi'(i=1,2,…,q)。如果每一个数据样本均存在εi′>ξi的情况,则认为两个来源的数据均不一致,需要进行不一致处理;如果每一个数据样本均不存在εi′>ξi的情况,则认为两个来源的数据均一致,不必进行不一致处理;否则,则认为两个来源的数据存在不一致的情况,需要进行不一致处理。
步骤3:如果判断结果是所有组合均是不一致的,则认为所有来源的数据均是不一致的,需要进行不一致处理;如果判断结果是所有组合均是一致的,则认为所有来源的数据均是一致的,不必进行不一致处理;否则,则认为所有来源的数据存在不一致的情况,需要进行不一致处理。
步骤4:如果判断结果为不一致,则合并所有数据样本来建立PLS回归模型,并利用PSO优化算法来求解最优的值,进而完成不一致情况的处理。处理流程(这里仅以两个来源的数据来进行处理)如图1所示,其中实线表示ξi的确定。
建立PLS回归模型的具体过程为:
步骤4.1:定义自变量矩阵为X=(xij)n×p,定义因变量矩阵为Y=(yij)n×q,将每个样本减去维度变量的均值除以该维度的标准差来进行标准化,定义自变量矩阵X标准化处理后的矩阵为E0=(eij)n×p,因变量矩阵Y标准化处理后的矩阵为F0=(fij)n×q。
步骤4.2:求矩阵E0 TF0F0 TE0最大特征值所对应的单位特征向量w1=(w11,w12,…,w1p)T,求得第一轮成分t1=w11x1+w12x2+…+w1pxp的得分向量即有E0和F0对t1的回归模型为:
其中,α1=(α11,α12,…,α1p)T,β1=(β11,β12…,β1q)T为两个回归方程的模型效应载荷,可用式(2)来表示;E1和F1为残差矩阵;
步骤4.3:求矩阵E1 TF0F0 TE1最大特征值所对应的单位特征向量w2=(w21,w22,…,w2p)T,求得第二轮成分t2=w21x1+w22x2+…+w2pxp的得分向量回归方程为:
其中,
步骤4.4:通过交叉有效性检验来确定模型是否达到精度要求。
步骤4.4.1:去掉第i(i=1,2,…,n)个样本,用余下的n-1个样本在提取h个主成分下拟合回归方程,然后将去掉的第i个样本代入该回归方程,得到预测值对i=1,2,…,n重复以上验证,得到提取h个主成分时因变量矩阵Y的预测误差平方和为:
步骤4.4.2:用所有的样本在提取h个主成分下拟合回归方程,定义第i个样本的预测值为得到因变量矩阵Y的误差平方和为:
步骤4.4.3:在提取主成分时,比值SSE(h)/SS(h-1)越小越好,设定限定值为0.05,即当时,增加新的成分有利于模型精度的提高,定义交叉有效性为
在建模的每一步计算结束之前,均要进行交叉性检验,若Qh 2<1-0.952=0.0975,则表示模型精度达到要求,可以停止提取成分;若Qh 2≥0.0975,表示模型精度未达到要求,应继续提取成分。
步骤4.5:假设最终有r个成分t1,t2,…,tr使得模型精度达到要求,有
将代入式(7),得到因变量标准化矩阵F0对自变量标准化矩阵E0的偏最小二乘回归方程,如下:
F0=E0w1 *β1 T+…+E0wr *βr T+Fr (8)
其中,
即q个原始因变量对p个自变量的偏最小二乘回归方程为:
其中,和Sxi分别为自变量矩阵X的第i列数据的均值和标准差,和Syj分别为因变量矩阵Y的第j列数据的均值和标准差。
并利用PSO优化算法来求解最优的值的具体过程为:
步骤4.6:以q个因变量之和为目标,以p个自变量作为优化变量,通过已建立的PLS回归模型,利用自适应变异的PSO算法的寻优功能,来求解最终的最优值。
优化过程,
步骤4.6.1:初始化,设定惯性权重w,加速因子c1和c2,自适应变异概率Pm,最大迭代次数和粒子的速度区间[-Vmax,Vmax],自变量的变化范围如式(10)所示,在可行解空间中随机初始化m个粒子的位置和速度;
xj∈[min(xij),max(xij)](1≤i≤n,1≤j≤p) (10)。
步骤4.6.2:计算适应度值,根据式(11)所示的适应度函数计算每个粒子的适应度值,并找出个体极值Pbest和群体极值Gbest,第k个粒子的速度为Vk=(Vk1,Vk2,…,Vkp)T,其个体极值为Pk=(Pk1,Pk2,…,Pkp)T,种群的全局极值为Pg=(Pg1,Pg2,…,Pgp)T,
F(x)=y1+y2+…yq (11)。
步骤4.6.3:粒子的速度和位置更新,按照更新公式(12)和(13)更新粒子的速度和位置,产生新种群:
Vij l+1=wVij l+c1r1(Pij l-xij l)+c2r2(Pgj l-xij l) (12)
xij l+1=xij l+Vij l+1 (13)
式中,i=1,2,…,m;j=1,2,…,p,l为当前的迭代次数,Vij为粒子的速度,r1和r2为分布于[0,1]之间的随机数。
步骤4.6.4:自适应变异,新种群中的粒子根据自适应变异概率Pm,某个粒子的某些变量发生变异,形成新的粒子。
步骤4.6.5:个体极值和群体极值更新,比较粒子的适应度值和自身极值Pbest,如果当前粒子适应度值比Pbest更优,则更新Pbest为当前粒子所在的位置;比较粒子的适应度值和种群极值,如果当前粒子适应度值比Gbest更优,则更新Gbest为当前粒子所在位置。
步骤4.6.6:若寻优达到最大迭代次数,则结束寻优。
应用实例:
在进行挤压铸造研究中,有多个机构进行同种材料的挤压铸造工艺研究,但报道的工艺参数却有些差异,需要对其进行一致性处理,如表2为收集不同机构提供的A356铝合金的挤压铸造工艺参数数据,主要的4个工艺参数是浇注温度(x1)、比压(x2)、保压时间(x3)和模具预热温度(x4);3个性能指标是材料抗拉强度(y1)、延伸率(y2)和硬度(y3)。
表2机构1提供的A356铝合金挤压铸造工艺参数数据
通过以上方法,选择来源1的数据,建立性能指标yj(j=1,2,3)对工艺参数xi(i=1,2,3,4)的PLS回归方程为:
计算得出ξ1=6.23%,ξ2=17.97%,ξ3=7.71%。
将来源2提供的工艺参数数据代入上述PLS回归方程得到相应的性能指标值,并计算出与实际值之间的相对误差,具体见表3。
表3来源2性能指标模型拟合值和实际值之间的相对误差
通过比较得知,来源2的5组A356铝合金的挤压铸造工艺参数均与机构1提供的不一致,需要不一致的下一步处理。为此,将来源1和来源2的工艺参数数据合并在一起,建立新的偏最小二乘回归模型,为:
并综合PLS回归模型的极值寻优,设定惯性权重w=0.729,加速因子c1=c2=1.49445;变异概率:设定Pm=0.3;粒子的速度范围:设定Vmin=-2,Vmax=2初始化种群:个体的长度为4,随机产生100个个体作为初始种群;设定最大迭代次数为200次。
经过运算,该实例中处理A356铝合金挤压铸造工艺参数不一致问题得到的最终结果为:工艺参数浇注温度为800℃,比压为200MPa,保压时间为30s,模具预热温度为300℃;性能指标抗拉强度为244.96MPa,延伸率为5.68%,硬度为83.25HB。
针对具有因果关系的数据,面对不同来源的具有相同属性的多维数据其原因数据不同,结果数据也不同的不一致情况,提出首先对不一致性进行判断,然后对真正不一致数据进行处理的方法。该方法利用偏最小二乘法(Partial Least Squares,PLS)建立多因变量对多自变量的回归模型,然后利用自适应变异的粒子群优化算法(Particle SwarmOptimization,PSO)来求解最优的值,进而实现不一致数据的处理。该方法能够有效解决神经网络等黑箱模型不直观、数据量要求大的缺点,同时,也为数据质量优化和数据预处理提供了一种新方法,在数据驱动服务应用、大数据领域的数据预处理等方面都有市场前景。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种具有因果关系的不一致数据处理方法,其特征在于,所述方法包括如下步骤:
步骤1:将n个不同来源的有相同属性的多维具有因果关系的数据集组成的样本形成矩阵,n是正整数,矩阵的行代表数据样本,列代表数据维度,同时将矩阵中n个不同来源的数据进行两两组合,得到组合数据;
步骤2:分别对每个组合数据进行不一致判断;
步骤3:如果判断结果是所有组合均是不一致的,则认为所有来源的数据均是不一致的,需要进行不一致处理;如果判断结果是所有组合均是一致的,则认为所有来源的数据均是一致的,不必进行不一致处理;否则,则认为所有来源的数据存在不一致的情况,需要进行不一致处理;
步骤4:如果判断结果为不一致,则合并所有数据样本来建立偏最小二乘法(PartialLeast Squares,PLS)回归模型,并利用粒子群优化算法(Particle Swarm Optimization,PSO)优化算法来求解最优的值,进而完成不一致情况的处理。
2.根据权利要求1所述的一种具有因果关系的不一致数据处理方法,其特征在于:所述步骤2的具体过程为:
步骤2.1:选择任一来源的数据,利用PLS回归建模方法建立性q个因变量对p个自变量的回归模型;
步骤2.2:计算因变量的模型拟合值与实际值之间的相对误差,并找出每个因变量中的最大相对误差记为εi(i=1,2,…,q);
步骤2.3:计算出每个因变量相对误差的标准差为σi(i=1,2,…,q),并将εi与3σi中较大的值记为ξi(i=1,2,…,q);
步骤2.4:将另一来源的数据的自变量代入上述回归模型,得到相应因变量的预测值,并计算出因变量预测值与实际值之间的相对误差εi'(i=1,2,…,q),如果每一个数据样本均存在εi′>ξi的情况,则认为两个来源的数据均不一致,需要进行不一致处理;如果每一个数据样本均不存在εi′>ξi的情况,则认为两个来源的数据均一致,不必进行不一致处理;否则,则认为两个来源的数据存在不一致的情况,需要进行不一致处理。
3.根据权利要求1所述的一种具有因果关系的不一致数据处理方法,其特征在于:所述步骤4中建立PLS回归模型的具体过程为:
步骤4.1:定义自变量矩阵为X=(xij)n×p,定义因变量矩阵为Y=(yij)n×q,将每个样本减去维度变量的均值除以该维度的标准差来进行标准化,定义自变量矩阵X标准化处理后的矩阵为E0=(eij)n×p,因变量矩阵Y标准化处理后的矩阵为F0=(fij)n×q;
步骤4.2:求矩阵E0 TF0F0 TE0最大特征值所对应的单位特征向量w1=(w11,w12,…,w1p)T,求得第一轮成分t1=w11x1+w12x2+…+w1pxp的得分向量即有E0和F0对t1的回归模型为:
其中,α1=(α11,α12,…,α1p)T,β1=(β11,β12…,β1q)T为两个回归方程的模型效应载荷,可用式(2)来表示;E1和F1为残差矩阵;
步骤4.3:求矩阵E1 TF0F0 TE1最大特征值所对应的单位特征向量w2=(w21,w22,…,w2p)T,求得第二轮成分t2=w21x1+w22x2+…+w2pxp的得分向量回归方程为:
其中,
步骤4.4:通过交叉有效性检验来确定模型是否达到精度要求;
步骤4.5:假设最终有r个成分t1,t2,…,tr使得模型精度达到要求,有
将代入式(7),得到因变量标准化矩阵F0对自变量标准化矩阵E0的偏最小二乘回归方程,如下:
F0=E0w1 *β1 T+…+E0wr *βr T+Fr (8)
其中,
即q个原始因变量对p个自变量的偏最小二乘回归方程为:
其中,和Sxi分别为自变量矩阵X的第i列数据的均值和标准差,和Syj分别为因变量矩阵Y的第j列数据的均值和标准差。
4.根据权利要求3所述的一种具有因果关系的不一致数据处理方法,其特征在于:所述步骤4.4的具体过程为:
步骤4.4.1:去掉第i(i=1,2,…,n)个样本,用余下的n-1个样本在提取h个主成分下拟合回归方程,然后将去掉的第i个样本代入该回归方程,得到预测值对i=1,2,…,n重复以上验证,得到提取h个主成分时因变量矩阵Y的预测误差平方和为:
步骤4.4.2:用所有的样本在提取h个主成分下拟合回归方程,定义第i个样本的预测值为得到因变量矩阵Y的误差平方和为:
步骤4.4.3:在提取主成分时,比值SSE(h)/SS(h-1)越小越好,设定限定值为0.05,即当时,增加新的成分有利于模型精度的提高,定义交叉有效性为
在建模的每一步计算结束之前,均要进行交叉性检验,若Qh 2<1-0.952=0.0975,则表示模型精度达到要求,可以停止提取成分;若Qh 2≥0.0975,表示模型精度未达到要求,应继续提取成分。
5.根据权利要求1所述的一种具有因果关系的不一致数据处理方法,其特征在于:所述步骤4中并利用PSO优化算法来求解最优的值的具体过程为:
步骤4.6:以q个因变量之和为目标,以p个自变量作为优化变量,通过已建立的PLS回归模型,利用自适应变异的PSO算法的寻优功能,来求解最终的最优值。
6.根据权利要求5所述的一种具有因果关系的不一致数据处理方法,其特征在于:所述步骤4.6中的优化过程,
步骤4.6.1:初始化,设定惯性权重w,加速因子c1和c2,自适应变异概率Pm,最大迭代次数和粒子的速度区间[-Vmax,Vmax],自变量的变化范围如式(10)所示,在可行解空间中随机初始化m个粒子的位置和速度;
xj∈[min(xij),max(xij)](1≤i≤n,1≤j≤p) (10)
步骤4.6.2:计算适应度值,根据式(11)所示的适应度函数计算每个粒子的适应度值,并找出个体极值Pbest和群体极值Gbest,第k个粒子的速度为Vk=(Vk1,Vk2,…,Vkp)T,其个体极值为Pk=(Pk1,Pk2,…,Pkp)T,种群的全局极值为Pg=(Pg1,Pg2,…,Pgp)T,
F(x)=y1+y2+…yq (11)
步骤4.6.3:粒子的速度和位置更新,按照更新公式(12)和(13)更新粒子的速度和位置,产生新种群:
Vij l+1=wVij l+c1r1(Pij l-xij l)+c2r2(Pgj l-xij l) (12)
xij l+1=xij l+Vij l+1 (13)
式中,i=1,2,…,m;j=1,2,…,p,l为当前的迭代次数,Vij为粒子的速度,r1和r2为分布于[0,1]之间的随机数;
步骤4.6.4:自适应变异,新种群中的粒子根据自适应变异概率Pm,某个粒子的某些变量发生变异,形成新的粒子;
步骤4.6.5:个体极值和群体极值更新,比较粒子的适应度值和自身极值Pbest,如果当前粒子适应度值比Pbest更优,则更新Pbest为当前粒子所在的位置;比较粒子的适应度值和种群极值,如果当前粒子适应度值比Gbest更优,则更新Gbest为当前粒子所在位置;
步骤4.6.6:若寻优达到最大迭代次数,则结束寻优。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910610569.2A CN110414079A (zh) | 2019-07-03 | 2019-07-03 | 一种具有因果关系的不一致数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910610569.2A CN110414079A (zh) | 2019-07-03 | 2019-07-03 | 一种具有因果关系的不一致数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110414079A true CN110414079A (zh) | 2019-11-05 |
Family
ID=68360663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910610569.2A Pending CN110414079A (zh) | 2019-07-03 | 2019-07-03 | 一种具有因果关系的不一致数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110414079A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989660A (zh) * | 2021-03-15 | 2021-06-18 | 广州地铁设计研究院股份有限公司 | 基于偏最小二乘法的地铁杂散电流下管道腐蚀预测方法 |
CN113806992A (zh) * | 2021-07-23 | 2021-12-17 | 任长江 | 一种基于对流-弥散理论的优化方法 |
-
2019
- 2019-07-03 CN CN201910610569.2A patent/CN110414079A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989660A (zh) * | 2021-03-15 | 2021-06-18 | 广州地铁设计研究院股份有限公司 | 基于偏最小二乘法的地铁杂散电流下管道腐蚀预测方法 |
CN112989660B (zh) * | 2021-03-15 | 2021-09-17 | 广州地铁设计研究院股份有限公司 | 基于偏最小二乘法的地铁杂散电流下管道腐蚀预测方法 |
CN113806992A (zh) * | 2021-07-23 | 2021-12-17 | 任长江 | 一种基于对流-弥散理论的优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287180B (zh) | 一种基于深度学习的风控建模方法 | |
EP4236197A2 (en) | Micro-loan system | |
CN111241952A (zh) | 一种离散制造场景中的强化学习奖励自学习方法 | |
CN111861013B (zh) | 一种电力负荷预测方法及装置 | |
Arcidiacono et al. | Estimation of dynamic discrete choice models in continuous time | |
CN107832789B (zh) | 基于平均影响值数据变换的特征加权k近邻故障诊断方法 | |
CN110414079A (zh) | 一种具有因果关系的不一致数据处理方法 | |
CN111598435B (zh) | 一种基于自适应特征选择及改进思维进化算法的质量趋势预测方法 | |
Perzyk et al. | Modeling of manufacturing processes by learning systems: The naïve Bayesian classifier versus artificial neural networks | |
CN115131131A (zh) | 面向不平衡数据集多阶段集成模型的信用风险评估方法 | |
CN110310199B (zh) | 借贷风险预测模型的构建方法、系统及借贷风险预测方法 | |
CN115640337A (zh) | 针对符号图网络的异常数据预测方法、系统及相关设备 | |
Adeyemo et al. | Effects of normalization techniques on logistic regression in data science | |
CN114519519A (zh) | 基于gbdt算法与逻辑回归模型的企业违约风险评估方法设备及介质 | |
CN109389517B (zh) | 一种量化线路损耗影响因素的分析方法及装置 | |
CN107590538B (zh) | 一种基于在线序列学习机的危险源识别方法 | |
CN112241832A (zh) | 一种产品质量分级评价标准设计方法及系统 | |
CN117171786A (zh) | 一种抵御投毒攻击的去中心化联邦学习方法 | |
CN112711912A (zh) | 基于云计算和机器学习算法的空气质量监测与告警方法、系统、装置和介质 | |
CN114819107B (zh) | 基于深度学习的混合数据同化方法 | |
CN115660425A (zh) | 风偏闪络风险评价方法、系统、设备、可读存储介质 | |
CN109063837A (zh) | 基于复杂网络结构熵的遗传算法信息流网络属性分析方法 | |
CN115034426A (zh) | 一种基于相空间重构与多模型融合Stacking集成学习方式的滚动负荷预测方法 | |
CN114418018A (zh) | 模型性能评估方法、装置、设备与存储介质 | |
CN113850483A (zh) | 一种企业信用风险评级系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |