CN110110814A - 基于连续MapReduce的分布并行PCA过程监测建模方法 - Google Patents

基于连续MapReduce的分布并行PCA过程监测建模方法 Download PDF

Info

Publication number
CN110110814A
CN110110814A CN201910421442.6A CN201910421442A CN110110814A CN 110110814 A CN110110814 A CN 110110814A CN 201910421442 A CN201910421442 A CN 201910421442A CN 110110814 A CN110110814 A CN 110110814A
Authority
CN
China
Prior art keywords
value
key
matrix
sample
normal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910421442.6A
Other languages
English (en)
Other versions
CN110110814B (zh
Inventor
葛志强
张鑫宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910421442.6A priority Critical patent/CN110110814B/zh
Publication of CN110110814A publication Critical patent/CN110110814A/zh
Application granted granted Critical
Publication of CN110110814B publication Critical patent/CN110110814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种基于连续MapReduce的分布并行PCA过程监测建模方法,属于工业过程监测与控制领域。该方法给出了基于MapReduce的分布并行设计方案,其中包括利用三次MapReduce实现大规模数据的标准化,基于事先标记矩阵相乘所需元素的方法,通过一次MapReduce实现大规模矩阵相乘进而计算出协方差矩阵,最后在计算T2和SPE统计量时利用一次MapReduce实现每个样本与投影矩阵并行相乘,通过上述连续的MapReduce操作能够将一些随样本量增加而耗时的操作进行分解,并行地完成运算,能够有效地提升PCA过程监测模型的建模速度。

Description

基于连续MapReduce的分布并行PCA过程监测建模方法
技术领域
本发明属于工业过程监测与控制领域,涉及一种基于连续MapReduce的分布并行PCA过程监测建模方法。
背景技术
在工业生产过程中由于机器自身老化等原因或外界因素的干扰往往会出现生产故障,而故障最直观的体现即为质量变量的变化。质量变量的波动会直接影响到所生产的产品上,导致产品的质量会大幅度下降,会对工业企业造成很大的损失,因此进行工业生产过程故障监测是十分必要的。
而基于数据驱动的故障监测方法目前十分常用,由于故障发生后质量变量在数据上会发生相应的变化,如果能够基于正常的质量变量数据建立故障监测模型,并形成监测指标的控制限,即可通过观测过程数据对应的监控指标是否超限来判断过程是否发生故障。而目前使用最为普遍的基于数据驱动的故障监测模型时主元分析模型(PCA),它主要的思路是先利用数据协方差矩阵特征值分解的策略提取正常数据的主元及投影向量,再利用主元和数据的重构误差构建主元空间T2和残差空间SPE以及对应的控制限,对于待监测的样本同样计算两项指标T2和SPE,若超过控制限,则说明发生故障。
目前随着现代工业和计算机技术的不断发展,工业过程中能够积累的数据越来越多,逐渐形成了一系列的工业大数据问题,传统的基于数据驱动的过程监测模型不论在时间上还是效果上都很难在大规模数据上应用,其中便包括用于过程监测的PCA模型,有上述介绍可知PCA模型主要是先将数据标准化,再通过对数据协方差矩阵的特征值分解而获得投影向量,最后利用投影向量与每个样本相乘而获得主元的,因此在上述步骤中,数据的标准化需要先计算均值,标准差,再逐次地对每条样本进行处理,若在大量数据情况下会十分耗时;而在计算协方差矩阵时采用的是将标准化后的数据矩阵相乘的思路,同样在计算两个规模十分庞大的矩阵乘法时也会产生很大的时间开销;然而在特征值分解阶段,由于协方差矩阵的阶数是单条样本的变量数,一般变量的个数会远小于样本个数,因此该阶段的时间开销不会很大;接下来利用提取出的特征向量组成投影矩阵计算每个样本对应的T2统计量时,以及根据主元和投影矩阵计算样本重构值时,由于仍要逐条地将投影矩阵与样本进行相乘或者与每条样本的主元相乘,因此在数据量很大时计算会比较耗时。
发明内容
针对现有在大规模数据下PCA过程监测建模的不足,本发明提出了一种基于连续MapReduce的分布并行PCA过程监测建模方法,该方法针对PCA过程监测建模过程中4个连续的较为耗时的步骤,包括数据标准化,协方差矩阵计算,计算样本主元,计算样本重构值,分别提供了基于MapReduce的分布并行设计方案,由于模型主要耗时的部分均采用了分布并行思路的设计,因此在总体上能够较为明显地节省PCA在大规模数据下的建模时间。
本发明是通过以下技术方案实现的:一种基于连续MapReduce的分布并行PCA过程监测建模方法,包括以下步骤:
(1)收集历史工业过程中正常数据样本集和故障数据样本集,正常数据样本集中共有n个样本,每个样本具有m个过程变量,正常数据样本集表示为S_normal(x)={xi|i=1,2,…,n},其中xi为变量,共有m个列,xi∈R1×m;并用S_normal(xi)表示正常样本集中第i个样本,故障数据样本集与正常数据样本集具有相同的形式,表示为S_fault(x)={xi|i=1,2,…,nt},nt为故障数据样本集中的样本个数。
(2)基于MapReduce框架将步骤(1)中的得到的正常数据样本集和故障数据样本集进行分布式标准化,具体过程为:
(2.1)将正常数据样本集中的样本S_normal(x)存储在分布式文件系统中,分布存储的块数为K。
(2.2)在第一次MapReduce操作中,在Map阶段将在不同数据块中的每个样本并行地转换为key为1的键值对<1,S_normal(xi)>,在Reduce阶段将所有具有key为1的value的各个变量对应求和并除以总样本数n,得到样本各个变量的均值向量μ∈R1×m
(2.3)在第二次MapReduce操作中,在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量,并将结果平方,再将平方后的值的key标注为1,从而可形成键值对<1,(S_normal(xi)-μ)2>,在Reduce阶段将所有具有key为1的键值对的value的各个变量对应求和并除以总样本数n,同时计算平方根,得到样本各个变量的标准差向量σ∈R1×m
(2.4)在第三次MapReduce操作中,在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量,再除以标准差向量,再将计算后的值的key标注为1,从而可形成键值对<1,(S_normal(xi)-μ)/σ>,在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为标准化后的正常数据样本集S_std_normal;
(2.5)利用正常数据样本集的均值和标准差求得(S_fault(xi)-μ)/σ,形成的标准化后的故障数据样本集为S_std_fault;
(3)将标准化后的正常数据样本集S_std_normal改写为矩阵形式X(n×m),并利用MapReduce计算协方差矩阵值rij,具体过程为:
(3.1)将矩阵X(n×m)和矩阵XT (m×n)存储在分布式文件系统中,每个矩阵分布存储的块数为K。
(3.2)在Map阶段,将矩阵XT (m×n)中的每个元素值bij的key值标记为[i,k](k=1,…,m),而value值,按如下顺序[矩阵标记mt:位置标记lt,元素值]标记为[b:j,bij],所形成的键值对为<[i,k],[b:j,bij]>;
(3.3)在相同的Map阶段,再将矩阵X(n×m)中的每个元素值aij的key值标记为[k,j](k=1,…,m),而value值按如下顺序[矩阵标记mt:位置标记lt,元素值]标记为[a:i,aij],所形成的键值对为<[k,j],[a:i,aij]>;
(3.4)在Reduce阶段,Reducer将具有相同key值的元素值aij和bij聚集在一起,对于key值为[i,j]的所有键值对,将具有不同矩阵标记mt而具有相同位置标记lt的元素值相乘,再将不同位置标记lt的乘积结果相加即为协方差矩阵值rij
(4)计算协方差矩阵R(m×m)的特征值和特征向量:
(5)利用方差贡献率η选择主元个数k,其中η为0.85,并确定主元对应特征值构成的对角矩阵Λ
(6)将特征值从大至小排序,并选择前k个特征值对应的特征向量组成投影矩阵P:
(7)基于MapReduce框架计算每个样本的T2统计量,T2 i=xi-1PTxi T,具体过程为:
(7.1)将矩阵X(n×m)存储在分布式文件系统中,每个矩阵分布存储的块数为K;
(7.2)在Map阶段将在不同数据块中的每个样本xi并行地按照上式与投影矩阵P和对角矩阵Λ相乘,再将计算后的值的key标注为1,从而可形成键值对<1,xi-1PTxi T>;
(7.3)在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为所有样本对应的T2统计量。
(8)基于MapReduce框架计算每个样本的重构值及SPE统计量,具体过程为:
(8.1)将矩阵X(n×m)存储在分布式文件系统中,每个矩阵分布存储的块数为K;
(8.2)在Map阶段将在不同数据块中的每个样本的主元Ti并行地按照上式与投影矩阵P相乘,再将计算后的重构结果与原样本计算在各个变量上的残差平方和即为SPE统计量SPEi,并将所计算出的残差平方和的key标注为1,形成键值对
(8.3)在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为所有样本对应的SPE统计量;
(9)计算T2和SPE统计量的控制限:
所述计算T2控制限的公式为,其中n为样本个数,k为主元个数,Fk,n-k,α为服从自由度为k和n-k的F分布,α为置信度:
所述计算SPE控制限的公式为:
其中λjr表示协方差矩阵的特征值,α表示显著性水平,cα是正态分布在显著性水平为α下的临界值;
(10)将故障数据样本集的统计量T2与控制限T2 i,lim比对,统计量SPE与控制限SPEi,lim比对,只要有一个统计量超过控制限,即为故障;若两个统计量均没有超过控制限,即为正常样本。
(11)将实时数据样本输入,重复步骤(2)-(10),直至完成对所有数据样本的监测。
与现有技术相比,本发明具有的有益效果是:针对PCA在样本数量较多情况下建模存在的较为耗时的连续环节,给出了基于MapReduce的分布并行设计方案,其中包括利用三次MapReduce实现大规模数据的标准化,基于事先标记矩阵相乘所需元素的方法,通过一次MapReduce实现大规模矩阵相乘进而计算出协方差矩阵,最后在计算T2和SPE统计量时利用一次MapReduce实现每个样本与投影矩阵并行相乘,通过上述连续的MapReduce操作能够将一些随样本量增加而耗时的操作进行分解,并行地完成运算,能够有效地提升PCA过程监测模型的建模速度。
附图说明
图1为本发明分布式标准化的流程图;
图2为2×2方阵协方差矩阵计算过程;
图3为计算每个样本的T2统计量的流程图;
图4为每个样本的重构值及SPE统计量计算的流程图;
图5为TE基准过程的流程图;
图6为正常数据建模的中间结果图;
图7为960条测试数据上的监测效果图。
具体实施方式
下面结合具体实施方式对本发明基于连续MapReduce的分布并行PCA过程监测建模方法作进一步的详述。
一种基于连续MapReduce的分布并行PCA过程监测建模方法,包括以下步骤:
(1)收集历史工业过程中正常数据样本集和故障数据样本集,正常数据样本集中共有n个样本,每个样本具有m个过程变量,因此正常数据样本集可以表示为S_normal(x)={xi|i=1,2,…,n},其中xi为变量,共有m个列,xi∈R1×m;并用S_normal(xi)表示正常样本集中第i个样本,故障数据样本集与正常数据集具有相同的形式,可以表示为S_fault(x)={xi|i=1,2,…,nt},nt为故障数据样本集中的样本个数。
(2)基于MapReduce框架将步骤(1)中的所得到的正常数据样本集和故障数据样本集进行分布式标准化,标准化的目的是消除量纲对模型的影响,由于该操作需要计算均值和标准差并分别对每个样本进行标准化,在数据量过大时串行计算十分耗时,因此本发明将其设计为分布式形式,分布式标准化过程流程图如图1所示,具体过程为:
(2.1)将正常数据样本集中的样本S_normal(x)存储在分布式文件系统中,分布存储的块数为K。
(2.2)在第一次MapReduce操作中,在Map阶段将在不同数据块中的每个样本并行地转换为key为1的键值对<1,S_normal(xi)>,在Reduce阶段将所有具有key为1的value的各个变量对应求和并除以总样本数n,即可得到样本各个变量的均值向量μ∈R1×m
(2.3)在第二次MapReduce操作中,在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量,并将结果进行平方,再将平方后的值的key标注为1,从而可形成键值对<1,(S_normal(xi)-μ)2>,在Reduce阶段将所有具有key为1的键值对的value的各个变量对应求和并除以总样本数n,同时计算平方根,即可得到样本各个变量的标准差向量σ∈R1×m
(2.4)在第三次MapReduce操作中,在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量,再除以标准差,再将计算后的值的key标注为1,从而可形成键值对<1,(S_normal(xi)-μ)/σ>,在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为标准化后的正常数据样本集S_std_normal。
(2.5)故障数据样本集的标准化只需通过下式利用正常数据样本集的均值和标准差求得(S_fault(xi)-μ)/σ,所形成的标准化后的故障数据样本集为S_std_fault。
(3)将标准化后的正常数据样本集S_std_normal改写为矩阵形式X(n×m),并利用MapReduce计算协方差矩阵值rij,协方差矩阵的计算可以理解为两个样本矩阵的相乘,当数据量过大时样本矩阵的维度很高,计算矩阵乘法的时间为三次方复杂度,该步骤将十分耗时,因此本发明利用了MapReduce中分治思想,将用于计算结果矩阵某个位置的所有元素都提取到一块,并行地计算结果矩阵中的每一个元素,大大地节省了计算时间,具体过程为:
一般情况下计算协方差矩阵公式如下,其中矩阵X(n×m)中的每个元素可以表示为aij(i=1,2,…,n;j=1,2,…,m),而矩阵XT (m×n)中的每个元素可以表示为bij(i=1,2,…,m;j=1,2,…,n)矩阵R(m×m)中的每个元素可以表示为rij(i,j=1,2,…,m)
(3.1)将矩阵X(n×m)和矩阵XT (m×n)存储在分布式文件系统中,每个矩阵分布存储的块数为K。
(3.2)在Map阶段,将矩阵XT (m×n)中的每个元素值bij的key值标记为[i,k](k=1,…,m)而value值可按如下顺序[矩阵标记mt:位置标记lt,元素值]标记为[b:j,bij],因此所形成的键值对为<[i,k],[b:j,bij]>
(3.3)在相同的Map阶段,再将矩阵X(n×m)中的每个元素值aij的key值标记为[k,j](k=1,…,m)而value值可按如下顺序[矩阵标记mt:位置标记lt,元素值]标记为[a:i,aij],因此所形成的键值对为<[k,j],[a:i,aij]>
(3.4)在Reduce阶段,Reducer将具有相同key值的元素聚集在一起(将用于计算协方差矩阵值rij的所有aij和bij聚集在一起,一共形成m×m个reduce数据块),对于key值为[i,j]的所有键值对,将具有不同矩阵标记mt而具有相同位置标记lt的元素进行相乘,再将不同位置标记lt的乘积结果进行相加即为协方差矩阵rij的值,即以2×2的方阵相乘为例,上述协方差矩阵值的计算过程如图2所示。
(4)计算协方差矩阵R(m×m)的特征值和特征向量:
(5)利用方差贡献率η选择主元个数k,其中η为0.85,将主元贡献率设置较大的目的是让主元可以包含更为全面的数据波动信息,再确定主元对应特征值构成的对角矩阵Λ
(6)将特征值从大至小排序,并选择前k个特征值对应的特征向量组成投影矩阵P:
(7)基于MapReduce框架计算每个样本的T2统计量,该步骤上述样本的分布式标准化思路相同,如果不采用分布式,每个样本都要串行地乘以投影矩阵,当数据量较大时计算较为耗时,因此本发明同样利用MapReduce的分块思想,将样本分为多块,并行地与投影矩阵相乘,节约运算时间,具体过程如图3所示:
所述计算每个样本T2统计量的方法如下式所示,其中P为投影矩阵:
T2 i=xi-1PTxi T
(7.1)将矩阵X(n×m)存储在分布式文件系统中,每个矩阵分布存储的块数为K
(7.2)在Map阶段将在不同数据块中的每个样本xi并行地按照上式与投影矩阵P和对角矩阵Λ相乘,再将计算后的值的key标注为1,从而可形成键值对<1,xi-1PTxi T>
(7.3)在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为所有样本对应的T2统计量。
(8)基于MapReduce框架计算每个样本的重构值及SPE统计量,该步骤的分布式思路与步骤(7)相同,具体流程如图4所示:
所述计算每个样本的重构值的方法如下式所示:
所述计算每个样本SPE统计量的方法如下式所示:
(8.1)将矩阵X(n×m)存储在分布式文件系统中,每个矩阵分布存储的块数为K。
(8.2)在Map阶段将在不同数据块中的每个样本的主元Ti并行地按照上式与投影矩阵P相乘,再将计算后的重构结果与原样本计算在各个变量上的残差平方和即为SPE统计量SPEi,并将所计算出的残差平方和的key标注为1,从而可形成键值对
(8.3)在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为所有样本对应的SPE统计量。
(9)计算T2和SPE统计量的控制限,所述计算T2控制限和计算SPE控制限的公式分别为,其中n为样本个数,k为主元个数,Fk,n-k,α为服从自由度为k和n-k的F分布,α为置信度:
其中 表示协方差矩阵的特征值,α表示显著性水平,cα是正态分布在显著性水平为α下的临界值。
(10)将故障数据样本集的统计量T2与控制限T2 i,lim比对,统计量SPE与控制限SPEi,lim比对,只要有一个统计量超过控制限,即为故障;若两个统计量均没有超过控制限,即为正常样本。
(11)将实时数据样本输入,重复步骤(2)-(10),直至完成对所有数据样本的监测。
实施例
以下结合TE过程的故障数据监测来说明本发明的解决的技术问题。TE基准过程的流程图如图5所示。其中故障一中共有960条测试样本,其中前160条为正常数据,其后800条为由于阶跃干扰而产生的故障数据,首先利用本发明针对TE过程中的500条正常数据在三台相同配置的计算机(Intel Core i5-4590CPU及8G内存配置下的计算机)上进行分布式建模,再对整体960条测试数据进行监测,同时为了更好地展示测试结果,将本发明提出的模型集成到软件中,模型的所有中间结果和测试结果均可在软件中进行显示,其中本发明利用正常数据建模的中间结果如图6所示,采用本发明分布并行PCA以及使用单机版本的PCA建模时间如表1所示,同时本发明在960条测试数据上的监测效果如图7所示。
表1本发明与在单机模式下PCA建模时间对比
其中图6显示了建模过程的投影矩阵P,样本对应的主元值Ti,主元对应特征值构成的对角矩阵Λ,每个样本对应的T2和SPE统计量,以及T2和SPE的控制限,从T2和SPE曲线上可以看出用于建模的正常数据均在控制限以下,从表1可以看出,采用本发明提出的分布并行PCA在建模时间上要优于单机模型,而时间相差不大的原因是用于建模的数据量较少,实际上在较少数据量下用于建模的时间较短,因此分布式计算机之间的数据通讯和存取的时间就会产生较大的干扰,而在小数据量下本发明的建模时间仍小于单机模式,若在大规模数据下的建模时间必然会远小于单机模式。同时图7显示了对故障一测试数据的监测结果,在前160个正常数据中均未超限,而在此之后逐渐有非常明显的超限,这与实际的测试数据特性是相符的,验证了本发明能在节省时间的情况下保证PCA的过程监测效果。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (1)

1.一种基于连续MapReduce的分布并行PCA过程监测建模方法,其特征在于,所述分布并行PCA过程监测建模方法包括以下步骤:
(1)收集历史工业过程中正常数据样本集和故障数据样本集,正常数据样本集中共有n个样本,每个样本具有m个过程变量,正常数据样本集表示为S_normal(x)={xi|i=1,2,…,n},其中xi为变量,共有m个列,xi∈R1×m;并用S_normal(xi)表示正常样本集中第i个样本,故障数据样本集与正常数据样本集具有相同的形式,表示为S_fault(x)={xi|i=1,2,…,nt},nt为故障数据样本集中的样本个数。
(2)基于MapReduce框架将步骤(1)中的得到的正常数据样本集和故障数据样本集进行分布式标准化,具体过程为:
(2.1)将正常数据样本集中的样本S_normal(x)存储在分布式文件系统中,分布存储的块数为K。
(2.2)在第一次MapReduce操作中,在Map阶段将在不同数据块中的每个样本并行地转换为key为1的键值对<1,S_normal(xi)>,在Reduce阶段将所有具有key为1的value的各个变量对应求和并除以总样本数n,得到样本各个变量的均值向量μ∈R1×m
(2.3)在第二次MapReduce操作中,在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量,并将结果平方,再将平方后的值的key标注为1,从而可形成键值对<1,(S_normal(xi)-μ)2>,在Reduce阶段将所有具有key为1的键值对的value的各个变量对应求和并除以总样本数n,同时计算平方根,得到样本各个变量的标准差向量σ∈R1×m
(2.4)在第三次MapReduce操作中,在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量,再除以标准差向量,再将计算后的值的key标注为1,从而可形成键值对<1,(S_normal(xi)-μ)/σ>,在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为标准化后的正常数据样本集S_std_normal;
(2.5)利用正常数据样本集的均值和标准差求得(S_fault(xi)-μ)/σ,形成的标准化后的故障数据样本集为S_std_fault;
(3)将标准化后的正常数据样本集S_std_normal改写为矩阵形式X(n×m),并利用MapReduce计算协方差矩阵值rij,具体过程为:
(3.1)将矩阵X(n×m)和矩阵XT (m×n)存储在分布式文件系统中,每个矩阵分布存储的块数为K。
(3.2)在Map阶段,将矩阵XT (m×n)中的每个元素值bij的key值标记为[i,k](k=1,…,m),而value值,按如下顺序[矩阵标记mt:位置标记lt,元素值]标记为[b:j,bij],所形成的键值对为<[i,k],[b:j,bij]>;
(3.3)在相同的Map阶段,再将矩阵X(n×m)中的每个元素值aij的key值标记为[k,j](k=1,…,m),而value值按如下顺序[矩阵标记mt:位置标记lt,元素值]标记为[a:i,aij],所形成的键值对为<[k,j],[a:i,aij]>;
(3.4)在Reduce阶段,Reducer将具有相同key值的元素值aij和bij聚集在一起,对于key值为[i,j]的所有键值对,将具有不同矩阵标记mt而具有相同位置标记lt的元素值相乘,再将不同位置标记lt的乘积结果相加即为协方差矩阵值rij
(4)计算协方差矩阵R(m×m)的特征值和特征向量:
(5)利用方差贡献率η选择主元个数k,其中η为0.85,并确定主元对应特征值构成的对角矩阵Λ
(6)将特征值从大至小排序,并选择前k个特征值对应的特征向量组成投影矩阵P:
(7)基于MapReduce框架计算每个样本的T2统计量,T2 i=xi-1PTxi T,具体过程为:
(7.1)将矩阵X(n×m)存储在分布式文件系统中,每个矩阵分布存储的块数为K;
(7.2)在Map阶段将在不同数据块中的每个样本xi并行地按照上式与投影矩阵P和对角矩阵Λ相乘,再将计算后的值的key标注为1,从而可形成键值对<1,xi-1PTxi T>;
(7.3)在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为所有样本对应的T2统计量。
(8)基于MapReduce框架计算每个样本的重构值及SPE统计量,具体过程为:
(8.1)将矩阵X(n×m)存储在分布式文件系统中,每个矩阵分布存储的块数为K;
(8.2)在Map阶段将在不同数据块中的每个样本的主元Ti并行地按照上式与投影矩阵P相乘,再将计算后的重构结果与原样本计算在各个变量上的残差平方和即为SPE统计量SPEi,并将所计算出的残差平方和的key标注为1,形成键值对
(8.3)在Reduce阶段将所有具有key为1的键值对的value进行输出,输出结果即为所有样本对应的SPE统计量;
(9)计算T2和SPE统计量的控制限:
所述计算T2控制限的公式为,其中n为样本个数,k为主元个数,Fk,n-k,α为服从自由度为k和n-k的F分布,α为置信度:
所述计算SPE控制限的公式为:
其中 表示协方差矩阵的特征值,α表示显著性水平,cα是正态分布在显著性水平为α下的临界值;
(10)将故障数据样本集的统计量T2与控制限T2 i,lim比对,统计量SPE与控制限SPEi,lim比对,只要有一个统计量超过控制限,即为故障;若两个统计量均没有超过控制限,即为正常样本。
(11)将实时数据样本输入,重复步骤(2)-(10),直至完成对所有数据样本的监测。
CN201910421442.6A 2019-05-21 2019-05-21 基于连续MapReduce的分布并行PCA过程监测建模方法 Active CN110110814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910421442.6A CN110110814B (zh) 2019-05-21 2019-05-21 基于连续MapReduce的分布并行PCA过程监测建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910421442.6A CN110110814B (zh) 2019-05-21 2019-05-21 基于连续MapReduce的分布并行PCA过程监测建模方法

Publications (2)

Publication Number Publication Date
CN110110814A true CN110110814A (zh) 2019-08-09
CN110110814B CN110110814B (zh) 2021-05-04

Family

ID=67491263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910421442.6A Active CN110110814B (zh) 2019-05-21 2019-05-21 基于连续MapReduce的分布并行PCA过程监测建模方法

Country Status (1)

Country Link
CN (1) CN110110814B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158873A (zh) * 2007-09-26 2008-04-09 东北大学 一种非线性过程故障诊断方法
CN101458522A (zh) * 2009-01-08 2009-06-17 浙江大学 基于主元分析和支持向量数据描述的多工况过程监控方法
CN104729678A (zh) * 2015-03-16 2015-06-24 温州大学 一种轴承运行状态的主元分析方法
EP2976681A1 (en) * 2013-03-19 2016-01-27 Penteract28 Limited Apparatus for reducing data volumes
CN108227653A (zh) * 2017-12-28 2018-06-29 湖州师范学院 一种基于随机化核主元分析的大规模非线性过程监控方法
CN108416106A (zh) * 2018-02-05 2018-08-17 江苏方天电力技术有限公司 基于多尺度主元分析的给水泵故障检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158873A (zh) * 2007-09-26 2008-04-09 东北大学 一种非线性过程故障诊断方法
CN101458522A (zh) * 2009-01-08 2009-06-17 浙江大学 基于主元分析和支持向量数据描述的多工况过程监控方法
EP2976681A1 (en) * 2013-03-19 2016-01-27 Penteract28 Limited Apparatus for reducing data volumes
CN104729678A (zh) * 2015-03-16 2015-06-24 温州大学 一种轴承运行状态的主元分析方法
CN108227653A (zh) * 2017-12-28 2018-06-29 湖州师范学院 一种基于随机化核主元分析的大规模非线性过程监控方法
CN108416106A (zh) * 2018-02-05 2018-08-17 江苏方天电力技术有限公司 基于多尺度主元分析的给水泵故障检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KANG, SHENG,ET.AL: "A study for big-data (Hadoop) application in semiconductor manufacturing", 《2016 IEEE INTERNATIONAL CONFERENCE ON INDUSTRIAL ENGINEERING AND ENGINEERING MANAGEMENT (IEEM).》 *
WILLIAM CHENG-CHUNG CHU,ET.AL: "Anomaly Detection in Hadoop Clusters Using PCA and DBSCAN", 《FRONTIERS IN ARTIFICIAL INTELLIGENCE AND APPLICATIONS》 *
王远志: "基于Hadoop的全网络流量异常监测算法研究", 《中国优秀硕士学位论文全文数据库》 *
葛志强: "复杂工况过程统计监测方法研究", 《中国优秀博士学位论文全文数据库》 *
黄志兰: "基于MapReduce的PCA异常流量检测系统实现", 《电信科学》 *

Also Published As

Publication number Publication date
CN110110814B (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN103235974B (zh) 一种提高海量空间数据处理效率的方法
CN106951695A (zh) 多工况下的机械设备剩余使用寿命计算方法及系统
US20090292386A1 (en) System and Method for Automatic Virtual Metrology
CN110992113A (zh) 基于神经网络智能算法的基建变电站项目造价预测方法
CN106647650B (zh) 基于变量加权pca模型的分散式工业过程监测方法
CN111796233B (zh) 双母线接线形式下多台电压互感器继发性误差的评估方法
CN108241348A (zh) 一种数据驱动的工业过程实时监测与故障检测方法
CN102621953B (zh) 一种橡胶硬度的在线自动质量监控和预测模型更新的方法
CN110837952A (zh) 一种基于博弈论的电网新技术设备选择方法及系统
Liu et al. Surface roughness prediction method of titanium alloy milling based on CDH platform
CN109658150A (zh) 产品价格的预测方法、装置、计算机设备及存储介质
CN110110814A (zh) 基于连续MapReduce的分布并行PCA过程监测建模方法
Yang et al. Design of ai-enhanced drug lead optimization workflow for hpc and cloud
CN111965442A (zh) 一种数字孪生环境下的能源互联网故障诊断方法及装置
CN110427019A (zh) 一种基于多变量判别分析的npda故障分类方法及控制装置
CN108170646A (zh) 快速收敛的带有稀疏扰动的量子态重构方法
CN109165740A (zh) 基于区间层次分析的产品子系统的故障时间计算方法
Zhao et al. Research on quality control application of whole process intelligent manufacturing in steel industry 4.0 based on big data analysis
CN102262188B (zh) 工件抽样检验的方法
CN109656202B (zh) 基于局部和结构一致性流形gmm的多模态过程监测方法
Zhang et al. Phase partition and online monitoring for batch processes based on Harris hawks optimization
CN106203502A (zh) 基于流形结构的集成聚类数据处理方法
CN105844376A (zh) 一种识别因子对业务系统影响度的方法及装置
CN113870950B (zh) 一种稻瘟菌侵染水稻关键sRNA识别系统及识别方法
CN113239187B (zh) 一种基于多层级工业结构知识块划分的监测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant