CN110110814A

CN110110814A - 基于连续MapReduce的分布并行PCA过程监测建模方法

Info

Publication number: CN110110814A
Application number: CN201910421442.6A
Authority: CN
Inventors: 葛志强; 张鑫宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-08-09
Anticipated expiration: 2039-05-21
Also published as: CN110110814B

Abstract

本发明公开了一种基于连续MapReduce的分布并行PCA过程监测建模方法，属于工业过程监测与控制领域。该方法给出了基于MapReduce的分布并行设计方案，其中包括利用三次MapReduce实现大规模数据的标准化，基于事先标记矩阵相乘所需元素的方法，通过一次MapReduce实现大规模矩阵相乘进而计算出协方差矩阵，最后在计算T²和SPE统计量时利用一次MapReduce实现每个样本与投影矩阵并行相乘，通过上述连续的MapReduce操作能够将一些随样本量增加而耗时的操作进行分解，并行地完成运算，能够有效地提升PCA过程监测模型的建模速度。

Description

基于连续MapReduce的分布并行PCA过程监测建模方法

技术领域

本发明属于工业过程监测与控制领域，涉及一种基于连续MapReduce的分布并行PCA过程监测建模方法。

背景技术

在工业生产过程中由于机器自身老化等原因或外界因素的干扰往往会出现生产故障，而故障最直观的体现即为质量变量的变化。质量变量的波动会直接影响到所生产的产品上，导致产品的质量会大幅度下降，会对工业企业造成很大的损失，因此进行工业生产过程故障监测是十分必要的。

而基于数据驱动的故障监测方法目前十分常用，由于故障发生后质量变量在数据上会发生相应的变化，如果能够基于正常的质量变量数据建立故障监测模型，并形成监测指标的控制限，即可通过观测过程数据对应的监控指标是否超限来判断过程是否发生故障。而目前使用最为普遍的基于数据驱动的故障监测模型时主元分析模型(PCA)，它主要的思路是先利用数据协方差矩阵特征值分解的策略提取正常数据的主元及投影向量，再利用主元和数据的重构误差构建主元空间T²和残差空间SPE以及对应的控制限，对于待监测的样本同样计算两项指标T²和SPE，若超过控制限，则说明发生故障。

目前随着现代工业和计算机技术的不断发展，工业过程中能够积累的数据越来越多，逐渐形成了一系列的工业大数据问题，传统的基于数据驱动的过程监测模型不论在时间上还是效果上都很难在大规模数据上应用，其中便包括用于过程监测的PCA模型，有上述介绍可知PCA模型主要是先将数据标准化，再通过对数据协方差矩阵的特征值分解而获得投影向量，最后利用投影向量与每个样本相乘而获得主元的，因此在上述步骤中，数据的标准化需要先计算均值，标准差，再逐次地对每条样本进行处理，若在大量数据情况下会十分耗时；而在计算协方差矩阵时采用的是将标准化后的数据矩阵相乘的思路，同样在计算两个规模十分庞大的矩阵乘法时也会产生很大的时间开销；然而在特征值分解阶段，由于协方差矩阵的阶数是单条样本的变量数，一般变量的个数会远小于样本个数，因此该阶段的时间开销不会很大；接下来利用提取出的特征向量组成投影矩阵计算每个样本对应的T²统计量时，以及根据主元和投影矩阵计算样本重构值时，由于仍要逐条地将投影矩阵与样本进行相乘或者与每条样本的主元相乘，因此在数据量很大时计算会比较耗时。

发明内容

针对现有在大规模数据下PCA过程监测建模的不足，本发明提出了一种基于连续MapReduce的分布并行PCA过程监测建模方法，该方法针对PCA过程监测建模过程中4个连续的较为耗时的步骤，包括数据标准化，协方差矩阵计算，计算样本主元，计算样本重构值，分别提供了基于MapReduce的分布并行设计方案，由于模型主要耗时的部分均采用了分布并行思路的设计，因此在总体上能够较为明显地节省PCA在大规模数据下的建模时间。

本发明是通过以下技术方案实现的：一种基于连续MapReduce的分布并行PCA过程监测建模方法，包括以下步骤：

(1)收集历史工业过程中正常数据样本集和故障数据样本集，正常数据样本集中共有n个样本，每个样本具有m个过程变量，正常数据样本集表示为S_normal(x)＝{x_i|i＝1,2，…,n}，其中x_i为变量，共有m个列，x_i∈R^1×m；并用S_normal(x_i)表示正常样本集中第i个样本，故障数据样本集与正常数据样本集具有相同的形式，表示为S_fault(x)＝{x_i|i＝1,2，…,n_t}，n_t为故障数据样本集中的样本个数。

(2)基于MapReduce框架将步骤(1)中的得到的正常数据样本集和故障数据样本集进行分布式标准化，具体过程为：

(2.1)将正常数据样本集中的样本S_normal(x)存储在分布式文件系统中，分布存储的块数为K。

(2.2)在第一次MapReduce操作中，在Map阶段将在不同数据块中的每个样本并行地转换为key为1的键值对<1,S_normal(x_i)>，在Reduce阶段将所有具有key为1的value的各个变量对应求和并除以总样本数n，得到样本各个变量的均值向量μ∈R^1×m；

(2.3)在第二次MapReduce操作中，在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量，并将结果平方，再将平方后的值的key标注为1，从而可形成键值对<1,(S_normal(x_i)-μ)²>，在Reduce阶段将所有具有key为1的键值对的value的各个变量对应求和并除以总样本数n，同时计算平方根，得到样本各个变量的标准差向量σ∈R^1×m；

(2.4)在第三次MapReduce操作中，在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量，再除以标准差向量，再将计算后的值的key标注为1，从而可形成键值对<1,(S_normal(x_i)-μ)/σ>，在Reduce阶段将所有具有key为1的键值对的value进行输出，输出结果即为标准化后的正常数据样本集S_std_normal；

(2.5)利用正常数据样本集的均值和标准差求得(S_fault(x_i)-μ)/σ，形成的标准化后的故障数据样本集为S_std_fault；

(3)将标准化后的正常数据样本集S_std_normal改写为矩阵形式X_(n×m)，并利用MapReduce计算协方差矩阵值r_ij，具体过程为：

(3.1)将矩阵X_(n×m)和矩阵X^T _(m×n)存储在分布式文件系统中，每个矩阵分布存储的块数为K。

(3.2)在Map阶段，将矩阵X^T _(m×n)中的每个元素值b_ij的key值标记为[i,k](k＝1,…,m)，而value值,按如下顺序[矩阵标记mt:位置标记lt,元素值]标记为[b:j,b_ij]，所形成的键值对为<[i,k],[b:j,b_ij]>；

(3.3)在相同的Map阶段，再将矩阵X_(n×m)中的每个元素值a_ij的key值标记为[k,j](k＝1,…,m)，而value值按如下顺序[矩阵标记mt:位置标记lt,元素值]标记为[a:i,a_ij]，所形成的键值对为<[k,j],[a:i,a_ij]>；

(3.4)在Reduce阶段，Reducer将具有相同key值的元素值a_ij和b_ij聚集在一起，对于key值为[i,j]的所有键值对，将具有不同矩阵标记mt而具有相同位置标记lt的元素值相乘，再将不同位置标记lt的乘积结果相加即为协方差矩阵值r_ij即

(4)计算协方差矩阵R_(m×m)的特征值和特征向量：

(5)利用方差贡献率η选择主元个数k，其中η为0.85，并确定主元对应特征值构成的对角矩阵Λ

(6)将特征值从大至小排序，并选择前k个特征值对应的特征向量组成投影矩阵P：

(7)基于MapReduce框架计算每个样本的T²统计量，T² _i＝x_iPΛ^-1P^Tx_i ^T，具体过程为：

(7.1)将矩阵X_(n×m)存储在分布式文件系统中，每个矩阵分布存储的块数为K；

(7.2)在Map阶段将在不同数据块中的每个样本x_i并行地按照上式与投影矩阵P和对角矩阵Λ相乘，再将计算后的值的key标注为1，从而可形成键值对<1,x_iPΛ^-1P^Tx_i ^T>；

(7.3)在Reduce阶段将所有具有key为1的键值对的value进行输出，输出结果即为所有样本对应的T²统计量。

(8)基于MapReduce框架计算每个样本的重构值及SPE统计量，具体过程为：

(8.1)将矩阵X_(n×m)存储在分布式文件系统中，每个矩阵分布存储的块数为K；

(8.2)在Map阶段将在不同数据块中的每个样本的主元T_i并行地按照上式与投影矩阵P相乘，再将计算后的重构结果与原样本计算在各个变量上的残差平方和即为SPE统计量SPE_i，并将所计算出的残差平方和的key标注为1，形成键值对

(8.3)在Reduce阶段将所有具有key为1的键值对的value进行输出，输出结果即为所有样本对应的SPE统计量；

(9)计算T²和SPE统计量的控制限：

所述计算T²控制限的公式为，其中n为样本个数，k为主元个数，F_k,n-k,α为服从自由度为k和n-k的F分布，α为置信度：

所述计算SPE控制限的公式为：

其中λ_jr表示协方差矩阵的特征值，α表示显著性水平，c_α是正态分布在显著性水平为α下的临界值；

(10)将故障数据样本集的统计量T²与控制限T² _i,lim比对，统计量SPE与控制限SPE_i,lim比对,只要有一个统计量超过控制限，即为故障；若两个统计量均没有超过控制限，即为正常样本。

(11)将实时数据样本输入，重复步骤(2)-(10)，直至完成对所有数据样本的监测。

与现有技术相比，本发明具有的有益效果是：针对PCA在样本数量较多情况下建模存在的较为耗时的连续环节，给出了基于MapReduce的分布并行设计方案，其中包括利用三次MapReduce实现大规模数据的标准化，基于事先标记矩阵相乘所需元素的方法，通过一次MapReduce实现大规模矩阵相乘进而计算出协方差矩阵，最后在计算T²和SPE统计量时利用一次MapReduce实现每个样本与投影矩阵并行相乘，通过上述连续的MapReduce操作能够将一些随样本量增加而耗时的操作进行分解，并行地完成运算，能够有效地提升PCA过程监测模型的建模速度。

附图说明

图1为本发明分布式标准化的流程图；

图2为2×2方阵协方差矩阵计算过程；

图3为计算每个样本的T²统计量的流程图；

图4为每个样本的重构值及SPE统计量计算的流程图；

图5为TE基准过程的流程图；

图6为正常数据建模的中间结果图；

图7为960条测试数据上的监测效果图。

具体实施方式

下面结合具体实施方式对本发明基于连续MapReduce的分布并行PCA过程监测建模方法作进一步的详述。

一种基于连续MapReduce的分布并行PCA过程监测建模方法，包括以下步骤：

(1)收集历史工业过程中正常数据样本集和故障数据样本集，正常数据样本集中共有n个样本，每个样本具有m个过程变量，因此正常数据样本集可以表示为S_normal(x)＝{x_i|i＝1,2，…,n}，其中x_i为变量，共有m个列，x_i∈R^1×m；并用S_normal(x_i)表示正常样本集中第i个样本，故障数据样本集与正常数据集具有相同的形式，可以表示为S_fault(x)＝{x_i|i＝1,2，…,n_t}，n_t为故障数据样本集中的样本个数。

(2)基于MapReduce框架将步骤(1)中的所得到的正常数据样本集和故障数据样本集进行分布式标准化，标准化的目的是消除量纲对模型的影响，由于该操作需要计算均值和标准差并分别对每个样本进行标准化，在数据量过大时串行计算十分耗时，因此本发明将其设计为分布式形式，分布式标准化过程流程图如图1所示，具体过程为：

(2.2)在第一次MapReduce操作中，在Map阶段将在不同数据块中的每个样本并行地转换为key为1的键值对<1,S_normal(x_i)>，在Reduce阶段将所有具有key为1的value的各个变量对应求和并除以总样本数n，即可得到样本各个变量的均值向量μ∈R^1×m。

(2.3)在第二次MapReduce操作中，在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量，并将结果进行平方，再将平方后的值的key标注为1，从而可形成键值对<1,(S_normal(x_i)-μ)²>，在Reduce阶段将所有具有key为1的键值对的value的各个变量对应求和并除以总样本数n，同时计算平方根，即可得到样本各个变量的标准差向量σ∈R^1×m。

(2.4)在第三次MapReduce操作中，在Map阶段将在不同数据块中的每个样本的各个变量并行地减去均值向量，再除以标准差，再将计算后的值的key标注为1，从而可形成键值对<1,(S_normal(x_i)-μ)/σ>，在Reduce阶段将所有具有key为1的键值对的value进行输出，输出结果即为标准化后的正常数据样本集S_std_normal。

(2.5)故障数据样本集的标准化只需通过下式利用正常数据样本集的均值和标准差求得(S_fault(x_i)-μ)/σ，所形成的标准化后的故障数据样本集为S_std_fault。

(3)将标准化后的正常数据样本集S_std_normal改写为矩阵形式X_(n×m)，并利用MapReduce计算协方差矩阵值r_ij，协方差矩阵的计算可以理解为两个样本矩阵的相乘，当数据量过大时样本矩阵的维度很高，计算矩阵乘法的时间为三次方复杂度，该步骤将十分耗时，因此本发明利用了MapReduce中分治思想，将用于计算结果矩阵某个位置的所有元素都提取到一块，并行地计算结果矩阵中的每一个元素，大大地节省了计算时间，具体过程为：

一般情况下计算协方差矩阵公式如下，其中矩阵X_(n×m)中的每个元素可以表示为a_ij(i＝1，2，…,n；j＝1,2,…,m)，而矩阵X^T _(m×n)中的每个元素可以表示为b_ij(i＝1，2，…,m；j＝1,2,…,n)矩阵R_(m×m)中的每个元素可以表示为r_ij(i,j＝1，2，…,m)

(3.2)在Map阶段，将矩阵X^T _(m×n)中的每个元素值b_ij的key值标记为[i,k](k＝1,…,m)而value值可按如下顺序[矩阵标记mt:位置标记lt,元素值]标记为[b:j,b_ij]，因此所形成的键值对为<[i,k],[b:j,b_ij]>

(3.3)在相同的Map阶段，再将矩阵X_(n×m)中的每个元素值a_ij的key值标记为[k,j](k＝1,…,m)而value值可按如下顺序[矩阵标记mt:位置标记lt,元素值]标记为[a:i,a_ij]，因此所形成的键值对为<[k,j],[a:i,a_ij]>

(3.4)在Reduce阶段，Reducer将具有相同key值的元素聚集在一起(将用于计算协方差矩阵值r_ij的所有a_ij和b_ij聚集在一起，一共形成m×m个reduce数据块)，对于key值为[i,j]的所有键值对，将具有不同矩阵标记mt而具有相同位置标记lt的元素进行相乘，再将不同位置标记lt的乘积结果进行相加即为协方差矩阵r_ij的值，即以2×2的方阵相乘为例，上述协方差矩阵值的计算过程如图2所示。

(4)计算协方差矩阵R_(m×m)的特征值和特征向量：

(5)利用方差贡献率η选择主元个数k，其中η为0.85，将主元贡献率设置较大的目的是让主元可以包含更为全面的数据波动信息，再确定主元对应特征值构成的对角矩阵Λ

(7)基于MapReduce框架计算每个样本的T²统计量，该步骤上述样本的分布式标准化思路相同，如果不采用分布式，每个样本都要串行地乘以投影矩阵，当数据量较大时计算较为耗时，因此本发明同样利用MapReduce的分块思想，将样本分为多块，并行地与投影矩阵相乘，节约运算时间，具体过程如图3所示：

所述计算每个样本T²统计量的方法如下式所示，其中P为投影矩阵：

T² _i＝x_iPΛ^-1P^Tx_i ^T

(7.1)将矩阵X_(n×m)存储在分布式文件系统中，每个矩阵分布存储的块数为K

(7.2)在Map阶段将在不同数据块中的每个样本x_i并行地按照上式与投影矩阵P和对角矩阵Λ相乘，再将计算后的值的key标注为1，从而可形成键值对<1,x_iPΛ^-1P^Tx_i ^T>

(8)基于MapReduce框架计算每个样本的重构值及SPE统计量，该步骤的分布式思路与步骤(7)相同，具体流程如图4所示：

所述计算每个样本的重构值的方法如下式所示：

所述计算每个样本SPE统计量的方法如下式所示：

(8.1)将矩阵X_(n×m)存储在分布式文件系统中，每个矩阵分布存储的块数为K。

(8.2)在Map阶段将在不同数据块中的每个样本的主元T_i并行地按照上式与投影矩阵P相乘，再将计算后的重构结果与原样本计算在各个变量上的残差平方和即为SPE统计量SPE_i，并将所计算出的残差平方和的key标注为1，从而可形成键值对

(8.3)在Reduce阶段将所有具有key为1的键值对的value进行输出，输出结果即为所有样本对应的SPE统计量。

(9)计算T²和SPE统计量的控制限，所述计算T²控制限和计算SPE控制限的公式分别为，其中n为样本个数，k为主元个数，F_k,n-k,α为服从自由度为k和n-k的F分布，α为置信度：

其中表示协方差矩阵的特征值，α表示显著性水平，c_α是正态分布在显著性水平为α下的临界值。

实施例

以下结合TE过程的故障数据监测来说明本发明的解决的技术问题。TE基准过程的流程图如图5所示。其中故障一中共有960条测试样本，其中前160条为正常数据，其后800条为由于阶跃干扰而产生的故障数据，首先利用本发明针对TE过程中的500条正常数据在三台相同配置的计算机(Intel Core i5-4590CPU及8G内存配置下的计算机)上进行分布式建模，再对整体960条测试数据进行监测，同时为了更好地展示测试结果，将本发明提出的模型集成到软件中，模型的所有中间结果和测试结果均可在软件中进行显示，其中本发明利用正常数据建模的中间结果如图6所示，采用本发明分布并行PCA以及使用单机版本的PCA建模时间如表1所示，同时本发明在960条测试数据上的监测效果如图7所示。

表1本发明与在单机模式下PCA建模时间对比

其中图6显示了建模过程的投影矩阵P，样本对应的主元值T_i，主元对应特征值构成的对角矩阵Λ，每个样本对应的T²和SPE统计量，以及T²和SPE的控制限，从T²和SPE曲线上可以看出用于建模的正常数据均在控制限以下，从表1可以看出，采用本发明提出的分布并行PCA在建模时间上要优于单机模型，而时间相差不大的原因是用于建模的数据量较少，实际上在较少数据量下用于建模的时间较短，因此分布式计算机之间的数据通讯和存取的时间就会产生较大的干扰，而在小数据量下本发明的建模时间仍小于单机模式，若在大规模数据下的建模时间必然会远小于单机模式。同时图7显示了对故障一测试数据的监测结果，在前160个正常数据中均未超限，而在此之后逐渐有非常明显的超限，这与实际的测试数据特性是相符的，验证了本发明能在节省时间的情况下保证PCA的过程监测效果。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于连续MapReduce的分布并行PCA过程监测建模方法，其特征在于，所述分布并行PCA过程监测建模方法包括以下步骤：

(4)计算协方差矩阵R_(m×m)的特征值和特征向量：

(9)计算T²和SPE统计量的控制限：

所述计算SPE控制限的公式为：

其中表示协方差矩阵的特征值，α表示显著性水平，c_α是正态分布在显著性水平为α下的临界值；