CN108108758A

CN108108758A - 面向工业大数据的多层增量特征提取方法

Info

Publication number: CN108108758A
Application number: CN201711369011.7A
Authority: CN
Inventors: 莫燮彬
Original assignee: Foshan Micang Storehouse Technology Co Ltd
Current assignee: Foshan Micang Storehouse Technology Co Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-06-01

Abstract

本发明提出了一种面向工业大数据的多层增量特征提取方法，其特征在于，包括如下步骤：首先对实时数据采用滑动窗口动态更新数据，对上一个窗口数据利用基于反k近邻方法检测离群点，然后基于IPCA进行初步特征提取，对初步提取的特征进行增量更新协方差矩阵的特征值和特征向量；根据Fisher准则函数量化主元信息，通过熵值法分析主元贡献率和判别能力权重；然后获取主元综合得分、筛选主元；此时进行第二次特征提取，提取的特征与当前窗口的数据进行投影进行增量线性判别分析；最后降维喝分类后的数据样本。

Description

面向工业大数据的多层增量特征提取方法

技术领域

本发明涉及一种面向工业大数据的多层增量特征提取方法。

背景技术

德国工业4.0及中国制造2025的提出，使工业智能化发展快速升温，大量物联网传感器及带数据接口装备的使用，形成了海量的工业实时数据，设计业务、生产业务、质量检测业务及运维业务的正确设计与执行对过程实时数据依赖越来越强烈，对大数据实时处理技术提出了更高的要求。由于工业数据采集技术、通讯技术、采集成本、数据存储等限制，以及目前个性化定制化产品的日益增多，使得大数据中存在数据维度高，数据样本小，以及低价值数据多等问题，这些问题使得数据实时分析难度加大。

因此，为了充分发挥工业大数据的实时处理作用，就必须对工业大数据进行实时降维处理，特征提取是常用方法之一，其原理是将原数据空间通过线性或非线性方法映射到一个维度更低、变量间相互独立的特征空间。通过该变换来消除变量之间的相关性，降低噪音并删除冗余信息，以较少的新变量之间的互补作用来最大限度地保留原始数据的信息。目前数据降维方法多以传统方法为基础，对新到达数据进行快速更新计算。传统特征提取方法主要有主成分分析(Principal Component Analysis，PCA)、线性判别分析(LinearDiscriminant Analysis,LDA)和偏最小二乘法(Partial Least Squares,PLS)等：

1)在主成分分析方面，文献提出一种适用于处理分布式数据流的PCA算法，利用滑动时间窗口机制与并行计算模型相结合，完成数据流实时快速降维，更适合大规模数据流计算与应用；文献设计了一种增量核主成分分析算法，其迭代估计只占用线性内存开销，降低了运算复杂度；文献在增量核主成分分析的基础上，提出了一种针对大数据量的扩展增量核主成分分析算法，进一步减少了计算时间和内存使用量；文献提出了一种奇异值分解(Singular Value Decomposition,SVD)的核主成分分析算法，该算法首先利用降核主成分分析(Reduced Kernel Principal Component Analysis,RKPCA)选择观察值，然后使用增量和递减的内核矩阵SVD更新RKPCA模型，降低了对内存和计算时间的要求。

2)在线性判别分析方面，已有研究人员用增量更新的方式提高线性判别分析的运算效率，以满足实时性的要求，然而该方法在数据采集的初始阶段，数据量相对较小，会面临高维小样本问题，引起类内散度矩阵奇异化，导致获取最佳投影空间的最优化判别准则失效。针对该问题，文献使用了两个正则化标准，以导出类内散度矩阵范围空间内的规则判别向量和零空间中的不规则判别向量；文献提出一种改进的伪逆线性判别分析，解决了因类内散度矩阵奇异无法获得最佳投影空间的问题；文献利用粒子群算法寻优机制直接搜索合适的投影矢量，不必求解矩阵特征值和特征向量；文献研究并实现了张量子空间下的张量线性判别分析算法，同时修正了无法并行求解算法中两个投影矩阵的问题。3)在偏最小二乘法方面，文献设计了一种进行大批量数据流计算的增量偏最小二乘法；文献提出了一种增量高阶偏最小二乘法，通过随时间递归更新投影矩阵和核心张量，降低了存储器和运行时间的成本。上述传统特征提取方法中，LDA属于监督学习的方法，在降维的同时构建分类模型，在工业领域获得了更加广泛的应用，但是在实时数据处理方面有所欠缺，无法适应高维小样本实时数据特征的有效提取；改进的LDA虽然解决了因类内散度矩阵奇异无法获得最佳投影空间的问题，但在初步特征提取后的主元选择过程中，仅以最大程度存留样本的变异信息为原则，容易造成其判别信息的丢失。熵值法能够度量变量所含有的变化信息，在权重分析中得到广泛应用。因此，选用熵值法分配权重，进一步筛选主元，综合衡量各主元所包含的变异信息及其判别能力，结合增量线性判别分析(Incremental LinearDiscriminant Analysis,ILDA)实现降维，有效解决了高维小样本学习性能不佳的问题。

发明内容

基于上述问题，本发明针对工业大数据中的实时数据处理问题，结合熵值法和ILDA提出一种面向工业大数据的多层增量特征提取方法，在降维的同时兼顾其判别能力，并通过空间映射进行增量线性判别分析，以评估降维后数据的分类效果。

根据上述发明目的，本发明通过以下技术方案来实现：

一种面向工业大数据的多层增量特征提取方法，包括如下步骤：

首先对实时数据采用滑动窗口动态更新数据，对上一个窗口数据利用基于反k近邻方法检测离群点，然后基于IPCA进行初步特征提取，对初步提取的特征进行增量更新协方差矩阵的特征值和特征向量；根据Fisher准则函数量化主元信息，通过熵值法分析主元贡献率和判别能力权重；然后获取主元综合得分、筛选主元；此时进行第二次特征提取，提取的特征与当前窗口的数据进行投影进行增量线性判别分析；最后降维喝分类后的数据样本。

作为优选地，了避免离群点对增量主成分分析的影响，该方法首先采用滑动窗口动态更新数据，基于反k近邻(Reverse k-nearest neighbors,RKNN)过滤窗口内实时数据的离群点；其次利用增量主成分分析进行初步特征提取，避免了类内散度矩阵的特征值分解步骤，且每次新的实时数据到来时不需要重新扫描所有数据；然后综合衡量各主元所包含的变异信息及其判别能力，结合熵值法筛选主元新的特征空间，将当前窗口的高维数据通过ILDA方法投影，完成二次增量特征提取的同时确定样本类别。

本发明主要以IPCA、熵值法和ILDA为基础，提出一种面向工业大数据的多层增量特征提取方法。该方法首先利用IPCA对样本进行初步特征提取，同时利用周期更新的滑动窗口对当前窗口数据进行离群点检测和过滤，减少离群点对特征提取的影响。其次根据熵值法综合衡量各主元所包含的变异信息及判别能力，以该综合指标对各主元进行筛选，获取新的低维特征空间，最后将当前窗口的高维数据通过增量线性判别分析投影，完成二次特征提取的同时确定样本类别。仿真结果表明，该方法在保留样本变异信息的同时兼顾其判别能力，在此基础上实现降维，有效解决了高维小样本学习性能不佳的问题。

附图说明

图1为，多层增量特征提取方法具体流程图。

具体实施方式

为让本领域的技术人员更加清晰直观的了解本发明，下面将对本发明作进一步的说明。

一种面向工业大数据的多层增量特征提取方法，具体流程如图1所示。

了避免离群点对增量主成分分析的影响，该方法首先采用滑动窗口动态更新数据，基于反k近邻(Reverse k-nearest neighbors,RKNN)过滤窗口内实时数据的离群点；其次利用增量主成分分析进行初步特征提取，避免了类内散度矩阵的特征值分解步骤，且每次新的实时数据到来时不需要重新扫描所有数据；然后综合衡量各主元所包含的变异信息及其判别能力，结合熵值法筛选主元新的特征空间，将当前窗口的高维数据通过ILDA方法投影，完成二次增量特征提取的同时确定样本类别。

基于反k近邻的实时数据离群点检测

增量主成分分析对实时数据流中的离群点十分敏感，而在实际生产中，实时采集的工业数据包含部分故障数据，这些数据偏离正常值，称作离群点，对算法效果和稳定性影响较大，因此本文基于反k近邻检测离群点，利用滑动窗口更新当前数据，消除离群点对算法的影响，提高特征提取的精度。

对实时数据采集过程做如下定义：在当前t时刻，数据流表示为<x(1),t1>,<x(2),t2>,……，其中x表示数据流中的数据点。滑动窗口大小设为w，在任意时刻tn，滑动窗口的移动查询范围为{xmax(0,tn-w+1),…,xn}。max(0,tn-w+1)时刻之前的数据被认为是过期数据，不予考虑。基于反k近邻的实时数据离群点检测过程计算如下：

1)计算对象p的k近邻(KNNk(p))：对于任意正整数k，一个对象p与所有数据样本之间的距离，选取前k个最近的点(不包括对象p)作为它的k近邻，对象p的k近邻记为KNNk(p)。

2)计算对象p的k邻域(Nk(p))：所有到p的距离不超过KNNk(p)的对象的集合称为p的k距离邻域，记为Nk(p)。

3)计算对象p的反k近邻(RKNNk(p))：对于q∈D，p∈Nk(q)则称q是p的反k近邻，记作RKNNk(p)，即RKNNk(p)＝{q∈D|p∈Nk(q)}。

4)计算基于反k近邻的离群点：当前窗口反k近邻数最少的m个对象即为基于反k近邻离群点集合。

经过计算可以得到：一个对象p的反k近邻个数越少，证明它的离群度越大。因此，基于对象p的反k近邻可以检测离群点。

当数据样本维数远大于样本数，即高维小样本情况时，数据集所有内协方差矩阵具有奇异性，无法求逆，难以获得最佳投影空间，无法有效地区分样本类别。本文首先采用增量PCA对样本初步特征提取来消除样本数据内协方差矩阵的奇异性；其次利用Fisher准则函数量化各主元所包含的分类信息；然后根据熵值法进行权重分析，综合衡量各主元的判别能力及所包含的变异信息来对主元进行筛选，最后进行增量线性判别进行二次特征提取，降维的同时完成分类，并依据分类结果对降维效果进行评价。

具体方法描述如下：

1)初步增量特征特征提取

基于增量主成分分析进行样本数据特征提取，增量更新内协方差矩阵特征值和特征向量，将各特征向量代入LDA的Fisher准则函数，定量描述其判别能力的大小。通过Fisher准则函数构建LDA的目标函数，确定最优投影方向，如式(1)所示，Fisher准则函数用于确定最优投影方向。

其中，J(W)为目标函数，W为矢量，Sb和Sw表示类内和类间散度矩阵，取极大化目标函数J(W)的特征向量W作为投影矩阵，即投影方向。

2)熵值法确定主元贡献率和判别能力权重

通过熵值法得到各主元贡献率和判别能力的权重，进而获取每一主元包含变异信息和判别信息的综合得分，m个指标、n个对象的体系的样本矩阵A＝(aij)m×n，归一化后得到R＝(rij)m×n。对该体系进行评估时，对第i个指标的熵值hi和熵权wi进行计算，计算公式如(2)、(3)所示：

其中第i个指标的第j个对象的比重

当f_ij＝0时，f_ij ln(f_ij)＝0。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、同替换、改进，均应包含在本发明的保护范围之内。

Claims

1.一种面向工业大数据的多层增量特征提取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种面向工业大数据的多层增量特征提取方法，其特征在于，所述方法首先采用滑动窗口动态更新数据，基于反k近邻过滤窗口内实时数据的离群点；其次利用增量主成分分析进行初步特征提取；然后综合衡量各主元所包含的变异信息及其判别能力，结合熵值法筛选主元新的特征空间，将当前窗口的高维数据通过ILDA方法投影，完成二次增量特征提取的同时确定样本类别。