CN115146689A

CN115146689A - 一种基于深度学习的动力系统高维测量数据降维方法

Info

Publication number: CN115146689A
Application number: CN202110278956.8A
Authority: CN
Inventors: 张凯; 李东; 刘若楠; 胡清华
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2022-10-04

Abstract

本发明公开了一种基于深度学习的动力系统高维测量数据降维方法的具体技术方案，包括如下步骤：步骤S1：采集数据并根据数据特点设计深度自编码器的网络结构；步骤S2：将数据输入深度自编码器，构造Loss并进行训练；步骤S3：去掉解码器，使用编码器编码。利用本发明基于深度学习的降维算法既可以应对线性数据也可以应对非线性数据，在训练好的前提下模型的运行速度也比较快，而且具有显式的降维函数，是一种比较优越的方法。实验表明，深度自编码器对数据进行降维后在分类任务中取得的效果全面优于线性降维和流形学习方法。这说明基于深度学习的方法能更有效的对高维数据进行去冗余和降维。

Description

一种基于深度学习的动力系统高维测量数据降维方法

技术领域

本发明涉及机器学习技术领域，用于大型动力系统高维测量数据的降维技术，尤其涉及一种基于深度学习的动力系统高维测量数据降维方法。

背景技术

随着计算机控制技术和传感器技术的普遍应用，动力装置上所安装的各类传感器越来越丰富，所监测的参数越来越多。目前中小型机组的监测参数多达数百个，大型动力装置的监测参数甚至达到了几千个模拟量和开关量。这样的监测方式，一方面使技术人员可以收集和获取更丰富的机组运行数据，能够更全面和深入地监测动力装置的运行状态，另一方面获取的大型动力装置的监测数据呈现出维数高、规模大和结构复杂等特性，其中存在着大量的冗余信息，这使得数据内部的规律和联系很难被发现，从而给基于关联网络模型的异常检测方法在工程实际中的应用带来了困难。因此，有必要对大型动力装置传感器网络进行简化，对高维度测量数据进行降维以剔除传感器关联网络中的冗余信息，突出系统的有效信息。

数据降维，又称为数据约减，主要将数据样本从输入空间通过线性或非线性变换映射到一个低维特征空间，从而获得一个关于原数据集的、紧致的低维的表示。通过数据降维，有如下作用：1)可以解决“维数灾难”等问题，缓解“信息丰富、知识贫乏”的现象；2)可以更好地认识和理解数据；3)能够在一定程度上消除数据中的噪声；4)将高维数据投影到低维(2维或3维)后，能够实现数据集的可视化；5)节省存储空间。

数据降维的本质是指利用某种线性或非线性映射方法，把原始高维度空间中的数据点在低维度空间中表达出来。根据映射方法的差异，常用数据降维方法主要包括线性数据降维与非线性数据降维两大类。

对于线性数据降维而言，其具体是指数据降维后获得的低维知识可以保留原始高维数据之间所存在的线性关系。线性降维是通过对训练样本进行学习，从而得到一个线性投影，然后再将高维的数据投影到该线性投影所张成的子空间中。各种线性降维算法的区别在于其优化的标准不同。经典的主成分分析(Principal Component Analysis，PCA)是将原始样本投影至最大化原始样本方差的方向,其最优化标准是优化投影至最大方差的方向；经典的线性判别分析(Linear Discriminate Analysis，LDA)的优化标准是优化投影使得投影后的样本的类间距离较大,同时类内距离较小。两者区别如图1所示：图1中左边为利用主成分分析算法的效果示意，右边为利用线性判别分析算法的效果示意。

典型的非线性降维方法为流形学习。流形学习可以定义为：由有限的样本点集合来计算嵌入在高维欧氏空间中的低维流形的问题。流形学习(manifold learning)假设数据在高维空间的分布位于某一更低维的流形上，基于这个假设来进行数据的分析。对于降维，要保证降维之后的数据同样满足与高维空间流形有关的几何约束关系。除此之外，流形学习还可以用实现聚类，分类以及回归算法。流形学习的示意图如图2所示。

常用的流形学习方法包括核化线性(KPCA)降维、多维标度法(MDS)、等距离映射(Isomap)、局部线性嵌入(LLE)等等。流形学习主要应用在数据降维、数据可视化等分析探索高维数据的任务中，能够很好地分析数据集的内蕴变量(也称为自由度，控制参数，或Articulation参数)。核化线性降维(KPCA)是对PCA的一种推广。KPCA主要利用了核函数，即对于当前非线性不可分数据，将其映射至更高维的空间至线性可分，再进行降维，而其中利用核函数可求得内积，进而得到样本在特征向量上的投影。多维标度法(MDS)的核心是：保证所有数据点对在低维空间中的距离等于在高维空间中的距离。等距离映射(Isomap)则对传统的MDS方法进行了改进，Tenenbaum等在ISOMAP中引入了“测地距离”的概念，通过保持在高维空间中，两个数据点的测地距离到映射的低维空间中不变的目标，构造出低维流形结构。ISOMAP通过对数据邻域图中最短路径的估计来逼近数据点间的测地距离。有文献证明，在均匀且充足的数据采样条件下，最短路径距离可以收敛于测地距离。局部线性嵌入(LLE)认为每一个数据点都可以由其近邻点的线性加权组合构造得到。算法的主要步骤分为三步：1)寻找每个样本点的k个近邻点；2)由每个样本点的近邻点计算出该样本点的局部重建权值矩阵；3)由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。

总之，对于一般的线性降维方法来说，虽然具有算法简单、运行速度快、有显式降维函数的优点，但是不能适用于工业中常见的非线性数据，而且计算使用的谱分解方法对离群点比较敏感；以流形学习为代表的的非线性学习方法虽然适用于非线性降维，但是其运行较慢，部分算法对于参数的依赖性较强，而且没有显式的降维函数。

深度学习技术是近年比较流行的一种机器学习技术。深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。因此，“深度模型”是手段，“特征学习”是目的。区别于传统的浅层学习，深度学习的不同在于：1)强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；2)明确突出了特征学习的重要性，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。同时，由于深度学习技术对于特征提取具有强大的能力，因此也可以将其用在高维数据的降维任务中。

发明内容

本申请提供了一种基于深度学习的动力系统高维测量数据降维方法。

本发明提供的一种基于深度学习的动力系统高维测量数据降维方法的具体技术方案，包括如下步骤：

步骤S1：采集数据并根据数据特点设计深度自编码器的网络结构；

步骤S2：将数据输入深度自编码器，构造Loss并进行训练；

步骤S3：去掉解码器，使用编码器编码。

其中，

所述步骤S1包括如下步骤：

步骤S11：去除测量数据中的开关量；

步骤S12：将数据对齐并归一化构造成若干训练样本；

步骤S13：根据数据样本的维度，设计深度自编码器的网络结构，所述深度自编码器的网络结构的输入层与输出层的维度与样本的维度相同。

其中，

在所述步骤S2中，

以最小化原始输入和重构输入之间的均方误差为目标函数，从而进行参数调整，其损失函数Loss采用MSELoss，并对网络参数进行正则避免过拟合，构造目标函数如下：

其中第一项为MSELoss；第二项为正则项；m为样本数量；W和b为网络参数；f(·)代表自编码器网络；x⁽ⁱ⁾代表第i个样本；f(W,b；x⁽ⁱ⁾)为自编码器网络对样本x⁽ⁱ⁾的重构；λ为正则项系数，为一超参数。

其中，

在所述步骤S2中，使用反向传播及梯度下降算法最小化目标函数，即可得到网络参数。

其中，

在所述步骤S2中，进行多轮训练，对超参数进行网格搜索，寻找最优超参数。

其中，

在所述步骤S3中：使用编码器编码具体为：将采集到的实际工业场景的原始数据首先进行与训练数据相同的预处理，即去除开关量并进行归一化，然后输入编码器中即可得到降维后的输出。

与现有技术相比，本发明的有益效果为，

利用本发明基于深度学习的降维算法既可以应对线性数据也可以应对非线性数据，在训练好的前提下模型的运行速度也比较快，而且具有显式的降维函数，是一种比较优越的方法。实验表明，深度自编码器对数据进行降维后在分类任务中取得的效果全面优于线性降维和流形学习方法。这说明基于深度学习的方法能更有效的对高维数据进行去冗余和降维。

附图说明

图1为利用现有技术中的主成分分析和线性判别分析算法效果示意图；

图2为利用现有技术中的流形学习方法效果示意图；

图3为本申请中采用的深度自动编码器模型图。

图4为本申请的方法流程图；

图5为本申请实验结果对比图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图4所示，本发明实施例提供了一种基于深度学习的动力系统高维测量数据降维方法的具体技术方案，包括如下步骤：

不同的动力系统的构造、用途、所采用的传感器、采集的数据类型都有其特点，因此要根据不同的数据特点设计相应的网络结构。

首先去除测量数据中的开关量，然后将数据对齐并归一化构造成若干训练样本。根据数据样本的维度，设计深度自编码器的网络结构。其中输入层与输出层的维度应该与样本的维度相同。而网络的层数、中间层的维度、采用的激活函数等等应作为超参数根据训练效果进行调整。

如图3所示，为本技术方案中采用深度自动编码器(Deep Auto-encoder)模型结构。自编码器是一种无监督学习模型，其思想是通过构造具有一层维度较窄的瓶颈层的神经网络，此神经网络的输入层与输出层维度相同。将原始数据输入网络然后得到一个相同维度的输出，并约束输出数据与原始数据之间的差距最小。经过这种约束，可以使得瓶颈层的输出最大可能的保留原始数据的信息，实现去冗余和降维的效果。此瓶颈层的输出即为原始数据的编码，网络前半部分为编码器，后半部分为解码器。编码器的作用是对原始数据进行编码，而解码器则是用来解码，或者说对原始数据的重构。由此可以看出，自编码器模型不仅可以提取原数据在隐含层的表示形式即特征提取，还可以学习到高效的编码方法，或者说对高维数据进行降维。它不需要预先知道训练样本的类别信息，而是以原始输入作为校验，是一种无监督的表示学习方法，从而实现对海量高维数据的降维处理。典型的自动编码器包含一个输入层(与原始数据相对应)、一个或多个隐含层(完成特征转换)以及一个输出层。特别地，当中间隐含层多于一层时，即可称为深度自动编码器。

步骤S2：将数据输入深度自编码器，构造Loss并进行训练；

其中，使用反向传播及梯度下降算法最小化目标函数，即可得到网络参数。

其中，进行多轮训练，对超参数进行网格搜索，寻找最优超参数。

步骤S3：去掉解码器，使用编码器编码。

在实际工业场景中应用时，首先需要去掉训练好的模型的解码器部分，而只保留编码器部分。将采集到的实际工业场景的原始数据首先进行与训练数据相同的预处理，即去除开关量并进行归一化，然后输入编码器中即可得到降维后的输出。

实验过程及结果：

针对X动力装置中的前三超压正常喷雾与前三超压喷雾故障设计了故障诊断方法，数据集共5171条记录，将每一条记录看作是一个样本点，随机抽取4000个样本作为训练集，剩余样本作为测试集。样本维度为99个(去除了时间轴以及开关量)。分类器使用的是SVM，分别对原始数据以及使用PCA、ISOMAP、DAE降维后的3、10、20维数据进行分类实验，故障诊断率为正确识别出的故障记录比例。实验结果如图5所示。

需要说明的是，本申请中未详述的技术方案，采用公知技术。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度学习的动力系统高维测量数据降维方法，其特征在于，包括如下步骤：

步骤S2：将数据输入深度自编码器，构造Loss并进行训练；

步骤S3：去掉解码器，使用编码器编码。

2.根据权利要求1所述的一种基于深度学习的动力系统高维测量数据降维方法，其特征在于，

所述步骤S1包括如下步骤：

步骤S11：去除测量数据中的开关量；

步骤S12：将数据对齐并归一化构造成若干训练样本；

3.根据权利要求1所述的一种基于深度学习的动力系统高维测量数据降维方法，其特征在于，

在所述步骤S2中，

其中第一项为MSELoss；第二项为正则项；m为样本数量；W和b为网络参数；f(·)代表自编码器网络；x⁽ⁱ⁾代表第i个样本；f(W，b；x⁽ⁱ⁾)为自编码器网络对样本x⁽ⁱ⁾的重构；λ为正则项系数，为一超参数。

4.根据权利要求3所述的一种基于深度学习的动力系统高维测量数据降维方法，其特征在于，

5.根据权利要求3所述的一种基于深度学习的动力系统高维测量数据降维方法，其特征在于，

6.根据权利要求1所述的一种基于深度学习的动力系统高维测量数据降维方法，其特征在于，

在所述步骤S3中：

使用编码器编码具体为：将采集到的实际工业场景的原始数据首先进行与训练数据相同的预处理，即去除开关量并进行归一化，然后输入编码器中即可得到降维后的输出。