CN115146689A - 一种基于深度学习的动力系统高维测量数据降维方法 - Google Patents

一种基于深度学习的动力系统高维测量数据降维方法 Download PDF

Info

Publication number
CN115146689A
CN115146689A CN202110278956.8A CN202110278956A CN115146689A CN 115146689 A CN115146689 A CN 115146689A CN 202110278956 A CN202110278956 A CN 202110278956A CN 115146689 A CN115146689 A CN 115146689A
Authority
CN
China
Prior art keywords
data
dimension reduction
encoder
deep learning
measurement data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110278956.8A
Other languages
English (en)
Inventor
张凯
李东
刘若楠
胡清华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110278956.8A priority Critical patent/CN115146689A/zh
Publication of CN115146689A publication Critical patent/CN115146689A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的动力系统高维测量数据降维方法的具体技术方案,包括如下步骤:步骤S1:采集数据并根据数据特点设计深度自编码器的网络结构;步骤S2:将数据输入深度自编码器,构造Loss并进行训练;步骤S3:去掉解码器,使用编码器编码。利用本发明基于深度学习的降维算法既可以应对线性数据也可以应对非线性数据,在训练好的前提下模型的运行速度也比较快,而且具有显式的降维函数,是一种比较优越的方法。实验表明,深度自编码器对数据进行降维后在分类任务中取得的效果全面优于线性降维和流形学习方法。这说明基于深度学习的方法能更有效的对高维数据进行去冗余和降维。

Description

一种基于深度学习的动力系统高维测量数据降维方法
技术领域
本发明涉及机器学习技术领域,用于大型动力系统高维测量数据的降维技术,尤其涉及一种基于深度学习的动力系统高维测量数据降维方法。
背景技术
随着计算机控制技术和传感器技术的普遍应用,动力装置上所安装的各类传感器越来越丰富,所监测的参数越来越多。目前中小型机组的监测参数多达数百个,大型动力装置的监测参数甚至达到了几千个模拟量和开关量。这样的监测方式,一方面使技术人员可以收集和获取更丰富的机组运行数据,能够更全面和深入地监测动力装置的运行状态,另一方面获取的大型动力装置的监测数据呈现出维数高、规模大和结构复杂等特性,其中存在着大量的冗余信息,这使得数据内部的规律和联系很难被发现,从而给基于关联网络模型的异常检测方法在工程实际中的应用带来了困难。因此,有必要对大型动力装置传感器网络进行简化,对高维度测量数据进行降维以剔除传感器关联网络中的冗余信息,突出系统的有效信息。
数据降维,又称为数据约减,主要将数据样本从输入空间通过线性或非线性变换映射到一个低维特征空间,从而获得一个关于原数据集的、紧致的低维的表示。通过数据降维,有如下作用:1)可以解决“维数灾难”等问题,缓解“信息丰富、知识贫乏”的现象;2)可以更好地认识和理解数据;3)能够在一定程度上消除数据中的噪声;4)将高维数据投影到低维(2维或3维)后,能够实现数据集的可视化;5)节省存储空间。
数据降维的本质是指利用某种线性或非线性映射方法,把原始高维度空间中的数据点在低维度空间中表达出来。根据映射方法的差异,常用数据降维方法主要包括线性数据降维与非线性数据降维两大类。
对于线性数据降维而言,其具体是指数据降维后获得的低维知识可以保留原始高维数据之间所存在的线性关系。线性降维是通过对训练样本进行学习,从而得到一个线性投影,然后再将高维的数据投影到该线性投影所张成的子空间中。各种线性降维算法的区别在于其优化的标准不同。经典的主成分分析(Principal Component Analysis,PCA)是将原始样本投影至最大化原始样本方差的方向,其最优化标准是优化投影至最大方差的方向;经典的线性判别分析(Linear Discriminate Analysis,LDA)的优化标准是优化投影使得投影后的样本的类间距离较大,同时类内距离较小。两者区别如图1所示:图1中左边为利用主成分分析算法的效果示意,右边为利用线性判别分析算法的效果示意。
典型的非线性降维方法为流形学习。流形学习可以定义为:由有限的样本点集合来计算嵌入在高维欧氏空间中的低维流形的问题。流形学习(manifold learning)假设数据在高维空间的分布位于某一更低维的流形上,基于这个假设来进行数据的分析。对于降维,要保证降维之后的数据同样满足与高维空间流形有关的几何约束关系。除此之外,流形学习还可以用实现聚类,分类以及回归算法。流形学习的示意图如图2所示。
常用的流形学习方法包括核化线性(KPCA)降维、多维标度法(MDS)、等距离映射(Isomap)、局部线性嵌入(LLE)等等。流形学习主要应用在数据降维、数据可视化等分析探索高维数据的任务中,能够很好地分析数据集的内蕴变量(也称为自由度,控制参数,或Articulation参数)。核化线性降维(KPCA)是对PCA的一种推广。KPCA主要利用了核函数,即对于当前非线性不可分数据,将其映射至更高维的空间至线性可分,再进行降维,而其中利用核函数可求得内积,进而得到样本在特征向量上的投影。多维标度法(MDS)的核心是:保证所有数据点对在低维空间中的距离等于在高维空间中的距离。等距离映射(Isomap)则对传统的MDS方法进行了改进,Tenenbaum等在ISOMAP中引入了“测地距离”的概念,通过保持在高维空间中,两个数据点的测地距离到映射的低维空间中不变的目标,构造出低维流形结构。ISOMAP通过对数据邻域图中最短路径的估计来逼近数据点间的测地距离。有文献证明,在均匀且充足的数据采样条件下,最短路径距离可以收敛于测地距离。局部线性嵌入(LLE)认为每一个数据点都可以由其近邻点的线性加权组合构造得到。算法的主要步骤分为三步:1)寻找每个样本点的k个近邻点;2)由每个样本点的近邻点计算出该样本点的局部重建权值矩阵;3)由该样本点的局部重建权值矩阵和其近邻点计算出该样本点的输出值。
总之,对于一般的线性降维方法来说,虽然具有算法简单、运行速度快、有显式降维函数的优点,但是不能适用于工业中常见的非线性数据,而且计算使用的谱分解方法对离群点比较敏感;以流形学习为代表的的非线性学习方法虽然适用于非线性降维,但是其运行较慢,部分算法对于参数的依赖性较强,而且没有显式的降维函数。
深度学习技术是近年比较流行的一种机器学习技术。深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度模型”是手段,“特征学习”是目的。区别于传统的浅层学习,深度学习的不同在于:1)强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;2)明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。同时,由于深度学习技术对于特征提取具有强大的能力,因此也可以将其用在高维数据的降维任务中。
发明内容
本申请提供了一种基于深度学习的动力系统高维测量数据降维方法。
本发明提供的一种基于深度学习的动力系统高维测量数据降维方法的具体技术方案,包括如下步骤:
步骤S1:采集数据并根据数据特点设计深度自编码器的网络结构;
步骤S2:将数据输入深度自编码器,构造Loss并进行训练;
步骤S3:去掉解码器,使用编码器编码。
其中,
所述步骤S1包括如下步骤:
步骤S11:去除测量数据中的开关量;
步骤S12:将数据对齐并归一化构造成若干训练样本;
步骤S13:根据数据样本的维度,设计深度自编码器的网络结构,所述深度自编码器的网络结构的输入层与输出层的维度与样本的维度相同。
其中,
在所述步骤S2中,
以最小化原始输入和重构输入之间的均方误差为目标函数,从而进行参数调整,其损失函数Loss采用MSELoss,并对网络参数进行正则避免过拟合,构造目标函数如下:
Figure BDA0002977649930000041
其中第一项为MSELoss;第二项为正则项;m为样本数量;W和b为网络参数;f(·)代表自编码器网络;x(i)代表第i个样本;f(W,b;x(i))为自编码器网络对样本x(i)的重构;λ为正则项系数,为一超参数。
其中,
在所述步骤S2中,使用反向传播及梯度下降算法最小化目标函数,即可得到网络参数。
其中,
在所述步骤S2中,进行多轮训练,对超参数进行网格搜索,寻找最优超参数。
其中,
在所述步骤S3中:使用编码器编码具体为:将采集到的实际工业场景的原始数据首先进行与训练数据相同的预处理,即去除开关量并进行归一化,然后输入编码器中即可得到降维后的输出。
与现有技术相比,本发明的有益效果为,
利用本发明基于深度学习的降维算法既可以应对线性数据也可以应对非线性数据,在训练好的前提下模型的运行速度也比较快,而且具有显式的降维函数,是一种比较优越的方法。实验表明,深度自编码器对数据进行降维后在分类任务中取得的效果全面优于线性降维和流形学习方法。这说明基于深度学习的方法能更有效的对高维数据进行去冗余和降维。
附图说明
图1为利用现有技术中的主成分分析和线性判别分析算法效果示意图;
图2为利用现有技术中的流形学习方法效果示意图;
图3为本申请中采用的深度自动编码器模型图。
图4为本申请的方法流程图;
图5为本申请实验结果对比图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图4所示,本发明实施例提供了一种基于深度学习的动力系统高维测量数据降维方法的具体技术方案,包括如下步骤:
步骤S1:采集数据并根据数据特点设计深度自编码器的网络结构;
不同的动力系统的构造、用途、所采用的传感器、采集的数据类型都有其特点,因此要根据不同的数据特点设计相应的网络结构。
首先去除测量数据中的开关量,然后将数据对齐并归一化构造成若干训练样本。根据数据样本的维度,设计深度自编码器的网络结构。其中输入层与输出层的维度应该与样本的维度相同。而网络的层数、中间层的维度、采用的激活函数等等应作为超参数根据训练效果进行调整。
如图3所示,为本技术方案中采用深度自动编码器(Deep Auto-encoder)模型结构。自编码器是一种无监督学习模型,其思想是通过构造具有一层维度较窄的瓶颈层的神经网络,此神经网络的输入层与输出层维度相同。将原始数据输入网络然后得到一个相同维度的输出,并约束输出数据与原始数据之间的差距最小。经过这种约束,可以使得瓶颈层的输出最大可能的保留原始数据的信息,实现去冗余和降维的效果。此瓶颈层的输出即为原始数据的编码,网络前半部分为编码器,后半部分为解码器。编码器的作用是对原始数据进行编码,而解码器则是用来解码,或者说对原始数据的重构。由此可以看出,自编码器模型不仅可以提取原数据在隐含层的表示形式即特征提取,还可以学习到高效的编码方法,或者说对高维数据进行降维。它不需要预先知道训练样本的类别信息,而是以原始输入作为校验,是一种无监督的表示学习方法,从而实现对海量高维数据的降维处理。典型的自动编码器包含一个输入层(与原始数据相对应)、一个或多个隐含层(完成特征转换)以及一个输出层。特别地,当中间隐含层多于一层时,即可称为深度自动编码器。
步骤S2:将数据输入深度自编码器,构造Loss并进行训练;
以最小化原始输入和重构输入之间的均方误差为目标函数,从而进行参数调整,其损失函数Loss采用MSELoss,并对网络参数进行正则避免过拟合,构造目标函数如下:
Figure BDA0002977649930000061
其中第一项为MSELoss;第二项为正则项;m为样本数量;W和b为网络参数;f(·)代表自编码器网络;x(i)代表第i个样本;f(W,b;x(i))为自编码器网络对样本x(i)的重构;λ为正则项系数,为一超参数。
其中,使用反向传播及梯度下降算法最小化目标函数,即可得到网络参数。
其中,进行多轮训练,对超参数进行网格搜索,寻找最优超参数。
步骤S3:去掉解码器,使用编码器编码。
在实际工业场景中应用时,首先需要去掉训练好的模型的解码器部分,而只保留编码器部分。将采集到的实际工业场景的原始数据首先进行与训练数据相同的预处理,即去除开关量并进行归一化,然后输入编码器中即可得到降维后的输出。
实验过程及结果:
针对X动力装置中的前三超压正常喷雾与前三超压喷雾故障设计了故障诊断方法,数据集共5171条记录,将每一条记录看作是一个样本点,随机抽取4000个样本作为训练集,剩余样本作为测试集。样本维度为99个(去除了时间轴以及开关量)。分类器使用的是SVM,分别对原始数据以及使用PCA、ISOMAP、DAE降维后的3、10、20维数据进行分类实验,故障诊断率为正确识别出的故障记录比例。实验结果如图5所示。
需要说明的是,本申请中未详述的技术方案,采用公知技术。
以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于深度学习的动力系统高维测量数据降维方法,其特征在于,包括如下步骤:
步骤S1:采集数据并根据数据特点设计深度自编码器的网络结构;
步骤S2:将数据输入深度自编码器,构造Loss并进行训练;
步骤S3:去掉解码器,使用编码器编码。
2.根据权利要求1所述的一种基于深度学习的动力系统高维测量数据降维方法,其特征在于,
所述步骤S1包括如下步骤:
步骤S11:去除测量数据中的开关量;
步骤S12:将数据对齐并归一化构造成若干训练样本;
步骤S13:根据数据样本的维度,设计深度自编码器的网络结构,所述深度自编码器的网络结构的输入层与输出层的维度与样本的维度相同。
3.根据权利要求1所述的一种基于深度学习的动力系统高维测量数据降维方法,其特征在于,
在所述步骤S2中,
以最小化原始输入和重构输入之间的均方误差为目标函数,从而进行参数调整,其损失函数Loss采用MSELoss,并对网络参数进行正则避免过拟合,构造目标函数如下:
Figure FDA0002977649920000011
其中第一项为MSELoss;第二项为正则项;m为样本数量;W和b为网络参数;f(·)代表自编码器网络;x(i)代表第i个样本;f(W,b;x(i))为自编码器网络对样本x(i)的重构;λ为正则项系数,为一超参数。
4.根据权利要求3所述的一种基于深度学习的动力系统高维测量数据降维方法,其特征在于,
在所述步骤S2中,使用反向传播及梯度下降算法最小化目标函数,即可得到网络参数。
5.根据权利要求3所述的一种基于深度学习的动力系统高维测量数据降维方法,其特征在于,
在所述步骤S2中,进行多轮训练,对超参数进行网格搜索,寻找最优超参数。
6.根据权利要求1所述的一种基于深度学习的动力系统高维测量数据降维方法,其特征在于,
在所述步骤S3中:
使用编码器编码具体为:将采集到的实际工业场景的原始数据首先进行与训练数据相同的预处理,即去除开关量并进行归一化,然后输入编码器中即可得到降维后的输出。
CN202110278956.8A 2021-03-16 2021-03-16 一种基于深度学习的动力系统高维测量数据降维方法 Pending CN115146689A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110278956.8A CN115146689A (zh) 2021-03-16 2021-03-16 一种基于深度学习的动力系统高维测量数据降维方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110278956.8A CN115146689A (zh) 2021-03-16 2021-03-16 一种基于深度学习的动力系统高维测量数据降维方法

Publications (1)

Publication Number Publication Date
CN115146689A true CN115146689A (zh) 2022-10-04

Family

ID=83404623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110278956.8A Pending CN115146689A (zh) 2021-03-16 2021-03-16 一种基于深度学习的动力系统高维测量数据降维方法

Country Status (1)

Country Link
CN (1) CN115146689A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633517A (zh) * 2024-01-25 2024-03-01 南京工业大学 基于深度自编码器和局部线性嵌入的轴承健康指数评估方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304359A (zh) * 2018-02-06 2018-07-20 中国传媒大学 无监督学习统一特征提取器构建方法
CN109815223A (zh) * 2019-01-21 2019-05-28 北京科技大学 一种针对工业监测数据缺失的补全方法及补全装置
CN111598830A (zh) * 2020-02-18 2020-08-28 天津大学 一种基于无监督学习的皮肤癌疾病检测方法
WO2020220544A1 (zh) * 2019-04-28 2020-11-05 平安科技(深圳)有限公司 不平衡数据分类模型训练方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304359A (zh) * 2018-02-06 2018-07-20 中国传媒大学 无监督学习统一特征提取器构建方法
CN109815223A (zh) * 2019-01-21 2019-05-28 北京科技大学 一种针对工业监测数据缺失的补全方法及补全装置
WO2020220544A1 (zh) * 2019-04-28 2020-11-05 平安科技(深圳)有限公司 不平衡数据分类模型训练方法、装置、设备及存储介质
CN111598830A (zh) * 2020-02-18 2020-08-28 天津大学 一种基于无监督学习的皮肤癌疾病检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张朝阳: "深入浅出 工业机器学习算法详解与实战", 31 January 2020, 机械工业出版社, pages: 1 - 2 *
蒋惠凤: "中长期电力负荷预测技术与应用", 31 October 2016, 东南大学出版社, pages: 84 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633517A (zh) * 2024-01-25 2024-03-01 南京工业大学 基于深度自编码器和局部线性嵌入的轴承健康指数评估方法
CN117633517B (zh) * 2024-01-25 2024-04-30 南京工业大学 基于深度自编码器和局部线性嵌入的轴承健康指数评估方法

Similar Documents

Publication Publication Date Title
CN113033309B (zh) 一种基于信号下采样及一维卷积神经网络的故障诊断方法
CN110610168A (zh) 一种基于注意力机制的脑电情绪识别方法
Wu et al. A transformer-based approach for novel fault detection and fault classification/diagnosis in manufacturing: A rotary system application
Chen et al. One-dimensional convolutional neural network-based active feature extraction for fault detection and diagnosis of industrial processes and its understanding via visualization
CN112036301A (zh) 一种基于类内特征迁移学习与多源信息融合的驱动电机故障诊断模型构建方法
CN110991471B (zh) 一种高速列车牵引系统故障诊断方法
CN114297918A (zh) 基于全注意力深度网络和动态集成学习的航空发动机剩余寿命预测方法
Azzalini et al. A minimally supervised approach based on variational autoencoders for anomaly detection in autonomous robots
Wang et al. A cycle deep belief network model for multivariate time series classification
Schneider et al. Detecting anomalies within time series using local neural transformations
CN112116029A (zh) 一种多尺度结构与特征融合的齿轮箱智能故障诊断方法
Li et al. A novel unsupervised anomaly detection method for rotating machinery based on memory augmented temporal convolutional autoencoder
CN115392323A (zh) 基于云边协同的轴承故障监测方法及系统
Kong et al. A high generalizable feature extraction method using ensemble learning and deep auto-encoders for operational reliability assessment of bearings
CN113435321A (zh) 一种主轴轴承状态评估方法、系统、设备及可读存储介质
CN117034003A (zh) 航空航天重大产品制造装备的全生命周期自适应故障诊断方法、系统、设备及介质
CN117976035A (zh) 一种融合特征的深度学习网络的蛋白质sno位点预测方法
CN117419828A (zh) 基于光纤传感器的新能源电池温度监测方法
CN116595465A (zh) 基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统
CN114648076A (zh) 一种无监督学习的电池生产工艺异常波动检测方法
Yang et al. Predictive maintenance for general aviation using convolutional transformers
CN115146689A (zh) 一种基于深度学习的动力系统高维测量数据降维方法
CN117113139A (zh) 故障检测模型的训练方法、装置、计算机设备和存储介质
CN116776284A (zh) 用于机电设备的故障诊断方法、计算机设备及存储介质
CN115017366B (zh) 基于多粒度语境化和多结构保存的无监督视频哈希检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination