CN110689072A - 一种基于知识转移的动态工业数据分类方法 - Google Patents

一种基于知识转移的动态工业数据分类方法 Download PDF

Info

Publication number
CN110689072A
CN110689072A CN201910912401.7A CN201910912401A CN110689072A CN 110689072 A CN110689072 A CN 110689072A CN 201910912401 A CN201910912401 A CN 201910912401A CN 110689072 A CN110689072 A CN 110689072A
Authority
CN
China
Prior art keywords
data
encoder
self
distribution
knowledge transfer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910912401.7A
Other languages
English (en)
Other versions
CN110689072B (zh
Inventor
尹宏鹏
柴毅
廖城霖
廖国波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201910912401.7A priority Critical patent/CN110689072B/zh
Publication of CN110689072A publication Critical patent/CN110689072A/zh
Application granted granted Critical
Publication of CN110689072B publication Critical patent/CN110689072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于知识转移的动态工业数据分类方法,属于数据挖掘领域,包括以下步骤:S1:利用多传感器获取工业过程数据;S2:训练自编码器和分类神经网络模型;S3:利用自编码器检测数据分布是否发生变化;S4:将已发生分布变化的数据用于训练新的自编码器,直到重构误差降低到阈值以内,并将新的自编码器与之前的自编码器集成;S5:将未检测到分布发生变化的数据继续用于原模型优化;当检测数据分布已经发生变化,采用知识转移的方法,找到网络连接中重要程度较高的连接权重,保持其不变,对于重要程度较低的连接权重进行进一步的训练;S6:重复步骤S3‑S5,直至模型包含所有工况或者对于新数据误差降至阈值以内。

Description

一种基于知识转移的动态工业数据分类方法
技术领域
本发明属于流程工业监控技术和数据挖掘技术领域,涉及一种基于知识转移的动态工业数据分类方法。
背景技术
随着工业自动化、集成化程度的提高,现代工业规模不断扩大,复杂程度不断提高。由于现代工业大规模化、复杂化的特点,导致工业过程中故障发生概率大大增加,故障的危害大大提升。因此,通过设备状态监测、结构信息监测、远程故障诊断等工业过程监控手段来提高生产过程的可靠性和安全性,确保产品质量,收到了极大的关注和重视。
进行工业过程监控主要有基于解析模型的方法、基于物理冗余的方法、基于专家知识的方法和基于数据驱动的方法。在大规模生产下,生产单元之间关联性强,工业过程建模复杂,信息提取困难,而前三种方法需要建立复杂的机理模型和定义复杂的定型模型,物理可实现性较差。随着传感器技术和无线通信技术的快速发展,蕴含丰富工业过程信息的数据被和存储;主元分析、偏最小二乘等多元统计过程监测方法的提出,极大地提高了数据信息提取的效率,为数据驱动的方法提供了广阔的空间。
然而,随着生产计划调整、设备工况切换,设备老化等原因,实际的工业数据大多呈现出非平稳的动态特性,过程数据的统计指标如方差、均值随着时间改变。而主元分析、偏最小二乘等传统的多元统计过程监测方法都是基于数据平稳这一假设提出的,在动态过程中很可能会给出错误的结果。而若针将每个工况或者生产计划都看作一个独立的平稳过程,针对每个平稳过程建立新的数据模型,由于未充分利用之前模型的知识,不仅会导致成本的极大提高,并且由于忽略了任务之间的相关性,导致需要的样本数量大大增加,模型可实现性大打折扣。因此,目前急需一种基于知识转移的动态工业数据分类方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于知识转移的动态工业数据分类方法,利用集成自编码器对数据分布变化进行检测,并利用工况变化和数据演化之间的关联性,采用知识转移的方法进行新分类器的训练,达到在复杂工业条件下,对动态数据进行分类的目的。
为达到上述目的,本发明提供如下技术方案:
一种基于知识转移的动态工业数据分类方法,包括以下步骤:
S1:利用多传感器获取工业过程数据,包括温度、湿度、气压等信号;
S2:利用S1中收集到的数据进行自编码器和分类神经网络模型的训练;
S3:利用训练好的自编码器对数据分布是否发生变化进行检测,如果重构误差大于阈值,则判定数据分布发生变化;
S4:将已发生分布变化的数据用于训练新的自编码器,直到重构误差降低到阈值以内,并将新的自编码器与之前的自编码器进行集成操作;
S5:对于未检测到分布发生变化的数据,将其继续用于原模型优化;当检测数据分布已经发生变化,采用知识转移的方法,找到网络连接中重要程度较高的连接权重,保持其不变,对于重要程度较低的连接权重进行进一步的训练;
S6:重复步骤S3-S5,直至模型包含所有工况或者对于新数据误差降至阈值以内。
进一步,所述步骤S2具体包括以下步骤:
S21:定义自编码器为从最中间层开始的两端对称结构;
S22:定义输入层和输出层的神经元数目与输入数据的维数相同;
S23:定义结构参数α,从输入层开始,到最中间层为止,每一层的神经元数目与上一层的神经元数目之比为α;
S24:定义第一个隐含层和输出层的激活函数为Sigmoid函数,其余的采用ReLU函数作为激活函数;
S25:定义网络的连接方式为随机连接;
S26:定义分类神经网络模型输入层神经元与数据维数相同;
S27:定义分类神经网络模型采用随机梯度下降方式进行优化;
S28:定义分类神经网络的输出采用softmax函数。
进一步,在所述步骤S3中,采用一个窗口内的数据累计重构误差大于阈值来判定数据分布发生变化。
进一步,所述步骤S4具体包括以下步骤:
S41:利用已发生分布变化的数据按照步骤S2训练新的自编码器;
S42:利用权重法对多个自编码器进行集成操作。
进一步,所述步骤S5具体包括以下步骤:
S51:对于未检测到分布变化的数据,采用随机梯度下降的方法,优化分类模型;
S52:对于分布已经发生变化的数据,将权重关于变量的二阶倒数作为损失函数的正则项进行优化,损失函数如下所示:
其中L′(θ)为当前的损失函数,L(θ)为上一个任务的损失函数,λ为惩罚因子,bi表示当前连接权重对之前任务的重要性,通过对变量的二次求导得出,θi为当前需要学习的权重,
Figure BDA0002215116900000032
为上一个分布已经学习到的权重。
进一步,所述步骤S2中,自编码器为防止在少量样本下产生过拟合现象,采用随机连接方式。
本发明的有益效果在于:本发明基于集成自编码器算法和知识转移方法,其中,集成自编码器可以准确发现数据分布变化情况,保证能够在每次数据分布变化之后收集到新的训练数据,使得后续的知识转移和分类算法得以实现;基于知识转移的分类算法无需针对每个工况训练一个全新的模型,使用一个神经网络模型即可解决设备所有工况以及数据随时间演化以后的分类问题。解决了哪些历史知识有效以及如何利用历史知识的问题,通过合理地初始化数据分布变化后网络的权重,利用之前任务的经验和少量样本快速地建立新任务的模型,实现了对动态工业数据有效分类。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述方法的算法流程图;
图2为本发明步骤二中所述的集成自编码器模型。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,本发明提供一种基于知识转移的动态工业数据分类方法。包括以下步骤:
步骤一:利用多传感器获取工业过程数据,包括温度、湿度、气压等信号;
步骤二:利用步骤一中收集到的数据进行自编码器和分类神经网络模型的训练;
步骤二具体包括以下步骤:
21:定义自编码器为从最中间层开始的两端对称的结构;
22:定义输入层和输出层的神经元数目与输入数据的维数相同;
23:定义结构参数α,从输入层开始,到最中间层为止,每一层的神经元数目与上一层的神经元数目之比为α;
24:定义第一个隐含层和输出层的激活函数为Sigmoid函数,其余的采用ReLU函数作为激活函数;
25:定义网络的连接方式为随机连接;
26:定义分类神经网络模型输入层神经元与数据维数相同;
27:定义分类神经网络模型采用随机梯度下降方式进行优化;28:定义分类神经网络的输出采用softmax函数。
步骤三:利用训练好的自编码器对数据分布是否发生变化进行检测,如果重构误差大于阈值,则判定数据分布发生变化;
步骤四:将已发生分布变化的数据用于训练新的自编码器,直到重构误差降低到阈值以内,并将新的自编码器与之前的自编码器进行集成操作;具体包括以下步骤:
41:利用已发生分布变化的数据按照步骤二训练新的自编码器;
42:利用权重法对多个自编码器进行集成操作。
步骤五:对于未检测到分布发生变化的数据,将其继续用于原模型优化;当检测数据分布已经发生变化,采用知识转移的方法,找到网络连接中重要程度较高的连接权重,保持其不变,对于重要程度较低的连接权重进行进一步的训练;具体包括以下步骤:
51:对于未检测到分布变化的数据,采用随机梯度下降的方法,优化分类模型;
52:对于分布已经发生变化的数据,将权重关于变量的二阶倒数作为损失函数的正则项进行优化具体的,损失函数如下所示:
其中L′(θ)为当前的损失函数,L(θ)为之前分布的(即上一个任务的损失函数),λ为惩罚因子,bi表示当前连接权重对之前任务的重要性,通过对变量的二次求导即可得出,θi为当前需要学习的权重,
Figure BDA0002215116900000052
为上一个分布已经学习到的权重。
步骤六:对步骤三、步骤四、步骤五重复,直至模型包含所有工况或者对于新数据误差降至阈值以内。
可选地,步骤二中,自编码器为防止在少量样本下产生过拟合现象,不采用全连接方式,连接方式为随机连接,如图2所示。
可选地,步骤三中采用一个窗口内的数据累计重构误差大于阈值来判定数据分布发生变化。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于知识转移的动态工业数据分类方法,其特征在于:包括以下步骤:
S1:利用多传感器获取工业过程数据,包括温度、湿度、气压;
S2:利用S1中收集到的数据进行自编码器和分类神经网络模型的训练;
S3:利用训练好的自编码器对数据分布是否发生变化进行检测,如果重构误差大于阈值,则判定数据分布发生变化;
S4:将已发生分布变化的数据用于训练新的自编码器,直到重构误差降低到阈值以内,并将新的自编码器与之前的自编码器进行集成操作;
S5:对于未检测到分布发生变化的数据,将其继续用于原模型优化;当检测数据分布已经发生变化,采用知识转移的方法,找到网络连接中重要程度较高的连接权重,保持其不变,对于重要程度较低的连接权重进行进一步的训练;
S6:重复步骤S3-S5,直至模型包含所有工况或者对于新数据误差降至阈值以内。
2.根据权利要求1所述的基于知识转移的动态工业数据分类方法,其特征在于:所述步骤S2具体包括以下步骤:
S21:定义自编码器为从最中间层开始的两端对称结构;
S22:定义输入层和输出层的神经元数目与输入数据的维数相同;
S23:定义结构参数α,从输入层开始,到最中间层为止,每一层的神经元数目与上一层的神经元数目之比为α;
S24:定义第一个隐含层和输出层的激活函数为Sigmoid函数,其余的采用ReLU函数作为激活函数;
S25:定义网络的连接方式为随机连接;
S26:定义分类神经网络模型输入层神经元与数据维数相同;
S27:定义分类神经网络模型采用随机梯度下降方式进行优化;
S28:定义分类神经网络的输出采用softmax函数。
3.根据权利要求1所述的基于知识转移的动态工业数据分类方法,其特征在于:在所述步骤S3中,采用一个窗口内的数据累计重构误差大于阈值来判定数据分布发生变化。
4.根据权利要求1所述的基于知识转移的动态工业数据分类方法,其特征在于:所述步骤S4具体包括以下步骤:
S41:利用已发生分布变化的数据按照步骤S2训练新的自编码器;
S42:利用权重法对多个自编码器进行集成操作。
5.根据权利要求1所述的基于知识转移的动态工业数据分类方法,其特征在于:所述步骤S5具体包括以下步骤:
S51:对于未检测到分布变化的数据,采用随机梯度下降的方法,优化分类模型;
S52:对于分布已经发生变化的数据,将权重关于变量的二阶倒数作为损失函数的正则项进行优化,损失函数如下所示:
Figure FDA0002215116890000022
其中L′(θ)为当前的损失函数,L(θ)为上一个任务的损失函数,λ为惩罚因子,bi表示当前连接权重对之前任务的重要性,通过对变量的二次求导得出,θi为当前需要学习的权重,为上一个分布已经学习到的权重。
6.根据权利要求1所述的基于知识转移的动态工业数据分类方法,其特征在于:所述步骤S2中,自编码器为防止在少量样本下产生过拟合现象,采用随机连接方式。
CN201910912401.7A 2019-09-25 2019-09-25 一种基于知识转移的动态工业数据分类方法 Active CN110689072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910912401.7A CN110689072B (zh) 2019-09-25 2019-09-25 一种基于知识转移的动态工业数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910912401.7A CN110689072B (zh) 2019-09-25 2019-09-25 一种基于知识转移的动态工业数据分类方法

Publications (2)

Publication Number Publication Date
CN110689072A true CN110689072A (zh) 2020-01-14
CN110689072B CN110689072B (zh) 2023-04-07

Family

ID=69110161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910912401.7A Active CN110689072B (zh) 2019-09-25 2019-09-25 一种基于知识转移的动态工业数据分类方法

Country Status (1)

Country Link
CN (1) CN110689072B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170177993A1 (en) * 2015-12-18 2017-06-22 Sandia Corporation Adaptive neural network management system
CN109102005A (zh) * 2018-07-23 2018-12-28 杭州电子科技大学 基于浅层模型知识迁移的小样本深度学习方法
CN110110768A (zh) * 2019-04-24 2019-08-09 西安电子科技大学 基于并行特征学习和多分类器的滚动轴承故障诊断方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170177993A1 (en) * 2015-12-18 2017-06-22 Sandia Corporation Adaptive neural network management system
CN109102005A (zh) * 2018-07-23 2018-12-28 杭州电子科技大学 基于浅层模型知识迁移的小样本深度学习方法
CN110110768A (zh) * 2019-04-24 2019-08-09 西安电子科技大学 基于并行特征学习和多分类器的滚动轴承故障诊断方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YU SUN等: "Concept Drift Adaptation by Exploiting Historical Knowledge", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
吴冬茵等: "基于深度表示学习和高斯过程迁移学习的情感分析方法", 《中文信息学报》 *
翟婷婷: "面向流数据分类的在线学习算法研究", 《中国博士学位论文全文数据库》 *

Also Published As

Publication number Publication date
CN110689072B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109636026B (zh) 一种基于深度学习模型的晶圆良率预测方法
CN111967486A (zh) 一种基于多传感器融合的复杂装备故障诊断方法
CN110609524B (zh) 一种工业设备剩余寿命预测模型及其构建方法和应用
CN103914064B (zh) 基于多分类器和d-s证据融合的工业过程故障诊断方法
CN111274737A (zh) 一种机械设备剩余使用寿命预测方法及系统
CN109115501A (zh) 一种基于cnn与svm的民航发动机气路故障诊断方法
CN110110804B (zh) 基于cnn和lstm的飞控系统剩余寿命预测方法
CN111026058B (zh) 基于瓦瑟斯坦距离和自编码器的半监督深度学习故障诊断方法
CN111397902B (zh) 一种基于特征对齐卷积神经网络的滚动轴承故障诊断方法
CN117034123B (zh) 健身器材的故障监控系统及其方法
CN112836604A (zh) 一种基于vmd-ssae的滚动轴承故障诊断分类方法、系统、设备及其存储介质
CN115096627B (zh) 一种液压成形智能装备制造过程故障诊断与运维方法及系统
CN112434390A (zh) 基于多层网格搜索的pca-lstm轴承剩余寿命预测方法
CN114118225A (zh) 发电机剩余寿命预测方法、系统、电子设备和存储介质
Dong et al. Quality monitoring and root cause diagnosis for industrial processes based on Lasso-SAE-CCA
CN113551904B (zh) 基于层次机器学习的齿轮箱多类型并发故障诊断方法
CN112613227B (zh) 基于混合机器学习的航空发动机剩余使用寿命预测模型
CN110689072B (zh) 一种基于知识转移的动态工业数据分类方法
CN117150337A (zh) 基于分诊制的化工过程故障诊断方法
CN118296516A (zh) 一种基于层级时间记忆的在线工控异常检测算法
CN114118288A (zh) 一种基于深度学习的变压器状态评估方法
CN113469228A (zh) 一种基于数据流时空特征的电力负荷异常值辨识方法
CN117113843B (zh) 一种航空发动机剩余寿命预测方法
CN118246837B (zh) 一种数字化物流运输过程中智能管理方法及系统
CN115556099B (zh) 一种可持续学习的工业机器人故障诊断系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant