CN112529188B - 基于知识蒸馏的工业过程优化决策模型迁移优化方法 - Google Patents
基于知识蒸馏的工业过程优化决策模型迁移优化方法 Download PDFInfo
- Publication number
- CN112529188B CN112529188B CN202110186781.8A CN202110186781A CN112529188B CN 112529188 B CN112529188 B CN 112529188B CN 202110186781 A CN202110186781 A CN 202110186781A CN 112529188 B CN112529188 B CN 112529188B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- network
- model
- industrial process
- teacher
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 58
- 238000005457 optimization Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013508 migration Methods 0.000 title claims abstract description 23
- 230000005012 migration Effects 0.000 title claims abstract description 23
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 19
- 238000013459 approach Methods 0.000 claims abstract description 5
- 238000005516 engineering process Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 9
- 238000004821 distillation Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 6
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 5
- 229910001416 lithium ion Inorganic materials 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009133 cooperative interaction Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及基于知识蒸馏的工业过程优化决策模型迁移优化方法,利用知识蒸馏技术将复杂模型中的知识迁移到简单模型中,并建立了教师‑学生网络,教师网络定义为复杂模型具有强大的能力和表现,学生网络定义为简单模型表达更为紧凑。通过知识蒸馏,使学生网络模型能尽可能逼近或超过教师网络模型,从而用更少的复杂度来获得类似的预测效果,实现复杂模型教师网络向简单模型学生网络的知识迁移。
Description
技术领域
本申请涉及人工智能领域,尤其涉及基于知识蒸馏的工业过程优化决策模型迁移优化方法。
背景技术
近年来,随着深度学习和计算能力的发展,神经网络模型在图像分类、目标识别、故障诊断等领域被广泛应用。通常,在解决优化决策问题时人们往往倾向于设计更为复杂的卷积神经网络收集更多的数据以期获得更好的效果。但随着模型的复杂度增加,模型参数越来越多,模型规模和需要的计算浮点数也越来越大,这对硬件资源(如内存、CPU)产生了更高的要求,不利于模型在存储空间、续航受限的设备上部署使用。知识蒸馏的概念是Hinton等人于2015年提出的,通过知识蒸馏的方式,可以提取网络中的“知识”,让一个更小的模型来学习大模型中的“知识”,期望小模型能达到大模型的效果。
复杂工业制造过程是一个涉及人、设备、物料、工艺、环境等繁杂生产要素协同交互的多尺度动态系统,其优化决策问题往往与多样性动态生产要素复杂耦合关联,具有机理复杂、多目标多约束、多尺度动态优化等特征。针对工业过程全生命周期活动中存在的生产计划与调度、故障诊断与分析、工艺参数优化、异常工况判定等优化决策问题,一方面需要考虑工业制造过程海量大数据,建立深度神经网络驱动的优化决策模型,另一方面需要融入工业过程积累的非结构化领域知识,以增强优化决策的鲁棒性和精准性,通常建立嵌入领域规则的优化决策知识推理模型来解决上述复杂的优化决策问题。然而,嵌入领域规则的优化决策知识推理模型推理性能优越,但较为复杂,使其不利于进行工业过程实时在线优化决策,无法在工业过程生产现场有效应用。
公开号为CN111767711A的专利公开了一种基于知识蒸馏的预训练语言模型的压缩方法及平台,该方法首先设计一种普适的特征迁移的知识蒸馏策略,在教师模型的知识蒸馏到学生模型的过程中,将学生模型每一层的特征映射逼近教师的特征,重点关注小样本在教师模型中间层特征表达能力,并利用这些特征指导学生模型;然后利用教师模型的自注意力分布具有检测词语之间语义和句法的能力构建一种基于自注意力交叉知识蒸馏方法;最后为了提升学习模型训练前期的学习质量和训练后期的泛化能力,设计了一种基于伯努利概率分布的线性迁移策略逐渐完成从教师到学生的特征映射和自注意分布的知识迁移。通过本发明,将面向多任务的预训练语言模型进行自动压缩,提高语言模型的压缩效率。
因此,亟需探索嵌入领域规则的优化决策知识推理模型压缩方法,以得到轻量型等价模型,为工业过程优化决策问题提供实时在线优化提供可行方案。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了基于知识蒸馏的工业过程优化决策模型迁移优化方法包括:
S2:利用知识蒸馏技术,建立教师-学生网络模型,进行模型的轻量化处理,所述教师-学生网络模型中的教师网络为所述,所述教师-学生网络模型中的学生网络为利用工业过程语义知识库建立的模型,,即多源数据语义知识驱动的优化决策模型;
S3:利用建立的工业过程领域规则知识库K R 和工业过程语义知识库K S ,同时训练教师网络和学生网络,进行教师网络向学生网络的知识迁移;
所述优化决策知识推理模型为,
X表示工业过程多源数据集合;
Y表示相应的标签集合且与多源数据语义知识的决策语义相对应;
C为常数;
其中,
其中,
y为真实值;
其中,
y为真实值;
优选的,所述教师网络采用深度神经网络。
优选的,所述学生网络采用深度神经网络。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,为嵌入领域规则的优化决策知识推理模型压缩提供了一个可行方案,使得到的轻量化模型既不损失复杂模型的鲁棒性和精准度,也可以方便地部署在工业生产现场,为工业过程优化决策问题提供实时在线优化。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于知识蒸馏的工业过程优化决策模型迁移优化方法流程框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1:
利用知识蒸馏(Knowledge Distillation)技术将复杂模型中的知识迁移到简单模型中,并建立了教师-学生网络(Teacher-Student,T-S网络),Teacher定义为复杂模型具有强大的能力和表现,Student定义为简单模型表达更为紧凑。通过知识蒸馏,使Student模型能尽可能逼近或超过Teacher模型,从而用更少的复杂度来获得类似的预测效果,实现复杂模型(Teacher)向简单模型(Student)的知识迁移。
图1,为本申请实施例提供的基于知识蒸馏的工业过程优化决策模型迁移优化方法,包括:
S1:利用工业过程领域规则知识库,建立的嵌入领域规则的优化决策知识推理模型,;所述为嵌入领域规则知识的优化决策模型,它嵌入了领域规则知识,具有较强的优化决策知识推理能力;由于模型比较复杂,不适合工业过程生产现场的在线应用。
S2:利用知识蒸馏技术,建立教师-学生网络模型,进行模型的轻量化处理,所述教师-学生网络模型中的教师网络为所述,所述教师-学生网络模型中的学生网络为利用工业过程语义知识库建立的模型,,即多源数据语义知识驱动的优化决策模型;
S3:利用建立的工业过程领域规则知识库K R 和工业过程语义知识库K S ,同时训练教师网络和学生网络,进行教师网络向学生网络的知识迁移。
根据上述方案,进一步,所述优化决策知识推理模型为,
X示工业过程多源数据集合;
Y表示相应的标签集合且与多源数据语义知识的决策语义相对应;
工业过程领域规则知识库,其中第i条规则知识表示为,假设该条知识对应样本集合的具体事实为,为具体事实为对应的约束条件;工业过程语义知识库为,n表示工业过程语义知识库的大小,k i 表示第i个知识元,具体为,前半部分为融合特征h A ,R为融合特征h A 对应的决策语义,表示某个决策问题的具体决策结果;
C为常数;
其中,
其中,
y为真实值;
其中,
y为真实值;
根据上述方案,进一步,所述教师网络采用深度神经网络。
根据上述方案,进一步,所述学生网络采用深度神经网络。当解决工业过程故障诊断、产品质量分级等优化决策问题时,这些问题本质可转化为一个分类问题,选择多层感知机或卷积神经网络。当解决工业过程寿命预测、指标预测等优化决策问题时,这些问题本质可转化为一个回归问题,选择循环神经网络、长短时记忆网络或时空卷积网络。
实施案2:
锂离子电池单体电芯异常诊断优化决策模型迁移优化
根据锂离子电池生产过程领域知识建立锂离子电池单体电芯异常诊断领域规则库,假定有2条规则时,工业过程领域规则知识库为;选定4822个单体电芯的CVC曲线、CCC曲线和DVC曲线作为样本,其中异常样本822个,由此构建动力锂离子电池PACK单体电芯异常诊断工业过程语义知识库为,其中,为第i个知识元,为第i个知识元的决策语义。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.基于知识蒸馏的工业过程优化决策模型迁移优化方法,其特征在于,包括:
S2:利用知识蒸馏技术,建立教师-学生网络模型,进行模型的轻量化处理,所述教师-学生网络模型中的教师网络为所述,所述教师-学生网络模型中的学生网络为利用工业过程语义知识库建立的模型,即多源数据语义知识驱动的优化决策模型;
S3:利用建立的工业过程领域规则知识库K R 和工业过程语义知识库K S ,同时训练教师网络和学生网络,进行教师网络向学生网络的知识迁移;
所述优化决策知识推理模型为,
X表示工业过程多源数据集合;
Y表示相应的标签集合且与多源数据语义知识的决策语义相对应;
C为常数;
其中,
4.根据权利要求1所述的基于知识蒸馏的工业过程优化决策模型迁移优化方法,其特征在于,所述教师网络采用深度神经网络。
5.根据权利要求1所述的基于知识蒸馏的工业过程优化决策模型迁移优化方法,其特征在于,所述学生网络采用深度神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110186781.8A CN112529188B (zh) | 2021-02-18 | 2021-02-18 | 基于知识蒸馏的工业过程优化决策模型迁移优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110186781.8A CN112529188B (zh) | 2021-02-18 | 2021-02-18 | 基于知识蒸馏的工业过程优化决策模型迁移优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112529188A CN112529188A (zh) | 2021-03-19 |
CN112529188B true CN112529188B (zh) | 2021-06-08 |
Family
ID=74975702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110186781.8A Active CN112529188B (zh) | 2021-02-18 | 2021-02-18 | 基于知识蒸馏的工业过程优化决策模型迁移优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529188B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114743043B (zh) * | 2022-03-15 | 2024-04-26 | 北京迈格威科技有限公司 | 一种图像分类方法、电子设备、存储介质及程序产品 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110145028A1 (en) * | 2009-12-15 | 2011-06-16 | Larsen & Toubro Limited | Establishment and sustenance of knowledge continuity process |
CN108733792B (zh) * | 2018-05-14 | 2020-12-01 | 北京大学深圳研究生院 | 一种实体关系抽取方法 |
CN108921294A (zh) * | 2018-07-11 | 2018-11-30 | 浙江大学 | 一种用于神经网络加速的渐进式块知识蒸馏方法 |
US11295197B2 (en) * | 2018-08-27 | 2022-04-05 | International Business Machines Corporation | Facilitating extraction of individual customer level rationales utilizing deep learning neural networks coupled with interpretability-oriented feature engineering and post-processing |
-
2021
- 2021-02-18 CN CN202110186781.8A patent/CN112529188B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112529188A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheng et al. | Dissolved gas analysis principle-based intelligent approaches to fault diagnosis and decision making for large oil-immersed power transformers: A survey | |
Wu et al. | Evolving RBF neural networks for rainfall prediction using hybrid particle swarm optimization and genetic algorithm | |
WO2020244134A1 (zh) | 一种基于多任务特征共享神经网络的智能故障诊断方法 | |
Baboo et al. | An efficient weather forecasting system using artificial neural network | |
Khajavi et al. | Predicting the carbon dioxide emission caused by road transport using a Random Forest (RF) model combined by Meta-Heuristic Algorithms | |
Madhiarasan et al. | Analysis of artificial neural network: architecture, types, and forecasting applications | |
CN111753054B (zh) | 一种基于图神经网络的机器阅读推断方法 | |
Zavvar et al. | Email spam detection using combination of particle swarm optimization and artificial neural network and support vector machine | |
CN107544960B (zh) | 一种基于变量绑定和关系激活的自动问答方法 | |
CN112417159A (zh) | 一种上下文对齐增强图注意力网络的跨语言实体对齐方法 | |
Zhu et al. | Air quality forecasting using SVR with quasi-linear kernel | |
CN112529188B (zh) | 基于知识蒸馏的工业过程优化决策模型迁移优化方法 | |
CN113192647A (zh) | 一种基于多特征分层时空表征的新冠确诊人数预测方法和系统 | |
Han et al. | Deep belief rule based photovoltaic power forecasting method with interpretability | |
Fen | Efficiency improvement of English online teaching system based on bagging learning flow feature selection | |
CN114818681B (zh) | 一种实体识别方法及系统、计算机可读存储介质及终端 | |
CN115481788B (zh) | 相变储能系统负荷预测方法及系统 | |
CN115293249A (zh) | 一种基于动态时序预测的电力系统典型场景概率预测方法 | |
CN113553402A (zh) | 一种基于图神经网络的考试阅读理解自动问答方法 | |
Sun et al. | Weighted Heterogeneous Graph-based Three-view Contrastive Learning for Knowledge Tracing in Personalized e-Learning Systems | |
Almohammed et al. | Data mining and analysis for predicting electrical energy consumption | |
CN117493568B (zh) | 一种端到端软件功能点提取与识别方法 | |
Zhang et al. | An immune inspired framework for optimization in dynamic environment | |
Song et al. | Prior-guided multi-scale fusion transformer for face attribute recognition | |
Bai et al. | Regional Air Quality Prediction Model Based on Deep Belief Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |