CN112529188B

CN112529188B - 基于知识蒸馏的工业过程优化决策模型迁移优化方法

Info

Publication number: CN112529188B
Application number: CN202110186781.8A
Authority: CN
Inventors: 刘承宝; 谭杰
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2021-06-08
Anticipated expiration: 2041-02-18
Also published as: CN112529188A

Abstract

本申请涉及基于知识蒸馏的工业过程优化决策模型迁移优化方法，利用知识蒸馏技术将复杂模型中的知识迁移到简单模型中，并建立了教师‑学生网络，教师网络定义为复杂模型具有强大的能力和表现，学生网络定义为简单模型表达更为紧凑。通过知识蒸馏，使学生网络模型能尽可能逼近或超过教师网络模型，从而用更少的复杂度来获得类似的预测效果，实现复杂模型教师网络向简单模型学生网络的知识迁移。

Description

基于知识蒸馏的工业过程优化决策模型迁移优化方法

技术领域

本申请涉及人工智能领域，尤其涉及基于知识蒸馏的工业过程优化决策模型迁移优化方法。

背景技术

近年来，随着深度学习和计算能力的发展，神经网络模型在图像分类、目标识别、故障诊断等领域被广泛应用。通常，在解决优化决策问题时人们往往倾向于设计更为复杂的卷积神经网络收集更多的数据以期获得更好的效果。但随着模型的复杂度增加，模型参数越来越多，模型规模和需要的计算浮点数也越来越大，这对硬件资源(如内存、CPU)产生了更高的要求，不利于模型在存储空间、续航受限的设备上部署使用。知识蒸馏的概念是Hinton等人于2015年提出的，通过知识蒸馏的方式，可以提取网络中的“知识”，让一个更小的模型来学习大模型中的“知识”，期望小模型能达到大模型的效果。

复杂工业制造过程是一个涉及人、设备、物料、工艺、环境等繁杂生产要素协同交互的多尺度动态系统，其优化决策问题往往与多样性动态生产要素复杂耦合关联，具有机理复杂、多目标多约束、多尺度动态优化等特征。针对工业过程全生命周期活动中存在的生产计划与调度、故障诊断与分析、工艺参数优化、异常工况判定等优化决策问题，一方面需要考虑工业制造过程海量大数据，建立深度神经网络驱动的优化决策模型，另一方面需要融入工业过程积累的非结构化领域知识，以增强优化决策的鲁棒性和精准性，通常建立嵌入领域规则的优化决策知识推理模型来解决上述复杂的优化决策问题。然而，嵌入领域规则的优化决策知识推理模型推理性能优越，但较为复杂，使其不利于进行工业过程实时在线优化决策，无法在工业过程生产现场有效应用。

公开号为CN111767711A的专利公开了一种基于知识蒸馏的预训练语言模型的压缩方法及平台，该方法首先设计一种普适的特征迁移的知识蒸馏策略，在教师模型的知识蒸馏到学生模型的过程中，将学生模型每一层的特征映射逼近教师的特征，重点关注小样本在教师模型中间层特征表达能力，并利用这些特征指导学生模型；然后利用教师模型的自注意力分布具有检测词语之间语义和句法的能力构建一种基于自注意力交叉知识蒸馏方法；最后为了提升学习模型训练前期的学习质量和训练后期的泛化能力，设计了一种基于伯努利概率分布的线性迁移策略逐渐完成从教师到学生的特征映射和自注意分布的知识迁移。通过本发明，将面向多任务的预训练语言模型进行自动压缩，提高语言模型的压缩效率。

因此，亟需探索嵌入领域规则的优化决策知识推理模型压缩方法，以得到轻量型等价模型，为工业过程优化决策问题提供实时在线优化提供可行方案。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了基于知识蒸馏的工业过程优化决策模型迁移优化方法包括：

S1：利用工业过程领域规则知识库

，建立的嵌入领域规则的优化决策知识推理模型，

；所述

为嵌入领域规则知识的优化决策模型；

S2：利用知识蒸馏技术，建立教师-学生网络模型，进行模型的轻量化处理，所述教师-学生网络模型中的教师网络为所述

，所述教师-学生网络模型中的学生网络为利用工业过程语义知识库

建立的模型，

，即多源数据语义知识驱动的优化决策模型；

S3：利用建立的工业过程领域规则知识库K _R和工业过程语义知识库K _S，同时训练教师网络和学生网络，进行教师网络向学生网络的知识迁移；

所述优化决策知识推理模型为，

样本集合为

，其中，

X表示工业过程多源数据集合；

Y表示相应的标签集合且与多源数据语义知识的决策语义相对应；

工业过程领域规则知识库

，其中第i条规则知识表示为

，假设该条知识对应样本集合的具体事实为

，

为具体事实为

对应的约束条件；

工业过程语义知识库为

，n表示工业过程语义知识库的大小，k _i表示第i个知识元，具体为

，前半部分为融合特征h _A，R为融合特征h _A对应的决策语义，表示某个决策问题的具体决策结果；

为对应

的权重；

C为常数；

为

的参数变量；

所述进行教师网络向学生网络的知识迁移的方法为，同时迭代训练教师网络和学生网络，参数

进行更新，使学生网络逼近教师网络；

所述参数

进行迭代更新公式为，

其中，

是损失函数；

是学生网络

的软输出；

是教师网络

的软输出；

是真实的决策语义。

优选的，所述损失函数

的具体公式为，解决分类问题时，可以选择交叉熵损失函数，

其中，

y为真实值；

为预测值。

优选的，解决回归问题时，所述损失函数

选择平方损失函数，具体公式为，

其中，

y为真实值；

为预测值。

优选的，所述教师网络采用深度神经网络。

优选的，所述学生网络采用深度神经网络。

优选的，解决分类问题时，

选择多层感知机或卷积神经网络。

优选的，解决回归问题时，

选择循环神经网络、长短时记忆网络或时空卷积网络。。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，为嵌入领域规则的优化决策知识推理模型压缩提供了一个可行方案，使得到的轻量化模型既不损失复杂模型的鲁棒性和精准度，也可以方便地部署在工业生产现场，为工业过程优化决策问题提供实时在线优化。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于知识蒸馏的工业过程优化决策模型迁移优化方法流程框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1：

利用知识蒸馏（Knowledge Distillation）技术将复杂模型中的知识迁移到简单模型中，并建立了教师-学生网络（Teacher-Student，T-S网络），Teacher定义为复杂模型具有强大的能力和表现，Student定义为简单模型表达更为紧凑。通过知识蒸馏，使Student模型能尽可能逼近或超过Teacher模型，从而用更少的复杂度来获得类似的预测效果，实现复杂模型（Teacher）向简单模型（Student）的知识迁移。

图1，为本申请实施例提供的基于知识蒸馏的工业过程优化决策模型迁移优化方法，包括：

S1：利用工业过程领域规则知识库

，建立的嵌入领域规则的优化决策知识推理模型，

；所述

为嵌入领域规则知识的优化决策模型，它嵌入了领域规则知识，具有较强的优化决策知识推理能力；由于

模型比较复杂，不适合工业过程生产现场的在线应用。

建立的模型，

，即多源数据语义知识驱动的优化决策模型；

S3：利用建立的工业过程领域规则知识库K _R和工业过程语义知识库K _S，同时训练教师网络和学生网络，进行教师网络向学生网络的知识迁移。

根据上述方案，进一步，所述优化决策知识推理模型为，

样本集合为

，其中，

X示工业过程多源数据集合；

工业过程领域规则知识库

，其中第i条规则知识表示为

，假设该条知识对应样本集合的具体事实为

，

为具体事实为

对应的约束条件；工业过程语义知识库为

为对应

的权重；

C为常数；

为

的参数变量。

根据上述方案，进一步，所述进行教师网络向学生网络的知识迁移的方法为，同时迭代训练教师网络和学生网络，参数

进行更新，使学生网络逼近教师网络。

根据上述方案，进一步，所述参数

进行迭代更新公式为，

其中，

是损失函数；

是学生网络

的软输出；

是教师网络

的软输出；

是真实的决策语义。

根据上述方案，进一步，所述损失函数

其中，

y为真实值；

为预测值。

根据上述方案，进一步，解决回归问题时，所述损失函数

可以选择平方损失函数具体公式为，

其中，

y为真实值；

为预测值。

根据上述方案，进一步，所述教师网络采用深度神经网络。

根据上述方案，进一步，所述学生网络采用深度神经网络。当解决工业过程故障诊断、产品质量分级等优化决策问题时，这些问题本质可转化为一个分类问题，

选择多层感知机或卷积神经网络。当解决工业过程寿命预测、指标预测等优化决策问题时，这些问题本质可转化为一个回归问题，

选择循环神经网络、长短时记忆网络或时空卷积网络。

实施案2：

锂离子电池单体电芯异常诊断优化决策模型迁移优化

根据锂离子电池生产过程领域知识建立锂离子电池单体电芯异常诊断领域规则库，假定有2条规则时，工业过程领域规则知识库为

；选定4822个单体电芯的CVC曲线、CCC曲线和DVC曲线作为样本，其中异常样本822个，由此构建动力锂离子电池PACK单体电芯异常诊断工业过程语义知识库为

，其中，

为第i个知识元，

为第i个知识元的决策语义。

该问题是判断异常的锂离子电池单体电芯，筛选出性能不一致的单体电芯，本质上是一个分类问题，学生网络

选择CNN模型，根据公式，

建立教师网络

，损失函数

选择公式，

所示的交叉熵损失函数，这样便建立了T-S网络。利用工业过程领域规则知识库

和工业过程语义知识库为

迭代训练T-S网络，可以得到分类能力相近的教师网络

和学生网络

，实现教师网络向学生网络的知识迁移。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。