CN113222034A

CN113222034A - 基于知识蒸馏的细粒度多类别不平衡故障分类方法

Info

Publication number: CN113222034A
Application number: CN202110549629.1A
Authority: CN
Inventors: 张新民; 范赛特
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-06
Anticipated expiration: 2041-05-20
Also published as: CN113222034B

Abstract

本发明公开了一种基于知识蒸馏的细粒度多类别不平衡故障分类方法，该方法结合知识蒸馏和层次聚类等算法，用来解决多类别不平衡故障分类问题。对于多类别故障分类问题，首先使用知识蒸馏方法进行故障分类。再针对不平衡问题中同质类别样本之间存在相似性、异质类样本之间存在较大差异的特点，采用层次聚类方法，根据类别中心点的聚类结果，将所有类别样本进行聚类，从而获得细粒度簇类。最后针对每个簇类进行细粒度故障分类。对于每个簇类，都将建立一个学生网络，最后进行拼接，将多学生网络一起优化。在教师网络全局信息的指导下，并结合多学生网络细粒度的进行故障分类。相比其他现存方法，本发明的方法有良好的效果和适用性。

Description

基于知识蒸馏的细粒度多类别不平衡故障分类方法

技术领域

本发明属于工业过程监测领域，尤其涉及一种基于知识蒸馏的细粒度多类别不平衡故障分类方法。

背景技术

在机器学习或深度学习分类中，类别样本数量不平衡是一个非常普遍的问题，广泛存在于各个领域，例如生物信息学，智能电网，医学成像，故障诊断。大多数现有的分类方法都基于以下假设：观测数据的基本分布是相对均衡的。但是，实际工业数据集通常会违反此假设，并呈现出偏斜的分布甚至是极度不平衡的类别样本数量分布。例如，数据驱动的故障分类是工业过程监测的重要组成部分，由于故障发生的频率不同，它们表现出不平衡的偏斜分布。在这种情况下，如果假定所有类别都具有同等的重要性，则分类器会倾向于分对频繁(多数)类别的样本而不是不频繁(少数)类别的样本。因此，迫切需要提出恰当的方法来消除不平衡的类别分布的负面影响，而又不过度牺牲任何多数类别或少数类别的准确性。

发明内容

本发明的目的在于提供一种基于知识蒸馏的细粒度多类别不平衡故障分类方法，其能对多数类不平衡的分类问题，获得较好的故障分类结果。具体技术方案如下：

一种基于知识蒸馏的细粒度多类别不平衡故障分类方法，包括以下步骤：

S1：离线建模

S1.1：收集K个类别的历史离线工业过程数据样本，其中包含正常工况数据以及各种故障数据；

S1.2：计算每个类别特征中心点

S1.3：通过基于Ward-Linkage的层次聚类，将同质类的类别特征中心分配在一个簇类中,最终将所有类别特征中心u_k分配到C个簇类中；然后根据类别特征中心的聚类结果分配每个类别的所有样本到对应簇类中；

S1.4：使用高斯伯努利限制玻尔兹曼机，分别基于所有样本以及每个簇类中样本进行训练，其中，所有样本训练得到的高斯伯努利限制玻尔兹曼机参数为教师网络的预训练参数；基于每个簇类中样本训练得到的高斯伯努利限制玻尔兹曼机参数为对应的学生网络的预训练参数；

S1.5：基于所述的教师网络的预训练参数，采用所有样本，通过微调技术，训练多类别不平衡的教师网络，得到的logit作为所有学生网络的软目标；

S1.6：训练完教师网络之后，所有学生网络都通过综合交叉熵损失一起训练；根据包含所述软目标和硬目标的综合损失，采用每个簇类中样本，通过微调技术进行训练，将所有学生网络得到的logit拼接在一起，组成学生网络的综合logit；各个学生网络拼接的每个logit中值的位置对应于原先类别顺序；所述硬目标为样本的真实标签；

S2：在线应用测试

S2.1：获取在线样本；

S2.2：将在线样本分类到S1.3层次聚类得到的C个簇类的其中一个簇类中；

S2.3：计算在线样本经过所在的簇类对应的学生网络得到的logit，并用softmax函数计算属于各个类别的概率，选取概率最大的类别作为在线样本的类别。

进一步地，所述S1.2中的特征中心点计算公式具体为：

其中，u_k为类别k的特征中心点，x_i表示第i个样本，g_k表示类别k的所有样本的集合，|g_k|表示类别k的样本数量。

进一步地，所述S1.3具体为：

基于Ward-Linkage进行层次聚类，直到最后所有样本都聚成一个簇类。主要有以下步骤：

①在初始化过程中，将每个样本独立的归为一个簇类中；计算每两个簇类中心之间的相似度；

②找到两个最近的簇类，并将它们归为一个簇类，因此簇类总数减少1个；

③重新计算新生成簇类的中心与每个旧簇类中心之间的相似度；所述簇类的中心为一个簇类的所有样本的平均值；

④重复②和③，直到所有样本归为一个簇类，聚类算法结束；

⑤选择所需的最终聚类后的簇类数，作为最终的簇类数，即C的值。

进一步地，所述S1.4中的高斯伯努利限制玻尔兹曼机具有两层全连接的结构，分为可见单元

和隐藏单元

p和d分别为可见单元和隐藏单元的数量；联合配置v，h的能量函数表示为：

其中v_i∈{0，1},h_j∈{0，1}；θ＝{W，a，b}是高斯伯努利限制玻尔兹曼机的结构参数；w_ij是连接可见单元i和隐藏单元j的对称权重；a_i和b_j分别是可见偏差和隐藏偏差；σ_i是可见单元i的高斯噪声的标准差；

所述高斯伯努利限制玻尔兹曼机的目标函数为：

其中，xⁱ为第i维的输入数据，p(xⁱ，h|θ)为xⁱ和h的联合概率密度函数；

通过随机梯度上升方法最大化以找到最佳θ，完成对所述高斯伯努利限制玻尔兹曼机的训练：

其中，θ中的w和b用作知识蒸馏神经网络第一层的初始参数。

进一步地，所述S1.5通过梯度下降法训练教师网络，其中，教师网络的交叉熵损失函数如下：

其中

是教师网络的输入样本x_i的输出logit。

进一步地，所述S1.6通过梯度下降法训练学生网络，其中，学生网络的交叉熵损失函数如下：

其中

是学生网络的输入样本x_i的输出logit。

进一步地，所述S2.2中将在线样本分类到对应的簇类中的计算公式如下：

其中，c为在线样本的簇类类别，

为簇类c的特征中心，x_online为在线样本。

进一步地，所述S2.3具体为：

计算在线样本经过对应的学生网络得到的输出：

logit＝f_t(x_online),

其中，f_t(·)表示学生网络；对输出进行softmax得到每个类别的概率，再取最大概率所对应的类别为分类类别：

本发明的有益效果如下：

本发明的故障分类方法对于多类别的不平衡故障分类问题具有独特的效果，由于同质类别样本之间存在相似性、异质类样本之间存在较大差异的特点，使得本发明在通过聚类方法得到的簇类的基础上，更加细粒度地通过多个学生网络来解决不平衡的故障分类问题。同时通过教师网络的引导，使得各个学生网络不仅能学习到簇类中同质类别的决策边界，也能学习到总体的数据分布信息，使得故障分类效果更好，准确率更高。

附图说明

图1为本发明方法采用的基础方法的结构图；

图2为本发明方法的结构图；

图3为使用的数据集生成的工艺流程图；

图4为使用的数据集样本数量分布示意图；

图5为通过层次聚类得到的树状图；

图6为分类最后一层隐层的数据通过t-SNE降维后的2-D映射图。(a)为MLP最后一层隐层输出的2D映射图；(b)为SMOTE-MLP最后一层隐层输出的2D映射图；(c)为Cosen-MLP最后一层隐层输出的2D映射图；(d)为CSDBN-DE最后一层隐层输出的2D映射图；(e)为TU-MLP最后一层隐层输出的2D映射图；(f)为KD最后一层隐层输出的2D映射图；(g)为本发明最后一层隐层输出的2D映射图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对多类别的不平衡分布问题，本发明提出了一种新的基于知识蒸馏的细粒度故障分类方法。

本发明针对多类别的不平衡分布下的故障分类问题，划定离线建模和在线测试数据集，首先使用知识蒸馏方法进行分类或识别故障的类别。再针对不平衡问题中同质类别样本之间存在相似性、异质类样本之间存在较大差异的特点，采用层次聚类方法，根据类别中心点的聚类结果，将所有类别样本进行聚类，从而获得细粒度簇类。最后针对每个簇类进行细粒度故障分类。因此，对于每个簇类中，都将建立一个学生网络，最后进行拼接，进行多学生网络一起优化。在教师网络的全局信息的指导下，并结合多学生网络细粒度的进行故障分类。相比其他现存方法，本发明的方法有良好的效果和适用性。

如图1和2所示，本发明的基于知识蒸馏的细粒度多类别不平衡故障分类方法，包括以下步骤：

S1：离线建模

S1.2：通过下式计算每个类别特征中心点

S1.3：通过基于Ward-Linkage的层次聚类，将同质类的类别特征中心分配在一个簇类中,最终将所有类别特征中心u_k分配到C个簇类中。然后根据类别特征中心的聚类结果分配每个类别的所有样本到对应簇类中。层次聚类使用以逐次聚合(AgglomerativeClustering)的方式将样本分类，直到最后所有样本都聚成一个簇类。主要有以下步骤：

①在初始化过程中，将每个样本独立的归为一个簇类中。计算每两个簇类中心之间的距离(也称为相似度)；

③重新计算新生成簇类的中心与每个旧簇类中心之间的相似度(一个簇类的所有样本的平均值代表该簇类的中心)；

⑤选择所需的最终聚类后的簇类数，作为最终簇类数，即C的值。

整个聚类过程实际上是在构建一棵树。在构建过程中，第②步将设置一个阈值。当两个最近的簇类中心之间的距离大于此阈值时，则认为迭代已终止。另一个关键步骤是第三步，有很多方法可以确定两个聚类之间的相似性。常用的相似性度量包括Ward Linkage，Single Linkage、Complete Linkage和Average Linkage策略。在发明中，由于WardLinkage策略通常提供较高的聚类性能，因此采用Ward Linkage策略。Ward Linkage由两个聚类之间的平方误差和ESS计算得出，其目标函数是每次合并后ESS的最小增量，ESS定义如下：

S1.4：使用高斯伯努利限制玻尔兹曼机，分别基于所有样本以及每个聚类中样本进行训练。其中，所有样本训练得到的高斯伯努利限制玻尔兹曼机参数为教师网络的预训练参数；基于每个簇类中样本训练得到的高斯伯努利限制玻尔兹曼机参数为对应的学生网络的预训练参数。

高斯伯努利限制玻尔兹曼机具有两层全连接的结构，分为可见单元(或数据变量)

和隐藏单元(或潜在变量)

p和d分别为可见单元和隐藏单元的数量。高斯伯努利限制玻尔兹曼机既是生成模型，也是基于能量的模型。联合配置v，h的能量函数表示为：

其中v_i∈{0，1},h_j∈{0，1}。θ＝{W，a，b}是高斯伯努利限制玻尔兹曼机的结构参数。w_ij是连接可见单元i和隐藏单元j的对称权重；a_i和b_j分别是可见偏差和隐藏偏差。σ_i是可见单元i的高斯噪声的标准差。v和h的联合概率采用以下形式：

通常，将导致高(低)能量的配置(v，h)分别设置为低(高)概率计算的一部分。所有可见单元或隐藏单元都是有条件的独立单元。因此，高斯伯努利限制玻尔兹曼机的可见节点和隐藏节点的概率分布可以由下式给出：

其中σ(x)是逻辑斯蒂sigmoid函数

N(·|μ，σ²)是均值为μ，方差为σ²高斯概率密度函数。高斯伯努利限制玻尔兹曼机的优化目标是最大程度的适应数据分布。因此，目标函数是通过输入数据集

获得(d是输入数据的特征维度，m是类别数目)，如下所示：

现有的大多数基于高斯伯努利限制玻尔兹曼机的模型都是通过对比差异(CD)学习策略来处理数据非线性的，该策略将实值数据映射到隐特征空间。对数似然估计值可通过随机梯度上升方法最大化以找到最佳θ：

通过迭代获得高斯伯努利限制玻尔兹曼机的最优参数θ。θ中的w和b用作知识蒸馏神经网络第一层的初始参数。

S1.5：基于所述的教师网络的预训练参数，采用所有样本，通过微调技术，通过梯度下降法训练多类别不平衡的教师网络，得到的logit作为所有学生网络的软目标。计算教师网络f_t的交叉熵损失函数如下：

其中

是教师网络的输入样本x_i的输出logit。

S1.6：训练完教师网络之后，所有的学生网络都通过综合交叉熵损失一起训练。根据包含了软目标(教师网络的logit)和硬目标(真实标签)的综合损失，采用每个簇类中样本，通过微调技术，通过梯度下降法进行训练所有学生网络。学生网络的综合logit由所有学生网络的logit拼接在一起。各个学生网络拼接的每个logit中值的位置对应于原先类别顺序。学生网络f_t的综合损失，含了软目标(教师网络的logit)和硬目标(真实标签)的综合损失，定义如下：

其中

是学生网络的输入样本x_i的输出logit。

S2：在线应用测试

S2.1：获取在线样本；

S2.2：基于S1.3层次聚类得到的簇类信息，将在线样本分类到对应的簇类中。在线样本分类到对应的簇类中,其公式如下：

其中c为在线样本的簇类类别，

为簇类c的特征中心，x_online为在线样本。

在线样本经过学生网络得到的输出为：

logits＝ft(x_online)，

对输出进行softmax得到每个类别的概率，再取最大概率所对应的类别为分类类别：

以下结合一个具体的工业例子来说明本发明的有效性。使用田纳西州伊士曼(TE)工业基准过程来评估所提出的方法。TE过程是由伊士曼化学公司根据实际化学过程开发的工业仿真平台，已广泛用于测试过程监控和故障诊断方法的有效性。TE过程的流程如图3所示。

表1：每个故障类别TE过程训练样本数量设定

故障	训练数据	故障	训练数据	故障	训练数据	故障	训练数据
								IDV1	7239	IDV8	3595	IDV15	1785	IDV22	886
IDV2	6550	IDV9	3253	IDV16	1615	IDV23	802
								IDV3	5927	IDV10	2943	IDV17	1461	IDV24	726
IDV4	5363	IDV11	2663	IDV18	1322	IDV25	657
								IDV5	4852	IDV12	2410	IDV19	1197	IDV26	594
IDV6	4390	IDV13	2180	IDV20	1083	IDV27	538
								IDV7	3973	IDV14	1973	IDV21	980	IDV28	486

TE数据中正常样本数量为8000。表1为每个故障类别TE过程训练样本数量设定，测试样本数量设定为2000。TE数据的过程变量由34维，故障类别有28个，各个类别的样本数呈下降趋势，如图4所示。选取对比方法有MLP(多层感知机)、SMOTE-MLP(合成少数类过采样技术的MLP)、CoSen-MLP(代价敏感MLP)、CSDBN-DE(差分演化的代价敏感深度信念网络)、TU-MLP(可训练的降采样器后的MLP)、KD(知识蒸馏)和本发明(基于知识蒸馏的细粒度多类别不平衡故障分类方法)。

通过基于知识蒸馏的细粒度多类别不平衡故障分类方法在TE过程训练样本上训练得到各个学生网络。通过离线训练得到的学生网络对在线样本(测试集)进行预测，得到的结果如表2所示：

表2：在TE过程数据上各个对比方法的分类性能

从表格中可以看出，所提出的基于知识蒸馏的细粒度多类别不平衡故障分类方法的F1随着不平衡率的上升在更多的类别上优于对比方法。综合所有对比方法在所有类别上的结果，本发明提出的方法可以在最终的Macro-F1和Gmean指标上明显优于其他方法。图5为训练数据经过层次聚类得到的树图，虚线位置为我们选择的簇类数。

为了更加直观的显示所提方法的优越性，绘制了各个分类模型最后一层隐藏的输出经过t-SNE后得到的2D图，如图6所示，不同线型代表的不同类别。图6(g)为本发明的2D映射图，能够从图中看出，本发明基于知识蒸馏的细粒度多类别不平衡故障分类方法，获得的各个类别的边界更加明显，这充分体现了算法的分类性能得到了提高。

如上所述，本发明中所提的基于知识蒸馏的细粒度多类别不平衡故障分类方法，具有令人满意的分类效果。