CN111428823A

CN111428823A - 一种可以识别新类的磨粒分类模型与方法

Info

Publication number: CN111428823A
Application number: CN202010526027.XA
Authority: CN
Inventors: 张桃红; 范素丽; 曾庆峰
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-07-17
Anticipated expiration: 2040-06-11
Also published as: CN111428823B

Abstract

本发明提供一种可以识别新类的磨粒分类模型与方法，该磨粒分类模型包括：特征向量提取阶段网络，用于提取磨粒图像的特征向量；类中心向量提取阶段网络，用于提取磨粒的类中心向量；预测阶段网络，用于结合特征向量提取阶段网络和类中心向量提取阶段网络的输出，对待预测的磨粒图像中的磨粒的类型进行预测。本发明结合轻量化神经网络和距离度量的优点，首先，能够对训练集中没有出现的磨粒类别进行分类，具有很强的泛化性能；其次，大大降低了网络的参数数量，提高了训练和测试速度。本发明提出的磨粒分类模型不仅能够对新的磨粒类别进行分类，且在识别速度和识别准确率上均有提升。

Description

一种可以识别新类的磨粒分类模型与方法

技术领域

本发明涉及磨粒智能识别技术领域，特别是指一种可以识别新类的磨粒分类模型与方法。

背景技术

在工业生产领域，机械设备的故障不仅会引起巨大的经济损失，甚至危及人身安全。例如：在航空工业里，飞机如果有小小的故障没有被及时检测出来，将有可能造成无法估计的损失。经过研究大量的专业资料，发现设备磨损是设备故障的主要原因，因此实现机械磨损故障的早期诊断对及时维修和生产安全来说是至关重要的。

磨损是机械设备运行过程中不可避免的问题，但是设备的磨损状态通常是难以直接检测的。磨粒是设备摩擦过程中产生的颗粒，可以反映设备磨损的状态，因此可以借助磨粒对机械的磨损状态进行监测。不同磨损类型的磨粒图像有不同的形状、大小等特征，磨粒图像相对容易获取，因此，基于磨粒图像对磨粒进行分类成为简单且可行的磨粒分类方法。

目前，已经有研究利用卷积神经网络对磨粒图像进行自动提取特征，并分类，不需人工参与特征的提取。近年来，虽然磨粒图像处理和识别已经取得了很好的研究成果，但是分类准确率仍然不高，目前还没有达到90%。另外，研究表明，设备磨损机理并不仅限于当前已知的几种类型，如：切削，滑动等。随着工业生产领域的发展，磨损可能出现新的形式，当然也会出现新的磨粒类型。但是当前存在的对磨粒图像进行分类的方法，只能对训练集中出现过的磨粒类型进行分类，当出现新的磨粒类型的时候，当前的模型就无法正常分类，即当前的磨粒分类模型没有很好的泛化能力。

发明内容

本发明要解决的技术问题是提供一种可以识别新类的磨粒分类模型与方法，以解决当前磨粒图像分类方法无法应对新出现的磨粒类别的识别、准确率不高、分类速度较低和模型泛化能力低的问题。

为解决上述技术问题，本发明提供如下技术方案：

一种可以识别新类的磨粒分类模型，其包括：

特征向量提取阶段网络，用于提取磨粒图像的特征向量；

类中心向量提取阶段网络，用于基于所述特征向量提取阶段网络提取的特征向量，提取磨粒的类中心向量；其中，在训练过程中，类中心向量提取阶段网络可学习到如何提取不同磨粒类别的类中心向量；在测试过程中，类中心向量提取阶段网络可提取出之前未在训练集中出现过的磨粒类别的类中心向量；

预测阶段网络，用于结合所述特征向量提取阶段网络和所述类中心向量提取阶段网络的输出，对当前待预测的磨粒图像中的磨粒的类型进行预测。

进一步地，所述特征向量提取阶段网络的网络结构包括：

Conv1层：该层为卷积层，卷积核大小为3*3，卷积深度为24；

MaxPool层：该层为最大池化层；

stage2层：该层为1个down sampling unit和3个basic unit的堆叠；

stage3层：该层为1个down sampling unit和7个basic unit的堆叠；

stage4层：该层为1个down sampling unit和3个basic unit的堆叠；

Conv5层:该层为卷积层，卷积核大小为1*1，卷积深度为1024；

F6层:该层为全连接层，输出通道数为1024；

F7层:该层为全连接层，输出通道数为1024；

F8层:该层为全连接层，输出通道数为512；

F9层:该层为全连接层，输出通道数为256；

其中，down sampling unit和basic unit是由卷积Conv、批量归一化BN和Relu激活函数构成的两个卷积块。

进一步地，所述类中心向量提取阶段网络具体用于：

利用基于距离度量的类中心向量提取算法，根据磨粒图像经过所述特征向量提取阶段网络的F9层得到的特征向量，从中提取出预设数量的类中心向量。

进一步地，类中心向量提取阶段网络提取磨粒的类中心向量的过程包括：

步骤一、在所述特征向量提取阶段网络提取到的特征向量中选择三个作为初始类中心向量；

步骤二、计算其他特征向量到三个类中心向量的距离，将其他特征向量归为距离最小的类中心向量所属的类，形成三个簇；

步骤三、分别计算三个簇的均值向量作为新的三个类中心向量；

步骤四、重复执行步骤二和步骤三，直到三个簇稳定为止，此时的三个类中心向量就是当前磨粒对应的类中心向量。

进一步地，所述预测阶段网络对磨粒类型的预测过程包括：

步骤一、由特征向量提取阶段网络的F9层得到待分类磨粒图像的特征向量

，计算

和第i类的第j个类中心向量

的距离

：

步骤二、假设每类都服从高斯分布，根据

计算待分类磨粒图像属于第i类的第j个中心向量的概率

：

步骤三、根据

计算出待分类磨粒图像属于每一类磨粒的概率；

步骤四、基于待分类磨粒图像属于每一类磨粒的概率，输出待分类磨粒图像的分类结果。

进一步地，所述磨粒分类模型的训练过程包括：

步骤一、第一个batch，在训练集中随机选取N1类，每类选m张图像，将N1*m张图像作为该batch的代表集，将该N1类剩余的磨粒图像作为对比集；

步骤二、将代表集输入到特征向量提取阶段网络，得到特征向量；再经过类中心向量提取阶段网络计算出每类的类中心向量；

步骤三、依次将对比集中的图像输入到特征向量提取阶段网络，得到对比图像的特征向量；再经过预测阶段网络，根据损失函数计算出每个对比集中的磨粒图像的损失，进而得到该batch的损失，在最小化损失和随机梯度算法的作用下，更新一次磨粒分类模型的网络参数；

步骤四、进行下一个batch的训练，重复步骤一、步骤二和步骤三，直至达到预设的最大迭代次数。

进一步地，所述磨粒分类模型的训练过程中的损失函数的定义为：

交叉熵损失：

；

距离损失:

磨粒分类模型的总损失函数：

；

其中，

代表

与第i类的第j个类中心向量

之间的距离，

表示

的真实类别；

表示ReLU激活函数；

代表磨粒图像的总类数，

代表第i类磨粒，

代表待分类磨粒图像是否属于第i类磨粒，值为1表示是，值为0表示不是；

代表

属于第i类磨粒的概率；

代表所有的类中心向量；λ代表

到其所属类的最接近类中心向量的距离与

到其非所属类的最接近类中心向量的距离之间的差值。

相应地，为解决上述技术问题，本发明还提供如下技术方案：

一种可以识别新类的磨粒分类方法，其包括：

构建如上所述的可以识别新类的磨粒分类模型；

获取磨粒图像数据集，将所述磨粒图像数据集划分为训练集和测试集；其中所述测试集包括的磨粒的类别数大于所述训练集包括的磨粒的类别数；

使用划分的训练集训练磨粒分类模型，使磨粒分类模型具有提取不同类别的类中心向量的能力，利用磨粒分类模型在测试集上生成新类的类中心向量，从而获得对新类的识别能力；其中，新类为在所述训练集中未出现的磨粒类别；

将待分类磨粒图像输入到训练好的磨粒分类模型，得到磨粒类型分类结果。

进一步地，所述将所述磨粒图像数据集划分为训练集和测试集，包括：

将所述磨粒图像数据集按照8:2的比例分层采样，划分为训练集和测试集；

将训练集中所有图像均按照5:5的比例分层采样，划分为对比集和代表集；将测试集中旧类图像均划分入对比集，新类图像按照5:5的比例划分为对比集和代表集；其中，代表集用于生成新类与旧类的类中心向量并将该类中心向量作为类预测的基准，实现对新类的预测；对比集用于计算损失函数。

进一步地，利用磨粒分类模型在测试集上生成新类的类中心向量，包括：

本发明的上述技术方案的有益效果如下：

本发明提供的可以识别新类的磨粒分类模型与方法，结合轻量化网络和距离度量的优点设计网络模型；利用基于距离度量的类中心向量提取算法计算出每类磨粒（旧类与新类）的类中心向量，作为判别磨粒类别的基准；训练CDCNN时，在类中心向量和距离对比以及类别预测结果的作用下，更新网络的权重和偏置，训练出一个拥有提取不同类别磨粒的类中心向量的能力的模型；测试CDCNN时，面对出现了新类的情况，可以利用训练好的CDCNN生成新类的类中心向量，再利用新类与旧类的类中心向量和训练好的CDCNN实现对新类与旧类的磨粒图像的识别；在磨粒图像识别领域，该方法首次实现了对新类（训练集中未出现）的识别，并提高磨粒图像的分类准确率和速度。

附图说明

图1为本发明实施例提供的可以识别新类的磨粒分类模型的识别流程图；

图2为本发明实施例提供的down sampling unit子结构对应的网络结构图；

图3为本发明实施例提供的basic unit子结构对应的网络结构图；

图4为本发明实施例提供的3*3DWConv和1*1PWConv的卷积示意图；

图5为本发明实施例提供的特征向量提取阶段的子网络结构stage2和stage4的示意图；

图6为本发明实施例提供的特征向量提取阶段的子网络结构stage3示意图；

图7为本发明实施例提供的磨粒分类模型的示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

第一实施例

请参阅图1至图7，针对当前磨粒图像分类方法无法应对新出现的磨粒类别的识别、分类方法无法应对新出现的磨粒类别的识别、准确率不高、分类速度较低和模型泛化能力低的问题，本实施例提供一种可以识别新类的磨粒分类模型，该磨粒分类模型是一种基于类中心向量和距离对比的磨粒分类模型CDCNN，利用CDCNN模型可识别出在训练集中没有出现过的新类，其包括：

特征向量提取阶段网络FVEM，用于提取磨粒图像的特征向量；其中，训练时FVEM可提取前四类磨粒的特征向量，测试时FVEM可提取前四类磨粒与新出现的磨粒类的特征向量；

类中心向量提取阶段网络CCVEM，用于基于所述特征向量提取阶段网络提取的特征向量，提取磨粒的类中心向量；其中，在训练过程中，CCVEM可学习到如何提取不同磨粒类别的类中心向量；在测试过程中，CCVEM可提取出之前未在训练集中出现过的磨粒类别的类中心向量；

预测阶段网络PM，用于结合FVEM和CCVEM的输出，对当前待预测的磨粒图像中的磨粒的类型进行预测，测试时可对新类别的磨粒进行预测。

进一步地，本实施例的特征向量提取阶段网络用于实现对旧类与新类的特征向量的提取，将输入图片转为对应的特征向量表示，其网络结构如下：

Conv1层：该层为卷积层，卷积核大小为3*3，卷积深度为24；

MaxPool层：该层为最大池化层；

stage2层：该层为1个down sampling unit和3个basic unit的堆叠；

stage3层：该层为1个down sampling unit和7个basic unit的堆叠；

stage4层：该层为1个down sampling unit和3个basic unit的堆叠；

Conv5层:该层为卷积层，卷积核大小为1*1，卷积深度为1024；

F6层:该层为全连接层，输出通道数为1024；

F7层:该层为全连接层，输出通道数为1024；

F8层:该层为全连接层，输出通道数为512；

F9层:该层为全连接层，输出通道数为256；

其中，down sampling unit和basic unit是轻量化卷积神经网络对传统卷积的优化卷积。也即，down sampling unit和basic unit是由卷积（Conv）、批量归一化（BN）和Relu激活函数构成的两个卷积块。

CCVEM用于实现对旧类与新类的类中心向量的提取，以此类中心向量实现对旧类与新类磨粒图像的识别；其处理流程为如下：

利用基于距离度量的磨粒类中心向量提取算法，根据磨粒图像经过特征向量提取阶段网络的F9层得到的特征向量，从中提取出k个类中心向量。

当新类出现时，可直接依据该基于距离度量的磨粒类中心向量提取算法提取新类别的类中心向量，提取方法如下：

步骤一、在FVEM提取到的特征向量中选择三个作为初始类中心向量；

PM可实现对新类别的磨粒图像进行准确识别，其处理流程如下：

，计算

和

的距离

：

其中，

表示第i类磨粒的第j类个中心向量；

步骤二、假设每类都服从高斯分布，根据

计算后验概率，即待分类磨粒图像属于第i类的第j个中心向量的概率

：

其中，D表示

的维度，

表示

属于第i类磨粒的第j个类中心向量的概率，σ代表高斯分布；

步骤三、根据

计算出待分类磨粒图像属于每一类磨粒的概率；

步骤四、基于待分类磨粒图像属于每一类磨粒的概率，输出待分类磨粒图像的分类结果，即非金属、滑动、切削、疲劳或者气泡。

本实施例的CDCNN模型的构建过程如下：

首先准备磨粒图像数据集，包含5类磨粒，每张图像包含一个磨粒。数据集中有1760个样本，包括281个非金属，486个滑动，439个切割，459个疲劳，95个气泡。将磨粒图像数据集按照8:2的比例分层采样，分成两个不重叠的子数据集：训练集和测试集，其中测试集类别数（五类）大于训练集类别数（四类）。训练集中所有图像均按照5:5的比例分层采样，划分为对比集1和代表集1；测试集中旧类图像均划入对比集2，新类图像按照5:5的比例划分为对比集2和代表集2。代表集用于生成新类与旧类的类中心向量并将该类中心向量作为类别预测的基准，实现对新类别的预测；对比集用于计算损失函数。

此处，需要说明的是，因为同一类磨粒图像具有相似的特征，而不同类磨粒图像的特征具有明显的差异，将其映射到特征向量空间仍然会表现出这种相似或者差异，因此可以利用划分代表集和对比集的方法，使用代表集生成类中心向量作为判别对比集中磨粒类型的基准，这样做，一方面使分类变得可解释，另一方面，基于距离对比使分类变得简单。

表1 磨粒数据集图像的数量统计信息

搭建基于类中心向量和距离对比的磨粒分类网络，即CDCNN，流程如下；

（1）构建down sampling unit，如图2所示；

1）使用Channel Divide将输入张量

，分成两支，即两个张量

；

2）上分支依次经过1*1PWConv，如图4所示；批归一化和ReLU激活、3*3DWConv，如图4所示；批归一化、1*1PWConv和批归一化和ReLU激活，得到变换后的

的张量；

3）下分支依次经过3*3DWConv和1*1PWConv，得到变换后的

；

4）将上下两个分支的输出进行Channel Concat合并得到

的张量；

5）进行Channel Shuffle，即重新将通道进行排序，使得不同分组的特征能够一起计算。

（2）构建basic unit，如图3所示；

1）使用Channel Divide将输入张量为

，平均分为两个

的张量；

2）上分支依次经过1*1PWConv、批归一化和ReLU激活、3*3DWConv、批归一化、1*1PWConv和批归一化和ReLU激活，得到变换后的

的张量；

3）下分支与上分支的输出进行Channel Concat合并得到

的张量；

4）进行Channel Shuffle，即重新将通道进行排序，使得不同分组的特征能够一起计算。

（3）构建stage2，stage3，stage4网络结构

Stage2和stage4如图5所示，是1个down sampling unit和3个basic unit的堆叠；Stage3如图6所示是1个down sampling unit和7个basic unit的堆叠。

（4）构建特征向量提取阶段网络结构，如图7中的FVEM所示；

下面，对搭建的CDCNN模型进行训练，具体训练过程如下：

步骤一、第一个batch，在训练集中随机选取N1（N1<N）类，每类选m张图像，将N1*m张图像作为该batch的代表集，将该N1类剩余的磨粒图像作为对比集；其中，在本实施例中N1的取值为2，m的取值为20；

步骤二、将代表集输入到CDCNN，利用FVEM的F9层得到特征向量（每类得到20个特征向量）；再经过CCVEM利用基于距离的类中心向量提取算法分别计算出每类对应的类中心向量；

步骤三、依次将对比集中的图像输入到CDCNN，得到对比图像的特征向量；再经过PM，根据损失函数和类中心向量计算出对比集中每张磨粒图像的损失，进而得到该batch的损失，在最小化损失和随机梯度算法的作用下，更新一次磨粒分类模型的网络参数，包括网络权重和偏置；

步骤五、得到训练好的CDCNN模型和4类磨粒图像对应的类中心向量。

进一步地，为了使每类磨粒图像经过CDCNN模型输出的特征向量尽可能接近该磨粒真实类别对应的类中心向量，尽可能远离其他类别对应的类中心向量，训练CDCNN模型时的损失函数定义如下：

（1）交叉熵损失：

；

（2）距离损失:

（3）CDCNN模型的总损失函数：

；

其中，

代表

与第i类的第j个类中心向量

之间的距离，

表示

的真实类别；

表示ReLU激活函数；

代表磨粒图像的总类数，

代表第i类磨粒，

代表特征向量提取阶段输出的待分类磨粒图像的特征向量；

代表

属于第i类磨粒的概率；

代表所有的类中心向量；λ代表

到其所属类的最接近类中心向量的距离与

到其非所属类的最接近类中心向量的距离之间的差值。

为了验证上述CDCNN模型能够对新类进行分类，本实施例在测试集上对CDCNN模型进行了测试，具体过程如下：

（1）将测试集中新出现的气泡类分为代表集（20张）和对比集（75张）；

（2）使用训练好的CDCNN模型，将气泡类的代表集中的20张磨粒图像输入到网络中，得到气泡类的特征向量；再计算出气泡类的类中心向量，至此，现在已得到了5类磨粒的类中心向量；

（3）将测试集中剩余的待分类的磨粒图像输入到CDCNN模型中，经过F9层得到待分类磨粒图像的特征向量

，计算

和5类磨粒的类中心向量的距离；

（4）根据距离可以计算出后验概率，即待分类磨粒图像属于第i类的第j个中心向量的概率：

（5）计算待分类磨粒图像属于每一类的概率；

（6）输出待分类磨粒图像的分类结果：非金属、切削、疲劳、滑动或气泡。

在本实施例中，基于类中心向量和距离对比训练CDCNN模型，因为训练的思想是让同类磨粒的特征向量更加接近，不同类磨粒的特征向量的差距更大，而CDCNN模型又是基于距离对比做出判别决策的，这样就提高了模型的判别能力。此外，利用训练好的CDCNN模型，还可以利用少量新类样本生成新类的类代表向量，这样就能够对新类进行分类，即在训练集中只有4类磨粒，在测试集上增加了1类磨粒（5类磨粒），CDCNN模型依然能够正确的对新类进行分类。CDCNN模型的分类准确率如下表所示：

表2 CDCNN模型分类准确率

不同模型在相同数据集上的分类准确率，如下表所示：

表3 不同模型在相同数据集上的分类准确率

模型	AlexNet	ShuffleNet	VGG	ResNet	CDCNN
						准确率 (%)	85.8	87.09	91.33	88.1	92.55

在本实施例中，借鉴了轻量化神经网络的思想，利用了轻量化网路能够减少网络参数，计算速度快的优点，使训练出的CDCNN模型的分类速度大大提升。VGG和CDCNN迭代2000次的时间，如下表所示：

表4 VGG和CDCNN迭代2000次的时间

模型	VGG	CDCNN
			时间(s)	548.47	81.14

在本实施例中，将本实施例的模型与其他卷积神经网络（CNN）进行对比实验,在相同磨粒数据数据集上，本实施例的模型分类准确率比VGG提高了1.22%，比ResNet提高了4.45%，比ShuffleNet提高了5.46%，比AlexNet提高了6.75%；同时在迭代2000次CDCNN的速度大约是是VGG的6.7倍，所以本实施例提出的基于类中心向量和距离对比的磨粒图像分类方法在速度和准确率上都显示了极大的优越性；除此之外，即使气泡类在训练集中没有出现，本实施例的CDCNN模型仍然得到了93.33%的分类准确率，证明本实施例提出的基于类中心向量和距离对比的磨粒图像分类方法也拥有极强的泛化能力。

第二实施例

本实施例提供一种可以识别新类的磨粒分类方法，其包括：

构建如上所述的可以识别新类的磨粒分类模型CDCNN；

获取磨粒图像数据集，将磨粒图像数据集划分为训练集和测试集；其中测试集包括的磨粒的类别数大于训练集包括的磨粒的类别数；

将磨粒图像数据集按照8:2的比例分层采样，划分为训练集和测试集；

将训练集中所有图像均按照5:5的比例分层采样，划分为对比集和代表集；将测试集中旧类图像均划分入对比集，新类图像按照5:5的比例划分为对比集和代表集；其中，代表集用于生成新类与旧类的类中心向量并将该类中心向量作为类预测的基准，实现对新类的预测；对比集用于计算损失函数；

使用划分的训练集训练CDCNN，使CDCNN模型具有提取不同类别的类中心向量的能力，利用CDCNN在测试集中的代表集上生成新类的类中心向量，从而获得对新类的识别能力；其中，新类为在训练集中未出现的磨粒类别；

将待分类磨粒图像输入到训练好的CDCNN模型，得到磨粒类型分类结果。基于CDCNN，利用训练阶段生成的类中心向量和测试阶段生成的新类的类中心向量，既可识别出训练集出现过的旧类，又能够识别出测试集中出现的新类。

此外，需要说明的是，本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。