CN112257767A

CN112257767A - 针对类不均衡数据的产品关键零部件状态分类方法

Info

Publication number: CN112257767A
Application number: CN202011110292.6A
Authority: CN
Inventors: 刘振宇; 刘惠; 郏维强; 张朔; 张栋豪; 谭建荣
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-01-22
Anticipated expiration: 2040-10-16
Also published as: CN112257767B

Abstract

本发明公开了一种针对类不均衡数据的产品关键零部件状态分类方法。获取辅助训练集和源训练集并预处理；对源训练集中的多数类样本N次欠采样处理，获得N个相对均衡的子数据集；用N个子数据集并行训练N个SVM分类器，投票法选择获得最终预测结果；取出最终预测结果中的少数类辅助数据并添加到源训练集；构建深度学习分类模型用重构后的源训练集监督训练；再对待预测的传感器数据进行检测处理。本发明充分利用了源训练集中有标签数据和辅助数据集中未标注的数据，利用弱监督学习方法处理，有利于降低类不均衡数据的不均衡比例，提高分类模型的预测效果。

Description

针对类不均衡数据的产品关键零部件状态分类方法

技术领域

本发明属于工业类不均衡数据处理领域的一种弱监督学习分类方法，具体是涉及了一种针对类不均衡数据的产品关键零部件状态分类方法。

背景技术

产品关键零部件如刀具、齿轮、轴承等在现代工业中的应用非常广泛，大量工业系统的性能与关键零部件正常运行与否有关。关键零部件的工作状态对于工业系统的可靠性和有效性具有较大意义。随着互联网技术、先进传感技术和存储技术的发展，现代工业生产中有海量的有价值的传感器数据被采集和保存。通过传感器数据分析产品关键零部件的工作状态也得到了工业界和学术界的广泛重视。然而，工业数据广泛存在的类不均衡性阻碍了进一步的研究。以故障领域为例，在平时的工业活动中，产品关键零部件正常运行的时间总是要比故障时间多，这就意味着采集到的传感器数据中，正常状态下的样本比故障状态下的样本要多很多，属于多数类样本。而故障样本则属于少数类样本。通常情况下，样本之间的比例悬殊将导致预测模型过度拟合多数类样本，而对于少数类样本的预测精度降低。这种情况下，总体样本的准确率依然比较高，但模型却难以分辨出少数类状态。然而，类似于故障状态的少数类样本才是从业者需要重点关注的对象。因此，研究类不均衡数据，提高少数类样本的预测精度，具有重要的理论和应用意义。

近年来，学术界和工业界的学者对类不均衡数据进行了大量研究，主要集中在两方面：数据级和算法级的研究。数据级的研究主要是包括对类不均衡数据进行欠采样处理、过采样处理和少数类数据生成。其中具有代表性的方法有：1)利用合成少数类过采样算法(SMOTE)从类不均衡数据中合成少数类样本，以降低不均衡比例；2)利用集成欠采样算法(EasyEnsemble)将多数类样本划分为若干个集合，用以训练多个基分类器，通过集成学习降低少数类样本的预测误差。上述采样方法虽然从直观上解决了类不均衡的问题，但却存在一些问题，SMOTE容易引入与真实分布不一致的样本，加大预测模型进行分类的难度；而EasyEnsemble有可能会造成重要信息丢失，并导致过拟合。算法级的研究主要通过改进分类算法，通过代价敏感学习调整对两类样本的关注度等。但该方法需要一定先验知识，且不适合某些分类算法，例如以批次训练的神经网络。

通常，数据质量的重要性在类不均衡学习中是要占到首位的，因此补充更多的更真实的少数类样本是解决类不均衡学习的重要途径。考虑到在平时的工业活动中，传感器会采集大量的工业数据，但对这些工业数据打标签需要付出极大的代价。例如，在数控机床加工过程中，若要测量刀具的磨损情况，需要中断当前操作，使用显微镜等工具进行测量，这种情况在实际生产中是难以接受的。因此，工业生产活动中可能会产生大量没有标签的传感器数据，可以考虑从未标注的传感器数据中提取有价值的信息来提高类不均衡数据的质量。

弱监督学习是指在模型训练过程中，并非所有训练样本都有准确的标签。通常，在弱监督学习中，未标注的数据也可以发挥一定的作用。考虑到上述情况，本发明提出了一种针对类不均衡数据的产品关键零部件状态分类方法，尝试从未标注的数据中获取少数类样本。这种情况下获取的样本是真实存在的，与生成的少数类样本相比具有较大优势。同时，为防止错误地引入多数类样本，加大分类器的分类难度，本发明对训练集样本进行了有差别的加权，防止分类器过度拟合新增的少数类样本，同时也使分类器更关注于原有的少数类样本。

发明内容

为了解决背景技术中存在的问题，本发明提出了一种针对类不均衡数据的产品关键零部件状态分类方法，充分利用了源训练集中有标签数据和辅助训练集中未标注的数据，方法有利于降低类不均衡数据的不均衡比例，提高分类模型的预测效果。

本发明方法不仅充分利用了已标注的传感器数据，而且吸取了未标注传感器数据中的有用样本来降低数据集的不均衡率。通过上述方法，本发明在一定程度上克服了背景技术中所提到的现有方法的不足，有效提升了对类不均衡数据集的预测效果，特别是提高了少数类样本的预测精度，可应用于产品关键零部件的状态分类中。

为实现上述功能，本发明的技术方案具体包括以下技术步骤：

S1.获取产品关键零部件运行过程中的已经具有标签的传感器数据及其已知的标签作为源训练集，标签分类为少数类样本和多数类样本的两类样本数据，获取与源训练集在相同场景下产品关键零部件运行过程中的传感器数据的未具有标签的传感器数据作为辅助训练集，对所述辅助训练集和源训练集进行预处理；

辅助训练集的数据量是无限多的，是大量的；源训练集的数据量是有限的，是少量的；辅助训练集的数据量大于源训练集的数据量。

S2.利用引导聚类算法(Bagging)对源训练集中的多数类样本采用自助采样方法依次进行连续N次欠采样处理，每次欠采样处理结果作为一个多数类子集，从而获得N个多数类子集，并将每个多数类子集分别与源训练集中的少数类样本进行组合构成一个相对均衡的子数据集，从而获得N个相对均衡的子数据集；

S3.采用支持向量机(SVM)算法作为Bagging算法的基分类器，利用步骤S2中的N个子数据集并行训练N个SVM分类器，然后采用训练后的N个SVM分类器分别对辅助训练集进行少数类和多数类的分类预测获得预测结果，每个SVM分类器将辅助训练集中的数据分为少数类数据或者多数类数据，采用投票法对预测结果进行选择获得最终预测结果；

S4.取出辅助训练集中被步骤S3中的最终预测结果归为少数类的数据，并设置标签为少数类辅助数据，并将少数类辅助数据添加到源训练集中，获得重构后的源训练集，降低源训练集中多数类与少数类数据的不均衡比例；

S5.构建基于双向门控循环网络的深度学习分类模型，并利用重构后的源训练集对模型进行监督训练；

S6.将待预测的传感器数据经过与S1步骤相同的预处理后输入深度学习分类模型中，获得产品关键零部件的状态。

所述步骤S1中，产品关键零部件主要指机电产品的关键零部件，例如包括刀具、轴承和齿轮等但不限于此。

用于采集数据的传感器主要包括加速度传感器、力传感器和声传感器等；标签是指产品关键零部件在运行过程中的工作状态，例如正常状态和故障状态。通常产品关键零部件都是处于正常运行状态，故障的时间非常短，相应地故障状态下的传感器数据非常少。因此，故障状态下的数据作为少数类数据/少数类样本，而正常状态下的数据作为多数类数据/多数类样本。

所述步骤S1中，未具有标签的数据是指在同一场景下所收集的传感器数据，与源训练集的数据区别在于没有相应的标签。因对数据进行标注的成本极其高，因此在实际应用过程中可能存在大量的无标签传感器数据，但难以直接应用到监督训练中，因此本发明采用特殊的处理方式扩展出有效的少数类数据加入源训练集来增强训练集。

所述步骤S1中，数据预处理主要包括缺失值处理、数据标准化等处理。

所述步骤S2中，Bagging算法是一种并行式集成学习方法。与常用Bagging算法不同，本发明中Bagging算法只对多数类样本进行多次欠采样，并将欠采样后的多数类样本与少数类样本构成相对均衡的子数据集。其中，所采取的采样处理为利用自助采样法中的进行欠采样，即有放回地采样。

所述步骤S3中，采用SVM算法作为Bagging算法的基分类器。SVM算法是一种应用广泛的机器学习模型，对数据规模较小的数据具有很好的分类效果。步骤S2经欠采样后得到的子数据集规模相较于源训练集大大降低，因此利用SVM进行处理能够充分挖掘子数据集的数据特征，实现较好的分类预测效果。

所述步骤S3中，N个SVM对辅助训练集的数据进行预测得到N个预测结果，采用投票法综合各个SVM对应获得的分类预测结果进行判断，对辅助训练集中每个数据在各个SVM中获得的分类预测结果数量最多的结果作为该数据的分类预测结果，即两个类中获得票数更多的为预测结果。

所述步骤S4中，加入新的少数类辅助数据后，源训练集的不均衡比例将下降，更有利于分类算法学习两类数据的分布。

所述S5中，在深度学习分类模型的训练中，增大原有源训练集中的少数类样本的权重，提高模型对少数类数据的关注度，同时减小辅助少数类辅助数据的权重，降低辅助数据带来的误差风险。

所述步骤S5具体如下：

S51.模型建立：深度学习分类模型的结构依次为输入层、连续两层双向门控循环单元网络、连续两层全连接网络和输出层，

在两层全连接网络之间添加连接上随机失活层(dropout)，以降低过拟合的风险；深度学习分类模型训练时的损失函数为交叉熵函数，学习器采用Adam优化算法；

S52.训练数据权重调整：通常情况下，训练过程中数据样本的权重为1。增大源训练集中的每个少数类样本的权重，设置为w₁>1；降低新增添加如源训练集中的少数类辅助数据的权重，设置为w₂＜1，防止模型过度拟合新增的少数类样本；

S53.利用更新后的源训练集对S51中建立的深度学习分类模型进行监督训练，得到最终分类器。

所提出的方法充分利用了源训练集中有标签的工业数据，也利用了辅助数据集中未标注的工业数据，是快速有效的弱监督学习方法。

本发明在带标注工业数据规模有限且类分布不均衡的条件下，采用Bagging算法和SVM算法从未标注的工业数据中获取少数类样本，并将其添加到原有的数据集中，通过增加少数类样本的数量降低类不均衡率，有效解决了工业数据类不均衡的问题；根据训练样本的重要性，差别性地为训练样本分配不同的权重，解决了补充少数类样本后可能引入伪少数类样本的问题，防止分类模型过度拟合错误样本；进而利用深度学习模型强大的数据挖掘能力，实现了对工业类不均衡数据的高精度预测，有效提高了对产品关键零部件状态的预测精度，可以应用于各种工业类不均衡数据的分类问题中。

与现有的技术与方法相比，本发明具有以下优势：

在产品关键零部件状态分类领域，本发明首次提出通过弱监督学习方法来解决类不均衡的问题。与传统监督学习的区别在于，弱监督学习可以从未标注的数据中学习到有价值的信息。一方面，实现了对无标注数据的利用，另一方面，巧妙地利用无标注数据降低了数据的不均衡率，提高了对少数类样本的预测精度。

此外，通过Bagging算法对多数类样本进行欠采样，生成N个相对均衡的数据子集，利用这N个子集训练出N个SVM分类器，然后对未标注的传感器数据进行预测，并将预测值作为其标签。该方法的优势在于，借助于SVM强大的小样本数据处理能力和集成算法的思想，给未标注的传感器数据进行标注。

本发明的方法充分考虑了当前工业界的现状，利用大量已有的无标注传感器数据巧妙地解决了类不均衡的难题，不仅具有理论创新性，而且具有实用性，可以解决不同工业场景下的产品关键零部件状态分类问题。

附图说明

图1为本发明具体步骤的流程示意图。

图2为本发明中神经网络的训练损失图。

具体实施方式

下面结合附图和具体实例对本发明作进一步说明：

按照本发明发明内容完整方法实施的具体实施例及其实施过程如下：

本实例采用了2010年的数控机床刀具比赛数据对本发明所提出的针对类不均衡数据的产品关键零部件状态分类方法进行实现与验证。(国际PHM(故障诊断与健康管理)数据竞赛是由国际PHM协会举办，关注于实际工业生产中关键部件的状况，例如设备故障诊断、故障预测等，致力于推进PHM领域理论的发展和应用，该比赛在全球范围内具有广泛的影响力。)

表1

实验过程中铣削操作的基本信息

在该次比赛中，数控机床刀具的加工参数如表1所示。在该实验中，每个加工过程包括315次单独的铣削操作，每次铣削操作完成后机床停机，通过LEICA MZ12型显微镜对刀具的磨损量进行精确测量。本实例中使用的刀具磨损数据集共包含6个加工过程的数据，这6组传感器测量数据分别编号为C1、C2、C3、C4、C5、C6。在比赛中，C1、C4和C6提供了传感器数据和测量的刀具磨损量，这三个数据集作为训练集。而C2、C3和C5只提供了传感器数据，没有提供相关刀具磨损量。

本次比赛给出的标签值为具体的刀具磨损值，适合于刀具磨损预测等回归问题，对于本发明的分明问题需要对标签作一定调整。参考论文“Enabling Health MonitoringApproach Based on Vibration Data for Accurate Prognostics”，将磨损阈值设置为0.165mm。当磨损值大于等于0.165mm时，认为刀具已经磨损，即处于故障状态，将其标签设置为“1”；当磨损值小于0.165mm时，则认为刀具处于正常状态，将其标签设置为“0”。经过上述处理后，该数据集的处理则为一个典型的类不均衡问题。同时，由于C2、C3和C5在比赛中充当测试数据，没有提供标签，则可以将这三个数据集当做未标注的辅助数据集。

附图1展示了本发明所提出的针对类不均衡数据的关键零部件状态分类方法的流程示意图。

具体实施方式为：

S1.源数据集和辅助数据集的获取及其预处理：

首先，获取带有标签的工业不均衡数据作为源训练集。在本实例中，C1、C4和C6是有标签的，但考虑到需要测试集对本发明方法进行测试验证，所以将C1和C6作为源训练集，C4作为算法的测试集。其中，测试集的存在只是为了评估所提出的方法，在实际应用过程中不是必须的。

然后，获取大量未标注的相同场景下的传感器数据作为辅助训练集。在本实例中，C2、C3和C5没有相应的标签，所以将其作为辅助训练集。表2展示了数据集的划分情况。

最后，对上述数据进行预测。在本实例中，需要对数据集进行缺失值处理和数据标准化。其中，缺失值利用同列与其相近的10个数据点的平均值替代，数据标准化采用最大最小标准化，将传感器数据大小范围压缩到[-1,1]之间。注意，源训练集、辅助训练集和测试集采用一样的数据预处理方法。

表2

S2.利用Bagging算法对源训练集的多数类样本进行N次自助欠采样处理，获得N个多数类子集，并将其分别与源训练集中的少数类样本构成N个相对均衡的子数据集；

在本实例中，N设置为10，即采用Bagging算法进行欠采样后可得到10个相对均衡的子数据集。其中，经过采样后，子数据集的多数类样本和少数类样本的比例为1:1，该比例在可接受范围内。采样方法选择自助采样法，每次采样完成后，将采样数据放回源训练集。

S3.采用支持向量机(SVM)算法作为Bagging算法的基分类器，利用步骤S2中的N个子数据集并行训练N个SVM分类器对辅助训练集进行预测，采用投票法选择最终预测结果；

在本实例中，利用步骤S2得到的10个子数据集训练10个SVM分类器，通过10个训练好的SVM分类器预测辅助训练集(C2+C3+C5)的磨损状态。在最终结果选择时，得到分类器预测次数最多的标签被选择为预测标签，即采用投票法选择最终预测结果。若两类的票数相同，为减少误差引入，优先选择“0”类标签。

在本实例中，SVM算法的核函数选择径向基函数。

S4.取出步骤S3中预测结果为少数类的辅助数据，将其标签设置为少数类，并将这些数据添加到源训练集中，降低源训练集中多数类与少数类数据的不均衡比例；

在本实例中，Bagging算法和SVM算法从辅助数据集中共获取了173个预测标签为“1”的样本，将其作为少数类样本添加到源训练集中。源训练集中的数据分布情况和更新前后的不均衡比例如表3所示。由表3可知，经过数据添加后，源训练集的不均衡比例大大下降。

表3

S5.构建基于双向门控循环网络的深度学习分类模型，并利用重构后的源训练集对模型进行监督训练。在训练中，为提高模型对少数类数据的关注度，增大原有少数类数据的权重。同时，为降低辅助数据带来的误差风险，减小辅助少数类数据的权重；

S51.模型建立：深度学习分类模型的结构依次为输入层，两层双向门控循环单元网络，三层全连接网络，其中第三层为输出层，并在第一和第二层全连接网络之间添加随机失活层，以降低过拟合的风险。

在本实例中，神经网络的主要超参数设置如下：

两层双向门控循环网络的隐藏神经元数设置为：20/20；三层全连接网络的神经元数设置为：20/20/1；随机失活层的丢弃率设置为0.3；

S52.训练数据权重调整：

S521.通常情况下，训练过程中数据样本的权重为1。因少数类样本是工业数据中最关心的一部分，所以增大源训练集中的每个少数类样本的权重，将其设置为w₁。在本实例中，w₁设置为1.5。

S522.步骤S4中新添加的少数类样本是由多个SVM预测所得，与源训练集的真实分布可能存在偏差。为防止模型过度拟合新增的少数类样本，降低新增少数类样本的权重，将其设置为w₂。在本实例中，w₂设置为0.5。

S53.利用更新后的源训练集对S51中建立的深度学习分类模型进行监督训练，并得到最终分类器。在本实例中，训练过程的主要参数设置如下：

神经网络训练的损失函数为交叉熵函数；学习器采用Adam优化算法；学习率设置为0.001；批次大小设置为256；验证集所占比例为0.1。

在本实例中，采用早停法对神经网络进行训练，即通过监督验证误差得到最佳模型。具体地，若验证误差连续10个训练周期没有下降，则停止模型训练。

图2展示了本实例的神经网络训练过程。

S6.将待预测的工业数据经过与S1步骤相同的预处理后输入分类模型中，获得工业数据的相关状态标签；

在本实例中，待预测的数据为C4，对C4进行与训练集相同的数据预处理，然后将预处理后的数据输入到步骤S5训练好的模型中，得到预测结果。并将预测结果与C4的真实标签进行比较，得到预测效果。

表4

为准确评估预测效果，本实例采用三个不均衡数据处理中常用的评价指标对预测结果进行评估，分别是：查准率(Precision)、查全率(Recall)和基于查准与查全的调合平均(F1)。同时，为验证方法的有效性，设置了对照实验组：直接利用神经网络处理本实例的不均衡数据(实验1)，以及采用本发明的弱监督学习方法处理本实例的不均衡数据(实验2)。

从表3可以看出，在实验2中，采用本发明所提出的弱监督学习方法进行数控机床刀具磨损状态预测的结果中，Recall与F1值都比较高。相比于实验1的预测结果，有了较大的提升。虽然实验1的Precision很高，实现了100％，但并不意味着实验效果好，其查全率和F1值都很低，说明分类算法在分类的时候过度关注于多数类样本，为了准确率而将待预测样本大都分为多数类，这是不可取的。上述实验结果说明本发明所提出的预测方法具有较好的预测精度，在少数类样本上实现了较好的分类效果。

本发明在产品关键零部件状态分类领域首次提出了通过弱监督学习方法来解决类不均衡问题的思想。与传统监督学习的区别在于，弱监督学习可以从未标注的数据中学习到有价值的信息。一方面，实现了对无标注数据的利用，另一方面，巧妙地利用无标注数据降低了数据的不均衡率，提高了对少数类样本的预测精度。此外，本发明充分考虑了工业界的数据采集和应用现状，利用大量已有的无标注工业数据巧妙地解决了数据不均衡的难题，不仅具有理论创新性，而且具有实用性，可以解决不同工业场景下的分类问题。

上述实例为本发明在2010年PHM国际数据大赛所使用的数据集上的一个应用实例，但本发明的具体实施不仅局限于上述实例。依照本发明原理和思路提出的相似方案，均应视为本发明专利的保护范围。

Claims

1.一种针对类不均衡数据的产品关键零部件状态分类方法，其特征在于，包括以下步骤：

S1.获取产品关键零部件运行过程中的已经具有标签的传感器数据及其标签作为源训练集，标签分类为少数类样本和多数类样本的两类样本数据，获取与源训练集在相同场景下产品关键零部件运行过程中的传感器数据的未具有标签的传感器数据作为辅助训练集，对所述辅助训练集和源训练集进行预处理；

S3.采用支持向量机(SVM)算法作为Bagging算法的基分类器，利用步骤S2中的N个子数据集并行训练N个SVM分类器，然后采用训练后的N个SVM分类器分别对辅助训练集进行少数类和多数类的分类预测获得预测结果，采用投票法对预测结果进行选择获得最终预测结果；

S4.取出辅助训练集中被步骤S3中的最终预测结果归为少数类的数据，并设置标签为少数类辅助数据，并将少数类辅助数据添加到源训练集中，获得重构后的源训练集；

2.根据权利要求1所述的一种针对类不均衡数据的产品关键零部件状态分类方法，其特征在于：所述步骤S1中，产品关键零部件主要指机电产品的关键零部件。

3.根据权利要求1所述的一种针对类不均衡数据的产品关键零部件状态分类方法，其特征在于：所述步骤S1中，数据预处理主要包括缺失值处理、数据标准化等处理。

4.根据权利要求1所述的一种针对类不均衡数据的产品关键零部件状态分类方法，其特征在于：所述步骤S3中，N个SVM对辅助训练集的数据进行预测得到N个预测结果，采用投票法综合各个SVM对应获得的分类预测结果进行判断，对辅助训练集中每个数据在各个SVM中获得的分类预测结果数量最多的结果作为该数据的分类预测结果。

5.根据权利要求1所述的一种针对类不均衡数据的产品关键零部件状态分类方法，其特征在于：所述S5中，在深度学习分类模型的训练中，增大原有源训练集中的少数类样本的权重，同时减小辅助少数类辅助数据的权重。

6.根据权利要求1所述的一种针对类不均衡数据的产品关键零部件状态分类方法，其特征在于：所述步骤S5具体如下：

S51.模型建立：深度学习分类模型的结构依次为输入层、连续两层双向门控循环单元网络、连续两层全连接网络和输出层，在两层全连接网络之间添加连接上随机失活层(dropout)；深度学习分类模型训练时的损失函数为交叉熵函数，学习器采用Adam优化算法；

S52.训练数据权重调整：增大源训练集中的每个少数类样本的权重，设置为w₁>1；降低新增添加如源训练集中的少数类辅助数据的权重，设置为w₂＜1；