CN115374859A

CN115374859A - 一种针对非平衡、多类别的复杂工业数据的分类方法

Info

Publication number: CN115374859A
Application number: CN202211016513.2A
Authority: CN
Inventors: 孙杰; 丁成砚; 丁肇印; 刘云霄; 李梦琴; 李霄剑; 彭文; 张殿华
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-11-22
Anticipated expiration: 2042-08-24
Also published as: CN115374859B

Abstract

本发明提供了一种针对非平衡、多类别的复杂工业数据的分类方法，涉及非平衡数据集分类技术领域。该方法针对工业数据具有遗传性、非线性、强耦合性的特点，提出将深度神经网络作为分类器，深度神经网络本身具有非常良好的非线性拟合能力，但其处理非平衡数据的能力不足，通过代价敏感学习对深度神经网络训练过程中不同类别的误差赋予不同的权重，构建的基于代价补偿的代价敏感深度神经网络弥补了深度神经网络处理不平衡数据的能力不足；本发明提出的基于代价补偿的代价敏感深度神经网络相比于基于采样方法的深度神经网络，分类性能更好、具有更低的少数类错误率且运行性能快，可以广泛地投入到工业生产当中。

Description

一种针对非平衡、多类别的复杂工业数据的分类方法

技术领域

本发明涉及非平衡数据集分类技术领域，具体涉及一种针对非平衡、多类别的复杂工业数据的分类方法。

背景技术

在现实世界中，真实的数据集往往是非平衡的。非平衡，顾名思义，如果数据集中各个类别的样本数量不相等即可认为数据集是非平衡的。在非平衡数据集上训练模型时，分类器只注重数据集总体的准确性，而忽略实际上更有价值的少数类(一般为故障样本或缺陷产品)的准确性。随着计算机技术的发展，数据挖掘和机器学习技术在工业领域得到大量应用，但相比于其它领域，工业领域的数据往往具有遗传性、非线性和强耦合性，而非平衡、多类别的复杂数据也往往会制约机器学习算法的分类性能。

目前，为了解决非平衡数据对模型性能造成的不良影响，许多研究人员提出了自己的方法，包括数据级方法和算法级方法。数据级方法是通过改变原始数据集的样本分布来解决不平衡问题，例如文献号为CN110309881A的中国专利申请《一种非平衡数据集的分类方法》通过对正类数据集和负类数据集进行采样处理获得新的数据集，然后利用新的数据集对SVM分类器进行训练，最后对待测数据集进行分类；文献号为CN 111612628A的中国专利申请《一种非平衡数据集的分类方法及系统》通过采用SMOTE算法均衡扩充少数类样本的SVM分类器作为预测模型对债券风险进行评估；算法级方法是通过对机器学习算法的学习过程进行一定的修改以提升算法对少数类的关注，例如文献号为CN106960218B的中国专利《基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统》采用经训练的代价敏感朴素贝叶斯分类网络对预处理后的数据进行分类；文献号为CN114139598A的中国专利申请《基于深度代价敏感卷积网络的故障诊断方法及诊断框架》对基于标签预测损失函数和代价敏感分类损失函数训练网络，为各类别数据分配不同程度的误分类惩罚，最小化分类误差以解决数据不平衡的问题。

然而，以上研究从数据级层面和算法级层面提出的解决方法，还存在一些不足。数据级方法包括欠采样方法和过采样方法，欠采样方法会造成训练时信息损失，而过采样方法容易造成训练时过拟合且计算消耗很大，均不适合工业领域在线应用；代价敏感学习不易过拟合也没有额外计算开销，但是目前其主要应用于二分类问题，缺乏多分类代价敏感因子的选取策略。

发明内容

针对上述现有技术存在的不足，本发明提供一种针对非平衡、多类别的复杂工业数据的分类方法。

本发明的技术方案是：

一种针对非平衡、多类别的复杂工业数据的分类方法，该方法包括以下步骤：

步骤1：对原始数据集的数据进行标准化预处理；

步骤2：从预处理后的数据集中划分出训练集，然后将原始训练集分解为多个子训练集且每个所述子训练集中只包含两种类别的数据，从而将一个非平衡、多类别的原始工业数据集分解为多个非平衡、两类别的子数据集；

步骤3：在自适应代价敏感因子的基础上施加代价补偿系数以提高少数类样本的误分类代价，从而定义基于代价补偿的代价敏感损失函数；

步骤4：将基于代价补偿的代价敏感损失函数引入深度神经网络以提升深度神经网络处理非平衡分类的能力，构建基于代价补偿的代价敏感深度神经网络CCS-DNN；

步骤5：将预处理后的数据集中划分为训练集和测试集，对基于代价补偿的代价敏感深度神经网络进行训练与测试的过程，并从中确定基于代价补偿的代价敏感深度神经网络的最优超参数，包括神经网络的网络结构、隐含层节点数、传递函数、优化器、初始学习率和代价补偿系数；

步骤6：将基于代价补偿的代价敏感深度神经网络用于实际的工业数据分类。

进一步地，根据所述的针对非平衡、多类别的复杂工业数据的分类方法，所述步骤2中所述的将原始训练集分解为多个子训练集的方法为：首先按照式(2)确定原始训练集需要分解的子数据集的个数k；然后将原始训练集分解为k个子训练集；

上式中，n为原始训练集标签中所包含类别的数量。

进一步地，根据所述的针对非平衡、多类别的复杂工业数据的分类方法，利用一对一划分策略将原始训练集分解为多个子训练集。

进一步地，根据所述的针对非平衡、多类别的复杂工业数据的分类方法，所述步骤3包括如下步骤：

步骤3.1：根据每个子训练集中的不同类别的样本数量，定义自适应代价敏感因子，公式如下：

上式中，λ为自适应代价敏感因子；S_ma为子训练集中的多数类样本数量；S_mi为子训练集中的少数类样本数量；

步骤3.2：定义分类误差，公式如下：

上式中，e_i为子训练集中的第i个样本的分类误差；y_i为子训练集中的第i个样本的实际标签；

为子训练集中的第i个样本的预测值；

步骤3.3：分别定义多数类样本损失和少数类样本损失，公式如下：

上式中，L_ma为多数类样本损失；T_ma为子训练集中的多数类样本集，L_mi为少数类样本损失，T_mi为子训练集中的少数类样本集；

步骤3.4：在自适应代价敏感因子的基础上，施加代价补偿系数进一步提高少数类样本的误分类代价，从而定义基于代价补偿的代价敏感损失函数，以进一步提升少数类样本的分类精度，公式如下：

L＝(1-λ)L_ma+μλL_mi (7)

上式中，L为代价敏感损失函数；μ为代价补偿系数。

进一步地，根据所述的针对非平衡、多类别的复杂工业数据的分类方法，所述步骤4包括如下步骤：

步骤4.1：将基于代价补偿的代价敏感损失函数作为深度神经网络训练过程中的损失函数，通过多次反向传播迭代使得损失函数最小；

步骤4.2：考虑实际工业对于不同类别样本误分类的容忍度，为每个子训练集训练一个基于代价补偿的代价敏感深度神经网络，共得到k个神经网络的训练结果；

步骤4.3：采用多数投票法作为聚合策略，从k个神经网络的训练结果选出得票数最多的结果对应的基于代价补偿的代价敏感深度神经网络作为最终的基于代价补偿的代价敏感深度神经网络。

进一步地，根据所述的针对非平衡、多类别的复杂工业数据的分类方法，采用交叉验证法将预处理后的数据集中划分为训练集和测试集，采用贪婪搜索策略对基于代价补偿的代价敏感深度神经网络进行训练。

进一步地，根据所述的针对非平衡、多类别的复杂工业数据的分类方法，将RELU函数、softmax函数和Adam优化器依次确定为所述基于代价补偿的代价敏感深度神经网络的隐含层之间传递函数、隐含层输出层之间传递函数和优化器。

与现有技术相比较，本发明具有如下有益效果：

针对工业数据具有遗传性、非线性、强耦合性的特点，提出将深度神经网络作为分类器，深度神经网络本身具有非常良好的非线性拟合能力，但其处理非平衡数据的能力不足，通过代价敏感学习对深度神经网络训练过程中不同类别的误差赋予不同的权重，构建的基于代价补偿的代价敏感深度神经网络弥补了深度神经网络处理不平衡数据的能力不足；本发明提出的基于代价补偿的代价敏感深度神经网络相比于基于采样方法的深度神经网络，分类性能更好、具有更低的少数类错误率且运行性能快，可以广泛地投入到工业生产当中。

附图说明

图1为本实施方式针对非平衡、多类别的复杂工业数据的分类方法的流程示意图；

图2为本实施方式采用一对一策略划分子数据集的过程示意图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是，本申请可以以许多不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。

本发明的核心思路为：首先对工业数据集进行标准化处理；然后在深度神经网络的基础上，引入了考虑代价补偿系数的代价敏感损失函数，构建基于代价补偿的代价敏感深度神经网络(Compensated Cost-sensitive Deep Neural Network,CCS-DNN)，确定隐含层节点数、传递函数、初始学习率、代价补偿系数等超参数；最后用基于代价补偿的代价敏感深度神经网络对非平衡、多类别的复杂工业数据进行分类。

图1为本实施方式针对非平衡、多类别的复杂工业数据的分类方法的流程示意图，所述针对非平衡、多类别的复杂工业数据的分类方法包括如下步骤：

步骤1：对原始数据集的数据进行标准化预处理；

本实施方式对原始数据集的数据进行标准化预处理的方法如式(1)所示。

上式中，x′_i为标准化预处理后的数据；x_i为原始数据，x_min为原始数据集中的最小数据，x_max为原始数据集中的最大数据。

步骤2.1：按照式(2)确定原始训练集需要分解的子数据集的个数k；

上式中，n为原始训练集标签中所包含类别的数量。

例如图2示出的一个非平衡、三类别的原始训练集需要分解的子数据集的个数是3个。

步骤2.2：利用一对一划分策略将原始训练集分解为k个子训练集；

图2示出的是利用一对一划分策略将一个非平衡、三类别的的原始训练集分解为3个子训练集的示例图，在图2示出的正方形线框中容纳的不同形状的小图形表示不同类别的样本，黑色边线表示分类决策面，各形状小图形的不同数量就表示各个类别样本数量不同。

步骤3：定义基于代价补偿的代价敏感损失函数；

本实施方式中定义考虑工业数据误分类容忍度的代价敏感损失函数以解决非平衡、多类别的复杂工业数据的分类问题，具体包括如下步骤：

步骤3.2：定义分类误差，公式如下：

为子训练集中的第i个样本的预测值；

步骤3.4：考虑实际工业对于少数类样本(一般为故障样本或缺陷产品)误分类的低容忍度，在自适应代价敏感因子的基础上，施加代价补偿系数进一步提高少数类样本的误分类代价，从而定义基于代价补偿的代价敏感损失函数，以进一步提升少数类样本的分类精度，公式如下：

L＝(1-λ)L_ma+μλL_mi (7)

上式中，L为代价敏感损失函数；μ为代价补偿系数；

步骤4：将基于代价补偿的代价敏感损失函数引入深度神经网络以提升深度神经网络处理非平衡分类的能力，构建基于补偿代价的代价敏感深度神经网络(CompensatedCost-sensitive Deep Neural Network,CCS-DNN)，具体步骤如下：

步骤4.3：采用多数投票法作为聚合策略，从k个神经网络的训练结果选出得票数最多的结果对应的基于代价补偿的代价敏感深度神经网络作为最终的基于代价补偿的代价敏感深度神经网络；

为了使本发明方法具有最佳的分类性能，需要确定基于代价补偿的代价敏感深度神经网络的最优超参数，在本实施方式中，采用交叉验证法随机将预处理后的数据集分为5折，每次取其中1折作为测试集、其余4折作为原始训练集，重复5次这一过程以保证每折都会作为1次测试集；其中，原始训练集用于训练基于代价补偿的代价敏感深度神经网络，测试集用于测试神经网络的分类性能；训练采用贪婪搜索策略，确定神经网络的网络结构和隐含层节点数；确定神经网络各层之间的传递函数时，考虑在深度神经网络中RELU函数、softmax函数是最常用的传递函数，因此本实施方式将RELU函数确定为隐含层之间传递函数、将softmax函数确定为隐含层输出层之间传递函数；考虑各个神经网络优化器Optimizer的性能，确定本实施方式的神经网络优化器为Adam优化器；本实施方式在确定神经网络的初始学习率时，根据经验遍历搜索0.001～0.1，从中确定最优的初始学习率；在确定代价补偿系数时，根据经验遍历搜索1.0～2.0，从中确定最优的代价补偿系数；

步骤6：将基于补偿代价的代价敏感深度神经网络用于实际的工业数据分类。

实施例

为验证基于代价补偿的代价敏感深度神经网络(Compensated Cost-sensitiveDeep Neural Network,CCS-DNN)模型的有效性，以热轧带钢凸度为例，将热轧生产过程参数和带钢凸度作为对象进行性能测试，具体过程包括：

首先，构建热轧带钢凸度数据集，如表1所示，并对所述热轧带钢凸度数据集中的数据进行标准化预处理；

表1热轧带钢凸度数据集的数据分布

然后，采用交叉验证法和贪婪搜索策略确定具有最优分类性能的模型超参数，以MAUC、G-mean、F1-Macro作为评价指标：

上式中，

和

分别是实际为类别j的样本被分类为类别i的概率和实际为类别i的样本被分类为类别j的概率。

式中i、c和recall_i分别是第i类别、类别数量以及每一类的召回率。

式中F1_i是每一类别的F1值。

式中precision和recall分别是某一类别的精确率和召回率。

式中TP和FP分别是某一类别的真阳性率和假阳性率。

式中FN是某一类别的假阴性率。

不同超参数对模型性能的影响如表2、表3和表4所示，最终确定隐含层节点数为30-10、隐含层之间传递函数为RELU函数、隐含层输出层之间传递函数为softmax函数、初始学习率为0.001、代价补偿系数为1.5；

表2隐含层节点数对模型性能的影响

表3初始学习率对模型性能的影响

表4代价补偿系数对模型性能的影响

再然后，将基于代价补偿的代价敏感深度神经网络(CCS-DNN)与其它基于采样算法的深度神经网络进行性能对比，并采用MAUC、G-Mean、F1-Macro、Error rate作为评价指标：

各个方法的性能对比结果如表5所示，本发明提出的基于代价补偿的代价敏感深度神经网络(CCS-DNN)的MAUC为0.76、G-Mean为0.677、F1-Macro为0.549、类别0的Errorrate为0.36、类别2的Error rate为0.393，MAUC、G-Mean、F1-Macro最高，类别0的Errorrate和类别2的Error rate最低，性能明显好于基于采样方法的深度神经网络和传统深度神经网络。

表5

各个方法的运算时间如表6所示，本发明提出的基于代价补偿的代价敏感深度神经网络CCS-DNN的单次运算时间为28.3062秒，与传统深度神经网络接近，明显快于基于采样方法的深度神经网络。

表6

以上实施例仅用于说明本发明的一种实施方式，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例，凡根据本发明所揭示的技术方案所作的等同变化，均在本发明的保护范围之内。

Claims

1.一种针对非平衡、多类别的复杂工业数据的分类方法，其特征在于，该方法包括以下步骤：

步骤1：对原始数据集的数据进行标准化预处理；

2.根据权利要求1所述的针对非平衡、多类别的复杂工业数据的分类方法，其特征在于，所述步骤2中所述的将原始训练集分解为多个子训练集的方法为：首先按照式(2)确定原始训练集需要分解的子数据集的个数k；然后将原始训练集分解为k个子训练集；

上式中，n为原始训练集标签中所包含类别的数量。

3.根据权利要求1或2所述的针对非平衡、多类别的复杂工业数据的分类方法，其特征在于，利用一对一划分策略将原始训练集分解为多个子训练集。

4.根据权利要求1所述的针对非平衡、多类别的复杂工业数据的分类方法，其特征在于，所述步骤3包括如下步骤：

步骤3.2：定义分类误差，公式如下：

为子训练集中的第i个样本的预测值；

L＝(1-λ)L_ma+μλL_mi (7)

上式中，L为代价敏感损失函数；μ为代价补偿系数。

5.根据权利要求1所述的针对非平衡、多类别的复杂工业数据的分类方法，其特征在于，所述步骤4包括如下步骤：

6.根据权利要求1所述的针对非平衡、多类别的复杂工业数据的分类方法，其特征在于，采用交叉验证法将预处理后的数据集中划分为训练集和测试集，采用贪婪搜索策略对基于代价补偿的代价敏感深度神经网络进行训练。

7.根据权利要求1所述的针对非平衡、多类别的复杂工业数据的分类方法，其特征在于，将RELU函数、softmax函数和Adam优化器依次确定为所述基于代价补偿的代价敏感深度神经网络的隐含层之间传递函数、隐含层输出层之间传递函数和优化器。