CN115374859A - 一种针对非平衡、多类别的复杂工业数据的分类方法 - Google Patents

一种针对非平衡、多类别的复杂工业数据的分类方法 Download PDF

Info

Publication number
CN115374859A
CN115374859A CN202211016513.2A CN202211016513A CN115374859A CN 115374859 A CN115374859 A CN 115374859A CN 202211016513 A CN202211016513 A CN 202211016513A CN 115374859 A CN115374859 A CN 115374859A
Authority
CN
China
Prior art keywords
cost
neural network
deep neural
sensitive
compensation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211016513.2A
Other languages
English (en)
Other versions
CN115374859B (zh
Inventor
孙杰
丁成砚
丁肇印
刘云霄
李梦琴
李霄剑
彭文
张殿华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202211016513.2A priority Critical patent/CN115374859B/zh
Publication of CN115374859A publication Critical patent/CN115374859A/zh
Application granted granted Critical
Publication of CN115374859B publication Critical patent/CN115374859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种针对非平衡、多类别的复杂工业数据的分类方法,涉及非平衡数据集分类技术领域。该方法针对工业数据具有遗传性、非线性、强耦合性的特点,提出将深度神经网络作为分类器,深度神经网络本身具有非常良好的非线性拟合能力,但其处理非平衡数据的能力不足,通过代价敏感学习对深度神经网络训练过程中不同类别的误差赋予不同的权重,构建的基于代价补偿的代价敏感深度神经网络弥补了深度神经网络处理不平衡数据的能力不足;本发明提出的基于代价补偿的代价敏感深度神经网络相比于基于采样方法的深度神经网络,分类性能更好、具有更低的少数类错误率且运行性能快,可以广泛地投入到工业生产当中。

Description

一种针对非平衡、多类别的复杂工业数据的分类方法
技术领域
本发明涉及非平衡数据集分类技术领域,具体涉及一种针对非平衡、多类别的复杂工业数据的分类方法。
背景技术
在现实世界中,真实的数据集往往是非平衡的。非平衡,顾名思义,如果数据集中各个类别的样本数量不相等即可认为数据集是非平衡的。在非平衡数据集上训练模型时,分类器只注重数据集总体的准确性,而忽略实际上更有价值的少数类(一般为故障样本或缺陷产品)的准确性。随着计算机技术的发展,数据挖掘和机器学习技术在工业领域得到大量应用,但相比于其它领域,工业领域的数据往往具有遗传性、非线性和强耦合性,而非平衡、多类别的复杂数据也往往会制约机器学习算法的分类性能。
目前,为了解决非平衡数据对模型性能造成的不良影响,许多研究人员提出了自己的方法,包括数据级方法和算法级方法。数据级方法是通过改变原始数据集的样本分布来解决不平衡问题,例如文献号为CN110309881A的中国专利申请《一种非平衡数据集的分类方法》通过对正类数据集和负类数据集进行采样处理获得新的数据集,然后利用新的数据集对SVM分类器进行训练,最后对待测数据集进行分类;文献号为CN 111612628A的中国专利申请《一种非平衡数据集的分类方法及系统》通过采用SMOTE算法均衡扩充少数类样本的SVM分类器作为预测模型对债券风险进行评估;算法级方法是通过对机器学习算法的学习过程进行一定的修改以提升算法对少数类的关注,例如文献号为CN106960218B的中国专利《基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统》采用经训练的代价敏感朴素贝叶斯分类网络对预处理后的数据进行分类;文献号为CN114139598A的中国专利申请《基于深度代价敏感卷积网络的故障诊断方法及诊断框架》对基于标签预测损失函数和代价敏感分类损失函数训练网络,为各类别数据分配不同程度的误分类惩罚,最小化分类误差以解决数据不平衡的问题。
然而,以上研究从数据级层面和算法级层面提出的解决方法,还存在一些不足。数据级方法包括欠采样方法和过采样方法,欠采样方法会造成训练时信息损失,而过采样方法容易造成训练时过拟合且计算消耗很大,均不适合工业领域在线应用;代价敏感学习不易过拟合也没有额外计算开销,但是目前其主要应用于二分类问题,缺乏多分类代价敏感因子的选取策略。
发明内容
针对上述现有技术存在的不足,本发明提供一种针对非平衡、多类别的复杂工业数据的分类方法。
本发明的技术方案是:
一种针对非平衡、多类别的复杂工业数据的分类方法,该方法包括以下步骤:
步骤1:对原始数据集的数据进行标准化预处理;
步骤2:从预处理后的数据集中划分出训练集,然后将原始训练集分解为多个子训练集且每个所述子训练集中只包含两种类别的数据,从而将一个非平衡、多类别的原始工业数据集分解为多个非平衡、两类别的子数据集;
步骤3:在自适应代价敏感因子的基础上施加代价补偿系数以提高少数类样本的误分类代价,从而定义基于代价补偿的代价敏感损失函数;
步骤4:将基于代价补偿的代价敏感损失函数引入深度神经网络以提升深度神经网络处理非平衡分类的能力,构建基于代价补偿的代价敏感深度神经网络CCS-DNN;
步骤5:将预处理后的数据集中划分为训练集和测试集,对基于代价补偿的代价敏感深度神经网络进行训练与测试的过程,并从中确定基于代价补偿的代价敏感深度神经网络的最优超参数,包括神经网络的网络结构、隐含层节点数、传递函数、优化器、初始学习率和代价补偿系数;
步骤6:将基于代价补偿的代价敏感深度神经网络用于实际的工业数据分类。
进一步地,根据所述的针对非平衡、多类别的复杂工业数据的分类方法,所述步骤2中所述的将原始训练集分解为多个子训练集的方法为:首先按照式(2)确定原始训练集需要分解的子数据集的个数k;然后将原始训练集分解为k个子训练集;
Figure BDA0003812731870000021
上式中,n为原始训练集标签中所包含类别的数量。
进一步地,根据所述的针对非平衡、多类别的复杂工业数据的分类方法,利用一对一划分策略将原始训练集分解为多个子训练集。
进一步地,根据所述的针对非平衡、多类别的复杂工业数据的分类方法,所述步骤3包括如下步骤:
步骤3.1:根据每个子训练集中的不同类别的样本数量,定义自适应代价敏感因子,公式如下:
Figure BDA0003812731870000022
上式中,λ为自适应代价敏感因子;Sma为子训练集中的多数类样本数量;Smi为子训练集中的少数类样本数量;
步骤3.2:定义分类误差,公式如下:
Figure BDA0003812731870000031
上式中,ei为子训练集中的第i个样本的分类误差;yi为子训练集中的第i个样本的实际标签;
Figure BDA0003812731870000032
为子训练集中的第i个样本的预测值;
步骤3.3:分别定义多数类样本损失和少数类样本损失,公式如下:
Figure BDA0003812731870000033
Figure BDA0003812731870000034
上式中,Lma为多数类样本损失;Tma为子训练集中的多数类样本集,Lmi为少数类样本损失,Tmi为子训练集中的少数类样本集;
步骤3.4:在自适应代价敏感因子的基础上,施加代价补偿系数进一步提高少数类样本的误分类代价,从而定义基于代价补偿的代价敏感损失函数,以进一步提升少数类样本的分类精度,公式如下:
L=(1-λ)Lma+μλLmi (7)
上式中,L为代价敏感损失函数;μ为代价补偿系数。
进一步地,根据所述的针对非平衡、多类别的复杂工业数据的分类方法,所述步骤4包括如下步骤:
步骤4.1:将基于代价补偿的代价敏感损失函数作为深度神经网络训练过程中的损失函数,通过多次反向传播迭代使得损失函数最小;
步骤4.2:考虑实际工业对于不同类别样本误分类的容忍度,为每个子训练集训练一个基于代价补偿的代价敏感深度神经网络,共得到k个神经网络的训练结果;
步骤4.3:采用多数投票法作为聚合策略,从k个神经网络的训练结果选出得票数最多的结果对应的基于代价补偿的代价敏感深度神经网络作为最终的基于代价补偿的代价敏感深度神经网络。
进一步地,根据所述的针对非平衡、多类别的复杂工业数据的分类方法,采用交叉验证法将预处理后的数据集中划分为训练集和测试集,采用贪婪搜索策略对基于代价补偿的代价敏感深度神经网络进行训练。
进一步地,根据所述的针对非平衡、多类别的复杂工业数据的分类方法,将RELU函数、softmax函数和Adam优化器依次确定为所述基于代价补偿的代价敏感深度神经网络的隐含层之间传递函数、隐含层输出层之间传递函数和优化器。
与现有技术相比较,本发明具有如下有益效果:
针对工业数据具有遗传性、非线性、强耦合性的特点,提出将深度神经网络作为分类器,深度神经网络本身具有非常良好的非线性拟合能力,但其处理非平衡数据的能力不足,通过代价敏感学习对深度神经网络训练过程中不同类别的误差赋予不同的权重,构建的基于代价补偿的代价敏感深度神经网络弥补了深度神经网络处理不平衡数据的能力不足;本发明提出的基于代价补偿的代价敏感深度神经网络相比于基于采样方法的深度神经网络,分类性能更好、具有更低的少数类错误率且运行性能快,可以广泛地投入到工业生产当中。
附图说明
图1为本实施方式针对非平衡、多类别的复杂工业数据的分类方法的流程示意图;
图2为本实施方式采用一对一策略划分子数据集的过程示意图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。
本发明的核心思路为:首先对工业数据集进行标准化处理;然后在深度神经网络的基础上,引入了考虑代价补偿系数的代价敏感损失函数,构建基于代价补偿的代价敏感深度神经网络(Compensated Cost-sensitive Deep Neural Network,CCS-DNN),确定隐含层节点数、传递函数、初始学习率、代价补偿系数等超参数;最后用基于代价补偿的代价敏感深度神经网络对非平衡、多类别的复杂工业数据进行分类。
图1为本实施方式针对非平衡、多类别的复杂工业数据的分类方法的流程示意图,所述针对非平衡、多类别的复杂工业数据的分类方法包括如下步骤:
步骤1:对原始数据集的数据进行标准化预处理;
本实施方式对原始数据集的数据进行标准化预处理的方法如式(1)所示。
Figure BDA0003812731870000041
上式中,x′i为标准化预处理后的数据;xi为原始数据,xmin为原始数据集中的最小数据,xmax为原始数据集中的最大数据。
步骤2:从预处理后的数据集中划分出训练集,然后将原始训练集分解为多个子训练集且每个所述子训练集中只包含两种类别的数据,从而将一个非平衡、多类别的原始工业数据集分解为多个非平衡、两类别的子数据集;
步骤2.1:按照式(2)确定原始训练集需要分解的子数据集的个数k;
Figure BDA0003812731870000051
上式中,n为原始训练集标签中所包含类别的数量。
例如图2示出的一个非平衡、三类别的原始训练集需要分解的子数据集的个数是3个。
步骤2.2:利用一对一划分策略将原始训练集分解为k个子训练集;
图2示出的是利用一对一划分策略将一个非平衡、三类别的的原始训练集分解为3个子训练集的示例图,在图2示出的正方形线框中容纳的不同形状的小图形表示不同类别的样本,黑色边线表示分类决策面,各形状小图形的不同数量就表示各个类别样本数量不同。
步骤3:定义基于代价补偿的代价敏感损失函数;
本实施方式中定义考虑工业数据误分类容忍度的代价敏感损失函数以解决非平衡、多类别的复杂工业数据的分类问题,具体包括如下步骤:
步骤3.1:根据每个子训练集中的不同类别的样本数量,定义自适应代价敏感因子,公式如下:
Figure BDA0003812731870000052
上式中,λ为自适应代价敏感因子;Sma为子训练集中的多数类样本数量;Smi为子训练集中的少数类样本数量;
步骤3.2:定义分类误差,公式如下:
Figure BDA0003812731870000053
上式中,ei为子训练集中的第i个样本的分类误差;yi为子训练集中的第i个样本的实际标签;
Figure BDA0003812731870000054
为子训练集中的第i个样本的预测值;
步骤3.3:分别定义多数类样本损失和少数类样本损失,公式如下:
Figure BDA0003812731870000055
Figure BDA0003812731870000056
上式中,Lma为多数类样本损失;Tma为子训练集中的多数类样本集,Lmi为少数类样本损失,Tmi为子训练集中的少数类样本集;
步骤3.4:考虑实际工业对于少数类样本(一般为故障样本或缺陷产品)误分类的低容忍度,在自适应代价敏感因子的基础上,施加代价补偿系数进一步提高少数类样本的误分类代价,从而定义基于代价补偿的代价敏感损失函数,以进一步提升少数类样本的分类精度,公式如下:
L=(1-λ)Lma+μλLmi (7)
上式中,L为代价敏感损失函数;μ为代价补偿系数;
步骤4:将基于代价补偿的代价敏感损失函数引入深度神经网络以提升深度神经网络处理非平衡分类的能力,构建基于补偿代价的代价敏感深度神经网络(CompensatedCost-sensitive Deep Neural Network,CCS-DNN),具体步骤如下:
步骤4.1:将基于代价补偿的代价敏感损失函数作为深度神经网络训练过程中的损失函数,通过多次反向传播迭代使得损失函数最小;
步骤4.2:考虑实际工业对于不同类别样本误分类的容忍度,为每个子训练集训练一个基于代价补偿的代价敏感深度神经网络,共得到k个神经网络的训练结果;
步骤4.3:采用多数投票法作为聚合策略,从k个神经网络的训练结果选出得票数最多的结果对应的基于代价补偿的代价敏感深度神经网络作为最终的基于代价补偿的代价敏感深度神经网络;
步骤5:将预处理后的数据集中划分为训练集和测试集,对基于代价补偿的代价敏感深度神经网络进行训练与测试的过程,并从中确定基于代价补偿的代价敏感深度神经网络的最优超参数,包括神经网络的网络结构、隐含层节点数、传递函数、优化器、初始学习率和代价补偿系数;
为了使本发明方法具有最佳的分类性能,需要确定基于代价补偿的代价敏感深度神经网络的最优超参数,在本实施方式中,采用交叉验证法随机将预处理后的数据集分为5折,每次取其中1折作为测试集、其余4折作为原始训练集,重复5次这一过程以保证每折都会作为1次测试集;其中,原始训练集用于训练基于代价补偿的代价敏感深度神经网络,测试集用于测试神经网络的分类性能;训练采用贪婪搜索策略,确定神经网络的网络结构和隐含层节点数;确定神经网络各层之间的传递函数时,考虑在深度神经网络中RELU函数、softmax函数是最常用的传递函数,因此本实施方式将RELU函数确定为隐含层之间传递函数、将softmax函数确定为隐含层输出层之间传递函数;考虑各个神经网络优化器Optimizer的性能,确定本实施方式的神经网络优化器为Adam优化器;本实施方式在确定神经网络的初始学习率时,根据经验遍历搜索0.001~0.1,从中确定最优的初始学习率;在确定代价补偿系数时,根据经验遍历搜索1.0~2.0,从中确定最优的代价补偿系数;
步骤6:将基于补偿代价的代价敏感深度神经网络用于实际的工业数据分类。
实施例
为验证基于代价补偿的代价敏感深度神经网络(Compensated Cost-sensitiveDeep Neural Network,CCS-DNN)模型的有效性,以热轧带钢凸度为例,将热轧生产过程参数和带钢凸度作为对象进行性能测试,具体过程包括:
首先,构建热轧带钢凸度数据集,如表1所示,并对所述热轧带钢凸度数据集中的数据进行标准化预处理;
表1热轧带钢凸度数据集的数据分布
Figure BDA0003812731870000071
然后,采用交叉验证法和贪婪搜索策略确定具有最优分类性能的模型超参数,以MAUC、G-mean、F1-Macro作为评价指标:
Figure BDA0003812731870000072
上式中,
Figure BDA0003812731870000073
Figure BDA0003812731870000074
分别是实际为类别j的样本被分类为类别i的概率和实际为类别i的样本被分类为类别j的概率。
Figure BDA0003812731870000075
式中i、c和recalli分别是第i类别、类别数量以及每一类的召回率。
Figure BDA0003812731870000076
式中F1i是每一类别的F1值。
Figure BDA0003812731870000077
式中precision和recall分别是某一类别的精确率和召回率。
Figure BDA0003812731870000078
式中TP和FP分别是某一类别的真阳性率和假阳性率。
Figure BDA0003812731870000079
式中FN是某一类别的假阴性率。
不同超参数对模型性能的影响如表2、表3和表4所示,最终确定隐含层节点数为30-10、隐含层之间传递函数为RELU函数、隐含层输出层之间传递函数为softmax函数、初始学习率为0.001、代价补偿系数为1.5;
表2隐含层节点数对模型性能的影响
Figure BDA0003812731870000081
表3初始学习率对模型性能的影响
Figure BDA0003812731870000082
表4代价补偿系数对模型性能的影响
Figure BDA0003812731870000083
Figure BDA0003812731870000091
再然后,将基于代价补偿的代价敏感深度神经网络(CCS-DNN)与其它基于采样算法的深度神经网络进行性能对比,并采用MAUC、G-Mean、F1-Macro、Error rate作为评价指标:
Figure BDA0003812731870000092
各个方法的性能对比结果如表5所示,本发明提出的基于代价补偿的代价敏感深度神经网络(CCS-DNN)的MAUC为0.76、G-Mean为0.677、F1-Macro为0.549、类别0的Errorrate为0.36、类别2的Error rate为0.393,MAUC、G-Mean、F1-Macro最高,类别0的Errorrate和类别2的Error rate最低,性能明显好于基于采样方法的深度神经网络和传统深度神经网络。
表5
Figure BDA0003812731870000093
各个方法的运算时间如表6所示,本发明提出的基于代价补偿的代价敏感深度神经网络CCS-DNN的单次运算时间为28.3062秒,与传统深度神经网络接近,明显快于基于采样方法的深度神经网络。
表6
Figure BDA0003812731870000101
以上实施例仅用于说明本发明的一种实施方式,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例,凡根据本发明所揭示的技术方案所作的等同变化,均在本发明的保护范围之内。

Claims (7)

1.一种针对非平衡、多类别的复杂工业数据的分类方法,其特征在于,该方法包括以下步骤:
步骤1:对原始数据集的数据进行标准化预处理;
步骤2:从预处理后的数据集中划分出训练集,然后将原始训练集分解为多个子训练集且每个所述子训练集中只包含两种类别的数据,从而将一个非平衡、多类别的原始工业数据集分解为多个非平衡、两类别的子数据集;
步骤3:在自适应代价敏感因子的基础上施加代价补偿系数以提高少数类样本的误分类代价,从而定义基于代价补偿的代价敏感损失函数;
步骤4:将基于代价补偿的代价敏感损失函数引入深度神经网络以提升深度神经网络处理非平衡分类的能力,构建基于代价补偿的代价敏感深度神经网络CCS-DNN;
步骤5:将预处理后的数据集中划分为训练集和测试集,对基于代价补偿的代价敏感深度神经网络进行训练与测试的过程,并从中确定基于代价补偿的代价敏感深度神经网络的最优超参数,包括神经网络的网络结构、隐含层节点数、传递函数、优化器、初始学习率和代价补偿系数;
步骤6:将基于代价补偿的代价敏感深度神经网络用于实际的工业数据分类。
2.根据权利要求1所述的针对非平衡、多类别的复杂工业数据的分类方法,其特征在于,所述步骤2中所述的将原始训练集分解为多个子训练集的方法为:首先按照式(2)确定原始训练集需要分解的子数据集的个数k;然后将原始训练集分解为k个子训练集;
Figure FDA0003812731860000011
上式中,n为原始训练集标签中所包含类别的数量。
3.根据权利要求1或2所述的针对非平衡、多类别的复杂工业数据的分类方法,其特征在于,利用一对一划分策略将原始训练集分解为多个子训练集。
4.根据权利要求1所述的针对非平衡、多类别的复杂工业数据的分类方法,其特征在于,所述步骤3包括如下步骤:
步骤3.1:根据每个子训练集中的不同类别的样本数量,定义自适应代价敏感因子,公式如下:
Figure FDA0003812731860000021
上式中,λ为自适应代价敏感因子;Sma为子训练集中的多数类样本数量;Smi为子训练集中的少数类样本数量;
步骤3.2:定义分类误差,公式如下:
Figure FDA0003812731860000022
上式中,ei为子训练集中的第i个样本的分类误差;yi为子训练集中的第i个样本的实际标签;
Figure FDA0003812731860000023
为子训练集中的第i个样本的预测值;
步骤3.3:分别定义多数类样本损失和少数类样本损失,公式如下:
Figure FDA0003812731860000024
Figure FDA0003812731860000025
上式中,Lma为多数类样本损失;Tma为子训练集中的多数类样本集,Lmi为少数类样本损失,Tmi为子训练集中的少数类样本集;
步骤3.4:在自适应代价敏感因子的基础上,施加代价补偿系数进一步提高少数类样本的误分类代价,从而定义基于代价补偿的代价敏感损失函数,以进一步提升少数类样本的分类精度,公式如下:
L=(1-λ)Lma+μλLmi (7)
上式中,L为代价敏感损失函数;μ为代价补偿系数。
5.根据权利要求1所述的针对非平衡、多类别的复杂工业数据的分类方法,其特征在于,所述步骤4包括如下步骤:
步骤4.1:将基于代价补偿的代价敏感损失函数作为深度神经网络训练过程中的损失函数,通过多次反向传播迭代使得损失函数最小;
步骤4.2:考虑实际工业对于不同类别样本误分类的容忍度,为每个子训练集训练一个基于代价补偿的代价敏感深度神经网络,共得到k个神经网络的训练结果;
步骤4.3:采用多数投票法作为聚合策略,从k个神经网络的训练结果选出得票数最多的结果对应的基于代价补偿的代价敏感深度神经网络作为最终的基于代价补偿的代价敏感深度神经网络。
6.根据权利要求1所述的针对非平衡、多类别的复杂工业数据的分类方法,其特征在于,采用交叉验证法将预处理后的数据集中划分为训练集和测试集,采用贪婪搜索策略对基于代价补偿的代价敏感深度神经网络进行训练。
7.根据权利要求1所述的针对非平衡、多类别的复杂工业数据的分类方法,其特征在于,将RELU函数、softmax函数和Adam优化器依次确定为所述基于代价补偿的代价敏感深度神经网络的隐含层之间传递函数、隐含层输出层之间传递函数和优化器。
CN202211016513.2A 2022-08-24 2022-08-24 一种针对非平衡、多类别的复杂工业数据的分类方法 Active CN115374859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211016513.2A CN115374859B (zh) 2022-08-24 2022-08-24 一种针对非平衡、多类别的复杂工业数据的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211016513.2A CN115374859B (zh) 2022-08-24 2022-08-24 一种针对非平衡、多类别的复杂工业数据的分类方法

Publications (2)

Publication Number Publication Date
CN115374859A true CN115374859A (zh) 2022-11-22
CN115374859B CN115374859B (zh) 2024-07-02

Family

ID=84068304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211016513.2A Active CN115374859B (zh) 2022-08-24 2022-08-24 一种针对非平衡、多类别的复杂工业数据的分类方法

Country Status (1)

Country Link
CN (1) CN115374859B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117522177A (zh) * 2024-01-08 2024-02-06 国网江苏省电力有限公司信息通信分公司 一种智能电网稳定性预测方法

Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999027466A2 (en) * 1997-11-26 1999-06-03 The Government Of The United States Of America, As Represented By The Secretary, Department Of Health And Human Services, The National Institutes Of Health System and method for intelligent quality control of a process
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
US20120278263A1 (en) * 2010-10-25 2012-11-01 Intelius Inc. Cost-sensitive alternating decision trees for record linkage
CN105930856A (zh) * 2016-03-23 2016-09-07 深圳市颐通科技有限公司 基于改进dbscan-smote算法的分类方法
CN107766875A (zh) * 2017-09-14 2018-03-06 中山大学 一种为有向有序多类不平衡数据分类的样本合成方法
CN107993311A (zh) * 2017-11-15 2018-05-04 常州大学 一种用于半监督人脸识别门禁系统的代价敏感隐语义回归方法
CN109190684A (zh) * 2018-08-15 2019-01-11 西安电子科技大学 基于素描及结构生成对抗网络的sar图像样本生成方法
CN110010248A (zh) * 2019-04-17 2019-07-12 电子科技大学 一种基于代价敏感集成学习模型的再入院风险预测方法
CN110110754A (zh) * 2019-04-03 2019-08-09 华南理工大学 基于代价局部泛化误差的不平衡问题的分类方法
CN110298451A (zh) * 2019-06-10 2019-10-01 上海冰鉴信息科技有限公司 一种基于密度聚类的非均衡数据集的均衡化方法及装置
CN110689544A (zh) * 2019-09-06 2020-01-14 哈尔滨工程大学 一种遥感图像细弱目标分割方法
CN111128372A (zh) * 2019-12-02 2020-05-08 重庆邮电大学 基于rf-lr改进算法的疾病预测方法
CN111831956A (zh) * 2020-06-16 2020-10-27 五邑大学 高自由度类不平衡性损失函数的调整方法和存储介质
CN112069321A (zh) * 2020-11-11 2020-12-11 震坤行网络技术(南京)有限公司 用于文本层级分类的方法、电子设备和存储介质
US20210073671A1 (en) * 2019-09-09 2021-03-11 Adobe, Inc. Generating combined feature embedding for minority class upsampling in training machine learning models with imbalanced samples
US10970650B1 (en) * 2020-05-18 2021-04-06 King Abdulaziz University AUC-maximized high-accuracy classifier for imbalanced datasets
WO2021143396A1 (zh) * 2020-01-16 2021-07-22 支付宝(杭州)信息技术有限公司 利用文本分类模型进行分类预测的方法及装置
CN113220960A (zh) * 2021-05-12 2021-08-06 西安理工大学 一种基于自主学习的不平衡时间序列数据分类方法
CN113505792A (zh) * 2021-06-30 2021-10-15 中国海洋大学 面向非均衡遥感图像的多尺度语义分割方法及模型
CN113746707A (zh) * 2021-11-08 2021-12-03 南京信息工程大学 一种基于分类器及网络结构的加密流量分类方法
CN113887607A (zh) * 2021-09-28 2022-01-04 北京百度网讯科技有限公司 目标对象信息的处理方法、装置及计算机程序产品
US20220012741A1 (en) * 2020-07-08 2022-01-13 International Business Machines Corporation Fraud detection using multi-task learning and/or deep learning
KR20220014744A (ko) * 2020-07-29 2022-02-07 서강대학교산학협력단 강화 학습을 기반으로 한 데이터 전처리 시스템 및 방법
CN114091570A (zh) * 2021-10-21 2022-02-25 上海淇玥信息技术有限公司 业务处理系统方法、装置和电子设备

Patent Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999027466A2 (en) * 1997-11-26 1999-06-03 The Government Of The United States Of America, As Represented By The Secretary, Department Of Health And Human Services, The National Institutes Of Health System and method for intelligent quality control of a process
US20120278263A1 (en) * 2010-10-25 2012-11-01 Intelius Inc. Cost-sensitive alternating decision trees for record linkage
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN105930856A (zh) * 2016-03-23 2016-09-07 深圳市颐通科技有限公司 基于改进dbscan-smote算法的分类方法
CN107766875A (zh) * 2017-09-14 2018-03-06 中山大学 一种为有向有序多类不平衡数据分类的样本合成方法
CN107993311A (zh) * 2017-11-15 2018-05-04 常州大学 一种用于半监督人脸识别门禁系统的代价敏感隐语义回归方法
CN109190684A (zh) * 2018-08-15 2019-01-11 西安电子科技大学 基于素描及结构生成对抗网络的sar图像样本生成方法
CN110110754A (zh) * 2019-04-03 2019-08-09 华南理工大学 基于代价局部泛化误差的不平衡问题的分类方法
CN110010248A (zh) * 2019-04-17 2019-07-12 电子科技大学 一种基于代价敏感集成学习模型的再入院风险预测方法
CN110298451A (zh) * 2019-06-10 2019-10-01 上海冰鉴信息科技有限公司 一种基于密度聚类的非均衡数据集的均衡化方法及装置
CN110689544A (zh) * 2019-09-06 2020-01-14 哈尔滨工程大学 一种遥感图像细弱目标分割方法
US20210073671A1 (en) * 2019-09-09 2021-03-11 Adobe, Inc. Generating combined feature embedding for minority class upsampling in training machine learning models with imbalanced samples
CN111128372A (zh) * 2019-12-02 2020-05-08 重庆邮电大学 基于rf-lr改进算法的疾病预测方法
WO2021143396A1 (zh) * 2020-01-16 2021-07-22 支付宝(杭州)信息技术有限公司 利用文本分类模型进行分类预测的方法及装置
US10970650B1 (en) * 2020-05-18 2021-04-06 King Abdulaziz University AUC-maximized high-accuracy classifier for imbalanced datasets
CN111831956A (zh) * 2020-06-16 2020-10-27 五邑大学 高自由度类不平衡性损失函数的调整方法和存储介质
US20220012741A1 (en) * 2020-07-08 2022-01-13 International Business Machines Corporation Fraud detection using multi-task learning and/or deep learning
KR20220014744A (ko) * 2020-07-29 2022-02-07 서강대학교산학협력단 강화 학습을 기반으로 한 데이터 전처리 시스템 및 방법
CN112069321A (zh) * 2020-11-11 2020-12-11 震坤行网络技术(南京)有限公司 用于文本层级分类的方法、电子设备和存储介质
CN113220960A (zh) * 2021-05-12 2021-08-06 西安理工大学 一种基于自主学习的不平衡时间序列数据分类方法
CN113505792A (zh) * 2021-06-30 2021-10-15 中国海洋大学 面向非均衡遥感图像的多尺度语义分割方法及模型
CN113887607A (zh) * 2021-09-28 2022-01-04 北京百度网讯科技有限公司 目标对象信息的处理方法、装置及计算机程序产品
CN114091570A (zh) * 2021-10-21 2022-02-25 上海淇玥信息技术有限公司 业务处理系统方法、装置和电子设备
CN113746707A (zh) * 2021-11-08 2021-12-03 南京信息工程大学 一种基于分类器及网络结构的加密流量分类方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CRISTIANO L. CASTRO: "Novel Cost-Sensitive Approach to Improve the Multilayer Perceptron Performance on Imbalanced Data", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》, 22 February 2013 (2013-02-22) *
NGUYEN THAI-NGHE: "Cost-Sensitive_Learning Methods for Imbalanced Data", 《IEEE》, 30 June 2010 (2010-06-30) *
万建武;杨明;陈银娟;: "代价敏感的半监督Laplacian支持向量机", 电子学报, no. 07, 15 July 2012 (2012-07-15) *
刘兵: "《基于流形正则化的核方法研究与应用》", 30 June 2016, 中国矿业大学出版社 *
王春玉;苏宏业;渠瑜;褚健;: "一种基于过抽样技术的非平衡数据集分类方法", 计算机工程与应用, no. 01, 1 January 2011 (2011-01-01) *
秦静;钱雪忠;王卫涛;谢国伟;宋威;: "一种处理不平衡大数据的并行随机森林算法", 微电子学与计算机, no. 04, 5 April 2017 (2017-04-05) *
郑炜杰: "面向类别不平衡数据的代价敏感分层分类方法", 《 中国优秀硕士论文电子期刊网》, 15 December 2021 (2021-12-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117522177A (zh) * 2024-01-08 2024-02-06 国网江苏省电力有限公司信息通信分公司 一种智能电网稳定性预测方法
CN117522177B (zh) * 2024-01-08 2024-03-12 国网江苏省电力有限公司信息通信分公司 一种智能电网稳定性预测方法

Also Published As

Publication number Publication date
CN115374859B (zh) 2024-07-02

Similar Documents

Publication Publication Date Title
CN110162018B (zh) 基于知识蒸馏与隐含层共享的增量式设备故障诊断方法
CN111882446B (zh) 一种基于图卷积网络的异常账户检测方法
CN106845717B (zh) 一种基于多模型融合策略的能源效率评价方法
CN110929847A (zh) 一种基于深度卷积神经网络的换流变压器故障诊断方法
CN106895975A (zh) 基于Stacked SAE深度神经网络的轴承故障诊断方法
CN107292350A (zh) 大规模数据的异常检测方法
CN112756759B (zh) 点焊机器人工作站故障判定方法
CN106203534A (zh) 一种基于Boosting的代价敏感软件缺陷预测方法
CN111583031A (zh) 一种基于集成学习的申请评分卡模型建立方法
CN113516228B (zh) 一种基于深度神经网络的网络异常检测方法
CN112147432A (zh) 基于注意力机制的BiLSTM模块、变压器状态诊断方法和系统
CN111338950A (zh) 一种基于谱聚类的软件缺陷特征选择方法
CN111950645A (zh) 一种通过改进随机森林提高类不平衡分类性能的方法
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
CN114817856B (zh) 一种基于结构信息保持域适应网络的抽油机故障诊断方法
CN115374859B (zh) 一种针对非平衡、多类别的复杂工业数据的分类方法
CN114722947A (zh) 一种基于近邻搜索分簇的电力调度监控数据异常检测方法
CN113837266B (zh) 一种基于特征提取和Stacking集成学习的软件缺陷预测方法
CN111737993A (zh) 一种配电网设备的故障缺陷文本提取设备健康状态方法
CN115734274A (zh) 一种基于深度学习和知识图谱的蜂窝网络故障诊断方法
CN115879046A (zh) 基于改进特征选择和分层模型的物联网异常数据检测方法
CN116304941A (zh) 一种基于多模型组合的海洋数据质量控制方法及装置
CN113610148B (zh) 一种基于偏置加权AdaBoost的故障诊断方法
CN115599698A (zh) 一种基于类关联规则的软件缺陷预测方法及系统
Mozharovskyi et al. Anomaly detection using data depth: multivariate case

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant