CN115374859A - 一种针对非平衡、多类别的复杂工业数据的分类方法 - Google Patents
一种针对非平衡、多类别的复杂工业数据的分类方法 Download PDFInfo
- Publication number
- CN115374859A CN115374859A CN202211016513.2A CN202211016513A CN115374859A CN 115374859 A CN115374859 A CN 115374859A CN 202211016513 A CN202211016513 A CN 202211016513A CN 115374859 A CN115374859 A CN 115374859A
- Authority
- CN
- China
- Prior art keywords
- cost
- neural network
- deep neural
- sensitive
- compensation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012549 training Methods 0.000 claims abstract description 95
- 238000013528 artificial neural network Methods 0.000 claims abstract description 78
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 49
- 238000012360 testing method Methods 0.000 claims description 15
- 238000012546 transfer Methods 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 abstract description 10
- 230000008878 coupling Effects 0.000 abstract description 3
- 238000010168 coupling process Methods 0.000 abstract description 3
- 238000005859 coupling reaction Methods 0.000 abstract description 3
- 238000009776 industrial production Methods 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 229910000831 Steel Inorganic materials 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000010959 steel Substances 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种针对非平衡、多类别的复杂工业数据的分类方法,涉及非平衡数据集分类技术领域。该方法针对工业数据具有遗传性、非线性、强耦合性的特点,提出将深度神经网络作为分类器,深度神经网络本身具有非常良好的非线性拟合能力,但其处理非平衡数据的能力不足,通过代价敏感学习对深度神经网络训练过程中不同类别的误差赋予不同的权重,构建的基于代价补偿的代价敏感深度神经网络弥补了深度神经网络处理不平衡数据的能力不足;本发明提出的基于代价补偿的代价敏感深度神经网络相比于基于采样方法的深度神经网络,分类性能更好、具有更低的少数类错误率且运行性能快,可以广泛地投入到工业生产当中。
Description
技术领域
本发明涉及非平衡数据集分类技术领域,具体涉及一种针对非平衡、多类别的复杂工业数据的分类方法。
背景技术
在现实世界中,真实的数据集往往是非平衡的。非平衡,顾名思义,如果数据集中各个类别的样本数量不相等即可认为数据集是非平衡的。在非平衡数据集上训练模型时,分类器只注重数据集总体的准确性,而忽略实际上更有价值的少数类(一般为故障样本或缺陷产品)的准确性。随着计算机技术的发展,数据挖掘和机器学习技术在工业领域得到大量应用,但相比于其它领域,工业领域的数据往往具有遗传性、非线性和强耦合性,而非平衡、多类别的复杂数据也往往会制约机器学习算法的分类性能。
目前,为了解决非平衡数据对模型性能造成的不良影响,许多研究人员提出了自己的方法,包括数据级方法和算法级方法。数据级方法是通过改变原始数据集的样本分布来解决不平衡问题,例如文献号为CN110309881A的中国专利申请《一种非平衡数据集的分类方法》通过对正类数据集和负类数据集进行采样处理获得新的数据集,然后利用新的数据集对SVM分类器进行训练,最后对待测数据集进行分类;文献号为CN 111612628A的中国专利申请《一种非平衡数据集的分类方法及系统》通过采用SMOTE算法均衡扩充少数类样本的SVM分类器作为预测模型对债券风险进行评估;算法级方法是通过对机器学习算法的学习过程进行一定的修改以提升算法对少数类的关注,例如文献号为CN106960218B的中国专利《基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统》采用经训练的代价敏感朴素贝叶斯分类网络对预处理后的数据进行分类;文献号为CN114139598A的中国专利申请《基于深度代价敏感卷积网络的故障诊断方法及诊断框架》对基于标签预测损失函数和代价敏感分类损失函数训练网络,为各类别数据分配不同程度的误分类惩罚,最小化分类误差以解决数据不平衡的问题。
然而,以上研究从数据级层面和算法级层面提出的解决方法,还存在一些不足。数据级方法包括欠采样方法和过采样方法,欠采样方法会造成训练时信息损失,而过采样方法容易造成训练时过拟合且计算消耗很大,均不适合工业领域在线应用;代价敏感学习不易过拟合也没有额外计算开销,但是目前其主要应用于二分类问题,缺乏多分类代价敏感因子的选取策略。
发明内容
针对上述现有技术存在的不足,本发明提供一种针对非平衡、多类别的复杂工业数据的分类方法。
本发明的技术方案是:
一种针对非平衡、多类别的复杂工业数据的分类方法,该方法包括以下步骤:
步骤1:对原始数据集的数据进行标准化预处理;
步骤2:从预处理后的数据集中划分出训练集,然后将原始训练集分解为多个子训练集且每个所述子训练集中只包含两种类别的数据,从而将一个非平衡、多类别的原始工业数据集分解为多个非平衡、两类别的子数据集;
步骤3:在自适应代价敏感因子的基础上施加代价补偿系数以提高少数类样本的误分类代价,从而定义基于代价补偿的代价敏感损失函数;
步骤4:将基于代价补偿的代价敏感损失函数引入深度神经网络以提升深度神经网络处理非平衡分类的能力,构建基于代价补偿的代价敏感深度神经网络CCS-DNN;
步骤5:将预处理后的数据集中划分为训练集和测试集,对基于代价补偿的代价敏感深度神经网络进行训练与测试的过程,并从中确定基于代价补偿的代价敏感深度神经网络的最优超参数,包括神经网络的网络结构、隐含层节点数、传递函数、优化器、初始学习率和代价补偿系数;
步骤6:将基于代价补偿的代价敏感深度神经网络用于实际的工业数据分类。
进一步地,根据所述的针对非平衡、多类别的复杂工业数据的分类方法,所述步骤2中所述的将原始训练集分解为多个子训练集的方法为:首先按照式(2)确定原始训练集需要分解的子数据集的个数k;然后将原始训练集分解为k个子训练集;
上式中,n为原始训练集标签中所包含类别的数量。
进一步地,根据所述的针对非平衡、多类别的复杂工业数据的分类方法,利用一对一划分策略将原始训练集分解为多个子训练集。
进一步地,根据所述的针对非平衡、多类别的复杂工业数据的分类方法,所述步骤3包括如下步骤:
步骤3.1:根据每个子训练集中的不同类别的样本数量,定义自适应代价敏感因子,公式如下:
上式中,λ为自适应代价敏感因子;Sma为子训练集中的多数类样本数量;Smi为子训练集中的少数类样本数量;
步骤3.2:定义分类误差,公式如下:
步骤3.3:分别定义多数类样本损失和少数类样本损失,公式如下:
上式中,Lma为多数类样本损失;Tma为子训练集中的多数类样本集,Lmi为少数类样本损失,Tmi为子训练集中的少数类样本集;
步骤3.4:在自适应代价敏感因子的基础上,施加代价补偿系数进一步提高少数类样本的误分类代价,从而定义基于代价补偿的代价敏感损失函数,以进一步提升少数类样本的分类精度,公式如下:
L=(1-λ)Lma+μλLmi (7)
上式中,L为代价敏感损失函数;μ为代价补偿系数。
进一步地,根据所述的针对非平衡、多类别的复杂工业数据的分类方法,所述步骤4包括如下步骤:
步骤4.1:将基于代价补偿的代价敏感损失函数作为深度神经网络训练过程中的损失函数,通过多次反向传播迭代使得损失函数最小;
步骤4.2:考虑实际工业对于不同类别样本误分类的容忍度,为每个子训练集训练一个基于代价补偿的代价敏感深度神经网络,共得到k个神经网络的训练结果;
步骤4.3:采用多数投票法作为聚合策略,从k个神经网络的训练结果选出得票数最多的结果对应的基于代价补偿的代价敏感深度神经网络作为最终的基于代价补偿的代价敏感深度神经网络。
进一步地,根据所述的针对非平衡、多类别的复杂工业数据的分类方法,采用交叉验证法将预处理后的数据集中划分为训练集和测试集,采用贪婪搜索策略对基于代价补偿的代价敏感深度神经网络进行训练。
进一步地,根据所述的针对非平衡、多类别的复杂工业数据的分类方法,将RELU函数、softmax函数和Adam优化器依次确定为所述基于代价补偿的代价敏感深度神经网络的隐含层之间传递函数、隐含层输出层之间传递函数和优化器。
与现有技术相比较,本发明具有如下有益效果:
针对工业数据具有遗传性、非线性、强耦合性的特点,提出将深度神经网络作为分类器,深度神经网络本身具有非常良好的非线性拟合能力,但其处理非平衡数据的能力不足,通过代价敏感学习对深度神经网络训练过程中不同类别的误差赋予不同的权重,构建的基于代价补偿的代价敏感深度神经网络弥补了深度神经网络处理不平衡数据的能力不足;本发明提出的基于代价补偿的代价敏感深度神经网络相比于基于采样方法的深度神经网络,分类性能更好、具有更低的少数类错误率且运行性能快,可以广泛地投入到工业生产当中。
附图说明
图1为本实施方式针对非平衡、多类别的复杂工业数据的分类方法的流程示意图;
图2为本实施方式采用一对一策略划分子数据集的过程示意图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。
本发明的核心思路为:首先对工业数据集进行标准化处理;然后在深度神经网络的基础上,引入了考虑代价补偿系数的代价敏感损失函数,构建基于代价补偿的代价敏感深度神经网络(Compensated Cost-sensitive Deep Neural Network,CCS-DNN),确定隐含层节点数、传递函数、初始学习率、代价补偿系数等超参数;最后用基于代价补偿的代价敏感深度神经网络对非平衡、多类别的复杂工业数据进行分类。
图1为本实施方式针对非平衡、多类别的复杂工业数据的分类方法的流程示意图,所述针对非平衡、多类别的复杂工业数据的分类方法包括如下步骤:
步骤1:对原始数据集的数据进行标准化预处理;
本实施方式对原始数据集的数据进行标准化预处理的方法如式(1)所示。
上式中,x′i为标准化预处理后的数据;xi为原始数据,xmin为原始数据集中的最小数据,xmax为原始数据集中的最大数据。
步骤2:从预处理后的数据集中划分出训练集,然后将原始训练集分解为多个子训练集且每个所述子训练集中只包含两种类别的数据,从而将一个非平衡、多类别的原始工业数据集分解为多个非平衡、两类别的子数据集;
步骤2.1:按照式(2)确定原始训练集需要分解的子数据集的个数k;
上式中,n为原始训练集标签中所包含类别的数量。
例如图2示出的一个非平衡、三类别的原始训练集需要分解的子数据集的个数是3个。
步骤2.2:利用一对一划分策略将原始训练集分解为k个子训练集;
图2示出的是利用一对一划分策略将一个非平衡、三类别的的原始训练集分解为3个子训练集的示例图,在图2示出的正方形线框中容纳的不同形状的小图形表示不同类别的样本,黑色边线表示分类决策面,各形状小图形的不同数量就表示各个类别样本数量不同。
步骤3:定义基于代价补偿的代价敏感损失函数;
本实施方式中定义考虑工业数据误分类容忍度的代价敏感损失函数以解决非平衡、多类别的复杂工业数据的分类问题,具体包括如下步骤:
步骤3.1:根据每个子训练集中的不同类别的样本数量,定义自适应代价敏感因子,公式如下:
上式中,λ为自适应代价敏感因子;Sma为子训练集中的多数类样本数量;Smi为子训练集中的少数类样本数量;
步骤3.2:定义分类误差,公式如下:
步骤3.3:分别定义多数类样本损失和少数类样本损失,公式如下:
上式中,Lma为多数类样本损失;Tma为子训练集中的多数类样本集,Lmi为少数类样本损失,Tmi为子训练集中的少数类样本集;
步骤3.4:考虑实际工业对于少数类样本(一般为故障样本或缺陷产品)误分类的低容忍度,在自适应代价敏感因子的基础上,施加代价补偿系数进一步提高少数类样本的误分类代价,从而定义基于代价补偿的代价敏感损失函数,以进一步提升少数类样本的分类精度,公式如下:
L=(1-λ)Lma+μλLmi (7)
上式中,L为代价敏感损失函数;μ为代价补偿系数;
步骤4:将基于代价补偿的代价敏感损失函数引入深度神经网络以提升深度神经网络处理非平衡分类的能力,构建基于补偿代价的代价敏感深度神经网络(CompensatedCost-sensitive Deep Neural Network,CCS-DNN),具体步骤如下:
步骤4.1:将基于代价补偿的代价敏感损失函数作为深度神经网络训练过程中的损失函数,通过多次反向传播迭代使得损失函数最小;
步骤4.2:考虑实际工业对于不同类别样本误分类的容忍度,为每个子训练集训练一个基于代价补偿的代价敏感深度神经网络,共得到k个神经网络的训练结果;
步骤4.3:采用多数投票法作为聚合策略,从k个神经网络的训练结果选出得票数最多的结果对应的基于代价补偿的代价敏感深度神经网络作为最终的基于代价补偿的代价敏感深度神经网络;
步骤5:将预处理后的数据集中划分为训练集和测试集,对基于代价补偿的代价敏感深度神经网络进行训练与测试的过程,并从中确定基于代价补偿的代价敏感深度神经网络的最优超参数,包括神经网络的网络结构、隐含层节点数、传递函数、优化器、初始学习率和代价补偿系数;
为了使本发明方法具有最佳的分类性能,需要确定基于代价补偿的代价敏感深度神经网络的最优超参数,在本实施方式中,采用交叉验证法随机将预处理后的数据集分为5折,每次取其中1折作为测试集、其余4折作为原始训练集,重复5次这一过程以保证每折都会作为1次测试集;其中,原始训练集用于训练基于代价补偿的代价敏感深度神经网络,测试集用于测试神经网络的分类性能;训练采用贪婪搜索策略,确定神经网络的网络结构和隐含层节点数;确定神经网络各层之间的传递函数时,考虑在深度神经网络中RELU函数、softmax函数是最常用的传递函数,因此本实施方式将RELU函数确定为隐含层之间传递函数、将softmax函数确定为隐含层输出层之间传递函数;考虑各个神经网络优化器Optimizer的性能,确定本实施方式的神经网络优化器为Adam优化器;本实施方式在确定神经网络的初始学习率时,根据经验遍历搜索0.001~0.1,从中确定最优的初始学习率;在确定代价补偿系数时,根据经验遍历搜索1.0~2.0,从中确定最优的代价补偿系数;
步骤6:将基于补偿代价的代价敏感深度神经网络用于实际的工业数据分类。
实施例
为验证基于代价补偿的代价敏感深度神经网络(Compensated Cost-sensitiveDeep Neural Network,CCS-DNN)模型的有效性,以热轧带钢凸度为例,将热轧生产过程参数和带钢凸度作为对象进行性能测试,具体过程包括:
首先,构建热轧带钢凸度数据集,如表1所示,并对所述热轧带钢凸度数据集中的数据进行标准化预处理;
表1热轧带钢凸度数据集的数据分布
然后,采用交叉验证法和贪婪搜索策略确定具有最优分类性能的模型超参数,以MAUC、G-mean、F1-Macro作为评价指标:
式中i、c和recalli分别是第i类别、类别数量以及每一类的召回率。
式中F1i是每一类别的F1值。
式中precision和recall分别是某一类别的精确率和召回率。
式中TP和FP分别是某一类别的真阳性率和假阳性率。
式中FN是某一类别的假阴性率。
不同超参数对模型性能的影响如表2、表3和表4所示,最终确定隐含层节点数为30-10、隐含层之间传递函数为RELU函数、隐含层输出层之间传递函数为softmax函数、初始学习率为0.001、代价补偿系数为1.5;
表2隐含层节点数对模型性能的影响
表3初始学习率对模型性能的影响
表4代价补偿系数对模型性能的影响
再然后,将基于代价补偿的代价敏感深度神经网络(CCS-DNN)与其它基于采样算法的深度神经网络进行性能对比,并采用MAUC、G-Mean、F1-Macro、Error rate作为评价指标:
各个方法的性能对比结果如表5所示,本发明提出的基于代价补偿的代价敏感深度神经网络(CCS-DNN)的MAUC为0.76、G-Mean为0.677、F1-Macro为0.549、类别0的Errorrate为0.36、类别2的Error rate为0.393,MAUC、G-Mean、F1-Macro最高,类别0的Errorrate和类别2的Error rate最低,性能明显好于基于采样方法的深度神经网络和传统深度神经网络。
表5
各个方法的运算时间如表6所示,本发明提出的基于代价补偿的代价敏感深度神经网络CCS-DNN的单次运算时间为28.3062秒,与传统深度神经网络接近,明显快于基于采样方法的深度神经网络。
表6
以上实施例仅用于说明本发明的一种实施方式,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例,凡根据本发明所揭示的技术方案所作的等同变化,均在本发明的保护范围之内。
Claims (7)
1.一种针对非平衡、多类别的复杂工业数据的分类方法,其特征在于,该方法包括以下步骤:
步骤1:对原始数据集的数据进行标准化预处理;
步骤2:从预处理后的数据集中划分出训练集,然后将原始训练集分解为多个子训练集且每个所述子训练集中只包含两种类别的数据,从而将一个非平衡、多类别的原始工业数据集分解为多个非平衡、两类别的子数据集;
步骤3:在自适应代价敏感因子的基础上施加代价补偿系数以提高少数类样本的误分类代价,从而定义基于代价补偿的代价敏感损失函数;
步骤4:将基于代价补偿的代价敏感损失函数引入深度神经网络以提升深度神经网络处理非平衡分类的能力,构建基于代价补偿的代价敏感深度神经网络CCS-DNN;
步骤5:将预处理后的数据集中划分为训练集和测试集,对基于代价补偿的代价敏感深度神经网络进行训练与测试的过程,并从中确定基于代价补偿的代价敏感深度神经网络的最优超参数,包括神经网络的网络结构、隐含层节点数、传递函数、优化器、初始学习率和代价补偿系数;
步骤6:将基于代价补偿的代价敏感深度神经网络用于实际的工业数据分类。
3.根据权利要求1或2所述的针对非平衡、多类别的复杂工业数据的分类方法,其特征在于,利用一对一划分策略将原始训练集分解为多个子训练集。
4.根据权利要求1所述的针对非平衡、多类别的复杂工业数据的分类方法,其特征在于,所述步骤3包括如下步骤:
步骤3.1:根据每个子训练集中的不同类别的样本数量,定义自适应代价敏感因子,公式如下:
上式中,λ为自适应代价敏感因子;Sma为子训练集中的多数类样本数量;Smi为子训练集中的少数类样本数量;
步骤3.2:定义分类误差,公式如下:
步骤3.3:分别定义多数类样本损失和少数类样本损失,公式如下:
上式中,Lma为多数类样本损失;Tma为子训练集中的多数类样本集,Lmi为少数类样本损失,Tmi为子训练集中的少数类样本集;
步骤3.4:在自适应代价敏感因子的基础上,施加代价补偿系数进一步提高少数类样本的误分类代价,从而定义基于代价补偿的代价敏感损失函数,以进一步提升少数类样本的分类精度,公式如下:
L=(1-λ)Lma+μλLmi (7)
上式中,L为代价敏感损失函数;μ为代价补偿系数。
5.根据权利要求1所述的针对非平衡、多类别的复杂工业数据的分类方法,其特征在于,所述步骤4包括如下步骤:
步骤4.1:将基于代价补偿的代价敏感损失函数作为深度神经网络训练过程中的损失函数,通过多次反向传播迭代使得损失函数最小;
步骤4.2:考虑实际工业对于不同类别样本误分类的容忍度,为每个子训练集训练一个基于代价补偿的代价敏感深度神经网络,共得到k个神经网络的训练结果;
步骤4.3:采用多数投票法作为聚合策略,从k个神经网络的训练结果选出得票数最多的结果对应的基于代价补偿的代价敏感深度神经网络作为最终的基于代价补偿的代价敏感深度神经网络。
6.根据权利要求1所述的针对非平衡、多类别的复杂工业数据的分类方法,其特征在于,采用交叉验证法将预处理后的数据集中划分为训练集和测试集,采用贪婪搜索策略对基于代价补偿的代价敏感深度神经网络进行训练。
7.根据权利要求1所述的针对非平衡、多类别的复杂工业数据的分类方法,其特征在于,将RELU函数、softmax函数和Adam优化器依次确定为所述基于代价补偿的代价敏感深度神经网络的隐含层之间传递函数、隐含层输出层之间传递函数和优化器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211016513.2A CN115374859B (zh) | 2022-08-24 | 2022-08-24 | 一种针对非平衡、多类别的复杂工业数据的分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211016513.2A CN115374859B (zh) | 2022-08-24 | 2022-08-24 | 一种针对非平衡、多类别的复杂工业数据的分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115374859A true CN115374859A (zh) | 2022-11-22 |
CN115374859B CN115374859B (zh) | 2024-07-02 |
Family
ID=84068304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211016513.2A Active CN115374859B (zh) | 2022-08-24 | 2022-08-24 | 一种针对非平衡、多类别的复杂工业数据的分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115374859B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117522177A (zh) * | 2024-01-08 | 2024-02-06 | 国网江苏省电力有限公司信息通信分公司 | 一种智能电网稳定性预测方法 |
Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999027466A2 (en) * | 1997-11-26 | 1999-06-03 | The Government Of The United States Of America, As Represented By The Secretary, Department Of Health And Human Services, The National Institutes Of Health | System and method for intelligent quality control of a process |
CN101980202A (zh) * | 2010-11-04 | 2011-02-23 | 西安电子科技大学 | 不平衡数据的半监督分类方法 |
US20120278263A1 (en) * | 2010-10-25 | 2012-11-01 | Intelius Inc. | Cost-sensitive alternating decision trees for record linkage |
CN105930856A (zh) * | 2016-03-23 | 2016-09-07 | 深圳市颐通科技有限公司 | 基于改进dbscan-smote算法的分类方法 |
CN107766875A (zh) * | 2017-09-14 | 2018-03-06 | 中山大学 | 一种为有向有序多类不平衡数据分类的样本合成方法 |
CN107993311A (zh) * | 2017-11-15 | 2018-05-04 | 常州大学 | 一种用于半监督人脸识别门禁系统的代价敏感隐语义回归方法 |
CN109190684A (zh) * | 2018-08-15 | 2019-01-11 | 西安电子科技大学 | 基于素描及结构生成对抗网络的sar图像样本生成方法 |
CN110010248A (zh) * | 2019-04-17 | 2019-07-12 | 电子科技大学 | 一种基于代价敏感集成学习模型的再入院风险预测方法 |
CN110110754A (zh) * | 2019-04-03 | 2019-08-09 | 华南理工大学 | 基于代价局部泛化误差的不平衡问题的分类方法 |
CN110298451A (zh) * | 2019-06-10 | 2019-10-01 | 上海冰鉴信息科技有限公司 | 一种基于密度聚类的非均衡数据集的均衡化方法及装置 |
CN110689544A (zh) * | 2019-09-06 | 2020-01-14 | 哈尔滨工程大学 | 一种遥感图像细弱目标分割方法 |
CN111128372A (zh) * | 2019-12-02 | 2020-05-08 | 重庆邮电大学 | 基于rf-lr改进算法的疾病预测方法 |
CN111831956A (zh) * | 2020-06-16 | 2020-10-27 | 五邑大学 | 高自由度类不平衡性损失函数的调整方法和存储介质 |
CN112069321A (zh) * | 2020-11-11 | 2020-12-11 | 震坤行网络技术(南京)有限公司 | 用于文本层级分类的方法、电子设备和存储介质 |
US20210073671A1 (en) * | 2019-09-09 | 2021-03-11 | Adobe, Inc. | Generating combined feature embedding for minority class upsampling in training machine learning models with imbalanced samples |
US10970650B1 (en) * | 2020-05-18 | 2021-04-06 | King Abdulaziz University | AUC-maximized high-accuracy classifier for imbalanced datasets |
WO2021143396A1 (zh) * | 2020-01-16 | 2021-07-22 | 支付宝(杭州)信息技术有限公司 | 利用文本分类模型进行分类预测的方法及装置 |
CN113220960A (zh) * | 2021-05-12 | 2021-08-06 | 西安理工大学 | 一种基于自主学习的不平衡时间序列数据分类方法 |
CN113505792A (zh) * | 2021-06-30 | 2021-10-15 | 中国海洋大学 | 面向非均衡遥感图像的多尺度语义分割方法及模型 |
CN113746707A (zh) * | 2021-11-08 | 2021-12-03 | 南京信息工程大学 | 一种基于分类器及网络结构的加密流量分类方法 |
CN113887607A (zh) * | 2021-09-28 | 2022-01-04 | 北京百度网讯科技有限公司 | 目标对象信息的处理方法、装置及计算机程序产品 |
US20220012741A1 (en) * | 2020-07-08 | 2022-01-13 | International Business Machines Corporation | Fraud detection using multi-task learning and/or deep learning |
KR20220014744A (ko) * | 2020-07-29 | 2022-02-07 | 서강대학교산학협력단 | 강화 학습을 기반으로 한 데이터 전처리 시스템 및 방법 |
CN114091570A (zh) * | 2021-10-21 | 2022-02-25 | 上海淇玥信息技术有限公司 | 业务处理系统方法、装置和电子设备 |
-
2022
- 2022-08-24 CN CN202211016513.2A patent/CN115374859B/zh active Active
Patent Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999027466A2 (en) * | 1997-11-26 | 1999-06-03 | The Government Of The United States Of America, As Represented By The Secretary, Department Of Health And Human Services, The National Institutes Of Health | System and method for intelligent quality control of a process |
US20120278263A1 (en) * | 2010-10-25 | 2012-11-01 | Intelius Inc. | Cost-sensitive alternating decision trees for record linkage |
CN101980202A (zh) * | 2010-11-04 | 2011-02-23 | 西安电子科技大学 | 不平衡数据的半监督分类方法 |
CN105930856A (zh) * | 2016-03-23 | 2016-09-07 | 深圳市颐通科技有限公司 | 基于改进dbscan-smote算法的分类方法 |
CN107766875A (zh) * | 2017-09-14 | 2018-03-06 | 中山大学 | 一种为有向有序多类不平衡数据分类的样本合成方法 |
CN107993311A (zh) * | 2017-11-15 | 2018-05-04 | 常州大学 | 一种用于半监督人脸识别门禁系统的代价敏感隐语义回归方法 |
CN109190684A (zh) * | 2018-08-15 | 2019-01-11 | 西安电子科技大学 | 基于素描及结构生成对抗网络的sar图像样本生成方法 |
CN110110754A (zh) * | 2019-04-03 | 2019-08-09 | 华南理工大学 | 基于代价局部泛化误差的不平衡问题的分类方法 |
CN110010248A (zh) * | 2019-04-17 | 2019-07-12 | 电子科技大学 | 一种基于代价敏感集成学习模型的再入院风险预测方法 |
CN110298451A (zh) * | 2019-06-10 | 2019-10-01 | 上海冰鉴信息科技有限公司 | 一种基于密度聚类的非均衡数据集的均衡化方法及装置 |
CN110689544A (zh) * | 2019-09-06 | 2020-01-14 | 哈尔滨工程大学 | 一种遥感图像细弱目标分割方法 |
US20210073671A1 (en) * | 2019-09-09 | 2021-03-11 | Adobe, Inc. | Generating combined feature embedding for minority class upsampling in training machine learning models with imbalanced samples |
CN111128372A (zh) * | 2019-12-02 | 2020-05-08 | 重庆邮电大学 | 基于rf-lr改进算法的疾病预测方法 |
WO2021143396A1 (zh) * | 2020-01-16 | 2021-07-22 | 支付宝(杭州)信息技术有限公司 | 利用文本分类模型进行分类预测的方法及装置 |
US10970650B1 (en) * | 2020-05-18 | 2021-04-06 | King Abdulaziz University | AUC-maximized high-accuracy classifier for imbalanced datasets |
CN111831956A (zh) * | 2020-06-16 | 2020-10-27 | 五邑大学 | 高自由度类不平衡性损失函数的调整方法和存储介质 |
US20220012741A1 (en) * | 2020-07-08 | 2022-01-13 | International Business Machines Corporation | Fraud detection using multi-task learning and/or deep learning |
KR20220014744A (ko) * | 2020-07-29 | 2022-02-07 | 서강대학교산학협력단 | 강화 학습을 기반으로 한 데이터 전처리 시스템 및 방법 |
CN112069321A (zh) * | 2020-11-11 | 2020-12-11 | 震坤行网络技术(南京)有限公司 | 用于文本层级分类的方法、电子设备和存储介质 |
CN113220960A (zh) * | 2021-05-12 | 2021-08-06 | 西安理工大学 | 一种基于自主学习的不平衡时间序列数据分类方法 |
CN113505792A (zh) * | 2021-06-30 | 2021-10-15 | 中国海洋大学 | 面向非均衡遥感图像的多尺度语义分割方法及模型 |
CN113887607A (zh) * | 2021-09-28 | 2022-01-04 | 北京百度网讯科技有限公司 | 目标对象信息的处理方法、装置及计算机程序产品 |
CN114091570A (zh) * | 2021-10-21 | 2022-02-25 | 上海淇玥信息技术有限公司 | 业务处理系统方法、装置和电子设备 |
CN113746707A (zh) * | 2021-11-08 | 2021-12-03 | 南京信息工程大学 | 一种基于分类器及网络结构的加密流量分类方法 |
Non-Patent Citations (7)
Title |
---|
CRISTIANO L. CASTRO: "Novel Cost-Sensitive Approach to Improve the Multilayer Perceptron Performance on Imbalanced Data", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》, 22 February 2013 (2013-02-22) * |
NGUYEN THAI-NGHE: "Cost-Sensitive_Learning Methods for Imbalanced Data", 《IEEE》, 30 June 2010 (2010-06-30) * |
万建武;杨明;陈银娟;: "代价敏感的半监督Laplacian支持向量机", 电子学报, no. 07, 15 July 2012 (2012-07-15) * |
刘兵: "《基于流形正则化的核方法研究与应用》", 30 June 2016, 中国矿业大学出版社 * |
王春玉;苏宏业;渠瑜;褚健;: "一种基于过抽样技术的非平衡数据集分类方法", 计算机工程与应用, no. 01, 1 January 2011 (2011-01-01) * |
秦静;钱雪忠;王卫涛;谢国伟;宋威;: "一种处理不平衡大数据的并行随机森林算法", 微电子学与计算机, no. 04, 5 April 2017 (2017-04-05) * |
郑炜杰: "面向类别不平衡数据的代价敏感分层分类方法", 《 中国优秀硕士论文电子期刊网》, 15 December 2021 (2021-12-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117522177A (zh) * | 2024-01-08 | 2024-02-06 | 国网江苏省电力有限公司信息通信分公司 | 一种智能电网稳定性预测方法 |
CN117522177B (zh) * | 2024-01-08 | 2024-03-12 | 国网江苏省电力有限公司信息通信分公司 | 一种智能电网稳定性预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115374859B (zh) | 2024-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162018B (zh) | 基于知识蒸馏与隐含层共享的增量式设备故障诊断方法 | |
CN111882446B (zh) | 一种基于图卷积网络的异常账户检测方法 | |
CN106845717B (zh) | 一种基于多模型融合策略的能源效率评价方法 | |
CN110929847A (zh) | 一种基于深度卷积神经网络的换流变压器故障诊断方法 | |
CN106895975A (zh) | 基于Stacked SAE深度神经网络的轴承故障诊断方法 | |
CN107292350A (zh) | 大规模数据的异常检测方法 | |
CN112756759B (zh) | 点焊机器人工作站故障判定方法 | |
CN106203534A (zh) | 一种基于Boosting的代价敏感软件缺陷预测方法 | |
CN111583031A (zh) | 一种基于集成学习的申请评分卡模型建立方法 | |
CN113516228B (zh) | 一种基于深度神经网络的网络异常检测方法 | |
CN112147432A (zh) | 基于注意力机制的BiLSTM模块、变压器状态诊断方法和系统 | |
CN111338950A (zh) | 一种基于谱聚类的软件缺陷特征选择方法 | |
CN111950645A (zh) | 一种通过改进随机森林提高类不平衡分类性能的方法 | |
Chu et al. | Co-training based on semi-supervised ensemble classification approach for multi-label data stream | |
CN114817856B (zh) | 一种基于结构信息保持域适应网络的抽油机故障诊断方法 | |
CN115374859B (zh) | 一种针对非平衡、多类别的复杂工业数据的分类方法 | |
CN114722947A (zh) | 一种基于近邻搜索分簇的电力调度监控数据异常检测方法 | |
CN113837266B (zh) | 一种基于特征提取和Stacking集成学习的软件缺陷预测方法 | |
CN111737993A (zh) | 一种配电网设备的故障缺陷文本提取设备健康状态方法 | |
CN115734274A (zh) | 一种基于深度学习和知识图谱的蜂窝网络故障诊断方法 | |
CN115879046A (zh) | 基于改进特征选择和分层模型的物联网异常数据检测方法 | |
CN116304941A (zh) | 一种基于多模型组合的海洋数据质量控制方法及装置 | |
CN113610148B (zh) | 一种基于偏置加权AdaBoost的故障诊断方法 | |
CN115599698A (zh) | 一种基于类关联规则的软件缺陷预测方法及系统 | |
Mozharovskyi et al. | Anomaly detection using data depth: multivariate case |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |