CN115099356B - 工业不平衡数据分类方法、装置、电子设备及存储介质 - Google Patents
工业不平衡数据分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115099356B CN115099356B CN202210808448.0A CN202210808448A CN115099356B CN 115099356 B CN115099356 B CN 115099356B CN 202210808448 A CN202210808448 A CN 202210808448A CN 115099356 B CN115099356 B CN 115099356B
- Authority
- CN
- China
- Prior art keywords
- data
- type
- training
- super
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 138
- 238000013145 classification model Methods 0.000 claims abstract description 48
- 239000002245 particle Substances 0.000 claims abstract description 18
- 238000012795 verification Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种工业不平衡数据分类方法、装置、电子设备及存储介质,首先获取原始不平衡数据,该原始不平衡数据中包含两类数据、且第一类数据的数据量小于第二类数据的数据量;进而对原始不平衡数据中的第一类数据进行过采样,并将过采样后的第一类数据与原始不平衡数据中的第二类数据合并为新原始不平衡数据;进一步将新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型;最后,对于在获取到待处理的目标数据后,可以通过分类模型对目标数据进行分类得到相应的分类结果。基于本发明,可以解决数据不平衡现象使得在云端SaaS层的智能应用难以对数据进行分类的问题,保证分类的准确性。
Description
技术领域
本发明涉及边缘计算技术领域,更具体地说,涉及一种工业不平衡数据分类方法、装置、电子设备及存储介质。
背景技术
在边缘计算领域,位于端和边侧的边缘控制器完成工业对象的参数数据采集、预处理并通过MQTT(Message Queuing Telemetry Transport,消息队列遥测传输协议)协议上传到云端,供位于SaaS(Software-as-a-service,软件即服务,一种基于互联网提供软件服务的应用模式)层的智能应用使用。
由于在工业现场经常出现传感器故障、工业对象部分停机、网络传输故障、云端服务故障等现象,进而导致工业对象部分参数数据缺失,使得云端存储的工业对象运行数据出现不平衡现象,即:某些工业对象的参数数据的数量远大于另一部分参数数据的数量。这一数据不平衡现象使得在云端SaaS层的智能应用难以对数据进行分类。
发明内容
有鉴于此,为解决上述问题,本发明提供一种工业不平衡数据分类方法、装置、电子设备及存储介质,技术方案如下:
一种工业不平衡数据分类方法,所述方法包括:
获取原始不平衡数据,所述原始不平衡数据中包含两类数据、且第一类数据的数据量小于第二类数据的数据量;
对所述原始不平衡数据中的第一类数据进行过采样,并将过采样后的第一类数据与所述原始不平衡数据中的第二类数据合并为新原始不平衡数据;
将所述新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型;
获取待处理的目标数据,通过所述分类模型对所述目标数据进行分类得到相应的分类结果。
优选的,所述对所述原始不平衡数据中的第一类数据进行过采样,包括:
将所述原始不平衡数据划分为训练集、验证集和测试集;
对所述训练集中的第一类数据进行聚类,得到多个聚类簇、以及所述多个聚类簇中的每个聚类簇的聚类中心;
依次遍历所述多个聚类簇中的每个聚类簇,并且针对遍历到的每个聚类簇,确定该聚类簇内各第一类数据k个近邻中第二类数据的数量m,以根据比例r=m/k对各第一类数据进行划分,其中,k为预设值;对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值,以增加该聚类簇内第一类数据的数据量;
在所述多个聚类簇遍历完毕的情况下,将所述多个聚类簇所增加的第一类数据与所述训练集中的第一类数据进行合并;
相应的,所述将过采样后的第一类数据与所述原始不平衡数据中的第二类数据合并为新原始不平衡数据,包括:
将合并后的所述训练集中的第一类数据与所述训练集中的第二类数据合并为新训练集。
优选的,所述将所述新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型,包括:
从所述新训练集中获取本次训练的训练数据,将所述训练数据中的第一类数据和第二类数据输入至超球信息粒分类器中,以调整所述超球信息粒分类器的网络参数;
将所述验证集中的第一类数据和第二类数据输入至参数调整后的所述超球信息粒分类器中,以确定参数调整后的所述超球信息粒分类器的F-measure值;
如果参数调整后的所述超球信息粒分类器的F-measure值不满足预设的结束条件,则返回执行所述从所述新训练集中获取本次训练的训练数据,这一步骤;
如果参数调整后的所述超球信息粒分类器的F-measure值不满足预设的结束条件,则结束训练,将参数调整后的超球信息粒分类器作为所述分类模型。
优选的,所述方法还包括:
将所述测试集中的第一类数据和第二类数据输入至所述分类模型中,以确定所述分类模型的F-measure值。
优选的,所述对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值,包括:
按照如下插值公式对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值:
Ynew=Ci+RAND(0,1)×(yi-Ci)
其中,Ynew表示所插值的第一类数据,Ci表示该聚类簇的聚类中心,RAND(0,1)表示从(0,1)中取一个随机数,yi表示划分结果为边界点的各第一类数据,i表示该数据簇的标识。
一种工业不平衡数据分类装置,所述装置包括:
过采样模块,用于获取原始不平衡数据,所述原始不平衡数据中包含两类数据、且第一类数据的数据量小于第二类数据的数据量;对所述原始不平衡数据中的第一类数据进行过采样,并将过采样后的第一类数据与所述原始不平衡数据中的第二类数据合并为新原始不平衡数据;
模型训练模块,用于将所述新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型;
分类模块,用于获取待处理的目标数据,通过所述分类模型对所述目标数据进行分类得到相应的分类结果。
优选的,用于对所述原始不平衡数据中的第一类数据进行过采样的所述过采样模块,具体用于:
将所述原始不平衡数据划分为训练集、验证集和测试集;对所述训练集中的第一类数据进行聚类,得到多个聚类簇、以及所述多个聚类簇中的每个聚类簇的聚类中心;依次遍历所述多个聚类簇中的每个聚类簇,并且针对遍历到的每个聚类簇,确定该聚类簇内各第一类数据k个近邻中第二类数据的数量m,以根据比例r=m/k对各第一类数据进行划分,其中,k为预设值;对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值,以增加该聚类簇内第一类数据的数据量;在所述多个聚类簇遍历完毕的情况下,将所述多个聚类簇所增加的第一类数据与所述训练集中的第一类数据进行合并;
相应的,用于将过采样后的第一类数据与所述原始不平衡数据中的第二类数据合并为新原始不平衡数据所述过采样模块,具体用于:
将合并后的所述训练集中的第一类数据与所述训练集中的第二类数据合并为新训练集。
优选的,用于将所述新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型的模型训练模块,具体用于:
从所述新训练集中获取本次训练的训练数据,将所述训练数据中的第一类数据和第二类数据输入至超球信息粒分类器中,以调整所述超球信息粒分类器的网络参数;将所述验证集中的第一类数据和第二类数据输入至参数调整后的所述超球信息粒分类器中,以确定参数调整后的所述超球信息粒分类器的F-measure值;如果参数调整后的所述超球信息粒分类器的F-measure值不满足预设的结束条件,则返回执行所述从所述新训练集中获取本次训练的训练数据,这一步骤;如果参数调整后的所述超球信息粒分类器的F-measure值不满足预设的结束条件,则结束训练,将参数调整后的超球信息粒分类器作为所述分类模型。
一种电子设备,所述电子设备包括:至少一个存储器和至少一个处理器;所述存储器存储有应用程序,所述处理器调用所述存储器存储的应用程序,所述应用程序用于实现所述的工业不平衡数据分类方法。
一种存储介质,所述存储介质存储有计算机程序代码,所述计算机程序代码执行时实现所述的工业不平衡数据分类方法。
相较于现有技术,本发明实现的有益效果为:
本发明提供一种工业不平衡数据分类方法、装置、电子设备及存储介质,首先获取原始不平衡数据,该原始不平衡数据中包含两类数据、且第一类数据的数据量小于第二类数据的数据量;进而对原始不平衡数据中的第一类数据进行过采样,并将过采样后的第一类数据与原始不平衡数据中的第二类数据合并为新原始不平衡数据;进一步将新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型;最后,对于在获取到待处理的目标数据后,可以通过分类模型对目标数据进行分类得到相应的分类结果。基于本发明,通过对不平衡数据中第一类数据进行过采样,可以增加少数类数据的数量,并以此训练得到的分类模型,这就可以解决数据不平衡现象使得在云端SaaS层的智能应用难以对数据进行分类的问题,保证分类的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的工业不平衡数据分类方法的方法流程图;
图2为本发明实施例提供的工业不平衡数据分类方法的部分方法流程图;
图3为本发明实施例提供的工业不平衡数据分类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
发明人对同行业已有的对不平衡数据进行过采样的方法做出如下分析:
第一种:随机选择少数类样本,并将其放入原始数据集,直到两个类别的样本数量大致相同。
这种方法的缺陷是:会使少数类样本重合度变高,导致算法过拟合。
第二种:SMOTE:Synthetic Minority Over-sampling Technique(合成少数类样本的过采样技术)。在少数类样本间进行线性插值来生成新样本的过采样方法。
这种方法的缺陷是:可能会在噪声点(显著不同于其他数据分布的数据对象)之间插值,增加噪声样本数量,或者造成两类样本混合,这都会影响分类效果。
第三种:基于第二种方法SMOTE的改进算法Borderline-SMOTE(在边界合成少数类样本的过采样技术)。该算法将少数类样本分为边界点,安全点和危险点,只在边界点与其近邻之间线性插值。
这种方法的缺陷是:在少数类样本边界点与其近邻之间线性插值仍然可能导致两类样本混合。
为解决上述问题,本发明采用改进的插值公式在聚类中心与样本点之间差值,避免两类样本的混合,减少噪声点的影响。
参见图1,图1为本发明实施例提供的工业不平衡数据分类方法的方法流程图。本发明实施例提供的工业不平衡数据分类方法可以应用于云端,包括如下步骤:
S10,获取原始不平衡数据,原始不平衡数据中包含两类数据、且第一类数据的数据量小于第二类数据的数据量。
本发明实施例中,原始不平衡数据中包含两类数据,其中第一类数据为少数类数据、第二类数据为多数类数据,第一类数据的数据量小于第二类数据的数据量,一般来说,在实际场景中,第一类数据的数据量会远小于第二类数据的数据量,两者数据量的数量级不同,比如第一类数据的数据量为十万级别、而第二类数据的数据量为百万级别。
S20,对原始不平衡数据中的第一类数据进行过采样,并将过采样后的第一类数据与原始不平衡数据中的第二类数据合并为新原始不平衡数据。
本发明实施例中,可以对原始不平衡数据中的第一类数据进行聚类,分为多个聚类簇,然后将每个聚类簇中的第一类数据划分为安全点、边界点和噪声点,进而按照改进的插值公司在作为边界点的第一类数据(即样本点)与其所属的聚类中心之间进行插值,避免第一类数据和第二类数据这两类样本的混合,减少了噪声点的影响,以此完成对原始平衡数据中第一类数据的过采样。最后,将过采样后的第一类数据与原始不平衡数据中第二类数据合并为新原始不平衡数据,作为后续训练分类模型的训练样本。
具体实现过程中,步骤S20中“对原始不平衡数据中的第一类数据进行过采样”可以采用如下步骤,方法流程图如图2所示:
S201,将原始不平衡数据划分为训练集、验证集和测试集。
本发明实施例中,可以将原始不平衡数据的数据集划分为训练集、验证集和测试集,并且,优选的,训练集、验证集和测试集的数据量比例为3:1:1,并且,训练集、验证集和测试集三者均包含第一类数据和第二类数据。
S202,对训练集中的第一类数据进行聚类,得到多个聚类簇、以及多个聚类簇中的每个聚类簇的聚类中心。
本发明实施例中,对于训练集,可以使用诸如K-means++(一种聚类算法)对其中的第一类数据进行聚类,得到n(n≥2)个聚类簇、以及各聚类簇的聚类中心Ci,其中,i=1,2,3,…,n。需要说明的是,聚类簇是由聚类所生成的一组数据的集合,同一聚类簇内的数据彼此相似、与其它聚类簇中的数据相异。
S203,依次遍历多个聚类簇中的每个聚类簇,并且针对遍历到的每个聚类簇,确定该聚类簇内各第一类数据k个近邻中第二类数据的数量m,以根据比例r=m/k对各第一类数据进行划分,其中,k为预设值;对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值,以增加该聚类簇内第一类数据的数据量。
本发明实施例中,对于聚类得到的n个聚类簇,可以依次遍历每个聚类簇,针对当前遍历到的聚类簇,可以对该聚类簇内的每个第一类数据均执行以下操作:
确定该第一类数据k(k为预设值)个近邻中第二类数据的数量m,进而计算第二类数据的数量m与k个近邻的比例r=m/k,并依据比例r对该第一类数据进行安全点、边界点和噪声点的划分,具体的,如果0≤r<1/2,那么该第一类数据被划分为安全点;如果1/2≤r<1,那么该第一类数据被划分为边界点;如果r=1,那么该第一类数据就是噪声点。进一步,如果该第一类数据为边界点,则可以通过改进的插值公式对该第一类数据和该聚类簇的聚类中心进行插值,以增加该聚类簇内第一类数据的数据量。
本发明实施例中,对SMOTE中的插值公式进行改进,根据改进的插值公式对每个划分为边界点的第一类数据和该第一类数据所属聚类簇的聚类中心进行插值。改进的插值公式如下:
Ynew=Ci+RAND(0,1)×(yi-Ci)
其中,Ynew表示所插值的第一类数据,Ci表示该聚类簇的聚类中心,RAND(0,1)表示从(0,1)中取一个随机数,yi表示划分结果为边界点的各第一类数据,i表示该数据簇的标识。
S204,在多个聚类簇遍历完毕的情况下,将多个聚类簇所增加的第一类数据与训练集中的第一类数据进行合并。
本发明实施例中,按照上述步骤S203对所有聚类簇遍历完毕后,可以将所有聚类簇所增加的第一类数据与训练集中原有的第一类数据进行合并。
相应的,步骤S20中“将过采样后的第一类数据与原始不平衡数据中的第二类数据合并为新原始不平衡数据”可以采用如下步骤:
将合并后的训练集中的第一类数据与训练集中的第二类数据合并为新训练集。
本发明实施例中,可以进一步将合并后的训练集中的第一类数据与训练集中原有的第二类数据进行合并,得到新训练集。
S30,将新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型。
本发明实施例中,将新原始不平衡数据作为训练样本,以超球信息粒分类器作为基础模型进行训练,采用有监督学习的方式对超球信息粒分类器进行训练得到分类模型,在此不再赘述有监督学习的过程。
具体实现过程中,步骤S30“将新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型”可以采用如下步骤:
从新训练集中获取本次训练的训练数据,将训练数据中的第一类数据和第二类数据输入至超球信息粒分类器中,以调整超球信息粒分类器的网络参数;将验证集中的第一类数据和第二类数据输入至参数调整后的超球信息粒分类器中,以确定参数调整后的超球信息粒分类器的F-measure值;如果参数调整后的超球信息粒分类器的F-measure值不满足预设的结束条件,则返回执行从新训练集中获取本次训练的训练数据,这一步骤;如果参数调整后的超球信息粒分类器的F-measure值不满足预设的结束条件,则结束训练,将参数调整后的超球信息粒分类器作为分类模型。
本发明实施例中,从新训练集中获取本次训练所需的训练数据,对于所获得的训练数据,将其中的第一类数据和第二类数据输入至超球信息粒分类器中,由超球信息粒分类器可以基于此调整自身的网络参数。进一步,将一验证集中的第一类数据和第二类数据输入至参数调整后的超球信息粒分类器中,由于验证集中的第一类数据和第二类数据预先均被标注有相应的类别标签,因此结合超球信息粒分类器针对验证集所输出的类别预测结果,可以确定本次训练超球信息粒分类器的分类评价指标的数值。
常用的分类评价指标,如准确率等在用于不平衡数据时并不能正确反映分类算法的效果。如果一个数据集中有100个样本,其中有95个属于多数类数据,只有5个属于少数类数据,那么即使某个分类算法将所有数据全部分为多数类,其准确率也有95%,但这明显不符合分类的要求。为了避免这种情况,需要选择合适的评价指标,对此,本发明选择。F-measure(一种评价不平衡数据分类效果的指标)作为超球信息粒分类器的评价指标,F-measure值可以用来评价超球信息粒分类器在不平衡数据集上的表现效果。
由此,根据验证集的类别标签和超球信息粒分类器针对验证集所输出的类别预测结果可以计算本次训练超球信息粒分类器的F-measure值。如果该F-measure值不满足预设的结束条件,比如F-measure值不低于阈值,则进行下一次训练,继续对超球信息粒分类器进行训练。如果该F-measure值满足预设的结束条件,比如F-measure值低于阈值,则结束训练,将本次参数调整后的超球信息粒分类器作为分类模型。由此,可以实现在训练集上训练分类模型,然后在验证集上选择表现最好的分类模型最后作为最后测试用的分类模型。
进一步,可以将测试集中的第一类数据和第二类数据输入至分类模型中,以确定分类模型的F-measure值。这就可以确定分类模型最终在不平衡数据集上的表现效果。
S40,获取待处理的目标数据,通过分类模型对目标数据进行分类得到相应的分类结果。
本发明实施例中,待处理的目标数据可以为边缘控制器上传至云端的数据。云端在获得到该目标数据后,可以将该目标数据输入至分类模型中,由分类模型输出针对该目标数据的分类结果。
本发明提供的工业不平衡数据分类方法,通过对不平衡数据中第一类数据进行过采样,可以增加少数类数据的数量,并以此训练得到的分类模型,这就可以解决数据不平衡现象使得在云端SaaS层的智能应用难以对数据进行分类的问题,保证分类的准确性。
基于上述实施例提供的工业不平衡数据分类方法,本发明实施例则对应提供执行该工业不平衡数据分类方法的装置,该装置的结构示意图如图3所示,包括:
过采样模块10,用于获取原始不平衡数据,原始不平衡数据中包含两类数据、且第一类数据的数据量小于第二类数据的数据量;对原始不平衡数据中的第一类数据进行过采样,并将过采样后的第一类数据与原始不平衡数据中的第二类数据合并为新原始不平衡数据;
模型训练模块20,用于将新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型;
分类模块30,用于获取待处理的目标数据,通过分类模型对目标数据进行分类得到相应的分类结果。
可选的,用于对原始不平衡数据中的第一类数据进行过采样的过采样模块10,具体用于:
将原始不平衡数据划分为训练集、验证集和测试集;对训练集中的第一类数据进行聚类,得到多个聚类簇、以及多个聚类簇中的每个聚类簇的聚类中心;依次遍历多个聚类簇中的每个聚类簇,并且针对遍历到的每个聚类簇,确定该聚类簇内各第一类数据k个近邻中第二类数据的数量m,以根据比例r=m/k对各第一类数据进行划分,其中,k为预设值;对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值,以增加该聚类簇内第一类数据的数据量;在多个聚类簇遍历完毕的情况下,将多个聚类簇所增加的第一类数据与训练集中的第一类数据进行合并;
相应的,用于将过采样后的第一类数据与原始不平衡数据中的第二类数据合并为新原始不平衡数据过采样模块10,具体用于:
将合并后的训练集中的第一类数据与训练集中的第二类数据合并为新训练集。
可选的,用于将新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型的模型训练模块20,具体用于:
从新训练集中获取本次训练的训练数据,将训练数据中的第一类数据和第二类数据输入至超球信息粒分类器中,以调整超球信息粒分类器的网络参数;将验证集中的第一类数据和第二类数据输入至参数调整后的超球信息粒分类器中,以确定参数调整后的超球信息粒分类器的F-measure值;如果参数调整后的超球信息粒分类器的F-measure值不满足预设的结束条件,则返回执行从新训练集中获取本次训练的训练数据,这一步骤;如果参数调整后的超球信息粒分类器的F-measure值不满足预设的结束条件,则结束训练,将参数调整后的超球信息粒分类器作为分类模型。
可选的,模型训练模块20,还用于:
将测试集中的第一类数据和第二类数据输入至分类模型中,以确定分类模型的F-measure值。
可选的,用于对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值的过采样模块10,具体用于:
按照如下插值公式对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值:
Ynew=Ci+RAND(0,1)×(yi-Ci)
其中,Ynew表示所插值的第一类数据,Ci表示该聚类簇的聚类中心,RAND(0,1)表示从(0,1)中取一个随机数,yi表示划分结果为边界点的各第一类数据,i表示该数据簇的标识。
需要说明的是,本发明实施例中各模块的细化功能可以参见上述工业不平衡数据分类方法实施例对应公开部分,在此不再赘述。
基于上述实施例提供的工业不平衡数据分类方法,本发明实施例还提供一种电子设备,电子设备包括:至少一个存储器和至少一个处理器;存储器存储有应用程序,处理器调用存储器存储的应用程序,应用程序用于实现工业不平衡数据分类方法。
基于上述实施例提供的工业不平衡数据分类方法,本发明实施例还提供一种存储介质,存储介质存储有计算机程序代码,计算机程序代码执行时实现工业不平衡数据分类方法。
以上对本发明所提供的一种工业不平衡数据分类方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种工业不平衡数据分类方法,其特征在于,所述方法包括:
获取原始不平衡数据,所述原始不平衡数据中包含两类数据、且第一类数据的数据量小于第二类数据的数据量;
对所述原始不平衡数据中的第一类数据进行过采样,并将过采样后的第一类数据与所述原始不平衡数据中的第二类数据合并为新原始不平衡数据;
将所述新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型;
获取待处理的目标数据,通过所述分类模型对所述目标数据进行分类得到相应的分类结果;
其中,所述对所述原始不平衡数据中的第一类数据进行过采样,包括:
将所述原始不平衡数据划分为训练集、验证集和测试集;
对所述训练集中的第一类数据进行聚类,得到多个聚类簇、以及所述多个聚类簇中的每个聚类簇的聚类中心;
依次遍历所述多个聚类簇中的每个聚类簇,并且针对遍历到的每个聚类簇,确定该聚类簇内各第一类数据k个近邻中第二类数据的数量m,以根据比例r=m/k对各第一类数据进行划分,其中,k为预设值;对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值,以增加该聚类簇内第一类数据的数据量;
在所述多个聚类簇遍历完毕的情况下,将所述多个聚类簇所增加的第一类数据与所述训练集中的第一类数据进行合并;
相应的,所述将过采样后的第一类数据与所述原始不平衡数据中的第二类数据合并为新原始不平衡数据,包括:
将合并后的所述训练集中的第一类数据与所述训练集中的第二类数据合并为新训练集;
其中,所述将所述新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型,包括:
从所述新训练集中获取本次训练的训练数据,将所述训练数据中的第一类数据和第二类数据输入至超球信息粒分类器中,以调整所述超球信息粒分类器的网络参数;
将所述验证集中的第一类数据和第二类数据输入至参数调整后的所述超球信息粒分类器中,以确定参数调整后的所述超球信息粒分类器的F-measure值;
如果参数调整后的所述超球信息粒分类器的F-measure值不满足预设的结束条件,则返回执行所述从所述新训练集中获取本次训练的训练数据,这一步骤;
如果参数调整后的所述超球信息粒分类器的F-measure值不满足预设的结束条件,则结束训练,将参数调整后的超球信息粒分类器作为所述分类模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述测试集中的第一类数据和第二类数据输入至所述分类模型中,以确定所述分类模型的F-measure值。
3.根据权利要求1所述的方法,其特征在于,所述对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值,包括:
按照如下插值公式对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值:
Ynew=Ci+RAND(0,1)×(yi-Ci)
其中,Ynew表示所插值的第一类数据,Ci表示该聚类簇的聚类中心,RAND(0,1)表示从(0,1)中取一个随机数,yi表示划分结果为边界点的各第一类数据,i表示该聚类簇的标识。
4.一种工业不平衡数据分类装置,其特征在于,所述装置包括:
过采样模块,用于获取原始不平衡数据,所述原始不平衡数据中包含两类数据、且第一类数据的数据量小于第二类数据的数据量;对所述原始不平衡数据中的第一类数据进行过采样,并将过采样后的第一类数据与所述原始不平衡数据中的第二类数据合并为新原始不平衡数据;
模型训练模块,用于将所述新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型;
分类模块,用于获取待处理的目标数据,通过所述分类模型对所述目标数据进行分类得到相应的分类结果;
其中,用于对所述原始不平衡数据中的第一类数据进行过采样的所述过采样模块,具体用于:
将所述原始不平衡数据划分为训练集、验证集和测试集;对所述训练集中的第一类数据进行聚类,得到多个聚类簇、以及所述多个聚类簇中的每个聚类簇的聚类中心;依次遍历所述多个聚类簇中的每个聚类簇,并且针对遍历到的每个聚类簇,确定该聚类簇内各第一类数据k个近邻中第二类数据的数量m,以根据比例r=m/k对各第一类数据进行划分,其中,k为预设值;对划分结果为边界点的各第一类数据和该聚类簇的聚类中心进行插值,以增加该聚类簇内第一类数据的数据量;在所述多个聚类簇遍历完毕的情况下,将所述多个聚类簇所增加的第一类数据与所述训练集中的第一类数据进行合并;
相应的,用于将过采样后的第一类数据与所述原始不平衡数据中的第二类数据合并为新原始不平衡数据所述过采样模块,具体用于:
将合并后的所述训练集中的第一类数据与所述训练集中的第二类数据合并为新训练集;
其中,用于将所述新原始不平衡数据作为训练样本,对超球信息粒分类器进行训练得到分类模型的模型训练模块,具体用于:
从所述新训练集中获取本次训练的训练数据,将所述训练数据中的第一类数据和第二类数据输入至超球信息粒分类器中,以调整所述超球信息粒分类器的网络参数;将所述验证集中的第一类数据和第二类数据输入至参数调整后的所述超球信息粒分类器中,以确定参数调整后的所述超球信息粒分类器的F-measure值;如果参数调整后的所述超球信息粒分类器的F-measure值不满足预设的结束条件,则返回执行所述从所述新训练集中获取本次训练的训练数据,这一步骤;如果参数调整后的所述超球信息粒分类器的F-measure值不满足预设的结束条件,则结束训练,将参数调整后的超球信息粒分类器作为所述分类模型。
5.一种电子设备,其特征在于,所述电子设备包括:至少一个存储器和至少一个处理器;所述存储器存储有应用程序,所述处理器调用所述存储器存储的应用程序,所述应用程序用于实现权利要求1-3任意一项所述的工业不平衡数据分类方法。
6.一种存储介质,其特征在于,所述存储介质存储有计算机程序代码,所述计算机程序代码执行时实现权利要求1-3任意一项所述的工业不平衡数据分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210808448.0A CN115099356B (zh) | 2022-07-11 | 2022-07-11 | 工业不平衡数据分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210808448.0A CN115099356B (zh) | 2022-07-11 | 2022-07-11 | 工业不平衡数据分类方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115099356A CN115099356A (zh) | 2022-09-23 |
CN115099356B true CN115099356B (zh) | 2024-08-09 |
Family
ID=83296593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210808448.0A Active CN115099356B (zh) | 2022-07-11 | 2022-07-11 | 工业不平衡数据分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115099356B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118505380B (zh) * | 2024-07-18 | 2024-09-13 | 南京昱鑫辰信息技术有限公司 | 电子信息管理方法及平台 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104487958A (zh) * | 2012-10-22 | 2015-04-01 | 英特尔公司 | 高性能互连物理层 |
CN111080442A (zh) * | 2019-12-21 | 2020-04-28 | 湖南大学 | 信用评分模型的构建方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10637705B1 (en) * | 2017-05-25 | 2020-04-28 | Genghiscomm Holdings, LLC | Peak-to-average-power reduction for OFDM multiple access |
CN107563435A (zh) * | 2017-08-30 | 2018-01-09 | 哈尔滨工业大学深圳研究生院 | 基于svm的高维不平衡数据分类方法 |
-
2022
- 2022-07-11 CN CN202210808448.0A patent/CN115099356B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104487958A (zh) * | 2012-10-22 | 2015-04-01 | 英特尔公司 | 高性能互连物理层 |
CN111080442A (zh) * | 2019-12-21 | 2020-04-28 | 湖南大学 | 信用评分模型的构建方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115099356A (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kennel et al. | Method to distinguish possible chaos from colored noise and to determine embedding parameters | |
US20120158623A1 (en) | Visualizing machine learning accuracy | |
CN113485144B (zh) | 基于物联网的智能家居控制方法及系统 | |
CN111294819B (zh) | 一种网络优化方法及装置 | |
CN111435463A (zh) | 数据处理方法及相关设备、系统 | |
CN111737134B (zh) | 一种芯片测试方法、装置、电子设备以及存储介质 | |
CN109460775B (zh) | 一种基于信息熵的数据填充方法及装置 | |
CN115099356B (zh) | 工业不平衡数据分类方法、装置、电子设备及存储介质 | |
CN111105265A (zh) | 基于客户信息的预测方法、装置、计算机设备及存储介质 | |
Janßen et al. | K-means clustering of extremes | |
CN105335368A (zh) | 一种产品聚类方法及装置 | |
CN112783747B (zh) | 一种应用程序的执行时间预测方法及装置 | |
CN110796164A (zh) | 数据聚类的簇数确定方法、系统、电子设备及存储介质 | |
CN114417095A (zh) | 一种数据集划分方法及装置 | |
CN110099061B (zh) | 一种云平台视频流服务选择方法及装置 | |
CN117193841A (zh) | 软件系统的配置参数调优方法及装置 | |
CN108900865B (zh) | 服务器、转码任务的调度方法及执行方法 | |
CN115827618A (zh) | 一种全局数据整合方法及装置 | |
CN115185768A (zh) | 系统的故障识别方法、系统、电子设备和存储介质 | |
CN112860531B (zh) | 基于深度异构图神经网络的区块链广泛共识性能评测方法 | |
CN115495504A (zh) | 数据查询方法和装置、电子设备、计算机可读存储介质 | |
CN111652384B (zh) | 一种数据量分布的平衡方法及数据处理方法 | |
CN113762403A (zh) | 图像处理模型量化方法、装置、电子设备及存储介质 | |
CN110134575B (zh) | 一种服务器集群的服务能力计算方法及装置 | |
CN112785000A (zh) | 面向大规模机器学习系统的机器学习模型训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |