CN111782904A - 一种基于改进smote算法的非平衡数据集处理方法及系统 - Google Patents

一种基于改进smote算法的非平衡数据集处理方法及系统 Download PDF

Info

Publication number
CN111782904A
CN111782904A CN201911258231.1A CN201911258231A CN111782904A CN 111782904 A CN111782904 A CN 111782904A CN 201911258231 A CN201911258231 A CN 201911258231A CN 111782904 A CN111782904 A CN 111782904A
Authority
CN
China
Prior art keywords
samples
minority
sample
data set
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911258231.1A
Other languages
English (en)
Other versions
CN111782904B (zh
Inventor
李刚
李野
杨光
董得龙
孔祥玉
宗淑敏
孙虹
卢静雅
刘浩宇
翟术然
张兆杰
许迪
赵紫敬
乔亚男
吕伟嘉
顾强
何泽昊
季浩
白涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Original Assignee
Tianjin University
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University, State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd, Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd filed Critical Tianjin University
Priority to CN201911258231.1A priority Critical patent/CN111782904B/zh
Publication of CN111782904A publication Critical patent/CN111782904A/zh
Application granted granted Critical
Publication of CN111782904B publication Critical patent/CN111782904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:首先计算少数类样本的重心点,其次构建一个少数类小区域的重心点,然后将少数类样本与集合M的每个样本分别进行随机线性插值,合成新的少数类样本并添加到数据集中;最后判断新数据集的非平衡率,若还是过小则重复以上步骤否则停止。改进后的SMOTE算法可以克服传统SMOTE算法处理噪声和边缘性样本的问题,相比于随机森林处理在处理非平衡数据集时的分类效果有显著的提高。

Description

一种基于改进SMOTE算法的非平衡数据集处理方法及系统
技术领域
本发明属于电力数据处理领域,涉及一种非平衡数据集处理方法,特别是一种基于改进SMOTE算法的非平衡数据集处理方法。
背景技术
近年来,随着信息产业的快速发展,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,如何对其进行更高层次的分析,以便更好地利用这些数据,变得越来越重要。传统的数据管理方法可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中潜在的、有用的关系和规则。为了挖掘数据背后隐藏的知识,解决“数据爆炸但知识贫乏”问题,人们努力寻求各种新方法和技术,以便使数据能够转化成有用的信息和知识。数据挖掘在这种背景下应运而生了。
数据挖掘领域的研究日趋成熟,其中许多研究把方法和模型建立在理想的数据而不是现实的数据集上。但现实中的数据是错综复杂的,总体而言,他们不可避免的存在冗余数据、缺失数据、不确定数据和不一致数据等诸多情况,这样的数据简称为“脏数据”,它们成为数据挖掘的一大障碍。要在基于历史的、现存的数据基础上去为将来的企业发展作决策或预测时,数据的质量问题就变得很关键。根据“垃圾进,垃圾出”原理,错误的数据会导致昂贵的操作费用和漫长的响应时间,影响从数据集中抽取的模式的正确性和导出规则的准确性,使得决策支持系统产生错误的分析结果,将会误导决策,影响信息服务的质量。因此,在从数据库中挖掘知识之前必须对其进行一系列的预处理工作。
对数据集进行改造方法的实现则是对数据集进行增减。它的基本思想是增加或者减少不平衡数据集样本的个数,从而改变数据集的分布来消除或减小数据的不平衡。主要有欠采样技术和过采样技术。
欠采样技术将多数类样本进行适当删减,从而使数据集趋于平衡。常用的方法是随机欠采样技术,它通过随机选取的方式,将部分多数类样本删除从而减小其规模,其存在的缺点是伴随着多数类样本的删除其携带的某些重要信息也会随之丢失,从而造成分类器分类性能的下降。
过采样技术则与欠采样技术相对,该方法通过增加少数类样本数量最终达到改善非平衡数据集的目的。最简单的一种方法是随机过采样。它通过随机选择的方式,将部分少数类样本复制添加到原始数据集中从而提高少数类样本的比例;这种方法的缺点是添加的少数类样本与原始数据集的部分样本重合,可能导致过拟合现象的发生。
采用SMOTE算法进行不平衡数据集的处理,SMOTE算法在近邻数k的选择上没有可依据的标准,具有一定的盲目性。在SMOTE算法中,对近邻k的值没有太大限制,但当数据集中存在噪声时,合适的k值有可能不会使得某些新样本也成为噪声。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于改进SMOTE算法的非平衡数据集处理方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于改进SMOTE算法的非平衡数据集处理方法,包括如下步骤:
步骤一,首先使用聚类算法将样本集划分为特定数目的类簇,根据需要合成样本的数目,以及各类簇中所包含样本数量,得出各类簇所占权重以及需要合成的样本数目;通过轮盘赌的方式进行样本的选择,记为集合X;计算少数类样本的重心点;若设定向上采样倍率为m,则从集合X中随机抽取m个样本,近邻数k>m记为集合M,构建一个少数类小区域的重心点,记为Xc
步骤二,将少数类样本与集合M的每个样本分别进行随机线性插值,合成新的少数类样本并添加到数据集中;
步骤三,判断新数据集的非平衡率,若还是过小则重复以上步骤否则获得新的数据集。
本发明的优点和积极效果是:
1、本基于改进SMOTE算法的非平衡数据集处理方法,采用减法聚类为样本进行划分样本数目,减法聚类方法是把是把所有的样本点作为聚类中心点的候选点,是一种快速而独立的近似聚类方法,计算量与样本点的数目成简单的线性关系,且与所考虑问题的维数无关。减法聚类克服了聚类中心具有主观性的缺点。
2、本基于改进SMOTE算法的非平衡数据集处理方法,可以克服传统SMOTE算法处理噪声和边缘性样本的问题,相比于随机森林处理在处理非平衡数据集时的分类效果有显著的提高,该方法在少数类样本的邻近区域合成新样本,并将其作为新增少数类样本添加到原始数据集中。改进的SMOTE通过提高少数类样本在非平衡数据集中的比例,有效扩大了分类决策的区域。同时由于合成新样本与少数类样本的差异性,因此可以防止分类器出现过度拟合。改进的SMOTE算法从一定程度上克服了噪声数据点的干扰。
3、本基于改进SMOTE算法的非平衡数据集处理方法,有效地避免了随机过采样技术在添加新样本时的局限性和盲目性。它利用线性插值的基本数学理论合成的新样本,这些新样本拥有了少数类样本的某些特性,在不会与原数据集中的样本重合的情况下增加了少数类样本的数量,扩大了分类决策的区域的同时又改善了数据集的非平衡性。
附图说明
图1是本发明的流程图;
图2是本发明减法聚类确定聚类数目的流程图。
具体实施方式
以下结合附图对本发明的实施例做进一步详述:
一种基于改进SMOTE算法的非平衡数据集处理方法,其创新之处在于:包括如下步骤:
步骤一,首先使用聚类算法将样本集划分为特定数目的类簇,根据需要合成样本的数目,以及各类簇中所包含样本数量,得出各类簇所占权重以及需要合成的样本数目;通过轮盘赌的方式进行样本的选择,记为集合X;计算少数类样本的重心点;若设定向上采样倍率为m,则从集合X中随机抽取m个样本,近邻数k>m记为集合M,构建一个少数类小区域的重心点,记为Xc
步骤二,将少数类样本与集合M的每个样本分别进行随机线性插值,合成新的少数类样本并添加到数据集中;
步骤三,判断新数据集的非平衡率,即少数类数目占全体样本数目的比例,若还是过小则重复以上步骤否则获得新的数据集。
为了克服随机过采样技术导致的过拟合这一问题,本发明提出了新型过采样技术(Synthetic Minority Over-sampling TechniqueSMOTE)来合成增加少数类样本。 SMOTE算法的基本思想是通过建立应变量Y和自变量X的模型来预测确实变量Y中的缺失数据:
本发明对SMOTE算法进行改进提出一种基于重心的SMOTE算法。基于重心的 SMOTE算法的依据有以下两点理论:
(1)根据物理学和几何学的原理,属于同一个类的样本应该有一个共同的重心,这个重心往往表征了这类样本的独有特性。
(2)由样本重心与两个同类样本建立的区域应该是该类样本的共有区域,即在这个区域空间内的样本都应该是属于同一类。
因此,基于以上两点理论,若在共同区域内合成新的样本,那么这些新的样本既跟原始样本有差异,但同时又可以保留住同类样本的一些固有特性;从而有效的克服了SMOTE算法在噪声样本中因为近邻的选择而合成噪声新样本的问题。又因为在建立共同区域时是随机选择两个同类样本和重心点的,因此同时选中两个边缘样本的概率大大降低,有效克服了由边缘性样本造成的模糊类别界限的问题。改进的SMOTE算法通过两次计算区域的重心,从而使得新合成的样本具有一定的区域性,也更能集成少数类样本的某些共同特性。
1、本发明采用减法聚类对样本集进行子簇的划分
采用减法聚类,聚类中心的顺序由密度指标决定,密度指标越大则出现得越早,也越有可能是合理的改进的FCM初始聚类中心。因此,当聚类数为c时,只需以减法聚类产生的前c个聚类中心作为新的初始中心,不用再重新进行初始化,从提高了聚类的效率。
FCM把n个数据向量xi(i=1,2,…,n)分为c个模糊组,若记样本集为U,聚类中心为V。
(1)计算每个数据点的密度指标
Figure RE-GDA0002493412200000041
式中ra是一个正数,定义了该点的邻域半径。
半径以外的数据点对该点的密度指标贡献甚微,取
Figure RE-GDA0002649099760000042
选择具有最高密度指标的数据点为第一个聚类中心,令xc1为选中的点,Dc1为其密度指 标。
(2)根据第k次选出的聚类中心,对每个数据点的密度指标进行修正
Figure RE-GDA0002493412200000043
式中rb—一个正数,定义了一个密度指标函数减少的领域,为避免出现相距很近的聚类中心,这里取rb=1.2ra。选取密度指标最高的数据点xck+1作为新的聚类中心。
(3)判断退出条件否成立
Figure RE-GDA0002493412200000051
若不成立,则转到步骤(2)。式中δ<1是事先给定的参数,此参数决定了最终产生的初始聚类中心数目,δ越小,则产生的聚类数越多。
2.分配样本权重
根据子簇中样本数目为其分配不同的采样权重记作W(i),则有:某一类簇中样本数目越多,则W(i)越小,即过采样权重越小,合成样本数目就越小,最终实现同类样本之间的平衡分布。根据需要合成样本的数目,以及各类簇中所包含样本数量,得出各类簇所占权重以及需要合成的样本数目,通过轮盘赌的方式进行样本的选择,记为集合X。
3.改进的SMOTE算法
多数类样本集合表示为Y:Y={Y1,Y2,...,Yl},则基于重心的SMOTE算法的具体步骤如下:
步骤1:计算少数类样本的重心点,记为Xg。这里采用向量和欧氏距离的计算方式得到少数类样本的重心点:
Figure RE-GDA0002493412200000052
根据公式可以计算出少数类样本的重心点Xg
步骤2:构建一个少数类小区域的重心点,记为Xc。从少数类样本集合X中随机选取两个样本,分别记为Xr1,Xr2。通过三个样本Xg,Xr1,Xr2求取该小区域的重心点Xc。公式如下:
Figure RE-GDA0002493412200000053
通过这个公式可以求取到少数类小区域的重心,从而使得新生成的样本有一个靠近的区域中心方向。
步骤3:合成新的样本pi。为了保证新合成的样本向小区域中心Xc靠近,因此对SMOTE算法的新样本合成公式进行了改进。公式如下:
pi=Xi+rand(0,1)*(Xc-Xi) (6)
其中,Xi(i=r1,r2)为步骤2中随机选择的两个少数类样本;pi(i=r1,r2)为合成的新样本;rand(0,1)取值同上为(0,1)之间的一个随机数。
步骤4:综合Tomek link实现数据扩充的算法。假设我们利用上述的算法产生了两个新数据点Pr1和Pr2,认为新产生的数据点与其他样本点距离最近的点,构成一对Tomeklink。当以新产生点为中心,Tomek link的距离为范围半径,去框定一个空间,空间内的少数类的个数<最低阈值的时候,认为新产生点为“垃圾点”,应该剔除或者再次进行基于重心的SMOTE训练;空间内的少数类的个数>=最低阈值的时候,在进行保留并纳入SMOTE训练的初始少类样本集合Xnew中去抽样。
步骤5:计算非平衡率。计算数集的非平衡率R,公式如下:
Figure RE-GDA0002493412200000061
如果非平衡率小于目标值则继续重复步骤2,3,4以获得更多的合成样本;若非平衡率达到目标值则合成新样本结束,获得最终的数据集。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/ 或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:包括如下步骤:
步骤一,首先使用聚类算法将样本集划分为特定数目的类簇,根据需要合成样本的数目,以及各类簇中所包含样本数量,得出各类簇所占权重以及需要合成的样本数目;
步骤二,通过轮盘赌的方式进行样本的选择,记为少数类样本集合X:X={x1,x2,...,xn};
步骤三,计算步骤二得出的少数类样本集合X的重心点;
步骤四,对于少数类样本集合X中的每一个样本x1,x2,...xn,以欧式距离为标准计算其到少数类样本集中所有样本的距离得到其k近邻,设定向上采样倍率为m,从集合X中随机抽取m组样本
Figure RE-RE-FDA0002493412190000011
近邻数k>m记为集合
Figure RE-RE-FDA0002493412190000012
构建一个少数类小区域的重心点,记为Xc
步骤五,根据公式pi=Xi+rand(0,1)*(Xc-Xi)合成新的少数类样本pi
将集合M中的样本
Figure RE-RE-FDA0002493412190000013
与新合成样本pi分别进行随机线性插值,并判断少数类样本的个数是否小于设定的最低阀值,若不小于,则合成新的少数类样本pi并将该少数类样本pi添加到数据集中,形成新数据集;若小于,则回到步骤四;
步骤六,判断新数据集的非平衡率是否小于目标值,若小于则回到步骤四,否则得到最终的数据集。
2.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:所述使用聚类算法将样本集划分为特定数目的类簇的方法,包括如下步骤:
步骤(1):根据公式计算每个数据点的密度指标
Figure RE-RE-FDA0002493412190000014
式中ra是一个正数,定义了该点的邻域半径;
步骤(2):根据公式根据第k次选出的聚类中心,对每个数据点的密度指标进行修正
Figure RE-RE-FDA0002493412190000021
式中rb—一个正数,定义了一个密度指标函数减少的领域,选取密度指标最高的数据点xck+1作为新的聚类中心;
步骤(3):根据以下判断条件判断退出条件否成立
Figure RE-RE-FDA0002493412190000022
若不成立,则转到步骤(2),式中δ是事先给定的参数,且δ<1。
3.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:计算步骤二得出的少数类样本集的重心点的方法为:
采用向量和欧氏距离的计算方式得到少数类样本的重心点:
Figure RE-RE-FDA0002493412190000023
根据公式可以计算出少数类样本的重心点Xg
4.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:所述构建一个少数类小区域的重心点的方法为:从少数类样本集合X中随机选取两个样本,分别记为Xr1,Xr2,通过三个样本Xg,Xr1,Xr2求取该小区域的重心点Xc,公式如下:
Figure RE-RE-FDA0002493412190000024
5.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:所述合成新的少数类样本pi的公式为:
pi=Xi+rand(0,1)*(Xc-Xi) (6)
其中,Xi(i=r1,r2)为步骤二中随机选择的两个少数类样本;pi(i=r1,r2)为合成的新样本;rand(0,1)取值同上为(0,1)之间的一个随机数。
6.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:所述的非平衡率为少数类样本数目占全体样本数目的比例,公式如下:
Figure RE-RE-FDA0002493412190000031
7.一种基于改进SMOTE算法的非平衡数据集处理系统,其特征在于:包括
类簇划分模块,用于利用聚类算法将样本集划分为特定数目的类簇;
权重技术模块,用于根据类簇中所包含的样本数量计算各类簇所占权重;
样本选择模块,用于通过轮盘赌的方式进行样本的选择;
少数类样本重心点计算模块,用于根据公式计算少数类样本的重心点;
少数类小区域重心点构建模块,用于根据公式计算构建少数类小区域重心点;
少数类样本个数判断模块,用于判断少数类样本的个数是否小于设定的最低阀值,若不小于,则合成新的少数类样本并将该少数类样本添加到数据集中,形成新数据集;
非平衡率判断模块,用于判断新数据集的非平衡率是否小于目标值,若不小于则得到最终的数据集。
8.根据权利要求7所述的一种基于改进SMOTE算法的非平衡数据集处理系统,其特征在于:所述少数类样本重心点计算模块所依据的计算公式为:
Figure RE-RE-FDA0002493412190000032
9.根据权利要求7所述的一种基于改进SMOTE算法的非平衡数据集处理系统,其特征在于:所述少数类小区域重心点所依据的公式为:
Figure RE-RE-FDA0002493412190000033
10.根据权利要求7所述的一种基于改进SMOTE算法的非平衡数据集处理系统,其特征在于:所述非平衡率判断模块中非平衡率的计算依据如下公式:
Figure RE-RE-FDA0002493412190000034
CN201911258231.1A 2019-12-10 2019-12-10 一种基于改进smote算法的非平衡数据集处理方法及系统 Active CN111782904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911258231.1A CN111782904B (zh) 2019-12-10 2019-12-10 一种基于改进smote算法的非平衡数据集处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911258231.1A CN111782904B (zh) 2019-12-10 2019-12-10 一种基于改进smote算法的非平衡数据集处理方法及系统

Publications (2)

Publication Number Publication Date
CN111782904A true CN111782904A (zh) 2020-10-16
CN111782904B CN111782904B (zh) 2023-10-27

Family

ID=72755333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911258231.1A Active CN111782904B (zh) 2019-12-10 2019-12-10 一种基于改进smote算法的非平衡数据集处理方法及系统

Country Status (1)

Country Link
CN (1) CN111782904B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159137A (zh) * 2021-04-01 2021-07-23 北京市燃气集团有限责任公司 一种燃气负荷聚类方法及装置
CN113723514A (zh) * 2021-08-31 2021-11-30 重庆邮电大学 一种基于混合采样的安全接入日志数据平衡处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015141724A1 (ja) * 2014-03-20 2015-09-24 日本電気株式会社 医薬品有害事象抽出方法及び装置
CN106372655A (zh) * 2016-08-26 2017-02-01 南京邮电大学 一种非平衡iptv数据集上的少数类样本的合成方法
CN107330477A (zh) * 2017-07-24 2017-11-07 南京邮电大学 一种针对非均衡数据分类的改进smote再抽样方法
WO2019041629A1 (zh) * 2017-08-30 2019-03-07 哈尔滨工业大学深圳研究生院 基于svm的高维不平衡数据分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015141724A1 (ja) * 2014-03-20 2015-09-24 日本電気株式会社 医薬品有害事象抽出方法及び装置
CN106372655A (zh) * 2016-08-26 2017-02-01 南京邮电大学 一种非平衡iptv数据集上的少数类样本的合成方法
CN107330477A (zh) * 2017-07-24 2017-11-07 南京邮电大学 一种针对非均衡数据分类的改进smote再抽样方法
WO2019041629A1 (zh) * 2017-08-30 2019-03-07 哈尔滨工业大学深圳研究生院 基于svm的高维不平衡数据分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李建;: "基于IUS和SMOTE结合的不平衡数据随机森林分类算法研究", 金华职业技术学院学报, no. 03 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159137A (zh) * 2021-04-01 2021-07-23 北京市燃气集团有限责任公司 一种燃气负荷聚类方法及装置
CN113723514A (zh) * 2021-08-31 2021-11-30 重庆邮电大学 一种基于混合采样的安全接入日志数据平衡处理方法
CN113723514B (zh) * 2021-08-31 2023-10-20 重庆邮电大学 一种基于混合采样的安全接入日志数据平衡处理方法

Also Published As

Publication number Publication date
CN111782904B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN110135494A (zh) 基于最大信息系数和基尼指标的特征选择方法
CN106909981B (zh) 模型训练、样本平衡方法及装置以及个人信用评分系统
CN106096727A (zh) 一种基于机器学习的网络模型构造方法及装置
CN112465153A (zh) 一种基于不平衡集成二分类的磁盘故障预测方法
CN108388925A (zh) 基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法
CN111967520A (zh) 一种基于改进的smote算法的不平衡数据处理方法
JPWO2017068675A1 (ja) プログラム生成装置、プログラム生成方法および生成プログラム
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN111782904A (zh) 一种基于改进smote算法的非平衡数据集处理方法及系统
Zhang et al. An adaptive learning rate method for improving adaptability of background models
CN113435108A (zh) 一种基于改进的鲸鱼优化算法的战场目标分群方法
CN115577357A (zh) 一种基于堆叠集成技术的Android恶意软件检测方法
KR101584883B1 (ko) 그래프 분류를 위한 빈발 부분그래프의 생성 방법
Naeini et al. Improving the dynamic clustering of hyperspectral data based on the integration of swarm optimization and decision analysis
CN114417095A (zh) 一种数据集划分方法及装置
CN113936185A (zh) 一种基于局部密度信息的软件缺陷数据自适应过采样方法
CN113269200A (zh) 一种基于少数类样本空间分布的不平衡数据过采样方法
JP5892275B2 (ja) 多クラス識別器生成装置、データ識別装置、多クラス識別器生成方法、データ識別方法、及びプログラム
CN108717551A (zh) 一种基于最大隶属度的模糊层次聚类方法
CN114139482A (zh) 一种基于深度度量学习的eda电路失效分析方法
CN109657795B (zh) 一种基于属性选择的硬盘故障预测方法
CN114077924A (zh) 考虑极端大风天气的风电功率预测大风数据增强方法
CN108090514B (zh) 基于两阶段密度聚类的红外图像识别方法
Wang et al. History-Guided Hill Exploration for Evolutionary Computation
CN109981630A (zh) 基于卡方检验和ldof算法的入侵检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant