CN111782904B - 一种基于改进smote算法的非平衡数据集处理方法及系统 - Google Patents
一种基于改进smote算法的非平衡数据集处理方法及系统 Download PDFInfo
- Publication number
- CN111782904B CN111782904B CN201911258231.1A CN201911258231A CN111782904B CN 111782904 B CN111782904 B CN 111782904B CN 201911258231 A CN201911258231 A CN 201911258231A CN 111782904 B CN111782904 B CN 111782904B
- Authority
- CN
- China
- Prior art keywords
- samples
- minority
- sample
- data set
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 43
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 230000005484 gravity Effects 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 32
- 238000005070 sampling Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 2
- 238000007637 random forest analysis Methods 0.000 abstract description 2
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000007418 data mining Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 201000004569 Blindness Diseases 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000037351 starvation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:首先计算少数类样本的重心点,其次构建一个少数类小区域的重心点,然后将少数类样本与集合M的每个样本分别进行随机线性插值,合成新的少数类样本并添加到数据集中;最后判断新数据集的非平衡率,若还是过小则重复以上步骤否则停止。改进后的SMOTE算法可以克服传统SMOTE算法处理噪声和边缘性样本的问题,相比于随机森林处理在处理非平衡数据集时的分类效果有显著的提高。
Description
技术领域
本发明属于电力数据处理领域,涉及一种非平衡数据集处理方法,特别是一种基于改进SMOTE算法的非平衡数据集处理方法。
背景技术
近年来,随着信息产业的快速发展,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,如何对其进行更高层次的分析,以便更好地利用这些数据,变得越来越重要。传统的数据管理方法可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中潜在的、有用的关系和规则。为了挖掘数据背后隐藏的知识,解决“数据爆炸但知识贫乏”问题,人们努力寻求各种新方法和技术,以便使数据能够转化成有用的信息和知识。数据挖掘在这种背景下应运而生了。
数据挖掘领域的研究日趋成熟,其中许多研究把方法和模型建立在理想的数据而不是现实的数据集上。但现实中的数据是错综复杂的,总体而言,他们不可避免的存在冗余数据、缺失数据、不确定数据和不一致数据等诸多情况,这样的数据简称为“脏数据”,它们成为数据挖掘的一大障碍。要在基于历史的、现存的数据基础上去为将来的企业发展作决策或预测时,数据的质量问题就变得很关键。根据“垃圾进,垃圾出”原理,错误的数据会导致昂贵的操作费用和漫长的响应时间,影响从数据集中抽取的模式的正确性和导出规则的准确性,使得决策支持系统产生错误的分析结果,将会误导决策,影响信息服务的质量。因此,在从数据库中挖掘知识之前必须对其进行一系列的预处理工作。
对数据集进行改造方法的实现则是对数据集进行增减。它的基本思想是增加或者减少不平衡数据集样本的个数,从而改变数据集的分布来消除或减小数据的不平衡。主要有欠采样技术和过采样技术。
欠采样技术将多数类样本进行适当删减,从而使数据集趋于平衡。常用的方法是随机欠采样技术,它通过随机选取的方式,将部分多数类样本删除从而减小其规模,其存在的缺点是伴随着多数类样本的删除其携带的某些重要信息也会随之丢失,从而造成分类器分类性能的下降。
过采样技术则与欠采样技术相对,该方法通过增加少数类样本数量最终达到改善非平衡数据集的目的。最简单的一种方法是随机过采样。它通过随机选择的方式,将部分少数类样本复制添加到原始数据集中从而提高少数类样本的比例;这种方法的缺点是添加的少数类样本与原始数据集的部分样本重合,可能导致过拟合现象的发生。
采用SMOTE算法进行不平衡数据集的处理,SMOTE算法在近邻数k的选择上没有可依据的标准,具有一定的盲目性。在SMOTE算法中,对近邻k的值没有太大限制,但当数据集中存在噪声时,合适的k值有可能不会使得某些新样本也成为噪声。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于改进SMOTE算法的非平衡数据集处理方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于改进SMOTE算法的非平衡数据集处理方法,包括如下步骤:
步骤一,首先使用聚类算法将样本集划分为特定数目的类簇,根据需要合成样本的数目,以及各类簇中所包含样本数量,得出各类簇所占权重以及需要合成的样本数目;通过轮盘赌的方式进行样本的选择,记为集合X;计算少数类样本的重心点;若设定向上采样倍率为m,则从集合X中随机抽取m个样本,近邻数k>m记为集合M,构建一个少数类小区域的重心点,记为Xc;
步骤二,将少数类样本与集合M的每个样本分别进行随机线性插值,合成新的少数类样本并添加到数据集中;
步骤三,判断新数据集的非平衡率,若还是过小则重复以上步骤否则获得新的数据集。
本发明的优点和积极效果是:
1、本基于改进SMOTE算法的非平衡数据集处理方法,采用减法聚类为样本进行划分样本数目,减法聚类方法是把是把所有的样本点作为聚类中心点的候选点,是一种快速而独立的近似聚类方法,计算量与样本点的数目成简单的线性关系,且与所考虑问题的维数无关。减法聚类克服了聚类中心具有主观性的缺点。
2、本基于改进SMOTE算法的非平衡数据集处理方法,可以克服传统SMOTE算法处理噪声和边缘性样本的问题,相比于随机森林处理在处理非平衡数据集时的分类效果有显著的提高,该方法在少数类样本的邻近区域合成新样本,并将其作为新增少数类样本添加到原始数据集中。改进的SMOTE通过提高少数类样本在非平衡数据集中的比例,有效扩大了分类决策的区域。同时由于合成新样本与少数类样本的差异性,因此可以防止分类器出现过度拟合。改进的SMOTE算法从一定程度上克服了噪声数据点的干扰。
3、本基于改进SMOTE算法的非平衡数据集处理方法,有效地避免了随机过采样技术在添加新样本时的局限性和盲目性。它利用线性插值的基本数学理论合成的新样本,这些新样本拥有了少数类样本的某些特性,在不会与原数据集中的样本重合的情况下增加了少数类样本的数量,扩大了分类决策的区域的同时又改善了数据集的非平衡性。
附图说明
图1是本发明的流程图;
图2是本发明减法聚类确定聚类数目的流程图。
具体实施方式
以下结合附图对本发明的实施例做进一步详述:
一种基于改进SMOTE算法的非平衡数据集处理方法,其创新之处在于:包括如下步骤:
步骤一,首先使用聚类算法将样本集划分为特定数目的类簇,根据需要合成样本的数目,以及各类簇中所包含样本数量,得出各类簇所占权重以及需要合成的样本数目;通过轮盘赌的方式进行样本的选择,记为集合X;计算少数类样本的重心点;若设定向上采样倍率为m,则从集合X中随机抽取m个样本,近邻数k>m记为集合M,构建一个少数类小区域的重心点,记为Xc;
步骤二,将少数类样本与集合M的每个样本分别进行随机线性插值,合成新的少数类样本并添加到数据集中;
步骤三,判断新数据集的非平衡率,即少数类数目占全体样本数目的比例,若还是过小则重复以上步骤否则获得新的数据集。
为了克服随机过采样技术导致的过拟合这一问题,本发明提出了新型过采样技术(Synthetic Minority Over-sampling Technique SMOTE)来合成增加少数类样本。SMOTE算法的基本思想是通过建立应变量Y和自变量X的模型来预测确实变量Y中的缺失数据:
本发明对SMOTE算法进行改进提出一种基于重心的SMOTE算法。基于重心的SMOTE算法的依据有以下两点理论:
(1)根据物理学和几何学的原理,属于同一个类的样本应该有一个共同的重心,这个重心往往表征了这类样本的独有特性。
(2)由样本重心与两个同类样本建立的区域应该是该类样本的共有区域,即在这个区域空间内的样本都应该是属于同一类。
因此,基于以上两点理论,若在共同区域内合成新的样本,那么这些新的样本既跟原始样本有差异,但同时又可以保留住同类样本的一些固有特性;从而有效的克服了SMOTE算法在噪声样本中因为近邻的选择而合成噪声新样本的问题。又因为在建立共同区域时是随机选择两个同类样本和重心点的,因此同时选中两个边缘样本的概率大大降低,有效克服了由边缘性样本造成的模糊类别界限的问题。改进的SMOTE算法通过两次计算区域的重心,从而使得新合成的样本具有一定的区域性,也更能集成少数类样本的某些共同特性。
1、本发明采用减法聚类对样本集进行子簇的划分
采用减法聚类,聚类中心的顺序由密度指标决定,密度指标越大则出现得越早,也越有可能是合理的改进的FCM初始聚类中心。因此,当聚类数为c时,只需以减法聚类产生的前c个聚类中心作为新的初始中心,不用再重新进行初始化,从提高了聚类的效率。
FCM把n个数据向量xi(i=1,2,…,n)分为c个模糊组,若记样本集为U,聚类中心为V。
(1)计算每个数据点的密度指标
式中ra是一个正数,定义了该点的邻域半径。
半径以外的数据点对该点的密度指标贡献甚微,取选择具有最高密度指标的数据点为第一个聚类中心,令xc1为选中的点,Dc1为其密度指标。
(2)根据第k次选出的聚类中心,对每个数据点的密度指标进行修正
式中rb—一个正数,定义了一个密度指标函数减少的领域,为避免出现相距很近的聚类中心,这里取rb=1.2ra。选取密度指标最高的数据点xck+1作为新的聚类中心。
(3)判断退出条件否成立
若不成立,则转到步骤(2)。式中δ<1是事先给定的参数,此参数决定了最终产生的初始聚类中心数目,δ越小,则产生的聚类数越多。
2.分配样本权重
根据子簇中样本数目为其分配不同的采样权重记作W(i),则有:某一类簇中样本数目越多,则W(i)越小,即过采样权重越小,合成样本数目就越小,最终实现同类样本之间的平衡分布。根据需要合成样本的数目,以及各类簇中所包含样本数量,得出各类簇所占权重以及需要合成的样本数目,通过轮盘赌的方式进行样本的选择,记为集合X。
3.改进的SMOTE算法
多数类样本集合表示为Y:Y={Y1,Y2,...,Yl},则基于重心的SMOTE算法的具体步骤如下:
步骤1:计算少数类样本的重心点,记为Xg。这里采用向量和欧氏距离的计算方式得到少数类样本的重心点:
根据公式可以计算出少数类样本的重心点Xg。
步骤2:构建一个少数类小区域的重心点,记为Xc。从少数类样本集合X中随机选取两个样本,分别记为Xr1,Xr2。通过三个样本Xg,Xr1,Xr2求取该小区域的重心点Xc。公式如下:
通过这个公式可以求取到少数类小区域的重心,从而使得新生成的样本有一个靠近的区域中心方向。
步骤3:合成新的样本pi。为了保证新合成的样本向小区域中心Xc靠近,因此对SMOTE算法的新样本合成公式进行了改进。公式如下:
pi=Xi+rand(0,1)*(Xc-Xi) (6)
其中,Xi(i=r1,r2)为步骤2中随机选择的两个少数类样本;pi(i=r1,r2)为合成的新样本;rand(0,1)取值同上为(0,1)之间的一个随机数。
步骤4:综合Tomek link实现数据扩充的算法。假设我们利用上述的算法产生了两个新数据点Pr1和Pr2,认为新产生的数据点与其他样本点距离最近的点,构成一对Tomeklink。当以新产生点为中心,Tomek link的距离为范围半径,去框定一个空间,空间内的少数类的个数<最低阈值的时候,认为新产生点为“垃圾点”,应该剔除或者再次进行基于重心的SMOTE训练;空间内的少数类的个数>=最低阈值的时候,在进行保留并纳入SMOTE训练的初始少类样本集合Xnew中去抽样。
步骤5:计算非平衡率。计算数集的非平衡率R,公式如下:
如果非平衡率小于目标值则继续重复步骤2,3,4以获得更多的合成样本;若非平衡率达到目标值则合成新样本结束,获得最终的数据集。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:该处理方法应用于电力数据处理领域,包括如下步骤:
步骤一,首先使用聚类算法将样本集划分为特定数目的类簇,根据需要合成样本的数目,以及各类簇中所包含样本数量,得出各类簇所占权重以及需要合成的样本数目;
步骤二,通过轮盘赌的方式进行样本的选择,记为少数类样本集合X:X={x1,x2,...,xn};
步骤三,计算步骤二得出的少数类样本集合X的重心点;
步骤四,对于少数类样本集合X中的每一个样本x1,x2,...xn,以欧式距离为标准计算其到少数类样本集中所有样本的距离得到其k近邻,设定向上采样倍率为m,从集合X中随机抽取m组样本近邻数k>m记为集合/>构建一个少数类小区域的重心点,记为Xc;
步骤五,根据公式pi=Xi+rand(0,1)*(Xc-Xi)合成新的少数类样本pi,
将集合M中的样本与新合成样本pi分别进行随机线性插值,并判断少数类样本的个数是否小于设定的最低阀值,若不小于,则合成新的少数类样本pi并将该少数类样本pi添加到数据集中,形成新数据集;若小于,则回到步骤四;
步骤六,判断新数据集的非平衡率是否小于目标值,若小于则回到步骤四,否则得到最终的数据集。
2.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:所述使用聚类算法将样本集划分为特定数目的类簇的方法,包括如下步骤:
步骤(1):根据公式计算每个数据点的密度指标
式中ra是一个正数,定义了该点的邻域半径;
步骤(2):根据公式根据第k次选出的聚类中心,对每个数据点的密度指标进行修正
式中rb—一个正数,定义了一个密度指标函数减少的领域,选取密度指标最高的数据点xck+1作为新的聚类中心;
步骤(3):根据以下判断条件判断退出条件否成立
若不成立,则转到步骤(2),式中δ是事先给定的参数,且δ<1。
3.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:计算步骤二得出的少数类样本集的重心点的方法为:
采用向量和欧氏距离的计算方式得到少数类样本的重心点:
根据公式可以计算出少数类样本的重心点Xg。
4.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:所述构建一个少数类小区域的重心点的方法为:从少数类样本集合X中随机选取两个样本,分别记为Xr1,Xr2,通过三个样本Xg,Xr1,Xr2求取该小区域的重心点Xc,公式如下:
5.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:所述合成新的少数类样本pi的公式为:
pi=Xi+rand(0,1)*(Xc-Xi) (6)
其中,Xi(i=r1,r2)为步骤二中随机选择的两个少数类样本;pi(i=r1,r2)为合成的新样本;rand(0,1)取值同上为(0,1)之间的一个随机数。
6.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:所述的非平衡率为少数类样本数目占全体样本数目的比例,公式如下:
7.一种基于改进SMOTE算法的非平衡数据集处理系统,其特征在于:该处理系统应用于电力数据处理领域,包括
类簇划分模块,用于利用聚类算法将样本集划分为特定数目的类簇;
权重技术模块,用于根据类簇中所包含的样本数量计算各类簇所占权重;
样本选择模块,用于通过轮盘赌的方式进行样本的选择;
少数类样本重心点计算模块,用于根据公式计算少数类样本的重心点;
少数类小区域重心点构建模块,用于根据公式计算构建少数类小区域重心点;
少数类样本个数判断模块,用于判断少数类样本的个数是否小于设定的最低阀值,若不小于,则合成新的少数类样本并将该少数类样本添加到数据集中,形成新数据集;
非平衡率判断模块,用于判断新数据集的非平衡率是否小于目标值,若不小于则得到最终的数据集。
8.根据权利要求7所述的一种基于改进SMOTE算法的非平衡数据集处理系统,其特征在于:所述少数类样本重心点计算模块所依据的计算公式为:
9.根据权利要求7所述的一种基于改进SMOTE算法的非平衡数据集处理系统,其特征在于:所述少数类小区域重心点所依据的公式为:
10.根据权利要求7所述的一种基于改进SMOTE算法的非平衡数据集处理系统,其特征在于:所述非平衡率判断模块中非平衡率的计算依据如下公式:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911258231.1A CN111782904B (zh) | 2019-12-10 | 2019-12-10 | 一种基于改进smote算法的非平衡数据集处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911258231.1A CN111782904B (zh) | 2019-12-10 | 2019-12-10 | 一种基于改进smote算法的非平衡数据集处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111782904A CN111782904A (zh) | 2020-10-16 |
CN111782904B true CN111782904B (zh) | 2023-10-27 |
Family
ID=72755333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911258231.1A Active CN111782904B (zh) | 2019-12-10 | 2019-12-10 | 一种基于改进smote算法的非平衡数据集处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111782904B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159137A (zh) * | 2021-04-01 | 2021-07-23 | 北京市燃气集团有限责任公司 | 一种燃气负荷聚类方法及装置 |
CN113723514B (zh) * | 2021-08-31 | 2023-10-20 | 重庆邮电大学 | 一种基于混合采样的安全接入日志数据平衡处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015141724A1 (ja) * | 2014-03-20 | 2015-09-24 | 日本電気株式会社 | 医薬品有害事象抽出方法及び装置 |
CN106372655A (zh) * | 2016-08-26 | 2017-02-01 | 南京邮电大学 | 一种非平衡iptv数据集上的少数类样本的合成方法 |
CN107330477A (zh) * | 2017-07-24 | 2017-11-07 | 南京邮电大学 | 一种针对非均衡数据分类的改进smote再抽样方法 |
WO2019041629A1 (zh) * | 2017-08-30 | 2019-03-07 | 哈尔滨工业大学深圳研究生院 | 基于svm的高维不平衡数据分类方法 |
-
2019
- 2019-12-10 CN CN201911258231.1A patent/CN111782904B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015141724A1 (ja) * | 2014-03-20 | 2015-09-24 | 日本電気株式会社 | 医薬品有害事象抽出方法及び装置 |
CN106372655A (zh) * | 2016-08-26 | 2017-02-01 | 南京邮电大学 | 一种非平衡iptv数据集上的少数类样本的合成方法 |
CN107330477A (zh) * | 2017-07-24 | 2017-11-07 | 南京邮电大学 | 一种针对非均衡数据分类的改进smote再抽样方法 |
WO2019041629A1 (zh) * | 2017-08-30 | 2019-03-07 | 哈尔滨工业大学深圳研究生院 | 基于svm的高维不平衡数据分类方法 |
Non-Patent Citations (1)
Title |
---|
基于IUS和SMOTE结合的不平衡数据随机森林分类算法研究;李建;;金华职业技术学院学报(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111782904A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106991051B (zh) | 一种基于变异测试和关联规则的测试用例约简方法 | |
CN107392919B (zh) | 基于自适应遗传算法的灰度阈值获取方法、图像分割方法 | |
CN110135494A (zh) | 基于最大信息系数和基尼指标的特征选择方法 | |
JP4556120B2 (ja) | 情報処理装置および方法、並びにプログラム | |
CN108304316B (zh) | 一种基于协同迁移的软件缺陷预测方法 | |
CN108388925A (zh) | 基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法 | |
CN110288048B (zh) | 一种svm有向无环图的海底管道风险评估方法 | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
US9058540B2 (en) | Data clustering method and device, data processing apparatus and image processing apparatus | |
CN111782904B (zh) | 一种基于改进smote算法的非平衡数据集处理方法及系统 | |
CN111967520A (zh) | 一种基于改进的smote算法的不平衡数据处理方法 | |
CN112836735B (zh) | 一种优化的随机森林处理不平衡数据集的方法 | |
CN108280289B (zh) | 基于局部加权c4.5算法的冲击地压危险等级预测方法 | |
CN113269200A (zh) | 一种基于少数类样本空间分布的不平衡数据过采样方法 | |
CN114169504B (zh) | 基于自适应滤波的图卷积神经网络池化方法 | |
CN118364346A (zh) | 一种基于混合采样的不平衡数据分类方法 | |
Naeini et al. | Improving the dynamic clustering of hyperspectral data based on the integration of swarm optimization and decision analysis | |
CN113936185A (zh) | 一种基于局部密度信息的软件缺陷数据自适应过采样方法 | |
CN114417095A (zh) | 一种数据集划分方法及装置 | |
Chen et al. | A network community-based differential evolution for multimodal optimization problems | |
CN109711439A (zh) | 一种使用Group算法加速邻居搜索的密度峰大规模游客画像数据聚类方法 | |
Lin et al. | A new density-based scheme for clustering based on genetic algorithm | |
CN110047509B (zh) | 一种两级子空间划分方法及装置 | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
CN110309424A (zh) | 一种基于粗糙聚类的社会化推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |