CN110969260A - 不平衡数据过采样方法、装置及存储介质 - Google Patents

不平衡数据过采样方法、装置及存储介质 Download PDF

Info

Publication number
CN110969260A
CN110969260A CN201911007816.6A CN201911007816A CN110969260A CN 110969260 A CN110969260 A CN 110969260A CN 201911007816 A CN201911007816 A CN 201911007816A CN 110969260 A CN110969260 A CN 110969260A
Authority
CN
China
Prior art keywords
positive
positive sample
sample set
samples
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911007816.6A
Other languages
English (en)
Inventor
乔少杰
刘定祥
孙科
韩楠
魏军林
张永清
许源平
彭珍妮
王伟
元昌安
冉先进
范勇强
彭京
周凯
黄萍
郑皎凌
何晓曦
李斌勇
覃晓
张吉烈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Luzhou City Investment Intelligent Technology Development Co Ltd
Chengdu University of Information Technology
Original Assignee
Luzhou City Investment Intelligent Technology Development Co Ltd
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Luzhou City Investment Intelligent Technology Development Co Ltd, Chengdu University of Information Technology filed Critical Luzhou City Investment Intelligent Technology Development Co Ltd
Priority to CN201911007816.6A priority Critical patent/CN110969260A/zh
Publication of CN110969260A publication Critical patent/CN110969260A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及机器学习技术领域,提供了一种不平衡数据过采样方法,基于三角形重心特点,包括:S1、获取样本集,并对所述样本集进行正负样本划分,得到正样本集和负样本集;S2、获取正样本集坐标点位信息,根据所述正样本集坐标点位信息生成均值中心点;S3、识别所述正样本集中每一正样本到均值中心点的马氏距离,按马氏距离大小对所述正样本进行排序得到正样本序列;S4、根据所述正样本序列对正样本集进行分组生成正样本组,识别所述正样本组的重心,将所述重心位置标记为新正样本;S5、将所述新正样本并入至正样本集得到新正样本集,重复步骤S2‑S4,得到与负样本数量相平衡的正样本数量;通过上述方法,本发明解决了机器学习中的过拟合现象。

Description

不平衡数据过采样方法、装置及存储介质
技术领域
本发明涉及机器学习技术领域,具体涉及一种不平衡数据过采样方法、装置及存储介质。
背景技术
在机器学习领域中,分类问题一直尤为突出,导致分类效果不佳的主要原因是不平衡的训练集,不平衡训练集是指:数据集中正负样本数量分布比例不平衡,其中:数量多的样本称为负样本,数量少的样本称为正样本。而现阶段大多数的分类器均采用了梯度下降或者梯度上升的原理对分类器的参数进行训练,这一特点使得分类器在训练过程中,对负样本的训练次数要远多于正样本,分类器对负样本训练较为充分,对正样本训练不足,这直接造成的结果是:分类器能够较为准确的识别负样本但却不能够准确的识别正样本,导致分类效果不佳。
解决数据集不平衡,提升分类效果最简单直接的方法是人为使数据集平衡,以达到提升分类效果的目的。最简单的方法就是丢弃一部分负样本,使得正负样本数量平衡,这种方法被称为欠采样;其次是通过模型对正样本进行生成,增加正样本的数量,这种方法成为过采样。两种方法的目的都是使数据集正负样本达到数量上的平衡,提升分类效果。欠采样由于丢失了大量的负样本,虽然正负样本达到平衡,正样本的分类正确率有一定的提高,但是负样本大量丢失造成负样本分类正确率会大幅度下降,所以欠采样对总体的分类效果提升并不显著,甚至在某些数据集上会出现分类效果下降的情况。而过采样则是对正样本进行生成,达到正负样本数量平衡的目的,由于负样本全部保留,所以分类器对负样本的分类正确率不会有大幅度的下降,并且对正样本的分类正确率也有较大幅度的提高。最简单的过采样方法就是随机对正样本进行复制生成所需要的正样本数量,称为随机过采样,由于生成的新样本和原来的一样,新样本不具有多样性,虽然随机过采样在一定程度上提升了正样本的分类正确率,但是生成的新样本多数都是和原来一样的,所以会产生过拟合现象,不能有效地提升分类正确率。所以过采样方法的分类正确率取决于正样本的生成方法,不同样本生成方法会直接影响最后的分类正确率。两种采样方法中欠采样分类正确率提升有限,好的过采样方法能够有效地提升分类正确率,所以现阶段大多数解决不平衡问题的方法都是通过研究过采样。
现阶段过采样算法的不足:现阶段的过采样算法大多是基于K邻近的算法进行样本生成的,其基本思路是:在当前选取的样本和其K邻近样本中的某一个样本的连线上随机选取一个点,作为新生成的样本。由于样本生成时只考虑了K邻近,所以生成的新样本存在以下缺点:
(1)新生成的正样本会跨越样本的边界,样本边界是指某一类样本所在的样本空间的边缘部分。
(2)现阶段的过采样方法生成的样本大多都是在两个样本的连线的线段之间随机选取一个点作为新生成的样本。该方法虽然增加了样本生成的随机性,但是经过该方法后,生成的新样本的分布有可能偏离原来的分布,比如密度,因为生成的新样本是两个样本连线之间的随机值。所以有可能会使得样本生成后出现过于集中于某一个区域或者在某个区域过于稀疏,导致新生成的样本分布和原来的分布不一致。
(3)按照现有技术的思想进行的样本生成方案使得新生成的样本只能是在两个样本之间的连线上,虽然生成的样本和原来的样本不同,但是新样本的多样性并不丰富,新生成的样本只能是在两个样本的连线上,不能生成两个样本连线之外的新样本,新样本的多样性不足。
基于上述三个方面关于生成的新样本存在的缺点,将会导致不平衡数据的分类正确率大大降低,使得对数据的历史规律预测不准确。
发明内容
为了解决上述现有技术所存在的问题,本发明提供了一种不平衡数据过采样方法、装置及存储介质。
第一方面,本发明提供了一种不平衡数据过采样方法,基于三角形重心特点,包括:
S1、获取样本集,并对所述样本集进行正负样本划分,得到正样本集和负样本集;
S2、获取正样本集坐标点位信息,根据所述正样本集坐标点位信息生成均值中心点;
S3、识别所述正样本集中每一正样本到均值中心点的马氏距离,按马氏距离大小对所述正样本进行排序得到正样本序列;
S4、根据所述正样本序列对正样本集进行分组生成正样本组,识别所述正样本组的重心,将所述重心位置标记为新正样本;
S5、将所述新正样本并入至正样本集得到新正样本集,重复步骤S2-S4,得到与负样本数量相平衡的正样本数量。
进一步地,所述获取正样本集坐标点位信息具体包括:各样本多维属性信息。
进一步地,所述生成均值中心点的方法具体包括:对正样本集坐标点位信息中各属性值进行求均值操作。
进一步地,所述按马氏距离大小对所述正样本进行排序得到正样本序列中排序方式包括:按照马氏距离从小到大排序或按照马氏距离从大到小排序。
进一步地,所述根据正样本序列对正样本集进行分组生成正样本组还包括:将所述正样本集中所有正样本以三个为一组进行分组,余下部分不进行样本生成。
本发明第二方面提供了一种不平衡数据过采样装置,包括:
获取模块,用于获取样本集,并对所述样本集进行正负样本划分,得到正样本集和负样本集。
处理模块,用于对正样品集进行排序、分组、标记操作。
整理模块,用于将新正样本并入至正样本集得到新正样本集。
识别输出模块,用于识别新正样品集中正样本的数量,若所述正样本数量小于负样本数量,则与处理模块通信,重复上述处理模块及整理模块工作;若所述正样本数量等于负样本数量,则对结果进行输出。
进一步地,所述处理模块包括:
排列子模块,用于对所述正样本集按马氏距离从大到小或从小到大顺序进行排列。
分组子模块,用于对排序后正样品以三个为一组进行分组得到正样本组,分组完成后余下部分不进行样本生成。
标记子模块,用于识别所述正样本组的重心,并将所述重心位置标记为新正样本。
进一步地,所述整理模块还包括:用于对所述新正样本和所述正样本集中各正样本,基于每个样本的维度信息及近邻样本信息,生成新正样本集。
本发明第三方面提供了一种存储介质,所述存储介质包括储存的程序,其中,所述程序运行时执行第一方面中任一项所述的方法。
本发明第四方面提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行第一方面中任一项所述的方法。
本发明的有益效果在于:
(1)新生成样本是三角形的重心,由于三角形重心的性质是不会在三角形的外部,所以新生成的样本不会跨越样本的边界。
(2)新样本在三个样本构成的三角形的重心,经过多次迭代生成后,不会造成新的样本分布和原来的分布严重不一致的问题,在增加样本的数量的基础上,新样本分布和原来样本分布具有一定的一致性。
(3)生成的新样本具有丰富的多样性,一定程度上解决了机器学习中的过拟合现象。
附图说明
图1为本发明一种不平衡数据过采样方法的流程示意图;
图2为本发明基于三角形重心的过采样方法生成示意图;
图3为本发明一种不平衡数据过采样装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好的理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互利用。
本发明的第一实施方式涉及一种不平衡数据过采样方法。其流程图如图1所示,具体如下:
S1、获取样本集D,并对所述样本集进行正负样本划分,得到正样本集P和负样本集N,N的数量>P的数量。
例如:样本集D可以为疑似患病人群的集合,则正样本集P为已经确诊患病人群的集合,负样本集N为未确诊患病人群的集合。
又例如:样本集D可以为疑似垃圾信息邮件的集合,则正样本集P为已经判定为垃圾信息邮件的集合,负样本集N为未被判定为垃圾信息邮件的集合。
又例如:样本集D可以为疑似存在缺陷软件的集合,则正样本集P为已经判定为缺陷软件的集合,负样本集N为未被判定为缺陷软件的集合。
又例如:样本集D可以为疑似极端天气的集合,则正样本集P为已经判定为极端天气的集合,负样本集N为未被判定为极端天气的集合。
S2、获取正样本集坐标点位信息,根据所述正样本集坐标点位信息生成均值中心点:
其中,坐标点位信息包括各样本多维属性信息,具体地:对于第i个样本(xi1,xi2,xi3,…,xij)∈P,其中xij代表第i个样本的第j维属性,P为正样本集,所以
Figure BDA0002243271510000051
为正样本集的均值中心,其中,m代表正样本的个数,n代表样本的维度大小,Smean代表正样本集的均值中心。
其中,生成均值中心点的方法包括:对正样本集坐标点位信息中各属性值进行求均值操作,具体地:计算所有正样本的均值中心,正样本集P=[(x1,y1,…,z1),(x2,y2,…,z2),…,(xn,yn,…,zn)],通过公式
Figure BDA0002243271510000052
Figure BDA0002243271510000053
分别求出均值
Figure BDA0002243271510000054
均值
Figure BDA0002243271510000055
均值
Figure BDA0002243271510000056
所得点
Figure BDA0002243271510000057
即为所有正样本的均值中心点。
S3、识别所述正样本集中每一正样本到均值中心点的马氏距离,按马氏距离大小对所述正样本进行排序得到正样本序列:
其中,按马氏距离大小对正样本进行排序得到正样本序列中排序方式包括:按照马氏距离从小到大排序或按照马氏距离从大到小排序,具体地:通过公式
Figure BDA0002243271510000058
分别计算每一个正样本到均值中心点的距离,按从小到大或者从大到小的顺序排列后从中找到距离中心点距离最远的样本S。
其中,x,y代表两个正样本向量,Σ-1为样本协方差矩阵的逆矩阵,Γ(x,y)为两个样本之间的马氏距离。将所有样本和中心均值样本之间的马氏距离进行排序得到距离样本中心最远的样本S。计算样本S和所有正样本(包括S本身,不包括均值中心)之间的马氏距离,并按照该马氏距离从小到大或从大到小的顺序进行排序,得到正样本序列D。
S4、根据所述正样本序列对正样本集进行分组生成正样本组,识别所述正样本组的重心,将所述重心位置标记为新正样本,其过程可参见图2:
其中,对正样本集进行分组生成正样本组包括:将所述正样本集中所有正样本以三个为一组进行分组,余下部分不进行样本生成,具体地:根据公式Xnew=αXm+(1-α)Xn
Figure BDA0002243271510000061
计算每一组中三个样本的重心,将计算出的结果标记为新正样本。其中,Xnew代表新生成样本的坐标,Xm、Xn分别为原样本的坐标,α代表随机(0,1)之间的取值。
S5、将所述新正样本并入至正样本集得到新正样本集,重复步骤S2-S4,得到与负样本数量相等的正样本数量。
本发明的第二实施方式涉及一种不平衡数据过采样装置。其结构框图可参见图3,包括:
获取模块,用于获取样本集,并对所述样本集进行正负样本划分,得到正样本集和负样本集。
处理模块,用于对正样本集进行排序、分组、标记操作。
整理模块,用于将新正样本并入至正样本集得到新正样本集。
识别输出模块,用于识别新正样本集中正样本的数量,若所述正样本数量小于负样本数量,则与处理模块通信,重复上述处理模块及整理模块工作;若所述正样本数量等于负样本数量,则对结果进行输出。
其中,处理模块包括:
排列子模块,用于对所述正样本集按马氏距离从大到小或从小到大顺序进行排列;
分组子模块,用于对排序后正样品以三个为一组进行分组得到正样本组,分组完成后余下部分不进行样本生成;
标记子模块,用于识别所述正样本组的重心,并将所述重心位置标记为新正样本。
其中,整理模块还包括:用于对所述新正样本和所述正样本集中各正样本,基于每个样本的维度信息及近邻样本信息,生成新正样本集。
不难发现,本实施方式为与第一实施方式相对应的装置实施例,本实施方式可与第一实施方式互相配合实施。第一实施方式中所提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第三方面提供了一种存储介质及服务器。该服务器包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;以及,与扫描装置通信连接的通信组件,通信组件在处理器的控制下接收和发送数据;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行以实现。
具体地,该服务器包括:一个或多个处理器以及存储器。处理器、存储器可以通过总线或者其他方式连接,以通过总线连接为例。存储器作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述样本采样方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

Claims (10)

1.一种不平衡数据过采样方法,其特征在于,包括:
S1、获取样本集,并对所述样本集进行正负样本划分,得到正样本集和负样本集;
S2、获取正样本集坐标点位信息,根据所述正样本集坐标点位信息生成均值中心点;
S3、识别所述正样本集中每一正样本到均值中心点的马氏距离,按马氏距离大小对所述正样本进行排序得到正样本序列;
S4、根据所述正样本序列对正样本集进行分组生成正样本组,识别所述正样本组的重心,将所述重心位置标记为新正样本;
S5、将所述新正样本并入至正样本集得到新正样本集,重复步骤S2-S4,得到与负样本数量相等的正样本数量。
2.根据权利要求1所述的过采样方法,其特征在于,所述正样本集坐标点位信息具体包括:各样本多维属性信息。
3.根据权利要求1所述的过采样方法,其特征在于,所述生成均值中心点的方法具体包括:对正样本集坐标点位信息中各属性值进行求均值操作。
4.根据权利要求1所述的过采样方法,其特征在于,所述按马氏距离大小对所述正样本进行排序得到正样本序列中排序方式,包括:按照马氏距离从小到大排序或按照马氏距离从大到小排序。
5.根据权利要求1所述的过采样方法,其特征在于,所述根据正样本序列对正样本集进行分组生成正样本组,还包括:将所述正样本集中所有正样本以三个为一组进行分组,余下部分不进行样本生成。
6.一种不平衡数据过采样装置,其特征在于,包括:
获取模块,用于获取样本集,并对所述样本集进行正负样本划分,得到正样本集和负样本集;
处理模块,用于对正样本集进行排序、分组、标记操作;
整理模块,用于将新正样本并入至正样本集得到新正样本集;
识别输出模块,用于识别新正样本集中正样本的数量,若所述正样本数量小于负样本数量,则与处理模块通信,重复上述处理模块及整理模块工作;若所述正样本数量等于负样本数量,则对结果进行输出。
7.根据权利要求6所述的装置,其特征在于,所述处理模块包括:
排列子模块,用于对所述正样本集按马氏距离从大到小或从小到大顺序进行排列;
分组子模块,用于对排序后正样品以三个为一组进行分组得到正样本组,分组完成后余下部分不进行样本生成;
标记子模块,用于识别所述正样本组的重心,并将所述重心位置标记为新正样本。
8.根据权利要求6所述的装置,其特征在于,所述整理模块还包括:
用于对所述新正样本和所述正样本集中各正样本,基于每个样本的维度信息及近邻样本信息,生成新正样本集。
9.一种存储介质,其特征在于,所述存储介质包括储存的程序,其中,所述程序运行时执行权利要求1至5中任一项所述的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任一项所述的方法。
CN201911007816.6A 2019-10-22 2019-10-22 不平衡数据过采样方法、装置及存储介质 Pending CN110969260A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911007816.6A CN110969260A (zh) 2019-10-22 2019-10-22 不平衡数据过采样方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911007816.6A CN110969260A (zh) 2019-10-22 2019-10-22 不平衡数据过采样方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN110969260A true CN110969260A (zh) 2020-04-07

Family

ID=70029821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911007816.6A Pending CN110969260A (zh) 2019-10-22 2019-10-22 不平衡数据过采样方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110969260A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632407A (zh) * 2020-12-18 2021-04-09 湖南科技大学 一种顾及地理环境异质性的空间抽样方法
CN113269200A (zh) * 2021-07-21 2021-08-17 南京信息工程大学 一种基于少数类样本空间分布的不平衡数据过采样方法
WO2021248932A1 (zh) * 2020-06-11 2021-12-16 广东浪潮智慧计算技术有限公司 一种图像数据处理方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104121985A (zh) * 2013-04-29 2014-10-29 艾默生电气(美国)控股公司(智利)有限公司 过采样数据的选择性抽取和分析
CN104462405A (zh) * 2014-12-10 2015-03-25 天津大学 一种基于文本模型的过采样算法
CN107133639A (zh) * 2017-04-05 2017-09-05 芜湖宣投文化传播有限公司 融合Boost模型的非平衡数据自适应采样方法
CN107609074A (zh) * 2017-09-02 2018-01-19 西安电子科技大学 基于融合Boost模型的不平衡数据采样方法
CN108921208A (zh) * 2018-06-20 2018-11-30 天津大学 基于深度学习的不平衡数据的均衡采样及建模方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104121985A (zh) * 2013-04-29 2014-10-29 艾默生电气(美国)控股公司(智利)有限公司 过采样数据的选择性抽取和分析
CN104462405A (zh) * 2014-12-10 2015-03-25 天津大学 一种基于文本模型的过采样算法
CN107133639A (zh) * 2017-04-05 2017-09-05 芜湖宣投文化传播有限公司 融合Boost模型的非平衡数据自适应采样方法
CN107609074A (zh) * 2017-09-02 2018-01-19 西安电子科技大学 基于融合Boost模型的不平衡数据采样方法
CN108921208A (zh) * 2018-06-20 2018-11-30 天津大学 基于深度学习的不平衡数据的均衡采样及建模方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KWABENA EBO BENNIN等: ""MAHAKIL: Diversity Based Oversampling Approach to Alleviate the Class Imbalance Issue in Software Defect Prediction"", 《IEEE TRANSACTIONS ON SOFTWARE ENGINEERING》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021248932A1 (zh) * 2020-06-11 2021-12-16 广东浪潮智慧计算技术有限公司 一种图像数据处理方法、装置、设备及可读存储介质
CN112632407A (zh) * 2020-12-18 2021-04-09 湖南科技大学 一种顾及地理环境异质性的空间抽样方法
CN113269200A (zh) * 2021-07-21 2021-08-17 南京信息工程大学 一种基于少数类样本空间分布的不平衡数据过采样方法

Similar Documents

Publication Publication Date Title
CN110287942B (zh) 年龄估计模型的训练方法、年龄估计方法以及对应的装置
WO2019179403A1 (zh) 基于序列宽深学习的欺诈交易检测方法
CN110969260A (zh) 不平衡数据过采样方法、装置及存储介质
CN103631928B (zh) 一种基于局部敏感哈希的聚类索引方法及系统
CN105844283A (zh) 用于识别图像类目归属的方法、图像搜索方法及装置
CN108446741B (zh) 机器学习超参数重要性评估方法、系统及存储介质
CN103679160B (zh) 一种人脸识别方法和装置
CN108197668A (zh) 模型数据集的建立方法及云系统
CN108319987A (zh) 一种基于支持向量机的过滤-封装式组合流量特征选择方法
CN111311702B (zh) 一种基于BlockGAN的图像生成和识别模块及方法
CN109508740B (zh) 基于高斯混合噪声生成式对抗网络的物体硬度识别方法
CN106708659A (zh) 一种自适应最近邻缺失数据的填充方法
CN113541985B (zh) 物联网故障诊断方法、模型的训练方法及相关装置
CN111723856B (zh) 一种图像数据处理方法、装置、设备及可读存储介质
CN115577858B (zh) 基于区块链的碳排放量预测方法、装置及电子设备
CN103714332A (zh) 字符识别设备和字符识别方法
CN105989001A (zh) 图像搜索方法及装置、图像搜索系统
CN110110845A (zh) 一种基于并行多级宽度神经网络的学习方法
CN111177135B (zh) 一种基于界标的数据填补方法及装置
CN109961129A (zh) 一种基于改进粒子群的海上静止目标搜寻方案生成方法
CN111144462A (zh) 一种雷达信号的未知个体识别方法及装置
CN114417095A (zh) 一种数据集划分方法及装置
CN109978051A (zh) 基于混合神经网络的监督分类方法
CN111160385B (zh) 海量位置点聚合的方法、装置、设备及存储介质
CN111126617B (zh) 一种选择融合模型权重参数的方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination