CN104933053A - 非平衡类数据的分类 - Google Patents

非平衡类数据的分类 Download PDF

Info

Publication number
CN104933053A
CN104933053A CN201410100293.0A CN201410100293A CN104933053A CN 104933053 A CN104933053 A CN 104933053A CN 201410100293 A CN201410100293 A CN 201410100293A CN 104933053 A CN104933053 A CN 104933053A
Authority
CN
China
Prior art keywords
classifier
sub
data
properties
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410100293.0A
Other languages
English (en)
Inventor
杨鸿超
赵金涛
邱雪涛
王骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201410100293.0A priority Critical patent/CN104933053A/zh
Publication of CN104933053A publication Critical patent/CN104933053A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据挖掘技术,特别涉及训练非平衡类数据分类器的方法、非平衡类数据分类器和非平衡类数据分类的方法。在按照本发明一个实施例的训练非平衡类数据分类器的方法中,由所述非平衡类数据分类器进行分类的数据具有多个属性,所述方法包含下列步骤:将所述多个属性划分为多个属性组,每个所述属性组对应一个子分类器,每个所述子分类器适于基于对应的所述属性组对数据进行分类,使得能够根据预先设定的规则,由各个所述子分类器的分类结果得到最终的分类结果;将训练数据样本划分为多个测试集;以及对于每个所述属性组,利用不同的所述测试集训练对应的子分类器。

Description

非平衡类数据的分类
发明领域
本发明涉及数据挖掘技术,特别涉及非平衡类数据分类器的训练方法、非平衡类数据分类器和非平衡类数据分类的方法。
背景技术
分类是数据挖掘和机器学习中最常用的技术之一,其根据一组已知类别的对象训练得到分类器,然后将未知类别的对象应用于该分类器以确定相应的类别。在非平衡类数据中,某类样本的数量远远大于其它类样本,其中前者被称为负类数据,后者被称为正类数据。
实际应用(例如信用卡交易欺诈检测、网络入侵检测、医学疾病诊断等)中常会遇到非平衡类数据的分类问题,这类问题的共同点是少数类信息是用户关注的重点。例如在信用卡交易欺诈检测的应用中,更为关心的是欺诈客户,但是监测到的数据集中大部分是信用卡正常交易记录,非法交易所占比例很小。用于处理分类问题的现有技术有很多种,如决策树、贝叶斯网络、支持向量机等,但这些技术多针对平衡数据而设计,未考虑到正类和负类数据分布的巨大差异性,因此处理效果不佳。
目前,非平衡类数据的分类主要采用两种思路:一是改变训练集样本的分布,降低不平衡度,主要包括改变数据集分布的重采样方法,其缺点是分类效果依赖于重采样算法,而对于很多应用来说,数据集的最优分布难以确定;二是针对非平衡类数据特点构造新算法或改造现有算法(例如代价敏感学习方法、特征选择方法和单类学习方法等),代价敏感学习方法的缺点是很难对错误分类的代价给出准确的估计,使得整体性能提升得不到保障,特征选择方法更多的是适用于文本分类的问题,适用范围受到较大限制,单类学习方法的缺点是仅仅利用少数正类数据,完全忽略了负类数据中蕴涵的有用信息。
由上可见,迫切需要一种性能优秀和适用范围大的非平衡类数据处理技术。
发明内容
本发明的一个目的是提供一种训练非平衡类数据分类器的方法,其具有信息挖掘充分、全面和分类精度高等优点。
在按照本发明一个实施例的训练非平衡类数据分类器的方法中,由所述非平衡类数据分类器进行分类的数据具有多个属性,所述方法包含下列步骤:
将所述多个属性划分为多个属性组,每个所述属性组对应一个子分类器,每个所述子分类器适于基于对应的所述属性组对数据进行分类,使得能够根据预先设定的规则,由各个所述子分类器的分类结果得到最终的分类结果;
将训练数据样本划分为多个测试集;以及
对于每个所述属性组,利用不同的所述测试集训练对应的子分类器。
优选地,在上述方法中,将所述多个属性划分为n个属性组并且将训练数据样本划分为(n+1)个测试集,在子分类器的训练步骤中,按照下列方式训练第i个子分类器:
利用前(i-1)个子分类器对第i个测试集的训练数据样本进行分类以得到(i-1)组正类数据;
将所述(i-1)组正类数据的交集作为进一步的训练数据样本来训练第i个子分类器。
优选地,在上述方法中,按照随机方式将训练数据样本划分为多个测试集。
优选地,在上述方法中,利用最大召回率算法来训练第i个子分类器。
优选地,在上述方法中,按照属性之间的相关性将所述多个属性划分为多个属性组,所述相关性较大的属性被划分在不同的属性组内。
本发明的还有一个目的是提供一种非平衡类数据分类器,其具有高分类精度和分类效率等优点。
按照本发明一个实施例的非平衡类数据分类器包括:
数据接收单元;
多个子分类器,由所述非平衡类数据分类器进行分类的数据具有多个属性,所述多个属性被划分为多个属性组,每个所述属性组对应一个所述子分类器,每个所述子分类器被配置为并行地从所述数据接收单元接收数据并且基于对应的所述属性组对接收的数据进行分类;以及
与所述多个子分类器耦合的决策节点,其配置为根据预先设定的规则,由各个所述子分类器输出的分类结果得到最终的分类结果,
其中,按照下列方式训练所述非平衡类数据分类器:将训练数据样本划分为多个测试集,对于每个所述属性组,利用不同的所述测试集训练对应的子分类器。
优选地,在上述非平衡类数据分类器中,所述多个子分类器和所述决策节点在多个物理上并行的计算设备上实施。
优选地,在上述非平衡类数据分类器中,所述决策节点取各个所述子分类器输出的正类数据的交集作为最终的分类结果。
本发明的还有一个目的是提供一种非平衡类数据分类的方法,其具有高分类精度和分类效率等优点。
按照本发明一个实施例的非平衡类数据分类的方法包括下列步骤:
将待分类的数据输入多个子分类器,所述待分类的数据具有多个属性,所述多个属性被划分为多个属性组,每个所述属性组对应一个所述子分类器;
每个所述子分类器并行地基于对应的所述属性组对所述待分类的数据进行分类;以及
根据预先设定的规则,由各个所述子分类器输出的分类结果得到最终的分类结果,
其中,按照下列方式训练所述非平衡类数据分类器:将训练数据样本划分为多个测试集,对于每个所述属性组,利用不同的所述测试集训练对应的子分类器。
附图说明
从结合附图的以下详细说明中,将会使本发明的上述和其它目的及优点更加完全清楚。
图1为按照本发明一个实施例的训练非平衡类数据分类器的方法的流程图。
图2为图1所示实施例中的子分类器训练例程的示意图。
图3为按照本发明一个实施例的非平衡类数据分类器的示意图。
图4为按照本发明一个实施例的非平衡类数据分类方法的流程图。
具体实施方式
下面参照其中图示了本发明示意性实施例的附图更为全面地说明本发明。但本发明可以按不同形式来实现,而不应解读为仅限于本文给出的各实施例。给出的上述各实施例旨在使本文的披露全面完整,从而使对本发明保护范围的理解更为全面和准确。
诸如“包含”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元和步骤以外,本发明的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。
按照本发明的一个方面,非平衡类数据的分类基于对象属性的拆分。具体而言,所处理的数据对象一般具有多个属性,在本发明的实施例中,这些属性被划分为多个属性组,每个属性组对应于一个子分类器,不同的子分类器基于相应的属性组对数据施行分类操作,子分类器分类操作的结果按照预先设定的规则汇总后产生最终的分类结果。由于可以为针对各个属性组的子分类器设定不同的分类规则,因此属性中所蕴含的信息得以充分利用,从而提升了非平衡数据分类的精度。另外,可将多个子分类器部署到分布式系统中的不同节点上,使得每个子分类器能够基于属性组并行地对数据进行分类,这提高了处理效率,从而满足大数据量或大吞吐量的应用需求。
按照本发明的另一个方面,在分类器训练阶段采用下列训练方式:将子分类器视为按照顺序相连的级联结构,用于下一级子分类器的训练数据样本取决于前级子分类器输出的正类数据,当遍历级联结构的所有级后,每个子分类器都经过训练,由此完成整个分类器的训练。本发明的发明人发现,这种基于级联结构的训练方式能够充分提升分类器的整体性能,并且还提高了训练效率。再者,借助于级联结构,全体训练数据样本中蕴含的信息得到充分利用,提高了分类器的整体性能。
图1为按照本发明一个实施例的训练非平衡类数据分类器的方法的流程图。
如上所述,所处理的数据对象一般具有多个属性,因此如图1所示,在步骤S110中,首先将这些属性划分为n个属性组A1、A2……An。优选地,属性的划分可基于属性之间的相关性,其中,相关性较大的属性尽可能被划分在不同的属性组内,以使同一属性组内的属性之间具有较小的相关性。这种划分方式的优点是使各个子分类器的分类能力均衡化。需要指出的是,在本实施例中,各个属性组内属性的数量可以不同。
随后进入步骤S120,将训练数据样本划分为m个测试集T0、T2……Tm-1。为简化处理,这里可以按照随机方式划分训练数据样本。在本实施例中,优选地,可以使属性组的数量n与测试集的数量m之间具有确定的关系,例如测试集的数量m被取值为n+1。
接着,在步骤S130中,解析得到每个测试集中的每个训练数据样本的n个属性的取值,以下将这些取值的集合又称为属性值集合。如上所述,属性被划分为n个属性组,因此每个训练数据样本的属性值集合由n个属性值子集组成,每个子集对应于n个属性组中的一个。
如上所述,每个属性组对应于一个子分类器。因此本实施例的方法流程随后进入步骤S140,执行对每个子分类器进行训练的例程。优选地,子分类器S1、S2……Sn被布置成按照下标序号相连的级联结构,对于级联结构的第i个子分类器,它的训练数据样本取自前级子分类器对测试集Ti作分类处理得到的正类数据。由此,当级联结构上的所有子分类器都被遍历后,即完成了整个分类器的训练。
图2为图1所示实施例中的子分类器训练例程的示意图。这里假设将属性被划分为n个属性组A1、A2……An,训练数据样本被划分为(n+1)个测试集T0、T2……Tn,并且与属性组A1、A2……An对应的子分类器被记为S1、S2……Sn
图2所示的例程包括下列过程:
步骤1):首先,利用测试集T0对基于属性组A1的子分类器S1进行训练。即,利用测试集T0中训练数据样本的对应于属性组A1的属性值子集来训练子分类器S1,使得该子分类器能够基于属性组A1对数据进行准确分类。优选地,在本步骤和下面的步骤中,均采用最大召回率算法对子分类器进行训练。
步骤2a):利用在上述步骤1)中经过训练的子分类器S1,基于属性组A1对测试集T1的训练数据样本进行分类。
步骤2b)分离出分类结果中的正类数据P11
步骤2c):利用上述步骤2b)中得到的正类数据P11对基于属性组A2的子分类器S2进行训练,即,利用正类数据P11中每个训练数据样本的对应于属性组A2的属性值子集来训练子分类器S2
步骤3a):利用在上述步骤1)中经过训练的子分类器S1,基于属性组A1对测试集T2进行分类并且分离出分类结果中的正类数据P12,利用在上述步骤2b)中经过训练的子分类器S2,基于属性组A2对测试集T2进行分类并且分离出分类结果中的正类数据P22
步骤3b):取上述步骤3a)中得到的正类数据P12和P22的交集。
步骤3c):利用步骤3b)中得到的正类数据P12和P22的交集对基于属性组A3的子分类器S3进行训练,即,利用交集中的每个训练数据样本的对应于属性组A3的属性值子集来训练子分类器S3
步骤ia):利用在前述步骤中经过训练的子分类器S1~Si-1,分别基于属性组A1~Ai-1对测试集Ti进行分类并且分离出分类结果中的正类数据P1i~Pii
步骤ib):取上述步骤ia)中得到的正类数据P1i~Pii的交集。
步骤ic):利用上述步骤ib)中得到的正类数据P1i~Pii的交集对基于属性组Ai的子分类器Si进行训练,即,利用交集中的每个训练数据样本的对应于属性组Ai的属性值子集来训练子分类器Si
步骤na):利用在前述步骤中经过训练的子分类器S1~Sn-1,分别基于属性组A1~An-1对测试集Tn进行分类并且分离出分类结果中的正类数据P1n~Pnn
步骤nb):取上述步骤na)中得到的正类数据P1n~Pnn的交集。
步骤nb)利用上述步骤nb)中得到的正类数据P1n~Pnn的交集对基于属性组An的子分类器Sn进行训练,即,利用交集中的每个训练数据样本的对应于属性组An的属性值子集来训练子分类器Sn。至此,完成了对全部子分类器S1、S2……Sn的训练。
图3为按照本发明一个实施例的非平衡类数据分类器的示意图。本实施例的非平衡类数据分类器采用上面借助图1和2所述的方法进行训练。
如图3所示,本实施例的非平衡类数据分类器30包括数据接收单元310、子分类器321~32n和决策节点330。
如上所述,待分类数据据由若干数据样本组成,每个数据样本具有多个属性,它们按照与训练分类器时相同的方式被划分为n个属性组A1、A2……An。在本实施例中,子分类器321~32n与这些属性组一一对应,分别用于基于各自对应的属性组对数据进行分类。此外,每个数据样本的属性值集合由多个子集组成,每个子集对应于多个属性组中的一个。
在图3所示的平衡类数据分类器30中,数据接收单元310解析外部输入的待分类数据以得到每个数据样本的属性值集合,并且将全部数据样本的属于同一属性组的属性值子集合并,由此得到n个属性值合并集B1、B2……Bn。这n个属性值合并集被数据接收单元310并行地输出至相应的子分类器321~32n。对于任意一个属性值合并集Bi,对应的子分类器32i将独立地基于对应的属性组Ai对其进行分类。子分类器321~32n执行分类操作的结果被独立地输出至决策节点330。随后,决策节点根据预先设定的规则,由各个子分类器321~32n输出的分类结果得到最终的分类结果。决策节点330采用的预先设定的规则例如可以是将各个子分类器输出的分类结果中的正类数据的交集作为最终的分类结果。
优选地,在图3所示的非平衡类数据分类器,子分类器321~32n和决策节点330在多个物理上独立的计算设备上实现。
图4为按照本发明一个实施例的非平衡类数据分类方法的流程图。假设借助图3所示的非平衡类数据分类器来实施本实施例的方法。
如图4所示,在步骤S410,数据接收单元310从外部接收待分类的数据。随后进入步骤S420,数据接收单元310通过解析待分类数据得到每个数据样本的属性值集合,并且将全部数据样本的对应同一属性组的属性值子集合并以形成n个属性值合并集B1、B2……Bn
接着,在步骤S430,n个属性值合并集B1、B2……Bn被数据接收单元310并行地输出至相应的子分类器321~32n。接着进入步骤S440,各个子分类器独立地执行分类操作并且将操作结果输出至决策节点330,即,每个子分类器基于各自对应的属性组,对输入的属性值合并集进行分类并将分类操作的结果(例如正类数据)输出至决策节点330。
随后在步骤S450,决策节点330判断是否接收到全部子分类器的分类操作结果,如果接收到,则进入步骤S460,否则则继续等待。
在步骤S460,决策节点330根据预先设定的规则,由各个子分类器输出的分类结果得到最终的分类结果。
本发明具有下列优点:
按照本发明实施例的非平衡类数据分类器在训练时采用级联结构将子分类器联接在一起,用于训练每一级子分类器的训练数据样本都源于前级子分类器的分类结果,但是每一级子分类器基于不同的属性组,由此能够最大程度地挖掘训练数据样本中蕴含的信息。另外,随着迭代过程的逐级进行,正类数据的分类精度逐步提高,因此可以通过控制每一级子分类器的正类数据召回率,使非平衡类数据分类器的总召回率保持在一定的水平之上。
此外,按照本发明实施例的非平衡类数据分类器采用分布式架构,将子分类器的操作交由多个节点并行实施,这避免了传统多分类器由于子分类器数目上升而导致分类效率下降的缺点,使得处理大数据量或大吞吐量的分类任务成为可能。
由于可以在不背离本发明基本精神的情况下,以各种形式实施本发明,因此上面描述的具体实施方式仅是说明性的而不是限制性的。本发明的范围由所附权利要求定义,对上面描述方式所作的各种变化或变动都属于所附权利要求的保护范围。

Claims (12)

1.一种训练非平衡类数据分类器的方法,由所述非平衡类数据分类器进行分类的数据具有多个属性,其特征在于,所述方法包含下列步骤:
将所述多个属性划分为多个属性组,每个所述属性组对应一个子分类器,每个所述子分类器适于基于对应的所述属性组对数据进行分类,使得能够根据预先设定的规则,由各个所述子分类器的分类结果得到最终的分类结果;
将训练数据样本划分为多个测试集;以及
对于每个所述属性组,利用不同的所述测试集训练对应的子分类器。
2.如权利要求1所述的方法,其中,将所述多个属性划分为n个属性组并且将训练数据样本划分为(n+1)个测试集,在子分类器的训练步骤中,按照下列方式训练第i个子分类器:
利用前(i-1)个子分类器对第i个测试集的训练数据样本进行分类以得到(i-1)组正类数据;
将所述(i-1)组正类数据的交集作为进一步的训练数据样本来训练第i个子分类器。
3.如权利要求1所述的方法,其中,按照随机方式将训练数据样本划分为多个测试集。
4.如权利要求2所述的方法,其中,利用最大召回率算法来训练第i个子分类器。
5.如权利要求1所述的方法,其中,按照属性之间的相关性将所述多个属性划分为多个属性组,所述相关性较大的属性被划分在不同的属性组内。
6.一种非平衡类数据分类器,其特征在于,包括:
数据接收单元;
多个子分类器,由所述非平衡类数据分类器进行分类的数据具有多个属性,所述多个属性被划分为多个属性组,每个所述属性组对应一个所述子分类器,每个所述子分类器被配置为独立地从所述数据接收单元接收数据并且基于对应的所述属性组对接收的数据进行分类;以及
与所述多个子分类器耦合的决策节点,其配置为根据预先设定的规则,由各个所述子分类器输出的分类结果得到最终的分类结果,
其中,按照下列方式训练所述非平衡类数据分类器:将训练数据样本划分为多个测试集,对于每个所述属性组,利用不同的所述测试集训练对应的子分类器。
7.如权利要求6所述的非平衡类数据分类器,其中,所述多个子分类器和所述决策节点在多个物理上独立的计算设备上实现。
8.如权利要求6所述的非平衡类数据分类器,其中,将所述多个属性划分为n个属性组并且将训练数据样本划分为(n+1)个测试集,按照下列方式训练第i个子分类器:
利用前(i-1)个子分类器对第i个测试集的训练数据样本进行分类以得到(i-1)组正类数据;
将所述(i-1)组正类数据的交集作为进一步的训练数据样本来训练第i个子分类器。
9.如权利要求6所述的非平衡类数据分类器,其中,所述决策节点取各个所述子分类器输出的正类数据的交集作为最终的分类结果。
10.一种非平衡类数据分类的方法,包括下列步骤:
将待分类的数据输入多个子分类器,所述待分类的数据具有多个属性,所述多个属性被划分为多个属性组,每个所述属性组对应一个所述子分类器;
每个所述子分类器独立地基于对应的所述属性组对所述待分类的数据进行分类;以及
根据预先设定的规则,由各个所述子分类器输出的分类结果得到最终的分类结果,
其中,按照下列方式训练所述非平衡类数据分类器:将训练数据样本划分为多个测试集,对于每个所述属性组,利用不同的所述测试集训练对应的子分类器。
11.如权利要求10所述的方法,其中,所述多个子分类器和所述决策节点在多个物理上独立的计算设备上实现。
12.如权利要求10所述的方法,其中,将所述多个属性划分为n个属性组并且将训练数据样本划分为(n+1)个测试集,按照下列方式训练第i个子分类器:
利用前(i-1)个子分类器对第i个测试集的训练数据样本进行分类以得到(i-1)组正类数据;
将所述(i-1)组正类数据的交集作为进一步的训练数据样本来训练第i个子分类器。
CN201410100293.0A 2014-03-18 2014-03-18 非平衡类数据的分类 Pending CN104933053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410100293.0A CN104933053A (zh) 2014-03-18 2014-03-18 非平衡类数据的分类

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410100293.0A CN104933053A (zh) 2014-03-18 2014-03-18 非平衡类数据的分类

Publications (1)

Publication Number Publication Date
CN104933053A true CN104933053A (zh) 2015-09-23

Family

ID=54120221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410100293.0A Pending CN104933053A (zh) 2014-03-18 2014-03-18 非平衡类数据的分类

Country Status (1)

Country Link
CN (1) CN104933053A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320753A (zh) * 2015-09-30 2016-02-10 重庆大学 一种基于层次引力模型的不平衡数据分类方法及其系统
CN105354238A (zh) * 2015-10-10 2016-02-24 成都博元时代软件有限公司 基于分布式的大数据挖掘方法
CN107103171A (zh) * 2016-02-19 2017-08-29 阿里巴巴集团控股有限公司 机器学习模型的建模方法及装置
CN109948732A (zh) * 2019-03-29 2019-06-28 济南大学 基于非平衡学习的异常细胞远处转移分类方法及系统
CN112560900A (zh) * 2020-09-08 2021-03-26 同济大学 一种面向样本不均衡的多疾病分类器设计方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102945280A (zh) * 2012-11-15 2013-02-27 翟云 一种基于非平衡数据分布的多异质基分类器融合分类方法
US20130238622A1 (en) * 2012-03-08 2013-09-12 Chih-Pin TANG User apparatus, system and method for dynamically reclassifying and retrieving target information object

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
US20130238622A1 (en) * 2012-03-08 2013-09-12 Chih-Pin TANG User apparatus, system and method for dynamically reclassifying and retrieving target information object
CN102945280A (zh) * 2012-11-15 2013-02-27 翟云 一种基于非平衡数据分布的多异质基分类器融合分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAIBO HE: "Learning from Imbalanced Data", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
翟云等: "基于新型集成分类器的非平衡数据分类关键问题研究", 《系统工程与电子技术》 *
袁兴梅: "面向不平衡数据的结构化支持向量机集成方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320753A (zh) * 2015-09-30 2016-02-10 重庆大学 一种基于层次引力模型的不平衡数据分类方法及其系统
CN105320753B (zh) * 2015-09-30 2018-07-06 重庆大学 一种基于层次引力模型的不平衡数据分类方法及其系统
CN105354238A (zh) * 2015-10-10 2016-02-24 成都博元时代软件有限公司 基于分布式的大数据挖掘方法
CN107103171A (zh) * 2016-02-19 2017-08-29 阿里巴巴集团控股有限公司 机器学习模型的建模方法及装置
CN107103171B (zh) * 2016-02-19 2020-09-25 阿里巴巴集团控股有限公司 机器学习模型的建模方法及装置
CN109948732A (zh) * 2019-03-29 2019-06-28 济南大学 基于非平衡学习的异常细胞远处转移分类方法及系统
CN112560900A (zh) * 2020-09-08 2021-03-26 同济大学 一种面向样本不均衡的多疾病分类器设计方法
CN112560900B (zh) * 2020-09-08 2023-01-20 同济大学 一种面向样本不均衡的多疾病分类器设计方法

Similar Documents

Publication Publication Date Title
Yin et al. Wasserstein Generative Adversarial Network and Convolutional Neural Network (WG‐CNN) for Bearing Fault Diagnosis
CN104933053A (zh) 非平衡类数据的分类
CN104766098A (zh) 一种分类器的构建方法
CN101604363B (zh) 基于文件指令频度的计算机恶意程序分类系统及分类方法
CN105447525A (zh) 一种数据预测分类方法及装置
CN105760889A (zh) 一种高效的不均衡数据集分类方法
WO2018134248A1 (en) Classifying data
CN105389480A (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN103258210B (zh) 一种基于字典学习的高清图像分类方法
CN104702465B (zh) 一种并行网络流量分类方法
CN109754002A (zh) 一种基于深度学习的隐写分析混合集成方法
CN107368856A (zh) 恶意软件的聚类方法及装置、计算机装置及可读存储介质
CN105827603A (zh) 未明协议特征库建立方法、未明报文分类方法及相关装置
KR20230107558A (ko) 모델 트레이닝, 데이터 증강 방법, 장치, 전자 기기 및 저장 매체
CN108647727A (zh) 不平衡数据分类欠采样方法、装置、设备及介质
CN106251241A (zh) 一种基于特征选择改进的LR‑Bagging算法
CN111160959A (zh) 一种用户点击转化预估方法及装置
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
CN113705099A (zh) 基于对比学习的社交平台谣言检测模型构建方法及检测方法
CN116582300A (zh) 基于机器学习的网络流量分类方法及装置
Zhou et al. Unseen anomaly detection on networks via multi-hypersphere learning
CN108427643A (zh) 基于多种群遗传算法的二进制程序模糊测试方法
CN114722947A (zh) 一种基于近邻搜索分簇的电力调度监控数据异常检测方法
CN106447397A (zh) 基于决策树算法的烟草零售户定价方法
CN112235254B (zh) 一种高速主干网中Tor网桥的快速识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150923