CN108304884A - 一种基于特征逆映射的代价敏感堆叠集成学习框架 - Google Patents
一种基于特征逆映射的代价敏感堆叠集成学习框架 Download PDFInfo
- Publication number
- CN108304884A CN108304884A CN201810154407.8A CN201810154407A CN108304884A CN 108304884 A CN108304884 A CN 108304884A CN 201810154407 A CN201810154407 A CN 201810154407A CN 108304884 A CN108304884 A CN 108304884A
- Authority
- CN
- China
- Prior art keywords
- feature
- inverse mapping
- stacking
- sensitive
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于特征逆映射的代价敏感堆叠集成学习框架来有效解决不平衡分类问题,首先同时使用随机森林,极限森林,梯度树,线性判别分析以及逻辑回归作为基分类器对数据集进行训练;其次,通过堆叠集成学习(Stacking)的方法,将基分类器交叉验证得到的置信度进行堆叠,从而形成新的特征集;接着,对新的特征集进行特征指数变化,并且选择最优的平均对数损失的指数,再对特征进行指数为的特征逆映射。最后,使用代价敏感逻辑回归对逆映射后的特征集进行训练。在测试步骤中,堆叠得到的特征无需进行逆映射的操作。相较于传统的不平衡分类集成方法,本发明首次将代价敏感与堆叠集成相结合,不但有效提升了不平衡分类问题中的泛化性能,更能够使得模型能够取得稳定的分类阈值。
Description
技术领域
本发明涉及模式识别技术领域,尤其涉及针对不平衡分类问题的集成模型。
背景技术
模式识别是研究利用计算机来模仿或实现人类或其它动物的识别能力,以便对研究对象完成自动识别的任务。近年来,模式识别技术已被广泛应用在人工智能、机器学习、计算机工程、机器人学、神经生物学、医学、侦探学以及考古学、地质勘探、宇航科学和武器技术等许多重要领域。近十年来,在模式识别领域中,不平衡问题收到了广泛的关注。因为在现实生活中获取的数据大多数不平衡的,例如医疗数据,门禁数据,邮件数据等等。然而不平衡问题对传统分类器而言是个巨大的挑战。因为基于全局最优的传统方法往往会过于偏重多数类,而忽略了重要的少数类的分类准确率。为了能够解决不平衡问题,相关的方法能够分类数据层面和算法层面两类。其中数据层面包含下采样,上采样和混合采样,而算法层面则包含集成学习,代价敏感学习等。
使用集成学习来解决不平衡问题往往是与数据采样或者代价敏感相结合的。这些基于采样的集成方法以不同的集成、采样的交叉策略又能进一步分为基于不同采样模式的bagging集成,boosting集成以及混合集成的策略。这些方法在集成领域都已经有了不少代表性的算法。集成算法结合代价敏感,一般是基于boosting策略的。其中典型的方法是与Adaboost结合的AdaCost,AdaC系列,CSB和RareBoost等。
然而,基于数据预处理的集成算法并不能很好地弥补多数类的信息缺失,而代价敏感则受到boosting集成框架的限制,难以进一步扩展。一种经典的集成策略叫做堆叠集成(Stacking)在近几年发展迅速,表现抢眼。在深度学习领域有DenseNet,深度堆叠网络(DSN)等。而近期的深度森林,也是基于堆叠的理念而实现的。相比起其他集成策略,堆叠集成的性能更强,而训练时间也更长,并有理论支持其集成结果能够优于最优的基分类器。而本发明的内容则是将堆叠集成运用于不平衡问题的处理,并且在数据和特征层面同时引入代价敏感,使得新构筑的基于特征逆映射的代价敏感堆叠集成学习框架不但能够解决不平衡分类问题,更能使得模型得到更加合理的分类阈值。
发明内容
针对现存的集成算法无法有效解决不平衡问题,本发明通过结合堆叠集成以及代价敏感,提出了一种基于特征逆映射的代价敏感堆叠集成学习框架。该堆叠集成模型有效利用了样本和特征双重层面的代价敏感得到了合理的分类阈值,同时利用stacking集成的特性有效降低了模型的偏差,并且节省了训练的参数选择时间。
本发明解决其技术问题所采用的技术方案:在预处理阶段,后台根据具体问题描述,将采集到的样本转化成可以供该系统处理的向量模型;在训练过程中,首先使用多个基分类器对数据集进行训练;通过堆叠集成学习(Stacking)的方法,将基分类器交叉验证得到的置信度进行堆叠从而形成新的特征集;对新的特征集进行特征逆映射,并得到逆映射后的新特征集;最后,使用代价敏感逻辑回归对逆映射后的特征集进行训练。在测试过程中,将测试数据集输入所得的堆叠模型中,堆叠得到的特征无需进行逆映射的操作。
本发明解决其技术问题所采用的技术方案还可以进一步细化。所述训练步骤的第一阶段,基分类器为随机森林,极限森林,梯度树,线性判别分析以及逻辑回归。基分类器能够有更多的拓展,考虑到问题的解释性以及方法的实现难易程度,本实验中只选择了上述5种作为基分类器,并且将决策树和线性分类器的堆叠也能有效提升分类性能。同时在测试和验证过程中,本发明使用多数类和少数类的平均准确率作为评价指标以客观地体现算法的性能。
本发明有益的效果是:通过设计一个堆叠集成模型,将堆叠集成和代价敏感结合解决不平衡分类问题;充分利用代价敏感的特性得到合理的分类阈值;运用堆叠集成交叉验证的特性缩减了超参数选择的时间复杂度。
附图说明
图1是本发明的算法流程图。
图2是交叉验证堆叠的详细过程图。
具体实施方式
下面结合附图和实例对本发明作进一步介绍:本发明所设计的系统共分四个模块。
第一部分:数据采集
数据采集过程是将现实样本数据化,生成向量表示的数据集便于后续模块进行处理。在该步骤中,将采集到的样本分为训练样本与测试样本。先处理训练样本。一个训练样本生成一个向量其中,i表示该样本是总训练样本的第i个,c表示该样本属于第c个类。向量的每一元素对应样本的一个属性,向量的维度d为样本的属性数。为方便后续计算,将所有训练样本合成一个训练矩阵D,该矩阵中,每一行是一个样本。
第二部分:训练分类模型
在这个模块中,上一模块生成的训练样本矩阵D将被代入发明的核心算法中进行训练。主要步骤如下:
1)分别使用随机森林,极限森林,梯度树,线性判别分析以及逻辑回归作为基分类器对数据集进行训练:随机森林中使用CART树作为子分类器,CART每次叶节点分裂时从d个特征中随机选择k个特征参与Gini指数的判别,k通常为Gini指数的计算如下
其中表示k个特征子空间Fk中第i个特征,v表示特征的取值为v,py表示类别y样本的比例。Gini指数越低,说明该特征有更好的分类性能。而极限森林不同于随机森林的地方是,极限森林在选择最优的叶节点分裂特征的时候是完全随机的,以此来追求更强的多样性。不同于随机森林和极限森林,梯度树是基于boosting策略的决策树集成。在梯度树中,通过CART树残差的梯度拟合来最小化目标函数。线性判别分析通过最大化广义瑞利商
来最大化类间距离,最小化类内距离。其中Sb是类间协方差矩阵,而Sw则为类内协方差矩阵。逻辑回归则是通过最大化对数似然得到
优化算法往往是梯度下降。
2)通过堆叠集成学习(Stacking)的方法,将基分类器交叉验证得到的置信度进行堆叠从而形成新的特征集:在堆叠集成过程中,为了避免类标泄露从而导致的过拟合现象,通常会对训练集进行交叉验证。本实验中使用的是5折交叉验证,具体即为将训练集分为5份,使用4份训练,推断1份的数据作为结果,重复5次最终拼接得到新特征集P。在测试过程中,使用的训练集是整体的训练集D。
从上述的5个基分类器中得到的输出置信度将其作为新的特征进行堆叠。其中,决策树类算法(随机森林,极限森林,梯度树)的置信度计算为
可以直观理解为叶节点中所属类别y′样本比例的均值。而线性分类器(线性判别分析,逻辑回归)的置信度计算为
3)对新的特征集进行特征逆映射,并得到逆映射后的新特征集:假设通过堆叠得到的新特征集为P,通过对P进行指数变化P′=Pk,k∈(0,2),得到最优的平均对数损失
其中xmaj,nmaj表示多数类样本及其数量,xmin,nmin表示少数类样本及其数量。得到最优lossmean的指数记为对特征集P进行如下逆映射
由于在测试阶段不会进行特征逆映射,因此测试集与训练集的差异性能够使得模型能够在训练时学习到更理想的分类阈值。
4)使用代价敏感逻辑回归对逆映射后的特征集进行训练:对特征逆映射得到的特征集进行代价敏感的逻辑回归,其目标函数为
其推导公式包括但不局限于
其中Cmaj和Cmin分别代表多数类和少数类的代价,本发明进行的实验中Cmaj=1
第三部分:测试未知数据
该模块首先将第一模块中随机划分出的另一半样本作为测试样本构成测试样本矩阵,其中训练集和测试需要满足同概率分布的前提。要特别注意的是,测试过程中无需进行特征逆映射,因为正是训练集和测试集特质差异性使其对不同分类阈值足够敏感,从而能够更好地解决不平衡分类问题。
实验设计
1)实验数据集选取:该实验选择了30个KEEL经典不平衡数据集。选取数据集的特征数,规模,不平衡率如下
所有使用的数据集均采用5轮交叉验证进行检验,即将数据集打乱均等分为5份,每次训练使用其中4份进行训练,1份用于测试,并且总共进行5轮。即所有数据都会作为测试集参与测试。
2)对比模型:该发明所提出的系统命名为IMCStacking,仅基于决策树集成和线性分类器的Stacking算法分别为FCStacking和LCStacking,没有特征逆映射的IMCStacking则退化为FLCStacking。另外,还选择了代价敏感逻辑回归(CLR),随机下采样bagging/boosting随机森林(RUSBagging-RF,RUSBoost-RF)以及混合集成EasyEnsemble作为对比。
3)参数选择:IMCStacking的k取值范围为{[0.6,0.7,0.8,0.9],[1.1,1.2,1.3,1.4]}两个集合,由于k能够在训练的时候决定最优,因此复杂度不会随参数增加而增加。随机森林的CART树个数为50,bagging,boosting和EasyEnsemble的集成次数均为10。
4)性能度量方法:实验统一使用多数类和少数类的平均准确率M-ACC作为评价标准。
实验结果
所有模型在各KEEL数据集上的M-ACC结果如下表。表中的最后一行表示所提出的IMCStacking与该算法比较的胜负情况,倒数第二行表示该算法的平均排名,倒数第三行是它们的平均M-ACC,黑色字体表示最优的结果。
Stacking相关算法单轮的训练时间如下(单位:秒)
从第一张表中可以发现本发明IMCStacking能够在大多数数据集中得到最优的结果,性能显然超过了其他的bagging,boosting集成算法。如果移除了特征逆映射,FLCStacking的效果显然要低于IMCStacking,而两者的时间复杂度却在第二张表中相差无几。这证明了特征层面的代价敏感是有效的。此外,单一决策树集成和线性集成的算法效果均不如两者的结合,可以说明决策树和线性分类器的集成能够互补,其多样性是有价值的。
Claims (5)
1.一种基于特征逆映射的代价敏感堆叠集成学习框架,其特征在于:具体步骤是:
1)预处理:将采集的样本集特征转为适于后续处理的数据矩阵;
2)训练第一步:分别使用随机森林,极限森林,梯度树,线性判别分析以及逻辑回归作为基分类器对数据集进行训练,并通过堆叠集成学习(Stacking)的方法,将基分类器交叉验证得到的置信度进行堆叠从而形成新的特征集;
3)训练第二步:对新的特征集进行特征逆映射,并得到逆映射后的新特征集;
4)训练第三步:使用代价敏感逻辑回归对逆映射后的特征集进行训练;
5)测试:将测试数据集输入所得的堆叠模型中,堆叠得到的特征无需进行逆映射的操作。
2.根据权利要求1所述的堆叠集成模型,其特征在于:所述的训练第一步,分别使用随机森林,极限森林,梯度树,线性判别分析以及逻辑回归作为基分类器对数据集进行训练,并且通过堆叠集成学习(Stacking)的方法,将基分类器交叉验证得到的置信度进行堆叠从而形成新的特征集,详细描述如下:在堆叠集成过程中,为了避免类标泄露从而导致的过拟合现象,通常会对训练集进行交叉验证;本实验中使用的是5折交叉验证;从上述的5个基分类器中得到的输出置信度将其作为新的特征进行堆叠;其中,决策树类算法(随机森林,极限森林,梯度树)的置信度计算为
可以直观理解为叶节点中所属类别y′样本比例的均值;而线性分类器(线性判别分析,逻辑回归)的置信度计算为
3.根据权利要求1所述的堆叠集成模型,其特征在于:所述的训练第二步,对新的特征集进行特征逆映射,并得到逆映射后的新特征集,其具体实现为:假设通过堆叠得到的新特征集为P,通过对P进行指数变化P′=Pk,k∈(0,2),得到最优的平均对数损失
其中xmaj,nmaj表示多数类样本及其数量,xmin,nmin表示少数类样本及其数量;得到最优lossmean的指数记为对特征集P进行如下逆映射
4.根据权利要求1所述的堆叠集成模型,其特征在于:所述训练第三步,使用代价敏感逻辑回归对逆映射后的特征集进行训练,其具体操作为:对特征逆映射得到的特征集进行代价敏感的逻辑回归,其目标函数为
其推导公式包括但不局限于
其中Cmaj和Cmin分别代表多数类和少数类的代价,本发明中Cmaj=1,
5.根据权利要求1所述的堆叠集成模型,其特征在于:所述测试阶段,将测试数据集输入所得的堆叠模型中,无需对测试集得到的堆叠特征进行逆映射操作,具体为:训练集和测试需要满足同概率分布的前提;在进行最后的代价敏感逻辑回归的推断之后通过下式进行分类判别:
其中,参数w为代价敏感逻辑回归训练所得的权重,xi为第i个样本经过5个基分类器堆叠后得到的特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810154407.8A CN108304884A (zh) | 2018-02-23 | 2018-02-23 | 一种基于特征逆映射的代价敏感堆叠集成学习框架 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810154407.8A CN108304884A (zh) | 2018-02-23 | 2018-02-23 | 一种基于特征逆映射的代价敏感堆叠集成学习框架 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108304884A true CN108304884A (zh) | 2018-07-20 |
Family
ID=62848673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810154407.8A Pending CN108304884A (zh) | 2018-02-23 | 2018-02-23 | 一种基于特征逆映射的代价敏感堆叠集成学习框架 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304884A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460872A (zh) * | 2018-11-14 | 2019-03-12 | 重庆邮电大学 | 一种面向移动通信用户流失不平衡数据预测方法 |
CN109685104A (zh) * | 2018-11-15 | 2019-04-26 | 同盾控股有限公司 | 一种识别模型的确定方法和装置 |
CN109710890A (zh) * | 2018-12-20 | 2019-05-03 | 四川新网银行股份有限公司 | 基于构建的行为画像模型实时识别虚假材料的方法和系统 |
CN110009030A (zh) * | 2019-03-29 | 2019-07-12 | 华南理工大学 | 基于stacking元学习策略的污水处理故障诊断方法 |
CN110059183A (zh) * | 2019-03-22 | 2019-07-26 | 重庆邮电大学 | 一种基于大数据的汽车行业用户观点情感分类方法 |
CN110084609A (zh) * | 2019-04-23 | 2019-08-02 | 东华大学 | 一种基于表征学习的交易欺诈行为深度检测方法 |
CN110110757A (zh) * | 2019-04-12 | 2019-08-09 | 国电南瑞科技股份有限公司 | 一种基于随机森林模型的输变电可疑数据筛查方法和设备 |
CN110177112A (zh) * | 2019-06-05 | 2019-08-27 | 华东理工大学 | 基于双重子空间采样和置信偏移的网络入侵检测方法 |
CN110363230A (zh) * | 2019-06-27 | 2019-10-22 | 华南理工大学 | 基于加权基分类器的stacking集成污水处理故障诊断方法 |
CN110763660A (zh) * | 2019-10-22 | 2020-02-07 | 华南理工大学 | 基于集成学习的libs定量分析方法 |
CN111695626A (zh) * | 2020-06-10 | 2020-09-22 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN111860658A (zh) * | 2020-07-24 | 2020-10-30 | 华北电力大学(保定) | 一种基于代价敏感和集成学习的变压器故障诊断方法 |
CN112213103A (zh) * | 2019-07-12 | 2021-01-12 | 中车株洲电力机车研究所有限公司 | 轨道交通机车车辆轴承的故障诊断方法、装置、系统及介质 |
CN112382382A (zh) * | 2020-10-23 | 2021-02-19 | 北京科技大学 | 一种代价敏感的集成学习分类方法及系统 |
CN112733913A (zh) * | 2020-12-31 | 2021-04-30 | 浙江禾连网络科技有限公司 | 一种基于成本Adaboost算法的子女协同老年人财产安全检测方法 |
-
2018
- 2018-02-23 CN CN201810154407.8A patent/CN108304884A/zh active Pending
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460872A (zh) * | 2018-11-14 | 2019-03-12 | 重庆邮电大学 | 一种面向移动通信用户流失不平衡数据预测方法 |
CN109685104A (zh) * | 2018-11-15 | 2019-04-26 | 同盾控股有限公司 | 一种识别模型的确定方法和装置 |
CN109710890B (zh) * | 2018-12-20 | 2023-06-09 | 四川新网银行股份有限公司 | 基于构建的行为画像模型实时识别虚假材料的方法和系统 |
CN109710890A (zh) * | 2018-12-20 | 2019-05-03 | 四川新网银行股份有限公司 | 基于构建的行为画像模型实时识别虚假材料的方法和系统 |
CN110059183A (zh) * | 2019-03-22 | 2019-07-26 | 重庆邮电大学 | 一种基于大数据的汽车行业用户观点情感分类方法 |
CN110059183B (zh) * | 2019-03-22 | 2022-08-23 | 重庆邮电大学 | 一种基于大数据的汽车行业用户观点情感分类方法 |
CN110009030A (zh) * | 2019-03-29 | 2019-07-12 | 华南理工大学 | 基于stacking元学习策略的污水处理故障诊断方法 |
CN110009030B (zh) * | 2019-03-29 | 2021-03-30 | 华南理工大学 | 基于stacking元学习策略的污水处理故障诊断方法 |
CN110110757A (zh) * | 2019-04-12 | 2019-08-09 | 国电南瑞科技股份有限公司 | 一种基于随机森林模型的输变电可疑数据筛查方法和设备 |
CN110110757B (zh) * | 2019-04-12 | 2021-02-05 | 国电南瑞科技股份有限公司 | 一种基于随机森林模型的输变电可疑数据筛查方法和设备 |
CN110084609A (zh) * | 2019-04-23 | 2019-08-02 | 东华大学 | 一种基于表征学习的交易欺诈行为深度检测方法 |
CN110084609B (zh) * | 2019-04-23 | 2023-06-02 | 东华大学 | 一种基于表征学习的交易欺诈行为深度检测方法 |
CN110177112A (zh) * | 2019-06-05 | 2019-08-27 | 华东理工大学 | 基于双重子空间采样和置信偏移的网络入侵检测方法 |
CN110177112B (zh) * | 2019-06-05 | 2021-11-30 | 华东理工大学 | 基于双重子空间采样和置信偏移的网络入侵检测方法 |
CN110363230A (zh) * | 2019-06-27 | 2019-10-22 | 华南理工大学 | 基于加权基分类器的stacking集成污水处理故障诊断方法 |
CN110363230B (zh) * | 2019-06-27 | 2021-07-20 | 华南理工大学 | 基于加权基分类器的stacking集成污水处理故障诊断方法 |
CN112213103A (zh) * | 2019-07-12 | 2021-01-12 | 中车株洲电力机车研究所有限公司 | 轨道交通机车车辆轴承的故障诊断方法、装置、系统及介质 |
CN110763660B (zh) * | 2019-10-22 | 2021-07-30 | 中国科学院广州地球化学研究所 | 基于集成学习的libs定量分析方法 |
CN110763660A (zh) * | 2019-10-22 | 2020-02-07 | 华南理工大学 | 基于集成学习的libs定量分析方法 |
CN111695626A (zh) * | 2020-06-10 | 2020-09-22 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN111695626B (zh) * | 2020-06-10 | 2023-10-31 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN111860658A (zh) * | 2020-07-24 | 2020-10-30 | 华北电力大学(保定) | 一种基于代价敏感和集成学习的变压器故障诊断方法 |
CN112382382A (zh) * | 2020-10-23 | 2021-02-19 | 北京科技大学 | 一种代价敏感的集成学习分类方法及系统 |
CN112382382B (zh) * | 2020-10-23 | 2024-04-12 | 北京科技大学 | 一种代价敏感的集成学习分类方法及系统 |
CN112733913A (zh) * | 2020-12-31 | 2021-04-30 | 浙江禾连网络科技有限公司 | 一种基于成本Adaboost算法的子女协同老年人财产安全检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304884A (zh) | 一种基于特征逆映射的代价敏感堆叠集成学习框架 | |
Li et al. | Adaptive multi-objective swarm fusion for imbalanced data classification | |
Cohen et al. | (Machine) learning to do more with less | |
Gupta et al. | Performance analysis of classification tree learning algorithms | |
Muni et al. | Genetic programming for simultaneous feature selection and classifier design | |
CN103927302B (zh) | 一种文本分类方法和系统 | |
CN110472817A (zh) | 一种结合深度神经网络的XGBoost集成信用评价系统及其方法 | |
CN104866578B (zh) | 一种不完整物联网数据混合填充方法 | |
CN109816044A (zh) | 一种基于wgan-gp和过采样的不平衡学习方法 | |
CN106250442A (zh) | 一种网络安全数据的特征选择方法及系统 | |
CN112613536B (zh) | 一种基于smote和深度学习的近红外光谱柴油牌号识别方法 | |
CN107688831A (zh) | 一种基于聚类下采样的不平衡数据分类方法 | |
CN105893876A (zh) | 芯片硬件木马检测方法和系统 | |
CN110266672A (zh) | 基于信息熵和置信度下采样的网络入侵检测方法 | |
Febriantono et al. | Classification of multiclass imbalanced data using cost-sensitive decision tree C5. 0 | |
Shi et al. | An improved mean imputation clustering algorithm for incomplete data | |
Devi et al. | A relative evaluation of the performance of ensemble learning in credit scoring | |
Khalilian et al. | A novel k-means based clustering algorithm for high dimensional data sets | |
CN108062566A (zh) | 一种基于多核潜在特征提取的智能集成软测量方法 | |
Bruzzese et al. | DESPOTA: DEndrogram slicing through a pemutation test approach | |
Liewlom | Class-association-rules pruning by the profitabilityof-interestingness measure: Case study of an imbalanced class ratio in a breast cancer dataset | |
CN110177112A (zh) | 基于双重子空间采样和置信偏移的网络入侵检测方法 | |
Sun et al. | Towards a framework for designing full model selection and optimization systems | |
CN105913085A (zh) | 一种基于张量模式的多源数据分类优化方法及系统 | |
Horzyk | Associative graph data structures with an efficient access via AVB+ trees |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180720 |