CN108764366A - 针对非均衡数据的特征选择和聚类抽样集成二分类方法 - Google Patents
针对非均衡数据的特征选择和聚类抽样集成二分类方法 Download PDFInfo
- Publication number
- CN108764366A CN108764366A CN201810578185.2A CN201810578185A CN108764366A CN 108764366 A CN108764366 A CN 108764366A CN 201810578185 A CN201810578185 A CN 201810578185A CN 108764366 A CN108764366 A CN 108764366A
- Authority
- CN
- China
- Prior art keywords
- cluster
- data
- sample
- feature
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Abstract
本发明提供的针对非均衡数据的特征选择和聚类抽样集成二分类方法,步骤包括:将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除,得到训练集D;基于改进的RELIEF‑F方法实现特征选择,得到特征权重集合W={w(1),...,w(j),...,w(J)};对训练集D中的数据进行聚类,将训练集D分成K个簇;构建均衡的训练数据集,得到K个均衡的子训练集D1,...,DK;对D1,...,DK分别训练K个基分类器,完成训练过程;在新数据到来后,分别通过K个训练好的基分类器得到识别结果,再通过投票法,用少数服从多数的原则,来确定测试样本的类别。该针对非均衡数据的特征选择和聚类抽样集成二分类方法可以有效地提升非均衡数据集的分类准确性。
Description
技术领域
本发明属于非均衡数据分类技术领域,尤其是一种针对非均衡数据的特征选择和聚类抽样集成二分类方法。
背景技术
分类问题作为机器学习领域重要的研究课题之一而受到广泛的关注,传统的分类方法都是用来处理均衡数据的分类问题,然而在实际生活中,数据往往是非均衡的,例如医学诊断、文本分类、网络入侵、故障检测等等。当传统方法用来处理非均衡数据时,数据的非均衡分布特性不符合传统方法的要求并且会影响方法的泛化能力,因此,对非均衡数据分类研究已成为数据挖掘领域的热点和难点问题。
目前,对于非均衡数据分类的研究大致可分为两个层面:数据层面和方法层面。数据层面的方法主要是通过改变非均衡数据的分布,使之变成均衡分布,常用的方法包括少数类的过采样方法、多数类的欠采样以及过采样和欠采样的集合方法等等。方法层面的方法主要通过对传统方法的改进,使其能够适用于非均衡数据,常用的方法包括代价敏感学习方法、单类学习方法、集成方法以及特征选择方法等。
现有的基于聚类抽样的集成方法中,通常先经过K-Means方法先对训练数据进行聚类,然后按照一定的规则从各个数据簇中抽取相同数量的多数类和少数类样本,共同组成均衡的子训练集用于训练弱分类器,最终构成一个强分类器。但是现有的集成方法并没有考虑数据的各个特征属性权重对聚类方法的影响以及样本选取对属性权重的影响,因而导致非均衡数据的分类效果不是很理想。
发明内容
本发明要解决的技术问题是现有的集成方法并没有考虑数据的各个特征属性权重对聚类方法的影响以及样本选取对属性权重的影响,导致非均衡数据的分类效果不是很理想。
为了解决上述技术问题,本发明提供了一种针对非均衡数据的特征选择和聚类抽样集成二分类方法,包括如下步骤:
步骤1,将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除,得到训练集D;
步骤2,基于改进的RELIEF-F方法实现特征选择,得到特征权重集合W={w(1),...,w(j),...,w(J)};
步骤3,对训练集D中的数据进行聚类,从而将训练集D分成K个簇;
步骤4,构建均衡的训练数据集,得到K个均衡的子训练集D1,...,DK;
步骤5,对D1,...,DK分别训练K个基分类器,完成训练过程;
步骤6,在新数据到来后,分别通过K个训练好的基分类器得到识别结果,再通过投票法,用少数服从多数的原则,来确定测试样本的类别。
进一步地,步骤2中,得到特征权重集合W={w(1),...,w(j),...,w(J)}的具体步骤为:
步骤2.1,初始化特征权重,随机选择训练集D中的一个样本xi,分别选取该样本的V个最近邻同类样本和异类样本,按照下式计算特征权重:
式中,w(j)表示第j个特征的权重,xi(j)表示样本i第j维特征的数值,d(xi(j),NMi(j))表示两个样本关于j维特征的距离,M表示样本随机抽取的次数,k是预先给定的近邻数,class(xi(j))表示样本xi的类别,c表示类别,p(c)表示类别c的先验概率;
步骤2.2,重复步骤2.1,遍历子训练集D中的所有样本,更新特征权重,从而得到特征权重集合W={w(1),...,w(j),...,w(J)}。
进一步地,步骤3中,将训练集D分成K个簇的具体步骤为:
步骤3.1,将训练集D作为一个簇,使用二分K均值方法将该簇一分为二,然后根据下式计算误差平方和E:
上式中,E是数据库中样本的平方误差的总和,cluk表示簇k,xi是数据样本,xi∈cluk表示xi在簇k中,ek是簇k的中心,dist(.)为基于欧式距离和特征权重的相似度,其定义为:
其中,w(j)为步骤2得到的第j个特征的权重,ek(j)表示簇k中心的第j维特征的数值;
步骤3.2,分别计算两个簇的总误差平方和E,对总误差平方和E较小的那个簇进行划分,以此类推,直到簇的个数达到K,从而将训练集D分成K个簇。
进一步地,步骤4中,得到K个均衡的子训练集D1,...,DK的具体步骤为:
步骤4.1,从训练数据集D中选取全部的少数类样本;
步骤4.2,依次计算各个簇中多数类样本与少数类样本的比值,用Pk表示第k个簇中多数类与少数类样本数量的比值,对于每个簇,按照下式计算各个簇中抽取的多数类样本的数量,
式中,Sk表示第k个簇中应该抽取的多数类样本的数量,S表示数据集D中的全部多数类样本数量;
步骤4.3,从当前簇k中所抽出相应数量的多数类样本与全部的少数类样本构成均衡的训练数据集Dk;
步骤4.4,重复步骤4.3对簇进行遍历,从而构成K个均衡的子训练集D1,...,DK。
进一步地,步骤5中,基分类器为朴素贝叶斯、支持向量机或随机森林。
本发明的有益效果在于:
(1)本发明很好地解决了RELIEF-F方法偏向多数类样本的问题,不仅可以保证数据的多样性、均衡性以及完整性,还能更加充分体现少数类样本的特性。
(2)本发明将数据的特征权重和聚类方法相结合,在计算样本相似度的时候考虑特征属性的权重,使得聚类的样本簇更加合理。
(3)本发明提出的基于特征选择和聚类抽样的集成方法,通过基于聚类抽样的方法按照一定的比例从各个簇中抽取多数类样本来改进训练数据集的非均衡性,使得训练数据集基本保持均衡。
附图说明
图1为本发明的基于特征选择和聚类抽样的集成方法的流程图。
图2为三种不同的基分类器在数据集上的AUC值对比。
具体实施方式
如图1所示,本发明公开的针对非均衡数据的特征选择和聚类抽样集成二分类方法,包括如下步骤:
步骤1,将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除,得到训练集D;
步骤2,基于改进的RELIEF-F方法实现特征选择,得到特征权重集合W={w(1),...,w(j),...,w(J)},具体步骤为:
步骤2.1,初始化特征权重,随机选择训练集D中的一个样本,分别选取该样本的V个最近邻同类样本和异类样本,按照下式计算特征权重:
式中,w(j)表示第j个特征的权重,xi(j)表示样本第j维特征的数值,d(xi(j),NMi(j))表示两个样本关于j维特征的距离,M表示样本随机抽取的次数,k是预先给定的近邻数,class(xi(j))表示样本xi的类别,c表示类别,p(c)表示类别c的先验概率,这里取0.5;
步骤2.2,重复步骤2.1,遍历子训练集D中的所有样本,更新特征权重,从而得到特征权重集合W={w(1),...,w(j),...,w(J)};
步骤3,对训练集D中的数据进行聚类,从而将训练集D分成K个簇,具体步骤为:
步骤3.1,将训练集D作为一个簇,使用二分K均值方法将该簇一分为二,然后根据下式计算误差平方和E:
上式中,E是数据库中样本的平方误差的总和,cluk表示簇k,xi是数据样本,xi∈cluk表示xi在簇k中,ek是簇k的中心,dist(.)为基于欧式距离和特征权重的相似度,其定义为:
其中,w(j)为步骤2得到的第j个特征的权重,ek(j)表示簇k中心的第j维特征的数值;
步骤3.2,分别计算两个簇的总误差平方和E,对总误差平方和E较小的那个簇进行划分,以此类推,直到簇的个数达到K,从而将训练集D分成K个簇;
步骤4,构建均衡的训练数据集,得到K个均衡的子训练集D1,...,DK,具体步骤为:
步骤4.1,从训练数据集D中选取全部的少数类样本;
步骤4.2,依次计算各个簇中多数类样本与少数类样本的比值,用Pk表示第k个簇中多数类与少数类样本数量的比值,对于每个簇,按照下式计算各个簇中抽取的多数类样本的数量,
式中,Sk表示第k个簇中应该抽取的多数类样本的数量,S表示数据集D中的全部多数类样本数量;
步骤4.3,从当前簇k中所抽出相应数量的多数类样本与全部的少数类样本构成均衡的训练数据集Dk;
步骤4.4,重复步骤4.3对簇进行遍历,从而构成K个均衡的子训练集D1,...,DK;
步骤5,对D1,...,DK分别训练K个基分类器,完成训练过程,基分类器为朴素贝叶斯、支持向量机或随机森林;
步骤6,在新数据到来后,分别通过K个训练好的基分类器得到识别结果,再通过投票法,用少数服从多数的原则,来确定测试样本的类别。
实验例:
将采用本发明所提出的针对非均衡数据的特征选择和聚类抽样集成二分类方法与传统的SMOTE方法进行对比,在本实验中,设定Relief‐F方法中近邻的个数为3,即k=3,同时基分类器的个数为各训练集中多数类样本与少数类样本的数量之比,基分类器分别为朴素贝叶斯、SVM和随机森林,数据依然为来自KEEL数据中心的15个实验标准数据集,实验采用5折交叉检验,本实验使用AUC值作为评价指标。
表1
表1为基分类器是朴素贝叶斯时传统方法和本发明方法在各个数据集上的AUC值比较。在15个标准数据集中,有13个数据集上表现良好,其中在数据集glass06vs5上,方法的表现最好,改进前与改进后方法的AUC值都为1。在数据集ecolio146vs5上,方法改进后比改进前的性能提升最大,改进前的AUC值为0.4902,改进后的AUC值为0.7402,提升了0.25。但是改进后的方法在数据集ecoli3和ecoli0346vs5上表现不好,性能出现了稍微的下降。方法在所有数据集的结果表明,改进后的方法的性能优于改进前的方法,AUC值平均提高了约9.47%。
表2
表2为基分类器是支持向量机(SVM)时传统方法和本发明方法在各个数据集上的AUC值比较。从图中可以看出,以SVM为基分类器的方法在各个数据集上表现良好,其中在数据集glass06vs5上方法的表现最好。在数据集YEAST1289VS7上,方法改进后比改进前的性能提升最大,改进前的AUC值为0.5409,改进后的AUC值为0.6557,提升了0.1148。但是改进后的方法在3个数据集上表现不好,性能出现了稍微的下降。
表3
表3为基分类器是随机森林时传统方法和本发明方法在各个数据集上的AUC值比较。从上图可以看出,以随机森林为基分类器的方法的实验对比结果,其中在数据集glass06vs5上改进后的方法表现最佳,在11个数据集上改进后的方法性能有了明显的提升。从AUC均值来看,从改进前的0.8063提升到0.8279,提升了2.68%。
以上分别以朴素贝叶斯、SVM和随机森林为基分类器进行了实验,而后使用三个不同的基分类器进行对比实验,对比结果如图2所示,从图中可以清楚的看出,基于特征选择和聚类抽样的集成算法在数据集上ecoli046vs5和glass06vs5上表现都很好,对于数据集ecoli01vs5、ecoli3、pageblock13vs4、yeast1vs7、YEAST2VS8来说,以随机森林为基分类器的改进算法的性能明显优于其他两种基分类器,而在数据集ecolio146vs5、ecolio234vs5和YEAST1289VS7上,以SVM为基分类器的算法的性能较好。
Claims (5)
1.针对非均衡数据的特征选择和聚类抽样集成二分类方法,其特征在于,包括如下步骤:
步骤1,将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除,得到训练集D;
步骤2,基于改进的RELIEF-F方法实现特征选择,得到特征权重集合W={w(1),...,w(j),...,w(J)};
步骤3,对训练集D中的数据进行聚类,从而将训练集D分成K个簇;
步骤4,构建均衡的训练数据集,得到K个均衡的子训练集D1,...,DK;
步骤5,对D1,...,DK分别训练K个基分类器,完成训练过程;
步骤6,在新数据到来后,分别通过K个训练好的基分类器得到识别结果,再通过投票法,用少数服从多数的原则,来确定测试样本的类别。
2.根据权利要求1所述的针对非均衡数据的特征选择和聚类抽样集成二分类方法,其特征在于,步骤2中,得到特征权重集合W={w(1),...,w(j),...,w(J)}的具体步骤为:
步骤2.1,初始化特征权重,随机选择训练集D中的一个样本,分别选取该样本的V个最近邻同类样本和异类样本,按照下式计算特征权重:
式中,w(j)表示第j个特征的权重,xi(j)表示样本第j维特征的数值,d(xi(j),NMi(j))表示两个样本关于j维特征的距离,M表示样本随机抽取的次数,k是预先给定的近邻数,class(xi(j))表示样本xi的类别,c表示类别,p(c)表示类别c的先验概率;
步骤2.2,重复步骤2.1,遍历子训练集D中的所有样本,更新特征权重,从而得到特征权重集合W={w(1),...,w(j),...,w(J)}。
3.根据权利要求1所述的针对非均衡数据的特征选择和聚类抽样集成二分类方法,其特征在于,步骤3中,将训练集D分成K个簇的具体步骤为:
步骤3.1,将训练集D作为一个簇,使用二分K均值方法将该簇一分为二,然后根据下式计算误差平方和E:
上式中,E是数据库中样本的平方误差的总和,cluk表示簇k,xi是数据样本,xi∈cluk表示xi在簇k中,ek是簇k的中心,dist(.)为基于欧式距离和特征权重的相似度,其定义为:
其中,w(j)为步骤2得到的第j个特征的权重,ek(j)表示簇k中心的第j维特征的数值;
步骤3.2,分别计算两个簇的总误差平方和E,对总误差平方和E较小的那个簇进行划分,以此类推,直到簇的个数达到K,从而将训练集D分成K个簇。
4.根据权利要求1所述的针对非均衡数据的特征选择和聚类抽样集成二分类方法,其特征在于,步骤4中,得到K个均衡的子训练集D1,...,DK的具体步骤为:
步骤4.1,从训练数据集D中选取全部的少数类样本;
步骤4.2,依次计算各个簇中多数类样本与少数类样本的比值,用Pk表示第k个簇中多数类与少数类样本数量的比值,对于每个簇,按照下式计算各个簇中抽取的多数类样本的数量,
式中,Sk表示第k个簇中应该抽取的多数类样本的数量,S表示数据集D中的全部多数类样本数量;
步骤4.3,从当前簇k中所抽出相应数量的多数类样本与全部的少数类样本构成均衡的训练数据集Dk;
步骤4.4,重复步骤4.3对簇进行遍历,从而构成K个均衡的子训练集D1,...,DK。
5.根据权利要求1所述的针对非均衡数据的特征选择和聚类抽样集成二分类方法,其特征在于,步骤5中,基分类器为朴素贝叶斯、支持向量机或随机森林。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810578185.2A CN108764366A (zh) | 2018-06-07 | 2018-06-07 | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810578185.2A CN108764366A (zh) | 2018-06-07 | 2018-06-07 | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108764366A true CN108764366A (zh) | 2018-11-06 |
Family
ID=64000293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810578185.2A Pending CN108764366A (zh) | 2018-06-07 | 2018-06-07 | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108764366A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615075A (zh) * | 2018-12-14 | 2019-04-12 | 大连海事大学 | 一种基于多层聚类模型的居民日常行为识别方法 |
CN109783586A (zh) * | 2019-01-21 | 2019-05-21 | 福州大学 | 基于聚类重采样的水军评论检测系统及方法 |
CN109934281A (zh) * | 2019-03-08 | 2019-06-25 | 电子科技大学 | 一种二分类网络的非监督训练方法 |
CN110139315A (zh) * | 2019-04-26 | 2019-08-16 | 东南大学 | 一种基于自我学习的无线网络故障检测方法 |
CN110200626A (zh) * | 2019-06-14 | 2019-09-06 | 重庆大学 | 一种基于投票分类器的视觉诱导晕动症检测方法 |
CN111062806A (zh) * | 2019-12-13 | 2020-04-24 | 合肥工业大学 | 个人金融信用风险评价方法、系统和存储介质 |
CN111343165A (zh) * | 2020-02-16 | 2020-06-26 | 重庆邮电大学 | 基于birch和smote的网络入侵检测方法及系统 |
CN111782512A (zh) * | 2020-06-23 | 2020-10-16 | 北京高质系统科技有限公司 | 基于不平衡噪声集的多特征软件缺陷综合预测方法 |
WO2020220220A1 (zh) * | 2019-04-29 | 2020-11-05 | 西门子(中国)有限公司 | 分类模型训练方法、装置和计算机可读介质 |
WO2021135271A1 (zh) * | 2019-12-30 | 2021-07-08 | 山东英信计算机技术有限公司 | 一种分类模型训练方法、系统、电子设备及存储介质 |
CN114706751A (zh) * | 2022-03-09 | 2022-07-05 | 南京理工大学紫金学院 | 一种基于改进smote的软件缺陷预测方法 |
CN115879587A (zh) * | 2022-01-11 | 2023-03-31 | 北京中关村科金技术有限公司 | 样本不均衡条件下的投诉预测方法、装置及存储介质 |
CN115965245A (zh) * | 2023-03-13 | 2023-04-14 | 华东交通大学 | 一种基于机器学习的山地果园冻害风险预测方法 |
-
2018
- 2018-06-07 CN CN201810578185.2A patent/CN108764366A/zh active Pending
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615075A (zh) * | 2018-12-14 | 2019-04-12 | 大连海事大学 | 一种基于多层聚类模型的居民日常行为识别方法 |
CN109615075B (zh) * | 2018-12-14 | 2022-08-19 | 大连海事大学 | 一种基于多层聚类模型的居民日常行为识别方法 |
CN109783586A (zh) * | 2019-01-21 | 2019-05-21 | 福州大学 | 基于聚类重采样的水军评论检测系统及方法 |
CN109783586B (zh) * | 2019-01-21 | 2022-10-21 | 福州大学 | 基于聚类重采样的水军评论检测方法 |
CN109934281A (zh) * | 2019-03-08 | 2019-06-25 | 电子科技大学 | 一种二分类网络的非监督训练方法 |
CN110139315B (zh) * | 2019-04-26 | 2021-09-28 | 东南大学 | 一种基于自我学习的无线网络故障检测方法 |
CN110139315A (zh) * | 2019-04-26 | 2019-08-16 | 东南大学 | 一种基于自我学习的无线网络故障检测方法 |
WO2020220220A1 (zh) * | 2019-04-29 | 2020-11-05 | 西门子(中国)有限公司 | 分类模型训练方法、装置和计算机可读介质 |
CN110200626A (zh) * | 2019-06-14 | 2019-09-06 | 重庆大学 | 一种基于投票分类器的视觉诱导晕动症检测方法 |
CN111062806A (zh) * | 2019-12-13 | 2020-04-24 | 合肥工业大学 | 个人金融信用风险评价方法、系统和存储介质 |
CN111062806B (zh) * | 2019-12-13 | 2022-05-10 | 合肥工业大学 | 个人金融信用风险评价方法、系统和存储介质 |
WO2021135271A1 (zh) * | 2019-12-30 | 2021-07-08 | 山东英信计算机技术有限公司 | 一种分类模型训练方法、系统、电子设备及存储介质 |
US11762949B2 (en) | 2019-12-30 | 2023-09-19 | Shandong Yingxin Computer Technologies Co., Ltd. | Classification model training method, system, electronic device and strorage medium |
CN111343165A (zh) * | 2020-02-16 | 2020-06-26 | 重庆邮电大学 | 基于birch和smote的网络入侵检测方法及系统 |
CN111782512B (zh) * | 2020-06-23 | 2021-07-09 | 北京高质系统科技有限公司 | 基于不平衡噪声集的多特征软件缺陷综合预测方法 |
CN111782512A (zh) * | 2020-06-23 | 2020-10-16 | 北京高质系统科技有限公司 | 基于不平衡噪声集的多特征软件缺陷综合预测方法 |
CN115879587A (zh) * | 2022-01-11 | 2023-03-31 | 北京中关村科金技术有限公司 | 样本不均衡条件下的投诉预测方法、装置及存储介质 |
CN115879587B (zh) * | 2022-01-11 | 2024-01-26 | 北京中关村科金技术有限公司 | 样本不均衡条件下的投诉预测方法、装置及存储介质 |
CN114706751A (zh) * | 2022-03-09 | 2022-07-05 | 南京理工大学紫金学院 | 一种基于改进smote的软件缺陷预测方法 |
CN114706751B (zh) * | 2022-03-09 | 2023-09-15 | 南京理工大学紫金学院 | 一种基于改进smote的软件缺陷预测方法 |
CN115965245A (zh) * | 2023-03-13 | 2023-04-14 | 华东交通大学 | 一种基于机器学习的山地果园冻害风险预测方法 |
CN115965245B (zh) * | 2023-03-13 | 2023-05-30 | 华东交通大学 | 一种基于机器学习的山地果园冻害风险预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764366A (zh) | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 | |
CN110443281B (zh) | 基于hdbscan聚类的文本分类自适应过采样方法 | |
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN102117413B (zh) | 基于多层特征的不良图像自动过滤方法 | |
CN107563435A (zh) | 基于svm的高维不平衡数据分类方法 | |
CN105760888B (zh) | 一种基于属性聚类的邻域粗糙集集成学习方法 | |
CN105975518B (zh) | 基于信息熵的期望交叉熵特征选择文本分类系统及方法 | |
CN108460421A (zh) | 不平衡数据的分类方法 | |
CN108363810A (zh) | 一种文本分类方法及装置 | |
CN105574547B (zh) | 适应动态调整基分类器权重的集成学习方法及装置 | |
CN108491864B (zh) | 基于自动确定卷积核大小卷积神经网络的高光谱图像分类 | |
CN109409400A (zh) | 基于k近邻和多类合并密度峰值聚类方法、图像分割系统 | |
CN107391772A (zh) | 一种基于朴素贝叶斯的文本分类方法 | |
CN106056130A (zh) | 针对不平衡数据集的组合降采样线性判别分类方法 | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
CN112633337A (zh) | 一种基于聚类和边界点的不平衡数据处理方法 | |
CN110533116A (zh) | 基于欧式距离的自适应集成的不平衡数据分类方法 | |
CN115048988A (zh) | 基于高斯混合模型的不平衡数据集分类融合方法 | |
CN109271427A (zh) | 一种基于近邻密度和流形距离的聚类方法 | |
CN106548041A (zh) | 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法 | |
CN105608443B (zh) | 一种多特征描述及局部决策加权的人脸识别方法 | |
CN109886284A (zh) | 基于层次化聚类的欺诈检测方法及系统 | |
Wang et al. | An improving majority weighted minority oversampling technique for imbalanced classification problem | |
CN106202388B (zh) | 一种用户等级自动划分方法及系统 | |
CN110414587A (zh) | 基于渐进学习的深度卷积神经网络训练方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181106 |