CN108921197A - 一种基于特征选择和集成算法的分类方法 - Google Patents

一种基于特征选择和集成算法的分类方法 Download PDF

Info

Publication number
CN108921197A
CN108921197A CN201810558775.9A CN201810558775A CN108921197A CN 108921197 A CN108921197 A CN 108921197A CN 201810558775 A CN201810558775 A CN 201810558775A CN 108921197 A CN108921197 A CN 108921197A
Authority
CN
China
Prior art keywords
feature
score
classification
learner
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810558775.9A
Other languages
English (en)
Inventor
孙文
司华友
金厅
周佳勇
郑飘飘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201810558775.9A priority Critical patent/CN108921197A/zh
Publication of CN108921197A publication Critical patent/CN108921197A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于特征选择和集成算法的分类方法,其特征在于,包括以下步骤:(1)对于已有的数据集S,采用信息增益率和对称不确定性对数据集S的每个特征计算得分,设置阈值并对特征进行筛选,删除得分小于阈值的特征,形成新的数据集S’;(2)用多个学习器对选择特征后的数据集S’进行学习,调整学习器参数,采用调参后的学习器对未知数据u进行训练,计算未知数据u属于各个类别的概率集合,使用平均法和加权投票法对概率集进行集成计算,从而得到未知数据u应分类的类别。本发明从一定程度上降低了单个分类器造成的误差,提高了分类结果的准确率、召回率以及F1值。

Description

一种基于特征选择和集成算法的分类方法
技术领域
本发明涉及一种改进机器学习分类方法,更具体而言涉及一种基于特征选择和集成算法的改进分类方法。
背景技术
机器学习作为一门多领域的交叉学科,已经被广泛应用在数据挖掘、图像识别和人工智能等多个领域。简单地说,机器学习可以看作是通过定义算法,利用计算机对所提供的数据集进行分析发现规律,其过程主要是对从已知样本提取的特征数据进行训练生成模型,然后使用训练得到的模型对未知数据进行预测。
使用机器学习去预测未知数据主要可以分为两类任务:(1)分类:分类是指最终的结果的值是已知的离散值,对应将数据划分到对应类别的一个过程。其中分类问题又可分为二分类问题和多分类问题。(2)回归:回归主要是指最终的结果是连续值,对应将给定的数据对应到一个具体数值的过程。
特征选择是指在给定的特征数据中寻找有价值的特征来减少处理和分析的输入的一个过程,具体的说特征选择是在原始特征里得到一个子集的过程,是机器学习的一个重要组成部分。有时候对于得到的特征数据,并不确定是否每个特征都是训练模型需要的,或者不确定特征对于训练模型是否有用,或是需要对特征数据进行优化,因此特征的选择会直接影响预测的最终结果。
在使用机器学习算法对数据集执行分类任务时,传统方式是通过对多种算法进行尝试,从中寻找分类效果最好的算法。但是如果仅仅使用一种分类算法会产生一定的误差。集成学习是指通过某种结合策略将多个算法预测的结果进行结合来确定最后的分类的方式。通过将两种或多种算法结合,集成学习往往能够提高泛化能力,从而获得比使用单个学习器更好的效果。
目前的机器学习分类方法,还存在以下不足:
1、对于得到的特征数据,不确定每个特征是否都是训练模型需要的,如果采用得到的全部特征数据,会产生过拟合的情况。
2、在使用机器学习算法对数据执行分类任务时,如果只采用单个分类算法,会产生一定的误差,导致陷入局部最优解。
发明内容
本发明的目的在于针对现有技术中存在的缺陷,提出基于特征选择和集成算法的分类方法。为了达到目的,本发明提供的技术方案为:
本发明涉及的一种基于特征选择和集成算法的分类方法,包括以下步骤:
(1)对于已有的数据集S,采用信息增益率和对称不确定性对数据集S的每个特征计算得分,设置阈值并对特征进行筛选,删除得分小于阈值的特征,形成新的数据集S’;
(2)用多个学习器对选择特征后的数据集S’进行学习,调整学习器参数,采用调参后的学习器对未知数据u进行训练,计算未知数据u属于各个类别的概率集合,使用平均法和加权投票法对概率集进行集成计算,从而得到数据u应分类的类别。
优选地,所述的步骤1包括以下步骤:
(1.1)收集n个特征形成数据集S={(xi,yi)},其中xi为第i条记录的特征集,yi为第i条记录的人工标记分类结果,xi=(xi1,xi2,...,xin),总特征集合为f={f1,f2,...,fn},计算该数据集中各个特征的信息增益率得分Scoregr(fj);
(1.2)针对步骤1.1数据集S,计算各特征的对称不确定性得分Scoresu(fj);
(1.3)计算各个特征的总得分,Score(fj)=Scoregr(fj)+Scoresu(fj);
(1.4)计算每个特征得分在所有特征总得分中的比重,ScoreRadio(fj)=Score(fj)/∑n j=1Score(fj)*100%;
(1.5)设定得分占比阈值M,去除得分占比小于得分占比阈值M的特征,形成新的数据集S’。
优选地,所述的步骤2包括以下步骤:
(2.1)用多个学习器对筛选后的数据集S’进行学习,调整各学习器的参数;
(2.2)学习器的类别集合为{c1,c2,...,ck},学习器的数量为T,用调参后的学习器对未知数据u进行学习,得到每个学习器针对未知数据u属于各类别的概率集{h1 T,h2 T,…,hk T},k表示类别的数量;
(2.3)其中,T1个学习器的性能相近,用hj i(x)表示第i个学习器预测未知数据u类别为cj的概率,用加权平均法得到的未知数据u的类别为cj的概率,计算公式为
(2.4)针对其它性能差异较大的算法,将这些算法与步骤2.3中使用平均法的算法使用加权投票法进行集成,设wavg为步骤2.3中T1个学习器对应的平均权值,wi为剩余学习器中第i个学习器对应的权值,则将加权投票法得到的预测样本类别为cj的概率记为
(2.5)根据步骤2.3和步骤2.4中两个方法得到的概率hj,可以根据其得到预测未知数据u应分类为的类别c,分类结果为
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
(1)本发明通过信息增益率和对称不确定性作为评判标准对各个特征进行评分,最后计算两种方式得出的各个特征的得分占比,以此去除一些关联度较小的特征,能够加快模型训练的过程,简化训练模型,减少过拟合情况的发生并在一定程度上提高算法的准确率。
(2)本发明利用平均法和加权投票法将不同性能的分类算法结合起来,提高了学习器的泛化能力,能够防止单个学习器的造成的误差,降低陷入局部最优解的可能性,提升了分类算法预测结果的准确率、召回率以及F1值。
附图说明
图1是本发明的基于特征选择和集成算法的改进分类方法的流程示意图。
具体实施方式
为进一步了解本发明的内容,结合实施例对本发明作详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
结合附图1所示,本发明涉及的一种基于特征选择和集成算法的分类方法,包括以下步骤:
步骤1.1:收集n个特征形成数据集S={(xi,yi)},其中xi为第i条记录的特征集,yi为第i条记录的人工标记分类结果,xi=(xi1,xi2,...,xin),总特征集合为f={f1,f2,...,fn},计算该数据集中各个特征的信息增益率得分Scoregr(fj),Scoregr(fj)是描述数据无序程度的变量,值越小则越有序,而对于数据集是否有序,可以用“纯度”来衡量,因此一般使用Scoregr(fj)来代表数据集的纯度,信息增益率解决了信息增益属性选择时偏好多属性的缺点,可以用来获得特征对于样本纯度提升大小的影响。
步骤1.2:针对步骤1.1数据集S,计算各特征的对称不确定性得分Scoresu(fj),对称不确定性是对互信息量归一化的方法,消除了随机变量和值的影响,用来衡量特征与样本之间的相关性。
步骤1.3:通过以上两个步骤分别计算出两种方式对特征的评分后,计算每个特征两种方法的得分总和,Score(fj)=Scoregr(fj)+Scoresu(fj);
步骤1.4:然后计算每个特征得分在所有特征总得分中的比重,ScoreRadio(fj)=Score(fj)/∑n j=1Score(fj)*100%。
步骤1.5:设定得分占比阈值M,去除得分占比小于得分占比阈值M的特征,得到特征样本集合N,形成新的数据集合S’。
步骤2.1:用多个学习器对筛选后的数据集S’进行学习,调整各学习器的参数。
步骤2.2:学习器的类别集合为{c1,c2,...,ck},学习器的数量为T,用调参后的学习器对未知数据u进行学习,得到每个学习器针对未知数据u属于各类别的概率集{h1 T,h2 T,…,hk T},k表示类别的数量。
步骤2.3:针对多个性能相近的算法,用hj i(x)表示第i个学习器预测样本x类别为cj的概率,对于步骤2.2中的T个学习器,其中Ti个学习器的性能相近,则用平均法计算得到的未知数据u的类别为cj的概率,计算公式为hj1=∑Ti i=1hj i(x)/T1
步骤2.4:针对其它性能差异较大的算法,将这些算法与步骤2.3中使用平均法的算法使用加权投票法进行集成,设wavg为步骤2.3中T1个学习器对应的平均权值,wi为剩余学习器中第i个学习器对应的权值,则将加权投票法得到的未知数据u的类别为cj的概率为
步骤2.5:根据步骤2.3和步骤2.4中两个方法得到的概率hj,可以根据其得到预测样本应分类为的类别c,分类结果为
以上结合实施例对本发明进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍属于本发明的专利涵盖范围之内。

Claims (3)

1.一种基于特征选择和集成算法的分类方法,其特征在于,包括以下步骤:
(1)对于已有的数据集S,采用信息增益率和对称不确定性对数据集S的每个特征计算得分,设置阈值并对特征进行筛选,删除得分小于阈值的特征,形成新的数据集S’;
(2)用多个学习器对选择特征后的数据集S’进行学习,调整学习器参数,采用调参后的学习器对未知数据u进行训练,计算未知数据u属于各个类别的概率集合,使用平均法和加权投票法对概率集进行集成计算,从而得到数据u应分类的类别。
2.根据权利要求1所述的基于特征选择和集成算法的分类方法,其特征在于,所述的步骤1包括以下步骤:
(1.1)收集n个特征形成数据集S={(xi,yi)},其中xi为第i条记录的特征集,yi为第i条记录的人工标记分类结果,xi=(xi1,xi2,...,xin),总特征集合为f={f1,f2,...,fn},计算该数据集中各个特征的信息增益率得分Scoregr(fj);
(1.2)针对步骤1.1数据集S,计算各特征的对称不确定性得分Scoresu(fj);
(1.3)计算各个特征的总得分,Score(fj)=Scoregr(fj)+Scoresu(fj);
(1.4)计算每个特征得分在所有特征总得分中的比重,
(1.5)设定得分占比阈值M,去除得分占比小于得分占比阈值M的特征,形成新的数据集S’。
3.根据权利要求1所述的基于特征选择和集成算法的分类方法,其特征在于,所述的步骤2包括以下步骤:
(2.1)用多个学习器对筛选后的数据集S’进行学习,调整各学习器的参数;
(2.2)学习器的类别集合为{c1,c2,...,ck},学习器的数量为T,用调参后的学习器对未知数据u进行学习,得到每个学习器针对未知数据u属于各类别的概率集{h1 T,h2 T,…,hk T},k表示类别的数量;
(2.3)其中,T1个学习器的性能相近,用hj i(x)表示第i个学习器预测未知数据u类别为cj的概率,用加权平均法得到的未知数据u的类别为cj的概率,计算公式为
(2.4)针对其它性能差异较大的算法,将这些算法与步骤2.3中使用平均法的算法使用加权投票法进行集成,设wavg为步骤2.3中T1个学习器对应的平均权值,wi为剩余学习器中第i个学习器对应的权值,则将加权投票法得到的预测样本类别为cj的概率记为
(2.5)根据步骤2.3和步骤2.4中两个方法得到的概率hj,可以根据其得到预测未知数据u应分类为的类别c,分类结果为
CN201810558775.9A 2018-06-01 2018-06-01 一种基于特征选择和集成算法的分类方法 Pending CN108921197A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810558775.9A CN108921197A (zh) 2018-06-01 2018-06-01 一种基于特征选择和集成算法的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810558775.9A CN108921197A (zh) 2018-06-01 2018-06-01 一种基于特征选择和集成算法的分类方法

Publications (1)

Publication Number Publication Date
CN108921197A true CN108921197A (zh) 2018-11-30

Family

ID=64418090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810558775.9A Pending CN108921197A (zh) 2018-06-01 2018-06-01 一种基于特征选择和集成算法的分类方法

Country Status (1)

Country Link
CN (1) CN108921197A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741175A (zh) * 2018-12-28 2019-05-10 上海点融信息科技有限责任公司 基于人工智能对分期购车用户的再授信评估方法和设备
CN109934179A (zh) * 2019-03-18 2019-06-25 中南大学 基于自动特征选择和集成学习算法的人体动作识别方法
CN110135469A (zh) * 2019-04-24 2019-08-16 北京航空航天大学 一种改进基于相关性特征选择的特征过滤方法及装置
CN110162961A (zh) * 2019-05-13 2019-08-23 华东师范大学 基于集成学习的群体口令强度评价方法
CN111326260A (zh) * 2020-01-09 2020-06-23 上海中科新生命生物科技有限公司 一种医学分析方法、装置、设备及存储介质
CN111693658A (zh) * 2020-06-11 2020-09-22 上海交通大学 基于多种智能感官数据融合的食品品质鉴定方法
CN112434664A (zh) * 2020-12-11 2021-03-02 宁夏回族自治区自然资源信息中心 一种基于混合型数据集的农用地遥感影像识别方法
EP3787229A1 (de) 2019-09-02 2021-03-03 Siemens Aktiengesellschaft Verfahren und vorrichtung zur automatischen auswahl von analyseketten zur merkmalsextraktion
CN112633373A (zh) * 2020-12-22 2021-04-09 东软睿驰汽车技术(沈阳)有限公司 一种车辆工况预测方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741175A (zh) * 2018-12-28 2019-05-10 上海点融信息科技有限责任公司 基于人工智能对分期购车用户的再授信评估方法和设备
CN109934179A (zh) * 2019-03-18 2019-06-25 中南大学 基于自动特征选择和集成学习算法的人体动作识别方法
CN110135469A (zh) * 2019-04-24 2019-08-16 北京航空航天大学 一种改进基于相关性特征选择的特征过滤方法及装置
CN110162961A (zh) * 2019-05-13 2019-08-23 华东师范大学 基于集成学习的群体口令强度评价方法
EP3787229A1 (de) 2019-09-02 2021-03-03 Siemens Aktiengesellschaft Verfahren und vorrichtung zur automatischen auswahl von analyseketten zur merkmalsextraktion
WO2021043570A1 (de) 2019-09-02 2021-03-11 Siemens Aktiengesellschaft Verfahren und vorrichtung zur automatischen auswahl von analyseketten zur merkmalsextraktion
CN111326260A (zh) * 2020-01-09 2020-06-23 上海中科新生命生物科技有限公司 一种医学分析方法、装置、设备及存储介质
CN111693658A (zh) * 2020-06-11 2020-09-22 上海交通大学 基于多种智能感官数据融合的食品品质鉴定方法
CN112434664A (zh) * 2020-12-11 2021-03-02 宁夏回族自治区自然资源信息中心 一种基于混合型数据集的农用地遥感影像识别方法
CN112434664B (zh) * 2020-12-11 2022-11-11 宁夏回族自治区自然资源信息中心 一种基于混合型数据集的农用地遥感影像识别方法
CN112633373A (zh) * 2020-12-22 2021-04-09 东软睿驰汽车技术(沈阳)有限公司 一种车辆工况预测方法及装置
CN112633373B (zh) * 2020-12-22 2024-08-09 东软睿驰汽车技术(沈阳)有限公司 一种车辆工况预测方法及装置

Similar Documents

Publication Publication Date Title
CN108921197A (zh) 一种基于特征选择和集成算法的分类方法
CN111144496B (zh) 一种基于混合卷积神经网络的垃圾分类方法
CN113705526B (zh) 一种高光谱遥感影像分类方法
CN108491874A (zh) 一种基于生成式对抗网络的图像单分类方法
CN109034205A (zh) 基于直推式半监督深度学习的图像分类方法
CN101814149B (zh) 一种基于在线学习的自适应级联分类器训练方法
CN107644057B (zh) 一种基于迁移学习的绝对不平衡文本分类方法
CN107657279A (zh) 一种基于少量样本的遥感目标检测方法
CN111833322B (zh) 一种基于改进YOLOv3的垃圾多目标检测方法
CN108446214B (zh) 基于dbn的测试用例进化生成方法
Ozkan et al. Classification of pistachio species using improved k-NN classifier
CN103324677B (zh) 一种可分级的快速图像gps位置估计方法
CN108319968A (zh) 一种基于模型融合的果蔬图像分类识别方法及系统
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN105589806A (zh) 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法
Wang et al. Cattle face recognition method based on parameter transfer and deep learning
CN105303195A (zh) 一种词袋图像分类方法
CN103996018A (zh) 基于4dlbp的人脸识别方法
CN104463199A (zh) 基于多特征及分割再校正的矿岩块度分类方法
CN108564111A (zh) 一种基于邻域粗糙集特征选择的图像分类方法
CN108197636A (zh) 一种基于深度多视点特征的稻谷检测和分类方法
CN109086794B (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
CN105740914A (zh) 一种基于近邻多分类器集成的车牌识别方法及系统
CN108846831A (zh) 基于统计特征和图像特征相结合的带钢表面缺陷分类方法
CN111815582B (zh) 改进背景先验和前景先验的二维码区域检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Sun Wen

Inventor after: Si Huayou

Inventor after: Zhang Jilin

Inventor after: Jin Ting

Inventor after: Zhou Jiayong

Inventor after: Zheng Piaopiao

Inventor before: Sun Wen

Inventor before: Si Huayou

Inventor before: Jin Ting

Inventor before: Zhou Jiayong

Inventor before: Zheng Piaopiao

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181130