CN112183608A - 一种基于参考点非支配排序遗传算法的多目标特征选择方法及系统 - Google Patents

一种基于参考点非支配排序遗传算法的多目标特征选择方法及系统 Download PDF

Info

Publication number
CN112183608A
CN112183608A CN202011009918.4A CN202011009918A CN112183608A CN 112183608 A CN112183608 A CN 112183608A CN 202011009918 A CN202011009918 A CN 202011009918A CN 112183608 A CN112183608 A CN 112183608A
Authority
CN
China
Prior art keywords
subset
subsets
feature
quasi
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011009918.4A
Other languages
English (en)
Inventor
何发智
舒凌轩
胡训
李浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202011009918.4A priority Critical patent/CN112183608A/zh
Publication of CN112183608A publication Critical patent/CN112183608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Medical Informatics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于参考点非支配排序遗传算法的多目标特征选择方法及系统,涉及数据挖掘和机器学习领域,该方法是一种基于包装器结构的五个目标优化算法,旨在最大程度地提高分类器的分类精度,最大程度地减少分类特征数量,以及优化三个基于熵的相关性、冗余度和互补性度量。五个目标的优化扩大了搜索空间,从而使该方法能够生成大量的帕累托有效解。该方法在保证分类性能的同时,能够针对不同基数级别识别出所有具有同等信息的特征子集。并搭建了一个计算系统来执行该方法。

Description

一种基于参考点非支配排序遗传算法的多目标特征选择方法 及系统
技术领域
本发明涉及数据挖掘和机器学习技术领域,具体涉及一种基于参考点非支配排序遗传算法的多目标特征选择方法及系统。
背景技术
特征选择,也称特征子集选择,是数字图像处理中数据预处理的重要组成部分。近年来在机器学习和数据挖掘也有着重要的作用。特征选择主要应用于数字图像处理中数据预处理部分,图像中经过特征提取得到的一些特征,例如颜色特征、纹理特征、形状特征或者通过专业知识得到的一些图像特征等等,存在一些冗余的特征,特征选择通过去除这些冗余的特征,降低数据特征的维度,从而降低图像处理后续操作的复杂度、提高系统整体的性能。特征选择在图像处理的诸多领域例如图像识别、图像分类、图像分割等等有着重要的作用。
特征选择的新兴趋势是开发两目标优化算法,这类算法分析了特征数量最小化和分类性能的最大化的折衷,能够得到一组帕累托有效子集,每个子集具有不同的基数和相应的分类性能。近年来这类算法被广泛应用。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
但是,基于特征数量和分类性能的两目标特征选择算法忽略了对于给定的基数可能存在具有相似信息内容的多个子集这一事实,因此导致特征选择效果不佳。
发明内容
本发明引入一种多目标特征选择方法来解决该问题。该方法是一种基于包装器结构的五个目标优化算法,旨在最大程度地提高分类器的分类精度,最大程度地减少分类特征数量,以及优化三个基于熵的相关性、冗余度和互补性度量。五个目标的优化扩大了搜索空间,从而使该方法能够生成大量的帕累托有效解,改善特征选择效果。
为了解决上述技术问题,本发明一方面提供了一种基于参考点非支配排序遗传算法的多目标特征选择方法,包括:
S1:对于输入数据集,采用全局优化算法来寻找一组帕累托子集,其中,一组帕累托子集为特征选择的一组最优解,为一组特征子集,全局优化算法为参考点非支配排序遗传算法,以相关性、互补性、分类精度、冗余度和特征数量为优化目标,使得相关性、互补性和分类精度最大,并使得冗余度和特征数量最小;
S2:计算帕累托子集的最佳分类精度值,并基于最佳精度值和预设参数δ找出δ准等信息子集,根据找出的δ准等信息子集消除劣等子集,得到最终的目标δ准等信息子集,其中,δ准等信息子集用以表示与步骤S1中得到的特征子集的一个分类性能相近的子集,目标δ准等信息子集包含选择出的目标特征。
在一种实施方式中,S1具体包括:
S1.1:将输入数据集分划为训练集和测试集;
S1.2:采用参考点非支配排序遗传算法初始化种群;
S1.3:在算法的每次迭代中计算每个个体的相关性、互补性、分类精度、冗余度和特征数量五个目标值,并利用这些目标值对种群进行更新,其中,每个个体对应一个特征;
S1.4:算法结束迭代后得到一组关于相关性、互补性和分类精度、冗余度和特征数量五个目标值的一组帕累托有效解A,将其作为特征子集。
在一种实施方式中,S2具体包括:
S2.1:计算S1中得到的一组特征子集的最佳分类精度值,最佳分类精度值为分类精度的最大值;
S2.2:根据对分类性能的预期值设定预设参数δ,其中,预设参数δ用以衡量一个子集与S1中得到的特征子集是否具有相近的分类性能;
S2.3:基于最佳分类精度值和预设参数δ判断基准子集是否为步骤S1中的特征子集的δ准等信息子集,判断方法为:如果0<=δ<=1时,f(Si)>=(1-δ)f(Sj),则子集Si与子集Sj具有准同等的信息量,筛选出δ准等信息子集,f表示分类性能指标f,f(Si)表示子集Si的最佳分类精度值,f(Sj)表示子集Sj的最佳分类精度值;
S2.4:如果一个准等信息子集Sk被另一个准等信息子集Sp包含,并且Sk的分类精度值小于Sp,那么Sk被判定为劣等子集,将其消除,得到最终的目标δ准等信息子集。
基于同样的发明构思,本发明第二方面提供了一种基于参考点非支配排序遗传算法的多目标特征选择系统,包括:
特征子集选择模块,用于对于输入数据集,采用全局优化算法来寻找一组帕累托子集,其中,一组帕累托子集为特征选择的一组最优解,为一组特征子集,全局优化算法为参考点非支配排序遗传算法,以相关性、互补性、分类精度、冗余度和特征数量为优化目标,使得相关性、互补性和分类精度最大,并使得冗余度和特征数量最小;
目标特征选择选择模块,用于计算帕累托子集的最佳分类精度值,并基于最佳精度值和预设参数δ找出δ准等信息子集,根据找出的δ准等信息子集消除劣等子集,得到最终的目标δ准等信息子集,其中,δ准等信息子集用以表示与步骤S1中得到的特征子集的一个分类性能相近的子集,目标δ准等信息子集包含选择出的目标特征。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于参考点非支配排序遗传算法的多目标特征选择方法,首先采用参考点非支配排序遗传算法寻找一组帕累托子集,一组帕累托子集为,一组目标函数最优解的集合,即特征选择的一组最优解,也是特征选择的一组结果,对特征的的每子集计算五个目标函数,即相关性、互补性、分类精度、冗余度和特征数量。运用全局优化算法,使得相关性、互补性和分类精度最大,并使得冗余度和特征数量最小,通过相关性、冗余度、和互补性的优化保证了所选的特征子集具有较高的识别能力和特征之间有较低的相似度,而分类精度的优化保证了分类器与数据之间的特定交互作用最大化,然后计算步骤1中得到的帕累托有效子集的最佳精度值,并基于最佳精度值和参数δ的预选值找到δ准等信息子集,消除劣等子集,筛选出最终的目标特征。寻找准等信息子集的目的在于寻找多个合理的特征选择的解(特征子集),将每个δ准等信息子集与步骤1中得到的帕累托有效子集中所有其他子集进行比较,以识别和消除不能提高分类器精度的超集,从而改善了特征选择的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的采用参考点非支配排序遗传算法进行特征子集选择流程图;
图2为参考点非支配排序遗传算法的多目标特征选择系统的结构框图;
图3为本发明提供的计算机可读存储介质的示意图。
图4为本发明提供的计算机设备的示意图。
具体实施方式
本发明,针对现有技术中基于特征数量和分类性能的两目标特征选择算法忽略了对于给定的基数可能存在具有相似信息内容,导致特征选择不佳的技术问题,引入一种多目标特征选择方法。该方法是一种基于包装器结构的五个目标优化算法,旨在最大程度地提高分类器的分类精度,最大程度地减少分类特征数量,以及优化三个基于熵的相关性、冗余度和互补性度量。五个目标的优化扩大了搜索空间,从而使该方法能够生成大量的帕累托有效解,改善了特征选择的效果。
为了达到上述技术效果,本发明的主要发明构思如下:
本发明公开了一种基于参考点非支配排序遗传算法的包装器结构的多目标特征选择算法,涉及机器学习和数据挖掘领域,所述方法包括:该方法由一个包装器(拟均等信息子集选择包装器)构建,该包装器基于五个目标优化问题的制定,该包装器采用参考点非支配排序遗传算法和极限学习机分别作为全局优化和学习算法,以计算时间的边际增长为代价,识别出信息量近似相等的子集,将每个准等信息子集与得到的帕累托有效子集中所有其他子集进行比较,以识别和消除不能提高分类器精度的超集,最终筛选出性能较佳的目标特征。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例一
本发明实施例提供了一种基于参考点非支配排序遗传算法的多目标特征选择方法,包括:
S1:对于输入数据集,采用全局优化算法来寻找一组帕累托子集,其中,一组帕累托子集为特征选择的一组最优解,为一组特征子集,全局优化算法为参考点非支配排序遗传算法,以相关性、互补性、分类精度、冗余度和特征数量为优化目标,使得相关性、互补性和分类精度最大,并使得冗余度和特征数量最小;
S2:计算帕累托子集的最佳分类精度值,并基于最佳精度值和预设参数δ找出δ准等信息子集,根据找出的δ准等信息子集消除劣等子集,得到最终的目标δ准等信息子集,其中,δ准等信息子集用以表示与步骤S1中得到的特征子集的一个分类性能相近的子集,目标δ准等信息子集包含选择出的目标特征。
具体来说,步骤S1使用全局优化算法来寻找一组帕累托子集(一组目标函数最优解的集合,即特征选择的一组最优解,也即特征选择的一组结果)。对特征的的每子集计算五个目标函数,即相关性、互补性、分类精度、冗余度和特征数量。运用全局优化算法,使得相关性、互补性和分类精度最大,并使得冗余度和特征数量最小。相关性、冗余度、和互补性的优化保证了所选的特征子集具有较高的识别能力和特征之间有较低的相似度,而分类精度的优化保证了分类器与数据之间的特定交互作用最大化。
步骤2:计算步骤1中得到的帕累托有效子集的最佳精度值即步骤1中计算的分类最大值,并基于最佳精度值和参数δ(0<=δ<=1,为事先人为设定的值)找到δ准等信息子集,再根据找出的δ准等信息子集消除劣等子集,得到最终的目标δ准等信息子集,从而筛选出目标特征。即可以消除冗余的特征,得到目标特征子集。
本发明将提出的特征选择方法运用于机器学习的图像预处理阶段,以消除数据集冗余的特征,降低后续机器学习过程的整体复杂度,提高整体识别精度。具体的数据集应用有医疗数据集如心脏病数据集。以UCI数据集(加州大学欧文分校提供的机器学习数据集)提供的心脏病数据集为例,该数据集存在75个特征,特征集巨大造成复杂度过大,分类性能也不好,因此必定需要特征选择的方法进行数据降维,消除冗余的特征,得到特征子集。将特征选择后得到的特征子集用于后续的机器学习过程,最终得到的分类结果用于辅助识别病人心脏病有关的健康状态。
在一种实施方式中,S1具体包括:
S1.1:将输入数据集分划为训练集和测试集;
S1.2:采用参考点非支配排序遗传算法初始化种群;
S1.3:在算法的每次迭代中计算每个个体的相关性、互补性、分类精度、冗余度和特征数量五个目标值,并利用这些目标值对种群进行更新,其中,每个个体对应一个特征;
S1.4:算法结束迭代后得到一组关于相关性、互补性和分类精度、冗余度和特征数量五个目标值的一组帕累托有效解A,将其作为特征子集。
具体来说,请参见图1,为采用参考点非支配排序遗传算法进行特征子集选择流程图;以相关性、互补性、分类精度、冗余度和特征数量作为目标函数,具体地,可以采用极限学习法学习各个个体的分类精度,然后通过交叉变异操作生成子代种群,并根据目标函数计算个体适应值,然后合并附带种群和子代种群,再进行快速非支配排序,并计算个体适应值,基于参考点选择较好的个体进入下一代种群。判断是否达到最大迭代次数,如果达到,则得到一组关于相关性、互补性和分类精度、冗余度和特征数量五个目标值的一组帕累托有效解A,否则继续迭代。
在一种实施方式中,S2具体包括:
S2.1:计算S1中得到的一组特征子集的最佳分类精度值,最佳分类精度值为分类精度的最大值;
S2.2:根据对分类性能的预期值设定预设参数δ,其中,预设参数δ用以衡量一个子集与S1中得到的特征子集是否具有相近的分类性能;
S2.3:基于最佳分类精度值和预设参数δ判断基准子集是否为步骤S1中的特征子集的δ准等信息子集,判断方法为:如果0<=δ<=1时,f(Si)>=(1-δ)f(Sj),则子集Si与子集Sj具有准同等的信息量,筛选出δ准等信息子集,f表示分类性能指标f,f(Si)表示子集Si的最佳分类精度值,f(Sj)表示子集Sj的最佳分类精度值;
S2.4:如果一个准等信息子集Sk被另一个准等信息子集Sp包含,并且Sk的分类精度值小于Sp,那么Sk被判定为劣等子集,将其消除,得到最终的目标δ准等信息子集。
具体来说,根据对分类性能的预期值,设定参数δ的值,参数δ用来衡量一个子集与步骤1中得到的帕累托有效子集A是否具有相近的分类性能。
每一个准等信息子集代表了与步骤1中得到的帕累托有效子集的一个分类性能相近的解,对应特征选择的其中一个解,即其中的一个特征子集。寻找准等信息子集的目的在于寻找多个合理的特征选择的解(特征子集),参数δ用来衡量一个子集与步骤1中的帕累托子集是否具有相近的分类性能,对于给定的分类性能指标f和基准子集Si、Sj,如果两个子集在给定的学习算法方面具有几乎相同的性能,则子集Si对Sj具有准同等的信息量,即如果当0<=δ<=1时,f(Si)>=(1-δ)f(Sj),则子集Si与子集Sj具有准同等的信息量。
通过得到的最佳精度值和参数δ的预选值对S1中得到的帕累托有效子集A与每个特征子集进行判断,判断该子集是否为帕累托有效子集的准等信息子集。对于给定的分类性能指标δ,如果不是δ准等信息子集则将该子集消除。找到A的所有准等信息子集后,对于已经找的A的准等信息子集,还需要进行进一步判断,如果一个准等信息子集Sk被另一个准等信息子集Sp包含,并且前者的分类精度值小于后者,即对于给定的分类性能指标f,有f(Sk)<=f(Sp),那么Sk被判定为劣等子集,需要将其消除,因为Sp已经包含了Sk的所有特征,Sk不能提高分类器的精度,需要被清除,从而使得最终筛选出的特征子集有利于提高分类精度。
本发明公开了一种基于参考点非支配排序遗传算法的包装器结构的多目标特征选择算法,涉及机器学习和数据挖掘领域,所述方法包括:该方法由一个包装器(拟均等信息子集选择包装器)构建,该包装器基于五个目标优化问题的制定,该包装器采用参考点非支配排序遗传算法和极限学习机分别作为全局优化和学习算法,以计算时间的边际增长为代价,识别出信息量近似相等的子集,并消除劣等子集,使得最终筛选出的特征可以提高分类的精度。
基于同样的发明构思,本发明还提供了一种与实施例一中基于参考点非支配排序遗传算法的多目标特征选择方法对应的系统,详见实施例二。
实施例二
本实施例提供了一种基于参考点非支配排序遗传算法的多目标特征选择系统,请参见图2,该系统包括:
特征子集选择模块201,用于对于输入数据集,采用全局优化算法来寻找一组帕累托子集,其中,一组帕累托子集为特征选择的一组最优解,为一组特征子集,全局优化算法为参考点非支配排序遗传算法,以相关性、互补性、分类精度、冗余度和特征数量为优化目标,使得相关性、互补性和分类精度最大,并使得冗余度和特征数量最小;
目标特征选择选择模块202,用于计算帕累托子集的最佳分类精度值,并基于最佳精度值和预设参数δ找出δ准等信息子集,根据找出的δ准等信息子集消除劣等子集,得到最终的目标δ准等信息子集,其中,δ准等信息子集用以表示与步骤S1中得到的特征子集的一个分类性能相近的子集,目标δ准等信息子集包含选择出的目标特征。
由于本发明实施例二所介绍的系统,为实施本发明实施例一中基于参考点非支配排序遗传算法的多目标特征选择方法所采用的系统,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。
实施例三
请参见图3,基于同一发明构思,本申请还提供了一种计算机可读存储介质300,其上存储有计算机程序311,该程序被执行时实现如实施例一中所述的方法。
由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于参考点非支配排序遗传算法的多目标特征选择方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
实施例四
基于同一发明构思,本申请还提供了一种计算机设备,请参见图4,包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器402执行上述程序时实现实施例一中的方法。
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于参考点非支配排序遗传算法的多目标特征选择方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种基于参考点非支配排序遗传算法的多目标特征选择方法,其特征在于,包括:
S1:对于输入数据集,采用全局优化算法来寻找一组帕累托子集,其中,一组帕累托子集为特征选择的一组最优解,为一组特征子集,全局优化算法为参考点非支配排序遗传算法,以相关性、互补性、分类精度、冗余度和特征数量为优化目标,使得相关性、互补性和分类精度最大,并使得冗余度和特征数量最小;
S2:计算帕累托子集的最佳分类精度值,并基于最佳精度值和预设参数δ找出δ准等信息子集,根据找出的δ准等信息子集消除劣等子集,得到最终的目标δ准等信息子集,其中,δ准等信息子集用以表示与步骤S1中得到的特征子集的一个分类性能相近的子集,目标δ准等信息子集包含选择出的目标特征。
2.如权利要求1所述的多目标特征选择方法,其特征在于,S1具体包括:
S1.1:将输入数据集分划为训练集和测试集;
S1.2:采用参考点非支配排序遗传算法初始化种群;
S1.3:在算法的每次迭代中计算每个个体的相关性、互补性、分类精度、冗余度和特征数量五个目标值,并利用这些目标值对种群进行更新,其中,每个个体对应一个特征;
S1.4:算法结束迭代后得到一组关于相关性、互补性和分类精度、冗余度和特征数量五个目标值的一组帕累托有效解A,将其作为特征子集。
3.如权利要求1所述的多目标特征选择方法,其特征在于,S2具体包括:
S2.1:计算S1中得到的一组特征子集的最佳分类精度值,最佳分类精度值为分类精度的最大值;
S2.2:根据对分类性能的预期值设定预设参数δ,其中,预设参数δ用以衡量一个子集与S1中得到的特征子集是否具有相近的分类性能;
S2.3:基于最佳分类精度值和预设参数δ判断基准子集是否为步骤S1中的特征子集的δ准等信息子集,判断方法为:如果0<=δ<=1时,f(Si)>=(1-δ)f(Sj),则子集Si与子集Sj具有准同等的信息量,筛选出δ准等信息子集,f表示分类性能指标f,f(Si)表示子集Si的最佳分类精度值,f(Sj)表示子集Sj的最佳分类精度值;
S2.4:如果一个准等信息子集Sk被另一个准等信息子集Sp包含,并且Sk的分类精度值小于Sp,那么Sk被判定为劣等子集,将其消除,得到最终的目标δ准等信息子集。
4.一种基于参考点非支配排序遗传算法的多目标特征选择系统,其特征在于,包括:
特征子集选择模块,用于对于输入数据集,采用全局优化算法来寻找一组帕累托子集,其中,一组帕累托子集为特征选择的一组最优解,为一组特征子集,全局优化算法为参考点非支配排序遗传算法,以相关性、互补性、分类精度、冗余度和特征数量为优化目标,使得相关性、互补性和分类精度最大,并使得冗余度和特征数量最小;
目标特征选择选择模块,用于计算帕累托子集的最佳分类精度值,并基于最佳精度值和预设参数δ找出δ准等信息子集,根据找出的δ准等信息子集消除劣等子集,得到最终的目标δ准等信息子集,其中,δ准等信息子集用以表示与步骤S1中得到的特征子集的一个分类性能相近的子集,目标δ准等信息子集包含选择出的目标特征。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至3中任一项权利要求所述的方法。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3中任一项权利要求所述的方法。
CN202011009918.4A 2020-09-23 2020-09-23 一种基于参考点非支配排序遗传算法的多目标特征选择方法及系统 Pending CN112183608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011009918.4A CN112183608A (zh) 2020-09-23 2020-09-23 一种基于参考点非支配排序遗传算法的多目标特征选择方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011009918.4A CN112183608A (zh) 2020-09-23 2020-09-23 一种基于参考点非支配排序遗传算法的多目标特征选择方法及系统

Publications (1)

Publication Number Publication Date
CN112183608A true CN112183608A (zh) 2021-01-05

Family

ID=73956247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011009918.4A Pending CN112183608A (zh) 2020-09-23 2020-09-23 一种基于参考点非支配排序遗传算法的多目标特征选择方法及系统

Country Status (1)

Country Link
CN (1) CN112183608A (zh)

Similar Documents

Publication Publication Date Title
US11488309B2 (en) Robust machine learning for imperfect labeled image segmentation
CN113673697A (zh) 基于相邻卷积的模型剪枝方法、装置及存储介质
CN111583194B (zh) 基于贝叶斯粗糙集和布谷鸟算法的高维特征选择算法
CN111899882A (zh) 一种预测癌症的方法及系统
CN113657595B (zh) 基于神经网络实时剪枝的神经网络加速器
JP2024524795A (ja) グラフニューラルネットワークに基づく遺伝子表現型予測
CN115393584A (zh) 基于多任务超声甲状腺结节分割与分类模型的建立方法、分割与分类方法和计算机设备
CN107783998A (zh) 一种数据处理的方法以及装置
CN111429481A (zh) 一种基于自适应表达的目标追踪方法、装置及终端
Morovvat et al. An ensemble of filters and wrappers for microarray data classification
CN116959585B (zh) 基于深度学习的全基因组预测方法
CN111242102B (zh) 基于判别性特征导向的高斯混合模型的细粒度图像识别算法
CN109800702B (zh) 指静脉识别的快速比对方法及计算机可读取的存储介质
CN116824138A (zh) 基于点击点影响增强的交互式图像分割方法及设备
CN116843970A (zh) 基于任务特定通道重构网络的细粒度小样本分类方法
CN116150638A (zh) 基于簇置信度的深度聚类集成方法、装置、设备和介质
CN112183608A (zh) 一种基于参考点非支配排序遗传算法的多目标特征选择方法及系统
CN113177608B (zh) 一种针对不完整数据的近邻模型特征选择方法及装置
CN112465054B (zh) 一种基于fcn的多变量时间序列数据分类方法
CN111950615B (zh) 一种基于树种优化算法的网络故障特征选择方法
CN111612082B (zh) 检测时间序列中异常子序列的方法及设备
CN113095328A (zh) 一种基尼指数引导的基于自训练的语义分割方法
CN113837293A (zh) mRNA亚细胞定位模型训练方法、定位方法及可读存储介质
CN111108516B (zh) 使用深度学习算法来评价输入数据
CN113780334A (zh) 基于两阶段混合特征选择的高维数据分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210105