CN112183608A

CN112183608A - 一种基于参考点非支配排序遗传算法的多目标特征选择方法及系统

Info

Publication number: CN112183608A
Application number: CN202011009918.4A
Authority: CN
Inventors: 何发智; 舒凌轩; 胡训; 李浩然
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-01-05

Abstract

本发明公开了一种基于参考点非支配排序遗传算法的多目标特征选择方法及系统，涉及数据挖掘和机器学习领域，该方法是一种基于包装器结构的五个目标优化算法，旨在最大程度地提高分类器的分类精度，最大程度地减少分类特征数量，以及优化三个基于熵的相关性、冗余度和互补性度量。五个目标的优化扩大了搜索空间，从而使该方法能够生成大量的帕累托有效解。该方法在保证分类性能的同时，能够针对不同基数级别识别出所有具有同等信息的特征子集。并搭建了一个计算系统来执行该方法。

Description

一种基于参考点非支配排序遗传算法的多目标特征选择方法及系统

技术领域

本发明涉及数据挖掘和机器学习技术领域，具体涉及一种基于参考点非支配排序遗传算法的多目标特征选择方法及系统。

背景技术

特征选择，也称特征子集选择，是数字图像处理中数据预处理的重要组成部分。近年来在机器学习和数据挖掘也有着重要的作用。特征选择主要应用于数字图像处理中数据预处理部分，图像中经过特征提取得到的一些特征，例如颜色特征、纹理特征、形状特征或者通过专业知识得到的一些图像特征等等，存在一些冗余的特征，特征选择通过去除这些冗余的特征，降低数据特征的维度，从而降低图像处理后续操作的复杂度、提高系统整体的性能。特征选择在图像处理的诸多领域例如图像识别、图像分类、图像分割等等有着重要的作用。

特征选择的新兴趋势是开发两目标优化算法，这类算法分析了特征数量最小化和分类性能的最大化的折衷，能够得到一组帕累托有效子集，每个子集具有不同的基数和相应的分类性能。近年来这类算法被广泛应用。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

但是，基于特征数量和分类性能的两目标特征选择算法忽略了对于给定的基数可能存在具有相似信息内容的多个子集这一事实，因此导致特征选择效果不佳。

发明内容

本发明引入一种多目标特征选择方法来解决该问题。该方法是一种基于包装器结构的五个目标优化算法，旨在最大程度地提高分类器的分类精度，最大程度地减少分类特征数量，以及优化三个基于熵的相关性、冗余度和互补性度量。五个目标的优化扩大了搜索空间，从而使该方法能够生成大量的帕累托有效解，改善特征选择效果。

为了解决上述技术问题，本发明一方面提供了一种基于参考点非支配排序遗传算法的多目标特征选择方法，包括：

S1：对于输入数据集，采用全局优化算法来寻找一组帕累托子集，其中，一组帕累托子集为特征选择的一组最优解，为一组特征子集，全局优化算法为参考点非支配排序遗传算法，以相关性、互补性、分类精度、冗余度和特征数量为优化目标，使得相关性、互补性和分类精度最大，并使得冗余度和特征数量最小；

S2：计算帕累托子集的最佳分类精度值，并基于最佳精度值和预设参数δ找出δ准等信息子集，根据找出的δ准等信息子集消除劣等子集，得到最终的目标δ准等信息子集，其中，δ准等信息子集用以表示与步骤S1中得到的特征子集的一个分类性能相近的子集，目标δ准等信息子集包含选择出的目标特征。

在一种实施方式中，S1具体包括：

S1.1：将输入数据集分划为训练集和测试集；

S1.2：采用参考点非支配排序遗传算法初始化种群；

S1.3：在算法的每次迭代中计算每个个体的相关性、互补性、分类精度、冗余度和特征数量五个目标值，并利用这些目标值对种群进行更新，其中，每个个体对应一个特征；

S1.4：算法结束迭代后得到一组关于相关性、互补性和分类精度、冗余度和特征数量五个目标值的一组帕累托有效解A，将其作为特征子集。

在一种实施方式中，S2具体包括：

S2.1：计算S1中得到的一组特征子集的最佳分类精度值，最佳分类精度值为分类精度的最大值；

S2.2：根据对分类性能的预期值设定预设参数δ，其中，预设参数δ用以衡量一个子集与S1中得到的特征子集是否具有相近的分类性能；

S2.3：基于最佳分类精度值和预设参数δ判断基准子集是否为步骤S1中的特征子集的δ准等信息子集，判断方法为：如果0<＝δ<＝1时，f(S_i)>＝(1-δ)f(S_j)，则子集S_i与子集S_j具有准同等的信息量，筛选出δ准等信息子集，f表示分类性能指标f，f(S_i)表示子集S_i的最佳分类精度值，f(S_j)表示子集S_j的最佳分类精度值；

S2.4：如果一个准等信息子集S_k被另一个准等信息子集S_p包含，并且S_k的分类精度值小于S_p，那么S_k被判定为劣等子集，将其消除，得到最终的目标δ准等信息子集。

基于同样的发明构思，本发明第二方面提供了一种基于参考点非支配排序遗传算法的多目标特征选择系统，包括：

特征子集选择模块，用于对于输入数据集，采用全局优化算法来寻找一组帕累托子集，其中，一组帕累托子集为特征选择的一组最优解，为一组特征子集，全局优化算法为参考点非支配排序遗传算法，以相关性、互补性、分类精度、冗余度和特征数量为优化目标，使得相关性、互补性和分类精度最大，并使得冗余度和特征数量最小；

目标特征选择选择模块，用于计算帕累托子集的最佳分类精度值，并基于最佳精度值和预设参数δ找出δ准等信息子集，根据找出的δ准等信息子集消除劣等子集，得到最终的目标δ准等信息子集，其中，δ准等信息子集用以表示与步骤S1中得到的特征子集的一个分类性能相近的子集，目标δ准等信息子集包含选择出的目标特征。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的方法。

基于同样的发明构思，本发明第四方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于参考点非支配排序遗传算法的多目标特征选择方法，首先采用参考点非支配排序遗传算法寻找一组帕累托子集，一组帕累托子集为，一组目标函数最优解的集合，即特征选择的一组最优解，也是特征选择的一组结果，对特征的的每子集计算五个目标函数，即相关性、互补性、分类精度、冗余度和特征数量。运用全局优化算法，使得相关性、互补性和分类精度最大，并使得冗余度和特征数量最小，通过相关性、冗余度、和互补性的优化保证了所选的特征子集具有较高的识别能力和特征之间有较低的相似度，而分类精度的优化保证了分类器与数据之间的特定交互作用最大化，然后计算步骤1中得到的帕累托有效子集的最佳精度值，并基于最佳精度值和参数δ的预选值找到δ准等信息子集，消除劣等子集，筛选出最终的目标特征。寻找准等信息子集的目的在于寻找多个合理的特征选择的解(特征子集)，将每个δ准等信息子集与步骤1中得到的帕累托有效子集中所有其他子集进行比较，以识别和消除不能提高分类器精度的超集，从而改善了特征选择的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的采用参考点非支配排序遗传算法进行特征子集选择流程图；

图2为参考点非支配排序遗传算法的多目标特征选择系统的结构框图；

图3为本发明提供的计算机可读存储介质的示意图。

图4为本发明提供的计算机设备的示意图。

具体实施方式

本发明，针对现有技术中基于特征数量和分类性能的两目标特征选择算法忽略了对于给定的基数可能存在具有相似信息内容，导致特征选择不佳的技术问题，引入一种多目标特征选择方法。该方法是一种基于包装器结构的五个目标优化算法，旨在最大程度地提高分类器的分类精度，最大程度地减少分类特征数量，以及优化三个基于熵的相关性、冗余度和互补性度量。五个目标的优化扩大了搜索空间，从而使该方法能够生成大量的帕累托有效解，改善了特征选择的效果。

为了达到上述技术效果，本发明的主要发明构思如下：

本发明公开了一种基于参考点非支配排序遗传算法的包装器结构的多目标特征选择算法，涉及机器学习和数据挖掘领域，所述方法包括：该方法由一个包装器(拟均等信息子集选择包装器)构建，该包装器基于五个目标优化问题的制定，该包装器采用参考点非支配排序遗传算法和极限学习机分别作为全局优化和学习算法，以计算时间的边际增长为代价，识别出信息量近似相等的子集，将每个准等信息子集与得到的帕累托有效子集中所有其他子集进行比较，以识别和消除不能提高分类器精度的超集，最终筛选出性能较佳的目标特征。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一

本发明实施例提供了一种基于参考点非支配排序遗传算法的多目标特征选择方法，包括：

具体来说，步骤S1使用全局优化算法来寻找一组帕累托子集(一组目标函数最优解的集合，即特征选择的一组最优解，也即特征选择的一组结果)。对特征的的每子集计算五个目标函数，即相关性、互补性、分类精度、冗余度和特征数量。运用全局优化算法，使得相关性、互补性和分类精度最大，并使得冗余度和特征数量最小。相关性、冗余度、和互补性的优化保证了所选的特征子集具有较高的识别能力和特征之间有较低的相似度，而分类精度的优化保证了分类器与数据之间的特定交互作用最大化。

步骤2:计算步骤1中得到的帕累托有效子集的最佳精度值即步骤1中计算的分类最大值，并基于最佳精度值和参数δ(0<＝δ<＝1,为事先人为设定的值)找到δ准等信息子集，再根据找出的δ准等信息子集消除劣等子集，得到最终的目标δ准等信息子集，从而筛选出目标特征。即可以消除冗余的特征，得到目标特征子集。

本发明将提出的特征选择方法运用于机器学习的图像预处理阶段，以消除数据集冗余的特征，降低后续机器学习过程的整体复杂度，提高整体识别精度。具体的数据集应用有医疗数据集如心脏病数据集。以UCI数据集(加州大学欧文分校提供的机器学习数据集)提供的心脏病数据集为例，该数据集存在75个特征，特征集巨大造成复杂度过大，分类性能也不好，因此必定需要特征选择的方法进行数据降维，消除冗余的特征，得到特征子集。将特征选择后得到的特征子集用于后续的机器学习过程，最终得到的分类结果用于辅助识别病人心脏病有关的健康状态。

在一种实施方式中，S1具体包括：

S1.1：将输入数据集分划为训练集和测试集；

S1.2：采用参考点非支配排序遗传算法初始化种群；

具体来说，请参见图1，为采用参考点非支配排序遗传算法进行特征子集选择流程图；以相关性、互补性、分类精度、冗余度和特征数量作为目标函数，具体地，可以采用极限学习法学习各个个体的分类精度，然后通过交叉变异操作生成子代种群，并根据目标函数计算个体适应值，然后合并附带种群和子代种群，再进行快速非支配排序，并计算个体适应值，基于参考点选择较好的个体进入下一代种群。判断是否达到最大迭代次数，如果达到，则得到一组关于相关性、互补性和分类精度、冗余度和特征数量五个目标值的一组帕累托有效解A，否则继续迭代。

在一种实施方式中，S2具体包括：

具体来说，根据对分类性能的预期值，设定参数δ的值，参数δ用来衡量一个子集与步骤1中得到的帕累托有效子集A是否具有相近的分类性能。

每一个准等信息子集代表了与步骤1中得到的帕累托有效子集的一个分类性能相近的解，对应特征选择的其中一个解，即其中的一个特征子集。寻找准等信息子集的目的在于寻找多个合理的特征选择的解(特征子集)，参数δ用来衡量一个子集与步骤1中的帕累托子集是否具有相近的分类性能，对于给定的分类性能指标f和基准子集S_i、S_j，如果两个子集在给定的学习算法方面具有几乎相同的性能，则子集S_i对S_j具有准同等的信息量，即如果当0<＝δ<＝1时，f(S_i)>＝(1-δ)f(S_j)，则子集S_i与子集S_j具有准同等的信息量。

通过得到的最佳精度值和参数δ的预选值对S1中得到的帕累托有效子集A与每个特征子集进行判断，判断该子集是否为帕累托有效子集的准等信息子集。对于给定的分类性能指标δ，如果不是δ准等信息子集则将该子集消除。找到A的所有准等信息子集后，对于已经找的A的准等信息子集，还需要进行进一步判断，如果一个准等信息子集S_k被另一个准等信息子集S_p包含，并且前者的分类精度值小于后者，即对于给定的分类性能指标f，有f(S_k)<＝f(S_p)，那么S_k被判定为劣等子集，需要将其消除，因为S_p已经包含了S_k的所有特征,S_k不能提高分类器的精度，需要被清除，从而使得最终筛选出的特征子集有利于提高分类精度。

本发明公开了一种基于参考点非支配排序遗传算法的包装器结构的多目标特征选择算法，涉及机器学习和数据挖掘领域，所述方法包括：该方法由一个包装器(拟均等信息子集选择包装器)构建，该包装器基于五个目标优化问题的制定，该包装器采用参考点非支配排序遗传算法和极限学习机分别作为全局优化和学习算法，以计算时间的边际增长为代价，识别出信息量近似相等的子集，并消除劣等子集，使得最终筛选出的特征可以提高分类的精度。

基于同样的发明构思，本发明还提供了一种与实施例一中基于参考点非支配排序遗传算法的多目标特征选择方法对应的系统，详见实施例二。

实施例二

本实施例提供了一种基于参考点非支配排序遗传算法的多目标特征选择系统，请参见图2，该系统包括：

特征子集选择模块201，用于对于输入数据集，采用全局优化算法来寻找一组帕累托子集，其中，一组帕累托子集为特征选择的一组最优解，为一组特征子集，全局优化算法为参考点非支配排序遗传算法，以相关性、互补性、分类精度、冗余度和特征数量为优化目标，使得相关性、互补性和分类精度最大，并使得冗余度和特征数量最小；

目标特征选择选择模块202，用于计算帕累托子集的最佳分类精度值，并基于最佳精度值和预设参数δ找出δ准等信息子集，根据找出的δ准等信息子集消除劣等子集，得到最终的目标δ准等信息子集，其中，δ准等信息子集用以表示与步骤S1中得到的特征子集的一个分类性能相近的子集，目标δ准等信息子集包含选择出的目标特征。

由于本发明实施例二所介绍的系统，为实施本发明实施例一中基于参考点非支配排序遗传算法的多目标特征选择方法所采用的系统，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该系统的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。

实施例三

请参见图3，基于同一发明构思，本申请还提供了一种计算机可读存储介质300，其上存储有计算机程序311，该程序被执行时实现如实施例一中所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于参考点非支配排序遗传算法的多目标特征选择方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

实施例四

基于同一发明构思，本申请还提供了一种计算机设备，请参见图4，包括存储401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403，处理器402执行上述程序时实现实施例一中的方法。

由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于参考点非支配排序遗传算法的多目标特征选择方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于参考点非支配排序遗传算法的多目标特征选择方法，其特征在于，包括：

2.如权利要求1所述的多目标特征选择方法，其特征在于，S1具体包括：

S1.1：将输入数据集分划为训练集和测试集；

S1.2：采用参考点非支配排序遗传算法初始化种群；

3.如权利要求1所述的多目标特征选择方法，其特征在于，S2具体包括：

4.一种基于参考点非支配排序遗传算法的多目标特征选择系统，其特征在于，包括：

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被执行时实现如权利要求1至3中任一项权利要求所述的方法。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3中任一项权利要求所述的方法。