CN114912628A

CN114912628A - 特征选择方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN114912628A
Application number: CN202210509313.4A
Authority: CN
Inventors: 陈海波; 罗志鹏; 何智星
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-08-16

Abstract

本申请提供了一种特征选择方法、装置、电子设备及存储介质，该方法包括从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签；通过树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征的真实特征重要性；根据基准列将所有待选择特征分组为多个待选择特征组；将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱；通过树模型训练每个待选择特征和与其对应的打乱标签，以获得每个待选择特征的虚假特征重要性；以及基于每个待选择特征的真实特征重要性与虚假特征重要性选择被筛选特征。通过根据基准列将待选择特征分组而后在组内对待选择特征的真实标签随机打乱，能够更加快速有效地筛选过拟合特征。

Description

特征选择方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及数据挖掘技术领域，尤其涉及特征选择方法、装置、电子设备及计算机可读存储介质。

背景技术

机器学习里面特征工程往往是提升效果的关键，而特征选择是特征工程里的一个重要问题。特征选择的目的是寻找最优特征子集。在实际业务中，用于模型中的特征维度往往很高，几万维，甚至高达上亿维，维度过高会增大模型计算复杂度，但是在这么多维数据中，并不是每个特征对模型的预测都是有效果的，所以要去除一些不必要特征。特征选择能剔除不相关，冗余或有害的特征，从而达到减少特征个数，降低模型的计算复杂度，甚至提升预测精度。

常见的特征选择有3类分别是Filter(过滤器)方法，Wrapper(包裹器)方法和Embedding(嵌入式)方法。

其中，Filter(过滤器)方法其主要思想是：对每一维的特征“打分”，即给每一维的特征赋予权重，这样的权重就代表着该维特征的重要性，然后依据权重排序，如卡方检验，信息增益和相关系数等方法。此类方法速度一般很快，但是容易选出一些有用的特征。

Wrapper(包裹器)方法其主要思想是：将子集的选择看作是一个搜索寻优问题，生成不同的组合，对组合进行评价，再与其他的组合进行比较。这样就将子集的选择看作是一个优化问题，这里有很多的优化算法可以解决，尤其是一些启发式的优化算法，如GA(遗传算法)、PSO(粒子群算法)、DE(差分演化算法)和ABC(分工蜂群算法)等。然而，此类方法一般复杂度很高。

Embedding(嵌入式)方法其主要思想是在确定模型的过程中，挑选出那些对模型的训练有重要意义的特征，如岭回归。

最近兴起有一种特征选择方法(目标排序，target permutation)。在模型中，存在一些方差比较大的特征，导致模型很容易学到这些特征的噪声。target per mutation方法利用树模型得到的信息增益排序，能够能选择出方差很大，同时真实重要性也低的特征。然而，由于分类特征与标签相关性比较大，且训练集与测试集的分类特征分布不一致，甚至特征值完全不相交，因此会导致与分类特征相关的特征在训练集里有效而在测试集中无效甚至有害的情况发生，从而导致过拟合并严重影响了模型的学习方向，而targetpermutation方法无法筛选出这样的与分类特征相关的过拟合特征。

发明内容

鉴于以上情况而做出本申请，并且本申请的目的是提供一种特征选择方法、装置、电子设备及计算机可读存储介质，本申请通过根据基准列将待选择特征分组而后在组内对待选择特征的真实标签随机打乱，能够解决target permutation 方法的上述问题，从而能够更加快速有效地筛选出对模型危害更大的与分类特征相关的过拟合特征，从而降低模型的复杂度，减少计算资源消耗，同时还能够提升模型的精度。

本申请的目的采用以下技术方案实现：

第一方面，本申请提供了特征选择方法，包括：从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签；通过树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征在与之对应的真实标签下的真实特征重要性；根据基准列将所有待选择特征进行分组，以形成多个待选择特征组；将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱，以使得每个待选择特征对应于打乱标签；通过所述树模型训练每个待选择特征和与其对应的打乱标签，以获得每个待选择特征在与之对应的打乱标签下的虚假特征重要性；以及基于每个待选择特征的所述真实特征重要性和所述虚假特征重要性，选择被筛选特征。

根据该实施例，能够获得如下技术效果：通过根据基准列将待选择特征分组而后在组内对待选择特征的真实标签随机打乱，从而在保证分类特征对标签仍旧敏感的前提下，更加快速有效地筛选出与分类特征相关的过拟合特征，从而降低模型的复杂度，减少计算资源消耗，同时还能够提升模型的精度。

作为一个实施例，所述通过树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征在与之对应的真实标签下的真实特征重要性可以包括：通过所述树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征的特征信息增益和特征被划分次数，作为每个待选择特征的所述真实特征重要性。

根据该实施例，能够获得如下技术效果：能够根据特征信息增益和特征被划分次数获得特征重要性。

作为一个实施例，所述基于每个待选择特征的所述真实特征重要性和所述虚假特征重要性，选择被筛选特征可以包括：利用打分函数比较每个待选择特征的所述真实特征重要性和所述虚假特征重要性，获得每个待选择特征的打分值；以及将所述打分值满足预设条件的待选择特征选择为所述被筛选特征。

根据该实施例，能够获得如下技术效果：能够筛选出特征方差偏大而导致噪声的特征，从而能够筛选出实际重要性(真实的重要性)低的特征，提升树模型效果。

作为一个实施例，将所述打分值满足所述预设条件的待选择特征选择为所述被筛选特征可以包括：当基于所述打分值确认待选择特征的所述真实标签重要性高且所述真实标签重要性与所述虚假标签重要性差别小时，所述待选择特征被选择为所述被筛选特征。当所述待选择特征的所述真实标签重要性与所述虚假标签重要性的打分值的差值的绝对值与所述真实标签重要性的打分值的商值小于预设数值时，将所述待选择特征选择为所述被筛选特征。

根据该实施例，能够获得如下技术效果：在保证分类特征对标签仍旧敏感的前提下，更加快速有效地筛选出与分类特征相关的过拟合特征。

作为一个实施例，所述方法可以还包括：剔除被选择为所述被筛选特征的所述待选择特征。

根据该实施例，能够获得如下技术效果：在待选择特征被选择为被筛选特征的情况下，将该待选择特征从原始数据(数据包)剔除，从而减少了模型的复杂度，减少了过拟合情况的产生。

第二方面，提供了一种特征选择装置，包括：特征获取模块，该特征获取模块用于从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签；真实特征重要性获取模块，该真实特征重要性获取模块用于通过树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征在与之对应的真实标签下的真实特征重要性；分组模块，该分组模块用于根据基准列将所有待选择特征进行分组，以形成多个待选择特征组；标签打乱模块，该标签打乱模块用于将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱，以使得每个待选择特征对应于打乱标签；虚假特征重要性获取模块，该虚假特征重要性获取模块用于通过所述树模型训练每个待选择特征和与其对应的打乱标签，以获得每个待选择特征在与之对应的打乱标签下的虚假特征重要性；以及筛选模块，该筛选模块用于基于每个待选择特征的所述真实特征重要性和所述虚假特征重要性，选择被筛选特征。

作为一个实施例，其中，所述通过树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征在与之对应的真实标签下的真实特征重要性可以包括：通过所述树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征的特征信息增益和特征被划分次数，作为每个待选择特征的所述真实特征重要性。

作为一个实施例，所述筛选模块可以包括：打分单元，该打分单元用于利用打分函数比较每个待选择特征的所述真实特征重要性和所述虚假特征重要性，获得每个待选择特征的打分值；以及条件判定单元，该条件判定单元用于将所述打分值满足预设条件的待选择特征选择为所述被筛选特征。

作为一个实施例，将所述打分值满足所述预设条件的待选择特征选择为所述被筛选特征包括：当基于所述打分值确认待选择特征的所述真实标签重要性高且所述真实标签重要性与所述虚假标签重要性差别小时，所述待选择特征被选择为所述被筛选特征。当待选择特征的所述真实标签重要性与所述虚假标签重要性的打分值的差值的绝对值与所述真实标签重要性的打分值的商值小于预设数值时，将所述待选择特征选择为所述被筛选特征。

作为一个实施例，所述装置可以还包括：特征剔除模块，该特征剔除模块用于剔除被选择为所述被筛选特征的所述待选择特征。

第三方面，本申请提供了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项方法的步骤。

附图说明

下面结合附图和实施例对本申请进一步说明。

图1是本申请实施例提供的一种特征选择方法的流程示意图；

图2是本申请实施例提供的另一种特征选择方法的流程示意图；

图3是本申请实施例提供的又一种特征选择方法的流程示意图；

图4是用于说明本申请实施例提供的一种特征选择方法的示意图；

图5是用于示例性地说明本申请实施例提供的一种特征选择方法的打乱标签步骤的示意图；

图6是本申请实施例提供的一种特征选择装置的示意性框图；

图7是本申请实施例提供的另一种特征选择装置的示意性框图；

图8是本申请实施例提供的又一种特征选择装置的示意性框图；

图9是本申请实施例提供的一种电子设备的结构示意图；

图10是本申请实施例提供的一种用于实现特征选择方法的程序产品的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

图1-5示出了根据本申请实施例的一种特征选择方法，其中，如图1所示，根据本申请实施例的特征选择方法包括：步骤S101，特征获取步骤；步骤S102，真实特征重要性获取步骤；步骤S103，分组步骤；步骤S104，打乱标签步骤；步骤S105，虚假特征重要性获取步骤；以及步骤S106，筛选步骤。

如图2所示，作为一个实施例，步骤S106可以包括：步骤S201，打分步骤；以及步骤S202，条件判定步骤。

如图3所示，作为一个实施例，本申请的特征选择方法还可以包括步骤S10 7，特征剔除步骤。

下文将结合附图详细描述上述各个步骤。

步骤S101，特征获取步骤。

从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签。

具体地，参见附图4所示，从原始数据(数据包)获取多个待选择特征X 以及每个待选择特征X的真实标签。

步骤S102，真实特征重要性获取步骤。

通过树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征在其对应的真实标签下的真实特征重要性。其中，树模型可以看做是if-else 指令集合，通过对特征空间的划分来完成分类或者回归任务。其具体模型有：例如，决策树(ID3算法)、xgboost(pre-sorted算法)、lightGBM(histogram算法)等，本文以lightGBM为例。

具体地，该真实特征重要性包括特征信息增益和特征被划分次数。

步骤S103，分组步骤。

根据基准列对所有待选择特征进行分组，以形成多个待选择特征组。

作为实例，参见附图5所示，待选择特征编号0-9中，编号0-3的待选择特征的key(基准列)为0，编号4-6的待选择特征的key为1，并且编号7-9的待选择特征的key为2，由此，可以将编号0-3、编号4-6、编号7-9的待选择特征根据基准列分为三组，可以将其分别命名为第一组、第二组和第三组。

步骤S104，标签打乱步骤。

将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱，以使得每个待选择特征对应于打乱标签。

具体地，在已经分组后的待选择特征组的组内，将每个待选择特征的真实标签随机打乱顺序，被打乱标签之后的每个待选择特征的标签被定义为打乱标签。

作为实例，参考图5所示，在第一组内，编码0-3的待选择特征的真实标签依次为1、1、0、1，将这四个真实标签的顺序随机打乱，例如，可以打乱为如图5中所示，打乱标签依次为1、0、1、1。

步骤S105，虚假特征重要性获取步骤。

通过树模型训练每个待选择特征和与其对应的打乱标签，以获得每个待选择特征在打乱标签下的虚假特征重要性。

该虚假特征重要性的获取方法与前文所述的真实特征重要性的获取方法类似，此处不再赘述。

步骤S106，筛选步骤。

基于每个待选择特征的真实特征重要性与虚假特征重要性，选择被筛选特征。

具体地，基于每个待选择特征的在步骤S102中获得的真实特征重要性与在步骤S105中获得的虚假特征重要性，判断每个待选择特征是否为被筛选特征。

作为一个实施例，如图2所示，上述步骤S106包括以下步骤S201-S202。

步骤S201，打分步骤。

利用打分函数比较每个待选择特征的真实特征重要性和虚假特征重要性，获得每个所述待选择特征的打分值。其中，打分函数用于计算树模型中节点的基尼系数，其公式可以为：

其中，t代表树的节点，i代表标签的任意分类，p(i|t)代表标签分类i在节点 t上所占的比例，c表示标签数。

以及步骤S202，条件判定步骤。

将所述打分值满足预设条件的待选择特征选择为所述被筛选特征。

该预定条件可以为：当所述待选择特征的所述真实标签重要性与所述虚假标签重要性的打分值的差值的绝对值与所述真实标签重要性的打分值的商值小于预设数值时，将所述待选择特征选择为所述被筛选特征。其中，预设数值例如是 0.03、0.05、0.1等。

例如，如果某些待选择特征的真实标签重要性与虚假标签重要性的打分值(score)差值小于0.05倍的真实标签重要性的打分值，那么便认为该特征为所述被筛选特征。从而当基于所述打分值确认所述待选择特征的所述真实标签重要性高且所述真实标签重要性与所述虚假标签重要性差别小时，所述待选择特征被选择为所述被筛选特征。相反，虚假标签重要性降低的待选择特征是真正有用的特征。

根据上述实施例，能够筛选出特征方差偏大而导致噪声的特征，从而能够筛选出实际重要性(真实的重要性)低的特征，提升树模型效果。

作为一个实施例，如图3所示，本申请的特征选择方法还包括：

步骤S107，特征剔除步骤。

剔除被选择为所述被筛选特征的所述待选择特征。

具体地，在待选择特征被选择为被筛选特征的情况下，将该待选择特征从原始数据(数据包)剔除，从而减少了模型的复杂度，减少了过拟合情况的产生。

以上描述了根据本申请的特征选择方法，利用该特征选择方法，通过根据基准列将待选择特征分组而后在组内对待选择特征的真实标签随机打乱，从而在保证分类特征对标签仍旧敏感的前提下，更加快速有效地筛选出与分类特征相关的过拟合特征，从而降低模型的复杂度，减少计算资源消耗，同时还能够提升模型的精度。

本申请的另一方面还提供了一种特征选择装置，其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

图6-8示出了根据本申请实施例的一种特征选择装置，其中，如图6所示，根据本申请实施例的特征选择装置包括：模块101，特征获取模块；模块102，真实特征重要性获取模块；模块103，分组模块；模块104，打乱标签模块；模块105，虚假特征重要性获取模块；以及106，筛选模块。

如图7所示，作为一个实施例，模块106可以包括：单元201，打分单元；以及单元202，条件判定单元。

如图8所示，作为一个实施例，本申请的特征选择装置还可以包括模块107，特征剔除模块。

下文将结合附图详细描述上述各个模块。

模块101，特征获取模块。

特征获取模块101用于从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签。

具体地，参见附图4所示，特征获取模块101从原始数据(数据包)获取多个待选择特征X以及每个待选择特征X的真实标签。

模块102，真实特征重要性获取模块。

真实特征重要性获取模块102用于通过树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征在其对应的真实标签下的真实特征重要性。其中，树模型可以看做是if-else指令集合，通过对特征空间的划分来完成分类或者回归任务。其具体模型有：例如，决策树(ID3算法)、xgboost(pre-sor ted算法)、lightGBM(histogram算法)等，本文以lightGBM为例。

模块103，分组模块。

分组模块103用于根据基准列对所有待选择特征进行分组，以形成多个待选择特征组。

作为实例，参见附图5所示，待选择特征编号0-9中，编号0-3的待选择特征的key(基准列)为0，编号4-6的待选择特征的key为1，并且编号7-9的待选择特征的key为2，由此，分组模块103可以将编号0-3、编号4-6、编号7-9 的待选择特征根据基准列分为三组，可以将其分别命名为第一组、第二组和第三组。

模块104，标签打乱模块。

标签打乱模块104用于将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱，以使得每个待选择特征对应于打乱标签。

具体地，标签打乱模块104用于在已经分组后的待选择特征组的组内，将每个待选择特征的真实标签随机打乱顺序，被打乱标签之后的每个待选择特征的标签被定义为打乱标签。

作为实例，参考图5所示，在第一组内，编码0-3的待选择特征的真实标签依次为1、1、0、1，标签打乱模块104将这四个真实标签的顺序随机打乱，例如，可以打乱为如图5中所示，打乱标签依次为1、0、1、1。

模块105，虚假特征重要性获取模块。

虚假特征重要性获取模块105用于通过树模型训练每个待选择特征和与其对应的打乱标签，以获得每个待选择特征在打乱标签下的虚假特征重要性。

该虚假特征重要性获取模块进行的处理与前文所述的真实特征重要性获取模块进行的处理类似，此处不再赘述。

模块106，筛选模块。

筛选模块106用于基于每个待选择特征的真实特征重要性与虚假特征重要性，选择被筛选特征。

具体地，筛选模块106基于每个待选择特征的由模块102获得的真实特征重要性与由模块105获得的虚假特征重要性，判断每个待选择特征是否为被筛选特征。

作为一个实施例，如图7所示，上述模块106包括以下单元201-202。

单元201，打分单元。

打分单元201用于利用打分函数比较每个待选择特征的真实特征重要性和虚假特征重要性，获得每个所述待选择特征的打分值。其中，打分函数用于计算树模型中节点的基尼系数，其公式可以为：

单元202，条件判定单元。

条件判定单元202用于将所述打分值满足预设条件的待选择特征选择为所述被筛选特征。

该预定条件可以为：当所述待选择特征的所述真实标签重要性与所述虚假标签重要性的打分值的差值的绝对值与所述真实标签重要性的打分值的商值小于预设数值时，将所述待选择特征选择为所述被筛选特征。例如，如果某些待选择特征的真实标签重要性与虚假标签重要性的打分值(score)差值小于0.05倍的真实标签重要性的打分值，那么便认为该特征为所述被筛选特征，从而当基于所述打分值确认所述待选择特征的所述真实标签重要性高且所述真实标签重要性与所述虚假标签重要性差别小时，所述待选择特征被选择为所述被筛选特征。相反，虚假标签重要性降低的待选择特征是真正有用的特征。

作为一个实施例，如图8所示，本申请的特征选择装置还包括：

107，特征剔除模块。

特征剔除模块107用于剔除被选择为所述被筛选特征的所述待选择特征。

具体地，在待选择特征被选择为被筛选特征的情况下，特征剔除模块107 将该待选择特征从原始数据(数据包)剔除，从而减少了模型的复杂度，减少了过拟合情况的产生。

以上描述了根据本申请的特征选择装置，利用该特征选择装置，通过根据基准列将待选择特征分组而后在组内对待选择特征的真实标签随机打乱，从而在保证分类特征对标签仍旧敏感的前提下，更加快速有效地筛选出与分类特征相关的过拟合特征，从而降低模型的复杂度，减少计算资源消耗，同时还能够提升模型的精度。

参见图9，本申请实施例还提供了一种电子设备200，电子设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。

存储器210可以包括易失性存储器形式的可读介质，例如随机存取存储器(R AM)211和/或高速缓存存储器212，还可以进一步包括只读存储器(ROM)213。

其中，存储器210还存储有计算机程序，计算机程序可以被处理器220执行，使得处理器220执行本申请实施例中特征选择方法的步骤，其具体实现方式与上述特征选择方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

存储器210还可以包括具有至少一个程序模块215的实用工具214，这样的程序模块215包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器220可以执行上述计算机程序，以及可以执行实用工具214。

总线230可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该电子设备200交互的设备通信，和/ 或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入输出接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(L AN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，所述计算机程序被执行时实现本申请实施例中特征选择方法的步骤，其具体实现方式与上述特征选择方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

图10示出了本实施例提供的用于实现上述特征选择方法的程序产品300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品300不限于此，在本申请中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表) 包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，已符合专利法所强调的功能增进及使用要件，本申请以上的说明书及说明书附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。

Claims

1.一种特征选择方法，其特征在于，所述方法包括：

从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签；

通过树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征在与之对应的真实标签下的真实特征重要性；

根据基准列将所有待选择特征进行分组，以形成多个待选择特征组；

将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱，以使得每个待选择特征对应于打乱标签；

通过所述树模型训练每个待选择特征和与其对应的打乱标签，以获得每个待选择特征在与之对应的打乱标签下的虚假特征重要性；以及

基于每个待选择特征的所述真实特征重要性和所述虚假特征重要性，选择被筛选特征。

2.根据权利要求1所述的方法，其特征在于，其中，所述通过树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征在与之对应的真实标签下的真实特征重要性包括：

通过所述树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征的特征信息增益和特征被划分次数，作为每个待选择特征的所述真实特征重要性。

3.根据权利要求1或2所述的方法，其特征在于，其中，所述基于每个待选择特征的所述真实特征重要性和所述虚假特征重要性，选择被筛选特征包括：

利用打分函数比较每个待选择特征的所述真实特征重要性和所述虚假特征重要性，获得每个待选择特征的打分值；以及

4.根据权利要求3所述的方法，其特征在于，其中，将所述打分值满足所述预设条件的待选择特征选择为所述被筛选特征包括：

当基于所述打分值确认待选择特征的所述真实标签重要性高且所述真实标签重要性与所述虚假标签重要性差别小时，所述待选择特征被选择为所述被筛选特征。

5.根据权利要求4所述的方法，其特征在于，其中，所述当基于所述打分值确认待选择特征的所述真实标签重要性高且所述真实标签重要性与所述虚假标签重要性差别小时，所述待选择特征被选择为所述被筛选特征包括：

当待选择特征的所述真实标签重要性与所述虚假标签重要性的打分值的差值的绝对值与所述真实标签重要性的打分值的商值小于预设数值时，将所述待选择特征选择为所述被筛选特征。

6.根据权利要求1至5的任意一项所述的方法，其特征在于，所述方法还包括：

剔除被选择为所述被筛选特征的所述待选择特征。

7.一种特征选择装置，其特征在于，所述装置包括：

特征获取模块，该特征获取模块用于从原始数据获取待选择特征以及与每个待选择特征相对应的真实标签；

真实特征重要性获取模块，该真实特征重要性获取模块用于通过树模型学习每个待选择特征和与其对应的真实标签，以获得每个待选择特征在与之对应的真实标签下的真实特征重要性；

分组模块，该分组模块用于根据基准列将所有待选择特征进行分组，以形成多个待选择特征组；

标签打乱模块，该标签打乱模块用于将每个待选择特征组中所包括的所有待选择特征与其真实标签的对应关系打乱，以使得每个待选择特征对应于打乱标签；

虚假特征重要性获取模块，该虚假特征重要性获取模块用于通过所述树模型训练每个待选择特征和与其对应的打乱标签，以获得每个待选择特征在与之对应的打乱标签下的虚假特征重要性；以及

筛选模块，该筛选模块用于基于每个待选择特征的所述真实特征重要性和所述虚假特征重要性，选择被筛选特征。

8.根据权利要求7所述的装置，其特征在于，其中，所述筛选模块包括：

打分单元，该打分单元用于利用打分函数比较每个待选择特征的所述真实特征重要性和所述虚假特征重要性，获得每个待选择特征的打分值；以及

条件判定单元，该条件判定单元用于将所述打分值满足预设条件的待选择特征选择为所述被筛选特征。

9.根据权利要求8所述的装置，其特征在于，其中，

10.根据权利要求7至9的任意一项所述的装置，其特征在于，所述装置还包括：

特征剔除模块，该特征剔除模块用于剔除被选择为所述被筛选特征的所述待选择特征。

11.一种电子设备，其特征在于，所述电子设备存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-6任一项所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。