CN112906723A

CN112906723A - 一种特征选择的方法和装置

Info

Publication number: CN112906723A
Application number: CN201911134279.1A
Authority: CN
Inventors: 刘洋
Original assignee: Beijing Jingbangda Trade Co Ltd; Beijing Jingdong Zhenshi Information Technology Co Ltd
Current assignee: Beijing Jingbangda Trade Co Ltd; Beijing Jingdong Zhenshi Information Technology Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2021-06-04
Anticipated expiration: 2039-11-19
Also published as: CN112906723B

Abstract

本发明公开了一种特征选择的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取备选特征集合和样本的当前分组结果；对备选特征集合中的每个备选特征，分别基于该备选特征对当前分组结果中的每个分组分别进行再次分组，然后基于再次分组的结果计算该备选特征的信息价值增益；将信息价值增益最大的备选特征作为选择的特征并将其从备选特征集合中删除以更新备选特征集合，以及使用再次分组的结果更新当前分组结果；重复执行以上步骤，直至满足预设的停止条件时结束特征选择。该实施方式能够衡量一个特征在已有特征集合的基础上带来的额外信息价值，从而能够衡量特征之间的互补性和一组特征对因变量的共同影响。

Description

一种特征选择的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种特征选择的方法和装置。

背景技术

用户流失预测是企业运营中的一个至关重要的问题。一般情况下，用户流失的预测模型接收用户的相关特征数据后会给出两种输出，会流失和不会流失。因此，流失预测是一个典型的二分类问题。目前已经有比较多的方法可以用来进行二分类建模。然而，在建模之前，特征选择是一个非常重要的步骤。

目前在分类问题中，特征选择的方法大致可以分为两类：一类是只考虑每个自变量单独对因变量的作用，通过作用的强弱对自变量进行排序，再选择作用比较强的若干个进行建模。另一类是考虑多个自变量对因变量的共同影响。由于自变量之间可能存在一定的互补性，造成几个自变量单独对因变量的作用并不强，但这几个自变量的组合却能够对因变量造成很大影响。因此，第二类方法集中在选择一组具有互补性的特征。

考虑单独自变量与因变量之间作用的方法一般通过一种指标衡量自变量和因变量关系的强弱，并在此基础上把自变量按照关系强弱排序，将排序靠前的若干自变量选中进行建模。常用的衡量指标有Fisher Score和信息价值(Information Value)等。考虑多个自变量对因变量共同影响的方式会使用某种指标对几个自变量共同进行衡量，最后按照每组自变量对应变量的作用大小选出最优的一组进行建模。衡量的指标包括GeneralizedFisher Score，也包括使用想要衡量的自变量用将要使用的预测方法进行建模，将模型的准确度作为衡量的标准。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

1、对单一变量进行分析的方法不能够衡量多个变量组合起来以后对因变量的共同影响；

2、针对多变量共同影响的特征选择方法，时间复杂度非常高，运算速度慢，且会遗漏非线性相关性很强的自变量。

发明内容

有鉴于此，本发明实施例提供一种特征选择的方法和装置，能够衡量一个特征在已有特征集合的基础上带来的额外信息价值，从而能够衡量特征之间的互补性和一组特征对因变量的共同影响，并能够同时处理线性和非线性的关联。

为实现上述目的，根据本发明实施例的一个方面，提供了一种特征选择的方法。

一种特征选择的方法，包括：获取备选特征集合和样本的当前分组结果；对所述备选特征集合中的每个备选特征，分别基于所述备选特征对所述当前分组结果中的每个分组分别进行再次分组，然后基于再次分组的结果计算所述备选特征的信息价值增益；将信息价值增益最大的备选特征作为选择的特征并将其从所述备选特征集合中删除以更新所述备选特征集合，以及使用所述再次分组的结果更新所述当前分组结果；重复执行以上步骤，直至满足预设的停止条件时结束特征选择。

可选地，基于所述备选特征对所述当前分组结果中的每个分组分别进行再次分组包括：对所述当前分组结果中的每个第一分组，重复执行以下操作直至满足第一停止条件：基于所述备选特征选取所述分组的潜在分割点集合；分别计算使用每个潜在分割点进行样本分组后带来的信息增益；将信息增益最大的潜在分割点作为选择的分割点，根据所述选择的分割点将所述分组分为两个子分组；使用所述两个子分组来更新所述分组。

可选地，基于所述备选特征选取所述分组的潜在分割点集合包括：对所述分组，按照所述备选特征的特征值进行升序排列；从排列后的所述分组中选取所有正负样本的分界点作为所述分组的潜在分割点集合。

可选地，所述第一停止条件包括进行分组所带来的消耗大于不进行分组带来的消耗或不存在潜在分割点。

可选地，基于再次分组的结果计算所述备选特征的信息价值增益包括：基于再次分组的结果计算已选择的特征集合与所述备选特征的第一共同信息价值；获取所述已选择的特征集合的第二共同信息价值；根据所述第一共同信息价值和所述第二共同信息价值计算所述备选特征的信息价值增益。

可选地，所述预设的停止条件包括所述选择的特征的信息价值增益为0或所述备选特征集合为空。

可选地，结束特征选择之后，还包括：根据选择的特征以及特征被选择的顺序生成特征选择结果序列；通过交叉验证的方式确定需选择的特征数量，并根据所述特征数量对所述特征选择结果序列进行二次选择，以得到最终的特征选择结果。

可选地，通过交叉验证的方式确定需选择的特征数量包括：将所述选择的特征按照特征被选择的顺序逐个递增地添加到模型中，每添加一个特征就使用交叉验证的方式来评估模型效果，最终确定效果最好的模型所对应特征的数量即为需选择的特征数量；其中，所述交叉验证的方式为：将样本分成n(n为大于等于2的正整数)份，依次使用其中的n-1份样本来训练模型，并使用余下的1份样本作为测试数据来进行测试，将每份样本都作为测试数据进行测试之后，综合评估模型效果。

根据本发明实施例的另一方面，提供了一种特征选择的装置。

一种特征选择的装置，包括：数据获取模块，用于获取备选特征集合和样本的当前分组结果；分组计算模块，用于对所述备选特征集合中的每个备选特征，分别基于所述备选特征对所述当前分组结果中的每个分组分别进行再次分组，然后基于再次分组的结果计算所述备选特征的信息价值增益；特征选择模块，用于将信息价值增益最大的备选特征作为选择的特征并将其从所述备选特征集合中删除以更新所述备选特征集合，以及使用所述再次分组的结果更新所述当前分组结果；停止判断模块，用于重复执行以上模块，直至满足预设的停止条件时结束特征选择。

根据本发明实施例的又一方面，提供了一种特征选择的电子设备。

一种特征选择的电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例所提供的特征选择的方法。

根据本发明实施例的再一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例所提供的特征选择的方法。

上述发明中的一个实施例具有如下优点或有益效果：通过获取备选特征集合和样本的当前分组结果；对备选特征集合中的每个备选特征，分别基于备选特征对当前分组结果中的每个分组进行再次分组，然后基于再次分组的结果计算备选特征的信息价值增益；将信息价值增益最大的备选特征作为选择的特征并更新备选特征集合和当前分组结果；重复执行以上步骤，直至满足预设的停止条件时结束特征选择，实现了通过信息价值增益来衡量一个特征在已有特征集合的基础上带来的额外信息价值，且在基于一个特征进行样本分组时，是在已选特征的分组结果基础上进行的，从而能够衡量特征之间的互补性和一组特征对因变量的共同影响，并能够同时处理线性和非线性的关联。通过基于一组特征对因变量的共同影响，结合流失预测的问题本身，设计算法选择对用户流失影响较大的一组特征，帮助流失预测的建模，并利用所选择的特征与用户流失的相关性对用户流失的现象进行解释。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的特征选择的方法的主要步骤示意图；

图2是本发明一个实施例的特征选择的实现流程示意图；

图3是根据本发明实施例的特征选择的装置的主要模块示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前已经有比较多的方法可以用来进行二分类建模。然而，在建模之前，特征选择是一个非常重要的步骤。需要评估特征对模型的重要性，选择与用户流失相关性强的特征建立模型，以增强预测效果。同时，对于可能流失的用户也能够用这样的特征解释可能流失的具体原因，进而有针对性地进行维护。

实际上，特征选择在整个机器学习的研究领域中都是非常关键的。尤其是在有监督学习中，无论是分类问题还是回归问题，数据科学家都希望挑选和因变量相关性较强的自变量(即：特征)，以提高模型的准确度。另外，特征的精细加工能够根据基础特征衍生出极大规模的特征，在有效样本数量受限的情况下容易引起过拟合，而选择关键特征进行建模也是一种有效防止过拟合的方法。特征选择的一般做法是对自变量根据与因变量的关系强弱进行衡量，以量化评估自变量的重要性并进行排序，再将比较重要的特征选入模型中。结合本发明的应用场景——流失预测业务，因此，本发明主要研究二分类问题中的特征选择。

现有技术中，特征选择方法主要集中于两个方向，其中一个是对单一变量进行分析，另外一个是对多变量的共同影响进行分析。其中，单变量分析的方法包括Fisher Score和信息价值等。其中，Fisher Score比较适合衡量自变量和因变量之间的线性关系，而会漏掉非线性关系很强的自变量。相比而言，信息价值的定义借鉴了信息论的思想，能够描述自变量和因变量之间的非线性关系。然而，对单一变量进行分析的方法不能够衡量多个变量组合起来以后对因变量的共同影响，即，有可能几个自变量在单独衡量的情况下都与因变量没有很强的相关性，但组合起来后对因变量影响非常大，有一加一大于二的效果。这种情况是单一变量分析的方法无法解决的。

针对多变量共同影响的选择方法着力于解决上述问题。这类的方法的一种具体实现是根据分类时将要使用的模型，将选中的自变量进行建模，通过在验证集上的准确度来对所选自变量集合的重要性进行衡量。由于对每种可能的自变量组合都进行衡量是不可完成的，这一类方法为了加快运算速度，使用了以下方法：有的采用贪心的方式将自变量逐步选入模型，每次选入的自变量是基于当前已经选出的自变量集合对模型准确度提升最大的。也有的先初始化备选自变量的集合，再通过模型的效果进行类似遗传算法的交叉变换，生成新的备选集合，用这种迭代的方式得到最终的解。无论采用哪一种方式，都需要不断对模型进行训练来评估效果，时间复杂度非常高。为了克服这一困难，有的研究工作使用一种不需要训练模型就可以量化的指标来对一组自变量的重要性进行衡量，并选择能够优化这一目标的自变量集合。Generalized Fisher Score是这一方法中比较成功的案例，但如同单一变量的Fisher Score一样，这种方式更适合衡量自变量和因变量之间的线性相关性，而会遗漏非线性相关性很强的自变量。

为了解决现有技术中存在的上述问题，本发明提供了一种特征选择的方法和装置，能够衡量特征之间的互补性和一组特征对因变量的共同影响，并能够同时处理线性和非线性的关联。通过基于一组特征对因变量的共同影响，结合流失预测的问题本身，设计算法选择对用户流失影响较大的一组特征，帮助流失预测的建模，并利用所选择的特征与用户流失的相关性对用户流失的现象进行解释。

根据本发明的技术方案，本发明以信息价值为基础来设计特征选择的方法，以同时处理线性和非线性的关联。在本发明中，信息价值是一种对单一自变量与因变量之间关系衡量的指标，与现有技术不同，本发明以信息价值为基础来定义新的衡量指标，探索多个自变量对因变量的共同影响。这种新的衡量指标被定义为共同信息价值。

在对单一自变量的衡量中，信息价值的定义如下：

将一组样本(含有正样本和负样本两种)按照其在一个自变量上值的大小进行排序，再按照一定规则把样本进行分组(每一组中的样本是相邻的)。假设样本集合中含有n₁个正样本，n₀个负样本，并且第i组中有n_i,1个正样本和n_i,0个负样本，则该自变量的信息价值的计算公式为：

其中

表示第i组样本中负样本在样本集合的负样本中所占的比例；

表示第i组样本中正样本在样本集合的正样本中所占的比例。

其中，将样本进行分组的方式包括很多种，有根据分位数将样本进行分组，也有的利用信息增益找出能够将正负样本分割得比较好的分割点，然后根据分割点对样本进行分组。分位数亦称分位点，是指将一个随机变量的概率分布范围分为几个等份的数值点，常用的有中位数(即二分位数)、四分位数、百分位数等。

由于信息价值的值与样本的分组方式是直接相关的，只有用适当的分组方式才能够在信息价值的计算中将自变量所携带的真实价值体现出来。因此，本发明的实施例中，在进行信息价值计算时，采用基于信息增益的样本分组方式。其中，信息增益的定义是：

若一个样本集合X中含有n₁个正样本，n₀个负样本，正负样本的比例分别为

则这个样本集合X的信息熵为

假设一个操作A将样本集合X分为m个部分，每部分记录为X_i，则分割操作A对应的熵为

最终，分割操作A的信息增益的定义表示为：H(X)-H(X|A)。

根据信息论的定义，把样本分成两份时，能够把正负样本区分最好的方式会带来最大的信息增益，而让正负样本区分性最好也正是本发明在计算信息价值时所需要的。因此，本发明的实施例中，在进行样本分组时，是利用信息增益来找出能够将正负样本分割得比较好的分割点，然后根据分割点对样本进行分组。具体地，可以按照如下方式进行样本分组：

(1)对样本按照所关注特征上的值进行升序排列；

(2)选取所有正负样本的分界点作为候选的分割点，称为潜在分割点；

(3)选择带来信息增益最大的点作为分割点，以此为界将样本分为两组；

(4)对分割后的每一组都进行(3)中的操作，直到达到停止条件。

本发明实施例中选用的停止条件为进行样本分组所带来的消耗大于不进行分组带来的消耗，消耗定义为保存这一组样本的标签信息和分割点的位置信息所需要的存储空间。另外，如果一组样本中没有潜在分割点也会停止对这一组样本继续分组。

以上介绍了在对单一自变量进行特征价值衡量时，信息价值的定义和计算方法。本发明在对多个自变量的衡量中，也借鉴这种方法，将样本根据多个自变量的信息进行分组，并使用上述计算信息价值的方法来计算出衡量多个自变量对因变量作用的指标。例如，在有M个自变量，且按照自变量j∈{1,2,3,…,M}对样本进行分组时对应的一组分割点表示为S_j的情况下，按照S₁∪S₂∪…∪S_M即可得到对样本进行分组的所有分割点，之后，即可根据这些分割点对样本进行分组，再根据这种分组方式计算信息价值，最终选择能够使得信息价值最大化的自变量组合。其中，对于每次通过计算信息价值来选择自变量特征时，均只选取一个自变量，若自变量有多个，则可随意选取一个，如此，即可通过对特征的多次选取以尽量得到所选择的特征的排序。那么，关键的一步就是如何利用自变量的信息对样本进行分组。一种直观的方式是按照每个自变量对样本进行排序和分组一次，将按照每个自变量分组的结果取交集。然而，直接采用这种方式可能带来以下缺陷：

1、会将样本分成非常多的组，造成冗余，从而影响信息价值计算的效果；

2、在实际应用的时候，为了选择最优的一组自变量，需要穷举每一种可能的自变量组合，计算量过大。

为了克服上述缺陷，本发明使用贪心的模式，首先选择一个能够最大化其单一信息价值的自变量，再基于已经选择的自变量，逐步选入能够在已选择自变量的基础上带来最多额外的信息价值的自变量，额外增加的信息价值在此即定义为信息价值增益。即：本发明用贪心的方式定义信息价值增益，用来衡量一个特征在已有特征集合的基础上带来的额外信息价值。

根据信息价值的定义可以发现，一个自变量的信息价值实际上是按照这个自变量将样本分组后所获得的信息价值。因此，一个自变量基于之前选出的自变量所能带来的额外信息价值实际上就是基于之前自变量所对应的样本分组，根据当前自变量对样本再次进行分组后所增加的信息价值。基于这一思想，对额外带来的信息价值——信息价值增益定义如下：

假设之前已选择的特征集合Φ在计算信息价值时已经把样本分为L份，表示为Ω＝{Ω₁,Ω₂,...,Ω_L}，当前特征k在现有分组的基础上，对其中的每一组样本Ω_i，i∈(1,2,…,L)继续进行分组，得到

θ_i为分组个数。假设在当前特征k的基础上已经有一个特征集合Φ被选中，则之前选中的特征集合Φ的共同信息价值为：

其中，P_i,0表示Ω_i中负样本在总的负样本中所占比例，P_i,1表示Ω_i中正样本在总的正样本中所占比例。之前选中的特征集合Φ加上特征k的共同信息价值为：

其中，P_i,j,0表示Ω_i,j中负样本在总的负样本中所占比例，P_i,j,1表示Ω_i,j中正样本在总的正样本中所占比例，j∈(1,2,…,θ_i)。在此定义的基础上，特征k的信息价值增益为IV_Φ,k-IV_Φ。

基于以上分析内容，本发明提出了一种特征选择的方法。

图1是根据本发明实施例的特征选择的方法的主要步骤示意图。如图1所示，本发明实施例的特征选择的方法主要包括如下的步骤S101至步骤S104。

步骤S101：获取备选特征集合和样本的当前分组结果；

步骤S102：对备选特征集合中的每个备选特征，分别基于该备选特征对当前分组结果中的每个分组分别进行再次分组，然后基于再次分组的结果计算该备选特征的信息价值增益；

步骤S103：将信息价值增益最大的备选特征作为选择的特征并将其从备选特征集合中删除以更新备选特征集合，以及使用再次分组的结果更新当前分组结果；

步骤S104：重复执行以上步骤，直至满足预设的停止条件时结束特征选择。

在特征选择过程最初，备选特征集合即为所有特征，样本的当前分组结果即为样本本身。步骤S104中即为重复执行以上的步骤S101至步骤S103。

根据本发明的实施例，基于备选特征对当前分组结果中的每个分组分别进行再次分组具体可以包括：

对当前分组结果中的每个分组，重复执行以下操作直至满足第一停止条件：

基于备选特征选取该分组的潜在分割点集合；

分别计算使用每个潜在分割点进行样本分组后带来的信息增益；

将信息增益最大的潜在分割点作为选择的分割点，根据选择的分割点将该分组分为两个子分组；

使用两个子分组来更新该分组。

其中，在本发明的一个实施例中，在基于备选特征选取该分组的潜在分割点集合时，具体例如通过以下步骤来实现：

对该分组，按照备选特征的特征值进行升序排列；

从排列后的分组中选取所有正负样本的分界点作为该分组的潜在分割点集合。

在本发明的实施例中，第一停止条件包括进行分组所带来的消耗大于不进行分组带来的消耗或不存在潜在分割点，其中，消耗为保存当前分组样本的标签信息和分割位置信息所需要的存储空间。

根据本发明的实施例，基于再次分组的结果计算备选特征的信息价值增益包括：

基于再次分组的结果计算已选择的特征集合与备选特征的第一共同信息价值；

获取已选择的特征集合的第二共同信息价值；

根据第一共同信息价值和第二共同信息价值计算备选特征的信息价值增益。

其中，在计算备选特征的信息价值增益时，是通过将第一共同信息价值与第二共同信息价值进行减法运算得到的。

根据本发明的一个实施例，预设的停止条件包括选择的特征的信息价值增益为0或备选特征集合为空。

根据本发明的另一个实施例，在结束特征选择之后，还包括：

根据选择的特征以及特征被选择的顺序生成特征选择结果序列；

通过交叉验证的方式确定需选择的特征数量，并根据特征数量对特征选择结果序列进行二次选择，以得到最终的特征选择结果。

在一个实施例汇总，通过交叉验证的方式确定需选择的特征数量时，具体可以是按照如下方法来执行：

将选择的特征按照特征被选择的顺序逐个递增地添加到模型中，每添加一个特征就使用交叉验证的方式来评估模型效果，最终确定效果最好的模型所对应特征的数量即为需选择的特征数量；

其中，交叉验证的方式为：将样本分成n(n为大于等于2的正整数)份，依次使用其中的n-1份样本来训练模型，并使用余下的1份样本作为测试数据来进行测试，将每份样本都作为测试数据进行测试之后，综合评估模型效果。

本发明实施例中的特征选择结果序列是将备选特征进行逐步过滤并按照特征之间共同作用的重要程度进行排序得到的，在实际的建模中，由于最后几个选择出的特征往往对因变量的影响较小，在建模过程中可能难以提升模型的效果，甚至引入噪声。为了解决这个问题，可以通过交叉验证的方式确定需要选择的特征的数量N，并将特征选择结果序列的前N个特征作为最终的特征选择结果，并使用该最终的特征选择结果来进行模型训练，并用于做客户流失的预测。

其中，交叉验证是将样本分成n份，依次用其中的n-1份作为训练集训练模型，使用余下的一份作为测试集以进行测试，直至将每一份样本都作为测试数据进行一遍之后综合评估效果。使用交叉验证的方法来确定选择特征的数量是指将特征排序后逐个加入模型，每加一个特征就使用交叉验证评估一下效果，最终选择效果最好的那一次所对应特征的数量。

根据本发明的一个实施例，以某物流公司对客户的流失预警为例，流失预警项目对该物流公司所服务的客户，预测哪些在近期会流失，以帮助相关责任人有针对性地进行维护。按照业务口径，如果一个客户连续三个月不使用某公司的物流则视为流失。因此，可收集每个客户过去使用该公司物流的情况，建立机器学习的模型，对客户在近期是否会流失进行预测。

本发明在建模过程中主要使用极端梯度提升XGBoost(eXtreme GradientBoosting)方法，原因是这种方法预测能力强，可靠性高，而且具有比较好的可解释性，在学术界和工业界都收到了广泛的认可。在使用XGBoost进行建模之前，首先使用本发明技术方案中的方法对特征进行筛选，再使用经过筛选的与客户流失关系比较紧密的特征拟合模型，进行预测。由于流失客户的预测为一个二分类问题，预测的准确性用精确率，召回率和AUC(Area Under Curve)三个性能指标进行衡量。

在历史数据中，对样本的生成方式如下：每个客户在一个时间窗口的历史数据为一条样本。具体方式为，在一个客户使用该物流公司物流服务的时间线上以每周为单位取时间点。客户在每个时间点产生的数据均为一条样本。以一个时间点为界，客户在这个时间点之前若干个周(例如10周)使用该物流公司物流产生的数据用来提取特征，在这个时间点之后的三个月的数据用来获得标签，如果客户在该时间点之后三个月没有使用该物流公司物流则打标为流失，反之为非流失。

在自变量的加工中，主要提取三个维度的数据，包括客户自身属性的数据，如GMV，客单价等，运单相关的属性，如运单量，单均运费，单均重量等，物流服务的属性，如投诉数量，时效相关属性，履约率等。以上提到的不同数据属性中有很多随时间会发生变化的，如运单量，运费等。这一类数据在一个时间窗口中实际上是个时间序列。但是由于本发明中的特征选择算法和XGBoost都只能使用标量，故对这些特征进行了进一步的加工。首先对于任意时间序列的特征，均选取不同时间窗口，取平均数，中位数，方差，最大值和最小值。另外对于单量，充分利用rfm(最近一次消费Recency、消费频率Frequency、消费金额Monetary)模型的指导，选取过去一段时间窗口中使用了该物流公司物流的周数占总周数的比和最近一次使用该物流公司物流距离样本所属时间点的时间间隔。

在对样本和特征加工完成以后，使用本发明中基于信息价值增益的特征选择算法来对与流失相关的一组具有组合性质的特征进行选取，再使用选取的特征，用XGBoost算法进行建模，预测客户在未来的流失情况。

图2是本发明一个实施例的特征选择的实现流程示意图。如图2所示，特征选择的实现流程主要包括如下步骤：

(1)样本输入后，初始化已经选择的特征集合为

初始化当前样本的分组为Ω＝{Ω₀}，Ω₀是所有样本的集合，IV_Φ＝0；

(2)基于当前样本的分组，对每一个备选特征计算共同信息价值：

在计算过程中按照基于信息增益的方法对样本进行再次分组；

(3)计算每个备选特征的信息价值增益IV_Φ,k-IV_Φ，选择使信息价值增益最大的特征k'，Φ＝Φ∪{k'}；

(4)从备选特征集合中将k'删除；

(5)按照此次样本分组更新Ω，并更新IV_Φ；

(6)重复执行步骤(2)到(5)，直到对目前所有备选特征的信息价值增益IV_Φ,k-IV_Φ＝0或所有备选特征都已被选中；

(7)输出已经选择的特征集合以及其中每个特征被选中的顺序；

(8)通过交叉验证的方式确定所选择特征的数量，以进行进一步特征选择；

(9)使用最终选择的特征进行数据建模。

图3是根据本发明实施例的特征选择的装置的主要模块示意图。如图3所示，本发明实施例的特征选择的装置300主要包括数据获取模块301、分组计算模块302、特征选择模块303和停止判断模块304。

数据获取模块301，用于获取备选特征集合和样本的当前分组结果；

分组计算模块302，用于对所述备选特征集合中的每个备选特征，分别基于所述备选特征对所述当前分组结果中的每个分组进行再次分组，然后基于再次分组的结果计算所述备选特征的信息价值增益；

特征选择模块303，用于将信息价值增益最大的备选特征作为选择的特征并将其从备选特征集合中删除以更新备选特征集合，以及使用再次分组的结果更新当前分组结果；

停止判断模块304，用于重复执行以上模块，直至满足预设的停止条件时结束特征选择。

根据本发明的一个实施例，分组计算模块302还可以用于：

对所述当前分组结果中的每个分组，重复执行以下操作直至满足第一停止条件：

基于所述备选特征选取所述分组的潜在分割点集合；

将信息增益最大的潜在分割点作为选择的分割点，根据所述选择的分割点将所述分组分为两个子分组；

使用所述两个子分组来更新所述分组。

根据本发明的另一个实施例，分组计算模块302在基于所述备选特征选取所述分组的潜在分割点集合时，还可以用于：

对所述分组，按照所述备选特征的特征值进行升序排列；

从排列后的所述分组中选取所有正负样本的分界点作为所述分组的潜在分割点集合。

根据本发明的又一个实施例，所述第一停止条件包括进行分组所带来的消耗大于不进行分组带来的消耗或不存在潜在分割点。

根据本发明的另一个实施例，分组计算模块302还可以用于：

基于再次分组的结果计算已选择的特征集合与所述备选特征的第一共同信息价值；

获取所述已选择的特征集合的第二共同信息价值；

根据所述第一共同信息价值和所述第二共同信息价值计算所述备选特征的信息价值增益。

根据本发明的又一个实施例，预设的停止条件例如可以包括所述选择的特征的信息价值增益为0或所述备选特征集合为空。

根据本发明的再一个实施例，特征选择的装置300还可以包括二次选择模块(图中未示出)，用于：

在结束特征选择之后，根据选择的特征以及特征被选择的顺序生成特征选择结果序列；

通过交叉验证的方式确定需选择的特征数量，并根据所述特征数量对所述特征选择结果序列进行二次选择，以得到最终的特征选择结果。

根据本发明实施例的技术方案，二次选择模块在通过交叉验证的方式确定需选择的特征数量时，还可以用于：

将所述选择的特征按照特征被选择的顺序逐个递增地添加到模型中，每添加一个特征就使用交叉验证的方式来评估模型效果，最终确定效果最好的模型所对应特征的数量即为需选择的特征数量；

其中，所述交叉验证的方式为：将样本分成n(n为大于等于2的正整数)份，依次使用其中的n-1份样本来训练模型，并使用余下的1份样本作为测试数据来进行测试，将每份样本都作为测试数据进行测试之后，综合评估模型效果。

根据本发明实施例的技术方案，通过获取备选特征集合和样本的当前分组结果；对备选特征集合中的每个备选特征，分别基于备选特征对当前分组结果中的每个分组分别进行再次分组，然后基于再次分组的结果计算备选特征的信息价值增益；将信息价值增益最大的备选特征作为选择的特征并更新备选特征集合和当前分组结果；重复执行以上步骤，直至满足预设的停止条件时结束特征选择，实现了通过信息价值增益来衡量一个特征在已有特征集合的基础上带来的额外信息价值，且在基于一个特征进行样本分组时，是在已选特征的分组结果基础上进行的，从而能够衡量特征之间的互补性和一组特征对因变量的共同影响，并能够同时处理线性和非线性的关联。通过基于一组特征对因变量的共同影响，结合流失预测的问题本身，设计算法选择对用户流失影响较大的一组特征，帮助流失预测的建模，并利用所选择的特征与用户流失的相关性对用户流失的现象进行解释。

图4示出了可以应用本发明实施例的特征选择的方法或特征选择的装置的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的特征选择的方法一般由服务器405执行，相应地，特征选择的装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本发明实施例的终端设备或服务器的计算机系统500的结构示意图。图5示出的终端设备或服务器仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括数据获取模块、分组计算模块、特征选择模块和停止判断模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，数据获取模块还可以被描述为“用于获取备选特征集合和样本的当前分组结果的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取备选特征集合和样本的当前分组结果；对所述备选特征集合中的每个备选特征，分别基于所述备选特征对所述当前分组结果中的每个分组分别进行再次分组，然后基于再次分组的结果计算所述备选特征的信息价值增益；将信息价值增益最大的备选特征作为选择的特征并将其从所述备选特征集合中删除以更新所述备选特征集合，以及使用所述再次分组的结果更新所述当前分组结果；重复执行以上步骤，直至满足预设的停止条件时结束特征选择。

根据本发明实施例的技术方案，通过获取备选特征集合和样本的当前分组结果；对备选特征集合中的每个备选特征，分别基于备选特征对当前分组结果中的每个分组进行再次分组，然后基于再次分组的结果计算备选特征的信息价值增益；将信息价值增益最大的备选特征作为选择的特征并更新备选特征集合和当前分组结果；重复执行以上步骤，直至满足预设的停止条件时结束特征选择，实现了通过信息价值增益来衡量一个特征在已有特征集合的基础上带来的额外信息价值，且在基于一个特征进行样本分组时，是在已选特征的分组结果基础上进行的，从而能够衡量特征之间的互补性和一组特征对因变量的共同影响，并能够同时处理线性和非线性的关联。通过基于一组特征对因变量的共同影响，结合流失预测的问题本身，设计算法选择对用户流失影响较大的一组特征，帮助流失预测的建模，并利用所选择的特征与用户流失的相关性对用户流失的现象进行解释。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种特征选择的方法，其特征在于，包括：

获取备选特征集合和样本的当前分组结果；

对所述备选特征集合中的每个备选特征，分别基于所述备选特征对所述当前分组结果中的每个分组分别进行再次分组，然后基于再次分组的结果计算所述备选特征的信息价值增益；

将信息价值增益最大的备选特征作为选择的特征并将其从所述备选特征集合中删除以更新所述备选特征集合，以及使用所述再次分组的结果更新所述当前分组结果；

重复执行以上步骤，直至满足预设的停止条件时结束特征选择。

2.根据权利要求1所述的方法，其特征在于，基于所述备选特征对所述当前分组结果中的每个分组分别进行再次分组包括：

基于所述备选特征选取所述分组的潜在分割点集合；

使用所述两个子分组来更新所述分组。

3.根据权利要求2所述的方法，其特征在于，基于所述备选特征选取所述分组的潜在分割点集合包括：

对所述分组，按照所述备选特征的特征值进行升序排列；

4.根据权利要求2所述的方法，其特征在于，所述第一停止条件包括进行分组所带来的消耗大于不进行分组带来的消耗或不存在潜在分割点。

5.根据权利要求1所述的方法，其特征在于，基于再次分组的结果计算所述备选特征的信息价值增益包括：

获取所述已选择的特征集合的第二共同信息价值；

6.根据权利要求1所述的方法，其特征在于，所述预设的停止条件包括所述选择的特征的信息价值增益为0或所述备选特征集合为空。

7.根据权利要求1所述的方法，其特征在于，结束特征选择之后，还包括：

8.根据权利要求7所述的方法，其特征在于，通过交叉验证的方式确定需选择的特征数量包括：

9.一种特征选择的装置，其特征在于，包括：

数据获取模块，用于获取备选特征集合和样本的当前分组结果；

分组计算模块，用于对所述备选特征集合中的每个备选特征，分别基于所述备选特征对所述当前分组结果中的每个分组分别进行再次分组，然后基于再次分组的结果计算所述备选特征的信息价值增益；

特征选择模块，用于将信息价值增益最大的备选特征作为选择的特征并将其从所述备选特征集合中删除以更新所述备选特征集合，以及使用所述再次分组的结果更新所述当前分组结果；

停止判断模块，用于重复执行以上模块，直至满足预设的停止条件时结束特征选择。

10.一种特征选择的电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。