CN110706015B

CN110706015B - 一种面向广告点击率预测的特征选取方法

Info

Publication number: CN110706015B
Application number: CN201910775155.5A
Authority: CN
Inventors: 刘譞哲; 马郓; 吕广利; 陈震鹏; 陆璇
Original assignee: Peking University Information Technology Institute (tianjin Binhai)
Current assignee: Peking University Information Technology Institute (tianjin Binhai)
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2023-06-13
Anticipated expiration: 2039-08-21
Also published as: CN110706015A

Abstract

本发明公开了一种面向广告点击率预测的特征选取方法，包括：步骤(1)构造特征集；步骤(2)对特征集的所有特征进行评估，筛选并标记所有无益特征，并将对模型影响最大的无益特征从特征集中删除，再更新特征集；步骤(3)对无益特征进行评估，筛选并标记该次评估产生的新无益特征，将对模型影响最大的新无益特征删除，再次更新特征集；若未产生新无益特征，则停止操作，得到的特征集为有效特征集；若产生新无益特征，则迭代执行步骤(3)，直至未产生新无益特征。本发明采用双向式特征选择方式对特征集进行选择筛选，降低了迭代次数，不需再对特征全集进行迭代，能得到较大的模型提升效果，特征选择工程时间复杂度低，工作效率高。

Description

一种面向广告点击率预测的特征选取方法

技术领域

本发明涉及互联网技术领域，具体涉及一种面向广告点击率预测的特征选取方法。

背景技术

随着移动智能设备的普及，移动智能设备成了人们与互联网接触的主要入口之一。移动端广告投放占比也越来越大，移动端广告的精准投放是提高广告收入的关键。其中竞价广告已经成为移动端广告主流之一。

广告投放数据分为三种类型：连续数据：主要是指数据取值为实数且可以取该类数据取值分布范围内任意值的数据。如广告在某一维度的点击率信息。离散数据：主要是指数据取值为可枚举的字符串且数量较少的数据。包括设备信息，地理位置信息，时间信息等。长尾数据：在广告投放数据中，长尾数据主要是指用户Id数据，为了不影响用户体验，一般开发者都会限制同一用户广告展示频次，因此这类数据常常具有长尾分布。

点击率预测系统是广告投放系统的核心部分。主要功能是根据当前环境与广告资源，预测用户点击广告这一行为发生的可能性。为了精准预测广告的点击率，充分利用大数据中的有效信息，需要进行复杂的特征设计。

广告投放数据来源复杂，除了广告展示请求数据，广告点击行为数据之外，为了更好地进行模型预测，以及更准确地描述广告数据的特点，会引入第三方数据，如应用商店的应用描述信息、第三方IP库信息等。

为了让基于逻辑回归算法的点击率预测模型充分利用大量数据中的有效信息，需要进行复杂的特征设计。然而现有的特征生成方法存在以下三个问题：

1.针对大量长尾数据，现有方法大多将其舍弃，无法有效利用其中的信息；

2.为了更好地表达特征间的非线性关系，现有方法通常对特征进行两两组合，导致候选特征数量过多，难以从其中快速选择有效的特征。针对特征两两组合带来的候选集过于庞大的问题，通常采取的方式是通过特征选择工程筛选出合适的组合特征，丢弃对模型不友好的特征，这样得到的特征集才是可实际使用的，但是传统的特征选择工程时间复杂度高，难以满足需求。因此需要设计高效的选择算法来解决这一问题。

发明内容

本发明的一个目的是提供一种面向广告点击率预测的特征选取方法的新的技术方案。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本发明实施例的一个方面，提供一种面向广告点击率预测的特征选取方法，包括：

步骤(1)利用广告点击数据生成的数据特征构造特征集；

步骤(2)对所述特征集的所有特征进行评估，筛选并标记所有无益特征，将对广告点击率预测模型影响最大的无益特征从所述特征集中删除，再更新所述特征集；

步骤(3)对所述更新后的特征集内的所有无益特征进行评估，筛选并标记该次评估产生的新无益特征，取消其他无益特征的标记，并将对所述广告点击率预测模型影响最大的所述新无益特征从所述更新后的特征集中删除，再次更新所述特征集；

若未产生新无益特征，则停止操作，得到的特征集为有效特征集；

若产生新无益特征，则迭代执行步骤(3)，直至未产生新无益特征。

进一步地，所述步骤(1)中，所述数据特征包括：离散数据特征、连续数据离散化特征和/或长尾数据归类特征。

进一步地，所述连续数据离散化特征的获取方法包括：

枚举所有类型的连续数据；

分别利用每种类型的连续数据生成特征集；

调用梯度提升树模型训练，得到经过验证的梯度提升树模型后，提取梯度提升树的所有树的所有内部结点的分裂值，组成该种类型数据的分箱数组。

进一步地，所述长尾数据归类特征的获取方法包括：

定义取值频次相同或相近的长尾数据为同一个数据，将取值频次相同或相近的长尾数据分组，同一组长尾数据视为一个数据；

设置特征取值频次阈值，将长尾数据中的取值频次低于特征取值频次阈值的长尾数据使用取值频次进行分组，分组后的每组长尾数据视为同一个数据；

在对长尾数据进行分组处理后，使长尾数据中的取值频次大于或等于特征取值频次阈值的长尾数据进入特征集。

进一步地，所述对所述特征集的所有特征进行评估，筛选并标记所有无益特征，包括：

用所述特征集对广告点击率预测模型进行训练和测试，得到评估参考值；

对所述特征集中的每个特征进行缺省检验，获取每个特征的评估值；

将每个所述评估值分别与所述评估参考值进行对比，若评估值优于所述评估参考值，则将对应的特征标记为无益特征；

从所有无益特征中选出对所述预测模型的性能影响最大的一个并将其从所述特征集中删除，更新所述特征集。

进一步地，所述对所述更新后的特征集内的所有无益特征进行评估，筛选并标记该次评估产生的新无益特征，包括：

用所述更新后的特征集对所述广告点击率预测模型进行训练和测试，得到新的评估参考值；

对所述更新后的特征集中的每个无益特征进行缺省检验，获取对应于特征集中每个无益特征的评估值；

将对应于所述特征集中每个无益特征的每个评估值分别与所述新的评估参考值进行对比，若评估值由于所述新的评估参考值，则保留其无益特征标记；

进一步地，所述取消其他所述无益特征的标记，包括：

若评估值劣于或等同于所述评估参考值，则取消对应的无益特征的无益特征标记。

进一步地，所述进行缺省检验的步骤包括：

单独删除特征集中的某个特征，形成与该被删除的特征相对应的特征集，利用所述与该被删除的特征相对应的特征集对所述广告点击率预测模型进行训练和测试，得到对应于该被删除的特征的评估值。

根据本发明实施例的另一个方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现所述的面向广告点击率预测的特征选取方法。

根据本发明实施例的另一个方面，提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现所述的面向广告点击率预测的特征选取方法。

本发明实施例提供的技术方案可以包括以下有益效果：

本发明实施例提供的面向广告点击率预测的特征选取方法，采用双向式特征选择的方式对特征集进行选择筛选，降低了迭代次数，不需要再对特征全集进行迭代，可以得到较大的模型提升效果，特征选择工程时间复杂度低，特征选择耗时短，工作效率高，可以很好地满足实际应用的需求。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本发明实施例了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例的流程图；

图2为本申请另一个实施例的流程图；

图3为GBDT算法编码图；

图4为长尾数据分布示意图；

图5为GBDT寻找临界点的原理示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

如图1所示，本申请的一个实施例，提供了一种面向广告点击率预测的特征选取方法，包括：

步骤(1)利用广告点击数据生成的数据特征构造特征集；

步骤(2)对所述特征集的所有特征进行评估，筛选并标记所有无益特征，并将对广告点击率预测模型影响最大的无益特征从所述特征集中删除，再更新所述特征集；

步骤(3)对所述更新后的特征集内的所有无益特征进行评估，筛选并标记该次评估产生的新无益特征，取消其他所述无益特征的标记，并将对所述广告点击率预测模型影响最大的所述新无益特征从所述更新后的特征集中删除，再次更新所述特征集；

在某些实施方式中，将用于对广告点击率预测模型进行训练的特征集称为训练集，只是便于描述的需要，表示该特征集是用于训练的用途，并不必然表示其不同于本实施例所述的特征集。

可选地，所述步骤(1)包括：利用离散数据特征、连续数据离散化特征和/或长尾数据归类特征构造特征集。

可选地，所述连续数据离散化特征的获取方法包括：

枚举所有类型的连续数据；

分别利用每种类型的连续数据生成特征集；

可选地，所述长尾数据归类特征的获取方法包括：

可选地，所述对所述特征集的所有特征进行评估，筛选并标记所有无益特征，包括：

可选地，所述对所述更新后的特征集内的所有无益特征进行评估，筛选并标记该次评估产生的新无益特征，包括：

可选地，所述取消其他所述无益特征的标记，包括：

可选地，所述进行缺省检验的步骤包括：

本实施例另外还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现所述的面向广告点击率预测的特征选取方法。

一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现所述的面向广告点击率预测的特征选取方法。

如图2所示，本申请的另一个实施例提供一种面向广告点击率预测的特征选取方法，包括：

步骤S0：将离散数据直接作为离散数据特征；

步骤S1、对连续数据进行离散化操作，生成连续数据离散化特征；

该步骤利用离散特征生成算法解决现有技术中连续数据离散化效率低下且准确度不足的问题。离散特征的内积乘法运算快、效率高、容易扩展。而将连续数据离散化主要考虑的因素有以下几点：

一是相近的数值对模型的影响相近，离散化是为了将相近的连续值合并，使得他们在模型中有相同的表现。但是在临界值附近的数据取值就会出现摇摆，即划分到哪一个箱都可以，这就对离散化方法有很高的要求。

二是离散化可以减少异常值对模型训练的干扰。比如当某个广告位的CTR＝1时，所有广告展示行为都带来了点击，那么这个广告位的数据取值对预测广告点击概率有很大影响。之所以CTR这么高，除了数据不合理之外，还有一种可能就是广告曝光量太少。所以不能直接删除。同理还有CTR＝0的情况。通过离散化可以减轻这两种情况对模型训练造成的干扰。

如何处理连续值是点击率预测模型常见的一个问题。连续值在点击率预测系统中重要性不言而喻。大多数连续值是从数据集得到的统计结果，因此具有反馈意义。比如广告的历史点击率，是描述广告吸引用户程度的数据。

一般情况下，连续数据的离散化都是由有经验的人提出多种合理的划分方式，然后通过实验来确定哪一种划分方式对机器学习最终的效果提升更多，来决定采用哪一个或者几个最有效的划分方式。然而这种划分方式不仅要求开发人员掌握相关数据划分的经验，而且这些划分方法很难避免临界值附近的摇摆问题。数据集一旦改变，尤其在广告投放系统中，随着数据的积累和反馈，很多连续数据的分布会发生变化，又需要重新提出多种划分，重复测试。即使对于经验丰富的程序员来说，寻找连续数据的临界点也是很艰难的事情。

本实施例在最开始尝试处理连续数据时就是使用这种方式。这种方式需要统计连续数据的分布，然后尝试将每个点作为分割点，去判断将数据集分割为两个部分后的方差，将方差较小的点当作临界点数组，然后通过实验验证这些点的某部分组合是否合适，这种划分方式的缺点是依靠人工划分临界点组合很难覆盖到最优划分。本实施例通过这种方式寻找一个可以接受的划分大概需要2-3天的时间。

本实施例通过分析发现，在寻找临界点时，通过分析这个数据划分数据集为两部分的方差之和来判断是否属于临界点，这和GBDT(Gradient BoostingDecision Tree，梯度提升树)算法逻辑很相似。GBDT算法的树在分裂子结点时，也是通过判断分裂后的子结点方差之和最小来选择分裂阈值。因此本实施例结合Facebook的工作，提出了一种程序自动化寻找连续数据临界点的方法。如图3所示，Facebook的做法是将数据集传递给GBDT模型训练，得到每条数据在GBDT的每颗树的叶子节点编号作为新的编码，然后使用经典的逻辑回归模型做训练。

本实施例同样参考这一方法进行连续数据离散化。GBDT算法可以有效地处理连续数据，其主要原因是树结构可以对连续数据进行二分。因此，只要使用GBDT算法对连续值划分，就可以得到连续数据候选的临界点。本实施例获取的是GBDT的树的内部结点的值。GBDT树的内部结点描述的是划分的规则，对于连续数据，内部结点的值则是一个临界点，使用这个点进行连续数据的划分，可以得到最大的方差增益。因此这个点可以用来作为本实施例的连续数据候选临界点。那么只需要使用单个连续数据来训练模型，GBDT树的所有内部结点就全部都是候选的临界点。只要多训练几棵树，就可以把所有候选的临界点都提取出来。当然，这种方式得到的结果也需要验证。如图4，可以得到最多6个值的临界点用作分箱，分别为：

(node1.value，node2.value，node3.value，node4.value，node5.value，node6.value)

这些点需要去重，因为可能会有重复值。

离散特征生成算法思路：枚举所有类型的连续数据。对于每种连续数据，生成训练集，训练集的数据只包含这种数据，标签为正负样本值0或者1。调用GBDT模型训练，得到经过验证的GBDT模型后，提取GBDT的所有树的所有内部结点的分裂值threshold，组成数组。这个数组就是这种类型数据的分箱数组。为了简化模型以及便于计算，可以为threshold指定小数精确度。在提取GBDT树的节点时，每个树的权重不一样，树在GBDT模型的树数组中下标越大，树的权重越小，同一颗树的不同层的节点重要性也不同。因此可以得到前i个临界点组成的分箱数组(bin₀，...bin_i)，然后验证i的取值从1到n，这些划分哪个对模型训练的提升最大，来决定i的取值。

使用GBDT算法来分析连续数据临界点的方式相较于人工寻找临界点不容易出错。人工寻找临界点，所有临界点都是基于数据全集的划分。而GBDT算法是每次划分后基于划分的子集寻找临界点。而且每个临界点的重要性是已经排序的。因此只需要数次验证即可得到较为合理的划分方式，在数个小时内即可完成。该方法将离散特征生成时间从天级别降低到小时级别。

离散特征生成算法能够实现对连续数据快速离散化。通过GBDT算法寻找连续数据的临界点具有重要性排序，可以更快速的寻找临界点组合。不需要像人工寻找临界点一样完全依靠经验来判断。相对于经验划分，只需要对每个连续数据执行一次GBDT算法即可得到通过所有可能的划分方式，减少了开发者寻找连续数据临界点及进行排列组合的工作量。同时离散特征生成算法可以寻找到很多开发人员分析数据难以考虑到的临界点。

步骤S2、对长尾数据进行归类，生成长尾数据归类特征；

该步骤利用长尾数据归类算法解决长尾数据难以被有效利用的问题；

广告投放数据中包含广告Id，广告组Id，用户Id等数据，这类数据统称为长尾数据。这些数据的一个重要特点就是数量多，甚至多达百万维，呈现长尾分布。长尾分布如图5所示。

长尾数据在个性化推荐上很重要。例如针对用户做个性化推荐，如果不利用用户Id特征，就无法做个性化匹配；利用用户Id数据，就需要考虑长尾部分数据，因为长尾效应一个特点就是长尾数据累积量超过了流行数据。广告投放里，搜索推荐类广告的价值高于普通广告位，就是因为搜索类广告的投放是个性化投放，完全针对搜索词来投放，可以理解为针对搜索相同词的用户做个性化推荐。根据这一点，可以拓展到针对同一类型用户做推荐。那么问题的关键在如何界定同一类型用户。

目前大多数研究对长尾数据的处理方式都是精细到数据取值，这种方式在大数据集上理论是可行的，只要数据集足够大，足够覆盖到每个数据取值，并且每个数据取值出现的次数足够多，就可以学习到合适的机器学习模型。但是实际数据集很难满足这个要求。尤其是用户数据，有很多长尾数据，用户浏览广告次数分布不均匀。为了考虑用户使用的体验，大多数应用对同一用户展示广告的频次都不会很高。目前机器学习的研究大都是研究改进算法，然而现在并没有针对长尾数据效果很好的算法，针对长尾数据都是先过滤低频次数据后直接进行one-hot编码，这种方式精度虽高，但是由于数据的局限性，都很容易过拟合。

本实施例借鉴了搜索类广告的特点。搜索类广告点击率高，并不是细分到用户做推荐，而是对同一类型用户做推荐，其定义同一类型用户的关键就是搜索词一致的用户。本实施例所做广告推荐需要从其他维度来划分同一类数据取值。

本实施例从用户的取值频次出发，定义取值频次相同或相近的用户视为同一类型用户，将取值频次相同或者相近的用户分组，这样每组用户的取值频次就足够多到能够进入训练集。这种做法主要是针对长尾数据有效，使得更多的长尾数据参与到训练集。如果直接进行one-hot编码，那么取值频次少的长尾数据或者有很大的权重导致过拟合，或者因为设置了特征取值频次阈值而被过滤掉，都不是好的选择。

本实施例设置了特征取值频次阈值index_threshold，即数据取值频次低于阈值将会被丢弃。但是数据取值频次少的长尾数据通过相似归类，就有可能进入训练集。取值频次大于阈值的长尾数据占比小，这部分长尾数据取值可以直接进入训练集。这样进行长尾数据归类，相较于不进行长尾数据归类，能够引进更多的长尾数据，有利于个性化广告推荐。

数据集会出现另外一种情况，即取值频次少的长尾数据占比会很大，因为大部分长尾数据取值都是很小，简单使用长尾数据归类算法，会导致取值频次很少的数据取值进入训练集。但是取值频次不是特别少，却低于index_threshold的数据即使合并后也未必能进入训练集。这时直接使用数据取值频次等长归类就不是最好的选择，可以采用数据取值频次对数归类。具体使用哪一种更合适，可以通过实验来决定。除此之外，也可以考虑针对长尾数据，单独设置index_threshold。

长尾数据归类算法并不会从理论上对模型有较大的提升。然而通过充分利用长尾数据，对超参数的调试以及定义归类规则，有望使得模型效果得到一定的提升。因为长尾数据是个性化数据，这类数据只要能利用上且不给模型带来负影响，就可能在实际的个性化推荐时发挥作用。从这个角度，长尾数据具有高于流行数据的价值。对推荐算法而言，个性化推荐是关注的重点，因此这部分数据对真实场景的个性化推荐可能有很大的影响，进而带来点击率的提升。

步骤S3、对所有特征进行双向式特征选择，选出有效特征集。

所述广告点击率预测模型采用逻辑回归模型，基于多维特征的线性组合来预测广告点击率。

步骤S3包括：

步骤S31、利用所述离散数据特征、所述连续数据离散化特征和所述长尾数据归类特征构造特征集；

步骤S32、使用所述特征集对广告点击率预测模型进行训练和测试，得到评估参考值；

步骤S33、对特征集中的每个特征进行缺省检验，获取对应于特征集中每个特征的缺省检验评估值，简称评估值；

对特征集中的某个特征进行缺省检验的步骤包括：

单独删除特征全集中的某个特征，形成对应于该被删除的特征的训练集，利用该训练集对广告点击率预测模型进行训练和测试，得到对应于该被删除的特征的评估值；

步骤S34、将所述对应于每个特征的评估值分别与所述评估参考值进行对比，根据对比结果判断与每个评估值相对应的特征对于广告点击率预测模型性能的影响好坏；

如果评估值优于评估参考值，则表明利用对应于该被删除特征的训练集对广告点击率预测模型进行训练和测试能够使所述逻辑回归模型性能变好，说明去掉该特征对于广告点击率预测模型性能是有利的，也就是说该特征对广告点击率预测模型性能的影响是坏的，则将该特征标记为无益特征；对所有的无益特征对模型性能影响程度进行排序，将所有的无益特征中对模型性能影响程度最大的特征称为最差无益特征(即对应于该无益特征的评估值相对于评估参考值来说是最差的)；

如果评估值劣于评估参考值，则表明利用对应于该被删除特征的训练集对广告点击率预测模型进行训练和测试会导致所述逻辑回归模型性能变差，说明去掉该特征对于广告点击率预测模型性能是不利的，也就是说该特征对广告点击率预测模型性能的影响是好的，则将所对应的特征标记为有益特征；

如果评估值等同于评估参考值，则表明利用对应于该被删除特征的训练集对广告点击率预测模型进行训练和测试对所述逻辑回归模型的性能无影响，说明去掉该特征对于广告点击率预测模型性能是无影响的，也就是说该特征对广告点击率预测模型性能是无影响的，则将该特征标记为一般特征；

具体地，在一些实施例中，对于评估值与评估参考值的比较方法，可以设定阈值a，如果评估值减去评估参考值所得到的差大于阈值a，则认为评估值优于评估参考值；如果评估参考值减去评估值所得到的差大于阈值a，则认为评估值劣于评估参考值；如果评估参考值减去评估值所得到的差等于阈值a，则认为评估值等同于评估参考值；当然也还有其他的一些比较方法，根据具体算法的不同而有所区别；

步骤S35、从特征集中删除最差无益特征并更新特征集；

步骤S36、利用更新后的特征集对广告点击率预测模型进行训练和测试，得到新的评估参考值；

步骤S37、对更新后的特征集中的每个无益特征进行缺省检验，获取对应于特征集中每个无益特征的新的评估值；

步骤S38、将步骤S37中的每个新的评估值分别与所述新的评估参考值进行对比，根据对比结果判断与所述每个无益特征的评估值相对应的无益特征对于广告点击率预测模型性能的影响好坏；

将对广告点击率预测模型性能是影响好的或无影响的原无益特征分别改标记为有益特征或一般特征；新的评估值优于所述新的评估参考值则表示新的评估值所对应的原无益特征对于广告点击率预测模型性能是影响好的；新的评估值等同于所述新的评估参考值则表示新的评估值所对应的原无益特征对于广告点击率预测模型性能是无影响的；

保留对模型性能影响坏的无益特征的无益特征标记；从对模型性能影响坏的无益特征中选出影响最大的无益特征并将该影响最大的无益特征从所述更新后的特征集中删除，并再次更新特征集，然后转向步骤S36；新的评估值劣于所述新的评估参考值则表示新的评估值所对应的原无益特征对于广告点击率预测模型性能是影响坏的；

若没有产生新的无益特征则停止操作，此时的特征集为有效特征集。所述的新的无益特征即与所述新的评估参考值进行对比得到的对于广告点击率预测模型性能的影响坏的无益特征。将该有效特征集应用于广告点击率预测，效果较好。

双向式特征选择的一个优点是会降低迭代次数，不需要再对全集进行迭代，可以得到较大的模型提升效果。特征组合对非线性特征转化为线性特征有帮助，另外特征组合增加了数据集的特征维度，能够更完善地描述数据集。

本发明实施例提供的面向广告点击率预测的特征选取方法，有效利用了长尾数据的信息，更好地表达了特征间的非线性关系，特征选择工程时间复杂度低，特征选择耗时短，工作效率高，可以很好地满足实际应用的需求。

需要说明的是：

术语“模块”并非意图受限于特定物理形式。取决于具体应用，模块可以实现为硬件、固件、软件和/或其组合。此外，不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种面向广告点击率预测的特征选取方法，其特征在于，包括：

步骤(1)利用广告点击数据生成的数据特征构造特征集；

步骤(2)对所述特征集的所有特征进行评估，筛选并标记所有无益特征，将对广告点击率预测模型影响最大的无益特征从所述特征集中删除，再更新所述特征集；所述广告点击率预测模型用于基于多维特征的线性组合来预测广告点击率；

若产生新无益特征，则迭代执行步骤(3)，直至未产生新无益特征；

所述步骤(1)中，所述数据特征包括：离散数据特征、连续数据离散化特征和/或长尾数据归类特征；

所述长尾数据归类特征的获取方法包括：

在对长尾数据进行分组处理后，使长尾数据中的取值频次大于或等于特征取值频次阈值的长尾数据进入特征集；

所述对所述特征集的所有特征进行评估，筛选并标记所有无益特征，包括：

2.根据权利要求1所述的方法，其特征在于，所述连续数据离散化特征的获取方法包括：

枚举所有类型的连续数据；

分别利用每种类型的连续数据生成特征集；

3.根据权利要求1所述的方法，其特征在于，所述对所述更新后的特征集内的所有无益特征进行评估，筛选并标记该次评估产生的新无益特征，包括：

将对应于所述特征集中每个无益特征的每个评估值分别与所述新的评估参考值进行对比，若评估值由于所述新的评估参考值，则保留其无益特征标记。

4.根据权利要求3所述的方法，其特征在于，所述取消其他所述无益特征的标记，包括：

5.根据权利要求1或3所述的方法，其特征在于，所述进行缺省检验的步骤包括：

6.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-5中任一所述的方法。

7.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以实现如权利要求1-5中任一所述的方法。