CN108921604B

CN108921604B - 一种基于代价敏感分类器集成的广告点击率预测方法

Info

Publication number: CN108921604B
Application number: CN201810647829.9A
Authority: CN
Inventors: 王昊翔; 林启迪; 张星明; 林育蓓
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2022-03-29
Anticipated expiration: 2038-06-22
Also published as: CN108921604A

Abstract

本发明公开了一种基于代价敏感分类器集成的广告点击率预测方法，包括步骤：在特征提取上，采用人工定义的规则进行特征提取，对用户行为历史记录进行特征提取和采样；在广告点击率预测中采用改进B‑SMOTE+方法进行数据过采样；经过数据预处理后的数据集在交由分类器学习时采用代价敏感算法，将误分“点击广告”这一错误加大惩罚力度；采用了遗传算法进行了优化调参；采用两层Stacking方式对进行集成。本发明解决了目前一些点击率预测算法由于特征维度较少、数据预处理不到位等问题导致的准确率较低等问题，采用该方法能够较好地提升广告点击率预测的准确率。

Description

一种基于代价敏感分类器集成的广告点击率预测方法

技术领域

本发明涉及电子推荐算法的技术领域，尤其是指一种基于代价敏感分类器集成的广告点击率预测方法。

背景技术

预测广告点击率,能够根据给定的用户和网页内容,通过计算对于特定用户的某一种广告的点击率，来选择点击率更高的广告进行精准定向。采用该机制可以大幅度地提高广告主所投放广告的点击率,增加广告所投放商品的访问量,帮助用户获取优质信息。点击率预测是一个在互联网领域应用非常广泛的亟待解决的问题，它还包括了包括搜索引擎的排序结果以及推荐系统，而广告点击率是点击率预测的一个重要应用。广告收入作为互联网公司非常重要的收入，对广告点击率预测具有极其重要的商业价值和学术研究价值，它是最近几年产学研的重要研究领域。

广告的点击率预测就是要通过广告的历史点击记录,预测对于给定的查询用户的点击概率是多少。这里就需要使用点击日志，目前大多数预测点击率的方法都是基于点击日志，通过点击日志作为用户的历史行为。如JOACHIMS T提出使用点击日志计算搜索结果的点击率,并结合搜索引擎查询日志和用户点击日志，自动优化搜索引擎的检索质量，通过分析用户在当前返回的排序结果中点击链接的日志。但是该方法存在以下一些问题：

1、特征维度较少，由于点击日志通常只记录了用户的点击行为，对其它信息记录较少，所以获得的特征维度不够，容易使得分类器产生过拟合的现象，使得预测准确率较低。

2、由于点击率预测往往属于“不平衡类”，对于数据预处理方面的工作也往往被之前的研究者所忽略。

3、在分类器中对错分样本的错分代价没有设置相应权重，在“不平衡类”中，对少数类的错分代价没有进行特殊的设置，往往导致总体准确率较高，但是少数类准确率较低的情况。

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于代价敏感分类器集成的广告点击率预测方法，解决了目前一些点击率预测算法由于特征维度较少、数据预处理不到位等问题导致的准确率较低等问题，采用该方法能够较好地提升广告点击率预测的准确率。

为实现上述目的，本发明所提供的技术方案为：一种基于代价敏感分类器集成的广告点击率预测方法，包括以下步骤：

1)获取基础数据，包括过去一段时间内用户购买的行为的数据集、用户信息、广告信息以及对应用户的点击广告日志；

2)在特征提取上，采用人工定义的规则进行特征提取，对用户行为历史记录进行特征提取和采样，从中获得包含用户信息、广告信息、用户点击日志、用户历史购买行为的样本集合，通过人工推理定义方式，从中提取出能体现用户、物品特点和预测用户行为倾向的特征，经过异常过滤，得到训练集的特征部分，用户是否点击广告作为标签部分，将提取出的特征与标签一起，组合成样本的训练集S1；

3)在广告点击率预测中应用不平衡类的数据预处理方法，将属于少数类的“点击广告”采用改进的B-SMOTE+方法进行数据过采样，其步骤如下：

3.1)计算少数类样本与训练样本的近邻；计算少数类样本P的样本点pi在训练集S1中的m近邻，i＝1，2，…，pnum，设在m近邻中有m'个属于多数类样本；

3.2)对少数类样本进行划分

若m'＝m，表示pi的所有m近邻都属于多数类样本，此时pi被认为是噪声；

3.3)设置采样倍率Ui,i＝1，2，…，pnum；

在计算其少数类样本的m近邻后，对少数类样本进行划分，设m近邻中有m’个属于多数类样本，若m＝m’，则视为噪声舍弃，若m≠m’，则记边界样本为Pi'，设置Pi'的采样倍率Ui为：

Ui＝m'/(m-m')

3.4)边界样本与少数类样本插值合成新生的少数类样本；计算pi'与少数类样本的k近邻，根据采样倍率Ui，pi'与其近邻合成si个少数类样本cj，cj＝pi'+rj×dj，j＝1，2，…，si；其中，dj表示pi与第j个近邻的距离，rj是介于0与1之间的随机数；

3.5)合成的少数类样本与训练集S1合并，构成新的样本训练集S2；

4)样本训练集S2在经过预处理后，交由分类器进行学习，并采用代价敏感算法，将误分“点击广告”这一错误加大惩罚力度，其中分类器采用SVM与基于决策树的Adaboost算法；

5)采用遗传算法对其代价敏感参数和相关参数进行优化调参；

6)采用两层Stacking方式对基分类器进行集成，第一层采用代价敏感的SVM与Adaboost算法，第二层采用LR方法；

7)使用测试集对训练好的模型进行测试，得到评价指标F1，F1的公式如下：

其中，P为精确率，R为召回率，在测试集中，提取与训练集相同的特征，交由分类器训练后得到结果并与测试集的标签进行对比，得到相应的F1值，作为评估标准。

在步骤2)中，基于一些自定义的规则，从15维的数据集特征中人工扩展至35维特征，使得特征能够更好地反应最终结果。

在步骤4)中，SVM算法的基本思想是使特征空间中的训练样本到分类超平面的最小距离最大，也就是使两类之间的距离最大，即解决下面的优化问题：

y_i(w·x_i+b)≥1-ξ_i,ξ_i＞0,i＝1,2,…,l

其中，w、b为超分类平面系数，C是惩罚系数，ξ_i为松弛变量，x_i为特征，y_i为分类结果，其中i表示样本序号；在约束条件中，要求训练集中的所有样本在某松弛变量ξ_i下能够正确分类；∑_iε+ξ_i表示训练集中错误分类总数的上界；而那么在广告点击率预测中，为了加大对错分点击广告的惩罚，加入误分类权重c+和c-，将带求解公式转变为：

y_i(w·x_i+b)≥1-ξ_i,ξ_i＞0,i＝1,2,…,l

实际上，只需要设置c+与c-的比例即可；它能使决策面向错误分类代价相对小于设定值的一类偏移，使得错分代价高的样本更倾向于被正确分类从而减小总体代价。

在步骤5)中，采用遗传算法对SVM进行调参，用于确定径向基核函数σ、Ck与惩罚因子C，首先初始化种群，随机生成种群个体，将个体基因串解码为核函数参数、对应Ck与惩罚因子C，按照适应度法则计算适应度，执行选择算子，选择算子采用基于排序的适应度分派原则，执行交叉算子、变异算子。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明在数据选择上，利用阿里天池数据集，找到了过去22天用户购买的行为的数据集，以及对应用户的点击广告日志使得特征维度更加丰富。

2、本发明在广告点击率预测中应用了不平衡类的数据预处理方法，将属于少数类的“点击广告”采用改进B-SMOTE+方法进行数据过采样，使得“点击广告”与“不点击广告”的数目接近，使得分类器能够更好地学习特征。

3、本发明采用代价敏感算法，将误分“点击广告”这一错误加大惩罚力度，它能使决策面向错误分类代价相对较小的一类偏移，使得错分代价高的样本更倾向于被正确分类从而减小总体代价。

4、本发明在参数选择阶段结合遗传算法对代价敏感化的SVM进行参数设定，使得参数选择不再靠人工经验判定，更加合理。

5、本发明在最后的集成处理中，采用两层Stacking方式对进行集成，大大提高了预测的准确率。

6、本发明在广告点击预测方面具有较高的适用性，能够有效地提高对用户广告点击率的预测准确率。

附图说明

图1是本发明方法的总体流程图。

图2是遗传算法流程图。

图3是Stacking集成示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

在本实施例中，我们将一种基于代价敏感分类器集成的广告点击率预测方法应用在广告数据集上。如图1所示，该方法主要包含如下步骤：

首先，对用户行为历史记录进行特征提取和采样，对用户行为历史记录进行特征提取和采样，从中获得包含用户信息、广告信息、用户点击日志、用户历史购买行为等信息的样本集合；对于本实施例来说，由于数据集来源于的真实数据，因此需要进行预处理以去除一些异常数据。例如疑似进行爬虫的高点击零购买用户、部分关键信息缺失的广告和商品等等。随后对经过预处理后的数据进行人工的特征提取，其中用户的购买行为特征主要包括用户的点击、购买等行为的次数，点击购买转化比率，商品特征包括商品所属类别，商品被点击、被购买的次数等统计信息，广告特征包括广告位置、广告所属商品类目等信息。此外还有一些基于经验与推理的特征，例如用户最近一次购买的商品所属类目，用户对广告所属商品类目是否有过购买记录等等。通过人工提取的方式，定义了总共34维的特征。然后定义一个预测是否点击广告的日期，其特征为该日之前的22天的历史购买行为数据，正样本为在该日之前有过点击行为的用户-广告对，负样本为没有点击行为的用户-广告对，将提取出的特征与标签一起，组合成样本的训练集S1。

然后，利用改进的B-SMOTE+方法对S1进行过采样。由于在预测广告点击中，点击广告相对于不点击广告为“少数类”样本，即两者样本数量差距较大，即使一个分类器将所有的类别全部分入“无点击”中，其得到的准确率也很高，为了解决这个问题，我们可以从两个方面入手：数据层面和算法层面，在数据层面，我们采取改进的B-SOMTE+方法对样本进行过采样。对于传统的SMOTE方法，假设原始训练样本为T，其少数类为P，多数类为N，且P＝{p1，p2，…，pi，…，pn}SMOTE方法可描述为：设训练集的一个少数类的样本数为T，那么SMOTE算法将为这个少数类合成NT个新样本。考虑该少数类的一个样本i，其特征向量为xi,i∈{1,…,T}：首先从该少数类的全部P个样本中找到样本xi的k个近邻(例如用欧氏距离)，记为xi(near),near∈{1,…,k}；然后从这k个近邻中随机选择一个样本xi(n)，再生成一个0到1之间的随机数ζ，从而合成一个新样本Xi1：

Xi1＝Xi+ζ·(Xi(n)-Xi)

将该步骤重复进行N次，从而可以合成N个新样本：Xinew,new∈1,…,N。那么，对全部的T个少数类样本进行上述操作，便可为该少数类合成NT个新样本。对SMOTE算法，后人对其进行了改良，形成了B-SMOTE，其流程如下：

步骤一：

1.计算少数类样本集F中每一个样本在训练样本集T中的k个最近邻；

2.然后根据这k个最近邻对F中的样本进行归类：

假设这k个最近邻都是多数类样本，则我们将该样本定义为噪声样本，将它放在N′集合中，反之k个最近邻都是少数类样本则该样本是远离分类边界，将其放入S集合中，最后k个最近邻既有多数类样本又有少数类样本，则认为是边界样本，放入B集合中；

步骤二：

1.设边界样本集B＝{f1′,f2′,...,fb′}计算B集合中的每一个样本fi′，i＝1,2,...,b在少数类样本F中的k'个最近邻fij；

2.随机选出s个最近邻，设置采样倍率U；

3.计算出它们各自与该样本之间的全部属性的差值dij；

4.然后乘以一个随机数rij，rij∈(0,1)rij，rij∈(0,1)(如果fij是N′集合或S集合中的样本，则rij∈(0,0.5))；

5.最后生成的人工少数类样本hij为：

hij＝fi′+rij×dij,j＝1,2,...,U

步骤三：

重复步骤二过程，直到生成人工少数类样本的数目满足要求，达到均衡样本集的目的后，则算法结束。

针对B-SMOTE算法，我又对其中的采样倍率根据样本的不同近邻情况进行特殊的设置，可称之为B-SOMTE+算法，其大致算法如下：

步骤一：

计算少数类样本与训练样本的近邻。

计算少数类样本P的样本点pi(i＝1，2，…，pnum)在原始训练样本S1中的m近邻，设在m近邻中有m'个属于多数类样本；

步骤二：

对少数类样本进行划分：

步骤三：

设置采样倍率Ui(i＝1，2，…，pnum)。

在计算其少数类样本的m近邻后，对少数类样本进行划分，设m近邻中有m’个属于多数类样本，若m＝m’，则视为噪声舍弃。若m≠m’，则记边界样本为Pi'，设置Pi'的采样倍率Ui为：

Ui＝m'/(m-m')

步骤四：

边界样本与少数类样本插值合成新生的少数类样本；

计算pi'与少数类样本的k近邻，根据采样倍率Ui，pi'与其近邻合成si个少数类样本cj，cj＝pi'+rj×dj，j＝1，2，…，si。

步骤五：

合成的少数类样本与原始训练样本S1合并，构成新的训练样本S2。

训练样本数据在经过预处理后，交由分类器进行学习，这里我们采用传统的SVM与Adaboost算法进行训练。SVM算法的基本思想是使特征空间中的训练样本到分类超平面的最小距离最大，也就是使两类之间的距离最大，即解决下面的优化问题：

y_i(w·x_i+b)≥1-ξ_i,ξ_i＞0,i＝1,2,…,l

其中w、b为超分类平面系数，C是惩罚系数，ξ_i为松弛变量，x_i为特征，y_i为分类结果，其中i表示样本序号；在约束条件中，约束条件要求训练集中的所有样本在某松弛变量ξ_i下能够正确分类。∑_iε+ξ_i表示训练集中错误分类总数的上界。那么在广告点击率预测中，为了加大对错分点击广告的惩罚，加入了误分类权重c+和c-，将带求解公式转变为：

y_i(w·x_i+b)≥1-ξ_i,ξ_i＞0,i＝1,2,…,l

实际上，只需要设置c+与c-的比例Ck即可完成它能使决策面向错误分类代价相对较小的一类偏移，使得错分代价高的样本更倾向于被正确分类从而减小总体代价。

在Ck以及SVM径向基核函数σ与惩罚因子C的选择上，我们区别于经验调参法，引入了遗传算法，对其进行调参。图2展示了本发明采用的遗传算法的流程图，首先生成一个种群，包含了随机生成的参数的列表，它们称为种群的个体。将个体基因串解码为核函数参数、对应Ck与惩罚因子C，并进行简单的分类测试后，可以得到一个最好的准确率和对应的最好的超参数列表。随后进行基因算法的迭代，从种群中选取两个个体，将其按照一定的概率进行交叉和突变。交叉即为两个个体之间的参数互相融合，形成新的个体，突变则是以一定的概率改变列表中的参数值。按照适应度法则计算适应度，Fit＝F1值，判断终止条件，否则继续。随后执行选择算子，选择算子采用基于排序的适应度分派原则。在经过多次迭代后，算法将收敛给出一个最佳的个体。我们将以这个个体对应的参数来设置算法中SVM的核函数参数、对应Ck与惩罚因子C。

最后我们采用了Stacking集成方法形成最终的分类器。如图3所示，为Stacking集成的示意图，其上半部分是用一个基础模型进行5折交叉验证，在本施例中采用前述的SVM作为基础模型Model1，5折交叉验证就是先拿出四折作为training data(训练集)，另外一折作为testing data(验证集)。交叉验证包含两个过程，1、基于training data训练模型；2、基于training data训练生成的模型对testing data进行预测。在整个第一次的交叉验证完成之后我们将会得到关于当前testing data的预测值，记为a1。对数据集原来的整个testing set进行预测，这部分预测值将会作为下一层模型testing data的一部分。因为我们进行的是5折交叉验证，所以以上提及的过程将会进行五次，最终会生成针对testingset数据预测的数据a1,a2,a3,a4,a5，即图中所示的predictions，对testing set的预测会是数据b1,b2,b3,b4,b5。在完成对Model1的整个步骤之后，我们可以发现a1,a2,a3,a4,a5其实就是对原来整个training set的预测值，将他们拼凑起来，记为A1。而对于b1,b2,b3,b4,b5这部分数据，我们将各部分相加取平均值，记为B1。在本施例中，Stacking同一层还包含第二个模型Model2:Adaboost，重复以上的步骤，在整个流程结束之后，我们可以得到新的A2,A3,A4,A5,B2,B3,B4,B5矩阵。在此之后，把A1,A2,A3,A4,A5并列合并得到一个N行五列的矩阵作为training data，B1,B2,B3,B4,B5并列合并得到一个N行五列的矩阵作为testing data，在下一层采用LR模型继续训练。

为了对输出结果进行评估，我们采用了F1值作为评价标准，F1的公式如下：

其中，P为精确率，R为召回率。在测试集中，我们提取与训练集相同的特征，交由分类器训练后得到结果并与测试集的标签进行对比，得到相应的F1值，作为我们评估算法的标准。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于代价敏感分类器集成的广告点击率预测方法，其特征在于，包括以下步骤：

3.2)对少数类样本进行划分

3.3)设置采样倍率Ui,i＝1，2，…，pnum；

Ui＝m'/(m-m')

SVM算法的基本思想是使特征空间中的训练样本到分类超平面的最小距离最大，也就是使两类之间的距离最大，即解决下面的优化问题：

y_i(w·x_i+b)≥1-ξ_i,ξ_i＞0,i＝1,2,…,l

y_i(w·x_i+b)≥1-ξ_i,ξ_i＞0,i＝1,2,…,l

实际上，只需要设置c+与c-的比例即可；它能使决策面向错误分类代价相对小于设定值的一类偏移，使得错分代价高的样本更倾向于被正确分类从而减小总体代价；

2.根据权利要求1所述的一种基于代价敏感分类器集成的广告点击率预测方法，其特征在于：在步骤2)中，基于一些自定义的规则，从15维的数据集特征中人工扩展至35维特征，使得特征能够更好地反应最终结果。

3.根据权利要求1所述的一种基于代价敏感分类器集成的广告点击率预测方法，其特征在于：在步骤5)中，采用遗传算法对SVM进行调参，用于确定径向基核函数σ、Ck与惩罚因子C，首先初始化种群，随机生成种群个体，将个体基因串解码为核函数参数、对应Ck与惩罚因子C，按照适应度法则计算适应度，执行选择算子，选择算子采用基于排序的适应度分派原则，执行交叉算子、变异算子。