CN112102004B

CN112102004B - 一种基于残差学习的点击率预测融合方法

Info

Publication number: CN112102004B
Application number: CN202010984847.3A
Authority: CN
Inventors: 吴乐; 陈雷; 鲍俊梅; 洪日昌; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2022-08-30
Anticipated expiration: 2040-09-18
Also published as: CN112102004A

Abstract

本发明公开了一种基于残差学习的点击率预测融合方法，包括：1.根据点击率预测数据特点构造训练数据集；2.获取样本基于传统机器学习的点击率预测概率；3.获取基于机器学习模型的预测结果与真实标签之间的残差值；4.获取每个样本基于深度学习的点击率预测概率；5.获得两类模型联合训练的预测结果；6.重复步骤4.2～5以完成一轮次训练；7.重复步骤4～6至至点击率预测准确率达到最好；8.对预测结果集进行降序排序，选取前若干个产品进行推荐。本发明基于残差学习的融合思路，能够充分挖掘点击率预测数据中各类型特征背后的隐藏信息，进而更好地捕获用户的兴趣爱好，并为用户展示点击概率更大的产品，以实现更精准的个性化产品推荐任务。

Description

一种基于残差学习的点击率预测融合方法

技术领域

本发明涉及个性化推荐、信息检索、在线广告等领域，具体地来说是一种基于残差学习的点击率预测融合方法，以产品个性化推荐的效果。

技术背景

近年来，随着互联网和智能移动设备的普及，各类应用平台的层出不穷引发了数据规模的爆炸式增长，随之发展的各类数据挖掘，机器学习，深度学习等技术使得从大规模的用户产品交互数据中高效精确地挖掘出对用户有价值的信息，实现个性化推荐成为可能。面对实际应用中用户和产品项目数量众多的问题，如何根据用户历史点击记录提前预测用户的下一次点击状态已成为这些应用平台有针对性地投放产品的重要内容之一。如广告搜索中的点击预测、网页搜索中的内容排序、推荐系统中的内容优化、运输网络中的路线选择等。这个过程我们通常称之为点击率预测(Click-throughrate，CTR)任务。当前点击率预测(CTR)已经广泛应用于电商、音乐、电影、社交等移动平台，实际上，CTR预测任务专注于预测用户点击项目的可能性，并且可以为用户展示具有较大概率的预测项目，以提高个性化推荐的效果，但是其性能往往限制于点击率预测数据本身的特性。该类数据常常包含稠密数值特征和稀疏类别特征的特点，导致现有模型学习性能不佳。

由于点击率预测模型通常被认为是一个分类过程，因此当前的解决方案可以分为两类：传统的基于机器学习模型和基于深度学习的模型。在这两类模型中，利用用户(性别、年龄、职业等)和产品(价格、质量、种类)等丰富的属性特征对用户与产品之间交互关系进行建模，根据用户对产品是否进行点击操作从而挖掘用户的个人喜好，从而为用户展示用户更有可能点击的产品，实现个性化推荐的同时还能提高用户浏览产品的效率。但是现实世界中的点击率预测数据通常包含稠密的数值特征和稀疏的类别特征，而现有的点击率预测模型通常只关注到一方面的特征，而忽视了另一方面特征上的学习效果。因此，现有点击率预测方法存在数据利用不充分以及单方面学习的缺陷，造成点击率预测效果不佳，随之，各大电商平台的个性化推荐效果也受到了一定的限制。

通过把分别适用于各类特征的模型进行融合(如：机器学习模型和更适合处理稠密的数值特征，深度学习模型更适合处理稀疏的类别特征)，可以有效地解决现有模型单方面学习的问题。近来，有许多研究者针对当前点击率预测方法存在的效果不佳的问题提出一系列的融合方法，并且这些方法显示了同时对线性和非线性特征进行建模的优势，并在实践中带来了更好的性能。然而，对于现有的融合方法来说，它们要不就是基于特征融合，要不就是基于预测结果融合；前者仅将单个模型用作特征提取过程，并没有直接结合两类模型的互补优势，后者还需要一个额外的集成方法来融合两个单一模型的结果，这就会使得最终模型的预测结果质量在很大程度上依赖于附加集成方法的融合能力综合提到的两种融合方式来看，这些融合方法并未有效地考虑不同的模型可以捕获到数据的不同特征的特点以及不同模型学习能力的差异，也就无法获得最佳的准确性。所以，探索如何利用传统机器学习模型和深度神经网络模型各自的优势，并有效地融合两种类型的模型以解决特征学习中的单方面学习的问题，以提高个性化推荐的效果显得至关重要。

发明内容

本发明为解决现有点击率预测技术所存在的问题，提出一种基于残差学习的点击率预测融合方法，以期能够在残差学习的基础上，结合基于传统机器学习和基于深度学习的点击率预测模型的优点，充分挖掘点击率预测数据中包含的各类特征中的隐藏信息，解决当前点击率模型中存在的数据利用不充分以及单方面学习的问题，从而提高点击率预测模型的准确性的同时，也可以更好地捕获用户的兴趣爱好，并为用户展示点击概率更大的产品，进而实现更精准的个性化产品推荐任务。

本发明为解决技术问题采用如下技术方案：

本发明一种基于残差学习的点击率预测融合方法的特点是按如下步骤进行：

步骤1、根据点击率预测数据特点构造训练数据集：

令U表示用户集，且U＝{u₁,u₂,...u_a,...u_m}，u_a表示第a个用户，m表示用户总数，1≤a≤m；令V表示产品集，且V＝{v₁,v₂,...,v_b,...,v_n}，v_b表示第b个产品，n表示产品总数，1≤b≤n；令C_ab表示第a个用户u_a对第b个产品v_b的点击情况，当C_ab＝1时，表示第a个用户u_a点击第b个产品v_b；当C_ab＝0时，表示第a个用户u_a未点击第b个产品v_b，用户对产品的点击矩阵为C＝{C_ab}_m×n；剔除所述点击矩阵为C＝{C_ab}_m×n中的空数据，从而得到筛选后的点击矩阵；

令用户属性矩阵X_u＝{x_u1,x_u2,...,x_ua,...,x_um}，其中，x_ua表示第a个用户u_a的d_u维属性向量；令产品属性矩阵X_v＝{x_v1,x_v2,...,x_vb,...,x_vn}，其中，x_vb表示第b个产品v_b的d_v维属性向量；

根据所述筛选后的点击矩阵，将第a个用户u_a的d_u维属性向量x_ua和与第a个用户u_a有点击关系的产品属性向量拼接成一条点击率预测特征向量，从而得到所有具有点击关系的用户和产品之间的点击率预测特征向量所构成的历史点击记录集，记为D_train＝{(x₁,y₁),...(x_i,y_i),...,(x_N,y_N)}，其中，(x_i,y_i)表示第i条历史点击记录，x_i表示第i条点击率预测特征向量，y_i表示第i条点击率预测特征向量的标签，且y_i∈{0,1}；1≤i≤N，N表示历史点击记录的总量；

步骤2、获得基于传统机器学习的点击率预测概率

步骤2.1、利用式(1)初始化ML模型的参数θ_ML：

θ_ML＝f_ML(y_n) (1)

式(1)中，f_ML(·)为ML模型的初始化函数；

步骤2.2、根据式(2)建立ML模型的损失函数L_ML：

式(2)中，l_ML(x_i)为ML模型中第i条点击率预测特征向量x_i的损失函数，并有：

式(3)中，

为模型训练后第i个条点击率预测特征向量x_i的预测值，y(x_i)为第i个点击率预测特征向量x_i的真实标签，loss_ML(·)为ML模型的损失函数，θ_ML为模型待优化的参数；

步骤2.3、将所述历史点击记录集D_train输入初始化后的ML模型中，并利用式(4)更新ML模型待优化的参数，使得式(3)的损失函数值达到最小，从而对ML模型进行特征识别与建模，并得到基于传统机器学习的点击率预测模型及其点击率预测概率

步骤3、定义当前训练轮次为epoch，并初始化epoch＝1；

利用式(5)获得点击率预测概率

与真实标签y之间在第epoch轮的残差值

步骤4、获取基于深度学习的拟合残差预测概率

使用历史点击记录集D_train和所述残差值

训练一个基于深度学习的拟合残差预测模型，记为NN模型：

步骤4.1、定义当前训练的批次为J，并初始化J＝1；

定义最大训练的批次为

Batch表示每一批数据中包含的历史点击记录的数量，并初始化NN模型的第epoch轮第J批的网络参数W^epoch,J；

步骤4.2、根据式(6)建立NN模型中第epoch轮第J批历史点击记录的损失函数

式(6)中，x_h表示第epoch轮第J批历史点击记录中的第h条点击率预测特征向量，1≤h≤Batch，

表示NN模型中第epoch轮第J批数据中第h条点击率预测特征向量x_h的损失函数，并有：

式(7)中，

为NN模型训练后第epoch轮第J批数据中第h条点击率预测特征向量x_h的预测值，

为第epoch轮第J批数据中第h条点击率预测特征向量x_h的残差值，loss_NN(·)为NN模型的损失函数；

步骤4.3、将所述历史点击记录集D_train输入初始化后的NN模型中，并在NN模型进行特征传播的过程中，根据式(8)按批次更新NN模型的第epoch轮第J批的网络参数W^epoch,J，使得式(6)中的损失函数

达到最小，从而得到第epoch轮第J批基于深度学习的拟合残差预测模型及其拟合残差预测概率值

步骤5、根据式(9)得到第i条点击率预测特征向量x_i在第epoch轮第J批次中经过两个模型联合训练后的预测结果

式(9)中，

表示第i条点击率预测特征向量x_i在第epoch轮第J批次的基于深度学习的拟合残差预测模型中的拟合残差预测概率；

步骤6、令J+1赋值给J，并判断J是否满足

若满足条件，则返回步骤4.2顺序执行，若不满足，则将第epoch轮第

批次的预测结果作为第epoch轮两个模型联合训练的预测结果

步骤7、判断当前模型是否达到收敛，若未达到收敛，则利用式(10)计算新的残差值

并将epoch+1赋值给epoch，将

赋值给

将

赋值给

后，返回步骤4顺序执行，若达到收敛，则退出epoch循环，并得到N条历史点击记录中每条记录的最终预测结果

其中，s(·)表示激活函数；

表示第i条历史点击记录(x_i,y_i)的最终预测结果；

步骤8、对预测结果

进行降序排序，并选择前若干个最终预测结果所对应的产品作为推荐列表推荐给相应用户，从而实现对用户的个性化推荐工作。

与已有技术相比，本发明有益效果体现在：

1.本发明针对现存点击率预测模型单方面学习的问题，提出了一种基于残差学习的点击率预测融合方法，结合不同类型的点击率预测模型在学习方法上的区别，充分挖掘各类特征数据背后的隐藏信息，进而有效地提高了点击率预测的准确性和个性化推荐效果。

2.本发明通过残差学习的方式进行模型融合，即本模型是在两个单一模型互补的基础上进行训练的，通过在真实标签和另一个模型的输出之间的残差上拟合一个新模型，以了解前一个模型无法学习的内容，由于新模型只需要学习较少的内容，所以模型可以以更快的速度达到收敛，进而更快的挖掘出用户喜爱的产品，完成个性化推荐。

3.本发明设计的基于残差学习的融合方式，充分考虑了不同模型对于同样的输入数据将会专注于不同的内容的特点，通过两个完全不同的学习机制的重复联合学习，以解决之前提出的融合模型中未考虑不同的模型可以捕获到数据的不同特征的特点以及不同模型学习能力的差异的缺陷，充分学习每个特征的特点，提高了模型的泛化性，进而可以更准确地捕捉到用户的兴趣爱好，实现更精准的个性化推荐任务。

4.本发明所提出的模型，与之前的融合模型相比，本模型不需要额外的外部融合方式，而是巧妙地将两个模型通过顺序链接进行了融合，同时，本模型也可以结合特征融合方式进行扩展，具有很好的灵活性，因此可以便捷的结合其他方法进行个性化推荐工作。

附图说明

图1为本发明基于残差学习的点击率预测融合方法的流程图；

图2a为本发明与选用的三种融合模型作为对比方法在Avazu数据集上利用AUC指标验证模型收敛速度的实验结果图；

图2b为本发明与选用的三种融合模型作为对比方法在Avazu数据集上利用Logloss指标验证模型收敛速度的实验结果图。

具体实施方式

本实施例中，基于上述提出的融合学习策略，选取具体的基于机器学习和基于深度学习的点击率预测模型进行实验。由于GBDT和DeepFM分别作为基于机器学习和基于深度学习最具代表性的模型之一，因此本实施例中我们选取GBDT和DeepFM分别代表机器学习模型和深度学习模型进行实施例操作。如图1所示，一种基于残差学习的点击率预测融合方法是按如下步骤进行：

步骤1、根据点击率预测数据特点构造训练数据集：

令U表示用户集，且U＝{u₁,u₂,...u_a,...u_m}，u_a表示第a个用户，m表示用户总数，1≤a≤m；令V表示产品集，且V＝{v₁,v₂,...,v_b,...,v_n}，v_b表示第b个产品，n表示产品总数，1≤b≤n；令C_ab表示第a个用户u_a对第b个产品v_b的点击情况，当C_ab＝1时，表示第a个用户u_a点击第b个产品v_b；当C_ab＝0时，表示第a个用户u_a未点击第b个产品v_b，用户对产品的点击矩阵为C＝{C_ab}_m×n；剔除点击矩阵为C＝{C_ab}_m×n中的空数据，这些空数据指的是用户和产品之间从未有过交互关系的数据，即既没有点击操作，也没有未点击操作，点击关系既不为1也不为0，而是空值null，从而得到筛选后的点击矩阵；

令用户属性矩阵X_u＝{x_u1,x_u2,...,x_ua,...,x_um}，其中，x_ua表示第a个用户u_a的d_u维属性向量,即每个用户包含有d_u个属性特征；令产品属性矩阵X_v＝{x_v1,x_v2,...,x_vb,...,x_vn}，其中，x_vb表示第b个产品v_b的d_v维属性向量，即每个产品包含有d_v个属性特征；

根据上述筛选后的点击矩阵，将第a个用户u_a的d_u维属性向量x_ua和与第a个用户u_a有点击关系的产品属性向量拼接成一条点击率预测特征向量，每个特征向量长为d_u+d_v，表示每个向量中有d_u+d_v个属性特征，从而得到所有具有点击关系的用户和产品之间的点击率预测特征向量所构成的历史点击记录集，记为D_train＝{(x₁,y₁),...(x_i,y_i),...,(x_N,y_N)}，其中，(x_i,y_i)表示第i条历史点击记录，x_i表示第i条点击率预测特征向量，y_i表示第i条点击率预测特征向量的标签，且y_i∈{0,1}；1≤i≤N，N表示历史点击记录的总量；

步骤2、获得基于传统机器学习模型的点击率预测概率

即每个样本基于GBDT模型的点击率预测概率

步骤2.1、利用式(1)初始化ML模型的参数θ_ML：

θ_ML＝f_ML(y_n) (1)

式(1)中，f_ML(·)为ML模型的初始化函数；

对于实施例中的GBDT模型，选取式(2)作为f_ML(·)函数对GBDT模型进行初始化。

步骤2.2、根据式(3)建立ML模型的损失函数L_ML：

式(3)中，l_ML(x_i)为ML模型中第i条点击率预测特征向量x_i的损失函数，并有：

式(4)中，

在实施例中，GBDT模型通过树分裂的方式进行优化与更新，定义优化的模型参数为γ_m,j，并构造GBDT模型的优化方式。

通过拟合每次迭代的残差值来训练多棵CART回归树进而优化GBDT模型。对于N个样本，根据式(5)计算第m棵树的残差值。

式(5)中，r_m,i为GBDT模型中第m棵树上第i条点击率预测特征向量x_i的残差值，对于N个样本，通过训练CART回归树来拟合当前的样本对(x_n,r_m,n)，以获得第m棵树模型。声明该棵树对应的叶子节点区域为R_m,j(j＝1,2,......,j_m)，其中j_m表示这颗树上的节点个数。对于j_m个节点区域，根据式(6)计算当前最好的拟合值，即优化参数γ_m,j。

步骤2.3、将历史点击记录集D_train输入初始化后的ML模型中，并利用式(7)更新ML模型待优化的参数，使得式(4)的损失函数值达到最小，从而对ML模型进行特征识别与建模，并得到基于传统机器学习的点击率预测模型及其点击率预测概率

在实施例中，将历史点击记录集D_train输入初始化后的GBDT模型中，根据式(8)更新GBDT模型；

多次重复步骤2.2～2.3，更新GBDT模型参数，并最终获得训练好的强分类模型，即GBDT。

模型结构如式(9)所示。

根据式(9)的模型结构，获得点击率预测模型GBDT及其点击率预测概率

如式(10)所示。

步骤3、定义当前训练轮次为epoch，并初始化epoch＝1；

利用式(11)获得点击率预测概率

与真实标签y之间在第epoch轮的残差值

本实施例中，可得到GBDT模型点击率预测概率

与真实标签y之间在第epoch轮的残差值

如式(12)所示：

步骤4、获取基于深度学习模型的拟合残差预测概率

即每个样本基于DeepFM模型的拟合残差预测概率

使用历史点击记录集D_train和残差值

训练一个基于深度学习的拟合残差预测模型，记为NN模型，在实施例中，使用D_train和

训练DeepFM模型：

步骤4.1、定义当前训练的批次为J，并初始化J＝1；

定义最大训练的批次为

Batch表示每一批数据中包含的历史点击记录的数量，最大值在实验过程中根据模型收敛程度确定，并随机初始化NN模型(DeepFM)的第epoch轮第J批的网络参数W^epoch,J；

步骤4.2、根据式(13)建立NN模型中第epoch轮第J批历史点击记录的损失函数

式(13)中，x_h表示第epoch轮第J批历史点击记录中的第h条点击率预测特征向量，1≤h≤Batch，

式(14)中，

对于实施例中具体的基于深度学习的模型，即DeepFM，建立第epoch轮第J批历史点击记录的损失函数

如式(15)所示：

式(15)中，x_h表示第epoch轮第J批历史点击记录中的第h条点击率预测特征向量，1≤h≤Batch，

表示DeepFM模型中第epoch轮第J批数据中第h条点击率预测特征向量x_h的损失函数，并有：

式(16)中，

为DeepFM模型训练后第epoch轮第J批数据中第h条点击率预测特征向量x_h的预测值，

为第epoch轮第J批数据中第h条点击率预测特征向量x_h的残差值，在DeepFM模型中我们选取了二分类交叉熵作为训练损失函数；

步骤4.3、将历史点击记录集D_train输入初始化后的NN模型(即DeepFM模型)中，并在NN模型(DeepFM模型)进行特征传播的过程中，根据式(17)按批次更新NN模型的第epoch轮第J批的网络参数W^epoch,J，对于具体的DeepFM模型，将

赋给式(17)中的

使得式(13)中的损失函数

达到最小，也就是使得

具体实施例中可得到DeepFM模型及其点击率预测概率值

步骤5、根据式(18)得到第i条点击率预测特征向量x_i在第epoch轮第J批次中经过两个模型联合训练后的预测结果

具体实施例中，将

赋值给

将

赋值给

式(18)中，

表示第i条点击率预测特征向量x_i在第epoch轮第J批次的基于深度学习的点击率预测模型中的点击率预测概率；

步骤6、令J+1赋值给J，并判断J是否满足

批次的预测结果作为第epoch轮两个模型联合训练的预测结果

步骤7、判断当前模型是否达到收敛，若未达到收敛，则利用式(19)计算新的残差值

并将epoch+1赋值给epoch，将

赋值给

将

赋值给

其中，

表示第i条历史点击记录(x_i,y_i)的最终预测结果；s(·)表示激活函数，可根据所选深度模型输出层结构特点进行选择；

步骤8、对预测结果

实施例：

为了验证本方法的有效性，本发明采用CTR预测中常用的两个个公开的数据集以及2019年知乎比赛(智源看山杯专家发现算法大赛)中提供的一个真实数据集：Avazu、Cretio、Zhihu。对每个数据集数据进行筛选、补全与去重等预处理工作后，随机划分数据集中的90％为训练集，另外剩下的作为测试集。

对于点击率预测任务，本发明采用AUC和Logloss作为评价标准。本发明选用了8种方法进行效果对比，分别是LR、FM、GBDT、DeepFM、GBDT+LR、GBDT2DNN、GBDT2DeepFM、

具体地，根据实验结果可得出结果如表1，表2，图2a，图2b所示，实验结果显示了本发明的可行性。

表1本发明方法与不同对比模型的CTR预测结果

表1所示的实验结果显示，在Avazu、Cretio、Zhihu数据集上进行点击率预测实验，本发明方法在两个评价标准AUC和Logloss上均优于对比的8种方法，从而证明了本发明提出方法的有效性；

表2本发明方法在不同迭代次数下的CTR预测结果

表2所示的实验结果显示，在Avazu、Cretio、Zhihu数据集上进行模型泛化性的探究实验中，在三个数据集上，本发明提出的方法在K＝2时，模型效果可以达到最优。这意味着通过前两次的迭代学习，每一部分的单模型结构已经充分学习了另一模型没有学习到的内容，从而证明本发明提出的方法具有很好的泛化性。

图2a所示的实验结果表明，利用AUC指标在Avazu数据集上进行模型收敛速度的验证实验中，本发明方法具有更快的收敛速度；

图2b所示的实验结果表明，利用Logloss指标在Avazu数据集上进行模型收敛速度的验证实验中，同样可以验证本发明方法具有更快的收敛速度。

Claims

1.一种基于残差学习的点击率预测融合方法，其特征是按如下步骤进行：

步骤1、根据点击率预测数据特点构造训练数据集：

步骤2、获得基于传统机器学习的点击率预测概率

步骤2.1、利用式(1)初始化ML模型的参数θ_ML：

θ_ML＝f_ML(y_n) (1)

式(1)中，f_ML(·)为ML模型的初始化函数；

步骤2.2、根据式(2)建立ML模型的损失函数L_ML：

式(3)中，

步骤3、定义当前训练轮次为epoch，并初始化epoch＝1；

利用式(5)获得点击率预测概率

与真实标签y之间在第epoch轮的残差值

步骤4、获取基于深度学习的拟合残差预测概率

使用历史点击记录集D_train和所述残差值

训练一个基于深度学习的拟合残差预测模型，记为NN模型：

步骤4.1、定义当前训练的批次为J，并初始化J＝1；

定义最大训练的批次为

式(7)中，

式(9)中，

步骤6、令J+1赋值给J，并判断J是否满足

批次的预测结果作为第epoch轮两个模型联合训练的预测结果

并将epoch+1赋值给epoch，将

赋值给

将

赋值给

其中，s(·)表示激活函数；

表示第i条历史点击记录(x_i,y_i)的最终预测结果；

步骤8、对预测结果