CN115689639A

CN115689639A - 一种基于深度学习的商业广告点击率预测方法

Info

Publication number: CN115689639A
Application number: CN202211038642.1A
Authority: CN
Inventors: 葛洪伟; 杨哲; 江明; 李婷
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2023-02-03

Abstract

本发明公开了一种基于深度学习的商业广告点击率预测方法，属于模式识别与智能信息处理领域。所述方法通过采用多门多专家系统，引入特征信息分发模块，根据并行架构中子网络特征建模方面不同，对训练过程拆分成多个更加细粒度的任务，为其训练具有分辨性且个性化的低维Embedding输入，并且引入特征信息融合模块将异构子网络特征信息进行融合，多层叠加最终得到用户点击商业广告的概率，极大改善了当前并行架构中存在的并行架构中参数共享问题。本发明方法在基于大量用户行为数据的情况下，可以极大程度上减小内存以及显存耗费，并且大幅度提高预测广告点击率的准确度，优化模型性能，从而满足实际工程设计需求和商业盈利需求。

Description

一种基于深度学习的商业广告点击率预测方法

技术领域

本发明涉及一种基于深度学习的商业广告点击率预测方法，属于模式识别与智能信息处理领域。

背景技术

随着互联网的高速发展，商业化广告为企业盈利起到十分关键的作用。点击率预测任务是预测用户点击广告的概率，具体地说是一种根据用户行为数据，聚合用户信息和商业物品信息，预测用户对物品的感兴趣程度，在工业应用中十分重要，比如推荐系统或在线广告。模型的性能和预测结果与广告商利润有着最直接的关联，对后续下游任务比如推荐排序算法以及广告替换等决策有着重要的参考意义。即使点击率预测上微小的提升都会为企业利润带来巨大的收益，还能够改善平台用户体验，因此学术界和工业界对推荐算法有着广泛的研究和应用。机器学习在推荐算法的发展中起到十分关键的推动作用。

然而大部分推荐数据集中数据极其稀疏且绝大部分为类别型数据，传统方法大多为手工刻画数据特征，现如今数据集越来越庞大，刻画特征是推荐系统中的难点，手工刻画数据特征容易导致模型过拟合很难泛化。随着深度神经网络技术的发展，现如今学者使用深度神经网络来建模特征关联，以端到端的方式捕捉特征信息，而且无需繁琐的手动刻画特征。比如DeepFM算法中通过因子分解机学习低阶显式特征关联，但只能学习二阶显式特征关联而无法捕捉更高阶信息，在捕捉特征信息方面具有局限性，因而其预测精确度有待于提高(Guo H,Tang R,Ye Y,et al.DeepFM:a factorization-machine based neuralnetwork for CTR prediction[C]//Proceedings of the 26th International JointConference on Artificial Intelligence.2017:1725-1731.)；DCN算法提出特征交叉网络显式建模有限阶特征关联，虽然计算更高效，但相比于之后出现的模型在捕捉特征多语义方面存在欠缺，也即其只能获得单语义，因而其预测精确度也存在提升的空间(Wang R,Fu B,Fu G,et al.Deep&cross network for ad click predictions[M]//Proceedingsof the ADKDD'17.2017:1-7.)；AutoInt+使用多头自注意力机制构建显式特征关联，并且根据训练后的注意力权重矩阵有较好模型可解释性，虽然预测精准度提高了，但是相比之下其计算耗费较高(Song W,Shi C,Xiao Z,et al.Autoint:Automatic featureinteraction learning via self-attentive neural networks[C]//Proceedings ofthe 28th ACM International Conference on Information and KnowledgeManagement.2019:1161-1170.)；DCN-v2使用权重矩阵替换DCN中权重向量，可以捕捉不同语义子空间下的特征关联，但是在并行架构子网络部分存在参数共享不足的问题，导致显式特征与隐式特征之间不能进行交互(Wang R,Shivanna R,Cheng D,et al.DCN v2:Improved deep&cross network and practical lessons for web-scale learning torank systems[C]//Proceedings of the Web Conference 2021.2021:1785-1797.)；EDCN中使用bridge和regulation模块解决参数共享问题，regulation模块使用门控网络为并行架构学习不同特征输入，但是其只提供一种解决方案，无法捕捉特征不同子空间下的多语义信息，实验效果也并不理想(CHEN B,WANG Y,LIU Z,et al.Enhancing Explicit andImplicit Feature Interactions via Information Sharing for Parallel Deep CTRModels[C]//Proceedings of the 30th ACM International Conference onInformation&Knowledge Management.2021:3757-3766.)。

综上，现有技术中亟需研发一种能够在不额外增加算力的前提下尽可能提高预测精准度的方法。

发明内容

为了解决目前在大型推荐系统中存在的计算耗费较高、模型性能较低的问题，本发明提供了一种基于深度学习的商业广告点击率预测方法，通过提取高表现力的Embedding特征信息、降低训练内存和显存耗费、为并行架构子网络训练个性化的输入、特征信息分发模块和特征信息融合模块。从而在不额外增加算力的前提下尽可能提高商业广告中预测用户点击率的准确度。

一种基于深度学习的商业广告点击率预测方法，所述方法包括：

步骤一：采集用户行为数据、用户数据和对应的广告数据，并进行聚合，得到聚合后数据集；其中，所述用户行为数据指用户进入网站后所有的操作数据；

步骤二：将所述聚合后数据集中的用户行为数据转换成Embedding：

x＝[x_embed,1；...；x_embed,m；x_num,1；...；x_num,n]

其中，

表示用户行为数据的第i个类别型特征对应的低维Embedding向量，i取值范围为1～m；x_num,j表示第j个数值型特征标量，j取值范围为1～n；

将Embedding输入特征信息分裂为两个相同维度的Embedding，记为x₀和h₀；

步骤三：分别利用x₀和h₀进行显示建模和隐式建模，得到对应的显式特征和隐式特征；再将各自建模得到的显式特征和隐式特征进行融合，得到融合后的特征；

将融合后的特征再次分裂为两个相同维度的Embedding，记为x₁和h₁，再次分别进行显示建模和隐式建模，重复上述过程，直至得到x₄和h₄；

步骤四：根据x₄和h₄计算用户点击预测值

其中，σ表示激活函数。

可选的，所述步骤三包括：

步骤3.1，使用特征交叉进行显式建模，输出为：

x_l-1′＝x₀⊙(W_lx_l-1+b_l)+x_l-1

其中x₀表示显式建模模块第1层的输入，x_l-1的表示第l层显式建模模块的输入，x_l-1′表示第l层显式建模模块输出，W_l表示第l层中可训练的权重矩阵，b_l表示第l层中可训练的偏置向量；

步骤3.2，使用MLP来对模型进行建模，输出为：

h_l-1′＝f(W_lh_l-1+b_l)

其中h_l-1的表示第l层隐式建模模块的输入，h_l-1′表示第l层隐式建模模块的输出，W_l表示第l层中可训练的权重矩阵，b_l表示第l层中可训练的偏置向量；

步骤3.3，将显式特征和隐式特征的输出进行融合：

α_l-1＝[x_l-1′,h_l-1′]

其中α_l-1表示融合后的特征；

步骤3.4，将α_l-1分裂为两个相同维度的向量x_l和h_l；

步骤3.5，重复步骤3.1至步骤3.4四次，直至获得最终的显式特征x₄和隐式特征h₄。

可选的，所述步骤二包括：

步骤2.1，根据特征非重复值的数量得到Embedding的词汇量大小v_i；

步骤2.2，将用户行为数据的类别型特征采用更低维的向量进行表示：

x_embed,i＝W_embed,ie_i

其中，e_i表示第i个类别型特征，

表示第i个类别型特征对应的低维Embedding向量，

是可训练的映射权重矩阵，其中u_i＜＜v_i，u_i表示映射后Embedding的维度；

将用户行为数据的数值型特征直接取原数值；

将用户行为数据的类别型特征和数值型特征进行拼接得到：

x＝[x_embed,1；...；x_embed,i；...；x_embed,m；x_num,1；...；x_num,j；...；x_num,n]

表示d维的实数空间，其中d＝m·u_i+n；

步骤2.3，将Embedding输入特征信息x分裂为两个相同维度的Embedding，记为x₀和h₀。

可选的，所述步骤2.3包括：

根据下式将Embedding输入特征信息x分裂为两个相同维度的Embedding：

其中f_m(·)表示第m个专家的输出，g^k(·)_m表示对于任务k对应门控网络输出的第m个分量，用于表示选取第i个特性的概率，有

y^k表示对应任务k的输出结果，n表示专家的数量；每个门的都是由相同的线性模型组成的，最终使用softmax输出选择对应专家的概率：

g^k(x)＝softmax(W_gkx)

其中

表示任务k的可训练矩阵；对于专家函数定义为线性模型，最终经过Batch Normalization处理：

f_m(x)＝BatchNorm(W_emx+b_em)

其中

表示第m个专家的可训练权重矩阵，b_em表示可训练的偏置变量；得到显式特征和隐式特征建模分别对应的输入变量为x₀和h₀，x₀＝y⁰,h₀＝y¹。

可选的，若用户行为数据的某一类别型特征为多值特征，则取所有值对应低维Embedding向量的平均值。

可选的，所述激活函数σ为sigmoid函数，即σ(x)＝1/(1+exp(-x))。

可选的，所述步骤一包括：

采集用户行为数据、用户数据和对应的广告数据，分别组成用户行为数据集、用户数据集和广告数据集；

以用户行为数据集作为主参照数据集，用户数据集和广告数据集作为副参照数据集，根据用户ID以及广告ID最终将所有数据进行聚合，得到聚合后数据集。

可选的，所述步骤一还包括：

对聚合后数据集中用户行为数据的类别型特征进行独热编码处理，对聚合后数据集中用户行为数据的数值型特征保持不变，将聚合后数据集中每一条用户行为数据表示为e＝[e₁；e₂；...；e_h]，其中，h为类别型特征和数值型特征的数量之和；所述数值型特征为用户行为数据中数值形式的特征，类别型特征为用户行为数据中非数值形式的特征。

本发明有益效果是：

通过采用多门多专家系统，引入特征信息分发模块，根据并行架构中子网络特征建模方面不同，对训练过程拆分成多个更加细粒度的任务，为其训练具有分辨性且个性化的低维Embedding输入，并且引入特征信息融合模块将异构子网络特征信息进行融合，多层叠加最终得到用户点击商业广告的概率，极大改善了当前并行架构中存在的并行架构中参数共享问题。本发明方法在基于大量用户行为数据的情况下，可以极大程度上减小内存以及显存耗费，并且大幅度提高预测广告点击率的准确度，优化模型性能，从而满足实际工程设计需求和商业盈利需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中提供的基于深度学习的商业广告点击率预测方法的实现流程图。

图2是本发明一个实施例中采用的显式建模方式示意图。

图3是本发明一个实施例中采用的隐式建模方式示意图。

图4是串行架构和并行架构示意图。

图5是本发明一个实施例中提供的基于深度学习的商业广告点击率预测方法所采用的整体网络架构示意图。

图6是本发明一个实施例中提供的基于深度学习的商业广告点击率预测方法所采用的整体网络架构中特征信息分发模块示意图。

图7是本发明一个实施例中提供的基于深度学习的商业广告点击率预测方法所采用的整体网络架构中特征信息分发模块训练后权重图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

首先对于本申请所涉及的基础理论介绍如下：

1.显式建模与隐式建模

显式特征建模与隐式建模之间最大的不同就是特征的组合方式。如图2所示，显式特征建模通常使用特征交叉的形式来建模特征之间的关联信息，其优点就是计算高效而且模型可解释性较好；而隐式建模通常作为显式建模的补充，用于捕捉显式建模中无法捕捉到的特征信息，如图3所示，通常使用多层感知机(Multilayer Perceptron,MLP)来进行隐式特征建模，但是其对于模型的可解释性较差。

2.并行架构推荐算法模型

近年来学者提出众多深度神经网络来建模高阶特征关联，以端到端的方式捕捉特征信息，而且无需繁琐的手动刻画特征。大部分模型使用MLP建模隐式高阶特征关联，而MLP在建模2阶或3阶特征关联效果较差，而且隐式建模的方式导致模型可解释性较差，因此大部分CTR算法将显式建模和隐式建模两模块搭配使用。根据两个模块不同的组织方式可以分为串行架构和并行架构，如图4所示，串行架构是显式建模网络后连接隐式建模网络，如图4左侧图；而并行架构中两者独立进行计算，最终将两者输出融合，如图4右侧图。

3、多门多专家系统

在多任务模型中，多门多专家系统(Multi-gate Mixture of Experts,MMoE)是针对通过学习不同任务之间的联系和差异来提高模型质量，使用门控网络来学习多个任务之间的关联，最大化各种策略对模型的提升价值，本发明借助MMoE对于任务进行更细粒度拆分，更有益于模型的学习以及训练(Ma J,Zhao Z,Yi X,et al.Modeling taskrelationships in multi-task learning with multi-gate mixture-of-experts[C]//Proceedings of the 24th ACM SIGKDD international conference on knowledgediscovery&data mining.2018:1930-1939.)

实施例一：

本实施例提供一种基于深度学习的商业广告点击率预测方法，所述方法包括：

其中，

步骤四：根据x₄和h₄计算用户点击预测值：

其中，σ表示激活函数。

实施例二：

本实施例提供一种基于深度学习的商业广告点击率预测方法，参见图1，所述方法基于图5所示的网络架构实现，所述网络架构包括输入层、Embedding层、特征信息分发模块，Explicit层，Implict层、特征信息融合模块以及输出层。输入层为聚合后的数据，经过Embedding层将高维稀疏数据映射到低维密集空间，经过特征信息分发模块分别输入到Explicit层和Implict层；使用Explicit层和Implicit层分别进行显式和隐式特征建模，使用特征信息融合模块将二者输出进行融合，再经过特征信息分发模块将融合后的信息分发给下一层，以此重复四次；最终经过输出层得到预测结果。

所述方法包括：

步骤1.数据集预处理：

(1.1)将用户行为数据集作为主参照数据集，用户数据集和广告数据集作为副参照数据集，类似数据库中left join的思想，根据用户ID以及广告ID最终将所有数据进行聚合，得到聚合后数据集；其中，所述用户行为数据集中为用户的行为数据，即用户在平台上产生的行为操作，主要包括用户在平台上的停留时间、用户是否点击广告、信息流刷新次数、用户点击广告类别等信息；所述用户数据集中为用户自身的信息数据，比如用户地区、设备型号、性别、年龄等信息；所述广告数据集中为广告的数据信息，比如广告所属类别、广告点击次数、广告展现形式、广告对应素材等信息。各数据集所包含的数据可根据网站的个性化设定确定。

(1.2)移除聚合后数据集中的无关和冗余特征，防止对模型训练产生负面影响；所述无关和冗余特征指与预测广告点击率无关和多余的特征。

(1.3)对于数值型特征保持不变，类别型特征进行独热编码处理，将聚合后数据集中所有行为数据表示为e＝[e₁；e₂；...；e_h]；其中，所述数值型特征指可以用数字描述的特征，比如年龄，手机尺寸等；所述类别型特征指用于描述信息类型的特征，比如手机类型、打开广告的方式等。

步骤2.Embedding处理：

(2.1)首先根据特征非重复值的数量得到Embedding的词汇量大小v_i；

即根据数值型特征和类别型特征非重复值的数量之和确定Embedding的词汇量大小v_i。

(2.2)对于类别型特征采用更低维的向量进行表示：

x_embed,i＝W_embed,ie_i

其中e_i表示第i个类别型特征，

表示第i个类别型特征对应的低维Embedding向量，i取值范围为1～m，

对于数值型特征直接取原数值；

最终将所有的特征拼接起来得到：

x＝[x_embed,1；...；x_embed,i；...；x_embed,m；x_num,1；...；x_num,j；..；x_num,n]

其中x_num,j表示第j个数值型特征标量，最终Embedding层输出为

j取值范围为1～n。

(2.3)如果某一类别型特征为多值特征(比如一个电影可以既是动作片也是科幻片)，则取所有值对应Embedding向量的平均。

(2.4)通过特征信息分发模块，为并行架构子网络训练具有可分辨性的特征输入，表示为：

y^k表示对应任务k的输出结果，n表示专家的数量。每个门的都是由相同的线性模型组成的，最终使用softmax输出选择对应专家的概率：

g^k(x)＝softmax(W_gkx)

其中

表示任务k的可训练矩阵。对于专家函数定义为线性模型，最终经过Batch Normalization处理：

f_m(x)＝BatchNorm(W_emx+b_em)

其中

表示第m个专家的可训练权重矩阵，b_em表示可训练的偏置变量；得到显式特征和隐式特征建模分别对应的输入变量为x₀和h₀，x₀＝y⁰,h₀＝y¹；

步骤3.并行架构训练：

(3.1)显式特征建模，使用特征交叉来进行显式建模，输出为：

x_l-1′＝x₀⊙(W_lx_l-1+b_l)+x_l-1

(3.2)隐式特征建模，使用MLP来对模型进行建模，输出为：

h_l-1′＝f(W_lh_l-1+b_l)

(3.3)通过特征信息融合模块，将显式特征和隐式特征的输出进行融合：

α_l-1＝[x_l-1′,h_l-1′]

其中α_l-1表示特征信息融合模块的输出；

(3.4)通过(2.4)步骤中的特征信息分发模块，将α_l-1分裂为两个相同维度的向量x_l和h_l；

(3.5)重复(3.1)-(3.4)一共4次，最终获得输出x₄和h₄。

步骤4.得到最终用户点击预测：

其中x_l表示显式建模层的输出，h_l表示MLP层的输出，W表示可训练权重矩阵，σ表示最终的激活函数，此模型中使用sigmoid函数作为激活函数，即σ(x)＝1/(1+exp(-x))。

本实施例通过以下实验进一步说明本申请提出的方法的预测效果。

1.仿真条件

这里选用Criteo、Avazu以及MovieLens-1M三个数据集作为测试数据集。Criteo数据集是当前最流行的CTR基准数据集，其包含用户7天内点击广告的数据日志信息，有4500万条数据信息，39个属性，前六天的用户数据作为训练集，将最后一天的用户数据平分作为验证集和测试集；Avazu数据集也是流行的CTR基准数据集，数据中包含了用户11天内在移动端点击广告的信息，共有4000万条数据，23个属性，80％数据作为训练集，10％数据作为验证集，10％数据作为测试集；MovieLens-1M也是十分知名流行的数据集，其中包含三个文件：评分数据、用户数据和电影数据，将评分等级为1或2设置为0，将等级为4或5设置为1，移除等级为3的数据，同样80％数据作为训练集，10％数据作为验证集，10％数据作为测试集。

在本算法中，Embedding维度设置为d＝10，特征交叉网络和MLP的层数为l＝4，特征信息分发模块中专家数量e＝4，所有权重矩阵的初始化方式设置为Glorot方式，除了在最终预测层使用sigmoid函数作为激活函数，其他都是用ReLU函数作为激活函数。

使用两个指标来对模型性能进行评估：一是AUC(Area Under ROC Curve)，用于衡量模型对随机选取的正标签样本要比随机选取的负标签样本给出更高分值概率，AUC越高表示模型性能越好；二是LogLoss，用于衡量模型预测结果与实际结果的准确度，值越小表示模型性能越好。

2.仿真结果及结果分析

将本发明中的模型与当前先进的模型进行比较，有DeepFM，DCN，xDeepFM，AutoInt+，DCN-v2以及EDCN。

表1为本发明与当前先进的模型性能的对比。

表1

如表示1所示，本发明在Criteo数据集和Avazu数据集优于其他算法，在MovieLens-1M数据集上AUC指标领先其他算法。这充分展现了本发明要比主流SOTA算法更能胜任CTR任务。

下表2为本发明与当前先进模型参数量的比较：

表2

如表2所示，本发明参数量可以在不显著增加参数量的基础上，相比先前最好的模型DCN-v2参数量减少了20％，并且可以提高模型性能，因此可以说明在工业界上的应用也是有较强的实用性，能够在实际生产中发挥更好的作用。

如图7所示，特征信息分发模块能够为并行架构不同子网络训练可分辨的输入，其权重分布有着明显不同，充分展示了本发明的有效性。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。