CN111325579A

CN111325579A - 一种广告点击率预测方法

Info

Publication number: CN111325579A
Application number: CN202010117174.1A
Authority: CN
Inventors: 练质彬; 葛红
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-06-23

Abstract

本发明公开了一种广告点击率预测方法，包括以下步骤：获取原始实例数据；对原始实例数据进行预处理；构建基于卷积神经网络和注意力机制的广告点击率预测网络模型；对广告点击率预测网络模型进行训练；对广告点击率预测网络模型进行测试。通过利用卷积神经网络的提取局部特征交互的能力和非线性能力，解决数据过于稀疏的问题；此外，通过在浅层交互特征的基础上进一步利用卷积神经网络进行特征的交互产生3阶或3阶以上的高阶特征，解决了现有广告点击率预测方法仅仅局限于内积计算和外积计算这样的低阶特征的交互；同时，通过引入注意力机制，在生成高阶特征的基础上进一步提取有用特征，降低无用特征对网络的影响。

Description

一种广告点击率预测方法

技术领域

本发明涉及互联网计算广告技术领域，特别涉及一种广告点击率预测方法。

背景技术

随着互联网的广泛普及以及大数据技术的快速发展，使得广告商利用互联网平台进行广告精准营销成为可能。与传统广告相比，在线广告在覆盖范围、灵活性和效果评估等方面拥有得天独厚的优势。在线广告的主要目标之一是在给定预算的情况下，最大化广告商的收益，例如最大化广告的点击次数。因此，在线广告的一个重要环节是对将广告投放到一个曝光机会的用户点击概率进行预测，应尽可能将广告投放到预测点击率高的曝光机会。

现有很多广告点击率预测方法是通过将线性模型和深度学习模型进行融合，来实现预测功能，但是，这些方法存在以下缺陷：(1)这些方法都是以隐式方式学习高阶特征交互，因此缺乏良好的模型可解释性；(2)对于浅层交叉部分也并未做进一步的交叉去学习更丰富的高阶信息，仅仅局限于内积计算和外积计算这样的低阶特征的交互；(3)这些方法都是将原始特征降维的特征向量直接输送到深度神经网络，从理论上讲，深度神经网络能够从原始特征中学习任意特征交互，然而，与原始特征的组合空间相比，有用的相互作用通常是稀疏的，原始特征本就高维和稀疏，高阶的有效交互特征更为稀疏导致直接从大量参数中有效地学习是非常困难的。

发明内容

有鉴于此，本发明提出一种广告点击率预测方法，能够解决现有广告点击率预测方法所存在的更高阶重要交互特征和隐含交互特征生成难、仅仅计算低阶特征的交互，以及数据过于稀疏的技术问题。

本发明的技术方案是这样实现的：

一种广告点击率预测方法，所述方法基于卷积神经网络和注意力机制，具体包括以下步骤：

步骤S1，获取原始实例数据；

步骤S2，对所述原始实例数据进行预处理，生成训练数据和测试数据；

步骤S3，构建基于卷积神经网络和注意力机制的广告点击率预测网络模型，所述广告点击率预测网络模型输入为所述训练数据和测试数据，所述广告点击率预测网络模型输出为广告点击预测概率；

步骤S4，输入所述训练数据对所述广告点击率预测网络模型进行训练；

步骤S5，输入所述测试数据对所述广告点击率预测网络模型进行测试。

作为所述广告点击率预测方法的进一步可选方案，所述原始实例数据包括类别型特征数据和数字型特征数据。

作为所述广告点击率预测方法的进一步可选方案，所述步骤S2中的对所述原始实例数据进行预处理预处理包括以下步骤：

步骤S21，对所述原始实例数据进行缺失补全处理；

步骤S22，对缺失补全处理后的原始实例数据进行排序处理。

作为所述广告点击率预测方法的进一步可选方案，所述步骤S21中的对所述原始实例数据进行缺失补全处理包括以下步骤：

步骤S211，将缺失的类别型特征数据当做一类数据补全并重新编码后生成one-hot向量；

步骤S212，将缺失的数字型特征数据的缺失值用0填充，再归一化到0 到1之间。

作为所述广告点击率预测方法的进一步可选方案，所述步骤S3中的广告点击率预测网络模型包括嵌入层、低阶交互层、卷积-池化层、注意力层、拼接层、全连接层和输出层。

作为所述广告点击率预测方法的进一步可选方案，所述注意力层采用 SENET结构，包括Squeeze函数、Excitaion函数和Reweight函数。

作为所述广告点击率预测方法的进一步可选方案，所述全连接层包括3 层全连接网络。

作为所述广告点击率预测方法的进一步可选方案，所述步骤S5中对所述广告点击率预测网络模型进行测试，所述测试采用交叉熵损失函数和ROC曲线下与坐标轴围成的面积进行评价。

本发明的有益效果是：本发明通过利用卷积神经网络的提取局部特征交互的能力和非线性能力，有效的降低了特征工程的难度，解决数据过于稀疏的问题；此外，本发明通过在浅层交互特征的基础上进一步利用卷积神经网络进行特征的交互产生3阶或3阶以上的高阶特征，解决了现有广告点击率预测方法仅仅局限于内积计算和外积计算这样的低阶特征的交互；同时，通过引入注意力机制，在生成高阶特征的基础上进一步提取有用特征，降低无用特征对网络的影响，为全连接网络提供有用特征，降低更高阶重要交互特征和隐含交互特征生成的难度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种广告点击率预测方法的流程图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参照图1，一种广告点击率预测方法，所述方法基于卷积神经网络和注意力机制，具体包括以下步骤：

步骤S1，获取原始实例数据；

在本实施例中，本发明通过利用卷积神经网络的提取局部特征交互的能力和非线性能力，有效的降低了特征工程的难度，解决数据过于稀疏的问题；此外，本发明通过在浅层交互特征的基础上进一步利用卷积神经网络进行特征的交互产生3阶或3阶以上的高阶特征，解决了现有广告点击率预测方法仅仅局限于内积计算和外积计算这样的低阶特征的交互；同时，通过引入注意力机制，在生成高阶特征的基础上进一步提取有用特征，降低无用特征对网络的影响，为全连接网络提供有用特征，降低更高阶重要交互特征和隐含交互特征生成的难度；

需要说明的是，本发明获取原始实例数据可以通过在avazu和criteo广告数据集中获取，所述avazu和criteo广告数据集为在kaggle的比赛平台公布出的公有的数据集；此外，构建基于卷积神经网络和注意力机制的广告点击率预测网络模型可以通过采用keras框架包基于tensorflow深度学习力学响应预测网络来实现构建。

优选的，所述原始实例数据包括类别型特征数据和数字型特征数据。

优选的，所述步骤S2中的对所述原始实例数据进行预处理预处理包括以下步骤：

步骤S21，对所述原始实例数据进行缺失补全处理；

步骤S22，对缺失补全处理后的原始实例数据进行排序处理。

在本实施例中，通过对原始实例数据进行缺失补全处理，使得数据能够成为可以输入到神经网络训练的特征向量，然后再对缺失补全处理后的原始实例数据按照数据的时间戳进行排序处理，目的是为了生成训练数据和测试数据，将排在时间戳前70％的数据作为训练数据，排在时间戳后30％的数据作为测试数据，使得模拟的环境更加真实。

优选的，所述步骤S21中的对所述原始实例数据进行缺失补全处理包括以下步骤：

在本实施例中，首先对于类别特征，将缺失的值当成同一类别，之后用 one-hot编码转换成one-hot变量，同一特征不同的数字表示不同的类别，然后对于数字特征，将缺失的值补0后归一化到0和1之间，最后将处理后的类别型特征和数字型特征拼接起来得到可输入到卷积神经网络的特征向量。

优选的，所述步骤S3中的广告点击率预测网络模型包括嵌入层、低阶交互层、卷积-池化层、注意力层、拼接层、全连接层和输出层。

在本实施例中，所述嵌入层用于将类别型特征和数字型特征都映射成相同维度的一维向量，一方面可以将高维的类别类型数据映射成低维向量，解决类别特征经过one-hot编码带来的维度过大问题，另一方面可以方便特征之间的交互形成高阶交互特征；

所述低阶交互层用于将两个嵌入特征的外积以细粒度的方式进行2阶交互生成2维的特征向量，嵌入特征向量两两外积操作后拼接生成一个三维特征向量；

所述卷积-池化层用于对低阶交互层输出的三维向量当做特征图应用卷积核进一步提取高维交互特征，输出一个三维向量；

所述注意力层用于基于卷积-池化层的输出应用注意力机制挑选出重要的交互特征，避免不重要的交互特征干扰模型的训练和影响模型的精度；

所述拼接层用于将嵌入层、低阶交互层和注意力层的输出向量各自变换成一维向量，再将各个一维向量拼接在一起形成一个一维向量；

所述全连接层用于提取高阶交互特征和人工无法发现的隐含特征；

所述输出层用于输出表示用户点击广告的概率，概率越大表示用户越有可能点击该广告。

优选的，所述注意力层采用SENET结构，包括Squeeze函数、Excitaion 函数和Reweight函数。

在本实施例中，Squeeze函数利用全局平均池化操作将池化层输出的特征图压缩成一维向量，Excitaion函数通过连接参数为每个特征通道生成权重，该参数显式地学习对特征通道之间的相关性建模，Reweight函数通过将池化层的输出与Excitaion重建模后的输出按照通道相乘重标定交互特征向量；通过Squeeze函数、Excitaion函数和Reweight函数的作用，能够为全连接层网络预先挑选有用的交互特征，减轻全连接网络的学习负担。

优选的，所述全连接层包括3层全连接网络。

优选的，所述步骤S5中对所述广告点击率预测网络模型进行测试，所述测试采用交叉熵损失函数和ROC曲线下与坐标轴围成的面积进行评价。

在本实施例中，通过采用交叉熵损失函数作为测试评价因子之一，其值介于0到1之间且值越小表明预测的效果越好，通过采用ROC曲线下与坐标轴围成的面积作为另一个测试评价因子，其值也介于0到1之间且值越大表明预测的效果越好。

实施例：

一种广告点击率预测方法，所述方法基于卷积神经网络和注意力机制，包含4个阶段，分别为第一阶段、第二阶段、第三阶段和第四阶段，第一阶段为数据的获取和数据特征特征向量的生成，选取合适的数据和合适的预处理有利于模型的验证和改进，为模型的输入做好准备；第二阶段为基于卷积神经网络和注意力机制的模型的构建；第三阶段为模型的训练，训练的目标是使得用户对感兴趣的广告的预测概率值大，使用户对不感兴趣的广告的预测概率小；第四阶段为模型的测试，对模型进行验证；依次经过4个阶段得到一个具有鲁棒性的模型，用以判断用户对某个广告的感兴趣程度。

第一阶段包括原始数据的获取和数据预处理；原始数据为计算广告场景中历史上投放给用户的广告，用户点击过的实例为正样本，其标签设置为1，用户未点击过的实例为负样本，其标签设置为0；

数据的预处理将原始数据处理成可以输入到神经网络训练的特征向量；原始数据的特征可分为类别型特征和数字型特征，对于类别特征，将缺失的值当成同一类别，之后用one-hot编码转换成one-hot变量，同一特征不同的数字表示不同的类别，对于数字特征，将缺失的值补0后归一化到0和1之间，将处理后的类别型特征和数字型特征拼接起来得到可输入到网络的特征向量，将数据按照时间排序，前70％的数据用作模型的训练，后30％的数据用作模型的测试。

第二阶段为基于卷积神经网络和注意力机制的广告点击率预测模型的构建；模型包括嵌入层、低阶交互层、卷积-池化层、注意力层、拼接层、全连接层和输出层；特征之间的交互非常重要，不同性别对不同类别的广告的感兴趣程度不一样，例如女性一般来说会对化妆品更加感兴趣，而男性会对体育更加感兴趣，不同的职业对不同的领域感兴趣程度也不同，例如计算机领域的人会对科技类的广告会更加感兴趣等等；模型的作用在于代替手工生成交互特征并且也能生成人工无法提取的隐含特征；本模型采用keras框架基于tensorflow后端进行构建，详细实施过程如下：

(1)嵌入层：嵌入层的作用是将不同维度的特征映射成相同的维度，一方面防止直接输入高维稀疏的数据带来的冗余，另一方面方便不同维度特征之间进行交互；类别特征和数字特征的处理方法不同，对于类别特征，第i个类别特征对应的嵌入向量e_i进行的运算如下：

e_i＝W_ix_i，

其中，x_i为one-hot向量表示第i个类别特征；W_i为第i个类别特征的嵌入矩阵；对于数字特征，词嵌入向量e_j进行的运算如下：

e_j＝v_jx_j，

其中，x_j为第j个数字特征；v_j为第j个数字型特征对应的嵌入向量。嵌入层的输出可表示为：

e＝[e₁；e₂；e₃；...；e_n]，

其中，n表示类别型特征和数字型特征的总和，数据经过嵌入层可产生n个嵌入特征向量。

(2)低阶交互层：将嵌入层的输出向量进行两两外积操作，以细粒度的方式进行特征间的交互，两个特征向量的的外积运算如下：

其中，f表示嵌入向量长度；e_i表示第i个特征的嵌入向量；e_j表示第j个特征的嵌入向量；o_ij表示第i个特征的嵌入向量与第j个特征的嵌入向量的外积产生的2阶浅层交互特征向量，o_ij的维度为f×f，低阶交互层的输出可表示为：

o＝[o_1，2；o_1，3；o_1，4；...；o_(n-l)，n]，

其中，o的维度为

将输出向量当成3维的特征图方便之后的卷积操作，为生成更高阶的交互特征打下基础。

(3)卷积-池化层：在低阶交互生成的特征图上进一步提取高阶交互特征，第i个卷积核对应的运算如下式所示：

其中，f表示激活函数；

表示卷积操作；k_i表示卷积操作中的第i个卷积核；b_i表示第i个卷积核的偏置；s_i表示第i个卷积操作生成的高阶特征向量，卷积操作后的输出如下式所示：

s＝[s₁；s₂；...；s_l]，

其中，l表示卷积核个数。

池化层采取最大池化操作，初步筛选提取出的特征，采用最大池化层来初步筛选有用特征，避免特征冗余造成过拟合，池化操作后输出如下式所示：

c＝[c₁；c₂；c₃；...；c_l]

(4)注意力层：由于数据是高维且稀疏的，有用的交互特征则更为稀疏，注意力层作用在于提取有用特征，给有用特征设置大的系数，给无用特征设置小的系数，进一步防止过拟合；注意力层也为全连接层网络预先挑选有用的交互特征，减轻全连接网络的学习负担。

注意力层采用SENET结构，在卷积-池化层后利用Squeeze、Excitaion、 Reweight操作进行交互特征的重标定；Squeeze利用全局平均池化操作将池化层输出的特征图压缩成一维向量，Excitaion通过连接参数为每个特征通道生成权重，该参数显式地学习对特征通道之间的相关性建模，Reweight通过将池化层的输出与Excitaion重建模后的输出按照通道相乘重标定交互特征向量，计算公式分别如下所示，Squeeze的计算如下所示：

其中，t表示池化层生成的特征图的第t个通道；i表示第t个通道的行下标； j表示第t个通道的列下标；Squeeze操作后的输出如下所示：

q＝[q₁；q₂；q₃；...；q_l]，

其中，l为通道数量。Excitaion的计算如下所示

E＝f(W₂f(W₁q+b₁)+b₂)，

其中，f表示使用的激活函数为线性整流函数；W₁为第一层连接网络的权重；b₁为第一层连接网络的偏置；W₂为第二层连接网络的权重；b₂为第二层连接网络的偏置；Reweight操作计算如下所示：

其中，

表示按通道相乘完成交互特征的重标定。

(5)拼接层：将嵌入层、低阶交互层和注意力层的输出向量各自变换成一维向量，再将各个一维向量拼接在一起形成一个一维向量，输出如下式所示：

c＝[e；o；F]

(6)全连接层：全连接层由3层全连接网络构成，使用的激活函数为线性整流函数(ReLU：Rectified Linear Unit)；全连接层一方面可以提取高阶交互特征，另一方面可以提取人工无法发现的隐含特征。

(7)输出层：输出层的概率输出由浅层交互层生成的2阶交互特征、注意力层生成的高阶交互特征和全连接层生成的高阶交互特征决定，尽可能全面地提取有用交互特征，增加模型的鲁棒性。输出层的激活函数为sigmoid函数，输出一个0到1之间的小数，输出表示用户点击广告的概率，概率越大表示用户越有可能点击该广告。

第三阶段为模型的训练。数据按时间排序后的前70％的数据选为训练数据。正样本的标签为1，负样本的标签为0；采用小批量梯度下降法更新网络参数，每批数据量设置为4096，损失函数采用交叉熵，优化函数采用adagrad，学习率为0.01；考虑到数据量比较大，训练轮次设置为1轮，有效地避免了过拟合，模型通过前向传播算法和后向传播算法按批次更新网络参数。

第四阶段为模型的测试；为模拟真实环境，数据按时间排序后的后30％的数据选为测试数据；模型测试选用logloss和auc作为评价指标，logloss即为交叉熵损失函数，其值介于0到1之间且值越小表明预测的效果越好，auc 为ROC曲线下与坐标轴围成的面积，常用于点击率预估领域，其值也介于0 到1之间且值越大表明预测的效果越好。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种广告点击率预测方法，其特征在于，所述方法基于卷积神经网络和注意力机制，包括以下步骤：

步骤S1，获取原始实例数据；

2.根据权利要求1所述的广告点击率预测方法，其特征在于，所述原始实例数据包括类别型特征数据和数字型特征数据。

3.根据权利要求2所述的广告点击率预测方法，其特征在于，所述步骤S2中的对所述原始实例数据进行预处理预处理包括以下步骤：

步骤S21，对所述原始实例数据进行缺失补全处理；

步骤S22，对缺失补全处理后的原始实例数据进行排序处理。

4.根据权利要求3所述的广告点击率预测方法，其特征在于，所述步骤S21中的对所述原始实例数据进行缺失补全处理包括以下步骤：

步骤S212，将缺失的数字型特征数据的缺失值用0填充，再归一化到0到1之间。

5.根据权利要求4所述的广告点击率预测方法，其特征在于，所述步骤S3中的广告点击率预测网络模型包括嵌入层、低阶交互层、卷积-池化层、注意力层、拼接层、全连接层和输出层。

6.根据权利要求5所述的广告点击率预测方法，其特征在于，所述注意力层采用SENET结构，包括Squeeze函数、Excitaion函数和Reweight函数。

7.根据权利要求6所述的广告点击率预测方法，其特征在于，所述全连接层包括3层全连接网络。

8.根据权利要求7所述的广告点击率预测方法，其特征在于，所述步骤S5中对所述广告点击率预测网络模型进行测试，所述测试采用交叉熵损失函数和ROC曲线下与坐标轴围成的面积进行评价。