CN113010774A

CN113010774A - 一种基于动态深度注意力模型的点击率预测方法

Info

Publication number: CN113010774A
Application number: CN202110206020.4A
Authority: CN
Inventors: 邵杰; 刘树锦; 陈得荣
Original assignee: Sichuan Artificial Intelligence Research Institute Yibin
Current assignee: Sichuan Artificial Intelligence Research Institute Yibin
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-06-22
Anticipated expiration: 2041-02-24
Also published as: CN113010774B

Abstract

本发明公开了一种基于动态深度注意力模型的点击率预测方法，包括以下步骤：S1、在客户端获取用户对推荐项目点击的多个原始数据组；S2、对存储在服务器的多个原始数据组进行预处理，得到多类别的特征数据；S3、将多类别的特征数据输入输入层，得到高维稀疏向量；S4、将高维稀疏向量输入嵌入层，通过嵌入层将高维稀疏向量映射为低维向量数据；S5、通过维数转换层将低维向量数据转换为标准维度向量数据；S6、通过交互层提取标准维度向量数据的高阶特征交互数据；S7、根据高阶特征交互数据，通过输出层计算点击率预测结果；本发明解决了现有点击率预测模型中忽略了对不同的特征需要不一样的计算资源的问题。

Description

一种基于动态深度注意力模型的点击率预测方法

技术领域

本发明涉及信息投放领域，具体涉及一种基于动态深度注意力模型的点击率预测方法。

背景技术

对于大多数互联网公司，例如Google，Amazon和Facebook，推荐系统都是必不可少的。点击率(CTR)预测在推荐系统中起着至关重要的作用，该系统的任务是预测用户点击推荐项目(如广告，音乐或电影)的可能性。预测的性能对两个方面都有重要影响。一方面，它直接决定了商业提供者的最终收入。另一方面，它影响用户体验，这对公司的长期发展具有重要意义。由于其卓越的作用，它引起了人们对研究和工业的越来越多的兴趣。

机器学习最近在点击率预测中发挥了关键作用。众所周知，特征工程通常被认为是成功完成机器学习任务的关键之一。除了使用原始特征之外，对原始特征进行有效转换以提高预测模型的性能通常也很重要。交叉特征是特征变换的主要类型，稀疏原始特征相乘来形成新特征。例如，向20至30岁的女性推荐玫瑰金iPhone是合理的。但是，要找到这种有意义的组合功能，很大程度上取决于领域专家。而且，几乎不可能手动进行所有有意义的组合。为了解决这个问题，现有提出了因式分解机(FM)来建模特征相互作用，并已被证明可用于各种任务。但是，由于其多项式拟合时间的限制，它通常适合于对低阶特征交互进行建模，而对于捕获高阶特征交互则不切实际。

为了对高阶特征交互进行建模，已经提出了许多基于深度神经网络(DNN) 的工作。这些模型更具表现力，并且可以探索大多数特征相互作用。最近的研究表明，当目标是大量不相关函数的集合时，DNN存在梯度不敏感的问题。简单的DNN模型很难找到合适的特征交互。因此，已经提出了一些复杂的体系结构，例如神经因子分解机(NFM)和CIN。然而，事实证明，全连接神经网络在学习乘法特征交互作用方面是低效的，并且这些模型只是在枚举所有特征相互作用。显然，不同的特征对目标任务的重要性不同。例如，电影的主角对观众的影响要大于配角。因此，为了获得更好的结果，模型需要更多地关注有用的特征交互。通常的想法是，某些重要数据可能需要更多的计算才能产生可靠的结果，而一些简单或不重要的数据可能需要更少的计算。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于动态深度注意力模型的点击率预测方法解决了现有点击率预测模型中忽略了对不同的特征需要不一样的计算资源的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于动态深度注意力模型的点击率预测方法，所述动态深度注意力模型包括依次连接的输入层、嵌入层、维数转换层、交互层和输出层，其方法包括以下步骤：

S1、在客户端获取用户对推荐项目点击的多个原始数据组；

S2、将多个原始数据组上传至服务器进行存储，并对存储在服务器的多个原始数据组进行预处理，得到多类别的特征数据；

S3、将多类别的特征数据输入输入层，得到高维稀疏向量；

S4、将高维稀疏向量输入嵌入层，通过嵌入层将高维稀疏向量映射为低维向量数据；

S5、通过维数转换层将低维向量数据转换为标准维度向量数据；

S6、通过交互层提取标准维度向量数据的高阶特征交互数据；

S7、根据高阶特征交互数据，通过输出层计算点击率预测结果。

进一步地，步骤S1中每个所述原始数据组包括：用户数据、推荐项目数据和是否点击。

进一步地，步骤S3中输入层的输出为高维稀疏向量x，x＝[x₁,…,x_i,…,x_M]，其中，x_i为第i类特征数据，M为特征类别个数。

进一步地，步骤S4中嵌入层的输入输出关系式为：

E＝[e₁,…,e_i,…,e_M]

e_i＝V_ix_i

其中，E为嵌入层输出的低维向量数据，

为嵌入矩阵，

为实数域，d_e为嵌入层的维度，n_i为第i类特征可取的值的数量，e_i为嵌入层输出的第i个低维向量。

进一步地，步骤S5中维数转换层对第i个低维向量进行维度转换的公式为：

a_i＝W_Ae_i+b

其中，a_i为标准维度向量数据，W_A为维数转换层的权重矩阵，d_model为每个特征类别的维度，b为偏置。

进一步地，步骤S6中交互层包括多个子层，每个所述子层包括：多头自注意力单元和Add&Norm单元；

所述多头自注意力单元的输出数据和多头自注意力单元的输入数据均输入 Add&Norm单元的输入端中；所述多头自注意力单元的输入端作为子层的输入端；所述Add&Norm单元的输出端作为子层的输出端。

进一步地，多头自注意力单元的输入输出的关系式为：

其中，

为第1个子层中多头自注意力单元的输入，

第一个子层中多头自注意力单元的输出，Concat()表示将结果连在一起，

W^O为联结参数矩阵，h为头数，d_v为值的维度，head_i为第i个头的计算结果，

W_i ^Q为查询参数矩阵，d_k为键的维度，

W_i ^K为键参数矩阵，

W_i ^V为值参数矩阵。

上述进一步方案的有益效果为：数据存在多个特征域，获取有效的特征组合需要捕获长距离特征，传统的CNN捕获方式依赖于卷积核能够覆盖的最大长度，捕获能力很差，而RNN方式有序列依赖的特性，在并行计算方面有严重的缺陷，本发明采用多头自注意力网络可以高效的捕获有效的特征组合以获得更好的预测效果。

进一步地，Add&Norm单元输入输出的关系式为：

其中，

为Add&Norm单元的输出，LayerNorm()为归一化函数，

为多头自注意力单元的输入，

为多头自注意力单元的输出。

进一步地，交互层对标准维度向量数据a_i构建的特征类别的状态矩阵X进行处理的方法包括以下步骤：

A1、在计算机系统中输入状态矩阵X、子层数组subs[]、子层总层数L和标量阈值thr；

A2、设定特征类别的停止概率halt_pro、特征类别的更新权重remain、特征类别的更新次数n_up、特征类别的状态state和子层l的初值；

A3、判断特征类别的停止概率halt_pro是否小于标量阈值thr，且特征类别的更新次数n_up小于子层总层数L，若是，则跳转至步骤A4，若否，则跳转至步骤A14；

A4、根据状态矩阵X，采用sigmoid函数计算概率因子p，p＝σ(MLP(X))，其中，σ()为sigmoid函数，MLP()为多层感知机；

A5、获取当前子层的需更新的特征类别run：run＝halt_pro，且将特征类别的更新次数n_up进行更新：特征类别的更新次数n_up自加特征类别run；

A6、获取当前子层的不会更新的特征类别new_halted，其计算公式为：

new_halted＝[(halt_pro+p×run)＞thr]×run

A7、获取在下一子层中仍需更新的特征类别no_halted，其计算公式为：

no_halted＝[(halt_pro+p×run)≤thr]×run

A8、对特征类别的停止概率halt_pro进行赋值更新，其计算公式为：

halt_pro←halt_pro+p×no_halted

其中，←为赋值；

A9、根据更新后的特征类别的停止概率halt_pro，对特征类别的更新权重 remain进行赋值更新，其计算公式为：

remain←remain+new_halted×(1-halt-pro)

A10、根据更新后的特征类别的更新权重remain和更新后的特征类别的停止概率halt_pro，对特征类别的停止概率halt_pro进行再次赋值更新，其计算公式为：

halt_pro←halt_pro+new_halted×remain

A11、根据更新后的特征类别的更新权重remain，计算特征类别相对应的权重up-w，其计算公式为：

up_w←p×no_halted+new_halted×remain

A12、采用子层数组subs[]进行特征交互，并对状态矩阵X进行赋值更新处理，其计算公式为：

X←subs[l](X)

其中，subs[l]为第l子层；

A13、将l自加1，并基于更新后的状态矩阵X，对特征类别的状态state进行赋值更新处理，其计算公式为：

state←X×up_w+state×(1-up_w)

A14、根据再次更新后的特征类别的停止概率halt_pro和更新后的特征类别的更新次数，跳转至步骤A3进行再次判断，直到不满足步骤A3中的判断条件，最终得到的特征类别的状态state即为子层最终的输出

上述进一步方案的有益效果为：上述方案通过多层感知机为特征状态进行计算以得到其对应的停止概率，得到一个监督器的效果，使其自动选择哪些每个特征域需要在网络中传递的层数，当特征域仍需要计算的时候，就为其调用多头自注意力网络来进行特征提取，当特征域已经得到足够的计算时，就停止其更新。其中多层感知机的参数，本发明通过反向传播的方式可以自动获取，整个流程高度自动化。进而得到一种聪明的动态计算方式，实现不同的特征得到应有的计算，而不会计算不足得不到有效的结果，也不会做过多的计算使其对结果有害。该方法不仅可以提升特征提取的效果，而且可以节省计算资源。

进一步地，步骤S7中通过输出层计算点击率预测结果的计算公式为：

其中，

为点击率预测结果，σ()为sigmoid函数，

w为参数向量，Flatten()为将矩阵展平为向量，b′为偏置参数。

综上，本发明的有益效果为：一种基于动态深度注意力模型的点击率预测方法，结合了注意力机制和深度控制方法，可以自动学习高级特征交互。

首先获得好的高阶特征交互对于获得良好的点击率预测效果有着重要的作用。但是当目标是大量不相关函数的集合时，存在不敏感梯度问题。简单的DNN 模型很难找到合适的特征交互。全连接神经网络在学习乘法特征交互作用方面是低效的。在此本发明采用多头自注意力机制来获取特征交互。对低维空间中的特征相互作用进行显式建模。利用多头自注意力单元的不同层，可以对输入特征的特征组合的不同顺序进行建模。这有利于模型找到更好的特征交互。同时设置固定层数的网络会对不同的数据进行同样次数的计算，然而某些重要数据可能需要更多的计算才能产生可靠的结果，而对一些简单或不重要的数据做过多不必要的计算对结果是有害的。所以本发明通过深度控制方法控制不同特征在网络中传递的层数，已获得更好的特征交互效果，同时可以节省计算资源。

附图说明

图1为一种基于动态深度注意力模型的点击率预测方法的流程图；

图2为动态深度注意力模型的结构示意图；

图3为交互层的示意图；

图4为子层示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1～2所示，一种基于动态深度注意力模型的点击率预测方法，所述动态深度注意力模型包括依次连接的输入层、嵌入层、维数转换层、交互层和输出层，其方法包括以下步骤：

S1、在客户端获取用户对推荐项目点击的多个原始数据组；

步骤S1中每个所述原始数据组包括：用户数据、推荐项目数据和是否点击。

S3、将多类别的特征数据输入输入层，得到高维稀疏向量；

步骤S3中输入层的输出为高维稀疏向量x，x＝[x₁,…,x_i,…,x_M]，其中，x_i为第i类特征数据，M为特征类别个数。

步骤S4中嵌入层的输入输出关系式为：

E＝[e₁,…,e_i,…,e_M]

e_i＝V_ix_i

其中，E为嵌入层输出的低维向量数据，

为嵌入矩阵，

通常，特征类别的数量相对较大，这会导致有嵌入层有很多参数，设置一个较小的维度值d_e＝16加快训练过程。

步骤S5中维数转换层对第i个低维向量进行维度转换的公式为：

a_i＝W_Ae_i+b

在本实施例中设置d_model＝64。

高阶特征交互对预测性能具有重要意义。交互层是用于计算高阶特征交互的层。本实施例中，使用自适应深度注意力网络对特征交互进行建模。

如图3所示，步骤S6中交互层包括多个子层，每个所述子层包括：多头自注意力单元和Add&Norm单元，如图4所示；

多头自注意力单元的输入输出的关系式为：

其中，

为第1个子层中多头自注意力单元的输入，

W_i ^Q为查询参数矩阵，d_k为键的维度，

W_i ^K为键参数矩阵，

W_i ^V为值参数矩阵。

在本实施例中，设置h＝2，d_k＝d_v＝32。

注意力机制是将查询和一组键值对映射到输出的功能，其中查询，键，值和输出都是向量。查询，键和值的维度分别为d_k,d_k,d_v。本发明将输出计算为值的加权总和，并通过使用相应的键查询兼容性函数来计算分配给每个值的权重。在此使用所有键计算查询的点积，将每个键除以

然后使用softmax函数获得值的权重。

Add&Norm单元输入输出的关系式为：

其中，

为Add&Norm单元的输出，LayerNorm()为归一化函数，

为多头自注意力单元的输入，

为多头自注意力单元的输出。

交互层对标准维度向量数据a_i构建的特征类别的状态矩阵X进行处理的方法包括以下步骤：

thr是介于0和1之间的标量阈值，

A4、根据状态矩阵X，采用sigmoid函数计算概率因子p，p＝σ(MLP(X)), 其中，σ()为sigmoid函数，MLP()为多层感知机；

new_halted＝[(halt_pro+p×run)>thr]×run

no_halted＝[(halt_por+p×run)≤thr]×run

halt_pro←halt_pro+p×no_halted

其中，←为赋值；

remain←remain+new_halted×(1-halt_pro)

halt_pro←halt_pro+new_halted×remain

A11、根据更新后的特征类别的更新权重remain，计算特征类别相对应的权重up_，其计算公式为：

up_w←p×no_halted+new_halted×remain

X←subs[l](X)

其中，subs[l]为第l子层；

state←X×up_w+state×(1-up_w)

状态矩阵X进行处理的方法为每个特征域添加了动态暂停机制(即深度控制方法)。一旦特征计算了足够的次数，它将不再被网络更新。当达到最大层数或所有特征停止更新时，网络将生成最终输出。

步骤S7中通过输出层计算点击率预测结果的计算公式为：

其中，

为点击率预测结果，σ()为sigmoid函数，

动态深度注意力模型采用以下损失函数对模型进行训练：

其中，y_i表示对第i个实例的真实点击情况，

表示模型预测的点击率，N为样本的总数。

采用在推荐系统这一任务中广泛使用的公开数据集Criteo和Avazu，对本发明的模型进行了效果测试，并将其与现有的方法进行比较。本发明采用点击率预测中两种常用的评价指标AUC和Logloss。

AUC：ROC曲线下的面积是评估分类问题的常用指标。AUC衡量的是正向实例的排名高于随机选择的负向实例的概率。AUC越大越好，其上限为1。

Logloss：Logloss是二进制分类中一种广泛使用的度量标准，用于测量两个分布之间的距离。Logloss的下限为0，这意味着两个分布完全匹配。值越小，性能越好。

比较结果列于表1。

表1：实验结果对比

Claims

1.一种基于动态深度注意力模型的点击率预测方法，其特征在于，所述动态深度注意力模型包括依次连接的输入层、嵌入层、维数转换层、交互层和输出层，其方法包括以下步骤：

S1、在客户端获取用户对推荐项目点击的多个原始数据组；

S3、将多类别的特征数据输入输入层，得到高维稀疏向量；

2.根据权利要求1所述的基于动态深度注意力模型的点击率预测方法，其特征在于，步骤S1中每个所述原始数据组包括：用户数据、推荐项目数据和是否点击。

3.根据权利要求1所述的基于动态深度注意力模型的点击率预测方法，其特征在于，所述步骤S3中输入层的输出为高维稀疏向量x，x＝[x₁，...，x_i，...，x_M]，其中，x_i为第i类特征数据，M为特征类别个数。

4.根据权利要求3所述的基于动态深度注意力模型的点击率预测方法，其特征在于，所述步骤S4中嵌入层的输入输出关系式为：

E＝[e₁，...，e_i，...，e_M]

e_i＝V_ix_i

其中，E为嵌入层输出的低维向量数据，

为嵌入矩阵，

5.根据权利要求4所述的基于动态深度注意力模型的点击率预测方法，其特征在于，所述步骤S5中维数转换层对第i个低维向量进行维度转换的公式为：

a_i＝W_Ae_i+b

6.根据权利要求5所述的基于动态深度注意力模型的点击率预测方法，其特征在于，所述步骤S6中交互层包括多个子层，每个所述子层包括：多头自注意力单元和Add＆Norm单元；

所述多头自注意力单元的输出数据和多头自注意力单元的输入数据均输入Add＆Norm单元的输入端中；所述多头自注意力单元的输入端作为子层的输入端；所述Add＆Norm单元的输出端作为子层的输出端。

7.根据权利要求6所述的基于动态深度注意力模型的点击率预测方法，其特征在于，所述多头自注意力单元的输入输出的关系式为：

其中，

为第1个子层中多头自注意力单元的输入，

W_i ^Q为查询参数矩阵，d_k为键的维度，

W_i ^K为键参数矩阵，

W_i ^V为值参数矩阵。

8.根据权利要求6所述的基于动态深度注意力模型的点击率预测方法，其特征在于，所述Add＆Norm单元输入输出的关系式为：

其中，

为Add＆Norm单元的输出，LayerNorm()为归一化函数，

为多头自注意力单元的输入，

为多头自注意力单元的输出。

9.根据权利要求6所述的基于动态深度注意力模型的点击率预测方法，其特征在于，所述交互层对标准维度向量数据a_i构建的特征类别的状态矩阵X进行处理的方法包括以下步骤：

new_halted＝[(halt_pro+p×run)＞thr]×run

no_halted＝[(halt_pro+p×run)≤thr]×run

halt_pro←halt_pro+p×no_halted

其中，←为赋值；

A9、根据更新后的特征类别的停止概率halt_pro，对特征类别的更新权重remain进行赋值更新，其计算公式为：

remain←remain+new_halted×(1-halt_pro)

halt_pro←halt_pro+new_halted×remain

A11、根据更新后的特征类别的更新权重remain，计算特征类别相对应的权重up_w，其计算公式为：

up_w←p×no_halted+new_halted×remain

X←subs[l](X)

其中，subs[l]为第l子层；

state←X×up_w+state×(1-up_w)

10.根据权利要求6所述的基于动态深度注意力模型的点击率预测方法，其特征在于，所述步骤S7中通过输出层计算点击率预测结果的计算公式为：

其中，

为点击率预测结果，σ()为sigmoid函数，