CN111784062A

CN111784062A - 点击概率预测方法、系统、电子设备和介质

Info

Publication number: CN111784062A
Application number: CN202010645718.1A
Authority: CN
Inventors: 王剑容
Original assignee: Shanghai Zhilv Information Technology Co ltd
Current assignee: Shanghai Zhilv Information Technology Co ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-16

Abstract

本发明公开了一种点击概率预测方法、系统、电子设备和介质，点击概率预测方法包括以下步骤：获取用户的点击行为特征数据；基于点击行为特征数据训练深度学习模型以得到预测模型；根据预测模型预测点击概率。本发明使用了在自然语言处理中应用效果较佳的自注意力模型拟合用户行为序列，在表达序列特性的同时实现了并行计算，改善了点击预测效果，且提升了生产效率。

Description

点击概率预测方法、系统、电子设备和介质

技术领域

本发明属于点击概率预测技术领域，尤其涉及一种点击概率预测方法、系统、电子设备和介质。

背景技术

随着互联网技术日益发达，流量成为互联网行业越发关注的核心之一，用户点击率则是用户流量的首要表现。

如何预测用户对某物品的曝光点击率，从而将用户更有可能点击的物品放在推荐黄金位，也是互联网行业中的一块研究重点。基于物品推荐的用户点击概率预测方法层出不穷，如LR(Logistic Regression，逻辑回归)、树模型、贝叶斯模型、FM(FactorizationMachines，因子分解机)模型、FFM(Field Factorization Machine，场因子分解机)模型，以及深度学习模型如DeepFM(一种深度学习模型)、Wide&Deep模型(一种深度学习模型)等等。而上述模型未考虑到用户在对产品产生可能的点击行为前已产生的点击序列。由于用户行为序列蕴含大量表达用户对产品的倾向性的信息，这些模型往往不能达到最好的效果。

业界也曾提出包含用户行为序列特征的点击概率预测模型，但适合并行计算的方法只有简单地对序列产品特征进行拼接，或是加权的线性组合处理，而采用序列模型如循环神经网络，则会大大增加模型耗时，降低生产效率。

发明内容

本发明要解决的技术问题是为了克服现有技术中点击概率预测耗时长、生成效率低的缺陷，提供一种点击概率预测方法、系统、电子设备和介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明还提供一种点击概率预测方法，包括以下步骤：

获取用户的点击行为特征数据；

基于点击行为特征数据训练深度学习模型以得到预测模型；

根据预测模型预测点击概率。

较佳地，获取用户的点击行为特征数据的步骤包括：

基于一条样本的用户ID和对象产品的产品ID，获取对应的用户维度特征、产品维度特征以及上下文维度特征；

基于同一用户ID按时间戳排序的行为样本，获取用户在此条样本前的点击序列作为历史行为特征；点击行为特征数据包括用户维度特征、产品维度特征、上下文维度特征和历史行为特征。

较佳地，深度学习模型包括embedding层，训练深度学习模型的步骤包括：

基于embedding层以对产品ID进行embedding处理，以得到产品矩阵；

将点击序列和产品ID拼接以得到拼接数据；

Transformer模块接收拼接数据以进行训练。

较佳地，Transformer模块包括多头自注意力层、残差网络层、前馈神经网络层、残差网络层。

本发明还提供一种点击概率预测系统，包括特征获取单元、训练单元、预测单元；

特征获取单元用于获取用户的点击行为特征数据；

训练单元用于基于点击行为特征数据训练深度学习模型以得到预测模型；

预测单元用于根据预测模型预测点击概率。

较佳地，特征获取单元还用于基于一条样本的用户ID和对象产品的产品ID，获取对应的用户维度特征、产品维度特征以及上下文维度特征；

特征获取单元还用于基于同一用户ID按时间戳排序的行为样本，获取用户在此条样本前的点击序列作为历史行为特征；点击行为特征数据包括用户维度特征、产品维度特征、上下文维度特征和历史行为特征。

训练单元还用于基于embedding层以对产品ID进行embedding处理，以得到产品矩阵；

训练单元还用于将点击序列和产品ID拼接以得到拼接数据；

训练单元还用于根据Transformer模块接收拼接数据以进行训练。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现本发明的点击概率预测方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明的点击概率预测方法的步骤。

本发明的积极进步效果在于：本申请公开的方法，使用了在自然语言处理中应用效果较佳的自注意力模型拟合用户行为序列，在表达序列特性的同时实现了并行计算，改善了点击预测效果，且提升了生产效率。

附图说明

图1为本发明的实施例1的点击概率预测方法的流程图。

图2为本发明的实施例2的点击概率预测系统的结构示意图。

图3为本发明的实施例3的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种点击概率预测方法。参照图1，该点击概率预测方法包括以下步骤：

步骤S1、获取用户的点击行为数据。

步骤S2、根据点击行为数据得到点击序列特征。

步骤S3、基于用户行为序列和其他特征训练预测用户点击概率的深度学习模型以得到预测模型。

步骤S4、根据预测模型预测点击概率。

具体实施时，在步骤S1中，基于一条样本的用户ID和对象产品的产品ID，获取对应的用户维度特征、产品维度特征以及上下文维度特征；另外，基于同一用户ID按时间戳排序的行为样本，获取用户在此条样本前的点击序列作为历史行为特征。

用户维度特征。包括：1)用户基础特征，如：年龄、性别等；2)根据用户点击产品平均特性获取用户行为偏好特征，如：用户产品星级偏好、用户产品距离偏好等；3)用户向量特征：利用协同过滤得到用户嵌入向量(embedding向量)。

产品维度特征。包括：1)产品基础特征，如：产品销量、价格、钻级、点评数等；2)产品流量特征，如：产品曝光量、点击量、点击率等；3)产品向量特征：根据点击序列做语义分析得到产品embedding向量。

上下文维度特征。包括：列表页展示位置、展示页数、筛选项id等。

交叉特征。包括：上述特征的各种组合，组合方式自由选择，如线性组合或点乘。

用户行为序列特征。本实施例的重点之一，如果模型仅用上述特征来拟合用户后续行为，则未考虑到用户前置行为序列与后续行为的关联性，因此需要将前置点击序列纳入模型中，作为模型信息补全。

判断用户是否会点击某曝光产品时，算法的目标是训练出用户对该产品点击与否的概率，根据概率从大到小对产品排序，从而使排在列表页较前位置的产品对应该用户更可能感兴趣的产品，实现精准推荐。以大量的用户行为数据为驱动，神经网络模型在自动学习特征之间的复杂非线性关系以及向量embedding等方面表现优秀。以此为基础，首先考虑其他模型无法实现的端对端向量embedding——与上文中提到的embedding特征不同，端对端embedding是将产品ID或用户ID这种超高维分类特征直接入模并在网络中添加降维层，和模型优化目标一致统一训练得到向量。因此，用户ID和产品ID均可直接加入模型，但考虑到大多数用户会话较稀疏，在训练集验证集中仅出现一次，而本实施例尚未加入冷启动模块，故此处仅做产品ID的embedding，以及分别获取历史序列中的产品ID对应的向量。

在步骤S2中，首先对数据进行预处理。在使用模型训练之前，首先针对原始训练数据进行数据清洗及预处理，以消除原始数据中存在的噪声与不规范的数据格式，以便后续模型训练。数据预处理流程包括常变量剔除、异常点检测、缺失值填充、归一化处理以及类别型变量处理等步骤。

由于神经网络模型中参数、信息的层层传递过程将所有变量视为同等规模，数值变量必须做归一化处理，即：以数值变量最大最小值的差为缩放规模，每条样本该变量值减去变量最小值除以缩放规模得到0-1之间的归一化变量。

另外，和树模型不同，神经网络模型无法处理类别变量，分类变量必须做独热编码处理或embedding，即：根据特征业务性质进行部分取值合并，将每个离散型变量进行独热编码，转换为模型能够处理的数值型变量。

然后，进行模型构建。

首先，将样本随机打乱，拆分成大小为n的包，每个样本包包含大小为(n,1)的用户ID向量U，大小为(n,1)的产品ID向量P，大小为(n,n_f)(n_f为处理后的特征列数)的其他特征矩阵F，大小为(n,l)(l为序列最大长度，小于该长度的序列用0作为填充)的历史点击序列矩阵H，以及大小为(n,1)的是否点击标签向量L；

然后，进行产品ID编码：原始的产品ID对应成1至n_p的整数(n_p为样本中产品ID的总数)，在网络中添加embedding层，其实质是将(n,n_p)维的id独热码矩阵左乘一个(n_p,n_e)(n_e为降维后的列数，一般指定为128)的系数矩阵W_e加偏差b_e，从而将大数量级的n_p降维至n_e。embedding处理后，产品向量转化为(n,n_e)的产品矩阵。另外，训练得到的系数矩阵同样用于历史点击序列，点击序列矩阵则转化为(n,l,n_e)的张量；

接下来，将处理后的历史点击序列和样本中的当次浏览目标产品向量拼接，得到(n,l+1,n_e)的张量，以此为输入，添加Transformer模块。Transformer模块包括多头自注意力层、残差网络层、前馈神经网络层、残差网络层。

自注意力：

其中Q,K,V分别表示queries、keys和values。

一般使用三个线性转换矩阵将输入的embedding矩阵转化为Q,K,V，即EW^Q,EW^K,EW^V。因此，多头注意力表示为：

S＝MH(E)＝Concat(head₁,head₂,…,head_h)W^H

head_i＝Attention(EW^Q,EW^K,EW^V)

此处可以选择直接续接一层前馈神经网络(FFN,采用ReLU激活函数):F＝FFN(S)，但考虑到尽量降低模型过拟合以及更好地学习特征之间的交互影响，考虑在自注意力层和前馈网络层之间加上两步残差网络层：

S′＝LayerNorm(E+Dropout(MH(E)))

F＝LayerNorm(S′+Dropout(FFN(FFN(S′))))

另外，Transformer模型还人为设定了序列的位置embedding，定义如下：

本实施例采用与embedding相同的n_e作为位置向量的d_model，与id向量拼接作为Transformer模块的输入，输出大小为(n,l+1,2n_e)的张量，这里可以选择几种方法处理：a.取最后一层，大小为(n,2n_e)；b.取l+1层横向拼接，得到大小为(n,(l+1)*2n_e)的矩阵；c.取拼接结果输入两层全连接网络减小维度；d.在该结果基础上attention处理，得到(n,2n_e)的矩阵；

接下来，得到前述步骤中的向量结果拼接其他特征，统一输入三层全连接网络，本实施例中设定其大小为128*64*1。最后选择性地加上其他特征线性组合结果，以及产品对应系数，得到得分，经过sigmoid(S型函数)转换得到点击概率。

然后，训练得到模型，将验证集代入得到结果，计算线下指标(验证集中的产品ID需在训练集中出现过)。

模型选择。模型训练步骤涉及到具体参数选择，以求在众多不同类型的参数组合中选出最佳的参数配置，使得模型达到最优的分类效果。本实施例的调参步骤主要分为两部分，第一，根据经验设置模型各个参数的初始值，并在一定范围内进行调整训练，确定粗粒度的较优参数组合结果；第二，采用网格搜索方法进行精细化模型参数选择，确定细粒度的较优参数组合结果。

实施例2

本实施例提供一种点击概率预测系统。参照图2，该点击概率预测系统包括特征获取单元201、训练单元202、预测单元203。

特征获取单元201用于获取用户的点击行为特征数据；

训练单元202用于基于点击行为特征数据训练深度学习模型以得到预测模型；

预测单元203用于根据预测模型预测点击概率。

具体实施时，特征获取单元201基于一条样本的用户ID和对象产品的产品ID，获取对应的用户维度特征、产品维度特征以及上下文维度特征；另外，基于同一用户ID按时间戳排序的行为样本，获取用户在此条样本前的点击序列作为历史行为特征。

训练单元202首先对数据进行预处理。在使用模型训练之前，首先针对原始训练数据进行数据清洗及预处理，以消除原始数据中存在的噪声与不规范的数据格式，以便后续模型训练。数据预处理流程包括常变量剔除、异常点检测、缺失值填充、归一化处理以及类别型变量处理等步骤。

然后，进行模型构建。

自注意力：

其中Q,K,V分别表示queries、keys和values。

S＝MH(E)＝Concat(head₁,head₂,…,head_h)W^H

head_i＝Attention(EW^Q,EW^K,EW^V)

S′＝LayerNorm(E+Dropout(MH(E)))

F＝LayerNorm(S′+Dropout(FFN(FFN(S′))))

实施例3

图3为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例1的点击概率预测方法。图3显示的电子设备30仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

电子设备30可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备30的组件可以包括但不限于：上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。

总线33包括数据总线、地址总线和控制总线。

存储器32可以包括易失性存储器，例如随机存取存储器(RAM)321和/或高速缓存存储器322，还可以进一步包括只读存储器(ROM)323。

存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325，这样的程序模块324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器31通过运行存储在存储器32中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1的点击概率预测方法。

电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且，模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的设备30使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1的点击概率预测方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1的点击概率预测方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种点击概率预测方法，其特征在于，包括以下步骤：

获取用户的点击行为特征数据；

基于所述点击行为特征数据训练深度学习模型以得到预测模型；

根据所述预测模型预测点击概率。

2.如权利要求1所述的点击概率预测方法，其特征在于，获取用户的点击行为特征数据的步骤包括：

基于同一用户ID按时间戳排序的行为样本，获取用户在此条样本前的点击序列作为历史行为特征；所述点击行为特征数据包括所述用户维度特征、所述产品维度特征、所述上下文维度特征和所述历史行为特征。

3.如权利要求2所述的点击概率预测方法，其特征在于，所述深度学习模型包括embedding层，训练深度学习模型的步骤包括：

基于所述embedding层以对所述产品ID进行embedding处理，以得到产品矩阵；

将所述点击序列和所述产品ID拼接以得到拼接数据；

Transformer模块接收所述拼接数据以进行训练。

4.如权利要求3所述的点击概率预测方法，其特征在于，所述Transformer模块包括多头自注意力层、残差网络层、前馈神经网络层、残差网络层。

5.一种点击概率预测系统，其特征在于，包括特征获取单元、训练单元、预测单元；

所述特征获取单元用于获取用户的点击行为特征数据；

所述训练单元用于基于所述点击行为特征数据训练深度学习模型以得到预测模型；

所述预测单元用于根据所述预测模型预测点击概率。

6.如权利要求5所述的点击概率预测系统，其特征在于，所述特征获取单元还用于基于一条样本的用户ID和对象产品的产品ID，获取对应的用户维度特征、产品维度特征以及上下文维度特征；

所述特征获取单元还用于基于同一用户ID按时间戳排序的行为样本，获取用户在此条样本前的点击序列作为历史行为特征；所述点击行为特征数据包括所述用户维度特征、所述产品维度特征、所述上下文维度特征和所述历史行为特征。

7.如权利要求6所述的点击概率预测系统，其特征在于，所述深度学习模型包括embedding层，训练深度学习模型的步骤包括：

所述训练单元还用于基于所述embedding层以对所述产品ID进行embedding处理，以得到产品矩阵；

所述训练单元还用于将所述点击序列和所述产品ID拼接以得到拼接数据；

所述训练单元还用于根据Transformer模块接收所述拼接数据以进行训练。

8.如权利要求7所述的点击概率预测系统，其特征在于，所述Transformer模块包括多头自注意力层、残差网络层、前馈神经网络层、残差网络层。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述的点击概率预测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的点击概率预测方法的步骤。