CN116757747A

CN116757747A - 基于行为序列和特征重要性的点击率预测方法

Info

Publication number: CN116757747A
Application number: CN202310568077.8A
Authority: CN
Inventors: 王瑛琦; 季会勤
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-09-15

Abstract

本发明公开一种基于行为序列和特征重要性的点击率预测方法，包括：对公开的互联网平台数据集预处理后得到候选物品序列特征，用户历史行为特征，用户画像特征和其他特征；对处理得到的特征输入到嵌入层，将低维稀疏的特征转化为高维稠密的嵌入特征；将用户历史行为特征和候选物品序列特征对应的嵌入特征输入到用户行为序列网络中进行用户行为序列建模，得到用户的兴趣状态向量，所述用户行为序列网络包括兴趣抽取层和兴趣更新层；将用户画像特征和其他特征嵌入后的数据输入到层次注意力网络中；将上述输出拼接后输入多层神经网络中训练，得到点击率预测结果。本发明降低了计算的复杂度，提升了模型的点击率预测效率。

Description

基于行为序列和特征重要性的点击率预测方法

技术领域

本发明涉及信息推荐系统技术领域，尤其涉及一种基于行为序列和特征重要性的点击率预测方法。

背景技术

随着信息技术和互联网行业的发展，人们的衣食住行都和互联网紧密的联系在一起，随之而来的则是信息量呈现爆发性的增长。如何从海量的数据中挖掘出有效的信息，帮助用户找到最感兴趣的物品是一个重要的问题，而推荐系统的出现极大的缓解了这个问题。

推荐系统是一种利用用户历史行为数据和其他相关信息，为用户推荐个性化内容的技术。推荐系统的出现成为了克服信息过载的有效途径，它主要利用用户信息、物品信息以及用户的显式或隐式信息，帮助用户找到有价值的物品。推荐系统框架大致划分为召回和排序两个阶段，召回是从海量的物品集中找到用户感兴趣的物品，排序则是对召回的物品进行打分，根据用户点击的概率从大到小排序。物品的点击率是衡量用户对物品喜好程度的重要指标，因此排序阶段中点击率预测在工业应用中起着至关重要的作用。点击率的准确预估有利于提高推荐系统的性能并且带来最大化的商业收益。

为了提高点击率预测模型的性能，给用户带来良好的体验，许多基于深度学习的CTR模型被提出，这些方法在推荐系统中较传统方法有较大的改进。基于特征交互的模型和行为序列模型是CTR预测中最重要的两种建模方式。基于特征交互的模型起源于POLY2和因子分解机(FM)，该类方法专注于建模高阶特征组合和交互。Cheng等人(Cheng H T,Koc L,Harmsen J,Wide&Deep Learning for recommender systems.The workshop on deeplearning for recommender systems.(2016)ACM,7–10.)和Qu等人(Qu Y,Cai H,Ren K,Product-based neural networks for user response prediction.(2016)IEEE:1149–1154)使用深度学习方法来提取项目级特征和特征交互信息。随着注意力模型的广泛应用，一些序列方法利用基于循环神经网络的注意力和多头自注意力机制等方式，通过行为序列提取用户的兴趣表示，Zhou等人(Zhou G,Zhu X,Song C,Deep interest network forclick-through rate prediction.(2018)ACM:1059–1068)提出利用循环神经网络提取用户行为序列，进而得到用户兴趣的表示。用户历史行为的高阶兴趣挖掘显著增强了模型的表示能力，进一步提高了CTR预测的性能。

基于特征交互的CTR将所有特征之间以不同的方式进行交叉组合，忽略了用户历史数据带来的影响，从而限制了模型的效率。基于行为序列的点击率预测DIN和DIEN等针对用户的历史数据建模，但是不足以体现出用户多个兴趣，而且计算的复杂度比较高。用户下一时刻购买的物品，不仅受到历史序列的影响，还会受到自身属性的影响。例如，用户在某电商网站按照时间顺序购买了口红、书本和男士衣服等，但是结合用户的性别女、年龄26岁和时间等特征考虑后，我们应该更多的推荐眉笔、连衣裙等商品。

发明内容

本发明针对现有点击率预测方法不能兼顾特征交互和行为序列建模，限制了预测性能的问题，提出一种基于行为序列和特征重要性的点击率预测方法，在兴趣抽取层设计了全局-局部的门控模块和Post-LN Informer提取用户的兴趣，针对非时序属性利用特征交互网络捕获目标项和非时序特征实现对样本空间的非线性变换，增加模型的非线性能力。

为了实现上述目的，本发明采用以下技术方案：

一种基于行为序列和特征重要性的点击率预测方法，包括：

步骤1：对公开的互联网平台数据集预处理后得到候选物品序列特征，用户历史行为特征，用户画像特征和其他特征；所述其他特征包括品牌，价格；

步骤2：对处理得到的特征输入到嵌入层，将低维稀疏的特征转化为高维稠密的嵌入特征；

步骤3：将用户历史行为特征和候选物品序列特征对应的嵌入特征输入到用户行为序列网络中进行用户行为序列建模，得到用户的兴趣状态向量，所述用户行为序列网络包括兴趣抽取层和兴趣更新层；

步骤4：将用户画像特征和其他特征嵌入后的数据输入到层次注意力网络中；

步骤5：将步骤3和步骤4的输出拼接后输入多层神经网络中训练，得到点击率预测结果。

进一步地，所述步骤2中，按照以下方式构建嵌入特征：

设输入的数据X_i、X_b、X_u、X_c分别表示候选物品序列特征，用户历史行为特征，用户画像特征和其他特征；

将稀疏特征经过嵌入层后转化为低维稠密的嵌入特征，分别表示为E_i、E_b、E_u、E_c；

对于X_b进行位置编码得到行为序列的位置编码E_pos，按照以下方式进行行为序列嵌入：

E_bs＝E_b+E_pos＝[e_1s,e_2s,...,e_ts...,e_Ts]

其中E_bs表示最终的用户历史行为嵌入特征向量，E_b是用户历史行为的嵌入，

进一步地，所述步骤3中，所述兴趣抽取层包括全局-局部的门控模块，所述全局-局部的门控模块包括全局门控模块及局部模块；所述兴趣更新层包括基于注意力机制的门控循环单元A-GRU。

进一步地，所述全局门控模块具体用于执行以下步骤：

对嵌入特征向量E_bs考虑全局信息融合，将嵌入特征向量E_bs中每个特征嵌入使用均值池来压缩，计算全局信息p_i，形成统计向量P，再经过两个全连接层后得到向量G；

将嵌入特征向量E_bs和全局的门控向量G，通过重新加权的方法构建全局特征嵌入V_g＝F_{g_rewight}(G,E_bs)＝[g₁·e_1s,...,g_s·e_Ts]。

进一步地，所述局部模块具体用于执行以下步骤：

对嵌入特征向量E_bs考虑局部信息融合，构建局部特征嵌入表示，通过降低维度和增加维度的机制计算单个特征的贡献，得到局部的门控向量表示L＝F_{l_ex}(E_bs)＝σ₁(W₃σ₂(W₄E_bs))，其中σ1和σ2是非线性激活函数，W₃和W₄是学习参数；

根据嵌入特征向量E_bs和局部的门控向量L，得到局部特征嵌入V_l＝F_{l_rewight}(L,E_bs)＝[l₁·e_1s,...,l_s·e_Ts]。

进一步地，所述步骤3中，按照以下方式进行用户行为序列建模：

将全局特征嵌入和局部特征嵌入组合：

其中R代表总的序列嵌入表示，分别代表了元素之间的点乘、相加操作；

设q_i，k_i，v_i分别代表中的第i行，并将获取的R赋给q_i，k_i，v_i；在自注意力机制中，输入序列会分别被映射到三个不同的向量空间中：查询Q(即Query)，键K(即Key)，值V(即Value)向量空间；T_Q＝T_k＝T_v＝T，表示序列的长度；d_v代表嵌入维度；然后从K中随机选择u个数，将Q和K进行点乘运算得到/>

从中选择u个数，从大到小排列并标记在Q中的索引号q_index，然后从原始的Q中找到对应的索引号q_index，并命名为/>将/>和K点乘运算，而后进行scale操作，表示为/>表示/>的最大值；/>表示/>的平均值；M(q_i,K)表示/>的最大值与/>的平均值之差；

将原始向量V计算平均值赋值给/>中的剩余的索引部分，即1-q_index，使剩余的索引部分的维度数恢复到与原始Q的维度一样，与其他的多头自注意力机制类似，将/>和V运算后再与/>拼接，最终得到兴趣向量；

采用多个注意力头，并对多个注意力头的输出进行拼接

MHPA(Q,K,V)＝concat(head₁,...,head_h)W^o

其中W^o是参数矩阵，concat(head₁,...,head_h)表示对多个注意力头的输出进行拼接，h＝4；虽然每个头的维数减小，但是总的计算代价与全维的单头的注意相似；MHPA(Q,K,V)为一个变量，用于将拼接后的多头赋值给这个变量；

将拼接后的结果输入FFN网络中，并使用Dropout和ReLU得到最终的多兴趣向量表示F；

使用辅助损失函数L_aux，它使用下一个行为来监督当前步骤中兴趣状态的学习。其中/>是F的第x时刻的第i行向量，/>表示有N个嵌入序列对，σ(.)是sigmoid激活函数，<,>表示内积，/>是从原始嵌入中选取的负样本，N表示训练样本的数量；最后，将多兴趣向量F输入到兴趣更新层中，得到兴趣更新向量H。

进一步地，按照以下方式训练层次注意力网络：

将用户嵌入、物品嵌入和其他特征嵌入表示拼接后输入到层次注意力中，向量表示为：C₁＝[E_i；E_u；E_c]；

在每一层中使用注意力机制a_l和聚合隐向量U_l，最后将高阶特征融合为密集的实值向量其中/>代表两个向量的哈达玛积，/>表示第j特征的第1层的聚合向量，/>表示第j特征的第l层的聚合向量。

进一步地，所述步骤5中，多层神经网络训练时，采用负对数似然损失函数。

与现有技术相比，本发明具有的有益效果：

本发明公开了一种融合用户行为和特征重要性的点击率预测方法，不仅从用户历史行为中捕获用户兴趣以及兴趣更新过程，还利用层次注意机制建模非时序特征之间的高阶交互。具体来讲，首先，我们设计并实现了兴趣抽取层用来提取用户的兴趣。同时，引入辅助损失函数来监督用户兴趣特征的提取。其次，在兴趣更新层引入基于注意力机制的门控循环单元，以增强目标广告相关兴趣的影响。最后，利用特征交互网络捕获目标项和其他特征实现对样本空间的非线性变换，增加模型的非线性能力。与其他的方法相比，该方法在兴趣抽取层将建模行为序列问题转为时间序列预测问题，并使用改建的Informer结构，降低了计算的复杂度，提升了模型的效率。

附图说明

图1为本发明实施例一种基于行为序列和特征重要性的点击率预测方法的架构示意图；

图2为本发明实施例全局-局部的门控模块结构示意图；

图3为本发明实施例Post-LN Informer架构示意图；

图4为本发明实施例层次注意力网络架构示意图；

图5为学习率影响实验结果；

图6为头数影响实验结果；

图7为层次注意力网络层数影响实验结果；

图8为不同模型在数据集上的预测性能；

图9为本发明不同变体在不同数据集上的性能。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

本发明将特征交互与行为序列相结合，提出了一种基于行为序列和特征重要性的点击率预测方法，该方法架构如图1所示，包括：

1.嵌入层

本发明将原始数据分为四组：候选物品序列、用户历史行为、用户画像和其他特征信息。其中每个类别特征由几个字段构成，例如用户画像包括年龄、性别和职业等，用户历史行为包括用户访问的项目以及项目所属类别。此外，项目特征中引入了比较重要的价格、品牌等因素，这些因素也将考虑在内。

在NLP领域，每个特征都可以编码为高维单热向量。通常原始数据都是稀疏向量，例如性别字段中的male特征可以编码为[0,1]。假设不同字段的一个热向量的连接结果为X_i、X_b、X_u、X_c分别表示候选项、历史行为、用户画像和其他特征信息。这些稀疏特征经过嵌入层后转化为低维稠密的特征，称为E_i、E_b、E_u、E_c。以用户行为序列的嵌入表示为例，公式如下：

其中，T代表用户行为的长度，d_v代表了项目e_i嵌入的维度。X_b经过嵌入层后得到E_b。由于在兴趣抽取层中无法捕捉到序列的顺序特征，为了解决这一问题，采用由频率变化的正弦信号产生的位置嵌入。用户行为序列嵌入最终表示为：

E_bs＝E_b+E_pos＝[e_1s,e_2s,...,e_ts...,e_Ts]

其中E_b是用户历史行为的嵌入，E_pos为行为序列的位置编码，E_bs是最终的行为序列嵌入表示。

2.兴趣抽取层

用户的行为序列隐藏了用户动态演变的兴趣，在电子商务系统中，用户行为是潜在兴趣的载体，用户采取一种行为后，兴趣就会发生变化。在兴趣提取层，我们从连续的用户行为中提取一系列兴趣状态。对于用户的历史购买行为数据，短期和高频购买更能反映出用户的兴趣偏好。因此，我们引入全局-局部的门控模块重点关注对候选项有价值的那部分用户行为信息，并且提出Post-LN Informer去捕获序列中的行为关系。

在点击率预测中不同的特征对目标任务有不同的重要性。例如，当预测一个人的是否会看某个电影时，特征爱好和性别比特征职业和住址更重要。如图2所示，本发明设计了一个全局-局部的门控模块，该模块同时考虑全局和局部的序列信息。它由两个子部分组成，分别从全局和局部考虑不同序列特征的影响。

全局门控模块由三个步骤组成：挤压步骤、激励步骤和重新加权步骤。给定字段嵌入向量E_bs，我们使用均值池来压缩每个特征嵌入e_ts以计算全局信息p_i，并形成统计向量P。然后，使用激励步骤来基于统计向量学习每个场嵌入的权重。最后，我们使用两个全连接(FC)层来学习权重。公式如下所示：

其中表示e_ts中的第j个数，/>是一个全局门控向量，/>和/>是学习参数，r是比例因子。V_g代表全局的特征嵌入。

为了在特征重要性建模中捕获每个特征的特征信息，设计了一个局部模块。不同于全局模块中将用户行为序列均值池化，局部模块直接用降维和增维机制来计算单个特征对目标任务的贡献。

其中L是局部门控向量，和/>分别代表了元素之间的点乘和相加操作。σ3和σ4是非线性激活函数，W₃和W₄是学习参数，V_l代表局部的特征嵌入。全局-局部门控模块综合强调了分布在全局和局部的特征，并根据每个特征的贡献动态调整其权重。

通常建模用户行为序列使用多头自注意力机制或者RNN序列模型。本申请中对Informer进行改进，主要思想就是根据注意力系数是满足长尾分布的，即少数几个key-value对贡献了主要的注意力，因此允许每个key只关注若干个主要query来实现。

生成Post-LN Informer实操步骤：

步骤一：设q_i，k_i，v_i分别代表中的第i行，并将第一步获取R中赋给这三个数据，维度是T×d_v；在自注意力机制中，输入序列会分别被映射到三个不同的向量空间中：查询Q(即Query)，键K(即Key)，值V(即Value)向量空间；T_Q＝T_k＝T_v＝T，表示序列的长度；d_v代表嵌入维度；

步骤二：从K中随机选择u个数，将Q和K进行点乘运算得到进而得到M(q_i,K)，公式如下：

其中是key-value对的最大值，/>是key-value对的算术平均值。如果第i项的查询获得了更大的M(q_i,K)，代表提取的用户兴趣更加丰富。根据排序后的结果，我们随机从Q中选择前u个数作为/>将/>和K点乘运算，而后进行scale操作，表示为

步骤三：如图3所示，为了使key-value对的维度和原始维度相同，我们用V的平均值，即V代替琐碎平凡的注意力。

步骤四：多头注意使模型能够共同关注来自不同位置的不同表示子空间的信息。如果只有一个注意力头会抑制这一点。将多个头拼接得到如下公式：

MHPA(Q,K,V)＝concat(head₁,...,head_h)W^o

其中head_i＝PA(Q,K,V)，；代表维度的拼接，W⁰是参数矩阵。MHPA(Q,K,V)为一个变量，用于将拼接后的多头赋值给这个变量。

步骤五：接下来，加入前馈网络(FFN)来进一步增强非线性模型，为了避免过度拟合并分层地学习有意义的特征，在上述步骤中和FFN中都使用了Dropout和ReLU，输出如下公式所示：

S＝LayerNorm(MHPA(Q,K,V)+R)

F＝LayerNorm(S+Dropout(Relu(SW¹+b¹)W²+b²))

其中W¹,W²,b¹,b²是可学习的参数，并且LayerNorm为标准归一化层。R是原始的嵌入向量。

尽管在前面小节中，本文对用户行为序列进行建模以捕获行为之间的以来关系，但它并不能有效的表示用户的兴趣。使用辅助损失函数来监督项目学习，它使用下一个行为来监督当前步骤中兴趣状态的学习。F_x是F的第x时刻的行向量。辅助损失的公式被定义为：

其中表示有N个嵌入序列对，σ(.)是sigmoid激活函数，并且<,>表示内积。且/>是从原始嵌入中选取的负样本，N表示训练样本的数量。

3.兴趣更新层

利用上一节中的兴趣抽取层，可以获得一个用户的兴趣组状态表示。然而，用户的兴趣会随着外部环境或者其他因素的影响而不断变化，用户历史行为序列中也会存在随机跳跃，而且每一种兴趣都有自己不断更新的过程，会随着时间的推移逐渐演变。为了解决上述问题，在兴趣更新层引入了一种基于注意力机制的门控循环单元模型。

在兴趣更新层，可以得到每个兴趣与候选广告的相关权重，即注意力得分，注意力得分反映了目标广告与输入兴趣之间的相关性，我们在兴趣演化过程中使用的注意函数可以表述为：

其中e_ts表示来自不同字段的嵌入向量的拼接，中表是参数矩阵，n₁是隐状态向量的维数，n₂与嵌入向量的维度一样。

注意力得分反映了目标广告与输入兴趣状态之间的相关性，兴趣状态与目标广告的相关性越高，注意得分越大。我们希望将注意力分数作为一种更新策略引入到GRU的更新门中，因此使用了基于注意力机制的门控循环单元A-GRU。该结构能够根据关注分数的大小来确定隐藏兴趣状态的更新强度，即与目标广告相关的兴趣状态在最终兴趣状态的更新过程中参与度较高，与目标广告无关的兴趣状态在更新过程中参与度较低甚至不参与。隐含层输出状态的具体公式如下：

其中H_i，H_i-1和是隐藏状态，a_i是注意力得分。与原有的GRU结构相比，A-GRU结构将使用注意力分数代替原有的更新门。在A-GRU的作用下，兴趣更新层可以区别对待历史行为，不仅提供最终的兴趣表达和更相关的历史信息，还可以跟随兴趣的演变趋势来预测目标项目的点击率。

4.层次注意层

特征交叉的意义就在于提高模型的非线性建模能力，提升模型的效果。现有的CTR只注重行为序列和目标项目之间的交互，忽略了其他属性与目标项之间的关系。本发明提出了一个层次注意力，它采用层次结构的注意力机制建模高阶特征交互。

根据公式C₁＝[E_i；E_u；E_c]，将目标项和其他属性拼接作为交互层的输入，其中；代表拼接，C₁是层次注意网络的输入；

由于枚举所有可能的组合来计算高阶多特征相互作用是昂贵的，为了得到l+1层的向量表示C_l+1，根据公式得到l层聚合的隐向量，其中/>是第j特征的第l层的注意力聚合得分；

根据公式计算l层的注意力聚合的得分，其中W_l是第l层的权重，c_l是第l层的上下文的向量。

根据第一层C₁和第l层的聚合向量，注意力聚合公式表示为：其中/>代表两个向量的哈达玛积。

5.预测层

预测层将上述建模的用户行为序列和特征交互层连接到一个表示向量中作为预测结果。

为了评估模型的效果，需要指定一个目标函数进行优化，目标函数的目标是使预测值与真实标签的交叉熵最小。因为点击率预测任务是一个二元分类任务，损失函数选择交叉熵损失，通常定义为：

其中y∈(0,1)是真实值，为y的预测概率。此外，所有参数均采用标准反向传播算法进行优化。为了更好的挖掘用户兴趣，在前述内容中引入了辅助损失函数，它使用下一个行为来监督当前步骤兴趣状态的学习。该CTR模型的全局损失函数为：

L＝(1-λ)*L_target+λ*L_aux

λ是超参数用以平衡这两个子任务。

本发明综合考虑用户行为序列和用户属性，将门控网络、Attention网络与深度神经网络模型非线性拟合，构造推荐系统点击率预测模型，模型训练得到预测结果，本方法深度挖掘用户的多种兴趣，泛化程度高且扩展性强。

为验证本发明效果，进行如下实验：

6 实验部分

6.1 实验设置

本节将介绍实验中使用的数据集和基线方法，给出实验指标和实验的详细信息。

6.1.1数据集

亚马逊的数据集由亚马逊的产品评论和元数据组成。我们使用Amazon数据集的两个子集：Beauty和Electronics来验证CUBFI的效果。这些数据集按时间戳收集用户行为。假设在用户行为序列中有k条被评论的产品，我们的目标是预测用户u是否会基于第一个k-1被评论的产品为k-th产品编写评论。每个用户都取5条以上的历史行为。我们通过从原始数据集中随机采样创建训练集、验证集和测试集，划分为80％、10％和10％。

表1.数据集的基本统计数据.

6.1.2基线

为了评估本发明提出的方法(简称为CUBFI)的性能，将本发明与以下被广泛使用的CTR预测的最先进的方法进行比较：

(1)Wide&Deep：Wide&Deep提出宽度和深度模型架构，兼顾泛化能力和记忆能力。

(2)FiBiNet：PNN使用产品层来捕获域间类别之间的交互模式。

(3)DIN：这是一项早期的工作，利用用户的历史行为，利用注意机制来激活用户对不同项目感兴趣的行为。

(4)DIEN：这是近年来对连续用户行为数据进行CTR建模的研究。它将GRU与以候选人为中心的注意力集成在一起，以捕获涉及的利益。DMIN：使用多头自我关注的行为细化层，以更好地捕获用户历史项表示，然后应用多兴趣提取层来提取多个用户兴趣。

6.1.3评价指标

本实施例采用Accuracy、Logloss和AUC值作为模型评价指标。准确率指标表示正确预测的案例占所有案例的比例，较高的值表示分类器的辨别能力。Logloss是二分分类问题中常用的损失函数，点击率可分为点击和未点击的二项分布；Logloss值越小，模型CTR预测精度越高。AUC是ROC曲线下的面积，它对正、负样本是否平衡不敏感，只与分选效果有关。实际的计算方法是用大于负样本数的正样本数除以所有正样本和负样本的比较数之和。

6.1.4实验细节

本实验在GPU RTX 3080Ti上使用Tensorflow实现CUBFI和所有的基线方法。在嵌入层中，两个数据集上的特征嵌入维度都设置为18，每个用户的历史行为取最后20个，历史行为序列包含了商品和类别两部分，故总嵌入维度K＝36。为了优化模型，使用Adam在训练阶段更新Electronics和Beauty数据集，批处理大小为128。在实验中，本实施例按照8:1:1的比例将实验数据分为训练集、测试集和验证集。为了保证模型性能的可靠性，所有模型用相同的数据集处理方式，并且报告的结果为5次实验的平均值。经过多次实验结果验证，CUBFI模型在不同数据集上设置的参数是不同的，如表2所示。

表2.数据集的训练参数.

6.2性能分析

在本节中，设置了多组对比试验来验证本文方法的性能，首先，研究超参数对模型的影响。然后，通过与基准模型的比较，评价了该模型的性。最后，对兴趣抽取层和特征交互层的实验性能进行分析。

6.2.1训练参数的设计

(1)学习率的影响

首先，固定注意头数量设置为2，特征交互层设置为3。计算模型在0.001～0.020之间的学习率，通过调整学习率来观察模型在验证集上的性能。如图4所示，从图4中可以看出来，在不同的数据集上最优的学习率值是不一样的，在Electronics数据集上最优值为0.002，在Beauty数据集上最优值为0.004。

(2)头数的影响

自注意机制中的多头本质上是多个独立的注意计算，它们作为一个集成函数防止过拟合。从图5中可以看出，随着头部数量不断增加，模型在AUC和Logloss性能上下波动的趋势基本一致。由于历史行为序列的嵌入维度K＝36，设置的头部数量必须是36的因数。从图5中可以看出，在Electronics数据集上最优值为4，在Beauty数据集上最优值为3。

(3)层次注意力网络的影响

在本研究中，我们保持其他因素不变，只增加层次注意力网络的层数。随着层数从1到4的增加，模型的性能稳步提高。随着层数从1到4的增加，模型的性能稳步提高。随着层数的加深也会增加模型的复杂度，当层数为4时，模型的性能呈下降趋势。从图6中可以看出，在两个数据集上的交互层数的最优值设置为3。

6.2.2数据集上模型性能分析

在本节中，将本发明的模型与基线方法在两个数据集上进行比较，以评估该模型的整体性能。本节使用在6.1.3中介绍的指标，对不同模型的预测结果进行评价，各模型的具体评价指标如表3所示：

表3：每种模型的性能评估表.

通过对比基线方法与本发明方法，三个指标下的结果表明本发明方法的性能最好。在Electronics数据集上与基础的模型WideDeep模型相比，本发明的AUC值提高了3.65％，精确率提高了4.89％，损失提高了9.02％，从图7可以看出，与其他基线方法相比，本发明方法在Electronics数据集上的各项评价指标都有较大的提高。实验结果表明，本发明提出的CUBFI模型可以有效提高点击率预测的性能。从上述结果中，可以得到一些观察结果。

1、在两个数据集上，CUBFI模型在所有指标上的性能都优于其他的基线。WideDeep和FiBiNet是比较经典的利用特征交互的方式进行点击率预测，而DIN、DIEN和DMIN引入了用户历史行为序列建模用户的兴趣表示。总体来讲，后者模型在指标上是优于前者的，这也表明了利用用户行为序列建模是有效的。

2、在论文[Xiao Z,Yang L,Jiang W,Wei Y,Hu Y,Wang H(2020)Deep multi-interest network for click-through rate prediction.In:Proceedings of the 29thACM international conference on information and knowledge management,pp2265–2268]中，FiBiNet模型被认为是非常有效的。FiBiNet性能优于WideDeep，这是由于FiBiNet使用了SENET网络，从而可以精确的捕获每个特征的重要性。与FiBiNet模型相比，CUBFI的AUC在Electronics数据集上提升了2.14％，在Beauty数据集上提升了5.29％。与建模用户行为序列的DIN、DIEN和DMIN模型相比，所提出的CUBFI模型具有更好的性能，在Electronics数据集上的AUC分别提升了1.98％、1.31％和1.02％，这也证明了结合特征交互和用户行为序列的有效性。

3、如图8所示，还可以观察到，CUBFI在所有指标的所有数据集上都具有最佳性能。CUBFI性能优越主要体现在三个方面：(1)设计了一个全局-局部的门控模块，以自适应的选择有意义的特征。(2)本发明提出的Post-LN Informer模块更精确的建模用户行为序列。(3)本发明提出了一个将用户兴趣和特征交互融合在一起的点击率预测模型，综合考虑了用户行为序列和用户特征重要性。

6.2.3兴趣抽取层和特征交互层的性能分析

为了分析兴趣抽取层和特征交互层的有效性，我们设计了对比试验。设计Model_A验证去除全局-局部的门控模块后对模型的性能的影响；设计Model_B验证去除Post-LNInformer后对模型性能的影响；设计Model_C为本文的最终实验结果；设计Model_D只去除层次注意力网络。实验结果如表4所示：

表4：CUBFI的不同变体.

CUBFI中的每个模块都经过验证，以确定该模块是否有必要存在以及是否可以提升该模型的性能。在进行这些实验时，只去掉一部分，其余部分保持不变。从图9中可以看出：

1、删除CUBFI中的任何模块都会导致性能下降，这验证了本发明提出的CUBFI模型的任何模块都对性能起着至关重要的作用。

2、从Electronics数据集上可以看出，删除全局-局部的门控模块后，Model_A模型的AUC和Logloss性能分别显著下降了。实验结果表明该模块选择有意义的用户行为特征是有效的。

从Beauty数据集上可以看出，删除了层次注意力网络后，模型的整体性能也会整体下降。实验结果表明特征交互对提升模型的性能是有效的。

本发明提出了一种基于行为序列和特征重要性的点击率预测方法。在兴趣抽取层，采用全局-局部的门控模块和Pre-LN Informer模块对用户行为序列进行建模，结合辅助损失函数使用下一个行为来监督当前步骤兴趣状态的学习。然后采用一种基于注意力机制的门控循环单元来模拟与目标广告最相关的兴趣更新过程。最后，在特征交互时采用了一种多交互模块来提取非时序特征信息。实验结果表明，该方法模型能有效的提高点击率预测的精确度。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于行为序列和特征重要性的点击率预测方法，其特征在于，包括：

2.根据权利要求1所述的基于行为序列和特征重要性的点击率预测方法，其特征在于，所述步骤2中，按照以下方式构建嵌入特征：

E_bs＝E_b+E_pos

其中E_bs表示最终的用户历史行为嵌入特征向量，E_b是用户历史行为的嵌入。

3.根据权利要求2所述的基于行为序列和特征重要性的点击率预测方法，其特征在于，所述步骤3中，所述兴趣抽取层包括全局-局部的门控模块，所述全局-局部的门控模块包括全局门控模块及局部模块；所述兴趣更新层包括基于注意力机制的门控循环单元A-GRU。

4.根据权利要求3所述的基于行为序列和特征重要性的点击率预测方法，其特征在于，所述全局门控模块具体用于执行以下步骤：

将嵌入特征向量E_bs和全局的门控向量G，通过重新加权的方法构建全局特征嵌入V_g。

5.根据权利要求4所述的基于行为序列和特征重要性的点击率预测方法，其特征在于，所述局部模块具体用于执行以下步骤：

对嵌入特征向量E_bs考虑局部信息融合，构建局部特征嵌入表示，通过降低维度和增加维度的机制计算单个特征的贡献，得到局部的门控向量表示L；

根据嵌入特征向量E_bs和局部的门控向量L，得到局部特征嵌入V_l。

6.根据权利要求5所述的基于行为序列和特征重要性的点击率预测方法，其特征在于，所述步骤3中，按照以下方式进行用户行为序列建模：

将全局特征嵌入和局部特征嵌入组合：

设q_i，k_i，v_i分别代表中的第i行，并将获取的R赋给q_i，k_i，v_i；Q、K、V分别表示查询、键、值三个向量空间；T_Q＝T_k＝T_v表示序列的长度；d_v代表嵌入维度；然后从K中随机选择u个数，将Q和K进行点乘运算得到/>

从中选择u个数，从大到小排列并标记在Q中的索引号q_index，然后从原始的Q中找到对应的索引号q_index，并命名为/>将/>和K点乘运算，而后进行scale操作，表示为/> 表示/>的最大值；/>表示/>的平均值；M(q_i,K)表示/>的最大值与/>的平均值之差；

将原始向量V计算平均值赋值给/>中的剩余的索引部分，使剩余的索引部分的维度数恢复到与原始Q的维度一样，将/>和V运算后再与/>拼接，最终得到兴趣向量；

采用多个注意力头，并对多个注意力头的输出进行拼接；

使用辅助损失函数，使用下一个行为来监督当前步骤中兴趣状态的学习，最后，将多兴趣向量F输入到兴趣更新层中，得到兴趣更新向量H。

7.根据权利要求1所述的基于行为序列和特征重要性的点击率预测方法，其特征在于，按照以下方式训练层次注意力网络：

8.根据权利要求1所述的基于行为序列和特征重要性的点击率预测方法，其特征在于，所述步骤5中，多层神经网络训练时，采用负对数似然损失函数。