CN117453998A

CN117453998A - 基于用户兴趣的深度学习CTR模型—RZTERec的构建方法

Info

Publication number: CN117453998A
Application number: CN202311406491.5A
Authority: CN
Inventors: 章韵; 吉旭彤
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-01-26

Abstract

本发明属于计算机应用技术领域，公开了一种基于用户兴趣的深度学习CTR模型—RZTERec的构建方法，首先为了解决序列跨度过长导致的梯度消失问题，构建了基于多头注意力机制的TE‑GRU模型，深度挖掘用户兴趣，其次，为了适应外部环境和内部变化，通过采用AUGRU算法模型，它将注意力机制的局部激活特性与GRU的序列学习能力相融合，以实现兴趣演化的建模，激活相关兴趣，捕获兴趣动态，并解决的兴趣干扰和飘移问题。本发明的RZTERec能够模拟兴趣的多样化和提升CTR预测率。

Description

基于用户兴趣的深度学习CTR模型—RZTERec的构建方法

技术领域

本发明属于计算机应用技术领域，具体的说是涉及一种基于用户兴趣的深度学习CTR模型—RZTERec的构建方法。

背景技术

传统的推荐系统依赖于静态特征，如用户和物品的属性信息，无法很好地适应用户兴趣变化和演化；相比之下，用户行为序列能够更准确地反映用户的兴趣偏好和长期行为规律，因此可以通过这些序列数据来捕捉用户的兴趣演化，提升推荐效果。在推荐系统领域，Fossil模型采用基于门控机制的LSTM结构，赋予用户历史行为序列中的每一个物品一个时间衰减权重，从而更好地捕捉用户行为数据的时序信息。该模型使得最新的行为具有更高的权值，而随着时间的推移，过去的行为权值会逐渐降低，以适应用户兴趣演化的变化。GRU4REC则采用Session-Based策略，将同一次会话中的所有行为视为一个整体，使序列分割更合理，以更好地捕捉序列中不同行为之间的相互影响和依赖关系，在此基础上进一步提升了推荐系统的性能。

然而，传统基于序列建模的推荐模型仍存在一些问题。简单地将用户历史行为作为兴趣表示可能会导致用户序列中暗含的信息挖掘不充分，其中一个主要问题是长期依赖性。诸如“梯度消失”或“梯度爆炸”之类的问题经常在训练阶段出现，使得模型无法有效捕捉长期时间跨度上的相关性，因此，当前的模型只能捕捉短期的依赖关系。

发明内容

为了解决上述技术问题，本发明提供了一种基于用户兴趣的深度学习CTR模型—RZTERec的构建方法，解决序列跨度过长导致的梯度消失问题，深度挖掘用户兴趣，实现兴趣演化的建模，激活相关兴趣，捕获兴趣动态，并解决的兴趣干扰和飘移问题，

为了达到上述木的，本发明是通过以下技术方案实现的：

本发明是一种基于用户兴趣的深度学习CTR模型—RZTERec的构建方法，该方法包括如下步骤：

步骤1：构建Embedding层。

步骤2：考虑用户行为序列特性，针对行为序列特性构建TE-GRU模型；

步骤3：建立AUGRU模型并且对AUGRU模型的参数进行训练；

步骤4：构建Stacking层和MLP。

本发明的进一步改进在于：所述步骤1的Embedding层将离散符号数据转换为低维连续向量空间，在推荐系统中，需要对用户行为序列、物品行为序列和历史行为序列和物品的side information输入特征进行处理，在这个过程中，所有的输入特征都会通过Embedding层进行转换，得到对应的embedding向量。

本发明的进一步改进在于：所述步骤2中TE-GRU模型的构建具体包括如下步骤：

步骤2.1：创建ReZero2的小型辅助结构，在多头自注意力机制方面提高模型的训练和预测性能，

步骤2.2：将用户的行为序列特征输入多头自注意力机制，通过线性转换得到对应的Q，K和V，经历SoftMax和Rezero转换得到Z＝{z₁,z₂,…,z_n}，具体公式如下所示：

其中，d_k为Q和K的维度，a_t为ReZero2的小型辅助结构中的参数，K为矩阵，t为对应第t个向量，T为矩阵的转置；

步骤2.3：将步骤2.2得到的Z经过线性转化得到最终输出X＝{x₁,x₂,…,x_n}；

步骤2.4：通过前馈神经网络由线性结构转换为非线性结构，添加了一个跳跃连接，并通过初始化为零的L个学习参数a_i即残差权重重新缩放函数，表示为：

x_t+1＝x_t+a_tmax(0,x_tW₁+b₁)W₂+b₂

其中，W为权重矩阵，x_t为经过转换的第t个向量；b为偏移量；

步骤2.5：通过遗忘单元损失不必要的复杂信息降低过拟合的风险，更新单元挖掘隐含信息，表示为：

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

其中，x为输入向量，W是用于计算候选隐藏状态的权重矩阵，z为更新向量，r为重置门向量，b为偏移量，b_r为重置门的偏移量，W_r为重置门的权重矩阵，为隐藏状态向量；

步骤2.6：引入辅助损失机制，表示为：

其中，代表第i个用户的行为序列的第t个隐藏状态，/>代表第i个用户的行为序列，N为用户总数，g_i为权重参数。

本发明的进一步改进在于：步骤2.1中，

所述ReZero2通过残差连接以及一个训练的参数α，对F(x)层的非平凡变换进行调整并加到输入信号x上，以优化梯度传播和信号传输；

所述ReZero2通过学习参数γ和β进行方差的缩放以及均值的移动，进一步增强层规范化的效果；

本发明的进一步改进在于：步骤3建立AUGRU模型并且对其网络参数进行训练具体包括如下步骤：

步骤3.1：在AUGRU模型中，先前网络层产生的隐藏状态h_t与候选商品的Embedding向量e相结合，筛选用户兴趣的演变路径，在确定这种关联度时，注意力函数起着中心环节的角色，表示为：

步骤3.2：注意力得分将被融入到GRU的更新门中，进一步增强模型的预测效能，表示为：

其中，为带权重的更新门，/>为基于注意力的更新的隐藏状态。

本发明的进一步改进在于：在所述步骤4具体中：

Stacking层主要是将经过Embedding层产出的不同的Embedding特征，经过TE-GRU模型和AUGRU模型转换得到的embedding特征和数值特征拼接起来，形成一个包含所有特征的特征向量，并输出到MLP层进行后处理；

Stacking层通过权重矩阵W_l和偏置向量b_l将前级的神经元关联到后级的神经元，完成神经网络的信息交流和处理，在Stacking层和输出层的交界，非线性激活函数f处理了Stacking层的产出，形成了一种非线性的映射关系，

输出层则将最终的网络输出转化为具体的预测结果，使用交叉熵损失函数来计算训练过程中的误差，交叉熵函数如下所示：

本发明的网络包含两个关键模块：兴趣提取层(Interest Extractor)即TE-GRU模型和兴趣演变层(Interest Evolution)即AUGRU模型。在兴趣提取层中，利用用户历史行为数据(如点击、购买等)和广告特征，采用多层神经网络进行特征提取，得到用户当前的兴趣特征向量；而在兴趣演变层中，将用户历史兴趣转化为当前的兴趣。使用了多头注意力机制和残差连接来捕捉序列中不同位置的信息，并进行交互和融合，这种方法更有效地处理了用户行为传播所依赖的序列问题。

本发明的有益效果是：

1)本发明构建了基于多头注意力机制的TE-GRU模型，解决序列跨度过长导致的梯度消失问题，深度挖掘用户兴趣。

2)本发明通过采用AUGRU模型，适应外部环境和内部变化，AUGRU模型将注意力机制的局部激活特性与GRU的序列学习能力相融合，以实现兴趣演化的建模，激活相关兴趣，捕获兴趣动态，并解决的兴趣干扰和飘移问题。

附图说明

图1是本发明实施例的模型架构图。

图2是本发明实施例的具体流程图。

图3是本发明实施例的Interest Extractor层示意图。

图4是本发明实施例的Interest Evolving示意图。

图5是本发明实施例的AUC实验结果图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

如图1-2所示，本发明一种基于用户兴趣的深度学习CTR模型—RZTERec的构建方法，具体包括如下步骤：

步骤1：构建Embedding层。

其中Embedding是将离散符号数据转换为低维连续向量空间的方法。在推荐系统中，需要对用户、物品和历史行为序列等输入特征进行处理，在此基础上还需要引入一些物品的side information。在这个过程中，所有的输入特征都会通过Embedding层进行转换，得到对应的embedding向量。这样可以有效地降低特征维度，并且能够更好地表示各个特征之间的关系，方便后续的模型训练。因此，特征提取层在推荐系统中具有重要的作用，能够更好地处理和利用输入数据，从而提高模型的性能和准确率。

步骤2：考虑用户行为序列特性，针对行为序列构建TE-GRU模型即构建InterestExtractor层，如图3所示。

通过构建TE-GRU模型来解决处理长序列可能产生的梯度消失问题。首先通过创建ReZero2的小型辅助结构，在多头自注意力机制方面提高模型的训练和预测性能。ReZero2通过残差连接以及一个可训练的参数α，对F(x)层的非平凡变换进行调整并加到输入信号x上，以优化梯度传播和信号传输；此外，ReZero2连接取代了传统的LayerNorm和常见的残差连接，还通过学习参数γ和β进行方差的缩放以及均值的移动，从而进一步增强层规范化的效果。最后通过门控神经单元来实现更精确的信息选择和传递，这两个门控单元分别为更新门和重置门。通过控制输入数据的流向和更新状态，从而达到对长序列的处理能力。TE-GRU模型相比当下最为流行的Transformer模型，以更新们和重置门筛选item关联信息，能有效地对各种兴趣维度进行模拟，从而展现其强大的全局特征提取能力，来优化序列模型不同位置的item信息差，这种方法更有效地处理了用户行为传播所依赖的序列问题。

TE-GRU公式如下：

首先将用户的行为序列特征输入多头自注意力机制，通过线性转换得到对应的Q，K和V，经历SoftMax和Rezero转换得到Z＝{z₁,z₂,…,z_n}，具体公式如下所示：

之后将Z经过线性转化得到最终输出X＝{x₁,x₂,…,x_n}；为了赋予模型非线性化表达能力，通过前馈神经网络由线性结构转换为非线性结构，考虑用户交互行为的复杂性。同时添加了一个跳跃连接，并通过初始化为零的L个学习参数a_i即残差权重重新缩放函数，表示为：

x_t+1＝x_t+a_tmax(0,x_tW₁+b₁)W₂+b₂

其中，W为权重矩阵，x_t为经过转换的第t个向量；b为偏移量。

然后通过遗忘单元损失不必要的复杂信息降低过拟合的风险，更新单元挖掘隐含信息，表示为：

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

其中，x为输入向量，W是用于计算候选隐藏状态的权重矩阵，z为更新向量，r为重置门向量，b为偏移量，b_r为重置门的偏移量，W_r为重置门的权重矩阵，为隐藏状态向量。更新门z当前时刻对前一时刻的隐藏状态的遗忘程度，可以控制多少旧信息应该被保留。重置门r确定前一时刻状态中有多少信息需要被重新计算，从而获得一个新的候选状态。

引入了一个辅助损失，以监督TE-GRU的输出、缓解梯度消失问题，并提高推荐效果，该辅助损失模块通过将自身的预测结果与真实值进行比较，来提高模型的正确率和稳定性；同时还有助于扩展数据样本的多样性，进一步提升模型的泛化能力；此外，辅助损失还可以作为规则化项的一部分，有效减少过拟合问题的发生。

辅助损失的公式如下：

在兴趣建模的任务中，在GRU隐藏状态具有两个重要方面：首先，它可以被看作是神经网络对于用户行为以及当前状态的一个内部表示；其次，它还可以作为一个输入来预测用户接下来的行为，通过辅助损失监督的隐藏状态的集合构成了兴趣演变层可以对其建模的兴趣序列。

如图4所示，步骤3：建立Interest Evolving层即建立AUGRU模型并且对AUGRU模型的参数进行训练，

在AUGRU模型中，先前网络层产生的隐藏状态h_t与候选商品的Embedding向量e相结合，此步操作主要用于筛选用户兴趣的演变路径。在确定这种关联度时，注意力函数起着中心环节的角色。

在AUGRU模型的设计中，注意力分数a被用来影响GRU的更新门的工作机制。这里的基本思想是：用户的兴趣与候选项的关联度越高，注意力分数attention越高对GRU隐藏状态的影响力就越大；相反，如果关联度较低，那么其影响力就会相对减小。这种方式能够有效地挑选出重要的用户兴趣演化路径。在这个过程中，注意力得分将被融入到GRU的更新门中，进一步增强模型的预测效能。

步骤4：构建Stacking层和MLP。

Stacking层主要是将经过Embedding层产出的不同的Embedding特征，经过TE-GRU模型和AUGRU模型转换得到的embedding特征和数值特征拼接起来，形成一个包含所有特征的特征向量，并输出到MLP层进行后处理。

由于Stacking层常常作为连接层使用，也被称为全连接层。多层感知器是一种常见的神经网络结构，其中全连接层和输出层是其基本组成部分。通过权重矩阵的全连接层多层感知机是一种普遍的神经网络架构，它主要由全连接层和输出层构成。全连接层通过权重矩阵W_l和偏置向量b_l将前级的神经元关联到后级的神经元，从而完成神经网络的信息交流和处理。在全连接层和输出层的交界，非线性激活函数f处理了全连接层的产出，形成了一种非线性的映射关系。这种非线性映射关系可以帮助神经网络更好地适应复杂的数据分布和模式，提高模型的预测精度和泛化能力。输出层则将最终的网络输出转化为具体的预测结果。此外，还需要使用适当的损失函数来计算训练过程中的误差。通常使用的交叉熵函数如下所示：

为了证明本发明的有效性，进行了初步的实验。本发明所提出的方法与Wide&Deep、PNN、DIN以及FIGNN方法进行对比。其中，Wide&Deep、PNN以及DIN模型没有针对用户历史购买商品之间的依赖关系进行建模，而用户行为序列本身是与时间紧密相关的，因此序列信息中包含着大量有价值的信息。针对这一点，RZTERec采用了TE-GRU单元来挖掘序列信息，对用户兴趣演化进行建模。由于则采用多头自注意升读力机制，结合位置编码在充分挖掘用户序列信息的同时，可以有效针对序列中任意两个商品间的关系进行建模，相比于GRU单元，多头自注意力网络在长序列中有更加出色的表现。比较结果如图5所示。从实验结果可以看出使用本发明提出的基于用户兴趣的深度学习CTR模型—RZTERec，能够模拟兴趣的多样化和提升CTR预测率。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于用户兴趣的深度学习CTR模型—RZTERec的构建方法，其特征在于：所述构建方法具体包括如下步骤：

步骤1：构建Embedding层；

步骤3：建立AUGRU模型并且对AUGRU模型的参数进行训练；

步骤4：构建Stacking层和MLP。

2.根据权利要求1所述的基于用户兴趣的深度学习CTR模型—RZTERec的构建方法，其特征在于：所述步骤2中TE-GRU模型的构建具体包括如下步骤：

x_t+1＝x_t+a_tmax(0,x_tW₁+b₁)W₂+b₂

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

步骤2.6：引入辅助损失机制，表示为：

3.根据权利要求2所述的基于用户兴趣的深度学习CTR模型一RZTERec的构建方法，其特征在于：步骤2中，

所述TE-GRU模型通过残差连接以及一个训练的参数α，对F(x)层的非平凡变换进行调整并加到输入信号x上，以优化梯度传播和信号传输；

所述TE-GRU模型通过学习参数γ和β进行方差的缩放以及均值的移动，进一步增强层规范化的效果；

所述TE-GRU模型通过门控神经单元实现更精确的信息选择和传递，这两个门控单元分别为更新门和重置门，通过控制输入数据的流向和更新状态，从而达到对长序列的处理能力。

4.根据权利要求1所述的基于用户兴趣的深度学习CTR模型一RZTERec的构建方法，其特征在于：步骤3建立AUGRU模型并且对其网络参数进行训练具体包括如下步骤：

5.根据权利要求1所述的基于用户兴趣的深度学习CTR模型—RZTERec的构建方法，其特征在于：在所述步骤4具体中：

6.根据权利要求1所述的基于用户兴趣的深度学习CTR模型—RZTERec的构建方法，其特征在于：所述步骤1的Embedding层将离散符号数据转换为低维连续向量空间，在推荐系统中，需要对用户行为序列、物品行为序列和历史行为序列和物品的side information输入特征进行处理，在这个过程中，所有的输入特征都会通过Embedding层进行转换，得到对应的embedding向量。

7.根据权利要求1-6任一项所述的基于用户兴趣的深度学习CTR模型—RZTERec的构建方法，其特征在于：所述CTR模型—RZTERec网络包括兴趣提取层和兴趣演变层，在兴趣提取层中，利用用户历史行为数据和广告特征，采用多层神经网络进行特征提取，得到用户当前的兴趣特征向量，在兴趣演变层中，将用户历史兴趣转化为当前的兴趣，使用多头注意力机制和残差连接来捕捉序列中不同位置的信息，并进行交互和融合。