CN114417172A

CN114417172A - 一种深度兴趣进化推荐方法、装置、设备和存储介质

Info

Publication number: CN114417172A
Application number: CN202210096536.2A
Authority: CN
Inventors: 徐亦飞; 张美丹; 朱利; 尉萍萍; 程菊飞; 张屿琪; 曹帅
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-04-29

Abstract

本发明公开了一种深度兴趣进化推荐方法、装置、设备和存储介质，训练数据集中提取模型所需要的用户特征和项目特征，并将提取的用户特征和项目特征按用户进行分组，对分组后的项目按时间戳进行排序，从排序后的项目中提取用户嵌入特征和项目嵌入特征，根据提取的用户特征和项目特征生成位置嵌入特征，将项目嵌入特征与位置嵌入特征相加后输入到建立的Transformer网络得到输出结果，将Transformer网络得到输出结果与用户嵌入特征连接后输入到一个两层的前馈神经网络，采用GELU作为激活函数得到最终的概率分布，通过概率分布得到最终预测项目，基于高阶特征融合的深度进化推荐方法，充分利用了用户信息和项目信息提升模型的预测能力，提高了预测推荐的准确性。

Description

一种深度兴趣进化推荐方法、装置、设备和存储介质

技术领域

本发明属于推荐算法领域，涉及一种深度兴趣进化推荐方法、装置、设备和存储介质。

背景技术

推荐算法已经成为解决信息过载的有效策略，其本质是帮助用户快速选择信息的信息过滤系统，提高用户与物品之间的触达效率。准确地描述用户兴趣是推荐系统的一个核心指标。传统的推荐算法多基于内容和社交关系等基本模式产生，均是将用户-项目所产生的行为作为独立信息看待。然而现实生活中，用户的兴趣是随着时间推移不断动态变化的，且前后行为存在极强的关联性。典型的电商推荐场景中，当用户购买一款手机后，接下来为用户推荐与手机相关的周边产品更为合理，但是传统推荐多是基于用户对项目的正反馈信息建模用户-项目间的关系并未考虑时间因素的影响，使用基于用户历史行为的序列化建模方法可以很好的解决这类问题。目前，从用户的历史行为中建模用户的动态偏好对推荐算法来说是具有挑战性和至关重要的。

由Hidasi B,Karatzoglou A,Baltrunas L,et al.Session-basedRecommendations with Recurrent Neural Networks首次将RNN用于推荐系统的用户序列行为建模，通过引入排序损失函数学习用户的序列决策数据，然后用RNN模型来建模稀疏的序列决策数据。当输入序列过长时，RNN在利用反向传播算法学习参数时会产生梯度消失或梯度爆炸的问题。由Hochreiter S,Schmidhuber J.Long Short-Term Memory提出的LSTM模型，通过其独特的门控单元结构在一定程度上解决了RNN的梯度消失和梯度爆炸问题，但是其模型结构要求下一时刻的运算需要使用上一时刻的运算结果作为输入，导致模型无法并行操作，模型的训练耗时过长。此外，RNN从左到右的单向模型结构决定了每个项目只能对之前的项目信息进行编码，但是实际应用中用户的历史序列并不一定是严格有序的，因此，单项模型限制了从用户历史序列中学习项目之间隐藏表示的能力。Fei Sun,Jun Liu,,et al.BERT4Rec:Sequential Recommendation with Bidirectional EncoderRepresentations from Transformer提出了一种双向序列化模型，从用户行为序列的两个方向的上下文来建模用户行为。另外，该模型放弃使用RNN或CNN转而使用基于注意力机制的Transformer结构，解决了RNN串行计算的问题；但是此模型缺少用户信息和场景信息，无法建模用户与项目之间的关系，在推荐准确性较低

发明内容

本发明的目的在于提供一种深度兴趣进化推荐方法、装置、设备和存储介质，解决了上述推荐算法中用户信息和场景信息缺失的问题，提高其推荐的准确性。

一种深度兴趣进化推荐方法，包括以下步骤：

S1，从训练数据集中提取模型所需要的用户特征和项目特征，并将提取的用户特征和项目特征按用户进行分组，对分组后的项目按时间戳进行排序，从排序后的项目中提取用户嵌入特征和项目嵌入特征；

S2，根据提取的用户特征和项目特征生成位置嵌入特征，将项目嵌入特征与位置嵌入特征相加后输入到建立的Transformer网络得到输出结果；

S3：将Transformer网络得到输出结果与用户嵌入特征连接后输入到一个两层的前馈神经网络，采用GELU作为激活函数得到最终的概率分布，通过概率分布得到最终预测项目。

进一步的，取用户较长时间段内交互过的item embedding聚成若干类，再将每类中的嵌入生成用户嵌入特征。

进一步的，采用Medoid方法，找到每个类簇中所有项目中的一个来代表本类簇，该项目满足与同簇内其他成员的平方距离之和最小；

embedding(C)←P_m，where

利用产生的item embedding代表本类簇，通过键值对方式进行存储。

进一步的，使用GELU作为激活函数得到概率分布：

P(v)＝softmax(GELU(hW^P+b^P)E^T+b^O) (5)

其中W^P是可以学习的投影矩阵，b^P、b^O是偏差项，E是商品集V的Embedding矩阵，h为前馈神经网络的输出。

进一步的，用户特征包括用户ID、性别、年龄、职业、用户对项目的平均评分、用户评价项目总数。

进一步的，Transformer网络采用堆叠的Transformer层，每一层Transformer包括多头注意力模块和前馈神经网络。

进一步的，使用Cloze task将输入序列15％的物品进行遮掩，损失函数为：

其中S_u'是用户行为历史S^u的masked版本，

是随机masked的商品，

是masked商品，v_m是真实商品。

一种深度兴趣进化推荐系统，包括预处理模块，优化训练模块和搜索模块；

预处理模块，用于从训练数据集中提取模型所需要的用户特征和项目特征，并将提取的用户特征和项目特征按用户进行分组，对分组后的项目按时间戳进行排序，从排序后的项目中提取用户嵌入特征和项目嵌入特征；

预测模块，用于根据提取的用户特征和项目特征生成位置嵌入特征，将项目嵌入特征与位置嵌入特征相加后输入到建立的Transformer网络得到输出结果；Transformer网络得到输出结果与用户嵌入特征连接后输入到一个两层的前馈神经网络，采用GELU作为激活函数得到最终的概率分布，通过概率分布得到最终预测项目。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述深度兴趣进化推荐方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述深度兴趣进化推荐方法的步骤。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种深度兴趣进化推荐方法，训练数据集中提取模型所需要的用户特征和项目特征，并将提取的用户特征和项目特征按用户进行分组，对分组后的项目按时间戳进行排序，从排序后的项目中提取用户嵌入特征和项目嵌入特征，根据提取的用户特征和项目特征生成位置嵌入特征，将项目嵌入特征与位置嵌入特征相加后输入到建立的Transformer网络得到输出结果，将Transformer网络得到输出结果与用户嵌入特征连接后输入到一个两层的前馈神经网络，采用GELU作为激活函数得到最终的概率分布，通过概率分布得到最终预测项目，基于高阶特征融合的深度进化推荐方法，充分利用了用户信息和项目信息提升模型的预测能力，提高了预测推荐的准确性。

进一步的，本发明采用Medoid聚类方法，将用户较长时间段内交互过的项目划分为若干类，再结合时间衰减算法得到用户的一个特征嵌入作为项目分类信息，通过此方法丰富用户特征，另一方面将产生的特征嵌入以键值对方式进行存储，方便系统快速访问，节省交互时间。

进一步的，本发明采用注意力机制，可以从正反两个时间维度对用户交互序列进行建模，实验中使用多头注意力机制，从不同通道中学习用户与项目的交互信息，以此来提升模型的表现能力。

进一步的，本发明采用一个两层的前馈神经网络将用户信息与项目信息相结合，在前置模型学习到用户交互序列中各项目之间的关系后，使用用户基础特征和学习到的用户特征作为全局用户信息，将用户特征与Transformer模型的输出作为前馈神经网络的输入，以此为整个模型添加用户信息，使得模型训练不再仅仅依赖于项目序列。

附图说明

图1是本发明实施例中应用终端的硬件结构框架图。

图2是本发明实施例中Transformer网络模型结构图。

图3是本发明实施例中整体模型结构图。

图4是本发明实施例中用户特征交叉示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图4所示，一种深度兴趣进化推荐方法，包括以下步骤：

S1：从训练数据集中提取模型所需要的用户特征和项目特征，并将提取的用户特征和项目特征按用户进行分组，对分组后的项目按时间戳进行排序，从排序后的项目中提取用户嵌入特征和项目嵌入特征，为模型提供输入数据。

S2：根据提取的用户特征和项目特征生成位置嵌入特征，将项目嵌入特征与位置嵌入特征相加后输入到建立的Transformer网络(Bert4Rec模型)得到输出结果；

S1中，考虑到用户可能感兴趣的项目类型对最终推荐结果有很大的影响，所以基于用户的历史交互序列中的项目嵌入(item embedding)生成用户嵌入特征。具体方法是：取用户较长时间段内交互过的item embedding聚成若干类，再将每类中的嵌入(embedding)生成用户(user)的嵌入特征，即用户嵌入特征。

具体的，获取用户过去交互过的历史序列，将其分为若干集群；目前主要采用层次聚类算法Ward，聚类的衡量指标为ESS(error sum of squares)，公式为：

其聚类过程为:首先将每个点初始化为一个类簇，此时，每个集群中的ESS为0；然后计算每个类簇的ESS，最后计算所有类簇总的ESS；枚举所有二项类簇，计算合并所有二项类簇后的总ESS值，选择总ESS值增长幅度最小的两个类簇合并。重复上述步骤直到n减少到1。通过上述步骤可知Ward聚类非常耗时，每合并两个类簇就需要计算任意两个类簇间的ESS，一次计算的是时间复杂度即为O(n²)，考虑到推荐用户一段时间内交互项目可能较多，所以这种方式不太适用。

本申请采用Lance-Williams Algorithm计算方法，设初始化为5个簇分别为{A,B,C,D,E},计算五个簇相互之间的ESS，通过计算发现A、B两个簇最接近，则合并为簇AB，现在共有4个簇{AB,C,D,E},则其计算ESS的公式为：

其中K代表除AB簇外的其他簇，n_a、n_b、n_k代表A、B、K簇中节点数量，初始每个节点为1簇，故n＝1，通过此ESS计算方式，大大减少了聚簇过程中的计算量。

为每个簇计算基于medoid的表示；典型的方法是考虑聚类质心、时间衰减平均模型或其他更为复杂的序列模型，但是这些方法普遍存在一个问题，由他们得到的embedding可能位于d维空间的不同区域，当有一些离群异常点分配给类簇时，会有较大的内部集群方差。

本申请采用Medoid方法，找到每个类簇中所有项目中的一个来代表本类簇，该项目满足与同簇内其他成员的平方距离之和最小。

embedding(C)←P_m，where

利用产生的item embedding代表本类簇，通过键值对方式进行存储，方便供模型的后续计算使用。

计算每个集群对用户的重要性得分并计算用户嵌入特征。通过引入一个时间衰减函数来计算不同类簇对用户的相对重要性：

其中τ[i]为用户与第i个项目的交互时间，C代表其中一个类簇，λ为超参数。当用户与这个类簇互动越来越频繁或者活动时间越近类簇重要性越高。用户表示即为itemembedding的时间衰减平均值。

生成用户其他特征的稀疏向量，然后通过embedding层生成其稠密向量，将所有稠密向量输入一个堆叠层，把不同的embedding特征和数值型特征拼接到一起，形成新的包含全部用户特征的特征向量，然后将特征向量输入一个全连接层进行特征交叉。

将按用户分组后的项目特征生成的embedding向量输入到Transformer网络中建模项目之间的依赖关系，将其输出与生成的用户特征向量连接后输入一个两层的前馈神经网络，使用GELU作为激活函数得到概率分布：

P(v)＝softmax(GELU(hW^P+b^P)E^T+b^O) (5)

其中W^P是可以学习的投影矩阵，b^P、b^O是偏差项，E是商品集V的Embedding矩阵，h为前馈神经网络的输出，这里使用共享的商品embedding来缓解过拟合问题同时降低模型的大小，最后经过一个多分类器生成最终结果。

在BERT4Rec模型中项目嵌入特征的大小E与隐藏层大小H相同。从建模的角度来考虑，项目嵌入特征学习的是单词与上下文无关的表示，而隐藏层则学习的是与上下文有关的表示。隐藏层更加复杂需要更多的参数，需要满足H>>E。但是在实际模型中，其用户的交互序列V通常较大，如果此时E＝H，当增加隐藏层H的大小时会使嵌入矩阵V×E的维度非常大。这里打破E与H之间的绑定关系，将嵌入矩阵分解为两个大小分别为V×E和E×H的矩阵，即先将项目投影到一个低维的embedding空间E，再将其投影到高位的隐藏空间H，使模型的嵌入矩阵维度从O(V×H)减小到O(V×E+E×H)。当H>>E时，参数量明显减少。在实现时，随机初始化V×E和E×H矩阵，计算项目嵌入特征时用项目的one-hot向量乘以V×E维的矩阵，再用得到的结果乘以E×H维的矩阵。

本发明提供了一种计算设备，包括至少一个或一个以上的处理器、存储设备和输入单元。计算机存储设备中存储有计算机程序代码，处理器通过运行程序代码执行本发明上述描述的基于高阶特征融合的深度兴趣进化推荐方法。

在本实施例中提供的方法实施例可以在硬件上实现，也可以通过在一个或多个处理器上运行的软件模块实现，或者通过硬件与软件的任意组合方式实现。图1是本实施例的基于高阶特征融合的深度兴趣进化推荐方法的应用终端的硬件结构框架图。如图1所示，计算机可以包括至少一个处理器102和用于存储数据的存储器103以及输入单元101。本领域普通技术人员可以理解，图1所示的结构仅为示意图，其并不对上述计算机的结构造成限制。例如，计算机还可包括比图1中所示更多或者更少的组件，或者具有与图1所示出的不同配置。

存储器103可包括高速RAM存储器，还可包括非易失性存储设备，例如一个或多个磁盘存储装置，可用于存储计算机程序，程序包括但不限于应用软件的软件程序以及模块，如在本实施例中的基于高阶特征融合的深度兴趣进化推荐方法对应的计算机程序，处理器102读取并运行存储在存储器103内的计算机程序，从而实现各种应用功能，例如实现上述的方法。处理器102也可以与一个或多个输入单元101(例如键盘等)通信，还可与一个或者多个能实现用户与处理器102交互的设备通信，或与实现处理器102与一个或多个其它处理器进行通信的任何设备(例如路由器、调制解调器等)通信。此外，处理器130还可以通过网络适配器等设备与一个或者多个网络通信。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

如图3所示，一种深度兴趣进化推荐系统，包括预处理模块，优化训练模块和搜索模块；

本发明再一个实施例中，本发明还提供了一种存储介质，具体采用计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。计算机可读存储介质包括终端设备中的内置存储介质，提供存储空间，存储了终端的操作系统，也可包括终端设备所支持的扩展存储介质。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(Non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中可用于深度兴趣进化推荐方法的相应步骤。

对输入的数据集进行预处理，具体处理流程如下：

提取用户特征与项目特征，将项目特征按照用户特征进行分组，并对分组后的项目按照时间戳进行排序，生成输入模型的用户交互项目序列的特征。另外，随机通过Clozetask遮掩掉序列中一部分项目特征。

提取所需的用户特征包括用户ID、性别、年龄、职业、用户对项目的平均评分、用户评价项目总数。根据用户对项目的交互序列，通过改进的层次聚类算法Ward获取用户的嵌入特征。

将用户的非数值特征输入Embedding层形成其稠密向量，并将不同的Embedding特征和数值型特征拼接起来，将其输入全连接层，对特征向量各个维度进行充分的交叉组合，使模型能够抓住更多非线性特征信息。

将用户的交互序列输入Transformer网络中，通过双向模型学习用户交互序列中各个项目之间的关系。如图2所示，Transformer网络采用堆叠的Transformer层，每一层Transformer包括多头注意力(Multi-Head Attention)模块和前馈神经网络。具体步骤如下：

将项目特征输入embedding层生成其embedding特征，项目在序列中的位置是用户与项目产生交互的时间，是较为重要的信息，但是Transformer网络中没有循环神经网络的迭代操作，必须为其生成一个位置信息，即位置嵌入特征。将位置嵌入特征与项目嵌入特征求和后进行归一化操作，另外，Transformer网络中设置了最大序列长度N，当输入序列长度超过N时，将输入序列进行截断，[v₁,v₂,...,v_t]截断到最后的N个项目[v_t-n+1,...,v_t]。

接下来将项目嵌入特征与位置嵌入特征输入到堆叠的Transformer层。首先经过多头注意力层，用不同的、可学习的线性投影将H线性投影到h子空间，然后应用注意函数h生成输出结果。以此捕获项目对之间的依赖关系。接下来为了让模型学习非线性和不同维度的交互，将attention子层的输出作为前馈神经网络层的输入。在上面两个子层的每一层周围都加入残差连接，然后进行层标准化。另外将dropout应用于每个子层的输出，每个子层的输出为LN(x+Dropout(sublayer(x))),sublayer是子层本身实现的功能，LN是模型中定义的层规范化函数，使用LN对同一层所有隐藏单元的输入进行规范化，以稳定和加速网络的训练。

将生成的结果与用户嵌入特征连接后输入一个两层的前馈神经并使用GELU作为激活函数得到最终的概率分布，通过概率分布得到最终预测项目。

网络训练

在处理用户历史行为序列时，使用Cloze task将输入序列15％的物品进行遮掩(masked)，让模型预测遮盖住的物品，最终的损失函数为：

其中S_u'是用户行为历史S^u的masked版本，

是随机masked的商品，

是masked商品，v_m是真实商品。

训练网络时，Transformer层L＝2，head数量为h＝2，每个head维度d＝32，最大序列长度N＝150。本实例使用带有Adam加速器的随机梯度下降方法对目标函数进行优化，其中动量β₁＝0.9,β₂＝0.999,权重衰减(weight decay＝0.01)，初始化学习率为10e-4。最大迭代数E＝100,在每一次迭代中，本实例同时对分割网络和判定网络进行联合更新，当迭代数大于最大迭代数时候，训练停止并保存训练模型。

Claims

1.一种深度兴趣进化推荐方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种深度兴趣进化推荐方法，其特征在于，取用户较长时间段内交互过的item embedding聚成若干类，再将每类中的嵌入生成用户嵌入特征。

3.根据权利要求2所述的一种深度兴趣进化推荐方法，其特征在于，采用Medoid方法，找到每个类簇中所有项目中的一个来代表本类簇，该项目满足与同簇内其他成员的平方距离之和最小；

4.根据权利要求1所述的一种深度兴趣进化推荐方法，其特征在于，使用GELU作为激活函数得到概率分布：

P(v)＝softmax(GELU(hW^P+b^P)E^T+b^O) (5)

5.根据权利要求1所述的一种深度兴趣进化推荐方法，其特征在于，用户特征包括用户ID、性别、年龄、职业、用户对项目的平均评分、用户评价项目总数。

6.根据权利要求1所述的一种深度兴趣进化推荐方法，其特征在于，Transformer网络采用堆叠的Transformer层，每一层Transformer包括多头注意力模块和前馈神经网络。

7.根据权利要求6所述的一种深度兴趣进化推荐方法，其特征在于，使用Cloze task将输入序列15％的物品进行遮掩，损失函数为：

其中S′_u是用户行为历史S^u的masked版本，

是随机masked的商品，

是masked商品，v_m是真实商品。

8.一种深度兴趣进化推荐系统，其特征在于，包括预处理模块，优化训练模块和搜索模块；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。