CN113935811A

CN113935811A - 基于主题指导和双全局注意力的会话推荐方法

Info

Publication number: CN113935811A
Application number: CN202111247515.8A
Authority: CN
Inventors: 朱小飞; 唐顾
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-14
Anticipated expiration: 2041-10-26
Also published as: CN113935811B

Abstract

本发明涉及互联网大数据技术领域，具体涉及一种基于主题指导和双全局注意力的会话推荐方法，其首先，基于注意力机制从目标会话文本的不同角度提取包含体现共现关系的显式全局嵌入表示和体现语义关系的隐式全局嵌入表示的全局嵌入表示；然后，从目标会话文本中提取对应的主题嵌入表示；最后，基于主题嵌入表示指导全局嵌入表示进行预测，以生成最终预测概率分布，并基于最终预测概率分布进行商品推荐。本发明中基于主题指导和双全局注意力的会话推荐方法能够兼顾商品分布概率预测的全面性和准确性。

Description

基于主题指导和双全局注意力的会话推荐方法

技术领域

本发明涉及互联网大数据技术领域，具体涉及基于主题指导和双全局注意力的会话推荐方法。

背景技术

基于会话的推荐是一种针对匿名用户或未登录用户的一种推荐模式，其在如今的各大电商平台(淘宝、京东等)或流媒体平台(抖音，YouTobe等)发挥着重要作用。在实际场景中，我们也许只能获取到用户的短期历史交互，比如：新用户或未登录用户。此时依赖于用户长期历史交互的推荐算法在会话推荐中的表现会收到限制，例如基于协同过滤或马尔可夫链的方法。因此，基于会话的推荐成为一个研究热点，其目标是根据用户在会话中的行为序列来推荐用户感兴趣的下一个商品。

近年来，基于会话的推荐方法主要采用循环神经网络(RNN)或者基于循环神经网络(RNN)的优化方法来学习会话中的商品序列信息以及商品对用户当前兴趣的影响程度。然而，这些方法只考虑到当前会话中物品的转移信息，却忽略了更复杂的物品空间结构信息。为此，公开号为CN111460331A的中国专利就公开了《一种基于时空图的会话推荐方法》，其首先根据用户当前会话以及物品的有向图网络构建时空图，通过平行循环神经网络结构对时空图进行建模，得到用户的短期兴趣；然后用长短记忆网络对用户的最近会话进行向量表征，并采用注意力机制学习用户最近会话中对当前短期兴趣影响较大的长期兴趣；最后，结合用户的短期兴趣和长期兴趣进行物品的推荐。

上述现有方案中的会话推荐方法同时根据用户当前兴趣和用户最近会话列表并采用注意力机制对用户的长期兴趣进行建模，极大地提高了会话推荐的准确度。然而，现有的会话推荐方法几乎没有研究和关注全局信息(全局角度的可用信息)，即没能有效的挖掘商品的全局信息，使得预测分布概率时难以融入商品全局信息，进而导致商品分布概率预测的全面性偏低。同时，由于仅通过数据无法判断商品的所属主题(例如手机”和“耳机”都属于电子产品这一主题)，使得现有会话推荐方法都忽略了建模商品间的主题关系，导致商品分布概率预测的准确性不高。因此，如何设计一种能够兼顾商品分布概率预测的全面性和准确性的会话推荐方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种能够兼顾商品分布概率预测的全面性和准确性的会话推荐方法，从而提升商品推荐的效果。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于主题指导和双全局注意力的会话推荐方法，其首先，基于注意力机制从目标会话文本的不同角度提取包含体现共现关系的显式全局嵌入表示和体现语义关系的隐式全局嵌入表示的全局嵌入表示；然后，从目标会话文本中提取对应的主题嵌入表示；最后，基于主题嵌入表示指导全局嵌入表示进行预测，以生成最终预测概率分布，并基于最终预测概率分布进行商品推荐。

优选的，通过如下步骤生成最终预测概率分布：

S1：对目标会话文本

进行编码，得到对应的局部嵌入表示

S2：从候选商品集合V＝{v₁,v₁,…,v_|V|}中提取候选商品v_j∈V作为目标商品

的全局邻居，并分别通过编码和注意力机制生成对应的显式全局嵌入表示G_s；从候选商品局部表示H＝(h₁,h₂,…,h_|V|)中提取与目标商品局部表示

最相似的K个候选商品局部表示h_j∈H，并分别通过编码和注意力机制生成对应的隐式全局嵌入表示U_s；通过全局交互注意力机制对显式全局嵌入表示G_s和隐式全局嵌入表示U_s进行融合，得到对应的全局嵌入表示

S3：计算目标商品

的所属主题

并基于编码和Bi-GRU模型处理生成对应的主题嵌入表示

S4：通过主题嵌入表示

指导局部嵌入表示和全局嵌入表示进行特征聚合，并分别生成对应的会话局部表示e_l和会话全局表示e_g，然后分别基于会话局部表示e_l和会话全局表示e_g进行探索和预测，以生成最终预测概率分布y_i。

优选的，步骤S2中，通过如下步骤生成显式全局嵌入表示：

S201：计算目标商品

与各个候选商品v_j的PMI值，然后提取PMI值最大的前K个候选商品v_j作为目标商品

的全局邻居，并生成对应的全局邻居序列

S202：对全局邻居序列Aⁱ进行编码，得到目标商品

的全局邻居嵌入表示

S203：对全局邻居嵌入表示Bⁱ进行特征聚合，生成目标商品

的显示全局嵌入表示

S204：基于各个目标商品

的显示全局嵌入表示

生成目标会话文本S的显式全局嵌入表示

优选的，步骤S2中，通过如下步骤生成隐式全局嵌入表示：

S211：计算目标商品局部表示

与各个候选商品局部表示h_j的余弦相似度，然后提取余弦相似度最高的K个候选商品局部表示h_j生成目标商品局部表示

的全局序列表示

S212：对全局序列表示Cⁱ进行编码，得到目标商品

的全局序列嵌入表示

S213：对全局序列嵌入表示Dⁱ进行特征聚合，生成目标商品

的隐式全局嵌入表示

S214：基于各个目标商品

的显示全局嵌入表示

生成目标会话文本S的隐式全局嵌入表示

优选的，步骤S2中，通过如下公式生成全局嵌入表示：

其中，

上述式中：

表示全局嵌入表示；W_g,W_l∈R^d×d表示可训练参数；

表示显式全局嵌入G_s的转置；

表示隐式全局嵌入T_s的转置。

优选的，步骤S3中，通过如下步骤生成主题嵌入表示：

S301：基于Bi-GRU模型生成目标商品

的待分配主题

S302：对待分配主题状态T_s中的每一个主题

进行归一化，然后提取出概率最大的主题作为目标商品

的所属主题

并基于各个目标商品

的所属主题

生成对应的目标主题序列

S303：对目标主题序列

进行主题编码，生成对应的低维主题序列

S304：基于Bi-GRU模型获取低维主题序列

中的主题顺序关系，并基于获取的主题顺序关系生成最终的主题嵌入表示

优选的，步骤S4中，通过如下步骤生成最终预测概率分布：

S401：基于局部嵌入表示H_s和主题嵌入表示

生成对应的重复概率分布

S402：基于主题嵌入表示

分别指导局部嵌入表示H_s和全局嵌入表示

进行特征聚合，并生成对应的会话局部表示e_l和会话全局表示e_g，然后基于会话局部表示e_l和会话全局表示e_g生成对应的局部探索概率分布

和全局探索概率分布

S403：通过设置的门控机制对重复概率分布

局部探索概率分布

和全局探索概率分布

进行结合计算，以生对应的最终概率分布y_i。

优选的，通过如下公式计算重复概率分布：

其中，

上述式中：

表示重复概率分布；

表示可训练参数；

表示会话S内第j个商品嵌入

聚合了其对应的主题表示

后的表示。

优选的，通过如下步骤计算局部探索概率分布和全局探索概率分布：

对局部嵌入表示H_s和全局嵌入表示

进行Bi-GRU模型处理，以获取对应的局部顺序表示

和全局顺序表示

然后分别将局部顺序表示

和全局顺序表示

的最后一个商品表示作为局部顺序行为表示

和全局顺序行为表示

通过主题嵌入表示

指导局部嵌入表示H_s生成对应的局部会话主题表示

通过主题嵌入表示

指导全局嵌入表示

生成对应的全局会话主题表示

然后将局部会话主题表示

和全局会话主题表示

相加得到对应的综合主题表示s^top；

分别将局部顺序行为表示

和全局顺序行为表示

与综合主题表示s^top结合，以生成对应的会话局部表示e_l和会话全局表示e_g；

分别基于局部嵌入表示e_l和全局嵌入表示e_g结合如下公式得到对应局部探索概率分布

和全局探索概率分布

其中，

其中，

上述式中：

表示由局部嵌入表示e_l生成的第j个商品的概率；

表示局部嵌入表示e_l的转置；

表示由全局嵌入表示e_g生成的第j个商品的概率；

表示全局嵌入表示e_g的转置。

优选的，通过如下公式表示门控机制：

通过如下公式计算最终概率分布：

其中，

上述式中：

表示可训练参数；⊙表示元素乘法。

本发明中的会话推荐方法与现有技术相比，具有如下有益效果：

在本发明中，从不同的角度提取了体现共现关系的显式全局嵌入表示和体现语义关系的隐式全局嵌入表示，即自适应的获取了会话中的全局信息，进而能够基于全局信息增强商品的表示，使得能够融入全局信息来进行商品分布(推荐)概率的预测，从而能够提升商品推荐预测的全面性。同时，本发明以自适应的方式学习会话中的主题嵌入表示，并基于主题嵌入表示指导局部嵌入表示和全局嵌入表示进行特征聚合和预测，进而能够增强商品的推荐效果，从而能够提升商品推荐预测的准确性，并提升商品推荐的效果。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为会话推荐方法的网络结构示意图；

图2为不同模型在长会话和短会话上的性能差异示意图；

图3为参数λ敏感性分析示意图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种基于主题指导和双全局注意力的会话推荐方法。

如图1所示，基于主题指导和双全局注意力的会话推荐方法，

首先，基于注意力机制从目标会话文本的不同角度提取包含体现共现关系的显式全局嵌入表示和体现语义关系的隐式全局嵌入表示的全局嵌入表示。

然后，从目标会话文本中提取对应的主题嵌入表示。

最后，基于主题嵌入表示指导全局嵌入表示进行预测，以生成最终预测概率分布，并基于最终预测概率分布进行商品推荐。

具体的，能够通过本发明中基于主题指导和双全局注意力的会话推荐方法构建一个对应的主题指导和全局注意力的话推荐模型(TDGA)。该模型中，通过显示全局注意力网络和隐式全局注意力网络分别获取显式全局嵌入表示和隐式全局嵌入表示；再通过全局交互注意力网络将显式全局嵌入表示和隐式全局嵌入表示进行融合，得到全局嵌入表示。通过设置的商品主题模块提取会话中的主题嵌入表示。通过重复预测模块和探索预测模块分别进行重复预测和探索预测，以得到最终预测概率分布。

具体的，通过如下步骤生成最终预测概率分布：

S1：对目标会话文本

进行编码，得到对应的局部嵌入表示

S3：计算目标商品

的所属主题

并基于编码和Bi-GRU模型处理生成对应的主题嵌入表示

S4：通过主题嵌入表示

具体实施过程中，通过如下步骤生成显式全局嵌入表示：

S201：计算目标商品

的全局邻居，并生成对应的全局邻居序列

如果前K个商品v_j对应的PMI值小于0，我们对其执行遮蔽操作，目的是过滤掉全局邻居中的噪音信息。

S202：对全局邻居序列Aⁱ进行编码，得到目标商品

的全局邻居嵌入表示

S203：对全局邻居嵌入表示Bⁱ进行特征聚合，生成目标商品

的显示全局嵌入表示

S204：基于各个目标商品

的显示全局嵌入表示

生成目标会话文本S的显式全局嵌入表示

具体的，通过如下公式计算PMI值：

其中，

通过如下公式生成显示全局嵌入表示：

其中，

上述式中：

W表示滑动窗口；

表示包含

的滑动窗口的数量；#W(v_j)表示包含v_j的滑动窗口的数量；

表示同时包含

和v_j的滑动窗口的数量；

表示可训练的参数。

在本发明中，通过计算目标商品和候选商品PMI值以选取全局邻居的方式，同时考虑了目标商品和候选商品的共现次数和各自的全局出现频率，使得能够自适应的提取体现共现关系的显式全局嵌入表示，即能够从会话中获取到更全面的全局信息，从而更好的基于会话全局表示实现商品推荐预测。

具体实施过程中，通过如下步骤生成隐式全局嵌入表示：

S211：计算目标商品局部表示

的全局序列表示

如果最相似的前K个h_j对应的r_(i,j)(余弦相似度)存在小于0的，我们对其进行遮蔽操作以防止来自全局的噪音信息混入。

S212：对全局序列表示Cⁱ进行编码，得到目标商品

的全局序列嵌入表示

S213：对全局序列嵌入表示Dⁱ进行特征聚合，生成目标商品

的隐式全局嵌入表示

S214：基于各个目标商品

的显示全局嵌入表示

生成目标会话文本S的隐式全局嵌入表示

具体的，通过如下公式计算余弦相似度：

通过如下公式计算隐式全局嵌入表示：

其中，

上述：r_(i,j)表示余弦相似度；

表示可训练的参数。

在本发明中，通过计算余弦相似度来选取目标商品全局邻居的方式，能够有效获取体现语义关系的隐式全局嵌入表示，即能够从会话中获取到更全面的全局信息，从而更好的基于会话全局表示实现商品推荐预测。

具体实施过程中，步骤S2中，通过如下公式生成全局嵌入表示：

其中，

上述式中：

表示全局嵌入表示；W_g,W_l∈R^d×d表示可训练参数；

表示显式全局嵌入G_s的转置，

表示隐式全局嵌入T_s的转置。

在本发明中，通过全局交互注意力机制使得显式全局嵌入表示和隐式全局嵌入表示能够充分交互、融合，进而能够得到更强的会话全局表示，从而更好的基于会话全局表示实现商品推荐预测。

具体实施过程中，通过如下步骤生成主题嵌入表示：

S301：基于Bi-GRU模型生成目标商品

的待分配主题

S302：对待分配主题状态T_s中的每一个主题

进行归一化，然后提取出概率最大的主题作为目标商品

的所属主题

并基于各个目标商品

的所属主题

生成对应的目标主题序列

S303：对目标主题序列

进行主题编码，生成对应的低维主题序列

S304：基于Bi-GRU模型获取低维主题序列

具体的，通过如下公式生成待分配主题：

通过如下公式生成所属主题：

(+1是为了主题编号从1开始(0：UNK))；

通过如下公式生成主题嵌入表示：

其中：

表示可训练参数；L表示最大主题数量；

表示可训练参数。

在本发明中，通过自适应的方式学习商品主题嵌入表示，进而能够基于主题嵌入表示指导实现商品推荐预测，从而能够提升商品推荐预测的准确性。

具体实施过程中，步骤S4中，通过如下步骤生成最终预测概率分布：

S401：基于局部嵌入表示H_s和主题嵌入表示

生成对应的重复概率分布

S402：基于主题嵌入表示

分别指导局部嵌入表示H_s和全局嵌入表示

和全局探索概率分布

S403：通过设置的门控机制对重复概率分布

局部探索概率分布

和全局探索概率分布

进行结合计算，以生对应的最终概率分布y_i。

具体的，通过如下公式计算重复概率分布：

其中，

上述式中：

表示重复概率分布；

表示可训练参数；

具体实施过程中，通过如下步骤计算局部探索概率分布和全局探索概率分布：

表示会话S内第j个商品嵌入

聚合了其对应的主题表示

后的表示。

对局部嵌入表示H_s和全局嵌入表示

进行Bi-GRU模型处理，以获取对应的局部顺序表示

和全局顺序表示

然后分别将局部顺序表示

和全局顺序表示

的最后一个商品表示作为局部顺序行为表示

和全局顺序行为表示

通过主题嵌入表示

指导局部嵌入表示H_s生成对应的局部会话主题表示

通过主题嵌入表示

指导全局嵌入表示

生成对应的全局会话主题表示

然后将局部会话主题表示

和全局会话主题表示

相加得到对应的综合主题表示s^top；

分别将局部顺序行为表示

和全局顺序行为表示

和全局探索概率分布

其中，

其中，

上述式中：

表示由局部嵌入表示e_l生成的第j个商品的概率；

表示局部嵌入表示e_l的转置；

表示由全局嵌入表示e_g生成的第j个商品的概率；

表示全局嵌入表示e_g的转置。

具体的，通过如下公式表示门控机制：

通过如下公式计算最终概率分布：

其中，

上述式中：

表示可训练参数；⊙表示元素乘法，对于每条数据f^l、f^g是一个标量，

表示

中每个元素都与f^l相乘。

本发明中，基于主题指导和全局注意力的话推荐模型(TDGA)通过最小化交叉熵loss来优化模型参数，具体公式如下：

在实际研究中发现，用户重复购买行为的样本占据了所有样本量的约20％，不存在重复购买行为的样本占据了总样本量的约80％。

为此，本发明通过计算重复概率分布和探索概率分布的方式，能够生成更加符合用户偏好的概率分布，即能够更精确的进行商品分布概率的预测，从而能够提升商品推荐预测的准确性。

为了更好的说明本发明中会话推荐方法的优势，本实施例还公开了如下实验。

一、数据集

本实验使用三个广泛使用的基准数据集Diginetica、Yoochoose和Retailrocke来评估TDGA(基于本发明的会话推荐方法构建的模型)和基线(用作对比的模型)的性能。

1)Diginetica是从2016年CIKM Cup上获得。由于其数据类型是交易数据，所以经常被用于基于会话的推荐任务；提取最后一周的数据作为测试集。

2)Yoochoose是从RecSys Challenge 2015中获得，其中包含6个月内来自电子商务网站的点击流。由于Yoochoose太大，本实验提取训练序列的最近部分1/64和1/4作为训练数据，表示为“Yoochoose1/64”和“Yoochoose1/4”。为了加速训练，我们采用“Yoochoose1/64”来验证TDGA在Yoochoose上的表现；最后一天的数据作为测试数据。

3)Retailrocket是从Kaggle competition 2016中获得，其中包含了用户在4-5个月内对电商网站的行为。本实验提取训练序列的最近1/4部分作为训练数据，最后15天的数据作为测试数据。

本实验在所有三个数据集中过滤长度为1的会话和出现次数少于5次的商品，同时，我们使用序列分裂预处理来增加训练样本。例如：会话序列

我们可以生成序列和对应的标签：

二、基线模型

为了全面评估TDGA的性能，本实验将其与一系列基线模型进行比较，基线模型如下所示：

1)POP:它根据训练集中的商品出现频率进行top-K商品推荐。

2)Item-KNN(是指Badrul M S,George K,Joseph A.Konstan,et al.2001.《Item-based collaborative filtering recommendation algorithms》中公开的模型):它基于协同过滤来推荐与序列中相似的商品。

3)FPMC(是指Steffen R,Christoph F,Lars S T.2010.《Factorizingpersonalized Markov chains for next-basket recommendation》中公开的模型):它是一种基于马尔可夫链和矩阵分解的混合序列推荐方法。由于会话推荐中用户表示不可用，所以FPMC中用户表示被忽略。

4)GRU4REC(是指Balázs H,Alexandros K,Linas B,et al.《Session-basedrecommendations with recurrent neural networks》中公开的模型):它应用GRU模拟用户的顺序行为，并使用会话并行小批量训练策略。

5)NARM(是指Jing Li,Pengjie Ren,Zhumin Chen,Zhaochun Ren et al.《Neuralattentive session-based recommendation》中公开的模型)它结合了GRU和注意机制来模拟用户的顺序行为。

6)STAMP(是指Huizhao Wang,Guanfeng Liu,An Liu et al.《DMRAN:Ahierarchical fine-grained attention-based network for recommendation》中公开的模型):它采用注意机制来代替RNN，并根据会话的最后一个商品进行推荐。

7)CSRM(是指Meirui Wang,Pengjie Ren,Lei Mei et al.2019.《ACollaborative Session-based Recommendation Approach with Parallel MemoryModules》中公开的模型):CSRM构建了一个记忆网络，从全局角度提取有效会话，以增强用户的意图表达。

8)SR-GNN(是指Shu Wu,Yuyuan Tang,Yanqiao Zhu et al.2019.《Session-basedrecommendation with graph neural networks》中公开的模型):它结合了门控GNN和注意机制来生成会话表示。

9)TA-GNN(是指Feng Yu,Yanqiao Zhu,Qiang Liu et al.《TAGNN:TargetAttentive Graph Neural Networks for Session-based Recommendation》中公开的模型):它考虑了目标商品和用户兴趣的多样性。同时，利用注意力机制将会话中的项目转化为用户的目标倾向，并结合GNN进行推荐。

10)GCE-GNN(是指Ziyang Wang,Wei Wei,Gao Cong et al.《Global contextenhanced graph neural networks for session-based recommendation》中公开的模型):GCE-GNN是最先进的模型，它利用项目的全局上下文表示和反向位置关注来增强会话表示。

三、实验参数设置

在TDGA中，所有数据集的训练批次大小设置为256，商品和主题的embedding(编码或嵌入)维度为256；控制局部顺序信息和全局顺序信息比例的超参数λ＝0.4。为了保证基线模型性能达到最优，按照原始论文中的参数进行设置。显式和隐式全局邻居K设置为10；所有可训练参数均按照均值为0、标准差为0.1的高斯分布进行初始化。本实验使用Adam优化器对模型进行优化，初始学习率为0.001，每训练3轮学习率将衰减为之前的0.1倍。

四、整体实验效果

在表1中，展示了TDGA和10个基线模型的总体实验结果(包括显著性检验)，其中每个数据的最优指标用黑体加粗，第二优的指标用下划线进行了标注。从整体实验结果来看，TDGA带来了明显的性能提升，这证实了TDGA的有效性。

从表1中可以看出，传统方法(POP、Item-KNN、FPMC)效果未能达到理想状态。但是Item-KNN在Diginetica中超越GRU4REC，这验证了用户的潜在偏好对推荐性能有很大影响。与传统方法相比较，基于深度神经网络的方法表现出了不错的效果。其中，GRU4REC首次应用GRU对会话序列进行建模，其性能表现出了RNN对序列建模的能力。NARM和STAMP在会话推荐中引入了注意力机制来捕捉会话的表示。NARM结合了RNN和注意力机制来模拟用户的偏好。STAMP只结合了注意机制和最后一项的表示进行推荐，其性能超过了NARM，说明了注意力机制会话推荐中的有效性。CSRM是会话推荐中第一个考虑到了全局信息的工作，其性能优于NARM和STAMP，这显示了来自其他会话的辅助信息的有效性。但是由于CSRM是将会话作为最小处理单元，会导致无法处理来自会话中的噪音商品，这对实际场景是不友好的。SR-GNN、TA-GNN、GCE-GNN是基于图网络的最新工作。基于图网络的工作更加关注于商品间的转换关系，本实验发现约80％的会话不存在重复点击，这部分数据的所生成的图结构其实是一种顺序的表达，利用GNN来学习商品的表示所带来的性能在我们实验中提升并不大，所以我们选择从重复-探索角度来捕获商品间的关系。

从表1中可以看出TDGA在三个公开数据集上均优于最先进的基线模型，TDGA比最先进的基线在Diginetica、Yoochoose、Retailrocket上分别高出了3.8％、1.6％、8.3％。

表1中，P@20(P@K表示长度为K的召回列表中真实标签的命中率)和MRR@20(MRR@K表示长度为K的召回列表中真实标签的平均排序倒数)均表示设置的测评指标。

表1总体实验效果

五、消融实验

为了验证TDGA中各个模块的有效性，本实验设置了如下对比模型：

1)w/o IG:移除掉TDGA中的显式全局邻居注意力网络。

2)w/o OG：移除掉TDGA中的隐式全局邻居注意力网络。

3)w/o G：同时移除掉TDGA中的显式和隐式全局邻居注意力网络。

4)w/o topic：移除掉TDGA中的商品主题模块。

从表2中可以看出不论是移除掉显式全局注意力网络还是隐式注意力网络，模型性能都存在着不同程度的降低，这说明了显式注意力网络和隐式注意力网络的有效性。显式和隐式注意力网络分别从不同的角度获取商品的全局邻居，二者信息互相指导补充使得模型性能达到最优。很明显，将显式和隐式全局注意力网络都移除会给模型性能带来较大下降。另外，同时我们通过w/o topic还可以验证商品主题模块的有效性，商品主题模块可以捕获不同商品之间的共性，可以辅助模型其他模块生成更加准确的会话表示。

表2总体实验效果

六、模型在不同长度会话上的差异

为了验证模型在不同长度的会话上表现如何，本实验将Diginetica和Yoochoose中会话长度大于5的视为长会话(对应图2中的“long session”)，小于5的视为短会话(对应图2中的“short session”)。我们将TDGA与最先进的2个基线模型TA-GNN和GCE-GNN分别在长会话和短会话上进行了实验。从图2中我们可以看到，TDGA与基线模型在短会话上表现更好，这是因为短会话中的商品与用户的交互关系更为简单，长会话中的商品与用户存在着更加复杂的交互关系。另一方面我们可以看到，TDGA在短会话和长会话中都存在着明显的优势，这验证了TDGA在不同长度会话上的有效性。

七、参数敏感性分析

探索预测模块中的顺序信息对模型至关重要，本实验对其中控制局部和全局顺序信息比例的超参数λ进行了分析。从图3(图中“values ofλ”是指：λ的值)中我们可以看到评测指标P@20和MRR@20都是随着λ的增大而先增加后减少，并在λ＝0.4左右效果达到较好状态，这说明局部顺序信息和全局顺序信息相互平衡，局部顺序信息或全局顺序信息过大对模型性能都会产生一定影响。

八、总结

在3个真实的公共数据集上的实验表明，本发明提出的基于主题指导和双全局注意力的会话推荐方法及其TDGA模型能够增强推荐性能，推荐效果有明显的优势。

需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。同时，实施例中公知的具体结构及特性等常识在此未作过多描述。最后，本发明要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。