CN112650933B

CN112650933B - 一种基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法

Info

Publication number: CN112650933B
Application number: CN202110011006.9A
Authority: CN
Inventors: 徐喜荣; 陈姝; 李欣子; 王子鸣; 雷赫曼; 黄德根
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2024-05-07
Anticipated expiration: 2041-01-06
Also published as: CN112650933A

Abstract

本发明公开了一种基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法，属于推荐技术领域。对于每个会话序列构建单独的有向会话图，所有的会话图都使用共享项作为链接形成全局图作为输入。多层图卷积网络根据项目特征对其进行向量表示，并通过多头注意力机制得到会话图的全局偏好表示，同时将每个会话图中最后一个点击项的向量表示作为局部偏好表示。之后，全局偏好和局部偏好使用线性变换得到会话序列的最终表示，以此预测图中项目成为下一次点击的概率。本方法使用初始残差和恒等映射两个理论方法，解决多层图卷积网络带来的过度平滑问题，同时使用了多头注意力机制提升了模型的表达能力，提高了在会话中预测项目的准确率。

Description

一种基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法

技术领域

本发明属于推荐技术领域，采用基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法。

背景技术

作为推荐技术领域的重要组成部分，会话推荐在现代信息化社会得到了广泛应用。例如网上购物平台、在线社交平台等通过使用会话推荐算法，提升用户的满意度并提高公司的收益。会话推荐使用用户的历史交互信息挖掘出用户的偏好，从而预测用户的下一个交互项目。

现有的基于会话的推荐算法中，基于马尔科夫链的方法作为一种顺序决策的随机过程，模拟会话场景生成推荐列表，预测用户的行为，但该方法独立性假设过于强烈，对于预测准确性的提高有一定的限制。基于循环神经网络(RNN)的推荐方法也取得了很好的效果，但没有充分利用会话图结构信息，难以准确估计会话中的用户隐含表示向量。之后，由于图神经网络的兴起，很多学者也开始了基于图神经网络的会话推荐算法的研究，图神经网络可以很好地捕捉会话图数据中的结构信息，从而更好地向用户进行精准推荐。

但是，目前的基于图神经网络的会话推荐方法中，使用图卷积神经网络(GCN)时，由于GCN存在过度平滑问题，因此现有方法不能叠加多层GCN，也就不能聚合更高层次的图节点信息。

发明内容

基于上述，本发明提出一种基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法，使用初始残差和恒等映射两个理论方法，解决多层图卷积网络带来的过度平滑问题，从而聚合图数据的高阶结构信息，同时使用多头注意力机制表示用户的全局偏好，使得会话表示更加精确，从而提高了在会话中预测下一次点击物品的准确率。

为了实现上述目的，本发明采用技术方案如下：

(1)构建出所有会话信息组成的有向会话局部图和全局图；

(2)遍历全局图和局部图分别得到局部图的邻接矩阵和全局图的邻接矩阵，同时基于图中每个节点的索引设置物品的初始特征向量；

(3)将邻接矩阵和特征向量输入至图神经网络中，经最终池化层输出，得到的向量为物品最终的向量表示；

(4)将物品最终的向量表示输入至多头注意力层中，得到会话的全局向量表示；

(5)将每个会话中最后一个点击物品的向量表示作为该会话的局部向量表示；

(6)将会话的局部向量表示和全局向量表示进行拼接，得到会话的最终表示；

(7)将会话的最终表示的转置与每个节点向量相乘，得到的向量再经Softmax函数得到最终输出，即下一次被点击的概率即分数，取分数最大的前p个项目作为当前会话的推荐项目。

一种基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法，技术方案的具体步骤如下：

步骤A：对数据集进行预处理。数据集中的会话信息包括会话ID、被点击的物品ID以及点击时间。依据会话长度和在数据集中出现的次数对数据集中的数据进行过滤，再将过滤后的数据集划分为训练集和测试集。

步骤B：根据训练集中的会话信息构建有向会话图，每个有向会话图作为会话局部图，并根据共享项作为链接构建出会话的全局图。局部图和全局图中的节点表示目标用户点击的项目，边表示用户点击了由该边连接的两个节点。

步骤C：遍历全局图和局部图分别得到局部图的邻接矩阵和全局图的邻接矩阵A，同时根据图中每个节点的索引设置物品的初始特征向量；

在得到物品的特征向量后，邻接矩阵和特征向量作为下一步骤中图卷积神经网络的输入。

步骤D：将图卷积神经网络的图卷积层叠加一层以上，再叠加平均池化层，构建一个图神经网络。

图卷积层设计为：

H^(l+1)＝σ(((1-α_l)((D+I)^-1/2(A+I)(D+I)^-1/2)H^(l)+α_lH⁽¹⁾)((1-β_l)I+β_lW^(l)))

其中，H^(l+1)表示第(l+1)层的输出，H^(l)表示第l层的输出，同时作为第(l+1)层的输入。同理，H⁽¹⁾作为神经网络第l层的输出，保留初始特征，使用了初始残差的理论减缓过度平滑。

式中α_l和β_l是第l层的超参数；σ为激励函数；W^(l)为第l层待训练的参数矩阵。I为单位矩阵，D为邻接矩阵A的度矩阵。在参数矩阵前添加I，使用了恒等映射的理论减缓过度平滑。

邻接矩阵和特征向量输入至图卷积神经网络中，经最终池化层的输出，得到的向量为物品最终的向量表示。在第i个会话中物品集合为其中s_i为第i个会话，n为会话i中的物品个数，/>表示第i个会话中的第j个物品的向量表示。

步骤E：对于步骤D中的输出将会话中最后点击的物品的向量表示/>作为第i个会话的局部表示/>同时将/>输入至多头注意力层中，得到的输出作为第i个会话的全局向量表示/>

多头注意力层的计算过程为：

其中，||为拼接操作，调用K组相互独立的注意力机制，α_ij ^(k)为第k组注意力机制计算出的第i个会话中第j个物品的权重系数，W^(k)为第k组的参数矩阵，σ为激励函数，为第i个会话中第j个物品的向量。

权重系数α_ij表示的计算公式为：

其中，W_attention为注意力机制中的参数矩阵，σ为激励函数，a为权重参数，exp代表指数运算；n指会话i中共有n个物品，代表第i个会话中第n个物品的向量表示，x_i ^j代表第i个会话中第j个物品的向量表示。

步骤F：根据步骤D得到第i个会话的全局向量表示和局部向量表示/>将二者进行拼接，得到第i个会话的最终表示/>

步骤G：得到第i个会话的最终表示后，将/>转置与每个节点向量/>相乘，得到的向量再经Softmax函数得到最终输出/> 表示节点j在会话i中下一次被点击的概率即分数，取分数最大的前p个项目作为当前会话的推荐项目。

进一步的，训练模型参数时，使用真实的概率与步骤G得到的预测概率之间的交叉熵作为损失函数：

其中，y_ij是第i个会话中第j个物品的真实概率，n为会话i中的项目总数，表示步骤G得到的第i个会话中第j个物品的预测概率。

本发明具有以下有益效果：

(1)本发明使用高阶图卷积网络获取会话图中的项目信息，使得项目表示聚合高阶信息，使得项目表达更精准。

(2)本发明在图卷积层使用初始残差和恒等映射，解决了多层图卷积网络的过度平滑问题，使神经网络表达更优。

(3)本发明使用多头注意力机制获取用户的全局会话表示，使其融合更多结构信息，使表达更精确。

附图说明

图1是本发明的局部会话图的构建；其中(a)表示会话，(b)表示局部图。

图2是本发明的模型框架图，包含全局会话图的构建；

图3是本发明的流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方案对本发明的技术方案进行详细说明。

首先，对用到的变量和公式给出相关定义。

定义1.V:物品集合，且V＝{v₁,v₂,...,v_m}，m表示物品总数。

定义2.s_i：会话是一个时间段里的物品集合其中，/>表示会话i中第j个物品的向量表示。

定义3.S:所有会话集合，S＝{s₁,s₂,s₃,...,s_q},q表示会话总数。

定义4.会话i的全局向量表示。

定义5.会话i的局部向量表示。

结合以上定义，我们将最终问题描述为：基于当前会话s_i和所有会话集合S，对用户的长期兴趣偏好和短期兴趣偏好对会话和会话中的项目进行建模，预测用户下一次点击的物品。

本发明提出了一种基于高阶聚合的图卷积模型的会话推荐方法，如图2，通过叠加多层图卷积神经网络，聚合图中节点的高阶结构信息，从而使项目的向量表示更精准。以Diginetica数据集为例进行说明，数据集网址为http://cikm2016.cs.iupui.edu/cikm-cup，它包含204771个会话和43097个物品，每个会话由用户在一段时间内点击的物品组成。

具体实施时，包括如下步骤：

步骤A：对数据集进行预处理。我们过滤掉所有长度为1的会话和在数据集中出现次数少于5次的条目，再将数据集分割为训练集和测试集，在时间序列上靠后的会话信息用于测试，组成测试集。同时，分割会话，生成输入序列和标签。如，对于会话作为输入序列，/>作为标签，即会话的下一个点击项目，用于测试。

步骤B：根据训练集中的会话信息构建有向会话图，每个有向会话图作为会话局部图，并根据共享项作为链接构建出会话的全局图G。局部图和全局图中的节点表示目标用户点击的项目，边表示用户点击了由该边连接的两个节点。

平均池化层即对局部接受域中的所有值求均值，能够减小邻域大小受限造成的估计值方差增大。

图卷积层设计为：

其中，H^(l+1)表示第(l+1)层的输出，H^(l)表示第l层的输出，同时作为第(l+1)层的输入。同理，H⁽¹⁾作为神经网络第l层的输出，保留初始特征。式中α_l和β_l是第l层的超参数，在实验中设置为固定值；σ为激励函数，设置为ReLU；W^(l)为第l层待训练的参数矩阵。I为单位矩阵，D为邻接矩阵A的度矩阵。

此图卷积层的设计可以通过H⁽¹⁾和I+W^(l)这两个表达式，解决多层图卷积网络带来的过度平滑问题。H⁽¹⁾保留了初始特征，避免神经网络训练过程中的特征消失。同时，通过加入单位矩阵I的方式，控制参数矩阵的权重，减缓了参数矩阵带来的平滑问题。以上两个方法分别为初始残差和恒等映射，能够使图神经网络聚合更高阶的图结构信息，从而得到更精确的物品的节点向量表示。

多头注意力层的计算过程为：

其中，||为拼接操作，调用K组相互独立的注意力机制，α_ij ^(k)为第k组注意力机制计算出的第i个会话中第j个物品的权重系数，W^(k)为第k组的参数矩阵，为第i个会话中第j个物品的向量。σ为激励函数，设置为ReLU。

权重系数α_ij表示的计算公式为：

其中，σ为激励函数，设置为LeakyReLU；W_attention为注意力机制中的参数矩阵，a为权重参数，exp代表指数运算；n指会话i中共有n个物品，代表第i个会话中第n个物品的向量表示，x_i ^j代表第i个会话中第j个物品的向量表示。

多头注意力机制增加多组相互独立的注意力机制，能够将注意力的分配放到中心节点与邻居节点之间多处相关的特征上，使得模型的学习能力更加强大，提升了注意力层的表达能力。

步骤F：根据步骤D得到第i个会话的全局向量表示和局部向量表示/>将二者进行拼接，得到第i个会话的最终表示/>局部向量表示能够捕捉到用户的短期偏好，全局向量表示通过注意力机制能够捕捉到用户的长期偏好，将二者结合起来，能够更全面地表示用户偏好。

步骤G：得到第i个会话的最终表示后，将/>转置与每个节点向量/>相乘，得到的向量再经Softmax函数得到最终输出/> 表示节点j在会话i中下一次被点击的概率即分数，取分数最大的前p个项目作为当前会话的推荐项目，这里p设置为20。

使用反向传播算法来训练模型，由于会话长度较短，为防止过度拟合，我们选择相对较少的训练步骤。

步骤H：具体实验部分设置数据集的潜在向量的维度为100。另外，在训练集10％的随机子集验证集上选取其他超参数，所有参数初始化采用均值为0，标准差为0.1的高斯分布。初始学习率设置为0.001，并在每三次迭代后衰减0.1，批大小设置为100，使用Adam优化器优化上述涉及参数。

根据以上步骤的操作过程，即可实现本发明提出的基于会话的推荐方法。

为了验证本发明在会话推荐中的技术效果，本发明使用公开数据集Diginetica，来自CIKM Cup 2016，经过滤后，数据集中有204771个会话和43097个项目，具体地，包含982961次点击，719470个用于训练的会话，60858个用于测试的会话。数据集中会话的平均长度为5.12。评测指标为召回率(Recall@20)和平均排名倒数(MRR@20)。为说明效果，以相同实验数据集分别采用POP，S-POP，Item-KNN，FPMC，BPR-MF，GRU4Rec，NARM，STAMP，SR-GNN方法进行比较，将模型中图卷积层数设置为3，得到的比较结果如表1所示。

本发明与SR-GNN相比较，在Diginetica数据集的Recall@20指标下提升1.96％，MRR@20指标下提升5.54％。

表1：与其他会话推荐方法比较

Claims

1.一种基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法，其特征在于，步骤如下：

(1)构建出所有会话信息组成的有向会话局部图和全局图；

(7)将会话的最终表示的转置与每个节点向量相乘，得到的向量再经Softmax函数得到最终输出，即下一次被点击的概率即分数，取分数最大的前p个项目作为当前会话的推荐项目；

具体步骤如下：

步骤A：对数据集进行预处理；数据集包含的会话信息包括会话ID、被点击的物品ID以及点击时间；依据会话长度和在数据集中出现的次数对数据集中的数据进行过滤，再将过滤后的数据集划分练集和测试集；

步骤B：根据训练集中的会话信息构建有向会话图，每个有向会话图作为会话局部图，并根据共享项作为链接构建出会话的全局图；局部图和全局图中的节点表示目标用户点击的项目，边表示用户点击了由该边连接的两个节点；

在得到物品的特征向量后，邻接矩阵和特征向量作为下一步骤中图卷积神经网络的输入；

步骤D：将图卷积神经网络的图卷积层叠加一层以上，再叠加平均池化层，构建一个图神经网络；

图卷积层设计为：

其中，H^(l+1)表示第(l+1)层的输出，H^(l)表示第l层的输出，同时作为第(l+1)层的输入；同理，H⁽¹⁾作为神经网络第l层的输出，保留初始特征，使用了初始残差的理论减缓过度平滑；

式中α_l和β_l是第l层的超参数；σ为激励函数；W^(l)为第l层待训练的参数矩阵；I为单位矩阵，D为邻接矩阵A的度矩阵；在参数矩阵前添加I，使用了恒等映射的理论减缓过度平滑；

邻接矩阵和特征向量输入至图卷积神经网络中，经最终池化层的输出，得到的向量为物品最终的向量表示；在第i个会话中物品集合为其中s_i为第i个会话，n为会话i中的物品个数，/>表示第i个会话中的第j个物品的向量表示；

多头注意力层的计算过程为：

其中，||为拼接操作，调用K组相互独立的注意力机制，α_ij ^(k)为第k组注意力机制计算出的第i个会话中第j个物品的权重系数，W^(k)为第k组的参数矩阵，σ为激励函数，为第i个会话中第j个物品的向量；

权重系数α_ij表示的计算公式为：

其中，W_attention为注意力机制中的参数矩阵，σ为激励函数，a为权重参数，exp代表指数运算；n指会话i中共有n个物品，代表第i个会话中第n个物品的向量表示，x_i ^j代表第i个会话中第j个物品的向量表示；

2.根据权利要求1所述的一种基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法，其特征在于，训练模型参数时，使用真实的概率与步骤G得到的预测概率之间的交叉熵作为损失函数：