CN116680456A

CN116680456A - 基于图神经网络会话推荐系统的用户偏好预测方法

Info

Publication number: CN116680456A
Application number: CN202310719597.4A
Authority: CN
Inventors: 吴磊; 唐超; 龚海刚; 刘明; 王晓敏
Original assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Current assignee: Yangtze River Delta Research Institute of UESTC Huzhou
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-09-01

Abstract

本发明公开了基于图神经网络会话推荐系统的用户偏好预测方法，涉及人工智能技术领域，包括：S1获取训练数据集；S2、预处理训练数据集得会话序列；S3构建偏好预测模型；S4会话序列导入到偏好预测模型，并训练优化；S5获取待预测的用户数据，预处理得待预测的会话序列；S6、待预测的会话序列导入优化的偏好预测模型得预测结果；在构建会话图时给每个物品节点添加自环并将边的关系，增加邻接矩阵的信息，解决矩阵稀疏问题，采用多通道图神经网络来提取会话的局部兴趣特征，高效利用会话图中的信息，然后引入多层自注意力网络来提取会话的全局兴趣特征，通过会话实现精准有效的偏好预测。

Description

基于图神经网络会话推荐系统的用户偏好预测方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于图神经网络会话推荐系统的用户偏好预测方法。

背景技术

推荐系统是一种决策支持系统，能够预测用户对特定物品的兴趣，并通过历史行为和偏好等信息来帮助用户选择感兴趣的内容。传统推荐系统需要长期的历史交互数据才能学习用户行为偏好，而在某些情况下，获取这些数据可能会受到用户隐私问题的限制，从而使传统推荐系统难以发挥作用。会话推荐系统是推荐系统研究领域的一个重要分支，它不需要依赖用户的长期历史交互数据，只需要根据当前用户的短期交互信息来为用户生成推荐内容。

常见的研究方法可以分为两大类：基于传统方法的会话推荐算法和基于深度学习的会话推荐算法。

传统方法主要利用数据挖掘或机器学习等技术来捕获会话数据中嵌入的依赖关系，方法大致可分为三类：基于协同过滤的方法、基于K近邻的方法、基于马尔科夫链的方法。Sarwa等人提出了基于物品的协同过滤算法可以有效的解决在线计算性能问题。亚马逊网站在此基础上设计了基于物品的协同过滤推荐系统，主要根据用户的行为来推荐商品。Liang等人提出了基于矩阵分解的协同过滤算法，结合了矩阵分解技术与协同过滤算法，能够同时捕获用户点击项集合和用户的兴趣转移。Rendle等人在会话推荐系统中，为了同时捕获时间信息和长期的用户喜好信息，引入了马尔科夫链的个性化转移矩阵，同时还引入了矩阵分解模型，有效的解决了转移矩阵的稀疏问题。

随着深度学习技术的发展，越来越多的科学领域使用基于深度学习的方法来解决学术难点。

图神经网络(GNN)不同于卷积神经网络、循环神经网络等传统深度学习神经网络的地方在于，它可以对非欧式空间数据进行有效的建模，从目标节点的邻居节点学习特征信息。Wu等人首次将GNN应用于会话推荐任务，提出了基于门控图神经网络的会话推荐算法(SR-GNN)。该算法是第一个将GNN应用到会话推荐任务中，具有开创性和里程碑意义。此后，有大量学者基于GNN展开对会话推荐系统的研究。Xu等人提出了GC-SAN模型，相比于SR-GNN其使用多层自注意力从不同高度的模块中捕捉不同层次特征。Lu等人借鉴GC-SAN模型的部分结构提出了CIE-GNN模型，该模型采用多头注意力与加性注意力来学习会话的全局表示向量。Yu等人提出了TAGNN模型，采用门控图神经网络，同时为了适应用户在会话中不断变化的意图，提出了一种针对目标物品的注意力网络模型，进一步改善了会话表示。

现有的基于图神经网络的会话推荐算法，在构架会话图时存在对会话图中信息利用率低下的问题，由此导致物品转换关系建模能利用的信息有限。同时，简单的会画图构建方法还会导致存储会话图的邻接矩阵数据稀疏的问题。这些问题，最终会使模型的推荐效果不佳。

发明内容

本发明的目的就在于为了解决上述问题设计了一种基于图神经网络会话推荐系统的用户偏好预测方法。

本发明通过以下技术方案来实现上述目的：

基于图神经网络会话推荐系统的用户偏好预测方法，包括：

S1、获取训练数据集；

S2、对训练数据集进行预处理得到会话序列；

S3、构建偏好预测模型，偏好预测模型从输入到输出依次包括会话图构建层、局部编码层、全局编码层和预测输出层，局部编码层为多通道会话图神经网络，全局编码层为多层注意力神经网络，局部编码层用于对会话图的局部兴趣进行偏好编码获得会话图的短期局部兴趣特征，全局编码层对会话图的全局兴趣偏好进行偏好编码获得会话图的全局兴趣特征，预测层根据短期局部兴趣特征和全局兴趣特征得到预测结果；

S4、将训练集的会话序列导入到偏好预测模型，并利用交叉熵函数对偏好预测模型进行训练优化；

S5、获取待预测的用户数据，并进行预处理得到待预测的会话序列；

S6、待预测的会话序列导入优化后的偏好预测模型获得预测结果。

本发明的有益效果在于：通过关注会话图的构建、会话局部兴趣编码以及会话全局兴趣编码，在构建会话图时给每个物品节点添加自环并将边的关系分为四类：出边、入边、出入边和自环，有效增加邻接矩阵的信息，解决了矩阵稀疏的问题，采用多通道图神经网络来提取会话的局部兴趣特征，更加高效的利用了会话图中的信息，引入多层自注意力网络来提取会话的全局兴趣特征，可以学习到序列中潜在的不同类型的注意点位，自适应的给会话中各个物品项分配权重，实现了通过会话实现精准有效的偏好预测。

附图说明

图1是本发明基于图神经网络会话推荐系统的用户偏好预测方法的流程图；

图2是本发明会话图构建的示意图；

图3是实验中第一模型的流程图；

图4是实验中第二模型的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要理解的是，术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，或者是本领域技术人员惯常理解的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，“设置”、“连接”等术语应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以通过中间媒介间接连接，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图，对本发明的具体实施方式进行详细说明。

如图1所示，基于图神经网络会话推荐系统的用户偏好预测方法，包括：

S1、获取训练数据集；

S2、对训练数据集进行预处理得到会话序列；具体包括：

S21、对物品id从1开始进行重构；

S22、过滤所有会话中累计点击数小于5的物品和点击物品数量小于2的会话，有效地防止了因会话序列太短导致模型不能很好的学习到会话中物品项之间的转换关系以及会话的特征信息；

S23、对过滤后的会话进行数据增强处理实现扩展数据集，将一个会话v_i'＝(v_i,1,v_i,2,v_i,3,…,v_i,t)变换为多个子会话({v_i,1},v_i,2)、({v_i,1,v_i,2},v_i,3)、…、({v_i,1,v_i,2,v_i,3,…,v_i,t-1},v_i,t)；其中()中有两个元素，其中{}中的元素表示训练数据，另一个表示与训练集对应的数据标签，组合形成会话序列s＝{v₁,v₂,v₃,…,v_t}，其中t表示会话的数量，v_i＝({v_i,1,v_i,2,v_i,3,…,v_i,i-1},v_i,i)。

S4、将训练集的会话序列导入到偏好预测模型，并利用交叉熵函数对偏好预测模型进行训练优化，交叉熵损失函数表示为：其中，y_i是会话对应的实际下一个点击物品标签，形式为one-hot编码向量，/>是偏好预测模型预测的概率值，n是物品集合V中总的物品个数，J是损失值；具体包括：

S41、会话图构建层对一个会话构建序列s＝{v₁,v₂,v₃,…,v_t}，该序列中的物品项v_i根据用户点击的时间先后顺序进行排列，如下图2所示，对序列s＝{v₁,v₃,v₄,v₂,v₃,v₁}构建会话图G_s＝(V_s,E_s)，Vs＝{v₁,v₂,v₃,v₄}是会话图中的节点集合，Es＝E_s1∪E_s2是会话图边的集合，E_s1＝{(v₁,v₃),(v₃,v₄),(v₄,v₂),(v₂,v₃),(v₃,v₁)}是会话序列中的物品根据时间顺序形成的有向边集合，E_s2＝{(v₁,v₁),(v₂,v₂),(v₃,v₃),(v₄,v₄)}是每个物品项的自环，每一个会话对应一个邻接矩阵A_s，矩阵里面含有五种类型的数值，A[i][j]＝0表示节点i到节点j之间没有边，A[i][j]∈{1,2,3,4}分别对应会话图中四种类型的边，即自环、入边、出边、出入边；

S42、分析会话集合S＝{s₁,s₂,s₃,…,s_m}中包含的物品项目构成一个物品项集合item＝{i₁,i₂,i₃,…,i_k}，其中k表示总共有k个不同的物品项；给k个物品项分别随机初始一个嵌入向量，形成一个随机初始的嵌入表达矩阵E＝Embedding(num,d)，其中E∈R^num＊d，num是数据集中不同类型物品项的个数，d是嵌入向量的维度，会话序列s＝{v₁,v₂,v₃,…,v_t}对应的嵌入表达矩阵表示为X＝E[v₁,v₂,v₃,…,v_t]，其中v_i是序列s中第i个元素的标号，该标号和矩阵E的行对应；

S43、局部编码层对会话s进行局部信息编码，得到局部编码结果表示为其中，a_ij表示节点v_j的特征向量对于节点v_i来说其占有的权重值，/>是会话s中节点v_i的邻居节点集合；选取会话s中最后一个物品的特征编码作为会话的短期局部兴趣特征，表示为/>具体为：

①、节点v_i的嵌入向量与节点v_j的嵌入向量进行点乘，得到形状为(d,1)的向量，该向量以此经过一个线性变换和一个非线性变换得到节点v_i特征向量对于节点的权重系数e_ij，表示为其中，r_ij表示节点v_i与节点v_j之间边的关系，每种类型的边对应一个参数向量a∈R^d，则总共有四种类型的参数向量：a_self,a_in,a_out,a_in-out,分别对应四种通道；

②、使用Softmax函数对权重值系数e_ij进行归一化得到节点v_j的特征向量对于节点v_i来说其占有的权重值a_ij，表示为使权重值e_ij在不同的节点上具有可比性；

③、聚合节点v_i的所有邻居节点，每个邻居节点都有一个对于节点v_i的权值，对所有的邻居节点加权求和就能得到当前会话s中节点v_i的物品编码结果

④、选取会话s中最后一个物品的特征编码作为会话的短期局部兴趣特征，表示为

⑥、局部编码层对会话s进行局部信息编码，表示为其中，e_ij表示节点v_j的特征向量对于节点v_i来说其占有的权重值，每种类型的边对应一个参数向量a∈R^d，则总共有四种类型的参数向量：a_self,a_in,a_out,a_in-out,分别对应四种通道；/>是会话s中节点v_i的邻居节点集合；选取会话s中最后一个物品的特征编码作为会话的短期局部兴趣特征，表示为/>

S44、全局编码层使用自注意力机制对会话集合S的物品特征编码矩阵H＝[h₁,h₂,h₃,…,h_t]，H∈R^d＊n进行自注意力计算得到全局编码结果E，表示为E＝MLSA(H)、E_k＝MLSA(E_k-1)，其中，E_k∈R^n＊d，是经过K层注意力机制生成的会话的全局编码向量，E₁＝E；将E_k中对应会话最后一个物品项的特征向量当作会话的全局兴趣特征，可表示为具体为：

1)、对H＝[h₁,h₂,h₃,…,h_t]，H∈R^d＊n进行自注意力机制处理一次得到输出矩阵F表示为：

Q＝W_QH

K＝W_KH

V＝W_VH

其中，W_Q、W_K、W_V∈R^2d＊d是可学习参数，Q是查询矩阵，K是关键词矩阵、V是值矩阵，A∈R^n＊n是归一化的注意力权值矩阵，包含了会话中其它所有节点对当前节点的重要性程度；

2)、对输出矩阵F添加两次线性变换和一次非线性变换，然后再加上原始的矩阵信息，同时借鉴残差网络的做法，得到会话的物品嵌入矩阵H给予一层自注意力的全局编码结果E1，表示为E1＝dropout(ReLU(W₁F+b₁)W₂+b₂)+F，增强了偏好预测模型的拟合能力，其中，RuLU是激活函数，W₁、W₂、b₁、b₂是可学习参数，W₁、W₂∈R^2d*d，b₁、b₂∈R^d；

3)、经过K层注意力机制生成的会话的全局编码向量E_k，E_k＝MLSA(E_k-1)，E₁＝E，学习到了不同层次的特征；

4)、将E_k中对应会话最后一个物品项的特征向量当作会话的全局兴趣特征，可表示为

S45、预测层将短期局部兴趣特征与全局兴趣特征以加权求和的形式，结合为一个向量s_final，表示为s_final＝ω＊s_local+(1-ω)＊s_global，该向量代表了会话的最终的兴趣偏好s_final，s_final将该会话的最终兴趣偏好向量与物品集合V的嵌入矩阵E进行矩阵乘法，然后再通过softmax函数，求得该会话对于物品集合V中的每个物品项的推荐概率表示为其中，ω∈(0,1)是一个可调节的超参数，E是物品集合V对应的嵌入矩阵。

验证实验

为了对偏好预测模型的有效性进行验证，在两个公共标准数据集中测试模型的性能。会话推荐算法的任务是，根据当前用户与系统的交互产生的会话，预测用户下一次将要点击的物品项。通常不会只返回给用户一个推荐项目，为了尽可能的包含用户的兴趣物品，生成一个推荐列表返回给用户。对于这种情况，常见的评价指标有两种：MRR@N和P@N。MRR@N(Mean Reciprocal Rank)，全称是平均倒数排名，其数值越大，说明在测试集中，每个样本标签在其生成的推荐列表靠前的位置，表示模型的推荐结果更加准确。P@N(Precision@N)，指推荐列表中前N个推荐物品的准确度，数值越大表示模型推荐性能越好。

表1展示了本方法偏好预测模型与会话推荐算法中比较有代表性的几种方法在两个标准公共数据集上的测试结果。从表中可以看出，本方法所提结果在所有的指标上都取得了最好的结果，与具有代表性的基于图神经网络的会话推荐算法SR-GNN对比，模型在P@10、MRR@10、P@20、MRR@20这四个指标全面超越了SR-GNN模型，对于Diginetica数据集分别提高4.2％、2.52％、3.43％、1.39％，对于Nowplaying数据集分别提高2.88％、0.24％、4.26％、0.31％，证明了本方法偏好预测模型的有效性。

为了探究图神经网络信息传播模块的有效性，分别构造了另外两个对比模型。第一个模型，没有使用多通道模块，即没有使用会话图的网络信息，直接将会话的嵌入矩阵送入多层自注意力机制中进行全局兴趣偏好的提取，该模型本文称之为M_only-att。第二个模型，本方法使用SR-GNN模型中的门控图神经网络来替换MCSA-GNN-SR模型中的多通道图神经网络。同时，构造的会话图以及存储图的邻接矩阵也要与之改变，使它们能够适用于门控图神经网络，该模型本文称之为M_GGNN-att，两个模型的具体计算流程如图3和图4所示。将上述两个对比模型，在Diginetica和Nowplaying这两个标准数据集上做实验，采用P@10、MRR@10、P@20、MRR@20这个四个评价指标来与本章MCSA-GNN-SR模型做对比，具体的实验结果对比如表2所示。MCSA-GNN-SR模型比两个对比模型在数据集上的表现效果都要好的多，综合说明了本章MCSA-GNN-SR模型中所设计的图神经网络信息传播模块的有效性。

表1MCSA-GNN-SR模型实验结果比较

表2M_o晦ly-att、M_GGNN-att、MCSA-GNN-SR三模型实验对比

本发明的技术方案不限于上述具体实施例的限制，凡是根据本发明的技术方案做出的技术变形，均落入本发明的保护范围之内。

Claims

1.基于图神经网络会话推荐系统的用户偏好预测方法，其特征在于，包括：

S1、获取训练数据集；

S2、对训练数据集进行预处理得到会话序列；

2.根据权利要求1所述的基于图神经网络会话推荐系统的用户偏好预测方法，其特征在于，在S2中包括：

S21、对物品id从1开始进行重构；

S22、过滤所有会话中累计点击数小于5的物品和点击物品数量小于2的会话；

S23、对过滤后的会话进行数据增强处理，将一个会话v_i'＝(v_i,1,v_i,2,v_i,3,…,v_i,t)变换为多个子会话({v_i,1},v_i,2)、({v_i,1,v_i,2},v_i,3)、…、({v_i,1,v_i,2,v_i,3,…,v_i,t-1},v_i,t)；其中()中有两个元素，其中{}中的元素表示训练数据，另一个表示与训练集对应的数据标签，组合形成会话序列s＝{v₁,v₂,v₃,…,v_t}，其中t表示会话的数量，v_i＝({v_i,1,v_i,2,v_i,3,…,v_i,i-1},v_i,i)。

3.根据权利要求1所述的基于图神经网络会话推荐系统的用户偏好预测方法，其特征在于，在S4中包括：

S41、会话图构建层对一个会话构建序列s＝{v₁,v₂,v₃,…,v_t}，该序列中的物品项v_i根据用户点击的时间先后顺序进行排列，对序列s构建会话图G_s＝(V_s,E_s)，V_s是会话图中的节点集合，E_s是会话图边的集合，每一个会话对应一个邻接矩阵A_s，矩阵里面含有五种类型的数值，A[i][j]＝0表示节点i到节点j之间没有边，A[i][j]∈{1,2,3,4}分别对应会话图中四种类型的边，即自环、入边、出边、出入边；

S42、分析会话集合S＝{s₁,s₂,s₃,…,s_m}中包含的物品项目构成一个物品项集合item＝{i₁,i₂,i₃,…,i_k}，其中k表示总共有k个不同的物品项；给k个物品项分别随机初始一个嵌入向量，形成一个随机初始的嵌入表达矩阵E＝Embedding(num,d)，其中E∈R^num＊d，num是数据集中不同类型物品项的个数，d是嵌入向量的维度，会话序列s对应的嵌入表达矩阵表示为X＝E[v₁,v₂,v₃,…,v_t]，其中v_i是序列s中第i个元素的标号，该标号和矩阵E的行对应；

S43、局部编码层对会话s进行局部信息编码，得到局部编码结果表示为其中，a_ij表示节点v_j的特征向量对于节点v_i来说其占有的权重值，/>是会话s中节点v_i的邻居节点集合；选取会话s中最后一个物品的特征编码作为会话的短期局部兴趣特征，表示为/>

S44、全局编码层使用自注意力机制对会话集合S的物品特征编码矩阵H＝[h₁,h₂,h₃,…,h_t]，H∈R^d＊n进行自注意力计算得到全局编码结果E，表示为E＝MLSA(H)、E_k＝MLSA(E_k-1)，其中，E_k∈R^n＊d，是经过K层注意力机制生成的会话的全局编码向量，E₁＝E；将E_k中对应会话最后一个物品项的特征向量当作会话的全局兴趣特征，可表示为

4.根据权利要求3所述的基于图神经网络会话推荐系统的用户偏好预测方法，其特征在于，在S4中，采用交叉熵损失函数来优化偏好预测模型，交叉熵损失函数表示为：其中，y_i是会话对应的实际下一个点击物品标签，形式为one-hot编码向量，/>是偏好预测模型预测的概率值，n是物品集合V中总的物品个数，J是损失值。

5.根据权利要求1所述的基于图神经网络会话推荐系统的用户偏好预测方法，其特征在于，在S43中包括：

②、使用Softmax函数对权重值系数e_ij进行归一化得到节点v_j的特征向量对于节点v_i来说其占有的权重值a_ij，表示为

⑤、局部编码层对会话s进行局部信息编码，表示为其中，e_ij表示节点v_j的特征向量对于节点v_i来说其占有的权重值，每种类型的边对应一个参数向量a∈R^d，则总共有四种类型的参数向量：a_self,a_in,a_out,a_in-out,分别对应四种通道；/>是会话s中节点v_i的邻居节点集合；选取会话s中最后一个物品的特征编码作为会话的短期局部兴趣特征，表示为/>

6.根据权利要求1所述的基于图神经网络会话推荐系统的用户偏好预测方法，其特征在于，在S44中包括：

Q＝W_QH

K＝W_KH

V＝W_VH

2)、对输出矩阵F添加两次线性变换和一次非线性变换，然后再加上原始的矩阵信息，得到会话的物品嵌入矩阵H给予一层自注意力的全局编码结果E₁，表示为E1＝dropout(ReLU(W₁F+b₁)W₂+b₂)+F；

3)、经过K层注意力机制生成的会话的全局编码向量E_k，E_k＝MLSA(E_k-1)，E₁＝E；