CN113222700A

CN113222700A - 基于会话的推荐方法及装置

Info

Publication number: CN113222700A
Application number: CN202110533473.8A
Authority: CN
Inventors: 蔡飞; 宋城宇; 王祎童; 潘志强; 张鑫; 王梦如; 陈皖玉; 陈洪辉
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-08-06
Anticipated expiration: 2041-05-17
Also published as: US11551284B2; US20220374962A1; CN113222700B

Abstract

本说明书一个或多个实施例提供一种基于会话的推荐方法及装置，利用预先训练的推荐模型进行物品推荐，方法包括：根据待预测的会话，构造有向会话图；将所述有向会话图输入门控图神经网络，由所述门控图神经网络输出物品嵌入向量；根据用户的当前偏好和第一长期偏好，确定用户的动态偏好；其中，所述当前偏好为所述会话中的最后一个物品的物品嵌入向量，所述第一长期偏好根据所述物品嵌入向量和物品的重要性分数确定；根据所述动态偏好和所述物品嵌入向量，确定各物品的预测分数；根据各物品的预测分数，输出推荐物品。本实施例能够提高物品推荐的精准度。

Description

基于会话的推荐方法及装置

技术领域

本说明书一个或多个实施例涉及人工智能技术领域，尤其涉及一种基于会话的推荐方法及装置。

背景技术

目前，线上平台一般都设计了推荐系统，在用户与系统的交互过程中分析用户偏好，根据用户偏好从海量物品中筛选出用户可能感兴趣的物品，推荐给用户，从而促成交易。现有的推荐系统，物品一般采用独热编码表示，容易导致模型过拟合，降低推荐精准度。

发明内容

有鉴于此，本说明书一个或多个实施例的目的在于提出一种基于会话的推荐方法及装置，能够提高物品推荐的精准度。

基于上述目的，本说明书一个或多个实施例提供了基于会话的推荐方法，利用预先训练的推荐模型进行物品推荐，方法包括：

根据待预测的会话，构造有向会话图；其中，所述会话包括用户与系统交互的至少一个物品；

将所述有向会话图输入门控图神经网络，由所述门控图神经网络输出物品嵌入向量；

根据用户的当前偏好和第一长期偏好，确定用户的动态偏好；其中，所述当前偏好为所述会话中的最后一个物品的物品嵌入向量，所述第一长期偏好根据所述物品嵌入向量和物品的重要性分数确定；

根据所述动态偏好和所述物品嵌入向量，确定各物品的预测分数；

根据各物品的预测分数，输出推荐物品。

可选的，确定各物品的预测分数之后，还包括：

计算物品的标签分布；

根据所述预测分数和所述标签分布，确定第一损失函数；

根据所述第一损失函数，优化所述推荐模型。

可选的，所述计算物品的标签分布，包括：

计算目标物品与物品集合中所有物品的相似度，得到由目标物品与所有物品的相似度构成的软标签向量；

对所有物品进行独热编码，得到独热编码表示的所有物品的硬标签向量；

根据所述软标签向量和硬标签向量，确定所述标签分布。

可选的，所述方法还包括：

计算所述会话与其他会话的相似度；

确定相似度最大的前M个邻居会话及剩余的非邻居会话；

根据所述会话、邻居会话、非邻居会话，分别计算各自的第二长期偏好；

根据所述会话、邻居会话非邻居会话的第二长期偏好，确定第二损失函数；

根据所述第一损失函数和所述第二损失函数，优化所述推荐模型。

可选的，所述第一长期偏好由动态读出函数确定，所述第二长期偏好由长期读出函数确定。

可选的，所述第一损失函数为KL散度函数，所述第二损失函数为JS散度函数。

可选的，所述物品的重要性分数由注意力机制产生。

本说明书实施例还提供一种基于会话的推荐装置，利用预先训练的推荐模型进行物品推荐，包括：

构造模块，用于根据待预测的会话，构造有向会话图；其中，所述会话包括用户与系统交互的至少一个物品；

物品表示模块，用于将所述有向会话图输入门控图神经网络，由所述门控图神经网络输出物品嵌入向量；

偏好确定模块，用于根据用户的当前偏好和第一长期偏好，确定用户的动态偏好；其中，所述当前偏好为所述会话中的最后一个物品的物品嵌入向量，所述第一长期偏好根据所述物品嵌入向量和物品的重要性分数确定；

预测模块，用于根据所述动态偏好和所述物品嵌入向量，确定各物品的预测分数；

推荐模块，用于根据各物品的预测分数，输出推荐物品。

可选的，所述装置还包括：

第一计算模块，用于计算物品的标签分布；

优化模块，用于根据所述预测分数和所述标签分布，确定第一损失函数；以及根据所述第一损失函数，优化所述推荐模型。

可选的，所述装置还包括：

第二计算模块，用于计算所述会话与其他会话的相似度；

邻居确定模块，用于确定相似度最大的前M个邻居会话及剩余的非邻居会话；

第二偏好确定模块，用于根据所述会话、邻居会话、非邻居会话，分别计算各自的第二长期偏好；

联合优化模块，用于根据所述会话、邻居会话非邻居会话的第二长期偏好，确定第二损失函数；以及根据所述第一损失函数和所述第二损失函数，优化所述推荐模型。

从上面所述可以看出，本说明书一个或多个实施例提供的基于会话的推荐方法及装置，利用预先训练的推荐模型进行物品推荐，通过根据待预测的会话，构造有向会话图，将有向会话图输入门控图神经网络，由门控图神经网络输出物品嵌入向量，根据用户的当前偏好和第一长期偏好，确定用户的动态偏好，根据动态偏好和物品嵌入向量，确定各物品的预测分数，根据各物品的预测分数，输出推荐物品。本实施例能够提高物品推荐的精准度。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例的方法流程示意图；

图2为本说明书一个或多个实施例的推荐模型的框图；

图3为本说明书一个或多个实施例的算法流程示意图；

图4A、4B、4C、4D分别为在两种数据集上，不同的标签权衡参数对应的模型性能示意图；

图5A、5B、5C、5D分别为在两种数据集上，不同的损失权衡参数对应的模型性能示意图；

图6A、6B、6C、6D分别为在两种数据集上，不同会话长度对应的模型性能示意图；

图7为本说明书一个或多个实施例的装置结构示意图；

图8为本说明书一个或多个实施例的电子设备结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

以下，通过具体的实施例进一步详细说明本公开的技术方案。

如图1、2所示，本说明书一个或多个实施例提供一种基于会话的推荐方法，利用预先训练的推荐模型进行物品推荐，推荐方法包括：

S101：根据待预测的会话，构造有向会话图；其中，会话包括用户与系统交互的至少一个物品；

本实施例中，会话包括用户与系统交互过程中，按顺序点击的至少一个物品。利用本实施例的推荐方法，将待预测的会话输入推荐模型，能够输出预测的用户可能感兴趣的推荐物品。

一些方式中，设物品集合V＝{v₁，v₂，...，v_|V|}表示所有物品，|V|是物品集合V中物品的数量。设会话集合U＝{S₁，S₂，...，S_τ，...，S_|U|}，|U|是会话集合U中会话的数量，S_τ＝{v₁，v₂，...，v_t，...，v_n}表示第τ个会话，会话S_τ中包含n个物品，v_t表示在会话S_τ中的第t个时刻交互的物品。利用本实施例的推荐方法，将会话S_τ输入推荐模型，由推荐模型输出物品集合V中每个物品被推荐给用户的概率，即p(v_n+1|v_1:n)，在此基础上，可将概率最高的N个物品组成推荐列表，推荐给用户。

S102：将有向会话图输入门控图神经网络，由门控图神经网络输出物品嵌入向量；

本实施例中，基于图学习方法生成准确的物品嵌入向量，图学习方法包括两个步骤，首先根据会话构造有向会话图，之后，根据有向会话图和在有向会话图上进行信息传播来学习会话中用于表示各物品的物品嵌入向量，表示为：

G_l＝Seq2Graph(S_τ)

X＝GNN(G_l) (1)

其中，G_l是根据会话S_τ构造的有向会话图，X是基于有向会话图G_l学习到的会话S_τ中的物品嵌入向量，Seq2Graph表示图构造，GNN表示信息传播操作。

S103：根据用户的当前偏好和第一长期偏好，确定用户的动态偏好；其中，当前偏好为会话中的最后一个物品的物品嵌入向量，第一长期偏好根据物品嵌入向量和物品的重要性分数确定；

本实施例中，根据用户的当前偏好

和第一长期偏好

确定用户的动态偏好z^d，表示为：

其中，Re a dout_d为动态读出函数，[；]为连接运算，d是物品嵌入向量的维度，

是Rea dout_d过程中用于控制权重的可训练的参数。读出函数readout是图神经网络中用于聚合节点特征以获取整个图的表征向量的函数。

一些方式中，由于会话中最后一个物品能够代表用户当前感兴趣的物品，因此，将会话中最后一个物品v_n的物品嵌入向量v_n作为用户的当前偏好

即，

对于用户的第一长期偏好

根据物品的重要性分数和物品嵌入向量确定，其中，物品的重要性分数

可由注意力机制来产生，表示为：

其中，

W₃,

是注意力机制中用于控制权重的可训练的参数，

是偏置向量，σ表示sigmoid函数，i为整数。

S104：根据动态偏好和物品嵌入向量，确定各物品的预测分数；

本实施例中，根据得到的用户的动态偏好z^d和每个物品的物品嵌入向量v_i，确定每个物品的预测分数

表示为：

其中，

为z^d的转置，Softmax函数用于归一化预测分数。

S105：根据各物品的预测分数，输出推荐物品。

本实施例中，确定每个物品的预测分数之后，可按照预测分数从高到低的顺序对各物品进行排序，将排在前面的预定数量的物品作为推荐物品构成推荐列表，输出推荐列表，便于用户根据推荐列表进一步选择目标物品。

本实施例提供的基于会话的推荐方法，利用推荐模型进行物品推荐，推荐方法包括：根据待预测的会话，构造有向会话图，将有向会话图输入门控图神经网络，由门控图神经网络输出物品嵌入向量，根据用户的当前偏好和第一长期偏好，确定用户的动态偏好，根据动态偏好和物品嵌入向量，确定各物品的预测分数，根据各物品的预测分数，输出推荐物品。本实施例通过准确的物品嵌入向量结合用户的动态偏好，能够提高物品推荐的准确性。

一些实施例中，确定各物品的预测分数之后，还包括：

计算物品的标签分布；

根据物品的预测分数和标签分布，确定第一损失函数；

根据第一损失函数，优化推荐模型。

本实施例中，根据物品的标签分布和预测分数，确定第一损失函数，利用第一损失函数对推荐模型进行优化，使得推荐模型的推荐更为精准。

结合图2所示，一些实施例中，采用基于目标的标签混淆方法，计算物品的标签分布，方法是：

根据软标签向量和硬标签向量，确定标签分布。

本实施例中，假设与目标物品v_tar相似的物品接近于用户偏好，目标物品与物品集合V中每个物品v_i的相似度为：

其中，

为目标物品的物品嵌入向量v_tar的转置，v_i为物品v_i的物品嵌入向量。

目标物品与物品集合中所有物品的相似度构成软标签向量y^soft，

对所有物品进行独热编码，得到所有物品的独热编码向量，由所有物品的独热编码向量构成硬标签向量y^hard，

是独热编码向量，

是硬标签向量中一个物品v_i对应的值，在对应于目标物品的位置

否则

之后，根据软标签向量和硬标签向量，得到所有物品的标签分布y^c，表示为：

y^c＝Softmax(y^soft+αy^hard) (6)

其中，

α是标签权衡参数，用于调节软标签向量y^soft和硬标签向量y^hard之间的权重。

一些方式中，根据物品的预测分数和标签分布，采用KL散度为第一损失函数对推荐模型进行优化，第一损失函数表示为：

其中，

为物品v_i的标签分布，

为物品v_i的预测分数。

本实施例中，考虑到目前的推荐系统一般采用交叉熵损失函数对比预测分数分布和用户偏好分布(即标签分布)，从而优化模型参数。由于用户不可能与所有物品产生交互，用户的真实偏好通常是未知的，简单地将目标物品的独热编码看作是用户偏好的真实分布，提高目标物品的预测分数，同时也会降低其它物品的预测分数；而且，采用独热编码进行物品嵌入向量，由于负样本物品与非目标物品的编码结果相同，导致无法区分负样本物品。本实施例采用基于目标的标签混淆方法，将目标物品与其他物品的相似度作为软标签向量，将其他物品的独热编码向量作为硬标签向量，将软标签向量与硬标签向量的混合作为最终标签分布，能够有效区分负样本物品，同时以KL散度为第一损失函数进行优化，能够有效防止过拟合问题。

结合图2所示，在推荐模型的主体监督学习部分，将待预测的会话S₁输入推荐模型，利用动态偏好生成器D-UPG根据会话S₁基于图学习方法生成会话中的物品的物品嵌入向量，根据物品嵌入向量确定用户的动态偏好，根据动态偏好和物品嵌入向量，确定各物品的预测分数；采用基于目标的标签混淆方法，生成物品的标签分布，之后，根据动物品的预测分数和标签分布，计算第一损失函数L_main，利用第一损失函数优化推荐模型，使得推荐模型输出准确的物品推荐。

一些实施例中，推荐方法还包括：

计算待预测的会话与其他会话的相似度；

根据会话与其他会话的相似度，确定相似度最大的前M个邻居会话及剩余的非邻居会话；

根据会话、邻居会话、非邻居会话，分别计算各自的第二长期偏好；

根据会话、邻居会话非邻居会话的第二长期偏好，确定第二损失函数；

根据第一损失函数和第二损失函数，优化推荐模型。

本实施例中，为提高预测精准度，综合考虑不同会话之间的关系。具体的，根据会话集合U中的所有会话构建包括以各会话为会话节点的全局图G_g＝{V_g,ε_g}，其中，V_g表示全局图中的会话节点集合，ε_g为全局图中的边的集合。计算会话S_τ与会话集合U中其他会话的相似度，根据计算得到的会话S_τ与其他会话之间的相似度，进行最大采样(max sampling，取相似度最大的前M个会话)，得到与会话S_τ最相似的M个会话；之后，将最相似的M个会话作为会话S_τ的邻居会话，利用边e_ij连接会话节点S_i与其邻居会话节点S_j，e_ij∈ε_g，会话节点S_i与邻居会话节点S_j整体上相似。

对于会话S_τ及其他会话，根据已确定出的物品嵌入向量，利用长期读出函数确定用户的第二长期偏好z^l，表示为：

其中，

是注意力机制中用于控制权重的可训练的参数，

是偏差向量。

本实施例中，对于用户的第一长期偏好

和第二长期偏好z^l，采用相同的物品嵌入向量以及相同的用以学习物品嵌入向量的参数，采用不同的读出函数(公式(2)所示动态读出函数Rea dout_d同时结合了用户的当前偏好和长期偏好，公式(8)所示长期读出函数得到用户的长期偏好)，通过对动态偏好和第二长期偏好进行协同学习，能够得到更为精准的物品推荐。

基于构造的全局图，会话集合U中包括与会话S_τ连接的邻居会话S_i组成的邻居会话集合

和与会话S_τ未连接的非邻居会话

组成的非邻居会话集合，即，

(“\”表示集合减法操作)。会话S_τ与邻居会话S_i的相似度，大于会话S_τ与非邻居会话

的相似度。

基于此，采用JS散度作为第二损失函数，最大化会话S_τ与其邻居会话之间的关联，最小化会话S_τ与非邻居会话

之间的关联，第二损失函数定义为：

其中，对于两个会话S_q和S_q，函数f(·,·)被定义为：

其中，

为会话S_p中用户的第二长期偏好，

为会话S_q中用户的第二长期偏好，σ是sigmoid函数。

根据第一损失函数和第二损失函数，得到用于联合训练推荐模型的损失函数L，表示为：

L＝L_main+λL_ssl (11)

其中，λ是损失权衡参数。一些方式中，采用反向传播算法更新损失函数L，对推荐模型进行训练，使得推荐模型输出更为精准的物品推荐。

本实施例中，考虑到目前的推荐模型，一般是根据会话的时序行为，通过建模前t个交互的物品来预测第t+1个物品，忽略了不同会话之间的关系；通过引入邻居会话可以丰富当前会话的信息从而进行推荐，但是引入邻居会话的同时也引入的偏差，影响推荐精准度。采用本实施例的方法，通过构造全局图建立不同会话之间的联系，能够通过对比每个会话中的长期偏好和全局图上的邻居会话来加强物品嵌入向量表示，提高物品推荐的精准度。

结合图2、3所示，推荐模型包括主体监督学习部分和自监督学习部分。对于自监督学习部分，根据所有会话构建全局图，通过计算会话与其他会话的相似度，确定会话的邻居会话及非邻居会话，根据已经确定出的物品嵌入向量，利用长期偏好生成器L-UPG分别计算会话的第二长期偏好、邻居会话的第二长期偏好以及非邻居会话的第二长期偏好，之后，根据会话的第二长期偏好与邻居会话的第二长期偏好，会话的第二长期偏好与非邻居会话的第二长期偏好，计算第二损失函数L_ssl，最后，根据第一损失函数L_main和第二损失函数L_ssl对推荐模型进行联合训练，得到优化的推荐模型，利用优化的推荐模型输出精准的物品推荐结果。

一些实施方式中，在步骤S101中，根据会话构造有向会话图来表示其包含的物品之间的基于对的传递关系，表示为G_l＝{V_l,ε_l}，其中，V_l为有向会话图的节点，V_l＝{x₁,x₂,...,x_m}包含会话S_τ中所有的独一无二的物品(即，会话S_τ中的n个物品经过去重后得到V_l，m≤n)，ε_l表示有向会话图中的边集合，每个边e_ij∈ε_l表示用户在点击物品x_i之后点击了物品x_j。

定义入度矩阵Aⁱⁿ和出度矩阵A^out，用以表示有向会话图中物品间的传递关系，入度矩阵与出度矩阵中的元素表示在信息传播过程中不同邻居节点的权重。入度矩阵与出度矩阵的具体形式不做具体说明。

构造出有向会话图之后，基于有向会话图进行信息传播来学习准确的物品嵌入向量表示。一些方式中，构造出有向会话图之后，将有向会话图中的物品输入GGNN门控神经网络模型，GGNN模型的嵌入层将输入的物品初始化为物品的嵌入向量，得到初始化后的物品嵌入向量，表示为

其中，

是物品x_i的物品嵌入向量，d是物品嵌入向量的维度。

在GGNN模型的第k层，获得节点v_i(GGNN模型中的节点v_i即物品v_i)的邻居节点的信息，表示为：

其中，

表示物品v_i在第k-1层的物品嵌入向量，

和

分别是入度矩阵Aⁱⁿ和出度矩阵A^out的第i行，即控制多少信息来自于节点v_i的邻居节点用以更新节点v_i的物品嵌入向量。W^I,

b^I,

是GGNN模型中可以学习的参数，其中，W^I,W^o分别是入度边和出度边的可学习的权重，b^I,b^O是偏置向量。

之后，利用门控循环单元GRU将物品v_i在GGNN模型的第k-1层的物品嵌入向量和在第k层传递的邻居节点的信息相结合，得到物品v_i在GGNN模型的第k层的物品嵌入向量，表示为：

一些方式中，通过具有多层结构的GGNN模型结合不同层上的节点信息，综合考虑会话中的物品之间的联系，经过k层叠加之后，得到会话中各物品的物品嵌入向量X^k，简化表示为X，X＝[x₁，x₂，...，X_m]，从而得到能够体现物品及物品之间关系的物品嵌入向量。之后，根据有向会话图以及得到的会话中各物品的物品嵌入向量，得到由物品嵌入向量表示的物品序列[v₁，v₂，...，v_n]。

以下结合实验数据说明依照本实施例的推荐方法可达到的推荐效果。

一些实施方式中，使用两个公开的数据集Retailrocket和Gowalla，验证本说明书提供的推荐方法。其中，Retailrocket为电子商务公司的点击数据集，用户在24小时内的点击被定义为一个会话，Gowalla为签到数据集，用户在24小时内的签到被定义为一个会话。

分别对两个数据集上得到的会话集进行预处理，预处理的方法是：将出现次数少于3次的物品过滤掉，将交互次数少于2次的会话过滤掉，得到预处理后的会话集。对于预处理后的会话集，按照会话的时间顺序，将会话集划分为训练集、验证集和测试集，其中，训练集的比例为70％，验证集的比例为10％，测试集的比例为20％，两个数据集的统计数据如表1所示。

表1两个数据集的统计数据

一些方式中，将本实施例的推荐方法(称为CGL)与现有的推荐方法进行对比分析。现有的方法包括：将当前会话中出现最频繁的物品推荐给用户(S-POP)，将与当前会话相似的物品推荐给用户，相似度通过余弦相似度衡量(Item-KNN)，利用马尔科夫链进行时序信号建模(FPMC)，使用GRU在基于会话的推荐中进行时序行为建模(GRU4REC)，在GRU4REC基础上使用注意力机制强调用户的主要意图(NARM)，使用注意力机制实现动态的用户偏好建模(STAMP)，使用GGNN建模会话并基于注意力机制聚合生成会话表示(SR-GNN)，使用GAT来建模当前会话，并且使用在全局图上的全局级别的物品表示来进行增强(GCE-GNN)，使用星图神经网络来探索信息传播中的长距离信息，且使用高速网络来防止过拟合问题(SGNN-HN)。

对于实验结果，采用的评价指标为Recall@N和MRR@N，其中，Recall@N为衡量目标物品是否在包括N个物品的推荐列表中，MRR@N为归一化的命中，考虑了目标物品在推荐列表里的位置，如果目标物品在推荐列表的前K个之外，它将被设为0，否则就要结合在推荐列表里的位置进行计算。

实验参数设置为：将一次训练的样本数目，即batchsize设置为100，物品嵌入向量的维度为100，模型优化器选用Adam优化器，初始学习率为0.001，每经过三次循环学习率衰减为当前学习率的0.1。GGNN模型的层数为1，其他超参数在验证集上进行调整；标签权衡参数α选用{8,10,12,14,16}中的值，损失权衡参数λ选用{0.01,0.05,0.1,0.2,0.5}中的值。全局图中邻居节点数目的最大值M设置为16，所有参数ψ(模型中涉及到的所有参数，即前文提到过的所有参数)使用高斯分布进行初始化，平均值为0，标准差为0.1。

表2不同推荐模型的性能指标

如表2所示，分析现有的几种推荐方法，基于GNN模型的方法普遍效果优于基于RNN和注意力机制的模型，说明了GNN模型在建模会话中物品间复杂传递关系的有效性。对比基于GNN模型的方法，尽管GCE-GNN探索了物品间的全局信息，但未能强调用户的近期兴趣，导致结果不令人满意，尤其在Retailrocket数据集上。通过在GNN模型中传播长距离信息以及缓解过拟合问题，SGNN-HN实现了较好的效果。

相对比的，本实施例的推荐方法CGL，在两个数据集上的两项指标均优于现有的推荐方法。在Retailrocket数据集上，对于Recall@20指标，CGL较SGNN-HN提高6.21％((47.86-45.06)/45.06＝6.21％)，对于MRR@20指标，CGL较SGNN-HN提高1.31％；在Gowalla数据集上，对于Recall@20指标，CGL较SGNN-HN提高24.64％，对于MRR@20指标，CGL较SGNN-HN提高27.95％。

由此可见，本实施例的推荐方法取得了更优的推荐效果，一方面，综合考虑会话间的关系以获得监督信号从而增强物品嵌入向量的学习，能够提高推荐的准确性；另一方面，采用基于目标的标签混淆方法，能够有效解决过拟合问题。另外，在Gowalla数据集上比在Retailrocket数据集上的推荐效果更为明显，表明通过解决缺乏监督信号和过拟合的问题，本实施例的方法在大规模数据集上的效果更加明显。

表3消融实验对比结果

为了验证自监督学习部分和标签混淆方法的有效性，进行消融实验。其中，CGL_w/o[SSL]为没有自监督学习部分的方法变体，CGL_w/o[LC]为没有标签混淆的方法变体，CGL_LS为将CGL中的标签混淆替换为标签平滑的方法变体。如表3所示，与CGL_w/o[SSL]和CGL_w/o[LC]相比，CGL的性能最优，表明自监督学习部分和标签混淆方法能够提高推荐的精准度。通过消融实验，移除标签混淆相较于移除自监督学习部分在两个数据集上都将降低推荐模型的性能，表明过拟合是在不同情境下都常见并且严重的问题，限制了推荐的准确性。

对比CGL和CGL_w/o[SSL]，移除自监督学习部分后，在Retailrocket数据集上，Recall@20和MRR@20指标上的表现分别下降了6.48％和1.63％；在Gowalla数据集上，两项指标分别下降了9.56％和9.02％，较Retailrocket数据集下降的要多，可能是由于Gowalla数据集与Retailrocket数据集相比，每个物品的交互数变少，结合表1所示，相较于Retailrocket数据集，Gowalla数据集中的自监督信号更少。因而，利用自监督学习部分的自监督信号能够得到准确地物品嵌入向量，获得精确的推荐。

不使用标签混淆方法时，与Retailrocket数据集相比，Gowalla数据集上两项指标的下降幅度较大。可能是因为两个数据集中候选物品的数目不同。如表1中所示，Gowalla数据集中的物品数量比Retailrocket数据集中的物品数量多，更容易导致过拟合，因为交叉熵中的独热编码分布容易引起过度自信，因此过拟合问题在Gowalla数据集中也相应地比Retailrocket数据集中更严重。本实施例的推荐方法，通过使用标签混淆方法来解决过拟合问题，相较于Retailrocket数据集，Gowalla数据集上的性能提高更为明显。

对比CGL_LS和CGL_w/o[LC]，标签平滑也能够帮助提高推荐模型的性能，因为标签平滑和标签混淆方法均可以一定程度的解决严重的过拟合问题。而且，本实施例所采用的标签混淆方法比标签平滑更加有效，这是因为CGL能够根据其他物品与目标物品的相似度来产生软标签向量，而标签平滑未区分出软标签向量，因而，标签混淆方法比标签平滑更加有效，使得CGL明显地优于CGL_LS。

结合图4A、4B、4C、4D所示，对于取值不同(取自集合{8,10,12,14,16})的标签权衡参数α，大多数情况下，CGL在两个数据集上的性能均超过CGL_w/oSSL，表明自监督学习部分对解决不同程度的过拟合问题的有效性。

在Retialrocket数据集上，随着标签权衡参数α的增大，CGL与CGL_w/oSSL的性能均先增加，当α等于10时，性能达到峰值，随后呈现出持续下降的趋势。这可能是因为标签权衡参数α较小时，标签分布较少地依赖于独热编码的硬标签向量，可能因引入误差导致性能下降。当标签权衡参数α增加时，性能过度地依赖于硬标签向量，可能会导致过拟合问题。事实上，当标签权衡参数α足够大时，标签混淆方法就会变成硬标签向量。在Gowalla数据集上有同样的问题，不同的是，对于CGL_w/o[SSL]，当标签权衡参数α变化时，Recall@20性能较为稳定，可能是由于所引入的自监督信号可能会加剧过拟合问题，因此，标签混淆方法对于在推荐列表中命中目标物品上对CGL较CGL_w/o[SSL]影响更大。

结合图5A、5B、5C、5D所示，对于取值不同(取自集合{0.01,0.05,0.1,0.2,0.5})的损失权衡参数λ，CGL在两个数据集上的性能均超过CGL_w/o[LC]，表明标签混淆方法能够在引入不同量级的自监督信号的情况下提高推荐模型的性能。

在Retailrocket数据集上，随着损失权衡参数λ的增大，CGL在Recall@20和MRR@20上的性能均先增加然后呈现出降低趋势。这是由于当损失权衡参数λ较小时，引入的自监督信号不足以增强物品嵌入向量表示，当损失权衡参数λ较大时，引入过多的自监督信号可能会导致过拟合从而降低性能。因此，当损失权衡参数λ取适度的值0.1时，推荐模型达到最佳效果。

对于CGL_w/o[LC]，随着损失权衡参数λ的增加，Recall@20和MRR@20上的性能均首先波动，然后持续增加。CGL和CGL_w/o[LC]上表现出的不同趋势可能是因为通过采用标签混淆方法，CGL中的主体监督学习部分已经能够学习到准确地物品嵌入向量，不需要过多地从自监督学习部分中引入额外的自监督信号，因此，较小的损失权衡参数λ既适合于协同学习。在Gowalla数据集上，实验结果相同，当损失权衡参数λ取值为0.5时，CGL的Recall@20和MRR@20性能达到最优。

为验证GGNN模型在本实施例的方法中的有效性，将CGL中的GGNN替换为RNN，用CRNNL表示，将CGL中的GGNN替换为自注意力机制，用CSATL表示，进行对比验证本实施例的物品嵌入向量的有效性。将CGL中的动态读出函数替换为长期读出函数，用CGLw/o[d]表示，进行对比验证主体监督学习部分与自监督学习部分采用不同的聚合方法的必要性。

表4不同用户偏好的模型性能

如表4所示，相较于CRNNL、CSATL，CGL在两个数据集上的Recall@20和MRR@20指标上的效果最好，表明GGNN模型能够准确建模会话中不同物品之间的传递关系，从而生成准确的物品嵌入向量。CSTAL中的自注意力机制可以被看作是全连接的GNN，其中的每个物品从会话中所有的物品上传播信息，这样可能引起过拟合和过渡平滑的问题，降低CSTAL的性能。对比CRNNL和CSATL，在大多数情况下，CRNNL的性能低于CSATL，可能是由于会话中用户的行为模式比时序顺序要复杂。另外，对于在自监督学习部分中的用户偏好建模，引入时序信息是不合适的，因为两个会话的相似度是整体上的，与RNN所建模的兴趣变化没有特定的关系。

对于CGL和CGLw/o[d]，将用户的动态偏好替换为长期偏好时，两个指标上均明显地下降，在Retailrocket数据集上，Recall@20和MRR@20指标上的影响相似，分别降低17.15％和15.47％，在Gowalla数据集上，分别降低0.16％和7.82％，表明在签到场景下，通过强调最近交互来建模用户的动态兴趣能够更加有效地将目标物品推荐到更靠前的位置。

针对不同长度的会话，验证本实施例的推荐方法的推荐效果。将包括不多于4个物品的会话看作短会话，多于4个物品的会话看作长会话，在表1所示样本数据中，在Retailrocket数据集上，短会话和长会话的比例分别为83.90％和16.10％，在Gowalla数据集上，短会话和长会话的比例分别为91.58％和8.42％。

如图6A、6B、6C、6D所示，对于不同长度的会话，CGL的性能良好，从短会话增加到长会话，其他模型在Retailrocket数据集上的性能均有所下降，其他模型在Gowalla数据集上性能均有所提升，这是因为，在电商平台中，用户的意图是多种多样的，在签到场景下，用户可能关注于相似的地点，因此，在Retailrocket数据集上，相对较多的物品可能误导模型识别用户的当前偏好，而在Gowalla数据集上，更多的签到数据能够更准确的确定用户偏好。

在Retailrocket数据集上，SR-GNN在短会话上的两个指标性能良好，在长会话上的两个指标性能不佳，表明信息传播中探索长距离物品对于获得具有较多交互的用户偏好很重要。另外，对于长会话和短会话，MRR@20指标下降更为明显，表明对于长会话，将目标物品推荐至推荐列表的前列难度较大。

在Gowalla数据集上，基于GNN的方法能够在短会话上的性能明显优于NARM和STAMP，SR-GNN、GCE-GNN的性能与NARM、STAMP的性能表现在长会话上相近。这可能是由于随着会话长度的增加，会话中的传递关系也开始变得复杂，GNN也不能准确地建模物品间的关系。然而，CGL仍然能够展现出比其他现有模型更好的性能，表明通过引入自监督信号可有效防止过拟合问题，能够准确地学习到物品嵌入向量。

需要说明的是，本说明书一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

如图7所示，本说明书实施例还提供一种基于会话的推荐装置，包括：

构造模块，用于根据待预测的会话，构造有向会话图；其中，会话包括用户与系统交互的至少一个物品；

物品表示模块，用于将有向会话图输入门控图神经网络，由门控图神经网络输出物品嵌入向量；

偏好确定模块，用于根据用户的当前偏好和第一长期偏好，确定用户的动态偏好；其中，第一长期偏好根据物品嵌入向量和物品的重要性分数确定；

预测模块，用于根据动态偏好和物品嵌入向量，确定各物品的预测分数；

推荐模块，用于根据各物品的预测分数，输出推荐物品。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图8示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本说明书一个或多个实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本说明书一个或多个实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.基于会话的推荐方法，利用预先训练的推荐模型进行物品推荐，其特征在于，方法包括：

根据各物品的预测分数，输出推荐物品。

2.根据权利要求1所述的方法，其特征在于，确定各物品的预测分数之后，还包括：

计算物品的标签分布；

根据所述预测分数和所述标签分布，确定第一损失函数；

根据所述第一损失函数，优化所述推荐模型。

3.根据权利要求2所述的方法，其特征在于，所述计算物品的标签分布，包括：

根据所述软标签向量和硬标签向量，确定所述标签分布。

4.根据权利要求1所述的方法，其特征在于，还包括：

计算所述会话与其他会话的相似度；

确定相似度最大的前M个邻居会话及剩余的非邻居会话；

5.根据权利要求4所述的方法，其特征在于，所述第一长期偏好由动态读出函数确定，所述第二长期偏好由长期读出函数确定。

6.根据权利要求4所述的方法，其特征在于，所述第一损失函数为KL散度函数，所述第二损失函数为JS散度函数。

7.根据权利要求1所述的方法，其特征在于，所述物品的重要性分数由注意力机制产生。

8.基于会话的推荐装置，利用预先训练的推荐模型进行物品推荐，其特征在于，包括：

推荐模块，用于根据各物品的预测分数，输出推荐物品。

9.根据权利要求8所述的装置，其特征在于，还包括：

第一计算模块，用于计算物品的标签分布；

10.根据权利要求8所述的装置，其特征在于，还包括：

第二计算模块，用于计算所述会话与其他会话的相似度；