CN116468507A

CN116468507A - 目标推荐方法及装置

Info

Publication number: CN116468507A
Application number: CN202310118720.7A
Authority: CN
Inventors: 暴宇健; 董辉
Original assignee: Beijing Longzhi Digital Technology Service Co Ltd
Current assignee: Beijing Longzhi Digital Technology Service Co Ltd
Priority date: 2023-02-06
Filing date: 2023-02-06
Publication date: 2023-07-21

Abstract

本公开涉及计算机技术领域，提供了一种目标推荐方法及装置。该方法包括：获取当前用户行为序列的当前用户行为序列图，所述当前用户行为序列为描述当前用户对商品进行访问的时序的序列；将所述当前用户行为序列图输入到预置的图向量提取模型，得到所述当前用户行为序列图的各节点表征向量；将所述各节点表征向量输入预置的目标推荐模型，得到所述目标推荐模型输出的目标商品，其中，所述目标推荐模型采用判断用户行为序列图是否相近的对比学习损失函数和判断用户是否选择商品的二分类损失函数训练得到。

Description

目标推荐方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种目标推荐方法及装置。

背景技术

在线上电子商务等业务场景中，如何根据用户的个性化特征为用户推荐合适的商品或服务一直是一个重要课题。

在某些相对低频场景下，如线上广告，线上租房，买房等场景下，由于点击商品或者服务并购买的正样本数据的稀疏性，当前主流的推荐模型不能很好的捕捉用户和商品的关系，很难对用户接下来的行为进行很精准的预测，会出现过拟合，泛化能力弱等问题，在提高用户转化率上有一定的局限性。

如何提高稀疏场景下序列推荐模型的泛化能力是当前亟需解决的技术问题。

发明内容

有鉴于此，本公开实施例提供了一种目标推荐方法、装置、电子设备及计算机可读存储介质，以解决现有技术中稀疏场景下序列推荐模型泛化能力较差的问题。

本公开实施例的第一方面，提供了一种目标推荐方法，该方法包括：获取当前用户行为序列的当前用户行为序列图，所述当前用户行为序列为描述当前用户对商品进行访问的时序的序列；将所述当前用户行为序列图输入到预置的图向量提取模型，得到所述当前用户行为序列图的各节点表征向量；将所述各节点表征向量输入预置的目标推荐模型，得到所述目标推荐模型输出的目标商品，其中，所述目标推荐模型采用判断用户行为序列图是否相近的对比学习损失函数和判断用户是否选择商品的二分类损失函数训练得到。

本公开实施例的第二方面，提供了一种目标推荐装置，该装置包括：序列获取模块，用于获取当前用户行为序列的当前用户行为序列图，所述当前用户行为序列为描述当前用户对商品进行访问的时序的序列；序列图获取模块，用于将所述当前用户行为序列图输入到预置的图向量提取模型，得到所述当前用户行为序列图的各节点表征向量；目标推荐模块，用于将所述各节点表征向量输入预置的目标推荐模型，得到所述目标推荐模型输出的目标商品，其中，所述目标推荐模型采用判断用户行为序列图是否相近的对比学习损失函数和判断用户是否选择商品的二分类损失函数训练得到。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：通过构建用户行为序列图的图结构，并在目标推荐模型的训练过程中引入了对比学习的方法，进一步增强图结构表征能力，提升了整个目标推荐模型的泛化能力，从而在用户行为稀疏场景中能够跨用户挖掘不同图之间的潜在关联，提升了目标推荐模型在垂直场景中的推荐泛化性能。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是现有技术中的一种的人工神经网络框架的示意图；

图2是本公开实施例提供的一种目标推荐方法的流程示意图；

图3是本公开实施例提供的一种序列转化的示意图；

图4是本公开实施例提供的一种目标推荐模型的训练过程的流程示意图；

图5是本公开实施例提供的一种目标推荐网络框架的示意图；

图6是本公开实施例提供的一种目标推荐装置的结构示意图；

图7是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

在线上电子商务场景中，用户常常在同一个电子商务网站或移动端应用程序中浏览多个商品或服务，其行为可能有在某商品页面停留，点击商品查看详情等操作，这些操作可以称为与商品的交互行为。在一段时间内同一个用户在某电子商务网站或应用程序中存在交互行为的商品产生的交互行为的特征，按照时间先后顺序排列后可以构成一个关于该用户的交互商品序列。该用户在与最后一个商品交互后的一段时间内是否对交互商品产生了订购或预约等进一步的行为，可以称为是否转化。

在训练序列推荐模型时，需要针对用户的交互商品的序列进行转化行为收集，获得用户最终是否在某些商品上进行转化的数据。序列推荐模型的训练目标就是在以用户的交互商品序列为输入的情况下，进行用户会在哪些商品上产生实际的转化行为的判断。这类序列推荐模型可在使用过程中将高转化可能性的商品优先推送给客户，从而提高用户的转化率。

相关技术中，在线上电子商务推荐场景中，主要采用基于用户行为作为反馈信息，根据用户的喜好进行序列推荐模型的建模，然后根据用户喜好与已有商品库内的商品或服务的匹配关系排序，推荐最符合用户喜好的商品或服务。该类序列推荐模型的整体结构都是输入给模型一批用户特征和商品特征，对某一个特定商品进行判别用户是否会点击以及是否购买该商品。该判别结果作为模型的输出结果，可以与真实的用户点击和购买结果相结合进行损失函数计算，从而指导序列推荐模型进行优化。比较有代表性的序列推荐模型有DeepFM(Deep Factorization Machine，深度因式分解机)和DIN(Deep InterestNetwork，深度兴趣网络)等。

如图1所示的是一种人工神经网络模型的架构图。该人工神经网络模型可以为深度兴趣网络模型，该模型输入主要分为三个部分：用户性别、年龄等用户内部特征U0、U1、U2、U3、U4、U5，用户过去对商品产生点击或者购买行为等用户商品交互特征I0、I1、I2、I3、I4、I5，某待预测的商品的商品内部特征P0、P1、P2、P3、P4、P5。

如图1所示，将以上三个部分输入到人工神经网络模型中后，该人工神经网络模型会重点建模历史行为序列与目标商品之间的关系，通过过去的历史判断用户对当前该商品的喜好程度，最后输出一个单独的概率判断用户点击或者购买的倾向。

该深度兴趣网络模型的共同点是使用已知特征对某用户以及单一的某个特定商品进行预测。此类基于单个用户和商品在被点击或者购买商品产生的正样本，相对于基于单个用户和商品在未被点击或者购买商品对应的负样本的比例很小时，会对模型训练造成较大不良影响，从而导致模型精度下降和正样本的召回率下降。这种情况下，该深度兴趣网络模型需要对正样本进行过采样或对负样本进行欠采样等操作，从而导致模型训练过程相对复杂困难。

另外，该深度兴趣网络模型对序列的处理比较简单，没有充分考虑到序列内部存在的时序关系，以及挖掘不同用户不同会话序列的对比情况，容易产生过拟合现象，线上泛化能力较差。

为解决现有技术中的以上问题，本公开实施例提供一种目标推荐方案。

下面将结合附图详细说明根据本公开实施例的目标推荐方法和装置。

图2是本公开实施例提供的一种目标推荐方法的流程示意图。本公开实施例提供的方法可以由任意具备计算机处理能力的电子设备执行，例如终端或服务器。如图2所示，该目标推荐方法包括：

步骤S201，获取当前用户行为序列的当前用户行为序列图，所述当前用户行为序列为描述当前用户对商品进行访问的时序的序列。

具体地，充分挖掘用户时序序列之间的关系，并将序列数据转化为序列图，可以更灵活地进行项目选择的原始转化。如图3所示，用户按照时间次序依次访问了5个项目，即项目i1、项目i2、项目i3、项目i2、项目i4，形成粗箭头左侧的一维的纯序列，将该一维的纯序列转化为一个粗箭头右侧的有向图。利用该有向图，可以通过环的结构捕获隐含在顺序行为中的复杂用户偏好。形成该有向图之后，可以使用图向量提取模型进行图中节点的特征获取。

步骤S202，将所述当前用户行为序列图输入到预置的图向量提取模型，得到所述当前用户行为序列图的各节点表征向量。

具体地，所述图向量提取模型可以为图嵌入模型或者GNN(Graph NeuralNetwork，图神经网络)模型。其中，图嵌入模型可以采用传统的图嵌入(Graph Embedding)方法，例如深度游走(DeepWalk)或者半监督学习算法node2vec，且并不局限于此。图神经网络模型可以为GCN(Graph Convolution Networks，图卷积神经网络)模型或者GAT(GraphAttention Networks，图注意力神经网络)模型，且并不局限于此。

步骤S203，将所述各节点表征向量输入预置的目标推荐模型，得到所述目标推荐模型输出的目标商品，其中，所述目标推荐模型采用判断用户行为序列图是否相近的对比学习损失函数和判断用户是否选择商品的二分类损失函数训练得到。

在本公开时实施例中，目标推荐模型即为一种序列推荐模型，对比学习损失函数可以为以下任一种：NCE(Noise Contrastive Estimation，噪声对比估计)损失函数、BPR(贝叶斯个性化排序，Bayesian Personalized Ranking)损失函数和三元组(triplet)损失函数。在二分类预测中，通常可以使用Sigmoid函数将模型的输出压缩到(0，1)区间内，在本公开实施例中，二分类损失函数可以为二分类交叉熵损失函数。

相关技术中，在应用序列推荐模型进行商品推荐时，可以将用户一个时间段内的交互商品输入至序列推荐模型，使得序列推荐模型对某一个商品进行一次二分类预测，预测用户是否会在该商品上产生转化行为。但是该序列推荐模型在稀疏场景中泛化能力较差。

根据本公开实施例的技术方案，在目标推荐模型的训练过程中考虑使用图结构挖掘序列中蕴含的潜在关联，同时考虑了不同图之间的关系。此外，在垂直领域下的推荐场景，由于正样本比较稀疏，导致生成的有效序列图不多，进而可能导致后续图向量提取模型对序列图的学习不够充分。

为了解决这个问题，本公开实施例的技术方案使用对比学习增强序列图的表征能力。通过巧妙地利用了对比学习的技巧，对图的表征学习进行了很好的约束和优化指导。本公开实施例的目标推荐模型的训练方法能够提升模型训练精度，并且在用户行为稀疏场景中能够跨用户挖掘不同图之间的潜在关联，将寻求点对点的相似关系，提升到图与图之间的关联过程，极大的提升了目标推荐模型在垂直场景中的推荐泛化性能。

同时，该训练方法可以在一定程度上提升目标推荐模型对正负样本的提取能力，从而可以在训练样本中对序列作不同顺序不同粒度的调整，以增加训练样本的丰富度，新产生的序列也能在一定程度上起到正则化效果，让优化过程的数值稳定性提升。

此外，由于图结构本身的特性，在目标推荐模型的训练过程中可以通过对图结构的微调，如随机丢弃一些节点，随机断开某些节点之间的连接，增强图的表征能力，从而增强图推荐模型的泛化性能。

如图2所示的是本公开实施例提供的目标推荐模型的应用推理过程，在目标推荐模型进行应用之前，需要确定初始推荐模型的框架，并对该初始推荐模型进行训练。

具体地，初始推荐模型的框架可以选用递归神经网络框架、卷积神经网络框架或者自注意力神经网络框架等任何一种可以进行序列推荐的人工神经网络结构，即目标推荐模型可以为RNN(Recurrent Neural Network，递归神经网络)模型或者CNN(ConvolutionalNeural Network，卷积神经网络)模型，例如，递归神经网络模型可以为CNN框架中的LSTM(Long Short-Term Memory，长短期记忆网络)模型。

如图4所示，本公开实施例提供的目标推荐模型的训练过程包括以下步骤：

步骤S401，获取第一历史用户行为序列图对和第二历史用户行为序列图对，其中，所述第一历史用户行为序列图对中的序列图为商品相似但购买行为不同的序列的历史用户行为序列图，所述第二历史用户行为序列图对中的序列图为商品不相似但购买行为相同的所述历史用户行为序列图，其中，所述历史用户行为序列图是历史用户行为序列集中的历史用户行为序列的序列图。

具体地，历史用户行为序列集包括若干历史用户行为序列。这些历史用户行为序列为历史产生的用户行为序列，每个用户行为序列描述在一段时间内同一个用户对在某电子商务网站或应用程序中的商品进行的存在的交互操作，将这些交互操作产生的特征数据按照时间先后顺序排列后就可以构成一个关于该用户的用户行为序列。第一历史用户行为序列图对和第二历史用户行为序列图对是对这些历史用户行为序列的进行配对后形成的。

步骤S402，根据所述第一历史用户行为序列图对中的序列图的图表征向量间的第一平均距离和所述第二历史用户行为序列图对中的序列图的图表征向量间的第二平均距离获取对比学习损失函数值。

具体地，对第一历史用户行为序列图对中的序列图的图表征向量分别进行采样，对每一次采样后得到的两个序列图的图表征向量进行距离衡量，并进一步对全部采样产生的距离值求取平均距离，即可以得到第一平均距离。对第二历史用户行为序列图对中的序列图的图表征向量分别进行采样，对每一次采样后得到的两个序列图的图表征向量进行距离衡量，并进一步对全部采样产生的距离值求取平均距离，即可以得到第二平均距离。

步骤S403，根据所述历史用户行为序列对应的训练标签和根据初始推荐模型和所述历史用户行为序列对应的历史用户行为序列图的各节点表征向量进行预测得到的用户交互结果获取二分类损失函数值。

具体地，历史用户行为序列集是一个训练数据集，其包括若干历史用户行为序列以及对应的训练标签。该训练标签表征对应的历史用户行为序列的用户交互结果，即是否选择购买某种商品。采用该训练标签和预测的用户交互结果共同参与计算二分类损失函数，可以得到二分类损失函数值。

步骤S404，根据所述对比学习损失函数值和所述二分类损失函数值调整所述初始推荐模型，直到所述初始推荐模型收敛，得到所述目标推荐模型。

如图5所示，某电子商务网站的用户A在一个会话内浏览了如下5个商品(g，a，h，b，f)，用户在浏览了前4个商品后，对f进行了购买，将这些商品和这个用户的特征按照交互时间顺序排列成一个序列，进而得到序列图的图表征向量V_Ga，可以认为前4个商品构成的序列对最后一个商品的购买转化产生了很大的影响。该电子商务网站的用户B，在一个会话内浏览了5个商品(a，b，c，d，e)，并且对最后的f发生了购买行为，将这些商品和这个用户的特征按照交互时间顺序排列成一个时间序列，进而得到序列图的图表征向量V_Gb，可以认为这些商品构成的序列对最后一个商品的购买转化产生了很大的影响。该电子商务网站的用户C，在一个会话内浏览了5个商品(a，b，c，d，f)，并且未发生购买行为，将这些商品和这个用户的特征按照交互时间顺序排列成一个时间序列，进而得到序列图的图表征向量V_Gc，可以认为这些商品构成的序列对最后一个商品为产生转化未产生影响。可见，针对两个不同的用户A和B，两段不同的序列图导致了相同的结果，可以将这种序列相似度不高，但是导致相同结果的序列的序列图组成一个第一历史用户行为序列图对。针对两个不同的用户B和C，两段不同的序列图导致了不同的结果，可以将这种序列相似度较高，但是导致不同结果的序列的序列图组成一个第二历史用户行为序列图对。

根据本公开实施例的技术方案，在对以上图的表征利用深度对比学习进行增强后，可以使得相似结果的用户意图相近的序列在向量表征空间中拉近，不同用户意图的序列推远。

在本公开一种实施例中，如图5所示，图向量提取模型为图人工神经网络模型。该图人工神经网络模型层和层之间的特征计算方式如以下公式(1)所示：

其中，I为单位矩阵，A为这个图结构的邻接矩阵，/>是/>的度矩阵(DegreeMatrix)，σ()为激活函数，l为层的序号，H是每一层的特征，W为线性变换矩阵，对于输入层H就是输入的节点特征，进行节点和整个图的向量特征提取，然后输入一个初始推荐模型进行学习预测用户的下一次点击。如图5所示，我们通过对用户的历史行为序列图进行表征的各节点表征向量V_g、V_a、V_h、V_b、V_f，来预测用户对目标商品的交互结果为1或者0，代表该目标商品是否最终被用户购买或预定，也即用户在该商品上是否发生转化行为。

同时，构建代表相似意图的历史用户行为序列图对，联合学习不同的对比信号，增强图结构的节点的表达能力，从而增强目标推荐模型的泛化能力。

通过对比学习损失函数的约束，可以找到不同结构的序列图之间的潜在关联。通过两种损失函数的共同作用，模型参数的更新会更高效，能够显著提升模型的预测精度。

在本公开实施例中，用户行为序列的特征包括用户内部特征、商品内部特征和用户商品交互特征。其中，用户内部特征包括会话中的只和用户相关的内部特征，如用户使用手机型号，用户所在地等。商品内部特征包括会话中的只和商品相关的内部特征，如商品的价格，单日销售量等。用户商品交互特征包括会话中的用户和商品交互产生的特征，如用户在商品上的点击次数，商品是否被用户收藏等。

在如图5所示的目标推荐网络框架中，序列图的图表征向量V_Ga、V_Gb和V_Gc这三者可以构成一个为M×N维度的向量，其中，M为所有的特征的个数，例如，若历史用户内部特征的个数为5、历史商品内部特征的个数为2、历史用户商品交互特征的个数为3，则M为5+2+3＝10，N为序列图的图表征向量序列长度，对于图表征向量V_Ga来说其为6。根据这些序列的低维表征向量间的距离，即可以得到对比学习损失函数值，以进一步根据该对比学习损失函数值进行目标推荐模型训练。第一历史用户行为序列图对中的序列之间的低维表征向量的向量差的距离在该对比学习损失函数的调整之下，因为距离值越小越好，从而向着距离值变小的方向变化。第二历史用户行为序列图对中的序列之间的低维表征向量的向量差的距离在该对比学习损失函数的调整之下，因为距离值越大越好，从而向着距离值变大的方向变化。

在步骤S402中，对所述第一历史用户行为序列图对中的序列图的图表征向量进行采样，计算采样数据向量差的距离数据并求取平均值，得到第一平均距离；对所述第二历史用户行为序列图对中的序列图的图表征向量进行采样，计算采样数据向量差的距离数据并求取平均值，得到第二平均距离；根据所述第二平均距离和所述第一平均距离的差值确定所述对比学习损失函数值。

第一历史用户行为序列图对对应的序列对可以称为相同购买行为序列，因为第一历史用户行为序列图对中的序列之间虽然相似度不高，这两个序列会导致相同的购买行为。第二历史用户行为序列图对对应的序列对可以称为相似但购买行为不同的序列，因为第二历史用户行为序列中的序列的商品类似，但最终购买行为不同。我们分别对这两种序列对采样M次和N次，分别计算其向量差的欧几里得范数作为距离并分别取平均值并相减，就可以计算得出作为序列图对比损失的对比学习损失函数值。

具体地，可以根据以下对比学习损失函数公式即公式(2)获取对比学习损失函数值：

其中，contrast_loss为对比学习损失函数，F(i)和F(j)为采样数据，M和N为分别为对所述第一历史用户行为序列图对中的序列图的图表征向量和所述第二历史用户行为序列图对中的序列图的图表征向量进行采样的采样次数。

在步骤S402中，在计算采样数据向量差的距离数据时，可以采用以下任一种距离衡量方式计算采样数据向量差的距离数据：欧几里得范数、曼哈顿距离和向量夹角的余弦值。其中，如公式(2)所示的方案采用的即为欧几里得范数的距离衡量方式。其中，欧几里得范数又称为L2范数，可以定义为向量所有元素的平方和的开平方。

在本公开实施例中，目标推荐模型的损失函数主要由对比学习损失函数和二分类损失函数两部分组成，其中，判断交互序列语义是否相近的对比学习损失函数contrast_loss可以为第一损失函数，判断用户是否点击商品的二分类损失函数可以为第二损失函数ctr_cross_entropy。

将这两个损失函数相结合，根据以下公式(3)可以得到训练该目标推荐模型的总损失函数total_loss：

total_loss＝α·contrast_loss+(1-α)·ctr_cross_entropy (3)

其中，第二损失函数ctr_cross_entropy可以为二分类交叉熵损失函数，其可以对一个特征序列是否产生购买行为进行二分类预测计算。α为一个经验性超参，可取在0.1～0.4之间，需要根据不同任务和数据集调整。

本公开实施例提出了一种基于图对比学习的个性化推荐模型训练方法，通过该模型训练方法得到的目标推荐模型可以在基于用户行为的个性化推荐场景中，进行准确度较高的目标商品的推荐。

根据本公开实施例的目标推荐方法，通过构建用户行为序列图的图结构，并在目标推荐模型的训练过程中引入了对比学习的方法，进一步增强图结构表征能力，提升了整个目标推荐模型的泛化能力，从而在用户行为稀疏场景中能够跨用户挖掘不同图之间的潜在关联，提升了目标推荐模型在垂直场景中的推荐泛化性能。

下述为本公开装置实施例，可以用于执行本公开方法实施例。下文描述的目标推荐装置与上文描述的目标推荐方法可相互对应参照。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图6是本公开实施例提供的一种目标推荐装置的示意图。如图6所示，该目标推荐装置包括：

序列获取模块601，用于获取当前用户行为序列的当前用户行为序列图，所述当前用户行为序列为描述当前用户对商品进行访问的时序的序列。

序列图获取模块602，用于将所述当前用户行为序列图输入到预置的图向量提取模型，得到所述当前用户行为序列图的各节点表征向量。

目标推荐模块603，用于将所述各节点表征向量输入预置的目标推荐模型，得到所述目标推荐模型输出的目标商品，其中，所述目标推荐模型采用判断用户行为序列图是否相近的对比学习损失函数和判断用户是否选择商品的二分类损失函数训练得到。

在本公开实施例，该目标推荐装置还可以包括训练模块，该训练模块包括：

序列图对获取子模块，用于获取第一历史用户行为序列图对和第二历史用户行为序列图对，其中，所述第一历史用户行为序列图对中的序列图为商品相似但购买行为不同的序列的历史用户行为序列图，所述第二历史用户行为序列图对中的序列图为商品不相似但购买行为相同的所述历史用户行为序列图，其中，所述历史用户行为序列图是历史用户行为序列集中的历史用户行为序列的序列图。

对比损失获取子模块，用于根据所述第一历史用户行为序列图对中的序列图的图表征向量间的第一平均距离和所述第二历史用户行为序列图对中的序列图的图表征向量间的第二平均距离获取对比学习损失函数值。

二分类损失获取子模块，用于根据所述历史用户行为序列对应的训练标签和根据初始推荐模型和所述历史用户行为序列对应的历史用户行为序列图的各节点表征向量进行预测得到的用户交互结果获取二分类损失函数值。

目标推荐子模块，用于根据所述对比学习损失函数值和所述二分类损失函数值调整所述初始推荐模型，直到所述初始推荐模型收敛，得到所述目标推荐模型。

其中，对比损失获取子模块，还用于对所述第一历史用户行为序列图对中的序列图的图表征向量进行采样，计算采样数据向量差的距离数据并求取平均值，得到第一平均距离；对所述第二历史用户行为序列图对中的序列图的图表征向量进行采样，计算采样数据向量差的距离数据并求取平均值，得到第二平均距离；根据所述第二平均距离和所述第一平均距离的差值确定所述对比学习损失函数值。

由于本公开的示例实施例的目标推荐装置的各个功能模块与上述目标推荐方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的目标推荐方法的实施例。

根据本公开实施例的目标推荐装置，通过构建用户行为序列图的图结构，并在目标推荐模型的训练过程中引入了对比学习的方法，进一步增强图结构表征能力，提升了整个目标推荐模型的泛化能力，从而在用户行为稀疏场景中能够跨用户挖掘不同图之间的潜在关联，提升了目标推荐模型在垂直场景中的推荐泛化性能。

图7是本公开实施例提供的电子设备7的示意图。如图7所示，该实施例的电子设备7包括：处理器701、存储器702以及存储在该存储器702中并且可在处理器701上运行的计算机程序703。处理器701执行计算机程序703时实现上述各个方法实施例中的步骤。或者，处理器701执行计算机程序703时实现上述各装置实施例中各模块的功能。

电子设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备7可以包括但不仅限于处理器701和存储器702。本领域技术人员可以理解，图7仅仅是电子设备7的示例，并不构成对电子设备7的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器701可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器702可以是电子设备7的内部存储单元，例如，电子设备7的硬盘或内存。存储器702也可以是电子设备7的外部存储设备，例如，电子设备7上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。存储器702还可以既包括电子设备7的内部存储单元也包括外部存储设备。存储器702用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种目标推荐方法，其特征在于，所述方法包括：

获取当前用户行为序列的当前用户行为序列图，所述当前用户行为序列为描述当前用户对商品进行访问的时序的序列；

将所述当前用户行为序列图输入到预置的图向量提取模型，得到所述当前用户行为序列图的各节点表征向量；

将所述各节点表征向量输入预置的目标推荐模型，得到所述目标推荐模型输出的目标商品，其中，所述目标推荐模型采用判断用户行为序列图是否相近的对比学习损失函数和判断用户是否选择商品的二分类损失函数训练得到。

2.根据权利要求1所述的方法，其特征在于，所述目标推荐模型的训练方法包括：

获取第一历史用户行为序列图对和第二历史用户行为序列图对，其中，所述第一历史用户行为序列图对中的序列图为商品相似但购买行为不同的序列的历史用户行为序列图，所述第二历史用户行为序列图对中的序列图为商品不相似但购买行为相同的所述历史用户行为序列图，其中，所述历史用户行为序列图是历史用户行为序列集中的历史用户行为序列的序列图；

根据所述第一历史用户行为序列图对中的序列图的图表征向量间的第一平均距离和所述第二历史用户行为序列图对中的序列图的图表征向量间的第二平均距离获取对比学习损失函数值；

根据所述历史用户行为序列对应的训练标签和根据初始推荐模型和所述历史用户行为序列对应的历史用户行为序列图的各节点表征向量进行预测得到的用户交互结果获取二分类损失函数值；

根据所述对比学习损失函数值和所述二分类损失函数值调整所述初始推荐模型，直到所述初始推荐模型收敛，得到所述目标推荐模型。

3.根据权利要求2所述的方法，其特征在于，根据所述第一历史用户行为序列图对中的序列图的图表征向量间的第一平均距离和所述第二历史用户行为序列图对中的序列图的图表征向量间的第二平均距离获取对比学习损失函数值，包括：

对所述第一历史用户行为序列图对中的序列图的图表征向量进行采样，计算采样数据向量差的距离数据并求取平均值，得到第一平均距离；

对所述第二历史用户行为序列图对中的序列图的图表征向量进行采样，计算采样数据向量差的距离数据并求取平均值，得到第二平均距离；

根据所述第二平均距离和所述第一平均距离的差值确定所述对比学习损失函数值。

4.根据权利要求3所述的方法，其特征在于，获取对比学习损失函数值，包括：根据以下对比学习损失函数公式获取所述对比学习损失函数值：

其中，contrast_loss为对比学习损失函数值，F(i)和F(j)为采样数据，M和N为分别为对所述第一历史用户行为序列图对中的序列图的图表征向量和所述第二历史用户行为序列图对中的序列图的图表征向量进行采样的采样次数。

5.根据权利要求3所述的方法，其特征在于，所述计算采样数据向量差的距离数据，包括：采用以下任一种距离衡量方式计算所述采样数据向量差的距离数据：

欧几里得范数、曼哈顿距离和向量夹角的余弦值。

6.根据权利要求1所述的方法，其特征在于，所述目标推荐模型包括递归神经网络模型或者卷积神经网络模型；和/或，所述图向量提取模型包括图嵌入模型或者图神经网络模型。

7.根据权利要求1所述的方法，其特征在于，所述对比学习损失函数包括以下任一种：噪声对比估计损失函数、贝叶斯个性化排序损失函数和三元组损失函数。

8.一种目标推荐装置，其特征在于，所述装置包括：

序列获取模块，用于获取当前用户行为序列的当前用户行为序列图，所述当前用户行为序列为描述当前用户对商品进行访问的时序的序列；

序列图获取模块，用于将所述当前用户行为序列图输入到预置的图向量提取模型，得到所述当前用户行为序列图的各节点表征向量；

目标推荐模块，用于将所述各节点表征向量输入预置的目标推荐模型，得到所述目标推荐模型输出的目标商品，其中，所述目标推荐模型采用判断用户行为序列图是否相近的对比学习损失函数和判断用户是否选择商品的二分类损失函数训练得到。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。