CN110968794A

CN110968794A - 一种基于二元信息网络的多视角注意力推荐算法

Info

Publication number: CN110968794A
Application number: CN201911114426.9A
Authority: CN
Inventors: 印鉴; 李学思; 刘威; 余建兴; 朱怀杰; 邱爽
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-11-14
Filing date: 2019-11-14
Publication date: 2020-04-07
Anticipated expiration: 2039-11-14
Also published as: CN110968794B

Abstract

本发明提供一种基于二元信息网络的多视角注意力推荐算法，该算法从二元信息网络中生成高质量的、从目标用户到目标商品间的多条路径；对生成路径采用CNN和max‑pooling操作，提取对应的路径向量；将生成的多种路径向量通过attention机制进行加权合并，得到一个可以对应目标用户和目标商品对的路径合并向量；同样通过attention操作，利用S3生成的对应路径合并向量更新用户向量和商品向量；将生成的路径合并向量、用户向量和商品向量进行拼接，传输到多层感知机进行训练，即可获得最后的打分预测。

Description

一种基于二元信息网络的多视角注意力推荐算法

技术领域

本发明涉及图神经网络领域，更具体地，涉及一种基于二元信息网络的多视角注意力推荐算法。

背景技术

近年来，随着互联网经济的蓬勃发展，推荐算法被应用到人们生活中的方方面面，如何高效地实现面向用户的个性化推荐成了很多企业的一个重要研究方向。在常用的推荐算法中，有一种方法被应用到大多数场景中，那就是协同过滤算法，它又可以分为基于内容的协同过滤(例如基于用户或者商品的KNN算法)和基于模拟交互行为的协同过滤(例如基于矩阵分解的协同过滤)，其中后者效果尤为明显，它在得到大量的关注的同时，也被发现存在一个很大的问题，即如何更好的模拟用户与商品的交互信息，例如矩阵分解算法采用矩阵点乘方式进行模拟，该方法在模拟非线性关系时表现较差。而随着神经网络的兴起，多层感知机被应用到协同过滤算法中，其中就诞生了基于神经网络的矩阵分解推荐算法，采用该算法后，之前提到的问题得到很大的缓解。

但是，基于这种模拟交互行为的协同过滤仍存在一个问题—没有对用户与商品交互行为进行深层次的挖掘与利用。例如，在一个只由用户与商品的交互信息组成的关系网中，在用户1和商品1之间可能存在一条连接路径为用户1→ 商品2→用户2→商品1，这条路径表示了用户1可能对商品1更感兴趣，因为和用户1购买过相同商品的用户2也购买过商品1。这样的信息即可以理解为用户与商品交互行为中所蕴含的深层次信息，它们显然是普遍存在的，而前面提到的协同过滤算法是无法考虑到这些信息的。

发明内容

本发明提供一种推荐效果较好的基于二元信息网络的多视角注意力推荐算法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于二元信息网络的多视角注意力推荐算法，包括以下步骤：

S1：从二元信息网络中生成高质量的、从目标用户到目标商品间的多条路径；

S2：对生成路径采用CNN和max-pooling操作，提取对应的路径向量；

S3：将生成的多种路径向量通过attention机制进行加权合并，得到一个可以对应目标用户和目标商品对的路径合并向量；

S4：同样通过attention操作，利用S3生成的对应路径合并向量更新用户向量和商品向量；

S5：将S3和S4生成的路径合并向量、用户向量和商品向量进行拼接，传输到多层感知机进行训练，即可获得最后的打分预测。

进一步地，所述步骤S1的具体过程是：

S11：进行数据预处理，通过用户商品交互矩阵生成用户-用户相似矩阵和商品-商品相似矩阵，在利用BPR-MF模型生成用户矩阵和商品矩阵，两个矩阵包含每个用户和商品对应的隐向量，设该向量长度为d；

S12：首先确定要生成的路径的起点与终点，即目标用户和目标商品，然后决定生成的路径蕴含的条数，一般选用3跳路径，即一条路径包含4个点，根据已有信息，可以得知3跳路径有4种可能组合：UUUI，UIUI，UUII，UIII，其中，U表示用户，I表示商品；

S13：在计算其中一种组合路径的所有候选路径的相似度之后，设定合适的阈值后，将相似度低于阈值的杂质路径过滤掉，剩余路径可根据路径相似度排序选出前5个路径出来作为该种组合下的候选路径组；

S14：重复步骤S13，得到4种组合路径下的候选路径组，每组都至多有5 条候选路径。

进一步地，步骤S13中计算每条符合条件的路径的相似度的的过程是：

1)、设路径中每条边对应的两个点n₁和n₂向量之间余弦相似度为

计算出路径中所有边的相似度后对其的平均值，设为avg_(n:)，那么边(n1,n2)的相似度sim_(n1,n2)可用如下公式求得：

2)、求边(n1,n2)的置信度cf_(n1,n2)，即计算边起点n1的出度d_n1和终点n2的入度d_n2，d_n1大，意味着该点的出度边较多，每条边的重要性较低，相反则意味着每条边重要性较大；以此类推，d_n2小，意味着每条入度边的重要性较大，即d_n1和d_n2的大小与边的置信度呈现反相关，通过试验，用如下公式来模拟该关系：

3)、将边的相似度sim乘以边的置信值cf即可得到该边的相似度，将3条边的相似度相加得到对应路径的相似度V(p)，路径相似度公式如下所示：

4)、之后选取前5个V(p)最大的路径作为对应路径组的候选路径即可。

进一步地，所述步骤S2的具体过程是：

S21：将每种组合路径下的5条候选路径分别转化为5个路径矩阵，将其中一条路径中每一个点对应的d维向量选出来，再对其进行纵向拼接成一个4*d矩阵M_pk，然后采用CNN对该矩阵进行信息提取获得对应一条路径的特征向量ρ_k；

S22：采用同样的方法即可获得同一种路径组合下的5条候选路径所对应的 5个路径向量，再采用max-pooling操作对其进行信息合并，即可获得一组路径组合所对应的路径向量；具体计算公式如下：

S23：重复S21和S23，就可获得4组不同的路径组合对应的4种不同的路径向量，称其为路径组向量。

进一步地，所述步骤S3的具体过程如下：

S31：利用神经网络训练出两个生成矩阵，用于生成对应目标用户的向量和目标商品的向量；

S32：将生成的用户向量与每一组路径组向量(UIUI,UUUI,UIII和UUII)进行点乘，将得到的4组点乘结果进行softmax操作得到每组路径组向量对应权重，再进行加权求和，即可把实现到用户影响加入到路径组向量合并过程中；

S33：类似与S32，将用户向量代替为商品向量，用相同算法就可以得到考虑到商品影响后的路径组向量合并结果；

S34：之后将S32得到的路径合并向量加上S33的路径合并向量，即可得到最终的合并向量，称其为路径组合并向量ρ_u,i，它有综合考虑用户和商品对4种路径组向量的影响；

S35：实际上就是使用注意力机制对4种不同的路径组向量(Z₁＝UIUI，Z₂＝UUUI，Z₃＝UIII，Z₄＝UUII)进行向量合并，这其中用到了目标用户向量x_u和目标商品向量y_i，具体公式如下：

进一步地，所述步骤S4的具体过程如下：

S41：将ρ_u,i和x_u拼接后通过一层全连接层，求出权重向量，用该向量和x_u进行点乘，得到更新后的用户向量x′_u；

S42：同样的，用相同方法得到更新后的商品向量y′_i；

S43：实际上就是反向利用attention机制—利用ρ_u,i来更新用户向量x_u和商品向量y_i，对于用户向量来说，具体的更新公式如下所示：

进一步地，所述步骤S5的具体过程是：

S51：将S3得到的路径组合并向量与S4得到x′_u向量和y′_i向量进行拼接，多层感知机进行训练，其运行结果即为预测结果；

即将它们通过MLP多层感知机进行训练，训练稳定后得到最终的预测结果，最终的结果公式如下：

S52：训练时采用Adam方式进行迭代，学习率为0.0001，训练迭代次数为 40次，每次将训练集分若干batch，每组batch数为256个样本，样本获取采用算法动态负采样，使得一个训练样本包含1个正样本和4个负样本；

通过分析上述提到的公式，可以确定优化目标为

然后根据似然概率公式，得到优化目标函数为如下：

这个D⁺表示正样本，D^-表示负样本，为方便计算，将上述公式取对数，得到如下需要优化的目标函数：

化简后得到算法的优化目标函数：

与现有技术相比，本发明技术方案的有益效果是：

1、本发明利用充分利用了用户-商品矩阵的隐藏信息，深入挖掘了基于用户 -商品矩阵下的三跳路径所蕴含的相关信息，并将其作用于基于模拟交互行为的协同过滤推荐算法中，从而获得更佳的推荐效果，这是以往算法都没有尝试过的；

2、本发明采用了多视角的注意力机制，把路径信息、目标用户信息和商品信息三者之间相互影响、相互作用的关系做了相应的量化操作，并将它们加入发明中，这样即使得的发明效果有了进一步的提升，也使其更具有解释性。

附图说明

图1是本发明流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，一种基于二元信息网络的多视角注意力推荐算法，包括以下步骤：

S1：从二元信息网络中生成高质量的、从目标用户到目标商品间的多条路径， S1对应图1中的“路径生成”部分；

S2：对生成路径采用CNN和max-pooling操作，提取对应的路径向量，S2 对应图1中的“路径向量生成”部分；

S4：同样通过attention操作，利用S3生成的对应路径合并向量更新用户向量和商品向量，S3和S4对应图1中“合并多种路径向量以及更新用户商品向量” 部分；

S5：将S3和S4生成的路径合并向量、用户向量和商品向量进行拼接，传输到多层感知机进行训练，即可获得最后的打分预测，S5对应图1中的“预测结果”部分。

步骤S1的具体过程是：

S1-1：进行数据预处理，通过用户商品交互矩阵生成用户-用户相似矩阵和商品-商品相似矩阵，在利用BPR-MF模型生成用户矩阵和商品矩阵，两个矩阵包含每个用户和商品对应的隐向量，设该向量长度为d；

S1-2：首先确定要生成的路径的起点与终点，即目标用户和目标商品。然后决定生成的路径蕴含的条数，一般选用3跳路径，即一条路径包含4个点。根据已有信息，可以得知3跳路径有4种可能组合：UUUI，UIUI，UUII，UIII (U表示用户，I表示商品)；

S1-3：在计算其中一种组合(例如UIUI)路径的所有候选路径的相似度之后，设定合适的阈值后，将相似度低于阈值的杂质路径过滤掉，剩余路径可根据路径相似度排序选出前5个路径出来作为该种组合下的候选路径组；

计算每条符合条件的路径的相似度的公式：

a)设路径中每条边对应的两个点n₁和n₂向量之间余弦相似度为

b)求边(n1,n2)的置信度cf_(n1,n2)，即计算边起点n1的出度d_n1和终点n2的入度d_n2。d_n1大，意味着该点的出度边较多，每条边的重要性较低，相反则意味着每条边重要性较大；以此类推，d_n2小，意味着每条入度边的重要性较大。即d_n1和 d_n2的大小与边的置信度呈现反相关，通过试验，用如下公式来模拟该关系：

c)将边的相似度sim乘以边的置信值cf即可得到该边的相似度，将3条边的相似度相加得到对应路径的相似度V(p)。路径相似度公式如下所示：

d)之后选取前5个V(p)最大的路径作为对应路径组的候选路径即可。

S1-4：重复S1-3，得到4种组合路径下的候选路径组，每组都至多有5条候选路径。

步骤S2的具体过程是：

S2-1：将每种组合路径下的5条候选路径分别转化为5个路径矩阵。将其中一条路径中每一个点对应的d维向量选出来，再对其进行纵向拼接成一个4*d矩阵M_pk，然后采用CNN对该矩阵进行信息提取获得对应一条路径的特征向量ρ_k。

采用同样的方法即可获得同一种路径组合下的5条候选路径所对应的5个路径向量，再采用max-pooling操作对其进行信息合并，即可获得一组路径组合所对应的路径向量；具体计算公式如下：

S2-3：重复S21和S23，就可获得4组不同的路径组合对应的4种不同的路径向量，称其为路径组向量。

步骤S3的具体过程如下：

S3-1：利用神经网络训练出两个生成矩阵，用于生成对应目标用户的向量和目标商品的向量；

S3-2：将生成的用户向量与每一组路径组向量(UIUI,UUUI,UIII和UUII)进行点乘，将得到的4组点乘结果进行softmax操作得到每组路径组向量对应权重，再进行加权求和，即可把实现到用户影响加入到路径组向量合并过程中；

S3-3：类似与S32，将用户向量代替为商品向量，用相同算法就可以得到考虑到商品影响后的路径组向量合并结果；

S3-4：之后将S32得到的路径合并向量加上S33的路径合并向量，即可得到最终的合并向量，称其为路径组合并向量ρ_u,i，它有综合考虑用户和商品对4种路径组向量的影响。

S35：实际上就是使用注意力机制对4种不同的路径组向量(Z₁＝UIUI， Z₂＝UUUI，Z₃＝UIII，Z₄＝UUII)进行向量合并，这其中用到了目标用户向量x_u和目标商品向量y_i，具体公式如下：

步骤S4的具体过程是：

S4-1：将ρ_u,i和x_u拼接后通过一层全连接层，求出权重向量，用该向量和x_u进行点乘，得到更新后的用户向量x′_u；

S4-2：同样的，用相同方法得到更新后的商品向量y′_i；

S4-3实际上就是反向利用attention机制——利用ρ_u,i来更新用户向量x_u和商品向量y_i，对于用户向量来说，。具体的更新公式如下所示：

步骤S5的具体过程是：

S5-1：将S3得到的路径组合并向量与S4得到x′_u向量和y′_i向量进行拼接，多层感知机进行训练，其运行结果即为预测结果；

即将它们通过MLP多层感知机进行训练，训练稳定后得到最终的预测结果。最终的结果公式如下：

S5-2：训练时采用Adam方式进行迭代，学习率为0.0001，训练迭代次数为 40次，每次将训练集分若干batch，每组batch数为256个样本。样本获取采用算法动态负采样，使得一个训练样本包含1个正样本和4个负样本；

通过分析上述提到的公式，可以确定优化目标为

然后根据似然概率公式，得到优化目标函数为如下：

化简后得到算法的优化目标函数：

本发明是一种利用二元信息网络的一种基于多视角注意力机制的个性化推荐算法，发明的核心目的是进行产品推荐。那么首先要研究和确定数据集，我们采用的是在推荐算法领域常用的两组数据集——movielens电影评分和LastFM 收听记录数据集，前者发布在https://grouplens.org/datasets/movielens/，后者发布在https://www.last.fm。表1为两组数据集的维度大小和交互信息的数量。

然后要确定推荐效果的评判标准，这里采用在该领域常用的HR和NDCG 来表示模型的推荐效果。即当我们得到所有的商品的预测评分，将它们进行排序，取前3个最大评分的商品作为推荐结果，然后计算HR@3和NDCG@3得到推荐的结果评定。

根据评判标准，我们将两组数据集都分为训练集和测试集，其中测试集为随机从正样本中抽取一个作为测试集，其余数据作为训练集。训练时所用到的训练采样样本使用动态负采样方法来获取，使得一个训练样本包含1个正样本和4个负样本。

表1、数据集的维度信息与交互信息

现有技术中，常用提取二维信息网络的路径算法基本上都是采用随机路径生成算法来生成目标路径的，该算法虽然能快速生成候选路径，但是其缺点同样也是非常明显的——即候选路径很有可能含有相当多和目标用户-商品对的关联性不大，即杂质路径。其次，常用方法基本都是直接将路径信息加入到用户、商品向量中，没有考虑到用户、商品和路径三者之间存在着相互作用的。

所以，我们就提出的新的算法，它采用的一种基于路径相关性的路径生成算法来生成路径，且采用了多视角注意力机制来考虑用户、商品和路径三者之间的相互作用。

为了和以前方法做对比，我们同样计算了这些方法在两个数据集上的HR@3 和NDCG@3的表现，训练集和测试集的分割方式同样和我们的方法保持一致，进行模型训练时也同样采用了下采样来获取训练batch：

表2、多种模型在两组数据集上的表现

从表2的结果可以看出我们的发明相较于以前方法都很大的提升，这从很大程度是因为本发明从二维信息图衍生出的优质路径出发，通过多视角注意力机制，最大程度地利用了这些优质路径所蕴含的相关信息来提高预测结果的准确性。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。