CN112085171B

CN112085171B - 一种基于分簇多实体图神经网络的推荐方法

Info

Publication number: CN112085171B
Application number: CN202010970470.6A
Authority: CN
Inventors: 印鉴; 金子力; 刘威
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2024-03-29
Anticipated expiration: 2040-09-15
Also published as: CN112085171A

Abstract

本发明提供一种基于分簇多实体图神经网络的推荐方法，本发明利用分簇算法，图神经网络可以拓展到百万级节点上的计算，而且训练时间复杂度只是线性增长，而非指数级增长；能够应用在三个实体，甚至更多实体下的推荐场景(比如用户‑歌单‑歌曲)；能够为节点在两个方向上的信息传递都配置不同的权重参数，并且不同类型的节点之间使用的信息传递参数都不同。多样的信息传递权重配置能够提升网络的泛化能力，提升预测效果。

Description

一种基于分簇多实体图神经网络的推荐方法

技术领域

本发明涉及推荐算法领域，更具体地，涉及一种基于分簇多实体图神经网络的推荐方法。

背景技术

自美国、中国的互联网浪潮以来，为了给用户推荐更好的产品、内容，提高用户的满意度，增大自身平台的竞争力，推荐系统被越来越广泛地应用在各种领域。在一些行业，推荐系统甚至是公司的核心竞争力，比如淘宝为用户推荐商品，抖音、快手为用户推荐内容，优秀的推荐效果往往能让公司更有竞争力。传统的推荐系统是基于内容的推荐，通过人工为商品添加标签，再分析用户的行为轨迹，最终给出推荐，这样做的缺点是必须人工标注，需要投入大量的人工成本，当场景变得复杂时，人力成本的膨胀较大。后来人们提出了基于物品的推荐，不需要人工标注物品，而是分析人的购买行为，从而给出推荐。为了得到更好的推荐效果，人们尝试将用户、物品的行为记录和社交关系考虑进来，提出了图神经网络。图神经网络认为，如果将每个实体视为一个节点，则实体之间的关系相当于节点之间的连接。一个人的偏好应当受到其周围物品的影响，一个物品的特征也应当与交互过它的用户相关。图神经网络在进行信息传递步骤时，可以为每个节点传递其周围节点的信息，使其融合邻居节点的信息。经过多层图神经网络处理后，节点可以捕获更远的邻居节点信息。

然而，在当今用户、物品动辄过亿的场景下，使用图神经网络为海量用户推荐产品的复杂度骤然增长。本模型利用分簇方式，将社交网络切割为多个独立的子图，分别进行信息传递的计算，从而降低图神经网络的计算复杂度，让模型能适用过亿节点的推荐。本方法还提出了不同实体、方向的多种信息传递权重，丰富了信息传递的权重，给出更好的推荐效果。

申请号为201410198919.6的专利说明书中公开了一种车联网中基于分簇信任评估的恶意节点检测方法，本申请将网络分为若干个簇，簇内节点进行通信，不同簇间由簇头进行通信，这种方法能够适应大型VANET网络，且可扩展性好，减少了不同簇内成员节点间通信开销。且在推荐信任计算方面简化了推荐链，直接用丢包率进行计算。然而，该专利无法实现给出较好推荐效果的同时，大幅降低训练时间。

发明内容

本发明提供一种基于分簇多实体图神经网络的推荐方法，该方法能够在给出较好推荐效果的同时，大幅降低训练时间。

为了达到上述技术效果，本发明的技术方案如下：

一种基于分簇多实体图神经网络的推荐方法，包括以下步骤：

S1：对图中每个实体进行分簇；

S2：在一层图神经网络中，为不同的节点之间分配不同的信息传递权重；

S3：在不同层神经网络中，为不同的节点之间建立信息传递；

S4：在经历多层图神经网络时，嵌入向量矩阵的多层处理；

S5：进行相关性计算。

进一步地，所述步骤S1的具体过程是：

根据图分簇算法，分析图的连通性，将图切分为多个簇，保留尽可能多的簇内连接，簇与簇之间的连接会被断开。

进一步地，所述步骤S2的具体过程是：

在一层图神经网络处理中，节点之间会进行信息传递，使节点向量能融合其周围节点的信息，为不同的节点之间分配不同的信息传递权重，从而使信息更有效地在节点之间传递。

进一步地，所述步骤S3的具体过程是：

每层图神经网络的处理，都会使节点融合周边节点的信息；在使用多层图神经网络处理后，节点能沿着交互关系融合更远节点的信息。

进一步地，所述步骤S4的具体过程是：

在经历多层图神经网络时，嵌入向量矩阵需要经过如图所示的处理；经过多层图神经网络处理后，可以将每个分簇的向量矩阵按照原来的顺序合并在一起，形成一个完整的、融合了交互信息的向量矩阵。

进一步地，所述步骤S5的具体过程是：

经过多层图神经网络的处理后，得到的向量矩阵中每个向量的节点都融合了周围节点的信息，进行相关性计算，得到相关性分数。

优选地，在步骤S1中，在进行图分簇时，借助metis图处理库。

进一步地，在经过第一层处理时，需要将嵌入矩阵按照不同的簇分离，将属于同一分簇的嵌入向量合并在一起，然后进行信息传递。

进一步地，从经过了多层图神经网络处理的向量矩阵取出所需的向量，进行相关性计算，得到相关性分数。

进一步地，相关性计算时，取出实体向量进行计算，可得到相关性分数，分数越高，则推荐力度越大。

与现有技术相比，本发明技术方案的有益效果是：

本发明利用分簇算法，图神经网络可以拓展到百万级节点上的计算，而且训练时间复杂度只是线性增长，而非指数级增长；能够应用在三个实体，甚至更多实体下的推荐场景(比如用户-歌单-歌曲)；能够为节点在两个方向上的信息传递都配置不同的权重参数，并且不同类型的节点之间使用的信息传递参数都不同。多样的信息传递权重配置能够提升网络的泛化能力，提升预测效果。

附图说明

图1为分簇过程示意图；

图2为多种信息传递过程示意图；

图3为多层信息传递过程示意图；

图4为嵌入向量矩阵过程示意图；

图5为相关性计算过程示意图；

图中，u代表用户，p代表歌单，t代表歌曲，u1、u2代表两个用户，p1、p2、p3代表两个用户收藏的歌单，t1、t2、t3、t4代表三张歌单收录的四首歌曲，cluster1、cluster2代表两个分簇，U、P、T表示三种实体的嵌入向量。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，第一：分簇。根据图分簇算法，分析图的连通性，将图切分为多个簇，保留尽可能多的簇内连接，簇与簇之间的连接会被断开。在进行图分簇时，可以借助如metis这样的图处理库。如图1所示，如希望将图切分为两个簇，则经过分析，完整的图被切分为如图所示的两个子图。

如图2所示，第二：多种信息传递。在一层图神经网络处理中，节点之间会进行信息传递，使节点向量能融合其周围节点的信息。本专利能为不同的节点之间分配不同的信息传递权重，从而使信息更有效地在节点之间传递。如图有3种节点，共有三组节点间的传递，而任意两种节点间的传递都有两个方向，所以本模型总共会为不同的节点传递分配供6种权重矩阵。

如图3所示，第三：多层信息传递。每层图神经网络的处理，都会使节点融合周边节点的信息。在使用多层图神经网络处理后，节点能沿着交互关系融合更远节点的信息。图中展示了在使用多层图神经网络处理后的节点，捕获了更远节点的信息，比如离它一跳距离的p1,p2和离它两跳距离的u1,t1,t2,t3。

如图4所示，第四：嵌入向量矩阵的多层处理。在经历多层图神经网络时，嵌入向量矩阵需要经过如图所示的处理。在经过第一层图神经网络处理前，嵌入向量矩阵包含三种实体的嵌入向量，如图所示有U、P、T三种。在经过第一层处理时，需要将嵌入矩阵按照不同的簇分离，将属于同一分簇的嵌入向量合并在一起，然后可以进行信息传递。经过多层图神经网络处理后，可以将每个分簇的向量矩阵按照原来的顺序合并在一起，形成一个完整的、融合了交互信息的向量矩阵。

如图5所示，第五：相关性计算。经过多层图神经网络的处理后，得到的向量矩阵中每个向量的节点都融合了周围节点的信息。为歌单推荐歌曲进行相关性计算时，取出实体向量进行计算，可得到相关性分数，分数越高，则推荐力度越大。如图所示，需要计算某歌曲是否适合推荐给某用户的歌单时，需要从经过了多层图神经网络处理的向量矩阵取出该用户、歌单、歌曲的向量，进行相关性计算，得到相关性分数。本发明提供一个实例。在本实例中，本模型应用于有三个实体的歌单推荐中。对于用户歌单数据的获取，采用了公开的歌单数据集30MUSIC(或AOTM)。只要是推荐领域，不论是用户-物品的双实体推荐领域，还是用户-歌单-歌曲的三实体推荐领域，甚至多实体推荐领域，都能够使用本模型。

具体方法步骤如下：

1、基于30MUSIC数据集训练一个歌单推荐模型，模型输入是用户、歌单、歌曲的ID，输出是歌曲与该用户的歌单的相关性。

2、在训练前，需要进行数据清洗，将包含歌曲数量过少的歌单移除，因为交互行为过少的歌单难以给出精准的推荐。本实施中过滤掉了歌曲少于5首的歌单。

3、在训练前还需要切分训练-验证-测试集。正式的训练分为训练、验证、测试三个步骤，首先用采样数据进行训练，然后在验证集上调整参数至最优，最后在测试集上得到测试效果。在本实施中，每个歌单取一首歌加入测试集，取一首歌加入验证集。

4、训练时，采用正负数据集共同训练的方法。生成每条训练数据时，随机采取一名用户和用户的歌单。然后先随机采取一首这个歌单的歌曲，和随机一首不是该歌单的歌曲，从而生成一组正负数据集。训练时，要求正训练集的得分比负训练集得分越高越好。训练时，每次生成一批数据进行训练。

5、每过几轮训练后，用验证集进行测试，直到训练指标不再提升为止，停止训练，用验证集进行验证。

6、调整实验参数，再重新进行多组训练。可调整的实验参数包括图神经网络层数、嵌入向量维度、学习率、优化器等。

7、重复多组后，选择实验指标最优的那组实验参数对应的模型，使用测试集进行测试。

根据测试指标，得到模型的推荐效果，并给出实验结论。挑选的训练好的模型可以用于生产环境的推荐。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于分簇多实体图神经网络的推荐方法，应用于用户-歌单-歌曲的三实体推荐，其特征在于，包括以下步骤：

S1：对图中每个实体进行分簇；具体过程是：

根据图分簇算法，分析图的连通性，将图切分为多个簇，保留尽可能多的簇内连接，簇与簇之间的连接会被断开；

S4：在经历多层图神经网络时，嵌入向量矩阵的多层处理；具体过程是：

在经历多层图神经网络时，嵌入向量矩阵需要经过以下的处理；在经过第一层图神经网络处理前，嵌入向量矩阵包含三种实体的嵌入向量；在经过第一层处理时，需要将嵌入矩阵按照不同的簇分离，将属于同一分簇的嵌入向量合并在一起，然后进行信息传递；经过多层图神经网络处理后，将每个分簇的向量矩阵按照原来的顺序合并在一起，形成一个完整的、融合了交互信息的向量矩阵；

S5：进行相关性计算；为歌单推荐歌曲进行相关性计算时，取出实体向量进行计算，可得到相关性分数，分数越高，则推荐力度越大；具体过程是：

2.根据权利要求1所述的基于分簇多实体图神经网络的推荐方法，其特征在于，所述步骤S2的具体过程是：

3.根据权利要求2所述的基于分簇多实体图神经网络的推荐方法，其特征在于，所述步骤S3的具体过程是：

4.根据权利要求3所述的基于分簇多实体图神经网络的推荐方法，其特征在于，所述步骤S5的具体过程是：

5.根据权利要求4所述的基于分簇多实体图神经网络的推荐方法，其特征在于，在步骤S1中，在进行图分簇时，借助metis图处理库。

6.根据权利要求5所述的基于分簇多实体图神经网络的推荐方法，其特征在于，从经过了多层图神经网络处理的向量矩阵取出所需的向量，进行相关性计算，得到相关性分数。

7.根据权利要求6所述的基于分簇多实体图神经网络的推荐方法，其特征在于，相关性计算时，取出实体向量进行计算，可得到相关性分数，分数越高，则推荐力度越大。