CN113987338A

CN113987338A - 一种基于标签的异质图推荐算法

Info

Publication number: CN113987338A
Application number: CN202111232670.2A
Authority: CN
Inventors: 杜晓宇; 陈正; 项欣光
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-01-28

Abstract

本发明公开一种基于标签的异质图推荐算法。包括以下步骤：(1)：构建异质图：构建用户‑物品、用户‑标签、物品‑标签三种异质关系图；(2)：初始化：为图中每个节点关联一个嵌入表示，并进行初始化；将嵌入表示划分为多个分离的块，每个块对应一种属性；(3)：异质图解耦层；步骤(4)：高阶信息传播：将异质图解耦层堆叠L层，上一层的输出作为下一层的输入；步骤(5)：模型训练：使用BPR方法进行模型训练；步骤(6)：模型测试。本发明充分挖掘标签信息，减轻稀疏性，同时结合信息传播和邻域路由机制自动识别多属性问题，解耦用户的多种偏好和物品的多重特征，从而为模型提供可解释性，提高推荐模型的性能。

Description

一种基于标签的异质图推荐算法

技术领域

本发明属于信息处理领域，具体涉及一种基于标签的异质图推荐算法。

背景技术

随着信息时代的到来，信息过载越来越严重，推荐算法作为解决该问题的重要手段受到了广泛研究。其可以从海量的数据中找到满足用户个性化需求的数据，然后自动推荐给用户。已被广泛地应用到各种平台，如多媒体、网购等。其中大量研究使用用户与物品的交互得到用户和物品的表示，虽取得不错成绩，但容易遭受稀疏性问题，即交互的数据的占比很低，难以通过少量的信息学到准确的用户表示。因此，大量研究开始引入各种额外数据(文本、图片)，如很多研究将标签作为一种元信息，通过神经网络得到用户和物品基于标签的表示，然后结合协同信号进行推荐。或者利用流行的图卷积模型，通过将标签加入协同图中，然后进行信息传播扩展节点的信息，用以减轻稀疏性问题。虽然一定程度上解决稀疏性问题，取得了不错性能。但这些模型无法为高性能提供可靠的解释，使之鲁棒性不强。

导致性能达不到最优的原因是：没有考虑到用户具有多重偏好、物品也具有多种属性的问题，将不同属性维度上的消息纠缠在一起。为了解耦交互背后的原因，有研究将解耦图模型引入该领域，旨在解耦交互背后的主要原因，进而解耦用户和物品的多重属性信息。但这种仅基于交互信息进行的解耦方法的推测性能无法达到最优。

发明内容

本发明为了同时解决稀疏性和图中节点的多重属性问题，提出了一种基于标签的解耦用户和物品的多重属性的推荐算法，同时引入标签扩展用户和物品的信息，使模型能够准确获得用户、物品在各属性上的信息，自动识别交互背后的主要原因，实现更好的推荐性能和可解释性。

实现本发明目的的技术解决方案为：一种基于标签的异质图推荐算法，包括以下步骤：

步骤(1)：构建异质图：利用用户的标注历史，构建用户-物品、用户-标签、物品-标签三种异质关系图；

步骤(2)：初始化：为图中每个节点关联一个嵌入表示，并进行初始化；将嵌入表示划分为多个分离的块，每个块对应一种属性；

步骤(3)：异质图解耦层：1)由边两端的节点在各属性上的嵌入表示计算该边在各属性上的分布，将异质图划分为多个与各属性相关的异质子图；2)分别在各属性对应的异质子图上进行图卷积，扩展节点在该关系下各属性上的信息；

3)由各异质图上更新的属性信息，计算节点对属性的关注程度；4)将各属性上不同的异质信息进行融合，得到节点在该属性上的总体表示；5)重复以上步骤T次，使模型收敛，自动识别边在各属性上的分布和节点对各属性的重视程度；

步骤(4)：高阶信息传播：将异质图解耦层堆叠L层，上一层的输出作为下一层的输入，节点的最终表示取所有层输出的平均，利用内积表示用户与物品的匹配程度；

步骤(5)：模型训练：使用BPR方法进行模型训练，将用户交互过的物品视为正样本，未交互过的视为负样本，期望正样本的匹配分数大于负样本；

步骤(6)：模型测试：根据训练后，使用以上模型得到用户和物品的嵌入表示，内积得到用户对所有物品的匹配分数，进行排序，选择分数最高的top-k个物品作为推荐，测试推荐的准确度。

本发明与现有技术相比，其显著优点在于：

(1)本发明引入标签信息，同时利用图卷积有效解决稀疏性问题和标签自身具有的多词同义等问题；

(2)利用邻域路由机制解耦节点的多重属性问题，同时得到节点对不同属性的注意力分数，为模型提供了可解释性，使模型鲁棒性更强，推荐准确度更高。

附图说明

图1是通过标注历史构建异质图和整体框架的示意图。

图2是可解释性异质图解耦层的模型结构图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

如图1、2所示，一种基于标签的异质图推荐算法，具体步骤如下：

步骤(1)、先根据所有用户的标注历史构建异质图。具体为：一条标注记录可表示为α＝<u,i,t>，表示用户u给物品i标记过标签t。由所有的标注历史，根据实体间的关系，可得到三个异质图，其中<u,i>表示用户u与用户i间存在交互关系，<u,t>表示用户u使用过标签t，<i,t>表示物品i被标签t标注过。

步骤(2)、初始化。为图中的每一个节点(用户、物品、标签)都关联一个d维的向量

表示该节点的信息，并使用xavier进行随机初始化；然后将其划分为K个彼此独立的块，分别表示节点在各属性上的信息，可表示为e＝(e₁,e₂,...,e_K)。其中

步骤(3)、利用邻域路由机制自动识别边在各属性上的概率分布，和节点对各属性的重视程度，实现图的解耦，从而为模型提供可解释性。具体步骤如下：

步骤3-1：确定边在各属性上的概率分布：根据中心节点和邻域节点在不同属性上的信息，计算中心节点μ与其邻域节点ν在第j次迭代中在各属性上的亲近程度

确定这条边是由何种属性导致的，进而得到边在各属性上的概率分布

从而将图划为多个与属性相关的子图，公式如下：

其中

表示转置，

分别表示第j轮迭代中，中心节点μ和其邻域节点ν在第k个属性上的相似分数和概率分布。第0轮时，节点表示为初始化的嵌入表示，即

步骤3-2：更新各异质图上各属性传播过来的信息。将各异质图划分为多个与属性相关的子图后，分别在子图上进行图卷积，接收邻域信息，扩展节点在该属性上的信息。采用目前最好的图卷积模型lightgcn，公式如下：

其中

分别表示在

关系中，节点μ，ν在第j次迭代中，第k个属性上的度，

表示节点μ在

关系中的邻域。

步骤3-3、更新各节点在各关系下对各属性关注度：得到节点在各种关系上各属性的信息后，对于不同的异质信息，节点对于其各种属性的关注程度不同，使用节点在该属性上的信息确定其对于各种属性的重视程度。计算公式如下：

其中

表示节点μ在

关系下，对第k个属性的重视程度，

为对应的概率分布。

为

关系下的注意力向量。

步骤3-4：融合各属性在各异质图上的信息。将各种属性上从各种关系上传来的异质信息进行融合，得到节点在该属性上的完整信息表示。计算公式如下：

其中ψ_μ为节点μ包含的异质关系集合。

为节点μ在第j次迭代后在第k个属性上的完整信息。

步骤3-5：重复以上步骤，使得

和

接近真实分布。T次迭代后，将

作为节点μ在第k个属性上的邻域信息，将该图卷积层打包为函数f，可表示为：

其中

表示节点μ在第k的属性上扩展的邻域消息，

表示历史交互μ-v在各属性上的分布，由此可知该交互形成的主要因素。

表示节点μ对各属性的重视程度。进行推荐时，则可推荐在用户比较重视的属性上与用户该属性相关的物品。

步骤(4)、高阶信息传播：将节点的上一阶的邻域信息作为节点新的信息，继续执行以上图卷积，则可以接收到更高阶邻域传播过来的信息，公式可表示为：

其中f表示步骤(3)提出的图卷积层，堆叠L层，可以得到L阶邻域信息，融合各阶邻域传播过来的信息，即

然后将所有属性拼接起来作为节点最终的嵌入表示，即e_μ＝e_μ1||e_μ2||...||e_μK。对用户、物品、标签都执行上面操作。

步骤(5)、模型训练：经过以上步骤，可以获得所有用户和物品的嵌入表示e_u和e_i，然后利用内积表示用户对物品的喜好程度，即

为了提升性能，使用流行的BPR进行模型优化，损失函数可表示为：

其中

为训练集中用户交互过的物品集合，即正样本，

为未交互过的物品集合，即负样本。同时为了防止过拟合，为模型添加正则项，则目标函数为：

loss＝loss_BPR+||Θ||₂ (10)

其中Θ为本模型的参数。

步骤(6)、模型测试：训练好模型后，根据步骤(3)(4)可以得到所有用户和物品的嵌入表示，则用内积可得到用户对所有物品的偏好分数，对其进行排序，取分数最大的top-k个物品作为推荐物品。同时，得到边在各属性上的概率分布，和各节点对各属性的注意力分布。揭示各交互背后的主要关系，为模型提供可解释性。

Claims

1.一种基于标签的异质图推荐算法，其特征在于，包括以下步骤：

步骤(3)：异质图解耦层：1)由边两端的节点在各属性上的嵌入表示计算该边在各属性上的分布，将异质图划分为多个与各属性相关的异质子图；2)分别在各属性对应的异质子图上进行图卷积，扩展节点在该关系下各属性上的信息；3)由各异质图上更新的属性信息，计算节点对属性的关注程度；4)将各属性上不同的异质信息进行融合，得到节点在该属性上的总体表示；5)重复以上步骤T次，使模型收敛，自动识别边在各属性上的分布和节点对各属性的重视程度；

2.根据权利要求1所述的算法，其特征在于，所述步骤(1)具体实现如下：利用用户的标注历史，构建用户-物品、用户-标签、物品-标签三种异质关系图具体为：一条标注记录可表示为α＝<u,i,t>，表示用户u给物品i标记过标签t，由所有的标注历史，根据实体间的关系，可得到三个异质图，其中<u,i>表示用户u与用户i间存在交互关系，<u,t>表示用户u使用过标签t，<i,t>表示物品i被标签t标注过。

3.根据权利要求2所述的算法，其特征在于，所述步骤(2)具体实现如下：

为异质图中的每一个节点都关联一个d维的向量