CN112507132A

CN112507132A - 一种基于知识图谱和注意力机制的推荐方法

Info

Publication number: CN112507132A
Application number: CN202011475276.7A
Authority: CN
Inventors: 张蕾; 张振宇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-16
Anticipated expiration: 2040-12-14
Also published as: CN112507132B

Abstract

本发明公开了一种基于知识图谱和注意力机制的推荐方法，包括：根据推荐系统中的交互记录获取与交互记录相关的知识图谱，对知识图谱中的每个实体的其邻居节点进行随机采样处理；使用知识图谱和交互记录分别训练两个模型KRAN‑NM和KRAN‑CD；将待推荐物品分为有交互记录的常规物品和没有交互记录的冷启动物品；对常规物品使用训练好的KRAN‑NM处理，对冷启动物品用训练好的KRAN‑CD处理，最后将两种模型的处理结果按照偏好度大小进行综合排名，得到最终的推荐结果。本发明可以有效的提取出知识图谱中有用的知识，将处理后的信息应用于推荐系统，从而改善和缓解推荐系统的数据稀疏性和冷启动问题。

Description

一种基于知识图谱和注意力机制的推荐方法

技术领域

本发明涉及个性化推荐系统领域，尤其涉及一种推荐系统领域的基于知识图谱和注意力机制的混合推荐方法。

背景技术

当今世界，互联网技术迅猛发展，随之而来的是海量的信息数据，人们在面对浩如烟海的信息数据的时候往往无法找到自己想要的信息，为了解决此类问题，推荐系统应运而生，推荐系统能够主动将用户可能感兴趣的物品推送给用户，从而免去了人们搜索和判断的时间，进而使得人们在实际的生产生活中不再需要花费大量的时间和精力去搜索和寻找自己想要的东西，也减少了企业的推广精力，能够更容易卖出更多的东西。推荐系统从整体上提高了整个社会的运行效率，。

传统的推荐系统依赖于用户和物品之间的交互记录，当交互记录数量较少时，会导致推荐系统的推荐效果较差，这就造成了推荐系统的数据稀疏性问题，而在极端情况下，如果待推荐的物品中有一部分完全没有交互记录时，这部分物品就完全不会被推荐，进而导致推荐系统的推荐精度更低，这就是推荐系统所面临的另一个问题，这个问题被叫做物品的冷启动问题。引入知识图谱是解决缓解数据稀疏性和物品冷启动的问题的有效途径，将知识图谱作为额外的辅助数据来源，通过知识图谱中的知识来丰富交互信息能够很大程度上缓解数据的缺少。但知识图谱是一种以图网络结构的方式存在的数据，其数据结构千变万化，很难方便的直接使用，有用的信息很难提取出来。

发明内容

针对上述现有技术，本发明提出一种基于知识图谱和注意力机制的推荐方法，其中，精炼注意力机制可以对知识图谱和交互记录进行综合处理，有效的提取出知识图谱中有用的知识，进而将处理后的信息应用于推荐系统，从而改善和缓解推荐系统的数据稀疏性和冷启动问题。

为了解决上述技术问题，本发明提出的一种基于知识图谱和注意力机制的推荐方法，主要包括：

步骤一：根据推荐系统中的交互记录，获取与交互记录相关的知识图谱；对知识图谱中的每个实体的其邻居节点进行随机采样处理；

步骤二：针对采样结果，使用知识图谱和交互记录分别训练两个推荐系统模型，两个推荐系统模型包括常规版知识精炼推荐系统模型(KRAN-NM)和冷启动版知识精炼推荐系统模型(KRAN-CD)；

步骤三：将待推荐物品分为常规物品和冷启动物品，其中，有交互记录的物品为常规物品，没有交互记录的为冷启动物品；对常规物品使用步骤二训练好的常规版知识精炼推荐系统模型处理，对冷启动物品用步骤二训练好的冷启动版知识精炼推荐系统模型处理，最后将两种模型的处理结果按照偏好度大小进行综合排名，得到最终的推荐结果。

进一步讲，本发明所述的基于知识图谱和注意力机制的推荐方法，其中：

步骤一中，获取与交互记录相关的知识图谱，包括以下步骤：

1-1)将交互记录中的物品剔除重复值后加入到一个交互物品列表中；

1-2)对交互物品列表中的每个物品，使用网页接口向中文通用百科知识图谱(CN-DBPedia)网站的列表接口发送物品名称，得到返回的实体ID列表；

1-3)针对实体ID列表中的每一个元素，向中文通用百科知识图谱(CN-DBPedia)网站的实体接口发送实体ID，得到实体的属性信息；

1-4)使用计算机软件编程对实体ID列表中每一个元素得到的属性信息和交互记录中的属性信息进行比对，确定交互记录中实际物品所对应的正确ID；

1-5)将确定的ID发送到中文通用百科知识图谱(CN-DBPedia)网站的提取接口，提取到此ID对应的所有知识图谱三元组；

1-6)将交互物品列表中每个物品的知识图谱三元组集合组成一个总的集合，即为与交互记录相关的知识图谱。

步骤一中，对知识图谱中的每个实体的其邻居节点进行随机采样处理过程中，当采样数量大于邻居节点数量时，采用可重复随机采样，当采样数量小于邻居节点数量时，采用不重复随机采样。

步骤二中，训练常规版知识精炼推荐系统模型的步骤如下：

2-1)计算每个实体与步骤一采样后的邻居节点的注意力系数：

式(1)中，T为求得的注意力系数，a(，)为内积操作，h为实体节点的嵌入向量表示，其中下标0表示实体本身，下标i表示实体的每个邻居节点；

2-2)采用式(2)进行注意力系数的归一化操作，得到每个实体的注意力因子

式(2)中，α为计算得到的每个实体与其每个邻居之间的注意力因子，H为知识图谱中所有实体的嵌入表示组合而成的嵌入表示集合，下标i表示实体的每个邻居节点，下标j表示实体所有邻居节点的枚举值；

2-3)对上述得到的每个实体的注意力因子进行精炼操作，得到精炼注意力因子，

式(3)中，β为计算得到的精炼注意力因子；

2-4)将所有精炼注意力因子组合成向量，得到每个实体的精炼注意力因子向量：

式(4)中，C为邻居的个数；

2-5)使用每个实体的精炼注意力因子向量进行实体信息的初步聚合：

式(5)中，

为初步聚合的结果，

为知识图谱中所有实体的嵌入表示组合而成的嵌入表示集合的向量矩阵；

2-6)在上述初步聚合的基础上进行完整的聚合：

式(6)中，

是完整的聚合结果，W_adj是一个单层的神经网络；

2-7)对完整聚合的结果进行规范化处理：

式(8)中，

是最终的聚合结果；

2-8)通过连接操作，得到多次聚合的最终结果：

式(8)中，

是最终的聚合结果；

2-9)形成推荐系统中用户对物品的偏好预测：

式(9)中，u是用户的嵌入向量表示；

2-10)定义损失函数模型：

其中：

其中，Γ是实际的偏好大小，Z是预测的偏好大小，y则指的是神经网络中每个矩阵元素的大小，m指的是神经网络中矩阵元素的个数；

2-11)使用梯度下降的算法循环训练式(10)所示的损失函数模型，从而实现对所述的推荐系统模型的训练。

步骤二中，训练冷启动版知识精炼推荐系统模型包括：首先，通过对冷启动版知识精炼推荐系统模型的预训练，得到实体节点的嵌入向量表示h；然后，按照步骤2-1)至2-11)实现对所述的推荐系统模型的训练。其中，对冷启动版知识精炼推荐系统模型的预训练过程如下：

针对步骤一获取的知识图谱中的每个实体的节点进行独热编码；将每个实体的独热编码用两个神经网络进行变换，两个神经网络分别是：第一个神经网络为节点个数*嵌入维度模式的转换矩阵W_a，第二个神经网络为嵌入维度*节点个数模式的转换矩阵W_b；训练上述两个神经网络，将第一个神经网络和第二个神经网络串联，所述第二个神经网络的输出为实体节点，是原点出发的随机游走序列；当第二个神经网络的输出损失最小时，所述的转换矩阵W_a即是知识图谱的冷启动预嵌入向量表示结果，将所述转换矩阵W_a的每一行作为实体节点的嵌入向量表示h。

与现有技术相比，本发明的有益效果是：

(1)整体的推荐性能得到较大的提升。因为加入了知识图谱，交互矩阵的数据得到了极大地丰富，因而整体的推荐效果得到较大的提升。

(2)在数据稀疏的情况下能够得到较好的推荐效果。数据稀疏的情况下，由于知识图谱的加入，使得数据变得不再稀疏，进而能够得到良好的推荐结果。

(3)在冷启动的情况下，由于预嵌入方法的加入，使得即使是冷启动物品，也能够通过知识图谱而获得间接联系，进而能够得到有效的推荐结果。

(4)推荐性能的提升能够帮助用户节约选择时间并且提高效率，能够帮助企业更好的进行产品的推广，能够帮助整个社会提高经济活力。

附图说明

图1是本发明提出的基于知识图谱和注意力机制的推荐方法的整体流程图；

图2是本发明的推荐方法中知识图谱三元组示例。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的说明，但下述实施例绝非对本发明有任何限制。

如图1所示，本发明中提出了一种综合使用知识图谱和精炼注意力机制的推荐方法，主要包括以下步骤：

步骤三：将待推荐物品分为常规物品和冷启动物品，其中，有交互记录的物品为常规物品，没有交互记录的为冷启动物品；对常规物品使用步骤二训练好的常规版知识精炼推荐系统模型处理，对冷启动物品用步骤二训练好的KRAN-CD处理，最后将两种模型的处理结果按照偏好度大小进行综合排名，得到最终的推荐结果。

本发明推荐方法的步骤一中，获取与交互记录相关的知识图谱，包括：

1-3)针对实体ID列表中的每一个元素，向CN-DBPedia网站的实体接口发送实体ID，得到实体的属性信息；

1-5)将确定的ID发送到CN-DBPedia网站的提取接口，提取到此ID对应的所有知识图谱三元组；

对知识图谱中的每个实体的其邻居节点进行随机采样处理过程中，当采样数量大于邻居节点数量时，采用可重复随机采样，当采样数量小于邻居节点数量时，采用不重复随机采样。

步骤二中，训练KRAN-NM的步骤如下：

2-1)计算每个实体与步骤一采样后的邻居节点的注意力系数：

式(3)中，β为计算得到的精炼注意力因子；

式(4)中，C为邻居的个数；

2-5)使用每个实体的精炼注意力因子向量进行实体信息的初步聚合，具体的聚合方式为对应元素相乘：

式(5)中，

为初步聚合的结果，

2-6)在上述初步聚合的基础上进行完整的聚合：

式(6)中，

是完整的聚合结果，W_adj是一个单层的神经网络；

2-7)对完整聚合的结果进行规范化处理：

式(8)中，

是最终的聚合结果；

2-8)通过连接操作，得到多次聚合的最终结果：

式(8)中，

是最终的聚合结果；

2-9)形成推荐系统中用户对物品的偏好预测：

式(9)中，u是用户的嵌入向量表示；

2-10)定义损失函数模型：

其中：

Γ是实际的偏好大小，Z是预测的偏好大小，y则指的是神经网络中每个矩阵元素的大小，m指的是神经网络中矩阵元素的个数。

步骤二中，训练KRAN-CD包括：首先，通过对KRAN-CD的预训练，得到实体节点的嵌入向量表示h；然后，按照步骤2-1)至2-11)，进而得到训练后的KRAN-CD。

对KRAN-CD的预训练过程是：针对步骤一获取的知识图谱中的每个实体的节点进行独热编码；将每个实体的独热编码用两个神经网络进行变换，两个神经网络分别是：第一个神经网络为节点个数*嵌入维度模式的转换矩阵W_a，第二个神经网络为嵌入维度*节点个数模式的转换矩阵W_b；训练上述两个神经网络，将第一个神经网络和第二个神经网络串联，所述第二个神经网络的输出为实体节点，是原点出发的随机游走序列；当第二个神经网络的输出损失最小时，所述的转换矩阵W_a即是知识图谱的冷启动预嵌入向量表示结果，将所述转换矩阵W_a的每一行作为实体节点的嵌入向量表示h。

实施例1，

使用本发明提出的一种基于知识图谱和注意力机制的推荐方法处理last.fm-2k数据集的音乐推荐的完整流程参见图1，三元组形式的知识图谱示例参见图2。具体的推荐包括以下步骤：

一、根据音乐数据集last.fm-2k数据集中的音乐交互记录，获取与交互记录中所有的音乐相关的知识图谱。知识图谱的获取是通过CN-DBPedia网站来获得的，通过调用CN-DBPedia的列表接口和实体接口，先后取得实体列表和实体属性列表，进而通过计算机程序判断与交互记录所对应的正确实体ID，最终调用提取接口，获得所有的三元组后，再将这些所有的三元组组装成最终的知识图谱。

二、使用知识图谱和交互记录训练KRAN-NM。具体如下：

2-1)对音乐知识图谱中每个实体的其邻居节点进行随机采样处理。音乐数据集的采样数量为9，邻居节点大于等于9时为非重复采样，小于9时为重复随机采样。

2-2)使用式(1)计算每个实体与其邻居节点的注意力系数。具体的计算方法为实体与邻居节点进行内积操作，内积大的注意力系数大，相关性更高。

2-3)采用式(2)进行注意力系数的归一化操作，归一化使得注意力系数不至于变化太大，但是又能反映出每个节点的重要程度，经过这个步骤以后，就可以得到每个实体的注意力因子。

2-4)使用式(3)对每个实体的注意力因子进行精炼操作，得到精炼注意力因子。精炼操作的过程中，精炼的尺寸为3。

2-5)使用式(4)将所有精炼注意力因子组合成向量，得到每个实体的精炼注意力因子向量。在last.fm-2k的具体处理过程中，精炼注意力因子向量的维度为9，这9个维度中只有三个有数值，其它6个都是0。

2-6)使用式(5)进行初步的聚合。也就是计算邻居节点的聚合值。

2-7)在初步聚合的基础上使用式(6)进行完整的聚合。也就是将初步的聚合结果和初始的节点向量进行相加的操作，二者1:1的比例进行聚合。

2-8)对完整聚合的结果使用式(7)进行规范化处理。这里也是一种对具体的数值进行约束的机制，防止变化太大导致结果的失真。

2-9)使用式(8)进行连接操作，得到多次聚合的最终结果。此处需注意的是连接操作需要包含初始的向量表示，一次聚合的嵌入向量表示，二次聚合的嵌入向量表示，一直到最大聚合次数的嵌入向量表示，last.fm-2k数据集的聚合次数选择为3次。也就是将0、1、2、3次的聚合结果分辨收尾连接在一起。

2-10)使用式(9)形成推荐系统中用户对物品的偏好预测。具体来说也是使用内积操作，通过用户的嵌入向量表示和物品聚合后的嵌入向量表示做内积，得到最终的用户对物品的偏好大小。

2-11)使用式(10)来定义损失函数。使用交叉商损失函数和均方误差函数之和来作为损失函数。

2-12)使用梯度下降的算法循环训练实施例1中的步骤1-11)所得到的推荐系统模型。

三、使用知识图谱和交互记录训练KRAN-CD。这里主要是对知识图谱进行一个预先的训练，中间使用两层神经网络，输入为独热编码，输出为以节点为起点的岁间游走序列。预训练后的物品还需要通过一个两层的神经网络进行综合处理，进而转化为适用于推荐系统的嵌入向量模式，然后按照本实施例1中的步骤2-2)至2-12)，从而得到训练后的KRAN-CD。

四、将last.fm-2k数据集中的物品分为训练接和测试集，测试集中为待推荐物品，待推荐物品又分为常规物品和冷启动物品，常规物品使用KRAN-NM模型处理，冷启动物品用KRAN-CD模型处理，最后按照偏好度大小进行综合排名，得到最终的推荐结果。

实施例2

实施例2中将使用本发明提出的基于知识图谱和注意力机制的推荐方法处理MovieLens-20M数据集中的电影推荐问题，推荐方法的完整流程参见图1，三元组形式的知识图谱示例参见图2。具体过程如下：

一、获取与MovieLens-20M数据集交互记录相关的知识图谱：

1-1)将MovieLens-20M交互记录中的物品剔除重复值后加入到一个交互物品列表中。此时的列表是所有电影的名称所组成的列表。

1-2)对MovieLens-20M中交互物品列表中的每个物品，使用CN-DBPedia网站自带的网页接口向CN-DBPedia网站的列表接口发送物品名称，得到返回的所有的相关实体的ID列表。

1-3)针对2中获得的实体ID列表中的每一个元素，向CN-DBPedia网站的实体接口发送实体ID，得到实体的属性信息，大多数都是属性信息，暴扣它是否是一个电影，上映时间是多少，主演是谁等各种相关信息。

1-4)使用计算机软件编程对3中得到的属性信息和交互记录中的属性信息进行比对判断，确定交互记录中电影所对应的CN-DBPedia中实体的正确ID。

1-5)将上一步中得到的正确ID发送到CN-DBPedia的提取接口，提取到此ID对应的所有知识三元组，这里的三元组都是和电影推荐相关的三元组，比如导演、演员、发行年代、影片类型等三元组。

1-6)将所有得到的三元组进行组合，得到一个总的集合，从而形成最终的针对MovieLens-20M数据集的知识图谱。

二、训练MovieLens-20M对应的KRAN-NM：

2-1)针对知识图谱中的每个实体的其邻居节点进行随机采样处理。这里的采样数量定为9，通过这种处理，每个实体的邻居节点数量一致，便于处理。而在具体的采样处理过程中，虽然都是随机采样，但是当采样数量大于邻居节点数量时，采用可重复随机采样，当采样数量小于邻居节点数量时，采用不重复随机采样。

2-2)利用本发明推荐方法中的式(1)计算知识图谱中每个实体与其邻居节点的注意力系数T_i。

2-3)利用本发明推荐方法中的式(2)进行注意力系数的归一化操作，得到每个实体的注意力因子α_i。

2-4)利用本发明推荐方法中的式(3)对注意力因子α_i进行精炼操作，得到精炼注意力因子β_i，从而留下最重要的节点，抛掉噪声节点。

2-5)将所有精炼注意力因子β_i按顺序排列，进而就可以用本发明推荐方法中的式(4)得到知识图谱中每个实体的精炼注意力因子向量

2-6)利用本发明推荐方法中的式(5)，使用每个实体的精炼注意力因子向量

进行实体信息的初步聚合。

2-7)利用本发明推荐方法中的式(6)，在初步聚合的基础上进行完整的聚合，这里既考虑了本身，又考虑了邻居。

2-8)利用本发明推荐方法中的式(7)，对完整聚合的结果进行规范化处理，从而避免聚合结果剧烈波动。

2-9)利用下述公式，通过连接操作，得到多次聚合的最终结果，这里需要注意，下角标指的是具体哪个实体，上角标则是聚合的次数，上角标为0的就是没有聚合过的原始数据：

2-10)得到所有实体节点的最终聚合结果后，可以计算推荐系统中用户对物品的偏好预测，下面的公式中<，>为内积操作：

2-11)定义损失函数，整体的损失函数如下所示：

其中：

这个最小误差，其实是根据所有神经网络矩阵的元素计算出来的。

这个是交叉熵损失函数。

2-12)使用梯度下降的算法循环训练上述2-11)中所示的损失函数，从而得到训练后的KRAN-NM模型。

三，训练MovieLens-20M对应的KRAN-CD模型，包括：

3-1)针对MovieLens-20M的KRAN-CD的预训练，预训练方法如下所示：

对电影数据集所对应的知识图谱中的实体节点进行独热编码。

将每个实体的独热编码用两个神经网络进行变换，第一个神经网络为节点个数*嵌入维度模式的转换矩阵W_a，第二个神经网络为嵌入维度*节点个数模式的转换矩阵W_b。这里面，嵌入维度选择为16，而节点个数是以实际个数为准的。

训练这两个神经网络，使其最终的输出为实体节点为原点出发的随机游走序列，并且使得损失函数最小。

当神经网络的损失最小后，转换矩阵W_a就是知识图谱的冷启动预嵌入向量表示结果。

3-2)在得到预训练的嵌入表示后，就可以将预训练的嵌入向量表示带入到本实施例2中的上述步骤2-2)至2-12中进行训练，从而完成KRAN-CD的训练。

四、对待推荐物品的分类处理以及对结果的综合排名：

首先将待推荐的电影分为常规电影和冷启动电影，有交互记录的物品为常规电影，没有交互记录的为冷启动电影，而后常规电影使用KRAN-NM模型处理，冷启动电影用KRAN-CD模型处理，最后将两种模型的处理结果按照偏好度大小进行综合排名，得到最终的推荐结果。排名高的偏好度大，用户可能会更倾向于喜欢，所以会及时推送出去。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。