CN112732932A

CN112732932A - 一种基于知识图谱嵌入的用户实体群组推荐方法

Info

Publication number: CN112732932A
Application number: CN202110024581.2A
Authority: CN
Inventors: 李慧慧; 张洁; 夏军生; 樊武; 丁军峰; 刘慷; 刘伟; 王刚; 周帅锋
Original assignee: Xi'an Fenghuo Software Technology Co ltd
Current assignee: Xi'an Fenghuo Software Technology Co ltd
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-04-30

Abstract

本发明公开了一种基于知识图谱嵌入的用户实体群组推荐方法，将知识图谱中的用户实体进行画像，根据用户实体画像特征给目标用户实体返回关联度top‑K的用户实体群组。本发明可以更加全面地利用知识图谱的结构信息和语义信息刻画动态用户实体画像，增强用户实体群组推荐方法的精度，并为推荐结果提供理由，使得用户操作变得简单高效，并且也可以对知识图谱中的用户实体构建标签与提供联系。

Description

一种基于知识图谱嵌入的用户实体群组推荐方法

技术领域

本发明公开了一种基于知识图谱嵌入的用户实体群组推荐方法，涉及互联网信息技术领域。

背景技术

随着信息技术和互联网的发展，人们逐渐从信息匮乏进入信息过载时代，为了解决这一问题，推荐系统(Recommendation System)应运而生。推荐系统的任务就是联系用户和信息，帮助用户发现对自己有价值的信息，同时让信息能够展现在对它感兴趣的用户面前，进而实现信息生产者和信息消费者的双赢。

用户群组推荐算法旨在刻画用户画像，从而寻找一组对物品感兴趣的用户。传统的方法主要利用显式/隐式反馈的交互数据作为输入，提取用户和物品的高低阶交互特征，从而进行推荐。目前常用的方法是此基础上引入辅助信息(Side Information)丰富用户和物品的画像，如知识图谱(Knowledge Graph)中大规模的节点(用户节点或物品节点)信息以及节点自身的属性信息。但是还存在以下三个问题：

1)无法获取用户实体之间的交互信息，未充分利用知识图谱的语义和结构信息；

2)容易忽略用户和物品画像的动态变化，缺乏一种有效的模型更新策略；

3)都是基于用户和物品之间的推荐，没有一种利用图谱(节点和关系)内部信息，实现用户实体群组推荐的方法。

目前用户群组推荐算法主要存在无法获取用户实体间交互信息、容易忽略用户和物品画像的动态变化、都是基于用户和物品之间的推荐等问题。

发明内容

本发明所要解决的技术问题是：针对现有技术的缺陷，提供一种基于知识图谱嵌入的用户实体群组推荐方法。本发明主要利用知识图谱的结构与语义信息刻画动态用户实体画像，实现用户实体群组推荐。具体而言，该任务需要对用户实体画像，并且从知识图谱数据中获取用户实体之间的交互信息(节点之间的关系)，为目标用户推荐用户实体群组。

本发明为解决上述技术问题采用以下技术方案：

一种基于知识图谱嵌入的用户实体群组推荐方法，所述方法包括：

步骤一、根据三元组数据构建用户的知识图谱，用户的知识图谱包括当前用户的所有信息，由用户实体和关系组成；

步骤二、使用知识表示模型Ripple Net和预训练语言模型BERT分别将用户实体和关系进行向量化表示；

步骤三、使用基于内容的召回算法获取用户实体群组的候选集；

步骤四、使用基于attention的LSTM模型建模用户实体的时序特征；

步骤五、将嵌入向量输入到Wide&Deep模型中，获取用户实体间的高低阶交互，对用户实体进行画像；所述嵌入向量包括候选集中的用户实体时序特征或用户实体和关系的向量化表示；

步骤六、计算用户实体间的关联度，输出目标用户实体关联度top-K的用户实体群组。

作为本发明的进一步优选方案，所述知识图谱，其形式化定义为：

知识图谱

由形如(h，r，t)的三元组组成，其中h∈N，r∈R，t∈N分别表示头实体、关系或属性和尾实体，实体数量为P′，用户实体数量为P，关系数量为Q。

作为本发明的进一步优选方案，步骤二中，所述将用户实体进行向量化表示具体包括：

设定知识图谱中，一共有P个用户节点，将其表示为用户节点集合

将知识图谱中的用户实体作为种子，对于每个种子，通过Ripple Net模型都产生种子的向量表示，对于用户节点

它的k跳内用户实体集合表示为：

它的k跳三元组集合表示为：

使用词向量模型BERT初始化图谱中所有用户实体，表示为

通过Ripple NET模型用户实体向量，表示为

作为本发明的进一步优选方案，步骤二中，所述将用户关系进行向量化表示具体包括：

使用词向量模型BERT初始化图谱中所有关系，表示为r_j∈ER，j＝1，2，...，Q。

作为本发明的进一步优选方案，所述步骤三中，采用基于内容的召回算法产生用户实体候选集，所述基于内容的召回算法基于用户实体属性以及路径长度，通过候选集产生层获得用户候选集，其中用户实体表示

作为本发明的进一步优选方案，所述步骤四具体包括：

将候选集用户实体表示向量

以及关系表示向量ER作为LSTM的输入，LSTM的公式简化如下：

其中，h_*表示LSTM每个单元的隐状态；

在注意力机制下输出向量是各个元素按其重要程度加权求和得到，如公式所示：

其中，参数i表示时刻，j表示序列中的第j个元素，T_x表示序列的长度，f(·)表示对元素

每一维的编码；

aij看做是一个概率，反映了元素hj对Ci的重要性，使用softmax函数来表示，如公式所示：

其中，e_ij反映了带编码的元素和其他元素之间的匹配度，当匹配度越高时，说明该元素对其的影响越大，则a_ij的值也就越大；

通过基于attention的LSTM模型得到用户实体的特征嵌入向量表示f_ui∈F_u。

作为本发明的进一步优选方案，步骤五中，所述对用户实体进行画像具体包括：

计算图谱中的用户实体

与

的交互，从而获得候选用户实体的关联度得分；

给定

其与目标用户

相关性计算公式如下：

其中，Wide&Deep为Wide&Deep模型，pi是用户实体ui和用户实体u_j的关联度。

作为本发明的进一步优选方案，步骤六中，将用户实体的关联度得分结果矩阵P_Score保存，以供外部使用，形式如下：

P_Score＝p_ij，i＝1，2，...，P；j＝1，2，...，K；

其中，p_ij为用户实体

与用户实体

的关联度。

作为本发明的进一步优选方案，所述方法还包括更新推荐模型，模型更新的触发需要满足以下两个条件之一：

条件一，当前知识图谱的内容由于外部新增数据改变时，为了刻画这种改变，将用户实体和关系的向量维度增加2^c维，其中c＝1，2，...；

条件二，当使用者人工构建目标用户实体与其他实体的联系时，则需要改变目标用户实体的特征向量；

改变的方法是在目标用户实体的特征向量基础上增加2q维，其中q＝1，2，...；

经过模型更新后的用户实体向量、关系向量以及用户实体特征向量再重新输入到Wide&Deep模型中，从而得到模型更新后的每个用户实体的关联度得分。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明相比之前的基于知识图谱的推荐算法的优势有以下三点：

1)本发明利用用户实体及实体间的交互信息，深层次挖掘用户兴趣，同时采用联合训练方式，通过神经网络更新用户实体画像，从而提高算法精度。

2)本发明引用了一种新的模型更新策略用于刻画动态用户实体画像。一方面，将用户输入数据中涉及用户实体属性和关系的信息以向量形式拼接到当前用户实体特征表示。另一方面，将新增的知识图谱数据以向量形式拼接到用户实体和关系向量表示。

3)基于知识图谱推荐的传统算法将知识图谱作为辅助信息，丰富用户/物品画像，从而推荐用户感兴趣的物品。与传统方法不同，本发明基于用户实体画像及用户间交互信息，实现用户实体群组推荐，并提供关联度及推荐理由。

综上，本发明可以更加全面地利用知识图谱的结构信息和语义信息刻画动态用户实体画像，增强用户实体群组推荐方法的精度，并为推荐结果提供理由，使得用户操作变得简单高效，并且也可以对知识图谱中的用户实体构建标签与提供联系。

附图说明

图1是本发明的整体流程示意图。

图2是本发明中，知识图谱形式化定义示意图。

图3是本发明中，将知识图谱的实体和关系进行向量化表示示意图。

图4是本发明中，将候选集用户实体表示向量

以及关系表示向量E_R作为LSTM的输入示意图。

图5是本发明中，计算候选用户实体的关联度得分示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明针对知识图谱中的用户实体群组推荐问题，提出了一种基于知识图谱嵌入的用户实体群组推荐方法，将知识图谱中的用户实体进行画像，根据用户实体画像特征给目标用户实体返回关联度top-K的用户实体群组。

具体而言，首先根据三元组数据构建用户的知识图谱，用户的知识图谱包括当前用户的所有信息，由用户实体和关系组成。

然后使用知识表示模型Ripple Net和预训练语言模型BERT分别将用户实体和关系进行向量化表示。

然后使用基于内容的召回算法获取用户实体群组的候选集。

然后使用基于attention的LSTM模型建模用户实体的时序特征。

然后将候选集中的用户实体时序特征、用户实体和关系的向量化表示等作为嵌入向量输入到Wide&Deep模型中，获取用户实体间的高低阶交互，对用户实体进行画像。

最后计算用户实体间的关联度，输出目标用户实体关联度top-K的用户实体群组。

本发明所公开的一种基于知识图谱嵌入的用户实体群组推荐方法，所述方法对应的系统架构包括输入层、图谱向量化表示层、候选集产生层、特征抽取层、用户实体画像层、输出层以及模型更新模块。其整体流程如图1所示。

一、输入层

本发明基于知识图谱数据实现用户实体群组推荐任务。知识图谱形式化定义如下。知识图谱

由形如(h，r，t)的三元组组成，其中h∈N，r∈R，t∈N分别表示头实体、关系或属性和尾实体，实体数量为P′，用户实体数量为P，关系数量为Q，如图2所示。

二、图谱向量化表示层

所述图谱向量化表示层将知识图谱的实体和关系进行向量化表示。具体实现步骤分为以下两步。

第一步，定义用户实体向量表示形式。

知识图谱中，一共有P个用户节点，将其表示为用户节点集合

将知识图谱中的用户实体作为种子。则对于每个种子，通过Ripple Net模型都产生自己的向量表示。将RippleNet模型的思想形式化表示如下，如图3所示，对于用户节点

它的k跳内用户实体集合表示为：

它的k跳ripple集合(三元组集合)表示为：

使用词向量模型BERT初始化图谱中所有用户实体，表示为

通过RippleNet模型用户实体向量，表示为

第二步，定义关系向量表示形式。

使用词向量模型BERT初始化图谱中所有关系，表示为r_j∈E_R，j＝1，2，...，Q。

综上，将知识图谱中的用户实体和关系完成了向量化表示。

三、候选集产生层

由于知识图谱中的用户实体数量巨大，而与目标用户实体有关联的用户实体是所有用户实体集合的子集。所以采用基于内容的召回算法产生用户实体候选集。基于内容的召回算法主要基于用户实体属性以及路径长度。通过候选集产生层获得用户候选集，其中用户实体表示

四、特征抽取层

将候选集用户实体表示向量

以及关系表示向量E_R作为LSTM的输入，如图4所示。LSTM的公式简化如下：

其中，h_*表示LSTM每个单元的隐状态。

每一维的编码。a_ij可以看做是一个概率，反映了元素h_j对C_i的重要性，可以使用softmax函数来表示，如公式所示：

这里e_ij正是反映了带编码的元素和其他元素之间的匹配度，当匹配度越高时，说明该元素对其的影响越大，则a_ij的值也就越大。

通过基于attention的LSTM模型就可以得到用户实体的特征嵌入向量表示f_ui∈F_u。

五、用户实体画像层

所述用户实体画像层用于计算图谱中的用户实体

与

的交互，从而获得候选用户实体的关联度得分，如图5所示。给定

其与目标用户

Claims

1.一种基于知识图谱嵌入的用户实体群组推荐方法，其特征在于，所述方法包括：

步骤五、将嵌入向量输入到Wide&Deep模型中，获取用户实体间的高低阶交互，对用户实体进行画像；

2.如权利要求1所述的一种基于知识图谱嵌入的用户实体群组推荐方法，其特征在于：步骤五中，所述嵌入向量包括候选集中的用户实体时序特征或用户实体和关系的向量化表示。

3.如权利要求1所述的一种基于知识图谱嵌入的用户实体群组推荐方法，其特征在于：所述知识图谱，其形式化定义为：

知识图谱

4.如权利要求1所述的一种基于知识图谱嵌入的用户实体群组推荐方法，其特征在于，步骤二中，所述将用户实体进行向量化表示具体包括：

它的k跳内用户实体集合表示为：

它的k跳三元组集合表示为：

使用词向量模型BERT初始化图谱中所有用户实体，表示为

通过Ripple NET模型用户实体向量，表示为

5.如权利要求1所述的一种基于知识图谱嵌入的用户实体群组推荐方法，其特征在于，步骤二中，所述将用户关系进行向量化表示具体包括：

6.如权利要求1所述的一种基于知识图谱嵌入的用户实体群组推荐方法，其特征在于：所述步骤三中，采用基于内容的召回算法产生用户实体候选集，所述基于内容的召回算法基于用户实体属性以及路径长度，通过候选集产生层获得用户候选集，其中用户实体表示

7.如权利要求1所述的一种基于知识图谱嵌入的用户实体群组推荐方法，其特征在于，所述步骤四具体包括：

将候选集用户实体表示向量

以及关系表示向量E_R作为LSTM的输入，LSTM的公式简化如下：

其中，h_*表示LSTM每个单元的隐状态；

每一维的编码；

a_ij看做是一个概率，反映了元素h_j对C_i的重要性，使用softmax函数来表示，如公式所示：

8.如权利要求1所述的一种基于知识图谱嵌入的用户实体群组推荐方法，其特征在于，步骤五中，所述对用户实体进行画像具体包括：

计算图谱中的用户实体

与

的交互，从而获得候选用户实体的关联度得分；

给定

其与目标用户