CN112417317B

CN112417317B - 一种基于知识图谱表示学习的相似人物推荐方法

Info

Publication number: CN112417317B
Application number: CN202110080743.4A
Authority: CN
Inventors: 阮祥超; 汪洋; 朱丹; 陈洲; 李名臣; 张坤
Original assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Current assignee: Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-05-04
Anticipated expiration: 2041-01-21
Also published as: CN112417317A

Abstract

本发明涉及一种基于知识图谱表示学习的相似人物推荐方法，采用全新设计策略，包括社交用户信息处理、表示学习模型训练、实体关系向量中人物点向量的聚类索引、相似人物推荐，其中，采用TransD表示学习算法对知识图谱中全量实体、关系进行知识表示学习，更深层次挖掘图谱中隐含的语义信息；对于大规模的人物点向量，采用Annoy快速计算距离算法进行相似人物的聚类，由于实体关系向量考虑了图谱中的语义，为聚类提供了强有力的信息支撑；并且针对社交知识图谱增量更新情况，设计表示学习推荐算法进行周期性训练，保持推荐结果的鲜活性；整个设计方法能够有效提高人物相似度检测精度，获得更加准确的相似人物推荐效果。

Description

一种基于知识图谱表示学习的相似人物推荐方法

技术领域

本发明涉及一种基于知识图谱表示学习的相似人物推荐方法，属于知识图谱表示学习技术领域。

背景技术

随着移动互联网的兴起，社交网络成为移动互联网的典型产物，加强了人与人之间的密切交流，而人物推荐在社交网络中也起着至关重要的作用。

现有技术中存在一些人物推荐方法：

1.基于PageRank算法的网络个性化推荐方法：从网页配置文件中获取组及其组员之间的好友关系，建立每个组员的个人喜好模型。采用PageRank算法，迭代计算组员对组的影响力，从而得到整个组的喜好模型，利用该模型对组进行对象的推荐。

2.社会网络中的弱关系人物推荐算法：根据社会学理论，定义网络中的强弱关系，利用社区划分算法识别强弱关系，通过经典人物推荐算验证弱关系对于社会网络信息流通的重要性，并发现推荐网络中和用户联系为弱关系的节点给用户带来多样化的异质信息。

现如今，随着大数据的发展，人际关系网愈发庞大，现有技术对于大规模的社交网络适用性低，庞大的社交网络中存在大量的语义信息，现有技术未能捕捉到社交网络中的语义联系，而人工智能的发展已经迈向了认知智能阶段，认知智能要求机器必须学会处理人类复杂语言并进行知识推理，这对于机器来说十分困难。

发明内容

本发明所要解决的技术问题是提供一种基于知识图谱表示学习的相似人物推荐方法，采用全新设计策略，能够有效提高人物相似度检测精度，获得更加准确的相似人物推荐效果。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于知识图谱表示学习的相似人物推荐方法，基于包含各用户分别所对应各指定社交属性信息的社交知识图谱，按预设周期执行如下步骤A至步骤E，获得社交知识图谱中用户的聚类结果；进而按如下步骤I至步骤IV，针对社交知识图谱中的待推荐目标用户，实现社交知识图谱中与之相似用户的推荐；

步骤A.针对社交知识图谱中各用户分别所对应的各指定社交属性，执行RDF数据提取，获得各用户分别所对应的社交属性RDF数据，然后进入步骤B；

步骤B.以用户为点、用户彼此之间关系为边，基于各用户分别所对应的社交属性RDF数据，构建各用户分别所对应的点数据，以及各用户之间关系分别所对应的边数据；并进一步基于各点数据与各边数据，构建各个三元组结构数据，然后进入步骤C；

步骤C.构建以三元组结构数据为输入，以包含实体向量与关系向量的实体关系向量为输出的表示学习模型，并应用各个三元组结构数据，结合相应损失函数，针对表示学习模型进行训练，获得实体关系向量获得模型，然后进入步骤D；其中，实体向量中包括各个用户分别所对应的人物点向量；

步骤D.根据各个三元组结构数据，应用表示学习获得的实体关系向量模型，获得实体关系向量中实体向量内各个用户分别所对应的人物点向量，然后进入步骤E；

步骤E.根据人物点向量之间的距离，针对各个人物点向量进行聚类，获得各个聚类、以及各聚类中相应各个用户，构成社交知识图谱中用户的聚类结果；

步骤I.根据社交知识图谱中用户的聚类结果，获得待推荐目标用户所对应的聚类，作为待推荐目标用户所对应的待处理聚类，然后进入步骤II；

步骤II.针对待处理聚类中除待推荐目标用户所对应人物点向量以外的其余各个人物点向量，按其分别与待推荐目标用户所对应人物点向量之间距离，进行由小至大排序，并顺序选择其中前预设第一数量个人物点向量，获得分别所对应的用户，作为各个候选推荐用户，然后进入步骤III；

步骤III.获得各个候选推荐用户分别所对应的各指定社交属性信息，根据待推荐目标用户与候选推荐用户之间分别基于各指定社交属性的相同项比较，结合各指定社交属性分别所对应的预设相似度，获得各个候选推荐用户分别相较待推荐目标用户的相似度，然后进入步骤IV；

步骤IV.按相似度由大至小，针对各个候选推荐用户进行排序，并顺序选择其中前预设第二数量个候选推荐用户，作为与待推荐目标用户相似的各个用户进行推荐。

作为本发明的一种优选技术方案，所述步骤C包括如下步骤C1至步骤C2；

步骤C1.应用TransD算法构建以三元组结构数据为输入，实体关系向量为输出的表示学习模型如下：

h_⊥＝M_rhh，t_⊥＝M_rtt

其中，M_rh为头实体映射矩阵，M_rt为尾实体映射矩阵；h_⊥为三元组结构数据中头实体由M_rh映射后的头实体向量，t_⊥为三元组结构数据中尾实体由M_rt映射后的尾实体向量；h为三元组结构数据中头实体编码所对应的头实体向量，t为三元组结构数据中尾实体编码所对应的尾实体向量；r_p为关系向量，

为头实体映射向量，

为尾实体映射向量，I^m×n是单位矩阵；

并且构建相应的损失函数如下：

其中，r表示关系向量，l₁表示l₁范数，l₂表示l₂范数，然后进入步骤C2；

步骤C2.按预设学习率、loss值设置、实体和关系的词向量长度、每个批度输入的三元组个数、以及训练轮次，结合损失函数，针对表示学习模型进行训练，获得实体关系向量获得模型。

作为本发明的一种优选技术方案，所述步骤III包括如下步骤III-1至步骤III-3：

步骤III-1.获得各个候选推荐用户分别所对应的各指定社交属性信息，然后进入步骤III-2；

步骤III-2.分别针对各个候选推荐用户，并进一步分别针对各指定社交属性，针对候选推荐用户所对应指定社交属性信息与待推荐目标用户所对应该指定社交属性信息：

若彼此间不存在相同数据，则定义该候选推荐用户所对应该指定社交属性的相似度为0；

若彼此间仅存在一项相同数据，则定义该候选推荐用户所对应该指定社交属性的相似度为预设相似度的一半；

若彼此间存在至少两项相同数据，则定义该候选推荐用户所对应该指定社交属性的相似度为预设相似度；

由上述获得该候选推荐用户分别对应各指定社交属性的相似度，进而获得各个候选推荐用户分别对应各指定社交属性的相似度，然后进入步骤III-3；

步骤III-3.分别针对各个候选推荐用户，根据候选推荐用户对应各指定社交属性的相似度，按求和方式获得该候选推荐用户相较待推荐目标用户的相似度，进而获得各个候选推荐用户分别相较待推荐目标用户的相似度。

作为本发明的一种优选技术方案：所述步骤B中所构建点数据的格式为：点编码+\t+点编号，所构建边数据的格式为：边编码+\t+边编号，所构建三元组结构数据的格式为：头实体点编码+\t+尾实体编码+\t+边关系编码，其中，/t表示跳格转义字符。

作为本发明的一种优选技术方案：所述步骤E中，应有Annoy快速计算距离算法，获得人物点向量之间的距离。

作为本发明的一种优选技术方案：所述指定社交属性包括基本属性、社交地址、社交标签、社交关系。

本发明所述一种基于知识图谱表示学习的相似人物推荐方法及应用，采用以上技术方案与现有技术相比，具有以下技术效果：

本发明所设计一种基于知识图谱表示学习的相似人物推荐方法，采用全新设计策略，能够适用于大规模社交网络，应对庞大社交网络中存在的大量语义信息，捕捉到社交网络中的语义联系，并应用社交知识图谱进行知识推理；所设计相似人物推荐方法包括社交用户信息处理、表示学习模型训练、实体关系向量中人物点向量的聚类索引、相似人物推荐，其中，采用TransD表示学习算法对知识图谱中全量实体、关系进行知识表示学习，更深层次挖掘图谱中隐含的语义信息；对于大规模的人物点向量，采用Annoy快速计算距离算法进行相似人物的聚类，由于实体关系向量考虑了图谱中的语义，为聚类提供了强有力的信息支撑；并且针对社交知识图谱增量更新情况，设计表示学习推荐算法进行周期性训练，保持推荐结果的鲜活性；整个设计方法能够有效提高人物相似度检测精度，获得更加准确的相似人物推荐效果。

附图说明

图1是本发明所设计一种基于知识图谱表示学习的相似人物推荐方法的流程示意图；

图2是本发明设计所应用实施例中的社交知识图谱示意图；

图3是本发明所设计一种基于知识图谱表示学习的相似人物推荐方法的具体实施流程图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

知识图谱是一种规模非常大的语义网络系统，它主要目的就是为了描述真实世界里实体或概念之间的关联关系。传统知识图谱表示方法采用OWL、RDF等本体语言进行描述，随着深度学习的发展与应用，知识表示学习可以将知识图谱中的实体和关系映射在低维稠密的向量空间中，向量表示有助于机器学习并理解实体和关系间存在的语义。

本发明设计了一种基于知识图谱表示学习的相似人物推荐方法，基于包含各用户分别所对应各指定社交属性信息的社交知识图谱，实际应用当中，按预设周期执行如下步骤A至步骤E，获得社交知识图谱中用户的聚类结果。

步骤A.针对社交知识图谱中各用户分别所对应的各指定社交属性，执行RDF数据提取，获得各用户分别所对应的社交属性RDF数据，然后进入步骤B。

这里在实际应用当中，诸如设计指定社交属性包括基本属性、社交地址、社交标签、社交关系。

步骤B.以用户为点、用户彼此之间关系为边，基于各用户分别所对应的社交属性RDF数据，构建各用户分别所对应的点数据，以及各用户之间关系分别所对应的边数据；并进一步基于各点数据与各边数据，构建各个三元组结构数据，然后进入步骤C。

实际应用当中，上述所构建点数据的格式为：点编码+\t+点编号(0，1，2…)，所构建边数据的格式为：边编码+\t+边编号(0，1，2…)，所构建三元组结构数据的格式为：头实体点编码+\t+尾实体编码+\t+边关系编码，其中，/t表示跳格转义字符。

实际应用当中，上述步骤C具体执行如下步骤C1至步骤C2。

h_⊥＝M_rhh，t_⊥＝M_rft

为头实体映射向量，

为尾实体映射向量，I^m×n是单位矩阵；

并且构建相应的损失函数如下：

其中，r表示关系向量，l₁表示l₁范数，l₂表示l₂范数，然后进入步骤C2。

实际应用当中，诸如按预设学习率为0.0001、loss值设置为加入L1正则化、实体和关系的词向量长度为30、每个批度输入的三元组个数为256、以及训练轮次为3000000次，结合损失函数，针对表示学习模型进行训练。

步骤D.根据各个三元组结构数据，应用表示学习获得的实体关系向量模型，获得实体关系向量中实体向量内各个用户分别所对应的人物点向量，然后进入步骤E。

对于获得的各个实体关系向量，在实际应用当中，可以进一步将表示学习训练生成模型结果中的人物点的编码和对应的向量保存为文件，文件中数据格式为：{″id″：″人物点编码″，″vector″：″向量值″}。

步骤E.应有Annoy快速计算距离算法，计算获得人物点向量之间的距离，并根据人物点向量之间的距离，结合预设聚类个数80，针对各个人物点向量进行聚类，获得各个聚类、以及各聚类中相应各个用户，构成社交知识图谱中用户的聚类结果。

对于实际应用当中所获得的聚类结果，可以针对各个聚类、以及各聚类中相应各个用户，应用各个用户id、以及各个聚类的索引id建立对应关系，则在后续应用中，即可应用用户id与各个聚类索引id实现相互关联关系。

基于社交知识图谱中用户聚类结果的获得，进而按如下步骤I至步骤IV，针对社交知识图谱中的待推荐目标用户，实现社交知识图谱中与之相似用户的推荐。

步骤I.根据社交知识图谱中用户的聚类结果，获得待推荐目标用户所对应的聚类，作为待推荐目标用户所对应的待处理聚类，然后进入步骤II。

步骤II.针对待处理聚类中除待推荐目标用户所对应人物点向量以外的其余各个人物点向量，按其分别与待推荐目标用户所对应人物点向量之间距离，进行由小至大排序，并顺序选择其中前预设第一数量个人物点向量，获得分别所对应的用户，作为各个候选推荐用户，然后进入步骤III。

步骤III.获得各个候选推荐用户分别所对应的各指定社交属性信息，根据待推荐目标用户与候选推荐用户之间分别基于各指定社交属性的相同项比较，结合各指定社交属性分别所对应的预设相似度，获得各个候选推荐用户分别相较待推荐目标用户的相似度，然后进入步骤IV。

实际应用当中，上述步骤III具体执行如下步骤III-1至步骤III-3。

步骤III-1.获得各个候选推荐用户分别所对应的各指定社交属性信息，然后进入步骤III-2。

步骤III-2.分别针对各个候选推荐用户，并进一步分别针对各指定社交属性，针对候选推荐用户所对应指定社交属性信息与待推荐目标用户所对应该指定社交属性信息，执行如下判断：

由上述获得该候选推荐用户分别对应各指定社交属性的相似度，进而获得各个候选推荐用户分别对应各指定社交属性的相似度，然后进入步骤III-3。

上述步骤III-2中，诸如基于三个指定社交属性信息，基本属性、社交地址、社交标签分别所对应预设相似度彼此一直，均为1/3，关于候选推荐用户所对应指定社交属性信息与待推荐目标用户所对应该指定社交属性信息之间的判断设计中，若彼此间不存在相同数据，则定义该候选推荐用户所对应该指定社交属性的相似度为0；若彼此间仅存在一项相同数据，则定义该候选推荐用户所对应该指定社交属性的相似度为预设相似度的一半，即为1/6；若彼此间存在至少两项相同数据，则定义该候选推荐用户所对应该指定社交属性的相似度为预设相似度，即为1/3。

将本发明所设计基于知识图谱表示学习的相似人物推荐方法，应用于实际当中，具体按如下步骤执行。

步骤A.基于如图2所示的社交知识图谱，根据用户点中包含的信息，可提取三个维度的信息，其中社交属性包括：出生年代、学历、婚姻、身高等；社交标签包括：用户行为、身份、职业等；社交地址包括：籍贯、住址、登录地址等；社交关系包括同事、同学、父子、母女等关系，针对上述信息执行RDF数据提取，获得各用户分别所对应的社交属性RDF数据，然后进入步骤B。

步骤B.以用户为点、用户彼此之间关系为边，基于各用户分别所对应的社交属性RDF数据，构建各用户分别所对应的点数据文件entity2id.txt，以及各用户之间关系分别所对应的边数据文件relation2id.txt；并进一步基于各点数据与各边数据，构建各个三元组结构数据文件triple.txt，如下表1所示，然后进入步骤C；

表1

接下来执行步骤C、步骤D，即采用TransD表示学习模型，设置模型参数：learning_rate＝0.0001，l1_flag＝True，hidden_size＝30，batch_size＝256，epochs＝3000000；输入的数据为三元组数据，每一轮次的训练数据在正确三元组中随机有放回抽取256条，在正确的256条三元组中随机抽取头实体、尾实体和边关系组成256条错误的三元组数据，将正确的三元组数据和错误的三元组数据作为一个批度的输入数据，根据TransD损失函数计算公式获取每一批尺度训练结果的loss值，利用梯度下降算法寻找模型最优参数解。经过不断迭代训练，最终得到一个包含所有点边向量的表示学习模型，并根据模型结果过滤保存实体关系向量如表2所示：

表2

接着执行步骤E.并结合实际应用中用户id与聚类索引id之间的对应关系，获得的索引信息如下表3所示。

表3

进一步可以设计添加所有人物点的索引信息，并将聚类索引id和用户id存储至sqlite中，方便后续推荐工作。针对索引信息，设置聚类树个数为80构建索引，并将其结果作为索引文件进行保存，聚类索引文件在模型周期性训练更新完成后一同更新为最新的结果。

在步骤I至步骤IV，针对社交知识图谱中的待推荐目标用户，实现社交知识图谱中与之相似用户的推荐的操作中，执行步骤I、步骤II，诸如获得最近距离的30个候选推荐用户。

接着执行步骤III、步骤IV，查询社交知识图谱中30个候选推荐节点对应的社交属性、社交标签和社交地址信息。设置相似度为1，社交属性、社交标签、社交地址三个维度各占1/3，对待推荐节点和候选节点进行相同属性、相同标签、相同地址过滤筛选，每个维度相似度计算公式如下：

其中，i表示社交属性(propertity)或社交标签(label)或社交地址(addr)；same_i表示相同地址或相同标签或相同社交的个数。

通过上述公式计算出，001和003在社交属性维度的相似度similarity_property＝1/3，在社交标签维度的相似度similarity_label＝1/6，在社交地址维度的相似度similarity_addr＝1/6，因此001和003的整体相似度为2/3。001和005在社交属性维度的相似度similarity_property＝1/3，在社交标签维度的相似度similarity_label＝1/3，在社交地址维度的相似度similarity_addr＝1/6，因此，001和005的整体相似度为5/6。根据相似度降序排序，与001最相似的人物是005，其次是003。

上述技术方案所设计基于知识图谱表示学习的相似人物推荐方法，采用全新设计策略，能够适用于大规模社交网络，应对庞大社交网络中存在的大量语义信息，捕捉到社交网络中的语义联系，并应用社交知识图谱进行知识推理；所设计相似人物推荐方法包括社交用户信息处理、表示学习模型训练、实体关系向量中人物点向量的聚类索引、相似人物推荐，其中，采用TransD表示学习算法对知识图谱中全量实体、关系进行知识表示学习，更深层次挖掘图谱中隐含的语义信息；对于大规模的人物点向量，采用Annoy快速计算距离算法进行相似人物的聚类，由于实体关系向量考虑了图谱中的语义，为聚类提供了强有力的信息支撑；并且针对社交知识图谱增量更新情况，设计表示学习推荐算法进行周期性训练，保持推荐结果的鲜活性；整个设计方法能够有效提高人物相似度检测精度，获得更加准确的相似人物推荐效果。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于知识图谱表示学习的相似人物推荐方法，其特征在于，基于包含各用户分别所对应各指定社交属性信息的社交知识图谱，按预设周期执行如下步骤A至步骤E，获得社交知识图谱中用户的聚类结果；进而按如下步骤I至步骤IV，针对社交知识图谱中的待推荐目标用户，实现社交知识图谱中与之相似用户的推荐；

2.根据权利要求1所述一种基于知识图谱表示学习的相似人物推荐方法，其特征在于：

所述步骤C包括如下步骤C1至步骤C2；

h_⊥＝M_rhh，t_⊥＝M_rtt

为头实体映射向量，

为尾实体映射向量，I^m×n是单位矩阵；

并且构建相应的损失函数如下：

3.根据权利要求1所述一种基于知识图谱表示学习的相似人物推荐方法，其特征在于，所述步骤III包括如下步骤III-1至步骤III-3：

4.根据权利要求1至3中任意一项所述一种基于知识图谱表示学习的相似人物推荐方法，其特征在于：所述步骤B中所构建点数据的格式为：点编码+\t+点编号，所构建边数据的格式为：边编码+\t+边编号，所构建三元组结构数据的格式为：头实体点编码+\t+尾实体编码+\t+边关系编码，其中，\ t表示跳格转义字符。

5.根据权利要求1至3中任意一项所述一种基于知识图谱表示学习的相似人物推荐方法，其特征在于：所述步骤E中，应有Annoy快速计算距离算法，获得人物点向量之间的距离。