CN113343100B

CN113343100B - 一种基于知识图谱的智慧城市资源推荐方法和系统

Info

Publication number: CN113343100B
Application number: CN202110712281.3A
Authority: CN
Inventors: 李超; 杨培钦; 石会昌; 关哲林
Original assignee: Zhongguancun Smart City Industrial Technology Innovation Strategic Alliance
Current assignee: Zhongguancun Smart City Industrial Technology Innovation Strategic Alliance
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2024-01-30
Anticipated expiration: 2041-06-25
Also published as: CN113343100A

Abstract

本发明提出了一种基于知识图谱的智慧城市数据资源推荐方法和系统，所述系统包括候选资源召回模块、知识图谱嵌入模块、知识图谱提取模块和基于深度网络模型的推荐模块。本发明的推荐系统通过关联三元组增强用户画像，利用元图实例来挖掘用户和资源之间的联系，并在MLP模型基础上引入注意力机制以考虑不同元图对结果的贡献度，从而使推荐结果更精确更具可解释性。

Description

一种基于知识图谱的智慧城市资源推荐方法和系统

技术领域

本发明涉及计算机人工智能技术领域，尤其是一种基于知识图谱的智慧城市数据资源推荐方法和系统。

背景技术

随着中国城市化的发展和城市人口的膨胀，“城市病”成为了各城市建设与管理的难题。在此背景之下，智慧城市应运而生。智慧城市把信息技术充分运用在各行各业的城市信息化高级形态，实现了信息化、工业化与城镇化的深度融合，有助于缓解“大城市病”，提高城镇化质量，并提升城市管理成效和改善市民生活质量。为响应国家信息基础设施建设号召，在各个地方城市建设智慧城市的过程中，汇集了各个领域专家的智慧，涌现出了一大批具有智慧城市规划、建设、维护能力的高校、院所、企业，并催生了诸多优秀的技术成果和解决方案。在将智慧城市领域的专家、单位、解决方案等资源整合的基础上，建立一个推荐系统，能够为专家寻找更合适的平台，为企业机构寻找更匹配的方案，可以促进智慧城市的良性发展，减少后续智慧城市建设出现的问题，有效规避信息过载问题。

现有传统技术中，无论是基于内容或者是基于协同过滤的推荐系统都无法避免数据稀疏和冷启动问题所产生的推荐结果单一和新鲜感不足问题。解决上述两种问题的思路通常是引入辅助信息。

近几年来，随着知识图谱技术的发展，不少研究学者将知识图谱作为辅助信息引入到推荐系统中。知识图谱作为一种异构信息网络，其中的结点对应实体，边对应实体之间的语义关系。在知识图谱中，大量的实体和关系数据能够为推荐系统学习用户画像和物品知识表示提供丰富的辅助信息，丰富用户和物品的属性特征，提升推荐算法的可解释性，弥补数据方面的缺陷，提升推荐结果的质量。

但是在引入知识图谱作为辅助信息时，传统的推荐系统只是简单的将知识图谱进行向量化表示引入推荐过程中，很少针对知识图谱中复杂的网络结构来构建用户与物品之间丰富的语义关系。

发明内容

针对上述问题，本发明提出了一种基于知识图谱的智慧城市数据资源推荐方法和系统，从传统推荐系统对知识图谱利用不充分和如何对知识图谱进行有效建模两个问题出发，将知识图谱作为辅助信息引入到推荐系统中，充分考虑知识图谱中复杂的网络结构，设计相应的辅助信息利用模式，最后通过深度网络模型来预测用户与智慧城市相关数据资源之间的偏好程度，为用户推荐其可能感兴趣的资源。保证推荐结果的多样性和精准度的同时，提高推荐系统的可解释性，使得用户更容易地获取其当前可能感兴趣的相关智慧城市资源信息。

本次发明的技术解决方案：一种基于知识图谱的智慧城市数据资源推荐方法，包括如下步骤：

步骤1、候选资源召回：从数据库中获取用户历史行为数据，对每一个系统中用户进行相似用户的发现，进而为每一个用户筛选出最为相似的用户集合；根据相似用户与用户行为数据筛选出每个用户的候选资源集，其中资源包括专家、企业、机构、项目需求、解决方案、案例、技术成果、学术论文、专利及软件著作；

步骤2、知识图谱嵌入：根据输入的知识图谱三元组数据，将知识图谱中所有的实体与关系转化为嵌入表示，生成实体关系-嵌入查询表；

步骤3、知识图谱提取：将知识图谱中的三元组数据、用户行为数据以及实体关系-嵌入查询表作为输入，针对每一个用户-资源对生成其对应的元图实例和关联三元组；

步骤4、基于深度网络模型的推荐：将实体关系-嵌入查询表、元图实例和关联三元组作为输入，在MLP模型的基础上引入元图实例注意力机制，以预测目标用户与目标资源之间兴趣程度。

根据本发明的另一个方面，还提出一种基于知识图谱的智慧城市数据资源推荐系统，包括：

候选资源召回模块：用于从数据库中获取用户历史行为数据，对每一个系统中用户进行相似用户的发现，进而为每一个用户筛选出最为相似的用户集合；根据相似用户与用户行为数据筛选出每个用户的候选资源集，其中资源包括专家、企业、机构、项目需求、解决方案、案例、技术成果、学术论文、专利及软件著作；

知识图谱嵌入模块：用于根据输入的知识图谱三元组数据，将知识图谱中所有的实体与关系转化为嵌入表示，生成实体关系-嵌入查询表以供知识图谱提取模块和基于深度网络模型的推荐模块调用；

知识图谱提取模块：用于将知识图谱中的三元组数据、用户行为数据以及知识图谱嵌入模块生成的实体关系-嵌入查询表作为输入，针对每一个用户-资源对生成其对应的元图实例和关联三元组；

基于深度网络模型的推荐模块：用于将知识图谱嵌入模块生成的实体关系-嵌入查询表、知识图谱提取模块生成的元图实例和关联三元组作为输入，在MLP模型的基础上，引入元图实例注意力机制，以预测目标用户与目标资源之间兴趣程度。

进一步的，候选资源召回模块通过分析用户历史行为数据挖掘用户的候选资源集合。该模块对每一个系统中用户进行相似用户的发现，进而为每一个用户筛选出最为相似的用户集合。根据相似用户的相似度与其历史行为数据，筛选出每个用户的候选资源集。该模块用于执行以下两个步骤：

第一步，通过余弦公式，计算目标用户u和其他用户的相似度/>相似度的计算公式如下：

其中，u、用户集合U，N_x为与x有过交互的数据集，这里代表用户x有过交互的资源集合。通过对目标用户u和用户/>之间的相似度/>进行排序，进而得到和用户u兴趣最接近的K个用户集合S_u,K。

第二步，通过相似用户集合，计算目标用户u和资源i之间的兴趣值P(u,i)，该兴趣值的计算公式如下：

其中，S_u,K表示和用户u兴趣最接近的K个用户集合，N_x为与x有过交互的数据集，这里N_u代表用户u有过交互的资源集合，N_i代表与资源i有过交互的用户集合，是用户u和用户/>的相似度，/>代表用户/>对资源i的是否存在交互行为。通过对目标用户u和资源i之间的兴趣值P(u,i)进行排序，进而得到目标用户u感兴趣的候选资源集，该候选集的大小固定为n。

进一步的，知识图谱嵌入模块通过访问知识图谱中所有三元组数据，将图谱中所有的实体和关系转换为固定维度的嵌入表示，生成实体关系-嵌入表，供知识图谱提取模块和基于深度网络模型的推荐模块进行查询。该模块实现过程包括以下三个步骤：

第一步，生成正负三元组样本集：对于每一个存在于知识图谱G中三元组数据，将(h,r,t)∈G视为正三元组样本；构造一个三元组数据量相同的知识图谱G'，使得每一个三元组(h',r,t')∈G'满足并将(h',r,t')视为负三元组样本。其中G和G'中的实体集E和关系集R保持一致。

第二步，初始化每个实体和关系向量：为实体集E中每一个实体和关系集R中每一个关系分别初始化一个d维向量，并且为每一个关系初始化一个对应的d维向量作为其超平面范数向量。

第三步，构造并最小化损失函数：使用正负三元组样本集来构造并最小化损失函数，并在最小化损失的过程中不断更新实体与关系向量。损失函数公式如下：

其中，h、t代表知识图谱G中三元组头尾实体对应的实体向量，h'、t'代表知识图谱G'中三元组头尾实体对应的实体向量，r代表知识图谱G与G'中三元组关系对应的关系向量，对应关系r对应的超平面范数向量。

进一步的，知识图谱提取模块通过访问知识图谱中的所有三元组数据以及知识图谱嵌入模块所生成的实体关系-嵌入表，将用户-资源对按照一定规则扩充成对应的子图数据，为推荐模块提供相关用户-资源对的数据输入。

首先对知识图谱提取模块中的相关概念进行定义。

(定义1)元图实例：给定一个有向无环图，该图只有一个的源节点n_s(入度为0)，一个目标节点n_t(出度为0)，该图包含从源节点到目标节点之间所经过的路径信息，则该图为一个(n_s,n_t)的元图实例。

(定义2)元图实例类型：元图实例中所有节点所属类别所组成的网络结构。

(定义3)用户u的k跳关联实体集：

其中，G表示知识图谱，H为最大跳数，表示与用户u有过交互的实体集合。

(定义4)用户u的k跳关联三元组集：

该知识图谱提取模块主要包括以下步骤：

第一步，根据智慧城市数据资源的特征，设计L种元图实例类型。

第二步，给定源节点(目标用户)和目标节点(具体的智慧城市数据资源)，根据目标用户的历史行为数据和知识图谱数据，对每一种元图实例类型生成对应的元图实例。元图实例生成过程中，优先选取相似度高的节点。节点相似度的计算公式如下：

其中，v_s，v_t分别代表节点s和t对应的向量。

该步骤根据目标用户和相关数据资源是否存在交互数据，分为正负反馈样本，分别组成正反馈样本元图实例集和负反馈样本元图实例集。

第三步，根据目标用户的历史行为数据从知识图谱中提取其每一跳关联三元组集合，组成集合数组S_u：

进一步的，基于深度网络模型的推荐模块根据目标用户获取候选资源召回模块中相应的候选资源，然后将知识图谱提取模块中目标用户的元图实例与关联三元组集根据知识图谱嵌入模块中的实体关系-嵌入表转化为向量作为输入，输出则是目标用户对每一个候选资源的感兴趣程度。具体的，

第一步，根据目标用户关联三元组集获取目标用户的向量。该步骤将每一跳中的关系和尾实体向量通过一维卷积操作、最大池化操作之后进行连接与变形，再将每一跳处理结果经过最大池化操作，最后获得目标用户的隐层嵌入表示u_latent。

第二步，根据目标用户元图实例集合获取每一类元图实例的向量化表示。该步骤将每一类别中的每一个元图实例进行处理。每一个元图实例中包含多个实体，将每一实体进行一维卷积和组合操作之后，进行最大池化处理得到每一元图实例的向量化表示。之后，将每一个元图实例进行连接与变形操作之后，经最大池化操作得到每一个元图实例类别的向量化表示。

第三步，设计一个基于元图实例类别的注意力机制网络，注重不同元图实例类别对应的交互特征表示的贡献度。首先将每一元图实例类型的表示向量b_i和目标用户隐层嵌入表示、候选资源向量表示v进行拼接，得到对应的交互特征向量表示p_i＝Concate(u_latent||v||b_i)，i∈L。然后将L组p_i依次输入到注意力神经网络DNN中，得到注意力系数θ_i：

DNN是多层全连接神经网络，输入是L组元图实例类别向量表示，输出是对应的匹配值。之后，根据注意力系数θ_i组合L组元图实例类别的向量化表示。得到融合不同元图实例类别的用户与候选资源的特征向量P_global：

P_global＝Concate(θ₁×p₁||θ₂×p₂|||…||θ_L×p_L)

第四步，通过多层感知器MLP将目标用户的隐层嵌入表示u_latent，候选资源向量表示v，特征向量P_global作为输入，最后输出预测的评分。

y_pred＝MLP(Concate(u_latent||v||…||P_global))

其中设计二值交叉熵损失函数作为优化目标，y_real为目标用户对候选资源的真实评分：

Loss＝-∑(y_real·log(y_Pred)+(1-y_real)·log(1-y_Pred))

本发明相较于现有技术的优点在于：

(1)本发明的智慧城市数据资源推荐系统能够在智慧城市领域有效地解决信息过载的问题，帮助每位参与智慧城市建设的专家、企业与有关机构找到其所需的智慧城市资源，包括相关的专利、案例、专家、企业等等。

(2)本发明通过候选资源召回模块，大幅降低了推荐系统中所需用户-资源对的数量，可以有效地降低获取推荐结果的时间和空间复杂度。当用户交互数据指数型增加的情况下，推荐模块的运算时间并不会因此显著增加。

(3)本发明设计的知识图谱提取模块既考虑到了通过元图实例的路径长度挖掘用户潜在的长远期兴趣，增加推荐结果的多样性，又考虑到通过挖掘用户历史行为数据的邻域，完善用户画像，强化用户的关注信息，提高推荐结果的精确度。

(4)本发明利用注意力机制来区分不同元图实例类别对最终推荐的影响，从而利用深度神经网络来组合表示向量得到预测评分，该方法提高了推荐的精确度，而元图及其注意力系数的引入提高了推荐的可解释性，进而提高用户的接受度和满意度。

附图说明

图1为基于知识图谱的智慧城市数据资源推荐系统示意图；

图2为知识图谱嵌入模块实现过程；

图3为知识图谱关系模式；

图4为基于深度网络模型的推荐模块所用深度网络模型结构。

具体实施方式

为使本发明的目的、技术方案和优点表达地更加清楚明白，以下结合附图和具实例对本发明进行详细描述。

如图1所示，根据本发明的实施例，提出一种基于知识图谱的智慧城市数据资源推荐系统，包括：候选资源召回模块、知识图谱嵌入模块、知识图谱提取模块、基于深度网络模型的推荐模块；其中，

基于深度网络模型的推荐模块：用于将知识图谱嵌入模块生成的实体关系-嵌入查询表、知识图谱提取模块生成的元图实例和关联三元组作为输入，在MLP模型的基础上引入元图实例注意力机制，以预测目标用户与目标资源之间兴趣程度。

根据本发明的有一个实施例，基于上述系统，本发明还提出一种基于知识图谱的智慧城市数据资源推荐方法，包括如下步骤：

步骤4、基于深度网络模型的推荐：将实体关系-嵌入查询表、元图实例和关联三元组作为输入，在MLP模型的基础上，引入元图实例注意力机制，以预测目标用户与目标资源之间兴趣程度。

具体的，各步骤实现过程如下：

步骤1、从数据库中获取用户历史行为数据，将其输入到候选资源召回模块，为每一个目标用户输出与其对应的候选资源集。

对每一个系统中用户进行相似用户的发现，进而为每一个用户筛选出最为相似的用户集合。根据相似用户与用户行为数据筛选出每个用户的候选资源集，其中资源包括专家、企业、机构、项目需求、解决方案、案例、技术成果、学术论文、专利及软件著作。

(1)针对每一个用户，根据其历史行为数据，通过余弦公式两两进行相似度计算，从而为每一个用户筛选出相似度最大的前20个相似用户。

(2)通过目标用户的20个相似用户，计算目标用户u和资源i之间的兴趣值P(u,i)，该兴趣值的计算公式如下：

其中，K代表相似用户的个数，S_u,K表示和用户u兴趣最接近的K个用户集合，N_x为与x有过交互的数据集，这里N_u代表用户u有过交互的item集合，N_i代表与资源i有过交互的用户集合，是用户u和用户/>的相似度，/>代表用户/>对资源i的是否存在交互行为。通过对目标用户u和资源i之间的兴趣值P(u,i)进行排序，进而得到目标用户u感兴趣的资源候选集，该候选集的大小固定为100。

步骤2、从数据库中将获取知识图谱中所有的三元组数据输入到知识图谱嵌入模块。该模块的实现过程如图2所示：

(1)三元组提取：对于数据层中的知识图谱数据，将知识图谱数据转换为三元组结构。

(2)正反馈三元组生成：对于每一个知识图谱中的三元组结构进行数据格式转换和存储。

(3)负反馈三元组构造：对于每一个知识图谱中存在的三元组数据，分析其所属的关系模式。从图3中可知，知识图谱中共存在29种关系模式。根据该三元组的关系模式生成6个不重复的三元组实例，使其符合该关系模式且所生成的三元组实例不在现有知识图谱中出现。对生成的三元组进行格式转换和存储，从而构造出负反馈三元组。

(4)初始化实体关系嵌入：为每一个实体和每一种关系初始化一个32维的向量作为该实体和关系的嵌入表示。

(5)最小化损失函数：使用正反馈三元组和负反馈三元组来构造和最小化损失函数，并且在最小化的过程中不断更新实体关系嵌入表示。

(6)实体关系-嵌入查询表输出：损失函数最小化完成之后，将训练好的实体关系的嵌入表示转化为字典序进行输出。

步骤3、将知识图谱中的三元组数据、用户行为数据以及知识图谱嵌入模块生成的实体关系-嵌入查询表作为输入，输入到知识图谱提取模块。

(1)为每一个目标用户和目标资源生成元图实例，生成的过程如下：

(1.1)设计3种元图实例类别，分别是用户-资源-用户-资源、用户-资源-资源-资源、用户-资源-领域-资源，其中资源包括专家、企业、机构、项目需求、解决方案、案例、技术成果、学术论文、专利及软件著作。

(1.2)根据每个元图实例类别，为每个目标用户-目标资源对生成至多4个元图实例，其中每个实例以目标用户作为元图实例起点，以目标资源作为元图实例终点。

(2)为每一个目标用户生成关联三元组集，生成的过程如下：

(2.1)分析目标用户u的历史行为数据，将目标用户近期交互的20个资源数据作为第0跳的实体集当用户交互资源不足20个时，可以通过随机重复抽样的方式，将/>中的实体个数凑足20个。

(2.2)根据目标用户的历史行为数据从知识图谱中提取其每一跳关联三元组集合，并且设置每一跳的关联三元组总个数为20，组成目标用户u的集合数组S_u。当某一跳i的关联三元组总个数不足20个时，可以通过随机重复抽样的方式，将中的三元组个数凑足20个。考虑到随着跳数的增加，计算复杂度呈指数型递增。因此，本次发明将总跳数设置为2。

步骤4、基于深度网络模型的推荐模块将知识图谱嵌入模块生成的实体关系-嵌入查询表、知识图谱提取模块中的元图实例和关联三元组作为输入，输出则是目标用户与目标资源之间兴趣程度的预测。该模块所使用的深度网络模型结构如图4所示。

(1)初始化深度网络模型的参数，确认该推荐模块的输入数据是否存在且完整。

(2)根据目标用户关联三元组集获取目标用户的向量。该步骤将每一跳中的关系和尾实体向量通过一维卷积操作、最大池化操作之后进行连接与变形，经过最大池化操作之后获得目标用户的隐层嵌入表示u_latent。

(3)根据目标用户元图实例集合获取每一类元图实例的向量化表示。该步骤将每一类别中的每一个元图实例进行处理。每一个元图实例中包含多个实体，将每一实体进行一维卷积和组合操作之后，进行最大池化处理得到每一元图实例的向量化表示。之后，将每一个元图实例进行连接与变形操作之后，经最大池化操作得到每一个元图实例类别的向量化表示。

(4)设计一个基于元图实例类别的注意力机制网络，注重不同元图实例类别对应的交互特征表示的贡献度。首先将每一元图实例类型的表示向量b_i和目标用户隐层嵌入表示、候选资源向量表示v进行拼接，得到对应的交互特征向量表示p_i＝Concate(u_latent||v||b_i)，i∈L。然后将L组p_i依次输入到注意力神经网络DNN中，得到注意力系数θ_i。之后，根据注意力系数θ_i组合L组元图实例类别的向量化表示。得到融合不同元图实例类别的用户与候选资源的特征向量P_global。

(5)通过多层感知器MLP将目标用户的隐层嵌入表示u_latent，候选资源向量表示v，特征向量P_global进行连接操作作为输入，最后输出预测的评分。

本发明未详细描述的部分属于本领域公知技术。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于知识图谱的智慧城市数据资源推荐方法，其特征在于，包括如下步骤：

步骤4、基于深度网络模型的推荐：将实体关系-嵌入查询表、元图实例和关联三元组作为输入，在MLP模型的基础上引入元图实例注意力机制，以预测目标用户与目标资源之间兴趣程度，所述步骤4基于深度网络模型的推荐的过程如下：

(4.1)根据目标用户关联三元组集获取目标用户的向量，该步骤将每一跳中的关系和尾实体向量通过一维卷积操作、最大池化操作之后进行连接与变形，再将每一跳的处理结果经过最大池化操作，最后获得目标用户的隐层嵌入表示u_latent；

(4.2)根据目标用户元图实例集合获取每一类元图实例的向量化表示，该步骤将每一类别中的每一个元图实例进行处理，每一个元图实例中包含多个实体，将每一实体进行一维卷积和组合操作之后，进行最大池化处理得到每一元图实例的向量化表示，之后，将每一个元图实例进行连接与变形操作之后，再经最大池化操作得到每一个元图实例类别的向量化表示；

(4.3)设计一个基于元图实例类别的注意力机制网络，注重不同元图实例类别对应的交互特征表示的贡献度，首先将每一元图实例类型的表示向量b_i和目标用户隐层嵌入表示u_latent、候选资源向量表示v进行拼接，得到对应的交互特征向量表示p_i：

p_i＝Concate(u_latent||v||b_i)，i∈L；

其中，Concate为拼接函数；

然后将L组p_i依次输入到注意力神经网络DNN中，得到注意力系数θ_i，如公式(6)所示：

DNN是多层全连接神经网络，输入是L组元图实例类别向量表示，输出是对应的匹配值，之后，根据注意力系数θ_i组合L组元图实例类别的向量化表示进行组合连接，得到融合不同元图实例类别的用户与候选资源的特征向量P_global；

(4.4)通过多层感知器MLP将目标用户的隐层嵌入表示u_latent，候选资源向量表示v，特征向量P_global作为输入，最后输出预测的评分y_pred；

其中，将二值交叉熵作为损失函数，将最小化损失函数作为优化目标，y_real为目标用户对候选资源的真实评分，损失函数如公式(7)所示：

Loss＝min{-∑(y_real·log(y_Pred)+(1-y_real)·log(1-y_Pred))} (7)

其中min表示取最小值。

2.根据权利要求1所述基于知识图谱的智慧城市数据资源推荐方法，其特征在于：所述步骤1候选资源召回实现的过程如下：

(1.1)针对每一个用户，根据其历史行为数据，通过计算用户之间的相似度，从而为每一个用户筛选出相似度最大的相似用户集；

(1.2)通过目标用户的相似用户集，计算目标用户u和资源i之间的兴趣值P(u,i)，该兴趣值的计算公式(1)如下：

其中，K代表相似用户的个数，S_u,K表示和用户u兴趣最接近的K个用户集合，N_x为与x有过交互的数据集，这里N_u代表用户u有过交互的资源集合，N_i代表与资源i有过交互的用户集合，是用户u和用户/>的相似度，/>代表用户/>对资源i的是否存在交互行为；通过对目标用户u和资源i之间的兴趣值P(u,i)进行排序，进而得到目标用户u感兴趣的资源候选集。

3.根据权利要求1所述基于知识图谱的智慧城市数据资源推荐方法，其特征在于：所述步骤3知识图谱提取的过程如下：

(3.1)根据智慧城市数据资源的特征，设计L种元图实例类型；

(3.2)给定源节点即目标用户，以及给定目标节点，即具体的智慧城市数据资源，根据目标用户的历史行为数据和知识图谱数据，对每一种元图实例类型生成多个对应的元图实例；根据目标用户和相关资源是否存在交互数据，分为正负反馈样本，分别组成正反馈样本元图实例集和负反馈样本元图实例集；节点相似度的计算公式如公式(5)所示：

其中，v_s，v_t分别代表节点s和t对应的向量；

(3.3)根据目标用户的历史行为数据从知识图谱中提取其每一跳关联三元组集合，组成集合数组S_u。