CN108399180B

CN108399180B - 一种知识图谱构建方法、装置及服务器

Info

Publication number: CN108399180B
Application number: CN201710069359.8A
Authority: CN
Inventors: 王星雅; 陈谦; 万伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-02-08
Filing date: 2017-02-08
Publication date: 2021-11-26
Anticipated expiration: 2037-02-08
Also published as: CN108399180A

Abstract

本发明实施例提供一种知识图谱构建方法、装置及服务器，该方法包括：获取至少一个应用对应的非结构化数据集合；从所述非结构化数据集合中确定侯处理词集合，所述侯处理词集合包括至少一个侯处理词；调取预设定的所述至少一个应用的关键词集合，根据各侯处理词与所述关键词集合的相似度，从所述侯处理词集合中确定所述至少一个应用的属性词集合；根据所述至少一个应用的属性词集合，挖掘知识图谱的边关系；所述边关系至少包括：应用之间的关系；至少以各个应用为节点，根据所挖掘的边关系，构建知识图谱。本发明实施例可通过应用的非结构化数据，实现知识图谱的构建，使得应用的知识图谱构建的局限性降低。

Description

一种知识图谱构建方法、装置及服务器

技术领域

本发明涉及数据处理技术领域，具体涉及一种知识图谱构建方法、装置及服务器。

背景技术

知识图谱可以为信息推荐、语义理解、问题回答等提供支持，针对知识图谱的研究具有重要意义。简单来说，知识图谱旨在描述真实世界中存在的各种实体或概念；其中，每个实体或概念用一个全局唯一确定的ID来标识，称为它们的标识符(identifier)；每个属性-值对(attribute-value pair，又称AVP)用来刻画实体的内在特性，而关系(relation)用来连接两个实体，刻画它们之间的关联；知识图谱亦可被看作是一张巨大的图，图中的节点表示实体或概念，而图中的边则由属性或关系构成。

本发明的发明人发现：随着智能手机的流行，越来越多的应用(APP)被开发出来，为实现应用推荐等目的，利用知识图谱了解不同应用之间的相关性非常必要；因此如何实现应用的知识图谱构建，成为了本领域技术人员需要考虑的问题。

发明内容

有鉴于此，本发明实施例提供一种知识图谱构建方法、装置及服务器，以实现应用的知识图谱构建。

为实现上述目的，本发明实施例提供如下技术方案：

一种知识图谱构建方法，包括：

获取至少一个应用对应的非结构化数据集合；

从所述非结构化数据集合中确定侯处理词集合，所述侯处理词集合包括至少一个侯处理词；

调取预设定的所述至少一个应用的关键词集合，根据各侯处理词与所述关键词集合的相似度，从所述侯处理词集合中确定所述至少一个应用的属性词集合；

根据所述至少一个应用的属性词集合，挖掘知识图谱的边关系；所述边关系至少包括：应用之间的关系；

至少以各个应用为节点，根据所挖掘的边关系，构建知识图谱。

本发明实施例还提供一种知识图谱构建装置，包括：

非结构化数据集合获取模块，用于获取至少一个应用对应的非结构化数据集合；

侯处理词集合确定模块，用于从所述非结构化数据集合中确定侯处理词集合，所述侯处理词集合包括至少一个侯处理词；

应用的属性词集合确定模块，用于调取预设定的所述至少一个应用的关键词集合，根据各侯处理词与所述关键词集合的相似度，从所述侯处理词集合中确定所述至少一个应用的属性词集合；

边关系挖掘模块，用于根据所述至少一个应用的属性词集合，挖掘知识图谱的边关系；所述边关系至少包括：应用之间的关系；

图谱构建模块，用于至少以各个应用为节点，根据所挖掘的边关系，构建知识图谱。

本发明实施例还提供一种服务器，包括上述所述的知识图谱构建装置。

基于上述技术方案，本发明实施例提供的知识图谱构建方法包括：获取至少一个应用对应的非结构化数据集合；从所述非结构化数据集合中确定侯处理词集合，所述侯处理词集合包括至少一个侯处理词；调取预设定的所述至少一个应用的关键词集合，根据各侯处理词与所述关键词集合的相似度，从所述侯处理词集合中确定所述至少一个应用的属性词集合；根据所述至少一个应用的属性词集合，挖掘知识图谱的边关系；所述边关系至少包括：应用之间的关系；从而至少以各个应用为节点，根据所挖掘的边关系，构建知识图谱；实现以至少一个应用的非结构化数据，构建知识图谱的目的。

本发明实施例可通过应用的非结构化数据，实现知识图谱的构建，以解决目前应用的结构化数据缺少，不适用于构建知识图谱的问题，使得应用的知识图谱构建的局限性降低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的知识图谱构建方法的流程图；

图2为本发明实施例提供的挖掘知识图谱的边关系的方法流程图；

图3为聚类结果示意图；

图4为本发明实施例提供的确定侯处理词集合的方法流程图；

图5为本发明实施例提供的确定应用的属性词集合的方法流程图；

图6为本发明实施例通过的确定各侯处理词的向量的方法流程图；

图7为本发明实施例提供的挖掘知识图谱的边关系的另一方法流程图；

图8为本发明实施例提供的知识图谱构建装置的结构框图；

图9为本发明实施例提供的服务器的硬件结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，应用一般缺少标准的结构化数据(结构化数据一般具有固定字段数据)，应用可被收集的数据一般是非结构化数据(非结构化数据一般不具有固定字段数据)，因此基于结构化数据实现应用的知识图谱构建并不适用；

以游戏应用为例，游戏介绍等数据一般是通过一段游戏描述实现，并没有固定的格式；而基于结构化数据实现的知识图谱构建，需要将游戏介绍等数据规整为固定的格式，形成结构化数据，比如将游戏介绍采用表1所示的形式描述，这对于游戏等缺少结构化数据的应用是较为困难、麻烦的；

游戏名	XX
		游戏类别	XXX
游戏厂商	XXXX

表1

因此，本发明实施例需要考虑在缺少应用的结构化数据的情况下，如何基于应用的非结构化数据，来实现应用的知识图谱构建；下面将对具体方案进行介绍。

图1为本发明实施例提供的知识图谱构建方法的流程图，该方法可应用于服务器；可选的，该服务器可以支持多个应用的接入或下载，比如支持下载不同应用的应用下载平台服务器(如应用市场的服务器)，支持多个应用接入运行的应用运行平台服务器；

以游戏应用为例，服务器可以如：支持游戏应用下载的游戏下载平台服务器，支持多个游戏应用接入的游戏平台服务器等(即该游戏平台服务器可以支持多个不同的游戏应用接入，用户可通过游戏平台服务器实现不同游戏的体验)；

参照图1，本发明实施例提供的知识图谱构建方法可以包括：

步骤S100、获取至少一个应用对应的非结构化数据集合。

可选的，本发明实施例可设定知识图谱所需要关联的至少一个应用，通过网络爬虫抓取网络中各应用的非结构化数据，获取到所述非结构化数据集合，且所述非结构化数据集合包括各应用对应的非结构化数据；

可选的，所述非结构化数据集合中，每个应用对应的非结构化数据可作为一个子集合存在，即所述非结构化数据集合包括每个应用对应的子集合，而一个应用对应的子集合由该应用的非结构化数据构成。

可选的，抓取非结构化数据的数据源可以是具有应用的基本描述数据的网站，比如百科类、论坛类网站等；具体的，本发明实施例可通过网络爬虫抓取百科类、论坛类网站中各应用的基本描述数据，从而抓取到各应用的非结构化数据，形成所述非结构化数据集合；而百科类、论坛类网站描述应用的基本描述数据一般格式不一，形式多样，不具有固定格式，可以认为从这些网站抓取的数据均为非结构化数据。

步骤S110、从所述非结构化数据集合中确定侯处理词集合，所述侯处理词集合包括至少一个侯处理词。

可选的，本发明实施例可通过预处理方式，确定所述非结构化数据集合对应的文本数据，且所述非结构化数据集合对应的文本数据由各应用对应的文本数据构成，再从所述非结构化数据集合对应的文本数据中以分词方式确定出侯处理词集合；

可选的，由于网络爬虫抓取的非结构化数据的编码格式可能不统一，且非结构化数据中可能带有网页标签，因此本发明实施例可对非结构化数据集合中的非结构化数据进行转码、去标签等预处理，确定出所述非结构化数据集合对应的文本数据；且所述非结构化数据集合对应的文本数据可以应用为单位进行集合，即由各应用对应的文本数据构成了所述非结构化数据集合对应的文本数据；

在得到所述非结构化数据集合对应的文本数据后，可对文本数据进行分词处理，去除分词结果中的低频率出现词，得到所述侯处理词集合。

步骤S120、调取预设定的所述至少一个应用的关键词集合，根据各侯处理词与所述关键词集合的相似度，从所述侯处理词集合中确定所述至少一个应用的属性词集合。

可选的，本发明实施例可确定各侯处理词的向量，根据各侯处理词的向量与所述关键词集合中各关键词的向量的余弦距离，确定各侯处理词与所述关键词集合中各关键词的相似度；从而对于每一个侯处理词，以侯处理词与所述关键词集合中各关键词的相似度的均值，作为侯处理词与所述关键词集合的相似度，确定出各侯处理词与所述关键词集合的相似度；

进而，确定与所述关键词集合的相似度大于设定相似度的侯处理词，得到所述至少一个应用的属性词，形成所述至少一个应用的属性词集合。

步骤S130、根据所述至少一个应用的属性词集合，挖掘知识图谱的边关系；所述边关系至少包括：应用之间的关系。

可选的，本发明实施例可通过将所述至少一个应用的属性词集合进行聚类处理，得到各属性种类对应的属性词集合；从而根据各应用的文本数据，从所述各属性种类对应的属性词集合中，确定各应用对应的属性匹配词集合，其中，一应用的文本数据通过对该应用的非结构化数据进行预处理得到；进而根据各应用对应的属性匹配词集合，挖掘知识图谱的边关系；

在具体实现上，本发明实施例可根据各应用对应的属性匹配词集合，确定各应用的向量，通过应用之间的向量的余弦距离表示应用之间的关系，实现知识图谱的边关系挖掘；

可选的，所述边关系还可以由各应用与各属性种类的关系，各属性种类之间的关系构成；

而一个应用与一个属性种类的关系可通过，应用的向量，与属性种类的各属性词的向量的余弦距离均值确定；

属性种类之间的关系，可通过属性种类之间两两属性词的向量计算余弦距离，然后取余弦距离均值确定。

步骤S140、至少以各个应用为节点，根据所挖掘的边关系，构建知识图谱。

可选的，本发明实施例可以各个应用为节点，根据应用之间的关系，构建知识图谱；

如果知识图谱的节点在还存在属性种类，则可以各个应用，各个属性种类为节点，根据应用之间的关系，各应用与各属性种类的关系，各属性种类之间的关系，构建知识图谱。

所构建的知识图谱与所述至少一个应用对应，即所构建的知识图谱能够表示所述至少一个应用的相关性。

本发明实施例提供的知识图谱构建方法包括：获取至少一个应用对应的非结构化数据集合；从所述非结构化数据集合中确定侯处理词集合，所述侯处理词集合包括至少一个侯处理词；调取预设定的所述至少一个应用的关键词集合，根据各侯处理词与所述关键词集合的相似度，从所述侯处理词集合中确定所述至少一个应用的属性词集合；根据所述至少一个应用的属性词集合，挖掘知识图谱的边关系；所述边关系至少包括：应用之间的关系；从而至少以各个应用为节点，根据所挖掘的边关系，构建知识图谱；实现以至少一个应用的非结构化数据，构建知识图谱的目的。

可选的，步骤S130的实现可以如图2示，包括：

步骤S131、将所述至少一个应用的属性词集合进行聚类处理，得到各属性种类对应的属性词集合。

所确定的所述至少一个应用的属性词的数量一般较多，且部分属性词之间存在语义重复的情况，因此本发明实施例可对所确定的所述至少一个应用的属性词进行聚类处理，如利用K-MEANS聚类方法将所述至少一个应用的属性词聚成多个属性种类，每个属性种类对应一个属性词集合；即一个属性种类对应的属性词集合，可以包含聚类在该属性种类下的至少一个属性词；图3示出了一种可选的聚类结果，可参照。

可选的，属性词归类后的属性种类可以作为知识图谱中的节点(实体或概念)，而作为所述至少一个应用的知识图谱，知识图谱中需要以所述至少一个应用为节点；属性种类是否作为知识图谱的节点可根据实际情况设定；即知识图谱的节点至少应包括所述至少一个应用，而根据需要，还可添加所述属性种类作为知识图谱的节点。

步骤S132、从所述各属性种类对应的属性词集合中，确定各应用对应的属性匹配词集合。

本发明实施例可调取各应用对应的文本数据，对于每一个应用，可将应用对应的文本数据，与所述各属性种类对应的属性词集合进行匹配，确定出应用的文本数据中，与所述各属性种类对应的属性词集合相匹配的属性匹配词，从而得到应用的属性匹配词集合；

一个应用的属性匹配词集合中可以包括至少一个属性匹配词；对于每一个应用的文本数据均作此处理，则可得到各应用对应的属性匹配词集合。

步骤S133、根据各应用对应的属性匹配词集合，挖掘知识图谱的边关系；所述边关系至少包括：应用之间的关系。

可选的，本发明实施例可确定各应用对应的属性匹配词集合，与各个属性种类的相似度，并根据各应用对应的属性匹配词集合，与各个属性种类的相似度，构建各应用的向量；

从而可通过应用之间向量的余弦距离确定，应用之间的关系。

可选的，图4示出了本发明实施例从非结构化数据集合中确定侯处理词集合的方法流程图，参照图4，该方法可以包括：

步骤S200、对所述非结构化数据集合进行预处理，得到所述非结构化数据集合对应的文本数据。

可选的，网络爬虫抓取的非结构化数据的编码格式可能不统一，因此需要将非结构化数据集合中编码格式与预定编码格式不同的非结构化数据进行转码处理，使得非结构化数据集合中的非结构化数据的编码格式统一与预定编码格式对应；

另外，网络爬虫抓取的非结构化数据可能带有杂乱的网页标签，因此需要对非结构化数据集合中带有网页标签的非结构化数据进行网页标签去除处理；显然，预处理手段可以不限于本段描述的转码、去标签，还可以根据实际需要调整预处理手段；

可见，作为对非结构化数据集合进行预处理的可选方式，本发明实施例可执行如下实现：

将编码格式与预定编码格式不同的非结构化数据进行转码处理，使得非结构化数据集合中的非结构化数据的编码格式统一与预定编码格式对应；

及对带有网页标签的非结构化数据进行网页标签去除处理。

可选的，所述非结构化数据集合对应的文本数据可以由，各应用对应的文本数据构成；即所述非结构化数据集合对应的文本数据可以应用为单位，相同应用的文本数据作为一个子集合存在。

步骤S210、从所述文本数据中提炼出至少一个侯处理词，得到侯处理词集合。

可选的，本发明实施例可对所述文本数据进行分词处理，得到多个分词；然后确定每个分词在文本数据中的出现频率，将出现频率低于设定频率的分词删除，得到所述至少一个侯处理词；即从所述文本数据中提炼侯处理词的可选方式可以是：对文本数据进行分词处理，从分词结果中去除出现频率较低的分词，得到侯处理词；

可选的，本发明实施例可通过基于词典的分词方式，对所述文本数据进行分词处理；即采用分词字典，基于与分词词典的字符串匹配的原理，对所述文本数据进行分词。

可选的，图5示出了本发明实施例确定所述至少一个应用的属性词集合的方法流程图，参照图5，该方法可以包括：

步骤S300、确定各侯处理词的向量。

本发明实施例可先随机初始化出各侯处理词的初始向量，再以神经网络模型训练各侯处理词的初始向量，得到各词最终的向量。

步骤S310、根据各侯处理词的向量，确定各侯处理词与所述关键词集合的相似度。

可选的，一个侯处理词与所述关键词集合的相似度，可通过侯处理词的向量，与所述关键词集合中各关键词的向量的余弦距离均值确定；

在本发明实施例中，词与词之间的相似度可通过词的向量的余弦距离表示；从而对于一个侯处理词，可确定该侯处理词与所述关键词集合中各关键词的相似度(如确定该侯处理词的向量，与所述关键词集合中各关键词的向量的余弦距离)，取所确定的相似度均值，作为该侯处理词与所述关键词集合的相似度(如在确定出该侯处理词的向量与各关键词的向量的余弦距离后，可取余弦距离的均值，作为该侯处理词与所述关键词集合的相似度)。

具体的，在得到各侯处理词的向量后，本发明实施例可调取预设定的知识图谱所需要关联的至少一个应用的关键词集合，该关键词集合由至少一个关键词构成，且各关键词的向量已预先确定；

本发明实施例需要计算各侯处理词与关键词集合的相似度，具体计算时，对于每一个侯处理词，计算侯处理词的向量与关键词集合中各关键词的向量的余弦距离，得到侯处理词与各关键词的相似度，取侯处理词与各关键词的相似度的均值，作为侯处理词与关键词集合的相似度，对每一个侯处理词均作此处理，则可得到各侯处理词与关键词集合的相似度；

设S为关键词集合中的关键词数量，j为其中的一个关键词，

为关键词j的向量，

为侯处理词t的向量，则侯处理词t与关键词集合的相似度可以由如下余弦距离公式确定：

可选的，关键词的向量确定可以是预先进行的，关键词的向量确定方式本发明实施例没有严格限制。

步骤S320、确定与所述关键词集合的相似度大于设定相似度的侯处理词，得到所述至少一个应用的属性词集合。

在确定出侯处理词集合中的各侯处理词，与所述至少一个应用的关键词集合的相似度后，可取相似度大于设定相似度的侯处理词，作为所述至少一个应用的属性词。

可选的，图6示出了本发明实施例确定各侯处理词的向量的方法流程，参照图6，该方法可以包括：

步骤S400、对各侯处理词分别随机初始化设定维的初始向量，得到各侯处理词对应的初始向量。

对于每一个侯处理词，本发明实施例可随机初始化一个设定维的初始向量，得到每一个侯处理词对应的初始向量，且一个初始向量的每一维度对应随机初始化出的一个数；

如本发明实施例可为每一个侯处理词，随机初始化一个200维的初始向量，初始向量的每一维度对应随机初始化出的一个数，且一个初始向量的每一个维度对应的随机初始化出的数值在-1至1之间；例如“我们”这个侯处理词可以随机初始化出[0.2,0.3,-0.5…1]的200维的初始向量，即[0.2,0.3,-0.5…1]是由200个维度对应的数值构成，一个维度对应一个随机初始化出的取值在-1至1之间的数值；

显然，此处所指的200维仅是可选的，本发明实施例可根据实际情况预定义设定维的维数，如设定维可以是300维，400维等。

步骤S410、利用神经网络模型训练各个侯处理词对应的初始向量，得到各个侯处理词对应的向量。

可选的，本发明实施例可遍历侯处理词集合中的每个侯处理词，对于遍历到的每一个侯处理词，从侯处理词集合中选取所遍历的侯处理词的给定词序列，根据给定词序列中各给定词对应的初始向量，以神经网络模型优化所遍历的侯处理词的初始向量，得到所遍历的侯处理词对应的向量；

如以当前遍历到的侯处理词(遍历到的当前侯处理词)的训练为例：

在遍历到当前侯处理词时，从侯处理词集合中选取当前侯处理词的前设定数个侯处理词，及后设定数个侯处理词，得到当前侯处理词的给定词序列；即当前侯处理词的给定词序列由当前侯处理词的前设定数个侯处理词，和后设定数个侯处理词构成；可选的，侯处理词集合中的侯处理词，可根据网络爬虫抓取时，侯处理词对应的文本的输入顺序进行排序；

得到当前侯处理词的给定词序列(包括多个给定词)后，可根据各给定词对应的初始向量，利用对数似然函数，分别计算当前侯处理词与各给定词对应的出现概率；

即对于当前侯处理词的各给定词，本发明实施例需要根据各给定词对应的初始向量，利用对数似然函数，计算当前侯处理词与各给定词对应的出现概率；当前侯处理词与一个给定词对应的出现概率，表示的是在一个给定词的条件下，当前侯处理词的出现概率；

如设t为当前训练词，当前训练词对应的初始向量为W_t，W为由当前侯处理词的前设定数个侯处理词及后设定数个侯处理词构成的给定词序列，i为W中的第i个给定词，给定词i对应的初始向量为W_i，则本发明实施例可采用对数似然函数，表示在给定词i的条件下，当前训练词t的出现概率；

如P(W_t|W_i)可以表示为当前训练词t与给定词i对应的出现概率，即在给定输出W_t时，关于参数W_i的似然函数(在数值上)等于，给定参数W_i后变量W_t的概率；

在得到当前侯处理词与各给定词对应的出现概率后，本发明实施例可根据当前侯处理词与各给定词对应的出现概率，利用随机梯度下降法(神经网络模型中的一种实现方法)，优化当前侯处理词的初始向量，得到当前侯处理词的向量；

设

为优化后的当前侯处理词的向量，则本发明实施例可采用随机梯度下降法优化W_t，得到当前侯处理词对应的向量，从而利用文本数据中上下文之间的相互作用关系，使处于相同上下文的侯处理词在初始向量空间上的位置最近；

优化公式可以如下：

其中，k为-N至N的整数值，N为上述所指的设定数。

可选的，在得到各应用对应的属性匹配词集合后，图7示出了本发明实施例挖掘知识图谱的边关系的可选方法流程，参照图7，该方法可以包括：

步骤S500、确定各应用对应的属性匹配词集合，与各个属性种类的相似度。

可选的，对于每一个应用，本发明实施例可将应用对应的属性匹配词集合，分别与各个属性种类对应的属性词集合进行相似度计算，得到各应用对应的属性匹配词集合，与各个属性种类的相似度；

具体的，一个应用对应的属性匹配词集合与一个属性种类的相似度计算可以是：计算应用对应的属性匹配词集合中的各属性匹配词，与属性种类对应的属性词集合中各属性词的相似度，取相似度均值作为应用对应的属性匹配词集合与属性种类的相似度；从而对于每一个应用对应的属性匹配词集合，分别以此计算与各属性种类的相似度，可得到各应用对应的属性匹配词集合，与各个属性种类的相似度；

可选的，一个应用对应的属性匹配词集合与一个属性种类的相似度计算也可以是：计算应用对应的属性匹配词集合中的各属性匹配词，与属性种类对应的属性词集合中各属性词的相似度，取设定第一个数的最大的相似度，以设定第一个数的最大的相似度的平均值，作为应用对应的属性匹配词集合与属性种类的相似度；

可选的，词之间的相似度计算可以使用词的向量的余弦距离确定。即在计算应用对应的属性匹配词集合中的一属性匹配词，与一属性种类下的一属性词的相似度时，可通过计算属性匹配词的向量，与属性词的向量的余弦距离确定。

步骤S510、对于各应用，根据应用对应的属性匹配词集合，与各个属性种类的相似度，构建各应用的向量。

可选的，一个应用的向量可以表示为一个M维度的向量，向量的每一维度的值就是应用的属性匹配词集合，与一个属性种类的相似度；即应用的向量的一个维度的值，可以认为是应用的属性匹配词集合，与该维度的属性种类的相似度。

可选的，步骤S500和步骤S510仅是根据各应用对应的属性匹配词集合，确定各应用的向量的可选方式；对于各应用，本发明实施例也可支持其他的根据应用对应的属性匹配词集合，确定应用的向量的方式。

步骤S520、根据各应用的向量，及各属性种类的属性词集合中各属性词的向量，确定各应用之间的关系，各应用与各属性种类的关系，及各属性种类之间的关系。

可选的，各应用之间的关系可通过应用间的向量的余弦距离确定，即一个应用与另一个应用的关系，可通过该两个应用的向量的余弦距离确定；

各应用与各属性种类的关系可通过应用的向量，与属性种类对应的属性词集合中各属性词的向量的余弦距离均值确定；即一个应用与一个属性种类的关系，可通过该应用的向量，与该属性种类的属性词集合中各属性词的向量的余弦距离均值确定；可选的，可确定应用的向量与属性种类的属性词集合中各属性词的向量的余弦距离，再取余弦距离均值作为应用与属性种类的关系；

各属性种类之间的关系，可通过属性种类之间两两属性词的向量计算余弦距离，然后取余弦距离均值确定；即一个属性种类与另一个属性种类的关系，可通过计算该两个属性种类的属性词集合中两两属性词的向量的余弦距离，取余弦距离的均值，作为属性种类之间的关系。

图7所挖掘的边关系为应用之间的关系，各应用与各属性种类的关系，各属性种类之间的关系；在一种可选实现方式中，本发明实施例可只挖掘应用之间的关系，从而以应用为节点，根据应用之间的关系，构建知识图谱。

本发明实施例提供的知识图谱构建方法主要包括以下方面：

收集非结构化数据集合，处理出侯处理词集合；

通过侯处理词集合挖掘出知识图谱的实体，以及实体的属性词；包括：通过神经网络方法训练侯处理词的向量，通过侯处理词的向量，从侯处理词集合中确定应用的属性词，对应用的属性词进行聚类，挖掘出聚类后分成的属性种类，以及各属性种类下的属性词；

进而对进行预处理后的各应用的文本数据，通过各属性种类下的属性词进行数据校验处理，挖掘出知识图谱的边关系；包括：将各属性种类下的属性词与应用的文本数据相匹配，确定各应用对应的属性匹配词集合；通过各应用对应的属性匹配词集合与各个属性种类的相似度，构建各应用的向量；根据各应用的向量，各属性种类的属性词的向量，挖掘出各应用之间的关系，各应用与各属性种类的关系，各属性种类之间的关系，实现知识图谱的边关系挖掘；

最后将知识图谱的边关系与应用、属性种类这些实体相结合，构建出知识图谱。

本发明实施例提供的知识图谱构建方法可应用于游戏下载平台和游戏运行平台，为游戏推荐，游戏运营提供技术支持，本发明实施例在游戏场景中的实现可以如下：

以游戏下载平台为例，游戏下载平台服务器可通过网络爬虫抓取，游戏下载平台所支持下载的多个游戏的非结构化数据，形成非结构化数据集合；

将非结构化数据集合预处理成文本数据，且该文本数据由各游戏对应的文本数据构成；

进而对预处理后的文本数据进行分词，去除低频分词结果，确定出侯处理词；

将各侯处理词随机初始化成一定维数的初始向量，再以神经网络模型对各侯处理词的初始向量进行优化，形成各侯处理词的向量；

调取设定的各游戏的关键词集合，计算各侯处理词与各关键词集合的相似度，取相似度大于设定相似度的侯处理词，作为多个游戏的属性词集合；

将多个游戏的属性词集合进行聚类，得到各个属性种类对应的属性词集合；

然后调取各个游戏预处理后的文本数据，将各游戏的文本数据分别与各个属性种类对应的属性词集合进行匹配，确定出各游戏的文本数据中与各个属性种类对应的属性词集合匹配的属性匹配词，从而得到各游戏对应的属性匹配词集合；

对于每一个游戏对应的属性匹配词集合，计算游戏对应的属性匹配词集合，与各个属性种类的相似度，从而对于每一个游戏，根据游戏对应的属性匹配词集合，与各个属性种类的相似度，构建各游戏的向量；

根据各游戏的向量，各属性种类的属性词的向量，确定出各游戏之间关系，各游戏与各属性种类的关系，各属性种类之间的关系；

进而以所述各个属性种类、各个游戏为节点，根据各游戏之间关系，各游戏与各属性种类的关系，以及各属性种类之间的关系，构建知识图谱；实现戏下载平台所支持下载的多个游戏的知识图谱的构建。

本发明实施例采用文本向量的方法，利用非结构化数据进行游戏知识图谱构建，很大程度上解决了游戏领域标准的结构化数据不足的问题，后续可通过游戏图谱对游戏属性分析，人群分析，游戏推荐和游戏营销进行指导，具体重要的意义。

下面对本发明实施例提供的知识图谱构建装置进行介绍，下文描述的知识图谱构建装置可与上文描述的知识图谱构建方法相互对应参照。

图8为本发明实施例提供的知识图谱构建装置的结构框图，参照图8，该知识图谱构建装置可以包括：

非结构化数据集合获取模块100，用于获取至少一个应用对应的非结构化数据集合；

侯处理词集合确定模块200，用于从所述非结构化数据集合中确定侯处理词集合，所述侯处理词集合包括至少一个侯处理词；

应用的属性词集合确定模块300，用于调取预设定的所述至少一个应用的关键词集合，根据各侯处理词与所述关键词集合的相似度，从所述侯处理词集合中确定所述至少一个应用的属性词集合；

边关系挖掘模块400，用于根据所述至少一个应用的属性词集合，挖掘知识图谱的边关系；所述边关系至少包括：应用之间的关系；

图谱构建模块500，用于至少以各个应用为节点，根据所挖掘的边关系，构建知识图谱。

可选的，应用的属性词集合确定模块300，用于根据各侯处理词与所述关键词集合的相似度，从所述侯处理词集合中确定所述至少一个应用的属性词集合，具体包括：

确定各侯处理词的向量；

根据各侯处理词的向量，确定各侯处理词与所述关键词集合的相似度；

确定与所述关键词集合的相似度大于设定相似度的侯处理词，得到所述至少一个应用的属性词集合。

可选的，应用的属性词集合确定模块300，用于根据各侯处理词的向量，确定各侯处理词与所述关键词集合的相似度，具体包括：

对于每一个侯处理词，计算侯处理词的向量与关键词集合中各关键词的向量的余弦距离，得到侯处理词与各关键词的相似度，取侯处理词与各关键词的相似度的均值，作为侯处理词与所述关键词集合的相似度。

可选的，应用的属性词集合确定模块300，用于确定各侯处理词的向量，具体包括：

对各侯处理词分别随机初始化设定维的初始向量，得到各侯处理词对应的初始向量；

利用神经网络模型训练各个侯处理词对应的初始向量，得到各个侯处理词对应的向量。

可选的，应用的属性词集合确定模块300，用于利用神经网络模型训练各个侯处理词对应的初始向量，得到各个侯处理词对应的向量，具体包括：

遍历侯处理词集合中的每个侯处理词；

对于遍历到的每一个侯处理词，从侯处理词集合中选取所遍历的侯处理词的给定词序列，根据给定词序列中各给定词对应的初始向量，以神经网络模型优化所遍历的侯处理词的初始向量，得到所遍历的侯处理词对应的向量。

可选的，应用的属性词集合确定模块300，用于从侯处理词集合中选取所遍历的侯处理词的给定词序列，具体包括：

在遍历到当前侯处理词时，从侯处理词集合中选取当前侯处理词的前设定数个侯处理词，及后设定数个侯处理词，得到当前侯处理词的给定词序列；

可选的，应用的属性词集合确定模块300，用于根据给定词序列中各给定词对应的初始向量，以神经网络模型优化所遍历的侯处理词的初始向量，具体包括：

根据所述给定词序列中各给定词对应的初始向量，利用对数似然函数，分别计算当前侯处理词与各给定词对应的出现概率；

根据当前侯处理词与各给定词对应的出现概率，利用随机梯度下降法，优化当前侯处理词的初始向量，得到当前侯处理词的向量。

可选的，边关系挖掘模块400，用于根据所述至少一个应用的属性词集合，挖掘知识图谱的边关系，具体包括：

将所述至少一个应用的属性词集合进行聚类处理，得到各属性种类对应的属性词集合；

根据各应用的文本数据，从所述各属性种类对应的属性词集合中，确定各应用对应的属性匹配词集合；其中，一应用的文本数据通过对该应用的非结构化数据进行预处理得到；

根据各应用对应的属性匹配词集合，挖掘知识图谱的边关系。

可选的，边关系挖掘模块400，用于根据各应用对应的属性匹配词集合，挖掘知识图谱的边关系，具体包括：

确定各应用对应的属性匹配词集合，与各个属性种类的相似度；

对于各应用，根据应用对应的属性匹配词集合，与各个属性种类的相似度，构建各应用的向量；

根据各应用的向量，确定各应用之间的关系。

可选的，边关系挖掘模块400，用于确定各应用对应的属性匹配词集合，与各个属性种类的相似度，具体包括：

对于每一个应用，将应用对应的属性匹配词集合，分别与各个属性种类对应的属性词集合进行相似度计算，得到各应用对应的属性匹配词集合，与各个属性种类的相似度；

其中，一个应用对应的属性匹配词集合与一个属性种类对应的属性词集合的相似度计算包括：计算应用对应的属性匹配词集合中的各属性匹配词，与属性种类对应的属性词集合中各属性词的相似度，取相似度均值作为应用对应的属性匹配词集合与属性种类对应的属性词集合的相似度；其中，词之间的相似度通过词的向量的余弦距离表示。

可选的，边关系挖掘模块400，用于根据各应用的向量，确定各应用之间的关系，具体包括：

根据各应用之间的向量的余弦距离，确定各应用之间的关系。

可选的，边关系挖掘模块400，用于对于各应用，根据应用对应的属性匹配词集合，与各个属性种类的相似度，构建各应用的向量，具体包括：

对于各应用，将应用的向量的一个维度的值确定为，应用的属性匹配词集合，与该维度的属性种类的相似度。

可选的，图谱构建模块500，用于至少以各个应用为节点，根据所挖掘的边关系，构建知识图谱，具体包括：

以各个应用为节点，根据各应用之间的关系，构建知识图谱。

可选的，边关系挖掘模块400，还用于根据各应用的向量，及各属性种类的属性词集合中各属性词的向量，确定各应用与各属性种类的关系，及各属性种类之间的关系；

相应的，图谱构建模块500，用于至少以各个应用为节点，根据所挖掘的边关系，构建知识图谱，具体包括：

以各个应用，各属性种类为节点，根据各应用之间的关系，各应用与各属性种类的关系，及各属性种类之间的关系，构建知识图谱。

可选的，边关系挖掘模块400，用于根据各应用的向量，及各属性种类的属性词集合中各属性词的向量，确定各应用与各属性种类的关系，及各属性种类之间的关系，具体包括：

确定一应用的向量，与一属性种类对应的属性词集合中各属性词的向量的余弦距离均值，得到该一应用与该一属性种类的关系；

根据属性种类之间两两属性词的向量计算余弦距离，将余弦距离均值确定为该属性种类之间的关系。

可选的，侯处理词集合确定模块200，用于从所述非结构化数据集合中确定侯处理词集合，具体包括：

对所述非结构化数据集合进行预处理，得到所述非结构化数据集合对应的文本数据；

从所述文本数据中提炼出至少一个侯处理词，得到侯处理词集合。

可选的，侯处理词集合确定模块200，用于对所述非结构化数据集合进行预处理，具体包括：

对带有网页标签的非结构化数据进行网页标签去除处理；

可选的，侯处理词集合确定模块200，用于从所述文本数据中提炼出至少一个侯处理词，具体包括：

对所述文本数据进行分词处理，从分词结果中去除出现频率低于设定频率的分词，得到至少一个侯处理词。

可选的，本发明实施例还提供一种服务器，该服务器可以包括上述所述的知识图谱构建装置；所述知识图谱构建装置可以认为是服务器为实现本发明实施例提供的知识图谱构建方法，所需设置的功能模块架构。

可选的，图9示出了本发明实施例提供的服务器的硬件结构，参照图9，该服务器可以包括：处理器1，通信接口2，存储器3和通信总线4；

其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，处理器1具体用于：

获取至少一个应用对应的非结构化数据集合；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种知识图谱构建方法，其特征在于，包括：

获取至少一个应用对应的非结构化数据集合；

根据各应用对应的属性匹配词集合，挖掘知识图谱的边关系，具体包括：确定各应用对应的属性匹配词集合与各个属性种类的相似度；对于各应用，根据应用对应的属性匹配词集合与各个属性种类的相似度，构建各应用的向量；根据各应用的向量，确定各应用之间的关系；所述边关系至少包括：应用之间的关系；

2.根据权利要求1所述的知识图谱构建方法，其特征在于，所述根据各侯处理词与所述关键词集合的相似度，从所述侯处理词集合中确定所述至少一个应用的属性词集合包括：

确定各侯处理词的向量；

3.根据权利要求2所述的知识图谱构建方法，其特征在于，所述根据各侯处理词的向量，确定各侯处理词与所述关键词集合的相似度包括：

4.根据权利要求2所述的知识图谱构建方法，其特征在于，所述确定各侯处理词的向量包括：

5.根据权利要求4所述的知识图谱构建方法，其特征在于，所述利用神经网络模型训练各个侯处理词对应的初始向量，得到各个侯处理词对应的向量包括：

遍历侯处理词集合中的每个侯处理词；

6.根据权利要求5所述的知识图谱构建方法，其特征在于，所述从侯处理词集合中选取所遍历的侯处理词的给定词序列包括：

所述根据给定词序列中各给定词对应的初始向量，以神经网络模型优化所遍历的侯处理词的初始向量包括：

7.根据权利要求1所述的知识图谱构建方法，其特征在于，所述确定各应用对应的属性匹配词集合，与各个属性种类的相似度包括：

其中，一个应用对应的属性匹配词集合与一个属性种类对应的属性词集合的相似度计算包括：计算应用对应的属性匹配词集合中的各属性匹配词，与属性种类对应的属性词集合中各属性词的相似度，取相似度均值作为应用对应的属性匹配词集合与属性种类对应的属性词集合的相似度；其中，词之间的相似度通过词的向量的余弦距离表示；

所述根据各应用的向量，确定各应用之间的关系包括：

8.根据权利要求1所述的知识图谱构建方法，其特征在于，所述对于各应用，根据应用对应的属性匹配词集合，与各个属性种类的相似度，构建各应用的向量包括：

9.根据权利要求7所述的知识图谱构建方法，其特征在于，所述至少以各个应用为节点，根据所挖掘的边关系，构建知识图谱包括：

10.根据权利要求1所述的知识图谱构建方法，其特征在于，所述根据各应用对应的属性匹配词集合，挖掘知识图谱的边关系还包括：

根据各应用的向量，及各属性种类的属性词集合中各属性词的向量，确定各应用与各属性种类的关系，及各属性种类之间的关系；

所述至少以各个应用为节点，根据所挖掘的边关系，构建知识图谱包括：

11.根据权利要求10所述的知识图谱构建方法，其特征在于，所述根据各应用的向量，及各属性种类的属性词集合中各属性词的向量，确定各应用与各属性种类的关系，及各属性种类之间的关系包括：

12.根据权利要求1所述的知识图谱构建方法，其特征在于，所述从所述非结构化数据集合中确定侯处理词集合包括：

13.根据权利要求12所述的知识图谱构建方法，其特征在于，所述对所述非结构化数据集合进行预处理包括：

对带有网页标签的非结构化数据进行网页标签去除处理；

所述从所述文本数据中提炼出至少一个侯处理词包括：

14.一种知识图谱构建装置，其特征在于，包括：

边关系挖掘模块，用于将所述至少一个应用的属性词集合进行聚类处理，得到各属性种类对应的属性词集合；根据各应用的文本数据，从所述各属性种类对应的属性词集合中，确定各应用对应的属性匹配词集合；其中，一应用的文本数据通过对该应用的非结构化数据进行预处理得到；根据各应用对应的属性匹配词集合，挖掘知识图谱的边关系，具体包括：确定各应用对应的属性匹配词集合与各个属性种类的相似度；对于各应用，根据应用对应的属性匹配词集合与各个属性种类的相似度，构建各应用的向量；根据各应用的向量，确定各应用之间的关系；所述边关系至少包括：应用之间的关系；

15.一种服务器，其特征在于，包括权利要求14所述的知识图谱构建装置。

16.一种服务器，其特征在于，包括存储器和处理器；

所述存储器，用于存储软件模块；

所述处理器，用于执行所述软件模块，实现如权利要求1-13任一项所述的知识图谱构建方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有软件模块，所述软件模块被处理器执行时，实现如权利要求1-13任一项所述的知识图谱构建方法。