CN110427496A

CN110427496A - 用于文本处理的知识图谱扩充方法及装置

Info

Publication number: CN110427496A
Application number: CN201910715577.3A
Authority: CN
Inventors: 赵岷; 秦华鹏; 程健一; 吕雅娟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-11-08
Anticipated expiration: 2039-08-05
Also published as: CN110427496B

Abstract

本发明实施例提供一种用于文本处理的知识图谱扩充方法及装置，电子设备接收到用户输入的关联请求后，判断文本片段是否能够关联至知识图谱已收录的实体，若无法将文本片段关联至知识图谱已收录的实体，则根据知识图谱中每个实体类别的类别向量，对所述知识图谱进行扩充，从而扩充知识图谱中实体的数量，实现增强知识图谱表示能力、提升文本处理任务的准确性。

Description

用于文本处理的知识图谱扩充方法及装置

技术领域

本发明实施例涉及知识图谱技术领域，尤其涉及一种用于文本处理的知识图谱扩充方法及装置。

背景技术

信息爆炸时代，每天都会有海量的实体与信息产生。互联网作为当今最为便捷的信息获取平台，用户通过互联网获取有效信息的需求日益迫切，如何从海量数据中获取有价值的信息成为一个难题，知识图谱于此应运而生。

知识图谱(knowledge graph，KG)本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示一个实体，每条边表示实体与实体之间的关系。其中，实体指具有可区别性且独立存在的某种事物，例如某一个人、某一个城市、某一种植物、某一种商品等。知识图谱是关系的最有效的表示方式，旨在描述真实世界中存在的各种实体或概念及其关系。知识图谱通过将数据结构化，输出主体(subject)、谓词(property)、客体(object)三元组(SPO)。例如，西安是陕西省的省会这一知识，在知识图谱中即可用三元组关系<陕西，省会，西安>进行表示。知识图谱被广泛运用于推荐系统、信息检索、智能问答系统等文本处理任务中。文本处理任务中，首先，基于知识图谱得到每个实体的实体向量，然后，对文本片段进行实体链接，将可关联到实体的文本片段标注为知识图谱中的一个实体或多个同名实体，最后，使用该些实体对应的实体向量作为文本片段或整个文本的特征，执行文本处理任务。

然而，知识图谱对现实存在的实体的覆盖往往是不全面的，知识图谱中收录的实体数量经常小于现实中实际存在的实体数。因此，在利用知识图谱对文本进行标注时，经常出现文本片段表示的实体，不在知识图谱收录范围内的现象；或者，文本片段表示的实体虽然与知识图谱收录的实体的名称相同，但是实际是不同实体的现象，导致出现无法链接或者链接错误的现象，进而导致无法准确的执行文本处理任务。

发明内容

本发明实施例提供一种用于文本处理的知识图谱扩充方法及装置，通过扩展知识图谱中实体的数量，增强知识图谱表示能力，进而提升文本处理任务的准确性。

本发明提供的一种用于文本处理的知识图谱扩充方法，包括：

接收用户输入的关联请求，所述关联请求用于请求将文本片段关联至知识图谱已收录的实体；

判断是否能将所述文本片段关联至所述知识图谱已收录的实体；

若所述文本片段无法关联至所述知识图谱已收录的实体，则根据所述知识图谱中每个实体类别的类别向量，对所述知识图谱进行扩充，所述知识图谱中的每个实体对应一个实体类别。

一种可行的设计中，所述若所述文本片段无法关联至所述知识图谱已收录的实体，则根据所述知识图谱中每个实体类别的类别向量，对所述知识图谱进行扩充，包括：

确定知识图谱中第一实体的第一实体向量，所述第一实体是所述知识图谱已收录的实体；

根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量；

将所述第二实体向量对应的第二实体收录至所述知识图谱。

一种可行的设计中，所述根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量，包括：

确定所述知识图谱中与所述第一实体的实体名相同的实体，以得到多个第一集合；

将所述第一集合中的实体按照所述第一实体的实体名聚合，以得到所述实体名的类别分布；

对于所述类别分布中的目标实体类别，确定属于所述目标实体类别的实体的实体向量的平均值，得到第一平均值；

确定所述目标实体类别对应的第一类别向量；

根据所述第一平均值和所述第一类别向量，确定所述第二实体向量。

一种可行的设计中，所述根据所述第一平均值和所述第一类别向量，确定所述第二实体的第一实体向量，包括：

确定所述第一平均值和所述第一类别向量的加权平均值，将所述加权平均值作为所述第二实体向量。

确定所述第一实体对应的第一实体类别的第一类别向量；

根据所述第一实体的第一实体向量和所述第一类别向量，确定所述第二实体向量。

确定所述第一实体对应的第一实体类别的第一类别向量；

根据所述第一实体的第一实体向量和第二类别向量，确定所述第二实体向量，所述第二类别向量是与所述第一类别向量不同的类别向量。

一种可行的设计中，所述若所述文本片段无法关联至所述知识图谱已收录的实体，则根据所述知识图谱中每个实体类别的类别向量，对所述知识图谱进行扩充之前，还包括：

所述确定所述知识图谱中每个实体类别的类别向量。

一种可行的设计中，所述确定所述知识图谱中每个实体类别的类别向量，包括：

确定所述知识图谱中属于目标实体类别的实体；

确定属于所述目标实体类别实体的实体向量的平均值，以得到第二平均值，将所述第二平均值作为所述目标实体类别的类别向量。

一种可行的设计中，所述确定所述知识图谱中每个实体类别的类别向量之后，还包括：

将第三实体收录至所述知识图谱，所述第三实体的实体向量是任意一个实体类别的类别向量。

第二方面，本发明实施例提供一种用于文本处理的知识图谱扩充装置，包括：

接收模块，用于接收用户输入的关联请求，所述关联请求用于请求将文本片段关联至知识图谱已收录的实体；

判断模块，用于判断是否能将所述文本片段关联至所述知识图谱已收录的实体；

扩充模块，用于若所述判断模块判断出所述文本片段无法关联至所述知识图谱已收录的实体，则根据所述知识图谱中每个实体类别的类别向量，对所述知识图谱进行扩充，所述知识图谱中的每个实体对应一个实体类别。

一种可行的设计中，所述扩充模块，用于确定知识图谱中第一实体的第一实体向量，所述第一实体是所述知识图谱已收录的实体，根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量，将所述第二实体向量对应的第二实体收录至所述知识图谱。

一种可行的设计中，所述扩充模块，在根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量时，用于确定所述知识图谱中与所述第一实体的实体名相同的实体，以得到多个第一集合；将所述第一集合中的实体按照所述第一实体的实体名聚合，以得到所述实体名的类别分布；对于所述类别分布中的目标实体类别，确定属于所述目标实体类别的实体的实体向量的平均值，得到第一平均值；确定所述目标实体类别对应的第一类别向量；根据所述第一平均值和所述第一类别向量，确定所述第二实体向量。

一种可行的设计中，所述扩充模块，在根据所述第一平均值和所述第一类别向量，确定所述第二实体的第一实体向量时，用于确定所述第一实体对应的第一实体类别的第一类别向量，根据所述第一实体的第一实体向量和所述第一类别向量，确定所述第二实体向量。

一种可行的设计中，所述扩充模块，在根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量时，用于确定所述第一实体对应的第一实体类别的第一类别向量，根据所述第一实体的第一实体向量和所述第一类别向量，确定所述第二实体向量。

一种可行的设计中，所述扩充模块，在根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量时，用于根据所述第一实体的第一实体向量和第二类别向量，确定所述第二实体向量，所述第二类别向量是与所述第一类别向量不同的类别向量。

一种可行的设计中，上述的装置还包括：

确定模块，用于在所述判断模块判断出所述文本片段无法关联至所述知识图谱已收录的实体，所述扩充模块根据所述知识图谱中每个实体类别的类别向量，对所述知识图谱进行扩充之前，确定所述知识图谱中每个实体类别的类别向量。

一种可行的设计中，所述确定模块，用于确定所述知识图谱中属于目标实体类别的实体，确定属于所述目标实体类别实体的实体向量的平均值，以得到第二平均值，将所述第二平均值作为所述目标实体类别的类别向量。

一种可行的设计中，所述扩充模块，还用于将第三实体收录至所述知识图谱，所述第三实体的实体向量是任意一个实体类别的类别向量。

第三方面，本发明实施例提供一种显示处理装置，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上第一方面或第一方面的各种可行的实现方式所述的方法。

第四方面，本发明实施例提供一种存储介质，所述存储介质中存储有指令，当其在电子设备上运行时，使得电子设备执行如上第一方面或第一方面的各种可行的实现方式所述的方法。

第五方面，本发明实施例提供一种计算机程序产品，所述计算机程序产品在电子设备上运行时，使得电子设备执行如上第一方面或第一方面的各种可行的实现方式所述的方法。

本发明实施例提供的用于文本处理的知识图谱扩充方法及装置，电子设备接收到用户输入的关联请求后，判断文本片段是否能够关联至知识图谱已收录的实体，若无法将文本片段关联至知识图谱已收录的实体，则根据知识图谱中每个实体类别的类别向量，对所述知识图谱进行扩充，从而扩充知识图谱中实体的数量，实现增强知识图谱表示能力、提升文本处理任务的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的用于文本处理的知识图谱扩充方法的运行环境示意图；

图2是本发明实施例提供的一种用于文本处理的知识图谱扩充方法的流程图；

图3是本发明实施例提供的另一种用于文本处理的知识图谱扩充方法的流程图；

图4是本发明实施例提供的用于文本处理的知识图谱扩充方法中一种确定第二实体向量的流程图；

图5为本发明实施例提供的一种用于文本处理的知识图谱扩充装置的结构示意图；

图6为本发明实施例提供的另一种用于文本处理的知识图谱扩充装置的结构示意图；

图7为本发明实施例提供的又一种用于文本处理的知识图谱扩充装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，知识图谱作为关键技术之一，被广泛的应用于文本处理任务中。其中，文本处理任务包括文本分类、文本翻译、问答等。例如，用户输入“刘德华的年龄是多少”，当文本处理任务为文本分类，则将该文本归类为娱乐；当文本处理任务为文本翻译时，则对该文本进行翻译；当文本处理任务为问答时，则直接给出回答。该过程中，需要将文本进行分词，得到文本片段，然后，对文本片段进行实体链接，将可关联到实体的文本片段标注为知识图谱中的一个实体或多个同名实体，最后，使用该些实体对应的实体向量作为文本片段或整个文本的特征，执行文本处理任务。

上述文本处理任务中，在对文本片段与实体进行链接时，一般是将文本片段链接到知识图谱已收录的实体，然而，知识图谱对现实存在的实体的覆盖往往是不全面的。例如，很多通用的知识图谱是基于百科数据构建的，收录的实体数的数量小于现实世界中实际存在的实体数。因此，在利用知识图谱对文本进行标注时，经常出现不在知识图谱收录范围内的实体无法标注，或者，将不在收录范围内的实体被错误标注为其他同名实体。例如，中国名叫“张伟”的人超过20万，而基于百科的知识图谱收录的“张伟”为300个。当文本中出现未收录的“张伟”时，很容易错误标注为300个已收录的“张伟”中的一个或多个，或者，无法标注。

有鉴于此，本发明实施例提供一种用于文本处理的知识图谱扩充方法及装置，通过扩充知识图谱中实体的数量，增强知识图谱表示能力，进而提升文本处理任务的准确性。

图1是本发明实施例提供的用于文本处理的知识图谱扩充方法的运行环境示意图。请参照图1，电子设备与服务器建立网络连接，电子设备从服务器获取知识图谱，并对该知识图谱进行扩充；或者，由服务器自己对知识图谱进行扩充。本发明实施例并不限制知识图谱的来源，其可以是基于百科数据等构建的通用的知识图谱，也可以是私有的知识图谱。

下面，在上述图1的基础上，以电子设备对知识图谱进行扩充为例，对本发明实施例所述的知识图谱扩充方法进行详细说明。示例性的，可参见图2。

图2是本发明实施例提供的一种用于文本处理的知识图谱扩充方法的流程图，本实施例是从电子设备的角度对如何扩充知识图谱进行详细说明的，本实施例包括：

101、接收用户输入的关联请求，所述关联请求用于请求将文本片段关联至知识图谱已收录的实体。

示例性的，文本处理过程中，电子设备从待处理文本进行分词处理，从而得到多个文本片段，然后尝试将各文本片段与知识图谱中的实体进行关联，从而得到文本片段或整个文本的特征，执行文本处理任务，如智能问答、文本分类、文本翻译等。

102、判断是否能将所述文本片段关联至所述知识图谱已收录的实体，若所述文本片段无法关联至所述知识图谱已收录的实体，则执行步骤103；若所述文本片段能够关联至所述知识图谱已收录的实体，则执行步骤104。

示例性的，在将文本片段关联至知识图谱内的实体时，若该知识图谱已收录的实体中存在该文本片段对应实体，则执行步骤104，将该文本片段与已收录的实体进行关联；否则，若该知识图谱已收录的实体中不存在该文本片段对应实体，则执行步骤103，对知识图谱进行扩充。

103、根据所述知识图谱中每个实体类别的类别向量，对所述知识图谱进行扩充，所述知识图谱中的每个实体对应一个实体类别。

104、将该文本片段与知识图谱中已收录的实体进行关联。

本发明实施例提供的用于文本处理的知识图谱扩充方法，电子设备接收到用户输入的关联请求后，判断文本片段是否能够关联至知识图谱已收录的实体，若无法将文本片段关联至知识图谱已收录的实体，则根据知识图谱中每个实体类别的类别向量，对所述知识图谱进行扩充，从而扩充知识图谱中实体的数量，实现增强知识图谱表示能力、提升文本处理任务的准确性。

下面，对上述实施例中，电子设备如何对知识图谱进行扩充进行详细说明。示例性的，可参见图3，图3是本发明实施例提供的另一种用于文本处理的知识图谱扩充方法的流程图，本实施例是从电子设备的角度对如何扩充知识图谱进行详细说明的，本实施例包括：

201、确定知识图谱中第一实体的第一实体向量，所述第一实体是所述知识图谱已收录的实体。

示例性的，一个知识图谱中实体的数量可以是千万级别的，对于该千万级别的实体中的每个实体，通过知识图谱表示学习方法，如TransE、TransH等方法，计算知识图谱已收录的每个实体e的实体向量Ve。其中，实体e表示知识图谱已收录的实体中的任意实体，以下称之为第一实体。

202、确定所述知识图谱中每个实体类别的类别向量，所述知识图谱中的每个实体对应一个实体类别。

示例性的，一个知识图谱中已收录的每个实体都对应一个实体类别，例如，实体e包括人物、歌曲、小说、电子设备、植物、动物、建筑物、地面等实体类别的实体，属于同一个实体类别的实体可以有多个。本步骤中，针对每个实体类别T计算实体类别向量VT。其中，实体类别T表示多个实体类别中的任意实体类别。

203、根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量。

示例性的，对于知识图谱已收录的实体中的任意实体e，以下称之为第一实体，通过上述步骤201得到第一实体的第一实体向量以及步骤202得到的每个实体类别的类别向量，确定出第二实体向量，该第二实体向量可以为多个，也可以为一个。

204、将所述第二实体向量对应的第二实体收录至所述知识图谱。

示例性的，一个实体对应一个实体向量，因此，第二实体向量对应一个第二实体，该第二实体原本为知识图谱中未收录的实体。因此，经过本步骤，可以使得知识图谱收录该第二实体，实现对知识图谱的扩充。

本发明实施例提供的知识图谱扩充方法，通过确定知识图谱原本收录实体的实体向量，以及知识图谱中每个实体类别的类别向量，根据实体的实体向量和各实体类别的类别向量，确定出至少一个第二实体向量，并将各第二实体向量对应的第二实体收录至知识图谱，从而扩充知识图谱中实体的数量，实现增强知识图谱表示能力、提升文本处理任务的准确性。

通常情况下，在对文本中的文本片段进行标注时，最理想的结果是一个文本片段被标注到一个实体上，知识图谱中可能存在与该实体同名的实体。然而，由于知识图谱的收录范围有限，可能会出现下述几种情况：情况一、一个文本片段被标注到与正确实体同名的其他实体上；情况二、无法针对文本片段从一个知识图谱已收录的实体中找到对应的实体。下面，对本发明实施例如何扩充知识图谱以避免该两种情况进行详细说明，具体包括如下几种方式：

方式一，对产生歧义的同名实体增加第二实体。

示例性的，可参见图4，图4是本发明实施例提供的用于文本处理的知识图谱扩充方法中一种确定第二实体向量的流程图，本实施例包括：

301、确定所述知识图谱中与所述第一实体的实体名相同的实体，以得到第一集合。

示例性的，遍历知识图谱中所有已收录的实体，得到多个<实体e，实体类别T，实体名>集合，每个集合表示一个具体实体名下所有的实体。例如，一个知识图谱中共收录了1000个实体，该1000个实体包括300个“张伟”、500个“张三”以及其他200个实体，该200个人物实体中没有名字叫“张伟”或者“张三”的人物，300个“张伟”包括299个人物和1首歌曲，则<实体e，实体类别T，实体名>集合中，当实体名为张伟时，实体e表示300个“张伟”中的任意一个，实体类别T表示人物或歌曲中的任意一个；500个“张三”包括498个人物、1首歌曲和1本小说，则<实体e，实体类别T，实体名>集合中，当实体名为张三时，实体e表示500个“张三”中的任意一个，实体类别T表示人物、歌曲或小说中的任意一个。

显然，本步骤中的第一集合可以是多个<实体e，实体类别T，实体名>集合中的任意一个。

302、将所述第一集合中的实体按照所述第一实体的实体名聚合，以得到所述第一实体的类别分布。

示例性的，得到多个<实体e，实体类别T，实体名>集合之后，即得到第一集合后，可以按照实体类别聚合，进而确定出每个实体类别的类别向量，也可以按照第一实体的实体名聚合，从而得到多个第二集合。下面，对该两种聚合方法分别进行详细说明。

a：按照实体类别聚合。

示例性的，得到多个<实体e，实体类别T，实体名>集合之后，按照实体类别聚合，则可以得到每个实体类别对应的实体集合，即<实体类别T，实体集合E>。之后，则可以针对每个实体类别，分别确定类别向量。例如，假设一个知识图谱共收录了1000个实体，包括300个“张伟”、500个“张三”和其他200个人物实体，该200个人物实体中没有名字叫“张伟”或者“张三”的人物，其中，300个“张伟”包括299个人物和1首歌曲，500个“张三”包括498个人物、1首歌曲和1本小说，则实体类别T表示人物、歌曲、小说中的任意一个。

电子设备在确定所述知识图谱中每个实体类别的类别向量时，确定所述知识图谱中属于目标实体类别的实体，再确定属于所述目标实体类别实体的实体向量的平均值，以得到第二平均值，将改第二平均值作为所述目标实体类别的类别向量，该目标实体类别可以是上述的实体类别T。

当实体类别T为人物时，实体集合E包括299个人物“张伟”和498个人物“张三”，类别向量为299个人物“张伟”各自的实体向量、498个人物“张三”各自的实体向量以及200个其他人物实体各自的实体向量的平均值。

当实体类别T为歌曲时，实体集合E包括1个歌曲“张伟”和1首歌曲“张三”，类别向量为歌曲“张伟”的实体向量和歌曲“张三”的实体向量的平均值。

当实体类别T为小说时，实体集合E包括1个小说“张三”，类别向量为小说“张三”的实体向量。

b：按照实体名聚合。

示例性的，得到多个<实体e，实体类别T，实体名>集合之后，也可以按照实体名聚合，已得到每个实体名的类别分别<实体名，实体类别T1：权重1，实体类别T2：权重2，实体类别T3：权重3，…>。例如，一个知识图谱共收录了1000个实体，包括300个“张伟”、500个“张三”和其他200个人物实体，该200个人物实体中没有名字叫“张伟”或者“张三”的人物，其中，300个“张伟”包括299个人物和1首歌曲，500个“张三”包括498个人物、1首歌曲和1本小说，对实体名为“张伟”的实体进行统计可以得到两个第一集合：<张伟，人物，张伟>、<张伟，歌曲，张伟>，对该两个第一集合中的实体按照实体名聚合，得到实体名“张伟”的类别分布：<张伟，人物：299，歌曲：1>；再如，一个知识图谱中收录了6个“红色”，包括3本书籍、2首歌和1部电影，则实体名“红色”的类别分布为：<红色，书籍：3，歌曲：2，电影：1>。

303、对于所述类别分布中的目标实体类别，确定属于所述目标实体类别的实体的实体向量的平均值，得到第一平均值。

示例性的，对于类别分类中的某一个实体类别，以下称之为目标实体类别，确定属于该目标实体类别的实体的实体向量，得到第一平均值。

继续沿用步骤202中收录了1000个实体的知识图谱的例子，实体名“张伟”的类别分布为：<张伟，人物：299，歌曲：1>，当目标实体类别为人物时，则第一平均值为该299个人物张伟的实体向量的平均值。

304、确定所述目标实体类别对应的第一类别向量。

示例性，继续沿用步骤202中收录了1000个实体的知识图谱的例子，则目标实体类别对应的第一类别向量为299个人物“张伟”各自的实体向量、498个人物“张三”各自的实体向量以及200个其他人物实体各自的实体向量的平均值。

305、根据所述第一平均值和所述第一类别向量，确定所述第二实体向量。

示例性的，可以确定第一平均值和第一类别向量的加权平均值，将该加权平均值作为第二实体向量。继续沿用上面的例子，则第二实体向量为a×AVG(Ve)+(1-a)×VT，其中，a表示权重，可以根据需求调整，AVG(Ve)表示对299个人物张伟的实体向量求平均值，VT表示知识图谱中人物类实体的类别向量，该第二实体向量对应的第二实体可以表示为张伟_人物。之后，可以将该实体收录至知识图谱中。如此一来，知识图谱中共收录了1001个实体，该1001个包含301个“张伟”，该301个“张伟”包含299个人物“张伟”、1首歌曲“张伟”和一个新增的“张伟_人物”。

将该扩充的知识图谱应用于文本任务处理中时，若一个文本片段对应的实体名为“张伟”，且该文本片段表示的是一个人物，但不属于299个人物“张伟”时，则可以将该文本片段标注为“张伟_人物”实体。

上述实施例中，通过对有歧义的实体增加第二实体向量，实现降低文本任务处理中将文本片段标注为错误的同名实体或无法标注的概率，即可解决上述的情况一和情况二出现的问题。

上述实施例中，主要是对实体名相同的实体增加第二实体向量。然而，本发明实施例并不限制，在其他可行的实现方式中，也可以对不存在同名实体的实体增加第二实体向量。下面，对该种情况进行说明。

方式二、对不存在同名实体的实体增加第二实体。

一种可行的实现方式中，电子设备根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量时，确定所述第一实体对应的第一实体类别的第一类别向量，根据所述第一实体的第一实体向量和所述第一类别向量，确定所述第二实体的第一实体向量。

示例性的，以第一实体类别为歌曲为例，假设一个知识图谱中收录了200个实体，该200个实体均为歌曲类，名称为“张伟”的歌曲只有1首，但是实际中可能存在多首名为“张伟”的歌曲，则电子设备确定该200个实体的实体向量的平均值，得到第一实体类别的第一类别向量，根据该第一类别向量和歌曲名为“张伟”实体的实体向量，确定第二实体向量，该第二实体向量对应的实体可以表示为“张伟_歌曲”。之后，可以将该实体收录至知识图谱中。如此一来，知识图谱中共收录了201个实体，该201个实体包含200首歌曲和一个新增的“张伟_歌曲”。

将该扩充的知识图谱应用于文本任务处理中时，若一个文本片段对应的实体名为“张伟”，且该文本片段表示的是一首歌，但不属于200首歌中的歌曲“张伟”时，则可以将该文本片段标注为“张伟_歌曲”实体。

本实施例中，通过对知识图谱中不存在同名的实体增加第二实体，降低文本任务处理中无法标注的概率。

方式三、对于任意第一实体，该第一实体不属于第二实体类别，则增加该第二实体类别的第二实体。

一种可行的实现方式中，电子设备根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量时，确定所述第一实体对应的第一实体类别的第一类别向量，根据所述第一实体的第一实体向量和第二类别向量，确定所述第二实体向量，所述第二类别向量是与所述第一类别向量不同的类别向量。

示例性的，一个知识图谱共收录了1000个实体，包括300个“张伟”、500个“张三”和其他200个人物实体，该200个人物实体中没有名字叫“张伟”或者“张三”的人物，其中，300个“张伟”包括299个人物和1首歌曲，500个“张三”包括498个人物、1首歌曲和1本小说。针对实体名“张伟”，相较于上述的方式一和方式二，增加的第二实体向量除了“张伟_人物”、“张伟_歌曲”外，还可以增加“张伟_小说”。

另外，除了上述方式一、方式二和方式三外，还可以根据实体列表增加第三实体。此时，电子设备确定所述知识图谱中每个实体类别的类别向量之后，还可以将第三实体收录至所述知识图谱，所述第三实体的实体向量是任意一个实体类别的类别向量。

示例性的，继续沿用上述收录了1000个实体的知识图谱，除了增加的第二实体包括“张伟_人物”、“张伟_歌曲”和“张伟_小说”外，还可以增加第三实体“人物”“歌曲”“小说”。如此一来，文本任务处理过程中，文本片段中出现人物“张四”，显然，其不再知识图谱收录范围内，此时，可以将该文本片段标注为“人物”。

下面，对本发明实施例中，如何对文本片段进行标注进行详细说明。

示例性的，本发明实施例中，对文本片段进行标注时，基于扩充的知识图谱，可使用任意的实体链接(entity linking)方法。以上述收录了1000个实体的知识图谱中的张伟为例，基于方式一会增加一个实体“张伟_人物”，基于方式二会增加“张伟_人物”与“张伟_歌曲”两个实体。标注过程中，若一个内容为“张伟”的文本片段无法被准确标注为299个人物实体中的任意一个实体时，则判断该文本片段是人物类还是歌曲类，若是人物类，则将其标注为“张伟_人物”。

一般而言，实体链接算法最终为每个待链接的文本片段生成排序的实体链接集，如排名前5的实体供下游算法使用；或者，若实体链接算法输出空集，表示该片段无法链接到知识图谱收敛的实体上。下面，对该两种情况分别进行说明：

若实体链接算法生成的是实体链接集，则对实体链接集合中的每个实体，查找其对应的实体向量，将该实体向量作为文本片段的实体向量表示结果；

若实体链接算法生成的是空集，若知识图谱中存在第三实体，则将其链接至第三实体。

例如，文本片段“张伟”的top1非空集链接结果可能为①“张伟人物e”(某个已收录的人物类张伟实体)、②“张伟歌曲e”(已收录的歌曲类张伟实体)、③“张伟_人物”(某个名为张伟的未收录人物)、④“张伟_歌曲”(某个名为张伟的未收录歌曲)、⑤“小说”算法判定该片段为小说，但知识图谱未收录)。对于①和②，属于常规的实体链接结果，对于③、④、⑤，通过本发明提供的方法虽然不如①和②提供的实体信息量大，但相比于不链接或链接错误，仍提供了有意义的实体信息，为后续的文本处理任务提供了有效信息。

图5为本发明实施例提供的一种用于文本处理的知识图谱扩充装置的结构示意图，该用于文本处理的知识图谱扩充装置可以通过软件和/或硬件的方式实现。如图5所示，该用于文本处理的知识图谱扩充装置100包括：

接收模块11，用于接收用户输入的关联请求，所述关联请求用于请求将文本片段关联至知识图谱已收录的实体；

判断模块12，用于判断是否能将所述文本片段关联至所述知识图谱已收录的实体；

扩充模块13，用于若所述判断模块12判断出所述文本片段无法关联至所述知识图谱已收录的实体，则根据所述知识图谱中每个实体类别的类别向量，对所述知识图谱进行扩充，所述知识图谱中的每个实体对应一个实体类别。

一种可行的设计中，所述扩充模块13，用于确定知识图谱中第一实体的第一实体向量，所述第一实体是所述知识图谱已收录的实体，根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量，将所述第二实体向量对应的第二实体收录至所述知识图谱。

一种可行的设计中，所述扩充模块13，在根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量时，用于确定所述知识图谱中与所述第一实体的实体名相同的实体，以得到多个第一集合；将所述第一集合中的实体按照所述第一实体的实体名聚合，以得到所述实体名的类别分布；对于所述类别分布中的目标实体类别，确定属于所述目标实体类别的实体的实体向量的平均值，得到第一平均值；确定所述目标实体类别对应的第一类别向量；根据所述第一平均值和所述第一类别向量，确定所述第二实体向量。

一种可行的设计中，所述扩充模块13，在根据所述第一平均值和所述第一类别向量，确定所述第二实体的第一实体向量时，用于确定所述第一实体对应的第一实体类别的第一类别向量，根据所述第一实体的第一实体向量和所述第一类别向量，确定所述第二实体向量。

一种可行的设计中，所述扩充模块13，在根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量时，用于确定所述第一实体对应的第一实体类别的第一类别向量，根据所述第一实体的第一实体向量和所述第一类别向量，确定所述第二实体向量。

一种可行的设计中，所述扩充模块13，在根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量时，用于确定所述第一实体对应的第一实体类别的第一类别向量，根据所述第一实体的第一实体向量和第二类别向量，确定所述第二实体向量，所述第二类别向量是与所述第一类别向量不同的类别向量。

图6为本发明实施例提供的另一种用于文本处理的知识图谱扩充装置的结构示意图，该用于文本处理的知识图谱扩充装置在上述图5的基础上，进一步的，还包括：

确定模块14，用于在所述判断模块12判断出所述文本片段无法关联至所述知识图谱已收录的实体，所述扩充模块13根据所述知识图谱中每个实体类别的类别向量，对所述知识图谱进行扩充之前，确定所述知识图谱中每个实体类别的类别向量。

一种可行的设计中，所述确定模块14，用于确定所述知识图谱中属于目标实体类别的实体，确定属于所述目标实体类别实体的实体向量的平均值，以得到第二平均值，将所述第二平均值作为所述目标实体类别的类别向量。

一种可行的设计中，所述扩充模块13，还用于将第三实体收录至所述知识图谱，所述第三实体的实体向量是任意一个实体类别的类别向量。

图7为本发明实施例提供的又一种用于文本处理的知识图谱扩充装置的结构示意图。如图7所示，该用于文本处理的知识图谱扩充装置200包括：

至少一个处理器21和存储器22；

所述存储器22存储计算机执行指令；

所述至少一个处理器21执行所述存储器22存储的计算机执行指令，使得所述至少一个处理器21执行如上所述的用于文本处理的知识图谱扩充方法。

处理器21的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

可选地，该用于文本处理的知识图谱扩充装置200还包括通信部件23。其中，处理器21、存储器22以及通信部件23可以通过总线24连接。

本发明实施例还提供一种存储介质，所述存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上所述的用于文本处理的知识图谱扩充方法。

本发明实施例还提供一种计算机程序产品，当所述计算机程序产品在服务器上运行时，使得服务器执行如上述用于文本处理的知识图谱扩充方法。

在上述的实施例中，应该理解到，所描述的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台用于文本处理的知识图谱扩充装置(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(industry standard architecture，ISA)总线、外部设备互连(peripheral component，PCI)总线或扩展工业标准体系结构(extendedIndustry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本发明附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits，ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

在本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系；在公式中，字符“/”，表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中，a，b，c可以是单个，也可以是多个。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种用于文本处理的知识图谱扩充方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述若所述文本片段无法关联至所述知识图谱已收录的实体，则根据所述知识图谱中每个实体类别的类别向量，对所述知识图谱进行扩充，包括：

将所述第二实体向量对应的第二实体收录至所述知识图谱。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量，包括：

确定所述目标实体类别对应的第一类别向量；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一平均值和所述第一类别向量，确定所述第二实体的第一实体向量，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量，包括：

确定所述第一实体对应的第一实体类别的第一类别向量；

6.根据权利要求2所述的方法，其特征在于，所述根据所述第一实体向量和每个实体类别的类别向量，确定第二实体向量，包括：

确定所述第一实体对应的第一实体类别的第一类别向量；

7.根据权利要求1～6任一项所述的方法，其特征在于，所述若所述文本片段无法关联至所述知识图谱已收录的实体，则根据所述知识图谱中每个实体类别的类别向量，对所述知识图谱进行扩充之前，还包括：

所述确定所述知识图谱中每个实体类别的类别向量。

8.根据权利要求7所述的方法，其特征在于，所述确定所述知识图谱中每个实体类别的类别向量，包括：

确定所述知识图谱中属于目标实体类别的实体；

9.根据权利要求7所述的方法，其特征在于，所述确定所述知识图谱中每个实体类别的类别向量之后，还包括：

10.一种用于文本处理的知识图谱扩充装置，其特征在于，包括：

11.一种电子设备，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上述权利要求1-10任一项所述的方法。

12.一种存储介质，其特征在于，所述存储介质中存储有指令，当其在电子设备上运行时，使得电子设备执行如权利要求1-10任一项所述的方法。