CN112633000A

CN112633000A - 一种文本中实体的关联方法、装置、电子设备及存储介质

Info

Publication number: CN112633000A
Application number: CN202011559582.9A
Authority: CN
Inventors: 崔小波
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-09

Abstract

本申请提供了一种文本中实体的关联方法、装置、电子设备及存储介质，其中，该关联方法包括：获取目标文本中包括的多个实体；根据实体与知识图谱库中数据库表的对应关系，查找目标文本中每个实体对应的数据库表；从每个实体对应的数据库表中查找该实体对应的候选实体，以及候选实体的第一特定信息；针对每个实体，根据目标文本中摘要的语义信息，该实体所在的语句的语义信息，以及该实体对应的每个候选实体的第一特定信息，从该实体对应的多个候选实体中，选取该实体对应的目标实体；获取知识图谱库中目标实体对应的第二特定信息，并将第二特定信息与实体相关联。本申请能够提高选取出的目标实体的准确率，并且提高目标实体的召回率。

Description

一种文本中实体的关联方法、装置、电子设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，具体而言，涉及一种文本中实体的关联方法、装置、电子设备及存储介质。

背景技术

实体关联技术是一种文本分析技术，具体的，将文本中出现的词或词组作为文本实体，在知识图谱库中查找与文本实体相似的关联实体，并基于关联实体确定文本的真实含义，便于人们准确把握文本的含义。

现阶段，文本中实体与知识图谱库中实体的关联方式为：获取文本包括的多个文本实体，遍历知识图谱库，查找文本实体对应的多个候选实体，基于文本实体的名称与候选实体的属性值，从多个候选实体中选取与文本实体关联度高的关联实体。

但是，文本实体的名称并不能全面地体现文本实体的真实含义，候选实体的属性值也不能全面地体现候选实体的真实含义，基于文本实体的名称和候选实体的属性值选取关联实体时，选取出的关联实体的准确度低、召回率低。

发明内容

有鉴于此，本申请实施例的目的在于提供一种文本中实体的关联方法、装置、电子设备及存储介质，基于目标文本中摘要的语义信息，文本实体所在的语句的语义信息，以及文本实体对应的每个候选实体的第一特定信息，选取与文本实体关联的目标实体，能够提高选取出的目标实体的准确率，并且提高目标实体的召回率。

第一方面，本申请实施例提供了一种文本中实体的关联方法，所述关联方法包括：

获取目标文本中包括的多个实体；

根据实体与知识图谱库中数据库表的对应关系，查找所述目标文本中每个实体对应的数据库表；

从所述目标文本的每个实体对应的数据库表中查找该实体对应的候选实体，以及所述候选实体的第一特定信息；

针对每个实体，根据所述目标文本中摘要的语义信息，该实体所在的语句的语义信息，以及该实体对应的每个候选实体的第一特定信息，从该实体对应的多个候选实体中，选取该实体对应的目标实体；

获取所述知识图谱库中所述目标实体对应的第二特定信息，并将所述第二特定信息与所述目标实体对应的实体相关联。

在一种可能的实施方式中，所述候选实体的第一特定信息至少包括名称、属性值、关系、关系实体、所述关系实体的名称、所述关系实体的属性值、描述信息；所述针对每个实体，根据所述目标文本中摘要的语义信息，该实体所在的语句的语义信息，以及该实体对应的每个候选实体的第一特定信息，从该实体对应的多个候选实体中，选取该实体对应的目标实体，包括：

根据该实体所在语句的语义信息，以及该实体对应的每个候选实体的属性值，确定该实体与每个候选实体之间的第一相似度；

根据所述目标文本中摘要的语义信息，以及该实体对应的每个候选实体的名称和关系，确定该实体与每个候选实体之间的第二相似度；

根据所述目标文本中摘要的语义信息，以及该实体对应的每个候选实体的名称、属性值、关系实体的名称、关系实体的属性值，确定该实体与每个候选实体之间的第三相似度；

根据所述目标文本中摘要的语义信息，以及该实体对应的每个候选实体的描述信息，确定该实体与每个候选实体之间的第四相似度；

根据该实体与每个候选实体之间的第一相似度、第二相似度、第三相似度、第四相似度，确定该实体与每个候选实体之间的相似度；

根据该实体与每个候选实体之间的相似度，从该实体对应的多个候选实体中，选取该实体对应的目标实体。

在一种可能的实施方式中，在查找所述目标文本中每个实体对应的数据库表之后，所述关联方法还包括：

根据实体与字段的对应关系，查找所述目标文本中每个实体对应的特定字段；

从所述目标文本的每个实体对应的数据库表的特定字段中查找该实体对应的候选实体，以及所述候选实体的第一特定信息。

在一种可能的实施方式中，通过如下方式确定目标文本中摘要的语义信息：

对所述目标文本的摘要进行分词处理，得到所述摘要包括的多个分词；

基于预设的无用分词，对所述摘要包括的多个分词中的无用分词进行剔除处理，得到所述摘要包括的多个目标分词；

根据每个目标分词对应的向量，确定所述摘要对应的向量，并将所述摘要对应的向量确定为所述目标文本中摘要的语义信息。

在一种可能的实施方式中，通过如下方式生成目标文本的摘要：

基于预设的第一分割符号，对所述目标文本进行分割处理，得到所述目标文本包括的多个第一语句；

根据每两个第一语句之间的相似度，确定每个第一语句的权重值；

根据每个第一语句的权重值，从所述目标文本包括的多个第一语句中选取摘要语句，并基于选取出的摘要语句，生成所述目标文本的摘要。

在一种可能的实施方式中，通过如下方式确定实体所在的语句的语义信息：

基于预设的第二分割符号，对所述目标文本进行分割处理，得到所述目标文本包括的多个第二语句；

获取实体所在的第二语句，并对实体所在的第二语句进行分词处理，得到实体所在的第二语句包括的多个分词；

根据实体所在的第二语句包括的每个分词对应的向量，确定实体所在的第二语句对应的向量，并将实体所在的第二语句对应的向量，确定为所述实体所在的语句的语义信息。

在一种可能的实施方式中，所述关联方法还包括：

根据所述目标文本中每个实体关联的第二特定信息，生成所述目标文本的概括信息，并对所述概括信息进行显示。

第二方面，本申请实施例提供了一种文本中实体的关联装置，所述关联装置包括：

第一获取模块，用于获取目标文本中包括的多个实体；

第一查找模块，用于根据实体与知识图谱库中数据库表的对应关系，查找所述目标文本中每个实体对应的数据库表；

第二查找模块，用于从所述目标文本的每个实体对应的数据库表中查找该实体对应的候选实体，以及所述候选实体的第一特定信息；

第一选取模块，用于针对每个实体，根据所述目标文本中摘要的语义信息，该实体所在的语句的语义信息，以及该实体对应的每个候选实体的第一特定信息，从该实体对应的多个候选实体中，选取该实体对应的目标实体；

第二获取模块，用于获取所述知识图谱库中所述目标实体对应的第二特定信息；

关联模块，用于将所述第二特定信息与所述目标实体对应的实体相关联。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行第一方面任一项所述的文本中实体的关联方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一方面任一项所述的文本中实体的关联方法的步骤。

本申请实施例提供的一种文本中实体的关联方法、装置、电子设备及存储介质，其中，该关联方法包括：获取目标文本中包括的多个实体；根据实体与知识图谱库中数据库表的对应关系，查找所述目标文本中每个实体对应的数据库表；从所述目标文本的每个实体对应的数据库表中查找该实体对应的候选实体，以及所述候选实体的第一特定信息；针对每个实体，根据所述目标文本中摘要的语义信息，该实体所在的语句的语义信息，以及该实体对应的每个候选实体的第一特定信息，从该实体对应的多个候选实体中，选取该实体对应的目标实体；获取所述知识图谱库中所述目标实体对应的第二特定信息，并将所述第二特定信息与所述目标实体对应的实体相关联。本申请实施例能够基于目标文本中摘要的语义信息，文本实体所在的语句的语义信息，以及文本实体对应的每个候选实体的第一特定信息，选取与文本实体关联的目标实体，提高选取出的目标实体的准确率，并且提高目标实体的召回率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种文本中实体的关联方法的流程图；

图2示出了本申请实施例提供的另一种文本中实体的关联方法的流程图；

图3示出了本申请实施例提供的另一种文本中实体的关联方法的流程图；

图4示出了本申请实施例提供的另一种文本中实体的关联方法的流程图；

图5示出了本申请实施例提供的另一种文本中实体的关联方法的流程图；

图6示出了本申请实施例提供的另一种文本中实体的关联方法的流程图；

图7示出了本申请实施例提供的一种文本中实体的关联装置的结构示意图；

图8示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

基于上述问题，本申请实施例提供了一种文本中实体的关联方法、装置、电子设备及存储介质，其中，该关联方法包括：获取目标文本中包括的多个实体；根据实体与知识图谱库中数据库表的对应关系，查找所述目标文本中每个实体对应的数据库表；从所述目标文本的每个实体对应的数据库表中查找该实体对应的候选实体，以及所述候选实体的第一特定信息；针对每个实体，根据所述目标文本中摘要的语义信息，该实体所在的语句的语义信息，以及该实体对应的每个候选实体的第一特定信息，从该实体对应的多个候选实体中，选取该实体对应的目标实体；获取所述知识图谱库中所述目标实体对应的第二特定信息，并将所述第二特定信息与所述目标实体对应的实体相关联。本申请实施例能够基于目标文本中摘要的语义信息，文本实体所在的语句的语义信息，以及文本实体对应的每个候选实体的第一特定信息，选取与文本实体关联的目标实体，提高选取出的目标实体的准确率，并且提高目标实体的召回率。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案，都应该是发明人在本申请过程中对本申请做出的贡献。

下面将结合本申请中附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种文本中实体的关联方法进行详细介绍。

参见图1所示，图1为本申请实施例提供的一种文本中实体的关联方法的流程图，该关联方法包括以下步骤：

S101、获取目标文本中包括的多个实体。

该步骤中，目标文本为包括多个字符的文本，目标文本中包括多个句子，且多个句子均围绕同一主题展开，目标文本可以是一篇文章，一段新闻稿，或者其他类型的文本。目标文本中包括的实体可以是人名、物体名等名词，或者是其他特定的词语。

在获取待处理的目标文本后，将目标文本输入到预先训练好的实体识别模型中，获取实体识别模型输出的目标文本包括的多个实体，这里，实体识别模型可以为CRF(Conditional Random Field)实体识别模型。

S102、根据实体与知识图谱库中数据库表的对应关系，查找所述目标文本中每个实体对应的数据库表。

该步骤中，知识图谱库由点和边构成，可以包括实体(节点)-实体关系(边)-关系实体(节点)的结构，其中，实体关系是有方向的，比如，姚明-妻子-叶莉，叶莉-丈夫-姚明；也可以包括实体(节点)-属性(边)-属性值(节点)的结构，比如，姚明-性别-男，还可以包括实体的描述信息，比如，姚明(实体)的篮球职业生涯介绍(描述信息)。

在从知识图谱库中查找目标文本的候选实体时，由于知识图谱库中通常会包含海量的节点，导致查找候选实体所耗费的时间长，查询速度慢，并且用户通常只关注知识图谱库中的重要节点，并非全部节点，比如，目标文本中的实体包括：姓名“姚明”、性别“男”，如果每个实体都去搜索知识图谱库中的全部节点，包括实体、属性、关系，“男”可能会搜索到非常多的信息，并且大部分信息都是噪音，没有任何作用。

基于此，预先设置有实体与知识图谱库中数据库表的对应关系，在同一个知识图谱库中，不同的实体对应有不同的数据库表，在需要查找目标文本中实体对应的候选实体时，首先确定实体对应的数据库表，比如，实体为姚明，该实体对应的数据库表为运动员数据库表。实际中，通常通过设置数据库表结构的方式，实现实体与知识图谱库中数据库表的对应关系的设置。在实体对应的数据库表中查找实体对应的候选实体，能够提高查找候选实体的速度。

可选的，在对同一类实体进行处理时，针对这一类实体配置固定的数据库表，即针对同一类的任一实体，均在知识图谱库的同一个数据库表中查找该类实体对应的候选实体，在查找实体对应的候选实体时，首先确定实体对应的类别，根据实体的类别确定该类别对应的数据库表，在确定的数据库表中查找该实体对应的候选实体。

S103、从所述目标文本的每个实体对应的数据库表中查找该实体对应的候选实体，以及所述候选实体的第一特定信息。

该步骤中，针对目标文本中的每个实体，在确定与该实体相对应的数据库表后，在确定的数据库表中遍历该实体，查找该实体对应的候选实体，并获取与该实体对应的候选实体，以及候选实体的第一特定信息，具体的，候选实体的第一特定信息至少包括名称、属性值、关系、关系实体、关系实体的名称、关系实体的属性值、描述信息，第一特定信息中不仅包括与候选实体相关的名称、属性值、描述信息以及关系(即实体关系)，还包括与候选实体之间存在关系的关系实体的名称和属性值，第一特定信息可以表征候选实体的真实含义。

S104、针对每个实体，根据所述目标文本中摘要的语义信息，该实体所在的语句的语义信息，以及该实体对应的每个候选实体的第一特定信息，从该实体对应的多个候选实体中，选取该实体对应的目标实体。

该步骤中，目标文本中摘要的语义信息即为目标文本中摘要的向量表示，实体所在的语句的语义信息即为实体所在的语句的向量表示。在同一个目标文本中，根据目标文本的摘要内容，确定摘要的语义信息，目标文本包括的每个实体均对应相同的摘要语义信息；根据目标文本中每个实体所在语句的内容，确定该实体所在的语句的语义信息。针对目标文本中的每个实体，基于目标文本中摘要的语义信息以及该实体所在的语句的语义信息，能够表征该实体的真实含义，并且每个候选实体的第一特定信息可以表征该候选实体的真实含义，基于上述信息，从每个实体对应的多个候选实体中，选取该实体对应的目标实体，其中，目标实体即为与实体关联度高的一个或几个候选实体。

S105、获取所述知识图谱库中所述目标实体对应的第二特定信息，并将所述第二特定信息与所述目标实体对应的实体相关联。

该步骤中，在确定目标文本中每个实体对应的目标实体后，从知识图谱库中获取目标实体对应的第二特定信息，为了提高获取第二特定信息的效率，还可以从目标实体对应的数据库表中获取目标实体对应的第二特定信息，并将第二特定信息与目标实体对应的实体相关联。

其中，目标实体的第二特定信息可以为目标实体在知识图谱库中的预设度关系，比如，一度关系、二度关系等，为了避免第二特定信息过于冗杂，以及避免第二特定信息与目标实体关联度低，一般不超过二度关系，其中，目标实体在知识图谱库中的一度关系，为目标实体在知识图谱库中直接相连的关系，比如，目标实体“姚明”的一度关系为“姚明-妻子-叶莉”；目标实体在知识图谱库中的二度关系，为目标实体在知识图谱库中两次连接关系(包括两次连接关系)内的关系，比如，目标实体“姚明”的二度关系为“姚明-妻子-叶莉-同学-小红”。

在获取与目标文本中每个实体关联的第二特定信息后，所述关联方法还包括：根据所述目标文本中每个实体关联的第二特定信息，生成所述目标文本的概括信息，并对所述概括信息进行显示。

具体的，针对目标文本中的每个实体，根究该实体关联的第二特定信息，确定该实体的含义，并根据每个实体的含义可以推断整个目标文本的含义，进而根据目标文本中每个实体关联的第二特定信息，生成目标文本的概括信息，并将生成的概括信息发送给对应的终端，以使该终端对概括信息进行显示。

实际中，还可以针对每个实体，基于该实体关联的第二特定信息，生成该实体的概括信息，比如，针对实体“姚明”，根据与“姚明”关联的第二特定信息，比如，妻子叶莉，父亲姚志源，朋友易建联，职务中国篮球协会主席、CBA董事长，生成与“姚明”相关的概括信息，并对生成的概括信息进行显示。

本申请实施例提供的文本中实体的关联方法，在确定实体对应的候选实体时，基于实体与知识图谱库中数据库表的对应关系，查找目标文本中每个实体对应的数据库表，进而从每个实体对应的数据库表中查找该实体对应的候选实体，能够减少查找候选实体耗费的时长，提高查找候选实体的效率。在确定实体对应的目标实体时，基于目标文本中摘要的语义信息，文本实体所在的语句的语义信息，以及文本实体对应的每个候选实体的第一特定信息，选取与文本实体关联的目标实体，能够提高选取出的目标实体的准确率，并且提高目标实体的召回率。

进一步的，参见图2所示，图2为本申请实施例提供的另一种文本中实体的关联方法的流程图，所述候选实体的第一特定信息至少包括名称、属性值、关系、关系实体、所述关系实体的名称、所述关系实体的属性值、描述信息；所述针对每个实体，根据所述目标文本中摘要的语义信息，该实体所在的语句的语义信息，以及该实体对应的每个候选实体的第一特定信息，从该实体对应的多个候选实体中，选取该实体对应的目标实体，包括：

S201、根据该实体所在语句的语义信息，以及该实体对应的每个候选实体的属性值，确定该实体与每个候选实体之间的第一相似度。

该步骤中，实体所在语句的语义信息即为实体所在语句的向量表示，针对每个实体，获取该实体对应的每个候选实体的属性值，并确定上述属性值的向量，根据实体所在语句的语义信息，以及每个候选实体的属性值对应的向量，确定实体与每个候选实体之间的第一相似度，具体的，通过如下公式确定实体与每个候选实体之间的第一相似度：

其中，针对每个候选实体，senVec为实体所在语句的语义信息(向量)，attrVec为该候选实体的属性值对应的向量，sim₁为实体与该候选实体之间的第一相似度，||senVec||为senVec的范数，||attrVec||为attrVec的范数。

具体的，在知识图谱库中，由实体这个节点引出的边可以是实体的属性，相应的，该实体通过边(属性)连接的另一个节点是该实体的属性值，比如，姚明(实体节点)-性别(属性边)-男(属性值节点)。

S202、根据所述目标文本中摘要的语义信息，以及该实体对应的每个候选实体的名称和关系，确定该实体与每个候选实体之间的第二相似度。

该步骤中，目标文本中摘要的语义信息即为目标文本中摘要的向量表示，针对每个实体，获取该实体对应的每个候选实体的名称和关系，并确定上述名称和关系对应的向量，根据目标文本中摘要的语义信息，以及每个候选实体的名称和关系对应的向量，确定实体与每个候选实体之间的第二相似度，具体的，通过如下公式确定实体与每个候选实体之间的第二相似度：

其中，针对每个候选实体，textVec为目标文本中摘要的语义信息(向量)，enrelVec为候选实体的名称和关系对应的向量，sim₂为实体与候选实体之间的第二相似度，||textVec||为textVec的范数，||enrelVec||为enrelVec的范数。

具体的，在知识图谱中，候选实体“姚明”的名称为“姚明”，候选实体“姚明”的关系为由“姚明”这个节点引出去的与其他节点(实体)相连接的边(关系)，比如，知识图谱库中包括姚明(节点)-妻子(边)-叶莉(节点)，姚明(节点)-朋友(边)-易建联(节点)，姚明(节点)-父亲(边)-姚志源(节点)，若“姚明”为候选实体，该候选实体的关系包括“妻子”、“朋友”、“父亲”。

S203、根据所述目标文本中摘要的语义信息，以及该实体对应的每个候选实体的名称、属性值、关系实体的名称、关系实体的属性值，确定该实体与每个候选实体之间的第三相似度。

该步骤中，目标文本中摘要的语义信息即为目标文本中摘要的向量表示，针对每个实体，获取该实体对应的每个候选实体的名称、属性值、关系实体的名称、关系实体的属性值，并确定名称、属性值、关系实体的名称、关系实体的属性值共同对应的向量，根据目标文本中摘要的语义信息，以及每个候选实体的名称、属性值、关系实体的名称、关系实体的属性值共同对应的向量，确定实体与每个候选实体之间的第三相似度，具体的，通过如下公式确定实体与每个候选实体之间的第三相似度：

其中，针对每个候选实体，textVec为目标文本中摘要的语义信息(向量)，relVec为该候选实体的名称、属性值、关系实体的名称、关系实体的属性值共同对应的向量，sim₃为实体与该候选实体之间的第三相似度，||textVec||为textVec的范数，||relVec||为relVec的范数。

具体的，在知识图谱中，包括实体(节点)-关系(边)-关系实体(节点)，每个实体(关系实体也是实体)还会对应有实体(节点)-属性(边)-属性值(节点)，在确定实体对应的候选实体后，获取候选实体的名称，候选实体这个节点通过属性的边连接的属性值，候选实体这个节点通过关系的边连接的关系实体的名称，以及关系实体这个节点通过属性的边连接的属性值，即关系实体的属性值，基于确定的候选实体的名称、属性值、关系实体的名称、关系实体的属性值，确定第三相似度。

S204、根据所述目标文本中摘要的语义信息，以及该实体对应的每个候选实体的描述信息，确定该实体与每个候选实体之间的第四相似度。

该步骤中，目标文本中摘要的语义信息即为目标文本中摘要的向量表示，针对每个实体，获取该实体对应的每个候选实体的描述信息，并确定描述信息对应的向量，根据目标文本中摘要的语义信息，以及每个候选实体的描述信息对应的向量，确定实体与每个候选实体之间的第四相似度，具体的，通过如下公式确定实体与每个候选实体之间的第四相似度：

其中，针对每个候选实体，textVec为目标文本中摘要的语义信息(向量)，sumVec为该候选实体的描述信息对应的向量，sim₄为实体与该候选实体之间的第四相似度，||textVec||为textVec的范数，||sumVec||为sumVec的范数。

具体的，在知识图谱中，每个实体还可以对应有描述信息，描述信息用于对实体进行概括性地描述，在确定实体与候选实体之间的第四相似度时，若候选实体在知识图谱库中并未对应有描述信息，则该候选实体与实体之间的相似度为0。

S205、根据该实体与每个候选实体之间的第一相似度、第二相似度、第三相似度、第四相似度，确定该实体与每个候选实体之间的相似度。

该步骤中，针对每个实体，根据该实体与每个候选实体之间的第一相似度、第二相似度、第三相似度、第四相似度，以及不同的相似度分别对应的权重，确定该实体与每个候选实体之间的相似度。具体的，通过如下公式确定实体与每个候选实体之间的相似度：

sim＝a×sim₁+b×sim₂+c×sim₃+d×sim₄。

其中，a、b、c、d分别为第一相似度、第二相似度、第三相似度、第四相似度对应的权重。

S206、根据该实体与每个候选实体之间的相似度，从该实体对应的多个候选实体中，选取该实体对应的目标实体。

该步骤中，在确定实体与每个候选实体之间的相似度后，将实体对应的多个候选实体，按照相似度的大小进行排序，将排在第一位，或者，排在前几位的候选实体确定为目标实体，或者，针对每个候选实体，将该候选实体与实体的相似度与预设阈值进行比较，若相似度大于预设阈值，则将该候选实体确定为目标实体，其中，预设阈值根据用户的实际需求进行设置。

进一步的，参见图3所示，图3为本申请实施例提供的另一种文本中实体的关联方法的流程图，在查找所述目标文本中每个实体对应的数据库表之后，所述关联方法还包括：

S301、根据实体与字段的对应关系，查找所述目标文本中每个实体对应的特定字段。

S302、从所述目标文本的每个实体对应的数据库表的特定字段中查找该实体对应的候选实体，以及所述候选实体的第一特定信息。

综合步骤301和步骤302，在从知识图谱库中查找实体对应的候选实体时，不仅可以设置实体对应的数据库表，还可以进一步地设置数据库表下的特定字段，具体的，在确定实体对应的数据库表后，基于预先设置的实体与字段的对应关系，查找该实体在对应的数据库表中对应的特定字段(Label)，比如，在确定从运动员数据库表中查找实体“姚明”对应的候选实体后，进一步确定在运动员数据库表的姓名字段中查找实体“姚明”对应的候选实体，进一步提高候选实体的查找速度。

作为一种可选的实施方式，根据实体与字段的对应关系，查找实体对应的特定字段，不同的实体对应不同的特定字段，作为另一种可选的实施方式，针对同一类实体，该类实体对应相同的数据库表和该数据库表下相同的特定字段。

进一步的，参见图4所示，图4为本申请实施例提供的另一种文本中实体的关联方法的流程图，通过如下方式确定目标文本中摘要的语义信息：

S401、对所述目标文本的摘要进行分词处理，得到所述摘要包括的多个分词。

该步骤中，对目标文本的摘要部分进行分词处理，得到摘要包括的多个分词，比如，名词、动词、形容词等词语，或者不同词语组成的词组。

S402、基于预设的无用分词，对所述摘要包括的多个分词中的无用分词进行剔除处理，得到所述摘要包括的多个目标分词。

该步骤中，预设有多种无用分词，比如，停用词，在获取摘要包括的多个分词后，将摘要中包括的无用分词进行剔除，得到摘要对应的不包含无用分词的多个目标分词。

S403、根据每个目标分词对应的向量，确定所述摘要对应的向量，并将所述摘要对应的向量确定为所述目标文本中摘要的语义信息。

该步骤中，获取摘要包括的每个目标分词对应的向量，基于每个目标分词对应的向量，组成摘要对应的向量，摘要对应的向量即为目标文本中摘要的语义信息。可选的，对目标分词对应的向量进行相加计算，得到摘要对应的向量。

进一步的，参见图5所示，图5为本申请实施例提供的另一种文本中实体的关联方法的流程图，通过如下方式生成目标文本的摘要：

S501、基于预设的第一分割符号，对所述目标文本进行分割处理，得到所述目标文本包括的多个第一语句。

该步骤中，目标文本中包括多个以句号作为结尾的语句，按照预设的第一分割符号，对目标文本进行分割，得到多个以第一分割符号作为结尾的第一语句。可选的，第一分割符号为句号。

S502、根据每两个第一语句之间的相似度，确定每个第一语句的权重值；

该步骤中，采用TextRank算法，从目标文本的多个第一语句中查找构成摘要的第一语句，具体的，基于TextRank算法确定目标文本中每两个第一语句之间的相似度，进而得到每个第一语句的权重值，权重值越大，第一语句的重要程度越高。

具体的，TextRank算法是一种用于文本的基于图的排序算法，通过把文本分割成若干的组成单元(即第一语句)，构建节点(第一语句)连接图，用每两个第一语句之间的相似度作为该两个第一语句的边的权重，通过循环迭代计算每个第一语句的TextRank值，即权重值，最后抽取权重值大的句子组合成文本摘要。

S503、根据每个第一语句的权重值，从所述目标文本包括的多个第一语句中选取摘要语句，并基于选取出的摘要语句，生成所述目标文本的摘要。

该步骤中，基于每个第一语句对应的权重值，按照权重值的大小，对目标文本包括的多个第一语句进行排序，基于预先设置的摘要所要包括的第一语句的目标数量，从目标文本包括的多个第一语句中选取排在前目标数量位的第一语句，基于选取出的第一语句，组成目标文本的摘要。比如，预先设置的摘要所要包括的第一语句的目标数量为6，从目标文本包括的多个第一语句中选取排在前6位的第一语句，将这6条第一语句组成目标文本的摘要。

进一步的，参见图6所示，图6为本申请实施例提供的另一种文本中实体的关联方法的流程图，通过如下方式确定实体所在的语句的语义信息：

S601、基于预设的第二分割符号，对所述目标文本进行分割处理，得到所述目标文本包括的多个第二语句。

该步骤中，目标文本中包括多个以句号作为结尾的语句，按照预设的第二分割符号，对目标文本进行分割，得到多个以第二分割符号作为结尾的第二语句。可选的，第二分割符号为句号或者逗号。

可选的，将句号作为分割符号，得到目标文本包括的多个以句号为结尾的句子，再将逗号作为分隔符号，将每个以句号为结尾的句子按照逗号进行分割，得到多个以逗号为结尾，或者以句号为结尾的第二语句。

S602、获取实体所在的第二语句，并对实体所在的第二语句进行分词处理，得到实体所在的第二语句包括的多个分词。

该步骤中，从目标文本的多个第二语句中获取包括实体的第二语句，即实体所在的第二语句，对实体所在的第二语句进行分词处理，得到实体所在的第二语句包括的多个分词。

S603、根据实体所在的第二语句包括的每个分词对应的向量，确定实体所在的第二语句对应的向量，并将实体所在的第二语句对应的向量，确定为所述实体所在的语句的语义信息。

该步骤中，针对每个实体所在的第二语句，获取该实体所在的第二语句包括的每个分词对应的向量，对这些向量进行相加运算，得到该实体所在的第二语句的向量，并将实体所在的第二语句对应的向量，确定为实体所在的语句的语义信息。

比如，实体所在的第二语句为“今天天气晴朗”，对“今天天气晴朗”进行分词处理，得到“今天”、“天气”、“晴朗”三个分词，并获取“今天”、“天气”、“晴朗”分别对应的向量(1,2,3,4,5)、(6,7,8,9,10)、(1,1,1,1,1)，将(1,2,3,4,5)、(6,7,8,9,10)、(1,1,1,1,1)这三个向量加在一起，得到“今天天气晴朗”对应的向量(8,10,12,14,16)。

基于同一发明构思，本申请实施例中还提供了与文本中实体的关联方法对应的文本中实体的关联装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述文本中实体的关联方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图7所示，图7为本申请一实施例提供的一种文本中实体的关联装置的结构示意图，该关联装置包括：

第一获取模块701，用于获取目标文本中包括的多个实体；

第一查找模块702，用于根据实体与知识图谱库中数据库表的对应关系，查找所述目标文本中每个实体对应的数据库表；

第二查找模块703，用于从所述目标文本的每个实体对应的数据库表中查找该实体对应的候选实体，以及所述候选实体的第一特定信息；

第一选取模块704，用于针对每个实体，根据所述目标文本中摘要的语义信息，该实体所在的语句的语义信息，以及该实体对应的每个候选实体的第一特定信息，从该实体对应的多个候选实体中，选取该实体对应的目标实体；

第二获取模块705，用于获取所述知识图谱库中所述目标实体对应的第二特定信息；

关联模块706，用于将所述第二特定信息与所述目标实体对应的实体相关联。

在一种可能的实施方式中，所述候选实体的第一特定信息至少包括名称、属性值、关系、关系实体、所述关系实体的名称、所述关系实体的属性值、描述信息；所述第一选取模块704，在针对每个实体，根据所述目标文本中摘要的语义信息，该实体所在的语句的语义信息，以及该实体对应的每个候选实体的第一特定信息，从该实体对应的多个候选实体中，选取该实体对应的目标实体时，包括：

在一种可能的实施方式中，所述文本中实体的关联装置还包括：

第三查找模块，用于根据实体与字段的对应关系，查找所述目标文本中每个实体对应的特定字段；

第四查找模块，用于从所述目标文本的每个实体对应的数据库表的特定字段中查找该实体对应的候选实体，以及所述候选实体的第一特定信息。

第一分词模块，用于对所述目标文本的摘要进行分词处理，得到所述摘要包括的多个分词；

剔除模块，用于基于预设的无用分词，对所述摘要包括的多个分词中的无用分词进行剔除处理，得到所述摘要包括的多个目标分词；

第一确定模块，用于根据每个目标分词对应的向量，确定所述摘要对应的向量，并将所述摘要对应的向量确定为所述目标文本中摘要的语义信息。

第一分割模块，用于基于预设的第一分割符号，对所述目标文本进行分割处理，得到所述目标文本包括的多个第一语句；

第二确定模块，用于根据每两个第一语句之间的相似度，确定每个第一语句的权重值；

第二选取模块，用于根据每个第一语句的权重值，从所述目标文本包括的多个第一语句中选取摘要语句；

第一生成模块，用于基于选取出的摘要语句，生成所述目标文本的摘要。

第二分割模块，用于基于预设的第二分割符号，对所述目标文本进行分割处理，得到所述目标文本包括的多个第二语句；

第三获取模块，用于获取实体所在的第二语句；

第二分词模块，用于对实体所在的第二语句进行分词处理，得到实体所在的第二语句包括的多个分词；

第三确定模块，用于根据实体所在的第二语句包括的每个分词对应的向量，确定实体所在的第二语句对应的向量，并将实体所在的第二语句对应的向量，确定为所述实体所在的语句的语义信息。

第二生成模块，用于根据所述目标文本中每个实体关联的第二特定信息，生成所述目标文本的概括信息，并对所述概括信息进行显示。

本申请实施例提供的文本中实体的关联装置，在确定实体对应的候选实体时，基于实体与知识图谱库中数据库表的对应关系，查找目标文本中每个实体对应的数据库表，进而从每个实体对应的数据库表中查找该实体对应的候选实体，能够减少查找候选实体耗费的时长，提高查找候选实体的效率。在确定实体对应的目标实体时，基于目标文本中摘要的语义信息，文本实体所在的语句的语义信息，以及文本实体对应的每个候选实体的第一特定信息，选取与文本实体关联的目标实体，能够提高选取出的目标实体的准确率，并且提高目标实体的召回率。

参见图8所示，图8为本申请实施例提供的一种电子设备的示意图，该电子设备800包括：处理器801、存储器802和总线803，所述存储器802存储有所述处理器801可执行的机器可读指令，当电子设备运行时，所述处理器801与所述存储器802之间通过总线803通信，所述处理器801执行所述机器可读指令，以执行如上述文本中实体的关联方法的步骤。

具体地，上述存储器802和处理器801能够为通用的存储器和处理器，这里不做具体限定，当处理器801运行存储器802存储的计算机程序时，能够执行上述文本中实体的关联方法。

对应于上述文本中实体的关联方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述文本中实体的关联方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本中实体的关联方法，其特征在于，所述关联方法包括：

获取目标文本中包括的多个实体；

2.根据权利要求1所述的文本中实体的关联方法，其特征在于，所述候选实体的第一特定信息至少包括名称、属性值、关系、关系实体、所述关系实体的名称、所述关系实体的属性值、描述信息；所述针对每个实体，根据所述目标文本中摘要的语义信息，该实体所在的语句的语义信息，以及该实体对应的每个候选实体的第一特定信息，从该实体对应的多个候选实体中，选取该实体对应的目标实体，包括：

3.根据权利要求1所述的文本中实体的关联方法，其特征在于，在查找所述目标文本中每个实体对应的数据库表之后，所述关联方法还包括：

4.根据权利要求1所述的文本中实体的关联方法，其特征在于，通过如下方式确定目标文本中摘要的语义信息：

5.根据权利要求4所述的文本中实体的关联方法，其特征在于，通过如下方式生成目标文本的摘要：

6.根据权利要求1所述的文本中实体的关联方法，其特征在于，通过如下方式确定实体所在的语句的语义信息：

7.根据权利要求1所述的文本中实体的关联方法，其特征在于，所述关联方法还包括：

8.一种文本中实体的关联装置，其特征在于，所述关联装置包括：

第一获取模块，用于获取目标文本中包括的多个实体；

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至7任一项所述的文本中实体的关联方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一项所述的文本中实体的关联方法的步骤。