CN114090769A

CN114090769A - 实体挖掘方法、装置、计算机设备和存储介质

Info

Publication number: CN114090769A
Application number: CN202111197163.XA
Authority: CN
Inventors: 孙俊; 文博; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2022-02-25

Abstract

本申请提供了一种实体挖掘方法、装置、设备和存储介质。该方法包括：获取标注有同一实体类型标签的标注文本实体；对所述标注文本实体进行聚类，得到多个聚类簇；分别对同一聚类簇中的标注文本实体进行编码，生成相应的原型标签向量，得到与所述实体类型标签对应的多个原型标签向量；对待标注文本进行编码，得到待标注文本中每个词片段对应的词向量；针对每个词向量，分别确定所述词向量与所述多个原型标签向量之间的相似度，得到多个相似度；若所述多个相似度中最大相似度大于或等于预设阈值，则为所述词向量所对应的词片段添加所述实体类型标签。本申请的方案能够节省成本。

Description

实体挖掘方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域和知识图谱技术领域，特别是涉及一种实体挖掘方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，出现了很多先进技术，实体挖掘技术即为其中一项重要的技术，在很多领域都有着很重要的作用。比如，在知识图谱领域中，就需要从非结构化的文本中挖掘新的实体表达，并添加相应的实体类型标签，从而构建结构化的知识图谱。

在传统的实体挖掘过程中，需要人工从大量的句子中标注出哪些词汇是目标实体类型，然后根据标注数据进行模型训练，将待挖掘的句子输入至训练好的模型中，以对句子中的实体进行实体类型预测。一般情况下，这种人工标注的方式通常需要标注至少万级的标注任务，成本非常高，而且，人工从句子中标注实体类型这一标注操作本身的成本就非常昂贵。因此，传统的实体挖掘方法成本非常高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够节省成本的实体挖掘方法、装置、计算机设备和存储介质。

一种实体挖掘方法，所述方法包括：

获取标注有同一实体类型标签的标注文本实体；

对所述标注文本实体进行聚类，得到多个聚类簇；

分别对同一聚类簇中的标注文本实体进行编码，生成相应的原型标签向量，得到与所述实体类型标签对应的多个原型标签向量；

对待标注文本进行编码，得到待标注文本中每个词片段对应的词向量；

针对每个词向量，分别确定所述词向量与所述多个原型标签向量之间的相似度，得到多个相似度；

若所述多个相似度中最大相似度大于或等于预设阈值，则为所述词向量所对应的词片段添加所述实体类型标签。

一种实体挖掘装置，所述装置包括：

获取模块，用于获取标注有同一实体类型标签的标注文本实体；

聚类模块，用于对所述标注文本实体进行聚类，得到多个聚类簇；

编码模块，用于分别对同一聚类簇中的标注文本实体进行编码，生成相应的原型标签向量，得到与所述实体类型标签对应的多个原型标签向量；对待标注文本进行编码，得到待标注文本中每个词片段对应的词向量；

标注模块，用于针对每个词向量，分别确定所述词向量与所述多个原型标签向量之间的相似度，得到多个相似度；若所述多个相似度中最大相似度大于或等于预设阈值，则为所述词向量所对应的词片段添加所述实体类型标签。

在一个实施例中，编码模块还用于获取预先训练的标签向量编码模型；分别将每个聚类簇中的标注文本实体输入至所述标签向量编码模型中，输出相应的原型标签向量，得到与所述实体类型标签对应的多个原型标签向量。

在一个实施例中，装置还包括：

训练模块，用于获取样本数据；所述样本数据中包括样本文本和所述样本文本中样本实体的样本实体类型标签；在每轮迭代训练中，针对每个样本实体类型标签，从所述样本数据中筛选携带所述样本实体类型标签的样本实体，得到相应的支撑集；将所述支撑集中的样本实体输入至待训练的标签向量编码模型中，预测出与所述样本实体类型标签对应的多个原型标签向量；对所述样本实体所位于的样本文本进行向量化表达，得到目标向量；从预测的多个原型标签向量中，选取与目标向量最接近的原型标签向量；朝着使最接近的原型标签向量与所述目标向量接近的方向，调整模型参数，并继续迭代训练，直至满足迭代停止条件，得到最终的标签向量编码模型。

在一个实施例中，训练模块还用于获取原始数据；按照所述原始数据中文本实体的实体名称，从开源知识图谱中查找与所述实体名称匹配的实体节点；若查找到的所述实体节点为一个，则根据唯一的所述实体节点所对应的实体类型，对所述原始数据中相应的文本实体添加实体类型标签，得到标注后的样本数据；若查找到的所述实体节点为多个，则将所述原始数据中的所述文本实体剔除。

在一个实施例中，训练模块还用于从开源知识图谱中，查找所述原始数据中文本实体对应的三元组；从所述三元组中，确定与所述文本实体的实体名称匹配的实体节点。

在一个实施例中，所述原始数据包括原始页面和原始页面中的超链接；训练模块还用于根据所述原始页面中的文本实体的实体名称，从开源知识图谱中查找相匹配的实体节点；根据唯一的所述实体节点所对应的实体类型，对所述原始页面中相应的文本实体添加实体类型标签；确定所述超链接所连接至的页面中相应的超链接实体，并为所连接至的页面中所述超链接实体添加相应的实体类型标签，得到标注后的样本数据。

在一个实施例中，聚类模块还用于分别按照预设的多个候选聚类中心数量，对所述标注文本实体进行预聚类，得到多个预聚类结果；分析多个所述预聚类结果，得到聚类分析指标值；根据所述聚类分析指标值，从多个所述候选聚类中心数量中，选取目标聚类中心数量；按照所述目标聚类中心数量，对所述标注文本实体聚类，得到多个聚类簇。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取标注有同一实体类型标签的标注文本实体；

对所述标注文本实体进行聚类，得到多个聚类簇；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取标注有同一实体类型标签的标注文本实体；

对所述标注文本实体进行聚类，得到多个聚类簇；

上述实体挖掘方法、装置、计算机设备和存储介质，获取标注有同一实体类型标签的标注文本实体；对所述标注文本实体进行聚类，得到多个聚类簇；分别对同一聚类簇中的标注文本实体进行编码，生成相应的原型标签向量，得到与所述实体类型标签对应的多个原型标签向量。这种情况下，标注文本实体的数据量相较于有监督训练的数据量要小很多，相当于使用少量的同类标注数据来生成与实体类型标签对应的多个原型标签向量。进而，在对待标注文本进行实体挖掘时，可以对待标注文本进行编码，得到待标注文本中每个词片段对应的词向量；针对每个词向量，分别确定所述词向量与所述多个原型标签向量之间的相似度，得到多个相似度；若所述多个相似度中最大相似度大于或等于预设阈值，则为所述词向量所对应的词片段添加所述实体类型标签。即，可以将待标注文本编码后，直接与多个原型标签向量进行相似度比对，从而为待标注文本中的词片段添加实体类型标签。即，而不需要大量的标注数据来训练模型，只需要给定少量的同类标注数据，就可以实现实体挖掘，节省了成本。

附图说明

图1为一个实施例中实体挖掘方法的应用环境图；

图2为一个实施例中实体挖掘方法的流程示意图；

图3为一个实施例中模型训练步骤的流程示意图；

图4为一个实施例中使用标签向量编码模型进行实体挖掘的原理示意图；

图5为一个实施例中实体挖掘装置的框图；

图6为另一个实施例中实体挖掘装置的框图；

图7为一个实施例中计算机设备的内部结构图；

图8另为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的实体挖掘方法，可以应用于如图1所示的应用环境中。其中，服务器102通过网络与终端104进行通信。其中，终端104可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

服务器102可以获取终端104发送的获取标注有同一实体类型标签的标注文本实体。服务器102可以对标注文本实体进行聚类，得到多个聚类簇；分别对同一聚类簇中的标注文本实体进行编码，生成相应的原型标签向量，得到与实体类型标签对应的多个原型标签向量。服务器102可以对待标注文本进行编码，得到待标注文本中每个词片段对应的词向量；针对每个词向量，分别确定词向量与多个原型标签向量之间的相似度，得到多个相似度。若多个相似度中最大相似度大于或等于预设阈值，服务器102则可以为词向量所对应的词片段添加实体类型标签。

需要说明的是，图1仅是示意说明，在其他实施例中，服务器102也可以直接从数据库中获取标注有同一实体类型标签的标注文本实体。

在一个实施例中，如图2所示，提供了一种实体挖掘方法，该方法可以应用于计算机设备，计算机设备可以是终端或服务器，该方法具体可以包括以下步骤：

步骤202，获取标注有同一实体类型标签的标注文本实体。

其中，实体(Entity)是客观存在并可相互区别的事物。就数据库而言，实体往往指某类事物的集合。把每一类数据对象的个体称为实体。文本实体，是文本中的实体或者文本格式的实体。标注文本实体，是携带实体类型标签的文本实体。实体类型标签，用于表征实体类型。比如，“上海”这一文本实体，其所携带的实体类型标签可以为“城市”标签。

可以理解，步骤202中获取的标注有同一实体类型标签的标注文本实体的数量，要远远小于有监督模型训练时的标注数据的数量，即，可以使用少量的同类标注数据(即标注有同一实体类型标签的标注文本实体)，通过执行本申请各实施例中的方法，来对待标注文本中的词片段进行实体类型标签预测，相较于使用大量标注数据进行模型训练而言，大大减少了数据量，节省了成本。

在一个实施例中，计算机设备可以从数据库或者终端直接获取标注有同一实体类型标签的标注文本实体，也可以获取未标注实体类型标签的未标注文本实体，然后，对未标注文本实体自动添加实体类型标签后，从中获取标注有同一实体类型标签的标注文本实体。对此不作限定。

步骤204，对标注文本实体进行聚类，得到多个聚类簇。

具体地，计算机设备是对标注有同一实体类型标签的标注文本实体进行聚类，得到多个聚类簇。相当于，将同一实体类型的标注文本实体再进行聚类。

在一个实施例中，计算机设备可以对标注文本实体进行聚类分析计算最佳的目标聚类中心数量，然后，按照该目标聚类中心数量对标注文本实体进行聚类，得到多个聚类簇。

在一个实施例中，计算机设备可以使用K均值聚类算法(K-means clusteringalgorithm)按照该目标聚类中心数量对标注文本实体进行聚类，得到多个聚类簇。其中，K均值聚类算法，是一种迭代求解的聚类分析算法。

步骤206，分别对同一聚类簇中的标注文本实体进行编码，生成相应的原型标签向量，得到与实体类型标签对应的多个原型标签向量。

其中，原型标签向量(ProtoVectors)，是与实体类型标签相关的向量，即用于体现实体类型标签所对应的实体类型特征的向量。

具体地，针对每个聚类簇，计算机设备可以针对该聚类簇中的标注文本实体进行编码，然后，将编码得到的向量进行组合，生成相应的原型标签向量。可以理解，每个聚类簇生成的原型标签向量为至少一个。由于每个聚类簇都有对应的原型标签向量，而这些聚类簇中的标注文本实体都对应于同一个实体类型标签，所以，多个聚类簇分别对应的原型标签向量，即为与实体类型标签对应的多个原型标签向量。

在一个实施例中，计算机设备可以对编码得到的向量进行随机组合，生成相应的原型标签向量。具体地，计算机设备可以从编码得到的向量中随机选取向量，并将随机选取的向量进行组合，生成相应的原型标签向量。

在其他实施例中，计算机设备也可以对编码得到的向量按照预设规则进行选取并组合，生成相应的原型标签向量。对此不作限定。

在一个实施例中，计算机设备可以使用预先训练好的标签向量编码模型，对同一聚类簇中的标注文本实体进行编码，生成相应的原型标签向量。其中，标签向量编码模型，是用于编码生成原型标签向量的神经网络模型。

需要说明的是，如果有多个实体类型标签，则针对每个实体类型标签，皆可以执行步骤202～206，以获取每个实体类型标签对应的多个原型标签向量。

步骤208，对待标注文本进行编码，得到待标注文本中每个词片段对应的词向量。

具体地，计算机设备可以对待标注文本中每个词片段进行编码，得到待标注文本中每个词片段对应的词向量。

可以理解，待标注文本中包括多个词片段，即包括多个token，待标注文本则相当于词片段序列，即token序列，相当于对token序列中每个token进行编码，以将每个token进行向量表达，即得到每个词片段(即token)对应的词向量。

在一个实施例中，待标注文本可以是对话系统生成的对话日志文本。即，可以基于本申请各实施例中的方法，对对话日志文本中实体添加相应的实体类型标签，即从对话日志文本中挖掘出实体。

步骤210，针对每个词向量，分别确定词向量与多个原型标签向量之间的相似度，得到多个相似度。

具体地，针对待标注文本编码得到的每个词向量，在判断该词向量属于哪个实体类型标签时，可以分别计算该词向量与待确定的实体类型标签对应的各个原型标签向量之间的相似度，得到在该待确定的实体类型标签下该词向量所对应的多个相似度。

步骤212，若多个相似度中最大相似度大于或等于预设阈值，则为词向量所对应的词片段添加实体类型标签。

具体地，计算机设备可以从待确定的实体类型标签下该词向量所对应的多个相似度中，确定最大相似度，若最大相似度大于或等于预设阈值，则说明该实体类型标签所表征的实体类型为该词向量对应的词片段所属的实体类型，因而，可以为该词向量所对应的词片段添加该实体类型标签。

可以理解，待确定的实体类型标签为多个时，可以依次从多个待确定的实体类型标签中，选取当前的实体类型标签，然后，计算该词向量与当前的实体类型标签对应的原型标签向量之间的相似度，若多个相似度中最大相似度大于或等于预设阈值，则为词向量所对应的词片段添加该当前的实体类型标签。若最大相似度小于预设阈值，则继续选取下一个待确定的实体类型标签作为当前的实体类型标签，返回执行计算该词向量与当前的实体类型标签对应的原型标签向量之间的相似度的步骤，以继续处理，直至为词向量所对应的词片段添加了相应的实体类型标签或者比对完所有的待确定的实体类型标签停止。

上述实体挖掘方法，获取标注有同一实体类型标签的标注文本实体；对所述标注文本实体进行聚类，得到多个聚类簇；分别对同一聚类簇中的标注文本实体进行编码，生成相应的原型标签向量，得到与所述实体类型标签对应的多个原型标签向量。这种情况下，标注文本实体的数据量相较于有监督训练的数据量要小很多，相当于使用少量的同类标注数据来生成与实体类型标签对应的多个原型标签向量。进而，在对待标注文本进行实体挖掘时，可以对待标注文本进行编码，得到待标注文本中每个词片段对应的词向量；针对每个词向量，分别确定所述词向量与所述多个原型标签向量之间的相似度，得到多个相似度；若所述多个相似度中最大相似度大于或等于预设阈值，则为所述词向量所对应的词片段添加所述实体类型标签。即，可以将待标注文本编码后，直接与多个原型标签向量进行相似度比对，从而为待标注文本中的词片段添加实体类型标签。即，而不需要大量的标注数据来训练模型，只需要给定少量的同类标注数据，就可以实现实体挖掘，节省了成本。

其次，通过有监督训练模型来进行实体挖掘的传统方法需要不断地使用数据来更新训练模型，而本申请的方法并不需要更新训练，通过与多个原型标签向量之间的相似度比对即可准确地、便捷地对文本中实体进行标注，具有通用性，既节省了更新训练带来的成本，又能够保证实体挖掘的准确性。

此外，通过本申请实施例中的实体挖掘方法对文本中的实体添加实体类型标签后，能够将添加标签后的文本作为基础数据，用于后续更为精准的处理。比如，为训练更新精准的标注模型提供了基础数据，即提供了数据冷启动能力，不需要标注人员手动标注，提高了效率。

在一个实施例中，步骤206分别对同一聚类簇中的标注文本实体进行编码，生成相应的原型标签向量，得到与实体类型标签对应的多个原型标签向量，包括：获取预先训练的标签向量编码模型；分别将每个聚类簇中的标注文本实体输入至标签向量编码模型中，输出相应的原型标签向量，得到与实体类型标签对应的多个原型标签向量。

其中，标签向量编码模型，是用于编码生成多个原型标签向量的神经网络模型，也可以成为多原型分类网络(Multi-Prototype网络)。

具体地，计算机设备中预先训练了标签向量编码模型。计算机设备可以分别将每个聚类簇中的标注文本实体输入至标签向量编码模型中进行编码处理，标签向量编码模型可以将对标注文本实体编码得到的向量进行组合，生成相应的原型标签向量，从而，将各个聚类簇所对应的原型标签向量作为与实体类型标签对应的多个原型标签向量。

在一个实施例中，计算机设备可以使用带样本文本类型标签的样本文本，通过有监督的训练，来训练得到标签向量编码模型。

上述实施例中，根据预先训练的标签向量编码模型，能准确预测实体类型标签对应的多个原型标签向量。

如图3所示，在一个实施例中，标签向量编码模型通过模型训练步骤得到，该模型训练步骤包括：

步骤302，获取样本数据；样本数据中包括样本文本和样本文本中样本实体的样本实体类型标签。

在一个实施例中，计算机设备可以从样本数据中包括的样本实体类型标签中选取部分样本实体类型标签，并基于选取的样本实体类型标签，执行步骤304至步骤312进行迭代训练，以实现少样本训练。比如，样本数据中包括的样本实体类型标签的总数量为N，可以随机从中选取T个样本实体类型标签来进行迭代训练。

在一个实施例中，样本数据中的正样本的标注和负样本的标注是自动预测标注的。那么，样本数据中可能存在误标注的情况，比如，负样本被错误预测标注为正样本，从而导致召回率比较低，也就是被正确预测标注的正样本(即真实的正样本)在实际预测标注的正样本中的比例低。在当前任务中，我们关注的是正样本标注的结果，所以这里要避免负样本被误预测为正样本的干扰。因此，在使用样本数据进行模型训练之前，计算机设备可以对样本数据进行预处理，以提高样本数据自动预测标注的准确性。具体地，计算机设备可以预先使用k-重交叉验证算法(K-fold cross validation)训练多个模型，然后使用这些多个模型对样本数据中样本文本的样本实体重新预测实体类型标签，即重新进行预测标注，对实际为负样本但被误预测为正样本的样本实体，则可以将其改标注为不确定，进而从样本数据中剔除标注为不确定的样本实体，以避免引入错误的监督信号，进而提高了召回率。

步骤304，在每轮迭代训练中，针对每个样本实体类型标签，从样本数据中筛选携带样本实体类型标签的样本实体，得到相应的支撑集。

可以理解，支撑集是样本数据中的一部分，即从全量的样本数据中筛选出部分，作为支撑集。

具体地，迭代训练中，针对每个样本实体类型标签，计算机设备可以从样本数据中携带该样本实体类型标签的样本实体中，随机筛选预设数量的携带该样本实体类型标签的样本实体，将筛选得到的这部分数据作为该样本实体类型标签相应的支撑集。

可以理解，针对每个样本实体类型标签筛选的支撑集可以为多组，具体可以根据该样本实体类型标签所要对应的原型标签向量的数量相符。比如，假设针对一个样本实体类型标签要预测v个原型标签向量，那么，则可以筛选V组支撑集。可以理解，支撑集中数据量即为筛选时参照的预设数量，预设数量可以为k，那么，v组支撑集中的数据量则为v*K个数据。

步骤306，将支撑集中的样本实体输入至待训练的标签向量编码模型中，预测出与样本实体类型标签对应的多个原型标签向量。

具体地，计算机设备可以将筛选的各组支撑集中的样本实体输入至待训练的标签向量编码模型中，预测出与样本实体类型标签对应的多个原型标签向量。

在一个实施例中，针对每组支撑集，计算机设备可以通过待训练的标签向量编码模型对输入至支撑集中的样本实体进行编码，得到相应的向量，并对得到的向量求均值，得到原型标签向量。那么，针对多组支撑集，按照该处理则可以得到多个原型标签向量。比如，针对v组支撑集，则可以得到v个原型标签向量。

步骤308，对样本实体所位于的样本文本进行向量化表达，得到目标向量。

具体地，计算机设备可以对样本实体所位于的样本文本进行向量化表达，得到目标向量，相当于对语句进行向量化表达。

步骤310，从预测的多个原型标签向量中，选取与目标向量最接近的原型标签向量。

具体地，计算机设备可以分别计算目标向量与预测的多个原型标签向量的相似度，从多个原型标签向量中，选取相似度最大的原型标签向量。可以理解，相似度最大的原型标签向量即为与目标向量最接近的原型标签向量。

步骤312，朝着使最接近的原型标签向量与目标向量接近的方向，调整模型参数，并继续迭代训练，直至满足迭代停止条件，得到最终的标签向量编码模型。

具体地，计算机设备可以朝着使最接近的原型标签向量与目标向量接近的方向，调整模型参数，并进入下一轮的迭代训练，以此进行不断地迭代训练，直至满足迭代停止条件，得到最终的标签向量编码模型。

可以理解，每个样本实体类型标签对应多个原型标签向量，相当于每个样本实体类型标签存在多个中心，朝着使最接近的原型标签向量与目标向量接近的方向，调整模型参数，相当于保证每个文本实体可以优化到最相近的中心点附近，从而可以降低优化难度，进而也节省了训练成本。

上述实施例中，能够使用少量样本即可训练得到标签向量编码模型，大大节省了数据成本，也节省了过多样本带来的模型训练过程中的处理资源的消耗。

图4为一个实施例中使用标签向量编码模型进行实体挖掘的原理示意图。参见图4，参考了指针网络的思想，将实体类型的预测拆分为基于实体的头部和尾部的分类判断。具体地，可以将待标注句子(即待标注文本)“Mr.Bush asked Congress to raise to$6billion”输入至基于transformer网络架构训练的基础网络模型，则可以对每个词片段(即每个token)进行编码，即抽象为向量表达得到词向量。然后，分别基于头部和尾部进行分类，在分类时，是在标签向量编码模型预先针对实体类型标签生成的多个原型标签向量的基础上，计算余弦相似度，即，计算词向量与实体类型标签分别对应的多个原型标签向量进行比较，通过余弦(consine)计算相似度。分别得到头部分类结果和尾部分类结果，可以理解，头部分类结果和尾部分类结果中皆包括了计算的各个相似度，进而，可以从与多个原型标签向量的相似度中选取最大相似度，以402所示的内容为例，“头部分类结果中，P：0.95,0.1,0.03,0.1,0.02,0.01,0.21,0.0,0.07,0.12”即为10个相似度比对结果，其中最大相似度为0.95。可以理解，进而可以根据头部分类结果和尾部分类结果中的最大相似度，确定到底属于哪个实体类型标签。

在一个实施例中，步骤302中获取样本数据包括：获取原始数据；按照原始数据中文本实体的实体名称，从开源知识图谱中查找与实体名称匹配的实体节点；若查找到的实体节点为一个，则根据唯一的实体节点所对应的实体类型，对原始数据中相应的文本实体添加实体类型标签，得到标注后的样本数据；若查找到的实体节点为多个，则将原始数据中的文本实体剔除。

其中，原始数据，是未携带样本文本类型标签的原始文本。可以理解，原始数据中包括未携带样本文本类型标签的文本实体。开源知识图谱，是开源的知识图谱。知识图谱是一种基于图的数据结构，由节点(point)和边(Edge)组成，每个节点表示一个“实体”，每条边为实体与实体之间的“关系”，知识图谱本质上是语义网络。实体节点，即为开源知识图谱中表示实体的节点。

在一个实施例中，开源知识图谱可以为CN-DBpedia、Zhishi.me、BabelNet中的任意一种。

可以理解，计算机设备可以从开源知识图谱中查找原始数据中各文本实体对应的实体类型，进而为各文本实体添加相应的实体类型标签。

具体地，计算机设备可以按照原始数据中文本实体的实体名称，从开源知识图谱中查找与该实体名称匹配的实体节点。若查找到的实体节点为一个(即原始数据中一个文本实体唯一对应一个实体节点)，则根据唯一的实体节点所对应的实体类型，对原始数据中相应的文本实体添加实体类型标签。若查找到的实体节点为多个(即原始数据中一个文本实体对应多个实体节点)，说明该文本实体是有歧义的，计算机设备则可以将原始数据中的文本实体剔除。

比如，按照实体名称“笔记本”在开源知识图谱中查找，可能匹配多个实体节点，比如，表示电脑的实体节点和表示记事本的实体节点，则从原始数据中过滤掉“笔记本”这一有歧义的文本实体。

在一个实施例中，计算机设备可以将一些带有丰富实体间超链接的百科类网站作为数据源，从中爬取原始数据。在一个实施例中，计算机设备可以从百科类网站中获取页面中的正文信息，将该正文信息与正文信息中文本实体上的超链接进行保存，得到原始数据。可以理解，文本实体上的超链接，用于表示文本实体与文本实体之间的关联关系。

在其他实施例中，计算机设备也可以直接获取从数据库中获取原始数据，而不需要从百科类网站中爬取原始数据。

上述实施例中，可以根据开源知识图谱剔除原始数据中有歧义的文本实体，并对剩余的没有歧义的文本实体自动添加相应的实体类型标签，非常便捷高效，此外，剔除原始数据中有歧义的文本实体，能够减少噪声提高样本数据的准确性。

在一个实施例中，按照所述原始数据中文本实体的实体名称，从开源知识图谱中查找与所述实体名称匹配的实体节点，包括：从开源知识图谱中，查找所述原始数据中文本实体对应的三元组；从所述三元组中，确定与所述文本实体的实体名称匹配的实体节点。

可以理解，在知识图谱中，节点-边-节点可以看作一条记录，第一个实体节点看作主语，边看作谓语，第二个实体节点看作宾语，主谓宾构成一条记录，所以，知识图谱中的数据是通过三元组(主语，谓词，宾语)的方式进行组织。

因此，开源知识图谱中预先构建了多个三元组，计算机设备可以从开源知识图谱中，分别查找原始数据中各个文本实体对应的三元组。可以理解，每个三元组中的主语和宾语分别为两个实体节点，所以，计算机设备可以从相应的三元组中，确定与所述文本实体的实体名称匹配的实体节点。进而根据相匹配的实体节点所对应的实体类型，为文本实体添加实体类型标签。

在一个实施例中，当原始数据包括原始页面和原始页面中的超链接时，计算机设备除了可以确定原始页面中的文本实体的三元组，以确定文本实体的实体类型标签以外，还可以确定超链接所对应的超链接实体，并确定超链接实体对应的三元组，进而根据三元组确定超链接实体对应的实体类型标签。

在一个实施例中，原始页面中文本实体与相应超链接实体则可以为三元组中两个实体节点，三元组中的谓词则可以为原始页面中文本实体与相应超链接实体之间的关系。若一组文本实体和超链接实体存在于多个三元组中，则说明文本实体和超链接实体具有多种关系，即，具有多种谓词。计算机设备则可以从中选取目标谓词作为谓词标注，以表征原始页面中文本实体与相应超链接实体之间最终的或者最符合的关系。比如，计算机设备可以从中选取使用数量最多的谓词(即最常用的谓词)作为目标谓词，进而以目标谓词对相应三元组进行谓词标注。

可以理解，一个实体与另一个实体可能存在多种关系，比如，上海和北京，可能存在历史、经济等方面的关系，可以从中选取最符合的关系，作为三元组中的谓词标注(即关系标注)。

上述实施例中，基于开源知识图谱中的三元组能够快速地为原始数据添加标签，即能够快速、便捷地得到带标签的样本数据。

在一个实施例中，原始数据包括原始页面和原始页面中的超链接。按照原始数据中文本实体的实体名称，从开源知识图谱中查找与实体名称匹配的实体节点，包括：根据原始页面中的文本实体，从开源知识图谱中查找相匹配的实体节点。本实施例中，根据唯一的所述实体节点所对应的实体类型，对所述原始数据中相应的文本实体添加实体类型标签，得到标注后的样本数据，包括：根据唯一的实体节点所对应的实体类型，对原始页面中相应的文本实体添加实体类型标签；确定所述超链接所连接至的页面中相应的超链接实体，并为所连接至的页面中所述超链接实体添加相应的实体类型标签，得到标注后的样本数据。

其中，超链接实体，是指原始页面中文本实体通过对应的超链接跳转至的文本实体。可以理解，超链接实体，是超链接所链接至的页面中的文本实体。

比如，在原始页面A中“城市1”属于对应有超链接的文本实体，点击“城市1”则可以触发相应的超链接跳转指向页面B中“城市2”这一文本实体，则“城市2”属于超链接实体。

具体地，计算机设备可以根据原始页面中的文本实体，从开源知识图谱中查找相匹配的实体节点。若查找到的实体节点唯一，则从开源知识图谱中确定该唯一的实体节点所对应的实体类型，并对原始页面中相应的文本实体添加表征该实体类型的实体类型标签。计算机设备还可以确定超链接所连接至的页面中相应的超链接实体，计算机设备可以为所链接至的页面中该超链接实体添加相应的实体类型标签。进行上述标注后，计算机设备则可以得到标注后的样本数据。

在一个实施例中，计算机设备可以解析原始页面中文本实体与相应超链接实体之间的关系，若根据该关系确定超链接实体与相应文本实体属于同一类型的实体，则可以按照超链接实体在原始页面中对应的文本实体(即用于跳转至该超链接实体的超链接在原始页面中对应的文本实体)的实体类型标签，为超链接实体进行标注。在一个实施例中，计算机设备可以从文本实体与相应超链接实体所属的三元组中，获取相应的谓词标注，根据该谓词标注所表征的关系，来判断超链接实体与相应文本实体是否属于同一类型的实体。

在另一个实施例中，计算机设备也可以根据该超链接实体的实体名称，从从开源知识图谱中查找与所述实体名称匹配的实体节点，若查找到的所述实体节点为一个，则根据唯一的所述实体节点所对应的实体类型，对超链接实体添加实体类型标签。

在一个实施例中，计算机设备还可以获取实体别名列表，该实体别名列表中记录了各个实体别名。计算机设备可以按照实体别名列表中记录的实体别名，在原始页面中搜索，搜索出页面中符合实体别名的文本实体，针对搜索出的文本实体，按照该实体别名所对应的实体类型，为搜索出的文本实体添加相应的实体类型标签。从而避免对页面中的实体别名漏添加实体类型标签，大大提高了自动标注的准确率。可以理解，实体别名与正规的实体名称对应同一实体类型。

在一个实施例中，计算机设备还可以从实体别名列表中查找超链接实体对应的实体别名，从超链接实体所连接至的页面中搜索该实体别名，以搜索符合实体别名的文本实体，并为所连接至的页面中搜索出的文本实体添加与该超链接实体相应的实体类型标签。比如，页面B是原始页面A中的超链接所链接至的页面，B页面中具有超链接实体1的多个实体别名，那么，可以从实体别名列表中超链接实体1的实体别名，然后在B页面中进行搜索，以搜索出B页面中符合实体别名的文本实体，进而对B页面中这些文本实体都标记为与超链接实体1相同的实体类型标签。

在一个实施例中，计算机设备可以从原始页面中确定两跳超链接实体。其中，两跳超链接实体，是指通过页面两次点击超链接跳转可到达的文本实体。计算机设备可以从实体别名列表中查找两跳超链接实体对应的实体别名，进而，在该两跳超链接实体所位于的页面中，查找符合该实体别名的文本实体，进而为该页面中查找的文本实体添加与该两跳超链接实体相应的实体类型标签。

上述实施例中，不仅能对原始页面中的文本实体进行标注，还能通过超链接，便捷地对超链接实体进行相应标注，提高了对原始数据的标注效率，进而提高了样本数据的生成效率。

在一个实施例中，步骤204对标注文本实体进行聚类，得到多个聚类簇，包括：分别按照预设的多个候选聚类中心数量，对标注文本实体进行预聚类，得到多个预聚类结果；分析多个预聚类结果，得到聚类分析指标值；根据聚类分析指标值，从多个候选聚类中心数量中，选取目标聚类中心数量；按照目标聚类中心数量，对标注文本实体聚类，得到多个聚类簇。

其中，聚类分析指标值，是聚类分析指标的数值。其中，聚类分析指标，是用于进行聚类分析的指标。在一个实施例中，聚类分析指标可以为BIC。预聚类，相当于预先聚类或者尝试聚类，而并非用于生成最终聚类结果的聚类处理。

具体地，计算机设备可以分别按照预设的多个候选聚类中心数量，对所述标注文本实体进行预聚类，得到多个预聚类结果。计算机设备可以分析多个所述预聚类结果，得到聚类分析指标值。即，尝试使用多个候选聚类中心数量K(即使用不同的K)进行聚类，使用聚类结果计算聚类分析指标值。进而，计算机设备可以根据聚类分析指标值，从多个候选聚类中心数量中选取目标聚类中心数量，即，选取最合适的聚类中心数量。

在一个实施例中，计算机设备可以从分别基于各个聚类结果所计算得到的聚类分析指标值中，选取最小聚类分析指标值，并将最小聚类分析指标值所对应的候选聚类中心数量作为目标聚类中心数量。

进一步地，计算机设备可以按照选好的目标聚类中心数量，对标注文本实体聚类，得到多个聚类簇。

上述实施例中，能够基于聚类分析指标值确定合适的目标聚类中心数量，从而能够对标注文本实体进行合理聚类，进而提高后续生成原型标签向量的准确性，从而提高了后续实体类型标签添加的准确性，即提高实体挖掘的准确性。

应该理解的是，虽然本申请各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，本申请各实施例的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种实体挖掘装置，包括：获取模块502、聚类模块504、编码模块506以及标注模块508，其中：

获取模块502，用于获取标注有同一实体类型标签的标注文本实体；

聚类模块504，用于对所述标注文本实体进行聚类，得到多个聚类簇；

编码模块506，用于分别对同一聚类簇中的标注文本实体进行编码，生成相应的原型标签向量，得到与所述实体类型标签对应的多个原型标签向量；对待标注文本进行编码，得到待标注文本中每个词片段对应的词向量；

标注模块508，用于针对每个词向量，分别确定所述词向量与所述多个原型标签向量之间的相似度，得到多个相似度；若所述多个相似度中最大相似度大于或等于预设阈值，则为所述词向量所对应的词片段添加所述实体类型标签。

在一个实施例中，编码模块506还用于获取预先训练的标签向量编码模型；分别将每个聚类簇中的标注文本实体输入至所述标签向量编码模型中，输出相应的原型标签向量，得到与所述实体类型标签对应的多个原型标签向量。

如图6所示，在一个实施例中，装置还包括：

训练模块501，用于获取样本数据；所述样本数据中包括样本文本和所述样本文本中样本实体的样本实体类型标签；在每轮迭代训练中，针对每个样本实体类型标签，从所述样本数据中筛选携带所述样本实体类型标签的样本实体，得到相应的支撑集；将所述支撑集中的样本实体输入至待训练的标签向量编码模型中，预测出与所述样本实体类型标签对应的多个原型标签向量；对所述样本实体所位于的样本文本进行向量化表达，得到目标向量；从预测的多个原型标签向量中，选取与目标向量最接近的原型标签向量；朝着使最接近的原型标签向量与所述目标向量接近的方向，调整模型参数，并继续迭代训练，直至满足迭代停止条件，得到最终的标签向量编码模型。

在一个实施例中，训练模块501还用于获取原始数据；按照所述原始数据中文本实体的实体名称，从开源知识图谱中查找与所述实体名称匹配的实体节点；若查找到的所述实体节点为一个，则根据唯一的所述实体节点所对应的实体类型，对所述原始数据中相应的文本实体添加实体类型标签，得到标注后的样本数据；若查找到的所述实体节点为多个，则将所述原始数据中的所述文本实体剔除。

在一个实施例中，训练模块501还用于从开源知识图谱中，查找所述原始数据中文本实体对应的三元组；从所述三元组中，确定与所述文本实体的实体名称匹配的实体节点。

在一个实施例中，所述原始数据包括原始页面和原始页面中的超链接；训练模块501还用于根据所述原始页面中的文本实体的实体名称，从开源知识图谱中查找相匹配的实体节点；根据唯一的所述实体节点所对应的实体类型，对所述原始页面中相应的文本实体添加实体类型标签；确定所述超链接所连接至的页面中相应的超链接实体，并为所连接至的页面中所述超链接实体添加相应的实体类型标签，得到标注后的样本数据。

在一个实施例中，聚类模块504还用于分别按照预设的多个候选聚类中心数量，对所述标注文本实体进行预聚类，得到多个预聚类结果；分析多个所述预聚类结果，得到聚类分析指标值；根据所述聚类分析指标值，从多个所述候选聚类中心数量中，选取目标聚类中心数量；按照所述目标聚类中心数量，对所述标注文本实体聚类，得到多个聚类簇。

关于实体挖掘装置的具体限定可以参见上文中对于实体挖掘方法的限定，在此不再赘述。上述实体挖掘装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种实体挖掘方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种实体挖掘方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7或图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现本申请各实施例中所述方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请各实施例中所述方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种实体挖掘方法，其特征在于，所述方法包括：

获取标注有同一实体类型标签的标注文本实体；

对所述标注文本实体进行聚类，得到多个聚类簇；

2.根据权利要求1所述的方法，其特征在于，所述分别对同一聚类簇中的标注文本实体进行编码，生成相应的原型标签向量，得到与所述实体类型标签对应的多个原型标签向量，包括：

获取预先训练的标签向量编码模型；

分别将每个聚类簇中的标注文本实体输入至所述标签向量编码模型中，输出相应的原型标签向量，得到与所述实体类型标签对应的多个原型标签向量。

3.根据权利要求2所述的方法，其特征在于，所述标签向量编码模型通过模型训练步骤得到；所述模型训练步骤包括：

获取样本数据；所述样本数据中包括样本文本和所述样本文本中样本实体的样本实体类型标签；

在每轮迭代训练中，针对每个样本实体类型标签，从所述样本数据中筛选携带所述样本实体类型标签的样本实体，得到相应的支撑集；

将所述支撑集中的样本实体输入至待训练的标签向量编码模型中，预测出与所述样本实体类型标签对应的多个原型标签向量；

对所述样本实体所位于的样本文本进行向量化表达，得到目标向量；

从预测的多个原型标签向量中，选取与目标向量最接近的原型标签向量；

朝着使最接近的原型标签向量与所述目标向量接近的方向，调整模型参数，并继续迭代训练，直至满足迭代停止条件，得到最终的标签向量编码模型。

4.根据权利要求3所述的方法，其特征在于，所述获取样本数据，包括：

获取原始数据；

按照所述原始数据中文本实体的实体名称，从开源知识图谱中查找与所述实体名称匹配的实体节点；

若查找到的所述实体节点为一个，则根据唯一的所述实体节点所对应的实体类型，对所述原始数据中相应的文本实体添加实体类型标签，得到标注后的样本数据；

若查找到的所述实体节点为多个，则将所述原始数据中的所述文本实体剔除。

5.根据权利要求4所述的方法，其特征在于，所述按照所述原始数据中文本实体的实体名称，从开源知识图谱中查找与所述实体名称匹配的实体节点，包括：

从开源知识图谱中，查找所述原始数据中文本实体对应的三元组；

从所述三元组中，确定与所述文本实体的实体名称匹配的实体节点。

6.根据权利要求4所述的方法，其特征在于，所述原始数据包括原始页面和原始页面中的超链接；所述按照所述原始数据中文本实体的实体名称，从开源知识图谱中查找与所述实体名称匹配的实体节点，包括：

根据所述原始页面中的文本实体的实体名称，从开源知识图谱中查找相匹配的实体节点；

所述根据唯一的所述实体节点所对应的实体类型，对所述原始数据中相应的文本实体添加实体类型标签，得到标注后的样本数据，包括：

根据唯一的所述实体节点所对应的实体类型，对所述原始页面中相应的文本实体添加实体类型标签；

确定所述超链接所连接至的页面中相应的超链接实体，并为所连接至的页面中所述超链接实体添加相应的实体类型标签，得到标注后的样本数据。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述对所述标注文本实体进行聚类，得到多个聚类簇，包括：

分别按照预设的多个候选聚类中心数量，对所述标注文本实体进行预聚类，得到多个预聚类结果；

分析多个所述预聚类结果，得到聚类分析指标值；

根据所述聚类分析指标值，从多个所述候选聚类中心数量中，选取目标聚类中心数量；

按照所述目标聚类中心数量，对所述标注文本实体聚类，得到多个聚类簇。

8.一种实体挖掘装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。