CN111159424B

CN111159424B - 标注知识图谱实体的方法，装置，存储介质及电子设备

Info

Publication number: CN111159424B
Application number: CN201911381946.6A
Authority: CN
Inventors: 贺语
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2023-06-06
Anticipated expiration: 2039-12-27
Also published as: CN111159424A

Abstract

本公开涉及一种标注知识图谱实体的方法，装置，存储介质及电子设备，以解决相关技术中存在的问题。该方法包括：确定待构建知识图谱的目标结构，并从已有知识图谱中获取结构与所述目标结构相同的子图；根据所述子图对应的已标注实体以及所述待构建知识图谱对应的待标注实体，生成目标自编码器，并根据所述已标注实体训练分类模型；根据所述目标自编码器对所述待标注实体进行编码，得到每一所述待标注实体的特征向量；将每一所述待标注实体的特征向量输入所述分类模型进行分类；基于所述分类结果，将属于同一分类的待标注实体标注为同一名称。

Description

标注知识图谱实体的方法，装置，存储介质及电子设备

技术领域

本公开涉及数据处理领域，具体地，涉及一种标注知识图谱实体的方法，装置，存储介质及电子设备。

背景技术

知识图谱(Knowledge Graph)是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互间的关系，其基本组成单位是三元组。具体地，我们可以把三元组理解为(实体entity，实体关系relation，实体entity)，若将实体看做结点把实体关系(包括属性，类别等)看做一条边，实体之间通过实体关系相互联结，构成网状的知识结构，如此包含了大量三元组的知识库就成为了一个庞大的知识图谱。

相关技术中，构建知识图谱之前，需对语料进行标注。所谓语料标注是指对任意数量的语篇中的语言进行加工，把各种表征语言特征的附码标注在相应的语言成分上，以便于计算机的识读。例如对原始的自然语言文本数据进行分词处理，然后人工进行词性、词类的分类处理。由于用于构建知识图谱的语料多且复杂，因此，语料标注环节的工作量巨大，需要大量的人员花费大量的时间才能完成语料标注，如此导致人工成本巨大。

发明内容

本公开的目的是提供一种标注知识图谱实体的方法，装置，存储介质及电子设备，以解决相关技术中存在的问题。

为了实现上述目的，根据本公开实施例的第一方面，提供一种标注知识图谱实体的方法，包括：

确定待构建知识图谱的目标结构，并从已有知识图谱中获取结构与所述目标结构相同的子图；

根据所述子图对应的已标注实体以及所述待构建知识图谱对应的待标注实体，生成目标自编码器，并根据所述已标注实体训练分类模型；

根据所述目标自编码器对所述待标注实体进行编码，得到每一所述待标注实体的特征向量；

将每一所述待标注实体的特征向量输入所述分类模型进行分类；

基于所述分类结果，将属于同一分类的待标注实体标注为同一名称。

可选地，所述分类模型是通过如下方式训练得到的：

根据所述目标自编码器对所述已标注实体进行编码，得到每一所述已标注实体的特征向量；

根据所述已标注实体的特征向量以及所述已标注实体的真实标注信息构建训练样本对所述分类模型进行训练，直到所述分类模型对所述已标注实体的特征向量分类得到的结果与所述已标注实体的真实标注信息相符。

可选地，所述目标自编码器是通过如下方式得到的：

根据所述已标注实体训练得到第一自编码器，并根据所述待标注实体训练得到第二自编码器，其中，所述第二自编码器与所述第一自编码器的维度相同；

将第一特征向量集合和第二特征向量集合输入二分类机进行分类，并确定所述二分类机的分类结果中，每一类中的所述第一特征向量的占比，所述第一特征向量集合是所述第一自编码器对所述已标注实体编码得到的，所述第二特征向量集合是所述第二自编码器对所述待标注实体编码得到的；

通过对所述第二自编码器的超参数进行调整，使得所述二分类机的分类结果中，每一类中的所述第一特征向量占比处于预设范围，并将调整后的所述第二自编码器作为所述目标自编码器。

可选地，所述目标自编码器是通过如下方式得到的：

针对所述子图构建对应的广度生成树，根据所述广度生成树的结点顺序对第一特征向量集合进行排列，得到第一特征向量序列，所述第一特征向量集合是所述第一自编码器对所述已标注实体编码得到的；

计算所述第一特征向量序列与全排列第二特征向量集合得到的多个第二特征向量序列的相似度，并将得到的相似度最大值作为目标相似度，所述第二特征向量集合是所述第二自编码器对所述待标注实体编码得到的；

在所述目标相似度的值未超过预设阈值时，调整所述第一自编码器或所述第二自编码器的超参数，直到再次计算得到的目标相似度超过所述预设阈值，将调整后的所述第一自编码器或调整后的所述第二自编码器作为所述目标自编码器。

可选地，所述基于所述分类结果，将属于同一分类的待标注实体标注为同一名称，包括：

确定与所述第一特征向量序列相似度最大的第二特征向量目标序列，以及所述待构建知识图谱的目标结构中与所述广度生成树对应的目标结点顺序；

根据所述分类结果确定所述第二特征向量目标序列中的多个有序的子序列，其中，每一子序列对应所述分类结果中的一类；

根据所述目标结点顺序将所述待构建知识图谱的目标结构中各结点的名称，依次对每一所述子序列对应的待标注实体进行标注。

根据本公开实施例的第二方面，提供一种标注知识图谱实体的装置，所述装置包括：

获取模块用于，确定待构建知识图谱的目标结构，并从已有知识图谱中获取结构与所述目标结构相同的子图；

生成模块用于，根据所述子图对应的已标注实体以及所述待构建知识图谱对应的待标注实体，生成目标自编码器，并根据所述已标注实体训练分类模型；

编码模块用于，根据所述目标自编码器对所述待标注实体进行编码，得到每一所述待标注实体的特征向量；

输入模块用于，将每一所述待标注实体的特征向量输入所述分类模型进行分类；

标注模块用于，基于所述分类结果，将属于同一分类的待标注实体标注为同一名称。

可选地，所述分类模型是通过如下方式训练得到的：

可选地，所述目标自编码器是通过如下方式得到的：

在所述目标相似度的值未超过所述预设阈值时，调整所述第一自编码器或所述第二自编码器的超参数，直到再次计算得到的目标相似度超过所述预设阈值，将调整后的所述第一自编码器或调整后的所述第二自编码器作为所述目标自编码器。

可选地，所述标注模块包括：

第一确定子模块用于，确定与所述第一特征向量序列相似度最大的第二特征向量目标序列，以及所述待构建知识图谱的目标结构中与所述广度生成树对应的目标结点顺序；

第二确定子模块用于，根据所述分类结果确定所述第二特征向量目标序列中的多个有序的子序列，其中，每一子序列对应所述分类结果中的一类；

标注子模块用于，根据所述目标结点顺序将所述待构建知识图谱的目标结构中各结点的名称，依次对每一所述子序列对应的待标注实体进行标注。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面任一项所述方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面任一项所述方法的步骤。

采用上述技术方案，至少能够达到如下技术效果：

通过确定待构建知识图谱的目标结构，并从已有知识图谱中获取结构与该目标结构相同的子图；如此，可以使子图的图谱结构与待构建知识图谱的目标结构相同，避免有向无环的图谱结构差异对生成待构建知识图谱的目标结构模型造成影响。根据该子图对应的已标注实体以及待构建知识图谱对应的待标注实体，生成目标自编码器；如此，可以采用同一目标自编码器对已标注实体和待标注实体进行编码，得到相同编码维度下的有效特征向量。根据已标注实体训练分类模型；并根据目标自编码器对待标注实体进行编码，得到每一待标注实体的特征向量；将每一待标注实体的特征向量输入该分类模型进行分类；如此，可以将对已标注实体进行分类的方式迁移到对待标注实体进行分类中应用。基于分类结果，将属于同一分类的待标注实体标注为同一名称。采用这种方式，无需人工对每一个待标注实体进行标注，而是通过迁移已标注实体的分类方式，对待标注实体进行分类，然后，将每一类的实体标注为同一实体名称。这种方式减少了人工标注的工作量，减少了人工成本。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的一种标注知识图谱实体的方法的流程图。

图2是根据本公开一示例性实施例示出的一种待构建知识图谱的目标结构图。

图3A是根据本公开一示例性实施例示出的一种子图。

图3B是根据本公开一示例性实施例示出的一种子图的广度生成树。

图4是根据本公开一示例性实施例示出的一种标注知识图谱实体的装置的框图。

图5根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

由于知识图谱可以把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而直观地显示出来，从而揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。因此，在谷歌搜索，百度搜索，聊天机器人，大数据风控，证券投资，智能医疗，自适应教育，推荐系统，反欺诈引擎架构等领域中均利用了知识图谱。

有鉴于此，本公开实施例提供一种标注知识图谱实体的方法，装置，存储介质及电子设备，以减少语料标注环节的人工成本。

为使本领域普通技术人员更加容易理解本公开实施例的技术方案，首先对本公开的应用场景进行说明。

本公开主要应用于新建知识图谱的业务中。不难理解的是，由于每一领域的语料不同，因而各领域的知识图谱不同。而不同的公司，即便在构建同一领域的知识图谱时，也会因为采用的语料不同而构建出不同的知识图谱。因此，在日常工作中，每一公司常常根据自己的业务数据构建符合该公司需求的知识图谱。

而构建新的知识图谱时，在实体标注环节人工成本较高，因此，在本公开中，基于迁移学习的方式，将已有知识图谱中的实体标注模型迁移至新的知识图谱的实体标注环节中加以应用，以减少实体标注环节的人工成本。

示例地，在一种可能的情况下，火力发电公司需要建立一个关于火力发电的知识图谱，采用该火力发电公司使用的机械设备的说明书，设备检修规程等作为图谱的语料。此种情况下，若对该机械设备说明书，设备检修规程等语篇进行分词处理，然后人工进行词语标注，那么面对大量的语篇，这种人工标注的方式显然会耗费巨大的人工成本。而若已有一份医疗信息方面的知识图谱，且该医疗知识图谱中包括大量地已标注的关于医疗的词语实体，并且该医疗知识图谱具有一个非常复杂地、完善地知识图谱模型(结构)。那么，若将该医疗知识图谱的标注模型应用在火力发电厂的知识图谱上，会降低人工标注词语实体的工作量。

再示例地，若在水电站，建筑公司等其他公司基于自己的语料建立新的知识图谱时，也可以应用上述的医疗知识图谱的标注模型，如此也可以降低人工标注词语实体的工作量，提高构建新知识图谱的效率。

下面对本公开实施例的技术方案进行详细说明。

图1是根据本公开一示例性实施例示出的一种标注知识图谱实体的方法的流程图，如图1所示，包括：

S101、确定待构建知识图谱的目标结构，并从已有知识图谱中获取结构与所述目标结构相同的子图。

其中，值得说明的是，在构建知识图谱之前，还需先设计该知识图谱的Schema(在本公开中定义Schema为目标结构)，一个知识图谱的Schema可以理解为一个领域内的数据模型，Schema包含了该领域里面有意义的概念类型以及这些类型的属性，即是说任何一个领域的Schema主要由类型和属性来表达。因此，在本公开中，待构建知识图谱的目标结构中的每一个结点均为一个概念实体结点。

示例地，如图2所示，图2中示出了一种火力发电厂的知识图谱的目标结构(Schema)。在图2中，每一结点都表征一个概念类型的实体结点，每一结点包括该实体结点的概念类型以及属性信息。从图2可知，在知识图谱的Schema中还包括概念实体结点之间的联结关系，例如，缺陷现象结点与缺陷原因结点相连，这种联结关系表征通过缺陷现象，可以查找到对应的缺陷原因。

在设计了待构建知识图谱的目标结构之后，需根据从语料中抽取出来的的数据，向该目标结构中填充表征实例的实体结点，如此，便可以构建出知识图谱。示例地，若从语料中抽取出一个实体为发电机，可以将该发电机实体结点联结于类型是设备的概念实体结点上，其中发电机结点为上述的实例实体结点。

在步骤S101中，先确定待构建知识图谱的目标结构，然后从已有知识图谱中获取结构与待构建知识图谱的目标结构相同的子图。

需说明的是，本公开技术方案的应用前提是已有的知识图谱的Schema中包括待构建知识图谱的目标结构，如此，可以从已有知识图谱中获取结构与待构建知识图谱的目标结构相同的子图。上述已有的知识图谱是指知识图谱的Schema中每一概念实体结点均联结了实例实体结点的图，该已有的知识图谱已经是一个维护良好的，数据丰富的现有知识图谱。

S102、根据所述子图对应的已标注实体以及所述待构建知识图谱对应的待标注实体，生成目标自编码器，并根据所述已标注实体训练分类模型；

子图对应的已标注实体是指该子图包括的所有实例实体。具体地，已标注实体是指该子图中的每一概念实体结点所联结的所有实例实体结点。

待构建知识图谱对应的待标注实体，是指从语料中抽取出来的、未进行标注的词语。例如，若从语料中抽取出的词语有：发电机、漏电、第一机组。那么这些词语都是上述的待标注实体。

此处值得说明的是，自编码器(Autoencoder)是一种旨在将输入复制到输出的神经网络，自编码器包括编码器和解码器两部分，编码器将输入压缩成一种隐藏空间表示(latent-space representation)，可以用编码函数h＝f(x)来表征；然后解码器重构隐藏空间表示的输出，可以用解码函数r＝g(h)来表征。通过训练自编码器以使自编码器的输入和输出一致，即使得r与原始输入x相一致。自编码器的意义在于可以使隐藏表示的编码函数拥有有用的属性，从而使得编码器编码出的特征向量是有意义的向量。而有意义的特征向量可以表征对应的输入数据。

在步骤S102中，根据子图对应的已标注实体以及待构建知识图谱对应的待标注实体，生成目标自编码器，如此，将已标注实体数据和待标注实体数据输入目标自编码器中，可以得到在同一自编码器的编码维度下的有意义的特征向量，这些有意义的特征向量，可以被该目标自编码器解码为对应的已标注实体数据或者待标注实体数据。

而根据已标注实体训练分类模型，具体地，通过将已标注实体输入目标编码器，得到对应地已标注实体的特征向量，然后根据已标注实体的特征向量训练分类模型。

S103、根据所述目标自编码器对所述待标注实体进行编码，得到每一所述待标注实体的特征向量。

S104、将每一所述待标注实体的特征向量输入所述分类模型进行分类。

将待标注实体输入目标编码器，得到对应每一待标注实体的特征向量。将每一待标注实体的特征向量输入分类模型进行分类，得到待标注实体的特征向量的分类结果。其中由于分类模型是根据已标注实体的特征向量训练得到的，因此，对待标注实体的特征向量进行分类时，采用了对已标注实体的特征向量进行分类的方式。即可以说是对已标注实体的特征向量进行分类的方式被迁移应用于对待标注实体的特征向量进行分类。其中，由于已标注实体的特征向量和待标注实体的特征向量都是通过目标编码器进行编码得到的同一编码维度下地、有意义地特征向量，因此，对已标注实体的特征向量进行分类的方式可以被迁移到对待标注实体的特征向量进行分类中应用。

S105、基于所述分类结果，将属于同一分类的待标注实体标注为同一名称。

对待标注实体的特征向量进行分类后，将属于同一分类的特征向量所对应表征的待标注实体标注为同一名称。

采用这种方法，通过确定待构建知识图谱的目标结构，并从已有知识图谱中获取结构与该目标结构相同的子图；如此，可以使子图的图谱结构与待构建知识图谱的目标结构相同，避免有向无环的图谱结构差异对待构建知识图谱的模型生成造成影响。根据该子图对应的已标注实体以及待构建知识图谱对应的待标注实体，生成目标自编码器；如此，可以采用同一目标自编码器对已标注实体和待标注实体进行编码，得到相同编码维度下的有效特征向量。根据已标注实体训练分类模型；并根据目标自编码器对待标注实体进行编码，得到每一待标注实体的特征向量；将每一待标注实体的特征向量输入该分类模型进行分类；如此，可以将对已标注实体进行分类的方式迁移到对待标注实体进行分类的方法中。基于分类结果，将属于同一分类的待标注实体标注为同一名称。采用这种方式，无需人工对每一个待标注实体进行标注，而是通过迁移已标注实体的分类方式，对待标注实体进行分类，然后，将每一类的实体标注为同一实体名称。这种方式减少了人工标注的工作量，减少了人工成本。

下面说明如何训练得到分类模型。

在一种可实现的实施方式中，所述分类模型可以通过如下方式训练得到：

根据所述目标自编码器对所述已标注实体进行编码，得到每一所述已标注实体的特征向量；根据所述已标注实体的特征向量以及所述已标注实体的真实标注信息构建训练样本对所述分类模型进行训练，直到所述分类模型对所述已标注实体的特征向量分类得到的结果与所述已标注实体的真实标注信息相符。

其中，根据所述目标自编码器对所述已标注实体进行编码，得到每一所述已标注实体的特征向量，具体地，将已标注实体输入目标自编码器，目标自编码器的编码器输出编码后的已标注实体的特征向量。

由于已标注实体已经具有标注信息，根据已标注实体的标注信息可以知道该实体的类别。示例地，若实体A为(类型：疾病；属性：心脏病)，可知该实体A的标注信息为疾病，根据该标注信息，可知实体A联结于该知识图谱的Schema中概念实体结点B(类型：疾病；属性：名称)上。进一步地，可知实体A属于疾病分类。

因此，可以根据已标注实体的特征向量以及该已标注实体的真实标注信息构建训练样本对分类模型进行训练，直到该分类模型对该已标注实体的特征向量分类得到的结果与该已标注实体的真实分类信息相符时，便可以得到训练后的分类模型。

在一种可能的情况下，在训练分类模型时，若使得分类模型对每一个已标注实体的特征向量分类得到的结果与该已标注实体的真实分类完全相符合，那么可能导致该分类模型过拟合。其中过拟合是指，该模型在训练样本集上表现效果好，而在测试样本集上表现效果差，即过拟合的模型泛化能力弱。

因此，在另一种可实现的实施方式中，所述分类模型还可以是通过如下方式训练得到的：

根据所述目标自编码器对所述已标注实体进行编码，得到每一所述已标注实体的特征向量；根据所述已标注实体的特征向量以及所述已标注实体的真实标注信息构建训练样本对所述分类模型进行训练，直到所述分类模型对所述已标注实体的特征向量分类得到的结果中，有百分之九十以上的特征向量分类结果与对应地已标注实体的真实标注信息相符时，得到训练后的分类模型。

其中，值得说明的是，还可以用百分之九十五作为分类模型的训练阈值。对此，本公开不作限定。

采用这种方式，可以在训练分类模型时避免该模型过拟合。如此，在使用该分类模型对待标注实体的特征向量进行分类时，可以更加准确的对待标注实体的特征向量进行分类。即是说，采用这种方式训练得到的分类模型泛化能力强，可以在测试样本集上表现效果更优。

下面说明如何得到目标自编码器。

在一种可实现的实施方式中，所述目标自编码器可以通过如下方式得到的：

S301、根据所述已标注实体训练得到第一自编码器，并根据所述待标注实体训练得到第二自编码器，其中，所述第二自编码器与所述第一自编码器的维度相同。

将已标注实体作为训练样本，对第一自编码器进行自由编码训练；在输入第一自编码器的已标注实体数据等于输出时的数据时，训练结束，得到第一自编码器。同样地，将待标注实体作为训练样本，对第二自编码器进行自由编码训练；在输入第二自编码器的待标注实体数据等于输出时的数据时，训练结束，得到第二自编码器。

其中需要说明的是，第二自编码器与第一自编码器的维度相同。换句话说，第二自编码器与第一自编码器的编码维度相同。本领域普通技术人员不难理解的是，若自编码器中的编码器部分的维度与输入该自编码器的数据的表征维度相同，那么该自编码器中的编码器和解码器部分会分别对原始数据进行全映射，这种情况下，训练得到的自编码器是没有意义的。示例地，假设自编码器的输入为ABC，而该自编码器中的编码器部分的编码维度与输入数据的表征维度一致，那么在编码器进行编码后得到的数据仍为ABC，将编码后的数据输入解码器进行解码，得到解码后的数据为ABC。显然，该自编码器是没有意义的。

因此需说明的是，在本公开中第二自编码器与第一自编码器的维度相同，即第一自编码器和第二编码器中的编码器部分的维度相同。并且，第一自编码器和第二自编码器中的编码器对输入数据的表征维度进行压缩编码，或者解压编码。

S302、将第一特征向量集合和第二特征向量集合输入二分类机进行分类，并确定所述二分类机的分类结果中，每一类中的所述第一特征向量的占比，所述第一特征向量集合是所述第一自编码器对所述已标注实体编码得到的，所述第二特征向量集合是所述第二自编码器对所述待标注实体编码得到的。

将已标注实体输入第一自编码器得到第一特征向量集合，将待标注实体输入第二自编码器得到第二特征向量集合。由于第一自编码器和第二自编码器的编码维度相同，因此，第一特征向量集合和第二特征向量集合中的向量维度均相同。

将第一特征向量集合和第二特征向量集合输入二分类机进行分类，根据分类结果可知该二分类机是否正确区分第一特征向量集合和第二特征向量集合中的各个向量。

在二分类机可以区分第一特征向量集合和第二特征向量集合中的向量时，调整第二自编码器的超参数。然后将待标注实体输入调整后的第二自编码器得到新的第二特征向量集合。将第一特征向量和新的第二特征向量集合输入二分类机继续进行分类。

S303、通过对所述第二自编码器的超参数进行调整，使得所述二分类机的分类结果中，每一类中的所述第一特征向量占比处于预设范围，并将调整后的所述第二自编码器作为所述目标自编码器。

在二分类机的分类结果中，每一类中的第一特征向量占比处于预设范围时，认为该二分类机不能区分第一特征向量集合和第二特征向量集合中的向量。示例地，预设范围为48％-52％，若二分类机的分类结果中，第一类中的第一特征向量占比为49.5％，第二类中的第一特征向量占比为50.5％，此时认为该二分类无法区分第一特征向量集合和第二特征向量集合中的向量。此种情况下，将调整后的第二自编码器作为目标自编码器。

其中需说明的是，若二分类机的分类结果中，第一类中的第一特征向量占比为49.5％，那么第二特征向量的占比为50.5％，此时，二分类机对第一特征向量和第二特征向量的识别率约为百分之五十，即是说，此时的二分类机是随机对第一特征向量和第二特征向量进行分类的。因此，定义在这种情况下，二分类机无法区分第一特征向量和第二特征向量。

示例地，超参数可以是定义自编码器的每一层中神经元的数量；学习速率以及正则化器等。例如，自编码器有两层，一层为编码器，一层为解码器，假设第一层有300个神经元，第二层有150个神经元，则对应的超参数的值为300和150。再例如表征学习速率的超参数为0.01。对第二自编码器的超参数进行调整时，具体可以通过网格搜索的方式进行超参数的变更。

在S303中，另一种可能的实施方式，还可以是，在所述二分类机的分类结果中，在任意一类中的所述第一特征向量占比处于预设范围时，将调整后的所述第二自编码器作为所述目标自编码器。

示例地，预设范围为48％-50％，第一类中的第一特征向量占比为49％，第二类中的第一特征向量的占比为51％。其中，第一类中的第一特征向量占比49％处于预设范围为48％-50％中，第二类中的第一特征向量的占比51％不处于预设范围为48％-50％中，此种情况下，也认为该二分类无法区分第一特征向量集合和第二特征向量集合中的向量。

采用这种方式，通过区分第一编码器生成的第一特征向量与第二编码器生成的第二特征向量，不断的调整第一自编码器的超参数，直到二分类机无法区分第一特征向量集合和第二特征向量集合中的向量时，得到调整后的第一自编码器，将调整后的第一自编码器作为目标编码器。采用这种方式得到的目标编码器可以对待标注实体和已标注实体进行编码，得到有意义的特征向量。

其中，采用不断调整第二自编码器的超参数而不调整第一自编码器的超参数的方式，可以使得第二自编码器不断学地到第一自编码器的编码特征，换句话说，这种方式使得第一自编码器的编码特征不断迁移到第二自编码器中。采用这种方式得到的目标自编码器，有利于分类模型对待标注实体的特征向量进行分类，使得分类结果更加准确。

此处还需要说明的是，在一种可行的实施方式中，在S303中，还可以通过对所述第一自编码器的超参数进行调整，使得所述二分类机的分类结果中，每一类中的所述第一特征向量占比处于预设范围，并将调整后的所述第一自编码器作为所述目标自编码器。在另一种可行的实施方式中，在S303中，还可以同时对所述第一自编码器和所述第二自编码器的超参数进行调整，这种同时调整的方式，有利于模型训练的收敛，更加快速的得到目标分类模型。

在另一种可实现的实施方式中，所述目标自编码器可以通过如下方式得到的：

S401、根据所述已标注实体训练得到第一自编码器，并根据所述待标注实体训练得到第二自编码器，其中，所述第二自编码器与所述第一自编码器的维度相同。

该步骤与上述步骤S301的实施方式相同，此处不再赘述。

S402、针对所述子图构建对应的广度生成树，根据所述广度生成树的结点顺序对第一特征向量集合进行排列，得到第一特征向量序列，所述第一特征向量集合是所述第一自编码器对所述已标注实体编码得到的；

不难理解的是，子图中包括n个结点，则子图对应有n个广度生成树，原因在于，可以将子图中的任意一个结点作为广度生成树的根结点，以得到对应的n个广度生成树。

根据广度生成树的结点顺序对第一特征向量集合进行排列，得到第一特征向量序列，示例地，假设子图如图3A所示(图3A中未示出结点联结方向)，若以a为根结点，对应的广度生成树如图3B所示，该广度生成树的结点顺序为a，b，c，d，e，f，h，g，i。

根据该结点顺序对第一特征向量集合进行排列，得到第一特征向量序列。其中值得说明的是，属于同一结点的各实例实体结点的特征向量之间的顺序不限定。示例地，若结点a连接有实例实体结点a1，a2，a3；结点b连接有实例实体结点b1，b2，b3，b4；结点c连接有实例实体结点c1，c2；结点d连接有实例实体结点d1，d2，d3，d4，d5；结点e连接有实例实体结点e1；结点f连接有实例实体结点f1，f2，f3，f4，f5，f6；结点g连接有实例实体结点g1，g2，g3；结点h连接有实例实体结点h1，h2，h3，h4，h5；结点i连接有实例实体结点i1，i2。那么，根据该结点顺序对第一特征向量集合进行排列，得到第一特征向量序列为：a1，a2，a3，b1，b2，b3，b4，c1，c2，d1，d2，d3，d4，d5，e1，f1，f2，f3，f4，f5，f6，h1，h2，h3，h4，h5，g1，g2，g3，i1，i2。第一特征向量序列也可以为：a2，a1，a3，b4，b1，b2，b3，c2，c1，d5，d1，d4，d2，d3，e1，f1，f3，f4，f2，f5，f6，h1，h3，h4，h5，h2，g1，g2，g3，i2，i1。

S403、计算所述第一特征向量序列与全排列第二特征向量集合得到的多个第二特征向量序列的相似度，并将得到的相似度最大值作为目标相似度，所述第二特征向量集合是所述第二自编码器对所述待标注实体编码得到的。

在一种可能的情况下，可以采用计算相似度的方式来判断第一特征向量集合与第二特征向量集合的相似性。

第二特征向量集合是第二自编码器对待标注实体编码得到的，而由于未对待标注实体进行标注，因此，并不知道待标注实体对应于待构建知识图谱的目标结构中的哪一个概念实体结点。因此，在计算第一特征向量集合与第二特征向量集合的相似度时，需对第二特征向量集合进行全排列，然后计算第一特征向量序列与全排列第二特征向量集合得到的多个第二特征向量序列的相似度，并将得到的相似度最大值作为目标相似度。

采用这种方式，可以避免在第二特征向量集合中由于各向量的排列顺序不一致而导致的相似度差异较大的问题。

S404、在所述目标相似度的值未超过预设阈值时，调整所述第一自编码器或所述第二自编码器的超参数，直到再次计算得到的目标相似度超过所述预设阈值，将调整后的所述第一自编码器或调整后的所述第二自编码器作为所述目标自编码器。

在目标相似度未超过预设阈值时，调整第一自编码器或第二自编码器的超参数，然后重新得到第一特征向量集合或者重新得到第二特征向量集合，重新计算得到目标相似度，直到再次计算得到的目标相似度超过预设阈值时，将调整后的第一自编码器或调整后的第二自编码器作为目标自编码器。

其中预设阈值可以是70％，80％等，对此本公开不做限定。

采用这种方式，先根据子图的广度生成树的结点顺序对第一特征向量集合进行排列，得到第一特征向量序列，然后在计算第一特征向量序列与全排列第二特征向量集合得到的多个第二特征向量序列的相似度，这种方式，相较于全排列第一特征向量集合以及全排列第二特征向量集合之后进行相似度计算的方法，减少了计算量。

下面说明如何根据分类结果对待标注实体进行标注。

在一种可实现的实施方式中，所述基于所述分类结果，将属于同一分类的待标注实体标注为同一名称，可以包括以下步骤：

S501、确定与所述第一特征向量序列相似度最大的第二特征向量目标序列，以及所述待构建知识图谱的目标结构中与所述广度生成树对应的目标结点顺序。

其中，第二特征向量目标序列与第一特征向量序列相似度最大，隐含的表征了第二特征向量目标序列中的实体类别顺序与第一特征向量的实体类别序列基本相对应。示例地，例如第一特征向量序列为：a1，a2，a3，b1，b2，b3，b4，c1，c2，d1，d2，d3，d4，d5，e1，f1，f2，f3，f4，f5，f6，h1，h2，h3，h4，h5，g1，g2，g3，i1，i2。第二特征向量目标序列为：A1，A2，A3，B1，B2，C1，C2，E2，C3，C4，D1，E1，E3，E4，F1，F2，F3，F4，F1，F2，F3，F4，F5，G1，G2，I1，G3，I2，I3，I4。第一特征向量序列中的a类对应于第二特征向量目标序列中的A类；b类对应B类等。

进一步地，确定所述待构建知识图谱的目标结构中与所述广度生成树对应的目标结点顺序。示例地，假设广度生成树目标结点顺序为：a，b，c，d，e，f，h，g，i，对应的待构建知识图谱的目标结点顺序：A，B，C，D，E，F，H，G，I。

S502、根据所述分类结果确定所述第二特征向量目标序列中的多个有序的子序列，其中，每一子序列对应所述分类结果中的一类。

示例地，根据分类模型对第二特征向量集合进行分类的结果确定第二特征向量目标序列中的多个有序的子序列：(A1，A2，A3)；(B1，B2)；(C1，C2，E2，C3，C4)；(D1)；(E1，E3，E4，)；(F1，F2，F3，F4，F5)；(G1，G2，I1，G3)；(I2，I3，I4)。

S503、根据所述目标结点顺序将所述待构建知识图谱的目标结构中各结点的名称，依次对每一所述子序列对应的待标注实体进行标注。

示例地，目标结点顺序为A，B，C，D，E，F，H，G，I。对应地，将子序列(A1，A2，A3)中的每一待标注实体都标注为A；将子序列(B1，B2)中的每一待标注实体都标注为B；将子序列(C1，C2，E2，C3，C4)中的每一待标注实体都标注为C；将子序列(D1)中的每一待标注实体标注为D；将子序列(E1，E3，E4，)中的每一待标注实体标注为E；将子序列(F1，F2，F3，F4，F5)中的每一待标注实体标注为F；将子序列(G1，G2，I1，G3)中的每一待标注实体标注为G；将子序列(I2，I3，I4)中的每一待标注实体标注为I。

需说明的是，虽然上述例子中将E2错误标注为C，这种情况是不可避免的误差导致的。在依次对每一子序列对应的待标注实体进行标注之后，可以通过人工纠正的方式将E2标注为E。

采用这种方法，可以进一步地减少人工标注的工作量，只需要对标注结果进行检查，纠正其中的错误标注即可。

基于同一发明构思，本公开实施例还提供一种标注知识图谱实体的装置，如图4所示，该装置400包括：

获取模块410用于，确定待构建知识图谱的目标结构，并从已有知识图谱中获取结构与所述目标结构相同的子图；

生成模块420用于，根据所述子图对应的已标注实体以及所述待构建知识图谱对应的待标注实体，生成目标自编码器，并根据所述已标注实体训练分类模型；

编码模块430用于，根据所述目标自编码器对所述待标注实体进行编码，得到每一所述待标注实体的特征向量；

输入模块440用于，将每一所述待标注实体的特征向量输入所述分类模型进行分类；

标注模块450用于，基于所述分类结果，将属于同一分类的待标注实体标注为同一名称。

采用这种装置，通过确定待构建知识图谱的目标结构，并从已有知识图谱中获取结构与该目标结构相同的子图；如此，可以使子图的图谱结构与待构建知识图谱的目标结构相同，避免有向无环的图谱结构差异对待构建知识图谱的模型生成造成影响。根据该子图对应的已标注实体以及待构建知识图谱对应的待标注实体，生成目标自编码器；如此，可以采用同一目标自编码器对已标注实体和待标注实体进行编码，得到相同编码维度下的有效特征向量。根据已标注实体训练分类模型；并根据目标自编码器对待标注实体进行编码，得到每一待标注实体的特征向量；将每一待标注实体的特征向量输入该分类模型进行分类；如此，可以将对已标注实体进行分类的方式迁移到对待标注实体进行分类的方法中。基于分类结果，将属于同一分类的待标注实体标注为同一名称。采用这种方式，无需人工对每一个待标注实体进行标注，而是通过迁移已标注实体的分类方式，对待标注实体进行分类，然后，将每一类的实体标注为同一实体名称。这种方式减少了人工标注的工作量，减少了人工成本。

可选地，所述分类模型是通过如下方式训练得到的：

可选地，所述目标自编码器是通过如下方式得到的：

可选地，所述标注模块包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种电子设备700的框图。如图5所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的标注知识图谱实体的方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的标注知识图谱实体的方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的标注知识图谱实体的方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的标注知识图谱实体的方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的标注知识图谱实体的方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种标注知识图谱实体的方法，其特征在于，包括：

基于所述分类结果，将属于同一分类的待标注实体标注为同一名称；

所述目标自编码器是通过如下方式得到的：根据所述已标注实体训练得到第一自编码器，并根据所述待标注实体训练得到第二自编码器，其中，所述第二自编码器与所述第一自编码器的维度相同；将第一特征向量集合和第二特征向量集合输入二分类机进行分类，并确定所述二分类机的分类结果中，每一类中的所述第一特征向量的占比，所述第一特征向量集合是所述第一自编码器对所述已标注实体编码得到的，所述第二特征向量集合是所述第二自编码器对所述待标注实体编码得到的；通过对所述第二自编码器的超参数进行调整，使得所述二分类机的分类结果中，每一类中的所述第一特征向量占比处于预设范围，并将调整后的所述第二自编码器作为所述目标自编码器；

或者，所述目标自编码器是通过如下方式得到的：根据所述已标注实体训练得到第一自编码器，并根据所述待标注实体训练得到第二自编码器，其中，所述第二自编码器与所述第一自编码器的维度相同；针对所述子图构建对应的广度生成树，根据所述广度生成树的结点顺序对第一特征向量集合进行排列，得到第一特征向量序列，所述第一特征向量集合是所述第一自编码器对所述已标注实体编码得到的；计算所述第一特征向量序列与全排列第二特征向量集合得到的多个第二特征向量序列的相似度，并将得到的相似度最大值作为目标相似度，所述第二特征向量集合是所述第二自编码器对所述待标注实体编码得到的；在所述目标相似度的值未超过预设阈值时，调整所述第一自编码器或所述第二自编码器的超参数，直到再次计算得到的目标相似度超过所述预设阈值，将调整后的所述第一自编码器或调整后的所述第二自编码器作为所述目标自编码器。

2.根据权利要求1所述的方法，其特征在于，所述分类模型是通过如下方式训练得到的：

3.根据权利要求1所述的方法，其特征在于，所述基于所述分类结果，将属于同一分类的待标注实体标注为同一名称，包括：

4.一种标注知识图谱实体的装置，其特征在于，所述装置包括：

标注模块用于，基于所述分类结果，将属于同一分类的待标注实体标注为同一名称；

5.根据权利要求4所述的装置，其特征在于，所述分类模型是通过如下方式训练得到的：

6.根据权利要求4所述的装置，其特征在于，所述标注模块包括：

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-3中任一项所述方法的步骤。

8.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-3中任一项所述方法的步骤。