CN115309915B

CN115309915B - 知识图谱构建方法、装置、设备和存储介质

Info

Publication number: CN115309915B
Application number: CN202211195015.9A
Authority: CN
Inventors: 王乐
Original assignee: Beijing Ruju Technology Co ltd
Current assignee: Beijing Ruju Technology Co ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-12-09
Anticipated expiration: 2042-09-29
Also published as: CN115309915A

Abstract

本发明提供一种知识图谱构建方法、装置、设备和存储介质，应用于信息处理技术领域，该方法包括：获取特定领域的多个目标语料；将多个目标语料输入实体关系抽取模型中，得到多个目标语料中的多个目标实体以及多个目标实体中头实体和尾实体之间的目标关系，其中，实体关系抽取模型为根据本体库对初始语料库中的第一语料进行实体标注后，基于标注后的第一语料对初始模型中的初始实体关系抽取模型进行训练得到的，本体库中包括通用领域的概念层本体和特定领域的领域层本体，领域层本体为基于概念层本体进行扩展得到的；根据多个目标实体以及目标关系，构建面向特定领域的知识图谱。本发明中，使得构建出的面向特定领域的知识图谱准确性更高。

Description

知识图谱构建方法、装置、设备和存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种知识图谱构建方法、装置、设备和存储介质。

背景技术

随着互联网技术的不断更新发展，越来越多的人开始从互联网上获取信息和知识。基于人们对知识的渴望，大量的搜索引擎、自动问答系统被设计开发，并被用来为人们提供信息上的需求。但近年来，随着数据规模的急剧增加，传统搜索引擎很难找寻精准的问题答案以及答案背后的知识体系。因此，以谷歌知识图谱为代表的一系列知识图谱应运而生，其主要目的是为用户提供结构化的知识，而不是单独的信息点。知识图谱可以极大的提高知识查询的精度，延伸知识获取的边界和范围，因此受到工业界和学术界的广泛关注。

目前，知识图谱在构建的过程中，通过将获取的语料输入实体关系抽取模型来获取语料中实体、以及实体之间的关系，并根据实体、以及实体之间的映射关系构建知识图谱。然而，目前所采用的实体关系抽取模型，是基于某些大众领域（譬如医疗领域）的数据训练得到的，但是对于大量的特定领域，由于数据量往往较小，无法满足大规模深度学习模型的训练需求，因而，通过采用上述方式训练出的实体关系抽取模型构建知识图谱时，导致构建的知识图谱准确性不高。

发明内容

本发明提供一种知识图谱构建方法、装置、设备和存储介质，用以解决现有技术中在构建面向特定领域的知识图谱时，构建出的知识图谱准确性不高的问题。

本发明提供一种知识图谱构建方法，包括：

获取特定领域的多个目标语料，所述多个目标语料的格式统一；

将所述多个目标语料输入实体关系抽取模型中，得到所述多个目标语料中的多个目标实体以及所述多个目标实体中头实体和尾实体之间的目标关系，所述实体关系抽取模型为根据本体库对初始语料库中的第一语料进行实体标注后，基于标注后的第一语料对初始模型中的初始实体关系抽取模型进行训练得到的，所述本体库中包括通用领域的概念层本体和特定领域的领域层本体，所述领域层本体为基于所述概念层本体进行扩展得到的；

根据所述多个目标实体以及所述目标关系，构建面向特定领域的知识图谱。

根据本发明提供的一种知识图谱构建方法，所述实体关系抽取模型根据如下方法训练得到：

获取初始语料库，所述初始语料库中包括多个已进行实体标注的第一语料和多个未进行实体标注的第二语料，所述第一语料为基于本体库进行标注的；

将所述第二语料输入至初始模型中的领域层实体标注模型中，得到多个进行实体标注的第三语料；

将目标语料输入所述初始模型中的初始实体关系抽取模型中，基于对比学习，调整所述初始实体关系抽取模型的模型参数，得到所述实体关系抽取模型，所述目标语料包括所述第一语料和所述第三语料。

根据本发明提供的一种知识图谱构建方法，所述获取初始语料库，包括：

确定待采集的语料对应的多个数据来源；

分别确定所述多个数据来源各自对应的数据适配器；

通过所述数据适配器，从对应的数据来源中采集语料，得到所述初始语料库，所述初始语料库中包括多个格式统一的语料。

根据本发明提供的一种知识图谱构建方法，所述将所述第二语料输入至初始模型中的领域层实体标注模型中，得到多个第三语料之前，所述方法还包括：

获取所述通用领域的多个样本语料；

采用所述多个样本语料，对初始概念层实体标注模型进行训练，得到概念层实体标注模型；

将所述概念层实体标注模型的模型参数迁移至所述初始模型中的初始领域层实体标注模型中，并基于所述第一语料对迁移了模型参数的初始领域层实体标注模型进行训练，得到所述初始模型中的领域层实体标注模型。

根据本发明提供的一种知识图谱构建方法，所述将目标语料输入所述初始模型中的初始实体关系抽取模型中，基于对比学习损失函数，调整所述初始实体关系抽取模型的模型参数，得到所述实体关系抽取模型，包括：

将所述目标语料输入所述初始实体关系抽取模型中，通过所述初始实体关系抽取模型中的编码器对所述目标语料进行编码，得到多个分布式向量；

通过所述初始实体关系抽取模型中的实体解码器，分别将所述多个分布式向量转换为实体标签，所述实体标签用于表示所述目标语料中的实体；

通过所述初始实体关系抽取模型中的关系解码器，确定所述多个分布式向量中的头实体向量和尾实体向量之间的关系；

根据所述实体标签、所述关系和所述目标语料的实体标注信息，基于对比学习损失函数，调整所述初始实体关系抽取模型的模型参数，得到所述实体关系抽取模型。

根据本发明提供的一种知识图谱构建方法，所述根据所述实体标签、所述关系和所述目标语料的实体标注信息，基于对比学习损失函数，调整所述初始实体关系抽取模型的模型参数，得到所述实体关系抽取模型，包括：

根据所述实体标签和所述目标语料的实体标注信息，基于对比学习损失函数，确定对比损失；所述对比损失包括类间对比损失、类内对比损失和层次间对比损失，所述类间对比损失为基于不同概念层本体的实体确定出的损失，所述类内对比损失为基于同一概念层本体、且不属于同一领域层本体的实体确定出的损失，所述层次间对比损失为基于概念层本体的实体和领域层本体的实体确定出的损失；

根据所述目标语料的实体标注信息和所述关系，确定第一损失；

根据所述对比损失和所述第一损失，确定目标损失；

根据所述目标损失，调整所述初始实体关系抽取模型的模型参数，得到所述实体关系抽取模型。

根据本发明提供的一种知识图谱构建方法，所述根据所述目标损失，调整所述初始实体关系抽取模型的模型参数，得到所述实体关系抽取模型，包括：

确定领域层本体中心的中心向量；

根据所述实体标签对应的实体向量和所述中心向量，确定中心损失；

根据所述中心损失，对所述目标损失进行更新，得到更新后的目标损失；

根据所述更新后的目标损失，调整所述初始实体关系抽取模型的模型参数，得到所述实体关系抽取模型。

本发明还提供一种知识图谱的构建装置，包括：

获取单元，用于获取特定领域的多个目标语料，所述多个目标语料的格式统一；

处理单元，用于将所述多个目标语料输入实体关系抽取模型中，得到所述多个目标语料中的多个目标实体以及所述多个目标实体中头实体和尾实体之间的目标关系，其中，所述实体关系抽取模型为根据本体库对初始语料库中的第一语料进行实体标注后，基于标注后的第一语料对初始模型中的初始实体关系抽取模型进行训练得到的，所述本体库中包括通用领域的概念层本体和特定领域的领域层本体，所述领域层本体为基于所述概念层本体进行扩展得到的；

构建单元，用于根据所述多个目标实体以及所述目标关系，构建面向特定领域的知识图谱。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述知识图谱的构建方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述知识图谱的构建方法。

本发明提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述知识图谱的构建方法。

本发明提供的知识图谱构建方法、装置、设备和存储介质，用于进行实体标注的本体库中包括通用领域的概念层本体和特定领域的领域层本体，其中，领域层本体为基于概念层本体进行扩展得到的，通过这种动态化构建本体库的方式，可以将其他领域的知识迁移到特定领域中，由于考虑了其他领域的本体和特定领域的本体之间的关联关系，从而提升特定领域的实体关系抽取模型的构建效果。将特定领域的多个目标语料输入训练后的实体关系抽取模型中，可以得到多个目标语料中的多个目标实体以及多个目标实体中头实体和尾实体之间的目标关系，从而可以构建面向特定领域的知识图谱，由于通过上述方式训练出的实体关系抽取模型抽取的目标实体以及目标关系准确性较高，因而构建出的知识图谱的准确度也较高。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的实体关系抽取模型的训练方法的流程示意图之一；

图2是本发明提供的实体关系抽取模型的训练方法的流程示意图之二；

图3是本发明提供的实体关系抽取模型的训练方法的流程示意图之三；

图4是本发明提供的实体关系抽取模型训练过程示意图；

图5是本发明提供的针对类中心的对比学习示意图；

图6是本发明提供的知识图谱的构建方法流程示意图之一；

图7是本发明提供的知识图谱的构建方法的构建过程示意图；

图8是本发明提供的实体关系抽取模型的训练装置结构框图；

图9是本发明提供的知识图谱的构建装置结构框图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1描述本发明提供的一种实体关系抽取模型的训练方法，图1是本发明提供的实体关系抽取模型的训练方法的流程示意图之一，如图1所示，该方法包括以下步骤：

步骤101：获取初始语料库，初始语料库中包括多个已进行实体标注的第一语料和多个未进行实体标注的第二语料，第一语料为基于本体库进行标注的，本体库中包括通用领域的概念层本体和特定领域的领域层本体，领域层本体为基于概念层本体进行扩展得到的。

具体地，获取的初始语料来自于特定领域。第一语料为对初始语料进行标注的语料。例如：初始语料为：李某某和屠某某都在某大学工作过，该语料对应的实体有：李某某、屠某某、某大学，则第一语料为对初始语料中的李某某、屠某某、某大学进行标注的语料。

其中，概念层本体是领域层本体的上位概念，概念层本体为不同类型领域层本体的高层抽象，用户可以自定义概念层本体，本发明可以定义的概念层本体包括：【人物】、【事物】、【事件】、【组织】、【地点】、【时间】六种类型。当然，也可以根据特定领域的不同，定义其他不同的概念层。而领域层本体为用户通过本体编辑工具对概念层本体进行动态扩展得到的，例如：概念层本体中的【组织】对应航天领域，那么对航天领域进行扩展，得到领域层本体，该领域层本体具体可以为：【研究机构】、【航天公司】，对概念层本体中的【事物】进行扩展，得到领域层本体，例如【火箭】。然后可以通过本体编辑工具，可以得到领域层本体之间可能的关联关系，例如【研究机构】与【火箭】之间可以存在【研发】关系，【航天公司】与【航天公司】之间存在【上级】关系。

步骤102：将第二语料输入至初始模型中的领域层实体标注模型中，得到多个进行实体标注的第三语料。

具体地，第二语料为面向特定领域的初始语料库中未标注的语料，初始模型中的领域层实体标注模型的功能是对未标注的语料进行预测，并输出标注的语料作为预测结果。本发明将该未标注的语料输入初始模型中的领域层实体标注模型中进行实体标注，从而得到了多个经过实体标注的第三语料。

需要注意的是：该第三语料虽然是经过初始模型中的领域层实体标注模型标注得到的，但是，由于该模型的预测结果不一定完全正确，因此，第三语料包括了部分人工标注的语料以及通过领域层实体标注模型预测到的语料。其中，人工标注的语料通过人工比对得到，具体地，当未标注第二语料输入该领域层实体标注模型，输出为标注的语料，通过人工判断该输出的标注的语料是否正确，如果正确，则直接将该初始模型中的领域层实体标注模型预测的结果放入第三语料；如果不正确，则将正确标注的语料放入所述第三语料。

应理解，上述数据标注可以是一个迭代的过程：数据标注->模型训练->数据标注->模型训练->数据标注->模型训练…，具体的，可以基于上述人工比对后的语料以及通过领域层实体标注模型进行标注后的语料作为样本数据，继续对领域层实体标注模型进行训练，通过这个迭代的过程，可以使得领域层实体标注模型的模型参数更准确，从而提高了语料标注的准确度，以及标注效率。

本发明提供的实体关系抽取模型的训练方法，通过将第二语料输入至初始模型中的领域层实体标注模型中进行实体标注，从而得到多个经过实体标注的第三语料，用户只需要标注少量数据即可（少于100），而大部分标注的数据通过初始模型中的领域层实体标注模型预测获取，从而降低了用户的标注成本，且提高了模型训练的效率。

其中，所述初始模型中的领域层实体标注模型采用以下方法得到，示例性的，可以获取通用领域的多个样本语料，采用多个样本语料，对初始概念层实体标注模型进行训练，得到概念层实体标注模型，并将概念层实体标注模型的模型参数迁移至初始模型中的初始领域层实体标注模型中，并基于第一语料对迁移了模型参数的初始领域层实体标注模型进行训练，得到初始模型中的领域层实体标注模型。

具体地，通用领域即为目前现有通用的大众领域。获取通用领域的多个样本语料，可以得到多个针对通用领域的多个样本语料。由于是通用领域，因此获取的该多个样本语料已经包含有针对概念层本体的相关信息，所以概念层本体的相关信息是已知的信息，因此不需要标注，可以直接获取使用。

由于训练初始概念层实体标注模型的数据来自通用领域，因此，得到的概念层实体标注模型为针对通用领域的概念层实体标注模型。

由于本发明需要对特定领域的领域层实体进行标注，因此需要建立针对特定领域的领域层实体关系标注模型。其中，领域层实体关系标注模型建立的方式包括：通过继承针对大众领域的概念层实体标注模型的对应参数，并基于第一语料对迁移了模型参数的初始领域层实体标注模型进行训练，从而得到针对特定领域的领域层实体关系标注模型。其中，继承的方式可以包括：将针对大众领域的概念层实体标注模型的模型参数赋值给面向特定领域的初始模型的初始领域层实体标注模型中。例如，把【组织】对应的参数赋值给【研究机构】，从而得到了面向特定领域的初始模型的初始领域层实体标注模型。

本发明提供的实体关系抽取模型的训练方法，通过将所述概念层实体标注模型的模型参数迁移至所述初始模型中的初始领域层实体标注模型中，并基于第一语料对迁移了模型参数的初始领域层实体标注模型进行训练，从而得到针对特定领域的领域层实体关系标注模型，该迁移方式降低了深度学习模型对训练数据的依赖，并且提高了训练所述初始模型中的领域层实体标注模型的训练效率。

步骤103：将目标语料输入初始模型中的初始实体关系抽取模型中，基于对比学习，调整初始实体关系抽取模型的模型参数，得到实体关系抽取模型，目标语料包括第一语料和第三语料。

具体地，面向特定领域的初始模型包括实体标注模型和实体关系抽取模型。其中，实体标注模型的作用是对初始语料中的实体进行识别并输出，其输入为：未标注出实体的初始语料，输出为：已标注出实体的语料。实体关系抽取模型的作用是识别出实体、实体与实体之间的关系，以供构建知识图谱所用。实体关系抽取模型的输入为：已标注出实体的语料，输出为：实体、实体与实体之间的关系。目标语料包括第一语料和第三语料，将这两部分语料输入初始模型的初始实体关系抽取模型中，对初始实体关系抽取模型进行训练，以得到实体关系抽取模型，通过该实体关系抽取模型可以预测语料中实体、实体与实体之间的关系。在本发明中，在模型训练的过程中，通过对比学习，调整所述初始实体关系抽取模型的模型参数，从而使得调整后的实体关系抽取模型的训练结果更加准确。

本发明提供的实体关系抽取模型的训练方法，一方面，用于进行实体标注的本体库中包括通用领域的概念层本体和特定领域的领域层本体，其中，领域层本体为基于概念层本体进行扩展得到的，通过这种动态化构建本体库的方式，可以将其他领域的知识迁移到特定领域中，由于考虑了其他领域的本体和特定领域的本体之间的关联关系，从而提升特定领域的实体关系抽取模型的构建效果。另一方面，本发明通过将目标语料输入初始模型中的初始实体关系抽取模型中，并基于对比学习的方式，对初始实体关系抽取模型进行训练，因而可以进一步提升面对特定领域时，小样本场景下实体关系抽取模型的训练效果，使得训练出的实体关系抽取模型的抽取准确度较高。

图2是本发明提供的实体关系抽取模型的训练方法的流程示意图之二，本实施例在图1所示实施例的基础上，对步骤101中如何获取初始语料库的过程进行详细介绍。如图2所示，该方法包括：

步骤201：确定待采集的语料对应的多个数据来源。

具体地，由于目前数据来源多样且结构各异，无法通过简单的采集得到格式统一的语料，因此，本发明采用基于适配器的数据采集与处理方式，以适应多源异构的数据来源。具体来说，本发明通过数据源管理工具对数据源来源以及获取方式进行设置与管理，数据来源包括网页类型、文档类型（TXT、Word、Excel、PPT、PDF等）以及数据库类型等。通过数据源管理工具对数据源进行管理，例如，针对网页类型的数据源，需要设置对应的首页地址，设置网页爬虫规则或者上传爬虫脚本；针对文档类型的数据源，需要设置其访问手段、访问账号以及访问地址；针对数据库类型的数据源，需要设置其访问账号以及访问地址，并设置需要获取的数据库名、表名、字段名等信息。

步骤202：分别确定多个数据来源各自对应的数据适配器。

具体地，根据数据格式，选择对应不同的数据适配器，其中，本发明提供基于文本密度的超文本标记语言（HyperText Markup Language，HTML）正文抽取器、文档内容抽取器以及数据库内容抽取器。具体来说，面对不同来源设置，选择对应不同的数据适配器，例如，针对网页类型的数据源，本发明默认提供基于文本密度的正文抽取器，用户可选择默认的正文抽取器或者自定义内容解析脚本；针对文档类型，本发明默认提供TXT内容抽取器、Word内容抽取器、Excel内容抽取器、PPT内容抽取器以及PDF内容抽取器，用户可自行选择或者自定义内容解析脚本；类似的，针对数据库类型的数据源，用户可选择默认的内容抽取器或者自定义内容解析脚本。

步骤203：通过数据适配器，从对应的数据来源中采集语料，得到初始语料库，该初始语料库中包括多个格式统一的语料。

具体地，根据数据源管理工具的配置和数据适配器的配置，对多源异构数据进行采集，从而得到格式统一的初始语料库。

本发明提供的实体关系抽取模型的训练方法，通过数据源管理工具的配置和数据适配器的配置，对多源异构数据进行采集，从而得到格式统一的初始语料库，从而为训练实体关系抽取模型奠定了基础，提高了实体关系抽取模型的训练效率。

图3是本发明提供的实体关系抽取模型的训练方法的流程示意图之三，本实施例在图1所示实施例的基础上，对步骤103中如何基于对比学习调整初始实体关系抽取模型的模型参数的过程进行详细介绍。如图3所示，该方法包括：

步骤301：将目标语料输入初始实体关系抽取模型中，通过初始实体关系抽取模型中的编码器对目标语料进行编码，得到多个分布式向量。

具体地，编码的目的是使目标语料中的实体转换为对应的字符序列，然后再将实体对应的字符序列转换为对应的字符级分布式向量，该分布式向量编码了目标语料中对应实体的语义信息。本发明使用的编码器可以为：大规模预训练语言模型Bert，基于该语言模型Bert获取目标语料的语义。图4是本发明提供的实体关系抽取模型训练过程示意图，如图4所述，经过标注的语料为：李某某、屠某某、陈某某都在某大学工作过；李某某，XX大学XX专业毕业，XXX单位总经理。该语料中，对应的实体有：李某某、屠某某、陈某某、XX大学、XX专业、XXX单位。该标注的语料经过编码器编码，得到了针对每个实体对应的字符分布式向量。本发明所述编码器可以为图4中的句子编码器。

步骤302：通过初始实体关系抽取模型中的实体解码器，分别将多个分布式向量转换为实体标签，该实体标签用于表示目标语料中的实体。

具体地，本步骤的目的在于将句子编码器的编码结果进行实体解码。如图4所示，本步骤将每个实体对应的字符级分布式向量通过Softmax网络解码为相应的实体。例如：将实体李某某、屠某某、陈某某、XX大学、XX专业、XXX单位对应的字符级分布式向量分别解码为李某某、屠某某、陈某某、XX大学、XX专业、XXX单位，从而得到初始语料的实体。在一种实施方式下，本发明采用条件随机场作为实体解码器，将每个实体对应的字符级分布式向量转化为对应的实体标签，根据标签结果即可找到样本中的对应实体。其中，实体标签的形式为{O，B-实体，I-实体，E-实体}，O表示普通文字，B-实体表示实体的开始字符，I-实体表示实体的中间字符，E-实体表示实体的结束字符。

步骤303：通过初始实体关系抽取模型中的关系解码器，确定多个分布式向量中的头实体向量和尾实体向量之间的关系。

具体地，本步骤的目的在于将句子编码器的编码的每个实体对应的分布式向量进行关系解码，从而得到头实体与尾实体之间的关系。在知识图谱中，包括头实体、待链接尾实体以及描述头实体和待链接尾实体的实体关系。在本发明中，尾实体即为与头实体待链接的尾实体。例如：张三去某旅游胜地旅游。那么，实体【张三】与实体【某旅游胜地】之间的关系为旅游关系，此时，头实体为张三，尾实体为某旅游胜地。如图4所示，本发明提供的关系解码器包括三部分内容，分别为：头尾实体计算网络、双仿射网络以及Softmax。在图4中，李某某在XX大学工作过，那么头实体为李某某，XX大学为尾实体，头尾实体之间的关系为工作关系。本发明通过头尾实体计算网络首先将头实体对应的字符级分布式向量与尾实体对应的字符级分布式向量进行平均，以得到对应的头尾实体向量；然后，使用双仿射网络对所述头尾实体向量的信息进行提取，以抽取头尾实体之间的关系特征，最后再通过Softmax方法将头尾实体之间的关系特征转化为对应的关系分类概率分布，其中，概率最大的关系即为头实体和尾实体对应的关系。

步骤304：根据实体标签、关系和目标语料的实体标注信息，基于对比学习损失函数，调整初始实体关系抽取模型的模型参数，得到实体关系抽取模型。

具体地，所述实体标签即通过实体解码器得到的；所述关系为通过关系解码器得到头实体和尾实体对应的关系。所述目标语料的实体标注信息指：对目标语料中的实体、头实体与尾实体之间的关系已预先标注好的语料。由于通过实体解码器和关系解码器预测的结果会有偏差，本步骤的目的是将实体解码器和关系解码器得到的实体标签、关系与预先标注的目标语料的实体、关系进行对比，根据对比结果确定损失，从而基于损失来调整所述初始实体关系抽取模型的模型参数，使得最终得到的实体关系抽取模型的输出结果能够更加准确。

本发明提供的实体关系抽取模型的训练方法，通过编码器对目标语料进行编码、并分别通过实体编码器以及关系解码器对编码器的输出进行解码，从而得到了实体、以及头尾实体对应的关系，并基于得到的实体、关系与目标语料的实体标注信息进行对比，该对比的方式为：基于对比学习损失函数进行对比，通过对比结果来调整初始实体关系抽取模型的模型参数，从而使得最终得到的实体关系抽取模型输出结果能够更加准确。

下面，对本发明如何通过对比学习损失函数，调整初始实体关系抽取模型的模型参数，得到实体关系抽取模型的过程进行详细说明：

根据实体标签和目标语料的实体标注信息，基于对比学习损失函数，确定对比损失；该对比损失包括：类间对比损失、类内对比损失和层次间对比损失，所述类间对比损失为基于不同概念层本体的实体确定出的损失，所述类内对比损失为基于同一概念层本体、且不属于同一领域层本体的实体确定出的损失，所述层次间对比损失为基于概念层本体的实体和领域层本体的实体确定出的损失；根据所述目标语料的实体标注信息和所述关系，确定第一损失，并根据对比损失和第一损失，确定目标损失，最后，根据所述目标损失，调整所述初始实体关系抽取模型的模型参数，得到实体关系抽取模型。

具体地，在初始实体关系抽取模型训练过程中，除了传统的交叉熵损失外，本发明还添加了多粒度的样本间对比学习约束来计算损失，对比学习计算公式如下：

其中，

表示带可训练参数的神经网络，

表示目标实体，

表示与

相似或相同的正样本；

表示构造的第

个负样本，N为负样本的个数，

表示目标实体对应的语义表示向量，

表示正样本对应的语义表示向量，

表示负样本对应的语义表示向量。

对比学习的目的是将相同样本的距离拉进、将不同样本之间距离推远。本发明提供的对比损失类型包括类间对比损失、类内对比损失、层次间对比损失。其中，针对类间对比损失，可以将属于不同概念层本体的实体看做为目标实体的负样本，将属于同一概念层本体的实体看做为目标实体的负样本。如图4所示，该语料对应的实体有：【李某某】、【屠某某】、【陈某某】、【XX大学】、【XXX单位】。其中，【李某某】为画家，【屠某某】为科学家，由于概念层是预先设定的，包括：【人物】、【事物】、【事件】、【组织】、【地点】、【时间】。其中，【画家】为概念层本体【人物】的下位，属于领域层本体，而【李某某】为领域层本体【画家】的下位，同样属于领域层本体。因此，针对概念层本体，可以不断地进行下位扩展，这些扩展得到的本体均为领域层本体；同理，【科学家】为【人物】的下位；而【科学家】和【画家】属于不同的领域层本体；【大学】为概念层本体【组织】对应的领域层本体，【某大学】为领域层本体【大学】的下位，同样也属于领域层本体。

假设目标实体为：【李某某】，则【组织】为负样本，【人物】为正样本；通过类间对比损失，能够使【李某某】与【人物】之间的距离更近，与【组织】之间的距离更远。

针对类内对比损失，可以将属于同一个概念层本体但不属于同一个领域层本体的实体看做为目标实体的负样本。例如：初始语料为：李某某、屠某某、陈某某都在某大学工作过，李某某为总经理，其中，其中，李某某、陈某某为画家，屠某某为科学家。

假设目标实体为：【李某某】，则【屠某某】为负样本，【陈某某】为正样本；通过类内对比损失，能够使【李某某】与【陈某某】之间的距离更近，与【屠某某】之间的距离更远。

针对层次间对比损失，将目标实体的概念层本体输出结果作为领域层本体输出结果的正样本。假设目标实体为：【李某某】，则【人物】为【画家】的正样本。

通过上述方式得到正样本集合和负样本集合，再根据公式（1）即可确定出对比损失，由于该正样本集合和负样本集合中包括类间对比损失、类内对比损失和层次间对比损失分别对应的正样本和负样本，因此，确定出的对比损失中可以包括类间对比损失、类内对比损失和层次间对比损失确定的损失。也即：本发明将类间对比损失、类内对比损失、层次间对比损失对应的所有正样本作为公式（1）的正样本

，将所有类间对比损失、类内对比损失对应的负样本作为公式（1）的负样本

，则根据公式（1）可以获得基于类间对比损失、类内对比损失和层次间对比损失确定的对比损失。

具体地，所述目标语料的实体标注信息和所述关系，确定的第一损失为传统的交叉熵损失。

具体地，在一种可能的实现方式中，目标损失可以为对比损失和第一损失的和。

具体地，本发明将该对比损失与传统的交叉熵损失共同作为目标损失来调整初始实体关系抽取模型的模型参数，从而得到最终的实体关系抽取模型。

本发明提供的实体关系抽取模型的训练方法，由于传统方法只通过交叉熵确定损失，而本发明提供的方法通过构建类间对比损失、类内对比损失和层次间对比损失来确定总的对比损失，并将该总的对比损失与传统的交叉熵损失的总和作为目标损失来调整初始实体关系抽取模型的模型参数，从而提高了数据的利用率，近而降低了模型对于训练语料数据的需求。并且使得调整后的实体关系抽取模型预测结果更加准确。

在上述实施例的基础上，为了拉进目标领域层本体中心距离，推远其他类型领域层本体中心距离，进一步提升模型的训练效率，增强模型性能，本发明中还可以通过类中心对比学习的方式进一步调整实体关系抽取模型中的模型参数。

示例性的，通过确定领域层本体中心的中心向量，并根据实体标签对应的实体向量和中心向量确定中心损失，根据中心损失，对目标损失进行更新，得到更新后的目标损失，最后，根据更新后的目标损失，调整初始实体关系抽取模型的模型参数，得到实体关系抽取模型。

具体地，除了样本间对比外，本发明对属于特定领域层本体的实体进行全局建模。需要说明的是：领域层本体中心的向量化一般通过其对应所有实体的向量平均计算得到，然而，在实际实现中，该方法开销太大。因此，本发明提出一种基于记忆网络的本体中心计算方法，该方法首先将本体中心向量初始化为零向量，并在训练过程中，根据当前模型输出的实体向量动态的更新中心向量，具体计算公式如下：

其中，m表示第m个领域层本体；B表示一个训练批次（Batch）；

表示该训练批次对应的本体中心向量；

表示第i个实体；

表示第i个实体对应的语义向量；

表示第i个实体是否属于本体m，若属于，则为1，否则为0；

表示控制更新率的超参数，本发明可以将该超参数设置为0.1；

表示最终的第m个领域层本体对应的中心向量。

具体地，中心损失的确定采用公式（1）进行确定。图5是本发明提供的针对类中心的对比学习示意图，如图5所示，通过类中心对比学习，可以拉近目标领域层本体中心距离，推远其他类型领域层本体中心距离。例如：初始语料为：李某某和屠某某都在某大学工作过，假设目标实体为【李某某】，则实体标签对应的实体向量为【人物】对应的向量，中心向量为利用公式（2）、（3）计算得到，将实体标签对应的实体向量和中心向量利用公式（1）计算损失，则可以使【李某某】与【人物】之间的距离更近，使【李某某】与【组织】之间的距离更远、使【李某某】与【画家】之间的距离更近，与【科学家】之间的距离更远。

具体地，通过中心损失的确定，可以拉进目标领域层本体中心距离，推远其他类型领域层本体中心距离，从而使得实体、实体之间的关系更为准确。

示例性的，可以将中心损失和目标损失相加，将得到的损失确定为更新后的目标损失，然后根据更新后的目标损失，调整初始实体关系抽取模型的模型参数，得到实体关系抽取模型。

本发明提供的实体关系抽取模型的训练方法，通过类中心对比学习，计算领域层本体中心的向量化表示，在类中心对比学习约束中，通过拉进目标领域层本体中心距离，推远其他类型领域层本体中心距离的方式，进一步提升模型的训练效率，增强模型性能。

本发明还提供一种知识图谱的构建方法，图6是本发明提供的知识图谱的构建方法流程示意图之一，如图6所示，该方法包括以下步骤：

步骤601：获取特定领域的多个目标语料，所述多个目标语料的格式统一。

具体地，目标语料为构建特定领域知识图谱的基础信息，其中，获取特定领域的多个目标语料的方式可以采用如上实施例所述的实体关系抽取模型的训练方法来获取目标语料，在此不再赘述。

步骤602：将多个目标语料输入实体关系抽取模型中，得到多个目标语料中的多个目标实体以及多个目标实体中头实体和尾实体之间的目标关系。

其中，实体关系抽取模型为根据本体库对初始语料库中的第一语料进行实体标注后，基于标注后的第一语料对初始模型中的初始实体关系抽取模型进行训练得到的，所述本体库中包括通用领域的概念层本体和特定领域的领域层本体，所述领域层本体为基于所述概念层本体进行扩展得到的。

示例性的，上述实体关系抽取模型为采用如上任一实施例所述的实体关系抽取模型的训练方法训练得到的。

具体地，实体关系抽取模型为采用如上所述的实体关系抽取模型的训练方法训练得到的，本发明将步骤601获取的目标语料输入该实体关系抽取模型，通过该模型即可输出目标语料的实体、实体与实体之间的关系的映射。

需要进行说明的是，该实体关系抽取模型可以通过前述各实施例中所述的方式预先训练好的，并存储在其他设备或者电子设备本地的。当电子设备在构建知识图谱时，可以从其他设备或者本地获取预先训练好的实体关系抽取模型。另外，也可以是在构建知识图谱的过程中，先通过上述各实施例中所述的方式训练实体关系抽取模型，训练好之后，再基于该模型和目标语料，构建面向特定领域的知识图谱。

步骤603：根据多个目标实体以及所述目标关系，构建面向特定领域的知识图谱。

具体地，通过步骤602实体关系抽取模型输出的目标语料的实体、以及实体与实体之间的关系的映射，构建面向特定领域的知识图谱。

本发明提供的知识图谱的构建方法，通过构建的实体关系抽取模型，可以对特定领域的语料进行有效的预测，从而提高了面向特定领域的知识图谱的准确性。

下面，以在构建知识图谱的过程中，训练实体关系抽取模型，并基于训练好的实体关系抽取模型构建面向特定领域的知识图谱为例，对本发明的方案进行详细说明。

图7是本发明提供的知识图谱的构建方法的构建过程示意图，如图7所示，该方法包括：

步骤1）：数据采集阶段。基于适配器的多源数据采集，得到格式统一的初始语料库。

其中，首先确定特定领域的知识图谱数据来源，该数据可以包括但不限于：网页、文本数据、PDF等，并针对不同数据来源开发数据获取适配器，该适配器包括但不限于：网页适配器、PDF适配器、Word适配器。通过适配器，可以得到格式统一的初始语料库。

步骤2）：本体库构建阶段。基于面向特定领域的层次化动态本体构建方法，得到目标领域的本体库设计。

其中，本体库中例如可以包括：人物、事物、事件、组织、地点、时间。

步骤3）：初始模型中的领域层实体标注模型与实体关系抽取模型的训练。基于初始语料库和领域本体库对数据进行标注，得到训练集，并基于训练集得到对应的实体关系抽取模型。

其中，领域层实体标注模型的训练包括：

步骤3.1）模型初始化阶段。本发明基于通用领域数据训练得到了概念层实体标注模型，领域层实体标注模型将继承概念层实体标注模型的对应参数。

步骤3.2）数据标注阶段。首先基于和领域本体库对部分初始语料进行数据标注，在标注过程中，本发明将根据标注结果对领域层实体标注模型进行实时训练，并基于领域层实体标注模型的预测结果为用户进行标注推荐。

步骤3.3）样本编码阶段。对输入样本进行编码，将样本对应的字符序列转换为对应的字符级分布式向量，该分布式向量编码了样本的语义信息。

实体关系抽取模型的训练包括：

步骤3.4）实体抽取阶段。使用条件随机场作为解码器，将每个字符对应的语义表示向量转化为对应的实体标签，根据标签结果即可找到样本中的对应实体。

步骤3.5）关系抽取阶段。首先将头尾实体对应的字符向量进行平均，以得到对应的头尾实体向量，然后，使用双仿射网络对头尾实体之间的关系进行特征抽取，并通过Softmax方法将其特征转化为对应的关系分类概率分布。

此外，本发明还通过基于多粒度对比学习来调整实体关系抽取模型的参数，具体包括：

步骤3.6）样本间对比学习。在训练过程中，除了从传统的交叉熵损失外，本发明添加了多粒度的样本间对比学习约束，对比损失类型主要包括类间对比损失、类内对比损失、层次间对比损失。

步骤3.7）类中心对比学习。除了样本间对比外，本发明对属于特定领域层本体的实体进行全局建模。具体来说，计算领域层本体中心的向量化表示，在类中心对比学习约束中，通过拉进目标领域层本体中心距离，推远其他类型领域层本体中心距离的方式，进一步提升模型的训练效率，增强模型性能。

步骤4）：模型预测阶段。使用步骤3得到的实体关系抽取模型对步骤1中的初始语料库进行实体关系抽取，并将抽取结果存储至图数据库中，从而得到最终的面向特定领域的知识图谱。

实验例1：

为了检验本发明的效果，在CoNLL04数据集上进行了实验。并且为了更好的验证生成事件的效果，选取F1值作为评价指标，其计算方式如下：

精确率：精确率=（正确抽取的数量/抽取总数）x100%

召回率：召回率=（正确抽取的数量/真实标签总数）x100%

F1值：为了能够评价不同算法的优劣，在精确率和召回率的基础上提出了F1值的概念，来对精确率和召回率进行整体评价：F1值=正确率*召回率*2/(正确率+召回率)

实验结果如表1所示，本发明提供的实体关系抽取模型在实体抽取与关系抽取结果上均达到了较好的性能，表明本发明提出的实体关系抽取模型的有效性。

表1实验结果

下面对本发明提供的实体关系抽取模型的训练装置进行描述，下文描述的实体关系抽取模型的训练装置与上文描述的实体关系抽取模型的训练方法可相互对应参照。

本发明还提供一种实体关系抽取模型的训练装置，图8是本发明提供的实体关系抽取模型的训练装置结构框图，如图8所示，该装置包括：

第一获取单元81，用于获取初始语料库，所述初始语料库中包括多个已进行实体标注的第一语料和多个未进行实体标注的第二语料，所述第一语料为基于本体库进行标注的，所述本体库中包括通用领域的概念层本体和特定领域的领域层本体，所述领域层本体为基于所述概念层本体进行扩展得到的；

第一处理单元82，用于将所述第二语料输入至初始模型中的领域层实体标注模型中，得到多个进行实体标注的第三语料；

训练单元83，用于将目标语料输入所述初始模型中的初始实体关系抽取模型中，基于对比学习，调整所述初始实体关系抽取模型的模型参数，得到所述实体关系抽取模型，所述目标语料包括所述第一语料和所述第三语料。

本发明还提供一种知识图谱的构建装置，图9是本发明提供的知识图谱的构建装置结构框图，如图9所示，该装置包括：

第二获取单元91，用于获取特定领域的多个目标语料，所述多个目标语料的格式统一；

第二处理单元92，用于将所述多个目标语料输入实体关系抽取模型中，得到所述多个目标语料中的多个目标实体以及所述多个目标实体中头实体和尾实体之间的目标关系，其中，所述实体关系抽取模型为根据本体库对初始语料库中的第一语料进行实体标注后，基于标注后的第一语料对初始模型中的初始实体关系抽取模型进行训练得到的，所述本体库中包括通用领域的概念层本体和特定领域的领域层本体，所述领域层本体为基于所述概念层本体进行扩展得到的；

构建单元93，用于根据所述多个目标实体以及所述目标关系，构建面向特定领域的知识图谱。

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行知识图谱的构建方法。其中，知识图谱的构建方法包括：

将所述多个目标语料输入实体关系抽取模型中，得到所述多个目标语料中的多个目标实体以及所述多个目标实体中头实体和尾实体之间的目标关系，其中，所述实体关系抽取模型为根据本体库对初始语料库中的第一语料进行实体标注后，基于标注后的第一语料对初始模型中的初始实体关系抽取模型进行训练得到的，所述本体库中包括通用领域的概念层本体和特定领域的领域层本体，所述领域层本体为基于所述概念层本体进行扩展得到的；

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种知识图谱构建方法，其特征在于，包括：

2.根据权利要求1所述的知识图谱构建方法，其特征在于，所述实体关系抽取模型根据如下方法训练得到：

将目标语料输入所述初始模型中的初始实体关系抽取模型中，基于对比学习损失函数，调整所述初始实体关系抽取模型的模型参数，得到所述实体关系抽取模型，所述目标语料包括所述第一语料和所述第三语料。

3.根据权利要求2所述的知识图谱构建方法，其特征在于，所述获取初始语料库，包括：

确定待采集的语料对应的多个数据来源；

分别确定所述多个数据来源各自对应的数据适配器；

4.根据权利要求2或3所述的知识图谱构建方法，其特征在于，所述将所述第二语料输入至初始模型中的领域层实体标注模型中，得到多个第三语料之前，所述方法还包括：

获取所述通用领域的多个样本语料；

5.根据权利要求2或3所述的知识图谱构建方法，其特征在于，所述将目标语料输入所述初始模型中的初始实体关系抽取模型中，基于对比学习损失函数，调整所述初始实体关系抽取模型的模型参数，得到所述实体关系抽取模型，包括：

6.根据权利要求5所述的知识图谱构建方法，其特征在于，所述根据所述实体标签、所述关系和所述目标语料的实体标注信息，基于对比学习损失函数，调整所述初始实体关系抽取模型的模型参数，得到所述实体关系抽取模型，包括：

根据所述对比损失和所述第一损失，确定目标损失；

7.根据权利要求6所述的知识图谱构建方法，其特征在于，所述根据所述目标损失，调整所述初始实体关系抽取模型的模型参数，得到所述实体关系抽取模型，包括：

确定领域层本体中心的中心向量；

8.一种知识图谱构建装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述知识图谱构建方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述知识图谱构建方法。