CN115408534B

CN115408534B - 一种知识图谱更新方法、装置、设备及存储介质

Info

Publication number: CN115408534B
Application number: CN202211012615.7A
Authority: CN
Inventors: 王化楠
Original assignee: Lianlian Hangzhou Information Technology Co ltd; Lianlian Yintong Electronic Payment Co ltd
Current assignee: Lianlian Hangzhou Information Technology Co ltd; Lianlian Yintong Electronic Payment Co ltd
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2023-12-12
Anticipated expiration: 2042-08-23
Also published as: CN115408534A

Abstract

本申请涉及计算机技术领域，尤其涉及一种知识图谱更新方法、装置、设备及存储介质。该方法包括：获取初始知识图谱，并获取对象更新信息；对对象更新信息进行实体抽取，得到实体集合；根据预定义规则对实体集合中的实体进行筛选，得到目标实体；根据目标实体更新初始知识图谱。该知识图谱更新方法，通过对抽取到的实体进行筛选，从而筛选出有效的目标实体，然后将目标实体更新到知识图谱中，从而可以降低知识图谱更新资源消耗，提高知识图谱的更新效率。此外，通过对更新到知识图谱中的实体进行筛选，可以减少无用更新到知识图谱中的无用信息，避免知识图谱过于泛化，保证知识图谱的质量。

Description

一种知识图谱更新方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种知识图谱更新方法、装置、设备及存储介质。

背景技术

知识图谱(KnowledgeGraph)是以图模式描述真实世界中的各种实体及其关系的一种语义网络。通过知识图谱，不仅可以将互联网的信息表达成更接近人类认知世界的形式，而且提供了一种更好的组织、管理和利用海量信息的方式。在搜索引擎中通过使用知识图谱，能够更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。不过，知识图谱并不是固定不变的，知识图谱描述的信息不断地更新时，知识图谱也要随之更新。对于某些领域来说，知识图谱只有不断的更新才能够满足其应用需求。比如，在电子商务领域，只有不断地更新商品知识图谱，才能够有助于用户搜索到相应的商品。

对于电子商务领域来说，由于商品种类多、更新速度快，并且更新数据较为零散，重复无用的更新数据量大。如果不对更新的数据加以筛选就将其更新到商品知识图谱中，一方面会导致更新信息量大，影响知识图谱的更新效率，另一方面大量的重复无用信息更新到知识图谱中，会导致商品知识图谱泛化，影响知识图谱质量。

发明内容

本申请提供一种知识图谱更新方法、装置、设备及存储介质，通过对抽取到的实体进行筛选，从而筛选出有效的目标实体，然后将目标实体更新到知识图谱中，可以减少知识图谱中的无用信息，保证知识图谱的质量。

第一方面，本申请实施例公开了一种知识图谱更新方法，方法包括：

获取初始知识图谱，并获取对象更新信息；

对对象更新信息进行实体抽取，得到实体集合；

根据预定义规则对实体集合中的实体进行筛选，得到目标实体；

根据目标实体更新初始知识图谱。

进一步的，对对象更新信息进行实体抽取，得到实体集合，包括：

获取标注有实体标注结果的初始训练数据；

将初始训练数据输入机器模型，得到机器模型输出的结果；

根据实体标注结果和机器模型输出的结果，对机器模型进行训练，得到初始实体抽取模型；

将对象更新信息输入到初始实体抽取模型中进行实体抽取，得到实体抽取结果；

根据实体抽取结果确定实体集合。

进一步的，对象更新信息包括多个对象更新数据；将对象更新信息输入到初始实体抽取模型中进行实体抽取，得到实体抽取结果，包括：

将对象更新信息输入到初始实体抽取模型中进行实体抽取，得到每个对象更新数据对应的实体抽取结果，以及每个实体抽取结果的第一置信度信息；

根据第一置信度信息确定预设数量的目标实体抽取结果，以及与目标实体抽取结果对应的目标对象更新数据；

基于初始训练数据和目标对象更新数据生成迭代训练数据；

将迭代训练数据输入初始实体抽取模型，得到初始实体抽取模型输出的结果；

根据实体标注结果、目标实体抽取结果和初始实体抽取模型输出的结果，对初始实体抽取模型进行训练，得到迭代实体抽取模型；

将至少一个非目标对象更新数据输入到迭代实体抽取模型中，得到每个非目标对象更新数据对应的非目标实体抽取结果；非目标对象更新数据为对象更新信息中除目标对象更新数据以外的目标对象数据；

根据目标实体抽取结果和非目标实体抽取结果，确定实体抽取结果。

进一步的，将至少一个非目标对象更新数据输入到迭代实体抽取模型中，得到每个非目标对象更新数据对应的非目标实体抽取结果，包括：

将至少一个非目标对象更新数据输入到迭代实体抽取模型中，得到每个非目标对象更新数据对应的非目标实体抽取结果，以及每个非目标实体抽取结果的第二置信度信息；

根据第二置信度信息确定预设数量的目标实体抽取结果，以及目标实体抽取结果对应的目标对象更新数据；

重复基于初始训练数据和目标对象更新数据生成迭代训练数据，至将至少一个非目标对象更新数据输入到迭代实体抽取模型中，得到每个非目标对象更新数据对应的非目标实体抽取结果的步骤，直至每个对象更新数据均为目标对象更新数据；

基于每个目标对象更新数据对应的目标实体抽取结果，得到实体抽取结果。

进一步的，根据预定义规则对实体集合中的实体进行筛选，得到目标实体，包括：

确定实体集合中每个实体的出现频次；

根据出现频次对实体集合中的实体进行筛选，得到目标实体。

进一步的，根据目标实体更新初始知识图谱之前，方法还包括：

对目标实体进行知识融合，得到融合后的实体。

进一步的，根据目标实体更新初始知识图谱，包括：

基于融合后的实体建立三元组；

确定三元组中的对象实体；

在初始知识图谱的本体层中确定与对象实体对应的初始对象实体；

基于初始对象实体，将三元组更新到初始知识图谱中。

第二方面，本申请实施例公开了一种知识图谱更新装置，该装置包括：

获取模块，用于获取初始知识图谱，并获取对象更新信息；

实体抽取模块，用于对对象更新信息进行实体抽取，得到实体集合；

实体筛选模块，用于根据预定义规则对实体集合中的实体进行筛选，得到目标实体；

知识图谱更新模块，用于根据目标实体更新初始知识图谱。

在一些可选的实施例中，实体抽取模块包括：

初始训练数据获取子模块，用于获取标注有实体标注结果的初始训练数据；

初始训练数据输入子模块，用于将初始训练数据输入机器模型，得到机器模型输出的结果；

初始实体抽取模型训练子模块，用于根据实体标注结果和机器模型输出的结果，对机器模型进行训练，得到初始实体抽取模型；

对象更新信息实体抽取子模块，用于将对象更新信息输入到初始实体抽取模型中进行实体抽取，得到实体抽取结果；

实体集合确定子模块，用于根据实体抽取结果确定实体集合。

在一些可选的实施例中，对象更新信息包括多个对象更新数据；对象更新信息实体抽取子模块包括：

初始实体抽取模型单元，用于将对象更新信息输入到初始实体抽取模型中进行实体抽取，得到每个对象更新数据对应的实体抽取结果，以及每个实体抽取结果的第一置信度信息；

目标对象更新数据确定单元，用于根据第一置信度信息确定预设数量的目标实体抽取结果，以及与目标实体抽取结果对应的目标对象更新数据；

迭代训练数据生成单元，用于基于初始训练数据和目标对象更新数据生成迭代训练数据；

迭代训练数据输入单元，用于将迭代训练数据输入初始实体抽取模型，得到初始实体抽取模型输出的结果；

迭代实体抽取模型训练单元，用于根据实体标注结果、目标实体抽取结果和初始实体抽取模型输出的结果，对初始实体抽取模型进行训练，得到迭代实体抽取模型；

非目标对象更新数据实体抽取单元，用于将至少一个非目标对象更新数据输入到迭代实体抽取模型中，得到每个非目标对象更新数据对应的非目标实体抽取结果；非目标对象更新数据为对象更新信息中除目标对象更新数据以外的目标对象数据；

实体抽取结果确定单元，用于根据目标实体抽取结果和非目标实体抽取结果，确定实体抽取结果。

在一些可选的实施例中，非目标对象更新数据实体抽取单元包括：

子单元，用于将至少一个非目标对象更新数据输入到迭代实体抽取模型中，得到每个非目标对象更新数据对应的非目标实体抽取结果，以及每个非目标实体抽取结果的第二置信度信息；

目标对象更新数据确定子单元，用于根据第二置信度信息确定预设数量的目标实体抽取结果，以及目标实体抽取结果对应的目标对象更新数据；

非目标对象更新数据实体抽取子单元，用于重复基于初始训练数据和目标对象更新数据生成迭代训练数据，至将至少一个非目标对象更新数据输入到迭代实体抽取模型中，得到每个非目标对象更新数据对应的非目标实体抽取结果的步骤，直至每个对象更新数据均为目标对象更新数据；

实体抽取结果确定子单元，用于基于每个目标对象更新数据对应的目标实体抽取结果，得到实体抽取结果。

在一些可选的实施例中，实体筛选模块包括：

出现频次确定子模块，用于确定实体集合中每个实体的出现频次；

实体筛选子模块，用于根据出现频次对实体集合中的实体进行筛选，得到目标实体。

在一些可选的实施例中，该装置还包括：

知识融合模块，用于对目标实体进行知识融合，得到融合后的实体。

在一些可选的实施例中，知识图谱更新模块包括：

三元组建立子模块，用于基于融合后的实体建立三元组；

对象实体确定子模块，用于确定三元组中的对象实体；

初始对象实体确定子模块，用于在初始知识图谱的本体层中确定与对象实体对应的初始对象实体；

知识图谱更新子模块，用于基于初始对象实体，将三元组更新到初始知识图谱中。

第三方面，本申请实施例公开了一种电子设备，设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行如上所述的知识图谱更新方法。

第四方面，本申请实施例公开了一种计算机可读存储介质，存储介质中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上所述的知识图谱更新方法。

本申请实施例提供的技术方案具有如下技术效果：

该知识图谱更新方法，通过对抽取到的实体进行筛选，从而筛选出有效的目标实体，然后将目标实体更新到知识图谱中，从而可以降低知识图谱更新资源消耗，提高知识图谱的更新效率。此外，通过对更新到知识图谱中的实体进行筛选，可以减少无用更新到知识图谱中的无用信息，避免知识图谱过于泛化，保证知识图谱的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种知识图谱更新方法的应用环境示意图；

图2是本申请实施例提供的一种知识图谱更新方法的流程示意图；

图3是本申请实施例提供的一种对对象更新信息进行实体抽取方法的流程示意图；

图4是本申请实施例提供的一种商品知识图谱的结构示意图；

图5是本申请实施例提供的一种商品知识图谱更新装置的结构示意图；

图6是本申请实施例提供的一种方法的服务器的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本申请实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请实施例，并不用于限定本申请实施例。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

知识图谱是事实、实体、关系以及语义描述的结构化表示，是一种有效的组织、管理和利用海量数据的方式来进行电商风险管理的载体。对于电商领域来说，知识图谱可以将结构化和非结构化信息融合使用，能够实现更深入、更准确的商品理解。不过，由于电商领域中信息更迭速度快，因此电商领域的知识图谱需要不断的更新才能够满足需要。然而，电商领域中的知识非常分散，更新的信息中往往存在大量的重复或相似的知识。在知识图谱更新时，这些重复或相似的知识，会极大地影响知识图谱的更新效率，并且会影响知识图谱的质量。

有鉴于此，本申请实施例提供了一种知识图谱更新方法，通过对对象更新信息进行实体抽取，并对抽取到的实体进行筛选，可以减少无效的知识更新到知识图谱中，从而提高知识图谱的更新效率，并且保证知识图谱的质量。

请参阅图1，图1是本申请实施例提供的一种知识图谱更新方法的应用环境示意图，如图1所示，该应用环境可以包括业务服务器101、图数据库103和终端设备105。

本申请实施例中，业务服务器101可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。业务服务器101中设置有业务系统和业务数据库。可选的，业务系统可以是电商平台的业务系统。

本申请实施例中，图数据库103用于存储知识图谱，包括但不仅限于Neo4j、Galaxybase、Tigergraph、TuGraph等。

本申请实施例中，终端设备105可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、智能音箱、车载终端、智能电视等类型的实体设备，但并不局限于此，也可以包括其他智能终端，多媒体设备，流媒体设备等。终端设备105从业务服务器101中获取到对象更新数据，以及从图数据库103中获取到知识图谱，然后通过对对象更新数据进行处理得到目标实体，并使用目标实体对知识图谱进行更新。

以下介绍本申请一种知识图谱更新方法的具体实施例，图2是本申请实施例提供的一种知识图谱更新方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，该方法可以包括：

S201：获取初始知识图谱，并获取对象更新信息。

本申请实施例中，初始知识图谱可以存放在图数据库中，终端设备获取到图数据库中的初始知识图谱，并对初始图谱进行更新。初始知识图谱为基于某个领域的先验知识构建得到。以构建电商领域的商品知识图谱为例，初始知识图谱可以是基于已有的商品信息进行构建。可选的，已有的商品信息可以包括结构化数据和非结构化数据。对于结构化数据来说，可以直接提取出与商品相关的实体，或与商品的属性相关的值对。对于非结构化数据来说，可以通过实体信息抽取模型抽取出非结构化数据中与商品相关的实体，或与商品的属性相关的值对。然后将这些与商品相关的实体，或与商品的属性相关的值对以三元组数据结构表示并映射给知识图谱，经知识融合和图谱质检，得到初始知识图谱。

本申请实施例中，终端设备在对初始知识图谱进行更新时，首先需要获取到对象更新信息。对象更新信息为某个领域中初始知识图谱构建完成之后新变更的数据，即未更新到初始知识图谱中的数据。对象更新信息在不同的领域中可以表征不同的信息类型，比如，在医药领域，对象更新信息可以是药品的更新信息；在电商领域，对象更新信息可以是商品更新信息。本申请实施例中，将以电商领域的商品知识图谱更新为例，结合本申请的技术方案进行详细阐述，其他领域的知识图谱更新的具体实施过程请参考商品知识图谱更新，文中不再赘述。

本申请实施例中，终端设备可以通过获取业务服务器中的数据来确定对象更新信息。例如，业务服务器可以是电商平台的数据库服务器，该数据服务器中设置有商品信息库，终端设备可以通过获取商品信息库的数据变更记录，来确定商品更新信息。在一些实施例中，数据服务器中设置有商品交易数据库，终端设备通过获取商品交易数据库中的商品交易数据，从而确定出商品更新信息。在另一些实施例中，终端设备也可以基于业务服务器的服务日志来确定对象更新信息。例如，业务服务器的服务日志中记录了商品的被搜索记录或被浏览记录，从而终端设备可以基于商品的被搜索记录或被浏览记录来确定商品更新信息。

本申请实施例中，终端设备可以在对象信息发生变更时，实时获取发生变更的对象更新信息，然后根据实时变更的对象更新信息对初始知识图谱进行更新。在一些实施例中，终端设备也可以通过设定更新周期，从而获取一个更新周期内的对象更新信息，然后根据更新周期内的对象更新信息对初始知识图谱进行更新。

S203：对对象更新信息进行实体抽取，得到实体集合。

本申请实施例中，终端设备在获取到对象更新信息后，通过对获取到的对象更新信息进行实体抽取，从而得到包括多个实体的实体数据集。

本申请实施例中，在对对象更新信息进行实体抽取之前，还可以对获取到的对象更新信息进行处理，从而可以减少部分无效数据。具体的，对象更新信息包括多个对象更新数据。终端设备首先对对象更新信息中的全部对象数据进行预处理，包括去掉停用词和剔除符号、数字等无意义词。然后对预处理后的对象更新数据进行筛选，筛选出相似度大于相似度阈值的相似对象更新数据，对于每一组相似对象更新数据，只保留其中一个对象更新数据即可，该组中其余相似对象更新数据可以清除掉。通过对获取到的对象更新信息进行处理，然后对处理后的对象更新信息进行实体抽取，可以减少实体抽取的工作量，节省资源。

本申请实施例中，通过使用命名实体识别(Named Entity Recognition，NER)模型来对处理后的对象更新信息进行实体抽取。通常情况下，训练一个效果较为理想的NER模型，需要提供大量训练数据(数万条)对其进行训练。如此大量的训练数据需要耗费巨大人力物力对训练数据进行标注，且效率低下。有鉴于此，本申请实施例采用少量的训练数据(数百条)，训练出一个能力较弱的NER模型来对处理后的对象更新信息进行实体抽取，然后结合实体抽取结果对模型进行迭代，从而可以在对对象更新信息进行实体抽取的同时，获得一个效果较好的NER模型。

本申请实施例中，图3是本申请实施例提供的一种对对象更新信息进行实体抽取方法的流程示意图，如图3所示，对对象更新信息进行实体抽取可以包括：

S301：获取标注有实体标注结果的初始训练数据。

本申请实施例中，在进行模型训练时，首先获取训练数据集。本申请实施例中采用的训练数据集为小样本的初始训练数据，初始训练数据为标注有实体标注结果的数据。

S303：将初始训练数据输入机器模型，得到机器模型输出的结果。

本申请实施例中，将初始训练数据输入机器模型中，机器模型会对输入的数据进行处理，然后输出其处理的结果。

S305：根据实体标注结果和机器模型输出的结果，对机器模型进行训练，得到初始实体抽取模型。

本申请实施例中，在进行模型训练时，根据机器模型输出的结果，并结合初始训练数据的实体标注结果，根据其损失对机器模型中的参数不断的调整，使机器模型输出的结果与初始训练数据的实体标注结果接近或一致，从而得到初始实体抽取模型。

S307：将对象更新信息输入到初始实体抽取模型中进行实体抽取，得到实体抽取结果。

本申请实施例中，在得到初始实体抽取模型后，将需要进行实体抽取的处理后的对象更新信息输入到初始实体抽取模型中进行实体抽取，得到实体抽取结果。具体的，将对象更新信息输入到初始实体抽取模型中进行实体抽取，得到每个对象更新数据对应的实体抽取结果，以及每个实体抽取结果的第一置信度信息。然后根据第一置信度信息确定预设数量的目标实体抽取结果，以及与目标实体抽取结果对应的目标对象更新数据。基于初始训练数据和目标对象更新数据生成迭代训练数据。将迭代训练数据输入初始实体抽取模型，得到初始实体抽取模型输出的结果。根据实体标注结果、目标实体抽取结果和初始实体抽取模型输出的结果，对初始实体抽取模型进行训练，得到迭代实体抽取模型。将至少一个非目标对象更新数据输入到迭代实体抽取模型中，，得到每个非目标对象更新数据对应的非目标实体抽取结果，以及每个非目标实体抽取结果的第二置信度信息。非目标对象更新数据为对象更新信息中除目标对象更新数据以外的目标对象数据。根据第二置信度信息确定预设数量的目标实体抽取结果，以及目标实体抽取结果对应的目标对象更新数据。重复基于初始训练数据和目标对象更新数据生成迭代训练数据，至将至少一个非目标对象更新数据输入到迭代实体抽取模型中，得到每个非目标对象更新数据对应的非目标实体抽取结果的步骤，直至每个对象更新数据均为目标对象更新数据。基于每个目标对象更新数据对应的目标实体抽取结果，得到实体抽取结果。

本申请实施例中，初始实体抽取模型所输出的实体抽取结果包括每个对象更新数据对应的实体抽取结果，以及每个实体抽取结果的第一置信度信息。第一置信度信息用于表征初始实体抽取模型所输出的实体抽取结果的可信程度。由于初始实体抽取模型为小样本训练数据训练得到，其能力较弱，所以初始实体抽取模型在输出对对象更新数据的实体抽取结果时，同时输出每个对象更新数据的实体抽取结果所对应的置信度信息，根据置信度信息可以判断每个对象更新数据的实体抽取结果准确度是否可信。当初始实体抽取模型输出每个对象更新数据的实体抽取结果后，可以根据每个对象更新数据的实体抽取结果对应的置信度信息，选取出若干置信度较高的目标实体抽取结果。可选的，在选取置信度较高的目标实体抽取结果时，可以是选取置信度高于置信度阈值的目标实体抽取结果。例如，可以选取置信度超过90％的实体抽取结果作为目标实体抽取结果。在一些实施例中，在选取置信度较高的目标实体抽取结果时，也可以是基于置信度信息对实体抽取结果进行排序，从而在实体抽取结果中选取一定数量置信度排列在前面的实体抽取结果作为目标实体抽取结果。例如，可以选取置信度排列在前10％的实体抽取结果作为目标实体抽取结果。

本申请实施例中，可以将目标实体抽取结果对应的对象更新数据作为目标对象更新数据。由于目标对象更新数据对应的目标实体抽取结果的置信度较高，因此，目标对象更新数据也可以作为新的训练数据对初始实体抽取模型进行训练。即可以将目标对象更新数据与初始训练数据结合在一起，作为新的训练数据集对初始实体抽取模型进行训练，从而可以提高模型的能力。将目标对象更新数据与初始训练数据结合可以得到迭代训练数据集，基于迭代训练数据集对初始实体抽取模型进行训练可以得到迭代实体抽取模型。得到迭代实体抽取模型后，可以使用迭代实体抽取模型对剩余的对象更新数据，即非目标对象更新数据进行实体抽取。迭代实体抽取模型所输出的实体抽取结果包括每个非目标对象更新数据对应的实体抽取结果，以及每个实体抽取结果的第二置信度信息。第二置信度信息用于表征初始实体抽取模型所输出的实体抽取结果的可信程度。然后再基于第二置信度信息确定出迭代实体抽取模型所输出结果中的目标实体抽取结果，进而可以确定这些目标实体抽取结果对应的目标对象数据。将目标对象更新数据与初始训练数据结合在一起，作为新的训练数据集对初始实体抽取模型进行训练，以提高模型的能力。如此循环，直至所有的对象更新数据所对应的全部对应有置信度较高的实体抽取结果。

S309：根据实体抽取结果确定实体集合。

本申请实施例中，将所有对象更新数据对应的实体抽取结果组合在一起，构成一个集合，即为实体集合，实体集合中包括多个实体。

S205：根据预定义规则对实体集合中的实体进行筛选，得到目标实体。

本申请实施例中，在得到实体集合后，对实体集合中的所有实体进行处理，然后筛选出目标实体。具体的，在得到实体集合后，首先对实体集合中的实体进行去重处理，即去除重复的实体，然后再对剩余的实体按照预定义规则进行筛选。

作为一种可选的实施方式，在对实体集合中的实体进行筛选时，可以按照实体的出现频次对实体集合中处理后的实体进行筛选。具体的，首先，确定实体集合中剩余实体中每个实体的出现频次。然后根据每个实体的出现频次对实体集合中剩余实体进行筛选，从而得到目标实体。对于商品更新信息而言，一般会存在一些稀疏的商品更新信息，这些稀疏的商品更新信息可能来是商家的营销策略，也可能是误操作等，将这些商品更新信息中出现的实体更新到商品知识图谱中，不具有实际应用意义，而且会降低商品知识图谱的质量，所以在对商品知识图谱进行更新时，可以去除这部分实体。因此，在对实体集合中的剩余实体进行筛选时，可以选取出现频次较高的实体作为目标实体。而出现频次较低的实体可以清除掉，不做作目标实体更新到知识图谱中去。可选的，在筛选出现频次较高的实体时，可以选择出现频次或出现频率大于阈值的实体作为目标实体。

作为另一种可选的实施方式，在对实体集合中的实体进行筛选时，也可以按照实体的热度信息对实体集合中处理后的实体进行筛选。实体的热度信息可以是实体的搜索量，也可以是包含实体的对象更新信息的浏览量或点击量等。具体的，首先确定实体集合中剩余实体中每个实体的热度信息。然后根据每个实体的热度信息对实体集合中剩余实体进行筛选，从而得到目标实体。

S207：根据目标实体更新初始知识图谱。

本申请实施例中，在筛选出目标实体后，可以对目标实体进行知识融合处理，得到融合后的实体。可选的，对目标实体进行知识融合处理包括但不仅限于对目标实体进行数据整合、数据消歧、知识映射等。在一些实施例中，也可以在对实体集合中的实体进行筛选之前，对实体集合中的实体进行一次知识融合处理，从而可以减少目标实体中的相同或相似的实体数量。

本申请实施例中，在对目标实体进行知识融合处理后，可以将融合后的实体更新到知识图谱中。具体的，基于融合后的实体建立三元组，然后确定三元组中的对象实体。并在初始知识图谱的本体层中确定与对象实体对应的初始对象实体。然后基于初始对象实体，将三元组更新到初始知识图谱中。

作为一种可选的实施方式，图4是本申请实施例提供的一种商品知识图谱的结构示意图，如图4所示，商品知识图谱可以包括本体层、属性层和商品层。本体层一般由领域专家建设，本体层中的实体涵盖了领域内知识的基础分类。属性层为相同属性的一类实体的结合，具备一定的丰富性以及可解释性。商品层为非结构化的商品、自然语言或者其他多模态的信息载体。在对商品知识图谱进行更新时，首先，对于融合后的实体来说，需要建立起实体-关系-实体的三元组，然后再确定出三元组中的对象实体，即本体层实体。然后再在初始知识图谱中确定出与之对应的本体层实体，然后将三元组更新到初始知识图谱中，从而实现知识图谱的更新。

本申请实施例还公开了一种知识图谱更新装置，图5是本申请实施例提供的一种商品知识图谱更新装置的结构示意图，如图5所示，该装置包括：

获取模块501，用于获取初始知识图谱，并获取对象更新信息。

实体抽取模块503，用于对对象更新信息进行实体抽取，得到实体集合。

实体筛选模块505，用于根据预定义规则对实体集合中的实体进行筛选，得到目标实体。

知识图谱更新模块507，用于根据目标实体更新初始知识图谱。

在一些可选的实施例中，实体抽取模块包括：

初始训练数据获取子模块，用于获取标注有实体标注结果的初始训练数据。

初始训练数据输入子模块，用于将初始训练数据输入机器模型，得到机器模型输出的结果。

初始实体抽取模型训练子模块，用于根据实体标注结果和机器模型输出的结果，对机器模型进行训练，得到初始实体抽取模型。

对象更新信息实体抽取子模块，用于将对象更新信息输入到初始实体抽取模型中进行实体抽取，得到实体抽取结果。

在一些可选的实施例中，对象更新信息包括多个对象更新数据。对象更新信息实体抽取子模块包括：

初始实体抽取模型单元，用于将对象更新信息输入到初始实体抽取模型中进行实体抽取，得到每个对象更新数据对应的实体抽取结果，以及每个实体抽取结果的第一置信度信息。

目标对象更新数据确定单元，用于根据第一置信度信息确定预设数量的目标实体抽取结果，以及与目标实体抽取结果对应的目标对象更新数据。

迭代训练数据生成单元，用于基于初始训练数据和目标对象更新数据生成迭代训练数据。

迭代训练数据输入单元，用于将迭代训练数据输入初始实体抽取模型，得到初始实体抽取模型输出的结果。

迭代实体抽取模型训练单元，用于根据实体标注结果、目标实体抽取结果和初始实体抽取模型输出的结果，对初始实体抽取模型进行训练，得到迭代实体抽取模型。

非目标对象更新数据实体抽取单元，用于将至少一个非目标对象更新数据输入到迭代实体抽取模型中，得到每个非目标对象更新数据对应的非目标实体抽取结果。非目标对象更新数据为对象更新信息中除目标对象更新数据以外的目标对象数据。

子单元，用于将至少一个非目标对象更新数据输入到迭代实体抽取模型中，得到每个非目标对象更新数据对应的非目标实体抽取结果，以及每个非目标实体抽取结果的第二置信度信息。

目标对象更新数据确定子单元，用于根据第二置信度信息确定预设数量的目标实体抽取结果，以及目标实体抽取结果对应的目标对象更新数据。

非目标对象更新数据实体抽取子单元，用于重复基于初始训练数据和目标对象更新数据生成迭代训练数据，至将至少一个非目标对象更新数据输入到迭代实体抽取模型中，得到每个非目标对象更新数据对应的非目标实体抽取结果的步骤，直至每个对象更新数据均为目标对象更新数据。

在一些可选的实施例中，实体筛选模块包括：

出现频次确定子模块，用于确定实体集合中每个实体的出现频次。

在一些可选的实施例中，该装置还包括：

在一些可选的实施例中，知识图谱更新模块包括：

三元组建立子模块，用于基于融合后的实体建立三元组。

对象实体确定子模块，用于确定三元组中的对象实体。

初始对象实体确定子模块，用于在初始知识图谱的本体层中确定与对象实体对应的初始对象实体。

本申请实施例所述的知识图谱更新装置与知识图谱更新方法实施例基于同样地申请构思。关于知识图谱更新装置的具体实施情况，请参考上述关于知识图谱更新方法的全部实施方式。

本申请实施例还公开了一种电子设备，设备包括处理器和存储器，存储器中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行如上所述的知识图谱更新方法。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图6是本申请实施例提供的一种方法的服务器的硬件结构框图。如图6所示，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，CPU)610(处理器610可以包括但不限于微处理器MCU或可编程逻辑器件(Field Programmable Gate Array，FPGA)等的处理装置)、用于存储数据的存储器630，一个或一个以上存储应用程序623或数据622的存储介质620(例如一个或一个以上海量存储设备)。其中，存储器630和存储介质620可以是短暂存储或持久存储。存储在存储介质620的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器610可以设置为与存储介质620通信，在服务器600上执行存储介质620中的一系列指令操作。服务器600还可以包括一个或一个以上电源660，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口640，和/或，一个或一个以上操作系统621，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。

输入输出接口640可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器600的通信供应商提供的无线网络。在一个实例中，输入输出接口640包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口640可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图6所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器600还可包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。

本申请实施例还公开了一种计算机可读存储介质，存储介质中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现如上所述的知识图谱更新方法。

本申请实施例中，上述计算机存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选的，该计算机可读存储介质可以包括：只读存储器(ReadOnlyMemory，ROM)、随机存取记忆体(RandomAccessMemory，RAM)、固态硬盘(SolidStateDrives，SSD)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ResistanceRandomAccessMemory，ReRAM)和动态随机存取存储器(DynamicRandomAccessMemory，DRAM)。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种知识图谱更新方法，其特征在于，所述方法包括：

获取初始知识图谱，并获取对象更新信息；

对所述对象更新信息进行实体抽取，得到实体集合；

根据预定义规则对所述实体集合中的实体进行筛选，得到目标实体；

根据所述目标实体更新所述初始知识图谱；

其中，所述实体集合为根据实体抽取结果确定得到；所述方法还包括：

基于初始训练数据和目标对象更新数据生成迭代训练数据；所述初始训练数据标注有实体标注结果；所述目标对象更新数据为基于目标实体抽取结果确定得到；所述目标实体抽取结果为将所述对象更新信息输入到初始实体抽取模型中进行实体抽取得到；

将所述迭代训练数据输入所述初始实体抽取模型，得到所述初始实体抽取模型输出的结果；

根据所述实体标注结果、目标实体抽取结果和所述初始实体抽取模型输出的结果，对所述初始实体抽取模型进行训练，得到迭代实体抽取模型；

将至少一个非目标对象更新数据输入到所述迭代实体抽取模型中，得到每个所述非目标对象更新数据对应的非目标实体抽取结果，以及每个所述非目标实体抽取结果的第二置信度信息；

根据所述第二置信度信息确定预设数量的所述目标实体抽取结果，以及所述目标实体抽取结果对应的目标对象更新数据；

重复所述基于初始训练数据和所述目标对象更新数据生成迭代训练数据，至所述将至少一个非目标对象更新数据输入到所述迭代实体抽取模型中，得到每个所述非目标对象更新数据对应的非目标实体抽取结果的步骤，直至每个所述对象更新数据均为所述目标对象更新数据；

基于每个所述目标对象更新数据对应的所述目标实体抽取结果，得到所述实体抽取结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述对象更新信息进行实体抽取，得到实体集合，包括：

获取标注有实体标注结果的初始训练数据；

将所述初始训练数据输入机器模型，得到所述机器模型输出的结果；

根据所述实体标注结果和所述机器模型输出的结果，对所述机器模型进行训练，得到初始实体抽取模型；

将所述对象更新信息输入到所述初始实体抽取模型中进行实体抽取，得到实体抽取结果；

根据所述实体抽取结果确定所述实体集合。

3.根据权利要求2所述的方法，其特征在于，所述对象更新信息包括多个对象更新数据；所述将所述对象更新信息输入到所述初始实体抽取模型中进行实体抽取，得到实体抽取结果，包括：

将所述对象更新信息输入到所述初始实体抽取模型中进行实体抽取，得到每个所述对象更新数据对应的实体抽取结果，以及每个所述实体抽取结果的第一置信度信息；

根据所述第一置信度信息确定预设数量的目标实体抽取结果，以及与所述目标实体抽取结果对应的目标对象更新数据；

基于所述初始训练数据和所述目标对象更新数据生成迭代训练数据；

根据所述实体标注结果、所述目标实体抽取结果和所述初始实体抽取模型输出的结果，对所述初始实体抽取模型进行训练，得到迭代实体抽取模型；

将至少一个非目标对象更新数据输入到所述迭代实体抽取模型中，得到每个所述非目标对象更新数据对应的非目标实体抽取结果；所述非目标对象更新数据为所述对象更新信息中除所述目标对象更新数据以外的目标对象数据；

根据所述目标实体抽取结果和所述非目标实体抽取结果，确定所述实体抽取结果。

4.根据权利要求1所述的方法，其特征在于，所述根据预定义规则对所述实体集合中的实体进行筛选，得到目标实体，包括：

确定所述实体集合中每个实体的出现频次；

根据所述出现频次对所述实体集合中的实体进行筛选，得到目标实体。

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标实体更新所述初始知识图谱之前，所述方法还包括：

对所述目标实体进行知识融合，得到融合后的实体。

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标实体更新所述初始知识图谱，包括：

基于所述融合后的实体建立三元组；

确定所述三元组中的对象实体；

在所述初始知识图谱的本体层中确定与所述对象实体对应的初始对象实体；

基于所述初始对象实体，将所述三元组更新到所述初始知识图谱中。

7.一种知识图谱更新装置，其特征在于，所述装置包括：

获取模块，用于获取初始知识图谱，并获取对象更新信息；

实体抽取模块，用于对所述对象更新信息进行实体抽取，得到实体集合；

实体筛选模块，用于根据预定义规则对所述实体集合中的实体进行筛选，得到目标实体；

知识图谱更新模块，用于根据所述目标实体更新所述初始知识图谱；其中，所述实体集合为根据实体抽取结果确定得到；所述装置还包括：

迭代训练数据生成单元，用于基于初始训练数据和目标对象更新数据生成迭代训练数据；所述初始训练数据标注有实体标注结果；所述目标对象更新数据为基于目标实体抽取结果确定得到；所述目标实体抽取结果为将所述对象更新信息输入到初始实体抽取模型中进行实体抽取得到；

迭代训练数据输入单元，用于将所述迭代训练数据输入所述初始实体抽取模型，得到所述初始实体抽取模型输出的结果；

迭代实体抽取模型训练单元，用于根据所述实体标注结果、目标实体抽取结果和所述初始实体抽取模型输出的结果，对所述初始实体抽取模型进行训练，得到迭代实体抽取模型；

非目标对象更新数据输入子单元，用于将至少一个非目标对象更新数据输入到所述迭代实体抽取模型中，得到每个所述非目标对象更新数据对应的非目标实体抽取结果，以及每个所述非目标实体抽取结果的第二置信度信息；

目标对象更新数据确定子单元，用于根据所述第二置信度信息确定预设数量的所述目标实体抽取结果，以及所述目标实体抽取结果对应的目标对象更新数据；

非目标对象更新数据实体抽取子单元，用于重复所述基于初始训练数据和所述目标对象更新数据生成迭代训练数据，至所述将至少一个非目标对象更新数据输入到所述迭代实体抽取模型中，得到每个所述非目标对象更新数据对应的非目标实体抽取结果的步骤，直至每个所述对象更新数据均为所述目标对象更新数据；

实体抽取结果确定子单元，用于基于每个所述目标对象更新数据对应的所述目标实体抽取结果，得到所述实体抽取结果。

8.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行如权利要求1-6任一项所述的知识图谱更新方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-6任一项所述的知识图谱更新方法。