CN112836064B

CN112836064B - 知识图谱补全方法、装置、存储介质及电子设备

Info

Publication number: CN112836064B
Application number: CN202110207313.4A
Authority: CN
Inventors: 王博; 王英; 常毅
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2023-05-16
Anticipated expiration: 2041-02-24
Also published as: CN112836064A

Abstract

本申请公开了一种知识图谱补全方法、装置、存储介质及电子设备，属于计算机技术领域。所述知识图谱补全方法包括：获取待验证的目标知识文本，根据所述目标知识文本与预设的知识图谱生成多个三元组，对各个三元组进行计算得到对应的置信度，基于所述对应的置信度验证目标三元组，以及根据验证结果补全所述知识图谱。故本申请中通过提出一种结合文本编码技术和图嵌入技术的混合模型以同时学习上下文和结构化知识，获得可靠的三元组置信度评分，实现了两类方法的优势互补，显著降低计算开销并提高补全准确性。还提出了一种自适应集成方案，将本申请编码方法和图嵌入方法两类方法的得分做出自适应的融合，进一步提高了知识图谱补全的准确率。

Description

知识图谱补全方法、装置、存储介质及电子设备

技术领域

本申请涉及计算机技术领域，具体涉及一种知识图谱补全方法、装置、存储介质及电子设备。

背景技术

知识图谱用于描述实体的属性和实体之间的联系。随着计算机科学的发展，人工智能领域的兴起，知识图谱的应用也越来越广泛，传统的建立任务知识图谱的方法，即手工构建人物之间的关系，或者直接从网络平台，例如：维基百科、百度百科等爬取人工编辑好的人物关系知识图谱，难免存在如人物知识图谱不全面，一般只有部分公众人物的信息，人工构建知识图谱时效率低等技术问题。现有图嵌入方法仅仅利用图的结构信息对实体和关系进行表示，完全忽视了实体和关系的上下文信息。因此，这类方法无法处理在训练阶段未曾见过的实体和关系，即有着较差的泛化能力，并且，它们本质上很容易受到图不完整性的影响，难以在真实世界中进行直接应用它完全忽视了结构化知识，导致其缺乏结构化知识且存在实体歧义的问题。

发明内容

本申请实施例提供了一种知识图谱补全方法、装置、存储介质及电子设备，解决了知识图谱补全中计算开销量大、补全准确性低的技术问题。所述技术方案如下：

第一方面，本申请实施例提供了一种知识图谱补全方法，包括：

获取待验证的目标知识文本；

根据所述目标知识文本与预设的知识图谱生成多个三元组；其中，三元组包括：头实体、尾实体以及头实体与尾实体之间的关系；

对各个三元组进行计算得到对应的置信度；

基于所述对应的置信度验证目标三元组，以及根据验证结果补全所述知识图谱。

第二方面，本申请实施例提供了一种知识图谱补全装置，所述装置包括：

获取模块，用于获取待验证的目标知识文本；

生成模块，用于根据所述目标知识文本与预设的知识图谱生成多个三元组；其中，三元组包括：头实体、尾实体以及头实体与尾实体之间的关系；

计算模块，用于对各个三元组进行计算得到对应的置信度；

补全模块，用于基于所述对应的置信度验证目标三元组，以及根据验证结果补全所述知识图谱。

第三方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供了一种电子设备，包括：存储器和处理器；其中，所述存储器存储有计算机程序，所述计算机程序适用于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

上述知识图谱补全方法、装置、存储介质及电子设备工作时，获取待验证的目标知识文本，根据所述目标知识文本与预设的知识图谱生成多个三元组，其中，三元组包括：头实体、尾实体以及头实体与尾实体之间的关系，对各个三元组进行计算得到对应的置信度，基于所述对应的置信度验证目标三元组，以及根据验证结果补全所述知识图谱。本申请实施例通过提出一种结合文本编码技术和图嵌入技术的混合模型以同时学习上下文和结构化知识，获得可靠的三元组置信度评分，实现了两类方法的优势互补，显著降低计算开销并提高补全准确性。在此基础上，提出了一种自适应集成方案，将本申请编码方法和图嵌入方法两类方法的得分做出自适应的融合，进一步提高了知识图谱补全的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种通信系统工作示意图；

图2是本申请实施例提供的一种知识图谱补全方法的流程示意图；

图3是本申请实施例提供的一种知识图谱补全方法的另一流程示意图；

图4是本申请实施例提供的一种知识图谱补全装置的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

下面的描述设计附图时，除非另有表示，不同附图中的相同数字表示相同的或相似的要素。以下示例性实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

为了解决上述提到的现有图嵌入方法仅仅利用图的结构信息对实体和关系进行表示，完全忽视了实体和关系的上下文信息。导致这类方法无法处理在训练阶段未曾见过的实体和关系，即有着较差的泛化能力，并且它们本质上很容易受到图不完整性的影响，难以在真实世界中进行直接应用等技术问题，特提出了一种知识图谱补全方法，本申请实施例方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系且安装有摄像头或可旋转摄像头的计算机系统上。该计算机系统可以是智能手机、笔记本电脑、平板电脑等设备的计算机系统。

在下述方法实施例中，为了便于说明，仅以各步骤的执行主体为计算机进行介绍说明。

下面将结合附图2至图3，对本申请实施例提供的知识图谱补全方法进行详细介绍。

请参见图1，为本申请实施例提供的一种知识图谱补全系统的工作示意图。如图1所示，所述知识图谱补全主要是通过计算机将输入的实体和关系，例如：乔布斯、创建、微软公司等进行处理确定目标三元组，例如：(乔布斯，创建，苹果公司)、(盖茨，创建，微软公司)等。

请参见图2，为本申请实施例提供了一种知识图谱补全方法的流程示意图。所述方法可以包括以下步骤：

S201、获取待验证的目标知识文本。

一般的，计算机可以通过爬虫技术爬取到的待验证的目标知识文本，例如：实体包括周杰伦、月亮之上、青藏高原等，关系包括演唱、创作等等。

S202、根据所述目标知识文本与预设的知识图谱生成多个三元组。

一般的，三元组包括：头实体、尾实体以及头实体与尾实体之间的关系。计算机获取待验证的目标知识文本后，确定所述目标知识文本的知识类型；其中，所述知识类型包括头实体类型、关系类型和尾实体类型，获取预设的知识图谱中所有知识类型的知识文本，对所述所有知识类型的知识文本和所述目标知识文本进行随机组合处理生成多个三元组。

S203、对各个三元组进行计算得到对应的置信度。

一般的，计算机生成多个三元组之后，还需要获取训练集，其中，所述训练集包括正例和负例，基于所述训练集计算结构感知三元组编码模型的第一损失函数，基于所述训练集计算所述结构感知三元组编码模型的第二损失函数，根据所述第一损失函数和所述第二损失函数计算出所述结构感知三元组编码模型的损失函数，通过所述损失函数对所述结构感知三元组编码模型进行训练确定参数。然后，计算机通过训练好的所述结构感知三元组编码模型计算所述各个三元组对应的文本特征，基于所述文本特征计算上下文连接系数，根据所述上下文连接系数确定对应的置信度。

在一个实施例中，计算机所述获取所述各个三元组对应的文本特征，包括：对所述各个三元组进行处理得到第一文本特征，其中，所述第一文本特征包括头实体特征和关系特征，对所述第一文本特征进行连接处理得到第二文本特征，对所述各个三元组进行处理得到第三文本特征，其中，所述第三文本特征是指尾实体特征。在一个实施例中，计算机通过第一翻译函数对所述第二文本特征进行处理得到第一上下文连接系数，通过第二翻译函数对所述第三文本特征进行处理得到第二上下文连接系数，其中，所述第一翻译函数和所述第二翻译函数的参数存在共享关系。在一个实施例中，计算机基于所述第一上下文连接系数与所述第二上下文连接系数通过表达学习模型计算第一置信度，基于所述第一上下文连接系数与所述第二上下文连接系数通过空间距离学习模型计算第二置信度，基于所述第一置信度和所述第二置信度得到对应的置信度。

S204、基于所述对应的置信度验证目标三元组，以及根据验证结果补全所述知识图谱。

一般的，计算机得到对应的置信度之后，统计所有的置信度，确定最大的置信度对应的三元组为目标三元组，根据验证结果将所述目标三元组上传到数据库补全所述知识图谱。在一个实施例中，计算机对各个三元组进行计算得到对应的置信度之后，还包括：通过知识表示学习模型对各个三元组进行计算得到对应的参考置信度，其中，所述知识表示学习模型可以为RotatE模型，基于所述对应的置信度和所述参考置信度计算混淆程度估计和得分一致性估计，通过具有激活函数的多层感知机MLP对所述混淆程度估计和所述得分一致性估计进行处理得到权重参数，基于所述权重参数对所述对应的置信度和所述参考置信度进行计算得到更新的置信度。

由上述内容可知，获取待验证的目标知识文本，根据所述目标知识文本与预设的知识图谱生成多个三元组，其中，三元组包括：头实体、尾实体以及头实体与尾实体之间的关系，对各个三元组进行计算得到对应的置信度，基于所述对应的置信度验证目标三元组，以及根据验证结果补全所述知识图谱。本申请实施例通过提出一种结合文本编码技术和图嵌入技术的混合模型以同时学习上下文和结构化知识，获得可靠的三元组置信度评分，实现了两类方法的优势互补，显著降低计算开销并提高补全准确性。在此基础上，提出了一种自适应集成方案，将本申请编码方法和图嵌入方法两类方法的得分做出自适应的融合，进一步提高了知识图谱补全的准确率。

请参见图3，为本申请实施例提供了一种知识图谱补全方法的另一流程示意图。该知识图谱补全方法可以包括以下步骤：

S301、获取待验证的目标知识文本。

S302、确定所述目标知识文本的知识类型，获取预设的知识图谱中所有知识类型的知识文本。

一般的，所述知识类型包括头实体类型、关系类型和尾实体类型。计算机获取待验证的目标知识文本后，确定所述目标知识文本的知识类型，获取预设的知识图谱中所有知识类型的知识文本，例如：计算机确定“周杰伦”为头实体类型，“演唱”为关系类型，“千里之外”为尾实体类型，再获取预设的知识图谱中所有知识类型的知识文本，例如：“凤凰传奇”、“刘德华”、“难忘今宵”等等。

S303、对所述所有知识类型的知识文本和所述目标知识文本进行随机组合处理生成多个三元组。

一般的，所述三元组包括：头实体、尾实体以及头实体与尾实体之间的关系。计算机获取预设的知识图谱中所有知识类型的知识文本后，对所述所有知识类型的知识文本和所述目标知识文本进行随机组合处理生成多个三元组，例如：生成(周杰伦，演唱，千里之外)和(周杰伦，演唱，月亮之上)等三元组。

S304、获取训练集，基于所述训练集计算结构感知三元组编码模型的第一损失函数，基于所述训练集计算所述结构感知三元组编码模型的第二损失函数。

一般的，所述训练集包括正例和负例。计算机对各个三元组进行计算得到对应的目标置信度之前，需要获取训练集，基于所述训练集计算结构感知三元组编码模型的第一损失函数，基于所述训练集计算所述结构感知三元组编码模型的第二损失函数，计算机可以根据如下公式计算第一损失函数：

其中，L^c表示第一损失函数，D表示仅包含正例的训练集，N(tp)表示基于正例tp对应的一组负例，s^c表示计算出的正例tp的第一置信度，(1-s^c')表示根据正例tp进行负采样得到的负例tp'的第一置信度，||表示训练集的个数。然后计算机可以根据如下公式计算第二损失函数：

其中，L^d表示第二损失函数，D表示仅包含正例的训练集，N(tp)表示基于正例tp对应的一组负例，s^d表示计算出的正例tp的的第二置信度，s^d'表示根据正例tp进行负采样得到的负例tp'的第二置信度。例如：通过计算得到第一损失函数得到的值为0.6，第二损失函数得到的值为0.7。

S305、根据所述第一损失函数和所述第二损失函数计算出所述结构感知三元组编码模型的损失函数，通过所述损失函数对所述结构感知三元组编码模型进行训练确定参数。

一般的，计算机计算所述结构感知三元组编码模型的第二损失函数后，根据所述第一损失函数和所述第二损失函数计算出所述结构感知三元组编码模型的损失函数，通过所述损失函数对所述结构感知三元组编码模型进行训练确定参数，计算机可以根据如下公式计算损失函数：

L＝L^c+γL^d；

其中，L表示损失函数，γ表示权重系数，L^c表示第一损失函数，L^d表示第二损失函数，例如：计算得到损失函数的值为0.6+0.5×0.7＝0.95。

S306、对所述各个三元组进行处理得到第一文本特征，对所述第一文本特征进行连接处理得到第二文本特征，对所述各个三元组进行处理得到第三文本特征。

一般的，所述第一文本特征包括头实体特征和关系特征，所述第三文本特征是指尾实体特征。计算机对所述结构感知三元组编码模型进行训练确定好参数之后，对所述各个三元组进行处理得到第一文本特征，对所述第一文本特征进行连接处理得到第二文本特征，对所述各个三元组进行处理得到第三文本特征，例如：计算机通过词嵌入算法输入知识文本(“苹果”)得到对应的文本特征(“[1,2,3,4,5]”)。

S307、通过第一翻译函数对所述第二文本特征进行处理得到第一上下文连接系数，通过第二翻译函数对所述第三文本特征进行处理得到第二上下文连接系数。

一般的，所述第一翻译函数和所述第二翻译函数的参数存在共享关系，以保证参数效率，训练过程和验证过程的处理该部分时中都可以参数共享。计算机得到第三文本特征后，可以根据如下公式计算第一上下文连接系数：

其中，u表示第一上下文连接系数，Transformer-Enc(·)表示包含多个多头自注意层的Transformer编码器，Pool(·)用于收集句子级上下文表示，即[CLS]的嵌入表示，其中

表示第二文本特征，x^[CLS]和x^[SEP]是在语言模型BERT中定义的特殊标识符，X^(h),X^(r)分别表示头实体特征和关系特征。然后计算机可以根据如下公式计算第二上下文连接系数：

其中，v表示第二上下文连接系数，Transformer-Enc(·)表示包含多个多头自注意层的Transformer编码器，Pool(·)用于收集句子级上下文表示，即[CLS]的嵌入表示，

表示第三文本特征，，x^[CLS]和x^[SEP]是在语言模型BERT中定义的特殊标识符，X^(t)表示尾实体特征，例如：计算机得到第一上下文连接系数为0.4，第二上下文连接系数0.6，当然也可以用向量等形式来表示。

S308、基于所述第一上下文连接系数与所述第二上下文连接系数通过表达学习模型计算第一置信度，通过空间距离学习模型计算第二置信度，基于所述第一置信度和所述第二置信度得到对应的置信度。

一般的，计算机得到第二上下文连接系数后，可以根据如下公式计算第一置信度：

其中，softmax()表示逻辑回归模型，MLP(·)代表多层感知机，p(·)表示表达学习模型，z、θ是其可学习的参数，c可代表一个三元组的两个部分之间丰富的语义联系，c＝[u；u×v；u-v；v]，取P的第二维的值作为第一置信度s^c。然后计算机可以根据如下公式计算第二置信度：

其中，s^d表示第二置信度，Distance(·)表示空间距离学习模型，f(h,r)表示头实体和关系之间的上下文函数关系，f(t)表示尾实体的上下文函数关系，||·||表示L2范数，例如计算机得到第一置信度为0.6，第二置信度为0.8，可以得到对应的置信度为0.6+0.8＝1.4，当然还可以采用其它方式进行结合。

S309、通过知识表示学习模型对各个三元组进行计算得到对应的参考置信度，基于所述对应的置信度和所述参考置信度计算混淆程度估计和得分一致性估计。

一般的，计算机得到对应的置信度后，还可以根据如下公式计算混淆程度估计和得分一致性估计：

其中，x^(ad)表示所述混淆程度估计，x^(sc)表示所述得分一致性估计，Std(V∈R^d×k)∈R^d表示是通过知识表示学习模型计算出的排名在前k名内实体嵌入表示的标准差，Mean(M∈R^k×n)∈R^k为排名在前k名内的每个实体与实体集中所有实体进行余弦相似度计算后最高的前n个余弦相似度值的和的平均值，k、n为大于1的整数，s^(tc)表示所述对应的置信度，s^(ge)表示所述参考置信度，例如：计算机得到混淆程度估计和得分一致性估计分别为0.8和0.9。

S310、通过具有激活函数的多层感知机MLP对所述混淆程度估计和所述得分一致性估计进行处理得到权重参数，基于所述权重参数对所述对应的置信度和所述参考置信度进行计算得到更新的置信度。

一般的，计算机计算混淆程度估计和得分一致性估计后，可以根据如下公式计算权重参数：

α＝σ(MLP([x^(ad)；x^(sc)]；θ^(α)))∈[0,1]；

其中，α表示权重参数，θ为激活函数σ的参数，MLP(·)代表多层感知机，x^(ad)表示所述混淆程度估计，x^(sc)表示所述得分一致性估计。然后计算机可以根据如下公式计算更新的置信度：

s^(sa)＝α×s^(tc)+(1-α)×s^(ge)；

其中，s^(sa)表示更新的置信度，α表示权重参数，s^(tc)表示所述对应的置信度，s^(ge)表示所述参考置信度。

S311、统计所有的置信度，确定最大的置信度对应的三元组为目标三元组，根据验证结果将所述目标三元组上传到数据库补全所述知识图谱。

一般的，计算机得到更新的置信度后，统计所有的置信度，确定最大的置信度对应的三元组为目标三元组，根据验证结果将所述目标三元组上传到数据库补全所述知识图谱，例如：计算机得到三元组(周杰伦，创作，千里之外)和(周杰伦，创作，月亮之上)的置信度分别为0.9和0.3，则确定(周杰伦，创作，千里之外)为验证后正确的目标三元组，将该三元组上传到数据库补全所述知识图谱中。

本申请实施例的方案在执行时，获取待验证的目标知识文本，根据所述目标知识文本与预设的知识图谱生成多个三元组，其中，三元组包括：头实体、尾实体以及头实体与尾实体之间的关系，对各个三元组进行计算得到对应的置信度，基于所述对应的置信度验证目标三元组，以及根据验证结果补全所述知识图谱。本申请实施例通过提出一种结合文本编码技术和图嵌入技术的混合模型以同时学习上下文和结构化知识，获得可靠的三元组置信度评分，实现了两类方法的优势互补，显著降低计算开销并提高补全准确性。在此基础上，提出了一种自适应集成方案，将本申请编码方法和图嵌入方法两类方法的得分做出自适应的融合，进一步提高了知识图谱补全的准确率。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图4，其示出了本申请一个示例性实施例提供的知识图谱补全装置的结构示意图，以下简称补全装置4。补全装置4可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。包括：

获取模块401，用于获取待验证的目标知识文本；

生成模块402，用于根据所述目标知识文本与预设的知识图谱生成多个三元组；其中，三元组包括：头实体、尾实体以及头实体与尾实体之间的关系；

计算模块403，用于对各个三元组进行计算得到对应的置信度；

补全模块404，用于基于所述对应的置信度验证目标三元组，以及根据验证结果补全所述知识图谱。

可选地，所述生成模块402，还包括：

组合单元，用于确定所述目标知识文本的知识类型；其中，所述知识类型包括头实体类型、关系类型和尾实体类型；获取预设的知识图谱中所有知识类型的知识文本；对所述所有知识类型的知识文本和所述目标知识文本进行随机组合处理生成多个三元组。

可选地，所述计算模块403，还包括：

训练单元，用于获取训练集；其中，所述训练集包括正例和负例；基于所述训练集计算结构感知三元组编码模型的第一损失函数；基于所述训练集计算所述结构感知三元组编码模型的第二损失函数；根据所述第一损失函数和所述第二损失函数计算出所述结构感知三元组编码模型的损失函数；通过所述损失函数对所述结构感知三元组编码模型进行训练确定参数。

确定单元，用于计算所述各个三元组对应的文本特征；基于所述文本特征计算上下文连接系数；根据所述上下文连接系数确定对应的置信度。

处理单元，用于对所述各个三元组进行处理得到第一文本特征；其中，所述第一文本特征包括头实体特征和关系特征；对所述第一文本特征进行连接处理得到第二文本特征；对所述各个三元组进行处理得到第三文本特征；其中，所述第三文本特征是指尾实体特征；通过第一翻译函数对所述第二文本特征进行处理得到第一上下文连接系数；通过第二翻译函数对所述第三文本特征进行处理得到第二上下文连接系数；其中，所述第一翻译函数和所述第二翻译函数的参数存在共享关系；基于所述第一上下文连接系数与所述第二上下文连接系数通过表达学习模型计算第一置信度；基于所述第一上下文连接系数与所述第二上下文连接系数通过空间距离学习模型计算第二置信度；基于所述第一置信度和所述第二置信度得到对应的置信度。

更新单元，用于通过知识表示学习模型对各个三元组进行计算得到对应的参考置信度；其中，所述知识表示学习模型为RotatE模型；基于所述对应的置信度和所述参考置信度计算混淆程度估计和得分一致性估计；通过具有激活函数的多层感知机MLP对所述混淆程度估计和所述得分一致性估计进行处理得到权重参数；基于所述权重参数对所述对应的置信度和所述参考置信度进行计算得到更新的置信度。

可选地，所述补全模块404，还包括：

验证单元，用于统计所有的置信度；确定最大的置信度对应的三元组为目标三元组；根据验证结果将所述目标三元组上传到数据库补全所述知识图谱。

本申请实施例和图2至图3的方法实施例基于同一构思，其带来的技术效果也相同，具体过程可参照图2至图3的方法实施例的描述，此处不再赘述。

所述装置4可以为实现相关功能的现场可编程门阵列(field-programmable gatearray，FPGA)，专用集成芯片，系统芯片(system on chip，SoC)，中央处理器(centralprocessor unit，CPU)，网络处理器(network processor，NP)，数字信号处理电路，微控制器(micro controller unit，MCU)，还可以采用可编程控制器(programmable logicdevice，PLD)或其他集成芯片。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述的方法步骤，具体执行过程可以参见图2或图3所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的模板的控制方法。

请参见图5，为本申请实施例提供了一种电子设备的结构示意图。如图5所示，所述电子设备5可以包括：至少一个处理器501，至少一个网络接口504，用户接口503，存储器505，至少一个通信总线502。

其中，通信总线502用于实现这些组件之间的连接通信。

其中，用户接口503可以包括显示屏(Display)、摄像头(Camera)，可选用户接口503还可以包括标准的有线接口、无线接口。

其中，网络接口504可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器501可以包括一个或者多个处理核心。处理器501利用各种借口和线路连接整个终端500内的各个部分，通过运行或执行存储在存储器505内的指令、程序、代码集或指令集，以及调用存储在存储器505内的数据，执行终端500的各种功能和处理数据。可选的，处理器501可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器501可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器501中，单独通过一块芯片进行实现。

其中，存储器505可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器505包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器505可用于存储指令、程序、代码、代码集或指令集。存储器505可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。如图5所示，作为一种计算机存储介质的存储器505中可以包括操作系统、网络通信模块、用户接口模块以及知识图谱补全应用程序。

在图5所示的电子设备500中，用户接口503主要用于为用户提供输入的接口，获取用户输入的数据；而处理器501可以用于调用存储器505中存储的知识图谱补全应用程序，并具体执行以下操作：

获取待验证的目标知识文本；

对各个三元组进行计算得到对应的置信度；

在一个实施例中，处理器501执行所述根据所述目标知识文本与预设的知识图谱生成多个三元组，包括：

确定所述目标知识文本的知识类型；其中，所述知识类型包括头实体类型、关系类型和尾实体类型；

获取预设的知识图谱中所有知识类型的知识文本；

对所述所有知识类型的知识文本和所述目标知识文本进行随机组合处理生成多个三元组。

在一个实施例中，处理器501执行所述对各个三元组进行计算得到对应的目标置信度之前，还包括：

获取训练集；其中，所述训练集包括正例和负例；

基于所述训练集计算结构感知三元组编码模型的第一损失函数；

基于所述训练集计算所述结构感知三元组编码模型的第二损失函数；

根据所述第一损失函数和所述第二损失函数计算出所述结构感知三元组编码模型的损失函数；

通过所述损失函数对所述结构感知三元组编码模型进行训练确定参数。

在一个实施例中，处理器501执行所述对各个三元组进行计算得到对应的置信度，包括：

计算所述各个三元组对应的文本特征；

基于所述文本特征计算上下文连接系数；

根据所述上下文连接系数确定对应的置信度。

在一个实施例中，处理器501执行所述获取所述各个三元组对应的文本特征，包括：

对所述各个三元组进行处理得到第一文本特征；其中，所述第一文本特征包括头实体特征和关系特征；

对所述第一文本特征进行连接处理得到第二文本特征；

对所述各个三元组进行处理得到第三文本特征；其中，所述第三文本特征是指尾实体特征。

在一个实施例中，处理器501执行所述基于所述文本特征计算上下文连接系数，包括：

通过第一翻译函数对所述第二文本特征进行处理得到第一上下文连接系数；

通过第二翻译函数对所述第三文本特征进行处理得到第二上下文连接系数；其中，所述第一翻译函数和所述第二翻译函数的参数存在共享关系。

在一个实施例中，处理器501执行所述根据所述上下文连接系数确定对应的置信度，包括：

基于所述第一上下文连接系数与所述第二上下文连接系数通过表达学习模型计算第一置信度；

基于所述第一上下文连接系数与所述第二上下文连接系数通过空间距离学习模型计算第二置信度；

基于所述第一置信度和所述第二置信度得到对应的置信度。

在一个实施例中，处理器501执行所述对各个三元组进行计算得到对应的置信度之后，还包括：

通过知识表示学习模型对各个三元组进行计算得到对应的参考置信度；其中，所述知识表示学习模型为RotatE模型；

基于所述对应的置信度和所述参考置信度计算混淆程度估计和得分一致性估计；

通过具有激活函数的多层感知机MLP对所述混淆程度估计和所述得分一致性估计进行处理得到权重参数；

基于所述权重参数对所述对应的置信度和所述参考置信度进行计算得到更新的置信度。

在一个实施例中，处理器501执行所述基于所述对应的置信度验证目标三元组，以及根据验证结果补全所述知识图谱，包括：

统计所有的置信度；

确定最大的置信度对应的三元组为目标三元组；

根据验证结果将所述目标三元组上传到数据库补全所述知识图谱。

在一个实施例中，处理器501执行所述根据如下公式计算第一损失函数：

其中，L^c表示第一损失函数，D表示仅包含正例的训练集，N(tp)表示基于正例tp对应的一组负例，s^c表示计算出的正例tp的第一置信度，(1-s^c')表示根据正例tp进行负采样得到的负例tp'的第一置信度，||表示训练集的个数。

在一个实施例中，处理器501执行所述根据如下公式计算第二损失函数：

其中，L^d表示第二损失函数，D表示仅包含正例的训练集，N(tp)表示基于正例tp对应的一组负例，s^d表示计算出的正例tp的的第二置信度，s^d'表示根据正例tp进行负采样得到的负例tp'的第二置信度。

在一个实施例中，处理器501执行所述可以根据如下公式计算损失函数：

L＝L^c+γL^d；

其中，L表示损失函数，γ表示权重系数，L^c表示第一损失函数，L^d表示第二损失函数。

在一个实施例中，处理器501执行所述可以根据如下公式计算第一上下文连接系数：

表示第二文本特征，x^[CLS]和x^[SEP]是在语言模型BERT中定义的特殊标识符，X^(h),X^(r)分别表示头实体特征和关系特征。

在一个实施例中，处理器501执行所述可以根据如下公式计算第二上下文连接系数：

表示第三文本特征，，x^[CLS]和x^[SEP]是在语言模型BERT中定义的特殊标识符，X^(t)表示尾实体特征。

在一个实施例中，处理器501执行所述可以根据如下公式计算第一置信度：

其中，softmax()表示逻辑回归模型，MLP(·)代表多层感知机，p(·)表示表达学习模型，z、θ是其可学习的参数，c可代表一个三元组的两个部分之间丰富的语义联系，c＝[u；u×v；u-v；v]，取P的第二维的值作为第一置信度s^c。

在一个实施例中，处理器501执行所述可以根据如下公式计算第二置信度：

其中，s^d表示第二置信度，Distance(·)表示空间距离学习模型，f(h,r)表示头实体和关系之间的上下文函数关系，f(t)表示尾实体的上下文函数关系，||·||表示L2范数。

在一个实施例中，处理器501执行所述可以根据如下公式计算混淆程度估计和得分一致性估计：

其中，x^(ad)表示所述混淆程度估计，x^(sc)表示所述得分一致性估计，Std(V∈R^d×k)∈R^d表示是通过知识表示学习模型计算出的排名在前k名内实体嵌入表示的标准差，Mean(M∈R^k×n)∈R^k为排名在前k名内的每个实体与实体集中所有实体进行余弦相似度计算后最高的前n个余弦相似度值的和的平均值，k、n为大于1的整数，s^(tc)表示所述对应的置信度，s^(ge)表示所述参考置信度。

在一个实施例中，处理器501执行所述可以根据如下公式计算权重参数：

α＝σ(MLP([x^(ad)；x^(sc)]；θ^(α)))∈[0,1]；

其中，α表示权重参数，θ为激活函数σ的参数，MLP(·)代表多层感知机，x^(ad)表示所述混淆程度估计，x^(sc)表示所述得分一致性估计。

在一个实施例中，处理器501执行所述可以根据如下公式计算更新的置信度：

s^(sa)＝α×s^(tc)+(1-α)×s^(ge)；

本申请实施例的技术构思和图2或图3的技术构思相同，具体过程可参照图2或图3的方法实施例，此处不再赘述。

在本申请实施例中，获取待验证的目标知识文本，根据所述目标知识文本与预设的知识图谱生成多个三元组，其中，三元组包括：头实体、尾实体以及头实体与尾实体之间的关系，对各个三元组进行计算得到对应的置信度，基于所述对应的置信度验证目标三元组，以及根据验证结果补全所述知识图谱。本申请实施例通过提出一种结合文本编码技术和图嵌入技术的混合模型以同时学习上下文和结构化知识，获得可靠的三元组置信度评分，实现了两类方法的优势互补，显著降低计算开销并提高补全准确性。在此基础上，提出了一种自适应集成方案，将本申请编码方法和图嵌入方法两类方法的得分做出自适应的融合，进一步提高了知识图谱补全的准确率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种知识图谱补全方法，其特征在于，所述方法包括：

获取待验证的目标知识文本；

对各个三元组进行计算得到对应的置信度；

基于所述对应的置信度验证目标三元组，以及根据验证结果补全所述知识图谱；

所述对各个三元组进行计算得到对应的置信度之前，还包括：

获取训练集；其中，所述训练集包括正例和负例；

通过所述损失函数对所述结构感知三元组编码模型进行训练确定参数；

所述对各个三元组进行计算得到对应的置信度，包括：

计算所述各个三元组对应的文本特征；

基于所述文本特征计算上下文连接系数；

根据所述上下文连接系数确定对应的置信度；

所述计算所述各个三元组对应的文本特征，包括：

对所述第一文本特征进行连接处理得到第二文本特征；

对所述各个三元组进行处理得到第三文本特征；其中，所述第三文本特征是指尾实体特征；

所述基于所述文本特征计算上下文连接系数，包括：

通过第二翻译函数对所述第三文本特征进行处理得到第二上下文连接系数；其中，所述第一翻译函数和所述第二翻译函数的参数存在共享关系；

所述根据所述上下文连接系数确定对应的置信度，包括：

基于所述第一置信度和所述第二置信度得到对应的置信度；

可以根据如下公式计算第一损失函数：

其中，L^c表示第一损失函数，D表示仅包含正例的训练集，N(tp)表示基于正例tp对应的一组负例，s^c表示计算出的正例tp的第一置信度，(1-s^c')表示根据正例tp进行负采样得到的负例tp'的第一置信度，| |表示训练集的个数；

可以根据如下公式计算第二损失函数：

其中，L^d表示第二损失函数，D表示仅包含正例的训练集，N(tp)表示基于正例tp对应的一组负例，s^d表示计算出的正例tp的第二置信度，s^d'表示根据正例tp进行负采样得到的负例tp'的第二置信度；

可以根据如下公式计算损失函数：

L＝L^c+γL^d；

其中，L表示损失函数，γ表示权重系数，L^c表示第一损失函数，L^d表示第二损失函数；

可以根据如下公式计算第一上下文连接系数：

表示第二文本特征，x^[CLS]和x^[SEP]是在语言模型BERT中定义的特殊标识符，X^(h),X^(r)分别表示头实体特征和关系特征；

可以根据如下公式计算第二上下文连接系数：

表示第三文本特征，x^[CLS]和x^[SEP]是在语言模型BERT中定义的特殊标识符，X^(t)表示尾实体特征；

可以根据如下公式计算第一置信度：

s^c＝P₂；

其中，softmax()表示逻辑回归模型，MLP(·)代表多层感知机，p(·)表示表达学习模型，z、θ是其可学习的参数，c可代表一个三元组的两个部分之间丰富的语义联系，c＝[u；u×v；u-v；v]，取P的第二维的值作为第一置信度s^c；

可以根据如下公式计算第二置信度：

2.根据权利要求1所述方法，其特征在于，所述根据所述目标知识文本与预设的知识图谱生成多个三元组，包括：

获取预设的知识图谱中所有知识类型的知识文本；

3.根据权利要求1所述方法，其特征在于，所述对各个三元组进行计算得到对应的置信度之后，还包括：

4.根据权利要求1所述方法，其特征在于，所述基于所述对应的置信度验证目标三元组，以及根据验证结果补全所述知识图谱，包括：

统计所有的置信度；

确定最大的置信度对应的三元组为目标三元组；

5.根据权利要求3所述方法，其特征在于，可以根据如下公式计算混淆程度估计和得分一致性估计：

其中，x^(ad)表示所述混淆程度估计，x^(sc)表示所述得分一致性估计，Std(V∈R^d×k)∈R^d表示是通过知识表示学习模型计算出的排名在前k名内实体嵌入表示的标准差，Mean(M∈R^k ^×n)∈R^k为排名在前k名内的每个实体与实体集中所有实体进行余弦相似度计算后最高的前n个余弦相似度值的和的平均值，k、n为大于1的整数，s^(tc)表示所述对应的置信度，s^(ge)表示所述参考置信度。

6.根据权利要求3所述方法，其特征在于，可以根据如下公式计算权重参数：

α＝σ(MLP([x^(ad)；x^(sc)]；θ^(α)))∈[0,1]；

7.根据权利要求3所述方法，其特征在于，可以根据如下公式计算更新的置信度：

s^(sa)＝α×s^(tc)+(1-α)×s^(ge)；

8.一种知识图谱补全装置，其特征在于，包括：

获取模块，用于获取待验证的目标知识文本；

计算模块，用于对各个三元组进行计算得到对应的置信度；

补全模块，用于基于所述对应的置信度验证目标三元组，以及根据验证结果补全所述知识图谱；

所述计算模块之前，还包括：

训练集获取模块，用于获取训练集；其中，所述训练集包括正例和负例；

第一损失函数计算模块，用于基于所述训练集计算结构感知三元组编码模型的第一损失函数；

第二损失函数计算模块，用于基于所述训练集计算所述结构感知三元组编码模型的第二损失函数；