CN114064912A

CN114064912A - 数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN114064912A
Application number: CN202111201992.0A
Authority: CN
Inventors: 蒋胜臣; 杨洋
Original assignee: Shanghai Pudong Development Bank Co Ltd
Current assignee: Shanghai Pudong Development Bank Co Ltd
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-02-18

Abstract

本申请涉及一种数据处理方法、装置、计算机设备和存储介质。所述方法包括：根据待补全三元组中的头实体及知识图谱，构建知识子图，所述知识子图中包括n个三元组，各所述三元组的头实体与所述头实体之间的关系长度小于或者等于关系长度阈值；根据所述知识子图中与所述头实体的关系长度为1的关联实体，构造所述头实体对应的实体信息；获取所述待补全三元组中的关系的描述文本信息；根据所述实体信息、所述描述文本信息以及所述知识子图进行实体预测，得到所述待补全三元组的尾实体。采用本方法能够提高预测精度。

Description

数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及知识图谱技术领域，特别是涉及一种数据处理方法、装置、计算机设备和存储介质。

背景技术

近年来，随着互联网技术的快速发展，大量有价值的知识信息层出不穷，如何归纳、组织、并对其进行深入的分析成为人们关注的焦点。知识图谱将三元组作为其基本组成单位，以图的结构存储知识信息。

KBC(Knowledge Base Completion，知识图谱补全)是KG(Knowledge Graph,知识图谱)的一个重要研究方向，在多个方面都有重要的实用价值和研究意义，其目的是经过推理，从知识库中已有知识中发现隐藏的新知识，以补全三元组。知识图谱补全与知识图谱构建、信息检索、推荐系统、问答系统等多种任务有着密切的联系。

在面对不同场景下的知识补全任务时，即使是相同的实体、关系也都有不同的作用，也即在不同场景的知识补全任务中，采用同一个待补全三元组的头实体及关系进行预测，理论上应该得到不同的尾实体。但相关技术在进行知识图谱补全时，只是计算不同实体、关系在整个知识图谱中的表示，导致尾实体的预测精度低，进而导致知识图谱的补全精度低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高预测精度的数据处理方法、装置、计算机设备和存储介质。

一种数据处理方法，所述方法包括：

根据待补全三元组中的头实体及知识图谱，构建知识子图，所述知识子图中包括n个三元组，各所述三元组的头实体与所述头实体之间的关系长度小于或者等于关系长度阈值；

根据所述知识子图中与所述头实体的关系长度为1的关联实体，构造所述头实体对应的实体信息；

获取所述待补全三元组中的关系的描述文本信息；

根据所述实体信息、所述描述文本信息以及所述知识子图进行实体预测，得到所述待补全三元组的尾实体。

在一种可能的实现方式中，通过三元组预测网络实现根据所述实体信息、所述描述文本信息以及所述知识子图进行实体预测，得到所述待补全三元组的尾实体，所述三元组预测网络包括特征提取网络及预测网络；

根据所述实体信息、所述描述文本信息以及所述知识子图进行实体预测，得到所述待补全三元组的尾实体，包括：

通过所述特征提取网络对所述实体信息、所述描述文本信息以及所述知识子图进行特征提取，得到所述待补全三元组的特征向量表示；

通过所述预测网络对所述特征向量表示进行预测处理，得到所述待补全三元组的尾实体。

在其中一个实施例中，所述特征提取网络包括第一网络及K个第二网络；

所述通过所述特征提取网络对所述实体信息、所述描述文本信息以及所述知识子图进行特征提取，得到所述待补全三元组的特征向量表示，包括：

通过所述第一网络对所述实体信息、所述描述文本信息进行向量化处理，得到所述待补全三元组的第一初始向量表示；

通过所述第一网络对所述知识子图中的各三元组进行向量化处理，得到各所述三元组的第二初始向量表示；

通过第1个所述第二网络对所述第一初始向量表示及第二初始向量表示进行融合处理，得到所述待补全三元组的第1特征向量表示；

通过第i个第二网络对所述待补全三元组的第i-1特征向量表示及所述第二初始向量表示进行融合处理，得到第i特征向量表示，其中，i为小于或者等于K的正整数，K为正整数；

将第K特征向量表示作为所述待补全三元组的特征向量表示。

在其中一个实施例中，所述第二网络包括第一向量网络、第二向量网络及融合网络，所述通过第i个第二网络对所述待补全三元组的第i-1特征向量表示及所述第二初始向量表示进行融合处理，得到所述待补全三元组的第i特征向量表示，包括：

通过所述第一向量网络分别对各所述第二初始向量表示进行融合处理，得到所述知识子图的知识向量表示；

根据所述第二向量网络分别对各所述第二初始向量表示进行融合处理，得到所述知识子图的特征向量表示；

通过所述特征融合网络对所述第i-1特征向量表示、所述知识子图的知识向量表示及所述知识子图的特征向量表示进行融合处理，得到第i特征向量表示。

在其中一个实施例中，所述通过所述特征融合网络对所述第i-1特征向量表示、所述知识子图的知识向量表示及所述知识子图的特征向量表示进行融合处理，得到第i特征向量表示，包括：

所述特征融合网络对所述第i-1特征向量表示、所述知识子图的知识向量表示及所述知识子图的特征向量表示进行融合处理，得到第i融合特征表示；

所述特征融合网络将所述第i-1特征向量表示与所述第i融合特征表示相加，得到所述第i特征向量表示。

在其中一个实施例中，所述方法还包括：

采用预构建的训练集训练所述三元组预测网络，所述训练集中包括多个样本组，所述样本组中包括样本三元组及样本三元组对应的样本知识子图；

所述采用预构建的训练集训练所述三元组预测网络，包括：

通过所述三元组预测网络的第一网络对所述样本三元组中的样本头实体对应的实体信息、及所述样本三元组中的样本关系的描述文本信息进行向量化处理，得到所述样本三元组的第一样本初始向量表示；

通过所述第一网络对所述样本知识子图中的各三元组进行向量化处理，得到样本知识子图中的各三元组的第二样本初始向量表示；

通过K个所述第二网络对所述第一样本初始向量表示及第二样本初始向量表示进行融合处理，得到所述样本三元组的样本特征向量表示；

通过所述预测网络对所述样本特征向量表示进行预测处理，得到所述样本三元组的预测尾实体；

根据所述样本三元组的预测尾实体及所述样本三元组的样本尾实体，训练所述三元组预测网络。

在其中一个实施例中，所述根据所述样本三元组的预测尾实体及所述样本三元组的样本尾实体，训练所述三元组预测网络，包括：

根据所述样本三元组的预测尾实体及所述样本三元组的样本头实体及样本关系建立预测样本三元组；

确定所述预测样本三元组为真实三元组的概率；

根据所述预测样本三元组为真实三元组的概率及所述预测样本三元组，确定所述预测样本三元组中所述样本头实体的第一概率、所述样本关系的第二概率、及所述预测尾实体的第三概率；

根据所述第一概率、所述第二概率及所述第三概率，得到所述预测样本三元组的可信度分值；

根据所述可信度分值确定所述第一网络的网络损失；

根据所述网络损失训练所述第一网络。

在其中一个实施例中，所述样本三元组包括正样本三元组及与所述正样本三元组对应的负样本三元组，所述根据所述可信度分值确定所述第一网络的网络损失，包括：

确定所述正样本三元组与对应的所述负样本三元组的语义鸿沟；

根据所述正样本三元组与对应的所述负样本三元组的语义鸿沟、所述正样本三元组的可信度得分值、及对应的所述负样本三元组的可信度得分值，确定所述第一网络的网络损失。

一种数据处理装置，所述装置包括：

构建模块，被配置为执行根据待补全三元组中的头实体及知识图谱，构建知识子图，所述知识子图中包括n个三元组，各所述三元组的头实体与所述头实体之间的关系长度小于或者等于关系长度阈值；

构造模块，被配置为执行根据所述知识子图中与所述头实体的关系长度为1的关联实体，构造所述头实体对应的实体信息；

获取模块，被配置为执行获取所述待补全三元组中的关系的描述文本信息；

预测模块，被配置为执行根据所述实体信息、所述描述文本信息以及所述知识子图进行实体预测，得到所述待补全三元组的尾实体。

在其中一个实施例中，所述装置通过三元组预测网络实现根据所述实体信息、所述描述文本信息以及所述知识子图进行实体预测，得到所述待补全三元组的尾实体，所述三元组预测网络包括特征提取网络及预测网络；

所述预测模块还被配置为执行：

在其中一个实施例中，所述特征提取网络包括第一网络及K个第二网络；所述预测模块还被配置为执行：

将第K特征向量表示作为所述待补全三元组的特征向量表示。

在其中一个实施例中，所述第二网络包括第一向量网络、第二向量网络及融合网络，所述预测模块还被配置为执行：

在其中一个实施例中，所述预测模块还被配置为执行：

在其中一个实施例中，所述装置还包括：

训练模块，被配置为执行采用预构建的训练集训练所述三元组预测网络，所述训练集中包括多个样本组，所述样本组中包括样本三元组及样本三元组对应的样本知识子图；

所述训练模块，还被配置为执行：

在其中一个实施例中，所述训练模块，还被配置为执行：

确定所述预测样本三元组为真实三元组的概率；

根据所述可信度分值确定所述第一网络的网络损失；

根据所述网络损失训练所述第一网络。

在其中一个实施例中，所述样本三元组包括正样本三元组及与所述正样本三元组对应的负样本三元组，所述训练模块，还被配置为执行：

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取所述待补全三元组中的关系的描述文本信息；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取所述待补全三元组中的关系的描述文本信息；

上述数据处理方法、装置、计算机设备和存储介质，可以根据待补全三元组中的头实体及知识图谱，构建知识子图，该知识子图中的实体与头实体之间的关系长度小于或者等于关系长度阈值。根据知识子图中与头实体的关系长度为1的关联实体，构造头实体对应的实体信息，并获取待补全三元组中的关系的描述文本信息。进而根据实体信息、描述文本信息以及知识子图进行实体预测，得到待补全三元组的尾实体。进而根据该尾实体及待补全三元组得到补全后的三元组，根据补全后的三元组补全知识图谱。基于本公开实施例提供的数据处理方法、装置、计算机设备和存储介质，基于待补全三元组的知识子图对待补全三元组进行尾实体的预测，通过知识子图可以在尾实体的预测过程中融入该知识图谱的内部复杂逻辑，可以提高尾实体的预测精度，进而可以提高知识图谱的补全精度。

附图说明

图1为一个实施例中数据处理方法的流程示意图；

图2为一个实施例中数据处理方法的流程示意图；

图3为一个实施例中特征提取网络的结构示意图；

图4为一个实施例中数据处理方法的流程示意图；

图5为一个实施例中数据处理方法的流程示意图；

图6为一个实施例中数据处理方法的流程示意图；

图7为一个实施例中数据处理方法的流程示意图；

图8为一个实施例中数据处理方法的流程示意图；

图9为一个实施例中数据处理方法的流程示意图；

图10为一个实施例中数据处理方法的示意图；

图11为一个实施例中数据处理方法的示意图；

图12为一个实施例中数据处理装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种数据处理方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤102，根据待补全三元组中的头实体及知识图谱，构建知识子图，知识子图中包括n个三元组，各三元组的头实体与头实体之间的关系长度小于或者等于关系长度阈值。

举例来说，待补全三元组中包括已知的头实体、关系及未知的待预测的尾实体，例如：待补全三元组为(诸葛亮—军师—？)，其中“诸葛亮”为待补全三元组的头实体，“军师”为待补全三元组的关系，“？”为待补全三元组中未知的待预测的尾实体。

可以根据该待补全三元组中的头实体及知识图谱构建知识子图。示例性的，可以确定知识图谱中与该头实体之间的关系长度小于或者等于关系长度阈值的实体对应的三元组，并从中选择n个三元组构建知识子图。其中，关系长度阈值为预设的关系长度值，可以根据补全需求进行取值，例如：在知识子图中以头实体为中心的关系路径的长度为4的情况下，可以设置关系长度阈值为2。

其中，关系长度可以为两个实体的关系路径中包括的关系的数量，例如：实体1—关系1—实体2—关系2—实体3—关系3—实体4—关系4—实体5，关系路径中包括：关系1、关系2、关系3和关系4共4个关系(关系1、关系2、关系3和关系4可以相同也可以不同，本公开实施例对此不做具体限定)，则关系长度确定为4。

例如：假设关系长度阈值设置为2，可以根据待补全三元组的实体信息，从知识图谱中提取出以待补全三元组的头实体为中心、关系长度为4的子图，并从中选择n个三元组组成知识子图。如果该子图中不足n个三元组，则将以该头实体为中心的所有三元组都放入其知识子图中，并通过填充空三元组，补足n个三元组。

步骤104，根据知识子图中与头实体的关系长度为1的关联实体，构造头实体对应的实体信息。

举例来说，可以根据知识子图中与头实体的关系长度为1的关联实体，构造头实体对应的实体信息，也即将知识子图中所有包括该头实体的三元组中除该头实体之外的另一实体提取出来，构成头实体对应的实体信息，包括：在三元组中该头实体作为头实体的情况下，将该三元组的尾实体提取出来，或者在三元组中该头实体作为尾实体的情况下，将该三元组的头实体提取出来。

步骤106，获取待补全三元组中的关系的描述文本信息。

举例来说，可以将对待补全三元组中的关系进行描述解释的语句等信息作为该待补全三元组中的关系的描述文本信息。示例性的，可以将该关系作为关键词在互联网等场景(例如：维基百科等外部知识库)中进行查询，得到该关系的描述文本信息，或者可以预先维护关系库，该关系库中可以存储有关系对应的描述文本信息，进而可以从关系库中获取该关系的描述文本信息。

步骤108，根据实体信息、描述文本信息以及知识子图进行实体预测，得到待补全三元组的尾实体。

举例来说，在得到头实体的实体信息、关系的描述文本信息及知识子图后，可以采用实体信息、描述文本信息以及知识子图进行实体预测，预测得到待补全三元组的尾实体。示例性的，可以采用预训练的用于进行尾实体预测的神经网络对实体信息、描述文本信息以及知识子图进行实体预测，得到待补全三元组的尾实体，本公开实施例中对该神经网络的网络结构不做具体限定，凡是可以对实体信息、描述文本信息以及知识子图进行实体预测，得到待补全三元组的尾实体的神经网络均适用本公开实施例中。

上述数据处理方法，可以根据待补全三元组中的头实体及知识图谱，构建知识子图，该知识子图中的实体与头实体之间的关系长度小于或者等于关系长度阈值。根据知识子图中与头实体的关系长度为1的关联实体，构造头实体对应的实体信息，并获取待补全三元组中的关系的描述文本信息。进而根据实体信息、描述文本信息以及知识子图进行实体预测，得到待补全三元组的尾实体。进而根据该尾实体及待补全三元组得到补全后的三元组，根据补全后的三元组补全知识图谱。基于本公开实施例提供的数据处理方法，基于待补全三元组的知识子图对待补全三元组进行尾实体的预测，通过知识子图可以在尾实体的预测过程中融入该知识图谱的内部复杂逻辑，可以提高尾实体的预测精度，进而可以提高知识图谱的补全精度。

在一个实施例中，通过三元组预测网络实现根据实体信息、描述文本信息以及知识子图进行实体预测，得到待补全三元组的尾实体，三元组预测网络包括特征提取网络及预测网络。

如图2所示，步骤108中，根据实体信息、描述文本信息以及知识子图进行实体预测，得到待补全三元组的尾实体，具体可以包括：

步骤202，通过特征提取网络对实体信息、描述文本信息以及知识子图进行特征提取，得到待补全三元组的特征向量表示；

步骤204，通过预测网络对特征向量表示进行预测处理，得到待补全三元组的尾实体。

本公开实施例中，三元组预测网络可以包括特征提取网络及预测网络，其中特征提取网络可以用于提取特征向量表示，预测网络可以用于对特征向量表示进行预测处理，得到预测的尾实体。

可以将实体信息、描述文本信息以及知识子图作为特征提取网络的输入信息，特征提取网络的输出即为待补全三元组的特征向量表示，并将该特征向量表示作为预测网络的输入信息，预测网络的输出为预测的待补全三元组的尾实体。

在一个实施例中，参照图3所示，特征提取网络包括第一网络及K个第二网络，如图4所述，步骤202中，通过特征提取网络对实体信息、描述文本信息以及知识子图进行特征提取，得到待补全三元组的特征向量表示，具体可以包括：

步骤402，通过第一网络对实体信息、描述文本信息进行向量化处理，得到待补全三元组的第一初始向量表示；

步骤404，通过第一网络对知识子图中的各三元组进行向量化处理，得到各三元组的第二初始向量表示；

步骤406，通过第1个第二网络对第一初始向量表示及第二初始向量表示进行融合处理，得到待补全三元组的第1特征向量表示；

步骤408，通过第i个第二网络对待补全三元组的第i-1特征向量表示及第二初始向量表示进行融合处理，得到第i特征向量表示，其中，i为小于或者等于K的正整数，K为正整数；

步骤410，将第K特征向量表示作为待补全三元组的特征向量表示。

本公开实施例中，特征提取网络包括第一网络及K个第二网络。

示例性的，第一网络可以包括CNN(Convolutional Neural Networks，卷积神经网络)及LSTM(Long Short-Term Memory，长短期记忆网络)，可以将实体信息及描述文本信息分别通过CNN进行向量化处理，得到实体信息对应的向量表示及描述文本信息对应的向量表示，并通过LSTM对实体信息对应的向量表示及描述文本信息对应的向量表示进行预测，得到待补全三元组的第一初始向量表示。

其中，本公开实施例中头实体信息的向量表示可以标记为uh，描述文本信息的向量表示可以标记为ur，待补全三元组的第一初始向量表示可以标记为uq，其中，uq＝LSTM(uh，ur)，uh＝(x₁，x₂，……x_m)，其中x_i表示头实体的实体信息中的第i个关联实体的向量表示，m表示关联实体的总数，ur＝(z₁，z₂，……z_y)，其中z_j表示描述文本信息中的第j个词的向量表示，y表示描述文本信息中词的总数。

需要说明的是，第一网络包括CNN和LSTM仅作为本公开实施例的一种示例，实际上任一可实现上述处理过程的网络均适用于本公开实施例，例如：GUR等网络，本公开实施例对此不做具体限定。

通过第一网络对知识子图中的各三元组进行向量化处理，可以得到各三元组的第二初始向量表示，具体处理过程参照前述对待补全三元组的向量化处理过程即可，本公开实施例在此不再赘述。

在得到待补全三元组的第一初始向量表示及各三元组对应的第二初始向量表示之后，可以通过第1个第二网络对第一初始向量表示及各第二初始向量表示进行融合处理，得到待补全三元组的第1特征向量表示。

将第1特征向量表示及各第二初始向量表示作为第2个第二网络的输入信息，以此类推，直至将第K-1个第二网络的输出第K-1特征向量表示及各第二初始向量表示作为第K个第二网络的输入信息，得到待补全三元组的第K特征向量表示，进而将该第K特征向量表示作为待补全三元组的特征向量表示，将该待补全三元组的特征向量表示输入预测网络进行预测处理，可以预测得到待补全三元组的尾实体。

在一个实施例中，第二网络可以包括第一向量网络、第二向量网络及融合网络。参照图5，步骤408中，通过第i个第二网络对待补全三元组的第i-1特征向量表示及第二初始向量表示进行融合处理，得到待补全三元组的第i特征向量表示，具体可以包括：

步骤502，通过第一向量网络分别对各第二初始向量表示进行融合处理，得到知识子图的知识向量表示；

步骤504，根据第二向量网络分别对各第二初始向量表示进行融合处理，得到知识子图的特征向量表示；

步骤506，通过特征融合网络对第i-1特征向量表示、知识子图的知识向量表示及知识子图的特征向量表示进行融合处理，得到第i特征向量表示。

本公开实施例中，第二网络可以包括第一向量网络、第二向量网络和融合网络，其中第一向量网络用于对各第二初始向量表示进行融合处理，得到知识子图的知识向量表示，第二向量网络用于对各第二初始向量表示进行融合处理，得到知识子图的特征向量表示，特征融合网络用于对第i-1特征向量表示、知识子图的知识向量表示及知识子图的特征向量表示进行融合处理，得到待补全三元组的第i特征向量表示。

示例性的，第一向量网络的实现过程具体可以参照公式(一)所示。

a_d＝[a_d，1，a_d，2，...，a_d，p] 公式(一)

其中，其中m_d∈R^3×p表示知识子图中第d个三元组的第二初始向量表示，p表示向量维数，j＝(1，2，...，p)；W_input∈R^3×p是可学习的权重矩阵；W_a∈R^3×1是知识表示矩阵，W_ak，：表示W_a中第k行。每个三元组的第二初始向量表示通过第一向量网络可以融合成一个向量a_d，作为其知识向量表示。将知识子图中所有三元组的知识向量表示组成知识子图的知识向量表示A＝{a₁，a₂，...，a_n}，其中n为知识子图中三元组的个数。

第二向量网络的的具体实现过程可以参照公式(二)所示。

c_d＝[c_d，1，c_d，2，...，c_d，p] 公式(二)

其中W_output∈R^3×p是可学习的权重矩阵；W_c∈R^3×1是知识表示矩阵，W_ck，：表示W_c中第k行。每个三元组的第二初始向量表示通过第二向量网络可以融合成一个向量c_d，作为其特征向量表示。将知识子图中所有三元组的特征向量表示组成知识子图的特征向量表示C＝{c₁，c₂，...，c_n}。

在本公开实施例中，充分考虑了知识子图对待补全三元组的特征向量表示及其预测结果的不同影响，W_a和W_c分别用于提取两个不同方面的特征。

在得到知识子图的知识向量表示A和特征向量表示C之后，可以通过融合网络对特征向量表示C、知识向量表示A和第i-1特征向量表示进行融合，得到待补全三元组的第i特征向量表示。

示例性的，特征融合网络可以确定知识子图的知识向量表示A与待补全三元组的第i-1特征向量表示uq_i-1(在i＝1的情况下，也即在第1个第二网络中，待补全三元组的第i-1特征向量表示为uq)的匹配程度，具体执行过程可以参照公式(三)。

P＝Softmax(uq_i-sA^T) 公式(三)

其中，P用于表示知识子图的知识向量表示A与待补全三元组的第i-1特征向量表示uq_i-1的匹配概率。

在得到匹配概率P之后，特征融合网络可以对匹配概率P与之前得到的知识子图的特征向量表示C进行加权求和，具体实现过程可以参照公式(四)。

其中o_i表示输出的第i融合特征表示，融合网络可以直接将该oi作为待补全三元组的第i特征向量表示。

在一个实施例中，参照图6所示，步骤506中，通过特征融合网络对第i-1特征向量表示、知识子图的知识向量表示及知识子图的特征向量表示进行融合处理，得到第i特征向量表示，具体可以包括：

步骤602，特征融合网络对第i-1特征向量表示、知识子图的知识向量表示及知识子图的特征向量表示进行融合处理，得到第i融合特征表示；

步骤604，特征融合网络将第i-1特征向量表示与第i融合特征表示相加，得到所述第i特征向量表示。

本公开实施例中，特征融合网络通过上述公式(三)及公式(四)将输出信息矩阵融合成一个第i融合特征表示o_i，将第i融合特征表示o_i与待补全三元组的第i-1特征向量表示进行相加，得到待补全三元组的第i特征向量表示，也即第i特征向量标识uq_i＝uq_i-1+o_i。

示例性的，本公开实施例中通过布置K个第二网络，以实现采用多跳注意力机制实现注意力机制的多轮处理，在第i个推理步(即第i个第二网络中)将获得第i融合特征表示o_i与待补全三元组的第i-1特征向量表示进行相加，获得待补全三元组在第i个推理步中的第i特征向量表示。例如：在i＝1时，对应的第1特征向量表示uq₁＝uq+o₁，在i＝2时，对应的第2特征向量表示uq₂＝uq₁+o₂，……，对应的第K特征向量表示uq_k＝uq_k-l+o_k。

同时，为了使每一推理步都提取出新的特征信息，避免推理过程只是简单的重复操作，本公开实施例在每一推理步的知识推理过程中都设置了全新的权重矩阵，W_a、W_c、W_input、W_output。同时为了减少网络参数，提高网络训练速度，以及突出推理过程的有序性，本公开实施例中建立了网络参数之间的有关性：

其中，i表示第i个第二网络对应的第i个推理步。

表示第i+1个第二网络中的第一向量网络中的W_a、

表示第i个第二网络中的第二向量网络中的W_c、

表示第i+1个第二网络中的第一向量网络中的W_input、

表示第i个第二网络中的第二向量网络中的W_output。

经过K步推理，获得最终待补全三元组的特征向量表示uq_k，并通过最终的预测网络(可以包括权重矩阵和Softmax函数)进行预测，得到待补全三元组的尾实体，进而根据预测的尾实体对待补全三元组进行补全后，根据补全后得到的三元组对知识图谱进行补全，获得知识补全结果。

示例性的，预测网络的具体实现过程可以参照公式(五)所示。

其中，

可以表示预测网络的预测结果，W为可学习的权重矩阵。

本公开实施例中通过不同的权重矩阵进行多步推理计算，在K步推理过程中提取不同的知识信息特征，以获得信息更加丰富的待补全三元组的特征向量表示，可以提高其在面向复杂的知识图谱补全时的补全效果。

在一个实施例中，上述数据处理方法还可以包括：采用预构建的训练集训练三元组预测网络，训练集中包括多个样本组，样本组中包括样本三元组及样本三元组对应的样本知识子图；

参照图7所示，上述采用预构建的训练集训练三元组预测网络，具体可以包括：

步骤702，通过三元组预测网络的第一网络对样本三元组中的样本头实体对应的实体信息、及样本三元组中的样本关系的描述文本信息进行向量化处理，得到样本三元组的第一样本初始向量表示；

步骤704，通过第一网络对样本知识子图中的各三元组进行向量化处理，得到样本知识子图中的各三元组的第二样本初始向量表示；

步骤706，通过K个第二网络对第一样本初始向量表示及第二样本初始向量表示进行融合处理，得到样本三元组的样本特征向量表示；

步骤708，通过预测网络对样本特征向量表示进行预测处理，得到样本三元组的预测尾实体；

步骤710，根据样本三元组的预测尾实体及样本三元组的样本尾实体，训练三元组预测网络。

本公开实施例中，可以根据数据集构建知识图谱，进而根据知识图谱构建样本组，具体可以从知识图谱中提取多个三元组作为样本三元组，并为各样本三元组构建对应的样本知识子图，并根据各样本三元组及各样本三元组对应的样本知识子图构建多个样本组，根据多个样本组组成训练集。其中，样本知识子图的构建过程参照前述实施例中的相关描述即可，本公开实施例在此不再赘述。

三元组预测网络包括第一网络和K个第二网络，可以通过第一网络对样本三元组中的样本头实体对应的实体信息、样本三元组中的样本关系对应的描述文本信息进行向量化处理，得到样本三元组的第一样本初始向量表示。同样的，采用第一网络对样本知识子图中的各三元组进行向量化处理，得到样本知识子图中的各三元组的第二样本初始向量表示。

通过K个第二网络对第一样本初始向量表示及第二样本初始向量标识进行融合处理，得到样本三元组的样本特征向量表示，进而通过预测网络对该样本三元组的样本特征向量表示进行预测处理，得到样本三元组的预测尾实体。针对样本三元组的预测过程参照前述实施例的相关描述即可，本公开实施例在此不再赘述。

通过该样本三元组的预测尾实体及样本三元组中包括的样本尾实体，可以计算三元组预测网络的网络损失，进而可以根据该网络损失训练三元组预测网络。示例性的，在网络损失不满足训练要求(例如：网络损失大于损失阈值)的情况下，可以调整三元组预测网络的网络参数，直至网络损失满足训练要求(例如：网络损失小于或者等于损失阈值)的情况下，停止训练，得到训练后的三元组预测网络。

在一个实施例中，参照图8所示，上述步骤710，根据样本三元组的预测尾实体及样本三元组的样本尾实体，训练三元组预测网络，具体可以包括：

步骤802，根据样本三元组的预测尾实体及样本三元组的样本头实体及样本关系建立预测样本三元组；

步骤804，确定预测样本三元组为真实三元组的概率；

步骤806，根据预测样本三元组为真实三元组的概率及预测样本三元组，确定预测样本三元组中样本头实体的第一概率、所样本关系的第二概率、及预测尾实体的第三概率；

步骤808，根据第一概率、第二概率及第三概率，得到预测样本三元组的可信度分值；

步骤810，根据可信度分值确定第一网络的网络损失；

步骤812，根据所网络损失训所述第一网络。

本公开实施例中，在三元组预测网络的训练过程中，可以分别计算第一网络的网络损失训练第一网络，及计算K个第二网络及预测网络的网络损失训练第二网络及预测网络。

其中，在得到预测尾实体后，可以根据样本头实体、样本关系及预测尾实体构建预测样本三元组(样本头实体—样本关系—预测尾实体)。并确定预测样本三元组为真实三元组的概率，具体过程可以参照公式(六)。

其中，z(h,r,t)用于表示预测样本三元组为真实三元组的概率，b是调节距离的参数，h表示样本头实体，r表示样本关系，t表示预测尾实体。

在得到预测样本三元组为真实三元组的概率之后，可以根据预测样本三元组为真实三元组的概率及预测样本三元组，确定预测样本三元组中样本头实体的第一概率、样本关系的第二概率及预测尾实体的第三概率，具体过程可以参照下述公式(七)。

其中，P(h|r，t)表示第一概率，P(r|h，t)表示第二概率，P(t|h，r)表示第三概率。

表示样本知识子图中除h以外的头实体，

表示样本知识子图中除r以外的关系，

表示样本知识子图中除t以外的尾实体。

在得到预测样本三元组中样本头实体的第一概率、样本关系的第二概率及预测尾实体的第三概率后，可以将第一概率、第二概率及第三概率的均值作为预测样本三元组的可信度分值，具体过程可以参照公式(八)。

其中，f(h，r，t)用于表示预测样本三元组的可信度分值。

在得到预测样本三元组的可信度分值后，可以根据该可信度分值确定第一网络的网络损失，进而根据该第一网络的网络损失训练该第一网络。示例性的，在网络损失不满足第一网络的训练要求(第一网络的网络损失大于第一网络的网络损失阈值)的情况下，可以调整第一网络的网络参数，直至第一网络的网络损失满足第一网络的训练要求(第一网络的网络损失小于或者等于第一网络的网络损失阈值)，停止训练第一网络，得到训练后的第一网络。

在一个实施例中，样本三元组包括正样本三元组及与所述正样本三元组对应的负样本三元组，参照图9，上述步骤810中，根据可信度分值确定第一网络的网络损失，具体可以包括：

步骤902，确定正样本三元组与对应的负样本三元组的语义鸿沟；

步骤904，根据正样本三元组与对应的负样本三元组的语义鸿沟、正样本三元组的可信度得分值、及对应的负样本三元组的可信度得分值，确定第一网络的网络损失。

本公开实施例中，第一网络的训练依赖正样本三元组和负样本三元组，知识图谱中提取的样本三元组中只有正样本三元组。本公开实施例中可以采用随机替换头实体、尾实体的方式构造负样本三元组。同时为了防止同时替换掉头实体、尾实体，使得构造出的三元组仍然是正样本三元组的情况出现，在构造负样本三元组时，随机替换头实体或者尾实体中的一个，进而构造得到正样本三元组对应的负样本三元组。

针对任一负样本三元组，确定各负样本三元组的可信度分值，具体过程可以参照前述确定样本三元组的可信度分值的相应描述即可，本公开实施例在此不再赘述。

示例性的，对于正样本三元组，例如：(中国-首都-北京)，不同的负样本三元组(中国-首都-上海)和(中国-首都-浦发)与正样本三元组之间应具有不同的距离差，也即具有不同的语义鸿沟。

本公开实施例中可以确定正样本三元组与对应的各负样本三元组的语义鸿沟，具体过程可以参照下述公式(九)。

其中，d((h，r，t)，(h′，r，t′))表示正样本三元组与对应的负样本三元组的语义鸿沟，h′和t′分别用于表征不同的负样本三元组中的头实体和尾实体，E_h和E_t正样本三元组中的样本头实体和样本尾实体的词向量表示，E_h′和E_t′分别用于表示负样本三元组中的样本头实体和样本尾实体的词向量表示。

将语义鸿沟作为语义正则约束条件与第一网络的可信度分值相结合，可以得到融合语义信息的第一网络的损失函数，可以参照下述公式(十)。

其中μ表示一个正样本三元组；ξ是正样本三元组集合，ζ′_μ是正样本三元组μ的负样本集合；γ是边缘系数；L表示第一网络的网络损失。同时为了使得损失值稳定，本公开实施例中设定d(μ，μ′)≥0.2，即当语义鸿沟小于0.2时，取值为0.2，大于0.2时，取原值。第一网络通过合页损失函数不断调整实体、关系的向量表示，尽可能的将正样本三元组和负样本三元组分开。通过调整实体、关系的向量表示，使得网络损失不断变小，最终第一网络趋于稳定，通过该第一网络可以得到蕴含语义信息的向量表示。

本公开实施例将语义信息融入第一网络中，也即融合推理过程训练第一网络，可以得到具有语义信息的第一网络，可以提高对向量表示的精度，同时增加了对知识信息内部复杂逻辑进行建模的过程，提高了三元组预测网络在复杂知识图谱补全任务上的效果，也增强了网络的可解释性。

针对第二网络及预测网络的训练，可以在得到预测的尾实体后，通过预测的尾实体计算第二网络及预测网络的网络损失，并根据网络损失训练第二网络及预测网络，第二网络及预测网络的网络损失的确定过程可以参照下述公式(十一)。

其中，

用于表示第二网络及预测网络的网络损失，e^(s)表示第s个正样本三元组的预测结果，

表示第s个正样本三元组对应的负样本三元组对应的预测结果，N为正样本三元组的总数。

为使本领域技术人员更好的理解本公开实施例，以下通过具体示例对本公开实施例加以说明。

参照图10和图11所示，可以从知识图谱中获取待补全三元组对应的知识子图，并通过第一网络对待补全三元组进行向量化处理，得到对应的第一初始向量表达uq，及通过第一网络对知识子图中的三元组进行向量化处理，得到各三元组对应的第二初始向量表达。本公开实施例中包括3个推理步，也即包括3个第二网络。在第一推理步中通过第1个第二网络对第一初始向量表达及第二初始向量表达进行融合后得到o₁，将o₁与uq进行叠加得到uq₁，在第二推理步中通过第2个第二网络对uq₁及第二初始向量表达进行融合后得到o₂，将o₂与uq₁进行叠加得到uq₂，在第三推理步中通过第3个第二网络对uq₂及第二初始向量表达进行融合后得到o₃，将o₃与uq₂进行叠加得到uq₃。将uq₃输入预测网络中进行预测处理，可以得到预测结果，也即得到待补全三元组的预测尾实体，根据该预测尾实体补全该待补全三元组后，实现对知识图谱的补全。

本公开实施例提供了一种数据处理方法。首先，可以将语义信息整合到第一网络中，并通过语义鸿沟增强正负三元组的可信度得分，从而获得具有语义信息的向量表示；其次，本公开实施例利用CNN将待补全三元组中的头实体的实体信息和关系的描述文本信息转换为实体和关系的矢量表示，并将它们输入LSTM网络中以获得待补全三元组的向量表示，同时将构建的知识子图作为知识信息存储在外部存储单元中后，通过融合知识子图中的每个三元组的向量表示来形成知识向量表示矩阵(A)和特征向量表示矩阵(C)；最后，利用多跳注意力机制对知识信息的复杂内部逻辑进行建模，以预测到待补全三元组的尾实体，进而根据预测的尾实体对待补全三元组进行补全。

本公开实施例中增加了对推理过程的研究，不仅可以在知识补全过程中融合更多的知识信息，提高三元组预测网络在复杂的知识图谱补全方面的效果，而且可以增加三元组预测的可解释性。

应该理解的是，虽然图1-11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-11中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种数据处理装置，包括：构建模块1202、构造模块1204、获取模块1206和预测模块1208，其中：

构建模块1202，被配置为执行根据待补全三元组中的头实体及知识图谱，构建知识子图，所述知识子图中包括n个三元组，各所述三元组的头实体与所述头实体之间的关系长度小于或者等于关系长度阈值；

构造模块1204，被配置为执行根据所述知识子图中与所述头实体的关系长度为1的关联实体，构造所述头实体对应的实体信息；

获取模块1206，被配置为执行获取所述待补全三元组中的关系的描述文本信息；

预测模块1208，被配置为执行根据所述实体信息、所述描述文本信息以及所述知识子图进行实体预测，得到所述待补全三元组的尾实体。

上述数据处理装置，可以根据待补全三元组中的头实体及知识图谱，构建知识子图，该知识子图中的实体与头实体之间的关系长度小于或者等于关系长度阈值。根据知识子图中与头实体的关系长度为1的关联实体，构造头实体对应的实体信息，并获取待补全三元组中的关系的描述文本信息。进而根据实体信息、描述文本信息以及知识子图进行实体预测，得到待补全三元组的尾实体。进而根据该尾实体及待补全三元组得到补全后的三元组，根据补全后的三元组补全知识图谱。基于本公开实施例提供的数据处理装置，基于待补全三元组的知识子图对待补全三元组进行尾实体的预测，通过知识子图可以在尾实体的预测过程中融入该知识图谱的内部复杂逻辑，可以提高尾实体的预测精度，进而可以提高知识图谱的补全精度。

在其中一个实施例中，上述装置通过三元组预测网络实现根据所述实体信息、所述描述文本信息以及所述知识子图进行实体预测，得到所述待补全三元组的尾实体，所述三元组预测网络包括特征提取网络及预测网络；

所述预测模块1208还被配置为执行：

在其中一个实施例中，所述特征提取网络包括第一网络及K个第二网络；所述预测模块1208还被配置为执行：

将第K特征向量表示作为所述待补全三元组的特征向量表示。

在其中一个实施例中，所述第二网络包括第一向量网络、第二向量网络及融合网络，所述预测模块1208还被配置为执行：

在其中一个实施例中，所述预测模块1208还被配置为执行：

在其中一个实施例中，所述装置还包括：

所述训练模块，还被配置为执行：

在其中一个实施例中，所述训练模块，还被配置为执行：

确定所述预测样本三元组为真实三元组的概率；

根据所述可信度分值确定所述第一网络的网络损失；

根据所述网络损失训练所述第一网络。

关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定，在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取所述待补全三元组中的关系的描述文本信息；

2.根据权利要求1所述的方法，其特征在于，通过三元组预测网络实现根据所述实体信息、所述描述文本信息以及所述知识子图进行实体预测，得到所述待补全三元组的尾实体，所述三元组预测网络包括特征提取网络及预测网络；

3.根据权利要求2所述的方法，其特征在于，所述特征提取网络包括第一网络及K个第二网络；

将第K特征向量表示作为所述待补全三元组的特征向量表示。

4.根据权利要求3所述的方法，其特征在于，所述第二网络包括第一向量网络、第二向量网络及融合网络，所述通过第i个第二网络对所述待补全三元组的第i-1特征向量表示及所述第二初始向量表示进行融合处理，得到所述待补全三元组的第i特征向量表示，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过所述特征融合网络对所述第i-1特征向量表示、所述知识子图的知识向量表示及所述知识子图的特征向量表示进行融合处理，得到第i特征向量表示，包括：

6.根据权利要求3至5中任一项所述的方法，其特征在于，所述方法还包括：

所述采用预构建的训练集训练所述三元组预测网络，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述样本三元组的预测尾实体及所述样本三元组的样本尾实体，训练所述三元组预测网络，包括：

确定所述预测样本三元组为真实三元组的概率；

根据所述可信度分值确定所述第一网络的网络损失；

根据所述网络损失训练所述第一网络。

8.根据权利要求7所述的方法，其特征在于，所述样本三元组包括正样本三元组及与所述正样本三元组对应的负样本三元组，所述根据所述可信度分值确定所述第一网络的网络损失，包括：

9.一种数据处理装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。