CN110888942A

CN110888942A - 一种基于线性规划的本体包含公理学习方法

Info

Publication number: CN110888942A
Application number: CN201911070577.9A
Authority: CN
Inventors: 赵乐园; 张小旺; 冯志勇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-03-17

Abstract

本发明属于知识图谱的表示学习和本体构建的技术领域，具体涉及一种基于线性规划的本体包含公理学习方法，包括构建表示学习模型SetE，将知识图谱Abox的实体数据、类型数据及关系数据输入表示学习模型SetE，计算类型数据之间的包含关系，提取包含关系形成公理。本发明可以用线性表示学习模型来捕捉谓词特征，并且通过把包含关系归纳和约简成线性规划来获得本体包含关系，对于知识图谱不完整的情况下仍然可以高效地学习出相应的本体。

Description

一种基于线性规划的本体包含公理学习方法

技术领域

本发明属于知识图谱的表示学习和本体构建的技术领域，具体涉及一种基于线性规划的本体包含公理学习方法。

背景技术

本体是知识图谱中对概念和属性的描述，也是类型和关系的结合。本体包含公理是指知识图谱的数据中描述了包含关系的公理。虽然，现有技术中的OntoEdit，Protege和Ontolingua均可以从知识图谱Abox储存的若干数据信息中构建本体，但是，发明人发现：现有技术中难以表示本体中包含的逻辑关系，本体的构建过程仍然存在困难。并且，本体的自动构建一直是知识表示和机器学习的难点。

此外，发明人还发现：现有的知识图谱表示学习模型，主要是针对图谱补全的任务进行设计，并且，其只对实体和关系进行建模，而未对类型进行建模；另外，现有的表示学习模型TransC在类型的表示和关系的表示上是分裂的，在学习关系和类型都有的本体时很难将类型的表示和关系的表示联系起来。

发明内容

本发明的目的在于：针对现有技术的不足，提供一种基于线性规划的本体包含公理学习方法，不仅构建了一个把类型和关系结合的表示学习模型，还使用该线性表示学习模型来捕捉谓词特征，并且通过把包含关系归纳和约简成线性规划来获得本体包含关系，对于知识图谱不完整的情况下仍然可以高效地学习出相应的本体。

为了实现上述目的，本发明采用如下技术方案：

一种基于线性规划的本体包含公理学习方法，包括：

步骤一：构建表示学习模型SetE，将知识图谱Abox的实体数据、类型数据及关系数据输入所述表示学习模型SetE；

步骤二：计算所述类型数据之间的包含关系，提取所述包含关系形成公理。

进一步地，所述步骤一中，所述表示学习模型SetE的构建过程包括：构建实体类型数据的得分函数：

其中，e表示单个实体数据的向量表示，t表示单个类型数据的向量表示，i为1～n之间的自然数，[e]_i表示实体数据e的向量表示的第i维，[t]_i表示类型数据t的向量表示的第i维，所述f(e,t)表示所述实体数据和所述类型数据的得分函数，所述实体数据具有n维的向量，所述T表示所述n维的向量的转置。

进一步地，所述表示学习模型SetE的构建过程还包括：将所述实体数据划分为头实体数据和尾实体数据，构建实体关系数据的得分函数：

其中，s表示单个头实体数据的向量表示，o表示单个尾实体数据的向量表示，p表示单个关系数据的向量表示，j为1～2n之间的自然数，[p]_j表示关系数据p的向量表示的第j维，所述g(s,p,o)表示所述实体数据和所述关系数据的得分函数，所述concat(s,o)表示所述头实体数据和所述尾实体数据的拼接函数，所述拼接函数表示把所述头实体数据的n维向量和所述尾实体数据的n维向量连接成一个2n维度的向量。

进一步地，所述表示学习模型SetE的构建过程还包括：设定所述关系数据的阈值为B_r，构建实体关系正样本<s,p,o>，使所述实体关系正样本的得分函数g(s,p,o)与所述B_r满足关系式：g(s,p,o)≥B_r，构建实体关系负样本<s′,p′,o′>，使所述实体关系负样本的得分函数g(s′,p′,o′)与所述B_r满足关系式：g(s′,p′,o′)<B_r，构建实体关系数据的损失函数：

，

其中，所述F表示所述实体数据和所述关系数据的总样本集，所述F+表示实体关系正样本集，是若干个实体关系正样本<s,p,o>的集合，所述s表示所述F+的头实体数据的向量表示，所述p表示所述F⁺的关系数据的向量表示，所述o表示所述F+的尾实体数据的向量表示；所述F-表示实体关系负样本集，是若干个实体关系负样本<s′,p′,o′>的集合，所述s’表示所述F-的头实体数据的向量表示，所述p’表示所述F-的关系数据的向量表示，所述o’表示所述F-的尾实体数据的向量表示，所述L_F表示所述实体数据和所述关系数据的损失函数。

进一步地，所述步骤二中，所述类型数据之间的包含关系的计算过程包括：设定所述类型数据的阈值为B_t，构建实体类型正样本<e,t>，使所述实体类型正样本的得分函数f(e,t)与所述B_t满足关系式：f(e,t)≥B_t，构建实体类型负样本<e′,t′>，使所述实体类型负样本的得分函数f(e′,t′)与所述B_t满足关系式：f(e′,t′)<B_t，构建实体类型数据的损失函数：

，

其中，所述I表示所述实体数据和所述类型数据的总样本集，所述I+表示实体类型正样本集，是若干个实体类型正样本<e,t>的集合，所述e表示所述I+的实体数据的向量表示，所述t表示所述I+的类型数据的向量表示；所述I-表示实体类型负样本集，是若干个实体类型负样本<e′,t′>的集合，所述e’表示所述I-的实体数据的向量表示，所述t’表示所述I-的类型数据的向量表示，所述L_I表示所述实体数据和所述类型数据的损失函数。

进一步地，所述类型数据之间的包含关系的计算过程还包括：遍历输入的若干个所述类型数据，提取一对类型数据构成类型表示对(t_C,t_D)，其中，所述类型数据t_C和所述类型数据t_D均具有n个相同的维度，n≥1，在n个维度上逐一判断所述类型数据t_C和所述类型数据t_D在同一维度上的大小关系。

进一步地，若所述类型数据t_C在n个维度上均大于所述类型数据t_D，输出所述类型表示对(t_C,t_D)，以所述类型表示对(t_C,t_D)来表示所述类型数据t_C与所述类型数据t_D之间的包含关系，提取所述包含关系形成公理。

进一步地，若所述类型数据t_C不满足在n个维度上均大于所述类型数据t_D，将所述类型数据t_D输入所述关系式

得到关系式

其中，[t_D]_i表示类型数据t_D的向量表示的第i维，所述f(e,t_D)表示所述实体数据和所述类型数据t_D的得分函数，把所述类型数据t_C当作所述f(e,t_D)的可行域输入所述f(e,t_D)中，得到所述f(e,t_D)的最小值A，判断所述最小值A与所述类型数据的阈值B_t的大小。

进一步地，若所述最小值A大于所述类型数据的阈值B_t，输出所述类型表示对(t_C,t_D)，以所述类型表示对(t_C,t_D)来表示所述类型数据t_C与所述类型数据t_D之间的包含关系，提取所述包含关系形成公理。

进一步地，所述步骤二中，还包括将所述公理进行过滤处理，所述过滤处理的过程包括：设定所述表示学习模型SetE的超参数，计算所述公理的标准置信度；若所述标准置信度大于所述超参数，保留所述标准置信度对应的公理；若所述标准置信度小于或等于所述超参数，滤去所述标准置信度对应的公理。

本发明的有益效果在于：本发明通过构建线性表示学习模型SetE来给类型和关系统一的表示，获得了一种把类型和关系结合起来的表示方式，并通过将类型包含的情况归纳和约简成线性规划来高效地学习出本体包含公理，不仅能够把原有本体学习出来，还可以学习出一些经过推理的本体，在知识图谱不完整的情况下，该学习的方法仍然具有健壮性，解决了没有专家参与下如何高效地从大规模知识图谱中自动地学习本体包含关系的问题，从而达到自动构建本体的技术效果。

附图说明

图1为本发明的流程示意图。

图2为训练SetE得到的类型表示的示意图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件，本领域技术人员应可理解，制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图和具体实施例对本发明作进一步详细说明，但不作为对本发明的限定。

如图1所示，一种基于线性规划的本体包含公理学习方法，包括：

步骤一：构建表示学习模型SetE，将知识图谱Abox的实体数据、类型数据及关系数据输入表示学习模型SetE；

而表示学习模型SetE的构建过程包括：构建实体类型数据的得分函数：

其中，e表示单个实体数据的向量表示，t表示单个类型数据的向量表示，i为1～n之间的自然数，[e]_i表示实体数据e的向量表示的第i维，[t]_i表示类型数据t的向量表示的第i维，f(e,t)表示实体数据和类型数据的得分函数，实体数据具有n维的向量，T表示n维的向量的转置。

步骤二：计算类型数据之间的包含关系，提取包含关系形成公理，从而学习出相应的公理。

优选地，步骤二中，类型数据之间的包含关系的计算过程包括：设定类型数据的阈值为B_t，构建实体类型正样本<e,t>，使实体类型正样本的得分函数f(e,t)与B_t满足关系式：f(e,t)≥B_t，构建实体类型负样本<e′,t′>，使实体类型负样本的得分函数f(e′,t′)与B_t满足关系式：f(e′,t′)<B_t，构建实体类型数据的损失函数：

，

其中，I表示实体数据和类型数据的总样本集，I+表示实体类型正样本集，是若干个实体类型正样本<e,t>的集合，e表示I+的实体数据的向量表示，t表示I+的类型数据的向量表示；I-表示实体类型负样本集，是若干个实体类型负样本<e′,t′>的集合，e’表示I-的实体数据的向量表示，t’表示I-的类型数据的向量表示，L_I表示实体数据和类型数据的损失函数。

优选地，表示学习模型SetE的构建过程还包括：将实体数据划分为头实体数据和尾实体数据，构建实体关系数据的得分函数：

其中，s表示单个头实体数据的向量表示，o表示单个尾实体数据的向量表示，p表示单个关系数据的向量表示，j为1～2n之间的自然数，[p]_j表示关系数据p的向量表示的第j维，g(s,p,o)表示实体数据和关系数据的得分函数，concat(s,o)表示头实体数据和尾实体数据的拼接函数，拼接函数表示把头实体数据的n维向量和尾实体数据的n维向量连接成一个2n维度的向量，头实体数据、关系数据和尾实体数据构成了关系三元组，关系数据作为二元谓词是实体对数据的集合，类型数据作为一元谓词是实体数据的集合。

优选地，表示学习模型SetE的构建过程还包括：设定关系数据的阈值为B_r，构建实体关系正样本<s,p,o>，使实体关系正样本的得分函数g(s,p,o)与B_r满足关系式：g(s,p,o)≥B_r，构建实体关系负样本<s′,p′,o′>，使实体关系负样本的得分函数g(s′,p′,o′)与B_r满足关系式：g(s′,p′,o′)<B_r，构建实体关系数据的损失函数：

，

其中，F表示实体数据和关系数据的总样本集，F+表示实体关系正样本集，是若干个实体关系正样本<s,p,o>的集合，s表示F+的头实体数据的向量表示，p表示F+的关系数据的向量表示，o表示F+的尾实体数据的向量表示；F-表示实体关系负样本集，是若干个实体关系负样本<s′,p′,o′>的集合，s’表示F-的头实体数据的向量表示，p’表示F-的关系数据的向量表示，o’表示F-的尾实体数据的向量表示，L_F表示实体数据和关系数据的损失函数。

并且，整体的损失函数为：

其中，η是正则系数，Θ是模型参数。

通过对正负样本计算求梯度和损失，再利用求得的梯度和损失对涉及到的实体、类型和关系的表示进行更新，可以获得实体、类型和关系的表示，而实体和类型的表示都是n维向量，关系的表示则是2*n维向量。

其中，对实体类型数据f(e,t)求梯度的方法为：

当表示学习模型SetE构建完成后，可使用随机梯度下降法(SGD)来训练SetE，使得每次随机出来一个样本，对该样本计算梯度和损失后，就对相关表示(实体向量表示、类型向量表示)进行更新。

如图2所示，经过SetE的训练，能够实现类型表示的可视化。从图2可以看出，由上至下有三个大类的类型，分别是地点、真核生物和人类，而且，属于各个大类的类型在相似维度上会有较大的值；人类是真核生物的子集，使得人类和真核生物共享有一些激活的维度。

当知识图谱中的表示都训练好之后，便可以利用类型和关系表示间的关系来计算类型数据之间的包含关系，其中，类型数据之间的包含关系的计算过程还包括：遍历输入的每一个类型数据，在输入的类型数据中，提取输入的第i个类型数据和输入的第j个类型数据构成类型表示对(t_C,t_D)，从而使输入的类型数据进行两两比对；其中，类型数据t_C和类型数据t_D均具有n个相同的维度，n≥1，在n个维度上逐一判断类型数据t_C和类型数据t_D在同一维度上的大小关系。

优选地，若类型数据t_C在n个维度上均大于类型数据t_D，输出类型表示对(t_C,t_D)，以类型表示对(t_C,t_D)来表示类型数据t_C与类型数据t_D之间的包含关系，提取包含关系形成公理。

构建比较式：

将t_C和t_D输入到比较式，若t_C大于t_D，即C中的每一个实体同时也是D的实体，输出类型表示对(t_C,t_D)。

优选地，若类型数据t_C不满足在n个维度上均大于类型数据t_D，将类型数据t_D输入关系式

得到关系式

其中，[t_D]_i表示类型数据t_D的向量表示的第i维，f(e,t_D)表示实体数据和类型数据t_D的得分函数；再进行线性规划，把类型数据t_C当作f(e,t_D)的可行域输入f(e,t_D)中，得到f(e,t_D)的最小值A，判断最小值A与类型数据的阈值B_t的大小。

其中，线性规划的表达式也可以表示为：

并且，该表达式同时满足：x∈[0,1]ⁿ；f(x,t_C)≥B_t。

以SubClassOf(C,D)为例，在线性规划中，把C当成可行域，也就是说在C所有的实体中去求f(x,D)的最小值，若最小值大于B_t，则C中所有实体同时也是D中的实体，即SubClassOf(C,D)成立。

优选地，若最小值A大于类型数据的阈值B_t，输出类型表示对(t_C,t_D)，以类型表示对(t_C,t_D)来表示类型数据t_C与类型数据t_D之间的包含关系，提取包含关系形成公理。

优选地，步骤二中，还包括将公理进行过滤处理，过滤处理的过程包括：设定表示学习模型SetE的超参数，该超参数被设定为MinSC，计算公理的标准置信度；若标准置信度大于超参数，保留标准置信度对应的公理；若标准置信度小于或等于超参数，滤去标准置信度对应的公理。

其中，标准置信度表示一条公理的数据支持度，标准置信度的数值越大，表示此公理在数据上越正确。对于一个包含公理subclassof(t_C,t_D)，其标准置信度SC为：

经过仿真测试发现：对TransC与本发明构建的线性表示学习模型SetE在SubClassOf公理的分类任务上进行比较，两者的测试结果见表1，当正负样本的比值为1:10时，本发明的Accuracy约是TransC的2倍，Precision约是TransC的3倍，因此，本发明更适用于真实数据集。

表1 TransC与SetE的测试结果

并且，对DBpedia自带的本体与本发明在DBpedia数据集上学习的结果进行比较，两者的学习结果见表2，可以发现，本发明的Precision能够达到1，本发明可以把DBpedia自带的本体中的类型包含关系都学习出来，并且还可以学习出一些不在本体中别的包含关系，而这些包含关系都得到了数据的支持。

表2 DBpedia自带的本体与SetE的学习结果

此外，在不完整数据库的鲁棒性测试中，对其他基于统计信息来学习本体包含关系的方法与本发明的方法进行比较，两者的测试结果见表3，即使在数据集不完整的情况下，本发明仍能学习出高达89％的本体包含关系；与本发明的方法相比，基于统计的方法就不得不把rate降低至0.75来选出包含关系，而且只选出了一部分。因此，本发明在知识图谱不完整的情况下，学习出本体包含关系的性能仍然很好。

表3基于统计信息与SetE的测试结果

根据上述说明书的揭示和教导，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种基于线性规划的本体包含公理学习方法，其特征在于，包括：

2.如权利要求1所述的基于线性规划的本体包含公理学习方法，其特征在于，所述步骤一中，所述表示学习模型SetE的构建过程包括：

构建实体类型数据的得分函数：

3.如权利要求2所述的基于线性规划的本体包含公理学习方法，其特征在于，所述表示学习模型SetE的构建过程还包括：

将所述实体数据划分为头实体数据和尾实体数据；

构建实体关系数据的得分函数：

4.如权利要求3所述的基于线性规划的本体包含公理学习方法，其特征在于，所述表示学习模型SetE的构建过程还包括：

设定所述关系数据的阈值为B_r；

构建实体关系正样本<s,p,o>，使所述实体关系正样本的得分函数g(s,p,o)与所述B_r满足关系式：g(s,p,o)≥B_r；

构建实体关系负样本<s′,p′,o′>，使所述实体关系负样本的得分函数g(s′,p′,o′)与所述B_r满足关系式：g(s′,p′,o′)<B_r；

构建实体关系数据的损失函数：

，

其中，所述F表示所述实体数据和所述关系数据的总样本集，所述F⁺表示实体关系正样本集，所述F^-表示实体关系负样本集，所述s’表示所述F^-的头实体数据的向量表示，所述p’表示所述F^-的关系数据的向量表示，所述o’表示所述F^-的尾实体数据的向量表示，所述L_F表示所述实体数据和所述关系数据的损失函数。

5.如权利要求2所述的基于线性规划的本体包含公理学习方法，其特征在于，所述步骤二中，所述类型数据之间的包含关系的计算过程包括：

设定所述类型数据的阈值为B_t；

构建实体类型正样本<e,t>，使所述实体类型正样本的得分函数f(e,t)与所述B_t满足关系式：f(e,t)≥B_t；

构建实体类型负样本<e′,t′>，使所述实体类型负样本的得分函数f(e′,t′)与所述B_t满足关系式：f(e′,t′)<B_t；

构建实体类型数据的损失函数：

，

其中，所述I表示所述实体数据和所述类型数据的总样本集，所述I⁺表示实体类型正样本集，所述I^-表示实体类型负样本集，所述e’表示所述I^-的实体数据的向量表示，所述t’表示所述I^-的类型数据的向量表示，所述L_I表示所述实体数据和所述类型数据的损失函数。

6.如权利要求5所述的基于线性规划的本体包含公理学习方法，其特征在于，所述类型数据之间的包含关系的计算过程还包括：

遍历输入的若干个所述类型数据，提取一对类型数据构成类型表示对(t_C,t_D)，其中，所述类型数据t_C和所述类型数据t_D均具有n个相同的维度，n≥1；

在n个维度上逐一判断所述类型数据t_C和所述类型数据t_D在同一维度上的大小关系。

7.如权利要求6所述的基于线性规划的本体包含公理学习方法，其特征在于：

若所述类型数据t_C在n个维度上均大于所述类型数据t_D，输出所述类型表示对(t_C,t_D)，以所述类型表示对(t_C,t_D)来表示所述类型数据t_C与所述类型数据t_D之间的包含关系，提取所述包含关系形成公理。

8.如权利要求6所述的基于线性规划的本体包含公理学习方法，其特征在于：

若所述类型数据t_C不满足在n个维度上均大于所述类型数据t_D，

将所述类型数据t_D输入所述关系式

得到关系式

其中，[tD]_i表示类型数据t_D的向量表示的第i维，所述f(e,t_D)表示所述实体数据和所述类型数据t_D的得分函数；

把所述类型数据t_C当作所述f(e,t_D)的可行域输入所述f(e,t_D)中，得到所述f(e,t_D)的最小值A，判断所述最小值A与所述类型数据的阈值B_t的大小。

9.如权利要求8所述的基于线性规划的本体包含公理学习方法，其特征在于：

若所述最小值A大于所述类型数据的阈值B_t，输出所述类型表示对(t_C,t_D)，以所述类型表示对(t_C,t_D)来表示所述类型数据t_C与所述类型数据t_D之间的包含关系，提取所述包含关系形成公理。

10.如权利要求1所述的基于线性规划的本体包含公理学习方法，其特征在于，所述步骤二中，还包括将所述公理进行过滤处理，所述过滤处理的过程包括：

设定所述表示学习模型SetE的超参数，计算所述公理的标准置信度；

若所述标准置信度大于所述超参数，保留所述标准置信度对应的公理；

若所述标准置信度小于或等于所述超参数，滤去所述标准置信度对应的公理。