CN112115230B

CN112115230B - 一种基于层次类别信息的知识图谱构建方法

Info

Publication number: CN112115230B
Application number: CN202010848368.9A
Authority: CN
Inventors: 徐晨鸥; 杨柏林
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2022-04-26
Anticipated expiration: 2040-08-21
Also published as: CN112115230A

Abstract

本发明针对现有知识图谱构建方法的不足,公开了一种基于层次类别的知识图谱构建方法,该方法可以利用Word2vec工具,经历以下步骤：实体关系标注、获取关系类别信息、构建层次化类别、知识图谱层次嵌入,自动在知识图谱的关系中加入层次信息,能够极大的提高知识图谱建模的准确性,使得其能够更好的应用于知识问答,智能搜索,案例匹配等实际应用中。

Description

一种基于层次类别信息的知识图谱构建方法

技术领域

本发明属于知识图谱技术领域,具体涉及一种基于层次类别信息的知识图谱构建方法。

背景技术

知识图谱本质上是一种大规模语义网络，它包含了各种各样的实体，概念以及语义关系。通过将知识表示成知识图谱的形式，可以让知识更好的被机器去学习和表达。知识图谱的嵌入表示指的是在模型中将知识图谱中的实体和关系表示成一个低维度的向量,进一步提升知识图谱中知识的可计算性。

经过知识表示学习中的知识谱图嵌入方法训练后，实体和关系的嵌入结果可以方便的应用于下游任务或者实际应用。比如：知识补全，搜索应用，智能问答,个性化推荐等。又如在法律方面的应用，用户询问一个法律问题,直接就可以通过应用知识图谱构建出回答内容,并可以查询出相似的问题和相关的案例。

能否有效的对知识图谱进行建模则成为了应用知识图谱的关键，传统的方法将实体间的关系都看做是独立的,忽视了知识图谱中隐含的诸多信息,比如关系的所属类别，关系之间的对应关系等，从而只能有限的构造出知识图谱的模型,不能很好的刻画一些细节部分,影响到了应用上的准确性。

发明内容

本发明针对当前知识图谱建模方法的不足，提出了一种基于层次类别信息的知识图谱构建方法。该方法可以在知识图谱的关系中加入层次信息,使得其能够更好的应用于知识问答、智能搜索、案例匹配等实际应用中。

本发明解决其技术问题所采用的技术方案步骤如下：

步骤1、实体关系标注

1.1、根据待处理的知识图谱文本数据,使用相应的标注工具将文本中涉及的实体、实体与实体之间的关系标注出来，得到知识图谱中的实体、关系构成。

1.2、整理从各类文本中获得的所有实体与关系,对其进行去重和实体对齐处理。

去重用于去掉多次出现的重复实体和关系，获得一个没有重复的实体列表和关系列表。

实体对齐,则是将同义词或者使用不同描述表达的同一个对象实体,对齐成同一个实体,使其链接的其他实体与关系能够进行统一化表述。

最后获得实体和关系的知识库表示形式RDF,即以三元组(实体1,关系,实体2)的方式保存。

步骤2：获取关系类别信息

2.1、基于获得的关系，使用Word2Vec词向量嵌入的方法来训练获得初步的关系的语义向量嵌入。Word2vec是自然语言处理方面,由google推出的一个获得词嵌入的方法,词嵌入是用来表示词的向量，也可被认为是词的特征向量或表征。通过这样的方式,可以获得每一个关系的一些基础语义信息,方便后续进行一个初步的聚类使用。

2.2对关系的语义向量嵌入分别进行层次聚类,采取python语言scikit-learn包中的Hierarchical Clustering方法，即层次聚类方法,从而获得关系的层次类别信息。采用欧式距离矩阵来计算不同关系之间的距离，公式如下：

步骤3：构建层次化类别

3.1、根据2.2的层次聚类结果,将关系分为三层表示。第一层为domain，为关系的所属领域；第二层为types,为关系的主要类别；第三层是关系的id,即这个关系独一无二的所属编号和内容。每一个关系都有其所属的领域,领域内的类别,以及自己的编号，以domain/types/id的方式呈现。例如,法律/婚姻法/父母赡养,指的就是法律中的婚姻法涉及的父母赡养方面的关系。

步骤4：知识图谱层次嵌入

4.1基于步骤1获得的三元组表示和步骤3获得的关系层次信息,使用Translation为基础的嵌入方法,将关系看做是实体之间的旋转向量。通过使得头实体h和关系r进行旋转运算后与尾实体t的差值作为其距离得分函数,即下式:

4.2、通过自对抗负样本采样获得不属于该知识图谱中存在的实体的负样本。自对抗负样本采样指的是加入通过概率生成公式p来决定负样本的生成概率，而非均匀采样。其具体实施为：取一个正样本三元组,概率替换其头或者尾为其他实体,生成一个新的三元组(即负样本)，且该负样本与知识图谱中已有正样本不能相同。概率生成公式如下:

p是计算得出的采样概率,α是设定的采样率,(h_i,r_i,t_i)分别是第i个正三元组的头实体，关系和尾实体。(h'_j,r,t'_j)则是生成的第j个负三元组。

通过使用概率生成公式,可以让负样本的采样更加的均衡有效,比起随机采样方法更加适用于模型训练。

4.3、通过优化负采样损失函数,使得正样本的距离得分函数减去负样本的距离得分函数的平均值之差尽可能的大。同时加入层次类别信息,使得具有相同层次类别的关系嵌入尽可能的相近。

损失函数如下:

其中γ为边界值,σ为sigmoid激活方法,MSEloss是均方损失,R是所有关系的当前嵌入表示。该损失方式能够使得模型学得知识图谱中包含的正确三元组信息,同时又能保留住关系的层次性,类别性。

4.4、利用机器学习中的随机梯度下降方法训练层次嵌入知识图谱模型,通过使损失函数最小化,获得实体和关系的向量嵌入表示结果。

本发明的有益效果：通过知识图谱嵌入领域的链路预测任务对模型的性能进行评估,并与经典方法TransE的最新实现进行对比。链路预测任务指的是对一个三元组(实体1，关系，实体2)进行头或者尾的去除，然后让模型去预测可能的实体，观察正确的实体在预测里的排名，最终的结果如下表所示:

表1:链路预测结果对比

模型名称	MR	MRR	Hits@10
				TransE	357.0	0.294	0.465
本发明结果	177.3	0.337	0.532

其中MR代表平均排名,越小越好,MRR代表平均准确率,Hit@10分别代表前1,3,10名的答案的准确率，越大越好。

基于上述比对，很好地说明了本发明能够极大地提高知识图谱建模的准确性,使得其能够更好的应用于知识问答,智能搜索,案例匹配等实际应用中。

具体实施方式

下面以法律文书图谱构建为例,进一步描述本发明：

(1)实体关系标注

基于法律文书的内容，将文书涉及的实体和关系全部标出。经过一定量的标注后，将重复的实体和关系进行去重，然后对实体进行对齐操作。例如通过婚姻法律文书可以获得以下实体，关系，以及包含它们的一些三元组。

实体：丈夫、妻子、子女、借款人、公司、房屋、财产……

关系：配偶，赡养，履行赡养义务，未尽赡养义务，抚养，家暴，同居，分局，继承……

三元组：(丈夫,配偶,妻子),(丈夫,赡养，老人),(妻子,抚养，子女)，(子女，继承，财产)……

(2)获取关系类别信息

通过文本语料,使用word2vec对出现的关系进行训练,输出的向量维度设定为500维，对关系向量进行以欧式距离为距离函数的层次聚类方法，获得关系对应的层次信息。

具体是将关系列表输入到word2vec工具中，即可获得每一个关系在设定维度(本例为500维)下的向量表示，比如：

配偶(0.1521,0.5123,-0.2379,……,0.2361)

赡养(0.8406,0.3201,0.7654,……,0.5971)

抚养(0.7730,0.4805,0.6092,……,0.6081)

履行赡养义务(0.8802,0.3551,0.7124,……,0.5161)

悉心照料老人(0.8165,0.3412,0.7821,……,0.5231)

……

(3)构建层次化类别

根据步骤(2)中获得的关系类别进行层次聚类，如“履行赡养义务”和“悉心照料老人”因为向量各维度的值较为接近，会首先进行聚类，它们同属于“赡养”相关，然后因为它们聚类后的平均值接近“赡养”关系的值，所以可以认为赡养属于它们的上一层次关系表述。重复这个过程直到大部分关系都已经完成层次聚类。

通过层次聚类，将关系分为三个层次表示。第一层为domain，为关系的所属领域,第二层为types,为关系的主要类别,第三层是关系的id,即这个关系独一无二的所属编号和内容。每一个关系都有其所属的领域,领域内的类别,以及自己的编号，以domain/types/id的方式呈现。

以法律文书图谱为例,第一层领域可以是不同的法律领域,如婚姻法,刑法,民法等。第二层类别可以是该法律下涉及的行为，比如赡养老人，家暴行为等。第三层则是细节化的关系，如赡养老人下可以有履行赡养义务，未尽赡养义务等。

具体例子如下：

婚姻法/赡养/履行赡养义务

婚姻法/家暴/肢体暴力

婚姻法/家暴/口头威胁

刑法/谋杀/蓄意谋杀

……

(4)知识图谱的层次嵌入模型

通过负样本采样获得该知识图谱中的负样本,如法律文书图谱中的(丈夫,履行赡养义务,父亲),可以采样出(丈夫,履行赡养义务,妻子)的负样本。

通过优化负采样损失函数使得正样本的距离得分函数减去负样本的距离得分函数的平均值之差尽可能的大。同时加入(3)中的层次类别信息,使得具有相同层次类别的关系嵌入尽可能的相近。

利用机器学习中的随机梯度下降方法训练层次嵌入知识图谱模型,通过使损失函数最小化,获得实体和关系的向量嵌入表示结果。

例如需要负三元组,即错误样本(丈夫，赡养，儿子)的得分值较小，并需要正三元组(丈夫，赡养，父亲)的的分值较大。同时也需要赡养的向量表示和履行赡养义务，悉心照料老人等关系的向量表示较为接近。

(5)进行预测任务

输入三元组(丈夫,赡养,？),模型可以通过计算得出赡养的对象可以是老人,父亲,母亲,岳父,岳母等。即通过丈夫的向量嵌入值(0.1423,0.5832……)加上赡养的向量嵌入值(0.7123,0.2341……)，计算得到的结果值(0.8555,0.8173……)发现与父亲(0.8523,0.8245……)等的向量嵌入值较为接近，得出推理结果。

Claims

1.一种基于层次类别信息的知识图谱构建方法，其特征在于该方法包括以下步骤：

步骤1、实体关系标注

1.1、根据待处理的知识图谱文本数据,使用相应的标注工具将文本中涉及的实体、实体与实体之间的关系标注出来，得到知识图谱中的实体、关系构成；

1.2、整理从各类文本中获得的所有实体与关系，对其进行去重和实体对齐处理；获得实体和关系的知识库表示形式RDF,即以三元组(实体1,关系,实体2)的方式保存；

步骤2、获取关系类别信息

2.1、基于获得的关系，使用Word2Vec词向量嵌入的方法来训练获得初步的关系的语义向量嵌入；

2.2、对关系的语义向量嵌入分别进行层次聚类，从而获得关系的层次类别信息；

步骤3、构建层次化类别

根据层次聚类结果,将关系分为三层表示：

第一层为domain，为关系的所属领域；

第二层为types，为关系的主要类别；

第三层是关系的id，即这个关系独一无二的所属编号和内容；

步骤4、知识图谱层次嵌入

4.1、基于步骤1获得的三元组表示和步骤3获得的关系层次信息,使用Translation为基础的嵌入方法，将关系看做是实体之间的旋转向量，通过使得头实体h和关系r进行旋转运算后与尾实体t的差值作为其距离得分函数，表达如下：

4.2、通过自对抗负样本采样获得不属于该知识图谱中存在的实体的负样本；自对抗负样本采样指的是加入通过概率生成公式来决定负样本的生成概率，而非均匀采样；概率生成公式如下：

其中p是计算得出的采样概率,α是设定的采样率,(h_i,r_i,t_i)分别是第i个正三元组的头实体，关系和尾实体，(h'_j,r,t'_j)则是生成的第j个负三元组；

4.3、通过优化负采样损失函数,使得正样本的距离得分函数减去负样本的距离得分函数的平均值之差尽可能的大；同时加入层次类别信息,使得具有相同层次类别的关系嵌入尽可能的相近；其中负采样损失函数如下：

其中γ为边界值，σ为sigmoid激活方法，MSEloss是均方损失，R是所有关系的当前嵌入表示；

2.根据权利要求1所述的一种基于层次类别信息的知识图谱构建方法，其特征在于：步骤1中：

所述的去重用于去掉多次出现的重复实体和关系，获得一个没有重复的实体列表和关系列表；

所述的实体对齐则是将同义词或者使用不同描述表达的同一个对象实体,对齐成同一个实体,使链接的其它实体与关系能够进行统一化表述。

3.根据权利要求1所述的一种基于层次类别信息的知识图谱构建方法，其特征在于：步骤2中：

层次聚类采取python语言scikit-learn包中的Hierarchical Clustering方法，采用欧式距离矩阵来计算不同关系之间的距离。

4.根据权利要求1所述的一种基于层次类别信息的知识图谱构建方法，其特征在于：步骤4中：

自对抗负样本采样具体是：取一个正样本三元组，概率替换其头或者尾为其它实体,生成一个新的三元组，即负样本；且该负样本与知识图谱中已有正样本不能相同。