CN112115261B

CN112115261B - 基于对称和互逆关系统计的知识图谱数据扩展方法

Info

Publication number: CN112115261B
Application number: CN202010848473.2A
Authority: CN
Inventors: 应坚超; 杨柏林; 蒲飞
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2022-04-26
Anticipated expiration: 2040-08-21
Also published as: CN112115261A

Abstract

本发明公开了一种基于对称和互逆关系统计的知识图谱数据扩展方法。本发明首先对其进行查重删减与信息脱敏简化并编成字典；其次，通过二维矩阵储存对称关系与互逆关系三元组的可靠的成对数目，并计算符合特殊关系的三元组百分比，得到特殊关系矩阵表；然后，设置有效阈值，百分比超过阈值的关系（关系对）认定为完全对称（互逆）关系，可以创建在该关系（关系对）下未成对的三元组以扩展数据集。本发明采用了全新的基于对称关系和互逆关系统计推理的数据扩展方法，直接并有效增加了数据集数量，挖掘了知识图谱隐藏的信息，提升了知识图谱表示学习模型训练效果。

Description

基于对称和互逆关系统计的知识图谱数据扩展方法

技术领域

本发明属于知识图谱领域，具体涉及一种基于对称和互逆关系统计的知识图谱数据扩展方法。

背景技术

知识系统是由人类知识结构化重新组织而成，例如WordNet语言知识库、Freebase世界知识库等。知识库是推动人工智能学科发展和支撑智能信息服务应用(如智能搜索、智能问答、个性化推荐等)的重要基础技术。知识库主要描述的是现实客观世界中实体间的关系。这些知识蕴藏在无(半)结构的互联网信息中，而知识库则是有结构的。因此，知识库的主要研究目标是：从无(半)结构的互联网信息中获取有结构知识，自动融合构建知识库、服务知识推理等相关应用。

知识表示是知识获取与应用的基础，因此知识表示学习问题是贯穿知识库的构建与应用全过程的关键问题。人们通常以网络的形式组织知识库中的知识，网络中每个节点代表实体(人名、地名、机构名、概念等)，而每条连边则代表实体间的关系。因此，大部分知识往往可以用三元组(实体1，关系，实体2)来表示，对应着知识库网络中的一条连边及其连接的2个实体.这是知识库的通用表示方式。

然而，基于网络形式的知识表示存在计算效率低下、数据稀疏的问题，缺乏可学习性和可计算性。独热表示是一种始发的、简单的数据表示方案，该方案将研究对象表示为向量，只是该向量只有某一维非零，其他维度上的值均为0。但是独热表示的缺点也非常明显。独热表示方案假设所有对象都是相互独立的。也就是说，在独热表示空间中，所有对象的向量都是相互正交的，通过余弦距离或欧氏距离计算的语义相似度均为0。这显然是不符合实际情况的，会丢失大量有用信息。近年来，以深度学习为代表的表示学习技术逐渐兴起，在语音识别、图像分析和自然语言处理领域获得广泛关注。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空间中，2个对象距离越近则说明其语义相似度越高。

知识表示学习是面向知识库中的实体和关系进行表示学习，可以在低维空间中高效计算实体和关系的语义联系，有效解决数据稀疏问题，使知识获取、融合和推理的性能得到显著提升。那么能否对知识进行更好的训练使其达到更好的语义表达效果成为了知识表示学习的关键。目前绝大多数的开放域知识图谱在内容表达上都不完整，在训练表达模型时，正样本的不足会直接影响知识表示的准确性。而知识图谱是具有可推理性的，若能通过合理的方法完善知识图谱的内容或结构，将直接提高模型的表示效果，从而使知识的向量表示更加符合语义关系，进而提高在语义搜索、关系抽取、自动问答等应用上的效能。

发明内容

本发明针对当前知识图谱建模训练数据的不足，提供了一种基于对称和互逆关系统计的知识图谱数据扩展方法。

本发明方法具体是：

步骤1、实体关系标注

(1.1)根据待处理的知识图谱文本数据,使用相应的标注工具将文本中涉及的实体、实体之间的关系标注出来,得到知识图谱中的实体、关系构成。

(1.2)整理从各类文本中获得的所有实体与关系,对其进行去重和实体对齐处理。

(1.3)获得实体和关系的知识库表示形式RDF,即以三元组(实体1,关系,实体2)的方式保存。

步骤2、三元组集清洗

(2.1)在已有三元组集合的情况下，对三元组进行查重和结构检验，将重复出现的三元组删去，保证每一个三元组的独立性和完整性。

(2.2)对三元组集合中的所有实体进行简略化编码，得到一份“entity_name”的连续字典。同理，对所有关系也进行简略化编码，得到一份“relation_name”的连续字典。

(2.3)利用这两份字典对所有三元组进行命名转化，获得一份信息全面脱敏、结构完全保留的新表达形式的三元组集合。

步骤3、对称关系和互逆关系的三元组占比统计：

对于某一个包含n个关系的三元组集合，构建一个n*n的二维矩阵W，并初始化所有元素为0。

构建一个n*n的二维矩阵W'，初始化每一个元素W'_[i][j]为关系i和关系j共包含的所有三元组数。依次遍历该三元组集合的三元组，构建一个字典D，该字典分解三元组(h,r,t)，并以"r:(h,t)"的key:value形式记录所有三元组。

再次遍历所有三元组，读取一个三元组(h,r,t)时，记录(t,h),并在字典D中寻找是否存在value为(h,t)的键值对；若存在，则记录该键值对的key为r'，并在二维矩阵W中，W_[r][r']自加1；若不存在，则读取下一个三元组，直至读完。

计算W_p＝W/W'得到的W_p矩阵；每个元素W_p[i][j]所表示的是在关系i和关系j的所有三元组中，满足互逆关系三元组的占比，如果i＝j，则表示满足对称关系三元组的占比。

步骤4、对称关系和互逆关系新元组创建

根据统计得到的百分比二维矩阵W_p，并设置阈值λ，认为W_p矩阵中元素大于λ值的对称关系和互逆关系成立且完全适用该关系下所有的三元组。

找出超过阈值λ的关系对后，将该关系下未成对的三元组进行创建补全，从而完成基于对称和互逆关系统计的知识图谱数据扩展方法。

本发明的有益效果：与之前的常用知识图谱表示方法相比采用了全新的基于特殊关系统计推理的数据扩展方法，直接并有效增加了数据集数量，挖掘了知识图谱隐藏的信息，提升了知识图谱表示学习模型训练效果，且该方法在各个模型上的表现均良好，具有良好的应用性能。

具体实施方式

本发明通过对原始数据集的清洗、统计、推理创建，获得更多隐藏的且可靠的新三元组，扩展数据集参与训练，从而提高模型表示效果。

本发明所采用的技术方案步骤如下：

步骤1、实体关系标注

(1.1)根据待处理的知识图谱文本数据，使用相应的标注工具将文本中涉及的实体和其之间的关系标注出来，得到知识图谱中的实体、关系构成。

(1.2)整理从各类文本中获得的所有实体与关系,对其进行去重和实体对齐处理。去重用于去掉多次出现的重复实体和关系，获得一个没有重复的实体列表和关系列表。实体对齐,则是将同义词或者使用不同描述表达的同一个对象实体,对齐成同一个实体,使其链接的其他实体与关系能够进行统一化表述。

步骤2、三元组集清洗

(2.1)在已有三元组集合的情况下，对其进行三元组的查重和结构检验，将重复出现的三元组删去，保证每一个三元组的独立性和完整性。

(2.2)获得的三元组集具有“两点及一边”的主要结构，但是过长的实体名和关系名会极大影响计算机处理数据的效率，而且计算机在训练时，实体和关系在客观世界中的实际名称并不会影响其在低维空间的向量表示，所以对所有实体进行简略化编码，得到一份“entity_name”的连续字典。同理，对所有关系也进行简略化编码，得到一份“relation_name”的连续字典。并利用这两份字典对所有三元组进行命名转化，获得一份信息全面脱敏、结构完全保留的新表达形式的三元组集。

步骤3、对称关系和互逆关系的三元组占比统计

(3.1)对称关系定义：对称关系是一种特殊的关系，指与自身的逆关系完全相同的那种关系。对于类k中一个确定的关系R来说，类k中的任意两个个体x,y，如果xRy真yRx就必真，则称关系R为类k中对称的关系(对称关系)。在三元组集中，如果对某一特定关系r，同时存在(h,r,t)和(t,r,h)，则认为关系r在这两个三元组中表现为对称关系。

(3.2)互逆关系定义：逆关系是一种特殊的关系，对于两个事物之间的某个关系，颠倒事物的位置以后其间存在的另一种关系。对于类k中两个确定的关系R₁,R₂来说，类k中的任意两个个体x,y，如果xR₁y真yR₂x就必真，则称关系R₁,R₂为类k中互逆的关系(互逆关系)。在三元组集中，如果对某两个特定关系r₁,r₂，同时存在(h,r₁,t)和(t,r₂,h)，则认为关系r₁和关系r₂在这两个三元组中表现为互逆关系。

(3.3)基于以上所给两种特殊关系的定义，采用以下统计方法：

对于某一个包含n个关系的特定三元组集，构建一个n*n的二维矩阵W，并初始化所有元素为0；构建一个n*n的二维矩阵W',初始化每一个元素W'_[i][j]为关系i和关系j共包含的所有三元组数。依次遍历该三元组集的三元组，构建一个特殊的字典D，该字典分解三元组(h,r,t)，并以“r:(h,t)”的key:value形式记录所有三元组。

再次遍历所有三元组，读取一个三元组(h,r,t)时，记录(t,h),并在字典D中寻找是否存在value为(h,t)的键值对，若存在，记录该键值对的key为r'，并在二维矩阵中，W_[r][r']自加1；若不存在，则读取下一个三元组，直至读完。

计算W_p＝W/W'(W_P[i][j]＝W_[i][j]/W'_[i][j])，得到的W_p矩阵，每个元素W_p[i][j]所表示的是在关系i和关系j的所有三元组中，满足互逆关系三元组的占比(如果i＝j，则表示满足对称关系三元组的占比)。

步骤4、对称关系和互逆关系新元组创建

根据统计得到的百分比二维矩阵W_p，并设置阈值λ(0.3，0.5，0.7)，认为W_p矩阵中元素大于λ值的特殊关系成立且完全适用该关系(关系对)下所有的三元组。

找出超过阈值λ的关系对后，将该关系(关系对)下未成对的三元组进行创建补全。例如某关系r_i的W_p[i][i]大于λ，原数据集中存在(h,r_i,t)三元组，而(t,r_i,h)的三元组不存在，那么可以将(t,r_i,h)作为可靠的新三元组添加到原数据集中，扩展数据集且提升后续表示学习的效果；再如，关系r_i,r_j的W_p[i][j]大于λ，原数据集中存在(h,r_i,t)三元组，而(t,r_j,h)的三元组不存在，那么可以将(t,r_j,h)作为可靠的新三元组添加到原数据集中，扩展数据集且提升后续表示学习的效果。

表1给出了常用数据集推理创建结果，表1中的WN18:来自于WordNet语义网络，FB15K:来自于FreeBase知识图谱；而表2给出了新数据集对模型训练的提升效果(RotatE模型)，由此提升了知识图谱表示学习模型训练效果，且该方法在各个模型上的表现均良好，具有良好的应用性能。

表1

表2

Data_set	MRR	MR	HITS@1	HITS@3	HITS@10
						WN18	0.949	273	0.944	0.952	0.96
WN18_new	0.975	134	0.973	0.976	0.981
						FB15k	0.781	42	0.725	0.817	0.877
FB15K_new	0.848	29	0.807	0.876	0.919

Claims

1.基于对称和互逆关系统计的知识图谱数据扩展方法，其特征在于该方法包括以下步骤：

步骤1、实体关系标注

(1.1)根据待处理的知识图谱文本数据,使用相应的标注工具将文本中涉及的实体、实体之间的关系标注出来,得到知识图谱中的实体、关系构成；

(1.2)整理从各类文本中获得的所有实体与关系,对其进行去重和实体对齐处理；

(1.3)获得实体和关系的知识库表示形式RDF,即以三元组(实体1,关系,实体2)的方式保存；

步骤2、三元组集清洗

(2.1)在已有三元组集合的情况下，对三元组进行查重和结构检验，将重复出现的三元组删去，保证每一个三元组的独立性和完整性；

(2.2)对三元组集合中的所有实体进行简略化编码，得到一份“entity_name”的连续字典；同理，对所有关系也进行简略化编码，得到一份“relation_name”的连续字典；

(2.3)利用这两份字典对所有三元组进行命名转化，获得一份信息全面脱敏、结构完全保留的新表达形式的三元组集合；

步骤3、对称关系和互逆关系的三元组占比统计：

对于某一个包含n个关系的三元组集合，构建一个n*n的二维矩阵W，并初始化所有元素为0；

构建一个n*n的二维矩阵W'，初始化每一个元素W'_[i][j]为关系i和关系j共包含的所有三元组数；依次遍历该三元组集合的三元组，构建一个字典D，该字典分解三元组(h,r,t)，并以"r:(h,t)"的key:value形式记录所有三元组；

再次遍历所有三元组，读取一个三元组(h,r,t)时，记录(h,t),并在字典D中寻找是否存在value为(h,t)的键值对；若存在，则记录该键值对的key为r'，并在二维矩阵W中，W_[r][r']自加1；若不存在，则读取下一个三元组，直至读完；

计算W_p＝W/W'得到的W_p矩阵；每个元素W_p[i][j]所表示的是在关系i和关系j的所有三元组中，满足互逆关系三元组的占比，如果i＝j，则表示满足对称关系三元组的占比；

步骤4、对称关系和互逆关系新元组创建

根据统计得到的百分比二维矩阵W_p，并设置阈值λ，认为W_p矩阵中元素大于λ值的对称关系和互逆关系成立且完全适用该关系下所有的三元组；

找出超过阈值λ的关系对后，将该关系下未成对的三元组进行创建补全，从而完成基于对称和互逆关系统计的知识图谱数据扩展。

2.根据权利要求1所述的基于对称和互逆关系统计的知识图谱数据扩展方法，其特征在于：步骤1中的去重用于去掉多次出现的重复实体和关系，获得一个没有重复的实体列表和关系列表。

3.根据权利要求1所述的基于对称和互逆关系统计的知识图谱数据扩展方法，其特征在于：步骤1中的实体对齐是将同义词或者使用不同描述表达的同一个对象实体，对齐成同一个实体，使其链接的其他实体与关系能够进行统一化表述。