CN112115261B - 基于对称和互逆关系统计的知识图谱数据扩展方法 - Google Patents
基于对称和互逆关系统计的知识图谱数据扩展方法 Download PDFInfo
- Publication number
- CN112115261B CN112115261B CN202010848473.2A CN202010848473A CN112115261B CN 112115261 B CN112115261 B CN 112115261B CN 202010848473 A CN202010848473 A CN 202010848473A CN 112115261 B CN112115261 B CN 112115261B
- Authority
- CN
- China
- Prior art keywords
- relation
- triples
- reciprocal
- entity
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于对称和互逆关系统计的知识图谱数据扩展方法。本发明首先对其进行查重删减与信息脱敏简化并编成字典;其次,通过二维矩阵储存对称关系与互逆关系三元组的可靠的成对数目,并计算符合特殊关系的三元组百分比,得到特殊关系矩阵表;然后,设置有效阈值,百分比超过阈值的关系(关系对)认定为完全对称(互逆)关系,可以创建在该关系(关系对)下未成对的三元组以扩展数据集。本发明采用了全新的基于对称关系和互逆关系统计推理的数据扩展方法,直接并有效增加了数据集数量,挖掘了知识图谱隐藏的信息,提升了知识图谱表示学习模型训练效果。
Description
技术领域
本发明属于知识图谱领域,具体涉及一种基于对称和互逆关系统计的知识图谱数据扩展方法。
背景技术
知识系统是由人类知识结构化重新组织而成,例如WordNet语言知识库、Freebase世界知识库等。知识库是推动人工智能学科发展和支撑智能信息服务应用(如智能搜索、智能问答、个性化推荐等)的重要基础技术。知识库主要描述的是现实客观世界中实体间的关系。这些知识蕴藏在无(半)结构的互联网信息中,而知识库则是有结构的。因此,知识库的主要研究目标是:从无(半)结构的互联网信息中获取有结构知识,自动融合构建知识库、服务知识推理等相关应用。
知识表示是知识获取与应用的基础,因此知识表示学习问题是贯穿知识库的构建与应用全过程的关键问题。人们通常以网络的形式组织知识库中的知识,网络中每个节点代表实体(人名、地名、机构名、概念等),而每条连边则代表实体间的关系。因此,大部分知识往往可以用三元组(实体1,关系,实体2)来表示,对应着知识库网络中的一条连边及其连接的2个实体.这是知识库的通用表示方式。
然而,基于网络形式的知识表示存在计算效率低下、数据稀疏的问题,缺乏可学习性和可计算性。独热表示是一种始发的、简单的数据表示方案,该方案将研究对象表示为向量,只是该向量只有某一维非零,其他维度上的值均为0。但是独热表示的缺点也非常明显。独热表示方案假设所有对象都是相互独立的。也就是说,在独热表示空间中,所有对象的向量都是相互正交的,通过余弦距离或欧氏距离计算的语义相似度均为0。这显然是不符合实际情况的,会丢失大量有用信息。近年来,以深度学习为代表的表示学习技术逐渐兴起,在语音识别、图像分析和自然语言处理领域获得广泛关注。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空间中,2个对象距离越近则说明其语义相似度越高。
知识表示学习是面向知识库中的实体和关系进行表示学习,可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升。那么能否对知识进行更好的训练使其达到更好的语义表达效果成为了知识表示学习的关键。目前绝大多数的开放域知识图谱在内容表达上都不完整,在训练表达模型时,正样本的不足会直接影响知识表示的准确性。而知识图谱是具有可推理性的,若能通过合理的方法完善知识图谱的内容或结构,将直接提高模型的表示效果,从而使知识的向量表示更加符合语义关系,进而提高在语义搜索、关系抽取、自动问答等应用上的效能。
发明内容
本发明针对当前知识图谱建模训练数据的不足,提供了一种基于对称和互逆关系统计的知识图谱数据扩展方法。
本发明方法具体是:
步骤1、实体关系标注
(1.1)根据待处理的知识图谱文本数据,使用相应的标注工具将文本中涉及的实体、实体之间的关系标注出来,得到知识图谱中的实体、关系构成。
(1.2)整理从各类文本中获得的所有实体与关系,对其进行去重和实体对齐处理。
(1.3)获得实体和关系的知识库表示形式RDF,即以三元组(实体1,关系,实体2)的方式保存。
步骤2、三元组集清洗
(2.1)在已有三元组集合的情况下,对三元组进行查重和结构检验,将重复出现的三元组删去,保证每一个三元组的独立性和完整性。
(2.2)对三元组集合中的所有实体进行简略化编码,得到一份“entity_name”的连续字典。同理,对所有关系也进行简略化编码,得到一份“relation_name”的连续字典。
(2.3)利用这两份字典对所有三元组进行命名转化,获得一份信息全面脱敏、结构完全保留的新表达形式的三元组集合。
步骤3、对称关系和互逆关系的三元组占比统计:
对于某一个包含n个关系的三元组集合,构建一个n*n的二维矩阵W,并初始化所有元素为0。
构建一个n*n的二维矩阵W',初始化每一个元素W'[i][j]为关系i和关系j共包含的所有三元组数。依次遍历该三元组集合的三元组,构建一个字典D,该字典分解三元组(h,r,t),并以"r:(h,t)"的key:value形式记录所有三元组。
再次遍历所有三元组,读取一个三元组(h,r,t)时,记录(t,h),并在字典D中寻找是否存在value为(h,t)的键值对;若存在,则记录该键值对的key为r',并在二维矩阵W中,W[r][r']自加1;若不存在,则读取下一个三元组,直至读完。
计算Wp=W/W'得到的Wp矩阵;每个元素Wp[i][j]所表示的是在关系i和关系j的所有三元组中,满足互逆关系三元组的占比,如果i=j,则表示满足对称关系三元组的占比。
步骤4、对称关系和互逆关系新元组创建
根据统计得到的百分比二维矩阵Wp,并设置阈值λ,认为Wp矩阵中元素大于λ值的对称关系和互逆关系成立且完全适用该关系下所有的三元组。
找出超过阈值λ的关系对后,将该关系下未成对的三元组进行创建补全,从而完成基于对称和互逆关系统计的知识图谱数据扩展方法。
本发明的有益效果:与之前的常用知识图谱表示方法相比采用了全新的基于特殊关系统计推理的数据扩展方法,直接并有效增加了数据集数量,挖掘了知识图谱隐藏的信息,提升了知识图谱表示学习模型训练效果,且该方法在各个模型上的表现均良好,具有良好的应用性能。
具体实施方式
本发明通过对原始数据集的清洗、统计、推理创建,获得更多隐藏的且可靠的新三元组,扩展数据集参与训练,从而提高模型表示效果。
本发明所采用的技术方案步骤如下:
步骤1、实体关系标注
(1.1)根据待处理的知识图谱文本数据,使用相应的标注工具将文本中涉及的实体和其之间的关系标注出来,得到知识图谱中的实体、关系构成。
(1.2)整理从各类文本中获得的所有实体与关系,对其进行去重和实体对齐处理。去重用于去掉多次出现的重复实体和关系,获得一个没有重复的实体列表和关系列表。实体对齐,则是将同义词或者使用不同描述表达的同一个对象实体,对齐成同一个实体,使其链接的其他实体与关系能够进行统一化表述。
(1.3)获得实体和关系的知识库表示形式RDF,即以三元组(实体1,关系,实体2)的方式保存。
步骤2、三元组集清洗
(2.1)在已有三元组集合的情况下,对其进行三元组的查重和结构检验,将重复出现的三元组删去,保证每一个三元组的独立性和完整性。
(2.2)获得的三元组集具有“两点及一边”的主要结构,但是过长的实体名和关系名会极大影响计算机处理数据的效率,而且计算机在训练时,实体和关系在客观世界中的实际名称并不会影响其在低维空间的向量表示,所以对所有实体进行简略化编码,得到一份“entity_name”的连续字典。同理,对所有关系也进行简略化编码,得到一份“relation_name”的连续字典。并利用这两份字典对所有三元组进行命名转化,获得一份信息全面脱敏、结构完全保留的新表达形式的三元组集。
步骤3、对称关系和互逆关系的三元组占比统计
(3.1)对称关系定义:对称关系是一种特殊的关系,指与自身的逆关系完全相同的那种关系。对于类k中一个确定的关系R来说,类k中的任意两个个体x,y,如果xRy真yRx就必真,则称关系R为类k中对称的关系(对称关系)。在三元组集中,如果对某一特定关系r,同时存在(h,r,t)和(t,r,h),则认为关系r在这两个三元组中表现为对称关系。
(3.2)互逆关系定义:逆关系是一种特殊的关系,对于两个事物之间的某个关系,颠倒事物的位置以后其间存在的另一种关系。对于类k中两个确定的关系R1,R2来说,类k中的任意两个个体x,y,如果xR1y真yR2x就必真,则称关系R1,R2为类k中互逆的关系(互逆关系)。在三元组集中,如果对某两个特定关系r1,r2,同时存在(h,r1,t)和(t,r2,h),则认为关系r1和关系r2在这两个三元组中表现为互逆关系。
(3.3)基于以上所给两种特殊关系的定义,采用以下统计方法:
对于某一个包含n个关系的特定三元组集,构建一个n*n的二维矩阵W,并初始化所有元素为0;构建一个n*n的二维矩阵W',初始化每一个元素W'[i][j]为关系i和关系j共包含的所有三元组数。依次遍历该三元组集的三元组,构建一个特殊的字典D,该字典分解三元组(h,r,t),并以“r:(h,t)”的key:value形式记录所有三元组。
再次遍历所有三元组,读取一个三元组(h,r,t)时,记录(t,h),并在字典D中寻找是否存在value为(h,t)的键值对,若存在,记录该键值对的key为r',并在二维矩阵中,W[r][r']自加1;若不存在,则读取下一个三元组,直至读完。
计算Wp=W/W'(WP[i][j]=W[i][j]/W'[i][j]),得到的Wp矩阵,每个元素Wp[i][j]所表示的是在关系i和关系j的所有三元组中,满足互逆关系三元组的占比(如果i=j,则表示满足对称关系三元组的占比)。
步骤4、对称关系和互逆关系新元组创建
根据统计得到的百分比二维矩阵Wp,并设置阈值λ(0.3,0.5,0.7),认为Wp矩阵中元素大于λ值的特殊关系成立且完全适用该关系(关系对)下所有的三元组。
找出超过阈值λ的关系对后,将该关系(关系对)下未成对的三元组进行创建补全。例如某关系ri的Wp[i][i]大于λ,原数据集中存在(h,ri,t)三元组,而(t,ri,h)的三元组不存在,那么可以将(t,ri,h)作为可靠的新三元组添加到原数据集中,扩展数据集且提升后续表示学习的效果;再如,关系ri,rj的Wp[i][j]大于λ,原数据集中存在(h,ri,t)三元组,而(t,rj,h)的三元组不存在,那么可以将(t,rj,h)作为可靠的新三元组添加到原数据集中,扩展数据集且提升后续表示学习的效果。
表1给出了常用数据集推理创建结果,表1中的WN18:来自于WordNet语义网络,FB15K:来自于FreeBase知识图谱;而表2给出了新数据集对模型训练的提升效果(RotatE模型),由此提升了知识图谱表示学习模型训练效果,且该方法在各个模型上的表现均良好,具有良好的应用性能。
表1
表2
Data_set | MRR | MR | HITS@1 | HITS@3 | HITS@10 |
WN18 | 0.949 | 273 | 0.944 | 0.952 | 0.96 |
WN18_new | 0.975 | 134 | 0.973 | 0.976 | 0.981 |
FB15k | 0.781 | 42 | 0.725 | 0.817 | 0.877 |
FB15K_new | 0.848 | 29 | 0.807 | 0.876 | 0.919 |
Claims (3)
1.基于对称和互逆关系统计的知识图谱数据扩展方法,其特征在于该方法包括以下步骤:
步骤1、实体关系标注
(1.1)根据待处理的知识图谱文本数据,使用相应的标注工具将文本中涉及的实体、实体之间的关系标注出来,得到知识图谱中的实体、关系构成;
(1.2)整理从各类文本中获得的所有实体与关系,对其进行去重和实体对齐处理;
(1.3)获得实体和关系的知识库表示形式RDF,即以三元组(实体1,关系,实体2)的方式保存;
步骤2、三元组集清洗
(2.1)在已有三元组集合的情况下,对三元组进行查重和结构检验,将重复出现的三元组删去,保证每一个三元组的独立性和完整性;
(2.2)对三元组集合中的所有实体进行简略化编码,得到一份“entity_name”的连续字典;同理,对所有关系也进行简略化编码,得到一份“relation_name”的连续字典;
(2.3)利用这两份字典对所有三元组进行命名转化,获得一份信息全面脱敏、结构完全保留的新表达形式的三元组集合;
步骤3、对称关系和互逆关系的三元组占比统计:
对于某一个包含n个关系的三元组集合,构建一个n*n的二维矩阵W,并初始化所有元素为0;
构建一个n*n的二维矩阵W',初始化每一个元素W'[i][j]为关系i和关系j共包含的所有三元组数;依次遍历该三元组集合的三元组,构建一个字典D,该字典分解三元组(h,r,t),并以"r:(h,t)"的key:value形式记录所有三元组;
再次遍历所有三元组,读取一个三元组(h,r,t)时,记录(h,t),并在字典D中寻找是否存在value为(h,t)的键值对;若存在,则记录该键值对的key为r',并在二维矩阵W中,W[r][r']自加1;若不存在,则读取下一个三元组,直至读完;
计算Wp=W/W'得到的Wp矩阵;每个元素Wp[i][j]所表示的是在关系i和关系j的所有三元组中,满足互逆关系三元组的占比,如果i=j,则表示满足对称关系三元组的占比;
步骤4、对称关系和互逆关系新元组创建
根据统计得到的百分比二维矩阵Wp,并设置阈值λ,认为Wp矩阵中元素大于λ值的对称关系和互逆关系成立且完全适用该关系下所有的三元组;
找出超过阈值λ的关系对后,将该关系下未成对的三元组进行创建补全,从而完成基于对称和互逆关系统计的知识图谱数据扩展。
2.根据权利要求1所述的基于对称和互逆关系统计的知识图谱数据扩展方法,其特征在于:步骤1中的去重用于去掉多次出现的重复实体和关系,获得一个没有重复的实体列表和关系列表。
3.根据权利要求1所述的基于对称和互逆关系统计的知识图谱数据扩展方法,其特征在于:步骤1中的实体对齐是将同义词或者使用不同描述表达的同一个对象实体,对齐成同一个实体,使其链接的其他实体与关系能够进行统一化表述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010848473.2A CN112115261B (zh) | 2020-08-21 | 2020-08-21 | 基于对称和互逆关系统计的知识图谱数据扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010848473.2A CN112115261B (zh) | 2020-08-21 | 2020-08-21 | 基于对称和互逆关系统计的知识图谱数据扩展方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115261A CN112115261A (zh) | 2020-12-22 |
CN112115261B true CN112115261B (zh) | 2022-04-26 |
Family
ID=73804335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010848473.2A Active CN112115261B (zh) | 2020-08-21 | 2020-08-21 | 基于对称和互逆关系统计的知识图谱数据扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115261B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113963748B (zh) * | 2021-09-28 | 2023-08-18 | 华东师范大学 | 一种蛋白质知识图谱向量化方法 |
CN117875424A (zh) * | 2024-03-11 | 2024-04-12 | 湖北大学 | 一种基于实体描述和对称关系的知识图谱补全方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170337481A1 (en) * | 2016-05-17 | 2017-11-23 | Xerox Corporation | Complex embeddings for simple link prediction |
US10606893B2 (en) * | 2016-09-15 | 2020-03-31 | International Business Machines Corporation | Expanding knowledge graphs based on candidate missing edges to optimize hypothesis set adjudication |
CN111309823A (zh) * | 2020-02-12 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 用于知识图谱的数据预处理方法及装置 |
CN111444348A (zh) * | 2020-02-27 | 2020-07-24 | 上海交通大学 | 知识图谱架构的构建与应用方法、系统及介质 |
CN111339320B (zh) * | 2020-03-02 | 2021-03-26 | 北京航空航天大学 | 一种引入实体类型自动化表示的知识图谱嵌入与推理方法 |
-
2020
- 2020-08-21 CN CN202010848473.2A patent/CN112115261B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112115261A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353030B (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN111581354A (zh) | 一种faq问句相似度计算方法及其系统 | |
CN113553824A (zh) | 一种句子向量模型训练方法 | |
Zheng et al. | RRIA: A rough set and rule tree based incremental knowledge acquisition algorithm | |
CN112434169A (zh) | 一种知识图谱的构建方法及其系统和计算机设备 | |
CN112115261B (zh) | 基于对称和互逆关系统计的知识图谱数据扩展方法 | |
CN109726402B (zh) | 一种文档主题词自动提取方法 | |
CN110580281A (zh) | 一种基于语义相似度的相似案件匹配方法 | |
WO2023155508A1 (zh) | 一种基于图卷积神经网络和知识库的论文相关性分析方法 | |
CN107301426B (zh) | 一种鞋底花纹图像的多标签聚类方法 | |
CN115203507A (zh) | 一种面向文书领域的基于预训练模型的事件抽取方法 | |
CN110728135A (zh) | 文本主题标引方法、装置、电子设备及计算机存储介质 | |
CN114168687A (zh) | 建立汽车行业数据关联网络的方法和系统 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
Wan et al. | Cd-tree: A clustering-based dynamic indexing and retrieval approach | |
de Assis Costa et al. | Towards exploring literals to enrich data linking in knowledge graphs | |
CN114722304A (zh) | 异质信息网络上基于主题的社区搜索方法 | |
CN111125308B (zh) | 一种支持语义联想的轻量级文本模糊搜索的方法 | |
CN104077419B (zh) | 结合语义与视觉信息的长查询图像检索重排序方法 | |
CN114281962A (zh) | 基于机器人深度学习的智能对话系统、方法及存储介质 | |
CN109215797B (zh) | 基于扩展关联规则的中医医案非分类关系抽取方法及系统 | |
CN113779248A (zh) | 数据分类模型训练方法、数据处理方法及存储介质 | |
CN112765940A (zh) | 一种基于主题特征和内容语义的新型网页去重方法 | |
Hu et al. | Text mining based on domain ontology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |