CN110275959B - 一种面向大规模知识库的快速学习方法 - Google Patents

一种面向大规模知识库的快速学习方法 Download PDF

Info

Publication number
CN110275959B
CN110275959B CN201910431538.0A CN201910431538A CN110275959B CN 110275959 B CN110275959 B CN 110275959B CN 201910431538 A CN201910431538 A CN 201910431538A CN 110275959 B CN110275959 B CN 110275959B
Authority
CN
China
Prior art keywords
knowledge
vector
triples
entity
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910431538.0A
Other languages
English (en)
Other versions
CN110275959A (zh
Inventor
程良伦
陈柯棠
张凡龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910431538.0A priority Critical patent/CN110275959B/zh
Publication of CN110275959A publication Critical patent/CN110275959A/zh
Application granted granted Critical
Publication of CN110275959B publication Critical patent/CN110275959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向大规模知识库的快速学习方法,所述方法包括以下步骤:S1:知识提取:从异源异构的数据中进行知识数据的提取,知识数据为事实三元组,包括:实体和关系;S2:知识表示:构建TransH模型,利用TransH模型,把知识数据中的所有实体和关系嵌入到低维向量空间中,从而实现知识数据的知识表示;S3:知识融合:通过RLCD模型对经S2知识表示之后的知识数据进行融合,并将融合后的知识数据存入知识图谱;S4:知识推理:从知识图谱中提取S3融合后的知识数据进行推理,并将推理后的知识数据存入知识图谱;获得更新的知识和结论;本发明可实现知识库的快速学习。

Description

一种面向大规模知识库的快速学习方法
技术领域
本发明涉及人工智能领域,更具体地,涉及一种面向大规模知识库的快速学习方法。
背景技术
如何从无结构型或半结构型的互联网信息中获取大规模结构型的知识,有机融合构建知识库,对知识库的推广和应用有着十分重要的意义;在构建知识库的过程中,知识表示学习是知识获取与应用的基础,因此,知识表示学习在知识库构建中扮演者重要的角色。
目前知识图谱主要使用(entity1,relation,entity2)的三元组形式来表示知识,这种方法可以较好的表示大规模的事实性知识;然而,人类的知识类型复杂多样,当面对大量的复杂知识时,比如人们的购物记录信息,新闻事件等,它们往往包含着大量实体和实体之间的复杂关系,三元组就束手无策了;为此,很多研究人员针对不同场景设计不同的知识表示方法。
知识表示是知识图谱构建与应用的基础,如何合理设计表示方案,更好地涵盖人类不同类型的知识,是知识图谱的重要研究问题;目前已经提出各种知识获取方法,并已经成功抽取大量有用的知识;但是在抽取知识的准确率、覆盖率和效率等方面,都仍不尽人意,因而仍有极大的提升空间;而且,来自不同数据的抽取知识可能存在大量噪音和冗余,或者使用了不同的语言;如何将这些知识有机融合起来,建立更大规模的知识库,是实现大数据智能的必由之路。
表示学习旨在将研究对象的语义信息表示为稠密低维实值向量;在该低维向量空间中,2个对象距离越近则说明其语义相似度越高;通常将研究对象表示为向量:实体e表示为Le;关系r表示为Lr;通过欧氏距离或余弦距离等方式计算任意2个对象之间的语义相似度。
知识表示学习是面向知识库中实体和关系的表示学习;通过将实体或关系投影到低维向量空间,我们能够实现对实体和关系的语义信息的表示,进而能高效地计算实体、关系及其之间的复杂语义关联。这对知识库的构建、推理与应用均有重要意义。
知识表示学习实现了对实体和关系的分布式表示,它具有以下主要优点:
1.显著提升计算效率。知识库的三元组表示实际就是基于独热表示的。如前所分析的,在这种表示方式下,需要设计专门的图算法计算实体间的语义和推理关系,计算复杂度高、可扩展性差。而表示学习得到的分布式表示,则能够高效地实现语义相似度计算等操作,显著提升计算效率。
2.有效缓解数据稀疏。由于表示学习将对象投影到统一的低维空间中,使每个对象均对应一个稠密向量,从而有效缓解数据稀疏问题,这主要在2个方面体现。一方面,每个对象的向量均为稠密有值的,因此可以度量任意对象之间的语义相似程度。而基于独热表示的图算法,由于受到大规模知识图谱稀疏特性的影响,往往无法有效计算很多对象之间的语义相似度。另一方面,将大量对象投影到统一空间的过程,也能够将高频对象的语义信息用于帮助低频对象的语义表示,提高低频对象的语义表示的精确性。
3.实现异质信息融合。不同来源的异质信息需要融合为整体,才能得到有效应用。例如,人们构造了大量知识库,这些知识库的构建规范和信息来源均有不同,例如著名的世界知识库有DBPedia,YAGO,Freebase等。大量实体和关系在不同知识库中的名称不同。如何实现多知识库的有机融合,对知识库应用具有重要意义。如果基于网络表示,该任务只能通过设计专门图算法来实现,效果较差,效率低下。而通过设计合理的表示学习模型,将不同来源的对象投影到同一个语义空间中,就能够建立统一的表示空间,实现多知识库的信息融合。此外,当进行信息检索或自然语言处理中应用知识库时,往往需要计算查询词、句子、文档和知识库实体之间的复杂语义关联。由于这些对象的异质性,计算它们的语义关联往往是棘手问题。而表示学习亦能为异质对象提供统一表示空问,从而实现异质对象之间的语义关联计算。
大规模知识库的构建过程中,往往会有大量的实体和关系需要从原始数据(可以是结构化的也可以是非结构化的)中被抽取出来,并以图的方式进行结构化存储,而我们依赖的原始数据往往存在于多源异构的环境中,因而海量的知识抽取和融合在所难免,这无疑对知识库的快速学习带来了很大的困难。
发明内容
本发明为克服上述现有技术所述的知识库的快速学习比较困难的缺陷,提供一种面向大规模知识库的快速学习方法。
所述方法包括以下步骤:
S1:知识提取:从异源异构的数据中进行知识数据的提取,知识数据为事实三元组,包括:实体和关系;
S2:知识表示:构建TransH模型,利用TransH模型,把知识数据中的所有实体和关系嵌入到低维向量空间中,从而实现知识数据的知识表示。
S3:知识融合:通过RLCD模型对经S2知识表示之后的知识数据进行融合,并将融合后的知识数据存入知识图谱;
S4:知识推理:从知识图谱中提取S3融合后的知识数据进行推理,并将推理后的知识数据存入知识图谱;获得更新的知识和结论。
优选地,S1中异源异构的数据包括:结构化数据、半结构化数据、非结构化数据。
优选地,S2中TransH模型的构建包括以下步骤:
S2.1一个正确的三元组(h,r,t)满足h+r=t,即头实体向量加上关系向量等于尾实体向量。假设三元组的实体和关系都在一个向量空间中;对每一个关系定义一个超平面Wr,和一个关系向量dr;h和t为h和t在Wr上的投影,三元组应满足h+dr=t。如果一个实体h"满足(h",r,t)∈Δ,其中Δ表示正确的三元组集合,则h和h"在Wr上的投影相同时,h"和h即可区分开来;
S2.2:在定义(h+r)和t的距离为:
Figure BDA0002069153220000032
一般情况下,取L1或者L2范式,对一个正确的三元组(h,r,t)来说,其距离d(h+r,t)越小越好,相反对于一个错误的三元组(h′,r,t′)来说,d(h′+r,t′)越大越好。
S2.3:对于平面Wr可以用法向量来表示,设wr为平面Wr的法向量,并加约束条件
Figure BDA0002069153220000031
求h在wr上的投影为:
hwr=wTrhwr
因为wTrh=|wr||h|cosθ表示h在wr方向上投影的长度(带正负号),wTrh乘以wr即为h在wr上的投影,所以:
h=h-hwr=h-wTrhwr
同样可得到:
t=t-twr=t-wTrtwr
S2.4:构建TransH模型:
Figure BDA0002069153220000048
优选地,TransH模型的目标函数为:
Figure BDA0002069153220000041
优选地,TransH模型的损失函数定义为:
Figure BDA0002069153220000047
其中,γ表示正负样本之间的间距,是一个常数;[x]+表示max(0,x)。
优选地,S3包括以下步骤:
S3.1:使用TransH模型对事实三元组进行训练;
S3.2:使用Doc2Vec编码器对实体描述进行训练;
S3.3:RLCD模型将实体的事实三元组和文本描述连接起来,从而输出嵌入包含文本实体描述和文本三元组的完整语义信息,进而能完成知识的融合;
S3.4:然后将融合完毕后的知识数据存入到知识图谱中。
优选地,S3.2包括以下步骤:
S3.2.1:首先在以c表示的中心词的上下文词中,随机生成N维的段落向量xparagraph-id和N维独热码向量xc-m,…,c+m,其中上下文的窗口大小为m;m值越大,说明文档向量中包含的围绕中心词的上下文相关性越大。窗口大小m的选择反映了与中心词和这些中心词的上下文词同时出现的概率。
S3.3.2:将向量xparagraph-id和独热码向量xc-m,…,c+m的维数从N维向量xc -m,…,c+m,paragraph-id减少到n维并嵌入vc-m,…,c+m,paragraph-id,嵌入公式为:
vc-m=x(c-m)V,vc-m+1=x(c-m+1)V,…,vc+m=x(c+m)V,vparagraph-id=xparagraph-idV
其中,V是一个N行n列的权重矩阵,vc-m为N维独热码向量xc-m降维后得到n维稠密向量,x(c-m)为一个上下文词向量;
S3.2.4:通过计算上下文词向量和段落嵌入的平均值来计算中心词向量
Figure BDA0002069153220000046
的值:
Figure BDA0002069153220000042
S3.2.5:将权重矩阵U与中心词向量
Figure BDA0002069153220000043
得到z,即
Figure BDA0002069153220000044
从而将中心词向量维数由n变回N,其中U表示n行N列的权重矩阵。。
S3.2.6:利用softmax函数将z转换为概率:
Figure BDA0002069153220000045
将一个独热码的中心向量乘以
Figure BDA0002069153220000051
最大化匹配概率
Figure BDA0002069153220000052
Figure BDA0002069153220000053
这类似于最小化-
Figure BDA0002069153220000054
使用梯度下降法(SGD)最小化损失函数值-
Figure BDA0002069153220000055
Figure BDA0002069153220000056
来更新段落向量,其中y表示分布概率。
优选地,S3.3包括以下步骤:
S3.3.1:定义能量函数E为:
E=Etriples+Edoc
Figure BDA0002069153220000057
其中,符号h和t分别表示头实体和尾实体。htriples和ttriples是来自事实三元组的实体的嵌入,rtriples为头实体和尾实体的关系向量。
Etriples为事实三元组的能量函数,Edoc是基于描述的三元组的能量函数。
S3.3.2:定义一个联合向量vJ
vJ=etriples+θ.edoc
其中θ为两个模型组合的权重参数,etriples表示事实三元组的实体向量,事实三元组由TransH模型得到,edoc表示实体描述中的实体向量,事实三元组由Doc2Vec编码器得到。
RLCD模型采取Xavier方法进行初始化,它是一种很有效的神经网络初始化方法,能使每一层输出的方差应该尽量相等,从而保证数据不仅是独立的,而且具有相同的数据分布。训练集包含实体描述和事实三元组。
S3.3.3:训练集为(htriples,rtriples,ttriples,hdoc,tdoc),其中,htriples和ttriples是来自事实三元组的实体的嵌入,rtriples为头实体和尾实体的关系向量;hdoc和tdoc是实体描述生成的语义向量;使用Xavier初始化方法对实体向量和关系向量进行初始化,使用负采样法构造训练样本,使用随机梯度下降(小批量)方法;在串行训练中,计算每个损失函数L:
Figure BDA0002069153220000058
对L的所有参数偏导,然后朝L值递减的方向更新实体向量和关系向量,其中γ表示正负样本之间的间距,为边界参数,是一个常数;d(h+r,t)是(h+r)和t的不相似函数,即L1范式。S是正确的三元组集合,S’包括正确的三元组和由该策略构造的不正确的三元组:如果正确的实体匹配头实体的数量多于剩下的实体匹配尾实体的数量,那么首先通过将这些三元组的尾部实体替换为知识图谱中的错误实体来训练剩下的实体的三元组;h'代表错误的头部实体,t'代表错误的尾部实体。
S3.3.4:经知识表示后的知识数据完成实体和关系的向量化,RLCD模型使用Doc2Vec编码器从知识数据的实体描述中获取实体向量,Doc2Vec编码器得到的实体向量就包含了事实三元组和实体描述的完整语义信息,有机地将实体描述的完整语义信息与事实三元组集合集成在一起,进而能完成知识的融合;然后将融合完毕后的知识数据存入到知识图谱中。
优选地,S4的具体操作为:对完成融合的知识数据进行推理,利用一阶查询重写的方法获取知识数据中新的知识或结论,然后重复知识融合的过程,进而完成对知识图谱的更新。
优选地,一阶查询重写是一种能高效地结合不同数据格式的数据源和关联不同查询语言的方法,一阶查询重写包括以下步骤:
S4.1.1:重写为Datalog查询。
S4.1.2:将数据库关系表达式映射成Datalog原子。
S4.1.3:将从SPARQL以及数据库重写过来的Datalog规则整合进行查询。
与现有技术相比,本发明技术方案的有益效果是:本发明合理地设计了一种包含复杂关系的建模和多源信息融合的方法,它能有效地涵盖人类不同类型的知识,实现异质信息的融合,是一种能面向大规模知识库的快速学习方法,可实现知识库的快速学习。
附图说明
图1为本发明所述面向大规模知识库的快速学习方法的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
本实施例提供一种面向大规模知识库的快速学习方法,如图1所示,所述方法包括以下步骤:
S1:知识提取:从异源异构的数据中进行知识数据的提取,知识数据包括:实体和关系;
S2:知识表示:构建TransH模型,利用TransH模型对S1提取的知识数据实体之间的关系进行知识表示;
TransH模型的构建过程:
S2.1:TransH模型的构建过程如下:假设三元组的实体和关系都在一个向量空间中。对每一个关系定义一个超平面Wr,和一个关系向量dr。h和t分别是h和t在Wr上的投影,一个正确的三元组应满足h+dr=t。如果一个实体h"满足(h",r,t)∈Δ,其中Δ表示正确的三元组集合,只需h和h"在Wr上的投影相同,就能将h"和h区分开来。
在transE模型中定义了(h+r)和t的距离为:
Figure BDA0002069153220000074
一般情况下,取L1者L2范式,对一个正确的三元组(h,r,t)来说,其距离d(h+r,t)越小越好,相反对于一个错误的三元组(h′,r,t′)来说,d(h′+r,t′)越大越好。
对于平面Wr可以用法向量来表示,不妨假设wr为平面Wr的法向量,并加约束条件
Figure BDA0002069153220000075
所以h在wr上的投影为
hwr=wTrhwr
因为wTrh=|wr||h|cosθ示h在wr方向上投影的长度(带正负号),wTrh乘以wr即为h在wr上的投影,所以:
h=h-hwr=h-wTrhwr
同样可得到:
t=t-twr=t-wTrtwr
所以:
Figure BDA0002069153220000073
因而目标函数为:
Figure BDA0002069153220000071
损失函数定义为:
Figure BDA0002069153220000072
S2.2:在提取的知识数据中,同一个实体在不同关系中的意义可能不相同,同时不同实体在同一关系中的意义也可能相同。利用TransH模型,把知识数据中的所有实体和关系嵌入到低维向量空间中,从而实现知识数据的知识表示。
S3:知识融合:通过RLCD模型对经S2知识表示之后的知识数据进行融合,并将融合后的知识数据存入知识图谱;
S3.1:Doc2Vec编码器的训练原理:首先在以c表示的中心词的上下文词中,随机生成N维的段落向量xparagraph-id和N维独热码向量xc-m,…,c+m,其中上下文的窗口大小为m;m值越大,说明文档向量中包含的围绕中心词的上下文相关性越大。窗口大小m的选择反映了与中心词和这些中心词的上下文词同时出现的概率;然后,将这些向量的维数从N维向量xc -m,…,c+m,paragraph-id减少到n维嵌入vc-m,…,c+m,paragraph-id,方法是将权重矩阵V相乘,如下式所示。V是一个N行n列的权重矩阵,其中n比N小得多:
vc-m=x(c-m)V,vc-m+1=x(c-m+1)V,…,vc+m=x(c+m)V,vparagraph-id=xparagraph-idV
通过计算上下文词向量和段落嵌入的平均值来计算中心词向量
Figure BDA0002069153220000081
的值:
Figure BDA0002069153220000082
接着,将权重矩阵U与中心词向量
Figure BDA0002069153220000083
得到z,即
Figure BDA0002069153220000084
从而将中心词向量维数由n变回N,其中U表示n行N列的权重矩阵。利用softmax函数将z转换为概率:
Figure BDA0002069153220000085
用一个独热码的中心向量乘以
Figure BDA0002069153220000086
最大化匹配概率
Figure BDA0002069153220000087
Figure BDA0002069153220000088
Figure BDA0002069153220000089
这类似于最小化-
Figure BDA00020691532200000810
使用梯度下降法(SGD)最小化损失函数值-
Figure BDA00020691532200000811
Figure BDA00020691532200000812
来更新段落向量,y表示分布概率。
S3.2:RLCD模型能把实体的事实三元组和文本描述连接起来,从而输出嵌入包含文本实体描述和文本三元组的完整语义信息,
RLCD模型的构建过程如下:使用TransH模型对事实三元组进行训练,以及使用Doc2Vec编码器对实体描述进行训练,符号h和t分别表示头实体和尾实体。htriples和ttriples是来自事实三元组的实体的嵌入,rtriples为头实体和尾实体的关系向量;定义能量函数E为:
E=Etriples+Edoc
其中Etriples为事实三元组的能量函数,它等于
Figure BDA0002069153220000092
Edoc是基于描述的三元组的能量函数。RLCD模型中定义了一个联合向量vJ
vJ=etriples+θ.edoc
其中θ为两个模型组合的权重参数,etriples表示事实三元组的实体向量,事实三元组由TransH模型得到,edoc表示实体描述中的实体向量,事实三元组由Doc2Vec编码器得到。
训练集为(htriples,rtriples,ttriples,hdoc,tdoc),其中,htriples和ttriples是来自事实三元组的实体的嵌入,rtriples为头实体和尾实体的关系向量;hdoc和tdoc是实体描述生成的语义向量;RLCD模型采取Xavier方法进行初始化,它是一种很有效的神经网络初始化方法,能使每一层输出的方差应该尽量相等,从而保证数据不仅是独立的,而且具有相同的数据分布。训练集包含实体描述和事实三元组。首先使用Xavier初始化方法对实体向量和关系向量进行初始化。然后使用负采样法构造训练样本,使用随机梯度下降(小批量)方法。在串行训练中,计算每个损失函数L:
Figure BDA0002069153220000091
对L的所有参数偏导,然后朝L值递减的方向更新实体向量和关系向量,其中γ表示正负样本之间的间距,为边界参数,是一个常数;d(h+r,t)是(h+r)和t的不相似函数,即L1范式;S是正确的三元组集合,S’包括正确的三元组和由该策略构造的不正确的三元组:如果正确的实体匹配头实体的数量多于剩下的实体匹配尾实体的数量,那么首先通过将这些三元组的尾部实体替换为知识图谱中的错误实体来训练剩下的实体的三元组;h'代表错误的头部实体,t'代表错误的尾部实体。
S3.3:经知识表示后的知识数据完成了实体和关系的向量化,RLCD模型使用Doc2Vec编码器从知识数据的实体描述中获取实体向量,这样Doc2Vec编码器得到的实体向量就包含了事实三元组和实体描述的完整语义信息,有机地将实体描述的完整语义信息与事实三元组集合集成在一起,进而能完成知识的融合。然后将融合完毕后的知识数据存入到知识图谱中。
S4:知识推理:从知识图谱中提取S3融合后的知识数据进行推理,并将推理后的知识数据存入知识图谱;获得更新的知识和结论。
S4.1:一阶查询重写是一种能高效地结合不同数据格式的数据源和关联不同查询语言的方法,查询重写步骤如下:
S4.1.1:重写为Datalog查询。
S4.1.2:将数据库关系表达式映射成Datalog原子。
S4.1.3:将从SPARQL以及数据库重写过来的Datalog规则整合进行查询。
S4.2:对下一次完成融合的知识数据进行推理,利用一阶查询重写的方法获取知识数据中新的知识或结论,然后重复知识融合的过程,进而完成对知识图谱的更新。
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.一种面向大规模知识库的快速学习方法,其特征在于,所述方法包括以下步骤:
S1:知识提取:从异源异构的数据中进行知识数据的提取,知识数据为事实三元组,包括:实体和关系;
S2:知识表示:构建TransH模型,利用TransH模型,把知识数据中的所有实体和关系嵌入到低维向量空间中,从而实现知识数据的知识表示;
S3:知识融合:通过RLCD模型对经S2知识表示之后的知识数据进行融合,并将融合后的知识数据存入知识图谱;
S4:知识推理:从知识图谱中提取S3融合后的知识数据进行推理,并将推理后的知识数据存入知识图谱;获得更新的知识和结论;
S3包括以下步骤:
S3.1:使用TransH模型对事实三元组进行训练;
S3.2:使用Doc2Vec编码器对实体描述进行训练;
S3.3:RLCD模型将实体的事实三元组和文本描述连接起来,从而输出嵌入包含文本实体描述和文本三元组的完整语义信息,进而能完成知识的融合;
S3.4:然后将融合完毕后的知识数据存入到知识图谱中;
S3.2包括以下步骤:
S3.2.1:首先在以c表示的中心词的上下文词中,随机生成N维的段落向量xparagraph-id和N维独热编码向量xc-m,…,c+m,其中上下文的窗口大小为m;S3.3.2:将向量xparagraph-id和独热编码向量xc-m,…,c+m的维数从N维向量xc-m,…,c+m,paragraph-id减少到n维并嵌入vc-m,…,c+m,paragraph-id中,嵌入公式为:
vc-m=x(c-m)V,vc-m+1=x(c-m+1)V,…,vc+m=x(c+m)V,vparagraph-id=xparagraph-idV
其中,V是一个N行n列的权重矩阵,vc-m为N维独热码向量xc-m降维后得到n维稠密向量,x(c-m)为一个上下文词向量;
S3.2.4:通过计算上下文词向量和段落嵌入的平均值来计算中心词向量
Figure FDA0004110902350000011
的值:
Figure FDA0004110902350000012
S3.2.5:将n行N列的权重矩阵U与中心词向量
Figure FDA0004110902350000021
相乘得到z,即
Figure FDA0004110902350000022
从而将中心词向量维数由n变回N;
S3.2.6:利用softmax函数将z转换为概率:
Figure FDA0004110902350000023
将一个独热码的中心向量乘以
Figure FDA0004110902350000024
最大化匹配概率
Figure FDA0004110902350000025
Figure FDA0004110902350000026
其中y表示分布概率。
2.根据权利要求1所述的面向大规模知识库的快速学习方法,其特征在于,S1中异源异构的数据包括:结构化数据、半结构化数据、非结构化数据。
3.根据权利要求1所述的面向大规模知识库的快速学习方法,其特征在于,S2中TransH模型的构建包括以下步骤:
一个正确的三元组(h,r,t)满足h+r=t,即头实体向量加上关系向量等于尾实体向量,其中h为头实体,r为关系,t为尾实体;
S2.1:假设三元组的实体和关系都在一个向量空间中;对每一个关系定义一个超平面Wr,和一个关系向量dr;h和t为h和t在Wr上的投影,三元组满足h+dr=t
S2.2:定义(h+r)和t的距离为:
Figure FDA0004110902350000027
S2.3:对于平面Wr可以用法向量来表示,设wr为平面Wr的法向量,并加约束条件
Figure FDA0004110902350000029
求h在wr上的投影为:
hwr=wTrhwr
又因为wTrh=|wr||h|cosθ表示h在wr方向上投影的长度,
wTrh乘以wr即为h在wr上的投影,所以:
h=h-hwr=h-wTrhwr
同样可得到:
t=t-twr=t-wTrtwr
S2.4:构建TransH模型:
Figure FDA0004110902350000028
4.根据权利要求3所述的面向大规模知识库的快速学习方法,其特征在于,TransH模型的目标函数为:
Figure FDA0004110902350000031
5.根据权利要求3所述的面向大规模知识库的快速学习方法,其特征在于,TransH模型的损失函数定义为:
Figure FDA0004110902350000032
其中,γ表示正负样本之间的间距,是一个常数;[x]+表示max(0,x)。
6.根据权利要求1所述的面向大规模知识库的快速学习方法,其特征在于,S3.3包括以下步骤:
S3.3.1:定义能量函数E为:
E=Etriples+Edoc
Figure FDA0004110902350000033
其中,符号h和t分别表示头实体和尾实体;htriples和ttriples是来自事实三元组的实体的嵌入,rtriples为头实体和尾实体的关系向量;Etriples为事实三元组的能量函数,Edoc是基于描述的三元组的能量函数;
S3.3.2:定义一个联合向量vJ
vJ=etriples+θ.edoc
其中θ为两个模型组合的权重参数,etriples表示事实三元组的实体向量,事实三元组由TransH模型得到,edoc表示实体描述中的实体向量,事实三元组由Doc2Vec编码器得到;
S3.3.3:训练集为(htriples,rtriples,ttriples,hdoc,tdoc),其中,htriples和ttriples是来自事实三元组的实体的嵌入,rtriples为头实体和尾实体的关系向量;hdoc和tdoc是实体描述生成的语义向量;使用Xavier初始化方法对实体向量和关系向量进行初始化,使用负采样法构造训练样本,使用随机梯度下降方法;在串行训练中,计算每个损失函数L:
Figure FDA0004110902350000034
对L的所有参数偏导,然后朝L值递减的方向更新实体向量和关系向量,
其中,γ表示正负样本之间的间距,为边界参数,是一个常数;d(h+r,t)是(h+r)和t的不相似函数,即L1范式;S是正确的三元组集合,S’包括正确的三元组和由所述负采样法构造的不正确的三元组;
S3.3.4:经知识表示后的知识数据完成实体和关系的向量化,RLCD模型使用Doc2Vec编码器从知识数据的实体描述中获取实体向量,Doc2Vec编码器得到的实体向量就包含了事实三元组和实体描述的完整语义信息,有机地将实体描述的完整语义信息与事实三元组集合集成在一起,进而能完成知识的融合;然后将融合完毕后的知识数据存入到知识图谱中。
7.根据权利要求1-6任一项所述的面向大规模知识库的快速学习方法,其特征在于,S4的具体操作为:对完成融合的知识数据进行推理,利用一阶查询重写的方法获取知识数据中新的知识或结论,然后重复知识融合的过程,进而完成对知识图谱的更新。
8.根据权利要求7所述的面向大规模知识库的快速学习方法,其特征在于,一阶查询重写是一种能高效地结合不同数据格式的数据源和关联不同查询语言的方法,一阶查询重写包括以下步骤:
S4.1.1:重写为Datalog查询;
S4.1.2:将数据库关系表达式映射成Datalog原子;
S4.1.3:将从SPARQL以及数据库重写过来的Datalog规则整合进行查询。
CN201910431538.0A 2019-05-22 2019-05-22 一种面向大规模知识库的快速学习方法 Active CN110275959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910431538.0A CN110275959B (zh) 2019-05-22 2019-05-22 一种面向大规模知识库的快速学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910431538.0A CN110275959B (zh) 2019-05-22 2019-05-22 一种面向大规模知识库的快速学习方法

Publications (2)

Publication Number Publication Date
CN110275959A CN110275959A (zh) 2019-09-24
CN110275959B true CN110275959B (zh) 2023-04-28

Family

ID=67960156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910431538.0A Active CN110275959B (zh) 2019-05-22 2019-05-22 一种面向大规模知识库的快速学习方法

Country Status (1)

Country Link
CN (1) CN110275959B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675876A (zh) * 2019-10-17 2020-01-10 珠海格力电器股份有限公司 一种语义识别智能控制方法、智能控制器、系统及存储介质
CN110909172B (zh) * 2019-10-22 2022-08-16 中国船舶重工集团公司第七0九研究所 一种基于实体距离的知识表示学习方法
CN110909881B (zh) * 2019-11-01 2022-11-04 中电科大数据研究院有限公司 一种面向跨媒体知识推理任务的知识表示方法
CN110866124B (zh) * 2019-11-06 2022-05-31 北京诺道认知医学科技有限公司 基于多数据源的医学知识图谱融合方法及装置
CN110825886A (zh) * 2019-11-14 2020-02-21 北京京航计算通讯研究所 知识图谱融合系统
CN110825887A (zh) * 2019-11-14 2020-02-21 北京京航计算通讯研究所 知识图谱融合方法
CN111198950B (zh) * 2019-12-24 2021-10-15 浙江工业大学 一种基于语义向量的知识图谱表示学习方法
CN111241301A (zh) * 2020-01-09 2020-06-05 天津大学 一种面向知识图谱表示学习的分布式框架构建方法
CN111241840A (zh) * 2020-01-21 2020-06-05 中科曙光(南京)计算技术有限公司 一种基于知识图谱的命名实体识别方法
CN113536742A (zh) * 2020-04-20 2021-10-22 阿里巴巴集团控股有限公司 基于知识图谱的描述文本生成方法、装置及电子设备
CN111651614A (zh) * 2020-07-16 2020-09-11 宁波方太厨具有限公司 药膳知识图谱的构建方法、系统、电子设备及存储介质
CN111723021B (zh) * 2020-07-23 2022-05-03 哈尔滨工业大学 一种基于知识库和表示学习的缺陷报告自动分派方法
CN111930778B (zh) * 2020-08-12 2024-02-23 中国银行股份有限公司 知识查询方法及装置
CN112102029B (zh) * 2020-08-20 2022-10-14 浙江大学 一种基于知识图谱的长尾推荐计算方法
CN112084347B (zh) * 2020-09-15 2023-08-25 东北大学 一种基于知识表示学习的数据检索方法及系统
CN112102937B (zh) 2020-11-13 2021-02-12 之江实验室 一种慢性病辅助决策的患者数据可视化方法及系统
CN112200321B (zh) * 2020-12-04 2021-04-06 同盾控股有限公司 基于知识联邦和图网络的推理方法、系统、设备及介质
CN112667819B (zh) * 2020-12-07 2024-09-24 数据地平线(广州)科技有限公司 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置
CN112487819A (zh) * 2020-12-18 2021-03-12 成都数联铭品科技有限公司 一种企业间同名人识别方法、系统、电子设备及存储介质
CN113239358A (zh) * 2021-03-11 2021-08-10 东南大学 基于知识图谱的开源软件漏洞挖掘方法
CN113779242A (zh) * 2021-07-30 2021-12-10 国网江苏省电力有限公司 一种新的电网监控告警事件识别算法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213872A (zh) * 2018-09-11 2019-01-15 中国电子科技集团公司第二十八研究所 基于知识表示学习的实体关系预测方法及预测系统
CN109669994A (zh) * 2018-12-21 2019-04-23 吉林大学 一种健康知识图谱的构建方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL159332A0 (en) * 1999-10-31 2004-06-01 Insyst Ltd A knowledge-engineering protocol-suite
US10162882B2 (en) * 2014-07-14 2018-12-25 Nternational Business Machines Corporation Automatically linking text to concepts in a knowledge base
US10089580B2 (en) * 2014-08-11 2018-10-02 Microsoft Technology Licensing, Llc Generating and using a knowledge-enhanced model
CN106844368B (zh) * 2015-12-03 2020-06-16 华为技术有限公司 用于人机对话的方法、神经网络系统和用户设备
CN105824802B (zh) * 2016-03-31 2018-10-30 清华大学 一种获取知识图谱向量化表示的方法以及装置
CN106528610A (zh) * 2016-09-28 2017-03-22 厦门理工学院 一种基于路径张量分解的知识图谱表示学习方法
US20190122111A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions
CN108509519B (zh) * 2018-03-09 2021-03-09 北京邮电大学 基于深度学习的通用知识图谱增强问答交互系统及方法
CN109033129B (zh) * 2018-06-04 2021-08-03 桂林电子科技大学 基于自适应权重的多源信息融合知识图谱表示学习方法
CN109189945A (zh) * 2018-09-28 2019-01-11 武汉理工大学 一种基于可信度向量的知识图谱表示学习方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213872A (zh) * 2018-09-11 2019-01-15 中国电子科技集团公司第二十八研究所 基于知识表示学习的实体关系预测方法及预测系统
CN109669994A (zh) * 2018-12-21 2019-04-23 吉林大学 一种健康知识图谱的构建方法及系统

Also Published As

Publication number Publication date
CN110275959A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN110275959B (zh) 一种面向大规模知识库的快速学习方法
Zhang et al. DeepDive: Declarative knowledge base construction
Zhang et al. An end-to-end deep learning architecture for graph classification
CN111382272B (zh) 一种基于知识图谱的电子病历icd自动编码方法
CN107766555B (zh) 基于软约束无监督型跨模态哈希的图像检索方法
Shen et al. Constraint-based entity matching
CN109446341A (zh) 知识图谱的构建方法及装置
CN111461157B (zh) 一种基于自学习的跨模态哈希检索方法
CN112241481A (zh) 基于图神经网络的跨模态新闻事件分类方法及系统
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN113051399B (zh) 一种基于关系型图卷积网络的小样本细粒度实体分类方法
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN111708937B (zh) 基于标签迁移的跨域推荐方法
CN112836051A (zh) 一种在线自学习的法院电子卷宗文本分类方法
Wang et al. Automatic knowledge base construction using probabilistic extraction, deductive reasoning, and human feedback
CN112732932A (zh) 一种基于知识图谱嵌入的用户实体群组推荐方法
CN117312989A (zh) 一种基于GCN和RoBERTa的上下文感知的列语义识别方法和系统
Kim et al. An optimization approach for semantic-based XML schema matching
Andrews et al. Robust entity clustering via phylogenetic inference
Pan et al. Semantic-similarity-based schema matching for management of building energy data
CN112800244B (zh) 一种中医药及民族医药知识图谱的构建方法
Satti et al. Semantic bridge for resolving healthcare data interoperability
CN110717014B (zh) 一种本体知识库动态构建方法
CN116226404A (zh) 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统
Tian et al. Multi-task learning and improved TextRank for knowledge graph completion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant