CN115438189A - 融合实体描述与路径信息的知识图谱表示学习模型的方法 - Google Patents
融合实体描述与路径信息的知识图谱表示学习模型的方法 Download PDFInfo
- Publication number
- CN115438189A CN115438189A CN202211068938.8A CN202211068938A CN115438189A CN 115438189 A CN115438189 A CN 115438189A CN 202211068938 A CN202211068938 A CN 202211068938A CN 115438189 A CN115438189 A CN 115438189A
- Authority
- CN
- China
- Prior art keywords
- entity
- path
- head
- vector
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合实体描述与路径信息的知识图谱表示学习模型的方法,首先从大型知识图谱Freebase中抽取两个子集作为训练集,结合Ruobing Xie人为训练集所做的实体描述,将二者输入微调过的强力优化的预训练语言表征模型RoBERT中,通过自注意力机制和一个包括4个全连接层、激活函数Relu的前馈神经网络进行训练学习,在最后一层输出融合实体描述的实体、关系表示学习向量;然后将知识图谱转化成融入有序关系路径信息的向量,输出所有训练集三元组的能量值EP;然后采用梯度下降优化三元组的向量表示,训练得到知识图谱表示学习模型。本发明提升表示学习路径建模效率,增强知识图谱表示学习模型的多跳推理能力。
Description
技术领域
本发明属于知识图谱技术领域,具体涉及一种融合实体描述与路径信息的知识图谱表示学习模型的方法。
背景技术
2012年,谷歌公司正式提出知识图谱(Knowledge Gragh)的概念。作为人工智能应用的关键技术,知识图谱具有清晰的三元组结构,在一个三元组中包含头实体、关系和尾实体,令G表示知识图谱,有G∈(E,R,S),其中E=(e1,e2,…,e|E|)表示所有实体集合,R=(r1,r2,…,r|R|)表示所有关系集合,采用三元组的形式来存储大型知识库的知识信息,可以更方便地融合各个领域的知识。目前,已经出现了众多大规模的知识图谱,诸如Freebase,Wordnet,中文知识图谱OpenKG等。然而,与客观世界相比,这些构建的知识图谱往往是不够完整的,缺失了大量的事实。为缓解数据的稀疏性问题,研究人员提出了知识图谱表示学习,其目的就是将知识图谱中的实体和关系投影到连续低维的向量空间,提升知识图谱上的推理能力。
知识图谱表示学习可以分成三类:几何模型,矩阵分解模型和深度学习模型。几何模型中,最经典的知识图谱表示学习模型是TransE模型,LIN等人为了在Trans系列模型的基础之上融入路径信息,提出PTransE模型。矩阵分解模型中,DistMult模型将所有关系强制表示成对角矩阵,这减少了要学习的参数空间,从而使模型更容易训练;CompIEx模型是一种基于复数的知识图谱表示学习,把握了知识图谱中的对称和非对称关系。深度学习模型中,ConvE模型首次引入2D卷积操作来执行链接预测任务,且将该模型扩展用于复杂知识图谱中;ConvKB模型使用了卷积神经网络,将每个三元组表示为三列矩阵并输入进卷积层,最后通过点积将特征向量与权重向量相乘得到分数。
目前,上述大多数知识图谱表示学习及推理模型都仅考虑知识图谱中单一三元组信息,然而,针对复杂问题,一般需要包含多个三元组的长路径进行多跳推理。因此,开展多跳知识图谱问答研究具有重要意义。
发明内容
本发明的目的是提供一种融合实体描述与路径信息的知识图谱表示学习模型的方法,提升表示学习路径建模效率,增强知识图谱表示学习模型的多跳推理能力。
本发明所采用的技术方案是,融合实体描述与路径信息的知识图谱表示学习模型的方法,其特征在于,具体按照以下步骤实施:
步骤1、从大型知识图谱Freebase中抽取两个子集作为训练集,结合Ruobing Xie人为训练集所做的实体描述,将二者输入进微调过的强力优化的预训练语言表征模型RoBERT中,通过自注意力机制和一个包括4个全连接层、激活函数Relu的前馈神经网络进行训练学习,在最后一层输出融合实体描述的实体、关系表示学习向量;
步骤2、利用基于有序关系路径的知识图补全表示学习OPTransE模型将知识图谱转化成融入有序关系路径信息的向量,输出所有训练集三元组的能量值EP;
步骤3、结合步骤1、步骤2输出的训练向量,计算出基于实体描述和路径信息的能量值ED,与基于路径信息的能量值EP相加,每个三元组的总能量值定义为ED+EP,然后采用梯度下降优化三元组的向量表示,目标是通过最小化总能量值,训练得到知识图谱表示学习模型。
本发明的特点还在于,
步骤1具体按照以下步骤实施:
步骤1.1、抽取大型知识图谱Freebase的两个子集——FB15k-237与FB15K中的三元组,将三元组视为包含三个句子的文本序列,并使用实体描述替换掉实体;本发明使用[CLS]分类标签和[SEP]分割标签,将原始RoBERTa模型调整为接收规定形式的文本序列输入,规定形式为头实体-关系-尾实体,调整后的模型输入具体如下:
S1.1.1、假定存在三元组(SteveJobs,founded,AppleInc),在每个输入序列的头部位置设置分类标签[CLS];
S1.1.2、将头实体“Steve Jobs.”或者是对应的实体描述“Steven Paul Jobs wasan American business mag-nate,entrepreneur and investor”表示成一个包含a个token的句子,token是自然语言输入进RoBERTa模型的最小单位,表示为单个英文词汇;
S1.1.5、在实体与关系之间加入特殊分割标签[SEP];
步骤1.2、将步骤1.1中所转化的文本序列进行初始化结构调整后,作为RoBERTa模型的输入,最后利用特殊分类标签[CLS]的隐态输出向量C预测三元组是否正确,通过模型中基于多头自注意力机制的多层Transfomer编码块对文本进行建模,使得每个词都能融合整个句子的信息,自注意力机制的定义如下:
从每个编码块的输入向量即每个单词的词向量中生成三个向量:查询向量Qi,键向量Ki和值向量Vi,令在第i个头的自注意力机制向量为Xi,分别根据按照公式(1)、(2)和(3)计算出Vi、Ki与Qi:
Vi=WVXi (1)
Ki=WKXi (2)
Qi=WQXi (3)
WQ、WK与WV为权重值,
最后根据Vi、Ki与Qi求表示学习向量Xi的对应归一化指数函数softmax:
在多头注意力机制下,每一个注意力头上都重复上述操作,通过不同的注意力头得到多个特征表示,将这些多头的输出特征向量进行拼接,与随机初始化的权重矩阵相乘,再连接一个全连接层进行降维;
得到多头注意机制后,在每个编码块中跟随一个LayerNormalize(层归一化)步骤,层归一化的操作如公式(5)和(6)所示:
Y=LayerNormalize([Y1;…;Yh]WY+X) (5)
其中,Y为注意力头输出,Relu为激活函数,W和b为可调参数,[Y1;…;Yh]表示对多头输出进行拼接,O=[o1,o2,…,on]为一个编码块的输出,这个输出同样作为下个编码块的输入,之后以此类推,直到最后一个编码块的输出结果作为整个Transformer的输出;
步骤1.3、对步骤1.2所输出的向量O求平均作为最终的模型输出,得到基于实体描述的向量。
步骤2具体按照以下步骤实施:
步骤2.1、对步骤1.1输入的三元组进行长路径建模:
公式(7)定义了能量函数E(h,ps=n,t),表示头实体,表示尾实体,表示关系,表示知识图谱中全体实体集合,表示全体关系集合,ps=i为从h到t的关系路径的其中一条,比如:n为关系路径个数,如果从h到t的路径是合理的,则得到的能量值较低,
hp=f(p,h),tp=g(p,t) (8)
hp与tp分别表示有序关系路径p中头实体h和尾实体t的表示学习向量,为给定路径p中关于第i个关系的序列矩阵,ri为第i个关系,直接相连的三元组(h,r,t)视为头实体h和尾实体t之间的存在单步路径r,因此,(h,r,t)的能量值可以通过将直接关系r当作ps =1代入公式(7)获得;
步骤2.2、将关系r对应的头实体h和尾实体t通过两个不同的投影矩阵分别投影到不同的超平面上,设Wr,1和Wr,2分别表示关系r的头实体和尾实体的投影矩阵,假设有一条从h到t的路径r1,r2,…,rn,定义以下公式(10):
其中,t(i)表示路径上的第i个节点,对于一条从h到t的关系路径的实体,在从等式(10)中消除传递节点之后获得它们的表示,等式(7)中变量的具体形式如下所示:
将路径中的尾实体投影到ps=n的空间中,其中表示路径ps=n的投影矩阵,此外,假设存在路径t′同时充当关系r1的尾实体和和r2的头实体,为了连接不同空间中的关系,公式(14)中定义Tk,其中,T2用于将传递节点t′从r2的头实体空间转移到r1的尾实体空间。k由1取到i,I表示单位矩阵,而M(rk,rk-1)表示从rk的头部实体空间到rk-1的尾部实体空间的空间转换矩阵;
步骤2.3、通过两层池化策略融合来自不同路径的信息,构造出三元组的总能量函数,其中第一层的池化策略将对所有i步路径中选择与r最匹配的路径;第二层将融合来自不同长度路径的信息,从不同长度的路径中提取非线性特征。
步骤2.3具体按照以下步骤实施:
第一层的池化策略:利用最小池化方法从i步路径中提取特征信息,并定义如下能量函数:
Pr(r,ps=i)表示r和ps=i的联合概率,Pr(ps=i)表示ps=i的边际概率,此外,N(r,ps =i)表示在知识图谱中r和ps=i连接同一实体对的情况数,N(ps=i)表示在知识图谱中ps=i的路径数,N(p)表示知识图谱中的路径总数,通过给定限制条件Pr(r|ps=i)>0过滤ps=i,得到所有过滤后的ps=i的集合
第二层的池化策略:定义如下总能量函数Efinal(h,r,t):
E(h,r,t)表示直接关系r的能量值,E(h,r,t)通过将r代入公式(16)中的ps=i计算得到。
步骤3具体按照以下步骤实施:
联合学习步骤2.3和步骤1.3中的能量函数,将三元组信息与路径信息和实体描述中的丰富信息相结合,定义总体能量函数如公式(18)所示:
E=EP+ED (18)
EP是步骤2.3给出的基于路径信息表示的总能量函数;ED是基于实体描述的能量函数,将EP和ED都嵌入到同一向量空间中,ED定义为公式(19)的形式:
ED=EDD+EDP+EPD (19)
EDD=||hdMr+r-tdMr|| (20)
EDP=||hdMr+r-tr|| (21)
EPD=||hr+r-tdMr|| (22)
其中,Mr是转置矩阵,EDD中的hd与td都是基于实体描述的头尾实体表示,r表示关系,EDP中的hd是基于实体描述的头实体表示,tr是基于路径信息的尾实体表示,EPD中的hr是基于实体描述的头实体表示,td是基于路径信息的尾实体表示;
最后选用基于边际的损失函数进行模型的训练,其定义如公式(23)下:
其中γ是正负样本集的边界参数,E(h,r,t)是(18)中定义的总能量函数,T是由正确的三元组集合(h,r,t)构成的训练集,T′是由错误的三元组集合(h′,r′,t′)构成的负样本集,R表示全体关系集合,T′定义如公式(24)下:
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪ (24){(h,r′,t)|r′∈R},(h,r,t)∈T
知识图谱表示学习模型是将知识图谱中的实体和关系通过特定规则表示成一个多维向量的过程,以最小化总能量值E为目标,通过迭代训练不断优化三元组的向量表示。训练完成后,得到的向量将具有更强大的多跳推理能力。
本发明的有益效果是,融合实体描述与路径信息的知识图谱表示学习模型的方法,隐式地捕获各个节点周围所有观察到和未观察到的链接的知识。通过设计两个Encoder端分别用于融入实体描述和路径信息,第一个Encoder端通过预训练语言模型RoBERTa提升对实体描述文本的表征能力,第二个Encoder端选择OPTransE模型进一步对知识图谱中的长关系路径进行描述,最后将二者融合,更好地进行包含多个三元组的长路径建模和提升知识图谱表示学习的多跳推理能力。
附图说明
图1是本发明融合实体描述与路径信息的知识图谱表示学习模型的架构图。
图2是本发明融合实体描述与路径信息的知识图谱表示学习模型中,微调后的RoBERTa结构示意图。
图3是本发明融合实体描述与路径信息的知识图谱表示学习模型中,基于路径信息的知识图谱表示学习模型架构的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明融合实体描述与路径信息的知识图谱表示学习模型的方法,结合图1所示,具体按照以下步骤实施:
步骤1、从大型知识图谱Freebase中抽取两个子集作为训练集,结合Ruobing Xie人为训练集所做的实体描述,将二者输入进微调过的强力优化的预训练语言表征模型RoBERT(A Robustly Optimized Bidirectional Encoder Representation fromTransformers)中,通过自注意力机制和一个包括4个全连接层、激活函数Relu(Linearrectification function,修正线性单元)的前馈神经网络进行训练学习,在最后一层输出融合实体描述的实体、关系表示学习向量;
步骤1具体按照以下步骤实施:
步骤1.1、抽取大型知识图谱Freebase的两个子集——FB15k-237与FB15K中的三元组,将三元组视为包含三个句子的文本序列,并使用实体描述替换掉实体;本发明使用[CLS]分类标签和[SEP]分割标签,将原始RoBERTa模型调整为接收规定形式的文本序列输入,规定形式为头实体-关系-尾实体,调整后的模型输入具体如下:
S1.1.1、假定存在三元组(SteveJobs,founded,AppleInc),在每个输入序列的头部位置设置分类标签[CLS];
S1.1.2、将头实体“Steve Jobs.”或者是对应的实体描述“Steven Paul Jobs wasan American business mag-nate,entrepreneur and investor”表示成一个包含a个token的句子,token是自然语言输入进RoBERTa模型的最小单位,表示为单个英文词汇;英文由于存在时态等表示,所以在输入模型前还需要将英文词汇切分为更细粒度的单位,例如:将founded单词就分割为found和##ed两个token。
S1.1.5、在实体与关系之间加入特殊分割标签[SEP];
步骤1.2、将步骤1.1中所转化的文本序列进行初始化结构调整后,作为RoBERTa模型的输入,最后利用特殊分类标签[CLS]的隐态输出向量C预测三元组是否正确,其中,RoBERTa的核心结构是双向Transformer模型,Transformer中拥有多个编码块,每个编码块都会包含一个自注意力层。(注:上述对输入结构的调整,即是本发明中所述的对Roberta模 型的微调)。图2是本发明微调后的RoBERTa结构示意图;通过模型中基于多头自注意力机制的多层Transfomer编码块对文本进行建模,使得每个词都能融合整个句子的信息,自注意力机制的定义如下:
从每个编码块的输入向量即每个单词的词向量中生成三个向量:查询向量Qi,键向量Ki和值向量Vi,令在第i个头的自注意力机制向量为Xi,分别根据按照公式(1)、(2)和(3)计算出Vi、Ki与Qi:
Vi=WVXi (1)
Ki=WKXi (2)
Qi=WQXi (3)
WQ、WK与WV为权重值,
最后根据Vi、Ki与Qi求表示学习向量Xi的对应归一化指数函数softmax:
在多头注意力机制下,每一个注意力头上都重复上述操作,通过不同的注意力头得到多个特征表示,将这些多头的输出特征向量进行拼接,与随机初始化的权重矩阵相乘,再连接一个全连接层进行降维;
得到多头注意机制后,在每个编码块中跟随一个LayerNormalize(层归一化)步骤,层归一化的操作如公式(5)和(6)所示:
Y=LayerNormalize([Y1;…;Yh]WY+X) (5)
其中,Y为注意力头输出,Relu为激活函数,W和b为可调参数,[Y1;…;Yh]表示对多头输出进行拼接,O=[o1,o2,…,on]为一个编码块的输出,这个输出同样作为下个编码块的输入,之后以此类推,直到最后一个编码块的输出结果作为整个Transformer的输出;
步骤1.3、对步骤1.2所输出的向量O求平均作为最终的模型输出,得到基于实体描述的向量。
步骤2、利用基于有序关系路径的知识图补全表示学习OPTransE模型(Representation learning with ordered relation paths for knowledge graphcompletion)将知识图谱转化成融入有序关系路径信息的向量,输出所有训练集三元组的能量值EP;
步骤2具体按照以下步骤实施:
如图3所示,首先将每个三元组的头实体和尾实体投影到不同的向量空间中,保证了关系路径的有序性,然后通过两个池化层来构造三元组的总能量函数。
步骤2.1、对步骤1.1输入的三元组进行长路径建模:
公式(7)定义了能量函数E(h,ps=n,t),表示头实体,表示尾实体,表示关系,表示知识图谱中全体实体集合,表示全体关系集合,ps=i为从h到t的关系路径的其中一条,比如:n为关系路径个数,如果从h到t的路径是合理的,则得到的能量值较低,
hp=f(p,h),tp=g(p,t) (8)
hp与to分别表示有序关系路径p中头实体h和尾实体t的表示学习向量,为给定路径p中关于第i个关系的序列矩阵,ri为第i个关系,直接相连的三元组(h,r,t)视为头实体h和尾实体t之间的存在单步路径r,因此,(h,r,t)的能量值可以通过将直接关系r当作ps =1代入公式(7)获得;
步骤2.2、将关系r对应的头实体h和尾实体t通过两个不同的投影矩阵分别投影到不同的超平面上,设Wr,1和Wr,2分别表示关系r的头实体和尾实体的投影矩阵,假设有一条从h到t的路径r1,r2,…,rn,定义以下公式(10):
其中,t(i)表示路径上的第i个节点,对于一条从h到t的关系路径的实体,在从等式(10)中消除传递节点之后获得它们的表示,等式(7)中变量的具体形式如下所示:
将路径中的尾实体投影到ps=n的空间中,其中表示路径ps=n的投影矩阵,此外,假设存在路径t′同时充当关系r1的尾实体和和r2的头实体,为了连接不同空间中的关系,公式(14)中定义Tk,其中,T2用于将传递节点t′从r2的头实体空间转移到r1的尾实体空间。k由1取到i,I表示单位矩阵,而M(rk,rk-1)表示从rk的头部实体空间到rk-1的尾部实体空间的空间转换矩阵;
步骤2.3、通过两层池化策略融合来自不同路径的信息,构造出三元组的总能量函数,其中第一层的池化策略将对所有i步路径中选择与r最匹配的路径;第二层将融合来自不同长度路径的信息,从不同长度的路径中提取非线性特征。
步骤2.3具体按照以下步骤实施:
第一层的池化策略:利用最小池化方法从i步路径中提取特征信息,并定义如下能量函数:
Pr(r,ps=i)表示r和ps=i的联合概率,Pr(ps=i)表示ps=i的边际概率,此外,N(r,ps =i)表示在知识图谱中r和ps=i连接同一实体对的情况数,N(ps=i)表示在知识图谱中ps=i的路径数,N(p)表示知识图谱中的路径总数,通过给定限制条件Pr(r|ps=i)>0过滤ps=i,得到所有过滤后的ps=i的集合
第二层的池化策略:为了融合来自不同长度路径的信息,定义如下总能量函数Efinal(h,r,t):
E(h,r,t)表示直接关系r的能量值,E(h,r,t)通过将r代入公式(16)中的ps=i计算得到。
步骤3、结合步骤1、步骤2输出的训练向量,计算出基于实体描述和路径信息的能量值ED,与基于路径信息的能量值EP相加,每个三元组的总能量值定义为ED+EP,然后采用梯度下降优化三元组的向量表示,目标是通过最小化总能量值,训练得到知识图谱表示学习模型。
步骤3具体按照以下步骤实施:
联合学习步骤2.3和步骤1.3中的能量函数,将三元组信息与路径信息和实体描述中的丰富信息相结合,定义总体能量函数如公式(18)所示:
E=EP+ED (18)
EP是步骤2.3给出的基于路径信息表示的总能量函数;ED是基于实体描述的能量函数,将EP和ED都嵌入到同一向量空间中,ED定义为公式(19)的形式:
ED=EDD+EDP+EPD (19)
EDD=||hdMr+r-tdMr|| (20)
EDP=||hdMr+r-tr|| (21)
EPD=||hr+r-tdMr|| (22)
其中,Mr是转置矩阵,EDD中的hd与td都是基于实体描述的头尾实体表示,r表示关系,EDP中的hd是基于实体描述的头实体表示,tr是基于路径信息的尾实体表示,EPD中的hr是基于实体描述的头实体表示,td是基于路径信息的尾实体表示;
最后选用基于边际的损失函数进行模型的训练,其定义如公式(23)下:
其中γ是正负样本集的边界参数,E(h,r,t)是(18)中定义的总能量函数,T是由正确的三元组集合(h,r,t)构成的训练集,T′是由错误的三元组集合(h′,r′,t′)构成的负样本集,R表示全体关系集合,T′定义如公式(24)下:
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪ (24){(h,r′,t)|r′∈R},(h,r,t)∈T
知识图谱表示学习模型是将知识图谱中的实体和关系通过特定规则表示成一个多维向量的过程,以最小化总能量值E为目标,通过迭代训练不断优化三元组的向量表示。训练完成后,得到的向量将具有更强大的多跳推理能力。
实施例
一.实验数据
使用三个被广泛使用的基准知识图谱数据集上进行实验,分别是:FB15K、FB15k-237和WN18RR。WordNet是一个基于认知语言学的英文词典,同时也是一个数据库。WN18RR作为WordNet的一个子集,具有涵盖范围广、测试量大两个优异特性。FB15k-237与FB15K是Freebase两个子集,其数据包含了非常多的的知识,包括关于人类、媒体、地理位置等等。
实验中FB15K数据集包含1345种关系和14951种实体。WIN18RR数据集包含11种关系和4094种实体;FB15k-237数据集包含237种关系和14541种实体。同时三个数据集其他数据分别划分为:训练集、验证集和测试集,其中训练集用来模型训练,验证集用来调整参数,测试集用来衡量最终模型的好坏。
表1各数据集的统计数据信息
二.模型训练
这里针对模型的两个Encoder分别做了不同的参数配置。
(1)融合实体描述的Encoder1训练
使用具有12个layer、12个self attention头和表示学习维度768的RoBERTa预训练语言模型作为方法的基础。微调过程中设置的参数如下:batch size=32,learningrate=5e-5,dropout rate=0.1,同时通过尝试这些超参数的其他组合,发现并没有太大的差异。
表2 Encoder1模型参数
(2)融合路径信息的Encoder2训练
参考了OPTransE中的最优参数配置,learning rate=0.0001,余量γ=50,γ1=5.0,γ2=5.5,平衡因子λ=0.01。在进行链路预测训练过程中,对一个正样本(正确三元组)采样5个负样本(错误三元组),尝试了1、3、5和10,发现1:5的实验结果是最好的。
表3 Encoder2模型参数
三、实验结果
在FB15K、FB15k-237和WN18RR三个数据集上对比分析本文模型与其他多个知识图谱表示学习基准模型的链路预测结果。具体的实验结果如表4、5和6所示。
表4 WN18RR单跳链路预测结果对比
表5 FB15k-237单跳链路预测结果对比
表6 FB15K单跳链路预测结果对比
为了评估模型的多跳推理能力,在FB15K知识图谱中遍历所有的头实体e1,存储所有对应的关系和尾实体e2,再以e2为头实体开始遍历、存储,就能得到2-hop的数据,3-hop的关系路径同理。获取相应的多跳数据之后,接下来开始进行多跳链路预测实现。由于具备多跳推理能力的模型较少,因此这里只选择PTransE和OPTransE作为基准对比方法。
表7 FB15K-2hop多跳链路预测结果对比
表8 FB15K-3hop多跳链路预测结果对比
四、实验结论
本发明知识图谱表示学习模型融合了实体描述与路径信息两种方法,通过实验验证了该方法的有效性。具体结论如下:
(1)本发明提出的融合实体描述与路径信息的知识图谱表示学习模型,在单跳链路预测实验中均取得了较好的结果。三个指标中Hits@10表现最好,Hits@10指的是正确的实体排名在前10的比例和,本模型分别达到了0.583、0.551、0.906,在三个数据集上均为最优。说明在知识图谱表示学习中,融入路径信息也是提升正确预测实体的准确率的可行方法。
(2)本发明提出的融合实体描述与路径信息的知识图谱表示学习模型,在2-hop和3-hop实验上的指标得分均优于PtransE和OPTransE。这是因为本文模型同时使用了实体描述和路径信息两个外部信息对原图谱进行补充,扩展了知识来源。实体描述可以帮忙捕捉知识图谱中隐藏的细节,例如,单纯的从Apple Inc这个实体名称中是无法判断出“苹果”这家公司的性质的,但是通过实体描述中的信息,就可以得到它是一家高科技公司这样一个事实。
Claims (5)
1.融合实体描述与路径信息的知识图谱表示学习模型的方法,其特征在于,具体按照以下步骤实施:
步骤1、从大型知识图谱Freebase中抽取两个子集作为训练集,结合Ruobing Xie人为训练集所做的实体描述,将二者输入进微调过的强力优化的预训练语言表征模型RoBERT中,通过自注意力机制和一个包括4个全连接层、激活函数Relu的前馈神经网络进行训练学习,在最后一层输出融合实体描述的实体、关系表示学习向量;
步骤2、利用基于有序关系路径的知识图补全表示学习OPTransE模型将知识图谱转化成融入有序关系路径信息的向量,输出所有训练集三元组的能量值EP;
步骤3、结合步骤1、步骤2输出的训练向量,计算出基于实体描述和路径信息的能量值ED,与基于路径信息的能量值EP相加,每个三元组的总能量值定义为ED+EP,然后采用梯度下降优化三元组的向量表示,目标是通过最小化总能量值,训练得到知识图谱表示学习模型。
2.根据权利要求1所述的融合实体描述与路径信息的知识图谱表示学习模型的方法,其特征在于,所述步骤1具体按照以下步骤实施:
步骤1.1、抽取大型知识图谱Freebase的两个子集——FB15k-237与FB15K中的三元组,将三元组视为包含三个句子的文本序列,并使用实体描述替换掉实体;本发明使用[CLS]分类标签和[SEP]分割标签,将原始RoBERTa模型调整为接收规定形式的文本序列输入,规定形式为头实体-关系-尾实体,调整后的模型输入具体如下:
S1.1.1、假定存在三元组(SteveJobs,founded,AppleInc),在每个输入序列的头部位置设置分类标签[CLS];
S1.1.2、将头实体“Steve Jobs.”或者是对应的实体描述“Steven Paul Jobs was anAmerican business mag-nate,entrepreneur and investor”表示成一个包含a个token的句子,token是自然语言输入进RoBERTa模型的最小单位,表示为单个英文词汇;
S1.1.5、在实体与关系之间加入特殊分割标签[SEP];
步骤1.2、将步骤1.1中所转化的文本序列进行初始化结构调整后,作为RoBERTa模型的输入,最后利用特殊分类标签[CLS]的隐态输出向量C预测三元组是否正确,通过模型中基于多头自注意力机制的多层Transfomer编码块对文本进行建模,使得每个词都能融合整个句子的信息,自注意力机制的定义如下:
从每个编码块的输入向量即每个单词的词向量中生成三个向量:查询向量Qi,键向量Ki和值向量Vi,令在第i个头的自注意力机制向量为Xi,分别根据按照公式(1)、(2)和(3)计算出Vi、Ki与Qi:
Vi=WVXi (1)
Ki=WKXi (2)
Qi=WQXi (3)
WQ、WK与WV为权重值,
最后根据Vi、Ki与Qi求表示学习向量Xi的对应归一化指数函数softmax:
在多头注意力机制下,每一个注意力头上都重复上述操作,通过不同的注意力头得到多个特征表示,将这些多头的输出特征向量进行拼接,与随机初始化的权重矩阵相乘,再连接一个全连接层进行降维;
得到多头注意机制后,在每个编码块中跟随一个LayerNormalize(层归一化)步骤,层归一化的操作如公式(5)和(6)所示:
Y=LayerNormalize([Y1;…;Yh]WY+X) (5)
其中,Y为注意力头输出,Relu为激活函数,W和b为可调参数,[Y1;…;Yh]表示对多头输出进行拼接,O=[o1,o2,…,on]为一个编码块的输出,这个输出同样作为下个编码块的输入,之后以此类推,直到最后一个编码块的输出结果作为整个Transformer的输出;
步骤1.3、对步骤1.2所输出的向量O求平均作为最终的模型输出,得到基于实体描述的向量。
3.根据权利要求2所述的融合实体描述与路径信息的知识图谱表示学习模型的方法,其特征在于,所述步骤2具体按照以下步骤实施:
步骤2.1、对步骤1.1输入的三元组进行长路径建模:
公式(7)定义了能量函数E(h,ps=n,t),表示头实体,表示尾实体,表示关系,表示知识图谱中全体实体集合,表示全体关系集合,ps=i为从h到t的关系路径的其中一条,比如:n为关系路径个数,如果从h到t的路径是合理的,则得到的能量值较低,
hp=f(p,h),tp=g(p,t) (8)
hp与tp分别表示有序关系路径p中头实体h和尾实体t的表示学习向量,为给定路径p中关于第i个关系的序列矩阵,ri为第i个关系,直接相连的三元组(h,r,t)视为头实体h和尾实体t之间的存在单步路径r,因此,(h,r,t)的能量值可以通过将直接关系r当作ps=1代入公式(7)获得;
步骤2.2、将关系r对应的头实体h和尾实体t通过两个不同的投影矩阵分别投影到不同的超平面上,设Wr,1和Wr,2分别表示关系r的头实体和尾实体的投影矩阵,假设有一条从h到t的路径r1,r2,…,rn,定义以下公式(10):
其中,t(i)表示路径上的第i个节点,对于一条从h到t的关系路径的实体,在从等式(10)中消除传递节点之后获得它们的表示,等式(7)中变量的具体形式如下所示:
将路径中的尾实体投影到ps=n的空间中,其中表示路径ps=n的投影矩阵,此外,假设存在路径同时充当关系r1的尾实体和和r2的头实体,为了连接不同空间中的关系,公式(14)中定义Tk,其中,T2用于将传递节点t′从r2的头实体空间转移到r1的尾实体空间,k由1取到i,I表示单位矩阵,而M(rk,rk-1)表示从rk的头部实体空间到rk-1的尾部实体空间的空间转换矩阵;
步骤2.3、通过两层池化策略融合来自不同路径的信息,构造出三元组的总能量函数,其中第一层的池化策略将对所有i步路径中选择与r最匹配的路径;第二层将融合来自不同长度路径的信息,从不同长度的路径中提取非线性特征。
4.根据权利要求3所述的融合实体描述与路径信息的知识图谱表示学习模型的方法,其特征在于,所述步骤2.3具体按照以下步骤实施:
第一层的池化策略:利用最小池化方法从i步路径中提取特征信息,并定义如下能量函数:
Pr(r,ps=i)表示r和ps=i的联合概率,Pr(ps=i)表示ps=i的边际概率,此外,N(r,ps=i)表示在知识图谱中r和ps=i连接同一实体对的情况数,N(ps=i)表示在知识图谱中ps=i的路径数,N(p)表示知识图谱中的路径总数,通过给定限制条件Pr(r|ps=i)>0过滤ps=i,得到所有过滤后的ps=i的集合
第二层的池化策略:定义如下总能量函数Efinal(h,r,t):
E(h,r,t)表示直接关系r的能量值,E(h,r,t)通过将r代入公式(16)中的ps=i计算得到。
5.根据权利要求4所述的融合实体描述与路径信息的知识图谱表示学习模型的方法,其特征在于,所述步骤3具体按照以下步骤实施:
联合学习步骤2.3和步骤1.3中的能量函数,将三元组信息与路径信息和实体描述中的丰富信息相结合,定义总体能量函数如公式(18)所示:
E=EP+ED (18)
EP是步骤2.3给出的基于路径信息表示的总能量函数;ED是基于实体描述的能量函数,将EP和ED都嵌入到同一向量空间中,ED定义为公式(19)的形式:
ED=EDD+EDP+EPD (19)
EDD=||hdMr+r-tdMr|| (20)
EDP||hdMr+r-tr|| (21)
EPD=||hr+r-tdMr|| (22)
其中,Mr是转置矩阵,EDD中的hd与td都是基于实体描述的头尾实体表示,r表示关系,EDP中的hd是基于实体描述的头实体表示,tr是基于路径信息的尾实体表示,EPD中的hr是基于实体描述的头实体表示,td是基于路径信息的尾实体表示;
最后选用基于边际的损失函数进行模型的训练,其定义如公式(23)下:
其中γ是正负样本集的边界参数,E(h,r,t)是(18)中定义的总能量函数,T是由正确的三元组集合(h,r,t)构成的训练集,T′是由错误的三元组集合(h′,r′,t′)构成的负样本集,R表示全体关系集合,T′定义如公式(24)下:
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪ (24)
{(h,r′,t)|r′∈R},(h,r,t)∈T
知识图谱表示学习模型是将知识图谱中的实体和关系通过特定规则表示成一个多维向量的过程,以最小化总能量值E为目标,通过迭代训练不断优化三元组的向量表示,训练完成后,得到的向量将具有更强大的多跳推理能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211068938.8A CN115438189A (zh) | 2022-08-30 | 2022-08-30 | 融合实体描述与路径信息的知识图谱表示学习模型的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211068938.8A CN115438189A (zh) | 2022-08-30 | 2022-08-30 | 融合实体描述与路径信息的知识图谱表示学习模型的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115438189A true CN115438189A (zh) | 2022-12-06 |
Family
ID=84248021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211068938.8A Pending CN115438189A (zh) | 2022-08-30 | 2022-08-30 | 融合实体描述与路径信息的知识图谱表示学习模型的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115438189A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304083A (zh) * | 2023-01-13 | 2023-06-23 | 北京控制工程研究所 | 性能-故障关系图谱的关系预测方法及装置 |
CN116842199A (zh) * | 2023-09-01 | 2023-10-03 | 东南大学 | 一种基于多粒度层次和动态嵌入的知识图谱补全方法 |
CN117172978A (zh) * | 2023-11-02 | 2023-12-05 | 北京国电通网络技术有限公司 | 学习路径信息生成方法、装置、电子设备和介质 |
CN117688121A (zh) * | 2024-02-04 | 2024-03-12 | 南京师范大学 | SubGNN注入空间特征的地理知识图谱表示学习方法 |
CN117851615A (zh) * | 2024-03-06 | 2024-04-09 | 云南师范大学 | 一种基于Transformer的关系模式自适应对比学习知识图谱嵌入方法 |
-
2022
- 2022-08-30 CN CN202211068938.8A patent/CN115438189A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304083A (zh) * | 2023-01-13 | 2023-06-23 | 北京控制工程研究所 | 性能-故障关系图谱的关系预测方法及装置 |
CN116304083B (zh) * | 2023-01-13 | 2023-09-15 | 北京控制工程研究所 | 性能-故障关系图谱的关系预测方法及装置 |
CN116842199A (zh) * | 2023-09-01 | 2023-10-03 | 东南大学 | 一种基于多粒度层次和动态嵌入的知识图谱补全方法 |
CN116842199B (zh) * | 2023-09-01 | 2023-12-26 | 东南大学 | 一种基于多粒度层次和动态嵌入的知识图谱补全方法 |
CN117172978A (zh) * | 2023-11-02 | 2023-12-05 | 北京国电通网络技术有限公司 | 学习路径信息生成方法、装置、电子设备和介质 |
CN117172978B (zh) * | 2023-11-02 | 2024-02-02 | 北京国电通网络技术有限公司 | 学习路径信息生成方法、装置、电子设备和介质 |
CN117688121A (zh) * | 2024-02-04 | 2024-03-12 | 南京师范大学 | SubGNN注入空间特征的地理知识图谱表示学习方法 |
CN117688121B (zh) * | 2024-02-04 | 2024-04-26 | 南京师范大学 | SubGNN注入空间特征的地理知识图谱表示学习方法 |
CN117851615A (zh) * | 2024-03-06 | 2024-04-09 | 云南师范大学 | 一种基于Transformer的关系模式自适应对比学习知识图谱嵌入方法 |
CN117851615B (zh) * | 2024-03-06 | 2024-05-03 | 云南师范大学 | 一种基于Transformer的关系模式自适应对比学习知识图谱嵌入方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115438189A (zh) | 融合实体描述与路径信息的知识图谱表示学习模型的方法 | |
JP7122582B2 (ja) | 演算処理装置、並びに文章評価装置、及び文章評価方法 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN113707235A (zh) | 基于自监督学习的药物小分子性质预测方法、装置及设备 | |
CN110543563B (zh) | 一种层次型文本分类方法及系统 | |
CN114169330A (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
Alfarra et al. | On the decision boundaries of neural networks: A tropical geometry perspective | |
CN108197294A (zh) | 一种基于深度学习的文本自动生成方法 | |
Anagnostopoulos et al. | Hypersphere ART and ARTMAP for unsupervised and supervised, incremental learning | |
CN110688585B (zh) | 一种基于神经网络和协同过滤的个性化电影推荐方法 | |
CN109446414B (zh) | 一种基于神经网络分类的软件信息站点快速标签推荐方法 | |
Wang et al. | Graph neural networks: Self-supervised learning | |
CN113240683B (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN112000772A (zh) | 面向智能问答基于语义特征立方体的句子对语义匹配方法 | |
CN113190688A (zh) | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 | |
CN112256727B (zh) | 基于人工智能技术的数据库查询处理及优化方法 | |
CN114741507B (zh) | 基于Transformer的图卷积网络的引文网络分类模型建立及分类 | |
CN115526236A (zh) | 一种基于多模态对比学习的文本网络图分类方法 | |
CN112766507A (zh) | 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法 | |
Alford et al. | Training behavior of sparse neural network topologies | |
CN111178543B (zh) | 一种基于元学习的概率域泛化学习方法 | |
Wu et al. | Graph convolutional kernel machine versus graph convolutional networks | |
Smart et al. | On the mapping between Hopfield networks and restricted Boltzmann machines | |
Xu et al. | Idhashgan: deep hashing with generative adversarial nets for incomplete data retrieval | |
CN110163716B (zh) | 一种基于卷积神经网络的红酒推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |