CN115438189A - 融合实体描述与路径信息的知识图谱表示学习模型的方法 - Google Patents

融合实体描述与路径信息的知识图谱表示学习模型的方法 Download PDF

Info

Publication number
CN115438189A
CN115438189A CN202211068938.8A CN202211068938A CN115438189A CN 115438189 A CN115438189 A CN 115438189A CN 202211068938 A CN202211068938 A CN 202211068938A CN 115438189 A CN115438189 A CN 115438189A
Authority
CN
China
Prior art keywords
entity
path
head
vector
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211068938.8A
Other languages
English (en)
Inventor
李军怀
武允文
王怀军
崔颖安
张发存
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202211068938.8A priority Critical patent/CN115438189A/zh
Publication of CN115438189A publication Critical patent/CN115438189A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种融合实体描述与路径信息的知识图谱表示学习模型的方法,首先从大型知识图谱Freebase中抽取两个子集作为训练集,结合Ruobing Xie人为训练集所做的实体描述,将二者输入微调过的强力优化的预训练语言表征模型RoBERT中,通过自注意力机制和一个包括4个全连接层、激活函数Relu的前馈神经网络进行训练学习,在最后一层输出融合实体描述的实体、关系表示学习向量;然后将知识图谱转化成融入有序关系路径信息的向量,输出所有训练集三元组的能量值EP;然后采用梯度下降优化三元组的向量表示,训练得到知识图谱表示学习模型。本发明提升表示学习路径建模效率,增强知识图谱表示学习模型的多跳推理能力。

Description

融合实体描述与路径信息的知识图谱表示学习模型的方法
技术领域
本发明属于知识图谱技术领域,具体涉及一种融合实体描述与路径信息的知识图谱表示学习模型的方法。
背景技术
2012年,谷歌公司正式提出知识图谱(Knowledge Gragh)的概念。作为人工智能应用的关键技术,知识图谱具有清晰的三元组结构,在一个三元组中包含头实体、关系和尾实体,令G表示知识图谱,有G∈(E,R,S),其中E=(e1,e2,…,e|E|)表示所有实体集合,R=(r1,r2,…,r|R|)表示所有关系集合,采用三元组的形式来存储大型知识库的知识信息,可以更方便地融合各个领域的知识。目前,已经出现了众多大规模的知识图谱,诸如Freebase,Wordnet,中文知识图谱OpenKG等。然而,与客观世界相比,这些构建的知识图谱往往是不够完整的,缺失了大量的事实。为缓解数据的稀疏性问题,研究人员提出了知识图谱表示学习,其目的就是将知识图谱中的实体和关系投影到连续低维的向量空间,提升知识图谱上的推理能力。
知识图谱表示学习可以分成三类:几何模型,矩阵分解模型和深度学习模型。几何模型中,最经典的知识图谱表示学习模型是TransE模型,LIN等人为了在Trans系列模型的基础之上融入路径信息,提出PTransE模型。矩阵分解模型中,DistMult模型将所有关系强制表示成对角矩阵,这减少了要学习的参数空间,从而使模型更容易训练;CompIEx模型是一种基于复数的知识图谱表示学习,把握了知识图谱中的对称和非对称关系。深度学习模型中,ConvE模型首次引入2D卷积操作来执行链接预测任务,且将该模型扩展用于复杂知识图谱中;ConvKB模型使用了卷积神经网络,将每个三元组表示为三列矩阵并输入进卷积层,最后通过点积将特征向量与权重向量相乘得到分数。
目前,上述大多数知识图谱表示学习及推理模型都仅考虑知识图谱中单一三元组信息,然而,针对复杂问题,一般需要包含多个三元组的长路径进行多跳推理。因此,开展多跳知识图谱问答研究具有重要意义。
发明内容
本发明的目的是提供一种融合实体描述与路径信息的知识图谱表示学习模型的方法,提升表示学习路径建模效率,增强知识图谱表示学习模型的多跳推理能力。
本发明所采用的技术方案是,融合实体描述与路径信息的知识图谱表示学习模型的方法,其特征在于,具体按照以下步骤实施:
步骤1、从大型知识图谱Freebase中抽取两个子集作为训练集,结合Ruobing Xie人为训练集所做的实体描述,将二者输入进微调过的强力优化的预训练语言表征模型RoBERT中,通过自注意力机制和一个包括4个全连接层、激活函数Relu的前馈神经网络进行训练学习,在最后一层输出融合实体描述的实体、关系表示学习向量;
步骤2、利用基于有序关系路径的知识图补全表示学习OPTransE模型将知识图谱转化成融入有序关系路径信息的向量,输出所有训练集三元组的能量值EP
步骤3、结合步骤1、步骤2输出的训练向量,计算出基于实体描述和路径信息的能量值ED,与基于路径信息的能量值EP相加,每个三元组的总能量值定义为ED+EP,然后采用梯度下降优化三元组的向量表示,目标是通过最小化总能量值,训练得到知识图谱表示学习模型。
本发明的特点还在于,
步骤1具体按照以下步骤实施:
步骤1.1、抽取大型知识图谱Freebase的两个子集——FB15k-237与FB15K中的三元组,将三元组视为包含三个句子的文本序列,并使用实体描述替换掉实体;本发明使用[CLS]分类标签和[SEP]分割标签,将原始RoBERTa模型调整为接收规定形式的文本序列输入,规定形式为头实体-关系-尾实体,调整后的模型输入具体如下:
S1.1.1、假定存在三元组(SteveJobs,founded,AppleInc),在每个输入序列的头部位置设置分类标签[CLS];
S1.1.2、将头实体“Steve Jobs.”或者是对应的实体描述“Steven Paul Jobs wasan American business mag-nate,entrepreneur and investor”表示成一个包含a个token的句子,
Figure BDA0003825363320000031
token是自然语言输入进RoBERTa模型的最小单位,表示为单个英文词汇;
S1.1.3、将关系“founded”表示成一个包含b个token的句子,
Figure BDA0003825363320000032
Figure BDA0003825363320000033
S1.1.4、将尾实体“Apple Inc.”或者是对应的实体描述同样被表示成一个包含c个token的句子:
Figure BDA0003825363320000034
S1.1.5、在实体与关系之间加入特殊分割标签[SEP];
步骤1.2、将步骤1.1中所转化的文本序列进行初始化结构调整后,作为RoBERTa模型的输入,最后利用特殊分类标签[CLS]的隐态输出向量C预测三元组是否正确,通过模型中基于多头自注意力机制的多层Transfomer编码块对文本进行建模,使得每个词都能融合整个句子的信息,自注意力机制的定义如下:
从每个编码块的输入向量即每个单词的词向量中生成三个向量:查询向量Qi,键向量Ki和值向量Vi,令在第i个头的自注意力机制向量为Xi,分别根据按照公式(1)、(2)和(3)计算出Vi、Ki与Qi
Vi=WVXi (1)
Ki=WKXi (2)
Qi=WQXi (3)
WQ、WK与WV为权重值,
最后根据Vi、Ki与Qi求表示学习向量Xi的对应归一化指数函数softmax:
Figure BDA0003825363320000041
dk为Qi维数,Attention为自注意力,
Figure BDA0003825363320000042
为Ki的转置,
在多头注意力机制下,每一个注意力头上都重复上述操作,通过不同的注意力头得到多个特征表示,将这些多头的输出特征向量进行拼接,与随机初始化的权重矩阵相乘,再连接一个全连接层进行降维;
得到多头注意机制后,在每个编码块中跟随一个LayerNormalize(层归一化)步骤,层归一化的操作如公式(5)和(6)所示:
Y=LayerNormalize([Y1;…;Yh]WY+X) (5)
Figure BDA0003825363320000043
其中,Y为注意力头输出,Relu为激活函数,W和b为可调参数,[Y1;…;Yh]表示对多头输出进行拼接,O=[o1,o2,…,on]为一个编码块的输出,这个输出同样作为下个编码块的输入,之后以此类推,直到最后一个编码块的输出结果作为整个Transformer的输出;
步骤1.3、对步骤1.2所输出的向量O求平均作为最终的模型输出,得到基于实体描述的向量。
步骤2具体按照以下步骤实施:
步骤2.1、对步骤1.1输入的三元组进行长路径建模:
公式(7)定义了能量函数E(h,ps=n,t),
Figure BDA0003825363320000051
表示头实体,
Figure BDA0003825363320000052
表示尾实体,
Figure BDA0003825363320000053
表示关系,
Figure BDA0003825363320000054
表示知识图谱中全体实体集合,
Figure BDA0003825363320000055
表示全体关系集合,ps=i为从h到t的关系路径的其中一条,比如:
Figure BDA0003825363320000056
n为关系路径个数,如果从h到t的路径是合理的,则得到的能量值较低,
Figure BDA0003825363320000057
hp=f(p,h),tp=g(p,t) (8)
Figure BDA0003825363320000058
hp与tp分别表示有序关系路径p中头实体h和尾实体t的表示学习向量,
Figure BDA0003825363320000059
为给定路径p中关于第i个关系的序列矩阵,ri为第i个关系,直接相连的三元组(h,r,t)视为头实体h和尾实体t之间的存在单步路径r,因此,(h,r,t)的能量值可以通过将直接关系r当作ps =1代入公式(7)获得;
步骤2.2、将关系r对应的头实体h和尾实体t通过两个不同的投影矩阵分别投影到不同的超平面上,设Wr,1和Wr,2分别表示关系r的头实体和尾实体的投影矩阵,假设有一条从h到t的路径r1,r2,…,rn,定义以下公式(10):
Figure BDA0003825363320000061
其中,t(i)表示路径上的第i个节点,对于一条从h到t的关系路径的实体,在从等式(10)中消除传递节点之后获得它们的表示,等式(7)中变量的具体形式如下所示:
Figure BDA0003825363320000062
Figure BDA0003825363320000063
Figure BDA0003825363320000064
Figure BDA0003825363320000065
将路径中的尾实体投影到ps=n的空间中,其中
Figure BDA0003825363320000066
表示路径ps=n的投影矩阵,此外,假设存在路径
Figure BDA0003825363320000067
t′同时充当关系r1的尾实体和和r2的头实体,为了连接不同空间中的关系,公式(14)中定义Tk,其中,T2用于将传递节点t′从r2的头实体空间转移到r1的尾实体空间。k由1取到i,I表示单位矩阵,而M(rk,rk-1)表示从rk的头部实体空间到rk-1的尾部实体空间的空间转换矩阵;
步骤2.3、通过两层池化策略融合来自不同路径的信息,构造出三元组的总能量函数,其中第一层的池化策略将对所有i步路径中选择与r最匹配的路径;第二层将融合来自不同长度路径的信息,从不同长度的路径中提取非线性特征。
步骤2.3具体按照以下步骤实施:
第一层的池化策略:利用最小池化方法从i步路径中提取特征信息,并定义如下能量函数:
Figure BDA0003825363320000071
其中,定义能量函数
Figure BDA0003825363320000072
Figure BDA0003825363320000073
表示与从头实体h到尾实体t经过关系r的所有i步路径的集合,为了获得
Figure BDA0003825363320000074
引入条件概率Pr(r|ps=i)判断给定关系r的情况下路径ps=i的可行概率:
Figure BDA0003825363320000075
Pr(r,ps=i)表示r和ps=i的联合概率,Pr(ps=i)表示ps=i的边际概率,此外,N(r,ps =i)表示在知识图谱中r和ps=i连接同一实体对的情况数,N(ps=i)表示在知识图谱中ps=i的路径数,N(p)表示知识图谱中的路径总数,通过给定限制条件Pr(r|ps=i)>0过滤ps=i,得到所有过滤后的ps=i的集合
Figure BDA0003825363320000076
第二层的池化策略:定义如下总能量函数Efinal(h,r,t):
Figure BDA0003825363320000077
E(h,r,t)表示直接关系r的能量值,E(h,r,t)通过将r代入公式(16)中的ps=i计算得到。
步骤3具体按照以下步骤实施:
联合学习步骤2.3和步骤1.3中的能量函数,将三元组信息与路径信息和实体描述中的丰富信息相结合,定义总体能量函数如公式(18)所示:
E=EP+ED (18)
EP是步骤2.3给出的基于路径信息表示的总能量函数;ED是基于实体描述的能量函数,将EP和ED都嵌入到同一向量空间中,ED定义为公式(19)的形式:
ED=EDD+EDP+EPD (19)
EDD=||hdMr+r-tdMr|| (20)
EDP=||hdMr+r-tr|| (21)
EPD=||hr+r-tdMr|| (22)
其中,Mr是转置矩阵,EDD中的hd与td都是基于实体描述的头尾实体表示,r表示关系,EDP中的hd是基于实体描述的头实体表示,tr是基于路径信息的尾实体表示,EPD中的hr是基于实体描述的头实体表示,td是基于路径信息的尾实体表示;
最后选用基于边际的损失函数进行模型的训练,其定义如公式(23)下:
Figure BDA0003825363320000081
其中γ是正负样本集的边界参数,E(h,r,t)是(18)中定义的总能量函数,T是由正确的三元组集合(h,r,t)构成的训练集,T′是由错误的三元组集合(h′,r′,t′)构成的负样本集,R表示全体关系集合,T′定义如公式(24)下:
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪ (24){(h,r′,t)|r′∈R},(h,r,t)∈T
知识图谱表示学习模型是将知识图谱中的实体和关系通过特定规则表示成一个多维向量的过程,以最小化总能量值E为目标,通过迭代训练不断优化三元组的向量表示。训练完成后,得到的向量将具有更强大的多跳推理能力。
本发明的有益效果是,融合实体描述与路径信息的知识图谱表示学习模型的方法,隐式地捕获各个节点周围所有观察到和未观察到的链接的知识。通过设计两个Encoder端分别用于融入实体描述和路径信息,第一个Encoder端通过预训练语言模型RoBERTa提升对实体描述文本的表征能力,第二个Encoder端选择OPTransE模型进一步对知识图谱中的长关系路径进行描述,最后将二者融合,更好地进行包含多个三元组的长路径建模和提升知识图谱表示学习的多跳推理能力。
附图说明
图1是本发明融合实体描述与路径信息的知识图谱表示学习模型的架构图。
图2是本发明融合实体描述与路径信息的知识图谱表示学习模型中,微调后的RoBERTa结构示意图。
图3是本发明融合实体描述与路径信息的知识图谱表示学习模型中,基于路径信息的知识图谱表示学习模型架构的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明融合实体描述与路径信息的知识图谱表示学习模型的方法,结合图1所示,具体按照以下步骤实施:
步骤1、从大型知识图谱Freebase中抽取两个子集作为训练集,结合Ruobing Xie人为训练集所做的实体描述,将二者输入进微调过的强力优化的预训练语言表征模型RoBERT(A Robustly Optimized Bidirectional Encoder Representation fromTransformers)中,通过自注意力机制和一个包括4个全连接层、激活函数Relu(Linearrectification function,修正线性单元)的前馈神经网络进行训练学习,在最后一层输出融合实体描述的实体、关系表示学习向量;
步骤1具体按照以下步骤实施:
步骤1.1、抽取大型知识图谱Freebase的两个子集——FB15k-237与FB15K中的三元组,将三元组视为包含三个句子的文本序列,并使用实体描述替换掉实体;本发明使用[CLS]分类标签和[SEP]分割标签,将原始RoBERTa模型调整为接收规定形式的文本序列输入,规定形式为头实体-关系-尾实体,调整后的模型输入具体如下:
S1.1.1、假定存在三元组(SteveJobs,founded,AppleInc),在每个输入序列的头部位置设置分类标签[CLS];
S1.1.2、将头实体“Steve Jobs.”或者是对应的实体描述“Steven Paul Jobs wasan American business mag-nate,entrepreneur and investor”表示成一个包含a个token的句子,
Figure BDA0003825363320000101
token是自然语言输入进RoBERTa模型的最小单位,表示为单个英文词汇;英文由于存在时态等表示,所以在输入模型前还需要将英文词汇切分为更细粒度的单位,例如:将founded单词就分割为found和##ed两个token。
S1.1.3、将关系“founded”表示成一个包含b个token的句子,
Figure BDA0003825363320000102
Figure BDA0003825363320000103
S1.1.4、将尾实体“Apple Inc.”或者是对应的实体描述同样被表示成一个包含c个token的句子:
Figure BDA0003825363320000104
S1.1.5、在实体与关系之间加入特殊分割标签[SEP];
步骤1.2、将步骤1.1中所转化的文本序列进行初始化结构调整后,作为RoBERTa模型的输入,最后利用特殊分类标签[CLS]的隐态输出向量C预测三元组是否正确,其中,RoBERTa的核心结构是双向Transformer模型,Transformer中拥有多个编码块,每个编码块都会包含一个自注意力层。(注:上述对输入结构的调整,即是本发明中所述的对Roberta模 型的微调)。图2是本发明微调后的RoBERTa结构示意图;通过模型中基于多头自注意力机制的多层Transfomer编码块对文本进行建模,使得每个词都能融合整个句子的信息,自注意力机制的定义如下:
从每个编码块的输入向量即每个单词的词向量中生成三个向量:查询向量Qi,键向量Ki和值向量Vi,令在第i个头的自注意力机制向量为Xi,分别根据按照公式(1)、(2)和(3)计算出Vi、Ki与Qi
Vi=WVXi (1)
Ki=WKXi (2)
Qi=WQXi (3)
WQ、WK与WV为权重值,
最后根据Vi、Ki与Qi求表示学习向量Xi的对应归一化指数函数softmax:
Figure BDA0003825363320000111
dk为Qi维数,Attention为自注意力,
Figure BDA0003825363320000112
为Ki的转置,
在多头注意力机制下,每一个注意力头上都重复上述操作,通过不同的注意力头得到多个特征表示,将这些多头的输出特征向量进行拼接,与随机初始化的权重矩阵相乘,再连接一个全连接层进行降维;
得到多头注意机制后,在每个编码块中跟随一个LayerNormalize(层归一化)步骤,层归一化的操作如公式(5)和(6)所示:
Y=LayerNormalize([Y1;…;Yh]WY+X) (5)
Figure BDA0003825363320000113
其中,Y为注意力头输出,Relu为激活函数,W和b为可调参数,[Y1;…;Yh]表示对多头输出进行拼接,O=[o1,o2,…,on]为一个编码块的输出,这个输出同样作为下个编码块的输入,之后以此类推,直到最后一个编码块的输出结果作为整个Transformer的输出;
步骤1.3、对步骤1.2所输出的向量O求平均作为最终的模型输出,得到基于实体描述的向量。
步骤2、利用基于有序关系路径的知识图补全表示学习OPTransE模型(Representation learning with ordered relation paths for knowledge graphcompletion)将知识图谱转化成融入有序关系路径信息的向量,输出所有训练集三元组的能量值EP
步骤2具体按照以下步骤实施:
如图3所示,首先将每个三元组的头实体和尾实体投影到不同的向量空间中,保证了关系路径的有序性,然后通过两个池化层来构造三元组的总能量函数。
步骤2.1、对步骤1.1输入的三元组进行长路径建模:
公式(7)定义了能量函数E(h,ps=n,t),
Figure BDA0003825363320000121
表示头实体,
Figure BDA0003825363320000122
表示尾实体,
Figure BDA0003825363320000123
表示关系,
Figure BDA0003825363320000124
表示知识图谱中全体实体集合,
Figure BDA0003825363320000125
表示全体关系集合,ps=i为从h到t的关系路径的其中一条,比如:
Figure BDA0003825363320000126
n为关系路径个数,如果从h到t的路径是合理的,则得到的能量值较低,
Figure BDA0003825363320000127
hp=f(p,h),tp=g(p,t) (8)
Figure BDA0003825363320000128
hp与to分别表示有序关系路径p中头实体h和尾实体t的表示学习向量,
Figure BDA0003825363320000131
为给定路径p中关于第i个关系的序列矩阵,ri为第i个关系,直接相连的三元组(h,r,t)视为头实体h和尾实体t之间的存在单步路径r,因此,(h,r,t)的能量值可以通过将直接关系r当作ps =1代入公式(7)获得;
步骤2.2、将关系r对应的头实体h和尾实体t通过两个不同的投影矩阵分别投影到不同的超平面上,设Wr,1和Wr,2分别表示关系r的头实体和尾实体的投影矩阵,假设有一条从h到t的路径r1,r2,…,rn,定义以下公式(10):
Figure BDA0003825363320000132
其中,t(i)表示路径上的第i个节点,对于一条从h到t的关系路径的实体,在从等式(10)中消除传递节点之后获得它们的表示,等式(7)中变量的具体形式如下所示:
Figure BDA0003825363320000133
Figure BDA0003825363320000134
Figure BDA0003825363320000135
Figure BDA0003825363320000136
将路径中的尾实体投影到ps=n的空间中,其中
Figure BDA0003825363320000137
表示路径ps=n的投影矩阵,此外,假设存在路径
Figure BDA0003825363320000138
t′同时充当关系r1的尾实体和和r2的头实体,为了连接不同空间中的关系,公式(14)中定义Tk,其中,T2用于将传递节点t′从r2的头实体空间转移到r1的尾实体空间。k由1取到i,I表示单位矩阵,而M(rk,rk-1)表示从rk的头部实体空间到rk-1的尾部实体空间的空间转换矩阵;
步骤2.3、通过两层池化策略融合来自不同路径的信息,构造出三元组的总能量函数,其中第一层的池化策略将对所有i步路径中选择与r最匹配的路径;第二层将融合来自不同长度路径的信息,从不同长度的路径中提取非线性特征。
步骤2.3具体按照以下步骤实施:
第一层的池化策略:利用最小池化方法从i步路径中提取特征信息,并定义如下能量函数:
Figure BDA0003825363320000141
其中,定义能量函数
Figure BDA0003825363320000142
Figure BDA0003825363320000143
表示与从头实体h到尾实体t经过关系r的所有i步路径的集合,为了获得
Figure BDA0003825363320000144
引入条件概率Pr(r|ps=i)判断给定关系r的情况下路径ps=i的可行概率:
Figure BDA0003825363320000145
Pr(r,ps=i)表示r和ps=i的联合概率,Pr(ps=i)表示ps=i的边际概率,此外,N(r,ps =i)表示在知识图谱中r和ps=i连接同一实体对的情况数,N(ps=i)表示在知识图谱中ps=i的路径数,N(p)表示知识图谱中的路径总数,通过给定限制条件Pr(r|ps=i)>0过滤ps=i,得到所有过滤后的ps=i的集合
Figure BDA0003825363320000146
第二层的池化策略:为了融合来自不同长度路径的信息,定义如下总能量函数Efinal(h,r,t):
Figure BDA0003825363320000147
E(h,r,t)表示直接关系r的能量值,E(h,r,t)通过将r代入公式(16)中的ps=i计算得到。
步骤3、结合步骤1、步骤2输出的训练向量,计算出基于实体描述和路径信息的能量值ED,与基于路径信息的能量值EP相加,每个三元组的总能量值定义为ED+EP,然后采用梯度下降优化三元组的向量表示,目标是通过最小化总能量值,训练得到知识图谱表示学习模型。
步骤3具体按照以下步骤实施:
联合学习步骤2.3和步骤1.3中的能量函数,将三元组信息与路径信息和实体描述中的丰富信息相结合,定义总体能量函数如公式(18)所示:
E=EP+ED (18)
EP是步骤2.3给出的基于路径信息表示的总能量函数;ED是基于实体描述的能量函数,将EP和ED都嵌入到同一向量空间中,ED定义为公式(19)的形式:
ED=EDD+EDP+EPD (19)
EDD=||hdMr+r-tdMr|| (20)
EDP=||hdMr+r-tr|| (21)
EPD=||hr+r-tdMr|| (22)
其中,Mr是转置矩阵,EDD中的hd与td都是基于实体描述的头尾实体表示,r表示关系,EDP中的hd是基于实体描述的头实体表示,tr是基于路径信息的尾实体表示,EPD中的hr是基于实体描述的头实体表示,td是基于路径信息的尾实体表示;
最后选用基于边际的损失函数进行模型的训练,其定义如公式(23)下:
Figure BDA0003825363320000151
其中γ是正负样本集的边界参数,E(h,r,t)是(18)中定义的总能量函数,T是由正确的三元组集合(h,r,t)构成的训练集,T′是由错误的三元组集合(h′,r′,t′)构成的负样本集,R表示全体关系集合,T′定义如公式(24)下:
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪ (24){(h,r′,t)|r′∈R},(h,r,t)∈T
知识图谱表示学习模型是将知识图谱中的实体和关系通过特定规则表示成一个多维向量的过程,以最小化总能量值E为目标,通过迭代训练不断优化三元组的向量表示。训练完成后,得到的向量将具有更强大的多跳推理能力。
实施例
一.实验数据
使用三个被广泛使用的基准知识图谱数据集上进行实验,分别是:FB15K、FB15k-237和WN18RR。WordNet是一个基于认知语言学的英文词典,同时也是一个数据库。WN18RR作为WordNet的一个子集,具有涵盖范围广、测试量大两个优异特性。FB15k-237与FB15K是Freebase两个子集,其数据包含了非常多的的知识,包括关于人类、媒体、地理位置等等。
实验中FB15K数据集包含1345种关系和14951种实体。WIN18RR数据集包含11种关系和4094种实体;FB15k-237数据集包含237种关系和14541种实体。同时三个数据集其他数据分别划分为:训练集、验证集和测试集,其中训练集用来模型训练,验证集用来调整参数,测试集用来衡量最终模型的好坏。
表1各数据集的统计数据信息
Figure BDA0003825363320000161
Figure BDA0003825363320000171
二.模型训练
这里针对模型的两个Encoder分别做了不同的参数配置。
(1)融合实体描述的Encoder1训练
使用具有12个layer、12个self attention头和表示学习维度768的RoBERTa预训练语言模型作为方法的基础。微调过程中设置的参数如下:batch size=32,learningrate=5e-5,dropout rate=0.1,同时通过尝试这些超参数的其他组合,发现并没有太大的差异。
表2 Encoder1模型参数
Figure BDA0003825363320000172
(2)融合路径信息的Encoder2训练
参考了OPTransE中的最优参数配置,learning rate=0.0001,余量γ=50,γ1=5.0,γ2=5.5,平衡因子λ=0.01。在进行链路预测训练过程中,对一个正样本(正确三元组)采样5个负样本(错误三元组),尝试了1、3、5和10,发现1:5的实验结果是最好的。
表3 Encoder2模型参数
Figure BDA0003825363320000173
三、实验结果
在FB15K、FB15k-237和WN18RR三个数据集上对比分析本文模型与其他多个知识图谱表示学习基准模型的链路预测结果。具体的实验结果如表4、5和6所示。
表4 WN18RR单跳链路预测结果对比
Figure BDA0003825363320000181
表5 FB15k-237单跳链路预测结果对比
Figure BDA0003825363320000182
表6 FB15K单跳链路预测结果对比
Figure BDA0003825363320000183
Figure BDA0003825363320000191
为了评估模型的多跳推理能力,在FB15K知识图谱中遍历所有的头实体e1,存储所有对应的关系和尾实体e2,再以e2为头实体开始遍历、存储,就能得到2-hop的数据,3-hop的关系路径同理。获取相应的多跳数据之后,接下来开始进行多跳链路预测实现。由于具备多跳推理能力的模型较少,因此这里只选择PTransE和OPTransE作为基准对比方法。
表7 FB15K-2hop多跳链路预测结果对比
Figure BDA0003825363320000192
表8 FB15K-3hop多跳链路预测结果对比
Figure BDA0003825363320000193
四、实验结论
本发明知识图谱表示学习模型融合了实体描述与路径信息两种方法,通过实验验证了该方法的有效性。具体结论如下:
(1)本发明提出的融合实体描述与路径信息的知识图谱表示学习模型,在单跳链路预测实验中均取得了较好的结果。三个指标中Hits@10表现最好,Hits@10指的是正确的实体排名在前10的比例和,本模型分别达到了0.583、0.551、0.906,在三个数据集上均为最优。说明在知识图谱表示学习中,融入路径信息也是提升正确预测实体的准确率的可行方法。
(2)本发明提出的融合实体描述与路径信息的知识图谱表示学习模型,在2-hop和3-hop实验上的指标得分均优于PtransE和OPTransE。这是因为本文模型同时使用了实体描述和路径信息两个外部信息对原图谱进行补充,扩展了知识来源。实体描述可以帮忙捕捉知识图谱中隐藏的细节,例如,单纯的从Apple Inc这个实体名称中是无法判断出“苹果”这家公司的性质的,但是通过实体描述中的信息,就可以得到它是一家高科技公司这样一个事实。

Claims (5)

1.融合实体描述与路径信息的知识图谱表示学习模型的方法,其特征在于,具体按照以下步骤实施:
步骤1、从大型知识图谱Freebase中抽取两个子集作为训练集,结合Ruobing Xie人为训练集所做的实体描述,将二者输入进微调过的强力优化的预训练语言表征模型RoBERT中,通过自注意力机制和一个包括4个全连接层、激活函数Relu的前馈神经网络进行训练学习,在最后一层输出融合实体描述的实体、关系表示学习向量;
步骤2、利用基于有序关系路径的知识图补全表示学习OPTransE模型将知识图谱转化成融入有序关系路径信息的向量,输出所有训练集三元组的能量值EP
步骤3、结合步骤1、步骤2输出的训练向量,计算出基于实体描述和路径信息的能量值ED,与基于路径信息的能量值EP相加,每个三元组的总能量值定义为ED+EP,然后采用梯度下降优化三元组的向量表示,目标是通过最小化总能量值,训练得到知识图谱表示学习模型。
2.根据权利要求1所述的融合实体描述与路径信息的知识图谱表示学习模型的方法,其特征在于,所述步骤1具体按照以下步骤实施:
步骤1.1、抽取大型知识图谱Freebase的两个子集——FB15k-237与FB15K中的三元组,将三元组视为包含三个句子的文本序列,并使用实体描述替换掉实体;本发明使用[CLS]分类标签和[SEP]分割标签,将原始RoBERTa模型调整为接收规定形式的文本序列输入,规定形式为头实体-关系-尾实体,调整后的模型输入具体如下:
S1.1.1、假定存在三元组(SteveJobs,founded,AppleInc),在每个输入序列的头部位置设置分类标签[CLS];
S1.1.2、将头实体“Steve Jobs.”或者是对应的实体描述“Steven Paul Jobs was anAmerican business mag-nate,entrepreneur and investor”表示成一个包含a个token的句子,
Figure FDA0003825363310000021
token是自然语言输入进RoBERTa模型的最小单位,表示为单个英文词汇;
S1.1.3、将关系“founded”表示成一个包含b个token的句子,
Figure FDA0003825363310000022
Figure FDA0003825363310000023
S1.1.4、将尾实体“Apple Inc.”或者是对应的实体描述同样被表示成一个包含c个token的句子:
Figure FDA0003825363310000024
S1.1.5、在实体与关系之间加入特殊分割标签[SEP];
步骤1.2、将步骤1.1中所转化的文本序列进行初始化结构调整后,作为RoBERTa模型的输入,最后利用特殊分类标签[CLS]的隐态输出向量C预测三元组是否正确,通过模型中基于多头自注意力机制的多层Transfomer编码块对文本进行建模,使得每个词都能融合整个句子的信息,自注意力机制的定义如下:
从每个编码块的输入向量即每个单词的词向量中生成三个向量:查询向量Qi,键向量Ki和值向量Vi,令在第i个头的自注意力机制向量为Xi,分别根据按照公式(1)、(2)和(3)计算出Vi、Ki与Qi
Vi=WVXi (1)
Ki=WKXi (2)
Qi=WQXi (3)
WQ、WK与WV为权重值,
最后根据Vi、Ki与Qi求表示学习向量Xi的对应归一化指数函数softmax:
Figure FDA0003825363310000031
dk为Qi维数,Attention为自注意力,
Figure FDA0003825363310000032
为Ki的转置,
在多头注意力机制下,每一个注意力头上都重复上述操作,通过不同的注意力头得到多个特征表示,将这些多头的输出特征向量进行拼接,与随机初始化的权重矩阵相乘,再连接一个全连接层进行降维;
得到多头注意机制后,在每个编码块中跟随一个LayerNormalize(层归一化)步骤,层归一化的操作如公式(5)和(6)所示:
Y=LayerNormalize([Y1;…;Yh]WY+X) (5)
Figure FDA0003825363310000033
其中,Y为注意力头输出,Relu为激活函数,W和b为可调参数,[Y1;…;Yh]表示对多头输出进行拼接,O=[o1,o2,…,on]为一个编码块的输出,这个输出同样作为下个编码块的输入,之后以此类推,直到最后一个编码块的输出结果作为整个Transformer的输出;
步骤1.3、对步骤1.2所输出的向量O求平均作为最终的模型输出,得到基于实体描述的向量。
3.根据权利要求2所述的融合实体描述与路径信息的知识图谱表示学习模型的方法,其特征在于,所述步骤2具体按照以下步骤实施:
步骤2.1、对步骤1.1输入的三元组进行长路径建模:
公式(7)定义了能量函数E(h,ps=n,t),
Figure FDA0003825363310000034
表示头实体,
Figure FDA0003825363310000035
表示尾实体,
Figure FDA0003825363310000041
表示关系,
Figure FDA0003825363310000042
表示知识图谱中全体实体集合,
Figure FDA0003825363310000043
表示全体关系集合,ps=i为从h到t的关系路径的其中一条,比如:
Figure FDA0003825363310000044
n为关系路径个数,如果从h到t的路径是合理的,则得到的能量值较低,
Figure FDA0003825363310000045
hp=f(p,h),tp=g(p,t) (8)
Figure FDA0003825363310000046
hp与tp分别表示有序关系路径p中头实体h和尾实体t的表示学习向量,
Figure FDA0003825363310000047
为给定路径p中关于第i个关系的序列矩阵,ri为第i个关系,直接相连的三元组(h,r,t)视为头实体h和尾实体t之间的存在单步路径r,因此,(h,r,t)的能量值可以通过将直接关系r当作ps=1代入公式(7)获得;
步骤2.2、将关系r对应的头实体h和尾实体t通过两个不同的投影矩阵分别投影到不同的超平面上,设Wr,1和Wr,2分别表示关系r的头实体和尾实体的投影矩阵,假设有一条从h到t的路径r1,r2,…,rn,定义以下公式(10):
Figure FDA0003825363310000048
其中,t(i)表示路径上的第i个节点,对于一条从h到t的关系路径的实体,在从等式(10)中消除传递节点之后获得它们的表示,等式(7)中变量的具体形式如下所示:
Figure FDA0003825363310000049
Figure FDA00038253633100000410
Figure FDA0003825363310000051
Figure FDA0003825363310000052
将路径中的尾实体投影到ps=n的空间中,其中
Figure FDA0003825363310000053
表示路径ps=n的投影矩阵,此外,假设存在路径
Figure FDA0003825363310000054
同时充当关系r1的尾实体和和r2的头实体,为了连接不同空间中的关系,公式(14)中定义Tk,其中,T2用于将传递节点t′从r2的头实体空间转移到r1的尾实体空间,k由1取到i,I表示单位矩阵,而M(rk,rk-1)表示从rk的头部实体空间到rk-1的尾部实体空间的空间转换矩阵;
步骤2.3、通过两层池化策略融合来自不同路径的信息,构造出三元组的总能量函数,其中第一层的池化策略将对所有i步路径中选择与r最匹配的路径;第二层将融合来自不同长度路径的信息,从不同长度的路径中提取非线性特征。
4.根据权利要求3所述的融合实体描述与路径信息的知识图谱表示学习模型的方法,其特征在于,所述步骤2.3具体按照以下步骤实施:
第一层的池化策略:利用最小池化方法从i步路径中提取特征信息,并定义如下能量函数:
Figure FDA0003825363310000055
其中,定义能量函数
Figure FDA0003825363310000056
Figure FDA0003825363310000057
表示与从头实体h到尾实体t经过关系r的所有i步路径的集合,为了获得
Figure FDA0003825363310000058
引入条件概率Pr(r|ps=i)判断给定关系r的情况下路径ps=i的可行概率:
Figure FDA0003825363310000059
Pr(r,ps=i)表示r和ps=i的联合概率,Pr(ps=i)表示ps=i的边际概率,此外,N(r,ps=i)表示在知识图谱中r和ps=i连接同一实体对的情况数,N(ps=i)表示在知识图谱中ps=i的路径数,N(p)表示知识图谱中的路径总数,通过给定限制条件Pr(r|ps=i)>0过滤ps=i,得到所有过滤后的ps=i的集合
Figure FDA0003825363310000061
第二层的池化策略:定义如下总能量函数Efinal(h,r,t):
Figure FDA0003825363310000062
E(h,r,t)表示直接关系r的能量值,E(h,r,t)通过将r代入公式(16)中的ps=i计算得到。
5.根据权利要求4所述的融合实体描述与路径信息的知识图谱表示学习模型的方法,其特征在于,所述步骤3具体按照以下步骤实施:
联合学习步骤2.3和步骤1.3中的能量函数,将三元组信息与路径信息和实体描述中的丰富信息相结合,定义总体能量函数如公式(18)所示:
E=EP+ED (18)
EP是步骤2.3给出的基于路径信息表示的总能量函数;ED是基于实体描述的能量函数,将EP和ED都嵌入到同一向量空间中,ED定义为公式(19)的形式:
ED=EDD+EDP+EPD (19)
EDD=||hdMr+r-tdMr|| (20)
EDP||hdMr+r-tr|| (21)
EPD=||hr+r-tdMr|| (22)
其中,Mr是转置矩阵,EDD中的hd与td都是基于实体描述的头尾实体表示,r表示关系,EDP中的hd是基于实体描述的头实体表示,tr是基于路径信息的尾实体表示,EPD中的hr是基于实体描述的头实体表示,td是基于路径信息的尾实体表示;
最后选用基于边际的损失函数进行模型的训练,其定义如公式(23)下:
Figure FDA0003825363310000071
其中γ是正负样本集的边界参数,E(h,r,t)是(18)中定义的总能量函数,T是由正确的三元组集合(h,r,t)构成的训练集,T′是由错误的三元组集合(h′,r′,t′)构成的负样本集,R表示全体关系集合,T′定义如公式(24)下:
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪ (24)
{(h,r′,t)|r′∈R},(h,r,t)∈T
知识图谱表示学习模型是将知识图谱中的实体和关系通过特定规则表示成一个多维向量的过程,以最小化总能量值E为目标,通过迭代训练不断优化三元组的向量表示,训练完成后,得到的向量将具有更强大的多跳推理能力。
CN202211068938.8A 2022-08-30 2022-08-30 融合实体描述与路径信息的知识图谱表示学习模型的方法 Pending CN115438189A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211068938.8A CN115438189A (zh) 2022-08-30 2022-08-30 融合实体描述与路径信息的知识图谱表示学习模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211068938.8A CN115438189A (zh) 2022-08-30 2022-08-30 融合实体描述与路径信息的知识图谱表示学习模型的方法

Publications (1)

Publication Number Publication Date
CN115438189A true CN115438189A (zh) 2022-12-06

Family

ID=84248021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211068938.8A Pending CN115438189A (zh) 2022-08-30 2022-08-30 融合实体描述与路径信息的知识图谱表示学习模型的方法

Country Status (1)

Country Link
CN (1) CN115438189A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304083A (zh) * 2023-01-13 2023-06-23 北京控制工程研究所 性能-故障关系图谱的关系预测方法及装置
CN116842199A (zh) * 2023-09-01 2023-10-03 东南大学 一种基于多粒度层次和动态嵌入的知识图谱补全方法
CN117172978A (zh) * 2023-11-02 2023-12-05 北京国电通网络技术有限公司 学习路径信息生成方法、装置、电子设备和介质
CN117688121A (zh) * 2024-02-04 2024-03-12 南京师范大学 SubGNN注入空间特征的地理知识图谱表示学习方法
CN117851615A (zh) * 2024-03-06 2024-04-09 云南师范大学 一种基于Transformer的关系模式自适应对比学习知识图谱嵌入方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304083A (zh) * 2023-01-13 2023-06-23 北京控制工程研究所 性能-故障关系图谱的关系预测方法及装置
CN116304083B (zh) * 2023-01-13 2023-09-15 北京控制工程研究所 性能-故障关系图谱的关系预测方法及装置
CN116842199A (zh) * 2023-09-01 2023-10-03 东南大学 一种基于多粒度层次和动态嵌入的知识图谱补全方法
CN116842199B (zh) * 2023-09-01 2023-12-26 东南大学 一种基于多粒度层次和动态嵌入的知识图谱补全方法
CN117172978A (zh) * 2023-11-02 2023-12-05 北京国电通网络技术有限公司 学习路径信息生成方法、装置、电子设备和介质
CN117172978B (zh) * 2023-11-02 2024-02-02 北京国电通网络技术有限公司 学习路径信息生成方法、装置、电子设备和介质
CN117688121A (zh) * 2024-02-04 2024-03-12 南京师范大学 SubGNN注入空间特征的地理知识图谱表示学习方法
CN117688121B (zh) * 2024-02-04 2024-04-26 南京师范大学 SubGNN注入空间特征的地理知识图谱表示学习方法
CN117851615A (zh) * 2024-03-06 2024-04-09 云南师范大学 一种基于Transformer的关系模式自适应对比学习知识图谱嵌入方法
CN117851615B (zh) * 2024-03-06 2024-05-03 云南师范大学 一种基于Transformer的关系模式自适应对比学习知识图谱嵌入方法

Similar Documents

Publication Publication Date Title
CN115438189A (zh) 融合实体描述与路径信息的知识图谱表示学习模型的方法
JP7122582B2 (ja) 演算処理装置、並びに文章評価装置、及び文章評価方法
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN113707235A (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
CN110543563B (zh) 一种层次型文本分类方法及系统
CN114169330A (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
Alfarra et al. On the decision boundaries of neural networks: A tropical geometry perspective
CN108197294A (zh) 一种基于深度学习的文本自动生成方法
Anagnostopoulos et al. Hypersphere ART and ARTMAP for unsupervised and supervised, incremental learning
CN110688585B (zh) 一种基于神经网络和协同过滤的个性化电影推荐方法
CN109446414B (zh) 一种基于神经网络分类的软件信息站点快速标签推荐方法
Wang et al. Graph neural networks: Self-supervised learning
CN113240683B (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN112000772A (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN113190688A (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN112256727B (zh) 基于人工智能技术的数据库查询处理及优化方法
CN114741507B (zh) 基于Transformer的图卷积网络的引文网络分类模型建立及分类
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN112766507A (zh) 基于嵌入式和候选子图剪枝的复杂问题知识库问答方法
Alford et al. Training behavior of sparse neural network topologies
CN111178543B (zh) 一种基于元学习的概率域泛化学习方法
Wu et al. Graph convolutional kernel machine versus graph convolutional networks
Smart et al. On the mapping between Hopfield networks and restricted Boltzmann machines
Xu et al. Idhashgan: deep hashing with generative adversarial nets for incomplete data retrieval
CN110163716B (zh) 一种基于卷积神经网络的红酒推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination