CN113806561A - 一种基于实体属性的知识图谱事实补全方法 - Google Patents

一种基于实体属性的知识图谱事实补全方法 Download PDF

Info

Publication number
CN113806561A
CN113806561A CN202111184099.1A CN202111184099A CN113806561A CN 113806561 A CN113806561 A CN 113806561A CN 202111184099 A CN202111184099 A CN 202111184099A CN 113806561 A CN113806561 A CN 113806561A
Authority
CN
China
Prior art keywords
entity
data
samples
path
paths
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111184099.1A
Other languages
English (en)
Inventor
黄震
王艺霖
李东升
郭敏
杨东
杨森
孙鼎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111184099.1A priority Critical patent/CN113806561A/zh
Publication of CN113806561A publication Critical patent/CN113806561A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于实体属性的知识图谱事实补全方法,目的是提高知识图谱事实预测的平均精度均值,补全更可靠的事实。技术方案是:构建由数据预处理模块、事实预测网络、事实补全模块构成的基于路径的知识图谱事实补全系统。根据用户需要进行补全的知识图谱,数据预处理模块准备训练数据、验证数据和补全数据。事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五部分构成,使用训练数据和验证数据对网络进行训练和验证;训练好的事实预测网络对补全数据进行预测得到预测结果,事实补全模块根据预测结果将知识图谱补全。采用本发明可提升事实预测网络预测的平均精度均值,使得补全到知识图谱中的事实可信度更高。

Description

一种基于实体属性的知识图谱事实补全方法
技术领域
本发明涉及知识图谱补全领域,具体涉及一种基于实体属性的对知识图谱进行事实补全的方法。
背景技术
知识图谱是结构化的语义知识库,能够记录世界中的实体及其之间的关系,为海量数据的存储提供了一种较好的组织和管理手段,比如DBpedia、YAGO、Freebase、NELL等著名的开源知识图谱。知识图谱是人工智能领域的重要研究内容之一,目前已经在搜索引擎、智能对话、用户推荐等众多领域得到了广泛的实际应用,渗透到了金融、医疗、教育等众多行业。
知识图谱中存储的一个事实通常可以表示为一个三元组的形式,即(头实体,关系,尾实体),其中头实体和尾实体分别对应知识图谱中的两个节点,关系对应连接这两个节点的边。但是由于知识图谱存储的事实通常是从互联网上海量、异构、动态的数据资源中自动挖掘出来的,而这些数据无法包含所有事实,因此构建的知识图谱通常是不完整的。知识图谱中缺失的事实给实际应用带来了很多挑战,比如由于事实的不完整加大了推理的难度,降低了应用的覆盖性和准确性,导致给用户的推荐不精准、智能搜索的答案不全面等问题。因此,兴起了知识图谱补全任务,即基于现有知识图谱中的事实补全缺失事实。根据知识图谱中的元素可以将知识图谱补全分为事实预测(factprediction)、关系预测(relationprediction)、链接预测(linkprediction)三个子任务。事实预测,即为给定头实体、关系和尾实体,预测(头实体,关系,尾实体)是否成立;关系预测,即为给定头实体和尾实体,预测他们之间存在的关系;链接预测,即为给定关系和一个头实体(尾实体),预测该实体通过该关系链接的尾实体(头实体)。使用这三种子任务中的任一种都可以对知识图谱中缺失的事实进行补全。
进行知识图谱事实预测的方法中,基于路径的方法一般抽取三元组(头实体,关系,尾实体)中头实体和尾实体之间的路径并提取路径特征(路径表示),然后通过建立路径特征与关系的联系,判断头实体和尾实体之间是否存在该关系,如果存在则将该三元组看作缺失的事实并补全。该方法具有较强的可解释性,并且对路径信息的学习可以同时考虑实体和关系,并能建模他们之间存在的显式及隐式的模式。
在基于路径的知识图谱补全方法中,如何利用实体间路径的信息进行预测是一个重要研究点。现有的方法着重研究如何使用路径上实体和关系的信息获取路径的特征,以此提高路径表示的准确性,从而提升根据路径信息判断实体间关系的平均精度均值(MeanAveragePrecision)。
由于知识库中实体数量较大,因此直接使用实体本身会导致模型学习的路径表示较为稀疏,这能够拉大不同路径的差异性,易于区分不同的路径(判别性好)。但是这会导致模型难以提取相似路径之间的共同特征,因此很难将从一些路径中学到的知识用于指导相似路径进行相似的推理(泛化性差),导致预测的平均精度均值低。为了在保持模型判别能力的同时提高泛化能力,以提升模型预测的平均精度均值,现有的方法致力于使用实体的类型信息代替实体本身去学习路径的表示。这是因为不同的实体一般具有不同的类型信息,且实体的类型信息可以表示实体在路径中所表示的语义,因此实体的类型兼具判别性和泛化性,从而可以提升模型预测的平均精确度。
然而,如何提升模型预测的平均精度均值,补全更可信的知识还存在很多挑战。第一,并不是知识图谱中的所有实体都能获得对应的实体类型,而且获得的实体类型也许只能部分地刻画实体信息,导致实体的信息表达不够全面,提取的路径特征不够准确,影响预测的平均精度均值。第二,实体与不同关系相连时一般会表达不同的语义(对应不同的类型),实体的不同类型具有不同的抽象层次,因此如何准确选择路径中能够代表实体所表达语义并且具有合适的抽象层次的实体类型是一个难点。选择代表实体所表达语义的类型才会使得提取的路径特征准确,选择抽象层次合适的类型才会使得路径的特征兼具判别性和泛化性(选择语义更抽象的类型,则模型的泛化性更好;选择语义更具体的类型,则模型的判别性更好),从而才能提升模型根据提取的路径特征预测实体间关系的精确度。
发明内容
本发明要解决的技术问题是:针对路径中实体语义信息不全面以及实体语义信息选择难度大,导致路径特征提取不够准确的问题,提出一种基于实体属性的知识图谱事实补全方法。该方法将知识图谱中与实体相连的关系作为该实体除了实体类型之外的另一种语义信息:实体属性,并同时捕获正反向路径序列上实体表达的语义所对应的属性信息和类型信息作为实体的语义信息,从而更全面更准确的提取路径的特征,提高知识图谱事实预测的平均精度均值,补全更可靠的事实。
为解决上述技术问题,本发明的技术方案是:构建由数据预处理模块、事实预测网络、事实补全模块构成的基于路径的知识图谱事实补全系统。根据用户需要进行补全的知识图谱(包含实体集合、关系集合、以及事实集合),数据预处理模块准备训练数据(训练样本的数据集合和训练样本的标签集合)、验证数据(验证样本的数据集合和验证样本的标签集合)、以及补全数据(补全样本的数据集合),输出给事实预测网络。事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五部分构成。事实预测网络使用数据预处理模块输出的训练数据采用Adam方法进行训练,得到网络权重参数,事实预测网络使用数据预处理模块输出的验证数据进行验证,保存最优的网络权重参数。训练好的事实预测网络对数据预处理模块输出的补全数据进行预测,得到补全样本的预测概率集合,事实补全模块根据预测概率集合判断是否需要将补全样本补全到知识图谱中。
本发明主要包括以下步骤:
第一步:构建基于路径的知识图谱事实补全系统。该系统由数据预处理模块、事实预测网络、事实补全模块构成。
数据预处理模块与事实预测网络相连,接收用户输入的知识图谱,对用户输入的知识图谱进行预处理,得到训练事实预测网络所需的训练数据(包括训练样本的数据集合和训练样本的标签集合)、验证事实预测网络所需的验证数据(包括验证样本的数据集合和验证样本的标签集合)、以及事实补全模块所需的要判断是否为缺失事实的补全数据(包括补全样本的数据集合),输出给事实预测网络,并将补全样本的数据集合输出给事实补全模块。数据预处理模块由路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths构成,其中fExtractPath从知识图谱中抽取每个样本的实体之间的路径信息,fPreprocessPaths将每个样本的实体间路径信息处理为事实预测网络需要的数据结构。将知识图谱中的实体集合、关系集合、事实集合分别记为E={ei},R={rj}和
Figure BDA0003298478440000031
将实体的属性集合记为A={av},将实体的类型集合记为L={lo},其中1≤i≤|E|,1≤i1≤|E|,1≤i2≤|E|,1≤j≤|R|,1≤v≤|A|,1≤o≤|L|,|E|、|R|、|A|、|L|分别表示实体的总数、关系的总数、属性的总数和类型的总数。将rj′记为rj的反关系,表示若
Figure BDA0003298478440000032
Figure BDA0003298478440000033
根据E、R、F、A、L,数据预处理模块获取训练样本集合S*、训练样本的标签集合Y*、验证样本集合S#、验证样本的标签集合Y#、以及补全样本集合U。对于样本集合(包括训练样本集合S*、验证样本集合S#、补全样本集合U)中的每个样本(包括训练样本、验证样本、补全样本),数据预处理模块先使用fExtractPath从知识图谱中抽取样本的实体对之间的正向路径集合,然后使用fPreprocessPaths处理该正向路径集合输出样本的数据集合,构成训练样本的数据集合、验证样本的数据集合、补全样本的数据集合。
事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五个部分组成。其中,嵌入层包含3个嵌入矩阵,分别为关系的嵌入矩阵Wr、实体属性的嵌入矩阵WA、实体类型的嵌入矩阵WL;关系编码器用于提取每条路径的关系序列特征,由一个LSTM网络构成,记为LSTMr;实体编码器用于提取每条路径的实体序列特征(包括每条路径上实体的属性信息序列的特征和类型信息序列的特征),由实体画像注意力网络和实体序列编码网络两个子网络构成,其中实体画像注意力网络由结构相同的实体属性注意力网络和实体类型注意力网络构成,实体属性注意力网络由4个全连接层
Figure BDA0003298478440000041
构成,实体类型注意力网络由4个全连接层
Figure BDA0003298478440000042
构成,而实体序列编码网络由两个LSTM网络(分别记为LSTMA和LSTML)及4个全连接层
Figure BDA0003298478440000043
构成;路径编码器由结构相同的正向路径注意力网络和反向路径注意力网络构成,其中正向路径注意力网络由2个全连接层fp
Figure BDA0003298478440000044
构成,反向路径注意力网络由2个全连接层f′p
Figure BDA0003298478440000045
构成,分别用于聚合每个样本的所有正向路径的特征和所有反向路径的特征;预测器由4个全连接层f1,f2,f3和f4构成,用于预测每个样本属于事实的概率。事实预测网络从数据预处理模块得到样本数据集合(包括训练样本的数据集合、验证样本的数据集合、补全样本的数据集合),提取样本数据集合中每个样本的路径特征,然后计算出每个样本属于事实的概率,组成预测概率集合(包括训练样本的预测概率集合、验证样本的预测概率集合、补全样本的预测概率集合)。其中,(1)嵌入层接收数据预处理模块的数据,将每个关系、实体属性、实体类型、实体属性分别使用Wr、WA、WL转化为向量表示,然后将每个样本的每条路径的关系序列转化为向量表示(即每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入)输出给关系编码器,将每个样本的每条路径上实体的属性信息序列和实体的类型信息序列转化为向量表示(即每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入,和每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入)输出给实体编码器,将每个样本的查询关系和反向查询关系转化为向量表示(即每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入)也输出给实体编码器;(2)关系编码器接收嵌入层输出的每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入,对这些嵌入进行编码,得到每个样本的每条正向路径的关系表示和每条反向路径的关系表示,将每个样本的每条正向路径的关系表示和每条反向路径的关系表示输出给实体编码器和路径编码器;(3)实体编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示,还接收来自嵌入层的每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入、每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入、每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入,对这些嵌入进行编码,得到每个样本的每条正向路径的实体表示和每条反向路径的实体表示,将每个样本的每条正向路径的实体表示和每条反向路径的实体表示输出给路径编码器;(4)路径编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示,以及来自实体编码器的每个样本的每条正向路径的实体表示和每条反向路径的实体表示,对这些表示进行编码,得到每个样本的正向路径表示和反向路径表示,将每个样本的正向路径表示和反向路径表示输出给预测器;(5)预测器接收来自路径编码器的每个样本的正向路径表示和反向路径表示,对这些表示进行编码,得到每个样本的预测结果(即每个样本属于事实的概率),将每个样本的预测结果组成预测概率集合。事实预测网络根据数据预处理模块输出的训练样本的标签集合和事实预测网络预测的训练样本的预测概率集合,进行训练并更新网络参数;事实预测网络根据数据预处理模块输出的验证样本的标签集合和事实预测网络预测的验证样本的预测概率集合,进行验证并保存最优的网络参数。如果输入事实预测网络的样本数据集合是补全样本的数据集合,则事实预测网络将计算得到的补全样本的预测概率集合输出给事实补全模块。
事实补全模块与数据预处理模块和事实预测网络相连接。事实补全模块接收数据预处理模块输出的补全样本的数据集合和训练好的事实预测网络输出的补全样本的预测概率集合Z,根据每个补全样本的预测概率判断补全样本的数据集合中补全样本集合U里的每个补全样本是否是需要补全的事实,如果补全样本是需要补全的事实,则将补全样本uw(uw∈U)添加到知识图谱的事实集合中,即令Fnew=F∪uw,Fnew为补全后的知识图谱的事实集合。
第二步:数据预处理模块根据用户输入的需要补全的知识图谱(包括E、R、F)和L、DL、RQ,准备训练事实预测网络所需的训练数据(包括训练样本的数据集合和训练样本的标签集合)、验证事实预测网络所需的验证数据(包括验证样本的数据集合和验证样本的标签集合)、以及事实补全模块所需的要判断是否为缺失事实的补全数据(包括补全样本的数据集合)。
2.1数据预处理模块接收用户输入的需要补全的知识图谱(包括实体集合E、关系集合R、事实集合F)、实体的类型集合L和每个实体对应的类型信息的字典DL(字典的key为实体,value为实体对应的类型集合),以及需要补全的查询关系集合RQ={rq|rq∈R}(1≤q≤Q,Q为RQ中元素的个数)。
2.2数据预处理模块使用路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths准备训练和验证事实预测网络需要的训练样本的数据集合和训练样本的标签集合、验证样本的数据集合和验证样本的标签集合,具体地:
2.2.1令存储所有训练样本的集合
Figure BDA0003298478440000061
存储所有训练样本的标签集合
Figure BDA0003298478440000062
存储所有训练样本的所有正向路径的关系序列的集合
Figure BDA0003298478440000063
存储所有训练样本的所有反向路径的关系序列的集合
Figure BDA0003298478440000064
存储所有训练样本的所有正向路径的实体属性信息序列集合
Figure BDA0003298478440000065
存储所有训练样本的所有正向路径的实体类型信息序列集合
Figure BDA0003298478440000066
存储所有训练样本的所有反向路径的实体属性信息序列集合
Figure BDA0003298478440000067
存储所有训练样本的所有反向路径的实体类型信息序列集合
Figure BDA0003298478440000068
2.2.2令存储所有验证样本的集合
Figure BDA0003298478440000069
存储所有验证样本的标签集合
Figure BDA00032984784400000610
存储所有验证样本的所有正向路径的关系序列的集合
Figure BDA00032984784400000611
存储所有验证样本的所有反向路径的关系序列的集合
Figure BDA00032984784400000612
存储所有验证样本的所有正向路径的实体属性信息序列集合
Figure BDA00032984784400000613
存储所有验证样本的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400000614
存储所有验证样本的所有反向路径的实体属性信息序列集合
Figure BDA00032984784400000615
存储所有验证样本的所有反向路径的实体类型信息序列集合
Figure BDA00032984784400000616
2.2.3令q=1;
2.2.4如果q≤Q,转2.2.5获取查询关系rq下的样本数据,否则说明全部样本数据均已经处理,转2.2.18。
2.2.5设置负样本数目与正样本数目的比值为KN|P,KN|P为正整数,且1≤KN|P≤10。设置样本数量阈值为Kq,Kq为正整数,且
Figure BDA00032984784400000617
其中
Figure BDA00032984784400000618
表示以rq为关系的事实,即
Figure BDA00032984784400000619
Figure BDA00032984784400000620
表示集合
Figure BDA00032984784400000621
的元素数目。令查询关系rq的样本集合为
Figure BDA00032984784400000622
令查询关系rq的样本标签集合为
Figure BDA00032984784400000623
令查询关系rq下所有样本的所有正向路径的关系序列的集合
Figure BDA00032984784400000624
查询关系rq下所有样本的所有反向路径的关系序列的集合
Figure BDA00032984784400000625
查询关系rq下所有样本的所有正向路径的实体属性信息序列集合
Figure BDA00032984784400000626
查询关系rq下所有样本的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400000627
查询关系rq下所有样本的所有反向路径的实体属性信息序列集合
Figure BDA00032984784400000628
查询关系rq下所有样本的所有反向路径的实体类型信息序列集合
Figure BDA00032984784400000629
2.2.6令k=1;
2.2.7如果k≤Kq,转2.2.8获取查询关系rq下单个样本的数据,否则说明查询关系rq下的所有样本的数据已经获取,转2.2.14。
2.2.8随机从实体集合E中选择两个实体
Figure BDA00032984784400000630
Figure BDA00032984784400000631
Figure BDA00032984784400000632
1≤k1≤|E|,1≤k2≤|E|。构造样本sk
Figure BDA00032984784400000633
Figure BDA00032984784400000634
Figure BDA00032984784400000635
则sk为正样本,令sk的标签yk=1,若
Figure BDA0003298478440000071
则sk为负样本,令sk的标签yk=0。构造样本sk时需要控制最终Sq内正负样本的比例为1:KN|P(即每构造一个正样本,就构造KN|P个负样本)。
2.2.9令sk的所有正向路径的关系序列的集合
Figure BDA0003298478440000072
sk的所有反向路径的关系序列的集合
Figure BDA0003298478440000073
sk的所有正向路径的实体属性信息序列集合
Figure BDA0003298478440000074
sk的所有正向路径的实体类型信息序列集合
Figure BDA0003298478440000075
sk的所有反向路径的实体属性信息序列集合
Figure BDA0003298478440000076
sk的所有反向路径的实体类型信息序列集合
Figure BDA0003298478440000077
2.2.10fExtractPath采用随机游走方法(见文献“Lao,N.;Mitchell,T.;and Cohen,W.W.2011.Random walk inference and learning in a large scale knowledgebase.In EMNLP.ACL.”,Lao等人:大规模知识库中的随机游走推理和学习)抽取样本sk的实体
Figure BDA0003298478440000078
到实体
Figure BDA0003298478440000079
的N条正向路径,放到sk的正向路径集合
Figure BDA00032984784400000710
中,其中
Figure BDA00032984784400000711
1≤n≤N,第n条路径pn由实体和关系交替构成,
Figure BDA00032984784400000712
M为路径pn的长度,实体
Figure BDA00032984784400000713
为路径pn上第t步的实体,rt∈R(1≤t≤M)为路径pn上第t步的关系。即采用fExtractPath函数处理
Figure BDA00032984784400000714
得到
Figure BDA00032984784400000715
Figure BDA00032984784400000716
的N条正向路径的集合
Figure BDA00032984784400000717
2.2.11fPreprocessPaths将样本sk的正向路径集合
Figure BDA00032984784400000718
处理为事实预测网络需要的数据结构,得到样本sk的查询关系rq、反向查询关系r′q,样本sk的所有正向路径的关系序列的集合
Figure BDA00032984784400000719
所有反向路径的关系序列的集合
Figure BDA00032984784400000720
所有正向路径的实体属性信息序列集合
Figure BDA00032984784400000721
和实体的类型信息序列集合
Figure BDA00032984784400000722
所有反向路径的实体的属性信息序列集合
Figure BDA00032984784400000723
和实体的类型信息序列集合
Figure BDA00032984784400000724
具体为:
2.2.11.1令n=1;
2.2.11.2如果n≤N,转2.2.11.3处理样本sk的第n条路径的数据,否则说明样本sk的全部路径均已经处理,转2.2.11.14。
2.2.11.3获取
Figure BDA00032984784400000725
中第n条路径pn的反向路径p′n
Figure BDA00032984784400000726
2.2.11.4将pn分为正向关系序列
Figure BDA00032984784400000727
和正向实体序列
Figure BDA00032984784400000728
Figure BDA00032984784400000729
2.2.11.5将p′n分为反向关系序列
Figure BDA00032984784400000730
和反向实体序列
Figure BDA00032984784400000731
Figure BDA00032984784400000732
2.2.11.6获取
Figure BDA00032984784400000733
上所有实体的属性信息,方法是:
2.2.11.6.1令t=1;
2.2.11.6.2如果t≤M+1,转2.2.11.6.3获取
Figure BDA0003298478440000081
上的第t步实体的属性信息,否则说明
Figure BDA0003298478440000082
上所有实体的属性信息均已经获取,转2.2.11.7。
2.2.11.6.3获取
Figure BDA0003298478440000083
上的第t步实体et的属性集合At
Figure BDA0003298478440000084
1≤vt≤|At|,|At|为At中属性的个数。本发明提出的任意一个实体的属性信息是从知识图谱中与该实体相连的关系获得的,分为两种情况进行处理:
2.2.11.6.3.1如果et既不是
Figure BDA0003298478440000085
也不是
Figure BDA0003298478440000086
那么et的属性集合就是以et作为头实体的所有事实构成的邻居事实集合
Figure BDA0003298478440000087
中的关系的集合,即
Figure BDA0003298478440000088
Figure BDA0003298478440000089
转2.2.11.6.4。
2.2.11.6.3.2如果et
Figure BDA00032984784400000810
或者
Figure BDA00032984784400000811
那么et的属性集合就是以et作为头实体的所有事实去掉包含
Figure BDA00032984784400000812
Figure BDA00032984784400000813
作为实体的所有事实构成的邻居事实集合
Figure BDA00032984784400000814
中的关系的集合,即
Figure BDA00032984784400000815
Figure BDA00032984784400000816
其中
Figure BDA00032984784400000817
表示以
Figure BDA00032984784400000818
Figure BDA00032984784400000819
分别作为头实体和尾实体的事实,即
Figure BDA00032984784400000820
Figure BDA00032984784400000821
转2.2.11.6.4。
2.2.11.6.4对At内的属性进行排序。方法是将At内的全部属性根据其在
Figure BDA00032984784400000822
中出现的频次从高到低进行排序,频次高的属性排序在前。具体地,将et的第vt个属性
Figure BDA00032984784400000823
Figure BDA00032984784400000824
出现的次数记为
Figure BDA00032984784400000825
若属性
Figure BDA00032984784400000826
Figure BDA00032984784400000827
的次数满足
Figure BDA00032984784400000828
则属性
Figure BDA00032984784400000829
排序在
Figure BDA00032984784400000830
之前,最后将et的属性集合记为
Figure BDA00032984784400000831
意味着
Figure BDA00032984784400000832
Figure BDA00032984784400000833
2.2.11.6.5令t=t+1,转2.2.11.6.2;
2.2.11.7将
Figure BDA00032984784400000834
上获得的所有实体的属性信息记为
Figure BDA00032984784400000835
2.2.11.8将
Figure BDA00032984784400000836
上所有实体的属性信息记为
Figure BDA00032984784400000837
Figure BDA00032984784400000838
的逆序,即
Figure BDA00032984784400000839
Figure BDA00032984784400000840
2.2.11.9获取
Figure BDA00032984784400000841
上所有实体的类型信息,方法是:
2.2.11.9.1令t=1;
2.2.11.9.2如果t≤M+1,转2.2.11.9.3获取
Figure BDA00032984784400000842
上的第t步实体的类型信息,否则说明
Figure BDA00032984784400000843
上所有实体的类型信息均已经获取,转2.2.11.10。
2.2.11.9.3令et的类型集合Lt为字典DL中键et对应的值,即令Lt=DL[et],Lt可以表示为
Figure BDA0003298478440000091
1≤ot≤|Lt|,
Figure BDA0003298478440000092
为Lt中的第ot个类型,|Lt|为Lt中类型的个数。
2.2.11.9.4令t=t+1,转2.2.11.9.2;
2.2.11.10将
Figure BDA0003298478440000093
上获得的所有实体的类型信息记为
Figure BDA0003298478440000094
2.2.11.11将
Figure BDA0003298478440000095
上所有实体的类型信息记为
Figure BDA0003298478440000096
Figure BDA0003298478440000097
的逆序,即
Figure BDA0003298478440000098
Figure BDA0003298478440000099
2.2.11.12将2.2.11.4中获得的正向路径pn的关系序列
Figure BDA00032984784400000910
加入集合
Figure BDA00032984784400000911
即令
Figure BDA00032984784400000912
将2.2.11.5中获得的反向路径p′n的关系序列
Figure BDA00032984784400000913
加入集合
Figure BDA00032984784400000914
即令
Figure BDA00032984784400000915
将2.2.11.7获得的正向路径pn的实体属性序列
Figure BDA00032984784400000916
加入集合
Figure BDA00032984784400000917
即令
Figure BDA00032984784400000918
将2.2.11.10获得的正向路径pn的实体类型序列
Figure BDA00032984784400000919
加入集合
Figure BDA00032984784400000920
即令
Figure BDA00032984784400000921
将2.2.11.8获得的反向路径p′n的实体属性序列
Figure BDA00032984784400000922
加入集合
Figure BDA00032984784400000923
即令
Figure BDA00032984784400000924
将2.2.11.11获得的反向路径p′n的实体类型序列
Figure BDA00032984784400000925
加入集合
Figure BDA00032984784400000926
即令
Figure BDA00032984784400000927
2.2.11.13令n=n+1,转2.2.11.2。
2.2.11.14将下述信息作为fPreprocessPayhs处理样本sk的正向路径集合
Figure BDA00032984784400000928
的结果:样本sk的查询关系rq、反向查询关系r′q,样本sk的所有正向路径的关系序列的集合
Figure BDA00032984784400000929
Figure BDA00032984784400000930
所有反向路径的关系序列的集合
Figure BDA00032984784400000931
所有正向路径的实体属性信息序列集合
Figure BDA00032984784400000932
和实体的类型信息序列集合
Figure BDA00032984784400000933
Figure BDA00032984784400000934
所有反向路径的实体的属性信息序列集合
Figure BDA00032984784400000935
和实体的类型信息序列集合
Figure BDA00032984784400000936
转2.2.12。
2.2.12将样本sk和sk的标签分别加入样本集合Sq和样本的标签集合Yq中,即令Sq=Sq∪{sk},令Yq=Yq∪{yk};将2.2.11.14中获得的fPreprocessPaths处理样本sk的正向路径集合
Figure BDA00032984784400000937
的结果作为元素添加到查询关系rq下的样本的数据集合中,即令
Figure BDA00032984784400000938
Figure BDA00032984784400000939
2.2.13令k=k+1,转2.2.7。
2.2.14此时查询关系rq下所有样本为Sq={s1,…,sk,…,sK},查询关系rq下所有样本的标签集合为Yq={y1,…,yk,…,yK},查询关系rq下所有样本的所有正向路径的关系序列的集合
Figure BDA00032984784400000940
查询关系rq下所有样本的所有反向路径的关系序列的集合
Figure BDA00032984784400000941
Figure BDA00032984784400000942
查询关系rq下所有样本的所有正向路径的实体属性信息序列集合
Figure BDA00032984784400000943
Figure BDA00032984784400000944
查询关系rq下所有样本的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400000945
Figure BDA0003298478440000101
查询关系rq下所有样本的所有反向路径的实体属性信息序列集合
Figure BDA0003298478440000102
Figure BDA0003298478440000103
查询关系rq下所有样本的所有反向路径的实体类型信息序列集合
Figure BDA0003298478440000104
Figure BDA0003298478440000105
将Sq、Yq
Figure BDA0003298478440000106
按照a:c的比例分为查询关系rq下的训练数据Sq*、Yq*
Figure BDA0003298478440000107
和验证数据Sq#、Yq#
Figure BDA0003298478440000108
Figure BDA0003298478440000109
a和c为正数,一般a>c,且a+c=10,优选a:c=7:3。
2.2.15将查询关系rq下的所有训练数据作为元素加入总的训练数据中,即令S*=S*∪{Sq*},Y*=Y*∪{Yq*},
Figure BDA00032984784400001010
Figure BDA00032984784400001011
2.2.16将查询关系rq下的所有验证数据作为元素加入总的验证数据中,即令S#=S#∪{Sq#},Y#=Y#∪{Yq#},
Figure BDA00032984784400001012
Figure BDA00032984784400001013
2.2.17令q=q+1,转2.2.4。
2.2.18此时所有训练样本的标签集合为Y*={Y1,…,Yq,…,YQ},所有的训练样本的集合为S*={S1*,…,Sq*,…,SQ*},所有训练样本的所有正向路径的关系序列的集合
Figure BDA00032984784400001014
Figure BDA00032984784400001015
所有训练样本的所有反向路径的关系序列的集合
Figure BDA00032984784400001016
Figure BDA00032984784400001017
所有训练样本的所有正向路径的实体属性信息序列集合
Figure BDA00032984784400001018
Figure BDA00032984784400001019
所有训练样本的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400001020
Figure BDA00032984784400001021
所有训练样本的所有反向路径的实体属性信息序列集合
Figure BDA00032984784400001022
Figure BDA00032984784400001023
所有训练样本的所有反向路径的实体类型信息序列集合
Figure BDA00032984784400001024
Figure BDA00032984784400001025
S*
Figure BDA00032984784400001026
S*r
Figure BDA00032984784400001027
S*A、S*L构成所有训练样本的数据集合;所有验证样本的标签集合为Y#={Y1#,…,Yq#,…,YQ#},所有的验证样本的集合为S#={S1#,…,Sq#,…,SQ#},所有验证样本的所有正向路径的关系序列的集合
Figure BDA00032984784400001028
Figure BDA00032984784400001029
所有验证样本的所有反向路径的关系序列的集合
Figure BDA00032984784400001030
Figure BDA00032984784400001031
所有验证样本的所有正向路径的实体属性信息序列集合
Figure BDA00032984784400001032
Figure BDA00032984784400001033
所有验证样本的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400001034
Figure BDA00032984784400001035
所有验证样本的所有反向路径的实体属性信息序列集合
Figure BDA00032984784400001036
Figure BDA0003298478440000111
所有验证样本的所有反向路径的实体类型信息序列集合
Figure BDA0003298478440000112
Figure BDA0003298478440000113
S#
Figure BDA0003298478440000114
S′# r
Figure BDA0003298478440000115
S′# A、S′# L构成所有验证样本的数据集合,转2.3。
2.3数据预处理模块使用路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths准备事实补全模块所需的要判断是否为缺失事实的补全样本的数据集合,具体地:
2.3.1令存储所有补全样本的集合
Figure BDA0003298478440000116
存储所有补全样本的所有正向路径的关系序列的集合
Figure BDA0003298478440000117
存储所有补全样本的所有反向路径的关系序列的集合
Figure BDA0003298478440000118
存储所有补全样本的所有正向路径的实体属性信息序列集合
Figure BDA0003298478440000119
存储所有补全样本的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400001110
存储所有补全样本的所有反向路径的实体属性信息序列集合
Figure BDA00032984784400001111
存储所有补全样本的所有反向路径的实体类型信息序列集合
Figure BDA00032984784400001112
2.3.2令q=1;
2.3.3如果q≤Q,转2.3.4获取查询关系rq下的补全样本数据,否则说明全部补全样本数据均已经处理,转2.3.14。
2.3.4准备需要判断是否为缺失事实的查询关系rq下的所有补全样本的集合Uq,Uq为没有被F包含的关系为rq的三元组的集合,即
Figure BDA00032984784400001113
Figure BDA00032984784400001114
简记为
Figure BDA00032984784400001115
1≤w≤|Uq|,|Uq|为Uq中元素的个数,即查询关系rq下的补全样本的总数)。
2.3.5令查询关系rq下所有补全样本的所有正向路径的关系序列的集合
Figure BDA00032984784400001116
令查询关系rq下所有补全样本的所有反向路径的关系序列的集合
Figure BDA00032984784400001117
令查询关系rq下所有补全样本的所有正向路径的实体属性信息序列集合
Figure BDA00032984784400001118
令查询关系rq下所有补全样本的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400001119
令查询关系rq下所有补全样本的所有反向路径的实体属性信息序列集合
Figure BDA00032984784400001120
令查询关系rq下所有补全样本的所有反向路径的实体类型信息序列集合
Figure BDA00032984784400001121
2.3.6令w=1;
2.3.7若w≤|Uq|,转2.3.8获取查询关系rq下补全样本uw的数据,否则说明Uq中每个补全样本的数据均已经获取,转2.3.12。
2.3.8采用步骤2.2.10所述的fExtractPath函数处理
Figure BDA00032984784400001122
得到样本uw的实体
Figure BDA00032984784400001123
到实体
Figure BDA00032984784400001124
的Nu条正向路径信息,放到uw的正向路径集合
Figure BDA00032984784400001125
中,其中
Figure BDA00032984784400001126
中的第nu条路径
Figure BDA00032984784400001127
1≤nu≤Nu
2.3.9采用步骤2.2.11所述的路径预处理函数fPreprocessPaths处理uw的正向路径集合
Figure BDA0003298478440000121
得到样本uw的查询关系rq、反向查询关系r′q,样本uw的所有正向路径的关系序列的集合
Figure BDA0003298478440000122
所有反向路径的关系序列的集合
Figure BDA0003298478440000123
所有正向路径的实体属性信息序列集合
Figure BDA0003298478440000124
和实体的类型信息序列集合
Figure BDA0003298478440000125
所有反向路径的实体的属性信息序列集合
Figure BDA0003298478440000126
和实体的类型信息序列集合
Figure BDA0003298478440000127
2.3.10将
Figure BDA0003298478440000128
作为元素添加到查询关系rq下补全样本的数据集合中,即令
Figure BDA0003298478440000129
Figure BDA00032984784400001210
2.3.11令w=w+1,转2.3.7。
2.3.12此时Uq中每个补全样本的数据均已经获取,查询关系rq下所有补全样本
Figure BDA00032984784400001211
Figure BDA00032984784400001212
的路径信息为:查询关系rq下所有补全样本的所有正向路径的关系序列的集合
Figure BDA00032984784400001213
查询关系rq下所有补全样本的所有反向路径的关系序列的集合
Figure BDA00032984784400001214
查询关系rq下所有补全样本的所有正向路径的实体属性信息序列集合
Figure BDA00032984784400001215
查询关系rq下所有补全样本的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400001216
查询关系rq下所有补全样本的所有反向路径的实体属性信息序列集合
Figure BDA00032984784400001217
查询关系rq下所有补全样本的所有反向路径的实体类型信息序列集合
Figure BDA00032984784400001218
将该查询关系rq下的所有补全样本的数据作为元素加入总的补全样本的数据中,即令U=U∪{Uq},
Figure BDA00032984784400001219
Figure BDA00032984784400001220
2.3.13令q=q+1,转2.3.3。
2.3.14此时所有补全样本的集合为U={U1,…,Uq,…,UQ},所有补全样本的所有正向路径的关系序列的集合
Figure BDA00032984784400001221
所有补全样本的所有反向路径的关系序列的集合
Figure BDA00032984784400001222
所有补全样本的所有正向路径的实体属性信息序列集合
Figure BDA00032984784400001223
所有补全样本的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400001224
Figure BDA00032984784400001225
所有补全样本的所有反向路径的实体属性信息序列集合
Figure BDA00032984784400001226
Figure BDA00032984784400001227
所有补全样本的所有反向路径的实体类型信息序列集合
Figure BDA00032984784400001228
Figure BDA00032984784400001229
且U、Ur、U′r、UA、UL、U′A、U′L构成所有补全样本的数据集合。转2.4。
2.4将步骤2.2得到的S*
Figure BDA0003298478440000131
输出给事实预测网络作为Q组查询关系的训练样本的数据集合,将步骤2.2得到的Y*输出给事实预测网络作为Q组查询关系的训练样本的标签集合,将步骤2.2得到的S#
Figure BDA0003298478440000132
输出给事实预测网络作为Q组查询关系的验证样本的数据集合,将步骤2.2得到的Y#输出给事实预测网络作为Q组查询关系的验证样本的标签集合,将步骤2.3得到的U、Ur、U′r、UA、UL、U′A、U′L输出给事实预测网络作为Q组查询关系的补全样本的数据集合;并将补全样本的数据集合输出给事实补全模块。
第三步:采用从数据预处理模块接收的Q组查询关系的训练样本的数据集合、训练样本的标签集合、验证样本的数据集合、验证样本的标签集合对事实预测网络进行训练和验证,获取Q个事实预测网络的权重参数(注意:不同的查询关系为不同的子任务,训练得到不同的事实预测网络权重参数)。
具体方法如下:
3.1令q=1;
3.2如果q≤Q,则转步骤3.3,否则说明所有查询关系的事实预测网络均已训练结束,得到了Q个训练好的事实预测网络,即
Figure BDA0003298478440000133
转步骤3.8。
3.3初始化查询关系rq对应的事实预测网络
Figure BDA0003298478440000134
的权重参数,方法为:
3.3.1初始化嵌入矩阵的权重。首先将关系、实体的属性、实体的类型分别对应的3个嵌入矩阵Wr、WA、WL随机初始化为遵循标准正态分布的50维的向量,即各个嵌入矩阵的维度分别为:关系总数目|R|×50、实体属性的总数目|A|×50、实体类型的总数目|L|×50。虽然本发明所述的实体属性实际上属于知识图谱中的关系(即集合A=R),但是其作为对实体语义信息的刻画,应该具有与路径上的关系不同的含义,因此实体属性的嵌入和关系的嵌入使用不同的嵌入矩阵。
3.3.2设置LSTM网络的参数。LSTMr、LSTMA和LSTML网络的隐藏单元的维度均为150维,且LSTMr的隐藏单元和记忆单元均使用全零初始化。
3.3.3初始化全连接层的权重矩阵和偏置向量的权重。每个全连接层均包含一个权重矩阵和一个偏置向量,权重矩阵的维度为全连接层的输出维度×全连接层的输入维度,偏置向量的维度为全连接层的输出维度。下面介绍全连接层的输入维度和输出维度,以确定全连接层对应的权重矩阵和偏置向量的维度。实体属性注意力网络中全连接层
Figure BDA0003298478440000135
的输入维度分别为200,150,50,50,输出维度分别为150,50,50,1;实体类型注意力网络中全连接层
Figure BDA0003298478440000141
的输入维度分别为200,150,50,50,输出维度分别为150,50,50,1;实体序列编码网络中全连接层
Figure BDA0003298478440000142
Figure BDA0003298478440000143
的输入维度均为150,输出维度均为150维。路径编码器中全连接层fp,f′p
Figure BDA0003298478440000144
Figure BDA0003298478440000145
的输入维度分别为300,300,100,100,输出维度分别为100,100,1,1。预测器中全连接层f1,f2,f3,f4的输入维度分别为300,300,600,300,输出维度分别为300,300,300,1。
3.4设置事实预测网络
Figure BDA0003298478440000146
的训练参数:使用Adam优化算法(见文献“Diederik PKingma and Jimmy Ba.2014.Adam:A method for stochastic optimization.arXivpreprint arXiv:1412.6980(2014),Diederik等人:Adam:一种随机优化方法”)进行网络的优化,并使用默认参数(学习率learningRate=0.001,一阶矩估计的指数衰减率β1=0.9,二阶矩估计的指数衰减率β2=0.999,防止除以零的最小值参数∈=1e-8),批数据尺寸batchsize=16。
3.5从S*、Y*
Figure BDA0003298478440000147
中取出关于查询关系rq的训练数据Sq*、Yq*
Figure BDA0003298478440000148
从S#、Y#
Figure BDA0003298478440000149
中取出关于查询关系rq的验证数据Sq#、Yq#
Figure BDA00032984784400001410
3.6迭代计算事实预测网络
Figure BDA00032984784400001411
输出的预测概率与真实标签之间的差距,最小化损失并更新网络
Figure BDA00032984784400001412
的参数,直到满足迭代次数要求,得到权重参数。具体方法如下:
3.6.1令训练迭代参数epoch=1,令事实预测网络对查询关系rq的验证数据进行预测的平均精确度(AveragePrecision)的值APq#=0;初始化迭代阈值EpochNum,EpochNum是[1,30]内的整数;
3.6.2如果epoch≤迭代阈值EpochNum,转3.6.2.1对查询关系rq的事实预测网络
Figure BDA00032984784400001413
进行新一次的迭代训练,否则说明查询关系rq的事实预测网络
Figure BDA00032984784400001414
已经满足迭代次数要求,训练结束,转3.7。
3.6.2.1令批处理次数b=1,令已训练样本数目processednum=0;
3.6.2.2如果
Figure BDA00032984784400001415
转3.6.2.2.1使用Sq*中第b个batch的训练数据对
Figure BDA00032984784400001416
进行训练,其中|Sq*|为训练样本集合Sq*的样本数目,否则说明Sq*中的所有训练样本已经参与过计算,该次训练迭代结束,转3.6.2.3计算在验证数据Sq#上的预测结果;
3.6.2.2.1事实预测网络的嵌入层从Sq*中读取C个样本作为第b个batch的训练数据,即一个批次的训练数据,记为样本训练批次集合Sq*,b={s1,…,sc,…,sc},1≤c≤C,其中C=min(batchsize,|Sq*|-processednum),表示取batchsize和|Sq*|-processednum中的最小值。从Yq*
Figure BDA0003298478440000151
中取出与Sq*,b的这C个样本对应的数据,分别记为标签训练批次集合Yq*,b={y1,…,yc,…,yC},正向路径关系序列训练批次集合
Figure BDA0003298478440000152
Figure BDA0003298478440000153
反向路径关系序列训练批次集合
Figure BDA0003298478440000154
正向路径实体属性信息序列训练批次集合
Figure BDA0003298478440000155
和正向路径实体类型信息序列训练批次集合
Figure BDA0003298478440000156
反向路径实体属性信息序列训练批次集合
Figure BDA0003298478440000157
Figure BDA0003298478440000158
和反向路径实体类型信息序列训练批次集合
Figure BDA0003298478440000159
3.6.2.2.2采用事实预测网络预测方法fpredict,对第b个batch的数据
Figure BDA00032984784400001510
Figure BDA00032984784400001511
和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch的数据的预测概率集合
Figure BDA00032984784400001512
其中
Figure BDA00032984784400001513
是该批次数据中样本sc的预测概率,
Figure BDA00032984784400001514
具体为:
3.6.2.2.2.1事实预测网络的嵌入层读取rq、r′q,以及
Figure BDA00032984784400001515
使用关系的嵌入矩阵Wr、实体属性的嵌入矩阵WA、实体类型的嵌入矩阵WL分别将数据中的关系、实体属性、实体类型映射为各自的向量表示,得到rq、r′q
Figure BDA00032984784400001516
Figure BDA00032984784400001517
分别对应的向量形式
Figure BDA00032984784400001518
(即批次数据的查询关系的嵌入
Figure BDA00032984784400001519
反向查询关系的嵌入
Figure BDA00032984784400001520
正向路径的关系序列的嵌入
Figure BDA00032984784400001521
反向路径的关系序列的嵌入
Figure BDA00032984784400001522
正向路径的实体属性序列的嵌入
Figure BDA00032984784400001523
正向路径的实体类型序列的嵌入
Figure BDA00032984784400001524
反向路径的实体属性序列的嵌入
Figure BDA00032984784400001525
反向路径的实体类型序列的嵌入
Figure BDA00032984784400001526
),将
Figure BDA00032984784400001527
发送给关系编码器和实体编码器。
3.6.2.2.2.2关系编码器提取路径的关系特征。关系编码器从嵌入层接收
Figure BDA00032984784400001528
Figure BDA00032984784400001529
计算该批次数据的所有正向路径的关系表示和所有反向路径的关系表示并传给实体编码器和路径编码器。正向路径的关系表示的获取与反向路径的关系表示的获取方式相同,方法是:
3.6.2.2.2.2.1将
Figure BDA00032984784400001530
(维度为CN×M×50,即CN条正向路径的关系序列的嵌入,其中每条正向路径的关系序列的嵌入维度为M×50)作为关系编码器中LSTMr的一次输入,并使用LSTMr输出的最后的隐状态,记为
Figure BDA0003298478440000161
(维度为CN×150),作为这CN条正向路径的关系表示(每条正向路径的关系表示为150维)。
3.6.2.2.2.2.2将
Figure BDA0003298478440000162
(维度为CN×M×50,即CN条反向路径的关系序列的嵌入,其中每条反向路径的关系序列的嵌入维度为M×50)作为关系编码器中LSTMr的一次输入,并使用LSTMr输出的最后的隐状态,记为
Figure BDA0003298478440000163
(维度为CN×150),作为这CN条反向路径的关系表示(每条反向路径的关系表示为150维)。
3.6.2.2.2.2.3将该批次数据的所有正向路径的关系表示
Figure BDA0003298478440000164
和所有反向路径的关系表示
Figure BDA0003298478440000165
输出给实体编码器和路径编码器。
3.6.2.2.2.3实体编码器提取每条路径的实体特征。实体编码器从嵌入层接收
Figure BDA0003298478440000166
Figure BDA0003298478440000167
从关系编码器接收
Figure BDA0003298478440000168
Figure BDA0003298478440000169
计算所有正向路径的实体表示和所有反向路径的实体表示,并传给路径编码器。正向路径的实体表示的获取与反向路径的实体表示的获取方式相同,具体的过程为:
3.6.2.2.2.3.1实体序列编码网络对正向路径的实体属性序列嵌入
Figure BDA00032984784400001610
和正向路径的实体类型序列嵌入
Figure BDA00032984784400001611
进行编码,由于属性和类型属于两种信息,因此使用两个长短时记忆循环网络(即LSTMA和LSTML)分别进行编码,来捕获正向路径上实体序列的属性表示和类型表示,具体为:
3.6.2.2.2.3.1.1使用正向路径的关系表示
Figure BDA00032984784400001612
对LSTMA和LSTML进行初始化:
3.6.2.2.2.3.1.1.1将
Figure BDA00032984784400001613
输入到全连接层
Figure BDA00032984784400001614
得到LSTMA的第一隐藏状态
Figure BDA00032984784400001615
Figure BDA00032984784400001616
输入到全连接层
Figure BDA00032984784400001617
得到LSTMA的第一细胞状态
Figure BDA00032984784400001618
3.6.2.2.2.3.1.1.2将
Figure BDA00032984784400001619
输入到全连接层
Figure BDA00032984784400001620
得到LSTML的第一隐藏状态
Figure BDA00032984784400001621
Figure BDA00032984784400001622
输入到全连接层
Figure BDA00032984784400001623
得到LSTML的第一细胞状态
Figure BDA00032984784400001624
3.6.2.2.2.3.1.2令t=1。
3.6.2.2.2.3.1.3如果1≤t≤M+1,则将t、
Figure BDA00032984784400001625
Figure BDA00032984784400001626
传给实体画像注意力网络,转第3.6.2.2.2.3.1.4步聚合数据中所有正向路径上第t步实体的属性信息和类型信息;否则说明数据中所有正向路径上实体的属性信息和类型信息已经聚合,转3.6.2.2.2.3.1.8。
3.6.2.2.2.3.1.4实体画像注意力网络(分为实体属性注意力网络和实体类型注意力网络)对批次数据的所有正向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合,作为对实体的语义信息的刻画。具体的计算过程为:
3.6.2.2.2.3.1.4.1从
Figure BDA0003298478440000171
(维度为(C*N)×(M+1)×|At|×50)中取出批数据中所有正向路径的第t步实体的属性嵌入,记为
Figure BDA0003298478440000172
(维度为(C*N)×|At|×50);
3.6.2.2.2.3.1.4.2将
Figure BDA0003298478440000173
Figure BDA0003298478440000174
级联,将级联后的
Figure BDA0003298478440000175
Figure BDA0003298478440000176
经过全连接层
Figure BDA0003298478440000177
得到指导第t步属性注意力的引导变量
Figure BDA0003298478440000178
3.6.2.2.2.3.1.4.3实体属性注意力网络将批数据中所有正向路径的第t步实体的属性嵌入
Figure BDA0003298478440000179
进行聚合,方法为:
3.6.2.2.2.3.1.4.3.1令vt=1;
3.6.2.2.2.3.1.4.3.2若vt≤|At|,转3.6.2.2.2.3.1.4.3.3获取数据中所有正向路径上第t步实体的第vt个属性的权重,否则说明数据中所有正向路径上第t步实体的每个属性的权重均已经获取,转3.6.2.2.2.3.1.4.3.6;
3.6.2.2.2.3.1.4.3.3将
Figure BDA00032984784400001710
中批数据所有正向路径的第t个实体的第vt个属性的嵌入记为
Figure BDA00032984784400001711
(维度为(C*N)×50),将
Figure BDA00032984784400001712
输入到全连接层
Figure BDA00032984784400001713
得到变换后的属性嵌入
Figure BDA00032984784400001714
Figure BDA00032984784400001715
输入到全连接层
Figure BDA00032984784400001716
得到属性引导第二变量
Figure BDA00032984784400001717
3.6.2.2.2.3.1.4.3.4将
Figure BDA00032984784400001718
Figure BDA00032984784400001719
相加,将相加后的
Figure BDA00032984784400001720
Figure BDA00032984784400001721
经过ReLU函数(见文献“Nair V,Hinton G E.Rectified Linear Units ImproveRestricted Boltzmann Machines[C].international conference on machinelearning,2010:807-814.”,Nair和Hinton:纠正线性单位改进受限的博尔茨曼机器)激活后输入到全连接层
Figure BDA00032984784400001722
得到批数据所有正向路径中第t步实体的第vt个属性的权重
Figure BDA00032984784400001723
3.6.2.2.2.3.1.4.3.5令vt=vt+1,转3.6.2.2.2.3.1.4.3.2;
3.6.2.2.2.3.1.4.3.6将权重
Figure BDA00032984784400001724
进行归一化,得到归一化后批数据所有正向路径第t步实体的所有属性的权重集合
Figure BDA00032984784400001725
3.6.2.2.2.3.1.4.3.7使用
Figure BDA00032984784400001726
聚合批数据所有正向路径第t步实体的所有属性的表示,得到聚合后的批数据所有正向路径第t步实体的属性表示
Figure BDA00032984784400001727
Figure BDA00032984784400001728
即将
Figure BDA00032984784400001729
(维度为(C*N)×|At|×50)聚合后得到
Figure BDA00032984784400001730
(维度为(C*N)×50),转3.6.2.2.2.3.1.4.4;
3.6.2.2.2.3.1.4.4从
Figure BDA0003298478440000181
(维度为(C*N)×(M+1)×|Lt|×50)中取出批数据中所有正向路径的第t步实体的类型嵌入,记为
Figure BDA0003298478440000182
(维度为(C*N)×|Lt|×50);
3.6.2.2.2.3.1.4.5将
Figure BDA0003298478440000183
Figure BDA0003298478440000184
级联,将级联后的
Figure BDA0003298478440000185
Figure BDA0003298478440000186
经过全连接层
Figure BDA0003298478440000187
得到指导第t步类型注意力的引导变量
Figure BDA0003298478440000188
3.6.2.2.2.3.1.4.6实体类型注意力网络将批数据中所有正向路径的第t步实体的类型嵌入
Figure BDA0003298478440000189
进行聚合,方法为:
3.6.2.2.2.3.1.4.6.1令ot=1;
3.6.2.2.2.3.1.4.6.2若ot≤|Lt|,转3.6.2.2.2.3.1.4.6.3获取数据中所有正向路径上第t步实体的第ot个类型的权重,否则说明数据中所有正向路径上第t步实体的每个类型的权重均已经获取,转3.6.2.2.2.3.1.4.6.6;
3.6.2.2.2.3.1.4.6.3将
Figure BDA00032984784400001810
中批数据所有正向路径的第t个实体的第ot个类型的嵌入记为
Figure BDA00032984784400001811
(维度为(C*N)×50),将
Figure BDA00032984784400001812
输入到全连接层
Figure BDA00032984784400001813
得到变换后的类型嵌入
Figure BDA00032984784400001814
Figure BDA00032984784400001815
输入到全连接层
Figure BDA00032984784400001816
得到类型引导第二变量
Figure BDA00032984784400001817
3.6.2.2.2.3.1.4.6.4将
Figure BDA00032984784400001818
Figure BDA00032984784400001819
相加,将相加后的
Figure BDA00032984784400001820
Figure BDA00032984784400001821
经过ReLU激活后输入全连接层
Figure BDA00032984784400001822
得到批数据所有正向路径中第t步实体第ot个类型的权重
Figure BDA00032984784400001823
3.6.2.2.2.3.1.4.6.5令ot=ot+1,转3.6.2.2.2.3.1.4.6.2;
3.6.2.2.2.3.1.4.6.6将权重
Figure BDA00032984784400001824
进行归一化,得到归一化后批数据中所有正向路径第t步实体的所有类型的权重集合
Figure BDA00032984784400001825
3.6.2.2.2.3.1.4.6.7使用
Figure BDA00032984784400001826
聚合批数据所有正向路径第t步实体的所有类型的表示,得到聚合后的批数据所有正向路径第t步实体的类型表示
Figure BDA00032984784400001827
Figure BDA00032984784400001828
Figure BDA00032984784400001829
(维度为(C*N)×|Lt|×50)聚合后得到
Figure BDA00032984784400001830
(维度为(C*N)×50),转3.6.2.2.2.3.1.5;
3.6.2.2.2.3.1.5将
Figure BDA00032984784400001831
作为LSTMA第t步的输入,得到LSTMA第t步的输出
Figure BDA00032984784400001832
维度为(C*N)×150;
3.6.2.2.2.3.1.6将
Figure BDA00032984784400001833
作为LSTML第t步的输入,得到LSTML第t步的输出
Figure BDA00032984784400001834
维度为(C*N)×150;
3.6.2.2.2.3.1.7令t=t+1,转3.6.2.2.2.3.1.3;
3.6.2.2.2.3.1.8将
Figure BDA0003298478440000191
Figure BDA0003298478440000192
相加(即分别为t=M+1时LSTMA和LSTML的输出),得到批数据中所有正向路径的实体表示
Figure BDA0003298478440000193
维度为(C*N)×150。转3.6.2.2.2.3.2;
3.6.2.2.2.3.2实体序列编码网络对反向路径的实体属性序列嵌入
Figure BDA0003298478440000194
和反向路径的实体类型序列嵌入
Figure BDA0003298478440000195
进行编码,分别使用LSTMA和LSTML来捕获反向路径上实体序列的属性表示和类型表示,方法是:
3.6.2.2.2.3.2.1使用反向路径的关系表示
Figure BDA0003298478440000196
对LSTMA和LSTML进行初始化:
3.6.2.2.2.3.2.1.1将
Figure BDA0003298478440000197
输入到全连接层
Figure BDA0003298478440000198
得到LSTMA的第二隐藏状态
Figure BDA0003298478440000199
Figure BDA00032984784400001910
输入到全连接层
Figure BDA00032984784400001911
得到LSTMA的第二细胞状态
Figure BDA00032984784400001912
3.6.2.2.2.3.2.1.2将
Figure BDA00032984784400001913
输入到全连接层
Figure BDA00032984784400001914
得到LSTML的第二隐藏状态
Figure BDA00032984784400001915
Figure BDA00032984784400001916
输入到全连接层
Figure BDA00032984784400001917
得到LSTML的第二细胞状态
Figure BDA00032984784400001918
3.6.2.2.2.3.2.2令t=1。
3.6.2.2.2.3.2.3如果1≤t≤M+1,将t、
Figure BDA00032984784400001919
Figure BDA00032984784400001920
传给实体画像注意力网络,转第3.6.2.2.2.3.2.4步聚合数据中所有反向路径上第t步实体的属性信息和类型信息;否则说明数据中所有反向路径上实体的属性信息和类型信息已经聚合,转3.6.2.2.2.3.2.8。
3.6.2.2.2.3.2.4实体画像注意力网络对批次数据的所有反向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合,作为对实体的语义信息的刻画。具体过程为:
3.6.2.2.2.3.2.4.1从
Figure BDA00032984784400001921
(维度为(C*N)×(M+1)×|At|×50)中取出批数据中所有反向路径的第t步实体的属性嵌入,记为
Figure BDA00032984784400001922
(维度为(C*N)×|At|×50);
3.6.2.2.2.3.2.4.2将
Figure BDA00032984784400001923
Figure BDA00032984784400001924
级联,将级联后的
Figure BDA00032984784400001925
Figure BDA00032984784400001926
经过全连接层
Figure BDA00032984784400001927
得到指导第t步属性注意力的引导变量
Figure BDA00032984784400001928
3.6.2.2.2.3.2.4.3实体属性注意力网络将批数据中所有反向路径的第t步实体的属性嵌入
Figure BDA00032984784400001929
进行聚合,方法为:
3.6.2.2.2.3.2.4.3.1令vt=1;
3.6.2.2.2.3.2.4.3.2若vt≤|At|,转3.6.2.2.2.3.2.4.3.3获取数据中所有反向路径上第t步实体的第vt个属性的权重,否则说明数据中所有反向路径上第t步实体的每个属性的权重均已经获取,转3.6.2.2.2.3.2.4.3.6;
3.6.2.2.2.3.2.4.3.3将
Figure BDA0003298478440000201
中批数据所有反向路径的第t个实体的第vt个属性的嵌入记为
Figure BDA0003298478440000202
(维度为(C*N)×50),将
Figure BDA0003298478440000203
输入到全连接层
Figure BDA0003298478440000204
得到变换后的属性嵌入
Figure BDA0003298478440000205
Figure BDA0003298478440000206
输入到全连接层
Figure BDA0003298478440000207
得到属性引导第二变量
Figure BDA0003298478440000208
3.6.2.2.2.3.2.4.3.4将
Figure BDA0003298478440000209
Figure BDA00032984784400002010
相加,将相加后的
Figure BDA00032984784400002011
Figure BDA00032984784400002012
经过ReLU激活后输入全连接层
Figure BDA00032984784400002013
得到批数据所有反向路径中第t步实体第vt个属性的权重
Figure BDA00032984784400002014
3.6.2.2.2.3.2.4.3.5令vt=vt+1,转3.6.2.2.2.3.2.4.3.2;
3.6.2.2.2.3.2.4.3.6将权重
Figure BDA00032984784400002015
进行归一化,得到归一化后批数据所有反向路径第t步实体的所有属性的权重集合
Figure BDA00032984784400002016
3.6.2.2.2.3.2.4.3.7使用
Figure BDA00032984784400002017
聚合批数据所有反向路径第t步实体的所有属性的表示,得到聚合后的批数据所有反向路径第t步实体的属性表示
Figure BDA00032984784400002018
Figure BDA00032984784400002019
即将
Figure BDA00032984784400002020
(维度为(C*N)×|At|×50)聚合后得到
Figure BDA00032984784400002021
(维度为(C*N)×50),转3.6.2.2.2.3.2.4.4;
3.6.2.2.2.3.2.4.4从
Figure BDA00032984784400002022
(维度为(C*N)×(M+1)×|Lt|×50)中取出批数据中所有反向路径的第t步实体的类型嵌入,记为
Figure BDA00032984784400002023
(维度为(C*N)×|Lt|×50);
3.6.2.2.2.3.2.4.5将
Figure BDA00032984784400002024
Figure BDA00032984784400002025
级联,将级联后的
Figure BDA00032984784400002026
Figure BDA00032984784400002027
经过全连接层
Figure BDA00032984784400002028
得到指导第t步类型注意力的引导向量
Figure BDA00032984784400002029
3.6.2.2.2.3.2.4.6实体类型注意力网络将批数据中所有反向路径的第t步实体的类型嵌入
Figure BDA00032984784400002030
进行聚合,方法为:
3.6.2.2.2.3.2.4.6.1令ot=1;
3.6.2.2.2.3.2.4.6.2若ot≤|Lt|,转3.6.2.2.2.3.2.4.6.3获取数据中所有反向路径上第t步实体的第ot个类型的权重,否则说明数据中所有反向路径上第t步实体的每个类型的权重均已经获取,转3.6.2.2.2.3.2.4.6.6;
3.6.2.2.2.3.2.4.6.3将
Figure BDA00032984784400002031
中批数据中所有反向路径的第t个实体的第ot个类型的嵌入记为
Figure BDA00032984784400002032
(维度为(C*N)×50),将
Figure BDA00032984784400002033
输入到全连接层
Figure BDA00032984784400002034
得到变换后的类型嵌入
Figure BDA0003298478440000211
Figure BDA0003298478440000212
输入到全连接层
Figure BDA0003298478440000213
得到类型引导第二变量
Figure BDA0003298478440000214
3.6.2.2.2.3.2.4.6.4将
Figure BDA0003298478440000215
Figure BDA0003298478440000216
相加,将相加后的
Figure BDA0003298478440000217
Figure BDA0003298478440000218
经过ReLU激活后输入全连接层
Figure BDA0003298478440000219
得到批数据所有反向路径中第t步实体第ot个类型的权重
Figure BDA00032984784400002110
3.6.2.2.2.3.2.4.6.5令ot=ot+1,转3.6.2.2.2.3.2.4.6.2;
3.6.2.2.2.3.2.4.6.6将权重
Figure BDA00032984784400002111
进行归一化,得到归一化后批数据中所有反向路径第t步实体的所有类型的权重集合
Figure BDA00032984784400002112
3.6.2.2.2.3.2.4.6.7使用
Figure BDA00032984784400002113
聚合批数据所有反向路径第t步实体的所有类型的表示,得到聚合后的批数据所有反向路径第t步实体的类型表示
Figure BDA00032984784400002114
Figure BDA00032984784400002115
Figure BDA00032984784400002116
(维度为(C*N)×|Lt|×50)聚合后得到
Figure BDA00032984784400002117
(维度为(C*N)×50),转3.6.2.2.2.3.2.5;
3.6.2.2.2.3.2.5将
Figure BDA00032984784400002118
作为LSTMA第t步的输入,得到LSTMA第t步的输出
Figure BDA00032984784400002119
维度为(C*N)×150;
3.6.2.2.2.3.2.6将
Figure BDA00032984784400002120
作为LSTML第t步的输入,得到LSTML第t步的输出
Figure BDA00032984784400002121
维度为(C*N)×150;
3.6.2.2.2.3.2.7令t=t+1,转3.6.2.2.2.3.2.3;
3.6.2.2.2.3.2.8将
Figure BDA00032984784400002122
Figure BDA00032984784400002123
相加(即分别为t=M+1时LSTMA和LSTML的输出),得到批数据中所有反向路径的实体表示
Figure BDA00032984784400002124
维度为(C*N)×150,转3.6.2.2.2.3.2.9;
3.6.2.2.2.3.2.9将3.6.2.2.2.3.1.8中批数据所有正向路径的实体表示
Figure BDA00032984784400002125
和3.6.2.2.2.3.2.8中批数据所有反向路径的实体表示的
Figure BDA00032984784400002126
传给路径编码器,转3.6.2.2.2.4。
3.6.2.2.2.4路径编码器从关系编码器接收
Figure BDA00032984784400002127
Figure BDA00032984784400002128
从实体编码器接收
Figure BDA00032984784400002129
Figure BDA00032984784400002130
分别使用正向路径注意力网络和反向路径注意力网络计算批数据中所有样本的正向路径的表示和反向路径的表示,具体步骤为:
3.6.2.2.2.4.1将批数据的所有正向路径的关系表示
Figure BDA00032984784400002131
和所有正向路径的实体表示
Figure BDA00032984784400002132
级联,得到批数据的所有正向路径的路径表示,记为
Figure BDA00032984784400002133
维度为(C*N)×300,批数据里每条路径的维度为300;
3.6.2.2.2.4.2将批数据的所有反向路径的关系表示
Figure BDA0003298478440000221
和所有反向路径的实体表示
Figure BDA0003298478440000222
级联,得到批数据的所有反向路径的路径表示,记为
Figure BDA0003298478440000223
维度为(C*N)×300,批数据里每条路径的维度为300;
3.6.2.2.2.4.3使用正向路径注意力网络聚合
Figure BDA0003298478440000224
中所有样本的N条正向路径的表示,方法为:
3.6.2.2.2.4.3.1令n=1;
3.6.2.2.2.4.3.2若n≤N,转3.6.2.2.2.4.3.3获取数据中所有样本的第n条正向路径的权重,否则说明数据中所有样本的每条正向路径的权重均已经获取,转3.6.2.2.2.4.3.5;
3.6.2.2.2.4.3.3将
Figure BDA0003298478440000225
中所有样本的第n条路径的表示记为
Figure BDA0003298478440000226
(维度为C×300)。将
Figure BDA0003298478440000227
经过fp
Figure BDA0003298478440000228
两层全连接层(fp之后会经过ReLU函数激活)后得到的值作为第n条正向路径的权重
Figure BDA0003298478440000229
3.6.2.2.2.4.3.4令n=n+1,转3.6.2.2.2.4.3.2;
3.6.2.2.2.4.3.5将批数据中所有样本的所有正向路径的权重
Figure BDA00032984784400002210
进行归一化,得到归一化后批数据中所有样本的所有正向路径的权重
Figure BDA00032984784400002211
3.6.2.2.2.4.3.6使用
Figure BDA00032984784400002212
聚合批数据中样本的正向路径的表示,得到该批数据所有样本的正向路径表示
Figure BDA00032984784400002213
Figure BDA00032984784400002214
(维度为(C*N)×300)聚合后得到
Figure BDA00032984784400002215
(维度为C×300),转3.6.2.2.2.4.4;
3.6.2.2.2.4.4使用反向路径注意力网络聚合
Figure BDA00032984784400002216
中所有样本的N条反向路径的表示,方法为:
3.6.2.2.2.4.4.1令n=1;
3.6.2.2.2.4.4.2若n≤N,转3.6.2.2.2.4.4.3获取数据中所有样本的第n条反向路径的权重,否则说明数据中所有样本的每条反向路径的权重均已经获取,转3.6.2.2.2.4.4.5;
3.6.2.2.2.4.4.3将
Figure BDA00032984784400002217
中所有样本的第n条路径的表示记为
Figure BDA00032984784400002218
(维度为C×300)。将
Figure BDA00032984784400002219
经过f′p
Figure BDA00032984784400002220
两层全连接层(f′p之后会经过ReLU函数激活)后得到的值作为第n条反向路径的权重
Figure BDA00032984784400002221
3.6.2.2.2.4.4.4令n=n+1,转3.6.2.2.2.4.4.2;
3.6.2.2.2.4.4.5将批数据中所有样本的所有反向路径的权重
Figure BDA0003298478440000231
进行归一化,得到归一化后批数据中所有样本的所有反向路径的权重
Figure BDA0003298478440000232
3.6.2.2.2.4.4.6使用
Figure BDA0003298478440000233
聚合批数据中样本的反向路径的表示,得到该批数据所有样本的反向路径表示
Figure BDA0003298478440000234
Figure BDA0003298478440000235
(维度为(C*N)×300)聚合后得到
Figure BDA0003298478440000236
(维度为C×300),转3.6.2.2.2.4.5;
3.6.2.2.2.4.5将
Figure BDA0003298478440000237
Figure BDA0003298478440000238
传输给预测器,转3.6.2.2.2.5;
3.6.2.2.2.5预测器从路径编码器接收
Figure BDA0003298478440000239
Figure BDA00032984784400002310
计算该批数据中所有样本的预测概率,方法为:
3.6.2.2.2.5.1将
Figure BDA00032984784400002311
输入到全连接层f1中,将
Figure BDA00032984784400002312
输入到全连接层f2中,然后将全连接层f1和f2的输出进行拼接,得到该批数据中所有样本的路径表示
Figure BDA00032984784400002313
维度为C×600,其中该批数据中每个样本的路径表示维度为600。
3.6.2.2.2.5.2将
Figure BDA00032984784400002314
输入到全连接层f3中,然后将f3的输出经过ReLU函数激活后输入到全连接层f4中,得到所有样本的路径的新表示
Figure BDA00032984784400002315
3.6.2.2.2.5.3将
Figure BDA00032984784400002316
输入sigmoid函数中
Figure BDA00032984784400002317
得到该批次所有数据的预测概率集合
Figure BDA00032984784400002318
Figure BDA00032984784400002319
是该批次数据中样本sc的预测概率,
Figure BDA00032984784400002320
Figure BDA00032984784400002321
转3.6.2.2.3。
3.6.2.2.3使用步骤3.6.2.2.1得到的标签集合Yq*,b和步骤3.6.2.2.2.5.3事实预测网络的预测概率集合
Figure BDA00032984784400002322
计算该批次数据Sq*,b的损失值loss。方法如下式,其中
Figure BDA00032984784400002323
表示该批次数据中查询关系rq的正样本集合,
Figure BDA00032984784400002324
表示该批次数据中查询关系rq的正样本集合和负样本集合,如果Sq*,b中的样本sc的标签yc=1,则样本
Figure BDA00032984784400002325
否则
Figure BDA00032984784400002326
Figure BDA00032984784400002327
Figure BDA00032984784400002328
3.6.2.2.4使用Adam优化算法对损失值loss最小化,以反向传播训练网络参数,事实预测网络中的参数(三个嵌入矩阵Wr、WA、WL,3个LSTM网络(LSTMr、LSTMA和LSTML)和20个全连接层的权重矩阵和偏置向量)都得到一次更新。
3.6.2.2.5令processednum=processednum+C,b=b+1,转3.6.2.2。
3.6.2.3令批处理次数b=1,令已预测的验证样本数目predictednum=0,令验证样本的预测概率集合
Figure BDA0003298478440000241
3.6.2.4如果
Figure BDA0003298478440000242
转3.6.2.4.1对Sq#中第b个batch的验证数据进行预测,其中|Sq#|为验证样本集合Sq#的样本数目,否则说明已经对Sq#中的所有验证样本进行预测,转3.6.2.5;
3.6.2.4.1事实预测网络的嵌入层从步骤3.5中得到的Sq#中读取C#个样本作为第b个batch的验证数据,即一个批次的验证数据,记为样本验证批次集合
Figure BDA0003298478440000243
1≤c#≤C#,其中C#=min(batchsize,|Sq#|-predictednum)。从步骤3.5得到的Yq#
Figure BDA0003298478440000244
Figure BDA0003298478440000245
中取出与Sq#,b的这C#个样本对应的数据,分别记为标签验证批次集合
Figure BDA0003298478440000246
正向路径关系序列验证批次集合
Figure BDA0003298478440000247
反向路径关系序列验证批次集合
Figure BDA0003298478440000248
正向路径实体属性信息序列验证批次集合
Figure BDA0003298478440000249
和正向路径实体类型信息序列验证批次集合
Figure BDA00032984784400002410
Figure BDA00032984784400002411
反向路径实体属性信息序列验证批次集合
Figure BDA00032984784400002412
和反向路径实体类型信息序列验证批次集合
Figure BDA00032984784400002413
3.6.2.4.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法fpredict,对第b个batch的验证数据
Figure BDA00032984784400002414
和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch的验证数据的预测概率集合
Figure BDA00032984784400002415
Figure BDA00032984784400002416
其中
Figure BDA00032984784400002417
是该批次数据中样本
Figure BDA00032984784400002418
的预测概率。将
Figure BDA00032984784400002419
加入
Figure BDA00032984784400002420
中,即令
Figure BDA00032984784400002421
3.6.2.4.3令predictednum=predictednum+C#,b=b+1,转3.6.2.4。
3.6.2.5使用验证数据集合Sq#的标签集合Yq#和事实预测网络的预测概率集合
Figure BDA00032984784400002422
计算事实预测网络对验证数据进行预测的平均精确度,记为
Figure BDA00032984784400002423
Figure BDA00032984784400002424
则令
Figure BDA00032984784400002425
Figure BDA00032984784400002426
并保存事实预测网络
Figure BDA00032984784400002427
的参数,转3.6.2.6;若
Figure BDA00032984784400002428
则不用保存事实预测网络
Figure BDA0003298478440000251
的参数,直接转3.6.2.6。
3.6.2.6令epoch=epoch+1,转3.6.2;
3.7令q=q+1,转3.2;
3.8计算该基于路径的知识图谱补全系统进行事实预测的平均精度均值MAP,
Figure BDA0003298478440000252
Figure BDA0003298478440000253
转第四步。
第四步:事实补全模块对用户输入的需要补全的知识图谱进行补全,方法是:
4.1事实补全模块从数据预处理模块接收补全样本的数据集合U、Ur、U′r、UA、UL、U′A、U′L,令补全样本集合U对应的所有补全样本的预测概率集合
Figure BDA0003298478440000254
4.2令q=1;
4.3如果q≤Q,转4.3.1预测查询关系rq下所有补全样本属于事实的概率,否则说明所有查询关系下的补全样本均已预测,转4.4。
4.3.1从RQ中取出查询关系rq,根据rq选择第三步中训练好的事实预测网络
Figure BDA0003298478440000255
4.3.2从U、Ur、U′r、UA、UL、U′A、U′L中中取出关于查询关系rq的补全数据Uq
Figure BDA0003298478440000256
U′q r
Figure BDA0003298478440000257
U′q A、U′q L
4.3.3令Uq对应的补全样本的预测概率集合为
Figure BDA0003298478440000258
4.3.4使用训练好的事实预测网络
Figure BDA0003298478440000259
预测Uq中所有样本属于事实的概率,得到Uq中所有样本属于事实的预测概率集合Zq,具体地:
4.3.4.1令批处理次数b=1,令已预测补全样本的数目predictednum=0;
4.3.4.2如果
Figure BDA00032984784400002510
转4.3.4.2.1对Uq中第b个batch的补全数据进行预测,否则说明已经对Uq中的所有补全样本进行预测,转4.3.5;
4.3.4.2.1事实预测网络的嵌入层从Uq读取Cu个样本作为第b个batch的补全数据,即一个批次的补全数据,记为样本补全批次集合
Figure BDA00032984784400002511
1≤cu≤Cu,其中Cu=min(batchsize,|Uq|-predictednum)。从
Figure BDA00032984784400002512
中取出与Uq,b的这Cu个样本对应的数据,分别记为正向路径关系序列补全批次集合
Figure BDA00032984784400002513
反向路径关系序列补全批次集合
Figure BDA00032984784400002514
正向路径实体属性信息序列补全批次集合
Figure BDA00032984784400002515
和正向路径实体类型信息序列补全批次集合
Figure BDA00032984784400002516
Figure BDA00032984784400002517
反向路径实体属性信息序列补全批次集合
Figure BDA00032984784400002518
和反向路径实体类型信息序列补全批次集合
Figure BDA0003298478440000261
4.3.4.2.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法fpredict,对第b个batch的补全数据
Figure BDA0003298478440000262
和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch经过训练好的事实预测网络
Figure BDA0003298478440000263
预测得到的补全数据的预测概率集合
Figure BDA0003298478440000264
Figure BDA0003298478440000265
其中
Figure BDA0003298478440000266
是该批次数据中样本
Figure BDA0003298478440000267
的预测概率。
4.3.4.2.3事实补全模块从事实预测网络接收批次数据的预测概率集合
Figure BDA0003298478440000268
Figure BDA0003298478440000269
加入到rq下的补全样本的预测概率集合Zq中,即令
Figure BDA00032984784400002610
4.3.4.2.4令predictednum=predictednum+Cu,b=b+1,转4.3.4.2。
4.3.5将Zq作为元素加入到所有补全样本的预测概率集合中,即Z=Z∪{Zq};
4.3.6令q=q+1,转4.3;
4.4根据所有补全样本集合U(U={U1,…,Uq,…,UQ})的预测概率集合Z(Z={Z1,…,Zq,…,ZQ}),判断样本是否是需要补全的事实,得到补全后的知识图谱,具体地:
4.4.1将补全后的知识图谱的事实集合记为Fnew,令Fnew=F;
4.4.2设置阈值δ(0.5≤δ≤1),令q=1;
4.4.3如果q≤Q,则转4.4.4补全查询关系rq下的缺失事实,否则说明所有查询关系下的缺失事实均已补全,转4.5。
4.4.4令w=1;
4.4.5如果w≤|Uq|,则转4.4.6判断补全样本uw是否为缺失事实,否则说明查询关系rq下的缺失事实均已补全,转4.4.8。
4.4.6Uq中第w个样本uw代表三元组
Figure BDA00032984784400002611
uw的预测概率为Zq中的第w个预测概率zw,若预测概率zw≥δ,则在用户提供的知识图谱中将实体
Figure BDA00032984784400002612
Figure BDA00032984784400002613
使用rq连接,即将
Figure BDA00032984784400002614
添加到事实集合Fnew中,
Figure BDA00032984784400002615
4.4.7令w=w+1,转4.4.5;
4.4.8令q=q+1,转4.4.3;
4.5将用户提供的知识图谱中的事实集合F更新为Fnew,即完成了对用户提供的知识图谱的补全。
采用本发明可以达到以下技术效果:
1.本发明的第一步构建了一个完整的基于路径的知识图谱补全系统,以补全知识图谱中缺失的事实,融合了数据预处理模块、事实预测网络和事实补全模块。该系统可以针对用户输入的需要补全的知识图谱,在第二步中构造训练集训练事实预测网络。事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五个部分组成,其中前四个模块同时编码正向路径和反向路径上的特征,预测器则根据正向和反向路径表示进行预测,提升了事实预测网络预测的平均精度均值,提升了事实补全模块补全事实的可信度。
2.本发明在第三步事实预测网络的实体编码器中提取实体的表示时提出了使用实体的属性对实体的语义信息进行刻画,实体的属性即在知识图谱中与该实体相连的边。事实预测网络的实体编码器使用实体属性注意力和实体类型注意力两个网络聚合实体的属性表示和类型表示,丰富了路径上实体的语义信息,提升了路径上实体表示的准确性,进一步提升了路径表示的准确性和事实预测的平均精度均值。
3.本发明第三步训练事实预测网络时将输出的预测值与真值不断拟合,得到了可以准确预测实体间是否存在某个关系的事实预测网络,从而可以对补全样本是否是知识图谱中缺失的事实进行更准确的判断,使得补全到知识图谱中的事实可信度更高。
附图说明:
图1为本发明整体流程图。
图2为本发明第一步构建的基于路径的知识图谱补全系统逻辑结构图。
图3为图2中的事实预测网络的逻辑结构图。
图4为本发明第四步补全知识图谱中缺失事实的流程图。
具体实施方式:
图1为本发明整体流程图。如图1所示,本发明包括以下步骤:
第一步:构建基于路径的知识图谱事实补全系统。该系统如图2所示,由数据预处理模块、事实预测网络、事实补全模块构成。
数据预处理模块与事实预测网络相连,接收用户输入的知识图谱,对用户输入的知识图谱进行预处理,得到训练事实预测网络所需的训练数据(包括训练样本的数据集合和训练样本的标签集合)、验证事实预测网络所需的验证数据(包括验证样本的数据集合和验证样本的标签集合)、以及事实补全模块所需的要判断是否为缺失事实的补全数据(包括补全样本的数据集合),输出给事实预测网络,并将补全样本的数据集合输出给事实补全模块。数据预处理模块由路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths构成,其中fExtractPath从知识图谱中抽取每个样本的实体之间的路径信息,fPreprocessPaths将每个样本的实体间路径信息处理为事实预测网络需要的数据结构。将知识图谱中的实体集合、关系集合、事实集合分别记为E={ei},R={rj}和
Figure BDA0003298478440000271
将实体的属性集合记为A={av},将实体的类型集合记为L={lo},其中1≤i≤|E|,1≤i1≤|E|,1≤i2≤|E|,1≤j≤|R|,1≤v≤|A|,1≤o≤|L|,|E|、|R|、|A|、|L|分别表示实体的总数、关系的总数、属性的总数和类型的总数。将r′j记为rj的反关系,表示若
Figure BDA0003298478440000281
Figure BDA0003298478440000282
根据E、R、F、A、L,数据预处理模块获取训练样本集合S*、训练样本的标签集合Y*、验证样本集合S#、验证样本的标签集合Y#、以及补全样本集合U。对于样本集合(包括训练样本集合S*、验证样本集合S#、补全样本集合U)中的每个样本(包括训练样本、验证样本、补全样本),数据预处理模块先使用fExtractPath从知识图谱中抽取样本的实体对之间的正向路径集合,然后使用fPreprocessPaths处理该正向路径集合输出样本的数据集合,构成训练样本的数据集合、验证样本的数据集合、补全样本的数据集合。
事实预测网络如图3所示,由嵌入层、关系编码器、实体编码器、路径编码器、预测器五个部分组成。其中,嵌入层包含3个嵌入矩阵,分别为关系的嵌入矩阵Wr、实体属性的嵌入矩阵WA、实体类型的嵌入矩阵WL;关系编码器用于提取每条路径的关系序列特征,由一个LSTM网络构成,记为LSTMr;实体编码器用于提取每条路径的实体序列特征(包括每条路径上实体的属性信息序列的特征和类型信息序列的特征),由实体画像注意力网络和实体序列编码网络两个子网络构成,其中实体画像注意力网络由结构相同的实体属性注意力网络和实体类型注意力网络构成,实体属性注意力网络由4个全连接层
Figure BDA0003298478440000283
构成,实体类型注意力网络由4个全连接层
Figure BDA0003298478440000284
构成,而实体序列编码网络由两个LSTM网络(分别记为LSTMA和LSTML)及4个全连接层
Figure BDA0003298478440000285
构成;路径编码器由结构相同的正向路径注意力网络和反向路径注意力网络构成,其中正向路径注意力网络由2个全连接层fp
Figure BDA0003298478440000286
构成,反向路径注意力网络由2个全连接层f′p
Figure BDA0003298478440000287
构成,分别用于聚合每个样本的所有正向路径的特征和所有反向路径的特征;预测器由4个全连接层f1,f2,f3和f4构成,用于预测每个样本属于事实的概率。事实预测网络从数据预处理模块得到样本数据集合(包括训练样本的数据集合、验证样本的数据集合、补全样本的数据集合),提取样本数据集合中每个样本的路径特征,然后计算出每个样本属于事实的概率,组成预测概率集合(包括训练样本的预测概率集合、验证样本的预测概率集合、补全样本的预测概率集合)。其中,(1)嵌入层接收数据预处理模块的数据,将每个关系、实体属性、实体类型、实体属性分别使用Wr、WA、WL转化为向量表示,然后将每个样本的每条路径的关系序列转化为向量表示(即每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入)输出给关系编码器,将每个样本的每条路径上实体的属性信息序列和实体的类型信息序列转化为向量表示(即每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入,和每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入)输出给实体编码器,将每个样本的查询关系和反向查询关系转化为向量表示(即每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入)也输出给实体编码器;(2)关系编码器接收嵌入层输出的每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入,对这些嵌入进行编码,得到每个样本的每条正向路径的关系表示和每条反向路径的关系表示,将每个样本的每条正向路径的关系表示和每条反向路径的关系表示输出给实体编码器和路径编码器;(3)实体编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示,还接收来自嵌入层的每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入、每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入、每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入,对这些嵌入进行编码,得到每个样本的每条正向路径的实体表示和每条反向路径的实体表示,将每个样本的每条正向路径的实体表示和每条反向路径的实体表示输出给路径编码器;(4)路径编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示,以及来自实体编码器的每个样本的每条正向路径的实体表示和每条反向路径的实体表示,对这些表示进行编码,得到每个样本的正向路径表示和反向路径表示,将每个样本的正向路径表示和反向路径表示输出给预测器;(5)预测器接收来自路径编码器的每个样本的正向路径表示和反向路径表示,对这些表示进行编码,得到每个样本的预测结果(即每个样本属于事实的概率),将每个样本的预测结果组成预测概率集合。事实预测网络根据数据预处理模块输出的训练样本的标签集合和事实预测网络预测的训练样本的预测概率集合,进行训练并更新网络参数;事实预测网络根据数据预处理模块输出的验证样本的标签集合和事实预测网络预测的验证样本的预测概率集合,进行验证并保存最优的网络参数。如果输入事实预测网络的样本数据集合是补全样本的数据集合,则事实预测网络将计算得到的补全样本的预测概率集合输出给事实补全模块。
事实补全模块与数据预处理模块和事实预测网络相连接。事实补全模块接收数据预处理模块输出的补全样本的数据集合和训练好的事实预测网络输出的补全样本的预测概率集合Z,根据每个补全样本的预测概率判断补全样本的数据集合中补全样本集合U里的每个补全样本是否是需要补全的事实,如果补全样本是需要补全的事实,则将补全样本uw(uw∈U)添加到知识图谱的事实集合中,即令Fnew=F∪uw,Fnew为补全后的知识图谱的事实集合。
第二步:数据预处理模块根据用户输入的需要补全的知识图谱(包括E、R、F)和L、DL、RQ,准备训练事实预测网络所需的训练数据(包括训练样本的数据集合和训练样本的标签集合)、验证事实预测网络所需的验证数据(包括验证样本的数据集合和验证样本的标签集合)、以及事实补全模块所需的要判断是否为缺失事实的补全数据(包括补全样本的数据集合)。
2.1数据预处理模块接收用户输入的需要补全的知识图谱(包括实体集合E、关系集合R、事实集合F)、实体的类型集合L和每个实体对应的类型信息的字典DL(字典的key为实体,value为实体对应的类型集合),以及需要补全的查询关系集合RQ={rq|rq∈R}(1≤q≤Q,Q为RQ中元素的个数)。
2.2数据预处理模块使用路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths准备训练和验证事实预测网络需要的训练样本的数据集合和训练样本的标签集合、验证样本的数据集合和验证样本的标签集合,具体地:
2.2.1令存储所有训练样本的集合
Figure BDA0003298478440000301
存储所有训练样本的标签集合
Figure BDA0003298478440000302
存储所有训练样本的所有正向路径的关系序列的集合
Figure BDA0003298478440000303
存储所有训练样本的所有反向路径的关系序列的集合
Figure BDA0003298478440000304
存储所有训练样本的所有正向路径的实体属性信息序列集合
Figure BDA0003298478440000305
存储所有训练样本的所有正向路径的实体类型信息序列集合
Figure BDA0003298478440000306
存储所有训练样本的所有反向路径的实体属性信息序列集合
Figure BDA0003298478440000307
存储所有训练样本的所有反向路径的实体类型信息序列集合
Figure BDA0003298478440000308
2.2.2令存储所有验证样本的集合
Figure BDA0003298478440000309
存储所有验证样本的标签集合
Figure BDA00032984784400003010
存储所有验证样本的所有正向路径的关系序列的集合
Figure BDA00032984784400003011
存储所有验证样本的所有反向路径的关系序列的集合
Figure BDA00032984784400003012
存储所有验证样本的所有正向路径的实体属性信息序列集合
Figure BDA00032984784400003013
存储所有验证样本的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400003014
存储所有验证样本的所有反向路径的实体属性信息序列集合
Figure BDA00032984784400003015
存储所有验证样本的所有反向路径的实体类型信息序列集合
Figure BDA00032984784400003016
2.2.3令q=1;
2.2.4如果q≤Q,转2.2.5获取查询关系rq下的样本数据,否则说明全部样本数据均已经处理,转2.2.18。
2.2.5设置负样本数目与正样本数目的比值为KN|P,KN|P为正整数,且1≤KN|P≤10。设置样本数量阈值为Kq,Kq为正整数,且
Figure BDA00032984784400003017
其中
Figure BDA00032984784400003018
表示以rq为关系的事实,即
Figure BDA00032984784400003019
Figure BDA00032984784400003020
表示集合
Figure BDA0003298478440000311
的元素数目。令查询关系rq的样本集合为
Figure BDA0003298478440000312
令查询关系rq的样本标签集合为
Figure BDA0003298478440000313
令查询关系rq下所有样本的所有正向路径的关系序列的集合
Figure BDA0003298478440000314
查询关系rq下所有样本的所有反向路径的关系序列的集合
Figure BDA0003298478440000315
查询关系rq下所有样本的所有正向路径的实体属性信息序列集合
Figure BDA0003298478440000316
查询关系rq下所有样本的所有正向路径的实体类型信息序列集合
Figure BDA0003298478440000317
查询关系rq下所有样本的所有反向路径的实体属性信息序列集合
Figure BDA0003298478440000318
查询关系rq下所有样本的所有反向路径的实体类型信息序列集合
Figure BDA0003298478440000319
2.2.6令k=1;
2.2.7如果k≤Kq,转2.2.8获取查询关系rq下单个样本的数据,否则说明查询关系rq下的所有样本的数据已经获取,转2.2.14。
2.2.8随机从实体集合E中选择两个实体
Figure BDA00032984784400003110
Figure BDA00032984784400003111
Figure BDA00032984784400003112
1≤k1≤|E|,1≤k2≤|E|。构造样本sk
Figure BDA00032984784400003113
Figure BDA00032984784400003114
Figure BDA00032984784400003115
则sk为正样本,令sk的标签yk=1,若
Figure BDA00032984784400003116
则sk为负样本,令sk的标签yk=0。构造样本sk时需要控制最终Sq内正负样本的比例为1:KN|P(即每构造一个正样本,就构造KN|P个负样本)。
2.2.9令sk的所有正向路径的关系序列的集合
Figure BDA00032984784400003117
sk的所有反向路径的关系序列的集合
Figure BDA00032984784400003118
sk的所有正向路径的实体属性信息序列集合
Figure BDA00032984784400003119
sk的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400003120
sk的所有反向路径的实体属性信息序列集合
Figure BDA00032984784400003121
sk的所有反向路径的实体类型信息序列集合
Figure BDA00032984784400003122
2.2.10fExtractPath采用随机游走方法抽取样本sk的实体
Figure BDA00032984784400003123
到实体
Figure BDA00032984784400003124
的N条正向路径,放到sk的正向路径集合
Figure BDA00032984784400003125
中,其中
Figure BDA00032984784400003126
1≤n≤N,第n条路径pn由实体和关系交替构成,
Figure BDA00032984784400003127
M为路径pn的长度,实体
Figure BDA00032984784400003128
为路径pn上第t步的实体,rt∈R(1≤t≤M)为路径pn上第t步的关系。即采用fExtractPath函数处理
Figure BDA00032984784400003129
得到
Figure BDA00032984784400003130
Figure BDA00032984784400003131
的N条正向路径的集合
Figure BDA00032984784400003132
2.2.11fPreprocessPaths将样本sk的正向路径集合
Figure BDA00032984784400003133
处理为事实预测网络需要的数据结构,得到样本sk的查询关系rq、反向查询关系r′q,样本sk的所有正向路径的关系序列的集合
Figure BDA00032984784400003134
所有反向路径的关系序列的集合
Figure BDA00032984784400003135
所有正向路径的实体属性信息序列集合
Figure BDA00032984784400003136
和实体的类型信息序列集合
Figure BDA00032984784400003137
所有反向路径的实体的属性信息序列集合
Figure BDA00032984784400003138
和实体的类型信息序列集合
Figure BDA0003298478440000321
具体为:
2.2.11.1令n=1;
2.2.11.2如果n≤N,转2.2.11.3处理样本sk的第n条路径的数据,否则说明样本sk的全部路径均已经处理,转2.2.11.14。
2.2.11.3获取
Figure BDA0003298478440000322
中第n条路径pn的反向路径p′n
Figure BDA0003298478440000323
2.2.11.4将pn分为正向关系序列
Figure BDA0003298478440000324
和正向实体序列
Figure BDA0003298478440000325
Figure BDA0003298478440000326
2.2.11.5将p′n分为反向关系序列
Figure BDA0003298478440000327
和反向实体序列
Figure BDA0003298478440000328
Figure BDA0003298478440000329
2.2.11.6获取
Figure BDA00032984784400003210
上所有实体的属性信息,方法是:
2.2.11.6.1令t=1;
2.2.11.6.2如果t≤M+1,转2.2.11.6.3获取
Figure BDA00032984784400003211
上的第t步实体的属性信息,否则说明
Figure BDA00032984784400003212
上所有实体的属性信息均已经获取,转2.2.11.7。
2.2.11.6.3获取
Figure BDA00032984784400003213
上的第t步实体et的属性集合At
Figure BDA00032984784400003214
1≤vt≤|At|,|At|为At中属性的个数。本发明提出的任意一个实体的属性信息是从知识图谱中与该实体相连的关系获得的,分为两种情况进行处理:
2.2.11.6.3.1如果et既不是
Figure BDA00032984784400003215
也不是
Figure BDA00032984784400003216
那么et的属性集合就是以et作为头实体的所有事实构成的邻居事实集合
Figure BDA00032984784400003217
中的关系的集合,即
Figure BDA00032984784400003218
Figure BDA00032984784400003219
转2.2.11.6.4。
2.2.11.6.3.2如果et
Figure BDA00032984784400003220
或者
Figure BDA00032984784400003221
那么et的属性集合就是以et作为头实体的所有事实去掉包含
Figure BDA00032984784400003222
Figure BDA00032984784400003223
作为实体的所有事实构成的邻居事实集合
Figure BDA00032984784400003224
中的关系的集合,即
Figure BDA00032984784400003225
Figure BDA00032984784400003226
其中
Figure BDA00032984784400003227
表示以
Figure BDA00032984784400003228
Figure BDA00032984784400003229
分别作为头实体和尾实体的事实,即
Figure BDA00032984784400003230
Figure BDA00032984784400003231
转2.2.11.6.4。
2.2.11.6.4对At内的属性进行排序。方法是将At内的全部属性根据其在
Figure BDA00032984784400003242
中出现的频次从高到低进行排序,频次高的属性排序在前。具体地,将et的第vt个属性
Figure BDA00032984784400003232
Figure BDA00032984784400003233
出现的次数记为
Figure BDA00032984784400003234
若属性
Figure BDA00032984784400003235
Figure BDA00032984784400003236
的次数满足
Figure BDA00032984784400003237
则属性
Figure BDA00032984784400003238
排序在
Figure BDA00032984784400003239
之前,最后将et的属性集合记为
Figure BDA00032984784400003240
意味着
Figure BDA00032984784400003241
Figure BDA0003298478440000331
2.2.11.6.5令t=t+1,转2.2.11.6.2;
2.2.11.7将
Figure BDA0003298478440000332
上获得的所有实体的属性信息记为
Figure BDA0003298478440000333
2.2.11.8将
Figure BDA0003298478440000334
上所有实体的属性信息记为
Figure BDA0003298478440000335
Figure BDA0003298478440000336
的逆序,即
Figure BDA0003298478440000337
Figure BDA0003298478440000338
2.2.11.9获取
Figure BDA0003298478440000339
上所有实体的类型信息,方法是:
2.2.11.9.1令t=1;
2.2.11.9.2如果t≤M+1,转2.2.11.9.3获取
Figure BDA00032984784400003310
上的第t步实体的类型信息,否则说明
Figure BDA00032984784400003311
上所有实体的类型信息均已经获取,转2.2.11.10。
2.2.11.9.3令et的类型集合Lt为字典DL中键et对应的值,即令Lt=DL[et],Lt可以表示为
Figure BDA00032984784400003312
1≤ot≤|Lt|,
Figure BDA00032984784400003313
为Lt中的第ot个类型,|Lt|为Lt中类型的个数。
2.2.11.9.4令t=t+1,转2.2.11.9.2;
2.2.11.10将
Figure BDA00032984784400003314
上获得的所有实体的类型信息记为
Figure BDA00032984784400003315
2.2.11.11将
Figure BDA00032984784400003316
上所有实体的类型信息记为
Figure BDA00032984784400003317
Figure BDA00032984784400003318
的逆序,即
Figure BDA00032984784400003319
Figure BDA00032984784400003320
2.2.11.12将2.2.11.4中获得的正向路径pn的关系序列
Figure BDA00032984784400003321
加入集合
Figure BDA00032984784400003322
即令
Figure BDA00032984784400003323
将2.2.11.5中获得的反向路径p′n的关系序列
Figure BDA00032984784400003324
加入集合
Figure BDA00032984784400003325
即令
Figure BDA00032984784400003326
将2.2.11.7获得的正向路径pn的实体属性序列
Figure BDA00032984784400003327
加入集合
Figure BDA00032984784400003328
即令
Figure BDA00032984784400003329
将2.2.11.10获得的正向路径pn的实体类型序列
Figure BDA00032984784400003330
加入集合
Figure BDA00032984784400003331
即令
Figure BDA00032984784400003332
将2.2.11.8获得的反向路径p′n的实体属性序列
Figure BDA00032984784400003333
加入集合
Figure BDA00032984784400003334
即令
Figure BDA00032984784400003335
将2.2.11.11获得的反向路径p′n的实体类型序列
Figure BDA00032984784400003336
加入集合
Figure BDA00032984784400003337
即令
Figure BDA00032984784400003338
2.2.11.13令n=n+1,转2.2.11.2。
2.2.11.14将下述信息作为fPreprocessPaths处理样本sk的正向路径集合
Figure BDA00032984784400003339
的结果:样本sk的查询关系rq、反向查询关系r′q,样本sk的所有正向路径的关系序列的集合
Figure BDA00032984784400003340
Figure BDA00032984784400003341
所有反向路径的关系序列的集合
Figure BDA00032984784400003342
所有正向路径的实体属性信息序列集合
Figure BDA00032984784400003343
和实体的类型信息序列集合
Figure BDA00032984784400003344
Figure BDA00032984784400003345
所有反向路径的实体的属性信息序列集合
Figure BDA00032984784400003346
和实体的类型信息序列集合
Figure BDA00032984784400003347
转2.2.12。
2.2.12将样本sk和sk的标签分别加入样本集合Sq和样本的标签集合Yq中,即令Sq=Sq∪{sk},令Yq=Yq∪{yk};将2.2.11.14中获得的fPreprocessPaths处理样本sk的正向路径集合
Figure BDA0003298478440000341
的结果作为元素添加到查询关系rq下的样本的数据集合中,即令
Figure BDA0003298478440000342
Figure BDA0003298478440000343
2.2.13令k=k+1,转2.2.7。
2.2.14此时查询关系rq下所有样本为Sq={S1,…,sk,…,SK},查询关系rq下所有样本的标签集合为Yq={y1,…,yk,…,yK},查询关系rq下所有样本的所有正向路径的关系序列的集合
Figure BDA0003298478440000344
查询关系rq下所有样本的所有反向路径的关系序列的集合
Figure BDA0003298478440000345
Figure BDA0003298478440000346
查询关系rq下所有样本的所有正向路径的实体属性信息序列集合
Figure BDA0003298478440000347
Figure BDA0003298478440000348
查询关系rq下所有样本的所有正向路径的实体类型信息序列集合
Figure BDA0003298478440000349
Figure BDA00032984784400003410
查询关系rq下所有样本的所有反向路径的实体属性信息序列集合
Figure BDA00032984784400003411
Figure BDA00032984784400003412
查询关系rq下所有样本的所有反向路径的实体类型信息序列集合
Figure BDA00032984784400003413
Figure BDA00032984784400003414
将Sq、Yq
Figure BDA00032984784400003415
按照a:c的比例分为查询关系rq下的训练数据Sq*、Yq*
Figure BDA00032984784400003416
和验证数据Sq#、Yq#
Figure BDA00032984784400003417
Figure BDA00032984784400003418
a和c为正数,一般a>c,且a+c=10,优选a:c=7:3。
2.2.15将查询关系rq下的所有训练数据作为元素加入总的训练数据中,即令S*=S*∪{Sq*},Y*=Y*∪{Yq*},
Figure BDA00032984784400003419
Figure BDA00032984784400003420
2.2.16将查询关系rq下的所有验证数据作为元素加入总的验证数据中,即令S#=S#∪{Sq#},Y#=Y#∪{Yq#},
Figure BDA00032984784400003421
Figure BDA00032984784400003422
2.2.17令q=q+1,转2.2.4。
2.2.18此时所有训练样本的标签集合为Y*={Y1,…,Yq,…,YQ},所有的训练样本的集合为S*={S1*,…,Sq*,…,SQ*},所有训练样本的所有正向路径的关系序列的集合
Figure BDA00032984784400003423
Figure BDA00032984784400003424
所有训练样本的所有反向路径的关系序列的集合
Figure BDA00032984784400003425
Figure BDA00032984784400003426
所有训练样本的所有正向路径的实体属性信息序列集合
Figure BDA00032984784400003427
Figure BDA00032984784400003428
所有训练样本的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400003429
Figure BDA0003298478440000351
所有训练样本的所有反向路径的实体属性信息序列集合
Figure BDA0003298478440000352
Figure BDA0003298478440000353
所有训练样本的所有反向路径的实体类型信息序列集合
Figure BDA0003298478440000354
Figure BDA0003298478440000355
S*
Figure BDA0003298478440000356
S*r
Figure BDA0003298478440000357
S*A、S*L构成所有训练样本的数据集合;所有验证样本的标签集合为Y#={Y1#,…,Yq#,…,YQ#},所有的验证样本的集合为S#={S1#,…,Sq#,…,SQ#},所有验证样本的所有正向路径的关系序列的集合
Figure BDA0003298478440000358
Figure BDA0003298478440000359
所有验证样本的所有反向路径的关系序列的集合
Figure BDA00032984784400003510
Figure BDA00032984784400003511
所有验证样本的所有正向路径的实体属性信息序列集合
Figure BDA00032984784400003512
Figure BDA00032984784400003513
所有验证样本的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400003514
Figure BDA00032984784400003515
所有验证样本的所有反向路径的实体属性信息序列集合
Figure BDA00032984784400003516
Figure BDA00032984784400003517
所有验证样本的所有反向路径的实体类型信息序列集合
Figure BDA00032984784400003518
Figure BDA00032984784400003519
S#
Figure BDA00032984784400003520
S′# r
Figure BDA00032984784400003521
S′# A、S′# L构成所有验证样本的数据集合,转2.3。
2.3数据预处理模块使用路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths准备事实补全模块所需的要判断是否为缺失事实的补全样本的数据集合,具体地:
2.3.1令存储所有补全样本的集合
Figure BDA00032984784400003522
存储所有补全样本的所有正向路径的关系序列的集合
Figure BDA00032984784400003523
存储所有补全样本的所有反向路径的关系序列的集合
Figure BDA00032984784400003524
存储所有补全样本的所有正向路径的实体属性信息序列集合
Figure BDA00032984784400003525
存储所有补全样本的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400003526
存储所有补全样本的所有反向路径的实体属性信息序列集合
Figure BDA00032984784400003527
存储所有补全样本的所有反向路径的实体类型信息序列集合
Figure BDA00032984784400003528
2.3.2令q=1;
2.3.3如果q≤Q,转2.3.4获取查询关系rq下的补全样本数据,否则说明全部补全样本数据均已经处理,转2.3.14。
2.3.4准备需要判断是否为缺失事实的查询关系rq下的所有补全样本的集合Uq,Uq为没有被F包含的关系为rq的三元组的集合,即
Figure BDA00032984784400003529
Figure BDA00032984784400003530
简记为
Figure BDA00032984784400003531
1≤w≤|Uq|,|Uq|为Uq中元素的个数,即查询关系rq下的补全样本的总数)。
2.3.5令查询关系rq下所有补全样本的所有正向路径的关系序列的集合
Figure BDA00032984784400003532
令查询关系rq下所有补全样本的所有反向路径的关系序列的集合
Figure BDA0003298478440000361
令查询关系rq下所有补全样本的所有正向路径的实体属性信息序列集合
Figure BDA0003298478440000362
令查询关系rq下所有补全样本的所有正向路径的实体类型信息序列集合
Figure BDA0003298478440000363
令查询关系rq下所有补全样本的所有反向路径的实体属性信息序列集合
Figure BDA0003298478440000364
令查询关系rq下所有补全样本的所有反向路径的实体类型信息序列集合
Figure BDA0003298478440000365
2.3.6令w=1;
2.3.7若w≤|Uq|,转2.3.8获取查询关系rq下补全样本uw的数据,否则说明Uq中每个补全样本的数据均已经获取,转2.3.12。
2.3.8采用步骤2.2.10所述的fExtractPath函数处理
Figure BDA0003298478440000366
得到样本uw的实体
Figure BDA0003298478440000367
到实体
Figure BDA0003298478440000368
的Nu条正向路径信息,放到uw的正向路径集合
Figure BDA0003298478440000369
中,其中
Figure BDA00032984784400003610
中的第nu条路径
Figure BDA00032984784400003611
1≤nu≤Nu
2.3.9采用步骤2.2.11所述的路径预处理函数fPreprocessPaths处理uw的正向路径集合
Figure BDA00032984784400003612
得到样本uw的查询关系rq、反向查询关系r′q,样本uw的所有正向路径的关系序列的集合
Figure BDA00032984784400003613
所有反向路径的关系序列的集合
Figure BDA00032984784400003614
所有正向路径的实体属性信息序列集合
Figure BDA00032984784400003615
和实体的类型信息序列集合
Figure BDA00032984784400003616
所有反向路径的实体的属性信息序列集合
Figure BDA00032984784400003617
和实体的类型信息序列集合
Figure BDA00032984784400003618
2.3.10将
Figure BDA00032984784400003619
作为元素添加到查询关系rq下补全样本的数据集合中,即令
Figure BDA00032984784400003620
Figure BDA00032984784400003621
2.3.11令w=w+1,转2.3.7。
2.3.12此时Uq中每个补全样本的数据均已经获取,查询关系rq下所有补全样本
Figure BDA00032984784400003622
Figure BDA00032984784400003623
的路径信息为:查询关系rq下所有补全样本的所有正向路径的关系序列的集合
Figure BDA00032984784400003624
查询关系rq下所有补全样本的所有反向路径的关系序列的集合
Figure BDA00032984784400003625
查询关系rq下所有补全样本的所有正向路径的实体属性信息序列集合
Figure BDA00032984784400003626
查询关系rq下所有补全样本的所有正向路径的实体类型信息序列集合
Figure BDA00032984784400003627
查询关系rq下所有补全样本的所有反向路径的实体属性信息序列集合
Figure BDA00032984784400003628
查询关系rq下所有补全样本的所有反向路径的实体类型信息序列集合
Figure BDA0003298478440000371
将该查询关系rq下的所有补全样本的数据作为元素加入总的补全样本的数据中,即令U=U∪{Uq},
Figure BDA0003298478440000372
Figure BDA0003298478440000373
2.3.13令q=q+1,转2.3.3。
2.3.14此时所有补全样本的集合为U={U1,…,Uq,…,UQ},所有补全样本的所有正向路径的关系序列的集合
Figure BDA0003298478440000374
所有补全样本的所有反向路径的关系序列的集合
Figure BDA0003298478440000375
所有补全样本的所有正向路径的实体属性信息序列集合
Figure BDA0003298478440000376
所有补全样本的所有正向路径的实体类型信息序列集合
Figure BDA0003298478440000377
Figure BDA0003298478440000378
所有补全样本的所有反向路径的实体属性信息序列集合
Figure BDA0003298478440000379
Figure BDA00032984784400003710
所有补全样本的所有反向路径的实体类型信息序列集合
Figure BDA00032984784400003711
Figure BDA00032984784400003712
且U、Ur、U′r、UA、UL、U′A、U′L构成所有补全样本的数据集合。转2.4。
2.4将步骤2.2得到的S*
Figure BDA00032984784400003713
输出给事实预测网络作为Q组查询关系的训练样本的数据集合,将步骤2.2得到的Y*输出给事实预测网络作为Q组查询关系的训练样本的标签集合,将步骤2.2得到的S#
Figure BDA00032984784400003714
输出给事实预测网络作为Q组查询关系的验证样本的数据集合,将步骤2.2得到的Y#输出给事实预测网络作为Q组查询关系的验证样本的标签集合,将步骤2.3得到的U、Ur、U′r、UA、UL、U′A、U′L输出给事实预测网络作为Q组查询关系的补全样本的数据集合;并将补全样本的数据集合输出给事实补全模块。
第三步:采用从数据预处理模块接收的Q组查询关系的训练样本的数据集合、训练样本的标签集合、验证样本的数据集合、验证样本的标签集合对事实预测网络进行训练和验证,获取Q个事实预测网络的权重参数(注意:不同的查询关系为不同的子任务,训练得到不同的事实预测网络权重参数)。
具体方法如下:
3.1令q=1;
3.2如果q≤Q,则转步骤3.3,否则说明所有查询关系的事实预测网络均已训练结束,得到了Q个训练好的事实预测网络,即
Figure BDA00032984784400003715
转步骤3.8。
3.3初始化查询关系rq对应的事实预测网络
Figure BDA00032984784400003716
的权重参数,方法为:
3.3.1初始化嵌入矩阵的权重。首先将关系、实体的属性、实体的类型分别对应的3个嵌入矩阵Wr、WA、WL随机初始化为遵循标准正态分布的50维的向量,即各个嵌入矩阵的维度分别为:关系总数目|R|×50、实体属性的总数目|A|×50、实体类型的总数目|L|×50。虽然本发明所述的实体属性实际上属于知识图谱中的关系(即集合A=R),但是其作为对实体语义信息的刻画,应该具有与路径上的关系不同的含义,因此实体属性的嵌入和关系的嵌入使用不同的嵌入矩阵。
3.3.2设置LSTM网络的参数。LSTMr、LSTMA和LSTML网络的隐藏单元的维度均为150维,且LSTMr的隐藏单元和记忆单元均使用全零初始化。
3.3.3初始化全连接层的权重矩阵和偏置向量的权重。每个全连接层均包含一个权重矩阵和一个偏置向量,权重矩阵的维度为全连接层的输出维度×全连接层的输入维度,偏置向量的维度为全连接层的输出维度。下面介绍全连接层的输入维度和输出维度,以确定全连接层对应的权重矩阵和偏置向量的维度。实体属性注意力网络中全连接层
Figure BDA0003298478440000381
的输入维度分别为200,150,50,50,输出维度分别为150,50,50,1;实体类型注意力网络中全连接层
Figure BDA0003298478440000382
的输入维度分别为200,150,50,50,输出维度分别为150,50,50,1;实体序列编码网络中全连接层
Figure BDA0003298478440000383
Figure BDA0003298478440000384
的输入维度均为150,输出维度均为150维。路径编码器中全连接层fp,f′p
Figure BDA0003298478440000385
Figure BDA0003298478440000386
的输入维度分别为300,300,100,100,输出维度分别为100,100,1,1。预测器中全连接层f1,f2,f3,f4的输入维度分别为300,300,600,300,输出维度分别为300,300,300,1。
3.4设置事实预测网络
Figure BDA0003298478440000387
的训练参数:使用Adam优化算法进行网络的优化,并使用默认参数(学习率learningRate=0.001,一阶矩估计的指数衰减率β1=0.9,二阶矩估计的指数衰减率β2=0.999,防止除以零的最小值参数∈=1e-8),批数据尺寸batchsize=16。
3.5从S*、Y*
Figure BDA0003298478440000388
中取出关于查询关系rq的训练数据Sq*、Yq*
Figure BDA0003298478440000389
从S#、Y#
Figure BDA00032984784400003810
中取出关于查询关系rq的验证数据Sq#、Yq#
Figure BDA00032984784400003811
3.6迭代计算事实预测网络
Figure BDA00032984784400003812
输出的预测概率与真实标签之间的差距,最小化损失并更新网络
Figure BDA00032984784400003813
的参数,直到满足迭代次数要求,得到权重参数。具体方法如下:
3.6.1令训练迭代参数epoch=1,令事实预测网络对查询关系rq的验证数据进行预测的平均精确度(AveragePrecision)的值APq#=0;初始化迭代阈值EpochNum,EpochNum是[1,30]内的整数;
3.6.2如果epoch≤迭代阈值EpochNum,转3.6.2.1对查询关系rq的事实预测网络
Figure BDA0003298478440000391
进行新一次的迭代训练,否则说明查询关系rq的事实预测网络
Figure BDA0003298478440000392
已经满足迭代次数要求,训练结束,转3.7。
3.6.2.1令批处理次数b=1,令已训练样本数目processednum=0;
3.6.2.2如果
Figure BDA0003298478440000393
转3.6.2.2.1使用Sq*中第b个batch的训练数据对
Figure BDA0003298478440000394
进行训练,其中|Sq*|为训练样本集合Sq*的样本数目,否则说明Sq*中的所有训练样本已经参与过计算,该次训练迭代结束,转3.6.2.3计算在验证数据Sq#上的预测结果;
3.6.2.2.1事实预测网络的嵌入层从Sq*中读取C个样本作为第b个batch的训练数据,即一个批次的训练数据,记为样本训练批次集合Sq*,b={s1,…,sc,…,sC},1≤c≤C,其中C=min(batchsize,|Sq*|-processednum),表示取batchsize和|Sq*|-processednum中的最小值。从Yq*
Figure BDA0003298478440000395
中取出与Sq*,b的这C个样本对应的数据,分别记为标签训练批次集合Yq*,b={y1,…,yc,…,yC},正向路径关系序列训练批次集合
Figure BDA0003298478440000396
Figure BDA0003298478440000397
反向路径关系序列训练批次集合
Figure BDA0003298478440000398
正向路径实体属性信息序列训练批次集合
Figure BDA0003298478440000399
和正向路径实体类型信息序列训练批次集合
Figure BDA00032984784400003910
反向路径实体属性信息序列训练批次集合
Figure BDA00032984784400003911
Figure BDA00032984784400003912
和反向路径实体类型信息序列训练批次集合
Figure BDA00032984784400003913
3.6.2.2.2采用事实预测网络预测方法fpredict,对第b个batch的数据
Figure BDA00032984784400003914
Figure BDA00032984784400003915
和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch的数据的预测概率集合
Figure BDA00032984784400003916
其中
Figure BDA00032984784400003917
是该批次数据中样本sc的预测概率,
Figure BDA00032984784400003918
具体为:
3.6.2.2.2.1事实预测网络的嵌入层读取rq、r′q,以及
Figure BDA00032984784400003919
使用关系的嵌入矩阵Wr、实体属性的嵌入矩阵WA、实体类型的嵌入矩阵WL分别将数据中的关系、实体属性、实体类型映射为各自的向量表示,得到rq、r′q
Figure BDA00032984784400003920
Figure BDA00032984784400003921
分别对应的向量形式
Figure BDA00032984784400003922
(即批次数据的查询关系的嵌入
Figure BDA00032984784400003923
反向查询关系的嵌入
Figure BDA00032984784400003924
正向路径的关系序列的嵌入
Figure BDA00032984784400003925
反向路径的关系序列的嵌入
Figure BDA00032984784400003926
正向路径的实体属性序列的嵌入
Figure BDA00032984784400003927
正向路径的实体类型序列的嵌入
Figure BDA0003298478440000401
反向路径的实体属性序列的嵌入
Figure BDA0003298478440000402
反向路径的实体类型序列的嵌入
Figure BDA0003298478440000403
),将
Figure BDA0003298478440000404
发送给关系编码器和实体编码器。
3.6.2.2.2.2关系编码器提取路径的关系特征。关系编码器从嵌入层接收
Figure BDA0003298478440000405
Figure BDA0003298478440000406
计算该批次数据的所有正向路径的关系表示和所有反向路径的关系表示并传给实体编码器和路径编码器。正向路径的关系表示的获取与反向路径的关系表示的获取方式相同,方法是:
3.6.2.2.2.2.1将
Figure BDA0003298478440000407
(维度为CN×M×50,即CN条正向路径的关系序列的嵌入,其中每条正向路径的关系序列的嵌入维度为M×50)作为关系编码器中LSTMr的一次输入,并使用LSTMr输出的最后的隐状态,记为
Figure BDA0003298478440000408
(维度为CN×150),作为这CN条正向路径的关系表示(每条正向路径的关系表示为150维)。
3.6.2.2.2.2.2将
Figure BDA0003298478440000409
(维度为CN×M×50,即CN条反向路径的关系序列的嵌入,其中每条反向路径的关系序列的嵌入维度为M×50)作为关系编码器中LSTMr的一次输入,并使用LSTMr输出的最后的隐状态,记为
Figure BDA00032984784400004010
(维度为CN×150),作为这CN条反向路径的关系表示(每条反向路径的关系表示为150维)。
3.6.2.2.2.2.3将该批次数据的所有正向路径的关系表示
Figure BDA00032984784400004011
和所有反向路径的关系表示
Figure BDA00032984784400004012
输出给实体编码器和路径编码器。
3.6.2.2.2.3实体编码器提取每条路径的实体特征。实体编码器从嵌入层接收
Figure BDA00032984784400004013
Figure BDA00032984784400004014
从关系编码器接收
Figure BDA00032984784400004015
Figure BDA00032984784400004016
计算所有正向路径的实体表示和所有反向路径的实体表示,并传给路径编码器。正向路径的实体表示的获取与反向路径的实体表示的获取方式相同,具体的过程为:
3.6.2.2.2.3.1实体序列编码网络对正向路径的实体属性序列嵌入
Figure BDA00032984784400004017
和正向路径的实体类型序列嵌入
Figure BDA00032984784400004018
进行编码,由于属性和类型属于两种信息,因此使用两个长短时记忆循环网络(即LSTMA和LSTML)分别进行编码,来捕获正向路径上实体序列的属性表示和类型表示,具体为:
3.6.2.2.2.3.1.1使用正向路径的关系表示
Figure BDA00032984784400004019
对LSTMA和LSTML进行初始化:
3.6.2.2.2.3.1.1.1将
Figure BDA00032984784400004020
输入到全连接层
Figure BDA00032984784400004021
得到LSTMA的第一隐藏状态
Figure BDA00032984784400004022
Figure BDA00032984784400004023
输入到全连接层
Figure BDA00032984784400004024
得到LSTMA的第一细胞状态
Figure BDA00032984784400004025
3.6.2.2.2.3.1.1.2将
Figure BDA0003298478440000411
输入到全连接层
Figure BDA0003298478440000412
得到LSTML的第一隐藏状态
Figure BDA0003298478440000413
Figure BDA0003298478440000414
输入到全连接层
Figure BDA0003298478440000415
得到LSTML的第一细胞状态
Figure BDA0003298478440000416
3.6.2.2.2.3.1.2令t=1。
3.6.2.2.2.3.1.3如果1≤t≤M+1,则将t、
Figure BDA0003298478440000417
Figure BDA0003298478440000418
传给实体画像注意力网络,转第3.6.2.2.2.3.1.4步聚合数据中所有正向路径上第t步实体的属性信息和类型信息;否则说明数据中所有正向路径上实体的属性信息和类型信息已经聚合,转3.6.2.2.2.3.1.8。
3.6.2.2.2.3.1.4实体画像注意力网络(分为实体属性注意力网络和实体类型注意力网络)对批次数据的所有正向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合,作为对实体的语义信息的刻画。具体的计算过程为:
3.6.2.2.2.3.1.4.1从
Figure BDA0003298478440000419
(维度为(C*N)×(M+1)×|At|×50)中取出批数据中所有正向路径的第t步实体的属性嵌入,记为
Figure BDA00032984784400004110
(维度为(C*N)×|At|×50);
3.6.2.2.2.3.1.4.2将
Figure BDA00032984784400004111
Figure BDA00032984784400004112
级联,将级联后的
Figure BDA00032984784400004113
Figure BDA00032984784400004114
经过全连接层
Figure BDA00032984784400004115
得到指导第t步属性注意力的引导变量
Figure BDA00032984784400004116
3.6.2.2.2.3.1.4.3实体属性注意力网络将批数据中所有正向路径的第t步实体的属性嵌入
Figure BDA00032984784400004117
进行聚合,方法为:
3.6.2.2.2.3.1.4.3.1令vt=1;
3.6.2.2.2.3.1.4.3.2若vt≤|At|,转3.6.2.2.2.3.1.4.3.3获取数据中所有正向路径上第t步实体的第vt个属性的权重,否则说明数据中所有正向路径上第t步实体的每个属性的权重均已经获取,转3.6.2.2.2.3.1.4.3.6;
3.6.2.2.2.3.1.4.3.3将
Figure BDA00032984784400004118
中批数据所有正向路径的第t个实体的第vt个属性的嵌入记为
Figure BDA00032984784400004119
(维度为(C*N)×50),将
Figure BDA00032984784400004120
输入到全连接层
Figure BDA00032984784400004121
得到变换后的属性嵌入
Figure BDA00032984784400004122
Figure BDA00032984784400004123
输入到全连接层
Figure BDA00032984784400004124
得到属性引导第二变量
Figure BDA00032984784400004125
3.6.2.2.2.3.1.4.3.4将
Figure BDA00032984784400004126
Figure BDA00032984784400004127
相加,将相加后的
Figure BDA00032984784400004128
Figure BDA00032984784400004129
经过ReLU函数激活后输入到全连接层
Figure BDA00032984784400004130
得到批数据所有正向路径中第t步实体的第vt个属性的权重
Figure BDA00032984784400004131
3.6.2.2.2.3.1.4.3.5令vt=vt+1,转3.6.2.2.2.3.1.4.3.2;
3.6.2.2.2.3.1.4.3.6将权重
Figure BDA00032984784400004132
进行归一化,得到归一化后批数据所有正向路径第t步实体的所有属性的权重集合
Figure BDA0003298478440000421
3.6.2.2.2.3.1.4.3.7使用
Figure BDA0003298478440000422
聚合批数据所有正向路径第t步实体的所有属性的表示,得到聚合后的批数据所有正向路径第t步实体的属性表示
Figure BDA0003298478440000423
Figure BDA0003298478440000424
即将
Figure BDA0003298478440000425
(维度为(C*N)×|At|×50)聚合后得到
Figure BDA0003298478440000426
(维度为(C*N)×50),转3.6.2.2.2.3.1.4.4;
3.6.2.2.2.3.1.4.4从
Figure BDA0003298478440000427
(维度为(C*N)×(M+1)×|Lt|×50)中取出批数据中所有正向路径的第t步实体的类型嵌入,记为
Figure BDA0003298478440000428
(维度为(C*N)×|Lt|×50);
3.6.2.2.2.3.1.4.5将
Figure BDA0003298478440000429
Figure BDA00032984784400004210
级联,将级联后的
Figure BDA00032984784400004211
Figure BDA00032984784400004212
经过全连接层
Figure BDA00032984784400004213
得到指导第t步类型注意力的引导变量
Figure BDA00032984784400004214
3.6.2.2.2.3.1.4.6实体类型注意力网络将批数据中所有正向路径的第t步实体的类型嵌入
Figure BDA00032984784400004215
进行聚合,方法为:
3.6.2.2.2.3.1.4.6.1令ot=1;
3.6.2.2.2.3.1.4.6.2若ot≤|Lt|,转3.6.2.2.2.3.1.4.6.3获取数据中所有正向路径上第t步实体的第ot个类型的权重,否则说明数据中所有正向路径上第t步实体的每个类型的权重均已经获取,转3.6.2.2.2.3.1.4.6.6;
3.6.2.2.2.3.1.4.6.3将
Figure BDA00032984784400004216
中批数据所有正向路径的第t个实体的第ot个类型的嵌入记为
Figure BDA00032984784400004217
(维度为(C*N)×50),将
Figure BDA00032984784400004218
输入到全连接层
Figure BDA00032984784400004219
得到变换后的类型嵌入
Figure BDA00032984784400004220
Figure BDA00032984784400004221
输入到全连接层
Figure BDA00032984784400004222
得到类型引导第二变量
Figure BDA00032984784400004223
3.6.2.2.2.3.1.4.6.4将
Figure BDA00032984784400004224
Figure BDA00032984784400004225
相加,将相加后的
Figure BDA00032984784400004226
Figure BDA00032984784400004227
经过ReLU激活后输入全连接层
Figure BDA00032984784400004228
得到批数据所有正向路径中第t步实体第ot个类型的权重
Figure BDA00032984784400004229
3.6.2.2.2.3.1.4.6.5令ot=ot+1,转3.6.2.2.2.3.1.4.6.2;
3.6.2.2.2.3.1.4.6.6将权重
Figure BDA00032984784400004230
进行归一化,得到归一化后批数据中所有正向路径第t步实体的所有类型的权重集合
Figure BDA00032984784400004231
3.6.2.2.2.3.1.4.6.7使用
Figure BDA00032984784400004232
聚合批数据所有正向路径第t步实体的所有类型的表示,得到聚合后的批数据所有正向路径第t步实体的类型表示
Figure BDA00032984784400004233
Figure BDA0003298478440000431
Figure BDA0003298478440000432
(维度为(C*N)×|Lt|×50)聚合后得到
Figure BDA0003298478440000433
(维度为(C*N)×50),转3.6.2.2.2.3.1.5;
3.6.2.2.2.3.1.5将
Figure BDA0003298478440000434
作为LSTMA第t步的输入,得到LSTMA第t步的输出
Figure BDA0003298478440000435
维度为(C*N)×150;
3.6.2.2.2.3.1.6将
Figure BDA0003298478440000436
作为LSTML第t步的输入,得到LSTML第t步的输出
Figure BDA0003298478440000437
维度为(C*N)×150;
3.6.2.2.2.3.1.7令t=t+1,转3.6.2.2.2.3.1.3;
3.6.2.2.2.3.1.8将
Figure BDA0003298478440000438
Figure BDA0003298478440000439
相加(即分别为t=M+1时LSTMA和LSTML的输出),得到批数据中所有正向路径的实体表示
Figure BDA00032984784400004310
维度为(C*N)×150。转3.6.2.2.2.3.2;
3.6.2.2.2.3.2实体序列编码网络对反向路径的实体属性序列嵌入
Figure BDA00032984784400004311
和反向路径的实体类型序列嵌入
Figure BDA00032984784400004312
进行编码,分别使用LSTMA和LSTML来捕获反向路径上实体序列的属性表示和类型表示,方法是:
3.6.2.2.2.3.2.1使用反向路径的关系表示
Figure BDA00032984784400004313
对LSTMA和LSTML进行初始化:
3.6.2.2.2.3.2.1.1将
Figure BDA00032984784400004314
输入到全连接层
Figure BDA00032984784400004315
得到LSTMA的第二隐藏状态
Figure BDA00032984784400004316
Figure BDA00032984784400004317
输入到全连接层
Figure BDA00032984784400004318
得到LSTMA的第二细胞状态
Figure BDA00032984784400004319
3.6.2.2.2.3.2.1.2将
Figure BDA00032984784400004320
输入到全连接层
Figure BDA00032984784400004321
得到LSTML的第二隐藏状态
Figure BDA00032984784400004322
Figure BDA00032984784400004323
输入到全连接层
Figure BDA00032984784400004324
得到LSTML的第二细胞状态
Figure BDA00032984784400004325
3.6.2.2.2.3.2.2令t=1。
3.6.2.2.2.3.2.3如果1≤t≤M+1,将t、
Figure BDA00032984784400004326
Figure BDA00032984784400004327
传给实体画像注意力网络,转第3.6.2.2.2.3.2.4步聚合数据中所有反向路径上第t步实体的属性信息和类型信息;否则说明数据中所有反向路径上实体的属性信息和类型信息已经聚合,转3.6.2.2.2.3.2.8。
3.6.2.2.2.3.2.4实体画像注意力网络对批次数据的所有反向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合,作为对实体的语义信息的刻画。具体过程为:
3.6.2.2.2.3.2.4.1从
Figure BDA00032984784400004328
(维度为(C*N)×(M+1)×|At|×50)中取出批数据中所有反向路径的第t步实体的属性嵌入,记为
Figure BDA00032984784400004329
(维度为(C*N)×|At|×50);
3.6.2.2.2.3.2.4.2将
Figure BDA00032984784400004330
Figure BDA00032984784400004331
级联,将级联后的
Figure BDA00032984784400004332
Figure BDA00032984784400004333
经过全连接层
Figure BDA00032984784400004334
得到指导第t步属性注意力的引导变量
Figure BDA0003298478440000441
3.6.2.2.2.3.2.4.3实体属性注意力网络将批数据中所有反向路径的第t步实体的属性嵌入
Figure BDA0003298478440000442
进行聚合,方法为:
3.6.2.2.2.3.2.4.3.1令vt=1;
3.6.2.2.2.3.2.4.3.2若vt≤|At|,转3.6.2.2.2.3.2.4.3.3获取数据中所有反向路径上第t步实体的第vt个属性的权重,否则说明数据中所有反向路径上第t步实体的每个属性的权重均已经获取,转3.6.2.2.2.3.2.4.3.6;
3.6.2.2.2.3.2.4.3.3将
Figure BDA0003298478440000443
中批数据所有反向路径的第t个实体的第vt个属性的嵌入记为
Figure BDA0003298478440000444
(维度为(C*N)×50),将
Figure BDA0003298478440000445
输入到全连接层
Figure BDA0003298478440000446
得到变换后的属性嵌入
Figure BDA0003298478440000447
Figure BDA0003298478440000448
输入到全连接层
Figure BDA0003298478440000449
得到属性引导第二变量
Figure BDA00032984784400004410
3.6.2.2.2.3.2.4.3.4将
Figure BDA00032984784400004411
Figure BDA00032984784400004412
相加,将相加后的
Figure BDA00032984784400004413
Figure BDA00032984784400004414
经过ReLU激活后输入全连接层
Figure BDA00032984784400004415
得到批数据所有反向路径中第t步实体第vt个属性的权重
Figure BDA00032984784400004416
3.6.2.2.2.3.2.4.3.5令vt=vt+1,转3.6.2.2.2.3.2.4.3.2;
3.6.2.2.2.3.2.4.3.6将权重
Figure BDA00032984784400004417
进行归一化,得到归一化后批数据所有反向路径第t步实体的所有属性的权重集合
Figure BDA00032984784400004418
3.6.2.2.2.3.2.4.3.7使用
Figure BDA00032984784400004419
聚合批数据所有反向路径第t步实体的所有属性的表示,得到聚合后的批数据所有反向路径第t步实体的属性表示
Figure BDA00032984784400004420
Figure BDA00032984784400004421
即将
Figure BDA00032984784400004422
(维度为(C*N)×|At|×50)聚合后得到
Figure BDA00032984784400004423
(维度为(C*N)×50),转3.6.2.2.2.3.2.4.4;
3.6.2.2.2.3.2.4.4从
Figure BDA00032984784400004424
(维度为(C*N)×(M+1)×|Lt|×50)中取出批数据中所有反向路径的第t步实体的类型嵌入,记为
Figure BDA00032984784400004425
(维度为(C*N)×|Lt|×50);
3.6.2.2.2.3.2.4.5将
Figure BDA00032984784400004426
Figure BDA00032984784400004427
级联,将级联后的
Figure BDA00032984784400004428
Figure BDA00032984784400004429
经过全连接层
Figure BDA00032984784400004430
得到指导第t步类型注意力的引导向量
Figure BDA00032984784400004431
3.6.2.2.2.3.2.4.6实体类型注意力网络将批数据中所有反向路径的第t步实体的类型嵌入
Figure BDA00032984784400004432
进行聚合,方法为:
3.6.2.2.2.3.2.4.6.1令ot=1;
3.6.2.2.2.3.2.4.6.2若ot≤|Lt|,转3.6.2.2.2.3.2.4.6.3获取数据中所有反向路径上第t步实体的第ot个类型的权重,否则说明数据中所有反向路径上第t步实体的每个类型的权重均已经获取,转3.6.2.2.2.3.2.4.6.6;
3.6.2.2.2.3.2.4.6.3将
Figure BDA0003298478440000451
中批数据中所有反向路径的第t个实体的第ot个类型的嵌入记为
Figure BDA0003298478440000452
(维度为(C*N)×50),将
Figure BDA0003298478440000453
输入到全连接层
Figure BDA0003298478440000454
得到变换后的类型嵌入
Figure BDA0003298478440000455
Figure BDA0003298478440000456
输入到全连接层
Figure BDA0003298478440000457
得到类型引导第二变量
Figure BDA0003298478440000458
3.6.2.2.2.3.2.4.6.4将
Figure BDA0003298478440000459
Figure BDA00032984784400004510
相加,将相加后的
Figure BDA00032984784400004511
Figure BDA00032984784400004512
经过ReLU激活后输入全连接层
Figure BDA00032984784400004513
得到批数据所有反向路径中第t步实体第ot个类型的权重
Figure BDA00032984784400004514
3.6.2.2.2.3.2.4.6.5令ot=ot+1,转3.6.2.2.2.3.2.4.6.2;
3.6.2.2.2.3.2.4.6.6将权重
Figure BDA00032984784400004515
进行归一化,得到归一化后批数据中所有反向路径第t步实体的所有类型的权重集合
Figure BDA00032984784400004516
3.6.2.2.2.3.2.4.6.7使用
Figure BDA00032984784400004517
聚合批数据所有反向路径第t步实体的所有类型的表示,得到聚合后的批数据所有反向路径第t步实体的类型表示
Figure BDA00032984784400004518
Figure BDA00032984784400004519
Figure BDA00032984784400004520
(维度为(C*N)×|Lt|×50)聚合后得到
Figure BDA00032984784400004521
(维度为(C*N)×50),转3.6.2.2.2.3.2.5;
3.6.2.2.2.3.2.5将
Figure BDA00032984784400004522
作为LSTMA第t步的输入,得到LSTMA第t步的输出
Figure BDA00032984784400004523
维度为(C*N)×150;
3.6.2.2.2.3.2.6将
Figure BDA00032984784400004524
作为LSTML第t步的输入,得到LSTML第t步的输出
Figure BDA00032984784400004525
维度为(C*N)×150;
3.6.2.2.2.3.2.7令t=t+1,转3.6.2.2.2.3.2.3;
3.6.2.2.2.3.2.8将
Figure BDA00032984784400004526
Figure BDA00032984784400004527
相加(即分别为t=M+1时LSTMA和LSTML的输出),得到批数据中所有反向路径的实体表示
Figure BDA00032984784400004528
维度为(C*N)×150,转3.6.2.2.2.3.2.9;
3.6.2.2.2.3.2.9将3.6.2.2.2.3.1.8中批数据所有正向路径的实体表示
Figure BDA00032984784400004529
和3.6.2.2.2.3.2.8中批数据所有反向路径的实体表示的
Figure BDA00032984784400004530
传给路径编码器,转3.6.2.2.2.4。
3.6.2.2.2.4路径编码器从关系编码器接收
Figure BDA00032984784400004531
Figure BDA00032984784400004532
从实体编码器接收
Figure BDA00032984784400004533
Figure BDA00032984784400004534
分别使用正向路径注意力网络和反向路径注意力网络计算批数据中所有样本的正向路径的表示和反向路径的表示,具体步骤为:
3.6.2.2.2.4.1将批数据的所有正向路径的关系表示
Figure BDA0003298478440000461
和所有正向路径的实体表示
Figure BDA0003298478440000462
级联,得到批数据的所有正向路径的路径表示,记为
Figure BDA0003298478440000463
维度为(C*N)×300,批数据里每条路径的维度为300;
3.6.2.2.2.4.2将批数据的所有反向路径的关系表示
Figure BDA0003298478440000464
和所有反向路径的实体表示
Figure BDA0003298478440000465
级联,得到批数据的所有反向路径的路径表示,记为
Figure BDA0003298478440000466
维度为(C*N)×300,批数据里每条路径的维度为300;
3.6.2.2.2.4.3使用正向路径注意力网络聚合
Figure BDA0003298478440000467
中所有样本的N条正向路径的表示,方法为:
3.6.2.2.2.4.3.1令n=1;
3.6.2.2.2.4.3.2若n≤N,转3.6.2.2.2.4.3.3获取数据中所有样本的第n条正向路径的权重,否则说明数据中所有样本的每条正向路径的权重均已经获取,转3.6.2.2.2.4.3.5;
3.6.2.2.2.4.3.3将
Figure BDA0003298478440000468
中所有样本的第n条路径的表示记为
Figure BDA0003298478440000469
(维度为C×300)。将
Figure BDA00032984784400004610
经过fp
Figure BDA00032984784400004611
两层全连接层(fp之后会经过ReLU函数激活)后得到的值作为第n条正向路径的权重
Figure BDA00032984784400004612
3.6.2.2.2.4.3.4令n=n+1,转3.6.2.2.2.4.3.2;
3.6.2.2.2.4.3.5将批数据中所有样本的所有正向路径的权重
Figure BDA00032984784400004613
进行归一化,得到归一化后批数据中所有样本的所有正向路径的权重
Figure BDA00032984784400004614
3.6.2.2.2.4.3.6使用
Figure BDA00032984784400004615
聚合批数据中样本的正向路径的表示,得到该批数据所有样本的正向路径表示
Figure BDA00032984784400004616
Figure BDA00032984784400004617
(维度为(C*N)×300)聚合后得到
Figure BDA00032984784400004618
(维度为C×300),转3.6.2.2.2.4.4;
3.6.2.2.2.4.4使用反向路径注意力网络聚合
Figure BDA00032984784400004619
中所有样本的N条反向路径的表示,方法为:
3.6.2.2.2.4.4.1令n=1;
3.6.2.2.2.4.4.2若n≤N,转3.6.2.2.2.4.4.3获取数据中所有样本的第n条反向路径的权重,否则说明数据中所有样本的每条反向路径的权重均已经获取,转3.6.2.2.2.4.4.5;
3.6.2.2.2.4.4.3将
Figure BDA0003298478440000471
中所有样本的第n条路径的表示记为
Figure BDA0003298478440000472
(维度为C×300)。将
Figure BDA0003298478440000473
经过f′p
Figure BDA0003298478440000474
两层全连接层(f′p之后会经过ReLU函数激活)后得到的值作为第n条反向路径的权重
Figure BDA0003298478440000475
3.6.2.2.2.4.4.4令n=n+1,转3.6.2.2.2.4.4.2;
3.6.2.2.2.4.4.5将批数据中所有样本的所有反向路径的权重
Figure BDA0003298478440000476
进行归一化,得到归一化后批数据中所有样本的所有反向路径的权重
Figure BDA0003298478440000477
3.6.2.2.2.4.4.6使用
Figure BDA0003298478440000478
聚合批数据中样本的反向路径的表示,得到该批数据所有样本的反向路径表示
Figure BDA0003298478440000479
Figure BDA00032984784400004710
(维度为(C*N)×300)聚合后得到
Figure BDA00032984784400004711
(维度为C×300),转3.6.2.2.2.4.5;
3.6.2.2.2.4.5将
Figure BDA00032984784400004712
Figure BDA00032984784400004713
传输给预测器,转3.6.2.2.2.5;
3.6.2.2.2.5预测器从路径编码器接收
Figure BDA00032984784400004714
Figure BDA00032984784400004715
计算该批数据中所有样本的预测概率,方法为:
3.6.2.2.2.5.1将
Figure BDA00032984784400004716
输入到全连接层f1中,将
Figure BDA00032984784400004717
输入到全连接层f2中,然后将全连接层f1和f2的输出进行拼接,得到该批数据中所有样本的路径表示
Figure BDA00032984784400004718
维度为C×600,其中该批数据中每个样本的路径表示维度为600。
3.6.2.2.2.5.2将
Figure BDA00032984784400004719
输入到全连接层f3中,然后将f3的输出经过ReLU函数激活后输入到全连接层f4中,得到所有样本的路径的新表示
Figure BDA00032984784400004720
3.6.2.2.2.5.3将
Figure BDA00032984784400004721
输入sigmoid函数中
Figure BDA00032984784400004722
得到该批次所有数据的预测概率集合
Figure BDA00032984784400004723
Figure BDA00032984784400004724
是该批次数据中样本sc的预测概率,
Figure BDA00032984784400004725
Figure BDA00032984784400004726
转3.6.2.2.3。
3.6.2.2.3使用步骤3.6.2.2.1得到的标签集合Yq*,b和步骤3.6.2.2.2.5.3事实预测网络的预测概率集合
Figure BDA00032984784400004727
计算该批次数据Sq*,b的损失值loss。方法如下式,其中
Figure BDA00032984784400004728
表示该批次数据中查询关系rq的正样本集合,
Figure BDA0003298478440000481
表示该批次数据中查询关系rq的正样本集合和负样本集合,如果Sq*,b中的样本sc的标签yc=1,则样本
Figure BDA0003298478440000482
否则
Figure BDA0003298478440000483
Figure BDA0003298478440000484
Figure BDA0003298478440000485
3.6.2.2.4使用Adam优化算法对损失值loss最小化,以反向传播训练网络参数,事实预测网络中的参数(三个嵌入矩阵Wr、WA、WL,3个LSTM网络(LSTMr、LSTMA和LSTML)和20个全连接层的权重矩阵和偏置向量)都得到一次更新。
3.6.2.2.5令processednum=processednum+C,b=b+1,转3.6.2.2。
3.6.2.3令批处理次数b=1,令已预测的验证样本数目predictednum=0,令验证样本的预测概率集合
Figure BDA0003298478440000486
3.6.2.4如果
Figure BDA0003298478440000487
转3.6.2.4.1对Sq#中第b个batch的验证数据进行预测,其中|Sq#|为验证样本集合Sq#的样本数目,否则说明已经对Sq#中的所有验证样本进行预测,转3.6.2.5;
3.6.2.4.1事实预测网络的嵌入层从步骤3.5中得到的Sq#中读取C#个样本作为第b个batch的验证数据,即一个批次的验证数据,记为样本验证批次集合
Figure BDA0003298478440000488
1≤c#≤C#,其中C#=min(batchsize,|Sq#|-predictednum)。从步骤3.5得到的Yq#
Figure BDA0003298478440000489
Figure BDA00032984784400004810
中取出与Sq#,b的这C#个样本对应的数据,分别记为标签验证批次集合
Figure BDA00032984784400004811
正向路径关系序列验证批次集合
Figure BDA00032984784400004812
反向路径关系序列验证批次集合
Figure BDA00032984784400004813
正向路径实体属性信息序列验证批次集合
Figure BDA00032984784400004814
和正向路径实体类型信息序列验证批次集合
Figure BDA00032984784400004815
Figure BDA00032984784400004816
反向路径实体属性信息序列验证批次集合
Figure BDA00032984784400004817
和反向路径实体类型信息序列验证批次集合
Figure BDA00032984784400004818
3.6.2.4.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法fpredict,对第b个batch的验证数据
Figure BDA00032984784400004819
和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch的验证数据的预测概率集合
Figure BDA00032984784400004820
Figure BDA00032984784400004821
其中
Figure BDA0003298478440000491
是该批次数据中样本
Figure BDA0003298478440000492
的预测概率。将
Figure BDA0003298478440000493
加入
Figure BDA0003298478440000494
中,即令
Figure BDA0003298478440000495
3.6.2.4.3令predictednum=predictednum+C#,b=b+1,转3.6.2.4。
3.6.2.5使用验证数据集合Sq#的标签集合Yq#和事实预测网络的预测概率集合
Figure BDA0003298478440000496
计算事实预测网络对验证数据进行预测的平均精确度,记为
Figure BDA0003298478440000497
Figure BDA0003298478440000498
则令
Figure BDA0003298478440000499
Figure BDA00032984784400004910
并保存事实预测网络
Figure BDA00032984784400004911
的参数,转3.6.2.6;若
Figure BDA00032984784400004912
则不用保存事实预测网络
Figure BDA00032984784400004913
的参数,直接转3.6.2.6。
3.6.2.6令epoch=epoch+1,转3.6.2;
3.7令q=q+1,转3.2;
3.8计算该基于路径的知识图谱补全系统进行事实预测的平均精度均值MAP,
Figure BDA00032984784400004914
Figure BDA00032984784400004915
转第四步。
第四步:事实补全模块对用户输入的需要补全的知识图谱进行补全,如图4所示,具体方法是:
4.1事实补全模块从数据预处理模块接收补全样本的数据集合U、Ur、U′r、UA、UL、U′A、U′L,令补全样本集合U对应的所有补全样本的预测概率集合
Figure BDA00032984784400004916
4.2令q=1;
4.3如果q≤Q,转4.3.1预测查询关系rq下所有补全样本属于事实的概率,否则说明所有查询关系下的补全样本均已预测,转4.4。
4.3.1从RQ中取出查询关系rq,根据rq选择第三步中训练好的事实预测网络
Figure BDA00032984784400004917
4.3.2从U、Ur、U′r、UA、UL、U′A、U′L中中取出关于查询关系rq的补全数据Uq
Figure BDA00032984784400004918
U′q r
Figure BDA00032984784400004919
U′q A、U′q L
4.3.3令Uq对应的补全样本的预测概率集合为
Figure BDA00032984784400004920
4.3.4使用训练好的事实预测网络
Figure BDA00032984784400004921
预测Uq中所有样本属于事实的概率,得到Uq中所有样本属于事实的预测概率集合Zq,具体地:
4.3.4.1令批处理次数b=1,令已预测补全样本的数目predictednum=0;
4.3.4.2如果
Figure BDA00032984784400004922
转4.3.4.2.1对Uq中第b个batch的补全数据进行预测,否则说明已经对Uq中的所有补全样本进行预测,转4.3.5;
4.3.4.2.1事实预测网络的嵌入层从Uq读取Cu个样本作为第b个batch的补全数据,即一个批次的补全数据,记为样本补全批次集合
Figure BDA00032984784400004923
1≤cu≤Cu,其中Cu=min(batchsize,|Uq|-predictednum)。从
Figure BDA0003298478440000501
中取出与Uq,b的这Cu个样本对应的数据,分别记为正向路径关系序列补全批次集合
Figure BDA0003298478440000502
反向路径关系序列补全批次集合
Figure BDA0003298478440000503
正向路径实体属性信息序列补全批次集合
Figure BDA0003298478440000504
和正向路径实体类型信息序列补全批次集合
Figure BDA0003298478440000505
Figure BDA0003298478440000506
反向路径实体属性信息序列补全批次集合
Figure BDA0003298478440000507
和反向路径实体类型信息序列补全批次集合
Figure BDA0003298478440000508
4.3.4.2.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法fpredict,对第b个batch的补全数据
Figure BDA0003298478440000509
和查询关系rq、查询关系的反关系rq′进行计算,得到第b个batch经过训练好的事实预测网络
Figure BDA00032984784400005010
预测得到的补全数据的预测概率集合
Figure BDA00032984784400005011
Figure BDA00032984784400005012
其中
Figure BDA00032984784400005013
是该批次数据中样本
Figure BDA00032984784400005014
的预测概率。
4.3.4.2.3事实补全模块从事实预测网络接收批次数据的预测概率集合
Figure BDA00032984784400005015
Figure BDA00032984784400005016
加入到rq下的补全样本的预测概率集合Zq中,即令
Figure BDA00032984784400005017
4.3.4.2.4令predictednum=predictednum+Cu,b=b+1,转4.3.4.2。
4.3.5将Zq作为元素加入到所有补全样本的预测概率集合中,即Z=Z∪{Zq};
4.3.6令q=q+1,转4.3;
4.4根据所有补全样本集合U(U={U1,…,Uq,…,UQ})的预测概率集合Z(Z={Z1,…,Zq,…,ZQ}),判断样本是否是需要补全的事实,得到补全后的知识图谱,具体地:
4.4.1将补全后的知识图谱的事实集合记为Fnew,令Fnew=F;
4.4.2设置阈值δ(0.5≤δ≤1),令q=1;
4.4.3如果q≤Q,则转4.4.4补全查询关系rq下的缺失事实,否则说明所有查询关系下的缺失事实均已补全,转4.5。
4.4.4令w=1;
4.4.5如果w≤|Uq|,则转4.4.6判断补全样本uw是否为缺失事实,否则说明查询关系rq下的缺失事实均已补全,转4.4.8。
4.4.6Uq中第w个样本uw代表三元组
Figure BDA00032984784400005018
uw的预测概率为Zq中的第w个预测概率zw,若预测概率zw≥δ,则在用户提供的知识图谱中将实体
Figure BDA00032984784400005019
Figure BDA00032984784400005020
使用rq连接,即将
Figure BDA00032984784400005021
添加到事实集合Fnew中,
Figure BDA00032984784400005022
4.4.7令w=w+1,转4.4.5;
4.4.8令q=q+1,转4.4.3;
4.5将用户提供的知识图谱中的事实集合F更新为Fnew,即完成了对用户提供的知识图谱的补全。

Claims (22)

1.一种基于实体属性的知识图谱事实补全方法,其特征在于包括以下步骤:
第一步:构建基于路径的知识图谱事实补全系统,该系统由数据预处理模块、事实预测网络、事实补全模块构成;
数据预处理模块与事实预测网络相连,接收用户输入的知识图谱,对用户输入的知识图谱进行预处理,得到训练事实预测网络所需的训练数据即训练样本的数据集合和训练样本的标签集合、验证事实预测网络所需的验证数据即验证样本的数据集合和验证样本的标签集合、以及事实补全模块所需的要判断是否为缺失事实的补全数据即补全样本的数据集合,输出给事实预测网络,并将补全样本的数据集合输出给事实补全模块;数据预处理模块由路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths构成,其中fExtractPath从知识图谱中抽取每个样本的实体之间的路径信息,fpreprocessPaths将每个样本的实体间路径信息处理为事实预测网络需要的数据结构;将知识图谱中的实体集合、关系集合、事实集合分别记为E={ei},R={rj}和
Figure FDA0003298478430000011
将实体的属性集合记为A={av},将实体的类型集合记为L={lo},其中1≤i≤|E|,1≤i1≤|E|,1≤i2≤|E|,1≤j≤|R|,1≤v≤|A|,1≤o≤|L|,|E|、|R|、|A|、|L|分别表示实体的总数、关系的总数、属性的总数和类型的总数;将r′j记为rj的反关系,表示若
Figure FDA0003298478430000012
Figure FDA0003298478430000013
根据E、R、F、A、L,数据预处理模块获取训练样本集合S*、训练样本的标签集合Y*、验证样本集合S#、验证样本的标签集合Y#、以及补全样本集合U;对于S*、S#、U中的每个样本,数据预处理模块先使用fExtractPath从知识图谱中抽取样本的实体对之间的正向路径集合,然后使用fPreprocessPaths处理该正向路径集合输出样本的数据集合,构成训练样本的数据集合、验证样本的数据集合、补全样本的数据集合;
事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五个部分组成;其中,嵌入层包含3个嵌入矩阵,分别为关系的嵌入矩阵Wr、实体属性的嵌入矩阵WA、实体类型的嵌入矩阵WL;关系编码器用于提取每条路径的关系序列特征,由一个LSTM网络构成,记为LSTMr;实体编码器用于提取每条路径的实体序列特征即每条路径上实体的属性信息序列的特征和类型信息序列的特征,由实体画像注意力网络和实体序列编码网络两个子网络构成,其中实体画像注意力网络由结构相同的实体属性注意力网络和实体类型注意力网络构成,实体属性注意力网络由4个全连接层
Figure FDA0003298478430000014
构成,实体类型注意力网络由4个全连接层
Figure FDA0003298478430000015
构成,而实体序列编码网络由两个LSTM网络即LSTMA和LSTML及4个全连接层
Figure FDA0003298478430000016
构成;路径编码器由结构相同的正向路径注意力网络和反向路径注意力网络构成,其中正向路径注意力网络由2个全连接层fp
Figure FDA0003298478430000021
构成,反向路径注意力网络由2个全连接层f′p
Figure FDA0003298478430000022
构成,分别用于聚合每个样本的所有正向路径的特征和所有反向路径的特征;预测器由4个全连接层f1,f2,f3和f4构成,用于预测每个样本属于事实的概率;事实预测网络从数据预处理模块得到包含训练样本的数据集合、验证样本的数据集合、补全样本的数据集合的样本数据集合,提取样本数据集合中每个样本的路径特征,然后计算出每个样本属于事实的概率,组成包括训练样本的预测概率集合、验证样本的预测概率集合、补全样本的预测概率集合的预测概率集合;事实预测网络根据数据预处理模块输出的训练样本的标签集合和事实预测网络预测的训练样本的预测概率集合,进行训练并更新网络参数;事实预测网络根据数据预处理模块输出的验证样本的标签集合和事实预测网络预测的验证样本的预测概率集合,进行验证并保存最优的网络参数;如果输入事实预测网络的样本数据集合是补全样本的数据集合,则事实预测网络将计算得到的补全样本的预测概率集合输出给事实补全模块;
事实补全模块与数据预处理模块和事实预测网络相连;事实补全模块接收数据预处理模块输出的补全样本的数据集合和训练好的事实预测网络输出的补全样本的预测概率集合Z,根据每个补全样本的预测概率判断补全样本的数据集合中补全样本集合U里的每个补全样本是否是需要补全的事实,如果补全样本是需要补全的事实,则将补全样本添加到知识图谱的事实集合中,得到补全后的知识图谱的事实集合Fnew
第二步:数据预处理模块根据用户输入的需要补全的知识图谱、实体的类型集合L和每个实体对应的类型信息的字典DL,以及需要补全的查询关系集合RQ,准备训练事实预测网络所需的训练数据、验证事实预测网络所需的验证数据、以及事实补全模块所需的要判断是否为缺失事实的补全数据;方法是:
2.1数据预处理模块接收用户输入的需要补全的知识图谱、实体的类型集合L和每个实体对应的类型信息的字典DL,以及需要补全的查询关系集合RQ,RQ={rq|rq∈R},1≤q≤Q,Q为RQ中元素的个数;需要补全的知识图谱包括实体集合E、关系集合R、事实集合F,字典DL中的key为实体,value为实体对应的类型集合;
2.2数据预处理模块使用路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths准备训练和验证事实预测网络需要的训练样本的数据集合和训练样本的标签集合、验证样本的数据集合和验证样本的标签集合,方法是:
2.2.1令存储所有训练样本的集合
Figure FDA0003298478430000023
存储所有训练样本的标签集合
Figure FDA0003298478430000024
存储所有训练样本的所有正向路径的关系序列的集合
Figure FDA0003298478430000025
存储所有训练样本的所有反向路径的关系序列的集合
Figure FDA0003298478430000031
存储所有训练样本的所有正向路径的实体属性信息序列集合
Figure FDA0003298478430000032
存储所有训练样本的所有正向路径的实体类型信息序列集合
Figure FDA0003298478430000033
存储所有训练样本的所有反向路径的实体属性信息序列集合
Figure FDA0003298478430000034
存储所有训练样本的所有反向路径的实体类型信息序列集合
Figure FDA0003298478430000035
2.2.2令存储所有验证样本的集合
Figure FDA0003298478430000036
存储所有验证样本的标签集合
Figure FDA0003298478430000037
存储所有验证样本的所有正向路径的关系序列的集合
Figure FDA0003298478430000038
存储所有验证样本的所有反向路径的关系序列的集合
Figure FDA0003298478430000039
存储所有验证样本的所有正向路径的实体属性信息序列集合
Figure FDA00032984784300000310
存储所有验证样本的所有正向路径的实体类型信息序列集合
Figure FDA00032984784300000311
存储所有验证样本的所有反向路径的实体属性信息序列集合
Figure FDA00032984784300000312
存储所有验证样本的所有反向路径的实体类型信息序列集合
Figure FDA00032984784300000313
2.2.3令q=1;
2.2.4如果q≤Q,转2.2.5,否则说明全部样本数据均已经处理,转2.2.18;
2.2.5设置负样本数目与正样本数目的比值为KN|P,KN|P为正整数;设置样本数量阈值为Kq,Kq为正整数,,其中
Figure FDA00032984784300000314
表示以rq为关系的事实,即
Figure FDA00032984784300000315
Figure FDA00032984784300000316
Figure FDA00032984784300000317
表示集合
Figure FDA00032984784300000318
的元素数目;令查询关系rq的样本集合为
Figure FDA00032984784300000319
令查询关系rq的样本标签集合为
Figure FDA00032984784300000320
令查询关系rq下所有样本的所有正向路径的关系序列的集合
Figure FDA00032984784300000321
查询关系rq下所有样本的所有反向路径的关系序列的集合
Figure FDA00032984784300000322
查询关系rq下所有样本的所有正向路径的实体属性信息序列集合
Figure FDA00032984784300000323
查询关系rq下所有样本的所有正向路径的实体类型信息序列集合
Figure FDA00032984784300000324
查询关系rq下所有样本的所有反向路径的实体属性信息序列集合
Figure FDA00032984784300000325
查询关系rq下所有样本的所有反向路径的实体类型信息序列集合
Figure FDA00032984784300000326
2.2.6令k=1;
2.2.7如果k≤Kq,转2.2.8,否则说明查询关系rq下的所有样本的数据已经获取,转2.2.14;
2.2.8随机从实体集合E中选择两个实体
Figure FDA00032984784300000327
Figure FDA00032984784300000328
Figure FDA00032984784300000329
Figure FDA00032984784300000330
构造样本sk
Figure FDA00032984784300000331
Figure FDA00032984784300000332
Figure FDA00032984784300000333
则sk为正样本,令sk的标签yk=1,若
Figure FDA00032984784300000334
则sk为负样本,令sk的标签yk=0;
2.2.9令sk的所有正向路径的关系序列的集合
Figure FDA00032984784300000335
sk的所有反向路径的关系序列的集合
Figure FDA00032984784300000336
sk的所有正向路径的实体属性信息序列集合
Figure FDA00032984784300000337
sk的所有正向路径的实体类型信息序列集合
Figure FDA0003298478430000041
sk的所有反向路径的实体属性信息序列集合
Figure FDA0003298478430000042
sk的所有反向路径的实体类型信息序列集合
Figure FDA0003298478430000043
2.2.10 fExtractPath采用随机游走方法抽取样本sk的实体
Figure FDA0003298478430000044
到实体
Figure FDA0003298478430000045
的N条正向路径,放到sk的正向路径集合
Figure FDA0003298478430000046
中,其中
Figure FDA0003298478430000047
第n条路径pn由实体和关系交替构成,
Figure FDA0003298478430000048
M为路径pn的长度,实体
Figure FDA0003298478430000049
为路径pn上第t步的实体,rt∈R,1≤t≤M为路径pn上第t步的关系;
2.2.11 fPreprocessPaths将样本sk的正向路径集合
Figure FDA00032984784300000410
处理为事实预测网络需要的数据结构,得到样本sk的查询关系rq、反向查询关系r′q,样本sk的所有正向路径的关系序列的集合
Figure FDA00032984784300000411
所有反向路径的关系序列的集合
Figure FDA00032984784300000412
所有正向路径的实体属性信息序列集合
Figure FDA00032984784300000413
和实体的类型信息序列集合
Figure FDA00032984784300000414
所有反向路径的实体的属性信息序列集合
Figure FDA00032984784300000415
和实体的类型信息序列集合
Figure FDA00032984784300000416
其中:
Figure FDA00032984784300000417
Figure FDA00032984784300000418
为正向关系序列,
Figure FDA00032984784300000419
Figure FDA00032984784300000420
Figure FDA00032984784300000421
为反向关系序列,
Figure FDA00032984784300000422
Figure FDA00032984784300000423
r′t是pn的反向路径p′n上的关系,
Figure FDA00032984784300000424
Figure FDA00032984784300000425
Figure FDA00032984784300000426
为正向实体序列
Figure FDA00032984784300000427
上获得的所有实体的属性信息,
Figure FDA00032984784300000428
Figure FDA00032984784300000429
为为
Figure FDA00032984784300000430
上的第t步实体et的属性集合,
Figure FDA00032984784300000431
|At|为At中属性的个数;
Figure FDA00032984784300000432
Figure FDA00032984784300000433
Figure FDA00032984784300000434
上获得的所有实体的类型信息记,
Figure FDA00032984784300000435
Figure FDA00032984784300000436
Lt为et的类型集合;
Figure FDA00032984784300000437
Figure FDA00032984784300000438
为反向实体序列
Figure FDA00032984784300000439
上所有实体的属性信息,
Figure FDA00032984784300000440
Figure FDA00032984784300000441
的逆序,即
Figure FDA00032984784300000442
Figure FDA00032984784300000443
Figure FDA00032984784300000444
Figure FDA00032984784300000445
上所有实体的类型信息,
Figure FDA00032984784300000446
Figure FDA00032984784300000447
的逆序,即
Figure FDA00032984784300000448
2.2.12将样本sk和sk的标签分别加入样本集合Sq和样本的标签集合Yq中,即令Sq=Sq∪{sk},令Yq=Yq∪{yk};令
Figure FDA00032984784300000449
Figure FDA00032984784300000450
2.2.13令k=k+1,转2.2.7;
2.2.14此时查询关系rq下所有样本为Sq={s1,...,sk,...,sK},查询关系rq下所有样本的标签集合为Yq={y1,...,yk,...,yK},查询关系rq下所有样本的所有正向路径的关系序列的集合
Figure FDA0003298478430000051
查询关系rq下所有样本的所有反向路径的关系序列的集合
Figure FDA0003298478430000052
Figure FDA0003298478430000053
查询关系rq下所有样本的所有正向路径的实体属性信息序列集合
Figure FDA0003298478430000054
Figure FDA0003298478430000055
查询关系rq下所有样本的所有正向路径的实体类型信息序列集合
Figure FDA0003298478430000056
Figure FDA0003298478430000057
查询关系rq下所有样本的所有反向路径的实体属性信息序列集合
Figure FDA0003298478430000058
Figure FDA0003298478430000059
查询关系rq下所有样本的所有反向路径的实体类型信息序列集合
Figure FDA00032984784300000510
Figure FDA00032984784300000511
将Sq、Yq
Figure FDA00032984784300000512
按照a∶c的比例分为查询关系rq下的训练数据Sq*、Yq*
Figure FDA00032984784300000513
和验证数据Sq#、Yq#
Figure FDA00032984784300000514
Figure FDA00032984784300000515
a和c为正数,a>c,且a+c=10;
2.2.15将查询关系rq下的所有训练数据作为元素加入总的训练数据中,即令S*=S*∪{Sq*},Y*=Y*U{Yq*},
Figure FDA00032984784300000516
Figure FDA00032984784300000517
2.2.16将查询关系rq下的所有验证数据作为元素加入总的验证数据中,即令S#=S#∪{Sq#},Y#=Y#U{Yq#},
Figure FDA00032984784300000518
Figure FDA00032984784300000519
2.2.17令q=q+1,转2.2.4;
2.2.18此时所有训练样本的标签集合为Y*={Y1,...,Yq,...,YQ},所有的训练样本的集合为S*={S1*,...,Sq*,...,SQ*},所有训练样本的所有正向路径的关系序列的集合
Figure FDA00032984784300000520
Figure FDA00032984784300000521
所有训练样本的所有反向路径的关系序列的集合
Figure FDA00032984784300000522
Figure FDA00032984784300000523
所有训练样本的所有正向路径的实体属性信息序列集合
Figure FDA00032984784300000524
Figure FDA00032984784300000525
所有训练样本的所有正向路径的实体类型信息序列集合
Figure FDA00032984784300000526
Figure FDA00032984784300000527
所有训练样本的所有反向路径的实体属性信息序列集合
Figure FDA00032984784300000528
Figure FDA00032984784300000529
所有训练样本的所有反向路径的实体类型信息序列集合
Figure FDA00032984784300000530
Figure FDA00032984784300000531
S*
Figure FDA00032984784300000532
构成所有训练样本的数据集合;所有验证样本的标签集合为Y#={Y1#,...,Yq#,...,YQ#},所有的验证样本的集合为S#={S1#,...,Sq#,...,SQ#},所有验证样本的所有正向路径的关系序列的集合
Figure FDA0003298478430000061
Figure FDA0003298478430000062
所有验证样本的所有反向路径的关系序列的集合
Figure FDA0003298478430000063
Figure FDA0003298478430000064
所有验证样本的所有正向路径的实体属性信息序列集合
Figure FDA0003298478430000065
Figure FDA0003298478430000066
所有验证样本的所有正向路径的实体类型信息序列集合
Figure FDA0003298478430000067
Figure FDA0003298478430000068
所有验证样本的所有反向路径的实体属性信息序列集合
Figure FDA0003298478430000069
Figure FDA00032984784300000610
所有验证样本的所有反向路径的实体类型信息序列集合
Figure FDA00032984784300000611
Figure FDA00032984784300000612
S#
Figure FDA00032984784300000613
构成所有验证样本的数据集合,转2.3;
2.3数据预处理模块使用fExtractPath和fPreprocessPaths准备事实补全模块所需的要判断是否为缺失事实的补全样本的数据集合,包括所有补全样本的集合U={U1,...,Uq,...,UQ},所有补全样本的所有正向路径的关系序列的集合
Figure FDA00032984784300000614
所有补全样本的所有反向路径的关系序列的集合
Figure FDA00032984784300000615
所有补全样本的所有正向路径的实体属性信息序列集合
Figure FDA00032984784300000616
所有补全样本的所有正向路径的实体类型信息序列集合
Figure FDA00032984784300000617
所有补全样本的所有反向路径的实体属性信息序列集合
Figure FDA00032984784300000618
所有补全样本的所有反向路径的实体类型信息序列集合
Figure FDA00032984784300000619
Uq为查询关系rq下所有补全样本,
Figure FDA00032984784300000620
Figure FDA00032984784300000621
|Uq|为Uq中元素的个数,即查询关系rq下的补全样本的总数;
Figure FDA00032984784300000622
为查询关系rq下所有补全样本的所有正向路径的关系序列的集合,
Figure FDA00032984784300000623
Figure FDA00032984784300000624
Figure FDA00032984784300000625
为查询关系rq下所有补全样本的所有反向路径的关系序列的集合
Figure FDA00032984784300000626
查询关系rq下所有补全样本的所有正向路径的实体属性信息序列集合
Figure FDA00032984784300000627
查询关系rq下所有补全样本的所有正向路径的实体类型信息序列集合
Figure FDA00032984784300000628
查询关系rq下所有补全样本的所有反向路径的实体属性信息序列集合
Figure FDA00032984784300000629
查询关系rq下所有补全样本的所有反向路径的实体类型信息序列集合
Figure FDA00032984784300000630
2.4将步骤2.2得到的S*
Figure FDA00032984784300000631
输出给事实预测网络作为Q组查询关系的训练样本的数据集合,将步骤2.2得到的Y*输出给事实预测网络作为Q组查询关系的训练样本的标签集合,将步骤2.2得到的S#
Figure FDA0003298478430000071
输出给事实预测网络作为Q组查询关系的验证样本的数据集合,将步骤2.2得到的Y#输出给事实预测网络作为Q组查询关系的验证样本的标签集合,将步骤2.3得到的U、Ur、U′r、UA、UL、U′A、U′L输出给事实预测网络作为Q组查询关系的补全样本的数据集合;并将补全样本的数据集合输出给事实补全模块;
第三步:采用从数据预处理模块接收的Q组查询关系的训练样本的数据集合、训练样本的标签集合、验证样本的数据集合、验证样本的标签集合对事实预测网络进行训练和验证,获取Q个事实预测网络的权重参数;
具体方法如下:
3.1令q=1;
3.2如果q≤Q,则转步骤3.3,否则说明所有查询关系的事实预测网络均已训练结束,得到了Q个训练好的事实预测网络,即
Figure FDA0003298478430000072
转步骤3.8;
3.3初始化查询关系rq对应的事实预测网络
Figure FDA0003298478430000073
的权重参数;
3.4设置
Figure FDA0003298478430000074
的训练参数:包括设置学习率learningRate、一阶矩估计的指数衰减率β1、二阶矩估计的指数衰减率β2,防止除以零的参数∈,批数据尺寸batchsize;
3.5从S*、Y*
Figure FDA0003298478430000075
中取出关于查询关系rq的训练数据Sq*、Yq*
Figure FDA0003298478430000076
从S#、Y#
Figure FDA0003298478430000077
中取出关于查询关系rq的验证数据Sq#、Yq#
Figure FDA0003298478430000078
3.6迭代计算事实预测网络
Figure FDA0003298478430000079
输出的预测概率与真实标签之间的差距,最小化损失并更新网络
Figure FDA00032984784300000710
的参数,直到满足迭代次数要求,得到权重参数;具体方法如下:
3.6.1令训练迭代参数epoch=1,令事实预测网络对查询关系rq的验证数据进行预测的平均精确度的值APq#=0;初始化迭代阈值EpochNum,EpochNum是[1,30]内的整数;
3.6.2如果epoch≤迭代阈值EpochNum,转3.6.2.1,否则说明查询关系rq的事实预测网络
Figure FDA00032984784300000711
已经满足迭代次数要求,训练结束,转3.7;
3.6.2.1令批处理次数b=1,令已训练样本数目processednum=0;
3.6.2.2如果
Figure FDA00032984784300000712
转3.6.2.2.1,其中|Sq*|为训练样本集合Sq*的样本数目,否则说明Sq*中的所有训练样本已经参与过计算,该次训练迭代结束,转3.6.2.3计算在验证数据Sq#上的预测结果;
3.6.2.2.1事实预测网络的嵌入层从Sq*中读取C个样本作为第b个batch的训练数据,即一个批次的训练数据,记为样本训练批次集合Sq*,b={s1,...,sc,...,sC},1≤c≤C,其中C=min(batchsize,|Sq*|-processednum),表示取batchsize和|Sq*|-processednum中的最小值;从Yq*
Figure FDA0003298478430000081
中取出与Sq*,b的这C个样本对应的数据,分别记为标签训练批次集合Yq*,b={y1,...,yc,...,yC},正向路径关系序列训练批次集合
Figure FDA0003298478430000082
Figure FDA0003298478430000083
反向路径关系序列训练批次集合
Figure FDA0003298478430000084
正向路径实体属性信息序列训练批次集合
Figure FDA0003298478430000085
和正向路径实体类型信息序列训练批次集合
Figure FDA0003298478430000086
反向路径实体属性信息序列训练批次集合
Figure FDA0003298478430000087
Figure FDA0003298478430000088
和反向路径实体类型信息序列训练批次集合
Figure FDA0003298478430000089
3.6.2.2.2采用事实预测网络预测方法fpredict,对第b个batch的数据
Figure FDA00032984784300000810
Figure FDA00032984784300000811
和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch的数据的预测概率集合
Figure FDA00032984784300000812
其中
Figure FDA00032984784300000813
是该批次数据中样本sc的预测概率,
Figure FDA00032984784300000814
具体为:
3.6.2.2.2.1事实预测网络的嵌入层读取rq、r′q,以及
Figure FDA00032984784300000815
使用关系的嵌入矩阵Wr、实体属性的嵌入矩阵WA、实体类型的嵌入矩阵WL分别将数据中的关系、实体属性、实体类型映射为各自的向量表示,得到rq、r′q
Figure FDA00032984784300000816
Figure FDA00032984784300000817
分别对应的向量形式
Figure FDA00032984784300000818
即批次数据的查询关系的嵌入
Figure FDA00032984784300000819
反向查询关系的嵌入
Figure FDA00032984784300000820
正向路径的关系序列的嵌入
Figure FDA00032984784300000821
反向路径的关系序列的嵌入
Figure FDA00032984784300000822
正向路径的实体属性序列的嵌入
Figure FDA00032984784300000823
正向路径的实体类型序列的嵌入
Figure FDA00032984784300000824
反向路径的实体属性序列的嵌入
Figure FDA00032984784300000825
反向路径的实体类型序列的嵌入
Figure FDA00032984784300000826
Figure FDA00032984784300000827
发送给关系编码器和实体编码器;
3.6.2.2.2.2关系编码器从嵌入层接收
Figure FDA00032984784300000828
Figure FDA00032984784300000829
计算该批次数据的所有正向路径的关系表示
Figure FDA00032984784300000830
和所有反向路径的关系表示
Figure FDA00032984784300000831
Figure FDA00032984784300000832
Figure FDA00032984784300000833
传给实体编码器和路径编码器;
3.6.2.2.2.3实体编码器提取每条路径的实体特征;实体编码器从嵌入层接收
Figure FDA00032984784300000834
Figure FDA00032984784300000835
从关系编码器接收
Figure FDA00032984784300000836
Figure FDA00032984784300000837
计算所有正向路径的实体表示
Figure FDA00032984784300000838
和所有反向路径的实体表示
Figure FDA0003298478430000091
Figure FDA0003298478430000092
Figure FDA0003298478430000093
传给路径编码器;
3.6.2.2.2.4路径编码器从关系编码器接收
Figure FDA0003298478430000094
Figure FDA0003298478430000095
从实体编码器接收
Figure FDA0003298478430000096
Figure FDA0003298478430000097
分别使用正向路径注意力网络和反向路径注意力网络计算批数据中所有样本的正向路径的表示和反向路径的表示,得到所有样本的正向路径表示
Figure FDA0003298478430000098
和所有样本的反向路径表示
Figure FDA0003298478430000099
Figure FDA00032984784300000910
Figure FDA00032984784300000911
传输给预测器;
3.6.2.2.2.5预测器从路径编码器接收
Figure FDA00032984784300000912
Figure FDA00032984784300000913
计算该批数据中所有样本的预测概率,方法为:
3.6.2.2.2.5.1将
Figure FDA00032984784300000914
输入到全连接层f1中,将
Figure FDA00032984784300000915
输入到全连接层f2中,然后将全连接层f1和f2的输出进行拼接,得到该批数据中所有样本的路径表示
Figure FDA00032984784300000916
维度为C×600,其中该批数据中每个样本的路径表示维度为600;
3.6.2.2.2.5.2将
Figure FDA00032984784300000917
输入到全连接层f3中,然后将f3的输出经过ReLU函数激活后输入到全连接层f4中,得到所有样本的路径的新表示
Figure FDA00032984784300000918
3.6.2.2.2.5.3将
Figure FDA00032984784300000919
输入sigmoid函数中,得到该批次所有数据的预测概率集合
Figure FDA00032984784300000920
Figure FDA00032984784300000921
Figure FDA00032984784300000922
是该批次数据中样本sc的预测概率,
Figure FDA00032984784300000923
转3.6.2.2.3;
Figure FDA00032984784300000924
3.6.2.2.3使用步骤3.6.2.2.1得到的标签集合Yq*,b和步骤3.6.2.2.2.5.3事实预测网络的预测概率集合
Figure FDA00032984784300000925
计算该批次数据Sq*,b的损失值loss;方法如下式,其中
Figure FDA00032984784300000926
表示该批次数据中查询关系rq的正样本集合,
Figure FDA00032984784300000927
表示该批次数据中查询关系rq的正样本集合和负样本集合,如果Sq*,b中的样本sc的标签yc=1,则样本
Figure FDA00032984784300000928
否则
Figure FDA00032984784300000929
Figure FDA00032984784300000930
Figure FDA00032984784300000931
3.6.2.2.4使用Adam优化算法对损失值loss最小化,以反向传播训练网络参数,事实预测网络中Wr、WA、WL、LSTMr、LSTMA和LSTML的参数和20个全连接层的权重矩阵和偏置向量都得到一次更新;
3.6.2.2.5令processednum=processednum+C,b=b+1,转3.6.2.2;
3.6.2.3令批处理次数b=1,令已预测的验证样本数目predictednum=0,令验证样本的预测概率集合
Figure FDA0003298478430000101
3.6.2.4如果
Figure FDA0003298478430000102
转3.6.2.4.1,其中|Sq#|为验证样本集合Sq#的样本数目,否则说明已经对Sq#中的所有验证样本进行预测,转3.6.2.5;
3.6.2.4.1事实预测网络的嵌入层从步骤3.5中得到的Sq#中读取C#个样本作为第b个batch的验证数据,即一个批次的验证数据,记为样本验证批次集合
Figure FDA0003298478430000103
1≤c#≤C#,其中C#=min(batchsize,|Sq#|-predictednum);从步骤3.5得到的Yq#
Figure FDA0003298478430000104
Figure FDA0003298478430000105
中取出与Sq#,b的这C#个样本对应的数据,分别记为标签验证批次集合
Figure FDA0003298478430000106
正向路径关系序列验证批次集合
Figure FDA0003298478430000107
反向路径关系序列验证批次集合
Figure FDA0003298478430000108
正向路径实体属性信息序列验证批次集合
Figure FDA0003298478430000109
和正向路径实体类型信息序列验证批次集合
Figure FDA00032984784300001010
Figure FDA00032984784300001011
反向路径实体属性信息序列验证批次集合
Figure FDA00032984784300001012
和反向路径实体类型信息序列验证批次集合
Figure FDA00032984784300001013
3.6.2.4.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法fpredict,对第b个batch的验证数据
Figure FDA00032984784300001014
和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch的验证数据的预测概率集合
Figure FDA00032984784300001015
Figure FDA00032984784300001016
其中
Figure FDA00032984784300001017
是该批次数据中样本
Figure FDA00032984784300001018
的预测概率;将
Figure FDA00032984784300001019
加入
Figure FDA00032984784300001020
中,即令
Figure FDA00032984784300001021
3.6.2.4.3令predictednum=predictednum+C#,b=b+1,转3.6.2.4;
3.6.2.5使用验证数据集合Sq#的标签集合Yq#和事实预测网络的预测概率集合
Figure FDA00032984784300001022
计算事实预测网络对验证数据进行预测的平均精确度,记为
Figure FDA00032984784300001023
Figure FDA00032984784300001024
则令
Figure FDA00032984784300001025
Figure FDA00032984784300001026
并保存事实预测网络
Figure FDA00032984784300001027
的参数,转3.6.2.6;若
Figure FDA00032984784300001028
则直接转3.6.2.6。;
3.6.2.6令epoch=epoch+1,转3.6.2;
3.7令q=q+1,转3.2;
3.8计算该基于路径的知识图谱补全系统进行事实预测的平均精度均值MAP,
Figure FDA00032984784300001029
Figure FDA00032984784300001030
转第四步;
第四步:事实补全模块对用户输入的需要补全的知识图谱进行补全,方法是:
4.1事实补全模块从数据预处理模块接收补全样本的数据集合,包括U、Ur、U′r、UA、UL、U′A、U′L,令补全样本集合U对应的所有补全样本的预测概率集合
Figure FDA0003298478430000111
4.2令q=1;
4.3如果q≤Q,转4.3.1预测查询关系rq下所有补全样本属于事实的概率,否则说明所有查询关系下的补全样本均已预测,转4.4;
4.3.1从RQ中取出查询关系rq,根据rq选择第三步中训练好的事实预测网络
Figure FDA0003298478430000112
4.3.2从U、Ur、U′r、UA、UL、U′A、U′L中取出关于查询关系rq的补全数据Uq
Figure FDA0003298478430000113
Figure FDA0003298478430000114
4.3.3令Uq对应的补全样本的预测概率集合为
Figure FDA0003298478430000115
4.3.4使用训练好的事实预测网络
Figure FDA0003298478430000116
预测Uq中所有样本属于事实的概率,得到Uq中所有样本属于事实的预测概率集合Zq,方法是:
4.3.4.1令批处理次数b=1,令已预测补全样本的数目predictednum=0;
4.3.4.2如果
Figure FDA0003298478430000117
转4.3.4.2.1对Uq中第b个batch的补全数据进行预测,否则说明已经对Uq中的所有补全样本进行预测,转4.3.5;
4.3.4.2.1事实预测网络的嵌入层从Uq读取Cu个样本作为第b个batch的补全数据,即一个批次的补全数据,记为样本补全批次集合
Figure FDA0003298478430000118
其中Cu=min(batchsize,|Uq|-predictednum);从
Figure FDA0003298478430000119
中取出与Uq,b的这Cu个样本对应的数据,分别记为正向路径关系序列补全批次集合
Figure FDA00032984784300001110
反向路径关系序列补全批次集合
Figure FDA00032984784300001111
正向路径实体属性信息序列补全批次集合
Figure FDA00032984784300001112
和正向路径实体类型信息序列补全批次集合
Figure FDA00032984784300001113
Figure FDA00032984784300001114
反向路径实体属性信息序列补全批次集合
Figure FDA00032984784300001115
和反向路径实体类型信息序列补全批次集合
Figure FDA00032984784300001116
4.3.4.2.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法fpredict,对第b个batch的补全数据
Figure FDA00032984784300001117
和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch经过训练好的事实预测网络
Figure FDA00032984784300001118
预测得到的补全数据的预测概率集合
Figure FDA00032984784300001119
Figure FDA00032984784300001120
其中
Figure FDA00032984784300001121
是该批次数据中样本
Figure FDA00032984784300001122
的预测概率;
4.3.4.2.3事实补全模块从事实预测网络接收批次数据的预测概率集合
Figure FDA0003298478430000121
Figure FDA0003298478430000122
加入到rq下的补全样本的预测概率集合Zq中,即令
Figure FDA0003298478430000123
4.3.4.2.4令predictednum=predictednum+Cu,b=b+1,转4.3.4.2;
4.3.5将Zq作为元素加入到所有补全样本的预测概率集合中,即Z=Z∪{Zq};
4.3.6令q=q+1,转4.3;
4.4根据U的预测概率集合Z,Z={Z1,...,Zq,...,ZQ},判断样本是否是需要补全的事实,得到补全后的知识图谱,具体地:
4.4.1将补全后的知识图谱的事实集合记为Fnew,令Fnew=F;
4.4.2设置阈值δ,令q=1;
4.4.3如果q≤Q,则转4.4.4补全查询关系rq下的缺失事实,否则说明所有查询关系下的缺失事实均已补全,转4.5;
4.4.4令w=1;
4.4.5如果w≤|Uq|,则转4.4.6判断补全样本uw是否为缺失事实,否则说明查询关系rq下的缺失事实均已补全,转4.4.8;
4.4.6Uq中第w个样本uw代表三元组
Figure FDA0003298478430000124
uw的预测概率为Zq中的第w个预测概率zw,若预测概率zw≥δ,则在用户提供的知识图谱中将实体
Figure FDA0003298478430000125
Figure FDA0003298478430000126
使用rq连接,即将
Figure FDA0003298478430000127
添加到事实集合Fnew中,
Figure FDA0003298478430000128
4.4.7令w=w+1,转4.4.5;
4.4.8令q=q+1,转4.4.3;
4.5将用户提供的知识图谱中的事实集合F更新为Fnew,即完成了对用户提供的知识图谱的补全。
2.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于所述事实预测网络中嵌入层、关系编码器、实体编码器、路径编码器、预测器的功能和输入输出关系为:嵌入层接收数据预处理模块的数据,将每个关系、实体属性、实体类型、实体属性分别使用Wr、WA、WL转化为向量表示,然后将每个样本的每条路径的关系序列转化为向量表示输出给关系编码器,将每个样本的每条路径上实体的属性信息序列和实体的类型信息序列转化为向量表示输出给实体编码器,将每个样本的查询关系和反向查询关系转化为向量表示也输出给实体编码器;关系编码器接收嵌入层输出的每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入,对这些嵌入进行编码,得到每个样本的每条正向路径的关系表示和每条反向路径的关系表示,将每个样本的每条正向路径的关系表示和每条反向路径的关系表示输出给实体编码器和路径编码器;实体编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示,还接收来自嵌入层的每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入、每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入、每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入,对这些嵌入进行编码,得到每个样本的每条正向路径的实体表示和每条反向路径的实体表示,将每个样本的每条正向路径的实体表示和每条反向路径的实体表示输出给路径编码器;路径编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示,以及来自实体编码器的每个样本的每条正向路径的实体表示和每条反向路径的实体表示,对这些表示进行编码,得到每个样本的正向路径表示和反向路径表示,将每个样本的正向路径表示和反向路径表示输出给预测器;预测器接收来自路径编码器的每个样本的正向路径表示和反向路径表示,对这些表示进行编码,得到每个样本的预测结果即每个样本属于事实的概率,将每个样本的预测结果组成预测概率集合;事实预测网络根据数据预处理模块输出的训练样本的标签集合和事实预测网络预测的训练样本的预测概率集合,进行训练并更新网络参数。
3.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于2.2.5步所述负样本数目与正样本数目的比值为KN|P满足1≤KN|P≤10;2.2.5步所述样本数量阈值Kq满足
Figure FDA0003298478430000131
2.2.8步所述构造样本sk时控制Sq内正负样本的比例为1∶KN|P;2.2.14步所述a∶c=7∶3,第四步所述δ满足0.5≤δ≤1。
4.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于2.2.11步所述fPreprocessPaths处理样本sk的正向路径集合
Figure FDA0003298478430000132
的方法是:
2.2.11.1令n=1;
2.2.11.2如果n≤N,转2.2.11.3,否则说明样本sk的全部路径均已经处理,转2.2.11.14;
2.2.11.3获取
Figure FDA0003298478430000133
中第n条路径pn的反向路径p′n
Figure FDA0003298478430000134
2.2.11.4将pn分为关系序列
Figure FDA0003298478430000135
和实体序列
Figure FDA0003298478430000136
2.2.11.5将p′n分为关系序列
Figure FDA0003298478430000137
和实体序列
Figure FDA0003298478430000138
Figure FDA0003298478430000139
2.2.11.6获取
Figure FDA00032984784300001310
上所有实体的属性信息;
2.2.11.7将
Figure FDA00032984784300001311
上获得的所有实体的属性信息记为
Figure FDA00032984784300001312
Figure FDA00032984784300001313
At为第t步实体et的属性集合t
Figure FDA0003298478430000141
Figure FDA0003298478430000142
为et的第vt个属性;
2.2.11.8将
Figure FDA0003298478430000143
上所有实体的属性信息记为
Figure FDA0003298478430000144
Figure FDA0003298478430000145
Figure FDA0003298478430000146
的逆序,即
Figure FDA0003298478430000147
Figure FDA0003298478430000148
2.2.11.9获取
Figure FDA0003298478430000149
上所有实体的类型信息;
2.2.11.10将
Figure FDA00032984784300001410
上获得的所有实体的类型信息记为
Figure FDA00032984784300001411
Figure FDA00032984784300001412
Lt为字典DL中键为et对应的值,即Lt=DL[et];
2.2.11.11将
Figure FDA00032984784300001413
上所有实体的类型信息记为
Figure FDA00032984784300001414
Figure FDA00032984784300001415
Figure FDA00032984784300001416
的逆序,即
Figure FDA00032984784300001417
Figure FDA00032984784300001418
2.2.11.12将
Figure FDA00032984784300001419
加入集合
Figure FDA00032984784300001420
即令
Figure FDA00032984784300001421
Figure FDA00032984784300001422
加入集合
Figure FDA00032984784300001423
即令
Figure FDA00032984784300001424
Figure FDA00032984784300001425
加入集合
Figure FDA00032984784300001426
即令
Figure FDA00032984784300001427
Figure FDA00032984784300001428
加入集合
Figure FDA00032984784300001429
即令
Figure FDA00032984784300001430
Figure FDA00032984784300001431
加入集合
Figure FDA00032984784300001432
即令
Figure FDA00032984784300001433
Figure FDA00032984784300001434
加入集合
Figure FDA00032984784300001435
即令
Figure FDA00032984784300001436
2.2.11.13令n=n+1,转2.2.11.2;
2.2.11.14得到样本sk的查询关系rq、反向查询关系r′q,样本sk的所有正向路径的关系序列的集合
Figure FDA00032984784300001437
所有反向路径的关系序列的集合
Figure FDA00032984784300001438
所有正向路径的实体属性信息序列集合
Figure FDA00032984784300001439
和实体的类型信息序列集合
Figure FDA00032984784300001440
所有反向路径的实体的属性信息序列集合
Figure FDA00032984784300001441
和实体的类型信息序列集合
Figure FDA00032984784300001442
5.如权利要求4所述的一种基于实体属性的知识图谱事实补全方法,其特征在于2.2.11.6步所述获取
Figure FDA00032984784300001443
上所有实体的属性信息的方法是:
2.2.11.6.1令t=1;
2.2.11.6.2如果t≤M+1,转2.2.11.6.3,否则说明
Figure FDA00032984784300001444
上所有实体的属性信息均已经获取,结束;
2.2.11.6.3获取
Figure FDA00032984784300001445
上的第t步实体et的属性集合At
Figure FDA00032984784300001446
Figure FDA00032984784300001447
|At|为At中属性的个数;分两种情况进行处理:
2.2.11.6.3.1如果et既不是
Figure FDA00032984784300001448
也不是
Figure FDA00032984784300001449
et的属性集合是以et作为头实体的所有事实构成的邻居事实集合
Figure FDA00032984784300001450
中的关系的集合,即
Figure FDA00032984784300001451
Figure FDA00032984784300001452
转2.2.11.6.4;
2.2.11.6.3.2如果et
Figure FDA00032984784300001453
或者
Figure FDA00032984784300001454
et的属性集合是以et作为头实体的所有事实去掉包含
Figure FDA00032984784300001455
Figure FDA00032984784300001456
作为实体的所有事实构成的邻居事实集合
Figure FDA00032984784300001457
中的关系的集合,即
Figure FDA00032984784300001458
Figure FDA0003298478430000151
其中
Figure FDA0003298478430000152
表示以
Figure FDA0003298478430000153
Figure FDA0003298478430000154
分别作为头实体和尾实体的事实,
Figure FDA0003298478430000155
Figure FDA0003298478430000156
转2.2.11.6.4;
2.2.11.6.4对At内的属性进行排序;方法是将At内的全部属性根据其在
Figure FDA0003298478430000157
中出现的频次从高到低进行排序,频次高的属性排序在前;具体地,将et的第vt个属性
Figure FDA0003298478430000158
Figure FDA0003298478430000159
出现的次数记为
Figure FDA00032984784300001510
Figure FDA00032984784300001511
若属性
Figure FDA00032984784300001512
Figure FDA00032984784300001513
的次数满足
Figure FDA00032984784300001514
则属性
Figure FDA00032984784300001515
排序在
Figure FDA00032984784300001516
之前,最后将et的属性集合记为
Figure FDA00032984784300001517
意味着
Figure FDA00032984784300001518
Figure FDA00032984784300001519
2.2.11.6.5令t=t+1,转2.2.11.6.2。
6.如权利要求4所述的一种基于实体属性的知识图谱事实补全方法,其特征在于2.2.11.9步所述获取
Figure FDA00032984784300001520
上所有实体的类型信息的方法是:
2.2.11.9.1令t=1;
2.2.11.9.2如果t≤M+1,转2.2.11.9.3,否则说明
Figure FDA00032984784300001521
上所有实体的类型信息均已经获取,结束;
2.2.11.9.3令et的类型集合Lt为字典DL中键et对应的值,即令Lt=DL[et],Lt表示为
Figure FDA00032984784300001522
Figure FDA00032984784300001523
Figure FDA00032984784300001524
为Lt中的第ot个类型,|Lt|为Lt中类型的个数;
2.2.11.9.4令t=t+1,转2.2.11.9.2。
7.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于2.3步所述数据预处理模块使用fExtractPath和fPreprocessPaths准备事实补全模块所需的要判断是否为缺失事实的补全样本的数据集合的方法是:
2.3.1令存储所有补全样本的集合
Figure FDA00032984784300001525
存储所有补全样本的所有正向路径的关系序列的集合
Figure FDA00032984784300001526
存储所有补全样本的所有反向路径的关系序列的集合
Figure FDA00032984784300001527
存储所有补全样本的所有正向路径的实体属性信息序列集合
Figure FDA00032984784300001528
存储所有补全样本的所有正向路径的实体类型信息序列集合
Figure FDA00032984784300001529
存储所有补全样本的所有反向路径的实体属性信息序列集合
Figure FDA00032984784300001530
存储所有补全样本的所有反向路径的实体类型信息序列集合
Figure FDA00032984784300001531
2.3.2令q=1;
2.3.3如果q≤Q,转2.3.4,否则说明全部补全样本数据均已经处理,转2.3.14;
2.3.4准备需要判断是否为缺失事实的查询关系rq下的所有补全样本的集合Uq,Uq为没有被F包含的关系为rq的三元组的集合,即
Figure FDA0003298478430000161
Figure FDA0003298478430000162
简记为
Figure FDA0003298478430000163
|Uq|为Uq中元素的个数,即查询关系rq下的补全样本的总数;
2.3.5令查询关系rq下所有补全样本的所有正向路径的关系序列的集合
Figure FDA0003298478430000164
令查询关系rq下所有补全样本的所有反向路径的关系序列的集合
Figure FDA0003298478430000165
令查询关系rq下所有补全样本的所有正向路径的实体属性信息序列集合
Figure FDA0003298478430000166
令查询关系rq下所有补全样本的所有正向路径的实体类型信息序列集合
Figure FDA0003298478430000167
令查询关系rq下所有补全样本的所有反向路径的实体属性信息序列集合
Figure FDA0003298478430000168
令查询关系rq下所有补全样本的所有反向路径的实体类型信息序列集合
Figure FDA0003298478430000169
2.3.6令w=1;
2.3.7若w≤|Uq|,转2.3.8,否则说明Uq中每个补全样本的数据均已经获取,转2.3.12;
2.3.8采用步骤2.2.10所述fExtractPath函数处理
Figure FDA00032984784300001610
得到样本uw的实体
Figure FDA00032984784300001611
到实体
Figure FDA00032984784300001612
的Nu条正向路径信息,放到uw的正向路径集合
Figure FDA00032984784300001613
中,其中
Figure FDA00032984784300001614
中的第nu条路径
Figure FDA00032984784300001615
2.3.9采用步骤2.2.11所述路径预处理函数fPreprocessPaths处理uw的正向路径集合
Figure FDA00032984784300001616
得到样本uw的查询关系rq、反向查询关系r′q,样本uw的所有正向路径的关系序列的集合
Figure FDA00032984784300001617
所有反向路径的关系序列的集合
Figure FDA00032984784300001618
所有正向路径的实体属性信息序列集合
Figure FDA00032984784300001619
和实体的类型信息序列集合
Figure FDA00032984784300001620
所有反向路径的实体的属性信息序列集合
Figure FDA00032984784300001621
和实体的类型信息序列集合
Figure FDA00032984784300001622
2.3.10将
Figure FDA00032984784300001623
作为元素添加到查询关系rq下补全样本的数据集合中,即令
Figure FDA00032984784300001624
Figure FDA00032984784300001625
2.3.11令w=w+1,转2.3.7;
2.3.12令U=U∪{Uq},
Figure FDA00032984784300001626
Figure FDA00032984784300001627
2.3.13令q=q+1,转2.3.3;
2.3.14 U、Ur、U′r、UA、UL、U′A、U′L构成所有补全样本的数据集合。
8.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.3步所述初始化查询关系rq对应的事实预测网络
Figure FDA0003298478430000171
的权重参数的方法是:
3.3.1初始化嵌入矩阵的权重;将关系、实体的属性、实体的类型分别对应的3个嵌入矩阵Wr、WA、WL随机初始化为遵循标准正态分布的50维的向量,即各个嵌入矩阵的维度分别为:关系总数目|R|×50、实体属性的总数目|A|×50、实体类型的总数目|L|×50;
3.3.2设置LSTM网络的参数;LSTWr、LSTMA和LSTML网络的隐藏单元的维度均为150维,且LSTMr的隐藏单元和记忆单元均使用全零初始化;
3.3.3初始化全连接层的权重矩阵和偏置向量的权重;每个全连接层均包含一个权重矩阵W和一个偏置向量b,权重矩阵W的维度为全连接层的输出维度×全连接层的输入维度,偏置向量b的维度为全连接层的输出维度;实体属性注意力网络中全连接层
Figure FDA0003298478430000172
的输入维度分别为200,150,50,50,输出维度分别为150,50,50,1;实体类型注意力网络中全连接层
Figure FDA0003298478430000173
的输入维度分别为200,150,50,50,输出维度分别为150,50,50,1;实体序列编码网络中全连接层
Figure FDA0003298478430000174
Figure FDA0003298478430000175
的输入维度均为150,输出维度均为150维;路径编码器中全连接层fp,f′p
Figure FDA0003298478430000176
Figure FDA0003298478430000177
的输入维度分别为300,300,100,100,输出维度分别为100,100,1,1;预测器中全连接层f1,f2,f3,f4的输入维度分别为300,300,600,300,输出维度分别为300,300,300,1。
9.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.4步所述设置
Figure FDA0003298478430000178
的训练参数的方法是:设置学习率learningRate=0.001,一阶矩估计的指数衰减率β1=0.9,二阶矩估计的指数衰减率β2=0.999,防止除以零的最小值参数∈=1e-8,批数据尺寸batchsize=16。
10.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.2步所述关系编码器提取路径的正向路径的关系表示和反向路径的关系表示的方法是:
3.6.2.2.2.2.1将
Figure FDA0003298478430000179
作为关系编码器中LSTMr的一次输入,并使用LSTMr输出的最后的隐状态,记为
Figure FDA00032984784300001710
Figure FDA00032984784300001711
维度为CN×M×50,即CN条正向路径的关系序列的嵌入,其中每条正向路径的关系序列的嵌入维度为M×50;
Figure FDA00032984784300001712
维度为CN×150,作为这CN条正向路径的关系表示,每条正向路径的关系表示为150维;
3.6.2.2.2.2.2将
Figure FDA00032984784300001713
作为关系编码器中LSTMr的一次输入,并使用LSTMr输出的最后的隐状态,记为
Figure FDA0003298478430000181
Figure FDA0003298478430000182
的维度为CN×M×50,即CN条反向路径的关系序列的嵌入,其中每条反向路径的关系序列的嵌入维度为M×50;
Figure FDA0003298478430000183
的维度为CN×150),作为这CN条反向路径的关系表示,每条反向路径的关系表示为150维;
3.6.2.2.2.2.3将该批次数据的所有正向路径的关系表示
Figure FDA0003298478430000184
和所有反向路径的关系表示
Figure FDA0003298478430000185
输出给实体编码器和路径编码器。
11.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.3步所述实体编码器计算所有正向路径的实体表示和所有反向路径的实体表示的方法是:
3.6.2.2.2.3.1实体序列编码网络对正向路径的实体属性序列嵌入
Figure FDA0003298478430000186
和正向路径的实体类型序列嵌入
Figure FDA0003298478430000187
进行编码,使用LSTMA和LSTML分别进行编码,捕获正向路径上实体序列的属性表示和类型表示,得到所有正向路径的实体表示
Figure FDA0003298478430000188
3.6.2.2.2.3.2实体序列编码网络对反向路径的实体属性序列嵌入
Figure FDA0003298478430000189
和反向路径的实体类型序列嵌入
Figure FDA00032984784300001810
进行编码,使用LSTMA和LSTML分别进行编码,捕获反向路径上实体序列的属性表示和类型表示,得到所有反向路径的实体表示
Figure FDA00032984784300001811
12.如权利要求11所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.3.1步所述实体序列编码网络使用LSTMA和LSTML分别进行编码,捕获正向路径上实体序列的属性表示和类型表示的方法是:
3.6.2.2.2.3.1.1使用正向路径的关系表示
Figure FDA00032984784300001812
对LSTMA和LSTML进行初始化:
3.6.2.2.2.3.1.1.1将
Figure FDA00032984784300001813
输入到全连接层
Figure FDA00032984784300001814
得到LSTMA的第一隐藏状态
Figure FDA00032984784300001815
Figure FDA00032984784300001816
输入到全连接层
Figure FDA00032984784300001817
得到LSTMA的第一细胞状态
Figure FDA00032984784300001818
3.6.2.2.2.3.1.1.2将
Figure FDA00032984784300001819
输入到全连接层
Figure FDA00032984784300001820
得到LSTML的第一隐藏状态
Figure FDA00032984784300001821
Figure FDA00032984784300001822
输入到全连接层
Figure FDA00032984784300001823
得到LSTML的第一细胞状态
Figure FDA00032984784300001824
3.6.2.2.2.3.1.2令t=1;
3.6.2.2.2.3.1.3如果1≤t≤M+1,则将t、
Figure FDA00032984784300001825
Figure FDA00032984784300001826
传给实体画像注意力网络,转第3.6.2.2.2.3.1.4步;否则说明数据中所有正向路径上实体的属性信息和类型信息已经聚合,转3.6.2.2.2.3.1.8;
3.6.2.2.2.3.1.4实体画像注意力网络的实体属性注意力网络和实体类型注意力网络对批次数据的所有正向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合,得到聚合后的批数据所有正向路径第t步实体的属性表示
Figure FDA0003298478430000191
和聚合后的批数据所有正向路径第t步实体的类型表示
Figure FDA0003298478430000192
转3.6.2.2.2.3.1.5;
3.6.2.2.2.3.1.5将
Figure FDA0003298478430000193
作为LSTMA第t步的输入,得到LSTMA第t步的输出
Figure FDA0003298478430000194
维度为(C*N)×150;
3.6.2.2.2.3.1.6将
Figure FDA0003298478430000195
作为LSTML第t步的输入,得到LSTML第t步的输出
Figure FDA0003298478430000196
维度为(C*N)×150;
3.6.2.2.2.3.1.7令t=t+1,转3.6.2.2.2.3.1.3;
3.6.2.2.2.3.1.8将
Figure FDA0003298478430000197
Figure FDA0003298478430000198
相加,即分别为t=M+1时LSTMA和LSTML的输出,得到批数据中所有正向路径的实体表示
Figure FDA0003298478430000199
维度为(C*N)×150。
13.如权利要求12所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.3.1.4步所述实体画像注意力网络的实体属性注意力网络和实体类型注意力网络对批次数据的所有正向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合的方法是:
3.6.2.2.2.3.1.4.1从
Figure FDA00032984784300001910
中取出批数据中所有正向路径的第t步实体的属性嵌入,记为
Figure FDA00032984784300001911
Figure FDA00032984784300001912
的维度为(C*N)×(M+1)×|At|×50;
Figure FDA00032984784300001913
的维度为(C*N)×|At|×50;
3.6.2.2.2.3.1.4.2将
Figure FDA00032984784300001914
Figure FDA00032984784300001915
级联,将级联后的
Figure FDA00032984784300001916
Figure FDA00032984784300001917
经过全连接层
Figure FDA00032984784300001918
得到指导第t步属性注意力的引导变量
Figure FDA00032984784300001919
3.6.2.2.2.3.1.4.3实体属性注意力网络将批数据中所有正向路径的第t步实体的属性嵌入
Figure FDA00032984784300001920
进行聚合,得到聚合后的批数据所有正向路径第t步实体的属性表示
Figure FDA00032984784300001921
3.6.2.2.2.3.1.4.4从
Figure FDA00032984784300001922
中取出批数据中所有正向路径的第t步实体的类型嵌入,记为
Figure FDA00032984784300001923
Figure FDA00032984784300001924
的维度为(C*N)×(M+1)×|Lt|×50,
Figure FDA00032984784300001925
的维度为(C*N)×|Lt|×50;
3.6.2.2.2.3.1.4.5将
Figure FDA00032984784300001926
Figure FDA00032984784300001927
级联,将级联后的
Figure FDA00032984784300001928
Figure FDA00032984784300001929
经过全连接层
Figure FDA00032984784300001930
得到指导第t步类型注意力的引导变量
Figure FDA00032984784300001931
3.6.2.2.2.3.1.4.6实体类型注意力网络将批数据中所有正向路径的第t步实体的类型嵌入
Figure FDA00032984784300001932
进行聚合,得到聚合后的批数据所有正向路径第t步实体的类型表示
Figure FDA00032984784300001933
14.如权利要求13所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.3.1.4.3步所述实体属性注意力网络将批数据中所有正向路径的第t步实体的属性嵌入
Figure FDA0003298478430000201
进行聚合的方法是:
3.6.2.2.2.3.1.4.3.1令vt=1;
3.6.2.2.2.3.1.4.3.2若vt≤|At|,转3.6.2.2.2.3.1.4.3.3获取数据中所有正向路径上第t步实体的第vt个属性的权重,否则说明数据中所有正向路径上第t步实体的每个属性的权重均已经获取,转3.6.2.2.2.3.1.4.3.6;
3.6.2.2.2.3.1.4.3.3将
Figure FDA0003298478430000202
中批数据所有正向路径的第t个实体的第vt个属性的嵌入记为
Figure FDA0003298478430000203
Figure FDA0003298478430000204
输入到全连接层
Figure FDA0003298478430000205
得到变换后的属性嵌入
Figure FDA0003298478430000206
Figure FDA0003298478430000207
输入到全连接层
Figure FDA0003298478430000208
得到属性引导第二变量
Figure FDA0003298478430000209
Figure FDA00032984784300002010
的维度为(C*N)×50;
3.6.2.2.2.3.1.4.3.4将
Figure FDA00032984784300002011
Figure FDA00032984784300002012
相加,将相加后的
Figure FDA00032984784300002013
Figure FDA00032984784300002014
经过ReLU函数激活后输入到全连接层
Figure FDA00032984784300002015
得到批数据所有正向路径中第t步实体的第vt个属性的权重
Figure FDA00032984784300002016
3.6.2.2.2.3.1.4.3.5令vt=vt+1,转3.6.2.2.2.3.1.4.3.2;
3.6.2.2.2.3.1.4.3.6将权重
Figure FDA00032984784300002017
进行归一化,得到归一化后批数据所有正向路径第t步实体的所有属性的权重集合
Figure FDA00032984784300002018
3.6.2.2.2.3.1.4.3.7使用
Figure FDA00032984784300002019
聚合批数据所有正向路径第t步实体的所有属性的表示,得到聚合后的批数据所有正向路径第t步实体的属性表示
Figure FDA00032984784300002020
Figure FDA00032984784300002021
Figure FDA00032984784300002022
即将
Figure FDA00032984784300002023
聚合后得到
Figure FDA00032984784300002024
Figure FDA00032984784300002025
的维度为(C*N)×|At|×50,
Figure FDA00032984784300002026
的维度为(C*N)×50。
15.如权利要求13所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.3.1.4.6步所述实体类型注意力网络将批数据中所有正向路径的第t步实体的类型嵌入
Figure FDA00032984784300002027
进行聚合的方法为:
3.6.2.2.2.3.1.4.6.1令ot=1;
3.6.2.2.2.3.1.4.6.2若ot≤|Lt|,转3.6.2.2.2.3.1.4.6.3获取数据中所有正向路径上第t步实体的第ot个类型的权重,否则说明数据中所有正向路径上第t步实体的每个类型的权重均已经获取,转3.6.2.2.2.3.1.4.6.6;
3.6.2.2.2.3.1.4.6.3将
Figure FDA0003298478430000211
中批数据所有正向路径的第t个实体的第ot个类型的嵌入记为
Figure FDA0003298478430000212
Figure FDA0003298478430000213
输入到全连接层
Figure FDA0003298478430000214
得到变换后的类型嵌入
Figure FDA0003298478430000215
Figure FDA0003298478430000216
输入到全连接层
Figure FDA0003298478430000217
得到类型引导第二变量
Figure FDA0003298478430000218
Figure FDA0003298478430000219
的维度为(C*N)×50;
3.6.2.2.2.3.1.4.6.4将
Figure FDA00032984784300002110
Figure FDA00032984784300002111
相加,将相加后的
Figure FDA00032984784300002112
Figure FDA00032984784300002113
经过ReLU激活后输入全连接层
Figure FDA00032984784300002114
得到批数据所有正向路径中第t步实体第ot个类型的权重
Figure FDA00032984784300002115
3.6.2.2.2.3.1.4.6.5令ot=ot+1,转3.6.2.2.2.3.1.4.6.2;
3.6.2.2.2.3.1.4.6.6将权重
Figure FDA00032984784300002116
进行归一化,得到归一化后批数据中所有正向路径第t步实体的所有类型的权重集合
Figure FDA00032984784300002117
3.6.2.2.2.3.1.4.6.7使用
Figure FDA00032984784300002118
聚合批数据所有正向路径第t步实体的所有类型的表示,得到聚合后的批数据所有正向路径第t步实体的类型表示
Figure FDA00032984784300002119
Figure FDA00032984784300002120
Figure FDA00032984784300002121
Figure FDA00032984784300002122
聚合后得到
Figure FDA00032984784300002123
Figure FDA00032984784300002124
的维度为(C*N)×|Lt|×50,
Figure FDA00032984784300002125
的维度为(C*N)×50。
16.如权利要求11所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.3.2步所述实体序列编码网络对反向路径的实体属性序列嵌入
Figure FDA00032984784300002126
和反向路径的实体类型序列嵌入
Figure FDA00032984784300002127
进行编码,分别使用LSTMA和LSTML来捕获反向路径上实体序列的属性表示和类型表示的方法是:
3.6.2.2.2.3.2.1使用反向路径的关系表示
Figure FDA00032984784300002128
对LSTMA和LSTML进行初始化:
3.6.2.2.2.3.2.1.1将
Figure FDA00032984784300002129
输入到全连接层
Figure FDA00032984784300002130
得到LSTMA的第二隐藏状态
Figure FDA00032984784300002131
Figure FDA00032984784300002132
输入到全连接层
Figure FDA00032984784300002133
得到LSTMA的第二细胞状态
Figure FDA00032984784300002134
3.6.2.2.2.3.2.1.2将
Figure FDA00032984784300002135
输入到全连接层
Figure FDA00032984784300002136
得到LSTML的第二隐藏状态
Figure FDA00032984784300002137
Figure FDA00032984784300002138
输入到全连接层
Figure FDA00032984784300002139
得到LSTML的第二细胞状态
Figure FDA00032984784300002140
3.6.2.2.2.3.2.2令t=1;
3.6.2.2.2.3.2.3如果1≤t≤M+1,将t、
Figure FDA00032984784300002141
Figure FDA00032984784300002142
传给实体画像注意力网络,转第3.6.2.2.2.3.2.4步;否则说明数据中所有反向路径上实体的属性信息和类型信息已经聚合,转3.6.2.2.2.3.2.8;
3.6.2.2.2.3.2.4实体画像注意力网络对批次数据的所有反向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合,得到聚合后的批数据所有反向路径第t步实体的属性表示
Figure FDA0003298478430000221
和聚合后的批数据所有反向路径第t步实体的类型表示
Figure FDA0003298478430000222
3.6.2.2.2.3.2.5将
Figure FDA0003298478430000223
作为LSTMA第t步的输入,得到LSTMA第t步的输出
Figure FDA0003298478430000224
维度为(C*N)×150;
3.6.2.2.2.3.2.6将
Figure FDA0003298478430000225
作为LSTML第t步的输入,得到LSTML第t步的输出
Figure FDA0003298478430000226
维度为(C*N)×150;
3.6.2.2.2.3.2.7令t=t+1,转3.6.2.2.2.3.2.3;
3.6.2.2.2.3.2.8将
Figure FDA0003298478430000227
Figure FDA0003298478430000228
相加,得到批数据中所有反向路径的实体表示
Figure FDA0003298478430000229
维度为(C*N)×150,转3.6.2.2.2.3.2.9;
3.6.2.2.2.3.2.9将3.6.2.2.2.3.1.8中批数据所有正向路径的实体表示
Figure FDA00032984784300002210
和3.6.2.2.2.3.2.8中批数据所有反向路径的实体表示的
Figure FDA00032984784300002211
传给路径编码器。
17.如权利要求16所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.3.2.4步所述实体画像注意力网络对批次数据的所有反向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合的方法是:
3.6.2.2.2.3.2.4.1从
Figure FDA00032984784300002212
中取出批数据中所有反向路径的第t步实体的属性嵌入,记为
Figure FDA00032984784300002213
Figure FDA00032984784300002214
的维度为(C*N)×(M+1)×|At|×50,
Figure FDA00032984784300002215
的维度为(C*N)×|At|×50;
3.6.2.2.2.3.2.4.2将
Figure FDA00032984784300002216
Figure FDA00032984784300002217
级联,将级联后的
Figure FDA00032984784300002218
Figure FDA00032984784300002219
经过全连接层
Figure FDA00032984784300002220
得到指导第t步属性注意力的引导变量
Figure FDA00032984784300002221
3.6.2.2.2.3.2.4.3实体属性注意力网络将批数据中所有反向路径的第t步实体的属性嵌入
Figure FDA00032984784300002222
进行聚合,得到聚合后的批数据所有反向路径第t步实体的属性表示
Figure FDA00032984784300002223
转3.6.2.2.2.3.2.4.4;
3.6.2.2.2.3.2.4.4从
Figure FDA00032984784300002224
中取出批数据中所有反向路径的第t步实体的类型嵌入,记为
Figure FDA00032984784300002225
Figure FDA00032984784300002226
的维度为(C*N)×(M+1)×|Lt|×50,
Figure FDA00032984784300002227
的维度为(C*N)×|Lt|×50;
3.6.2.2.2.3.2.4.5将
Figure FDA00032984784300002228
Figure FDA00032984784300002229
级联,将级联后的
Figure FDA00032984784300002230
Figure FDA00032984784300002231
经过全连接层
Figure FDA00032984784300002232
得到指导第t步类型注意力的引导向量
Figure FDA00032984784300002233
3.6.2.2.2.3.2.4.6实体类型注意力网络将批数据中所有反向路径的第t步实体的类型嵌入
Figure FDA0003298478430000231
进行聚合,得到聚合后的批数据所有反向路径第t步实体的类型表示
Figure FDA0003298478430000232
18.如权利要求17所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.3.2.4.3步实体属性注意力网络将批数据中所有反向路径的第t步实体的属性嵌入
Figure FDA0003298478430000233
进行聚合的方法是:
3.6.2.2.2.3.2.4.3.1令vt=1;
3.6.2.2.2.3.2.4.3.2若vt≤|At|,转3.6.2.2.2.3.2.4.3.3获取数据中所有反向路径上第t步实体的第vt个属性的权重,否则说明数据中所有反向路径上第t步实体的每个属性的权重均已经获取,转3.6.2.2.2.3.2.4.3.6;
3.6.2.2.2.3.2.4.3.3将
Figure FDA0003298478430000234
中批数据所有反向路径的第t个实体的第vt个属性的嵌入记为
Figure FDA0003298478430000235
Figure FDA0003298478430000236
输入到全连接层
Figure FDA0003298478430000237
得到变换后的属性嵌入
Figure FDA0003298478430000238
Figure FDA0003298478430000239
输入到全连接层
Figure FDA00032984784300002310
得到属性引导第二变量
Figure FDA00032984784300002311
Figure FDA00032984784300002312
的维度为(C*N)×50;
3.6.2.2.2.3.2.4.3.4将
Figure FDA00032984784300002313
Figure FDA00032984784300002314
相加,将相加后的
Figure FDA00032984784300002315
Figure FDA00032984784300002316
经过ReLU激活后输入全连接层
Figure FDA00032984784300002317
得到批数据所有反向路径中第t步实体第vt个属性的权重
Figure FDA00032984784300002318
3.6.2.2.2.3.2.4.3.5令vt=vt+1,转3.6.2.2.2.3.2.4.3.2;
3.6.2.2.2.3.2.4.3.6将权重
Figure FDA00032984784300002319
进行归一化,得到归一化后批数据所有反向路径第t步实体的所有属性的权重集合
Figure FDA00032984784300002320
3.6.2.2.2.3.2.4.3.7使用
Figure FDA00032984784300002321
聚合批数据所有反向路径第t步实体的所有属性的表示,得到聚合后的批数据所有反向路径第t步实体的属性表示
Figure FDA00032984784300002322
Figure FDA00032984784300002323
Figure FDA00032984784300002324
即将
Figure FDA00032984784300002325
聚合后得到
Figure FDA00032984784300002326
Figure FDA00032984784300002327
的维度为(C*N)×50。
19.如权利要求17所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.3.2.4.6步实体类型注意力网络将批数据中所有反向路径的第t步实体的类型嵌入
Figure FDA00032984784300002328
进行聚合的方法是:
3.6.2.2.2.3.2.4.6.1令ot=1;
3.6.2.2.2.3.2.4.6.2若ot≤|Lt|,转3.6.2.2.2.3.2.4.6.3获取数据中所有反向路径上第t步实体的第ot个类型的权重,否则说明数据中所有反向路径上第t步实体的每个类型的权重均已经获取,转3.6.2.2.2.3.2.4.6.6;
3.6.2.2.2.3.2.4.6.3将
Figure FDA0003298478430000241
中批数据中所有反向路径的第t个实体的第ot个类型的嵌入记为
Figure FDA0003298478430000242
Figure FDA0003298478430000243
输入到全连接层
Figure FDA0003298478430000244
得到变换后的类型嵌入
Figure FDA0003298478430000245
Figure FDA0003298478430000246
输入到全连接层
Figure FDA0003298478430000247
得到类型引导第二变量
Figure FDA0003298478430000248
Figure FDA0003298478430000249
的维度为(C*N)×50;
3.6.2.2.2.3.2.4.6.4将各
Figure FDA00032984784300002410
Figure FDA00032984784300002411
相加,将相加后的
Figure FDA00032984784300002412
Figure FDA00032984784300002413
经过ReLU激活后输入全连接层
Figure FDA00032984784300002414
得到批数据所有反向路径中第t步实体第ot个类型的权重
Figure FDA00032984784300002415
3.6.2.2.2.3.2.4.6.5令ot=ot+1,转3.6.2.2.2.3.2.4.6.2;
3.6.2.2.2.3.2.4.6.6将权重
Figure FDA00032984784300002416
进行归一化,得到归一化后批数据中所有反向路径第t步实体的所有类型的权重集合
Figure FDA00032984784300002417
3.6.2.2.2.3.2.4.6.7使用
Figure FDA00032984784300002418
聚合批数据所有反向路径第t步实体的所有类型的表示,得到聚合后的批数据所有反向路径第t步实体的类型表示
Figure FDA00032984784300002419
Figure FDA00032984784300002420
Figure FDA00032984784300002421
Figure FDA00032984784300002422
聚合后得到
Figure FDA00032984784300002423
Figure FDA00032984784300002424
的维度为(C*N)×|Lt|×50,
Figure FDA00032984784300002425
的维度为(C*N)×50。
20.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.4步所述路径编码器使用正向路径注意力网络和反向路径注意力网络计算批数据中所有样本的正向路径的表示和反向路径的表示的方法为:
3.6.2.2.2.4.1将批数据的所有正向路径的关系表示
Figure FDA00032984784300002426
和所有正向路径的实体表示
Figure FDA00032984784300002427
级联,得到批数据的所有正向路径的路径表示,记为
Figure FDA00032984784300002428
维度为(C*N)×300,批数据里每条路径的维度为300;
3.6.2.2.2.4.2将批数据的所有反向路径的关系表示
Figure FDA00032984784300002429
和所有反向路径的实体表示
Figure FDA00032984784300002430
级联,得到批数据的所有反向路径的路径表示,记为
Figure FDA00032984784300002431
维度为(C*N)×300,批数据里每条路径的维度为300;
3.6.2.2.2.4.3使用正向路径注意力网络聚合
Figure FDA00032984784300002432
中所有样本的N条正向路径的表示,得到该批数据所有样本的正向路径表示
Figure FDA00032984784300002433
3.6.2.2.2.4.4使用反向路径注意力网络聚合
Figure FDA00032984784300002434
中所有样本的N条反向路径的表示,得到该批数据所有样本的反向路径表示
Figure FDA0003298478430000251
21.如权利要求20所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.4.3步使用正向路径注意力网络聚合
Figure FDA0003298478430000252
中所有样本的N条正向路径的表示的方法为:
3.6.2.2.2.4.3.1令n=1;
3.6.2.2.2.4.3.2若n≤N,转3.6.2.2.2.4.3.3,否则说明数据中所有样本的每条正向路径的权重均已经获取,转3.6.2.2.2.4.3.5;
3.6.2.2.2.4.3.3将
Figure FDA0003298478430000253
中所有样本的第n条路径的表示记为
Figure FDA0003298478430000254
Figure FDA0003298478430000255
经过fp
Figure FDA0003298478430000256
两层全连接层后得到的值作为第n条正向路径的权重
Figure FDA0003298478430000257
Figure FDA0003298478430000258
的维度为C×300;
3.6.2.2.2.4.3.4令n=n+1,转3.6.2.2.2.4.3.2;
3.6.2.2.2.4.3.5将批数据中所有样本的所有正向路径的权重
Figure FDA0003298478430000259
进行归一化,得到归一化后批数据中所有样本的所有正向路径的权重
Figure FDA00032984784300002510
3.6.2.2.2.4.3.6使用
Figure FDA00032984784300002511
聚合批数据中样本的正向路径的表示,得到该批数据所有样本的正向路径表示
Figure FDA00032984784300002512
Figure FDA00032984784300002513
Figure FDA00032984784300002514
聚合后得到
Figure FDA00032984784300002515
Figure FDA00032984784300002516
的维度为(C*N)×300,
Figure FDA00032984784300002517
的维度为C×300。
22.如权利要求20所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.4.4步所述使用反向路径注意力网络聚合
Figure FDA00032984784300002518
中所有样本的N条反向路径的表示的方法是:
3.6.2.2.2.4.4.1令n=1;
3.6.2.2.2.4.4.2若n≤N,转3.6.2.2.2.4.4.3,否则说明数据中所有样本的每条反向路径的权重均已经获取,转3.6.2.2.2.4.4.5;
3.6.2.2.2.4.4.3将
Figure FDA00032984784300002519
中所有样本的第n条路径的表示记为
Figure FDA00032984784300002520
(维度为C×300);将
Figure FDA00032984784300002521
经过f′p
Figure FDA00032984784300002522
两层全连接层后得到的值作为第n条反向路径的权重
Figure FDA00032984784300002523
Figure FDA00032984784300002524
的维度为C×300;
3.6.2.2.2.4.4.4令n=n+1,转3.6.2.2.2.4.4.2;
3.6.2.2.2.4.4.5将批数据中所有样本的所有反向路径的权重
Figure FDA0003298478430000261
进行归一化,得到归一化后批数据中所有样本的所有反向路径的权重
Figure FDA0003298478430000262
3.6.2.2.2.4.4.6使用
Figure FDA0003298478430000263
聚合批数据中样本的反向路径的表示,得到该批数据所有样本的反向路径表示
Figure FDA0003298478430000264
Figure FDA0003298478430000265
Figure FDA0003298478430000266
聚合后得到
Figure FDA0003298478430000267
转3.6.2.2.2.4.5;
Figure FDA0003298478430000268
的维度为(C*N)×300,
Figure FDA0003298478430000269
的维度为C×300。
CN202111184099.1A 2021-10-11 2021-10-11 一种基于实体属性的知识图谱事实补全方法 Pending CN113806561A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111184099.1A CN113806561A (zh) 2021-10-11 2021-10-11 一种基于实体属性的知识图谱事实补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111184099.1A CN113806561A (zh) 2021-10-11 2021-10-11 一种基于实体属性的知识图谱事实补全方法

Publications (1)

Publication Number Publication Date
CN113806561A true CN113806561A (zh) 2021-12-17

Family

ID=78939289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111184099.1A Pending CN113806561A (zh) 2021-10-11 2021-10-11 一种基于实体属性的知识图谱事实补全方法

Country Status (1)

Country Link
CN (1) CN113806561A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490884A (zh) * 2021-12-21 2022-05-13 北京三快在线科技有限公司 确定实体关联关系的方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840282A (zh) * 2019-03-01 2019-06-04 东北大学 一种基于模糊理论的知识图谱优化方法
CN110147450A (zh) * 2019-05-06 2019-08-20 北京科技大学 一种知识图谱的知识补全方法及装置
US20200320086A1 (en) * 2018-01-08 2020-10-08 Alibaba Group Holding Limited Method and system for content recommendation
CN112699247A (zh) * 2020-12-23 2021-04-23 清华大学 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN112750082A (zh) * 2021-01-21 2021-05-04 武汉工程大学 基于融合注意力机制的人脸超分辨率方法及系统
CN113360670A (zh) * 2021-06-09 2021-09-07 山东大学 一种基于事实上下文的知识图谱补全方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200320086A1 (en) * 2018-01-08 2020-10-08 Alibaba Group Holding Limited Method and system for content recommendation
CN109840282A (zh) * 2019-03-01 2019-06-04 东北大学 一种基于模糊理论的知识图谱优化方法
CN110147450A (zh) * 2019-05-06 2019-08-20 北京科技大学 一种知识图谱的知识补全方法及装置
CN112699247A (zh) * 2020-12-23 2021-04-23 清华大学 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN112750082A (zh) * 2021-01-21 2021-05-04 武汉工程大学 基于融合注意力机制的人脸超分辨率方法及系统
CN113360670A (zh) * 2021-06-09 2021-09-07 山东大学 一种基于事实上下文的知识图谱补全方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHEN HUANG等: "A Distributed Computing Framework Based on", 《2020 IEEE INTERNATIONAL CONFERENCE ON JOINT CLOUD COMPUTING (》 *
黄震: "大规模分布式存储系统中数据冗余技术研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490884A (zh) * 2021-12-21 2022-05-13 北京三快在线科技有限公司 确定实体关联关系的方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112784092B (zh) 一种混合融合模型的跨模态图像文本检索方法
CN109299342B (zh) 一种基于循环生成式对抗网络的跨模态检索方法
CN109639739B (zh) 一种基于自动编码器网络的异常流量检测方法
CN110059206A (zh) 一种基于深度表征学习的大规模哈希图像检索方法
CN111368920A (zh) 基于量子孪生神经网络的二分类方法及其人脸识别方法
CN114019370B (zh) 基于灰度图像和轻量级cnn-svm模型的电机故障检测方法
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN109933682B (zh) 一种基于语义与内容信息结合的图像哈希检索方法及系统
CN112784031B (zh) 一种基于小样本学习的客服对话文本的分类方法和系统
CN109376797B (zh) 一种基于二进制编码器和多哈希表的网络流量分类方法
CN113328755A (zh) 一种面向边缘计算的压缩数据传输方法
CN115909002A (zh) 一种基于对比学习的图像翻译方法
CN114926742A (zh) 一种基于二阶注意力机制的回环检测及优化方法
CN113806561A (zh) 一种基于实体属性的知识图谱事实补全方法
CN114723003A (zh) 一种基于时序卷积和关系建模的事件序列预测方法
Slijepcevic et al. Radio galaxy zoo: towards building the first multipurpose foundation model for radio astronomy with self-supervised learning
CN114821218A (zh) 基于改进的通道注意力机制的目标检测模型搜索方法
CN117009613A (zh) 一种图数据分类方法、系统、装置及介质
CN113852605B (zh) 一种基于关系推理的协议格式自动化推断方法及系统
CN112735604B (zh) 一种基于深度学习算法的新型冠状病毒分类方法
CN114553790A (zh) 一种基于多模态特征的小样本学习物联网流量分类方法及系统
CN114358177A (zh) 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统
CN114120041B (zh) 一种基于双对抗变分自编码器的小样本分类方法
CN113098867B (zh) 基于人工智能的网络安全大数据处理方法及大数据云系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211217