CN113806561A - 一种基于实体属性的知识图谱事实补全方法 - Google Patents
一种基于实体属性的知识图谱事实补全方法 Download PDFInfo
- Publication number
- CN113806561A CN113806561A CN202111184099.1A CN202111184099A CN113806561A CN 113806561 A CN113806561 A CN 113806561A CN 202111184099 A CN202111184099 A CN 202111184099A CN 113806561 A CN113806561 A CN 113806561A
- Authority
- CN
- China
- Prior art keywords
- entity
- data
- samples
- path
- paths
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于实体属性的知识图谱事实补全方法,目的是提高知识图谱事实预测的平均精度均值,补全更可靠的事实。技术方案是:构建由数据预处理模块、事实预测网络、事实补全模块构成的基于路径的知识图谱事实补全系统。根据用户需要进行补全的知识图谱,数据预处理模块准备训练数据、验证数据和补全数据。事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五部分构成,使用训练数据和验证数据对网络进行训练和验证;训练好的事实预测网络对补全数据进行预测得到预测结果,事实补全模块根据预测结果将知识图谱补全。采用本发明可提升事实预测网络预测的平均精度均值,使得补全到知识图谱中的事实可信度更高。
Description
技术领域
本发明涉及知识图谱补全领域,具体涉及一种基于实体属性的对知识图谱进行事实补全的方法。
背景技术
知识图谱是结构化的语义知识库,能够记录世界中的实体及其之间的关系,为海量数据的存储提供了一种较好的组织和管理手段,比如DBpedia、YAGO、Freebase、NELL等著名的开源知识图谱。知识图谱是人工智能领域的重要研究内容之一,目前已经在搜索引擎、智能对话、用户推荐等众多领域得到了广泛的实际应用,渗透到了金融、医疗、教育等众多行业。
知识图谱中存储的一个事实通常可以表示为一个三元组的形式,即(头实体,关系,尾实体),其中头实体和尾实体分别对应知识图谱中的两个节点,关系对应连接这两个节点的边。但是由于知识图谱存储的事实通常是从互联网上海量、异构、动态的数据资源中自动挖掘出来的,而这些数据无法包含所有事实,因此构建的知识图谱通常是不完整的。知识图谱中缺失的事实给实际应用带来了很多挑战,比如由于事实的不完整加大了推理的难度,降低了应用的覆盖性和准确性,导致给用户的推荐不精准、智能搜索的答案不全面等问题。因此,兴起了知识图谱补全任务,即基于现有知识图谱中的事实补全缺失事实。根据知识图谱中的元素可以将知识图谱补全分为事实预测(factprediction)、关系预测(relationprediction)、链接预测(linkprediction)三个子任务。事实预测,即为给定头实体、关系和尾实体,预测(头实体,关系,尾实体)是否成立;关系预测,即为给定头实体和尾实体,预测他们之间存在的关系;链接预测,即为给定关系和一个头实体(尾实体),预测该实体通过该关系链接的尾实体(头实体)。使用这三种子任务中的任一种都可以对知识图谱中缺失的事实进行补全。
进行知识图谱事实预测的方法中,基于路径的方法一般抽取三元组(头实体,关系,尾实体)中头实体和尾实体之间的路径并提取路径特征(路径表示),然后通过建立路径特征与关系的联系,判断头实体和尾实体之间是否存在该关系,如果存在则将该三元组看作缺失的事实并补全。该方法具有较强的可解释性,并且对路径信息的学习可以同时考虑实体和关系,并能建模他们之间存在的显式及隐式的模式。
在基于路径的知识图谱补全方法中,如何利用实体间路径的信息进行预测是一个重要研究点。现有的方法着重研究如何使用路径上实体和关系的信息获取路径的特征,以此提高路径表示的准确性,从而提升根据路径信息判断实体间关系的平均精度均值(MeanAveragePrecision)。
由于知识库中实体数量较大,因此直接使用实体本身会导致模型学习的路径表示较为稀疏,这能够拉大不同路径的差异性,易于区分不同的路径(判别性好)。但是这会导致模型难以提取相似路径之间的共同特征,因此很难将从一些路径中学到的知识用于指导相似路径进行相似的推理(泛化性差),导致预测的平均精度均值低。为了在保持模型判别能力的同时提高泛化能力,以提升模型预测的平均精度均值,现有的方法致力于使用实体的类型信息代替实体本身去学习路径的表示。这是因为不同的实体一般具有不同的类型信息,且实体的类型信息可以表示实体在路径中所表示的语义,因此实体的类型兼具判别性和泛化性,从而可以提升模型预测的平均精确度。
然而,如何提升模型预测的平均精度均值,补全更可信的知识还存在很多挑战。第一,并不是知识图谱中的所有实体都能获得对应的实体类型,而且获得的实体类型也许只能部分地刻画实体信息,导致实体的信息表达不够全面,提取的路径特征不够准确,影响预测的平均精度均值。第二,实体与不同关系相连时一般会表达不同的语义(对应不同的类型),实体的不同类型具有不同的抽象层次,因此如何准确选择路径中能够代表实体所表达语义并且具有合适的抽象层次的实体类型是一个难点。选择代表实体所表达语义的类型才会使得提取的路径特征准确,选择抽象层次合适的类型才会使得路径的特征兼具判别性和泛化性(选择语义更抽象的类型,则模型的泛化性更好;选择语义更具体的类型,则模型的判别性更好),从而才能提升模型根据提取的路径特征预测实体间关系的精确度。
发明内容
本发明要解决的技术问题是:针对路径中实体语义信息不全面以及实体语义信息选择难度大,导致路径特征提取不够准确的问题,提出一种基于实体属性的知识图谱事实补全方法。该方法将知识图谱中与实体相连的关系作为该实体除了实体类型之外的另一种语义信息:实体属性,并同时捕获正反向路径序列上实体表达的语义所对应的属性信息和类型信息作为实体的语义信息,从而更全面更准确的提取路径的特征,提高知识图谱事实预测的平均精度均值,补全更可靠的事实。
为解决上述技术问题,本发明的技术方案是:构建由数据预处理模块、事实预测网络、事实补全模块构成的基于路径的知识图谱事实补全系统。根据用户需要进行补全的知识图谱(包含实体集合、关系集合、以及事实集合),数据预处理模块准备训练数据(训练样本的数据集合和训练样本的标签集合)、验证数据(验证样本的数据集合和验证样本的标签集合)、以及补全数据(补全样本的数据集合),输出给事实预测网络。事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五部分构成。事实预测网络使用数据预处理模块输出的训练数据采用Adam方法进行训练,得到网络权重参数,事实预测网络使用数据预处理模块输出的验证数据进行验证,保存最优的网络权重参数。训练好的事实预测网络对数据预处理模块输出的补全数据进行预测,得到补全样本的预测概率集合,事实补全模块根据预测概率集合判断是否需要将补全样本补全到知识图谱中。
本发明主要包括以下步骤:
第一步:构建基于路径的知识图谱事实补全系统。该系统由数据预处理模块、事实预测网络、事实补全模块构成。
数据预处理模块与事实预测网络相连,接收用户输入的知识图谱,对用户输入的知识图谱进行预处理,得到训练事实预测网络所需的训练数据(包括训练样本的数据集合和训练样本的标签集合)、验证事实预测网络所需的验证数据(包括验证样本的数据集合和验证样本的标签集合)、以及事实补全模块所需的要判断是否为缺失事实的补全数据(包括补全样本的数据集合),输出给事实预测网络,并将补全样本的数据集合输出给事实补全模块。数据预处理模块由路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths构成,其中fExtractPath从知识图谱中抽取每个样本的实体之间的路径信息,fPreprocessPaths将每个样本的实体间路径信息处理为事实预测网络需要的数据结构。将知识图谱中的实体集合、关系集合、事实集合分别记为E={ei},R={rj}和将实体的属性集合记为A={av},将实体的类型集合记为L={lo},其中1≤i≤|E|,1≤i1≤|E|,1≤i2≤|E|,1≤j≤|R|,1≤v≤|A|,1≤o≤|L|,|E|、|R|、|A|、|L|分别表示实体的总数、关系的总数、属性的总数和类型的总数。将rj′记为rj的反关系,表示若则根据E、R、F、A、L,数据预处理模块获取训练样本集合S*、训练样本的标签集合Y*、验证样本集合S#、验证样本的标签集合Y#、以及补全样本集合U。对于样本集合(包括训练样本集合S*、验证样本集合S#、补全样本集合U)中的每个样本(包括训练样本、验证样本、补全样本),数据预处理模块先使用fExtractPath从知识图谱中抽取样本的实体对之间的正向路径集合,然后使用fPreprocessPaths处理该正向路径集合输出样本的数据集合,构成训练样本的数据集合、验证样本的数据集合、补全样本的数据集合。
事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五个部分组成。其中,嵌入层包含3个嵌入矩阵,分别为关系的嵌入矩阵Wr、实体属性的嵌入矩阵WA、实体类型的嵌入矩阵WL;关系编码器用于提取每条路径的关系序列特征,由一个LSTM网络构成,记为LSTMr;实体编码器用于提取每条路径的实体序列特征(包括每条路径上实体的属性信息序列的特征和类型信息序列的特征),由实体画像注意力网络和实体序列编码网络两个子网络构成,其中实体画像注意力网络由结构相同的实体属性注意力网络和实体类型注意力网络构成,实体属性注意力网络由4个全连接层构成,实体类型注意力网络由4个全连接层构成,而实体序列编码网络由两个LSTM网络(分别记为LSTMA和LSTML)及4个全连接层构成;路径编码器由结构相同的正向路径注意力网络和反向路径注意力网络构成,其中正向路径注意力网络由2个全连接层fp和构成,反向路径注意力网络由2个全连接层f′p和构成,分别用于聚合每个样本的所有正向路径的特征和所有反向路径的特征;预测器由4个全连接层f1,f2,f3和f4构成,用于预测每个样本属于事实的概率。事实预测网络从数据预处理模块得到样本数据集合(包括训练样本的数据集合、验证样本的数据集合、补全样本的数据集合),提取样本数据集合中每个样本的路径特征,然后计算出每个样本属于事实的概率,组成预测概率集合(包括训练样本的预测概率集合、验证样本的预测概率集合、补全样本的预测概率集合)。其中,(1)嵌入层接收数据预处理模块的数据,将每个关系、实体属性、实体类型、实体属性分别使用Wr、WA、WL转化为向量表示,然后将每个样本的每条路径的关系序列转化为向量表示(即每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入)输出给关系编码器,将每个样本的每条路径上实体的属性信息序列和实体的类型信息序列转化为向量表示(即每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入,和每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入)输出给实体编码器,将每个样本的查询关系和反向查询关系转化为向量表示(即每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入)也输出给实体编码器;(2)关系编码器接收嵌入层输出的每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入,对这些嵌入进行编码,得到每个样本的每条正向路径的关系表示和每条反向路径的关系表示,将每个样本的每条正向路径的关系表示和每条反向路径的关系表示输出给实体编码器和路径编码器;(3)实体编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示,还接收来自嵌入层的每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入、每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入、每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入,对这些嵌入进行编码,得到每个样本的每条正向路径的实体表示和每条反向路径的实体表示,将每个样本的每条正向路径的实体表示和每条反向路径的实体表示输出给路径编码器;(4)路径编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示,以及来自实体编码器的每个样本的每条正向路径的实体表示和每条反向路径的实体表示,对这些表示进行编码,得到每个样本的正向路径表示和反向路径表示,将每个样本的正向路径表示和反向路径表示输出给预测器;(5)预测器接收来自路径编码器的每个样本的正向路径表示和反向路径表示,对这些表示进行编码,得到每个样本的预测结果(即每个样本属于事实的概率),将每个样本的预测结果组成预测概率集合。事实预测网络根据数据预处理模块输出的训练样本的标签集合和事实预测网络预测的训练样本的预测概率集合,进行训练并更新网络参数;事实预测网络根据数据预处理模块输出的验证样本的标签集合和事实预测网络预测的验证样本的预测概率集合,进行验证并保存最优的网络参数。如果输入事实预测网络的样本数据集合是补全样本的数据集合,则事实预测网络将计算得到的补全样本的预测概率集合输出给事实补全模块。
事实补全模块与数据预处理模块和事实预测网络相连接。事实补全模块接收数据预处理模块输出的补全样本的数据集合和训练好的事实预测网络输出的补全样本的预测概率集合Z,根据每个补全样本的预测概率判断补全样本的数据集合中补全样本集合U里的每个补全样本是否是需要补全的事实,如果补全样本是需要补全的事实,则将补全样本uw(uw∈U)添加到知识图谱的事实集合中,即令Fnew=F∪uw,Fnew为补全后的知识图谱的事实集合。
第二步:数据预处理模块根据用户输入的需要补全的知识图谱(包括E、R、F)和L、DL、RQ,准备训练事实预测网络所需的训练数据(包括训练样本的数据集合和训练样本的标签集合)、验证事实预测网络所需的验证数据(包括验证样本的数据集合和验证样本的标签集合)、以及事实补全模块所需的要判断是否为缺失事实的补全数据(包括补全样本的数据集合)。
2.1数据预处理模块接收用户输入的需要补全的知识图谱(包括实体集合E、关系集合R、事实集合F)、实体的类型集合L和每个实体对应的类型信息的字典DL(字典的key为实体,value为实体对应的类型集合),以及需要补全的查询关系集合RQ={rq|rq∈R}(1≤q≤Q,Q为RQ中元素的个数)。
2.2数据预处理模块使用路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths准备训练和验证事实预测网络需要的训练样本的数据集合和训练样本的标签集合、验证样本的数据集合和验证样本的标签集合,具体地:
2.2.1令存储所有训练样本的集合存储所有训练样本的标签集合存储所有训练样本的所有正向路径的关系序列的集合存储所有训练样本的所有反向路径的关系序列的集合存储所有训练样本的所有正向路径的实体属性信息序列集合存储所有训练样本的所有正向路径的实体类型信息序列集合存储所有训练样本的所有反向路径的实体属性信息序列集合存储所有训练样本的所有反向路径的实体类型信息序列集合
2.2.2令存储所有验证样本的集合存储所有验证样本的标签集合存储所有验证样本的所有正向路径的关系序列的集合存储所有验证样本的所有反向路径的关系序列的集合存储所有验证样本的所有正向路径的实体属性信息序列集合存储所有验证样本的所有正向路径的实体类型信息序列集合存储所有验证样本的所有反向路径的实体属性信息序列集合存储所有验证样本的所有反向路径的实体类型信息序列集合
2.2.3令q=1;
2.2.4如果q≤Q,转2.2.5获取查询关系rq下的样本数据,否则说明全部样本数据均已经处理,转2.2.18。
2.2.5设置负样本数目与正样本数目的比值为KN|P,KN|P为正整数,且1≤KN|P≤10。设置样本数量阈值为Kq,Kq为正整数,且其中表示以rq为关系的事实,即 表示集合的元素数目。令查询关系rq的样本集合为令查询关系rq的样本标签集合为令查询关系rq下所有样本的所有正向路径的关系序列的集合查询关系rq下所有样本的所有反向路径的关系序列的集合查询关系rq下所有样本的所有正向路径的实体属性信息序列集合查询关系rq下所有样本的所有正向路径的实体类型信息序列集合查询关系rq下所有样本的所有反向路径的实体属性信息序列集合查询关系rq下所有样本的所有反向路径的实体类型信息序列集合
2.2.6令k=1;
2.2.7如果k≤Kq,转2.2.8获取查询关系rq下单个样本的数据,否则说明查询关系rq下的所有样本的数据已经获取,转2.2.14。
2.2.8随机从实体集合E中选择两个实体和即1≤k1≤|E|,1≤k2≤|E|。构造样本sk,且若则sk为正样本,令sk的标签yk=1,若则sk为负样本,令sk的标签yk=0。构造样本sk时需要控制最终Sq内正负样本的比例为1:KN|P(即每构造一个正样本,就构造KN|P个负样本)。
2.2.9令sk的所有正向路径的关系序列的集合sk的所有反向路径的关系序列的集合sk的所有正向路径的实体属性信息序列集合sk的所有正向路径的实体类型信息序列集合sk的所有反向路径的实体属性信息序列集合sk的所有反向路径的实体类型信息序列集合
2.2.10fExtractPath采用随机游走方法(见文献“Lao,N.;Mitchell,T.;and Cohen,W.W.2011.Random walk inference and learning in a large scale knowledgebase.In EMNLP.ACL.”,Lao等人:大规模知识库中的随机游走推理和学习)抽取样本sk的实体到实体的N条正向路径,放到sk的正向路径集合中,其中1≤n≤N,第n条路径pn由实体和关系交替构成,M为路径pn的长度,实体为路径pn上第t步的实体,rt∈R(1≤t≤M)为路径pn上第t步的关系。即采用fExtractPath函数处理得到到的N条正向路径的集合
2.2.11fPreprocessPaths将样本sk的正向路径集合处理为事实预测网络需要的数据结构,得到样本sk的查询关系rq、反向查询关系r′q,样本sk的所有正向路径的关系序列的集合所有反向路径的关系序列的集合所有正向路径的实体属性信息序列集合和实体的类型信息序列集合所有反向路径的实体的属性信息序列集合和实体的类型信息序列集合具体为:
2.2.11.1令n=1;
2.2.11.2如果n≤N,转2.2.11.3处理样本sk的第n条路径的数据,否则说明样本sk的全部路径均已经处理,转2.2.11.14。
2.2.11.6.1令t=1;
2.2.11.6.3获取上的第t步实体et的属性集合At,1≤vt≤|At|,|At|为At中属性的个数。本发明提出的任意一个实体的属性信息是从知识图谱中与该实体相连的关系获得的,分为两种情况进行处理:
2.2.11.6.3.2如果et是或者那么et的属性集合就是以et作为头实体的所有事实去掉包含和作为实体的所有事实构成的邻居事实集合中的关系的集合,即 其中表示以和分别作为头实体和尾实体的事实,即 转2.2.11.6.4。
2.2.11.6.4对At内的属性进行排序。方法是将At内的全部属性根据其在中出现的频次从高到低进行排序,频次高的属性排序在前。具体地,将et的第vt个属性在出现的次数记为若属性和的次数满足则属性排序在之前,最后将et的属性集合记为意味着
2.2.11.6.5令t=t+1,转2.2.11.6.2;
2.2.11.9.1令t=1;
2.2.11.9.4令t=t+1,转2.2.11.9.2;
2.2.11.12将2.2.11.4中获得的正向路径pn的关系序列加入集合即令将2.2.11.5中获得的反向路径p′n的关系序列加入集合即令将2.2.11.7获得的正向路径pn的实体属性序列加入集合即令将2.2.11.10获得的正向路径pn的实体类型序列加入集合即令将2.2.11.8获得的反向路径p′n的实体属性序列加入集合即令将2.2.11.11获得的反向路径p′n的实体类型序列加入集合即令
2.2.11.13令n=n+1,转2.2.11.2。
2.2.11.14将下述信息作为fPreprocessPayhs处理样本sk的正向路径集合的结果:样本sk的查询关系rq、反向查询关系r′q,样本sk的所有正向路径的关系序列的集合 所有反向路径的关系序列的集合所有正向路径的实体属性信息序列集合和实体的类型信息序列集合 所有反向路径的实体的属性信息序列集合和实体的类型信息序列集合转2.2.12。
2.2.12将样本sk和sk的标签分别加入样本集合Sq和样本的标签集合Yq中,即令Sq=Sq∪{sk},令Yq=Yq∪{yk};将2.2.11.14中获得的fPreprocessPaths处理样本sk的正向路径集合的结果作为元素添加到查询关系rq下的样本的数据集合中,即令
2.2.13令k=k+1,转2.2.7。
2.2.14此时查询关系rq下所有样本为Sq={s1,…,sk,…,sK},查询关系rq下所有样本的标签集合为Yq={y1,…,yk,…,yK},查询关系rq下所有样本的所有正向路径的关系序列的集合查询关系rq下所有样本的所有反向路径的关系序列的集合 查询关系rq下所有样本的所有正向路径的实体属性信息序列集合 查询关系rq下所有样本的所有正向路径的实体类型信息序列集合 查询关系rq下所有样本的所有反向路径的实体属性信息序列集合 查询关系rq下所有样本的所有反向路径的实体类型信息序列集合 将Sq、Yq、按照a:c的比例分为查询关系rq下的训练数据Sq*、Yq*、和验证数据Sq#、Yq#、 a和c为正数,一般a>c,且a+c=10,优选a:c=7:3。
2.2.17令q=q+1,转2.2.4。
2.2.18此时所有训练样本的标签集合为Y*={Y1,…,Yq,…,YQ},所有的训练样本的集合为S*={S1*,…,Sq*,…,SQ*},所有训练样本的所有正向路径的关系序列的集合 所有训练样本的所有反向路径的关系序列的集合 所有训练样本的所有正向路径的实体属性信息序列集合 所有训练样本的所有正向路径的实体类型信息序列集合 所有训练样本的所有反向路径的实体属性信息序列集合 所有训练样本的所有反向路径的实体类型信息序列集合 S*、S*′r、S*′A、S*′L构成所有训练样本的数据集合;所有验证样本的标签集合为Y#={Y1#,…,Yq#,…,YQ#},所有的验证样本的集合为S#={S1#,…,Sq#,…,SQ#},所有验证样本的所有正向路径的关系序列的集合 所有验证样本的所有反向路径的关系序列的集合 所有验证样本的所有正向路径的实体属性信息序列集合 所有验证样本的所有正向路径的实体类型信息序列集合 所有验证样本的所有反向路径的实体属性信息序列集合 所有验证样本的所有反向路径的实体类型信息序列集合 S#、S′# r、S′# A、S′# L构成所有验证样本的数据集合,转2.3。
2.3数据预处理模块使用路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths准备事实补全模块所需的要判断是否为缺失事实的补全样本的数据集合,具体地:
2.3.1令存储所有补全样本的集合存储所有补全样本的所有正向路径的关系序列的集合存储所有补全样本的所有反向路径的关系序列的集合存储所有补全样本的所有正向路径的实体属性信息序列集合存储所有补全样本的所有正向路径的实体类型信息序列集合存储所有补全样本的所有反向路径的实体属性信息序列集合存储所有补全样本的所有反向路径的实体类型信息序列集合
2.3.2令q=1;
2.3.3如果q≤Q,转2.3.4获取查询关系rq下的补全样本数据,否则说明全部补全样本数据均已经处理,转2.3.14。
2.3.4准备需要判断是否为缺失事实的查询关系rq下的所有补全样本的集合Uq,Uq为没有被F包含的关系为rq的三元组的集合,即 简记为1≤w≤|Uq|,|Uq|为Uq中元素的个数,即查询关系rq下的补全样本的总数)。
2.3.5令查询关系rq下所有补全样本的所有正向路径的关系序列的集合令查询关系rq下所有补全样本的所有反向路径的关系序列的集合令查询关系rq下所有补全样本的所有正向路径的实体属性信息序列集合令查询关系rq下所有补全样本的所有正向路径的实体类型信息序列集合令查询关系rq下所有补全样本的所有反向路径的实体属性信息序列集合令查询关系rq下所有补全样本的所有反向路径的实体类型信息序列集合
2.3.6令w=1;
2.3.7若w≤|Uq|,转2.3.8获取查询关系rq下补全样本uw的数据,否则说明Uq中每个补全样本的数据均已经获取,转2.3.12。
2.3.9采用步骤2.2.11所述的路径预处理函数fPreprocessPaths处理uw的正向路径集合得到样本uw的查询关系rq、反向查询关系r′q,样本uw的所有正向路径的关系序列的集合所有反向路径的关系序列的集合所有正向路径的实体属性信息序列集合和实体的类型信息序列集合所有反向路径的实体的属性信息序列集合和实体的类型信息序列集合
2.3.11令w=w+1,转2.3.7。
2.3.12此时Uq中每个补全样本的数据均已经获取,查询关系rq下所有补全样本 的路径信息为:查询关系rq下所有补全样本的所有正向路径的关系序列的集合查询关系rq下所有补全样本的所有反向路径的关系序列的集合查询关系rq下所有补全样本的所有正向路径的实体属性信息序列集合查询关系rq下所有补全样本的所有正向路径的实体类型信息序列集合查询关系rq下所有补全样本的所有反向路径的实体属性信息序列集合查询关系rq下所有补全样本的所有反向路径的实体类型信息序列集合将该查询关系rq下的所有补全样本的数据作为元素加入总的补全样本的数据中,即令U=U∪{Uq},
2.3.13令q=q+1,转2.3.3。
2.3.14此时所有补全样本的集合为U={U1,…,Uq,…,UQ},所有补全样本的所有正向路径的关系序列的集合所有补全样本的所有反向路径的关系序列的集合所有补全样本的所有正向路径的实体属性信息序列集合所有补全样本的所有正向路径的实体类型信息序列集合 所有补全样本的所有反向路径的实体属性信息序列集合 所有补全样本的所有反向路径的实体类型信息序列集合 且U、Ur、U′r、UA、UL、U′A、U′L构成所有补全样本的数据集合。转2.4。
2.4将步骤2.2得到的S*、输出给事实预测网络作为Q组查询关系的训练样本的数据集合,将步骤2.2得到的Y*输出给事实预测网络作为Q组查询关系的训练样本的标签集合,将步骤2.2得到的S#、输出给事实预测网络作为Q组查询关系的验证样本的数据集合,将步骤2.2得到的Y#输出给事实预测网络作为Q组查询关系的验证样本的标签集合,将步骤2.3得到的U、Ur、U′r、UA、UL、U′A、U′L输出给事实预测网络作为Q组查询关系的补全样本的数据集合;并将补全样本的数据集合输出给事实补全模块。
第三步:采用从数据预处理模块接收的Q组查询关系的训练样本的数据集合、训练样本的标签集合、验证样本的数据集合、验证样本的标签集合对事实预测网络进行训练和验证,获取Q个事实预测网络的权重参数(注意:不同的查询关系为不同的子任务,训练得到不同的事实预测网络权重参数)。
具体方法如下:
3.1令q=1;
3.3.1初始化嵌入矩阵的权重。首先将关系、实体的属性、实体的类型分别对应的3个嵌入矩阵Wr、WA、WL随机初始化为遵循标准正态分布的50维的向量,即各个嵌入矩阵的维度分别为:关系总数目|R|×50、实体属性的总数目|A|×50、实体类型的总数目|L|×50。虽然本发明所述的实体属性实际上属于知识图谱中的关系(即集合A=R),但是其作为对实体语义信息的刻画,应该具有与路径上的关系不同的含义,因此实体属性的嵌入和关系的嵌入使用不同的嵌入矩阵。
3.3.2设置LSTM网络的参数。LSTMr、LSTMA和LSTML网络的隐藏单元的维度均为150维,且LSTMr的隐藏单元和记忆单元均使用全零初始化。
3.3.3初始化全连接层的权重矩阵和偏置向量的权重。每个全连接层均包含一个权重矩阵和一个偏置向量,权重矩阵的维度为全连接层的输出维度×全连接层的输入维度,偏置向量的维度为全连接层的输出维度。下面介绍全连接层的输入维度和输出维度,以确定全连接层对应的权重矩阵和偏置向量的维度。实体属性注意力网络中全连接层的输入维度分别为200,150,50,50,输出维度分别为150,50,50,1;实体类型注意力网络中全连接层的输入维度分别为200,150,50,50,输出维度分别为150,50,50,1;实体序列编码网络中全连接层 的输入维度均为150,输出维度均为150维。路径编码器中全连接层fp,f′p,和的输入维度分别为300,300,100,100,输出维度分别为100,100,1,1。预测器中全连接层f1,f2,f3,f4的输入维度分别为300,300,600,300,输出维度分别为300,300,300,1。
3.4设置事实预测网络的训练参数:使用Adam优化算法(见文献“Diederik PKingma and Jimmy Ba.2014.Adam:A method for stochastic optimization.arXivpreprint arXiv:1412.6980(2014),Diederik等人:Adam:一种随机优化方法”)进行网络的优化,并使用默认参数(学习率learningRate=0.001,一阶矩估计的指数衰减率β1=0.9,二阶矩估计的指数衰减率β2=0.999,防止除以零的最小值参数∈=1e-8),批数据尺寸batchsize=16。
3.6.1令训练迭代参数epoch=1,令事实预测网络对查询关系rq的验证数据进行预测的平均精确度(AveragePrecision)的值APq#=0;初始化迭代阈值EpochNum,EpochNum是[1,30]内的整数;
3.6.2.1令批处理次数b=1,令已训练样本数目processednum=0;
3.6.2.2如果转3.6.2.2.1使用Sq*中第b个batch的训练数据对进行训练,其中|Sq*|为训练样本集合Sq*的样本数目,否则说明Sq*中的所有训练样本已经参与过计算,该次训练迭代结束,转3.6.2.3计算在验证数据Sq#上的预测结果;
3.6.2.2.1事实预测网络的嵌入层从Sq*中读取C个样本作为第b个batch的训练数据,即一个批次的训练数据,记为样本训练批次集合Sq*,b={s1,…,sc,…,sc},1≤c≤C,其中C=min(batchsize,|Sq*|-processednum),表示取batchsize和|Sq*|-processednum中的最小值。从Yq*、中取出与Sq*,b的这C个样本对应的数据,分别记为标签训练批次集合Yq*,b={y1,…,yc,…,yC},正向路径关系序列训练批次集合 反向路径关系序列训练批次集合正向路径实体属性信息序列训练批次集合和正向路径实体类型信息序列训练批次集合反向路径实体属性信息序列训练批次集合 和反向路径实体类型信息序列训练批次集合
3.6.2.2.2采用事实预测网络预测方法fpredict,对第b个batch的数据 和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch的数据的预测概率集合其中是该批次数据中样本sc的预测概率,具体为:
3.6.2.2.2.1事实预测网络的嵌入层读取rq、r′q,以及使用关系的嵌入矩阵Wr、实体属性的嵌入矩阵WA、实体类型的嵌入矩阵WL分别将数据中的关系、实体属性、实体类型映射为各自的向量表示,得到rq、r′q、 分别对应的向量形式(即批次数据的查询关系的嵌入反向查询关系的嵌入正向路径的关系序列的嵌入反向路径的关系序列的嵌入正向路径的实体属性序列的嵌入正向路径的实体类型序列的嵌入反向路径的实体属性序列的嵌入反向路径的实体类型序列的嵌入),将发送给关系编码器和实体编码器。
3.6.2.2.2.2关系编码器提取路径的关系特征。关系编码器从嵌入层接收和计算该批次数据的所有正向路径的关系表示和所有反向路径的关系表示并传给实体编码器和路径编码器。正向路径的关系表示的获取与反向路径的关系表示的获取方式相同,方法是:
3.6.2.2.2.2.1将(维度为CN×M×50,即CN条正向路径的关系序列的嵌入,其中每条正向路径的关系序列的嵌入维度为M×50)作为关系编码器中LSTMr的一次输入,并使用LSTMr输出的最后的隐状态,记为(维度为CN×150),作为这CN条正向路径的关系表示(每条正向路径的关系表示为150维)。
3.6.2.2.2.2.2将(维度为CN×M×50,即CN条反向路径的关系序列的嵌入,其中每条反向路径的关系序列的嵌入维度为M×50)作为关系编码器中LSTMr的一次输入,并使用LSTMr输出的最后的隐状态,记为(维度为CN×150),作为这CN条反向路径的关系表示(每条反向路径的关系表示为150维)。
3.6.2.2.2.3实体编码器提取每条路径的实体特征。实体编码器从嵌入层接收 从关系编码器接收和计算所有正向路径的实体表示和所有反向路径的实体表示,并传给路径编码器。正向路径的实体表示的获取与反向路径的实体表示的获取方式相同,具体的过程为:
3.6.2.2.2.3.1实体序列编码网络对正向路径的实体属性序列嵌入和正向路径的实体类型序列嵌入进行编码,由于属性和类型属于两种信息,因此使用两个长短时记忆循环网络(即LSTMA和LSTML)分别进行编码,来捕获正向路径上实体序列的属性表示和类型表示,具体为:
3.6.2.2.2.3.1.2令t=1。
3.6.2.2.2.3.1.3如果1≤t≤M+1,则将t、和传给实体画像注意力网络,转第3.6.2.2.2.3.1.4步聚合数据中所有正向路径上第t步实体的属性信息和类型信息;否则说明数据中所有正向路径上实体的属性信息和类型信息已经聚合,转3.6.2.2.2.3.1.8。
3.6.2.2.2.3.1.4实体画像注意力网络(分为实体属性注意力网络和实体类型注意力网络)对批次数据的所有正向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合,作为对实体的语义信息的刻画。具体的计算过程为:
3.6.2.2.2.3.1.4.3.1令vt=1;
3.6.2.2.2.3.1.4.3.2若vt≤|At|,转3.6.2.2.2.3.1.4.3.3获取数据中所有正向路径上第t步实体的第vt个属性的权重,否则说明数据中所有正向路径上第t步实体的每个属性的权重均已经获取,转3.6.2.2.2.3.1.4.3.6;
3.6.2.2.2.3.1.4.3.4将和相加,将相加后的和经过ReLU函数(见文献“Nair V,Hinton G E.Rectified Linear Units ImproveRestricted Boltzmann Machines[C].international conference on machinelearning,2010:807-814.”,Nair和Hinton:纠正线性单位改进受限的博尔茨曼机器)激活后输入到全连接层得到批数据所有正向路径中第t步实体的第vt个属性的权重
3.6.2.2.2.3.1.4.3.5令vt=vt+1,转3.6.2.2.2.3.1.4.3.2;
3.6.2.2.2.3.1.4.3.7使用聚合批数据所有正向路径第t步实体的所有属性的表示,得到聚合后的批数据所有正向路径第t步实体的属性表示 即将(维度为(C*N)×|At|×50)聚合后得到(维度为(C*N)×50),转3.6.2.2.2.3.1.4.4;
3.6.2.2.2.3.1.4.6.1令ot=1;
3.6.2.2.2.3.1.4.6.2若ot≤|Lt|,转3.6.2.2.2.3.1.4.6.3获取数据中所有正向路径上第t步实体的第ot个类型的权重,否则说明数据中所有正向路径上第t步实体的每个类型的权重均已经获取,转3.6.2.2.2.3.1.4.6.6;
3.6.2.2.2.3.1.4.6.5令ot=ot+1,转3.6.2.2.2.3.1.4.6.2;
3.6.2.2.2.3.1.4.6.7使用聚合批数据所有正向路径第t步实体的所有类型的表示,得到聚合后的批数据所有正向路径第t步实体的类型表示 即(维度为(C*N)×|Lt|×50)聚合后得到(维度为(C*N)×50),转3.6.2.2.2.3.1.5;
3.6.2.2.2.3.1.7令t=t+1,转3.6.2.2.2.3.1.3;
3.6.2.2.2.3.2.2令t=1。
3.6.2.2.2.3.2.3如果1≤t≤M+1,将t、和传给实体画像注意力网络,转第3.6.2.2.2.3.2.4步聚合数据中所有反向路径上第t步实体的属性信息和类型信息;否则说明数据中所有反向路径上实体的属性信息和类型信息已经聚合,转3.6.2.2.2.3.2.8。
3.6.2.2.2.3.2.4实体画像注意力网络对批次数据的所有反向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合,作为对实体的语义信息的刻画。具体过程为:
3.6.2.2.2.3.2.4.3.1令vt=1;
3.6.2.2.2.3.2.4.3.2若vt≤|At|,转3.6.2.2.2.3.2.4.3.3获取数据中所有反向路径上第t步实体的第vt个属性的权重,否则说明数据中所有反向路径上第t步实体的每个属性的权重均已经获取,转3.6.2.2.2.3.2.4.3.6;
3.6.2.2.2.3.2.4.3.5令vt=vt+1,转3.6.2.2.2.3.2.4.3.2;
3.6.2.2.2.3.2.4.3.7使用聚合批数据所有反向路径第t步实体的所有属性的表示,得到聚合后的批数据所有反向路径第t步实体的属性表示 即将(维度为(C*N)×|At|×50)聚合后得到(维度为(C*N)×50),转3.6.2.2.2.3.2.4.4;
3.6.2.2.2.3.2.4.6.1令ot=1;
3.6.2.2.2.3.2.4.6.2若ot≤|Lt|,转3.6.2.2.2.3.2.4.6.3获取数据中所有反向路径上第t步实体的第ot个类型的权重,否则说明数据中所有反向路径上第t步实体的每个类型的权重均已经获取,转3.6.2.2.2.3.2.4.6.6;
3.6.2.2.2.3.2.4.6.5令ot=ot+1,转3.6.2.2.2.3.2.4.6.2;
3.6.2.2.2.3.2.4.6.7使用聚合批数据所有反向路径第t步实体的所有类型的表示,得到聚合后的批数据所有反向路径第t步实体的类型表示 即(维度为(C*N)×|Lt|×50)聚合后得到(维度为(C*N)×50),转3.6.2.2.2.3.2.5;
3.6.2.2.2.3.2.7令t=t+1,转3.6.2.2.2.3.2.3;
3.6.2.2.2.4.3.1令n=1;
3.6.2.2.2.4.3.2若n≤N,转3.6.2.2.2.4.3.3获取数据中所有样本的第n条正向路径的权重,否则说明数据中所有样本的每条正向路径的权重均已经获取,转3.6.2.2.2.4.3.5;
3.6.2.2.2.4.3.4令n=n+1,转3.6.2.2.2.4.3.2;
3.6.2.2.2.4.4.1令n=1;
3.6.2.2.2.4.4.2若n≤N,转3.6.2.2.2.4.4.3获取数据中所有样本的第n条反向路径的权重,否则说明数据中所有样本的每条反向路径的权重均已经获取,转3.6.2.2.2.4.4.5;
3.6.2.2.2.4.4.4令n=n+1,转3.6.2.2.2.4.4.2;
3.6.2.2.2.5.1将输入到全连接层f1中,将输入到全连接层f2中,然后将全连接层f1和f2的输出进行拼接,得到该批数据中所有样本的路径表示维度为C×600,其中该批数据中每个样本的路径表示维度为600。
3.6.2.2.3使用步骤3.6.2.2.1得到的标签集合Yq*,b和步骤3.6.2.2.2.5.3事实预测网络的预测概率集合计算该批次数据Sq*,b的损失值loss。方法如下式,其中表示该批次数据中查询关系rq的正样本集合,表示该批次数据中查询关系rq的正样本集合和负样本集合,如果Sq*,b中的样本sc的标签yc=1,则样本否则
3.6.2.2.4使用Adam优化算法对损失值loss最小化,以反向传播训练网络参数,事实预测网络中的参数(三个嵌入矩阵Wr、WA、WL,3个LSTM网络(LSTMr、LSTMA和LSTML)和20个全连接层的权重矩阵和偏置向量)都得到一次更新。
3.6.2.2.5令processednum=processednum+C,b=b+1,转3.6.2.2。
3.6.2.4.1事实预测网络的嵌入层从步骤3.5中得到的Sq#中读取C#个样本作为第b个batch的验证数据,即一个批次的验证数据,记为样本验证批次集合1≤c#≤C#,其中C#=min(batchsize,|Sq#|-predictednum)。从步骤3.5得到的Yq#、 中取出与Sq#,b的这C#个样本对应的数据,分别记为标签验证批次集合正向路径关系序列验证批次集合反向路径关系序列验证批次集合正向路径实体属性信息序列验证批次集合和正向路径实体类型信息序列验证批次集合 反向路径实体属性信息序列验证批次集合和反向路径实体类型信息序列验证批次集合
3.6.2.4.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法fpredict,对第b个batch的验证数据和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch的验证数据的预测概率集合即其中是该批次数据中样本的预测概率。将加入中,即令
3.6.2.4.3令predictednum=predictednum+C#,b=b+1,转3.6.2.4。
3.6.2.5使用验证数据集合Sq#的标签集合Yq#和事实预测网络的预测概率集合计算事实预测网络对验证数据进行预测的平均精确度,记为若则令 并保存事实预测网络的参数,转3.6.2.6;若则不用保存事实预测网络的参数,直接转3.6.2.6。
3.6.2.6令epoch=epoch+1,转3.6.2;
3.7令q=q+1,转3.2;
第四步:事实补全模块对用户输入的需要补全的知识图谱进行补全,方法是:
4.2令q=1;
4.3如果q≤Q,转4.3.1预测查询关系rq下所有补全样本属于事实的概率,否则说明所有查询关系下的补全样本均已预测,转4.4。
4.3.4.1令批处理次数b=1,令已预测补全样本的数目predictednum=0;
4.3.4.2.1事实预测网络的嵌入层从Uq读取Cu个样本作为第b个batch的补全数据,即一个批次的补全数据,记为样本补全批次集合1≤cu≤Cu,其中Cu=min(batchsize,|Uq|-predictednum)。从中取出与Uq,b的这Cu个样本对应的数据,分别记为正向路径关系序列补全批次集合反向路径关系序列补全批次集合正向路径实体属性信息序列补全批次集合和正向路径实体类型信息序列补全批次集合 反向路径实体属性信息序列补全批次集合和反向路径实体类型信息序列补全批次集合
4.3.4.2.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法fpredict,对第b个batch的补全数据和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch经过训练好的事实预测网络预测得到的补全数据的预测概率集合 其中是该批次数据中样本的预测概率。
4.3.4.2.4令predictednum=predictednum+Cu,b=b+1,转4.3.4.2。
4.3.5将Zq作为元素加入到所有补全样本的预测概率集合中,即Z=Z∪{Zq};
4.3.6令q=q+1,转4.3;
4.4根据所有补全样本集合U(U={U1,…,Uq,…,UQ})的预测概率集合Z(Z={Z1,…,Zq,…,ZQ}),判断样本是否是需要补全的事实,得到补全后的知识图谱,具体地:
4.4.1将补全后的知识图谱的事实集合记为Fnew,令Fnew=F;
4.4.2设置阈值δ(0.5≤δ≤1),令q=1;
4.4.3如果q≤Q,则转4.4.4补全查询关系rq下的缺失事实,否则说明所有查询关系下的缺失事实均已补全,转4.5。
4.4.4令w=1;
4.4.5如果w≤|Uq|,则转4.4.6判断补全样本uw是否为缺失事实,否则说明查询关系rq下的缺失事实均已补全,转4.4.8。
4.4.7令w=w+1,转4.4.5;
4.4.8令q=q+1,转4.4.3;
4.5将用户提供的知识图谱中的事实集合F更新为Fnew,即完成了对用户提供的知识图谱的补全。
采用本发明可以达到以下技术效果:
1.本发明的第一步构建了一个完整的基于路径的知识图谱补全系统,以补全知识图谱中缺失的事实,融合了数据预处理模块、事实预测网络和事实补全模块。该系统可以针对用户输入的需要补全的知识图谱,在第二步中构造训练集训练事实预测网络。事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五个部分组成,其中前四个模块同时编码正向路径和反向路径上的特征,预测器则根据正向和反向路径表示进行预测,提升了事实预测网络预测的平均精度均值,提升了事实补全模块补全事实的可信度。
2.本发明在第三步事实预测网络的实体编码器中提取实体的表示时提出了使用实体的属性对实体的语义信息进行刻画,实体的属性即在知识图谱中与该实体相连的边。事实预测网络的实体编码器使用实体属性注意力和实体类型注意力两个网络聚合实体的属性表示和类型表示,丰富了路径上实体的语义信息,提升了路径上实体表示的准确性,进一步提升了路径表示的准确性和事实预测的平均精度均值。
3.本发明第三步训练事实预测网络时将输出的预测值与真值不断拟合,得到了可以准确预测实体间是否存在某个关系的事实预测网络,从而可以对补全样本是否是知识图谱中缺失的事实进行更准确的判断,使得补全到知识图谱中的事实可信度更高。
附图说明:
图1为本发明整体流程图。
图2为本发明第一步构建的基于路径的知识图谱补全系统逻辑结构图。
图3为图2中的事实预测网络的逻辑结构图。
图4为本发明第四步补全知识图谱中缺失事实的流程图。
具体实施方式:
图1为本发明整体流程图。如图1所示,本发明包括以下步骤:
第一步:构建基于路径的知识图谱事实补全系统。该系统如图2所示,由数据预处理模块、事实预测网络、事实补全模块构成。
数据预处理模块与事实预测网络相连,接收用户输入的知识图谱,对用户输入的知识图谱进行预处理,得到训练事实预测网络所需的训练数据(包括训练样本的数据集合和训练样本的标签集合)、验证事实预测网络所需的验证数据(包括验证样本的数据集合和验证样本的标签集合)、以及事实补全模块所需的要判断是否为缺失事实的补全数据(包括补全样本的数据集合),输出给事实预测网络,并将补全样本的数据集合输出给事实补全模块。数据预处理模块由路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths构成,其中fExtractPath从知识图谱中抽取每个样本的实体之间的路径信息,fPreprocessPaths将每个样本的实体间路径信息处理为事实预测网络需要的数据结构。将知识图谱中的实体集合、关系集合、事实集合分别记为E={ei},R={rj}和将实体的属性集合记为A={av},将实体的类型集合记为L={lo},其中1≤i≤|E|,1≤i1≤|E|,1≤i2≤|E|,1≤j≤|R|,1≤v≤|A|,1≤o≤|L|,|E|、|R|、|A|、|L|分别表示实体的总数、关系的总数、属性的总数和类型的总数。将r′j记为rj的反关系,表示若则根据E、R、F、A、L,数据预处理模块获取训练样本集合S*、训练样本的标签集合Y*、验证样本集合S#、验证样本的标签集合Y#、以及补全样本集合U。对于样本集合(包括训练样本集合S*、验证样本集合S#、补全样本集合U)中的每个样本(包括训练样本、验证样本、补全样本),数据预处理模块先使用fExtractPath从知识图谱中抽取样本的实体对之间的正向路径集合,然后使用fPreprocessPaths处理该正向路径集合输出样本的数据集合,构成训练样本的数据集合、验证样本的数据集合、补全样本的数据集合。
事实预测网络如图3所示,由嵌入层、关系编码器、实体编码器、路径编码器、预测器五个部分组成。其中,嵌入层包含3个嵌入矩阵,分别为关系的嵌入矩阵Wr、实体属性的嵌入矩阵WA、实体类型的嵌入矩阵WL;关系编码器用于提取每条路径的关系序列特征,由一个LSTM网络构成,记为LSTMr;实体编码器用于提取每条路径的实体序列特征(包括每条路径上实体的属性信息序列的特征和类型信息序列的特征),由实体画像注意力网络和实体序列编码网络两个子网络构成,其中实体画像注意力网络由结构相同的实体属性注意力网络和实体类型注意力网络构成,实体属性注意力网络由4个全连接层构成,实体类型注意力网络由4个全连接层构成,而实体序列编码网络由两个LSTM网络(分别记为LSTMA和LSTML)及4个全连接层构成;路径编码器由结构相同的正向路径注意力网络和反向路径注意力网络构成,其中正向路径注意力网络由2个全连接层fp和构成,反向路径注意力网络由2个全连接层f′p和构成,分别用于聚合每个样本的所有正向路径的特征和所有反向路径的特征;预测器由4个全连接层f1,f2,f3和f4构成,用于预测每个样本属于事实的概率。事实预测网络从数据预处理模块得到样本数据集合(包括训练样本的数据集合、验证样本的数据集合、补全样本的数据集合),提取样本数据集合中每个样本的路径特征,然后计算出每个样本属于事实的概率,组成预测概率集合(包括训练样本的预测概率集合、验证样本的预测概率集合、补全样本的预测概率集合)。其中,(1)嵌入层接收数据预处理模块的数据,将每个关系、实体属性、实体类型、实体属性分别使用Wr、WA、WL转化为向量表示,然后将每个样本的每条路径的关系序列转化为向量表示(即每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入)输出给关系编码器,将每个样本的每条路径上实体的属性信息序列和实体的类型信息序列转化为向量表示(即每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入,和每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入)输出给实体编码器,将每个样本的查询关系和反向查询关系转化为向量表示(即每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入)也输出给实体编码器;(2)关系编码器接收嵌入层输出的每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入,对这些嵌入进行编码,得到每个样本的每条正向路径的关系表示和每条反向路径的关系表示,将每个样本的每条正向路径的关系表示和每条反向路径的关系表示输出给实体编码器和路径编码器;(3)实体编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示,还接收来自嵌入层的每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入、每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入、每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入,对这些嵌入进行编码,得到每个样本的每条正向路径的实体表示和每条反向路径的实体表示,将每个样本的每条正向路径的实体表示和每条反向路径的实体表示输出给路径编码器;(4)路径编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示,以及来自实体编码器的每个样本的每条正向路径的实体表示和每条反向路径的实体表示,对这些表示进行编码,得到每个样本的正向路径表示和反向路径表示,将每个样本的正向路径表示和反向路径表示输出给预测器;(5)预测器接收来自路径编码器的每个样本的正向路径表示和反向路径表示,对这些表示进行编码,得到每个样本的预测结果(即每个样本属于事实的概率),将每个样本的预测结果组成预测概率集合。事实预测网络根据数据预处理模块输出的训练样本的标签集合和事实预测网络预测的训练样本的预测概率集合,进行训练并更新网络参数;事实预测网络根据数据预处理模块输出的验证样本的标签集合和事实预测网络预测的验证样本的预测概率集合,进行验证并保存最优的网络参数。如果输入事实预测网络的样本数据集合是补全样本的数据集合,则事实预测网络将计算得到的补全样本的预测概率集合输出给事实补全模块。
事实补全模块与数据预处理模块和事实预测网络相连接。事实补全模块接收数据预处理模块输出的补全样本的数据集合和训练好的事实预测网络输出的补全样本的预测概率集合Z,根据每个补全样本的预测概率判断补全样本的数据集合中补全样本集合U里的每个补全样本是否是需要补全的事实,如果补全样本是需要补全的事实,则将补全样本uw(uw∈U)添加到知识图谱的事实集合中,即令Fnew=F∪uw,Fnew为补全后的知识图谱的事实集合。
第二步:数据预处理模块根据用户输入的需要补全的知识图谱(包括E、R、F)和L、DL、RQ,准备训练事实预测网络所需的训练数据(包括训练样本的数据集合和训练样本的标签集合)、验证事实预测网络所需的验证数据(包括验证样本的数据集合和验证样本的标签集合)、以及事实补全模块所需的要判断是否为缺失事实的补全数据(包括补全样本的数据集合)。
2.1数据预处理模块接收用户输入的需要补全的知识图谱(包括实体集合E、关系集合R、事实集合F)、实体的类型集合L和每个实体对应的类型信息的字典DL(字典的key为实体,value为实体对应的类型集合),以及需要补全的查询关系集合RQ={rq|rq∈R}(1≤q≤Q,Q为RQ中元素的个数)。
2.2数据预处理模块使用路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths准备训练和验证事实预测网络需要的训练样本的数据集合和训练样本的标签集合、验证样本的数据集合和验证样本的标签集合,具体地:
2.2.1令存储所有训练样本的集合存储所有训练样本的标签集合存储所有训练样本的所有正向路径的关系序列的集合存储所有训练样本的所有反向路径的关系序列的集合存储所有训练样本的所有正向路径的实体属性信息序列集合存储所有训练样本的所有正向路径的实体类型信息序列集合存储所有训练样本的所有反向路径的实体属性信息序列集合存储所有训练样本的所有反向路径的实体类型信息序列集合
2.2.2令存储所有验证样本的集合存储所有验证样本的标签集合存储所有验证样本的所有正向路径的关系序列的集合存储所有验证样本的所有反向路径的关系序列的集合存储所有验证样本的所有正向路径的实体属性信息序列集合存储所有验证样本的所有正向路径的实体类型信息序列集合存储所有验证样本的所有反向路径的实体属性信息序列集合存储所有验证样本的所有反向路径的实体类型信息序列集合
2.2.3令q=1;
2.2.4如果q≤Q,转2.2.5获取查询关系rq下的样本数据,否则说明全部样本数据均已经处理,转2.2.18。
2.2.5设置负样本数目与正样本数目的比值为KN|P,KN|P为正整数,且1≤KN|P≤10。设置样本数量阈值为Kq,Kq为正整数,且其中表示以rq为关系的事实,即 表示集合的元素数目。令查询关系rq的样本集合为令查询关系rq的样本标签集合为令查询关系rq下所有样本的所有正向路径的关系序列的集合查询关系rq下所有样本的所有反向路径的关系序列的集合查询关系rq下所有样本的所有正向路径的实体属性信息序列集合查询关系rq下所有样本的所有正向路径的实体类型信息序列集合查询关系rq下所有样本的所有反向路径的实体属性信息序列集合查询关系rq下所有样本的所有反向路径的实体类型信息序列集合
2.2.6令k=1;
2.2.7如果k≤Kq,转2.2.8获取查询关系rq下单个样本的数据,否则说明查询关系rq下的所有样本的数据已经获取,转2.2.14。
2.2.8随机从实体集合E中选择两个实体和即1≤k1≤|E|,1≤k2≤|E|。构造样本sk,且若则sk为正样本,令sk的标签yk=1,若则sk为负样本,令sk的标签yk=0。构造样本sk时需要控制最终Sq内正负样本的比例为1:KN|P(即每构造一个正样本,就构造KN|P个负样本)。
2.2.9令sk的所有正向路径的关系序列的集合sk的所有反向路径的关系序列的集合sk的所有正向路径的实体属性信息序列集合sk的所有正向路径的实体类型信息序列集合sk的所有反向路径的实体属性信息序列集合sk的所有反向路径的实体类型信息序列集合
2.2.10fExtractPath采用随机游走方法抽取样本sk的实体到实体的N条正向路径,放到sk的正向路径集合中,其中1≤n≤N,第n条路径pn由实体和关系交替构成,M为路径pn的长度,实体为路径pn上第t步的实体,rt∈R(1≤t≤M)为路径pn上第t步的关系。即采用fExtractPath函数处理得到到的N条正向路径的集合
2.2.11fPreprocessPaths将样本sk的正向路径集合处理为事实预测网络需要的数据结构,得到样本sk的查询关系rq、反向查询关系r′q,样本sk的所有正向路径的关系序列的集合所有反向路径的关系序列的集合所有正向路径的实体属性信息序列集合和实体的类型信息序列集合所有反向路径的实体的属性信息序列集合和实体的类型信息序列集合具体为:
2.2.11.1令n=1;
2.2.11.2如果n≤N,转2.2.11.3处理样本sk的第n条路径的数据,否则说明样本sk的全部路径均已经处理,转2.2.11.14。
2.2.11.6.1令t=1;
2.2.11.6.3获取上的第t步实体et的属性集合At,1≤vt≤|At|,|At|为At中属性的个数。本发明提出的任意一个实体的属性信息是从知识图谱中与该实体相连的关系获得的,分为两种情况进行处理:
2.2.11.6.3.2如果et是或者那么et的属性集合就是以et作为头实体的所有事实去掉包含和作为实体的所有事实构成的邻居事实集合中的关系的集合,即 其中表示以和分别作为头实体和尾实体的事实,即 转2.2.11.6.4。
2.2.11.6.4对At内的属性进行排序。方法是将At内的全部属性根据其在中出现的频次从高到低进行排序,频次高的属性排序在前。具体地,将et的第vt个属性在出现的次数记为若属性和的次数满足则属性排序在之前,最后将et的属性集合记为意味着
2.2.11.6.5令t=t+1,转2.2.11.6.2;
2.2.11.9.1令t=1;
2.2.11.9.4令t=t+1,转2.2.11.9.2;
2.2.11.12将2.2.11.4中获得的正向路径pn的关系序列加入集合即令将2.2.11.5中获得的反向路径p′n的关系序列加入集合即令将2.2.11.7获得的正向路径pn的实体属性序列加入集合即令将2.2.11.10获得的正向路径pn的实体类型序列加入集合即令将2.2.11.8获得的反向路径p′n的实体属性序列加入集合即令将2.2.11.11获得的反向路径p′n的实体类型序列加入集合即令
2.2.11.13令n=n+1,转2.2.11.2。
2.2.11.14将下述信息作为fPreprocessPaths处理样本sk的正向路径集合的结果:样本sk的查询关系rq、反向查询关系r′q,样本sk的所有正向路径的关系序列的集合 所有反向路径的关系序列的集合所有正向路径的实体属性信息序列集合和实体的类型信息序列集合 所有反向路径的实体的属性信息序列集合和实体的类型信息序列集合转2.2.12。
2.2.12将样本sk和sk的标签分别加入样本集合Sq和样本的标签集合Yq中,即令Sq=Sq∪{sk},令Yq=Yq∪{yk};将2.2.11.14中获得的fPreprocessPaths处理样本sk的正向路径集合的结果作为元素添加到查询关系rq下的样本的数据集合中,即令
2.2.13令k=k+1,转2.2.7。
2.2.14此时查询关系rq下所有样本为Sq={S1,…,sk,…,SK},查询关系rq下所有样本的标签集合为Yq={y1,…,yk,…,yK},查询关系rq下所有样本的所有正向路径的关系序列的集合查询关系rq下所有样本的所有反向路径的关系序列的集合 查询关系rq下所有样本的所有正向路径的实体属性信息序列集合 查询关系rq下所有样本的所有正向路径的实体类型信息序列集合 查询关系rq下所有样本的所有反向路径的实体属性信息序列集合 查询关系rq下所有样本的所有反向路径的实体类型信息序列集合 将Sq、Yq、按照a:c的比例分为查询关系rq下的训练数据Sq*、Yq*、和验证数据Sq#、Yq#、 a和c为正数,一般a>c,且a+c=10,优选a:c=7:3。
2.2.17令q=q+1,转2.2.4。
2.2.18此时所有训练样本的标签集合为Y*={Y1,…,Yq,…,YQ},所有的训练样本的集合为S*={S1*,…,Sq*,…,SQ*},所有训练样本的所有正向路径的关系序列的集合 所有训练样本的所有反向路径的关系序列的集合 所有训练样本的所有正向路径的实体属性信息序列集合 所有训练样本的所有正向路径的实体类型信息序列集合 所有训练样本的所有反向路径的实体属性信息序列集合 所有训练样本的所有反向路径的实体类型信息序列集合 S*、S*′r、S*′A、S*′L构成所有训练样本的数据集合;所有验证样本的标签集合为Y#={Y1#,…,Yq#,…,YQ#},所有的验证样本的集合为S#={S1#,…,Sq#,…,SQ#},所有验证样本的所有正向路径的关系序列的集合 所有验证样本的所有反向路径的关系序列的集合 所有验证样本的所有正向路径的实体属性信息序列集合 所有验证样本的所有正向路径的实体类型信息序列集合 所有验证样本的所有反向路径的实体属性信息序列集合 所有验证样本的所有反向路径的实体类型信息序列集合 S#、S′# r、S′# A、S′# L构成所有验证样本的数据集合,转2.3。
2.3数据预处理模块使用路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths准备事实补全模块所需的要判断是否为缺失事实的补全样本的数据集合,具体地:
2.3.1令存储所有补全样本的集合存储所有补全样本的所有正向路径的关系序列的集合存储所有补全样本的所有反向路径的关系序列的集合存储所有补全样本的所有正向路径的实体属性信息序列集合存储所有补全样本的所有正向路径的实体类型信息序列集合存储所有补全样本的所有反向路径的实体属性信息序列集合存储所有补全样本的所有反向路径的实体类型信息序列集合
2.3.2令q=1;
2.3.3如果q≤Q,转2.3.4获取查询关系rq下的补全样本数据,否则说明全部补全样本数据均已经处理,转2.3.14。
2.3.4准备需要判断是否为缺失事实的查询关系rq下的所有补全样本的集合Uq,Uq为没有被F包含的关系为rq的三元组的集合,即 简记为1≤w≤|Uq|,|Uq|为Uq中元素的个数,即查询关系rq下的补全样本的总数)。
2.3.5令查询关系rq下所有补全样本的所有正向路径的关系序列的集合令查询关系rq下所有补全样本的所有反向路径的关系序列的集合令查询关系rq下所有补全样本的所有正向路径的实体属性信息序列集合令查询关系rq下所有补全样本的所有正向路径的实体类型信息序列集合令查询关系rq下所有补全样本的所有反向路径的实体属性信息序列集合令查询关系rq下所有补全样本的所有反向路径的实体类型信息序列集合
2.3.6令w=1;
2.3.7若w≤|Uq|,转2.3.8获取查询关系rq下补全样本uw的数据,否则说明Uq中每个补全样本的数据均已经获取,转2.3.12。
2.3.9采用步骤2.2.11所述的路径预处理函数fPreprocessPaths处理uw的正向路径集合得到样本uw的查询关系rq、反向查询关系r′q,样本uw的所有正向路径的关系序列的集合所有反向路径的关系序列的集合所有正向路径的实体属性信息序列集合和实体的类型信息序列集合所有反向路径的实体的属性信息序列集合和实体的类型信息序列集合
2.3.11令w=w+1,转2.3.7。
2.3.12此时Uq中每个补全样本的数据均已经获取,查询关系rq下所有补全样本 的路径信息为:查询关系rq下所有补全样本的所有正向路径的关系序列的集合查询关系rq下所有补全样本的所有反向路径的关系序列的集合查询关系rq下所有补全样本的所有正向路径的实体属性信息序列集合查询关系rq下所有补全样本的所有正向路径的实体类型信息序列集合查询关系rq下所有补全样本的所有反向路径的实体属性信息序列集合查询关系rq下所有补全样本的所有反向路径的实体类型信息序列集合将该查询关系rq下的所有补全样本的数据作为元素加入总的补全样本的数据中,即令U=U∪{Uq},
2.3.13令q=q+1,转2.3.3。
2.3.14此时所有补全样本的集合为U={U1,…,Uq,…,UQ},所有补全样本的所有正向路径的关系序列的集合所有补全样本的所有反向路径的关系序列的集合所有补全样本的所有正向路径的实体属性信息序列集合所有补全样本的所有正向路径的实体类型信息序列集合 所有补全样本的所有反向路径的实体属性信息序列集合 所有补全样本的所有反向路径的实体类型信息序列集合 且U、Ur、U′r、UA、UL、U′A、U′L构成所有补全样本的数据集合。转2.4。
2.4将步骤2.2得到的S*、输出给事实预测网络作为Q组查询关系的训练样本的数据集合,将步骤2.2得到的Y*输出给事实预测网络作为Q组查询关系的训练样本的标签集合,将步骤2.2得到的S#、输出给事实预测网络作为Q组查询关系的验证样本的数据集合,将步骤2.2得到的Y#输出给事实预测网络作为Q组查询关系的验证样本的标签集合,将步骤2.3得到的U、Ur、U′r、UA、UL、U′A、U′L输出给事实预测网络作为Q组查询关系的补全样本的数据集合;并将补全样本的数据集合输出给事实补全模块。
第三步:采用从数据预处理模块接收的Q组查询关系的训练样本的数据集合、训练样本的标签集合、验证样本的数据集合、验证样本的标签集合对事实预测网络进行训练和验证,获取Q个事实预测网络的权重参数(注意:不同的查询关系为不同的子任务,训练得到不同的事实预测网络权重参数)。
具体方法如下:
3.1令q=1;
3.3.1初始化嵌入矩阵的权重。首先将关系、实体的属性、实体的类型分别对应的3个嵌入矩阵Wr、WA、WL随机初始化为遵循标准正态分布的50维的向量,即各个嵌入矩阵的维度分别为:关系总数目|R|×50、实体属性的总数目|A|×50、实体类型的总数目|L|×50。虽然本发明所述的实体属性实际上属于知识图谱中的关系(即集合A=R),但是其作为对实体语义信息的刻画,应该具有与路径上的关系不同的含义,因此实体属性的嵌入和关系的嵌入使用不同的嵌入矩阵。
3.3.2设置LSTM网络的参数。LSTMr、LSTMA和LSTML网络的隐藏单元的维度均为150维,且LSTMr的隐藏单元和记忆单元均使用全零初始化。
3.3.3初始化全连接层的权重矩阵和偏置向量的权重。每个全连接层均包含一个权重矩阵和一个偏置向量,权重矩阵的维度为全连接层的输出维度×全连接层的输入维度,偏置向量的维度为全连接层的输出维度。下面介绍全连接层的输入维度和输出维度,以确定全连接层对应的权重矩阵和偏置向量的维度。实体属性注意力网络中全连接层的输入维度分别为200,150,50,50,输出维度分别为150,50,50,1;实体类型注意力网络中全连接层的输入维度分别为200,150,50,50,输出维度分别为150,50,50,1;实体序列编码网络中全连接层 的输入维度均为150,输出维度均为150维。路径编码器中全连接层fp,f′p,和的输入维度分别为300,300,100,100,输出维度分别为100,100,1,1。预测器中全连接层f1,f2,f3,f4的输入维度分别为300,300,600,300,输出维度分别为300,300,300,1。
3.4设置事实预测网络的训练参数:使用Adam优化算法进行网络的优化,并使用默认参数(学习率learningRate=0.001,一阶矩估计的指数衰减率β1=0.9,二阶矩估计的指数衰减率β2=0.999,防止除以零的最小值参数∈=1e-8),批数据尺寸batchsize=16。
3.6.1令训练迭代参数epoch=1,令事实预测网络对查询关系rq的验证数据进行预测的平均精确度(AveragePrecision)的值APq#=0;初始化迭代阈值EpochNum,EpochNum是[1,30]内的整数;
3.6.2.1令批处理次数b=1,令已训练样本数目processednum=0;
3.6.2.2如果转3.6.2.2.1使用Sq*中第b个batch的训练数据对进行训练,其中|Sq*|为训练样本集合Sq*的样本数目,否则说明Sq*中的所有训练样本已经参与过计算,该次训练迭代结束,转3.6.2.3计算在验证数据Sq#上的预测结果;
3.6.2.2.1事实预测网络的嵌入层从Sq*中读取C个样本作为第b个batch的训练数据,即一个批次的训练数据,记为样本训练批次集合Sq*,b={s1,…,sc,…,sC},1≤c≤C,其中C=min(batchsize,|Sq*|-processednum),表示取batchsize和|Sq*|-processednum中的最小值。从Yq*、中取出与Sq*,b的这C个样本对应的数据,分别记为标签训练批次集合Yq*,b={y1,…,yc,…,yC},正向路径关系序列训练批次集合 反向路径关系序列训练批次集合正向路径实体属性信息序列训练批次集合和正向路径实体类型信息序列训练批次集合反向路径实体属性信息序列训练批次集合 和反向路径实体类型信息序列训练批次集合
3.6.2.2.2采用事实预测网络预测方法fpredict,对第b个batch的数据 和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch的数据的预测概率集合其中是该批次数据中样本sc的预测概率,具体为:
3.6.2.2.2.1事实预测网络的嵌入层读取rq、r′q,以及使用关系的嵌入矩阵Wr、实体属性的嵌入矩阵WA、实体类型的嵌入矩阵WL分别将数据中的关系、实体属性、实体类型映射为各自的向量表示,得到rq、r′q、 分别对应的向量形式(即批次数据的查询关系的嵌入反向查询关系的嵌入正向路径的关系序列的嵌入反向路径的关系序列的嵌入正向路径的实体属性序列的嵌入正向路径的实体类型序列的嵌入反向路径的实体属性序列的嵌入反向路径的实体类型序列的嵌入),将发送给关系编码器和实体编码器。
3.6.2.2.2.2关系编码器提取路径的关系特征。关系编码器从嵌入层接收和计算该批次数据的所有正向路径的关系表示和所有反向路径的关系表示并传给实体编码器和路径编码器。正向路径的关系表示的获取与反向路径的关系表示的获取方式相同,方法是:
3.6.2.2.2.2.1将(维度为CN×M×50,即CN条正向路径的关系序列的嵌入,其中每条正向路径的关系序列的嵌入维度为M×50)作为关系编码器中LSTMr的一次输入,并使用LSTMr输出的最后的隐状态,记为(维度为CN×150),作为这CN条正向路径的关系表示(每条正向路径的关系表示为150维)。
3.6.2.2.2.2.2将(维度为CN×M×50,即CN条反向路径的关系序列的嵌入,其中每条反向路径的关系序列的嵌入维度为M×50)作为关系编码器中LSTMr的一次输入,并使用LSTMr输出的最后的隐状态,记为(维度为CN×150),作为这CN条反向路径的关系表示(每条反向路径的关系表示为150维)。
3.6.2.2.2.3实体编码器提取每条路径的实体特征。实体编码器从嵌入层接收 从关系编码器接收和计算所有正向路径的实体表示和所有反向路径的实体表示,并传给路径编码器。正向路径的实体表示的获取与反向路径的实体表示的获取方式相同,具体的过程为:
3.6.2.2.2.3.1实体序列编码网络对正向路径的实体属性序列嵌入和正向路径的实体类型序列嵌入进行编码,由于属性和类型属于两种信息,因此使用两个长短时记忆循环网络(即LSTMA和LSTML)分别进行编码,来捕获正向路径上实体序列的属性表示和类型表示,具体为:
3.6.2.2.2.3.1.2令t=1。
3.6.2.2.2.3.1.3如果1≤t≤M+1,则将t、和传给实体画像注意力网络,转第3.6.2.2.2.3.1.4步聚合数据中所有正向路径上第t步实体的属性信息和类型信息;否则说明数据中所有正向路径上实体的属性信息和类型信息已经聚合,转3.6.2.2.2.3.1.8。
3.6.2.2.2.3.1.4实体画像注意力网络(分为实体属性注意力网络和实体类型注意力网络)对批次数据的所有正向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合,作为对实体的语义信息的刻画。具体的计算过程为:
3.6.2.2.2.3.1.4.3.1令vt=1;
3.6.2.2.2.3.1.4.3.2若vt≤|At|,转3.6.2.2.2.3.1.4.3.3获取数据中所有正向路径上第t步实体的第vt个属性的权重,否则说明数据中所有正向路径上第t步实体的每个属性的权重均已经获取,转3.6.2.2.2.3.1.4.3.6;
3.6.2.2.2.3.1.4.3.5令vt=vt+1,转3.6.2.2.2.3.1.4.3.2;
3.6.2.2.2.3.1.4.3.7使用聚合批数据所有正向路径第t步实体的所有属性的表示,得到聚合后的批数据所有正向路径第t步实体的属性表示 即将(维度为(C*N)×|At|×50)聚合后得到(维度为(C*N)×50),转3.6.2.2.2.3.1.4.4;
3.6.2.2.2.3.1.4.6.1令ot=1;
3.6.2.2.2.3.1.4.6.2若ot≤|Lt|,转3.6.2.2.2.3.1.4.6.3获取数据中所有正向路径上第t步实体的第ot个类型的权重,否则说明数据中所有正向路径上第t步实体的每个类型的权重均已经获取,转3.6.2.2.2.3.1.4.6.6;
3.6.2.2.2.3.1.4.6.5令ot=ot+1,转3.6.2.2.2.3.1.4.6.2;
3.6.2.2.2.3.1.4.6.7使用聚合批数据所有正向路径第t步实体的所有类型的表示,得到聚合后的批数据所有正向路径第t步实体的类型表示 即(维度为(C*N)×|Lt|×50)聚合后得到(维度为(C*N)×50),转3.6.2.2.2.3.1.5;
3.6.2.2.2.3.1.7令t=t+1,转3.6.2.2.2.3.1.3;
3.6.2.2.2.3.2.2令t=1。
3.6.2.2.2.3.2.3如果1≤t≤M+1,将t、和传给实体画像注意力网络,转第3.6.2.2.2.3.2.4步聚合数据中所有反向路径上第t步实体的属性信息和类型信息;否则说明数据中所有反向路径上实体的属性信息和类型信息已经聚合,转3.6.2.2.2.3.2.8。
3.6.2.2.2.3.2.4实体画像注意力网络对批次数据的所有反向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合,作为对实体的语义信息的刻画。具体过程为:
3.6.2.2.2.3.2.4.3.1令vt=1;
3.6.2.2.2.3.2.4.3.2若vt≤|At|,转3.6.2.2.2.3.2.4.3.3获取数据中所有反向路径上第t步实体的第vt个属性的权重,否则说明数据中所有反向路径上第t步实体的每个属性的权重均已经获取,转3.6.2.2.2.3.2.4.3.6;
3.6.2.2.2.3.2.4.3.5令vt=vt+1,转3.6.2.2.2.3.2.4.3.2;
3.6.2.2.2.3.2.4.3.7使用聚合批数据所有反向路径第t步实体的所有属性的表示,得到聚合后的批数据所有反向路径第t步实体的属性表示 即将(维度为(C*N)×|At|×50)聚合后得到(维度为(C*N)×50),转3.6.2.2.2.3.2.4.4;
3.6.2.2.2.3.2.4.6.1令ot=1;
3.6.2.2.2.3.2.4.6.2若ot≤|Lt|,转3.6.2.2.2.3.2.4.6.3获取数据中所有反向路径上第t步实体的第ot个类型的权重,否则说明数据中所有反向路径上第t步实体的每个类型的权重均已经获取,转3.6.2.2.2.3.2.4.6.6;
3.6.2.2.2.3.2.4.6.5令ot=ot+1,转3.6.2.2.2.3.2.4.6.2;
3.6.2.2.2.3.2.4.6.7使用聚合批数据所有反向路径第t步实体的所有类型的表示,得到聚合后的批数据所有反向路径第t步实体的类型表示 即(维度为(C*N)×|Lt|×50)聚合后得到(维度为(C*N)×50),转3.6.2.2.2.3.2.5;
3.6.2.2.2.3.2.7令t=t+1,转3.6.2.2.2.3.2.3;
3.6.2.2.2.4.3.1令n=1;
3.6.2.2.2.4.3.2若n≤N,转3.6.2.2.2.4.3.3获取数据中所有样本的第n条正向路径的权重,否则说明数据中所有样本的每条正向路径的权重均已经获取,转3.6.2.2.2.4.3.5;
3.6.2.2.2.4.3.4令n=n+1,转3.6.2.2.2.4.3.2;
3.6.2.2.2.4.4.1令n=1;
3.6.2.2.2.4.4.2若n≤N,转3.6.2.2.2.4.4.3获取数据中所有样本的第n条反向路径的权重,否则说明数据中所有样本的每条反向路径的权重均已经获取,转3.6.2.2.2.4.4.5;
3.6.2.2.2.4.4.4令n=n+1,转3.6.2.2.2.4.4.2;
3.6.2.2.2.5.1将输入到全连接层f1中,将输入到全连接层f2中,然后将全连接层f1和f2的输出进行拼接,得到该批数据中所有样本的路径表示维度为C×600,其中该批数据中每个样本的路径表示维度为600。
3.6.2.2.3使用步骤3.6.2.2.1得到的标签集合Yq*,b和步骤3.6.2.2.2.5.3事实预测网络的预测概率集合计算该批次数据Sq*,b的损失值loss。方法如下式,其中表示该批次数据中查询关系rq的正样本集合,表示该批次数据中查询关系rq的正样本集合和负样本集合,如果Sq*,b中的样本sc的标签yc=1,则样本否则
3.6.2.2.4使用Adam优化算法对损失值loss最小化,以反向传播训练网络参数,事实预测网络中的参数(三个嵌入矩阵Wr、WA、WL,3个LSTM网络(LSTMr、LSTMA和LSTML)和20个全连接层的权重矩阵和偏置向量)都得到一次更新。
3.6.2.2.5令processednum=processednum+C,b=b+1,转3.6.2.2。
3.6.2.4.1事实预测网络的嵌入层从步骤3.5中得到的Sq#中读取C#个样本作为第b个batch的验证数据,即一个批次的验证数据,记为样本验证批次集合1≤c#≤C#,其中C#=min(batchsize,|Sq#|-predictednum)。从步骤3.5得到的Yq#、 中取出与Sq#,b的这C#个样本对应的数据,分别记为标签验证批次集合正向路径关系序列验证批次集合反向路径关系序列验证批次集合正向路径实体属性信息序列验证批次集合和正向路径实体类型信息序列验证批次集合 反向路径实体属性信息序列验证批次集合和反向路径实体类型信息序列验证批次集合
3.6.2.4.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法fpredict,对第b个batch的验证数据和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch的验证数据的预测概率集合即其中是该批次数据中样本的预测概率。将加入中,即令
3.6.2.4.3令predictednum=predictednum+C#,b=b+1,转3.6.2.4。
3.6.2.5使用验证数据集合Sq#的标签集合Yq#和事实预测网络的预测概率集合计算事实预测网络对验证数据进行预测的平均精确度,记为若则令 并保存事实预测网络的参数,转3.6.2.6;若则不用保存事实预测网络的参数,直接转3.6.2.6。
3.6.2.6令epoch=epoch+1,转3.6.2;
3.7令q=q+1,转3.2;
第四步:事实补全模块对用户输入的需要补全的知识图谱进行补全,如图4所示,具体方法是:
4.2令q=1;
4.3如果q≤Q,转4.3.1预测查询关系rq下所有补全样本属于事实的概率,否则说明所有查询关系下的补全样本均已预测,转4.4。
4.3.4.1令批处理次数b=1,令已预测补全样本的数目predictednum=0;
4.3.4.2.1事实预测网络的嵌入层从Uq读取Cu个样本作为第b个batch的补全数据,即一个批次的补全数据,记为样本补全批次集合1≤cu≤Cu,其中Cu=min(batchsize,|Uq|-predictednum)。从中取出与Uq,b的这Cu个样本对应的数据,分别记为正向路径关系序列补全批次集合反向路径关系序列补全批次集合正向路径实体属性信息序列补全批次集合和正向路径实体类型信息序列补全批次集合 反向路径实体属性信息序列补全批次集合和反向路径实体类型信息序列补全批次集合
4.3.4.2.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法fpredict,对第b个batch的补全数据和查询关系rq、查询关系的反关系rq′进行计算,得到第b个batch经过训练好的事实预测网络预测得到的补全数据的预测概率集合 其中是该批次数据中样本的预测概率。
4.3.4.2.4令predictednum=predictednum+Cu,b=b+1,转4.3.4.2。
4.3.5将Zq作为元素加入到所有补全样本的预测概率集合中,即Z=Z∪{Zq};
4.3.6令q=q+1,转4.3;
4.4根据所有补全样本集合U(U={U1,…,Uq,…,UQ})的预测概率集合Z(Z={Z1,…,Zq,…,ZQ}),判断样本是否是需要补全的事实,得到补全后的知识图谱,具体地:
4.4.1将补全后的知识图谱的事实集合记为Fnew,令Fnew=F;
4.4.2设置阈值δ(0.5≤δ≤1),令q=1;
4.4.3如果q≤Q,则转4.4.4补全查询关系rq下的缺失事实,否则说明所有查询关系下的缺失事实均已补全,转4.5。
4.4.4令w=1;
4.4.5如果w≤|Uq|,则转4.4.6判断补全样本uw是否为缺失事实,否则说明查询关系rq下的缺失事实均已补全,转4.4.8。
4.4.7令w=w+1,转4.4.5;
4.4.8令q=q+1,转4.4.3;
4.5将用户提供的知识图谱中的事实集合F更新为Fnew,即完成了对用户提供的知识图谱的补全。
Claims (22)
1.一种基于实体属性的知识图谱事实补全方法,其特征在于包括以下步骤:
第一步:构建基于路径的知识图谱事实补全系统,该系统由数据预处理模块、事实预测网络、事实补全模块构成;
数据预处理模块与事实预测网络相连,接收用户输入的知识图谱,对用户输入的知识图谱进行预处理,得到训练事实预测网络所需的训练数据即训练样本的数据集合和训练样本的标签集合、验证事实预测网络所需的验证数据即验证样本的数据集合和验证样本的标签集合、以及事实补全模块所需的要判断是否为缺失事实的补全数据即补全样本的数据集合,输出给事实预测网络,并将补全样本的数据集合输出给事实补全模块;数据预处理模块由路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths构成,其中fExtractPath从知识图谱中抽取每个样本的实体之间的路径信息,fpreprocessPaths将每个样本的实体间路径信息处理为事实预测网络需要的数据结构;将知识图谱中的实体集合、关系集合、事实集合分别记为E={ei},R={rj}和将实体的属性集合记为A={av},将实体的类型集合记为L={lo},其中1≤i≤|E|,1≤i1≤|E|,1≤i2≤|E|,1≤j≤|R|,1≤v≤|A|,1≤o≤|L|,|E|、|R|、|A|、|L|分别表示实体的总数、关系的总数、属性的总数和类型的总数;将r′j记为rj的反关系,表示若则根据E、R、F、A、L,数据预处理模块获取训练样本集合S*、训练样本的标签集合Y*、验证样本集合S#、验证样本的标签集合Y#、以及补全样本集合U;对于S*、S#、U中的每个样本,数据预处理模块先使用fExtractPath从知识图谱中抽取样本的实体对之间的正向路径集合,然后使用fPreprocessPaths处理该正向路径集合输出样本的数据集合,构成训练样本的数据集合、验证样本的数据集合、补全样本的数据集合;
事实预测网络由嵌入层、关系编码器、实体编码器、路径编码器、预测器五个部分组成;其中,嵌入层包含3个嵌入矩阵,分别为关系的嵌入矩阵Wr、实体属性的嵌入矩阵WA、实体类型的嵌入矩阵WL;关系编码器用于提取每条路径的关系序列特征,由一个LSTM网络构成,记为LSTMr;实体编码器用于提取每条路径的实体序列特征即每条路径上实体的属性信息序列的特征和类型信息序列的特征,由实体画像注意力网络和实体序列编码网络两个子网络构成,其中实体画像注意力网络由结构相同的实体属性注意力网络和实体类型注意力网络构成,实体属性注意力网络由4个全连接层构成,实体类型注意力网络由4个全连接层构成,而实体序列编码网络由两个LSTM网络即LSTMA和LSTML及4个全连接层构成;路径编码器由结构相同的正向路径注意力网络和反向路径注意力网络构成,其中正向路径注意力网络由2个全连接层fp和构成,反向路径注意力网络由2个全连接层f′p和构成,分别用于聚合每个样本的所有正向路径的特征和所有反向路径的特征;预测器由4个全连接层f1,f2,f3和f4构成,用于预测每个样本属于事实的概率;事实预测网络从数据预处理模块得到包含训练样本的数据集合、验证样本的数据集合、补全样本的数据集合的样本数据集合,提取样本数据集合中每个样本的路径特征,然后计算出每个样本属于事实的概率,组成包括训练样本的预测概率集合、验证样本的预测概率集合、补全样本的预测概率集合的预测概率集合;事实预测网络根据数据预处理模块输出的训练样本的标签集合和事实预测网络预测的训练样本的预测概率集合,进行训练并更新网络参数;事实预测网络根据数据预处理模块输出的验证样本的标签集合和事实预测网络预测的验证样本的预测概率集合,进行验证并保存最优的网络参数;如果输入事实预测网络的样本数据集合是补全样本的数据集合,则事实预测网络将计算得到的补全样本的预测概率集合输出给事实补全模块;
事实补全模块与数据预处理模块和事实预测网络相连;事实补全模块接收数据预处理模块输出的补全样本的数据集合和训练好的事实预测网络输出的补全样本的预测概率集合Z,根据每个补全样本的预测概率判断补全样本的数据集合中补全样本集合U里的每个补全样本是否是需要补全的事实,如果补全样本是需要补全的事实,则将补全样本添加到知识图谱的事实集合中,得到补全后的知识图谱的事实集合Fnew;
第二步:数据预处理模块根据用户输入的需要补全的知识图谱、实体的类型集合L和每个实体对应的类型信息的字典DL,以及需要补全的查询关系集合RQ,准备训练事实预测网络所需的训练数据、验证事实预测网络所需的验证数据、以及事实补全模块所需的要判断是否为缺失事实的补全数据;方法是:
2.1数据预处理模块接收用户输入的需要补全的知识图谱、实体的类型集合L和每个实体对应的类型信息的字典DL,以及需要补全的查询关系集合RQ,RQ={rq|rq∈R},1≤q≤Q,Q为RQ中元素的个数;需要补全的知识图谱包括实体集合E、关系集合R、事实集合F,字典DL中的key为实体,value为实体对应的类型集合;
2.2数据预处理模块使用路径抽取函数fExtractPath和路径预处理函数fPreprocessPaths准备训练和验证事实预测网络需要的训练样本的数据集合和训练样本的标签集合、验证样本的数据集合和验证样本的标签集合,方法是:
2.2.1令存储所有训练样本的集合存储所有训练样本的标签集合存储所有训练样本的所有正向路径的关系序列的集合存储所有训练样本的所有反向路径的关系序列的集合存储所有训练样本的所有正向路径的实体属性信息序列集合存储所有训练样本的所有正向路径的实体类型信息序列集合存储所有训练样本的所有反向路径的实体属性信息序列集合存储所有训练样本的所有反向路径的实体类型信息序列集合
2.2.2令存储所有验证样本的集合存储所有验证样本的标签集合存储所有验证样本的所有正向路径的关系序列的集合存储所有验证样本的所有反向路径的关系序列的集合存储所有验证样本的所有正向路径的实体属性信息序列集合存储所有验证样本的所有正向路径的实体类型信息序列集合存储所有验证样本的所有反向路径的实体属性信息序列集合存储所有验证样本的所有反向路径的实体类型信息序列集合
2.2.3令q=1;
2.2.4如果q≤Q,转2.2.5,否则说明全部样本数据均已经处理,转2.2.18;
2.2.5设置负样本数目与正样本数目的比值为KN|P,KN|P为正整数;设置样本数量阈值为Kq,Kq为正整数,,其中表示以rq为关系的事实,即 表示集合的元素数目;令查询关系rq的样本集合为令查询关系rq的样本标签集合为令查询关系rq下所有样本的所有正向路径的关系序列的集合查询关系rq下所有样本的所有反向路径的关系序列的集合查询关系rq下所有样本的所有正向路径的实体属性信息序列集合查询关系rq下所有样本的所有正向路径的实体类型信息序列集合查询关系rq下所有样本的所有反向路径的实体属性信息序列集合查询关系rq下所有样本的所有反向路径的实体类型信息序列集合
2.2.6令k=1;
2.2.7如果k≤Kq,转2.2.8,否则说明查询关系rq下的所有样本的数据已经获取,转2.2.14;
2.2.9令sk的所有正向路径的关系序列的集合sk的所有反向路径的关系序列的集合sk的所有正向路径的实体属性信息序列集合sk的所有正向路径的实体类型信息序列集合sk的所有反向路径的实体属性信息序列集合sk的所有反向路径的实体类型信息序列集合
2.2.10 fExtractPath采用随机游走方法抽取样本sk的实体到实体的N条正向路径,放到sk的正向路径集合中,其中第n条路径pn由实体和关系交替构成,M为路径pn的长度,实体为路径pn上第t步的实体,rt∈R,1≤t≤M为路径pn上第t步的关系;
2.2.11 fPreprocessPaths将样本sk的正向路径集合处理为事实预测网络需要的数据结构,得到样本sk的查询关系rq、反向查询关系r′q,样本sk的所有正向路径的关系序列的集合所有反向路径的关系序列的集合所有正向路径的实体属性信息序列集合和实体的类型信息序列集合所有反向路径的实体的属性信息序列集合和实体的类型信息序列集合其中: 为正向关系序列, 为反向关系序列, r′t是pn的反向路径p′n上的关系, 为正向实体序列上获得的所有实体的属性信息, 为为上的第t步实体et的属性集合,|At|为At中属性的个数; 为上获得的所有实体的类型信息记, Lt为et的类型集合; 为反向实体序列上所有实体的属性信息,为的逆序,即 为上所有实体的类型信息,为的逆序,即
2.2.13令k=k+1,转2.2.7;
2.2.14此时查询关系rq下所有样本为Sq={s1,...,sk,...,sK},查询关系rq下所有样本的标签集合为Yq={y1,...,yk,...,yK},查询关系rq下所有样本的所有正向路径的关系序列的集合查询关系rq下所有样本的所有反向路径的关系序列的集合 查询关系rq下所有样本的所有正向路径的实体属性信息序列集合 查询关系rq下所有样本的所有正向路径的实体类型信息序列集合 查询关系rq下所有样本的所有反向路径的实体属性信息序列集合 查询关系rq下所有样本的所有反向路径的实体类型信息序列集合 将Sq、Yq、按照a∶c的比例分为查询关系rq下的训练数据Sq*、Yq*、和验证数据Sq#、Yq#、 a和c为正数,a>c,且a+c=10;
2.2.17令q=q+1,转2.2.4;
2.2.18此时所有训练样本的标签集合为Y*={Y1,...,Yq,...,YQ},所有的训练样本的集合为S*={S1*,...,Sq*,...,SQ*},所有训练样本的所有正向路径的关系序列的集合 所有训练样本的所有反向路径的关系序列的集合 所有训练样本的所有正向路径的实体属性信息序列集合 所有训练样本的所有正向路径的实体类型信息序列集合 所有训练样本的所有反向路径的实体属性信息序列集合 所有训练样本的所有反向路径的实体类型信息序列集合 S*、构成所有训练样本的数据集合;所有验证样本的标签集合为Y#={Y1#,...,Yq#,...,YQ#},所有的验证样本的集合为S#={S1#,...,Sq#,...,SQ#},所有验证样本的所有正向路径的关系序列的集合 所有验证样本的所有反向路径的关系序列的集合 所有验证样本的所有正向路径的实体属性信息序列集合 所有验证样本的所有正向路径的实体类型信息序列集合 所有验证样本的所有反向路径的实体属性信息序列集合 所有验证样本的所有反向路径的实体类型信息序列集合 S#、构成所有验证样本的数据集合,转2.3;
2.3数据预处理模块使用fExtractPath和fPreprocessPaths准备事实补全模块所需的要判断是否为缺失事实的补全样本的数据集合,包括所有补全样本的集合U={U1,...,Uq,...,UQ},所有补全样本的所有正向路径的关系序列的集合所有补全样本的所有反向路径的关系序列的集合所有补全样本的所有正向路径的实体属性信息序列集合所有补全样本的所有正向路径的实体类型信息序列集合所有补全样本的所有反向路径的实体属性信息序列集合所有补全样本的所有反向路径的实体类型信息序列集合Uq为查询关系rq下所有补全样本, |Uq|为Uq中元素的个数,即查询关系rq下的补全样本的总数;为查询关系rq下所有补全样本的所有正向路径的关系序列的集合, 为查询关系rq下所有补全样本的所有反向路径的关系序列的集合查询关系rq下所有补全样本的所有正向路径的实体属性信息序列集合查询关系rq下所有补全样本的所有正向路径的实体类型信息序列集合查询关系rq下所有补全样本的所有反向路径的实体属性信息序列集合查询关系rq下所有补全样本的所有反向路径的实体类型信息序列集合
2.4将步骤2.2得到的S*、输出给事实预测网络作为Q组查询关系的训练样本的数据集合,将步骤2.2得到的Y*输出给事实预测网络作为Q组查询关系的训练样本的标签集合,将步骤2.2得到的S#、输出给事实预测网络作为Q组查询关系的验证样本的数据集合,将步骤2.2得到的Y#输出给事实预测网络作为Q组查询关系的验证样本的标签集合,将步骤2.3得到的U、Ur、U′r、UA、UL、U′A、U′L输出给事实预测网络作为Q组查询关系的补全样本的数据集合;并将补全样本的数据集合输出给事实补全模块;
第三步:采用从数据预处理模块接收的Q组查询关系的训练样本的数据集合、训练样本的标签集合、验证样本的数据集合、验证样本的标签集合对事实预测网络进行训练和验证,获取Q个事实预测网络的权重参数;
具体方法如下:
3.1令q=1;
3.6.1令训练迭代参数epoch=1,令事实预测网络对查询关系rq的验证数据进行预测的平均精确度的值APq#=0;初始化迭代阈值EpochNum,EpochNum是[1,30]内的整数;
3.6.2.1令批处理次数b=1,令已训练样本数目processednum=0;
3.6.2.2如果转3.6.2.2.1,其中|Sq*|为训练样本集合Sq*的样本数目,否则说明Sq*中的所有训练样本已经参与过计算,该次训练迭代结束,转3.6.2.3计算在验证数据Sq#上的预测结果;
3.6.2.2.1事实预测网络的嵌入层从Sq*中读取C个样本作为第b个batch的训练数据,即一个批次的训练数据,记为样本训练批次集合Sq*,b={s1,...,sc,...,sC},1≤c≤C,其中C=min(batchsize,|Sq*|-processednum),表示取batchsize和|Sq*|-processednum中的最小值;从Yq*、中取出与Sq*,b的这C个样本对应的数据,分别记为标签训练批次集合Yq*,b={y1,...,yc,...,yC},正向路径关系序列训练批次集合 反向路径关系序列训练批次集合正向路径实体属性信息序列训练批次集合和正向路径实体类型信息序列训练批次集合反向路径实体属性信息序列训练批次集合 和反向路径实体类型信息序列训练批次集合
3.6.2.2.2采用事实预测网络预测方法fpredict,对第b个batch的数据 和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch的数据的预测概率集合其中是该批次数据中样本sc的预测概率,具体为:
3.6.2.2.2.1事实预测网络的嵌入层读取rq、r′q,以及使用关系的嵌入矩阵Wr、实体属性的嵌入矩阵WA、实体类型的嵌入矩阵WL分别将数据中的关系、实体属性、实体类型映射为各自的向量表示,得到rq、r′q、 分别对应的向量形式即批次数据的查询关系的嵌入反向查询关系的嵌入正向路径的关系序列的嵌入反向路径的关系序列的嵌入正向路径的实体属性序列的嵌入正向路径的实体类型序列的嵌入反向路径的实体属性序列的嵌入反向路径的实体类型序列的嵌入将发送给关系编码器和实体编码器;
3.6.2.2.2.4路径编码器从关系编码器接收和从实体编码器接收和分别使用正向路径注意力网络和反向路径注意力网络计算批数据中所有样本的正向路径的表示和反向路径的表示,得到所有样本的正向路径表示和所有样本的反向路径表示将和传输给预测器;
3.6.2.2.2.5.1将输入到全连接层f1中,将输入到全连接层f2中,然后将全连接层f1和f2的输出进行拼接,得到该批数据中所有样本的路径表示维度为C×600,其中该批数据中每个样本的路径表示维度为600;
3.6.2.2.3使用步骤3.6.2.2.1得到的标签集合Yq*,b和步骤3.6.2.2.2.5.3事实预测网络的预测概率集合计算该批次数据Sq*,b的损失值loss;方法如下式,其中表示该批次数据中查询关系rq的正样本集合,表示该批次数据中查询关系rq的正样本集合和负样本集合,如果Sq*,b中的样本sc的标签yc=1,则样本否则
3.6.2.2.4使用Adam优化算法对损失值loss最小化,以反向传播训练网络参数,事实预测网络中Wr、WA、WL、LSTMr、LSTMA和LSTML的参数和20个全连接层的权重矩阵和偏置向量都得到一次更新;
3.6.2.2.5令processednum=processednum+C,b=b+1,转3.6.2.2;
3.6.2.4.1事实预测网络的嵌入层从步骤3.5中得到的Sq#中读取C#个样本作为第b个batch的验证数据,即一个批次的验证数据,记为样本验证批次集合1≤c#≤C#,其中C#=min(batchsize,|Sq#|-predictednum);从步骤3.5得到的Yq#、 中取出与Sq#,b的这C#个样本对应的数据,分别记为标签验证批次集合正向路径关系序列验证批次集合反向路径关系序列验证批次集合正向路径实体属性信息序列验证批次集合和正向路径实体类型信息序列验证批次集合 反向路径实体属性信息序列验证批次集合和反向路径实体类型信息序列验证批次集合
3.6.2.4.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法fpredict,对第b个batch的验证数据和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch的验证数据的预测概率集合即其中是该批次数据中样本的预测概率;将加入中,即令
3.6.2.4.3令predictednum=predictednum+C#,b=b+1,转3.6.2.4;
3.6.2.5使用验证数据集合Sq#的标签集合Yq#和事实预测网络的预测概率集合计算事实预测网络对验证数据进行预测的平均精确度,记为若则令 并保存事实预测网络的参数,转3.6.2.6;若则直接转3.6.2.6。;
3.6.2.6令epoch=epoch+1,转3.6.2;
3.7令q=q+1,转3.2;
第四步:事实补全模块对用户输入的需要补全的知识图谱进行补全,方法是:
4.2令q=1;
4.3如果q≤Q,转4.3.1预测查询关系rq下所有补全样本属于事实的概率,否则说明所有查询关系下的补全样本均已预测,转4.4;
4.3.4.1令批处理次数b=1,令已预测补全样本的数目predictednum=0;
4.3.4.2.1事实预测网络的嵌入层从Uq读取Cu个样本作为第b个batch的补全数据,即一个批次的补全数据,记为样本补全批次集合其中Cu=min(batchsize,|Uq|-predictednum);从中取出与Uq,b的这Cu个样本对应的数据,分别记为正向路径关系序列补全批次集合反向路径关系序列补全批次集合正向路径实体属性信息序列补全批次集合和正向路径实体类型信息序列补全批次集合 反向路径实体属性信息序列补全批次集合和反向路径实体类型信息序列补全批次集合
4.3.4.2.2采用步骤3.6.2.2.2中所述的事实预测网络预测方法fpredict,对第b个batch的补全数据和查询关系rq、查询关系的反关系r′q进行计算,得到第b个batch经过训练好的事实预测网络预测得到的补全数据的预测概率集合 其中是该批次数据中样本的预测概率;
4.3.4.2.4令predictednum=predictednum+Cu,b=b+1,转4.3.4.2;
4.3.5将Zq作为元素加入到所有补全样本的预测概率集合中,即Z=Z∪{Zq};
4.3.6令q=q+1,转4.3;
4.4根据U的预测概率集合Z,Z={Z1,...,Zq,...,ZQ},判断样本是否是需要补全的事实,得到补全后的知识图谱,具体地:
4.4.1将补全后的知识图谱的事实集合记为Fnew,令Fnew=F;
4.4.2设置阈值δ,令q=1;
4.4.3如果q≤Q,则转4.4.4补全查询关系rq下的缺失事实,否则说明所有查询关系下的缺失事实均已补全,转4.5;
4.4.4令w=1;
4.4.5如果w≤|Uq|,则转4.4.6判断补全样本uw是否为缺失事实,否则说明查询关系rq下的缺失事实均已补全,转4.4.8;
4.4.7令w=w+1,转4.4.5;
4.4.8令q=q+1,转4.4.3;
4.5将用户提供的知识图谱中的事实集合F更新为Fnew,即完成了对用户提供的知识图谱的补全。
2.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于所述事实预测网络中嵌入层、关系编码器、实体编码器、路径编码器、预测器的功能和输入输出关系为:嵌入层接收数据预处理模块的数据,将每个关系、实体属性、实体类型、实体属性分别使用Wr、WA、WL转化为向量表示,然后将每个样本的每条路径的关系序列转化为向量表示输出给关系编码器,将每个样本的每条路径上实体的属性信息序列和实体的类型信息序列转化为向量表示输出给实体编码器,将每个样本的查询关系和反向查询关系转化为向量表示也输出给实体编码器;关系编码器接收嵌入层输出的每个样本的正向路径集合中每条正向路径的关系序列的嵌入和反向路径集合中每条反向路径的关系序列的嵌入,对这些嵌入进行编码,得到每个样本的每条正向路径的关系表示和每条反向路径的关系表示,将每个样本的每条正向路径的关系表示和每条反向路径的关系表示输出给实体编码器和路径编码器;实体编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示,还接收来自嵌入层的每个样本的查询关系的嵌入、每个样本的反向查询关系的嵌入、每个样本的每条正向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入、每个样本的每条反向路径上实体的属性信息序列的嵌入和实体的类型信息序列的嵌入,对这些嵌入进行编码,得到每个样本的每条正向路径的实体表示和每条反向路径的实体表示,将每个样本的每条正向路径的实体表示和每条反向路径的实体表示输出给路径编码器;路径编码器接收来自关系编码器的每个样本的每条正向路径的关系表示和每条反向路径的关系表示,以及来自实体编码器的每个样本的每条正向路径的实体表示和每条反向路径的实体表示,对这些表示进行编码,得到每个样本的正向路径表示和反向路径表示,将每个样本的正向路径表示和反向路径表示输出给预测器;预测器接收来自路径编码器的每个样本的正向路径表示和反向路径表示,对这些表示进行编码,得到每个样本的预测结果即每个样本属于事实的概率,将每个样本的预测结果组成预测概率集合;事实预测网络根据数据预处理模块输出的训练样本的标签集合和事实预测网络预测的训练样本的预测概率集合,进行训练并更新网络参数。
2.2.11.1令n=1;
2.2.11.2如果n≤N,转2.2.11.3,否则说明样本sk的全部路径均已经处理,转2.2.11.14;
2.2.11.13令n=n+1,转2.2.11.2;
2.2.11.6.1令t=1;
2.2.11.6.3.2如果et是或者et的属性集合是以et作为头实体的所有事实去掉包含和作为实体的所有事实构成的邻居事实集合中的关系的集合,即 其中表示以和分别作为头实体和尾实体的事实, 转2.2.11.6.4;
2.2.11.6.4对At内的属性进行排序;方法是将At内的全部属性根据其在中出现的频次从高到低进行排序,频次高的属性排序在前;具体地,将et的第vt个属性在出现的次数记为 若属性和的次数满足则属性排序在之前,最后将et的属性集合记为意味着
2.2.11.6.5令t=t+1,转2.2.11.6.2。
7.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于2.3步所述数据预处理模块使用fExtractPath和fPreprocessPaths准备事实补全模块所需的要判断是否为缺失事实的补全样本的数据集合的方法是:
2.3.1令存储所有补全样本的集合存储所有补全样本的所有正向路径的关系序列的集合存储所有补全样本的所有反向路径的关系序列的集合存储所有补全样本的所有正向路径的实体属性信息序列集合存储所有补全样本的所有正向路径的实体类型信息序列集合存储所有补全样本的所有反向路径的实体属性信息序列集合存储所有补全样本的所有反向路径的实体类型信息序列集合
2.3.2令q=1;
2.3.3如果q≤Q,转2.3.4,否则说明全部补全样本数据均已经处理,转2.3.14;
2.3.5令查询关系rq下所有补全样本的所有正向路径的关系序列的集合令查询关系rq下所有补全样本的所有反向路径的关系序列的集合令查询关系rq下所有补全样本的所有正向路径的实体属性信息序列集合令查询关系rq下所有补全样本的所有正向路径的实体类型信息序列集合令查询关系rq下所有补全样本的所有反向路径的实体属性信息序列集合令查询关系rq下所有补全样本的所有反向路径的实体类型信息序列集合
2.3.6令w=1;
2.3.7若w≤|Uq|,转2.3.8,否则说明Uq中每个补全样本的数据均已经获取,转2.3.12;
2.3.9采用步骤2.2.11所述路径预处理函数fPreprocessPaths处理uw的正向路径集合得到样本uw的查询关系rq、反向查询关系r′q,样本uw的所有正向路径的关系序列的集合所有反向路径的关系序列的集合所有正向路径的实体属性信息序列集合和实体的类型信息序列集合所有反向路径的实体的属性信息序列集合和实体的类型信息序列集合
2.3.11令w=w+1,转2.3.7;
2.3.13令q=q+1,转2.3.3;
2.3.14 U、Ur、U′r、UA、UL、U′A、U′L构成所有补全样本的数据集合。
3.3.1初始化嵌入矩阵的权重;将关系、实体的属性、实体的类型分别对应的3个嵌入矩阵Wr、WA、WL随机初始化为遵循标准正态分布的50维的向量,即各个嵌入矩阵的维度分别为:关系总数目|R|×50、实体属性的总数目|A|×50、实体类型的总数目|L|×50;
3.3.2设置LSTM网络的参数;LSTWr、LSTMA和LSTML网络的隐藏单元的维度均为150维,且LSTMr的隐藏单元和记忆单元均使用全零初始化;
3.3.3初始化全连接层的权重矩阵和偏置向量的权重;每个全连接层均包含一个权重矩阵W和一个偏置向量b,权重矩阵W的维度为全连接层的输出维度×全连接层的输入维度,偏置向量b的维度为全连接层的输出维度;实体属性注意力网络中全连接层的输入维度分别为200,150,50,50,输出维度分别为150,50,50,1;实体类型注意力网络中全连接层的输入维度分别为200,150,50,50,输出维度分别为150,50,50,1;实体序列编码网络中全连接层 的输入维度均为150,输出维度均为150维;路径编码器中全连接层fp,f′p,和的输入维度分别为300,300,100,100,输出维度分别为100,100,1,1;预测器中全连接层f1,f2,f3,f4的输入维度分别为300,300,600,300,输出维度分别为300,300,300,1。
10.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.2步所述关系编码器提取路径的正向路径的关系表示和反向路径的关系表示的方法是:
3.6.2.2.2.2.1将作为关系编码器中LSTMr的一次输入,并使用LSTMr输出的最后的隐状态,记为 维度为CN×M×50,即CN条正向路径的关系序列的嵌入,其中每条正向路径的关系序列的嵌入维度为M×50;维度为CN×150,作为这CN条正向路径的关系表示,每条正向路径的关系表示为150维;
3.6.2.2.2.2.2将作为关系编码器中LSTMr的一次输入,并使用LSTMr输出的最后的隐状态,记为 的维度为CN×M×50,即CN条反向路径的关系序列的嵌入,其中每条反向路径的关系序列的嵌入维度为M×50;的维度为CN×150),作为这CN条反向路径的关系表示,每条反向路径的关系表示为150维;
11.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.3步所述实体编码器计算所有正向路径的实体表示和所有反向路径的实体表示的方法是:
3.6.2.2.2.3.1实体序列编码网络对正向路径的实体属性序列嵌入和正向路径的实体类型序列嵌入进行编码,使用LSTMA和LSTML分别进行编码,捕获正向路径上实体序列的属性表示和类型表示,得到所有正向路径的实体表示
12.如权利要求11所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.3.1步所述实体序列编码网络使用LSTMA和LSTML分别进行编码,捕获正向路径上实体序列的属性表示和类型表示的方法是:
3.6.2.2.2.3.1.2令t=1;
3.6.2.2.2.3.1.3如果1≤t≤M+1,则将t、和传给实体画像注意力网络,转第3.6.2.2.2.3.1.4步;否则说明数据中所有正向路径上实体的属性信息和类型信息已经聚合,转3.6.2.2.2.3.1.8;
3.6.2.2.2.3.1.4实体画像注意力网络的实体属性注意力网络和实体类型注意力网络对批次数据的所有正向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合,得到聚合后的批数据所有正向路径第t步实体的属性表示和聚合后的批数据所有正向路径第t步实体的类型表示转3.6.2.2.2.3.1.5;
3.6.2.2.2.3.1.7令t=t+1,转3.6.2.2.2.3.1.3;
13.如权利要求12所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.3.1.4步所述实体画像注意力网络的实体属性注意力网络和实体类型注意力网络对批次数据的所有正向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合的方法是:
3.6.2.2.2.3.1.4.3.1令vt=1;
3.6.2.2.2.3.1.4.3.2若vt≤|At|,转3.6.2.2.2.3.1.4.3.3获取数据中所有正向路径上第t步实体的第vt个属性的权重,否则说明数据中所有正向路径上第t步实体的每个属性的权重均已经获取,转3.6.2.2.2.3.1.4.3.6;
3.6.2.2.2.3.1.4.3.5令vt=vt+1,转3.6.2.2.2.3.1.4.3.2;
3.6.2.2.2.3.1.4.6.1令ot=1;
3.6.2.2.2.3.1.4.6.2若ot≤|Lt|,转3.6.2.2.2.3.1.4.6.3获取数据中所有正向路径上第t步实体的第ot个类型的权重,否则说明数据中所有正向路径上第t步实体的每个类型的权重均已经获取,转3.6.2.2.2.3.1.4.6.6;
3.6.2.2.2.3.1.4.6.5令ot=ot+1,转3.6.2.2.2.3.1.4.6.2;
16.如权利要求11所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.3.2步所述实体序列编码网络对反向路径的实体属性序列嵌入和反向路径的实体类型序列嵌入进行编码,分别使用LSTMA和LSTML来捕获反向路径上实体序列的属性表示和类型表示的方法是:
3.6.2.2.2.3.2.2令t=1;
3.6.2.2.2.3.2.3如果1≤t≤M+1,将t、和传给实体画像注意力网络,转第3.6.2.2.2.3.2.4步;否则说明数据中所有反向路径上实体的属性信息和类型信息已经聚合,转3.6.2.2.2.3.2.8;
3.6.2.2.2.3.2.4实体画像注意力网络对批次数据的所有反向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合,得到聚合后的批数据所有反向路径第t步实体的属性表示和聚合后的批数据所有反向路径第t步实体的类型表示
3.6.2.2.2.3.2.7令t=t+1,转3.6.2.2.2.3.2.3;
17.如权利要求16所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.3.2.4步所述实体画像注意力网络对批次数据的所有反向路径中的第t步实体的全部属性或全部类型的嵌入进行聚合的方法是:
3.6.2.2.2.3.2.4.3.1令vt=1;
3.6.2.2.2.3.2.4.3.2若vt≤|At|,转3.6.2.2.2.3.2.4.3.3获取数据中所有反向路径上第t步实体的第vt个属性的权重,否则说明数据中所有反向路径上第t步实体的每个属性的权重均已经获取,转3.6.2.2.2.3.2.4.3.6;
3.6.2.2.2.3.2.4.3.5令vt=vt+1,转3.6.2.2.2.3.2.4.3.2;
3.6.2.2.2.3.2.4.6.1令ot=1;
3.6.2.2.2.3.2.4.6.2若ot≤|Lt|,转3.6.2.2.2.3.2.4.6.3获取数据中所有反向路径上第t步实体的第ot个类型的权重,否则说明数据中所有反向路径上第t步实体的每个类型的权重均已经获取,转3.6.2.2.2.3.2.4.6.6;
3.6.2.2.2.3.2.4.6.5令ot=ot+1,转3.6.2.2.2.3.2.4.6.2;
20.如权利要求1所述的一种基于实体属性的知识图谱事实补全方法,其特征在于3.6.2.2.2.4步所述路径编码器使用正向路径注意力网络和反向路径注意力网络计算批数据中所有样本的正向路径的表示和反向路径的表示的方法为:
3.6.2.2.2.4.3.1令n=1;
3.6.2.2.2.4.3.2若n≤N,转3.6.2.2.2.4.3.3,否则说明数据中所有样本的每条正向路径的权重均已经获取,转3.6.2.2.2.4.3.5;
3.6.2.2.2.4.3.4令n=n+1,转3.6.2.2.2.4.3.2;
3.6.2.2.2.4.4.1令n=1;
3.6.2.2.2.4.4.2若n≤N,转3.6.2.2.2.4.4.3,否则说明数据中所有样本的每条反向路径的权重均已经获取,转3.6.2.2.2.4.4.5;
3.6.2.2.2.4.4.4令n=n+1,转3.6.2.2.2.4.4.2;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111184099.1A CN113806561A (zh) | 2021-10-11 | 2021-10-11 | 一种基于实体属性的知识图谱事实补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111184099.1A CN113806561A (zh) | 2021-10-11 | 2021-10-11 | 一种基于实体属性的知识图谱事实补全方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113806561A true CN113806561A (zh) | 2021-12-17 |
Family
ID=78939289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111184099.1A Pending CN113806561A (zh) | 2021-10-11 | 2021-10-11 | 一种基于实体属性的知识图谱事实补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113806561A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490884A (zh) * | 2021-12-21 | 2022-05-13 | 北京三快在线科技有限公司 | 确定实体关联关系的方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840282A (zh) * | 2019-03-01 | 2019-06-04 | 东北大学 | 一种基于模糊理论的知识图谱优化方法 |
CN110147450A (zh) * | 2019-05-06 | 2019-08-20 | 北京科技大学 | 一种知识图谱的知识补全方法及装置 |
US20200320086A1 (en) * | 2018-01-08 | 2020-10-08 | Alibaba Group Holding Limited | Method and system for content recommendation |
CN112699247A (zh) * | 2020-12-23 | 2021-04-23 | 清华大学 | 一种基于多类交叉熵对比补全编码的知识表示学习框架 |
CN112750082A (zh) * | 2021-01-21 | 2021-05-04 | 武汉工程大学 | 基于融合注意力机制的人脸超分辨率方法及系统 |
CN113360670A (zh) * | 2021-06-09 | 2021-09-07 | 山东大学 | 一种基于事实上下文的知识图谱补全方法及系统 |
-
2021
- 2021-10-11 CN CN202111184099.1A patent/CN113806561A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200320086A1 (en) * | 2018-01-08 | 2020-10-08 | Alibaba Group Holding Limited | Method and system for content recommendation |
CN109840282A (zh) * | 2019-03-01 | 2019-06-04 | 东北大学 | 一种基于模糊理论的知识图谱优化方法 |
CN110147450A (zh) * | 2019-05-06 | 2019-08-20 | 北京科技大学 | 一种知识图谱的知识补全方法及装置 |
CN112699247A (zh) * | 2020-12-23 | 2021-04-23 | 清华大学 | 一种基于多类交叉熵对比补全编码的知识表示学习框架 |
CN112750082A (zh) * | 2021-01-21 | 2021-05-04 | 武汉工程大学 | 基于融合注意力机制的人脸超分辨率方法及系统 |
CN113360670A (zh) * | 2021-06-09 | 2021-09-07 | 山东大学 | 一种基于事实上下文的知识图谱补全方法及系统 |
Non-Patent Citations (2)
Title |
---|
ZHEN HUANG等: "A Distributed Computing Framework Based on", 《2020 IEEE INTERNATIONAL CONFERENCE ON JOINT CLOUD COMPUTING (》 * |
黄震: "大规模分布式存储系统中数据冗余技术研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490884A (zh) * | 2021-12-21 | 2022-05-13 | 北京三快在线科技有限公司 | 确定实体关联关系的方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784092B (zh) | 一种混合融合模型的跨模态图像文本检索方法 | |
CN109299342B (zh) | 一种基于循环生成式对抗网络的跨模态检索方法 | |
CN109639739B (zh) | 一种基于自动编码器网络的异常流量检测方法 | |
CN110059206A (zh) | 一种基于深度表征学习的大规模哈希图像检索方法 | |
CN111368920A (zh) | 基于量子孪生神经网络的二分类方法及其人脸识别方法 | |
CN114019370B (zh) | 基于灰度图像和轻量级cnn-svm模型的电机故障检测方法 | |
CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN109933682B (zh) | 一种基于语义与内容信息结合的图像哈希检索方法及系统 | |
CN112784031B (zh) | 一种基于小样本学习的客服对话文本的分类方法和系统 | |
CN109376797B (zh) | 一种基于二进制编码器和多哈希表的网络流量分类方法 | |
CN113328755A (zh) | 一种面向边缘计算的压缩数据传输方法 | |
CN115909002A (zh) | 一种基于对比学习的图像翻译方法 | |
CN114926742A (zh) | 一种基于二阶注意力机制的回环检测及优化方法 | |
CN113806561A (zh) | 一种基于实体属性的知识图谱事实补全方法 | |
CN114723003A (zh) | 一种基于时序卷积和关系建模的事件序列预测方法 | |
Slijepcevic et al. | Radio galaxy zoo: towards building the first multipurpose foundation model for radio astronomy with self-supervised learning | |
CN114821218A (zh) | 基于改进的通道注意力机制的目标检测模型搜索方法 | |
CN117009613A (zh) | 一种图数据分类方法、系统、装置及介质 | |
CN113852605B (zh) | 一种基于关系推理的协议格式自动化推断方法及系统 | |
CN112735604B (zh) | 一种基于深度学习算法的新型冠状病毒分类方法 | |
CN114553790A (zh) | 一种基于多模态特征的小样本学习物联网流量分类方法及系统 | |
CN114358177A (zh) | 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统 | |
CN114120041B (zh) | 一种基于双对抗变分自编码器的小样本分类方法 | |
CN113098867B (zh) | 基于人工智能的网络安全大数据处理方法及大数据云系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211217 |