CN115525771A - 基于上下文数据增强的少样本知识图谱表示学习方法及系统 - Google Patents
基于上下文数据增强的少样本知识图谱表示学习方法及系统 Download PDFInfo
- Publication number
- CN115525771A CN115525771A CN202211202263.1A CN202211202263A CN115525771A CN 115525771 A CN115525771 A CN 115525771A CN 202211202263 A CN202211202263 A CN 202211202263A CN 115525771 A CN115525771 A CN 115525771A
- Authority
- CN
- China
- Prior art keywords
- representation
- entity
- entity pair
- relation
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明属于知识图谱表示学习推理技术领域,特别涉及一种基于上下文数据增强的少样本知识图谱表示学习方法及系统,首先选取背景知识图谱中实体,对实体周围的邻居节点上下文信息进行编码,构建三元组实体对表示;然后通过变分自编码器学习头尾实体对在向量表示空间中的特征,解码生成新的三元组扩充训练集以辅助学习。本发明通过扩展训练样本集的同时保证训练样本的质量,从而更好地支撑少样本条件下的知识图谱表示学习以及知识推理,在聚合实体上下文和关系上下文时,考虑不同信息在不同三元组推理任务中的不同作用;通过在聚合时分配权重,能够减少噪声与无关信息带来的影响,有效提高聚合后表示信息的准确性,从而使得知识图谱表示学习具有更好的语义表达能力。
Description
技术领域
本发明属于知识图谱表示学习推理技术领域,特别涉及一种基于上下文数据增强的少样本知识图谱表示学习方法及系统。
背景技术
知识图谱是一种通过图来反映现实世界中实体之间关系的数据结构,是当前最热门的知识存储结构之一。当前代表性的知识图谱包括Freebase,YAGO,WordNet等。但这些数据库中普遍存在着数据缺失的情况,限制了其在智能搜索、推荐系统、智能问答等下游应用的效果。受到Word2VEC的启发,知识图谱表示学习使用向量来反映知识图谱结构,能够有效地帮助补全和推理图谱中缺失信息。典型的TransE、TransH、RotatE、ConvE等方法主要关注知识图谱的三元组结构信息,通过在向量空间构造合适的得分函数,获得实体和关系的向量表示。上述表示学习方法通常基于图谱中拥有足够数量的实体和关系这个前提,然而,现实中大部分知识图谱存在普遍的长尾分布情况,即只有很少的关系拥有足够的三元组,而大部分关系拥有的三元组数量较为有限,也称为少样本情况,导致已有表示学习模型的向量表示效果较差。为了能够在样本有限的情况下学习到可靠的实体和关系表示,研究者们提出了少样本知识表示学习的概念。已有的少样本知识表示学习方法大致可分为两类:基于元学习的方法和基于度量的方法,前者通过一个能够在不同的推理任务中共享的关系学习器,实现对特定关系表示的快速学习和更新,后者主要通过设计邻居节点编码器和匹配处理器来衡量待推理的三元组和已知三元组之间的相似性。
面对训练样本数量不足的情况,采用数据增强技术可增加样本量,进而提高模型性能。数据增强最初主要应用于计算机视觉领域,通过旋转、平移、缩放等方式将一幅图片扩展为多幅。当前,自然语言处理领域也尝试通过数据增强来增加训练数据的多样性,提升模型的泛化能力,如变分自编码器(Variational auto encoder,VAE)等基于采样的数据增强方法,但受限于自然语言机器表示的离散性,实际应用难度较大,尚未广泛应用于知识图谱表示学习中。
发明内容
为此,本发明提供一种基于上下文数据增强的少样本知识图谱表示学习方法及系统,通过变分自编码器学习头尾实体对在向量表示空间中的特征,解码生成新的三元组扩充训练集以辅助学习,提升模型在少样本情况下的表达能力以及知识推理性能。
按照本发明所提供的设计方案,提供一种基于上下文数据增强的少样本知识图谱表示学习方法,包含如下内容:
选取背景知识图谱中实体,对实体周围的邻居节点上下文信息进行编码,构建三元组实体对表示;
利用变分自动编码器VAE从隐变量空间的概率分布中学习原始实体对表示的隐藏特征,并解码生成新实体对表示;将三元组推理任务作为序列推理任务,通过对原始实体对表示和新实体对表示进行编码,得到推理序列少样本关系向量表示;
根据候选实体对构建待推理三元组实体对及其少样本关系表示,利用预先设置的相似度度量函数获取推理序列少样本关系向量表示和待推理三元组实体对少样本关系表示之间的相似度得分;
构建用于知识图谱表示学习模型训练优化的负样本,并利用变分自编码器和相似度得分构建损失函数,根据损失函数来优化少样本关系向量表示。
作为本发明中基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,对每个实体对中实体周围的邻居节点上下文信息进行聚合编码来获取原始实体对表示,包含如下内容:首先,通过预训练的实体向量表示来获取关系表示,并计算该关系表示与各邻居节点上下文关系之间的相似度;接着,将相似度值作为聚合上下文实体表示的权重,通过softmax函数获取实体上下文信息聚合表示;然后,依据实体上下文信息聚合表示和实体表示来获取对应的原始实体对表示。
作为本发明中基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,关系表示与各邻居节点上下文关系之间的相似度计算过程表示为:其中,r为获取的关系表示,且r=h-t,h和t分别为预训练的实体向量表示,W是变换矩阵,b是偏置,ri为邻居节点i上下文关系。
作为本发明中基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,原始实体对表示为头尾实体f(h)和f(t),其中,f(e)=σ(W1e+W2eaggr),e为头尾实体本身的实体表示,eaggr为实体上下文信息的聚合表示,W1和W2为两个变换矩阵,σ为Sigmoid激活函数。
作为本发明基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,利用变分自动编码器VAE学习原始实体对表示的隐藏特征,并解码生成新实体对表示,包含如下内容:首先,对于每个原始实体对,利用全连接网络提取实体对特征,并通过编码器将实体对特征映射为后验概率分布;然后,根据后验概率分布,解码器对实体对特征进行解码重构得到新的实体对表示,并通过变分自动编码器VAE损失函数的惩罚项和超参数来控制输入的原始实体对表示和输出的新实体对表示之间的相似程度。
作为本发明基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,利用编码器对原始实体对表示和新实体对表示进行编码中,利用Transformer作为编码器,将待推理三元组实体对的推理任务作为序列预测任务,结合实体节点的原始实体对表示和新实体对表示通过Transformer编码器进行编码处理来获取推理序列对应实体对的少样本关系表示。
作为本发明基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,构建相似度度量函数中,首先,利用点积方式计算待推理三元组实体对少样本关系与推理序列中少样本关系表示的相似度得分,并通过softmax函数来计算注意力分布中的关注权重;然后,利用相似度度量函数φ(qr,saggr)来计算每一个候选尾实体得分,其中,qr表示待推理三元组实体对少样本关系,saggr表示注意力分布中的关注权重。
作为本发明基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,知识图谱表示学习模型训练优化中,将每个关系的三元组实体对作为一个任务,每个任务中从待推理三元组实体对中选取若干三元组实体对组成支持集,其余三元组实体对构成查询集,并通过替换查询集中三元组实体对中的尾部实体来构造负样本。
作为本发明基于上下文数据增强的少样本知识图谱表示学习方法,进一步地,利用变分自编码器和相似度得分构建的损失函数表示为:其中,表示负样本优化三元组表示的hinge损失部分,表示变分自动编码器优化损失部分,λ表示比重调整参数。
进一步地,本发明还提供一种基于上下文数据增强的少样本知识图谱表示学习系统,包含:推理序列构建模块、相似度获取模块和优化学习模块,其中,
推理序列构建模块,用于通过选取背景知识图谱中实体对实体周围的邻居节点上下文信息进行编码,构建三元组实体对表示;并利用变分自动编码器VAE从隐变量空间的概率分布中学习构建的原始实体对表示的隐藏特征,并解码生成候选实体对的新实体对表示;将三元组推理任务作为序列推理任务,通过对原始实体对表示和新实体对表示进行编码,得到推理序列少样本关系向量表示;
相似度获取模块,用于根据候选实体对构建待推理三元组实体对及其少样本关系表示,利用预先设置的相似度度量函数获取推理序列少样本关系向量表示和待推理三元组实体对少样本关系表示之间的相似度得分;
优化学习模块,用于构建用于知识图谱表示学习模型训练优化的负样本,并利用变分自编码器和相似度得分构建损失函数,根据损失函数来优化少样本关系向量表示。
本发明的有益效果:
本发明考虑到现实中知识图谱广泛存在的特定关系出现频率过低,而传统的知识图谱表示学习方法无法适应少样本的情况,采用数据增强的方式,扩展训练样本集的同时保证训练样本的质量,从而更好地支撑少样本条件下的知识图谱表示学习以及知识推理。在聚合实体上下文和关系上下文时,考虑了不同信息在不同三元组推理任务中的不同作用。通过在聚合时分配权重,能够减少噪声与无关信息带来的影响,有效提高聚合后表示信息的准确性,从而使得知识图谱表示学习具有更好的语义表达能力。
附图说明:
图1为实施例中少样本知识图谱表示学习流程示意图;
图2为实施例中实体节点上下文信息编码示意;
图3为实施例中基于VAE的数据增强示意;
图4为实施例中基于Transformer的实体对编码器原理示意;
图5为实施例中基于多任务聚合的度量匹配模块示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
考虑到现实中知识图谱往往面临三元组训练样本不足、从而导致传统方法训练效果和精度受到严重影响的问题,本发明实施例,参见图1所示,提供一种基于上下文数据增强的少样本知识图谱表示学习方法,包含:
S101、选取背景知识图谱中实体,对实体周围的邻居节点上下文信息进行编码,构建三元组实体对表示;
S102、利用变分自动编码器VAE从隐变量空间的概率分布中学习构建的原始实体对表示的隐藏特征,并解码生成候选实体对的新实体对表示;将三元组推理任务作为序列推理任务,通过对原始实体对表示和新实体对表示进行编码,得到推理序列少样本关系向量表示;
S103、根据候选实体对构建待推理三元组实体对及其少样本关系表示,利用预先设置的相似度度量函数获取推理序列少样本关系向量表示和待推理三元组实体对少样本关系表示之间的相似度得分;
S104、构建用于知识图谱表示学习模型训练优化的负样本,并利用变分自编码器和相似度得分构建损失函数,根据损失函数来优化少样本关系向量表示。
变分自编码器是一种常见的提取潜在样本特征和生成样本的模型,与知识图谱中少样本表示学习的目的具有较高一致性。本案实施例中,参见图2所示,通过文本图的方式将实体文本描述的内容语义信息扩展到知识图谱中,同时,通过变分自编码器学习头尾实体对在向量表示空间中的特征,解码生成新的三元组扩充训练集以辅助学习,提升模型在少样本情况下的表达能力以及知识推理性能,满足现实研究和领域应用对知识图谱表示学习及推理方法的高准确率和可靠性要求。
作为优选实施例,进一步地,对每个候选实体对中实体周围的邻居节点上下文信息进行聚合编码来获取原始实体对表示,包含如下内容:首先,通过预训练的实体向量表示来获取关系表示,并计算该关系表示与各邻居节点上下文关系之间的相似度;接着,将相似度值作为聚合上下文实体表示的权重,通过softmax函数获取实体上下文信息聚合表示;然后,依据实体上下文信息聚合表示和实体表示来获取对应的原始实体对表示。
对实体周围的邻居节点上下文信息进行编码,可以在保留实体本身特征的同时,捕获实体潜层的语义和结构信息。在有限训练样本的情况下,这些潜层语义和结构信息能够帮助实体特征的有效抽取,进而辅助表示学习。同时,在进行不同的推理任务时,邻居节点上下文信息也应当具有不同的权重。
通过少样本关系r和实体上下文关系ri的相关程度衡量上下文实体的权重。通过传统方法(如TransE等)直接训练得到r和ri,在少样本条件下由于缺少足够对应关系的三元组样本,这种关系表示往往是不准确的。实体出现的频率相对更高,所获得表示通常具有更高的可靠性,因此,本案实施例中,可通过预训练的实体向量表示h和t获得关系表示r=h-t。随后,采用下式计算特定少样本关系r分别与各上下文关系ri的相似度:
其中,W是变换矩阵,b是偏置。
在计算所有上下文关系ri与r的相似度基础上,将相似度值作为聚合上下文实体表示ei的权重,通过Softmax函数将实体表示相加,获得实体上下文信息的聚合表示。
为了在聚合上下文信息的同时保留实体本身的特征,实体的最终表示由两个部分组成,分别是实体本身的表示e以及实体上下文信息的聚合表示eaggr。其中W1和W2是两个变换矩阵,σ是Sigmoid激活函数,头尾实体表示可分别记为f(h)和f(t)。
f(e)=σ(W1e+W2eaggr)#(3)
作为优选实施例,进一步地,利用变分自动编码器VAE学习原始实体对表示的隐藏特征,并解码生成新实体对表示,包含如下内容:首先,对于每个原始实体对,利用全连接网络提取实体对特征,并通过编码器将实体对特征映射为后验概率分布;然后,根据后验概率分布,解码器对实体对特征进行解码重构得到新的实体对表示,并通过变分自动编码器VAE损失函数的惩罚项和超参数来控制输入的原始实体对表示和输出的新实体对表示之间的相似程度。
变分自动编码器可以从隐变量空间的概率分布中学习潜在属性并构造新的样本。采用VAE来学习已有数据的隐层特征,并且生成新的实体对的表示。参见图3所示的VAE模型的基本结构,输入是来自节点上下文信息编码模块给出的多组实体对表示(f(h),f(t))。对于每一个(f(h),f(t))i,首先通过一层由两个变换矩阵构成的全连接网络提取实体对特征并进行维度压缩,即Pi=(Whf(h)+Wtf(t))i。随后,编码器部分将其映射为一个后验概率分布p(zi|Pi),其中zi是一个隐藏变量的向量表示,即隐藏特征。VAE认为该变分后验分布满足多元正态分布,即:
VAE解码器的目的是根据后验分布,解码得到重构样本表示P′i。VAE优化使得解码器生成的P′i与原始的输入Pi尽量接近,从而最小化重构损失但如果损失函数中只有模型会更倾向于生成与原始样本完全相同的样本,从而使得模型泛化性降低,限制应用范围。因此,VAE在损失函数中添加了一项Kullback-Leibler散度作为惩罚项,使得模型在生成样本时具有一定的随机性。通过一组超参数λ1和λ2来控制损失函数中两部分的比例,进而控制VAE生成样本与原样本的相似程度。通过VAE解码器解码生成P′i之后,同样通过由两个变换矩阵构成的全连接网络将新样本表示转换为一组实体对的表示
f(h)′=Wh′P ′i#(5)
f(t)′=Wt′P′i#(6)
VAE的损失函数可以完整地表示为:
作为优选实施例,进一步地,利用编码器对原始实体对表示和新实体对表示进行编码中,利用Transformer作为编码器,将待推理三元组实体对的推理任务作为序列预测任务,结合实体节点的原始实体对表示和新实体对表示通过Transformer编码器进行编码处理来获取推理序列对应实体对的少样本关系表示。
对于原始实体对和新实体对中的多个头尾实体对的表示,其中k个是根据支持集(根据原始知识图谱获得的关系三元组集合)中原始训练样本得到的,q个是利用VAE数据增强得到的新的实体对表示,这些表示还包含了适合该推理任务Tr的特征,能够较好地辅助训练模型。
通过实体对表示得到少样本关系r的表示,大致过程如图4所示。已有的部分研究中将三元组推理任务视作为序列预测的任务,事实上,对于少样本任务Tr,在已知头尾实体对时,对两者的关系进行推理。因此。该任务也可被视为序列推理任务,即已知序列X=(x1,?,x3),推理得到x2的过程。
Transformer是进行序列推理的典型模型之一,使用[MASK]对待推理的少样本关系r进行掩码处理,将头尾实体分别表示为:
x1=X1+Xpos1#(8)
x3=X3+Xpos3#(9)
其中,Xi为支持集中实体节点经过上下文信息编码f(h)、f(t)或VAE数据增强后得到的表示f(h)′、f(t)′,Xposi为位置编码。序列构建完成后,通过Transformer进行计算,最后一个隐藏层x2位置的输出即为该实体对生成的少样本关系r的表示,用s表示,即
s=Transformer((x1,[MASK],x3))#(10)
作为优选实施例,进一步地,构建相似度度量函数中,首先,利用点积方式计算待推理三元组实体对少样本关系与推理序列中少样本关系表示的相似度得分,并通过softmax函数来计算注意力分布中的关注权重;然后,利用相似度度量函数φ(qr,saggr)来计算每一个候选尾实体得分,其中,qr表示待推理三元组实体对少样本关系,saggr表示注意力分布中的关注权重。
计算待推理三元组少样本关系表示与训练样本关系表示之间的相似度,作为聚合关系表示的权重。依次将候选尾实体代入至待推理的三元组中,定义一个度量函数对构建的所有三元组进行打分,选择得分最高的一个尾实体作为推理结果。大致过程如图5所示。
基于上下文信息聚合表示获得支持集中的k个少样本关系表示,记为sup={s1,…,sk},基于VAE获得q个增强的少样本关系表示,记为supVAE={s1,…,sq},同时,根据候选尾实体构建待推理三元组实体对并得到其少样本关系表示,记为qr。虽然sup和supVAE的表示均代表少样本关系r,但即使是同一个r,在不同的三元组下也有不同的含义。例如,同样的关系“subpartof”,可以用来描述山川河流位于某个地理位置,也可以用来描述球队位于某一个联赛,两者的语义有显著区别。因此,对于不同的qr,sup和supvAE中的表示也应有不同的重要性。
与节点上下文信息编码模块类似,采用点积方式计算相似度得分,即:
δ(qr,si)=qr·si,si∈(sup∩supVAE)#(11)
通过Softmax函数对注意力进行分配,即:
定义一个评价queryi合理性的相似度度量函数φ(qr,saggr),可以采用点积、余弦距离或者欧氏距离等方法实现。采用所定义的度量函数依次计算每一个候选尾实体的得分,得分最高者即为该模型在该少样本关系推理任务下得到的结果。
作为本发明优选实施例,进一步地,知识图谱表示学习模型训练优化中,将每个关系的三元组实体对作为一个任务,每个任务中从待推理三元组实体对中选取若干三元组实体对组成支持集,其余三元组实体对构成查询集,并通过替换查询集中三元组实体对中的尾部实体来构造负样本。
知识图谱表示学习模型训练及优化算法内容中,可首先初始化模型中的参数,包括变换矩阵、偏置、VAE、Transformer等的参数;将每一个关系的三元组作为一个任务,即可将训练集划分得到多个任务的集合对上述参数进行学习和优化。根据每一个任务中训练样本k的具体值,训练集中每一个任务Tr选择k个三元组构成支持集Supportr,其余的三元组构成查询集Queryr。对于查询集中的每一个三元组,通过替换尾部实体的方式构造负样本,即在此基础上,通过hinge损失函数来优化三元组表示,即:
结合VAE模块的损失函数,整体的损失函数可如下公式所示,λ是调整两部分比重的参数。
模型训练时,可使用Adam等优化器来优化参数,采用L2正则化避免模型的过拟合,提升模型的泛化能力。
进一步地,基于上述的方法,本发明实施例还提供一种基于上下文数据增强的少样本知识图谱表示学习系统,包含:推理序列构建模块、相似度获取模块和优化学习模块,其中,
推理序列构建模块,用于通过选取背景知识图谱中实体对实体周围的邻居节点上下文信息进行编码,构建三元组实体对表示;并利用变分自动编码器VAE从隐变量空间的概率分布中学习构建的原始实体对表示的隐藏特征,并解码生成候选实体对的新实体对表示;将三元组推理任务作为序列推理任务,通过对原始实体对表示和新实体对表示进行编码,得到推理序列少样本关系向量表示;
相似度获取模块,用于根据候选实体对构建待推理三元组实体对及其少样本关系表示,利用预先设置的相似度度量函数获取推理序列少样本关系向量表示和待推理三元组实体对少样本关系表示之间的相似度得分;
优化学习模块,用于构建用于知识图谱表示学习模型训练优化的负样本,并利用变分自编码器和相似度得分构建损失函数,根据损失函数来优化少样本关系向量表示。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的系统,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的系统。
基于上述的系统,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的系统。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述系统实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述系统实施例中相应内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述系统实施例中的对应过程,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和系统,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种基于上下文数据增强的少样本知识图谱表示学习方法,其特征在于,包含如下内容:
选取背景知识图谱中实体,对实体周围的邻居节点上下文信息进行编码,构建三元组实体对表示;
利用变分自动编码器VAE从隐变量空间的概率分布中学习构建的原始实体对表示的隐藏特征,并解码生成候选实体对的新实体对表示;将三元组推理任务作为序列推理任务,通过对原始实体对表示和新实体对表示进行编码,得到推理序列少样本关系向量表示;
根据候选实体对构建待推理三元组实体对及其少样本关系表示,利用预先设置的相似度度量函数获取推理序列少样本关系向量表示和待推理三元组实体对少样本关系表示之间的相似度得分;
构建用于知识图谱表示学习模型训练优化的负样本,并利用变分自编码器和相似度得分构建损失函数,根据损失函数来优化少样本关系向量表示。
2.根据权利要求1所述的基于上下文数据增强的少样本知识图谱表示学习方法,其特征在于,对每个实体对中实体周围的邻居节点上下文信息进行聚合编码来获取原始实体对表示,包含如下内容:首先,通过预训练的实体向量表示来获取关系表示,并计算该关系表示与各邻居节点上下文关系之间的相似度;接着,将相似度值作为聚合上下文实体表示的权重,通过softmax函数获取实体上下文信息聚合表示;然后,依据实体上下文信息聚合表示和实体表示来获取对应的原始实体对表示。
4.根据权利要求1或2所述的基于上下文数据增强的少样本知识图谱表示学习方法,其特征在于,原始实体对表示为头尾实体f(h)和f(t),其中,f(e)=σ(W1e+W2eaggr),e为头尾实体本身的实体表示,eaggr为实体上下文信息的聚合表示,W1和W2为两个变换矩阵,σ为Sigmoid激活函数。
5.根据权利要求1所述的基于上下文数据增强的少样本知识图谱表示学习方法,其特征在于,利用变分自动编码器VAE学习原始实体对表示的隐藏特征,并解码生成新实体对表示,包含如下内容:首先,对于每个原始实体对,利用全连接网络提取实体对特征,并通过编码器将实体对特征映射为后验概率分布;然后,根据后验概率分布,解码器对实体对特征进行解码重构得到新的实体对表示,并通过变分自动编码器VAE损失函数的惩罚项和超参数来控制输入的原始实体对表示和输出的新实体对表示之间的相似程度。
6.根据权利要求1所述的基于上下文数据增强的少样本知识图谱表示学习方法,其特征在于,利用编码器对原始实体对表示和新实体对表示进行编码中,利用Transformer作为编码器,将待推理三元组实体对的推理任务作为序列预测任务,结合实体节点的原始实体对表示和新实体对表示通过Transformer编码器进行编码处理来获取推理序列对应实体对的少样本关系表示。
7.根据权利要求1所述的基于上下文数据增强的少样本知识图谱表示学习方法,其特征在于,构建相似度度量函数中,首先,利用点积方式计算待推理三元组实体对少样本关系与推理序列中少样本关系表示的相似度得分,并通过softmax函数来计算注意力分布中的关注权重;然后,利用相似度度量函数φ(qr,saggr)来计算每一个候选尾实体得分,其中,qr表示待推理三元组实体对少样本关系,saggr表示注意力分布中的关注权重。
8.根据权利要求1所述的基于上下文数据增强的少样本知识图谱表示学习方法,其特征在于,知识图谱表示学习模型训练优化中,将每个关系的三元组实体对作为一个任务,每个任务中从待推理三元组实体对中选取若干三元组实体对组成支持集,其余三元组实体对构成查询集,并通过替换查询集中三元组实体对中的尾部实体来构造负样本。
10.一种基于上下文数据增强的少样本知识图谱表示学习系统,其特征在于,包含:推理序列构建模块、相似度获取模块和优化学习模块,其中,
推理序列构建模块,用于通过选取背景知识图谱中实体对实体周围的邻居节点上下文信息进行编码,构建三元组实体对表示;并利用变分自动编码器VAE从隐变量空间的概率分布中学习构建的原始实体对表示的隐藏特征,并解码生成候选实体对的新实体对表示;将三元组推理任务作为序列推理任务,通过对原始实体对表示和新实体对表示进行编码,得到推理序列少样本关系向量表示;
相似度获取模块,用于根据候选实体对构建带待推理三元组实体对及其少样本关系表示,利用预先设置的相似度度量函数获取推理序列少样本关系向量表示和待推理三元组实体对少样本关系表示之间的相似度得分;
优化学习模块,用于构建用于知识图谱表示学习模型训练优化的负样本,并利用变分自编码器和相似度得分构建损失函数,根据损失函数来优化少样本关系向量表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211202263.1A CN115525771A (zh) | 2022-09-29 | 2022-09-29 | 基于上下文数据增强的少样本知识图谱表示学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211202263.1A CN115525771A (zh) | 2022-09-29 | 2022-09-29 | 基于上下文数据增强的少样本知识图谱表示学习方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115525771A true CN115525771A (zh) | 2022-12-27 |
Family
ID=84698666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211202263.1A Pending CN115525771A (zh) | 2022-09-29 | 2022-09-29 | 基于上下文数据增强的少样本知识图谱表示学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115525771A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116611813A (zh) * | 2023-05-08 | 2023-08-18 | 武汉人云智物科技有限公司 | 一种基于知识图谱的智能运维管理方法及系统 |
CN116777292A (zh) * | 2023-06-30 | 2023-09-19 | 北京京航计算通讯研究所 | 基于多批次小样本航天产品的缺陷率指标修正方法 |
-
2022
- 2022-09-29 CN CN202211202263.1A patent/CN115525771A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116611813A (zh) * | 2023-05-08 | 2023-08-18 | 武汉人云智物科技有限公司 | 一种基于知识图谱的智能运维管理方法及系统 |
CN116611813B (zh) * | 2023-05-08 | 2024-03-29 | 武汉人云智物科技有限公司 | 一种基于知识图谱的智能运维管理方法及系统 |
CN116777292A (zh) * | 2023-06-30 | 2023-09-19 | 北京京航计算通讯研究所 | 基于多批次小样本航天产品的缺陷率指标修正方法 |
CN116777292B (zh) * | 2023-06-30 | 2024-04-16 | 北京京航计算通讯研究所 | 基于多批次小样本航天产品的缺陷率指标修正方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Meng et al. | Co-embedding attributed networks | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN115525771A (zh) | 基于上下文数据增强的少样本知识图谱表示学习方法及系统 | |
CN111127142B (zh) | 一种基于广义神经注意力的物品推荐方法 | |
Pedrycz et al. | A development of fuzzy encoding and decoding through fuzzy clustering | |
CN108921657B (zh) | 一种基于知识增强记忆网络的序列推荐方法 | |
Fatras et al. | Minibatch optimal transport distances; analysis and applications | |
CN112417289B (zh) | 一种基于深度聚类的资讯信息智能推荐方法 | |
WO2020204904A1 (en) | Learning compressible features | |
CN112364976A (zh) | 基于会话推荐系统的用户偏好预测方法 | |
CN110990595B (zh) | 一种跨域对齐嵌入空间的零样本跨模态检索方法 | |
Sachan | Knowledge graph embedding compression | |
CN116542720B (zh) | 一种基于图卷积网络的时间增强信息序列推荐方法及系统 | |
WO2020233245A1 (zh) | 一种基于回归树上下文特征自动编码的偏置张量分解方法 | |
CN113065649A (zh) | 一种复杂网络拓扑图表示学习方法、预测方法及服务器 | |
Seo et al. | Self-organizing maps and clustering methods for matrix data | |
US20230335229A1 (en) | Structured data generation method and apparatus, device, medium, and program product | |
Guo et al. | Rmp-loss: Regularizing membrane potential distribution for spiking neural networks | |
CN115062587B (zh) | 一种基于周围信息的知识图谱嵌入及回复生成方法 | |
CN112035689A (zh) | 一种基于视觉转语义网络的零样本图像哈希检索方法 | |
Li et al. | Towards communication-efficient digital twin via AI-powered transmission and reconstruction | |
Liang et al. | A normalizing flow-based co-embedding model for attributed networks | |
CN116595479A (zh) | 基于图双重自编码器的社区发现方法、系统、设备及介质 | |
CN115879507A (zh) | 一种基于深度对抗学习的大规模图生成方法 | |
CN115131605A (zh) | 一种基于自适应子图的结构感知图对比学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |