CN112699247B - 一种基于多类交叉熵对比补全编码的知识表示学习方法 - Google Patents

一种基于多类交叉熵对比补全编码的知识表示学习方法 Download PDF

Info

Publication number
CN112699247B
CN112699247B CN202011545760.2A CN202011545760A CN112699247B CN 112699247 B CN112699247 B CN 112699247B CN 202011545760 A CN202011545760 A CN 202011545760A CN 112699247 B CN112699247 B CN 112699247B
Authority
CN
China
Prior art keywords
entity
positive
complement
negative
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011545760.2A
Other languages
English (en)
Other versions
CN112699247A (zh
Inventor
欧阳波
朱纪洪
史恒
于帆
刘彬彬
叶梓轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202011545760.2A priority Critical patent/CN112699247B/zh
Publication of CN112699247A publication Critical patent/CN112699247A/zh
Application granted granted Critical
Publication of CN112699247B publication Critical patent/CN112699247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于多类交叉熵对比补全编码的知识表示学习方法,该方法主要包括:语义结构特征提取模块S和自动对比补全编码模块G。语义结构特征提取模块S负责对实体、关系提取低级和高级语义结构特征并融合得到低级和高级语义结构特征;自动对比补全编码模块G负责预测出实体上下文向量,设置正负样本及其采样的方法C3NCE,计算多类交叉熵对比损失函数,并通过优化该目标函数训练模型,得到知识图谱实体和关系的向量表示,并完成三元组补全任务。本发明所提的知识表示学习的技术方案,能够快速、稳定、准确地补全知识图谱中缺失信息的三元组,并很好地完成了知识表示学习任务,极大地提高了知识图谱构建的准确性和效率,应用前景广阔。

Description

一种基于多类交叉熵对比补全编码的知识表示学习方法
技术领域
本发明涉及自然语言处理和机器学习领域,特别涉及一种基于多类交叉熵对比补全编码的知识表示学习方法。
背景技术
神经网络的进步极大地推动了自然语言处理的发展,改变了自然语言处理领域的研究面貌。传统特征工程的思维模式被神经网络模型学习自然语言特征的方式所取代。知识图谱是2012年由谷歌提出来的,随后在学术界和工业界都得到了广泛地运用,是自然语言知识存储的一种重要形式。自然语言处理的很多下游任务比如问答系统、关系抽取、实体分类等都越来越依赖于知识图谱的构建和表征的质量。同时,在大数据时代,知识产生和更新的速度十分快,依靠手工构造知识图谱需要耗费大量的人力、物力和财力,而且其速度也不能满足人们的要求,所以自动构建知识图谱的方法逐渐替代了传统手工构造的方法,但是这样就难免会发生信息丢失的情况,本发明就是通过学习已有三元组事实信息,补全缺失信息的三元组,并完成知识表示学习的任务。
目前,常见的知识表示学习方法,主要是通过设计打分函数score Function,例如TransE、TransR和TransH等,利用边缘损失函数Margin Loss对三元组的头、尾实体向量和关系向量进行打分,对正样本打高分,负样本打低分,从而学习到实体、关系的向量表示。但是,此类方法最大的问题在于打分函数是不可学习的,受到人先验知识的限制,且边缘损失函数不能对正负样本进行自适应的加权学习,大大限制了表示学习的效果。近期提出的一些知识表示学习的方法对打分函数进行了参数化设计,并采用逻辑回归损失函数或二分类交叉熵损失函数,使得打分函数可以通过损失函数进行学习优化,得到一个更合理的打分函数,将知识图谱实体、关系的表示向量投影到一个更合理的表示空间进行对比计算,但是逻辑回归损失函数同样不能对正负样本进行自适应的加权学习,而二分类交叉熵损失函数由于正负样本数量的巨大差异则存在显著的样本不平衡问题。还有一些方法通过在打分之前提取高级语义特征,来提升打分的效果,进而提升知识表示学习的效果,但是高级的语义特征并不一定适合知识图谱下游任务,就知识图谱三元组补全任务而言,既需要高级的语义类型特征也需要低级的细节特征。综上所述,针对目前知识表示学习方法存在的问题,本发明以对比学习原理为基础,将知识表示学习分解为两个步骤。第一步提取知识图谱实体、关系的不同层级的语义结构特征,将不同层级的特征进行融合,获得满足下游任务的语义特征;第二步对打分函数进行参数化设计,确保打分函数可学习,将三元组的表示向量投影到更有效的表示空间进行计算,同时使用带温度缩放因子的余弦相似度多类交叉熵损失函数,能够对正负样本进行自适应的加权学习,并避免了样本不平衡的问题,通过互信息估计的理论保证模型优化效果和可解释性。
发明内容
针对知识图谱三元组补全任务,本发明提供一种基于多类交叉熵对比补全编码的知识表示学习方法,其特征在于,包括以下步骤:
S1:采用语义结构特征提取的方法,通过嵌入神经网络Embedding提取实体和关系的低级语义特征lv和lr,再通过图卷积神经网络GCN提取知识图谱高级语义结构特征hv和hr,利用跳线连接Skip-connecting融合低级语义和高级语义结构特征得到:
sv=e(v)=lv+hv
sr=e(r)=lr+hr
其中sv和sr分别表示实体融合特征和关系融合特征;
S2:采用自动对比补全的编码方法,选择TransE、DistMult和ConvE三者其中之一作为补全函数g(),根据预测的实体位置不同,输入不同的拼接向量,具体地,当网络预测尾实体时,输入为头实体向量h和关系向量r的拼接向量(sh,sr),经补全函数g()作用,输出为预测的尾实体上下文向量c=g(sh,sr),当网络预测头实体时,输入为尾实体向量t和关系向量r-1的拼接向量经补全函数g()作用,输出为预测的头实体上下文向量/>
S3:采用实体银行Entity Bank的建立和正负样本采样的方法C3NCE,利用实体集中所有实体依次替换三元组中的头实体得到一批正负样本,再利用实体集中所有实体依次替换三元组中的尾实体得到另一批正负样本,两批正负样本合并构建正负样本集合并对其做标记,存储于实体银行Entity Bank中;
S4:采用计算多类交叉熵对比损失函数的方法NT-Xent,设置打分函数,密度比函数,通过计算多类交叉熵对比损失函数训练模型完成三元组补全任务,同时得到实体、关系的向量表示。
进一步地,上述步骤S3的具体实现过程为:
S31:补全尾实体,随机选取三元组集合中的一个三元组(h,r,t),然后用实体集里的所有实体依次替换其尾实体t,得到(h,r,t*),若/>则对于(h,r)而言,t*是正例t+,若/>则对于(h,r)而言,t*是正例t-,将正例t+和负例t-的向量表示存储在集合大小为/>的实体银行Entity Bank中;
S32:补全头实体,随机选取三元组集合中的一个三元组(t,r-1,h),然后用实体集/>里的所有实体依次替换其实体h,得到(t,r-1,h*),若/>则对于(t,r-1)而言,h*是正例h+,若/>则对于(t,r-1)而言,h*是负例h-,将正例h+和负例h-的向量表示存储在集合大小为/>的实体银行Entity Bank中;
S33:使用随机采样方法,从实体银行Entity Bank中采样1个正例和N-1个负例构成正负样本集合X={x0,x1,x2,…,xN-1},完成自监督噪声对比估计正负样本集合X的构造。
进一步地,上述步骤S4的具体实现过程为:
S41:选择TransE、DistMult和ConvE三者其中之一作为能量函数,根据相似性假设设置新的打分函数score为带温度缩放因子τ的余弦相似度函数score(u,v)=(uTv/||u||||v||)/τ,其中u和v分为需要计算余弦相似度的两个向量;
S42:根据打分函数计算score,设置密度比函数f(x,c)=exp(score(e(x),c)),其中e()为语义特征提取函数,exp()表示以自然常数e为底的指数函数,c为上下文向量,x为样本数据;
S43:按照正负样本采样的方法C3NCE构造的正负样本集合X,根据密度比函数f计算多类交叉熵对比损失函数NT-Xent:
其中log表示自然对数,表示在正负样本集合X计算数学期望,/>表示多类交叉熵对比损失函数,下标N表示训练数据的数量,xi表示从正负样本集合中选取的第i个正样本,xj表示从正负样本集合中选取的第j个负样本,c表示上下文向量,f表示密度比函数,通过优化该目标函数训练语义结构特征提取模块S和自动对比补全编码模块G,得到知识图谱实体和关系的向量表示。
由于本发明属于无监督学习,不需要设置额外的标签信息,极大地节省了人力、物力和财力,是一种有效的知识表示学习的方法。本发明通过设计自动补全三元组的知识图谱自监督学习任务,利用多类交叉熵的互信息估计方法充分挖掘知识图谱低级和高级语义结构特征,是一种有效的知识表示学习模型。
附图说明
图1:对比学习多类交叉熵互信息估计过程原理图;
图2:基于多类交叉熵对比补全编码的知识表示学习方法原理图。
具体实施方式
为使本发明所提的基于多类交叉熵对比补全编码的知识表示学习方法的特点更加清楚,所设计的自动补全三元组任务和知识表示学习方法的优势更加明显,下面结合附图和具体实施方式做进一步的详细说明。
首先进行知识图谱的基础符号定义,知识图谱定义为 是实体集合,是关系集合,/>是三元组集合,/>是逆向关系集合,/>任意三元组/>r-1是r的逆向关系,因此/> 语义特征提取函数为e()。
图1是本发明提出的对比学习多类交叉熵互信息估计过程原理图,以补全尾实体为例进行说明,白色点和黑色点分别表示所要预测的尾实体的正样本和负样本在连续空间中的向量表示,f是密度比函数,g是补全函数,q(t|h,r)在连续空间中预测的向量表示的分布,p(t|h,r)是向量表示的真实分布;通过对比学习多类交叉熵互信息估计方法优化密度比函数f,使得预测的上下文向量表示与正样本向量表示在表示空间逐渐拉近,与负样本向量表示在表示空间逐渐推远,从而训练本发明的语义结构特征提取模块S和自动对比补全编码模块G,使得预测的向量表示分布逼近真实分布,也就是q(t|h,r)≈p(t|h,r)。
图2是本发明提出的基于多类交叉熵对比补全编码的知识表示学习方法原理图,该原理图设计了自动补全三元组的知识图谱自监督学习任务,并高效地完成知识表示学习工作。下面以补全尾实体为例对本发明进行介绍。本发明所提的方法原理图包括两个模块:语义结构特征提取模块S和自动对比补全编码模块G。语义结构特征提取模块S包括嵌入神经网络Embedding,图卷积神经网络GCN,以及嵌入神经网络Embedding和图神经网络GCN之间的跳线连接Skip-connecting,分别负责对实体、关系向量提取低级语义特征,提取高级语义结构特征,以及融合低级和高级语义结构特征;自动对比补全编码模块G进行自动补全三元组的自监督学习任务,包括补全编码网络,负责根据实体向量和关系向量的拼接向量预测出实体上下文向量。本发明所提知识表示学习方法主要涉及两个训练方法:正负样本采样和损失函数的设置。实体银行Entity Bank的建立和正负样本采样的方法C3NCE包括生成所有的正负例并存储在实体银行Entity Bank中,以及从实体银行Entity Bank中采样1个正例和N-1个负例构成一个正负样本集合X,用于提供自监督噪声对比学习的训练数据;计算多类交叉熵对比损失函数的方法NT-Xent包括设置打分函数score,设置密度比函数f,以及按照正负样本采样的方法C3NCE构造的正负样本集合X,根据密度比函数f计算多类交叉熵对比损失函数NT-Xent;最后,通过优化目标函数训练语义结构特征提取模块S和自动对比补全编码模块G,得到知识图谱实体和关系的向量表示。图中的箭头代表三元组信息流的方向。以下逐个具体地介绍原理图中的各个部件。
语义结构特征提取模块S主要包括嵌入神经网络Embedding和图卷积神经网络GCN。
嵌入神经网络Embedding,entity_embedding=nn.Embedding(M,d)初始化实体向量,entity_num_embeddings表示实体嵌入的数量为M,embedding_dim表示嵌入的维度为d;relation_embedding=nn.Embedding(L,d)初始化关系向量,relation_num_embeddings表示关系嵌入的数量为L(含逆向关系),embedding_dim表示嵌入的维度为d。利用Xavier初始化模型参数Embedding.weight,即从标准正态分布中初始化大小为(entity_num_embeddings,embedding_dim)和(relation_num_embeddings,embedding_dim)的矩阵,从矩阵对应行获取权重来表示对应标号的嵌入表示。通过嵌入神经网络Embedding得到知识图谱实体的低级语义特征lv,以及关系/>的低级语义特征lr
图卷积神经网络GCN,这是专门处理图数据结构的神经网络。在多关系图中其中/>表示实体集合,/>表示关系集合,ε表示边的集合,边的集合ε包括三种类型的边,分别是三元组关系对应的边/>关系对应的反向关系边/>以及节点自己指向自己的自环边/> 是d维的实体输入向量。第i层的图卷积神经网络的输出表示为:
其中即实体输入向量,其中fg是ReLU,Sigmoid,Tanh三种激活函数中任意一种,邻接矩阵/> Wr (i)是每个关系对应一个的关系矩阵。通过图卷积神经网络GCN对知识图谱的实体/>的低级语义特征lv和关系/>的低级语义特征lr进行聚合传播得到知识图谱的实体v和关系r的高级语义结构特征hv和hr
嵌入神经网络Embedding和图卷积神经网络GCN之间的跳线连接Skip-connecting,这是为综合考虑低级和高级语义结构特征而设计的连接方式,图中嵌入神经网络Embedding输出的是实体和关系的低级语义特征,而经过图卷积神经网络GCN后的特征为包含知识图谱的拓扑结构信息的高级语义结构特征。通过实验表明,高级语义结构特征更加关注于实体和关系的类别、属性等特征,而低级语义特征则更加关注于具体样本的细节特征。将低级语义特征和高级语义结构特征融合得到知识图谱实体和关系/>的语义结构特征:
sv=e(v)=lv+hv
sr=e(r)=lr+hr
其中sv表示融合低级和高级语义特征的实体特征,sr表示融合低级和高级语义特征的关系特征,自动对比补全编码模块G,主要负责完成自动补全三元组的自监督学习任务,用于产生预测实体的上下文向量,其性能的好坏直接决定了整个模型的表征能力。选择能量函数TransE、DistMult和ConvE三者其中一个作为补全函数g()。自动对比补全编码网络得到预测的上下文向量包括以下步骤:
S1:当网络预测尾实体时,输入为头实体向量h和关系向量r的拼接向量(sh,sr),经补全函数g()作用,输出为预测的尾实体上下文向量c=g(sh,sr);
S2:当网络预测头实体时,输入为尾实体向量t和关系的逆向关系r-1的向量的拼接向量经补全函数g()作用,输出为预测的头实体上下文向量/>
实体银行Entity Bank的建立和正负样本采样的方法C3NCE,以及互信息估计的下界,满足其中I表示互消息,log()表示计算自然对数,/>表示损失函数。因此模型的效果与采样的样本数量N成正比,也就是说采样的数量越大,越接近互信息估计的理论下界,三元组补全和表征的效果就越好。为了增加采样样本的数量N,而不增加批大小batch size,本发明采用了存储银行Memory Bank的思想,使用了实体银行EntityBank来存储所有的正负样本,并对正负样本进行标记,这样在遍历所有的正样本时,大量的负样本不受批大小batch size限制,已经计算过并存储在实体银行Entity Bank中,只需要根据采样数N进行随机采样即可,避免了对负样本的重复计算,且当对所有负样本进行采样时,实体银行Entity Bank则能发挥最大的优势。实体银行Entity Bank的建立和正负样本采样的方法C3NCE包括以下步骤:
S1:补全尾实体。随机选取三元组集合中的一个三元组(h,r,t),然后用实体集/>里的所有实体依次替换其尾实体t,得到(h,r,t*),若/>则对于(h,r)而言,t*是正例t+,若/>则对于(h,r)而言,t*是负例t-,将正例t+和负例t-的向量表示存储在集合大小为/>的实体银行Entity Bank中;
S2:补全头实体。随机选取三元组集合中的一个三元组(t,r-1,h),然后用实体集里的所有实体依次替换其实体h,得到(t,r-1,h*),若/>则对于(t,r-1)而言,h*是正例h+,若/>则对于(t,r-1)而言,h*是负例h-,将正例h+和负例h-的向量表示存储在集合大小为/>的实体银行Entity Bank中;
S3:使用随机采样方法,从实体银行Entity Bank中采样1个正例和N-1个负例构成正负样本集合X={x0,x1,x2,…,xN-1},完成自监督噪声对比学习正负样本集合X的构造。
获得训练样本集合X后,计算多类交叉熵对比损失函数的方法NT-Xent。本发明计算的知识图谱表征的对比损失函数NT-Xent,其表达式为:
其中log表示自然对数,表示在正负样本集合X计算数学期望,/>表示多类交叉熵对比损失函数,下标N表示训练数据的数量,xi表示从正负样本集合中选取的第i个正样本,xj表示从正负样本集合中选取的第j个负样本,c表示上下文向量,f表示密度比函数,用以表示观测样本x与上下文向量c的概率密度比/>密度比函数f(x,c)=exp(score(e(x),c)),其中e()为语义特征提取函数,exp()表示以自然常数e为底的指数函数,x为样本数据,c=g(sv,sr),根据相似性假设设置新的打分函数score为带温度缩放因子的余弦相似度函数score(u,v)=(uTv/||u||||v||)/τ。然后,按照正负样本采样的方法C3NCE构造的正负样本集合X,根据密度比函数f计算多类交叉熵对比损失函数NT-Xent,并使用Adam优化器优化该目标函数训练S和G模块,得到知识图谱实体和关系的向量表示。
以上所述的具体实施方法,对本发明的目的,技术方案和有益效果进行了详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神原则之内,所做的任何修改、等同替换,改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于多类交叉熵对比补全编码的知识表示学习方法,其特征在于,包括以下步骤:
S1:采用语义结构特征提取的方法,通过嵌入神经网络Embedding提取实体和关系的低级语义特征,再通过图卷积神经网络GCN提取知识图谱高级语义结构特征,利用跳线连接Skip-connecting融合低级语义和高级语义结构特征;
S2:采用自动对比补全的编码方法,选择TransE、DistMult和ConvE三者其中之一作为补全函数g(),根据预测的实体位置不同,输入不同的拼接向量,具体地,当网络预测尾实体时,输入为头实体向量h和关系向量r的拼接向量(sh,sr),经补全函数g()作用,输出为预测的尾实体上下文向量c=g(sh,sr),当网络预测头实体时,输入为尾实体向量t和关系向量r-1的拼接向量经补全函数g()作用,输出为预测的头实体上下文向量/>
S3:采用实体银行Entity Bank的建立和正负样本采样的方法C3NCE,利用实体集中所有实体依次替换三元组中的头实体得到一批正负样本,再利用实体集中所有实体依次替换三元组中的尾实体得到另一批正负样本,两批正负样本合并构建正负样本集合并对其做标记,存储于实体银行Entity Bank中;
S4:采用计算多类交叉熵对比损失函数的方法NT-Xent,设置打分函数score为带温度缩放因子τ的余弦相似度函数为score(u,v)=(uTv/||u||||v||)/τ,其中u和v分别为需要计算余弦相似度的两个向量,而后设置密度比函数为f(x,c)=exp(score(e(x),c)),其中e()为语义特征提取函数,exp()表示以自然常数e为底的指数函数,c为上下文向量,x为样本数据,按照正负样本采样的方法C3NCE构造正负样本集合X,计算多类交叉熵对比损失函数,
其中log表示自然对数,表示在正负样本集合X计算数学期望,/>表示多类交叉熵对比损失函数,下标N表示训练数据的数量,xi表示从正负样本集合中选取的第i个正样本,xj表示从正负样本集合中选取的第j个负样本,c表示上下文向量,f表示密度比函数,训练模型自动完成三元组补全任务,并得到实体和关系的向量表示。
2.根据权利要求1所述的一种基于多类交叉熵对比补全编码的知识表示学习方法,其特征在于,上述步骤S1所述语义结构特征提取的方法包括以下步骤:
S11:首先进行知识图谱的基础符号定义,知识图谱定义为 是实体集合,/>是关系集合,/>是三元组集合,/>是逆向关系集合,/>任意三元组r-1是r的逆向关系,因此/> 语义特征提取函数为e();
S12:通过嵌入神经网络Embedding提取知识图谱实体的低级语义特征lv,以及关系/>的低级语义特征lr
S13:通过图卷积神经网络GCN对知识图谱实体的低级语义特征lv和关系/>的低级语义特征lr进行聚合传播得到知识图谱实体v、关系r的高级语义结构特征hv和hr
S14:在嵌入神经网络Embedding和图卷积神经网络GCN之间增加跳线连接Skip-connecting,将低级语义特征和高级语义结构特征融合得到知识图谱实体和关系的语义结构特征:
sv=e(v)=lv+hv
sr=e(r)=lr+hr
其中sv和sr分别表示实体融合特征和关系融合特征。
3.根据权利要求1所述的一种基于多类交叉熵对比补全编码的知识表示学习方法,其特征在于,上述步骤S3所述实体银行Entity Bank的建立和正负样本采样的方法C3NCE包括以下步骤:
S31:补全尾实体,随机选取三元组集合中的一个三元组(h,r,t),然后用实体集/>里的所有实体依次替换其尾实体t,得到(h,r,t*),若/>则对于(h,r)而言,t*是正例t+,若/>则对于(h,r)而言,t*是正例t-,将正例t+和负例t-的向量表示存储在集合大小为/>的实体银行Entity Bank中;
S32:补全头实体,随机选取三元组集合中的一个三元组(t,r-1,h),然后用实体集/>里的所有实体依次替换其实体h,得到(t,r-1,h*),若/>则对于(t,r-1)而言,h*是正例h+,若/>则对于(t,r-1)而言,h*是负例h-,将正例h+和负例h-的向量表示存储在集合大小为/>的实体银行Entity Bank中;
S33:使用随机采样方法,从实体银行Entity Bank中采样1个正例和N-1个负例构成正负样本集合X={x0,x1,x2,…,xN-1},完成自监督噪声对比估计正负样本集合X的构造。
CN202011545760.2A 2020-12-23 2020-12-23 一种基于多类交叉熵对比补全编码的知识表示学习方法 Active CN112699247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011545760.2A CN112699247B (zh) 2020-12-23 2020-12-23 一种基于多类交叉熵对比补全编码的知识表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011545760.2A CN112699247B (zh) 2020-12-23 2020-12-23 一种基于多类交叉熵对比补全编码的知识表示学习方法

Publications (2)

Publication Number Publication Date
CN112699247A CN112699247A (zh) 2021-04-23
CN112699247B true CN112699247B (zh) 2023-10-17

Family

ID=75509538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011545760.2A Active CN112699247B (zh) 2020-12-23 2020-12-23 一种基于多类交叉熵对比补全编码的知识表示学习方法

Country Status (1)

Country Link
CN (1) CN112699247B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190654A (zh) * 2021-05-08 2021-07-30 北京工业大学 一种基于实体联合嵌入和概率模型的知识图谱补全方法
CN113342995B (zh) * 2021-07-05 2022-12-02 成都信息工程大学 一种基于路径语义和特征提取的负样本提取方法
CN113469084B (zh) * 2021-07-07 2023-06-30 西安电子科技大学 基于对比生成对抗网络的高光谱图像分类方法
CN113641829B (zh) * 2021-07-13 2023-11-24 北京百度网讯科技有限公司 图神经网络的训练与知识图谱的补全方法、装置
CN113590843B (zh) * 2021-08-06 2023-06-23 中国海洋大学 一种融合分子结构特征的知识表示学习方法
CN113806561A (zh) * 2021-10-11 2021-12-17 中国人民解放军国防科技大学 一种基于实体属性的知识图谱事实补全方法
CN114330312B (zh) * 2021-11-03 2024-06-14 腾讯科技(深圳)有限公司 标题文本处理方法、装置、存储介质和程序
CN114117075B (zh) * 2021-11-30 2023-04-28 中山大学 基于语义对齐及对称结构编码的知识图谱补全方法及装置
CN114821500A (zh) * 2022-04-26 2022-07-29 清华大学 基于点云的多源特征融合的重定位方法及装置
CN114880527B (zh) * 2022-06-09 2023-03-24 哈尔滨工业大学(威海) 一种基于多预测任务的多模态知识图谱表示方法
CN115048538A (zh) * 2022-08-04 2022-09-13 中国科学技术大学 基于关系增强负采样的多模态知识图谱补全方法与系统
CN116994073B (zh) * 2023-09-27 2024-01-26 江西师范大学 一种自适应正负样本生成的图对比学习方法和装置
CN117688121B (zh) * 2024-02-04 2024-04-26 南京师范大学 SubGNN注入空间特征的地理知识图谱表示学习方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147450A (zh) * 2019-05-06 2019-08-20 北京科技大学 一种知识图谱的知识补全方法及装置
CN111026875A (zh) * 2019-11-26 2020-04-17 中国人民大学 一种基于实体描述和关系路径的知识图谱补全方法
CN111639196A (zh) * 2020-06-03 2020-09-08 核工业湖州工程勘察院有限公司 一种多层渐进增强的地灾知识图谱及其自动补全方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016223193A1 (de) * 2016-11-23 2018-05-24 Fujitsu Limited Verfahren und Vorrichtung zum Komplettieren eines Wissensgraphen

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147450A (zh) * 2019-05-06 2019-08-20 北京科技大学 一种知识图谱的知识补全方法及装置
CN111026875A (zh) * 2019-11-26 2020-04-17 中国人民大学 一种基于实体描述和关系路径的知识图谱补全方法
CN111639196A (zh) * 2020-06-03 2020-09-08 核工业湖州工程勘察院有限公司 一种多层渐进增强的地灾知识图谱及其自动补全方法

Also Published As

Publication number Publication date
CN112699247A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN112699247B (zh) 一种基于多类交叉熵对比补全编码的知识表示学习方法
He et al. AutoML: A survey of the state-of-the-art
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN110609897A (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN112395393B (zh) 一种基于多任务多示例的远程监督关系抽取方法
CN113516198B (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN107491782A (zh) 利用语义空间信息的针对少量训练数据的图像分类方法
CN115687610A (zh) 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质
CN115577283A (zh) 一种实体分类方法、装置、电子设备及存储介质
CN116152554A (zh) 基于知识引导的小样本图像识别系统
Srinivas et al. A comprehensive survey of techniques, applications, and challenges in deep learning: A revolution in machine learning
CN116385791A (zh) 基于伪标签的重加权半监督图像分类方法
Kumar et al. Mathematics for machine learning
Sun et al. Network structure and transfer behaviors embedding via deep prediction model
CN113722439B (zh) 基于对抗性类别对齐网络的跨领域情感分类方法及系统
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN111339256A (zh) 用于文本处理的方法和装置
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
Vento et al. Traps, pitfalls and misconceptions of machine learning applied to scientific disciplines
CN115599918B (zh) 一种基于图增强的互学习文本分类方法及系统
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN111126443A (zh) 基于随机游走的网络表示学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant