CN114117075A - 基于语义对齐及对称结构编码的知识图谱补全方法及装置 - Google Patents

基于语义对齐及对称结构编码的知识图谱补全方法及装置 Download PDF

Info

Publication number
CN114117075A
CN114117075A CN202111446963.0A CN202111446963A CN114117075A CN 114117075 A CN114117075 A CN 114117075A CN 202111446963 A CN202111446963 A CN 202111446963A CN 114117075 A CN114117075 A CN 114117075A
Authority
CN
China
Prior art keywords
path
entity
knowledge graph
vector
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111446963.0A
Other languages
English (en)
Other versions
CN114117075B (zh
Inventor
苏勤亮
徐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202111446963.0A priority Critical patent/CN114117075B/zh
Publication of CN114117075A publication Critical patent/CN114117075A/zh
Application granted granted Critical
Publication of CN114117075B publication Critical patent/CN114117075B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明提出一种基于语义对齐及对称结构编码的知识图谱补全方法及装置,涉及知识图谱补全的技术领域,基于训练集中三元组数据及三元组各部分的组合形成输入文本,然后构建知识图谱补全模型,包含有上、下路对称编码结构,利用对称编码均衡分配关系给实体做匹配,缓解了传统模型中链路预测中的不对称性问题,提升模型整体的预测性能,还将对比学习的框架引入,基于语义对齐损失函数,对比学习拉近同义三元组语义距离,增强三元组样本的语义特征,首先对比学习进行自监督训练,为增强对负样本的区分能力,还包含了负采样过程,后进行有监督训练分数拟合器,使得知识图谱补全不受限于原结构,提高了泛化能力及鲁棒性强,提升了知识图谱补全效果。

Description

基于语义对齐及对称结构编码的知识图谱补全方法及装置
技术领域
本发明涉及知识图谱补全的技术领域,更具体地,涉及一种基于语义对齐及对称结构编码的知识图谱补全方法及装置。
背景技术
知识图谱(Knowledge Graph)是显示知识发展进程与结构关系的一系列各种不同的图形,通过可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系,知识图谱本质上是一种语义网络,是真实世界信息的结构化表示。在一个KG中,节点表示实体,例如人和地点,标签是连接它们的关系类型,边是用关系连接两个实体的特定事实,由于KG能够以机器可读的方式对结构化、复杂的数据进行建模,因此它被广泛应用于各个领域,从问答到信息检索和基于内容的推荐系统,并且对于任何语义web项目都非常重要,作为结构化的知识引导系统更精准、高效地实现系统目标。通过知识图谱能够将Web上的信息、数据以及链接关系聚集为知识,使信息资源更易于计算、理解以及评价,并且形成一套Web语义知识库。
然而,知识图谱中实体间关系的缺失也给其实际的应用带来了很多问题,因此,知识图谱补全技术应运而生,目的就是为了补全图谱,适应性地添加图谱中节点的关联或者根据已经节点和关系推测目标节点,这种链路预测在做智能问答和智能推荐,如根据用户喜好进行购物推荐时起到关键作用,目前绝大多数知识图谱补全的模型使用原始的知识图谱元素来学习低维表示,称为知识图谱嵌入,然后利用它们来推断新的事实,主流的方法包括基于张量分解的模型、几何模型和深度学习模型。现有技术中公开了一种基于深度学习模型来实现知识图谱补全的方法,该方案中首先下载知识图谱并获取每个关系的文本描述,然后基于文本嵌入方式获取每个关系的向量初始化,再将每个关系的向量初始化输入到下载知识图谱中,得到新的知识图谱;基于用户提供待补全的三元组,将其头实体和尾实体输入至MSNN网络,在MSNN网络内,通过两个并行的子网络分别提取实体的上下文信息和关系路径特征;最后根据上下文信息和关系路径特征推断出缺失的关系,并补全到原知识图谱中。从整体上看,该专利的方案中提出的知识图谱补全方法基于深度神经网络训练推理的方式得出缺失的关系,然而这种方法仅考虑了知识图谱中的结构信息,一旦知识图谱有动态调整,比如增加结点或关系,模型都需要从头训练,因此,并不具备很强的泛化能力和鲁棒性,以智能搜索和智能问答为例,如果目标是图谱中的实体,当新增了搜索结果对应的实体节点时,整个实体库的嵌入需要重新训练,因为增加节点带来了拓扑图的改变,嵌入一旦改变了,补全的结果也会有差异,因此,基于原知识图谱结构的方法并不适用于动态变化的图谱,具有很大的局限性。
此外,在大多数KGs中,对于包含丰富语义信息的实体,有简明的描述,因此,利用嵌入带有文本的信息优化知识图谱的表征,可以更好地完成知识图谱的补全任务。但是,现存的基于文本的KGC模型,虽然已使用了预训练、微调等先进的自然语言处理(NLP)技术,却存在较严重的预测不对称问题,主要表现为:由头实体和关系预测尾实体的性能和由尾实体和关系预测头实体的性能差异巨大。
发明内容
为解决当前知识图谱的补全方式受限于原知识图谱的结构,且预测不对称的问题,本发明提出一种基于语义对齐及对称结构编码的知识图谱补全方法及装置,当节点关系变化时,可直接在原知识图谱结构模型上微调,鲁棒性强,缓解了传统应用知识图谱预测中结果的不对称性,提升了知识图谱补全效果。
为了达到上述技术效果,本发明的技术方案如下:
一种基于语义对齐及对称结构编码的知识图谱补全方法,包括以下步骤:
S1.将数据集划分为训练集、验证集和测试集,从训练集中获取原始知识图谱的三元组,包括头实体、关系及尾实体三部分,并创建实体集合和关系集合;
S2.将三元组的各部分组合,生成侧重头实体组合和侧重尾实体组合;
S3.构建知识图谱补全模型,包括上路文本编码器、与上路文本编码器对称的下路文本编码器、上路交互单元、与上路交互单元对称的下路交互单元及分数拟合器;
S4.侧重头实体组合及侧重尾实体组合分别输入知识图谱补全模型的下路文本编码器及上路文本编码器,分别生成下路编码向量与上路编码向量;
S5.将下路编码向量通过下路交互单元进行交互拼接,将上路编码向量通过上路交互单元进行交互拼接;
S6.经步骤S5后分别得到上路拼接向量v与下路拼接向量u,然后引入语义对齐损失函数,基于上路拼接向量v与下路拼接向量u训练上路文本编码器及下路文本编码器;
S7.对S1中的每一个三元组进行负采样,确定最终的负采样三元组,然后对每一个负采样三元组执行S2~S5,得到负采样三元组对应的下路拼接向量u';
S8.引入得分损失函数,将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,得到训练好的知识图谱补全模型;
S9.从测试集中选定缺失的三元组,将实体集合和关系集合作为候选集,缺失的三元组和候选集中的实体/关系输入知识图谱补全模型,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。
在本技术方案中,首先基于训练集中原始知识图谱三元组数据及三元组各部分的组合形成输入文本,然后构建知识图谱补全模型,模型中包含有上、下路对称编码结构,利用对称编码均衡分配关系给实体做匹配,缓解了传统模型中链路预测中的不对称性问题,提升模型整体的预测性能,还将对比学习的框架引入,基于语义对齐损失函数,对比学习拉近同义三元组语义距离,增强三元组样本的语义特征,整个过程先对比学习进行自监督训练,为增强模型对负样本的区分能力,还包含了负采样过程,后进行有监督训练分数拟合器,使得知识图谱补全不受限于原知识图谱的结构,提高了泛化能力及鲁棒性强,提升了知识图谱补全效果。
优选地,步骤S2中,设h代表头实体,r代表关系,t代表尾实体,将三元组的各部分组合时,以头实体和关系、尾实体为一路输入(h+r,t),形成侧重头实体组合:Hh与Ht,对应输入文本表示为:
Hh=[<CLS>,x(h),<SEP>,x(r),<SEP>],
Ht=[<CLS>,x(t),<SEP>],
以尾实体和关系、头实体为另一路输入(h,r+t),形成侧重尾实体组合:Th与Tt,对应输入文本表示为:
Th=[<CLS>,x(h),<SEP>],
Tt=[<CLS>,x(r),<SEP>,x(t),<SEP>],
Transformer架构是仅用attention来做特征抽取的模型,在此,<CLS>和<SEP>分别为Tansformer架构中用于分类和句子分离的特殊token,x(h)是头实体对应的文本内容里的字符,x(r)是关系实体对应的文本字符,x(t)是尾实体对应的文本字符,x(h)、x(r)、x(t)与特殊token拼接形成两路输入。
在此,通过组合三元组的不同部分生成一条三元组的两种两路组合的文本输入,充分利用了知识库里的文本信息。
优选地,步骤S3中上路文本编码器与下路文本编码器结构对称,均选用基于transformer的预模型,定义为Transfomer-Enc,上路交互单元与下路交互单元结构对称,均定义为InterTrans-Enc,对称的架构以便基于侧重头实体组合及侧重尾实体组合均衡生成关系和头实体、关系和尾实体的组合,双塔的输入结构保证了推理的性能,使整个模型相比于单塔降低推理时长之外,还缓解链路预测中的不对称性,提升模型整体的预测性能。
优选地,步骤S4中,侧重头实体组合Hh与Ht输入下路文本编码器,通过下路文本编码器生成下路编码向量,表征为:
uh=Transformer-Enc(Hh)[0],
ut=Transformer-Enc(Ht)[0]
侧重尾实体组合Th与Tt输入上路文本编码器,通过上路文本编码器生成下路编码向量,表征为:
vh=Transformer_Enc(Th)[0],
vt=Transformer_Enc(Tt)[0]
其中,下标[0]表示经过Transformer-Enc的特殊token【CLS】后对应的向量,由于【CLS】在每一路输入文本中被放置在第一个位置,所以对应[0]下标。
优选地,步骤S5中,将上路编码向量通过上路交互单元进行交互拼接时,满足:
v=[vh;vh×vt;vh-vt;vt]
其中,v表示上路拼接向量;
将下路编码向量通过下路交互单元进行交互拼接时,满足:
u=[uh;uh×ut;uh-ut;ut]
其中,u表示下路拼接向量,u,v彼此构成正样本。
优选地,设经步骤S5后,输出的下路拼接向量集合表示为
Figure BDA0003384169480000041
上路拼接向量集合表示为v={v1,…,vb},b表示下路拼接向量中元素的个数;步骤S6所述语义对齐损失函数的表达式为:
Figure BDA0003384169480000051
其中,
Figure BDA0003384169480000052
表示语义对齐损失函数;
Figure BDA0003384169480000053
τ表示温度系数,作用是调节对困难样本的关注程度,越小的温度系数越关注于将本样本和最相似的其他样本分开;将下路拼接向量集合
Figure BDA0003384169480000054
与上路拼接向量集合
Figure BDA0003384169480000055
中的向量取出,基于对齐损失函数做对比学习对齐u,v的语义,训练上路文本编码器及下路文本编码器,以调整两路文本编码器共享的权重参数。
在此,调整了知识库中三元组的独立语义表征,使其与其他三元组拉开空间距离,在链路预测时可以更高效地召回正确的候选实体,强化一条文本两种解释的共同语义,是一种更具独立性的表征,可以生成更具表现力的三元组关系表示。
优选地,步骤S7所述对S1中的每一个三元组进行负采样时,基于关系过滤的负样本采样策略实现,设传统负采样满足:
Figure BDA0003384169480000056
Figure BDA0003384169480000057
Figure BDA0003384169480000058
其中,集合
Figure BDA0003384169480000059
表示负样本采样的结果,由头实体替换后的
Figure BDA00033841694800000510
和尾实体替换后的
Figure BDA00033841694800000511
组成;
增强两个约束条件,采样到困难负样本
Figure BDA00033841694800000512
Figure BDA00033841694800000513
Figure BDA00033841694800000514
Figure BDA00033841694800000515
其中,
Figure BDA00033841694800000516
Figure BDA00033841694800000517
分别被定义为:
Figure BDA00033841694800000518
Figure BDA00033841694800000519
在此,增加了采样的限制条件,利用关系过滤的机制优先选择困难负样本进行训练,让知识图谱补全模型更具备对负样本的区分能力。
优选地,步骤S8中引入的得分损失函数表达式为:
Figure BDA00033841694800000520
其中,Loss表示得分损失函数;
Figure BDA00033841694800000521
表示第一损失函数,表达式为:
Figure BDA0003384169480000061
其中,φ+表示三元组正样本,φ-对应S7中采样到的困难负样本,q(φ+)和q(φ-)分别表示正负三元组的分布;函数
Figure BDA0003384169480000062
表示对样本空间中的所有样本点映射到一个非概率的标量值;
Figure BDA0003384169480000063
表示第二损失函数,由距离估计定义,表达式为:
Figure BDA0003384169480000064
其中,d=-‖uh-ut2,d′代表负样本对应的uh和ut的距离计算结果;λ表示边距;将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,通过反向传播不断调整原始上路文本编码器与下路文本编码器共享的权重参数,直至得分损失函数收敛,得到训练好的知识图谱补全模型。
在此,在引入语义对齐损失函数对比学习拉近u,v构成的正样本的语义后,通过第二阶段的得分损失函数,考虑负样本,进一步训练模型区分真假样本的能力。
优选地,步骤S9所述从测试集中选定的缺失的三元组为缺失头实体的三元组或缺失尾实体的三元组,将实体集合和关系集合作为候选集,缺失头实体的三元组或缺失尾实体的三元组与候选集中的实体/关系均输入知识图谱补全模型,其中,缺失头实体的三元组输入知识图谱补全模型的下路文本编码器,缺失尾实体的三元组输入知识图谱补全模型的上路文本编码器,利用分数拟合器输出缺失头实体或尾实体的三元组与候选集中的实体/关系的匹配得分,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。
本发明还提出一种基于语义对齐及对称结构编码的知识图谱补全装置,所述装置包括:
数据集预处理模块,用于将数据集划分为训练集、验证集和测试集,从训练集中获取原始知识图谱的三元组,包括头实体、关系及尾实体三部分,并创建实体集合和关系集合;
组合输入文本生成模块,用于将三元组的各部分组合,生成侧重头实体组合和侧重尾实体组合;
知识图谱补全模型构建模块,用于构建知识图谱补全模型;
文本编码器,属于知识图谱补全模型,包括下路文本编码器及上路文本编码器,在侧重头实体组合及侧重尾实体组合分别输入时,分别编码生成下路编码向量与上路编码向量;
交互拼接单元,属于知识图谱补全模型,包括下路交互单元与上路交互单元,分别用于下路编码向量的交互拼接及上路编码向量的交互拼接,分别得到上路拼接向量v与下路拼接向量u;
语义对齐模块,用于引入语义对齐损失函数,基于上路拼接向量v与下路拼接向量u训练上路文本编码器及下路文本编码器;
负采样策略模块,用于对原始原始知识图谱中的每一个三元组进行负采样,确定最终的负采样三元组以及负采样三元组对应的下路拼接向量u';
训练模块,用于引入得分损失函数,将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,得到训练好的知识图谱补全模型;
测试模块,用于从测试集中选定缺失的三元组,将实体集合和关系集合作为候选集,缺失的三元组和候选集中的实体/关系输入知识图谱补全模型,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于语义对齐及对称结构编码的知识图谱补全方法及装置,首先基于训练集中原始知识图谱三元组数据及三元组各部分的组合形成输入文本,然后构建知识图谱补全模型,模型中包含有上、下路对称编码结构,利用对称编码均衡分配关系给实体做匹配,缓解了传统模型中链路预测中的不对称性问题,提升模型整体的预测性能,还将对比学习的框架引入,基于语义对齐损失函数,对比学习拉近同义三元组语义距离,增强三元组样本的语义特征,整个过程先对比学习进行自监督训练,为增强模型对负样本的区分能力,还包含了负采样过程,后进行有监督训练分数拟合器,使得知识图谱补全不受限于原知识图谱的结构,提高了泛化能力及鲁棒性强,提升了知识图谱补全效果。
附图说明
图1表示本发明实施例1中提出的基于语义对齐及对称结构编码的知识图谱补全方法的流程示意图;
图2表示基于本发明实施例1中提出的知识图谱补全模型进行知识图谱补全的整体过程示意图;
图3表示本发明实施例1中提出的基于关系过滤的负样本采样策略的示意图;
图4表示本发明实施例3中提出的基于语义对齐及对称结构编码的知识图谱补全的系统结构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本发明在实施例1中提出一种基于基于语义对齐及对称结构编码的知识图谱补全方法,所述方法的流程示意图如图1所示,具体包括以下步骤:
S1.将数据集划分为训练集、验证集和测试集,从训练集中获取原始知识图谱的三元组,包括头实体、关系及尾实体三部分,并创建实体集合和关系集合;在本实施例中,以WN18RR、FB15K-237、UMLS数据集为典型代表,首先划分好数据集的训练集、验证集和测试集,WN18RR数据集包含实体40943个,关系11种,训练集大小:86835,验证集大小:3034,测试集大小3134;FB15k-237数据集包含实体14541个,关系237种,训练集大小:272115,验证集大小:17535,测试集大小:652;UMLS数据集包含实体135个,关系46种,训练集大小:5216,验证集大小:652,测试集大小:661。取出训练集原始知识图谱中的三元组,创建实体集合和关系集合,并绑定实体或关系对应的名称和描述文本,存储在原始KG的字典中。
S2.将三元组的各部分组合,生成侧重头实体组合和侧重尾实体组合;
此步骤是通过充分利用知识库里的文本信息,组合三元组的不同部分生成一条三元组的两种两路组合的文本输入,使之成为标准输入文本范式。具体的:设h代表头实体,r代表关系,t代表尾实体,将三元组的各部分组合时,以头实体和关系、尾实体为一路输入(h+r,t),形成侧重头实体组合:Hh与Ht,对应输入文本表示为:
Hh=[<CLS>,x(h),<SEP>,x(r),<SEP>],
Ht=[<CLS>,x(t),<SEP>],
以尾实体和关系、头实体为另一路输入(h,r+t),形成侧重尾实体组合:Th与Tt,对应输入文本表示为:
Th=[<CLS>,x(h),<SEP>],
Tt=[<CLS>,x(r),<SEP>,x(t),<SEP>],
Transformer架构是仅用attention来做特征抽取的模型,在此,<CLS>和<SEP>分别为Tansformer架构中用于分类和句子分离的特殊token,x(h)是头实体对应的文本内容里的字符,x(r)是关系实体对应的文本字符,x(t)是尾实体对应的文本字符,x(h)、x(r)、x(t)与特殊token拼接形成两路输入,步骤S2中形成的这两路输入,一路输入包含两条文本,由头实体和关系构成一条文本,尾实体构成独立的文本,记作Hh、Ht,另一路输入由尾实体和关系构成一条文本,头实体构成独立的文本Th、Tt
S3.构建知识图谱补全模型,包括上路文本编码器、与上路文本编码器对称的下路文本编码器、上路交互单元、与上路交互单元对称的下路交互单元及分数拟合器,知识图谱补全模型结构可参见图2,上路文本编码器与下路文本编码器结构对称,均选用基于transformer的预模型,定义为Transfomer-Enc,在本实施例中选取RoBERTa,上路交互单元与下路交互单元结构对称,均定义为InterTrans-Enc,分数拟合器在下路交互单元InterTrans-Enc后,图2中描述为Score Fitting Stage,这种对称的架构以便基于侧重头实体组合及侧重尾实体组合均衡生成关系和头实体、关系和尾实体的组合,双塔的输入结构保证了推理的性能,使整个模型相比于单塔降低推理时长之外,还缓解链路预测中的不对称性,提升模型整体的预测性能。
S4.侧重头实体组合及侧重尾实体组合分别输入知识图谱补全模型的下路文本编码器及上路文本编码器,分别生成下路编码向量与上路编码向量;
参见图2,侧重头实体组合Hh与Ht输入下路文本编码器,通过下路文本编码器生成下路编码向量,表征为:
uh=Transformer-Enc(Hh)[0],
ut=Transformer-Enc(Ht)[0]
侧重尾实体组合Th与Tt输入上路文本编码器,通过上路文本编码器生成下路编码向量,表征为:
vh=Transformer_Enc(Th)[0],
vt=Transformer_Enc(Tt)[0]
其中,下标[0]表示经过Transformer-Enc的特殊token【CLS】后对应的向量,由于【CLS】在每一路输入文本中被放置在第一个位置,所以对应[0]下标,在通过上下路的文本编码器编码之后,准备进入交互拼接操作,执行步骤S5:
S5.将下路编码向量通过下路交互单元进行交互拼接,将上路编码向量通过上路交互单元进行交互拼接,通过交互的方式拼接一路中的两条向量从而确定一条embedding对应表征一种文本组合,定义交互后的两条表征为u,v;上路编码向量通过上路交互单元进行交互拼接时,满足:
v=[vh;vh×vt;vh-vt;vt]
其中,v表示上路拼接向量,该过程可参见图2所示的上路vh与vt通过InterTrans-Enc单元交互拼接的过程。
将下路编码向量通过下路交互单元进行交互拼接时,满足:
u=[uh;uh×ut;uh-ut;ut]
其中,u表示下路拼接向量,该过程可参见图2所示的下路uh与ut通过InterTrans-Enc单元交互拼接的过程,最终,u,v彼此构成正样本,uh、ut、vh、vt分别从前序步骤中获得,此处做信息融合,也即把表征向量交互在一起,选取了乘积、相减等方式。
S6.经步骤S5后分别得到了上路拼接向量v与下路拼接向量u,然后引入语义对齐损失函数,基于上路拼接向量v与下路拼接向量u训练上路文本编码器及下路文本编码器;
设经步骤S5后,输出的下路拼接向量集合表示为
Figure BDA0003384169480000101
上路拼接向量集合表示为
Figure BDA0003384169480000102
b表示下路拼接向量中元素的个数;将u,v两条表征取出来,使u、v彼此构成正样本,为了对齐u,v的语义空间,首先提出一个距离度量来判断它们的语义差异,然后最小化相应的差距。目前,有很多距离度量可以用来实现这个目标,比如欧拉距离和余弦相似度。然而,这种简单的距离度量效果不好,因为,欧拉距离和余弦测度都只负责让u,v两条表征更接近,而根本不考虑保留它们的语义信息,都倾向于折叠成一个点,丢弃三元组中包含的所有有意义的语义信息。为了在保留语义信息的同时对齐两个表示,将两种类型的连接视为三元组关系的视图,上下路文本编码器类Transformer-Enc似于对比学习的模型架构,以此,引入第一阶段训练:对比学习,具体表征可参见图2,u、v进入做对比学习的阶段,可描述为:Contrastive Learning Stage,该阶段中提出的语义对齐损失函数表达式为:
Figure BDA0003384169480000111
其中,
Figure BDA0003384169480000112
表示语义对齐损失函数;
Figure BDA0003384169480000113
τ表示温度系数,作用是调节对困难样本的关注程度,越小的温度系数越关注于将本样本和最相似的其他样本分开;将下路拼接向量集合
Figure BDA0003384169480000114
与上路拼接向量集合
Figure BDA0003384169480000115
中的向量取出,基于对齐损失函数做对比学习对齐u,v的语义,训练上路文本编码器及下路文本编码器,以调整上路文本编码器及下路文本编码器的共享参数,这里训练采用常规的训练方式,此处不再赘述。
除了原KG中的三元组(既定事实),知识图谱补全模型还需要负样本提升区别真假三元组的能力,因此,执行步骤S7:
S7.对S1中的每一个三元组进行负采样,确定最终的负采样三元组,然后对每一个负采样三元组执行S2~S5,得到负采样三元组对应的下路拼接向量u';
在对比学习拉近正样本的语义后,进一步训练模型的评估估计能力。提出第二阶段训练以及匹配得分拟合,执行步骤S8:
S8.引入得分损失函数,将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,得到训练好的知识图谱补全模型;
引入的得分损失函数表达式为:
Figure BDA0003384169480000116
其中,Loss表示得分损失函数;
Figure BDA0003384169480000117
表示第一损失函数,表达式为:
Figure BDA0003384169480000118
其中,φ+表示三元组正样本,φ-对应S7中采样到的困难负样本,q(φ+)和q(φ-)分别表示正负三元组的分布;函数
Figure BDA0003384169480000119
表示对样本空间中的所有样本点映射到一个非概率的标量值;
Figure BDA00033841694800001110
表示第二损失函数,由距离估计定义,表达式为:
Figure BDA00033841694800001111
其中,d=-‖uh-ut2,d′代表负样本对应的uh和ut的距离计算结果;λ表示边距;将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,在训练分数拟合阶段,具体可参见图2,该过程中通过损失函数的值以及得分,基于反向传播的方式不断调整原始上路文本编码器与下路文本编码器共享的权重参数,直至得分损失函数收敛,得到训练好的知识图谱补全模型。
S9.从测试集中选定缺失的三元组,将实体集合和关系集合作为候选集,缺失的三元组和候选集中的实体/关系输入知识图谱补全模型,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。
从测试集中选定的缺失的三元组为缺失头实体的三元组或缺失尾实体的三元组,将实体集合和关系集合作为候选集,缺失头实体的三元组或缺失尾实体的三元组与候选集中的实体/关系均输入知识图谱补全模型,其中,缺失头实体的三元组输入知识图谱补全模型的下路文本编码器,缺失尾实体的三元组输入知识图谱补全模型的上路文本编码器,利用分数拟合器输出缺失头实体或尾实体的三元组与候选集中的实体/关系的匹配得分,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。以图2所示的过程为例,输入的三元组有(Steven Jobs,Founded,Apple),这是正样本,进入模型后续进行对齐学习,该过程中还引入困难负样本分别是(Bill Gates,Founded,Apple)与(Steven Jobs,Founded,Microsoft),假设测试时,输入的三元组为缺失头实体即“Steven Jobs”的三元组(,Founded,Apple)或缺失尾实体“Apple”的三元组(Steven Jobs,Founded,),对于候选集中的头实体可能有多种人物,尾实体可能有微软、苹果、华为、小米、三星等,这样共同输入后,通过分数拟合器,与候选集中的实体(头实体或尾实体)匹配得分最高的,则作为补全三元组的实体。
整体的技术实施过程如下:首先基于训练集中原始知识图谱三元组数据及三元组各部分的组合形成输入文本,然后构建知识图谱补全模型,模型中包含有上、下路对称编码结构,利用对称编码均衡分配关系给实体做匹配,缓解了传统模型中链路预测中的不对称性问题,提升模型整体的预测性能,还将对比学习的框架引入,基于语义对齐损失函数,对比学习拉近同义三元组语义距离,增强三元组样本的语义特征,整个过程先对比学习进行自监督训练,为增强模型对负样本的区分能力,还包含了负采样过程,后进行有监督训练分数拟合器,使得知识图谱补全不受限于原知识图谱的结构,提高了泛化能力及鲁棒性强,提升了知识图谱补全效果。
实施例2
在实现最终知识图谱补全的过程中,为了提高模型区分真假样本的能力,本实施例中针对负采样的过程进行说明,对每一个三元组进行负采样时,基于关系过滤的负样本采样策略实现,设定随机种子,随机替换头实体h或者尾实体t,并且保证被替换后的三元组不存在与原来的KG中,传统负采样一般策略满足:
Figure BDA0003384169480000131
Figure BDA0003384169480000132
Figure BDA0003384169480000133
其中,集合
Figure BDA0003384169480000134
表示负样本采样的结果,由头实体替换后的
Figure BDA0003384169480000135
和尾实体替换后的
Figure BDA0003384169480000136
组成;
增强两个约束条件,过程可参考图3,记作:
Figure BDA0003384169480000137
Figure BDA0003384169480000138
最终取加入约束条件后的集合,也就是:
Figure BDA0003384169480000139
Figure BDA00033841694800001310
通过增加采样的限制条件,利用关系过滤的机制优先选择困难负样本进行训练,让知识图谱补全模型更具备对负样本的区分能力,困难负样本参与知识图谱补全训练的过程参见图2,当然,不能保证这样的负样本个数满足模型设定的采样参数,所以该策略在具体实施的时候是一种优先采样策略。即在采样时,优先选取加了约束条件的样本,且是无放回采样,避免重复。当没有此类样本时,可以把约束条件去掉,按照普通采样的模式进行采样。总体上,这样加强约束的目的是采样到真正的困难样本(容易被模型误判的样本),只有高效的负采样才能让模型训练出对正负样本的区分能力。
实施例3
如图4所示,本发明还提出一种基于语义对齐及对称结构编码的知识图谱补全装置,用于实现实施例1提出的基于语义对齐及对称结构编码的知识图谱补全装置,所述装置包括:
数据集预处理模块,用于将数据集划分为训练集、验证集和测试集,从训练集中获取原始知识图谱的三元组,包括头实体、关系及尾实体三部分,并创建实体集合和关系集合;
组合输入文本生成模块,用于将三元组的各部分组合,生成侧重头实体组合和侧重尾实体组合;
知识图谱补全模型构建模块,用于构建知识图谱补全模型;
文本编码器,属于知识图谱补全模型,包括下路文本编码器及上路文本编码器,在侧重头实体组合及侧重尾实体组合分别输入时,分别编码生成下路编码向量与上路编码向量;
交互拼接单元,属于知识图谱补全模型,包括下路交互单元与上路交互单元,分别用于下路编码向量的交互拼接及上路编码向量的交互拼接,分别得到上路拼接向量v与下路拼接向量u;
语义对齐模块,用于引入语义对齐损失函数,基于上路拼接向量v与下路拼接向量u训练上路文本编码器及下路文本编码器;
负采样策略模块,用于对原始原始知识图谱中的每一个三元组进行负采样,确定最终的负采样三元组以及负采样三元组对应的下路拼接向量u';
训练模块,用于引入得分损失函数,将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,得到训练好的知识图谱补全模型;
测试模块,用于从测试集中选定缺失的三元组,将实体集合和关系集合作为候选集,缺失的三元组和候选集中的实体/关系输入知识图谱补全模型,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于语义对齐及对称结构编码的知识图谱补全方法,其特征在于,包括以下步骤:
S1.将数据集划分为训练集、验证集和测试集,从训练集中获取原始知识图谱的三元组,包括头实体、关系及尾实体三部分,并创建实体集合和关系集合;
S2.将三元组的各部分组合,生成侧重头实体组合和侧重尾实体组合;
S3.构建知识图谱补全模型,包括上路文本编码器、与上路文本编码器对称的下路文本编码器、上路交互单元、与上路交互单元对称的下路交互单元及分数拟合器;
S4.侧重头实体组合及侧重尾实体组合分别输入知识图谱补全模型的下路文本编码器及上路文本编码器,分别生成下路编码向量与上路编码向量;
S5.将下路编码向量通过下路交互单元进行交互拼接,将上路编码向量通过上路交互单元进行交互拼接;
S6.经步骤S5后分别得到上路拼接向量v与下路拼接向量u,然后引入语义对齐损失函数,基于上路拼接向量v与下路拼接向量u训练上路文本编码器及下路文本编码器;
S7.对S1中的每一个三元组进行负采样,确定最终的负采样三元组,然后对每一个负采样三元组执行S2~S5,得到负采样三元组对应的下路拼接向量u';
S8.引入得分损失函数,将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,得到训练好的知识图谱补全模型;
S9.从测试集中选定缺失的三元组,将实体集合和关系集合作为候选集,缺失的三元组和候选集中的实体/关系输入知识图谱补全模型,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。
2.根据权利要求1所述的基于语义对齐及对称结构编码的知识图谱补全方法,其特征在于,步骤S2中,设h代表头实体,r代表关系,t代表尾实体,将三元组的各部分组合时,以头实体和关系、尾实体为一路输入(h+r,t),形成侧重头实体组合:Hh与Ht,对应输入文本表示为:
Hh=[<CLS>,x(h),<SEP>,x(r),<SEP>],
Ht=[<CLS>,x(t),<SEP>],
以尾实体和关系、头实体为另一路输入(h,r+t),形成侧重尾实体组合:Th与Tt,对应输入文本表示为:
Th=[<CLS>,x(h),<SEP>],
Tt=[<CLS>,x(r),<SEP>,x(t),<SEP>],
Transformer架构是仅用attention来做特征抽取的模型,在此,<CLS>和<SEP>分别为Tansformer架构中用于分类和句子分离的特殊token,x(h)是头实体对应的文本内容里的字符,x(r)是关系实体对应的文本字符,x(t)是尾实体对应的文本字符,x(h)、x(r)、x(t)与特殊token拼接形成两路输入。
3.根据权利要求2所述的基于语义对齐及对称结构编码的知识图谱补全方法,其特征在于,步骤S3中上路文本编码器与下路文本编码器结构对称,均选用基于transformer的预模型,定义为Transfomer-Enc,上路交互单元与下路交互单元结构对称,均定义为InterTrans-Enc。
4.根据权利要求3所述的基于语义对齐及对称结构编码的知识图谱补全方法,其特征在于,步骤S4中,侧重头实体组合Hh与Ht输入下路文本编码器,通过下路文本编码器生成下路编码向量,表征为:
uh=Transformer-Enc(Hh)[0],
ut=Transformer-Enc(Ht)[0]
侧重尾实体组合Th与Tt输入上路文本编码器,通过上路文本编码器生成下路编码向量,表征为:
vh=Transformer_Enc(Th)[0],
vt=Transformer_Enc(Tt)[0]
其中,下标[0]表示经过Transformer-Enc的特殊token【CLS】后对应的向量,由于【CLS】在每一路输入文本中被放置在第一个位置,所以对应[0]下标。
5.根据权利要求4所述的基于语义对齐及对称结构编码的知识图谱补全方法,其特征在于,步骤S5中,将上路编码向量通过上路交互单元进行交互拼接时,满足:
v=[vh;vh×vt;vh-vt;vt]
其中,v表示上路拼接向量;
将下路编码向量通过下路交互单元进行交互拼接时,满足:
u=[uh;uh×ut;uh-ut;ut]
其中,u表示下路拼接向量,u,v彼此构成正样本。
6.根据权利要求5所述的基于语义对齐及对称结构编码的知识图谱补全方法,其特征在于,设经步骤S5后,输出的下路拼接向量集合表示为
Figure FDA0003384169470000031
上路拼接向量集合表示为
Figure FDA0003384169470000032
b表示下路拼接向量中元素的个数;步骤S6所述语义对齐损失函数的表达式为:
Figure FDA0003384169470000033
其中,
Figure FDA0003384169470000034
表示语义对齐损失函数;
Figure FDA0003384169470000035
τ表示温度系数,作用是调节对困难样本的关注程度,越小的温度系数越关注于将本样本和最相似的其他样本分开;将下路拼接向量集合
Figure FDA0003384169470000036
与上路拼接向量集合
Figure FDA0003384169470000037
中的向量取出,基于对齐损失函数做对比学习对齐u,v的语义,训练上路文本编码器及下路文本编码器,以调整两路文本编码器共享的权重参数。
7.根据权利要求6所述的基于语义对齐及对称结构编码的知识图谱补全方法,其特征在于,步骤S7所述对S1中的每一个三元组进行负采样时,基于关系过滤的负样本采样策略实现,设传统负采样满足:
Figure FDA0003384169470000038
Figure FDA0003384169470000039
Figure FDA00033841694700000310
其中,集合
Figure FDA00033841694700000311
表示负样本采样的结果,由头实体替换后的
Figure FDA00033841694700000312
和尾实体替换后的
Figure FDA00033841694700000313
组成;
增强两个约束条件,采样到困难负样本
Figure FDA00033841694700000314
Figure FDA00033841694700000315
Figure FDA00033841694700000316
Figure FDA00033841694700000317
其中,
Figure FDA00033841694700000318
Figure FDA00033841694700000319
分别被定义为:
Figure FDA00033841694700000320
Figure FDA00033841694700000321
8.根据权利要求7所述的基于语义对齐及对称结构编码的知识图谱补全方法,其特征在于,步骤S8中引入的得分损失函数表达式为:
Figure FDA0003384169470000041
其中,Loss表示得分损失函数;
Figure FDA0003384169470000042
表示第一损失函数,表达式为:
Figure FDA0003384169470000043
其中,φ+表示三元组正样本,φ-对应S7中采样到的困难负样本,q(φ+)和q(φ-)分别表示正负三元组的分布;函数
Figure FDA0003384169470000044
表示对样本空间中的所有样本点映射到一个非概率的标量值;
Figure FDA0003384169470000045
表示第二损失函数,由距离估计定义,表达式为:
Figure FDA0003384169470000046
其中,d=-‖uh-ut2,d′代表负样本对应的uh和ut的距离计算结果;λ表示边距;将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,通过反向传播不断调整原始上路文本编码器与下路文本编码器共享的权重参数,直至得分损失函数收敛,得到训练好的知识图谱补全模型。
9.根据权利要求8所述的基于语义对齐及对称结构编码的知识图谱补全方法,其特征在于,步骤S9所述从测试集中选定的缺失的三元组为缺失头实体的三元组或缺失尾实体的三元组,将实体集合和关系集合作为候选集,缺失头实体的三元组或缺失尾实体的三元组与候选集中的实体/关系均输入知识图谱补全模型,其中,缺失头实体的三元组输入知识图谱补全模型的下路文本编码器,缺失尾实体的三元组输入知识图谱补全模型的上路文本编码器,利用分数拟合器输出缺失头实体或尾实体的三元组与候选集中的实体/关系的匹配得分,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。
10.一种基于语义对齐及对称结构编码的知识图谱补全装置,其特征在于,所述装置包括:
数据集预处理模块,用于将数据集划分为训练集、验证集和测试集,从训练集中获取原始知识图谱的三元组,包括头实体、关系及尾实体三部分,并创建实体集合和关系集合;
组合输入文本生成模块,用于将三元组的各部分组合,生成侧重头实体组合和侧重尾实体组合;
知识图谱补全模型构建模块,用于构建知识图谱补全模型;
文本编码器,属于知识图谱补全模型,包括下路文本编码器及上路文本编码器,在侧重头实体组合及侧重尾实体组合分别输入时,分别编码生成下路编码向量与上路编码向量;
交互拼接单元,属于知识图谱补全模型,包括下路交互单元与上路交互单元,分别用于下路编码向量的交互拼接及上路编码向量的交互拼接,分别得到上路拼接向量v与下路拼接向量u;
语义对齐模块,用于引入语义对齐损失函数,基于上路拼接向量v与下路拼接向量u训练上路文本编码器及下路文本编码器;
负采样策略模块,用于对原始原始知识图谱中的每一个三元组进行负采样,确定最终的负采样三元组以及负采样三元组对应的下路拼接向量u';
训练模块,用于引入得分损失函数,将下路拼接向量u和u'输入分数拟合器,以验证集的实体/关系为指导,训练分数拟合器,得到训练好的知识图谱补全模型;
测试模块,用于从测试集中选定缺失的三元组,将实体集合和关系集合作为候选集,缺失的三元组和候选集中的实体/关系输入知识图谱补全模型,将分数拟合器最终输出的分数按从高到低排序,取最高分数对应的候选集中的实体/关系,作为缺失的三元组待补全的内容。
CN202111446963.0A 2021-11-30 2021-11-30 基于语义对齐及对称结构编码的知识图谱补全方法及装置 Active CN114117075B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111446963.0A CN114117075B (zh) 2021-11-30 2021-11-30 基于语义对齐及对称结构编码的知识图谱补全方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111446963.0A CN114117075B (zh) 2021-11-30 2021-11-30 基于语义对齐及对称结构编码的知识图谱补全方法及装置

Publications (2)

Publication Number Publication Date
CN114117075A true CN114117075A (zh) 2022-03-01
CN114117075B CN114117075B (zh) 2023-04-28

Family

ID=80368777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111446963.0A Active CN114117075B (zh) 2021-11-30 2021-11-30 基于语义对齐及对称结构编码的知识图谱补全方法及装置

Country Status (1)

Country Link
CN (1) CN114117075B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723073A (zh) * 2022-06-07 2022-07-08 阿里健康科技(杭州)有限公司 语言模型预训练、产品搜索方法、装置以及计算机设备
CN114860955A (zh) * 2022-05-21 2022-08-05 大连海洋大学 水产医学知识图谱补全方法、混合卷积模型及其训练方法和设备
CN115099606A (zh) * 2022-06-21 2022-09-23 厦门亿力吉奥信息科技有限公司 一种电网调度模型的训练方法及终端
CN115422369A (zh) * 2022-08-30 2022-12-02 中国人民解放军国防科技大学 基于改进TextRank的知识图谱补全方法和装置
CN115564049A (zh) * 2022-12-06 2023-01-03 北京航空航天大学 一种双向编码的知识图谱嵌入方法
CN115827883A (zh) * 2022-06-24 2023-03-21 南瑞集团有限公司 一种自监督图对齐的多语言知识图谱补全方法和系统
CN117851615A (zh) * 2024-03-06 2024-04-09 云南师范大学 一种基于Transformer的关系模式自适应对比学习知识图谱嵌入方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291139A (zh) * 2020-03-17 2020-06-16 中国科学院自动化研究所 基于注意力机制的知识图谱长尾关系补全方法
CN112699247A (zh) * 2020-12-23 2021-04-23 清华大学 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN112836064A (zh) * 2021-02-24 2021-05-25 吉林大学 知识图谱补全方法、装置、存储介质及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291139A (zh) * 2020-03-17 2020-06-16 中国科学院自动化研究所 基于注意力机制的知识图谱长尾关系补全方法
CN112699247A (zh) * 2020-12-23 2021-04-23 清华大学 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN112836064A (zh) * 2021-02-24 2021-05-25 吉林大学 知识图谱补全方法、装置、存储介质及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHANQIU ZHANG等: "Learning hierarchy-aware knowledge graph embeddings for link prediction" *
柴飙: "基于知识学习的实体对齐技术的研究与实现" *
苏佳林;王元卓;靳小龙;程学旗;: "自适应属性选择的实体对齐方法" *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114860955A (zh) * 2022-05-21 2022-08-05 大连海洋大学 水产医学知识图谱补全方法、混合卷积模型及其训练方法和设备
CN114860955B (zh) * 2022-05-21 2023-10-03 大连海洋大学 水产医学知识图谱补全方法、混合卷积模型及其训练方法和设备
CN114723073A (zh) * 2022-06-07 2022-07-08 阿里健康科技(杭州)有限公司 语言模型预训练、产品搜索方法、装置以及计算机设备
CN114723073B (zh) * 2022-06-07 2023-09-05 阿里健康科技(杭州)有限公司 语言模型预训练、产品搜索方法、装置以及计算机设备
CN115099606A (zh) * 2022-06-21 2022-09-23 厦门亿力吉奥信息科技有限公司 一种电网调度模型的训练方法及终端
CN115827883A (zh) * 2022-06-24 2023-03-21 南瑞集团有限公司 一种自监督图对齐的多语言知识图谱补全方法和系统
CN115422369A (zh) * 2022-08-30 2022-12-02 中国人民解放军国防科技大学 基于改进TextRank的知识图谱补全方法和装置
CN115422369B (zh) * 2022-08-30 2023-11-03 中国人民解放军国防科技大学 基于改进TextRank的知识图谱补全方法和装置
CN115564049A (zh) * 2022-12-06 2023-01-03 北京航空航天大学 一种双向编码的知识图谱嵌入方法
CN115564049B (zh) * 2022-12-06 2023-05-09 北京航空航天大学 一种双向编码的知识图谱嵌入方法
CN117851615A (zh) * 2024-03-06 2024-04-09 云南师范大学 一种基于Transformer的关系模式自适应对比学习知识图谱嵌入方法
CN117851615B (zh) * 2024-03-06 2024-05-03 云南师范大学 一种基于Transformer的关系模式自适应对比学习知识图谱嵌入方法

Also Published As

Publication number Publication date
CN114117075B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN114117075B (zh) 基于语义对齐及对称结构编码的知识图谱补全方法及装置
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
CN112528676B (zh) 文档级别的事件论元抽取方法
Bruni et al. Multimodal distributional semantics
CN111241294B (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
CN102662931B (zh) 一种基于协同神经网络的语义角色标注方法
CN108280064A (zh) 分词、词性标注、实体识别及句法分析的联合处理方法
CN109635124A (zh) 一种结合背景知识的远程监督关系抽取方法
CN112269868B (zh) 一种基于多任务联合训练的机器阅读理解模型的使用方法
CN111581361A (zh) 一种意图识别方法及装置
CN115186110B (zh) 基于关系增强负采样的多模态知识图谱补全方法与系统
CN113342933A (zh) 一种类双塔模型的多特征交互网络招聘文本分类方法
CN116029305A (zh) 一种基于多任务学习的中文属性级情感分析方法、系统、设备及介质
CN114117041A (zh) 一种基于特定属性词上下文建模的属性级情感分析方法
CN116522945A (zh) 一种食品安全领域中命名实体的识别模型和方法
CN114881038B (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN111368524A (zh) 一种基于自注意力双向gru和svm的微博观点句识别方法
CN115982384A (zh) 一种工业设计领域产品知识图谱构建方法及系统
CN113869049B (zh) 基于法律咨询问题的具有法律属性的事实抽取方法及装置
Vukotić et al. IRISA at DeFT 2015: supervised and unsupervised methods in sentiment analysis
CN115481217A (zh) 一种基于句子成分感知注意力机制的端到端属性级情感分析方法
Li et al. Knowledge extraction: a few-shot relation learning approach
CN110334189A (zh) 基于长短时和自注意力神经网络的微博话题标签确定方法
Fan et al. Macro discourse relation recogniztion based on micro discourse structure and self-interactive attention network
CN117520551B (zh) 一种小样本文本自动分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant