CN113051904B - 一种面向小规模知识图谱的链接预测方法 - Google Patents

一种面向小规模知识图谱的链接预测方法 Download PDF

Info

Publication number
CN113051904B
CN113051904B CN202110430242.4A CN202110430242A CN113051904B CN 113051904 B CN113051904 B CN 113051904B CN 202110430242 A CN202110430242 A CN 202110430242A CN 113051904 B CN113051904 B CN 113051904B
Authority
CN
China
Prior art keywords
triple
text
entity
positive
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110430242.4A
Other languages
English (en)
Other versions
CN113051904A (zh
Inventor
周德宇
袁佳乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110430242.4A priority Critical patent/CN113051904B/zh
Publication of CN113051904A publication Critical patent/CN113051904A/zh
Application granted granted Critical
Publication of CN113051904B publication Critical patent/CN113051904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向小规模知识图谱的链接预测方法,包括步骤:构造正负样例三元组;拼接三元组中实体、关系,将三元组转换为文本;使用BERT特征编码器编码该文本,获得文本中单词特征向量表示;采用多任务学习机制,分别构造句子级别特征、实体级别特征、三元组级别特征完成链接预测、关系分类、相关性排序的多任务学习。本发明实现小规模知识图谱的链接预测方法,将图谱中三元组转变为文本形式,学习图谱中文本语义信息,完成小规模知识图谱的链接预测任务;在三元组拼接文本中增加实体标识符,扩充BERT模型字典,捕获文本中实体特征;采用多任务学习机制完成链接预测、关系分类、相关性排序三种关联任务,进而提升链接预测任务效果。

Description

一种面向小规模知识图谱的链接预测方法
技术领域
本发明涉及一种面向小规模知识图谱的链接预测方法,属于信息处理技术领域。
背景技术
知识图谱中普遍存在不完整性、稀疏性问题,图谱中有大量的还未被挖掘的隐含关系,远远未包含所有知识,需要知识图谱的补全任务进行知识图谱的完善。链接预测任务是指依据三元组中已有头实体及关系<h,r,?>或尾实体及关系<?,r,t>来预测对应的尾实体t或头实体h,从而补全知识图谱中的三元组。传统的链接预测任务从图谱的结构信息角度出发,采用翻译的模式建模图谱中头实体h与尾实体t之间的变换关系,需要大量的三元组支持,同时完全忽略了图谱中实体、关系所包含的文本语义信息。
本发明提出一种面向小规模知识图谱的链接预测方法,将三元组转换为文本形式数据,完成链接预测任务,解决小规模知识图谱的补全问题。本方法所面向的小规模知识图谱存在规模小的特点,图谱中实体节点、关系链接信息少,导致图谱中存在极少量三元组,而基于翻译模式的链接预测方法需要大量三元组来学习图谱的结构信息,无法完成小规模知识图谱的链接预测任务。本发明实现小规模知识图谱的链接预测任务,从文本角度出发,学习知识图谱中的文本语义信息,将三元组转换为文本形式数据,依据三元组文本进行图谱的链接预测任务,引入预训练语言模型中包含的先验知识,丰富三元组中的文本语义特征,将链接预测任务转换为判断三元组文本为正负样本的二分类任务,学习到小规模知识图谱中的文本语义信息,有效地实现小规模知识图谱的链接预测任务。
发明内容
本发明提供了一种面向小规模知识图谱的链接预测方法,从文本角度出发,将图谱中三元组转换为文本句子,学习图谱中文本语义信息,解决传统链接预测方法无法建模极少量三元组的问题;增加实体标识符到BERT模型字典中,突出三元组中实体重要性,学习到三元组文本中实体特征;分别构造实体级别、句子级别、三元组级别特征实现关系分类任务、链接预测任务、三元组相关性排序任务,有效地解决图谱链接预测任务。
为实现上述目的,本发明采用的技术方案如下:
一种面向小规模知识图谱的链接预测方法,包括以下步骤:
(1)依据小规模知识图谱构造正负样例三元组,知识图谱中存在的三元组为正样例,随机替换正样例三元组中头实体或尾实体构成新的三元组,保证新三元组不存在于知识图谱中,即为负样例;
(2)拼接三元组数据,将三元组<头实体,关系,尾实体>转换为文本形式,拼接头实体、关系、尾实体单词为文本,增加实体标识符到文本中,获得拼接后文本
Figure BDA0003031102950000021
Figure BDA0003031102950000022
其中标识符[E1]\[/E1]、[E2]\[/E2]分别表示头实体与尾实体开始\结束标识符,[CLS]、[SEP]表示文本的开始与结束标识符,
Figure BDA0003031102950000023
表示头实体单词,
Figure BDA0003031102950000024
表示关系单词,
Figure BDA0003031102950000025
表示尾实体单词;
(2)使用BERT特征编码器(Bidirectional Encoder Representations fromTransformers,BERT)编码三元组拼接后的文本,获得文本单词向量序列
Figure BDA0003031102950000026
编码实体、关系文本中语义信息;
(3)使用BERT特征编码器(Bidirectional Encoder Representations fromTransformers,BERT)编码三元组拼接后的文本,获得文本单词向量序列
Figure BDA0003031102950000027
编码实体、关系文本中语义信息;
(4)基于三元组(正样例)拼接文本(不包含关系文本)单词向量序列
Figure BDA0003031102950000028
构造实体级别特征,进行关系分类任务,使用实体标识符[E1]、[E2]编码后的向量T[E1]、T[E2]表示头实体与尾实体,拼接两者向量表示T[E1],T[E2]构建实体级别特征ventity=[T[E1];T[E2]],[;]表示向量拼接操作;使用特征ventity进行关系K分类,预测ventity在K种关系下的概率值,使用交叉熵损失函数计算预测概率与真实标签之间损失;
(5)基于三元组(正负样例)拼接文本单词向量序列
Figure BDA0003031102950000031
构造句子级别特征,判断三元组文本为正样例或是负样例,进行链接预测任务,三元组被处理成文本句子形式,链接预测任务转换成对文本为正样例或负样例判断的二分类任务,使用标识符[CLS]编码后的向量T[CLS]表示三元组拼接后文本句子向量,T[CLS]编码了三元组文本句子中语义信息,句子级别特征Vtext=T[CLS];使用Vtext进行正负样例二分类,计算Vtext在两种类别下的概率值,使用交叉熵损失函数计算预测概率与真实标签之间损失;
(6)基于三元组(正负样例)拼接文本单词向量序列
Figure BDA0003031102950000032
构造三元组级别特征,进行正负样例三元组的对比,实现三元组相关性排序任务,使用三元组中头实体、尾实体向量拼接vtriple=[T[E1];T[E2]]表示三元组级别特征,正样例表示为vtriple、负样例表示为v′triple,其中正样例是指图谱中真实存在的三元组,负样例是指正样例三元组的头实体或尾实体被随机替换其它实体,并且图谱中不存在该三元组;使用vtriple向量计算正样例三元组得分prr∈[0,1],使用v′triple向量计算负样例三元组得分p′rr∈[0,1],使用最大间隔排序损失函数约束正负样例三元组得分,使得prr得分大于p′rr
进一步地,所述步骤(1)依据小规模知识图谱构造正负样例三元组,知识图谱中存在的三元组为正样例,随机替换正样例三元组中头实体或尾实体构成新的三元组,保证新三元组不存在于知识图谱中,即为负样例。
进一步地,所述步骤(2)中拼接三元组数据,将正负样例三元组形式数据转化为文本形式,增加开始标识符[CLS]、结束标识符[SEP]到文本开始端与结束端,扩大BERT模型字典,增加头实体开始标识符[E1]、头实体结束标识符[/E1]、尾实体开始标识符[E2]、尾实体结束标识符[/E2]到文本中,获得拼接后文本
Figure BDA0003031102950000033
Figure BDA0003031102950000041
其中
Figure BDA0003031102950000042
表示头实体中单词,
Figure BDA0003031102950000043
表示关系中单词,
Figure BDA0003031102950000044
表示尾实体中单词,当进行关系分类任务时,关系中单词
Figure BDA0003031102950000045
不进行拼接。
进一步地,所述步骤(3)中使用BERT特征编码器编码三元组拼接后文本,获得三元组文本中单词向量序列
Figure BDA0003031102950000046
Tw=BERT(w)
其中w表示三元组中拼接后文本中单词,包含特殊标识符[CLS]、[E1]、[/E1]、[E2]、[/E2]、[SEP],Tw表示单词w编码后的特征向量;当进行关系分类任务时,关系中单词
Figure BDA0003031102950000047
不被输入到BERT编码中。
进一步地,所述步骤(4)基于三元组(正样例)拼接文本(不包含关系文本)单词向量序列
Figure BDA0003031102950000048
构造三元组文本实体级别特征,利用三元组中实体信息进行关系分类,使用标识符[E1]、[E2]分别代表头实体与尾实体,拼接两者向量表示T[E1],T[E2]构建实体级别特征ventity=[T[E1];T[E2]],[;]表示向量拼接操作;使用ventity进行K分类,利用三元组中头实体与尾实体识别关系类型,K表示关系的类别数,计算关系分类预测概率:
prc=Softmax(Wrcventity+brc)
其中
Figure BDA0003031102950000049
表示关系分类的预测概率,K表示关系类别数;Softmax()表示激活函数;Wrc、brc表示与关系分类关联的权重参数,ventity表示三元组拼接后文本实体级别特征。
进一步地,所述步骤(5)基于三元组(正负样例)拼接文本单词向量序列
Figure BDA00030311029500000410
构造句子级别特征,判断三元组为正样例或是负样例,进行链接预测任务,使用标识符[CLS]代表句子,[CLS]编码后的向量T[CLS]表示句子向量,包含了三元组文本句子中语义信息,句子级别特征Vtext=T[CLS];使用Vtext进行二分类,计算Vtext在两种类别下的概率值,使用交叉熵损失函数计算预测概率与真实标签之间损失:
plp=Softmax(Wlpvtext+blp)
其中
Figure BDA0003031102950000051
表示三元组为正负样例二分类的预测概率;Softmax()表示激活函数;Wlp、blp表示与三元组真负样例分类关联的权重参数,vtext表示三元组拼接后文本句子级别特征。
进一步地,所述步骤(6)基于三元组(正负样例)拼接文本单词向量序列
Figure BDA0003031102950000052
构造三元组级别特征,进行正负样例三元组的比较,实现三元组相关性排序任务,使用三元组中头实体、尾实体向量拼接vtriple=[T[E1];T[E2]]表示三元组级别特征,用于区分正负样例数据,正样例表示为vtriple、负样例表示为v′triple,其中正样例是指图谱中真实存在的三元组,负样例是指正样例三元组的头实体或尾实体被随机替换其它实体,并且图谱中不存在该三元组;使用vtriple向量计算正样例三元组得分prr∈[0,1],使用v′rriple向量计算负样例三元组得分p′rr∈[0,1],使用最大间隔排序损失函数约束正样例三元组文本得分prr大于负样例三元组文本得分p′rr
prr=Sigmoid(Wrrvtriple+brr)
p′rr=Sigmoid(Wrrv′tripler+brr)
其中prr表示正样例三元组得分,p′rr表示负样例三元组得分;Sigmoid()为激活函数;Wrr、brr是与正样例三元组得分相关的权重参数;vtriple、v′tripler分别表示正负样例三元组特征向量。
与现有技术相比,本发明的有益效果:
(1)本发明从文本角度出发,学习图谱中文本语义信息,在极少数量三元组下完成小规模知识图谱的链接预测任务;
(2)本发明增加实体标识符到BERT模型中,扩大BERT模型字典,增加实体标识符,突出三元组拼接文本中实体重要性,学习到三元组文本中实体特征;
(3)本发明分别构造出实体级别、句子级别、三元组级别特征实现关系分类任务、链接预测任务、三元组相关性排序任务,有效地解决图谱链接预测任务,提升链接预测任务效果。
附图说明
图1是本发明的流程示意图;
图2是本发明的模型结构示意图;
图3是本发明的三元组拼接示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明实施例公开的一种面向小规模知识图谱的链接预测方法,如附图1-3。
给定小规模知识图谱,实现链接预测任务,是指依据三元组中已有头实体及关系<h,r,?>或尾实体及关系<?,r,t>来预测对应的尾实体t或头实体h,从而实现补全知识图谱的目的,本方法将三元组拼接成文本,对文本进行二分类,判断出三元组为正样例或负样例,实现链接预测任务。
下面介绍具体的实施方式。
1.构造正负样例三元组
依据小规模知识图谱构造正负样例三元组,知识图谱中存在的三元组<h,r,t>即为正样例,随机替换正样例三元组中头实体h或尾实体t构成新的三元组<h′,r,t>或<h,r,t′>,保证新三元组不存在于知识图谱中,即为负样例。
2.拼接图谱三元组
拼接三元组,将三元组形式数据转化为文本形式,如附图3所示,增加开始标识符[CLS]、结束标识符[SEP]到文本开始端与结束端,扩充BERT模型字典,增加头实体开始标识符[E1]、头实体结束标识符[/E1]、尾实体开始标识符[E2]、尾实体结束标识符[/E2]到文本中,获得拼接后文本
Figure BDA0003031102950000061
其中
Figure BDA0003031102950000071
表示头实体中单词,
Figure BDA0003031102950000072
表示关系中单词,
Figure BDA0003031102950000073
表示尾实体中单词;当进行关系分类任务时,三元组中关系单词
Figure BDA0003031102950000074
不进行拼接,只将头实体单词、尾实体单词拼接,获得
Figure BDA0003031102950000075
3.特征编码器编码文本
使用BERT特征编码器编码三元组拼接后的文本,获得文本单词向量序列
Figure BDA0003031102950000076
Tw=BERT(w)
其中w表示三元组中拼接后文本中单词,包含特殊标识符[CLS]、[E1]、[/E1]、[E2]、[/E2]、[SEP],单词向量Tw维度为768;当进行关系分类任务时,关系中单词
Figure BDA0003031102950000077
不被拼接,未被输入到BERT编码器中。
4.关系分类任务
基于三元组(正样例)拼接后的文本(不包含关系文本)单词向量序列
Figure BDA0003031102950000078
构造出实体级别特征,进行关系分类,识别出三元组中实体对的关系类别;使用标识符[E1]、[E2]分别表示头实体与尾实体,依据拼接两者的向量表示T[E1],T[E2]构建实体级别特征ventity=[T[E1];T[E2]],[;]表示向量拼接操作;使用ventity进行K分类,识别三元组中头实体与尾实体的关系类别,K表示关系数目,使用交叉熵计算预测概率值与标签之间损失函数:
prc=Softmax(Wrcventity+brc)
Figure BDA0003031102950000079
其中
Figure BDA00030311029500000710
表示关系分类的预测概率,
Figure BDA00030311029500000711
表示关系分类任务的标签,K表示关系类别数目;Softmax()表示激活函数;Wrc、brc表示与关系分类关联的权重参数,ventity表示三元组拼接后文本实体级别特征。
5.链接预测任务
基于三元组(正负样例)拼接后的文本单词向量序列
Figure BDA0003031102950000081
构造句子级别特征,判断三元组为正样例或是负样例,进行链接预测任务,使用标识符[CLS]代表句子,[CLS]编码后的向量T[CLS]表示句子向量,包含了三元组拼接后文本中语义信息,句子级别特征Vtext=T[CLS],使用Vtext进行二分类,计算Vtext在两种类别下的概率值,使用交叉熵损失函数计算预测概率与真实标签之间损失;
plp=Softmax(Wlpvtext+blp)
Figure BDA0003031102950000082
其中
Figure BDA0003031102950000083
表示三元组文本二分类的预测概率,
Figure BDA0003031102950000084
表示二分类的真实标签;Softmax()表示激活函数;Wlp、blp表示与三元组正负样例分类关联的权重参数,vtext表示三元组拼接后句子级别特征。
6.相关性排序任务
基于三元组(正负样例)拼接后的文本单词向量序列
Figure BDA0003031102950000085
构造三元组级别特征,进行正负样例三元组的比较,实现三元组相关性排序任务,使用三元组中头实体、尾实体向量拼接vtriple=[T[E1];T[E2]]表示三元组级别特征,用于区分正负样例数据,正样例三元组向量表示为vtriple、负样例三元组向量表示为v′triple,其中正样例是指图谱中真实存在的三元组,负样例是指正样例三元组的头实体或尾实体被随机替换其它实体,并且图谱中不存在该三元组;使用vtriple向量计算正样例三元组得分prr∈[0,1],使用v′triple向量计算负样例三元组得分p′rr∈[0,1],使用最大间隔排序损失函数约束正样例三元组文本得分prr大于负样例三元组文本得分p′rr
prr=Sigmoid(Wrrvtriple+brr)
p′rr=Sigmoid(Wrrv′tripler+brr)
Lossrr=max(0,p′rr-prr+margin)
其中prr表示正样例三元组得分,p′rr表示负样例三元组得分,margin表示间隔;Sigmoid()为激活函数;Wrr、brr是与正样例三元组得分相关的权重参数,vtriple、v′tripler分别表示正负样例三元组特征向量。
本发明实现面向小规模知识图谱的链接预测方法,在机场应急预案的小规模知识图谱中效果指标Hits@10达到0.4879,优于基准模型的0.4485;MRR指标达到0.2194,优于基准模型的0.2050;MR指标达到50.91,优于基准模型的64.51。

Claims (6)

1.一种面向小规模知识图谱的链接预测方法,其特征在于,包括如下步骤:
(1)依据小规模知识图谱构造正负样例三元组,知识图谱中存在的三元组为正样例,随机替换正样例三元组中头实体或尾实体构成新的三元组,保证新三元组不存在于知识图谱中,即为负样例;
(2)拼接三元组数据,将三元组<头实体,关系,尾实体>转换为文本形式,拼接头实体、关系、尾实体单词为文本,增加实体标识符到文本中,获得拼接后文本
Figure FDA0003031102940000011
其中标识符[E1]\[/E1]、[E2]\[/E2]分别表示头实体与尾实体开始\结束标识符,[CLS]、[SEP]表示文本的开始与结束标识符,
Figure FDA0003031102940000012
表示头实体单词,
Figure FDA0003031102940000013
表示关系单词,
Figure FDA0003031102940000014
表示尾实体单词;
(3)使用BERT特征编码器编码三元组拼接后的文本,获得文本单词向量序列
Figure FDA0003031102940000015
编码实体、关系文本中语义信息;
(4)基于正样例三元组拼接不包含关系的文本单词向量序列
Figure FDA0003031102940000016
构造实体级别特征,进行关系分类任务,使用实体标识符[E1]、[E2]编码后的向量T[E1]、T[E2]表示头实体与尾实体,拼接两者向量表示T[E1],T[E2]构建实体级别特征ventity=[T[E1];T[E2]],[;]表示向量拼接操作;使用特征ventity进行关系K分类,预测ventity在K种关系下的概率值,使用交叉熵损失函数计算预测概率与真实标签之间损失;
(5)基于正负样例三元组拼接文本单词向量序列
Figure FDA0003031102940000017
构造句子级别特征,判断三元组文本为正样例或是负样例,进行链接预测任务,三元组被处理成文本句子形式,链接预测任务转换成对文本为正样例或负样例判断的二分类任务,使用标识符[CLS]编码后的向量T[CLS]表示三元组拼接后文本句子向量,T[CLS]编码了三元组文本句子中语义信息,句子级别特征Vtext=T[CLS];使用Vtext进行正负样例二分类,计算Vtext在两种类别下的概率值,使用交叉熵损失函数计算预测概率与真实标签之间损失;
(6)基于正负样例三元组拼接文本单词向量序列
Figure FDA0003031102940000021
构造三元组级别特征,进行正负样例三元组的对比,实现三元组相关性排序任务,使用三元组中头实体、尾实体向量拼接vtriple=[T[E1];T[E2]]表示三元组级别特征,正样例表示为vtriple、负样例表示为v′triple,其中正样例是指图谱中真实存在的三元组,负样例是指正样例三元组的头实体或尾实体被随机替换其它实体,并且图谱中不存在该三元组;使用vtriple向量计算正样例三元组得分prr∈[0,1],使用v′triple向量计算负样例三元组得分p′rr∈[0,1],使用最大间隔排序损失函数约束正负样例三元组得分,使得prr得分大于p′rr
2.依据权利要求1所述的一种面向小规模知识图谱的链接预测方法,其特征在于:所述步骤(2)中拼接三元组数据,将正负样例三元组形式数据转化为文本形式,增加开始标识符[CLS]、结束标识符[SEP]到文本开始端与结束端,扩大BERT模型字典,增加头实体开始标识符[E1]、头实体结束标识符[/E1]、尾实体开始标识符[E2]、尾实体结束标识符[/E2]到文本中,获得拼接后文本
Figure FDA0003031102940000022
其中
Figure FDA0003031102940000023
表示头实体中单词,
Figure FDA0003031102940000024
表示关系中单词,
Figure FDA0003031102940000025
表示尾实体中单词,当进行关系分类任务时,关系中单词
Figure FDA0003031102940000026
不进行拼接。
3.依据权利要求1所述的一种面向小规模知识图谱的链接预测方法,其特征在于:所述步骤(3)中使用BERT特征编码器编码三元组拼接后文本,获得三元组文本中单词向量序列
Figure FDA0003031102940000027
Tw=BERT(w)
其中w表示三元组中拼接后文本中单词,包含特殊标识符[CLS]、[E1]、[/E1]、[E2]、[/E2]、[SEP],Tw表示单词w编码后的特征向量;当进行关系分类任务时,关系中单词
Figure FDA0003031102940000031
不被输入到BERT编码中。
4.依据权利要求1所述的一种面向小规模知识图谱的链接预测方法,其特征在于:所述步骤(4)基于正样例三元组拼接不包含关系的文本单词向量序列
Figure FDA0003031102940000032
构造三元组文本实体级别特征,利用三元组中实体信息进行关系分类,使用标识符[E1]、[E2]分别代表头实体与尾实体,拼接两者向量表示T[E1],T[E2]构建实体级别特征ventity=[T[E1];T[E2]],[;]表示向量拼接操作;使用ventity进行K分类,利用三元组中头实体与尾实体识别关系类型,K表示关系的类别数,计算关系分类预测概率:
prc=Softmax(Wrcventity+brc)
其中
Figure FDA0003031102940000033
表示关系分类的预测概率,K表示关系类别数;Softmax()表示激活函数;Wrc、brc表示与关系分类关联的权重参数,ventity表示三元组拼接后文本实体级别特征。
5.依据权利要求1所述的一种面向小规模知识图谱的链接预测方法,其特征在于:所述步骤(5)基于正负样例三元组拼接文本单词向量序列
Figure FDA0003031102940000034
构造句子级别特征,判断三元组文本为正样例或是负样例,进行链接预测任务,使用标识符[CLS]代表句子,[CLS]编码后的向量T[CLS]表示句子向量,包含了三元组文本句子中语义信息,句子级别特征Vtext=T[CLS];使用Vtext进行二分类,计算Vtext在两种类别下的概率值,使用交叉熵损失函数计算预测概率与真实标签之间损失:
plp=Softmax(Wlpvtext+blp)
其中
Figure FDA0003031102940000035
表示三元组为正负样例二分类的预测概率;Softmax()表示激活函数;Wlp、blp表示与三元组真负样例分类关联的权重参数,vtext表示三元组拼接后文本句子级别特征。
6.依据权利要求1所述的一种面向小规模知识图谱的链接预测方法,其特征在于:所述步骤(6)基于正负样例三元组拼接文本单词向量序列
Figure FDA0003031102940000041
构造三元组级别特征,进行正负样例三元组的比较,实现三元组相关性排序任务,使用三元组中头实体、尾实体向量拼接vtriple=[T[E1];T[E2]]表示三元组级别特征,用于区分正负样例数据,正样例表示为vtriple、负样例表示为v′triple,其中正样例是指图谱中真实存在的三元组,负样例是指正样例三元组的头实体或尾实体被随机替换其它实体,并且图谱中不存在该三元组;使用vtriple向量计算正样例三元组得分prr∈[0,1],使用v′triple向量计算负样例三元组得分p′rr∈[0,1],使用最大间隔排序损失函数约束正样例三元组文本得分prr大于负样例三元组文本得分p′rr
prr=Sigmoid(Wrrvtriple+brr)
p′rr=Sigmoid(Wrrv′tripler+brr)
其中prr表示正样例三元组得分,p′rr表示负样例三元组得分;Sigmoid()为激活函数;Wrr、brr是与正样例三元组得分相关的权重参数;vtriple、v′tripler分别表示正负样例三元组特征向量。
CN202110430242.4A 2021-04-21 2021-04-21 一种面向小规模知识图谱的链接预测方法 Active CN113051904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110430242.4A CN113051904B (zh) 2021-04-21 2021-04-21 一种面向小规模知识图谱的链接预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110430242.4A CN113051904B (zh) 2021-04-21 2021-04-21 一种面向小规模知识图谱的链接预测方法

Publications (2)

Publication Number Publication Date
CN113051904A CN113051904A (zh) 2021-06-29
CN113051904B true CN113051904B (zh) 2022-11-18

Family

ID=76520021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110430242.4A Active CN113051904B (zh) 2021-04-21 2021-04-21 一种面向小规模知识图谱的链接预测方法

Country Status (1)

Country Link
CN (1) CN113051904B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691896B (zh) * 2022-05-31 2022-09-13 浙江大学 一种知识图谱数据清洗方法及装置
CN115422369B (zh) * 2022-08-30 2023-11-03 中国人民解放军国防科技大学 基于改进TextRank的知识图谱补全方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160564B (zh) * 2019-12-17 2023-05-19 电子科技大学 一种基于特征张量的中文知识图谱表示学习方法
CN112507039A (zh) * 2020-12-15 2021-03-16 苏州元启创人工智能科技有限公司 基于外部知识嵌入的文本理解方法
CN112632290B (zh) * 2020-12-21 2021-11-09 浙江大学 一种融合图结构和文本信息的自适应知识图谱表示学习方法

Also Published As

Publication number Publication date
CN113051904A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN113128229B (zh) 一种中文实体关系联合抽取方法
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN109918681B (zh) 一种基于汉字-拼音的融合问题语义匹配方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
CN113051929A (zh) 一种基于细粒度语义信息增强的实体关系抽取的方法
CN113051904B (zh) 一种面向小规模知识图谱的链接预测方法
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及系统
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114547230A (zh) 一种智能行政执法案例信息抽取和案由认定方法
CN114492460B (zh) 基于衍生提示学习的事件因果关系抽取方法
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN111563378A (zh) 一种联合学习的多文档阅读理解实现方法
CN116340513A (zh) 一种基于标签与文本交互的多标签情感分类方法和系统
CN112329441A (zh) 一种法律文书阅读模型及构建方法
CN116910196A (zh) 一种基于多任务学习的校园安全突发事件抽取方法
CN114943216B (zh) 基于图注意力网络的案件微博属性级观点挖掘方法
CN115759102A (zh) 一种中国诗酒文化命名实体识别方法
CN113901172B (zh) 基于关键词结构编码的涉案微博评价对象抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant