CN111444305B - 一种基于知识图谱嵌入的多三元组联合抽取方法 - Google Patents
一种基于知识图谱嵌入的多三元组联合抽取方法 Download PDFInfo
- Publication number
- CN111444305B CN111444305B CN202010198105.8A CN202010198105A CN111444305B CN 111444305 B CN111444305 B CN 111444305B CN 202010198105 A CN202010198105 A CN 202010198105A CN 111444305 B CN111444305 B CN 111444305B
- Authority
- CN
- China
- Prior art keywords
- matrix
- relation
- text
- embedding
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims abstract description 71
- 239000013598 vector Substances 0.000 claims abstract description 65
- 238000002372 labelling Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims description 5
- 235000009854 Cucurbita moschata Nutrition 0.000 claims description 4
- 240000001980 Cucurbita pepo Species 0.000 claims description 4
- 235000009852 Cucurbita pepo Nutrition 0.000 claims description 4
- 238000001125 extrusion Methods 0.000 claims description 4
- 235000020354 squash Nutrition 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims 1
- 230000006870 function Effects 0.000 description 12
- 238000010276 construction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于知识图谱嵌入的多三元组联合抽取方法,包括:对获取的文本语句进行处理,得到文本语句矩阵;将文本语句矩阵输入到Transformer模型中提取文本语句的语义信息,得到语义特征向量;将语义特征向量用于实体识别序列标注任务,求得实体识别交叉熵损失loss1;将语义特征向量用于关系分类任务,求取关系分类的实体识别交叉熵损失loss2;利用实体标注预测矩阵和语句实体词关系分类矩阵构造实体词关系,求取关系的交叉熵损失loss3;利用loss1、loss2和loss3基于梯度下降的优化算法计算最小化总的损失函数loss,得到训练后的Transformer模型,利用待预测文本语句输入训练后的Transformer模型,得到预测文本语句的预测语义特征向量,完成多个三元组联合抽取方法。
Description
技术领域
本发明涉及数据存储与处理技术领域,具体涉及一种知识图谱中三元组抽取的方法。
背景技术
知识图谱以结构化的形式描述客观世界中的概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力,知识图谱主要包含实体、关系和三元组,每一个三元组表示一条知识。当两个实体之间存在某一种关系时,用(h,r,t)表示一个三元组,其中h,t分别表示头实体和尾实体,r表示关系,例如(中国,首都,北京)即表示了“北京是中国的首都”这么一条知识。
实体关系学习是自动化地从文本中检测和识别出实体之间具有的语义关系,也称为关系抽取,关系抽取是知识图谱构建和信息抽取中的一个关键环节,具有重要的理论意义和广阔的应用前景,为多种应用提供重要的支持,如大规模知识图谱自动化构建,包括如WordNet、HowNet等常识知识图谱中的通用语义知识,以及金融、医疗等垂直应用领域的定制知识图谱。信息检索、智能推荐、问答系统等知识图谱应用技术的优劣程度严重依赖于上层图谱构建的质量。
目前关系抽取的方法,主要分为基于规则的方法和基于机器学习的方法。传统专家依靠预定义好的规则手工编撰的方式构建知识库,不仅费时费力,而且存在知识覆盖率低、数据稀疏、更新缓慢等缺点。基于机器学习的方法则可以自动化地抽取三元组。自从深度学习发展起来后,学者侧重于使用深度神经网络模型处理关系抽取任务。
深度学习的方法抽取三元组,目前有分步抽取和端到端抽取两种方式。使用分步抽取的方式,即先识别出文本语料中的实体,标注出头实体h和尾实体t,再抽取出两者的关系r。这种方式会导致错误传播,第一步抽取中的错误会传递到第二步中,导致整体的正确率下降。而端到端抽取可避免这种错误传播。但是目前端到端抽取模型,不适合抽取多个三元组,或者抽取多个三元组时不允许有共享实体的情况。而真实语料中的知识情况比较复杂。例如句子“在浙江的这段旅程中,最让我难忘的还是杭州那美丽的西湖”中,存在实体:“浙江”、“杭州”、“西湖”,存在三元组有(浙江,省会,杭州),(杭州,位于,浙江),(浙江,旅游景点,西湖),(杭州,旅游景点,西湖)。这些三元组间共享部分实体,三元组间存在推理交互,抽取难度上升。
另外知识图谱中的知识表示学习,也是近年来研究的热点。研究者希望构建模型将实体与关系映射到低维向量,从而学习出知识库中的实体与关系的表示,其中基于词向量空间中存在词汇语义与句法关系平移不变现象的启发,而提出的TransE系列的知识嵌入模型成为知识表示学习的代表模型。
发明内容
本发明提供了一种基于知识图谱嵌入的多三元组联合抽取方法,该模型训练阶段引入知识表示学习下的知识图谱嵌入,从而兼顾到不同关系间的推理交互作用,一步抽取多个三元组,并解决实体共享导致的抽取难题。
一种基于知识图谱嵌入的多三元组联合抽取方法,包括:
(1)获取文本语句,对文本语句进行处理,得到处理后的文本语句矩阵。
所述的对文本语句进行处理,包括:
(1.1)获取文本语句,使用随机初始化的词嵌入层,将文本语句中的每个词映射到dw维空间,得到文本语句中每个词的词嵌入矩阵;
所述的文本语句为式(1)所示:
si={w1,w2,…,wi} (1)
其中,si为文本语句;wi表示文本语句中的每一个字符。
所述的词嵌入矩阵为式(2)所示:
其中,MW为词嵌入矩阵;R为矩阵维度的一个抽象字母;L为文本语句的长度;dw为文本语句中每个词映射后的维度。
(1.2)使用随机初始化的位置嵌入层,将文本语句中的每个词位置按顺序映射到dp维空间,得到文本语句中每个词的位置嵌入矩阵;
所述的位置嵌入矩阵为式(3)所示:
其中,MP为位置嵌入矩阵;R为矩阵维度的一个抽象字母;L为文本语句的长度;dp为文本语句中每个词位置映射后的维度。
(1.3)将文本语句中每一个词的词嵌入矩阵与其相对应的位置嵌入矩阵组合后,得到文本语句矩阵。
所述的文本语句矩阵为式(4)所示:
sj={e1,e2,…,ej}∈RL×V (4)
其中,sj为文本语句矩阵;ei为文本语句矩阵中每个词的词嵌入矩阵和位置嵌入矩阵;V=dw+dp。
(2)将处理后的文本语句矩阵输入到Transformer模型中提取文本语句的语义信息,得到文本语句的语义特征向量;
所述的Transformer模型为包括多头自注意力网络、残差正则网络、全连接前馈网络和残差正则网络四部分相连组成。
所述的得到文本语句的语义特征向量的过程,包括;
headi=Attention(hiWi Q,hiWi K,hiWi V) (5)
其中,Wo∈RV×V,Wi Q∈RV×H,Wi K∈RV×H,Wi K∈RV×H,均为训练过程中的参数;h是注意力头的个数;H是单个注意力头的维度;V为H与h的乘积。
其中,WF∈RV×V,WF与b为训练过程中的参数。
所述的语义特征向量hi+1就是该层编码器在输入hi后得到的输出结果。
(3)利用步骤(2)得到的语义特征向量对Transformer模型进行训练,得到训练后的Transformer模型;
所述的训练过程包括:
(3.1)将步骤(2)中得到的文本语句的语义特征向量用于实体识别序列标注任务,得到文本语句的实体标注预测矩阵,将实体标注预测矩阵中的实体标注预测值与真实标注结果对比后,求得实体识别交叉熵损失loss1。
所述的标注为使用BIO标注法对于语句中每个字符wi进行标注;当wi是实体词时,实体词语的开头标记为B-TYPE,实体词的其余部分标记为I-TYPE;所述的TYPE为实体词的类型,具体为PER、LOC表示人物、地点等;当wi不是实体词时,wi被标记为O。
所述的实体识别序列标注任务包括:将文本语句的语义特征向量经过全连接前馈网络变换后得到实体标注预测矩阵;所述的实体标注预测矩阵的计算公式为式(9)所示:
E=softmax(hnWE) (9)
E=[q1,q2,...,qi]
其中,E为实体标注预测矩阵;qi为实体标注预测矩阵E中具体的一个实体预测值;hn为Transformer模型最后一层输出的文本语句的语义特征向量;WE∈RV×C,WE为训练过程中的参数;softmax为归一化函数。
所述的实体识别交叉熵损失loss1的计算公式为式(10)所示:
其中,C为标注的总类别数;pi为真实结果;qi为实体标注预测矩阵E中具体的一个实体预测值。
(3.2)将步骤(2)中得到的文本语句的语义特征向量用于关系分类任务,得到语句实体词关系分类矩阵,将语句实体词关系分类矩阵中实体词关系与真实关系对比,求取关系分类的实体识别交叉熵损失loss2。
所述的关系分类任务包括:
(3.2.1)将文本语句的语义特征向量经过全连接层及挤压函数变换后,得到关系向量;所述的关系向量的计算公式为式(11)所示:
rc=squash(hnWR) (11)
其中,rc为关系向量;WR∈RV×C,WR为训练过程中的参数;C为关系种类数;squash为挤压变换函数。
(3.2.2)利用关系向量求出关系向量中每种关系的概率,利用每种关系的概率计算交叉熵损失loss2;
所述的每种关系的概率的计算公式为式(12)所示:
pi=sigmoid(‖rC‖2) (12)
其中,pi为关系向量中每种关系的概率;
所述的交叉熵损失loss2的计算公式为式(13)所示:
其中,C为关系的总类别数;yi为真实结果;pi为关系向量中每种关系的概率。
(3.3)利用文本语句的实体标注预测矩阵和文本语句的语句实体词关系分类矩阵构造实体词关系,利用知识嵌入约束方法,求得关系矩阵,将关系矩阵中真实存在的关系与不存在的关系对比,求取关系的交叉熵损失loss3。
所述的交叉熵损失loss3的计算公式为式(14)所示:
其中,(h,r,t)为存在关系r的正样本;(h′,r′,t′)为不存在关系r′的负样本;γ为正样本和负样本之间的最小分隔,为超参数,设置为γ=1;采用知识嵌入约束计算方法,计算知识图谱嵌入下fr(h,t)评分函数。
所述的知识嵌入约束计算方法为TransE计算方法,所述的fr(h,t)为h和t之间距离的评分函数,所述的fr(h,t)评分函数的计算公式为式(15)所示:
fr(h,t)=‖h+r-t‖ (15)
所述的知识嵌入约束计算方法为TransH计算方法,所述的fr(h,t)评分函数的计算公式为式(16)所示:
fr(h,t)=‖h⊥+r-t⊥‖ (16)
所述的知识嵌入约束计算方法为TransR计算方法,所述的fr(h,t)评分函数的计算公式为式(17)所示:
fr(h,t)=‖hr+r-tr‖ (17)
其中,hr=hMr;tr=tMr;Mr为训练过程中的参数。
(3.4)基于梯度下降的优化算法,利用loss1、loss2和loss3计算最小化总的损失函数loss,迭代求解直至损失值收敛,得到训练后的Transformer模型。
所述的总的损失函数loss的计算公式为式(18)所示:
loss=loss1+loss2+loss3 (18)。
(4)利用待预测文本语句输入步骤(3)中训练后的Transformer模型,得到预测文本语句的预测语义特征向量,完成多个三元组联合抽取方法。
本发明的有益效果为:
(1)本发明所提供的基于知识图谱嵌入的多三元组联合抽取方法,能够更好地处理关系抽取任务,可以一步抽取多个三元组,解决了诸如实体共享导致的多个三元组抽取难题。
(2)本发明所提供的基于知识图谱嵌入的多三元组联合抽取方法,在训练阶段使用了基于知识图谱嵌入的约束条件,将正样本(真实存在的三元组)与负样本(不存在关系的三元组)在语义空间中拉开距离,保证了抽取出的三元组质量。
(3)本发明所提供的基于知识图谱嵌入的多三元组联合抽取方法,引入知识表示学习下的知识图谱嵌入,添加TransE系列约束条件后,可以解决抽取时的多关系间的推理交互问题。
附图说明
图1为本发明所述的多三元组联合抽取方法的流程示意图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
如图1所示,在训练过程中,为简化起见,词嵌入层使用5维,位置嵌入层使用3维,即V=5+3=8,实际处理中为了取得更好的效果取的是更大的维度,如200维。Transformer层数N设为2,注意力头个数h设为2,单个注意力头的维度H设为4,满足4*2=8的约束条件。实体识别标注分类数设为5,即有B-PER、I-PER、B-LOC、I-LOC和O五种标注结果。关系分类数设为5,即有省会,位于,旅游景点,国籍,出生地五种关系。优化方法采用Adam算法,训练时优化批次大小设置为256,学习率设置为0.001,为了防止过拟合,Transformer层中增加dropout层,dropout的比例设置为0.3。迭代的最大次数设置为100。
以下为训练过程中的样例:
输入句子为“西湖是浙江杭州美丽的风景。”,每个字符作为一个token,按照步骤(1)输入到模型中,经过嵌入层映射后,得到句子表征矩阵R13×8。
[[-0.0374,-1.0976,-0.0963,-0.3536,-0.3335,0.1192,-0.7917,-2.6339],
[0.5995,-1.2287,-1.3343,0.2479,1.1635,-0.8169,0.3195,1.5749],
[-1.5554,-1.6975,-1.0910,0.1691,0.1132,0.0192,0.7349,-0.3518],
[0.6262,0.6221,-0.9456,0.9637,-0.0901,0.7862,1.5634,-0.3146],
[-0.8984,-0.2637,1.3625,-0.8143,1.0391,0.7685,-0.6697,0.2731],
[0.0346,-1.5208,0.1293,0.2332,1.6550,-0.0519,-0.2096,2.0922],
[0.5469,-0.2512,2.3055,-0.8153,0.1844,-0.7360,0.3666,-1.9232],
[1.0603,-0.1930,-0.6850,0.3374,0.9326,1.0240,-0.7935,-1.8373],
[0.5084,0.8707,-0.5140,-0.6702,-0.7525,1.8932,-0.2779,0.7722],
[0.4711,-0.5684,0.0263,1.6552,0.7177,-0.0346,0.5356,0.3318],
[-0.4738,0.9478,0.4574,0.9948,0.4510,-0.3721,0.5124,-0.1934],
[-1.3906,1.2847,-0.2477,-0.5228,0.3441,0.0334,-0.7204,-0.3948],
[-1.1444,0.1122,-0.9294,-0.2674,0.1688,-0.8905,-0.4545,0.7890]
按照步骤(2),将句子表征矩阵R13×8输入到2层Transformer中。对于每一层来说,Transformer输入依次经过多头自注意力网络、残差正则网络、全连接前馈网络和残差正则网络得到该层的输出结果。经过第一层Transformer后输出结果为h1∈R13×8
[[0.7772,0.6481,0.1445,-0.5063,0.0568,-1.3309,0.8532,-0.0989],
[-0.2387,0.8820,0.7760,-1.1988,0.3065,2.2431,-0.3417,-0.3270],
[-0.4247,-0.9327,-0.3219,1.0875,-1.5517,1.2469,-0.3219,-0.2182],
[-0.7085,-1.8257,-0.6946,0.0117,0.8620,-1.4521,0.7379,0.6072],
[-0.1495,-0.4673,0.4013,1.7230,-0.8785,-0.5062,2.5550,0.8333],
[-0.8914,-0.4208,-0.5124,-0.2103,3.3328,-1.7548,-1.2791,-0.2319],
[0.6697,0.6024,0.0108,-0.1573,0.3341,-0.4324,-1.3044,0.7013],
[0.6331,-0.7792,0.7191,-1.7577,-0.4130,-0.9728,-1.1020,1.1380],
[-0.6631,-0.9005,-1.5821,0.0847,0.0387,-0.7760,-1.1049,-0.5120],
[-0.9013,1.6353,0.2499,0.4636,0.1945,-1.9789,1.9101,1.3031],
[-0.7542,-2.0433,0.9292,-1.0403,-0.1052,-0.2897,0.3336,-0.4242],
[-0.5151,0.0671,0.6769,-0.0146,-0.7425,0.3816,0.1807,-1.2816],
[-2.1354,0.8901,2.4488,0.5185,1.5846,0.6753,0.7643,-0.6191]]
经过第二层Transformer后输出结果为h2∈R13×8
[[0.1207,0.6039,0.4532,-0.0864,-1.0803,2.4828,0.2170,-0.7665],
[0.0509,0.4678,-0.1981,-0.5396,-0.7586,-0.3110,-1.2691,0.3222],
[0.0788,-1.0179,-0.1838,0.0484,0.3420,1.1698,-0.8106,-1.1628],
[-0.5817,-0.5355,0.5151,0.0534,-0.0685,0.9809,-0.8799,-0.1970],
[0.0975,0.1748,-1.0007,-0.1723,-0.8734,0.5520,0.3760,-0.9197],
[-1.1604,-1.0859,-0.1555,-0.6088,-1.6138,-2.6506,0.8300,-0.5597],
[2.1082,1.9642,-1.1362,0.8211,-0.2954,-0.0950,1.3536,-1.2764],
[-1.1470,1.2922,-1.4056,-1.3588,0.1140,1.0271,0.4166,-0.7032],
[-0.7375,0.0058,3.3610,-0.4790,-0.1442,-1.0198,0.2884,-0.6373],
[-0.4545,-0.5001,1.0442,0.1924,0.4955,-0.1030,-0.4080,-2.4307],
[-0.6149,1.5589,0.2223,0.8799,-0.4361,-0.4120,1.1664,0.9768],
[-0.3798,-1.1627,0.1485,-0.6148,0.2266,1.6801,-1.1078,0.6156],
[-3.1761,-0.1453,0.2491,0.8560,-0.6450,0.9445,1.1020,1.4437]]
取最后一层Transformer的结果即第二层的输出结果h2作为最终编码层的输出结果。按照步骤(3),h2经过全连接层变换再经过softmax归一化后,与真实结果对比,就计算出实体识别交叉熵损失loss1=1.5671。
Transformer最后一层的结果h2,按照步骤(4)用来做关系分类任务。h2使用全连接层变换维度,经过挤压函数后求取每个关系的模长,使用sigmoid函数计算后即可得到拥有该关系的可能性。分别计算5种关系的二元交叉熵损失并求和就是最终的关系分类任务损失loss2=2.3412。
句子有3个实体:西湖、浙江、杭州,一共有5个可抽取的关系,按照步骤(5)构造5个3×3的矩阵,每一个矩阵对应一种关系,在任意一个矩阵中,对角线值0,对应行列有该关系的填1,没有该关系的填0。比如(西湖,省会,浙江)为负样本,西湖和浙江对应的行列值为-1。按照TransE约束,计算所有正负样本的知识嵌入作为loss3=1.8415。
按照步骤(6),计算总损失loss,loss=1.5671+2.3412+1.8415=5.7498。使用Adam算法反向传播,不断迭代使得最终loss不再下降为止,完成Transformer模型的训练。
利用待预测文本语句输入训练后的Transformer模型,得到预测文本语句的预测语义特征向量,完成多个三元组联合抽取方法。
上述的对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。
Claims (6)
1.一种基于知识图谱嵌入的多三元组联合抽取方法,其特征在于,包括:
(1)获取文本语句,对文本语句进行处理,得到处理后的文本语句矩阵;
(2)将处理后的文本语句矩阵输入到Transformer模型中提取文本语句的语义信息,得到文本语句的语义特征向量;
(3)利用步骤(2)得到的语义特征向量对Transformer模型进行训练,得到训练后的Transformer模型;
所述的训练过程包括:
(3.1)将步骤(2)中得到的文本语句的语义特征向量,得到文本语句的实体标注预测矩阵,将实体标注预测矩阵中的实体标注预测值与真实标注结果对比后,求得实体识别交叉熵损失loss1,其中,loss1的计算公式为式(1)所示:
其中,C为标注的总类别数;pi为真实结果;qi为实体标注预测矩阵E中具体的一个实体预测值;
(3.2)将步骤(2)中得到的文本语句的语义特征向量用于关系分类任务,得到语句实体词关系分类矩阵,将语句实体词关系分类矩阵中实体词关系与真实关系对比,求取关系分类的实体识别交叉熵损失loss2,包括:关系分类任务包括:
(3.2.1)将文本语句的语义特征向量经过全连接层及挤压函数变换后,得到关系向量;所述的关系向量的计算公式为式(2)所示:
rc=squash(hnWR) (2)
其中,rc为关系向量;WR∈RV×C,WR为训练过程中的参数;C为关系种类数;squash为挤压变换函数;
(3.2.2)利用关系向量求出关系向量中每种关系的概率,利用每种关系的概率计算交叉熵损失loss2;
所述的每种关系的概率的计算公式为式(3)所示:
pi=sigmoid(‖rC‖2) (3)
其中,pi为关系向量中每种关系的概率;
所述的交叉熵损失loss2的计算公式为式(4)所示:
其中,C为关系的总类别数;yi为真实结果;pi为关系向量中每种关系的概率;
(3.3)利用文本语句的实体标注预测矩阵和文本语句的语句实体词关系分类矩阵构造实体词关系,利用知识嵌入约束方法,求得关系矩阵,将关系矩阵中真实存在的关系与不存在的关系对比,求取关系的交叉熵损失loss3,其中,交叉熵损失loss3的计算公式为式(5)所示:
其中,(h,r,t)为存在关系r的正样本;(h′,r′,t′)为不存在关系r′的负样本;γ为正样本和负样本之间的最小分隔,为超参数,设置为γ=1;采用知识嵌入约束计算方法,计算知识图谱嵌入下fr(h,t)评分函数;
(3.4)基于梯度下降的优化算法,利用loss1、loss2和loss3计算最小化总的损失函数loss,迭代求解直至损失值收敛,得到训练后的Transformer模型;
(4)利用待预测文本语句输入步骤(3)中训练后的Transformer模型,得到预测文本语句的预测语义特征向量,完成多个三元组联合抽取方法。
2.根据权利要求1所述的基于知识图谱嵌入的多三元组联合抽取方法,其特征在于,步骤(1)中,所述的对文本语句进行处理,包括:
(1.1)获取文本语句,使用随机初始化的词嵌入层,将文本语句中的每个词映射到dw维空间,得到文本语句中每个词的词嵌入矩阵;
所述的文本语句为式(6)所示:
si={w1,w2,…,wi} (6)
其中,si为文本语句;wi表示文本语句中的每一个字符;
所述的词嵌入矩阵为式(7)所示:
其中,MW为词嵌入矩阵;R为矩阵维度的一个抽象字母;L为文本语句的长度;dw为文本语句中每个词映射后的维度;
(1.2)使用随机初始化的位置嵌入层,将文本语句中的每个词位置按顺序映射到dp维空间,得到文本语句中每个词的位置嵌入矩阵;
所述的位置嵌入矩阵为式(8)所示:
其中,MP为位置嵌入矩阵;R为矩阵维度的一个抽象字母;L为文本语句的长度;dp为文本语句中每个词位置映射后的维度;
(1.3)将文本语句中每一个词的词嵌入矩阵与其相对应的位置嵌入矩阵组合后,得到文本语句矩阵;
所述的文本语句矩阵为式(9)所示:
sj={e1,e2,…,ej}∈RL×V (9)
其中,sj为文本语句矩阵;ei为文本语句矩阵中每个词的词嵌入矩阵和位置嵌入矩阵;V=dw+dp。
3.根据权利要求1所述的基于知识图谱嵌入的多三元组联合抽取方法,其特征在于,步骤(2)中,所述的Transformer模型为包括多头自注意力网络、残差正则网络、全连接前馈网络和残差正则网络四部分相连组成。
4.根据权利要求1所述的基于知识图谱嵌入的多三元组联合抽取方法,其特征在于,步骤(2)中,所述的得到文本语句的语义特征向量的过程,包括;
其中,WO∈RV×V,Wi Q∈RV×H,Wi K∈RV×H,Wi K∈RV×H,均为训练过程中的参数;h是注意力头的个数;H是单个注意力头的维度;要求H与h的乘积等于V;
其中,WF∈RV×V,WF与b为训练过程中的参数;
所述的语义特征向量hi+1就是该层编码器在输入hi后得到的输出结果。
5.根据权利要求1所述的基于知识图谱嵌入的多三元组联合抽取方法,其特征在于,步骤(3.1)中,所述的实体识别序列标注任务包括:将文本语句的语义特征向量经过全连接前馈网络变换后得到实体标注预测矩阵;所述的实体标注预测矩阵的计算公式为式(14)所示:
E=softmax(hnWE) (14)
E=[q1,q2,…,qi]
其中,E为实体标注预测矩阵;qi为实体标注预测矩阵E中具体的一个实体预测值;hn为Transformer模型最后一层输出的文本语句的语义特征向量;WE∈RV×C,WE为训练过程中的参数;softmax为归一化函数。
6.根据权利要求1所述的基于知识图谱嵌入的多三元组联合抽取方法,其特征在于,步骤(3.3)中,所述的知识嵌入约束计算方法为TransE计算方法,fr(h,t)为h和t之间距离的评分函数,fr(h,t)评分函数的计算公式为式(15)所示:
fr(h,t)=‖h+r-t‖ (15)
所述的知识嵌入约束计算方法为TransH计算方法,所述的fr(h,t)评分函数的计算公式为式(16)所示:
fr(h,t)=‖h⊥+r-t⊥‖ (16)
所述的知识嵌入约束计算方法为TransR计算方法,所述的fr(h,t)评分函数的计算公式为式(17)所示:
fr(h,t)=‖hr+r-tr‖ (17)
其中,hr=hMr;tr=tMr;Mr为训练过程中的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010198105.8A CN111444305B (zh) | 2020-03-19 | 2020-03-19 | 一种基于知识图谱嵌入的多三元组联合抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010198105.8A CN111444305B (zh) | 2020-03-19 | 2020-03-19 | 一种基于知识图谱嵌入的多三元组联合抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444305A CN111444305A (zh) | 2020-07-24 |
CN111444305B true CN111444305B (zh) | 2022-10-14 |
Family
ID=71629365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010198105.8A Active CN111444305B (zh) | 2020-03-19 | 2020-03-19 | 一种基于知识图谱嵌入的多三元组联合抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444305B (zh) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985152B (zh) * | 2020-07-28 | 2022-09-13 | 浙江大学 | 一种基于二分超球面原型网络的事件分类方法 |
CN111859922B (zh) * | 2020-07-31 | 2023-12-01 | 上海银行股份有限公司 | 实体关系抽取技术在银行风控中的应用方法 |
CN112069818B (zh) * | 2020-08-06 | 2024-05-24 | 北京捷通华声科技股份有限公司 | 三元组预测模型生成方法、关系三元组提取方法和装置 |
CN112100393B (zh) * | 2020-08-07 | 2022-03-15 | 浙江大学 | 一种低资源场景下的知识三元组抽取方法 |
CN111950297A (zh) * | 2020-08-26 | 2020-11-17 | 桂林电子科技大学 | 一种面向异常事件的关系抽取方法 |
CN112069319B (zh) * | 2020-09-10 | 2024-03-22 | 杭州中奥科技有限公司 | 文本抽取方法、装置、计算机设备和可读存储介质 |
CN112100380B (zh) * | 2020-09-16 | 2022-07-12 | 浙江大学 | 一种基于知识图谱的生成式零样本预测方法 |
CN112100403A (zh) * | 2020-09-16 | 2020-12-18 | 浙江大学 | 一种基于神经网络的知识图谱不一致性推理方法 |
CN112100404B (zh) * | 2020-09-16 | 2021-10-15 | 浙江大学 | 基于结构化上下文信息的知识图谱预训练方法 |
CN112183023A (zh) * | 2020-09-28 | 2021-01-05 | 云知声智能科技股份有限公司 | 一种多关系抽取方法和终端 |
CN112231569B (zh) * | 2020-10-23 | 2023-10-24 | 中国平安人寿保险股份有限公司 | 新闻推荐方法、装置、计算机设备及存储介质 |
CN112328859B (zh) * | 2020-11-05 | 2022-09-20 | 南开大学 | 一种基于知识感知注意力网络的虚假新闻检测方法 |
CN112347759A (zh) * | 2020-11-10 | 2021-02-09 | 华夏幸福产业投资有限公司 | 一种实体关系的抽取方法、装置、设备及存储介质 |
CN112528034B (zh) * | 2020-11-16 | 2022-06-10 | 中国科学院深圳先进技术研究院 | 一种基于知识蒸馏的实体关系抽取方法 |
CN112632996A (zh) * | 2020-12-08 | 2021-04-09 | 浙江大学 | 一种基于对比学习的实体关系三元组抽取方法 |
CN112711949B (zh) * | 2021-01-05 | 2022-04-22 | 山东众阳健康科技集团有限公司 | 一种命名实体识别和实体关系抽取的联合方法 |
CN112765363B (zh) * | 2021-01-19 | 2022-11-22 | 昆明理工大学 | 一种面向科技服务需求的需求图谱构建方法 |
CN112800239B (zh) * | 2021-01-22 | 2024-04-12 | 中信银行股份有限公司 | 意图识别模型训练方法、意图识别方法及装置 |
CN112818690B (zh) * | 2021-01-22 | 2022-04-26 | 润联软件系统(深圳)有限公司 | 结合知识图谱实体信息的语义识别方法、装置及相关设备 |
CN112966512B (zh) * | 2021-02-26 | 2024-04-02 | 西安理工大学 | 一种基于深度学习的地铁设计规范中实体关系联合抽取方法 |
CN113157936B (zh) * | 2021-03-16 | 2024-03-12 | 云知声智能科技股份有限公司 | 实体关系联合抽取方法、装置、电子设备和存储介质 |
CN113032523B (zh) * | 2021-03-22 | 2022-05-10 | 平安科技(深圳)有限公司 | 三元组信息的抽取方法、装置、电子设备和存储介质 |
CN113051930B (zh) * | 2021-03-25 | 2023-04-14 | 华润数字科技有限公司 | 基于Bert模型的意图识别方法、装置及相关设备 |
CN113158671B (zh) * | 2021-03-25 | 2023-08-11 | 胡明昊 | 一种结合命名实体识别的开放域信息抽取方法 |
CN112800247B (zh) * | 2021-04-09 | 2021-06-18 | 华中科技大学 | 基于知识图谱共享的语义编/解码方法、设备和通信系统 |
CN113343651A (zh) * | 2021-05-06 | 2021-09-03 | 广东核电合营有限公司 | 核电站通知单生成方法、装置、计算机设备及存储介质 |
CN113495929A (zh) * | 2021-05-18 | 2021-10-12 | 浙江工业大学 | 一种基于自注意力的三元组抽取方法 |
CN113312498B (zh) * | 2021-06-09 | 2022-06-17 | 上海交通大学 | 用无向图嵌入知识图谱的文本信息抽取方法 |
CN113360606A (zh) * | 2021-06-24 | 2021-09-07 | 哈尔滨工业大学 | 一种基于Filter的知识图谱问答联合训练方法 |
CN113407720B (zh) * | 2021-06-25 | 2023-04-25 | 南开大学 | 基于预训练文本编码模型的分类体系扩展方法 |
CN113626215B (zh) * | 2021-07-22 | 2023-08-18 | 武汉大学 | 一种基于短语识别的气象场景服务图谱构建方法及系统 |
CN113569773B (zh) * | 2021-08-02 | 2023-09-15 | 南京信息工程大学 | 基于知识图谱和Softmax回归的干扰信号识别方法 |
CN113779260B (zh) * | 2021-08-12 | 2023-07-18 | 华东师范大学 | 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 |
CN114218931B (zh) * | 2021-11-04 | 2024-01-23 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备和可读存储介质 |
CN114416941B (zh) * | 2021-12-28 | 2023-09-05 | 北京百度网讯科技有限公司 | 融合知识图谱的对话知识点确定模型的生成方法及装置 |
CN115270801B (zh) * | 2022-09-28 | 2022-12-30 | 浙江太美医疗科技股份有限公司 | 文本信息抽取模型的训练方法、文本信息抽取方法和应用 |
CN115759098B (zh) * | 2022-11-14 | 2023-07-18 | 中国科学院空间应用工程与技术中心 | 一种航天文本数据的中文实体和关系联合抽取方法、系统 |
CN116094843B (zh) * | 2023-04-10 | 2023-06-16 | 北京航空航天大学 | 一种基于知识图谱的网络威胁评估方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN109800411A (zh) * | 2018-12-03 | 2019-05-24 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10832308B2 (en) * | 2017-04-17 | 2020-11-10 | International Business Machines Corporation | Interpretable rule generation using loss preserving transformation |
-
2020
- 2020-03-19 CN CN202010198105.8A patent/CN111444305B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304911A (zh) * | 2018-01-09 | 2018-07-20 | 中国科学院自动化研究所 | 基于记忆神经网络的知识抽取方法以及系统和设备 |
CN109800411A (zh) * | 2018-12-03 | 2019-05-24 | 哈尔滨工业大学(深圳) | 临床医疗实体及其属性抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111444305A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444305B (zh) | 一种基于知识图谱嵌入的多三元组联合抽取方法 | |
CN111368528B (zh) | 一种面向医学文本的实体关系联合抽取方法 | |
CN110210037B (zh) | 面向循证医学领域的类别检测方法 | |
He et al. | See: Syntax-aware entity embedding for neural relation extraction | |
CN111160564B (zh) | 一种基于特征张量的中文知识图谱表示学习方法 | |
CN109614471B (zh) | 一种基于生成式对抗网络的开放式问题自动生成方法 | |
CN108229582A (zh) | 一种面向医学领域的多任务命名实体识别对抗训练方法 | |
CN110046252B (zh) | 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN113609859A (zh) | 一种基于预训练模型的特种设备中文命名实体识别方法 | |
CN109977250B (zh) | 融合语义信息和多级相似性的深度哈希图像检索方法 | |
CN112818676A (zh) | 一种医学实体关系联合抽取方法 | |
CN110888980A (zh) | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 | |
CN110532395B (zh) | 一种基于语义嵌入的词向量改进模型的建立方法 | |
CN113011196B (zh) | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 | |
CN113516198A (zh) | 一种基于记忆网络和图神经网络的文化资源文本分类方法 | |
CN110781271A (zh) | 一种基于层次注意力机制的半监督网络表示学习模型 | |
CN113488196A (zh) | 一种药品说明书文本命名实体识别建模方法 | |
CN113221571A (zh) | 基于实体相关注意力机制的实体关系联合抽取方法 | |
CN114925205B (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN111191461B (zh) | 一种基于课程学习的远程监督关系抽取方法 | |
CN114254645A (zh) | 一种人工智能辅助写作系统 | |
CN113627195B (zh) | 基于层次Transformer和图神经网络的评论情感分析方法及系统 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN112950414B (zh) | 一种基于解耦法律要素的法律文本表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |