CN111444305B

CN111444305B - 一种基于知识图谱嵌入的多三元组联合抽取方法

Info

Publication number: CN111444305B
Application number: CN202010198105.8A
Authority: CN
Inventors: 陈华钧; 余海阳; 邓淑敏; 张宁豫
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2022-10-14
Anticipated expiration: 2040-03-19
Also published as: CN111444305A

Abstract

本发明公开了一种基于知识图谱嵌入的多三元组联合抽取方法，包括：对获取的文本语句进行处理，得到文本语句矩阵；将文本语句矩阵输入到Transformer模型中提取文本语句的语义信息，得到语义特征向量；将语义特征向量用于实体识别序列标注任务，求得实体识别交叉熵损失loss₁；将语义特征向量用于关系分类任务，求取关系分类的实体识别交叉熵损失loss₂；利用实体标注预测矩阵和语句实体词关系分类矩阵构造实体词关系，求取关系的交叉熵损失loss₃；利用loss₁、loss₂和loss₃基于梯度下降的优化算法计算最小化总的损失函数loss，得到训练后的Transformer模型，利用待预测文本语句输入训练后的Transformer模型，得到预测文本语句的预测语义特征向量，完成多个三元组联合抽取方法。

Description

一种基于知识图谱嵌入的多三元组联合抽取方法

技术领域

本发明涉及数据存储与处理技术领域，具体涉及一种知识图谱中三元组抽取的方法。

背景技术

知识图谱以结构化的形式描述客观世界中的概念、实体及其关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力，知识图谱主要包含实体、关系和三元组，每一个三元组表示一条知识。当两个实体之间存在某一种关系时，用(h，r，t)表示一个三元组，其中h，t分别表示头实体和尾实体，r表示关系，例如(中国，首都，北京)即表示了“北京是中国的首都”这么一条知识。

实体关系学习是自动化地从文本中检测和识别出实体之间具有的语义关系，也称为关系抽取，关系抽取是知识图谱构建和信息抽取中的一个关键环节，具有重要的理论意义和广阔的应用前景，为多种应用提供重要的支持，如大规模知识图谱自动化构建，包括如WordNet、HowNet等常识知识图谱中的通用语义知识，以及金融、医疗等垂直应用领域的定制知识图谱。信息检索、智能推荐、问答系统等知识图谱应用技术的优劣程度严重依赖于上层图谱构建的质量。

目前关系抽取的方法，主要分为基于规则的方法和基于机器学习的方法。传统专家依靠预定义好的规则手工编撰的方式构建知识库，不仅费时费力，而且存在知识覆盖率低、数据稀疏、更新缓慢等缺点。基于机器学习的方法则可以自动化地抽取三元组。自从深度学习发展起来后，学者侧重于使用深度神经网络模型处理关系抽取任务。

深度学习的方法抽取三元组，目前有分步抽取和端到端抽取两种方式。使用分步抽取的方式，即先识别出文本语料中的实体，标注出头实体h和尾实体t，再抽取出两者的关系r。这种方式会导致错误传播，第一步抽取中的错误会传递到第二步中，导致整体的正确率下降。而端到端抽取可避免这种错误传播。但是目前端到端抽取模型，不适合抽取多个三元组，或者抽取多个三元组时不允许有共享实体的情况。而真实语料中的知识情况比较复杂。例如句子“在浙江的这段旅程中，最让我难忘的还是杭州那美丽的西湖”中，存在实体：“浙江”、“杭州”、“西湖”，存在三元组有(浙江，省会，杭州)，(杭州，位于，浙江)，(浙江，旅游景点，西湖)，(杭州，旅游景点，西湖)。这些三元组间共享部分实体，三元组间存在推理交互，抽取难度上升。

另外知识图谱中的知识表示学习，也是近年来研究的热点。研究者希望构建模型将实体与关系映射到低维向量，从而学习出知识库中的实体与关系的表示，其中基于词向量空间中存在词汇语义与句法关系平移不变现象的启发，而提出的TransE系列的知识嵌入模型成为知识表示学习的代表模型。

发明内容

本发明提供了一种基于知识图谱嵌入的多三元组联合抽取方法，该模型训练阶段引入知识表示学习下的知识图谱嵌入，从而兼顾到不同关系间的推理交互作用，一步抽取多个三元组，并解决实体共享导致的抽取难题。

一种基于知识图谱嵌入的多三元组联合抽取方法，包括：

(1)获取文本语句，对文本语句进行处理，得到处理后的文本语句矩阵。

所述的对文本语句进行处理，包括：

(1.1)获取文本语句，使用随机初始化的词嵌入层，将文本语句中的每个词映射到dw维空间，得到文本语句中每个词的词嵌入矩阵；

所述的文本语句为式(1)所示：

s_i＝{w₁,w₂,…,w_i} (1)

其中，s_i为文本语句；w_i表示文本语句中的每一个字符。

所述的词嵌入矩阵为式(2)所示：

其中，M^W为词嵌入矩阵；R为矩阵维度的一个抽象字母；L为文本语句的长度；dw为文本语句中每个词映射后的维度。

(1.2)使用随机初始化的位置嵌入层，将文本语句中的每个词位置按顺序映射到d_p维空间，得到文本语句中每个词的位置嵌入矩阵；

所述的位置嵌入矩阵为式(3)所示：

其中，M^P为位置嵌入矩阵；R为矩阵维度的一个抽象字母；L为文本语句的长度；dp为文本语句中每个词位置映射后的维度。

(1.3)将文本语句中每一个词的词嵌入矩阵与其相对应的位置嵌入矩阵组合后，得到文本语句矩阵。

所述的文本语句矩阵为式(4)所示：

s_j＝{e₁,e₂,…,e_j}∈R^L×V (4)

其中，s_j为文本语句矩阵；e_i为文本语句矩阵中每个词的词嵌入矩阵和位置嵌入矩阵；V＝d_w+d_p。

(2)将处理后的文本语句矩阵输入到Transformer模型中提取文本语句的语义信息，得到文本语句的语义特征向量；

所述的Transformer模型为包括多头自注意力网络、残差正则网络、全连接前馈网络和残差正则网络四部分相连组成。

所述的得到文本语句的语义特征向量的过程，包括；

(2.1)将文本语句矩阵s_j输入到Transformer模型多头自注意力网络中经过处理后得到语义特征向量

所述的语义特征向量

的计算公式为式(5)所示：

head_i＝Attention(h_iW_i ^Q,h_iW_i ^K,h_iW_i ^V) (5)

其中，W^o∈R^V×V，W_i ^Q∈R^V×H，W_i ^K∈R^V×H，W_i ^K∈R^V×H，均为训练过程中的参数；h是注意力头的个数；H是单个注意力头的维度；V为H与h的乘积。

(2.2)将所述的语义特征向量

与h_i一同输入到残差正则网络中，处理后得到语义特征向量

所述的语义特征向量

的计算公式为式(6)所示：

(2.3)将所述的语义特征向量

输入到全连接前馈网络中，处理后得到语义特征向量

所述的语义特征向量

的计算公式为式(7)所示：

其中，W^F∈R^V×V，W^F与b为训练过程中的参数。

(2.4)将所述的语义特征向量

与语义特征向量

一同输入到残差正则网络中，处理后得到编码器i层的输出语义特征向量h_i+1；所述的语义特征向量h_i+1的计算公式为式(8)所示：

所述的语义特征向量h_i+1就是该层编码器在输入h_i后得到的输出结果。

(3)利用步骤(2)得到的语义特征向量对Transformer模型进行训练，得到训练后的Transformer模型；

所述的训练过程包括：

(3.1)将步骤(2)中得到的文本语句的语义特征向量用于实体识别序列标注任务，得到文本语句的实体标注预测矩阵，将实体标注预测矩阵中的实体标注预测值与真实标注结果对比后，求得实体识别交叉熵损失loss₁。

所述的标注为使用BIO标注法对于语句中每个字符w_i进行标注；当w_i是实体词时，实体词语的开头标记为B-TYPE，实体词的其余部分标记为I-TYPE；所述的TYPE为实体词的类型，具体为PER、LOC表示人物、地点等；当w_i不是实体词时，w_i被标记为O。

所述的实体识别序列标注任务包括：将文本语句的语义特征向量经过全连接前馈网络变换后得到实体标注预测矩阵；所述的实体标注预测矩阵的计算公式为式(9)所示：

E＝softmax(h_nW^E) (9)

E＝[q_1,q_2,...,q_i]

其中，E为实体标注预测矩阵；q_i为实体标注预测矩阵E中具体的一个实体预测值；h_n为Transformer模型最后一层输出的文本语句的语义特征向量；W^E∈R^V×C，W^E为训练过程中的参数；softmax为归一化函数。

所述的实体识别交叉熵损失loss₁的计算公式为式(10)所示：

其中，C为标注的总类别数；p_i为真实结果；q_i为实体标注预测矩阵E中具体的一个实体预测值。

(3.2)将步骤(2)中得到的文本语句的语义特征向量用于关系分类任务，得到语句实体词关系分类矩阵，将语句实体词关系分类矩阵中实体词关系与真实关系对比，求取关系分类的实体识别交叉熵损失loss₂。

所述的关系分类任务包括：

(3.2.1)将文本语句的语义特征向量经过全连接层及挤压函数变换后，得到关系向量；所述的关系向量的计算公式为式(11)所示：

r_c＝squash(h_nW^R) (11)

其中，r_c为关系向量；W^R∈R^V×C，W^R为训练过程中的参数；C为关系种类数；squash为挤压变换函数。

(3.2.2)利用关系向量求出关系向量中每种关系的概率，利用每种关系的概率计算交叉熵损失loss₂；

所述的每种关系的概率的计算公式为式(12)所示：

p_i＝sigmoid(‖r_C‖₂) (12)

其中，p_i为关系向量中每种关系的概率；

所述的交叉熵损失loss₂的计算公式为式(13)所示：

其中，C为关系的总类别数；y_i为真实结果；p_i为关系向量中每种关系的概率。

(3.3)利用文本语句的实体标注预测矩阵和文本语句的语句实体词关系分类矩阵构造实体词关系，利用知识嵌入约束方法，求得关系矩阵，将关系矩阵中真实存在的关系与不存在的关系对比，求取关系的交叉熵损失loss₃。

所述的交叉熵损失loss₃的计算公式为式(14)所示：

其中，(h,r,t)为存在关系r的正样本；(h′,r′,t′)为不存在关系r′的负样本；γ为正样本和负样本之间的最小分隔，为超参数，设置为γ＝1；采用知识嵌入约束计算方法，计算知识图谱嵌入下f_r(h,t)评分函数。

所述的知识嵌入约束计算方法为TransE计算方法，所述的f_r(h,t)为h和t之间距离的评分函数，所述的f_r(h,t)评分函数的计算公式为式(15)所示：

f_r(h,t)＝‖h+r-t‖ (15)

所述的知识嵌入约束计算方法为TransH计算方法，所述的f_r(h,t)评分函数的计算公式为式(16)所示：

f_r(h,t)＝‖h_⊥+r-t_⊥‖ (16)

其中，

‖w_r‖₂＝1，w_r为训练过程中的参数。

所述的知识嵌入约束计算方法为TransR计算方法，所述的f_r(h,t)评分函数的计算公式为式(17)所示：

f_r(h,t)＝‖h_r+r-t_r‖ (17)

其中，h_r＝hM_r；t_r＝tM_r；M_r为训练过程中的参数。

(3.4)基于梯度下降的优化算法，利用loss₁、loss₂和loss₃计算最小化总的损失函数loss，迭代求解直至损失值收敛，得到训练后的Transformer模型。

所述的总的损失函数loss的计算公式为式(18)所示：

loss＝loss₁+loss₂+loss₃ (18)。

(4)利用待预测文本语句输入步骤(3)中训练后的Transformer模型，得到预测文本语句的预测语义特征向量，完成多个三元组联合抽取方法。

本发明的有益效果为：

(1)本发明所提供的基于知识图谱嵌入的多三元组联合抽取方法，能够更好地处理关系抽取任务，可以一步抽取多个三元组，解决了诸如实体共享导致的多个三元组抽取难题。

(2)本发明所提供的基于知识图谱嵌入的多三元组联合抽取方法，在训练阶段使用了基于知识图谱嵌入的约束条件，将正样本(真实存在的三元组)与负样本(不存在关系的三元组)在语义空间中拉开距离，保证了抽取出的三元组质量。

(3)本发明所提供的基于知识图谱嵌入的多三元组联合抽取方法，引入知识表示学习下的知识图谱嵌入，添加TransE系列约束条件后，可以解决抽取时的多关系间的推理交互问题。

附图说明

图1为本发明所述的多三元组联合抽取方法的流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

如图1所示，在训练过程中，为简化起见，词嵌入层使用5维，位置嵌入层使用3维，即V＝5+3＝8，实际处理中为了取得更好的效果取的是更大的维度，如200维。Transformer层数N设为2，注意力头个数h设为2，单个注意力头的维度H设为4，满足4*2＝8的约束条件。实体识别标注分类数设为5，即有B-PER、I-PER、B-LOC、I-LOC和O五种标注结果。关系分类数设为5，即有省会，位于，旅游景点，国籍，出生地五种关系。优化方法采用Adam算法，训练时优化批次大小设置为256,学习率设置为0.001，为了防止过拟合，Transformer层中增加dropout层，dropout的比例设置为0.3。迭代的最大次数设置为100。

以下为训练过程中的样例：

输入句子为“西湖是浙江杭州美丽的风景。”，每个字符作为一个token，按照步骤(1)输入到模型中，经过嵌入层映射后，得到句子表征矩阵R^13×8。

[[-0.0374,-1.0976,-0.0963,-0.3536,-0.3335,0.1192,-0.7917,-2.6339],

[0.5995,-1.2287,-1.3343,0.2479,1.1635,-0.8169,0.3195,1.5749],

[-1.5554,-1.6975,-1.0910,0.1691,0.1132,0.0192,0.7349,-0.3518],

[0.6262,0.6221,-0.9456,0.9637,-0.0901,0.7862,1.5634,-0.3146],

[-0.8984,-0.2637,1.3625,-0.8143,1.0391,0.7685,-0.6697,0.2731],

[0.0346,-1.5208,0.1293,0.2332,1.6550,-0.0519,-0.2096,2.0922],

[0.5469,-0.2512,2.3055,-0.8153,0.1844,-0.7360,0.3666,-1.9232],

[1.0603,-0.1930,-0.6850,0.3374,0.9326,1.0240,-0.7935,-1.8373],

[0.5084,0.8707,-0.5140,-0.6702,-0.7525,1.8932,-0.2779,0.7722],

[0.4711,-0.5684,0.0263,1.6552,0.7177,-0.0346,0.5356,0.3318],

[-0.4738,0.9478,0.4574,0.9948,0.4510,-0.3721,0.5124,-0.1934],

[-1.3906,1.2847,-0.2477,-0.5228,0.3441,0.0334,-0.7204,-0.3948],

[-1.1444,0.1122,-0.9294,-0.2674,0.1688,-0.8905,-0.4545,0.7890]

按照步骤(2)，将句子表征矩阵R^13×8输入到2层Transformer中。对于每一层来说，Transformer输入依次经过多头自注意力网络、残差正则网络、全连接前馈网络和残差正则网络得到该层的输出结果。经过第一层Transformer后输出结果为h₁∈R^13×8

[[0.7772,0.6481,0.1445,-0.5063,0.0568,-1.3309,0.8532,-0.0989],

[-0.2387,0.8820,0.7760,-1.1988,0.3065,2.2431,-0.3417,-0.3270],

[-0.4247,-0.9327,-0.3219,1.0875,-1.5517,1.2469,-0.3219,-0.2182],

[-0.7085,-1.8257,-0.6946,0.0117,0.8620,-1.4521,0.7379,0.6072],

[-0.1495,-0.4673,0.4013,1.7230,-0.8785,-0.5062,2.5550,0.8333],

[-0.8914,-0.4208,-0.5124,-0.2103,3.3328,-1.7548,-1.2791,-0.2319],

[0.6697,0.6024,0.0108,-0.1573,0.3341,-0.4324,-1.3044,0.7013],

[0.6331,-0.7792,0.7191,-1.7577,-0.4130,-0.9728,-1.1020,1.1380],

[-0.6631,-0.9005,-1.5821,0.0847,0.0387,-0.7760,-1.1049,-0.5120],

[-0.9013,1.6353,0.2499,0.4636,0.1945,-1.9789,1.9101,1.3031],

[-0.7542,-2.0433,0.9292,-1.0403,-0.1052,-0.2897,0.3336,-0.4242],

[-0.5151,0.0671,0.6769,-0.0146,-0.7425,0.3816,0.1807,-1.2816],

[-2.1354,0.8901,2.4488,0.5185,1.5846,0.6753,0.7643,-0.6191]]

经过第二层Transformer后输出结果为h₂∈R^13×8

[[0.1207,0.6039,0.4532,-0.0864,-1.0803,2.4828,0.2170,-0.7665],

[0.0509,0.4678,-0.1981,-0.5396,-0.7586,-0.3110,-1.2691,0.3222],

[0.0788,-1.0179,-0.1838,0.0484,0.3420,1.1698,-0.8106,-1.1628],

[-0.5817,-0.5355,0.5151,0.0534,-0.0685,0.9809,-0.8799,-0.1970],

[0.0975,0.1748,-1.0007,-0.1723,-0.8734,0.5520,0.3760,-0.9197],

[-1.1604,-1.0859,-0.1555,-0.6088,-1.6138,-2.6506,0.8300,-0.5597],

[2.1082,1.9642,-1.1362,0.8211,-0.2954,-0.0950,1.3536,-1.2764],

[-1.1470,1.2922,-1.4056,-1.3588,0.1140,1.0271,0.4166,-0.7032],

[-0.7375,0.0058,3.3610,-0.4790,-0.1442,-1.0198,0.2884,-0.6373],

[-0.4545,-0.5001,1.0442,0.1924,0.4955,-0.1030,-0.4080,-2.4307],

[-0.6149,1.5589,0.2223,0.8799,-0.4361,-0.4120,1.1664,0.9768],

[-0.3798,-1.1627,0.1485,-0.6148,0.2266,1.6801,-1.1078,0.6156],

[-3.1761,-0.1453,0.2491,0.8560,-0.6450,0.9445,1.1020,1.4437]]

取最后一层Transformer的结果即第二层的输出结果h₂作为最终编码层的输出结果。按照步骤(3)，h₂经过全连接层变换再经过softmax归一化后，与真实结果对比，就计算出实体识别交叉熵损失loss₁＝1.5671。

Transformer最后一层的结果h₂，按照步骤(4)用来做关系分类任务。h₂使用全连接层变换维度，经过挤压函数后求取每个关系的模长，使用sigmoid函数计算后即可得到拥有该关系的可能性。分别计算5种关系的二元交叉熵损失并求和就是最终的关系分类任务损失loss₂＝2.3412。

句子有3个实体：西湖、浙江、杭州，一共有5个可抽取的关系，按照步骤(5)构造5个3×3的矩阵，每一个矩阵对应一种关系，在任意一个矩阵中，对角线值0，对应行列有该关系的填1，没有该关系的填0。比如(西湖，省会，浙江)为负样本，西湖和浙江对应的行列值为-1。按照TransE约束，计算所有正负样本的知识嵌入作为loss₃＝1.8415。

按照步骤(6)，计算总损失loss，loss＝1.5671+2.3412+1.8415＝5.7498。使用Adam算法反向传播，不断迭代使得最终loss不再下降为止，完成Transformer模型的训练。

利用待预测文本语句输入训练后的Transformer模型，得到预测文本语句的预测语义特征向量，完成多个三元组联合抽取方法。

上述的对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于知识图谱嵌入的多三元组联合抽取方法，其特征在于，包括：

(1)获取文本语句，对文本语句进行处理，得到处理后的文本语句矩阵；

所述的训练过程包括：

(3.1)将步骤(2)中得到的文本语句的语义特征向量，得到文本语句的实体标注预测矩阵，将实体标注预测矩阵中的实体标注预测值与真实标注结果对比后，求得实体识别交叉熵损失loss₁，其中，loss₁的计算公式为式(1)所示：

其中，C为标注的总类别数；p_i为真实结果；q_i为实体标注预测矩阵E中具体的一个实体预测值；

(3.2)将步骤(2)中得到的文本语句的语义特征向量用于关系分类任务，得到语句实体词关系分类矩阵，将语句实体词关系分类矩阵中实体词关系与真实关系对比，求取关系分类的实体识别交叉熵损失loss₂，包括：关系分类任务包括：

(3.2.1)将文本语句的语义特征向量经过全连接层及挤压函数变换后，得到关系向量；所述的关系向量的计算公式为式(2)所示：

r_c＝squash(h_nW^R) (2)

其中，r_c为关系向量；W^R∈R^V×C，W^R为训练过程中的参数；C为关系种类数；squash为挤压变换函数；

所述的每种关系的概率的计算公式为式(3)所示：

p_i＝sigmoid(‖r_C‖₂) (3)

其中，p_i为关系向量中每种关系的概率；

所述的交叉熵损失loss₂的计算公式为式(4)所示：

其中，C为关系的总类别数；y_i为真实结果；p_i为关系向量中每种关系的概率；

(3.3)利用文本语句的实体标注预测矩阵和文本语句的语句实体词关系分类矩阵构造实体词关系，利用知识嵌入约束方法，求得关系矩阵，将关系矩阵中真实存在的关系与不存在的关系对比，求取关系的交叉熵损失loss₃，其中，交叉熵损失loss₃的计算公式为式(5)所示：

其中，(h,r,t)为存在关系r的正样本；(h′,r′,t′)为不存在关系r′的负样本；γ为正样本和负样本之间的最小分隔，为超参数，设置为γ＝1；采用知识嵌入约束计算方法，计算知识图谱嵌入下f_r(h,t)评分函数；

(3.4)基于梯度下降的优化算法，利用loss₁、loss₂和loss₃计算最小化总的损失函数loss，迭代求解直至损失值收敛，得到训练后的Transformer模型；

2.根据权利要求1所述的基于知识图谱嵌入的多三元组联合抽取方法，其特征在于，步骤(1)中，所述的对文本语句进行处理，包括：

所述的文本语句为式(6)所示：

s_i＝{w₁,w₂,…,w_i} (6)

其中，s_i为文本语句；w_i表示文本语句中的每一个字符；

所述的词嵌入矩阵为式(7)所示：

其中，M^W为词嵌入矩阵；R为矩阵维度的一个抽象字母；L为文本语句的长度；dw为文本语句中每个词映射后的维度；

所述的位置嵌入矩阵为式(8)所示：

其中，M^P为位置嵌入矩阵；R为矩阵维度的一个抽象字母；L为文本语句的长度；dp为文本语句中每个词位置映射后的维度；

(1.3)将文本语句中每一个词的词嵌入矩阵与其相对应的位置嵌入矩阵组合后，得到文本语句矩阵；

所述的文本语句矩阵为式(9)所示：

s_j＝{e₁,e₂,…,e_j}∈R^L×V (9)

3.根据权利要求1所述的基于知识图谱嵌入的多三元组联合抽取方法，其特征在于，步骤(2)中，所述的Transformer模型为包括多头自注意力网络、残差正则网络、全连接前馈网络和残差正则网络四部分相连组成。

4.根据权利要求1所述的基于知识图谱嵌入的多三元组联合抽取方法，其特征在于，步骤(2)中，所述的得到文本语句的语义特征向量的过程，包括；

所述的语义特征向量

的计算公式为式(10)所示：

其中，W^O∈R^V×V，W_i ^Q∈R^V×H，W_i ^K∈R^V×H，W_i ^K∈R^V×H，均为训练过程中的参数；h是注意力头的个数；H是单个注意力头的维度；要求H与h的乘积等于V；

(2.2)将所述的语义特征向量

与h_i一同输入到残差正则网络中，处理后得到语义特征向量

所述的语义特征向量

的计算公式为式(11)所示：

(2.3)将所述的语义特征向量

输入到全连接前馈网络中，处理后得到语义特征向量

所述的语义特征向量

的计算公式为式(12)所示：

其中，W^F∈R^V×V，W^F与b为训练过程中的参数；

(2.4)将所述的语义特征向量

与语义特征向量

一同输入到残差正则网络中，处理后得到编码器i层的输出语义特征向量h_i+1；所述的语义特征向量h_i+1的计算公式为式(13)所示：

5.根据权利要求1所述的基于知识图谱嵌入的多三元组联合抽取方法，其特征在于，步骤(3.1)中，所述的实体识别序列标注任务包括：将文本语句的语义特征向量经过全连接前馈网络变换后得到实体标注预测矩阵；所述的实体标注预测矩阵的计算公式为式(14)所示：

E＝softmax(h_nW^E) (14)

E＝[q₁,q₂,…,q_i]

6.根据权利要求1所述的基于知识图谱嵌入的多三元组联合抽取方法，其特征在于，步骤(3.3)中，所述的知识嵌入约束计算方法为TransE计算方法，f_r(h,t)为h和t之间距离的评分函数，f_r(h,t)评分函数的计算公式为式(15)所示：

f_r(h,t)＝‖h+r-t‖ (15)

f_r(h,t)＝‖h_⊥+r-t_⊥‖ (16)

其中，

‖w_r‖₂＝1，w_r为训练过程中的参数；

f_r(h,t)＝‖h_r+r-t_r‖ (17)

其中，h_r＝hM_r；t_r＝tM_r；M_r为训练过程中的参数。