CN113283243A

CN113283243A - 一种实体与关系联合抽取的方法

Info

Publication number: CN113283243A
Application number: CN202110643930.9A
Authority: CN
Inventors: 程良伦; 林锐明; 王涛; 王卓薇; 邓健峰; 周佳乐
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-08-20
Anticipated expiration: 2041-06-09
Also published as: CN113283243B

Abstract

本申请公开了一种实体与关系联合抽取的方法，包括：将文本转化为低维稠密的向量，得到第二文本；提取其上下文特征；分析其依存关系并建立依存树；将依存树作为邻接矩阵，提取其图的第一节点特征并转化成标签序列，搜索标签序列，预测第一阶段命名实体结果；提取第二文本的深度文本特征；将命名实体结果与深度文本特征进行拼接，预测其关系；将命名实体结果与关系预测结果转化成图结构；将图结构作为邻接矩阵，提取其第二节点特征；将更新后的文本特征转化成标签序列，搜索标签序列，预测文本特征的第二阶段的命名实体结果；并将其嵌入到深度文本特征，预测嵌入结果的关系。本申请考虑子任务之间的关系，解决一类实体涉及多类实体关系的问题。

Description

一种实体与关系联合抽取的方法

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种实体与关系联合抽取的方法。

背景技术

供应链管理作为一种综合的管理方法，是大型企业的研究热点。当前国内的供应链管理方法主要依靠于人工管理，但往往由于任务量过多、管理知识过于繁重，导致供应链管理效率低下。由于大量的供应链管理知识存在于非结构化数据中，如新闻、文献等等。综合地利用深度学习、NLP等人工智能的技术处理面向供应链的大数据尤其是非结构化数据，实现供应链大规模语义知识库的自动化构建技术。构建语义知识库的关键技术在于如何从复杂、分散、冗余的海量数据，尤其是非结构化数据中抽取特定信息，这个过程称之为信息抽取。信息抽取包括命名实体识别与关系抽取两个子任务，现有的联合抽取方法主要存在以下缺点：①没有完全利用两个子任务的联系；②供应链管理领域一类实体涉及多类实体关系。

发明内容

本申请实施例提供了一种实体与关系联合抽取的方法，使得考虑两个子任务之间的关系，从而提高关系抽取的准确率与召回率，解决一类实体涉及多类实体关系的问题。

有鉴于此，本申请第一方面提供了一种实体与关系联合抽取的方法，所述方法包括：

将第一文本输入至Bert模型，将所述第一文本转化为低维稠密的向量，得到第二文本；

使用单层Bi-LSTM提取所述第二文本的上下文特征；

使用依存器分析所述上下文特征的依存关系，建立依存树；

将所述依存树作为Bi-GCN的邻接矩阵，采用Bi-GCN提取所述邻接矩阵构成的图的第一节点特征；

将所述第一节点特征转化成标签序列，经过条件随机场解码后，采用Veterbi算法搜索标签序列，预测得到第一阶段的命名实体结果，并得到第一阶段的第一损失值；

采用堆叠Bi-LSTM提取所述第二文本的深度文本特征；

将所述第一阶段的命名实体结果与所述深度文本特征进行拼接，将拼接结果进行关系预测，并得到关系预测过程的第二损失值；

将所述第一阶段的所述命名实体结果与关系预测结果转化成图结构；

将所述图结构作为Bi-GCN的邻接矩阵，采用Bi-GCN提取所述图结构的第二节点特征；

采用所述第二节点特征构建文本特征更新公式；

将更新后的文本特征转化成标签序列，经过条件随机场解码后，采用Veterbi算法搜索标签序列，预测所述文本特征的第二阶段的命名实体结果，并得到第二阶段的第三损失值；

将所述第二阶段的命名实体结果嵌入到所述深度文本特征，对嵌入结果进行关系预测，并得到关系预测结果的第四损失值，则实体与关系联合抽取模型的目标函数

J(θ)＝eloss_1p+rloss_1p+eloss_2p+rloss_2p

式中，eloss_1p为第一损失值；rloss_1p为第二损失值；eloss_2p为第三损失值；rloss_2p第四损失值。

可选的，所述将所述依存树作为Bi-GCN的邻接矩阵，采用Bi-GCN提取所述邻接矩阵构成的图的第一节点特征，包括：

将所述依存树作为Bi-GCN的邻接矩阵，采用Bi-GCN提取所述邻接矩阵构成的图的节点特征，得到前向GCN的输出

与反向GCN的输出

公式为：

其中

表示字符v在第l层的隐特征，

表示字符u传出的字符集合，

表示字符u传入的字符集合，W和b都是可学习的参数，tanh表示双曲正切激活函数；

将前向GCN的输出

与反向GCN的输

进行拼接，得到Bi-GCN提取图的节点特征

的公式为：

可选的，所述将所述第一节点特征转化成标签序列，经过条件随机场解码后，采用Veterbi算法搜索标签序列，预测得到第一阶段的命名实体结果，并得到第一阶段的第一损失值，包括：

将所述节点特征转化成标签序列，经过条件随机场解码后，使得每个字符对应着一个向量，向量对应的字符最大值的索引为预测得到的命名实体标签，损失函数为多分类交叉熵损失。

可选的，所述将所述第一阶段的命名实体结果与所述深度文本特征进行拼接，将拼接结果进行关系预测，并得到关系预测过程的第二损失值，包括：

将所述第一阶段的命名实体结果与所述深度文本特征进行拼接得到拼接结果：T₄＝{V₁″″,V₂″″,...,V_n″″}；

将拼接结果进行关系预测，包括：

其中S(w1,r,w2)表示(w1,w2)在关系r的预测得分，

与

表示可学习的参数；V₁″″和V₂″″表示所述第一阶段的命名实体结果与所述深度文本特征进行拼接之后得到的向量。

可选的，所述将图结构作为Bi-GCN的邻接矩阵，采用Bi-GCN提取图结构的第二节点特征，包括：

将图结构的数据作为Bi-GCN的邻接矩阵，使用Bi-GCN提取图结构的数据的节点特征，具体公式如下：

其中

表示字符u在第l层的隐特征，P_r(u,v)表示在字符u和字符v属于关系r的概率，W_r和b_r是可学习的参数，V包含所有字符，R包含所有关系，P_r(u,v)≠P_r(v,u)。

可选的，所述采用所述第二节点特征构建文本特征更新公式，包括：

采用所述第二节点特征

对文本特征

进行更新，包括：

从以上技术方案可以看出，本申请具有以下优点：

本申请中，提供了一种实体与关系联合抽取的方法，包括：将第一文本输入至Bert模型，将第一文本转化为低维稠密的向量，得到第二文本；使用单层Bi-LSTM提取第二文本的上下文特征；使用依存器分析上下文特征的依存关系，建立依存树；将依存树作为Bi-GCN的邻接矩阵，采用Bi-GCN提取邻接矩阵构成的图的第一节点特征；将第一节点特征转化成标签序列，经过条件随机场解码后，采用Veterbi算法搜索标签序列，预测得到第一阶段的命名实体结果，并得到第一阶段的第一损失值；采用堆叠Bi-LSTM提取第二文本的深度文本特征；将第一阶段的命名实体结果与深度文本特征进行拼接，将拼接结果进行关系预测，并得到关系预测过程的第二损失值；将第一阶段的命名实体结果与关系预测结果转化成图结构；将图结构作为Bi-GCN的邻接矩阵，采用Bi-GCN提取图结构的第二节点特征；采用第二节点特征构建文本特征更新公式；将更新后的文本特征转化成标签序列，经过条件随机场解码后，采用Veterbi算法搜索标签序列，预测文本特征的第二阶段的命名实体结果，并得到第二阶段的第三损失值；将第二阶段的命名实体结果嵌入到深度文本特征，对嵌入结果进行关系预测。

本申请通过使用单层Bi-LSTM和堆叠Bi-LSTM分别获得输入文本的上下文特征和深度上下文特征，Bi-GCN获取文本的依存关系信息用于实体识别，并把实体识别结果映射为标签嵌入与深度上下文特征拼接用于关系抽取。将关系预测结果作为Bi-GCN的邻接矩阵更新单层Bi-LSTM的输出获得上下文特征，再进行第二阶段的实体识别和关系抽取，并作为最后结果。本申请充分地考虑两个子任务之间的关系，从而提高关系抽取的准确率与召回率，解决一类实体涉及多类实体关系的问题。

附图说明

图1为本申请一种实体与关系联合抽取的方法的一个实施例的方法流程图；

图2为本申请一种实体与关系联合抽取的方法的实施例中的模型图；

图3为本申请一种实体与关系联合抽取的方法的实施例中微调Bert模型的示意图；

图4为本申请一种实体与关系联合抽取的方法的实施例中堆叠Bi-LSTM的示意图；

图5为本申请实施例中第一文本输入至Bi-LSTM后从条件随机场输入的模型示意图；

图6为本申请实施例中第一节点特征的结果转换成的序列结构示意图；

图7为本申请实施例中由命名实体结果与关系预测结果转化成的图结构示意图。

具体实施方式

因此本申请提出一种新的端到端的方法--结合微调Bert模型和图卷积神经网络的实体与关系联合抽取的方法。本申请使用单层Bi-LSTM和堆叠Bi-LSTM分别获得文本的上下文特征和深度上下文特征，Bi-GCN获取文本上下文的依存关系信息用于实体命名识别，并把实体命名识别结果映射为标签嵌入与深度上下文特征拼接用于关系抽取。将关系预测结果作为Bi-GCN的邻接矩阵并更新单层Bi-LSTM的输出获得上下文特征，再进行第二阶段的实体识别和关系抽取，并作为最后结果。本申请充分地考虑两个子任务之间的关系，从而提高关系抽取的准确率与召回率，解决一类实体涉及多类实体关系的问题。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请一种实体与关系联合抽取的方法的一个实施例的方法流程图，如图1所示，图1中包括：

101、将第一文本输入至Bert模型，将第一文本转化为低维稠密的向量，得到第二文本；

需要说明的是，使用将第一文本输入到微调Bert模型，转化为低维稠密的向量表示，即第二文本为T₁＝{V₁,V₂,...,V_n}。其中，微调Bert模型的示意图如图3所示。将第一文本的字符输入到微调Bert模型中，可以将第一文本的字符转换成低维稠密的向量，得到第一文本对应的向量表示即第二文本。

102、使用单层Bi-LSTM提取第二文本的上下文特征；

需要说明的是，可以使用Bi-LSTM(Bi-directional Long Short-Term Memory)对第二文本T₁＝{V₁,V₂,...,V_n}进行特征提取，获得第二文本的上下文特征，记为T₂＝{V₁′,V′₂,...,V′_n}。

103、使用依存器分析上下文特征的依存关系，建立依存树；

需要说明的是，使用依存分析器对第二文本的上下文特征T₂＝{V₁′,V′₂,...,V′_n}进行上下文内容的依存分析，创建依存树，将得到的表示第二文本上下文依存关系的关系树作为Bi-GCN的输入。

104、将依存树作为Bi-GCN的邻接矩阵，采用Bi-GCN提取邻接矩阵构成的图的第一节点特征；

需要说明的是，将依存树作为Bi-GCN(Bi-Directional Graph ConvolutionalNetworks)的邻接矩阵，并使用Bi-GCN提取邻接矩阵构成的图的第一节点特征，得到前向GCN的输出

与反向GCN的输出

具体公式如下：

其中

表示字符v在第l层的隐特征，

表示字符u传出的字符集合，

表示字符u传入的字符集合，W和b都是可学习的参数，tanh表示双曲正切激活函数。

将前向GCN的输出

与反向GCN的输

进行拼接，得到Bi-GCN提取图的第一节点特征的结果

具体公式如下：

105、将第一节点特征转化成标签序列，经过条件随机场解码后，采用Veterbi算法搜索标签序列，预测得到第一阶段的命名实体结果，并得到第一阶段的第一损失值；

需要说明的是，在解码层，使用条件随机场CRF(conditional random field，条件随机场)作为联合解码器，并采用Veterbi算法搜索标签序列预测第一阶段的命名实体结果，并根据损失函数得到第一损失值eloss_1p。其中，可以先将第一节点特征的结果转换成序列结构，将转换成序列结构后的第一节点特征的结果经过CRF层之后，可以使序列中每个字符对应一个向量，对该向量最大值的索引即为预测的实体标签(如图6所示)。本申请中的损失函数是多分类交叉熵损失。

具体的，本申请中第一文本中的每个字符经过微调Bert模型得到文本的向量表示(即每个字符对应一个向量)，再经过BiGCN网络之后得到新的向量。此时再经过条件随机场之后对新的向量进行“修正”，得到每个字符对应的修正后的向量。索引的意思是比如小明的字符“小”对应的向量是[0.1,0.2,0.3,0.4,0.2](位置序号为[0，1，2，3，4])，经过softmax函数输出得到最大值的位置是3，而3对应标签为B-PER。其中，“修正”的意思是：例如“小明”两个字符对应的正确标签应该是B-PER、E-PER(b是begin，e是end，per是person人名)。假如在CRF层之前预测标签是B-PER，E-ORG，不符合预置规则，则经过CRF层可以对“小明”两个字符对应的错误标签进行“修正”。

另外，本申请的第一文本输入至Bi-LSTM后从条件随机场输入的模型示意图如图5所示。

106、采用堆叠Bi-LSTM提取第二文本的深度文本特征；

需要说明的是，在预测得到第一阶段实体命名结果之后，可以使用堆叠Bi-LSTM对输入的第二文本T₁＝{V₁,V₂,...,V_n}进行特征提取，获得第二文本的深度文本特征，记为T₃＝{V₁″′,V₂″′,...,V_n″′}；具体的，堆叠Bi-LSTM的示意图如图4所示。

107、将第一阶段的命名实体结果与深度文本特征进行拼接，将拼接结果进行关系预测，并得到关系预测过程的第二损失值；

需要说明的是，将第一阶段的命名实体结果作为标签嵌入到深度文本特征进行拼接得到T₄＝{V₁″″,V₂″″,...,V_n″″}；根据嵌入结果进行关系预测，关系预测的具体公式如下：

其中S(w1,r,w2)表示字符w1和w2在关系r的预测得分，

与

表示可学习的参数；V₁″″和V₂″″表示所述第一阶段的命名实体结果与深度文本特征进行拼接之后得到的向量。根据损失函数得到损失值rloss_1p。

108、将第一阶段的命名实体结果与关系预测结果转化成图结构；

需要说明的是，可以将第一节点特征转化成的序列结构，以及序列结构对应的字符关系转换成图结构，以字符为节点，字符间的关系作为邻接矩阵，使用Bi-GCN提取图的节点特征，并将结果对文本特征进行更新；

转换后的图结构如图7所示，图中是以字符为节点，字符与字符之间的关系作为边。需要说明的是，第一阶段的第二文本的字符之间没有属性关系，因此只能使用语义依存器来构建字符之间的依存树得到图。在第一阶段的实体预测和关系预测后，可以将两部分来构图。图6包括一个数据集的样本，包括字符的实体与字符间的关系。如图6的数据集样本所示，假如该样本第一阶段就预测得到最终的实体标签和关系标签。那么第一阶段的预测实体和关系可以转化为一张图如图7所示。

109、将图结构作为Bi-GCN的邻接矩阵，采用Bi-GCN提取图结构的第二节点特征；

需要说明的是，将图结构的数据作为Bi-GCN的邻接矩阵，并使用Bi-GCN提取图的节点特征，具体公式如下：

其中

110、采用第二节点特征构建文本特征更新公式；

需要说明的是，采用所述第二节点特征

对文本特征

进行更新，得到新的文本特征，具体的更新公式如下：

111、将更新后的文本特征转化成标签序列，经过条件随机场解码后，采用Veterbi算法搜索标签序列，预测文本特征的第二阶段的命名实体结果，并得到第二阶段的第三损失值；

需要说明的是，使用CRF作为解码层，对更新后的文本特征进行第二阶段的命名实体预测。具体的，使用CRF对更新后的文本特征进行第二阶段的命名实体预测的具体步骤为：在解码层，使用条件随机场CRF作为联合解码器，并采用Veterbi算法搜索标签序列预测第二阶段的命名实体结果，并根据损失函数得到损失值eloss_2p。

112、将第二阶段的命名实体结果嵌入到深度文本特征，对嵌入结果进行关系预测，并得到关系预测结果的第四损失值。

需要说明的是，可以将第二阶段的命名实体结果作为标签嵌入到深度文本特征T₃＝{V₁″′,V₂″′,...,V_n″′}；根据嵌入结果进行关系预测，并根据损失函数得到损失值rloss_2p；则整个模型训练的目标函数为：

J(θ)＝eloss_1p+rloss_1p+eloss_2p+rloss_2p。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法不必限于清楚地列出的那些步骤，而是可包括没有清楚地列出的或对于这些过程、方法固有的其它步骤。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。