CN113221568B

CN113221568B - 一种基于神经网络的改进分层序列标注联合关系抽取方法

Info

Publication number: CN113221568B
Application number: CN202110507161.XA
Authority: CN
Inventors: 高镇; 庞佳佳
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2022-05-17
Anticipated expiration: 2041-05-10
Also published as: CN113221568A

Abstract

本发明涉及一种基于神经网络的改进分层序列标注联合关系抽取方法，包括：将文本输入模型，通过预训练模型获取文本特征向量；将文本特征向量通过CNN模块进行解码，输出主体的头位置标记序列；将主体的头位置标记序列与文本特征向量融合，通过CNN模块解码，输出主体的尾位置标记序列；将主体的先验信息与文本特征向量融合形成新的文本特征向量，通过CNN模块解码，输出对应主体所有关系下的客体的头位置标记序列；再将客体的头位置标记序列与文本特征向量融合，形成新的文本特征向量，通过CNN模块解码，输出对应主体所有关系下的客体的尾位置标注序列，同时完成关系与客体的解码；根据主客体的头尾位置标记序列输出文本包含的三元组。

Description

一种基于神经网络的改进分层序列标注联合关系抽取方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于神经网络的改进分层序列标注联合关系抽取方法。

背景技术

关系抽取作为信息抽取的一个子任务，是在给定非结构化或半结构化文本情况下，通过一定技术方法来自动的识别实体以及实体之间的关系。随着自然语言处理领域关系抽取技术的不断发展，各行各业产生的大量结构化、半结构化、非结构化的海量数据中隐藏的信息得以被挖掘和再开发，为社会进步和行业发展提供了新的动力和发展引导作用。

早期关系抽取模型主要基于规则和模板，准确率高但召回率低。接着机器学习被引入自然语言处理领域，但其仍需要专业的领域知识，灵活性较差。近年来深度学习领域不断兴起，多种神经网络模型被引入关系抽取领域，大大简化特征提取过程，也增强了任务效果。预训练模型BERT的出现提升了多个自然语言处理领域的任务效果，为下游任务提供了丰富的文本语义信息特征向量，许多下游任务只需要接在其输出之后进行微调，就可以取得不错的效果。然而，BERT模型存在位置特征提取的有效性问题。除此之外关系抽取模型抽取架构，实体重叠和嵌套等问题也受到了关注和研究。

总的来说，关系抽取领域面临的挑战主要有以下两个方面：

1、如何获取更丰富准确的语义信息表达向量；

2、如何解决关系抽取中的实体重叠和嵌套问题；

发明内容

针对现有关系抽取模型存在的缺陷，本发明提供一种端到端的基于神经网络的改进分层序列标注联合关系抽取方法，采用所设计的CNN模块接在预训练模型BERT之后，取代传统的全连接层进行全句所有文字的序列标注工作，并在传统的序列标注基础上使用了一种改进的“半指针-半标注”方式，增强实体抽取的效果。技术方案如下：

一种基于神经网络的改进分层序列标注联合关系抽取方法，包括以下步骤：

步骤一：将文本输入模型，通过预训练模型获取文本特征向量；

步骤二：将文本特征向量通过CNN模块进行解码，输出主体的头位置标记序列；

步骤三：将主体的头位置标记序列与文本特征向量融合，通过CNN模块解码，输出主体的尾位置标记序列；

步骤四：将主体的先验信息与文本特征向量融合形成新的文本特征向量，通过CNN模块解码，输出对应主体所有关系下的客体的头位置标记序列；

步骤五：将客体的头位置标记序列与文本特征向量融合，形成新的文本特征向量，通过CNN模块解码，输出对应主体所有关系下的客体的尾位置标注序列，同时完成关系与客体的解码；

步骤六：根据主客体的头尾位置标记序列输出文本包含的三元组。

进一步地，通过预训练模型BERT获取文本特征向量。

进一步地，步骤一按照下列步骤执行：将输入文本进行预处理，按照指定长度n对其进行截断或补充，输入BERT，根据BERT字表，每个字都有其对应ID，故获取文本序列对应的ID序列，长度为n，再将ID序列输入BERT模型，获取输出的文本特征向量

其中n代表文本长度，k代表每个字的文本特征向量的维度

进一步地，标记主体头尾位置时m为1，标记客体头尾位置时m为关系个数，所述CNN模块解码具体为：

(1)采用不同核大小的数个一维卷积核，设卷积核的大小共有s种，每种大小的卷积核都有l个，对于不同大小的卷积核，采取自适应补零操作，对文本特征向量前后进行补零，使得每种卷积核对于同一个文本特征向量的输入，输出长度都与原文本特征向量保持一致，即长度都为n，经过s组卷积核的作用，得到s个n×l维的输出矩阵H₀,H₁,...,H_s-1；

(2)将多组卷积核的输出在列维度上进行拼接，得到n×(s*l)维的中间矩阵H；

(3)将中间矩阵H输入两层全连接层，得到一个n×m维的输出向量H'；

(4)将H'通过sigmoid函数，即对其每一个位置元素x_i进行归一化；

(5)得到一个n×m维的位置标记序列

进一步地，所述主体的头位置标记序列与文本特征向量融合具体为：

将主体的头位置标记序列A^n×1与文本特征向量

在列上进行拼接，得到一个n×(k+1)维的文本特征向量。

进一步地，所述将客体的头位置标记序列与文本特征向量融合具体为：

将客体的头位置标记序列A^n×m与文本特征向量

在列上进行拼接，得到一个n×(k+m)维的文本特征向量。

进一步地，所述主体的先验信息与文本特征向量融合具体为：

将主体的先验信息即主体头尾位置的文本特征向量进行平均，再与文本特征向量

相加。

进一步地，所述主体的先验信息具体为：

在训练过程中是指文本特征向量中由文本的实际主体的头尾位置指定的部分；在预测过程中由于不知文本的实际主体的头尾位置，所以是指文本特征向量的由预测的主体的头尾位置标记序列中数值大于阈值h的位置指定的部分。

本发明提供的技术方案的有益效果是：

1、本发明采用精心设计的CNN模块接在预训练模型BERT之后进行全句所有文字的序列标注工作，现有技术大多在进行序列标注时直接采用全连接层进行标注工作，这样在对文本每个位置进行标注时并没有考虑邻居字的影响，导致结果不够准确；本发明能够有效利用CNN模块更关注局部信息的优势，一定程度上也能补充BERT模型提取到的位置特征弱的问题。

2、本发明在传统的序列标注基础上提出了一种改进的“半指针-半标注”方式，现存一种类似方法进行序列标注以抽取三元组实体时，同时分别对两个序列作为实体头尾位置序列进行标注，这样的方式忽略头尾位置信息相互的影响；本发明提出先对更具有独立性的实体的头位置序列进行标注，再将其标注好的信息与文本信息融合，去标注实体的尾位置，这样进一步缓解三元组实体嵌套问题，实体抽取更加准确。

附图说明

图1为本发明的技术方案的流程总图；

图2为本发明基于神经网络的分层序列标注联合关系抽取方法的流程示意图；

图3为应用于文本序列标注的卷积神经网络CNN的网络结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。下列实施例仅用于解释本发明的发明内容，并不用于限定本发明的保护范围。

实施例1

一种基于神经网络的改进分层序列标注联合关系抽取方法，参见图2，该方法包括以下步骤：

101：将文本输入模型，通过预训练模型BERT获取文本特征向量输出。

102：将文本特征向量通过卷积神经网络模块(Convolutional Neural Networks,CNN)进行解码，输出主体的头位置标记序列。

可以注意到，本发明采用精心设计的CNN模块接在了预训练模型BERT之后进行序列标注。现有方法在进行序列标注的模型大多都很简单，对上下文信息融合能力有限。本方法有效利用到了CNN模块更关注局部信息的优势，一定程度上也能补充更多的位置特征，从而进行更准确的标注。

103：将主体的头位置标记序列与文本特征向量融合，通过CNN模块解码，输出主体的尾位置标记序列。

104：将主体的先验信息与文本特征向量融合形成新的文本特征向量，通过CNN模块解码，输出对应主体所有关系下的客体的头位置标记序列。

105：再将客体的头位置标记序列与文本特征向量融合，通过CNN模块解码，输出对应主体所有关系下的客体的尾位置标注序列，同时完成关系与客体的解码。

106：根据步骤102、103、104、105输出的主客体的头尾位置标记序列输出文本包含的三元组信息。

103和105步骤都提到将实体的头位置标记序列与文本特征向量融合，再进行实体的尾位置序列标记，这是本发明在传统的“半指针-半标注”序列标注方法基础上提出了一种改进的“半指针-半标注”方式。传统方法进行序列标注以抽取三元组实体时，同时将两个序列作为实体头尾位置序列进行标注，忽略头尾位置信息相互的影响。经实验证明，本方法的改进能进一步缓解三元组实体重叠问题，实体抽取更加准确。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：将文本输入模型，通过预训练模型BERT获取文本特征向量。

其中，上述步骤201主要包括：将输入文本进行预处理，按照指定长度n对其进行截断或补充，输入BERT，根据BERT字表，每个字都有其对应ID，故可获取文本序列对应的ID序列，长度为n。再将ID序列输入BERT模型，获取输出的文本特征向量

其中n代表文本长度，k代表每个字的文本特征向量的维度。

202：将文本特征向量

通过CNN模块进行解码，输出主体的头位置标记序列。

其中步骤202中的CNN模块采用不同核大小的数个一维卷积核，具体的结构如图3所示。卷积核的大小共有s种，每种大小的卷积核都有l个。对于不同大小的卷积核，本方法采取自适应补零操作，对文本特征向量前后进行补零，设每种卷积核大小为s_i，则输入每种卷积核的文本向量需要补零的行数x_i为：

这样使得每种卷积核对于同一个文本特征向量的输入，输出长度都与原文本特征向量保持一致，即长度都为n。经过s组卷积核的作用，得到s个n×l维的输出矩阵H₀,H₁,...,H_s-1。

将多组卷积核的输出在列维度上进行拼接，得到一个n×(s*l)维的中间矩阵H：

H＝concat(H₀,H₁,...H_s-1)

并将其输入两层全连接层，得到一个n×1维的输出向量H'：

H'＝W₁(Relu(W₀H+b₀))+b₁

然后将H'通过sigmoid函数，即对其每一个位置元素x_i进行归一化：

最后得到一个n×1维的头位置标记序列

本方法将CNN模块应用于为每个字标记的做法能够大大提高标记准确率，不同大小的卷积核的使用保证了标记结果综合考虑了不同范围内邻居字的信息的影响，多个相同大小的卷积核又进一步保证了标记结果综合考虑不同维度空间下某个范围内邻居字的影响。

203：将主体的头位置标记序列

与文本特征向量

融合，输入CNN模块解码，输出主体的尾位置标记序列

其中，203步骤中的融合操作是指将202步骤输出的主体的头位置标记序列A^n×1与201步骤输出的文本特征向量

在列上进行拼接，得到一个n×(k+1)维的文本特征向量；CNN模块解码步骤与202步骤中所述一致；本步骤最终得到主体的尾位置标记序列

传统的指针标记方式通过同时对头尾位置序列的分别标记输出结果，忽略了头尾位置信息之间的影响和信息交互，本方法提出的改进能使头尾位置的标记过程联系起来，提高实体抽取的效果和准确率。

204：将主体的先验信息与文本特征向量

融合形成新的文本特征向量

通过CNN模块解码，输出对应主体在所有关系下的客体的头位置标记序列

其中m是关系的个数。

其中，204步骤中的“主体的先验信息”在训练过程中是指201步骤输出的文本特征向量中由文本的实际主体的头尾位置指定的部分，在预测过程中由于不知文本的实际主体的头尾位置，所以是指201步骤输出的文本特征向量中由202步骤和203步骤分别输出的预测的实体的头尾位置标记序列中数值大于阈值h的位置指定的部分；融合操作是指先将主体的先验信息即头尾位置的文本特征向量进行平均，再与201步骤输出的文本表达向量

相加得到新的文本特征向量

CNN模块解码步骤与202步骤中所述一致，但要注意从全连接层输出获取的向量应是n×m维。

205：将客体的头的位置标记序列

与文本特征向量

融合，输入CNN模块解码，输出对应主体所有关系下的客体的尾位置标注序列

同时完成关系与客体的解码。

其中205步骤中的融合操作与203步骤中所述一致，但注意此处得到的是一个n×(k+m)维的文本特征向量；CNN模块解码步骤与202步骤中所述一致，同样的要注意从全连接层输出获取的向量应是n×m维。

206:根据步骤202、203、204、205输出的主客体的头尾位置标记序列，分别将其与对应阈值比较大小，大于阈值则说明该位置为主客体的头/尾位置，通过组合则可输出文本包含的三元组信息。

例如如表所示的头尾位置标记序列可得到王明、天津市、天津市政府大街三个实体。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的改进分层序列标注联合关系抽取方法，包括以下步骤：

步骤一：将文本输入模型，通过预训练模型BERT获取文本特征向量，步骤如下：将输入文本进行预处理，按照指定长度n对其进行截断或补充，输入BERT，根据BERT字表，每个字都有其对应ID，故获取文本序列对应的ID序列，长度为n，再将ID序列输入BERT模型，获取输出的文本特征向量

其中n代表文本长度，k代表每个字的文本特征向量的维度；

步骤二：将文本特征向量通过CNN模块进行解码，输出主体的头位置标记序列；标记主体头尾位置时m为1，标记客体头尾位置时m为关系个数，所述CNN模块解码具体为：

(5)得到一个n×m维的位置标记序列

步骤三：将主体的头位置标记序列与文本特征向量融合，通过CNN模块解码，输出主体的尾位置标记序列；所述主体的头位置标记序列与文本特征向量融合具体为：将主体的头位置标记序列A^n×1与文本特征向量

在列上进行拼接，得到一个n×(k+1)维的文本特征向量；

其中，所述主体的先验信息为：在训练过程中是指文本特征向量中由文本的实际主体的头尾位置指定的部分；在预测过程中由于不知文本的实际主体的头尾位置，所以是指文本特征向量的由预测的主体的头尾位置标记序列中数值大于阈值h的位置指定的部分；

所述主体的先验信息与文本特征向量融合为：将主体的先验信息即主体头尾位置的文本特征向量进行平均，再与文本特征向量

相加；

步骤五：将客体的头位置标记序列与文本特征向量融合，形成新的文本特征向量，通过CNN模块解码，输出对应主体所有关系下的客体的尾位置标注序列，同时完成关系与客体的解码；所述将客体的头位置标记序列与文本特征向量融合为：将客体的头位置标记序列A^n×m与文本特征向量

在列上进行拼接，得到一个n×(k+m)维的文本特征向量；