CN111488726A

CN111488726A - 基于指针网络的非结构文本抽取多任务联合训练方法

Info

Publication number: CN111488726A
Application number: CN202010243959.3A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-08-04
Anticipated expiration: 2040-03-31
Also published as: CN111488726B

Abstract

本发明公开了基于指针网络的非结构文本抽取多任务联合训练方法，解决了传统的信息抽取方法的弊端：传统的信息抽取方法在模型操作上的孤立，且下游模型的输入依赖于上游模型的输出，不利于利用文本的全局信息且容易造成错误传播的问题。本发明包括基于指针网络非结构文本抽取方法和求解非结构文本的多任务联合训练方法。本发明将指针网络应用于信息抽取的实体和事件边界检测，相较于之前使用Span枚举和纯化的方法，不仅提升了效果，而且让模型架构更加简单统一。本发明将图注意力神经网络应用于信息抽取中实体和事件提及特征表示的学习，能够更加有效的捕捉文本中各个实体和事件之间的全局关联特征。

Description

基于指针网络的非结构文本抽取多任务联合训练方法

技术领域

本发明涉及自然语言处理领域，具体涉及基于指针网络的非结构文本抽取多任务联合训练方法。

背景技术

传统的信息抽取方法有的基于统计机器学习方法或者Pipeline形式的深度学习模型，其将实体检测和识别、共指消解、关系抽取、事件提取作为独立的任务进行训练，下游模型的输入依赖于上游模型的输出，不利于利用文本的全局信息且容易造成错误传播。有的方法首先通过枚举每个单词文本片段(Span)；然后对每个文本片段进行实体检测，根据每个Span的评分，通过Span纯化的方法，即保留评分高的作为实体候选，得到最终实体提及(Entity Mention)；最后进行实体分类和关系分类，事件抽取等下游任务。

发明内容

本发明解决了传统的信息抽取方法的弊端：传统的信息抽取方法在模型操作上的孤立，且下游模型的输入依赖于上游模型的输出，不利于利用文本的全局信息且容易造成错误传播。

本发明通过下述技术方案实现：

基于指针网络非结构文本抽取方法，包括以下步骤：

步骤1：单词编码：通过BERT模型获得句子中各个单词的向量表示，得到单词序列向量的表示，单词的向量表示具体为：

对于输入的包括单词的文档D＝{w₁,w₂,...,w_n}，其中，单词来源于词汇库, w_i∈W^v，i＝1,...,n，n表示文档单词的个数，v表示词汇库的大小，W表示词汇库空间，采用BERT预训练语言模型得到文档单词序列的向量表示序列:X＝{x₁,x₂,...,x_n},x_i∈R^d,i＝1,...,n。 x_i是一个实数空间的d维向量，表示第i个单词的向量表示，R代表实数空间。

步骤2：将指针指向表示实体或事件的文本片段，所述指针指向单词序列向量，而非实体或事件的文本片段的开始字符用指针指向开始标记“S”，指针指向后形成文本片段表示向量，指针的使用具体包括两部分，第一部分为实体或事件的文本片段边界检测，第二部分为实体或事件提及的向量表示：

第一部分具体为：

S4.1：将输入文档D＝{w₁,w₂,...,w_n}的单词序列向量表示 X＝{x₁,x₂,...,x_n},x_i∈R^d,i＝1,2,...,n添加开始单词标记<START>的单词向量，各元素初始化为0,记为x₀,再将X＝{x₀,x₁,...,x_n}作为指针网络的输入，经过指针网络的Encoder得到序列的隐藏状态E＝{e₀,e₁,...,e_n},解码器第i步输出的词汇分布概率为：

p(C_i|C₁,...,C_i-1)＝softmax(uⁱ)

其中v，W_e，W_d为可以学习的参数变量，d_i表示解码器第i步的隐藏变量，

代表解码器在第i步指向的输入序列中的单词w_j的权重，p(C_i|C₁,...,C_i-1)表示解码器第i步选择输入序列中各个单词的概率分布；

S4.2：使用j＝argmax(p(C_i|C₁,...,C_i-1))根据p(C_i|C₁,...,C_i-1)中每项的概率值，选择概率最大值的下标索引作为序列中实体提及开始单词w_i对应的结束单词w_j的下标，如果j＝0，则说明不存在以单词w_i开始的实体或者事件提及，如果j≥i，则实体或事件的文本片段为 {w_i,...,w_j}；

第二部分具体为：依据所述S4.2得到的第k个实体提及文本片段的第一个单词x_i，最后一个单词x_j，以及使用注意力机制获得的文本片段向量表示s_k进行拼接，得到第k个实体提及最终的向量表示h_k，具体计算公式如下：

α_t＝ω_α.FFNN_α(x_t)

h_k＝[x_i；x_j；s_k]

其中a_k,t表示第k个实体提及文本片段中单词w_t的注意力权重，ω_α是要学习的参数。

步骤3：运用图注意力网络模型和图注意力机制，将向量形成完全图并进行多次信息传播，得到步骤2中的各向量的最终表示，所述完全图包括节点与节点之间边，具体为：将所述S4.2中得到的实体或者事件文本片段作为图的顶点，两两之间用边相互连接，将所述第二部分中生成的文本片段向量表示作为图G(G＝{V,E}，v_i∈V,i＝{1,2,...,k})的顶点初始向量表示{h₁,h₂,...,h_k}，其中v_i表示图的顶点，k表示图中顶点的数目，通过图注意力网络进行节点最终向量的表示学习，首先计算每个顶点和其邻居顶点之间的多头注意力权重，头的数目为K：

其中

表示多头注意力的向量拼接，h′_i作为顶点i在顶点i所在层图注意力网络的输出表示，通过L层的图注意力网络，最终得到顶点i的输出表示h_i ^L。

步骤4：将实体识别任务和事件的类型检测任务转化为所述完全图中代表实体提及和事件提及的节点的类型分类任务，将共指消解，关系抽取，事件元素角色分类任务转化为所述完全图中两两节点之间边的分类任务，进行分类任务求解，得到所述完全图中每个节点的类型和两两节点之间边的类型，所述节点代表了每个实体或事件的文本片段的标签类型，所述两两节点之间边代表了任意两个文本片段之间的共指消解、关系抽取、事件元素角色标签。

求解非结构文本的多任务联合训练方法，构建非结构文本的完全图，提取完全图中的节点与两两节点之间边，节点表示实体或事件提及的类型分类任务，两两节点之间边表示共指消解或关系抽取或事件元素角色分类任务；

将多个实体和多个事件分别构建实体分类标签和事件分类标签；

构建节点的标签空间，所述节点的标签空间包括实体分类标签和事件分类标签，还包括一个其他类型；

依据种类构建节点边的标签空间，所述节点边的标签空间包括多个共指消解标签、多个关系分类标签、多个事件元素角色标签和一个其他类型；

对节点与节点边进行类型预测：对节点采用前馈神经网络加softmax分类器计算节点的标签空间中的类型得分，对两节点的特征向量进行拼接后采用前馈神经网络加softmax分类器计算节点边的标签空间的类型得分；

对所有节点和所有节点边进行上述计算，得到每个节点和节点边的类型。

详细步骤如下：步骤6.1：将A个实体的分类标签L_E＝{l_e1,...,l_eA}和B个事件提及的分类标签L_T＝{l_t1,...,l_tB}统一到一个包含A+B+1个标签的标签空间L_M＝{l_e1,...,l_eA，l_t1,...,l_tB,O}中，其中额外加一个其他类型O，C个共指消解标签，D个关系分类标签，E个事件元素角色标签也统一到一个C+D+E+1个标签的空间L_N中，其中额外加一个其他类型O；

步骤6.2：对于节点i，使用一个前馈神经网络加softmax分类器，计算节点i实体和事件提及的类型得分；

对于节点i与节点j之间的边类型预测，先将节点i和节点j的特征向量进行拼接，然后通过一个前馈神经网络加softmax分类器计算节点i与节点j之间的边的各种标签类型得分；

s(i)是一个A+B维的向量，向量的每一维是一个概率值，代表了一个分类标签的概率，实体类型和事件类型最后的标签通过以下公式求得:

m＝argmax(s(i)),m∈{1,2,...,A+B+1}

m表示LM标签空间中第m个标签的索引；

s(i,j)是一个D+E+F维的向量，共指消解，关系抽取，事件元素角色分类最后的标签通过以下公式求得：

n＝argmax(s(i,j)),n＝{1,2,...,D+E+F+1}

n表示LN标签空间中的第n个标签索引。

本发明为信息抽取提供一种端到端的多任务联合训练方法，可以广泛应用于非结构化文本的实体检测及实体识别，实体之间的共指消解，实体之间的关系分类，事件检测和分类，事件触发词与事件元素之间的角色分类。

本发明具有如下的优点和有益效果：

本发明将指针网络应用于信息抽取的实体和事件边界检测，相较于之前使用Span枚举和纯化的方法，不仅在效果上取得提升，而且让模型架构更加简单统一。本发明将图注意力神经网络应用于信息抽取中实体和事件提及特征表示的学习，能够更加有效的捕捉文本中各个实体和事件之间的全局关联特征。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明的联合抽取流程图。

图2为本发明的用于实体识别的指针网络例图。

图3为本发明的用指针网络检测到的实体、事件文本片段所构建的完全图例图。

图4为本发明的图注意力神经网络顶点状态更新例图。

图5为本发明的图注意力神经网络预测结果例图。

图6为本发明的基于指针网络和图注意力网络的实体、关系、事件检测架构例图。

具体实施方式

在对本发明的任意实施例进行详细的描述之前，应该理解本发明的应用不局限于下面的说明或附图中所示的结构的细节。本发明可采用其它的实施例，并且可以以各种方式被实施或被执行。基于本发明中的实施例，本领域普通技术人员在没有做出创造性改进前提下所获得的所有其它实施例，均属于本发明保护的范围。

基于指针网络非结构文本抽取方法，如图1所示：

步骤1单词向量表示学习

对于输入的文档D＝{w₁,w₂,...,w_n}，其单词来源于词汇库,w_i∈W^v，i＝1,...,n，n表示文档单词的个数，v表示词汇库的大小，W表示词汇库空间。通过然后经过BERT预训练语言模型得到文档单词序列的向量表示序列:X＝{x₁,x₂,...,x_n},x_i∈R^d,i＝1,...,n。x_i是一个实数空间的d 维向量，表示第i个单词的向量表示，R代表实数空间。

步骤2实体或事件的文本片段边界检测

(1)将输入文档D＝{w₁,w₂,...,w_n}的单词序列向量表示X＝{x₁,x₂,...,x_n},x_i∈R^d,i＝1,2,...,n添加开始单词标记<START>的单词向量，各元素初始化为0,记为x₀,再将X＝{x₀,x₁,...,x_n}作为指针网络的输入，经过指针网络的Encoder得到序列的隐藏状态E＝{e₀,e₁,...,e_n},解码器第i步输出的词汇分布概率为：

p(C_i|C₁,...,C_i-1)＝softmax(uⁱ)

代表解码器在第i步指向的输入序列中的单词w_j的权重。p(C_i|C₁,...,C_i-1)表示解码器第i步选择输入序列中各个单词的概率分布。

(2)使用j＝argmax(p(C_i|C₁,...,C_i-1))根据p(C_i|C₁,...,C_i-1)中每项的概率值，选择概率最大值的下标索引作为序列中实体提及开始单词w_i对应的结束单词w_j的下标。如果j＝0，则说明不存在以单词w_i开始的实体或者事件提及。如果j≥i，则实体或事件的文本片段为{w_i,...,w_j}。

步骤3、实体或事件提及的向量表示

将步骤2中第二步生成的第k个实体提及文本片段的第一个单词x_i，最后一个单词x_j，以及使用注意力机制获得的文本片段向量表示s_k进行拼接。得到第k个实体提及最终的向量表示h_k，具体计算公式如下：

α_t＝ω_α.FFNN_α(x_t)

h_k＝[x_i；x_j；s_k]

步骤4、图的构建及传播

将步骤2中检测出的实体或者事件文本片段作为图的顶点，两两之间用边相互连接，将第3步中生成的文本片段向量表示作为图G(G＝{V,E}，v_i∈V,i＝{1,2,...,k})的顶点初始向量表示 {h₁,h₂,...,h_k}，其中v_i表示图的顶点，k表示图中顶点的数目，通过图注意力网络进行节点最终向量的表示学习，首先计算每个顶点和其邻居顶点之间的多头注意力权重，头的数目为K：

其中

表示多头注意力的向量拼接，h′_i作为顶点i在顶点i所在层图注意力网络的输出表示。通过L层的图注意力网络，最终得到顶点i的输出表示h_i ^L。

步骤5、实体检测和识别，共指消解，关系抽取，事件提取：

求解非结构文本的多任务联合训练方法：

将实体识别任务和事件的类型检测任务转化为图中代表实体提及和事件提及的节点的类型分类任务，将共指消解，关系抽取，事件元素角色分类任务转化为图中两两节点之间边的分类任务。利用多任务联合训练的方法，进行求解。具体地，包含如下步骤:

(1)将A个实体的分类标签L_E＝{l_e1,...,l_eA}和B个事件提及的分类标签L_T＝{l_t1,...,l_tB}统一到一个包含A+B+1个标签的标签空间L_M＝{l_e1,...,l_eA，l_t1,...,l_tB,O}中，其中额外加一个其他类型O。C个共指消解标签，D个关系分类标签，E个事件元素角色标签也统一到一个C+D+E+1 个标签的空间L_N中，其中额外加一个其他类型O。

(2)对于节点i，使用一个前馈神经网络加softmax分类器，计算其实体和事件提及的类型得分。对于节点i与节点j之间的边类型预测，需要先将节点i和节点j的特征向量进行拼接，然后通过一个前馈神经网络加softmax分类器计算其各种标签类型的得分:

m＝argmax(s(i)),m∈{1,2,...,A+B+1}

m表示LM标签空间中第m个标签的索引。

n＝argmax(s(i,j)),n＝{1,2,...,D+E+F+1}

n表示LN标签空间中的第n个标签索引。

通过上述方法可以得到图中每个顶点和边的类型，代表了每个实体或事件的文本片段的标签类型及任意两个文本片段之间的共指消解，关系抽取，事件元素角色标签。

实施例1：第一步，[“人”,“名”，“称”…,“国”，“家”]通过BERT模型获得句子中各个单词的向量表示

第二步，单词序列向量表示通过如图2的指针网络后，检测到字符“人”的结束单词指向“名”，字符“地”的结束单词指向“点”等，而非实体或事件的文本片段开始字符的字符指向 <START>标记S。通过指针网络可以提取出文本片段{“人名称”，“地点”，“他”，“身份词”，“时间”，“动作”，“国家”}

第三步，通过注意力机制生成这些文本片段的向量表示，如“人名称”的向量表示为 [0.3,0.4,0.44,…,0.234]

第四步，将这些表示各个文本片段的向量作为图注意力网络模型中各个顶点的初始化向量，构建出如图3的图，再通过如图4的图注意力神经网络注意力机制进行信息传播。得到每个顶点最终的向量表示，如经过图注意力机制后“人名称”的向量表示为[0.034,0.056,…,0.45]。

第五步，经过多次传播后便利用每个顶点的最终输出状态进行节点分类和边预测，得到组织结构类型的顶点“身份词”和“国家”，人物类型的顶点“人名称”和“他”，日期类型的顶点“时间”，地点类型的顶点“地点”，事件触发词“动作”，其事件类型为“事件-创建”，包括以下几类事件元素，时间角色为顶点“时间”，地点角色为顶点“地点”，创建者角色为顶点“身份词”，机构角色为顶点“国家”,如图5所示，整个模型的架构如图6所示。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于指针网络非结构文本抽取方法，其特征在于，包括以下步骤：

步骤1：单词编码：通过BERT模型获得句子中各个单词的向量表示，得到单词序列向量的表示；

步骤2：将指针指向表示实体或事件的文本片段，所述指针指向单词序列向量，对于非实体或事件的文本片段的开始字符用指针指向开始标记S，指针指向后形成文本片段表示向量；

步骤3：运用图注意力网络模型和图注意力机制，将向量形成完全图并进行多次信息传播，得到步骤2中的各向量的最终表示，所述完全图包括节点与节点之间边；

2.求解非结构文本的多任务联合训练方法，其特征在于：

构建非结构文本的完全图，提取完全图中的节点与两两节点之间边，节点表示实体或事件提及的类型分类任务，两两节点之间边表示共指消解或关系抽取或事件元素角色分类任务；

3.根据权利要求1所述的基于指针网络非结构文本抽取方法，其特征在于，所述步骤1中，单词的向量表示具体为：

对于输入的包括单词的文档D＝{w₁,w₂,...,w_n}，其中，单词来源于词汇库,w_i∈W^v，i＝1,...,n，n表示文档单词的个数，v表示词汇库的大小，W表示词汇库空间，采用BERT预训练语言模型得到文档单词序列的向量表示序列:X＝{x₁,x₂,...,x_n},x_i∈R^d,i＝1,...,n，x_i是一个实数空间的d维向量，表示第i个单词的向量表示，R代表实数空间。

4.根据权利要求3所述的基于指针网络非结构文本抽取方法，其特征在于，所述步骤2中指针的使用具体包括两部分，第一部分为实体或事件的文本片段边界检测，第二部分为实体或事件提及的向量表示：

第一部分具体为：

S4.1：将输入文档D＝{w₁,w₂,...,w_n}的单词序列向量表示X＝{x₁,x₂,...,x_n},x_i∈R^d,i＝1,2,...,n添加开始单词标记<START>的单词向量，各元素初始化为0,记为x₀,再将X＝{x₀,x₁,...,x_n}作为指针网络的输入，经过指针网络的Encoder得到序列的隐藏状态E＝{e₀,e₁,...,e_n},解码器第i步输出的词汇分布概率为：

p(C_i|C₁,...,C_i-1)＝softmax(uⁱ)

S4.2：使用j＝argmax(p(C_i|C₁,...,C_i-1))根据p(C_i|C₁,...,C_i-1)中每项的概率值，选择概率最大值的下标索引作为序列中实体提及开始单词w_i对应的结束单词w_j的下标，如果j＝0，则说明不存在以单词w_i开始的实体或者事件提及，如果j≥i，则实体或事件的文本片段为{w_i,...,w_j}；

α_t＝ω_α.FFNN_α(x_t)

h_k＝[x_i；x_j；s_k]

5.根据权利要求4所述的基于指针网络非结构文本抽取方法，其特征在于，将所述S4.2中得到的实体或者事件文本片段作为图的顶点，两两之间用边相互连接，将所述第二部分中生成的文本片段向量表示作为图G(G＝{V,E}，v_i∈V,i＝{1,2,...,k})的顶点初始向量表示{h₁,h₂,...,h_k}，其中v_i表示图的顶点，k表示图中顶点的数目，通过图注意力网络进行节点最终向量的表示学习，首先计算每个顶点和其邻居顶点之间的多头注意力权重，头的数目为K：

其中

6.根据权利要求2所述的求解非结构文本的多任务联合训练方法，其特征在于，所述多任务联合训练方法具体包括以下步骤：

步骤6.1：将A个实体的分类标签L_E＝{l_e1,...,l_eA}和B个事件提及的分类标签L_T＝{l_t1,...,l_tB}统一到一个包含A+B+1个标签的标签空间L_M＝{l_e1,...,l_eA，l_t1,...,l_tB,O}中，其中额外加一个其他类型O，C个共指消解标签，D个关系分类标签，E个事件元素角色标签也统一到一个C+D+E+1个标签的空间L_N中，其中额外加一个其他类型O；

对于节点i与节点j之间的边类型预测，先拼接节点i和节点j的特征向量，然后通过一个前馈神经网络加softmax分类器计算节点i与节点j之间的边的各种标签类型得分；

m＝argmax(s(i)),m∈{1,2,...,A+B+1}

m表示LM标签空间中第m个标签的索引；

n＝argmax(s(i,j)),n＝{1,2,...,D+E+F+1}

n表示LN标签空间中的第n个标签索引。