CN113449517B

CN113449517B - 基于bert门控多窗口注意力网络模型的实体关系抽取方法

Info

Publication number: CN113449517B
Application number: CN202110773065.XA
Authority: CN
Inventors: 孙水华; 徐诗傲; 张智源; 徐凡
Original assignee: Fujian University of Technology
Current assignee: Fujian University Of Science And Technology
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2023-03-28
Anticipated expiration: 2041-07-08
Also published as: CN113449517A

Abstract

本发明公开基于BERT门控多窗口注意力网络模型的实体关系抽取方法，对数据集进行预处理；利用最短依存路径解析数据集生成相应的约束信息；采用BERT编码原始序列及其约束信息构建单词的动态语义表示特征、并通过语义表示特征形成句子向量、实体向量表示以及约束信息向量表示；构建了一种关键词组提取网络，采用多窗口CNN获取句子中多粒度词组特征并采用逐元最大池化筛选出关键词组特征；使用自注意力机制和BiLSTM‑Attention对关键词组特征进行筛选和全局感知，形成用于分类的整体特征；利用全连接层和Softmax分类函数进行分类处理。本发明提高了关系抽取的准确率。

Description

基于BERT门控多窗口注意力网络模型的实体关系抽取方法

技术领域

本发明涉及自然语言处理领域，尤其涉及基于BERT门控多窗口注意力网络模型的实体关系抽取方法。

背景技术

在数据量呈指数增长的信息化时代，信息泛滥的问题越来越严重，迫使人们重视研究如何从海量数据中快速、高效、便捷的提取知识。为了迅速有效的从海量的非结构化文本数据中提取所需信息，信息抽取成为自然语言处理领域的研究热点。信息抽取的目的是将非结构化文本转化为结构化的或者半结构的信息，以供进一步分析以及用户查询。实体关系作为信息抽取领域的核心分支，其目的是从自然语言文本中挖掘给定实体对之间的语义关系信息。实体关系抽取技术研究为知识库构建、自动文摘、自动问答等下游任务提供重要的技术支持。

随着深度学习技术的快速发展，大量深度学习模型应用到关系抽取任务中，目前基于深度学习的关系抽取模型大多采用word2vec生成的词向量作为输入，但word2vec生成的词向量无法根据上下文的语义信息进行调整，导致实体上下文信息表示能力有限。有些文献在使用word2vec生成的词向量作为输入时，通过引入实体位置、潜在实体等信息来增强实体上下文信息的语义表达能力，但该方法对实体语义信息增强有限，模型性难以取得较大提升，且忽略了句子中关键词组对实体关系抽取分类结果的积极影响以及噪声信息对分类结果的消极影响。

发明内容

本发明的目的在于提供基于BERT门控多窗口注意力网络模型的实体关系抽取方法。

本发明采用的技术方案是：

基于BERT门控多窗口注意力网络模型的实体关系抽取方法，其包括以下步骤：

步骤1：对数据集进行预处理；

步骤2：利用最短依存路径解析数据集生成相应的约束信息；

步骤3：采用BERT编码数据集文本及其约束信息构建单词的动态语义表示特征X、并通过单词的动态语义表示特征X形成句子向量V₀、实体向量表示V_e1,V_e2以及约束信息向量表示V_SDP；

步骤4：构建了一种关键词组提取网络，采用多窗口CNN获取单词的动态语义表示特征X中多粒度词组特征并采用逐元最大池化筛选出关键词组特征T′；

步骤5：使用自注意力机制和BiLSTM-Attention对关键词组特征T′进行筛选和全局感知，形成用于分类的句子整体特征

和

步骤6：将句子向量V₀、实体向量表示V_e1、实体向量表示V_e2以及约束信息向量表示V_SDP与整体特征

和

融合，利用全连接层和Softmax分类函数进行分类处理。

进一步的改进，所述步骤2中约束信息是通过最短依存路径寻找实体对之间的最短路径，去除依存关系的同时保留目标实体之间的主干信息所形成。

进一步的改进，所述步骤3中使用BERT对上述句子进行编码构建单词的动态语义表示特征X＝{x₀,x₁,…,x_i,…x_i+h,…,x_j,…,x_j+l,…,x_p,…,x_p+q,…,x_n}。

进一步的改进，述步骤3中句子向量V₀、实体向量表示V_e1,V_e2以及约束信息向量表示V_SDP通过如下公式计算：

V₀＝W₀(tanh(x₀))+b₀

其中x_i至x_i+h为实体e1对应的词向量，x_j至x_j+l为实体e2对应的词向量，x_p至x_p+q为约束信息对应的词向量，x₀为包含句子信息的向量，W₀,W_e,W_s和b₀,b_e,b_s分别表示全连接层的权重矩阵和偏置向量。

进一步的改进，所述步骤4中构建的关键词组提取网络结构具体为：

网络结构的第一层为多窗口CNN：该层用于提取句子中多粒度词组特征，以步骤3中生成的单词的动态语义表示特征X作为输入，输出句子的多粒度词组矩阵

k为卷积核的大小；

网络结构的第二层为全局门控机制：该层利用不同粒度词组上下文信息增强词组自身语义表达信息，将第一层多窗口CNN提取的多粒度词组矩阵

作为输入，通过全局门控机制增强各个粒度词组自身的语义信息，该机制具体公式如下：

T^k＝C^k⊙G^k

其中，

表示

中第j维的值，m^k表示词组特征全局信息，⊙为点积运算，W_g和b_g为权重矩阵和偏置向量，G^k为门控信息，T^k表示全局门控机制的输出。

网络结构的第三层为逐元最大池化：该层通过逐元最大池化策略对全局门控机制的输出T^k进行筛选，形成句子的关键词组特征T′，逐元最大池化策略具体操作公式如下：

T′＝[t′₁,t′₂,…t′_i,…t′_n]

其中，

表示T^k中第i个词组特征的第j维的值。

进一步的改进，述步骤5所述自注意力机制为多头的自注意力机制，用于对关键词组特征T′进行筛选以形成具有不同权重的相关性词组特征Z；BiLSTM-Attention是采用BiLSTM对关键词组特征T′的上下文进行编码以捕获词组上下文表示H＝[h₁,…,h_i,…,h_n]，并采用添加了实体特征的Attention将相关性词组特征Z和词组上下文表示H转化成句子整体特征

进一步的改进，相关性词组特征Z按如下公式计算生成：

Z＝MultiHead(T′,T′,T′)

其中，

和W^M为权重矩阵，r表示注意力头的数量，

为级联操作。

进一步的改进，所述步骤5所述句子整体特征

按如下公式计算生成：

其中，W_E为实体权重矩阵，z_i为Z中第i个向量，h_i为词组上下文表示H中第i个向量，

和

为可训练的权重矩阵。

本发明采用以上技术方案，采用BERT替代原始的word2vec的方法，可较好的解决word2vec无法根据上下文进行调整的缺陷，在增强实体上下文信息语义表达能力的同时减少了噪声信息的干扰，并构建了一种关键词组提取网络捕获句子中关键词组信息以丰富句子的语义信息。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明方法的流程图；

图2为本发明的语义表示生成网络的结构示意图；

图3为本发明的关键词组提取网络的结构示意图；

图4为本发明全局门控机制的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。

如图1至图4之一所示，本发明公开了基于BERT门控多窗口注意力网络模型的实体关系抽取方法，步骤如下：

步骤1：对数据集进行预处理；

步骤2：利用最短依存路径解析数据集生成相应的约束信息；

对文本内容采用最短依存路径寻找实体对之间的最短路径，去除依存关系的同时保留目标实体之间的主干信息，生成文本的约束信息。

如图2所示，使用BERT对句子S进行编码构建单词的动态语义表示特征X＝{x₀,x₁,…,x_i,…x_i+h,…,x_j,…,x_j+l,…,x_p,…,x_p+q,…,x_n}，同时，通过语义表示矩阵X形成句子向量V₀、实体向量表示V_e1,V_e2以及约束信息向量表示V_SDP，计算公式如下：

V₀＝W₀(tanh(x₀))+b₀

步骤4：构建了一种关键词组提取网络，采用多窗口CNN获取动态语义表示特征X中多粒度词组特征并采用逐元最大池化筛选出关键词组特征T′；

构建的关键词组提取网络结构如图3所示，具体为：

k为卷积核的大小；

作为输入，通过全局门控机制增强各个粒度词组自身的语义信息，如图4所示。该机制具体公式如下：

T^k＝C^k⊙G^k

其中，

表示

T′＝[t′₁,t′₂,…t′_i,…t′_n]

其中，

表示T^k中第i个词组特征的第j维的值。

和

自注意力机制为多头的自注意力机制，用于对关键词组特征T′进行筛选以形成具有不同权重的相关性词组特征Z，其按如下公式计算生成：

Z＝MultiHead(T′,T′,T′)

其中，

和W^M为权重矩阵，r表示注意力头的数量，

为级联操作。

BiLSTM-Attention是采用BiLSTM对关键词组特征T′的上下文进行编码以捕获词组上下文表示H＝[h₁,…,h_i,…,h_n]，并采用添加了实体特征的Attention将相关性词组特征Z和词组上下文表示H转化成句子整体特征

句子整体特征

按如下公式计算生成：

和

为可训练的权重矩阵。

步骤6：将步骤2的句子向量V₀、实体向量表示V_e1,V_e2以及约束信息向量表示V_SDP与步骤4的整体特征

和

融合，利用全连接层和Softmax分类函数进行分类处理。

显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

Claims

1.基于BERT门控多窗口注意力网络模型的实体关系抽取方法，其特征在于：其包括以下步骤：

步骤1：对数据集进行预处理；

步骤2：利用最短依存路径解析数据集生成相应的约束信息；

步骤3：采用BERT编码数据集文本及其约束信息构建单词的动态语义表示特征X＝{x₀,x₁,…,x_i,…x_i+h,…,x_j,…,x_j+l,…,x_p,…,x_p+q,…,x_n}、并通过单词的动态语义表示特征X形成句子向量V₀、实体向量表示V_e1,V_e2以及约束信息向量表示V_SDP，通过如下公式计算：

V₀＝W₀(tanh(x₀))+b₀

其中x_i至x_i+h为实体e1对应的词向量，x_j至x_j+l为实体e2对应的词向量，x_p至x_p+q为约束信息对应的词向量，x₀为包含句子信息的向量，W₀,W_e,W_s和b₀,b_e,b_s分别表示全连接层的权重矩阵和偏置向量；

和

和

融合，利用全连接层和Softmax分类函数进行分类处理。

2.根据权利要求1所述的基于BERT门控多窗口注意力网络模型的实体关系抽取方法，其特征在于：步骤2中约束信息是通过最短依存路径寻找实体对之间的最短路径，去除依存关系的同时保留目标实体之间的主干信息所形成。

3.根据权利要求1所述的基于BERT门控多窗口注意力网络模型的实体关系抽取方法，其特征在于：步骤4中构建的关键词组提取网络结构具体为：

k为卷积核的大小；

T^k＝C^k⊙G^k

其中，

表示

中第j维的值，m^k表示词组特征全局信息，⊙为点积运算，W_g和b_g为权重矩阵和偏置向量，G^k为门控信息，T^k表示全局门控机制的输出；

T′＝[t′₁,t′₂,…t′_i,…t′_n]

其中，

表示T^k中第i个词组特征的第j维的值。

4.根据权利要求1所述的基于BERT门控多窗口注意力网络模型的实体关系抽取方法，其特征在于：步骤5的自注意力机制为多头的自注意力机制，用于对关键词组特征T′进行筛选以形成具有不同权重的相关性词组特征Z；BiLSTM-Attention是采用BiLSTM对关键词组特征T′的上下文进行编码以捕获词组上下文表示H＝[h₁,…,h_i,…,h_n]，并采用添加了实体特征的Attention将相关性词组特征Z和词组上下文表示H转化成句子整体特征