CN113836923B

CN113836923B - 一种基于多级上下文特征提取的命名实体识别方法

Info

Publication number: CN113836923B
Application number: CN202110996266.6A
Authority: CN
Inventors: 高志熙; 韩晓红; 阎东军; 张巍; 安俊杰; 刘剑; 王亮; 董于杰; 侯祥敏; 王庆伟; 张云仙
Original assignee: Shanxi Qingzhong Technology Co ltd
Current assignee: Shanxi Qingzhong Technology Co ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2023-06-27
Anticipated expiration: 2041-08-27
Also published as: CN113836923A

Abstract

本发明一种基于多级上下文特征提取的命名实体识别方法，属于命名实体识别方法技术领域；所要解决的技术问题为：提供一种基于多级上下文特征提取的命名实体识别方法的改进；解决上述技术问题采用的技术方案为：包括如下步骤：通过字符序列编码器提取字符级特征；通过词序列编码器提取单词级特征；基于Bi‑LSTM提取的上下文信息，利用自注意力机制提取单词之间的注意力分布，并利用SOFTMAX函数进行注意力分布归一化；基于归一化的注意力分布计算每个单词对句子的贡献系数，并通过注意力机制计算句子级特征；基于3D CNN获取单词、句子和文档之间的内在联系，依此提取文档级别；本发明应用于命名实体识别。

Description

一种基于多级上下文特征提取的命名实体识别方法

技术领域

本发明一种基于多级上下文特征提取的命名实体识别方法，属于命名实体识别方法技术领域。

背景技术

命名实体识别(Named Entity Recognition,NER)是从一段非结构化文本中查找相关实体，并标记它们的位置和类型。传统的命名实体识别方法主要包括基于规则的，无监督的和基于特征的有监督方法。研究表明，基于传统机器学习的命名实体识别方法具有严重依赖专家特征和弱的模型泛化能力的缺点。

近年来，深度学习在命名实体识别领域取得了一定的突破，并获得了最新的成果，原因在于深度学习不仅节省了特征工程的时间，而且学习了更多有用的抽象表达。研究者利用神经网络训练字符级和词级词嵌入(word2vec，Glove，fastText等)，而且将字符级和单词级嵌入组合作为命名实体识别模型的基本输入。除了基于字符和单词的命名实体识别模型外，研究表明全局上下文信息对命名实体识别模型同样非常有效。

Bi-LSTM作为主要的序列特征提取器之一，可以成功提取词级上下文特征。但是，Bi-LSTM需要将之前内存中的记忆信息和当前词嵌入作为输入，使其无法提取全局信息。而且，为了提取更丰富的特征，堆叠模型也是有效的策略之一，但是，模型退化问题同样不可避免。为了提取全局上下文特征，同时有效避免上述问题，本发明提出了一种有效利用全局信息的分层上下文特征提取模型。

发明内容

本发明为了克服现有技术中存在的不足，所要解决的技术问题为：提供一种基于多级上下文特征提取的命名实体识别方法的改进。

为了解决上述技术问题，本发明采用的技术方案为：一种基于多级上下文特征提取的命名实体识别方法，包括如下步骤：

获取待进行命名实体识别的目标文本数据集并进行预处理；

通过分层上下文特征提取模型对目标文本进行命名实体识别，并得到识别结果；

其中分层上下文特征提取模型对目标文本进行特征提取及识别的步骤如下：

步骤一：通过字符序列编码器提取字符级特征；

步骤二：通过词序列编码器提取单词级特征；

步骤三：基于Bi-LSTM提取的上下文信息，利用自注意力机制提取单词之间的注意力分布，并利用SOFTMAX函数进行注意力分布归一化；

基于归一化的注意力分布计算每个单词对句子的贡献系数，并通过注意力机制计算句子级特征；

步骤四：基于3D CNN获取单词、句子和文档之间的内在联系，依此提取文档级别。

所述步骤一具体利用1D卷积和max-pool提取字符级特征，其中max-pool用于提取词的关键特征。

所述步骤二对单词特征的提取具体使用Glove预训练词嵌入找到输入文本的对应词嵌入，将每个词的词嵌入和字符级特征连接作为新的词表达，然后将新的词表达输入Bi-LSTM编码，得到上下文特征；

所述步骤二的具体步骤为：

给定一个序列X＝{x₁，x₂，x₃，...，x_n}，对于每个单词x_k，将每个词嵌入和字符级特征相连接作为原始词表达式x_k＝[w_k；c_k]，其中w_k是由斯坦福大学预训练的100D Glove词嵌入，c_k表示由字符编码器获得的每个词的字符级特征；

为了提高模型的泛化能力，在将获得的词表达x_k输入Bi-LSTM之前，以5％的概率将词表达x_j随机替换为0。

所述步骤三具体为：

给定句子序列X＝{x₁，x₂，x₃，...，x_n}、上下文特征m＝{m₁，...，m_n}，由每个单词x_k通过词序列编码器生成；

将m∈R^n*ds的矩阵形式M表示为：

上式中n为句子的长度，d_s为特征维度；

计算句子级特征：

任意两个特征m_i和m_j之间的注意力分布α，β∈R^n*n计算如下：

单头注意力：

多头注意力：映射M至多个特征空间：

在每个特征空间中分别计算词之间的注意力分布，计算公式如下：

上式中：h_s是注意力头的数量，

和/>

是总体注意力分布的缩放因子，矩阵β的每一行代表m_k对m₁，m₂，...，m_n的注意力权重并且权重相加之和为1；

根据矩阵β主对角线的值，每个词特征对句子级特征的贡献系数为γ，贡献分别为γ^*，其计算公式如下：

单头注意力：

多头注意力：

根据每个单词对句子的贡献分布γ^*，句子级特征的计算公式如下：

s＝γ*M；

句子级特征s∈R^ds与词表达x′_k＝[s；x_k]相连接作为下一层的输入。

所述步骤四具体为：

根据字符级，词级和句子级特征的组合使用Bi-LSTM进一步提取上下文特征C_s∈R^bs*sl*hs作为3D CNN的输入，其中bs代表批处理大小，sl表示句子长度，hs是隐藏层的维度；

根据3D CNN提取的文档级特征

然后将4种不同类型的特征相连接x″_k＝[d_k；x′_k]作为最后一层Bi-LSTM的输入以提取特征用于CRF预测，其中h_d表示文档级特征维度。

所述上下文特征提取的计算公式为：

上式中：h_k为双向LSTM提取的特征、

为前向LSTM提取的特征、/>

为后向LSTM提取的特征、/>

和/>

均是可训练的参数。

所述分层上下文特征提取模型中设置有逐层残差并应用于堆叠的Bi-LSTM，逐层残差的计算公式如下：

h₁，h₂，...，h_n＝LSTM(x₁，x₂，...，x_n)；

x′₁，x′₂，...，x′_n＝concat([x₁，h₁]，[x₂，h₂]，...，[x_n，h_n])；

h′₁，h′₂，...，h′_n＝LSTM(x′₁，x′₂，...，x′_n)；

x″₁，x″₂，...，x″_n＝concat([x′₁，h′₁]，[x′₂，h′₂]，...[x′_n，h′_n])；

……。

本发明相对于现有技术具备的有益效果为：本发明提出的多层级上下文特征提取模型，可以提取字符、词、句子和文档四个级别的特征，并且通过逐层残差有效解决了模型退化问题。在CONLL2003和ontonotes 5.0数据集上表现出了有竞争力的F1分数。

附图说明

下面结合附图对本发明做进一步说明：

图1为本发明的命名实体识别方法的流程图。

具体实施方式

如图1所示，双向长短时记忆神经网络(Bi-LSTM)作为序列标记任务的有效网络之一，已广泛用于命名实体识别。但是，由于Bi-LSTM的序列特性以及无法同时识别多个句子导致其无法获得全局信息。为了弥补Bi-LSTM在提取全局信息方面的不足，本发明提出了一种嵌入了句子级和文档级特征提取的层次化上下文模型。在句子级特征提取中，考虑到每个单词对句子的不同贡献，本发明使用自注意力机制来提取句子级表达。对于文档级特征提取，3D卷积神经网络(CNN)不仅可以提取句子内部的特征，而且还可以关注到句子之间的顺序关系，因此本发明采用3D CNN提取文档级表达。此外，本发明研究了逐层残差(LBLResidual)结构以优化模型的每个Bi-LSTM块，该结构可以解决随着模型层数增加而出现的表达退化问题。实验表明，本发明的模型在CONLL-2003和Ontonotes5.0英语数据集上分别获得了最先进的F1分数。

为了能够提取多层级的有效特征，本发明提出了一种有效利用全局信息的分层上下文特征提取模型。本发明的模型可以提取四个不同级别的特征，包括字符级、单词级、句子级和文档级。本发明通过基准模型获得前两个级别的特征。对于句子级特征提取，本发明基于Bi-LSTM提取的上下文信息，利用自注意力机制提取单词之间的注意力分布，并利用SOFTMAX函数进行注意力分布归一化。接着本发明基于归一化的注意力分布计算每个单词对句子的贡献系数，并通过注意力机制计算句子级特征。对于文档级特征提取，本发明基于3D CNN获取单词、句子和文档之间的内在联系，依此提取文档级别表达。本发明将文档级特征与之前的不同级特征相连接作为最后一层Bi-LSTM的输入。此外，为了解决由于层数堆叠导致的表达退化问题，本发明提出了逐层残差结构并将其应用于堆叠的LSTM中。

本发明基于多级上下文特征提取的命名实体识别方法包括以下步骤：

步骤1：字符序列编码器。根据输入文本，使用1D卷积和最大池化操作提取每个单词的字符级特征，其中卷积核设定为3。该字符级特征完全通过模型训练生成。

步骤2：词序列编码器。给定一个序列X＝{x₁，x₂，x₃，...，x_n}，对于每个单词x_k，本发明将每个词嵌入和字符级特征相连接作为原始词表达式x_k＝[w_k；c_k]，其中w_k是由斯坦福大学预训练的100D Glove词嵌入，c_k表示由字符编码器获得的每个词的字符级特征。为了提高所提出模型的泛化能力，在将获得的词表达x_k输入Bi-LSTM之前，本发明以5％的概率将某些词表达x_j随机替换为0。

所有的上下文特征提取计算如下公式集所示：

其中，

和/>

均是可训练的参数。

步骤3：提取句子级特征。对于句子序列X＝{x₁，x₂，x₃，...，x_n}，上下文特征m＝{m₁，...，m_n}由每个单词x_k通过词序列编码器生成。本发明将m∈R^n*ds的矩阵形式M表示为：

本发明考虑了两种策略计算句子级特征：

1)：任意两个特征m_i和m_j之间的注意力分布α，β∈R^n*n计算如下：

单头注意力：

多头注意力：

a)映射M至多个特征空间：

b)

c)在每个特征空间中分别计算词之间的注意力分布：

其中h_s是注意力头的数量，

和/>

是总体注意力分布的缩放因子，矩阵β的每一行代表m_k对m₁，m₂，...，m_n的注意力权重并且权重相加之和为1。

2)：根据矩阵β主对角线的值，每个词特征对句子级特征的贡献系数γ，γ^*可以计算如下：

单头注意力：

多头注意力：

3)：根据步骤2中每个单词对句子的贡献分布γ^*，句子级特征的计算如下：

s＝γ*M；

步骤4：提取文档级特征。根据字符级，词级和句子级特征的组合使用Bi-LSTM进一步提取上下文特征C_s∈R^bs*sl*hs作为3DCNN的输入，其中bs代表批处理大小，sl表示句子长度，hs是隐藏层的维度。根据3D CNN提取的文档级特征

步骤5：逐层残差。模型提取多层级特征，必然导致模型层数增加，为了有效防止模型退化，本发明提出逐层残差并应用于堆叠的Bi-LSTM。计算如下：

h₁，h₂，...，h_n＝LSTM(x₁，x₂，...，x_n)；

h′₁，h′₂，...，h′_n＝LSTM(x′₁，x′₂，...，x′_n)；

……。

下面结合附图和实例对本发明进一步说明。

1.数据集的预处理工作。本发明使用CONLL-2003和ontonotes 5.0的公开数据集验证模型，并将原始数据处理为格式统一的可运行数据。

2.实验设置。本发明使用公开的100D Glove词嵌入和30D初始字符嵌入，其中字符嵌入在CONLL-2003和Ontonotes5.0数据集均服从均匀分布。本发明将卷积核的大小设置为3，隐藏层的大小设置为50，用于提取字符级特征。本发明使用随机梯度下降(SGD)算法优化所有模型，并将批次大小设置为10。本发明将初始学习率设置为0.1，并且采用了根据验证集表现的学习率降低方法。具体而言，如果模型在验证集的F1值连续5次未增加，则学习率将降低5％，否则学习率保持不变。在分层上下文模型中，注意力头的数量为1，3D共享卷积核的大小为[3；3；3]，由底层至高层的三个LSTM块隐藏层大小分别设置为256、512和512。为了避免过拟合，本发明以0.5的比率对每个网络层和特征嵌入进行dropout。

3.评估。所有实验均运行于8G内存的NVIDIA Tesla P4，并通过F1分数评估模型。本发明在模型训练和预测过程中均使用BIOES标注策略。

如图1所示，将数据输入模型，利用已准备的数据训练模型。具体如下：

1)利用1D卷积和max-pool提取字符级特征，其中max-pool用于提取词的关键特征。

2)使用Glove预训练词嵌入找到输入文本的对应词嵌入，将每个词的词嵌入和字符级特征连接作为新的词表达。接着将新的词表达输入Bi-LSTM编码，得到上下文特征。

3)根据每个词的上下文特征，利用自注意力机制提取句子级特征。

4)将已获得的字符、词和句子级特征相连接输入下一层Bi-LSTM，提取新的上下文特征。

5)根据上一步提取的上下文特征，利用3D CNN提取文档级特征。

6)将字符、词、句子和文档级特征连接输入最后一层Bi-LSTM，提取丰富的上下文特征。

7)使用CRF解码、预测实体识别的准确率，并计算F1分数。

根据上述步骤，不断更新迭代，训练模型参数。在每个数据集上分别进行5次实验取平均值评估模型性能。进行对比实验，结果表明：提出的模型表现出了有竞争力的模型性能。

关于本发明具体结构需要说明的是，本发明采用的各部件模块相互之间的连接关系是确定的、可实现的，除实施例中特殊说明的以外，其特定的连接关系可以带来相应的技术效果，并基于不依赖相应软件程序执行的前提下，解决本发明提出的技术问题，本发明中出现的部件、模块、具体元器件的型号、连接方式除具体说明的以外，均属于本领域技术人员在申请日前可以获取到的已公开专利、已公开的期刊论文、或公知常识等现有技术，无需赘述，使得本案提供的技术方案是清楚、完整、可实现的，并能根据该技术手段重现或获得相应的实体产品。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。