CN114548106A

CN114548106A - 一种基于albert的科协活动命名实体识别的方法

Info

Publication number: CN114548106A
Application number: CN202210163205.6A
Authority: CN
Inventors: 陈万志; 李思凡
Original assignee: Liaoning Technical University
Current assignee: Liaoning Technical University
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-05-27

Abstract

本发明公开了一种基于ALBERT的科协活动命名实体识别的方法，包括将输入的科协活动文本转化为词向量；将输入的词向量进行编码，提取全文特征信息；学习标签之间的约束，输出概率最高的标签序列。本发明提出ALBERT‑BiGRU‑ATTENTION‑CRF命名实体识别模型，模型可以在评估各级科协对改革实施方案中改革要点落实情况的过程中，降低人工参与度，提高工作效率，正确获取科协活动实体类型。实验表明，ALBERT‑BiGRU‑ATTENTION‑CRF模型相比于BiGRU‑CRF模型F1值提高了1.3％。本发明所用模型可以获得较好地识别效果，有效地减少了在评估过程中人工参与度，提高工作效率，后续应将其他领域内的活动文本涵盖进来，扩大数据集规模，进一步拓宽模型的应用范围。

Description

一种基于ALBERT的科协活动命名实体识别的方法

技术领域

本发明涉及一种基于ALBERT的科协活动命名实体识别的方法。

背景技术

命名实体识别(Named entity recognition，NER)是自然语言处理领域中的基础任务，对后续信息抽取与知识图谱的构建都起着至关重要的作用,主要有基于规则和词典的方法，基于机器学习的方法和基于深度学习的方法。目前，常见用于医疗、军事和法律等领域。针对常用的公开数据集提出的模型有很多，但是在特定的应用背景下，这些模型不能直接进行应用。根本原因在于这些应用领域都有自己要设别的实体类型，不仅仅局限于组织机构名称、地名和人名等通用类型，还需要更多细化和具有针对性的分析与研究。二是领域内专门进行整理和研究的人员较少，数据缺失。

郭知鑫，邓小龙等人提出用BERT-BiLSTM-CRF模型来实现法律案件实体智能识别。将BERT模型作为输入层，获取字向量。由于该模型能充分利用上下文之间的字词关系，可有效提取文本特征，通过BiLSTM模型深度学习全文特征信息，进行特定的法律案件实体识别；最后在CRF算法层对BiLSTM模型的输出序列进行处理，结合CRF算法，根据相邻之间的标签得到一个全局最优序列。

相比于Word2Vec，利用BERT模型获取词向量可以更好考虑上下文和词序信息。BERT采用Transformer来构建模型，利用遮蔽语言模型(masked language model，MLM)和下一句预测(next sentence prediction)两种无监督任务来提升效果。Transformer包含编码组件和解码组件两部分，编码组件由多个编码器堆叠构成，每个编码器的结构均相同，但编码器之间没有共享参数。长短期记忆网络(Long short term memory，LSTM)被设计用来解决传统循环神经网络的长期依赖问题，一个LSTM单元包含3个门控结构，分别为遗忘门、记忆门和输出门，每个门控结构都是由Sigmoid函数和逐点相乘器组成。遗忘门决定前一状态的信息输入当前状态的程度，记忆门决定当前状态信息要保留的程度，最后由输出门决定哪些信息作为当前状态的输出。

双向的LSTM可以同时利用过去和未来的信息，提高准确率。CRF是一种特殊的马尔可夫随机场，在序列标注任务中表现优秀，可以在训练过程中学习到相邻标签间的约束关系，提高预测输入句子标签序列的准确性。

上述所提出的BERT-BiLSTM-CRF模型只对法律文本中的地点和人物进行了相应的标注，对法律文本的其他要素，如时间、结果等进行标注，且对硬件资源需求较高，如内存和算力。

发明内容

针对现有技术中的不足，本发明所要解决的技术问题在于提供一种基于ALBERT的科协活动命名实体识别的方法，在命名方式不规范且数据量较小的情况下实现较优的命名实体识别模型的构建，解决评估改革要点落实问题。

为了解决上述技术问题，本发明通过以下技术方案来实现：

本发明提供一种基于ALBERT的科协活动命名实体识别的方法，包括以下步骤：

S1、将输入的科协活动文本转化为词向量；

S2、将输入的词向量进行编码，提取全文特征信息；

S3、学习标签之间的约束，输出概率最高的标签序列。

优选的，步骤S1采用轻量级的ALBERT模型；步骤S2采用BiLSTM的变体BiGRU结合多头自注意力机制；步骤S3采用CRF获取全局最优序列。

进一步的，所述ALBERT模型通过参数因式分解技术，引进一个低维向量，将全连接层与Attention层的参数都进行共享，提升训练速度。

进一步的，所述多头自注意力机制为自注意力机制的集合，每个注意力头学习在不同表示空间中的特征，结合序列各个位置的相关度，扩展了模型对不同位置的关注能力。

进一步的，所述CRF在训练过程中学习相邻标签间的约束关系，提高预测输入句子标签序列的准确性。

由上，本发明的基于ALBERT的科协活动命名实体识别的方法利用迁移学习的方式，提出ALBERT-BiGRU-ATTENTION-CRF命名实体识别模型，模型可以在评估各级科协对改革实施方案中改革要点落实情况的过程中，降低人工参与度，提高工作效率，正确获取科协活动实体类型。实验表明，ALBERT-BiGRU-ATTENTION-CRF模型相比于BiGRU-CRF模型F1值提高了1.3％。本发明所用模型可以获得较好地识别效果，有效地减少了在评估过程中人工参与度，提高工作效率，后续应将其他领域内的活动文本涵盖进来，扩大数据集规模，进一步拓宽模型的应用范围。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下结合优选实施例，并配合附图，详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍。

图1是本发明的基于ALBERT的科协活动命名实体识别的方法的流程图；

图2是本发明的多头自注意力层的结构示意图；

图3是本发明的GRU内部结构图；

图4是本发明的ALBERT-BiGR-ATTENTION-CRF模型。

具体实施方式

下面结合附图详细说明本发明的具体实施方式，其作为本说明书的一部分，通过实施例来说明本发明的原理，本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中，不同的图中相同或相似的部件使用相同的附图标号来表示。

在本发明中，利用命名实体识别的方法来解决评估改革要点落实问题，探究如何在命名方式不规范且数据量较小的情况下实现较优的命名实体识别模型的构建。本发明的基于ALBERT的科协活动命名实体识别的方法自底向上包含嵌入层、编码层和条件随机场层，嵌入层将输入的科协活动文本转化为词向量；编码层将输入的词向量进行编码，提取全文特征信息；条件随机场层学习标签之间的约束，输出概率最高的标签序列。嵌入层采用轻量级的ALBERT模型，编码层采用BiLSTM的变体BiGRU结合多头自注意力机制。条件随机场层采用CRF获取全局最优序列。在保证高效的识别效果的同时，获取最大性价比。

首先从各级科协官方网站获取科协活动文本数据，使用Doccano工具，采用领域词典比对和人工逐句筛查的形式，将文本数据转化为机器可以识别的BIO标注格式；由于数据集规模较小，采用调换语序、回译等方法来增加数据集规模；然后，根据3:1的比例划分训练集与测试集，最后构建不同的命名实体识别模型，实现给出数据科协活动文本，能够抽取其中包含的实体集合，并预测出相应的实体类型。具体的总体流程如图1所示。

利用BERT模型获取词向量可以更好考虑上下文和词序信息。BERT采用Transformer来构建模型，利用遮蔽语言模型(masked language model，MLM)和下一句预测(next sentence prediction)两种无监督任务来提升效果。Transformer包含编码组件和解码组件两部分，编码组件由多个编码器堆叠构成，每个编码器的结构均相同，但编码器之间没有共享参数。ALBERT是BERT的轻量级模型，具有与BERT相似的骨干网络结构，通过参数因式分解技术，引进一个低维向量E，将参数量级由O(V×H)降低到O(V×E+E×H)，并且将全连接层与Attention层的参数都进行共享，提升了训练速度，在小样本的NLP领域中表现出色。此外，ALBERT还将BERT中原本的NSP任务替换为SOP任务，消除了主题识别的影响。

长短期记忆网络(long short term memory，LSTM)被设计用来解决传统循环神经网络的长期依赖问题，一个LSTM单元包含3个门控结构，分别为遗忘门、记忆门和输出门，每个门控结构都是由Sigmoid函数和逐点相乘器组成。遗忘门决定前一状态的信息输入当前状态的程度，记忆门决定当前状态信息要保留的程度，最后由输出门决定哪些信息作为当前状态的输出，具体公式如下：

f_t＝σ(W_f[h_t-1,X_t]+b_f)

i_t＝σ(W_i[h_t-1,X_t]+b_i)

c_t＝f_tc_t-1+i_ttanh(W_f[h_t-1,X_t]+b_c)

o_t＝σ(W_o[h_t-1,X_t]+b_o)

h_t＝o_ttanh(c_t)

式中h_t-1为前一状态的输出，X_t为当前状态输入，W为权重矩阵，f_t、c_t、o_t分别为遗忘门、记忆门和输出门的当前状态，b为偏置矩阵，c_t为记忆信息，h_t为隐藏层状态信息。

双向的LSTM可以同时利用过去和未来的信息，提高准确率。门控循环单元(GateRecurrent Unit，GRU)是LSTM的一种变体，用更新门取代了LSTM中的遗忘门和输出门，仅使用一个门控就可以同时完成遗忘和选择记忆，参数更少，更利于计算，能够提高计算效率。

GRU模块由重置门和更新门两个门控结构组成.重置门控制前一个时刻的状态信息被写入当前候选隐藏状态

的程度.更新门控制前一时刻的信息被带入当前状态的程度。当值越大时，前一时刻的信息带入的越多.重置门与更新门都是选择Sigmoid函数作为激活函数。单个GRU的内部结构如图3所示。

GRU模块的详细计算公式如下：

z^t＝σ(W^zx^t+U^zh^t-1) (1)

r^t＝σ(W^rx^t+U^rh^t-1) (2)

其中，σ代表激活函数Sigmoid，用于将函数数值控制在(0,1)内；⊙代表Hadamard积，即矩阵中对应的元素相乘；z^t代表更新门，r^t代表重置门；tanh代表tan激活函数，用于将函数值控制在(-1,1)内；W^z、U^z为更新门的权重矩阵，W^r、U^r为重置门的权重矩阵；h^t为隐藏状态，

为候选隐藏状态，W、U为需要学习的权重矩阵；t为单位时间。

因为单向的GRU的隐藏状态只能从过去获取信息，而无法获取未来的信息.为了解决命名实体识别中的这一问题，采用BiGRU来获取上下文的信息。

由于嵌入层和编码层采用了参数量较小的ALBERT和BiGRU，不可避免地会导致准确率下降。因此，在进行解码前，加入多头自注意力机制。多头自注意力机制就是自注意力机制的集合，每个注意力头学习在不同表示空间中的特征，结合序列各个位置的相关度，扩展了模型对不同位置的关注能力。例如，在识别过程中，“曲阜市”应当更关注后面的“科协”，将“曲阜市科协”识别为一个组织实体。图2为多头自注意力的计算机制。

自注意力机制通过Q、K、V三个权重矩阵，对每个输入的向量进行评分，然后将得分通过Softmax函数进行归一化后乘以值向量，使其更关注在语义上相关的字，弱化不相关的字，公式如下：

A^Q,K,V＝XW^Q,K,V (6)

score＝A^Q(A^K)^T (7)

式中X为输入的向量矩阵，A^Q、A^K、A^V分别为查询矩阵、键矩阵和值矩阵，W为权重矩阵，d_K为键向量维度。

最后，使用CRF进行解码，得到输出序列。CRF是一种特殊的马尔可夫随机场，在序列标注任务中表现优秀，可以在训练过程中学习到相邻标签间的约束关系，提高预测输入句子标签序列的准确性。首先，将输入的a^t序列根据公式(8)计算得到输入序列到标签序列的得分矩阵。

其中，Q为注意力机制输出的分数矩阵，表示第i个词到标签y_i的分数；A为转移分数矩阵，表示标签y_i到标签y_i+1的转移分数；Score(X,y)表示位置得分。

然后利用公式得到似然函数为

其中，λ和θ为正则化参数。

使用Softmax函数计算标准化序列y的可能性，公式如下

最后，通过维特比算法获得分数最高的标签序列：

其中，y^*代表概率最大的标注序列。

具体的模型框架结构如图4所示。通过上述方法生成科协活动数据集，共计38538个汉字，除ORG代表组织名称、LOC代表地名、DAT代表日期以外，其余标签含义及名称示例如表1所示，数据标注示例如表2所示。

表1标签与改革要点对应关系示例

表2数据标注示例

针对科协活动实体类型自动获取的问题，利用迁移学习的方式，提出ALBERT-BiGRU-ATTENTION-CRF命名实体识别模型。模型可以在评估各级科协对改革实施方案中改革要点落实情况的过程中，降低人工参与度，提高工作效率，正确获取科协活动实体类型。实验表明，ALBERT-BiGRU-ATTENTION-CRF模型相比于BiGRU-CRF模型F1值提高了1.3％。本发明所用模型可以获得较好地识别效果，有效地减少了在评估过程中人工参与度，提高工作效率。后续应将其他领域内的活动文本涵盖进来，扩大数据集规模，进一步拓宽模型的应用范围。

以上所述是本发明的优选实施方式而已，当然不能以此来限定本发明之权利范围，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变动，这些改进和变动也视为本发明的保护范围。

Claims

1.一种基于ALBERT的科协活动命名实体识别的方法，其特征在于，包括以下步骤：

S1、将输入的科协活动文本转化为词向量；

S2、将输入的词向量进行编码，提取全文特征信息；

S3、学习标签之间的约束，输出概率最高的标签序列。

2.如权利要求1所述的基于ALBERT的科协活动命名实体识别的方法，其特征在于，步骤S1采用轻量级的ALBERT模型；步骤S2采用BiLSTM的变体BiGRU结合多头自注意力机制；步骤S3采用CRF获取全局最优序列。

3.如权利要求2所述的基于ALBERT的科协活动命名实体识别的方法，其特征在于，所述ALBERT模型通过参数因式分解技术，引进一个低维向量，将全连接层与Attention层的参数都进行共享，提升训练速度。

4.如权利要求2所述的基于ALBERT的科协活动命名实体识别的方法，其特征在于，所述多头自注意力机制为自注意力机制的集合，每个注意力头学习在不同表示空间中的特征，结合序列各个位置的相关度，扩展了模型对不同位置的关注能力。

5.如权利要求2所述的基于ALBERT的科协活动命名实体识别的方法，其特征在于，所述CRF在训练过程中学习相邻标签间的约束关系，提高预测输入句子标签序列的准确性。