CN113128232A

CN113128232A - 一种基于albert与多重词信息嵌入的命名实体识别方法

Info

Publication number: CN113128232A
Application number: CN202110512639.8A
Authority: CN
Inventors: 陈贞翔; 徐翰琛; 杨倩; 黄鹤林; 姜晓庆; 尚铭悦
Original assignee: Shandong Sizheng Information Technology Co Ltd; University of Jinan
Current assignee: Shandong Sizheng Information Technology Co Ltd; University of Jinan
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-07-16
Anticipated expiration: 2041-05-11
Also published as: CN113128232B

Abstract

本发明提供了一种基于ALBERT与多重词信息嵌入的命名实体识别方法，利用训练后的深度学习模型对预处理后的待识别语句进行处理，得到识别结果；深度学习模型的训练过程包括根据已标注语料主题，进行未标注语料爬取；获取预训练好的ALBERT语言模型，对全部语料进行预训练微调，得到字向量；构建命名实体识别数据集，并对数据集做预处理，依据数据集构建多重词信息特征；将字向量序列与多重词信息特征序列进行融合，得到加强的字向量序列；构建深度学习模型，利用加强的字向量序列进行模型训练。本发明可以有效的表征字的多义性，提升实体识别的效率。

Description

一种基于ALBERT与多重词信息嵌入的命名实体识别方法

技术领域

本发明属于命名实体识别技术领域，具体涉及一种基于ALBERT与多重词信息嵌入的命名实体识别方法。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

命名实体识别(Named Entity Recognition，简称NER)又称为实体抽取，是自然语言处理(Natural Language Processing)中的一项重要任务。命名实体识别旨在从原始语料中识别与分类具有特定意义的命名实体，如人名、地名、组织机构名称等，它在知识图谱、问答系统和信息检索等诸多下游任务中发挥着重要作用。

现在的中文命名实体识别技术主要使用基于字符的深度学习模型，其实施的具体流程为：首先，需要将输入深度学习模型的中文语料进行数值向量化，目前广泛使用的模型有Word2Vec、Glove等静态语言模型与Bert预训练语言模型，即将输入语句送入至语言模型得到字向量序列；而后将得到的字向量序列送入序列建模层进行上下文语义建模，得到隐层编码；最后，将隐层编码送入解码层进行解码，获得最终的实体识别结果。此类方法存在以下弊端：

(1)基于字符的深度学习模型仅仅只是将字符向量作为输入，未能充分利用词的信息。

(2)Word2Vec、Glove等静态语言模型无法解决一字多义问题，会影响最终的实体识别结果。

(3)Bert模型采用静态Masking，在训练时间短、训练集较小的情况下无法对语料进行充分学习；另一方面，Bert模型参数量巨大，在实际应用中会受到硬件的限制。

发明内容

本发明为了解决上述问题，提出了一种基于ALBERT与多重词信息嵌入的命名实体识别方法，本发明可以为基于字符的深度学习模型引入多重词信息，与ALBERT预训练语言模型得到的字向量进行融合，可有效的提升实体识别模型的性能。

根据一些实施例，本发明采用如下技术方案：

一种基于ALBERT与多重词信息嵌入的命名实体识别方法，包括以下步骤：

利用训练后的深度学习模型对预处理后的待识别语句进行处理，得到识别结果；

所述深度学习模型的训练过程包括：

根据已标注语料主题，进行未标注语料爬取；

获取预训练好的ALBERT语言模型，对全部语料进行预训练微调，得到字向量；

构建命名实体识别数据集，并对数据集做预处理，依据数据集构建多重词信息特征；

将字向量序列与多重词信息特征序列进行融合，得到加强的字向量序列；

构建深度学习模型，利用加强的字向量序列进行模型训练。

作为可选择的实施方式，根据已标注语料主题，进行未标注语料爬取的具体过程包括：

根据已标注数据主题，制定关键词表；

利用爬虫技术，根据关键词表在公众网站上进行语料爬取，将爬取的语料存入数据库中。

作为可选择的实施方式，获取预训练好的ALBERT语言模型，对全部语料进行预训练微调的具体过程包括：

利用albert_tiny_google_zh模型，对语料进行处理，进行转换，生成tfrecords文件，对tfrecords文件进行预训练，执行modeling.py函数，加载微调后的ALBERT语言模型。

作为可选择的实施方式，构建命名实体识别数据集，依据数据集构建多重词信息特征的具体过程包括：对已标注数据，采用“BIOES”标注体系对每个字符打上标签；

利用设定比例对上述数据生成训练集、验证集与测试集；

对训练集与验证集构建词频统计词典word_frequency文件、词语索引文件word2id与id2word；

对训练集、测试集与验证集构建标签索引文件tag2id与id2tag；

构建“BMES”四种词集，对照词嵌入查找表，将词集中的词语转为词向量，将每个字符的词集进行压缩。

作为可选择的实施方式，将字向量序列与多重词信息特征序列进行融合的具体过程包括：

将输入语句序列输入至ALBERT语言模型中，得到字向量序列，将输入语句序列中的每个字符构建多重词信息特征，得到多重词信息嵌入向量；将每个字符的字向量与它的多重词信息嵌入向量进行融合。

作为可选择的实施方式，构建深度学习模型的具体过程包括：

创建BiLSTM模型，对于输入的字符向量序列，每一时刻创建一个前向与后向LSTM隐含层单元，每个隐含层单元创建一个记忆单元，得到状态序列，并设置相关参数，对状态序列进行调整，将三维数组扁平化为二维数组，并计算隐层输出，进而计算状态输出；

将计算的状态输出进行调整，由二维数组转换为三维数组；

构建并初始化转移矩阵，将上一步转换后得到的三维数组与状态转移矩阵作为CRF函数的输入，采用最大似然估计法计算损失值；

进行反向传播。

作为可选择的实施方式，利用加强的字向量序列进行模型训练的具体过程包括：

加载训练集、验证集数据，并构建多重词信息特征，将字向量序列与多重词信息特征序列进行融合得到多维数据；

利用所述多维数据对模型进行训练；

利用训练集进行迭代训练，利用验证集进行测试，直到测试结果满足设定要求。

一种基于ALBERT与多重词信息嵌入的命名实体识别系统，包括：

数据获取模块，被配置为根据已标注语料主题，进行未标注语料爬取；

字向量生成模块，被配置为获取预训练好的ALBERT语言模型，对全部语料进行预训练微调，得到字向量；

多重词特征提取模块，被配置为构建命名实体识别数据集，并对数据集做预处理，依据数据集构建多重词信息特征；

融合模块，被配置为将字向量序列与多重词信息特征序列进行融合，得到加强的字向量序列；

模型构建模块，被配置为构建深度学习模型，利用加强的字向量序列进行模型训练；

识别模块，被配置为利用训练后的深度学习模型对预处理后的待识别语句进行处理，得到识别结果。

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法中的步骤。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明使用ALBERT预训练语言模型来对字向量进行表征，可以有效的表征字的多义性，ALBERT语言模型通过词嵌入向量的因式分解和跨层参数共享方法有效的减少了大量参数，其参数仅有1.8M，而BERT模型的参数量是ALBERT模型的64倍，因此ALBERT模型在训练时的内存花销更少，便于部署；

本发明可以为基于字符的深度学习模型引入多重词信息，与ALBERT预训练语言模型得到的字向量进行融合，可有效的提升实体识别的效果。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本实施例的整体流程图；

图2为训练实体识别模型，在线标注实体的流程图；

图3为实体识别模型的整体架构图。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

一种基于ALBERT与多重词信息嵌入的命名实体识别方法，如图1所示，包括以下步骤：

步骤(1)：数据准备，根据已标注语料主题，进行未标注语料爬取。

步骤(2)：获取预训练好的ALBERT语言模型，对步骤(1)得到的全部语料进行预训练微调。

步骤(3)：构建命名实体识别数据集，并对数据集做预处理。

步骤(4)：对步骤(3)得到的数据集构建多重词信息特征。

步骤(5)：将步骤(2)得到的字向量序列与步骤(4)得到多重词信息特征序列进行融合，得到加强的字向量序列。

步骤(6)：建立BiLSTM-CRF深度学习模型

步骤(7)：读取步骤(5)得到的加强的字向量序列进行模型训练。

步骤(8)：用户输入测试语句，按照步骤(3)对测试语句进行预处理得到测试数据，输入至模型进行测试，输出识别结果，返回用户。

在本实施例中，步骤(1)的步骤为：

步骤(1-1)：根据已标注数据主题，制定关键词表。

步骤(1-2)：利用爬虫技术，根据关键词表在百度百科、维基百科等网站上进行语料爬取。

所述爬虫技术使用scrapy框架。

步骤(1-3)：将步骤(1-2)中爬取的语料存入数据库中。

上述数据库是指本地已经建立好的数据库。

在本实施例中，步骤(2)的步骤为：

步骤(2-1)：下载谷歌开源的albert_tiny_google_zh模型，其模型架构是一个多层双向的Transformer编码器，网络层数为12层，隐藏层维度为312，注意力头的数量为12。

步骤(2-2)：对步骤(1)得到的语料进行处理，执行create_pretrain_data.py命令，生成特定格式的tfrecords文件。所述命令具体为：

python3

create_pretraining_data.py--do_whole_word_mask＝True--input_file＝％s\--output_file＝％s--vocab_file＝％s

--do_lower_case＝True\--max_seq_length＝512

--max_predictions_per_seq＝20–masked_lm_prob＝0.10％(要处理的语料文件地址,处理好的tfrecords文件地址,vocab.txt文件地址)

步骤(2-3):对步骤(2-2)得到的tfrecords文件进行执行预训练命令。

所述预训练命令为：

python3 run_pretraining.py--input_file＝％s\--output_dir＝％s

--do_train＝True--do_eval＝True--bert_config_file＝％s

\--train_batch_size＝4096--max_seq_length＝128

--max_predictions_per_seq＝20\--num_train_steps＝100000

--num_warmup_steps＝12500--learning_rate＝0.00176\

--save_checkpoints_steps＝1000--init_checkpoint＝％s％(处理好的tfrecords文件地址,微调后的语言模型存放地址,语言模型配置文件地址,步骤(2-1)下载的语言模型存放地址)

步骤(2-4)：执行modeling.py函数，加载步骤(2-3)微调后的ALBERT语言模型。

当然，上述命令的具体编程语句仅为示例，在其他实施例中，可以进行更换。

在本实施例中，步骤(3)的步骤为：

步骤(3-1)：对已标注数据，采用“BIOES”标注体系对每个字符打上标签。

步骤(3-2)：采用8:1:1比例对上述数据生成训练集、验证集与测试集。

步骤(3-3)：对训练集与验证集构建词频统计词典word_frequency文件、词语索引文件word2id与id2word。

步骤(3-4)：对训练集、测试集与验证集构建标签索引文件tag2id与id2tag。

在本实施例中，步骤(4)的步骤为：

步骤(4-1)：构建“BMES”四种词集。本文采用“BMES”表示每个字符在单词中的分割信息。对于输入序列s中的某一字符c，四种词集的构建公式如下：

其中，B、M、E、S代表四种词集，c_i为待构建词集的字符，D代表预先构建好的心理疾病词典，w为心理疾病词典D中含有的词语。此外，当某个词集为空时，对该词集使用特殊词进行填充。

步骤(4-2)：根据步骤(4-1)得到字符c的“BMES”词集后，对照词嵌入查找表，将词集中的词语转为词向量，词向量的维度设置为50。

其中，词嵌入查找表是对已标注数据使用Word2Vec模型的skip-gram算法构建。

步骤(4-3)：由于每个词集内词向量个数不等，为了保证后续每个增强后的字符嵌入向量维度相同，需要将每个字符的词集进行压缩，压缩算法采用加权平均算法，具体地来说，设f(w)为词语w在静态数据中出现的频率，ew代表词嵌入查找表，则某词集S采用以下公式进行压缩：

在这里，f(w)通过步骤(3-3)生成的word_frequency文件获得，F代表属于该字符的词集下所有单词的f(w)之和。静态数据可以是训练数据与未标注数据。

在本实施例中，步骤(5)的步骤为：

步骤(5-1)：将输入语句序列s＝(c1,c2,c3,...,cn)输入至步骤(2)得到的ALBERT语言模型中，得到字向量序列ec＝(e1,e2,e3,...en)，其中字向量维度为128。

步骤(5-2)：将输入语句序列s＝(c1,c2,c3,...,cn)中的每个字符ci按照步骤(4)处理得到多重词信息嵌入向量。

步骤(5-3)：将每个字符ci的字向量与它的多重词信息嵌入向量进行融合：

E^c＝[e^c；v^f(B)；v^f(M)；v^f(E)；v^f(S)]

在本实施例中，步骤(6)的步骤，如图2所示：

步骤(6-1)：创建BiLSTM模型，构建上下文关系。

步骤(6-2)：连接CRF函数，计算预测最优序列标记。

所述步骤(6-1)的步骤为：

步骤(6-1-1)：对于输入的字符向量序列，每一时刻创建一个前向与后向LSTM隐含层单元，神经元个数为256。在这里，时刻代表字符的数量。

步骤(6-1-2)：每个隐含层单元创建一个记忆单元C，其定义如下：

h_t＝o_t⊙tanh(c_t).

在这里，it是输入门，ft是遗忘门，ot是输出门。记忆单元C的输入为本时刻的输入字符向量

与上一时刻记忆单元的内部状态ct-1与外部状态ht-1，输出为本时刻的内部状态ct与外部状态ht。

所述输入门it：控制新信息的加入，其输入为本时刻的输入字符向量

与上一时刻记忆单元的外部状态ht-1，使用sigmoid函数激活后，所有值都被控制在[0,1]范围内，与候选信息

进行点乘操作，得到新加入的信息。输入门的计算公式如下：

所述候选信息

计算公式如下：

所述遗忘门ft：控制遗忘上一单元内部状态的程度，其输入为本时刻的输入字符向量

与上一时刻记忆单元的外部状态ht-1，使用sigmoid函数激活后，所有值都被控制在[0,1]范围内，与上一时刻记忆单元的内部状态ct-1进行点称操作，对其进行部分遗忘。遗忘门的计算公式如下：

所述输出门ot：输出门用来控制当前时刻记忆单元的内部状态有多少需要被过滤掉，其输入为本时刻的输入字符向量

与上一时刻记忆单元的外部状态ht-1，使用sigmoid函数激活后，所有值都被控制在[0,1]范围内。将本时刻内部状态ct使用tanh函数激活后，与输出门进行点乘操作，得到本时刻的外部状态ht。输出门的计算公式如下：

所述Wi、

Wf、Wo为LSTM单元的权重矩阵，bi、

bf、bo为LSTM单元的偏置量，均为可训练参数，σ为sigmoid激活函数，*为点乘操作。

步骤(6-1-3)：构建Wh、Wp参数矩阵，构建bh、bp偏置量，均为可训练参数。

步骤(6-1-4)：对步骤(6-1-2)得到的外部状态序列进行reshape操作，由三维数组扁平化为二维数组hs，其中第一维的维度为batch_size*num_steps，第二维的维度为lstm_dim*2。

所述batch_size为本次输出的样本数量。

所述num_steps为每个样本内的字符数量。

所述lstm_dim为一个LSTM单元的神经元数量。

步骤(6-1-5)：将步骤(6-1-4)的输出hs作为输入，计算隐层输出h，公式如下：

h＝h_s*W_h+b_h

步骤(6-1-6)：由步骤(6-1-5)得到的隐层输出h，计算状态输出p，公示如下：

p＝h*W_p+b_p

步骤(6-1-7)：对步骤(6-1-6)得到的状态输出p进行reshape操作，由二维数组转换为三维数组，其中第一维的维度为batch_size，第二维的维度为num_steps，第三维的维度为num_tags。

所述num_tags为本次实体识别任务预测标签的总数。

步骤(6-2)的步骤为：

步骤(6-2-1)：构建并初始化转移矩阵trans。

步骤(6-2-2)：将步骤(6-1-7)的输出与状态转移矩阵trans作为CRF函数的输入，采用最大似然估计法计算损失值loss，公式如下：

在这里，在这里，y代表标签序列，h代表当前输入序列s的隐层输出，θ为可训练参数，Y(s)代表当前输入序列s的所有可能标签序列，

其中

和b_y′,y是可训练的参数。

步骤(6-2-3)：反向传播时，使用Adam优化器更新参数。

在本实施例中，步骤(7)的步骤为：

步骤(7-1)：加载步骤(3)中的训练集、验证集数据，并按照步骤(4)、(5)处理为6维数组，第1维是字符索引，第2维是B词集索引，第3维是M词集索引，第4维是E词集索引，第5维是S词集索引，第6维是实体标签索引。

步骤(7-2)：将步骤(7-1)加载好的数据输入到步骤(6)的模型中进行训练。

步骤(7-3)：将步骤(7-2)训练好的实体识别模型进行保存，如图3所示。

所述步骤(7-2)的步骤为：

步骤(7-2-1)：设置训练周期为20，即训练集完全迭代20次就停止模型训练。

步骤(7-2-2)：每次迭代的batch_size设置为16，即一次训练16个语句序列。

所述步骤(7-3)的步骤为：

步骤(7-3-1)：设置全局变量best_f1＝0.0。

步骤(7-3-2)：训练集每迭代完成一次，将验证集的数据输入至当前模型进行预测，若取得的f1>best_f1，best_f1＝f1，保存当前模型。

在本实施例中，步骤(8)的步骤为：

步骤(8-1)：用户选择输入语句，按照步骤(3)、(4)、(5)对数据进行处理，得到模型输入序列，将其存入6维数组。

步骤(8-2)：加载训练好的实体识别模型，将步骤(8-1)的数组输入模型中，进行测试，输出实体类别索引序列。

步骤(8-3)：对比id2tag标签索引文件，将步骤(8-2)得到的实体类别索引序列转换为实体类别序列，返回给用户。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于ALBERT与多重词信息嵌入的命名实体识别方法，其特征是：包括以下步骤：

所述深度学习模型的训练过程包括：

根据已标注语料主题，进行未标注语料爬取；

构建深度学习模型，利用加强的字向量序列进行模型训练。

2.如权利要求1所述的一种基于ALBERT与多重词信息嵌入的命名实体识别方法，其特征是：根据已标注语料主题，进行未标注语料爬取的具体过程包括：

根据已标注数据主题，制定关键词表；

3.如权利要求1所述的一种基于ALBERT与多重词信息嵌入的命名实体识别方法，其特征是：获取预训练好的ALBERT语言模型，对全部语料进行预训练微调的具体过程包括：

4.如权利要求1所述的一种基于ALBERT与多重词信息嵌入的命名实体识别方法，其特征是：构建命名实体识别数据集，依据数据集构建多重词信息特征的具体过程包括：对已标注数据，采用“BIOES”标注体系对每个字符打上标签；

利用设定比例对上述数据生成训练集、验证集与测试集；

对训练集、测试集与验证集构建标签索引文件tag2id与id2tag；

5.如权利要求1所述的一种基于ALBERT与多重词信息嵌入的命名实体识别方法，其特征是：将字向量序列与多重词信息特征序列进行融合的具体过程包括：

6.如权利要求1所述的一种基于ALBERT与多重词信息嵌入的命名实体识别方法，其特征是：构建深度学习模型的具体过程包括：

将计算的状态输出进行调整，由二维数组转换为三维数组；

进行反向传播。

7.如权利要求1所述的一种基于ALBERT与多重词信息嵌入的命名实体识别方法，其特征是：利用加强的字向量序列进行模型训练的具体过程包括：

利用所述多维数据对模型进行训练；

8.一种基于ALBERT与多重词信息嵌入的命名实体识别系统，其特征是：包括：

9.一种电子设备，其特征是：包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7中任一项所述的方法中的步骤。

10.一种计算机可读存储介质，其特征是：用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7中任一项所述的方法中的步骤。