CN113779992A

CN113779992A - 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法

Info

Publication number: CN113779992A
Application number: CN202110813366.0A
Authority: CN
Inventors: 朱磊; 祝轩; 黑新宏; 张梓恒; 杨子梁; 高科研
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-12-10

Abstract

本发明公开了基于词汇增强和预训练的BcBERT‑SW‑BiLSTM‑CRF模型的实现方法。基于词汇增强的模型SW‑BiLSTM‑CRF，并以构建的语料库作为训练数据进行训练，得到的模型作为数据矫正的依据，迭代语料库。在此基础上，使用基于预训练语言模型的命名实体识别方法进行跨领域的知识迁移，来一定程度地减弱由于数据规模小造成的识别误差。使用建筑领域其他规范文本在BERT通用领域预训练模型上继续进行深度预训练，得到BcBERT(Building Code BERT)，从而将通用领域和建筑领域其他规范文本的知识迁移至SW‑BiLSTM‑CRF模型。以有效提升地铁设计规范命名实体识别任务的性能。

Description

基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法

技术领域

本发明是地铁领域实体识别和实体关系抽取研究的一个重要过程，具体涉及到基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法。

背景技术

随着计算机科学技术发发展，自然语言处理领域在深度学习方向也得到了具有现实意义和应用前景的进展，而对于自然语言处理，要做到精细深度的语义理解，单纯的依靠人工的方法进行数据标注与算力投入无法解决本质问题。

目前，对于地铁领域实体识别和实体关系抽取的研究正处于起步阶段，没有针对地铁设计规范文本对应的公开权威的语料库。根本原因在于，规范中的内容涉及专业多，情况多，关系复杂，使得专业领域人员和具备自然语言处理技术的人都无法单独展开工作。因此，基于机器学习的方法无法获得有效的标注语料。因此需要相关的模型算法来优化提升机器的实体关系识别的能力。

发明内容

本发明的目的在于提供基于词汇增强和预训练的 BcBERT-SW-BiLSTM-CRF模型的实现方法。解决了现有技术中存在的地铁设计规范命名实体识别准确性不高的问题。

基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法，本发明首先经过动态引入的SW-BiLSTM-CRF模型；然后使用基于预训练语言模型的命名实体识别方法进行跨领域的知识迁移实现 BcBERT,最终实现BcBERT-SW-BiLSTM-CRF的模型。

SW-BiLSTM-CRF模型，主要分为输入层、查找层、特征提取层、数据投射层和输出层五个模块。

输入层的字需要提前做如下处理：以BIO标注体系标注的文本文档作为框架的输入，并进行字和标签的统计，以词频进行编号，分别得到字到编号、编号到字、标签到编号和编号到标签四个字典；输入层实际的输入是根据字到编号的这个字典，得到的句子编号序列，其中还需要用特殊字符0来补齐句子，使每条句子长度一致。词汇增强的设计在这一层需要得到词的边界信息和词信息的编号序列。词的边界信息借助四个离散的编号来实现，编号分别代表不属于实体，实体的始末，以及实体的中间位置，词信息的处理和字处理的方式类似。

查找层主要工作是将输入层的句子编号序列用向量进行表征；提前准备一个字、词边界和词对应的三个向量矩阵，例如字向量矩阵中，矩阵的行表示一个个字的表征向量；这些向量可以采用随机初始化的方法，从一个区间均匀分布中生成随机数字，也可以是预训练得到的向量文件。如果是后者，则需要使用输入层中预处理得到的编号到字的字典，查出编号对应的字，然后去预训练向量文件中查找对应的向量。最后将字、词边界和词信息进行拼接作为下一层的输入。

特征提取层主要工作是基于给定的核心特征集合，字、词边界和词，让模型自动选择更重要的特征组合或者学习更深层次的抽象特征。为了同时兼顾上下文信息，这一层使用双向LSTM网络，包括前向和后向的链式结构。前向LSTM用于获取过去时刻对当前时刻的影响，而后向则获取未来时刻对当前时刻的影响。将每个时刻的正反向输出进行拼接，得到这一层的输出向量。

数据投射层工作是将特征提取层得到的特征向量进行维度投射，特征向量是根据BiLSTM结构配置的一个高维度向量，这一层通过一个全连接层将该高维向量投射到标签维度上，向量大小为[批大小 (batch size)*序列长度(sequence length)*标签数量(label number)]，这样就得到了每个标签的得分情况。

输出层的主要工作是根据数据投射层得到的标签得分，选择分数最高的标签作为最终预测的标签。但是仅仅依靠得分进行预测会存在标签转移错误的问题，因此通常会在这一层使用CRF算法来进一步约束标签的转移关系，修正预测结果。CRF算法以路径为单位，考虑路径的概率，将序列标注看作1个kⁿ(k是类别个数，n是句子长度) 的分类问题，实际训练过程中采用最大似然估计方法来寻找最优的标注序列。

BcBERT-SW-BiLSTM-CRF模型中词汇增强的部分具体为：

当观测序列，即输入序列为X＝x₀,x₁,...,x_n，状态序列，即输出标签序列为Y＝y₀,y₁,...,y_n的概率为：

z(x)＝∑_yexp(∑_kλ_k∑_it_k(y_i-1，y_i，x，i)+∑_lμ_l∑_is_l(y_i，x，i)) (4-2)

公式(4-1)实现了从特征到概率的转化，t_k(y_i-1，y_i，x，i)是定义在边上的特征函数，代表标签转移特征，s_l(y_i，x，i)是定义在节点上的特征函数，代表状态特征，特征函数的取值为1或0。λ_k和μ_l分别是两个特征对应的权重。z(x)是规范化因子，对y的所有可能取值求和。训练过程中，采用最大似然估计得到损失函数：

loss＝-log(P(Y＝y|x))，使用梯度下降算法进行学习，最终选取得分最高的Y作为X的标注序列。

具体实现的过程：

步骤1：选择BIO的标注方式。

步骤2：提出了基于词汇增强的SW-BiLSTM-CRF模型，向 BiLSTM-CRF模型中动态引入了词的边界信息和词的嵌入信息；

步骤3：使用BERT预训练，将已有的部分土木建筑信息文本语料输入构造BERT输入特征。

步骤4：使用BERT作为文本编码器，在通用领域预训练模型基础上，继续进行建筑语料文本深度预训练，构建基于 BcBERT-SW-BiLSTM-CRF的命名实体识别模型。

本发明的有益效果是：

本发明使用基于预训练语言模型的命名实体识别方法进行跨领域的知识迁移，来一定程度地减弱由于数据规模小造成的识别误差。使用建筑领域其他规范文本在BERT通用领域预训练模型上继续进行深度预训练，得到BcBERT(Building Code BERT)，从而将通用领域和建筑领域其他规范文本的知识迁移至SW-BiLSTM-CRF模型。以有效提升地铁设计规范命名实体识别任务的性能。

附图说明：

图1为本发明基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF 模型的实现方法的设计步骤

图2为基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法SW-BiLSTM-CRF模型的结构图

图3为基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法BERT输入示例

图4为基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法BcBERT-SW-BiLSTM-CRF模型的模型框架

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

BcBERT-SW-BiLSTM-CRF模型中词汇增强的部分具体为：

公式(4-1)实现了从特征到概率的转化，t_k(y_i-1，y_i，x，i)是定义在边上的特征函数，代表标签转移特征，s_l(y_i，x，i)是定义在节点上的特征函数，代表状态特征，特征函数的取值为1或0。λ_k和μ_l分别是

具体实现的过程：

步骤1：选择BIO的标注方式。

步骤2：提出了基于词汇增强的SW-BiLSTM-CRF模型，向 BiLSTM-CRF模型中动态引入了词的边界信息和词的嵌入信息。

如图2所示，模型主要分为输入层、查找层、特征提取层、数据投射层和输出层五个模块，下面分别介绍这五个模块和模型中词汇增强的部分。

1)输入层

模型以句子序列中的字为单位作为输入，输入层的字需要提前做这样的处理：以BIO标注体系标注的文本文档作为框架的输入，并进行字和标签的统计，以词频进行编号，分别得到字到编号、编号到字、标签到编号和编号到标签四个字典。输入层实际的输入是根据字到编号的这个字典，得到的句子编号序列，其中还需要用特殊字符，例如 0来补齐句子，使每条句子长度一致。词汇增强的设计在这一层需要得到词的边界信息和词信息的编号序列。词的边界信息借助四个离散的编号来实现，编号分别代表不属于实体，实体的始末，以及实体的中间位置，词信息的处理和字处理的方式类似。

2)查找层

这一层主要工作是将输入层的句子编号序列用向量进行表征。提前准备一个字、词边界和词对应的三个向量矩阵，例如字向量矩阵中，矩阵的行表示一个个字的表征向量。这些向量可以采用随机初始化的方法，例如从一个区间均匀分布中生成随机数字，也可以是预训练得到的向量文件。如果是后者，则需要使用1)中预处理得到的编号到字的字典，查出编号对应的字，然后去预训练向量文件中查找对应的向量。最后将字、词边界和词信息进行拼接作为下一层的输入。

3)特征提取层

这一层的主要工作是基于给定的核心特征集合，字、词边界和词，让模型自动选择更重要的特征组合或者学习更深层次的抽象特征。为了同时兼顾上下文信息，这一层使用双向LSTM网络，包括前向和后向的链式结构。前向LSTM用于获取过去时刻对当前时刻的影响，而后向则获取未来时刻对当前时刻的影响。将每个时刻的正反向输出进行拼接，得到这一层的输出向量。

4)数据投射层

这一层的工作是将特征提取层得到的特征向量进行维度投射，特征向量是根据BiLSTM结构配置的一个高维度向量，这一层通过一个全连接层将该高维向量投射到标签维度上，向量大小为[批大小 (batch size)*序列长度(sequence length)*标签数量(label number)]，这样就得到了每个标签的得分情况。

5)输出层

这一层的主要工作是根据数据投射层得到的标签得分，选择分数最高的标签作为最终预测的标签。但是仅仅依靠得分进行预测会存在标签转移错误的问题，因此通常会在这一层使用CRF算法来进一步约束标签的转移关系，修正预测结果。CRF算法以路径为单位，考虑路径的概率，将序列标注看作1个kⁿ(k是类别个数，n是句子长度) 的分类问题，实际训练过程中采用最大似然估计方法来寻找最优的标注序列。

公式(4-1)实现了从特征到概率的转化，t_k(y_i-1，y_i，x，i)是定义在边上的特征函数，代表标签转移特征，s_l(y_i，x，i)是定义在节点上的特征函数，代表状态特征，特征函数的取值为1或0。λ_k和μ_l分别是两个特征对应的权重。z(x)是规范化因子，对y的所有可能取值求和。训练过程中，采用最大似然估计得到损失函数

步骤3：使用BERT预训练，将已有的部分土木建筑信息文本语料输入构造BERT输入特征。如图3所示，BERT输入包含三个嵌入特征，分别是字嵌入、上下句嵌入和位置嵌入。字嵌入构造采用 WordPiece过程，将输入的词拆开，使得词表更加精简，意义更加明确，是一种解决不在字典中(Out Of Vocabulary，OOV)问题的方法，拆词过程采用双字节编码(Byte Pair Encoding，BPE)实现。具体地，在包含英文单词的中文文本中，将中文部分分割为单字，英文单词分割为子词，比如testing分成test和##ing，##表示分词。这些分割好的块是BERT语言模型训练时遮盖的最小单位，同时，将拼接的两个句子使用特殊符号[SEP]进行区分，第二个句子末尾也会加上该符号。[CLS]是模型表示开始的特殊符号，表示句首位置。

上下句嵌入是针对句子关系判断类任务的输入构造，EA部分是必须的，EB部分是可选的，0表示第一句话，1表示第二句话。监督信息在[CLS]标志中体现，如果后者为空则变成单句分类任务。位置嵌入是字在句子中的绝对位置信息，且BERT支持的序列长度上限为 512。最后，将这三层嵌入编码相加作为输入表征向量，持久化到 TFRecord格式的二进制文件中。

步骤4：如图4所示，使用BERT作为文本编码器，在通用领域预训练模型基础上，继续进行建筑语料文本深度预训练，构建基于 BcBERT-SW-BiLSTM-CRF的命名实体识别模型，模型主要由预训练文本表征层和完成命名实体识别任务的特征提取层两个模块构成。BcBERT是进行了建筑语料文本深度训练的领域预训练模型，融合了与地铁设计规范相关的无监督建筑语料文本的相关知识，使预训练语言模型具备一定的领域适配性，更适合下游地铁设计规范的命名实体识别任务。

Claims

1.基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法，其特征在于，本发明首先经过动态引入的SW-BiLSTM-CRF模型；然后使用基于预训练语言模型的命名实体识别方法进行跨领域的知识迁移实现BcBERT,最终实现BcBERT-SW-BiLSTM-CRF的模型。

2.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法，其特征在于，所述SW-BiLSTM-CRF模型，主要分为输入层、查找层、特征提取层、数据投射层和输出层五个模块。

3.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法，其特征在于，所述输入层的字需要提前做如下处理：以BIO标注体系标注的文本文档作为框架的输入，并进行字和标签的统计，以词频进行编号，分别得到字到编号、编号到字、标签到编号和编号到标签四个字典；输入层实际的输入是根据字到编号的这个字典，得到的句子编号序列，其中还需要用特殊字符0来补齐句子，使每条句子长度一致。词汇增强的设计在这一层需要得到词的边界信息和词信息的编号序列。词的边界信息借助四个离散的编号来实现，编号分别代表不属于实体，实体的始末，以及实体的中间位置，词信息的处理和字处理的方式类似。

4.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法，其特征在于，所述查找层主要工作是将输入层的句子编号序列用向量进行表征；提前准备一个字、词边界和词对应的三个向量矩阵，例如字向量矩阵中，矩阵的行表示一个个字的表征向量；这些向量可以采用随机初始化的方法，从一个区间均匀分布中生成随机数字，也可以是预训练得到的向量文件。如果是后者，则需要使用输入层中预处理得到的编号到字的字典，查出编号对应的字，然后去预训练向量文件中查找对应的向量。最后将字、词边界和词信息进行拼接作为下一层的输入。

5.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法，其特征在于，所述特征提取层主要工作是基于给定的核心特征集合，字、词边界和词，让模型自动选择更重要的特征组合或者学习更深层次的抽象特征。为了同时兼顾上下文信息，这一层使用双向LSTM网络，包括前向和后向的链式结构。前向LSTM用于获取过去时刻对当前时刻的影响，而后向则获取未来时刻对当前时刻的影响。将每个时刻的正反向输出进行拼接，得到这一层的输出向量。

6.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法，其特征在于，所述数据投射层工作是将特征提取层得到的特征向量进行维度投射，特征向量是根据BiLSTM结构配置的一个高维度向量，这一层通过一个全连接层将该高维向量投射到标签维度上，向量大小为[批大小(batch size)*序列长度(sequence length)*标签数量(label number)]，这样就得到了每个标签的得分情况。

7.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法，其特征在于，所述输出层的主要工作是根据数据投射层得到的标签得分，选择分数最高的标签作为最终预测的标签。但是仅仅依靠得分进行预测会存在标签转移错误的问题，因此通常会在这一层使用CRF算法来进一步约束标签的转移关系，修正预测结果。CRF算法以路径为单位，考虑路径的概率，将序列标注看作1个kⁿ(k是类别个数，n是句子长度)的分类问题，实际训练过程中采用最大似然估计方法来寻找最优的标注序列。

8.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法，其特征在于，所述BcBERT-SW-BiLSTM-CRF模型中词汇增强的部分具体为：

当观测序列，即输入序列为X＝x₀，x₁，...，x_n，状态序列，即输出标签序列为Y＝y₀，y₁，...，y_n的概率为：

9.根据权利要求1所述基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法，其特征在于，BcBERT-SW-BiLSTM-CRF模型的具体实现的过程：

步骤1：选择BIO的标注方式。

步骤2：提出了基于词汇增强的SW-BiLSTM-CRF模型，向BiLSTM-CRF模型中动态引入了词的边界信息和词的嵌入信息；

步骤4：使用BERT作为文本编码器，在通用领域预训练模型基础上，继续进行建筑语料文本深度预训练，构建基于BcBERT-SW-BiLSTM-CRF的命名实体识别模型。