CN112270193A

CN112270193A - 基于bert-flat的中文命名实体识别方法

Info

Publication number: CN112270193A
Application number: CN202011201643.4A
Authority: CN
Inventors: 张璞; 王重阳; 刘华东; 熊安萍
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-01-26

Abstract

本发明涉及自然语言处理领域，具体涉及一种基于BERT‑FLAT的中文命名实体识别方法，包括：将任意中文句子输入训练好的实体识别模型中，输出训练集中每个句子的词性标注结果，得到命名实体识别结果。本发明基于BERT‑Flat‑Lattice‑CRF的实体识别模型，BERT预训练语言模型和Flat‑Lattice结构，从大规模语料库中学习的BERT预训练语言模型可以通过上下文计算单词的向量表征，可以表征单词的多义性，增强句子的语义表征；Flat‑Lattice结构引入了词汇信息，充分地挖掘出文本中潜在的隐藏信息，达到词汇增强效果，显著地提升了中文命名实体识别的准确率。

Description

基于BERT-FLAT的中文命名实体识别方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于BERT-FLAT的中文命名实体识别方法。

背景技术

命名实体识别(NER)技术可用于识别文本中的特定实体信息，如人名、地名、组织名称等，它广泛应用于信息抽取、信息检索、智能问答、机器翻译等领域。通常，命名实体识别任务被形式化为序列标记任务，并且通过预测每个单词或每个单词的标记来联合预测实体边界和实体类型。

随着神经网络的迅速发展，不依赖人工特征的端到端方案逐渐成为NER技术的主流。首先是基于单向长短期记忆(LSTM)神经网络的LSTM-CRF模型。基于LSTM优秀的序列建模功能，LSTM-CRF成为命名实体识别的基础框架之一，很多方法是以LSTM-CRF为主体框架，整合各种相关功能。例如，加入手工拼写特征、使用文字CNN提取文字特征、或使用字符级LSTM。还有基于CNN的命名实体识别方案，如CNN-CRF结构，或者基于CNN-CRF，使用字符CNN提出的增强模型。还有利用空洞卷积网络(IDCNN-CRF)的命名实体识别方案，它可以在提取序列信息的同时加快训练速度。也有以BiLSTM-CRF模型为基础，利用注意力机制获取全文范围内的单词上下文或者采用GRU计算单元，提出双向GRU为基础的命名实体识别方法。

一方面，传统方法普遍存在的问题是不能代表词的多义性。例如，在“这两批货物都是打折出售的，严重折本，他再也受不了这种折腾”这句话中，三个“折”字表达的意思不同，但在以上方法字的向量表示法中，这三个字的向量是完全一样的，这与客观事实不符。另一方面，通过字级别和词级别统计方法的比较可以发现，基于字符的命名实体识别方法通常优于基于词的命名实体方法。但基于字符的命名实体识别方法没有利用词汇信息，而词汇边界对于实体边界通常起着至关重要的作用。

发明内容

为了解决上述问题，本发明提供一种基于BERT-FLAT的中文命名实体识别方法。

一种基于BERT-FLAT的中文命名实体识别方法，包括以下步骤：将任意中文句子输入训练好的实体识别模型中，模型输出训练集中每个句子的词性标注结果，得到命名实体识别结果，其中，实体识别模型先训练后使用，其训练过程如下：

S1、数据集预处理，得到预处理后的数据集，将预处理后的数据集按照2:1:1分为训练集、验证集和测试集；

S2、将训练集输入到BERT模型中进行处理，得到输出序列向量；

S3、将BERT层的输出作为字符嵌入Character embedding输入到Flat-Lattice模型进行编码，得到编码序列；

S4、将Flat-Lattice层的输出结果输入到CRF模型进行分词序列预测，得到每个单词的预测标签，对预测标签进行筛选，得到最优预测标签序列和初始实体识别模型；采用正向传播和反向传播修改、更新初始实体识别模型各层神经元的参数值以及连接权重，通过验证集确定参数的最佳值，最小化最优预测标签序列与真实标签序列之间的误差，得到训练好的实体识别模型；

S5、得到训练好的实体识别模型后，使用测试集对训练好的实体识别模型进行测试，评价实体识别的效果。

进一步的，将训练集输入到BERT模型中进行处理包括：

S21、按照BERT模型的要求设定最大序列长度，根据此参数对输入序列进行填充Padding；

S22、进行分词处理，得到分词文本序列；

S23、随机选择分词文本序列的部分词进行掩码Mask操作；

S24、在序列的开头添加一个特殊标记[CLS]，句子间用标记[SEP]分隔，再将序列向量输入到双向Transformer进行特征提取，得到含有丰富语义特征的序列向量。

进一步的，将序列向量输入自注意力模块进行处理包括：自注意力模块中包含多头注意力机制，多头注意力机制函数表达式如下：

将多头注意力机制得到的不同Attention结果拼接起来，得到最终输出序列向量，如下式所示：

MultiHead(Q,K,V)＝Concat(head₁,head₂,...,head_h)W^o

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中，Attention(·)为单词的Attention分数归一化后的值，Q,K,V分别为查询向量，键向量，值向量，d_k为键向量的维数；MultiHead(·)为得到的最终输出序列向量，head_h为第h次投影得到的Attention值，h为投影的次数，W^o为附加的权重矩阵，Concat(·)为向量拼接，W_i ^Q为Q向量训练权重矩阵，W_i ^K为K向量训练权重矩阵，W_i ^V为V向量训练权重矩阵。

进一步的，Flat-Lattice模型进行编码包括：

S31、将BERT层的输出作为字符嵌入Character embedding，通过Lookup table构建词汇嵌入Word embedding，为每个字符和词汇都创建一个Head position encoding和Tail position encoding；

S32、将上述字符嵌入Character embedding和词汇嵌入Word embedding输入到Flat-Lattice模型中，计算x_i和x_j之间的相对位置编码；

利用线性变换公式确定最终相对位置编码，得到编码序列，线性变换公式如下所示：

其中，x_i和x_j表示第i个Token和第j个Token，其中，

表示x_i的Head到x_j的Head距离，head[i]表示x_i的Head，head[j]表示x_j的Head，tail[j]表示x_j的Tail，tail[i]表示x_i的Tail，

表示x_i的Head到x_j的Tail距离，

表示x_i的Tail到x_j的Head距离，

表示x_i的Tail到x_j的Tail距离；R_ij表示相对位置编码结果向量，ReLU是激活函数，W_r是一个可学习的参数，

表示连接算子，p_d表示嵌入的位置向量，d是

或者

中的任意一个值，d_model表示需要映射成的向量维度，k为位置编码的维数指标。

进一步的，对预测标签进行筛选包括：对预测标签序列进行评分，将评分最高的序列作为预测标签序列，评分计算公式如下：

其中，s(x,y)表示标签序列的得分值，n表示字符的个数，

表示从y_i-1到y_i标签转移分数，

表示该字符的第y_i个标签的分数，W是转换矩阵，h^(t)是Flat-Lattice层t时刻输入数据x^(t)的隐藏状态，b是偏置量；

利用最大条件似然估计法最小化预测标签序列与真实标签序列之间的误差，

其中，L表示损失函数，a表示采用的对数底数，λ为优化参数，θ为分布参数，P为原序列到预测序列对应的概率。

本发明的有益效果：

1.本发明提出了BERT-Flat-Lattice-CRF实体识别模型。由于BERT预训练语言模型具有很强的语义表达能力，可以对多义词进行建模，解决了词的多义性问题；Flat-Lattice结构在中文命名实体识别中引入了词汇信息，这种方法充分地挖掘了文本中潜在的隐藏信息，达到了词汇增强的目的。因此，基于此本发明的实体识别模型可以显著地提高中文命名实体的识别的准确率。

2.与传统的命名实体识别模型相比，本发明基于BERT-Flat-Lattice-CRF的实体识别模型的主要区别在于：BERT预训练语言模型和Flat-Lattice结构，从大规模语料库中学习的BERT预训练语言模型可以通过上下文计算单词的向量表征，可以表征单词的多义性，增强句子的语义表征；Flat-Lattice结构引入了词汇信息，充分地挖掘出文本中潜在的隐藏信息，达到词汇增强效果，显著地提升了中文命名实体识别的准确率。

附图说明

下面结合附图和具体实施方式对本发明做进一步详细的说明。

图1为本发明实施例的一种基于BERT-Flat-Lattice-CRF的实体识别模型的整体结构图；

图2为本发明实施例的一种BERT模型预训练语言流程图；

图3为本发明实施例的一种Flat-Lattice Transformer结构图；

图4为本发明实施例的一种Flat-Lattice单元结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于BERT-FLAT的中文命名实体识别方法，包括但不限于以下步骤：

S1、数据集预处理，得到预处理后的数据集，将预处理后的数据集分为训练集、验证集和测试集。

原始数据集采用微软亚洲研究院的MSRA中文命名实体识别数据集，该数据集有5万条数据，包含了地点、机构和人物三种类型的数据，涉及到体育、教育、医疗、文化、生活、娱乐等多个方面。对原始数据集的预处理包括：将原文本拆分成一系列的汉字，并对每个汉字采用BIO方式进行词性标注，得到预处理后的数据集。其中”B”表示该汉字是词汇开始字符，同时也可以表示单字词；“I”表示该汉字是词汇的中间字符；“O”表示该汉字不在词汇当中。然后将预处理后的数据集按照2:1:1分为训练集、验证集和测试集。

S2、将训练集输入到BERT模型中进行语言实体识别模型的预训练处理，得到最终输出序列向量，处理过程包括：

S21、如图2所示，根据BERT模型的要求设定最大序列长度，根据此参数对输入序列进行填充Padding，使得输入输出序列的长度一致；

S22、首先通过分词处理得到分词文本序列；

S23、然后对分词文本序列的部分词随机进行掩码Mask操作；

S24、在序列的开头添加一个特殊标记[CLS]，句子间用标记[SEP]分隔，再将序列向量输入到双向Transformer进行特征提取，得到含有丰富语义特征的序列向量；

S25、将含有丰富语义特征的序列向量输入自注意力模块，编码单元最主要的模块是自注意力(Self-Attention)部分，自注意力模块中包括多头注意力机制，多头注意力机制函数表达式包括：

其中，Attention(·)为单词的Attention分数归一化后的值，Q,K,V分别为查询向量，键向量，值向量，d_k为键向量的维数；

为了防止过拟合，将多头注意力机制得到的不同Attention结果拼接起来，得到最终输出序列向量，计算表达式如下所示：

MultiHead(Q,K,V)＝Concat(head₁,head₂,...,head_h)W^o

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中，MultiHead(·)为得到的最终输出序列向量，head_h为第h次投影得到的Attention值，h为投影的次数，W^o为附加的权重矩阵，Concat(·)为向量拼接，W_i ^Q为Q向量训练权重矩阵，W_i ^K为K向量训练权重矩阵，W_i ^V为V向量训练权重矩阵。

S3、将BERT层的输出作为字符嵌入Character embedding输入到Flat-Lattice模型进行编码，得到编码序列。

S31、首先通过Lookup table构建词汇嵌入Word embedding,如图3所示，然后为每个字符和词汇都创建一个头部位置编码Head position encoding和尾部位置编码Tailposition encoding，分别表示字或者词的开头以及结尾位置。如图4所示，Flat-Lattice模型使用相对位置编码，使用稠密向量来表达x_i和x_j之间的相对位置关系，如下式所示：

其中，x_i和x_j表示第i个Token和第j个Token，

表示x_i的Head到x_j的Tail距离，

表示x_i的Tail到x_j的Head距离，

表示x_i的Tail到x_j的Tail距离。

根据x_i和x_j之间的相对位置关系计算x_i和x_j之间的最终相对位置编码，跨度的最终相对位置编码是四个距离的一个简单的非线性变换，表达式如下：

其中，R_ij表示相对位置编码结果向量，ReLU是激活函数，W_r是一个可学习的参数，

表示连接算子，p_d表示嵌入的位置向量，其计算如下所示：

其中，d是

或者

最后，把BERT层的输出作为Character embedding和构建好的Word embedding输入到Flat-Lattice层的Transformer进行编码，得到编码序列。

S4、Flat-Lattice层的输出结果(编码序列)输入到CRF模型进行分词序列预测，得到每个单词的预测标签，对预测标签进行筛选，得到最优预测标签序列和初始实体识别模型。为了提高实体识别模型的准确率，网络经过正向传播和反向传播，不断修改、更新初始实体识别模型各层神经元的参数值以及连接权重，通过验证集确定参数的最佳值，使误差值达到最小，即最小化最优预测标签序列与真实标签序列之间的误差，得到训练好的实体识别模型。

在一个实施例中，对预测标签进行筛选，得到最优预测标签序列包括：对预测标签序列进行评分，将评分最高的序列作为最优预测标签序列。

利用CRF模型对预测标签序列进行评分，本实施例提供一种评分的具体计算方式如下：

其中，s(x,y)表示标签序列的得分值，n表示字符的个数，W_i,j表示标签转移分数，

表示该字符的第y_i个标签的分数。

定义如下：

其中，W是转换矩阵，h^(t)是Flat-Lattice层t时刻输入数据x^(t)的隐藏状态，b是偏置量。

最小化预测标签序列与真实标签序列之间的误差包括：利用最大条件似然估计法最小化预测标签序列与真实标签序列之间的误差，计算表达式如下所示：

得到训练好的实体识别模型后，使用测试集对训练好的实体识别模型进行测试，可以验证该模型的实体识别效果。实体识别模型的使用：输入任意中文句子，找到序列的最优预测标签序列，得到每个句子的词性标注结果，从而获得命名实体识别结果。

当介绍本申请的各种实施例的步骤时，冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个步骤。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的步骤之外，还可以有其它步骤。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

以上所述仅是本申请的具体实施方式，应当指出，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。