CN110032737A

CN110032737A - 一种基于神经网络的边界组合命名实体识别方法

Info

Publication number: CN110032737A
Application number: CN201910282991.XA
Authority: CN
Inventors: 陈艳平; 武乐飞; 扈应; 秦永彬
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2019-07-19
Anticipated expiration: 2039-04-10
Also published as: CN110032737B

Abstract

本发明公开了一种基于神经网络的边界组合命名实体识别方法，包括以下步骤：步骤一：基于神经网络模型抽取实体边界信息，构建边界识别模型；步骤二：实施边界组合策略，对实体边界进组合，获取候选实体集；步骤三：构建神经网络分类器，对候选实体集进行筛选。本发明所公开的方法，采用边界组合策略，引入神经网络技术，充分发挥神经网络分层自动提取高维抽象特征的特点，将实体识别分为边界识别、边界组合和候选实体识别三步，弥补了传统序列模型的缺点，并且在一定程度上避免传统机器学习方法产生的特征稀疏问题，从而提高了嵌套命名实体识别的性能，取得了很好的效果。

Description

一种基于神经网络的边界组合命名实体识别方法

技术领域

本发明涉及一种命名实体识别方法，尤其涉及一种基于神经网络的边界组合命名实体识别方法，属于自然语言处理和机器学习技术领域。

背景技术

随着计算机的普及以及互联网的迅猛发展，大量的信息以电子文档的形式出现在人们面前。为了应对信息爆炸带来的严峻挑战，迫切需要专业的自动化工具从海量的数据中提取真正有价值的信息，信息抽取应运而生。命名实体指的是文本中表示人名、地名和组织名的专有名词，作为文本中重要的语义知识载体，命名实体识别在信息抽取中扮演重要角色，其作为信息抽取的一个子任务被提出之后，便受到学术界的高度重视，并进行了一系列的广泛研究，其主要目的是对文本中表示命名实体的专有名词进行精确识别和分类，进一步地为自动问答、意见挖掘、语义分析等众多自然语言处理任务提供重要的语义支撑。

命名实体是以连续字符的表现形式存在。不可避免地，命名实体存在嵌套现象，即在一个命名实体内部，存在着多个具有嵌套结构的实体，如“中华人民共和国科技部”中存在的“中华人民共和国科技部”、“中华人民共和国”以及“科技部”三个命名实体。由嵌套结构产生的不同实体往往富含不同的语义信息，为保证原始文本语义的完整性，对多层嵌套的每一个实体进行有效的识别和分类是必要的。

当前针对嵌套命名实体识别有三类方法：序列模型、语法解析模型和嵌套模型。序列模型在句子级别通过每一个字符设置标记，以获取最大概率的标注路径，但无法有效识别内部嵌套实体；语法解析通过使用语法解析树进行识别，但是常常依赖于语法解析的效果；基于嵌套的模型可以较好地应对命名实体识别的嵌套问题。但这些方法都有四点不足：首先，都是在句子展开任务，存在特征稀疏的问题；其次，在序列模型中，改变内部(或外部)实体的注释，将不利于特征加权；再者，对不同的类分别处理将无法有效使用标记信息；最后，实体识别在一定程度上受到分词或者语法解析带来的级联错误影响。

发明内容

本发明要解决的技术问题是：提供一种基于神经网络的边界组合命名实体识别方法，充分利用具有更细粒度的实体边界，采用边界组合策略，引入神经网络技术，充分发挥神经网络分层自动提取高维抽象特征的特点，将实体识别分为边界识别、边界组合和候选实体识别三步，弥补了传统序列模型的缺点，并且在一定程度上避免传统机器学习方法产生的特征稀疏问题，从而提高了嵌套命名实体识别的性能，解决了上述存在的问题。

本发明的技术方案为：一种基于神经网络的边界组合命名实体识别方法，所述方法包括以下步骤：步骤一：基于神经网络模型抽取实体边界信息，构建边界识别模型；步骤二：实施边界组合策略，对实体边界进组合，获取候选实体集；步骤三：构建神经网络分类器，对候选实体集进行筛选。

所述步骤一中，本步骤基于经典BiLSTM-CRF模型，结合BERT预训练技术，建立用于实体边界信息识别的神经网络模型，本步骤的预期结果是获得精准实体边界分类结果，并进行本地持久化，实现了多层嵌套命名实体边界信息的获取。

所述步骤二中，在实体边界识别的基础上，实施边界组合策略，将多层嵌套结构的实体结构转化为互相独立的扁平化实体结构，边界组合的具体定义为：

当前序列(长度为n)中，存在实体边界：

B_i，其中i＝0，1，2，3……n

E_j，其中j＝0，1，2，3……n

则产生候选实体：

Candidate(x)＝Assemble(B_i，E_j)，其中i＝0，1，2，3……n，j＝0，1，2，3……n，i＜j

Sample(y)＝SenSplit(index(B_i)，index(E_j))，其中i，j∈Tuple(Candidate(x))

其中，Candidate(x)为产生的候选实体，Sample(y)为每一个序列被候选实体分割的样本输入。

步骤二实施边界组合策略，在已知实体边界信息的基础上，生成候选实体集，以每个候选实体为标记逐个将句子序列分为三部分：候选实体左侧部分序列、候选实体序列和候选实体右侧序列，候选实体集作为候选实体筛选部分的输入数据。

所述步骤三中，采用卷积神经网络模型，输入数据为步骤二中实施边界组合策略所产生的候选实体集。候选实体集样本的三段形式对应不同的卷积核，在分段卷积之后通过全连接层和softmax层，完成候选实体的筛选。

采用ACE2005中文标准数据集，可对上述方法进行验证其有效性，首先通过上述步骤一获取命名实体边界信息，其次通过上述步骤二得到候选实体样本输入数据，最后通过步骤三中已构建的神经网络分类器，对候选实体集进行筛选，实现对嵌套多层命名实体有效识别和精准分类，以验证方法的有效性，评价标准采用准确率(P)、召回率(R)、F1值，其中F＝2*P*R/(P+R)。

本发明的有益效果是：与现有技术相比，采用本发明的技术方案，将实体识别分为三步：边界识别、边界组装、候选实体筛选。实体边界相对实体具有更小的粒度，用来标识实体的开始和结束。实验表明，相对于实体序列的获取，实体边界的识别和分类具有相对较高的性能。本发明所提出的方法有效发挥了神经网络分层次自动抽取抽象特征的特点和有效防止特征稀疏问题的能力，可以实现有效利用实体边界所蕴含的语义信息，将实体长序列的获取转换为仅对单个字符的处理，由于单字符处理具有较高的性能，从而可以在根本上保留更多的语义信息；边界组合策略的重要意义在于，将传统序列模型下对实体序列的预测，拆分为若干个步骤，从细粒度的实体边界入手，有效减少了语义信息的损失，破解了分层嵌套结构，借助于更具有扁平化的候选实体结构和分类器，进一步高效实现实体的分类；基于神经网络的候选实体筛选，可以进一步挖掘潜在的语义信息，在边界组成的候选实体的基础上，从候选集合中筛选出实体正例，完成针对嵌套命名实体识别和分类。

本发明所提出的方法将神经网络分层次自动抽取抽象特征的特点和边界组合策略突破序列模型有效识别嵌套实体的特点相结合，在实体识别方面取得了优良的成绩，取得了很好的使用效果。

附图说明

图1为本发明的实施流程图；

图2为本发明的基于神经网络的边界组合命名实体识别模型图；

图3为本发明的边界组合策略示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将参照本说明书附图对本发明作进一步的详细描述。

实施例1：如附图1～3所示，一种基于神经网络的边界组合命名实体识别方法，所述方法包括以下步骤：步骤一：基于神经网络模型抽取实体边界信息，构建边界识别模型；步骤二：实施边界组合策略，对实体边界进组合，获取候选实体集；步骤三：构建神经网络分类器，对候选实体集进行筛选。

步骤一中，本步骤基于经典BiLSTM-CRF模型，结合BERT预训练技术，建立用于实体边界信息识别的神经网络模型，见附图2中下部虚线框中(A)部分。本步骤的预期结果是获得精准实体边界分类结果，并进行本地持久化，实现了多层嵌套命名实体边界信息的获取。

步骤二中，在实体边界识别的基础上，实施边界组合策略，将多层嵌套结构的实体结构转化为互相独立的扁平化实体结构，边界组合的具体定义为：

当前序列(长度为n)中，存在实体边界：

B_i，其中i＝0，1，2，3……n

E_j，其中j＝0，1，2，3……n

则产生候选实体：

步骤二实施边界组合策略，在已知实体边界信息的基础上，生成候选实体集，见附图2中的B部分及附图3。以每个候选实体为标记逐个将句子序列分为三部分：候选实体左侧部分序列、候选实体序列和候选实体右侧序列，候选实体集作为候选实体筛选部分的输入数据。

步骤三中，采用卷积神经网络模型，输入数据为步骤二中实施边界组合策略所产生的候选实体集。候选实体集样本的三段形式对应不同的卷积核，在分段卷积之后通过全连接层和softmax层，见附图2中上部虚线框中(C)部分，完成候选实体的筛选。

该方法的主要思想是首先使用神经网络模型识别实体边界，一定程度上减少语义信息的损失；然后是使用边界组合策略对实体边界进行组装，生成候选实体集，将嵌套实体的分层结构转化为形式上较为简单的扁平化结构，以便进一步挖掘语义信息；最后构建神经网络模型对候选实体集进行筛选，得到实体正例，完成嵌套实体的识别。

下面结合实施例对本发明作进一步的说明：

实行本发明的方法，首先执行步骤一，进行实体边界识别，构建 BERT-BiLSTM-CRF模型。

BERT预训练模型由双向Transform结构组成，该结构即可以进行长距离信息的捕捉，又可以发挥保证模型的并行性。通过使用海量数据进行训练，生成预训练模型，然后结合特定下游任务进行微调，为下游任务提供高质量的字嵌入表示；长短期记忆神经网络(LSTM)模型属于循环神经网络(RNN)的一个变种，可以有效处理长距离信息和避免梯度爆炸，广泛应用于解决序列问题；CRF网络层可以在LSTM的状态输出上标注一条最大的概率路径。本步骤的主要目的是识别细粒度的实体边界，可以将BiLSTM神经网络模型和CRF网络层结合使用，同时为了提高边界识别的性能，将BERT预训练技术与BiLSTM-CRF模型相结合，见附图2中下部虚线框中A部分，本步骤的输出的是嵌套实体边界识别结果。

在获取边界识别结果之后，执行步骤二，实施边界组装策略。

获取识别边界的识别结果之后开始边界组装方法的实施。边界组装方法的主要思想就是基于已识别的实体边界信息，将实体开始和实体结束边界进行配对，边界组合策略的实施有多种方式，见附图3，本方案使用组合方式A生成候选实体。得到匹配之后的候选实体序列，将多层嵌套的实体从传统序列标注模型中提取出来，以供进一步筛选。边界组合算法如下：

输入：File_B、File_E、File_nested_B、File_nested_E

输出：Candidate_simple_input

1.BLab,ELab←GetLab(FileB,FileE)；

2.BIdx,EIdx←GetIdx(BLab,ELab)

3.CEntity←Assemble(BIdx,EIdx)

4.TEntity,FEntity,TType←GetTEntity(FileNestedB、FileNestedE)；

5.TrueC,FalseC,TrueT←MatchC(CEntiy,TEntity,TType)

6.Candidate_simple_input←GenerateInput(Emb,TrueC,FalseC,TrueT)

上述算法中，GetLable()函数是从文本中读取数据的函数，主要功能是从边界识别结果持久化文件中抽取识别为开始和结束边界的辨识-“B”；GetIndex() 函数是边界标识索引获取函数，其主要功能是将GetLable()函数获取的边界标识转化为用整数标识的index列表，用以标识边界字符在文本序列中的位置； Assemeble()函数是边界组装函数，其其主要功能是根据边界字符的index设置，从一个结束边界开始向前匹配所有开始边界，生成元组形式的索引对，如 (B-index，E-index)表示一个候选实体；GetTrueEntity()函数是从边界嵌套序列文本中获取真实的实体信息，包括元组形式的边界索引对和对应的实体类型； MatchCandidate()函数是将Assemeble()函数获取的候选实体和真实实体交叉对比，从而将将整个候选实体集划分为候选实体正例和候选实体负例； GenerateInput()将包含正例和负例的候选实体集进行切分转化，形成候选实体筛选步骤的输入数据。

其次，执行步骤三，构建针对候选实体进行筛选的神经网络分类器：

基于BERT中文预训练模型，将已经划分好的数据集依次通过加载中文预训练模型的BERT网络，得到和数据集文本序列保持一致的Embedding查找表。

本步骤的目的是对边界组合产生的候选实体集进行筛选，识别出正例和负例，本发明通过构建神经网络分类器完成上述工作。在此步骤中的实践中，理论上可以使用任何的神经网络模型，包括但不限于RNN、CNN、LSTM或Transform 等。候选实体集包含的样本数据被候选实体划分为三部分，通过BERT-Embedding 查找表转化为三个数值矩阵。卷积神经网络(CNN)使用了一个带有局部连接和共享权值的卷积层，该层的输出通过一个非线性激活函数来获得激活响应，接着通过一个非线性池化层来减少数据量，最后在将池化层的输出连接到若干个全连接层。在此我们结合候选实体集数据和RNN的特点，选用卷积神经网络(RNN)模型构建神经网络分类器，见附图2中上部分虚线框中的C部分，完成候选实体集的筛选。

采用真实数据验证本发明方法的有效性，我们选用的数据是ACE2005标准中文数据集，首先要进行数据的预处理。

本实施例的文本语料来源于ACE2005中文数据集，该数据集共有33932个实体提及，其中最外部实体共有24731个，最内部实体共有25766个，命名实体分层嵌套现象相当普遍。数据集中实体类型共分为七种：FAC(基础设施)、GPE(地理政治实体)、LOC(地名)、ORG(组织名)、PER(人名)、VEH(交通工具)、WEA(武器)。整个数据集在文档级别进行随机打乱，按照6:2:2的划分比例，在文档级别分别将开始边界和结束边界数据集分为训练集、验证集、测试集，将数据集所有文本抽出并生成四类持久化文件：

1.包含实体边界标签的序列文本：标记实体的开始字符为“B”，得到开始边界数据集，标记实体的结束字符为“B”，得到结束边界数据集，作为 BERT-BiLSTM-CRF模型的输入，用以获取实体边界信息。

2.包含实体边界标签和嵌套信息的序列文本：生成仅包含边界标记数据集的同时，分别生成包含边界标记和嵌套信息的序列文本。在一个数据集文档内部，对所有实体进行编号，保证文档内部实体编码唯一，将边界(分别为开始和结束) 标记、实体序号和实体类型一同写入序列文本，如在开始边界数据中标记： B-1-12,GPE-PRE，同时在结束边界中标记：B-3-12,ORG-PER，则此句文本序列中，实体编号为12且实体类型是PER的字符序列组成一个实体。最终生成带有嵌套信息的开始边界数据和带有嵌套信息的结束边界数据，用以生成候选实体样本输入和作为候选实体筛选模型的数据输入。

3.包含有最外层和最内层实体的序列文本：对多层嵌套实体的最外层实体进行“B-I-O”的标记，生成outer-most数据，对多层嵌套实体的最内层实体进行“B-I-O”的标记，生成inner-most数据，用以对比实验。

4.仅包含一类实体的序列文本。

按照七种实体类型，分别生成七类数据集，每一类数据集仅仅包含一个实体类型的数据，用以对比实验。

将候选实体输入集输入CNN模型，得出实验结果，除此之外之外，同传统序列模型、级联、分层模型做了对比，数据如表1和表2所示：

表1序列模型下实体识别性能

其中Inner-most和Outer-most是使用BERT-BiLSTM-CRF模型分别仅对最内层实体和最外层实体识别结果性能。

表2各类嵌套识别模型性能

其中Shallow-BA是基于条件随机场(CRF)的边界组合命名实体识别模型的性能；Cascading-Out是基于LSTM序列模型每次识别一个类别的实体，分别构建7个(对应7个类)相互独立的模型，在7次识别结果之上综合得出上述性能，很显然这种方法无法考虑不同类别之间的联系，在一定程度上也无法识别多层嵌套实体；Layering-Out是分别计算最内层和最外层的性能，将两次识别的结果记性对比，可以识别两层嵌套实体，但同样无法捕捉到不同类别提供的语义信息。除Shallow-BA之外，上述各对比方法均使用了BERT-Embedding。

通过表1和表2可以看出，本发明所提出的基于神经网络的边界组合命名实体识别方法有以下优势：首先，边界组合策略有效克服了传统序列模型无法有效识别嵌套实体的缺点；其次，和传统机器学习下的边界组合模型相比，本发明有效发挥了神经网络多层次自动抽取抽象特征的特点，获取了更多的语义信息；再者，和Cascading-Out以及Layering-Out模型相比，本发明可以充分利用各种语义信息且不会丢失正例实体。综上，本发明提出的基于神经网络的边界组合命名实体识别方法具有优良的性能。

本发明未详述之处，均为本技术领域技术人员的公知技术。最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于神经网络的边界组合命名实体识别方法，其特征在于：所述方法包括以下步骤：步骤一：基于神经网络模型抽取实体边界信息，构建边界识别模型；步骤二：实施边界组合策略，对实体边界进组合，获取候选实体集；步骤三：构建神经网络分类器，对候选实体集进行筛选。

2.根据权利要求1所述的基于神经网络的边界组合命名实体识别方法，其特征在于：所述步骤一中，基于经典的BiLSTM-CRF模型，结合BERT预训练技术，建立用于实体边界信息识别的神经网络模型。

3.根据权利要求1所述的基于神经网络的边界组合命名实体识别方法，其特征在于：所述步骤二中，在实体边界识别的基础上，实施边界组合策略，将多层嵌套结构的实体结构转化为互相独立的扁平化实体结构，边界组合的具体定义为：

当前序列(长度为n)中，存在实体边界：

B_i，其中i＝0,1,2,3……n

E_j，其中j＝0,1,2,3……n

则产生候选实体：

Candidate(x)＝Assemble(B_i，E_j),其中i＝0,1,2,3……n,j＝0,1,2,3……n,i<j

Sample(y)＝SenSplit(index(B_i),index(E_j)),其中i,j∈Tuple(Candidate(x))

4.根据权利要求1所述的基于神经网络的边界组合命名实体识别方法，其特征在于：所述步骤三中，采用卷积神经网络模型，输入数据为步骤二中实施边界组合方法所产生的候选实体集，候选实体集样本的三段形式对应不同的卷积核，在分段卷积之后通过全连接层和softmax层，完成候选实体的筛选。