CN109543181B

CN109543181B - 一种基于主动学习和深度学习相结合的命名实体模型和系统

Info

Publication number: CN109543181B
Application number: CN201811332518.XA
Authority: CN
Inventors: 张力文; 程国艮
Original assignee: Glabal Tone Communication Technology Co ltd
Current assignee: Glabal Tone Communication Technology Co ltd
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2023-01-31
Anticipated expiration: 2038-11-09
Also published as: CN109543181A

Abstract

命名实体识别是信息抽取中的一项基础任务，现阶段工业界主要采用性能卓越的有监督方法来抽取命名实体，但这类方法过分依赖于人工的标注语料，而获取大规模的标注语料是十分困难的。如何利用有效地利用丰富的未标注语料是目前亟待解决的问题。本发明提供了一种基于主动学习和深度学习相结合的命名实体模型及系统。本系统是让命名实体识别模型自动从未标注语料中，选取最有训练价值的代标注例句，提交人工进行标注后，再加入到训练集中，以提高模型的性能。该系统可以让标注人员极大限度地提高工作效率，有效地减少人力成本；本模型的构建使用卷积神经网络(CNN)作为编码器，以减少未登录词对任务的影响；使用长短期记忆网络(LSTM)/GRU作为解码器，以加速模型的训练速度。本发明采用人工与自动相结合的方式进行标注来扩展训练语料，在提高实体识别的精确率和召回率的同时，能够显著地降低人工标注的工作量。

Description

一种基于主动学习和深度学习相结合的命名实体模型和系统

技术领域

本发明涉及文本实体识别领域，具体而言，是一种基于主动学习和深度学习相结合的实体识别模型和系统。

背景技术

命名实体识别(NER)是在自然语言处理中的一个经典问题，其应用极为广泛。比如：从一句话中识别出人名、地名，从电商的搜索中识别出产品的名字，识别药物名称以及某些特有词语等等。由于这些命名实体数量不断增加，通常不可能在词典中穷尽列出，且其构成方法具有各自的一些规律性，因而，通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理，称为命名实体识别。

相较于传统模型，深度神经网络(DNN)在该任务中表现更好。可是，若已标注的训练数据规模太小，深度学习技术的优势则明显减弱。但是，获取已标注的数据成本很高，需要有一定相关经验的标注人员进行多次标注，并反复校验。身处大数据的今天，获取未标注数据十分容易。因此，为了发挥深度学习的最大优势，就要减少其对标注数据的依赖性，并有效提高未标注数据的利用率。在这种情况下，主动学习提供了一种较为有效地选择需要标记的样本的方法。相较于监督式学习，主动学习模型，可以在未标注数据集中选择要标记的示例，并将其放入训练集中，对模型进行训练，不断迭代以提高模型的准确率，从而有效的利用了未标注数据。进一步提高命名实体模型的准确率和召回率，可以为后续的语句甚至篇章的语义分析与研究奠定坚实的基础。

现有的深度学习模型存在以下缺陷：(1)人工标注的语料数据的成本太高。若缺乏大规模、高质量的实体标注语料，将会导致神经网络性能较差，无法准确识别实体；(2)没有利用丰富的未标注数据。未标注数据获取容易，规模巨大。只利用已标注的数据无法大幅度提高模型的准确率和召回率。

发明内容

本发明的目的在于提供一种基于主动学习和深度学习相结合的命名实体模型和系统，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明的第一方面，提供一种基于主动学习和深度学习相结合的实体识别模型，该模型包括如下部分：

部分一：字级编码部分。该部分本质上是特征抽取器，由卷积神经网络(CNN)构成，将字向量和字典特征向量拼合，通过CNN抽取例句中每个字的特征，经过卷积、池化等过程，输出有关字的特征向量。

所述部分一包括：

(1)字向量，根据大规模语料利用无监督的方法训练字向量。主流的词向量训练模型是word2vec，Glove以及最新的Elmo模型。本模型使用Glove模型，得到维度100，数目为16783的字向量矩阵。

(2)字典特征向量，字典特征表示某字在词语中位置，例如，在“清热解毒”中，“清”是词语的开头，以‘0’表示，“热”在词语中间，以‘1’表示。“解”同“热”，用‘1’表示，“毒”是词语的结尾，用‘2’表示。此外，单字成词的则用‘3’表示。

部分二：词级编码部分。该部分同样也是CNN构成的特征抽取器，由于例句中某字和周围其他字的存在语义和语法的关系，因而周围字影响着该字的标签。本部分就是提取某字与周围其他字的特征。输出有关词的特征向量。

部分三：标签解码部分。将部分二输出的向量输入长短期记忆网络(LSTM),经过计算得到某字相应标签序列的概率分布。使用softmax作为损失函数，训练命名识别模型。

优选地，长短期记忆网络(LSTM)可以用(GRU)代替。

根据本发明的第二方面，提供一种基于主动学习和深度学习相结合的实体识别系统，该系统包括：

基于深度学习的命名实体模块，所述模块将序列文本转换为向量，并通过深度神经网络，得到句中每个字相应的标签序列的概率分布。

基于主动学习的例句选择模块；所述模块执行如下操作：

A.不确定性采样，依据最小置信度选取待标注例句。

B.选择待标注例句，通过操作A，选择可信度最低的例句，返回给标注员。

(3)标注模块，所述模块是连接标注员和模型的“桥梁”。利用小规模标注语料训练模型，然后在大规模未标注语料中选择最需要人工标注的例句，并回传给标注员令其进行标注。标注员将标好的例句提交给系统，系统获得一定规模的标注例句后，重新训练模型。以上过程称为一轮。经过多轮的不断迭代，逐步提高模型性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了字级编码部分的网络模型；

图2示出了一种基于深度学习命名实体模型；

图3示出了一种基于主动学习和深度学习的命名实体识别系统的工作流程。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示例性地示出了字级编码部分的网络模型。

该模型主要包括：

字向量，整合中文维基百科等中文语料，利用Glove和word2vec模型训练词向量。经过对比，本模型使用Glove向量。

外部字典特征向量，字典特征表示某字在词语中位置，例如，在“清热解毒”中，“清”是词语的开头，以‘0’表示，“热”在词语中间，以‘1’表示。“解”同“热”，用‘1’表示，“毒”是词语的结尾，用‘2’表示。此外，单字成词的则用‘3’表示。综上所述，标号0-3共有4个向量，随机初始化4*50的字典特征向量矩阵。

拼接字向量和外部字典特征向量，作为模型的输入。

图2示例性示出一种基于深度学习命名实体模型。

本模型采用CNN-CNN—GRU网络架构，将字向量和外部特征向量拼接后作为模型的输入，经过两层卷积神经网络的卷积和池化，输出特征向量，最后经过GRU网络，输出相应词的标签序列概率分布。并利用如下公式求最小置信度，选取待标注例句。

用小规模已标注的训练数据训练模型，待模型训练完成后，引入大规模未标注语料。本模型利用主动学习的思想，依据最小置信度，选取待人工标注的例句，回退给标注人员。标注人员进行标注后，将标注例句再次送入模型中，等待积累一定规模的例句后，重新训练模型。注意，为了保证模型的训练速度，训练集并不全利用新标注例句，而是新标注的例句与原标注例句按一定比例混合。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于主动学习和深度学习相结合的命名实体识别系统，其特征在于，该系统包括：

1）基于深度学习的命名实体模块，所述基于深度学习的命名实体模块将序列文本转换为向量，并通过深度神经网络，得到句子中每个字相应的标签序列的概率分布；

所述基于深度学习的命名实体模块包括如下部分：

a）字级编码部分，该部分由卷积神经网络构成，将字向量和字典特征向量拼合，通过卷积神经网络抽取例句中每个字的特征，经过卷积、池化，输出有关字的特征向量；

b）词级编码部分，其是由卷积神经网络构成的特征抽取器，该部分提取例句中某个字及该字周围其他字的特征，输出有关词的特征向量；

c）标签解码部分，所述标签解码部分将所述词级编码部分输出的有关词的特征向量输入长短期记忆网络，经过计算得到某字相应标签序列的概率分布，然后利用softmax作为损失函数，训练命名实体识别模型；

所述部分a）中的字向量，根据大规模语料利用无监督的方法进行训练，采用Glove模型，得到维度为100，数目为16783的字向量矩阵；

所述部分a）中的字典特征表示某字在词语中的位置；

2）基于主动学习的例句选择模块，所述基于主动学习的例句选择模块执行如下操作：

（a）不确定性采样：依据最小置信度选取待标注例句；

（b）选择待标注例句：通过操作（a）选择可信度最低的例句返回给标注员；

3）标注模块，所述标注模块连接标注员和模型，利用小规模标注语料训练模型，然后再大规模未标注语料中选择最需要人工标注的例句回传给标注员进行标注，标注员将标注好的例句提交给系统，系统获得一定规模的标注例句后，将新标准例句与原标准例句按照一定比例混合，重新训练模型。

2.一种如权利要求1所述的系统，其特征在于：所述系统经过多次不断迭代，进一步提高模型性能。