CN113919358A

CN113919358A - 一种基于主动学习的命名实体识别方法和系统

Info

Publication number: CN113919358A
Application number: CN202111294527.6A
Authority: CN
Inventors: 蒋卓; 晁正英; 李文瑞; 赵伟; 陈诚; 赵建强
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: GUANGZHOU INSTITUTE OF CRIMINAL SCIENCE AND TECHNOLOGY; Xiamen Meiya Pico Information Co Ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-01-11

Abstract

本发明给出了一种基于主动学习的命名实体识别方法和系统，包括获取待训练文本数据，对部分待训练文本数据进行标注；对每条文本进行预训练获得字符向量矩阵，将其中的字符向量输入双向LSTM进行训练，获得输入文本的语义信息特征；利用自注意力机制获取每条文本中字之间的相互关系，并将结果输出至条件随机场，计算输入字对应的最优标签序列，以最大概率的序列作为字的最终实体类别标签，获取标注文本数据的训练模型；利用训练模型对未标注文本数据进行预测，确定该条文本的置信度值，响应于一文本的置信度大于预设阈值，将该条文本作为待标注数据集进行标注，并循环上述步骤。本发明可实现更准确高效地标记数据以达到应用需求性能。

Description

一种基于主动学习的命名实体识别方法和系统

技术领域

本发明涉及文本识别的技术领域，尤其是一种基于主动学习的命名实体识别方法和系统。

背景技术

随着社会科技的发展，越来越多的信息以电子文档的形式涌现在互联网当中，快速高效地处理利用这些文字信息已经成为当下人工智能领域的一个研究热点。命名实体识别是自然语言处理领域的一个核心技术，它具体指的是对文本中的人名，时间，地名，机构名称等指定类型的实体进行有效的识别提取，是信息提取、问答系统、句法分析、机器翻译等研究的关键前提工作，其研究成果的好坏将对文本信息的自动化处理结果产生直接有效的影响。

随着NER效果不断提高，技术逐渐成熟，如今的NER研究重点逐渐从模型调整等转向了实际应用。这主要得益于机器学习方法下的NER效果，对于规范性文本虽然还无法达到接近100％的正确率和召回率，但绝大多数方法的效果已经能达到80％～90％的F1值，这对于从大规模的文本中识别出命名实体来说，已经可以满足一定的应用需求。但当前的大多方法应用于社交媒体文本的命名实体识别仍面临很大挑战。

在命名实体识别任务上，以往的深度学习方法在规范性文本上使用LSTM-CRF框架达到应用需求，由于社交文本长度短，训练语料少，语句不规范的特点，现有的深度学习方法无法达到应用需求。

发明内容

为了解决现有技术中由于社交文本长度短，训练语料少，语句不规范的特点导致命名实体识别任务中深度学习方法无法达到应用需求的技术问题，本发明提出了一种基于主动学习的命名实体识别方法和系统，以解决上述技术问题。

根据本发明的一个方面，提出了一种基于主动学习的命名实体识别方法，该方法包括：

S1：获取待训练文本数据，对部分待训练文本数据进行标注，对文本进行预处理，提取命名实体标签信息；

S2：对每条文本进行预训练获得字符向量矩阵，将字符向量矩阵中的字符向量输入双向LSTM进行训练，获得输入文本的语义信息特征；

S3：将语义信息特征输入自注意力模型，利用自注意力机制获取每条文本中字之间的相互关系，并将结果输出至条件随机场，计算输入字对应的最优标签序列，以最大概率的序列作为字的最终实体类别标签，获取标注文本数据的训练模型；

S4：利用训练模型对未标注文本数据进行预测，利用条件随机场获得每条文本中每个字对应每个标签的概率并确定该条文本的置信度值，响应于一文本的置信度大于预设阈值，将该条文本作为待标注数据集进行标注，并循环步骤S2-S4。

在一些具体的实施例中，步骤S1中的预处理包括对字符和标签进行统计和编号，构造字符表和标签表。

在一些具体的实施例中，步骤S2中，利用word2vec模型进行预训练获得字符向量，初始化字符表C，确定每个字符的维度d1，获取字符向量矩阵Q∈R^d1×|C|。

在一些具体的实施例中，步骤S2中的双向LSTM的神经网络结构包括两个隐含层，一个隐含层表示前向LSTM神经网络，一个隐含层表示后向LSTM神经网络，其中，每个隐含层拥有固定大小的LSTM内核。通过双向遍历可以充分提取文本特征信息。

在一些具体的实施例中，步骤S3中采用多头注意力机制。利用自注意力机制可以明确地学习句子中的任何两个字之间的依赖关系，并捕获句子的内部结构信息。

在一些具体的实施例中，步骤S3中采用最大似然估计计算最优标签序列，训练集的似然对数为通过训练选取的最终能够得到最高条件概率的标签序列来对序列进行标注。

在一些具体的实施例中，步骤S4中，利用条件随机场获得每条文本中每个字对应每个标签的概率P_wik，第i个字标记第k个标签的置信度S_wi＝1-P_wik，一条文本的置信度值为score＝∑S_wi。

根据本发明的第二方面，提出了一种计算机可读存储介质，其上存储有一或多个计算机程序，该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。

根据本发明的第三方面，提出了一种基于主动学习的命名实体识别系统，该系统包括：

标注单元：配置用于获取待训练文本数据，对部分待训练文本数据进行标注，对文本进行预处理，提取命名实体标签信息；

预训练单元：配置用于对每条文本进行预训练获得字符向量矩阵，将字符向量矩阵中的字符向量输入双向LSTM进行训练，获得输入文本的语义信息特征；

训练模型获取单元：配置用于将语义信息特征输入自注意力模型，利用自注意力机制获取每条文本中字之间的相互关系，并将结果输出至条件随机场，计算输入字对应的最优标签序列，以最大概率的序列作为字的最终实体类别标签，获取标注文本数据的训练模型；

未标注文本数据处理单元：配置用于利用训练模型对未标注文本数据进行预测，利用条件随机场获得每条文本中每个字对应每个标签的概率并确定该条文本的置信度值，响应于一文本的置信度大于预设阈值，将该条文本作为待标注数据集进行标注，并循环与训练单元、训练模型获取单元中的操作。

在一些具体的实施例中，标注单元中的预处理包括对字符和标签进行统计和编号，构造字符表和标签表。

在一些具体的实施例中，预训练单元中利用word2vec模型进行预训练获得字符向量，初始化字符表C，确定每个字符的维度d1，获取字符向量矩阵Q∈R^d1×|C|。

在一些具体的实施例中，预训练单元中，双向LSTM的神经网络结构包括两个隐含层，一个隐含层表示前向LSTM神经网络，一个隐含层表示后向LSTM神经网络，其中，每个隐含层拥有固定大小的LSTM内核。通过双向遍历可以充分提取文本特征信息。

在一些具体的实施例中，预训练单元中，采用最大似然估计计算最优标签序列，训练集的似然对数为通过训练选取的最终能够得到最高条件概率的标签序列来对序列进行标注。

在一些具体的实施例中，未标注文本数据处理单元中，利用条件随机场获得每条文本中每个字对应每个标签的概率P_wik，第i个字标记第k个标签的置信度S_wi＝1-P_wik，一条文本的置信度值为score＝∑S_wi。

本发明提出了一种基于主动学习的命名实体识别方法和系统，针对社交文本命名实体识别任务，首先将字向量输入一个双向LSTM中提取特征，再将特征输入自注意力机制进一步提取上下文相关特征，将神经网络的输出作为CRF的输入计算最优标签序列完成识别过程，在未标注语料上使用训练所得模型,提出的采样选择策略将模型中难以区分的样本数据提取出来完成再标注，再训练模型，相比于传统命名实体识别方法，本发明明显提高识别效率并且减少大量人力成本。可适用于所有涉及命名实体识别的场景，尤其适合社交类文本命名实体识别任务，如聊天文本，微博文本等场景。

附图说明

包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点，因为通过引用以下详细描述，它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例的基于主动学习的命名实体识别方法的流程图；

图2是本申请的一个具体的实施例的命名实体识别方法的流程图；

图3是本申请的一个具体的实施例的主动学习流程示意图；

图4是本申请的一个实施例的基于主动学习的命名实体识别系统的框架图；

图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本申请的一个实施例的基于主动学习的命名实体识别方法，图1示出了根据本申请的实施例的基于主动学习的命名实体识别方法的流程图。如图1所示，该方法包括：

S101：获取待训练文本数据，对部分待训练文本数据进行标注，对文本进行预处理，提取命名实体标签信息。其中，预处理包括对字符和标签进行统计和编号，构造字符表和标签表。

S102：对每条文本进行预训练获得字符向量矩阵，将字符向量矩阵中的字符向量输入双向LSTM进行训练，获得输入文本的语义信息特征。

在具体的实施例中，对每条文本W＝w₁,w₂,…,w_n使用word2vec模型进行预训练,得到字符向量X＝x₁,x₂,…,x_Lw，x_i∈R^D1表示第i个单词对应的维度为D₁的向量，w_i表示每条文本中第i个单词，L_w表示每条文本中的字个数。字符向量是将单个字符初始化为向量形式。得到的字符向量输入一个双向LSTM进行训练，得到输入文本的语义信息特征H＝{h₁,h₂,…,h_lw}。

在具体的实施例中，双向LSTM的神经网络结构包括两个隐含层，一个隐含层表示前向LSTM神经网络，一个隐含层表示后向LSTM神经网络，其中，每个隐含层拥有固定大小的LSTM内核。通过双向遍历可以充分提取文本特征信息。

S103：将语义信息特征输入自注意力模型，利用自注意力机制获取每条文本中字之间的相互关系，并将结果输出至条件随机场，计算输入字对应的最优标签序列，以最大概率的序列作为字的最终实体类别标签，获取标注文本数据的训练模型。采用多头注意力机制，利用自注意力机制可以明确地学习句子中的任何两个字之间的依赖关系，并捕获句子的内部结构信息。

在具体的实施例中，将步骤S102中得到的文本语义特征输入自注意力模型，采用自注意力机制获得每条文本字间的相互关系,进一步得到输入文本的语义信息特征H’＝{h’₁,h’₂,…,h’_lw}，针对得到的语义信息特征，利用条件随机场对字进行标注，输出得到文本序列中的实体信息，条件随机场以上述的输出作为输入，计算输入字对应的最优标签序列，以最大概率的序列作为字最后的实体类别标签序列，训练所得模型记为M。

在具体的实施例中，采用最大似然估计计算最优标签序列，训练集的似然对数为通过训练选取的最终能够得到最高条件概率的标签序列来对序列进行标注。

S104：利用训练模型对未标注文本数据进行预测，利用条件随机场获得每条文本中每个字对应每个标签的概率并确定该条文本的置信度值，响应于一文本的置信度大于预设阈值，将该条文本作为待标注数据集进行标注，并循环步骤S102-S104。具体的，利用条件随机场获得每条文本中每个字对应每个标签的概率P_wik，第i个字标记第k个标签的置信度S_wi＝1-P_wik，一条文本的置信度值为score＝∑S_wi。

在具体的实施例中，在未标注语料上使用训练所得模型M进行预测，利用条件随机场获得每条文本中每个字对应每个标签的概率P_wi＝{P_wi1,P_wi2,…,P_wim}，P_wim表示第文本中第i个字为第m个标签的概率值。对所得概率值选取最大值P_wik，S_wi＝1-P_wik为第i个字标记第k个标签的置信度，对一条文本中每个字的置信度S_wi相加记为score，score表示一条文本的置信度值，若score＞λ则将该条语料作为当前模型难以区分数据挑选出来，放入需标注数据集合A，λ为可调参数阈值。标注人员对选择的数据集合A进行标注，再次循环步骤102-104。

继续参考图2，图2示出了根据本发明的一个具体的实施例的命名实体识别方法的流程图，如图2所示，包括以下步骤：

S201：训练样本。该步骤获取待训练文本数据。

S202：文本标注和预处理。对文本进行人工标注获得已标注数据集L和未标注数据集U，对字符和标签进行统计和编号，构造字符表和词组表。本步骤中，采用BIO标注集对文本语料进行标注，即标注集中包含{B，I，O}，其中B表示命名实体的开头，I表示命名实体剩余部分，O表示不属于实体部分。对于命名实体我们使用PER表示人名，LOC表示地点，ORG表示组织机构，GPE表示地缘政治。

S203：word2vec训练字向量。将上述中字符使用word2vec模型进行预训练得到字符向量表示，初始化字符表C，确定每个字符的维度d1，得到字符向量矩阵Q∈R^d1×|C|。

S204：已标注数据集。基于上述步骤获得已标注数据集。

S205：BI-LSTM神经网络。将得到的字符向量传入双向LSTM进行训练，得到输入文本的语义信息特征。本步骤中，双向LSTM神经网络结构拥有两个隐含层，一个隐含层表示前向LSTM神经网络，另一个隐含层表示后向LSTM神经网络。每个隐含层拥有固定大小的LSTM内核。

S206：自注意力机制。将上述步骤中双向LSTM的输出输入自注意力机制，利用自注意力机制来明确地学习句子中的任何两个字之间的依赖关系，并捕获句子的内部结构信息。优选的，本发明采用多头自注意机制，H＝{h₁，h₂，...，h_N}表示共享BI_LSTM的输出，注意力机制公式可表示为：

多头注意可以表达如下：

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

H′＝MultiHead(Q，K，V)＝Concat(head₁，…，head_h)W^o

这里

和

本发明中设置Q＝K＝V＝H，d是BI_LSTM的隐藏单元的维数，等于2dh。

S207：CRF条件随机场。将步骤206中自注意力机制的输出输入条件随机场，计算输入词对应的最优标签序列，以最大概率的序列作为词组最后的类别标签，输出实体标注信息S211。本步骤中，输入向量为X＝{x1,x2,...,xN}，模型输出标签序列Y＝{y1,y2,...,yT}。对于给定的输入序列X取值为x的条件下，在标签序列Y上取值为y的条件概率为p(y|x)，真实标签序列的概率计算公式如下：

p_i＝W_sH′_i+b_s

其中

和b_s∈R^|T|是可训练参数。|T|表示输出标签的数量，P表示句中第i个字的第j个标签的得分，A表示crf层的状态转移矩阵，s代表句子输入经过模型计算得到某个标签序列的概率，

表示真实的标签序列。本步骤中计算最优标签序列使用最大似然估计，训练集的似然对数为通过训练选取最终能够得到最高条件概率的y来对序列进行标注。

S208：未标注数据集。对未标注数据集U上使用上述训练所得模型M进行预测，获得每条文本中每个字对应每个标签的概率P_wi＝{P_wi1,P_wi2,…,P_wiT}。

S209：判断1-max(P(y|x)＞λ)。选取步骤S208中所得概率值的最大值P_wik，计算第i个字标记第k个标签的置信度为Swi＝1-Pwik，一条文本的置信度值为score＝∑S_wi。判断置信度值与

S210：待标注数据集。若score>λ则将该条语料作为当前模型难以区分数据挑选出来，放入需标注数据集合A；标注人员完成标注获得的数据集A，循环步骤S204-S207，在一个具体的实施例中，如图3中示出的根据本申请的一个具体的实施例的主动学习流程示意图，通过对已标记数据集L 301的训练获得学习模型Moedl 302，在未标记数据集U 303上实用学习模型Model 302，根据采样选择策略将模型中难以区分的样本数据提取出来再标注，例如标注人员304，将标注后的样本继续输入已标记数据集L 301中，再进行训练模型，通过不断调整模型参数，得出F-Score最优分类模型。

上述方法构建了一个结合主动学习的实体识别框架，在少量已标注语料上使用LSTM-CRF基本框架训练模型，该模型在大量未标注预料上使用选择策略挑选待标注预料完成标注，循环主动学习过程，进而实现更准确高效地标记数据以达到应用需求性能。相比于传统命名实体识别方法，本发明明显提高识别效率并且减少大量人力成本。根据本申请发明人的实验结果表明，同等条件下，相比于传统LSTM模型，通过主动学习选择策略仅新增标注数据300条，社交文本实体识别模型准确率提高2.7％。

继续参考图4，图4示出了根据本发明的实施例的基于主动学习的命名实体识别系统的框架图。该系统具体包括标注单元401、预训练单元402、训练模型获取单元403和未标注文本数据处理单元404。

在具体的实施例中，标注单元401配置用于获取待训练文本数据，对部分待训练文本数据进行标注，对文本进行预处理，提取命名实体标签信息，其中，预处理包括对字符和标签进行统计和编号，构造字符表和标签表；预训练单元402配置用于对每条文本进行预训练获得字符向量矩阵，将字符向量矩阵中的字符向量输入双向LSTM进行训练，获得输入文本的语义信息特征，利用word2vec模型进行预训练获得字符向量，初始化字符表C，确定每个字符的维度d1，获取字符向量矩阵Q∈R^d1×|C|，双向LSTM的神经网络结构包括两个隐含层，一个隐含层表示前向LSTM神经网络，一个隐含层表示后向LSTM神经网络，其中，每个隐含层拥有固定大小的LSTM内核。通过双向遍历可以充分提取文本特征信息；训练模型获取单元403配置用于将语义信息特征输入自注意力模型，利用自注意力机制获取每条文本中字之间的相互关系，并将结果输出至条件随机场，计算输入字对应的最优标签序列，以最大概率的序列作为字的最终实体类别标签，获取标注文本数据的训练模型；未标注文本数据处理单元404配置用于利用训练模型对未标注文本数据进行预测，利用条件随机场获得每条文本中每个字对应每个标签的概率并确定该条文本的置信度值，利用条件随机场获得每条文本中每个字对应每个标签的概率P_wik，第i个字标记第k个标签的置信度S_wi＝1-P_wik，一条文本的置信度值为score＝∑S_wi，响应于一文本的置信度大于预设阈值，将该条文本作为待标注数据集进行标注，并循环与训练单元、训练模型获取单元中的操作。

下面参考图5，其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待训练文本数据，对部分待训练文本数据进行标注，对文本进行预处理，提取命名实体标签信息；对每条文本进行预训练获得字符向量矩阵，将字符向量矩阵中的字符向量输入双向LSTM进行训练，获得输入文本的语义信息特征；将语义信息特征输入自注意力模型，利用自注意力机制获取每条文本中字之间的相互关系，并将结果输出至条件随机场，计算输入字对应的最优标签序列，以最大概率的序列作为字的最终实体类别标签，获取标注文本数据的训练模型；利用训练模型对未标注文本数据进行预测，利用条件随机场获得每条文本中每个字对应每个标签的概率并确定该条文本的置信度值，响应于一文本的置信度大于预设阈值，将该条文本作为待标注数据集进行标注，并循环以上步骤。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于主动学习的命名实体识别方法，其特征在于，包括：

S1：获取待训练文本数据，对部分所述待训练文本数据进行标注，对文本进行预处理，提取命名实体标签信息；

S2：对每条文本进行预训练获得字符向量矩阵，将所述字符向量矩阵中的字符向量输入双向LSTM进行训练，获得输入文本的语义信息特征；

S3：将所述语义信息特征输入自注意力模型，利用自注意力机制获取每条文本中字之间的相互关系，并将结果输出至条件随机场，计算输入字对应的最优标签序列，以最大概率的序列作为字的最终实体类别标签，获取标注文本数据的训练模型；

S4：利用所述训练模型对未标注文本数据进行预测，利用条件随机场获得每条文本中每个字对应每个标签的概率并确定该条文本的置信度值，响应于一文本的置信度大于预设阈值，将该条文本作为待标注数据集进行标注，并循环所述步骤S2-S4。

2.根据权利要求1所述的基于主动学习的命名实体识别方法，其特征在于，所述步骤S1中的所述预处理包括对字符和标签进行统计和编号，构造字符表和标签表。

3.根据权利要求1所述的基于主动学习的命名实体识别方法，其特征在于，所述步骤S2中，利用word2vec模型进行预训练获得字符向量，初始化字符表C，确定每个字符的维度d1，获取字符向量矩阵Q∈R^d1×|C|。

4.根据权利要求1所述的基于主动学习的命名实体识别方法，其特征在于，所述步骤S2中的所述双向LSTM的神经网络结构包括两个隐含层，一个隐含层表示前向LSTM神经网络，一个隐含层表示后向LSTM神经网络，其中，每个所述隐含层拥有固定大小的LSTM内核。

5.根据权利要求1所述的基于主动学习的命名实体识别方法，其特征在于，所述步骤S3中采用多头注意力机制。

6.根据权利要求1所述的基于主动学习的命名实体识别方法，其特征在于，所述步骤S3中采用最大似然估计计算所述最优标签序列，训练集的似然对数为通过训练选取的最终能够得到最高条件概率的标签序列来对序列进行标注。

7.根据权利要求1所述的基于主动学习的命名实体识别方法，其特征在于，所述步骤S4中，利用条件随机场获得每条文本中每个字对应每个标签的概率P_wik，第i个字标记第k个标签的置信度S_wi＝1-P_wik，一条文本的置信度值为score＝∑S_wi。

8.一种计算机可读存储介质，其上存储有一或多个计算机程序，其特征在于，该一或多个计算机程序被计算机处理器执行时实施权利要求1至7中任一项所述的方法。

9.一种基于主动学习的命名实体识别系统，其特征在于，所述系统包括：

标注单元：配置用于获取待训练文本数据，对部分所述待训练文本数据进行标注，对文本进行预处理，提取命名实体标签信息；

预训练单元：配置用于对每条文本进行预训练获得字符向量矩阵，将所述字符向量矩阵中的字符向量输入双向LSTM进行训练，获得输入文本的语义信息特征；

训练模型获取单元：配置用于将所述语义信息特征输入自注意力模型，利用自注意力机制获取每条文本中字之间的相互关系，并将结果输出至条件随机场，计算输入字对应的最优标签序列，以最大概率的序列作为字的最终实体类别标签，获取标注文本数据的训练模型；

未标注文本数据处理单元：配置用于利用所述训练模型对未标注文本数据进行预测，利用条件随机场获得每条文本中每个字对应每个标签的概率并确定该条文本的置信度值，响应于一文本的置信度大于预设阈值，将该条文本作为待标注数据集进行标注，并循环与训练单元、训练模型获取单元中的操作。

10.根据权利要求9所述的基于主动学习的命名实体识别系统，其特征在于，所述标注单元中的预处理包括对字符和标签进行统计和编号，构造字符表和标签表。

11.根据权利要求9所述的基于主动学习的命名实体识别系统，其特征在于，所述预训练单元中利用word2vec模型进行预训练获得字符向量，初始化字符表C，确定每个字符的维度d1，获取字符向量矩阵Q∈R^d1×|C|。

12.根据权利要求9所述的基于主动学习的命名实体识别系统，其特征在于，所述预训练单元中，所述双向LSTM的神经网络结构包括两个隐含层，一个隐含层表示前向LSTM神经网络，一个隐含层表示后向LSTM神经网络，其中，每个所述隐含层拥有固定大小的LSTM内核。

13.根据权利要求9所述的基于主动学习的命名实体识别系统，其特征在于，所述预训练单元中，采用最大似然估计计算所述最优标签序列，训练集的似然对数为通过训练选取的最终能够得到最高条件概率的标签序列来对序列进行标注。

14.根据权利要求9所述的基于主动学习的命名实体识别系统，其特征在于，所述未标注文本数据处理单元中，利用条件随机场获得每条文本中每个字对应每个标签的概率P_wik，第i个字标记第k个标签的置信度S_wi＝1-P_wik，一条文本的置信度值为score＝∑S_wi。