CN110704633B

CN110704633B - 命名实体识别方法、装置、计算机设备及存储介质

Info

Publication number: CN110704633B
Application number: CN201910832541.3A
Authority: CN
Inventors: 张师琲; 霍晓燕
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2023-07-21
Anticipated expiration: 2039-09-04
Also published as: CN110704633A; WO2021043085A1

Abstract

本发明提供一种命名实体识别方法，包括：获取初始样本数据集，若初始样本数据集中的训练文本数量达到预设阈值，根据初始样本数据集对的命名实体识别模型进行训练；利用训练得到的命名实体识别模型对第一待识别文本进行处理，得到命名实体自动标注结果；比对命名实体自动标注结果与命名实体人工标注结果是否相同，若相同，则将命名实体自动标注结果作为目标命名实体标注结果，否则输出第一人工审核通知，并接收响应第一人工审核通知的第一目标命名实体标注结果；比对命名实体自动标注结果与第一目标命名实体标注结果是否相同，若不相同，则将第一待识别文本加入初始样本数据集中。本发明可以提高命名实体识别的准确率。

Description

命名实体识别方法、装置、计算机设备及存储介质

技术领域

本发明属于计算机技术领域，尤其涉及一种命名实体识别方法、装置、计算机设备及存储介质。

背景技术

命名实体(例如时间、人名、地名、组织机构名称、特定领域词汇等)识别是自然语言理解的一个重要组成部分，常用于信息抽取、实体链接等自然语言处理场景中。在现有技术中，一般采用CRF(Conditional Random Field，条件随机场)模型、RNN(RecurrentNeural Network，循环神经网络)或LSTM(long-short term memory，长短期记忆)+CRF模型等方式对第一待识别文本进行命名实体识别。然而，无论采用CRF模型或RNN或LSTM+CRF模型进行命名实体识别，准确率都不高。

发明内容

针对上述现有技术的不足，本发明提供一种识别准确率高的命名实体识别方法，以解决现有技术命名实体识别准确不高的问题。

为了实现上述目的，本发明提供一种命名实体识别方法，包括以下步骤：

从样本数据库中获取初始样本数据集，该初始样本数据集中包含多个训练文本以及各训练文本对应的命名实体标注结果；

判断所述初始样本数据集中的训练文本数量是否达到预设阈值，若是，则执行如下操作：

根据所述初始样本数据集对预设的命名实体识别模型进行训练；

接收第一待识别文本，并对所述第一待识别文本进行预处理；

利用训练得到的命名实体识别模型对预处理后的第一待识别文本进行处理，得到所述第一待识别文本的命名实体自动标注结果；

比对所述命名实体自动标注结果与预先获得的命名实体人工标注结果是否相同，若相同，则将所述命名实体自动标注结果作为所述第一待识别文本的目标命名实体标注结果，若不相同，则输出第一人工审核通知，并接收响应所述第一人工审核通知的第一目标命名实体标注结果；

比对所述命名实体自动标注结果与接收到的所述第一目标命名实体标注结果是否相同，若不相同，则将所述第一待识别文本及所述第一待识别文本对应的第一目标命名实体标注结果加入所述初始样本数据集中，以便在所述初始样本数据集中的训练文本达到预设数量时，根据训练文本达到预设数量的初始样本数据集对命名实体识别模型进行重新训练。

在本发明一个实施例中，，当所述判断所述初始样本数据集中的训练文本数量是否达到预设阈步骤的判断结果为否时，执行以下操作：

对所述初始样本数据集中的训练文本的语句顺序进行N次打乱处理，生成N个不同的新样本数据集，其中N取正整数；

根据所述初始样本数据集对所述预设的命名实体识别模型进行训练，并根据所述N个不同的新样本数据集分别对所述预设的命名实体识别模型进行训练，得到N+1个训练后的命名实体识别模型；

接收第二待识别文本，并对所述第二待识别文本进行预处理；

利用所述N+1个训练后的命名实体识别模型分别对预处理后的第二待识别文本进行处理，得到所述第二待识别文本对应的N+1个命名实体自动标注结果；

比对所述N+1个命名实体标注结果是否相同，若相同，则将相同的命名实体自动标注结果作为所述第二待识别文本的目标命名实体标注结果，若不相同，则输出第二人工审核通知，并接收响应所述第二人工审核通知的第二目标命名实体标注结果；

将所述第二待识别文本及所述第二待识别文本对应的第二目标命名实体标注结果加入所述初始样本数据集中，直到所述初始样本数据集中的训练文本数量达到预设阈值。

在本发明一个实施例中，所述根据所述初始样本数据集对命名实体识别模型进行训练的步骤包括：

将所述初始样本数据集划分为训练集、验证集和测试集；

根据所述训练集对命名实体识别模型进行训练；

根据所述验证集对经过训练的命名实体识别模型进行验证；

根据所述测试集对经过验证的命名实体识别模型进行测试，若测试成功，训练结束。

在本发明一个实施例中，所述命名实体识别模型包括BERT层和CRF层。

在本发明一个实施例中，所述利用训练得到的命名实体识别模型对预处理后的第一待识别文本进行处理，得到所述第一待识别文本的命名实体自动标注结果的步骤包括：

利用BERT层对所述第一待识别文本对应的输入序列进行处理，得到所述第一待识别文本的文本特征序列；

利用CRF层对所述第一待识别文本的文本特征序列进行处理，得到所述第一待识别文本的命名实体自动标注结果。

在本发明一个实施例中，所述从样本数据库中获取初始样本数据集的步骤具体包括：

从所述样本数据库中获取所述初始样本数据集，所述初始样本数据集包含多个训练文本，各训练文本中不同类别的命名实体已预先设置为不同的字体样式；

根据各训练文本中每个词的字体样式，获取各训练文本对应的命名实体标注结果。

在本发明一个实施例中，所述对所述第一待识别文本进行预处理的步骤包括：

对所述第一待识别文本进行文本序列化处理。

为了实现上述目的，本发明还提供一种命名实体识别装置，包括：

初始样本数据集获取模块，用于从样本数据库中获取初始样本数据集，该初始样本数据集中包含多个训练文本以及各训练文本对应的命名实体标注结果；

判断模块，用于判断所述初始样本数据集中的训练文本数量是否达到预设阈值：

第一模型训练模块，用于在所述判断模块的结果为是时，根据所述初始样本数据集对预设的命名实体识别模型进行训练；

第一文本接收模块，用于接收第一待识别文本，并对所述第一待识别文本进行预处理；

第一模型处理模块，用于利用训练得到的命名实体识别模型对预处理后的第一待识别文本进行处理，得到所述第一待识别文本的命名实体自动标注结果；

第一比对模块，用于比对所述命名实体自动标注结果与预先获得的命名实体人工标注结果是否相同，若相同，则将所述命名实体自动标注结果作为所述第一待识别文本的目标命名实体标注结果，若不相同，则输出第一人工审核通知，并接收响应所述第一人工审核通知的第一目标命名实体标注结果；

第二比对模块，用于比对所述命名实体自动标注结果与接收到的所述第一目标命名实体标注结果是否相同；

第一样本增加模块，用于在所述命名实体自动标注结果与接收到的第一目标命名实体标注结果不相同时，将所述第一待识别文本及所述第一待识别文本对应的第一目标命名实体标注结果加入所述初始样本数据集中，以便在所述初始样本数据集中的训练文本达到预设数量时，根据训练文本达到预设数量的初始样本数据集对命名实体识别模型进行重新训练。

在本发明一个实施例中，所述装置还包括：

新样本数据集获取模块，用于在所述判断模块的判断结果为否时，对所述初始样本数据集中的训练文本的语句顺序进行N次打乱处理，生成N个不同的新样本数据集，其中N取正整数；

第二模型训练模块，用于根据所述初始样本数据集和每个所述新样本数据集分别训练得到一个命名实体识别模型；

第二文本接收模块，用于接收第二待识别文本，并对所述第二待识别文本进行预处理；

第二模型处理模块，用于利用训练得到的各命名实体识别模型分别对预处理后的第二待识别文本进行处理，得到所述第二待识别文本对应的N+1个命名实体自动标注结果；

第三比对模块，用于比对所述N+1个命名实体标注结果是否相同，若相同，则将相同的命名实体自动标注结果作为所述第二待识别文本的目标命名实体标注结果，若不相同，则输出第二人工审核通知，并接收响应所述第二人工审核通知的第二目标命名实体标注结果；

第二样本增加模块，用于将所述第二待识别文本及所述第二待识别文本对应的第二目标命名实体标注结果加入所述初始样本数据集中，直到所述初始样本数据集中的训练文本数量达到预设阈值。

在本发明一个实施例中，所述第一模型训练模块具体用于：

将所述初始样本数据集划分为训练集、验证集和测试集；

根据所述训练集对命名实体识别模型进行训练；

根据所述验证集对经过训练的命名实体识别模型进行验证；

在本发明一个实施例中，所述第一模型处理模块具体用于：

利用BERT层对所述第一待识别文本对应的输入序列进行处理，得到所述第一待识别文本对应的文本特征序列；

在本发明一个实施例中，所述初始样本数据集获取模块具体用于：

在本发明一个实施例中，所述预处理为文本序列化处理。

为了实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述方法的步骤。

为了实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述方法的步骤。

通过采用上述技术方案，本发明具有如下有益效果：

本发明对第一待识别文本进行命名实体识别后，比对命名实体自动标注结果与预先获得的命名实体人工标注结果是否相同，若不相同，则输出第一人工审核通知，并接收响应所述第一人工审核通知的第一目标命名实体标注结果；若所述命名实体自动标注结果与第一目标命名实体标注结果不相同，则所述第一待识别文本及所述第一待识别文本对应的第一目标命名实体标注结果加入所述初始样本数据集中，以在所述初始样本数据集中的训练文本达到预设数量时，根据训练文本达到预设数量的初始样本数据集对命名实体识别模型进行重新训练，从而提高了模型的准确度，进而提高命名实体识别的准确率。

附图说明

图1为本发明一种命名实体识别方法的一个实施例的流程图；

图2为本发明中命名实体识别模型的原理图；

图3为本发明一种命名实体识别装置的一个实施例的结构框图；

图4为本发明计算机设备的一个实施例的硬件架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供一种命名实体识别方法，如图1所示，包括以下步骤：

S1，从样本数据库中获取初始样本数据集，该初始样本数据集中包含多个训练文本以及各训练文本对应的命名实体标注结果。在本实施例中，训练文本为.doc或.docx格式的文本，训练文本中可包含时间、人名、地点、组织机构名称、公司名称、国家名称、经济词汇、交易类型、经济质量指标、产品名称等各种不同类别的命名实体。其中，各训练文本中不同类别的命名实体已预先设置为不同的字体样式，如设置为不同的字体颜色。在此情况下，步骤S1具体包括如下过程：首先，从样本数据库中获取初始样本数据集，初始样本数据集包含多个训练文本，各训练文本中不同类别的命名实体已预先设置为不同的字体样式；而后，根据各训练文本中每个词的字体样式(如字体颜色属性)，获取各训练文本对应的命名实体标注结果。例如，假设预先通过人工将训练文本中的人名字体设置为红色，时间字体设置为黄色，地点字体设置为蓝色、组织机构名称设置为绿色，非命名实体设置为黑色，则将训练文本中红色字体的词标注为人名命名实体识别标签PERS，黄色字体的词标注为时间命名实体识别标签TIME，蓝色字体的词标注为地点命名实体识别标签LOC，绿色字体的词标注为组织机构名称命名实体识别标签ORGE，黑色字体的词标注为非命名实体标签O，在此不一一列举。

S2，判断初始样本数据集中的训练文本数量是否达到预设阈值，若是，执行步骤S3。

S3，根据初始样本数据集对命名实体识别模型进行训练。在本实施例中，如图2所示，命名实体识别模型包含BERT层和CRF层，即，本实施例的命名实体识别模型是通过在BERT模型的基础上再拼接一层CRF模型而构成。

BERT模型是由Google公司发布的自然语言处理模型，其框架如图2所示，具有双向Transformer编码器(即图中的双层Trm)，通过双向Transformer编码器的处理，能充分考虑上下文词与词之间的关系，使得命名实体标注结果更加准确。如图2所示，tok1、tok2、…、tokN表示训练文本的输入序列，E1、E2、…、EN表示tok1、tok2、…、tokN分别对应的向量，各向量分别输入前向层Transformer中的每一个Transformer编码器，将前向层Transformer中的每一个Transformer编码器的输出作为后向层Transformer中的每一个Transformer编码器的输入，将后向层Transformer中的各Transformer编码器输出的结果通过softmax函数做归一化处理，得到每个词对应命名实体类别的概率矩阵T1、T2、…、TN。

CRF模型是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字序列，对于输入的长度为N的序列T[T1、T2…Ti…TN]，假设标签的标注结果为[y1,…,yN]，则CRF模型将在已知序列X的条件下，找出使得[y1,…,yN]的概率P(y1,…,yN)最大的序列[Y1,…,YN]，然后预测每个词的标签，即得到命名实体识别结果。

在本实施例中，步骤S3具体通过如下步骤实现：首先，将初始样本数据集划分为训练集、验证集和测试集；而后，根据训练集对命名实体识别模型进行训练；当训练完成后，根据验证集对经过训练的命名实体识别模型的准确率等性能进行验证；当验证通过后，根据测试集对经过验证的命名实体识别模型进行测试，若测试成功，训练结束。其中，根据训练集对命名实体识别模型进行训练的过程如下：将训练集中的样本数据输入到BERT层，再将BERT层的输出结果输入到CRF层，以对BERT层和CRF层的训练参数进行迭代训练。

S4，接收第一待识别文本，并对第一待识别文本进行预处理，此处的预处理具体是指文本序列化处理。具体来说，首先对第一待识别文本中的语句进行词处理，并在语句的前面加上开始标志符CLS，在两个语句之间加上分隔标志符SEP。例如，假设第一待识别文本为“小明喜欢看NBA”，则对应的输入序列为“[CLS]、小明、喜欢、看、NBA”。

S5，利用训练得到的命名实体识别模型对预处理后的第一待识别文本进行处理，得到第一待识别文本的命名实体自动标注结果。具体包括以下步骤：

S51，利用BERT层对第一待识别文本对应的输入序列进行处理，得到待识别文本对应的文本特征序列。具体处理过程如下：

首先，对待识别文本对应的输入序列中每个词或标志符([CLS]、[SEP])进行词编码、对每个词或标志符所在的段落进行段落编码，对每个词或标志符在相应语句中的位置进行位置编码，从而得到每个词或标志符对应的词嵌入表征向量、段落嵌入表征向量和位置嵌入表征向量，并将对应的词嵌入表征向量、段落嵌入表征向量和位置嵌入表征向量拼接组合成各词或标志符对应的总向量。例如，某词对应的词嵌入表征向量为Etoken＝[0.05,0.82,0.03,0.05]、段落嵌入表征向量为Esegment＝[0,0,0,0]、位置嵌入表征向量为Eposition＝[0,1,2,3]，则该词对应的总向量E＝[0.05，0.82，0.03，0.05，0，0，0，0，0，1，2，3]。

而后，将输入序列中每个词或标志符对应的总向量输入前向层Transformer中的每一个Transformer编码器，将前向层Transformer中的每一个Transformer编码器的输出结果作为后向层Transformer中的每一个Transformer编码器的输入，将后向层Transformer中的各Transformer编码器的输出结果通过softmax函数做归一化处理，得到输入序列中每个词对应命名实体类别的概率矩阵，作为第一待识别文本对应的文本特征序列。

S52，利用CRF层对第一待识别文本的文本特征序列进行处理，以预测第一待识别文本中各词的命名实体标签，得到第一待识别文本的命名实体自动标注结果。例如，针对待识别文本“小明在北京大学的图书馆学习”，标注结果将如下表1所示：

表1

命名实体识别结果

PERS

O

ORG

O

LOC

O

待识别文本

小明

在

北京大学

的

图书馆

学习

S6，比对命名实体自动标注结果与预先获得的命名实体人工标注结果是否相同，若相同，认为第一待识别文本的命名实体自动标注结果是准确的，则将命名实体自动标注结果作为第一待识别文本的目标命名实体标注结果；若不相同，则认为第一待识别文本的命名实体自动标注结果可能是错误的，则输出第一人工审核通知，工作人员接收到通知后进行审核，并返回第一待识别文本的目标命名实体标注结果，记为第一目标命名实体标注结果，从而可以接收到响应第一人工审核通知的第一目标命名实体标注结果。

S7，比对第一待识别文本的命名实体自动标注结果与接收到的第一目标命名实体标注结果是否相同，若相同，流程结束，若不相同，认为第一待识别文本的命名实体自动标注结果是错误的，则将第一待识别文本及第一待识别文本对应的第一目标命名实体标注结果加入初始样本数据集中，以在初始样本数据集中的训练文本达到预设数量时，根据训练文本达到预设数量的初始样本数据集对命名实体识别模型进行重新训练，从而提高了模型的准确度。

回到步骤S2，当判断得到初始样本数据集中的训练文本数量未达到预设阈值时，则执行以下操作：

S21，对初始样本数据集中的训练文本的语句顺序进行N次打乱处理，生成N个不同的新样本数据集，其中N取正整数。可以理解，一个训练文本的语句打乱后，可以得到一个新的训练文本，初始样本数据集中的所有训练文本的语句打乱后，即可得到一个新的样本数据集，随机打乱N次可得到N个不同的新样本数据集。

S22，根据初始样本数据集对前述预设的命名实体识别模型进行训练，并根据所述N个不同的新样本数据集分别对前述预设的命名实体识别模型进行训练，从而得到N+1个训练后的命名实体识别模型。可以理解，根据初始样本数据集可以训练得到一个命名实体识别模型，根据一个新样本数据集也可以训练得到一个命名实体识别模型，则根据初始样本数据集和N个新样本数据集可以训练得到N+1个命名实体识别模型。

S23，接收第二待识别文本，并对第二待识别文本进行预处理。其中，对第二待识别文本的预处理过程与对第一待识别文本的预处理过程是相同的，故在此不再赘述。

S24，利用前述N+1个训练后的训练得到的N+1个命名实体识别模型分别对的预处理后的第二待识别文本进行处理，可以理解，利用一个命名实体识别模型对第二待识别文本处理，可以得到一个命名实体自动标注结果，则利用N+1个命名实体识别模型对第二待识别文本进行处理，可以得到第二待识别文本对应的N+1个命名实体自动标注结果。

S25，比对前述N+1个命名实体标注结果是否相同，若相同，则认为相同的命名实体自动标注结果是正确的，将相同的命名实体自动标注结果作为第二待识别文本的目标命名实体标注结果，若不相同，则输出第二人工审核通知，工作人员接收到通知后进行审核，并返回第二待识别文本的目标命名实体标注结果，记为第二目标命名实体标注结果，从而可以接收到响应第二人工审核通知的第二目标命名实体标注结果；

S26，将第二待识别文本及第二待识别文本对应的第二目标命名实体标注结果加入初始样本数据集中，直到初始样本数据集中的训练文本数量达到预设阈值，而后执行步骤S3，从而提高模型的准确度，进而提高命名实体识别的准确性。

需要说明的是，对于本实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明所必须的。

实施例二

本实施例提供一种命名实体识别装置10，如图3所示，包括：

初始样本数据集获取模块101，用于从样本数据库中获取初始样本数据集，该初始样本数据集中包含多个训练文本以及各训练文本对应的命名实体标注结果；

判断模块102，用于判断初始样本数据集中的训练文本数量是否达到预设阈值：

第一模型训练模块103，用于在判断模块的结果为是时，根据初始样本数据集对预设的命名实体识别模型进行训练；

第一文本接收模块104，用于接收第一待识别文本，并对第一待识别文本进行预处理；

第一模型处理模块105，用于利用训练得到的命名实体识别模型对预处理后的第一待识别文本进行处理，得到所述第一待识别文本的命名实体自动标注结果；

第一比对模块106，用于比对命名实体自动标注结果与预先获得的命名实体人工标注结果是否相同，若相同，则将命名实体自动标注结果作为第一待识别文本的目标命名实体标注结果，若不相同，则输出第一人工审核通知，并接收响应第一人工审核通知的第一目标命名实体标注结果；

第二比对模块107，用于比对命名实体自动标注结果与接收到的第一目标命名实体标注结果是否相同；

第一样本增加模块108，用于在命名实体自动标注结果与接收到的第一目标命名实体标注结果不相同时，将第一待识别文本及第一待识别文本对应的第一目标命名实体标注结果加入初始样本数据集中，以便在初始样本数据集中的训练文本达到预设数量时，根据训练文本达到预设数量的初始样本数据集对命名实体识别模型进行重新训练。

在本发明一个实施例中，命名实体识别装置10还包括：

新样本数据集获取模块109，用于在判断模块的判断结果为否时，对初始样本数据集中的训练文本的语句顺序进行N次打乱处理，生成N个不同的新样本数据集，其中N取正整数；

第二模型训练模块110，根据初始样本数据集对所述预设的命名实体识别模型进行训练，并根据N个不同的新样本数据集分别对所述预设的命名实体识别模型进行训练，得到N+1个训练后的命名实体识别模型；

第二文本接收模块111，用于接收第二待识别文本，并对第二待识别文本进行预处理；

第二模型处理模块112，用于利用所述N+1个训练后的命名实体识别模型分别对预处理后的第二待识别文本进行处理，得到第二待识别文本对应的N+1个命名实体自动标注结果；

第三比对模块113，用于比对N+1个命名实体标注结果是否相同，若相同，则将相同的命名实体自动标注结果作为第二待识别文本的目标命名实体标注结果，若不相同，则输出第二人工审核通知，并接收响应第二人工审核通知的第二目标命名实体标注结果；

第二样本增加模块114，用于将第二待识别文本及第二待识别文本对应的第二目标命名实体标注结果加入初始样本数据集中，直到初始样本数据集中的训练文本数量达到预设阈值。

在本发明一个实施例中，第一模型训练模块具体用于：

将初始样本数据集划分为训练集、验证集和测试集；

根据训练集对命名实体识别模型进行训练；

根据验证集对经过训练的命名实体识别模型进行验证；

根据测试集对经过验证的命名实体识别模型进行测试，若测试成功，训练结束。

在本发明一个实施例中，命名实体识别模型包括BERT层和CRF层。

在本发明一个实施例中，第一模型处理模块具体用于：

利用BERT层对第一待识别文本对应的输入序列进行处理，得到第一待识别文本对应的文本特征序列；

利用CRF层对第一待识别文本的文本特征序列进行处理，得到第一待识别文本的命名实体自动标注结果。

在本发明一个实施例中，初始样本数据集获取模块具体用于：

从样本数据库中获取初始样本数据集，初始样本数据集包含多个训练文本，各训练文本中不同类别的命名实体已预先设置为不同的字体样式；

在本发明一个实施例中，预处理为文本序列化处理。

本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的模块作并不一定是本发明所必须的。

实施例三

本发明还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器22，如图4所示。需要指出的是，图4仅示出了具有组件21-22的计算机设备20，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备20的内部存储单元，例如该计算机设备20的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备20的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件，例如实施例二的命名实体识别置10的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行命名实体识别装置10，以实现实施例一的命名实体识别方法。

实施例四

本发明还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储命名实体识别装置10，被处理器执行时实现实施例一的命名实体识别方法。

Claims

1.一种命名实体识别方法，其特征在于，包括以下步骤：

比对所述命名实体自动标注结果与接收到的所述第一目标命名实体标注结果是否相同，若不相同，则将所述第一待识别文本及所述第一待识别文本对应的第一目标命名实体标注结果加入所述初始样本数据集中，以便在所述初始样本数据集中的训练文本达到预设数量时，根据训练文本达到预设数量的初始样本数据集对命名实体识别模型进行重新训练；

当所述判断所述初始样本数据集中的训练文本数量是否达到预设阈步骤的判断结果为否时，执行以下操作：

2.根据权利要求1所述的命名实体识别方法，其特征在于，所述根据所述初始样本数据集对命名实体识别模型进行训练的步骤包括：

将所述初始样本数据集划分为训练集、验证集和测试集；

根据所述训练集对命名实体识别模型进行训练；

根据所述验证集对经过训练的命名实体识别模型进行验证；

3.根据权利要求1所述的命名实体识别方法，其特征在于，所述命名实体识别模型包括BERT层和CRF层。

4.根据权利要求3所述的命名实体识别方法，其特征在于，所述利用训练得到的命名实体识别模型对预处理后的第一待识别文本进行处理，得到所述第一待识别文本的命名实体自动标注结果的步骤包括：

5.根据权利要求1所述的命名实体识别方法，其特征在于，所述从样本数据库中获取初始样本数据集的步骤具体包括：

6.根据权利要求1所述的命名实体识别方法，其特征在于，所述对所述第一待识别文本进行预处理的步骤包括：

对所述第一待识别文本进行文本序列化处理。

7.一种命名实体识别装置，其特征在于，包括：

第一样本增加模块，用于在所述命名实体自动标注结果与接收到的第一目标命名实体标注结果不相同时，将所述第一待识别文本及所述第一待识别文本对应的第一目标命名实体标注结果加入所述初始样本数据集中，以便在所述初始样本数据集中的训练文本达到预设数量时，根据训练文本达到预设数量的初始样本数据集对命名实体识别模型进行重新训练；

8.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。