CN111523324A

CN111523324A - 命名实体识别模型的训练方法及装置

Info

Publication number: CN111523324A
Application number: CN202010190438.6A
Authority: CN
Inventors: 夏鲁豫
Original assignee: Dazhu Hangzhou Technology Co ltd
Current assignee: Dazhu Hangzhou Technology Co ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-08-11
Anticipated expiration: 2040-03-18
Also published as: CN111523324B

Abstract

本发明提供了一种命名实体识别模型的训练方法及装置，其中，该方法包括：将无监督语料输入预训练Bert模型和预设模型进行训练，得到第一模型，其中，预设模型表示与预训练Bert模型的模型框架相同且参数量比预训练Bert模型的参数量小的初始化模型；将命名实体识别语料输入预训练Bert模型进行训练，得到目标训练模型；将命名实体识别语料输入目标训练模型和第一模型进行训练，得到第二模型；将命名实体识别语料输入目标训练模型和第二模型进行训练，得到目标模型。通过本发明，解决了相关技术中的命名实体识别模型因参数量巨大而存在的识别效率低且无法嵌入到移动终端中使用等技术问题，从而大大提高了命名实体识别率。

Description

命名实体识别模型的训练方法及装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种命名实体识别模型的训练方法及装置。

背景技术

命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。简单的讲，就是识别自然文本中的实体指称的边界和类别。

早期的命名实体识别方法基本都是基于规则的；之后由于基于大规模的语料库的统计方法在自然语言处理各个方面取得不错的效果之后，一大批机器学习的方法也出现在命名实体类识别任务，目前Bert(全称为Bidirectional Encoder Representations fromTransformers，即来自变换器的双向编码器表征量)等大规模预训练模型效果较好。

相关技术中，主流的命名实体识别模型大多基于Bert等大规模预训练模型，然而Bert等大规模预训练模型的参数量巨大，无法嵌入到移动终端中，并且在推理预测上特别耗时，这在很多实时场景下不被允许。

针对相关技术中存在的上述问题，目前尚未发现有效的解决方案。

发明内容

本发明实施例提供了一种命名实体识别模型的训练方法及装置、计算机设备、存储介质，以至少解决了相关技术中的命名实体识别模型因参数量较大存在的识别效率低且无法嵌入到移动终端中使用等技术问题。

根据本发明的一个实施例，提供了一种命名实体识别的方法，包括：将无监督语料输入预训练Bert模型和预设模型进行训练，得到第一模型，其中，所述预设模型表示与所述预训练Bert模型的模型框架相同且参数量比所述预训练Bert模型的参数量小的初始化模型；将命名实体识别语料输入所述预训练Bert模型进行训练，得到目标训练模型，其中，所述命名实体识别语料表示对预设训练文本进行命名实体识别标注后的语料；将所述命名实体识别语料输入所述目标训练模型和所述第一模型进行训练，得到第二模型；将所述命名实体识别语料输入所述目标训练模型和所述第二模型进行训练，得到目标模型。

可选的，将无监督语料输入预训练Bert模型和预设模型进行训练，得到第一模型，包括：基于所述无监督语料对所述预训练Bert模型进行训练，并将所述预训练Bert模型的中间层的第一输出作为第一监督信号；基于所述第一监督信号和所述无监督语料对所述预设模型进行训练，得到所述第一模型。

可选的，基于所述第一监督信号和所述无监督语料对所述预设模型进行训练，得到所述第一模型，包括：将所述无监督语料输入所述预设模型，得到所述预设模型的中间层数据；基于优化-损失函数，对所述第一监督信号和所述预设模型的中间层数据进行训练，得到所述第一模型。

可选的，将命名实体识别语料输入所述预训练Bert模型进行训练，得到目标训练模型，包括：提取所述命名实体识别语料的标注标签，并将所述标注标签作为第二监督信号；基于所述第二监督信号对所述预训练Bert模型进行训练，得到所述目标训练模型。

可选的，将所述命名实体识别语料输入所述目标训练模型和所述第一模型进行训练，得到第二模型，包括：基于所述命名实体识别语料对所述目标训练模型进行训练，并将所述目标训练模型的中间层的第二输出作为第三监督信号；基于所述第三监督信号和所述命名实体识别语料对所述第一模型进行训练，得到所述第二模型。

可选的，基于所述第三监督信号和所述命名实体识别语料对所述第一模型进行训练，得到所述第二模型，包括：将所述命名实体识别语料输入所述第一模型，得到所述第一模型的中间层数据；基于优化-损失函数，对所述第三监督信号和所述第一模型的中间层数据进行训练，得到所述第二模型。

可选的，将所述命名实体识别语料输入所述目标训练模型和所述第二模型进行训练，得到目标模型，包括：基于所述命名实体识别语料对所述目标训练模型进行训练，并将所述目标训练模型的中间层的第三输出作为第四监督信号；将所述命名实体识别语料输入所述第二模型，得到所述第二模型的中间层数据；基于优化-损失函数，对所述第四监督信号和所述第二模型的中间层数据进行训练，得到所述目标模型。

根据本发明的一个实施例，还提供了一种命名实体识别模型的训练装置，包括：第一训练模块，用于将无监督语料输入预训练Bert模型和预设模型进行训练，得到第一模型，其中，所述预设模型表示与所述预训练Bert模型的模型框架相同且参数量比所述预训练Bert模型的参数量小的初始化模型；第二训练模块，用于将命名实体识别语料输入所述预训练Bert模型进行训练，得到目标训练模型，其中，所述命名实体识别语料表示对预设训练文本进行命名实体识别标注后的语料；第三训练模块，用于将所述命名实体识别语料输入所述目标训练模型和所述第一模型进行训练，得到第二模型；第四训练模块，用于将所述命名实体识别语料输入所述目标训练模型和所述第二模型进行训练，得到目标模型。

可选的，所述第一训练模块包括：第一训练单元，用于基于所述无监督语料对所述预训练Bert模型进行训练，并将所述预训练Bert模型的中间层的第一输出作为第一监督信号；第二训练单元，用于基于所述第一监督信号和所述无监督语料对所述预设模型进行训练，得到所述第一模型。

可选的，所述第二训练单元包括：第一训练子单元，用于将所述无监督语料输入所述预设模型，得到所述预设模型的中间层数据；第二训练子单元，用于基于优化-损失函数，对所述第一监督信号和所述预设模型的中间层数据进行训练，得到所述第一模型。

可选的，所述第二训练模块包括：提取单元，用于提取所述命名实体识别语料的标注标签，并将所述标注标签作为第二监督信号；第三训练单元，用于基于所述第二监督信号对所述预训练Bert模型进行训练，得到所述目标训练模型。

可选的，所述第三训练模块包括：第四训练单元，用于基于所述命名实体识别语料对所述目标训练模型进行训练，并将所述目标训练模型的中间层的第二输出作为第三监督信号；第五训练单元，用于基于所述第三监督信号和所述命名实体识别语料对所述第一模型进行训练，得到所述第二模型。

可选的，所述第五训练单元包括：第三训练子单元，用于将所述无监督语料输入所述第一模型，得到所述第一模型的中间层数据；第二拟合子单元，用于基于优化-损失函数，对所述第三监督信号和所述第一模型的中间层数据进行训练，得到所述第二模型。

可选的，所述第四训练模块包括：第六训练单元，用于基于所述命名实体识别语料对所述目标训练模型进行训练，并将所述目标训练模型的中间层的第三输出作为第四监督信号；第七训练单元，用于将所述命名实体识别语料输入所述第二模型，得到所述第二模型的中间层数据；第八训练单元，基于优化-损失函数，对所述第四监督信号和所述第二模型的中间层数据进行训练，得到所述目标模型。

根据本发明的又一个实施例，还提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项装置实施例中的步骤。

通过本发明，将预训练Bert模型定制成模型框架相同且参数量小的预设模型，将无监督语料和命名实体识别语料输入预训练Bert模型和预设模型，并经过多次蒸馏训练，得到一个与预训练Bert模型的模型框架相同、命名实体识别能力相当且参数量较小的目标模型，从而实现了将大规模预训练Bert模型的语言知识转移到小规模的目标模型中，还可以将小规模的目标模型嵌入移动终端中使用，解决了相关技术中的命名实体识别模型因参数量较大存在的识别效率低且无法嵌入到移动终端中使用等技术问题，提高了命名实体识别模型的识别效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种命名实体识别模型的训练方法应用于计算机终端的硬件结构框图；

图2是根据本发明实施例的一种命名实体识别模型的训练方法的流程图；

图3是根据本发明实施例提供的蒸馏模型的训练流程图；

图4是根据本发明实施例提供的一种数据增强的流程图；

图5是根据本发明实施例的一种命名实体识别模型的训练装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、服务器、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种命名实体识别模型的训练方法应用于计算机终端的硬件结构框图。如图1所示，计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的命名实体识别模型的训练方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种命名实体识别模型的训练方法，图2是根据本发明实施例的一种命名实体识别模型的训练方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，将无监督语料输入预训练Bert模型和预设模型进行训练，得到第一模型，其中，预设模型表示与预训练Bert模型的模型框架相同且参数量比预训练Bert模型的参数量小的初始化模型；

其中，无监督语料是指没有标注的语料，主要来源是从公开数据集上提取，比如从一些百科网站上爬取到的海量文本；或者从一些书籍上提取，比如流行小说等。

在本实施例中，为了将大规模的预训练Bert模型中的部分语言知识转移到小规模的小模型中，将预训练Bert模型定制成模型框架相同且参数量较小的预设模型，比如，假设预训练Bert模型拥有12层Tranform(变换)层，每层有12个多头注意力层，隐藏层参数为768；定制一个与预训练Bert模型的模型框架相同，但只有4层Tranform层，每层只有4个多头注意力层，隐藏层参数为312的预设模型，于是模型大小尺寸由原来的109M降低到14.5M，便可得到一个与预训练Bert模型的模型框架相同且参数量较小的一个初始化模型。

步骤S204，将命名实体识别语料输入预训练Bert模型进行训练，得到目标训练模型，其中，命名实体识别语料表示对预设训练文本进行命名实体识别标注后的语料；

在本实施例中，首先，对预训练文本中的实体进行标注，标注的作用是将文本数据打上标签，例如，明天出发去上海，那么将上海打上城市的标签，若将这种数据用作训练，得到的模型就能识别出上海是一个城市；其次，将标注后的语料集(即上述命名实体识别语料)输入预训练Bert模型进行训练，从而对标注后的语料集进行微调，进而获得较高准确率的实体识别模型BertForNER(即上述目标训练模型)。

步骤S206，将命名实体识别语料输入目标训练模型和第一模型进行训练，得到第二模型；

在本实施例中，将微调后的BertForNER模型在标注后的语料集上进行中间层蒸馏训练，实现了将BertForNER模型中的语言知识转移到第二模型中。

步骤S208，将命名实体识别语料输入目标训练模型和第二模型进行训练，得到目标模型。

在本实施例中，将微调后的BertForNER模型在标注后的语料集上进行预测结果蒸馏训练，得到最终的蒸馏模型(即上述目标模型)，实现了目标模型的命名实体识别能力与预训练Bert模型相当。

通过上述步骤，将预训练Bert模型定制成模型框架相同且参数量小的预设模型，将无监督语料和命名实体识别语料输入预训练Bert模型和预设模型，并经过多次蒸馏训练，得到一个与预训练Bert模型的模型框架相同、命名实体识别能力相当且参数量较小的目标模型，从而实现了将大规模预训练Bert模型的语言知识转移到小规模的目标模型中，还可以将小规模的目标模型嵌入移动终端中使用，解决了相关技术中的命名实体识别模型因参数量较大存在的识别效率低且无法嵌入到移动终端中使用等技术问题，提高了命名实体识别模型的识别效率。

在一个可选的实施例中，将无监督语料输入预训练Bert模型和预设模型进行训练，得到第一模型，包括：基于无监督语料对预训练Bert模型进行训练，并将预训练Bert模型的中间层的第一输出作为第一监督信号；基于第一监督信号和无监督语料对预设模型进行训练，得到所述第一模型。

在本实施例中，通过针对原始的BERT预训练模型进行蒸馏训练，即将获取到的大规模无监督语料输入至原始的预训练BERT模型，将其中间层输出结果作为监督信号训练定制的小模型(即上述预设模型)，这是第一轮的蒸馏训练，如图3所示，图3是根据本发明实施例提供的蒸馏模型的训练流程图。

根据上述实施例，基于第一监督信号和无监督语料对预设模型进行训练，得到第一模型，包括：将无监督语料输入预设模型，得到预设模型的中间层数据；基于优化-损失函数，对第一监督信号和预设模型的中间层数据进行训练，得到第一模型。

在一个可选的示例中，假设无监督语料集X_x，标注后的语料集

(即上述命名实体识别语料)，第一轮的蒸馏训练过程如下：将无监语料集输入至原始BERT(即上述预训练Bert模型)和定制的小模型TinyBERT(即上述预设模型)；并将BERT模型的中间层输出f_bert(X_x)(即上述第一输出)作为TinyBERT模型的监督信号(即上述第一监督信号)，使TinyBERT模型的中间层数据拟合该信号，采用优化-损失函数进行拟合，即f_bert(X_x)≈f_Tinybert(X_x)，从而获得的是第一轮蒸馏的小模型TinyBERT(即上述第一模型)。

在本案的一个实施例中，将命名实体识别语料输入预训练Bert模型进行训练，得到目标训练模型，包括：提取命名实体识别语料的标注标签，并将标注标签作为第二监督信号；基于第二监督信号对预训练Bert模型进行训练，得到目标训练模型。

在可选的一个示例中，将标注后的语料集

输入至原始BERT，提取标注后的语料集的标注标签，并将标注标签作为监督信号(即上述第二监督信号)训练原始BERT模型，即

其中，y表示标注标签值，便可获得高质量的命名实体识别模型BertForNER(即上述目标训练模型)。

在一个可选的实施例中，将命名实体识别语料输入目标训练模型和第一模型进行训练，得到第二模型，包括：基于命名实体识别语料对目标训练模型进行训练，并将目标训练模型的中间层的第二输出作为第三监督信号；基于第三监督信号和命名实体识别语料对第一模型进行训练，得到第二模型。

在本实施例中，将得到的BertForNER模型在标注后的语料集上进行中间层蒸馏训练，如图3所示；另外，在这一步骤中对标注后的数据进行数据增强，如图4所示，图4是根据本发明实施例提供的一种数据增强的流程图，抽取标注后的语料集中的所有类型的实体；在训练过程中将预训练文本中的不同类型的实体进行随机替换以增强训练数据。例如，将标注好的城市名称随机挑选一个，去替换训练数据中相应的实体，进而能够有效的扩大训练数据量。

在本实施例中，使用已标注好的数据进行数据增强，可以解决标注数据量不足的情况。

根据上述实施例，基于第三监督信号和命名实体识别语料对第一模型进行训练，得到第二模型，包括：将命名实体识别语料输入第一模型，得到第一模型的中间层数据；基于优化-损失函数，对第三监督信号和第一模型的中间层数据进行训练，得到第二模型。

在一个可选的示例中，第二轮的蒸馏训练过程如下：将标注后的语料集

同时输入至BertForNER模型和第一次蒸馏过程得到的TinyBERT模型；然后将BertForNER模型的中间层的输出(即上述第二输出)作为监督信号，与TinyBERT模型的中间层数据，采样优化-损失函数进行数据拟合，即

从而获得与BertForNER能力相当但参数量小很多的定制小模型TinyBERT(即上述第二模型)。

在一个可选的实施例中，将命名实体识别语料输入目标训练模型和第二模型进行训练，得到目标模型，包括：基于命名实体识别语料对目标训练模型进行训练，并将目标训练模型的中间层的第三输出作为第四监督信号；将命名实体识别语料输入第二模型，得到第二模型的中间层数据；基于优化-损失函数，对第四监督信号和第二模型的中间层数据进行训练，得到目标模型。

在本实施例中，通过将微调后的BertForNER模型在标注后的语料集上进行预测结果蒸馏训练，如图3所示，得到最终的蒸馏模型(即上述目标模型)。

在一个可选的示例中，第三轮的蒸馏训练过程如下：将标注后的语料集

同时输入至BertForNER模型和第二轮蒸馏训练得到的TinyBERT模型，然后将BertForNER模型的中间层的输出作为监督信号，与TinyBERT模型的中间层数据，采样优化-损失函数进行数据拟合，即

最后输出拟合结果，从而获得最后的小模型(即上述目标模型)。

通过上述实施例，定制了一个与预训练Bert模型的模型框架相同但参数量较小的模型，经过多次蒸馏训练，实现了对命名实体识别模型进行加速优化，将原始BERT模型的能力，转移到该定制小模型中，使定制的小模型能够在命名实体识别服务上获得和BERT质量相当能力，能够在计算资源受限的终端机提供高质量的命名实体识别服务，以及在计算资源充足的计算设备上提供耗时更短的命名实体识别服务。

实施例2

在本实施例中还提供了一种命名实体识别模型的训练装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本发明实施例的一种命名实体识别模型的训练装置的结构框图，如图5所示，该装置包括：第一训练模块50，用于将无监督语料输入预训练Bert模型和预设模型进行训练，得到第一模型，其中，预设模型表示与预训练Bert模型的模型框架相同且参数量比预训练Bert模型的参数量小的初始化模型；第二训练模块52，连接至上述第一训练模块50，用于将命名实体识别语料输入预训练Bert模型进行训练，得到目标训练模型，其中，命名实体识别语料表示对预设训练文本进行命名实体识别标注后的语料；第三训练模块54，连接至上述第二训练模块52，用于将命名实体识别语料输入目标训练模型和第一模型进行训练，得到第二模型；第四训练模块56，连接至上述第三训练模块54，用于将命名实体识别语料输入目标训练模型和第二模型进行训练，得到目标模型。

可选的，上述第一训练模块50包括：第一训练单元，用于基于无监督语料对预训练Bert模型进行训练，并将预训练Bert模型的中间层的第一输出作为第一监督信号；第二训练单元，用于基于第一监督信号和无监督语料对预设模型进行训练，得到第一模型。

可选的，第二训练单元包括：第一训练子单元，用于将无监督语料输入预设模型，得到预设模型的中间层数据；第二训练子单元，用于基于优化-损失函数，将第一监督信号和预设模型的中间层数据进行数据拟合，得到第一模型。

可选的，上述第二训练模块52包括：提取单元，用于提取命名实体识别语料的标注标签，并将标注标签作为第二监督信号；第三训练单元，用于基于第二监督信号对预训练Bert模型进行训练，得到目标训练模型。

可选的，上述第三训练模块54包括：第四训练单元，用于基于命名实体识别语料对目标训练模型进行训练，并将目标训练模型的中间层的第二输出作为第三监督信号；第五训练单元，用于基于第三监督信号和命名实体识别语料对第一模型进行训练，得到第二模型。

可选的，上述第五训练单元包括：第三训练子单元，用于将命名实体识别语料输入第一模型，得到第一模型的中间层数据；第四训练子单元，用于基于优化-损失函数，对第三监督信号和第一模型的中间层数据进行训练，得到第二模型。

可选的，上述第四训练模块56包括：第六训练单元，用于基于命名实体识别语料对目标训练模型进行训练，并将目标训练模型的中间层的第三输出作为第四监督信号；第七训练单元，用于将命名实体识别语料输入第二模型，得到第二模型的中间层数据；第八训练单元，基于优化-损失函数，对第四监督信号和第二模型的中间层数据进行训练，得到目标模型。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，将无监督语料输入预训练Bert模型和预设模型进行训练，得到第一模型，其中，所述预设模型表示与所述预训练Bert模型的模型框架相同且参数量比所述预训练Bert模型的参数量小的初始化模型；

S2，将命名实体识别语料输入所述预训练Bert模型进行训练，得到目标训练模型，其中，所述命名实体识别语料表示对预设训练文本进行命名实体识别标注后的语料；

S3，将所述命名实体识别语料输入所述目标训练模型和所述第一模型进行训练，得到第二模型；

S4，将所述命名实体识别语料输入所述目标训练模型和所述第二模型进行训练，得到目标模型。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种命名实体识别模型的训练方法，其特征在于，包括：

将无监督语料输入预训练Bert模型和预设模型进行训练，得到第一模型，其中，所述预设模型表示与所述预训练Bert模型的模型框架相同且参数量比所述预训练Bert模型的参数量小的初始化模型；

将命名实体识别语料输入所述预训练Bert模型进行训练，得到目标训练模型，其中，所述命名实体识别语料表示对预设训练文本进行命名实体识别标注后的语料；

将所述命名实体识别语料输入所述目标训练模型和所述第一模型进行训练，得到第二模型；

将所述命名实体识别语料输入所述目标训练模型和所述第二模型进行训练，得到目标模型。

2.根据权利要求1所述的方法，其特征在于，将无监督语料输入预训练Bert模型和预设模型进行训练，得到第一模型，包括：

基于所述无监督语料对所述预训练Bert模型进行训练，并将所述预训练Bert模型的中间层的第一输出作为第一监督信号；

基于所述第一监督信号和所述无监督语料对所述预设模型进行训练，得到所述第一模型。

3.根据权利要求2所述的方法，其特征在于，基于所述第一监督信号和所述无监督语料对所述预设模型进行训练，得到所述第一模型，包括：

将所述无监督语料输入所述预设模型，得到所述预设模型的中间层数据；

基于优化-损失函数，对所述第一监督信号和所述预设模型的中间层数据进行训练，得到所述第一模型。

4.根据权利要求1所述的方法，其特征在于，将命名实体识别语料输入所述预训练Bert模型进行训练，得到目标训练模型，包括：

提取所述命名实体识别语料的标注标签，并将所述标注标签作为第二监督信号；

基于所述第二监督信号对所述预训练Bert模型进行训练，得到所述目标训练模型。

5.根据权利要求1所述的方法，其特征在于，将所述命名实体识别语料输入所述目标训练模型和所述第一模型进行训练，得到第二模型，包括：

基于所述命名实体识别料对所述目标训练模型进行训练，并将所述目标训练模型的中间层的第二输出作为第三监督信号；

基于所述第三监督信号和所述命名实体识别语料对所述第一模型进行训练，得到所述第二模型。

6.根据权利要求5所述的方法，其特征在于，基于所述第三监督信号和所述命名实体识别语料对所述第一模型进行训练，得到所述第二模型，包括：

将所述命名实体识别语料输入所述第一模型，得到所述第一模型的中间层数据；

基于优化-损失函数，对所述第三监督信号和所述第一模型的中间层数据进行训练，得到所述第二模型。

7.根据权利要求1所述的方法，其特征在于，将所述命名实体识别语料输入所述目标训练模型和所述第二模型进行训练，得到目标模型，包括：

基于所述命名实体识别语料对所述目标训练模型进行训练，并将所述目标训练模型的中间层的第三输出作为第四监督信号；

将所述命名实体识别语料输入所述第二模型，得到所述第二模型的中间层数据；

基于优化-损失函数，对所述第四监督信号和所述第二模型的中间层数据进行训练，得到所述目标模型。

8.一种命名实体识别模型的训练装置，其特征在于，包括：

第一训练模块，用于将无监督语料输入预训练Bert模型和预设模型进行训练，得到第一模型，其中，所述预设模型表示与所述预训练Bert模型的模型框架相同且参数量比所述预训练Bert模型的参数量小的初始化模型；

第二训练模块，用于将命名实体识别语料输入所述预训练Bert模型进行训练，得到目标训练模型，其中，所述命名实体识别语料表示对预设训练文本进行命名实体识别标注后的语料；

第三训练模块，用于将所述命名实体识别语料输入所述目标训练模型和所述第一模型进行训练，得到第二模型；

第四训练模块，用于将所述命名实体识别语料输入所述目标训练模型和所述第二模型进行训练，得到目标模型。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。