CN110929521A

CN110929521A - 一种模型生成方法、实体识别方法、装置及存储介质

Info

Publication number: CN110929521A
Application number: CN201911254337.4A
Authority: CN
Inventors: 杨焱麒
Original assignee: Beijing Know Smart Information Technology Co Ltd
Current assignee: Beijing Knownsec Information Technology Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-03-27
Anticipated expiration: 2039-12-06
Also published as: CN110929521B

Abstract

本申请提供一种模型生成方法、实体识别方法、装置及存储介质，所述方法包括：将识别语句中的每个单词输入预设的神经网络模型，以获得每个单词的类别标签对应的预测概率；根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分；根据识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分，其中，每一目标路径得分大于所有路径得分中未被选取的路径得分；根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分，通过预先构建的损失函数计算对应的训练损失；根据训练损失对神经网络模型的各个参数进行迭代更新，以得到实体识别模型。

Description

一种模型生成方法、实体识别方法、装置及存储介质

技术领域

本申请涉及实体识别技术领域，具体而言，涉及一种模型生成方法、实体识别方法、装置及存储介质。

背景技术

在生产环境中,判别模型的训练任务时,往往标签类别的数量较多,很容易出现标签不均衡的情况.这给模型的泛化能力带来了很大损害。

现有技术一般通过数据增强，对不同标签进行上采样和下采样的方式来解决上述问题，但在数据增强中上采样对低分布标签进行重复采样存在着模型过拟合的问题；同时高分布标签的下采样存在着会让模型的学习范围无法覆盖到整个数据集的问题。

发明内容

本申请实施例的目的在于提供一种模型生成方法、实体识别方法、装置及存储介质，用以解决在数据增强中上采样对低分布标签进行重复采样存在的模型过拟合的问题；同时高分布标签的下采样存在的会让模型的学习范围无法覆盖到整个数据集的问题。

第一方面，实施例提供一种模型生成方法，所述方法包括：将识别语句中的每个单词输入预设的神经网络模型，以获得每个单词的类别标签对应的预测概率；根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分、以及最佳路径得分；根据所述识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分，其中，每一所述目标路径得分大于所述所有路径得分中未被选取的路径得分；根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分，通过预先构建的损失函数计算对应的训练损失；根据所述训练损失对所述神经网络模型的各个参数进行迭代更新，以得到实体识别模型。

在上述设计的模型生成方法中，在神经网络模型的训练过程中，在计算得到所有路径得分，真实路径得分以及最佳路径得分之后，还会从所有路径得分数值中按照由大到小选取预设数量的路径得分，进而根据所有路径得分，真实路径得分、最佳路径得分以及选取的路径得分计算损失函数值，这样使得选取的路径得分值的大小含有更多的预测置信度信息，解决了数据标签不平衡对模型带来的影响：解决了目前在数据增强中上采样对低分布标签进行重复采用存在着的模型过拟合问题；同时解决了对高分布标签的下采样存在着会让模型的学习范围无法覆盖到整个数据集的问题。

在第一方面的可选实施方式中，所述预先构建的损失函数Loss为：

其中，β为超参，取值为0-1；S_r表示为标签真实路径得分；S_j表示为从j到n的所有路径得分；S_b表示为最佳路径得分；S_k表示为目标路径得分，k为选取的目标路径得分个数。

在上述设计的损失函数中，选取的目标路径得分越高或者分布越均匀，说明模型整体对序列标签预测的置信度更低，则此序列对应的标签属于难识别的样本，在后续的损失函数中会给其更大值，进而强化神经网络模型对难识别样本的学习程度；选取的目标路径得分越低或者目标路径的平均得分与最佳路径得分相差较大，说明模型整体对序列标签预测的置信度越高，则此路径对应的标签属于易识别标签，在后面的损失函数中会给其更小值，减弱模型对易识别的样本的学习程度，这样CRF输出的序列便包涵了更多的预测置信度信息，解决了数据标签不平衡对模型带来的影响。

在第一方面的可选实施方式中，所述根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分，包括：通过维比特算法根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分、以及最佳路径得分。

在第一方面的可选实施方式中，所述预设的神经网络模型可为BERT-BiLSTM模型。

第二方面，实施例提供一种实体识别方法，所述方法包括：将待实体识别的语句中的每个单词输入实体识别模型，所述实体识别模型为第一方面中任一可选实施方式生成的所述实体识别模型；获得所述实体识别模型的识别结果，所述识别结果表示为对所述待实体识别的语句中每个单词的预测标签。

在上述设计的实体识别方法中，通过前述设计得到的实体识别模型进行待实体识别的语句识别，进而对该待实体识别语句中每个单词的标签进行预测，获得每个单词的预测标签，由于前述设计的实体识别模型解决数据标签不平衡对模型带来的影响，因此，本实体识别方法对实体的总体识别准确率更高。

第三方面，实施例提供一种模型生成装置，所述装置包括：输入模块，用于将识别语句中的每个单词输入预设的神经网络模型，以获得每个单词的类别标签对应的预测概率；计算模块，用于根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分；选取模块，用于根据所述识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分，其中，每一所述目标路径得分大于所述所有路径得分中未被选取的路径得分；所述计算模块，还用于根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分，通过预先构建的损失函数计算对应的训练损失；迭代更新模块，用于根据所述训练损失对所述神经网络模型的各个参数进行迭代更新，以得到实体识别模型。

在上述设计的模型生成装置中，在神经网络模型的训练过程中，在计算得到所有路径得分，真实路径得分以及最佳路径得分之后，还会从所有路径得分数值中按照由大到小选取预设数量的路径得分，进而根据所有路径得分，真实路径得分、最佳路径得分以及选取的路径得分计算损失函数值，这样使得选取的路径得分值的大小含有更多的预测置信度信息，解决了数据标签不平衡对模型带来的影响：解决了目前在数据增强中上采样对低分布标签进行重复采用存在着的模型过拟合问题；同时解决了对高分布标签的下采样存在着会让模型的学习范围无法覆盖到整个数据集的问题。

在第三方面的可选实施方式中，所述预先构建的损失函数Loss为：

在第三方面的可选实施方式中，所述计算模块具体用于通过维比特算法根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分。

第四方面，实施例提供一种实体识别装置，所述装置包括：输入模块，用于将待实体识别的语句中的每个单词输入实体识别模型，所述实体识别模型为第一方面中任一可选实施方式生成的所述实体识别模型；获得模块，用于获得所述实体识别模型的识别结果，所述识别结果表示为对所述待实体识别的语句中每个单词的预测标签。

在上述设计的实体识别装置中，通过前述设计得到的实体识别模型进行待实体识别的语句识别，进而对该待实体识别语句中每个单词的标签进行预测，获得每个单词的预测标签，由于前述设计的实体识别模型解决数据标签不平衡对模型带来的影响，因此，本实体识别方法对实体的总体识别准确率更高。

第五方面，实施例提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行第一方面、第一方面的任一可选的实现方式、第二方面、第二方面的任一可选的实现方式中的所述方法。

第六方面，实施例提供一种非暂态可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时执行第一方面、第一方面的任一可选的实现方式、第二方面、第二方面的任一可选的实现方式中的所述方法。

第七方面，实施例提供了一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行第一方面、第一方面的任一可选的实现方式、第二方面、第二方面的任一可选的实现方式中的所述方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请第一实施例提供的模型生成方法流程图；

图2为本申请第二实施例提供的实体识别方法流程图；

图3为本申请第三实施例提供的模型生成装置结构图；

图4位本申请第四实施例提供的实体识别装置结构图；

图5位本申请第五实施例提供的电子设备结构图。

图标：300-输入模块；302-计算模块；304-选取模块；306-迭代更新模块；400-输入模块；402-获得模块；5-电子设备；501-处理器；502-存储器；503-通信总线。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

第一实施例

如图1所示，本申请实施例提供一种模型生成方法，该方法具体包括如下步骤：

步骤S100：将识别语句中的每个单词输入预设的神经网络模型，以获得每个单词的类别标签对应的预测概率。

步骤S102：根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分。

步骤S104：根据识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分。

步骤S106：根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分，通过预先构建的损失函数计算对应的训练损失。

步骤S108：根据训练损失对神经网络模型的各个参数进行迭代更新，以得到实体识别模型。

在步骤S100中，该识别语句可认为是实体识别的目标，该识别语句为包含了多个单词的句子，例如，X是包含了5个单词的句子，5个单词分别为w1，w2，w3，w4以及w5，其中[w1，w2]是第一实体，[w3，w4]是第二实体，w5是第三实体，每一种实体代表一个类别，给每一类别设定一个标签，该标签即表示了该类单词的类别；同时识别语句的属性中还包括识别语句的长度，例如，前述的例子中，该识别语句中包含了5个单词，可以设定该识别语句的长度为5。在步骤S100中将该识别语句中的每个单词输入预设的神经网络模型之后，该预设的神经网络模型会输出每个类别的预测概率，或者说是预测得分。当一个类别中包含了多个单词时，可以将多个单词中预测概率最高的作为该类别的预测概率。

具体的，可将上述所说的识别语句输入BERT-BiLSTM模型中，进而获得BERT-BiLSTM模型的输出，每个单词的BERT-BiLSTM的输出是每个标签/类别的得分情况，可以选择每个单词中得分最高的标签最为结果。例如前述所说的w1的概率/得分为0.4、w2的得分为0.25，那么则选择w1的得分作为该第一类别的预测概率/得分。除了输入BERT-BiLSTM模型以外，还可以输入现有的LSTM等模型。

在步骤S100获得神经网络输出的各类别的预测概率之后，执行步骤S102根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分、以及最佳路径得分。如前述所说，在将识别语句输入BERT-BiLSTM模型之后，输出的每个单词的得分进入到条件随机场算法(conditional random field algorithm，CRF)中，通过条件随机场算法进行计算。

在上述所说的CRF中，会根据神经网络输出的各标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分。具体地，可以根据现有技术中的维比特算法根据各标签对应的预测概率计算标签所有路径得分以及最佳路径得分，而真实路径得分表示在该所有路径得分中得分最高的路径得分。在计算得到上述所说的标签所有路径得分、真实路径得分以及最佳路径得分之后，执行步骤S104。

前述所说的标签所有路径得分为多个路径得分，而这多个路径得分之间的得分数值各不相同，有数值大的有数值小的。在步骤S104中，根据所述识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分，具体可为，根据识别语句的长度及类别标签的数量确定目标路径得分选取的数量，例如，该预设数量可为该识别语句中的标签数与识别语句长度乘积的百分之十，假设标签数为4，识别语句的长度为5，那么则取的数量为2。需要注意的是，本申请中的举例是为了便于对于本方案的理解，不应为对本方案的限制。进而在确定出目标路径得分选取的数量之后，将所有路径得分的数值从最大值开始选取，从最大值依次递减选取多个路径得分，进而得到该预设数量的多个目标路径得分。

在选取出预设数量的多个目标路径得分之后执行步骤S106根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分，通过预先构建的损失函数计算对应的训练损失，进而执行步骤S108根据步骤S106得到的训练损失对神经网络模型的各个参数进行迭代更新，以得到实体识别模型。在对神经网络模型的各个参数进行迭代更新时，当迭代次数达到预设的上限值，例如20次；或得到的神经网络模型的各个参数达到预设的要求之后，神经网络模型的迭代更新过程停止，得到该实体识别模型。

在本实施例的可选实施方式中，该预先构建的损失函数Loss为：

其中，β为超参，取值为0-1；S_r表示为标签真实路径得分；S_j表示为从j到n的所有路径得分；S_b表示为最佳路径得分；S_k表示为目标路径得分，k为选取的目标路径得分的个数。

本申请通过测试，在命名体识别的任务上，训练，测试集为带标注的中文人民日报NER数据，比重8：2，NER标签格式BME，模型使用Bert-BiLSTM-CRF，类别数为70，训练结束点为50k样本处，GPU使用Nvidia Tesla P100，使用传统crf Loss损失函数和本方案中的损失函数，命名为Bias crfLoss的效果如下，β为Loss中的超参，代表Bias Loss占的比重大小。

以上实验说明Bias crf Loss的使用提高了模型的整体泛化能力。

在标签不平衡的问题上，对于模型的混淆矩阵进行了分析，在数据集中标签的数量如下表：

使用crf Loss和Bias crfLoss对一些标签label上的对比(表格中为准确率)：

Loss/label	B-PER	I-PER	E-PER	B-DIS	I-DIS	E-DIS
							CRF	0.84	0.88	0.82	0.40	0.51	0.45
Bias CRF	0.83	0.89	0.84	0.56	0.70	0.68

以上的数据说明本方案中的损失函数bias Loss提高了模型对识别比例较小的标签的准确率。

第二实施例

本申请提供一种实体识别方法，如图2所示，该方法具体包括如下步骤：

步骤S200：将待实体识别的语句中的每个单词输入实体识别模型，该实体识别模型为第一实施例中任一可选实施方式获得的实体识别模型。

步骤S202：获得该实体识别模型的识别结果，该识别结果包括待实体识别语句中每个单词的预测标签。

在步骤S200中，获取待实体识别的语句，该待实体识别的语句可以为一句有多种类别单词组成的句子，将该待实体识别的语句输入第一实施例中任一可选实施方式得到的实体识别模型，进而获得该实体识别模型的输出结果，该输出结果包括了该待实体识别语句中每个单词的预测标签。

第三实施例

图3出示了本申请提供的模型生成装置的示意性结构框图，应理解，该装置与上述图1中的方法实施例对应，能够执行第一实施例中服务器执行的方法涉及的步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。具体地，该装置包括：输入模块300，用于将识别语句中的每个单词输入预设的神经网络模型，以获得每个单词的类别标签对应的预测概率；计算模块302，用于根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分；选取模块304，用于根据识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分；计算模块302，还用于根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分，通过预先构建的损失函数计算对应的训练损失；迭代更新模块306，用于根据训练损失对神经网络模型的各个参数进行迭代更新，以得到实体识别模型。

在本实施例的可选实施方式中，所述预先构建的损失函数Loss为：

在本实施例的可选实施方式中，计算模块302具体用于通过维比特算法根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分。

第四实施例

图4出示了本申请提供的实体识别装置的示意性结构框图，应理解，该装置与上述图2中的方法实施例对应，能够执行第一实施例中服务器执行的方法涉及的步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system，OS)中的软件功能模块。具体地，该装置包括：输入模块400，用于将待实体识别的语句中的每个单词输入实体识别模型，该实体识别模型为第一实施例中任一可选实施方式获得的实体识别模型；获得模块402，用于获得实体识别模型的识别结果，识别结果包括待实体识别的语句中每个单词的预测标签。

第五实施例

如图5示，本申请提供一种电子设备5，包括：处理器501和存储器502，处理器501和存储器502通过通信总线503和/或其他形式的连接机构(未标出)互连并相互通讯，存储器502存储有处理器501可执行的计算机程序，当计算设备运行时，处理器501执行该计算机程序，以执行时执行第一实施例、第一实施例的任一可选的实现方式、第二实施例、第二实施例的任一可选的实现方式中的方法，例如步骤S100至步骤S108：将识别语句中的每个单词输入预设的神经网络模型，以获得每个单词的类别标签对应的预测概率；根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分；根据识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分；根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分，通过预先构建的损失函数计算对应的训练损失；根据训练损失对神经网络模型的各个参数进行迭代更新，以得到实体识别模型。

本申请提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一实施例、第一实施例的任一可选的实现方式、第二实施例、第二实施例的任一可选的实现方式中的方法。

其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory,简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM)，可编程只读存储器(Programmable Red-Only Memory,简称PROM)，只读存储器(Read-OnlyMemory,简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请提供一种计算机程序产品，该计算机程序产品在计算机上运行时，使得计算机执行第一实施例、第一实施例的任一可选的实现方式、第二实施例、第二实施例的任一可选的实现方式中的所述方法。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

需要说明的是，功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种模型生成方法，其特征在于，所述方法包括：

将识别语句中的每个单词输入预设的神经网络模型，以获得每个单词的类别标签对应的预测概率：

根据每个类别标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分；

根据所述识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分，其中，每一所述目标路径得分大于所述所有路径得分中未被选取的路径得分；

根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分，通过预先构建的损失函数计算对应的训练损失；

根据所述训练损失对所述神经网络模型的各个参数进行迭代更新，以得到实体识别模型。

2.根据权利要求1所述方法，其特征在于，所述预先构建的损失函数Loss为：

3.根据权利要求1所述方法，其特征在于，所述根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分，包括：

通过维比特算法根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分。

4.根据权利要求1所述方法，其特征在于，所述预设的神经网络模型包括BERT-BiLSTM模型。

5.一种实体识别方法，其特征在于，所述方法包括：

将待实体识别的语句中的每个单词输入实体识别模型，所述实体识别模型为所述权利要求1-4中任一项生成的所述实体识别模型；

获得所述实体识别模型的识别结果，所述识别结果包括待实体识别的语句中每个单词的预测标签。

6.一种模型生成装置，其特征在于，所述装置包括：

输入模块，用于将识别语句中的每个单词输入预设的神经网络模型，以获得每个单词的类别标签对应的预测概率；

计算模块，用于根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分；

选取模块，用于根据所述识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分，其中，每一所述目标路径得分大于所述所有路径得分中未被选取的路径得分；

所述计算模块，还用于根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分，通过预先构建的损失函数计算对应的训练损失；

迭代更新模块，用于根据所述训练损失对所述神经网络模型的各个参数进行迭代更新，以得到实体识别模型。

7.根据权利要求6所述装置，其特征在于，所述预先构建的损失函数Loss为：

8.一种实体识别装置，其特征在于，所述装置包括：

输入模块，用于将待实体识别的语句中的每个单词输入实体识别模型，所述实体识别模型为所述权利要求1-4中任一项生成的所述实体识别模型；

获得模块，用于获得所述实体识别模型的识别结果，所述识别结果包括待实体识别的语句中每个单词的预测标签。

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法。