CN117272999A

CN117272999A - 基于类增量学习的模型训练方法及装置、设备、存储介质

Info

Publication number: CN117272999A
Application number: CN202311141346.9A
Authority: CN
Inventors: 肖清; 许程冲; 杜量; 黄莉梅; 马志豪; 赵文博; 吕召彪
Original assignee: China Unicom Guangdong Industrial Internet Co Ltd
Current assignee: China Unicom Guangdong Industrial Internet Co Ltd
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-12-22

Abstract

本申请实施例公开了一种基于类增量学习的模型训练方法及装置、设备、存储介质，包括：根据样本数据生成器以及旧命名实体模型，获取目标伪样本数据集，目标伪样本数据集中包括目标伪样本数据以及与目标伪样本数据对应的目标样本标签，目标伪样本数据集中包括由样本数据生成器生成的多个初始伪样本数据中被旧命名实体模型正确识别的伪样本数据；根据目标伪样本数据集以及增量样本数据集，得到目标样本数据集；使用目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型。能够缓解命名实体识别模型训练过程中的灾难性遗忘情况，即避免延续旧模型分类错误和提高训练后对旧样本分类准确性，以及无需存储旧样本数据集。

Description

基于类增量学习的模型训练方法及装置、设备、存储介质

技术领域

本申请实施例涉及命名实体识别技术领域，涉及但不限于一种基于类增量学习的模型训练方法及装置、设备、存储介质。

背景技术

命名实体识别(Named Entity Recognition，NER)是自然语言处理中重要的应用，适用于问答系统、机器翻译、句法分析和知识图谱等任务。命名实体识别通过从非结构化文本中提取出命名实体，并将其分类为预定义的实体类别。命名实体是指具有特殊意义的实体，如人名、地名、机构名、物品名等。

在命名实体识别应用中，可能需要修改、新增或删除实体类别，一种简单方法是对所有实体类别进行重新训练，但暂用资源多效率差。可以使用增量学习方法，在原有模型的基础上学习新的实体类型，这样可以节省资源且效率更高。然而，相关技术中基于知识蒸馏的增量学习方法，命名实体识别模型通过神经网络参数来存储知识，在训练新实体类型时，会对原有模型的参数产生影响，从而影响原有模型的分类能力，此外还可能会将原有模型中的错误信息迁移到新模型中，并随着增量训练次数的增加而累积，导致灾难性遗忘。

因此，命名实体识别方法中对新实体类别进行训练而导致的灾难性遗忘，是一个亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供的基于类增量学习的模型训练方法及装置、设备、存储介质，能够缓解命名实体识别模型训练过程中的灾难性遗忘情况，即避免延续旧模型分类错误和提高训练后对旧样本分类准确性，并且无需存储旧样本数据集。本申请实施例提供的基于类增量学习的模型训练方法及装置、设备、存储介质是这样实现的：

本申请实施例提供的基于类增量学习的模型训练方法，包括：

根据样本数据生成器以及旧命名实体模型，获取目标伪样本数据集，所述目标伪样本数据集中包括目标伪样本数据以及与所述目标伪样本数据对应的目标样本标签，所述目标样本标签是通过所述旧命名实体模型对所述目标伪样本数据进行识别得到的，所述目标伪样本数据集中包括由样本数据生成器生成的多个初始伪样本数据中被所述旧命名实体模型正确识别的伪样本数据；

根据所述目标伪样本数据集以及增量样本数据集，得到目标样本数据集；所述目标样本数据集包括的样本类型多于所述目标伪样本数据集包括的样本类型；

使用所述目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型。

在一些实施例中，所述根据样本数据生成器以及旧命名实体模型，获取目标伪样本数据集，包括：

使用所述样本数据生成器生成多个初始伪样本数据；

使用所述旧命名实体模型对所述多个初始伪样本数据进行识别，得到所述多个初始伪样本数据对应的样本标签；

根据每个初始伪样本数据对应的样本标签，使用样本数据选择器从所述多个初始伪样本数据中筛选被所述旧命名实体模型正确识别且不重复的目标伪样本数据；

根据所述目标伪样本数据以及对应的目标样本标签，获取所述目标伪样本数据集。

在一些实施例中，所述根据每个初始伪样本数据对应的样本标签，使用样本数据选择器从所述多个初始伪样本数据中筛选被所述旧命名实体模型正确识别且不重复的目标伪样本数据，包括：

根据每个初始伪样本数据对应的样本标签，计算不同样本标签对应的多个被所述旧命名实体模型正确识别且不重复的初始伪样本数据的特征，并求均值，从而得到不同样本标签对应的类特征均值；

计算不同样本标签对应的多个初始伪样本数据的特征与对应类特征均值的距离，得到最小距离和最大距离；

在不同样本标签对应的新生成的初始伪样本数据中，选取特征与对应类特征均值之间的距离在所述最小距离和所述最大距离组成的区间内的初始伪样本数据作为目标伪样本数据。

在一些实施例中，所述使用所述目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型，包括：

根据基于余弦正则化的知识蒸馏算法，对所述新命名实体模型的权重参数进行调参处理，进行调参处理后的所述新命名实体模型对增量样本数据的分类权重小于进行所述调参处理前所述新命名实体模型对增量样本数据的分类权重；

根据所述旧命名实体模型与所述新命名实体模型分别对应的权重参数和特征向量，计算知识蒸馏损失；

根据所述知识蒸馏损失对所述新命名实体模型进行训练，得到训练后的新命名实体模型。

在一些实施例中，根据所述知识蒸馏损失对所述新命名实体模型进行训练，得到训练后的新命名实体模型，包括：

根据的所述增量样本数据集对应的不同样本标签的数目，对所述新命名实体模型的标签空间进行扩展处理；

根据所述旧命名实体模型与所述新命名实体模型分别对应的分类层的输出结果，计算最小化交叉熵损失；

根据预设的平衡系数，对所述知识蒸馏损失和所述最小化交叉熵损失进行加权相加，得到所述新命名实体模型在训练过程中的总损失系数；

根据所述总损失系数对所述新命名实体模型进行训练，得到训练后的新命名实体模型。

在一些实施例中，在所述根据所述目标伪样本数据集以及增量样本数据集，得到目标样本数据集后，所述方法还包括：

根据所述目标样本数据集对所述样本数据生成器进行训练，更新所述样本数据生成器的参数，根据更新后的样本数据生成器，获取新目标样本数据集；所述新目标样本数据集包括的样本类型多于所述目标样本数据集包括的样本类型；

所述使用所述目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型，包括：

使用所述新目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型。

在一些实施例中，所述样本数据生成器包含编码器和解码器，所述根据样本数据生成器以及旧命名实体模型，获取目标伪样本数据集，包括：

通过所述编码器提取旧命名实体模型对应的旧类别数据的类别特征；

通过所述解码器根据所述类别特征生成所述伪样本数据。

本申请实施例提供的基于类增量学习的模型训练方法装置，包括：

生成模块，用于根据样本数据生成器以及旧命名实体模型，获取目标伪样本数据集，所述目标伪样本数据集中包括目标伪样本数据以及与所述目标伪样本数据对应的目标样本标签，所述目标样本标签是通过所述旧命名实体模型对所述目标伪样本数据进行识别得到的，所述目标伪样本数据集中包括由样本数据生成器生成的多个初始伪样本数据中被所述旧命名实体模型正确识别的伪样本数据；

筛选模块，用于根据所述目标伪样本数据集以及增量样本数据集，得到目标样本数据集；所述目标样本数据集包括的样本类型多于所述目标伪样本数据集包括的样本类型；

训练模块，用于使用所述目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型。

本申请实施例提供的计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本申请实施例所述的方法。

本申请实施例提供的计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的所述的方法。

本申请实施例所提供的基于类增量学习的模型训练方法、装置、计算机设备和计算机可读存储介质，通过样本数据生成器生成初始伪样本数据，并通过旧命名实体模型对各个初始伪样本数据进行命名实体识别处理，将其中能够被旧命名实体模型正确识别的伪样本确定为目标伪样本数据，并记录下每个目标伪样本数据对应的样本标签，进而获得了目标伪样本数据集，所述目标伪样本数据集中包括目标伪样本数据以及与所述目标伪样本数据对应的目标样本标签。这样，通过样本数据生成器获取旧类伪样本数据，无需存储大量的旧类真实样本数据。根据目标伪样本数据以及增量样本数据集得到目标样本数据集，其中，增量样本数据集包括命名实体识别方法中需要新增的新样本类型对应新样本数据。使用目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型。这样，能够避免延续旧模型分类错误和提高训练后对旧样本分类准确性，缓解命名实体识别模型训练过程中的灾难性遗忘情况，解决背景技术中所提出的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的基于类增量学习的模型训练方法中命名实体模型的一种应用场景图；

图2为本申请实施例提供的基于类增量学习的模型训练方法的一种实现流程图示；

图3为本申请实施例提供的基于类增量学习的模型训练方法的一种示意图；

图4为本申请实施例提供的基于类增量学习的模型训练方法的另一种实现流程图示；

图5为本申请实施例提供的基于类增量学习的模型训练方法中样本数据生成器的结构示意图；

图6为本申请实施例提供的基于类增量学习的模型训练装置的结构示意图；

图7为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

需要指出，本申请实施例所涉及的术语“第一\第二\第三”用以区别类似或不同的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

命名实体识别作为自然语言处理中的一项重要应用，能够用于问答系统、机器翻译、句法分析、知识图谱等任务。命名实体识别能够从非结构化的文本范围中抽取出命名实体，并将其分类为预定义的实体类别。其中命名实体是指文本中具有特殊意义的实体，例如人名、地名、机构名、物品名等。通过命名实体识别方法对文本中的实体进行标注或提取，通常采用序列标注的方式，训练命名实体识别模型，将文本中的每个词或标记分类划分为训练好的实体类别或非实体类别，从而实现对文本进行更深入的分析和理解。

在命名实体识别方法的应用过程中，可能存在修改、新增以及删除实体类别等情况，为了适配新的实体类别，最简单一种方法是对所有的实体类别建立数据集并重新训练命名实体识别模型，但该方法占用的计算资源多并且效率低。可以使用增量学习的方法，在原有模型的基础上对新的实体类型进行学习，无需对全部数据进行训练，占用的资源少、效率高。相关技术中通过基于知识蒸馏技术的增量学习保留原有模型来训练新模型，但是，以往的原有模型可能存在错分旧类别的情况，基于知识蒸馏的技术会将此类旧模型错误的信息迁移到新模型中，并且这些错误信息会随着新实体类别数目的增加而逐渐累积，从而加重灾难性遗忘法的情况，由于命名实体识别方法是通过神经网络的各个参数来存储知识，在训练新实体类型时，不可避免的会对原有模型的参数进行影响，进而造成对原有模型的分类能力变差。

有鉴于此，本申请实施例提供一种基于类增量学习的模型训练方法，该方法应用于电子设备。

请参阅图1，为本申请实施例提供的基于类增量学习的模型训练方法中命名实体模型的一种应用场景图。用户可携带、佩戴或使用电子设备10，该电子设备10可包括但不限于手机、可穿戴设备(如智能手表、智能手环、智能眼镜等)、平板电脑，笔记本电脑、车载终端、PC(Personal Computer，个人计算机)等。该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该电子设备至少包括处理器和存储介质。

如图1所示，通过命名实体模型，用户向电子设备10输入文本信息“4月13日的下午天空湛蓝是个难得的晴天，整个希望学校全校上下活力满满，在宽敞的体育场顺利开展了运动会。”，电子设备10通过本申请实施例提供的基于类增量学习的模型训练方法中的命名实体模型对输入的文本信息进行处理，提取文本信息中的命名实体，包括，时间实体“4月13日、下午”、天气实体“晴天”、组织实体“希望学校”、地址实体“体育场”以及活动实体“运动会”。通过所述命名实体模型，能够提取出文本信息中的命名实体，并根据实体类型做进一步应用，例如图1中可以将提取到的命名实体作为关键词进行简短记录，这样可以更方便地索引和检索相关信息，基于命名实体的关键词记录可以帮助用户更快速地获取所需信息，提高信息的检索效率。此外本申请实施中的命名实体模型还可以用于对问答系统、机器翻译、句法分析、知识图谱等任务的前置关键词提取和辅助作业，在此不作限定。

需要说明的是，在问答系统中，识别文本中的命名实体可以帮助系统更好地理解用户的问题，并提供准确的答案。在机器翻译任务中，提取源语言文本中的命名实体可以帮助翻译引擎更好地保留实体信息，并更准确地翻译成目标语言。在句法分析任务中，命名实体识别可以作为前置关键词提取，帮助系统更好地理解句子结构和语义关系。对知识图谱的构建也可以借助命名实体识别来提取知识内容，并与其他知识进行关联。这些应用证明了命名实体模型在各种自然语言处理任务中的重要性和实用性，而本申请实施例提供的基于类增量学习的模型训练方法能够利用较少计算资源完成对新命名实体模型的训练。

为解释本申请实施例提供的基于类增量学习的模型训练方法的实现流程，下面将结合附图对该方法进行说明。

请参阅图2，为本申请实施例提供的基于类增量学习的模型训练方法的一种实现流程图示。如图2所示，该方法可以包括以下步骤201至步骤203。

步骤201，根据样本数据生成器以及旧命名实体模型，获取目标伪样本数据集。

在本申请实施例中，根据样本数据生成器以及旧命名实体模型，获取目标伪样本数据集，所述目标伪样本数据集中包括目标伪样本数据以及与所述目标伪样本数据对应的目标样本标签，所述目标样本标签是通过所述旧命名实体模型对所述目标伪样本数据进行识别得到的，所述目标伪样本数据集中包括由样本数据生成器生成的多个初始伪样本数据中被所述旧命名实体模型正确识别的伪样本数据。

在一些实施例中，所述样本数据生成器包含编码器和解码器；通过所述编码器提取旧命名实体模型对应的旧类别数据的类别特征；通过所述解码器根据所述类别特征生成所述伪样本数据。

在一些实施例中，根据所述目标样本数据集对所述样本数据生成器进行训练，更新所述样本数据生成器的参数，根据更新后的样本数据生成器，获取新目标样本数据集；所述新目标样本数据集包括的样本类型多于所述目标样本数据集包括的样本类型；使用所述新目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型。

需要说明的是，通过使用目标样本数据集来训练新样本数据生成器，并根据新样本数据生成器获取新目标样本数据集这样的迭代训练过程，能够使样本数据生成器和新命名实体模型更好地适应不同类型的样本，防止一些实施例中，因训练大量新类型数据致使新命名实体模型对旧类型数据的识别及分类准确性降低。

步骤202，根据目标伪样本数据集以及增量样本数据集，得到目标样本数据集。

在本申请实施例中，根据所述目标伪样本数据集以及增量样本数据集，得到目标样本数据集；所述目标样本数据集包括的样本类型多于所述目标伪样本数据集包括的样本类型。

需要说明的是，增量样本数据集是指需要在新命名实体模型中增加的类型的数据，包括增量样本数据和对应的类型标签。类型标签可以是人工标记，也可以是通过其它算法或模型根据增量样本数据自动生成，在此不作限定。

步骤203，使用目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型。

在本申请实施例中，使用所述目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型。

在一些实施例中，根据基于余弦正则化的知识蒸馏算法，对所述新命名实体模型的权重参数进行调参处理，进行调参处理后的所述新命名实体模型对增量样本数据的分类权重小于进行所述调参处理前所述新命名实体模型对增量样本数据的分类权重；根据所述旧命名实体模型与所述新命名实体模型分别对应的权重参数和特征向量，计算知识蒸馏损失；根据所述知识蒸馏损失对所述新命名实体模型进行训练，得到训练后的新命名实体模型。

需要说明的是，知识蒸馏是一种模型优化算法，在本申请实施例中，旨在通过对已经完成训练的命名实体模型通过少量的数据的处理得到新命名实体模型，而无需对所有样本进行标记和重新训练，通过这种方法能够节省计算资源、提升训练效率，并解决了由于数据隐私和安全问题导致旧实体类别的数据可能不方便存储的情况。

在知识蒸馏的过程中，采用余弦正则化策略指导知识迁移，即只迁移旧模型正确的分类信息，减轻错误知识的迁移，以避免新命名实体模型训练过程中由于错误知识不断记录致使新模型的分类准确性变差。当新旧两个命名实体模型输出分类概率的数量级相差过大，较大的一方会对计算结果产生较大影响，余弦正则化方法通过引入余弦相似度，预设一个合适的阈值范围来约束新旧模型网络参数之间的相似性，消除新类别数据在进行分类时权重和偏差项的量级比旧类别大，而致使分类结果不准确的影响。

在一些实施例中，根据的所述增量样本数据集对应的不同样本标签的数目，对所述新命名实体模型的标签空间进行扩展处理；根据所述旧命名实体模型与所述新命名实体模型分别对应的分类层的输出结果，计算最小化交叉熵损失；根据预设的平衡系数，对所述知识蒸馏损失和所述最小化交叉熵损失进行加权相加，得到所述新命名实体模型在训练过程中的总损失系数；根据所述总损失系数对所述新命名实体模型进行训练，得到训练后的新命名实体模型。

需要说明的是，对新命名实体模型的标签空间进行扩展处理是指对新命名实体模型的线相连接层做相应的扩展以适应新的实体类型，可以使用最小化交叉熵损失，提高新命名实体模型的识别分类准确性。对知识蒸馏损失和最小化交叉熵损失进行加权相加，得到新命名实体模型训练过程中的总损失。根据总损失指导模型更新参数和权重，使得模型的识别及分类准确性进一步提高。

在上述技术方案中，提供样本数据生成器和旧命名实体模型，获取目标伪样本数据集，无需对旧样本数据集进行存储。将目标伪样本数据集和包括新类型样本数据的增量样本数据集进行整合得到目标样本数据集，使用该数据集进行训练可以对新类型样本和旧类别样本进行训练。使用目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型，从而实现提高训练后新模型对旧类型样本的分类准确率以及避免延续旧模型的分类错误。

下面将结合附图，对本申请实施例提供的基于类增量学习的模型训练方法的实现过程进行说明。

请参与图3，为本申请实施例提供的基于类增量学习的模型训练方法的一种示意图。

在一些实施例中，在通过样本数据生成器获取初始伪样本数据后，通过样本数据选择器对所述初始伪样本数据进行筛选，从而构建目标伪样本数据集。

如图3所示，在一些实施例中，基于类增量学习的模型训练方法通过样本数据生成器生成了能够被旧命名实体模型正确识别并分类的初始伪样本数据。通过样本数据选择器对产生的初始伪样本数据进行筛选，将符合筛选条件的初始伪样本数据确定为目标伪样本数据，并将指定数目的目标伪样本构成目标伪样本数据集。所述目标伪样本数据集在经过旧命名实体模型对应的特征提取层和分类层会得到旧样本类型输出。将目标伪样本数据集和包括新类型样本的增量样本数据集进行组合，构成目标样本数据集，所述目标样本数据集在经过新命名实体模型对应的特征提取层和分类层会得到新样本类型输出。需要说明的是，通过旧样本类型输出和新样本类型输出能够计算得出最小化交叉熵损失，并对新命名实体模型做出相应调整，以提升命名实体识别方法的识别准确性。

下面将结合附图，着重对本申请实施例提供的基于类增量学习的模型训练方法中获取目标伪样本数据的实现流程进行说明。

请参阅图4，为本申请实施例提供的基于类增量学习的模型训练方法的另一种实现流程图示。如图4所述，可以包含以下步骤401至步骤405。

步骤401，使用样本数据生成器生成包含初始类别信息的伪样本数据。

在一些实施例中，样本数据生成器可以生成包含初始类型信息的伪样本数据。其中，初始类型信息是指旧命名实体模型能够识别并进行分类的数据信息。在该步骤生成的伪样本数据具有旧命名实体模型处理的初始样本数据对应的部分特征。

需要说明的是，在一些实施例中，对根据样本数据生成器得到的伪样本数据进行初筛选处理，通过计算并记录各个伪样本数据的特征，计算各个伪样本数据间的相似度，舍弃相似度低于预设阈值的一组伪样本数据中的一个或多个数据。通过实施该方法，防止生成的伪样本数据过于相似，致使新命名实体模型在训练过程中出现过拟合情况，也就是模型在训练数据上的分类准确率高与预设目标，而面对真实应用数据时分类效果较差。

步骤402，使用旧命名实体模型对伪样本数据进行标签处理，得到标记初始类别标签的初始伪样本数据。

在一些实施例中，所述根据样本数据生成器以及旧命名实体模型，获取目标伪样本数据集，包括：使用所述样本数据生成器生成多个初始伪样本数据；使用所述旧命名实体模型对所述多个初始伪样本数据进行识别，得到所述多个初始伪样本数据对应的样本标签；根据每个初始伪样本数据对应的样本标签，使用样本数据选择器从所述多个初始伪样本数据中筛选被所述旧命名实体模型正确识别且不重复的目标伪样本数据；根据所述目标伪样本数据以及对应的目标样本标签，获取所述目标伪样本数据集。

需要说明的是，使用旧命名实体模型对样本数据生成器生成的伪样本数据进行标签处理，是指，用旧命名实体模型对伪样本数据进行分类，分类结果包括无法识别，以及伪样本数据被分为旧命名实体模型包含的实体类型中的一种。将能够被识别并分类的伪样本数据标记旧实体类型对应的样品标签。

步骤403，使用样本数据选择器对初始伪样本数据进行筛选处理，将其中具有典型性的初始伪样本数据确认为目标伪样本数据。

在一些实施例中，所述根据每个初始伪样本数据对应的样本标签，使用样本数据选择器从所述多个初始伪样本数据中筛选被所述旧命名实体模型正确识别且不重复的目标伪样本数据，包括：根据每个初始伪样本数据对应的样本标签，计算不同样本标签对应的多个被所述旧命名实体模型正确识别且不重复的初始伪样本数据的特征，并求均值，从而得到不同样本标签对应的类特征均值；计算不同样本标签对应的多个初始伪样本数据的特征与对应类特征均值的距离，得到最小距离和最大距离；在不同样本标签对应的新生成的初始伪样本数据中，选取特征与对应类特征均值之间的距离在所述最小距离和所述最大距离组成的区间内的初始伪样本数据作为目标伪样本数据。

需要说明的是，具有典型性的初始伪样本数据是指，特征与对应类特征均值之间的距离在最小距离和最大距离组成的区间内的初始伪样本数据。

可以理解的是旧命名实体模型能够对多种类型的数据进行识别并分类，并对应多种旧类型标签。由样本数据生成器生成多个初始伪样本数据，并根据样本标签进行分组，计算每组初始伪样本数据的特征均值记为类特征均值，并计算不同样本标签对应的多个初始伪样本中各个初始伪样本数据的特征与对应类特征均值的距离，记录最小距离和最大距离，并由两者组成距离区间。后续在生成新的初始伪样本数据时，计算其特征与其实体类型对应的类特征均值的距离，若在距离区间内则保留该初始伪样本数据标记为目标伪样本数据，若不在距离区间内则舍弃。

在一些实施例中，在获取了预设数目的目标伪样本数据后，不再生成新数据，将已获取的各个类型的目标伪样本数据以及对应的目标样本标签构成目标伪样本数据集。

步骤404，整合所述目标伪样本数据与增量样本数据，从而得到目标样本数据集。

步骤405，使用目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型。

应该理解的是，虽然上述各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在上述技术方案中，使用样本数据选择器对初始伪样本数据进行筛选处理，将其中具有典型性的初始伪样本数据确认为目标伪样本数据。通过设计的样本数据选择器对样本数据生成器生成的初始伪样本数据做进一步筛选处理，能够提高伪样本数据的质量，更好地放映旧类型数据的特征，进而提高后续模型训练的效果。

下面将结合附图，对本申请实施例提供方法中的样本数据生成器，已经生成伪样本数据的过程进行说明。

请参阅图5，为本申请实施例提供的基于类增量学习的模型训练方法中样本数据生成器的结构示意图。

如图5所示，在一些申请实施例中，样本数据生成器包括编码器和解码器，通过所述编码器提取旧命名实体模型对应的旧类别数据的类别特征；通过所述解码器根据所述类别特征生成所述伪样本数据。编码器和解码器都是由多个全连接层、多个激活层以及多个线性隐藏层组成。其中，编码器和解码器的可以使用S型函数(Sigmod函数)作为激活层的激活函数，该函数可以将实数映射到(0,1)区间，因为其单增以及反函数单增等性质常被用做神经网络的阈值函数。

在一些实施例中，样本数据生成器为变分自编码器(Variational Auto-Encoders，VAE)。需要说明的是，变分自编码器是一种基于神经网络的无监督学习方法，由编码器和解码器两部分组成。

其中，通过编码器对各个样本标签对应的旧类样本数据进行特征提取。提取公式可以表示为：

其中，x_k是旧类样本数据，φ_θ表示对旧类样本数据分布的特征提取，θ为编码器神经网络的参数，μ_k和σ_k分别为各个样本标签对应的旧类样本数据特征的均值和方差。

为了使变分自编码器生成伪样本数据，样本数据在隐藏空间中潜在特征Z的分布需满足标准正态分布N(0,1)。解码器对应的神经网络根据潜在特征Z，重构产生新的样本数据。此时使用KL散度进行均衡，KL散度损失公式可以表示为：

其中，d是潜在特征Z的维度，而μ_i和分别代表各独立样本数据的一般正态分布的均值向量和方差向量的第i个分量。

在一些实施例中，为了使样本数据生成器生成的伪样本数据与真实的旧类样本数据更加接近，样本数据生成器通过均方误差最小化重构损失L_R减小生成伪样本的误差，重构损失L_R的公式可以表示为：

L_R＝(x_k-x′_k)² (3)

其中x′_k表示新生成的伪样本数据。

变分自编码器的损失函数为KL散度损失为与重构损失的总和。

在上述技术方案中，本申请实施例中的样本数据生成器能够生成新的包含旧类样本数据信息的伪样本数据，无需对旧类真实样本数据进行存储，确保了数据隐私安全，同时能够有针对的对新命名实体模型进行训练，避免延续旧命名实体模型的分类错误问题。

基于前述的实施例，本申请实施例提供一种基于类增量学习的模型训练装置，该装置包括所包括的各模块、以及各模块所包括的各单元，可以通过处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图6为本申请实施例提供的基于类增量学习的模型训练装置的结构示意图，如图6所示，所述装置600包括生成模块601、筛选模块602和训练模块603，其中：

生成模块601，用于根据样本数据生成器以及旧命名实体模型，获取目标伪样本数据集，所述目标伪样本数据集中包括目标伪样本数据以及与所述目标伪样本数据对应的目标样本标签，所述目标样本标签是通过所述旧命名实体模型对所述目标伪样本数据进行识别得到的，所述目标伪样本数据集中包括由样本数据生成器生成的多个初始伪样本数据中被所述旧命名实体模型正确识别的伪样本数据。

在一些实施例中，生成模块601还用于，根据所述目标样本数据集对所述样本数据生成器进行训练，更新所述样本数据生成器的参数，根据更新后的样本数据生成器，获取新目标样本数据集；所述新目标样本数据集包括的样本类型多于所述目标样本数据集包括的样本类型；使用所述新目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型。

在一些实施例中，生成模块601，样本数据生成器包含编码器和解码器，还用于，通过所述编码器提取旧命名实体模型对应的旧类别数据的类别特征；通过所述解码器根据所述类别特征生成所述伪样本数据。

筛选模块602，用于根据所述目标伪样本数据集以及增量样本数据集，得到目标样本数据集；所述目标样本数据集包括的样本类型多于所述目标伪样本数据集包括的样本类型。

在一些实施例中，筛选模块602还用于，使用所述样本数据生成器生成多个初始伪样本数据；使用所述旧命名实体模型对所述多个初始伪样本数据进行识别，得到所述多个初始伪样本数据对应的样本标签；根据每个初始伪样本数据对应的样本标签，使用样本数据选择器从所述多个初始伪样本数据中筛选被所述旧命名实体模型正确识别且不重复的目标伪样本数据；根据所述目标伪样本数据以及对应的目标样本标签，获取所述目标伪样本数据集。

在一些实施例中，筛选模块602还用于，根据每个初始伪样本数据对应的样本标签，计算不同样本标签对应的多个被所述旧命名实体模型正确识别且不重复的初始伪样本数据的特征，并求均值，从而得到不同样本标签对应的类特征均值；计算不同样本标签对应的多个初始伪样本数据的特征与对应类特征均值的距离，得到最小距离和最大距离；在不同样本标签对应的新生成的初始伪样本数据中，选取特征与对应类特征均值之间的距离在所述最小距离和所述最大距离组成的区间内的初始伪样本数据作为目标伪样本数据。

训练模块603，用于使用所述目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型。

在一些实施例中，训练模块603还用于，根据基于余弦正则化的知识蒸馏算法，对所述新命名实体模型的权重参数进行调参处理，进行调参处理后的所述新命名实体模型对增量样本数据的分类权重小于进行所述调参处理前所述新命名实体模型对增量样本数据的分类权重；根据所述旧命名实体模型与所述新命名实体模型分别对应的权重参数和特征向量，计算知识蒸馏损失；根据所述知识蒸馏损失对所述新命名实体模型进行训练，得到训练后的新命名实体模型。

在一些实施例中，训练模块603还用于，根据的所述增量样本数据集对应的不同样本标签的数目，对所述新命名实体模型的标签空间进行扩展处理；根据所述旧命名实体模型与所述新命名实体模型分别对应的分类层的输出结果，计算最小化交叉熵损失；根据预设的平衡系数，对所述知识蒸馏损失和所述最小化交叉熵损失进行加权相加，得到所述新命名实体模型在训练过程中的总损失系数；根据所述总损失系数对所述新命名实体模型进行训练，得到训练后的新命名实体模型。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中图6所示的基于类增量学习的模型训练装置对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。也可以采用软件和硬件结合的形式实现。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

本申请实施例提供一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中提供的方法中的步骤。

本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法实施例提供的方法中的步骤。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的基于类增量学习的模型训练装置可以实现为一种计算机程序的形式，计算机程序可在如图7所示的计算机设备上运行。计算机设备的存储器中可存储组成上述装置的各个程序模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的方法中的步骤。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质、存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“在一些实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如对象A和/或对象B，可以表示：单独存在对象A，同时存在对象A和对象B，单独存在对象B这三种情况。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个模块或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或模块的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的模块可以是、或也可以不是物理上分开的，作为模块显示的部件可以是、或也可以不是物理模块；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能模块可以全部集成在一个处理单元中，也可以是各模块分别单独作为一个单元，也可以两个或两个以上模块集成在一个单元中；上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于类增量学习的模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据样本数据生成器以及旧命名实体模型，获取目标伪样本数据集，包括：

使用所述样本数据生成器生成多个初始伪样本数据；

3.根据权利要求2所述的方法，其特征在于，所述根据每个初始伪样本数据对应的样本标签，使用样本数据选择器从所述多个初始伪样本数据中筛选被所述旧命名实体模型正确识别且不重复的目标伪样本数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述使用所述目标样本数据集对新命名实体模型进行训练，得到训练后的新命名实体模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述知识蒸馏损失对所述新命名实体模型进行训练，得到训练后的新命名实体模型，包括：

6.根据权利要求1所述，其特征在于，在所述根据所述目标伪样本数据集以及增量样本数据集，得到目标样本数据集后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述样本数据生成器包含编码器和解码器，所述根据样本数据生成器以及旧命名实体模型，获取目标伪样本数据集，包括：

通过所述解码器根据所述类别特征生成所述伪样本数据。

8.一种基于类增量学习的模型训练方法装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。