CN116881464B

CN116881464B - 一种基于新增标签进行模型训练的方法及存储介质

Info

Publication number: CN116881464B
Application number: CN202311141091.6A
Authority: CN
Inventors: 王全修; 赵洲洋; 于伟; 靳雯; 石江枫
Original assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Current assignee: Rizhao Ruian Information Technology Co ltd; Beijing Rich Information Technology Co ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-11-24
Anticipated expiration: 2043-09-06
Also published as: CN116881464A

Abstract

本发明提供了一种基于新增标签进行模型训练的方法及存储介质，涉及模型训练技术领域，所述方法包括如下步骤：获取历史标签列表和新增标签,从而获取新增标签列表,获取历史文本标签数据集和新增文本标签数据集,对历史文本标签数据标记第一标签区分向量，对新增文本标签数据标记第二标签区分向量，对目标分类模型进行训练，得到训练后的目标分类模型，对训练后的目标分类模型进行评估，当评估结果满足第一预设条件时，将训练后的目标分类模型确定为最终分类模型，减少历史文本对新增标签进行重新标注的计算量。

Description

一种基于新增标签进行模型训练的方法及存储介质

技术领域

本发明涉及模型训练技术领域，特别是涉及一种基于新增标签进行模型训练的方法及存储介质。

背景技术

现有技术中，想要对已有的分类模型增加新的标签，需要对分类模型上训练新的数据集，然而在新的数据集上训练模型，会遗忘掉旧数据上学习到的知识，可能产生灾难性遗忘，然而我们希望分类模型能够在吸收新知识的同时保留甚至整合旧知识的能力，因此，如何使分类模型保留旧知识的情况下继续学习新知识尤为重要。

发明内容

针对上述技术问题，本发明采用的技术方案为：一种基于新增标签进行模型训练的方法，所述方法用于对目标分类模型进行训练，包括如下步骤：

S100，获取历史标签列表B={B₁，B₂，…，B_j，…，B_n}和新增标签D_n+1，从而获取新增标签列表D={D₁，D₂，…，D_g，…，D_n+1}，B_j是第j个历史标签，j的取值范围是1到n，n是历史标签数量，D_g是第g个新增标签，g的取值范围是1到n+1，n+1为新增标签的数量，且当1≤g≤n时，D_g=B_g；

S200，获取历史文本标签数据集A={A₁，A₂，…，A_i，…，A_m}和新增文本标签数据集C={C₁，C₂，…，C_r，…，C_s}，其中，第i个历史文本标签数据A_i={A_i1，A_i2}，A_i1是第i条历史文本，A_i2是第i条历史文本的标签向量，i的取值范围是1到m，m是历史文本的数量，A_i2是由第i条历史文本分别对应B₁，B₂，…，B_j，…，B_n的标签值和为0的第n+1维组成的n+1维向量；

第r条新增文本标签数据C_r={C_r1，C_r2}，C_r1为第r条新增文本，C_r2为第r条新增文本的标签向量，r的取值范围是1到s，s是新增文本的数量，C_r2是由第r条新增文本分别对应D₁，D₂，…，D_g，…，D_n+1的标签值组成的n+1维向量；

S300，对A_i标记第一标签区分向量v₁，对C_r标记第二标签区分向量v₂，其中，v₁和v₂均由分别对应D₁，D₂，…，D_g，…，D_n+1的预设数值组成的n+1维向量，且前n个预设数值为第一数值，v₁的第n+1个预设数值为第二数值，v₂的第n+1个预设数值为第一数值，第一数值与第二数值不同；

S400，使用历史文本标签数据集A中的历史文本、历史文本标签数据集A中的每一历史文本对应的第一标签区分向量v₁、新增文本标签数据集C中的新增文本以及新增文本标签数据集C中的每一新增文本对应的第二标签区分向量v₂对目标分类模型进行训练，得到训练后的目标分类模型；

S500，对训练后的目标分类模型进行评估，当评估结果满足第一预设条件时，将训练后的目标分类模型确定为最终分类模型。

一种非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述的基于新增标签进行模型训练的方法。

本发明至少具有以下有益效果：

综上，获取历史标签列表和新增标签，从而获取新增标签列表，获取历史文本标签数据集和新增文本标签数据集，对历史文本标签数据标记第一标签区分向量，对新增文本标签数据标记第二标签区分向量，使用历史文本标签数据集和新增文本标签数据集对目标分类模型进行训练，得到训练后的目标分类模型，对训练后的目标分类模型进行评估，当评估结果满足第一预设条件时，将训练后的分类模型确定为最终分类模型，本发明通过对历史文本标签数据和新增文本标签数据进行区分，从而便于对训练后的目标分类模型进行评估，避免了对历史文本进行新增标签的重新标注，减少历史文本对新增标签进行重新标注的计算量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于新增标签进行模型训练的方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种基于新增标签进行模型训练的方法，如图1所示，所述方法用于对目标分类模型进行训练，所述方法包括如下步骤：

S100，获取历史标签列表B={B₁，B₂，…，B_j，…，B_n}和新增标签D_n+1，从而获取新增标签列表D={D₁，D₂，…，D_g，…，D_n+1}，B_j是第j个历史标签，j的取值范围是1到n，n是历史标签数量，D_g是第g个新增标签，g的取值范围是1到n+1，n+1为新增标签的数量，且当1≤g≤n时，D_g=B_g。

具体的，可以理解为B₁到B_n为历史标签，当新增一个标签D_n+1时，将新增标签D_n+1添加到历史标签列表B中，获取包括历史标签和新增标签的新增标签列表D。例如，当历史标签列表B={苹果，鸡蛋，黄瓜}，新增标签D_n+1为胡萝卜时，新增标签列表D={苹果，鸡蛋，黄瓜，胡萝卜}。

S200，获取历史文本标签数据集A={A₁，A₂，…，A_i，…，A_m}和新增文本标签数据集C={C₁，C₂，…，C_r，…，C_s}，其中，第i个历史文本标签数据A_i={A_i1，A_i2}，A_i1是第i条历史文本，A_i2是第i条历史文本的标签向量，i的取值范围是1到m，m是历史文本的数量，A_i2是由第i条历史文本分别对应B₁，B₂，…，B_j，…，B_n的标签值和为0的第n+1维组成的n+1维向量。

第r条新增文本标签数据C_r={C_r1，C_r2}，C_r1为第r条新增文本，C_r2为第r条新增文本的标签向量，r的取值范围是1到s，s是新增文本的数量，C_r2是由第r条新增文本分别对应D₁，D₂，…，D_g，…，D_n+1的标签值组成的n+1维向量。

具体的，将历史文本通过预设规则列表G进行一一匹配，并增加为0的第n+1维后，获取历史文本对应的标签向量，将新增文本按照新增规则列表进行一一匹配，从而获取新增文本的标签向量，其中，新增规则列表为添加新增标签对应的规则后的预设规则列表。

S300，对A_i标记第一标签区分向量v₁，对C_r标记第二标签区分向量v₂，其中，v₁和v₂均由分别对应D₁，D₂，…，D_g，…，D_n+1的预设数值组成的n+1维向量，且前n个预设数值为第一数值，v₁的第n+1个预设数值为第二数值，v₂的第n+1个预设数值为第一数值，第一数值与第二数值不同。

具体的，S300中，所述第一数值为“1”，第二数值为“0”。可以理解为，使用第一标签区分向量v₁和第二标签区分向量v₂用于区分历史文本和新增文本。

具体的，将历史文本标签数据标记为v₁，将新增文本标签数据标记为v₂，在本发明一个实施例中，对A_i标注第一标签区分向量v₁，使用在历史文本标签数据A_i中增加第一标签区分向量的方式，即A_i={A_i1，A_i2，v₁}；对C_r标注第一标签区分向量v₂，使用在历史文本标签数据C_r中增加第二标签区分向量的方式，即C_r={C_r1，C_r2，v₂}。

S400，使用历史文本标签数据集A中的历史文本、历史文本标签数据集A中的每一历史文本对应的第一标签区分向量v₁、新增文本标签数据集C中的新增文本以及新增文本标签数据集C中的每一新增文本对应的第二标签区分向量v₂对目标分类模型进行训练，得到训练后的目标分类模型。

具体的，获取历史文本和新增文本，将历史文本向量化获取历史文本向量，将新增文本向量化获取新增文本向量，将历史文本向量和新增文本向量输入目标分类模型，获取目标模型输出的预测值。

具体的，S500中对训练后的目标分类模型进行评估包括如下步骤：

S501，获取历史文本标签数据集的历史损失，其中，y_ij是A_i中第j个标签的真实值，σ（x_ij）是训练后的目标分类模型输出的A_i中第j个标签的预测值。其中，log（）函数以e为底数。

在本发明一个实施例中，第j个标签为苹果，A_i中包含苹果，A_i中第j个标签的真实值为“1”，目标分类模型输出的为A_i中包含苹果的概率值。

S502，获取新增文本标签数据集的新增损失，其中，y_rg是C_r中第g个标签的真实值，σ（x_rg）是训练后的目标分类模型输出的C_r中第r个标签的预测值。其中，log（）函数以e为底数。

S503，将最终损失W=W₁+W₂，作为评估结果。

具体的，当最终损失小于预设损失阈值时，认为评估结果满足第一预设条件。具体的，预设损失阈值可根据实际情况设定。所述预设损失阈值和目标分类模型的损失相关。

综上，获取历史文本标签数据集的历史损失，获取新增文本标签数据集的新增损失，将历史损失和新增损失相加作为最终损失，将历史文本和新增文本进行第一标签区分向量和第二标签区分向量在计算损失时进行区分，达到不对历史文本标记新增标签的目的，使得计算的最终损失相对于直接进行计算更加准确。

进一步的，新增文本标签数据集C中新增标签D_n+1的对应的新增文本数量通过如下步骤获取：

S001，获取历史标签数量列表E={E₁，E₂，…，E_j，…，E_n}，E_j是历史文本标签数据集A中B_j对应的历史文本的数量。

S002，获取历史标签新增数量列表F={F₁，F₂，…，F_j，…，F_n}和新增标签新增数量F_n+1，F_j是标注文本标签数据集中B_j的数量，F_n+1是标注文本标签数据集中D_n+1的数量，所述标注文本标签数据集包括P条标注文本标签数据，所述标注文本标签数据包括标注文本和标注文本对应的标签向量，所述标注文本的标签向量是标注文本根据新增标签列表一一对应的标签值组成的n+1维向量。

S003，获取历史标签加权数量J={J₁，J₂，…，J_j，…，J_n}和新增标签加权数量J_n+1，

。其中，log（）函数以e为底数。

S004，获取新增文本标签数据集C中新增标签D_n+1的对应的历史文本数量为：。

具体的，在本发明一个实施例中，从标注文本标签数据集中抽选新增标签数量为的标注文本标签数据作为新增标签数据集。

综上，获取历史标签数量列表，获取历史标签新增数量列表和新增标签新增数量，获取历史标签加权数量和新增标签加权数量，基于历史标签数量、历史标签加权数量和新增标签加权数量获取新增文本标签数据集中新增标签的数据量，在进行分类模型训练时，我们往往需要调整进入分类模型中各标签的数据量，使得进入分类模型中的各标签的数据量大致符合实际数据中的比例，本发明通过历史标签数量、历史标签加权数量和新增标签加权数量确定新增标签的数据量，使得新增标签的数据量满足历史标签和新增标签的数据量的比例，增强训练后的模型的鲁棒性。

具体的，历史文本的标签向量A_i2通过如下步骤获取：

S010，获取预设规则列表G={G₁，G₂，…，G_j，…，G_n}，G_j是第j条预设规则对应的正则表达式。

S020，获取历史文本A_i1，并使用预设规则列表和历史文本A_i1进行匹配。

S030，基于匹配结果，获取历史文本A_i1对应的标签向量A_i2。

具体的，所述预设规则人为进行配置，将预设规则转化为正则表达式，获取历史文本，使用历史文本和预设规则的正则表达式进行一一进行匹配，若匹配成功，将预设规则对应的标签向量的位置标记为“1”，并增加为0的第n+1维后，获取历史文本对应的标签向量。

进一步的，在S500后还包括，使用最终分类模型对待识别文本进行分类：

S600，获取待识别文本，将待识别文本向量化，获取待识别文本向量。

具体的，本领域技术人员知晓现有技术中任何一种将文本向量化的方法均属于本发明保护范围，例如使用Word2Vec。

S700，将待识别文本向量输入最终分类模型，获取待识别文本的标签向量。

综上，获取待识别文本，将待识别文本向量化，获取待识别文本向量，将待识别文本向量输入最终分类模型，获取待识别文本的标签向量。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种基于新增标签进行模型训练的方法，其特征在于，所述方法用于对目标分类模型进行训练，包括如下步骤：

S500，对训练后的目标分类模型进行评估，当评估结果满足第一预设条件时，将训练后的目标分类模型确定为最终分类模型；

其中，S500中对训练后的目标分类模型进行评估包括如下步骤：

S501，获取历史文本标签数据集的历史损失W₁=∑^m _i=1{∑ⁿ _j=1[v₁ y_ijlogσ（x_ij）+v₁/>（1-y_ij）log（1-σ（x_ij））]}，其中，y_ij是A_i中第j个标签的真实值，σ（x_ij）是训练后的目标分类模型输出的A_i中第j个标签的预测值；

S502，获取新增文本标签数据集的新增损失W₂=∑^s _r=1{∑ⁿ⁺¹ _g=1[v₂ y_rglogσ（x_rg）+v₂/>（1-y_rg）log（1-σ（x_rg））]}，其中，y_rg是C_r中第g个标签的真实值，σ（x_rg）是训练后的目标分类模型输出的C_r中第r个标签的预测值；

S503，将最终损失W=W₁+W₂，作为评估结果。

2.根据权利要求1所述的基于新增标签进行模型训练的方法，其特征在于，新增文本标签数据集C中新增标签D_n+1的对应的新增文本数量通过如下步骤获取：

S001，获取历史标签数量列表E={E₁，E₂，…，E_j，…，E_n}，E_j是历史文本标签数据集A中B_j对应的历史文本的数量；

S002，获取历史标签新增数量列表F={F₁，F₂，…，F_j，…，F_n}和新增标签新增数量F_n+1，F_j是标注文本标签数据集中B_j的数量，F_n+1是标注文本标签数据集中D_n+1的数量，所述标注文本标签数据集包括P条标注文本标签数据，所述标注文本标签数据包括标注文本和标注文本对应的标签向量，所述标注文本的标签向量是标注文本根据新增标签列表一一对应的标签值组成的n+1维向量；

S003，获取历史标签加权数量J={J₁，J₂，…，J_j，…，J_n}和新增标签加权数量J_n+1，J_j=log[（∑ⁿ _j=1F_j+F_n+1）/F_j]F_j，J_n+1=log[（∑ⁿ _j=1F_j+F_n+1）/F_n+1]/>F_n+1；

S004，获取新增文本标签数据集C中新增标签D_n+1的对应的历史文本数量为：J_n+1 （∑ⁿ _j=1E_j）/（∑ⁿ _j=1J_j）。

3.根据权利要求1所述的基于新增标签进行模型训练的方法，其特征在于，S300中，所述第一数值为“1”，第二数值为“0”。

4.根据权利要求1所述的基于新增标签进行模型训练的方法，其特征在于，在S500后还包括，使用最终分类模型对待识别文本进行分类：

S600，获取待识别文本，将待识别文本向量化，获取待识别文本向量；

5.根据权利要求1所述的基于新增标签进行模型训练的方法，其特征在于，历史文本的标签向量A_i2通过如下步骤获取：

S010，获取预设规则列表G={G₁，G₂，…，G_j，…，G_n}，G_j是第j条预设规则对应的正则表达式；

S020，获取历史文本A_i1，并使用预设规则列表和历史文本A_i1进行匹配；

S030，基于匹配结果，获取历史文本A_i1对应的标签向量A_i2。

6.根据权利要求1所述的基于新增标签进行模型训练的方法，其特征在于，当最终损失W小于预设损失阈值时，认为评估结果满足第一预设条件。

7.一种非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，其特征在于，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-6中任意一项所述的基于新增标签进行模型训练的方法。