CN117150026B

CN117150026B - 文本内容多标签分类方法与装置

Info

Publication number: CN117150026B
Application number: CN202311433453.9A
Authority: CN
Inventors: 陈旭; 王难; 薛娇; 冯琳; 郑小裕; 刘鹏鹤; 蒋树; 李大海
Original assignee: Zhizhe Sihai Beijing Technology Co Ltd
Current assignee: Zhizhe Sihai Beijing Technology Co Ltd
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2024-01-26
Anticipated expiration: 2043-11-01
Also published as: CN117150026A

Abstract

本申请提供一种文本内容多标签分类方法与装置，属于内容理解技术领域，所述方法包括：将待分类文本及对应的候选标签集输入标签召回模型，得到所述待分类文本对应的多个目标候选标签；基于所述待分类文本和目标候选标签构建目标输入文本，并将所述目标输入文本输入标签生成模型，得到所述待分类文本对应的分类结果标签；所述标签召回模型是基于待分类文本样本及预先确定的候选标签集训练后得到的，所述标签生成模型是基于输入文本样本及预先确定的分类结果标签训练后得到的，能够在保证准确性和效率的基础上实现面向海量标签的文本内容多标签分类。

Description

文本内容多标签分类方法与装置

技术领域

本申请涉及内容理解技术领域，尤其涉及一种文本内容多标签分类方法与装置。

背景技术

随着预训练语言模型（如BERT、GPT、T5、ChatGPT等）的兴起，通过预训练语言模型在大规模文本语料集上进行无监督学习，能够学习到丰富的语言知识，并将这些知识转移给下游自然语言处理任务，通过在预训练模型的基础上进行微调，可以在文本分类等任务上获得显著的性能提升。

但随着文本分类类别的急剧增加，如在信息流推荐场景下，需要对文本进行兴趣词体系分类，该体系多达上万甚至十几万类别。对于海量标签体系，针对一条文本需要从上万个甚至更多标签中选取正确的几个标签，基于目前预训练+微调的方式进行文本分类存在以下几个问题：

1、训练周期长。由于标签的数量非常大，需要尽可能的针对每个标签标注一定量样本，这就导致训练样本量剧增。海量的样本针对上万个标签的拟合，模型至少训练几十个轮次才能收敛，导致模型的训练周期过长。

2、模型指标差。对头部标签（即标注样本多的标签）模型拟合的效果较好，准确率较高，但对于中部和尾部标签（即标注样本较少或没有标注样本的标签），模型的准确率较低，针对这类标签的提升也较困难，需要标注大量的样本。

3、迭代周期长。随着业务的变化，该标签类别体系也会跟着变化。但每新增一批标签，均需要标注大量样本，重新对模型进行训练。由于标注样本总量的庞大，新增的这些样本不能保证模型在新标签上具有良好表现。因此标签体系迭代周期长，效果差。

4、未充分利用标签信息。该方式将标签以one-hot的形式进行编码，没有充分利用标签的语义信息。

发明内容

针对现有技术存在的上述技术问题，本申请提供一种文本内容多标签分类方法与装置。

第一方面，本申请提供一种文本内容多标签分类方法，所述方法包括：

将待分类文本及对应的候选标签集输入标签召回模型，得到所述待分类文本对应的多个目标候选标签；

基于所述待分类文本和目标候选标签构建目标输入文本，并将所述目标输入文本输入标签生成模型，得到所述待分类文本对应的分类结果标签；

所述标签召回模型是基于待分类文本样本及预先确定的候选标签集训练后得到的，所述标签生成模型是基于输入文本样本及预先确定的分类结果标签训练后得到的。

可选地，根据本申请的文本内容多标签分类方法，所述标签召回模型为语义检索模型，包括待分类文本编码模块、候选标签编码模块和目标候选标签确定模块；

所述待分类文本编码模块用于对待分类文本进行编码得到第一向量；

所述候选标签编码模块用于对待分类文本对应的候选标签集进行编码得到第二向量集合；

所述目标候选标签确定模块用于基于所述第一向量和所述第二向量集合确定目标候选标签。

可选地，根据本申请的文本内容多标签分类方法，所述基于所述第一向量和所述第二向量集合确定目标候选标签，具体包括：

确定所述第一向量与所述第二向量集合中各第二向量的相似度；

基于所述第一向量与各第二向量的相似度及预设的相似度阈值，确定目标候选标签。

可选地，根据本申请的文本内容多标签分类方法，所述标签召回模型的训练过程包括训练阶段和微调阶段，其中，训练阶段采用跨批次负样本策略，微调阶段采用批次内负样本策略。

可选地，根据本申请的文本内容多标签分类方法，在微调阶段，当批次内出现多个标签相同的待分类文本样本时，基于样本矩阵对应的mask矩阵计算待分类文本样本的损失函数。

可选地，根据本申请的文本内容多标签分类方法，所述基于样本矩阵对应的mask矩阵计算待分类文本样本的损失函数，具体包括：

构建与样本矩阵相同形状的mask矩阵；所述mask矩阵中标签相同的待分类文本样本对应的位置置0，其余位置置1；

将待分类文本样本对应的初始损失矩阵与所述mask矩阵相乘以得到待分类文本样本对应的目标损失矩阵。

可选地，所述标签生成模型为大模型，用于确定各目标候选标签对应的预测概率，并基于各目标候选标签对应的预测概率确定所述待分类文本对应的分类结果标签。

第二方面，本申请还提供一种文本内容多标签分类装置，所述装置包括：

标签召回单元，用于将待分类文本及对应的候选标签集输入标签召回模型，得到所述待分类文本对应的多个目标候选标签；

文本分类单元，用于基于所述待分类文本和目标候选标签构建目标输入文本，并将所述目标输入文本输入标签生成模型，得到所述待分类文本对应的分类结果标签；

第三方面，本申请还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所提供的方法的步骤。

第四方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所提供的方法的步骤。

本申请提供的文本内容多标签分类方法与装置，所述方法包括：将待分类文本及对应的候选标签集输入标签召回模型，得到所述待分类文本对应的多个目标候选标签；基于所述待分类文本和目标候选标签构建目标输入文本，并将所述目标输入文本输入标签生成模型，得到所述待分类文本对应的分类结果标签；所述标签召回模型是基于待分类文本样本及预先确定的候选标签集训练后得到的，所述标签生成模型是基于输入文本样本及预先确定的分类结果标签训练后得到的，能够在保证准确性和效率的基础上实现面向海量标签的文本内容多标签分类。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的文本内容多标签分类方法的流程示意图；

图2是本申请提供的标签召回模型的结构示意图；

图3是本申请提供的初始损失矩阵示意图；

图4是本申请提供的mask矩阵示意图；

图5是本申请提供的目标损失矩阵示意图；

图6是本申请提供的文本内容多标签分类装置的结构示意图；

图7是本申请提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合图1-图7描述本申请的文本内容多标签分类方法与装置。

图1是本申请提供的文本内容多标签分类方法的流程示意图，如图1所示，所述方法包括：

步骤110，将待分类文本及对应的候选标签集输入标签召回模型，得到所述待分类文本对应的多个目标候选标签；

步骤120，基于所述待分类文本和目标候选标签构建目标输入文本，并将所述目标输入文本输入标签生成模型，得到所述待分类文本对应的分类结果标签；

具体的，基于前述内容可知，对于文本多标签分类问题，目前主流的方法通常采用预训练语言模型，然后在特定的数据集上进行参数微调。该方法能够利用预训练模型中蕴含的丰富语言特征对文本进行理解，再结合特定场景下的标注数据对模型进行微调，使得模型在一般多标签分类问题上具有较好的表现。但针对海量标签体系，使用该方法训练，需要标注大量样本作为训练数据且模型在中尾部标签上的表现较差。针对该问题，本申请实施例提出一种语义检索模型（即标签召回模型）和大模型（即标签生成模型）结合的方式，对文本进行海量标签分类。更具体的，首先将待分类文本及对应的候选标签集输入标签召回模型，得到所述待分类文本对应的多个目标候选标签，再基于所述待分类文本和目标候选标签构建目标输入文本，并将所述目标输入文本输入标签生成模型，得到所述待分类文本对应的分类结果标签。

其中，所述标签召回模型是基于待分类文本样本及预先确定的候选标签集训练后得到的。具体的，图2是本申请提供的标签召回模型的结构示意图，如图2所示，所述标签召回模型为语义检索模型，包括待分类文本编码模块、候选标签编码模块和目标候选标签确定模块；

所述基于所述第一向量和所述第二向量集合确定目标候选标签，具体包括：

可以理解的是，通过待分类文本编码模块对输入的待分类文本进行编码，获得待分类文本对应的embedding（即第一向量），通过候选标签编码模块对待分类文本对应的候选标签集进行编码得到对应的embedding集合（即第二向量集合），再基于所述第一向量与所述第二向量集合中各第二向量的相似度，即可确定待分类文本和每个标签之间相似度，进而召回与待分类文本最相似的K个标签（即目标候选标签）。召回的标签数量K越大，语义检索模型的召回率越高，但由于召回的标签会作为大模型（即标签生成模型）的候选标签，K越大会使得大模型生成正确标签的难度越高。因此需要根据具体的业务场景，平衡召回率和召回标签数量K之间的关系。本申请实施例从实验结果来看，K值会选定在10左右，此时召回率较高能够满足业务预期且大模型的生成正确标签的准确率也较好。具体可以通过预设的相似度阈值进行目标候选标签的筛选，也可以基于相似度排序筛选K个目标候选标签。基于此，本申请实施例将文本多标签分类任务中的标签信息转换成含有语义信息的语义向量，将文本分类任务转换成向量检索和匹配的任务。

所述标签召回模型的训练过程包括训练阶段和微调阶段，其中，训练阶段采用跨批次负样本策略，微调阶段采用批次内负样本策略。

所述标签召回模型优选采用rocketqa。在训练阶段引入跨batch（即批次）负样本策略。即在多卡训练（即多GPU并行训练）时所有卡共享负样本，如此，每条样本的负样本的数量为batch_size×gpu_num-1。相比传统的batch 内负样本，即每个样本的负样本数为batch_size-1，该策略使得每个样本获得了更多的负样本。负样本数量的增加，使得模型更接近真实的预测场景，模型的预训练效果更好。其中，batch_size表示单次传递给模型用以训练的样本个数，gpu_num表示GPU数量。可以理解的是，所述标签召回模型也可以根据实际需要采用其它语义检索模型，本申请实施例对此不作具体限定。

在微调阶段使用batch内构造负样本策略对模型进行微调，优化输入待分类文本和标签之间的损失。由于在微调阶段使用的是batch 内构造负样本，如果数据没有做很好的打散，或者模型的标签数不足的情况下，会出现batch内假负样本的情况。即batch内出现多个标签相同的待分类文本样本。假设batch内样本i和样本j有相同的标签。在模型训练的时候，会将batch内的其它样本作为负样本，计算损失。那么样本j会作为样本i的负样本计算损失，样本i也会作为样本 j的负样本计算损失。图3是本申请提供的初始损失矩阵（即优化之前的损失矩阵）示意图，如图3所示，图中字母为样本编号，数字为损失值，此时会造成模型的困惑，明明两个样本对应同一个标签，但损失值不同，进而导致模型预测的准确性降低。针对这个问题，有两种处理思路，一种是将样本打散，尽可能的使一个batch内样本的标签不同，但当样本数量较少且batch_size较大时，难免会存在batch 内某些样本的标签一样的情况。对于这种情况，本申请实施例采用对损失 loss进行mask的方式对损失函数进行了优化。具体的，基于样本矩阵对应的mask矩阵计算待分类文本样本的损失函数。图4是本申请提供的mask矩阵示意图，结合图4可知，所述基于样本矩阵对应的mask矩阵计算待分类文本样本的损失函数，具体包括：

图5是本申请提供的目标损失矩阵示意图，如图5所示，将损失矩阵和mask矩阵相乘，作为最终的mask后的损失矩阵（即目标损失矩阵）计算损失可以避免前述多个待分类文本样本标签相同造成的模型训练问题。

同时，上述标签召回模型能够很好捕捉文本和标签之间的语义信息，并且能够很好的适用于标签数量不固定的场景。当标签体系中，标签的数量进行小的增加或者减少都无需重新训练模型，就能很好的适配。只需将新增的标签计算embedding，更新到索引库中即可，对标签体系的迭代更新做到了非常好的支持，能够支撑业务的动态发展。

得到所述待分类文本对应的多个目标候选标签之后，即可基于所述待分类文本和目标候选标签构建目标输入文本，并将所述目标输入文本输入标签生成模型，得到所述待分类文本对应的分类结果标签。

其中，所述标签生成模型为大模型，用于确定各目标候选标签对应的预测概率，并基于各目标候选标签对应的预测概率确定所述待分类文本对应的分类结果标签。所述标签生成模型是基于输入文本样本及预先确定的分类结果标签训练后得到的。

具体的，将语义检索模型召回的多个目标候选标签和待分类文本以prompt的形式构建目标输入文本并输入到大模型中，让大模型在目标候选标签中选择出与待分类文本匹配的标签。比如：待分类文本为：“如何评价2023年XX电竞选手的整体表现？”，标签召回模型召回的目标候选标签有“游戏主播、直播行业、英雄联盟、游戏设计”，则构建好prompt 后的大模型输入（即目标输入文本）如下：“对下面文本进行分类：\n\n 如何评价2023年XX电竞选手的整体表现？\n\n选项：游戏主播、直播行业、英雄联盟、游戏设计\n\n答案：”，将目标输入文本输入到大模型，大模型即可得到目标候选标签中每个token的预测概率。接上述示例，大模型对“游”的预测概率是0.5，对“直”的预测概率是0.2。对每个目标候选标签的所有token的预测概率取平均值作为该目标候选标签的概率。基于此，模型对“游戏主播”的预测概率就是(0.5+0.6+0.7)/3=0.6，模型对”直播行业“的预测概率就是(0.2+0.3+0.4)/3=0.3。基于各目标候选标签对应的预测概率确定所述待分类文本对应的分类结果标签。

可以理解的是，所述标签生成模型的训练过程与上述预测过程原理相似，区别在于在训练集中增加预先确定的分类结果标签。同时，上述目标输入文本的构造方式能够很好的兼容标签体系的变动，在标签体系小的变动下，无需重新训练模型就可以对新增加的标签进行生成。

本申请实施例的文本内容多标签分类方法，实现了检索模型和大模型的结合，并在海量多标签分类任务上取得了很好的效果，实现了标签体系的快速迭代。如下表1所示，在自标注的数据集上，相比于传统的预训练bert+微调方式，本申请实施例的文本内容多标签分类方法中的模型在准确率和召回率上都有巨大的提升。在短文（例如问题）上准确率提升14.62%，覆盖率提升17.17%，在长文（例如回答和文章）上准确率提升8.8%，覆盖率提升18.27%。使得业务对文本的刻画更为准确和精细，并能随着业务的发展，不断的对标签体系进行快速的迭代和扩展。

表1 文本分类方法效果对比表

本申请提供的方法，包括：将待分类文本及对应的候选标签集输入标签召回模型，得到所述待分类文本对应的多个目标候选标签；基于所述待分类文本和目标候选标签构建目标输入文本，并将所述目标输入文本输入标签生成模型，得到所述待分类文本对应的分类结果标签；所述标签召回模型是基于待分类文本样本及预先确定的候选标签集训练后得到的，所述标签生成模型是基于输入文本样本及预先确定的分类结果标签训练后得到的，能够在保证准确性和效率的基础上实现面向海量标签的文本内容多标签分类。

下面对本申请提供的文本内容多标签分类装置进行描述，下文描述的文本内容多标签分类装置与上文描述的文本内容多标签分类方法可相互对应参照。

基于上述任一实施例，图6是本申请提供的文本内容多标签分类装置的结构示意图，如图6所示，所述装置包括：

标签召回单元210，用于将待分类文本及对应的候选标签集输入标签召回模型，得到所述待分类文本对应的多个目标候选标签；

文本分类单元220，用于基于所述待分类文本和目标候选标签构建目标输入文本，并将所述目标输入文本输入标签生成模型，得到所述待分类文本对应的分类结果标签；

本申请实施例提供的装置，标签召回单元210将待分类文本及对应的候选标签集输入标签召回模型，得到所述待分类文本对应的多个目标候选标签；文本分类单元220基于所述待分类文本和目标候选标签构建目标输入文本，并将所述目标输入文本输入标签生成模型，得到所述待分类文本对应的分类结果标签；所述标签召回模型是基于待分类文本样本及预先确定的候选标签集训练后得到的，所述标签生成模型是基于输入文本样本及预先确定的分类结果标签训练后得到的，能够在保证准确性和效率的基础上实现面向海量标签的文本内容多标签分类。

基于上述实施例，所述标签召回模型为语义检索模型，包括待分类文本编码模块、候选标签编码模块和目标候选标签确定模块；

基于上述任一实施例，所述基于所述第一向量和所述第二向量集合确定目标候选标签，具体包括：

基于上述任一实施例，所述标签召回模型的训练过程包括训练阶段和微调阶段，其中，训练阶段采用跨批次负样本策略，微调阶段采用批次内负样本策略。

基于上述任一实施例，所述装置还包括损失优化模块，所述损失优化模块用于执行以下操作：

在微调阶段，当批次内出现多个标签相同的待分类文本样本时，基于样本矩阵对应的mask矩阵计算待分类文本样本的损失函数。

基于上述任一实施例，所述基于样本矩阵对应的mask矩阵计算待分类文本样本的损失函数，具体包括：

基于上述任一实施例，所述标签生成模型为大模型，用于确定各目标候选标签对应的预测概率，并基于各目标候选标签对应的预测概率确定所述待分类文本对应的分类结果标签。

图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器310、通信接口320、存储器330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行上述各方法所提供的文本内容多标签分类方法。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法所提供的文本内容多标签分类方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种文本内容多标签分类方法，其特征在于，所述方法包括：

所述标签召回模型是基于待分类文本样本及预先确定的候选标签集训练后得到的，所述标签生成模型是基于输入文本样本及预先确定的分类结果标签训练后得到的；

所述标签召回模型为语义检索模型，包括待分类文本编码模块、候选标签编码模块和目标候选标签确定模块；

所述目标候选标签确定模块用于基于所述第一向量和所述第二向量集合确定目标候选标签；

所述标签生成模型为大模型，用于确定各目标候选标签对应的预测概率，并基于各目标候选标签对应的预测概率确定所述待分类文本对应的分类结果标签。

2.根据权利要求1所述的文本内容多标签分类方法，其特征在于，所述基于所述第一向量和所述第二向量集合确定目标候选标签，具体包括：

3.根据权利要求2所述的文本内容多标签分类方法，其特征在于，所述标签召回模型的训练过程包括训练阶段和微调阶段，其中，训练阶段采用跨批次负样本策略，微调阶段采用批次内负样本策略。

4.根据权利要求3所述的文本内容多标签分类方法，其特征在于，在微调阶段，当批次内出现多个标签相同的待分类文本样本时，基于样本矩阵对应的mask矩阵计算待分类文本样本的损失函数。

5.根据权利要求4所述的文本内容多标签分类方法，其特征在于，所述基于样本矩阵对应的mask矩阵计算待分类文本样本的损失函数，具体包括：

6.一种文本内容多标签分类装置，其特征在于，所述装置包括：

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述文本内容多标签分类方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文本内容多标签分类方法的步骤。