CN116244442A

CN116244442A - 文本分类方法、装置、存储介质及电子设备

Info

Publication number: CN116244442A
Application number: CN202310334221.1A
Authority: CN
Inventors: 熊永福; 王伟; 吴凯凯
Original assignee: Chongqing Ant Consumer Finance Co ltd
Current assignee: Chongqing Ant Consumer Finance Co ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-06-09

Abstract

本说明书实施例公开了一种文本分类方法、装置、存储介质及电子设备，通过召回待分类文本对应的第一标签集合之后，还通过预设的共现概率矩阵获取待分类文本的第二标签集合，在针对待分类文本对应的目标标签的精选阶段，将多标签分类问题转换为标签与待分类文本的匹配问题，对召回的第一标签集合和通过共现概率矩阵得到的第二标签集合与待分类文本进行匹配二分识别，从而最终确定待分类文本对应的目标标签。

Description

文本分类方法、装置、存储介质及电子设备

技术领域

本说明书涉及自然语言处理领域，尤其涉及一种文本分类方法、装置、存储介质及电子设备。

背景技术

在多标签文本分类(Multi-label TextClassification，MTC)研究如何在一段文本从海量标签中召回一组合适的标签的问题。然而，参考帕累托法则(Pareto principle)，又称为二八定律，比如80％的财富集中在20％的人手里，图书馆里20％的书可以满足80％的顾客。具体而言，在多标签文本分类的场景中，往往存在一个训练数据集中80％的文本仅仅涵盖了2个标签，而20％的文本却囊括了8个标签的情况，上述数据分布也被称为长尾分布。利用长尾分布的训练数据集训练得到的多标签文本分类模型，往往会对头部标签过拟合，从而在预测召回时忽略尾部标签，导致针对待分类文本输出的多个标签准确度不尽如人意。

发明内容

本说明书实施例提供了一种文本分类方法、装置、存储介质及电子设备，可以解决长尾标签召回难的问题，增强文本分类的准确性。所述技术方案如下：

第一方面，本说明书实施例提供了一种文本分类方法，所述方法包括：

召回待分类文本对应的第一标签集合，所述第一标签集合包括至少一个第一标签；

根据多个预设标签之间的共现概率矩阵，得到所述待分类文本对应的第二标签集合，所述第二标签集合包括至少一个第二标签，所述多个预设标签至少包括所述第一标签集合中部分第一标签；

对每个所述第一标签和所述第二标签与所述待分类文本进行匹配，将所述第一标签集合和所述第二标签集合中匹配成功的标签作为所述待分类文本的目标标签。

第二方面，本说明书实施例提供了一种文本分类装置，所述装置包括：

召回标签模块，用于召回待分类文本对应的第一标签集合，所述第一标签集合包括至少一个第一标签；

共现标签模块，用于根据多个预设标签之间的共现概率矩阵，得到所述待分类文本对应的第二标签集合，所述第二标签集合包括至少一个第二标签，所述多个预设标签至少包括所述第一标签集合中部分第一标签；

目标匹配模块，用于对每个所述第一标签和所述第二标签与所述待分类文本进行匹配，将所述第一标签集合和所述第二标签集合中匹配成功的标签作为所述待分类文本的目标标签。

第三方面，本说明书实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本说明书实施例提供一种计算机程序产品，所述计算机程序产品存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第五方面，本说明书实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本说明书一些实施例提供的技术方案带来的有益效果至少包括：

本说明书通过召回待分类文本对应的第一标签集合之后，还通过预设的共现概率矩阵获取待分类文本的第二标签集合，有效利用样本文本集合中标签共现信息，在标签召回预测阶段覆盖更多可能相关的长尾标签，提高了多标签召回率；进一步的，在针对待分类文本对应的目标标签的精选阶段，将多标签分类问题转换为标签与待分类文本的匹配问题，对召回的第一标签集合和通过共现概率矩阵得到的第二标签集合与待分类文本进行匹配二分识别，从而最终确定待分类文本对应的目标标签，简单有效地提高文本分类的精度。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的一种文本分类方法的流程示意图；

图2是本说明书实施例提供的一种共现概率矩阵计算的流程示意图；

图3是本说明书实施例提供的一种文本分类方法的结构示意图；

图4是本说明书实施例提供的另一种文本分类方法的流程示意图；

图5是本说明书实施例提供的一种文本分类方法的结构示意图；

图6是本说明书实施例提供的一种文本分类装置的结构示意图；

图7是本说明书实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

在本说明书的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本说明书的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本说明书中的具体含义。此外，在本说明书的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面结合具体的实施例对本说明书进行详细说明。

在多标签文本分类(Multi-label TextClassification，MTC)研究如何在一段文本从海量标签中召回一组合适的标签的问题。然而，参考帕累托法则(Pareto principle)，又称为二八定律，比如80％的财富集中在20％的人手里，图书馆里20％的书可以满足80％的顾客。具体而言，在多标签文本分类的场景中，往往存在一个训练数据集中80％的文本仅仅涵盖了2个标签，而20％的文本却囊括了8个标签的情况，上述数据分布也被称为长尾分布。

例如，在消费金融、电商等平台，存在大量的用户原声反馈的文本，如流程咨询、产品使用反馈、投诉建议等相关文本数据。根据用户的反馈内容进行分析处理，精准定位用户的反馈意图、反馈对象、反馈问题根因等是指导产品持续优化的方向，精准地理解用户诉求也是提升用户客户反馈体验的重要手段。在大型互联网平台中，因为产品的多样性，故用户反馈的渠道、反馈的对象、反馈的问题根因等是一个大规模的组合问题，如同一反馈对象可能存在多种反馈问题，不同反馈对象可能存在相同的反馈问题，一次反馈可能涉及多个反馈对象等，这是一个基于反馈内容的大规模多标签分类问题。换而言之，针对复杂的反馈文本，急需一种有效可行的多标签分类方法对反馈文本进行分类分析。

然而，由于通常情况下训练数据集存在长尾分布的情况，利用长尾分布的训练数据集训练得到的多标签文本分类模型，往往会对头部标签过拟合，从而在预测召回时忽略尾部标签，导致针对待分类文本输出的多个标签的准确度不尽如人意。

因此，针对上述问题，本说明书提出一种文本分类方法进行解决。在一个实施例中，如图1所示，为本说明书实施例提出的一种文本分类方法的流程示意图。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的文本分类装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

具体地，该文本分类方法包括：

S102、召回待分类文本对应的第一标签集合。

本说明书实施例的执行主体为终端设备，终端设备为用户使用的电子设备，该电子设备可以是个人计算机、手机、平板电脑、笔记本等具有一定计算能力并且运行有文本分类功能的应用或网页的计算机设备，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)，以及大数据和人工智能平台等基础云计算服务的云服务器。可以理解的是，上述终端设备的数量和类型仅为示意，本说明书实施例对此不作任何限制。

在本说明书实施例中，待分类文本可以是通过不同方式获取的不同场景对应的文本数据。例如，待分类文本可以是旅游相关文本、健康咨询相关文本/养生科普相关文章等，待分类文本的获取方式可以是用户通过终端设备的输入装置进行输入得到，还可以是终端设备通过用户的指令从授权平台或存储单元中抓取得到等，本说明书实施例对此不作任何限制。另外，待分类文本的长度可以是长文本(如上千或上万字符)或短文本(如几十或几百字符)，本实施例对此不作任何限制。

本实施例通过召回得到待分类文本对应的第一标签集合。召回是指从全量信息集合中触发尽可能多的正确结果，将正确结果返回，并对返回的所有正确结果进行打分排序，选出得分最高的几个结果。换而言之，在针对待分类文本的分类问题中，召回是第一道筛选预测环节，得到待分类文本对应的第一标签集合，第一标签集合包括至少一个第一标签。

例如，待分类文本为介绍热带水果的相关文本，通过召回得到的待分类文本对应的第一标签集合包括第一标签“热带水果”、第一标签“菠萝”、第一标签“凤梨”、第一标签“香蕉”、第一标签“芒果”等。

在一个实施例中，通过多标签分类模型召回待分类文本对应的至少一个第一标签。例如，多标签分类模型可以包括卷积神经网络(ConvolutionalNeural Networks，CNN)、循环神经网络(recurrent neural network，RNN)或基于注意力机制Attention的Transformer网络及分类层，其中CNN、RNN、Transformer用于对待分类文本进行语义编码，分类层用于对编码向量进行标签维度的映射。又例如，多标签分类模型可以是BERT预训练模型，BERT(Bidirectional Encoder Representation from Transformers)预训练模型是通过在海量的语料基础上运行自监督学习方法，从而召回待分类文本对应的至少一个第一标签的模型，自监督学习是指在没有人工标注的数据上运行的监督学习。

可以理解的是，本说明书实施例的多标签分类模型不限于上述BERT预训练模型和其他模型，其他用于自然语言处理(NLP)的多标签分类模型均可适用。

S104、根据多个预设标签之间的共现概率矩阵，得到待分类文本对应的第二标签集合。

第二标签集合包括至少一个第二标签，多个预设标签至少包括第一标签集合中部分第一标签。换而言之，多个预设标签可以仅包括第一标签集中全部的第一标签，多个预设标签还可以仅包括第一标签集中部分的第一标签，多个预设标签还可以在包括第一标签集中全部的第一标签之外还包括其他标签，多个预设标签还可以在包括第一标签集中部分的第一标签之外还包括其他标签，上述其他标签与第一标签不相同。例如，第一标签集合包括第一标签(A、B、C、D)，多个预设标签包括第一标签集合中全部的第一标签以及其他标签，也即第多个预设标签包括标签(A、B、C、D、E)；或多个预设标签包括第一标签集合的部分信息以及除第一标签之外的标签，也即多个预设标签包括标签(A、B、E)；或多个预设标签仅包括第一标签集合中的部分标签，也即多个预设标签包括信息集合(A，B，C)；或多个预设标签仅包括第一标签集合中的全部标签，也即多个预设标签包括标签(A、B、C、D)。

共现概率矩阵是由两两标签共现的概率构成的矩阵，两两标签共现的概率由标注了预设标签的样本文本集合统计得到，标签共现指两个预设标签共同出现在同一样本文本的分类标签中。具体地，假设有预设标签A、B，预设标签A对于预设标签B的共现概率指预设标签A、B共现的频率/预设标签A出现的频率，预设标签B对于预设标签A的共现概率指预设标签A、B共现的频率/预设标签B出现的频率。因此，预设标签A对于预设标签B的共现概率不一定等于预设标签B对于预设标签A的共现概率。

换而言之，共现概率矩阵包括多个预设标签之间的点击信息，点击信息(PMI，Point Mutual Information)一般用来衡量两个事件之间的相关性，在整个事件集合中，可以通过计算两个事件之间的共现频率，判断两个事件之间的相关关系。因此，通过共现概率矩阵可以得到待分类文本对应的第二标签集合。

如图2所示，为本说明书实施例包括的一种共现概率矩阵计算的流程示意图。在图2中包括3个样本文本，分别是样本文本2011、样本文本2012和样本文本2012，样本文本2011对应标签A、标签B、标签C、标签D，样本文本2012对应标签A、标签B、标签E，样本文本2013对应标签B、标签D，针对上述3个样本文本以及每个样本文本对应的预设标签，计算得到共现概率矩阵202如图所示。

举例来说，P(AB/A)表示在出现预设标签A的情况下同时出现预设标签A和预设标签B的概率，因此根据样本文本2011对应标签A、标签B、标签C、标签D，样本文本2012对应标签A、标签B、标签E，P(AB/A)＝1。P(AB/B)表示在出现预设标签B的情况下同时出现预设标签A和预设标签B的概率，因此根据样本文本2011对应标签A、标签B、标签C、标签D，样本文本2012对应标签A、标签B、标签E，样本文本2013对应标签B、标签D对应来看，P(AB/A)＝2/3。P(CB/C)表示在出现预设标签C的情况下同时出现预设标签C和预设标签B的概率，因此根据样本文本2011对应标签A、标签B、标签C、标签D，样本文本2013对应标签B、标签D来看，P(CB/C)＝1。P(CB/B)表示在出现预设标签B的情况下同时出现预设标签C和预设标签B的概率，因此根据样本文本2011对应标签A、标签B、标签C、标签D，样本文本2012对应标签A、标签B、标签E，样本文本2013对应标签B、标签D对应来看，P(CB/B)＝1/3。图2中共现概率矩阵202其他的共现概率以此进行计算。

可以理解的是，图2中所示样本文本的数量以及每个样本文本对应的预设标签仅为示意，本说明书对此不作任何限定。样本文本的获取方式可以是用户通过终端设备的输入装置进行输入得到，还可以是终端设备通过用户的指令从授权平台或存储单元中抓取得到等，本说明书实施例对此不作任何限制。另外，样本文本的长度可以是长文本(如上千或上万字符)或短文本(如几十或几百字符)，本实施例对此不作任何限制。

在一个实施例中，根据多个预设标签之间的共现概率矩阵，得到待分类文本对应的第二标签集合的方法为：根据多个预设标签之间的共现概率矩阵，获取每个第一标签与每个预设标签之间的共现概率；将共现概率大于第一概率阈值的预设标签作为第二标签，得到包括至少一个第二标签的第二标签集合。多个预设标签至少包括第一标签集合中部分第一标签。

举例来说，多个预设标签包括第一标签集合中N个第一标签，因此共现概率矩阵中包括N个第一标签中每个第一标签与其他一个或多个预设标签的共现概率，进一步根据每个第一标签与每个预设标签之间的共现概率，将共现概率大于第一概率阈值的预设标签作为第二标签。

例如，多个预设标签包括第一标签集合中的部分第一标签以及其他预设标签，也即第一标签集合包括第一标签(A、C、F、G)，多个预设标签包括如图2所示的预设标签(A、B、C、D、E)，根据第一标签A在共现概率矩阵中分别与预设标签B、预设标签C、预设标签D和预设标签E的共现概率，得到共现概率高于共现概率阈值的预设标签D作为第二标签，根据第一标签C在共现概率矩阵中分别与预设标签A、预设标签B、预设标签D和预设标签E的共现概率，得到共现概率高于共现概率矩阵的预设标签D和预设标签E作为第二标签，因此最终得到第二标签集合包括第二标签(D、E)。

第一概率阈值的获取方法可以是用户通过终端设备的输入装置进行输入得到，还可以是终端设备通过用户的指令从授权平台或存储单元中得到等。

在一个实施例中，第一概率阈值的获取方法可以是通过参数搜索的方法得到。参数搜索可以理解为在训练文本分类模型的阶段，通过多个已经标注多个标签的样本文本从1到0遍寻第一概率阈值的可能数值，直到找到第一目标概率阈值，该第一目标概率阈值可以理解为基于该第一目标概率阈值得到第二标签集合，并根据该第二标签集合匹配到样本文本的目标标签的精确性超过期望阈值，从而在对待分类文本进行分类时使用该第一目标概率阈值。

例如，通过M个标注好的样本文本，依次从1到0遍寻第一概率阈值的数值，并根据每个数值下的第一概率阈值得到每个样本文本对应的第二个标签乃至目标标签，将得到的样本文本的目标标签与样本文本标注的目标标注进行对比，将满足准确率大于期望阈值条件的M个样本文本对应的至少M个第一概率阈值作为备选，通过众数或平均数等筛选方式得到至少M个第一概率阈值中的第一目标概率阈值，将第一目标概率阈值作为对待分类文本进行分类的第一概率阈值。

在本实施例中，通过参数搜索的方法得到第一概率阈值，从而根据多个预设标签之间的共现概率矩阵，将共现概率大于第一概率阈值的预设标签作为第二标签，从而在第二标签集合和第一标签集合中匹配出待分类文本对应的目标标签，第一概率阈值的合理取值，可以有效提高匹配目标标签的匹配成功率。

S106、对每个第一标签和第二标签与待分类文本进行匹配，将第一标签集合和第二标签集合中匹配成功的标签作为待分类文本的目标标签。

通过召回的方法获取待分类文本对应的第一标签集合，以及通过共现概率矩阵和第一标签集合得到第二标签集合，对第一标签集合中的每个第一标签和第二标签集合中每个第二标签与待分类文本进行匹配，将第一标签集合和第二标签集合中匹配成功的标签作为待分类文本的目标标签。

匹配可以理解为判断第一标签或第二标签是否为目标标签的过程，匹配结果为1或0，当匹配结果为1时，表示该第一标签或第二标签为待分类文本对应的目标标签，当匹配结果为0时，表示该第一标签或第二标签不为待分类文本对应的目标标签。

例如，第一标签集合包括第一标签(A、C、F、G)，通过共现概率矩阵得到第二标签集合包括第二标签(D、E)，将每个第一标签和第二标签与待分类文本进行二分匹配，根据匹配结果确定待分类文本对应的目标标签。

在一个实施例中，将第一标签集合和第二标签集合中包括的第一标签和第二标签与待分类文本进行匹配之前，还包括：将第一标签集合和第二标签集合进行去重处理，得到去重后的至少一个第一标签和至少一个第二标签；对每个第一标签和第二标签与待分类文本进行匹配，将去重后的第一标签集合和第二标签集合中匹配成功的标签作为待分类文本的目标标签。

将第一标签集合和第二标签集合进行去重处理，可以理解为将第一标签集合和第二标签集合中相同的标签去除。由于第二标签集合中的第二标签为通过第一标签集合中的第一标签在共现概率矩阵中找到，难免在共现概率矩阵中存在包括多个第一标签，以及多个第一标签中的共现概率大于概率阈值，从而将第一标签确定为第二标签集合中的情况。

例如，多个预设标签包括第一标签集合中的部分第一标签以及其他预设标签，也即第一标签集合包括第一标签(A、C、F、G)，多个预设标签包括如图2所示的预设标签(A、B、C、D、E)，根据第一标签A在共现概率矩阵中分别与预设标签B、预设标签C、预设标签D和预设标签E的共现概率，得到共现概率高于共现概率阈值的预设标签C、预设标签D作为第二标签，根据第一标签C在共现概率矩阵中分别与预设标签A、预设标签B、预设标签D和预设标签E的共现概率，得到共现概率高于共现概率矩阵的预设标签D和预设标签E作为第二标签，因此最终得到第二标签集合包括第二标签(C、D、E)。因此，在第一标签集合(A、C、F、G)和第二标签集合(C、D、E)中出现重复的标签C，需要对标签C进行去重处理，得到最终的第二标签集合为(D、E)。

在本实施例中，通过对第一标签集合和第二标签集合进行去重处理，避免对同一个标签进行重复的匹配处理，浪费时间，降低获取待分类文本的目标标签的效率。

在一个实施例中，将通过匹配模型对每个第一标签和第二标签与待分类文本进行匹配，将第一标签集合和第二标签集合中匹配成功的标签作为待分类文本的目标标签。例如，匹配模型包括BERT-base模型，在BERT-base模型中通过映射将待分类文本的字符和标签的字符转换成数字，再对数字进行向量化得到待分类文本的第一初始向量和标签对应的第二初始向量，例如，可以采用词的Embedding来实现向量化过程；将第一初始向量和标签对应的第二初始向输入编码模块进行语义编码，获得第一编码结果和第二编码结果，例如，编码模块采用Transformer架构中的编码Encoder模块，对第一初始向量进行特征提取，获得编码后的第一向量序列，例如，语义编码输出向量维度为768×2048，2048为输入向量长度；进一步的，将第一编码结果和第二编码结果输入分类模块进行线性变换，获得分类概率向量作为匹配结果，例如，分类概率向量的数值小于0.5则表示匹配结果为0，也即此时匹配的标签与该待分类文本不匹配，分类概率向量的数值大于或等于0.5则表示匹配结果为1，也即此时匹配的标签与该待分类文本匹配。其中，分类模块可以是线性变换层，将第一编码结果变换到标签维度，还可以在分类模块前加入一层dropout，以预设概率(如0.1)随机丢弃一些神经元，然后再对第一编码结果进行线性变换，得到标签维度的概率向量作为匹配结果。

如图3所示，为本说明书实施例提供的一种文本分类方法的结构示意图，图3中包括待分类文本301，通过多标签分类模型对待分类文本301进行召回预测，得到待分类文本301对应的第一标签集合302，第一标签集合302包括多个第一标签。进一步的，根据多个预设标签之间的共现概率矩阵303，获取每个第一标签与每个预设标签之间的共现概率；将共现概率大于第一概率阈值的预设标签作为第二标签，得到包括至少一个第二标签的第二标签集合304。进一步的，通过匹配模型对每个第一标签和第二标签与待分类文本301进行匹配，将第一标签集合和第二标签集合中匹配成功的标签作为待分类文本301的目标标签集合305中的目标标签。

例如，通过卷积神经网络的多标签分类模块对待分类文本301进行召回，得到第一标签集合302，包括第一标签(A、C、F、G)，多个预设标签包括如图2所示的预设标签(A、B、C、D、E)，根据第一标签A在共现概率矩阵303中分别与预设标签B、预设标签C、预设标签D和预设标签E的共现概率，以及根据第一标签C在共现概率矩阵303中分别与预设标签A、预设标签B、预设标签D和预设标签E的共现概率，最终得到第二标签集合304包括第二标签(D、E)；进一步的，通过匹配模型对每个第一标签和第二标签与待分类文本301进行匹配，将第一标签集合302和第二标签集合304中匹配成功的标签作为待分类文本301的目标标签集合305中的目标标签(A，D)。

在一个实施例中，如图4所示，为本说明书实施例提出的一种文本分类方法，该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的文本分类装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

具体地，该文本分类方法包括：

S202、根据样本文本集合中每个样本文本对应的至少一个预设标签，计算得到多个预设标签之间的共现概率矩阵。

共现概率矩阵是由两两标签共现的概率构成的矩阵，两两标签共现的概率由标注了预设标签的样本文本集合统计得到，标签共现指两个预设标签共同出现在同一样本文本的分类标签中。

S204、召回待分类文本对应的第一标签集合。

参见上述S102，此处不再赘述。

S206、根据多个预设标签之间的共现概率矩阵，得到待分类文本对应的第二标签集合。

参见上述S104，此处不再赘述。

S208、根据预设条件，获取第一标签集合中至少一个待匹配标签和待分类文本的第一目标标签。

具体而言，筛选出第一标签集合中至少一个待匹配标签和待分类文本的第一目标标签，也即将第一标签集合中多个第一标签筛选出需要匹配的待匹配标签和不需要匹配的第一目标标签，第一目标标签可以理解为待分类文本对应的目标标签集合中的部分标签。

在一个实施例中，预设条件为概率高于第二概率阈值的第一标签为待分类文本的第一目标标签，概率小于或等于第二概率阈值的第一标签为待匹配标签。根据预设条件，获取第一标签集合中至少一个待匹配标签和待分类文本的第一目标标签之前，还包括：获取第一标签集合中每个第一标签为待分类文本的目标标签的概率。

具体而言，通过多标签分类模型或其他方法召回待分类文本对应的至少一个第一标签时，还包括每个第一标签是待分类文本的目标标签的概率，也即第一标签为待分类文本的目标标签的置信度。例如，多标签分类模型可以包括卷积神经网络(ConvolutionalNeural Networks，CNN)、循环神经网络(recurrent neural network，RNN)或基于注意力机制Attention的Transformer网络及分类层，又例如，多标签分类模型可以是BERT预训练模型，BERT(Bidirectional Encoder Representation from Transformers)预训练模型是通过在海量的语料基础上运行自监督学习方法，从而召回待分类文本对应的至少一个第一标签。

例如，召回了待分类文本的第一标签集合，第一标签集合包括第一标签(A、B、C、D)，其中，第一标签A是待分类文本的目标标签的概率为0.8，第一标签B是待分类文本的目标标签的概率为0.6，第一标签C是待分类文本的目标标签的概率为0.4，第一标签D是待分类文本的目标标签的概率为0.2，进一步的，第二概率阈值为0.6，将概率高于第二概率阈值的第一标签为待分类文本的第一目标标签，概率小于或等于第二概率阈值的第一标签为待匹配标签，因此，待分类文本对应的待匹配标签集合包括待匹配标签(C、D)，对应的第一目标标签集合包括第一目标标签(A，B)。

在本实施例中，第二概率阈值的获取方法可以是用户通过终端设备的输入装置进行输入得到，还可以是终端设备通过用户的指令从授权平台或存储单元中得到等。

在另一个实施例中，第二概率阈值的获取方法可以是通过参数搜索的方法得到。参数搜索可以理解为在训练文本分类模型的阶段，通过多个已经标注多个标签的样本文本从1到0遍寻第二概率阈值的可能数值，直到找到第二目标概率阈值，该第二目标概率阈值可以理解为基于该第二目标概率阈值得到待匹配标签集合，并根据该待匹配标签集合匹配到样本文本的目标标签的精确性超过期望阈值，从而在对待分类文本进行分类时使用该第二目标概率阈值。

例如，通过X个标注好的样本文本，依次从1到0遍寻第二概率阈值的数值，并根据每个数值下的第二概率阈值得到每个样本文本对应的待匹配标签集合乃至目标标签，将得到的样本文本的目标标签与样本文本标注的目标标注进行对比，将满足准确率大于期望阈值条件的X个样本文本对应的至少X个第二概率阈值作为备选，通过众数或平均数等筛选方式得到至少X个第二概率阈值中的第二目标概率阈值，将第二目标概率阈值作为对待分类文本进行分类的第二概率阈值。

在本实施例中，通过参数搜索的方法得到第二概率阈值，从而将概率高于第二概率阈值的第一标签为待分类文本的第一目标标签，概率小于或等于第二概率阈值的第一标签为待匹配标签，第二概率阈值的合理取值，可以有效提高匹配目标标签的匹配成功率。

在另一个实施例中，预设条件为将根据概率从高到低的顺序将第一标签集合中多个第一标签进行排序，将排序占前Y％的第一标签作为待分类文本的第一目标标签，将排序占后Y％的第一标签为待匹配标签。根据预设条件，获取第一标签集合中至少一个待匹配标签和待分类文本的第一目标标签之前，还包括：获取第一标签集合中每个第一标签为待分类文本的目标标签的概率，获取目标标签的概率的具体方式可以参见上述。

在本实施例中，具体而言，筛选出第一标签集合中至少一个待匹配标签和待分类文本的第一目标标签，也即将第一标签集合中多个第一标签筛选出需要匹配的待匹配标签和不需要匹配的第一目标标签，从而减少第一标签集合中需要进行匹配的标签的数量，提高文本分类的效率。

S210、对每个待匹配标签和每个第二标签与待分类文本进行匹配，将至少一个待匹配标签和第二标签集合中匹配成功的标签作为待分类文本的第二目标标签。

参见上述S106，此处不再赘述。

如图5所示，为本说明书实施例提供的一种文本分类方法的结构示意图，图5中包括待分类文本401，通过多标签分类模型对待分类文本401进行召回预测，得到待分类文本401对应的第一标签集合404，第一标签集合404包括多个第一标签。进一步的，通过样本文本集合402得到的共现概率矩阵403，获取每个第一标签与每个预设标签之间的共现概率；将共现概率大于第一概率阈值的预设标签作为第二标签，得到包括至少一个第二标签的第二标签集合405。进一步的，通过概率比较，将第一标签集合404中概率高于第二概率阈值的第一标签为待分类文本的第一目标标签集合4041中的第一目标标签，概率小于或等于第二概率阈值的第一标签为待匹配标签集合4042中的待匹配标签。进一步的，通过匹配模型对每个待匹配标签和第二标签与待分类文本401进行匹配，将待匹配标签集合4042和第二标签集合405中匹配成功的标签作为待分类文本401的第二目标标签集合406中的第二目标标签，待分类文本401对应的目标标签集合包括第一目标标签集合4041和第二目标标签集合406。

例如，通过卷积神经网络的多标签分类模块对待分类文本401进行召回，得到第一标签集合402，包括第一标签(A、C、F、G)，多个预设标签包括如图2所示的预设标签(A、B、C、D、E)，根据第一标签A在共现概率矩阵403中分别与预设标签B、预设标签C、预设标签D和预设标签E的共现概率，以及根据第一标签C在共现概率矩阵403中分别与预设标签A、预设标签B、预设标签D和预设标签E的共现概率，最终得到第二标签集合405包括第二标签(D、E)；进一步，通过概率比较，将第一标签集合404中概率高于第二概率阈值的第一标签为待分类文本的第一目标标签集合4041中的第一目标标签(A、C)，概率小于或等于第二概率阈值的第一标签为待匹配标签集合4042中的待匹配标签(F、G)；进一步的，通过匹配模型对每个待匹配标签和第二标签与待分类文本401进行匹配，将待匹配标签集合4042和第二标签集合405中匹配成功的标签作为待分类文本401的目标标签集合中的目标标签(A，C，F，D)。

本说明书通过召回待分类文本对应的第一标签集合之后，还通过预设的共现概率矩阵获取待分类文本的第二标签集合，有效利用样本文本集合中标签共现信息，在标签召回预测阶段覆盖更多可能相关的长尾标签，提高了多标签召回率；进一步的，在针对待分类文本对应的目标标签的精选阶段，将多标签分类问题转换为标签与待分类文本的匹配问题，对召回的第一标签集合和通过共现概率矩阵得到的第二标签集合与待分类文本进行匹配二分识别，从而最终确定待分类文本对应的目标标签，简单有效地提高文本分类的精度，

下述为本说明书装置实施例，可以用于执行本说明书方法实施例。对于本说明书装置实施例中未披露的细节，请参照本说明书方法实施例。

请参见图6，其示出了本说明书一个示例性实施例提供的文本分类装置的结构示意图。该文本分类装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置包括查询召回标签模块601、共现标签模块602、目标匹配模块603。

召回标签模块601，用于召回待分类文本对应的第一标签集合，所述第一标签集合包括至少一个第一标签；

共现标签模块602，用于根据多个预设标签之间的共现概率矩阵，得到所述待分类文本对应的第二标签集合，所述第二标签集合包括至少一个第二标签，所述多个预设标签至少包括所述第一标签集合中部分第一标签；

目标匹配模块603，用于对每个所述第一标签和所述第二标签与所述待分类文本进行匹配，将所述第一标签集合和所述第二标签集合中匹配成功的标签作为所述待分类文本的目标标签。

在一个实施例中，共现标签模块602，包括：

共现概率单元，用于根据多个预设标签之间的共现概率矩阵，获取每个所述第一标签与每个所述预设标签之间的共现概率；

第二标签单元，用于将共现概率大于第一概率阈值的预设标签作为第二标签，得到包括至少一个所述第二标签的第二标签集合。

在一个实施例中，文本分类装置还包括：

样本计算模块，用于根据样本文本集合中每个所述样本文本对应的至少一个预设标签，计算得到多个所述预设标签之间的共现概率矩阵，所述样本文本集合包括至少一个样本文本。

在一个实施例中，目标匹配模块603，包括：

标签区分单元，用于根据预设条件，获取所述第一标签集合中至少一个待匹配标签和所述待分类文本的第一目标标签；

匹配目标单元，用于对每个所述待匹配标签和每个所述第二标签与所述待分类文本进行匹配，将所述至少一个待匹配标签和所述第二标签集合中匹配成功的标签作为所述待分类文本的第二目标标签，所述待分类文本的目标标签包括所述第一目标标签和所述第二目标标签。

在一个实施例中，所述预设条件为概率高于第二概率阈值的第一标签为所述待分类文本的第一目标标签，概率小于或等于所述第二概率阈值的第一标签为所述待匹配标签；

目标匹配模块603，包括：

概率计算单元，用于获取所述第一标签集合中每个第一标签为所述待分类文本的目标标签的概率。

在一个实施例中，目标匹配模块603，包括：

参数搜索单元，用于通过参数搜索获取所述概率阈值。

在一个实施例中，目标匹配模块603，包括：

去重处理单元，用于将所述第一标签集合和所述第二标签集合进行去重处理，得到去重后的至少一个第一标签和至少一个第二标签；

去重匹配单元，用于对每个所述第一标签和所述第二标签与所述待分类文本进行匹配，将去重后的第一标签集合和第二标签集合中匹配成功的标签作为所述待分类文本的目标标签。

在一个实施例中，召回标签模块601，包括：

多标签召回单元，用于通过多标签分类模型召回所述待分类文本对应的至少一个第一标签。

在一个实施例中，目标匹配模块603，包括：

匹配模型单元，用于通过匹配模型对每个所述第一标签和所述第二标签与所述待分类文本进行匹配，将所述第一标签集合和所述第二标签集合中匹配成功的标签作为所述待分类文本的目标标签。

需要说明的是，上述实施例提供的文本分类装置在执行文本分类方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本分类装置与文本分类方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本说明书实施例序号仅仅为了描述，不代表实施例的优劣。

本说明书实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1－图5所示实施例的所述文本分类方法，具体执行过程可以参见图1－图5所示实施例的具体说明，在此不进行赘述。

本说明书还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行如上述图1－图5所示实施例的所述文本分类方法，具体执行过程可以参见图1－图5所示实施例的具体说明，在此不进行赘述。

请参见图7，为本说明书实施例提供了一种电子设备的结构示意图。如图7所示，所述电子设备700可以包括：至少一个处理器701，至少一个网络接口704，用户接口703，存储器705，至少一个通信总线702。

其中，通信总线702用于实现这些组件之间的连接通信。

其中，用户接口703可以包括显示屏(Display)、摄像头(Camera)，可选用户接口703还可以包括标准的有线接口、无线接口。

其中，网络接口704可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器701可以包括一个或者多个处理核心。处理器701利用各种接口和线路连接整个服务器700内的各个部分，通过运行或执行存储在存储器705内的指令、程序、代码集或指令集，以及调用存储在存储器705内的数据，执行服务器700的各种功能和处理数据。可选的，处理器701可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器701可集成处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器701中，单独通过一块芯片进行实现。

其中，存储器705可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器705包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器705可用于存储指令、程序、代码、代码集或指令集。存储器705可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及的数据等。存储器705可选的还可以是至少一个位于远离前述处理器701的存储装置。如图7所示，作为一种计算机存储介质的存储器705中可以包括操作系统、网络通信模块、用户接口模块以及文本分类应用程序。

在图7所示的电子设备700中，用户接口703主要用于为用户提供输入的接口，获取用户输入的数据；而处理器701可以用于调用存储器705中存储的文本分类应用程序，并具体执行以下操作：

在一个实施例中，处理器701执行所述根据多个预设标签之间的共现概率矩阵，得到所述待分类文本对应的第二标签集合，具体执行：

根据多个预设标签之间的共现概率矩阵，获取每个所述第一标签与每个所述预设标签之间的共现概率；

将共现概率大于第一概率阈值的预设标签作为第二标签，得到包括至少一个所述第二标签的第二标签集合。

在一个实施例中，处理器701执行所述根据多个预设标签之间的共现概率矩阵，得到所述待分类文本对应的第二标签集合之前，还执行：

根据样本文本集合中每个所述样本文本对应的至少一个预设标签，计算得到多个所述预设标签之间的共现概率矩阵，所述样本文本集合包括至少一个样本文本。

在一个实施例中，处理器701执行所述对每个所述第一标签和所述第二标签与所述待分类文本进行匹配，将所述第一标签集合和所述第二标签集合中匹配成功的标签作为所述待分类文本的目标标签，具体执行：

根据预设条件，获取所述第一标签集合中至少一个待匹配标签和所述待分类文本的第一目标标签；

对每个所述待匹配标签和每个所述第二标签与所述待分类文本进行匹配，将所述至少一个待匹配标签和所述第二标签集合中匹配成功的标签作为所述待分类文本的第二目标标签，所述待分类文本的目标标签包括所述第一目标标签和所述第二目标标签。

在一个实施例中，预设条件为概率高于第二概率阈值的第一标签为所述待分类文本的第一目标标签，概率小于或等于所述第二概率阈值的第一标签为所述待匹配标签；

在一个实施例中，处理器701执行所述根据预设条件，获取所述第一标签集合中至少一个待匹配标签和所述待分类文本的第一目标标签之前，还执行：

获取所述第一标签集合中每个第一标签为所述待分类文本的目标标签的概率。

通过参数搜索获取所述概率阈值。

将所述第一标签集合和所述第二标签集合进行去重处理，得到去重后的至少一个第一标签和至少一个第二标签；

对每个所述第一标签和所述第二标签与所述待分类文本进行匹配，将去重后的第一标签集合和第二标签集合中匹配成功的标签作为所述待分类文本的目标标签。

在一个实施例中，处理器701执行所述召回待分类文本对应的至少一个第一标签，具体执行：

通过多标签分类模型召回所述待分类文本对应的至少一个第一标签。

通过匹配模型对每个所述第一标签和所述第二标签与所述待分类文本进行匹配，将所述第一标签集合和所述第二标签集合中匹配成功的标签作为所述待分类文本的目标标签。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本说明书较佳实施例而已，当然不能以此来限定本说明书之权利范围，因此依本说明书权利要求所做的等同变化，仍属本说明书所涵盖的范围。

Claims

1.一种文本分类方法，所述方法包括：

2.根据权利要求1所述的文本分类方法，根据多个预设标签之间的共现概率矩阵，得到所述待分类文本对应的第二标签集合，包括：

3.根据权利要求1或2所述的文本分类方法，所述根据多个预设标签之间的共现概率矩阵，得到所述待分类文本对应的第二标签集合之前，还包括：

4.根据权利要求1所述的文本分类方法，所述对每个所述第一标签和所述第二标签与所述待分类文本进行匹配，将所述第一标签集合和所述第二标签集合中匹配成功的标签作为所述待分类文本的目标标签，包括：

5.根据权利要求4所述的文本分类方法，所述预设条件为概率高于第二概率阈值的第一标签为所述待分类文本的第一目标标签，概率小于或等于所述第二概率阈值的第一标签为所述待匹配标签；

所述根据预设条件，获取所述第一标签集合中至少一个待匹配标签和所述待分类文本的第一目标标签之前，还包括：

6.根据权利要求5所述的文本分类方法，所述根据预设条件，获取所述第一标签集合中至少一个待匹配标签和所述待分类文本的第一目标标签之前，还包括：

通过参数搜索获取所述概率阈值。

7.根据权利要求1所述的文本分类方法，所述对每个所述第一标签和所述第二标签与所述待分类文本进行匹配，将所述第一标签集合和所述第二标签集合中匹配成功的标签作为所述待分类文本的目标标签，包括：

8.根据权利要求1所述的文本分类方法，所述召回待分类文本对应的至少一个第一标签，包括：

9.根据权利要求1所述文本分类方法，所述对每个所述第一标签和所述第二标签与所述待分类文本进行匹配，将所述第一标签集合和所述第二标签集合中匹配成功的标签作为所述待分类文本的目标标签，包括：

10.一种文本分类装置，所述装置包括：

11.一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～9任意一项的方法步骤。

12.一种计算机程序产品，所述计算机程序产品存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～9任意一项的方法步骤。

13.一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～9任意一项的方法步骤。