CN116304717A

CN116304717A - 文本分类方法及装置、存储介质及电子设备

Info

Publication number: CN116304717A
Application number: CN202310515436.3A
Authority: CN
Inventors: 黎斯思; 王卿云; 亓克娜
Original assignee: Beijing Sohu New Media Information Technology Co Ltd
Current assignee: Beijing Sohu New Media Information Technology Co Ltd
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2023-06-23
Anticipated expiration: 2043-05-09
Also published as: CN116304717B

Abstract

本发明提供一种文本分类方法及装置、存储介质及电子设备，该方法包括：当需要对目标文本进行内容导向分类时，确定相应的标题文本、正文文本和观点选项文本；按照预设的文本格式，对标题文本、正文文本和观点选项文本进行文本拼接，得到待识别文本；将待识别文本输入预先构建的多标签分类模型，经模型处理后，获取模型输出的各个导向类别，并将各个导向类别作为目标文本的分类结果；所述多标签分类模型为基于预设的初始样本集合、训练数据优化策略、提示学习方法和预训练语言模型构建的分类模型。应用本发明的方法，可通过提示学习和优化训练数据的方式改善模型训练效果，提高模型的分类精度，继而可提高对于文本内容导向分类的准确性。

Description

文本分类方法及装置、存储介质及电子设备

技术领域

本发明涉及机器学习技术领域，特别是涉及一种文本分类方法及装置、存储介质及电子设备。

背景技术

在各类媒体平台的运营过程中，通常需对平台上发布的文本信息进行监管。监管的主要手段之一则是通过基于机器学习方法构建的分类模型，对文本信息进行分类，以识别文本内容呈现的导向，如是否为广告宣传、是否涉及低俗内容等。

随着媒体平台互动性需求的提高，讨论式的文本内容逐渐成为了平台中常见的发布内容之一，讨论式的文本内容指的是针对某一话题进行讨论，提供观点互动选择的信息形式下的文本内容，在业务场景中通常称之为讨论。而此类型文本内容的分类，通常涉及多标签分类，即文本可以被划分为多个不同的类别。目前，多标签场景下的文本分类方式，通常是通过二元分类等基于单标签分类的方法构建分类模型实现的。

在实际的应用场景中，讨论式的文本样本数据通常十分有限。现有分类方式中应用的分类模型，在样本数据有限的情况下，往往会出现过拟合现象，使得分类模型的分类精度较低，继而导致文本分类的准确性较差。

发明内容

有鉴于此，本发明实施例提供了一种文本分类方法，以解决现有分类方式中，分类模型容易出现过拟合现象，使得分类准确度较差的问题。

本发明实施例还提供了一种文本分类装置，用以保证上述方法实际中的实现及应用。

为实现上述目的，本发明实施例提供如下技术方案：

一种文本分类方法，包括：

当需要对目标文本进行内容导向分类时，确定所述目标文本对应的标题文本、正文文本和观点选项文本；

按照预设的文本格式，对所述标题文本、所述正文文本和所述观点选项文本进行文本拼接，得到待识别文本；

将所述待识别文本输入预先构建的多标签分类模型，经所述多标签分类模型处理后，获取所述多标签分类模型输出的各个导向类别；所述多标签分类模型为基于预设的初始样本集合、预设的训练数据优化策略、预设的提示学习方法和预训练语言模型构建的分类模型；所述初始样本集合包括每个预设导向分类标签对应的各个文本语料；

将所述多标签分类模型输出的各个导向类别作为所述目标文本的分类结果。

上述的方法，可选的，所述多标签分类模型的构建过程，包括：

确定提示模板；所述提示模板由多个提示子模板依次拼接得到，所述多个提示子模板与各个所述预设导向分类标签一一对应；

依据所述初始样本集合和所述提示模板，对所述预训练语言模型进行训练，将经过训练的预训练语言模型作为第一分类模型；

确定多个未标注文本语料；

依据所述多个未标注文本语料和所述第一分类模型，确定多个软标签语料；

依据所述初始样本集合、各个所述软标签语料和所述提示模板，对所述第一分类模型进行训练，将经过训练的第一分类模型作为第二分类模型；

依据所述初始样本集合和各个所述软标签语料，构建多个负样本；

依据所述初始样本集合、各个所述软标签语料、各个所述负样本、所述提示模板和预设的提示模板调整策略，对所述第二分类模型进行训练，将经过训练的第二分类模型作为所述多标签分类模型。

上述的方法，可选的，所述依据所述多个未标注文本语料和所述第一分类模型，确定多个软标签语料，包括：

对于每个所述未标注文本语料，将该未标注文本语料输入所述第一分类模型，经所述第一分类模型处理后，获取所述第一分类模型输出的目标导向类别以及该目标导向类别对应的置信度，根据该目标导向类别，在各个所述预设导向分类标签中，确定该未标注文本语料对应的命中标签，并将该目标导向类别对应的置信度作为该未标注文本语料对应的分类置信度；

依据各个所述未标注文本语料对应的分类置信度，在各个所述未标注文本语料中确定各个目标未标注文本语料；

对于每个所述目标未标注文本语料对应的命中标签，将该目标未标注文本语料确定为该命中标签对应的软标签语料。

上述的方法，可选的，所述依据各个所述未标注文本语料对应的分类置信度，在各个所述未标注文本语料中确定各个目标未标注文本语料，包括：

对于每个所述未标注文本语料，将该未标注文本语料对应的分类置信度与第一预设阈值进行大小比较，若该未标注文本语料对应的分类置信度大于所述第一预设阈值，则将该未标注文本语料确定为所述目标未标注文本语料。

上述的方法，可选的，所述依据所述初始样本集合和各个所述软标签语料，构建多个负样本，包括：

对于所述初始样本集合中的每个文本语料，依据所述第二分类模型，确定该文本语料对应的各个置信度，该文本语料对应的各个置信度与各个所述预设导向分类标签一一对应；

对于每个所述软标签语料，依据所述第二分类模型，确定该软标签语料对应的各个置信度，该软标签语料对应的各个置信度与各个所述预设导向分类标签一一对应；

依据各个所述文本语料对应的各个置信度和各个所述软标签语料对应的各个置信度，在所述初始样本集合和各个所述软标签语料中，确定每个所述预设导向分类标签对应的各个负样本。

上述的方法，可选的，所述依据各个所述文本语料对应的各个置信度和各个所述软标签语料对应的各个置信度，在所述初始样本集合和各个所述软标签语料中，确定每个所述预设导向分类标签对应的各个负样本，包括：

对于每个所述文本语料，判断该文本语料对应的各个置信度中是否存在小于第二预设阈值的置信度，若该文本语料对应的各个置信度中存在小于所述第二预设阈值的置信度，则将该文本语料对应的各个置信度中小于所述第二预设阈值的置信度所对应的预设导向分类标签作为该文本语料对应的未命中标签，将该文本语料作为该未命中标签对应的负样本；

对于每个所述软标签语料，判断该软标签语料对应的各个置信度中是否存在小于所述第二预设阈值的置信度，若该软标签语料对应的各个置信度中存在小于所述第二预设阈值的置信度，则将该软标签语料对应的各个置信度中小于所述第二预设阈值的置信度所对应的预设导向分类标签作为该软标签语料对应的未命中标签，将该软标签语料作为该未命中标签对应的负样本。

上述的方法，可选的，所述依据所述初始样本集合、各个所述软标签语料、各个所述负样本、所述提示模板和预设的提示模板调整策略，对所述第二分类模型进行训练的过程，包括：

按照预设的训练周期对所述第二分类模型进行训练，在进入当前的训练周期时，依据所述提示模板调整策略，对所述提示模板中各个提示子模板的拼接顺序进行调整，得到经过调整的提示模板，并通过所述初始样本集合、各个所述软标签语料、各个所述负样本以及所述经过调整的提示模板，对所述第二分类模型进行训练。

一种文本分类装置，包括：

第一确定单元，用于当需要对目标文本进行内容导向分类时，确定所述目标文本对应的标题文本、正文文本和观点选项文本；

拼接单元，用于按照预设的文本格式，对所述标题文本、所述正文文本和所述观点选项文本进行文本拼接，得到待识别文本；

分类单元，用于将所述待识别文本输入预先构建的多标签分类模型，经所述多标签分类模型处理后，获取所述多标签分类模型输出的各个导向类别；所述多标签分类模型为基于预设的初始样本集合、预设的训练数据优化策略、预设的提示学习方法和预训练语言模型构建的分类模型；所述初始样本集合包括每个预设导向分类标签对应的各个文本语料；

第二确定单元，用于将所述多标签分类模型输出的各个导向类别作为所述目标文本的分类结果。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的文本分类方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上述的文本分类方法。

基于上述本发明实施例提供的一种文本分类方法，包括：当需要对目标文本进行内容导向分类时，确定目标文本对应的标题文本、正文文本和观点选项文本；按照预设的文本格式，对标题文本、正文文本和观点选项文本进行文本拼接，得到待识别文本；将待识别文本输入预先构建的多标签分类模型，经多标签分类模型处理后，获取其输出的各个导向类别；所述多标签分类模型为基于预设的初始样本集合、训练数据优化策略、提示学习方法和预训练语言模型构建的分类模型；所述初始样本集合包括每个预设导向分类标签对应的各个文本语料；将多标签分类模型输出的各个导向类别作为目标文本的分类结果。应用本发明实施例提供的方法，文本分类过程中应用基于预训练语言模型构建的多标签分类模型进行分类，在此模型的构建过程中，通过提示学习方法进行模型训练，并且通过训练数据优化策略对样本数据不断进行优化。一方面，基于提示学习方法的训练方式，可以给予模型一定的提示，模型可以从提示中学习到更多有关标签的信息，有利于在样本较少的场景中，提高模型的分类精度，继而提高分类的准确性。另一方面，基于优化样本数据的训练方式，可以在样本较少的场景中，对样本数据进行扩增，以改善模型训练效果，进一步提高模型的分类精度，继而提高分类的准确性。应用基于上述方式构建的多标签分类模型对文本的内容导向进行分类，有利于提高分类的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种文本分类方法的方法流程图；

图2为本发明实施例提供的一种多标签分类模型构建过程的示例图；

图3为本发明实施例提供的一种提示学习方法的示例图；

图4为本发明实施例提供的一种软标签语料构建过程的示例图；

图5为本发明实施例提供的一种预设导向分类标签之间相关系数的示例图；

图6为本发明实施例提供的一种预设导向分类标签之间相关系数的又一示例图；

图7为本发明实施例提供的一种文本分类装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，现有文本分类方式中的分类模型通常是基于二元分类的机器学习模型，而机器学习模型的性能对于样本数据具有较高的依赖性，在样本数据有限的场景下，基于二元分类的模型常常会出现过拟合现象，导致分类精度降低，模型无法学习到标签之间的边界，继而导致文本分类的准确度较差。

因此，本发明实施例提供了一种文本分类方法，通过优化训练数据，并结合提示学习方法对预训练语言模型进行训练，得到多标签分类模型，通过由此构建的多标签分类模型实现文本分类，以提高文本分类的准确度。

本发明实施例提供了一种文本分类方法，所述方法可应用于文本分类系统，其执行主体可以为系统的处理器，所述方法的方法流程图如图1所示，包括：

S101：当需要对目标文本进行内容导向分类时，确定所述目标文本对应的标题文本、正文文本和观点选项文本；

本发明实施例提供的方法中，媒体平台上发布的讨论式的文本内容称之为讨论，一个讨论中包括三个模块的内容，即标题、正文以及观点选项，标题的内容可以是讨论的话题，正文的内容可以是关于该话题的一些叙述，例如关于背景和现状的介绍，观点选项的内容可以是针对讨论的话题的各种观点。例如一个讨论，包含标题内容“你讨厌XX吗”，正文内容则是相关的介绍，观点选项包括“讨厌”和“不讨厌”两个观点。当需要识别讨论的内容导向时，可将该讨论所有模块的内容作为目标文本。

具体的，可以由用户自行发起对某个讨论的内容导向分类，用户可通过系统前端将目标文本提交到系统后台，触发目标文本的文本分类过程。也可以通过配置，实时监测媒体平台中发布的信息，当监测到新发布的讨论时，触发目标文本的文本分类过程。

本发明实施例提供的方法中，当需要识别目标文本的内容导向类别时，从目标文本中分别提取出标题模块的文本、正文模块的文本以及观点选项模块的文本，将标题模块的文本作为目标文本对应的标题文本，将正文模块的文本作为目标文本对应的正文文本，观点选项模块的文本即为目标文本对应的观点选项文本。

S102：按照预设的文本格式，对所述标题文本、所述正文文本和所述观点选项文本进行文本拼接，得到待识别文本；

本发明实施例提供的方法中，按照预先构建的多标签分类模型的输入数据格式，设置了对应的文本格式，按照预设的文本格式，对标题文本、正文文本以及观点选项文本进行拼接，将拼接得到的文本作为待识别文本。具体的，文本格式可以按照“标题文本-正文文本-观点选项文本”的顺序格式进行设置。

S103：将所述待识别文本输入预先构建的多标签分类模型，经所述多标签分类模型处理后，获取所述多标签分类模型输出的各个导向类别；所述多标签分类模型为基于预设的初始样本集合、预设的训练数据优化策略、预设的提示学习方法和预训练语言模型构建的分类模型；所述初始样本集合包括每个预设导向分类标签对应的各个文本语料；

本发明实施例提供的方法中，基于预设的初始样本集合、预设的训练数据优化策略、预设的提示学习方法和预训练语言模型，预先构建了一个分类模型，此分类模型为多标签分类模型。多标签分类模型主要基于提示学习方法对预训练语言模型进行训练得到，并且在训练过程中，在初始样本集合的基础上，可通过训练数据优化策略不断优化用于训练模型的训练样本。

初始样本集合包括各个预设导向分类标签对应的文本语料，每个预设导向分类标签对应的文本语料即为命中对应标签的文本语料，该文本语料基于其对应的标签进行标注。各个预设导向分类标签可以根据实际的分类需求设置，例如可以设置为“广告”、“标题低俗”、“内容低俗”等等标签。训练数据优化策略可以根据实际需求设置，例如可以采用构建负样本等方式，或其他数据增强的方式，优化训练样本。而提示学习（Prompt Learning）方法是一种在模型训练过程中，向模型提供提示信息的学习方式，其方法原理是现有的学习方法，在此不作详细介绍。本发明实施例提供的方法中，应用提示学习方法，在训练过程中向分类模型提供提示，提醒模型将某些样本分配到特定的类别中，使模型能够从提示中学习到更多有关标签的信息，从而提高分类的准确性。预训练语言模型指的是基于大规模语料预训练的模型，其已从大规模的语料中学习到通用的语言表示。具体的，预训练语言模型可以采用Roberta模型等现有的模型。

本发明实施例提供的方法中，将待识别文本输入预先构建的多标签分类模型，通过多标签分类模型对待识别文本进行分类，多标签分类模型可计算待识别文本命中每个预设导向分类标签的置信度，以对待识别文本的内容导向进行分类。在实际的应用过程中，多标签分类模型对待识别文本进行处理后可以得到待识别文本在各个预设导向分类标签上的置信度，多标签分类模型可以将置信度高于预设阈值的预设导向分类标签作为待识别文本所对应的导向类别，将待识别文本对应的各个导向类别进行输出，获取多标签分类模型输出的各个导向类别即可。

需要说明的是，多标签分类模型属于多标签分类的分类模型，在具体的应用过程中，模型输出的导向类别可以仅有一个，也可以有多个，由实际的分类情况决定。

S104：将所述多标签分类模型输出的各个导向类别作为所述目标文本的分类结果。

本发明实施例提供的方法中，将模型输出的各个导向类别作为目标文本关于内容导向分类的分类结果，即认为目标文本的内容呈现与各个导向类别相关的导向倾向，如导向类别中包括“广告”，则认为目标文本中可能存在广告性质的内容。

基于本发明实施例提供的方法，当需要对目标文本进行内容导向分类时，确定目标文本对应的标题文本、正文文本和观点选项文本，对上述三类文本进行文本拼接，得到待识别文本；将待识别文本输入预先构建的多标签分类模型，经多标签分类模型处理后，获取多标签分类模型输出的各个导向类别；将多标签分类模型输出的各个导向类别作为目标文本的分类结果；其中，多标签分类模型为基于预设的初始样本集合、训练数据优化策略、提示学习方法和预训练语言模型构建的分类模型。应用本发明实施例提供的方法，文本分类过程中应用基于预训练语言模型构建的多标签分类模型进行分类，在此模型的构建过程中，通过提示学习方法进行模型训练，并且通过训练数据优化策略对样本数据不断进行优化。一方面，基于提示学习方法的训练方式，可以给予模型一定的提示，模型可以从提示中学习到更多有关标签的信息，有利于在样本较少的场景中，提高模型的分类精度，继而提高分类的准确性。另一方面，基于优化样本数据的训练方式，可以在样本较少的场景中，对样本数据进行扩增，以改善模型训练效果，进一步提高模型的分类精度，继而提高分类的准确性。应用基于上述方式构建的多标签分类模型对文本的内容导向进行分类，有利于提高分类的准确性。

在图1所示方法的基础上，本发明实施例提供了又一种文本分类方法，如图2所示，本发明实施例提供的方法中，步骤S103中提及的多标签分类模型的构建过程，包括：

S201：确定提示模板；所述提示模板由多个提示子模板依次拼接得到，所述多个提示子模板与各个所述预设导向分类标签一一对应；

本发明实施例提供的方法中，基于提示学习方法构建多标签分类模型，具体的，构建每个预设导向分类标签所对应的提示子模板，例如针对“标题低俗”的标签，其提示子模板可以为“以下问题是否低俗”。各个提示子模板之间通过“[MASK]”掩码符号进行拼接，第一个提示子模板前端亦设置有“[MASK]”掩码符号，拼接后得到的模板即为提示模板。

S202：依据所述初始样本集合和所述提示模板，对所述预训练语言模型进行训练，将经过训练的预训练语言模型作为第一分类模型；

本发明实施例提供的方法中，将初始样本集合作为训练数据。针对初始样本集合中的每个文本语料，可根据该文本语料对应的预设导向分类标签，更改提示模板中“[MASK]”掩码符号位置的词语，将相应的文本语料映射到相应的标签。将文本语料输入预训练语言模型进行训练时，将根据该文本语料更改的提示模板也输入预训练语言模型，以给予模型相应的提示，通过提示学习的方法进行训练。模型训练方式与现有多分类模型的训练方式相同，计算样本命中标签的交叉熵损失值。当满足训练条件后，结束训练过程，将经过训练的预训练语言模型作为第一分类模型。训练条件可以为需要优化的交叉熵损失值已经收敛。

具体的，例如，如图3所示，其中讨论信息为某个文本语料的文本，“问题”对应的文本为文本语料中的标题文本，也就是讨论的话题，“选项”对应的文本为文本语料中的观点选项文本，而“内容”对应的文本即为文本语料中的正文文本。图3中所示的提示模板中第一个提示子模板即为根据该文本语料对应的预设导向分类标签所构建的提示子模板，将提示模板中第一个提示子模板前端的“[MASK]”变更为了“[CLS]”，以将该文本语料映射到该提示子模板对应的预设导向分类标签。将文本语料所对应的讨论信息及其对应的提示模板输入预训练语言模型，通过掩码预测层的处理，对文本语料进行标签映射。

S203：确定多个未标注文本语料；

本发明实施例提供的方法中，预先收集一些真实的讨论数据，配置为各个未标注文本语料。

S204：依据所述多个未标注文本语料和所述第一分类模型，确定多个软标签语料；

本发明实施例提供的方法中，通过第一分类模型对每个未标注文本语料进行内容导向分类，当未标注文本语料的分类结果的置信度较高时，根据分类结果对该未标注文本语料进行标注，将标注后的语料作为一个软标签语料。

S205：依据所述初始样本集合、各个所述软标签语料和所述提示模板，对所述第一分类模型进行训练，将经过训练的第一分类模型作为第二分类模型；

本发明实施例提供的方法中，将初始样本集合以及各个软标签语料作为训练数据，基于提示学习的方法，对第一分类模型进行训练，训练方式与步骤S202中的训练方式相同，可参见步骤S202中的说明，在此不再赘述。当满足训练条件后，结束本次的训练过程，将经过训练的第一分类模型作为第二分类模型。

S206：依据所述初始样本集合和各个所述软标签语料，构建多个负样本；

本发明实施例提供的方法中，按照预设的负样本构建方式，基于初始样本集合和各个软标签语料，构建多个负样本。具体的，可以通过第二分类模型对初始样本集合中的每个文本语料和各个软标签语料进行内容导向分类，以识别各个文本语料和各个软标签语料是否存在未命中的预设导向分类标签，即语料不归属的分类的标签，若文本语料或软标签语料存在未命中的预设导向分类标签，则将该文本语料或软标签语料作为其未命中的预设导向分类标签所对应的负样本。

S207：依据所述初始样本集合、各个所述软标签语料、各个所述负样本、所述提示模板和预设的提示模板调整策略，对所述第二分类模型进行训练，将经过训练的第二分类模型作为所述多标签分类模型。

本发明实施例提供的方法中，将初始样本集合、各个软标签语料和各个负样本作为训练数据，此次训练过程中，应用预设的提示模板调整策略对提示模板中提示子模板的拼接顺序进行调整，通过调整后的提示模板结合训练数据，对第二分类模型进行训练。除调整提示模板中提示子模板的拼接顺序外，整体的训练方式与步骤S202中的训练方式相同，可参见步骤S202中的说明，在此不再赘述。当结束本次训练过程时，将经过训练的第二分类模型作为最终的多标签分类模型，用于文本分类。

基于本发明实施例提供的方法，在多标签分类模型的构建过程中，通过积累软标签语料，构建负样本等方式不断优化训练数据，使模型能够在各类型样本中积累知识，有利于提高模型质量。其次，在训练过程对提示模板进行了调整，有利于降低模型对提示模板的依赖，提高模型的泛化能力。

在图2所示方法的基础上，本发明实施例提供的方法中，步骤S204中提及的依据所述多个未标注文本语料和所述第一分类模型，确定多个软标签语料的过程，包括：

本发明实施例提供的方法中，针对每个未标注文本语料，将该未标注文本语料输入第一分类模型，通过第一分类模型对该未标注文本语料进行内容导向分类，获取第一分类模型输出的目标导向类别和该目标导向类别对应的置信度。在实际的应用场景中，第一分类模型对输入的未标注文本语料进行处理后，可得到未标注文本语料在各个预设导向分类标签上的置信度，将置信度高于预设阈值的预设导向分类标签作为未标注文本语料对应的导向类别进行输出，若是第一分类模型仅输出一个导向类别，则将该导向类别作为目标导向类别，若是第一分类模型输出多个导向类别，可以将其中置信度最高的导向类别作为目标导向类别，获取目标导向类别及其对应的置信度，将目标导向类别作为该未标注文本语料所对应的命中标签，并将该目标导向类别对应的置信度作为未标注文本语料对应的分类置信度。

本发明实施例提供的方法中，通过各个未标注文本语料对应的分类置信度，在各个未标注文本语料中选取分类置信度较高的未标注文本语料作为目标未标注文本语料。

本发明实施例提供的方法中，将每个目标未标注文本语料作为其对应的命中标签的软标签语料。

在上述实施例提供的方法的基础上，本发明实施例提供的方法中，所述依据各个所述未标注文本语料对应的分类置信度，在各个所述未标注文本语料中确定各个目标未标注文本语料的过程，包括：

本发明实施例提供的方法中，根据实际的标注需求，预先设置了一个用于区分软标签的置信度阈值，即第一预设阈值。将每个未标注文本语料对应的分类置信度与第一预设阈值进行大小比较，若其分类置信度大于第一预设阈值，则将该未标注文本语料作为目标未标注文本语料。

在上述实施例提供的方法的基础上，本发明实施例提供的方法中，步骤S206中提及的依据所述初始样本集合和各个所述软标签语料，构建多个负样本的过程，包括：

本发明实施例提供的方法中，将初始样本集合中的每个文本语料和每个软标签语料，分别输入第二分类模型，通过第二分类模型对输入的语料进行内容导向分类，第二分类模型在对输入的语料进行处理后，可得到输入的语料在各个预设导向分类标签上的置信度，可从第二分类模型处理得到的数据中，获取语料在各个预设导向分类标签上的置信度，作为该语料对应的各个置信度。

本发明实施例提供的方法中，对于各个文本语料和各个软标签语料，通过语料对应的各个置信度，判断语料是否可以作为某个预设导向分类标签的未命中样本，以此确定各个预设导向分类标签对应的负样本。

在上述实施例提供的方法的基础上，本发明实施例提供的方法中，所述依据各个所述文本语料对应的各个置信度和各个所述软标签语料对应的各个置信度，在所述初始样本集合和各个所述软标签语料中，确定每个所述预设导向分类标签对应的各个负样本的过程，包括：

本发明实施例提供的方法中，根据实际的标注需求，预先设置用于区分未命中样本的置信度阈值，即第二预设阈值。针对每个文本语料和每个软标签语料，将语料对应的每个置信度分别与第二预设阈值进行大小比较，若语料对应的各个置信度中，存在小于第二预设阈值的置信度，则将小于第二预设阈值的置信度所对应的预设导向分类标签作为该语料对应的未命中标签，并将该语料作为该未命中标签的负样本。若语料对应的每个置信度均大于或等于第二预设阈值，则不对该语料进行负样本标注。若是语料对应的各个置信度中存在多个小于第二预设阈值的置信度，可以将这些置信度对应的预设导向分类标签均作为语料对应的未命中标签。

在上述实施例提供的方法的基础上，本发明实施例提供的方法中，步骤S207中提及的依据所述初始样本集合、各个所述软标签语料、各个所述负样本、所述提示模板和预设的提示模板调整策略，对所述第二分类模型进行训练的过程，包括：

本发明实施例提供的方法中，预先设定训练轮次，即预先设定训练周期的周期数，按照预设的训练周期对第二分类模型进行训练。当进入新的训练周期时，按照预设的提示模板调整策略，调整提示模板中各个提示子模板的拼接顺序，具体的，可以随机打乱各个提示子模板的拼接顺序。在当前的训练周期中，将初始样本集合、各个软标签语料和各个负样本作为训练数据，应用调整后的提示模板和训练数据对第二分类模型进行训练。当进入下个训练周期时，则重新调整提示模板中各个提示子模板的拼接顺序，以在各个训练周期中用不同的提示模板进行模型训练。

为了更好地说明本发明实施例提供的方法，在上述实施例提供的方法的基础上，结合实际的应用场景，本发明实施例提供了又一种文本分类方法。本发明实施例提供的方法中，各个预设导向分类标签，也就是用于对文本的内容导向进行分类的各个类别，包括：分类1、分类2、分类3、分类4和分类5等类别。

接下来对本发明实施例提供的方法中的多标签分类模型的构建过程进行说明。本发明实施例提供的方法应用于小样本学习的场景中，多标签分类模型的构建过程主要由以下三个训练过程实现：

第一个训练过程主要是初始分类模型的构建。具体的，收集每个预设导向分类标签的少量命中样本，每个样本只命中一个标签，将收集到的样本作为初始的训练数据，也就是前文实施例中提及的初始样本集合，亦是初始的训练集。构造每个预设导向分类标签的提示子模板。如图3所示，将各个提示子模板进行拼接得到提示学习方法中应用的提示模板。基于提示学习方法和训练集，对中文预训练语言模型Roberta进行训练，得到实现多标签分类的初步的分类模型，也就是前文实施例中提及的第一分类模型。在实际的训练场景中应用此方式进行训练时，此时得到的模型的F1分值在0.7左右。F1分值是用于评估分类模型性能的一种现有指标，它综合了模型的精确度和召回率，可以用来评估模型的整体性能。

第二个训练过程主要是积累软标签样本，对初始的分类模型进行训练。具体的，通过训练数据多轮优化，自动积累高质量的软标签样本，即前文实施例中提及的软标签语料。如图4所示，首先，通过预先收集的小样本数据构建训练数据，进行初步的模型训练，即上述第一个训练过程。然后，从真实讨论数据中收集未标注数据，也就是前文实施例中提及的未标注文本语料。使用当前的分类模型对每个未标注数据进行分类预测，将预测的结果视为未标注数据的软标签，将其中置信度较高的预测结果所对应的未标注数据作为高置信度样本，将其加入到训练数据中，对于加入训练数据的未标注数据，以其软标签对该数据进行标注，以得到软标签样本。使用添加了软标签样本的训练数据对当前的分类模型进行训练，得到新的分类模型，并且可以不断重复此过程，积累更多软标签样本，以使用更多高置信度的软标签样本训练模型，进一步提高模型的准确度。基于此过程，可以有效地利用未标注数据，使得模型能够从中积累更多的知识。可以在小样本的场景中，训练出一个高质量的模型。在实际的训练场景中应用此方式进行训练时，此时得到的模型的F1分值在0.9左右。

第三个训练过程主要是构建负样本，打乱提示模板，继续对分类模型进行训练。具体的，根据预定的规则构造不同标签之间的交叉负样本，例如，对于“分类2”类别命中的某个样本，在一定概率下可作为“分类3”类别的未命中样本。负样本的构建过程，可以参见前文实施例中对于图2所示方法步骤S206中构建负样本的过程的说明。将构造得到的各个负样本添加到训练集中，通过当前的训练集继续对当前的分类模型进行训练，在此训练过程的每个训练轮次中，随机打乱提示模板中各个提示子模板的拼接顺序。将完成此训练过程的分类模型作为最终的多标签分类模型。

第三个训练过程主要是为了使模型学习不同标签之间的关系，以学习不同标签之间的边界。同时，降低模型对提示模板顺序的依赖，提高模型的泛化能力。一方面，在小样本学习的场景中，每个样本通常只命中一个标签，训练过程中倾向于对样本命中的标签维度进行学习，而难以学习其他标签维度是否命中，模型容易对其他标签维度产生误判，故通过构建负样本，使模型学习不同标签之间的边界，以降低标签之间的耦合。另一方面，在模型训练的过程中，如果提示模板的顺序是固定的，模型会对模板产生依赖，而不是关注提示模板中的语义信息。随机打乱提示模板的拼接顺序可以使得模型更关注提示模板中的语义，当模型接收到新的数据时，提示模板中的语义信息才能更好地发挥作用，使模型更好地适应新的数据。在实际的训练场景中可以通过分析模型给出的标签得分之间的相关性系数来判断模型对于标签之间边界的学习情况。本发明实施例提供了在实际训练场景中，应用此方式进行训练时所得到各标签之间的相关性系数的示例，在未进行第三个训练过程之前，分类模型的部分预设导向分类标签之间的相关性系数可如图5所示，方框中的数值为该方框在横向和纵向上对应的两个标签之间的相关性系数。在经过第三个训练过程的训练后，分类模型的部分预设导向分类标签之间的相关性系数如图6所示，图6中的数值含义与图5相同。可见，图5所示数据中，部分标签之间的相关性系数较高，如“分类2”和“分类3”之间的相关性系数为0.74，说明这两个标签维度发生耦合，模型没有学习到这两个标签之间的边界。而图6所示数据中，标签耦合现象发生缓解，如“分类2”和“分类3”之间的相关性系数已下降至0.35，说明模型对于这两个标签之间的边界的学习更清晰了。

基于本发明实施例提供的方法，基于提示学习方法进行模型训练，通过训练数据多轮优化，只需要较小的人工成本，便可快速地积累质量较高的训练数据。通过随机打乱提示模板的拼接顺序，降低模型对提示模板顺序的依赖，增强模型的鲁棒性。通过构造交叉负样本，让模型学习标签之间的边界，缓解了多标签分类中的标签间耦合问题，提高了模型的性能。由此在小样本的场景下，可获得高精度的分类模型，继而提高文本分类的准确度。另外，本发明实施例提供的方法中应用的提示学习方法不需要人工提供大量的提示信息，人工成本较低，并且不需要执行反馈机制，计算资源消耗较低。

与图1所示的一种文本分类方法相对应的，本发明实施例还提供了一种文本分类装置，用于对图1中所示方法的具体实现，其结构示意图如图7所示，包括：

第一确定单元301，用于当需要对目标文本进行内容导向分类时，确定所述目标文本对应的标题文本、正文文本和观点选项文本；

拼接单元302，用于按照预设的文本格式，对所述标题文本、所述正文文本和所述观点选项文本进行文本拼接，得到待识别文本；

分类单元303，用于将所述待识别文本输入预先构建的多标签分类模型，经所述多标签分类模型处理后，获取所述多标签分类模型输出的各个导向类别；所述多标签分类模型为基于预设的初始样本集合、预设的训练数据优化策略、预设的提示学习方法和预训练语言模型构建的分类模型；所述初始样本集合包括每个预设导向分类标签对应的各个文本语料；

第二确定单元304，用于将所述多标签分类模型输出的各个导向类别作为所述目标文本的分类结果。

应用本发明实施例提供的装置，文本分类过程中应用基于预训练语言模型构建的多标签分类模型进行分类，在此模型的构建过程中，通过提示学习方法进行模型训练，并且通过训练数据优化策略对样本数据不断进行优化。一方面，基于提示学习方法的训练方式，可以给予模型一定的提示，模型可以从提示中学习到更多有关标签的信息，有利于在样本较少的场景中，提高模型的分类精度，继而提高分类的准确性。另一方面，基于优化样本数据的训练方式，可以在样本较少的场景中，对样本数据进行扩增，以改善模型训练效果，进一步提高模型的分类精度，继而提高分类的准确性。应用基于上述方式构建的多标签分类模型对文本的内容导向进行分类，有利于提高分类的准确性。

在图7所示装置的基础上，本发明实施例提供的装置还可以进一步扩展出多个单元，各个单元的功能可参见前文对于文本分类方法所提供的各个实施例中的说明，在此不再进一步举例说明。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的文本分类方法。

本发明实施例还提供了一种电子设备，其结构示意图如图8所示，具体包括存储器401，以及一个或者一个以上的指令402，其中一个或者一个以上指令402存储于存储器401中，且经配置以由一个或者一个以上处理器403执行所述一个或者一个以上指令402进行以下操作：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本分类方法，其特征在于，包括：

2.根据权利要求1所述的文本分类方法，其特征在于，所述多标签分类模型的构建过程，包括：

确定多个未标注文本语料；

3.根据权利要求2所述的文本分类方法，其特征在于，所述依据所述多个未标注文本语料和所述第一分类模型，确定多个软标签语料，包括：

4.根据权利要求3所述的文本分类方法，其特征在于，所述依据各个所述未标注文本语料对应的分类置信度，在各个所述未标注文本语料中确定各个目标未标注文本语料，包括：

5.根据权利要求2所述的文本分类方法，其特征在于，所述依据所述初始样本集合和各个所述软标签语料，构建多个负样本，包括：

6.根据权利要求5所述的文本分类方法，其特征在于，所述依据各个所述文本语料对应的各个置信度和各个所述软标签语料对应的各个置信度，在所述初始样本集合和各个所述软标签语料中，确定每个所述预设导向分类标签对应的各个负样本，包括：

7.根据权利要求2所述的文本分类方法，其特征在于，所述依据所述初始样本集合、各个所述软标签语料、各个所述负样本、所述提示模板和预设的提示模板调整策略，对所述第二分类模型进行训练的过程，包括：

8.一种文本分类装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~7任意一项所述的文本分类方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1~7任意一项所述的文本分类方法。