CN117972097A

CN117972097A - 文本的分类方法、分类装置、电子设备及存储介质

Info

Publication number: CN117972097A
Application number: CN202410376634.0A
Authority: CN
Inventors: 胡阿沛
Original assignee: Great Wall Motor Co Ltd
Current assignee: Great Wall Motor Co Ltd
Priority date: 2024-03-29
Filing date: 2024-03-29
Publication date: 2024-05-03
Anticipated expiration: 2044-03-29
Also published as: CN117972097B

Abstract

本申请公开了一种文本的分类方法、分类装置、电子设备及存储介质，该分类方法包括：通过预设的搜索方式对待分类文本进行搜索，得到与待分类文本相似的至少两个样例文本；基于待分类文本与各样例文本之间的相似度对各样例文本进行筛选，得到目标文本；基于目标引导模板、目标文本以及待分类文本生成第一引导文本；将第一引导文本输入大模型中，得到待分类文本所属的目标文本类别。该方法不仅不需要训练模型或者微调模型，而且还能够打破引导文本所带来的限制，突破分类准确性的提升瓶颈，有效提高文本分类的准确性。即可以在降低文本分类成本的前提下提高文本分类的准确性。

Description

文本的分类方法、分类装置、电子设备及存储介质

技术领域

本申请属于数据处理技术领域，尤其涉及一种文本的分类方法、分类装置、电子设备及存储介质。

背景技术

当前的文本分类方法一般通过训练针对性的模型实现。该分类方法虽然准确性较高，但在模型的训练过程中需要标注大量的数据，使得文本分类的成本骤增。同时，训练好的模型难以处理其他领域的文本，即模型的泛化能力和迁移能力都较差。

得益于大模型的高速发展，出现了基于大模型的分类方法。该分类方法不仅不需要对模型进行训练，而且能够处理不同领域的文本，泛化能力和迁移能力相对较强。目前基于大模型的分类方法包括两种，第一种是基于大模型引导工程实现的分类方法，第二种是基于大模型的微调实现的分类方法。

但在实际应用过程中，第一种分类方法容易受引导文本的限制，使得该分类方法的准确率提升存在瓶颈；第二种方法虽然可以通过少量数据微调的方式让模型的效果得到提升，但模型的微调训练不仅需要更大的算力支持，还需要更专业的算法来实现，该成本也不容小觑；同时微调后的模型在其他方面可能会出现能力变差的现象，使得文本分类的准确性难以得到保障。也就是说，目前的文本分类方法仍存在成本高且准确性偏低的问题。

发明内容

本申请提供了一种文本的分类方法、分类装置、电子设备及存储介质，不仅不需要训练模型或者微调模型，而且还能够打破引导文本所带来的限制，突破分类准确性的提升瓶颈，有效提高文本分类的准确性。即可以在降低文本分类成本的前提下提高文本分类的准确性。

第一方面，本申请提供了一种文本的分类方法，包括：

通过预设的搜索方式对待分类文本进行搜索，得到与待分类文本相似的至少两个样例文本；待分类文本的类别属于预设的至少两种文本类别中的任意一种；

基于待分类文本与各样例文本之间的相似度对各样例文本进行筛选，得到目标文本；其中，每种文本类别对应至少一个目标文本；

基于目标引导模板、目标文本以及待分类文本生成第一引导文本；第一引导文本用于引导预设的大模型对待分类文本进行分类；

将第一引导文本输入大模型中，得到待分类文本所属的目标文本类别。

第二方面，本申请提供了一种文本的分类装置，包括：

搜索模块，用于通过预设的搜索方式对待分类文本进行搜索，得到与待分类文本相似的至少两个样例文本；待分类文本的类别属于预设的至少两种文本类别中的任意一种；

筛选模块，用于基于待分类文本与各样例文本之间的相似度对各样例文本进行筛选，得到目标文本；其中，每种文本类别对应至少一个目标文本；

生成模块，用于基于目标引导模板、目标文本以及待分类文本生成第一引导文本；第一引导文本用于引导预设的大模型对待分类文本进行分类；

分类模块，用于将第一引导文本输入大模型中，得到待分类文本所属的目标文本类别。

第三方面，本申请提供了一种电子设备，该电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

第五方面，本申请提供了一种计算机程序产品，上述计算机程序产品包括计算机程序，上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。

本申请与现有技术相比存在的有益效果是：能够基于与待分类文本强相关的目标文本生成动态的第一引导文本，使得大模型能够基于第一引导文本对待分类文本进行精确分类。该分类方法不仅不需要训练模型或者微调模型，而且还能够打破引导文本所带来的限制，突破分类准确性的提升瓶颈，有效提高文本分类的准确性。即可以在降低文本分类成本的前提下提高文本分类的准确性。

具体地，为了得到目标文本，可先通过预设的搜索方式搜索与待分类文本相近的至少两个样例文本。待分类文本可能属于各文本类别中的任意一种。为了能够给大模型提供有效的分类信息，即让大模型学习到与待分类文本强相关的样例文本和各文本类别之间的对应关系，进而对待分类文本进行准确分类，每种文本类别可对应至少一个样例文本。由此，在基于样例文本筛选目标文本的过程中，可保障每种文本类别对应至少一个目标文本。在得到样例文本后，可基于每个样例文本与待分类文本之间的相似度对各样例文本进行筛选，例如将相似度较高的样例文本确定为目标文本，以得到与待分类文本相关性较大的样例文本。至此，已获得了生成第一引导文本的关键信息，可基于目标引导模板、目标文本以及待分类文本生成第一引导文本。第一引导文本能够让预设的大模型清楚地知晓各目标样本与各文本类别之间的对应关系，鉴于各目标文本与待分类文本之间有强相关性，大模型能够基于第一引导文本对待分类文本进行精确分类，得到目标文本类别，即待分类文本所属的文本类别。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本的分类方法的流程示意图；

图2是本申请实施例提供的目标引导模板的示意图；

图3是本申请实施例提供的文本的分类装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

相关技术中，基于大模型的分类方法不仅不需要对模型进行训练，而且能够处理不同领域的文本，泛化能力和迁移能力都较强。但常用的基于大模型的两种分类方法要么受限于引导文本，使得该分类方法的准确率提升存在瓶颈；要么需要更大的算力支持和更专业的算法对大模型进行微调，这不仅难以降低分类成本，且微调后的模型的其他方面可能会出现能力变差的现象，使得文本分类的准确性难以得到保障。

也就是说，目前的文本分类方法仍存在成本高且准确性偏低的问题。

为了解决该问题，本申请提出了一种文本的分类方法，该分类方法不仅不需要训练或者微调模型，仅通过优化引导文本就能够打破基于大模型引导工程的限制，突破分类准确性的提升瓶颈，有效提高文本分类的准确性。也就是说，本申请是对基于大模型引导工程所实现的这一种分类方法的改进。

其中，大模型可以是Generative Pre-trained Transformer（GPT）系列模型、XLNet、A Robustly Optimized BERT Approach（RoBERTa）、Enhanced Representationthrough kNowledge Integration（ERNIE）等中的任意一种。下面将通过具体的实施例对本申请所提出的控制方法进行说明。

本申请实施例提供的文本的分类方法可以应用于手机、平板电脑、车载设备、增强现实（augmented reality，AR）/虚拟现实（virtual reality，VR）设备、笔记本电脑、超级移动个人计算机（ultra-mobile personal computer，UMPC）、上网本、个人数字助理（personal digital assistant，PDA）等电子设备上，本申请实施例对电子设备的具体类型不作任何限制。

为了说明本申请所提出的技术方案，下面将以电子设备作为执行主体对各个实施例进行说明。

图1示出了本申请提供的文本的分类方法的示意性流程图，该文本的分类方法包括：

步骤110、电子设备通过预设的搜索方式对待分类文本进行搜索，得到与待分类文本相似的至少两个样例文本。

待分类文本是指等待大模型预测其所属类别的文本。为了让大模型能够准确预测待分类文本的所属类别，用于引导大模型对待分类文本进行分类的引导文本中，除了包括必要的分类任务说明之外，还需要举出分类示例，即根据固定的格式展示每个文本类别和每个文本类别对应的示范文本。引导文本中的内容将作为先验知识提供给大模型，以便于大模型对待分类文本进行分类。

假定设置了至少两种文本类别，可以认为，待分类文本可能属于这两种文本类别中的任意一种。示例性地，对于情感分类任务来说，将其类别定义为正向、中立以及负向，对于任一待分类的情感文本来说，其所属类别可能是正向、中立以及负向中的任意一种。

本申请发现，之所以引导文本会限制文本分类准确性的提升，是因为一个文本类型可能对应多种不同的文本内容。例如，在情感文本分类中，正向这一文本类别可能涵盖好天气、公司盈利、融资成功、获奖等多种主题的文本内容。在引导文本长度有限的情况下，即使能够提供每一个文本类别对应的示范文本，也难以覆盖每个文本类别下所有可能的文本内容。这导致分类方法的泛化性较差，即示范文本与待分类文本强相关时，分类准确性较高；示范文本与待分类文本弱相关时，待分类文本的分类准确性偏低。虽然可以选择覆盖多种文本内容的典型示范文本来提高泛化性，但这将导致分类准确性偏低且存在提升瓶颈。

为了打破该提升瓶颈，提高分类准确性，电子设备可根据与待分类文本强相关的目标文本来生成第一引导文本。在此之前，电子设备可将待分类文本作为搜索对象，并通过预设的搜索方式进行搜索，得到相应的搜索结果。具体地，电子设备可得到与待分类文本相似的至少两个样例文本，以便于根据后续步骤从各样例文本中确定出目标文本。可以理解，目标文本需覆盖各文本类别，那么作为目标文本的来源，各样例文本也应该覆盖各文本类别。

其中，预设的搜索方式可以包括语义搜索和/或关键词搜索等。示例性地，如果同时采用两种以上的搜索方式对待分类文本进行搜索，每种搜索方式可得到一个搜索结果，每个搜索结果中可包括与待分类文本相似的至少两个样例文本。在经过搜索后，电子设备可将各搜索方式得到的搜索结果合并，作为目标文本的筛选基础。

步骤120、电子设备基于待分类文本与各样例文本之间的相似度对各样例文本进行筛选，得到目标文本。

为了确定出目标文本，电子设备可将每个样例文本与待分类文本之间的相似度作为筛选依据，从各样例文本中确定出目标文本。值得注意的是，如前述所述，为了打破分类准确性的提升瓶颈，在引导文本长度有限的情况下，每个预设类别可至少选出一个目标文本。

示例性地，假定文本类别包括正确和错误两种，其中正确对应的样例文本有3个，错误对应的样例文本仅有1个，那么在筛选的过程中，相似度只是一个维度，另一个维度是要保证目标文本能够覆盖各文本类别，即不论错误对应的样例文本与待分类文本之间的相似度如何，都会保留该样例文本。

步骤130、电子设备基于目标引导模板、目标文本以及待分类文本生成第一引导文本。

步骤140、电子设备将第一引导文本输入大模型中，得到待分类文本所属的目标文本类别。

在得到目标文本后，相当于得到了第一引导文本生成的关键信息。此时，电子设备可根据目标引导模板、目标文本以及待分类文本生成第一引导文本。将第一引导文本输入大模型中，大模型即可根据第一引导文本中的引导信息输出待分类文本所属的文本类别，即目标文本类别。因目标文本是与待分类文本强相关的文本，所以不同的待分类文本基于对应的目标文本生成的第一引导文本是不同且有针对性的。这样不仅能够提高分类方法的泛化性，而且即使在引导文本的长度有限的情况下，电子设备也可提供能够覆盖待分类文本的文本内容的分类示例，以提高目标文本类别的准确性。

在本实施例中，为了避免长度受限的引导文本无法提供能够覆盖待分类文本对应的文本类别的分类示例，电子设备可先通过至少一种搜索方式对待分类文本进行搜索，以得到与待分类文本相关的至少两个样例文本。其中，每种文本类别对应至少一个样例文本，由此，电子设备能够从各样例文本中确定与待分类文本相关性较强的目标文本。基于目标文本和待分类文本以及目标引导模板，即可生成第一引导文本，将第一引导文本输入大模型中，即可得到待分类文本的目标文本类别。第一引导文本在有限的篇幅内展示了与待分类文本强相关的示范文本，使得大模型能够通过第一引导文本对待分类文本进行准确分类，以提高目标文本类别的准确性。该分类方法不需要训练模型或微调模型，能够克服引导文本带来的限制，突破分类准确性提升的瓶颈，有效提高文本分类的准确性。也就是说，该分类方法可在降低文本分类成本的同时，提高文本分类的准确性。

在一些实施例中，当搜索方式为关键词搜索时，前述步骤110具体包括：

步骤A1、电子设备从待分类文本中提取出第一关键词组。

关键词搜索是一种基于关键词匹配的搜索方法，通常用于查找包含指定关键词的文本或文档。在关键词搜索中，电子设备可输入一个或多个关键词，通过比较这些关键词与文本或文档的内容，可查找到包含这些关键词的文本，得到搜索结果。

为了查询得到样例文本，电子设备可从待分类文本中提取出包含关键词的关键词组。为了便于区分，此处将该关键词组记作第一关键词组。可以理解，关键词组中的关键词的数量为至少一个。

步骤A2、电子设备基于第一关键词组从预先构建的关键词库中进行搜索，得到至少两个目标关键词组。

步骤A3、电子设备将各目标关键词组对应的各预设文本确定为各样例文本。

同理，为了便于高效的匹配搜索，电子设备可从所有待搜索的预设文本中提取对应的第二关键词组，并根据各预设文本和对应的各第二关键词组之间的对应关系构关键词库。根据关键词库，电子设备可对第一关键词组进行搜索，以从多个第二关键词组中确定出与第一关键词组匹配的至少两个目标关键词组。此处的匹配可以是精确匹配，也可以是模糊匹配；精确匹配即目标关键词组中的各关键词要与第一关键词组中的各关键词一致；模糊匹配即目标关键词组中的各关键词与第一关键词组中的各关键词的相似度达到一定的高度，但无需一致。

可选地，电子设备可以根据第一关键词组中各关键词的相关关系构建相应的搜索式，然后根据搜索式可从各第二关键词组中匹配目标关键词组。

在得到目标关键词组后，电子设备即可将各目标关键词组对应的预设文本确定为各样例文本。

在本实施例中，电子设备先从待分类文本和预设文本中分别提取对应的第一关键词组和第二关键词组。其中，电子设备可根据各第二关键词组和预设文本之间的对应关系构建得到关键词库。电子设备通过对第一关键词组进行搜索，即从关键词库中确定出与第一关键词组匹配的目标关键词组，可将目标关键词组对应的预设文本确定为待分类文本的样例文本。

在一些实施例中，要从文本（不论是待分类文本还是预设文本）中提取出关键词，可先对该文本进行分词处理，得到各词语或短语的序列，然后采用关键词提取算法从各序列中确定出至少一个关键词，以得到关键词组。

可选地，关键词提取算法可以包括词频统计法、词频-逆文档频率（TermFrequency-Inverse Document Frequency，TF-IDF）算法、基于文本的排序（TextRank）算法等。

当然，还可以调用成熟的主题模型来提取文本的关键词，如直接将文本输入LDA（Latent Dirichlet Allocation），以从文本中识别出隐藏的主题，并给出每个主题的关键词。

不同的关键词提取方法具有不同的优势，在使用时可根据实际需求确定，在本申请中不做限定。

在一些实施例中，当搜索方式为语义搜索时，前述步骤110具体包括：

步骤B1、电子设备将待分类文本向量化，得到第一向量。

语义搜索是一种基于语义理解的搜索技术，旨在更准确地理解用户查询意图并返回相关结果。与传统的关键词匹配搜索不同，语义搜索利用自然语言处理和人工智能技术，分析用户查询的文本含义和文本上下文，以便更好地匹配搜索结果。

为了便于匹配相关的样例文本，电子设备可通过向量表示待分类文本，例如使用词嵌入将待分类文本转换为向量。为便于区分，此处将该向量记作第一向量。

步骤B2、电子设备基于第一向量在预先构建的向量库中进行搜索，得到至少两个目标向量。

步骤B3、电子设备将各目标向量对应的各预设文本确定为各样例文本。

同理，为了便于高效的匹配搜索，所有待搜索的预设文本也均可转换为第二向量，并根据各预设文本和对应的各第二向量之间的对应关系构关键词库。根据向量库，电子设备可对第一向量进行搜索，以从多个第二向量中确定与第一向量匹配的至少两个目标向量。要确定两个向量是否匹配，也即确定两个向量之间的相似性，这可以通过向量空间模型（Vector Space Model，VSM）或者特定的神经网络模型来实现。

在得到各目标向量后，电子设备即可将各目标向量对应的各预设文本确定为各样例文本。

在本实施例中，电子设备先将待分类文本和预设文本均分别转换成第一向量和第二向量，可结合文本的上下文语义，深入表示文本的意图和内容。然后通过向量相似性为第一向量确定匹配的第二向量，以确定目标向量，并将目标向量确定为待分类文本的样例文本，可提高样例文本确定的准确性。

在一些实施例中，构建向量库和关键词库的预设文本可以是相同的，也可以是不同。如果构建两个库的预设文本是相同的，那么同时采用语义搜索和关键词搜索可以实现互补，更全面地确定出待分类文本对应的样例文本，为后续目标文本的确定提供充实的资源。

在一些实施例中，不论是构建哪个库的预设文本，都可以是预先收集的历史文本；也可以是通过特定模型生成的预测文本，例如通过相应的引导文本引导大模型生成的预测文本。这些预设文本的来源多种多样，可以根据具体需求和场景选择最合适的预设文本。

每个预设文本对应有文本类别标签，也即该预设文本真实所属的文本类别。示例性地，对于情感文本来说，“今天阳光明媚”这一文本，其对应的文本类别标签即为正向标签。

为了能够满足前述要求，即每个文本类别至少对应一个目标文本，应尽可能多的收集预设文本。为了实现该目的，针对每种文本分类任务，电子设备可以划分出其对应的每个文本类别下可能包含的文本主题，在收集预设文本的过程中，可将各预设文本根据文本类别和文本主题进行分类存储。此外，电子设备还可实时统计每个文本主题对应的文本数量，对于文本数量较少的文本主题，可以针对性地收集。示例性地，电子设备可通过特定模型来生成缺失或者数量少的预设文本。

在一些实施例中，每种文本类别对应的样例文本至少有两个。为了能从每个文本类别对应的样例文本中确定出至少一个目标文本，针对每种文本类别，电子设备可执行下述步骤：

步骤121、电子设备确定对应的每个样例文本与待分类文本之间的相似度。

一种文本类别对应的每个样例文本，电子设备可先计算其与待分类文本之间的相似度。示例性地，假定中立这一文本类别对应了5个样例文本，电子设备可将每个样例文本均与待分类文本进行对比，计算出一个相似度，即5个样例文本，可计算得到对应的5个相似度。

可选地，相似度的计算方法可可包括余弦相似度、欧氏距离等，在本申请中不做限定。

步骤122、电子设备将相似度最高的指定数量个样例文本确定为候选文本。

步骤123、电子设备基于候选文本确定目标文本。

有多少个样例文本，可计算得到多少个相似度。不同的样例文本与待分类文本之间的相关程度存在差异，这使得各样例文本对应的相似度高低不等。相似度越高，说明其对应的样例文本与待分类文本之间的相关性越强，可将其作为目标文本可能性越大。这样的样例文本可先确定为候选文本，以便于根据候选文本确定出与待分类文本强相关的目标文本。

为了让目标文本有选择空间，电子设备可从各相似度中选取相似度最高的指定数量个候选文本作为候选文本。其中，指定数量可以根据样例文本的数量确定，例如，可以设置一个百分比k，根据相似度的大小从n个样例文本中选取kn个候选文本，如果某种文本类别对应的样例文本的数量较少，那么至少应该选择一个。例如，还可以设置一个阈值，当样例文本的数量小于该阈值时，将所有的样例文本确定为候选文本；当样例文本的数量大于该阈值时，根据相似度的大小从各样例文本中确定数量等于该阈值的样例文本作为候选文本。

在一些实施例中，为了能够从候选文本中确定出最佳的目标文本，电子设备还可以执行下述步骤：

步骤1231、电子设备将所有候选文本分别与待分类文本组合生成对应的各第二引导文本。

步骤1232、电子设备将各第二引导文本输入大模型，得到各候选文本与待分类文本之间的各相关性结果。

步骤1233、电子设备基于各相关性结果从各候选文本中确定目标文本。

有多少个候选文本，就可以分别与待分类文本组合得到多少个文本对，针对每个文本对，可生成对应的第二引导文本，用于引导大模型判断对应的候选文本与待分类文本之间的相关性。通过将各第二引导文本输入大模型，可从大模型得到每个候选文本与待分类文本之间的相关性结果。根据相关性结果，电子设备可从各候选文本中确定目标文本。

可选地，第二引导文本可以用于引导大模型判断候选文本与待分类文本之间是否相关，即大模型可输出的相关性结果包括相关和不相关。此时，电子设备可以将相关的相关性结果对应的候选文本确定为目标文本。第二引导文本还可以引导大模型判断候选文本与待分类文本之间的相关程度，例如让大模型输出百分比作为相关性结果。此时，电子设备可以设定一个百分比阈值来筛选各相关性结果，将百分比大于百分比阈值的相关性结果对应的候选文本确定为目标文本。

在实施例中，电子设备通过大模型的能力，对候选文本进行筛选，从而将最佳的候选文本作为目标文本，以提高目标文本确定的准确性。

在一些实施例中，目标引导模板包括动态示例模块和待分类文本模块，前述步骤140具体包括：

步骤141、电子设备根据示例格式将各目标文本生成各动态示例。

引导文本中的示例有对应的格式，即示例格式，对于每个目标文本，电子设备都可以根据示例格式生成对应的示例。与传统的引导文本中多个待分类文本对应相同的固定示例不同，本申请因为不同的待分类文本对应不同的目标文本，所以生成的示例是动态示例。

步骤142、电子设备将各动态示例代入动态示例模块。

步骤143、电子设备将待分类文本代入待分类文本模块，生成第一引导文本。

在动态实示例生成后，电子设备分别将各动态示例和待分类文本代入目标引导模板中的动态示例模块和待分类文本模块，即可生成第一引导文本。

示例性地，参阅图2，图2示出了目标引导模板的示意图。该目标引导模板包括任务说明模块、固定示例模块、动态示例模块以及待分类文本模块。其中，任务说明模块用于对文本分类任务进行说明，具体可包括分类的文本类别和范围，以及每个文本类别的含义。固定示例模块用于对文本分类任务下的每个文本类别进行举例说明，一般采用经典的固定短示例进行说明。如图2所示，其文本分类任务为情感分类，根据这个任务类别，可为每个文本类别选择至少一个经典的固定短示例进行说明。也就是说，只有分类任务发生变化时，固定示例模块中的示例才会发生变化，动态示例模块和待分类文本模块则是根据待分类文本变化的。鉴于动态示例模块和待分类文本模块的内容在前述描述中有提及，在此不再赘述。

在一些实施例中，为了提高目标引导模板与待分类文本之间的匹配度，进而提高待分类文本分类的准确性，电子设备可还可以执行下述步骤：

步骤C1、在基于目标引导模板、目标文本以及待分类文本生成第一引导文本之前，基于各组文本类别从预先构建的至少两个预设引导模板中确定匹配的目标引导模板。

文本不同的分类任务，对应不同的各文本类别，假定情感分类任务对应的文本类别包括正向、中立以及负向；主题分类任务对应的文本类别包括政治、经济以及体育等；语种分类任务对应的文本类别包括中文、英文、日文等。将一种分类任务对应的各文本类别确定为一组文本类别，那么不同组文本类别对应了不同分类任务。为了便于生成每种分类任务对应的引导文本，针对每种分类任务，可以先设置一个预设引导模板，那么有多少种分类任务，对应多少组文本类别，可设置多少个预设引导模板。

基于此，在得到待分类文本后，基于待分类文本对应的各文本类别，可从各预设引导模板中确定出目标引导模板。

在本实施例中，电子设备通过为文本的每种分类任务设置预设引导模板，然后基于待分类文本对应的各文本类别来动态选择目标引导模板，不仅可以使得本申请的分类方法能够适用于文本的不同分类任务，还可以提高待分类文本分类的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例的文本的分类方法，图3示出了本申请实施例提供的文本的分类装置3的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图3，该文本的分类装置3包括：

搜索模块31，用于通过预设的搜索方式对待分类文本进行搜索，得到与待分类文本相似的至少两个样例文本；待分类文本的类别属于预设的至少两种文本类别中的任意一种；

筛选模块32，用于基于待分类文本与各样例文本之间的相似度对各样例文本进行筛选，得到目标文本；其中，每种文本类别对应至少一个目标文本；

生成模块33，用于基于目标引导模板、目标文本以及待分类文本生成第一引导文本；第一引导文本用于引导预设的大模型对待分类文本进行分类；

分类模块34，用于将第一引导文本输入大模型中，确定待分类文本所属的目标文本类别。

可选地，搜索方式包括语义搜索；搜索模块31具体用于：

将待分类文本向量化，得到第一向量；

基于第一向量在预先构建的向量库中进行搜索，得到至少两个目标向量；向量库基于多个预设文本的第二向量构建，目标向量是与第一向量匹配的第二向量；

将各目标向量对应的各预设文本确定为各样例文本。

可选地，搜索方式包括关键词搜索；搜索模块31具体用于：

从待分类文本中提取出第一关键词组；

基于第一关键词组从预先构建的关键词库中进行搜索，得到至少两个目标关键词组；关键词库基于多个预设文本的第二关键词组构建，目标关键词组是与第一关键词组匹配的第二关键词组；

将各目标关键词组对应的各预设文本确定为各样例文本。

可选地，每种文本类别对应的样例文本有至少两个；筛选模块32具体用于：

针对每种文本类别：

确定对应的每个样例文本与待分类文本之间的相似度；

将相似度最高的指定数量个样例文本确定为候选文本；

基于候选文本确定目标文本。

可选地，更具体地，筛选模块32用于：

将所有候选文本分别与待分类文本组合生成对应的各第二引导文本；第二引导文本用于引导大模型判断对应的候选文本与待分类文本之间的相关性；

将各第二引导文本输入大模型，得到各候选文本与待分类文本之间的各相关性结果；

基于各相关性结果从各候选文本中确定目标文本。

可选地，目标引导模板包括动态示例模块和待分类文本模块，生成模块33具体用于：

根据示例格式将各目标文本生成各动态示例；

将各动态示例代入动态示例模块；

将待分类文本代入待分类文本模块，生成第一引导文本。

可选地，分类装置3还可以包括：

确定模块，用于在基于目标引导模板、目标文本以及待分类文本生成第一引导文本之前，基于各组文本类别从预先构建的至少两个预设引导模板中确定匹配的目标引导模板；不同的预设引导模板对应不同的各预设分类。

需要说明的是，上述装置/单元之间的信息交互和执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

图4为本申请一实施例提供的电子设备的物理层面的结构示意图。如图4所示，该实施例的电子设备4包括：至少一个处理器40（图4中仅示出一个）处理器、存储器41以及存储在存储器41中并可在至少一个处理器40上运行的计算机程序42，处理器40执行计算机程序42时实现上述任意文本的分类方法实施例中的步骤，例如图1所示出的步骤110-140。

所称处理器40可以是中央处理单元（Central Processing Unit，CPU），该处理器40还可以是其他通用处理器、数字信号处理器（ Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器41在一些实施例中可以是电子设备4的内部存储单元，例如电子设备4的硬盘或内存。存储器41在另一些实施例中也可以是电子设备4的外部存储设备，例如电子设备4上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。

进一步地，存储器41还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器41用于存储操作装置、应用程序、引导装载程序（BootLoader）、数据以及其他程序等，例如计算机程序的程序代码等。存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时实现可实现上述各个方法实施例中的步骤。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random AccessMemory）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种文本的分类方法，其特征在于，包括：

通过预设的搜索方式对待分类文本进行搜索，得到与所述待分类文本相似的至少两个样例文本；所述待分类文本的类别属于预设的至少两种文本类别中的任意一种；

基于所述待分类文本与各所述样例文本之间的相似度对各所述样例文本进行筛选，得到目标文本；其中，每种所述文本类别对应至少一个所述目标文本；

基于目标引导模板、所述目标文本以及所述待分类文本生成第一引导文本；所述第一引导文本用于引导预设的大模型对所述待分类文本进行分类；

将所述第一引导文本输入所述大模型中，得到所述待分类文本所属的目标文本类别。

2.如权利要求1所述的文本的分类方法，其特征在于，所述搜索方式包括语义搜索；所述通过预设的搜索方式对待分类文本进行搜索，得到与所述待分类文本相似的至少两个样例文本，包括：

将所述待分类文本向量化，得到第一向量；

基于所述第一向量在预先构建的向量库中进行搜索，得到至少两个目标向量；所述向量库基于多个预设文本的第二向量构建，所述目标向量是与所述第一向量匹配的所述第二向量；

将各所述目标向量对应的各预设文本确定为各所述样例文本。

3.如权利要求1所述的文本的分类方法，其特征在于，所述搜索方式包括关键词搜索；所述通过预设的搜索方式对待分类文本进行搜索，得到与所述待分类文本相似的至少两个样例文本，包括：

从所述待分类文本中提取出第一关键词组；

基于所述第一关键词组从预先构建的关键词库中进行搜索，得到至少两个目标关键词组；所述关键词库基于多个预设文本的第二关键词组构建，所述目标关键词组是与所述第一关键词组匹配的所述第二关键词组；

将各所述目标关键词组对应的各预设文本确定为各所述样例文本。

4.如权利要求1所述的文本的分类方法，其特征在于，每种所述文本类别对应的样例文本有至少两个；所述基于所述待分类文本与各所述样例文本之间的相似度对各所述样例文本进行筛选，得到目标文本：

针对每种所述文本类别：

确定对应的每个所述样例文本与所述待分类文本之间的相似度；

将所述相似度最高的指定数量个所述样例文本确定为候选文本；

基于所述候选文本确定所述目标文本。

5.如权利要求4所述的文本的分类方法，其特征在于，所述基于所述候选文本确定所述目标文本，包括：

将所有所述候选文本分别与所述待分类文本组合生成对应的各第二引导文本；所述第二引导文本用于引导所述大模型判断对应的所述候选文本与所述待分类文本之间的相关性；

将各所述第二引导文本输入所述大模型，得到各所述候选文本与所述待分类文本之间的各相关性结果；

基于各所述相关性结果从各所述候选文本中确定所述目标文本。

6.如权利要求1所述的文本的分类方法，其特征在于，所述目标引导模板包括动态示例模块和待分类文本模块，所述基于目标引导模板、所述目标文本以及所述待分类文本生成第一引导文本，包括：

根据示例格式将各所述目标文本生成各动态示例；

将各所述动态示例代入所述动态示例模块；

将所述待分类文本代入所述待分类文本模块，生成所述第一引导文本。

7.如权利要求1至6任一项所述的文本的分类方法，其特征在于，所述分类方法还包括：

在所述基于目标引导模板、所述目标文本以及所述待分类文本生成第一引导文本之前，基于各组文本类别从预先构建的至少两个预设引导模板中确定匹配的所述目标引导模板；不同的预设引导模板对应不同的各预设分类。

8.一种文本的分类装置，其特征在于，包括：

搜索模块，用于通过预设的搜索方式对待分类文本进行搜索，得到与所述待分类文本相似的至少两个样例文本；所述待分类文本的类别属于预设的至少两种文本类别中的任意一种；

筛选模块，用于基于所述待分类文本与各所述样例文本之间的相似度对各所述样例文本进行筛选，得到目标文本；其中，每种所述文本类别对应至少一个所述目标文本；

生成模块，用于基于目标引导模板、所述目标文本以及所述待分类文本生成第一引导文本；所述第一引导文本用于引导预设的大模型对所述待分类文本进行分类；

分类模块，用于将所述第一引导文本输入所述大模型中，得到所述待分类文本所属的目标文本类别。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的文本的分类方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的文本的分类方法。