CN116955630A

CN116955630A - 文本分类方法、装置、模型、设备和计算机可读存储介质

Info

Publication number: CN116955630A
Application number: CN202311200641.7A
Authority: CN
Inventors: 廖宇康
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-10-27
Anticipated expiration: 2043-09-18
Also published as: CN116955630B

Abstract

本公开提供了一种文本分类方法、装置、模型、设备和计算机可读存储介质，该方法包括：获取文本内容和按照第一顺序排序的至少一个候选标签；利用文本分类模型处理文本内容和至少一个候选标签，得到按照第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率；根据每个候选标签作为目标标签的概率，确定文本内容的目标标签，得到与目标标签对应的文本分类结果。根据本公开的实施例可以提高文本分类处理的场景通用性。

Description

文本分类方法、装置、模型、设备和计算机可读存储介质

技术领域

本公开涉及计算机技术领域，特别涉及一种文本分类方法、装置、模型、设备和计算机可读存储介质。

背景技术

随着人工智能的不断创新和发展，文本分类技术日趋成熟，并在分类效果和灵活性上取得了突破性进展，以用于满足日常生产需求。在实际应用中，需要根据文本分类的具体场景构建确定的分类体系和标准，以及收集数据进行人工标注，以得到具体场景下的文本分类模型，文本分类处理的场景通用性较低。

发明内容

本公开提供一种文本分类方法、装置、模型、设备和计算机可读存储介质，根据该方法，可以提高文本分类处理的场景通用性。

第一方面，本公开提供了一种文本分类方法，该文本分类方法包括：获取文本内容和按照第一顺序排序的至少一个候选标签；利用文本分类模型处理所述文本内容和所述至少一个候选标签，得到按照所述第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率；根据每个候选标签作为目标标签的概率，确定所述文本内容的目标标签，得到与所述目标标签对应的文本分类结果。

第二方面，本公开提供了一种文本分类装置，该文本分类装置包括：获取模块，用于获取文本内容和按照第一顺序排序的至少一个候选标签；处理模块，用于利用文本分类模型处理所述文本内容和所述至少一个候选标签，得到按照所述第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率；确定模块，用于根据每个候选标签作为目标标签的概率，确定所述文本内容的目标标签，得到与所述目标标签对应的文本分类结果。

第三方面，本公开提供了一种文本分类模型，该文本分类模型包括：语义编码器，用于对文本内容和按照第一顺序排序的至少一个候选标签进行语义编码，得到所述文本内容的语义向量和所述至少一个候选标签的语义向量；拼接层，用于对所述文本内容的语义向量和所述至少一个候选标签的语义向量，基于所述第一顺序进行拼接，得到拼接向量；分类器，用于基于所述拼接向量对所述文本内容的目标标签进行分类预测，得到按照所述第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率。

第四方面，本公开提供了一种电子设备，该电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的文本分类方法。

第五方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器/处理核执行时实现上述的文本分类方法。

本公开所提供的实施例，可以利用文本分类模型对文本内容和按照第一顺序排序的至少一个候选标签进行处理，得到按照第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果可以表征相同排序位置的候选标签作为目标标签的概率，从而根据每个候选标签作为目标标签的概率，确定文本内容的目标标签，从而获得对应的文本分类结果。该文本分类方法中，文本内容和候选标签均不受分类场景的限制，有利于提高文本分类处理的场景通用性；并且，该文本分来方法无需预先构建分类体系和标准，也无需进行人工标注，有利于提高文本分类方法的处理效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用来提供对本公开的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其他特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开实施例提供的一种文本分类方法的流程图；

图2为本公开示例性实施例的文本分类方法的详细流程图；

图3为本公开实施例提供的一种文本分类装置的框图；

图4示出本公开实施例的文本分类模型的结构示意图；

图5示出本公开示例性实施例的文本分类模型的结构示意图；

图6为本公开实施例提供的一种电子设备的框图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

在自然语言处理领域、智能问答领域、文本分类技术领域以及语义识别技术领域，文本分类是一项基础且至关重要的任务。计算机可以对文本（或其他实体）按照一定的分类体系和标准进行自动化分类标记；文本分类的应用场景十分广泛，可以包括但不限于：情感分析、主题分类、问答任务、意图识别、自然语言推理等；在情感分析场景，文本分类的标签例如可以包括：积极、消极和中性，在主题分类场景，文本分类的标签例如可以包括：金融、体育、军事、社会等，在问答任务领域，文本分类的标签例如可以包括是和否，在意图识别领域，文本分类的标签例如可以包括天气查询、歌曲搜索和随机闲聊等，在自然语言推理领域，文本分类的标签例如可以包括导出、矛盾和中立。

在实际应用中，通常需要根据具体场景构建确定的分类体系和标准，然后再收集数据进行人工标注，最后构建模型并进行训练；这样的方法仅能满足单一场景或极少个相似场景的分类需求，不具备通用性；以及，随着人工智能聊天机器人程序（Chat GenerativePre-trained Transformer，ChatGPT）的兴起，目前通用模型成为人工智能领域研究的重要方向。

本公开实施例提供一种文本分类方法、装置、设备和计算机可读存储介质，可以不受限于具体应用场景，实现有效完成任何文本分类的处理目标。

根据本公开实施例的文本分类方法可以由终端设备或服务器等电子设备执行，终端设备可以为车载设备、用户设备（User Equipment，UE）、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理（Personal Digital Assistant，PDA）、手持设备、计算设备、车载设备、可穿戴设备等，方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。服务器可以包括独立的物理服务器、有多个服务器组成的服务器集群或者能够进行云计算的云服务器。

图1为本公开实施例提供的一种文本分类方法的流程图。参照图1，该文本分类方法可以包括以下步骤。

S110，获取文本内容和按照第一顺序排序的至少一个候选标签。

在该步骤中，候选标签可以是预先根据经验给出的候选标签，也可以是根据文本内容从预定标签来源中筛选得到的标签。其中，预定标签来源包括知识库和其他来源。

以知识库为例，可以基于知识库对文本内容进行相似度检索，将检索到的与该文本内容的相似度大于或等于预定相似度阈值的检索结果，作为候选标签。候选标签的来源还可以是其他来源，例如人工输入的问答式对话内容、预先收集的场景问题（(FrequentlyAsked Questions，FAQ）、电影电视台词等，从其他来源获取候选标签的方法与从知识库中获取候选标签的方法相同，本公开实施例不再赘述。

本公开实施例中，其他来源中的预料对知识库进行补充，可以用于完善知识库，有利于提高候选标签的多样性和智能化程度。

S120，利用文本分类模型处理文本内容和至少一个候选标签，得到按照第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率。

在该步骤中，输入文本分类模型的至少一个候选标签具有预定顺序，记为第一顺序，该第一顺序可以为任意顺序。

S130，根据每个候选标签作为目标标签的概率，确定文本内容的目标标签，得到与目标标签对应的文本分类结果。

在该步骤中，可以将概率的最大值所对应的候选标签作为文本内容的目标标签，将文本内容归属于该目标标签所对应的类别。

根据本公开的实施例，可以利用文本分类模型对文本内容和按照第一顺序排序的至少一个候选标签进行处理，得到按照第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果可以表征相同排序位置的候选标签作为目标标签的概率，从而根据每个候选标签作为目标标签的概率，确定文本内容的目标标签，从而获得对应的文本分类结果。该文本分类方法中，文本内容和候选标签均不受分类场景的限制，有利于提高文本分类处理的场景通用性；并且，该文本分来方法无需预先构建分类体系和标准，也无需进行人工标注，有利于提高文本分类方法的处理效率。

在一些实施例中，步骤S120具体可以包括如下步骤。

S121，对文本内容和按照第一顺序排序的至少一个候选标签进行语义编码，得到文本内容的语义向量和至少一个候选标签的语义向量。

在该步骤中，文本内容的语义向量是将文本内容映射到一个固定维度的向量，该向量可以用于表征该文本内容的语义特征；以及，至少一个候选标签的语义向量用于表征该至少一个候选标签的语义特征。

在该步骤中，候选标签的数量为多个时，第一顺序可以是任意顺序。本公开实施例中，多个表示大于或等于2个。

S122，对文本内容的语义向量和至少一个候选标签的语义向量，基于第一顺序进行拼接，得到拼接向量。

其中，基于第一顺序进行拼接是指按照第一顺序，依次获取每个候选标签的语义向量进行拼接。在该步骤中，向量的拼接是指向量维度的拼接。举例来说，向量的拼接也可以称为向量的连接，可以通过向量连接（Concatenate）层将两个向量连接连在一起，得到拼接后的向量；或者，将需要拼接的至少两个向量中的元素集合在拼接后的向量中，即拼接后的向量中包括该至少两个向量中的任一向量中的元素。

S123，基于拼接向量对文本内容的目标标签进行分类预测，得到按照第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率。

在该实施例中，可以对文本内容和按照第一顺序排序的至少一个候选标签进行语义编码，将语义编码得到的文本内容的语义向量和至少一个候选标签的语义向量，基于第一顺序进行拼接，得到拼接向量，然后通过分类器处理拼接向量得到按照第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果可以表征相同排序位置的候选标签作为目标标签的概率，为后续根据每个候选标签作为目标标签的概率，确定文本内容的目标标签，进而得到与目标标签对应的文本分类结果提供具体的处理流程。

在一些实施例中，至少一个候选标签的语义向量为一个第一候选标签语义向量或多个第二候选标签语义向量；上述步骤S121具体可以包括：步骤S11，对文本内容进行语义编码，得到文本内容的语义向量；步骤S12-01或S12-02，其中，步骤S12-01按照第一顺序拼接至少一个候选标签，得到拼接标签内容，对拼接标签内容进行语义编码，得到一个第一候选标签语义向量；S12-02，按照第一顺序将至少一个候选标签进行语义编码，得到与第一顺序对应的多个第二候选标签语义向量。

在该实施例中，可以将文本内容输入语义编码器，通过语义编码器对文本内容中进行语义编码，得到该文本内容的语义向量，以用于表征该文本内容的语义特征。

示例性地，本公开实施例提供了如下两种获取候选标签语义向量的方式。

一种方式对应于上述步骤S12-01，可以先将每个候选标签按照第一顺序进行拼接，得到拼接后的标签内容（即拼接标签内容），然后再将拼接标签内容输入语义编码器进行语义编码，得到该拼接后的标签内容的语义向量，以用于表征该拼接后的标签内容的语义特征。

另一种方式对应于上述步骤S12-02，可以利用语义编码器，按照第一顺序分别对每个候选标签进行语义编码，得到按照第一顺序排序的每个候选标签的语义向量，以用于表征每个候选标签的语义特征。

作为示例，本公开实施例中的语义编码器可以包括如下模型中的任一种：Transformer模型、预训练的语言表征模型（Bidirectional Encoder Representationsfrom Transformers，BERT）、生成式预训练模型（Generative Pre-Training，GPT）、统一语言模型（Unified Language Model，UniLM），具体可以根据实际需要选择合适的模型，本公开实施例中对语义编码器所使用的模型不做具体限定。

该实施例中，对文本内容进行语义编码，得到文本内容的语义向量，以及对至少一个候选标签进行语义编码，得到一个或多个标签语义向量。

在一些实施例中，上述步骤S122具体可以包括如下步骤S21、S22或S23。

在步骤S21，在至少一个候选标签的语义向量为一个第一候选标签语义向量的情况下，将文本内容的语义向量与第一候选标签语义向量进行拼接，得到一个第一拼接向量；在步骤S22，在至少一个候选标签的语义向量为多个第二候选标签语义向量的情况下，将文本内容的语义向量与按照第一顺序排序的多个第二候选标签语义向量进行拼接，得到一个第二拼接向量；在步骤S23，在至少一个候选标签的语义向量为多个第二候选标签语义向量的情况下，按照第一顺序排序将文本内容的语义向量分别与每个第二候选标签语义向量进行拼接，得到与第一顺序对应的多个第三拼接向量。

在该实施例中，若至少一个候选标签的数量为K，K为大于或等于1的整数，则可以将文本内容的语义向量和K个候选标签对应的一个语义向量相结合，该一个语义向量可以是上述步骤S21中的第一候选标签语义向量，拼接后得到一个第一语义向量；也可以将文本内容的语义向量与K个候选标签分别对应的语义向量相结合，例如：将文本内容的语义向量和具有第一顺序的K个候选标签的语义向量，拼接为一个向量，得到第二拼接向量，第二拼接向量的表现形式为【x，y1，y2，……，yk】，其中，x表示文本内容的语义向量，y1，y2，……，yk为按照第一顺序排序的第1个候选标签的语义向量至第K个候选标签的语义向量；再例如：将文本内容的语义向量，按照第一顺序分别与每个候选标签对应的语义向量进行拼接，得到多个第三拼接向量，多个第三拼接向量的表现形式为：【x，y1】、【x，y2】、……、【x，yk】，其中，x，y1，y2，……，yk所表示的内容与第二拼接向量中的x，y1，y2，……，yk所表示的内容相同，在此不再赘述。

在该实施例中，可以将文本内容的语义向量和全部候选标签对应的一个语义向量相结合，也可以将文本内容的语义向量和分别对应的语义向量相结合，结合的方式可以是向量拼接的方式，从而得到对应的拼接向量。

在一些实施例中，在拼接向量为一个第一拼接向量或一个第二拼接向量的情况下，多个分类预测结果包括多个第一分类结果预测值；步骤S122具体可以包括：S31，根据一个第一拼接向量或一个第二拼接向量，对文本内容的目标标签进行分类预测，得到对应的第一分类预测结果序列.

其中，第一分类预测结果序列中包括与第一顺序对应的多个第一分类结果预测值，每个排序位置的第一分类结果预测值用于表征相同排序位置的候选标签作为目标标签的概率。

示例性地，分类器可以是基于激活函数（Softmax函数）的分类器，通过该分类器可以计算每个候选标签作为文本内容的目标标签（分类结果）的概率。

在该实施例中，将第一拼接向量或第二拼接向量输入分类器，输出按照第一顺序排序的多个第一分类结果预测值。

在一些实施例中，在拼接向量为多个第三拼接向量的情况下，至少一个分类预测结果包括多个第二分类结果预测值；步骤S122具体可以包括：S41，对按照第一顺序排序的多个第三拼接向量进行分类预测，得到与第一顺序对应的多个二分类结果，多个二分类结果用于表征与第一顺序对应的每个候选标签作为目标标签的概率分布；S42，对概率分布进行归一化处理得到第二分类预测结果序列；其中，第二分类预测结果序列中包括多个第二分类结果预测值，每个排序位置的第二分类结果预测值用于表征相同排序位置的候选标签作为目标标签的概率。

示例性地，将按照第一顺序排序的K个第三拼接向量输入分类器，得到K个二分类结果，再利用Softmax函数对K个二分类结果中的概率分布进行处理，得到多个第二分类结果预测值；示例性地，对于步骤S41中的分类处理，在对应的模型训练过程中，所使用的损失函数可以是排名损失（Ranking Loss）函数，Ranking Loss用于对每个第三拼接向量中包括含的两个向量（一个是文本内容的语义向量，另一个是一个候选标签的语义向量）之间的相似度进行度量，该度量可以表现为二值（相似/不相似），也可以表现为概率分布；通过使用Ranking Loss函数，可以训练文本分类模型对每个第三拼接向量中包含的候选标签与文本内容的目标标签之间的相似度（概率分布）进行推断。

在该实施例中，与第一顺序对应的多个第三拼接向量输入分类器进行分类处理，输出按照第一顺序排序的多个第一分类结果预测值。

在一些实施例中，至少一个候选标签的数量为K，K为大于或等于1的整数，至少一个分类预测结果中包含K个分类预测结果；步骤S130中，根据每个候选标签作为目标标签的概率，确定文本内容的目标标签的步骤，具体可以包括：根据每个候选标签作为目标标签的概率，确定概率的最大值；将概率的最大值所对应的候选标签，作为文本内容的目标标签；生成第一处理结果，第一处理结果用于指示目标标签在第一顺序中的排序位置。

作为示例，例如生成的第一处理结果中，排序位置为第i个位置，则表示第i个位置的候选标签为文本内容的目标标签。其中，i表示第一顺序中的任一排序位置。

在本实施例中，可以直接输出每个候选标签作为目标标签的概率，并将概率最大值所对应的候选标签，作为文本内容的目标标签；也可以输入目标标签在第一顺序中的排序位置，从而将具有相同排序位置的候选标签作为目标标签。

在一些实施例中，至少一个分类预测结果中包含K个分类预测结果和一个增设预测结果；在步骤S122中的基于拼接向量对文本内容的目标标签进行分类预测，得到按照第一顺序排序的至少一个分类预测结果的步骤之后，该文本分类方法还包括：在增设预测结果的取值为概率的最大值的情况下，生成第二处理结果，第二处理结果用于指示全部候选标签中不存在文本内容的目标标签。

示例性地，K个分类预测结果和一个增设预测结果，形成K+1个位置的预测结果，该K+1个位置的预测结果中，增设预测结果位于连续的K个位置的预测结果之前；这样若K个候选标签中不存在目标标签，读取第1个位置的增设预测结果即可确定文本分类结果，提高处理效率。

在该实施例中，对于K个候选标签，可以生成K+1个预测结果，其中，K个分类预测结果与K个候选标签一一对应，每个分类预测结果用于表征与该分类预测结果具有相同排序位置的候选标签作为目标标签的概率；若该一个增设的预测结果为概率的最大值，则表示该K个候选标签中不存在文本内容的目标标签；若该增设的预测结果非概率的最大值，则忽略该增设的预测结果即可。

根据本公开实施例的文本分类方法，可以利用文本分类模型对文本内容和按照第一顺序排序的至少一个候选标签进行处理，得到按照第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果可以表征相同排序位置的候选标签作为目标标签的概率，从而根据每个候选标签作为目标标签的概率，确定文本内容的目标标签，从而获得对应的文本分类结果。该文本分类方法中，文本内容和候选标签均不受分类场景的限制，有利于提高文本分类处理的场景通用性；并且，该文本分来方法无需预先构建分类体系和标准，也无需进行人工标注，有利于提高文本分类方法的处理效率。

图2为本公开示例性实施例的文本分类方法的详细流程图。如图2所示，在一些实施例中，文本分类方法包括如下步骤。

S201，根据文本内容获取K个候选标签。

在该步骤中，可以根据文本内容，从知识库或其他来源中，检索出与该文本内容的语义相似度大于或等于预定相似度阈值的K个文本内容，将该K个文本内容作为K个候选标签，其中K为大于或等于1的整数。

示例性地，假设文本内容为“我很不喜欢你们的服务”，例如K=5时，候选标签集合中包括5个候选标签【表达喜欢，咨询价格，表达肯定，表达否定，表达不满】，对候选标签集合中的候选标签进行随机排序，得到按照第一顺序排序的标签序列为：【表达肯定，表达不满，表达喜欢，表达否定，咨询价格】，第一顺序可以是任意顺序。

S202，将文本内容输入语义编码器，获取文本内容对应的语义表征向量。

S203，将K个候选标签的标签名称按任意顺序输入语义编码器，获取候选标签的标签名称对应的语义表征向量。

在该步骤中，可以将K个候选标签的标签名称按照第一顺序输入语义编码器，获取候选标签的标签名称对应的语义表征向量。

示例性地，K个候选标签的标签名称可以拼接后输入语义编码器，得到一个语义表征向量；也可以将K个候选标签的标签名称分别输入语义编码器，得到K个语义表征向量。

S204，将文本内容对应的语义表征向量和候选标签的标签名称对应的语义表征向量相结合，输入分类器，输出或预测出正确标签在K个候选标签中的位置。

在该步骤中，文本内容对应的语义表征向量可以和K个候选标签的标签名称对应的一个语义表征向量，通过向量的拼接进行结合，也可以将文本内容对应的语义表征向量和K个候选标签的标签名称分别对应的语义表征向量进行结合。

示例性地，将结合后的拼接语义表征向量输入分类器，输出或预测出正确标签在K个候选标签中的位置，进而输出对应的标签名称；作为具体示例，按照第一顺序排序的标签序列【表达肯定，表达不满，表达喜欢，表达否定，咨询价格】中，文本内容“我很不喜欢你们的服务”的目标标签（即正确标签）为【表达不满】，将文本内容和候选标签输入文本分类模型，期望输出的正确预测结果例如可以为：【0，1，0，0，0】，该预测结果中的概率最大值“1”对应的候选标签的标签名称为“表达不满”。

示例性地，K个候选标签可以对应K+1个位置的预测结果，多一个位置可以对应候选标签中没有正确标签的情况；作为具体示例，假设K=5情况下，若候选标签中没有正确标签，即目标标签，则期望输出的正确预测结果例如可以为【1，0，0，0，0，0】，其中，该预测结果中的概率最大值“1”用于表征候选标签中没有正确标签；若候选标签中的正确标签为“表达不满”，则期望输出的正确预测结果例如可以为【0，0，1，0，0，0】；与K个位置的预测结果相比，该K+1个位置的预测结果在连续的K个位置的预测结果之前多个一个增设预测结果。

根据本公开实施例的文本分类方法，可以适用于任意文本分类场景中的文本分类任务，突破文本分类任务在应用场景的场景类型数量的限制，极大的提升了文本分类方法的适用性。

可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

此外，本公开还提供了文本分类装置、电子设备、计算机可读存储介质，上述均可用来实现本公开提供的任一种文本分类方法，相应技术方案和描述和参见方法部分的相应记载，不再赘述。

图3为本公开实施例提供的一种文本分类装置的框图。参照图3，本公开实施例提供了一种文本分类装置，该文本分类装置300可以包括如下模块。

获取模块310，用于获取文本内容和按照第一顺序排序的至少一个候选标签；

处理模块320，用于利用文本分类模型处理文本内容和至少一个候选标签，得到按照第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率；

确定模块330，用于根据每个候选标签作为目标标签的概率，确定文本内容的目标标签，得到与目标标签对应的文本分类结果。

在一些实施例中，处理模块320包括：编码单元，用于对文本内容和按照第一顺序排序的至少一个候选标签进行语义编码，得到文本内容的语义向量和至少一个候选标签的语义向量；拼接单元，用于对文本内容的语义向量和至少一个候选标签的语义向量，基于第一顺序进行拼接，得到拼接向量；预测单元，用于基于拼接向量对文本内容的目标标签进行分类预测，得到按照第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率。

在一些实施例中，至少一个候选标签的语义向量为一个第一候选标签语义向量或多个第二候选标签语义向量；编码单元具体用于：对文本内容进行语义编码，得到文本内容的语义向量；按照第一顺序拼接至少一个候选标签，得到拼接标签内容，对拼接标签内容进行语义编码，得到一个第一候选标签语义向量；或者，按照第一顺序将至少一个候选标签进行语义编码，得到与第一顺序对应的多个第二候选标签语义向量。

在一些实施例中，拼接单元具体用于：在至少一个候选标签的语义向量为一个第一候选标签语义向量的情况下，将文本内容的语义向量与第一候选标签语义向量进行拼接，得到一个第一拼接向量；或者，在至少一个候选标签的语义向量为多个第二候选标签语义向量的情况下，将文本内容的语义向量与按照第一顺序排序的多个第二候选标签语义向量进行拼接，得到一个第二拼接向量；或者，在至少一个候选标签的语义向量为多个第二候选标签语义向量的情况下，按照第一顺序排序将文本内容的语义向量分别与每个第二候选标签语义向量进行拼接，得到与第一顺序对应的多个第三拼接向量。

在一些实施例中，在拼接向量为一个第一拼接向量或一个第二拼接向量的情况下，多个分类预测结果包括多个第一分类结果预测值；预测单元具体用于：根据一个第一拼接向量或一个第二拼接向量，对文本内容的目标标签进行分类预测，得到对应的第一分类预测结果序列；其中，第一分类预测结果序列中包括与第一顺序对应的多个第一分类结果预测值，每个排序位置的第一分类结果预测值用于表征相同排序位置的候选标签作为目标标签的概率。

在一些实施例中，在拼接向量为多个第三拼接向量的情况下，至少一个分类预测结果包括多个第二分类结果预测值；预测单元，具体用于：对按照第一顺序排序的多个第三拼接向量进行分类预测，得到与第一顺序对应的多个二分类结果，多个二分类结果用于表征与第一顺序对应的每个候选标签作为目标标签的概率分布；对概率分布进行归一化处理得到第二分类预测结果序列；其中，第二分类预测结果序列中包括多个第二分类结果预测值，每个排序位置的第二分类结果预测值用于表征相同排序位置的候选标签作为目标标签的概率。

在一些实施例中，至少一个候选标签的数量为K，K为大于或等于1的整数，至少一个分类预测结果中包含K个分类预测结果；确定模块330，具体用于：根据每个候选标签作为目标标签的概率，确定概率的最大值；将概率的最大值所对应的候选标签，作为文本内容的目标标签；生成第一处理结果，第一处理结果用于指示目标标签在第一顺序中的排序位置。

在一些实施例中，至少一个分类预测结果中包含K个分类预测结果和一个增设预测结果；确定模块330，还用于在基于拼接向量对文本内容的目标标签进行分类预测，得到按照第一顺序排序的至少一个分类预测结果之后，在增设预测结果的取值为概率的最大值的情况下，生成第二处理结果，第二处理结果用于指示全部候选标签中不存在文本内容的目标标签。

根据本公开实施例的文本分类装置，可以利用文本分类模型对文本内容和按照第一顺序排序的至少一个候选标签进行处理，得到按照第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果可以表征相同排序位置的候选标签作为目标标签的概率，从而根据每个候选标签作为目标标签的概率，确定文本内容的目标标签，从而获得对应的文本分类结果。该文本分类方法中，文本内容和候选标签均不受分类场景的限制，有利于提高文本分类处理的场景通用性；并且，该文本分来方法无需预先构建分类体系和标准，也无需进行人工标注，有利于提高文本分类方法的处理效率。

需要明确的是，本公开实施例并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁，这里省略了对已知方法的详细描述，并且上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图4示出本公开实施例的文本分类模型的结构示意图。如图4所示，该文本分类模型400包括：

语义编码器410，用于对文本内容和按照第一顺序排序的至少一个候选标签进行语义编码，得到文本内容的语义向量和至少一个候选标签的语义向量；

拼接层420，用于对文本内容的语义向量和至少一个候选标签的语义向量，基于第一顺序进行拼接，得到拼接向量；

分类器430，用于基于拼接向量对文本内容的目标标签进行分类预测，得到按照第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率。

在一些实施例中，语义编码器410所执行的步骤可以参照上述步骤S121的具体处理步骤；拼接层420所执行的步骤可以参照上述步骤S122的具体处理步骤；分类器430所执行的步骤可以参照上述步骤S123的具体处理步骤。本公开实施例不再赘述。

本公开实施例的文本分类模型可以适用于任意文本分类任务，达到使用该一个文本分类模型可以适用于任意文本分类场景的目的，从而有利于突破文本分类任务在应用场景个数上的限制，提升文本分类模型的适用性。

图5示出本公开示例性实施例的文本分类模型的结构示意图。如图5所示，该文本分类模型包括：语义编码器501和分类器502。

如图5所示，将文本内容“这两个都买，一起包邮不行吗”和多个候选标签名称例如第一候选标签名称“咨询退货地址”、第二候选标签名称“咨询是否包邮”、……、第k候选标签名称“咨询商品价格”输入语义编码器，得到语义编码器输出的文本内容的语义表征向量x，以及K个候选标签名称的语义表征向量y1、y2、……、yk，将文本内容的语义表征向量x与K个候选标签名称分别对应的语义表征向量y1、y2、……、yk进行结合，然后将结合的语义表征向量输入分类器，若输出的是k个预测结果【0，1，0，0，……0】，则第二候选标签“咨询是否包邮”为文本内容的目标标签，即文本内容的正确标签。在本公开实施例中，语义表征向量即语义向量，用于表征对应的语义特征。

根据本公开实施例的文本分类方法，可以预先利用所有的文本分类任务的数据集进行模型训练，可以在大量的数据中学习到更多有价值的知识，有效提高文本分类模型预测的准确性和泛化能力；且本公开实施例的文本分类方法可以适用于任意文本分类任务，达到使用一个文本分类模型适用于任意文本分类场景的目的，有利于突破文本分类任务在应用场景个数上的限制，从而极大的提升了文本分类模型的适用性。

图6为本公开实施例提供的一种电子设备的框图。

参照图6，本公开实施例提供了一种电子设备，该电子设备包括：至少一个处理器601；至少一个存储器602，以及一个或多个I/O接口603，连接在处理器601与存储器602之间；其中，存储器602存储有可被至少一个处理器601执行的一个或多个计算机程序，一个或多个计算机程序被至少一个处理器601执行，以使至少一个处理器601能够执行上述的文本分类方法。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，计算机程序在被处理器/处理核执行时实现上述的文本分类方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当计算机可读代码在电子设备的处理器中运行时，电子设备中的处理器执行上述文本分类方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读存储介质上，计算机可读存储介质可以包括计算机存储介质（或非暂时性介质）和通信介质（或暂时性介质）。

如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息（诸如计算机可读程序指令、数据结构、程序模块或其他数据）的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM）、静态随机存取存储器（SRAM）、闪存或其他存储器技术、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

这里参照根据本公开实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些示例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种文本分类方法，其特征在于，包括：

获取文本内容和按照第一顺序排序的至少一个候选标签；

利用文本分类模型处理所述文本内容和所述至少一个候选标签，得到按照所述第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率；

根据每个候选标签作为目标标签的概率，确定所述文本内容的目标标签，得到与所述目标标签对应的文本分类结果。

2.根据权利要求1所述的方法，其特征在于，所述文本分类模型包括：语义编码模块、拼接模块和分类模块；所述利用文本分类模型处理所述文本内容和所述至少一个候选标签，得到按照所述第一顺序排序的至少一个分类预测结果，包括：

对所述文本内容和所述按照第一顺序排序的至少一个候选标签进行语义编码，得到所述文本内容的语义向量和所述至少一个候选标签的语义向量；

对所述文本内容的语义向量和所述至少一个候选标签的语义向量，基于所述第一顺序进行拼接，得到拼接向量；

基于所述拼接向量对所述文本内容的目标标签进行分类预测，得到按照所述第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率。

3.根据权利要求2所述的方法，其特征在于，所述至少一个候选标签的语义向量为一个第一候选标签语义向量或多个第二候选标签语义向量；所述对所述文本内容和所述按照第一顺序排序的至少一个候选标签进行语义编码，得到所述文本内容的语义向量和所述至少一个候选标签的语义向量，包括：

对所述文本内容进行语义编码，得到所述文本内容的语义向量；

按照所述第一顺序拼接所述至少一个候选标签，得到拼接标签内容，对所述拼接标签内容进行语义编码，得到一个第一候选标签语义向量；

或者，按照所述第一顺序将所述至少一个候选标签进行语义编码，得到与所述第一顺序对应的多个第二候选标签语义向量。

4.根据权利要求3所述的方法，其特征在于，所述对所述文本内容的语义向量和所述至少一个候选标签的语义向量，基于所述第一顺序进行拼接，得到拼接向量，包括：

在所述至少一个候选标签的语义向量为所述一个第一候选标签语义向量的情况下，将所述文本内容的语义向量与所述第一候选标签语义向量进行拼接，得到一个第一拼接向量；

或者，在所述至少一个候选标签的语义向量为多个第二候选标签语义向量的情况下，将所述文本内容的语义向量与按照所述第一顺序排序的多个第二候选标签语义向量进行拼接，得到一个第二拼接向量；

或者，在所述至少一个候选标签的语义向量为多个第二候选标签语义向量的情况下，按照所述第一顺序排序将所述文本内容的语义向量分别与每个第二候选标签语义向量进行拼接，得到与所述第一顺序对应的多个第三拼接向量。

5.根据权利要求4所述的方法，其特征在于，在所述拼接向量为一个第一拼接向量或一个第二拼接向量的情况下，所述多个分类预测结果包括多个第一分类结果预测值；

所述基于所述拼接向量对所述文本内容的目标标签进行分类预测，得到按照所述第一顺序排序的至少一个分类预测结果，包括：

根据所述一个第一拼接向量或所述一个第二拼接向量，对所述文本内容的目标标签进行分类预测，得到对应的第一分类预测结果序列；

其中，所述第一分类预测结果序列中包括与所述第一顺序对应的多个第一分类结果预测值，每个排序位置的第一分类结果预测值用于表征相同排序位置的候选标签作为目标标签的概率。

6.根据权利要求4所述的方法，其特征在于，在所述拼接向量为所述多个第三拼接向量的情况下，所述至少一个分类预测结果包括多个第二分类结果预测值；

对按照所述第一顺序排序的所述多个第三拼接向量进行分类预测，得到与所述第一顺序对应的多个二分类结果，所述多个二分类结果用于表征与所述第一顺序对应的每个候选标签作为目标标签的概率分布；

对所述概率分布进行归一化处理得到第二分类预测结果序列；其中，所述第二分类预测结果序列中包括多个第二分类结果预测值，每个排序位置的第二分类结果预测值用于表征相同排序位置的候选标签作为目标标签的概率。

7.根据权利要求1所述的方法，其特征在于，所述至少一个候选标签的数量为K，K为大于或等于1的整数，所述至少一个分类预测结果中包含K个分类预测结果；

所述根据每个候选标签作为目标标签的概率，确定所述文本内容的目标标签，包括：

根据每个候选标签作为目标标签的概率，确定所述概率的最大值；

将所述概率的最大值所对应的候选标签，作为所述文本内容的目标标签；

生成第一处理结果，所述第一处理结果用于指示所述目标标签在所述第一顺序中的排序位置。

8.根据权利要求2所述的方法，其特征在于，所述至少一个分类预测结果中包含K个分类预测结果和一个增设预测结果；

在基于所述拼接向量对所述文本内容的目标标签进行分类预测，得到按照所述第一顺序排序的至少一个分类预测结果之后，所述方法还包括：

在所述增设预测结果的取值为所述概率的最大值的情况下，生成第二处理结果，所述第二处理结果用于指示全部候选标签中不存在所述文本内容的目标标签。

9.一种文本分类装置，其特征在于，所述装置包括：

获取模块，用于获取文本内容和按照第一顺序排序的至少一个候选标签；

处理模块，用于利用文本分类模型处理所述文本内容和所述至少一个候选标签，得到按照所述第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率；

确定模块，用于根据每个候选标签作为目标标签的概率，确定所述文本内容的目标标签，得到与所述目标标签对应的文本分类结果。

10.一种文本分类模型，其特征在于，所述模型包括：

语义编码器，用于对文本内容和按照第一顺序排序的至少一个候选标签进行语义编码，得到所述文本内容的语义向量和所述至少一个候选标签的语义向量；

拼接层，用于对所述文本内容的语义向量和所述至少一个候选标签的语义向量，基于所述第一顺序进行拼接，得到拼接向量；

分类器，用于基于所述拼接向量对所述文本内容的目标标签进行分类预测，得到按照所述第一顺序排序的至少一个分类预测结果，每个排序位置的分类预测结果用于表征相同排序位置的候选标签作为目标标签的概率。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-8中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时实现如权利要求1-8中任一项所述的方法。