CN111291183A

CN111291183A - 利用文本分类模型进行分类预测的方法及装置

Info

Publication number: CN111291183A
Application number: CN202010049397.9A
Authority: CN
Inventors: 熊涛
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-16
Anticipated expiration: 2040-01-16
Also published as: WO2021143396A1; CN111291183B

Abstract

本说明书实施例提供一种利用文本分类模型进行分类预测的方法和装置，其中文本分类模型包括嵌入层、卷积层、注意力层和分类器。分类预测方法包括，预先对K个类别对应的标签描述文本进行词嵌入，得到K个标签向量。预测时，利用嵌入层对输入文本进行词嵌入，得到词向量序列；在卷积层，利用不同宽度的卷积窗口，对词向量序列进行卷积处理，得到片段向量序列。然后，在注意力层，分别对各个向量序列进行第一注意力处理，包括，根据向量序列中向量元素与K个标签向量之间的相似度，确定其权重因子，进而加权求和得到第一序列向量。基于各个序列的第一序列向量得到输入文本的表征向量，于是分类器基于表征向量，得到输入文本的类别预测结果。

Description

利用文本分类模型进行分类预测的方法及装置

技术领域

本说明书一个或多个实施例涉及机器学习领域，尤其涉及利用文本分类模型进行分类预测的方法和装置。

背景技术

文本分类是计算机执行的自然语言处理任务中常见而典型的一类任务，广泛应用于多种业务实施场景。例如，在智能问答客服系统中，需要将用户提出的问题作为输入文本进行分类，以进行用户意图识别，自动问答，或者人工客服派单等。更具体的，当进行自动问答时，分类的类别可以对应于，预先整理好的各种标准问题。相应地，通过对用户问题的分类，可以确定出用户随意而口语化的问题描述所对应的标准问题，进而可以确定出问题的答案，推送给用户。当进行人工客服派单时，分类的类别可以对应于，针对不同知识领域进行培训的人工客服技能组。相应地，通过对用户问题的分类，可以识别出用户问题所属的知识领域，进而将用户问题分配给对应技能组的人工客服。文本分类还可用于，例如文档数据归类，舆情分析，垃圾信息识别等等多种应用场景。

在各种业务实施场景中，文本分类的准确性都是关注的核心问题。因此，希望能有改进的方案，可以进一步提升文本分类的准确度。

发明内容

本说明书一个或多个实施例描述了利用文本分类模型进行文本分类预测的方法和装置，其中的文本分类模型综合考虑不同长度的文本片段的语义信息，以及与标签描述文本的相关度信息，进行文本分类预测，从而提高分类预测的准确性和效率。

根据第一方面，提供了一种利用文本分类模型进行分类预测的方法，用于在预定的K个类别中预测输入文本对应的类别；所述文本分类模型包括嵌入层，卷积层，注意力层和分类器，所述注意力层包括第一注意力模块，所述方法包括：

获取所述K个类别分别对应的K个标签向量，其中，每个标签向量通过对相应类别的标签描述文本进行词嵌入而得到；

利用所述嵌入层，对输入文本进行词嵌入，得到词向量序列；

将所述词向量序列输入所述卷积层，所述卷积层利用与若干不同长度的文本片段相对应的若干卷积窗口，对所述词向量序列进行卷积处理，得到若干片段向量序列；所述词向量序列和若干片段向量序列构成向量序列集合；

分别将所述向量序列集合中的各个向量序列输入所述第一注意力模块，以进行第一注意力处理，得到各个向量序列对应的各个第一序列向量；其中，所述第一注意力处理包括，根据输入向量序列中各个向量元素与所述K个标签向量之间的相似度，确定各个向量元素分别对应的第一权重因子，并利用所述第一权重因子对各个向量元素加权求和；

根据所述各个第一序列向量，得到所述输入文本的第一注意力表示；

至少根据所述第一注意力表示，确定所述输入文本的表征向量；

将所述表征向量输入所述分类器，得到所述输入文本在所述K个类别中的类别预测结果。

在一个实施例中，输入文本为用户问题；相应的，K个类别中各个类别对应的标签描述文本包括，标准问题描述文本。

在一种实施方式中，所述K个标签向量通过以下方式预先确定：对所述K个类别中的每个类别，获取该类别对应的标签描述文本；对所述标签描述文本进行词嵌入，得到该标签描述文本中包含的各个描述词的词向量；对所述各个描述词的词向量进行综合，得到该类别对应的标签向量。

根据一个实施例，在第一注意力处理中，具体通过以下方式确定各个向量元素对应的第一权重因子：对于输入向量序列中每个向量元素，计算该向量元素与所述K个标签向量之间的K个相似度；基于所述K个相似度中的最大值，确定该向量元素对应的第一权重因子。

更具体的，在不同实施例中，计算该向量元素与所述K个标签向量之间的K个相似度可以包括：计算该向量元素与各个标签向量之间的余弦相似度；或者，基于该向量元素与各个标签向量之间的欧式距离，确定其相似度；或者，基于该向量元素与各个标签向量的点乘结果，确定其相似度。

此外，在一个实施例中，基于所述K个相似度中的最大值，确定该向量元素对应的第一权重因子具体包括：基于所述K个相似度中的最大值，确定该向量元素的互注意力分数；根据所述各个向量元素对应的各个互注意力分数，对该向量元素的互注意力分数进行归一化处理，得到该向量元素对应的第一权重因子。

在一个实施例中，根据所述各个第一序列向量，得到所述输入文本的第一注意力表示具体可以包括：对所述各个第一序列向量进行综合，得到所述第一注意力表示，所述综合包括以下之一：求和，加权求和，求平均。

根据一种实施方式，注意力层还可以包括第二注意力模块；相应的，所述方法还包括，分别将所述向量序列集合中的各个向量序列输入所述第二注意力模块，以进行第二注意力处理，得到各个向量序列对应的各个第二序列向量；其中，所述第二注意力处理包括，对于输入向量序列中的每个向量元素，根据该向量元素与所述输入向量序列中各个其他向量元素之间的相似度，确定该向量元素对应的第二权重因子，并利用所述第二权重因子对输入序列中各个向量元素加权求和；

根据所述各个第二序列向量，得到所述输入文本的第二注意力表示。

在注意力层包括第一注意力模块和第二注意力模块的情况下，可以根据所述第一注意力表示和所述第二注意力表示，确定所述表征向量。

进一步的，在第二注意力处理中，可以通过以下方式确定向量元素对应的第二权重因子：计算该向量元素与所述各个其他向量元素之间的各个相似度；基于所述各个相似度的平均值，确定该向量元素对应的第二权重因子。

根据又一实施方式，所述注意力层还包括第三注意力模块，其中维护注意力向量；所述方法还包括，

至少基于所述向量序列集合中各个向量序列的拼接，形成总序列；

利用所述第三注意力模块，对所述总序列进行第三注意力处理，所述第三注意力处理包括，对于所述总序列中的每个向量元素，根据该向量元素与所述注意力向量之间的相似度，确定该向量元素对应的第三权重因子，并利用所述第三权重因子对所述总序列中各个向量元素加权求和，得到所述输入文本的第三注意力表示。

在注意力层包括第一注意力模块和第三注意力模块的情况下，可以根据所述第一注意力表示和所述第三注意力表示，确定所述表征向量。

在注意力层包括第一注意力模块、第二注意力模块和第三注意力模块的情况下，可以根据所述第一注意力表示，所述第二注意力表示和所述第三注意力表示，确定所述表征向量。

进一步地，在一个例子中，可以基于预先确定的权重系数，对所述第一注意力表示，所述第二注意力表示和第三注意力表示加权求和，得到所述表征向量。

在一个实施例中，注意力层还包括融合模块；在形成输入到第三注意力模块的总序列之前，所述方法还包括：

分别将所述向量序列集合中的各个向量序列输入所述融合模块进行融合转换处理，得到各个向量序列对应的各个融合序列，其中所述融合转换处理包括，对于输入向量序列中的每个向量元素，根据该向量元素与所述K个标签向量中各个标签向量之间的相似度，确定与各个标签向量对应的标签权重因子，并基于所述标签权重因子将该向量元素转换为所述K个标签向量加权求和的融合向量，从而将输入向量序列转换为对应的融合序列。

相应的，在一个实施例中，可以将各个向量序列和各个融合序列进行拼接，得到所述总序列，输入到第三注意力模块中。

根据一种实施方式，所述输入文本为训练文本，所述训练文本对应具有指示其真实类别的类别标签；所述方法还包括：根据所述类别预测结果和所述类别标签，得到文本预测损失；至少根据所述文本预测损失，确定总预测损失；在使得所述总预测损失减小的方向，更新所述文本分类模型，从而训练该文本分类模型。

进一步的，在该实施方式下的一个实施例中，方法还包括：将所述K个类别对应的K个标签向量分别输入所述分类器，得到对应的K个预测结果；分别比较所述K个类别与其对应的预测结果，基于比较结果得到标签预测损失。在这样的情况下，可以根据所述文本预测损失和所述标签预测损失，确定总损失，从而进行模型训练。

根据第二方面，提供了一种利用文本分类模型进行分类预测的装置，用于在预定的K个类别中预测输入文本对应的类别；所述文本分类模型包括嵌入层，卷积层，注意力层和分类器，所述注意力层包括第一注意力模块，所述装置包括：

标签向量获取单元，配置为获取所述K个类别分别对应的K个标签向量，其中，每个标签向量通过对相应类别的标签描述文本进行词嵌入而得到；

词序列获取单元，配置为利用所述嵌入层，对输入文本进行词嵌入，得到词向量序列；

片段序列获取单元，配置为将所述词向量序列输入所述卷积层，所述卷积层利用与若干不同长度的文本片段相对应的若干卷积窗口，对所述词向量序列进行卷积处理，得到若干片段向量序列；所述词向量序列和若干片段向量序列构成向量序列集合；

第一注意力单元，配置为分别将所述向量序列集合中的各个向量序列输入所述第一注意力模块，以进行第一注意力处理，得到各个向量序列对应的各个第一序列向量；其中，所述第一注意力处理包括，根据输入向量序列中各个向量元素与所述K个标签向量之间的相似度，确定各个向量元素分别对应的第一权重因子，并利用所述第一权重因子对各个向量元素加权求和；

第一表示获取单元，配置为根据所述各个第一序列向量，得到所述输入文本的第一注意力表示；

表征向量确定单元，配置为至少根据所述第一注意力表示，确定所述输入文本的表征向量；

预测结果获取单元，配置为将所述表征向量输入所述分类器，得到所述输入文本在所述K个类别中的类别预测结果。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

根据本说明书实施例提供的方法和装置，利用文本分类模型中的卷积层和注意力层，综合考虑不同长度的文本片段以及与标签向量的相似度信息来得到表征向量，由此使得基于表征向量进行文本分类时，更多地考虑到不同长度的上下文语义信息和与标签描述文本的相关度信息，从而得到更准确的类别预测结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的文本分类模型的示意图；

图2示出根据一个实施例的利用文本分类模型进行文本分类的方法流程图；

图3示出在一个实施例中对词向量序列进行卷积处理的示意图；

图4示出在一个实施例中对输入向量序列进行第一注意力处理的示意图；

图5示出在一个实施例中对输入向量序列进行第二注意力处理的示意图；

图6示出在一个实施例中对输入向量序列进行融合转换处理的示意图；

图7示出在一个实施例中注意力层的注意力处理示意图；

图8示出模型训练阶段进一步包含的方法步骤；

图9示出根据一个实施例的文本分类预测装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

如前所述，在诸如智能客服机器人的多种应用场景中，都需要对输入文本进行准确的分类。已经提出多种结构和算法的神经网络模型用于进行文本分类任务，然而，现有模型有些过于复杂，有些过于泛化而准确度不高，仍然存在不足。

考虑到文本分类任务的特点，在本说明书中的实施例中，提出一种新的文本分类模型，该模型通过综合考虑文本片段的信息和标签描述文本的信息，来进一步提升文本的分类预测效果。

图1为本说明书披露的一个实施例的文本分类模型的示意图。如图1所示，文本分类模型包括嵌入层11，卷积层12，注意力层13，分类器14。

嵌入层11采用特定的词嵌入算法，将输入的各个词转化为词向量。利用该嵌入层11，可以预先将作为分类目标的K个类别分别对应的标签描述文本转化为K个标签向量。在对输入文本进行分类预测时，嵌入层11将输入文本进行词嵌入，将其转化为词向量序列。

卷积层12用于对词向量序列进行卷积处理。在本说明书的实施例中，为了考虑不同长度的文本片段(text span)对输入文本语义理解的影响，卷积层12采用不同宽度的多个卷积核或卷积窗进行卷积处理，从而得到多个片段向量序列，分别用于在不同长度的文本片段的层级上，表征输入文本。

注意力层13采用注意力机制，结合标签向量，对上述各个向量序列进行处理。特别地，注意力层13可以包括第一注意力模块131，用于对输入向量序列进行第一注意力处理。该第一注意力处理包括，根据输入向量序列中的各个向量元素与前述K个标签向量之间的相似度，对各个向量元素进行综合，从而得到输入向量序列对应的序列向量。因此，第一注意力处理又可称为标签注意力处理，第一注意力模块又可称为，(与标签的)互注意力(co-attention)模块。

可选的，注意力层13还可以包括第二注意力模块132和/或第三注意力模块133。第二注意力模块132可称为内注意力(intra-attention)模块，用于根据输入向量序列中每个向量元素与其他向量元素之间的相似度，对各个向量元素进行综合。第三注意力模块133可称为自注意力(self attention)模块，用于根据输入向量序列中各个向量元素与注意力向量的相似度，对各个向量元素进行综合。

基于各个注意力模块得到的序列向量的综合，可以得到输入文本的表征向量，输入到分类器14中。分类器14基于该表征向量确定输入文本对应的分类，实现文本的分类预测。

由此可以看到，图1所示的文本分类模型至少具有以下特点。首先，该文本分类模型在不同长度的文本片段的层级上，对输入文本进行表征，得到多个片段级向量序列，如此，更好地发掘不同长度的上下文的语义信息。此外，对于有待分类的各个类别，不同于常规技术中仅用无意义的标签(例如编号)来代表类别，本实施例中的文本分类模型对各个类别的标签描述文本也进行词嵌入，得到有语义信息的标签向量表征。并且，通过互注意力模块，基于词向量序列和片段向量序列中各个元素与标签向量的相似度，综合得到各个序列的序列表征。因此，输入文本的最终表征向量中，包含了不同层级(词的层级，不同长度的文本片段层级)的向量序列与标签向量之间的相似度信息，进而更好地利用输入文本的上下文信息和与标签描述文本的语义相似度信息，来进行文本分类，从而提高分类准确度。

下面具体描述利用上述文本分类模型进行文本分类的过程。

图2示出根据一个实施例的利用文本分类模型进行文本分类的方法流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示，文本分类过程至少包括以下步骤。

在步骤21，获取作为分类目标的K个类别分别对应的K个标签向量，其中，每个标签向量通过对相应类别的标签描述文本进行词嵌入而得到。

可以理解，对于文本分类任务而言，作为分类目标的K个类别是预先确定的。在常规技术中，一般用标签来代表这K个类别，标签例如体现为，1到K的编号，类别的id号，或者K个类别的独热编码，等等。一般地，标签本身往往是不包含语义信息的，仅仅是代表类别的一个代号。然而，各个类别往往具有对应的描述该类别内容特点的描述信息，我们可以将其作为针对标签的描述信息，即标签描述文本。标签描述文本中常常包含与对应类别相关的语义信息。

例如，在智能客服机器人的自动问答场景中，作为分类目标的K个类别对应于预定的K个标准问题。相应的，每个类别的标签描述文本即为，该类别对应的标准问题描述文本。比如，类别1的标签描述文本为该类别下的标准问题1“花呗怎么还款”，类别2的标签描述文本为该类别下的标准问题2“借呗可以借多少钱”。

又例如，在人工客服自动派单的场景中，分类目标即为与预定的K个人工客服技能组对应的K个类别。相应的，每个类别的标签描述文本可以是，对应技能组的描述，例如包括，技能组的知识领域。在其他场景中，也可以对应获取到各个类别对应的标签描述文本。

通过对标签描述文本进行词嵌入，可以得到各个类别对应的标签向量。将各个类别的标签描述文本转化为标签向量的过程，可以包括以下步骤。

首先，对K个类别中的每个类别Cj，获取该类别Cj对应的标签描述文本，例如“花呗怎么还款”。然后，采用特定的词嵌入算法，将该标签描述文本中包含的各个描述词进行嵌入，得到各个描述词的词向量。上述特定的词嵌入算法可以是已有的词嵌入工具中的算法，例如word2vec，也可以是针对特定文本场景，预先训练得到的词嵌入算法。假定所采用的特定词嵌入算法将各个词转化为h维向量，而该标签描述文本包含m个词，则在该步骤中，得到该标签描述文本对应的m个h维向量。

接着，对各个描述词的词向量进行综合，得到该类别Cj对应的标签向量l_j。具体地，可以将上一步骤中得到的m个h维向量进行综合，将综合后得到的h维向量作为标签向量l_j。更具体的，上述综合可以是，求均值，求和值，加权求和等等。在各个标签描述文本包含的字数不同的情况下，优选通过求均值得到上述标签向量。

以上对标签描述文本进行词嵌入的过程可以通过图1的嵌入层11执行。在一个实施例中，嵌入层11可以预先将K个类别的标签描述文本转化为标签向量，并将得到的K个标签向量存储在存储器中，以备分类预测时使用。相应的，在步骤21，读取预先存储的K个标签向量。在另一例子中，也可以在进行分类预测时，将K个类别各自的标签描述文本输入到嵌入层，进行词嵌入，进而得到各个类别的标签向量。

于是，通过以上方式，获取到K个类别分别对应的K个标签向量。

此外，在步骤22，利用嵌入层11，对输入文本进行词嵌入，得到词向量序列。如前所述，嵌入层11采用前述特定的词嵌入算法，对输入文本中各个词进行词嵌入，从而得到输入文本对应的词向量序列。假定输入文本中包含依次排列的N个词{w₁,w₂,…,w_N}，可以得到词向量序列X^W：

其中，

表示第i个词w_i对应的词向量。

需要理解，步骤21和22，可以并行执行，或者以任意的先后顺序执行，在此不做限定。

接着，在步骤23，将上述词向量序列输入卷积层12，利用若干不同宽度的卷积核或卷积窗口，对词向量序列进行卷积处理。这是因为发明人发现，在文本分类时，上下文对文本语义理解至关重要。然而，对于不同文本中的不同词，有帮助的上下文语义信息可能隐藏在距离当前词不同长度的上下文文本中。因此，发明人提出，在不同长度的文本片段(textspan)的层级上，对输入文本进行表征。因此，根据本说明书的实施例，在卷积层12中，采用与若干不同长度的文本片段相对应的若干不同宽度的卷积窗口，对词向量序列进行卷积处理，得到若干片段向量序列。

具体地，卷积窗口的宽度W又可表示为W＝2r+1，其中r为覆盖半径。采用宽度W＝2r+1的窗口对词向量序列进行卷积处理的过程可以包括，以词向量序列

中各个词向量

的位置作为当前位置，对以当前位置为中心，r为半径的范围内的多个词向量，进行卷积运算，得到当前位置对应的文本片段的片段向量

各个位置的片段向量依次排布，形成片段向量序列。

图3示出在一个实施例中对词向量序列进行卷积处理的示意图。在图3的例子中，采用宽度为5(半径为2)的卷积窗口进行卷积处理。如图3所示，当以词向量

作为当前词时，卷积窗口覆盖以该当前词为中心，前后各2个词向量共同形成的连续5个词向量，即

对这5个词向量进行卷积运算，得到对应于该位置i的片段向量

其中，上述卷积运算可以是通过激活函数定义的词向量的组合运算。当滑动该卷积窗口，接下来以词向量

作为当前词时，就对以

为中心的5个词向量进行卷积运算，得到对应于该位置i+1的片段向量

通过依次以N个词向量中各个词向量为中心进行卷积处理，得到N个位置分别对应的片段向量，形成该卷积窗口对应的片段向量序列

以上描述了用特定宽度的卷积窗口对词向量序列进行卷积处理的过程。如前所述，在步骤23中，卷积层采用若干不同宽度的卷积窗口进行处理。例如，在一个具体例子中，采用宽度为3,5,9,15的四种卷积窗口，分别处理词向量序列X^W，可以分别得到四个片段向量序列X^S1，X^S2，X^S3，X^S4，这四个片段向量序列分别表示，在长度为3,5,9,15个字词的文本片段的层级上对输入文本的表征。

在不同实施例中，可以根据输入文本的长度，要考虑的文本片段的长度等因素，决定所采用的卷积窗口的数量，以及各个卷积窗口的宽度，如此得到若干片段向量序列。

以上的词向量序列X^W和若干片段向量序列X^S，可以构成一个向量序列集合，该集合中的向量序列均包含N个h维的向量元素，可简单地统一记为向量序列X。

于是，接下来在步骤24，分别将上述向量序列集合中的各个向量序列X输入到注意力层中的第一注意力模块，进行第一注意力处理，得到各个向量序列X对应的各个第一序列向量。如前所述，第一注意力模块又称为，(与标签的)互注意力模块，相应的，第一注意力处理又可称为标签注意力处理，其中根据输入向量序列与标签向量的相似度，得到对应的序列向量。具体的，第一注意力处理可以包括，对于输入向量序列X中的每个向量元素x_i，根据该向量元素x_i与步骤21获取的K个标签向量之间的相似度，确定该向量元素x_i对应的第一权重因子，并利用第一权重因子对输入向量序列中各个向量元素加权求和，得到输入向量序列X对应的第一序列向量V1(X)。

在一个具体实施例中，确定向量元素x_i对应的第一权重因子可以通过以下方式执行。

首先，计算该向量元素x_i与各个标签向量l_j之间的相似度a_ij，其中j为从1到K，于是得到K个相似度。

在一个例子中，向量元素x_i与标签向量l_j之间的相似度a_ij可以通过余弦相似度计算，如以下公式(1)所示：

其中，

表示x_i的转置，||x_i||表示x_i的范数，或者向量长度，||l_j||表示l_j的范数。

在另一例子中，向量元素x_i与标签向量l_j之间的相似度a_ij还可以基于两者之间的欧式距离而确定，距离越大，相似度越小。在又一例子中，该相似度a_ij还可以直接确定为，该向量元素x_i与标签向量l_j的点乘(内积)结果

在更多例子中，相似度还可以通过其他方式确定。

然后，对于确定出的向量元素x_i与K个标签向量之间的K个相似度，可以确定出其中的最大值，并基于该最大值确定该向量元素x_i对应的第一权重因子

此处应该理解，作为分类的目标，K个类别的内容之间存在较大差异，相应的，对应的K个标签向量在相应的向量空间中通常彼此距离较远。只要向量元素x_i与任意一个标签向量l_j相似度较高，就说明该向量元素对应的词或文本片段，与对应的类别j之间有可能存在较大关联，因此，应给予该向量元素x_i更多的关注或注意力(attention)，为其赋予较高的权重。因此，在上述步骤中，根据相似度的最大值，确定向量元素的第一权重因子。

在一个实施例中，直接将K个相似度中的最大值作为该向量元素x_i对应的第一权重因子

在另一实施例中，将向量元素x_i对应的K个相似度中的最大值确定为该向量元素x_i的互注意力分数a_i，并且类似的，得到输入向量序列中各个向量元素各自对应的各个互注意力分数。然后，根据各个向量元素对应的各个互注意力分数，对该向量元素x_i的互注意力分数a_i进行归一化处理，得到该向量元素对应的第一权重因子

在一个具体例子中，上述归一化处理通过softmax函数实现，如以下公式(2)所示：

在确定出输入向量序列X中各个向量元素对应的第一权重因子的基础上，第一注意力模块就可以基于第一权重因子，对各个向量元素加权求和，得到输入向量序列X的第一序列向量V1(X),即：

图4示出在一个实施例中对输入向量序列进行第一注意力处理的示意图。如图4所示，以输入向量序列中N个向量元素作为行，以K个标签向量作为列，分别计算各个向量元素x_i与各个标签向量l_j之间的相似度，如此可以形成一个N*K维的相似度矩阵，称为标签注意力矩阵。对该标签注意力矩阵进行最大池化操作，也就是选取每个向量元素对应的一列中的最大值，得到各个向量元素的互注意力分数，然后基于互注意力分数得到其权重因子，基于权重因子对各个向量元素加权求和，得到输入向量序列的第一序列向量表示V1。

通过对前述向量集合中各个向量序列X分别进行上述第一处理力处理，可以分别得到各自对应的第一序列向量。具体的，词向量序列X^W得到对应的第一序列向量V1(X^W)，若干片段向量序列X^S得到对应的若干第一序列向量V1(X^S)。

于是，在步骤25中，根据以上各个向量序列对应的各个第一序列向量，得到输入文本的第一注意力表示S_label。具体的，可以对各个第一序列向量，包括V1(X^W)和若干V1(X^S)，进行综合，综合方式可以包括，求和，加权求和，求平均，等等，如此得到第一注意力表示S_label。

然后，在步骤26中，至少根据上述第一注意力表示S_label，确定输入文本的表征向量S。在一个例子中，可以将第一注意力表示作为表征向量S。

接着，在步骤27，将表征向量S输入分类器14，通过分类器的运算，得到输入文本在K个类别中的类别预测结果。

通过以上过程可以看到，利用卷积层和第一注意力模块，表征向量中综合了不同长度的文本片段的语义信息以及与标签向量的相似度信息，由此使得基于表征向量进行文本分类时，更多地考虑到不同长度的上下文语义信息和与标签描述文本的相关度信息，从而得到更准确的类别预测结果。

根据一种实施方式，如图1中虚线框所示，卷积层13还可以包括第二注意力模块132和/或第三注意力模块133。下面描述第二注意力模块和第三注意力模块的处理过程。

如前所述，第二注意力模块132又称为内注意力(intra-attention)模块，用于根据输入向量序列中每个向量元素与其他向量元素之间的相似度，对各个向量元素进行综合。

具体而言，当将向量序列X输入该第二注意力模块132，该模块132对输入向量序列X执行第二注意力处理，又称为内注意力处理，该内注意力处理具体包括，对于输入向量序列X中的每个向量元素x_i，根据该向量元素与输入向量序列X中各个其他向量元素x_j之间的相似度，确定该向量元素x_i对应的第二权重因子，并利用第二权重因子对输入序列中各个向量元素加权求和，得到输入向量序列X对应的第二序列向量V2(X)。

在一个具体实施例中，确定向量元素x_i对应的第二权重因子可以通过以下方式执行。

首先，计算该向量元素x_i与各个其他向量元素x_j之间的各个相似度a_ij。其中相似度的计算可以采用余弦相似度，或者基于向量距离，向量点乘结果等其他方式而确定，此处不再赘述。

然后，基于以上各个相似度的平均值，确定该向量元素x_i对应的第二权重因子

此处应理解，第二权重因子旨在衡量，某个向量元素与整个向量序列的总体语义的相关度。如果某个向量元素x_i与序列中其他向量元素的相似度都比较高，则说明该向量元素对应的词或文本片段，与整个序列的核心语义存在较大关联，因此，应给予该向量元素x_i更多的关注或注意力，为其赋予较高的权重。并且，在实际计算时，为了计算的方便，会针对每个向量元素x_i计算出它与序列中N个向量元素的N个相似度，其中包括当j＝i时，得到的该向量元素x_i与自身的相似度，而该自身相似度是对应于相似度最大值的一个常量。因此，在确定第二权重因子时，优选依据各个相似度的平均值，而不是最大值来确定。

在一个实施例中，直接将上述相似度的均值作为该向量元素x_i对应的第二权重因子

在另一实施例中，将向量元素x_i对应的相似度均值确定为该向量元素x_i的内注意力分数a_i，然后基于各个向量元素的内注意力分数，例如通过softmax函数进行归一化处理，得到该向量元素x_i对应的第二权重因子

在确定出输入向量序列X中各个向量元素对应的第二权重因子的基础上，第二注意力模块就可以基于第二权重因子，对各个向量元素加权求和，得到输入向量序列X的第二序列向量V2(X),即：

图5示出在一个实施例中对输入向量序列进行第二注意力处理的示意图。如图5所示，将输入向量序列中的N个向量元素分别排布为行和列，分别计算两两向量元素x_i与x_j之间的相似度，如此可以形成一个N*N维的相似度矩阵，称为内注意力矩阵。对该内注意力矩阵进行平均池化操作，也就是计算每个向量元素对应的一列相似度值的平均值，得到各个向量元素的内注意力分数，然后基于内注意力分数得到其权重因子，基于权重因子对各个向量元素加权求和，得到输入向量序列的第二序列向量表示V2。

可以将前述向量集合中各个向量序列X分别输入到第二注意力模块132进行上述内处理力处理，从而分别得到各自对应的第二序列向量V2(X)，包括词向量序列X^W对应的V2(X^W)，若干片段向量序列X^S对应的若干第二序列向量V2(X^S)。

接着，可以对以上各个向量序列对应的各个第二序列向量V2(X)进行综合，得到输入文本的第二注意力表示S_intra。

如此，在注意力层包括第一注意力模块131和第二注意力模块132的情况下，图2中确定表征向量S的步骤26可以包括，基于第一注意力表示S_label和第二注意力表示S_intra，确定表征向量S。具体可以通过多种方式，例如求和，加权求和，求均值等，对第一注意力表示S_label和第二注意力表示S_intra进行综合，得到表征向量S。

根据一种实施方式，注意力层13还可以包括第三注意力模块133。第三注意力模块133可称为自注意力(self attention)模块，用于进行自注意力处理，即根据输入向量序列中各个向量元素与注意力向量的相似度，对各个向量元素进行综合。

具体地，自注意力模块133中维护一个注意力向量v，该向量与词嵌入得到的向量维度相同，均为h维。该注意力向量v包含的参数可以通过训练而确定。

此外，不同于第一/第二注意力模块那样对前述向量序列集合中各个向量序列分别进行处理，第三注意力模块133是对基于向量序列集合中各个向量序列所形成的一个总序列X’进行处理。在一个实施例中，上述总序列X’可以是将前述向量序列集合中各个向量序列依次拼接在一起，所形成的序列，即X’＝X^WX^S1X^S2…。

于是，第三注意力模块133对该总序列X’进行第三注意力处理，即自注意力处理，具体包括，对于总序列X’中的每个向量元素x_i，根据该向量元素x_i与注意力向量v之间的相似度，确定该向量元素对应的第三权重因子，并利用所述第三权重因子对所述总序列中各个向量元素加权求和，得到输入文本的第三注意力表示。

在一个具体实施例中，确定向量元素x_i对应的第三权重因子可以通过以下方式执行。

首先，计算该向量元素x_i与注意力向量v之间的相似度a_i，作为其自注意力分数。其中，相似度的计算可以采用余弦相似度，或者基于向量距离，向量点乘结果等其他方式而确定，此处不再赘述。

然后，基于以上自注意力分数，确定该向量元素x_i对应的第三权重因子

在一个实施例中，直接将上述自注意力分数作为该向量元素x_i对应的第三权重因子

在另一实施例中，基于各个向量元素的自注意力分数，通过归一化处理，得到该向量元素x_i对应的第三权重因子

在一个具体例子中，向量元素x_i与注意力向量v的相似度采用向量点乘计算，归一化采用softmax函数，如此可以得到以下的第三权重因子：

其中，v^T为注意力向量v的转置，M为总序列X’中包含的向量元素的数目。

在确定出总序列X’中各个向量元素对应的第三权重因子的基础上，第三注意力模块就可以基于第三权重因子，对各个向量元素加权求和。由于总序列已经包含了各个向量序列的信息，因此对总序列进行处理的结果直接可以作为输入文本的第三注意力表示S_self,即：

以上第三注意力模块133对各个向量序列拼接在一起所形成的总序列X’进行自注意力处理，得到第三注意力表示。

进一步的，在一个实施例中，还可以对各个向量序列进行融合转换，得到对应的融合序列，并将融合序列与各个向量序列相拼接，形成更全面的总序列X’。

在该实施例中，注意力层13还包括融合模块，用于对输入向量序列X进行融合转换处理，转换为对应的融合序列Q。该融合转换处理具体可以包括，对于输入向量序列X中的每个向量元素x_i，根据该向量元素x_i与前述K个标签向量中各个标签向量l_j之间的相似度，确定与各个标签向量l_j对应的标签权重因子，并基于所述标签权重因子将该向量元素x_i转换为K个标签向量加权求和的融合向量q_i，从而将输入向量序列X转换为对应的融合序列Q。

在一个具体实施例中，将向量元素x_i对应转换为融合向量q_i的过程可以通过以下方式执行。

首先，计算该向量元素x_i与各个标签向量l_j之间的相似度a_ij，其中j为从1到K。相似度的计算方式可以通过例如公式(1)的方式实现，也可以基于向量距离，点乘运算等方式确定，不再赘述。

然后，根据该向量元素x_i与各个标签向量l_j之间的相似度a_ij，确定与各个标签向量l_j对应的标签权重因子β_j。

在一个例子中，直接将相似度a_ij作为标签向量l_j对应的标签权重因子β_j。在另一实施例中，还根据向量元素x_i与各个标签向量的各个相似度，对相似度a_ij进行归一化，作为标签向量l_j对应的标签权重因子β_j。例如，可以通过以下公式确定标签权重因子：

在确定出针对向量元素x_i，各个标签向量l_j的标签权重因子β_j的基础上，就可以基于标签权重因子对各个标签向量加权求和，从而将向量元素x_i转换为融合向量q_i：

图6示出在一个实施例中对输入向量序列进行融合转换处理的示意图。如图6所示，以输入向量序列X中N个向量元素作为列，以K个标签向量作为行，分别计算各个向量元素x_i与各个标签向量l_j之间的相似度，如此可以形成一个相似度矩阵。对于每个向量元素x_i，基于相似度矩阵中该向量元素对应的行中的各个相似度，确定各个标签向量对应的标签权重因子，基于标签权重因子对各个标签向量加权求和，得到该向量元素x_i对应的融合向量q_i。

可以理解，通过对输入向量序列X中各个向量元素x_i分别转换为对应的融合向量q_i，可以将向量序列X转换为融合序列Q。进一步地，通过分别将前述向量序列集合中各个向量序列输入所述融合模块，可以得到各自对应的融合序列，例如词向量序列X^W对应的融合序列Q^W，片段向量序列X^S对应的融合序列Q^S。

在一个实施例中，可以将原始的各个向量序列(X^WX^S1X^S2…)和如上得到的各个融合序列(Q^WQ^S1Q^S2…)进行拼接，得到所述总序列X’。然后利用第三注意力模块133处理该总序列X’，得到第三注意力表示S_self。

可以理解，在注意力层包括第一注意力模块131和第三注意力模块133的情况下，图2中确定表征向量S的步骤26可以包括，基于第一注意力表示S_label和第三注意力表示S_self，确定表征向量S。具体可以通过多种方式，对第一注意力表示S_label和第三注意力表示S_self进行综合，得到表征向量S。

在注意力层包括第一注意力模块131，第二注意力模块132和第三注意力133三者的情况下，图2中确定表征向量S的步骤26可以包括，基于第一注意力表示S_label，第二注意力表示S_intra和第三注意力表示S_self，确定表征向量S。具体地，可以基于预先确定的权重系数，对第一注意力表示，第二注意力表示和第三注意力表示加权求和，得到表征向量S，如以下公式所示：

S＝ω₁S_label+ω₂S_intra+ω₃S_self (9)

其中，ω₁，ω₂，ω₃为权重系数，可以是预先设定的超参数。

图7示出在一个实施例中注意力层的注意力处理示意图。该示意图示出注意力层包含第一，第二和第三注意力模块的情况下，各个注意力模块的输入和输出。

如图所示，第一注意力模块的输入包括，由词向量序列X^W和片段向量序列X^S构成的向量序列集合，以及K个标签向量。对于向量序列集合中的每个向量序列X，第一注意力模块根据其中向量元素与K个标签向量的相似度，得到该向量序列的第一序列向量。通过对各个第一序列向量综合，可以得到输入文本的第一注意力表示S_label。

第二注意力模块的输入包括，前述向量序列集合。对于该集合中的每个向量序列X，第二注意力模块根据各个向量元素之间的相似度，得到该向量序列的第二序列向量。通过对各个第二序列向量综合，可以得到输入文本的第二注意力表示S_intra。

融合模块的输入包括，前述向量序列集合以及K个标签向量。融合模块将向量序列集合中每个向量序列X通过融合转换处理，转换为融合向量Q。于是，输出与向量序列集合中各个向量序列对应的各个融合序列。

第三注意力模块的输入为，前述向量序列集合中各个向量序列，以及各个融合序列综合形成的总序列。第三注意力模块针对该总序列进行自注意力处理，得到输入文本的第三注意力表示S_self。

输入文本的最终表征向量可以基于第一，第二和第三注意力模块的输出而综合得到。

以上在图1和图2的基础上，分别描述了，在注意力层包括第一注意力模块的情况下，以及在注意力层还包括第二注意力模块和/或第三注意力模块的情况下，对输入文本的分类预测过程。需要理解的是，该分类预测过程既适用于文本分类模型的训练阶段，也适用于模型训练完成后的使用阶段。

在文本分类模型的训练阶段，输入到模型的输入文本为训练文本，该训练文本对应具有指示其真实类别的类别标签y。针对训练阶段，在基于图2的方法步骤得到该训练文本的类别预测结果y’之后，还需要基于上述类别预测结果对模型进行训练，该训练过程如图8所示。

具体的，图8示出模型训练阶段进一步包含的方法步骤。如图8所示，在步骤81，根据针对训练文本的类别预测结果y’和该训练文本的类别标签y，得到文本预测损失L_text。

可以理解，类别预测结果y’是由分类器14采用预定的分类函数，对输入文本的表征向量S进行运算而得到。因此，类别预测结果可以表示为：

y′＝f_c(S) (10)

其中，f_c为分类函数。一般地，类别预测结果y’包括，所预测的当前训练文本分别属于预定的K个类别的概率。于是，可以通过交叉熵形式的损失函数，基于类别预测结果y’指示的概率分布和类别标签y指示的真实分类，得到文本预测损失L_text。在其他实施例中，也可以采取已知的其他损失函数形式，得到该文本预测损失L_text。

在步骤82，至少根据上述文本预测损失L_text，确定总预测损失L。在一个例子中，将文本预测损失确定为总预测损失L。

接着在步骤83，在使得总预测损失L减小的方向，更新文本分类模型。具体的，可以利用梯度下降，反向传播等方式，调整文本分类模型中的模型参数，使得总预测损失L减小，直到达到预定的收敛条件，从而实现模型的训练。

进一步的，在一个实施例，在计算总预测损失时，再一次利用前述的K个标签向量。具体的，可以将K个类别对应的K个标签向量l_j(j从1到K)分别输入到分类器14，使得分类器14基于输入的标签向量进行分类预测，得到对应的K个标签预测结果,其中与标签向量l_j对应的标签预测结果y″_j可以表示为：

y″_j＝f_c(l_j) (11)

然后，分别比较K个类别与其对应的标签预测结果，基于比较结果得到标签预测损失L_label。具体地，可以针对每个类别，采用交叉熵损失函数，得到该类别下的标签预测损失，然后对各个类别的标签预测损失求和，得到总的标签预测损失L_label。

在利用标签向量得到标签预测损失的情况下，图8中确定总损失的步骤82可以包括，根据文本预测损失L_text和标签预测损失L_label，确定总损失L。具体地，在一个实施例中，可以将总损失L确定为：

L＝L_text+γL_label (12)

其中，γ为超参数。

通过在总损失中引入基于标签向量确定的标签预测损失，可以更有针对性地分类器进行更好的训练。

在利用大量训练文本实现对文本分类模型的训练之后，就可以利用该文本分类模型，对类别未知的输入文本进行分类预测。如前所述，由于分类预测模型融合了不同长度文本片段级别的语义信息以及标签描述文本的语义信息，从而可以以更高的准确度实现文本的分类预测。

根据另一方面的实施例，提供了一种利用文本分类模型进行分类预测的装置，该装置用于在预定的K个类别中预测输入文本对应的类别，所利用的文本分类模型包括嵌入层，卷积层，注意力层和分类器，注意力层进一步包括第一注意力模块，如图1所示。上述分类预测的装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。图9示出根据一个实施例的文本分类预测装置的示意性框图。如图9所示，该预测装置900包括：

标签向量获取单元901，配置为获取所述K个类别分别对应的K个标签向量，其中，每个标签向量通过对相应类别的标签描述文本进行词嵌入而得到；

词序列获取单元902，配置为利用所述嵌入层，对输入文本进行词嵌入，得到词向量序列；

片段序列获取单元903，配置为将所述词向量序列输入所述卷积层，所述卷积层利用与若干不同长度的文本片段相对应的若干卷积窗口，对所述词向量序列进行卷积处理，得到若干片段向量序列；所述词向量序列和若干片段向量序列构成向量序列集合；

第一注意力单元904，配置为分别将所述向量序列集合中的各个向量序列输入所述第一注意力模块，以进行第一注意力处理，得到各个向量序列对应的各个第一序列向量；其中，所述第一注意力处理包括，根据输入向量序列中各个向量元素与所述K个标签向量之间的相似度，确定各个向量元素分别对应的第一权重因子，并利用所述第一权重因子对各个向量元素加权求和；

第一表示获取单元905，配置为根据所述各个第一序列向量，得到所述输入文本的第一注意力表示；

表征向量确定单元906，配置为至少根据所述第一注意力表示，确定所述输入文本的表征向量；

预测结果获取单元907，配置为将所述表征向量输入所述分类器，得到所述输入文本在所述K个类别中的类别预测结果。

在一个实施例中，输入文本为用户问题；相应的，所述K个类别中各个类别对应的标签描述文本包括，标准问题描述文本。

在一个例子中，标签向量获取单元91配置为，通过以下方式预先确定所述K个标签向量：对所述K个类别中的每个类别，获取该类别对应的标签描述文本；对所述标签描述文本进行词嵌入，得到该标签描述文本中包含的各个描述词的词向量；对所述各个描述词的词向量进行综合，得到该类别对应的标签向量。

根据一个实施例，所述第一注意力单元94涉及的第一注意力处理中，通过以下方式确定各个向量元素对应的第一权重因子：对于输入向量序列中每个向量元素，计算该向量元素与所述K个标签向量之间的K个相似度；基于所述K个相似度中的最大值，确定该向量元素对应的第一权重因子。

进一步的，可以通过以下方式计算该向量元素与所述K个标签向量之间的K个相似度：计算该向量元素与各个标签向量之间的余弦相似度；或者，基于该向量元素与各个标签向量之间的欧式距离，确定其相似度；或者，基于该向量元素与各个标签向量的点乘结果，确定其相似度。

在一个示例中，基于所述K个相似度中的最大值，确定该向量元素对应的第一权重因子，可以包括：基于所述K个相似度中的最大值，确定该向量元素的互注意力分数；根据所述各个向量元素对应的各个互注意力分数，对该向量元素的互注意力分数进行归一化处理，得到该向量元素对应的第一权重因子。

7.根据权利要求1所述的方法，其中，根据所述各个第一序列向量，得到所述输入文本的第一注意力表示，包括：

根据一个实施例，通过对所述各个第一序列向量进行综合，得到所述第一注意力表示，所述综合包括以下之一：求和，加权求和，求平均。

根据一种实施方式，文本分类模型的注意力层还包括第二注意力模块。相应地，所述装置900还包括(图中未示出)第二注意力单元和第二表示获取单元，其中：

第二注意力单元配置为，分别将所述向量序列集合中的各个向量序列输入所述第二注意力模块，以进行第二注意力处理，得到各个向量序列对应的各个第二序列向量；其中，所述第二注意力处理包括，对于输入向量序列中的每个向量元素，根据该向量元素与所述输入向量序列中各个其他向量元素之间的相似度，确定该向量元素对应的第二权重因子，并利用所述第二权重因子对输入序列中各个向量元素加权求和；

第二表示获取单元配置为，根据所述各个第二序列向量，得到所述输入文本的第二注意力表示。

在这样的情况下，图9中的表征向量确定单元906配置为，根据所述第一注意力表示和所述第二注意力表示，确定所述表征向量。

更具体的，第二注意力单元涉及的第二注意力处理中，可以通过以下方式确定向量元素对应的第二权重因子：计算该向量元素与所述各个其他向量元素之间的各个相似度；基于所述各个相似度的平均值，确定该向量元素对应的第二权重因子。

根据另一种实施方式，注意力层还包括第三注意力模块，其中维护注意力向量。相应地，所述装置900还包括(图中未示出)总序列形成单元和第三注意力单元，其中，

总序列形成单元配置为，至少基于所述向量序列集合中各个向量序列的拼接，形成总序列；

第三注意力单元配置为，利用所述第三注意力模块，对所述总序列进行第三注意力处理，所述第三注意力处理包括，对于所述总序列中的每个向量元素，根据该向量元素与所述注意力向量之间的相似度，确定该向量元素对应的第三权重因子，并利用所述第三权重因子对所述总序列中各个向量元素加权求和，得到所述输入文本的第三注意力表示。

在注意力层包括第一注意力模块和第三注意力模块的情况下，前述表征向量确定单元906配置为，根据所述第一注意力表示和所述第三注意力表示，确定所述表征向量。

在注意力层包括第一注意力模块、第二注意力模块和第三注意力模块的情况下，前述表征向量确定单元906配置为，根据所述第一注意力表示，第二注意力表示和所述第三注意力表示，确定所述表征向量。

具体的，在一个例子中，表征向量确定单元906可以基于预先确定的权重系数，对所述第一注意力表示，所述第二注意力表示和第三注意力表示加权求和，得到所述表征向量。

在一个实施例中，注意力层还包括融合模块。相应地，装置900还包括融合单元(未示出)，配置为，分别将所述向量序列集合中的各个向量序列输入所述融合模块进行融合转换处理，得到各个向量序列对应的各个融合序列，其中所述融合转换处理包括，对于输入向量序列中的每个向量元素，根据该向量元素与所述K个标签向量中各个标签向量之间的相似度，确定与各个标签向量对应的标签权重因子，并基于所述标签权重因子将该向量元素转换为所述K个标签向量加权求和的融合向量，从而将输入向量序列转换为对应的融合序列。

在这样的情况下，所述总序列形成单元可以配置为，将所述各个向量序列和所述各个融合序列进行拼接，得到所述总序列。

在一个实施例中，所述输入文本为训练文本，所述训练文本对应具有指示其真实类别的类别标签；所述装置900还包括训练单元(未示出)，配置为，根据所述类别预测结果和所述类别标签，得到文本预测损失；至少根据所述文本预测损失，确定总预测损失；在使得所述总预测损失减小的方向，更新所述文本分类模型。

在一个进一步的实施例中，训练单元还配置为：将所述K个类别对应的K个标签向量分别输入所述分类器，得到对应的K个预测结果；分别比较所述K个类别与其对应的预测结果，基于比较结果得到标签预测损失；根据所述文本预测损失和所述标签预测损失，确定所述总损失。

如此，通过以上装置，利用文本分类模型，实现对输入文本的准确分类。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种利用文本分类模型进行分类预测的方法，用于在预定的K个类别中预测输入文本对应的类别；所述文本分类模型包括嵌入层，卷积层，注意力层和分类器，所述注意力层包括第一注意力模块，所述方法包括：

2.根据权利要求1所述的方法，其中，所述输入文本为用户问题；所述K个类别中各个类别对应的标签描述文本包括，标准问题描述文本。

3.根据权利要求1或2所述的方法，其中，所述K个标签向量通过以下方式预先确定：

对所述K个类别中的每个类别，获取该类别对应的标签描述文本；

对所述标签描述文本进行词嵌入，得到该标签描述文本中包含的各个描述词的词向量；

对所述各个描述词的词向量进行综合，得到该类别对应的标签向量。

4.根据权利要求1所述的方法，其中，根据输入向量序列中各个向量元素与所述K个标签向量之间的相似度，确定各个向量元素对应的第一权重因子，包括：

对于输入向量序列中每个向量元素，计算该向量元素与所述K个标签向量之间的K个相似度；

基于所述K个相似度中的最大值，确定该向量元素对应的第一权重因子。

5.根据权利要求4所述的方法，其中，计算该向量元素与所述K个标签向量之间的K个相似度，包括：

计算该向量元素与各个标签向量之间的余弦相似度；或者，

基于该向量元素与各个标签向量之间的欧式距离，确定其相似度；或者，

基于该向量元素与各个标签向量的点乘结果，确定其相似度。

6.根据权利要求4所述的方法，其中，基于所述K个相似度中的最大值，确定该向量元素对应的第一权重因子，包括：

基于所述K个相似度中的最大值，确定该向量元素的互注意力分数；

根据所述各个向量元素对应的各个互注意力分数，对该向量元素的互注意力分数进行归一化处理，得到该向量元素对应的第一权重因子。

对所述各个第一序列向量进行综合，得到所述第一注意力表示，所述综合包括以下之一：求和，加权求和，求平均。

8.根据权利要求1所述的方法，其中，所述注意力层还包括第二注意力模块；所述方法还包括，

分别将所述向量序列集合中的各个向量序列输入所述第二注意力模块，以进行第二注意力处理，得到各个向量序列对应的各个第二序列向量；其中，所述第二注意力处理包括，对于输入向量序列中的每个向量元素，根据该向量元素与所述输入向量序列中各个其他向量元素之间的相似度，确定该向量元素对应的第二权重因子，并利用所述第二权重因子对输入序列中各个向量元素加权求和；

根据所述各个第二序列向量，得到所述输入文本的第二注意力表示；

所述至少根据所述第一注意力表示，确定所述输入文本的表征向量，包括，根据所述第一注意力表示和所述第二注意力表示，确定所述表征向量。

9.根据权利要求8所述的方法，其中，根据该向量元素与所述输入向量序列中各个其他向量元素之间的相似度，确定该向量元素对应的第二权重因子，包括：

计算该向量元素与所述各个其他向量元素之间的各个相似度；

基于所述各个相似度的平均值，确定该向量元素对应的第二权重因子。

10.根据权利要求1所述的方法，其中，所述注意力层还包括第三注意力模块，其中维护注意力向量；所述方法还包括，

利用所述第三注意力模块，对所述总序列进行第三注意力处理，所述第三注意力处理包括，对于所述总序列中的每个向量元素，根据该向量元素与所述注意力向量之间的相似度，确定该向量元素对应的第三权重因子，并利用所述第三权重因子对所述总序列中各个向量元素加权求和，得到所述输入文本的第三注意力表示；

所述至少根据所述第一注意力表示，确定所述输入文本的表征向量，包括，根据所述第一注意力表示和所述第三注意力表示，确定所述表征向量。

11.根据权利要求8所述的方法，其中，所述注意力层还包括第三注意力模块，其中维护注意力向量；所述方法还包括，

所述至少根据所述第一注意力表示，确定所述输入文本的表征向量，包括，根据所述第一注意力表示，所述第二注意力表示和所述第三注意力表示，确定所述表征向量。

12.根据权利要求10或11所述的方法，其中，所述注意力层还包括融合模块；在所述形成总序列之前，所述方法还包括：

分别将所述向量序列集合中的各个向量序列输入所述融合模块进行融合转换处理，得到各个向量序列对应的各个融合序列，其中所述融合转换处理包括，对于输入向量序列中的每个向量元素，根据该向量元素与所述K个标签向量中各个标签向量之间的相似度，确定与各个标签向量对应的标签权重因子，并基于所述标签权重因子将该向量元素转换为所述K个标签向量加权求和的融合向量，从而将输入向量序列转换为对应的融合序列；

所述形成总序列包括，将所述各个向量序列和所述各个融合序列进行拼接，得到所述总序列。

13.根据权利要求11所述的方法，其中，确定所述表征向量包括：

基于预先确定的权重系数，对所述第一注意力表示，所述第二注意力表示和第三注意力表示加权求和，得到所述表征向量。

14.根据权利要求1所述的方法，其中，所述输入文本为训练文本，所述训练文本对应具有指示其真实类别的类别标签；所述方法还包括：

根据所述类别预测结果和所述类别标签，得到文本预测损失；

至少根据所述文本预测损失，确定总预测损失；

在使得所述总预测损失减小的方向，更新所述文本分类模型。

15.根据权利要求14所述的方法，还包括：

将所述K个类别对应的K个标签向量分别输入所述分类器，得到对应的K个预测结果；

分别比较所述K个类别与其对应的预测结果，基于比较结果得到标签预测损失；

所述确定总损失包括，根据所述文本预测损失和所述标签预测损失，确定总损失。

16.一种利用文本分类模型进行分类预测的装置，用于在预定的K个类别中预测输入文本对应的类别；所述文本分类模型包括嵌入层，卷积层，注意力层和分类器，所述注意力层包括第一注意力模块，所述装置包括：

17.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-15中任一项的所述的方法。

18.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-15中任一项所述的方法。