CN111178458B

CN111178458B - 分类模型的训练、对象分类方法及装置

Info

Publication number: CN111178458B
Application number: CN202010276683.9A
Authority: CN
Inventors: 曹绍升
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-08-14
Anticipated expiration: 2040-04-10
Also published as: WO2021204269A1; CN111178458A

Abstract

本说明书实施例提供一种分类模型的训练、对象分类方法及装置，在训练方法中，获取带分类标签的样本。在嵌入层中，确定样本的特征向量以及分类标签的标签向量。在卷积层中，基于若干不同宽度的卷积窗口，对样本的特征向量进行多次卷积处理，得到多个卷积结果。在池化层中，计算各卷积结果与分类标签的标签向量之间的相似度，并基于计算得到的相似度，确定对应于各卷积结果的注意力权重值。基于对应于各卷积结果的注意力权重值，对各卷积结果进行加权平均池化操作，得到池化结果。将池化结果作为样本的样本表示向量，并至少基于样本表示向量以及分类标签的标签向量，确定预测损失。基于预测损失，调整分类模型的参数。

Description

分类模型的训练、对象分类方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及一种分类模型的训练、对象分类方法及装置。

背景技术

对象分类是指通过预先训练的分类模型，预测待分类对象属于特定分类体系下各个特定类别中哪个类别。这里的分类模型例如可以为卷积神经网络等，该卷积神经网络可以包括卷积层和池化层等。

以分类模型为卷积神经网络为例来说，在传统的模型训练方法中，在卷积层，会通过卷积操作从样本中提取局部特征。在池化层，会通过最大池化或者平均池化操作从局部特征中提取全局特征。然而，由于最大池化会加强样本的局部特征，但这部分特征可能并非是与对象分类相关的重要信息。此外，平均池化会冲淡有效特征。因此，基于传统的训练方法往往不能从样本中提取到有效的全局特征，进而会影响所训练得到的分类模型的精度。

有鉴于此，希望能有改进的方案，可以提升分类模型的精度，进而可以实现对象的有效分类。

发明内容

本说明书一个或多个实施例描述了一种分类模型的训练、对象分类方法及装置，可以提升模型精度，进而可以实现对象的有效分类。

第一方面，提供了一种分类模型的训练方法，包括：

获取带分类标签的样本；

在所述嵌入层中，确定所述样本的特征向量以及所述分类标签的标签向量；

在所述卷积层中，基于若干不同宽度的卷积窗口，对所述样本的特征向量进行多次卷积处理，得到多个卷积结果；

在所述池化层中，计算所述多个卷积结果中各卷积结果与所述分类标签的标签向量之间的相似度；并基于计算得到的相似度，确定对应于所述各卷积结果的注意力权重值；基于对应于所述各卷积结果的注意力权重值，对所述各卷积结果进行加权平均池化操作，得到池化结果；

将所述池化结果作为所述样本的样本表示向量，并至少基于所述样本表示向量以及所述分类标签的标签向量，确定预测损失；

基于所述预测损失，调整所述分类模型的参数。

第二方面，提供了一种对象分类方法，包括：

获取待分类对象以及若干预定类别；

将所述若干预定类别中的每个类别依次作为当前类别，基于当前类别进行相似度计算，所述相似度计算包括：

在所述嵌入层中，确定所述待分类对象的初始表示向量以及所述当前类别的类别向量；

在所述卷积层中，基于若干不同宽度的卷积窗口，对所述初始表示向量进行多次卷积处理，得到多个卷积结果；

在所述池化层中，计算所述多个卷积结果中各卷积结果与所述当前类别的类别向量之间的相似度；并基于计算得到的相似度，确定对应于所述各卷积结果的注意力权重值；基于对应于所述各卷积结果的注意力权重值，对所述各卷积结果进行加权平均池化操作，得到池化结果；

将所述池化结果作为所述待分类对象的最终表示向量，并计算所述最终表示向量与所述当前类别的类别向量之间的相似度；

在基于所述若干预定类别中的每个类别进行所述相似度计算之后，基于计算得到的多个相似度，从所述若干预定类别中确定出所述待分类对象所属的目标类别。

第三方面，提供了一种分类模型的训练装置，包括：

获取单元，用于获取带分类标签的样本；

确定单元，用于在所述嵌入层中，确定所述获取单元获取的所述样本的特征向量以及所述分类标签的标签向量；

卷积单元，用于在所述卷积层中，基于若干不同宽度的卷积窗口，对所述确定单元确定的所述样本的特征向量进行多次卷积处理，得到多个卷积结果；

池化单元，用于在所述池化层中，计算所述卷积单元得到的所述多个卷积结果中各卷积结果与所述分类标签的标签向量之间的相似度；并基于计算得到的相似度，确定对应于所述各卷积结果的注意力权重值；基于对应于所述各卷积结果的注意力权重值，对所述各卷积结果进行加权平均池化操作，得到池化结果；

所述确定单元，还用于将所述池化单元得到的所述池化结果作为所述样本的样本表示向量，并至少基于所述样本表示向量以及所述分类标签的标签向量，确定预测损失；

调整单元，用于基于所述确定单元确定的所述预测损失，调整所述分类模型的参数。

第四方面，提供了一种对象分类装置，包括：

获取单元，用于获取待分类对象以及若干预定类别；

计算单元，用于将所述获取单元获取的所述若干预定类别中的每个类别依次作为当前类别，基于当前类别进行相似度计算；

所述计算单元包括：

确定子单元，用于在所述嵌入层中，确定所述待分类对象的初始表示向量以及所述当前类别的类别向量；

卷积子单元，用于在所述卷积层中，基于若干不同宽度的卷积窗口，对所述初始表示向量进行多次卷积处理，得到多个卷积结果；

池化子单元，用于在所述池化层中，计算所述多个卷积结果中各卷积结果与所述当前类别的类别向量之间的相似度；并基于计算得到的相似度，确定对应于所述各卷积结果的注意力权重值；基于对应于所述各卷积结果的注意力权重值，对所述各卷积结果进行加权平均池化操作，得到池化结果；

获取子单元，用于将所述池化结果作为所述待分类对象的最终表示向量，并计算所述最终表示向量与所述当前类别的类别向量之间的相似度；

确定单元，用于在所述计算单元基于所述若干预定类别中的每个类别进行所述相似度计算之后，基于计算得到的多个相似度，从所述若干预定类别中确定出所述待分类对象所属的目标类别。

第五方面，提供了一种计算机存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或者第二方面的方法。

第六方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或者第二方面的方法。

本说明书一个或多个实施例提供的分类模型的训练方法，在池化层中，可以基于各卷积结果各自的注意力权重值，对各卷积结果进行加权平均池化。由于每个卷积结果的注意力权重值，基于其与分类标签的标签向量之间的相似度确定，从而本说明书提供的训练方法针对每个样本，可以通过相应的分类标签的引导，来确定各卷积结果（一个卷积结果对应于一个特征组合，如多个词）的重要度，并将该重要度作为各卷积结果的注意力权重值，进行加权平均池化，由此生成相应的样本表示向量，这可以大大提升所生成的样本表示向量的准确性。可以理解的是，在样本表示向量的准确性提高的前提下，基于其训练得到的分类模型可以更精确，进而可以实现对象的有效分类。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书一个实施例提供的分类模型的训练方法示意图；

图2 为本说明书提供的文本分类模型示意图；

图3为本说明书一个实施例提供的对象分类方法流程图；

图4为本说明书一个实施例提供的分类模型的训练装置示意图；

图5为本说明书一个实施例提供的对象分类装置示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

在描述本说明书提供的方案之前，先对本方案的发明构思作以下说明。

如前所述，在传统的分类模型的训练方法中，在池化层中，通过最大池化和平均池化操作，从通过卷积层得到的局部特征中提取全局特征。然而，由于最大池化会加强样本的局部特征，但这部分特征可能与标签的相关度并不高。此外，平均池化会冲淡有效特征。因此，基于传统的训练方法，往往不能训练得到有效的分类模型。

为此，本申请的申请人提出，在分类模型的训练过程中，引入基于注意力机制的池化方法。具体地，获取带分类标签的样本。在模型的嵌入层中，确定样本的特征向量以及分类标签的标签向量。在模型的卷积层中，基于若干不同宽度的卷积窗口，对样本的特征向量进行多次卷积处理，得到多个卷积结果。在模型的池化层中，对通过卷积层得到的各卷积结果赋予相应的注意力权重值。其中，每个卷积结果的注意力权重值基于该卷积结果与分类标签的标签向量之间的相似度确定。之后基于各卷积结果各自的注意力权重值，对各卷积结果进行加权平均池化操作，并将得到的池化结果作为样本的样本表示向量。最后，基于样本表示向量以及分类标签的标签向量，确定预测损失。基于预测损失，调整分类模型的参数。

也就是说，本说明书所述的分类模型包括：嵌入层、卷积层和池化层等。此外，在本说明书提供的分类模型的训练方法中，针对每个样本，会通过相应的分类标签的引导，确定样本中各部分特征的重要度，并基于此生成相应的样本表示向量，这可以大大提升所生成的样本表示向量的准确性。可以理解的是，在样本表示向量的准确性提高的前提下，基于其训练得到的分类模型可以更精确，进而可以实现对象的有效分类。

以上就是本说明书提供的发明构思，基于该发明构思就可以得到本方案，以下对本方案进行详细阐述。

图1为本说明书一个实施例提供的分类模型的训练方法流程图。所述方法的执行主体可以为具有处理能力的设备：服务器或者系统或者装置。如图1所示，所述方法具体可以包括：

步骤102，获取带分类标签的样本。

本说明书所述的分类模型可以用于进行业务处理。这里的业务处理可以包括但不限于基于图像识别的业务处理（如，人脸识别、目标检测等）、基于音频识别的业务处理（如，语音识别、声纹分析等）以及基于文本分析的业务处理（如，文本分类以及意图识别等）。

具体地，若上述业务处理为基于图像识别的业务处理，则上述获取的样本可以为图片，样本的分类标签可以为图片类别标签，训练得到的分类模型可以为图片分类模型。若上述业务处理为基于音频识别的业务处理，则上述获取的样本可以为音频，样本的分类标签可以为音频类别标签，训练得到的分类模型可以为音频分类模型。若上述业务处理为基于文本分析的业务处理，则上述获取的样本可以为文本，样本的分类标签可以为文本类别标签，训练得到的分类模型可以为文本分类模型。

此外，上述分类标签可以为预定标签集合中的任一分类标签。以分类模型所进行的业务处理为进行文本分析为例来说，预定标签集合可以包括如下两种分类标签：广告和非广告，那么上述分类标签可以为广告或者非广告。

应理解，上述针对预定标签集合的说明只是一种示例性说明，在实际应用中，在不同的分类场景下，预定标签集合中的分类标签的数目可以多于两个。比如，在针对微博内容进行主题信息分类（文本分析中的一种）的场景下，若预定义的主题信息多于两个，那么预定标签集合中的分类标签的数目则可以多于两个。

步骤104，在嵌入层中，确定样本的特征向量以及分类标签的标签向量。

具体地，可以是先确定样本中各样本特征的表示向量，之后基于各样本特征的表示向量，确定样本的特征向量。以样本为文本为例来说，上述样本特征可以是指文中的词。再以音频为例来说，上述样本特征可以是指语音片段。

在样本为文本时，对应的特征向量的确定过程可以为：假设所获取的文本包含n个词：x1、x2、…、xn，那么针对其中的每个词xi，可以随机初始化m维的向量，从而可以得到各个词对应的词向量：f1、f2、…、fn。也即，其中的每个fi均为m维的向量。这里的n和m为正整数，且1≤i≤n。之后，可以将各个词对应的词向量进行拼接，得到文本的特征向量。

当然，在实际应用中，也可以基于词向量化方法，来确定各个词对应的词向量。这里的词向量化方法包括以下任一种：Word2Vec以及Glove等。

在样本为音频时，可以基于该音频所包括的各语音片段对应的表示向量，得到该音频的特征向量。其中，各语音片段对应的表示向量的维度相同，如，均为m维。

需要说明的是，在嵌入层中，还可以将文本的分类标签初始化为N维的向量（以下称为标签向量，表示为：hy）。这里的N为正整数。之后，在模型训练过程，对其进行不断地调整。可以理解的是，在模型训练结束后，可以得到该分类标签的最优表示向量。

步骤106，在卷积层中，基于若干不同宽度的卷积窗口，对样本的特征向量进行多次卷积处理，得到多个卷积结果。

这里的若干不同宽度的卷积窗口例如可以为：conv3、conv4以及conv5等，其具体个数可以人为预先设定。以conv3为例来说，其对应的宽度为3个词或者3个语音片段的宽度。假设每个词或者每个语音片段均为m维的向量，那么其宽度可以表示为：3*m。

以上述若干不同宽度的卷积窗口中任意的第一窗口为例来说，其相应的卷积处理具体可以包括：对于该第一卷积窗口，基于第一卷积窗口的宽度，确定对应的卷积处理所选取的特征向量的维数。以第一卷积窗口为conv3为例来说，由于其宽度为3个词或者3个语音片段的宽度，从而可以确定对应的卷积处理所选取的特征向量的维数为3*m。基于确定的维数、第一卷积窗口的参数以及预定步长，对样本的特征向量进行卷积处理。这里的预定步长为一个词向量（或者一个语音片段对应的表示向量）的维数的整数倍，如，可以为m或者2m等。

需要说明的是，在实际应用中，基于某一宽度的卷积窗口的卷积处理可以是一个迭代过程。在一个例子中，迭代的终止条件也可以为迭代次数达到固定次数等，本说明书对此不作限定。

在一种实现方式中，上述基于第一卷积窗口的迭代过程具体可以包括：

从当前位置开始，在样本的特征向量中选取出上述维数个元素。对选取的上述维数个元素进行拼接，得到当前拼接向量。基于第一卷积窗口的参数，对当前拼接向量进行线性变换，得到线性变换结果。基于线性变换结果，确定多个卷积结果中的一个卷积结果。基于当前位置以及预定步长，确定下一位置，并将下一位置作为当前位置。

以样本为文本为例来说，假设文本的特征向量由词向量f1、f2、…、fn拼接得到，这里的任意的fi为m维的向量。在第一卷积窗口为conv3的情况下，若当前位置为词向量f_t的开始位置，1≤t≤n，那么可以从特征向量中选取出3*m个元素，也即可以选取出3个词的词向量，且分别为：f_t,f_t+1和f_t+2。在对选取的该3个词的词向量进行拼接后，可以得到当前拼接向量：[f_t;f_t+1;f_t+2]。之后，可以对当前拼接向量进行如公式1所示的线性变换。

（公式1）

其中，

和

均为conv3的窗口参数，h_t为多个卷积结果中的一个卷积结果。

应理解，在公式1中直接将针对当前拼接向量的线性变换结果作为卷积结果ht。在实际应用中，在基于第一卷积窗口的参数，对当前拼接向量进行线性变换之后，还可以采用激活函数，对线性变换结果进行非线性变换。之后，将非线性变换结果作为上述卷积结果ht。这里的激活函数可以包括但不限于tanh函数、relu函数以及sigmoid函数等。

在确定出卷积结果ht之后，可以基于当前位置：词向量f_t的开始位置和预定步长（假设为m），确定下一位置：词向量f_t+1的开始位置，并将该下一位置更新为当前位置。之后，基于更新后的当前位置重复执行上述迭代的步骤，直至满足迭代的终止条件。

可以理解的是，在基于第一卷积窗口的迭代过程结束之后，可以得到对应于第一卷积窗口的至少一个卷积结果。之后，可以基于下一卷积窗口执行相应的迭代过程；直至基于若干不同宽度的卷积窗口，均执行完成相应的迭代过程；至此，对应于卷积层的卷积处理全部完成。

在对应于卷积层的卷积处理全部完成之后，将对应于若干不同宽度的卷积窗口中每个卷积窗口的至少一个卷积结果排列起来，就可以得到上述多个卷积结果。在一个例子中，该多个卷积结果可以分别表示为：h1、h2、...、hk，其中的每个hi均为包含N个元素的向量。这里的i,k为正整数，且1≤i≤k。

需要说明的是，由于上述多个卷积结果均通过对样本中的若干连续排列的样本特征（如，3个、4个或5个词）进行卷积处理得到，从而其中的每个hi均可以看作是样本的局部信息。其中，不同宽度的卷积窗口的使用，可以更全面地捕获样本的局部信息。

可以理解的是，如下的池化层的处理可以理解为：从通过卷积层捕获的局部信息中确定出重要的局部信息，并对进行语义加强，以提升最终生成的样本表示向量的准确性，以下进行详细阐述。

步骤108，在池化层中，计算多个卷积结果中各卷积结果与分类标签的标签向量之间的相似度。并基于计算得到的相似度，确定对应于各卷积结果的注意力权重值。基于对应于各卷积结果的注意力权重值，对各卷积结果进行加权平均池化操作，得到池化结果。

在一个例子中，基于卷积层所得到的多个卷积结果h1-hk均为包含N个元素的向量。而由于前述提到标签向量hy也为N维向量，从而每个卷积结果hi与标签向量hy的维度相同。

在该例子中，上述计算多个卷积结果中各卷积结果与分类标签的标签向量之间的相似度的步骤可以包括：对于多个卷积结果中的每个卷积结果，至少计算该卷积结果与分类标签的标签向量之间的第一点积。至少计算卷积结果与预定标签集合中各分类标签的向量之间的第二点积，并对各第二点积进行求和，得到第一求和结果。基于第一点积与所述第二求和结果之比，确定该卷积结果与分类标签的标签向量之间的相似度。

需要说明的是，上述预定标签集合中各分类标签的向量可以均为N维向量，且各分类标签的向量可以是通过随机初始化得到，也可以是在模型训练过程中对初始向量调整得到。

在一种实现方式中，可以基于如下公式计算多个卷积结果中各卷积结果与分类标签的标签向量之间的相似度：

（公式2）

其中，h_t为第t个卷积结果，h_y为分类标签的标签向量，a_t为卷积结果h_t与标签向量h_y之间的相似度，其可以为一个[0,1]之间的实数值。Y为预定标签集合，h_y’为预定标签集合中某一分类标签的标签向量，g()为点积计算函数，其可以包括但不限于如下的定义方法：

（公式3）

其中，W_a为超参数，通过随机初始化，并通过反向梯度更新。

可以理解的是，当基于公式2计算卷积结果与分类标签的标签向量之间的相似度时，该卷积结果与标签向量的点积越大，该卷积结果与分类标签的相似度越大。而相似度越大，则说明该卷积结果所表示的局部信息越重要，从而可以对其进行语义加强。

在基于多个卷积结果h1-hk中的每个卷积结果，计算得到该卷积结果与分类标签的标签向量之间的相似度之后，可以将计算得到的相似度作为该卷积结果的注意力权重值。之后，基于该注意力权重值，来实现重要局部信息的语义加强，并进一步执行加权平均池化操作。

以下对基于对应于各卷积结果的注意力权重值，对各卷积结果进行加权平均池化操作的步骤进行说明。

在一种实现方式中，该步骤具体可以为：

对于各卷积结果中任意的第一卷积结果，将该第一卷积结果的注意力权重值作为其中的N个元素的注意力权重值。基于各卷积结果各自的N个元素的注意力权重值，依次对各卷积结果的相同位置的元素进行加权平均池化操作，得到池化结果。其中，这里的加权平均池化操作具体可以通过以下公式实现：

（公式4）

其中，

为卷积结果h_t的N个元素中的第j个元素，a_t为卷积结果h_t的注意力权重值，k为卷积结果的个数，

为池化结果中的第j个元素。

从上述公式可以得出，池化结果也为一个包含N个元素的向量，从而池化结果与各卷积结果的维数相同。此外，从上述公式可以得出，本方案在基于各卷积结果的同一位置的元素计算池化结果的相同位置的元素时，各元素均被赋予了注意力权重值。也就是说，本方案的池化方法中引入了注意力机制，这有助于样本的真实重要信息的确定。在所述确定的样本的真实重要信息的准确度提高的情况下，所生成的样本表示向量的准确度就可以提高，从而基于其训练得到的分类模型则更精确。

步骤110，将通过池化层得到的池化结果作为样本的样本表示向量，并至少基于样本表示向量以及分类标签的标签向量，确定预测损失。

在一种实现方式中，可以先计算样本表示向量与分类标签的标签向量之间的点积，之后基于该点积确定预测损失。这里所确定的预测损失可以反相关于上述计算得到的点积。

在另一种实现方式中，也可以从上述预定标签集合中，随机选取不同于该分类标签的若干其它分类标签（也称“负标签”）。之后基于样本表示向量、分类标签的标签向量以及若干其它分类标签的标签向量，确定预测损失。

具体地，可以计算样本表示向量与分类标签的标签向量之间的第三点积。计算样本表示向量与所述若干其它分类标签的标签向量之间的第四点积，并对各第四点积进行求和，得到第二求和结果。基于第三点积与第二求和结果，确定预测损失，以使预测损失反相关于第三点积，且正相关于第四点积。

在一个例子中，可以基于如下公式确定上述预测损失。

（公式5）

其中，L为预测损失，q为样本的样本表示向量，h_y为上述样本的分类标签的标签向量，Y为预定标签集合，y＂为上述随机选取的若干其它分类标签中的某个分类标签，h_y＂为其对应的标签向量。λ为预定义的超参数，其取值范围可以为:[2,10]。σ为激励函数，如，可以为sigmoid函数等。

需要特别强调的是，对于上述公式中的λ，可以基于其对应的取值范围设定相应的取值。如果预定标签集合中的分类标签的总数目小于λ的取值，那么将λ设定为分类标签的总数目，否则保持原来的取值不变。

需要说明的是，在基于如上的公式确定预测损失时，可以使得正分类标签（即上述样本的分类标签）与样本特征的相关度变高，而使得负分类标签（预定标签集合中除正分类标签外的标签）与样本特征的相关度变低。

步骤112，基于预测损失，调整分类模型的参数。

在一个示例中，可以是通过计算梯度反向传播的方式，调整分类模型的参数。具体地，可以是调整嵌入层、卷积层和池化层的参数。其中，嵌入层的参数包括：样本中各样本特征的表示向量（如，词向量）以及分类标签的标签向量等。应理解，当各样本特征的标识向量以及标签向量调整后，那么也就相当于对上述注意力权重值进行了调整。

需要说明的是，在实际应用中，上述步骤102-步骤112是迭代执行的，且每次迭代所使用的模型参数均为上一次调整后的参数。该迭代的终止条件可以为迭代次数达到预定轮次或者公式5示出的损失函数的值收敛。

总之，本方案在嵌入层中，在初始时，会随机初始化样本中各样本特征的表示向量以及分类标签的标签向量。之后，在模型迭代训练的过程中，可以不断地对上述样本特征的表示向量以及标签向量进行调整，直至得到各样本特征以及分类标签的最优表示向量。这里得到的各样本特征以及分类标签的最优表示向量可以应用于后续对象分类的步骤，这可以提升对象分类的准确性。

其次，本方案在卷积层中，会依次对样本中不同位置、不同数目的连续样本特征进行卷积处理，从而可以更全面地捕获样本的局部信息。

最后，本方案在池化层中，针对每个卷积结果，基于该卷积结果与分类标签的标签向量之间的相似度，确定该卷积结果的注意力权重值。之后，基于确定的注意力权重值，对各卷积结果进行加权平均操作，得到样本的样本表示向量。由于不同的注意力权重值反映了对应卷积结果不同的重要度，从而基于该注意力权重值对各卷积结果进行池化操作时，可以有效地对重要的局部信息进行加强，从而可以更好地对样本进行表达。

综合以上，本本说明书一个实施例提供的分类模型的训练方法，可以大大提升分类模型的精度，进而可以实现对象的有效分类。

下面以分类模型用于进行基于文本分析的业务处理为例，也即分类模型为文本分类模型，分类标签为文本类别标签，样本为文本为例，对文本分类模型的训练过程进行说明。

图2为本说明书提供的文本分类模型示意图。图2中，该文本分类模型可以包括：嵌入层、卷积层、池化层和softmax层。在嵌入层中，可以确定文本包含的n个词：x1、x2、…、xn各自的词向量，这里的n个词的词向量可以分别表示为：f1、f2、…、fn。此外，还可以确定文本的分类标签的标签向量hy。在卷积层中，基于conv3、conv4以及conv5等不同宽度的卷积窗口，对各个词的词向量进行多次卷积处理，得到多个卷积结果。分别表示为：h1、h2、...、hk。在池化层中，计算各卷积结果与分类标签的标签向量之间的相似度。并基于计算得到的相似度，确定对应于各卷积结果的注意力权重值ai。基于对应于各卷积结果的注意力权重值，对各卷积结果进行加权平均池化操作，得到池化结果q。在softmax层，基于池化结果q（即文本表示向量）以及分类标签的标签向量，确定预测损失。

需要说明的是，图2示出的分类模型的训练方法，也同样适用于其它包含散列特征的对象分类模型的训练。如，也可以适用于声纹识别模型的训练等。可以理解的是，当应用于声纹识别模型的训练时，嵌入层中确定的各词的词向量的步骤可以替换确定用户输入的各个语音片段对应的表示向量。而卷积层和池化层的处理则与文本分类模型的训练过程类似，在此不复赘述。

以下结合两个例子，对本方案的模型训练过程中的基于注意力机制的池化方法进行说明。

先以文本分析的广告二分类场景为例来说，所训练的模型为广告预测模型，输入样本可以为一个文本句子，分类标签包括如下两种：广告和非广告。

那么对于样本：“澳门威尼斯人在线赌博平台上线了，快快下载，约小姐加微信22xxx32”。在对应的分类标签为：广告时，通过注意力机制的自适应池化方法，就可以分析出 “上线”，“赌博”，“下载”等词与标签关系密切，在池化过程中，包含这些词语的相应的卷积层结果会得到更大的权值。

再以文本分析的色情二分类场景为例来说，所训练的模型为色情预测模型，输入样本同样可以为一个文本句子，分类标签包括如下两种：色情和非色情。

那么对于样本：“澳门威尼斯人在线赌博平台上线了，快快下载，约小姐加微信22xxx32”。在对应的分类标签为：色情时，那么通过注意力机制的自适应池化方法，就可以分析出 “约”“小姐”等词语与标签关系密切。在池化过程中，包含这些词语的相应的卷积层结果则会得到更大的权值。

由此可以看出，本说明书提出的基于注意力机制的池化方法，针对同一文本，在其对应的分类标签不同的情况下，所分析得到的重要的局部信息也不一致。也就是说，通过本说明书提供的方案，在不同的模型训练场景下，可以得到文本的不同表达，这可以大大提升不同场景下所训练得到的模型的精度。

以上均是对分类模型训练过程的说明，以下对基于训练后的分类模型的对象分类过程进行说明。

图3为本说明书一个实施例提供的对象分类方法流程图。如图3所示，该方法可以包括：

步骤302，获取待分类对象以及若干预定类别。

这里的待分类对象可以包括但不限于以下任一种：待分类文本、待分类音频以及待分类图片。

以待分类对象为待分类文本为例来说，上述若干预定类别可以包括：广告和非广告两个类别。

当然，在实际应用中，在不同的分类场景下，上述预定类别的数目也可以多于两个。比如，在针对微博内容进行主题信息分类的场景下，每个主题信息均可以作为一个预定类别。

步骤304，将若干预定类别中的每个类别依次作为当前类别，基于当前类别进行相似度计算。

上述步骤304具体可以包括如下步骤：

步骤3042，在嵌入层中，确定待分类对象的初始表示向量以及当前类别的类别向量。

这里，可以是基于待分类对象中的各特征的表示向量（如，词向量或者语音片段的表示向量），确定待分类对象的初始表示向量。其中，各特征的表示向量以及当前类别的类别向量均可以是在上述分类模型训练过程中所训练得到的。也即其均可以为上述提供的最优表示向量。

步骤3044，在卷积层中，基于若干不同宽度的卷积窗口，对初始表示向量进行多次卷积处理，得到多个卷积结果。

步骤3046，在池化层中，计算多个卷积结果中各卷积结果与当前类别的类别向量之间的相似度，并基于计算得到的相似度，确定对应于各卷积结果的注意力权重值。基于对应于各卷积结果的注意力权重值，对各卷积结果进行加权平均池化操作，得到池化结果。

这里的步骤3044-步骤3046同上述步骤106-步骤108，在此不复赘述。

步骤3048，将池化结果作为待分类对象的最终表示向量，并计算最终表示向量与当前类别的类别向量之间的相似度。

这里的两个向量之间的相似度可以包括但不限于：余弦相似度、欧氏距离、曼哈顿距离以及皮尔逊相关系数等等。

步骤306，在基于若干预定类别中的每个类别进行上述相似度计算之后，基于计算得到的多个相似度，从若干预定类别中确定出待分类对象所属的目标类别。

举例来说，假设有两个预定类别：y0和y1，且该两个类别的类别向量分分别为：hy0和hy1。此外，还假设在将y0作为当前类别时，可以得到待分类对象的最终表示向量q0，并且可以计算得到hy0与q0相似度S0。在将y1作为当前类别时，可以得到待分类对象的最终表示向量q1，并且可以计算得到hy1与q1相似度S1。那么，如果S0>S1，则可以将类别y0作为待分类对象所属的目标类别。

综上，本说明书实施例提供的对象分类方法，可以基于在模型训练过程中所训练得到的特征的表示向量以及类别向量，对待分类对象进行分类，这可以大大提升对象分类的准确性。

以下针对本说明书实施例提供的对象分类方法的应用场景以及在实际应用场景中所达到的效果进行说明：

本说明书提供的方案可以广泛应用于各种文本分类场景中，比如，可以应用于各大社区的评论文本的分类场景中。为了增加用户活跃度，现有的社区均为用户提供了评论区，但部分用户利用评论区进行第三方产品广告宣传或者发布色情信息。因此，需要建立评论文本的分类模型，以判断某评论文本是否为违规文本。

在针对评论文本进行分类的过程中，经常会遇到有效信息被大部分无效信息覆盖的情况。例如，“朋友们，国庆佳节就快到了，您还等什么，无需出门，无需出门，无需出门，在家即可参与活动，澳门赌博上线了，网址：xxx”，这个文本是个典型的“赌博广告”，属于违规文本，但是很难被识别出来，原因在于有效信息“澳门赌博上线了，网址：xxx”只是文本的很小一部分，前面有很长的无关信息。

针对上述评论文本，如果是用传统的平均池化的方式，那么很长的无关信息就会把有效信息冲淡（平均化），从而导致其不能被正确表达。如果是用传统的最大池化的方式，其加强的信息往往只根据文本内容决定，而不能对真正违规的内容进行加强，比如，其会加强 “朋友们”，“国庆佳节”，“出门”，“参与活动”，“赌博”和“上线”等局部信息，这也会使得文本最终表达不准确。

而如果采用本方案提供的文本分类方法，由于其可以结合基于注意力机制的池化方法，也即其会加强与标签有关的局部信息，从而可以准确确定出此文本的有效信息内容，进而可以提升文本表示向量的准确性。在文本表示向量的准确性提高的前提下，基于其训练得到的文本分类模型可以更精确，进而可以实现文本的有效分类。

与上述分类模型的训练方法对应地，本说明书一个实施例还提供的一种分类模型的训练装置。该分类模型包括：嵌入层、卷积层和池化层。如图4所示，该装置可以包括：

获取单元402，用于获取带分类标签的样本。

确定单元404，用于在嵌入层中，确定获取单元402获取的样本的特征向量以及分类标签的标签向量。

卷积单元406，用于在卷积层中，基于若干不同宽度的卷积窗口，对确定单元404确定的样本的特征向量进行多次卷积处理，得到多个卷积结果。

上述若干不同宽度的卷积窗口包括第一卷积窗口。

卷积单元406具体可以用于：

对于第一卷积窗口，基于第一卷积窗口的宽度，确定对应的卷积处理所选取的特征向量的维数。

基于维数、第一卷积窗口的参数以及预定步长，对样本的特征向量进行卷积处理。

卷积单元406还具体可以用于：

迭代地执行以下步骤，直至达到预定次数：

从当前位置开始，在样本的特征向量中选取上述维数个元素。

对选取的上述维数个元素进行拼接，得到当前拼接向量。

基于第一卷积窗口的参数，对当前拼接向量进行线性变换，得到线性变换结果。

基于线性变换结果，确定多个卷积结果中的一个卷积结果。

基于当前位置以及预定步长，确定下一位置，并将下一位置作为当前位置。

卷积单元406还具体可以用于：将线性变换结果作为多个卷积结果中的一个卷积结果；或者，采用激活函数，对线性变换结果进行非线性变换，将非线性变换结果作为多个卷积结果中的一个卷积结果。

池化单元408，用于在池化层中，计算卷积单元406得到的多个卷积结果中各卷积结果与分类标签的标签向量之间的相似度，并基于计算得到的相似度，确定对应于所各卷积结果的注意力权重值。基于对应于各卷积结果的注意力权重值，对各卷积结果进行加权平均池化操作，得到池化结果。

上述每个卷积结果为一个包含N个元素的向量。

池化单元408具体可以用于：

对于各卷积结果中任意的第一卷积结果，将第一卷积结果的注意力权重值作为其中的N个元素的注意力权重值。

基于各卷积结果各自的N个元素的注意力权重值，依次对各卷积结果的相同位置的元素进行加权平均池化操作，得到池化结果。

上述分类标签属于预定标签集合。

池化单元408具体可以用于：

对于多个卷积结果中的每个卷积结果，至少计算该卷积结果与分类标签的标签向量之间的第一点积。

至少计算该卷积结果与预定标签集合中各分类标签的向量之间的第二点积，并对各第二点积进行求和，得到第一求和结果。

基于第一点积与第一求和结果之比，确定卷积结果与分类标签的标签向量之间的相似度。

确定单元404，还用于将池化单元408得到的池化结果作为样本的样本表示向量，并至少基于样本表示向量以及分类标签的标签向量，确定预测损失。

确定单元404具体可以用于：

从包含分类标签的预定标签集合中，随机选取不同于分类标签的若干其它分类标签。

基于样本表示向量、分类标签的标签向量以及若干其它分类标签的标签向量，确定预测损失。

确定单元404还具体可以用于：

计算样本表示向量与分类标签的标签向量之间的第三点积。

计算样本表示向量与若干其它分类标签的标签向量之间的第四点积，并对各第四点积进行求和，得到第二求和结果。

基于第三点积与第二求和结果，确定预测损失，以使预测损失反相关于第三点积，且正相关于第四点积。

调整单元410，用于基于确定单元404确定的预测损失，调整分类模型的参数。

可选地，上述分类模型为文本分类模型，分类标签为文本类别标签，样本为文本；或，上述分类模型为图片分类模型，分类标签为图片类别标签，样本为图片；或，上述分类模型为音频分类模型，分类标签为音频类别标签，样本为音频。

本说明书上述实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

本说明书一个实施例提供的分类模型的训练装置，可以提升分类模型的精度，进而可以实现对象的有效分类。

与上述对象分类方法对应地，本说明书一个实施例还提供的一种对象分类装置。该装置基于预先训练的分类模型运行，该分类模型包括：嵌入层、卷积层和池化层。如图5所示，该装置可以包括：

获取单元502，用于获取待分类对象以及若干预定类别。

计算单元504，用于将获取单元502获取的若干预定类别中的每个类别依次作为当前类别，基于当前类别进行相似度计算。

计算单元504包括：

确定子单元5042，用于在嵌入层中，确定待分类对象的初始表示向量以及当前类别的类别向量。

卷积子单元5044，用于在卷积层中，基于若干不同宽度的卷积窗口，对初始表示向量进行多次卷积处理，得到多个卷积结果。

池化子单元5046，用于在池化层中，计算多个卷积结果中各卷积结果与当前类别的类别向量之间的相似度，并基于计算得到的相似度，确定对应于各卷积结果的注意力权重值。基于对应于各卷积结果的注意力权重值，对各卷积结果进行加权平均池化操作，得到池化结果。

获取子单元5048，用于将池化结果作为待分类对象的最终表示向量，并计算最终表示向量与当前类别的类别向量之间的相似度。

确定单元506，用于在计算单元504基于若干预定类别中的每个类别进行相似度计算之后，基于计算得到的多个相似度，从若干预定类别中确定出待分类对象所属的目标类别。

本说明书一个实施例提供的对象分类装置，可以实现对象的有效分类。

另一方面，本说明书的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图1或图3所示的方法。

另一方面，本说明书的实施例提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图1或图3所示的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的具体实施方式而已，并不用于限定本说明书的保护范围，凡在本说明书的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的保护范围之内。

Claims

1.一种文本分类模型的训练方法，所述文本分类模型包括嵌入层、卷积层和池化层；所述方法包括：

获取带一个分类标签的文本；

在所述嵌入层中，确定所述文本所包含的各个词对应的词向量以及所述分类标签的标签向量；

在所述卷积层中，基于若干不同宽度的卷积窗口，对所述各个词的词向量进行多次卷积处理，得到多个卷积结果；其中的每个卷积结果用于表示所述文本的局部信息；

将所述池化结果作为所述文本的文本表示向量，并至少基于所述文本表示向量以及所述分类标签的标签向量，确定预测损失；

基于所述预测损失，调整所述文本分类模型的参数；其中，调整参数后的文本分类模型用于，从若干预定类别中确定出待分类文本所属的一个目标类别。

2.根据权利要求1所述的方法，其中，每个卷积结果为一个包含N个元素的向量；

所述基于对应于所述各卷积结果的注意力权重值，对所述各卷积结果进行加权平均池化操作，得到池化结果，包括：

对于所述各卷积结果中任意的第一卷积结果，将所述第一卷积结果的注意力权重值作为其中的N个元素的注意力权重值；

基于所述各卷积结果各自的N个元素的注意力权重值，依次对所述各卷积结果的相同位置的元素进行加权平均池化操作，得到所述池化结果。

3.根据权利要求1所述的方法，所述若干不同宽度的卷积窗口包括第一卷积窗口；

所述基于若干不同宽度的卷积窗口，对所述各个词的词向量进行多次卷积处理，包括：

对于所述第一卷积窗口，基于所述第一卷积窗口的宽度，确定对应的卷积处理所选取的特征向量的维数；

基于所述维数、所述第一卷积窗口的参数以及预定步长，对所述各个词的词向量进行卷积处理。

4.根据权利要求3所述的方法，所述基于所述维数、所述第一卷积窗口的参数以及预定步长，对所述各个词的词向量进行卷积处理，包括：

迭代地执行以下步骤，直至达到预定次数：

从当前位置开始，在所述各个词的词向量中选取所述维数个元素；

对选取的所述维数个元素进行拼接，得到当前拼接向量；

基于所述第一卷积窗口的参数，对所述当前拼接向量进行线性变换，得到线性变换结果；

基于所述线性变换结果，确定所述多个卷积结果中的一个卷积结果；

基于当前位置以及所述预定步长，确定下一位置，并将下一位置作为当前位置。

5.根据权利要求4所述的方法，所述基于所述线性变换结果，确定所述多个卷积结果中的一个卷积结果，包括：

将所述线性变换结果作为所述多个卷积结果中的一个卷积结果；或者，

采用激活函数，对所述线性变换结果进行非线性变换；

将非线性变换结果作为所述多个卷积结果中的一个卷积结果。

6.根据权利要求1所述的方法，所述分类标签属于预定标签集合；

所述计算所述多个卷积结果中各卷积结果与所述分类标签的标签向量之间的相似度，包括：

对于所述多个卷积结果中的每个卷积结果，至少计算所述卷积结果与所述分类标签的标签向量之间的第一点积；

至少计算所述卷积结果与所述预定标签集合中各分类标签的向量之间的第二点积，并对所述第二点积进行求和，得到第一求和结果；

基于所述第一点积与所述第一求和结果之比，确定所述卷积结果与所述分类标签的标签向量之间的相似度。

7.根据权利要求1所述的方法，所述至少基于所述文本表示向量以及所述分类标签的标签向量，确定预测损失，包括：

从包含所述分类标签的预定标签集合中，随机选取不同于所述分类标签的若干其它分类标签；

基于所述文本表示向量、所述分类标签的标签向量以及所述若干其它分类标签的标签向量，确定预测损失。

8.根据权利要求7所述的方法，所述基于所述文本表示向量、所述分类标签的标签向量以及所述若干其它分类标签的标签向量，确定预测损失，包括：

计算所述文本表示向量与所述分类标签的标签向量之间的第三点积；

计算所述文本表示向量与所述若干其它分类标签的标签向量之间的第四点积，并对所述第四点积进行求和，得到第二求和结果；

基于所述第三点积与所述第二求和结果，确定所述预测损失，以使所述预测损失反相关于所述第三点积，且正相关于所述第四点积。

9.一种文本分类方法，所述方法基于预先训练的文本分类模型执行，所述文本分类模型包括嵌入层、卷积层和池化层；所述方法包括：

获取待分类文本以及若干预定类别；

在所述嵌入层中，确定所述待分类文本所包含的各个词对应的词向量以及所述当前类别的类别向量；

在所述卷积层中，基于若干不同宽度的卷积窗口，对所述各个词的词向量进行多次卷积处理，得到多个卷积结果；其中的每个卷积结果用于表示所述待分类文本的局部信息；

将所述池化结果作为所述待分类文本的最终表示向量，并计算所述最终表示向量与所述当前类别的类别向量之间的相似度；

在基于所述若干预定类别中的每个类别进行所述相似度计算之后，基于计算得到的多个相似度，从所述若干预定类别中确定出所述待分类文本所属的一个目标类别。

10.一种文本分类模型的训练装置，所述文本分类模型包括嵌入层、卷积层和池化层；所述装置包括：

获取单元，用于获取带一个分类标签的文本；

确定单元，用于在所述嵌入层中，确定所述获取单元获取的所述文本所包含的各个词的词向量以及所述分类标签的标签向量；

卷积单元，用于在所述卷积层中，基于若干不同宽度的卷积窗口，对所述确定单元确定的所述各个词的词向量进行多次卷积处理，得到多个卷积结果；其中的每个卷积结果用于表示所述文本的局部信息；

所述确定单元，还用于将所述池化单元得到的所述池化结果作为所述文本的文本表示向量，并至少基于所述文本表示向量以及所述分类标签的标签向量，确定预测损失；

调整单元，用于基于所述确定单元确定的所述预测损失，调整所述文本分类模型的参数；其中，调整参数后的文本分类模型用于，从若干预定类别中确定出待分类文本所属的一个目标类别。

11.根据权利要求10所述的装置，其中，每个卷积结果为一个包含N个元素的向量；

所述池化单元具体用于：

12.根据权利要求10所述的装置，所述若干不同宽度的卷积窗口包括第一卷积窗口；

所述卷积单元具体用于：

13.根据权利要求12所述的装置，所述卷积单元还具体用于：

迭代地执行以下步骤，直至达到预定次数：

对选取的所述维数个元素进行拼接，得到当前拼接向量；

14.根据权利要求13所述的装置，所述卷积单元还具体用于：

采用激活函数，对所述线性变换结果进行非线性变换；

15.根据权利要求10所述的装置，所述分类标签属于预定标签集合；

所述池化单元具体用于：

16.根据权利要求10所述的装置，所述确定单元具体用于：

17.根据权利要求16所述的装置，所述确定单元还具体用于：

18.一种文本分类装置，所述装置基于预先训练的文本分类模型运行，所述文本分类模型包括嵌入层、卷积层和池化层；所述装置包括：

获取单元，用于获取待分类文本以及若干预定类别；

所述计算单元包括：

确定子单元，用于在所述嵌入层中，确定所述待分类文本所包含的各个词对应的词向量以及所述当前类别的类别向量；

卷积子单元，用于在所述卷积层中，基于若干不同宽度的卷积窗口，对所述各个词的词向量进行多次卷积处理，得到多个卷积结果；其中的每个卷积结果用于表示所述待分类文本的局部信息；

获取子单元，用于将所述池化结果作为所述待分类文本的最终表示向量，并计算所述最终表示向量与所述当前类别的类别向量之间的相似度；

确定单元，用于在所述计算单元基于所述若干预定类别中的每个类别进行所述相似度计算之后，基于计算得到的多个相似度，从所述若干预定类别中确定出所述待分类文本所属的一个目标类别。

19.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项所述的方法或权利要求9所述的方法。

20.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的方法或权利要求9所述的方法。