CN112115268B

CN112115268B - 基于特征编码器的训练方法及装置、分类方法及装置

Info

Publication number: CN112115268B
Application number: CN202011039098.3A
Authority: CN
Inventors: 陈晓军; 崔恒斌
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2024-04-09
Anticipated expiration: 2040-09-28
Also published as: CN112115268A

Abstract

本说明书实施例提供了一种基于特征编码器的训练方法及装置、分类方法及装置。在该方法中，获取当前训练样本，将当前训练样本以及用于分类的多个文本类别分别输入特征编码器，输出各个当前训练样本对应的样本特征向量以及多个文本类别对应的分类矩阵；基于输出的样本特征向量以及分类矩阵得到当前训练样本针对各个文本类别的预测值；以及在不满足循环结束条件时，根据所得到的预测值和当前训练样本的真实分类类别对特征编码器的编码器参数进行调整，调整后的特征编码器作为下一次循环的特征编码器。

Description

基于特征编码器的训练方法及装置、分类方法及装置

技术领域

本说明书实施例涉及机器学习技术领域，具体地，涉及基于特征编码器的训练方法及装置、分类方法及装置。

背景技术

分类模型是一种常见的机器学习模型，并且广泛应用于各个领域中。分类模型可以分为基于规则的分类模型和基于概率统计的分类模型。在基于规则的分类模型中，使用若干规则来区分各个类别，规则可以是通过领域专家来定义或者通过机器学习来获得，比如，决策树是一种基于机器学习的分类模型。

基于概率统计的分类模型是预测待分类对象针对每个指定类别的概率，然后输出概率最大的类别以作为该待分类对象的预测类别。比如，softmax分类是一种常见的基于概率统计的分类。

发明内容

鉴于上述，本说明书实施例提供了一种基于特征编码器的训练方法及装置、分类方法及装置。在训练的技术方案中，通过使用特征编码器来得到文本类别对应的分类矩阵，从而仅需对特征编码器的参数进行训练，避免训练整个分类矩阵，通常情况下分类矩阵对应的分类类别较多导致分类矩阵所需训练的参数多，特征编码器的训练参数少于分类矩阵的训练参数，通过本说明书实施例的方案提高了训练效率。尤其是在分类矩阵较大的情况下，对硬件设备的要求也很高，而通过本说明书实施例的训练方案，降低了执行训练的硬件设备的要求。

根据本说明书实施例的一个方面，提供了一种用于对输出分类矩阵的特征编码器进行训练的方法，包括：执行下述循环训练过程，直至满足循环结束条件：获取用于当前循环的当前训练样本；将所述当前训练样本以及用于分类的多个文本类别分别输入待训练的特征编码器，输出各个当前训练样本对应的样本特征向量以及所述多个文本类别对应的分类矩阵，其中，所述分类矩阵由输入所述特征编码器的各个文本类别对应的类别特征向量构成；基于输出的样本特征向量以及分类矩阵得到所述当前训练样本针对各个文本类别的预测值；以及在不满足所述循环结束条件时，根据所得到的预测值和所述当前训练样本的真实分类类别对所述特征编码器的编码器参数进行调整，调整后的特征编码器作为下一次循环的特征编码器。

可选地，在上述方面的一个示例中，还包括：针对每个当前训练样本，从文本类别库中确定与该当前训练样本匹配的指定数量的文本类别；以及将所述当前训练样本以及用于分类的多个文本类别分别输入待训练的特征编码器，输出各个当前训练样本对应的样本特征向量以及所述多个文本类别对应的分类矩阵包括：将所述当前训练样本以及所确定的文本类别分别输入待训练的特征编码器，得到各个当前训练样本对应的样本特征向量以及所确定的文本类别对应的分类矩阵。

可选地，在上述方面的一个示例中，针对每个当前训练样本，从文本类别库中确定与该当前训练样本匹配的指定数量的文本类别包括：针对每个当前训练样本，使用召回算法从文本类别库中确定与该当前训练样本匹配的指定数量的文本类别。

可选地，在上述方面的一个示例中，基于输出的样本特征向量以及分类矩阵得到所述当前训练样本针对各个文本类别的预测值包括：基于输出的样本特征向量、分类矩阵以及所确定的文本类别对应的偏置矩阵得到所述当前训练样本针对所确定的各个文本类别的预测值；以及在不满足所述循环结束条件时，根据所得到的预测值和所述当前训练样本的真实分类类别对所述特征编码器的编码器参数进行调整包括：在不满足所述循环结束条件时，根据所得到的预测值和所述当前训练样本的真实分类类别对所述特征编码器的编码器参数以及所述偏置矩阵进行调整。

可选地，在上述方面的一个示例中，训练使用的所有训练样本对应的真实分类类别包括所述文本类别库中的全部或者大部分类别。

可选地，在上述方面的一个示例中，还包括：在所述当前训练样本有多个时，对所确定的所有文本类别进行去重处理。

可选地，在上述方面的一个示例中，所述循环结束条件包括：针对所述训练使用的全部训练样本的迭代次数达到指定次数，和/或针对所述训练使用的全部训练样本的预测准确率不再上升。

根据本说明书实施例的另一方面，还提供一种使用特征编码器进行文本分类的方法，包括：获取待分类文本；从文本类别库中确定与所述待分类文本匹配的指定数量的文本类别；

将所述待分类文本和所确定的文本类别输入经过训练的特征编码器，输出所述待分类文本对应的特征向量以及所述文本类别对应的分类矩阵，其中，所述分类矩阵由各个文本类别对应的类别特征向量构成；以及基于输出的特征向量和分类矩阵预测所述待分类文本的文本类别。

根据本说明书实施例的另一方面，还提供一种用于对输出分类矩阵的特征编码器进行训练的装置，包括：训练样本获取单元，获取用于当前循环的当前训练样本；特征向量化单元，将所述当前训练样本以及用于分类的多个文本类别分别输入待训练的特征编码器，输出各个当前训练样本对应的样本特征向量以及所述多个文本类别对应的分类矩阵，其中，所述分类矩阵由输入所述特征编码器的各个文本类别对应的类别特征向量构成；类别预测单元，基于输出的样本特征向量以及分类矩阵得到所述当前训练样本针对各个文本类别的预测值；以及参数调整单元，在不满足循环结束条件时，根据所得到的预测值和所述当前训练样本的真实分类类别对所述特征编码器的编码器参数进行调整，调整后的特征编码器作为下一次循环的特征编码器。

可选地，在上述方面的一个示例中，还包括：类别确定单元，针对每个当前训练样本，从文本类别库中确定与该当前训练样本匹配的指定数量的文本类别；以及所述特征向量化单元：将所述当前训练样本以及所确定的文本类别分别输入待训练的特征编码器，得到各个当前训练样本对应的样本特征向量以及所确定的文本类别对应的分类矩阵。

可选地，在上述方面的一个示例中，所述类别确定单元：针对每个当前训练样本，使用召回算法从文本类别库中确定与该当前训练样本匹配的指定数量的文本类别。

可选地，在上述方面的一个示例中，所述类别预测单元：基于输出的样本特征向量、分类矩阵以及所确定的文本类别对应的偏置矩阵得到所述当前训练样本针对所确定的各个文本类别的预测值；以及所述参数调整单元：在不满足所述循环结束条件时，根据所得到的预测值和所述当前训练样本的真实分类类别对所述特征编码器的编码器参数以及所述偏置矩阵进行调整。

可选地，在上述方面的一个示例中，还包括：类别去重单元，在所述当前训练样本有多个时，对所确定的所有文本类别进行去重处理。

根据本说明书实施例的另一方面，还提供一种使用特征编码器进行文本分类的装置，包括：文本获取单元，获取待分类文本；类别匹配单元，从文本类别库中确定与所述待分类文本匹配的指定数量的文本类别；特征向量化单元，将所述待分类文本和所确定的文本类别输入经过训练的特征编码器，输出所述待分类文本对应的特征向量以及所述文本类别对应的分类矩阵，其中，所述分类矩阵由各个文本类别对应的类别特征向量构成；以及类别预测单元，基于输出的特征向量和分类矩阵预测所述待分类文本的文本类别。

根据本说明书实施例的另一方面，还提供一种电子设备，包括：至少一个处理器；以及存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的用于对输出分类矩阵的特征编码器进行训练的方法。

根据本说明书实施例的另一方面，还提供一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的用于对输出分类矩阵的特征编码器进行训练的方法。

附图说明

通过参照下面的附图，可以实现对于本说明书内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。附图是用来提供对本说明书实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本说明书的实施例，但并不构成对本说明书的实施例的限制。在附图中：

图1示出了本说明书的实施例的用于对输出分类矩阵的特征编码器进行训练的方法的一个示例的流程图。

图2A示出了本说明书的实施例的样本特征向量矩阵的一个示例的示意图。

图2B示出了本说明书的实施例的分类矩阵的一个示例的示意图。

图3示出了本说明书实施例的使用特征编码器进行文本分类的方法的一个示例的流程图。

图4示出了本说明书实施例的用于对输出分类矩阵的特征编码器进行训练的装置的方框图。

图5示出了本说明书实施例的使用特征编码器进行文本分类的装置的方框图。

图6示出了本说明书实施例的实现用于对输出分类矩阵的特征编码器进行训练的方法的电子设备的方框图。

具体实施方式

以下将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

在本文中，术语“连接”是指两个组件之间直接机械连接、连通或电连接，或者通过中间组件来间接机械连接、连通或电连接。术语“电连接”是指两个组件之间可以进行电通信以进行数据/信息交换。同样，所述电连接可以指两个组件之间直接电连接，或者通过中间组件来间接电连接。所述电连接可以采用有线方式或无线方式来实现。

分类模型是一种常见的模型，并且广泛应用于各个领域中。分类模型可以分为基于规则的分类模型和基于概率统计的分类模型。在基于规则的分类模型中，使用若干规则来区分各个类别，规则可以是通过领域专家来定义或者通过机器学习来获得，比如，决策树是一种基于机器学习的分类模型。

针对softmax分类，是利用训练出的分类矩阵来进行分类，分类矩阵可以认为是针对各个指定类别的特征向量表示。具体地，以文本为例，将文本的特征向量与分类矩阵相乘所得到的乘积即表示出该文本属于各个指定类别的概率。

分类矩阵的规模与类别的数量有关，当类别的数量较小时，则分类矩阵的规模较小；当类别的数量较大时，则分类矩阵的规模较大。例如，待分类的文本的特征维度为128维，类别的数量是1000，则分类矩阵为128*1000。而当类别的数量是1百万时，分类矩阵的维度为：128*1000000，这样的分类矩阵规模太大，以至于训练该分类矩阵需要超大的内存和显存等，对硬件设备的要求高，并且训练时间长，训练效率低，甚至无法训练好该分类矩阵。

为了解决上述问题，本说明书实施例提供了一种基于特征编码器的训练方法及装置、分类方法及装置。在训练的技术方案中，通过使用特征编码器来得到文本类别对应的分类矩阵，从而仅需对特征编码器的参数进行训练，避免训练整个分类矩阵，特征编码器的参数少于分类矩阵的参数，从而提高了训练效率。尤其是在分类矩阵较大的情况下，对硬件设备的要求也要求很高，而通过本说明书实施例的训练方案，降低了执行训练的硬件设备的要求。

下面将结合附图来详细描述根据本说明书实施例的基于特征编码器的训练方法及装置、分类方法及装置。

图1示出了本说明书的实施例的用于对输出分类矩阵的特征编码器进行训练的方法的一个示例100的流程图。

如图1所示，在块110，获取用于当前循环的当前训练样本。

在本说明书的实施例中，每一次循环过程中用于训练的训练样本可以不同，每一次循环过程中使用的训练样本的数量也可以不同。所获取的当前训练样本可以包括至少一个训练样本。

用于训练特征编码器的训练样本可以是指定的，指定的训练样本包括多个。每次循环过程中使用的训练样本可以是所有训练样本中的部分，可以按照指定规则从所有训练样本中确定用于每次循环的部分训练样本。

在一个示例中，可以将所有训练样本均等分配，每一份训练样本包括多个，每一份训练样本可以用于一次循环过程。连续的多次训练过程所使用的训练样本包括所有训练样本，该多次训练过程对应的循环过程是针对所有训练样本的一次迭代过程。

例如，用于训练的训练样本包括10000个，分成均等的10份，每份包括1000个训练样本，每次循环过程使用一份中的1000个训练样本用于训练，这样，连续的10个循环过程即能够将所有10000个训练样本用于训练，这10个循环过程是该所有10000个训练样本的一次迭代过程。

在另一个示例中，针对所有训练样本的一次迭代过程，可以包括多次循环过程，每次循环过程使用部分训练样本。针对每次循环过程，可以从未使用的训练样本中获取用于当前循环的训练样本，直至所有的训练样本都已用于当前迭代的训练，则一次迭代过程完成。一次迭代过程中的各个循环过程所使用的训练样本不同，所使用的训练样本的数量也可以不同。

例如，用于训练的所有训练样本包括10000个，第一次循环过程使用1000个训练样本作为当前训练样本，第二次循环过程从未使用的9000个训练样本中获取2000个作为当前训练样本，以此类推，直至将10000个训练样本都已用于训练，此时一次迭代过程完成。

在一个示例中，每次循环过程使用的训练样本可以是全部训练样本，即，所获取的当前训练样本是用于训练的全部训练样本，每次循环过程是针对全部训练样本的一次迭代过程。例如，用于训练的训练样本包括1000个，每次循环过程使用1000个训练样本用于训练，下一次循环过程中再使用该1000个训练样本进行训练，直至训练完成。

在120，将当前训练样本输入待训练的特征编码器，该特征编码器可以输出各个当前训练样本对应的样本特征向量。

在本说明书实施例中，特征编码器可以对输入的文本进行向量化处理，以得到用于表征输入文本的特征向量。特征编码器输出的特征向量的维度可以是根据特征编码器的参数确定。

每个当前训练样本输入特征编码器，可以输出该当前训练样本对应的样本特征向量，各个当前训练样本对应的样本特征向量的维度相同。各个当前训练样本对应的样本特征向量可以构成一个针对当前循环的样本特征向量矩阵。

例如，当前训练样本有x个，特征编码器生成的样本特征向量的维度是m，则一个当前训练样本对应的样本特征向量可以表示为：(a₁，a₂，…，a_m)。将x个当前训练样本的样本特征向量组合形成的大小为x×m的样本特征向量矩阵。图2A示出了本说明书的实施例的样本特征向量矩阵的一个示例的示意图，如图2A所示，样本特征向量矩阵的每一行为一个当前训练样本对应的样本特征向量。

在当前训练样本仅包括一个训练样本时，则特征编码器输出该一个当前训练样本的样本特征向量，此时的样本特征向量矩阵可以表示成1×m。

在130，可以将多个文本类别输入特征编码器，该特征编码器可以输出该多个文本类别对应的分类矩阵。

其中，每个文本类别对应有一个类别特征向量，各个文本类别的类别特征向量是由特征编码器生成的，各个文本类别的类别特征向量的维度与样本特征向量的维度相同。

各个文本类别对应的类别特征向量可以构成针对该多个文本类别的分类矩阵，分类矩阵中的每一行表示一个文本类别对应的类别特征向量。例如，输入特征编码器的文本类别有K个，特征编码器生成的类别特征向量的维度是m，则一个文本类别对应的类别特征向量可以表示为：(b₁，b₂，…，b_m)。将K个文本类别的类别特征向量组合形成的大小为K×m的分类矩阵。图2B示出了本说明书的实施例的分类矩阵的一个示例的示意图。

输入特征编码器的多个文本类别可以用于针对当前循环过程的分类，每次循环过程使用的文本类别可以相同，也可以不同。

用于文本分类的文本类别可以是指定的，这些指定的文本类别是待训练的，且这些指定的文本类别对应的分类矩阵在训练完成后可以用于文本分类。例如，文本类别库中包括多个文本类别，可以将文本类别库中的所有文本类别指定为待训练的文本类别。

在一个示例中，在针对特征编码器的训练过程中，每次循环过程使用的多个文本类别可以是指定的所有文本类别。在该示例中，每次循环过程使用的文本类别相同。

例如，指定的文本类别有1000个，该1000个文本类别是待训练的，且在训练完成后可以用于对文本进行分类。在对特征编码器的训练过程中，每次循环过程都使用该1000个文本类别进行训练，每次循环过程中输入待训练的特征编码器的是该1000个文本类别。

在另一个示例中，在针对特征编码器的训练过程中，每次循环过程使用的多个文本类别可以是指定的文本类别中的部分文本类别。每次循环过程使用的文本类别可以根据当前训练样本来确定。

具体地，针对每个当前训练样本，可以确定与该当前训练样本匹配的指定数量的文本类别。此时，当前循环过程中使用的文本类别包括所有的当前训练样本对应的文本类别的总和。

例如，在当前循环过中获取的当前训练样本包括训练样本A、B和C，针对每个当前训练样本，可以对应确定100个匹配的文本类别，则训练样本A、B和C分别对应有100个文本类别。此时，当前循环过程所使用的文本类别的数量是300个。

在一个示例中，在当前训练样本有多个时，每个当前训练样本对应确定出指定数量的文本类别，各个当前训练样本对应的文本类别可以存在重合，由此，当前循环过程中使用的文本类别中可以存在重复的文本类别。在该示例中，可以对所确定的所有文本类别进行去重处理，该所有文本类别包括各个当前训练样本对应确定出的文本类别。

例如，当前训练样本包括训练样本A、B和C，针对每个当前训练样本，可以对应确定100个匹配的文本类别，则训练样本A、B和C分别对应有100个文本类别。其中，有10个文本类别在A、B和C对应的文本类别中都存在，则对训练样本A、B和C对应的所有文本类别进行去重处理，最终经过去重处理后得到的280个文本类别作为当前循环过程使用的文本类别。

在该示例中，对所确定出的针对所有当前训练样本的文本类别进行去重处理，在存在重合文本类别的情况下可以减少文本类别的数量，从而减少后续需要处理的数据量，提高训练效率。

在一个示例中，将文本类别库中的所有文本类别指定为待训练的文本类别，则针对每个当前训练样本，可以从文本类别库中确定与该当前训练样本匹配的指定数量的文本类别。其中，指定数量小于文本类别库中的文本类别的数量。

在该示例中，所确定出的指定数量的文本类别是与当前训练样本最匹配的文本类别。匹配的方式可以是使用召回算法。

召回算法可以是基于当前训练样本的倒排方式召回，还可以是向量化召回。对于倒排方式召回，文本类别库中的文本类别对应有倒排索引项，该倒排索引项中包括有特定信息，特定信息可以包括单词、词语等。特定信息与包括有该特定信息的倒排索引项的类别建立对应关系，所建立的对应关系构成倒排列表。若干的倒排列表可以构成倒排索引。

在倒排索引中搜索当前训练样本，确定与该当前训练样本对应的倒排索引项，进而确定倒排索引项对应的类别。可以将所确定的所有类别中的部分类别作为匹配度最高的指定数量的文本类别。

对于向量化召回，通过训练好的向量化模型来生成当前训练样本的特征向量和文本类别的特征向量，并通过特征向量之间的内积来计算训练样本与类别之间的相似度。内积越大表示相似度越高。例如，Youtube召回模型是采用向量化召回。

通过召回算法从文本类别库中确定与当前训练样本匹配的文本类别，使得所匹配出的文本类别是文本类别库中与当前训练样本的匹配度最高的，进而很大程度地保证所匹配出的文本类别中包括有该当前训练样本的正确文本类别。

在一个示例中，指定数量可以是基于使用召回算法针对当前训练样本所匹配出的文本类别中包含有该当前训练样本的真实文本类别的准确率得到的。

在该示例中，当前训练样本有多个，每个当前训练样本对应有真实文本类别。例如，当前训练样本可以是新闻，该当前训练样本的真实文本类别是娱乐类别。使用召回算法针对每个当前训练样本从文本类别库中匹配出一定数量的文本类别，若针对该多个当前训练样本，每次所匹配出的一定数量的文本类别中包括有真实文本类别的概率大于或者等于指定准确率时，则可以将该一定数量确定为指定数量。

例如，有100个当前训练样本，针对每个当前训练样本，可以从文本类别库中匹配出100个文本类别，若其中99个当前训练样本所匹配出的100个类别中包括有真实文本类别，则针对该100个当前训练样本的准确率为99％，达到了指定准确率，则可以将100确定为指定数量。

在另一个示例中，指定数量还可以是经验值。

通过上述两个示例来确定指定数量，可以很大程度地保证每次循环训练过程中当前训练样本的真实文本类别在所匹配出的文本类别中，进而提升针对特征编码器的训练效果。

需要说明的是，上述120和130的操作执行顺序可以不限定。

在得到输出的样本特征向量以及分类矩阵后，在140，可以基于输出的样本特征向量以及分类矩阵得到当前训练样本针对各个文本类别的预测值。

具体地，可以先将输出的分类矩阵进行转置得到分类矩阵对应的转置矩阵，再将样本特征向量与转置矩阵相乘得到当前训练样本针对各个文本类别的预测值。即：

P＝X×W_i ^T

其中，P表示所得到的预测值，X表示当前训练样本对应的样本特征向量，W_i表示第i次循环过程所使用的多个文本类别对应的分类矩阵，W_i ^T表示该分类矩阵的转置矩阵。

例如，特征编码器对输入的当前训练样本进行向量化处理得到的样本特征向量X的维度为m，可以表示为：1×m，输入特征编码器的文本类别数量为K，该特征编码器对该K个文本类别进行向量化处理输出的分类矩阵W_i的大小为：K×m，该分类矩阵的转置矩阵W_i ^T的大小为：m×K，按照上式计算得到的P的维度为：1×K。P的向量包含有K个预测值，每一个预测值表示当前训练样本属于该预测值对应的文本类别的概率。

比如，当前循环中输入特征编码器的文本类别包括体育、健康以及娱乐，则计算出的P可以表示为：(a₁，a₂，a₃)，a₁表示预测出的当前训练样本属于体育类别的概率，a₂表示预测出的当前训练样本属于健康类别的概率，a₃表示预测出的当前训练样本属于娱乐类别的概率。

在一个示例中，在输入特征编码器中的文本类别是从文本类别库中确定出的与当前训练样本匹配的指定数量的文本类别时，则将所确定的文本类别输入特征编码器，输出针对所确定的多个文本类别的分类矩阵。

在该示例中，在每次循环中仅使用部分文本类别，减少了训练过程中的数据处理量。由于所确定的部分文本类别是与当前训练样本匹配的文本类别，保证了当前训练样本的真实文本类别在所确定的部分文本类别中，从而保证了训练中存在真实文本类别用于训练，进一步地保证了每次循环的训练效果。

在150，判断是否满足循环结束条件。如果不满足，则执行160的操作。如果满足，则结束训练，输出训练好的特征编码器。

在一个示例中，循环结束条件可以包括：针对训练使用的全部训练样本的迭代次数达到指定次数，和/或针对训练使用的全部训练样本的预测准确率不再上升。

对于迭代次数达到指定次数的循环结束条件，迭代次数是针对用于训练的全部训练样本，在一次迭代过程中，全部训练样本会被用于训练；在下一次迭代过程中，该全部训练样本会再被用于训练。

例如，用于训练的全部训练样本有1000个，每次循环过程使用100个训练样本用于训练，这样，10个循环过程可以将全部1000个训练样本都用于训练，由此，该10个循环过程构成一次迭代过程，下一次迭代过程再使用该1000个训练样本继续进行训练。当指定次数是3时，在经过3次迭代的训练后达到指定次数，结束训练。

对于预测准确率的循环结束条件，该预测准确率是针对用于训练的全部训练样本，在每一次迭代完成时可以确定出该次迭代中针对全部训练样本的预测准确率。将每次迭代对应的预测准确率与上一次迭代对应的预测准确率进行比较，若相比于上一次迭代的预测准确率，当前迭代的预测准确率没有上升，则可以确定满足循环结束条件。

在160，根据所得到的预测值和当前训练样本的真实分类类别对特征编码器的编码器参数进行调整。

调整后的特征编码器可以作为下一次循环的特征编码器，然后继续下一次循环的训练。调整后的特征编码器在下一次循环中得到的预测值与真实分类类别之间的误差减小。

通过上述训练方法，通过使用特征编码器来得到文本类别对应的分类矩阵，从而仅需对特征编码器的参数进行训练，避免训练整个分类矩阵，特征编码器的参数少于分类矩阵的参数，从而提高了训练效率。尤其是在分类矩阵较大的情况下，若对分类矩阵进行训练所需训练的参数较多，相应地对硬件设备的要求也很高，而通过本说明书实施例的训练方案，所需训练的特征编码器的参数是确定的，并且特征编码器的参数相对较少，降低了执行训练的硬件设备的要求。

在一个示例中，训练使用的所有训练样本对应的真实分类类别包括待训练的文本类别中的全部或大部分。例如，待训练的文本类别包括10000种类别，该10000种分类类别都需要进行训练，则所有训练样本对应的真实分类类别可以包括该10000种分类类别。

在待训练的文本类别都存储在文本类别库中时，训练使用的所有训练样本对应的真实文本类别包括文本类别库中的全部或者大部分文本类别。

通过该示例，可以保证训练使用的训练样本能够全部覆盖待训练的文本类别，或者能够覆盖大部分的待训练的文本类别。使得训练的特征编码器更具针对性，从而在分类预测过程中针对指定的文本类别的分类更准确。

在一个示例中，还可以基于输出的样本特征向量、分类矩阵以及所确定的文本类别对应的偏置矩阵得到当前训练样本针对所确定的各个文本类别的预测值。

在该示例中，偏置矩阵的维度根据分类类别的数量来确定，例如，当分类矩阵由K个分类类别对应的类别特征向量构成时，偏置矩阵的维度是K，偏置矩阵可以表示为：1×K。偏置矩阵中的每个参数对应一个分类类别，每个参数表示对应的分类类别的偏置。

总的偏置矩阵可以表示为：1×N，N表示训练所使用的全部的分类类别，在每次循环过程中，根据循环过程中使用的训练样本来从总的偏置矩阵中提取该循环过程使用的偏置矩阵。例如，一个循环过程确定出K个分类类别，则从1×N的总的偏置矩阵中提取该K个分类类别对应的偏置，将所提取的K个偏置构成一个1×K的偏置矩阵。

在该示例的存在偏置的情况下，当每次训练过程使用一个训练样本时，针对一个循环过程，可以按照下式来得到该循环过程中各个训练样本针对各个文本类别的预测值：

P＝X×W_i ^T+b_i

其中，P表示所得到的预测值，X表示各个训练样本对应的样本特征向量，W_i表示第i次循环过程所确定出的分类类别对应的分类矩阵，W_i ^T表示该分类矩阵的转置矩阵，b_i表示该循环过程所使用的偏置矩阵。b_i的大小为：1×K_i，K_i表示该循环过程中所使用的各个分类类别对应的偏置。

在该示例中，除了对特征编码器的编码器参数进行调整以外，还可以根据所得到的预测值和当前训练样本的真实类别对偏置矩阵进行调整。对偏置矩阵的调整可以采用梯度下降的方式。

每一次循环过程可以对部分分类类别的偏置进行调整，在满足循环结束条件并结束训练后，可以得到针对全部分类类别的经过调整的偏置，将各个分类类别的偏置构成针对全部分类类别的总的偏置矩阵。

通过该示例，在训练特征编码器的同时还可以训练针对各个分类类别的偏置矩阵，并可以得到训练好了的偏置矩阵，训练好了的偏置矩阵在文本分类预测过程中可以对各个分类类别的预测值进行修正，以提高分类预测的准确度。

图3示出了本说明书实施例的使用特征编码器进行文本分类的方法的一个示例300的流程图。

如图3所示，在310，获取待分类文本。

在320，从文本类别库中确定与待分类文本匹配的指定数量的文本类别。在一个示例中，可以使用召回算法来确定与待分类文本匹配的指定数量的文本类别。

在330，将待分类文本和所确定的文本类别输入经过训练的特征编码器，输出待分类文本对应的特征向量以及文本类别对应的分类矩阵。其中，分类矩阵由各个文本类别对应的类别特征向量构成。

在340，基于输出的特征向量和分类矩阵预测待分类文本的文本类别。

特征向量与分类矩阵的维度相同，特征向量与分类矩阵的转置矩阵相乘，可以得到待分类文本相对于各个文本类别的预测值。然后，可以将预测值最大的文本类别确定为该待分类文本对应的文本类别。

在一个示例中，还可以基于输出的特征向量、分类矩阵以及偏置矩阵来预测待分类文本的文本类别，所使用的偏置矩阵包括所确定的各个文本类别对应的偏置。

通过上述文本分类方法的示例，利用训练好的特征编码器来得到分类矩阵，而不是直接利用训练好的分类矩阵，避免了在训练过程中直接对分类矩阵进行训练，特征编码器的训练参数少于分类矩阵的训练参数，便于提高了训练效率。尤其是在分类矩阵较大的情况下，对硬件设备的要求也很高，而通过本说明书实施例的训练方案，降低了执行训练的硬件设备的要求。

图4示出了本说明书实施例的用于对输出分类矩阵的特征编码器进行训练的装置(以下称为特征编码器训练装置400)的方框图。如图4所示，特征编码器训练装置400可以包括训练样本获取单元410、特征向量化单元420、类别预测单元430和参数调整单元440。

训练样本获取单元410被配置为获取用于当前循环的当前训练样本。

特征向量化单元420被配置为将所述当前训练样本以及用于分类的多个文本类别分别输入待训练的特征编码器，输出各个当前训练样本对应的样本特征向量以及多个文本类别对应的分类矩阵，其中，分类矩阵由输入特征编码器的各个文本类别对应的类别特征向量构成。

类别预测单元430被配置为基于输出的样本特征向量以及分类矩阵得到当前训练样本针对各个文本类别的预测值。

参数调整单元440被配置为在不满足所述循环结束条件时，根据所得到的预测值和当前训练样本的真实分类类别对特征编码器的编码器参数进行调整，调整后的特征编码器作为下一次循环的特征编码器。

在一个示例中，特征编码器训练装置400还可以包括类别确定单元，类别确定单元被配置为针对每个当前训练样本，从文本类别库中确定与该当前训练样本匹配的指定数量的文本类别；以及特征向量化单元被配置为将当前训练样本以及所确定的文本类别分别输入待训练的特征编码器，得到各个当前训练样本对应的样本特征向量以及所确定的文本类别对应的分类矩阵。

在一个示例中，类别确定单元被配置为针对每个当前训练样本，使用召回算法从文本类别库中确定与该当前训练样本匹配的指定数量的文本类别。

在一个示例中，所述类别预测单元430被配置为：基于输出的样本特征向量、分类矩阵以及所确定的文本类别对应的偏置矩阵得到当前训练样本针对所确定的各个文本类别的预测值；以及参数调整单元440被配置为：在不满足循环结束条件时，根据所得到的预测值和当前训练样本的真实分类类别对特征编码器的编码器参数以及偏置矩阵进行调整。

在一个示例中，特征编码器训练装置400还可以包括类别去重单元，类别去重单元被配置为在当前训练样本有多个时，对所确定的所有文本类别进行去重处理。

图5示出了本说明书实施例的使用特征编码器进行文本分类的装置(以下称为文本分类装置500)的方框图。如图5所示，文本分类装置500可以包括文本获取单元510、类别匹配单元520、特征向量化单元530以及类别预测单元540。

文本获取单元510被配置为获取待分类文本。

类别匹配单元520被配置为从文本类别库中确定与待分类文本匹配的指定数量的文本类别。

特征向量化单元530被配置为将待分类文本和所确定的文本类别输入经过训练的特征编码器，输出待分类文本对应的特征向量以及文本类别对应的分类矩阵，其中，分类矩阵由各个文本类别对应的类别特征向量构成。

类别预测单元540被配置为基于输出的特征向量和分类矩阵预测待分类文本的文本类别。

图6示出了本说明书实施例的实现用于对输出分类矩阵的特征编码器进行训练的方法的电子设备600的方框图。

如图6所示，电子设备600可以包括至少一个处理器610、存储器(例如，非易失性存储器)620、内存630和通信接口640，并且至少一个处理器610、存储器620、内存630和通信接口640经由总线650连接在一起。至少一个处理器610执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器610：执行下述循环训练过程，直至满足循环结束条件：获取用于当前循环的当前训练样本；将当前训练样本以及用于分类的多个文本类别分别输入待训练的特征编码器，输出各个当前训练样本对应的样本特征向量以及多个文本类别对应的分类矩阵，其中，分类矩阵由输入特征编码器的各个文本类别对应的类别特征向量构成；基于输出的样本特征向量以及分类矩阵得到当前训练样本针对各个文本类别的预测值；以及在不满足循环结束条件时，根据所得到的预测值和当前训练样本的真实分类类别对特征编码器的编码器参数进行调整，调整后的特征编码器作为下一次循环的特征编码器。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器610进行本说明书的各个实施例中以上结合图1-5描述的各种操作和功能。

根据一个实施例，提供了一种例如机器可读介质的程序产品。机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本说明书的各个实施例中以上结合图1-5描述的各种操作和功能。

具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书实施例的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

以上结合附图详细描述了本说明书的实施例的可选实施方式，但是，本说明书的实施例并不限于上述实施方式中的具体细节，在本说明书的实施例的技术构思范围内，可以对本说明书的实施例的技术方案进行多种简单变型，这些简单变型均属于本说明书的实施例的保护范围。

本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说，对本说明书内容进行的各种修改是显而易见的，并且，也可以在不脱离本说明书内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本说明书内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于对输出分类矩阵的特征编码器进行训练的方法，包括：

执行下述循环训练过程，直至满足循环结束条件：

获取用于当前循环的当前训练样本；

将所述当前训练样本以及用于分类的多个文本类别分别输入待训练的特征编码器，输出各个当前训练样本对应的样本特征向量以及所述多个文本类别对应的分类矩阵，其中，所述分类矩阵由输入所述特征编码器的各个文本类别对应的类别特征向量构成；

基于输出的样本特征向量以及分类矩阵得到所述当前训练样本针对各个文本类别的预测值；以及

在不满足所述循环结束条件时，根据所得到的预测值和所述当前训练样本的真实分类类别对所述特征编码器的编码器参数进行调整，调整后的特征编码器作为下一次循环的特征编码器。

2.如权利要求1所述的方法，还包括：

针对每个当前训练样本，从文本类别库中确定与该当前训练样本匹配的指定数量的文本类别；以及

将所述当前训练样本以及用于分类的多个文本类别分别输入待训练的特征编码器，输出各个当前训练样本对应的样本特征向量以及所述多个文本类别对应的分类矩阵包括：

将所述当前训练样本以及所确定的文本类别分别输入待训练的特征编码器，得到各个当前训练样本对应的样本特征向量以及所确定的文本类别对应的分类矩阵。

3.如权利要求2所述的方法，其中，针对每个当前训练样本，从文本类别库中确定与该当前训练样本匹配的指定数量的文本类别包括：

针对每个当前训练样本，使用召回算法从文本类别库中确定与该当前训练样本匹配的指定数量的文本类别。

4.如权利要求2所述的方法，其中，基于输出的样本特征向量以及分类矩阵得到所述当前训练样本针对各个文本类别的预测值包括：

基于输出的样本特征向量、分类矩阵以及所确定的文本类别对应的偏置矩阵得到所述当前训练样本针对所确定的各个文本类别的预测值；以及

在不满足所述循环结束条件时，根据所得到的预测值和所述当前训练样本的真实分类类别对所述特征编码器的编码器参数进行调整包括：

在不满足所述循环结束条件时，根据所得到的预测值和所述当前训练样本的真实分类类别对所述特征编码器的编码器参数以及所述偏置矩阵进行调整。

5.如权利要求2所述的方法，其中，训练使用的所有训练样本对应的真实分类类别包括所述文本类别库中的全部或者大部分类别。

6.如权利要求2所述的方法，还包括：

在所述当前训练样本有多个时，对所确定的所有文本类别进行去重处理。

7.如权利要求1所述的方法，其中，所述循环结束条件包括：针对所述训练使用的全部训练样本的迭代次数达到指定次数，和/或针对所述训练使用的全部训练样本的预测准确率不再上升。

8.一种使用特征编码器进行文本分类的方法，其中，所述特征编码器根据权利要求1至7中的任一所述的训练方法得到，所述方法包括：

获取待分类文本；

从文本类别库中确定与所述待分类文本匹配的指定数量的文本类别；

将所述待分类文本和所确定的文本类别输入经过训练的特征编码器，输出所述待分类文本对应的特征向量以及所述文本类别对应的分类矩阵，其中，所述分类矩阵由各个文本类别对应的类别特征向量构成；以及

基于输出的特征向量和分类矩阵预测所述待分类文本的文本类别。

9.一种用于对输出分类矩阵的特征编码器进行训练的装置，包括：

训练样本获取单元，获取用于当前循环的当前训练样本；

特征向量化单元，将所述当前训练样本以及用于分类的多个文本类别分别输入待训练的特征编码器，输出各个当前训练样本对应的样本特征向量以及所述多个文本类别对应的分类矩阵，其中，所述分类矩阵由输入所述特征编码器的各个文本类别对应的类别特征向量构成；

类别预测单元，基于输出的样本特征向量以及分类矩阵得到所述当前训练样本针对各个文本类别的预测值；以及

参数调整单元，在不满足循环结束条件时，根据所得到的预测值和所述当前训练样本的真实分类类别对所述特征编码器的编码器参数进行调整，调整后的特征编码器作为下一次循环的特征编码器。

10.如权利要求9所述的装置，还包括：

类别确定单元，针对每个当前训练样本，从文本类别库中确定与该当前训练样本匹配的指定数量的文本类别；以及

所述特征向量化单元：

11.如权利要求10所述的装置，其中，所述类别确定单元：

12.如权利要求10所述的装置，其中，所述类别预测单元：

所述参数调整单元：

13.如权利要求10所述的装置，还包括：

类别去重单元，在所述当前训练样本有多个时，对所确定的所有文本类别进行去重处理。

14.一种使用特征编码器进行文本分类的装置，其中，所述特征编码器根据权利要求1至7中的任一所述的训练方法得到，所述装置包括：

文本获取单元，获取待分类文本；

类别匹配单元，从文本类别库中确定与所述待分类文本匹配的指定数量的文本类别；

特征向量化单元，将所述待分类文本和所确定的文本类别输入经过训练的特征编码器，输出所述待分类文本对应的特征向量以及所述文本类别对应的分类矩阵，其中，所述分类矩阵由各个文本类别对应的类别特征向量构成；以及

类别预测单元，基于输出的特征向量和分类矩阵预测所述待分类文本的文本类别。

15.一种电子设备，包括：

至少一个处理器，以及

与所述至少一个处理器耦合的存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求1到7中任一所述的方法。

16.一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求1到7中任一所述的方法。