CN111753091A

CN111753091A - 分类方法、分类模型的训练方法、装置、设备及存储介质

Info

Publication number: CN111753091A
Application number: CN202010622932.5A
Authority: CN
Inventors: 唐可欣; 齐保元; 孟二利
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-09
Anticipated expiration: 2040-06-30
Also published as: CN111753091B

Abstract

本公开是关于一种分类方法、分类模型的训练方法、装置、设备及存储介质。该分类方法，应用于电子设备，包括：基于待分类数据，得到生成器模型输出的第一预测结果；将所述待分类数据输入判别器模型，得到所第二预测结果；基于所述第一预测结果和所述第二预测结果，确定所述待分类数据的目标类别。由于第一预测结果和第二预测结果是分别基于生成器模型和判别器模型得到的，这样，能够充分利用生成器模型和判别器模型各自的特点，例如，在生成器模型的性能高，且判别器模型的精度高的情况下，能够提高对待分类数据进行分类的速度，并提高所得到的分类结果的精确性。

Description

分类方法、分类模型的训练方法、装置、设备及存储介质

技术领域

本公开涉及数学模型技术领域，尤其涉及一种分类方法、分类模型的训练方法、装置、设备及存储介质。

背景技术

海量标签文本分类，作为文本分类领域的一个重要分支，是从一个非常大的标签集中选择多个相关的标签标记一个给定的文本。该任务有许多实际应用，如商品分类、视频主题、新闻注释、搜索推荐等等。目前，海量标签文本分类算法主要分为四类：one-vs-all方法、基于树的方法、基于向量表征的方法和深度学习方法。

但是，相关技术中是基于单个分类模型对待分类数据进行分类，在进行分类的过程中，如果标签数量过多(例如，数万个标签)，通过单个的分类模型往往不能获得较为理想的分类结果。

发明内容

本公开提供一种分类方法、分类模型的训练方法、装置、设备及存储介质。

根据本公开实施例的第一方面，提供一种分类方法，应用于电子设备，包括：

基于待分类数据，得到生成器模型输出的第一预测结果；

将所述待分类数据输入判别器模型，得到所第二预测结果；

基于所述第一预测结果和所述第二预测结果，确定所述待分类数据的目标类别。

可选的，所述第一预测结果包括所述待分类数据在K个类别上的K个第一预测概率；所述第二预测结果包括所述待分类数据在所述K个类别上的K个第二预测概率；

所述基于所述第一预测结果和所述第二预测结果，确定所述待分类数据的目标类别，包括：

基于K个所述第一预测概率和K个所述第二预测概率的乘积，得到K个目标预测概率；

将所述K个目标预测概率，按照从大到小的顺序进行排序；

将排序后的前预设数量个所述目标预测概率所对应的预设数量个类别的类别标签，确定为所述待分类数据的目标标签。

可选的，所述方法还包括：

对所述待分类数据进行分词处理，将对所述待分类数据进行分词得到的词语输入所述生成器模型；

基于所述生成器模型对所述待分类数据所包含的词语进行词嵌入处理，得到所述待分类数据中各个词语的词向量。

可选的，所述基于待分类数据，得到生成器模型输出的第一预测结果，包括：

利用所述生成器模型，基于所述待分类数据中各个词语的词向量，得到所述待分类数据在K个类别上的K个第一预测概率；

所述将所述待分类数据输入判别器模型，得到所第二预测结果，包括：

利用所述判别器模型，基于所述待分类数据中各个词语的词向量，得到所述待分类数据在所述K个类别上的K个第二预测概率。

可选的，所述待分类数据的类型包括以下至少之一：图像数据类型、文本数据类型和音频数据类型。

可选的，所述生成器模型包括Albert模型，所述判别器模型包括Bert模型。

根据本公开实施例的第二方面，提供一种分类模型的训练方法，用于训练上述第一方面任一项所述的判别器模型，所述方法包括：

将训练集中的已标注的样本数据输入生成器模型，得到所述样本数据所对应的N个第一预测标签的N个类别概率；其中，每个样本数据对应有至少一个所述第一预测标签；

将所述N个类别概率按照从大到小的顺序排序，从排序后的所述类别概率中确定出前L个所述类别概率；

将前L个所述类别概率所对应的L个所述第一预测标签，确定为构成候选标签集的L个候选标签；其中，所述L和所述N为正整数，且所述L小于所述N；

基于所述样本数据和所述候选标签集，训练所述判别器模型。

可选的，所述方法还包括：

基于所述第一预测标签的总个数以及所述样本数据的个数，确定单个所述样本数据的平均标签个数；

基于所述平均标签个数与第一设定超参数的乘积，得到所述L。

可选的，所述方法还包括：

根据所述样本数据的真实标签和所述生成器模型输出的第一预测标签的差异，确定所述生成器模型在所述训练集上的第一损失；

基于所述候选标签和所述判别器模型输出的第二预测标签，确定所述判别器模型在所述候选标签集上的第二损失；

利用第二设定超参数，对所述第一损失和所述第二损失进行加权之后求和，得到训练损失；

基于所述训练损失，更新所述生成器模型和判别器模型的模型参数。

根据本公开实施例的第三方面，提供一种分类装置，应用于电子设备，包括：

第一获取模块，配置为基于待分类数据，得到生成器模型输出的第一预测结果；

第二获取模块，配置为将所述待分类数据输入判别器模型，得到所第二预测结果；

分类模块，配置为基于所述第一预测结果和所述第二预测结果，确定所述待分类数据的目标类别。

可选的，所述第一预测结果包括所述待分类数据在K个类别上的K个第一预测概率；所述第二预测结果包括所述待分类数据在所述K个类别上的K个第二预测概率；所述分类模块，还配置为：

将所述K个目标预测概率，按照从大到小的顺序进行排序；

可选的，所述装置还包括：

分词模块，配置为对所述待分类数据进行分词处理，将对所述待分类数据进行分词得到的词语输入所述生成器模型；

向量转换模块，配置为基于所述生成器模型对所述待分类数据所包含的词语进行词嵌入处理，得到所述待分类数据中各个词语的词向量。

可选的，所述第一获取模块，还配置为：

所述第二获取模块，还配置为：

根据本公开实施例的第四方面，提供一种分类模型训练装置，用于上述第三方面任一项所述的判别器模型，所述装置包括：

第三获取模块，配置为将训练集中的已标注的样本数据输入生成器模型，得到所述样本数据所对应的N个第一预测标签的N个类别概率；其中，每个样本数据对应有至少一个所述第一预测标签；

第一确定模块，配置为将所述N个类别概率按照从大到小的顺序排序，从排序后的所述类别概率中确定出前L个所述类别概率；

第二确定模块，配置为将前L个所述类别概率所对应的L个所述第一预测标签，确定为构成候选标签集的L个候选标签；其中，所述L和所述N为正整数，且所述L小于所述N；

训练模块，配置为基于所述样本数据和所述候选标签集，训练所述判别器模型。

可选的，所述装置还包括：

第三确定模块，配置为基于所述第一预测标签的总个数以及所述样本数据的个数，确定单个所述样本数据的平均标签个数；

第一计算模块，配置为基于所述平均标签个数与第一设定超参数的乘积，得到所述L。

可选的，所述装置还包括：

第四确定模块，配置为根据所述样本数据的真实标签和所述生成器模型输出的第一预测标签的差异，确定所述生成器模型在所述训练集上的第一损失；

第五确定模块，配置为基于所述候选标签和所述判别器模型输出的第二预测标签，确定所述判别器模型在所述候选标签集上的第二损失；

第二计算模块，配置为利用第二设定超参数，对所述第一损失和所述第二损失进行加权之后求和，得到训练损失；

更新模块，配置为基于所述训练损失，更新所述生成器模型和判别器模型的模型参数。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为：执行时实现上述第一方面中任一种分类方法或者上述第二方面中任一种分类模型训练中的步骤。

根据本公开实施例的第六方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述第一方面中任一种分类方法或者上述第二方面中任一种分类模型训练中的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本公开通过分别基于待分类数据，得到生成器模型输出的第一预测结果，将分类数据输入判别器模型，得到第二预测结果，并基于得到的第一预测结果和第二预测结果确定待分类数据的目标类别。由于第一预测结果和第二预测结果是分别基于生成器模型和判别器模型得到的，这样，能够充分利用生成器模型和判别器模型各自的特点，例如，在生成器模型的性能高，例如，运行速度快，且判别器模型的精度高的情况下，能够提高对待分类数据进行分类的速度，并提高所得到的分类结果的精确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种分类方法的流程示意图。

图2是根据一示例性实施例示出的一种分类模型的训练方法的流程示意图。

图3是根据一示例性实施例示出的另一种分类模型的训练方法的流程示意图。

图4是对生成器模型进行预训练的流程示意图。

图5是对判别器模型进行训练的流程示意图。

图6是根据一示例性实施例示出的分类装置框图。

图7是根据一示例性实施例示出的分类模型的训练装置框图。

图8是根据一示例性实施例示出的一种电子设备的框图。

图9是根据一示例性实施例示出的另一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例中提供了一种分类方法，图1是根据一示例性实施例示出的一种分类方法的流程示意图，如图1所示，该方法应用于电子设备，主要包括以下步骤：

在步骤101中，基于待分类数据，得到生成器模型输出的第一预测结果；

在步骤102中，将所述待分类数据输入判别器模型，得到所第二预测结果；

在步骤103中，基于所述第一预测结果和所述第二预测结果，确定所述待分类数据的目标类别。

这里，电子设备包括移动终端和固定终端，其中，移动终端包括：手机、平板电脑、笔记本电脑等；固定终端包括：个人计算机。在其他可选的实施例中，该信息处理方法也可以运行于网络侧设备，其中，网络侧设备包括：服务器、处理中心等。

本公开实施例中的生成器模型和判别器模型可用于实现预定功能，该预定功能包括但不限于以下至少之一：

对输入图像中目标和背景进行分割的目标分割；

对输入图像中目标的分类；

基于收入图像的目标跟踪；

基于医疗图像的诊断辅助；

基于输入语音的语音识别和/或语音校正等功能。

以上仅是对生成器模型和判别器模型所实现预定功能的举例说明，具体实现不局限于上述举例。

在一些实施例中，所述生成器模型包括Albert模型，所述判别器模型包括Bert模型。例如，生成器模型包括预测精度低但数据处理速度快的模型，如，Albert模型、tiny模型以及支持向量机等快速文本分类模型。判别器模型包括预测精度高但数据处理速度慢的预训练模型。如，Bert模型、知识增强语义表示模型(Enhanced Representation fromKnowledge Integration，Ernie模型)、Xlnet模型等神经网络模型。

在实现的过程中，可以以Albert模型为基础模型，并基于训练集中的已标注样本数据对Albert模型进行训练，得到生成器模型。例如，可以利用损失函数，基于样本数据的真实标签和Albert模型输出的第一预测标签，确定Albert模型在训练集上的第一损失，并基于第一损失更新Albert模型的模型参数，直至第一损失在设定时长内的数值变化小于设定变化阈值时，则停止训练Albert模型，得到生成器模型。

再例如，可以以Bert模型为基础模型，并基于训练集中的已标注样本数据对Bert模型进行训练，得到判别器模型。例如，可以利用损失函数，基于样本数据的真实标签和Bert模型输出的第二预测标签，确定Bert模型在训练集上的第二损失，并基于第二损失更新Bert模型的模型参数，直至第二损失在设定时长内的数值变化小于设定变化阈值时，则停止训练Bert模型，得到判别器模型。在其他可选的实施例中，也可以以其他方式训练得到生成器模型和判别器模型，在此不作具体限定。

在得到第一预测结果和第二预测结果之后，可以基于第一预测结果和第二预测结果，确定待分类数据的目标类别。例如，可以将第一预测结果和第二预测结果进行乘积计算，并基于计算结果确定待分类数据的目标类别。再例如，可以基于预设权重值，对第一预测结果和第二预测结果进行加权之后求和，并基于计算得到的和值确定待分类数据的目标类别。

本公开实施例中，通过分别基于待分类数据，得到生成器模型输出的第一预测结果，将待分类数据输入判别器模型，得到第二预测结果，并基于得到的第一预测结果和第二预测结果确定待分类数据的目标类别。由于第一预测结果和第二预测结果是分别基于生成器模型和判别器模型得到的，这样，能够充分利用生成器模型和判别器模型各自的特点，例如，在生成器模型的性能高，且判别器模型的精度高的情况下，能够提高对待分类数据进行分类的速度，并提高所得到的分类结果的精确性。

在一些实施例中，所述第一预测结果包括所述待分类数据在K个类别上的K个第一预测概率；所述第二预测结果包括所述待分类数据在所述K个类别上的K个第二预测概率；所述基于所述第一预测结果和所述第二预测结果，确定所述待分类数据的目标类别，包括：

将所述K个目标预测概率，按照从大到小的顺序进行排序；

本公开实施例中，可以基于生成器模型得到待分类数据在K个类别上的K个第一预测概率，并基于判别器模型得到待分类数据在K个类别上的K个第二预测概率。这里，第一预测概率和第二预测概率的类型可以包括：非归一化概率和归一化概率，其中，非归一化概率是未经归一化函数(例如，softmax函数、sigmoid等)进行归一化处理的概率值，归一化概率是指经过归一化函数进行归一化处理的概率值。由于非归一化概率相较于归一化概率所包含的信息量较高，本公开实施例中，可以基于生成器模型输出非归一化概率，在其他可选的实施例中，也可以基于生成器模型输出归一化概率。

在得到待分类数据在K个类别上的K个第一预测概率和K个第二预测概率之后，可以将K个第一预测概率和K个第二预测概率相乘，得到K个目标预测概率。由于第一预测结果和第二预测结果是分别基于生成器模型和判别器模型得到的，这样，能够充分利用生成器模型和判别器模型各自的特点，得到了目标预测概率。

在实现的过程中，为了减少需要处理的数据量，并提高分类结果的精确度，可以将K个目标预测概率按照设定顺序进行排序，并从排序后的目标预测概率中确定出预设数量个目标预测概率。例如，可以将K个目标预测概率按照从大到小的顺序进行排序。

在将K个目标预测概率按照从大到小的顺序进行排序的情况下，可以从排序后的目标预测概率中确定出前预设数量个目标预测概率，并将前预设数量个目标预测概率所对应的预设数量个类别的类别标签，确定为待分类数据的目标标签。在将K个目标预测概率按照从小到大的顺序进行排序的情况下，可以从排序后的目标预测概率中确定出后预设数量个目标预测概率，并将后预设数量个目标预测概率所对应的预设数量个类别的类别标签，确定为待分类数据的目标标签。

例如，如果待分类数据在第一类的第一预测概率是0.2，且第二预测概率是0.2，则待分类数据在第一类的目标预测概率是0.2与0.2的乘积值，即0.04。如果待分类数据在第二类的第一预测概率是0.07，且第二预测概率是0.5，则待分类数据在第二类的目标预测概率是0.07与0.5的乘积值，即0.035。如果待分类数据在第三类的第一预测概率是0.5，且第二预测概率是0.9，则待分类数据在第三类的目标预测概率是0.5与0.9的乘积值，即0.45.......如果待分类数据在第K类的第一预测概率是0.5，且第二预测概率是0.7，则待分类数据在第K类的目标预测概率是0.5与0.7的乘积值，即0.35。

这样，就能确定出待分类数据在各个类别的目标预测概率，其中，目标预测概率越大，则待分类数据属于该类别的可能性越大，目标预测概率越小，则待分类数据属于该类别的可能性越小。例如，待分类数据在第一类的目标预测概率是0.04，待分类数据在第二类的目标预测概率是0.035，则可以确定待分类数据属于第一类的概率高于属于第二类的概率。再例如，如果第一类的类别标签是经济，第二类的类别标签是娱乐，则可以确定待分类数据的类别标签是经济。

由于每个待分类数据可能会存在有多个类别标签，在实现的过程中，可以对K个目标预测概率进行排序，并将基于排序结果确定出的数值较大的目标预测概率所对应的预设数量个类别的类别标签，作为待分类数据的目标标签，在保证分类结果的精确性的基础上，也保证了分类结果的全面性。且，由于当目标预测概率小于设定概率阈值时，待分类数据属于该类别的可能性会很小，本公开实施例中，能够选取数值较高的目标预测概率，摒弃数值较低的目标预测概率，能够在保证输出的类别概率的准确性的基础上减少数据量，进而减少训练模型的计算量。

在一些实施例中，所述方法还包括：

这里，可以基于设定分词算法对待分类数据进行分词处理，得到基于词表示的待分类数据。其中，设定分词算法包括以下至少之一：基于字符串匹配的分词算法、基于理解的分词算法。

这里，基于字符串匹配的分词算法是指按照设定策略将待分词的字符串与设定机器词典中的词进行匹配，在词典中找到与字符串的子串对应的词，进而得到分词结果。例如，待分类数据包含“今天天气真好”，如果设定机器词典中包含“今天”，“天气”和“真好”这几个词语，则对待分类数据进行分词的结果为“今天天气真好”。

基于理解的分词算法是通过计算机模拟人对句子的理解，从而达到分词的效果，也就是在分词的同时进行句法，语义分析，利用句法信息和语义信息进行歧义消解。例如，基于大量采集数据进行模型训练得到基于理解的分词算法，然后将待分词的待分类数据输入基于理解的分词算法，得到并输出分词结果。

在基于设定分词算法对待分类数据进行分词处理之后，可以得到待分类数据包含的至少一个词语，这时，可以基于生成器模型对待分类数据所包含的词语进行词嵌入处理，得到待分类数据中各个词语的词向量。

在一些实施例中，也可以基于向量转换模型对待分类数据所包含的词语进行处理，得到待分类数据中各个词语的词向量。这里，向量转换模型包括以下至少之一：快速文本分类(FastText)模型、用来产生词向量(Word2vec，Word to Vector)的模型、连续词袋(CBOW，Continuous Bag-Of-Words)模型。本公开实施例中，通过对待分类数据进行分词，并得到各个词语的词向量，在待分类数据是文字的情况下，能够将待分类数据转化为数字，这样，能够提高数据处理的便利性。

在一些实施例中，所述基于待分类数据，得到生成器模型输出的第一预测结果，包括：

由于各个待分类数据可以包含有多个词语，在对待分类数据进行分词之后，可以基于生成器模型得到各个词语在各个类别上的第一预测概率，并基于判别器模型得到各个词语所在类别的第二预测概率，通过将分类过程细化到词语，能够使得分类结果更加精确。

在一些实施例中，也可以利用生成器模型，基于待分类数据中各个字符的字向量，得到待分类数据在K个类别上的K个第一预测概率；利用判别器模型，基于待分类数据中各个字符的字向量，得到待分类数据在K个类别上的K个第二预测概率。通过对待分类数据进行分词，并得到各个词语的词向量，进而得到对应的预测标签，在待分类数据是文字的情况下，能够将待分类数据转化为数字，能够提高数据处理的便利性。

本公开实施例中提供了一种分类模型的训练方法，图2是根据一示例性实施例示出的一种分类模型的训练方法的流程示意图，该方法用于训练上述任一实施例所述的判别器模型，如图2所示，该方法主要包括以下步骤：

在步骤201中，将训练集中的已标注的样本数据输入生成器模型，得到所述样本数据所对应的N个第一预测标签的N个类别概率；其中，每个样本数据对应有至少一个所述第一预测标签；

在步骤202中，将所述N个类别概率按照从大到小的顺序排序，从排序后的所述类别概率中确定出前L个所述类别概率；

在步骤203中，将前L个所述类别概率所对应的L个所述第一预测标签，确定为构成候选标签集的L个候选标签；其中，所述L和所述N为正整数，且所述L小于所述N；

在步骤204中，基于所述样本数据和所述候选标签集，训练所述判别器模型。

在一些实施例中，该分类模型的训练方法可以应用于电子设备，这里，电子设备包括移动终端和固定终端，其中，移动终端包括：手机、平板电脑、笔记本电脑等；固定终端包括：个人计算机。在其他可选的实施例中，该信息处理方法也可以运行于网络侧设备，其中，网络侧设备包括：服务器、处理中心等。

在一些实施例中，所述生成器模型包括Albert模型，所述判别器模型包括Bert模型。例如，生成器模型包括预测精度低但数据处理速度快的模型，如，Albert模型、tiny模型以及支持向量机等快速文本分类模型。判别器模型包括预测精度高但数据处理速度慢的预训练模型。如，Bert模型、Ernie模型、Xlnet模型等神经网络模型。

在一些实施例中，该方法还包括：基于训练集中的样本数据对生成器模型进行设定循环轮次的预训练，例如，对生成器模型进行5轮或者10轮的预训练。在实现的过程中，可以将训练集中的已标注的样本数据输入完成预训练的生成器模型，得到样本数据所对应的N个第一预测标签的N个类别概率。由于已经对生成器模型进行了预训练，能够使预训练之后的生成器模型初步收敛，这样，所得到的N个第一预测标签的N个类别概率的准确性相对较高。

在生成器模型输出N个第一预测标签的N个类别概率之后，可以对该N个类别概率按照设定顺序进行排序，例如，按照从大到小的顺序进行排序，或者按照从小到大的顺序进行排序。在将N个类别概率按照从大到小的顺序进行排序的情况下，可以从排序后的类别概率中确定出前L个类别概率，将前L个类别概率所对应的L个第一预测标签，确定为构成候选标签集的L个候选标签，并基于样本数据和候选标签集，训练判别器模型。

在一些实施例中，在将N个类别概率按照从小到大的顺序进行排序的情况下，可以从排序后的类别概率中确定出后L个类别概率，将后L个类别概率所对应的L个第一预测标签，确定为构成候选标签集的L个候选标签。由于L个候选标签是较高的类别概率所对应的标签，而类别概率越大，则样本数据属于该类别的可能性越大，类别概率越小，则样本数据属于该类别的可能性越小。本公开实施例中，可以将N个类别概率中较大的类别概率所对应的标签确定为候选标签，这样，能够将判别器模型需要判断的范围从N个缩小到L个，能够减少判别器模型需要进行处理的数据量。

在一些实施例中，在得到L个候选标签之后，可以将训练集中的样本数据和标签候选集中的L个候选标签输入判别器模型。在将样本数据输入判别器模型之后，可以基于判别器模型的编码层对样本数据的上下文进行编码，得到样本数据中各个词语的词向量。并基于判别器模型的注意力机制层得到各个词语与各个候选标签之间的关系，这里，各个词语与各个候选标签之间的关系包括：各个词语与各个候选标签之间的差异程度。

这里，可以基于判别器模型得到各个候选标签的标签向量，即获取各个候选标签的向量表征。在候选标签是由多个单词构成的情况下，可以获取各个单词的词向量，并基于所有的单词的词向量的平均值，得到候选标签的标签向量。

在得到候选标签的标签向量之后，可以将标签向量输入判别器模型的全连接层，并基于设定类型的激活函数得到各个类别的概率值，以及各个类别的概率值所对应的第二预测标签。本公开实施例中，可以从生成器模型输出的N个类别概率中较大的类别概率所对应的标签确定为候选标签，这样，能够将判别器模型需要判断的范围从N个缩小到L个，能够减少判别器模型需要进行处理的数据量。

在一些实施例中，所述方法还包括：

这里，假设m为单个样本数据的平均标签个数，则可以将生成器模型输出的类别概率按照从大到小的顺序进行排序，将排序后的类别概率中前k*m个类别概率所对应的第一预测标签确定为候选标签，并将候选标签作为判别器模型的输入，这里，第一设定超参数为k，其中k为可选超参数，例如，k可取4或5，且k*m<<N，且k*m＝L。这里，通过设定超参数，按照需求从第一预测标签中选取概率值较大的设定数量的候选标签，能够在提高训练精度的基础上提高模型训练的灵活性。

在一些实施例中，所述方法还包括：

本公开实施例中，可以基于预设类型的损失函数得到第一损失和第二损失。预设类型的损失函数包括二元互熵损失(Binary Cross-Entropy loss)以及叉熵损失(CategoricalCross-Entropy loss)函数。本公开实施例中，通过第一损失和第二损失调整生成器模型和判别器模型的模型参数，第一方面，能够实现同时对生成器模型和判别器模型进行训练，提高模型的训练速度；第二方面，通过预设类型的损失函数确定第一损失和第二损失，能够提升生成器模型和判别器模型的性能；另三方面，通过设置可调整的第二设定超参数，可以根据需要调整第一损失和第二损失在训练损失中所占的比重，增加了模型训练的灵活性。

在其他可选的实施例中，所述方法还包括：

当所述训练损失在设定时长内的数值变化小于设定变化阈值时，停止训练生成器模型和判别器模型。在其他可选的实施例中，还可以基于设定的验证集对生成器模型和判别器模型的准确率进行验证，当准确率达到设定准确率时，停止训练生成器模型和判别器模型，获得训练完成的生成器模型和判别器模型。

图3是根据一示例性实施例示出的另一种分类模型的训练方法的流程示意图，该方法用于训练上述任一实施例所述的判别器模型，如图3所示，该方法主要包括以下步骤：

在步骤301中，基于生成器模型得到进行初步筛选后的各个候选标签，以及各个候选标签的类别概率。

这里，可以基于分词器对所有训练集中的样本数据(例如，输入文本)进行分词，这里，分词器包括设定分词算法，例如，基于字符串匹配的分词算法、基于理解的分词算法等。在进行分词之后，可以获得各个词语所对应的词语标识(token id)，该词语标识用于唯一标识对应的词语。

在一些实施例中，在正式对生成器模型和判别器模型训练之前，可以先进入生成器模型的预训练(Pre-training)阶段，先训练生成器模型G。图4是对生成器模型进行预训练的流程示意图，如图4所示，以生成器模型是Albert模型为例，可以将输入文本(训练集中的样本数据)x1，x2，...，xn输入Albert模型，对各词语进行词嵌入处理后，经过全连接层解码输出，使用Sigmoid函数作为最后一层的激活函数，获得了初筛后各个第一预测标签的类别概率，进而可以得到输出标签(第一预测标签)y1，y2，...，yN，这里，可以进行设定循环轮次的预训练，直至生成器模型初步收敛，假设一共有N个第一预测标签，那么输出为N维向量，这是一个N维的二分类任务。

本公开实施例中，通过对生成器模型进行预训练，能够保证训练判别器模型时，生成器模型的输出不至于太差，从而加速整个网络的训练。在一些实施例中，在基于生成器模型得到进行初步筛选后的各个候选标签，以及各个候选标签的类别概率之后，可以继续训练整个网络模型，包括生成器模型和判别器模型。

在步骤302中，对生成器模型输出的类别概率进行采样，得到候选标签集。

这里，可以对生成器模型输出的类别概率进行采样，假设m为单个样本的平均标签个数，本公开实施例中，可以将生成器模型输出的类别概率按照从大到小的顺序进行排序，将排序后的类别概率中前k*m个类别概率所对应的第一预测标签确定为候选标签，并将候选标签作为判别器模型的输入，这里，第一设定超参数为k，其中k为可选超参数，例如，k可取4或5，且k*m<<N，且k*m＝L。

在步骤303中，基于训练集中的样本数据和候选标签集，训练判别器模型。

这里，假设候选集合一共有L个标签，那么输出为L维向量，这是一个L维的二分类任务。判别器模型的输入为训练集中的样本数据和候选标签集C，如图5所示，图5是对判别器模型进行训练的流程示意图。

以判别器模型是Bert模型为例，在对Bert模型进行训练的过程中，可以基于Bert模型的编码层作为基模型对样本数据的上下文进行编码，并获得编码了上下文后每个词语的向量表征。基于判别器模型的注意力机制层(Label-Attention层)得到各个词语(token0_i)与各个候选标签(c_j)之间的关系，这里，各个词语与各个候选标签之间的关系包括：各个词语与各个候选标签之间的差异程度。各个词语与各个候选标签之间的关系的计算公式如下：

公式(1)中，α_ij表示各个词语与各个候选标签之间的关系；h_i表示第i个词语的词向量；w_j表示第j个候选标签的标签向量；L表示候选标签的个数；i表示词向量的索引，j表示标签向量的索引，且i和j均为正整数。

这里，可以基于判别器模型得到各个候选标签(c_j)的标签向量，即获取各个候选标签的向量表征。在候选标签是由多个单词构成的情况下，可以获取各个单词的词向量，并基于所有的单词的词向量的平均值，得到候选标签的标签向量。

在一些实施例中，可以使用Attention层对样本数据的每个词语与候选标签的标签向量进行编码，获得代码编码上下文的标签向量，公式如下：

公式(2)中，m_j表示代码编码上下文的标签向量；α_ij表示各个词语与各个候选标签之间的关系；h_i表示第i个词语的词向量；N表示候选标签的个数，且N为正整数。

在一些实施例中，在得到代码编码上下文的标签向量之后，可以将所有的标签向量乘以设定个数(例如，2个)的共享权重，并经过全连接层将乘积值前向传播，获得各个类别的类别概率。这里，全连接层的中间层f可以使用Relu激活函数，输出层可以使用Sigmoid激活函数。这里，最后输出为N个二分类，公式如下：

公式(3)中，

表示输出的类别概率；m_j表示代码编码上下文的标签向量；w₁表示第一共享权重；w₂表示第二共享权重。

在步骤304中，计算训练损失，并基于训练损失调整生成器模型和判别器模型的模型参数。

这里，可以根据样本数据的真实标签和生成器模型输出的第一预测标签的差异，确定生成器模型在训练集上的第一损失(loss₁)，基于候选标签和判别器模型输出的第二预测标签，确定判别器模型在候选标签集上的第二损失(loss₂)，利用第二设定超参数(α)，对第一损失和第二损失进行加权之后求和，得到训练损失(Loss)。训练损失的计算公式如下：

Loss＝loss₁+α*loss₂ (4)；

公式(4)中，Loss表示训练损失；loss₁表示第一损失；loss₂表示第二损失；α表示第二设定超参数。

在一些实施例中，由于loss₁的值大于loss₂，为了减少loss₁和loss₂之间的差距，提高模型训练的精确度，可以使α大于或者等于设定阈值，其中，设定阈值可以是20。其中，生成器模型的第一损失loss₁可以为全量类别N上的二元交叉熵，判别器模型的第二损失loss₂可以为候选标签集C上的二元交叉熵，按照设定比例相加获得最终Loss。

在一些实施例中，根据设定的训练轮数(Epochs)和批大小(Batch Size)，循环步骤301至步骤304，直至生成器模型和判别器模型收敛或达到训练轮数，获得训练后的生成器模型和判别器模型；在对生成器模型和判别器模型进行预测时，可以计算生成器模型和判别器模型在候选标签集上(非候选标签不再考虑)的分数的乘积，选取排名靠前的设定数量个标签作为最终的输出结果。

本公开实施例中，第一方面，通过同时训练两个模型的方法，减少了训练时间和内存的开销；可以将类别概率中较大的类别概率所对应的标签确定为候选标签，这样，能够将判别器模型需要判断的范围从全量标签集合缩小到候选标签集；通过结合于训练集中的样本数据和候选标签集，训练判别器模型

输出的分类结果的方式，整体提升了最终分类结果的精度。

第二方面，采用Albert作为生成器模型获得候选标签集，候选标签集的获取不依赖于其它算法，而是取决于输入文本本身，Albert小且性能良好的特性使得作为判别器模型的Bert更容易学习到正确的排序；判别器模型使用自注意力编码层获得标签之间的内部关系编码，有助于提高模型的精度；最终输出标签通过考虑判别器模型的结果选取排名靠前的分数，有益于提高最终输出结果的精度。

图6是根据一示例性实施例示出的分类装置框图，如图6所示，该分类装置600应用于电子设备，主要包括：

第一获取模块601，配置为基于待分类数据，得到生成器模型输出的第一预测结果；

第二获取模块602，配置为将所述待分类数据输入判别器模型，得到所第二预测结果；

分类模块603，配置为基于所述第一预测结果和所述第二预测结果，确定所述待分类数据的目标类别。

在一些实施例中，所述第一预测结果包括所述待分类数据在K个类别上的K个第一预测概率；所述第二预测结果包括所述待分类数据在所述K个类别上的K个第二预测概率；所述分类模块603，还配置为：

将所述K个目标预测概率，按照从大到小的顺序进行排序；

在一些实施例中，所述装置600还包括：

在一些实施例中，所述第一获取模块601，还配置为：

所述第二获取模块，还配置为：

在一些实施例中，所述待分类数据的类型包括以下至少之一：图像数据类型、文本数据类型和音频数据类型。

在一些实施例中，所述生成器模型包括Albert模型，所述判别器模型包括Bert模型。

图7是根据一示例性实施例示出的分类模型的训练装置框图，如图7所示，该分类模型的训练装置700用于训练上述任一实施例所述的判别器模型，所述装置包括：

第三获取模块701，配置为将训练集中的已标注的样本数据输入生成器模型，得到所述样本数据所对应的N个第一预测标签的N个类别概率；其中，每个样本数据对应有至少一个所述第一预测标签；

第一确定模块702，配置为将所述N个类别概率按照从大到小的顺序排序，从排序后的所述类别概率中确定出前L个所述类别概率；

第二确定模块703，配置为将前L个所述类别概率所对应的L个所述第一预测标签，确定为构成候选标签集的L个候选标签；其中，所述L和所述N为正整数，且所述L小于所述N；

训练模块704，配置为基于所述样本数据和所述候选标签集，训练所述判别器模型。

在一些实施例中，所述装置700还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种电子设备1200的框图。例如，电子设备1200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，电子设备1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电力组件1206，多媒体组件1208，音频组件1210，输入/输出(I/O)接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制电子设备1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在电子设备1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件1206为电子设备1200的各种组件提供电力。电力组件1206可以包括电源管理系统，一个或多个电源，及其他与为电子设备1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在所述电子设备1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(MIC)，当电子设备1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

I/O接口1212为处理组件1202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为电子设备1200提供各个方面的状态评估。例如，传感器组件1214可以检测到设备1200的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1200的显示器和小键盘，传感器组件1214还可以检测电子设备1200或电子设备1200一个组件的位置改变，用户与电子设备1200接触的存在或不存在，电子设备1200方位或加速/减速和电子设备1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于电子设备1200和其他设备之间有线或无线方式的通信。电子设备1200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1204，上述指令可由电子设备1200的处理器1220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种分类方法，所述方法包括：

基于待分类数据，得到生成器模型输出的第一预测结果；

将所述待分类数据输入判别器模型，得到所第二预测结果；

或者使得电子设备能够执行一种分类模型的训练方法，所述方法包括：

图9是根据一示例性实施例示出的另一种电子设备1300的框图。例如，电子设备1300可以被提供为一服务器。参照图9，电子设备1300包括处理组件1322，其进一步包括一个或多个处理器，以及由存储器1332所代表的存储器资源，用于存储可由处理组件1322的执行的指令，例如应用程序。存储器1332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1322被配置为执行指令，以执行上述分类方法，所述方法包括：

基于待分类数据，得到生成器模型输出的第一预测结果；

将所述待分类数据输入判别器模型，得到所第二预测结果；

或执行上述分类模型的训练方法，所述方法包括：

电子设备1300还可以包括一个电源组件1326被配置为执行电子设备1300的电源管理，一个有线或无线网络接口1350被配置为将电子设备1300连接到网络，和一个输入输出(I/O)接口1358。电子设备1300可以操作基于存储在存储器1332的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种分类方法，其特征在于，应用于电子设备，包括：

基于待分类数据，得到生成器模型输出的第一预测结果；

将所述待分类数据输入判别器模型，得到所第二预测结果；

2.根据权利要求1所述的方法，其特征在于，所述第一预测结果包括所述待分类数据在K个类别上的K个第一预测概率；所述第二预测结果包括所述待分类数据在所述K个类别上的K个第二预测概率；

将所述K个目标预测概率，按照从大到小的顺序进行排序；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于待分类数据，得到生成器模型输出的第一预测结果，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述待分类数据的类型包括以下至少之一：图像数据类型、文本数据类型和音频数据类型。

6.根据权利要求1至4任一项所述的方法，其特征在于，所述生成器模型包括Albert模型，所述判别器模型包括Bert模型。

7.一种分类模型的训练方法，其特征在于，用于训练权利要求1至6任一项所述的判别器模型，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

10.一种分类装置，其特征在于，应用于电子设备，包括：

11.根据权利要求10所述的装置，其特征在于，所述第一预测结果包括所述待分类数据在K个类别上的K个第一预测概率；所述第二预测结果包括所述待分类数据在所述K个类别上的K个第二预测概率；所述分类模块，还配置为：

将所述K个目标预测概率，按照从大到小的顺序进行排序；

12.根据权利要求10所述的装置，其特征在于，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，所述第一获取模块，还配置为：

所述第二获取模块，还配置为：

14.根据权利要求10至13任一项所述的装置，其特征在于，所述待分类数据的类型包括以下至少之一：图像数据类型、文本数据类型和音频数据类型。

15.根据权利要求10至13任一项所述的装置，其特征在于，所述生成器模型包括Albert模型，所述判别器模型包括Bert模型。

16.一种分类模型训练装置，其特征在于，用于训练权利要求10至15任一项所述的判别器模型，所述装置包括：

17.根据权利要求16所述的装置，其特征在于，所述装置还包括：

18.根据权利要求16所述的装置，其特征在于，所述装置还包括：

19.一种电子设备，其特征在于，包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为：执行时实现上述权利要求1至6中任一种分类方法或者权利要求7至9中任一种分类模型训练中的步骤。

20.一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述权利要求1至6中任一种分类方法或者权利要求7至9中任一种分类模型训练中的步骤。