CN115908933A

CN115908933A - 半监督分类模型训练、图像分类方法和装置

Info

Publication number: CN115908933A
Application number: CN202211541994.9A
Authority: CN
Inventors: 王家兴; 李勇; 宫礼星; 陶通; 刘朋樟; 包勇军; 颜伟鹏
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2023-04-04

Abstract

本公开提供了一种半监督分类模型训练方法和装置，涉及人工智能技术领域。该方法的一具体实施方式包括：对获取的素材样本进行序列化处理，得到素材序列；对素材序列进行随机掩码处理，得到包括整体语义特征的掩码序列；将素材序列和掩码序列输入预先构建的半监督分类网络的掩码预测网络中，计算得到掩码预测网络的掩码预测损失；将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，计算得到线性分类网络的监督损失；基于掩码预测损失和监督损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型。该实施方式提高了半监督分类模型的分类性能。

Description

半监督分类模型训练、图像分类方法和装置

技术领域

本公开涉及计算机技术领域，具体涉及人工智能技术领域，尤其涉及半监督分类模型训练方法和装置、图像分类方法和装置、电子设备、计算机可读介质。

背景技术

深度神经网络已经被应用于图像分类、目标检测与跟踪、语义分割、情感分析、机器翻译、语音辨识等等各个领域，成为了现代人工智能中最重要的方法之一。深度神经网络的训练需要大量的高质量标注样本，然而，高质量标注样本的获得却非常困难，数据标注的时间和经济成本都非常高。在移动互联网得到广泛应用的今天，如何将互联网上海量的无标注样本运用起来，使得的模型可以在少量标椎样本的监督和大量无标注样本的帮助下获得较高的精度，即进行半监督学习，就变成了一个非常重要的问题。

发明内容

本公开的实施例提出了半监督分类模型训练方法和装置、图像分类方法和装置、电子设备、计算机可读介质。

第一方面，本公开的实施例提供了一种半监督分类模型训练方法，该方法包括：对获取的素材样本进行序列化处理，得到素材序列；对素材序列进行随机掩码处理，得到包括整体语义特征的掩码序列；将素材序列和掩码序列输入预先构建的半监督分类网络的掩码预测网络中，计算得到掩码预测网络的掩码预测损失；将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，计算得到线性分类网络的监督损失；基于掩码预测损失和监督损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型。

在一些实施例中，上述掩码预测网络包括：掩码分词器、掩码分类器以及训练完成的素材分词器、素材编码字典；将素材序列和掩码序列输入预先构建的半监督分类网络的掩码预测网络中，计算得到掩码预测网络的掩码预测损失包括：将素材序列输入素材分词器，得到素材块编码；从素材编码字典中选取与素材块编码相匹配的素材向量，得到素材向量序列；将掩码序列输入掩码分词器，得到预测块编码；将预测块编码输入掩码分类器，以使掩码分类器从素材编码字典选取与预测块编码相匹配的预测向量，得到预测向量序列；基于素材向量序列和预测向量序列，计算得到掩码预测网络的掩码预测损失。

在一些实施例中，上述素材分词器和素材编码字典的训练过程如下：对获取的样本素材进行序列化处理，得到样本序列；将样本序列输入素材分词网络，得到样本特征序列，从样本编码字典选取与样本特征序列相对应的样本编码序列，并对样本编码序列进行解码，得到预测序列；将样本序列输入预训练的样本监督模型，得到监督序列；基于预测序列和监督序列，训练素材分词网络以及素材编码字典；响应于素材分词网络满足训练完成条件，得到素材分词器。

在一些实施例中，上述将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，计算得到线性分类网络的监督损失包括：将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，得到线性分类网络输出的分类结果；基于分类结果和目标标签，计算得到线性分类网络的监督损失。

在一些实施例中，上述基于掩码预测损失和监督损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型包括：确定监督损失的权重值；将监督损失与权重值相乘，再与掩码预测损失相加，得到半监督分类网络的损失；基于半监督分类网络的损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型。

第二方面，本公开的实施例提供了一种图像分类方法，该方法包括：获取待分类图像；对待分类图像进行分块处理，得到图像块序列；将图像块序列输入半监督分类模型，得到半监督分类模型输出的待分类图像中目标的分类结果，半监督分类模型采用如第一方面任一实施例的半监督分类模型训练方法训练得到。

第三方面，本公开的实施例提供了一种半监督分类模型训练装置，该装置包括：得到单元，被配置成对获取的素材样本进行序列化处理，得到素材序列；掩码处理单元，被配置成对素材序列进行随机掩码处理，得到包括整体语义特征的掩码序列；掩码计算单元，被配置成将素材序列和掩码序列输入预先构建的半监督分类网络的掩码预测网络中，计算得到掩码预测网络的掩码预测损失；监督计算单元，被配置成将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，计算得到线性分类网络的监督损失；训练单元，被配置成基于掩码预测损失和监督损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型。

在一些实施例中，上述掩码预测网络包括：掩码分词器、掩码分类器以及训练完成的素材分词器、素材编码字典；上述掩码计算单元进一步被配置成：将素材序列输入素材分词器，得到素材块编码；从素材编码字典中选取与素材块编码相匹配的素材向量，得到素材向量序列；将掩码序列输入掩码分词器，得到预测块编码；将预测块编码输入掩码分类器，以使掩码分类器从素材编码字典选取与预测块编码相匹配的预测向量，得到预测向量序列；基于素材向量序列和预测向量序列，计算得到掩码预测网络的掩码预测损失。

在一些实施例中，上述监督计算单元进一步被配置成：将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，得到线性分类网络输出的分类结果；基于分类结果和目标标签，计算得到线性分类网络的监督损失。

在一些实施例中，上述训练单元进一步被配置成：确定监督损失的权重值；将监督损失与权重值相乘，再与掩码预测损失相加，得到半监督分类网络的损失；基于半监督分类网络的损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型。

第四方面，本公开的实施例提供了一种图像分类装置，该装置包括：图像获取单元，被配置成获取待分类图像；图像处理单元，被配置成对待分类图像进行分块处理，得到图像块序列；目标分类单元，被配置成将图像块序列输入半监督分类模型，得到半监督分类模型输出的待分类图像中目标的分类结果，半监督分类模型采用第三方面任一实施例的半监督分类模型训练装置训练得到。

第五方面，本公开的实施例提供了一种电子设备，该电子设备包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面或第二方面中任一实施例描述的方法。

第六方面，本公开的实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面中任一实施例描述的方法。

本公开的实施例提供的半监督分类模型训练方法和装置，首先对获取的素材样本进行序列化处理，得到素材序列；其次，对素材序列进行随机掩码处理，得到包括整体语义特征的掩码序列；再次，将素材序列和掩码序列输入预先构建的半监督分类网络的掩码预测网络中，计算得到掩码预测网络的掩码预测损失；从次，将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，计算得到线性分类网络的监督损失；最后，基于掩码预测损失和监督损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型。由此，采用掩码预测网络可以关注下游任务相关的高阶语义和全局性特征，避免了半监督分类模型的容量的浪费；先使用掩码预测网络对全部数据进行训练之后再使用线性分类网络对少量标注数据进行微调，从而在进行掩码预测建模训练时，先行预告了下游任务以提取到更高阶的、任务相关的语义信息，提高了半监督分类模型的分类性能。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的半监督分类模型训练方法的一个实施例的流程图；

图3是本公开半监督分类模型对应的网络结构的一种示意图；

图4是根据本公开的图像分类方法的一个实施例的流程图；

图5是根据本公开的半监督分类模型训练装置的一个实施例的结构示意图；

图6是根据本公开的图像分类装置的一个实施例的结构示意图；

图7是适于用来实现本公开的实施例的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的半监督分类模型训练方法或图像分类方法的示例性系统架构100。

如图1所示，系统架构100可以包括终端101、102，网络103、数据库服务器104和服务器105。网络103用以在终端101、102，数据库服务器104与服务器105之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户110可以使用终端101、102通过网络103与服务器105进行交互，以接收或发送消息等。终端101、102上可以安装有各种客户端应用，例如模型训练类应用、图像识别应用、购物类应用、支付类应用、网页浏览器和即时通讯工具等。

这里的终端101、102可以是硬件，也可以是软件。当终端101、102为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、膝上型便携计算机和台式计算机等等。当终端101、102为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

数据库服务器104可以是提供各种服务的数据库服务器。例如数据库服务器中可以存储有素材样本集。素材样本集中包含有大量的素材样本，素材样本可以包括带目标标签的素材样本和不带目标标签的素材样本，其中目标标签是对应分类任务的标签。这样，用户110也可以通过终端101、102，从数据库服务器104所存储的素材样本集中选取素材样本。

服务器105也可以是提供各种服务的服务器，例如对终端101、102上显示的各种应用提供支持的后台服务器。后台服务器可以利用终端101、102发送的素材样本集中的素材样本，训练半监督分类模型，并可以将训练得到的半监督分类模型发送给终端101、102。这样，用户可以应用生成的半监督分类模型确定图像中目标的分类结果等。

这里的数据库服务器104和服务器105同样可以是硬件，也可以是软件。当它们为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当它们为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开的实施例所提供的半监督分类模型训练方法或图像分类方法一般由服务器105执行。相应地，半监督分类模型训练装置或图像分类装置一般也设置于服务器105中。

需要指出的是，在服务器105可以实现数据库服务器104的相关功能的情况下，系统架构100中可以不设置数据库服务器104。

应该理解，图1中的终端、网络、数据库服务器和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端、网络、数据库服务器和服务器。

本公开提供了一种半监督分类模型训练方法，在半监督分类模型训练过程中，采用掩码预测网络帮助少量标注样本实现数据高效的半监督学习，掩码预测编码通过学习样本内容的全局语义关联信息来进行无监督的特征提取，可以更好地应用于下游任务。如图2，示出了根据本公开的半监督分类模型训练方法的一个实施例的流程200，该半监督分类模型训练方法包括以下步骤：

步骤201，对获取的素材样本进行序列化处理，得到素材序列。

本实施例中，素材样本是从素材样本集中获取的样本，对于不同的半监督分类任务，素材样本的形式可以不同，例如，对于图像分类任务，素材样本为图像样本；对于文本分类任务，素材样本为文本样本。

本实施例中，素材样本可以是从素材样本集中随机抽取的数据，素材样本集是实现半监督分类模型预测的数据集，素材样本集包括多个素材样本。素材样本包括：带目标标签的样本和不带目标标签的样本，其中，带目标标签的样本的数量较少，而不带目标标签的样本的数量较多，通过组合较少的带目标标签的样本和不带目标标签的样本，可以大数据量的素材样本。

本实施例中，目标标签是与目标分类任务相关的标签，也即对应分类任务的标签，通过该目标标签，模型可以精确确定素材样本所属的目标类型。

本实施例中，半监督分类模型训练方法的执行主体(例如图1所示的服务器)可以通过多种方式来获取素材样本集，并从素材样本集中抽取素材样本。例如，执行主体可以通过有线连接方式或无线连接方式，从数据库服务器(例如图1所示的数据库服务器104)中获取存储于其中的现有的素材样本集。再例如，用户可以通过终端(例如图1所示的终端101、102)来收集样本。这样，执行主体可以接收终端所收集的样本，并将这些样本存储在本地，从而生成素材样本集。

对于文本分类任务。上述对获取的素材样本进行序列化处理，得到素材序列包括：对样本文本进行分字处理，得到包括整体语义特征的字序列。

对于图像分类任务，上述对获取的素材样本进行序列化处理，得到素材序列包括：将样本图像顺序切块，排布成一个素材序列，素材序列中每个元素为样本图像的一个小块。

步骤202，对素材序列进行随机掩码处理，得到包括整体语义特征的掩码序列。

本实施例中，素材序列为多个生成素材样本的片段，对多个片段中的任意一个或多个片段进行掩码处理，遮挡片段的内容，得到包括掩码片段的掩码序列。

本实施例中，整体语义特征是用于下游分类任务的语义表示，该整体语义特征可以表达整个素材样本的特征。对于素材样本中带目标标签的样本，该带目标标签的样本的整体语义特征也带有目标标签；对于素材样本中不带目标标签的样本，该不带目标标签的样本的整体语义特征也不带有目标标签。

对于文本分类任务，半监督分类网络在素材样本前插入一个符号，并将该符号对应的输出向量作为整篇文本的语义表示，用于文本分类。

对于文本分类任务，对素材序列进行随机掩码处理，得到包括整体语义特征的掩码序列包括：将包括整体语义特征的字序列中的任意一个或多个字进行掩码，得到包括整体语义特征的掩码后的字序列。

对于图像分类任务，如图3所示，对素材序列进行随机掩码处理，得到包括整体语义特征的掩码序列包括：将包括整体语义特征CLS的图像块序列中的任一个图像块或者多个图像块进行掩码，并在掩码后的序列中附加一个可训练的额外图像块，额外图像块如图3中的“CLS”，该额外图像块作为整体语义特征用于后续的图像整体分类，在掩码预测网络进行预测时，该额外图像块也会向序列中其他图像块一样，也会被进行预测。

步骤203，将素材序列和掩码序列输入预先构建的半监督分类网络的掩码预测网络中，计算得到掩码预测网络的掩码预测损失。

本实施例中，掩码预测网络用于对素材序列进行编码，并对掩码序列中的掩码素材进行预测的网络，掩码预测网络包括：编码子网络、预测子网络以及损失计算模块，其中，编码子网络用于对素材序列进行编码，预测子网络对掩码序列中的掩码素材进行预测的网络，损失计算模块用于对预测子网络的预测结果与编码子网络的编码结果进行损失计算，得到掩码预测损失。

对于图像分类任务，将掩码序列送入掩码预测网络的预测子网络，预测子网络逐个预测掩码序列中被遮盖的图像块的图像词，这实际是一个多分类问题，即将图像块正确地分类到其应属的图像词中，编码子网络可以提供真实的掩码图像词，这里掩码预测问题被转化成了一个监督分类问题，掩码预测损失是分类的交叉熵分类损失，通过优化掩码预测损失，掩码预测网络可以根据部分图像正确地找到其余的部分，如果提取到的特征可以准确判断掩码部分图像表示的“概念”，就说明该模型可以很好地抽取样本的高阶语义信息。同时，掩码预测建模巧妙地将这样的特征抽取任务构建为一个分类问题，通过一个相对简单的任务完成了无监督样本特征的提取。

本实施例中，掩码预测网络对素材样本中带目标标签的样本和不带目标标签的样本均会进行掩码预测训练，因此，掩码预测损失等于带目标标签的样本对应的第一损失和不带目标标签的样本对应的第二损失之和。

步骤204，将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，计算得到线性分类网络的监督损失。

本实施例中，经过半监督分类网络处理的整体语义特征是一种高阶语义特征，该高阶语义特征可以有效地概括素材样本的特征。

本实施例中，目标标签是与分类任务相关的标签，在线性分类网络进行预测时，对带目标标签的样本进行与任务类型相关的预测，得到分类预测结果，基于预测结果与目标标签之间的差值，计算交叉熵分类损失，得到线性分类网络的监督损失。

本实施例中，带目标标签的高阶语义特征属于任务样本，将带目标标签的高阶语义特征作为特征，输入线性分类网络进行训练，采用多分类交叉熵损失函数计算线性分类网络的损失，得到监督损失。

对于图像分类任务，如图3中，整体语义特征是CLS，经过掩码预测网络处理的整体语义特征Ct是掩码预测网络对整体语义特征CLS进行训练之后的特征，将经过掩码预测网络处理的整体语义特征Ct输入线性分类网络，可以使线性分类网络对素材样本的目标类型进行预测。

步骤205，基于掩码预测损失和监督损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型。

本实施例中，半监督分类模型是与半监督分类网络相对应的模型，当半监督分类网络在迭代训练过程满足训练完成条件，确定当前的半监督分类网络即为半监督分类模型。

本实施例中，半监督分类网络、半监督分类模型用于表征素材与素材中目标类别之间的对应关系，其中，素材可以是：图像、文本，例如，素材为图像，则半监督分类模型是用于表征图像以及图像中目标类型之间的对应关系。

本实施例中，上述训练完成条件可以包括：训练迭代次数达到预定迭代阈值，半监督分类网络的损失小于预定损失阈值。例如，训练迭代达到5万次，半监督分类网络的损失小于0.05，本实施例通过设置训练完成条件可以加快模型收敛速度。

本实施例中，上述基于掩码预测损失和监督损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型包括：将掩码预测损失与监督损失相加，得到半监督分类网络的损失，检测半监督分类网络的损失是否达到预定损失阈值，响应于检测到半监督分类网络的损失无法达到预定损失阈值，获取半监督分类网络的训练迭代次数，当训练迭代次数达到预定迭代阈值，确定半监督分类网络即为训练完成的半监督分类模型；响应于检测到半监督分类网络的损失达到预定损失阈值，确定半监督分类网络即为训练完成的半监督分类模型。

需要说明的是，响应于检测到半监督分类网络的损失未达到预定损失阈值，以及训练迭代次数未达到预定迭代阈值，还可以继续执行步骤201至步骤205，直至半监督分类网络满足训练完成条件为止。

经过上述步骤，就可以实现基于掩码预测编码进行数据高效的半监督学习，掩码预测编码可以在少量监督信号的引导下更好地提取任务相关的高阶全局语义特征，从而达到数据高效的半监督学习的目的。

本公开的实施例提供的半监督分类模型训练方法，首先对获取的素材样本进行序列化处理，得到素材序列；其次，对素材序列进行随机掩码处理，得到包括整体语义特征的掩码序列；再次，将素材序列和掩码序列输入预先构建的半监督分类网络的掩码预测网络中，计算得到掩码预测网络的掩码预测损失；从次，将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，计算得到线性分类网络的监督损失；最后，基于掩码预测损失和监督损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型。由此，采用掩码预测网络可以关注下游任务相关的高阶语义和全局性特征，避免了半监督分类模型的容量的浪费；先使用掩码预测网络对全部数据进行训练之后再使用线性分类网络对少量标注数据进行微调，从而在进行掩码预测建模训练时，先行预告了下游任务以提取到更高阶的、任务相关的语义信息，提高了半监督分类模型的分类性能。

在本实施例的一些可选实现方式中，掩码预测网络包括：掩码分词器、掩码分类器以及训练完成的素材分词器、素材编码字典；将素材序列和掩码序列输入预先构建的半监督分类网络的掩码预测网络中，计算得到掩码预测网络的掩码预测损失包括：将素材序列输入素材分词器，得到素材块编码；从素材编码字典中选取与素材块编码相匹配的素材向量，得到素材向量序列；将掩码序列输入掩码分词器，得到预测块编码；将预测块编码输入掩码分类器，以使掩码分类器从素材编码字典选取与预测块编码相匹配的预测向量，得到预测向量序列；基于素材向量序列和预测向量序列，计算得到掩码预测网络的掩码预测损失。

本实施例中，在得到素材向量序列和预测向量序列之后，将素材向量序列作为预测向量序列的真值，采用多分类交叉熵损失函数，可以计算得到掩码预测网络的掩码预测损失。

本实施例中，当掩码预测网络用于对图像进行掩码处理时，掩码预测网络是对图像进行掩码以及图像类型预测处理的网络，具体地，掩码分词器和素材分词器可以采用Beit(Bidirectional Encoder representation from Image Transformers，基于图像Transformer的双向编码表示法)模型结构。

本实施例中，当掩码预测网络用于对文本进行掩码处理时，掩码预测网络是对文本进行掩码以及文本类型预测处理的网络，具体地，掩码分词器和素材分词器可以采用Bert(Bidirectional Encoder Representations from Transformers，基于Transformer的双向编码表示法)模型结构。

如图3所示，使用素材分词器VIT1将切分得到的图像块序列编码为N个“图像词”：

使用掩码分词器VIT2对图像块进行编码。素材分词器和掩码分词器的主要目的是将图像块编码为离散的“图像词”(一个“图像词”可以类比一个“概念”，如图3中编号为37的图像词，描述概念“眼睛”，编号为78的图像词，描述概念为“嘴巴”。每个图像词仍然是一个向量，记为

这个概念向量集合称为“素材编码字典”)。具体而言，记图像块序列通过图像分词器编码得到的向量为

最终编码的图像词与字典h最近的图像词向量v，组成z。即：

随机掩码素材序列中的部分原始图像块，盖住的图像块集合记为

并将其替换为可以训练的编码e_m，得到掩码序列。则整个输入图像表示为：

本实施例提供的掩码预测网络，使用掩码分词器可以在仅有1％的目标标签的样本的情况下，可以得到65.12％的预测正确率，可以有效地利用无监督样本和少量的监督样本进行训练，保证了半监督分类模型训练的有效性。

本可选实现方式提供的计算掩码预测网络的掩码预测损失的方法，通过掩码分词器与掩码分类器得到对应预测块编码的预测向量序列，通过素材分词器和素材编码字典为预测向量序列提供可靠的标注依据，提高了掩码预测网络得到高阶语义和全局性特征的可靠性。

在本实施例的一些可选实现方式中，素材分词器和素材编码字典的训练过程如下：对获取的样本素材进行序列化处理，得到样本序列；将样本序列输入素材分词网络，得到样本特征序列，从样本编码字典选取与样本特征序列相对应的样本编码序列，并对样本编码序列进行解码，得到预测序列；将样本序列输入预训练的样本监督模型，得到监督序列；基于预测序列和监督序列，训练素材分词网络以及素材编码字典；响应于素材分词网络满足训练完成条件，得到素材分词器。

本可选实现方式中，样本监督模型可以采用预训练完成的CLIP(ContrastiveLanguage-Image Pre-training，基于自然语言监督信号的迁移视觉模型)模型，CLIP模型将图像和文本先分别输入一个图像编码器和一个文本编码器，得到图像和文本的向量表示。然后将图像和文本的向量表示映射到一个多模态空间，得到新的可直接进行比较的图像和文本的向量表示(这是多模态学习中常用的一种方法，不同模态的数据表示之间可能存在差异，无法进行直接的比较，因此先将不同模态的数据映射到同一个多模态空间，有利于后续的相似度计算等操作)。然后计算图像向量和文本向量之间的余弦相似度。最后，采用对比学习原理的目标函数让正样本对的相似度较高，负样本对的相似度较低。

对于图像分类任务，素材分词网络为图像分词网络，样本编码字典为图像编码字典，对获取的图像样本进行序列化处理，得到样本序列，将样本序列输入图像分词网络编码为图像词后，再通过图像分词网络中的解码器将图像词解码为图像块特征o_i，期望图像词可以重建合理的图像块特征。解码后的特征监督信号t_i来自于一个预训练的样本监督模型。整体的训练损失为

在该整体训练损失中，sg[h_i]是经过解码之后的图像的向量。需要说明的是，对样本编码序列进行解码可以采用解码器进行解码，而在对素材分词器和素材编码字典的训练过程中，该解码器也随素材分词器和素材编码字典进行训练，直至整体的训练损失满足训练要求为止，得到训练完成的素材分词器和素材编码字典。

在计算整体的训练损失的过程中，由于图像词离散不可直接求导，可以使用“straight through”方法进行估计。这样训练后就可以获得素材分词器以及素材编码字典

不同于基于生成式模型的重建，这里不会进行逐像素的恢复，而只是在低维的特征上进行重建，避免了基于生成式模型的模型容量浪费的问题。

本可选实现方式提供的素材分词器和素材编码字典的训练方法，通过预训练完成的样本监督模型，对素材分词器和素材编码字典同时训练，可以为素材分词器和素材编码字典的参数的更新提供可靠的基础。

在本实施例的一些可选实现方式中，上述将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，计算得到线性分类网络的监督损失包括：将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，得到线性分类网络输出的分类结果；基于分类结果和目标标签，计算得到线性分类网络的监督损失。

本可选实现方式中，线性分类网络可以是二分类网络，也可以多分类网络，

本可选实现方式中，在得到线性分类网络的分类结果之后，将分类结果和目标标签带入交叉熵损失函数，可以计算得到线性分类网络的监督损失。

本可选实现方式提供的计算线性分类网络的监督损失的方法，将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，可以使线性分类网络在整体语义特征表达的信息的基础上，基于目标标签对整体语义特征进行类型标定，为线性分类网络的分类提供了可靠的基础。

在本实施例的一些可选实现方式中，上述基于掩码预测损失和监督损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型包括：确定监督损失的权重值；将监督损失与权重值相乘，再与掩码预测损失相加，得到半监督分类网络的损失；基于半监督分类网络的损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型。

本可选实现方式中，在半监督分类网络的损失达到预设的损失阈值值，确定半监督分类网络训练完成，得到半监督分类模型。

本可选实现方式中，通过权重值将掩码预测训练损失与监督训练损失融合在一起，可以实现少量标注样本引导下的特征提取，整个数据高效的半监督学习可以端到端地完成。

本可选实现方式中，由于待目标标签的素材样本较少，将监督损失的权重值设置为系数较大的值，可以加重对监督损失的重视程度，提高半监督分类的准确度。

本可选实现方式提供的确定半监督分类网络的损失的方法，为监督损失赋权重值，加重监督损失在整个半监督分类网络所占的比重，提高了半监督分类网络训练的可靠度以及准确度。

可选地，上述基于掩码预测损失和监督损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型包括：确定监督损失的第一权重值；确定掩码预测损失的第二权重值，将监督损失与第一权重值相乘，再加上第二权重值与掩码预测损失的乘积，得到半监督分类网络的损失；基于半监督分类网络的损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型。

请参见图4，其示出了本公开提供的图像分类方法的一个实施例的流程400，该图像分类方法可以包括以下步骤：

步骤401，获取待分类图像。

本实施例中，图像分类方法运行于其上的执行主体可以通过与终端(如图1中终端101、102)进行通信，得到终端发送的待分类图像。

本实施例中，待分类图像为无法确定其中目标的种类的图像，例如，待分类图像是一张包括不同种类型动物的图像，但是图像中的动物的类型无法确定。

步骤402，对待分类图像进行分块处理，得到图像块序列。

本实施例中，对待分类图像进行分块，可以得到多块图像块，该多块图像块组合在一起可以得到待分类图像，将多块图像块依序排列在一起得到图像块序列。

步骤403，将图像块序列输入半监督分类模型，得到半监督分类模型输出的待分类图像中目标的分类结果。

本实施例中，将图像块序列输入半监督分类模型，半监督分类模型对图像块序列中的目标的特征进行识别以及分类，得到待分类图像中目标的分类结果，其中，分类结果可以包括：目标的类型、目标属于不同类型目标的置信度，通过比较目标在不同类型目标的置信度，可以确定目标的具体类型。需要说明的是，半监督分类模型可以是二分类模型，也可以多分类模型。当半监督分类模型是二分类模型时，目标的分类结果可以待分类图像中目标是否属于预定目标类型。当半监督分类模型是多分类模型时，目标的分类结果可以待分类图像中目标属于预定的多种目标类型中的那种目标类型。

本实施例中，预定目标类型以及多种目标类型与半监督分类模型的目标标签相关，当目标标签仅表示一种类型的目标时，半监督分类模型是二分类模型；当目标标签标识多种类型的目标时，半监督分类模型是多分类模型。

在本实施例中，采用上述实施例的半监督分类模型训练方法生成有半监督分类模型，其中，半监督分类模型的具体生成过程可以参见图2实施例的相关描述，在此不再赘述。

需要说明的是，本实施例图像分类方法可以用于测试上述各实施例所生成的半监督分类模型。进而根据测试结果可以不断地优化半监督分类模型。该方法也可以是上述各实施例所生成的半监督分类模型的实际应用方法。采用上述各实施例所生成的半监督分类模型，来进行待分类图像中目标类型的识别，有助于提高图像识别的识别效率。

本公开的实施例提供的图像分类方法，首先获取待分类图像；其次，对待分类图像进行分块处理，得到图像块序列；最后，将图像块序列输入半监督分类模型，得到半监督分类模型输出的待分类图像中目标的分类结果。由此，通过预先训练得到的半监督分类模型对待分类图像进行识别，得到目标的分类结果，提高了图像分类的效率。

可选地，本实施例还提供了一种文本分类方法，该文本分类方法包括：获取待分类文本；对待分类文本进行分词处理，得到待分词序列；将待分词序列输入半监督分类模型，得到半监督分类模型输出的待分类文本的分类结果。

本实施例中，待分类文本为无法确定主题、情感类型、意图等信息的文本，例如，待分类文本是一句话“今天天气很好”，但是无法确定该句话的主题。

本实施例中，对待分类文本进行分词，可以得到多个词汇以及字，将词汇以及字依序排列在一起得到待分词序列。

本实施例中，将待分词序列输入半监督分类模型，半监督分类模型对待分词序列的特征进行识别以及分类，得到待分类文本的分类结果，其中，分类结果可以包括：目标的类型、目标属于不同类型目标的置信度，通过比较目标在不同类型目标的置信度，可以确定目标的具体类型。其中，在对文本进行主题分类时，目标的类型包括：不同种类的主题。在对文本进行情感分类时，目标的类型包括：消极、积极。在对文本进行意图分类时，目标的类型包括：不同种类的意图。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了半监督分类模型训练装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本公开的实施例提供了一种半监督分类模型训练装置500，该装置500包括：得到单元501、掩码处理单元502、掩码计算单元503、监督计算单元504、训练单元505。其中，上述得到单元，可以被配置成对获取的素材样本进行序列化处理，得到素材序列。上述掩码处理单元502，可以被配置成对素材序列进行随机掩码处理，得到包括整体语义特征的掩码序列。上述掩码计算单元503，可以被配置成将素材序列和掩码序列输入预先构建的半监督分类网络的掩码预测网络中，计算得到掩码预测网络的掩码预测损失。上述监督计算单元504，可以被配置成将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，计算得到线性分类网络的监督损失。上述训练单元505，可以被配置成基于掩码预测损失和监督损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型。

在本实施例中，半监督分类模型训练装置500中，得到单元501、掩码处理单元502、掩码计算单元503、监督计算单元504、训练单元505的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204、步骤205。

在一些实施例中，上述掩码预测网络包括：掩码分词器、掩码分类器以及训练完成的素材分词器、素材编码字典；上述掩码计算单元503进一步被配置成：将素材序列输入素材分词器，得到素材块编码；从素材编码字典中选取与素材块编码相匹配的素材向量，得到素材向量序列；将掩码序列输入掩码分词器，得到预测块编码；将预测块编码输入掩码分类器，以使掩码分类器从素材编码字典选取与预测块编码相匹配的预测向量，得到预测向量序列；基于素材向量序列和预测向量序列，计算得到掩码预测网络的掩码预测损失。

在一些实施例中，上述监督计算单元504进一步被配置成：将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，得到线性分类网络输出的分类结果；基于分类结果和目标标签，计算得到线性分类网络的监督损失。

在一些实施例中，上述训练单元505进一步被配置成：确定监督损失的权重值；将监督损失与权重值相乘，再与掩码预测损失相加，得到半监督分类网络的损失；基于半监督分类网络的损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型。

本公开的实施例提供的半监督分类模型训练装置，首先得到单元501对获取的素材样本进行序列化处理，得到素材序列；其次，掩码处理单元502对素材序列进行随机掩码处理，得到包括整体语义特征的掩码序列；再次，掩码计算单元503将素材序列和掩码序列输入预先构建的半监督分类网络的掩码预测网络中，计算得到掩码预测网络的掩码预测损失；从次，监督计算单元504将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，计算得到线性分类网络的监督损失；另外，训练单元505基于掩码预测损失和监督损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型。由此，采用掩码预测网络可以关注下游任务相关的高阶语义和全局性特征，避免了半监督分类模型的容量的浪费；先使用掩码预测网络对全部数据进行训练之后再使用线性分类网络对少量标注数据进行微调，从而在进行掩码预测建模训练时，先行预告了下游任务以提取到更高阶的、任务相关的语义信息，提高了半监督分类模型的分类性能。

进一步参考图6，作为对上述各图所示方法的实现，本公开提供了文本分类装置的一个实施例，该装置实施例与图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本公开的实施例提供了一种文本分类装置600，该装置600包括：图像获取单元601、图像处理单元602、目标分类单元603。其中，上述图像获取单元601，可以被配置成获取待分类图像。上述图像处理单元，可以被配置成对待分类图像进行分块处理，得到图像块序列。上述目标分类单元603，可以被配置成将图像块序列输入半监督分类模型，得到半监督分类模型输出的待分类图像中目标的分类结果。

本实施例中，半监督分类模型采用半监督分类模型训练装置训练得到。

在本实施例中，文本分类装置600中，图像获取单元601、图像处理单元602、目标分类单元603的具体处理及其所带来的技术效果可分别参考图4对应实施例中的步骤401、步骤402、步骤403。

本公开的实施例提供的图像分类装置，首先图像获取单元601获取待分类图像；其次，图像处理单元602对待分类图像进行分块处理，得到图像块序列；最后，目标分类单元603将图像块序列输入半监督分类模型，得到半监督分类模型输出的待分类图像中目标的分类结果。由此，通过预先训练得到的半监督分类模型对待分类图像进行识别，得到目标的分类结果，提高了图像分类的效率。

下面参考图7，其示出了适于用来实现本公开的实施例的电子设备700的结构示意图。

如图7所示，电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储装置708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、等的输入装置706；包括例如液晶显示器(LCD，Liquid Crystal Display)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图7中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理装置701执行时，执行本公开的实施例的方法中限定的上述功能。

需要说明的是，本公开的实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(Radio Frequency，射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述服务器中所包含的；也可以是单独存在，而未装配入该服务器中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该服务器执行时，使得该服务器：对获取的素材样本进行序列化处理，得到素材序列；对素材序列进行随机掩码处理，得到包括整体语义特征的掩码序列；将素材序列和掩码序列输入预先构建的半监督分类网络的掩码预测网络中，计算得到掩码预测网络的掩码预测损失；将带目标标签且经过掩码预测网络预测的整体语义特征输入半监督分类网络的线性分类网络，计算得到线性分类网络的监督损失；基于掩码预测损失和监督损失，训练半监督分类网络，得到对应半监督分类网络的半监督分类模型。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器，包括得到单元、掩码处理单元、掩码计算单元、监督计算单元、损失确定单元、训练单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，得到单元还可以被描述为“被配置成对获取的素材样本进行序列化处理，得到素材序列”的单元。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种半监督分类模型训练方法，所述方法包括：

对获取的素材样本进行序列化处理，得到素材序列；

对所述素材序列进行随机掩码处理，得到包括整体语义特征的掩码序列；

将所述素材序列和所述掩码序列输入预先构建的半监督分类网络的掩码预测网络中，计算得到所述掩码预测网络的掩码预测损失；

将带目标标签且经过所述掩码预测网络预测的整体语义特征输入所述半监督分类网络的线性分类网络，计算得到所述线性分类网络的监督损失；

基于所述掩码预测损失和所述监督损失，训练所述半监督分类网络，得到对应所述半监督分类网络的半监督分类模型。

2.根据权利要求1所述的方法，其中，所述掩码预测网络包括：掩码分词器、掩码分类器以及训练完成的素材分词器、素材编码字典；所述将所述素材序列和所述掩码序列输入预先构建的半监督分类网络的掩码预测网络中，计算得到所述掩码预测网络的掩码预测损失包括：

将所述素材序列输入所述素材分词器，得到素材块编码；

从所述素材编码字典中选取与所述素材块编码相匹配的素材向量，得到素材向量序列；

将所述掩码序列输入所述掩码分词器，得到预测块编码；

将所述预测块编码输入所述掩码分类器，以使所述掩码分类器从所述素材编码字典选取与所述预测块编码相匹配的预测向量，得到预测向量序列；

基于所述素材向量序列和所述预测向量序列，计算得到所述掩码预测网络的掩码预测损失。

3.根据权利要求2所述的方法，所述素材分词器和所述素材编码字典的训练过程如下：

对获取的样本素材进行序列化处理，得到样本序列；

将所述样本序列输入素材分词网络，得到样本特征序列，从样本编码字典选取与所述样本特征序列相对应的样本编码序列，并对所述样本编码序列进行解码，得到预测序列；

将所述样本序列输入预训练的样本监督模型，得到监督序列；

基于所述预测序列和所述监督序列，训练所述素材分词网络以及所述素材编码字典；

响应于所述素材分词网络满足训练完成条件，得到素材分词器。

4.根据权利要求1所述的方法，所述将带目标标签且经过所述掩码预测网络预测的整体语义特征输入所述半监督分类网络的线性分类网络，计算得到所述线性分类网络的监督损失包括：

将带目标标签且经过所述掩码预测网络预测的整体语义特征输入所述半监督分类网络的线性分类网络，得到所述线性分类网络输出的分类结果；

基于所述分类结果和所述目标标签，计算得到所述线性分类网络的监督损失。

5.根据权利要求1-4之一所述的方法，其中，所述基于所述掩码预测损失和所述监督损失，训练所述半监督分类网络，得到对应所述半监督分类网络的半监督分类模型包括：

确定所述监督损失的权重值；

将所述监督损失与所述权重值相乘，再与所述掩码预测损失相加，得到所述半监督分类网络的损失；

基于所述半监督分类网络的损失，训练所述半监督分类网络，得到对应所述半监督分类网络的半监督分类模型。

6.一种图像分类方法，所述方法包括：

获取待分类图像；

对所述待分类图像进行分块处理，得到图像块序列；

将所述图像块序列输入半监督分类模型，得到所述半监督分类模型输出的所述待分类图像中目标的分类结果，所述半监督分类模型采用权利要求1-5任意一项所述的半监督分类模型训练方法训练得到。

7.一种半监督分类模型训练装置，所述装置包括：

得到单元，被配置成对获取的素材样本进行序列化处理，得到素材序列；

掩码处理单元，被配置成对所述素材序列进行随机掩码处理，得到包括整体语义特征的掩码序列；

掩码计算单元，被配置成将所述素材序列和所述掩码序列输入预先构建的半监督分类网络的掩码预测网络中，计算得到所述掩码预测网络的掩码预测损失；

监督计算单元，被配置成将带目标标签且经过所述掩码预测网络预测的整体语义特征输入所述半监督分类网络的线性分类网络，计算得到所述线性分类网络的监督损失；

训练单元，被配置成基于所述掩码预测损失和所述监督损失，训练所述半监督分类网络，得到对应所述半监督分类网络的半监督分类模型。

8.一种图像分类装置，所述装置包括：

图像获取单元，被配置成获取待分类图像；

图像处理单元，被配置成对所述待分类图像进行分块处理，得到图像块序列；

目标分类单元，被配置成将所述图像块序列输入半监督分类模型，得到所述半监督分类模型输出的所述待分类图像中目标的分类结果，所述半监督分类模型采用权利要求8所述的半监督分类模型训练装置训练得到。

9.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。