CN113469296A

CN113469296A - 基于少量标签数据自监督联合学习的图像分类方法及系统

Info

Publication number: CN113469296A
Application number: CN202111029018.0A
Authority: CN
Inventors: 丁冬睿; 曲浩; 王潇涵; 杨光远; 房体品; 逯天斌
Original assignee: Guangdong Zhongju Artificial Intelligence Technology Co ltd
Current assignee: Guangdong Zhongju Artificial Intelligence Technology Co ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-10-01

Abstract

本发明公开了一种基于少量标签数据自监督联合学习的图像分类方法及系统，其对无标签图像数据进行灰度转化，并为灰度图像设置色彩标签；对无标签图像数据按比例进行裁剪，并为裁剪后的小图像设置相对位置标签；对无标签图像数据旋转多个角度，并为旋转图像设置角度旋转标签；采用上述三种自监督图像数据以及带有少量标签的图像数据对基础训练模型进行综合训练，得到少量标签训练模型。通过在训练模型中分别引入三种自监督任务，使少量有标签数据和三种自监督任务共用一个编码层结构参数共享，让原本少量有标签数据学习特征不明显变为学习特征充分；利用自监督学习任务提高特征提取网络的表征能力，改善少量有标签数据分类任务的效果。

Description

基于少量标签数据自监督联合学习的图像分类方法及系统

技术领域

本发明涉及图像分类识别技术领域，尤其是涉及一种基于少量标签数据自监督联合学习的图像分类方法及系统。

背景技术

随着大数据时代的到来，人工智能技术已经广泛地应用到社会生活的各个方面：计算机视觉识别、自然语言处理和时序数据预测等，其中计算机视觉的成果是工业界应用最广泛。图像分类任务作为计算机视觉领域的基础任务之一，其基本目的是判断图像中包含的物体类别。从一开始的传统方法，即手工提取图片特征到后来的深度学习方法，研究者们对图像分类的探索也在不断深入。近几年图像分类模型如雨后春笋般涌现出来，它们在大规模有标签数据集上能够很好的对图像进行分类，但是当标签数据有限时，它们的分类效果大不如前。这是因为它们训练过程中依赖标签数据，而人工标注的标签数据相比原始的无标签图像数据获取成本要难得多，而深度学习的发展方向也不能单一只依赖有标签数据。

发明内容

本发明的目的在于克服上述技术不足，提出一种基于少量标签数据自监督联合学习的图像分类方法及系统，通过利用自监督学习任务提高特征提取网络的表征能力，实现改善少量有标签数据分类任务的技术效果。

为达到上述技术目的，本发明的技术方案第一方面提供一种基于少量标签数据自监督联合学习的图像分类方法，其包括如下步骤：

对无标签图像数据进行色彩预处理，将每张图像进行灰度转化，并为灰度图像设置色彩标签；

对无标签图像数据进行相对位置预处理，将每张图像按比例进行裁剪，并为裁剪后的小图像设置相对原始的无标签图像的相对位置标签；

对无标签图像数据进行旋转角度预处理，将每张图像旋转多个角度，并为不同角度的旋转图像设置相对原始的无标签图像的角度旋转标签；

采用带有彩色标签的灰度图像数据、带有相对位置标签的小图像数据、带有角度旋转标签的旋转图像数据以及带有少量标签的图像数据对基础训练模型进行综合训练，经过迭代训练得到少量标签训练模型，采用训练好的少量标签训练模型对图像进行分类。

本发明第二方面提供一种基于少量标签数据自监督联合学习的图像分类系统，其包括如下功能模块：

灰度处理模块，用于对无标签图像数据进行色彩预处理，将每张图像进行灰度转化，并为灰度图像设置色彩标签；

位置处理模块，用于对无标签图像数据进行相对位置预处理，将每张图像按比例进行裁剪，并为裁剪后的小图像设置相对原始的无标签图像的相对位置标签；

角度处理模块，用于对无标签图像数据进行旋转角度预处理，将每张图像旋转多个角度，并为不同角度的旋转图像设置相对原始的无标签图像的角度旋转标签；

模型训练模块，用于采用带有彩色标签的灰度图像数据、带有相对位置标签的小图像数据、带有角度旋转标签的旋转图像数据以及带有少量标签的图像数据对基础训练模型进行综合训练，经过迭代训练得到少量标签训练模型，采用训练好的少量标签训练模型对图像进行分类。

本发明第三方面提供一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于少量标签数据自监督联合学习的图像分类方法的步骤。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于少量标签数据自监督联合学习的图像分类方法的步骤。

与现有技术相比，本发明通过在训练模型中分别引入图像色彩修复任务、图像相对位置预测任务和图片旋转角度任务，基于自监督学习方法从图像的色彩语义信息、图像内相对位置语义信息和图片角度语义信息学习图片特征，使少量有标签数据和三种自监督任务共用一个编码层结构参数共享，让原本少量有标签数据学习特征不明显变为学习特征充分；且这些自监督任务完全不需要人工进行标注，大大降低了人工标注的成本。本发明实现了一种少量有标签数据自监督联合学习图像分类方法，其利用自监督学习任务提高特征提取网络的表征能力改善了少量有标签数据分类任务的效果，与传统少量有标签数据模型相比，大大提高了特征学习的能力。

附图说明

图1是本发明实施例所述的基于少量标签数据自监督联合学习的图像分类方法的流程框图；

图2是图1中步骤S4的分步骤流程框图；

图3是本发明实施例所述的基于少量标签数据自监督联合学习的图像分类系统的模块框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

目前，机器学习中基本的学习方法有：监督学习、半监督学习和无监督学习。它们最大的区别就是模型在训练时需要人工标注的标签信息，监督学习利用大量的标签数据来训练模型，使模型最终学习到输入和输出标签之间的相关性；半监督学习利用少量有标签的数据和大量无标签的数据来训练网络；而无监督学习不依赖任何标签值，通过对数据内在特征的挖掘，找到样本间的关系。使用监督学习时用户需要足够的标签数据。为了获得这些信息，需要手工标签数据(图像/文本)，这是一个既耗时又昂贵的过程。因此想要在不需要手工标签数据的情况下，训练过程还能对任务本身有很大的帮助，可以包含更多的语义特征，自监督学习因此被提出。自监督学习主要是利用辅助任务从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。

基于上述内容，本发明实施例提供一种基于少量标签数据自监督联合学习的图像分类方法，如图1所示，其包括如下步骤：

S1、对无标签图像数据进行色彩预处理，将每张图像进行灰度转化，并为灰度图像设置色彩标签。

即，将无标签图像的原始彩色图像分为R、G、B三个颜色通道分量，分别显示出红绿蓝颜色，并采用加权平均值的方式进行灰度等分处理，对灰度等分处理后的灰度图像设置色彩标签。具体是按照一定权值，对无标签图像的原始彩色图像中R、G、B三个颜色通道分量的值加权平均，公式如下：

上式中，

分别为R、G、B的权值，取不同的值形成不同的灰度图像。由于人眼对绿色最为敏感，红色次之，对蓝色的敏感性最低，因此使

将得到较易识别的灰度图像。在此设置

，

，

；由此得到一组灰度图像X_gray和原始的无标签图像彩色Y，每一个灰度图像均设有自己的色彩标签。

S2、对无标签图像数据进行相对位置预处理，将每张图像按比例进行裁剪，并为裁剪后的小图像设置相对原始的无标签图像的相对位置标签。

即，将每张图像按比例进行裁剪，基于小图像相对原始的无标签图像的相对位置，设置各个小图像相对原始的无标签图像的相对位置标签，并选取中心位置的小图像作为中心小图像。

例如：可以将原始的无标签图像分为3x3的小图像，并为每一个小图像编号。

然后在自监督训练模型的数据相对位置预测任务中，将中心小图像和其中一个边缘小图像一同输入，预测当前这个边缘小图像相对中心小图像的位置，由此构建出若干组相对位置序列X_pos和相对位置编号Y_pos。

S3、对无标签图像数据进行旋转角度预处理，将每张图像旋转多个角度，并为不同角度的旋转图像设置相对原始的无标签图像的角度旋转标签。

由于HSV不同于RGB颜色空间，它的颜色空间更接近于人眼感知色彩方式，因此，将无标签图像数据自RGB图像转化为HSV颜色空间图像，具体转换方法如下：

公式中，R、G、B分别为原图彩色分量，H、S、V为转换后的图像色调，饱和度和亮度分量。

对HSV转换后的图像进行多个角度的旋转，例如0°、90°、180°和270°旋转，并基于原始的无标签图像的角度设置旋转图像相对原始的无标签图像的角度旋转标签。

上述图像灰度预处理、相对位置预处理以及旋转角度预处理均是采用监督学习方式进行训练的，通过计算机来对预处理后的图像数据进行自动打出标签，完全不需要人工进行标注，大大降低了人工标注的成本。

S4、采用带有彩色标签的灰度图像数据、带有相对位置标签的小图像数据、带有角度旋转标签的旋转图像数据以及带有少量标签的图像数据对基础训练模型进行综合训练，经过迭代训练得到少量标签训练模型，采用训练好的少量标签训练模型对图像进行分类。

所述带有彩色标签的灰度图像数据、带有相对位置标签的小图像数据、带有角度旋转标签的旋转图像数据为自监督任务数据，在采用自监督任务数据以及带有少量标签的图像数据对基础训练模型进行综合训练的过程中，通过自监督任务数据以及带有少量标签的图像数据对训练模型的损失函数进行调整。

如图2所示，所述步骤S4包括如下分步骤：

S41、将所述带有彩色标签的灰度图像数据、带有相对位置标签的小图像数据、带有角度旋转标签的旋转图像数据以及带有少量标签的图像数据一齐输入训练模型的编码层，得到各输入数据的高级特征表示；

S42、将各输入数据的高级特征表示送入训练模型的解码层得到相应训练预测输出数据；

S43、根据各输入数据与相应训练预测输出数据计算损失函数，并综合计算得到训练模型的损失函数，根据损失函数对训练模型进行优化得到的少量标签训练模型，采用训练好的少量标签训练模型对图像进行分类。

具体的，灰度图像数据X_gray、相对位置数据X_pos、旋转角度数据X_turn和少量有标签数据X_few一齐输入训练模型的编码层（Encoder）：

H_gray =F _en (X_gray ,θ)

H_pos =F _en (X_pos ,θ)

H_turn =F _en (X_turn ,θ)

H_few =F _en (X_few ,θ)

如果只是少量单一数据进行训练，编码层模型（Encoder）会因为数据量太少而出现过拟合现象，因此，在本发明中，上述四类图像数据共用一个编码层。

对于彩色标签的灰度图像数据，将编码层得到的高级特征表示H_gray送入训练模型的解码层（Decoder）得到训练模型输出的还原色彩图像Y_gray ’：

Y_gray ’=F _de (H_gray ,θ)

将还原色彩图像Y_gray ’和无标签图像的原始彩色图像Y进行损失函数计算，具体采用MSE均方误差损失函数计算得到色彩损失函数，公式如下：

L _gray =MSE(Y_gray ’,Y)

对于带有相对位置标签的小图像数据，将训练模型的编码层得到的高级特征表示H_pos送入多层感知机进行运算得到最后预测相对位置分类结果：

Y_pos ’=W _pos H _pos +b _pos

其中W _pos和b _pos分别是多层感知机中的参数矩阵和偏置。

将预测的相对位置Y_pos ’和真实的相对位置Y_pos通过交叉熵损失函数计算得到位置损失函数，公式如下：

L(Y_pos ’,Y_pos )=－[Y_poslogY_pos ’+(1－Y_pos)log(1－Y_pos ’)]

对于带有角度旋转标签的旋转图像数据，将训练模型的编码层得到的高级特征表示H _turn送入多层感知机进行运算得到最后预测旋转角度分类结果：

Y _turn ’=W _turn H _turn +b _turn

其中W _turn和b _turn分别是多层感知机中的参数矩阵和偏置。

将预测的旋转角度Y _turn ’和真实的旋转角度Y _turn通过交叉熵损失函数计算得到角度损失函数，公式如下：

L(Y _turn ’,Y _turn )=－[Y _turnlogY _turn ’+(1－Y _turn)log(1－Y _turn ’)]

对于少量带有少量标签的图像数据，将训练模型的编码层得到的高级特征表示H _few送入多层感知机进行运算得到最后预测图像分类结果：

Y _few ’=W _few H _few +b _few

其中W _few和b _few分别是多层感知机中的参数矩阵和偏置。

将预测的图像类别Y _few ’和真实的图像类别Y _few通过交叉熵损失函数计算得到类别损失函数，公式如下：

L(Y _few ’,Y _few )=－[Y _fewlogY _few ’+(1－Y _few)log(1－Y _few ’)]

联合色彩损失函数、位置损失函数、角度损失函数以及类别损失函数四个损失函数进行损失函数输出，并为每个损失函数加入各自的权重λ，综合得到训练模型的损失函数，公式如下：

L=λ _gray L _gray +λ _pos L _pos +λ _turn L _turn +λ _few L _few

经过三种自监督任务数据和少量有标签图像数据对训练模型的迭代训练，训练模型中的编码层参数也在不断完善，最后将完成训练后的模型中关于少量带有少量标签的图像数据的训练模型结构进行保存，作为最终得到的少量标签训练模型。

本发明通过在训练模型中分别引入图像色彩修复任务、图像相对位置预测任务和图片旋转角度任务，基于自监督学习方法从图像的色彩语义信息、图像内相对位置语义信息和图片角度语义信息学习图片特征，使少量有标签数据和三种自监督任务共用一个编码层结构参数共享，让原本少量有标签数据学习特征不明显变为学习特征充分；且这些自监督任务完全不需要人工进行标注，大大降低了人工标注的成本。本发明实现了一种少量有标签数据自监督联合学习图像分类方法，其利用自监督学习任务提高特征提取网络的表征能力改善了少量有标签数据分类任务的效果，与传统少量有标签数据模型相比，大大提高了特征学习的能力。

如图3所示，本发明实施例还提供一种基于少量标签数据自监督联合学习的图像分类系统，其包括如下功能模块：

灰度处理模块10，用于对无标签图像数据进行色彩预处理，将每张图像进行灰度转化，并为灰度图像设置色彩标签；

位置处理模块20，用于对无标签图像数据进行相对位置预处理，将每张图像按比例进行裁剪，并为裁剪后的小图像设置相对原始的无标签图像的相对位置标签；

角度处理模块30，用于对无标签图像数据进行旋转角度预处理，将每张图像旋转多个角度，并为不同角度的旋转图像设置相对原始的无标签图像的角度旋转标签；

模型训练模块40，用于采用带有彩色标签的灰度图像数据、带有相对位置标签的小图像数据、带有角度旋转标签的旋转图像数据以及带有少量标签的图像数据对基础训练模型进行综合训练，经过迭代训练得到少量标签训练模型，采用训练好的少量标签训练模型对图像进行分类。

本实施例一种基于少量标签数据自监督联合学习的图像分类系统的执行方式与上述基于少量标签数据自监督联合学习的图像分类方法基本相同，故不作详细赘述。

本实施例服务器为提供计算服务的设备，通常指具有较高计算能力，通过网络提供给多个消费者使用的计算机。该实施例的服务器包括：存储器、处理器以及系统总线，所述存储器包括存储其上的可运行的程序，本领域技术人员可以理解，本实施例的终端设备结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行终端的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据终端的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在存储器上包含一种基于少量标签数据自监督联合学习的图像分类方法的可运行程序，所述可运行程序可以被分割成一个或多个模块/单元，所述一个或多个模块/单元被存储在所述存储器中，并由处理器执行，以完成信息的获取及实现过程，所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述服务器中的执行过程。例如，所述计算机程序可以被分割为灰度处理模块10、位置处理模块20、角度处理模块30、模型训练模块40。

处理器是服务器的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器内的软件程序和/或模块，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器可包括一个或多个处理单元；优选的，处理器可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器中。

系统总线是用来连接计算机内部各功能部件，可以传送数据信息、地址信息、控制信息，其种类可以是例如PCI总线、ISA总线、VESA总线等。处理器的指令通过总线传递至存储器，存储器反馈数据给处理器，系统总线负责处理器与存储器之间的数据、指令交互。当然系统总线还可以接入其他设备，例如网络接口、显示设备等。

所述服务器应至少包括CPU、芯片组、内存、磁盘系统等，其他构成部件在此不再赘述。

在本发明实施例中，该终端所包括的处理器执行的可运行程序具体为：一种基于少量标签数据自监督联合学习的图像分类方法，其包括如下步骤：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实施例的模块、单元和/或方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于少量标签数据自监督联合学习的图像分类方法，其特征在于，包括如下步骤：

2.根据权利要求1所述基于少量标签数据自监督联合学习的图像分类方法，其特征在于，所述对无标签图像数据进行色彩预处理，将每张图像进行灰度转化，并为灰度图像设置色彩标签；包含：

将无标签图像的原始彩色图像分为R、G、B三个颜色通道分量，并采用加权平均值的方式进行灰度等分处理，对灰度等分处理后的灰度图像设置色彩标签。

3.根据权利要求1所述基于少量标签数据自监督联合学习的图像分类方法，其特征在于，所述对无标签图像数据进行相对位置预处理，将每张图像按比例进行裁剪，并为裁剪后的小图像设置相对原始的无标签图像的相对位置标签；包含：

将每张图像按比例进行裁剪，基于小图像相对原始的无标签图像的相对位置，设置各个小图像相对原始的无标签图像的相对位置标签，并选取中心位置的小图像作为中心小图像。

4.根据权利要求1所述基于少量标签数据自监督联合学习的图像分类方法，其特征在于，所述对无标签图像数据进行旋转角度预处理，将每张图像旋转多个角度，并为不同角度的旋转图像设置相对原始的无标签图像的角度旋转标签；包含：

将无标签图像数据自RGB图像转化为HSV颜色空间图像，对HSV转换后的图像进行多个角度的旋转，并基于原始的无标签图像的角度设置旋转图像相对原始的无标签图像的角度旋转标签。

5.根据权利要求1所述基于少量标签数据自监督联合学习的图像分类方法，其特征在于，所述带有彩色标签的灰度图像数据、带有相对位置标签的小图像数据、带有角度旋转标签的旋转图像数据为自监督任务数据，在采用自监督任务数据以及带有少量标签的图像数据对基础训练模型进行综合训练的过程中，通过自监督任务数据以及带有少量标签的图像数据对训练模型的损失函数进行调整。

6.根据权利要求1所述基于少量标签数据自监督联合学习的图像分类方法，其特征在于，所述采用带有彩色标签的灰度图像数据、带有相对位置标签的小图像数据、带有角度旋转标签的旋转图像数据以及带有少量标签的图像数据对基础训练模型进行综合训练，经过迭代训练得到少量标签训练模型，采用训练好的少量标签训练模型对图像进行分类，包括：

将所述带有彩色标签的灰度图像数据、带有相对位置标签的小图像数据、带有角度旋转标签的旋转图像数据以及带有少量标签的图像数据一齐输入训练模型的编码层，得到各输入数据的高级特征表示；

将各输入数据的高级特征表示送入训练模型的解码层得到相应训练预测输出数据；

根据各输入数据与相应训练预测输出数据计算损失函数，并综合计算得到训练模型的损失函数，根据损失函数对训练模型进行优化得到的少量标签训练模型，采用训练好的少量标签训练模型对图像进行分类。

7.根据权利要求6所述基于少量标签数据自监督联合学习的图像分类方法，其特征在于，所述根据各输入数据与相应训练预测输出数据计算损失函数，并综合计算得到训练模型的损失函数，根据损失函数对训练模型进行优化得到的少量标签训练模型，采用训练好的少量标签训练模型对图像进行分类，包括：

根据训练模型输出的还原色彩图像和无标签图像的原始彩色图像计算色彩损失函数；

根据训练模型输出的预测相对位置和真实相对位置计算位置损失函数；

根据训练模型输出的预测旋转角度和真实旋转角度计算角度损失函数；

根据训练模型输出的预测图像类别和真实图像类别计算类别损失函数；

为色彩损失函数、位置损失函数、角度损失函数以及类别损失函数加入各自的权重，综合计算得到训练模型的损失函数。

8.一种基于少量标签数据自监督联合学习的图像分类系统，其特征在于，包括如下功能模块：

9.一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于少量标签数据自监督联合学习的图像分类方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于少量标签数据自监督联合学习的图像分类方法的步骤。