CN112884022B

CN112884022B - 一种基于图像平移的无监督深度表征学习方法及系统

Info

Publication number: CN112884022B
Application number: CN202110128485.2A
Authority: CN
Inventors: 朱信忠; 徐慧英; 郭西风; 董仕豪; 赵建民
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-11-12
Anticipated expiration: 2041-01-29
Also published as: WO2022160898A1; ZA202308288B; US20240104885A1; CN112884022A

Abstract

本发明公开了一种基于图像平移的无监督深度表征学习系统，包括：图像平移变换模块，用于对图像进行随机的平移变换并生成辅助标签；图像掩码模块，与所述图像平移变换模块连接，用于对平移变换后的图像施加掩码；深度神经网络，与所述图像掩码模块连接，用于预测施加掩码后图像的实际辅助标签，并学习图像的深度表征；回归损失函数模块，与所述深度神经网络连接，用于基于损失函数更新深度神经网络的参数；特征提取模块，与所述深度神经网络连接，用于提取图像的表征。本发明既解决了预测图像旋转的无监督方法无法处理旋转不变性图像的问题，也解决了预测几何变换的无监督方法存在的边缘效应问题。

Description

一种基于图像平移的无监督深度表征学习方法及系统

技术领域

本发明涉及图像表征学习技术领域，尤其涉及一种基于图像平移的无监督深度表征学习方法及系统。

背景技术

深度神经网络在图像分类、分割和目标检测等机器视觉任务中取得了巨大成功。但需要大量手工标注的数据才能达到令人满意的性能。而现实中给数据打标签是一个极其费时费力的事情。在有些领域，如医疗和航天，只有领域专家才能提供可靠的标注，因此几乎不可能收集大量标签数据。于是无监督学习成为越来越重要的研究方向。无监督深度表征学习不依靠人为标注的标签作为监督信息，只使用图像数据本身训练深度神经网络，实现学习图像表征的目的。

预测图像旋转的无监督方法[Gidaris S,Singh P,Komodakis N.UnsupervisedRepresentation Learning by Predicting Image Rotations[C].In Proceedings ofthe 6th International Conference on Learning Representations(ICLR).2018.]对每张图像分别旋转0度、90度、180度和270度获得4张旋转图像，分别赋予类别标签0到3。然后用这些旋转的图像通过求解四分类任务来训练一个深度神经网络，从而实现学习图像表征的目的。预测图像旋转的无监督方法假设图像的方向是由图像中最显著的物体的方向决定的。然而现实生活中存在很多对称或具有旋转不变性的物体，如图1上半部所示，预测这些物体的旋转方向将不能学习到有意义的特征表示。

预测几何变换的无监督方法[Golan I,El-Yaniv R.Deep Anomaly DetectionUsing Geometric Transformations[C].In Advances in Neural InformationProcessing Systems(NIPS).2018:9781–9791.]对每张图像分别进行72种几何变换获得72张变换图像，分别赋予类别标签0到71。然后用这些旋转的图像通过求解72分类任务来训练一个深度神经网络，从而实现学习图像表征的目的。上述72种几何变换包括4个角度(0度、90度、180度和270度)的旋转变换、9个方向(不平移、上、下、左、右、左上、右上、左下、右下)的平移变换和水平翻转变换的排列组合，共产生4×9×2＝72种几何变换。预测几何变换的无监督方法引入图像平移变换来弥补旋转的不足。但该方法选择预测图像的平移方向，即不平移、上、下、左、右、左上等9个方向，如图1下半部所示。由于平移产生的边缘效应，预测平移的方向是个非常简单的任务。增加该预测任务并不能强迫神经网络挖掘图像的内容信息，因此不能提高无监督表征学习的效果。

针对以上现状，本发明提出的一种基于图像平移的无监督深度表征学习方法及系统。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种基于图像平移的无监督深度表征学习方法及系统，既解决了预测图像旋转的无监督方法无法处理旋转不变性图像的问题，也解决了预测几何变换的无监督方法存在的边缘效应问题。

为了实现以上目的，本发明采用以下技术方案：

一种基于图像平移的无监督深度表征学习系统，包括：

图像平移变换模块，用于对图像进行随机的平移变换并生成辅助标签；

图像掩码模块，与所述图像平移变换模块连接，用于对平移变换后的图像施加掩码；

深度神经网络，与所述图像掩码模块连接，用于预测施加掩码后图像的实际辅助标签，并学习图像的深度表征；

回归损失函数模块，与所述深度神经网络连接，用于基于损失函数更新深度神经网络的参数；

特征提取模块，与所述深度神经网络连接，用于提取图像的表征。

进一步的，所述图像平移变换模块中对图像进行随机的平移变换，则平移变换后的图像表示为：

其中，给定一个包含N个样本的图像数据集

每张图像x_i都用一个C×W×H的矩阵表示，C,W,H分别为图像通道数、宽度和高度；用

表示图像平移变换函数，t＝[t_w,t_h]为平移变换参数，t_w∈(-1,1)为水平方向平移参数，t_w≥0时表示向右平移的宽度比例为t_w，即向右平移t_w*W个像素，t_w＜0时表示向左平移的宽度比例为-t_w，即向左平移(-t_w*W)个像素；t_h∈(-1,1)为竖直方向平移参数，t_h≥0时表示向下平移的高度比例为t_h，即向下平移t_h*H个像素，t_h＜0时表示向上平移的高度比例为-t_h，即向上平移(-t_h*H)个像素；t表示辅助标签。

进一步的，所述图像掩码模块中的掩码，表示为：

其中，1表示一个元素全为1的C×W×H矩阵；T＝[T_w,T_h]表示允许平移变换的最大比例；t＝[t_w,t_h]表示以辅助标签进行平移变换；sign表示符号函数，定义为：

对平移变换后的图像

施加掩码的过程为

即平移变换后的图像矩阵与掩码矩阵进行对应元素相乘操作。

进一步的，所述回归损失函数模块中损失函数，表示为：

其中，F(·|Ω)表示神经网络的映射函数；Ω表示神经网络所有训练的参数；N表示训练样本数；

表示掩码。

进一步的，所述特征提取模块中提取图像的表征是通过截取训练好的深度神经网络得到的。

相应的，还提供一种基于图像平移的无监督深度表征学习方法，包括：

S1.对图像进行随机的平移变换并生成辅助标签；

S2.对平移变换后的图像施加掩码；

S3.预测施加掩码后图像的实际辅助标签，并学习图像的深度表征；

S4.基于损失函数更新深度神经网络的参数；

S5.提取图像的表征。

进一步的，所述步骤S1中对图像进行随机的平移变换，则平移变换后的图像表示为：

其中，给定一个包含N个样本的图像数据集

进一步的，所述步骤S2中的掩码，表示为：

对平移变换后的图像

施加掩码的过程为

进一步的，所述步骤S4中损失函数，表示为：

表示掩码。

进一步的，所述步骤S5中提取图像的表征是通过截取训练好的深度神经网络得到的。

与现有技术相比，本发明提出了一种新颖的基于图像平移的无监督深度表征学习方法，该方法包括图像平移变换模块、图像掩码模块、深度神经网络、回归损失函数和特征提取模块。通过图像平移变换模块和图像掩码模块，本发明实现不受边缘效应影响的平移图像数据集构建，进而通过回归损失函数训练深度神经网络实现学习图像深度表征的目的。在四个公共数据集上的实验结果证明了本发明的性能优于现有方法。

附图说明

图1是背景技术中提供的现有技术的示意图；

图2是实施例一提供的一种基于图像平移的无监督深度表征学习系统结构图；

图3是实施例一提供的图像平移与掩码过程的示意图；

图4是实施例三提供的一种基于图像平移的无监督深度表征学习方法流程。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

本发明的目的是针对现有技术中图像表征学习容易受到旋转不变性和边缘效应等的影响，导致表征学习性能差的问题，提供了一种基于图像平移的无监督深度表征学习方法及系统，具体是对图像进行随机的平移变换，记录平移方向和平移比例作为辅助标签。进一步地，对在相同方向上进行平移的所有图像，无论平移比例是多少，都施加同一个掩码，以消除平移变换产生的边缘模式。使用平移并掩码后的图像和生成的辅助标签，通过求解回归任务来训练一个深度神经网络，实现无监督学习图像表征的目的。

实施例一

本实施例提供的一种基于图像平移的无监督深度表征学习系统，如图2所示，包括：

图像平移变换模块11，用于对图像进行随机的平移变换并生成辅助标签；

图像掩码模块12，与图像平移变换模块11连接，用于对平移变换后的图像施加掩码；

深度神经网络13，与图像掩码模块12连接，用于预测施加掩码后图像的实际辅助标签，并学习图像的深度表征；

回归损失函数模块14，与深度神经网络13连接，用于基于损失函数更新深度神经网络的参数；

特征提取模块15，与深度神经网络13连接，用于提取图像的表征。

在图像平移变换模块11中，对图像进行随机的平移变换并生成辅助标签。

在本实施例中，给定一个包含N个样本的图像数据集

表示图像平移变换函数，t＝[t_w,t_h]为平移变换参数，t_w∈(-1,1)为水平方向平移参数，t_w≥0时表示向右平移的宽度比例为t_w，即向右平移t_w*W个像素，t_w＜0时表示向左平移的宽度比例为-t_w，即向左平移(-t_w*W)个像素；t_h∈(-1,1)为竖直方向平移参数，t_h≥0时表示向下平移的高度比例为t_h，即向下平移t_h*H个像素，t_h＜0时表示向上平移的高度比例为-t_h，即向上平移(-t_h*H)个像素；对于平移变换后的图像

t表示辅助标签，也称参数。

例如对于一个3×100×100大小的RGB图像x_i，则

表示将图像x_i向左平移10个像素并向下平移20个像素后得到的图像，对应的辅助标签为[-0.1,0.2]。

在图像掩码模块12中，对平移变换后的图像施加掩码。

本实施例对平移变换后的图像施加一个掩码，将具有相同平移方向的所有图像的边缘模式变成一样，从而消除平移变换带来的边缘效应对深度表征学习带来的负面影响。

假设施加到给定图像上的平移变换幅度主要由显著的物体或锐利的边缘模式决定。该假设符合人的直观感受，因为人在计算平移的像素的个数时也是将注意力集中在图片中最显著的前景物体或者边缘模式上。只有当模型将注意力集中在显著物体上来做预测时才能有效学习具有判别性的表征。所以设计了一个掩码来消除平移变换产生的锐利边缘效应的影响。通过这种方式强迫神经网络模型将注意力集中在显著物体上并学习他们的表征。为了实现以上目的，掩码构造方式为，对于同一个平移方向，无论平移的比例是多少，都将允许平移的最大比例作为掩码，从而将边缘模式变成一样。

用1表示一个元素全为1的C×W×H矩阵，T＝[T_w,T_h]为允许平移的最大比例，则对于以参数t＝[t_w,t_h]进行平移变换的图像，其掩码定义为：

其中sign表示符号函数，定义为：

则对平移变换后的图像

施加掩码的过程为

例如，对于一个3×100×100大小的RGB图像x_i，则

表示将图像x_i向左平移10个像素并向下平移20个像素后得到的图像，设允许平移的最大比例为T＝[0.3,0.3]，则对应的掩码为全1矩阵向左下方向平移30个元素。同样的，图像

对应同样的掩码。施加同样的掩码后，图像

和

就具有了相同的边缘模式，后续训练过程中，神经网络将不能根据边缘模式对这两幅图像进行区分，而必须学习图像中显著物体的表征。

如图3所示为前述图像平移变换模块和图像掩码模块的直观过程示意图。

在深度神经网络13中，预测施加掩码后图像的实际辅助标签，并学习图像的深度表征。

深度神经网络，一般是具有多个卷积层的神经网络，如AlexNet[Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neuralnetworks[C].In Advances in Neural Information Processing Systems(NIPS).2012:1097–1105.]和残差网络ResNet[He K,Zhang X,Ren S,et al.Deep Residual Learningfor Image Recognition[C].In IEEE Conference on Computer Vision and PatternRecognition(CVPR).2016:770–778.]等文献中涉及的。该网络最后一层为全连接层，输出神经元个数为2，分别对应辅助标签t的两个维度。该深度神经网络是学习图像表征的主要承载体，其每一层都对应输入图像的不同抽象层次的表征。用Ω表示该神经网络所有可训练的参数，F(·|Ω)表示该神经网络的映射函数。

在回归损失函数模块14中，基于损失函数指导深度神经网络参数的更新。

在本实施例中，回归损失函数是指导深度神经网络参数更新方向。回归损失函数以深度神经网络的输出和辅助标签作为输入，计算二者的差异，通过最小化该差异实现神经网络的训练。该损失函数，表示为：

表示掩码。

本实施例通过回归模型学习深度表征的方法，克服现有方法采用分类模型需要多次复制数据集带来的内存消耗。

在特征提取模块15中，提取图像的表征。

特征提取模块是深度神经网络的一部分，在使用回归损失函数对深度神经网络训练完成后，深度神经网络即学习到了图像的深度表征，其中浅层(靠近输入图像的层)学习到的是较为通用性的表征，如简单的纹理特征，深层(靠近输出的层)学习到的是跟任务相关度高的表征，如用于预测平移参数的特征，而中间层学习到的是具有判别性又不失通用性的表征。因此特征提取模块通过截取训练好的深度神经网络的前半部分结构得到的。

与现有技术相比，本实施例提出了一种新颖的基于图像平移的无监督深度表征学习方法，该方法包括图像平移变换模块、图像掩码模块、深度神经网络、回归损失函数和特征提取模块。通过图像平移变换模块和图像掩码模块，本发明实现不受边缘效应影响的平移图像数据集构建，进而通过回归损失函数训练深度神经网络实现学习图像深度表征的目的。

实施例二

本实施例提供的一种基于图像平移的无监督深度表征学习系统与实施例一的不同之处在于：

本实施例在多个数据集上与现有方法进行对比以验证上述方法的有效性。

数据集：

CIFAR101：该数据集包含60000张32×32大小的彩色图像，均匀分布在10个类别中，即每个类别包含6000张图像。其中50000张图像放入训练集，剩余10000张放入测试集。

CIFAR100：和CIFAR10类似，也包含60000张图像，但均匀分布在100个类别中，每个类别包含600张图片。训练集与测试集的样本数也是5:1。

STL10：包含13000张有标签的彩色图像，5000张用于训练，8000张测试。图像尺寸为96×96，类别个数为10，每个类包含1300张图像。另外还包含10万张无标签的图像。

Flower：该数据集包含英国常见的17类花的图像，每个类有80张。训练集和测试集分别含1020和340张图像。

以上数据集的统计信息如下表1：

	总样本数	训练集	测试集	类别数	图像尺寸
						CIFAR10	6w	5w	1w	10	32×32
CIFAR100	6w	5w	1w	100	32×32
						STL10	11.3w	10w/5000	8000	10	96×96
Flower	1360	1020	340	17	96×96

表1

神经网络结构：

使用残差网络ResNet50[He K,Zhang X,Ren S,et al.Deep Residual Learningfor Image Recognition[C].In IEEE Conference on Computer Vision and PatternRecognition(CVPR).2016:770–778.]作为深度神经网络模型。该网络由一个前端模块、四个残差块和一个输出模块组成。对于CIFAR10和CIFAR100数据集，前端模块包含一个卷积层，对应输入通道数为3，输出通道数为16，卷积核大小为3×3，步长和填充都为1。对于STL10和Flower数据集，前端模块包含一个卷积层和池化层。其中卷积层的输入通道数为3，输出通道数64，卷积核7×7，步长2，填充3。池化层的池子大小为3×3，步长为2。对所有数据集，四个残差块的参数保持一致，即分别包含3,4,6,3个残差单元。每个残差单元都是实现的y:＝x+f(x)，其中f是残差函数，由多个批量正则化层，ReLU激活函数和卷积层组成。我们将四个残差块的输出分别记为“Block1”到“Block4”。输出模块由一个全局平均池化层和全连接层组成。全局平均池化层的池子大小和“Block4”的特征图尺寸相等，得到长度为512×k的向量(对于CIFAR10，CIFAR100和Flower数据集k＝1；对于STL10数据集k＝4)。跟在全局平均池化层后的全连接层，输出的维度为2。

评价指标：

训练完深度神经网络之后，从Block3层提取特征，然后使用逻辑回归分类器评价这些表征的质量。使用L-BFGS算法在CIFAR10，CIFAR100，STL10和Flower数据集上训练逻辑回归模型。最大迭代次数设为800，l2范数惩罚项的系数设为λ＝100.0/(DK)，其中D是特征维度，K为类别个数。对于STL10数据集，使用具有10万个样本的无标签集以无监督的方式训练ResNet50，然后使用训练集训练逻辑回归模型。对于其他数据集，ResNet50和逻辑回归模型都在相同的训练集上进行训练。对所有数据集，报告的分类精度都是使用逻辑回归模型在测试集上计算得到的。

对比结果：

本发明在四个图像数据集上与预测图像旋转的无监督方法[Gidaris S,Singh P,Komodakis N.Unsupervised Representation Learning by Predicting ImageRotations[C].In Proceedings of the 6th International Conference onLearningRepresentations(ICLR).2018.]和预测几何变换的无监督方法[Golan I,El-Yaniv R.Deep Anomaly Detection Using Geometric Transformations[C].In Advancesin Neural Information Processing Systems(NIPS).2018:9781–9791.]的对比结果如下表2：

数据集	预测图像旋转	预测几何变换	本方案
				CIFAR10	73.0	75.5	78.7
CIFAR100	39.1	43.7	45.2
				STL10	71.0	73.3	78.4
Flower	51.5	51.5	61.2

表2

根据表2可得出在四个公共数据集上的实验结果证明了本实施例的性能优于现有方法。

实施例三

本实施例提供一种基于图像平移的无监督深度表征学习方法，如图4所示，包括：

S11.对图像进行随机的平移变换并生成辅助标签；

S12.对平移变换后的图像施加掩码；

S13.预测施加掩码后图像的实际辅助标签，并学习图像的深度表征；

S14.基于损失函数更新深度神经网络的参数；

S15.提取图像的表征。

进一步的，所述步骤S11中对图像进行随机的平移变换，则平移变换后的图像表示为：

其中，给定一个包含N个样本的图像数据集

进一步的，所述步骤S12中的掩码，表示为：

对平移变换后的图像

施加掩码的过程为

进一步的，所述步骤S14中损失函数，表示为：

表示掩码。

进一步的，所述步骤S15中提取图像的表征是通过截取训练好的深度神经网络得到的。

需要说明的是，本实施例提供一种基于图像平移的无监督深度表征学习方法与实施例一类似，在此不多做赘述。

与现有技术相比，本实施例提出了一种新颖的基于图像平移的无监督深度表征学习方法，该方法包括图像平移变换模块、图像掩码模块、深度神经网络、回归损失函数和特征提取模块。通过图像平移变换模块和图像掩码模块，本发明实现不受边缘效应影响的平移图像数据集构建，进而通过回归损失函数训练深度神经网络实现学习图像深度表征的目的。在四个公共数据集上的实验结果证明了本发明的性能优于现有方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于图像平移的无监督深度表征学习系统，其特征在于，包括：

特征提取模块，与所述深度神经网络连接，用于提取图像的表征；

所述图像平移变换模块中对图像进行随机的平移变换，则平移变换后的图像表示为：

其中，给定一个包含N个样本的图像数据集

每张图像x_i都用一个C×W×H的矩阵表示，C，W，H分别为图像通道数、宽度和高度；用

表示图像平移变换函数，t＝[t_w，t_h]为平移变换参数，t_w∈(-1，1)为水平方向平移参数，t_w≥0时表示向右平移的宽度比例为t_w，即向右平移t_w*W个像素，t_w＜0时表示向左平移的宽度比例为-t_w，即向左平移(-t_w*W)个像素；t_h∈(-1，1)为竖直方向平移参数，t_h≥0时表示向下平移的高度比例为t_h，即向下平移t_h*H个像素，t_h＜0时表示向上平移的高度比例为-t_h，即向上平移(-t_h*H)个像素；t表示辅助标签。

2.根据权利要求1所述的一种基于图像平移的无监督深度表征学习系统，其特征在于，所述图像掩码模块中的掩码，表示为：