CN112884022B - 一种基于图像平移的无监督深度表征学习方法及系统 - Google Patents

一种基于图像平移的无监督深度表征学习方法及系统 Download PDF

Info

Publication number
CN112884022B
CN112884022B CN202110128485.2A CN202110128485A CN112884022B CN 112884022 B CN112884022 B CN 112884022B CN 202110128485 A CN202110128485 A CN 202110128485A CN 112884022 B CN112884022 B CN 112884022B
Authority
CN
China
Prior art keywords
image
translation
mask
neural network
transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110128485.2A
Other languages
English (en)
Other versions
CN112884022A (zh
Inventor
朱信忠
徐慧英
郭西风
董仕豪
赵建民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN202110128485.2A priority Critical patent/CN112884022B/zh
Publication of CN112884022A publication Critical patent/CN112884022A/zh
Application granted granted Critical
Publication of CN112884022B publication Critical patent/CN112884022B/zh
Priority to US18/274,217 priority patent/US20240104885A1/en
Priority to PCT/CN2021/132631 priority patent/WO2022160898A1/zh
Priority to ZA2023/08288A priority patent/ZA202308288B/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于图像平移的无监督深度表征学习系统,包括:图像平移变换模块,用于对图像进行随机的平移变换并生成辅助标签;图像掩码模块,与所述图像平移变换模块连接,用于对平移变换后的图像施加掩码;深度神经网络,与所述图像掩码模块连接,用于预测施加掩码后图像的实际辅助标签,并学习图像的深度表征;回归损失函数模块,与所述深度神经网络连接,用于基于损失函数更新深度神经网络的参数;特征提取模块,与所述深度神经网络连接,用于提取图像的表征。本发明既解决了预测图像旋转的无监督方法无法处理旋转不变性图像的问题,也解决了预测几何变换的无监督方法存在的边缘效应问题。

Description

一种基于图像平移的无监督深度表征学习方法及系统
技术领域
本发明涉及图像表征学习技术领域,尤其涉及一种基于图像平移的无监督深度表征学习方法及系统。
背景技术
深度神经网络在图像分类、分割和目标检测等机器视觉任务中取得了巨大成功。但需要大量手工标注的数据才能达到令人满意的性能。而现实中给数据打标签是一个极其费时费力的事情。在有些领域,如医疗和航天,只有领域专家才能提供可靠的标注,因此几乎不可能收集大量标签数据。于是无监督学习成为越来越重要的研究方向。无监督深度表征学习不依靠人为标注的标签作为监督信息,只使用图像数据本身训练深度神经网络,实现学习图像表征的目的。
预测图像旋转的无监督方法[Gidaris S,Singh P,Komodakis N.UnsupervisedRepresentation Learning by Predicting Image Rotations[C].In Proceedings ofthe 6th International Conference on Learning Representations(ICLR).2018.]对每张图像分别旋转0度、90度、180度和270度获得4张旋转图像,分别赋予类别标签0到3。然后用这些旋转的图像通过求解四分类任务来训练一个深度神经网络,从而实现学习图像表征的目的。预测图像旋转的无监督方法假设图像的方向是由图像中最显著的物体的方向决定的。然而现实生活中存在很多对称或具有旋转不变性的物体,如图1上半部所示,预测这些物体的旋转方向将不能学习到有意义的特征表示。
预测几何变换的无监督方法[Golan I,El-Yaniv R.Deep Anomaly DetectionUsing Geometric Transformations[C].In Advances in Neural InformationProcessing Systems(NIPS).2018:9781–9791.]对每张图像分别进行72种几何变换获得72张变换图像,分别赋予类别标签0到71。然后用这些旋转的图像通过求解72分类任务来训练一个深度神经网络,从而实现学习图像表征的目的。上述72种几何变换包括4个角度(0度、90度、180度和270度)的旋转变换、9个方向(不平移、上、下、左、右、左上、右上、左下、右下)的平移变换和水平翻转变换的排列组合,共产生4×9×2=72种几何变换。预测几何变换的无监督方法引入图像平移变换来弥补旋转的不足。但该方法选择预测图像的平移方向,即不平移、上、下、左、右、左上等9个方向,如图1下半部所示。由于平移产生的边缘效应,预测平移的方向是个非常简单的任务。增加该预测任务并不能强迫神经网络挖掘图像的内容信息,因此不能提高无监督表征学习的效果。
针对以上现状,本发明提出的一种基于图像平移的无监督深度表征学习方法及系统。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于图像平移的无监督深度表征学习方法及系统,既解决了预测图像旋转的无监督方法无法处理旋转不变性图像的问题,也解决了预测几何变换的无监督方法存在的边缘效应问题。
为了实现以上目的,本发明采用以下技术方案:
一种基于图像平移的无监督深度表征学习系统,包括:
图像平移变换模块,用于对图像进行随机的平移变换并生成辅助标签;
图像掩码模块,与所述图像平移变换模块连接,用于对平移变换后的图像施加掩码;
深度神经网络,与所述图像掩码模块连接,用于预测施加掩码后图像的实际辅助标签,并学习图像的深度表征;
回归损失函数模块,与所述深度神经网络连接,用于基于损失函数更新深度神经网络的参数;
特征提取模块,与所述深度神经网络连接,用于提取图像的表征。
进一步的,所述图像平移变换模块中对图像进行随机的平移变换,则平移变换后的图像表示为:
Figure BDA0002924264810000021
其中,给定一个包含N个样本的图像数据集
Figure BDA0002924264810000022
每张图像xi都用一个C×W×H的矩阵表示,C,W,H分别为图像通道数、宽度和高度;用
Figure BDA0002924264810000023
表示图像平移变换函数,t=[tw,th]为平移变换参数,tw∈(-1,1)为水平方向平移参数,tw≥0时表示向右平移的宽度比例为tw,即向右平移tw*W个像素,tw<0时表示向左平移的宽度比例为-tw,即向左平移(-tw*W)个像素;th∈(-1,1)为竖直方向平移参数,th≥0时表示向下平移的高度比例为th,即向下平移th*H个像素,th<0时表示向上平移的高度比例为-th,即向上平移(-th*H)个像素;t表示辅助标签。
进一步的,所述图像掩码模块中的掩码,表示为:
Figure BDA0002924264810000031
其中,1表示一个元素全为1的C×W×H矩阵;T=[Tw,Th]表示允许平移变换的最大比例;t=[tw,th]表示以辅助标签进行平移变换;sign表示符号函数,定义为:
Figure BDA0002924264810000032
对平移变换后的图像
Figure BDA0002924264810000033
施加掩码的过程为
Figure BDA0002924264810000034
即平移变换后的图像矩阵与掩码矩阵进行对应元素相乘操作。
进一步的,所述回归损失函数模块中损失函数,表示为:
Figure BDA0002924264810000035
其中,F(·|Ω)表示神经网络的映射函数;Ω表示神经网络所有训练的参数;N表示训练样本数;
Figure BDA0002924264810000036
表示掩码。
进一步的,所述特征提取模块中提取图像的表征是通过截取训练好的深度神经网络得到的。
相应的,还提供一种基于图像平移的无监督深度表征学习方法,包括:
S1.对图像进行随机的平移变换并生成辅助标签;
S2.对平移变换后的图像施加掩码;
S3.预测施加掩码后图像的实际辅助标签,并学习图像的深度表征;
S4.基于损失函数更新深度神经网络的参数;
S5.提取图像的表征。
进一步的,所述步骤S1中对图像进行随机的平移变换,则平移变换后的图像表示为:
Figure BDA0002924264810000041
其中,给定一个包含N个样本的图像数据集
Figure BDA0002924264810000042
每张图像xi都用一个C×W×H的矩阵表示,C,W,H分别为图像通道数、宽度和高度;用
Figure BDA0002924264810000043
表示图像平移变换函数,t=[tw,th]为平移变换参数,tw∈(-1,1)为水平方向平移参数,tw≥0时表示向右平移的宽度比例为tw,即向右平移tw*W个像素,tw<0时表示向左平移的宽度比例为-tw,即向左平移(-tw*W)个像素;th∈(-1,1)为竖直方向平移参数,th≥0时表示向下平移的高度比例为th,即向下平移th*H个像素,th<0时表示向上平移的高度比例为-th,即向上平移(-th*H)个像素;t表示辅助标签。
进一步的,所述步骤S2中的掩码,表示为:
Figure BDA0002924264810000044
其中,1表示一个元素全为1的C×W×H矩阵;T=[Tw,Th]表示允许平移变换的最大比例;t=[tw,th]表示以辅助标签进行平移变换;sign表示符号函数,定义为:
Figure BDA0002924264810000045
对平移变换后的图像
Figure BDA0002924264810000046
施加掩码的过程为
Figure BDA0002924264810000047
即平移变换后的图像矩阵与掩码矩阵进行对应元素相乘操作。
进一步的,所述步骤S4中损失函数,表示为:
Figure BDA0002924264810000048
其中,F(·|Ω)表示神经网络的映射函数;Ω表示神经网络所有训练的参数;N表示训练样本数;
Figure BDA0002924264810000049
表示掩码。
进一步的,所述步骤S5中提取图像的表征是通过截取训练好的深度神经网络得到的。
与现有技术相比,本发明提出了一种新颖的基于图像平移的无监督深度表征学习方法,该方法包括图像平移变换模块、图像掩码模块、深度神经网络、回归损失函数和特征提取模块。通过图像平移变换模块和图像掩码模块,本发明实现不受边缘效应影响的平移图像数据集构建,进而通过回归损失函数训练深度神经网络实现学习图像深度表征的目的。在四个公共数据集上的实验结果证明了本发明的性能优于现有方法。
附图说明
图1是背景技术中提供的现有技术的示意图;
图2是实施例一提供的一种基于图像平移的无监督深度表征学习系统结构图;
图3是实施例一提供的图像平移与掩码过程的示意图;
图4是实施例三提供的一种基于图像平移的无监督深度表征学习方法流程。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术中图像表征学习容易受到旋转不变性和边缘效应等的影响,导致表征学习性能差的问题,提供了一种基于图像平移的无监督深度表征学习方法及系统,具体是对图像进行随机的平移变换,记录平移方向和平移比例作为辅助标签。进一步地,对在相同方向上进行平移的所有图像,无论平移比例是多少,都施加同一个掩码,以消除平移变换产生的边缘模式。使用平移并掩码后的图像和生成的辅助标签,通过求解回归任务来训练一个深度神经网络,实现无监督学习图像表征的目的。
实施例一
本实施例提供的一种基于图像平移的无监督深度表征学习系统,如图2所示,包括:
图像平移变换模块11,用于对图像进行随机的平移变换并生成辅助标签;
图像掩码模块12,与图像平移变换模块11连接,用于对平移变换后的图像施加掩码;
深度神经网络13,与图像掩码模块12连接,用于预测施加掩码后图像的实际辅助标签,并学习图像的深度表征;
回归损失函数模块14,与深度神经网络13连接,用于基于损失函数更新深度神经网络的参数;
特征提取模块15,与深度神经网络13连接,用于提取图像的表征。
在图像平移变换模块11中,对图像进行随机的平移变换并生成辅助标签。
在本实施例中,给定一个包含N个样本的图像数据集
Figure BDA0002924264810000061
每张图像xi都用一个C×W×H的矩阵表示,C,W,H分别为图像通道数、宽度和高度;用
Figure BDA0002924264810000062
表示图像平移变换函数,t=[tw,th]为平移变换参数,tw∈(-1,1)为水平方向平移参数,tw≥0时表示向右平移的宽度比例为tw,即向右平移tw*W个像素,tw<0时表示向左平移的宽度比例为-tw,即向左平移(-tw*W)个像素;th∈(-1,1)为竖直方向平移参数,th≥0时表示向下平移的高度比例为th,即向下平移th*H个像素,th<0时表示向上平移的高度比例为-th,即向上平移(-th*H)个像素;对于平移变换后的图像
Figure BDA0002924264810000063
t表示辅助标签,也称参数。
例如对于一个3×100×100大小的RGB图像xi,则
Figure BDA0002924264810000064
表示将图像xi向左平移10个像素并向下平移20个像素后得到的图像,对应的辅助标签为[-0.1,0.2]。
在图像掩码模块12中,对平移变换后的图像施加掩码。
本实施例对平移变换后的图像施加一个掩码,将具有相同平移方向的所有图像的边缘模式变成一样,从而消除平移变换带来的边缘效应对深度表征学习带来的负面影响。
假设施加到给定图像上的平移变换幅度主要由显著的物体或锐利的边缘模式决定。该假设符合人的直观感受,因为人在计算平移的像素的个数时也是将注意力集中在图片中最显著的前景物体或者边缘模式上。只有当模型将注意力集中在显著物体上来做预测时才能有效学习具有判别性的表征。所以设计了一个掩码来消除平移变换产生的锐利边缘效应的影响。通过这种方式强迫神经网络模型将注意力集中在显著物体上并学习他们的表征。为了实现以上目的,掩码构造方式为,对于同一个平移方向,无论平移的比例是多少,都将允许平移的最大比例作为掩码,从而将边缘模式变成一样。
用1表示一个元素全为1的C×W×H矩阵,T=[Tw,Th]为允许平移的最大比例,则对于以参数t=[tw,th]进行平移变换的图像,其掩码定义为:
Figure BDA0002924264810000071
其中sign表示符号函数,定义为:
Figure BDA0002924264810000072
则对平移变换后的图像
Figure BDA0002924264810000073
施加掩码的过程为
Figure BDA0002924264810000074
即平移变换后的图像矩阵与掩码矩阵进行对应元素相乘操作。
例如,对于一个3×100×100大小的RGB图像xi,则
Figure BDA0002924264810000075
表示将图像xi向左平移10个像素并向下平移20个像素后得到的图像,设允许平移的最大比例为T=[0.3,0.3],则对应的掩码为全1矩阵向左下方向平移30个元素。同样的,图像
Figure BDA0002924264810000076
对应同样的掩码。施加同样的掩码后,图像
Figure BDA0002924264810000077
Figure BDA0002924264810000078
就具有了相同的边缘模式,后续训练过程中,神经网络将不能根据边缘模式对这两幅图像进行区分,而必须学习图像中显著物体的表征。
如图3所示为前述图像平移变换模块和图像掩码模块的直观过程示意图。
在深度神经网络13中,预测施加掩码后图像的实际辅助标签,并学习图像的深度表征。
深度神经网络,一般是具有多个卷积层的神经网络,如AlexNet[Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neuralnetworks[C].In Advances in Neural Information Processing Systems(NIPS).2012:1097–1105.]和残差网络ResNet[He K,Zhang X,Ren S,et al.Deep Residual Learningfor Image Recognition[C].In IEEE Conference on Computer Vision and PatternRecognition(CVPR).2016:770–778.]等文献中涉及的。该网络最后一层为全连接层,输出神经元个数为2,分别对应辅助标签t的两个维度。该深度神经网络是学习图像表征的主要承载体,其每一层都对应输入图像的不同抽象层次的表征。用Ω表示该神经网络所有可训练的参数,F(·|Ω)表示该神经网络的映射函数。
在回归损失函数模块14中,基于损失函数指导深度神经网络参数的更新。
在本实施例中,回归损失函数是指导深度神经网络参数更新方向。回归损失函数以深度神经网络的输出和辅助标签作为输入,计算二者的差异,通过最小化该差异实现神经网络的训练。该损失函数,表示为:
Figure BDA0002924264810000081
其中,F(·|Ω)表示神经网络的映射函数;Ω表示神经网络所有训练的参数;N表示训练样本数;
Figure BDA0002924264810000082
表示掩码。
本实施例通过回归模型学习深度表征的方法,克服现有方法采用分类模型需要多次复制数据集带来的内存消耗。
在特征提取模块15中,提取图像的表征。
特征提取模块是深度神经网络的一部分,在使用回归损失函数对深度神经网络训练完成后,深度神经网络即学习到了图像的深度表征,其中浅层(靠近输入图像的层)学习到的是较为通用性的表征,如简单的纹理特征,深层(靠近输出的层)学习到的是跟任务相关度高的表征,如用于预测平移参数的特征,而中间层学习到的是具有判别性又不失通用性的表征。因此特征提取模块通过截取训练好的深度神经网络的前半部分结构得到的。
与现有技术相比,本实施例提出了一种新颖的基于图像平移的无监督深度表征学习方法,该方法包括图像平移变换模块、图像掩码模块、深度神经网络、回归损失函数和特征提取模块。通过图像平移变换模块和图像掩码模块,本发明实现不受边缘效应影响的平移图像数据集构建,进而通过回归损失函数训练深度神经网络实现学习图像深度表征的目的。
实施例二
本实施例提供的一种基于图像平移的无监督深度表征学习系统与实施例一的不同之处在于:
本实施例在多个数据集上与现有方法进行对比以验证上述方法的有效性。
数据集:
CIFAR101:该数据集包含60000张32×32大小的彩色图像,均匀分布在10个类别中,即每个类别包含6000张图像。其中50000张图像放入训练集,剩余10000张放入测试集。
CIFAR100:和CIFAR10类似,也包含60000张图像,但均匀分布在100个类别中,每个类别包含600张图片。训练集与测试集的样本数也是5:1。
STL10:包含13000张有标签的彩色图像,5000张用于训练,8000张测试。图像尺寸为96×96,类别个数为10,每个类包含1300张图像。另外还包含10万张无标签的图像。
Flower:该数据集包含英国常见的17类花的图像,每个类有80张。训练集和测试集分别含1020和340张图像。
以上数据集的统计信息如下表1:
总样本数 训练集 测试集 类别数 图像尺寸
CIFAR10 6w 5w 1w 10 32×32
CIFAR100 6w 5w 1w 100 32×32
STL10 11.3w 10w/5000 8000 10 96×96
Flower 1360 1020 340 17 96×96
表1
神经网络结构:
使用残差网络ResNet50[He K,Zhang X,Ren S,et al.Deep Residual Learningfor Image Recognition[C].In IEEE Conference on Computer Vision and PatternRecognition(CVPR).2016:770–778.]作为深度神经网络模型。该网络由一个前端模块、四个残差块和一个输出模块组成。对于CIFAR10和CIFAR100数据集,前端模块包含一个卷积层,对应输入通道数为3,输出通道数为16,卷积核大小为3×3,步长和填充都为1。对于STL10和Flower数据集,前端模块包含一个卷积层和池化层。其中卷积层的输入通道数为3,输出通道数64,卷积核7×7,步长2,填充3。池化层的池子大小为3×3,步长为2。对所有数据集,四个残差块的参数保持一致,即分别包含3,4,6,3个残差单元。每个残差单元都是实现的y:=x+f(x),其中f是残差函数,由多个批量正则化层,ReLU激活函数和卷积层组成。我们将四个残差块的输出分别记为“Block1”到“Block4”。输出模块由一个全局平均池化层和全连接层组成。全局平均池化层的池子大小和“Block4”的特征图尺寸相等,得到长度为512×k的向量(对于CIFAR10,CIFAR100和Flower数据集k=1;对于STL10数据集k=4)。跟在全局平均池化层后的全连接层,输出的维度为2。
评价指标:
训练完深度神经网络之后,从Block3层提取特征,然后使用逻辑回归分类器评价这些表征的质量。使用L-BFGS算法在CIFAR10,CIFAR100,STL10和Flower数据集上训练逻辑回归模型。最大迭代次数设为800,l2范数惩罚项的系数设为λ=100.0/(DK),其中D是特征维度,K为类别个数。对于STL10数据集,使用具有10万个样本的无标签集以无监督的方式训练ResNet50,然后使用训练集训练逻辑回归模型。对于其他数据集,ResNet50和逻辑回归模型都在相同的训练集上进行训练。对所有数据集,报告的分类精度都是使用逻辑回归模型在测试集上计算得到的。
对比结果:
本发明在四个图像数据集上与预测图像旋转的无监督方法[Gidaris S,Singh P,Komodakis N.Unsupervised Representation Learning by Predicting ImageRotations[C].In Proceedings of the 6th International Conference onLearningRepresentations(ICLR).2018.]和预测几何变换的无监督方法[Golan I,El-Yaniv R.Deep Anomaly Detection Using Geometric Transformations[C].In Advancesin Neural Information Processing Systems(NIPS).2018:9781–9791.]的对比结果如下表2:
数据集 预测图像旋转 预测几何变换 本方案
CIFAR10 73.0 75.5 78.7
CIFAR100 39.1 43.7 45.2
STL10 71.0 73.3 78.4
Flower 51.5 51.5 61.2
表2
根据表2可得出在四个公共数据集上的实验结果证明了本实施例的性能优于现有方法。
实施例三
本实施例提供一种基于图像平移的无监督深度表征学习方法,如图4所示,包括:
S11.对图像进行随机的平移变换并生成辅助标签;
S12.对平移变换后的图像施加掩码;
S13.预测施加掩码后图像的实际辅助标签,并学习图像的深度表征;
S14.基于损失函数更新深度神经网络的参数;
S15.提取图像的表征。
进一步的,所述步骤S11中对图像进行随机的平移变换,则平移变换后的图像表示为:
Figure BDA0002924264810000111
其中,给定一个包含N个样本的图像数据集
Figure BDA0002924264810000112
每张图像xi都用一个C×W×H的矩阵表示,C,W,H分别为图像通道数、宽度和高度;用
Figure BDA0002924264810000113
表示图像平移变换函数,t=[tw,th]为平移变换参数,tw∈(-1,1)为水平方向平移参数,tw≥0时表示向右平移的宽度比例为tw,即向右平移tw*W个像素,tw<0时表示向左平移的宽度比例为-tw,即向左平移(-tw*W)个像素;th∈(-1,1)为竖直方向平移参数,th≥0时表示向下平移的高度比例为th,即向下平移th*H个像素,th<0时表示向上平移的高度比例为-th,即向上平移(-th*H)个像素;t表示辅助标签。
进一步的,所述步骤S12中的掩码,表示为:
Figure BDA0002924264810000114
其中,1表示一个元素全为1的C×W×H矩阵;T=[Tw,Th]表示允许平移变换的最大比例;t=[tw,th]表示以辅助标签进行平移变换;sign表示符号函数,定义为:
Figure BDA0002924264810000115
对平移变换后的图像
Figure BDA0002924264810000116
施加掩码的过程为
Figure BDA0002924264810000117
即平移变换后的图像矩阵与掩码矩阵进行对应元素相乘操作。
进一步的,所述步骤S14中损失函数,表示为:
Figure BDA0002924264810000118
其中,F(·|Ω)表示神经网络的映射函数;Ω表示神经网络所有训练的参数;N表示训练样本数;
Figure BDA0002924264810000121
表示掩码。
进一步的,所述步骤S15中提取图像的表征是通过截取训练好的深度神经网络得到的。
需要说明的是,本实施例提供一种基于图像平移的无监督深度表征学习方法与实施例一类似,在此不多做赘述。
与现有技术相比,本实施例提出了一种新颖的基于图像平移的无监督深度表征学习方法,该方法包括图像平移变换模块、图像掩码模块、深度神经网络、回归损失函数和特征提取模块。通过图像平移变换模块和图像掩码模块,本发明实现不受边缘效应影响的平移图像数据集构建,进而通过回归损失函数训练深度神经网络实现学习图像深度表征的目的。在四个公共数据集上的实验结果证明了本发明的性能优于现有方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种基于图像平移的无监督深度表征学习系统,其特征在于,包括:
图像平移变换模块,用于对图像进行随机的平移变换并生成辅助标签;
图像掩码模块,与所述图像平移变换模块连接,用于对平移变换后的图像施加掩码;
深度神经网络,与所述图像掩码模块连接,用于预测施加掩码后图像的实际辅助标签,并学习图像的深度表征;
回归损失函数模块,与所述深度神经网络连接,用于基于损失函数更新深度神经网络的参数;
特征提取模块,与所述深度神经网络连接,用于提取图像的表征;
所述图像平移变换模块中对图像进行随机的平移变换,则平移变换后的图像表示为:
Figure FDA0003168173120000011
其中,给定一个包含N个样本的图像数据集
Figure FDA0003168173120000012
每张图像xi都用一个C×W×H的矩阵表示,C,W,H分别为图像通道数、宽度和高度;用
Figure FDA0003168173120000013
表示图像平移变换函数,t=[tw,th]为平移变换参数,tw∈(-1,1)为水平方向平移参数,tw≥0时表示向右平移的宽度比例为tw,即向右平移tw*W个像素,tw<0时表示向左平移的宽度比例为-tw,即向左平移(-tw*W)个像素;th∈(-1,1)为竖直方向平移参数,th≥0时表示向下平移的高度比例为th,即向下平移th*H个像素,th<0时表示向上平移的高度比例为-th,即向上平移(-th*H)个像素;t表示辅助标签。
2.根据权利要求1所述的一种基于图像平移的无监督深度表征学习系统,其特征在于,所述图像掩码模块中的掩码,表示为:
Figure FDA0003168173120000014
其中,1表示一个元素全为1的C×W×H矩阵;T=[Tw,Th]表示允许平移变换的最大比例;t=[tw,th]表示以辅助标签进行平移变换;sign表示符号函数,定义为:
Figure FDA0003168173120000021
对平移变换后的图像
Figure FDA0003168173120000022
施加掩码的过程为
Figure FDA0003168173120000023
即平移变换后的图像矩阵与掩码矩阵进行对应元素相乘操作。
3.根据权利要求2所述的一种基于图像平移的无监督深度表征学习系统,其特征在于,所述回归损失函数模块中损失函数,表示为:
Figure FDA0003168173120000024
其中,F(·|Ω)表示神经网络的映射函数;Ω表示神经网络所有训练的参数;N表示训练样本数;
Figure FDA0003168173120000025
表示掩码。
4.根据权利要求3所述的一种基于图像平移的无监督深度表征学习系统,其特征在于,所述特征提取模块中提取图像的表征是通过截取训练好的深度神经网络得到的。
5.一种基于图像平移的无监督深度表征学习方法,其特征在于,包括:
S1.对图像进行随机的平移变换并生成辅助标签;
S2.对平移变换后的图像施加掩码;
S3.预测施加掩码后图像的实际辅助标签,并学习图像的深度表征;
S4.基于损失函数更新深度神经网络的参数;
S5.提取图像的表征;
所述步骤S1中对图像进行随机的平移变换,则平移变换后的图像表示为:
Figure FDA0003168173120000026
其中,给定一个包含N个样本的图像数据集
Figure FDA0003168173120000027
每张图像xi都用一个C×W×H的矩阵表示,C,W,H分别为图像通道数、宽度和高度;用
Figure FDA0003168173120000028
表示图像平移变换函数,t=[tw,th]为平移变换参数,tw∈(-1,1)为水平方向平移参数,tw≥0时表示向右平移的宽度比例为tw,即向右平移tw*W个像素,tw<0时表示向左平移的宽度比例为-tw,即向左平移(-tw*W)个像素;th∈(-1,1)为竖直方向平移参数,th≥0时表示向下平移的高度比例为th,即向下平移th*H个像素,th<0时表示向上平移的高度比例为-th,即向上平移(-th*H)个像素;t表示辅助标签。
6.根据权利要求5所述的一种基于图像平移的无监督深度表征学习方法,其特征在于,所述步骤S2中的掩码,表示为:
Figure FDA0003168173120000031
其中,1表示一个元素全为1的C×W×H矩阵;T=[Tw,Th]表示允许平移变换的最大比例;t=[tw,th]表示以辅助标签进行平移变换;sign表示符号函数,定义为:
Figure FDA0003168173120000032
对平移变换后的图像
Figure FDA0003168173120000033
施加掩码的过程为
Figure FDA0003168173120000034
即平移变换后的图像矩阵与掩码矩阵进行对应元素相乘操作。
7.根据权利要求6所述的一种基于图像平移的无监督深度表征学习方法,其特征在于,所述步骤S4中损失函数,表示为:
Figure FDA0003168173120000035
其中,F(·|Ω)表示神经网络的映射函数;Ω表示神经网络所有训练的参数;N表示训练样本数;
Figure FDA0003168173120000036
表示掩码。
8.根据权利要求7所述的一种基于图像平移的无监督深度表征学习方法,其特征在于,所述步骤S5中提取图像的表征是通过截取训练好的深度神经网络得到的。
CN202110128485.2A 2021-01-29 2021-01-29 一种基于图像平移的无监督深度表征学习方法及系统 Active CN112884022B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110128485.2A CN112884022B (zh) 2021-01-29 2021-01-29 一种基于图像平移的无监督深度表征学习方法及系统
US18/274,217 US20240104885A1 (en) 2021-01-29 2021-11-24 Method and system for unsupervised deep representation learning based on image translation
PCT/CN2021/132631 WO2022160898A1 (zh) 2021-01-29 2021-11-24 一种基于图像平移的无监督深度表征学习方法及系统
ZA2023/08288A ZA202308288B (en) 2021-01-29 2023-08-28 Method and system for unsupervised deep representation learning based on image translation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110128485.2A CN112884022B (zh) 2021-01-29 2021-01-29 一种基于图像平移的无监督深度表征学习方法及系统

Publications (2)

Publication Number Publication Date
CN112884022A CN112884022A (zh) 2021-06-01
CN112884022B true CN112884022B (zh) 2021-11-12

Family

ID=76051996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110128485.2A Active CN112884022B (zh) 2021-01-29 2021-01-29 一种基于图像平移的无监督深度表征学习方法及系统

Country Status (4)

Country Link
US (1) US20240104885A1 (zh)
CN (1) CN112884022B (zh)
WO (1) WO2022160898A1 (zh)
ZA (1) ZA202308288B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884022B (zh) * 2021-01-29 2021-11-12 浙江师范大学 一种基于图像平移的无监督深度表征学习方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10726560B2 (en) * 2014-10-31 2020-07-28 Fyusion, Inc. Real-time mobile device capture and generation of art-styled AR/VR content
WO2018057714A1 (en) * 2016-09-21 2018-03-29 The General Hospital Corporation Systems, methods and media for automatically generating a bone age assessment from a radiograph
CN109903396B (zh) * 2019-03-20 2022-12-16 洛阳中科信息产业研究院 一种基于曲面参数化的牙齿三维模型自动分割方法
CN110136136B (zh) * 2019-05-27 2022-02-08 北京达佳互联信息技术有限公司 场景分割方法、装置、计算机设备及存储介质
CN111091575B (zh) * 2019-12-31 2022-10-18 电子科技大学 一种基于强化学习方法的医学图像分割方法
CN111369540B (zh) * 2020-03-06 2023-06-02 西安电子科技大学 基于掩码卷积神经网络的植物叶片病害识别方法
CN111489323B (zh) * 2020-04-09 2023-09-19 中国科学技术大学先进技术研究院 双光场图像融合方法、装置、设备及可读存储介质
CN111783986B (zh) * 2020-07-02 2024-06-14 清华大学 网络训练方法及装置、姿态预测方法及装置
CN112258436A (zh) * 2020-10-21 2021-01-22 华为技术有限公司 图像处理模型的训练方法、装置、图像处理方法及模型
CN112884022B (zh) * 2021-01-29 2021-11-12 浙江师范大学 一种基于图像平移的无监督深度表征学习方法及系统

Also Published As

Publication number Publication date
WO2022160898A1 (zh) 2022-08-04
ZA202308288B (en) 2023-09-27
US20240104885A1 (en) 2024-03-28
CN112884022A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
McNeely-White et al. Inception and ResNet features are (almost) equivalent
Khosla et al. Enhancing performance of deep learning models with different data augmentation techniques: A survey
Gao et al. Multiscale residual network with mixed depthwise convolution for hyperspectral image classification
Li et al. Automatic fabric defect detection with a wide-and-compact network
He et al. Supercnn: A superpixelwise convolutional neural network for salient object detection
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
Chen et al. Semantic image segmentation with deep convolutional nets and fully connected crfs
CN106127197B (zh) 基于显著标签排序的图像显著性目标检测方法和装置
Qin et al. Cross-domain collaborative learning via cluster canonical correlation analysis and random walker for hyperspectral image classification
CN108932518B (zh) 一种基于视觉词袋模型的鞋印图像特征提取及检索方法
CN108416270A (zh) 一种基于多属性联合特征的交通标志识别方法
CN112488229A (zh) 一种基于特征分离和对齐的域自适应无监督目标检测方法
CN109472733A (zh) 基于卷积神经网络的图像隐写分析方法
Manohar et al. Convolutional neural network with SVM for classification of animal images
Liang et al. Cross-scene foreground segmentation with supervised and unsupervised model communication
Bappy et al. Real estate image classification
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN112884022B (zh) 一种基于图像平移的无监督深度表征学习方法及系统
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN113344069B (zh) 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法
Vijayalakshmi K et al. Copy-paste forgery detection using deep learning with error level analysis
CN115861306B (zh) 一种基于自监督拼图模块的工业品异常检测方法
Jia et al. A mix-supervised unified framework for salient object detection
Lam et al. Statistical bootstrap-based principal mode component analysis for dynamic background subtraction
CN111046869B (zh) 一种基于深度学习的显著区域提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210601

Assignee: Shaanxi Hao'an Occupational Health Technology Service Co.,Ltd. Huzhou Branch

Assignor: ZHEJIANG NORMAL University

Contract record no.: X2023980045423

Denomination of invention: An unsupervised deep representation learning method and system based on image translation

Granted publication date: 20211112

License type: Common License

Record date: 20231101

Application publication date: 20210601

Assignee: ZHEJIANG HUABAO INK Co.,Ltd.

Assignor: ZHEJIANG NORMAL University

Contract record no.: X2023980045391

Denomination of invention: An unsupervised deep representation learning method and system based on image translation

Granted publication date: 20211112

License type: Common License

Record date: 20231101

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210601

Assignee: Huzhou Zhiying Stationery Supplies Co.,Ltd.

Assignor: ZHEJIANG NORMAL University

Contract record no.: X2023980045739

Denomination of invention: An unsupervised deep representation learning method and system based on image translation

Granted publication date: 20211112

License type: Common License

Record date: 20231106

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210601

Assignee: Ningbo Beilun Qiancai Printing Equipment Co.,Ltd.

Assignor: ZHEJIANG NORMAL University

Contract record no.: X2024980000675

Denomination of invention: An unsupervised deep representation learning method and system based on image translation

Granted publication date: 20211112

License type: Common License

Record date: 20240115