CN109242097A

CN109242097A - 无监督学习的视觉表示学习系统及方法

Info

Publication number: CN109242097A
Application number: CN201810762484.1A
Authority: CN
Inventors: 熊红凯; 高星
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2019-01-18
Anticipated expiration: 2038-07-12
Also published as: CN109242097B

Abstract

本发明提供了一种无监督学习的视觉表示学习系统及方法，该系统包括：编码器、译码器、分类器；编码器、译码器、分类器均由深度卷积神经网络构成；编码器接收输入数据，并将输入数据转换为输入数据的表示后发送给译码器；译码器根据输入数据的表示得到重建数据，并将重建数据发送给编码器；以使得编码器根据重建数据得到重建数据的表示；分类器与编码器级联，构成判别器，判别器用于区分出接收到的数据是输入数据的还是重建数据。相较于基于生成模型的表示学习系统，本发明中的系统无需任何关于表示的先验分布，避免了过于简单的先验假设引入的偏差。相较于基于重建任务的表示学习系统，本发明系统能更有效地提取数据的全局中高阶特征。

Description

无监督学习的视觉表示学习系统及方法

技术领域

本发明涉及计算机视觉技术领域，具体地，涉及无监督学习的视觉表示学习系统及方法。

背景技术

数据表示的选择往往决定后续任务的性能，且计算机视觉的发展很大程度上源于数据表示方法的演进。因此，研究人员不断地寻求和探索视觉的有效表示。在最初阶段，大多数计算机研究人员都致力于在大量的专业知识基础上精心设计一系列的预处理和变换流程来作为数据的表示，如尺度不变特征转换(Scale-invariant feature transform或SIFT)。然而，这些手工设计的函数无法捕捉到数据高层次的表征，因而他们在一系列的应用上的性能也较差。最近，深度学习方法可以自动学习某些任务(如图像分类和对象检测)的多级表示，并显著提高计算机视觉中一系列任务的性能。然而，大多数深度学习算法属于监督学习，其性能高度依赖于大规模的有标签数据集，而这些数据集并不总是可得的。相反地，非监督学习方法仅使用大量可得的无标签数据，因而更加灵活，但是在一系列应用上表现的弱于相应的监督学习方法。

经过对现有技术的文献检索发现，Good fellow等人在2014年的《Advances inneural information processing systems》(NIPS)发表的“Generative adversarialnets”(生成对抗网络GAN)一文中开创性的引入二元博弈的对抗损失函数作为生成模型目标函数，其以随机高斯噪声作为输入并通过生成网络合成图像，比于之前基于最小均方误差函数的方法，其生成的图像更加锐化真实。但是，该方法仅以随机噪声作为图像的表示，而且无法从图像提取其表示。Donahue等人在2017年的《International conference onlearning representations》发表的“Adversarial feature learning”和Dumoulin等人在2017年的《International conference on learning representations》发表的“Adversarially learned inference”中进一步地在生成对抗网络GAN框架下引入了推断网络以图像作为输入来预测其表示。但是，这两种方法都需要对数据表示的先验分布，而且为了便于采样，所选取的先验分布都过于简单，如高斯分布。先验分布与真实分布的差异会对表示的提取引入偏差，进而影响其后续任务的性能。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种无监督学习的视觉表示学习系统及方法。

第一方面，本发明提供的一种无监督学习的视觉表示学习系统，编码器、译码器、分类器；所述编码器、译码器、分类器均由深度卷积神经网络构成；其中：

所述编码器接收输入数据，并将所述输入数据转换为输入数据的表示后发送给所述译码器；

所述译码器根据所述输入数据的表示得到重建数据，并将所述重建数据发送给所述编码器；以使得所述编码器根据所述重建数据得到重建数据的表示；

所述分类器与所述编码器级联，构成判别器，所述判别器用于区分出接收到的数据是输入数据还是重建数据。

本发明中的系统通过将数据的表示学习任务转化为数据重建任务与数据判别任务，得以利用非标签数据本身作为监督信息来优化编码器、译码器、分类器、判别器，并以此驱动网络学习提取数据的通用表示。通过该系统得到的数据表示具有较好的泛化性可以应用到不同数据集以及不同任务中，因而有效解决了在标签数据受限情况下监督表示学习系统因过拟合而泛化性较差的问题。

可选地，当所述输入数据为图像时，所述编码器和所述译码器的深度卷积神经网络是通过以重建输入图像为目标，以达到图像像素的最小均方误差为优化目标，迭代训练得到的。

本发明中的系统在应用在图像数据时，以完美重建输入图像为目标，以追逐图像像素的最小均方误差准则作为优化目标来学习优化所述编码器与译码器。通过所述编码器与译码器的瓶颈结构，所述编码器与译码器只有在捕获了数据的有效的表示情况下，才能较好的重建出输入数据。其中，最小均方误差准则主要衡量每个像素的强度变化，从而使得所述编码器关注局部的低阶特征。

可选地，所述判别器通过二元分类来区分出接收到的数据是输入数据还是重建数据。

可选地，将所述编码器与所述译码器将得到重建数据作为重建任务，将所述编码器连同所述分类器对接收到的数据区分是输入数据还是重建数据作为判别任务；

以最小均方误差为准则，执行所述重建任务，以提取输入数据的低阶局部特征；基于对抗损失函数执行所述判别任务，以提取出数据的全局中高阶特征；

对编码器的重建任务和判别任务进行联合优化。

所述抗损失函数如下：

其中：表示优化编码器、分类器使对抗损失函数最大化，优化译码器使对抗损失函数最小化，E表示编码器，D表示译码器，C表示分类器，L_dis表示对抗损失函数，x表示输入数据，表示输入数据的期望，_pd(x)表示输入数据的分布，Dis(x)表示判别器对输入数据的类别预测，Dis(D(E(x)))表示判别器对重建数据的类别预测，E(x)表示编码器对输入数据的编码表示。

本发明中的系统，所述判别器与所述译码器通过二元博弈来分别驱动提升各自性能，其中，译码器为能够重建出与原始数据足够相似的重建数据来欺骗判别器，其重建数据的能力不断提升；判别器为更好的区分原始数据与重建数据需要不断提升其特征提取能力。判别器通过二元分类来区别原始数据与重建数据，其特征在于更关注于数据的全局的中高阶特征表示。通过重建任务和判别任务间的加权与联合优化，得以实现两个期待任务的共同驱动，并取得兼容的最优解。使得重建任务与判别任务得以共同作用于编码器，使其得以驱动于重建任务的最小均方误差准则提取数据的低阶局部特征和判别任务的对抗损失函数提取数据的全局中高阶特征，达到有效捕获数据的多级语义表示的目的。

可选地，所述对编码器的重建任务和判别任务进行联合优化，包括：

通过加权方式对重建任务和判别任务进行联合优化，加权公式如下：

优化目标公公式如下：

其中，L表示联合优化目标函数，表示优化编码器、译码器、分类器使联合目标函数最小化，E表示编码器，D表示译码器，C表示分类器，λ_dis表示对抗损失函数的加权系数，L_dis表示对抗损失函数，λ_rec表示重建目标函数的加权系数，L_rec表示重建目标函数，表示优化编码器、译码器使重建目标函数最小化，x表示输入数据，表示输入数据的期望，_pd(x)表示输入数据的分布，D(E(x))表示重建数据，E(x)表示输入数据的编码器编码表示，表示范数运算；

根据梯度下降算法来更新所述编码器中的参数。

可选地，在非监督训练结束后的迁移应用中，当所述输入数据为图像时，所述编码器对图像的每层特征图进行池化和向量化处理，得到与所述图像对应的输入数据的表示。

本发明中的系统，通过所述编码器与判别器的网络复用，减少了大量自由参数，可以有效防止所述网络因过拟合而降低表示的泛化性，并使得重建任务与判别任务得以共同作用于编码器来学习提取数据的多级语义表示。对于提取的数据的表示无任何先验分布的假设，避免了过于简单的先验假设引入的模型偏差。所述编码器在完成重建任务与判别任务的训练后，可以应用于其他任务中提取数据的表示。在迁移应用分类任务中，编码器的每层特征图通过池化以及向量化操作后作为数据的表示，通过SVM分类器可以有效区分数据的类别。通过重建任务与判别任务训练后的编码器能够有效提取数据的流形结构，对于低维流形内的变化敏感，而对于高维空间的噪声具有一定的鲁棒性。此外可以与传统的自编码器正则化系统(稀疏自编器、去噪自编码器)互补，进一步改进正则化自编码器所提取表示的泛化性。

第二方面，本发明提供无监督学习的视觉表示学习方法，应用第一方面中任一项所述的无监督学习的视觉表示学习系统来实现对数据的表示。

与现有技术相比，本发明具有如下的有益效果：

本发明提供的无监督学习的视觉表示学习系统及方法，通过将表示学习任务分摊为数据重建和数据判别两项替代任务，从而能够更好的提取数据的多级语义表示。相较于基于生成模型的表示学习系统，本发明中的系统无需任何关于表示的先验分布，避免了过于简单的先验假设引入的偏差。相较于基于重建任务的表示学习系统，本发明系统能更有效地提取数据的全局中高阶特征。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例提供的无监督学习的视觉表示学习系统的原理结构示意图；

图2为本发明一实施例中编码器、分类器、判别器的网络结构复用的结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

图1为本发明一实施例提供的无监督学习的视觉表示学习系统的原理结构示意图，如图1所示，本实施例，包括：由深度卷积神经网络构成的编码器、译码器、分类器，其中：编码器提取输入数据的表示，所述译码器根据所述输入数据的表示得到重建数据，并将所述重建数据发送给所述编码器；以使得所述编码器根据所述重建数据得到重建数据的表示；分类器与编码器级联构成判别器来判决数据为原始输入数据还是重建数据。编码器与判别器的网络复用结构如图2所示。

所述系统在训练过程中将表示学习任务的转化为重建任务与判别任务，得以利用非标签数据本身作为监督信息来优化编码器、译码器、分类器、判别器，并以此驱动网络学习提取数据的通用表示。其中，所述的重建替代任务，以完美重建输入图像为目标，以逐像素的最小均方误差准则作为优化目标来学习优化所述编码器与译码器网络，其优化目标如下：

其中，E表示编码器，D表示译码器，C表示分类器，L_rec表示重建目标函数，表示优化编码器、译码器使重建目标函数最小化，x表示输入数据，表示输入数据的期望，_pd(x)表示输入数据的分布，D(E(x))表示重建数据，E(x)表示输入数据的编码器编码表示，表示范数运算。

通过所述编码器与译码器的瓶颈结构，所述编码器与译码器只有在捕获了数据的有效的表示情况下，才能较好的重建出输入数据。最小均方误差准则主要衡量每个像素的强度变化，因而其会诱导所述编码器关注局部的低阶特征。

所述判别任务中，所述判别器与所述译码器通过二元博弈来分别驱动提升各自性能，其中，译码器为能够重建出与原始数据足够相似的重建数据来欺骗判别器，其重建数据的能力不断提升；判别器为更好的区分原始数据与重建数据需要不断提升其特征提取能力。换言之，他们基于如下对抗损失函数：

其中：表示优化编码器、分类器使对抗损失函数最大化，优化译码器使对抗损失函数最小化，E表示编码器，D表示译码器，C表示分类器，L_dis表示对抗损失函数，x表示输入数据，表示输入数据的期望，_pd(x)输入数据的分布，Dis(x)表示判别器对输入数据的类别预测，Dis(D(E(x)))表示判别器对重建数据的类别预测，E(x)表示编码器对输入数据的编码表示。

具体地，为了平衡译码器与判别器，实际中采用非饱和函数来更新译码器：

其中：表示优化译码器使非饱和对抗损失函数最大化。

判别器通过二元分类来区别原始数据与重建数据，其更关注于数据的全局的中高阶特征表示。

进一步的，通过加权方式对重建任务和判别任务进行联合优化，加权公式如下：

其中：L表示联合优化目标函数，表示优化编码器、译码器、分类器使联合目标函数最小化，E表示编码器，D表示译码器，C表示分类器，λ_dis表示对抗损失函数的加权系数，L_dis表示对抗损失函数，λ_rec表示重建目标函数的加权系数，L_rec表示重建目标函数，所述方法采用梯度下降算法来优化更新网络参数。

本发明以上实施例中没有特别说明的部分，可以采用现有技术来实现。

实施效果：

本实施例中分别在MNIST数据集与STL-10数据集上进行训练与测试。所述方法提取表示的有效性与泛化性通过图像分类与流形学习两个方面进行评估。

图像分类作为一种最为基本、应用最为广泛的视觉任务，所述方法首先选取图像分类任务来评估学习的表示。首先，所述编码器、译码器、判别器网络基于所述联合优化函数在STL-10无标签数据集上训练，训练后的编码器被用于特征提取子来输出测试图像的表示。具体的，所述训练后的编码器逐一输入图像，其每层神经网络的每个特征图经过4分之一池化操作后再向量化，得到每个图像的表示。基于这些表示，一个线性L₂正则化的SVM分类器按照标准的训练与测试例程在STL-10标签数据集上训练，并在STL-10测试集上测试，其分类性能以分类准确率进行刻画。在本实施例系统中，分别测试了普通自编码器(AE)、稀疏自编码器(sparse AE)、去噪自编码器(DAE)，与上述三者在所述框架下的对应编码器：对抗嵌入自编码器AME-AE，对抗嵌入的稀疏自编码器sparse AME-AE，与对抗嵌入的去噪自编码器AME-DAE。其中，在分类准确率上，AME-AE较AE提升了8.6个百分比，sparse AME-AE较sparse AE提升了4.4个百分比，AME-DAE较DAE提升了11.0个百分比。此外，AME-DAE取得了最高的分类准确率60.7％，超过了同样网络结构的监督模型(52.2％)，体现了所述方法在标签数据受限情况下的优越性。此外，与其他非监督表示学习方法相比，如EPLS(EnforcingPopulation and Lifetime Sparsity，强化种群和存在稀疏)(TPAMI 2015)准确率61.0％，Sparse filtering(NIPS 2011)准确率53.5％，SC(Sparse coding，稀疏编码)(ICML 2011)准确率59.0％，所述方法取得了有竞争力的结果。

本实施例进一步通过流形学习的角度阐释所述方法学习到的表示。首先，考量表示的噪声鲁棒性。具体地，将测试集的图像中的像素点随机置为0，并将其输入到非监督训练好的自编码器来提取表示，非监督训练后的译码器接受提取的表示并以此重建图像。本实施例的实验表明，在MNIST数据集上，即使40％的像素点被随机置为0，译码器重建的图像依然与原始图像非常相似，因而验证了输入表示对于高维图像空间中的噪声具有一定程度的鲁棒性。其次，考量数据空间与表示空间的协变性。任取两个测试图像，通过编码器提取两个图像的表示，利用线性插值操作对两个表示以0.1为步长进行插值，将插值得到的表示通过译码器映射回图像空间。本实施例的实验表明，在MNIST与STL-10数据集上，插值得到的表示所生成的图像展现了有语义意义的变化，因而表明了数据空间与表示空间的协变性。基于此，本实施例验证了所述方法学习提取的表示有效的刻画了数据的流形结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种无监督学习的视觉表示学习系统，其特征在于，包括：编码器、译码器、分类器；所述编码器、译码器、分类器均由深度卷积神经网络构成；其中：

2.根据权利要求1所述的无监督学习的视觉表示学习系统，其特征在于，当所述输入数据为图像时，所述编码器和所述译码器的深度卷积神经网络是通过以重建输入图像为目标，以达到图像像素的最小均方误差为优化目标，迭代训练得到的。

3.根据权利要求1所述的无监督学习的视觉表示学习系统，其特征在于，所述判别器通过二元分类来区分出接收到的数据是输入数据还是重建数据。

4.根据权利要求1-3中任一项所述的无监督学习的视觉表示学习系统，其特征在于，将所述编码器与所述译码器将得到重建数据作为重建任务，将所述编码器连同所述分类器对接收到的数据区分是输入数据还是重建数据作为判别任务；

对编码器的重建任务和判别任务进行联合优化。

5.根据权利要求4所述的无监督学习的视觉表示学习系统，其特征在于，所述抗损失函数如下：

其中：表示优化编码器、分类器使对抗损失函数最大化，优化译码器使对抗损失函数最小化，E表示编码器，D表示译码器，C表示分类器，L_dis表示对抗损失函数，x表示输入数据，表示输入数据的期望，p_d(x)表示输入数据的分布，Dis(x)表示判别器对输入数据的类别预测，Dis(D(E(x)))表示判别器对重建数据的类别预测，E(x)表示编码器对输入数据的编码表示。

6.根据权利要求4所述的无监督学习的视觉表示学习系统，其特征在于，所述对编码器的重建任务和判别任务进行联合优化，包括：

优化目标公公式如下：

其中，L表示联合优化目标函数，表示优化编码器、译码器、分类器使联合目标函数最小化，E表示编码器，D表示译码器，C表示分类器，λ_dis表示对抗损失函数的加权系数，L_dis表示对抗损失函数，λ_rec表示重建目标函数的加权系数，L_rec表示重建目标函数，表示优化编码器、译码器使重建目标函数最小化，x表示输入数据，表示输入数据的期望，p_d(x)表示输入数据的分布，D(E(x))表示重建数据，E(x)表示输入数据的编码器编码表示，表示范数运算；

根据梯度下降算法来更新所述编码器中的参数。

7.根据权利要求1-3中任一项所述的无监督学习的视觉表示学习系统，其特征在于，在非监督训练结束后的迁移应用中，当所述输入数据为图像时，所述编码器对图像的每层特征图进行池化和向量化处理，得到与所述图像对应的输入数据的表示。

8.一种无监督学习的视觉表示学习方法，其特征在于，应用权利要求1-7中任一项所述的无监督学习的视觉表示学习系统来实现对数据的表示。