CN112541874A

CN112541874A - 基于自编码器的无监督去噪特征学习方法

Info

Publication number: CN112541874A
Application number: CN202011457787.6A
Authority: CN
Inventors: 刘耿耿; 朱予涵; 林起浩
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2021-03-23

Abstract

本发明涉及基于自编码器的无监督去噪特征学习方法，包括以下步骤：在自编码器的基础上，在输入层前新增一层噪声数据层，将原有的隐藏层由一层变为三层，且三个隐藏层的维数依次递减；输入的原始图像依次经由噪声数据层、输入层、三个隐藏层以及输出层，输出得到重构还原图像。本发明能够从无标记高维图像数据中学习更有判别性的低维表示。

Description

基于自编码器的无监督去噪特征学习方法

技术领域

本发明涉及机器学习技术领域，特别是一种基于自编码器的无监督去噪特征学习方法。

背景技术

随着因特网与多媒体硬件技术的不断革新，数据往往出现高维性。而数据的高维性常常带来许多问题，例如高维图像大大增加了算法的空间复杂度和时间复杂度。而且有时候会导致严重的过拟合现象,使得模型无法实际应用。特征嵌入学习是一类有效的学习方法，它不仅仅降低了数据的维度，同时保留原始特征大部分的物理含义，适用于许多的研究领域。但是传统的无监督特征嵌入学习算法在面对高维数据时同样存在效率和过拟合的问题。

发明内容

有鉴于此，本发明的目的是提出一种基于自编码器的无监督去噪特征学习方法，能够从无标记高维图像数据中学习更有判别性的低维表示。

本发明采用以下方案实现：一种基于自编码器的无监督去噪特征学习方法，具体包括以下步骤：

在自编码器的基础上，在输入层前新增一层噪声数据层，将原有的隐藏层由一层变为三层，且三个隐藏层的维数依次递减；输入的原始图像依次经由噪声数据层、输入层、三个隐藏层以及输出层，输出得到重构还原图像。

进一步地，在训练过程中，利用原始图像和重构还原图像的响应差值进行反向传播更新网络参数，并且在每个训练批次中采用Dropout算法随机抑制一定比例的隐藏层神经元。

进一步地，将输入层至第三个隐藏层H₃的提取过程视为编码过程，由函数

表示，其中W_fb_f为这一个过程的所有网络连接权重以及偏置参数；将而第三个隐藏层H₃到输出层的还原过程视为解码过程，由函数

表示，W_gb_g为第三个隐藏层H₃到输出层之间的权重与偏置；则由第三个隐藏层H₃得到的低维隐藏层表示Y为：

式中，σ为激活函数；

为噪声数据集；

则输出层的重构图像X′表示为：

定义W＝[W_g；W_f]为整个网络的连接权重参数，定义b＝[b_g；b_f]为整个网络的偏置参数；

整个模型的优化目标函数定义为：

式中，n表示数据初始维度，X表示原始图像，L是一个损失函数；

整个网络的参数θ＝{W,b}通过函数L的梯度迭代下降不断更新。

进一步地，三个隐藏层的神经元数分别为500、350、100。

本发明还提供了一种基于自编码器的无监督去噪特征学习系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

本发明还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

与现有技术相比，本发明有以下有益效果：本发明用于从图像中学习高判别性的特征表示。在自编码器的基础上，该方法加入了噪声层和两个隐藏层，噪声层的加入使得模型提取的特征表示具有更好的判别性。同时，本发明利用了反向传播和Dropout技术，提供了一定的正则化效果，有效地缓解了模型的过拟合问题。

附图说明

图1为自编码器神经网络结构。

图2为本发明实施例的神经网络结构示意图。

图3为本发明实施例的二维可视化验证结果。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本实施例提供了一种基于自编码器的无监督去噪特征学习方法，具体包括以下步骤：

在自编码器的基础上，在输入层前新增一层噪声数据层，将原有的隐藏层由一层变为三层，且三个隐藏层的维数依次递减；输入的原始图像依次经由噪声数据层、输入层、三个隐藏层以及输出层，输出得到重构还原图像。本实施例将提出的新网络成为UDFLM网络。

其中，本实施例加入噪声数据层，在网络训练过程中，原始图像数据集在经过噪声处理后变为噪声数据集进入到输入层；而在测试和应用过程中，输入层可以是普通图像或者受到噪声干扰的图像。

较佳的，本实施例还包括数据预处理的过程，通过对原始图像数据集的像素按一定的比例随机清零，或者在Matlab中使用函数Imnoise制造噪声图像数据集。对原始图像数据进行加噪处理，为后续实验做了充分准备，使得训练后的UDFLM能够在一定程度上将噪声或部分损坏数据还原为原始图像，并且获得一个较为鲁棒的特征。

其中，自编码器(Autoencoder，AE)是一类无监督表征学习方法。它的学习目标很特殊，是输入数据本身，并在这一过程中对其进行特征学习。自编码器的神经网络结构包含编码器以及解码器两部分，对应了编码和解码两个过程。它可以看作是拥有前馈结构的神经网络。编码过程中AE能够学习输入数据的有效特征，而解码过程则是利用这些特征尽可能重构出输入数据。因此AE具有实现特征非线性降维的功能。图1为自编码器的网络结构，它分为输入层、隐藏层以及输出层。考虑一个数据集

由于隐藏层单元数k的限制(k＜＜d)，自编码器从输入数据中学习一个紧凑的表示。编码器可以表示为y＝f(x)，而解码器表示为x′＝g(y)。最终目标函数可以由以下公式定义：

式中，W,b是AE神经网络的权重和偏置参数。

本实施例在自编码器的基础上，加入了1个噪声数据层以及2个隐藏层。图2所示为本实施例提出的UDFLM的神经网络结构图，它由噪声数据层、输入层、输出层以及三个隐藏层H₁、H₂、H₃构成。网络训练过程中，原始图像在经过人工噪声处理后进入到输入层；而在测试和应用过程中，输入层可以是普通图像或者受到噪声干扰的图像。输出层的维数与输入层相同，它的最终目标是尽可能的还原出原始图像。隐藏层H₁、H₂、H₃的维数依次递减，且H₃常常是后续各类机器学习任务需要的高判别低维特征表示。

在本实施例中，在训练过程中，利用原始图像和重构还原图像的响应差值进行反向传播更新网络参数，并且在每个训练批次中采用Dropout算法随机抑制一定比例的隐藏层神经元。加入噪声数据层后的网络训练以及隐藏层神经元的随机抑制很大程度地提高了模型的鲁棒性，也增强了对于图像的表征学习能力。

在本实施例中，考虑一组训练图像数据集

由于噪声干扰或者人为加噪，原始图像数据集变为噪声数据集

模型最终目标是得到低维特征表示Y(即隐藏层H₃)以及重构出原始图像X′。将输入层至第三个隐藏层H₃的提取过程视为编码过程，由函数

式中，σ为激活函数，本实施例使用的激活函数为sigmoid函数σ(x)＝1/(1+e^-x)；

为噪声数据集；

则输出层的重构图像X′表示为：

整个模型的优化目标函数定义为：

式中，n表示数据初始维度，X表示原始图像，L是一个损失函数，本实施例采用交叉熵函数；

在本实施例中，设置模型的学习率α为0.01，每个训练批次的大小batch_size为100，训练轮数epoch为200，隐藏层H₁、H₂、H₃的神经元数分别为500、350、100。为了得到一个客观的实验结果，将其他对比算法的隐藏层H₃的神经元数即特征嵌入学习的维度均设置为100维。

本实施例所采用的反向传播算法，在训练过程中利用原始图像和重构还原图像的响应差值进行反向传播更新网络参数。训练神经网络时，通过该算法更新神经网络的参数，即各个神经元之间的连接权重和偏置。BP算法主要分为前向传播和反向传播两个过程。前向传播过程中，将样本输入到网络中，训练样本通过每一层的处理后由输出层输出，这个输出称为激励响应。若输出不能达到实际问题的需求，则进入反向传播阶段。对期望值或者标签与当前参数下得到的输出结果求差，其值则为响应误差。通过该误差逐步计算各网络单元的偏导数，进而获得对权值的梯度。权值的修改就要依赖于这些梯度。BP训练过程不断的重复这两个阶段，直到输出为期望值时，神经网络的学习便收敛。

本实施例在隐藏层中利用了Dropout技术，在每个训练批次，随机抑制一定比例的神经元，从而增强网络的泛化性，在一定程度起到正则化的作用。首先按固定比例抑制部分神经元，对剩余的神经元按照正常的前向传播和反向传播更新参数。接着恢复被抑制的神经元，重新随机抑制神经元，重复上述过程。Dropout在训练过程中减少了部分神经元的参与，因此很显然该方法能够有效降低训练时长。而且由于它的随机性，相当于提供了参数正则化的效果，减少了权重的更新依赖于某些固定节点的可能，使得网络学习更加鲁棒的特征。

本实施例还提供了一种基于自编码器的无监督去噪特征学习系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

本实施例还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文所述的方法步骤。

为了验证本实施例的有效性，利用聚类精度(Clustering accuracy，ACC)、标准互信息(Normalized mutual information，NMI)及调整兰德系数(Adjusted rand index，ARI)作为评价指标来检验模型的性能。

ACC是聚类性能的重要参考指标，它用于比较预测标签和数据集提供的真实标签，其可以表示为：

式中，map(r_i)和s_i分别表示预测标签和真实标签，n为数据集样本数。假如x＝y则有δ(x,y)＝1，否则δ(x,y)＝0。

NMI是一类十分有效的信息度量，也常常用于聚类分析中。互信息即一个随机变量中含有另一个变量的信息。NMI的值越大则表示聚类性能越好，其计算公式为：

其中，互信息I＝(Ω；C)表示在给定聚类信息C的情况下类别信息Ω的增长，H表示熵。

ARI是计算两个标签分布相似性的函数，衡量的是两个数据分布之间的吻合程度。它对标签的定义形式没有要求，即不在乎具体的聚类算法。ARI输出的范围为，其值越大，说明结果越贴近实际情况，其公式形式定义如下：

本实施例将得到的低维特征表示送入k-means聚类器进行聚类，从而验证分析特征表示的有效性。

k-means是一种常见的聚类方法，其步骤总结如下：

(1)任意选择k个数据点，将它们视为最开始的聚类中心。

(2)接着计算其他各数据点到这k个中心的距离，并把其类别归为最近的那个中心点的类别。这样便形成了k个簇。

(3)再次计算每个簇的均值，并将其设置为新的中心点。

(4)重复步骤(2)(3)直到每个簇的中心点位置不再变化或者达到设置的迭代次数。

本实施例将六个传统无监督特征学习算法作为对比模型，在8个公开的标准图像数据集上进行了聚类实验分析。如表1所示，以ACC为评价指标的聚类结果中，本实施例在7个数据集中取得了最佳结果，特别是在Yale-B数据集中，相较于Baseline有一个较大的提升。如表2所示，以NMI为评价指标的聚类结果中，本实施例在6个数据集中取得了最佳结果。在Chars74K数据集中，相较于基准，标准互信息的值提升了15.5个百分点。在CIFAR-10数据集中，模型取得的结果也十分接近最佳性能。如表3所示，以ARI为评价指标的聚类结果中，本实施例同样在6个数据集中取得最佳结果，尤其在人脸数据集中，均有不错的提升。因此，相较于传统的无监督特征学习方法，本实施例有助于从高维图像数据中提取更好的判别特征表示。

表1聚类精度(mean％+std％)

dataset/method

Chars74K

USPS

Yale-B

COIL-20

ORL

CIFAR-10

F-MNIST

SMSHP

Baseline

31.8±0.9

65.6±1.8

11.3±0.4

56.1±2.7

63.6±1.8

23.9±0.3

54.4±1.2

38.7±1.5

PCA

34.5±1.6

68.2±2.3

12.2±0.3

65.7±1.4

64.8±2.6

24.5±1.2

59.3±0.7

36.5±1.1

NPE

35.6±0.8

71.3±1.8

28.2±1.5

61.3±2.3

72.7±1.4

21.3±0.5

52.4±0.9

36.8±1.2

LPP

33.2±1.5

68.5±1.4

30.3±1.4

66.7±0.5

68.6±2.5

24.2±0.8

58.1±3.3

38.3±0.9

Isomap

24.6±0.3

67.3±2.6

32.6±2.1

68.6±1.7

59.8±2.6

23.9±1.2

57.2±2.9

34.5±0.4

LLE

28.9±1.2

64.2±1.5

27.4±1.7

60.2±1.1

53.6±1.7

25.4±2.3

53.7±1.8

33.6±1.5

IsoP

34.3±2.5

70.2±0.9

25.3±0.8

65.3±2.8

62.4±2.1

26.3±1.6

54.2±1.3

35.2±1.2

本实施例方法

37.2±0.6

69.5±0.8

33.8±1.2

70.4±2.2

74.5±2.3

32.5±1.1

61.5±1.4

39.9±0.6

表2标准互信息(mean％+std％)

dataset/method

Chars74K

USPS

Yale-B

COIL-20

ORL

CIFAR-10

F-MNIST

SMSHP

Baseline

45.3±0.7

63.6±1.6

12.8±0.5

74.9±1.8

73.4±2.2

8.6±0.6

54.5±1.4

7.1±0.8

PCA

50.6±2.3

61.0±0.2

14.3±0.4

76.7±2.3

76.8±1.5

8.2±0.4

53.2±1.6

8.4±0.6

NPE

55.5±0.8

63.2±0.8

37.6±1.6

74.6±0.6

80.2±3.2

8.5±0.3

52.1±0.7

11.9±0.8

LPP

53.4±0.9

67.6±1.9

35.4±0.3

76.8±1.4

77.9±1.8

9.8±0.6

58.7±2.2

9.3±1.2

Isomap

45.3±1.2

65.9±2.2

36.8±2.0

73.5±2.1

74.1±2.3

9.2±0.1

54.6±0.8

8.8±0.7

LLE

52.7±1.6

63.2±2.8

23.5±1.4

72.3±4.2

73.8±2.7

7.6±0.2

53.4±0.6

12.0±0.5

IsoP

49.6±2.3

58.3±1.5

29.3±2.3

78.5±3.6

75.7±1.3

8.2±0.7

52.6±0.9

9.2±0.3

本实施例方法

60.8±2.2

68.1±2.3

39.6±0.8

79.1±2.3

82.4±2.4

9.6±0.2

62.5±1.3

10.1±0.6

表3调整兰德系数(mean％+std％)

dataset/method

Chars74K

USPS

Yale-B

COIL-20

ORL

CIFAR-10

F-MNIST

SMSHP

Baseline

20.8±0.9

53.6±2.2

2.3±0.2

50.7±3.6

48.4±2.1

4.5±0.6

38.6±0.9

4.4±0.2

PCA

23.5±0.4

60.2±0.6

3.5±0.4

55.3±1.8

49.6±2.0

5.1±0.6

41.2±0.7

6.1±0.3

NPE

24.3±2.2

56.6±0.7

13.6±0.3

53.3±2.5

53.6±1.4

5.7±0.4

33.7±1.3

5.4±0.1

LPP

20.7±0.8

62.2±1.3

12.4±0.5

61.8±3.2

46.8±2.3

4.2±0.1

42.3±2.5

4.8±0.9

Isomap

21.1±0.6

62.7±2.4

13.8±0.2

60.5±1.3

38.9±0.6

4.7±0.6

40.7±1.8

3.7±0.2

LLE

19.3±0.4

56.7±3.2

9.2±0.8

51.4±2.6

45.6±0.7

6.1±0.2

46.3±0.7

4.5±0.3

IsoP

22.5±0.3

58.2±2.8

11.8±0.7

64.3±3.2

40.4±1.5

6.7±0.5

43.6±1.2

5.1±0.2

本实施例方法

26.4±0.5

65.9±2.3

14.6±0.4

54.9±2.1

55.7±1.6

7.5±0.4

44.7±0.3

8.8±0.4

本实施例为了对UDFLM提取的低维特征结果有一个更为直观的了解，本发明还进行了二维特征可视化，并设置了5个经典算法作为对比算法。用于可视化实验的数据集为USPS数据集，它拥有分属于10个类别的9298个样本，每个样本是一个256维的向量。分别应用6个算法将USPS数据集降到二维，得到6个拥有10类别的9298*2的向量，接着使用t-SNE对这6个向量进行可视化。

t-SNE是一种经典的数据分析方法，它将数据的维度降到二维，并且使得同类别的图像数据映射后的点尽可能接近，不同类别图像数据映射后的点尽可能远离。

如图3所示，6张图像分别对应了6个算法的二维特征可视化图。数据的类别用不同的颜色表示。从图中可以发现，NPE、IsoP以及LPP算法有小部分类别的样本点存在重叠的情况，未能彻底完成分离。PCA算法的结果中各类别较好的分离开，但是类内各点的间距较大。LLE则与PCA情况相反。而UDFLM得到的结果比较好的满足了类间距离尽量大，而类内距离尽量小的要求，每个类别的点紧凑的聚在一起，且和其他类别明显分开。这直观的证明了本发明提取的特征拥有更好的判别性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于自编码器的无监督去噪特征学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于自编码器的无监督去噪特征学习方法，其特征在于，在训练过程中，利用原始图像和重构还原图像的响应差值进行反向传播更新网络参数，并且在每个训练批次中采用Dropout算法随机抑制一定比例的隐藏层神经元。

3.根据权利要求1所述的一种基于自编码器的无监督去噪特征学习方法，其特征在于，将输入层至第三个隐藏层H₃的提取过程视为编码过程，由函数

式中，σ为激活函数；

为噪声数据集；

则输出层的重构图像X′表示为：

整个模型的优化目标函数定义为：

4.根据权利要求1所述的一种基于自编码器的无监督去噪特征学习方法，其特征在于，三个隐藏层的神经元数分别为500、350、100。

5.一种基于自编码器的无监督去噪特征学习系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-4任一项所述的方法步骤。

6.一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1-4任一项所述的方法步骤。