CN111224670A

CN111224670A - 自动编码器及用于对自动编码器进行训练的方法和介质

Info

Publication number: CN111224670A
Application number: CN201811424632.5A
Authority: CN
Inventors: 田虎; 李斐
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-11-27
Filing date: 2018-11-27
Publication date: 2020-06-02
Anticipated expiration: 2038-11-27
Also published as: CN111224670B

Abstract

公开了一种自动编码器及用于对自动编码器进行训练的方法和介质，所述自动编码器包括：编码器单元，其将输入数据映射为隐空间中的隐变量；约束单元，其对所述隐变量施加约束，以使所述隐变量聚集在所述隐空间中的中心点周围；以及解码器单元，其将来自所述约束单元的隐变量解码为重构数据，其中，对所述编码器单元、所述约束单元和所述解码器单元进行训练，以使得所述重构数据与所述输入数据近似匹配。根据本公开的自动编码器能够使得相似数据的隐变量表示在一个局部的隐空间之内，从而使得相似数据在该隐空间中距离不相似数据较远。

Description

自动编码器及用于对自动编码器进行训练的方法和介质

技术领域

本公开涉及机器学习的技术领域，具体地涉及自动编码器以及用于对自动编码器进行训练的方法。

背景技术

这个部分提供了与本公开有关的背景信息，这不一定是现有技术。

自动编码器是一种通过无监督的方式来学习数据表示的方法。其将输入数据进行编码以获得较短长度的码，该码通常称之为隐变量。然后再将该码通过解码以获得输出数据，其中，使得输出数据与输入数据尽可能地相近。自动编码器有着广泛的应用，如数据降维、去噪等。

传统的自动编码器通过重建误差实现模型的训练。近些年，针对自动编码器的研究，主要集中在对隐变量施加约束，以此提升自动编码器学习数据表示的能力。降噪自动编码器通过对输入数据增加噪声的方式，提升数据表示的抗噪声能力。变分自动编码器使隐变量服从高斯分布，从而使得自动编码器具有生成数据的能力。压缩自动编码器则通过最小化隐藏层的雅各比矩阵，使得输入数据有较小的扰动时，数据表示仍然具有较好的鲁棒性。但是考虑这样一种情形，当数据同属于一类时，期望的是通过自动编码器的学习能够使得这些数据的隐变量表示彼此之间比较接近。然而，上述这些自动编码器并不能很好地解决这一问题。

发明内容

这个部分提供了本公开的一般概要，而不是其全部范围或其全部特征的全面披露。

本公开的目的在于提供一种在自动编码器中针对同类数据进行紧致的隐变量表示的学习方法。不同于现有技术，根据本公开的方法能够使得相似数据的隐变量表示在一个局部的小空间(隐空间)之内，从而使得相似数据在该隐空间中距离不相似数据较远。根据本公开的方法可以用于同类识别、异常检测、缺陷检测等。

根据本公开的一方面，提供了一种自动编码器，包括：编码器单元，其获取输入数据，以将所述输入数据映射为隐空间中的隐变量；约束单元，其对所述隐变量施加约束，以使所述隐变量聚集在所述隐空间中的中心点周围；以及解码器单元，其接收来自所述约束单元的隐变量，以将所述隐变量解码为重构数据，其中，对所述编码器单元、所述约束单元和所述解码器单元进行训练，以使得所述重构数据与所述输入数据近似匹配。

根据本公开的另一方面，提供了一种用于对自动编码器进行训练的方法，包括：向所述自动编码器中的编码器单元提供输入数据，以将所述输入数据映射为隐空间中的隐变量；使用约束单元对所述隐变量施加约束，以使所述隐变量聚集在所述隐空间中的中心点周围；以及向所述自动编码器中的解码器单元提供所述隐变量，以将所述隐变量解码为重构数据，其中，对所述编码器单元、所述约束单元和所述解码器单元进行训练，以使得所述重构数据与所述输入数据近似匹配。

根据本公开的另一方面，提供了一种程序产品，该程序产品包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据本公开的用于对自动编码器进行训练的方法。

根据本公开的另一方面，提供了一种机器可读存储介质，其上携带有根据本公开的程序产品。

使用根据本公开的自动编码器和用于对自动编码器进行训练的方法能够使得相似数据的隐变量表示在一个局部的小空间(隐空间)之内，从而使得相似数据在该隐空间中距离不相似数据较远。

从在此提供的描述中，进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的，而不旨在限制本公开的范围。

附图说明

在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施，并且不旨在限制本公开的范围。在附图中：

图1为根据本公开的一个实施例的自动编码器100的框图；

图2为根据本公开的一个实施例的自动编码器100中的约束单元102的框图；

图3为根据本公开的一个实施例的隐变量紧致表示的示意图；

图4为根据本公开的另一个实施例的自动编码器100中的约束单元102的框图；

图5为根据本公开的另一个实施例的隐变量紧致表示的示意图；

图6为根据本公开的一个实施例的用于对自动编码器进行训练的方法的流程图；以及

图7为其中可以实现根据本公开的实施例的自动编码器和用于对自动编码器进行训练的方法的通用个人计算机的示例性结构的框图。

虽然本公开容易经受各种修改和替换形式，但是其特定实施例已作为例子在附图中示出，并且在此详细描述。然而应当理解的是，在此对特定实施例的描述并不打算将本公开限制到公开的具体形式，而是相反地，本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是，贯穿几个附图，相应的标号指示相应的部件。

具体实施方式

现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的，而不旨在限制本公开、应用或用途。

提供了示例实施例，以便本公开将会变得详尽，并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子，以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是，不需要使用特定的细节，示例实施例可以用许多不同的形式来实施，它们都不应当被解释为限制本公开的范围。在某些示例实施例中，没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。

如以下表达式(1)所述，传统的训练自动编码器的损失函数L_rec为输入数据与重建数据之间的欧式距离：

其中，f和g分别表示编码器和解码器。x_i表示输入数据，其中i＝1,…,N，N为输入数据的数目，其为正整数。f(x_i)表示输入数据x_i经过编码之后得到的隐变量，下文表示为h_i，即h_i＝f(x_i)。

表示隐变量h_i经过解码之后得到的重建数据即

然而，这样训练出来的自动编码器针对同一类数据无法使得其隐变量表示彼此之间比较接近。

因此，本公开提供了一种在自动编码器中针对同一类数据进行紧致的隐变量表示的学习方法。不同于传统方法，根据本公开的方法能够使得相似数据的隐变量表示在一个局部的小空间(隐空间)之内，从而使得相似数据在该隐空间中距离不相似数据较远。

图1示出了根据本公开的一个实施例的自动编码器100的框图。如图1所示，根据本公开的实施例的自动编码器100可以包括编码器单元101、约束单元102以及解码器单元103。

编码器单元101可以将输入数据映射为隐空间中的隐变量。然后，约束单元102可以对所述隐变量施加约束，以使所述隐变量聚集在所述隐空间中的中心点周围。接下来，解码器单元103可以将来自所述约束单元的隐变量解码为重构数据。其中，可以对所述编码器单元101、所述约束单元102和所述解码器单元103进行训练，以使得所述重构数据与所述输入数据近似匹配。

根据本公开的一个实施例，所述中心点可以为所述隐空间中的任一个固定点。例如，所述中心点可以是所述隐空间中的零点。本领域技术人员应该清楚，这仅是示例性的，本公开并不限于此。此外，根据本公开的另一个实施例，所述中心点可以为变量，并且可以随着训练而被优化即随着自动编码器的参数一起被优化。

接下来，为了能够获得隐变量的紧致表示即使得相似的输入数据在隐空间中距离不相似的输入数据较远，如图2所示，根据本公开的一个实施例，所述约束单元102可以进一步包括计算单元1021以及最小化单元1022。

所述计算单元1021可以计算所述隐变量中的每一个与所述中心点之间的距离。然后，所述最小化单元1022可以使所计算的距离最小化。

根据本公开的一个实施例，所述计算单元1021可以基于以下表达式(2)计算隐变量h_i与中心点c之间的距离：

其中，h_i表示输入数据映射的隐空间中的隐变量，c表示所述隐空间中的中心点，N表示所述隐变量的数目。

接下来，最小化单元1022可以使所计算的距离最小化，即使输入数据的隐变量h_i与中心点c尽可能地相近，以使得所述输入数据的隐变量h_i聚集在靠近中心点c的局部小空间内，从而实现隐变量的紧致表示。如图3所示，使用根据本公开的实施例的自动编码器100，隐变量h₁、h₂、h₃和h₄紧致地聚集在中心点c周围。

然后，为了获取效率更高的隐变量h_i的紧致表示，根据本公开的一个实施例，所述约束单元102可以在约束所述隐变量h_i在所述隐空间中的分布以c为中心点的同时，约束距离中心点c较远的隐变量h_i离中心点c更近。

根据本公开的另一个实施例，如图4所示，所述约束单元102可以进一步包括计算单元1021、排序单元1023以及最小化单元1022。

计算单元1021可以计算所述隐变量中的每一个与所述中心点之间的距离。然后，排序单元1023可以对所计算的距离按由小到大的顺序进行排序，并从中选择第T大的距离作为最大距离，其中T为正整数并且不大于所述隐变量的数目。接下来，最小化单元1022可以使所述最大距离最小化。

根据本公开的一个实施例，计算单元1021可以计算隐变量h_i与中心点c之间的距离。然后，排序单元1023可以对所计算的距离按由小到大的顺序进行排序，并从中选择第T大的距离作为最大距离。接下来，最小化单元1022可以例如基于以下表达式(3)对所述最大距离最小化：

其中，h_i表示输入数据映射的隐空间中的隐变量，c表示所述隐空间中的中心点，则

表示所有所述隐变量距离所述隐空间中的中心点c的距离中第T最大的距离。

换言之，根据本公开的一个实施例，在优化过程中，只需要最小化所述隐变量h_i中距离所述隐空间中的中心点c的第T个最大的距离即可，由此，可以获得效率更高、鲁棒性更好的隐变量h_i的紧致表示。

此外，为了保证隐变量h_i均匀地分布在所述隐空间中的中心点c的周围，根据本公开的一个实施例，所述约束单元102可以进一步包括分布单元(未示出)。所述分布单元可以使所述隐变量h_i平均地分布在所述隐空间中的所述中心点c的周围。如图5所示，使用根据本公开的实施例的自动编码器100，隐变量h₁、h₂、h₃和h₄平均地分布在所述隐空间中的所述中心点c的周围。

根据本公开的一个实施例，最小化单元1022可以例如基于以下表达式(4)对所述最大距离最小化：

表示所有所述隐变量h_i距离隐空间中的中心点c的距离中第T最大的距离，以及N表示所述隐变量的数目。并且其中，α≥0，其为用于平衡损失函数L_tight的常数。这里，本领域技术人员应该清楚，α的值可以根据实践经验而设定。

如上所述，

表示所有所述隐变量h_i距离隐空间中的中心点c的距离中第T最大的距离。根据本公开的一个实施例，T可以小于等于所述隐变量的数目N。如图5所示，例如，当N＝4，T＝3时，根据本公开的实施例的约束单元仅优化隐变量h₃与中心点c之间的距离。由此，可以获得效率更高的隐变量的紧致表示。此外，由于数据中可能存在噪声，这会使得部分数据的隐变量表示距离中心点较远。因此，当T<N时，根据本公开的实施例的约束单元可以使得隐变量的表示对于数据的噪声具有鲁棒性。当T＝N时，则表示最小化距离中心点c最远的距离。同时，分布单元保证了隐变量h_i均匀分布在中心点c的周围。

为了训练自动编码器的参数，实现隐变量的紧致表示，根据本公开的一个实施例，可以同时优化表达式(1)的损失函数L_rec和根据本公开的表达式(2)/(3)/(4)的损失函数L_tight，即最终的损失函数可以写为：

L(w)＝L_rec+PL_tight (5)

其中，w＝{w_f,w_g}，其表示所述自动编码器所有的待学习参数，其中w_f和w_g分别表示编码器单元f和解码器单元g的参数。并且其中，β≥0，其表示用于平衡损失函数L(w)的常数。这里，本领域技术人员应该清楚，β的值可以根据实践经验而设定。

由此，根据本公开的实施例，采用后向传播算法来最小化表达式(5)，即可通过编码器单元f得到输入数据的隐变量的紧致表示。

根据本公开的一个实施例，自动编码器中的编码器单元f和解码器单元g可以通过多层的全连接网络或者卷积网络来实现。

根据本公开的自动编码器能够使得相似数据的隐变量表示在一个局部的小空间(隐空间)之内，从而使得相似数据在该隐空间中距离不相似数据较远。

根据本公开的自动编码器例如可以用于同类识别，以图像为例，根据本公开的实施例可以通过相似图像来进行模型训练，然后，利用训练后的模型可以从包括不相似图像的相似图像集中识别出不相似图像。

下面将结合图6来描述根据本公开的实施例的用于对自动编码器进行训练的方法。如图6所示，根据本公开的实施例的用于对自动编码器进行训练的方法开始于步骤S610。

在步骤S610中，向所述自动编码器中的编码器单元提供输入数据，以将所述输入数据映射为隐空间中的隐变量。

接下来，在步骤S620中，使用约束单元对所述隐变量施加约束，以使所述隐变量聚集在所述隐空间中的中心点周围。

接下来，在步骤S630中，向所述自动编码器中的解码器单元提供所述隐变量，以将所述隐变量解码为重构数据。

最后，在步骤S640中，对所述编码器单元、约束单元和所述解码器单元进行训练，以使得所述重构数据与所述输入数据近似匹配。其中，在所述重构数据与所述输入数据近似匹配为否的情况下，重复对所述编码器单元、约束单元和所述解码器单元进行训练，亦即从步骤S640返回，重新执行步骤S610、步骤S620以及步骤S630，直到所述重构数据与所述输入数据近似匹配为是，则结束流程。

根据本公开的一个实施例的用于对自动编码器进行训练的方法，其中，所述中心点为所述隐空间中的任一个固定点。

根据本公开的一个实施例的用于对自动编码器进行训练的方法，其中，所述中心点为所述隐空间中的零点。

根据本公开的一个实施例的用于对自动编码器进行训练的方法，其中，所述中心点为变量，并且随着训练而被优化。

根据本公开的一个实施例的用于对自动编码器进行训练的方法进一步包括计算所述隐变量中的每一个与所述中心点之间的距离的步骤以及使所计算的距离最小化的步骤。

根据本公开的一个实施例的用于对自动编码器进行训练的方法进一步包括计算所述隐变量中的每一个与所述中心点之间的距离的步骤；对所计算的距离按由小到大的顺序进行排序并从中选择第T大的距离作为最大距离，其中T为正整数并且不大于所述隐变量的数目的步骤；以及使所述最大距离最小化的步骤。

根据本公开的一个实施例的用于对自动编码器进行训练的方法，其中，T等于所述隐变量的数目。

根据本公开的一个实施例的用于对自动编码器进行训练的方法进一步包括使所述隐变量平均地分布在所述隐空间中的所述中心点周围的步骤。

根据本公开的实施例的用于对自动编码器进行训练的方法的上述步骤的各种具体实施方式前面已经作过详细描述，在此不再重复说明。

显然，根据本公开的用于对自动编码器进行训练的方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其他适于存储信息的介质等。

另外，计算机通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本公开的技术方案。

图7为其中可以实现根据本公开的实施例的自动编码器和用于对自动编码器进行训练的方法的通用个人计算机1300的示例性结构的框图。

如图7所示，CPU 1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中，也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。

下述部件连接到输入/输出接口1305：输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，以及扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要，驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上，使得从中读出的计算机程序根据需要被安装到存储部分1308中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

在本公开的系统和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上虽然结合附图详细描述了本公开的实施例，但是应当明白，上面所描述的实施方式只是用于说明本公开，而并不构成对本公开的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此，本公开的范围仅由所附的权利要求及其等效含义来限定。

关于包括以上实施例的实施方式，还公开下述的附记：

附记1.一种自动编码器，包括：

编码器单元，其将输入数据映射为隐空间中的隐变量；

约束单元，其对所述隐变量施加约束，以使所述隐变量聚集在所述隐空间中的中心点周围；以及

解码器单元，其将来自所述约束单元的隐变量解码为重构数据，

其中，对所述编码器单元、所述约束单元和所述解码器单元进行训练，以使得所述重构数据与所述输入数据近似匹配。

附记2.根据附记1所述的自动编码器，其中，所述中心点为所述隐空间中的任一个固定点。

附记3.根据附记2所述的自动编码器，其中，所述中心点为所述隐空间中的零点。

附记4.根据附记1所述的自动编码器，其中，所述中心点为变量，并且随着训练而被优化。

附记5.根据附记1所述的自动编码器，其中，所述约束单元进一步包括：

计算单元，其计算所述隐变量中的每一个与所述中心点之间的距离；以及

最小化单元，其使所计算的距离最小化。

附记6.根据附记1所述的自动编码器，其中，所述约束单元进一步包括：

计算单元，其计算所述隐变量中的每一个与所述中心点之间的距离；

排序单元，其对所计算的距离按由小到大的顺序进行排序，并从中选择第T大的距离作为最大距离，其中T为正整数并且不大于所述隐变量的数目；以及

最小化单元，其使所述最大距离最小化。

附记7.根据附记6所述的自动编码器，其中，T等于所述隐变量的数目。

附记8.根据附记6所述的自动编码器，其中，所述约束单元进一步包括分布单元，所述分布单元使所述隐变量平均地分布在所述隐空间中的所述中心点周围。

附记9.一种用于对自动编码器进行训练的方法，包括：

向所述自动编码器中的编码器单元提供输入数据，以将所述输入数据映射为隐空间中的隐变量；

使用约束单元对所述隐变量施加约束，以使所述隐变量聚集在所述隐空间中的中心点周围；以及

向所述自动编码器中的解码器单元提供所述隐变量，以将所述隐变量解码为重构数据，

其中，对所述编码器单元、约束单元和所述解码器单元进行训练，以使得所述重构数据与所述输入数据近似匹配。

附记10.根据附记9所述的方法，其中，所述中心点为所述隐空间中的任一个固定点。

附记11.根据附记10所述的方法，其中，所述中心点为所述隐空间中的零点。

附记12.根据附记9所述的方法，其中，所述中心点为变量，并且随着训练而被优化。

附记13.根据附记9所述的方法，还包括：

计算所述隐变量中的每一个与所述中心点之间的距离；以及

使所计算的距离最小化。

附记14.根据附记9所述的方法，还包括：

计算所述隐变量中的每一个与所述中心点之间的距离；

对所计算的距离按由小到大的顺序进行排序，并从中选择第T大的距离作为最大距离，其中T为正整数并且不大于所述隐变量的数目；以及

使所述最大距离最小化。

附记15.根据附记14所述的方法，其中，T等于所述隐变量的数目。

附记16.根据附记14所述的方法，其中，还包括使所述隐变量平均地分布在所述隐空间中的所述中心点周围。

附记17.一种程序产品，包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据附记9-16中任何一项所述的方法。

Claims

1.一种自动编码器，包括：

编码器单元，其将输入数据映射为隐空间中的隐变量；

2.根据权利要求1所述的自动编码器，其中，所述中心点为所述隐空间中的任一个固定点。

3.根据权利要求2所述的自动编码器，其中，所述中心点为所述隐空间中的零点。

4.根据权利要求1所述的自动编码器，其中，所述中心点为变量，并且随着训练而被优化。

5.根据权利要求1所述的自动编码器，其中，所述约束单元进一步包括：

最小化单元，其使所计算的距离最小化。

6.根据权利要求1所述的自动编码器，其中，所述约束单元进一步包括：

最小化单元，其使所述最大距离最小化。

7.根据权利要求6所述的自动编码器，其中，T等于所述隐变量的数目。

8.根据权利要求6所述的自动编码器，其中，所述约束单元进一步包括分布单元，所述分布单元使所述隐变量平均地分布在所述隐空间中的所述中心点周围。

9.一种用于对自动编码器进行训练的方法，包括：

10.一种机器可读存储介质，其上携带有程序产品，所述程序产品包括存储在其中的机器可读指令代码，其中，所述指令代码当由计算机读取和执行时，能够使所述计算机执行根据权利要求9所述的方法。