CN107111782A

CN107111782A - 神经网络结构及其方法

Info

Publication number: CN107111782A
Application number: CN201480084419.8A
Authority: CN
Inventors: H·瓦尔波拉
Original assignee: Kaliersi Co
Current assignee: Conarui Capital Co ltd
Priority date: 2014-11-26
Filing date: 2014-11-26
Publication date: 2017-08-29
Anticipated expiration: 2034-11-26
Also published as: KR20170092595A; US20170330076A1; WO2016083657A1; CN107111782B; US11720795B2; EP3224767A1; JP6564049B2; KR102291454B1; JP2018500708A

Abstract

本发明涉及使得能够有效地训练网络的神经网络结构及其方法。该结构是梯形结构，其中一个或多个横向输入被送到解码函数。通过最小化属于该结构的一个或多个成本函数，可以以有效的方式来训练神经网络结构。

Description

神经网络结构及其方法

技术领域

本发明一般涉及神经网络的技术领域。特别地，本发明涉及一种改进网络训练的神经网络结构。

背景技术

机器学习方法广泛用于现代技术，例如，机器视觉，模式识别，机器人技术，控制系统和自动化。在这样的应用中，机器学习被用在用于处理输入数据的系统或设备的由计算机实现的部分中。

机器学习方法的一个分类是分为“监督式”学习和“非监督式”学习。监督式学习旨在找到或“学习”一种根据给定输入产生给定输出的方式，例如，将输入图像集合正确分类为图像已经被标记为属于的类别。非监督式学习旨在通常通过特征来表示输入数据中的结构。所得的特征可以用作分类任务的输入，或用作进一步的监督式学习的初始化。

在机器学习领域中存在广泛的现有技术公开了解决方案。例如， Vincent等人在2008年的第25届国际机器学习会议(ICML'2008)的论文集中的“Extracting andComposing Robust Features with Denoising Autoencoders”引入了一种其中去噪自动编码器被布置成以通过噪声破坏整个系统的输入的机器学习解决方案。学习将干净版本的输入与破坏后的自上向下激活相匹配。自下向上在最高层处被复制为自上向下。

反过来，Bengio于2014年的“How auto-encoders could provide creditassignment in deep networks via target propagation”公开了在网络的许多层次的多个成本函数，但不具有一致的成本函数，并且不会转播反向传播误差。自下向上仅在最高层处被复制为自上向下。

此外，在专利文献EP2126801中描述的机器学习系统表现出类似浮现注意力(emergent attention-like)过程，其选择信息并且指导学习。那里所描述的方法的一个关键方面是利用二次输入信息或“上下文”来指导自动学习过程。

然而，现有技术的解决方案仍然存在一些缺陷。也就是说，特别是鉴于在EP2126801中引入的解决方案的主要问题是上下文驱动相邻处理单元以表示相同信息。去相关在单一处理单元内部工作，并且阻止该问题在一个单元内部发生，但是因为去相关在计算上要求非常高，所以在大型网络中的所有单元之间进行是不切实际的。这个问题可以通过要求不同的处理单元接收不同的输入集合来减轻，但是在许多情况下这是个苛刻限制。

此外，用于深度神经网络中的非监督式学习的现有技术的解决方案是缓慢的，尤其在学习抽象特征方面具有挑战。而且，这种解决方案与监督式学习不能较好地兼容。

理想情况下，上下文连接应当携带来自其他来源的相关信息(除了自下向上信息之外)。研究这个问题的一个方式是它源于无法识别哪些信息来自其他来源以及哪些只是采用了网络中的不同路由的自下向上信息的副本。

因此，还需要开发机器学习解决方案，特别是引入神经网络结构，其减轻所提及的现有系统的缺点，并且改进神经网络的训练。

发明内容

本发明的目的是提出一种改进的可训练神经网络结构及其方法，其改进了神经网络的训练。

本发明的目的通过如由相应的独立权利要求限定的神经网络结构和方法来实现。

根据第一方面，提供了一种包括基本层和第二层的可训练神经网络结构，其中该基本层包括破坏函数，其用于破坏神经网络结构的输入数据；解码函数；以及成本函数；并且第二层包括编码函数和解码函数，其中破坏后的输入数据被配置成作为对第二层的编码函数的输入被馈送，并且经编码的破坏后的输入数据被配置成作为对第二层的解码函数的输入被馈送，并且其中神经网络结构的破坏后的输入数据和第二层的解码函数的输出被配置成作为对基本层的解码函数的输入被馈送，并且其中基本层的解码函数的输出和神经网络的输入数据被配置成作为对基本层的成本函数的输入被馈送。

神经网络结构的第二层还可以包括成本函数，其中第二层的解码函数的输出和用第二层的编码函数编码的神经网络结构的输入数据被配置成作为对成本函数的输入被馈送。

神经网络结构还可以包括至少一个另外第二层，其中该至少一个另外第二层中的每一层被布置成连接至先前第二层，并且其中先前第二层的编码函数的输出被配置成作为对至少一个另外第二层的编码函数的输入被馈送，并且该至少一个另外第二层的编码函数的输出和上层的解码函数的输出被配置成作为对至少一个另外第二层中的解码函数的输入被馈送。

该至少一个另外第二层还可以包括成本函数，其中同一至少一个另外第二层的解码函数的输出和用讨论中的至少一个另外第二层前的每一层的编码函数编码的神经网络结构的输入数据被配置成作为对至少一个另外第二层的至少一个成本函数的输入被馈送。

根据第二方面，提供了一种用于训练如上文所描述的神经网络结构的方法，该方法包括：调整这些层中的至少一个层中的至少一个函数的至少一个参数，使得当通过向结构输入输入数据训练神经网络时，针对神经网络结构定义的成本函数被最小化。

可以比较特定层(layer-specific)成本函数的输入数据。

针对结构定义的成本函数可以是针对神经网络结构中的至少一个层定义的特定层成本函数的总和。

在本专利申请中提出的本发明的示例性实施例不应被解释为对所附权利要求的适用性构成限制。在本专利申请中使用动词“包括”作为不排除没有被叙述的特征的存在的开放限定。除非另外明确地声明，否则在从属权利要求中叙述的特征是相互可自由组合的。

被认为是本发明的特性的新颖特征在所附权利要求中进行具体阐述。然而，关于其构造及其操作方法，本发明本身以及其附加目的和优点将从当结合随附附图阅读时的具体实施例的以下描述中得到最好的理解。

附图说明

图1示意性地图示了根据本发明的神经网络结构的第一示例。

图2示意性地图示了根据本发明的神经网络结构的另一示例。

图3示意性地图示了根据本发明的神经网络结构的又一示例。

图4示意性地图示了根据本发明的神经网络结构的基本结构。

图5示意性地图示了根据本发明的计算单元的示例。

具体实施方式

本发明公开了使得能够有效训练神经网络的神经网络结构。图1 示意性地图示了根据本发明的实施例的神经网络结构。如图1所示，神经网络结构包括基本层10和第二层20。该基本层10依次包括破坏函数110、解码函数210和成本函数310。如图1所描绘的，第二层 20包括编码函数120和解码函数220。输入数据被带到神经网络。输入数据被送到破坏函数110。第二层20的编码函数120接收作为输入的破坏后的输入数据。进一步地，第二层20的解码函数220接收作为输入的用第二层20的编码函数120编码的破坏后的输入数据。第二层20的解码函数220的输出作为输入与神经网络结构的破坏后的输入数据一起被带到基本层10的解码函数210，该破坏后的输入数据被视为解码函数210的横向输入。基本层10的成本函数310接收基本层10的解码函数210的输出和神经网络的输入数据作为输入。为了清楚起见，可以说，如图1所描绘的结构包括成本函数，其仅包括来自基本层的一个成本函数项。

如图1所示的神经网络结构可以在本发明的精神内通过向该结构添加一个或多个第二层来进行修改。图2图示了本发明的实施例，其中根据本发明的实施例的神经网络结构除了第一第二层20之外还包括一个另一第二层30。另一第二层30包括另一第二层的编码函数130 和另一第二层的解码函数230。另一第二层30的编码函数130从第一第二层20的编码函数120的输出接收其输入。此外，另一第二层30 的编码函数130的输出被送到另一第二层30的解码函数230的输入。在图2的本发明的实现方式中，第一第二层20的解码函数220接收作为输入的另一第二层30的解码函数230的输出以及第一第二层20 的编码函数120的输出，其被视为解码函数220的横向输入。

在图3中示意性地图示了本发明的另一实施例。在该实现方式中，其针对每个第二层(即，对于第一第二层20和另一第二层30)布置另外的成本函数320，330。第一第二层20的成本函数320从第一第二层20的解码函数220的输出以及从用第一第二层20的编码函数120编码的神经网络结构的输入接收其输入。类似地，另一第二层30 的成本函数330从另一第二层30的解码函数230的输出以及另一第二层30的编码函数130的输出接收其输入，该另一第二层30的编码函数130被布置成对第一第二层20的编码函数120的输出进行编码。如图3所描绘的结构的总成本可以通过对来自在结构中实现的这些层中的成本函数项(即特定层成本函数)进行求和来导出。

图4示意性地图示了根据本发明的神经网络的基本结构。原则上，该结构包括四个块。第一块410是编码路径，其被布置成对破坏后的输入执行预先确定的编码函数。图4中的符号是指编码函数的输出。第二块420是解码路径或去噪路径，其被布置成对来自第一块410以及来自先前解码函数的输入(即，横向输入)执行预先确定的解码函数。图4中的符号是指解码函数的输出。第四块440是另一编码路径，其被布置成对神经网络的输入(即，干净输入)x(t)执行预先确定的编码函数。图4中的符号h¹(t)-h^L(t)是指第四块440的编码路径中的编码函数的输出。第三块430是指成本函数路径，其被布置成对从第二块420和第四块440接收的输入执行诸如比较之类的预先确定的函数。图4中的符号C¹-C^L是指神经网络结构内的成本函数项。在图4的示意图中，描绘了成本函数被布置到神经网络结构的每个层。如所提及的，在根据本发明的所有实现方式中并不一定是这种情况，其也对第四块440中的必要编码函数产生影响。在任何情况下，根据本发明的结构的(总)成本函数可以通过对来自在结构中实现的这些层的成本函数项进行求和来定义。总结与图4有关的讨论，本发明公开了一种梯形神经网络结构。

如上文所讨论的，编码函数和解码函数被布置成对对输入数据执行预先确定的操作。更具体地，编码函数f采用输入x，并且产生作为输出的编码后的输入数据。这也可以被称为输入x到“表示”y的“映射”：

y＝f(x)

这种映射可以例如是：

y＝s(Wx+b)

其中W和b是编码函数的参数，而s是非线性函数，诸如S形或双曲正切函数。当训练神经网络时，寻求W和b，以使成本函数被最小化。W和b是存储在计算机存储器或存储装置中的数值的矩阵或向量，并且在计算机上对y的表达式进行评价。

相反，解码函数g是相似映射，其采用输入y，并且产生作为输出的经编码的输入数据的“重建”。这种映射可以例如是：

其中W'和b'是解码函数的参数，s是非线性函数，诸如S形或双曲正切函数，并且在神经网络的训练中寻求参数。一个选项是使用某个规则将W'的值与W值相结合，例如，使W'始终是W的矩阵转置。因为y可以是x的“有损”表示，所以也可能不是原始数据的精确重建。

成本函数C是用于评价解码函数能够多么理想地重建编码函数的输入数据的函数。成本函数可以例如是：

当训练网络时，对编码函数和解码函数的参数进行调整，直到成本函数被最小化为止。在文献中容易找到关于参数来最小化成本函数的方式，并且基本上可以使用任何优化方法，例如，非线性共轭梯度或准牛顿法。根据本发明的结构的总成本函数可以被定义为来自确定成本函数的一个或多个层中的成本函数项的总和。

从上述描述可以清楚地看出，并不需要实现神经网络结构中的每个层的成本函数。可能的是，只有一个成本函数被布置到结构，或者可以存在针对结构中的每个层布置的成本函数，即，成本函数项，或者这两中情况之间的任何情况。在神经网络被训练时，多个层上的成本函数加快学习，但可能需要更多的计算资源。根据本发明，有利的是对来自每一层中的成本函数项进行求和，并且最小化总成本函数，以便确定神经网络结构(即，其中的函数)的参数。

还有，标准监督式成本函数可以简单地添加到最上层，测量最上层与目标输出之间的距离。由于梯度沿着编码路径向后传播，因此该结构与监督式学习完全兼容。具有这种结构的神经网络可以以非监督式和监督式方式两者进行训练。

在实践中，上文在神经网络结构的描述中所讨论的函数和操作的实现方式可以在被布置成训练神经网络的计算单元中执行。这种计算单元510在图5中图示。计算单元510可以包括一个或多个处理单元 520(诸如处理器)和一个或多个存储器单元530。所提及的函数和操作被定义为计算机程序代码的部分，其被存储在存储器单元530中。当计算机程序代码的部分由处理单元520执行时，所提及的函数和操作被布置成以预先确定的次序(诸如分层次地)执行。函数和操作可以根据实施例由一个或多个处理器来执行。函数或操作的结果可以当做处理器内部的下一函数或操作的输入，或者在多个处理器的情况下，中间结果(即，来自函数或操作的结果)可以直接或间接通过例如存储器在处理器之间进行传送。存储器单元530可以被配置成至少暂时地存储函数和操作的至少一些输出，而且至少还存储了通过其可以实现总成本函数的最优解的函数的参数。如已经说明的，一个或多个存储器单元530有利地被布置成存储计算机程序代码的至少一些部分，其使得当计算机程序代码的至少一些部分在处理器中被执行时，处理器执行如所描述的函数和操作。本文中的最优解是指以预先确定的方式最小化针对结构定义的总成本函数，例如，使得解码块的输出之间的差异与输入信号的差异低于预先确定的极限。因此，本发明的结果是，当神经网络被投入用于应用中时，可以产生用于神经网络结构的参数并且因此使用这些参数。计算单元510被配置成向外部实体提供(诸如传送)所定义的参数，该外部实体被配置成执行对其执行训练的预先确定的任务。

接下来，本发明在图像分类和搜索应用的上下文中以例示方式进行描述。

在该示例中，本发明用于数字图像要被自动分类的任务，例如，用于从图像数据库中搜索类似图像。

对具有图3所描绘的结构的神经网络进行训练，以对数字图像进行分类，该数字图像由三个色彩通道r，g和b的像素数据组成。图像首先以这种任务的典型方式进行预处理：每个图像被分割成大小为 10×10像素的较小图像或“补丁”。每个这样的补丁然后构成300个数值(3个颜色值×10×10像素)的输入数据向量。然后通过从这些值中减去平均值来进行归一化，并且使用白化变换进行白化。

要被训练的神经网络在根据图3的结构中建立。在该示例中，通过将方差1的高斯噪声添加到输入数据向量来进行破坏步骤110。

在该示例中，编码函数f1 120和f2 130被选择为：

fi＝r(Ai xi-bi)

其中r是矫正函数，Ai和bi是参数矩阵，xi是编码函数的输入，并且i表示层数，

在该示例中，基本层的解码函数g0被选择为：

g0＝B’x’+B0h0+b0

其中x'是破坏后的输入，h0是g1的输出，B'，B0和b0是参数矩阵，以及

在该示例中，另外层的解码函数gi被选择为：

gi＝hi*s(Bi xi+bi)

其中*表示逐个元素相乘，Bi和bi是参数矩阵，以及

成本函数C被选择为：

通过最小化成本函数的总和(图3中未公开如此)来对网络进行训练。在训练之前，参数矩阵和向量Ai，B'，Bi，bi被初始化为随机值。一般而言，参数矩阵的大小取决于应用；在该示例中，A1是大小为300×400的矩阵，A2是大小400×15的矩阵，其确定其他矩阵的尺寸。因此，神经网络的输出是长度为15的向量。

在该示例中，然后使用公知的梯度下降法来训练网络，该公知的梯度下降法被设置成最小化网络中的成本函数的总和，其中参数矩阵和向量作为要优化的参数，并且经预处理的图像补丁作为训练数据。

在训练完成后，参数的优化值构成训练后的神经网络的参数，其已经学会了用高级特征来表示图像补丁。在为了清楚地说明本发明而保持简单的该示例中，由编码函数f1产生的特征大致与发现图像中的边缘和其他这样的尖锐转变相对应，并且由编码函数产生的较高级特征f2与在图像中存在这样的特征的指示相对应，但是对于它们出现在图像中的具体位置不发生变化。这例示了本发明的重要方面，在于结构中的横向连接已经允许它学习这些更多位置不变的较高级特征。

然后，训练后的神经网络可以用于通过以相同的方式预处理新图像并且用这些参数和新预处理的数据作为输入来评价编码函数对其他新图像进行分类。然后，相似图像将产生类似输出向量。因为结构中的横向连接已经允许神经网络学习更多的位置不变的较高级特征，同一对象在稍微不同的位置中的图像可能产生类似的输出向量，被分类为相似的，因此例如在搜索应用中被找到。

该示例目前只涉及非监督式学习，但也可以纳入监督式学习。例如，一些图像补丁可能被标记。可以通过在最上层上添加与成本函数并列的成本函数项Cs来考虑该信息，使得它接收最顶层的编码函数的经编码的输出数据以及当前输入数据的标记作为输入。如果输入数据未被标记，则Cs的输出可以设置为0。现在，当神经网络被训练时，如果输入图像补丁被标记，则网络将以非监督式方式从数据中学习表示，而监督式学习成本函数项Cs将指导学习朝向产生更接近于所标记的正确分类的分类结果的表示。在该示例中，标记可能是长度为15的向量，例如，15位，其中如果图像已经被标记为属于15个类别中的一个类别，则位为1，如果不是，则位为0。然后神经网络的输出向量可以在例如用柔性最大值(softmax)函数归一化之后被解释为输入图像属于该类的概率，并且Cs可以被计算为例如输出和标记的交叉熵。

在该示例中，使用简单的MLP式神经网络，但是本发明同样适用于其他类型的神经网络。例如，卷积网络广泛地用于类似于该示例的图像处理和模式识别应用中的机器学习应用中。本发明可以简单地通过将编码函数选择为卷积来应用于卷积网络，其中参数是卷积内核，并且训练网络以类似方式工作。

训练后的神经网络在先前示例中的最终应用仅使用编码函数f的经学习的参数，但是解码函数g的经学习的参数也可以用于应用中。作为本发明的应用的另一示例，考虑其中本发明可以用于使用训练后的神经网络通过“采样”来创建用于填充输入数据中的缺失数据的系统的应用。在该示例中，输入数据由照片组成，然后训练后的网络用于填充其他破坏后的照片中的漏洞。神经网络的预处理和训练可以如先前示例那样进行，但是破坏步骤110被修改，使得破坏类似于损坏后的照片中的损坏。例如，如果照片其中具有小漏洞而非添加高斯噪声，则输入数据的随机选择的范围被设置为零，即，“漏洞”被插入在输入数据中。可替代地，可以通过将数据设置为例如“漏洞”的“边缘”处的像素值的平均值来提供初始猜测，其将稍后使应用加快。当被训练时，神经网络现在可以有效地学习用新生成的数据来填充破坏后的输入数据中的漏洞。在已经训练了神经网络之后，可以将其纳入用户提供照片并且在该示例中标记要用所生成的数据填充的照片中的像素的区域的软件程序中。当使用所提供的照片作为输入数据对训练后的网络(即，编码函数和解码函数)进行评价时，解码函数210 的输出产生其中所标记的区域已经被填充有“采样”的生成数据的数据的版本。然后再次迭代该过程，现在通过将原始的用户提供的照片和解码函数210的输出组合来替换破坏步骤110，使得从解码函数210 的输出中选择标记区域的像素值，并且从原始的用户提供的照片中选择其他区域的像素值。

根据本发明的神经网络结构至少在改进了神经网络的训练的意义上提供了优于现有技术的解决方案的优点。这通过解码函数的横向输入来实现，其使得能够学习较高层上的抽象特征(诸如上文的图像示例中的不变特征)，以及解决方案与监督式学习解决方案的成本函数一起的有效协作。而且，布置在较高层上的成本函数项增强并且加速了神经网络的学习。因此，本发明的优点比现有技术更清楚。

前述描述中描述的特征可以用于与明确描述的组合不同的组合中。尽管已经参照某些特征描述了功能，但是这些功能可以由其他特征(无论是否被描述)来执行。尽管已经参考某些实施例对特征进行了描述，但是在其他实施例中也可以存在那些特征(无论是否被描述)。

Claims

1.一种可训练神经网络结构，包括基本层和第二层，其中

所述基本层包括：

-破坏函数，用于破坏所述神经网络结构的输入数据，

-解码函数，以及

-成本函数

并且所述第二层包括：

-编码函数，以及

-解码函数，

其中，

-破坏后的输入数据被配置成作为对所述第二层的所述编码函数的输入被馈送，并且

-经编码的破坏后的输入数据被配置成作为对所述第二层的所述解码函数的输入被馈送，

并且其中

-所述神经网络结构的所述破坏后的输入数据和所述第二层的所述解码函数的输出被配置成作为对所述基本层的所述解码函数的输入被馈送，

并且其中所述基本层的所述解码函数的输出和所述神经网络的所述输入数据被配置成作为对所述基本层的所述成本函数的输入被馈送。

2.根据权利要求1所述的神经网络结构，其中

所述第二层还包括成本函数，其中用于所述第二层的所述解码函数的输出和用所述第二层的所述编码函数编码的所述神经网络结构的所述输入数据被配置成作为对所述成本函数的输入被馈送。

3.根据前述权利要求中的任一项所述的神经网络结构，所述神经网络结构还包括：

至少一个另外第二层，其中所述至少一个另外第二层中的每一个被布置成被连接至先前第二层，并且其中

-所述先前第二层的所述编码函数的输出被配置成作为对所述至少一个另外第二层的所述编码函数的输入被馈送，并且

-所述至少一个另外第二层的所述编码函数的输出和上层的所述解码函数的输出被配置成作为对所述至少一个另外第二层中的所述解码函数的输入被馈送。

4.根据权利要求3所述的神经网络结构，其中所述至少一个另外第二层还包括：

成本函数，其中同一所述至少一个另外第二层的所述解码函数的输出和用所讨论的所述至少一个另外第二层之前的每一层的编码函数编码的所述神经网络结构的所述输入数据被配置成作为对所述至少一个另外第二层的至少一个所述成本函数的输入被馈送。

5.一种根据任何前述权利要求所述的与神经网络结构相关的用于训练所述神经网络结构的方法，所述方法包括：调整层中的至少一个层中的至少一个函数的至少一个参数，使得当通过向所述结构输入输入数据来训练所述神经网络时，针对所述神经网络结构定义的成本函数被最小化。

6.根据权利要求5所述的方法，其中特定层成本函数的所述输入数据被比较。

7.根据权利要求5或6所述的方法，其中针对所述结构定义的所述成本函数是针对所述神经网络结构中的至少一个层定义的特定层成本函数的总和。