CN110009091B

CN110009091B - 学习网络在等价类空间中的优化

Info

Publication number: CN110009091B
Application number: CN201810012490.5A
Authority: CN
Inventors: 陈薇; 叶启威; 刘铁岩; 孟琪
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-01-05
Filing date: 2018-01-05
Publication date: 2023-10-31
Anticipated expiration: 2038-01-05
Also published as: US11599797B2; EP3735659A1; CN110009091A; WO2019135980A1; US20200302303A1

Abstract

根据本公开的实现，提出了一种学习网络在等价类空间中的优化方案。在该方案中，确定贯穿学习网络的多个层的多个基础路径。多个层上的每个节点利用具有缩放不变属性的激活函数对来自前一层的节点的输入进行处理，每个基础路径包括多个层中的每一层上的单个节点，并且多个基础路径中的处理彼此线性无关。对于多个基础路径中的每一个基础路径，更新与该基础路径中的节点相关联的参数的组合值，在每个基础路径中，与一个节点相关联的参数被用以调节该节点从前一层的节点获得的输入。基于更新后的参数的组合值，更新在多个基础路径中与多个层上的节点相关联的参数的值。通过该方案，提高了优化效率，实现更准确地获得参数的优化值。

Description

学习网络在等价类空间中的优化

背景技术

深度学习在诸如图像分类、机器翻译、语音识别等诸多领域具有广泛的应用。例如，在大数据和强大的计算资源的基础上，能够训练具有多个层级、多个参数的深度神经网络(Deep Neural Networks，DNN)，也被称为深度学习网络。在训练或优化阶段，需要根据给定的训练数据集和优化目标，对学习网络的参数进行训练和优化。例如，对于神经网络的训练而言，可以采用随机梯度下降(SGD)方法。然而，训练学习网络通常是一项非常艰难的任务，需要通过大量的迭代过程不断更新学习网络的各个参数。各个参数的确定取决于迭代过程的收敛程度。这需要耗费大量计算和时间资源。

发明内容

根据本公开的实现，提出了一种学习网络在等价类空间中的优化方案。在该方案中，确定贯穿学习网络的多个层的多个基础路径。多个层上的每个节点利用具有缩放不变属性的激活函数对来自前一层的节点的输入进行处理，每个基础路径包括多个层中的每一层上的单个节点，并且多个基础路径中的处理彼此线性无关。对于多个基础路径中的每一个基础路径，更新与该基础路径中的节点相关联的参数的组合值，在每个基础路径中，与一个节点相关联的参数被用以调节该节点从前一层的节点获得的输入。基于更新后的参数的组合值，更新在多个基础路径中与多个层上的节点相关联的参数的值。通过该方案，在由基础路径表示的等价类空间执行学习网络的优化，有助于提高优化的计算效率并且还可以更快、更准确地获得参数的优化值。

提供发明内容部分是为了简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够实施本公开的多个实现的计算设备的框图；

图2A示出了具有缩放不变属性的激活函数的曲线的示意图；

图2B示出了学习网络的部分节点之间的处理的示意图；

图3示出了单个节点的输入和输出的处理的示意图；

图4示出了根据本公开的一些实现的用于学习网络的优化的过程的流程图；

图5示出了根据本公开的一些实现的在图1的学习网络中确定的基础路径的示意图；以及

图6示出了根据本公开一些实现的用于参数更新的过程的流程图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本公开的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

示例环境

图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解，图1所示出的计算设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备100可以被实现为具有计算能力的各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端，包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(CPU)、微处理器、控制器、微控制器。

计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或其某种组合。存储器120可以包括程序模块，这些程序模块被配置为执行本文所描述的各种实现的功能。

存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，其能够用于存储信息和/或数据并且可以在计算设备100内被访问。计算设备100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出，可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。

通信单元140实现通过通信介质与另外的计算设备进行通信。附加地，计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备100可以使用与一个或多个其他服务器、个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备100交互的设备进行通信，或者与使得计算设备100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

在一些实现中，除了被集成在单个设备上之外，计算设备100的各个部件中的一些或所有部件还可以以云计算架构的形式被设置。在云计算架构中，这些部件可以被远程布置，并且可以一起工作以实现本公开所描述的功能。在一些实现中，云计算提供计算、软件、数据访问和存储服务，它们不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实现中，云计算使用适当的协议通过广域网(诸如因特网)提供服务。例如，云计算提供商通过广域网提供应用，并且它们可以通过web浏览器或任何其他计算组件被访问。云计算架构的软件或组件以及相应的数据可以被存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并或者它们可以被分散。云计算基础设施可以通过共享数据中心提供服务，即使它们表现为针对用户的单一访问点。因此，可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。备选地，它们可以从常规服务器被提供，或者它们可以直接或以其他方式被安装在客户端设备上。

计算设备100可以用于实施本公开的多种实现中的对学习网络的优化。学习网络的优化也被称为学习网络的训练，通过对学习网络的参数不断地更新，从而获得优化后的参数值。在本公开的实现，学习网络也可以被称为“神经网络”或“学习模型”。在下文中，术语“学习模型”、“学习网络”、“神经网络”、“模型”和“网络”可替换地使用。学习网络可以被设计用于不同应用，包括物体分类(例如图像分类、动作识别等)、机器翻译、语音识别等领域。为了更清楚地描述本公开，以下结合基于学习网络的多分类学习进行描述。然而，应当理解，本公开的概念可以应用于各种适当的学习网络的优化中。

学习网络的训练基于训练数据170。计算设备100可以能够通过输入设备150接收训练数据170。训练数据170包括学习网络可能的输入数据和针对该输入数据的已知输出，从而使得训练后的学习网络可以为相同类型的输入数据预测相应的输出。例如，在被设计用于图像分类的学习网络的训练中，训练数据170可以包括训练图像和每个训练图像的分类标签。计算设备100还可以将优化后的学习网络180经由输出设备160输出，例如输出给其他计算设备。优化后的学习网络180中的参数已被确定。在其他示例中，计算设备100也可以将优化后的学习网络180存储在存储器120中，以供本机使用。

图1还示出了学习网络180的示例结构。学习网络180具有层级结构，包括多个层，并且每个层上具有多个节点。每个节点对来自前一层的节点的输入进行线性组合和非线性激活。每个节点的输入还由参数进行调节，以实现对前一层的输入的线性组合(例如线性加权)。在本公开中，用于调节每个节点的输入的参数被称为与该节点相关联的参数。

在图1的示例中，学习网络180用于解决多分类问题。学习网络180包括多个层，例如层1至层4。每个层包括多个节点182。在多个层中，第一层(层1)是输入层，每个节点对应于学习网络180的输入(x₁，x₂，……x_d)。为了提供分类结果，学习网络180的最后一层(即层4)是Softmax层。Softmax层中的节点使用Softmax激励函数对该层的输入执行Softmax运算，并且输出(y₁，y₂，……y_K)分别指示输入被划分到不同类的概率。Softmax操作是本领域中公知的，其为广泛应用在多类别学习问题中常见的操作，因而不再赘述。可以用和/>表示学习网络180的输入空间和输出空间，其中/>表示实数集，d表示输入空间的维度，而K表示输出空间的类别的数量。在Softmax层之前的层(即层3)可以被称为学习网络的输出层。学习网络180在输入层与输出层之间还可以包括一个或多个层，这些层有时被称为隐含层。在一些示例中，学习网络180的多个层包括全连层，这意味着一个层上的全部节点都连接到后一层的每一个节点。

学习网络180的各个层上的节点可以相互连接，以将前一层的输出作为后一层的输入。与节点相关联的参数用于调节该节点的输入。例如，在学习网络180的示例结构中，对于层2而言，来自层1的多个节点的输入由相关联的参数集W调节；对于层3而言，来自层2的多个节点的输入由相关联的参数集V调节；对于层4而言，来自层3的多个节点的输入由相关联的参数集U调节。除了输入层1之外，多个学习网络的其他层上的节点利用激活函数对节点的输入进行处理。

计算设备100可以通过训练或优化过程来确定与节点相关联的每个参数，从而使得训练后的学习网络180可以执行相应功能。在学习网络的训练过程中，会确定一个损失函数作为优化目标，以便通过最小化该损失函数来达到训练的收敛。备选地，也可以通过最大化效用函数来训练模型。效用函数通常具有其等价的损失函数的形式，例如，可以由损失函数的相反数表示。因此，为了简化起见，以下主要结合损失函数来描述本公开的实现。

应当理解，图1中的学习网络180的结构仅是一个示例。在其他实现中，学习网络180还被可以被构造为包括更多或更少的层，每个层可以包括其他数目的节点。本公开的范围在此方面不受限制。

参数空间的冗余性

学习网络的训练是一个复杂的任务。在常规训练中，将学习网络的输出表示为与整个学习网络的各个参数相关。通过一些训练方法、例如随机梯度下降法来更新各个参数，以寻找参数的最优值。这样的过程已经被证明是非常耗费计算和时间资源，并且参数可能会停留在一些虚假临界点上，使得优化程度不足。例如，在学习网络180的示例中，假设每一层的节点数目为h_l，l∈[L]并且各个层为全连层，在层l的参数的数目将是h_l-1h_l(l>1)或dh₁(l＝1)，那么学习网络180的参数空间可以被表示为

发明人已经发现：直接使用学习网络的全部参数来表示学习网络在一些情况下是非常冗余的，并且会导致参数优化的不足。当前很多学习网络、特别是深度神经网络(DNN)采用具有缩放不变属性的激活函数。在这类学习网络中，参数空间存在严重冗余性，具体表现在被训练为具有不同参数集的学习网络对于相同输入可能生成相同的输出。这样的冗余性造成了训练过程中参数优化的困难性。

以下为说明在参数空间中表示学习网络而导致的冗余性，将参照图2A和图2B来简单描述具有缩放不变属性的激活函数。激活函数的缩放不变属性指的是如果该激活函数的输入呈比例变化，那么输出也将呈相同比例的变化。这可以表示为σ(cx)＝σ(x)，其中c>0，并且σ(·)表示激活函数。在学习网络常用的激活函数中，具有缩放不变属性的激活函数包括ReLU函数、分段线性函数等。在一些示例中，还可以选择具有多个分段的线性函数，用于逼近在学习网络中常用的另一种激活函数，即Sigmoid函数。因此，虽然严格意义上的Sigmoid函数不具备缩放不变属性，但可以通过分段线性函数来同时获得Sigmoid函数的激活特性和缩放不变属性。为了描述方便性，在本公开中，以ReLU函数为示例进行描述。应当理解，所描述的实现也适用于其他具有缩放不变属性的激活函数。

ReLU函数可以被表示为σ(x)＝max(x,0)。ReLU函数的缩放不变属性被表示为：σ(cx)＝max(cx,0)＝cmax(x,0)＝cσ(x)。图2A示出了这样的ReLU函数的示例曲线210，其中y＝σ(x)。由于缩放不变属性，如果ReLU函数被用作学习网络的节点上的激活函数，那么可能出现如图2B所示的情况。图2B示出了某个学习网络中的两个节点201和202之间的处理的示意。底层的节点201相关联的参数包括w1*c和w2*c，与上层的节点202相关联的参数包括w3/c。与这两个节点相关联的参数的取值可以有很多种，并且这些取值均能够使得对于这部分的任意输入(input1和input2)而言，输出(output)均相同。

通常，即使学习网络的结构相同，如果对应的参数被训练为具有不同的取值，这些学习网络通常被认为不同。因此，使用具有缩放不变属性的激活函数的学习网络训练中，可能训练出不同的学习网络，这些学习网络实质上是等价的，因为它们对于相同的输入，总是给出相同的输出。假设两个学习网络分别被表示为和/>，在本公开中，如果提及/>和/>是等价的，这意味着对于每个给定输入/>可以存在很多这样的等价学习网络。此外，如果N_g(w)和N_w是等价的，则可以认为学习网络N_w是g不变的。学习网络的g不变性指的是：对于给定学习网络，可以找到对该学习网络的变换g，使得该学习网络的输出保持不变。

等价类原理的讨论

基于以上观察，发明人已经发现，在激活函数的缩放不变属性而导致的等价性的基础上，可以将学习网络的表示从参数空间变换到更有效和紧致的等价类空间。例如，在常规的学习网络训练过程中，损失函数被表示为学习网络的全部参数的函数，例如Loss(W)，其中Loss(·)表示损失函数，并且W表示学习网络的全部参数的集合。根据本公开的实现，提出了在等价类的基础上来对学习网络进行优化，因此损失函数可以被表示为例如Loss(E)，其中E表示学习网络的等价类空间。为了便于理解本公开的原理，在详细介绍本公开的学习网络优化的实现之前，先描述基于等价类优化学习网络的可能性的理论支持。

本公开针对的学习网络是其中多个层中的每个节点均利用具有缩放不变属性的激活函数对来自前一层的节点的输入进行处理的网络。在具有缩放不变属性的激活函数的基础上，可以将学习网络重选参数化，例如，可以找到变换g，以使得该学习网络是g不变。

首先在单个节点的角度来分析等价性和g不变性的概念。对于学习网络中的一个给定隐含节点(即隐含层中的节点)，假设用于调节该节点的输入的参数为，用于调节该节点的输出(即前一层的节点的输入)的参数为/>和正的恒定值c，可以为该节点定义：

因此，可以定义，以表示由有限个函数/>组成的函数，其中所有c_i(i∈[N])都是正数，并且O_i(i∈[N])表示学习网络N_w的隐含节点。

为了确定学习网络N_w是g不变的，仅需要证明N_w是不变的。在不失一般性的情况下，假设O₁是学习网络N_w的层l上的隐含节点，并且该节点使用的ReLU激活函数表示为σ_l(·)，而前一层l-1的节点的激活函数表示为σ_l-1(·)。可以直接地确定因此，可以进一步确定这意味着，证明N_w是g不变的，因此学习网络N_w等价于学习网络N_g(w)。

学习网络N_w的所有g不变的学习网络构成等价类。在此基础上，可以获得学习网络N_w的更紧致的表示。例如，假设在学习网络N_w的Softmax层之前的最后一层(例如，层L)的节点的输出(表示为)在参数空间中被计算为：

其中j从1到层L的节点数进行取值；函数是指示符函数，如果学习网络中涉及节点j→i_L→…→i₀的路径是激活的，那么该函数等于1，否则该函数等于0。学习网络N_w的损失函数可以由层L的每个节点/>表示。从该表达可以看出，/>和是可以用于表示等价类的一个单位组成部分。假设路径(表示为/>)是包括由/>中的参数涉及的节点。通过以下进一步描述，可以理解，可以使用路径来表示等价类。

为了能够使用路径来表示等价类，g不变性应该是如下情况的充分必要条件：对于固定x，所有路径和都给出固定的/>值。具体地，如果已知学习网络N_w和/>等价，σ(·)(表示ReLU激活函数的处理，那么在学习网络/>的每个隐含节点：

由此可见，学习网络N_w和的所有路径的输出/>将具有固定值。也就是说，g变换不会改变应用ReLU激活函数的每次处理后的值。

已知对于固定x，学习网络N_w和的所有路径和/>都给出固定的/>值，那么可以确定一个函数g(w)。假设学习网络N_w和/>具有相同路径和相同输出值，对于任一学习网络的第一层与第二层之间的每个隐含节点(表示为/>)，可以构建函数其中/>如果无法构建这样的函数，那么必然存在具有不同输出值的路径。例如，假设用于调节隐含节点/>的输入的参数w₁和w₂满足/>并且c₁≠c₂。还假设涉及参数w₁以及可能的其他参数的路径为路径p₁，涉及参数w₂以及与p₁类似的其他参数的路径为路径p₂，涉及参数/>以及可能的其他参数的路径为路径/>并且涉及参数/>以及与/>类似的其他参数的路径为路径/>可以确定如果/>则必然因此，可以反向证明必然可以构建函数/>其中/>并且因此可以确定：/>以上讨论了针对单个节点构建的函数g(w)。对于每个路径上的每个节点，均可以逐层地构建出这样的函数。由此可见，学习网络N_w和/>具有g不变性。

以上提及，学习网络的参数空间可以表示为为了根据学习网络的等价性将这个参数空间划分到不同的等价类中，要确定如何用参数表示等价类。首先从单个隐含节点的角度来探讨等价类的属性。为了便于理解，参照图3的示例进行描述。图3示出了单个节点301，其具有用于调节节点301的输入的参数w₁、w₂和w₃，这些参数分别用于调节来自前一层的相应节点的输入。该节点301的到下一层的各个节点的输出由参数v₁、v₂、v₃和v₄来调节。

在图3的示例中，节点301的每个等价类的信息可以包括w₁v₁，···w₁v₄，w₂v₁，···，，w₂v₄，w₃v₁，···，w₃v₄和各个参数w₁、w₂、w₃、v₁、v₂、v₃和v₄的符号。通常，可以仅获知参数w₁的符号，并且基于参数w₁的符号来确定其他参数的符号。有时，不需要获知所有的w_iv_j，i∈[3]，j∈[4]。例如，如果已知w₁v_j∈[4]和w₂v₁，w₃v₁可以通过以下公式获得其他w_iv_j：

在此假设每个参数的取值均为非零值。

对于每个节点，假设用于调节该节点的输入的参数集为W＝[w₁，···，w_m]，并且用于调节从该节点去往下一层的其他节点的输出的参数集为V＝[v₁，···，V_J]那么该节点的等价类可以被表示为：

E＝{w₁v_j，w_iυ₁，j∈{1，···，J}，i∈{2，···，m}，sgn(ω₁)} (5)

为了更清楚的表示，可以将公式(5)划分为：

E⁺＝{w₁υ_j，w_iυ₁，j∈{1，···，J}，i∈{2，···，m}，w₁＞0} (6)

E-＝{w₁υ_j，w_iυ₁，j∈{1，···，J}，i∈{2，···，m}，w₁＜0} (7)

由此可见，对于单个节点，可以将其等价类用以上的参数组合形式来表示。类似地，还可以将上述参数组合形式扩展到整个学习网络。

还可以从代数角度确定单个节点的等价类。假设不同值的加法和乘法分别被表示为和k⊙a＝a^k(其中k＞0)。在此基础上，可以构建用于调节节点301的输入的参数W和用于调整节点301的输出的参数集V之间的映射f(W，V)，其中/>并且映射f(W，V)可以被表示为：

f([W，V])＝[w₁，···，w_m，v₁，···，v_J]A^T(8)

＝[w₁v₁，w₁v₂，···，w₁v_J，···，w_mv₁，··w_mv_J]

其中A表示如下矩阵：

可以确定映射f(W，V)是关于和k⊙a＝a^k的线性映射。具体地，对于每个/>和k₁，k₂＞0，可以确定：

其中A^T是线性映射f的矩阵。通过计算，可以确定：rank(A)＝m+J-1。假设表示f的核空间，并且表示f的像空间。ker(f)和Im(f)都是线性空间，并且rank(ker(f))＝1。在：rank(A)＝m+J-1的基础上，可以确定Im(f)的基础是{w₁υ_j，···，w_iv₁，j∈{1，···，J}，i∈{2，···，m}

由于参数集W和V中的每个参数并非总是正数，可能需要将上述线性映射f的表示更一般化为：

其中在此基础上，可以更新Im(f)的基础为：

(12)

E＝{w₁v_j···，w_iv₁，j∈{1，···，J}，i∈{2，···，m}，sgn(w₁)}

该公式(12)可以用于表示单个节点的等价类。

在单个节点的等价类的基础上，可以确定学习网络属于等价类的条件，即对于所有学习网络N_W，V(x)，如果存在[W，V]∈E，那么这些学习网络是等价的。具体地，假设E＝{w₁υ_j，···，w_iv₁，j∈{1，···，J}，i∈{2，···，m}，sgn(w₁)}，可以确定每个参数的符号，并且对于根据公式(4)还可以确定学习网络的路径的值ω_iv_j。对于每个和/>存在变化g_c使得/>其中/>由此可见，学习网络N_W，V(x)具有g不变性，因此这些学习网络是等价的。进一步地，还可以证明如果两个类E₁和E₂不同，那么E₁∩具体地，如果两个不同等价类E₁和E₂中包含[W，V]，根据公式(12)，可以确定E₁和E₂相等。

在单个节点的等价类表示的基础上，可以表示学习网络的各个路径的等价类。假设表示用于调节从学习网络的层l-1到学习网络的层l的输入的参数集，对于整个学习网络，可以构建类似的线性映射：

其中d₁是学习网络的输出层的节点数。每个表示包括与其中的参数相关联的节点的一条路径。与单个节点类似，也可以确定公式(13)中的线性映射中的rank(A)和Im(f)的基础。还可以计算出rank(A)＝dh₁+h₁h₂+···+h_L- ₁h_L+h_Ld₁-h₁-···-h_L

此外，还可以确定rank(ker(f))＝h₁+h₂+…，+h_L，并且rank(Im(f))＝dh₁+h₁h₂+···+h_L-1h_L-h₁-···-h_L。假设r₁＝rank(ker(f))并且r₂＝rank(Im(f))，可以确定ker(f)的基础是并且Im(f)：/>。

基于以上从节点到学习网络的层的扩展，可以确定学习网络的等价类的表示为：

其中每个p_i表示一条路径，该路径由Im(f)的基础来定位。在学习网络的层的等价类的基础上，可以确定学习网络属于等价类的条件，即对于所有学习网络N_W，V(x)，如果[W₁，···，W_L]∈E，那么这些学习网络是等价的。此外，也可以确定如果学习网络的两个等价类E₁和E₂不同，那么

基于等价类的优化

基于上述原理的讨论，发明人已经发现：可以利用学习网络中具有线性无关的处理的路径(在本文中被称为基础路径)来表示学习网络。通过基础路径来表示学习网络相当于在学习网络中的多个层基础上的等价类空间中对该学习网络进行表示，这使得学习网络的表示更紧致、具有较低冗余度。基于这样的发现，根据本公开的实现，提供了一种学习网络的优化方案。在该方案中，通过更新基础路径相关联的参数的组合值来优化学习网络，从而确定学习网络的参数的值以供使用。通过这种方式，可以更新学习网络的基础路径上的参数的组合值来达到学习网络的优化目标，这不仅提高了学习网络的优化效率，而且还可以更准确地且快速地确定参数调度最优值。

图4示出了根据本公开的实现的用于学习网络的优化的示例过程400。过程400可以由图1的计算设备100来实现。为了描述方便起见，结合图1来描述该过程。过程400可以用于训练图1所示的学习网络180，以确定与学习网络180的各个节点相关联的参数。

在410，计算设备100确定贯穿学习网络180的多个层的多个基础路径。如图1的示例示出的，学习网络180的多个层可以形成层级结构，前一层的输出作为下一层的输入，以供进一步处理。具有输入的传递的两个节点可以被认为相连。在这两个节点之间传递的输入还由相应的参数进行调节。学习网络180包括输入层，该输入层的节点对应于学习网络的多个输入，用于将相应输入提供给下一层的节点作为下一层节点的输入，这些下一层节点的输入也由相应的参数进行调节。

在本公开的实现中所考虑的多个层是其上的节点利用具有缩放不变属性的激活函数对来自前一层的节点的输入进行处理的多个层。因此，整体而言，可以排除学习网络中的Softmax层(例如，学习网络180的层4)，因为该层应用不具有缩放不变属性的Softmax函数。在一些示例中，所考虑的多个层是学习网络180中的隐含层。在一些示例中，除了隐含层之外，在本公开的实现中所考虑的多个层包括学习网络的输入层(例如，学习网络180的层1)，因为该输入层为下一隐含层提供输入。在图1示出的学习网络180的示例中，可以考虑确定贯穿层1至层3的基础路径。在一些实现中，所考虑的多个层是全连层。除了与具有缩放不变属性的激活函数相关的多个层之外，学习网络180可以还包括其他隐含层，这些隐含层上节点利用不具有缩放不变属性的激活函数对输入进行处理。

不同于常规方案在参数空间中构建学习网络的表示，在本公开的实现中，可以在路径空间中表示学习网络180。学习网络180的每个路径可以包括学习网络180的多个层中的每一层上的单个节点。学习网络的输入层提供的输入经过这些路径中的每个路径，被该路径中的节点相关联的输入参数调节，并且被路径中的节点的激活函数处理，并且然后在学习网络180的最后一层提供输出。基于学习网络180的全部路径，作为学习网络180的优化目标，优化函数可以被表示为Loss(o₁,…,o_K；Label)，并且

其中O_k表示学习网络的多个层的第k个最终输出。例如，在用于多分类的学习网络中，o₁,…,o_K表示Softmax层之前的层的K个最终输出。公式(6)表示对给出O_k的所有路径，O_k的值取决于所有路径的值(表示为Value_path表示)、路径是否激活的指示(由Active_path表示)和该路径的第一层的输入(由Input_path表示)的线性组合。路径的激活或不激活的确定将在下文详细讨论。

如以上原理部分讨论的，学习网络180的任何路径可以用基础路径来确定。基础路径中的处理可以被认为是线性无关的。更具体地，对于给定的学习网络，如果多个路径在其状态(激活或不激活)保持不变的情况下具有线性无关的特点，那么这些路径可以被认为是该学习网络的基础路径。由于可以从学习网络的全部路径中提取出这样的基础路径，可以有利地利用路径值的线性组合方式来表达在训练过程中使用的损失函数，降低了冗余性。

在一个具体示例中，假设采用学习网络训练中常见的交叉熵损失函数来表示学习网络180的优化目标。在图1所示的学习网络180的示例中，对于训练数据中的输入数据和输出数据/>学习网络180的交叉熵损失函数可以表示为：

其中是Softmax运算。层1的节点数目与输入的个数相同(即d)。在该示例中，假设层2中的节点数目为S，用于调节从层1传递给层2的输入的所有参数W是d×S的矩阵，并且层2的全部节点的通过ReLU激活函数进行的处理被表示为σ(W^Tx)＝[σ₁，···，σ_S]^T。假设层3中的节点数目为M，用于调节从层2传递给层3的输入的所有参数V是S×M的矩阵，并且层3的输出表示为/>。可以看出，公式(16)的交叉熵损失损失函数与层3的输出相关。

层3的第m个输出O_m可以被表示为：

其中如果激活函数σ_s处于激活状态(即起作用)，则a_s＝1，如果激活函数处于不激活状态(即不起作用)，则a_s＝0。假设表示一条路径，那么输出O_m可以在路径空间中表示：

公式(18)指示学习网络180的多个层中最后一层的输出可以在路径空间中表示。如以上在原理讨论部分所讨论的，在学习网络的每个输入在多个层之间可能经过的所有路径中，只有一些路径中的处理是彼此线性无关的。这些路径可以称为基础路径。基础路径可以理解为学习网络在路径级别上的等价类。以下详细描述基础路径的确定。

如以上在原理讨论部分提及的，在学习网络的线性映射中的矩阵A的秩可以被计算为rank(A)＝(dh₁+h₁h₂+···+h_L-1h_L+h_Ld₁-h₁-···-h_L，这意味着学习网络线性无关的基础路径的数目为学习网络的全部参数个数(即dh₁+h₁h₂+···+h_L-1h_L+h_Ld₁)与节点数目(h₁+……+h_L)之差。可以采用一些方法确定线性无关的基础路径。

如以上提及的，每个基础路径包括多个层中的每一个层上的单个节点。由于多个层是全连层，在每个基础路径中的每个节点会从前一层的节点获得输入，并且该输入会经由与该节点相关联的参数调节。因此，在相邻层的节点之间的连接可以被认为是基础路径的路径分段。如果在一个基础路径中，给定节点从基础路径中所包括的前一层的节点获得输入，则前一层的节点也被称为该给定节点的上游节点。

在一些实现中，计算设备100确定贯穿学习网络180的多个层的第一组基础路径，使得第一组基础路径包括多个层上的所有节点。第一组基础路径用作框架路径，以便于后续基础路径的选择。在一些实现中，第一组基础路径可以包括将多个层的所有节点包括在内的最小数目的路径。可以有许多方法从学习网络180中确定出第一组基础路径。例如，可以随机地选取多个层中的每一层的一个节点，以用这些节点组成第一组中的一个基础路径，在多个层上的所有节点均被选择后，停止基础路径的确定。第一组中的每一个基础路径所包括的节点不完全相同。

除了随机选取之外，还可以用确定性的方法来确定第一组基础路径。例如，对于学习网络180的多个层(例如L个层)中的第l个层(l∈[L])，选择l层中第j个节点，并且针对l层中第j个节点，选择第l+1层中的第j个节点，一直类似地在第L层中选择一个节点。如果对于多个层中的l层中的一些节点，在相应的第l+1层中不存在第j个节点，可以在第l+1层中随机选择一个节点。从多个层中的第一层的每个节点起，在多个层中选择的节点构成第一组基础路径。这种选择方式可以确定出最少数目的基础路径作为第一组，使得多个层中的所有节点中的任一节点被包括到第一组中的至少一个基础路径中。

图5示出了在图1的学习网络180中确定的基础路径的示意图。对于第一组基础路径，可以首先选择层1的第一节点(例如从左往右排列的第一个节点)，并且然后选择层2的第一节点，进而选择层3的第一节点。所选择的这些节点组成第一组基础路径中的一个基础路径510。

还可以以与基础路径510类似的方式选择第一组基础路径中的基础路径512、514和516。对于层1中的一个节点(例如与输入x_d对应的第x_d个节点)，由于层1的节点数大于层2的节点数，在层2中不存在第x_d个节点，则随机选择层2中的一个节点。类似地，也可以随机选择层3的一个节点。这些节点构成以层1的第x_d个节点为起始的基础路径518。该基础路径518也被包括在第一组基础路径中。第一组基础路径将包括学习网络180的层1至层3中的所有节点。

以第一组基础路径为框架，还可以由计算设备100继续确定第二组基础路径。第二组基础路径被确定为使得第二组中的任一给定基础路径仅包括一个差异节点，在给定基础路径中与差异节点相关联的参数不同于在第一组中包括差异节点的任一基础路径中与差异节点相关联的参数。由于在第一组或第二组中的任一基础路径中，与一个节点相关联的参数用于调节从该节点的上游节点获得的输入，那么可以看出：对于第二组基础路径中的任一给定基础路径，它的差异节点在该给定基础路径中的上游节点不同于在第一组中包括该差异节点的任一基础路径中该差异节点的上游节点。这将使得在第二组中的给定基础路径中仅一个路径分段不同于第一组中包括该差异节点的任一基础路径的路径分段。

如图5所示，在学习网络180中，确定第一组基础路径510、512、514、516和518之后，可以确定第二组中的一个基础路径520，该基础路径520仅包括一个差异节点502，在基础路径520中与该差异节点502相关联的参数与第一组中的基础路径512中与该差异节点502相关联的参数不同，这是因为在均包括差异节点502的基础路径512和520中，差异节点502从不同的上游节点获得不同的输入，因为用于调节不同输入的参数也被认为是不同的。可以类似确定第二组中的其他基础路径。

继续参考图4，在420，计算设备100对于多个基础路径中的每一个基础路径，更新与该基础路径中的节点相关联的参数的组合值。在本公开的实现中，以与每个基础路径中的节点相关联的参数的组合值为基础执行更新。与每个基础路径中的节点相关联的参数的组合值可以包括这些参数的当前值的乘积。可以利用学习网络180的训练数据170来执行更新。可以采用各种已有的训练方法来执行对参数的组合值的更新。

在更新过程中，可以基于学习网络180的优化目标，利用训练数据来更新与每个基础路径中的节点相关联的参数的组合值，以逐渐逼近优化目标。优化目标在一个示例中可以由损失函数表示。为了以与每个基础路径中的节点相关联的参数的组合值为基础执行更新，损失函数可以被表示为与基础路径的表示相关联的函数，例如Loss(BasePath)，如以上提及的，基础路径的空间等于学习网络的等价类空间。

为了对与每个基础路径中的节点相关联的参数的组合值进行更新，在采用随机梯度下降方法的示例训练中，可以确定损失函数相对于每个基础路径的最大变化趋势(也称为梯度)，表示为然后基于与该梯度相关的更新幅度和与该基础路径中的节点相关联的参数的先前组合值，确定与该基础路径中的节点相关联的参数的更新后的组合值。与每个基础路径中的节点相关联的参数可以初始被随机设置为初始值或者经过其他预训练过程而获得的值。

在以上提及的基于交叉熵损失函数作为学习网络180的优化目标的具体示例中，假设m_s＝s_modM，j_s＝smodd并且该学习网络的基础路径被确定为：

对于学习网络180的任何路径均可以由基础路径来确定：

由此可以将学习网络180的层3的输出O_m(m∈[M])可以在路径空间中表示从公式(18)修改为：

因此，学习网络180的交叉熵损失函数可以由公式(16)的l(W，V，U；x，y)表示为l(^P，U；x，y)其中P指示学习网络180的等价类空间。

在一些示例中，在更新与每个基础路径中的节点相关联的参数的组合值时，可以采用链式法则来确定损失函数相对于每个基础路径的梯度，即例如，基于链式法则，/>可以被确定为：

其中表示损失函数相对于学习网络180的相应输出的偏导之和，/>表示每个输出相对于每个路径的偏导之和，而/>表示每个路径相对于基础路径的偏导。

也可以根据链式法则，通过其他偏导方式来计算损失函数相对于每个基础路径的梯度。在以上交叉熵损失函数的具体示例中，可以

确定损失函数l(P，U；x，y)相对于每个基础路径的偏导，并且通过链式法则来确定。例如，对于学习网络180的基础路径和/>损失函数l(P，U；x，y)相对于每个基础路径的偏导可以被表示为：

与每个基础路径中的节点相关联的参数的组合值的更新规则可以被表示为：

其中(p)^t指示基础路径p中的节点相关联的参数的当前组合值，(p)^t+1指示基础路径p的节点相关联的参数的更新后的组合值，η可以被设置为一个固定值，表示组合值的学习速率。

以上讨论了确定损失函数相对于每个基础路径的偏导来更新与每个基础路径中的节点相关联的参数的组合值。在基于公式(22)确定偏导的示例中，由于要针对学习网络的全部路径计算偏导，这会带来较大的计算量。在本公开的其他示例中，为了进一步降低更新参数的组合值的计算效率，还可以通过更新每个基础路径中的某些节点相关联的参数来更新整个基础路径对应的组合值。

具体地，根据链式法则，损失函数相对于给定参数的偏导可以与损失函数相对于基础路径的偏导以及基础路径相对于该参数的偏导相关，这可以被表示为Loss->BasePath->Weight。由于损失函数相对于参数的偏导可以通过后向传播(BP)确定，而基础路径相对于参数的偏导的计算量较低，因此可以由损失函数相对于参数的偏导确定参数的更新幅度，并且进一步确定整个基础路径对应的组合值。

在该更新中，期望均匀地选择每个基础路径中要被用于更新参考的参数。具体地，对于以上确定的第一组基础路径中的每一个，可以基于学习网络180的优化目标，确定与该基础路径中的任意节点相关联的参数的更新幅度。与任意节点相关联的参数的更新幅度可以通过计算优化目标(即损失函数)相对于该参数的偏导来确定。更新幅度可以等于偏导的结果或者偏导的结果。对于以上确定的第二组基础路径中的每一个，可以基于学习网络180的优化目标，确定与该基础路径中的差异节点相关联的参数的更新幅度。进一步地，对于每个基础路径，可以基于所确定的参数的更新幅度，更新与该基础路径中的节点相关联的参数的组合值。

为了理解基于参数对组合值的更新，在一个具体示例中描述与该基础路径中的节点相关联的参数的组合值的更新。假设在第二组基础路径中的给定基础路径p1中，与差异节点相关联的参数表示为u1，则可以损失函数相对于该参数u1的偏导可以被表示为：

其中i的取值范围从1到学习网络180的基础路径的数目。由于偏导可以通过后向传播确定，并且也可以确定/>根据公式(28)，可以确定损失函数相对于基础路径p1的偏导/>该偏导可以用于更新与基础路径p1中的节点相关联的参数的组合值。对于第二组基础路径中的其他基础路径，也可以类似地确定损失函数相对于与该基础路径中的差异节点相关联的参数的偏导，并进而更新与该基础路径中的节点相关联的参数的组合值。

假设在第一组基础路径中基础路径p2中，选择与该基础路中的任意节点相关联的参数w₁，则可以损失函数相对于该参数w₁的偏导可以被表示为：

其中偏导可以通过后向传播确定，基础路径p₃和p₄可以是第二组基础路径中的任何基础路径，或者是第二组基础路径中涉及参数w1的基础路径。/>和/>可以通过公式(28)来确定。偏导/>和/>可以被相应计算。

通过公式(29)，可以确定损失函数相对于基础路径p2的偏导该偏导可以用于更新与基础路径p2中的节点相关联的参数的组合值。对于第一组基础路径中的其他基础路径，也可以类似地确定损失函数相对于与该基础路径中的差异节点相关联的参数的偏导，并进而更新与该基础路径中的节点相关联的参数的组合值。

在一些实现中，可以确定基础路径的状态为激活状态或非激活状态，并且仅更新处于激活状态的基础路径。在一些示例中，对于给定基础路径，确定该基础路径所包括的节点是否均处于激活状态(即其中的激活参数将用于处理节点的输入)。如果该基础路径所包括的所有节点都处于激活状态，则确定该基础路径处于激活状态。如果该基础路径所包括的一个或多个节点处于非激活状态，则该基础路径处于非激活状态。

每个节点的激活或非激活状态与该节点相关联的全部参数有关，并且还与该节点从前一层接收到的全部输入相关。通过相关联的参数的更新进行前传，可以确定节点的激活或非激活状态。如果该节点的输入经过更新后的参数调节的结果(即输入的加权和)大于零，则该节点处于激活状态。否则，确定该节点处于非激活状态。参数的更新会在下文描述。

继续参考图4，在430，计算设备100基于更新后的参数的组合值，更新在多个基础路径中与多个层上的节点相关联的参数的值。每个节点在多个基础路径中相关联的参数的值相当于用于调节该节点从前一层的全部节点接收的输入的参数。在本公开的实现中，基于学习网络的优化目标来优化与基础路径中的节点相关联的参数的组合值，而不是单独优化每个参数。每个参数的更新或确定是通过对基础路径确定参数的组合值来执行，这可以降低计算量。

为了确定学习网络180的每个节点相关联的参数，可以在更新后的参数的组合值的基础上，随机或以其他预定方式增加或减小每个基础路径中的一个或多个节点的相关联的参数的当前值，以获得参数的更新值。例如，对于给定基础路径，可以从该基础路径中以随机或其他预定方式选择一个或多个节点，并且更新与这些节点相关联的参数。可以按比例线性或非线性更新每个参数的值，并且参数的更新幅度可以与相应基础路径的组合值的更新幅度相关、或者是固定值。在一些实现中，仅更新与处于激活状态的节点相关联的参数的值。

以下给出一个参数更新的具体示例，该示例仍然基于以上提及的学习网络180的交叉熵损失函数示例。在该示例中，可以按比例更新各个参数。假设学习网络180的参数v_m，s的更新值与当前值的比例被表示为/>并且参数w_s，j的更新值与当前值的比例被表示为/>如果给定节点σ₁处于激活状态，可以确定/>和/>(其中s＝1)的如下多个线性等式(在这个示例中，是M+d-1个)：

由于仅存在(M+d-1)个等式，但其中一共有(M+d)个未知的比例，在一些实现中，可以随机选择一个比例(例如，比例)并将该比例/>设置为等于1。通过以上等式以及/>可以确定其他比例。当确定出各个比例/>和/>(其中s＝1)，可以更新该节点σ₁相关联的参数w_s,j，获得更新值/>此外，还可以更新该节点σ₁连接到的下一层的节点的参数(也是σ₁的输出参数)参数v_m,s，获得更新值/>由于/>被设置为1，则相应的参数不被更新。在一些示例中，在求解上述等式(30)时，还可以将更多比例设置为1，从而使得对应的参数不被更新。对于学习网络的其他节点，也可以类似地执行参数更新。

在一些实现中，参数的组合值的仅一次更新可能无法达到学习网络180的优化目标，因此可以在迭代过程中不断更新与每个基础路径中的节点相关联的参数的组合值，并进而更新与节点相关联的参数的值。这个迭代过程的收敛时间在学习网络180的优化目标被达到(例如，损失函数被最小化)时。以下参照图6来描述这样的迭代过程600。该过程600可以被理解为过程400中的430处的参数更新的具体实现。

在610，将与多个基础路径的参数的当前组合值(例如，经过第一次更新后的组合值)确定为多个基础路径的参考值。在620，基于多个基础路径的参考值，更新与多个基础路径中的节点相关联的参数中的至少一个参数。参数的更新与以上讨论的更新类似。一个参数的选择可以是随机选择或者按预定方式选择(例如，每次迭代选择不同的参数)。更新的幅度可以取决于参考值的更新幅度或者被设置为固定值。

在630，基于更新后的至少一个参数，确定多个基础路径的状态。基础路径的状态包括激活状态或非激活状态。如以上提及的，每个基础路径的状态取决于该基础路径中的节点的相应状态。每个节点的状态由该节点相关联的参数的更新的前向传播来确定。

如果存在至少一个基础路径的状态为激活状态，在640，更新与至少一个基础路径中的节点相关联的参数的组合值，以获得另一组合值。在640处对组合值的更新可以采用在过程400的420处对组合值的更新的类似方法。在650，基于更新后获得的另一组合值，确定是否满足收敛条件。如果由基础路径表示的损失函数的值被减低到预定阈值或者达到最小值，可以确定收敛条件被满足；否则，确定收敛条件未被满足。

如果收敛条件未被满足，需要继续更新组合值以及参数的值，因此在660，响应于收敛条件未被满足，将另一组合值设置为至少一个基础路径的参考值。过程600然后返回到620以继续执行。如果收敛条件满足，在670，确定在多个基础路径中与多个层上的节点相关联的参数的值。由于在收敛条件已经被满足并且在过程600中多个层上的一个或多个节点相关联的参数已经被更新一次或若干次，在670可以直接确定多个层上的节点相关联的参数的当前值。在另外一些实现中，在670处确定还可以基于在收敛条件被满足时获得的另一组合值，再次更新一些节点的参数，以获得这些节点的参数。

过程600结束后，学习网络180的多个节点在多个基础路径中相关联的参数的值可以被确定，从而获得学习网络180的参数的优化值。每个参数的值可以在过程600中被更新一次或若干次，也可以保持初始值，这并不影响学习网络180的输出(基于学习网络180的不变性)。

在一些实现中，在过程600中，660中的更新还可以被省略，而是直接输出在过程600之后每个参数的当前值以作为学习网络180的参数的优化值。

通过本公开的优化过程后，学习网络180可以由计算设备100或其他计算设备使用，以处理任何给定的输入并且给出相应的输出。在处理过程中，学习网络180的参数的优化值被用于调节从在学习网络180的相邻层之间传递的输入。

示例实现方式

以下列出了本公开的一些示例实现方式。

在一方面，本公开提供了一种由计算机实现的方法。该方法包括：确定贯穿学习网络的多个层的多个基础路径，多个层上的每个节点利用具有缩放不变属性的激活函数对来自前一层的节点的输入进行处理，每个基础路径包括多个层中的每一层上的单个节点，并且多个基础路径中的处理彼此线性无关；对于多个基础路径中的每一个基础路径，更新与该基础路径中的节点相关联的参数的组合值，在每个基础路径中，与一个节点相关联的参数被用以调节该节点从前一层的节点获得的输入；以及基于更新后的参数的组合值，更新在多个基础路径中与多个层上的节点相关联的参数的值。

在一些实现中，确定多个基础路径包括：确定贯穿学习网络的多个层的第一组基础路径，使得第一组基础路径包括多个层上的所有节点；以及确定贯穿学习网络的多个层的第二组基础路径，使得第二组中的任一给定基础路径仅包括一个差异节点，在给定基础路径中与差异节点相关联的参数不同于在第一组中包括差异节点的任一基础路径中与差异节点相关联的参数。

在一些实现中，更新参数的组合值包括：对于第一组中的每一个基础路径，基于学习网络的优化目标，确定与该基础路径中的任意节点相关联的参数的更新幅度；以及基于参数的更新幅度，更新与该基础路径中的节点相关联的参数的组合值。

在一些实现中，更新参数的组合值包括：对于第二组中的每一个基础路径，基于学习网络的优化目标，确定与该基础路径中的差异节点相关联的参数的更新幅度；以及基于该参数的更新幅度，更新与该基础路径中的节点相关联的参数的组合值。

在一些实现中，第一组基础路径包括将多个层的所有节点包括在内的最小数目的路径。

在一些实现中，更新参数的值包括：将更新后的参数的组合值设置为多个基础路径的参考值；迭代地执行以下至少一次：基于多个基础路径的参考值，更新与多个基础路径中的节点相关联的参数中的至少一个参数，基于更新后的至少一个参数，确定多个基础路径的状态，状态包括激活状态或非激活状态，响应于确定多个基础路径中的至少一个基础路径的状态为激活状态，更新与至少一个基础路径中的节点相关联的参数的组合值，以获得另一组合值，基于另一组合值来确定是否满足收敛条件，以及响应于收敛条件未被满足，将另一组合值设置为至少一个基础路径的参考值；以及响应于收敛条件被满足，确定在多个基础路径中与多个层上的节点相关联的参数的值。

在一些实现中，与每一个基础路径中的节点相关联的参数的组合值包括相关联的参数的值的乘积。

在一些实现中，激活函数包括以下之一：ReLU函数或分段线性函数。

在一些实现中，多个层包括多个全连层。

在另一方面，本公开提供了一种设备。该设备包括：处理单元；以及存储器，耦合至处理单元并且包含存储于其上的指令，指令在由处理单元执行时使设备执行动作，动作包括：确定贯穿学习网络的多个层的多个基础路径，多个层上的每个节点利用具有缩放不变属性的激活函数对来自前一层的节点的输入进行处理，每个基础路径包括多个层中的每一层上的单个节点，并且多个基础路径中的处理彼此线性无关；对于多个基础路径中的每一个基础路径，更新与该基础路径中的节点相关联的参数的组合值，在每个基础路径中，与一个节点相关联的参数被用以调节该节点从前一层的节点获得的输入；以及基于更新后的参数的组合值，更新在多个基础路径中与多个层上的节点相关联的参数的值。

在一些实现中，多个层包括多个全连层。

在又一方面，提供了一种计算机程序产品。计算机程序产品被存储在计算机存储介质中并且包括机器可执行指令，机器可执行指令在由设备执行时使设备：确定贯穿学习网络的多个层的多个基础路径，多个层上的每个节点利用具有缩放不变属性的激活函数对来自前一层的节点的输入进行处理，每个基础路径包括多个层中的每一层上的单个节点，并且多个基础路径中的处理彼此线性无关；对于多个基础路径中的每一个基础路径，更新与该基础路径中的节点相关联的参数的组合值，在每个基础路径中，与一个节点相关联的参数被用以调节该节点从前一层的节点获得的输入；以及基于更新后的参数的组合值，更新在多个基础路径中与多个层上的节点相关联的参数的值。

在一些实现中，机器可执行指令在由设备执行时还使设备：确定贯穿学习网络的多个层的第一组基础路径，使得第一组基础路径包括多个层上的所有节点；以及确定贯穿学习网络的多个层的第二组基础路径，使得第二组中的任一给定基础路径仅包括一个差异节点，在给定基础路径中与差异节点相关联的参数不同于在第一组中包括差异节点的任一基础路径中与差异节点相关联的参数。

在一些实现中，机器可执行指令在由设备执行时还使设备：对于第一组中的每一个基础路径，基于学习网络的优化目标，确定与该基础路径中的任意节点相关联的参数的更新幅度；以及基于参数的更新幅度，更新与该基础路径中的节点相关联的参数的组合值。

在一些实现中，机器可执行指令在由设备执行时还使设备：对于第二组中的每一个基础路径，基于学习网络的优化目标，确定与该基础路径中的差异节点相关联的参数的更新幅度；以及基于该参数的更新幅度，更新与该基础路径中的节点相关联的参数的组合值。

在一些实现中，机器可执行指令在由设备执行时还使设备：将更新后的参数的组合值设置为多个基础路径的参考值；迭代地执行以下至少一次：基于多个基础路径的参考值，更新与多个基础路径中的节点相关联的参数中的至少一个参数，基于更新后的至少一个参数，确定多个基础路径的状态，状态包括激活状态或非激活状态，响应于确定多个基础路径中的至少一个基础路径的状态为激活状态，更新与至少一个基础路径中的节点相关联的参数的组合值，以获得另一组合值，基于另一组合值来确定是否满足收敛条件，以及响应于收敛条件未被满足，将另一组合值设置为至少一个基础路径的参考值；以及响应于收敛条件被满足，确定在多个基础路径中与多个层上的节点相关联的参数的值。

在一些实现中，多个层包括多个全连层。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种用于执行数据处理任务的方法，包括：

由计算设备确定与学习网络相关联的参数；

将所述学习网络存储在所述计算设备的存储器中；以及

由存储的所述学习网络执行所述数据处理任务，所述数据处理任务包括以下一项：物体分类任务、机器翻译任务、语音识别任务，

其中与所述学习网络相关联的所述参数通过以下操作来被确定：

确定贯穿所述学习网络的多个层的多个基础路径，所述多个层上的每个节点利用具有缩放不变属性的激活函数对来自前一层的节点的输入进行处理，每个基础路径包括所述多个层中的每一层上的单个节点，并且所述多个基础路径中的输入处理彼此线性无关；

对于所述多个基础路径中的每一个基础路径，确定与该基础路径中的节点相关联的相应参数的组合值，结果是针对所述多个基础路径的所述参数的多个组合值，在每个基础路径中，与所述节点中的一个节点相关联的参数被用以调节该节点从前一层的节点获得的所述输入；以及

针对所述多个基础路径，基于所述多个组合值，更新与所述多个基础路径中的节点相关联的所述参数的值。

2.根据权利要求1所述的方法，其中确定所述多个基础路径包括：

确定贯穿所述学习网络的所述多个层的第一组基础路径，使得所述第一组基础路径包括所述多个层上的所有节点；以及

确定贯穿所述学习网络的所述多个层的第二组基础路径，使得所述第二组中的任一给定基础路径仅包括一个差异节点，在所述给定基础路径中与所述差异节点相关联的参数不同于在所述第一组中包括所述差异节点的任一基础路径中与所述差异节点相关联的参数。

3.根据权利要求2所述的方法，其中更新所述参数的所述多个组合值包括：对于所述第一组中的每一个基础路径，

基于所述学习网络的优化目标，确定与该基础路径中的任意节点相关联的参数的更新幅度；以及

基于所述参数的更新幅度，更新与该基础路径中的所述节点相关联的所述参数的组合值。

4.根据权利要求2所述的方法，其中更新所述参数的所述多个组合值包括：对于所述第二组中的每一个基础路径，

基于所述学习网络的优化目标，确定与该基础路径中的所述差异节点相关联的所述参数的更新幅度；以及

基于该参数的更新幅度，更新与该基础路径中的所述节点相关联的所述参数的组合值。

5.根据权利要求2所述的方法，其中所述第一组基础路径包括将所述多个层的所有节点包括在内的最小数目的路径。

6.根据权利要求1所述的方法，其中更新所述参数的值包括：

将更新后的所述参数的所述多个组合值设置为所述多个基础路径的参考值；

迭代地执行以下至少一次：

基于所述多个基础路径的所述参考值，更新与所述多个基础路径中的所述节点相关联的参数中的至少一个参数，

基于更新后的所述至少一个参数，确定所述多个基础路径的状态，所述状态包括激活状态或非激活状态，

响应于确定所述多个基础路径中的至少一个基础路径的状态为所述激活状态，更新与所述至少一个基础路径中的所述节点相关联的参数的所述组合值，以获得另一组合值，

基于所述另一组合值来确定是否满足收敛条件，以及

响应于所述收敛条件未被满足，将所述另一组合值设置为所述至少一个基础路径的所述参考值；以及

响应于所述收敛条件被满足，确定在所述多个基础路径中与所述多个层上的所述节点相关联的所述参数的值。

7.根据权利要求1所述的方法，其中与每一个基础路径中的节点相关联的参数的组合值包括相关联的所述参数的值的乘积。

8.根据权利要求1所述的方法，其中所述激活函数包括以下之一：修正线性单元ReLU函数或分段线性函数。

9.根据权利要求1所述的方法，其中所述多个层包括多个全连层。

10.一种计算设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行动作，所述动作包括：

获取学习网络，所述学习网络的参数被预先确定；以及

通过使用所述学习网络执行数据处理任务，所述数据处理认为包括以下一项：物体分类任务、机器翻译任务、语音识别任务，

其中所述学习网络的所述参数通过以下操作来被预先确定：

对于所述多个基础路径中的每一个基础路径，确定与该基础路径中的节点相关联的参数的组合值，结果是针对所述多个基础路径的所述参数的多个组合值，在每个基础路径中，与所述节点中的一个节点相关联的相应参数中的参数被用以调节该节点从前一层的节点获得的所述输入；以及

针对所述多个基础路径，基于所述多个组合值，更新与所述多个基础路径中的所述节点相关联的所述参数的值。

11.根据权利要求10所述的计算设备，其中确定所述多个基础路径包括：

12.根据权利要求11所述的计算设备，其中更新所述参数的所述多个组合值包括：对于所述第一组中的每一个基础路径，

13.根据权利要求11所述的计算设备，其中更新所述参数的所述多个组合值包括：对于所述第二组中的每一个基础路径，

14.根据权利要求11所述的计算设备，其中所述第一组基础路径包括将所述多个层的所有节点包括在内的最小数目的路径。

15.根据权利要求10所述的计算设备，其中更新所述参数的值包括：

迭代地执行以下至少一次：

基于所述另一组合值来确定是否满足收敛条件，以及

响应于所述收敛条件被满足，确定在所述多个基础路径中与所述多个层上的节点相关联的所述参数的值。

16.根据权利要求10所述的计算设备，其中与每一个基础路径中的节点相关联的参数的组合值包括相关联的所述参数的值的乘积。

17.根据权利要求10所述的计算设备，其中所述激活函数包括以下之一：修正线性单元ReLU函数或分段线性函数。

18.根据权利要求10所述的计算设备，其中所述多个层包括多个全连层。

19.一种计算机存储介质，存储有机器可执行指令，所述机器可执行指令在由设备执行时使所述设备：

确定与学习网络相关联的参数；

存储所述学习网络；以及

由存储的所述学习网络执行数据处理任务，所述数据处理任务包括以下一项：物体分类任务、机器翻译任务、语音识别任务，

20.根据权利要求19所述的计算机存储介质，其中与所述学习网络相关联的参数进一步通过以下操作被确定：