CN111868752A

CN111868752A - 神经网络层权重的连续参数化

Info

Publication number: CN111868752A
Application number: CN201980020210.8A
Authority: CN
Inventors: 沙赫拉姆·伊扎迪; 塞姆·克斯金
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-07-23
Filing date: 2019-07-23
Publication date: 2020-10-30
Anticipated expiration: 2039-07-23
Also published as: EP3619654A1; WO2020023483A1; US20210365777A1; CN111868752B

Abstract

用于更有效且准确地生成神经网络输出的方法、系统和设备，例如，用于对图像或音频数据进行分类。在一个方面，一种方法包括使用包括多个神经网络层的神经网络来处理网络输入以生成网络输出。所述神经网络层中的一个或多个是条件神经网络层。使用条件神经网络层来处理层输入以生成层输出包括获得所述条件神经网络层的一个或多个决策参数的值。所述神经网络处理所述层输入和所述条件神经网络层的所述决策参数，以从连续的可能潜在参数值的集合来确定所述条件神经网络层的一个或多个潜在参数的值。所述潜在参数的值指定条件层权重的值。

Description

神经网络层权重的连续参数化

背景技术

本说明书涉及使用机器学习模型处理数据。

机器学习模型接收输入，并且基于接收的输入生成输出，例如预测输出。一些机器学习模型是参数模型，并且基于接收的输入和模型的参数值生成输出。

一些机器学习模型是深层模型，其采用多层模型来生成针对接收的输入的输出。例如，深层神经网络是深层机器学习模型，其包括输出层和一个或多个隐藏层，每一隐藏层对接收的输入应用非线性变换以生成输出。

发明内容

本说明书描述一种包括一个或多个条件神经网络层的神经网络系统，所述系统被实现为在一个或多个位置的一个或多个计算机上的计算机程序。

根据第一方面，提供一种由数据处理设备实现的方法。所述方法包括使用包括多个神经网络层的神经网络来处理网络输入以生成网络输出。每一神经网络层被配置成根据多个层权重的相应值来处理相应的层输入以生成相应的层输出。所述神经网络层中的一个或多个是条件神经网络层。

使用条件神经网络层来处理层输入以生成层输出包括获得所述条件神经网络层的一个或多个决策参数的值。所述神经网络处理所述层输入和所述条件神经网络层的所述决策参数，以从可能潜在参数值的连续集合来确定所述条件神经网络层的一个或多个潜在参数的值。所述潜在参数的值指定条件层权重的值。神经网络从所述潜在参数的值来确定条件层权重的值，并根据所述条件层权重的值来处理层输入以生成层输出。

在一些实施方式中，处理层输入和所述条件神经网络层的决策参数以从连续的可能潜在参数值的集合来确定所述条件神经网络层的所述潜在参数的值包括应用可微映射，所述可微映射是所述层输入和决策参数到所述条件神经网络的所述潜在参数的值的映射。

在一些实施方式中，应用所述可微映射包括确定所述层输入和所述条件神经网络层的所述决策参数之间的内积，并且通过sigmoid函数来处理所述内积。

在一些情况下，神经网络将条件神经网络层的潜在参数的值确定为可微映射的输出，例如sigmoid函数的输出。

在一些情况下，神经网络从可微映射的输出(例如，sigmoid函数的输出)以及神经网络中前一条件神经网络层的潜在参数的值来确定所述条件神经网络层的潜在参数的值。前一条件神经网络层是在神经网络的神经网络层的排序中在所述条件神经网络层之前的条件神经网络层。在此情况下，潜在参数的值可以被确定为可微映射的输出和前一条件神经网络层的潜在参数的值的(加权)线性组合。前一条件神经网络层可以直接在所述条件神经网络层之前，并且可以提供层输入。

在一些实施方式中，所述连续的可能潜在参数值的集合是0和1之间的区间。

在一些实施方式中，条件神经网络层的潜在参数将条件层权重参数化(例如，作为由在训练期间确定的多个节点定义的B样条)。神经网络可以根据所述潜在参数对所述条件层权重的所述参数化，从所述潜在参数的所述值确定所述条件层权重的值。

在一些实施方式中，条件神经网络层的潜在参数将所述条件层权重参数化为B样条，或者参数化为被定义为多个B样条总和的超曲面。潜在参数可以定义沿B样条的位置或超曲面上的位置。

在一些实施方式中，每一B样条由多个节点定义，并且定义所述B样条的节点的值是在训练期间确定的。

在一些实施方式中，条件层权重包括多个卷积滤波器的权重。在这些实施方式中的一些中，条件神经网络层的潜在参数将条件神经网络层的多个嵌套潜在参数参数化，并且条件神经网络层的每一嵌套潜在参数将对应卷积滤波器的权重参数化。神经网络可以根据所述潜在参数对所述嵌套潜在参数的参数化，从所述潜在参数的值确定所述嵌套潜在参数的值。随后，对于每一卷积滤波器，神经网络可以根据对应嵌套潜在变量对所述卷积滤波器的权重的参数化，从对应于所述卷积滤波器的所述嵌套潜在变量的值确定所述卷积滤波器的权重的值。

在一些实施方式中，所述条件神经网络层的潜在参数的数目小于所述条件层权重的维度。

在一些实施方式中，在训练所述神经网络时确定所述条件神经网络层的决策参数的值。在一些其他实施方式中，神经网络根据前一条件神经网络层的一个或多个潜在参数的值来确定所述条件神经网络层的决策参数的值。例如，前一条件神经网络层的潜在参数可以将所述条件神经网络层的决策参数参数化(例如，作为由在训练期间确定的多个节点定义的B样条)。在此示例中，神经网络可以根据所述参数化从前一条件神经网络层的潜在参数的值来确定所述条件神经网络层的决策参数的值。在一些实施方式中，所述前一条件神经网络层的潜在参数将所述条件神经网络层的决策参数参数化为B样条，或者参数化为被定义为多个B样条总和的超曲面。每一B样条可以由多个节点定义，并且定义所述B样条的所述节点的值可以在训练期间确定。

在一些实施方式中，所述神经网络基于包含多个训练示例的训练数据的集合来训练，以共同优化：(i)所述神经网络的准确率，以及(ii)所述条件神经网络层的潜在参数的值和所述训练数据中包括的所述训练示例的标签之间的互信息的度量。可以使用软量化函数来确定互信息的度量。

在一些实施方式中，所述网络输入包含图像或音频信号，且所述网络输出包含表征所述图像或音频信号的数据。

在一些实施方式中，提供一种训练如本文所描述的系统的方法，其中所述方法包含为每一条件神经网络层确定连续函数，用于将条件神经网络层的一个或多个潜在参数映射到条件层权重。

在一些实施方式中，所述网络输入包含图像，并且所述网络输出将所述图像的分类表征为预定的类别集合(即，网络被配置成执行图像分类任务)。所述类别可以对应于例如所述图像中描绘的对象的类别(例如，人、船、车辆等)。

在一些实施方式中，所述网络输入包含图像，并且所述网络输出表征针对所述图像内容的自然语言字幕(即，网络被配置成执行图像字幕任务)。

在一些实施方式中，所述网络输入包含音频信号，且所述网络输出表征所述音频信号中说出的单词(即，网络被配置成执行语音识别任务)。

根据一方面，提供一种存储指令的一个或多个非暂时性计算机存储介质，所示指令在由一个或多个计算机执行时使得所述一个或多个计算机执行上述方法中的任一个的操作。

根据一方面，提供一种包括一个或多个计算机和一个或多个存储指令的存储装置的系统，所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机执行上述方法中的任一个的操作。

可以实现本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。

通过包括如本说明书中所述的一个或多个条件神经网络层，神经网络可以生成准确率与一些常规神经网络相当(或比其更高)的网络输出，同时消耗较少的计算资源(例如，存储器和计算能力)。例如，神经网络可以动态地确定用于处理条件层输入的条件层权重的值，不同于一些常规神经网络层，在常规神经网络层中，层权重的值在推理期间是固定的。这可以使条件神经网络层有效地增加神经网络的模型复杂度，以实现更高的准确率，同时在一些情况下，最低限度地影响神经网络的计算资源消耗。

此外，本说明书中描述的条件神经网络层可以从无限的可能的条件层权重的集合中动态地确定用于处理条件层输入的条件层权重的值。相比来说，对于一些常规神经网络层，即使当层权重的值可以从层输入动态确定时，它们也只能从有限的可能的层权重的集合中选择。与这些常规神经网络层相比，本说明书中描述的条件神经网络层允许模型复杂度的更大增加，同时在一些情况下，最低限度地影响神经网络的计算资源消耗。

本说明书中描述的由条件神经网络层执行的从条件层输入动态确定条件层权重的操作是可微分的。因此，可以使用目标函数相对于神经网络参数的梯度端到端地训练神经网络。特别地，由条件层执行的操作的可微性可以能够使神经网络比使用不可微操作从有限的可能的层权重的集合中动态地选择层权重的一些常规神经网络层更有效地被训练。

在附图和以下描述中陈述本说明书中的主题的一个或多个实施例的细节。从具体实施方式、附图和权利要求中，主题的其他特征、方面和优点将变得显而易见。

附图说明

图1示出示例神经网络系统。

图2图示示例条件层的框图。

图3是示例B样条的图示。

图4是图示两个条件层的框图，其中神经网络基于前一条件层的潜在参数来确定后续条件层的决策参数。

图5图示用于训练神经网络的示例数据流。

图6是用于使用条件层来处理层输入以生成层输出的示例过程的流程图。

各图中的相似参考数字和名称指示相似的元素。

具体实施方式

本说明书描述了具有神经网络层的集合的神经网络，其中神经网络层中的一个或多个是“条件”神经网络层。

条件层被配置成接收层输入，并根据条件层权重的集合的值来处理层输入以生成层输出。条件层是“动态的”，也就是说，条件层基于层输入来动态地确定条件层权重的值。更具体地，为了确定条件层权重的值，条件层使用由“决策参数”的集合参数化的可微映射来将层输入投射到一个或多个“潜在参数”上。潜在参数例如通过一个或多个可微函数(例如，B样条)参数化条件层权重而共同指定条件层权重。基于层输入动态选择条件层权重可以增加条件层的表示容量，并使条件层能够生成更丰富的层输出。此外，条件层使用端到端可微过程来确定条件层权重，这有助于训练条件神经网络(例如，使用反向传播技术)来生成准确的预测输出。

在一些实施方式中，神经网络的条件层可以是“分级的”以及动态的，也就是说，对于一个或多个条件层，神经网络可以基于前一条件层的潜在参数来调节条件层的决策参数。分级可以进一步增加条件层的表示容量，从而使得条件层能够生成更丰富的层输出，这可以导致神经网络生成更准确的预测输出。

本文描述的方法和系统可以应用于分类(或以其他方式表征)图像和/或音频数据。因此，神经网络可以是例如用于语音识别的图像分类器或音频分类器。下文更详细地描述这些特征和其他特征。

图1示出示例神经网络系统100。神经网络系统100是在一个或多个位置的一个或多个计算机上实现为计算机程序的系统的示例，在所述计算机中实现了下文描述的系统、部件和技术。

神经网络系统100包括神经网络102，其可以是前馈神经网络、递归神经网络或任何其他适当类型的神经网络。神经网络102被配置成接收网络输入104，并从网络输入104生成网络输出106。网络输入104可以是任何种类的数字数据输入，且网络输出106可以是基于输入的任何种类的分数、分类或回归输出。

本文所描述的系统100是广泛适用的，并且并不限于一个特定的实施方式。然而，出于说明性目的，下文描述少量的示例实施方式。

在一个示例中，神经网络102的输入可以是图像或已从图像提取的特征。在此示例中，由神经网络102针对图像生成的输出可以是对象类别集合中的每一个的相应分数，每一类别的分数表示图像描绘属于所述类别的对象的估计可能性。

在另一示例中，神经网络102的输入可以是一种(自然)语言的文本序列，并且由神经网络102生成的输出可以是另一种语言的文本片段集合中的每一个的分数。另一种语言的每一文本片段的分数可以表示所述文本片段是输入文本到另一种语言的正确翻译的估计可能性。

在另一示例中，神经网络102的输入可以是表示口头话语的序列，并且由神经网络102生成的输出可以是文本片段集合中的每一个的相应分数。每一文本片段的分数可以表示所述文本片段是话语的正确转录的估计可能性。

在另一示例中，神经网络102的输入可以是用户的生理测量值的序列，并且由神经网络102生成的输出可以是针对用户状况的可能诊断集合中的每一个的相应分数。每一诊断的分数可以表示诊断准确的估计可能性。

在另一示例中，神经网络102的输入可以是来自从用户接收的通信的文本序列，并且由神经网络102生成的输出可以是对接收的通信的可能响应集合中的每一个的相应分数。每一响应的分数可以表示所述响应匹配用户意图的估计可能性。

神经网络102包括一个或多个条件神经网络层(例如，条件层108)，并且可以可选地包括一个或多个其他神经网络层(即，不同于本文档中所描述的条件层)。

如将参考图1进一步描述，条件层108被配置成接收层输入110，并且根据条件层权重的值来处理层输入110，以生成层输出112。通常，层输入110可以是网络输入104(即，如果条件层108是神经网络102中的输入层)或神经网络102的另一层(例如，另一条件层)的输出。层输入110和层输出112可以被表示为数值的有序集合，例如数值的向量或矩阵。

系统100可以比常规的神经网络系统更容易地在资源受限的环境(例如，移动装置)中实现。例如，通过包括条件层(例如，条件层108)，定义系统100的参数的数据可以比定义常规神经网络系统的参数的数据占用少的多的存储容量。

图2图示示例条件层200的框图。条件层200被配置成根据条件层权重204集合的值来处理层输入202，以生成层输出206。在一个示例中，条件层权重可以是完全连接的层权重(例如，由

中的点表示)，其中M是层输出206的维度，且N是层输入的维度。在此示例中，条件层200可以通过将由条件层权重定义的M×N权重矩阵应用于层输入202来生成层输出206。在另一示例中，条件层权重可以是卷积滤波器权重，例如由

中的点表示的二维(2-D)卷积滤波器权重，其中h是2D卷积滤波器的高度，且w是2D卷积滤波器的宽度，c是输入通道的数目，且f是滤波器的数目。在此示例中，条件层200可以通过将h×w×c卷积滤波器中的每一个应用于层输入202来生成层输出206。

在使用条件层权重204处理层输入202之前，条件层200被配置成基于层输入202动态地确定条件层权重204。为了确定条件层权重204，条件层200使用决策参数208的集合来将条件层输入202投射(即，映射)到隐含地指定条件层权重204的值的一个或多个潜在参数210的集合上。在一个示例中，潜在参数210可以将条件层权重的值参数化为B样条(或B样条的总和)，如下文将更详细描述的。

潜在参数210中的每一个都是连续变量，即，可以假设可能的潜在参数值的连续范围(例如，连续区间[0,1])中的任何值。在一些情况下，不同的潜在参数可以具有不同的可能值的连续范围，例如，一个潜在参数可以具有[0,1]作为其可能值的连续范围，而另一潜在参数可以具有[1,2]作为其可能值的连续范围。将层输入202投射到具有可能值的连续范围的潜在参数210上，使得条件层200能够从无限多种可能的条件层权重集合中选择特定的条件层权重集合。这使得条件层能够具有比例如具有预定层权重的神经网络层或从有限的可能的层权重集合中选择条件层权重的“有限”条件神经网络层更高的表示容量。

在一些情况下，例如通过使用随机梯度下降的迭代优化，条件层的决策参数208可以具有在神经网络训练期间确定的静态值。在其他情况下，决策参数208的值可以根据由神经网络处理的网络输入而变化，而不是具有静态值。在一个示例中，条件层200可以基于前一条件神经网络层的潜在参数值来确定决策参数208的值，如将参考图4更详细描述的。

条件层200可以使用任何适当的可微映射将层输入202投射到潜在参数210上。下面是几个示例。

在一个示例中，条件层200可以具有单个潜在参数φ，其是层输入x和决策参数θ之间的内积(即，点积)的结果，即，

φ＝σ(<x,θ>) (1)

其中<·,·>指的是内积运算，σ是sigmoid激活函数，它将潜在参数的值映射到范围[0,1]内，并且在使用内积运算进行处理之前，层输入x和决策参数θ都被展平为向量。

在另一示例中，条件层200可以具有多个潜在参数，每一潜在参数被确定为层输入和决策参数的相应子集之间的内积的结果，例如，如参考等式(1)所述。

在另一示例中，条件层200可以具有单个潜在参数，所述参数是使用1×1卷积滤波器，随后是sigmoid激活函数和全局平均运算(即，对卷积层的输出的每个分量进行平均)来处理层输入202的结果。在此示例中，决策参数例如通过具有等于层输入的通道数目的维度的向量来定义卷积层的1×1卷积滤波器的分量的值。

在另一示例中，条件层200可以具有多个潜在参数，每一潜在参数都被确定为使用相应1×1卷积滤波器、随后是sigmoid激活函数和全局平均运算来处理层输入202的结果。

在确定潜在参数值210之后，条件层200使用潜在参数值210来确定条件层权重204的值。通常，潜在参数210通过一个或多个可微函数来参数化条件层权重。也就是说，条件层200将条件层权重的值确定为将一个或多个微分函数应用到潜在参数值210的结果。可微函数可以是例如多项式函数或任何适当程度的分段多项式函数。分段多项式函数指的是具有被划分成多个子域的域的函数，使得所述函数由每一子域上相应(可能不同的)多项式来指定。

在一些实施方式中，潜在参数210通过一个或多个B样条来参数化条件层权重。B样条(或基样条)是分段多项式参数函数，具有有界支持和指定的平滑度(高达C^d-1)，其中d是B样条的次数，近似插值控制点(“节点”)集合。更具体地，由潜在参数φ参数化的

中的B样条S可以表示为：

其中

是

中的控制点，且每一B_k(·)是以下形式的分段多项式函数：

其中

是

中的系数，可以通过B样条上的连续性和可微性约束来确定。控制点

可以唯一地指定具有指定平滑度(即，可以被微分特定次数)的B样条。B样条具有这样的性质，即对每一控制点的改变仅局部地改变B样条。这使得通过调适每一控制点的位置来优化B样条更容易。

潜在参数可以以多种方式中的任一种来参数化条件层权重。下面是几个示例。

在一个示例中，条件层可以具有一个潜在参数，所述潜在参数参数化具有

中的控制点的B样条，其中d是条件层权重的数目。在此示例中，条件层可以将条件层权重的值确定为由潜在参数的值指定的B样条上的位置。

在另一示例中，条件层可以具有一个潜在参数，所述潜在参数参数化具有

中的控制点的多个B样条，其中d是条件层权重的数目。在此示例中，条件层将条件层权重的值确定为由潜在参数的值指定的B样条上的相应位置的总和。

在另一示例中，条件层权重可以包括多个卷积滤波器，且条件层可以具有对应于每一卷积滤波器的相应潜在参数。在此示例中，对应于每一卷积滤波器的相应潜在参数可以参数化具有

中的控制点的相应B样条，其中b是指定卷积滤波器的条件层权重的数目。条件层可以将指定每一卷积滤波器的条件层权重的值确定为由对应潜在参数的值指定的相应B样条上的位置。也就是说，条件层可以将卷积滤波器ω确定为：

其中，f是卷积滤波器的数目，

是B样条，

是潜在参数，并且

是堆叠卷积滤波器的堆叠算子。

在另一示例中，条件层权重可以包括多个卷积滤波器，且条件层可以具有参数化

中的B样条的潜在参数，其中a是卷积滤波器的数目。在此示例中，条件层确定a个“嵌套”潜在变量的值，每一卷积滤波器一个，作为由潜在参数值指定的B样条上的相应位置。每一嵌套潜在参数可以参数化

中的相应B样条，其中b是指定每一卷积滤波器的条件层权重的数目。条件层可以将指定每一卷积滤波器的条件层权重的值确定为由相应的嵌套潜在参数的值指定的相应B样条上的位置。

出于说明性目的，在图2中描绘的条件层200中，潜在参数210指定B样条214上的位置212。仅出于说明性目的，B样条被描绘为二维的，即，在

中。

条件层200使用条件层权重204的值来处理层输入202，以生成层输出206。随后可以将层输出206提供到神经网络的后续层，或者层输出206可以是神经网络的输出。

图3是

中的示例B样条300的图示，所述B样条由指示为圆(例如，圆302)的控制点指定。如参考图2所述，B样条(或另一适当的可微映射)可以表示低维(例如，一维)流形上的条件层的条件层权重的可能值的嵌入。流形上的每一点(在图3的情况下，B样条300上的每一点)表示可能的条件层权重的值的集合。

图4是图示条件层402-A和402-B的框图，其中神经网络基于前一条件层402-A的潜在参数406-A来确定条件层402-B的决策参数404-B。

以与参考图2描述的相同方式，条件层402-A根据条件层权重410-A的值处理层输入408-A，以生成层输出412-A。也就是说，条件层402-A使用决策参数404-A将层输入408-A投射到一个或多个潜在参数406-A上，所述潜在参数通过一个或多个可微函数(例如，B样条414-A)来参数化条件层权重410-A。条件层402-A将条件层权重410-A的值确定为将可微函数(例如，B样条414-A)应用到潜在参数406-A的结果，且然后使用条件层权重410-A来生成层输出412-A。

除了参数化条件层权重410-A之外，条件层402-A的潜在参数406-A还通过一个或多个可微函数来参数化后续条件层402-B的决策参数404-B。神经网络将后续条件层402-B的决策参数404-B的值确定为将可微函数应用到条件层402-A的潜在参数值406-A的结果。与先前一样，可微函数可以是例如多项式函数或分段多项式函数，例如，B样条416-A，且潜在参数406-A可以参数化决策参数404-B，类似于它们如何参数化条件层权重410-A。

条件层402-B使用决策参数404-B将层输入412-A投射到一个或多个潜在参数406-B上，所述潜在参数通过一个或多个可微函数(例如，B样条414-B)来参数化条件层402-B的条件层权重410-B。条件层402-B将条件层权重410-B的值确定为将可微函数(例如，B样条414-B)应用到潜在参数406-B的结果，且然后使用条件层权重410-B来生成层输出412-B。

在一些实施方式中，神经网络可以直接在前一条件层402-A的潜在参数值406-A上调节条件层402-B的潜在参数值406-B。在一个示例中，神经网络可以将条件层402-B的潜在参数值φⁱ⁺¹确定为：

φⁱ⁺¹＝α·φⁱ+(1-α)·D(xⁱ⁺¹；θⁱ⁺¹) (5)

其中α是区间[0,1]中的超参数，φⁱ是条件层402-A的潜在参数值，并且D(xⁱ⁺¹；θⁱ⁺¹)是使用条件层402-B的决策参数404-B的条件层402-B的层输入412-A的投射，例如，如参考等式(1)所描述。在前一条件层的潜在参数上调节后续条件层的潜在参数可以在连续条件层的样条(或其他参数化函数)的各段之间实施语义关系。

图5图示基于训练数据502的集合使用训练系统500来训练神经网络102的示例数据流。训练神经网络102是指迭代地调整神经网络102的模型参数504以(近似地)优化目标函数506，这将在下文更详细地描述。

通常，训练神经网络102包括，对于每一条件层，迭代地调整可微函数的参数值，所述可微函数参数化条件层的条件层权重。在一个示例中，参数化条件层权重的可微函数是多项式函数或分段多项式函数，且多项式或分段多项式函数的项的系数在每次训练迭代时被调整。在另一示例中，参数化条件层权重的可微函数是B样条，且指定B样条的控制点在每次训练迭代时被调整。调整B样条的特定控制点可能具有仅局部改变B样条(即，在特定控制点附近)的效果，这可以使得通过调适每一控制点的位置来优化B样条更容易。

对于具有固定决策参数集的每一条件层，决策参数的值在训练迭代中被迭代地调整。在一些情况下，某些条件层的决策参数由前一条件层的潜在参数的一个或多个可微函数(例如，多项式或分段多项式函数)参数化，如参考图4所描述。在这些情况下，参数化决策参数的可微函数的参数值在训练迭代过程中被迭代地调整。在一个示例中，参数化条件层的决策参数的可微函数可以是B样条，且指定B样条的控制点在每次训练迭代时被调整。

训练系统500基于由训练示例构成的训练数据502的集合来训练神经网络102，其中每一训练示例指定：(i)网络输入，以及(ii)应由神经网络102通过处理网络输入而生成的目标输出。在每次训练迭代中，训练系统500从训练数据502中采样“一批”训练示例508，并根据神经网络102的模型参数504的当前值来处理训练示例的网络输入，以生成相应的网络输出。然后，训练系统500使用目标函数506的梯度来调整神经网络102的模型参数504的当前值，所述目标函数506取决于：(i)由神经网络102生成的网络输出，以及(ii)由训练示例指定的相应目标输出。训练系统500可以使用例如反向传播技术来确定梯度，并且可以使用梯度以使用任何适当的梯度下降优化技术(例如，Adam或RMSprop)来调整模型参数的当前值。

通常，目标函数506通过例如使用交叉熵损失项或平方误差损失项来测量网络输出和由训练示例指定的相应目标输出之间的相似性，从而表征由神经网络102生成的网络输出的准确率。

目标函数506还可以包括附加项，所述附加项鼓励神经网络102充分利用条件层的表示容量，并且“专门化”可能的潜在参数值的连续范围的相应部分，以处置对应于特定目标输出的网络输入。为此目的，目标函数506可以测量条件神经网络层的潜在参数的值和由训练示例指定的目标输出之间的互信息。在一个示例中，目标函数

可以由以下给定：

其中λ是0和1之间的超参数，

测量网络输出和目标输出之间的相似性，I是条件层的总数，i是条件层的索引，

表征当前批次训练示例中条件层i的潜在参数和目标输出之间的互信息，H(φⁱ)是条件层i的潜在参数的分布P(φⁱ)的熵，H(φⁱ|Y)是以目标输出为条件的条件层i的潜在参数的分布P(φⁱ|Y)的熵，并且w_u和w_s是超参数。

参考等式(7)，通过最大化条件层的潜在参数的分布

的熵

目标函数可以鼓励神经网络生成潜在参数，所述潜在参数在可能的潜在参数值的连续范围内更均匀地分布。这可能导致神经网络102更充分地利用条件层的表示容量。通过最小化以目标输出为条件的条件层的潜在参数的分布

的熵

目标函数可以鼓励神经网络专门化可能的潜在参数值的连续范围的相应部分，以处置具有特定目标输出的网络输入。

训练系统500可以基于当前批次的N个训练示例的采样的潜在参数-目标输出对

来近似潜在参数的分布P(φⁱ)和以目标输出为条件的潜在参数的分布P(φⁱ|Y)，其中y_n是由训练示例n指定的目标输出。为此目的，训练系统500可以将可能的潜在参数值的连续范围(例如，[0,1])量化为B个仓，并且使用软(即，可微分)量化函数对落入每一仓的样本进行计数，该软量化函数例如为由下式给定的软量化函数U(φ；c_b,w_b,v)：

其中当潜在参数φ在由中心c_b和宽度w_b描述的仓内部时，U(·)返回几乎为1，否则几乎为0。参数v控制软量化的锐度(斜率)。图示510示出具有相应的仓中心和斜率的软量化函数U(·)的示例。可以理解，更高的v值导致更尖锐的量化。

使用软量化函数U(·)，例如，如参考等式(8)所描述，训练系统500可以用B个仓离散化连续潜在参数φⁱ，其将φⁱ近似为离散潜在参数Λⁱ。训练系统500可以将潜在参数φⁱ的分布P(φⁱ)的熵H(φⁱ)近似为：

其中b是仓的索引，且n是当前批次的训练示例的索引。类似地，训练系统500可以将以目标输出为条件的潜在参数φⁱ的分布P(φⁱ|Y)的熵H(φⁱ|Y)近似为：

其中c是C个可能目标输出的索引，且如果训练示例n的目标输出为c，则

返回1，否则返回0。

使用软量化函数来表征潜在参数的值和目标输出之间的互信息使得目标函数是可微分的，这有助于神经网络102的训练。

训练系统500可以继续训练神经网络102，直到满足训练终止标准，例如，直到已经执行了预定次数的训练迭代，或者直到神经网络102的准确率(例如，在留存的验证集上评估)满足预定阈值。

图6是用于使用条件层来处理层输入以生成层输出的示例性过程600的流程图。为了方便起见，过程600将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当编程的神经网络系统，例如图1的神经网络系统100，可以执行过程600。

系统获得条件层的决策参数的值602。在一些情况下，条件层的决策参数的值在训练期间被确定，并且随后保持固定。在一些其他情况下，系统从前一条件层的一个或多个潜在参数的值来确定条件层的决策参数的值。更具体地，系统可以根据由前一条件层的潜在参数进行的决策参数的参数化来将条件层的决策参数的值确定为例如B样条或者被定义为B样条总和的超曲面。

系统通过处理层输入和决策参数，从连续的可能潜在参数值的集合来确定条件层的潜在参数值604。系统可以通过使用可微映射处理层输入和决策参数(例如，通过确定层输入和决策参数之间的内积，以及通过sigmoid函数来处理内积的结果)来确定潜在参数的值。在一些情况下，所述系统从：(i)处理层输入和决策参数的结果，以及(ii)前一条件层的潜在参数值，确定条件层的潜在参数值。在一些情况下，潜在参数的数目可以大致小于层输入的维度和条件层权重的维度，例如多个数量级。

系统从潜在参数的值来确定条件层权重的值606。例如，系统可以根据潜在参数对条件层权重的参数化来将条件层权重的值确定为例如B样条或者由B样条总和定义的超曲面。在此示例中，每一B样条可以由训练期间确定的节点(控制点)集合来定义。

在一个实施方式中，条件层权重包括多个卷积滤波器的权重，并且潜在参数参数化多个嵌套的潜在参数，每一潜在参数参数化相应卷积滤波器的权重。在这些实施方式中，系统根据潜在参数对嵌套潜在参数的参数化，从潜在参数的值中确定嵌套潜在参数的值。然后，对于每一卷积滤波器，系统根据嵌套潜在参数对卷积滤波器权重的参数化，从相应嵌套潜在变量的值确定卷积滤波器权重的值。

系统根据条件层权重的值来处理层输入以生成层输出608。例如，条件层可以是完全连接的层，其中条件层权重指定权重矩阵，并且条件层通过将权重矩阵乘以层输入来生成层输出。作为另一示例，条件层可以是卷积层，其中条件层权重指定多个卷积滤波器，并且条件层通过卷积卷积滤波器和层输入来生成层输出。

本说明书结合系统和计算机程序组件使用术语“被配置”。对于被配置成执行特定操作或动作的一个或多个计算机的系统，意味着：所述系统已在其上安装软件、固件、硬件或其组合，在操作中使得所述系统执行所述操作或动作。对于被配置成执行特定操作或动作的一个或多个计算机程序，意味着：所述一个或多个程序包括指令，所述指令在被数据处理设备实行时使得所述设备执行所述操作或动作。

所述主题的实施例和本说明书中描述的功能操作可以实现在数字电子电路中、有形体现的计算机软件或固件中、计算机硬件中(包括本说明书中公开的结构及其结构等同物)、或其中的一个或多个的组合中。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序(即，计算机程序指令的一个或多个模块)，所述计算机程序编码在有形非暂时性存储介质上，用于由数据处理设备执行或控制数据处理设备的操作。计算机存储介质可以是机器可读存储装置、机器可读存储衬底、随机或串行访问存储器装置、或其中的一个或多个的组合。可替代地或另外，程序指令可以编码在人工生成的传播信号上，例如，机器生成的电、光学或电磁信号，生成所述信号以对信息进行编码，用于传输到合适的接收器设备以由数据处理设备来执行。

术语“数据处理设备”是指数据处理硬件，且包含所有种类的用于处理数据的设备、装置和机器，例如包括可编程处理器、计算机或多个处理器或计算机。所述设备还可以是或还包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，所述设备可以可选地包括创建用于计算机程序的执行环境的代码，例如构成处理器固件、协议堆栈、数据库管理系统、操作系统或其中的一个或多个的组合的代码。

还可以称作或描述为程序、软件、软件应用程序、app、模块、软件模块、脚本或代码的计算机程序可以通过任何形式的编程语言来编写，包括编译或解释语言、或声明性或过程式语言；并且其可以任何形式来部署，包括作为独立程序或作为模块、组件、子例程或适于在计算环境中使用的其他单元。程序可以(但无需)对应于文件系统中的文件。程序可以存储在保持其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中，存储在专用于所讨论的程序的单个文件中，或存储在多个协调文件(例如，存储一个或多个模块、子程序或代码的部分的文件)中。计算机程序可以被部署为在一个计算机上或多个计算机上执行，所述多个计算机位于一个站点处或跨越多个站点而分布且通过数据通信网络互连。

在本说明书中，术语“引擎”被广泛用于指代被编程为执行一个或多个特定功能的基于软件的系统、子系统或过程。通常，引擎将被实现为安装在一个或多个位置的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下，一个或多个计算机将专用于特定的引擎；在其他情况下，可以在同一个或多个计算机上安装和运行多个引擎。

本说明书中描述的过程和逻辑流可以由执行一个或多个计算机程序的一个或多个可编程计算机来执行，从而通过对输入数据进行操作并生成输出来执行功能。所述过程和逻辑流还可以通过专用逻辑电路(例如，FPGA或ASIC)或者通过专用逻辑电路与一个或多个编程计算机的组合来执行。

适于执行计算机程序的计算机可以基于通用或专用微处理器或两者、或任何其他种类的中央处理单元。通常，中央处理单元将接收来自只读存储器或随机存取存储器或两者的指令和数据。计算机的基本元件是用于执行或实施指令的中央处理单元以及用于存储指令和数据的一个或多个存储器装置。中央处理单元和存储器可以通过专用逻辑电路来补充或并入专用逻辑电路。通常，计算机还将包括用于存储数据的一个或多个大容量存储装置(例如，磁盘、磁光盘或光盘)，或者以操作方式耦合以接收来自所述一个或多个大容量存储装置的数据或将数据传送到所述一个或多个大容量存储装置，或两者都有。然而，计算机无需具有此类装置。此外，计算机可以嵌入于另一装置中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储装置，例如通用串行总线(USB)闪存驱动器，这仅是几例。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器装置，例如包括：半导体存储器装置，例如EPROM、EEPROM和快闪存储器装置；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM光盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实现，所述计算机具有用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)，以及用户可以通过其向计算机提供输入的键盘和指向装置，例如鼠标或轨迹球。也可以使用其他种类的装置来提供与用户的交互；例如，提供到用户的反馈可以是任何形式的感官反馈，例如，视觉反馈、听觉反馈或触觉反馈；且来自用户的输入可以以任何形式来接收，包括声学、语音或触觉输入。此外，计算机可以通过向用户使用的装置发送文档并从其接收文档来与用户进行交互；例如，通过响应于从web浏览器接收的请求，将网页发送到用户装置上的web浏览器。而且，计算机可以通过将文本消息或其他形式的消息发送到个人装置(例如，运行消息传递应用的智能电话)并且反过来从用户接收响应消息来与用户交互。

用于实现机器学习模型的数据处理设备还可以包括例如专用硬件加速器单元，用于处理机器学习训练或产生的公共和计算密集型部分，即，推理、工作负载。

机器学习模型可以使用机器学习框架来实现和部署，例如，TensorFlow框架、微软认知工具包(Microsoft Cognitive Toolkit)框架、Apache Singa框架或Apache MXNet框架。

本说明书中描述的主题的实施例可以实现在计算系统中，所述计算系统包括后端组件(例如，作为数据服务器)、或包括中间件组件(例如，应用服务器)、或包括前端组件(例如，具有图形用户界面、web浏览器或用户可以通过其与本说明书中描述的主题的实施方式进行交互的app的客户端计算机)、或者一个或多个此类后端组件、中间件组件或前端组件的任何组合。所述系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)来互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如，互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，且通常通过通信网络进行交互。客户端与服务器之间的关系是依靠在相应计算机上运行且彼此具有客户端服务器关系的计算机程序产生的。在一些实施例中，服务器传输数据(例如，HTML页面)到用户装置(例如，为了将数据显示给用户并从用户接收用户输入，所述用户与充当客户端的装置进行交互)。在用户装置处生成的数据(例如，用户交互的结果)可以在服务器处从所述装置接收。

虽然本说明书含有许多特定实施细节，当不应将这些细节理解为对任何发明的范围或对要求保护的内容的范围的限制，而应理解为对可以特定于特定发明的特定实施例的特征的描述。本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征还可以分别实现于多个实施例中或任何合适的子组合中。此外，尽管上文可以将特征描述为在某些组合中起作用且甚至最初也是如此要求保护的，但在一些情况下，来自为所要求保护的组合的一个或多个特征可以从所述组合删除，且所要求保护的组合可以针对子组合或子组合的变型。

类似地，虽然在附图中描绘了操作并且在权利要求中以特定的次序叙述了操作，但此不应理解为要求按所示出的特定次序或按顺序次序来执行此类操作，或执行所有图示的操作，从而实现所需要的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中各种系统模块和组件的分离不应理解为在所有实施例中要求此类分离，并且应理解，一般可以将所描述程序组件和系统一起集成在单个软件产品中或封装在多个软件产品中。

已描述主题的特定实施例。其他实施例也在所附权利要求书的范围内。例如，权利要求书中叙述的动作可以按不同次序执行且仍实现所需要的结果。作为一个示例，附图中描绘的过程不必要求所示出的特定次序或顺序次序来实现所需的结果。在一些情况下，多任务处理和平行处理可能是有利的。

Claims

1.一种由数据处理设备实现的方法，所述方法包括：

使用包括多个神经网络层的神经网络来处理网络输入以生成网络输出，其中，每一神经网络层被配置成根据多个层权重的相应值来处理相应层输入以生成相应层输出，其中，所述神经网络层中的一个或多个是条件神经网络层，并且其中，使用条件神经网络层来处理层输入以生成层输出包括：

获得所述条件神经网络层的一个或多个决策参数的值；

处理(i)所述层输入、以及(ii)所述条件神经网络层的所述决策参数，以从连续的可能潜在参数值的集合确定所述条件神经网络层的一个或多个潜在参数的值，其中，所述潜在参数的值指定所述条件层权重的值；

从所述潜在参数的值确定所述条件层权重的值；以及

根据所述条件层权重的值来处理所述层输入以生成所述层输出。

2.根据权利要求1所述的方法，其中，处理(i)所述层输入、以及(ii)所述条件神经网络层的所述决策参数，以从连续的可能潜在参数值的集合确定所述条件神经网络层的所述潜在参数的值包括应用可微映射，所述可微映射是所述层输入和决策参数到所述条件神经网络的所述潜在参数的值的映射。

3.根据权利要求2所述的方法，其中，应用所述可微映射包括：

确定所述层输入和所述条件神经网络层的所述决策参数之间的内积；以及

通过sigmoid函数来处理所述内积。

4.根据权利要求2至3中的任一项所述的方法，进一步包括：

从(i)所述可微映射的输出、以及(ii)在所述神经网络的所述神经网络层的排序中在所述条件神经网络层之前的所述神经网络中的前一条件神经网络层的潜在参数的值，确定所述条件神经网络层的所述潜在参数的值。

5.根据前述权利要求中的任一项所述的方法，其中，所述连续的可能潜在参数值的集合是0和1之间的区间。

6.根据前述权利要求中的任一项所述的方法，其中，所述条件神经网络层的所述潜在参数将所述条件层权重参数化，并且其中，从所述潜在参数的值确定所述条件层权重的值包括：

根据所述潜在参数对所述条件层权重的参数化，从所述潜在参数的值确定所述条件层权重的值。

7.根据权利要求6所述的方法，其中，所述条件神经网络层的所述潜在参数将所述条件层权重参数化为B样条，或者参数化为被定义为多个B样条总和的超曲面。

8.根据权利要求7所述的方法，其中，每一B样条由多个节点定义，并且定义所述B样条的所述节点的值是在训练期间确定的。

9.根据权利要求1至5中的任一项所述的方法，其中：

所述条件层权重包括多个卷积滤波器的权重；

所述条件神经网络层的所述潜在参数将所述条件神经网络层的多个嵌套潜在参数参数化；

所述条件神经网络层的每一嵌套潜在参数将对应卷积滤波器的权重参数化；以及

从所述潜在参数的值确定所述条件层权重的值包括：

根据所述潜在参数对所述嵌套潜在参数的参数化，从所述潜在参数的值确定所述嵌套潜在参数的值；以及

对于每一卷积滤波器，根据对应嵌套潜在变量对所述卷积滤波器的权重的参数化，从与所述卷积滤波器对应的所述嵌套潜在变量的值确定所述卷积滤波器的权重的值。

10.根据前述权利要求中的任一项所述的方法，其中，所述条件神经网络层的潜在参数的数目小于所述条件层权重的维度。

11.根据前述权利要求中的任一项所述的方法，其中，获得所述条件神经网络层的所述决策参数的值包括：

获得在训练所述神经网络时确定的所述条件神经网络层的所述决策参数的值。

12.根据前述权利要求中的任一项所述的方法，其中，获得所述条件神经网络层的所述决策参数的值包括：

从在所述神经网络的所述神经网络层的排序中在所述条件神经网络层之前的前一条件神经网络层的一个或多个潜在参数的值，确定所述条件神经网络层的所述决策参数的值。

13.根据权利要求12所述的方法，其中，所述前一条件神经网络层的所述潜在参数将所述条件神经网络层的所述决策参数参数化，并且其中，确定所述条件神经网络层的所述决策参数的值包括：

根据所述前一条件神经网络层的所述潜在参数对所述决策参数的参数化，从所述前一条件神经网络层的所述潜在参数的值确定所述条件神经网络层的所述决策参数的值。

14.根据权利要求13所述的方法，其中，所述前一条件神经网络层的所述潜在参数将所述条件神经网络层的所述决策参数参数化为B样条，或者参数化为被定义为多个B样条总和的超曲面。

15.根据权利要求14所述的方法，其中，每一B样条由多个节点定义，并且定义所述B样条的所述节点的值是在训练期间确定的。

16.根据前述权利要求中的任一项所述的方法，其中，所述神经网络基于包括多个训练示例的训练数据的集合来训练，以共同优化：(i)所述神经网络的准确率，以及(ii)所述条件神经网络层的所述潜在参数的值和所述训练数据中包括的所述训练示例的标签之间的互信息的测量。

17.根据权利要求16所述的方法，其中，互信息的所述测量是使用软量化函数来确定的。

18.根据前述权利要求中的任一项所述的方法，其中，所述网络输入包括图像或音频信号，并且所述网络输出包括表征所述图像或音频信号的数据。

19.根据权利要求18所述的方法，其中，所述网络输入包括图像，并且所述网络输出将所述图像的分类表征为预定的类别集合。

20.根据权利要求18所述的方法，其中，所述网络输入包括图像，并且所述网络输出表征针对所述图像的内容的自然语言字幕。

21.根据权利要求18所述的方法，其中，所述网络输入包括音频信号，并且所述网络输出表征所述音频信号中说出的单词。

22.一个或多个存储指令的非暂时性计算机存储介质，所示指令在由一个或多个计算机执行时，使得所述一个或多个计算机执行根据权利要求1至21中的任一项所述的相应方法的操作。

23.一种包括一个或多个计算机和一个或多个存储指令的存储装置的系统，所述指令在由所述一个或多个计算机执行时，使得所述一个或多个计算机执行根据权利要求1至21中的任一项所述的相应方法的操作。