CN110462638B

CN110462638B - 使用后验锐化训练神经网络

Info

Publication number: CN110462638B
Application number: CN201880016417.3A
Authority: CN
Inventors: C.布伦德尔; M.福图纳托; O.文亚尔斯
Original assignee: DeepMind Technologies Ltd
Current assignee: DeepMind Technologies Ltd
Priority date: 2017-03-23
Filing date: 2018-03-23
Publication date: 2023-08-01
Anticipated expiration: 2038-03-23
Also published as: US10824946B2; EP3602411B1; CN110462638A; US11836630B2; EP3602411A1; WO2018172513A1; US20200005152A1; US20210004689A1

Abstract

方法、系统和装置，包括在计算机存储介质上编码的计算机程序，用于训练神经网络。在一个方面，一种方法包括维持对于每个网络参数指定分布参数的相应集合的当前值的数据，所述分布参数集合定义了网络参数的可能值上的后验分布。从网络参数的相应临时梯度值确定每个网络参数的相应当前训练值。根据网络参数的相应当前训练值，更新网络参数的分布参数的相应集合的当前值。基于分布参数的相应集合的更新的当前值，确定网络参数的训练的值。

Description

使用后验锐化训练神经网络

技术领域

本说明书涉及训练神经网络。

背景技术

神经网络是机器学习模型，它使用一层或多层非线性单元来预测接收的输入的输出。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层(即下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集合的当前值从接收的输入生成输出。

一些神经网络是循环神经网络。循环神经网络是接收输入序列并从输入序列生成输出序列的神经网络。具体地，循环神经网络可以使用来自先前时间步的网络的一些或全部内部状态来计算当前时间步的输出。循环神经网络的示例是包括一个或多个LSTM存储器块的长短期(LSTM)神经网络。每个LSTM存储器块可以包括一个或多个单元，每个单元包括输入门、忘记门和输出门，其允许单元存储单元的先前状态，例如，用于生成当前激活或被提供到LSTM神经网络的其他组件。

发明内容

本说明书描述了在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统，其执行神经网络训练。

根据第一方面，提供了一种训练具有多个网络参数的神经网络以确定网络参数的训练的值的方法。神经网络被配置为接收网络输入，并根据网络参数处理所述网络输入以生成网络输出。针对每个网络参数，维持指定定义所述网络参数的可能值上的后验分布的分布参数的相应集合的当前值的数据。从每个网络参数的分布参数的相应集合的当前值，确定所述网络参数的相应临时参数值。获得包括多个训练网络输入的小批量，并且针对每个训练网络输入，获得相应的训练网络输出。通过相对于所述相应临时参数值确定所述小批量的目标函数的梯度，确定每个网络参数的相应临时梯度值。从每个网络参数的相应临时梯度值，确定所述网络参数的相应当前训练值。根据网络参数的相应当前训练值，更新所述网络参数的分布参数的相应集合的当前值。基于所述分布参数的相应集合的更新的当前值，确定所述网络参数的训练的值。

在一些实现方式中，更新所述网络参数的分布参数的相应集合的当前值包括：相对于包括从所述目标函数导出的第一项的增强目标函数的每个分布参数，确定相应训练梯度值。使用所述相应训练梯度值，更新所述网络参数的分布参数的相应集合的当前值。

在一些实现方式中，所述增强目标函数包括从后验分布下和先验分布下的当前训练值之间的差异导出的第二项。

在一些实现方式中，所述增强目标函数包括从后验分布下和先验分布下的临时参数值之间的差异导出的第三项。

在一些实现方式中，所述神经网络是前馈神经网络。

在一些实现方式中，确定所述相应临时梯度值包括：利用所述小批量上的反向传播训练过程执行随机梯度下降的迭代，其中所述网络参数的值被设置为所述临时参数值，并且其中确定所述相应训练梯度值包括：利用反向传播训练过程执行随机梯度下降的迭代，其中网络参数的值被设置为所述当前训练值。

在一些实现方式中，所述神经网络是循环神经网络，并且其中每个网络输入是包括在多个时间步中的每一个时间步处的相应时间步输入的序列。

在一些实现方式中，确定所述相应临时梯度值包括：执行通过时间反向传播训练过程的迭代，其中所述网络参数的值被设置为所述临时参数值，并且其中确定所述相应训练梯度值包括：执行通过时间反向传播训练过程的迭代，其中所述网络参数的值被设置为所述当前训练值。

在一些实现方式中，所述小批量中的训练网络输入是截断的网络输入，并且其中确定所述相应的临时梯度值包括：执行截断的通过时间反向传播训练过程的迭代，其中所述网络参数的值被设置为所述临时参数值，并且其中确定所述相应训练梯度值包括：执行截断的通过时间反向传播训练过程的迭代，其中所述网络参数的值被设置为所述当前训练值。

在一些实现方式中，针对每个网络参数，所述分布参数包括均值参数和标准偏差参数。针对每个网络参数，从所述网络参数的分布参数集合的当前值确定每个网络参数的相应临时参数值包括：从具有由所述网络参数的均值参数的当前值定义的均值、以及由所述网络参数的标准偏差参数的当前值定义的标准偏差的分布中，采样所述临时参数值。

在一些实现方式中，针对每个网络参数，所述分布参数包括学习率参数。从所述网络参数的相应临时梯度值确定每个网络参数的相应当前训练值包括：从所述网络参数的临时参数值、所述网络参数的学习率参数的当前值、以及所述网络参数的临时梯度值，确定所述网络参数的分布均值；从具有所述分布均值和预定标准偏差的分布中，对参数的当前训练值进行采样。

在一些实现方式中，存储所述网络参数的训练值。

在一些实现方式中，提供所述网络参数的训练值，用于使用训练的神经网络处理网络输入。

根据第二方面，提供了一种训练具有多个网络参数的神经网络以确定网络参数的训练的值的方法。神经网络被配置为接收网络输入，并根据网络参数处理所述网络输入以生成网络输出。针对每个网络参数，维持指定定义所述网络参数的可能值上的后验分布的分布参数的相应集合的当前值的数据。从每个网络参数的分布参数的相应集合的当前值，确定所述网络参数的相应临时参数值。获得包括多个训练网络输入的小批量，并且针对每个训练网络输入，获得相应的训练网络输出。通过相对于所述相应临时参数值确定所述小批量的目标函数的梯度，确定每个网络参数的相应临时梯度值。从每个网络参数的相应临时梯度值，确定所述网络参数的相应当前训练值。根据网络参数的相应当前训练值，在所述小批量上训练神经网络，以更新网络参数的分布参数的相应集合的当前值。

在一些实现方式中，根据网络参数的相应训练值在小批量上训练神经网络包括：相对于包括从所述目标函数导出的第一项的增强目标函数的每个分布参数，确定相应训练梯度值。使用所述相应训练梯度值，更新所述网络参数的分布参数的相应集合的当前值。

根据第三方面，提供了一种系统，包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行如上所述的方法的操作。

根据第四方面，提供了一种(例如，以非暂时形式)存储指令的计算机程序产品(诸如一个或多个存储介质)，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行如上所述的方法。

根据第五方面，提供了一种存储指令的一个或多个计算机存储介质，所述指令在由一个或多个计算机执行时使得所述一个或多个计算机执行如上所述的方法的操作。

可以实现本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。

本说明书中描述的训练系统可以减少训练神经网络以具有可接受性能所需的时间和计算资源的量(例如，相对于传统训练系统)。此外，由本说明书中描述的训练系统训练的神经网络相对于由传统训练系统训练的神经网络可具有优越的性能(例如，预测准确度)。

本说明书中描述的训练系统学习神经网络的网络参数值上的分布(称为后验分布)，而不是直接学习网络参数值本身(如在一些传统训练系统中)。因为后验分布隐含地编码神经网络的网络参数值的不确定性的度量(例如，通过后验分布参数中包括的标准偏差参数的值)，所以所训练的神经网络的网络参数值的不确定性的度量可以对用户可用。这可以允许用户做出关于如何使用由训练的神经网络做出的预测的更周祥的(betterinformed)决定。例如，如果由神经网络做出的预测用于选择医疗处理以应用于患者，则如果网络参数值的不确定性的度量被认为高得令人无法接受，则用户可能想要对由训练的神经网络做出的预测进行折扣。

一些传统的训练系统通过以下方式学习网络参数值的后验分布：(i)从后验分布中采样网络参数值，(ii)基于采样的网络参数值确定梯度值，以及(iii)使用梯度值更新后验分布的当前的参数值。相反，本说明书中描述的训练系统从锐化后验分布中采样网络参数值。

对于每次训练迭代，从训练数据数据库(诸如，通过随机或伪随机过程)抽取(“采样”)相应的小批量训练示例(即，每个小批量是训练数据数据库中的训练示例的相应的子集，并且典型地是多个训练示例)，并且锐化后验分布取决于为训练迭代采样的小批量训练示例。由于锐化后验分布取决于小批量训练迭代而后验分布不是，因此与参数值是从后验分布中采样的情况相比，从锐化后验分布中采样的网络参数值可以使神经网络具有更好的性能(例如，根据目标函数)。因此，与通过使用基于从后验分布自身采样的网络参数值确定的梯度值(如在一些传统系统中)所实现的相比，基于从锐化后验分布采样的网络参数值确定的梯度值可以提供对后验分布的当前参数值的更稳定的更新。如果后验分布的参数值一致地导致具有基于后验分布参数的训练的值选择的网络参数值的神经网络的有效性能(例如，预测准确度)，则将后验分布的参数值的更新称为稳定的。通过改进训练过程的稳定性，本说明书中描述的训练系统产生更有效的训练过程和更好性能的训练的神经网络。由于训练过程的改进的稳定性，可以减少训练神经网络以具有可接受性能所需的时间和计算资源的量。

通过学习在神经网络的网络参数上的分布(即，后验分布)而不是直接学习网络参数值本身(如在一些传统的训练系统中)，由本说明书中描述的训练系统训练的神经网络可以表现出优异的泛化性能。神经网络的泛化性能是指神经网络在网络输入上实现可接受的性能(例如，预测准确度)的能力，该网络输入不包括在用于训练神经网络的训练数据中。具体地，本说明书中描述的训练系统基于增强目标函数来学习后验分布，该增强目标函数不利地对待以下之间的巨大差异：(i)锐化后验分布和用于锐化后验分布的先验分布，以及(ii)后验分布以及后验分布的先验分布。通过不利地对待这些差异，本说明书中描述的训练系统改进了神经网络的泛化性能。

在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其他特征、方面和优点将变得明显。

附图说明

图1示出了示例训练系统。

图2示出了由概率分布定义参数值的示例神经网络。

图3是用于训练神经网络的示例处理的流程图。

图4是用于确定锐化的后验分布的示例处理的流程图。

图5是用于更新后验分布的示例处理的流程图。

各附图中相同的附图标记和名称表示相同的元件。

具体实施方式

图1示出了示例训练系统100。训练系统100是在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统的示例，其中实现下面描述的系统、组件和技术。

系统100训练神经网络124。神经网络124可以是前馈神经网络(例如，多层感知器或卷积神经网络)、循环神经网络(例如，长短期存储器网络)或任何其他类型的神经网络。神经网络124可以被配置为接收任何类型的数字数据输入并基于输入生成任何类型的分数、分类或回归输出。以下是一些示例。

例如，如果神经网络124的输入是图像或已经从图像中提取的特征，则由神经网络124对给定图像生成的输出可以是对象类别集合中的每一个的分数，其中每个分数表示图像包含属于该类别的对象的图像的估计的可能性。

作为另一示例，如果神经网络124的输入是因特网资源(例如，网页)、文档或文档的部分、或从因特网资源、文档或文档的部分提取的特征，则针对给定因特网资源、文档或文档的部分，神经网络124生成的输出可以是主题集合中的每一个的分数，其中每个分数表示因特网资源、文档或文档的部分是关于该主题的估计的可能性。

作为另一示例，如果神经网络124的输入是特定广告的印象上下文的特征，则由神经网络124生成的输出可以是表示将点击该特定广告的估计的可能性的分数。

作为另一示例，如果神经网络124的输入是对用户的个性化推荐的特征，例如，表征推荐的上下文的特征，例如，表征用户先前采取的动作的特征，则由神经网络124生成的输出可以是内容项目集合中的每一个的分数，其中每个分数表示用户将有利地响应于被推荐内容项目的估计的可能性。

作为另一示例，如果神经网络124的输入是一种语言的文本序列，则由神经网络124生成的输出可以是对另一种语言的文本片段集合中的每一个的分数，其中每个分数表示另一种语言中的文本片段是输入文本到另一种语言的正确翻译的估计的可能性。

作为另一示例，如果神经网络124的输入是表示说出的话语的序列，则由神经网络124生成的输出可以是对文本片段集合中的每一个的分数，每个分数表示文本片段是话语的正确转录的估计的可能性。

系统100通过确定后验分布114的参数集合的训练的值来训练神经网络124。后验分布114是神经网络124的每个网络参数的可能值的概率分布。一旦训练完成，可以以各种方式中的任何一种从后验分布114确定神经网络124的网络参数的训练的值。

例如，对于每个网络参数，系统100可以将网络参数的训练的值确定为网络参数的可能值上的后验分布114的均值。作为另一示例，系统100可以对来自后验分布114的网络参数的值的多个相应候选集合0进行采样。对于网络参数值的每个候选集合，当其处理网络输入以根据网络参数值的候选集合确定网络输出时，系统100可以确定神经网络124的有效性(例如，预测准确度)。最后，系统100可以将网络参数的训练的值确定为使得神经网络124最有效的网络参数值的候选集合。

系统在训练数据110的集合上训练神经网络124。训练数据110包括多个训练示例。当神经网络124是前馈神经网络时，每个训练示例包括网络输入和相应的目标输出。网络输入的目标输出是应该由神经网络124响应于处理网络输入而生成的网络输出。当神经网络124是循环神经网络时，每个训练示例包括网络输入序列和相应的目标输出。在一些情况下(例如，出于训练期间的计算效率的原因)，对于每个训练示例，训练示例中包括的网络输入序列和相应的目标输出是较长的网络输入序列的截断(即，子序列)和相应的目标输出。

系统100维持(例如，在逻辑数据存储区域或物理数据存储设备中)指定后验分布114的后验分布参数的当前值的数值数据。对于神经网络124的每个网络参数，存在一个或多个后验分布参数的相应集合。对于神经网络124的每个网络参数，后验分布参数包括相应的后验分布参数，其定义了该网络参数的可能值上的概率分布。例如，每个网络参数的相应后验分布参数可以包括(例如，高斯分布的)均值参数和标准偏差参数。

在每次训练迭代时，系统使用后验分布114(即，如后验分布参数的当前值所表征的)来确定锐化后验分布126，如稍后将更详细描述的。对于每个网络参数，后验分布参数还包括学习率参数，该学习率参数反映了锐化后验分布126的锐化后验分布参数值与后验分布114的后验分布参数值的差异程度(how different)。

系统100还维护定义锐化后验分布126的数据，其(类似于后验分布114)是神经网络124的每个网络参数的可能值上的概率分布。锐化后验分布126由锐化后验分布参数的当前值定义。锐化后验分布参数包括对于神经网络124的每个网络参数的相应的锐化后验分布参数，其定义了网络参数的可能值上的概率分布。例如，每个网络参数的相应锐化后验分布参数可以包括(例如，高斯分布的)均值参数和标准偏差参数。

系统100在多次训练迭代中训练神经网络124。在每次训练迭代中，系统100从训练数据110获得小批量训练示例108(即，一个或多个训练示例的集合)(如参考图3中的步骤302进一步描述的)。例如，系统100可以从训练数据110中随机地采样小批量训练样本。

后验采样引擎102根据网络参数的当前后验分布参数值对神经网络124的每个网络参数采样临时网络参数值104(如参考402进一步描述的)。例如，系统100可以通过从具有由网络参数的当前后验分布参数值定义的均值和标准偏差的概率分布(例如，高斯分布)中采样，对每个网络参数采样相应的临时网络参数值104。

系统100提供临时网络参数值104作为临时梯度引擎106的输入。临时梯度引擎106被配置为通过相对于相应的临时参数值104确定小批量108的目标函数128的梯度，确定神经网络124的每个网络参数的相应临时梯度值112(如参考404进一步描述的)。

系统100基于临时网络参数值104、临时梯度值112和后验分布参数的当前值(具体地，后验分布参数中包括的学习率参数)来确定锐化后验分布参数的当前值(如参考图4中的步骤406进一步描述的)。

锐化后验采样引擎116根据网络参数的锐化后验分布参数的当前值，为神经网络124的每个网络参数采样训练网络参数值118(如参考502进一步描述的)。例如，锐化后验采样引擎116可以通过从具有由网络参数的锐化后验分布参数的当前值定义的均值和标准偏差的概率分布(例如，高斯分布)中采样，对神经网络124的每个网络参数采样相应的训练网络参数值118。

系统100提供训练网络参数值118作为训练梯度引擎122的输入。训练梯度引擎122被配置为通过相对于相应后验分布参数值确定小批量108的增强目标函数130的梯度，对每个后验分布参数(例如，每个均值参数、标准偏差参数和神经网络124的每个网络参数的学习率参数)确定相应的训练梯度值120(如参考图5中的步骤504进一步描述的)。增强目标函数130可以包括从目标函数128导出的项、以及从以下各项之间的偏差(即，差异度量)导出的项：(i)锐化后验分布126和用于锐化后验分布的先验分布，和(ii)后验分布114和用于后验分布的先验分布。

系统100基于训练梯度值120调整后验分布114的当前参数值(如参考图5的步骤506进一步描述的)，并确定训练是否完成。响应于确定训练未完成，系统执行另一次训练迭代。

与后验分布114不同，锐化后验分布126取决于当前训练迭代的小批量108。因此，与根据临时网络参数值104(从后验分布114采样)处理包括在小批量108中的训练示例的网络输入相比，神经网络124可以通过根据训练网络参数值118(从锐化后验分布126采样)处理包括在小批量108中的训练示例的网络输入，实现更好的性能(即，相对于目标函数128、增强目标函数130或两者)。因此，训练梯度值120(基于训练网络参数值118)可以提供后验分布114的当前参数值的更新，其比通过使用临时梯度值112(即，基于临时网络参数值104)将实现的更加稳定。如果后验分布114的参数值的更新始终导致利用基于后验分布参数的训练的值选择的网络参数值(如前所述)的神经网络124的有效性能(例如，预测准确度)，则将更新称为稳定的。

图2示出了由概率分布表征参数值的示例神经网络200。具体地，神经网络200是循环神经网络。它被描绘为在多个时间步(即，214、216、218、220)上“展开”。展开循环神经网络是指将循环神经网络表示为前馈神经网络的等效序列。神经网络200包括一个或多个编码层212、一个或多个核心层210、以及一个或多个解码层208。

如果系统100训练神经网络200(即，如果神经网络200用作图1的神经网络124)，则系统100维持指定神经网络200的网络参数的值上的后验分布的数据。后验分布可以定义编码层212的网络参数上的分布204、核心层210的网络参数上的分布202、以及解码层208的网络参数上的分布206。此外，在每次训练迭代时，系统100确定在神经网络200的网络参数的值上的锐化的后验分布。锐化的后验分布可以定义在编码层212的网络参数上的分布205、在核心层210的网络参数上的分布203、以及在解码层208的网络参数上的分布207。

一旦系统100完成对神经网络200的训练，系统100就可以从后验分布确定神经网络200的网络参数的训练的值。例如，系统100可以从分布204中对编码层212的网络参数的训练的值进行采样，从分布202中对核心层210的网络参数的训练的值进行采样，并且从分布206中对解码层208的网络参数的训练的值进行采样。

虽然概率分布202、203、204、205、206和207为了方便而被描绘为一维概率分布，但是通常，它们是相应多维(例如，高维)空间上的概率分布。

图3是用于训练神经网络的示例处理的流程图。在多个训练迭代中的每一个处执行处理300以训练神经网络。为方便起见，处理300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当编程的训练系统，例如图1的训练系统100，可以执行处理300。

系统从训练数据获得小批量训练示例(即，一个或多个训练示例集合)(302)。例如，系统可以从训练数据中随机地采样小批量训练示例。

当神经网络是前馈神经网络时，每个训练示例包括网络输入和相应的目标输出。当神经网络是循环神经网络时，每个训练示例包括网络输入序列和相应的目标输出。在一些情况下(例如，出于训练期间的计算效率的原因)，对于每个训练示例，训练示例中包括的网络输入序列和相应的目标输出是网络输入的较长序列的截断(即，子序列)和相应的目标输出。系统可以通过从训练数据的训练示例中随机采样来获得小批量训练示例。

系统确定锐化后验分布的锐化后验分布参数的当前值，如参考图4所述(304)。更具体地，系统从后验分布中为神经网络的每个网络参数采样临时网络参数值，并通过相对于临时网络参数值计算小批量的目标函数的梯度来确定每个网络参数的临时梯度值。系统基于临时网络参数值、临时梯度值和后验分布参数的当前值来确定锐化后验分布参数的当前值。

系统更新后验分布参数的当前值，如参考图5所述(306)。更具体地，系统通过从锐化后验分布中采样来确定神经网络的每个网络参数的训练参数值，并且通过相对于后验分布参数值计算小批量的增强目标函数的梯度来确定每个后验分布参数的训练梯度值。系统基于训练梯度值更新后验分布参数的当前值。

系统确定训练是否完成(308)。在一些情况下，如果预定数量的训练迭代完成，则系统确定训练完成。在一些情况下，如果后验分布的参数的值已经收敛(例如，如果迭代之间的后验分布的参数的参数值的变化的度量低于预定的阈值)，则系统确定训练完成。

响应于确定训练未完成，系统返回302并通过重复前述步骤执行另一训练迭代。以这种方式，使用不同的相应小批量训练示例，执行至少一次并且更典型地执行多次步骤302-306的集合。

响应于确定训练完成，系统从后验分布确定神经网络的网络参数的训练的值。在一些实现方式中，对于每个网络参数，系统将网络参数的训练的值确定为网络参数的可能值上的后验分布的均值。在一些其它实现方式中，系统从后验分布中采样网络参数值的多个相应候选集合。对于网络参数值的每个候选集合，当其根据网络参数值的候选集合处理网络输入以确定网络输出时，系统可以确定神经网络的有效性(例如，预测准确度)。最后，系统可以将网络参数的训练的值确定为使得神经网络最有效的网络参数值的候选集合。

在一些情况下，一旦训练完成并且系统已经确定了网络参数的训练的值，系统就可以存储网络参数的训练的值(例如，在逻辑数据存储区域中或物理数据存储设备上)。在一些情况下，一旦训练完成并且系统已经确定了网络参数的训练的值，系统就提供网络参数的训练的值，以用于使用训练的神经网络处理网络输入。

图4是用于确定锐化后验分布的示例处理(对应于图3的步骤304)的流程图。为方便起见，处理400将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当编程的训练系统，例如图1的训练系统100，可以执行处理400。

系统通过从后验分布中采样来确定神经网络的每个网络参数的临时参数值(402)。后验分布(对应于概率分布114)是神经网络的每个网络参数的可能值上的概率分布。后验分布由后验分布参数的当前值定义。后验分布参数包括对于神经网络的每个网络参数的相应的后验分布参数，其定义了网络参数的可能值上的概率分布。例如，每个网络参数的相应后验分布参数可以包括均值参数和标准偏差参数。对于每个网络参数，后验分布参数还包括学习率参数。

系统根据网络参数的当前后验分布参数值对神经网络的每个网络参数采样临时网络参数值。例如，系统可以通过从具有由网络参数的当前后验分布参数值定义的均值和标准偏差的概率分布(例如，高斯分布)中采样，为每个网络参数采样相应的临时网络参数值。

系统确定神经网络的每个网络参数的临时梯度值(404)。具体地，系统相对于相应的临时网络参数值(即，如402中所确定的)确定小批量(即，如302中获得的)的目标函数的梯度。通常，目标函数是基于对于当前小批量中包括的训练示例的网络输入由神经网络生成的网络输出和相应的目标输出的相似度。目标函数可以是交叉熵目标函数、均方误差(MSE)目标函数或任何其他适当的目标函数。

在一些实现方式中(例如，当神经网络是前馈神经网络时)，系统通过对小批量使用反向传播训练过程执行随机梯度下降的迭代，确定每个网络参数的临时梯度值，其中网络参数的值设置为临时网络参数值。在一些实现方式中(例如，当神经网络是循环神经网络时)，系统通过对小批量执行通过时间反向传播训练过程的迭代来确定每个网络参数的临时梯度值，其中网络参数的值设置为临时网络参数值。在一些实现方式中(例如，当神经网络是循环神经网络并且小批量中的训练示例包括网络输入的截断的序列时)，系统通过对小批量执行截断的通过时间反向传播训练过程的迭代，确定每个网络参数的临时梯度值。其中网络参数值设置为临时网络参数值。

系统确定锐化后验分布的锐化后验分布参数的当前值(406)。类似于后验分布，锐化后验分布是神经网络的每个网络参数的可能值上的概率分布。锐化后验分布由锐化后验分布参数的当前值定义。锐化后验分布参数包括对于神经网络的每个网络参数的相应的锐化后验分布参数，其定义网络参数的可能值上的概率分布。例如，每个网络参数的相应锐化后验分布参数可以包括均值参数和标准偏差参数。

通常，系统基于临时网络参数值(即，如402中所确定的)、临时梯度值(即，如404中所确定的)、以及后验分布参数的当前值(具体地说，网络参数的学习率参数)来确定锐化后验分布参数的当前值。

例如，当每个网络参数的相应锐化后验分布参数包括均值参数时，系统可以通过以下方式确定每个相应网络参数的均值参数的当前值：

θ_μ＝φ-η·g_φ,

其中θ_μ是网络参数的均值参数，是网络参数的临时参数值，η是网络参数的学习率参数(即，由后验分布参数定义)，并且g_φ是网络参数的临时梯度值。在一些情况下，学习率参数η的值可以固定为0。

作为另一示例，当每个网络参数的相应锐化后验分布参数包括标准偏差参数时，系统可以将每个相应网络参数的标准偏差参数的当前值确定为固定正值(可以例如通过交叉验证确定)。

图5是用于更新诸如后验分布114的后验分布的示例处理(对应于图3的步骤306)的流程图。为方便起见，处理500将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当编程的训练系统，例如图1的训练系统100，可以执行处理500。

系统通过从锐化后验分布126中采样来确定神经网络的每个网络参数的训练参数值118(502)。具体地，系统根据网络参数的当前锐化后验分布参数值(即，如406中所确定的)来对神经网络的每个网络参数采样训练网络参数值。例如，系统可以通过从具有由网络参数的当前锐化后验分布参数值定义的均值和标准偏差的概率分布(例如，高斯分布)中采样来为每个网络参数采样相应的训练网络参数值。

系统确定每个后验分布参数的训练梯度值(例如，均值参数、标准偏差参数和神经网络的每个网络参数的学习率参数)(504)。具体地，系统相对于相应的后验分布参数值确定小批量的增强目标函数的梯度(即，如在302中获得的)。增强目标函数可以包括从目标函数导出的项、以及从以下各项之间的偏差(即，差异度量)导出的项：(i)锐化后验分布和用于锐化后验分布的先验分布，以及(ii)后验分布和用于后验分布的先验分布。例如，增强目标函数可以由下式给出：

其中是目标函数，KL表示Kullback-Leibler差异度量(即，概率分布之间的相似度的度量)，q(θ|φ,(x,y))表示锐化后验分布，p(θ|φ)表示锐化后验分布的先验分布，q(φ)表示后验分布，p(φ)表示后验分布的先验分布，并且C表示当前小批量的训练示例的数量(即，如在302中获得的)。先验分布(即，对于锐化后验分布和后验分布)可以具有任何适当的形式。例如，先验分布可以是高斯混合模型(即，由多个高斯分布的组合给出的概率分布)。

在一些实现方式中(例如，当神经网络是前馈神经网络时)，系统通过对小批量使用反向传播训练过程执行随机梯度下降的迭代，确定每个后验分布参数的训练梯度值，其中网络参数的值设置为训练网络参数值(即，如502中所确定的)。在一些实现方式中(例如，当神经网络是循环神经网络时)，系统通过对小批量执行通过时间反向传播训练过程的迭代，确定每个后验分布参数的训练梯度值，其中网络参数的值设置为训练网络参数值(即，如502中所确定的)。在一些实现方式中(例如，当神经网络是循环神经网络并且小批量中的训练示例包括网络输入的截断的序列时，如前所述)，系统通过对小批量执行截断的通过时间反向传播训练过程的迭代，确定每个后验分布参数的训练梯度值，其中网络参数的值被设置为训练网络参数值(即，如在502中确定的)。

系统基于训练梯度值更新后验分布参数的当前值(506)。例如，系统可以基于训练梯度值更新神经网络的每个网络参数的均值参数、标准偏差参数和学习率参数的当前值。对于每个后验分布参数α，系统可以通过以下方式更新后验分布参数的当前值：

α←α-r·g_α,

其中r是缩放参数(例如，任意确定或通过交叉验证确定)，并且g_α是后验分布参数α的训练梯度值。

本说明书使用与系统和计算机程序组件有关的术语“被配置”。对于要配置为执行特定操作或动作的一个或多个计算机的系统，意味着系统已在其上安装了软件、固件、硬件或它们的组合，其在操作中使系统执行操作或动作。对于要配置为执行特定操作或动作的一个或多个计算机程序，意味着一个或多个程序包括当由数据处理装置执行时使装置执行操作或动作的指令。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路中、在有形体现的计算机软件或固件中、在计算机硬件中实现，包括本说明书中公开的结构及其结构等同物，或者以它们中的一个或多个的组合体现。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即，在有形非暂时性存储介质上编码的一个或多个计算机程序指令模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。可替代地或另外地，程序指令可以在例如机器生成的电、光或电磁信号的人工生成的传播信号上编码，其被生成以编码信息，用于传输到合适的接收器设备以由数据处理装置执行。

术语“数据处理装置”指数据处理硬件并且包括用于处理数据的所有类型的装置、设备和机器，包括例如可编程处理器、计算机或多个处理器或计算机。该装置还可以是或者进一步包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们的一个或多个的组合的代码。

计算机程序也可以被称为或描述为程序、软件、软件应用、应用程序、模块、软件模块、脚本或代码，可以用任何形式的编程语言编写，包括编译或解释语言、或声明或过程性语言；并且它可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其他单元。程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中，例如，存储在标记语言文档中的一个或多个脚本，专用于所讨论的程序的单个文件中，或者存储在多个协调文件中，所述协调文件例如存储一个或多个模块、子程序或代码部分的文件。可以部署计算机程序以在一个计算机上或在位于一个站点上或跨多个站点分布并通过数据通信网络互连的多个计算机上执行。

在本说明书中，术语“引擎”广泛用于指代被编程为执行一个或多个特定功能的基于软件的系统、子系统或处理。通常，引擎将被实现为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下，一个或多个计算机将专用于特定的引擎；在其他情况下，可以在同一个或多个计算机上安装和运行多个引擎。

本说明书中描述的处理和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。处理和逻辑流程也可以由专用逻辑电路(例如FPGA或ASIC)或专用逻辑电路和一个或多个编程计算机的组合来执行。

适合于执行计算机程序的计算机可以基于通用或专用微处理器或两者，或任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常，计算机还将包括或可操作地耦合以从用于存储数据的一个或多个大容量存储设备接收数据或将数据传输到一个或多个大容量存储设备或两者，所述大容量存储设备例如磁盘、磁光盘或光盘。但是，计算机不必需这样的设备。此外，计算机可以嵌入在例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如，通用串行总线(USB)闪存驱动)等的另一设备中。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实现，所述计算机具有：显示设备，例如CRT(阴极射线管)或LCD(液晶显示器)监视器，用于向用户显示信息；以及键盘和指示设备(例如，鼠标或轨迹球)，用户可通过其向计算机提供输入。其他类型的设备也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以包括声学、语音或触觉输入的任何形式接收来自用户的输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档，例如，通过响应于从web浏览器接收的请求将网页发送到用户设备上的web浏览器，与用户交互。此外，计算机可以通过向个人设备(例如，运行消息收发应用的智能电话)发送文本消息或其他形式的消息、并且从用户接收响应消息作为回复来与用户交互。

用于实现机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元，用于处理机器学习训练或生产的公共和计算密集部分，即推断、工作负载。

可以使用例如TensorFlow框架、Microsoft Cognitive Toolkit框架、ApacheSinga框架或Apache MXNet框架的机器学习框架来实现和部署机器学习模型。

本说明书中描述的主题的实施例可以在计算系统中实现，该计算系统包括：后端组件，例如作为数据服务器；或者包括中间件组件，例如应用服务器；或者包括前端组件，例如，具有图形用户界面、网络浏览器或应用程序的客户端计算机，用户可通过其与本说明书中描述的主题的实现进行交互；或者包括一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过例如通信网络的任何形式或介质的数字数据通信互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且典型地通过通信网络进行交互。客户端和服务器的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器将数据(例如，HTML页面)发送到用户设备，例如，用于向与作为客户端的设备交互的用户显示数据和从用户接收用户输入的目的。可以在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体的实现细节，但是这些不应被解释为对任何发明的范围或可能要求保护的范围的限制，而是作为可以特定于特定发明的特定实施例的特征的描述。在单独实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施例中实现。此外，尽管特征可以在上面描述为以某些组合起作用并且甚至最初如此要求保护，但是在一些情况下可以从组合中切除来自要求保护的组合的一个或多个特征，并且要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然以特定顺序在附图中描绘并且在权利要求中叙述了操作，但是这不应该被理解为要求以所示的特定顺序或按顺序执行这些操作，或者执行所有示出的操作以达到期望的效果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应当理解，所描述的程序组件和系统通常可以集成在单个软件产品中或打包成多个软件产品。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的处理不一定需要所示的特定顺序或按顺序来实现期望的结果。在一些情况下，多任务处理和并行处理可能是有利的。

Claims

1.一种训练具有多个网络参数的神经网络以确定网络参数的训练的值的计算机实现的方法，

其中，所述神经网络被配置为接收网络输入，并根据网络参数处理所述网络输入以生成网络输出，并且其中，该方法包括：

针对每个网络参数，维持指定定义所述网络参数的可能值上的后验分布的第一分布参数的相应集合的当前值的数据；

从每个网络参数的第一分布参数的相应集合的当前值，确定所述网络参数的相应临时参数值；

获得包括多个训练网络输入的小批量，并且针对每个训练网络输入，获得相应的训练网络输出；

通过相对于所述相应临时参数值确定所述小批量的目标函数的梯度，确定每个网络参数的相应临时梯度值；

对于每个网络参数，使用相应临时梯度值、相应临时参数值和相应学习率参数，来确定定义在网络参数的可能值上的相应第二后验分布的相应第二分布参数的相应当前值；

对于每个网络参数，采样相应第二后验分布以确定相应当前训练值；

根据网络参数的相应当前训练值，更新所述网络参数的第一分布参数的相应集合的当前值；以及

基于所述第一分布参数的相应集合的更新的当前值，确定所述网络参数的训练的值，

其中，所述网络输入包括图像或从图像提取的特征，并且所述网络输出包括对所述图像的分类，或者

其中，所述网络输入包括因特网资源、文档或文档的部分、或从因特网资源、文档或文档的部分提取的特征，并且所述网络输出包括多个分类中的每个分类的分数，或者

其中，所述网络输入包括广告的印象上下文的特征，并且所述网络输出表示用户将与所述广告交互的可能性，或者

其中，所述网络输入包括对用户的个性化推荐的特征，并且所述网络输出包括内容项目集合中的每个内容项目的相应分数，其中内容项目的分数表征该内容项目应被推荐给用户的可能性，或者

其中，所述网络输入包括一种语言的文本序列，并且所述网络输出包括另一种语言的文本片段集合中的每一个文本片段的相应分数，其中每个分数表征相应的另一种语言的文本片段是所述文本序列到所述另一种语言的正确翻译的估计的可能性，或者

其中，所述网络输入包括表示说出的话语的序列，并且所述网络输出包括文本片段集合中的每一个文本片段的相应分数，其中每个分数表征相应文本片段是所述话语的正确转录的估计的可能性。

2.根据权利要求1所述的方法，其中更新所述网络参数的第一分布参数的相应集合的当前值包括：

相对于包括从所述目标函数导出的第一项的增强目标函数的每个第一分布参数，确定相应训练梯度值；以及

使用所述相应训练梯度值，更新所述网络参数的第一分布参数的相应集合的当前值。

3.根据权利要求2所述的方法，其中，所述增强目标函数包括从后验分布下和先验分布下的当前训练值之间的差异导出的第二项。

4.根据权利要求2或3所述的方法，其中，所述增强目标函数包括从后验分布下和先验分布下的临时参数值之间的差异导出的第三项。

5.根据权利要求2或3所述的方法，其中所述神经网络是前馈神经网络。

6.根据权利要求5所述的方法，其中确定所述相应临时梯度值包括：利用所述小批量上的反向传播训练过程执行随机梯度下降的迭代，其中所述网络参数的值被设置为所述临时参数值，并且其中确定所述相应训练梯度值包括：利用反向传播训练过程执行随机梯度下降的迭代，其中网络参数的值被设置为所述当前训练值。

7.根据权利要求2或3所述的方法，其中所述神经网络是循环神经网络，并且其中每个网络输入是包括在多个时间步中的每一个时间步处的相应时间步输入的序列。

8.根据权利要求7所述的方法，其中确定所述相应临时梯度值包括：执行通过时间反向传播训练过程的迭代，其中所述网络参数的值被设置为所述临时参数值，并且其中确定所述相应训练梯度值包括：执行通过时间反向传播训练过程的迭代，其中所述网络参数的值被设置为所述当前训练值。

9.根据权利要求2或3所述的方法，其中所述小批量中的训练网络输入是截断的网络输入，并且其中确定所述相应的临时梯度值包括：执行截断的通过时间反向传播训练过程的迭代，其中所述网络参数的值被设置为所述临时参数值，并且其中确定所述相应训练梯度值包括：执行截断的通过时间反向传播训练过程的迭代，其中所述网络参数的值被设置为所述当前训练值。

10.根据权利要求1所述的方法，其中，针对每个网络参数，所述第一分布参数包括均值参数和标准偏差参数，并且其中，针对每个网络参数，从所述网络参数的第一分布参数集合的当前值确定每个网络参数的相应临时参数值包括：

从具有由所述网络参数的均值参数的当前值定义的均值、以及由所述网络参数的标准偏差参数的当前值定义的标准偏差的分布中，采样所述临时参数值。

11.根据权利要求10所述的方法，其中，针对每个网络参数，所述第一分布参数包括相应学习率参数，并且其中，针对每个网络参数，所述第二分布参数包括分布均值，并且其中，每个网络参数的分布均值是从所述网络参数的临时参数值、所述网络参数的学习率参数的当前值、以及所述网络参数的临时梯度值确定的。

12.根据权利要求1所述的方法，还包括：

存储所述网络参数的训练值。

13.根据权利要求1所述的方法，还包括：

提供所述网络参数的训练值，用于使用训练的神经网络处理网络输入。

14.一种计算系统，包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-13中任一项所述的相应方法的操作。

15.一种存储指令的计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-13中任一项所述的相应方法的操作。