CN108475345A

CN108475345A - 生成较大神经网络

Info

Publication number: CN108475345A
Application number: CN201680066508.9A
Authority: CN
Inventors: 伊恩·古德费洛; 陈天奇; 乔纳森·什连斯
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-11-12
Filing date: 2016-11-11
Publication date: 2018-08-31
Also published as: US10699191B2; WO2017083777A1; US20170140272A1; US11790233B2; EP3360084A1; US20200401896A1

Abstract

一种用于从较小神经网络生成较大神经网络的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。在一个方面，一种方法包括：获得指定原始神经网络的数据；从原始神经网络生成较大神经网络，其中，较大神经网络具有较大神经网络结构，其包括多个原始神经网络单元和多个不在原始神经网络结构中的附加神经网络单元；初始化原始神经网络单元和附加神经网络单元的参数的值，使得较大神经网络从与原始神经网络相同的输入生成相同的输出；以及训练较大神经网络以从初始化值确定原始神经网络单元和附加神经网络单元的参数的训练值。

Description

生成较大神经网络

技术领域

本说明书涉及修改神经网络结构以生成性能更好的神经网络。

背景技术

神经网络是机器学习模型，它采用一层或多层非线性单元来针对接收到的输入预测输出。一些神经网络除了输出层外还包含一个或多个隐藏层。每个隐藏层的输出被用作对于在网络中下一层的输入，即下一个隐藏层或输出层。网络的每一层根据相应的参数集的当前值从接收到的输入生成输出。

发明内容

通常，本说明书中描述的主题的一个创新方面可体现在用于从较小神经网络生成更好性能的较大神经网络的方法中，所述方法包括下述动作：获得指定原始神经网络的数据。所述原始神经网络被配置成从神经网络输入生成神经网络输出，所述原始神经网络具有包括多个原始神经网络单元的原始神经网络结构，每个原始神经网络单元具有各自的参数，并且每个所述原始神经网络单元的每个所述参数具有各自的原始值。从所述原始神经网络生成较大神经网络，所述较大神经网络具有较大神经网络结构，所述较大神经网络结构包括：(i)所述多个原始神经网络单元，以及(ii)不在所述原始神经网络结构中的多个附加神经网络单元，每个附加神经网络单元具有各自的参数。初始化所述原始神经网络单元和所述附加神经网络单元的所述参数的值，使得所述较大神经网络从与所述原始神经网络相同的神经网络输入生成相同的神经网络输出。训练所述较大神经网络以从所初始化的值确定所述原始神经网络单元和所述附加神经网络单元的所述参数的训练值。

可以训练所述原始神经网络以确定所述原始神经网络的所述参数的所述原始值。

所述原始神经网络结构可以包括具有第一数量的原始单元的第一原始神经网络层。生成所述较大神经网络可以包括：将多个附加神经网络单元添加到所述第一原始神经网络层以生成较大神经网络层。

初始化所述原始神经网络单元和所述附加神经网络单元的所述参数的值使得所述较大神经网络从与所述原始神经网络相同的神经网络输入生成相同的神经网络输出可以包括：将在所述较大神经网络层中的所述原始神经网络单元的所述参数的所述值初始化为所述参数的各自的原始值。对于在所述较大神经网络层中的每个附加神经网络单元：可以选择在所述原始神经网络层中的原始神经网络单元，以及可以将所述附加神经网络单元的所述参数的所述值初始化为与所选择的原始神经网络单元的各自的原始值相同。

选择在所述较大神经网络层中的原始神经网络单元可以包括：从所述原始神经网络层中的所述原始神经网络单元随机选择原始神经网络单元。

在所述原始神经网络结构中，第二原始神经网络层可以被配置成接收由所述第一原始神经网络层生成的输出作为输入。在所述较大神经网络结构中，所述第二原始神经网络层可以被配置成接收由所述较大神经网络层生成的输出作为输入。初始化所述原始神经网络单元和所述附加神经网络单元的所述参数的值，使得所述较大神经网络从与所述原始神经网络相同的神经网络输入生成相同的神经网络输出可以包括：初始化在所述第二原始神经网络层中的所述原始神经网络单元的所述参数的所述值，使得对于给定的神经网络输入，所述第二神经网络层在所述原始神经网络结构和所述较大神经网络结构两者中生成相同的输出。

所述原始神经网络结构可以包括第三原始神经网络层，所述第三原始神经网络层被配置成接收第三原始层输入并且从所述第三层输入生成第三原始层输出。生成所述较大神经网络可以包括：用具有附加神经网络单元的第一附加神经网络层和具有附加神经网络单元的第二附加神经网络层替换所述第三原始神经网络层。所述第一附加神经网络层可以被配置成接收第三原始层输入并且从所述第三原始层输入生成第一附加层输出，并且所述第二附加神经网络层可以被配置成接收所述第一附加层输出并且从所述第一附加层输出生成第二附加层输出。

初始化所述原始神经网络单元和所述附加神经网络单元的所述参数的值，使得所述较大神经网络从与所述原始神经网络相同的神经网络输入生成相同的神经网络输出可以包括：初始化在所述第一附加神经网络层和在第二附加神经网络层中的所述附加神经网络单元的所述参数的所述值，使得对于相同的神经网络输入，所述第二附加层输出与所述第三原始层输出相同。

初始化所述原始神经网络单元和所述附加神经网络单元的所述参数的值，使得所述较大神经网络从与所述原始神经网络相同的神经网络输入生成相同的神经网络输出可以包括：使用在所述第三原始神经网络层中的所述原始神经网络单元的所述参数的各自的原始值来初始化在所述第一附加神经网络层中的所述附加神经网络单元的所述参数的所述值。

该方面的其他实施例包括记录在一个或多个计算机存储设备上的相应的计算机系统、装置和计算机程序，每个被配置成执行所述方法的动作。一个或多个计算机的系统可以被配置成借助安装在系统上的软件、固件、硬件或其任何组合来执行特定的操作或动作，所述软件、固件、硬件或其任何组合在运行中可以使系统执行所述动作。一个或多个计算机程序可以被配置成通过包括在由数据处理装置执行时使所述装置执行所述动作的指令来执行特定操作或动作。

本说明书中描述的主题可以在特定实施例中实现，以实现以下优点中的一个或多个。包含在一个神经网络中的知识可以更快地转移到另一个较大神经网络。可以更快地创建和训练基于现有改进模型设计的较大神经网络。通过训练较小神经网络获得的参数值可用于加速对较大神经网络的训练。在基于神经网络的模型是对先前训练的神经网络的模型的改进的情况下，可以加快对改进模型的训练。这使得能够通过迭代开发过程来训练更复杂的神经网络，这减少了识别生成更好性能(例如，更精确)的神经网络所必需的结构改变所必需的计算资源量。

在下面的附图和描述中阐述了本说明书的主题的一个或多个实施例的细节。主题的其他特征、方面和优点将从描述、附图和权利要求中变得显而易见。

附图说明

图1示出了示例神经网络大小调整系统。

图2是用于从较小神经网络生成较大神经网络的示例过程的流程图。

图3是用于初始化较大神经网络层的参数的值的示例过程的流程图。

在各个附图中相似的附图标号和标记表示相似的元件。

具体实施方式

图1示出了示例神经网络大小调整系统100。神经网络大小调整系统100是在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统的示例，其中，可以实现下面描述的系统、组件和技术。

神经网络大小调整系统100是接收用于指定原始神经网络102的数据并且生成指定较大神经网络103的输出数据的系统。

原始神经网络102和较大神经网络103都被配置成执行相同的机器学习任务。

原始神经网络102和较大神经网络103是神经网络的示例，并且可以被配置成执行任何种类的机器学习任务，即，接收任何种类的数字数据输入并且基于输入生成任何种类的分数、分类或回归输出。

例如，如果对神经网络的输入是已经从图像中提取的图像或特征，则神经网络针对给定图像生成的输出可以是针对对象类别的集合中的每一个的分数，其中，每个分数表示该图像包含属于该类别的对象的图像的估计概率。

作为另一个示例，如果对神经网络的输入是互联网资源(例如，web页面)、文档或文档的部分或从互联网资源、文档或文档的部分提取的特征，则由神经网络对于给定互联网资源、文档或文档的部分生成的输出可以是针对主题集合中的每一个的分数，其中，每个分数表示互联网资源、文档或文档的部分与该主题相关的估计概率。

作为另一个示例，如果对神经网络的输入是特定交互内容(例如包含到其他内容的超链接的内容)的印象上下文的特征，则由神经网络生成的输出可以是代表该特定内容将被点击或与之交互的估计概率的分数。

作为另一个示例，如果对神经网络的输入是对于用户的个性化推荐的特征，例如表征用于推荐的上下文的特征，例如表征由用户采取的先前动作的特征，那么由神经网络生成的输出可以是内容项集合中的每一个的分数，其中，每个分数表示用户将有利地响应于被推荐内容项的估计概率。

作为另一个示例，如果对神经网络的输入是一种语言的文本，则由神经网络生成的输出可以是另一种语言的片段文本集合中的每一个片段的分数，其中，每个分数表示另一种语言的一段文本是向另一种语言的输入文本的正确翻译的估计概率。

作为另一个示例，如果对神经网络的输入是说出的话语、说出的话语的序列或从两者中的一个中导出的特征，那么由神经网络生成的输出可以是针对片段文本集合的每个的分数，每个分数表示该段文本是话语或话语序列的正确记录的估计概率。

原始神经网络102包括神经网络单元，例如，神经网络单元A 111和神经网络单元B112。每个神经网络单元被配置成接收单元输入，并且根据相应的参数集从输入生成单元输出。

较大神经网络103包括原始神经网络102的神经网络单元，例如，神经网络单元A111和神经网络单元B 112。较大神经网络103还包括另外的神经网络单元，例如神经网络单元Y 113和神经网络单元Z 114。

通常，每个神经网络单元将参数集应用于单元输入，并且在一些情况下还将激活函数例如，阶梯函数或S形(sigmoid)函数)应用于结果输出以生成单元输出。

在神经网络单元之间的连接可能取决于神经网络的结构。例如，在完全连接的神经网络层中，在神经网络层中的神经网络单元连接到紧接在神经网络层之前的层中的每个神经网络。在卷积神经网络层中，一些神经网络单元共享参数，并且仅连接到前一层中的单元的子集以允许该层执行诸如处理卷积和将卷积应用于输入数据的局部区域的功能。

较大神经网络103大于但功能上等同于原始神经网络102。如果神经网络α具有比神经网络β更多的神经网络单元，则神经网络α大于神经网络β。如果在给定相同的输入的情况下两个神经网络产生相同的输出，则它们在功能上是等同的。

在下面参考图2和3更详细地描述从原始神经网络102生成较大神经网络103。

一旦生成，神经网络大小调整系统100就设置在较大神经网络103例如神经网络单元A-D 111-114中的神经网络单元的参数的初始值，使得较大神经网络103对于给定的接收的输入生成与原始神经网络102相同的输出。下面参考图2-3更详细地描述初始化在较大神经网络103中的神经网络单元的参数的值。

然后，神经网络大小调整系统100训练较大神经网络103。具体地，神经网络大小调整系统100通过基于训练数据来训练较大神经网络130更新较大神经网络103中的神经网络单元的参数的初始值。

图2是用于从较小神经网络生成较大神经网络的示例过程200的流程图。为了方便，过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当地编程的神经网络大小调整系统，例如图1的神经网络大小调整系统100，可以执行过程200。

该系统获得用于指定原始神经网络的数据(202)。原始神经网络被配置成从神经网络输入生成神经网络输出。原始的神经网络具有原始的神经网络结构。原始神经网络结构包括多个原始神经网络单元。每个原始的神经网络单元都有参数，并且每个参数都有原始值。

在一些实施方式中，系统例如使用常规神经网络训练技术训练原始神经网络以从参数的初始值确定原始神经网络的参数的原始值，所述常规神经网络训练技术适用于原始神经网络被配置成执行的任务。

系统从原始神经网络生成较大神经网络(204)。较大神经网络具有较大神经网络结构。较大神经网络结构包括不在原始神经网络结构中的原始神经网络单元和附加神经网络单元。

在一些实施方式中，系统将附加神经网络单元添加到原始神经网络结构的第一原始神经网络层以生成较大神经网络层。换句话说，较大神经网络层是包括第一神经网络层的所有单元但是因为它还包括一个或多个附加单元而比原始神经网络层大的神经网络层。

在一些实施方式中，系统用第一附加神经网络层和第二神经网络层来替换原始神经网络结构的第三原始层。在那些实施方式中，第一附加神经网络层被配置成接收到第三原始层的输入并且从该输入生成第一附加层输出。第二附加神经网络层被配置成接收第一附加层输出并且从第一附加层输出生成第二附加层输出。

系统初始化原始神经网络单元和附加神经网络单元的参数的值(206)，使得较大神经网络从与原始神经网络相同的神经网络输入生成相同的神经网络输出。换句话说，系统初始化较大神经网络单元的参数的值，使得较大神经网络尽管尺寸较大，但在功能上等同于原始神经网络。

在下面参照图3详细描述在其中系统添加附加神经网络单元以生成较大神经网络的实施方式中神经网络单元的参数的值的初始化。

在其中系统用第一和第二附加层替换第三原始层的实施方式中，系统初始化在第一附加神经网络层和在第二附加神经网络层中的神经网络单元的参数的值，使得对于相同的神经网络输入，第二附加层输出与第三原始层的输出相同。换句话说，系统初始化在第一和第二附加神经网络层中的单元的参数的值，使得第一层和第二层的组合在功能上等同于第三原始层。

在其中系统用第一和第二附加层替换第三原始层的一些实施方式中，系统使用在第三原始神经网络层中的原始神经网络单元的参数的原始值初始化第一附加神经网络层中的附加神经网络单元的参数的值。

在那些实施方式中的一些中，系统初始化在第二附加神经网络层中的单元的参数的值，使得第二附加神经网络层的输入和输出相等。例如，系统根据单位矩阵的相应值来初始化第二附加神经网络单元中的神经网络单元的参数的值。

例如，第三原始层的每个单元可以实现函数h⁽ⁱ⁾：

h⁽ⁱ⁾＝φ(h^(i-1)TW⁽ⁱ⁾)

其中，φ是单元的激活函数，h^(i–1)T是从第三个原始层之前的层获得的输入向量的转置，W⁽ⁱ⁾是单元的参数的向量。

在一些实施方式中，系统用两个附加神经网络层来替换第三原始层。附加神经网络层的每个单元与第三原始层的单元相关联。与第三原始层的相同单元相关联的所述两个附加层的一对单元的组合功能可以由函数vh⁽ⁱ⁾来描述，

vh⁽ⁱ⁾＝φ(U^(i)Tφ(W^(i)Th^(i-1))

其中，U^(i)T是第二附加神经网络层中的神经网络单元的参数向量的转置。

内部激活函数(即，φ(W^(i)Th^(i–1)))描述了第一附加神经网络层中每个单元的功能，而外部激活函数(即，φ(U^(i)Tφ(W^(i)Th^(i–1))))描述了在第二附加神经网络层中每个单元的功能。U^(i)T是与Φ(W^(i)Th^(i–1))的乘积等于将激活函数应用于φ(W^(i)Th^(i–1))的向量。

在一些实施方式中，例如当激活函数φ是整数线性函数时，U^(i)T是单位矩阵的切分(即，行或列)。换句话说，U^(i)T是一个以“1”作为一个值并且“0”作为其他值的向量。在那些实施方式中，第二附加神经网络的所有单元的U^(i)T向量的组合的结果将是单位矩阵。

在一些实施方式中，例如当激活函数φ是最大函数时，U^(i)T是类似于单位矩阵但具有复制的列的矩阵的切分。

系统训练较大神经网络以根据初始化值确定原始神经网络单元和附加神经网络单元的参数的训练值(208)。换句话说，系统使用较大神经网络的单元的参数的初始值作为用于训练较大神经网络的初始值。

一旦被训练，系统就可以根据较大神经网络参数的训练值使用较大神经网络处理新的输入，以执行机器学习任务，可以存储参数的训练值以供稍后用于实例化执行机器学习任务的经训练的神经网络，或者可以将训练的值传输到另一个系统以用于实例化执行机器学习任务的经训练的神经网络。

图3是用于初始化较大神经网络层的参数的值的示例过程300的流程图。为了方便，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当地编程的神经网络大小调整系统例如图1的神经网络大小调整系统100可以执行过程200。

系统生成较大神经网络层(302)。较大神经网络层包括第一神经网络单元层的原始神经网络单元和附加神经网络单元。每个原始单元都有参数，每个参数都有原始值。

系统将较大神经网络层中的原始神经网络单元的参数的值初始化为参数的原始值(302)。

该系统为较大神经网络层中的每个附加神经网络单元选择相应的原始神经网络单元(304)。

在一些实施方式中，系统从原始神经网络中的原始神经网络单元中随机选择原始神经网络单元。在这些实施方式中的一些中，系统使用替换从原始神经网络单元中随机选择原始网络单元，使得每个原始神经网络单元可能被多次选择。

系统将每个附加网络单元的参数的值初始化为与为附加网络单元选择的原始神经网络单元的原始值相同(306)。

为了使较大神经网络在功能上等同于原始神经网络，系统修改被配置成接收下述部分作为输入的第二原始神经网络层的值：(i)原始神经网络结构中的第一原始神经网络层的输出；以及(ii)较大神经网络结构中较大神经网络层的输出。

该系统可以初始化在第二原始神经网络层中的原始神经网络单元的参数的值，使得对于给定的神经网络输入，第二神经网络层在原始神经网络结构和较大神经网络结构两者中生成相同的输出。

在一些实施方式中，系统将第二原始神经网络层中的原始神经网络单元的参数的值初始化为基于原始神经网络结构中的第一原始神经网络层中的神经网络单元的参数的值确定的值。例如，假设矩阵W⁽ⁱ⁾表示原始神经网络结构中第一原始神经网络层中神经网络单元的参数值，矩阵U⁽ⁱ⁾表示在较大神经网络结构中的第一原始神经网络层中神经网络单元的参数值，并且矩阵U⁽ⁱ⁺¹⁾表示在较大神经网络结构中的第二原始神经网络层中的神经网络单元的参数值，那么，对于所有j，

其中，K_j是为了建立U⁽ⁱ⁾的列j而复制的W⁽ⁱ⁾的列的索引，并且是W⁽ⁱ⁾的列K_j被复制的次数的计数。

本说明书中描述的主题和功能操作的实施例可以被实现在数字电子电路中、在有形地实施的计算机软件或固件中、在计算机硬件(包括本说明书中公开的结构及其结构等同物)中或在它们的一个或多个的组合中。本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上的计算机程序指令的一个或多个模块，用于由数据处理装置执行或控制数据处理装置的操作。备选地或附加地，程序指令可以被编码在人工生成的传播信号上，例如，机器生成的电信号、光信号或电磁信号，其被生成以对信息进行编码以便传输给合适的接收机设备以供数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板，随机或串行存取存储设备或它们中的一个或多个的组合。然而，计算机存储介质不是传播信号。

术语“数据处理装置”涵盖用于处理数据的所有类型的装置、设备和机器，例如包括可编程处理器、计算机或多个处理器或计算机。该装置可以包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以包括为所涉及的计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们的一个或多个的组合的代码。

计算机程序(也称为程序、软件、软件应用、模块、软件模块、脚本或代码)可以以任何形式的编程语言编写，该任何形式的编程语言包括编译或解释语言或者声明性或过程语言，并且该计算机程序可以以任何形式部署，包括作为独立程序或作为适于在计算环境中使用的模块、组件、子例程、对象或其他单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中、在专用于所涉及的程序的单个文件中或者在多个协同文件中(例如，存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以被部署为在一个计算机上或在位于一个地点或分布在多个地点并通过通信网络互连的多个计算机上执行。

如本说明书中所使用的，“引擎”或“软件引擎”是指提供与输入不同的输出的软件实现的输入/输出系统。引擎可以是编码的功能块，诸如库、平台、软件开发工具包(“SDK”)或对象。每个引擎可以在任何适当类型的计算设备上实现，该任何适当类型的计算设备例如是服务器、移动电话、平板电脑、笔记本电脑、音乐播放器、电子书阅读器、膝上型或台式计算机、PDA、智能电话或其他固定或便携式设备，其包括一个或多个处理器和计算机可读介质。另外，引擎的两个或更多可以实现在同一计算设备上或不同的计算设备上。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。处理和逻辑流程也可以由专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)执行，并且装置也可以实现为专用逻辑电路。

适合于执行计算机程序的计算机包括例如可以基于通用和专用微处理器或两者或任何其他种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或实施指令的中央处理单元以及用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如，磁盘、磁光盘或光盘，或者计算机可操作地耦合到该一个或多个大容量存储设备以从其接收数据或向其传送数据或两者。然而，计算机不需要具有这样的设备。此外，计算机可以嵌入在另一设备中，该另一个设备例如是移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如，通用串行总线(USB)闪存驱动器)，这里仅举了几个示例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，例如包括：半导体存储设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移动盘；磁光盘；以及，CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施例可以实现在计算机上，该计算机具有：显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)，用于向用户显示信息；以及，键盘和诸如鼠标或轨迹球的指示设备，用户可以通过其向计算机提供输入。其他类型的设备可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，该任何形式包括声音、语音或触觉输入。另外，计算机可以通过下述方式与用户交互：向用户使用的设备发送文档和从用户使用的设备接收文档；例如，通过响应于从用户的客户端设备上的web浏览器接收的请求，将web页面发送到该web浏览器。

在本说明书中描述的主题的实施例可以实现在计算系统中，该计算系统包括诸如作为数据服务器的后端组件，或者包括诸如应用服务器的中间件组件，或者包括诸如具有图形用户界面或Web浏览器的客户端计算机的前端组件，或者包括一个或多个这样的后端、中间件或前端组件的任何组合，用户可以通过该图形用户界面或该Web浏览器与本说明书中描述的主题的实施方式交互。系统的组件可以通过任何形式或介质的数字数据通信——例如，通信网络——互连。通信网络的示例包括局域网(“LAN”)和诸如因特网的广域网(“WAN”)。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。

虽然本说明书包含许多具体的实施方式细节，但这些细节不应被解释为对任何发明或可能要求保护的内容的范围的限制，而应被解释为可能特定于特定发明的特定实施例的特征的描述。本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反地，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地或以任何合适的子组合来实现。此外，尽管上文可以将特征描述为以某些组合起作用并且甚至最初如此要求保护，但是来自所要求保护的组合的一个或多个特征可以在一些情况下从组合中删除，并且所要求保护的组合可以针对子组合或变体的子组合。

类似地，虽然在附图中以特定顺序描述了操作，但是这不应被理解为要求以所示的特定顺序或以依序顺序执行这样的操作，或者执行所有所示的操作，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或封装为多个软件产品。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，在权利要求中列举的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或依序的顺序来实现期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种从较小神经网络生成较大神经网络的方法，所述方法包括：

获得指定原始神经网络的数据，所述原始神经网络被配置成从神经网络输入生成神经网络输出，所述原始神经网络具有包括多个原始神经网络单元的原始神经网络结构，每个原始神经网络单元具有各自的参数，并且每个所述原始神经网络单元的每个所述参数具有各自的原始值；

从所述原始神经网络生成较大神经网络，所述较大神经网络具有较大神经网络结构，所述较大神经网络结构包括：

(i)所述多个原始神经网络单元，以及

(ii)不在所述原始神经网络结构中的多个附加神经网络单元，每个附加神经网络单元具有各自的参数；

初始化所述原始神经网络单元和所述附加神经网络单元的所述参数的值，使得所述较大神经网络从与所述原始神经网络相同的神经网络输入生成相同的神经网络输出；以及

训练所述较大神经网络以从所初始化的值确定所述原始神经网络单元和所述附加神经网络单元的所述参数的训练值。

2.根据权利要求1所述的方法，还包括：

训练所述原始神经网络以确定所述原始神经网络的所述参数的所述原始值。

3.根据权利要求2所述的方法，其中，所述原始神经网络结构包括具有第一数量的原始单元的第一原始神经网络层，并且其中，生成所述较大神经网络包括：

将多个附加神经网络单元添加到所述第一原始神经网络层以生成较大神经网络层。

4.根据权利要求3所述的方法，其中，初始化所述原始神经网络单元和所述附加神经网络单元的所述参数的值使得所述较大神经网络从与所述原始神经网络相同的神经网络输入生成相同的神经网络输出包括：

将在所述较大神经网络层中的所述原始神经网络单元的所述参数的所述值初始化为所述参数的各自的原始值；以及

对于在所述较大神经网络层中的每个附加神经网络单元：

选择在所述原始神经网络层中的原始神经网络单元，以及

将所述附加神经网络单元的所述参数的所述值初始化为与所选择的原始神经网络单元的各自的原始值相同。

5.根据权利要求4所述的方法，其中，选择在所述较大神经网络层中的原始神经网络单元包括：

从所述原始神经网络层中的所述原始神经网络单元随机选择原始神经网络单元。

6.根据权利要求4所述的方法，其中：

在所述原始神经网络结构中，第二原始神经网络层被配置成接收由所述第一原始神经网络层生成的输出作为输入；

在所述较大神经网络结构中，所述第二原始神经网络层被配置成接收由所述较大神经网络层生成的输出作为输入；以及

初始化所述原始神经网络单元和所述附加神经网络单元的所述参数的值，使得所述较大神经网络从与所述原始神经网络相同的神经网络输入生成相同的神经网络输出包括：

初始化在所述第二原始神经网络层中的所述原始神经网络单元的所述参数的所述值，使得对于给定的神经网络输入，所述第二神经网络层在所述原始神经网络结构和所述较大神经网络结构两者中生成相同的输出。

7.根据任一前述权利要求所述的方法，其中，所述原始神经网络结构包括第三原始神经网络层，所述第三原始神经网络层被配置成接收第三原始层输入并且从所述第三层输入生成第三原始层输出，并且其中，生成所述较大神经网络包括：

用具有附加神经网络单元的第一附加神经网络层和具有附加神经网络单元的第二附加神经网络层替换所述第三原始神经网络层，其中：

所述第一附加神经网络层被配置成接收所述第三原始层输入并且从所述第三原始层输入生成第一附加层输出，以及

所述第二附加神经网络层被配置成接收所述第一附加层输出并且从所述第一附加层输出生成第二附加层输出。

8.根据权利要求7所述的方法，其中，初始化所述原始神经网络单元和所述附加神经网络单元的所述参数的值，使得所述较大神经网络从与所述原始神经网络相同的神经网络输入生成相同的神经网络输出包括：

初始化在所述第一附加神经网络层和在所述第二附加神经网络层中的所述附加神经网络单元的所述参数的所述值，使得对于相同的神经网络输入，所述第二附加层输出与所述第三原始层输出相同。

9.根据权利要求7所述的方法，其中，初始化所述原始神经网络单元和所述附加神经网络单元的所述参数的值使得所述较大神经网络从与所述原始神经网络相同的神经网络输入生成相同的神经网络输出包括：

使用在所述第三原始神经网络层中的所述原始神经网络单元的所述参数的各自的原始值来初始化在所述第一附加神经网络层中的所述附加神经网络单元的所述参数的所述值。

10.一种系统，包括一个或多个计算机和一个或多个存储设备，所述存储设备存储指令，所述指令在由所述一个或多个计算机执行时使得所述一个或多个计算机执行权利要求1-9中的任一项所述的相应方法的操作。

11.一种编码有指令的计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行权利要求1-9中的任一项所述的相应方法的操作。