CN111602148A

CN111602148A - 正则化神经网络架构搜索

Info

Publication number: CN111602148A
Application number: CN201980008348.6A
Authority: CN
Inventors: 黄彦平; 阿洛克·阿加尔瓦尔; 国·V·勒; 埃斯特班·阿尔贝托·瑞尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-02-02
Filing date: 2019-02-04
Publication date: 2020-08-28
Anticipated expiration: 2039-02-04
Also published as: US20200320399A1; CN111602148B; US11144831B2; EP3711000B1; WO2019152929A1; US11669744B2; US20230259784A1; EP3711000A1; US20220004879A1

Abstract

描述了一种方法，所述方法用于接收用于训练神经网络(NN)以执行机器学习任务的训练数据以及用于使用该训练数据确定用于执行ML任务的优化的NN架构。确定优化的NN架构包括：保持总体数据，针对候选架构的总体中的每个候选架构，该总体数据包括(i)定义候选架构的数据，以及(ii)指定在确定优化的神经网络架构时最近如何训练具有候选架构的神经网络的数据；以及使用多个工作器计算单元中的每一个来重复执行多个操作以基于所选定的具有最佳拟合度测度的候选架构生成新的候选架构，将新的候选架构添加到总体中，以及从总体中移除最近被训练最少的候选架构。

Description

正则化神经网络架构搜索

相关申请的交叉引用

本申请要求于2018年2月28日提交的美国临时申请序列号62/625,923的优先权。先前申请的公开内容被认为是本申请的公开内容的一部分，并且通过引用被合并在本申请的公开内容中。

背景技术

本说明书涉及确定神经网络的架构。

神经网络是机器学习模型，其采用一层或多层非线性单元来预测针对接收的输入的输出。一些神经网络除输出层外还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层，即，下一个隐藏层或输出层的输入。网络的每一层根据相应的参数集的当前值从接收的输入生成输出。

一些神经网络是递归神经网络。递归神经网络是一种接收输入序列并从输入序列生成输出序列的神经网络。特别地，递归神经网络可以在当前时间步骤计算输出时使用来自先前时间步骤的一些或全部网络内部状态。递归神经网络的示例是长短期(LSTM)神经网络，其包括一个或多个LSTM存储块。每个LSTM存储块可以包括一个或多个单元，每个单元包括输入门、遗忘门和输出门，允许该单元存储该单元的先前状态，例如，用于生成当前激活或提供给LSTM神经网络的其他组件。

发明内容

通常，本说明书中描述的主题的一个创新方面可以体现在用于确定用于配置成执行机器学习任务的神经网络的优化的神经网络架构的方法中。该方法包括：接收用于训练神经网络以执行机器学习任务的训练数据，该训练数据包括多个训练示例以及每个训练示例的相应目标输出；以及使用训练数据确定用于执行机器学习任务的优化的神经网络架构，包括：保持总体数据，针对候选架构的总体中的每个候选架构，该总体数据包括，(i)定义候选架构的数据，以及(ii)指定在确定优化的神经网络架构时最近如何训练具有候选架构的神经网络的数据；以及使用均与每个其他工作器计算单元异步运行的多个工作器计算单元中的每一个来重复执行下述操作：通过工作器计算单元从总体中选择多个候选架构；针对每个选定的候选架构并且通过工作器计算单元，在训练数据的训练子集上训练具有候选架构的新神经网络以确定新神经网络的参数的训练值；通过在训练数据的验证子集上评估训练的新神经网络的性能，针对每个选定的候选架构并通过工作器计算单元，确定拟合度测度；通过工作器计算单元，基于所选定的具有最佳拟合度测度候选架构生成新的候选架构；将新的候选架构添加到总体中；以及从总体中移除最近被训练最少的候选架构。

该方法可以进一步包括提供指定优化架构的数据。该方法可以进一步包括确定具有优化的神经网络架构的神经网络的参数的训练值。该方法可以进一步包括提供指定训练参数的数据。操作可以进一步包括训练新的候选架构以确定训练的参数值；以及将参数的训练值与总体数据中的新候选架构相关联。确定具有优化的神经网络架构的神经网络的参数的训练值可以包括，选择与被关联最佳拟合度测度的架构相关联的训练值作为具有优化的神经网络架构的神经网络的参数的训练值。确定具有优化的神经网络架构的神经网络的参数的训练值可以包括在更多训练数据上进一步训练具有优化的神经网络架构的神经网络以确定训练值。针对每个选择的候选架构并且通过工作器计算单元，在训练数据的训练子集上训练具有候选架构的新神经网络以确定新神经网络的参数的训练值可以包括从与总体数据中的候选架构相关联的值开始训练新神经网络。该方法可以进一步包括利用多个默认候选架构来初始化总体。对于每个候选架构，定义候选架构的数据可以标识一个或多个单元的架构，每个单元被重复多次以生成候选架构。通过工作器计算单元基于所选定的具有最佳拟合度测度的候选架构来生成新的候选架构可以包括，针对具有最佳拟合度测度的候选架构中的至少一个单元修改架构。修改单元的架构可以包括：从突变集中随机选择突变；以及将随机选择的突变应用于单元的架构。修改单元的架构可以包括使用突变神经网络来处理指定具有最佳拟合度测度的候选架构的数据，其中已经训练突变神经网络以处理网络输入，该网络输入包括用于生成新的候选架构的数据。使用训练数据确定用于执行机器学习任务的优化的神经网络架构可以包括选择总体中具有最佳拟合度的候选架构作为优化的架构。机器学习任务可以是下述中的一个或者多个：图像处理、图像分类、语音识别和自然语言处理。

此方面的其他实施例包括相应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序，均被配置成执行方法的动作。一个或多个计算机的系统可以被配置成借助于安装在系统上的软件、固件、硬件或其任何组合来执行特定的操作或动作，该软件、固件、硬件或其任何组合在操作时可以使系统执行这些动作。一个或多个计算机程序可以被配置成借助于包括指令来执行特定的操作或动作，所述指令在由数据处理设备执行时使该装置执行动作。

可以在特定实施例中实现本说明书中描述的主题，使得实现下述优点中的一个或多个。通过使用本说明书中描述的老化进化技术确定神经网络的架构，系统可以确定在各种机器学习任务，例如，图像分类或另一图像处理任务中的任何一个上实现或甚至超过最先进的性能的网络架构。特别地，技术使用多个工作器计算单元中的每一个以通过在每次迭代时对具有最佳拟合度测度的相应候选架构进行突变来生成新架构，将新架构添加到候选架构的总体中，并从总体中移除最近被训练最少的旧的架构。通过在每次迭代时移除最近被训练最少的架构(或最旧的架构)，该系统允许总体中的所有候选架构具有短的寿命。因此，总体经常被完全更新，从而导致更多的多样性和更多的探索，这获得了更好的架构搜索结果，同时由于老化进化的简单性而保持了系统的效率。此外，因为仅选择最佳候选架构来进行突变，所以所描述的技术允许候选架构的总体随时间而显著改善。因此，与通过现有的神经网络架构搜索方法生成的架构相比，当执行特定的机器学习任务时，所得到的用于神经网络的优化架构具有更好的性能(例如，更好的精度)。这些技术可以确定这种优化的架构，同时需要最少的超参数和最少到没有用户输入。另外，系统可以以利用分布式处理的方式，即，通过在异步运行的多个工作器计算单元当中分布训练操作，来确定此架构，以更快地确定优化的架构。已经适应用于确定优化架构的操作，使得可以由分布式工作器计算单元异步和并行地执行操作，以更有效地确定优化的架构。

本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中阐述。从说明书、附图和权利要求书中，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1示出示例神经网络架构优化系统的架构。

图2A和2B示出用于执行机器学习任务的神经网络的示例候选架构。

图3示出单元的示例架构。

图4A和4B示出突变的示例。

图5是用于确定用于执行机器学习任务的优化的神经网络架构的示例过程的流程图。

在各个附图中，相似的参考数字和名称指示相似的元素。

具体实施方式

本说明书描述了一种神经网络架构优化系统，其被实现为一个或多个位置上的一台或多台计算机上的计算机程序，该计算机程序确定用于被配置成执行特定机器学习任务的神经网络的最佳网络架构。根据任务，神经网络可以被配置成接收任何类型的数字数据输入，并基于输入生成任何类型的得分、分类或回归输出。

例如，如果神经网络的输入是图像或已从图像中提取的特征，则神经网络针对给定图像生成的输出可以是对象类别(object category)集合中的每个对象类别的得分，每个得分表示该图像包含属于该类别的对象的图像的估计可能性。

作为另一个示例，如果神经网络的输入是互联网资源(例如，网页)、文档或文档的一部分或从互联网资源、文档或文档的一部分中提取的特征，则神经网络针对给定的互联网资源、文档或文档的一部分生成的输出可以是主题集合中的每个主题的得分，每个得分表示互联网资源、文档或文档部分与该主题有关的估计可能性。

作为另一个示例，如果神经网络的输入是特定广告的印象上下文的特征，则由神经网络生成的输出可以是表示该特定广告将被点击的估计可能性的得分。

作为另一示例，如果神经网络的输入是针对用户的个性化推荐的特征，例如，表征推荐的上下文的特征，例如，表征用户所采取的先前动作的特征，则由神经网络生成的输出可以是内容项集合中的每个内容项的得分，每个得分表示用户将对被推荐的内容项做出有利响应的估计可能性。

作为另一示例，如果神经网络的输入是一种语言的文本序列，则由神经网络生成的输出可以是另一种语言的文本片段集合中的每个文本片段的得分，每个得分表示该另一种语言的文本片段是输入文本到另一种语言的正确翻译的估计可能性。

作为另一示例，如果神经网络的输入是表示口语话语的序列，则由神经网络生成的输出可以是文本片段集合中的每个文本片段的得分，每个得分表示该文本片段是话语的正确转录的估计可能性。

图1示出示例神经网络架构优化系统100。神经网络架构优化系统100是被实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中以下所述的系统、组件和技术可以被实现。

神经网络架构优化系统100是下述系统：即，从系统的用户接收用于训练神经网络以执行机器学习任务的训练数据102，使用训练数据102确定用于执行机器学习任务的最佳神经网络架构，并训练具有最佳神经网络架构的神经网络，以确定神经网络的参数的训练值。

训练数据102通常包括多个训练示例以及针对每个训练示例的相应目标输出。针对给定训练示例的目标输出是应该由经训练的神经网络通过处理给定训练示例而生成的输出。系统100将接收到的训练数据划分为训练子集、验证子集和测试子集(可选)。

系统100可以以各种方式中的任何一种来接收训练数据102。例如，系统100可以例如使用由系统100提供的应用编程接口(API)，通过数据通信网络从系统的远程用户接收作为上传的训练数据。作为另一示例，系统100可以从用户接收输入，该输入指定系统100已经维护的哪些数据应当用作训练数据102。

神经网络架构优化系统100使用训练数据102生成指定经训练的神经网络的数据152。数据152指定经训练的神经网络的最佳架构以及具有最佳架构的经训练的神经网络的参数的训练值。

一旦神经网络架构优化系统100已生成数据152，则神经网络架构优化系统100可以使用经训练的神经网络数据152实例化经训练的神经网络，并使用经训练的神经网络来处理新接收到的输入以例如通过系统提供的API来执行机器学习任务。即，系统100可以接收待处理的输入，使用经训练的神经网络来处理输入，并响应于接收到的输入而提供由经训练的神经网络生成的输出或从生成的输出导出的数据。替代地或另外，系统100可以存储经训练的神经网络数据152以供以后在实例化经训练的神经网络时使用，或者可以将经训练的神经网络数据152传输到另一系统以在实例化经训练的神经网络时使用，或向提交训练数据的用户输出数据152。

机器学习任务是由用户指定的任务，该用户将训练数据102提交给系统100。

在一些实施方式中，用户通过将标识任务的数据与训练数据102一起提交给神经网络架构优化系统100来显式定义任务。例如，系统100可以在用户的用户设备上呈现用户界面，其允许用户从系统100支持的任务列表中选择任务。也就是说，神经网络架构优化系统100可以维护机器学习任务的列表，例如，如图像分类的图像处理任务、语音识别任务、如情感分析的自然语言处理任务等等。系统100可以通过在用户界面中选择任务之一来允许用户选择所维护的任务之一作为要针对其使用训练数据的任务。

在一些其他实施方式中，用户提交的训练数据102指定机器学习任务。即，神经网络架构优化系统100将任务定义为处理具有与训练数据102中的训练示例相同格式和结构的输入的任务，以便生成具有与用于训练示例的目标输出相同格式和结构的输出。例如，如果训练示例是具有特定分辨率的图像并且目标输出是一千维度矢量，则系统100可以将任务标识为将具有特定分辨率的图像映射到一千维度矢量的任务。例如，一千维度目标输出矢量可以具有非零值的单个元素。非零值的位置指示训练示例图像属于1000个类别中的哪个类别。在此示例中，系统100可以识别任务是将图像映射到一千维度概率矢量。每个元素表示图像属于相应类别的概率。CIFAR-1000数据集是此类训练数据102的示例，该数据集由与从1000个可能的类别中选择的目标输出分类配对的50000个训练示例构成。CIFAR-10是相关的数据集，其中分类是十个可能类别之一。合适的训练数据102的另一示例是MNIST数据集，其中训练示例是手写数字的图像，而目标输出是这些图像表示的数字。目标输出可以表示为具有单个非零值的十维矢量，其中非零值的位置指示相应数字。

神经网络架构优化系统100包括总体存储库110和多个工作器计算单元(也称为“工作器”)120A-N，其相互独立地运行以更新存储在总体存储库110中的数据。

在训练期间的任何给定时间，总体存储库110被实现为一个或多个物理位置中的一个或多个存储设备，并存储指定候选神经网络架构的当前总体的数据。系统100可以利用一个或多个默认神经网络架构来初始化总体存储库。

总体存储库110存储总体数据，针对候选架构总体中的每个候选架构，该总体数据包括，(i)定义候选架构的数据，以及(ii)指定最近如何训练具有该候选架构的神经网络的数据。可选地，针对每个候选架构，总体存储库110还可以存储具有该架构的神经网络的实例、具有该架构的神经网络的参数的当前值或表征该架构的附加元数据。

总体中的每个候选架构包括多个单元的堆栈。在一些情况下，除了单元的堆栈之外，候选架构还包括一个或多个其他神经网络层，例如，输出层和/或一个或多个其他类型的层。例如，候选架构可以包括跟随有softmax分类神经网络层的单元的堆叠。下面参考图2更详细地描述总体中的候选架构的示例。

通常，单元是被配置成接收单元输入并生成针对单元输入的单元输出的全卷积神经网络。在一些实施方式中，候选架构的单元的堆栈中的每个单元可以从前一单元接收直接输入并且从前一单元之前的单元接收跳过输入。

单元包括多个操作块，例如，三个、五个或十个操作块。单元中的每个操作块接收一个或多个相应的输入隐藏状态，并使用相应的成对的组合从输入隐藏状态构造相应的输出隐藏状态。特别地，成对的组合将第一操作应用于第一输入隐藏状态，将第二操作应用于第二隐藏状态，并且组合第一操作和第二操作的输出以生成输出隐藏状态。

候选架构的总体中的给定候选架构由多个成对的组合指定，所述多个成对的组合形成通过候选架构重复的单元。在总体中的每个候选架构包括不同类型的单元的堆栈的一些实施方式中，可以通过针对每种类型的单元的相应的成对的组合来指定给定的候选架构。

例如，给定的候选架构可以包括两种不同类型的单元的堆栈：普通单元和规约单元。可以通过组成普通单元的五个成对组合和组成规约单元的五个成对组合来指定候选架构。

下面参考图3更详细地描述单元和成对组合的示例架构。

工作器120A-120N中的每一个被实现为一个或多个计算机程序和数据，这些计算机程序和数据被部署为在相应的计算单元上执行。计算单元被配置成使得它们可以彼此独立地运行。在一些实施方式中，例如，因为工作器共享一些资源，所以仅实现部分操作的独立性。计算单元可以是例如计算机、具有多个核的计算机内的核或计算机内的能够独立地为工作器执行计算的其他硬件或软件。

工作器120A-120N中的每一个迭代地更新总体存储库102中的可能的神经网络架构的总体，以改善总体的拟合。每个工作器都彼此独立和异步运行。

特别地，在每次迭代中，给定的工作器120A-120N(例如，工作器120A)从总体中选择多个候选架构(例如，候选架构122)。

然后，给定的工作器针对每个选定的候选架构在训练数据102的训练子集上训练具有候选架构的新神经网络，以确定新神经网络的参数的训练值。工作器可以从与总体数据中的候选架构相关联的参数值开始训练新的神经网络。

工作器针对每个选定的候选架构，通过在训练数据的验证子集上评估经训练的新神经网络的性能来确定拟合度测度。拟合度测度可以是适合于机器学习任务并且测量神经网络在机器学习任务上的性能的任何测度。例如，拟合度测度可以包括各种分类错误、交并比测度、奖励或回报指标等等。

工作器基于所选定的具有最佳拟合度测度的候选架构来生成新的候选架构(例如，新的候选架构124)。特别地，工作器修改具有最佳拟合度测度的候选架构中的至少一个单元的架构。

在一些实施方式中，工作器通过经由突变神经网络处理指定所选定的候选架构的数据来对所选定的候选架构进行突变。突变神经网络是下述神经网络：其已经被训练为接收包括指定架构的数据的输入并生成定义不同于输入架构的另一架构的输出。

在一些其他实施方式中，工作器维护标识可以被应用于输入架构的可能突变集的数据。例如，工作器可以从突变集中随机选择突变，并将随机选择的突变应用于所选定的候选结构。

可能的突变集可以包括表示从架构中添加、移除或修改组件的多种架构修改中的任何一种，或用于训练具有该架构的神经网络的超参数的变化。在下面参考图4详细描述突变的示例。

在从所选定的具有最佳拟合度测度的候选架构生成新的候选架构之后，然后工作器将新的候选架构添加到总体中，并从总体中移除最近被训练最少的候选架构。通过在每次迭代中移除最近被训练最少的架构(或最旧的架构)，系统100允许总体中的所有候选架构具有短的寿命。因此，总体经常被完全更新，从而导致更多的多样性和更多的探索，这在保持系统效率的同时获得了更好的架构搜索结果。用于从总体中选择候选架构、添加基于所选定的具有最佳拟合度测度的候选架构生成的新候选架构以及从总体中移除最旧的候选架构的过程可以称为“老化进化”或“正则化进化”。老化进化很简单，因为它具有很少的元参数，大多数元参数不需要调整，从而减少与搜索相关联的计算成本(与需要训练代理/控制器的其他技术相比，代理/控制器通常自身是具有许多权重的神经网络，并且其优化具有更多的元参数以调整：学习率进度表、贪婪、批处理、重播缓冲区等。)此外，因为仅选择在每次迭代时具有最佳拟合度测度的候选架构进行突变，所以正则化进化过程允许候选架构的总体随着时间而改善，从而导致与现有的神经网络架构搜索方法相比优化的神经网络在执行特定的机器学习任务时具有更好的性能(例如，更好的精度)。

一旦已经满足用于训练的终止标准(例如，在已经执行超过阈值的迭代次数之后，或者在总体存储库中的最佳拟合候选神经网络的拟合度超过阈值之后)，该神经网络架构优化系统100从总体中剩余的架构中选择最佳的神经网络架构，或者在一些情况下，从在训练期间的任意时间点处于总体中的所有架构中选择最佳的神经网络架构。

特别地，在一些实施方式中，神经网络架构优化系统100在总体中选择具有最佳拟合度测度的架构。在其他实施方式中，神经网络架构优化系统100即使在将这些架构从总体中移除之后也跟踪架构的拟合度测度，并使用所跟踪的拟合度测度来选择具有最佳拟合度测度的架构。

为了生成指定经训练的神经网络的数据152，在一些实施方式中，神经网络架构优化系统100从总体存储库110获得具有最优神经网络架构的经训练的神经网络的参数的训练值。在一些其他实施方式中，系统100例如从头开始或者微调作为确定神经网络的优化架构的结果而生成的参数值来训练具有优化架构的神经网络。该系统可以进一步在更多训练数据上训练具有优化的神经网络架构的神经网络，以确定经训练的神经网络的最终训练值。

然后，系统100使用经训练的神经网络例如通过系统提供的API来处理由用户接收到的请求。在其他实施方式中，系统可以响应于接收到训练数据102例如通过数据通信网络向用户提供指定优化架构的数据，以及可选地提供经训练的参数值。

在系统100从训练数据生成测试子集的实施方式中，系统还在测试子集上测试具有优化的神经网络架构的经训练的神经网络的性能，以确定在用户指定的机器学习任务上经训练的神经网络的拟合度测度。然后，系统100可以提供拟合度测度以呈现给提交训练数据的用户，或者与经训练的神经网络的参数的训练值相关联地存储拟合度测度。

图2A和2B图示用于执行机器学习任务的神经网络200的示例架构。

神经网络200包括单元的堆栈201。堆栈201包括一个接一个地堆叠的多个单元。

在一些实施方式中，堆栈201中的单元具有相同的单元类型，即，所有单元具有相同的架构，但是可以具有不同的参数值。在一些实施方式中，堆栈201中的单元具有不同的单元类型。例如，如图2A中所示，堆栈201包括两种类型的单元：普通单元和规约单元。特别地，堆栈201包括N个普通单元的堆栈204、规约单元206、N个普通单元的堆栈208、规约单元210以及N个普通单元的堆栈212，其中N个普通单元的堆栈204跟随有规约单元206，规约单元206跟随有N个普通单元的堆栈208，N个普通单元的堆栈208跟随有规约单元210，规约单元210跟随有N个普通单元的堆栈212。所有普通单元具有相同的结构，规约单元也是如此。普通单元的架构与规约单元的架构无关。普通单元和规约单元在2018年CVPR，B.Zoph，V.Vasudevan，J.Shlens和Q.V.Le.，“学习用于可扩展图像识别的可转移架构(Learningtransferable architectures for scalable image recognition)”中有更详细的描述，该论文的网址为https://arxiv.org/pdf/1707.07012.pdf。

通常，堆栈201中的每个单元被配置成接收一个或多个先前单元的一个或多个输出作为输入，并处理该输入以生成针对该输入的输出。例如，每个单元被配置成接收来自于前一个单元(紧接在当前单元之前)的直接输入以及来自于前一个单元之前的单元的跳过输入。如在图2B的示例中所示，每个单元具有两个输入激活张量和一个输出。堆栈201中的第一单元接收网络输入202的两个副本作为输入。跟随第一单元的每个单元接收前两个单元的输出作为输入。

在一些实施方式中，为了减少与处理输入图像相关联的计算成本，规约单元的每次应用都可以跟随有步幅2的卷积运算，其减小规约单元的输出的图像尺寸。普通单元可以保留图像大小。

神经网络200包括跟随单元堆栈201的子网络214。子网络214被配置成接收单元堆栈201的输出作为输入并处理单元堆栈201的输出以生成网络输出216。例如，子网络214包括soft-max分类神经网络层。

图3示出单元300的示例架构。

单元300包括多个操作块：块302、304、306、308和310。单元300接收两个输入张量，该两个输入张量被视为隐藏状态“0”和“1”。然后通过成对组合来构造单元300的更多隐藏状态。例如，成对组合将第一操作应用于第一隐藏状态，将第二操作应用于第二隐藏状态，并且组合(通过添加或级联)第一操作和第二操作的输出以生成新的隐藏状态。从包括例如卷积、池化层的可能的操作的预定集合中选择第一操作和第二操作。

如图3中所示，块302的第一个成对组合将3×3平均池化操作应用于隐藏状态0，并将3×3最大池化操作应用于隐藏状态1，以便产生隐藏状态2。下一个成对组合可以从隐藏状态0、1以及2中选择以产生隐藏状态3(在此示例中，块304的成对组合选择隐藏状态0和1作为输入)，依此类推。在对应于五个块的五个成对组合之后，将保持未使用的任何隐藏状态(例如，图3中的隐藏状态5和6)级联以形成单元300的输出(隐藏状态7)。

图4A和4B图示突变的示例。

特别地，图4A图示隐藏状态突变，其包括对是否修改给定候选架构的普通单元或规约单元进行随机选择。一旦选择单元，隐藏状态突变就会随机地均匀地选择五个成对组合之一。然后，隐藏状态突变随机地均匀地选择所选定的成对组合的两个操作402和404之一，并将与所选定的操作相关联的隐藏状态替换为来自单元内的另一隐藏状态。如图4A中所示，所选定的操作404具有一个隐藏状态3。该突变用来自单元内的隐藏状态4替换此隐藏状态。为了保持单元的卷积神经网络架构的前馈特性，可以在不形成任何回路的约束下替换与所选定的操作相关联的隐藏状态。

图4B图示操作突变，就选择两个单元之一、五个成对组合之一以及所选定的成对组合的两个操作之一而言该操作突变与隐藏状态突变类似地操作。代替修改与所选操作相关联的隐藏状态，操作突变修改所选定的操作本身。特别地，操作突变用从预定的操作集中随机选择的操作来代替所选定的操作。例如，预定的操作集可以包括但不限于3x3深度可分离的卷积、5x5深度可分离卷积、7x7深度可分离卷积、1x7之后是7x1的卷积、标识、3x3平均池化、3x3的最大池化、以及3x3扩张卷积。

如图4B中所示，操作406被无操作408代替(例如，允许通过身份操作的输入通过而不改变该输入，即，身份操作的输出与输入相同)。

图5是用于确定用于执行机器学习任务的优化的神经网络架构的示例过程的流程图。为了方便起见，将过程500描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，根据该说明书适当编程的神经网络架构优化系统，例如，根据该说明书适当编程的图1的神经网络架构优化系统100可以执行过程500。

系统接收用于训练神经网络以执行机器学习任务的训练数据(步骤501)。训练数据包括多个训练示例以及针对每个训练示例的相应目标输出。系统将接收到的训练数据划分为训练子集、验证子集以及测试子集(可选)。

系统将总体数据保持在总体库中(步骤502)。系统可以利用一个或多个默认神经网络架构来初始化总体存储库。针对候选架构的总体中的每个候选架构，总体数据包括(i)定义候选架构的数据，以及(ii)指定在确定优化的神经网络架构时最近如何训练具有候选架构的神经网络的数据。

系统使用多个工作器计算单元中的每一个重复执行以下步骤504-514，直到已经满足训练的终止标准为止。每个工作器都与每个其他工作器异步运行。

系统通过工作器计算单元从总体中选择多个候选架构(步骤504)。

系统针对每个选定的候选架构并通过工作器计算单元在训练数据的训练子集上训练具有候选架构的新神经网络，以确定新神经网络的参数的训练值(步骤506)。工作器可以从与总体数据中的候选架构相关联的参数值开始训练新的神经网络。

系统通过在训练数据的验证子集上评估经训练的新神经网络的性能来针对每个选定的候选架构并且通过工作器计算单元来确定拟合度测度(步骤508)。拟合度测度可以是适合于机器学习任务并且可以测量神经网络在机器学习任务上的性能的任何测度。例如，拟合度测度可以包括各种分类错误、交并比测度、奖励或回报指标等。

系统通过工作器计算单元基于所选定的具有最佳拟合度测度的候选架构来生成新的候选架构(步骤510)。特别地，工作器修改具有最佳拟合度测度的候选架构中的至少一个单元的架构。

在一些实施方式中，工作器通过经由突变神经网络处理指定所选定的候选架构的数据来突变所选定候选架构。突变神经网络是下述神经网络：其可以被训练为接收包括指定架构的数据的输入，并生成定义不同于输入架构的另一架构的输出。

在一些其他实施方式中，工作器维护标识可应用于输入架构的可能的突变集的数据。例如，工作器可以从突变集中随机选择突变，并将随机选择的突变应用于所选定的候选结构。

可能的突变集可以包括表示从架构中添加、移除或修改组件的多种架构修改中的任何一种，或者用于训练具有该架构的神经网络的超参数的变化。

系统将新的候选架构添加到总体(步骤512)。

系统从总体中移除最近被训练最少的候选架构(步骤514)。通过在老化进化过程中的每次迭代中移除最近被训练最少的架构(或最旧的架构)，该系统允许总体中的所有候选架构具有短的寿命。因此，总体经常被全部更新，从而导致更多的多样性和更多的探索，这获得了更好的神经网络架构搜索结果，同时保持乐系统的效率(由于老化进化的简单性)。

系统提供指定优化架构的数据(步骤516)。特别地，系统选择最佳拟合的候选神经网络架构作为优化的神经网络架构，以用于执行机器学习任务。也就是说，一旦工作器完成执行迭代并已经满足终止标准，例如，在已经执行超过阈值的迭代次数之后，或者在总体存储库中最佳拟合的候选神经网络的拟合度超过阈值之后，系统选择最佳拟合的候选神经网络架构作为最终的神经网络架构以用于执行机器学习任务。

在一些实施方式中，系统从总体存储库获得具有优化的神经网络架构的经训练的神经网络的参数的训练值。在一些其他实施方式中，该系统例如从头开始或者微调作为确定用于神经网络的优化架构的结果而生成的参数值来训练具有优化架构的神经网络。该系统可以进一步在更多训练数据上训练具有优化的神经网络架构的神经网络，以确定经训练的神经网络的最终训练值。

然后，系统使用经训练的神经网络例如通过系统提供的API来处理用户接收的请求。在其他实施方式中，系统可以响应于接收到训练数据例如通过数据通信网络向用户提供指定优化架构的数据，以及可选地提供经训练的参数值。

在系统从训练数据生成测试子集的实施方式中，系统还在测试子集上测量具有优化的神经网络架构的经训练的神经网络的性能，以确定经训练的神经网络在用户指定的机器学习任务上的拟合度测度。然后，系统可以提供拟合度测度以呈现给提交训练数据的用户，或者与经训练的神经网络的参数的训练值相关联地存储拟合度测度。

因为仅选择在每次迭代时具有最佳拟合度测度的候选架构进行突变，所以上述方法允许候选架构的总体随时间而改善，从而导致与现有的神经网络架构搜索方法相比优化的神经网络在执行特定的机器学习任务时具有更好性能(例如，更好的精度)。

此外，使用所描述的方法，系统可以自动生成最终经训练的神经网络，其能够在机器学习任务上实现与最先进的手工设计模型相竞争并且超过其的性能，同时需要很少或者不需要来自于神经网络设计者的输入。

本说明书在系统和计算机程序组件中使用术语“已配置”。对于要被配置为执行特定操作或动作的一个或多个计算机的系统，意味着该系统已在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合在操作时使系统执行这些操作或动作。对于要被配置为执行特定操作或动作的一个或多个计算机程序，意味着该一个或多个程序包括指令，该指令在由数据处理装置执行时使该装置执行这些操作或动作。

本说明书中描述的主题和功能操作的实施例可以在数字电子电路中、在有形体现的计算机软件或固件中、在计算机硬件(包括本说明书中公开的结构及其等同结构)中或它们中的一个或多个的组合中实施。本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序，即，在有形的非暂时性存储介质上编码的计算机程序指令的一个或多个模块，以由数据处理装置执行或控制数据处理装置的操作。该计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行访问存储设备或它们中的一个或多个的组合。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如，机器生成的电、光或电磁信号，其被生成以对信息进行编码以传输到合适的接收器装置以由数据处理装置来执行。

术语“数据处理装置”是指数据处理硬件，并且包括用于处理数据的所有类型的装置、设备和机器，例如包括可编程处理器、计算机或多个处理器或计算机。该装置还可以是或进一步包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除硬件之外，该装置可以可选地包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

可以以任何形式的编程语言，包括编译或解释语言、声明或过程语言编写计算机程序，计算机程序也可以被称为或描述为程序、软件、软件应用、应用、模块、软件模块、脚本或代码；它可以以任何形式进行部署，包括作为独立程序或作为模块、组件、子例程或适用于计算环境的其他单元来部署。程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中、专用于所讨论程序的单个文件中或多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)中。可以将计算机程序部署为在一台计算机或位于一个站点或分布在多个站点并通过数据通信网络互连的多台计算机上执行。

在本说明书中，术语“数据库”被广泛地用于指代任何数据集合：数据不需要以任何特定方式进行结构化或完全结构化，并且可以将数据存储在一个或多个位置的存储设备中。因此，例如，索引数据库可以包括多个数据集合，每个数据集合可以被不同地组织和访问。

类似地，在本说明书中，术语“引擎”广泛地用于指代被编程以执行一个或多个特定功能的基于软件的系统、子系统或过程。通常，引擎将被实现为安装在一个或多个位置的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下，一个或多个计算机将专用于特定引擎。在其他情况下，可以在相同的一个或多个计算机上安装并运行多个引擎。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能的一个或多个可编程计算机来执行。所述过程和逻辑流程还可以由专用逻辑电路(例如FPGA或ASIC)执行，或者由专用逻辑电路和一个或多个编程计算机的组合来执行。

适用于执行计算机程序的计算机可以基于通用或专用微处理器或两者，或者基于任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。通常，计算机还将包括一个或多个用于存储数据的大容量存储设备，例如，磁、磁光盘或光盘，或计算机被可操作地耦合为从上述大容量存储设备接收数据或将数据传输到上述大容量存储设备或两者。但是，计算机不必具有此类设备。此外，计算机可以被嵌入到另一个设备中，例如，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或便携式存储设备，例如，通用串行总线(USB)闪存驱动器，仅举几例。

适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM光盘。

为了提供与用户的交互，可以在具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)或LCD(液晶显示器))监视器以及用户可以通过其向计算机提供输入的键盘和点击设备(例如，鼠标或轨迹球)的计算机上实现本说明书中描述的主题的实施例。其他种类的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档以及从用户使用的设备接收文档来与用户进行交互；例如，通过响应于从web浏览器接收的请求，将网页发送到用户设备上的web浏览器来与用户进行交互。而且，计算机可以通过将文本消息或其他形式的消息发送到个人设备(例如，运行消息收发应用的智能手机)并反过来从用户接收响应消息来与用户交互。

用于实现机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元，用于处理机器学习训练或过程的公共部分和计算密集型部分，即，推理、工作负载。

可以使用机器学习框架，例如TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架或Apache MXNet框架来实现和部署机器学习模型。

本说明书中描述的主题的实施例可以在包括后端组件(例如，作为数据服务器)或包括中间件组件(例如，应用服务器)或包括前端组件(例如，具有图形用户界面、web浏览器或用户可通过其与本说明书中描述的主题的实施方式进行交互的应用的客户端计算机)或者包括一种或多种此类后端、中间件或前端组件的任何组合的计算系统中实施。系统的组件可以通过数字数据通信的任何形式或介质(例如，通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如，互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系是通过在各个计算机上运行并彼此具有客户端-服务器关系的计算机程序产生的。在一些实施例中，服务器向用户设备发送数据，例如HTML页面，例如用于向与充当客户端的设备交互的用户显示数据并从所述用户接收用户输入。可以在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

尽管本说明书包含许多特定的实施细节，但是这些不应被解释为对任何发明的范围或所要求保护的范围的限制，而应解释为对特定发明的特定实施例而言特定的特征的描述。本说明书中在单独的实施例的场境中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的场境中描述的各种特征也可以在多个实施例中单独地或以任何合适的子组合来实现。此外，尽管以上可能将特征描述为以某些组合形式起作用并且甚至最初也这样要求保护，但在一些情况下，来自所要求保护的组合的一个或多个特征可以从该组合中删除，并且所要求保护的组合可以指向子组合或子组合的变体。

类似地，尽管以特定顺序在附图中描绘了操作并在权利要求中记载了操作，但这不应理解为要求以所示的特定顺序或以串行顺序执行这些操作，或者执行所有图示的操作，以取得理想的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这种分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或被封装成多个软件产品。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或串行顺序来实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。

Claims

1.一种方法，包括：

接收用于训练神经网络以执行机器学习任务的训练数据，所述训练数据包括多个训练示例以及针对每个训练示例的相应目标输出；以及

使用所述训练数据确定用于执行所述机器学习任务的优化的神经网络架构，包括：

保持总体数据，针对候选架构的总体中的每个候选架构,所述总体数据包括(i)定义所述候选架构的数据以及(ii)指定在确定所述优化的神经网络架构时最近如何训练具有所述候选架构的神经网络的数据，以及

使用均与每个其他工作器计算单元异步运行的多个工作器计算单元中的每一个来重复执行下述操作：

通过所述工作器计算单元，从所述总体中选择多个候选架构，

针对每个选定的候选架构并且通过所述工作器计算单元，在所述训练数据的训练子集上训练具有所述候选架构的新神经网络以确定所述新神经网络的参数的训练值；

通过在所述训练数据的验证子集上评估经训练的新神经网络的性能，针对每个选定的候选架构并且通过所述工作器计算单元确定拟合度测度，

通过所述工作器计算单元，基于具有最佳拟合度测度的所选定的候选架构生成新的候选架构；

将所述新的候选架构添加到所述总体中，以及

从所述总体中移除最近被训练最少的候选架构。

2.根据权利要求1所述的方法，进一步包括：

提供指定所述优化的架构的数据。

3.根据权利要求1或者2中的任意一项所述的方法，进一步包括：

确定具有所述优化的神经网络架构的神经网络的参数的训练值。

4.根据权利要求3所述的方法，进一步包括：

提供指定训练参数的所述数据。

5.根据权利要求3或者4中的任意一项所述的方法，所述操作进一步包括：

训练所述新的候选架构以确定参数的训练值；以及

将所述参数的训练值与所述总体数据中的新候选架构相关联。

6.根据权利要求5所述的方法，其中，确定具有所述优化的神经网络架构的神经网络的参数的训练值包括：

选择与关联于所述最佳拟合度测度的架构相关联的训练值作为具有所述优化的神经网络架构的所述神经网络的参数的训练值。

7.根据权利要求5所述的方法，其中，确定具有所述优化的神经网络架构的神经网络的参数的训练值包括：

在更多训练数据上进一步训练具有所述优化的神经网络架构的神经网络以确定所述训练值。

8.根据权利要求5-7中的任意一项所述的方法，其中，针对每个选定的候选架构并且通过所述工作器计算单元，在所述训练数据的训练子集上训练具有所述候选架构的新神经网络以确定所述新神经网络的参数的训练值包括：从与所述总体数据中的所述候选架构相关联的所述值开始训练所述新神经网络。

9.根据权利要求1-8中的任意一项所述的方法，进一步包括：

利用多个默认候选架构来初始化所述总体。

10.根据权利要求1-9中的任意一项所述的方法，其中，针对每个候选架构，定义所述候选架构的数据标识一个或多个单元的架构，每个单元被重复多次以生成所述候选架构。

11.根据权利要求10所述的方法，其中，通过所述工作器计算单元基于所选定的具有所述最佳拟合度测度的候选架构来生成新的候选架构包括：

修改具有所述最佳拟合度测度的所述候选架构中的至少一个单元的所述架构。

12.根据权利要求11所述的方法，其中，修改单元的所述架构包括：

从突变集中随机选择突变；以及

将随机选择的突变应用于所述单元的所述架构。

13.根据权利要求11所述的方法，其中，修改单元的所述架构包括：

使用突变神经网络来处理指定具有所述最佳拟合度测度的所述候选架构的数据，其中，已经训练所述突变神经网络以处理网络输入，所述网络输入包括用于生成所述新的候选架构的所述数据。

14.根据权利要求1-13中的任意一项所述的方法，其中，使用所述训练数据确定用于执行所述机器学习任务的优化的神经网络架构进一步包括：

选择所述总体中具有最佳拟合度的所述候选架构作为所述优化的架构。

15.根据任意前述权利要求所述的方法，其中，所述机器学习任务是下述中的一个或多个：图像处理、图像分类、语音识别和自然语言处理。

16.一种系统，所述系统包括可操作的一个或多个计算机和一个或多个存储设备，所述存储设备存储指令，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-15中任意一项所述的相应方法的操作。

17.一种计算机存储介质，所述计算机存储介质通过指令进行编码，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-15中的任意一项所述的相应方法的操作。