CN110503192A

CN110503192A - 资源有效的神经架构

Info

Publication number: CN110503192A
Application number: CN201910384998.2A
Authority: CN
Inventors: 周彥祺; 萨瓦什·阿布拉希米; 塞尔坎·安瑞克; 余昊男; 刘海容; 格雷戈里·迪莫斯
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2018-05-18
Filing date: 2019-05-09
Publication date: 2019-11-26
Anticipated expiration: 2039-05-09
Also published as: US20190354837A1; CN110503192B; US11741342B2

Abstract

神经架构搜索(NAS)是费力的过程。与自动化NAS目标有关的先前工作主要是提高精度，但未考虑计算资源使用。本文提出资源有效的神经架构(RENA)的实施方式，这是使用强化学习的具有网络嵌入的高效的资源受限NAS。RENA实施方式使用策略网络处理网络嵌入以生成新配置。本文还提出与图像识别和关键词检测(KWS)问题有关的RENA实施方式的示例证明。在即使资源严重受限的情况下，RENA实施方式也可找到实现高性能的新型架构。对于CIFAR10数据集，测试的实施方式在计算强度大于100FLOP/byte时具有2.95％的测试误差，并且在模型大小小于3M参数时具有3.87％的测试误差。对于谷歌语音命令数据集，测试后的RENA实施方式实现了在无资源约束的情况下的最先进精度，并在资源严重受限的情况下优于优化的架构。

Description

资源有效的神经架构

相关申请的交叉引用

本申请要求于2018年5月18日提交的、题为“RESOURCE-EFFICIENT NEURALARCHITECT(资源有效的神经架构)”的第62/673,309号(案卷号：28888-2233P)美国临时专利申请的优先权权益，其将Yanqi Zhou、Siavash Ebrahimi、Sercan Arik、Haonan Yu和Hairong Liu列为发明人。上述专利文件通过引用以其整体且出于任何目的被并入本文中。

技术领域

本公开总体上涉及用于计算机学习的系统和方法，其能够提供改进的计算机性能、特征和用途。更具体地，本公开涉及用于高效的资源受限的神经架构搜索(NeuralArchitecture Search，NAS)的实施方式。

背景技术

深度神经网络已经在具有挑战性的研究基准测试上表现出优异的性能，同时推动了诸如语言翻译、语音识别、语音合成、图像识别和图像合成的众多有影响应用的前沿。尽管取得了这些进步，但设计神经网络仍是费力的任务，需要丰富的经验和专业知识。为了在实现竞争性能的同时使神经网络开发过程自动化，提出了神经架构搜索(NAS)。对于例如图像识别的一些竞争性基准测试，与手动设计的模型相比，NAS得到了非常有前景的结果。

人工智能研究的历史趋势已改进了模型在特定任务上的性能，而未考虑资源使用度量，诸如模型存储、复杂性和功耗。迎合这一趋势，开发了具有特殊设计架构的更大且更深的神经网络。另一方面，随着深度神经网络开始更广泛地部署在不同的应用中，除了性能之外，资源约束也变得至关重要。

因此，需要能够在不同的资源约束下利用合理的搜索量使寻找高性能神经网络架构的过程自动化的实施方式。

发明内容

根据本公开的一个方面，提供了一种用于执行神经架构搜索的计算机实施方法，其包括：

使用包括网络嵌入递归神经网络、缩放递归神经网络和动作递归神经网络的策略网络：

使用所述网络嵌入递归神经网络将神经网络架构转换成所述神经网络架构的网络嵌入，其中，所述神经网络架构包括一个或多个层、一个或多个网络模块或一个或多个层和一个或多个网络模块，并且所述一个或多个层或者一个或多个网络模块中的每个均具有至少一个相应特征；

使用所述缩放递归神经网络来识别所述神经网络架构的特征中的一个或多个特征，其中，所述缩放递归神经网络接收所述神经网络架构的所述网络嵌入；

使用所述动作递归神经网络来确定是移除所述网络架构的一部分、保持所述网络架构的一部分还是向所述网络架构添加一部分，其中，所述动作递归神经网络接收所述神经网络架构的所述网络嵌入，其中所述网络架构的一部分为层或一个或多个模块；

通过以下步骤创建改变的神经网络架构：

响应于所述动作递归神经网络指示移除一部分，从所述网络架构移除所述一部分并根据所移除的部分来调整一个或多个输入；

响应于所述动作递归神经网络指示保持一部分，改变所述神经网络架构的由所述缩放递归神经网络指示的一个或多个特征；以及

响应于所述动作递归神经网络指示插入一部分，通过插入具有特征的所述一部分来改变所述神经网络架构，其中，所述一部分及其特征从分布中采样；以及

输出改变后的神经网络架构。

根据本公开的另一方面，提供了一种神经网络架构系统，其包括：

一个或多个处理器；

包括一个或多个指令序列的非暂时性计算机可读介质，当所述一个或多个指令序列被所述一个或多个处理器中的至少一个运行时，使以下步骤执行：

通过以下步骤创建改变的神经网络架构：

输出改变后的神经网络架构。

根据本公开的又一方面，提供了一种非暂时性计算机可读介质，包括一个或多个指令序列，当所述一个或多个指令序列被一个或多个处理器中的至少一个执行时使以下步骤被执行：

通过以下步骤创建改变的神经网络架构：

输出改变后的神经网络架构。

附图说明

将参照本公开的实施方式，其示例可以在附图中示出。这些附图旨在为说明性的而非限制性的。虽然大体上在这些实施方式的上下文中描述本公开，但应理解的是，本公开的范围并不旨在受限于这些特定实施方式。附图中的项目可能未按比例绘制。

图1示出了根据本公开的实施方式的神经架构的高层次描述。

图2描绘了根据本公开的实施方式的可被神经架构框架使用的常规方法。

图3描绘了根据本公开的实施方式的具有网络嵌入的策略网络(policynetwork)，其中，基于长短期记忆(LSTM)的网络将现有神经网络配置转换成可训练的表示并且可训练的表示被馈送至基于LSTM的策略网络以产生动作。

图4是根据本公开的实施方式的可被策略网络使用以调整网络配置的方法。

图5以图形方式示出了根据本公开的实施方式的嵌入网络，其中，层嵌入网络采用层描述并将层特征映射至多个查找表中。

图6描绘了根据本公开的实施方式的利用概率质量函数来促进架构配置探索的方法。

图7描绘了根据本公开的实施方式的逐层搜索方法。

图8以图形方式描绘了根据本公开的实施方式的用于逐层搜索的示例性插入操作。

图9描绘了根据本公开的实施方式的模块搜索方法。

图10以图形方式描绘了根据本公开的实施方式的用于模块搜索的示例性插入操作。

图11以图形方式描绘了根据本公开的实施方式的用于策略梯度的强化步骤。

图12描绘了根据本公开的实施方式的用于策略梯度的强化的常规方法。

图13描绘了根据本公开的实施方式的示出了针对CIFAR-10数据集的最佳精度相比于整体搜索的网络架构的图。

图14描绘了示出根据本公开的实施方式的针对谷歌语音命令数据集、将RENA实施方式与随机搜索在资源受限的架构搜索方面进行比较的图。

图15示出了根据本公开的实施方式的计算装置/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于解释目的，对具体细节进行阐述以提供对本公开的理解。然而，将对本领域技术人员显而易见的是，可在没有这些细节的情况下实践本公开。此外，本领域的技术人员将认识到，下文描述的本公开的实施方式可以以各种方式(例如，过程、设备、系统、装置或方法)在有形的计算机可读介质上实施。

附图中示出的部件或模块是本公开示例性实施方式的说明，并且意图避免使本公开不清楚。还应理解，在本论述的全文中，部件可描述为单独的功能单元(可包括子单元)，但是本领域的技术人员将认识到，各种部件或其部分可划分成单独部件，或者可集成在一起(包括集成在单个系统或部件内)。应注意，本文论述的功能或操作可实施为部件。部件可以以软件、硬件、或它们的组合实施。

此外，附图内的部件或系统之间的连接并不旨在限于直接连接。相反，在这些部件之间的数据可由中间部件修改、重格式化、或以其它方式改变。另外，可使用附加连接或更少的连接。还应注意，术语“联接”、“连接”、或“通信地联接”应理解为包括直接连接、通过一个或多个中间装置来进行的间接连接、以及无线连接。

在本说明书中对“一个实施方式”、“优选实施方式”、“实施方式”或“多个实施方式”的提及表示结合实施方式所描述的具体特征、结构、特性或功能包括在本公开的至少一个实施方式中，以及可包括在多于一个的实施方式中。另外，在本说明书的各个地方出现以上所提到的短语并不一定全都是指相同的实施方式或多个相同实施方式。

在本说明书的各个地方使用某些术语目的在于说明，并且不应被理解为限制。服务、功能或资源并不限于单个服务、单个功能或单个资源；这些术语的使用可指代相关服务、功能或资源的可分布或聚合的分组。

术语“包括”、“包括有”、“包含”和“包含有”应理解为开放性的术语，并且其后任何列出内容都是示例，而不旨在限于所列项目。本文所使用的任何标题仅是为了组织目的，并且不应被用于限制说明书或权利要求的范围。本专利文件中提到的每个参考文件以其全文通过引用并入本文。

此外，本领域的技术人员应认识到：(1)某些步骤可以可选地执行；(2)步骤可不限于本文中所阐述的特定次序；(3)某些步骤可以以不同次序执行；以及(4)某些步骤可同时地进行。

应注意的是，本文中提供的任何实验和结果以说明的方式提供，并且在特定条件下使用一个或多个特定实施方式执行；相应地，这些实验及其结果都不应被用于限制本专利文件的公开范围。

A.引言

如上所述，历史上人工智能研究一直在改进模型对特定任务的性能，而未考虑资源使用度量，例如，模型存储、复杂性和功耗。然而，随着深度神经网络开始部署在不同的应用中，除了性能之外，资源约束在模型设计中成为更重要的考虑因素。具体地，资源受限的神经网络发展近来至少受到两种趋势的推动：

(i)对用于深度神经网络的现代处理器的性能优化越来越感兴趣。这些专用架构通常针对具有高计算强度的算法产生峰值性能。然而，开发将得到高计算强度的神经网络架构是一种不常见的研究实践。

(ii)除了诸如数据中心或个人计算机的传统计算平台之外，深度神经网络也被部署在诸如智能手机、无人机、自动驾驶车辆和智能扬声器等多种硬件平台上。这些平台可能在其计算能力、存储能力或功率预算以及性能目标的方面具有很大不同。因此，神经网络需要对其将部署的每个硬件平台进行重新优化。

资源约束加剧了神经网络模型开发的挑战，并且遵循以上提及的两种趋势，强烈期望使该过程自动化。在该专利文件中，提出了通常可以被称为资源有效的神经架构(Resource-Efficient Neural Architect，RENA)的资源受限的NAS框架的实施方式。目的在于，使在不同的资源约束下利用合理的搜索量寻求高性能神经网络架构的过程自动化。RENA实施方式提供的主要贡献中的一些包括：

1.具有网络嵌入的策略网络设计成逐步地适应现有模型，而不是从头开始构建。

2.本文中介绍了这样一种框架，该框架用于修改回报函数以使目标模型适于满足可被硬件设计者判读并可用于引导搜索的硬件约束和三个简单度量(模型大小、计算复杂性和计算强度)。

3.证明了即使在资源严重受限的情况下对于两个任务：(i)图像识别以及(ii)关键词检测(KWS)仍具有竞争性性能。

B.相关工作

1.神经架构搜索

自动神经架构搜索(NAS)一直是长期研究领域。进化算法(Evolutionaryalgorithm)是最早用于自动NAS的方法中的一种。NAS也在贝叶斯优化的背景下进行了研究。最近，强化学习已表现为用于自动NAS的有效方法。然而，传统的NAS在计算方面是昂贵且耗时的-许多结果利用大量计算资源而获得。这使得将NAS广泛用于研究中并不太现实。为了解决这个问题，具有参数共享(parameter sharing)、正则化搜索(regularizedsearch)和网络态射(network morphism)的高效自动NAS正成为重要的研究领域。参数共享迫使所有子模型共享权重，以避免将每个子模型从头开始训练至收敛。

2.资源受限的神经网络

在资源约束下优化性能的大多数有效方法仍然依赖于研究人员的创造性。在许多方法中，一些值得注意的方法包括注意机制(attention mechanism)、深度可分离卷积(depthwise-separable convolution)、反向残差(inverted residual)和结构变换。除了优化改变层类型的神经网络架构的方法之外，减少冗余的常规方法实际上使用不改变网络架构形式的技术。这些方法包括稀疏正则化、连接裁剪以及降低权重和激活的精度。

最后，训练较小的(学生)网络来模仿较大的(教师)网络(通常称为净化(distillation))越来越受欢迎。例如，在一个示例中，应用净化来学习逆自回归流(inverse-autoregressive flow)模型。

C.总体概述

图1示出了根据本公开的实施方式的资源有效的神经架构(RENA)的高层次描述100。如图1中所示，在一个或多个实施方式中，RENA实施方式可包括两个主要网络：策略网络110和价值网络(或性能模拟网络)140。在一个或多个实施方式中，通信地联接至包括网络配置信息的数据库105的策略网络110获取当前网络的网络配置信息并将其转换成网络嵌入115，并经由动作选择器120生成网络转换动作，例如“插入”(插入层)125或“缩放”(缩放层)130。可以对特征进行采样135以获取方差。

在一个或多个实施方式中，价值网络140通过确定度量(例如，精度网络150和训练时间网络155，虽然也可确定其它度量)来接受所生成的目标网络145的网络嵌入和数据分布以接近回报。在一个或多个实施方式中，价值网络可预测目标网络精度和训练时间，而无需实际运行目标网络直至收敛。在一个或多个实施方式中，精度网络150和训练时间网络155二者均为可以与策略网络一起预训练或一起训练的可训练的神经网络。

在一个或多个实施方式中，最终的回报引擎160为可根据用户规范而设置的诸如网络精度、模型大小和训练时间的多种度量设置权重。可配置的回报引擎160能够在诸如存储大小和GPU时间的多种资源约束下找出神经架构。在一个或多个实施方式中，应用策略梯度165来训练策略网络。

图2描绘了根据本公开的实施方式的可由RENA框架实施方式利用的常规方法。在一个或多个实施方式中，诸如使用查找表将初始神经网络架构配置映射(205)至表示中。在一个或多个实施方式中，策略网络将初始神经网络架构配置表示转换(210)成网络嵌入。然后，在实施方式中，策略网络使用(215)网络嵌入来自动生成对神经网络架构配置的调整。在一个或多个实施方式中，将经调整的神经网络训练(220)至收敛，并且可基于一个或多个度量(例如，精度、存储占用、功耗、推断延迟等)来评估(225)所训练的经调整的神经网络架构。在一个或多个实施方式中，可使用(230)策略梯度方法来计算多目标回报，多目标回报被馈送回到策略网络以提高策略网络自动生成一个或多个最佳架构的集合的能力。在一个或多个实施方式中，在每个场景中可将多个经调整的神经网络架构作为强化步骤的一部分进行并行处理。

本文中提供了另外的细节和替代性的RENA实施方式和方法。

D.建模资源使用

对算法的硬件性能建模无疑是一项具有挑战性的任务。该专利文件的目的不是以最精确的方式对性能进行建模，而是表明在考虑近似度量时，RENA实施方式可以高效地优化它们。例如，对于嵌入式装置，推断延迟和功耗是部署神经网络时的两个重要度量。然而，对其进行精确建模是非常具有挑战性的—典型方法取决于与硬件平台有关的多种假设。相反地，本文中的实施方式的重点在于推断度量，推断度量可以在基本操作方面进行精确地量化并且还可提供可判读的见解。所考虑的三个度量为：

(i)模型大小：模型大小可通过模型参数所使用的存储总量来量化。对于给定的神经网络，模型大小取决于权重张量(weight tensor)的大小和每个张量的精度。在一个或多个实施方式中，权重的精度固定为四(4)个字节，而重点在于张量大小。减少模型大小的简便方法可包括降低输入分辨率(例如，减少频谱表示中频率信道的数量)、移除层、减少隐藏单元(例如，用于循环区(recurrent cell)的隐藏单元)的数量，或减少过滤器(例如，用于卷积的过滤器)的数量。对于目标性能，模型尺寸的减小使架构具有更多参数共享(例如，具有短过滤器尺寸的深度可分离卷积)和重复计算(例如，具有长序列长度和少量隐藏单元的循环层)。

(ii)计算复杂性：计算复杂性可通过浮点运算(FLOP)的总数目进行量化(详见附录A)。降低推断复杂性的简便方法大多类似于减小模型大小的方法，诸如，减少隐藏单元的数量或过滤器的数量。通常，复杂性的降低使模型具有最小冗余(例如，通过加入联结的线性运算)。

(iii)计算强度：计算强度可定义为每次数据访问(即，快速存储与慢速存储之间的数据传输)的FLOP的平均数目(但计算强度也可建模为在忽略输入数据和输出数据的情况下每次权重访问的计算强度)。计算强度可以被认为是对算法如何能够有效地重新使用数据的测量。对于诸如图形处理单元(GPU)和张量处理单元(TPU)的现代多核架构，其是算法可多快地运行的间接测量。通常，如果神经网络重新使用数据，则需要较小的存储带宽并实现较高的计算强度。高计算强度使神经网络具有更多的局部性并且通常更具并行性。举一个简单的示例，假设将m×n矩阵和n×p矩阵进行矩阵与矩阵的乘法计算。计算强度将与成比例。增加计算强度将增加p和m。如果因整体模型大小或过度拟合因素而对它们的总和存在约束，则较高的计算强度将使p值与m值接近于彼此。非常高计算强度的神经网络层的一个示例是具有适当大的信道大小的多维卷积。另一方面，在典型的语言或语音处理应用或者一些最近流行的技术(诸如，多分支网络)中使用的循环层获得较低的计算强度。

E.利用强化学习进行架构搜索的实施方式

在这一小节中，介绍了RENA的整体强化学习(RL)框架和相应的搜索空间的实施方式。在一个或多个实施方式中，框架包括策略网络以产生限定神经网络架构的一个或多个动作。在一个或多个实施方式中，环境输出经训练的神经网络的性能以及其资源使用。在一个或多个实施方式中，使用具有累积回报的策略梯度来训练策略网络。

1.策略网络

图3描绘了根据本公开的实施方式的具有网络嵌入的策略网络300，其中，基于长短期记忆(LSTM)的网络将现有神经网络配置转换成可训练的表示，并且可训练的表示被馈送回到基于LSTM的策略网络以产生动作。图3中所示的策略网络300的实施方式通过修改其参数(其可称为缩放动作)或通过插入新的层(这可被称为插入动作)，或通过移除现有的层(这可称为移除动作)来调整现有网络配置。不同于从头开始构建目标网络，经由这些操作进行的修改是通过更简单的架构实现更高效的样本搜索。在一个或多个实施方式中，可利用任何基线模型、精心设计的模型或者甚至基础模型来开始搜索。

图4是根据本公开的实施方式的可被策略网络利用以进行网络配置调整的方法。在一个或多个实施方式中，策略网络实施方式300使用网络嵌入320来表示输入神经网络配置302。如上所述，策略网络的一方面是其调整现有神经架构而不是从头开始构建的能力。为了能够进行网络调整，在实施方式中，基于神经网络的嵌入网络用于将现有神经架构配置转换成可训练的表示。首先，可通过使用可训练的查找表310将输入神经网络302的每层(例如，层L 305-L)映射(405)至层嵌入。然后，长短期记忆(LSTM)层315(具有与层L的数目相等的状态大小)顺序地处理(410)这些层嵌入并输出网络嵌入320。

图5以图形方式示出了根据本公开的实施方式的嵌入网络500的替代性描述，其中，层嵌入网络505采用层描述并将层特征映射至多个查找表中。在一个或多个实施方式中，查找表(例如，查找表510-x)将离散的特征空间转换成可训练的特征向量。LSTM网络获取层特征向量(例如，515-x)并生成层嵌入520。在产生了多个层嵌入之后，网络嵌入LSTM网络525处理这些层嵌入中的顺序信息并生成网络嵌入535。在一个或多个实施方式中，网络嵌入535供策略网络和价值网络使用。

返回至图3和图4，可将网络嵌入320输入至两个不同的LSTM(例如，缩放LSTM 325和插入-保持-移除LSTM 340)以限定缩放动作、插入动作、保持动作和移除动作。在一个或多个实施方式中，缩放LSTM 325在每个步骤处与相应特征的值的修改对应地输出(415)隐藏单元。可以使用查找表330来完成对预定的值集合的选择。例如，如果输入网络包括卷积层，则一个状态可改变过滤器宽度，下一状态可改变过滤器的数目等。第二LSTM 340基于除了表示层特征的那些输出之外另外的LSTM状态的输出，在插入动作、保持动作或移除动作之间进行选择(420)。然后，插入新的层并将新的层集成至缩放的神经网络中，或者将缩放的网络的现有层中的一层移除，或者使架构设计保持不变。

为了促进探索，可以以随机方式生成新的层。图6描绘了根据本公开的实施方式的利用概率质量函数来促进架构配置探索的方法。因此，在一个或多个实施方式中，插入LSTM的目的是限定概率质量函数(p.m.f.)(例如，PMF_P 350-P)以对待生成的新层的特征进行采样(605)。对于每个功能，可通过查找表345将LSTM状态输出映射至p.m.f.。例如，如果对于卷积宽度的特征存在三(3)个候选值，则LSTM状态输出确定与其对应的三(3)个概率值。

返回至图3和图4，在一个或多个实施方式中，通过在缩放动作的顶部上实施插入动作/移除动作来限定(425)所调整的网络/新的网络365。

应注意，在一个或多个实施方式中，LSTM输出可以是在搜索空间中针对特定参数的值的变化方向。例如，输出-1可表示搜索空间中向后移动一个，输出+1可表示搜索空间中向前移动一个，而输出0可表示在搜索空间中保持该位置。本领域技术人员将认识到，可采用其他实施方案。

2.搜索空间

在一个或多个实施方式中，缩放动作和插入动作被映射至搜索空间以限定神经网络架构。接下来介绍限定搜索空间的两种示例方法。

a)逐层搜索实施方式

在一个或多个实施方式中，逐层搜索旨在利用预定义层的搜索粒度寻找最佳架构。图7描绘了根据本公开的实施方式的逐层搜索方法。在一个或多个实施方式中，可能通过在这些层之间进行跳跃连接来使这些层堆叠，从而限定(705)神经网络架构。对于每个特征，策略网络中的LSTM选择(710)层类型和相应的超参数(例如，过滤器宽度)。在一个或多个实施方式中，通过输入源标识符(例如，“Src1”)来表示所插入的层的位置，新的层从输入源标识符获得其输入数据。为了支持跳跃连接，插入控制器产生“相加”运算，其利用加法运算或联结运算来连接源标识符(例如，“Src1”和“Src2”)的层输出。图8以图形方式描绘了根据本公开的实施方式的用于逐层搜索的示例性插入操作。

在一个或多个实施方式中，移除动作的搜索空间是作为现有架构的可能可移除层的一个或多个源标识符的列表。因此，所移除的网络部分由所选择的与层对应的源标识符来确定。

b)模块搜索实施方式

模块搜索旨在找到可被堆叠以创建整体神经网络的最佳小网络模块。在一个或多个实施方式中，模块搜索能够在有效限制搜索空间的同时针对多分支网络进行搜索。模块搜索中的插入动作不再插入层，而是插入“分支”。

图9描绘了根据本公开的实施方式的模块搜索方法。在一个或多个实施方式中，策略网络中的LSTM选择(905)运算的类型和相应的超参数(例如，过滤器宽度、池化宽度(pooling width)、信道大小等)。在一个或多个实施方式中，每个分支包括(910)待联结的两种运算；“Src1”和“Src2”确定这两种运算获取输入值的位置，并且“传播(propagate)”确定是否将分支的输出传递至下一层。

图10以图形方式描绘了根据本公开的实施方式的用于模块搜索的示例性插入操作。在所描绘的示例中，当插入分支3 1015时，其源值中的一个来自分支2 1010。一旦将分支3插入，其便切断分支2与下一层(层N+1 1020)之间的连接，并设置“传播”特征来表示分支2的输出将在被分支3处理之后而传播。

3.具有多目标回报的策略梯度实施方式

图11以图形方式描绘了根据本公开的实施方式的用于策略梯度的强化步骤。N为在i场景(episode)处调整基线架构的并行策略网络的数目。图12描绘了根据本公开的实施方式的用于策略梯度的强化的常规方法。

在一个或多个实施方式中，策略网络生成(1205)一批动作a_t,n，其产生可以在进化分支(例如，图11中的分支1125)中被考虑的一系列子网络。在一个或多个实施方式中，对于分支的起始的初始网络架构(例如，Arch.NN[i]_0,x 1115)可以与用于两个或更多个分支的相同(例如，其可以是针对每个分支从单个输入—例如初始网络架构配置重复的，或者可以是来自一个或多个先前场景的最佳网络架构配置)。或者，在一个或多个实施方式中，对于两个或更多个分支其可以是不同的。例如，在一个或多个实施方式中，用于分支的起始网络架构可以是：从初始架构输入1110(特别地，如果其为第一场景)改变的(例如，随机变化)；来自一个或多个先前场景的N个最佳网络架构；可使用从来自一个或多个先前场景的最佳Y网络架构中随机选择的一组N个架构等。在一个或多个实施方式中，在每个步骤处，训练(1210)子网络直至收敛，并使用(1215)性能和资源使用的组合作为即时回报(如等式3中所给出(也参见图11中的1115))。可以累积全部场景(例如，图11中的场景1105)的回报以使用策略梯度来训练策略网络(步骤1220)，从而获得更新的策略网络(例如，更新的策略网络1120)：

在一个或多个实施方式中，更新的策略网络用于下一场景。场景的数目可由用户选择，或者可以基于一个或多个停止条件(例如，RENA实施方式的运行时间、迭代的次数、收敛(或者迭代之间的差异不会改变超过阈值)、发散和/或神经网络的性能符合标准)。

在一个或多个实施方式中，为了能够更好地估计动作是否在预期的方向上，可将返回与预期的进行比较。差为对动作a_t，n的效力的近似估计。为了减少公差，在一个或多个实施方式中，选择b(s_t)来估计所预期的回报总和：

为了找到满足多种资源约束的神经架构，基于模型性能的回报可能会根据违反约束的程度而受到惩罚。虽然固定的硬性惩罚对于一些约束可能是有效的，但是在资源严重受限的情况下，控制器可能难以从高度稀疏的回报中学习。因此，在一个或多个实施方式中，可使用柔和的连续惩罚方法来在仍然满足所有资源约束的同时能够找到具有高性能的架构。当暴露于M个不同的资源约束C时，具有性能P和资源使用U(例如，模型大小)的特定架构的回报r可通过以下等式确定：

其中：

V(U，C)为违反函数(violation function)，其根据约束的类型确定违反约束的程度。P为基本惩罚，其可处于0至1的范围内。对于本专利文件中讨论的架构搜索实验，使用p＝0.9，虽然可使用其他值。

在一个或多个实施方式中，回报r可以用如下的不同公式表示：

其中：

V_u(U，C)＝max(0，U_j/C_j-1)，以及

V_l(U，C)＝min(0，1-C_j/U_j)。

4.性能模拟网络和多目标回报实施方式

在一个或多个实施方式中，代替运行目标网络直至收敛，可以使用回归模型或基于神经网络的性能预测来减少策略网络的训练时间。

在一个或多个实施方式中，性能模拟网络在大小、分布和规律性方面采用目标网络嵌入和训练数据集，以生成近似的精度和训练时间。利用嵌入网络，可使层表示统一，并可集成来自各个层的信息。给定一组样本网络，可以获得每个网络的性能曲线。例如，对于每个网络x_i，可获得验证精度a_i和训练时间t_i。

目的在于减少预测精度和目标评估精度的L1损失以及预测训练时间和目标训练时间的L1损失。一旦对性能预测网络进行了适当的训练，可在各种资源约束下将其固定并重新用于神经架构搜索。可使用训练时间网络来对真实系统(例如，在V100上运行的Tensorflow(张量流))进行建模，或者其可使用更理想化的硬件模型(例如，rooflinemodel(车顶线模型))。对于后一种情况，经训练的策略网络可用于指导未来的硬件和软件优化。如果联合训练，性能模拟网络变为价值网络V。策略网络的参数θ可经由如下的梯度下降进行优化：

A(s_t，a_t)＝r_t+γV(s_t+1；θ_v)-V(s_t；θ_v)

价值网络的参数θ_v经由梯度下降使用以下公式进行更新：

在多目标回报函数中，大模型可通过在模型大小和训练时间上应用分段线性负回报函数而进行惩罚。例如，一旦模型大小超过特定阈值存储大小，例如16MB，即可开始应用负回报。

F.实验

应注意的是，这些实验和结果是以说明的方式提供的，并且是在特定条件下使用一个或多个具体实施方式执行的；因此，这些实验及其结果都不用于限制本专利文件的公开范围。

1.图像分类

图像分类是视觉识别应用的核心问题之一，并且鉴于高度调谐的神经网络架构的成功结果，其已成为NAS的竞争目标。对于图像分类任务，考虑CIFAR-10数据集(对于CIFAR-10数据集，请参见“Learning Multiple Layers of Features from Tiny Images(从微小图像学习多个特征层)，Alex Krizhevsky，2009(可从www.cs.toronto.edu/～kriz/ learning-features-2009-TR.pdf处获取)，其通过引用一起整体并入本文中)。应用了标准图像增强技术，包括随机翻转、裁剪、亮度和对比度调整。性能根据分类精度进行量化。

a)训练细节

使用Adam优化器以0.0006的学习率对策略网络进行训练。在-0.1和0.1之间对控制器的权重均匀地初始化。在每个步骤处，构建了8个子模型并针对150个时期(epoch)对子模型进行训练。使用Nesterov momentum(动量)以遵循余弦规律(l_max＝0.05；l_min＝0.001；T₀＝10；T_mul＝2)的学习率对子模型进行训练。对于逐层搜索，使用的场景大小为10且批量大小为8。每个场景中的顶层八个模型逐步被选为下一场景的基线模型。在更长的训练时间内训练最佳模型，以获得SOTA性能。对于模块搜索，我们将最大分支数限制为5，因为插入更多分支会产生非常长的训练时间。我们使用的场景大小为5且批量大小为8。仅具有一个分支的基线模型一直用作所有场景的基线。在附录C中描述了搜索空间。具有32个隐藏单元的LSTM用于网络嵌入，而具有128个隐藏单元的较大LSTM用于缩放动作和插入-移除动作。

b)结果

图13描绘了根据本公开的实施方式的示出针对CIFAR-10数据集的最佳精度相比于整体搜索的网络架构的图。图13表明，当以测试精度为约91％的基线模型开始时，所测试的RENA实施方式的测试精度在500个搜索模型之后被提高至95％。逐层搜索和模块搜索二者均明显优于随机搜索。表1示出了RENA实施方式与SOTA模型在精度、模型大小和计算强度方面的比较。与在资源约束下通过RENA实施方式找到的最佳模型相比，流行的SOTA模型通常具有高参数计数和低计算强度。更具体地，RENA实施方式能够在10M参数下找到测试误差为3.48％且计算强度为92FLOP/Byte的模型。在高计算强度的要下，RENA实施方式找到具有大的信道大小和大的过滤器宽度的模型。网络甚至可具有用于前几个卷积层的大的信道大小。在对模型大小和计算强度二者进行严格限制的情况下，RENA实施方式找到具有合理信道大小的模型，其使用深度可分离卷积和常规卷积的组合。

表1：RENA实施方式与现有技术模型在CIFAR-10上的比较。

2.关键词检测

关键词检测(KWS，Keyword spotting)系统旨在从连续的音频流中检测特定关键词。其通常用于会话式人机接口中，诸如，智能家居系统或虚拟助手中。高检测精度和低延迟对于实现令人满意的用户体验至关重要。此外，KWS系统通常部署在具有不同资源约束的多种装置上。因此，最佳的资源约束神经架构设计是非常关键的。

对于KWS任务，谷歌语音命令数据集。类似于Y.Zhang,N.Suda,L.Lai和V.Chandra于2017年11月在arXiv:1711.07128上发表的“Hello Edge:Keyword Spotting onMicrocontrollers你好边缘：微控制器上的关键词识别”(下文中也称作“[Zhang等,2017]”)，考虑了12种类型的KWS问题。数据集分割也类似于[Zhang等，2017]，训练集、验证集和测试集的比例为80:10:10，同时确保来自同一个人的音频剪辑保持在相同的集合中。性能根据分类精度进行量化。更多细节在附录B中给出。

a)训练细节

对于KWS架构搜索，考虑逐层搜索，同时总是从小基线架构(即，具有12个隐藏单元的单个完全连接层)开始，其产生65％的测试精度。使用Adam优化算法以0.0006的学习率对策略网络进行训练。所有实验均使用为5的场景大小和为10的批量大小，即，同时训练10个子模型。搜索空间在附录C中给出。在训练之后对每个模型进行评估，并根据当前策略来选择动作以转换网络。在每个场景结束时，更新策略，并使用最佳的10个子模型作为新场景的基线。在-0.1和0.1之间对控制器的权重进行均匀初始化。用于网络嵌入和控制器的LSTM的大小与图像分类任务的大小类似。

b)结果

图14描绘了示出根据本公开的实施方式的针对用于谷歌语音命令数据集将RENA实施方式与随机搜索(Random Search)在搜索资源受限的架构方面进行比较的图。随机搜索产生随机动作(即，插入、移除和缩放)，并且还以均匀概率随机选择每个层的超参数。如图所示，图14比较了RENA实施方式相比于随机搜索在寻找资源受限的架构(大小<0.1M且计算强度>10)时在满足两个约束的模型的数目和回报方面的有效性。如图中所示，RENA实施方式在约120个搜索模型之后学习生成满足两个约束的模型，而随机搜索在400个搜索模型内无法生成满足两个约束的任何模型。RENA实施方式试图使该领域中的模型性能最大化，并最终找到具有93.65％测试精度的满足两个资源约束的架构。随机搜索仅找到小范围地违反约束的模型(模型大小＝0.13M，且计算强度＝10.69FLOP/byte)。

表2展示了KWS的搜索结果以及最佳架构。在没有任何资源约束的情况下，使用包括深度可分离卷积(应用显著下采样)且其后为门控递归单元(GRU)和多个二维(2D)卷积的架构可获得最先进的精度95.81％。当施加强制性的资源约束时，观察到RENA实施方式可找到比文件中的手动优化架构更优的架构。严格的模型尺寸约束产生了由具有小隐藏单元的GRU构成的最佳架构。类似地，对计算复杂性的严格约束也有利于具有小隐藏单元的GRU。当考虑计算强度时，通过在具有大的信道大小的2D卷积上实现大部分计算来实现高效架构。最后，考虑了联合约束，并且观察到即使在小的可行架构空间的情况下也可获取到非常有竞争力的精度结果。例如，RENA实施方式在0.1M参数下找到具有高计算强度(>10FLOP/Byte)且具有93.65％测试精度的模型。正如预期的那样，观察到高计算强度和低计算复杂性对低推断延迟的益处。

表2：通过RENA实施方式找到的KWS模型与先前的现有技术(SOTA)模型的比较。Conv2d(二维卷积)和DS-Conv2d(二维深度可分离卷积)分别通过层数、信道大小、时间和频率的内核大小以及时间和频率的幅度进行参数化。GRU通过层数、隐藏单元的数目和方向的数目进行参数化。FC(完全连接)通过层数和隐藏单元的数目进行参数化。AvgPool2d(二维平均池化)通过时间和频率的池化进行参数化。

G.一些结论

本文中提供了具有网络嵌入的基于资源感知多目标强化学习的神经架构搜索(NAS)的实施方式，其通常可以称为资源有效的神经架构(RENA)。RENA的实施方式包括设计成通过预定义动作处理网络嵌入以创建新的网络配置的策略网络。该框架的实施方式实现了样本高效搜索-RENA在500个全部搜索模型中针对CIFAR-10实现了>95％精度。此外，提供了在自动化NAS中集成资源约束的框架。当所生成的模型违反约束时，通过修改回报函数以惩罚案例而施加约束。已证实，即使在严重受限的情况下，RENA生成的模型可针对图像识别(在CIFAR-10数据集上)和关键词检测(在谷歌语音命令数据集上)获得非常有竞争力的结果。

H.附录

1.附录A—复杂性建模

在不考虑硬件专用逻辑级实施的情况下，数学运算的复杂性可通过算法FLOP的总数量表示。这种复杂性度量也对表示功耗的一些主要来源(诸如，加载数据和存储数据)具有限制。

在一个或多个实施方式中，为了能够将大多数数学操作实现为单个指令，将所有逐点操作(包括非线性)计数为1FLOP。在一个或多个实施方式中，忽略寄存器内存移动操作的复杂性。假设m×n矩阵W与n×p矩阵X之间的矩阵与矩阵相乘需要2mnp FLOP。类似的表达对于在卷积层中使用的多维张量是通用的。对于实数的快速傅立叶变换(FFT)，在实施方式中假设长度为N的向量具有2.5Nlog₂(N)FLOP的复杂性。对于本专利文件中使用的大多数操作，Tensorflow分析工具包括被直接使用的FLOP计数。

2.附录B—KWS模型的训练细节

原始时域输入音频样本以16kHz的速率采样，并具有1秒的持续时间。语音特征使用为40的梅尔频率倒谱系数(Mel-frequency cepstral Coefficients，MFCC)提取，其跳跃长度为20ms并且窗口长度为40ms，得到了尺寸为49×40的二维谱图。应用100ms的随机时间抖动用于强化。此外，80％的训练样本和测试样本通过应用加性噪声而进行强化，其中，加性噪声的信噪比(SNR)处于[10,20]dB的范围内并从数据集中的背景噪声数据进行采样。

ADAM优化算法用于训练每个KWS模型，其批量大小为128且初始学习率为0.001。每10,000次训练迭代，学习下降0.2。由于小缩放的问题，使用交叉熵(CE)损失函数进行训练。

3.附录C—搜索空间

表3、表4和表5示出了用于测试的图像识别和KWS实施方式的搜索空间。

表3在用于图像分类的逐层搜索中的缩放动作和插入动作的搜索空间。

特征	搜索空间
		层类型	[conv2d,dep-sep-conv2d,MaxPool2d,add]
过滤器宽度	[3,5,7]
		池化宽度	[2,3]
信道大小	[16,32,64,96,128,256]
		非线性激活	[“relu”,“crelu”,“elu”,“selu”,“swish”]
Src1层	[i for i in range(MAX_LAYERS)]
		Src2层	[i for i in range(MAX_LAYERS)]

表4：在用于关键词检测的逐层搜索中的缩放动作和插入动作的搜索空间。

表5：用于图像分类的模块搜索中的缩放动作和插入动作的搜索空间。

I.计算系统实施方式

在实施方式中，本专利文件的方面可涉及、可包括一个或多个信息处理系统/计算系统或者可在一个或多个信息处理系统/计算系统上实施。计算系统可包括可操作来计算、运算、确定、分类、处理、传输、接收、检索、发起、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何手段或手段的组合。例如，计算系统可为或可包括个人计算机(例如，膝上型计算机)、平板电脑、平板手机、个人数字助理(PDA)、智能手机、智能手表、智能包装、服务器(例如，刀片式服务器或机架式服务器)、网络存储装置、摄像机或任何其他合适装置，并且可在大小、形状、性能、功能和价格方面改变。计算系统可包括随机存取存储器(RAM)、一个或多个处理资源(例如中央处理单元(CPU)或硬件或软件控制逻辑)、ROM和/或其他类型的存储器。计算系统的另外部件可包括一个或多个盘驱动器、用于与外部装置通信的一个或多个网络端口、以及各种输入和输出(I/O)装置(例如键盘、鼠标、触摸屏和/或视频显示器)。计算系统还可包括可操作为在各种硬件部件之间传输通信的一个或多个总线。

图15描绘了根据本公开的实施方式的计算装置/信息处理系统(或计算系统)的简化框图。应理解，虽然计算系统可不同地配置并且包括不同部件，包括如图15中所示的更少或更多的部件，但应理解，针对系统1500所示出的功能可操作为支持计算系统的各种实施方式。

如图15所示，计算系统1500包括一个或多个中央处理单元(CPU)1501，CPU 1501提供计算资源并控制计算机。CPU 1501可通过微处理器等实施，并且还可包括一个或多个图形处理单元(GPU)1519和/或用于数学计算的浮点协处理器。系统1500还可包括系统存储器1502，系统存储器1502可呈随机存取存储器(RAM)、只读存储器(ROM)、或两者的形式。

如图15所示，还可提供多个控制器和外围装置。输入控制器1503表示至各种输入装置1504，例如键盘、鼠标、触摸屏和/或触笔的接口。计算系统1500还可包括存储控制器1507，该存储控制器1507用于与一个或多个存储装置1508对接，存储装置中的每个包括存储介质(诸如磁带或盘)或光学介质，其可用于记录用于操作系统、实用工具和应用程序的指令的程序，它们可包括实施本公开的各方面的程序的实施方式。存储装置1508还可用于存储经处理的数据或是将要根据本公开处理的数据。系统1500还可包括显示控制器1509，以用于为显示装置1511提供接口，显示装置1511可为阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或其他类型的显示器。计算系统1500还可包括用于一个或多个外围装置1506的一个或多个外围控制器或接口1505。外围装置的示例可包括一个或多个打印机、扫描仪、输入装置、输出装置、传感器等。通信控制器1514可与一个或多个通信装置1515对接，这使系统1500能够通过各种网络(包括互联网、云资源(例如以太云、经以太网的光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN))中的任一网络，或通过任何合适电磁载波信号(包括红外信号)来连接至远程装置。

在示出的系统中，所有主要系统部件可连接至总线1516，总线1516可表示多于一个的物理总线。然而，各种系统部件可在物理上彼此接近或可不在物理上彼此接近。例如，输入数据和/或输出数据可远程地从一个物理位置传输到另一物理位置。另外，实现本公开的各方面的程序可经由网络从远程位置(例如，服务器)访问。这种数据和/或程序可通过各种机器可读介质中的任一机器可读介质来传送，机器可读介质包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息装置的光学介质；磁光介质；以及硬件装置，其中硬件装置专门配置成存储或存储并执行程序代码，例如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存装置、以及ROM和RAM装置。

本公开的方面可利用用于一个或多个处理器或处理单元以使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应注意，一个或多个非暂态计算机可读介质应当包括易失性存储器和非易失性存储器。应注意，替代实现方式是可能的，包括硬件实现方式或软件/硬件实现方式。硬件实施的功能可使用ASIC、可编程的阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“装置”旨在涵盖软件实现方式和硬件实现方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序的软件和/或硬件或它们的组合。利用所构想的这些替代实现方式，应理解的是，附图以及随附描述提供本领域的技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)以执行所需处理所要求的功能信息。

应注意的是，本公开的实施方式还可涉及其上具有用于执行各种计算机实施的操作的计算机代码的非暂态有形计算机可读介质的计算机产品。介质和计算机代码可为出于本公开的目的而专门设计和构造的介质和计算机代码，或者它们可为相关领域中的技术人员已知或可用的。有形计算机可读介质的示例包括但不限于：诸如硬盘、软盘和磁带的磁性介质；诸如CD-ROM和全息装置的光学介质；磁光介质；以及专门配置成存储或存储并执行程序代码的硬件装置，例如，专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存装置、以及ROM和RAM装置。计算机代码的示例包括机器代码(例如，编译器产生的代码)以及包含由计算机使用解释器来执行的更高级代码的文件。本公开的实施方式可整体地或部分地实施为可在由处理装置执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、部件和数据结构。在分布式计算环境中，程序模块可物理上定位在本地、远程或两者的设定中。

本领域的技术人员将认识到，计算系统或编程语言对本公开的实践来说均不重要。本领域的技术人员还将认识到，多个上述元件可物理地和/或在功能上划分成子模块或组合在一起。

本领域技术人员将理解，前文的示例和实施方式是示例性的，并且不限制本公开的范围。旨在说明，在本领域的技术人员阅读本说明书并研究附图后将对本领域的技术人员显而易见的是，本公开的所有置换、增强、等同、组合和改进包括在本公开的真实精神和范围内。还应注意，任何权利要求的元素可不同地布置为包括有多个从属、配置和组合。

Claims

1.用于执行神经架构搜索的计算机实施方法，包括：

通过以下步骤创建改变的神经网络架构：

输出改变后的神经网络架构。

2.根据权利要求1所述的计算机实施方法，还包括：

训练改变后的神经网络架构直至收敛；以及

当在多个资源约束环境下操作时，确定经训练的改变后的神经网络架构的一个或多个性能度量和一个或多个资源使用度量；以及

基于所述一个或多个性能度量和所述一个或多个资源使用度量中的至少一些确定用于所述改变后的神经网络架构的即时回报。

3.根据权利要求2所述的计算机实施方法，还包括：

重复使所述改变后的神经网络架构作为所述神经网络架构并执行权利要求1和2中的步骤以生成经训练的改变后的神经网络架构的集合及其相应的即时回报，直至达到停止条件。

4.根据权利要求3所述的计算机实施方法，其中，为所述策略网络生成所述经训练的改变后的神经网络架构的集合及其相应的即时回报为一个分支，并且所述计算机实施方法还包括以下步骤：

针对至少一个或多个附加分支中的每个，为所述策略网络生成经训练的改变后的神经网络架构的集合及其相应的即时回报。

5.根据权利要求4所述的计算机实施方法，还包括：

应用策略梯度，所述策略梯度使用所述经训练的改变后的神经网络架构的集合的相应即时回报中的至少一些来更新所述策略网络，以形成经更新的策略网络。

6.根据权利要求5所述的计算机实施方法，其中，还包括以下步骤：

重复以下步骤，直至达到停止条件：

使所述经更新的策略网络作为所述策略网络；

使用其相应的即时回报来选择用于所述分支中的一个或多个的起始神经网络架构；

执行权利要求1至5中的步骤，来生成经训练的改变后的神经网络架构的最终集合及其相应的即时回报；

针对特定资源约束的使用，从经训练的改变后的神经网络架构的最终集合中选择改变的神经网络架构。

7.根据权利要求1所述的计算机实施方法，其中，所述动作递归神经网络的输出是搜索空间中的方向变化，并且所述计算机实施方法还包括：

限定搜索空间，所述搜索空间包括神经网络层类型及其相应的一个或多个特征、模块类型及其相应的一个或多个特征，或者既包括神经网络层类型及其相应的一个或多个特征又包括模块类型及其相应的一个或多个特征，所述搜索空间与所述动作递归神经网络的输出结合使用以确定所述神经网络架构的具体改变。

8.根据权利要求1所述的计算机实施方法，其中，使用一个或多个可训练的概率质量函数来完成所述一部分及其特征从中采样的所述分布。

9.神经网络架构系统，包括：

一个或多个处理器；

通过以下步骤创建改变的神经网络架构：

输出改变后的神经网络架构。

10.根据权利要求9所述的神经网络架构系统，其中，所述非暂时性计算机可读介质还包括在被所述一个或多个处理器中的至少一个执行时使以下步骤被执行的一个或多个指令序列：

训练改变后的神经网络架构直至收敛；以及

11.根据权利要求10所述的神经网络架构系统，其中，所述非暂时性计算机可读介质还包括在被所述一个或多个处理器中的至少一个执行时使以下步骤被执行的一个或多个指令序列：

重复使所述改变后的神经网络架构作为所述神经网络架构并执行权利要求9和10中的步骤以生成经训练的改变后的神经网络架构的集合及其相应的即时回报，直至达到停止条件。

12.根据权利要求11所述的神经网络架构系统，其中，为所述策略网络生成所述经训练的改变后的神经网络架构的集合及其相应的即时回报为一个分支，并且所述非暂时性计算机可读介质还包括在被所述一个或多个处理器中的至少一个执行时使以下步骤被执行的一个或多个指令序列：

13.根据权利要求12所述的神经网络架构系统，其中，所述非暂时性计算机可读介质还包括在被所述一个或多个处理器中的至少一个执行时使以下步骤被执行的一个或多个指令序列：

14.根据权利要求13所述的神经网络架构系统，其中，所述非暂时性计算机可读介质还包括在被所述一个或多个处理器中的至少一个执行时使以下步骤被执行的一个或多个指令序列：

重复以下步骤，直至达到停止条件：

使所述经更新的策略网络作为所述策略网络；

执行权利要求9至13中的步骤，来生成经训练的改变后的神经网络架构的最终集合及其相应的即时回报；

15.根据权利要求9所述的神经网络架构系统，其中，所述动作递归神经网络的输出是搜索空间中的方向变化，并且所述非暂时性计算机可读介质还包括：

搜索空间，所述搜索空间包括神经网络层类型及其相应的一个或多个特征、模块类型及其相应的一个或多个特征，或者既包括神经网络层类型及其相应的一个或多个特征又包括模块类型及其相应的一个或多个特征，所述搜索空间与所述动作递归神经网络的输出结合使用以确定所述神经网络架构的具体改变。

16.非暂时性计算机可读介质，包括一个或多个指令序列，当所述一个或多个指令序列被一个或多个处理器中的至少一个执行时使以下步骤被执行：

通过以下步骤创建改变的神经网络架构：

输出改变后的神经网络架构。

17.根据权利要求16所述的非暂时性计算机可读介质，还包括在被所述一个或多个处理器中的至少一个执行时使以下步骤被执行的一个或多个指令序列：

训练改变后的神经网络架构直至收敛；以及

基于所述一个或多个性能度量和所述一个或多个资源使用度量中的至少一些确定用于所述改变后的神经网络架构的即时回报；以及

重复使所述改变后的神经网络架构作为所述神经网络架构并执行权利要求15和16中的步骤以生成经训练的改变后的神经网络架构的集合及其相应的即时回报，直至达到停止条件。

18.根据权利要求17所述的非暂时性计算机可读介质，其中，为所述策略网络生成所述经训练的改变后的神经网络架构的集合及其相应的即时回报为一个分支，并且所述非暂时性计算机可读介质还包括在被所述一个或多个处理器中的至少一个执行时使以下步骤被执行的一个或多个指令序列：

针对至少一个或多个附加分支中的每个，为所述策略网络生成经训练的改变后的神经网络架构的集合及其相应的即时回报；以及

19.根据权利要求18所述的非暂时性计算机可读介质，还包括在被所述一个或多个处理器中的至少一个执行时使以下步骤被执行的一个或多个指令序列：

重复以下步骤，直至达到停止条件：

使所述经更新的策略网络作为所述策略网络；

执行权利要求16至18中的步骤，来生成经训练的改变后的神经网络架构的最终集合及其相应的即时回报；

针对使用的特定资源约束，从经训练的改变后的神经网络架构的最终集合中选择改变的神经网络架构。

20.根据权利要求16所述的非暂时性计算机可读介质，其中，所述动作递归神经网络的输出是搜索空间中的方向变化，并且所述非暂时性计算机可读介质还包括：