CN113039562A

CN113039562A - 概率神经网络架构生成

Info

Publication number: CN113039562A
Application number: CN201980072085.5A
Authority: CN
Inventors: N·富西; F·P·卡萨莱; J·戈登
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-11-02
Filing date: 2019-10-29
Publication date: 2021-06-25
Also published as: EP3853779A1; US11604992B2; WO2020092281A1; US20200143231A1; US20230186094A1

Abstract

本公开的示例描述了用于概率神经网络架构生成的系统和方法。在示例中，基于各种参数的神经网络架构上的基础分布使用概率建模而被采样。训练数据被评估以便迭代地更新基础分布，从而生成神经网络架构上的概率分布。该分布被迭代地训练，直到与神经网络架构相关联的参数收敛为止。一旦确定参数已经收敛，则得到的概率分布可以被用于生成得到的神经网络架构。结果，中间架构不需要被完全训练，其极大地减少了存储器使用和/或处理时间。此外，在某些实例中，评估更大的架构和/或更大的批处理大小同时还减少了神经网络架构生成时间并保持或改善神经网络准确性是可能的。

Description

概率神经网络架构生成

背景技术

神经网络的准确性和性能取决于它的架构。然而，设计神经网络架构是耗时和资源密集型的任务。尽管使架构设计过程的方面自动化的技术存在，但是传统技术需要大量的存储器和处理时间。

关于这些和其他一般考虑，本文所公开的方面已经被做出。而且，尽管相对特定的问题可以被讨论，但是应当理解，示例不应该限于解决在背景技术中或本公开中其他地方所标识的特定问题。

发明内容

本公开的示例描述了用于概率神经网络架构生成的系统和方法。在示例中，神经网络架构从基于各种参数的架构上的基础概率分布被采样。训练数据被评估以便在神经网络架构上迭代地更新基础分布概率。例如，重要性加权的蒙特卡洛方法被用于生成梯度估计器，并相应地使用训练数据来调整基础概率分布。

分布被迭代地训练固定数量的迭代，或者直到与神经网络架构相关联的参数收敛为止。在该训练阶段之后，概率分布可以被用于生成得到的神经网络架构。在另一示例中，根据训练的概率分布的具有最高概率的神经网络架构可以被选择。结果，本公开的方面避免了完全训练中间架构或评估完整的搜索图的需要，这极大地减少了存储器使用和/或处理时间。此外，在某些实例中，评估更大的架构和/或更大的批处理大小同时还减少了神经网络架构生成时间并保持或改善神经网络准确性是可能的。

提供本发明内容以简化形式介绍一些概念，这些概念将在下面的具体实施方式中进一步描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。示例的另外的方面、特征和/或优点将在下面的描述中部分地阐述，并且部分地从描述中将是显而易见的，或者可以通过本公开的实践而获悉。

附图说明

参考以下附图描述了非限制性和非穷举性示例。

图1图示用于概率神经网络架构生成的示例系统的概述。

图2图示用于概率神经网络架构生成的示例方法的概述。

图3A图示用于有监督设置的示例概率模型的概述。

图3B图示用于无监督设置的示例概率模型的概述。

图4是图示利用其本公开的方面可以被实践的计算设备的示例物理组件的框图。

图5A和图5B是利用其本公开的方面可以被实践的移动计算设备的简化框图。

图6是在其中本公开的方面可以被实践的分布式计算系统的简化框图。

图7图示用于执行本公开的一个或多个方面的平板计算设备。

具体实施方式

下面参照附图更全面地描述本公开的各个方面，附图形成本公开的一部分，以及附图示出了特定的示例方面。然而，本公开的不同方面可以以许多不同的形式被实现，并且不应被解释为限于本文所阐述的方面；相反，这些方面被提供使得本公开将是透彻的和完整的，以及将向本领域技术人员充分传达方面的范围。方面可以被实践为方法，系统或设备。相应地，方面可以采取硬件实现、全部地软件实现或结合软件和硬件方面的实现的形式。因此，下面的更详细描述不应被认为是限制性的。

用于自动化神经网络架构的设计的传统技术需要大量的存储器和处理时间。例如，在神经网络架构空间中搜索(例如，使用强化学习，进化方法等)具有“良好”准确性的架构需要在搜索中充分训练和评估每个架构，这是计算密集型的。其他搜索技术在搜索空间中增量训练后续的架构(相比于完全重训练每个架构)，这减少了相关联的处理时间但增加了存储器消耗。作为计算成本和存储器消耗之间的权衡的结果，“替代项(surrogate)”也已经被使用，其中，架构替代项被用作各种架构的按比例缩小的、代表性模型(例如，具有更少的层、图案、过滤器等)，而数据集替代项被用作完全数据集的代理(proxy)。两种类型的替代项都旨在减少搜索的资源需求。然而，所有上述讨论的搜索技术都需要全面训练每个架构，以便最终搜索并标识准确的神经网络架构。

相应地，本公开提供了用于概率神经网络架构生成的系统和方法。在示例中，概率建模被用于定义和迭代学习由各种参数控制的神经网络架构上的概率分布。神经网络架构上的概率分布使用训练数据被估计。例如，重要性加权的蒙特卡洛方法被用于生成梯度估计量，并相应地基于训练数据调整(tune)基础概率分布。除其他终止准则外，分布被迭代地训练进行固定次数的迭代或者直到与神经网络架构相关联的参数收敛为止。结果，本公开的方面避免了完全训练中间架构或评估完整的搜索图的需要，这极大地减少了存储器使用和/或处理时间。在一些实例中，在维持或减少存储器和计算需求的同时，评估更大的架构、使用更大的替代项数据集、和/或考虑更大的批处理大小是可能的。在一些实例中，全部的数据集可以被使用。

如本文中被使用的，“优化的”或“准确的”架构，或具有“良好”的准确性的架构可以被互换地使用。在示例中，准确的架构基于预定阈值被标识，其中神经网络架构正确地分类的数据的百分比高于预定阈值。在其他示例中，准确的架构基于与神经网络架构相关的损失低于预定阈值被标识。尽管用于确定神经网络架构的准确性的示例度量在本文中被描述，但是将理解，各种其他技术中的任何技术可以被使用。

图1图示用于概率神经网络架构生成的示例系统100的概述。在示例中，根据本文所述的方面，神经网络架构生成引擎100被用于概率性地生成用于处理数据的神经网络架构。神经网络架构生成引擎100可以是计算设备的一部分，包括但不限于，服务器计算设备，分布式计算设备，台式计算设备，膝上型电脑计算设备，平板计算设备，或移动计算设备。进一步，尽管神经网络架构生成引擎100被描述为包括元件102-106，但是应当理解，在一些方面，元件102-106中的至少一个与神经网络架构生成引擎100是分开的。作为示例，由训练数据存储102所存储的数据的至少部分可以由远程存储设备被存储。

神经网络架构生成引擎100被图示为包括训练数据存储库102，神经网络架构空间104，和神经网络架构采样引擎106。在示例中，训练数据存储库102存储有监督和/或无监督训练数据，用于当生成如在本文中所述的神经网络架构时处理。作为示例，有监督数据可以包括一组输入以及相关联的一组标签或输出。作为另一示例，无监督数据可以包括一组输入。应当理解，训练数据可以包括各种数据类型中的任何一种，包括但不限于，图形数据(例如，图像数据、视频数据等)，文本数据(例如，单词、句子、数字等)，音频数据(例如，录制的语音、声音等)，或其任意组合。

神经网络架构生成引擎100被进一步图示为包括神经网络架构空间104。在示例中，神经网络架构空间104被用于根据本文所述的方面，对与由神经网络架构采样引擎106评估的神经网络架构参数的一个或多个分布相关联的神经网络架构进行采样。在示例中，网络参数与由所述神经网络架构参数描述的采样的神经网络架构相关联。因此，与在存储器中存储架构和/或用于搜索空间的所有可能的架构的网络参数的替代技术相比，神经网络架构空间104可以仅存储一个神经网络架构和适用参数的子集，从而减少了存储器消耗。在示例中，神经网络架构空间104的至少部分被存储在系统存储器(例如，由计算设备的中央处理单元(CPU)可访问的存储器)和/或图形处理单元(GPU)的存储器中。在一些示例中，多个CPU和/或GPU被用于存储和/或处理神经网络架构空间104的方面。作为另一示例，神经网络架构空间104的至少部分被存储在存储设备上，诸如本地存储设备或远程存储设备。

作为示例，神经网络架构空间104包括一个或多个单元，其中每个单元是有序节点的有向无环图。每个节点可以表示特征表示，以及节点之间的边可以与操作相关联。神经网络架构可以被定义为单元的堆栈，其中一个单元的输出被提供作为到后续单元的输入用于进一步处理。在示例中，每个单元的架构被分别生成(例如，由神经网络架构采样引擎106)。在其他示例中，用于多个单元的架构可以被同时生成。在示例中，参数可以包括架构参数和网络参数。例如，架构参数可以包括用于单元内的每个边和/或单元内的节点数量的一组可能的操作，而网络参数可以包括与这些边相关联的一组权重。所以，架构参数可以与神经网络架构的整体结构有关，而网络参数可以基于与架构参数相关联的结构，与神经网络架构内的特性有关。相应地，神经网络架构空间104可以基于在一组可能操作上的一组分布和在边权重上的一组分布被采样。将理解，在其他示例中，神经网络架构空间104可以包括不同的结构和/或不同的参数可以被使用。

根据本文描述的方面，神经网络架构采样引擎106概率地生成神经网络架构。在示例中，神经网络架构采样引擎106从神经网络架构空间104中对可能的神经网络架构进行采样。作为示例，使用与每个参数相关联的概率分布来确定值，使得由所确定的值所描述的神经网络架构使用来自训练数据存储库102的训练数据被评估。在示例中，当处理输入数据以生成一个或多个输出(例如标签、分类等)时，目标是最小化与神经网络架构相关联的损失函数的值和/或增加神经网络架构的准确性。

与参数相关联的一个或多个概率分布可以被相应地更新。在示例中，梯度估计器被用于相应地更新概率分布，例如下面的示例梯度估计器：

其中α_k～p(α|π)以及

在以上等式中，θ表示网络参数，而π表示在α，p(α|π)上的先验分布的超参数。在上面关于神经网络架构空间104所讨论的示例的上下文中，θ可以表示包括与单元内的边(例如，层)相关联的权重的网络参数，而π可以将用于与用于每个边的可能操作有关的架构参数的一组概率参数化，从而α表示来自π的可能操作的样本。

神经网络架构采样引擎106可以执行上述步骤的多次迭代，从而不断地改善架构上的概率分布，以便基于训练数据存储库102中的训练数据来调整基础分布。神经网络架构采样引擎106可以在预定的迭代次数处或当确定采样的神经网络架构的验证精确性收敛于某个值(例如平稳)时停止迭代。应当理解，尽管示例终止准则(例如，设定的迭代次数，收敛的定义等)被描述，但是根据本文描述的方面，各种其他准则中的任何一种可以被使用。一旦基础分布的学习完成，就可以通过从分布中进行采样或对其进行统计来生成得到的神经网络架构。例如，得到的分布的模式可以被采用并被用于定义神经网络架构的参数(例如，架构参数，网络参数等)。在其他示例中，除其他技术外，中位数或平均数可以被生成。

图2图示用于概率神经网络架构生成的示例方法200的概述。在示例中，方法200的方面可以由神经网络架构生成引擎被执行，诸如在图1中的神经网络架构生成引擎100。方法200的方面可以由计算设备被执行，包括但不限于，服务器计算设备，分布式计算设备，台式计算机设备，膝上型计算设备，平板电脑计算设备，或移动计算设备。

在操作202处，用于参数的初始分布被确定。在示例中，初始分布被确定用于架构参数，以及另一初始分布被确定用于网络参数。在示例中，架构参数可以包括操作类型，其包括但不限于，连接层、求和层、3x3平均池化、3x3最大池化、标识变换、3x3可分离卷积、5x5可分离卷积、3x3膨胀可分离卷积、5x5扩展的可分离卷积，和/或零或掩码操作，除了其他示例之外。作为另一示例，网络参数可以包括与边/层相关联的权重。

在示例中，初始分布可以基于具有相似用例的一个或多个预先存在的神经网络架构被确定。在另一示例中，初始分布可以是与使用数据集替代项(例如，训练数据的子集，或完全不同的数据集)标识的替代项神经网络架构相关联的概率分布，其然后可以被应用于感兴趣数据集以便在后一个数据集的上下文中微调得到的神经网络架构。在一些实例中，初始分布可以被基于较大的训练数据集，而被用于微调得到的神经网络架构的数据集可以是较小的训练数据集，反之亦然。在另一示例中，初始分布可以基于与针对其神经网络架构将被使用的训练数据相关联的属性被生成。将理解的是，在不脱离本公开的精神的情况下，其他初始分布可以被使用。作为示例，均匀分布可以被使用。尽管方法200的方面关于单个参数和单个分布被描述，但是应当理解，在其他示例中，多个参数和/或分布可以被使用。

流程进行到操作204，其中训练数据从训练数据存储库中被采样。作为示例，训练数据可以从在图1中的训练数据存储库102中被采样。如上所述，训练数据可以是有监督和/或无监督训练数据。在一些示例中，特定的训练数据可以被使用以便生成用于为特定的目的调整的神经网络架构，而在其他示例中，训练数据的通用集可以被使用。训练数据可以包括各种数据类型中的任何一种，包括但不限于，图形数据(例如，图像数据、视频数据等)、文本数据(例如，单词、句子、数字等)、音频数据(例如，录制的语音、声音等)、或其任意组合。在示例中，训练数据是随机地、顺序地或使用各种其他技术中的任意一种来被采样的。

在操作206处，神经网络架构空间使用用于参数的初始分布(如在操作202处被确定的)被采样，从而从神经网络架构空间生成特定的神经网络架构，其由参数值使用初始概率分布被描述。例如，神经网络架构空间可以是在图1中的神经网络架构空间104。采样的神经网络架构可以被定义为α_k～p(α|π)，其中π表示在α，p(α|π)上的先验分布的超参数。所以，α可以是与神经网络架构的不同架构参数相关联的一组离散随机变量，而α_k是来自p(α|π)的样本，其表示由针对离散架构参数的每个参数的值基于概率分布π所定义的神经网络架构。

移至操作208，对于每种被采样的神经网络架构α_k，一个或多个梯度估计器被计算。例如，梯度可以被计算用于θ和π参数。在这样的示例中，下面的梯度估计器可以被使用：

在示例中，这样的用于每个被采样的神经网络架构的梯度估计器被用于估计总体梯度。当估计整体梯度时，每个样本可以被加权。例如，样本可以根据其准确性而被加权，从而用于给定样本k的权重基于下面的等式被确定：

w_k＝p_θ(y|x，α_k)

相应地，

和

可以通过采用针对每个样本的每个估计的梯度的模式而被计算。例如，如上所讨论的，模式可以使用类似于那些下面的等式而被计算：

其中

使得权重被归一化且和为1。

结果，梯度下降技术可以被使用以根据估计的梯度的方向来更新分布的参数。将理解的是，其他技术可以被使用用于基于多个训练数据样本来更新参数，包括但不限于平均数或中位数。

在操作210处，用于参数的分布基于采样的梯度而被更新。作为示例，如果确定与从中采样神经网络架构的当前分布相比，准确采样的神经网络架构已经改进，则分布可以被更新，从而由用于该参数的相同或相似的值所定义的神经网络架构在将来很有可能会被采样。例如，估计的梯度被用于更新与在适当方向上的分布相关联的参数，如可以由梯度被指示。

流程进行到判定212，其中确定是否满足终止准则。例如，可以确定所采样的神经网络架构的验证准确性是否收敛于某个值(例如，该精确性是否平稳)。验证准确性可以与预定阈值进行比较，从而低于预定阈值的改变可以构成收敛。在另一示例中，判定212可以评估预定数量的迭代是否已经被执行。将理解的是，根据本文描述的方面，各种其他终止准则中的任何一种可以被使用。如果确定参数未收敛，则将分支“否”流动到操作204，其中操作204-242可以基于在操作210处所生成的更新的分布而被执行。

然而，如果确定终止准则之一被满足，则相反将分支“是”流动到操作214，其中神经网络架构基于通过执行如上所讨论的操作204-210所生成的迭代地调整的分布而被生成。在示例中，与架构参数相关联的调整的分布的模式可以被采用并被用作描述神经网络架构的架构参数，而与网络参数相关联的调整的分布的模式可以被采用并相应地被用作网络参数。在其他示例中，除了其他技术，中位数或平均数可以被采用。流在操作214处终止。

应当理解，为了方便起见，方法200关于单个参数被描述，但是在其他示例中，多个参数和相关联的分布可以根据本文所述的方面被评估。例如，每个参数可以从概率分布中被提取，其中在操作202处针对每个参数的初始分布被确定。当在操作206处对神经网络架构进行采样时，针对每个架构参数的值基于它们的概率分布而被确定，从而采样的神经网络架构由每个确定的值描述。在操作208处，梯度估计器被使用用于每个参数，以便评估对与改变每个参数值相关联的神经网络的整体准确性的影响。相应地，对应的概率分布在操作210处被更新，以基于训练数据进一步调整分布。

图3A图示了用于有监督设置的示例概率模型300的概述。模型300在以上讨论的示例的上下文中被描述，其中θ表示与神经网络架构的不同部分(例如，操作，过滤器等)相关联的权重的集合，而π表示在α，p(α|π)上的先验分布的超参数。在示例中，α是与神经网络架构的不同架构参数相关联的一组离散变量，从而α_k可以是来自p(α|π)的样本，其表示由针对每个离散架构参数的的值基于概率分布π所定义的神经网络架构。

模型300图示有监督设置，在其中x_n是与已知(例如，标记的)输出y_n相关联的输入。与包括输入数据的无监督设置相比，有监督设置还包括输出数据(例如，标签)的相关联集合，当训练模型其可以被用于确定模型是否对输入数据进行准确分类。超参数π被图示具有到离散变量集合α的方向箭头，从而指示α依赖于π，从而可以使用具有超参数π的概率分布确定针对的α的值的离散集合。在示例中，模型300还包括从θ到y_n的方向箭头，从而图示网络参数θ与神经网络架构内的边的权重之间的关系。相应地，在有监督设置中，目标是最大化似然性p(y|x，θ，α)，其是观察在给定输入(x)，网络参数θ(例如，一组边权重)和架构参数α(例如，基于概率分布π所确定的离散变量集合)的相关联的输出(y)的似然性。

图3B图示用于无监督设置的示例概率模型320的概述。如上所讨论的，模型320类似于模型300。然而，与涉及具有与已知(例如，标记的)输出y_n相关联地被输入的输入x_n的训练数据无关，在无监督设置中仅输入是可用的。结果，在模型320的上下文中，目标将用于最大化神经网络架构的准确性，这可以由概率分布log p(x)描述，其中x是输入训练数据。

将理解的是，模型300和320以及变量和函数的相关联的讨论，被提供为示例，以及其他概率模型和/或最大化函数可以被使用。此外，尽管针对不同的训练数据集描述了模型300和320(例如，其中一个数据集包括有监督数据，而另一数据集包括无监督数据)，但是将理解的是，在某些实例中，训练数据可以是有监督数据和无监督数据的组合。

图4是图示使用其本公开的方面可以被实践的计算装置400的物理组件(例如，硬件)的框图。下面描述的计算设备组件可以适用于上面描述的计算设备。在基本配置中，计算设备400可以包括至少一个处理单元402和系统存储器404。取决于计算设备的配置和类型，系统存储器404可以包括但不限于易失性存储器(例如，随机存取存储器)，非易失性存储器(例如，只读存储器)，闪存，或此类存储器的任何组合。系统存储器404可以包括操作系统405和适用于执行本文公开的各个方面的一个或多个程序模块406，例如神经架构空间424和神经架构采样引擎426。例如，操作系统405可以适用于控制计算设备400的操作。此外，本公开的实施例可以结合图形库、其他操作系统或任何其他应用程序而被实践，并且不限于任何具体的应用或系统。该基本配置在图4中由虚线408内的那些组件被图示。计算设备400可以具有附加的特征或功能。例如，计算设备400还可以包括诸如附加数据存储设备(可移除和/或不可移除)，例如磁盘，光盘或磁带。这样的附加存储装置在图4中由可移除存储设备409和不可移除存储设备410图示。

如上所述，多个程序模块和数据文件可以被存储在系统存储器404中。当在处理单元402上执行时，程序模块406(例如，应用420)可以执行包括但不限于本文所描的方面的过程。根据本公开的方面可以被使用的其他程序模块可以包括电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用程序等。

此外，本公开的实施例可以在包括分立电子元件的电子电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路中、或在包含电子元件或微处理器的单个芯片上被实践。例如，本公开的实施例可以经由片上系统(SOC)被实践，其中，图4中图示的每个或许多组件可以被集成到单个集成电路上。这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能，所有这些都被集成(或“烧制”)到芯片基板上作为单个集成电路。当经由SOC操作时，本文描述的关于客户端切换协议的能力的功能可以经由与单个集成电路(芯片)上的计算设备400的其他组件集成的专用逻辑而被操作。本公开的实施例还可以使用能够执行逻辑运算(诸如，例如，AND，OR和NOT)的其他技术被实践，包括但不限于机械、光学、流体和量子技术。附加的，本公开的实施例可以在通用计算机内或在任何其他电路或系统中被实践。

计算设备400还可以具有一个或多个输入设备412，诸如键盘、鼠标、笔、声音或语音输入设备、触摸或滑动输入设备等。诸如显示器，扬声器，打印机等的(多个)输出设备414也可以被包括。前述设备是示例以及其他设备可以被使用。计算设备400可以包括允许与其他计算设备450进行通信的一个或多个通信连接416。合适的通信连接416的示例包括但不限于，射频(RF)发射器、接收器和/或收发器电路；通用串行总线(USB)、并行和/或串行端口。

如本文所使用的，术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以任何用于存储信息(诸如计算机可读指令，数据结构或程序模块)的方法或技术实现的易失性和非易失性、可移除和不可移除介质。系统存储器404、可移除存储设备409和不可移除存储设备410都是计算机存储介质示例(例如，存储器存储装置)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储器技术、CD-ROM、数字多功能磁盘(DVD)或其他光学存储装置、磁性卡带、磁带、磁盘存储装置或其他磁性存储设备、或可被用于存储信息并可由计算设备400访问的任何其他制、品。任何此类计算机存储介质可以是计算设备400的部分。计算机存储介质不包括载波或其他传播或调制的数据信号。

通信介质可以由计算机可读指令、数据结构、程序模块或诸如载波或其他传输机制之类的调制数据信号中的其他数据来体现，并且包括任何信息传递介质。术语“调制数据信号”可以描述具有以将信息编码在信号中的方式设置或改变的一个或多个特性的信号。作为示例而非限制，通信介质可以包括诸如有线网络或直接有线连接之类的有线介质，以及诸如声学、射频(RF)、红外和其他无线介质之类的无线介质。

图5A和图5B图示使用其本公开的方面可以被实践的移动计算设备500，例如，移动电话智能电话可穿戴计算机(诸如智能手表)平板计算机膝上型计算机等。在一些方面，客户端可以是移动计算设备。参考图5A，图示了用于实现方面的移动计算设备500的一个方面。在基本配置中，移动计算设备500是具有输入元件和输出元件两者的手持计算机。移动计算设备500通常包括显示器505和一个或多个输入按钮510，其允许用户将信息输入到移动计算设备500中。移动计算设备500的显示器505还可以用作输入设备(例如，触摸屏显示器)。如果包括的话，可选的侧面输入元件515允许进一步的用户输入。侧面输入元件515可以是旋转开关按钮或任何其他类型的手动输入元件。在替代方面，移动计算设备500可以合并更多或更少的输入元件。例如，在一些实施例中，显示器505可以不是触摸屏。在又一替代实施例中，移动计算设备500是便携式电话系统，诸如蜂窝电话。移动计算设备500还可以包括可选的小键盘535。可选的小键盘535可以是在触摸屏显示器上生成的物理小键盘或“软”小键盘。在各个实施例中，输出元件包括用于显示图形用户界面(GUI)的显示器505、视觉指示器520(例如，发光二极管)和/或音频换能器525(例如，扬声器)。在一些方面，移动计算设备500合并用于向用户提供触觉反馈的振动换能器。在又一方面，移动计算设备500合并输入和/或输出端口，诸如音频输入(例如，麦克风插孔)、音频输出(例如，耳机插孔)和视频输出(例如，HDMI端口)，用于向外部设备发送信号或从外部设备接收信号。

图5B是图示移动计算设备的一个方面的架构的框图。即，移动计算设备500可以合并系统(例如，架构)502以实现一些方面。在一个实施例中，系统502被实现为能够运行一个或多个应用(例如，浏览器、电子邮件、日历、联系人管理器、消息客户端、游戏和媒体客户端/播放器)的“智能电话”。在一些方面，系统502被集成为计算设备，诸如集成的个人数字助理(PDA)和无线电话。

一个或多个应用程序566可以被加载到存储器562中并且在操作系统564上运行或与操作系统564相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、Internet浏览器程序、消息程序，等等。系统502还包括存储器562内的非易失性存储区域568。非易失性存储区域568可以被用于存储永久信息，如果系统502断电，该永久信息不应丢失。应用程序566可以使用非易失性存储区域568中的信息以及将信息存储在非易失性存储区域568中，诸如电子邮件或由电子邮件应用所使用的其他消息等。同步应用(未示出)也驻留在系统502上，并且被编程以与驻留在主机计算机上的对应的同步应用进行交互，以使存储在非易失性存储区域568中的信息与在主机计算机处存储的对应信息保持同步。应当理解的是，其他应用可以被加载到存储器562中并且在本文描述的移动计算设备500上运行(例如，搜索引擎提取器模块，相关性排名模块答案评分模块等)。

系统502具有电源570，其可以被实现为一个或多个电池。电源570可能还包括外部电源，诸如AC适配器或对电池进行补充或充电的电动对接支架。

系统502还可以包括执行传输和接收射频通信的功能的无线电接口层572。无线电接口层572经由通信运营商或服务提供商促进系统502与“外部世界”之间的无线连接。到无线电接口层572和来自无线电接口层572的传输是在操作系统564的控制下进行的。换句话说，由无线电接口层572接收的通信可以经由操作系统564被散布到应用程序566，反之亦然。

视觉指示器520可以被用于提供视觉通知，和/或音频接口574可以被用于经由音频换能器525产生音频通知。在图示的实施例中，视觉指示器520是发光二极管(LED)，以及音频换能器525是扬声器。这些设备可以被直接耦合到电源570，从而当被激活时，即使处理器560和其他组件可能为了节省电池电量而关闭，它们也仍会在通知机制指定的持续时间内保持开启。LED可以被编程以无限期保持开启，直到用户采取措施指示设备的开机状态为止。音频接口574被用于向用户提供音频信号并从用户接收音频信号。例如，除了被耦合到音频换能器525之外，音频接口574还可以被耦合到麦克风以接收音频输入，诸如以促进电话交谈。根据本公开的实施例，麦克风也可以用作音频传感器以促进通知的控制，如将在下面描述的。系统502可以进一步包括视频接口576，其使得机载(on-board)相机530的操作能够记录静止图像、视频流等。

实现系统502的移动计算设备500可以具有附加特征或功能。例如，移动计算设备500还可以包括附加数据存储设备(可移除和/或不可移除)，诸如磁盘、光盘或带。这样的附加存储装置在图5B中由非易失性存储区域568图示。

由移动计算设备500生成或捕获的并经由系统502存储的数据/信息可以如上所述地被本地存储在移动计算设备500上，或者该数据可以存储在任何适量的存储介质上，其可以由设备经由无线电接口层572或经由移动计算设备500和与移动计算设备500相关联的单独计算设备(例如，分布式计算网络中的服务器计算机)之间的有线连接(诸如互联网)而被访问。应当理解，这样的数据/信息可以经由移动计算设备500经由无线电接口层572或经由分布式计算网络而被访问。类似地，这样的数据/信息可以根据众所周知的数据/信息传送和存储手段(包括电子邮件和协作数据/信息共享系统)，在计算设备之间容易地被传送，用于存储和使用。

图6图示用于处理在计算系统处从远程源接收到的数据的系统的架构的一个方面，远程源诸如，如上所述的个人计算机604、平板计算设备606或移动计算设备608。在服务器设备602处显示的内容可以被存储在不同的通信信道或其他存储类型中。例如，可以使用目录服务622、Web门户624、邮箱服务626、即时消息存储库628或社交网站630来存储各种文档。与服务器设备602通信的客户端可以采用神经网络引擎621，和/或服务器设备602可以采用远程神经网络架构生成引擎620。服务器设备602可以通过网络615提供到和来自客户端计算设备的数据，诸如个人计算机604、平板计算设备606和/或移动计算设备608(例如，智能手机)。通过示例的方式，上述计算机系统可以被体现在个人计算机604、平板计算设备606和/或移动计算设备608(例如，智能手机)中。除了接收可用于在图形起源系统处进行预处理或在接收计算系统处进行后处理的图形数据之外，计算设备的这些实施例中的任何一个都可以从存储库616获得内容。

图7图示可以执行本文公开的一个或多个方面的示例性平板计算设备700。附加的，本文描述的方面和功能可以在分布式系统(例如，基于云的计算系统)上操作，其中应用功能、存储器、数据存储和检索以及各种处理功能可以在分布式计算网络(诸如因特网或内联网)上彼此远程地被操作。各种类型的用户界面和信息可以经由板载计算设备显示器或经由与一个或多个计算设备相关联的远程显示单元被显示。例如，各种类型的用户界面和信息被显示在墙壁表面上，和与各种类型的用户界面和信息被投影在其上的墙壁表面进行交互。与利用其本发明的实施例可以被实践的多个计算系统的交互包括，击键输入、触摸屏输入、语音或其他音频输入、手势输入，其中相关联的计算设备被配备有检测(例如，相机)功能，用于捕获以及解释用于控制计算设备的功能的用户手势，等等。

从前述公开中将理解，技术的一个方面涉及一种系统，包括：至少一个处理器；以及存储指令的存储器，所述指令在由所述至少一个处理器执行时，引起所述系统执行一组操作。该组操作包括：对来自训练数据存储库的训练数据进行采样；使用与神经网络架构参数相关联的第一概率分布生成采样的神经网络架构，其中基于第一概率分布针对神经网络架构参数的值被确定；使用采样的神经网络架构评估采样的训练数据，以计算与采样的神经网络架构相关联的损失函数的梯度；基于所计算的损失函数的梯度，从第一概率分布中生成针对神经网络架构参数的第二概率分布；基于终止准则评估第二概率分布，以确定是否满足终止准则；以及当确定满足终止准则时，基于第二概率分布，生成具有针对参数的值的结果神经网络架构。在示例中，该组操作还包括：当确定不满足终止准则时，使用第二概率分布生成第二采样的神经网络架构；以及使用第二采样的神经网络架构评估来自训练数据存储库的训练数据，以计算与第二采样的神经网络架构相关联的损失函数的梯度；以及从第二概率分布生成针对的神经网络架构参数的第三概率分布。在另一示例中，确定是否满足终止准则包括基于预定阈值比较与第二概率分布相关联的神经网络架构的第一准确性和与第一概率分布相关联的神经网络架构的第二准确性。在再一示例中，采样的神经网络架构从神经网络架构空间被生成。在又一示例中，该一组操作还包括：使用来自训练数据存储库的训练数据来训练结果神经网络架构。在又一示例中，第一概率分布基于使用替代项数据集所确定的神经网络架构而被确定的，其中替代项数据集包括来自训练数据存储库的、与在对来自训练数据存储库中训练数据进行采样时所使用的训练数据集不同的训练数据集。在另一示例中，第一概率分布是均匀分布。

在另一方面，该技术涉及一种用于生成神经网络架构的方法。该方法包括：对来自训练数据存储库的训练数据进行采样；基于初始概率分布，从神经网络架构空间确定样本神经网络架构；使用样本神经网络架构，执行对采样的训练数据的评估；基于所述评估，更新初始概率分布以生成更新的概率分布；确定是否满足终止准则；以及当确定满足终止准则时，基于更新的概率分布生成结果神经网络架构。在示例中，执行对采样的训练数据的评估包括：使用采样的神经网络架构来评估采样的训练数据，以计算与采样的神经网络架构相关联的损失函数的梯度。在另一示例中，更新初始概率分布以生成更新的概率分布包括：基于所计算的损失函数的梯度，更新初始概率分布以生成更新的概率分布。在再一示例中，确定是否满足终止准则包括基于预定阈值比较与初始概率分布相关联的神经网络架构的第一准确性和与更新的概率分布相关联的神经网络架构的第二准确性。在又一示例中，该方法还包括：使用来自训练数据存储库的训练数据来训练结果神经网络架构。在又一个示例中，基于使用数据集替代项所确定的替代项神经网络架构来确定初始概率分布，其中，数据集替代项包括来自训练数据存储库的、与在对来自训练数据存储库中的训练数据进行采样时所使用的训练数据集不同的训练数据集。

在再一方面，该技术涉及另一种用于生成神经网络架构的方法。该方法包括：对来自训练数据存储库的训练数据进行采样；使用与神经网络架构参数相关联的第一概率分布来生成采样的神经网络架构，其中基于第一概率分布确定针对神经网络架构参数的值；使用采样的神经网络架构评估采样的训练数据，以计算与采样的神经网络架构相关联的损失函数的梯度；基于所计算的损失函数的梯度，从第一概率分布生成针对神经网络架构参数的第二概率分布；基于终止准则评估第二概率分布，以确定是否满足终止准则；以及在确定满足终止准则时，基于第二概率分布生成具有针对参数的值的结果神经网络架构。在示例中，该方法还包括：当确定不满足终止准则时，使用第二概率分布生成第二采样的神经网络架构；使用第二采样的神经网络架构评估来自训练数据存储库的训练数据，以计算与第二采样的神经网络架构相关联的损失函数的梯度；以及从第二概率分布生成针对神经网络架构参数的第三概率分布。在另一示例中，确定是否满足终止准则包括基于预定阈值比较与第二概率分布相关联的神经网络架构的第一准确性和与第一概率分布相关联的神经网络架构的第二准确性。在再一示例中，从神经网络架构空间生成采样的神经网络架构。在又一示例中，该方法还包括：使用来自训练数据存储库的训练数据来训练结果神经网络架构。在又一示例中，基于使用数据集替代项所确定的替代项神经网络架构来确定第一概率分布，其中数据集替代项包括来自训练数据存储库的、与在对来自训练数据存储库的训练数据进行采样时所使用的训练数据集不同的训练数据集。在另一示例中，第一概率分布是均匀分布。

例如，以上参照根据本公开的方面的方法、系统和计算机程序产品的框图和/或操作图示描述了本公开的方面。方框中的功能/动作可以不按任何流程图中所示的顺序发生。例如，取决于所涉及的功能/动作，实际上可以基本上同时执行连续示出的两个框，或者有时可以以相反的顺序执行这些框。

本申请中提供的一个或多个方面的描述和图示不旨在以任何方式限制或限定所要求保护的本公开的范围。本申请中提供的方面、示例和细节被认为足以传达所有权并使得其他人能够制造和使用所要求保护的公开的最佳模式。所要求保护的公开不应被解释为限于本申请中提供的任何方面，示例或细节。不管是否是组合或单独的显示和描述，各种特征(结构上和方法上)都旨在选择性地被包括或被省略，以生成具有特定特征集的实施例。已经提供了本申请的描述和图示，本领域的技术人员可以设想落入本申请所体现的总体发明构思的更广泛方面的精神之内而不背离要求保护的公开的更广范围的变型、修改和替换方面。

Claims

1.一种系统，包括：

至少一个处理器；以及

存储器，存储指令，所述指令在由所述至少一个处理器执行时，引起所述系统执行一组操作，所述一组操作包括：

对来自训练数据存储库的训练数据采样；

使用与神经网络架构参数相关联的第一概率分布生成采样的神经网络架构，其中针对所述神经网络架构参数的值基于所述第一概率分布而被确定；

使用所述采样的神经网络架构评估所采样的所述训练数据，以计算与所述采样的神经网络架构相关联的损失函数的梯度；

基于所计算的所述损失函数的所述梯度，从所述第一概率分布生成针对所述神经网络架构参数的第二概率分布；

基于终止准则评估所述第二概率分布，以确定所述终止准则是否被满足；以及

当确定所述终止准则被满足时，基于所述第二概率分布，生成具有针对所述参数的值的结果神经网络架构。

2.根据权利要求1所述的系统，其中所述一组操作还包括：

当确定所述终止准则未被满足时，使用所述第二概率分布生成第二采样的神经网络架构；

使用所述第二采样的神经网络架构评估来自所述训练数据存储库的训练数据，以计算与所述第二采样的神经网络架构相关联的损失函数的梯度；以及

从所述第二概率分布生成针对所述神经网络架构参数的第三概率分布。

3.根据权利要求1所述的系统，其中所述一组操作还包括：

使用来自所述训练数据存储库的训练数据训练所述结果神经网络架构。

4.一种用于生成神经网络架构的方法，包括：

对来自训练数据存储库的训练数据采样；

基于初始概率分布，从神经网络架构空间确定样本神经网络架构；

使用所述样本神经网络架构执行对所采样的所述训练数据的评估；

基于所述评估，更新所述初始概率分布以生成更新的概率分布；

确定终止准则是否被满足；以及

当确定所述终止准则被满足时，基于所述更新的概率分布生成结果神经网络架构。

5.根据权利要求4所述的方法，其中执行对所采样的所述训练数据的所述评估包括：

使用所述采样的神经网络架构评估所采样的所述训练数据，以计算与所述采样的神经网络架构相关联的损失函数的梯度。

6.根据权利要求4所述的方法，其中确定所述终止准则是否被满足包括：基于预定阈值比较与所述初始概率分布相关联的神经网络架构的第一准确性和与所述更新的概率分布相关联的神经网络架构的第二准确性。

7.根据权利要求4所述的方法，其中所述初始概率分布是基于使用数据集替代项被确定的替代项神经网络架构而被确定的，其中所述数据集替代项包括来自所述训练数据存储库的、与对来自训练数据存储库的训练数据采样时所使用的训练数据集不同的训练数据集。

8.一种用于生成神经网络架构的方法，包括：

对来自训练数据存储库的训练数据采样；

当确定所述终止准则被满足时，基于所述第二概率分布生成具有针对所述参数的值的结果神经网络架构。

9.根据权利要求8所述的方法，其中确定所述终止准则是否被满足包括：基于预定阈值比较与所述第二概率分布相关联的神经网络架构的第一准确性和与所述第一概率分布相关联的神经网络架构的第二准确性。

10.根据权利要求8所述的方法，其中所述第一概率分布是基于使用数据集替代项被确定的替代项神经网络架构而被确定的，其中所述数据集替代项包括来自所述训练数据存储库的、与对来自训练数据存储库的训练数据采样时所使用的训练数据集不同的训练数据集。

11.根据权利要求1所述的系统，其中确定所述终止准则是否被满足包括：基于预定阈值比较与所述第二概率分布相关联的神经网络架构的第一准确性和与所述第一概率分布相关联的神经网络架构的第二准确性。

12.根据权利要求1所述的系统，其中所述第一概率分布是基于使用数据集替代项被确定的替代项神经网络架构而被确定的，其中替代项数据集包括来自所述训练数据存储库的、与对来自训练数据存储库的训练数据采样时所使用的训练数据集不同的训练数据集。

13.根据权利要求5所述的方法，其中更新所述初始概率分布以生成所述更新的概率分布包括：

基于所计算的所述损失函数的所述梯度，更新所述初始概率分布以生成所述更新的概率分布。

14.根据权利要求8所述的方法，还包括：

在确定所述终止准则未被满足时，使用所述第二概率分布生成第二采样的神经网络架构；

15.根据权利要求8所述的方法，还包括：