CN112470171A

CN112470171A - 选择用于有监督机器学习问题的神经网络架构

Info

Publication number: CN112470171A
Application number: CN201980031270.XA
Authority: CN
Inventors: S·阿米扎德; 杨格; N·富西; F·P·卡萨莱
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-05-10
Filing date: 2019-04-27
Publication date: 2021-03-09
Also published as: CA3097036A1; US11995538B2; WO2019217113A1; JP2021523430A; EP3791326A1; JP7344900B2; KR20210008480A; US20190347548A1

Abstract

公开了用于针对机器学习问题选择神经网络的系统和方法。一种方法包括访问输入矩阵。该方法包括访问与机器学习问题相关联的机器学习问题空间和用于解决机器学习问题的多个未经训练的候选神经网络。该方法包括针对每个未经训练的候选神经网络，计算捕获候选神经网络关于机器学习问题的表达性的至少一个表达性度量。该方法包括针对每个未经训练的候选神经网络，计算捕获候选神经网络关于机器学习问题的可训练性的至少一个可训练性度量。该方法包括基于至少一个表达性度量和至少一个可训练性度量选择用于解决机器学习问题的至少一个候选神经网络。

Description

选择用于有监督机器学习问题的神经网络架构

背景技术

已知多种不同类型的神经网络架构(例如，卷积神经网络、前馈神经网络等)。选择用于解决给定机器学习问题的神经网络架构(以及给定架构类型内的子架构)可能具有挑战性。

附图说明

在附图的图中，通过示例而非限制的方式示出了本技术的一些实施例。

图1示出了根据一些实施例的可以在其中实现选择用于解决机器学习问题的神经网络架构的示例系统。

图2示出了根据一些实施例的用于选择用于解决机器学习问题的神经网络架构的示例方法的流程图。

图3示出了根据一些实施例的用于减少错误率的示例方法的流程图。

图4A至4B示出了根据一些实施例的用于从块中选择单元的示例方法的流程图。

图5是示出根据一些实施例的能够从机器可读介质读取指令并且执行本文中讨论的任何方法的机器的组件的框图。

发明内容

本公开总体上涉及被配置为选择用于解决机器学习问题的神经网络架构的机器，包括这种专用机器的计算机化变体和对这种变体的改进，并且涉及使这种专用机器与提供神经网络技术的其他专用机器相比得到改进的技术。特别地，本公开致力于用于选择用于解决给定机器学习问题空间中的机器学习问题的神经网络架构的系统和方法。

根据本文中描述的技术的一些方面，一种系统包括处理硬件和存储器。存储器存储指令，该指令在由处理硬件执行时使处理硬件执行操作。该操作包括访问与机器学习问题相关联的机器学习问题空间和用于解决机器学习问题的多个未经训练的候选神经网络。该操作包括针对每个未经训练的候选神经网络，计算捕获候选神经网络关于机器学习问题的表达性(expressivity)的至少一个表达性度量(measure)。该操作包括针对每个未经训练的候选神经网络，计算捕获候选神经网络关于机器学习问题的可训练性(trainability)的至少一个可训练性度量。该操作包括基于至少一个表达性度量和至少一个可训练性度量选择用于解决机器学习问题的至少一个候选神经网络。该操作包括提供表示所选择的至少一个候选神经网络的输出。

根据本文中描述的技术的一些方面，一种机器可读介质存储指令，该指令在由一个或多个机器执行时使一个或多个机器执行操作。该操作包括访问与机器学习问题相关联的机器学习问题空间和用于解决机器学习问题的多个未经训练的候选神经网络。该操作包括针对每个未经训练的候选神经网络，计算捕获候选神经网络关于机器学习问题的表达性的至少一个表达性度量。该操作包括针对每个未经训练的候选神经网络，计算捕获候选神经网络关于机器学习问题的可训练性的至少一个可训练性度量。该操作包括基于至少一个表达性度量和至少一个可训练性度量选择用于解决机器学习问题的至少一个候选神经网络。该操作包括提供表示所选择的至少一个候选神经网络的输出。

根据本文中描述的技术的一些方面，一种方法包括访问输入矩阵。该方法包括访问与机器学习问题相关联的机器学习问题空间和用于解决机器学习问题的多个未经训练的候选神经网络。该方法包括针对每个未经训练的候选神经网络，计算捕获候选神经网络关于机器学习问题的表达性的至少一个表达性度量。该方法包括针对每个未经训练的候选神经网络，计算捕获候选神经网络关于机器学习问题的可训练性的至少一个可训练性度量。该方法包括基于至少一个表达性度量和至少一个可训练性度量选择用于解决机器学习问题的至少一个候选神经网络。该方法包括提供表示所选择的至少一个候选神经网络的输出。

具体实施方式

总览

本公开尤其描述了个体地提供各种功能的方法、系统和计算机程序产品。在下面的描述中，出于解释的目的，阐述了很多具体细节以便提供对本公开的不同实施例的各个方面的透彻理解。然而，对于本领域的技术人员很清楚的是，可以在没有所有具体细节的情况下实践本公开。

如上所述，已知多种不同类型的神经网络架构(例如，前馈神经网络、卷积神经网络、递归神经网络等)。选择一种高性能的神经网络架构来解决给定机器学习问题(例如，回归问题、排名问题或分类问题，诸如对给定空间中的数据进行分类，诸如根据图像中的鸟的类型对鸟的图像进行分类)可能具有挑战性。

本文中描述的技术的一些方面针对解决以下技术问题：在神经网络架构被训练之前从一组神经网络架构中选择用于解决给定机器学习问题的神经网络架构。有利地，作为某些方面的结果，对高性能的神经网络架构进行训练以解决给定机器学习问题，并且不训练不太理想的架构。这样可以节省计算时间并且提高效率，而不会导致使用非高性能的神经网络。

在某些情况下，该问题的解决方案在服务器处实现。服务器经由数据存储库访问与机器学习问题相关联的机器学习问题空间和用于解决机器学习问题的多个未经训练的候选神经网络。服务器对于每个未经训练的候选神经网络计算捕获候选神经网络关于机器学习问题的表达性的至少一个表达性度量。服务器对于每个未经训练的候选神经网络计算捕获候选神经网络关于机器学习问题的可训练性的至少一个可训练性度量。服务器基于至少一个表达性度量、至少一个可训练性度量和候选神经网络的架构，来选择用于解决机器学习问题的至少一个候选神经网络。服务器提供表示所选择的至少一个候选神经网络的输出。

在某些情况下，对所选择的至少一个候选神经网络进行部分或全部训练以解决机器学习问题。如本文中使用的，被“部分或完全训练”的神经网络可以包括被训练达几个时期或被训练直到已经满足某个收敛指示符。已训练的至少一个候选神经网络在机器学习问题空间上运行以解决机器学习问题。然后，服务器提供由已训练的至少一个候选神经网络生成的对机器学习问题的解决方案。

根据一些示例，至少一个表达性度量表示由未经训练的候选神经网络对来自机器学习问题空间的样本的分离的度量(例如，大小或角度)。根据一些示例，给定来自机器学习问题空间的样本，至少一个可训练性度量表示最后一层和第一层处的梯度的函数。根据一些示例，可表达性和可训练性度量可以包括捕获架构的不同性质(诸如可表达性和可训练性)的神经网络的量、度量或统计数据(statistics)。

图1示出了根据一些实施例的可以在其中实现选择用于解决机器学习问题的神经网络架构的示例系统100。如图所示，系统100包括经由网络140彼此连接的服务器110、数据存储库120和客户端设备130。网络140包括因特网、内联网、局域网、广域网、有线网络、无线网络、蜂窝网络、WiFi网络等中的一个或多个。

客户端设备130可以是膝上型计算机、台式计算机、移动电话、平板计算机、具有处理器和存储器的智能电视、智能手表等。客户端设备130可以用于向用户显示输出或从用户接收输入。

数据存储库120可以被实现为数据库或任何其他数据存储结构。如图所示，数据存储库存储机器学习问题空间122。机器学习问题空间122包括要由神经网络分类的数据。例如，机器学习问题空间122可以包括要根据鸟的类型分类的鸟的照片或要被分类为“重要电子邮件”、“不重要电子邮件”或“垃圾邮件”的电子邮件消息。

服务器110可以包括一个或多个服务器。服务器110可以被实现为包括多个服务器的服务器场。如图所示，服务器110存储未经训练的候选神经网络112.1-n(其中n是大于或等于2的正整数)、选择模块114和训练模块116。未经训练的候选神经网络112.1-n是可以用于各种分类任务的神经网络。例如，未经训练的候选神经网络112.1-n可以包括卷积神经网络或前馈神经网络的未经训练的版本。

选择模块114选择未经训练的候选神经网络112.1-n中的至少一个以用于训练以解决与机器学习问题空间122相关联的机器学习问题。选择模块的示例操作的更多细节与图2相结合来提供。训练模块116训练(由选择模块114)(从未经训练的候选神经网络112.1-n中)选择的(多个)神经网络以解决机器学习问题。在训练之后，已训练神经网络可以用来通过对机器学习问题空间122(或另一问题空间)中的数据进行分类来解决机器学习问题。

图2示出了根据一些实施例的用于选择用于解决机器学习问题的神经网络架构的示例方法200的流程图。如下所述，方法200使用图1的服务器110的选择模块114来实现。然而，方法200不受系统100的架构的限制，并且可以在其他架构或其他系统中实现。

在操作210，选择模块114访问(例如，经由网络140)与待解决的机器学习问题相关联的机器学习问题空间122。选择模块114访问用于解决机器学习问题的多个未经训练的候选神经网络112.1-n。

在操作220，选择模块114针对每个未经训练的候选神经网络112.1-n计算与候选神经网络关于机器学习问题的表达性有关的(多个)表达性测度(metric)。(多个)表达性测度表示由未经训练的候选神经网络对来自机器学习问题空间122的样本的分离的度量。分离的度量可以是大小或角度。

在操作230，选择模块114针对每个未经训练的候选神经网络112.1-n计算与候选神经网络关于机器学习问题的可训练性有关的(多个)可训练性测度。

在操作240，选择模块114基于(多个)表达性度量和(多个)可训练性度量来选择用于解决机器学习问题的(多个)候选神经网络。该选择还基于(多个)候选神经网络的(多个)架构。(多个)候选神经网络是从多个未经训练的候选神经网络112.1-n中选择的。在一些情况下，选择模块114选择(多个)表达性度量超过阈值并且(多个)可训练性度量在范围内的(多个)候选神经网络。该范围由范围最小值和范围最大值限定。

在操作250，选择模块114提供表示所选择的(多个)候选神经网络的输出。在一些情况下，训练模块116训练所选择的(多个)候选神经网络以解决机器学习问题。训练模块116在机器学习问题空间122上运行已训练的(多个)候选神经网络以解决机器学习问题。服务器110提供(例如，提供给客户端设备130以在其处显示，或者提供给数据存储库120以在其处存储)由已训练的(多个)候选神经网络生成的机器学习问题的解决方案。

本文中描述的技术的一个目标是针对给定任务自动选择和配置神经网络架构。更具体地，给定数据集，某些方面自动标识层类型(例如，卷积、最大池化、完全连接等)、其超参数(例如，步幅大小、卷积大小)、其与所有其他层的连接、和总层数。一些方面还标识要使用的训练算法(例如，随机梯度下降、RMSProp、Adam等)以及如何初始化权重(例如，Glorot、Normal、Laplace、Uniform等)。

可以基于以下方式对一些方案进行分组：(1)它们如何在架构上定义搜索空间(例如，非限制或受限)；(2)它们如何探索空间(例如，强化学习、蒙特卡洛树搜索)；(3)它们使用什么预测模型来指导搜索(例如，基于顺序模型的优化、递归神经网络(RNN)、遗传算法)；以及(4)它们是否使用廉价的替代函数来更有效地指导搜索。在遗传算法和强化学习的情况下，上述第2点和第3点被合并为一个，因为它们共同学习预测模型并且探索空间。

在一些实施例中，借助于基于顺序模型的优化(SMBO)来探索搜索空间。SMBO中的一个示例模型可以是贝叶斯递归神经网络。定义了随机神经网络的一组特性，以充当神经网络真实性能的廉价替代品(cheap surrogate)(或统计数据)。在某些情况下，使用同时输出预测和关于预测的不确定性的其他模型(例如，高斯过程)。在某些情况下，廉价替代品(或统计数据)未作为模型的输入而给出，而是被视为输出。廉价的替代品可以包括上面讨论的可训练性和表达性度量。

在一些扩展实施例中，搜索空间是不受限制的。强化学习或蒙特卡洛树搜索用于探索搜索空间。在某些情况下，还可以附加地使用架构本身的表示来帮助进行预测。

一些方面涉及用于在训练之前预测在训练之后初始模型在数据集上的性能的两个主要度量。这两种度量都是在来自数据集中的随机批次上收集的模型的统计数据。在某些示例中，批次由n个点组成

有些方面忽略了标签y_i。该模型通常包括两个组件：将输入空间嵌入到潜在空间中的深层神经网络、以及完全连接的线性层，然后是将嵌入转化为一组可能的标签之上的概率分布的softmax。设f为前者，即，嵌入，并且假定它具有L个层。

测度表达性是根据表达式1定义的，表达式1近似于表达式2。在表达式1中，{x₁，...，x_n}是一批输入。

表达式1

表达式2

在表达式2中，E表示期望，P是多个x的数据分布。直观地，该度量表示f扩展输入空间并且将点拉开的倾向。较大的测度表达性应当与在训练之后的更好表现相关。该度量的变化包括对(x，x')对进行采样，而不是选择同一批次的每一对，并且选择除2以外的其他幂(即，对于某些p>0，

)，以及用于测试神经网络的“扩展性”(扩展输入空间的倾向)的其他方法。

除了测度表达性特征以外，梯度变形还包括关于最后一层对随机梯度向量进行采样，并且在对每个样本x_i进行正向计算之后执行反向传播，以获取每个先前层的梯度向量。假定这样的固定输入x_i和固定的最后一层梯度向量，在第l层处对参数w的梯度向量表示为

然后，在表达式3中定义对参数w的梯度变形。

表达式3

换言之，梯度变形是对典型数据点上发生多少梯度爆炸或消失的度量。这个越大，训练后的性能就被预期为越差，因为预期训练(经由随机梯度下降(SGD))很困难。该度量的变化包括为针对每个x_i采样新的最后一层梯度向量，用表达式4代替求和数，以及其他测量梯度爆炸/消失的方法。以上度量在固定架构和随机初始化的情况下预测剩余网络性能。

表达式4

给定与在测度表达性情况中相同的设置，在表达式5中定义角度表达性。

表达式5

角度表达性在拉开它们的角度的意义上测量f“去相关”多少输入向量。因此，可以预期大的角度表达性与更好的性能相关。在某些方案中，预测量实际上是

与当f的深度达到无穷大时其渐近极限的偏差。这个渐近偏差的表示是柯西误差C_l-C_(l+1)，其中C_l是直到第l层的网络的角度表达性。

在某些情况下，可以自动学习统计数据。尽管本文中描述的基于数据的统计数据与模型的最终性能高度相关，但它们可能不是人们可以提取以预测给定模型的泛化能力的最具预测性的统计数据。最具预测性的统计数据可能是原始统计数据(即，用于计算上一部分中的统计数据的嵌入和梯度度量)的复杂非线性函数。

然而，像机器学习中的任何其他函数逼近问题一样，如果存在足够的训练数据，则可以学习这些复杂的函数。这将激励框架的另一版本，其中服务器110也从原始数据中学习预测性统计数据。特别地，某些方面可以使用神经网络，神经网络的输入是最后一层的数据表示(即，上面的f(x))、最后一层和第一层的梯度等。

在一些方面的一般版本中，重复算法1的过程，直到达到预定的期望错误率或者达到预定的总计算成本。

算法1

1.提出了多种深度神经网络(DNN)架构。DNN架构可以从预定义架构的空间中进行采样，也可以使用通用构建块进行构建。

2.使用Glorot Normal初始化来初始化架构的权重。在替代实施例中，可以使用独立的正态分布和拉普拉斯分布。

3.计算针对架构中的每个的测度表达性和梯度变形。

4.将每个架构的测度表达性和梯度变形包括为贝叶斯递归神经网络(贝叶斯RNN)的输入，以预测架构性能。高斯过程也可以用于这个任务。原则上可以使用输出其预测上的分布的任何概率机器学习算法。

5.将使用贝叶斯RNN针对架构中的每个计算出的后验均值和方差用作采集函数(acquisition function)的输入，例如预期的改进、置信区间上限或汤普森采样。

6.对具有超过阈值的针对采集函数的(多个)值的(多个)架构进行采样。

7.对具有超过阈值的针对采集函数的(多个)值的(多个)架构进行训练，并且评估它们在保留集上的性能。利用观察到的性能更新操作4中使用的模型。返回操作1。

图3中总结了算法1。图3示出了根据一些实施例的用于减少错误率的示例方法的流程图300。

在操作310，服务器(例如，服务器110)提出多个DNN架构。DNN架构可以从预定义架构的空间中进行采样，也可以使用通用构建块进行构建。

在操作320，服务器使用Glorot Normal初始化来初始化架构的权重。在替代实施例中，可以使用独立的正态分布和拉普拉斯分布。

在操作330，服务器计算架构中的每个架构的测度表达性和梯度变形。

在操作340，服务器将每个架构的测度表达性和梯度变形包括为贝叶斯RNN的输入，以预测架构性能。高斯过程也可以用于这个任务。原则上可以使用输出在其预测上的分布的任何概率机器学习算法。

在操作350，服务器将使用贝叶斯RNN对于每个架构计算出的后验均值和方差用作获取函数的输入，例如预期的改进、置信区间上限或汤普森采样。

在操作360，服务器对具有超过阈值的针对采集函数的(多个)值的(多个)架构进行采样。

在操作370，服务器对具有超过阈值的针对采集函数的(多个)值的(多个)架构进行训练，并且评估它们在保留集上的性能。基于观察到的性能来更新操作340的贝叶斯RNN模型。在操作370之后，如果针对(操作360的)采集函数的值足够，则方法300结束。否则，方法300返回操作310。

这里描述了具体实现。给定固定的深度神经网络架构，其中递归基本单位(单元(cell))重复多次，某些方面涉及推理具有最高精度的单元。首先，单元定义为一定数目的块(block)的有向无环图。每个块采取两个输入(I₁，I₂)，对每个输入执行运算(O₁，O₂)，然后返回来自这两个运算的输出之和。针对一个块的该组可能输入是一个单元中所有先前块的输出以及先前两个单元的输出。这些输入上的运算是标准神经网络层，诸如卷积、最大池化等。在深度神经网络中自动准确地搜索这样的基本单元非常重要，因为它们的性能通常会在应用到较大数据集时泛化。为了找到具有B个块的最佳单元，使用算法2。

在某些情况下，算法2中的搜索可能会详尽无遗，因为一个块(C)上的单元数可能很少。例如，对于8种可能的运算，搜索空间为8*8*2*2＝256，可以例如通过并行使用256个图形处理单元(GPU)进行详尽地研究。

算法2

1.考虑一个块(C)中的一组单元。

2.对于C中的每个单元：

·使用Glorot Normal初始化来初始化架构的权重。在替代实施例中，可以使用同分布(iid)正态分布和拉普拉斯分布。

·计算测度表达性和梯度变形。这可以在多个初始化之上完成，并且可以报告均值和方差。

·训练神经网络达固定数目的时期。

·计算在测试集上的精度。

3.如果C中的单元的块数为B，则停止并且返回具有最高测试精度的单元。

4.训练贝叶斯递归神经网络(BRNN)，该BRNN将单元架构和随机统计数据作为输入并且预测测试集的精度。

5.考虑集合D，包括通过扩展C中的每个单元并且添加新的块而获取的单元。

6.针对D中的单元计算测度表达性和梯度变形。如果这个计算过于昂贵(例如，由于D中单元数众多)，则可以(i)训练仅采取单元结构的附加BRNN，并且预测测试集精度，以及(ii)基于所预测的测试精度将其用于过滤集合D。

7.使用操作4中的BRNN确定要在下一次迭代中考虑的单元集合

。该决定通过在贝叶斯优化框架内权衡开发(exploitation)和探索(exploration)来做出。

8.ε→C并且然后转到步骤2。

在图4A-4B中总结了算法2。图4A-4B示出了根据一些实施例的用于从块中选择单元的示例方法400的流程图。

如图4A所示，操作410包括子操作412-418。在操作410中，针对块C中的每个单元，服务器(例如，服务器110)执行子操作412-418。

在子操作412，服务器使用Glorot Normal初始化来初始化架构的权重。在替代实施例中，可以使用同分布正态分布和拉普拉斯分布。

在子操作414，服务器计算测度表达性和梯度变形。这可以在多个初始化之上完成，并且可以报告均值和方差。

在子操作416，服务器训练神经网络达固定数目的时期。

在子操作418，服务器计算在测试集上的精度。在针对C中的每个单元完成操作410之后，方法400继续到操作420。

在操作420，服务器确定C的块数是否在预定范围内。如果是，则方法400继续到操作430。如果不是，则方法400继续到操作440。

在操作430，如果C的块数在预定范围内，则服务器返回C中具有最高测试精度的单元。在操作430之后，方法400结束。

在操作440，如果C的块数不在预定范围内，则服务器对采取单元架构和随机统计数据作为输入并且预测测试集精度的BRNN进行训练。在操作440之后，方法400继续到图4B所示的操作450。

如图4B所示，在操作450，服务器生成集合D，集合D包括通过扩展C中的每个单元并且添加新的块而获取的单元。

在操作460，服务器针对D中的单元计算测度表达性度和梯度变形。如果这个计算过于昂贵(例如，由于D中单元数众多)，则服务器可以(i)训练仅采取单元结构的附加BRNN并且预测测试集精度，以及(ii)基于预测的测试精度使用附加BRNN过滤集合D.

在操作470，服务器使用在操作440中被训练的BRNN来确定要在下一次迭代中考虑的单元集合

。该决定通过在贝叶斯优化框架内权衡开发和探索来做出。

在操作480，服务器将ε存储为C。在操作480之后，方法400返回到图4A的操作420。

编号示例

本文中将某些实施例描述为编号示例1、2、3等。这些编号示例仅作为示例提供，并且不限制本主题技术。

示例1是一种系统，所述系统包括：处理硬件；以及存储指令的存储器，所述指令使所述处理硬件执行操作，所述操作包括：访问与机器学习问题相关联的机器学习问题空间和用于解决所述机器学习问题的多个未经训练的候选神经网络；针对每个未经训练的候选神经网络，计算捕获所述候选神经网络关于所述机器学习问题的表达性的至少一个表达性度量；针对每个未经训练的候选神经网络，计算捕获所述候选神经网络关于所述机器学习问题的可训练性的至少一个可训练性度量；基于所述至少一个表达性度量和所述至少一个可训练性度量选择用于解决所述机器学习问题的至少一个候选神经网络；以及提供表示所选择的至少一个候选神经网络的输出。

在示例2中，根据示例1所述的主题包括：其中所述至少一个表达性度量表示由所述未经训练的候选神经网络对来自所述机器学习问题空间的样本的分离的度量。

在示例3中，根据示例2所述的主题包括，其中所述分离的度量是大小。

在示例4中，根据示例2-3所述的主题包括，其中所述分离的度量是角度。

在示例5中，根据示例1-4所述的主题包括，其中所述至少一个可训练性度量表示在训练的第一阶段期间所述候选神经网络中的权重的随机梯度下降。

在示例6中，根据示例1-5所述的主题包括，其中选择用于解决所述机器学习问题的所述至少一个候选神经网络包括：选择具有超过阈值的所述至少一个表达性度量并且所述至少一个可训练性度量在范围内的所述至少一个候选神经网络，其中所述范围由范围最小值和范围最大值限定。

在示例7中，根据示例1-6所述的主题包括，所述操作还包括：训练所述至少一个候选神经网络以解决所述机器学习问题。

在示例8中，根据示例7所述的主题包括，所述操作还包括：在所述机器学习问题空间上运行已训练的至少一个候选神经网络以解决所述机器学习问题；以及提供由已训练的至少一个候选神经网络生成的对所述机器学习问题的解决方案。

示例9是一种存储指令的非瞬态机器可读介质，所述指令使一个或多个机器执行操作，所述操作包括：访问与机器学习问题相关联的机器学习问题空间和用于解决所述机器学习问题的多个未经训练的候选神经网络；针对每个未经训练的候选神经网络，计算捕获所述候选神经网络关于所述机器学习问题的表达性的至少一个表达性度量；针对每个未经训练的候选神经网络，计算捕获所述候选神经网络关于所述机器学习问题的可训练性的至少一个可训练性度量；基于所述至少一个表达性度量和所述至少一个可训练性度量选择用于解决所述机器学习问题的至少一个候选神经网络；以及提供表示所选择的至少一个候选神经网络的输出。

在示例10中，根据示例9所述的主题包括：其中所述至少一个表达性度量表示由所述未经训练的候选神经网络对来自所述机器学习问题空间的样本的分离的度量。

在示例11中，根据示例10所述的主题包括，其中所述分离的度量是大小。

在示例12中，根据示例10-11所述的主题包括，其中所述分离的度量是角度。

在示例13中，根据示例9-12所述的主题包括，其中所述至少一个可训练性度量表示在训练的第一阶段期间所述候选神经网络中的权重的随机梯度下降。

在示例14中，根据示例9-13所述的主题包括，其中选择用于解决所述机器学习问题的所述至少一个候选神经网络包括：选择具有超过阈值的所述至少一个表达性度量并且所述至少一个可训练性度量在范围内的所述至少一个候选神经网络，其中所述范围由范围最小值和范围最大值限定。

示例15是一种方法，所述方法包括：访问与机器学习问题相关量的机器学习问题空间和用于解决所述机器学习问题的多个未经训练的候选神经网络；针对每个未经训练的候选神经网络，计算捕获所述候选神经网络关于所述机器学习问题的表达性的至少一个表达性度量；针对每个未经训练的候选神经网络，计算捕获所述候选神经网络关于所述机器学习问题的可训练性的至少一个可训练性度量；基于所述至少一个表达性度量和所述至少一个可训练性度量选择用于解决所述机器学习问题的至少一个候选神经网络；以及提供表示所选择的至少一个候选神经网络的输出。

在示例16中，根据示例15所述的主题包括：其中所述至少一个表达性度量表示由所述未经训练的候选神经网络对来自所述机器学习问题空间的样本的分离的度量。

在示例17中，根据示例16所述的主题包括，其中所述分离的度量是大小。

在示例18中，根据示例16-17所述的主题包括，其中所述分离的度量是角度。

在示例19中，根据示例15-18所述的主题包括，其中所述至少一个可训练性度量表示在训练的第一阶段期间所述候选神经网络中的权重的随机梯度下降。

在示例20中，根据示例15-19所述的主题包括，其中选择用于解决所述机器学习问题的所述至少一个候选神经网络包括：选择具有超过阈值的所述至少一个表达性度量并且所述至少一个可训练性度量在范围内的所述至少一个候选神经网络，其中所述范围由范围最小值和范围最大值限定。

示例21是至少一种机器可读介质，所述机器可读介质包括指令，所述指令在由处理电路系统执行时使所述处理电路系统执行用于实现示例1-20中的任一项的操作。

示例22是一种装置，所述装置包括用于实现示例1-20中的任一项的模块。

示例23是一种用于实现示例1-20中的任一项的系统。

示例24是一种用于实现示例1-20中的任一项的方法。

组件和逻辑

本文中将某些实施例描述为包括逻辑或多个组件或机制。组件可以构成软件组件(例如，体现在机器可读介质上的代码)或硬件组件。“硬件组件”是能够执行某些操作的有形单元，并且可以以某种物理方式配置或布置。在各种示例实施例中，一个或多个计算机系统(例如，独立计算机系统、客户端计算机系统或服务器计算机系统)或计算机系统的一个或多个硬件组件(例如，处理器或一组处理器)可以由软件(例如，应用或应用部分)配置为操作以执行本文中描述的某些操作的硬件组件。

在一些实施例中，硬件组件可以机械地、电子地或其任何合适的组合来实现。例如，硬件组件可以包括永久性地配置为执行某些操作的专用电路系统或逻辑。例如，硬件组件可以是专用处理器，诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件组件还可以包括由软件临时配置为执行某些操作的可编程逻辑或电路系统。例如，硬件组件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件进行配置，硬件组件将成为为执行所配置的功能而专门定制的特定机器(或机器的特定组件)，并且不再是通用处理器。将意识到，可以在成本和时间方面考虑决定在专用且永久配置的电路系统中还是在临时配置的电路系统(例如，由软件配置)中机械地实现硬件组件。

因此，短语“硬件组件”应当被理解为包括有形记录，即物理地构造，永久地配置(例如，硬连线)，或临时地配置(例如，编程)以便以特定方式操作或执行本文中描述的某些操作。如本文中使用的，“硬件实现的组件”是指硬件组件。考虑到其中硬件组件被临时配置(例如，编程)的实施例，硬件组件中的每个硬件组件可能在时间中的任何实例处都不会被配置或实例化。例如，在硬件组件包括由软件配置为成为专用处理器的通用处理器的情况下，通用处理器可以在不同时间分别被配置为不同的专用处理器(例如，包括不同的硬件组件)。因此，软件配置一个或多个特定处理器，例如，以在一个时间实例处构成特定硬件组件，而在不同时间实例处构成不同的硬件组件。

硬件组件可以向其他硬件组件提供信息以及从其他硬件组件接收信息。因此，所描述的硬件组件可以被认为是通信耦合的。在同时存在多个硬件组件的情况下，可以通过硬件组件中的两个或更多个硬件组件之间或之中的信号传输(例如，通过适当的电路和总线)来实现通信。在其中多个硬件组件在不同时间被配置或实例化的实施例中，可以例如通过在多个硬件组件可以访问的存储器结构中存储和取回信息来实现这些硬件组件之间的通信。例如，一个硬件组件可以执行操作并且将该操作的输出存储在其通信耦合到的存储器设备中。然后，另一硬件组件可以在以后的时间访问存储器设备以取回和处理所存储的输出。硬件组件还可以发起与输入或输出设备的通信，并且可以在资源(例如，信息的汇集)上进行操作。

本文中描述的示例方法的各种操作可以至少部分由临时配置(例如，由软件配置)或永久配置为执行相关操作的一个或多个处理器执行。无论是临时配置还是永久配置，这样的处理器都可以构成处理器实现的组件，这些组件操作以执行本文中描述的一个或多个操作或功能。如本文中使用的，“处理器实现的组件”是指使用一个或多个处理器实现的硬件组件。

类似地，本文中描述的方法可以至少部分由处理器实现，其中一个或多个特定处理器是硬件的示例。例如，一种方法的至少一些操作可以由一个或多个处理器或处理器实现的组件执行。此外，一个或多个处理器还在“云计算”环境中或作为“软件即服务”(SaaS)可操作以支持相关操作的执行。例如，操作中的至少一些操作可以由一组计算机(作为包括处理器的机器的示例)执行，这些操作可以通过网络(例如，互联网)和经由一个或多个适当的接口(例如，API)来访问。

某些操作的执行可以分布在处理器之间，不仅驻留在单个计算机器内，而且可以跨多个机器部署。在一些示例实施例中，处理器或处理器实现的组件可以位于单个地理位置中(例如，在家庭环境、办公室环境或服务器场中)。在其他示例实施例中，处理器或处理器实现的组件可以跨多个地理位置分布。

示例机器和软件架构

在一些实施例中，结合图1至4描述的组件、方法、应用等在机器和相关联的软件架构的上下文中实现。以下各节描述适合与所公开的实施例一起使用的表示性的(多个)软件架构和(多个)机器(例如，硬件)架构。

软件架构与硬件架构结合使用，以创建针对特定目的而定制的设备和机器。例如，特定硬件架构与特定软件架构相结合将创建移动设备，诸如移动电话、平板设备等。略有不同的硬件和软件架构可以产生用于“物联网”的智能设备，而另一种组合产生用于在云计算架构内使用的服务器计算机。由于本领域技术人员可以容易地理解如何在与本文中包含的公开内容不同的上下文中实现所公开的主题，因此本文中未给出这种软件和硬件架构的所有组合。

图5是示出了根据一些示例实施例的能够从机器可读介质(例如，机器可读存储介质)读取指令并且执行本文中讨论的方法中的任何一个或多个方法的机器500的组件的框图。具体地，图5以计算机系统的示例形式示出了机器500的示意性表示，在该机器500内，可以执行用于使机器500执行本文中讨论的方法中的任何一个或多个方法的指令516(例如，软件、程序、应用、小应用、app或其他可执行代码)。指令516将通用的未编程的机器转换为被编程为以所描述的方式执行所描述和示出的功能的特定机器。在替代实施例中，机器500作为独立设备操作，或者可以耦合(例如，联网)到其他机器。在网络部署中，机器500可以在服务器客户端网络环境中以服务器机器或客户端机器的身份操作，或者在对等(或分布式)网络环境中作为对等机器操作。机器500可以包括但不限于服务器计算机、客户端计算机、PC、平板计算机、膝上型计算机、上网本、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家居设备(例如，智能设备)、其他智能设备、web用具、网络路由器、网络交换机、网桥、或能够顺序地或以其他方式执行指令516的任何机器，这些指令516指定要由机器500采取的动作。此外，虽然仅示出了单个机器500，但是术语“机器”也应当被视为包括单独地或共同地执行指令516以执行本文中讨论的方法中的任何一个或多个方法的机器500的汇集。

机器500可以包括可以被配置为例如经由总线502彼此通信的处理器510、存储器530和I/O组件550。在示例实施例中，处理器510(例如，中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、ASIC、无线电频率集成电路(RFIC)、另一处理器或其任何合适的组合)可以包括例如可以执行指令516的处理器512和处理器514。术语“处理器”旨在包括多核处理器，这些多核处理器可以包括可以同时执行指令的两个或更多个独立处理器(有时称为“核”)。虽然图5示出了多个处理器510，但是机器500可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如，多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器或其任何组合。

存储器/存储装置530可以包括诸如主存储器或其他存储器存储装置等存储器532以及存储单元536，这两者都可以经由总线502被处理器510访问。存储单元536和存储器532存储体现本文中描述的方法或功能中的任何一个或多个的指令516。在机器500对指令516的执行期间，指令516还可以全部或部分地驻留在存储器532内，在存储单元536内，在处理器510中的至少之一内(例如，在处理器的高速缓冲存储器内)，或其任何合适的组合。因此，存储器532、存储单元536和处理器510的存储器是机器可读介质的示例。

如本文中使用，“机器可读介质”是指能够临时或永久地存储指令(例如，指令516)和数据的设备，并且可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪存、光学介质、磁性介质、高速缓冲存储器、其他类型的存储装置(例如，可擦除可编程只读存储器(EEPROM))、和/或其任何合适的组合。术语“机器可读介质”应当被理解为包括能够存储指令516的单个介质或多个介质(例如，集中式或分布式数据库或相关联的高速缓存和服务器)。术语“机器可读介质”还应当被理解为包括能够存储指令(例如，指令516)以供机器(例如，机器500)执行的任何介质或多种介质的组合，使得这些指令在由机器(例如，处理器510)的一个或多个处理器执行时使机器执行本文中描述的方法中的任何一个或多个方法。因此，“机器可读介质”是指单个存储装置或设备、以及包括多个存储装置或设备的“基于云的”存储系统或存储网络。术语“机器可读介质”不包括信号本身。

I/O组件1050可以包括用于接收输入，提供输出，产生输出，传输信息，交换信息，捕获测量，等等的各种各样的组件。特定机器中包括的特定I/O组件550将取决于机器的类型。例如，诸如移动电话等便携式机器将可能包括触摸输入设备或其他这样的输入机制，而无人领导(headless)服务器机器将可能不包括这样的触摸输入设备。应当理解，I/O组件550可以包括图5中未示出的很多其他组件。仅为了简化下面的讨论，仅根据功能对I/O组件550进行分组，并且该分组绝不是限制性的。在各种示例实施例中，I/O组件550可以包括输出组件552和输入组件554。输出组件552可以包括视觉组件(例如，显示器，诸如等离子体显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线电子管(CRT))、声学组件(例如，扬声器)、触觉组件(例如，振动电机、阻力机构)、其他信号发生器等。输入组件554可以包括字母数字输入组件(例如，键盘、被配置为接收字母数字输入的触摸屏、光学照相键盘或其他字母数字输入组件)、基于指向的输入组件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他指向工具)、触知(tactile)输入组件(例如，物理按钮、提供触摸或触摸手势的定位和/或力的触摸屏、或其他触知输入组件)、音频输入组件(例如，麦克风)等。

在其他示例实施例中，I/O组件550可以包括众多其他组件中的生物特征识别(biometric)组件556、运动组件558、环境组件560或位置组件562。例如，生物特征识别组件556可以包括用于以下操作的组件：检测表达(例如，手表达、面部表达、声音表达、身体姿势或眼图跟踪)，测量生物信号(例如，血压、心率、体温、汗水、或脑电波)，测量与锻炼相关的测度(例如，移动的距离、移动的速度或锻炼所花费的时间)，标识一个人(例如，语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)，等等。运动组件558可以包括加速度传感器组件(例如，加速度计)、重力传感器组件、旋转传感器组件(例如，陀螺仪)等。环境组件560可以包括例如照明传感器组件(例如，光度计)、温度传感器组件(例如，检测环境温度的一个或多个温度计)、湿度传感器组件、压力传感器组件(例如，气压计)、声学传感器组件(例如，检测背景噪声的一个或多个麦克风)、接近传感器组件(例如，检测附近物体的红外传感器)、气体传感器(例如，用于检测有害气体浓度以确保安全或用于测量的大气中的污染物的气体检测传感器)、或可以提供与周围物理环境相对应的指示、测量或信号的其他组件。位置组件562可以包括定位传感器组件(例如，全球定位系统(GPS)接收器组件)、海拔传感器组件(例如，检测可以从中导出海拔的气压的高度计或气压计)、取向传感器组件(例如，磁力计)等。

通信可以使用各种各样的技术来实现。I/O组件550可以包括可操作以分别经由耦合582和耦合572将机器500耦合到网络580或设备570的通信组件564。例如，通信组件564可以包括用于与网络580对接的网络接口组件或另一合适的设备。在其他示例中，通信组件564可以包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(NFC)组件、

组件(例如，

Low Energy)、

组件、和用于通过其他方式提供通信的其他通信组件。设备570可以是另一机器或各种各样的外围设备中的任何一个(例如，经由USB耦合的外围设备)。

此外，通信组件564可以检测标识符，或者包括可操作以检测标识符的组件。例如，通信组件564可以包括射频识别(RFID)标签读取器组件、NFC智能标签检测组件、光学读取器组件或声学检测组件(例如，用于标识标记的音频信号的麦克风)。此外，可以经由通信组件564得出各种信息，例如，经由互联网协议(IP)地理位置进行定位，经由

信号三角测量进行定位，经由检测可以指示特定定位的NFC信标信号进行定位，等等。

在各种示例实施例中，网络580的一个或多个部分可以是自组织网络、内联网、外联网、虚拟专用网(VPN)、局域网(LAN)、无线LAN(WLAN)、WAN、无线WAN(WWAN)、城域网(MAN)、互联网、互联网的一部分、公共交换电话网(PSTN)的一部分、普通的旧电话服务(POTS)网络、蜂窝电话网络、无线网络、

网络、另一种类型的网络、或两个或更多个这样的网络的组合。例如，网络580或网络580的一部分可以包括无线或蜂窝网络，并且耦合582可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接或其他类型的蜂窝或无线耦合。在该示例中，耦合582可以实现多种类型的数据传输技术中的任何一种，诸如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、GSM演进的增强型数据速率(EDGE)技术、包括5G在内的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准制定组织定义的其他标准、其他远程协议或其他数据传输技术。

指令516可以使用传输介质经由网络接口设备(例如，通信组件564中包括的网络接口组件)通过网络580并且利用多种公知的传输协议中的任何一种(例如，HTTP)被发射或接收。类似地，指令516可以使用传输介质经由耦合572(例如，对等耦合)被发射或接收到设备570。术语“传输介质”应当被认为包括能够存储、编码或承载用于由机器500执行的指令516的任何无形介质，并且包括用于促进这样的软件的通信的数字或模拟通信信号或其他无形介质。

Claims

1.一种系统，包括：

处理硬件；以及

存储指令的存储器，所述指令使所述处理硬件执行操作，所述操作包括：

访问与机器学习问题相关联的机器学习问题空间和用于解决所述机器学习问题的多个未经训练的候选神经网络；

针对每个未经训练的候选神经网络，计算至少一个表达性度量，所述至少一个表达性度量捕获所述候选神经网络关于所述机器学习问题的表达性；

针对每个未经训练的候选神经网络，计算至少一个可训练性度量，所述至少一个可训练性度量捕获所述候选神经网络关于所述机器学习问题的可训练性；

基于所述至少一个表达性度量和所述至少一个可训练性度量，选择用于解决所述机器学习问题的至少一个候选神经网络；以及

提供表示所选择的所述至少一个候选神经网络的输出。

2.根据权利要求1所述的系统，其中所述至少一个表达性度量表示由所述未经训练的候选神经网络对来自所述机器学习问题空间的样本的分离的度量。

3.根据权利要求2所述的系统，其中所述分离的度量是大小。

4.根据权利要求2所述的系统，其中所述分离的度量是角度。

5.根据权利要求1所述的系统，其中所述至少一个可训练性度量表示在训练的第一阶段期间所述候选神经网络中的权重的随机梯度下降。

6.根据权利要求1所述的系统，其中选择用于解决所述机器学习问题的所述至少一个候选神经网络包括：

选择具有超过阈值的所述至少一个表达性度量并且所述至少一个可训练性度量在范围内的所述至少一个候选神经网络，其中所述范围由范围最小值和范围最大值限定。

7.根据权利要求1所述的系统，所述操作还包括：

训练所述至少一个候选神经网络以解决所述机器学习问题。

8.根据权利要求7所述的系统，所述操作还包括：

在所述机器学习问题空间上运行已训练的所述至少一个候选神经网络，以便解决所述机器学习问题；以及

提供由已训练的所述至少一个候选神经网络生成的对所述机器学习问题的解决方案。

9.一种存储指令的机器可读介质，所述指令使一个或多个机器执行操作，所述操作包括：

提供表示所选择的所述至少一个候选神经网络的输出。

10.根据权利要求9所述的机器可读介质，其中所述至少一个表达性度量表示由所述未经训练的候选神经网络对来自所述机器学习问题空间的样本的分离的度量。

11.根据权利要求10所述的机器可读介质，其中所述分离的度量是大小。

12.根据权利要求10所述的机器可读介质，其中所述分离的度量是角度。

13.根据权利要求9所述的机器可读介质，其中所述至少一个可训练性度量表示在训练的第一阶段期间所述候选神经网络中的权重的随机梯度下降。

14.根据权利要求9所述的机器可读介质，其中选择用于解决所述机器学习问题的所述至少一个候选神经网络包括：

15.一种方法，包括：

提供表示所选择的所述至少一个候选神经网络的输出。