CN111753953A

CN111753953A - 一种用于获取神经网络架构的方法及装置

Info

Publication number: CN111753953A
Application number: CN202010405396.3A
Authority: CN
Inventors: 胡一鸣; 梁玉鼎; 郭梓超; 万若斯
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2020-10-09

Abstract

本申请实施例提供一种用于获取神经网络架构的方法及装置，所述方法包括：根据搜索空间中候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定目标搜索空间，其中，所述候选模型为所述搜索空间对应的超网络中的一个子模型；根据搜索算法从所述目标搜索空间中获取用于视觉处理任务的神经网络架构。本申请实施例的技术方案克服了现有技术中使用基于测试准确度指标和基于幅度指标来得到神经网络架构的诸多缺陷，通过本申请实施例的角度计算过程无需模型完全收敛，因此可以在早期发现性能较差的选项，这对搜索空间裁剪非常有利。

Description

一种用于获取神经网络架构的方法及装置

技术领域

本申请涉及搜索空间裁剪领域，具体涉及一种用于获取神经网络架构的方法及装置。

背景技术

目前手工设计视觉处理任务神经网络架构的通常做法是用小卷积代替大卷积，这样设计的神经网络架构性能有待提高。虽然一些模型搜索算法使用搜索空间裁剪的技术搜到一些效果不错的结构同时减少了模型搜索所需要的时长，但是这些方法的搜索空间裁剪技术并不具有通用性，无法直接应用到其他模型搜索算法当中，同时这些算法当中用来指导裁剪的衡量指标也并不准确。

现有算法当中用来指导裁剪的衡量指标可以分成两类，基于测试准确度的指标和基于幅度的指标。基于测试准确度的指标在衡量模型性能时是使用相应模型在验证数据集上的准确度来衡量的，这种指标非常不稳定而且和真实性能相距较远。基于幅度的指标则是引入了一种新的参数即结构参数来衡量模型性能，这个指标的使用会额外增加资源的使用。同时基于幅度的指标还会导致早期表现好的模型更容易突出，这就让最终性能更优但是早期表现较差的模型被埋没。

因此如何提升自动设计得到的视觉处理任务的神经网络的架构的性能已经成了亟待解决的技术问题。

发明内容

本申请实施例的目的在于提供一种用于获取神经网络架构的方法及装置，能够根据角度自动删除搜索空间中缺乏潜力的候选项，使得搜索空间规模逐步减小，进一步提升了采用搜索算大得到的视觉处理任务的神经网络架构的性能。

本申请实施例提供一种用于获取神经网络架构的方法，所述方法包括：根据搜索空间中候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定目标搜索空间，其中，所述候选模型为所述搜索空间对应的超网络中的一个子模型；根据搜索算法从所述目标搜索空间中获取用于视觉处理任务的神经网络架构。

本申请实施例通过计算搜索空间的超网络架构中子模型角度确定删除搜索空间中的部分操作或者节点之间的连接，无需模型完全收敛，因此可以在早期发现性能较差的选项并及时删除。这有效克服了现有技术中使用基于测试准确度的指标和基于幅度的指标来得到神经网络架构的诸多缺陷，对于逐步的搜索空间裁剪非常有利，并进一步提升根据搜索空间得到的神经网络架构的性能。

在一些实施例中，所述根据搜索空间中候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定目标搜索空间，包括：采用图像数据训练所述搜索空间对应的超网络包括的多个所述候选模型，其中，所述候选模型为连接输入节点和输出节点的至少一条路径；根据多个所述候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定删除部分候选项，其中，所述候选模型包括多个所述候选项，所述候选项包括卷积操作或者节点之间的连接属性。

本申请实施例通过删除搜索空间中的一些候选项(例如，各层卷积操作或者节点之间是否连接)来达到优化视觉处理任务搜索空间的目的，进而提升根据搜索算法得到的神经网络架构的性能。

在一些实施例中，所述根据多个所述候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定删除部分候选项之后，所述方法还包括：确认剩余所述候选项满足设定条件时得到所述目标搜索空间。

本申请实施例通过设置截止条件可以使逐步优化搜索空间的算法即时终止，一方面剩余的候选项可以满足特定任务需求，另一方面也可以减少计算量，在达到具体任务需求是即时终止选择操作。

在一些实施例中，所述搜索空间包括N个候选项，所述候选模型包括所述N个所述候选项中的多个候选项，其中，N为大于1的整数；所述根据多个所述候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定删除部分候选项，包括：确定所述候选模型的夹角，其中，所述候选模型的夹角是根据所述候选模型训练前初始的权重向量和训练后当前的权重向量得到的；根据所述候选模型的夹角确定所述N个候选项中各候选项的夹角均值；根据所述夹角均值确定删除所述N个候选项中的部分所述候选项。

本申请实施例通过提供一种能够根据候选模型量化候选项的角度的方法，量化的角度值反应了候选项对网络性能的影响，根据这个量化值确定删除性能较差的候选项，可以明显提升搜索空间中剩余候选项构成的神经网络架构完成特定视觉处理任务的性能。

在一些实施例中，所述采用图像数据训练所述搜索空间对应的超网络包括的多个所述候选模型，包括：多次依据均匀采样的方式从所述搜索空间构成的超网络架构中选择一个所述候选模型进行训练。

由于训练搜索空间对应的超网络架构中子模型的次数不能无限大，因此均匀采样可以保证即使在有些子模型不被训练时，这些候选模型上的候选项(例如，多个卷积)可以被训练，进而可以根据确定的候选项的夹角均值来判断潜力差的候选项并自动删除这些缺乏潜力的候选项，提升整个搜索空间剩余候选项的性能。

在一些实施例中，所述候选模型的夹角的计算公式如下：

其中，Δ_W为所述候选模型的夹角，W为所述候选模型经过本次训练后的当前的权重向量，W0是所述候选模型在经过所述本次训练前的初始的权重向量，

是所述当前的权重向量与所述初始的权重向量的余弦距离。

本申请实施例通过余弦距离来确定候选模型夹角，使得候选夹角模型计算简单快速。

在一些实施例中，所述候选模型为线性结构，所述候选模型对应一条所述路径，所述候选项包括位于多层的一种或多种所述卷积操作，所述N个候选项包括N个所述卷积操作；所述采用图像数据训练所述搜索空间对应的超网络包括的多个所述候选模型，包括：根据多次均匀采样的方式从所述超网络架构中选择一条所述路径进行训练；所述确定所述候选模型的夹角，包括：确所述超网络中包括的所有所述路径的夹角，其中，所述路径的夹角是根据所述路径训练前初始的权重向量和训练后当前的权重向量得到的；所述根据所述候选模型的夹角确定所述N个候选项中各候选项的夹角均值，包括：根据所述卷积操作所在的所有所述路径的夹角确定所述卷积操作的夹角均值；所述根据所述夹角均值确定删除所述N个候选项中的部分所述候选项，包括：根据所述夹角均值确定删除所述N个卷积操作中的部分卷积操作。

本申请实施例通过求解候选项所在的所有路径的夹角的均值来计算候选项的夹角值，能更客观的候选项的潜力。

在一些实施例中，所述设定条件包括裁剪所述候选项后剩余所述候选项组成的所述路径的数值或者裁剪所述候选项后剩余的所述候选项的数值。

本申请实施例通过设置循环终止条件可以使得裁剪过程在满足任务要求的条件下即时终止裁剪过程。

在一些实施例中，所述根据所述夹角均值确定删除所述N个卷积操作中的部分卷积操作，包括：根据多个所述夹角均值的排序确定删除部分所述卷积操作。

本申请实施通过角度大小来选出潜力差的候选项，并删除，进而提升整个搜索空间剩余候选项的性能。

在一些实施例中，所述路径的权重向量是根据所述路径包括的多个所述卷积操作的权重向量拼接得到的。

本申请实施例提供了一种得到路径权重向量的方法，使得根据权重向量确定夹角的计算更加客观。

在一些实施例中，所述候选模型包括非线性结构，一个所述候选模型为包括至少三个节点的实例，所述至少三个节点中的后续节点分别与前面所有节点相连形成多条路径，所述实例中各节点之间的每条边上的所述候选项包括多种所述卷积操作和所述节点之间的连接属性，其中，所述节点之间的连接属性包括直连操作或断开操作；所述采用图像数据训练所述搜索空间对应的超网络包括的多个所述候选模型，包括：根据多次均匀采样的方式从所述超网络架构中选择一个所述实例进行训练；所述确定所述候选模型的夹角，包括：确定所述超网络中包括的所有所述实例的夹角，其中，所述实例的夹角是根据所述实例训练前初始的权重向量和训练后当前的权重向量得到的，所述实例的权重向量是根据所述实例包括的多条所述路径的权重向量拼接得到的；所述根据所述候选模型的夹角确定所述N个候选项中各候选项的夹角均值，包括：根据所述候选项所在的所有所述实例的夹角确定所述候选项的夹角均值；所述根据所述夹角均值确定删除所述N个候选项中的部分所述候选项，包括：根据所述夹角均值确定删除所述N个候选项中的部分候选项。

本申请实施例还提供了一种可以进一步优化非线性搜索空间中候选项的性能的方法，进而提升根据搜索空间得到的神经网路架构的性能。

在一些实施例中，所述设定条件为裁剪所述候选项后剩余所述候选项组成所述实例的值或者裁剪所述候选项后剩余所述候选项的值。

在一些实施例中，所述路径的权重向量是根据所述路径包括的各条边上的候选项的权重向量拼接得到的，其中，所述直连操作对应的权重向量为空，所述断开操作无对应的权重向量。

本申请实施提供一种区别节点间直连和断开的权重向量区分量化方法，使得本申请实施例可以根据子模型权重向量确定候选向量夹角均值，并确定删除性能较差的候选项，提升搜索空间剩余候选项的性能。

第二方面，本申请实施例提供了一种神经网络架构搜索装置，所述装置包括：目标搜索空间获取模块，被配置为根据搜索空间中候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定目标搜索空间，其中，所述候选模型包括连接输入节点至输出节点的至少一条路径；神经网络架构获取模块，被配置为根据搜索算法从所述目标搜索空间中获取用于视觉处理任务的神经网络架构。

第三方面，本申请实施例提供一种系统，所述系统包括一个或多个计算机和存储指令的一个或多个存储设备，当所述指令由所述一个或多个计算机执行时，使得所述一个或多个计算机执行上述第一方面所述的相应方法的操作。

第四方面，本申请实施例提供一种存储指令的一个或多个计算机存储介质，当所述指令由一个或多个计算机执行时，使得所述一个或多个计算机执行上述第一方面所述的相应方法的操作。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的用于获取神经网络架构的方法；

图2为本申请实施例提供的裁剪搜索空间得到目标搜索空间的过程示意图；

图3为本申请实施例提供的具有线性子模型的搜索空间对应的超网络示意图；

图4为本申请实施例提供的具有非线性子模型的搜索空间对应的超网络示意图；

图5为本申请实施例提供的从图4任意选择的一个实例(即超网络中子模型)的连接关系示意图；

图6为本申请实施例提供的具有非线性子模型的第一模型的示意图；

图7为本申请实施例提供的具有非线性子模型的第二模型的示意图；

图8为本申请实施例提供的具有线性子模型的第三模型的示意图；

图9为本申请实施例提供的用于获取神经网络架构的装置的组成框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如上文所述，现有技术在视觉任务处理领域的神经网络架构自动化搜索存在诸多缺陷，而人工设计的该领域的神经网络架构模型的性能还有很大的提升空间。下面简要阐述不同类型的视觉处理任务对神经网络架构的差异化需求。

基于神经网络架构的视觉处理任务可以包括：密集物体检测、图像分类任务以及通用目标检测任务等。密集物体检测任务要求输出像素的感受野足够的大，确保作出决策时没有忽略重要信息；图像分类任务中最后卷积层的感受野要大于输入图像，通常网络深度越神感受野越大性能越好；而对于通用目标检测任务中设置锚定anchor要严格对应感受野，anchor太大或偏离感受野都会严重影响检测性能。因此可以看出不同的视觉处理任务对神经网络架构具有共性的需求，例如，确定最合理的卷积操作(对应于感受野)和网络深度的要求。本申请实施例可以根据候选项(例如，多种卷积操作、节点之间卷积操作、节点之间直连操作或者节点之间断开操作)角度来指导自动搜索卷积核大小(即通过删除性能较差的卷积操作)和网络深度(即根据角度来确定删除节点时间的连接或者卷积操作等)，这对于视觉任务处理领域基于搜索空间得到的神经网络架构的性能影响很大，具有重要的改进意义。

下面结合图1进一步阐述本申请实施例的技术方案。为了便于理解，在介绍技术方案之前简单阐述一下与超网络相关的子模型和实例等的概念。首先，超网络可以被看作一个有向无环图，表示为

其中，o₁,o₂，…o_M表示一系列节点，o₁表示唯一根节点(输入)，o_M表示唯一叶节点(输出)；E{(o_i，o_j，w_k)}表示一系列从节点o_i到o_j的候选操作子(如卷积操作，下采样操作，直连操作等)，超网络中的一个子模型或者实例(对应下文的候选模型)可以定义为有向无环图

的一个子图g(O，E′),其中

o₁，o_M∈E′，且o_i到o_j有且仅有一个候选操作。下述实例的候选模型也就是超网络中的子模型。可以理解的是，下文技术方案中的候选模型包括至少一条连接输入节点和输出节点的路径，所述至少一条路径的各条路上包括多个候选项，其中，所述候选项对应于超网络中的候选操作子或者节点之间断开连接的操作。需要说明的是，对于线性结构的超网络中由于一个候选模型对应一条路径，因此在这些方案中将候选模型直接描述为路径。而对于包含非线性结构的超网络中一个候选模型可能对应多条路径，因此下文将包含多条路径的候选模型称为实例，可以理解的是，一个实例也就是超网络中的一个子模型。

如图1所示，本申请实施例提供一种用于获取神经网络架构的方法，所述方法包括：S101，根据搜索空间中候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定目标搜索空间，其中，所述候选模型为所述搜索空间对应的超网络中的一个子模型；S102，根据搜索算法从所述目标搜索空间中获取用于视觉处理任务的神经网络架构。在下文中，本申请实施也将“候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角”简称为候选模型的夹角或者候选模型的权重角度。

S101可以通过删除候选模型或者候选模型包括的候选项来提升搜索空间在视觉处理任务中的性能。作为一个示例，S101可以通过多个候选模型的夹角来计算候选项的夹角均值，进而根据候选项的夹角均值确定删除那些候选项，其中，所述多个候选模型是需要计算夹角均值的候选项所在的多个候选模型。具体地，S101可以包括：采用图像数据训练所述搜索空间对应的超网络包括的多个候选模型，其中，所述候选模型为连接输入节点和输出节点的至少一条路径；根据多个所述候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定删除部分候选项，其中，所述候选模型包括多个所述候选项，所述候选项包括卷积操作或者节点之间的连接属性。其中，所述连接属性可以包括节点是否直接连接还是节点之间断开连接。

需要说明的是，训练数据采用的图像数据可以包括图片，这些图片也可以是视频流中的各帧图像数据。本申请实施例并不限定图像数据的具体类型，例如，图像数据可以是来自于图像分类任务常使用数据集也可以是来自于目标检测任务常用的数据集。

为了使得对搜索空间的裁剪能够在满足具体任务需求时即时终止，本申请实施例的S101还可以包括确认剩余所述候选项满足设定条件时得到所述目标搜索空间。需要说明是，本申请实施例并不限定设定条件的具体类型，本领域技术人员可以根据不同的视觉处理任务的具体需求规划具体的设定条件。

为了通过角度反映候选项的性能，作为一个示例，本申请实施例的所述搜索空间包括N个候选项，所述候选模型包括所述N个所述候选项中的多个候选项，其中，N为大于1的整数。S101可以包括：确定所述候选模型的夹角，其中，所述候选模型夹角是根据所述候选模型训练前初始的权重向量和训练后当前的权重向量得到的；根据所述候选模型的夹角确定所述N个候选项中各候选项的夹角均值；根据所述夹角均值确定删除所述N个候选项中的部分所述候选项。也就是说，本申请实施例通过计算各候选模型训练前的权重向量和训练后的权重向量之间的夹角，得到搜索空间中部分或所有候选模型的夹角；之后，再以候选项为分析单元，确定每个候选项所在的所有候选模型的夹角，计算所有这些候选模型的夹角的均值就得到了每个候选项的夹角均值。这些候选项对应的夹角均值可以反应候选项的性能，夹角均值越大的候选项性能越优，反之则性能较差。本申请实施例的搜索空间裁剪可以包括删除夹角均值小的性能较差的候选项，也可以包括删除夹角小的候选项。

由于搜索空间包括的候选模型数量可能非常庞大因此不能保证每一个候选模型均被训练，因此为了保证尽可能多的候选项被最大概率的训练，本申请实施例的S101还可以包括：多次依据均匀采样的方式从所述搜索空间构成的超网络架构中选择一个所述候选模型进行训练。其中，所述均匀采样也就是说搜索空间中候选模型被训练的概率相同，不存在优先级差异。

为了计算各候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角，本申请实施例还提供了如下的候选模型的夹角的计算公式：

是所述当前的权重向量与所述初始的权重向量的余弦距离。

需要说明的是，本申请实施例并不限定S102中采用的具体的搜索算法，这些搜索算法可以是神经网络架构搜索NAS领域中常用的搜索策略，例如，单路径超网络SPOS,可微分架构搜索DARTS,增量可微分架构搜索ProxylessNAS,无代理架构搜索PDARTS。

下面结合两个具体示例阐述图1包括的S101的裁剪搜索空间得到目标搜索空间的过程。

示例一

当搜索空间对应的超网络中的候选模型为线性结构，所述候选模型对应一条所述路径，所述候选项包括位于多层的一种或多种卷积操作，所述N个候选项包括N个所述卷积操作。S101可以包括：根据多次均匀采样的方式从所述超网络架构中选择一条所述路径进行训练；确所述超网络中包括的所有所述路径的夹角，其中，所述路径的夹角是根据所述路径训练前初始的权重向量和训练后当前的权重向量得到的；根据所述卷积操作所在的所有所述路径的夹角确定所述卷积操作的夹角均值；根据所述夹角均值确定删除所述N个卷积操作中的部分卷积操作。例如，所述路径的权重向量(包括训练前初始的权重向量或者训练后当前的权重向量)是根据所述路径包括的多个所述卷积操作的权重向量拼接得到的。例如，所述根据所述夹角均值确定删除所述N个卷积操作中的部分卷积操作具体可以包括根据N个所述夹角均值的排序确定删除部分所述卷积操作。

可选的，当搜索空间的候选模型为线性结构时，是否需要结束对搜索空间中候选项的删除操作的设定条件可以包括裁剪所述候选项后剩余所述候选项组成的所述路径的数值是否满足要求或者裁剪所述候选项后剩余的所述候选项的数值是否满足要求。

下面结合图2和图3进一步阐述上述示例一。

如图2所示的原始搜索空间裁剪过程包括以下四个步骤。

步骤11：将图2的原始搜索空间表示成超网络。

作为一个示例，原始搜索空间可以是一个三层的网络结构，三层的原始搜索空间构成的超网络如图3用实线和虚线连接构成的网络。图3的原始搜索空间是一个从输入节点至输出节点的三层网络结构，每层的候选项均包括3x3、5x5和7x7的卷积操作。可以理解的是，图3的整个搜索空间共有27个候选模型。

步骤12：通过均匀采样的方式对超网络进行训练。

也就是说，采用均匀采样的方式训练超网络中的子模型(或称候选模型)。以图3为例，由于图3的每个子模型对应一条连接输入节点至输出节点的路径，因此采用均匀采样的方式训练子模型也就是采用均匀采样的方式训练图3的路径。不难发现，图3的超网络共包括27条路径。例如，图3中实线所连接起来的结构就是超网络中的一条路径，这样的一条路径代表一个完整的候选模型：{5X5,3X3,7X7}。通过选择不同的路径可以激活不同的候选模型进行训练，当某一条路径激活之后其余未激活路径不会参与到训练当中。在对这个超网络训练进行一定次数的训练(即结束本次训练)之后就会暂停训练过程并开始下一步的裁剪过程。

步骤13：根据基于角度的衡量指标删除潜力差的候选项。以图3为例，也就是说，根据各条路径的角度来确定需要删除的候选项。

作为一个示例，步骤13可以包括如下两个子步骤。

步骤13.1计算各路径的(即候选模型)角度，也就是说，根据各条路径在训练前的权重向量和训练后的权重向量确定每条路径的角度。

图3中各条路径角度计算公式如下：

其中，Δ_W为第一路径(例如，图3中的实现对应的路径)的夹角，W为第一路径经过本次训练后的当前的权重向量，W0是该第一路径在经过所述本次训练前的初始的权重向量，

是第一路径当前的权重向量与初始的权重向量的余弦距离。

需要说明的是，作为一个示例，图3的每条路径的权重向量由对应路径所包含的全部卷积的权重向量拼接得到。如图3所示，不同的路径会包含有共同的卷积，这时不同路径的权重向量当中就会有相同的部分，因此使用角度区分不同路径时主要依赖于他们之间不同的卷积的权重向量。

步骤13.2删除候选项。也就是说，根据计算得到的各条路径的角度确定需要删除的候选项。

为了从原始搜索空间得到目标搜索空间需要对原始搜索空间进行裁剪(即删除候选项或者候选模型)。

作为一个示例，如图3删除候选项是以删除卷积操作为单位的。裁剪图3的搜索空间时每次会删除超网络当中的一个或多个卷积操作，而不是删除图3中一条路径。由于图3的每个卷积操作对应很多条路径，因此每个卷积(即候选项)对应的权重角度值(即上文的夹角均值)就是包含这个卷积的所有路径的角度的均值。具体地，如果对图3中的所有未被删除的卷积操作按照夹角均值进行从大到小的排序，则删除卷积操作就是删除排在后面的一个或多个卷积操作；反之，如果对图3中的所有未被删除的卷积操作按照夹角均值进行从小到大的排序，则删除卷积操作就是删除排在前面的一个或多个卷积操作。也就是说，卷积操作的夹角均值(即，卷积操作所在的所有路径的夹角的均值)越小代表这个卷积操作的性能越差，越需要在裁剪搜索空间被删除。

作为又一个示例，裁剪原始搜索空间可以包括删除候选模型，即删除图3中的一条或多条路径。具体地，如果对图3中的所有未被删除的路径按照角度进行从大到小的排序，则删除路径操作就是删除排在后面的一个或多个路径；反之，如果对图3中的所有未被删除的路径按照夹角均值进行从小到大的排序，则删除路径操作就是删除排在前面的一个或多个路径。也就是说，路径的角度(即，路径训练前的权重向量与训练后的权重向量的夹角)越小代表这条路径的性能越差，越需要在裁剪搜索空间被删除。

步骤14：判断搜索空间中剩余候选项的数量是否达到设定条件(即是否达到一定的标准)，如果达到则整个流程结束，得到目标搜索空间(即图2的被裁剪后的搜索空间)，否则再对被裁后的搜索空间重复执行上述步骤12和步骤13。

作为一个示例，步骤14可以根据预先设定的阈值(即上文的设定条件)判断搜索空间中剩余候选项的数量是否达标。如果剩余数量达到预先设定的阈值则整个裁剪流程结束，将当前被裁后的空间作为目标搜索空间，输出至搜索算法进行神经网络架构搜索。如果剩余数量未达到预先设定的阈值则返回第12步对当前空间的超网络进行训练以及后续的裁剪。具体阈值需要根据不同的需求来进行设定，例如，图3的阈值可以设置为10，也就是说当裁剪图3的卷积操作至10个时，终止搜索空间裁剪过程，输出剩余10个卷积操作构成目标搜索空间。

需要说明的是，首先，本申请实施例并不限定图3卷积操作所在层，例如，这些卷积操作可以是卷积层的操作，也可以是池化层(例如，对于3x3平均池化和3x3最大池化都可以其看做权重值都为

的卷积，这样池化层权重向量为将其拉成一维向量后与其他权重拼接得到权重向量)的操作。其次，对图3的超网络进行首次训练前，卷积操作的权重参数是随机初始化的。再次，本申请实施例并不限定终止裁剪的设定条件的类型，例如，设定条件可以是步骤14中的剩余候选项的数量，也可以是剩余路径的数量，或者其他能够量化的标准均可以作为终止裁剪的设定条件。另外，本申请实施例并不限定从目标搜索空间中获取神经网络架构的搜索算法的具体类型，例如，这些搜索算法可以包括神经架构搜索(Neuralarchitecture search，NAS)中常用的搜索策略，比如SPOS,DARTS,ProxylessNAS,PDARTS。可以理解的是，为了保证经过裁剪后得到的目标搜索空间至少具有一个完整的候选模型，本申请实施例在对图3的多个卷积操作进行删除时，至少需要保证每一层保留一个卷积操作。

示例二

当搜索空间对应的超网络中的候选模型包括非线性结构，一个所述候选模型为包括至少三个节点的实例，所述至少三个节点中的后续节点分别与前面所有节点相连形成多条路径，所述实例中各节点之间的每条边上的所述候选项包括多种所述卷积操作和所述节点之间的连接属性，其中，所述节点之间的连接属性包括直连操作或断开操作。S101可以包括如下步骤：根据多次均匀采样的方式从所述超网络架构中选择一个所述实例进行训练；确定所述超网络中包括的所有所述实例的夹角，其中，所述实例的夹角是根据所述实例训练前初始的权重向量和训练后当前的权重向量得到的，所述实例的权重向量是根据所述实例包括的多条所述路径的权重向量(例如，路径的权重向量是根据所述路径包括的各条边上的候选项的权重向量拼接得到的，其中，所述直连操作对应的权重向量为空，所述断开操作无对应的权重向量)拼接得到的(可以理解的是，断开操作将改变网络的拓扑结构)；根据所述候选项所在的所有所述实例的夹角确定所述候选项的夹角均值；根据所述夹角均值确定删除所述N个候选项中的部分候选项。需要说明的是，当一条路径包含断开操作时，这条路径是不通的，因此这条路径包含的所有权重作废，即包括断开操作的路径不参与实例的角度计算。

可选的是，当搜索空间的候选模型包括非线性候选模型结构时，裁剪终止的所述设定条件可以包括裁剪所述候选项后剩余所述候选项组成所述实例的值满足条件或者裁剪所述候选项后剩余所述候选项的值满足条件。

下面结合图2和图4-图8进一步阐述上述示例二。

步骤21：将原始搜索空间表示成超网络。

作为一个示例，原始搜索空间可以是一个包括四个节点(即图4的节点1、节点2、节点3以及节点4)的网络结构，由四个节点组成的原始搜索空间构成的超网络如图4所示。与图3不同的是，含非线性结构候选模型的搜索空间涉及更复杂的拓扑连接。如图4所示，假设当前搜索空间包含4个节点，后续节点分别与前面所有节点相连。本申请实施例定义节点之间的连接为一条边，假设图4的每条边上的候选项包括3x3卷积、直连和断开操作，分别用点划线、实现和虚线表示。不难发现，图4的超网络共包括729个候选模型。

步骤22：通过均匀采样的方式对超网络进行训练。

也就是说，采用均匀采样的方式训练超网络中的子模型(或称候选模型或者实例)，以图4为例，也就是采用均匀采样的方式训练图5的一个实例。由于图4的每个子模型对应一个包括多条路径的实例(如图5所示)，因此采用均匀采样的方式训练子模型也就是采用均匀采样的方式训练如图5的所示的一个实例。

例如，将搜索空间表示成一个超网络之后开始训练这个超网络。在训练过程当中通过均匀采样超网络中的实例来进行训练。例如图5就是超网络中的一个实例，即一个完整的候选模型。超网络训练过程中，每个迭代步，随机采样不同的候选模型(或者称为实例)完成前传和梯度反传。每次采样，相连的节点间只有一个候选项被激活。在对这个超网络训练一定次数之后暂停训练过程并开始下一步的裁剪过程。

步骤23：根据基于角度的衡量指标来删除潜力差的候选项。

具体到本示例，也就是说，根据各实例的角度来确定需要删除的候选项。

作为一个示例，步骤23可以包括如下两个子步骤。

步骤23.1计算各实例的(即候选模型)角度。

也就是说，根据各实例在训练前的权重向量和训练后的权重向量确定每各实例的角度，实例的角度计算公式如下：

其中，Δ_W为第一实例(例如，图5的实例)的角度，W为第一实例经过本次训练后的当前的权重向量，W0是该第一实例在经过所述本次训练前的初始的权重向量，

是第一实例当前的权重向量与初始的权重向量的余弦距离。其中，第一实例的权重向量根据这个实例包括的所有路径的权重向量拼接得到的。

为了区分节点之间不同的连接方式，本申请实施例还示例性提供一种不同实例的权重向量的表示方式。下面结合图6-图8示例性说明不同拓扑结构对应的实例的权重向量的表示方式。

如图6-图8是三种示例性的候选模型(或称为实例)结构，其中图6的第一模型和图7的第二模型是非线性结构的候选模型，而图8的第三模型是线形结构的候选模型。这三个候选模型的结构的差异主要体现在节点2和节点4的连接处。当节点2和节点4通过普通的卷积或者直连连接时就是非线性结构，当通过断开连接即断开连接时就是线形结构。

假设继续采用示例一的计算路径的角度的方式，在本实例中将会出现同参不同构的情况。如图3中第二模型和第三模型拥有相同的参数但是不同的结构。为了应对这种情况，本申请实施例首先从当前结构中找出从初始节点到终止节点的所有路径并分别表示各条路径的权重向量，最后再拼接各条路径的权重向量。下面结合图6-图8的第一节点、第二节点、第三节点以及第四节点以及这四个节点之间的边上的不同操作(例如，多种卷积操作、第二模型包括的直连操作或者第三模型包括的断开操作)来示例性说明线性和非线性候选模型的权重向量的表示方式。例如，图6的第一模型中存在由[第一卷积，第二卷积，第三卷积]组成的路径和由[第一卷积，第四卷积]组成的另一路径，这两条路径。图6的第一模型和图7的第二模型的差别就在于第二条路径的第四卷积，图6的第一模型中是正常的卷积而在图7的第二模型中就是一个直连。因此通过将每个候选模型或者称为实例包括的不同路径的权重向量进行拼接就能区分不同的非线形结构。需要说明的是，因为直连和断开本身是没有权重的，为了能够区分这两个操作本申请实施例首先给直连赋予了一个空向量作为它的权重向量，同时所有包含断开操作的路径不计入统计和角度计算。如此图7的第二模型和图8的第三模型将拥有不同的权重向量。结合以上描述可以得到，图6第一模型(或称为候选模型或者实例)的权重向量可以表示为V1＝[W₁，W₂，W₃，W₄，W₅]，图7的第二模型的权重向量可以表示为：V2＝[W₁，W₂，W₃，W₄]，图8的第三模型的权重向量可以表示为：V3＝[W₁，W₂，W₃]。

步骤23.2删除候选项。也就是说，根据计算得到的各实例的角度确定删除的候选项。

例如，首先从超网络中采样足够多的实例(即超网络的子模型)，并分别计算这些实例的角度(即计算这些实例训练前的权重向量和训练后的权重向量的夹角)。然后给每条边上的候选项打分，本申请实施例定义当前候选项的得分等于所有包含当前候选项的实例角度的均值。最后根据得分对所有候选项排序并删除其中得分较低的候选项，剩余的候选项进入下轮迭代。

需要说明的是，这个步骤也可以删除性能较差的实例而不是删除候选项，具体陈述详见示例一，在此不做过多赘述。

步骤24：判断搜索空间中剩余候选项的数量是否达到设定条件(即是否达到一定的标准)，如果达到则整个流程结束，得到目标搜索空间，否则再对被裁后的搜索空间重复执行上述步骤22和步骤23。

需要说明的是，图4的节点之间边上的操作还可以包括5x5卷积或者7x7等卷积操作，也就是说图4示出的节点之间的边上的操作可以多于示例二的三种(即，3x3卷积、直连和断开操作)。其次，本申请实施例并不限定终止裁剪的设定条件的类型，例如，设定条件可以是步骤24中的剩余候选项的数量，也可以是剩余实例的数量，或者其他能够量化的标准均可以作为终止裁剪的设定条件。另外，本申请实施例并不限定从目标搜索空间中获取神经网络架构的搜索算法的具体类型，例如，这些搜索算法可以包括神经架构搜索(Neuralarchitecture search，NAS)中常用的搜索策略，比如SPOS,DARTS,ProxylessNAS,PDARTS。另外，如果根据夹角均值确定删除某条边上的断开操作也就是说这条边上的断开操作在后续训练中再不会被采样到，也就是说搜索空间中之后没有这个选项；删除某条边的卷积操作或者直连操作含义与此相同。

请参考图9，图9示出了本申请实施例提供的用于获取神经网络架构的装置，应理解，该装置与上述图1方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。装置包括至少一个能以软件或固件的形式存储于存储器中或固化在装置的操作系统中的软件功能模块，该装置，包括：目标搜索空间获取模块901，被配置为根据搜索空间中候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定目标搜索空间，其中，所述候选模型包括连接输入节点至输出节点的至少一条路径；神经网络架构获取模块902，被配置为根据搜索算法从所述目标搜索空间中获取用于视觉处理任务的神经网络架构。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考图1中方法的对应过程，在此不再过多赘述。

本申请实施例还提供一种系统，所述系统包括一个或多个计算机和存储指令的一个或多个存储设备，当所述指令由所述一个或多个计算机执行时，使得所述一个或多个计算机执行图1所述的相应方法的操作。

本申请实施例还提供一种存储指令的一个或多个计算机存储介质，当所述指令由一个或多个计算机执行时，使得所述一个或多个计算机执行图1所述的相应方法的操作。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种用于获取神经网络架构的方法，其特征在于，所述方法包括：

根据搜索空间中候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定目标搜索空间，其中，所述候选模型为所述搜索空间对应的超网络中的一个子模型；

根据搜索算法从所述目标搜索空间中获取用于视觉处理任务的神经网络架构。

2.如权利要求1所述的方法，其特征在于，所述根据搜索空间中候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定目标搜索空间，包括：

采用图像数据训练所述搜索空间对应的超网络包括的多个所述候选模型，其中，所述候选模型为连接输入节点和输出节点的至少一条路径；

根据多个所述候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定删除部分候选项，其中，所述候选模型包括多个所述候选项，所述候选项包括卷积操作或者节点之间的连接属性。

3.如权利要求2所述的方法，其特征在于，所述根据多个所述候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定删除部分候选项之后，所述方法还包括：确认剩余所述候选项满足设定条件时得到所述目标搜索空间。

4.如权利要求3所述的方法，其特征在于，所述搜索空间包括N个候选项，所述候选模型包括所述N个所述候选项中的多个候选项，其中，N为大于1的整数；

所述根据多个所述候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定删除部分候选项，包括：

确定所述候选模型的夹角，其中，所述候选模型的夹角是根据所述候选模型训练前初始的权重向量和训练后当前的权重向量得到的；

根据所述候选模型的夹角确定所述N个候选项中各候选项的夹角均值；

根据所述夹角均值确定删除所述N个候选项中的部分所述候选项。

5.如权利要求2所述的方法，其特征在于，所述采用图像数据训练所述搜索空间对应的超网络包括的多个所述候选模型，包括：多次依据均匀采样的方式从所述搜索空间构成的超网络架构中选择一个所述候选模型进行训练。

6.如权利要求4所述的方法，其特征在于，所述候选模型的夹角的计算公式如下：

是所述当前的权重向量与所述初始的权重向量的余弦距离。

7.如权利要求4所述的方法，其特征在于，所述候选模型为线性结构，所述候选模型对应一条所述路径，所述候选项包括位于多层的一种或多种所述卷积操作，所述N个候选项包括N个所述卷积操作；

所述采用图像数据训练所述搜索空间对应的超网络包括的多个所述候选模型，包括：根据多次均匀采样的方式从所述超网络中选择一条所述路径进行训练；

所述确定所述候选模型的夹角，包括：确所述超网络中包括的所有所述路径的夹角，其中，所述路径的夹角是根据所述路径训练前初始的权重向量和训练后当前的权重向量得到的；

所述根据所述候选模型的夹角确定所述N个候选项中各候选项的夹角均值，包括：根据所述卷积操作所在的所有所述路径的夹角确定所述卷积操作的夹角均值；

所述根据所述夹角均值确定删除所述N个候选项中的部分所述候选项，包括：根据所述夹角均值确定删除所述N个卷积操作中的部分卷积操作。

8.如权利要求7所述的方法，其特征在于，所述设定条件包括裁剪所述候选项后剩余所述候选项组成的所述路径的数值或者裁剪所述候选项后剩余的所述候选项的数值。

9.如权利要求7所述的方法，其特征在于，所述根据所述夹角均值确定删除所述N个卷积操作中的部分卷积操作，包括：根据多个所述夹角均值的排序确定删除部分所述卷积操作。

10.如权利要求7所述的方法，其特征在于，所述路径的权重向量是根据所述路径包括的多个所述卷积操作的权重向量拼接得到的。

11.如权利要求4所述的方法，其特征在于，所述候选模型包括非线性结构，一个所述候选模型为包括至少三个节点的实例，所述至少三个节点中的后续节点分别与前面所有节点相连形成多条路径，所述实例中各节点之间的每条边上的所述候选项包括多种所述卷积操作和所述节点之间的连接属性，其中，所述节点之间的连接属性包括直连操作或断开操作；

所述采用图像数据训练所述搜索空间对应的超网络包括的多个所述候选模型，包括：根据多次均匀采样的方式从所述超网络中选择一个所述实例进行训练；

所述确定所述候选模型的夹角，包括：确定所述超网络中包括的所有所述实例的夹角，其中，所述实例的夹角是根据所述实例训练前初始的权重向量和训练后当前的权重向量得到的，所述实例的权重向量是根据所述实例包括的多条所述路径的权重向量拼接得到的；

所述根据所述候选模型的夹角确定所述N个候选项中各候选项的夹角均值，包括：根据所述候选项所在的所有所述实例的夹角确定所述候选项的夹角均值；

所述根据所述夹角均值确定删除所述N个候选项中的部分所述候选项，包括：根据所述夹角均值确定删除所述N个候选项中的部分候选项。

12.如权利要求11所述的方法，其特征在于，所述设定条件为裁剪所述候选项后剩余所述候选项组成所述实例的值或者裁剪所述候选项后剩余所述候选项的值。

13.如权利要求11所述的方法，其特征在于，所述路径的权重向量是根据所述路径包括的各条边上的候选项的权重向量拼接得到的，其中，所述直连操作对应的权重向量为空，所述断开操作无对应的权重向量。

14.一种神经网络架构搜索装置，其特征在于，所述装置包括：

目标搜索空间获取模块，被配置为根据搜索空间中候选模型训练前初始的权重向量和训练后当前的权重向量之间的夹角确定目标搜索空间，其中，所述候选模型包括连接输入节点至输出节点的至少一条路径；

神经网络架构获取模块，被配置为根据搜索算法从所述目标搜索空间中获取用于视觉处理任务的神经网络架构。

15.一种系统，所述系统包括一个或多个计算机和存储指令的一个或多个存储设备，当所述指令由所述一个或多个计算机执行时，使得所述一个或多个计算机执行根据权利要求1-13中任一项所述的相应方法的操作。

16.一种存储指令的一个或多个计算机存储介质，当所述指令由一个或多个计算机执行时，使得所述一个或多个计算机执行根据权利要求1至9中任一项所述的相应方法的操作。