CN112784140A

CN112784140A - 一种高能效神经网络架构的搜索方法

Info

Publication number: CN112784140A
Application number: CN202110147159.6A
Authority: CN
Inventors: 杨良怀; 沈承宗; 范玉雷
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-05-11
Anticipated expiration: 2041-02-03
Also published as: CN112784140B

Abstract

一种高能效神经网络架构的搜索方法，包括：步骤1：构建层级运行时间与功率的多项式回归模型；步骤2：基于层级的运行时间和功率计算神经网络架构整体能耗；步骤3：将离散的搜索空间连续化；步骤4：把能耗作为搜索目标之一加入到神经网络架构搜索过程中。本发明用机器搜索的方式精准发现高能效网络架构、减少不必要的搜索开销。在网络架构能耗的测量中，利用多项式回归模型预测特定架构的能耗；在架构设计过程中，使用机器代替人工的方式自动搜索满足要求的架构，设计过程更加科学；利用连续化的搜索空间以及基于梯度下降的搜索方法，并在原来只搜索高精度神经网络架构的基础上新增高能效的目标，提升搜索效率的同时优化搜索结果。

Description

一种高能效神经网络架构的搜索方法

技术领域

本发明涉及机器学习领域，特别涉及一种高能效神经网络架构的搜索方法。

背景技术

随着互联网时代的发展，深度神经网络在解决各种问题方面都表现出卓越的性能，但是由于其庞大的规模，传统的大型深度神经网络(VGG，AlexNet，GoogleNet等)在解决具体问题的时候往往计算速度缓慢并且能耗成本很高，这对提高其在实际工业领域的可用性带来巨大挑战，尤其是移动设备以及能源预算有限的环境下。因此迫切需要一种可以针对具体问题自动化地设计出小规模、高能效、高准确度的网络架构的方法。

目前神经网络架构搜索(NeuralArchitecture Search，下文简称NAS)的应用已经相当广泛，早期的NAS主要是以强化学习为搜索策略，比如Zoph等人提出的基于强化学习的NAS，使用递归神经网络作为神经网络架构生成器，并通过强化学习训练这个递归神经网络，使其能生成最佳网络结构，最终他们得到的模型优于其他类似的最新网络架构。后来为了提升NAS搜索效率，不少学者针对神经网络架构的评估环节进行优化，Pham等人提出ENAS，通过在各个网络之间共享权重来减少计算量，避免每个网络都要从头开始训练；Klein等人用一个模型拟合学习曲线，从而只需要对架构进行短时间的训练即可预测架构最终性能。

上述的NAS方法使神经网络结构的设计难题有了新的解决方式，传统人工定义的超参可以用机器搜索的方式更加科学地获取。但是仍然存在的问题是，搜索效率依然没有质的提升，搜索过程需要花费巨大的代价。此外，搜索得到的架构由于只注重预测精度，而忽略了其推理过程会产生的能耗，往往精度越高的网络是越健壮的，而越健壮的网络会产生越多的能耗。因此要降低神经网络的使用成本，必须在搜索时考虑能耗这个特性。

发明内容

本发明要克服现有技术的上述缺点，提供一种高能效神经网络架构的搜索方法。

本发明解决技术问题采用如下技术方案：

一种高能效神经网络架构的搜索方法，分为以下步骤：

步骤1：构建层级运行时间与功率的多项式回归模型；

步骤2：基于层级的运行时间和功率计算神经网络架构整体能耗；

步骤3：将离散的搜索空间连续化；

步骤4：把能耗作为搜索目标之一加入到神经网络架构搜索过程中。

作为本发明的进一步优化，所述步骤1的具体步骤为：

1)采集神经网络推理过程中各层的运行时间T与功率P；

2)对运行时间进行建模，记为

模型分为两部分：K_T阶常规多项式和特殊多项式

公式为：

所建模型第一部分的K_T阶常规多项式是一个与输入特征X_T相关的函数，特征向量X_T包含了神经网络每一层中的超参，不同类型的网络层超参有所区别，卷积层包含输入尺寸、输出尺寸、滤波器大小、填充值和步长这五个特征；池化层包含输入尺寸、输出尺寸、步长和卷积核大小这四个特征；全连接层包含输入尺寸和输出尺寸这两特征。其中x_i表示X_T中第i个分量，q_ij是其中x_i在第j项中的指数，c_j则是待学习的系数。

第二部分对应特殊多项式

所谓特殊即这部分主要处理与每一层相关的物理运算，包括内存访问总数和浮点运算次数两个特征，但是如第一部分所述，不同类型的网络层对应的X_T不同，所以内存访问总数和浮点运算次数时需要依据各层的特征进行计算。其中c′_s是待学习的系数。

3)对功率进行建模，记为

与上述运行时间模型类似，模型分为两部分：K_p阶常规多项式和特殊多项式

公式为：

所建模型第一部分的K_p阶常规多项式是一个与输入特征向量X_P相关的函数，由于功率模型最终的值必然有上限，特征向量X_P在X_T的基础上扩展了X_T所有特征的对数，即卷积层包含输入尺寸、输入尺寸的对数、输出尺寸、输出尺寸的对数、滤波器大小、滤波器大小的对数、填充值、填充值的对数、步长和步长的对数；池化层包含输入尺寸、输入尺寸的对数、输出尺寸、输出尺寸的对数、步长、步长的对数、卷积核大小和卷积核大小的对数；全连接层包含输入尺寸、输入尺寸的对数、输出尺寸和输出尺寸的对数。m_ij是特征x_i的第j项中的指数，z_j是待学习的系数。第二部分的特殊多项式与上述

同理。

第二部分对应特殊多项式

所谓特殊即这部分主要处理与每一层相关的物理运算，包括内存访问总数和浮点运算次数两个特征，但是如第一部分所述，不同类型的网络层对应的X_P不同，所以内存访问总数和浮点运算次数时需要依据各层的特征进行计算。其中z′_k是待学习的系数。

4)根据采集的数据进行训练直至模型参数收敛。

作为本发明的更进一步优化，所述步骤2的具体步骤为：

1)对于一个N层的网络架构，将每一层的运行时间

求和，计算出神经网络总运行时间

公式为：

2)通过每一层的运行时间

和功率

计算得到该层的功耗，N层功耗之和除以总运行时间得到平均功率

公式为：

3)计算神经网络架构整体能耗

其中

表示神经网络一次推理的总时间，

表示在推理过程中的平均功率，结合公式3-1和公式3-2，整体能耗的计算公式为：

作为本发明的更进一步优化，所述步骤3的具体步骤为：

1)为神经网络初始化一组候选操作(卷积、池化等)集合

其中每个操作附带初始权重α，即架构编码；

2)使用Cell作为架构搜索的基础模块，一个Cell是由N个节点组成的有向无环图，每个节点就是一个隐表示(latent representation)，每条边表示一个混合操作；

3)将节点i和节点j之间原本离散的一些操作松弛为所有可能的操作的softmax映射之和

即混合操作。其中

表示节点间的候选操作集合，

表示节点i、j之间某个操作o的权重，公式为：

4)节点x⁽ⁱ⁾的值由其所有前驱节点经过各自的混合操作计算并求和后得到。其中x^(j)表示前驱节点值，o^(i,j)表示节点i、j之间的有向边代表的混合操作，公式为：

作为本发明的更进一步优化，所述步骤4的具体步骤为：

1)设计用于寻找最优神经网络架构的损失函数L，选择交叉熵损失函数作为原损失函数L₁，并在原损失函数之上加入与能耗相关的损失C，其中λ为超参，公式为：

L＝L₁+λ·C (4-1)

2)固定神经网络自身的权重w，使用梯度下降法优化架构编码α在验证集上的损失

公式为；

其中m为学习率，

表示α在

上的梯度。

3)固定架构编码α，使用梯度下降法优化权重w在训练集上的损失

公式为：

其中n为学习率，

表示w在

上的梯度。

4)重复上述2、3两步直至权重w和编码α收敛。然后从每一个混合操作中选出α值最大的操作替代原先的混合操作，即可获得最终的神经网络架构。

事实上，不同的架构搜索方法以及不同的搜索目标最终都会有不同的结果，本发明为更具准确性和通用性，做了以下规定。通过建模的方式对能耗直接进行估测而不是传统的通过计算量的方式间接估测；在验证集上优化编码α，在训练集上优化权重w，增加模型泛化能力。

所述在功率模型建模过程中，功率受硬件限制而不会无限增长，因此特征向量X_P新增了原有特征的对数项，当特征值趋近于无限大时增长率趋近于0。

所述在超参λ的选择过程中，考虑当前具体生产环境下对神经网络架构能耗的要求，λ越大，架构的能耗越低；反之则越高。但λ应控制在一个合理范围内，否则网络架构的精度将会被严重影响。

本发明的一种高能效神经网络架构的搜索方法，包括利用多项式回归模型预测特定网络架构的推理能耗，利用可微架构搜索方法，将原本离散的搜索空间连续化，搜索高能效、高精度的神经网络架构等步骤。目前深度神经网络在解决各种问题方面都表现出卓越的性能，但是由于其庞大的规模，传统的大型深度神经网络(VGG，AlexNet，GoogleNet等)在解决具体问题的时候往往计算速度缓慢并且能耗成本很高。本发明从多方面考虑了神经网络架构的能耗度量以及损失函数设计，旨在用机器搜索的方式精准发现高能效网络架构、减少不必要的搜索开销。在网络架构能耗的测量中，利用多项式回归模型预测特定架构的能耗，避免直接通过计算量估测等方式产生的偏差；在架构设计过程中，使用机器代替人工的方式自动搜索满足要求的架构，设计过程更加科学；利用连续化的搜索空间以及基于梯度下降的搜索方法，并在原来只搜索高精度神经网络架构的基础上新增高能效的目标，提升搜索效率的同时优化搜索结果。

本发明具有如下有益效果：针对现有的人工设计深度神经网络架构的不足，如为满足高精度而导致网络过于健壮，使能耗成本不断增大，且基本无法部署在目前越来越流行的移动设备上的情况。本发明利用神经网络架构搜索方法，通过机器搜索的方式更加科学地获取符合要求的网络架构；利用多项式回归模型对能耗进行建模，将能耗作为搜索目标之一加入搜索过程中。最终从精度和能耗两个搜索目标出发，从连续的搜索空间中搜索出满足要求的网络架构。

附图说明

图1为本发明能耗估测流程图。

图2为本发明初始状态下节点间的混合操作示意图。

图3为本发明搜索完成后节点间的混合操作示意图。

图4为本发明参数优化过程示意图。

具体实施方式

下面结合附图及实施方式对本发明的技术方案作进一步阐述。

本实施例是采用了本发明方法的一种人脸识别方法，具体包括如下步骤：

步骤1:实施过程中使用公开的人脸数据集作为本发明搜索过程使用的数据集，其中包括200人的58000多张人脸图像，我们以8:2的比例划分训练集和测试集，并将训练集对半拆分为本发明所需的训练集和验证集。

数据集划分完成后，根据人脸的预处理技术，使用MTCNN检测面部标记(眼睛、鼻子和嘴角)用以将人脸对齐，然后减去每个通道的平均值对像素归一化处理，同时随机翻转图片，将图像填充后再随机裁剪，最后对所有数据进行重排序。

步骤2：层级能耗模型构建，采集神经网络推理过程中各层的运行时间T与功率P，包括卷积层、池化层和全连接层。首先对运行时间进行建模，记为

模型分为两部分：K_T阶常规多项式和特殊多项式

公式为：

第二部分对应特殊多项式

然后对功率进行建模，记为

公式为：

同理。

第二部分对应特殊多项式

最终根据采集的数据进行训练直至模型参数收敛。

步骤3：整体能耗模型构建，对于一个N层的网络架构，将每一层的运行时间

求和，计算出神经网络总运行时间

公式为：

接着通过每一层的运行时间

和功率

公式为：

最后计算神经网络架构整体能耗

其中

表示神经网络一次推理的总时间，

表示在推理过程中的平均功率，整体计算的流程图如图1所示，结合公式3-1和公式3-2，整体能耗的计算公式为：

步骤4：为神经网络初始化一组候选操作(卷积、池化等)集合

其中每个操作附带初始权重α，即架构编码；使用Cell作为架构搜索的基础模块，一个Cell是由N个节点组成的有向无环图，每个节点就是一个隐表示(latent representation)，每条边表示一个混合操作；将节点i和节点j之间原本离散的一些操作松弛为所有可能的操作的softmax映射之和

即混合操作，如图2所示，其中不同类型的线段表示不同操作。其中

表示节点间的候选操作集合，

表示节点i、j之间某个操作o的权重，公式为：

节点x⁽ⁱ⁾的值由其所有前驱节点经过各自的混合操作计算并求和后得到。其中x^(j)表示前驱节点值，o^(i,j)表示节点i、j之间的有向边代表的混合操作，公式为：

步骤5：设计用于寻找最优神经网络架构的损失函数L，选择交叉熵损失函数作为原损失函数L₁，并在原损失函数之上加入与能耗相关的损失C，C由步骤3构建的网络整体能耗估测模型获得，其中λ为超参，公式为：

L＝L₁+λ·C (4-1)

先是固定神经网络自身的权重w，用梯度下降的方法优化架构编码α在验证集上的损失

公式为；

其中m为学习率，

表示α在

上的梯度。

接着固定架构编码α，用梯度下降的方法优化权重w在训练集上的损失

公式为：

其中n为学习率，

表示w在

上的梯度。

然后如图4所示重复上述2、3两步直至权重w和编码α收敛。最后从每一个混合操作中选出a值最大的操作替代原先的混合操作，如图3所示，其中两节点间颜色较深的箭头表示a值较大的那个操作。至此完成单个Cell的搜索。

整个神经网络架构将由多个如步骤4所述的Cell堆叠而成。堆叠完成后先初始化整个网络的权重，然后用原先8:2划分得到的训练集重新训练整个网络架构，并在测试集上验证其性能。结果表明使用本发明搜索得到的网络架构相比于人工设计的网络具备高能效的同时精度几乎没有降低。

步骤6：将步骤5搜索得到的网络应用于人脸识别中，输入可能包含人脸的原始图像，使用OpenCV检测出图像中人脸位置，并用传统的回归树模型检测人脸中的关键点，然后根据这些关键点对人脸进行对齐与校准，其中关键点包括眼睛、鼻子和嘴角等部位，接着将校准后的单张人脸图像作为本发明最终搜索得到的网络架构的输入，最终网络会输出一个向量，相同或相似人脸的向量之间距离小，而不同人脸的向量之间距离大。当给定一张人脸图片，检测数据库中与之最相似的人时，即可转化为求与该张人脸图片的向量距离最近的图片。

最后应说明的是：以上实施方式仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施方式对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施方式技术方案的精神和范围。