CN113033784A

CN113033784A - 一种针对cpu和gpu设备搜索神经网络结构的方法

Info

Publication number: CN113033784A
Application number: CN202110415478.0A
Authority: CN
Inventors: 杜权
Original assignee: Shenyang Yaze Network Technology Co ltd
Current assignee: Shenyang Yaze Network Technology Co ltd
Priority date: 2021-04-18
Filing date: 2021-04-18
Publication date: 2021-06-25

Abstract

本发明公开一种针对CPU和GPU设备搜索神经网络结构的方法，步骤为：设计并确定CPU和GPU设备网络结构的表示空间；通过权重共享的方式训练一个全连接的超网；在不同的硬件平台上运行采样得到的子网络，统计其执行一次计算所需的运行时间；收集的子网络结构和在不同硬件平台上对应的运行时间，训练一个额外的预测器；在全连接的超网上执行进化算法，搜索出最优网络结构；初始化最优网络结构的参数，在训练集数据上重新进行训练直到该神经网络收敛。本发明解决了以往为不同硬件定制化神经网络结构存在的过程繁琐、可迁移性差等问题，在同一框架下为CPU、GPU设备搜索不同的神经网络结构，有效地提升神经网络结构的准确度和运行效率。

Description

一种针对CPU和GPU设备搜索神经网络结构的方法

技术领域

本发明涉及一种神经网络结构搜索方法，具体为一种针对CPU和GPU设备搜索神经网络结构的方法。

背景技术

近年来，机器学习，尤其是以神经网络为代表的深度学习技术不断发展，在语音、图像和自然语言处理等领域的诸多任务上取得了令人瞩目的成就。以神经机器翻译为例，最近几年的神经网络结构经历了巨大的变化，从循环神经网络、卷积神经网络到以自注意力机制为基础的神经网络，不断刷新机器翻译任务的分数。然而，与之相对应的神经网络结构也越来越复杂，一个趋势是网络的参数量愈发庞大、神经元连接愈发复杂，而设计和实现这些神经网络也越来越依赖于专业人员对相关技术的了解。目前神经网络的设计几乎都是与硬件结构无关的，即专家设计这些神经网络时很少考虑具体运行环境和硬件约束。然而在实际部署时，不同硬件的计算资源不同，例如一些参数量上亿的神经机器翻译模型在并行计算效率高的显卡设备上的运行速度能够满足在线翻译的需求，然而在计算资源有限的移动设备上就无法满足用户实时翻译的需求。

目前神经网络结构的设计趋势是为不同的硬件平台设计不同的神经网络结构，然而这些神经网络的设计需要大量从业经验，而且这些经验都仅限于专门化的硬件平台，无法适用于广泛的硬件平台。例如，针对显卡设备并行计算效率高的特点设计的浅而宽的神经机器翻译网络结构就不适合在并行计算效率低的CPU设备上面运行，后者更加适合部署较深但每层神经元数量较少的网络。因此，针对CPU和GPU设备进行神经网络结构自动化设计具有很高的应用价值。

发明内容

针对现有的针对CPU和GPU设备的神经网络结构设计方法存在的依赖专家经验、CPU和GPU设备上的神经网络结构设计经验难以相互迁移、验证神经网络结构效果的成本高昂等问题，本发明提出一种针对CPU和GPU设备搜索神经网络结构的方式，能够自动化特定硬件环境下的神经网络结构设计过程。

为解决上述技术问题，本发明采用的技术方案是：

本发明提供一种针对CPU和GPU设备搜索神经网络结构的方法，包括以下步骤：

1)设计并确定CPU和GPU设备网络结构的表示空间，包括需要搜索的网络结构的层数、每层的神经元数量和连接方式，使用字符串编码的形式对这些信息进行表示；

2)通过权重共享的方式训练一个全连接的超网，其中不同的子网络共享所有的权重，在每个训练步骤通过均匀采样的方式选择一个子网络进行训练，根据梯度下降的方式对共享的权重进行优化；

3)在不同的硬件平台，包括CPU、GPU设备上运行步骤2)采样得到的子网络，统计其执行一次计算所需的运行时间；

4)利用步骤3)收集的子网络结构和在不同硬件平台上对应的运行时间，训练一个额外的预测器，用于预测不同网络结构在不同硬件平台上对应的运行时间；

5)在全连接的超网上执行进化算法，根据不同硬件平台上的运行时间限制以及不同网络结构在校验集数据上对应的损失搜索出最优网络结构；

6)初始化步骤5)得到的最优网络结构的参数，在训练集数据上重新进行训练直到该神经网络收敛。

步骤1)中，使用字符串的形式对离散化的网络结构的组合进行表示，该字符串包含神经网络的层数、每层的神经元数量以及不同层的连接方式。

步骤2)中，通过权重共享的方式训练一个全连接的超网，其中不同的子网络共享所有的权重，在每个训练步骤通过均匀采样的方式选择一个子网络进行训练，根据梯度下降的方式对共享的权重进行优化，具体为：

201)选择固定的超网的层数和每层的神经元数量，其数值等于步骤1)中最大的超网的层数和每层的神经元数量，对超网的参数进行随机初始化；

202)训练时，每次在全部的子网络中选择一个子网络进行训练，即只利用超网中的部分层、每层中的部分神经元和部分连接进行训练，通过反向传播的方式对全部的参数进行更新。

步骤3)中，在不同的硬件平台，包括CPU、GPU设备上运行步骤2)采样得到的子网络，收集其执行一次前向计算所需的运行时间，具体为：

在CPU、GPU设备上运行步骤2)采样得到的子网络，直接评估其执行一次前向计算所需的运行时间；前向计算只计算得到结果。

步骤4)中，利用步骤3)得到的不同子网络在不同硬件平台上的运行时间训练一个预测器，用于预测没有直接评估的子网络所需的运行时间，具体为：

使用循环神经网络作为预测器，其输入为网络结构的编码，输出为预测的该结构在不同硬件上的运行时间，在搜索前对其进行随机初始化，在搜索时使用步骤3)统计的数据进行训练。

步骤5)中，在全连接的超网上执行进化算法，根据不同硬件平台上的运行时间限制以及不同网络结构在校验集数据上对应的损失搜索出最优网络结构，具体为：

501)根据搜索过程中收集的运行时间数据，选择100-200个在不同硬件上运行时间最短的网络结构作为初始化种群；

502)通过进化算法，随机交叉、替换或删除种群中的网络结构，使用预测器来预测剩下的网络结构，仅保留时间小于规定阈值的网络结构；

503)检查种群中时间小于规定阈值的网络结构，如果其运行时间达到预设的目标，则停止搜索，否则回到502)步骤。

步骤6)中，初始化步骤5)得到的最优网络结构的参数，在训练集数据上重新进行训练直到该神经网络收敛，具体为：

选择步骤5)得到的最优网络结构，对其进行随机初始化，在训练数据集上进行训练直至收敛，保存其参数。

超网指的是在执行搜索步骤前，搜索空间中层数、神经元数和神经连接数最多的网络结构，而子网络指的是超网中的一个子模块。

本发明具有以下有益效果及优点：

1.本发明解决了传统的为不同硬件定制化神经网络结构存在的过程繁琐、可迁移性差等问题，可以在同一框架下为CPU、GPU设备搜索不同的神经网络结构。

2.此外，本发明提出的方法可以有效地提升神经网络结构的准确度和运行效率，相较于在CPU和GPU设备上使用固定的神经网络结构，本发明能够有效地根据不同硬件的特点自动化地搜索得到最优的结构。

附图说明

图1为本发明中对超网中的子网络结构采样示意图；

图2为本发明中神经网络结构搜索方法示意图。

具体实施方式

本发明方法包括以下步骤：

2)如图1所示，通过权重共享的方式训练一个全连接的超网，其中不同的子网络共享所有的权重，在每个训练步骤通过均匀采样的方式选择一个子网络进行训练，即图1中实线范围内的神经网络结构，根据梯度下降的方式对共享的权重进行优化；

3)如图2所示，在不同的硬件平台，包括CPU、GPU设备上运行步骤2)采样得到的子网络，收集其执行一次前向计算所需的运行时间；

4)如图2所示，利用步骤3)收集的子网络结构和在不同硬件平台上对应的运行时间，训练一个额外的预测器，用于预测不同网络结构在不同硬件平台上对应的运行时间；

5)如图2所示，在全连接的超网上执行进化算法，根据不同硬件平台上的运行时间限制以及不同网络结构在校验集数据上对应的损失搜索出最优网络结构；

201)选择固定的超网的层数和每层的神经元数量，其数值等于步骤1)中最大的数量，对超网的参数进行随机初始化；

202)训练时，每次在全部的子网络中选择一个进行训练，即只利用超网中的部分层、每层中部分的神经元和部分的连接进行训练，而通过反向传播的方式对全部的参数进行更新。

301)在CPU、GPU设备上运行步骤2)采样得到的子网络，直接评估其执行一次前向计算所需的运行时间；前向计算与训练网络的不同之处仅在于只计算得到结果，而不计算参数的梯度，因此其速度得到了大幅提升。

401)使用循环神经网络作为预测器，其输入为网络结构的编码，输出为预测的该结构在不同硬件上的运行时间，在搜索前对其进行随机初始化，在搜索时使用步骤3)收集的数据进行训练，该预测器的作用是用来快速评估新的子网络结构，而不需要在硬件平台上进行计算。

501)根据搜索过程中收集的运行时间数据，选择100～200个在不同硬件上运行时间最短的网络结构作为初始化种群；

502)通过进化算法，随机交叉、替换或删除种群中的网络结构，使用预测器来预测剩下的网络结构，仅保留时间小于规定阈值(本实施例为100)的网络结构；

601)选择步骤5)得到的最优网络结构，对其进行随机初始化，在训练数据集上进行训练直至收敛，保存其参数。

为验证方法的有效性，将本发明提出的针对不同设备搜索神经网络结构的方法在机器翻译任务上进行实验。具体来说在IWSLT 2014德到英翻译任务上进行实验，该任务训练数据约为16万条双语句对，实验基线使用标准的Transformer模型，包括6个编码器层和6个解码器层，模型隐藏层单元为512，分别在NVIDIA TITAN X GPU和Intel Core i7-5930KCPU上进行测试。其中模型参数单位为百万，缩写为M，越小越好；BLEU代表在测试集上机器翻译系统的品质，越高越好；延迟通过翻译长度为20的德语句子统计出，越小越好，实验结果如下表所示。

实验表明，本发明提出的针对不同设备搜索神经网络结构的方法能够在GPU和CPU设备上有效减少模型参数，显著降低系统延迟，同时不损失翻译品质。该方法在CPU设备上能够降低16.5％的参数量、减少44.5％的延迟；在GPU设备上能够减少49.5％的延迟。

总之，本发明提出了一种针对不同设备搜索神经网络结构的方法，能够在无需针对不同设备和运行环境对系统和模型结构进行修改的前提下，有效地减少模型的参数，降低翻译系统的延迟，节约计算资源。同时，本发明能够在不影响神经机器翻译系统翻译效果的前提下，明显地提升系统的运行速度。

Claims

1.一种针对CPU和GPU设备搜索神经网络结构的方法，其特征在于包括以下步骤：

2.按权利要求1所述的针对CPU和GPU设备搜索神经网络结构的方法，其特征在于：步骤1)中，使用字符串的形式对离散化的网络结构的组合进行表示，该字符串包含神经网络的层数、每层的神经元数量以及不同层的连接方式。

3.按权利要求1所述的针对CPU和GPU设备搜索神经网络结构的方法，其特征在于：步骤2)中，通过权重共享的方式训练一个全连接的超网，其中不同的子网络共享所有的权重，在每个训练步骤通过均匀采样的方式选择一个子网络进行训练，根据梯度下降的方式对共享的权重进行优化，具体为：

4.按权利要求1所述的针对CPU和GPU设备搜索神经网络结构的方法，其特征在于：步骤3)中，在不同的硬件平台，包括CPU、GPU设备上运行步骤2)采样得到的子网络，收集其执行一次前向计算所需的运行时间，具体为：

5.按权利要求1所述的针对CPU和GPU设备搜索神经网络结构的方法，其特征在于：步骤4)中，利用步骤3)得到的不同子网络在不同硬件平台上的运行时间训练一个预测器，用于预测没有直接评估的子网络所需的运行时间，具体为：

6.按权利要求1所述的针对CPU和GPU设备搜索神经网络结构的方法，其特征在于：步骤5)中，在全连接的超网上执行进化算法，根据不同硬件平台上的运行时间限制以及不同网络结构在校验集数据上对应的损失搜索出最优网络结构，具体为：

7.按权利要求1所述的针对CPU和GPU设备搜索神经网络结构的方法，其特征在于：步骤6)中，初始化步骤5)得到的最优网络结构的参数，在训练集数据上重新进行训练直到该神经网络收敛，具体为：

8.按权利要求1所述的针对CPU和GPU设备搜索神经网络结构的方法，其特征在于：超网指的是在执行搜索步骤前，搜索空间中层数、神经元数和神经连接数最多的网络结构，而子网络指的是超网中的一个子模块。