CN113822173A

CN113822173A - 基于节点归并和路径预测的行人属性识别训练加速方法

Info

Publication number: CN113822173A
Application number: CN202111019973.6A
Authority: CN
Inventors: 丁勇; 曾艳; 任永坚; 张纪林; 袁俊峰; 欧东阳
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-12-21

Abstract

本发明公开了一种基于节点归并和路径预测的行人属性识别训练加速方法。本发明运用基于启发式的图搜索算法来计算在短时间内消耗较少计算资源的最优并行化策略，从而实现大规模复杂神经网络模型并行策略自动搜索和调优。本发明首先构建多维性能代价模型以指导并行策略自动搜索和调优，解决现有方法评估并行效率单一的问题。其次构建图搜索空间，将DNN模型的算子放置及调度问题转化为DAG调度问题，然后通过异构算力感知节点归并来减少算子间的等待依赖时间，最后在设备选择时，基于路径预测优化关键路径，从而进一步提升并行性能。

Description

基于节点归并和路径预测的行人属性识别训练加速方法

技术领域

本发明涉及一种基于节点归并和路径预测的行人属性识别训练加速方法，解决监控场景下行人属性识别模型训练的加速问题，为大规模复杂神经网络提供最优的模型并行训练方案。

背景技术

近年来，受益于AI算法、硬件算力和数据集的高速发展，深度神经网络在自然语言处理、计算机视觉和搜索推荐等领域取得了显著进步。与此同时，深度学习在监控场景下行人属性识别方面的应用，也对其在移动端应用下的神经网络算法模型训练精度和速度提出了更高的要求。这些应用的共同特点都是使用深度的、复杂的、分层结构的模型，以及需要依赖大量数据。

对于稠密模型，最大的DNN模型可能涉及数亿到数十亿个参数，对于稀疏模型，甚至可能涉及数万亿参数。因此，随着模型越来越复杂和数据集越来越大，机器学习模型和训练数据集规模受到GPU设备内存的限制。例如1000层残差网络的普通实现便需要48GB内存，即使经过进一步的优化以降低内存成本，DNN模型仍需至少7GB内存。这使得在内存受限的单设备上运行整个模型变得极为艰难。因此，为了解决深度神经网络模型训练所带来的高计算成本问题和单设备内存受限问题，分布式场景下跨多个GPU设备实现模型并行成为必然的趋势。

业界通常将神经网络计算图横向按层划分、纵向跨层划分或随机划分并调度至不同设备执行，但这些方法严重依赖专家经验，切分方式不合理，集群利用率低而且通常具有较大通信开销。

基于机器学习的自动搜索策略是指导模型并行训练方法之一，采用学习的方法捕捉计算图和集群设备拓扑图的特征，提出合理的并行策略搜索空间并建立起策略的评价反馈模型，通过特定的采样方法在搜索空间中不断迭代搜索最优策略，优化目标为放置模型以最小化每轮迭代训练的执行时间。

起初Hao等人基于传统机器学习方法，提出AutoSync自适应框架，基于数据并行模式，利用机器学习方法预测训练策略执行时间以指导同步并行策略的搜索，但该方法局限于同步数据并行。后来，Google Brain提出的一种基于强化学习的自动搜索并行框架REINFORCE，该框架将调度策略的真实分布式执行时间作为惩罚因子，反馈给LSTM模型计算策略梯度以学习更优的并行策略，但是Google提出的该方法所需投入的计算资源和搜索时间十分昂贵，实用性并不大。Placeto由Ravichandran在NIPS上首次提出，与REINFORCE不同，它支持更加先进的Graph Embedding方法，捕捉计算图结构和节点间依赖关系，可在不重新训练的情况下，推广到其他类似的未知计算图。与此同时，Placeto采用增量迭代的强化学习方式，即完成单算子调度策略后即刻返回真实运行时，从而提高了算法执行效率。上述方法优化了搜索效率，但由于基于学习和反馈的迭代搜索过程，仍然需要很长时间来生成并行策略，但在实际的生产场景下，开发人员往往需要进行快速的部署和训练，且其耗费的计算资源成本同样很高。

为了弥补基于机器学习的搜索方式耗费时间久和计算资源成本高的缺点，基于动态规划和图搜索等启发式方法的自动搜索策略方式逐渐成为另一研究方向，其最大的特点就是能在常量级的时间内搜索出最优或次优的分布式并行策略。起初，王丽等人提出面向模型并行训练的模型拆分策略自动生成方法，基于静态的网络模型自动生成模型拆分策略，实现网络层在不同AI加速器上的任务分配；Pellegrini等人提出Scotch静态映射方法，利用图论中寻找最短路径的方法指导静态图的切分。虽然上述方法能大幅缩短策略搜索时间，但其获得的并行策略性能远低于专家设计方法，实用性并不高。后来，Jia等人提出了基于图搜索的深度学习自动并行框架OptCNN，构建代价模型来量化评估训练网络的运行时性能，并基于动态规划搜索并行策略。随后，Tofu在OptCNN动态规划的基础上采用递归切分和图粗化的方式，减少策略的搜索时间并拓展网络模型局限性。上述方法主要基于粗粒度的层级划分以及通过预估得到执行时间，因此性能提升有限。为了解决这一问题，Yi等人提出了基于DAG调度的FastT算法，利用细粒度算子优先级和关键路径对算子进行放置和调度，但其未考虑设备训练时的动态内存占比，且不适用动态RNN。但上述启发式方法依然存在如下问题：1)代价模型构建基于专家经验，而且考虑维度单一，刻画并行性能存在局限性。2)DNN模型任务图搜索问题是NP难题，其搜索空间随网络深度递增而增大，对大规模复杂深度神经网络的搜索存在搜索方案复杂、搜索时间长等问题。

发明内容

本发明针对现有技术的不足，提供了一种基于节点归并和路径预测的行人属性识别训练加速方法，用于加速监控场景下行人属性识别模型的训练，从而解决输入监控行人图片，训练模型耗时较久的技术问题。

本发明首先通过建立多维性能代价模型用以指导深度学习分布式并行策略自动搜索和调优；其次提取原始计算图和设备拓扑图的特征并构建图搜索空间；然后基于异构算力感知，对满足归并条件的节点进行归并减小图搜索空间。最后通过图搜索算法进行设备调度，为操作设定优先级确定关键路径和放置顺序，通过关键节点父节点到出口节点的路径来预测关键节点的最优放置，从而缩短关键路径的调度长度，实现深度神经网络的自适应切分，提升分布式并行策略性能，增强其拓展性。

本发明方法具体是：

步骤1：分析行人属性识别神经网络模型结构、算子属性等对性能的影响，提取影响模型并行执行效率的关键因素，基于迭代和线性回归方法，分别对计算代价、通信代价和内存占用率等建立代价子模型，并在此基础上建立多维性能代价模型用以指导深度学习分布式并行策略自动搜索和调优。构建多维性能代价模型E_cost，衡量分布式并行策略综合性能。构建能够全面体现分布式训练性能的多维性能代价模型步骤如下：

1)分析影响模型并行执行效率的关键因素，基于迭代和线性回归方法，分别对计算代价模型

通信代价模型

和内存占用率模型

三个代价子模型。

2)在内存子模型满足M_d＜C的条件下，从计算代价和通信代价两个维度表征模型并行策略性能，建立多维性能代价模型

其中，

值表示基于实际训练环境下人工经验设定的设备内存占用率阈值，E_i,d，C_i,j分别表示计算代价和通信代价子模型，在在内存子模型M_d满足

的限制下考虑通信和计算代价最小。

步骤2：根据行人属性识别神经网络模型结构特性和集群拓扑构建DAG图搜索空间，图搜索空间详细展示了DNN模型算子结构、集群拓扑、各算子在不同设备上的通信、计算开销等，建立高维搜索空间。

首先，基于DAG计算图，设备拓扑图，构建图搜索空间G＝(O，E)。O表示所有节点组成的集合，O＝{o₁，o₂，...o_n}，每个节点表示一个操作(例如卷积，点乘等)。pred(o_i)表示在图搜索空间中，节点o_i的直接前驱组成的集合，succ(o_i)表示节点o_i的直接后继组成的集合。如果

那么则称该节点为入口节点，表示为o_entry，

那么则称该节点为出口节点，表示为o_exit。如果在DAG计算图中，有多个入口节点或出口节点，则增加一个通信时间和计算时间为均为0的虚拟入口和出口节点。E是节点之间有向边的集合，表示节点间的依赖关系，即对

o_i执行完成后o_j才能开始执行。

其次，基于多维代价子模型，构建节点以及边的权值，每一个节点的权值表示节点o_i在设备d的执行代价时间，用o_i，d表示，每一条边的权值表示节点o_i和节点o_j的通信代价时间，用c_i，j表示。

步骤3：引入算力异构感知的节点归并，基于算子对算力异构敏感度进行节点合并，减少搜索空间。

首先，引入基于广度搜索的节点归并方法以减小DAG图搜索空间：对于DAG计算图的计算节点o_i，对其后继节点o_j进行广度遍历搜索，如果算子o_i的输出张量只被它下一个算子o_j使用，或者算子o_i的通信代价不足以抵消算子并行计算所获得的收益，那么应该将这两个操作调度之同一个设备执行。其核心思想是：两个计算节点间通信代价过高，则在图搜索算法中将其归并消融为同一节点调度，可有效减少算子节点数量，从而加快最佳调度策略搜索。

其次，提出算力异构感知节点归并方法，通过算力异构敏感度表征算子在不同设备执行时间的差异性。当o_i和o_j互为唯一父子节点，当两者通信时间大于o_j在任一GPU上的最大执行时间与最小执行时间的差值即进行归并。其核心的思想为当通信时间大于通过放置设备所能节省的最大时间，那么就无需再单独为o_j节点调度，可将其归并至o_i当作一个节点调度，从而加快最佳调度策略搜索。

步骤4：针对计算图的调度长度问题，提出基于路径预测的图搜索算法在简化后的搜索空间中搜索策略，通过关键节点的父节点到出口节点的路径来预测关键节点的最优放置，从而缩短关键路径的调度长度，以此来减小DAG计算图的执行时间。

首先，为每个算子设定操作优先级，通过自下向上遍历DAG计算图递归计算获得向上权重优先级rank_u，其表示节点o_i到出口节点最长路径，通过自顶向下遍历DAG计算图递归计算获得向下权重优先级rank_d，其表示节点o_i到入口节点最长路径。

其次，基于算子优先级确定关键路径，并引入乐观表矩阵表示子节点到出口节点最短路径的最大值。

最后，采用基于路径预测的图搜索算法进行设备调度，通过关键节点父节点到出口节点的路径来预测关键节点的最优放置，从而缩短关键路径的调度长度，达到加速行人属性识别模型训练的目的。核心思想是使得关键路径上的算子执行时间最短，那么整个计算图执行下来的时间也最短。

本发明具有的有益效果是：多维性能代价模型的建立，精确刻画实际训练环境中的设备算力和通信负载，拓宽训练场景局限性，增强其拓展性；引入异构算力感知的节点归并，能减少图搜索空间，降低大规模复杂深度网络的策略搜索时间成本；使用基于路径预测的图搜索算法，通过关键节点的父节点到出口节点的路径来预测关键节点的最优放置，有效缩短关键路径的调度长度，以此来减小DAG计算图的执行时间。与此同时，本发明中的多维性能代价模型和异构算力感知节点归并均可推广至其它自适应搜索场景。

附图说明

图1是基于节点归并和路径预测的搜索方法流程图；

图2是构建图搜索空间示意图；

图3是节点归并示意图；

图4是基于路径预测的图搜索示意图。

具体实施方式

下面将结合附图和具体实施步骤对本发明做出进一步说明：

本发明包括以下步骤：

步骤1：构建多维性能代价模型E_cost，衡量分布式并行策略综合性能，用以指导深度学习模型分布式并行策略的自动搜索和调优。

首先分析影响行人属性识别神经网络执行性能的因素，分布式并行训练的性能指标主要考虑以下三个方面：1)计算代价，由于算子属性差异性(如卷积、点乘)和设备算力异构性会导致算子在每个设备上的执行时间不同。因此算子在各设备上的真实执行时间是设备选择的重要参考；2)通信代价，算子间参数同步所消耗的通信时间过大时，并行所带来的通信开销反而会降低并行性能，因此需尽量降低通信开销；3)内存占用率，由于大规模内存读写访问会影响设备响应时间，因此均衡各设备模型参数以减小设备内存使用率，从而加快设备响应时间。

计算代价：采用算子在该设备上真实执行过程的结束时间减去开始执行时间，记

和

分别表示算子o_i在设备d上开始执行时刻和结束时刻，

为迭代均值计算，计算代价模型如下：

通信代价：以理想通信时间(张量大小/通信带宽)为自变量，通信代价为因变量，线性回归拟合得到通信代价模型，记

表示o_i和o_j间张量大小，b_i，j表示算子放置设备间通信带宽，θ_B表示线性回归正则项，通信代价表示如下式：

内存使用率：采用当前设备d内存中模型参数物理存储大小和设备总内存m_d的比值表示，内存使用率表示如下式：

然后，在内存使用率M_d满足阈值

的限制下考虑通信和计算代价最小，建立多维性能代价模型，以指导深度学习分布式并行策略自动搜索和调优，表示如下式：

其中，E_cost值越小表示策略性能越好，内存使用率作为节点属性，通过

设定内存峰值从而控制GPU内存占用。上述计算代价和通信代价分别为图搜索空间构建的节点权值(执行时间)和边权值(通信时间)。

步骤2：基于原始计算图和设备拓扑图，构建图搜索空间G＝(O，E)。

根据行人属性识别神经网络模型结构特性和集群拓扑，抽象计算图

和集群设备资源组

构建DAG图搜索搜索空间，如附图2所示。其中，O表示所有节点组成的集合，O＝{o₁，o₂，...o_n}，每个节点表示一个操作(例如卷积，点乘等)。pred(o_i)表示在图搜索空间中，节点o_i的直接前去组成的集合。如果

那么则称该节点为出口节点，表示为o_exit；如果在DAG计算图中，有多个入口节点或出口节点，那么增加一个通信时间和计算时间为均为0的虚拟入口和出口节点。E是节点之间有向边的集合，表示节点间的依赖关系，即对

o_i执行完成后o_j才能开始执行。

最后，定义节点最早完成时间EFT(o_i，d_j)，其表示节点o_i在设备d_j上的最早完成时间，由节点最早开始时间EST(o_i，d_j)加上节点执行时间ET(o_i，d_j)得到。

其中，D_Available(d_j)表示设备d_j可开始执行新算子的最早可用时间。

表示节点o_i前继节点均已完成执行的时间。对于所有入口节点(即

)，EST(o_entry，d_j)＝0。

首先，引入基于广度搜索的节点归并方法减小DAG图搜索空间，其核心思想是：两个计算节点间通信代价过高，则在图搜索算法中将其归并消融为同一节点调度，可有效减少算子节点数量，从而加快最佳调度策略搜索。对于DAG计算图的计算节点o_i，对其后继节点o_j进行广度遍历搜索，如若满足下述规则进行节点归并：

(1)o_j节点的唯一前驱节点为o_i，且未进行节点归并操作；

(2)o_i广度为1(o_j为其唯一后继节点)，且未进行过节点归并操作，

(3)o_i和o_j节点间通信代价大于o_j在设备上的平均计算代价。

如果算子o_i的输出张量只被它下一个算子o_j使用，或者算子o_i的通信代价不足以抵消算子并行计算所获得的收益，那么应该将这两个操作调度之同一个设备执行。又由于算力异构不敏感的算子在不同设备间执行时间差别较小，导致出现通信代价较小，平均计算代价较大的情况，从而忽略合并。例如假设通信代价为45ms，子节点计算代价分别为75，85，95，节点通信代价c_i，j＝45m，节点平均计算代价ET_avg(o_j)＝85，则若按原条件c_i，j＞ET_avg(o_j)，则无法合并。

因此，本发明提出算力异构感知节点归并方法，通过算力异构敏感度表征算子在不同设备执行时间的差异性，如附图3所示：当o_i和o_j互为唯一父子节点，当两者通信时间大于o_j在任一GPU上的最大执行时间与最小执行时间的差值即进行归并，其核心的思想为当通信时间大于通过放置设备所能节省的最大时间，那么就无需再单独为o_j节点调度，可将其归并至o_i当作一个节点调度。将上述基于算力异构感知的节点归并方法转化为公式描述如下：

其中，succ(o_i)表示o_i的后继节点集合；pred(o_j)表示o_j的前驱节点集合；isMerg(o_j)＝false表示o_j没有与DAG计算图中的其他节点归并过；c_i，j表示节点o_i和o_j间通信代价，w_d(o_j)为节点o_j在设备d的计算代价，ET_avg(o_j)表示为节点o_j在所有设备上的平均计算代价。

首先，为每个算子设定操作优先级，通过自下向上遍历DAG计算图递归计算获得向上权重优先级rank_u，其表示节点o_i到出口节点最长路径，通过自顶向下遍历DAG计算图递归计算获得向下权重优先级rank_d，其表示节点o_i到入口节点最长路径，并根据操作优先级排序进行DAG任务调度。具体计算公式如下：

其中，ET_avg(o_i)是节点o_i在所有设备上的平均计算时间；pre(o_i)表示节点o_i的所有直接前驱节点集合，succ(o_i)表示节点o_i的所有直接后继节点集合；c_i，j表示从节点o_i到节点o_j的平均通信负载代价；对于出口节点o_exit，rank_u(o_exit)＝ET_avg(o_exit)；对于入口节点o_entry，rank_d(o_entry)＝0。

其次，由于通过基于常规优先级顺序进行DAG调度来进行算子放置和调度并不能有效缩短计算图的执行时间，因此，引入关键路径，并利用路径预测优化调度，通过关键节点父节点到出口节点的路径来预测关键节点的最优放置，从而缩短关键路径的调度长度，达到加速计算图执行的目的。

关键节点(Critical Node，CN)表示决定DAG调度长度的节点，其rank_u和rank_d之和跟入口节点相等，通过条件来确定关键节点，条件为：

rank_u(o_i)+rank_d(o_i)＝rank_u(o_entry)+rank_d(o_entry)。

CNP(o_i)表示节点o_i是否为关键节点的父节点，具体定义公式如下：

同时，为计算子节点到出口的路径长度，引入乐观表矩阵的概念，其行表示节点数量m，列表示设备数量n。每个元素值OCT(o_i，d_j)表示将节点o_i调度至设备d_j时，o_i子节点到出口节点最短路径的最大值，其公式如下：

因此，设备放置示意图如附图4所示，其流程为首先计算当前节点在每个设备上的最早完成时间(EFT)。然后，计算当前节点的EFT^*值，其中EFT^*代表预测的最早完成时间。如果节点是关键节点的父亲节点，EFT^*的值为EFT；否则其值为EFT与OCT之和，如式(10)所示。这样的目的是为了当该节点为关键节点父亲节点时，调度至d_j设备对于当前节点来说不是最优放置，但可以使其子节点(即关键节点)最早完成时间更短，即便当前节点不为关键节点父节点，但其通过EFT^*值可以预测其子节点至出口的调度长度，在一定程度上使得子节点的完成时间提前。总结其核心思想为使关键路径上的算子尽早完成，缩短计算图的调度长度，那么整个计算图执行下来的时间也最短。

基于节点归并和路径预测的行人属性识别训练加速方法流程示意图如附图1，其具体实现流程如算法1所示：首先，1-6行会遍历整个数据流图，搜索每一个算子是否满足异构算力感知节点归并的条件，如若满足，则将其归并(这里需要注意的是，归并后的数据流图仅用作后续图搜索及调度，在真实执行环境中，归并的算子仍作为独立的算子执行)。然后，第7-8行本算法会根据多维性能代价模型计算归并后DAG图中所有节点的CNP,rank_u,rank_d and OCT值，其中，本发明会维护一个ready-list，并把入口节点放置到ready-list的顶部。在While循环9-24行中，每一步迭代该方法都会调度拥有最大rank_u值的节点(如若调度的该节点为合并后的计算节点，则在ready-list中将这两个节点同时调度至所分配的设备上)。在调度当前节点时，该方法需要计算该节点在所有设备上的EFT^*值。当设备d_k的内存占用率大于设定的内存峰值，则EFT(o_i，d_j)＝+∞从而忽略该设备的调度选择。在第19行，会获取最小的EFT^*(o_i，d_k)，则将节点放置在设备d_k上；最后，算法会返回DAG图所有节点的调度策略S、调度顺序队列Q以及相应的行人属性识别效果图。

Claims

1.基于节点归并和路径预测的行人属性识别训练加速方法，其特征在于，所述方法包括以下步骤：

(1)分析行人属性识别神经网络模型的结构、算子属性对性能的影响，提取影响模型并行执行效率的关键因素，包括计算代价、通信代价和内存占用率；

基于迭代和线性回归方法，分别对计算代价、通信代价和内存占用率建立代价子模型，并在此基础上建立多维性能代价模型用以指导深度学习分布式并行策略自动搜索和调优；

所述计算代价指基于计算图执行时提取的算子实际执行时间，通信代价指以通信量大小与通信带宽比值为自变量的通信负载模型迭代计算得到的算子通信时间，内存使用率指当前设备模型参数物理存储大小与设备总内存比值；

(2)根据行人属性识别神经网络模型结构特性和集群拓扑构建DAG图搜索空间，所述DAG图搜索空间用于展示DNN模型算子结构、集群拓扑、各算子在不同设备上的通信和计算开销；

(3)引入算力异构感知的节点归并，基于算子对算力异构敏感度进行节点合并，减少搜索空间；

(4)基于路径预测的图搜索算法在简化后的搜索空间中搜索得到最优并行策略，通过关键节点的父节点到出口节点的路径来预测关键节点的最优放置，从而缩短关键路径的调度长度，以此来减小DAG计算图的执行时间。

2.根据权利要求1所述的基于节点归并和路径预测的行人属性识别训练加速方法，其特征在于：步骤(1)中所述多维性能代价模型通过以下两个步骤建立：

(1)分析影响模型并行执行效率的关键因素，基于迭代和线性回归方法，分别建立计算代价模型E_i,d、通信代价模型C_i,j和内存占用率模型M_d三个代价子模型；

(2)在内存子模型M_d满足阈值

的限制下，计算代价和通信代价两个维度表征模型并行策略性能，建立多维性能代价模型

其中，

值表示基于实际训练环境下人工经验设定的设备内存占用率阈值，在内存子模型M_d满足阈值

的限制下考虑通信和计算代价最小。

3.根据权利要求1所述的基于节点归并和路径预测的行人属性识别训练加速方法，其特征在于：步骤(2)中所述DAG图搜索空间是指：基于数据流图形式的计算图，设备拓扑图和多维代价模型对算子属性进行特征提取，从而建立的图搜索空间。

4.根据权利要求1所述的基于节点归并和路径预测的行人属性识别训练加速方法，其特征在于：步骤(3)中所述算力异构感知的节点归并是指：基于算子对算力异构的敏感度进行节点合并；其中，算力异构敏感度表征算子在不同设备执行时间的差异性。

5.根据权利要求1所述的基于节点归并和路径预测的行人属性识别训练加速方法，其特征在于：步骤(4)具体是：

首先，为每个算子设定操作优先级，通过自下向上遍历DAG计算图递归计算获得向上权重优先级，通过自顶向下遍历DAG计算图递归计算获得向下权重优先级；

其次，基于算子优先级确定关键路径，并引入乐观表矩阵表示子节点到出口节点最短路径的最大值；

最后，采用基于路径预测的图搜索算法进行设备调度，通过关键节点父节点到出口节点的路径来预测关键节点的最优放置，从而缩短关键路径的调度长度，达到加速行人属性识别模型训练的目的。