CN110705716A

CN110705716A - 一种多模型并行训练方法

Info

Publication number: CN110705716A
Application number: CN201910937692.5A
Authority: CN
Inventors: 姚倩雯; 黄山; 逯波; 段晓东
Original assignee: Dalian Nationalities University
Current assignee: Dalian Minzu University
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-17

Abstract

本申请公开了一种多模型并行训练方法，属于大数据环境下的数据挖掘、机器学习和应用统计等分布式迭代计算领域。技术要点：利用历史统计信息，对模型训练的执行时间进行预测；利用步骤S1中预测的执行时间生成执行方案，以调度单元作为最小任务，执行时间大于调度单元的模型则被分为多个调度单元分别进行调度；根据生成的执行方案，启动一个Gaia作业来完成批量模型的并行训练；收集任务执行信息并将其合并到历史统计信息中。有益效果：本发明能够使得多个模型在一个作业中完成训练；可以对模型分配进行比较合理的调度；系统通过时间预测，执行调度模型分配进行分别训练，大大减少了计算的延迟，提高了模型的运算速率。

Description

一种多模型并行训练方法

技术领域

本发明属于大数据环境下的数据挖掘、机器学习和应用统计等分布式迭代计算领域，尤其涉及一种多模型并行训练方法。

背景技术

Gaia是一个面向多计算模型混合并存的高时效、可扩展的新一代大数据分析系统。在自适应、可伸缩的大数据存储、批流融合大数据计算、高维大规模机器学习和高时效大数据智能交互向导等大数据分析系统的几个核心层面，解决一系列关键技术问题，构建自主可控的高时效、可伸缩的新一代大数据分析系统，掌握国际领先的大数据分析系统核心技术。

该新型大数据计算系统针对批流混合任务具有全周期多尺度优化和统一计算引擎。现有大数据计算系统或依托自身计算引擎模拟另一类框架的行为，或定义一套通用接口屏蔽底层计算引擎的差异，对批流融合支持较弱。同时，其优化大多位于执行的特定时期或特定层级，且针对高复杂性任务的优化能力不足。针对以上问题，创新性地开发了基于统一计算引擎和全周期多尺度优化的高性能批流融合大数据计算技术。该技术为批流融合处理提供统一表达逻辑支持，通过统一表达建模融合批流处理的计算模型、数据模型、变换模型和动作模型，实现批、流处理的真正融合。针对作业的多样性、持久性、迭代性等特点，提供面向多作业、多任务、迭代计算、持久计算等优化策略，优化针对性更强。同时，提供执行前和执行中的全周期优化，并细分为作业级、任务级、变换级等多个尺度，以实现极速响应和海量吞吐。

Gaia是一个面向分布式数据流处理和批量处理的开源计算平台，支持分布式并行计算，包括模型并行和数据并行。当今社会中大数据计算引擎十分常见，种类繁多，近年来包括Hadoop、Spark的通用计算框架还有TensorFlow这类专用计算框架。这是由于我们对计算模型需求的多样化的结果。此外还有一些基于资源管理、支撑服务、存储服务的大数据框架。大数据和人们的生存发展息息相关。在大数据引擎支持的内容上含有批处理、流计算、机器学习以及交互式分析等多种应用。

面向大数据的数据挖掘的特有两个最重要的任务。一是实时性，如此海量的数据规模需要实时分析并迅速反馈结果。二是准确性，需要我们从海量的数据中精准提取出隐含在其中的用户需要的有价值信息，再将挖掘所得到的信息转化成有组织的知识以模型等方式表示出来，从而将分析模型应用到现实生活中提高生产效率、优化营销方案等。

因此，无论是哪种大数据计算引擎，都要求一个快速响应、也就是低延迟，生活中有很多需要实时做出反馈的问题。在数据急速增长的情况下，做出一个高吞吐、低延迟的系统至关重要。

Gaia集众多优点于一身，包括快速、可靠可扩展、完全兼容Hadoop、使用简便、表现卓越。利用基于内存的数据流，并将迭代处理算法深度集成到系统的运行时中，这样，Gaia使得系统能够以极快的速度处理数据密集型和迭代任务。Gaia还具有高可靠性和良好的可扩展性。并且能够兼容Hadoop。另外，Gaia包括基于Java的用于批量和基于流数据分析的API、优化器和具有自定义内存管理功能的分布式运行时等，因此可以完全兼容Hadoop。总而言之，Gaia具有分布式MapReduce一类平台的高效性、灵活性和扩展性，以及并行数据库查询优化方案，同时，它还支持批量和基于流的数据分析，而且提供了基于Java的API。总的来说，Gaia是一个高效的、分布式的、基于Java实现的通用大数据分析引擎。

Gaia的高效性能支持模型的并行训练。在模型并行中，单个的模型分布在多个机器上。将深度神经网络放在多台机器上并行训练所能获得的性能提升效果主要取决于模型的结构。具有大量参数的模型通常可以获得更多CPU内核和内存，因此，并行化大型模型会显著提高性能，从而缩短训练时间。多模型并行训练能极大的利用资源，使得每个节点都能运作起来，并且并行训练可以对大模型进行分解，可以减少CPU内存过小的限制。

发明内容

为了能够使各个节点充分利用资源并且多个模型并行训练，本发明提供一种多模型并行训练方法，该方法能够使得多个模型在一个作业中完成训练，可以对模型分配进行比较合理的调度，提高了运算速率。

技术方案如下：

一种多模型并行训练方法，步骤如下：

S1、利用历史统计信息，对模型训练的执行时间进行预测；

S2、利用步骤S1中预测的执行时间生成执行方案，以调度单元作为最小任务，执行时间大于调度单元的模型则被分为多个调度单元分别进行调度；

S3、根据生成的执行方案，启动一个Gaia作业来完成批量模型的并行训练；

S4、收集任务执行信息并将其合并到历史统计信息中。

进一步的，步骤S1中，将模型的每个训练参数映射到多维空间的一维，历史统计信息将映射为多维空间中的多个点，利用k近邻算法，找到离将要预测的模型参数最近的k个点，这k个点的信息就可代表模型的执行时间。

进一步的，步骤S1中，利用k近邻算法找到k个参数相近的历史统计信息，使用下式得到该模型的执行时间：

其中：t_map(X)表示模型执行预测时间，k表示平面上有k个点，i＝1，2，3，…,k，w_i(X)表示这个点到i点的水平距离，t_i表示时间从1到k的加权平均，d(X,X_i)表示平面上的一个点的坐标。

进一步的，步骤S2中，每个任务执行单元用四元组<ID,start,end,time>表示，其中ID为模型编号，time为执行时间预测，而start与end在执行方案生成时表示其数据文件的起始与结束位置；

输入为生成执行方案的所有任务执行单元及集群任务并行数，输出为生成的执行方案；

如果任务执行单元数量少于集群任务并行数时，直接为每个任务分配一个任务执行单元；

如果任务执行单元数量大于集群任务并行数时，首先将任务执行单元按其预测执行时间进行降序排列，接着初始化用于存储当前每个任务所需处理执行单元总预测时间的数组，然后对于每个任务执行单元，将其分配给预测执行时间最小的任务，并更新所需处理执行单元时间数组。

进一步的，步骤S3中，使用具有3个节点的集群完成4个模型的训练，依据模型训练预测的的时间将模型3拆分成两部分，模型4拆分成三部分；在任务执行时，模型1，模型2以及模型4的第一部分的训练样本发送至节点1，将模型3的第一部分训练样本与模型4的第二部分训练样本发送至节点2，模型3的第二部分训练样本与模型4的第三部分训练样本发送至节点3。

有益效果：

本发明所述的多模型并行训练方法能够使得多个模型在一个作业中完成训练。本发明引入了一种对模型训练时间预测的方法，可以对模型分配进行比较合理的调度；单个模型的分布式训练无法做到极大的合理利用计算资源，合理地集群各节点的调度模型，可以做到合理地利用计算资源，进行并行训练，提高模型训练速率。

系统通过时间预测，执行调度模型分配进行分别训练，大大减少了计算的延迟，提高了模型的运算速率；一个Gaia作业可以同时在不同节点上进行运算，最后合并出一个训练模型，以提高运算速率；该模型并行训练方法可以保证训练速率不低于先前的模型训练方法；在Gaia系统中为模型训练的高效、准确提供了可靠的保证。

附图说明

图1为本发明具体实施方式中多模型并行训练基本框架图；

图2为本发明具体实施方式中多模型并行训练过程图；

图3为本发明具体实施方式中模型并行训练算子流程图。

具体实施方式

下面结合附图1-3对多模型并行训练方法做进一步说明。

实施例1

一种基于Gaia的模型训练方法，模型并行(model parallelism)训练主要由分布式系统中的不同机器负责网络模型的不同部分进行训练，将模型拆分成几个分片，由几个训练单元分别持有，共同协作完成训练。多数情况下，模型并行带来的通信开销和同步消耗超过数据并行，因此加速比也不及数据并行。但对于单机内存无法容纳的大模型来说，模型并行是一个很好的选择，合理进行利用。

本发明实施例以多模型并行训练为例进行描述，采用所述的基于Gaia系统的模型并行训练，包括以下步骤：

步骤1：执行时间预测。利用历史统计信息，对模型训练的执行时间进行预测。执行时间的准确预测为生成高效率执行方案奠定了基础。

步骤2：执行方案生成。利用上一步骤中预测的执行时间生成执行方案。在生成执行方案时，以调度单元作为最小任务，执行时间较长的模型则被分为多个调度单元分别进行调度。

步骤3：任务执行。根据生成的执行方案，启动一个Gaia作业来完成批量模型的并行训练。

步骤4：执行信息收集。在完成模型的批量训练后，收集任务执行信息并将其合并到历史统计信息，以便更准确地预测后续模型执行时间。

实施例2

并行计算已经成为了大数据应用领域解决问题的一个重要途径，频繁地在大数据处理算法中使用，对于新型的大数据计算平台Gaia更为重要，Gaia一大重要特性就是低延迟，但是在并行计算时，原有的模型训练可能会浪费大量的资源，故采取多模型并行训练以减少对内存资源的浪费，提供了一种合理利用资源的并行训练机制。Gaia作为实时流处理系统，它的并行机制的通过对节点的分片来进行，通过一个job作业来完成多个模型训练的任务。

本发明通过以下步骤完成多模型并行训练，如图1所示，具体步骤如下：

步骤1：执行时间预测。利用历史统计信息，对模型训练的执行时间进行预测。执行时间的准确预测为生成高效率执行方案奠定了基础。基于k近邻与IDW插值的预测方法来预测执行时间。具有相近参数的模型，因其计算代价相近，其执行时间也应相近的。因此在历史信息中找到与模型训练参数相近的信息，就可对其执行时间进行预测。

将模型的每个训练参数映射到多维空间的一维，则历史统计信息将映射为多维空间中的多个点。利用k近邻算法，可以找到离将要预测的模型参数最近的k个点，这k个点的信息就可代表模型的执行时间。

反向距离权重(Inverse Distance Weighted,IDW)插值算法的显式假设是彼此距离较近的事物比彼此距离较远的事物更相似。具有相近参数的模型，其执行时间也相近；与之相反，参数相差较大的两个模型之间的执行时间差异也较大。显然，模型的执行时间满足IDW插值算法的基本假设。利用k近邻算法找到k个参数相近的历史统计信息，使用如公式(1.1)所示的IDW插值方法就可以预测该模型的执行时间。其中：t_map(X)表示模型执行预测时间，k表示平面上有k个点，i＝1，2，3，…,k，w_i(X)表示这个点到i点的水平距离，t_i表示时间从1到k的加权平均，d(X,X_i)表示平面上的一个点的坐标。

步骤2：执行方案生成，利用上一步骤中预测的执行时间生成执行方案。在生成执行方案时，以调度单元作为最小任务，执行时间大于调度单元的模型则被分为多个调度单元分别进行调度。将计算任务分配到多个节点上并行执行。生成的执行方案的目的就是生成一个在最短时间内完成的方案。

在生成执行方案时，每个任务执行单元用四元组<ID,start,end,time>表示，其中ID为模型编号，time为执行时间预测。而start与end在执行方案生成时表示其数据文件的起始与结束位置。输入为生成执行方案的所有任务执行单元及集群任务并行数，输出为生成的执行方案。如果任务执行单元数量少于集群任务并行数时，直接为每个任务分配一个任务执行单元。如果任务执行单元数量大于集群任务并行数时，首先将任务执行单元按其预测执行时间进行降序排列，接着初始化用于存储当前每个任务所需处理执行单元总预测时间的数组，然后对于每个任务执行单元，将其分配给预测执行时间最小的任务，并更新所需处理执行单元时间数组。

步骤3：任务执行。根据生成的执行方案，启动一个Gaia作业来完成批量模型的并行训练。算子计算过程如图3所示。图2展示了任务执行实例。在该例中使用具有3个节点的集群完成4个模型的训练。依据模型训练预测的的时间将模型3拆分成两部分，模型4拆分成三部分。在任务执行时，模型1，模型2以及模型4的第一部分的训练样本发送至节点1，将模型3的第一部分训练样本与模型4的第二部分训练样本发送至节点2，模型3的第二部分训练样本与模型4的第三部分训练样本发送至节点3。

在完成模型训练后，可以得到任务执行的详细信息。对这些信息进行统计，可助于提高执行时间预测的准确性。

在Gaia系统中，算子的数据流具体流程如图3所示。模型执行拆分与合并的具体措施是对于每一个子模型，每个训练样本既可以用做训练样本也可以用做验证样本。首先输入训练样本

被放到缓存中，同时设置缓存计数器，并对缓存中的(X，T)进行分别计算，然后输出一个key/value对，其中key由子模型编号m、数据块编号k以及训练数据标签Train^Tag组成，value则有H和T组成。其中H为权重矩阵，T为训练数据标签矩阵。执行部分算法的伪代码如下：

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种多模型并行训练方法，其特征在于，步骤如下：

S1、利用历史统计信息，对模型训练的执行时间进行预测；

S4、收集任务执行信息并将其合并到历史统计信息中。

2.如权利要求1所述的多模型并行训练方法，其特征在于，步骤S1中，将模型的每个训练参数映射到多维空间的一维，历史统计信息将映射为多维空间中的多个点，利用k近邻算法，找到离将要预测的模型参数最近的k个点，这k个点的信息就可代表模型的执行时间。

3.如权利要求1所述的多模型并行训练方法，其特征在于，步骤S1中，利用k近邻算法找到k个参数相近的历史统计信息，使用下式得到该模型的执行时间：

4.如权利要求1所述的多模型并行训练方法，其特征在于，步骤S2中，每个任务执行单元用四元组<ID,start,end,time>表示，其中ID为模型编号，time为执行时间预测，而start与end在执行方案生成时表示其数据文件的起始与结束位置；

5.如权利要求1所述的多模型并行训练方法，其特征在于，步骤S3中，使用具有3个节点的集群完成4个模型的训练，依据模型训练预测的的时间将模型3拆分成两部分，模型4拆分成三部分；在任务执行时，模型1，模型2以及模型4的第一部分的训练样本发送至节点1，将模型3的第一部分训练样本与模型4的第二部分训练样本发送至节点2，模型3的第二部分训练样本与模型4的第三部分训练样本发送至节点3。