CN115633031A

CN115633031A - 一种启发式指导的异步历史优化方法及相关设备

Info

Publication number: CN115633031A
Application number: CN202211082723.1A
Authority: CN
Inventors: 任一铭; 任智祥; 田永鸿; 高文
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2023-01-20
Anticipated expiration: 2042-09-06
Also published as: CN115633031B

Abstract

本发明公开了一种启发式指导的异步历史优化方法及相关设备，所述方法包括：获取集群控制节点和工作节点，控制所述集群控制节点对模型的参数及计算图进行初始化，并将初始化后的数据发送至所述工作节点；控制所述工作节点对所述数据进行训练，通过训练得到的状态表记录信息，并控制所述工作节点将所述状态表发送至所述集群控制节点；在所述集群控制节点接收所述状态表后，控制所述集群控制节点异步进行所述计算图的更新和所述工作节点的参数优化。本发明通过集群控制节点不断整合多轮迭代中各工作节点的状态表并加以存储，通过不断更新计算图使得整个系统效率最优化，并通过还原历史梯度以辅助工作节点更新参数，以提高整个系统的精度。

Description

一种启发式指导的异步历史优化方法及相关设备

技术领域

本发明涉及计算机科学领域，尤其涉及一种启发式指导的异步历史优化方法、系统、终端及计算机可读存储介质。

背景技术

近年来，分布式优化方法常用于解决现代大规模机器学习问题，而处理庞大数据集的挑战导致了具有异步性和历史性优化方法的发展；异步优化方法减少了工作节点的空闲时间及降低了通信成本，对梯度历史的操作会增强系统随机性以加快收敛；然而当前的批处理云系统无法同时对异步和历史机制提供强大支持，例如，经典分布式数据处理系统Hadoop和Spark基于迭代map-reduce实现，仅使用同步迭代式通信模式；由于不支持异步，执行过程中经常由于掉队节点和网络延迟造成性能损失，同时巨量的存储开销导致这些系统无法有效维护历史记录，这会降低系统的容错性，减缓收敛；另一方面，一些分布式机器学习引擎如Petuum，Litz等基于参数服务器拓扑实现，虽支持异步优化，但对于大规模集群，于工作节点存储历史梯度的方式将带来巨量的开销，严重影响系统性能。

深度神经网络通过优化由底层算子组成的计算图实现模型训练，然而现有技术中是基于贪心规则的图形优化，通常只考虑严格提高运行时性能的转换，这种“严格最优”的指导思路会使深度学习框架困在非常有限的搜索空间，大幅延长求解时间，并带来了大量的计算成本，同时对于最优化问题，始终以严格最优为指导往往会陷入局部最优的困境，使模型无法达到全局收敛。

因此，现有技术还有待于改进和发展。

发明内容

本发明的主要目的在于提供一种启发式指导的异步历史优化方法及相关设备，旨在解决现有技术中在实现系统异步计算的模型收敛速度慢及工作节点存储历史梯度方式差导致计算性能低的问题。

为实现上述目的，本发明提供一种启发式指导的异步历史优化方法，所述启发式指导的异步历史优化方法包括如下步骤：

获取集群控制节点和工作节点，控制所述集群控制节点对模型的参数及计算图进行初始化，并将初始化后的数据发送至所述工作节点；

控制所述工作节点对所述数据进行训练，通过训练得到的状态表记录信息，并控制所述工作节点将所述状态表发送至所述集群控制节点；

在所述集群控制节点接收所述状态表后，控制所述集群控制节点异步进行所述计算图的更新和所述工作节点的参数优化；

当所述集群控制节点更新计算图时，控制所述集群控制节点基于所述状态表中的梯度对本轮迭代的参数进行更新，将更新后的参数作为历史参数以迭代次数为序号存储至所述集群控制节点，并基于所述状态表中的负载状况更新所述计算图；

当所述集群控制节点优化所述工作节点的参数时，将所述工作节点的负载所对应的历史参数发送至所述工作节点，控制所述工作节点将所述历史参数进行处理得到最新梯度，并将所述最新梯度发送至所述集群控制节点以完成所述模型的更新。

可选地，所述的启发式指导的异步历史优化方法，其中，所述获取集群控制节点和工作节点，控制所述集群控制节点对模型的参数及计算图进行初始化，并将初始化后的数据发送至所述工作节点，具体包括：

基于参数服务器拓扑结构，将集群分为集群控制节点和工作节点；

控制所述集群控制节点初始化模型的参数和所述工作节点执行的任务与负载情况，并通过模型并行方式将初始化后的数据发送至所述工作节点。

可选地，所述的启发式指导的异步历史优化方法，其中，所述控制所述工作节点对所述数据进行训练，通过训练得到的状态表记录信息，并控制所述工作节点将所述状态表发送至所述集群控制节点，具体包括：

当所述工作节点接收所述数据时，控制所述工作节点将所述数据进行切片得到目标数据；

将所述目标数据进行训练得到状态表，基于所述状态表记录训练完成的信息，并控制所述工作节点将所述状态表发送至所述集群控制节点。

可选地，所述的启发式指导的异步历史优化方法，其中，所述控制所述工作节点将所述状态表发送至所述集群控制节点，之后还包括：

预先设置所述工作节点的最快与最慢的迭代轮数差值的阈值；

在每个工作节点上设置计时器，基于所述计时器记录当前的迭代轮数至所述状态表中，并控制所述集群控制节点基于所述状态表监控每个工作节点的迭代轮数；

若监控到工作节点的最快与最慢的迭代轮数差值达到阈值时，则控制迭代轮数最多的工作节点进入等待状态，并暂停所述工作节点的参数更新。

可选地，所述的启发式指导的异步历史优化方法，其中，所述信息包括每个工作节点的迭代轮数、梯度、工作节点的损失值、数据批量大小、平均任务完成时间、工作节点负载状态和最快轮数间的距离。

可选地，所述的启发式指导的异步历史优化方法，其中，所述当所述集群控制节点更新计算图时，控制所述集群控制节点基于所述状态表中的梯度对本轮迭代的参数进行更新，将更新后的参数作为历史参数以迭代次数为序号存储至所述集群控制节点，并基于所述状态表中的负载状况更新所述计算图，具体包括：

当所述集群控制节点更新计算图时，控制所述集群控制节点根据所述状态表中的梯度更新迭代的参数，并将所述参数对应的参数信息与损失值信息以迭代次数为序号存储至所述集群控制节点；

基于所述状态表调用原始计算图，使用最小割算法对所述原始计算图进行切割，得到多种候选子图；

控制所述集群控制节点根据所述状态表中工作节点负载状态、数据批量大小及平均任务完成时间分别计算出所述候选子图的算子COST，并对所述算子COST进行融合以完成计算图的更新。

可选地，所述的启发式指导的异步历史优化方法，其中，所述对所述算子COST进行融合以完成计算图的更新，之前还包括：

基于模拟退火算法公式判断所述候选子图的算子COST是否小于所述原始计算图的算子COST；

若小于所述原始计算图的算子COST，则接受所述候选子图的算子COST；

若不小于所述原始计算图的算子COST，则重新生成所述候选子图的算子COST。

可选地，所述模拟退火算法公式为：

其中，P代表概率，n代表迭代轮数，T代表温度，E(n)代表子图cost。

可选地，所述集群控制节点优化所述工作节点的参数时，将所述工作节点的负载所对应的历史参数发送至所述工作节点，控制所述工作节点将所述历史参数进行处理得到最新梯度，并将所述最新梯度发送至所述集群控制节点以完成所述模型的更新，具体包括：

当所述集群控制节点优化所述工作节点的参数时，将所述工作节点的负载所对应的历史参数发送至所述工作节点时，控制所述工作节点使用SVRG算法初始化数据样本的参数并计算所述数据样本的全局梯度；

当将所述参数设定为内循环的第一批参数时，启动内循环，并基于所述全局梯度计算出第i_j个损失函数的梯度，其中，所述i_j为0到k的自然数；

将所述参数反向还原为历史梯度，对所述历史梯度与所述梯度进行平均计算得到最新梯度，并将所述最新梯度发送至所述集群控制节点以完成所述模型的更新。

可选地，所述的启发式指导的异步历史优化方法，其中，所述SVRG算法为：

其中，

表示当前迭代的梯度关于全局梯度的偏差，

表示数据样本的全局梯度，w_k表示数据样本的参数，

表示内循环第j批参数，

表示梯度，n代表迭代轮数。

此外，为实现上述目的，本发明还提供一种启发式指导的异步历史优化系统，其中，所述启发式指导的异步历史优化系统包括：

初始化模块，用于获取集群控制节点和工作节点，控制所述集群控制节点对模型的参数及计算图进行初始化，并将初始化后的数据发送至所述工作节点；

数据训练模块，用于控制所述工作节点对所述数据进行训练，通过训练得到的状态表记录信息，并控制所述工作节点将所述状态表发送至所述集群控制节点；

更新优化模块，用于在所述集群控制节点接收所述状态表后，控制所述集群控制节点异步进行所述计算图的更新和所述工作节点的参数优化；

计算图更新模块，用于当所述集群控制节点更新计算图时，控制所述集群控制节点基于所述状态表中的梯度对本轮迭代的参数进行更新，将更新后的参数作为历史参数以迭代次数为序号存储至所述集群控制节点，并基于所述状态表中的负载状况更新所述计算图；

模型更新模块，用于当所述集群控制节点优化所述工作节点的参数时，将所述工作节点的负载所对应的历史参数发送至所述工作节点，控制所述工作节点将所述历史参数进行处理得到最新梯度，并将所述最新梯度发送至所述集群控制节点以完成所述模型的更新。

此外，为实现上述目的，本发明还提供一种终端，其中，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的启发式指导的异步历史优化程序，所述启发式指导的异步历史优化程序被所述处理器执行时实现如上所述的启发式指导的异步历史优化方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有启发式指导的异步历史优化程序，所述启发式指导的异步历史优化程序被处理器执行时实现如上所述的启发式指导的异步历史优化方法的步骤。

本发明中，获取集群控制节点和工作节点，控制所述集群控制节点对模型的参数及计算图进行初始化，并将初始化后的数据发送至所述工作节点；控制所述工作节点对所述数据进行训练，通过训练得到的状态表记录信息，并控制所述工作节点将所述状态表发送至所述集群控制节点；在所述集群控制节点接收所述状态表后，控制所述集群控制节点异步进行所述计算图的更新和所述工作节点的参数优化；当所述集群控制节点更新计算图时，控制所述集群控制节点基于所述状态表中的梯度对本轮迭代的参数进行更新，将更新后的参数作为历史参数以迭代次数为序号存储至所述集群控制节点，并基于所述状态表中的负载状况更新所述计算图；当所述集群控制节点优化所述工作节点的参数时，将所述工作节点的负载所对应的历史参数发送至所述工作节点，控制所述工作节点将所述历史参数进行处理得到最新梯度，并将所述最新梯度发送至所述集群控制节点以完成所述模型的更新。本发明通过使用延时同步算法+参数服务器架构的方式，实现了批处理云系统的异步优化，同时适配传统大规模数据处理与分布式模型训练的需求；通过使用master节点存储历史参数，当worker进行训练时，调用梯度还原算法，依据master部分历史参数还原梯度，大幅削减存储开销，实现批处理云系统的高性能历史优化；在计算图优化，为传统计算图优化方法引入松弛边界，扩展可行域，降低计算开销。同时，为启发条件添加随机过程避免陷入局部最优的困境，使计算图更易获得全局最优解。

附图说明

图1是本发明中启发式指导的异步历史优化方法的较佳实施例的流程图；

图2是本发明中启发式指导的异步历史优化方法的较佳实施例中步骤S10的流程图；

图3是本发明中启发式指导的异步历史优化方法的较佳实施例中步骤S20的流程图；

图4是本发明中启发式指导的异步历史优化方法的较佳实施例中延时同步算法示意图；

图5是本发明中启发式指导的异步历史优化方法的较佳实施例中步骤S31的流程图；

图6是本发明中启发式指导的异步历史优化方法的较佳实施例中计算图优化的示意图；

图7是本发明中启发式指导的异步历史优化方法的较佳实施例中步骤S32的流程图；

图8是本发明中启发式指导的异步历史优化方法的较佳实施例中SVRG算法伪代码的示意图；

图9是本发明中启发式指导的异步历史优化方法的较佳实施例中整体系统架构的示意图；

图10是本发明中启发式指导的异步历史优化系统的较佳实施例的原理示意图；

图11为本发明终端的较佳实施例的运行环境示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明较佳实施例所述的启发式指导的异步历史优化方法，如图1所示，所述启发式指导的异步历史优化方法包括以下步骤：

步骤S10、获取集群控制节点和工作节点，控制所述集群控制节点对模型的参数及计算图进行初始化，并将初始化后的数据发送至所述工作节点。

具体的过程请参阅图2，其为本发明提供的启发式指导的异步历史优化方法中步骤S10的流程图。

如图2所示，所述步骤S10包括：

步骤S11、基于参数服务器拓扑结构，将集群分为集群控制节点和工作节点；

步骤S12、控制所述集群控制节点初始化模型的参数和所述工作节点执行的任务与负载情况，并通过模型并行方式将初始化后的数据发送至所述工作节点。

具体地，在本发明实施例中，以通用模型训练为例，启发式指导的异步历史优化系统基于参数服务器拓扑结构，将集群分为用于管理及存放完整模型的集群控制节点(Master节点)，及负责计算和任务执行的工作节点(worker节点)；所述Master节点初始化模型的参数及计算图，所述计算图上的点为worker节点，包含执行的任务(模型参数信息与数据大小)与负载情况，通过模型并行方式将对应参数分发于所述worker节点；通过使用延时同步算法+参数服务器架构的方式，不仅实现了批处理云系统的异步优化，还可同时适配传统大规模数据处理与分布式模型训练的需求。

步骤S20、控制所述工作节点对所述数据进行训练，通过训练得到的状态表记录信息，并控制所述工作节点将所述状态表发送至所述集群控制节点。

具体的过程请参阅图3，其为本发明提供的启发式指导的异步历史优化方法中步骤S20的流程图。

如图3所示，所述步骤S20包括：

步骤S21、当所述工作节点接收所述数据时，控制所述工作节点将所述数据进行切片得到目标数据；

步骤S22、将所述目标数据进行训练得到状态表，基于所述状态表记录训练完成的信息，并控制所述工作节点将所述状态表发送至所述集群控制节点。

具体地，当所述worker节点接收所述数据时，所述worker节点各自加载数据切片，因为模型训练需要加载训练数据，在数据量过大时需要将数据切片，切片后使得每张卡只需跑一部分数据；执行初始训练计算梯度，在训练结束后生成状态表，通过所述状态表去记录信息，所述信息包括当前迭代轮次数、计算结果(梯度及worker在本轮迭代的损失)、数据批量大小、平均任务完成时间、worker负载状态与最快轮次间距离等，所述worker节点将所述状态表发送至所述Master节点。

进一步地，基于延时同步算法，在每个worker节点上设置一个计时器，记录当前到了第几轮迭代，预先设置所述worker节点的最快与最慢的迭代轮数差值的阈值s(例如，3次)，并且最快与最慢的worker节点间迭代轮次不得超过阈值s，若迭代轮次差值达到阈值s，则最快的worker节点必须进入等待状态，此时，所述Master节点根据获取的worker节点发送的状态表统计及监控各个worker节点的迭代轮次，若有worker节点达到迭代阈值s，则将该worker节点的参数更新状态设为false，并将该worker节点进入等待状态，以暂停该worker节点的参数更新，如图4所示，存在4个worker节点，分别为worker1节点、worker2节点、worker3节点和worker4节点，设置所述worker节点的最大延时区间为3次，所述worker1节点的迭代轮次为4次、所述worker2节点的迭代轮次为1次、所述worker3节点的迭代轮次为2次和所述worker4节点的迭代轮次为3次，此时，所述worker1与所述worker2的迭代轮次差值已经达到最大延时区间3次，因此，将所述worker1节点的参数更新状态设为false，并将所述worker1节点进入等待状态，以暂停所述worker1节点的参数更新；通过使用延时同步算法实现批处理云系统的异步执行，并为每个工作节点的迭代次数设置阈值，缩短节点间参数差距，在实现系统异步优化的同时，降低系统噪声，加快收敛。

步骤S30、在所述集群控制节点接收所述状态表后，控制所述集群控制节点异步进行所述计算图的更新和所述工作节点的参数优化。

具体地，在所述Master节点接收所述状态表后，控制所述Master节点异步进行所述计算图的更新和所述worker节点的参数优化；更新计算图后调整各worker节点的任务，使得整个系统效率最优化，提高了训练效率；所述worker节点的参数优化通过历史梯度还原是为了提升精度，二者异步执行从不同角度优化系统。

步骤S31、当所述集群控制节点更新计算图时，控制所述集群控制节点基于所述状态表中的梯度对本轮迭代的参数进行更新，将更新后的参数作为历史参数以迭代次数为序号存储至所述集群控制节点，并基于所述状态表中的负载状况更新所述计算图。

具体的过程请参阅图5，其为本发明提供的启发式指导的异步历史优化方法中步骤S31的流程图。

如图5所示，所述步骤S31包括：

步骤S311、当所述集群控制节点更新计算图时，控制所述集群控制节点根据所述状态表中的梯度更新迭代的参数，并将所述参数对应的参数信息与损失值信息以迭代次数为序号存储至所述集群控制节点；

步骤S312、基于所述状态表调用原始计算图，使用最小割算法对所述原始计算图进行切割，得到多种候选子图；

步骤S313、控制所述集群控制节点根据所述状态表中工作节点负载状态、数据批量大小及平均任务完成时间分别计算出所述候选子图的算子COST，并对所述算子COST进行融合以完成计算图的更新。

具体地，当worker节点依据最快与最慢的worker节点间迭代轮次不得超过阈值s的规则向Master节点发送包含当前梯度值的状态表时，所述Master节点根据当前状态表中的梯度进行当前迭代的参数更新，并以迭代次数为index(序号，以迭代次数为序号存储参数信息，且存储格式为迭代轮次数(index)：参数信息)存储对应的参数信息与损失值信息至所述集群控制节点；为Master节点每轮迭代可接收worker节点的信息数设置阈值，当达到阈值将直接进入下轮迭代，并更新计算图；传统的计算图更新方法是基于贪心算法指导，然而此基于贪心算法指导会导致可行域过度收缩，系统求解困难，计算量提升，而在本申请的实施例中使用的是基于模拟退火算法的元启发式条件为传统“严格最优”引入随机过程，进而使可行域边界松弛化，具体基于模拟退火算法的公式如下：

其中，P代表模拟退火概率参数，n代表迭代轮数，T代表温度，E(n)代表子图cost；具体的计算图更新步骤(计算图切分方案)如图6所示，首先使用min-cut算法(最小割算法)将当前输入的原始计算图进行切割，切割完成后随机生成多种子图算、子融合方案(例如，将一个3x3x512卷积核切割为两个3x3x256卷积，建立候选子图集)，Master节点将状态表中节点负载，数据批量大小及平均完成时间乘以对应权重再进行相加分别计算出候选子图中算子COST(算子COST即每个worker节点的COST，用以衡量worker节点的计算能力，一般根据节点负载(参数量)，数据量，平均完成时间综合判定，即该worker节点针对当前任务处理k个数据集所需要的时间可直接衡量节点的计算能力)，以完成候选子图的优化，在完成优化后对所述算子COST进行融合以完成计算图的更新；通过使用元启发式驱动的计算图更新方法，引入模拟退火概率参数，随机接受低效解，拓展了候选计算图的可行域，回避局部最优的困境，大幅降低计算开销，并使系统更易获取全局最优的计算图方案，保证系统全流程的高性能执行，使得整个系统效率最优化，提高了训练效率。

进一步地，基于模拟退火算法遍历子图集，若所述候选子图的算子COST小于所述原始计算图的算子COST，则接受最佳的候选解，若所述候选子图的算子COST不小于所述原始计算图的算子COST，即Cost_next≥P*Cost_original，其中，Cost_next指下一步的算子COST，Cost_original为当前的COST，P为概率，则以概率P随机接受非最佳的候选解，并为新子图重新生成候选解添加至子图集，设置迭代阈值，取切割子图的最优方案进行组合，生成本轮计算图的全局最优解。

进一步地，在本发明实施例中的计算图优化不仅可以基于模拟退火算法实现，还可以基于LNS、禁忌搜索、粒子群算法等算法，均可在不同角度实现类似的效果。

步骤S32、当所述集群控制节点优化所述工作节点的参数时，将所述工作节点的负载所对应的历史参数发送至所述工作节点，控制所述工作节点将所述历史参数进行处理得到最新梯度，并将所述最新梯度发送至所述集群控制节点以完成所述模型的更新。

具体的过程请参阅图7，其为本发明提供的启发式指导的异步历史优化方法中步骤S32的流程图。

如图7所示，所述步骤S32包括：

步骤S321、当所述集群控制节点优化所述工作节点的参数时，将所述工作节点的负载所对应的历史参数发送至所述工作节点时，控制所述工作节点使用SVRG算法初始化数据样本的参数并计算所述数据样本的全局梯度；

步骤S322、当将所述参数设定为内循环的第一批参数时，启动内循环，并基于所述全局梯度计算出第i_j个损失函数的梯度，其中，所述i_j为0到k的自然数；

步骤S323、将所述参数反向还原为历史梯度，对所述历史梯度与所述梯度进行平均计算得到最新梯度，并将所述最新梯度发送至所述集群控制节点以完成所述模型的更新。

具体地，Master节点根据新计算图将t轮迭代中的历史参数与损失值分发至worker节点，所述worker节点使用SVRG算法以更新参数，如图8中所述SVRG算法的伪代码，可得到所述SVRG算法：

其中，

表示代表当前迭代的梯度关于全局梯度的偏差，

表示数据样本的全局梯度，w_k表示数据样本的参数，

表示内循环第j批参数，

表示梯度，n代表迭代轮数，所述SVRG算法不同于传统的SGD算法需要反复计算多个样本平均的全局梯度以更新参数，仅计算一次全局梯度后，计算局部样本梯度与当前全局梯度间的偏差，并使用此偏差更新参数；具体流程为首先初始化某一批(batch)数据的参数w_k，计算该批数据样本的全局梯度

定义所述参数w_k为内循环第一批参数

，开始进行内循环，随即在数值1到k(预定义数据批数量)中选取一个为i_j，使用

计算第i_j个损失函数关于

参数的梯度及

使用

计算得到

的下一步参数，反复迭代预设次，最终获得的

即为本轮w_k的更新后的参数；将未更新的历史参数反向还原为历史梯度，并对历史梯度和当前梯度进行平均得到最新梯度，并将所述最新梯度发送至Master节点进行模型更新，重复上述操作直至系统全局收敛；在历史参数优化方面，摒弃传统系统使用worker节点存储历史梯度的方式，而是只使用Master节点存储历史参数，并通过梯度还原算法在worker节点上逆向计算历史梯度实现模型更新，将系统存储开销降低80％以上，实现批处理云系统的高性能历史优化，提升了整个系统的精度。

进一步地，所述worker节点还可以使用SVG算法和SAGA算法来更新参数，而所述SAG算法为

其中W^k表示需要更新的参数，α表示常数，n为样本数，k为数据批数，

表示上一轮迭代求得的第i个样本梯度；所述SAGA算法为

其中，g_k表示当前迭代轮次梯度与全局梯度间偏差，

表示数据样本的全局梯度，w_k表示数据样本的参数，w_[j]表示第j参数，w_[i]表示第i参数，

表示梯度，n代表样本数。

进一步地，如图9所示，首先初始化系统集群中各节点的任务分配与计算图信息，根据初始计算图在各个worker节点完成初始训练，并生成状态表；由于系统训练需要进行多轮迭代反复整合worker的参数信息，因此在完成初始训练后调用异步参数收发模块，使Master节点基于延时同步算法不断整合多轮迭代中各worker节点的状态表并加以存储；Master节点获取状态表后，一方面根据获取到各worker状态表信息中的节点状态，通过元启发式算法寻求最优算子分配方案，重新生成计算图以完成计算图的更新，并基于更新后的计算图分配参数与节点以调整各worker节点的任务，使得整个系统效率最优化，达到降低了计算成本的同时提高收敛速度；另一方面，到达一定轮次的迭代后，Master节点会将存储的历史参数信息发送至worker节点进行历史梯度还原，辅助worker节点进行参数更新，以提高整个系统的精度，由于历史参数仅存储于Master节点，消除了传统系统工作节点的存储成本，大幅提升计算性能；整个系统在完成初始化后，其他三个模块全程保持异步并发执行使全系统效率最大化。

进一步地，如图10所示，基于上述启发式指导的异步历史优化方法，本发明还相应提供了一种启发式指导的异步历史优化系统，其中，所述启发式指导的异步历史优化系统包括：

初始化模块51，用于获取集群控制节点和工作节点，控制所述集群控制节点对模型的参数及计算图进行初始化，并将初始化后的数据发送至所述工作节点；

数据训练模块52，用于控制所述工作节点对所述数据进行训练，通过训练得到的状态表记录信息，并控制所述工作节点将所述状态表发送至所述集群控制节点；

更新优化模块53，用于在所述集群控制节点接收所述状态表后，控制所述集群控制节点异步进行所述计算图的更新和所述工作节点的参数优化；

计算图更新模块54，用于当所述集群控制节点更新计算图时，控制所述集群控制节点基于所述状态表中的梯度对本轮迭代的参数进行更新，将更新后的参数作为历史参数以迭代次数为序号存储至所述集群控制节点，并基于所述状态表中的负载状况更新所述计算图；

模型更新模块55，用于当所述集群控制节点优化所述工作节点的参数时，将所述工作节点的负载所对应的历史参数发送至所述工作节点，控制所述工作节点将所述历史参数进行处理得到最新梯度，并将所述最新梯度发送至所述集群控制节点以完成所述模型的更新。

进一步地，如图11所示，基于上述启发式指导的异步历史优化方法和系统，本发明还相应提供了一种终端，所述终端包括处理器10、存储器20及显示器30。图11仅示出了终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述终端的内部存储单元，例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据，例如所述安装终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有启发式指导的异步历史优化程序40，该启发式指导的异步历史优化程序40可被处理器10所执行，从而实现本申请中启发式指导的异步历史优化方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述启发式指导的异步历史优化方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述终端的信息以及用于显示可视化的用户界面。所述终端的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中启发式指导的异步历史优化程序40时实现以下步骤：

其中，所述获取集群控制节点和工作节点，控制所述集群控制节点对模型的参数及计算图进行初始化，并将初始化后的数据发送至所述工作节点，具体包括：

其中，所述控制所述工作节点对所述数据进行训练，通过训练得到的状态表记录信息，并控制所述工作节点将所述状态表发送至所述集群控制节点，具体包括：

其中，所述控制所述工作节点将所述状态表发送至所述集群控制节点，之后还包括：

其中，所述信息包括每个工作节点的迭代轮数、梯度、工作节点的损失值、数据批量大小、平均任务完成时间、工作节点负载状态和最快轮数间的距离。

其中，所述当所述集群控制节点更新计算图时，控制所述集群控制节点基于所述状态表中的梯度对本轮迭代的参数进行更新，将更新后的参数作为历史参数以迭代次数为序号存储至所述集群控制节点，并基于所述状态表中的负载状况更新所述计算图，具体包括：

其中，所述对所述算子COST进行融合以完成计算图的更新，之前还包括：

其中，所述模拟退火算法公式为：

其中，所述当所述集群控制节点优化所述工作节点的参数时，将所述工作节点的负载所对应的历史参数发送至所述工作节点，控制所述工作节点将所述历史参数进行处理得到最新梯度，并将所述最新梯度发送至所述集群控制节点以完成所述模型的更新，具体包括：

其中，所述SVRG算法为：

其中，

表示当前迭代的梯度关于全局梯度的偏差，

表示数据样本的全局梯度，w_k表示数据样本的参数，

表示内循环第j批参数，

表示梯度，n代表迭代轮数。

本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有启发式指导的异步历史优化程序，所述启发式指导的异步历史优化程序被处理器执行时实现如上所述的启发式指导的异步历史优化方法的步骤。

综上所述，本发明提供一种启发式指导的异步历史优化方法及相关设备，所述方法包括：获取集群控制节点和工作节点，控制所述集群控制节点对模型的参数及计算图进行初始化，并将初始化后的数据发送至所述工作节点；控制所述工作节点对所述数据进行训练，通过训练得到的状态表记录信息，并控制所述工作节点将所述状态表发送至所述集群控制节点；在所述集群控制节点接收所述状态表后，控制所述集群控制节点异步进行所述计算图的更新和所述工作节点的参数优化；当所述集群控制节点更新计算图时，控制所述集群控制节点基于所述状态表中的梯度对本轮迭代的参数进行更新，将更新后的参数作为历史参数以迭代次数为序号存储至所述集群控制节点，并基于所述状态表中的负载状况更新所述计算图；当所述集群控制节点优化所述工作节点的参数时，将所述工作节点的负载所对应的历史参数发送至所述工作节点，控制所述工作节点将所述历史参数进行处理得到最新梯度，并将所述最新梯度发送至所述集群控制节点以完成所述模型的更新。本发明通过集群控制节点不断整合多轮迭代中各工作节点的状态表并加以存储，通过不断更新计算图使得整个系统效率最优化，并通过还原历史梯度以辅助工作节点更新参数，以提高整个系统的精度。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的计算机可读存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种启发式指导的异步历史优化方法，其特征在于，所述启发式指导的异步历史优化方法包括：

2.根据权利要求1所述的启发式指导的异步历史优化方法，其特征在于，所述获取集群控制节点和工作节点，控制所述集群控制节点对模型的参数及计算图进行初始化，并将初始化后的数据发送至所述工作节点，具体包括：

3.根据权利要求1所述的启发式指导的异步历史优化方法，其特征在于，所述控制所述工作节点对所述数据进行训练，通过训练得到的状态表记录信息，并控制所述工作节点将所述状态表发送至所述集群控制节点，具体包括：

4.根据权利要求3所述的启发式指导的异步历史优化方法，其特征在于，所述控制所述工作节点将所述状态表发送至所述集群控制节点，之后还包括：

5.根据权利要求3所述的启发式指导的异步历史优化方法，其特征在于，所述信息包括每个工作节点的迭代轮数、梯度、工作节点的损失值、数据批量大小、平均任务完成时间、工作节点负载状态和最快轮数间的距离。

6.根据权利要求1所述的启发式指导的异步历史优化方法，其特征在于，所述当所述集群控制节点更新计算图时，控制所述集群控制节点基于所述状态表中的梯度对本轮迭代的参数进行更新，将更新后的参数作为历史参数以迭代次数为序号存储至所述集群控制节点，并基于所述状态表中的负载状况更新所述计算图，具体包括：

当所述集群控制节点更新计算图时，控制所述集群控制节点根据所述状态表中的梯度更新本轮迭代的参数，并将所述参数对应的参数信息与损失值信息以迭代次数为序号存储至所述集群控制节点；

7.根据权利要求6所述的启发式指导的异步历史优化方法，其特征在于，所述对所述算子COST进行融合以完成计算图的更新，之前还包括：

8.根据权利要求7所述的启发式指导的异步历史优化方法，其特征在于，所述模拟退火算法公式为：

9.根据权利要求1所述的启发式指导的异步历史优化方法，其特征在于，所述当所述集群控制节点优化所述工作节点的参数时，将所述工作节点的负载所对应的历史参数发送至所述工作节点，控制所述工作节点将所述历史参数进行处理得到最新梯度，并将所述最新梯度发送至所述集群控制节点以完成所述模型的更新，具体包括：

10.根据权利要求9所述的启发式指导的异步历史优化方法，其特征在于，所述SVRG算法为：

其中，

表示当前迭代的梯度关于全局梯度的偏差，

表示数据样本的全局梯度，w_k表示数据样本的参数，

表示内循环第j批参数，

表示梯度，n代表迭代轮数。

11.一种启发式指导的异步历史优化系统，其特征在于，所述启发式指导的异步历史优化系统包括：

12.一种终端，其特征在于，所述终端包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的启发式指导的异步历史优化程序，所述启发式指导的异步历史优化程序被所述处理器执行时实现如权利要求1-10任意一项所述启发式指导的异步历史优化方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行实现如权利要求1-10任意一项所述启发式指导的异步历史优化方法的步骤。