CN112990483B

CN112990483B - 一种基于概率性抽样的大规模边缘机器学习训练方法

Info

Publication number: CN112990483B
Application number: CN202110285186.XA
Authority: CN
Inventors: 赵健鑫; 韩锐; 刘驰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-11-08
Anticipated expiration: 2041-03-17
Also published as: CN112990483A

Abstract

本发明涉及一种基于概率性抽样的大规模边缘机器学习训练方法，所训练方法主要包括以下步骤：步骤1、在服务器设置训练模型和训练参数；步骤2、对每个设备做数据预处理并准备本地训练数据集；步骤3、针对每个设备上传本地训练得到的梯度参数，上传到服务器等；本发明所述学习训练方法的优越效果在于，能够有效地针对大规模的边缘设备进行训练，通过概率性采样，在判断同步的过程中不再受限于规模的大小，能够有效地增加训练系统的可扩展性，支持大规模的边缘训练，展示了本发明所述学习训练方法的简洁性和有效性。

Description

一种基于概率性抽样的大规模边缘机器学习训练方法

技术领域

本发明涉及大规模边缘机器学习技术领域，具体涉及一种基于概率性抽样的大规模边缘机器学习训练方法。

背景技术

随着边缘计算设备的普及，边缘机器学习技术支撑了大量智能应用中的数据获取和分析需求，边缘机器学习技术利用边缘设备在日常环境中收集大量的数据，并在智慧交通路况监管、个人化智能服务等问题上具有很高的实际应用价值。例如，在一个智慧城市交通系统中分布着大量高清摄像头用于获取实时数据，这些海量视频数据需要及时分析处理，用于更新边缘端部署的智能模型，并应用于不同的交通场景。另一个例子是广泛普及的手机中对输入法、语音服务等智能服务中，需要基于对大量个人数据分析学习后产生个人化的服务。这些边缘应用需要大规模的异构化数据，需要对用户端事件做出快速响应和学习，针对不同应用场景提供个人化的反馈，这些单靠传统的基于云端服务器的机器学习是很难达到理想结果的。

和其他机器学习技术一样，边缘机器学习中不同计算节点之间的同步方法是训练性能的关键之一。然而，在以边缘机器学习为核心的边缘智能计算技术中，一个重要的特点是系统中往往涉及大规模的、具有不同计算能力和通信能力的边缘设备。这为大规模边缘机器学习训练中的同步方法的设计带来了全新的挑战。如何快速、准确、经济地完成分布式机器学习的训练也成为了大规模边缘机器学习领域的研究热点。

但是当前的分布式机器学习的训练存在以下两个问题，第一，模型训练精度低，计算平台异构性降低了模型的精确性，而且节点之间不同的训练进度也同样为算法的收敛带来巨大的问题；第二，系统训练速度慢，计算节点的性能波动会减缓系统进度，系统进度将会受到滞后节点的严重影响。针对这一重要课题，已经有来自学术界和工业界的很多研究工作，但是并不能完全解决以上所提到的挑战。

针对模型精确性低的问题，在分布式训练中常用的方法是通过牺牲部分系统进度来获取模型进度。其中最基本的方法被称作整体同步并行(Bulk Synchronous Parallel，BSP)，在该方法中，所有的结点都需要等待所有其他的结点完成一个迭代的计算任务后，再在服务器中整合升级模型。这一方法提供了高模型精确度，但是却会收到延迟结点的严重影响，这一问题在大规模边缘计算网络中尤其明显。另一份代表性的研究工作是来自卡内基梅隆大学的研究团队提出的延迟同步并行(Stale Synchronous Parallel，SSP)方法，允许不同的结点之间的训练进度有一定限度内的差异。该方法相比BSP更加灵活，然而它依旧需要中央服务器的统一协调和频繁的通信，不能够扩展到大规模的网络。来自阿里巴巴的团队则从应用角度出发，解释了为什么现有的启发式训练方法对精度的影响小于预期(Parallel Restarted SGD with Faster Convergence and Less Communication:Demystifying Why Model Averaging Works for Deep Learning)。洛桑联邦理工学院的研究人员作出类似的证明(Local SGD converges fast and communicates little)，并基于此理论降低了不同节点之间的通信同步频度。然而，这也不能从根本上解决异构环境下训练精度降低的问题。

针对系统进度慢的问题，众多解决方案的核心思想是降低节点之间的同步要求。加州大学伯克利分校的研究者最早在Hogwild！系统中提出了异步并行(AsynchronousParallel，ASP)方法，可以显著提高分布式训练中随机梯度下降方法(StochasticGradient Descent)的系统进程。苏黎世联邦理工学院的研究团队基于类似思路在去中心化训练结构中提出了D-PSGD方法，也即是在每一个节点完成计算后，只需要和周围的若干邻居交换计算所得，就可以更新自身的模型。然而，该方法在最大化系统进程的同时，完全不同步的节点也引入了大量的错误，因此算法的收敛性往往不能保证，直接导致模型精度的降低。

发明内容

针对现有技术存在的缺陷，本发明提出了一种基于概率性抽样的大规模边缘机器学习训练方法。

本发明所述学习训练方法包括以下步骤：

步骤1、在服务器设置训练模型和训练参数；

步骤2、对于系统中的参与训练的大量边缘端设备，对每一个设备做数据预处理并准备本地训练数据集，从服务器获取最新的训练模型，选取回归模型、深度训练模型开始进行本地训练；

步骤3、在步骤2的基础上，针对每一个设备上传本地训练得到的梯度参数，上传到服务器，服务器根据在已经上传的梯度参数中以及在大规模的参与训练的设备中进行概率性抽样；

步骤4、根据概率性抽样的结果，服务器判断当前已经上传的梯度参数的设备是否已经达成同步：

步骤4.1、服务器判断当前已经上传梯度参数的设备达成同步，则进入步骤5；

步骤4.2、服务器判断当前已经上传梯度参数的设备未达成同步，则回到步骤3等待更多设备的上传；

步骤5、服务器将现有梯度参数加和并更新本地模型；更新本地模型使用固定的学习速率(learning rate)时，本地模型应减去学习速率和梯度参数加和的乘积；

步骤6、检验本地模型收敛性，即测试训练模型的准确度并记录，当连续多次测量结果保持稳定，则认为模型收敛，检验本地模型的结果为收敛，结束本地训练，检测本地模型的结果为不收敛，则返回到步骤2继续进行本地训练。

进一步地，在步骤1中，服务器位于云端，并基于参数服务器(Parameter Server，PS)分布式学习架构，通过如PyTorch或TensorFlow机器学习框架搭建。

进一步地，步骤1中，在服务器设置训练参数，设置训练参数包括机器学习速率方法的具体参数、采样大小、不同设备之间最大允许延迟数以及同步方法。

进一步地，步骤1中，服务器需要初始化机器学习训练模型，并初始化一个对于参与训练的每一个边缘计算设备的迭代数目计数器数列，其长度为参与训练的设备数目。

进一步地，在步骤2中，每一个设备在本地进行数据预处理，依据每一个设备的不同而进行数据预处理存在差异，包括去除无效数据、重复数据，将训练数据和数据标签(label)相对应的进行训练，设备需要向服务器发送请求，获取服务器当前最新的训练模型，然后基于本地数据进行训练。

进一步地，在步骤3中，每一个设备上传训练得到的梯度参数至服务器，以及服务器根据从已经上传梯度参数的参与设备中进行概率性采样，包括以下步骤：

步骤301、每一个设备完成一个迭代的训练，得到梯度参数作为计算结果，上传到服务器；

步骤302、服务器缓存收到的梯度参数结果以及对应的设备信息；

步骤303、服务器从目前的缓存区的参与设备中，进行概率性抽样，获得一个子集。

进一步地，步骤4所述的服务器判断当前已经上传梯度参数的设备是否已经达成同步，具体判断方法需根据服务器在步骤1中的训练参数设置而定，依据子集的同步与否作为判断参与上传梯度的所有设备是否同步作为依据；当同步方法设置为BSP，那么需要判断子集中的设备的训练迭代数目是否一致；当设置为SSP，则需要判断子集中的设备的训练迭代数目差异是否在控制范围内，控制范围由不同设备之间最大允许延迟数这一参数指定；这里迭代数目的依据为服务端的设备迭代数计数器信息。

进一步地，在步骤5中，服务器整合现有梯度参数以及更新本地模型是基于已经在步骤4中认定参与上传梯度的设备完成同步的前提，服务器首先将缓存区中的梯度数据求和，通过指定的学习速率方法，修改服务器端训练模型。

进一步地，在步骤5中，将本步骤中已上传梯度参数的设备在对应的计数器加1。

进一步地，在步骤5中，服务器每次经过一段时间会通过测试数据集检测模型的精度，并通过一系列连续测试之间模型精确度的差异来决定是否完成模型的训练；如未完成，则返回步骤2，继续由边缘设备获取服务器端的最新训练模型并开始计算。

本发明所述学习训练方法，具有以下有益效果：

1.本发明所述学习训练方法取得了最大化训练效率，所提出的概率采样并行方法相较已有方法BSP、SSP、ASP在性能上有显著提升，这里“训练效率”被定义为单位时间内训练模型的精确度的提升相较于BSP、SSP方法，不需要获取全局的信息，只需要进行小规模的采样就能保证模型的收敛，大大加快了训练的速度，同时也保证了模型的准确度；相较于ASP方法，本发明所述学习训练方法使用了确切的限制，使得节点之间的进度不至于太分散以至于不能保证收敛，在保证训练速度的同时也提升了训练的准确度。

2.本发明所述学习训练方法有效地针对大规模的边缘设备进行训练，通过概率性采样，在判断同步的过程中不再受限于规模的大小，能够有效地增加训练系统的可扩展性，支持大规模的边缘训练，这充分展示了本发明所述学习训练方法的简洁性和有效性。

3.本发明所述学习训练方法对于PSP在SGD应用领域中的收敛上界进行了理论推导以及证明，并且在多个机器学习任务应用场景下验证了本发明所述学习训练方法的有效性，包括图像识别、基于LDA(Latent Dirichlet Allocation)方法的主题建模(TopicModelling)，以及矩阵分解等等，也使用了MNIST，New York Times新闻文本库，新闻评分数据集MovieLens等数据集，与其他同步方法相比，本发明所述学习训练方法有效提高了分布式训练对于环境和数据变化的鲁棒性，能够广泛应用于机器学习模型训练的人物场景，比如联邦学习(Federated Learning)，具有显著的优势。

附图说明

图1为本发明所述一种基于概率性抽样的大规模边缘机器学习训练方法的步骤流程图。

图2为大规模边缘机器学习环境中概率性取样同步方法性能测试流程图。

图3为对大规模边缘网络中的训练结构示意图以及概率性分组示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图1-3对本发明所述学习训练方法的具体实施例作进一步的详细描述。

通过概率性节点选择，每个节点在分布式计算中的进度只决定于节点总体的某子集，从而在降低通信开销、提升系统整体进度的同时，保证计算精度只受到有限的影响。针对这一平衡取舍，为了量化地考察该方法对系统性能的影响，需要基于数学建模对概率性节点选择方法的收敛性的分析，本发明所述方法基于已有的同步方法的收敛性分析，对分布式系统中的不一致性(inconsistency)R[X]建立模型如下式所示：

在R[X]模型中：函数g_t表示特定时间下模型的推理(inference)，x^*表示针对理想的顺序执行状况下的结点计算信息序列，

则表示在当前同步方法下实际获取到的序列。通过证明和式两项之间的差异随着时间的增加而限制在一定范围内，由此来说明收敛性。

本发明所述方法将动态调节建模为优化问题，在这一模型中，已知的变量包括每个节点的资源、硬件加速器、软件计算平台、计算能力，还包括训练数据的处理、网络连接情况、所需要运行的计算任务等，每次计算任务都有种种限制，包括精确度，能耗，以及完成任务的时间限制，在此基础上，调节的变量为如何对总体进行分组、每个分组内的抽样大小，任务运行的模型精度、架构，最后，优化问题的目标是，在满足以上条件下，找到分组方案来最大化分布式计算任务的系统进度和模型的一致性，如图3所示。

下面参见图1，详细介绍本发明所述学习训练方法的具体操作步骤：

步骤1，在服务器设置训练模型和参数，服务器位于云端，并基于经典的“参数服务器”分布式学习架构搭建，该服务器需要有足够的内存和计算能力，这里需要设置的训练参数，包括机器学习速率方法的具体参数、采样大小、不同设备之间最大允许延迟数、以及同步方法，此外，服务器需要初始化机器学习模型和参数，并初始化一个对于所有参与的设备的迭代数目计数器数列，其长度为参与训练的设备的数目，服务器还需要准备用于测试模型精度的测试数据集；

步骤2，对于系统中的大规模设备，每一个设备做数据预处理，包括去除无效数据、重复数据，将训练数据和数据标签(label)作对应，以此准备本地训练数据集，在训练之前，设备需要向服务器发送请求，获取服务器当前最新的训练模型，然后基于本地数据进行模型训练；

步骤3，完成训练后，设备上传训练得到的梯度参数到服务器，然后服务器根据从已经上传梯度参数的大规模的参与设备中概率性采样；

步骤4、根据抽样结果，服务器判断当前已经上传梯度参数的设备是否已经达成同步具体判断方法，需要根据服务器在步骤1中的设置而定，在本步骤中，依据子集的同步与否作为判断参与上传梯度的所有设备是否同步作为依据，当同步方法设置为BSP，那么需要判断子集中的设备的训练迭代数目是否一致；当设同步方法设置为SSP，那么需要判断子集中的设备的训练迭代数目差异是否在一定范围内，范围由不同设备之间最大允许延迟数这一参数指定，这里迭代数目的依据为服务端的设备迭代数计数器信息，根据以上条件，服务器判断当前已经上传梯度参数的设备是否已经达成同步，如果是，进入步骤5，否则返回到步骤3，等待更多设备的上传；

步骤5，服务器首先将缓存区中的梯度数据加和，通过指定的学习速率方法，修改服务器端模型，并需要将这一步骤中已上传梯度参数的设备在对应的计数器加一。

步骤6、服务器端每次经过一段时间会通过测试数据集检测模型的精度，并通过一系列连续测试之间模型精确度的差异来决定是否完成模型的训练，没有完成，则返回步骤2，继续由边缘设备获取服务器端的最新训练模型并开始计算，直至结束训练过程。

进一步地，步骤1中，设置训练参数，训练参数包括机器学习速率方法的具体参数、采样大小、不同设备之间最大允许延迟数以及同步方法。

进一步地，在步骤3中，每一个设备上传训练得到的梯度参数至服务器以及服务器根据从已经上传梯度参数的参与设备中进行概率性采样，包括：

步骤301、每个设备完成一个迭代的训练，得到梯度参数作为计算结果，上传到服务器；

进一步地，步骤4所述的服务器判断当前已经上传梯度参数的设备是否已经达成同步，具体判断方法需要根据服务器在步骤1中的训练参数设置而定，依据子集的同步与否作为判断参与上传梯度的所有设备是否同步作为依据；当同步方法设置为BSP，那么需要判断子集中的设备的训练迭代数目是否一致；当设置为SSP，则需要判断子集中的设备的训练迭代数目差异是否在控制范围内，控制范围由不同设备之间最大允许延迟数这一参数指定；这里迭代数目的依据为服务端的设备迭代数计数器信息。

进一步地，在步骤5中，服务器每次经过一段时间将通过测试数据集检测模型的精度，并通过一系列连续测试之间模型精确度的差异来决定是否完成模型的训练；如未完成，那么返回步骤2，继续由边缘设备获取服务器端的最新训练模型并开始计算。

本发明并不限于上述实施方式，在不背离本发明实质内容的情况下，本领域技术人员可以想到的任何变形、改进、替换均落入本发明的保护范围。

Claims

1.一种基于概率性抽样的大规模边缘机器学习训练方法，其特征在于，所述学习训练方法，包括以下步骤：

步骤1、在服务器设置训练模型和训练参数；

步骤2、对于系统中的参与训练的大量边缘端设备，对每一个设备做数据预处理并准备本地训练数据集，从服务器获取最新的训练模型，所述训练模型包括回归模型、深度训练模型，开始进行本地训练；

步骤4.2、服务器判断当前已经上传梯度参数的设备没有达成同步，如果尚未同步则回到步骤3等待更多设备的上传；

所述的服务器判断当前已经上传梯度参数的设备是否已经达成同步，需要根据服务器在步骤1中的训练参数设置而定，依据子集的同步与否作为判断参与上传梯度的所有设备是否同步作为依据；当同步方法设置为BSP，那么需要判断子集中的设备的训练迭代数目是否一致；当设置为SSP，则需要判断子集中的设备的训练迭代数目差异是否在控制范围内，控制范围由不同设备之间最大允许延迟数这一参数指定；这里迭代数目的依据为服务端的设备迭代数计数器信息；

步骤5、服务器将现有梯度参数加和，并更新本地模型，更新本地模型使用固定的学习速率时，本地模型应减去学习速率和梯度参数加和的乘积；

服务器整合现有梯度参数以及更新本地模型是基于在步骤4中认定参与上传梯度的设备完成同步的前提，服务器首先将缓存区中的梯度数据求和，通过指定的学习速率方法，修改服务器端训练模型；

将本步骤中已上传梯度参数的设备在对应的计数器加1；

服务器每次经过一段时间会通过测试数据集检测模型的精度，并通过一系列连续测试之间模型精确度的差异来决定是否完成模型的训练；如未完成，那么返回步骤2，继续由边缘设备获取服务器端的最新训练模型并开始计算；

2.按照权利要求1所述学习训练方法，其特征在于，步骤1中，服务器位于云端，并基于参数服务器分布式学习架构，通过PyTorch或TensorFlow机器学习框架搭建。

3.按照权利要求1所述学习训练方法，其特征在于，步骤1中，设置训练参数，训练参数包括机器学习速率方法的具体参数、采样大小、不同设备之间最大允许延迟数以及同步方法。

4.按照权利要求1所述学习训练方法，其特征在于，步骤1中，服务器需要初始化机器学习训练模型，并初始化一个对于参与训练的每一个边缘计算设备的迭代数目计数器数列，其长度为参与训练的设备数目。

5.按照权利要求1所述学习训练方法，其特征在于，步骤2中，每一个设备在本地进行数据预处理，依据每一个设备的不同而进行数据预处理存在差异，包括去除无效数据、重复数据，将训练数据和数据标签相对应的进行训练，设备需要向服务器发送请求，获取服务器当前最新的训练模型，然后基于本地数据进行训练。

6.按照权利要求1所述学习训练方法，其特征在于，步骤3中，每一个设备上传训练得到的梯度参数至服务器以及服务器根据从已经上传梯度参数的参与设备中进行概率性采样，包括以下步骤：