CN110990155A

CN110990155A - 一种面向大规模安全监控的参数通信方法

Info

Publication number: CN110990155A
Application number: CN201911197625.0A
Authority: CN
Inventors: 张纪林; 阳瑞; 袁俊峰; 陈军相; 万健; 张俊聪; 魏振国
Original assignee: Hangzhou University Of Electronic Science And Technology Zhoushan Tongbo Marine Electronic Information Research Institute Co Ltd; Zhejiang Shuguang Information Technology Co ltd; Hangzhou Dianzi University
Current assignee: Hangzhou University Of Electronic Science And Technology Zhoushan Tongbo Marine Electronic Information Research Institute Co Ltd; Zhejiang Shuguang Information Technology Co ltd; Hangzhou Dianzi University
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-10
Anticipated expiration: 2039-11-29
Also published as: CN110990155B

Abstract

本发明公开了一种面向大规模安全监控的参数通信方法。本发明首先利用监控图片作为数据集，采用多节点集群组成参数服务器系统，其中一个节点作为参数服务器，其他节点作为计算节点。其次部署性能监控模型，参数服务器通过性能监控模块获取计算节点的性能参数。然后参数服务器以收集到的性能参数为依据，使用性能聚类算法计算出参数服务器下次同步计算节点的数量。最后计算节点根据同步标记选择全局模型或本地模型进入下一次迭代训练。本发明动态限制参数服务器的同步屏障规模，减少了同步通信开销，并且保证了模型训练的准确率；在计算节点间实现了有限异步计算，充分发挥了集群整体性能，实现集群动态负载均衡。

Description

一种面向大规模安全监控的参数通信方法

技术领域

本发明属于分布式机器学习加速技术领域，具体是一种面向大规模安全监控的参数通信方法。

背景技术

智慧城市是城市现代化和信息化发展的必然趋势。智慧城市在支持社会经济发展，创新经济发展模式，提高城市功能质量，保障和改善民生方面发挥着积极作用。安全监控作为城市大数据的重要基础资源，提供了大量的图像信息。随着互联网时代的发展与科技的进步，数据的量级已从TB级别转向PB量级，并且正向ZB量级转变，传统机器学习方法面临着海量数据的严峻挑战。将传统机器学习方法分布化，以适应日趋庞大的数据规模成为学术界及工业界研究的热点。

本发明主要关注迭代收敛算法，这类算法是数值分析中从一个初始估计出发，寻找一系列近似解来解决问题的方法。迭代收敛算法的分布式实现通常遵循整体同步并行(Bulk Synchronous Parallel)方法，在此方法中，每个计算进程对前一次迭代生成的全局模型本地副本进行相同的迭代，每次迭代结束后，各计算进程进入同步屏障进行同步，这可能会显着降低这些算法的性能，因为每次迭代的时间始终由性能最差的计算进程决定。并且此问题随着并行化程度成正比：在计算进程数量的增加过程中，在任何给定迭代中至少有一个性能滞后者的概率也将增大。此外，导致性能滞后的潜在原因(例如硬件和网络变化)通常是不可预测的。

面对整体同步并行方法存在的同步滞后问题，Dean等人提出了分布式机器学习异步迭代方案(Asynchronous Parallel)，其中各计算进程进行全异步计算，各计算进程完成迭代后立即与参数服务器进行同步，极大地利用了每个计算节点的性能，但由于模型和更新参数变得不可控的延迟，导致模型收敛速度无法保证。其中计算进程先使用局部模型参数继续迭代，然后读取全局参数模型。该方案将机器学习算法的容错性无限放大，导致机器学习模型可能陷入局部最优解，并且不能保证其准确率。Ho等人针对这个问题提出了相应的方法—延迟同步并行方法(Stale Synchronous Parallel)，其兼顾了整体同步和异步的特点：允许一些计算进程比其他计算进程多进行一定次数的迭代，全局同步前使用本地模型参数进行迭代。SSP在不完全消除计算节点性能滞后问题的情况下，放宽了迭代同步一致性条件和局部参数的全局一致性保证。虽然SSP使用局部模型参数提高了模型训练速度，但由于丢失了部分局部参数更新，将累积并行错误，降低了收敛速度。因此如何提高分布式机器学习模型训练的性能是一个迫切需要解决的问题。

发明内容

本发明要解决的技术问题是：在处理大规模数据量的监控图片时，如何减小集群性能差异对分布式机器学习模型训练带来的同步等待问题，在保证一定准确率的前提下，解决滞后问题，提高模型训练的整体性能，最终加快图片识别的速度，并保证图片识别的准确率。

一种面向大规模安全监控的参数通信方法——受限同步并行方法(Limitedsynchronous parallel model)。

在基于迭代收敛算法的分布式机器学习模型训练中，各计算节点在达到停止条件前会不断重复进入下一次迭代训练。传统的分布式机器学习模型训练中，参数服务器会聚合所有计算节点的局部参数，并更新全局模型参数。本发明解决其技术问题采用的技术方案是：通过性能监控模块实现计算节点性能参数的实时获取，然后根据性能参数对参数服务器选择同步节点的数量进行自适应调整。该方法采用以下步骤实现：

步骤1：使用本方法处理大规模监控图片的集群采用参数服务器系统。一个节点作为参数服务器，其他节点作为计算节点。

步骤2：部署性能监控模型。在参数服务器和计算节点上部署性能监控模块，实现节点性能参数的实时获取。

步骤3：参数服务器通过性能监控模块获取计算节点的性能参数。

步骤4：参数服务器以收集到的性能参数为依据，使用性能聚类算法计算出参数服务器下次同步计算节点的数量，并发送本次迭代参与同步标记给计算节点，所述的性能聚类算法是使用欧式距离度量性能相似度，将n个进程划分到2个聚类中，使得每个进程都属于离它最近的均值(即聚类中心)对应的聚类。

步骤5：计算节点根据同步标记选择全局模型或本地模型进入下一次迭代训练。

步骤6：重复步骤3至步骤5，直至模型收敛。

受限同步并行方法通过使参数服务器减少等待慢节点的时间，使快节点充分提高计算效率，从而间接性地平衡了集群的负载，提高了模型训练的性能。

本发明的有益效果：在使用监控图片作为数据集，进行分布式机器学习模型训练时，基于BSP方法的分布式系统一直受限于同步等待滞后问题的影响，导致其在真实环境中浪费了大量的系统资源，整体性能十分低下。本发明通过使用受限同步并行方法对参数服务器每次同步的计算节点数量进行动态快速调整，有效得减少了各节点的同步等待时间，从而有效缓解了滞后问题，大大提高了模型训练的性能，提升了监控图片的识别效率。

附图说明

图1是一个基于Caffe的分布式机器学习框架。

图2是受限同步并行方法(LSP)的训练流程图。

图3是在集群节点性能相近时，不同计算方法的准确率对比。

图4是在集群节点性能相近时，不同计算方法的训练时间对比

图5是在集群节点性能差异较大时，不同计算方法的准确率对比。

图6是在集群节点性能差异较大时，不同计算方法的训练时间对比。

具体实施方式

下面结合附图和具体实施步骤对本发明做了进一步的说明：

步骤1：采用多节点集群组成参数服务器系统，一个节点作为参数服务器，其他节点作为计算节点。

如图1所示，本发明采用多线程的方式实现参数服务器，参数服务器上每个传输线程对应一个计算节点，用于维持参数服务器与计算节点之间的通信；同时，参数服务器上专门设置了一个线程作为参数更新管理器，用于处理全局模型参数的更新。

步骤2：部署性能监控模块。在参数服务器和计算节点上实现基于MPI通信的性能监控线程，实现节点性能参数的实时获取。

步骤4：参数服务器通过性能聚类算法计算出参数服务器下一次迭代参与全局同步的节点数。

如图2所示，LSP方法在BSP方法的基础上，优化了其同步条件：在每次迭代中，参数服务器只需等待一部分计算节点完成迭代后便可开始更新全局模型，而不用等待剩下的慢节点，同时当参数服务器完成一定迭代次数后，将等待所有计算完成迭代后进行一次全局同步。上述机制避免了BSP方法在集群性能差异大的情况下，因迟迟无法达到同步条件使得等待时间过长，导致最终的训练时间大量增加。

迭代时间与通信时间能反映分布式机器学习方法中训练速度与通信开销，因此，本发明将迭代时间与通信时间作为性能聚类算法的样本数据。对于有P个计算节点的集群集合，定义迭代时间和通信时间分别为x_P和y_P，性能数据集

其中

性能聚类算法描述如下：

性能聚类算法基于计算节点的计算时间和与参数服务器的通信时间，对参数服务器中每次迭代的同步节点数量动态调整为性能最优簇的规模，从而减少了参数服务器的同步等待时间，平衡了集群负载，提高了模型训练的性能。

步骤5：若计算节点参与了本次全局模型更新，则使用新的全局模型参数进入下一次迭代训练；否则，使用本地模型参数进入下一次迭代训练

步骤6：重复步骤3至步骤5，直至模型收敛。

图3和图4展示了在集群性能相近时，不同计算方法的准确率和训练时间对比。由于BSP方法下的参数服务器在每次迭代计算时，都要等待所有计算进程完成迭代后再进行全局同步，因此BSP保证了模型训练的强一致性而准确率最高。但BSP方法的迭代计算时间取决于训练最慢的计算进程，这导致使用BSP方法训练将花费大量的时间。LSP、SSP都利用了机器学习算法的容错特性进行有限异步训练，缩短了参数服务器的同步等待时间，因此训练时间较BSP有大幅的降低。但由于SSP滥用了容错特性，在各计算节点性能相近的情况下，导致计算节点各自进行过多的局部迭代，容易陷入局部最优解。且随着计算进程的增加，局部迭代的次数也随之增多，全局模型参数更新的次数减少，导致准确率不断下降，模型无法满足使用需求。LSP实现了受限同步屏障，保证了全局模型的更新次数，避免了局部迭代后全局模型趋近于局部最优解，因而比SSP具有更高的准确率。

图5展示了在集群性能差异较大时，不同计算方法的准确率对比。由于BSP清楚地分离计算阶段与通信阶段，使得在BSP方法下训练出的机器学习模型准确率不受计算节点性能波动影响。SSP随着节点性能差异增大，计算节点能更快地达到同步条件，避免了容错性的扩大，提升了训练模型的准确度。LSP因节点性能差异增大，减小了受限阈值，即进入受限同步屏障的进程数减少，使得LSP仍然保证了较高的准确率，并高于SSP。

图6展示了在集群性能差异较大时，不同计算方法的训练时间对比。由于BSP的单次迭代时间受限于迭代时间最长的进程，使得BSP在计算节点出现性能波动出需要更多的时间进行迭代，严重影响了模型训练的效率。另外，由于LSP实现了受限同步屏障，并实现了计算节点的异步计算，减弱了同步阶段性能滞后进程导致的等待问题，使得LSP对因计算节点性能差异导致的整体性能滞后问题有着显著的优势。

Claims

1.一种面向大规模安全监控的参数通信方法，其特征在于该方法包括如下步骤：

步骤1：利用监控图片作为数据集，采用多节点集群组成参数服务器系统，其中一个节点作为参数服务器，其他节点作为计算节点；

所述的参数服务器采用多线程的方式实现，线程按其功能分为三类：

通信线程：有多个，每个通信线程对应一个计算节点，用于维持参数服务器与计算节点之间的通信；

参数聚合线程，有一个，作为参数更新管理器，用于处理全局模型参数的更新；

性能监控线程，有一个，作为计算节点性能监控器，用于实时监控计算节点的性能动态变化；

步骤2：部署性能监控模块：在参数服务器和计算节点上实现基于MPI通信的性能监控线程，实现节点性能参数的实时获取；

步骤3：参数服务器通过性能监控模块获取计算节点的性能参数；

步骤4：参数服务器通过性能聚类算法计算出参数服务器下一次迭代参与全局同步的节点数，所述的性能聚类算法具体是：使用欧式距离度量性能相似度，将多个进程划分到2个聚类中，使得每个进程都属于离它最近的聚类中心对应的聚类；

步骤5：若计算节点参与了本次全局模型更新，则使用新的全局模型参数进入下一次迭代训练；否则，使用本地模型参数进入下一次迭代训练；

步骤6：重复步骤3至步骤5，直至模型收敛。