CN109445953A

CN109445953A - 一种面向大规模机器学习系统的机器学习模型训练方法

Info

Publication number: CN109445953A
Application number: CN201811000167.2A
Authority: CN
Inventors: 张正超; 倪焱; 郑培凯; 马超; 肖臻
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2019-03-08

Abstract

本发明公开一种面向大规模机器学习系统的机器学习模型训练方法。本方法为：1)将面向机器学习任务的专用计算机系统抽象为非一致性分布式内存的机器学习系统；2)各计算节点上的机器学习模型从该机器学习系统中读取本轮训练所需的训练数据和机器学习模型最新的参数数据；3)各计算节点分别利用当前获取的训练数据和参数数据训练本地的机器学习模型，计算机器学习模型的参数更新量并将其上传到该机器学习系统；4)该机器学习系统根据用户配置的参数更新方案和当前收到的参数更新量对参数进行更新。本发明使得机器学习算法的开发者无需关注分布式的具体实现，大大降低了大规模机器学习算法开发的难度。

Description

一种面向大规模机器学习系统的机器学习模型训练方法

技术领域

本发明属于计算机软件技术领域，涉及一种面向大规模机器学习系统的跨编程语言的机器学习模型训练方法。

背景技术

随着互联网、搜索引擎和社交网络的普及，用户数据呈爆炸式增长，利用机器学习算法，在海量数据中挖掘有价值的信息，成为近年来学界与业界关注的焦点。机器学习程序对处理海量数据的性能要求超出了今天单台普通商业服务器的计算能力。这对矛盾可以通过超级计算机来解决，但是这种方法成本过于高昂，并且全世界的超级计算机数量屈指可数；所以，将机器学习程序分布式运行于普通商业服务器组成的集群上成为了如今的通用做法。

九十年代提出的MPI(Message Passing Interface)为用户提供了详尽的分布式编程接口，今天的许多编程语言，如C、C++、Python、Java、R等等都支持MPI。然而，利用MPI进行分布式内存编程，使得编程复杂度急剧提高：程序员不仅需要关心算法本身的逻辑，还需要关心分布式所带来的程序之间的通信与协同逻辑；为了降低分布式程序开发的难度，先后有像MapReduce(Hadoop)及Spark等通用分布式计算平台出现。MapReduce系统为用户程序提供了两个简单的接口：Map和Reduce，用户只需要关注问题的分解和归约。与MapReduce只有Map和Reduce两个接口相比，以RDD(Resilient Distributed Datasets)作为系统接口的Spark支持更加多样化的接口(filter，join，groupBy等)。这些通用计算平台在一定程度上做到了对开发者透明，不需要太多的分布式开发经验就可以开发出运行在分布式系统上的程序，大大降低了开发难度。

通用分布式计算平台为支持开发各种各样的分布式程序，解决各种各样的问题，其接口设计和系统设计必须提供了更大的灵活性，这难免降低了整个平台的计算效率和易用性，且对于大规模机器学习任务来说其接口太过繁杂且有相当大冗余。因此，针对大规模机器学习这项任务，本发明专门设计并实现一系列共性编程接口成为提高运行效率和易用性的关键。

发明内容

针对现有技术中存在的易用性低和效率低的问题，本发明的目的在于提供一种面向大规模机器学习系统的机器学习模型训练方法。本发明将面向机器学习任务的专用计算机系统抽象为非一致性分布式内存，在此基础上为机器学习模型提供易用性强的交互接口，同时能够兼容现有机器学习任务使用的编程语言，保证程序移植简便性的同时保持数据交换的高效性。

本方案主要包括：1.机器学习算法开发接口；2.跨编程语言的高效数据交互通道。3.系统模型参数更新方式；4.用户定义的同步模型。

本发明的技术方案为：

一种面向大规模机器学习系统的机器学习模型训练方法，其步骤为：

1)将面向机器学习任务的专用计算机系统抽象为非一致性分布式内存的机器学习系统；

2)各计算节点上的机器学习模型从该机器学习系统中读取本轮训练所需的训练数据和机器学习模型最新的参数数据；

3)各计算节点分别利用当前获取的训练数据和参数数据训练本地的机器学习模型，计算机器学习模型的参数更新量并将其上传到该机器学习系统；

4)该机器学习系统根据用户配置的参数更新方案和当前收到的参数更新量对参数进行更新。

进一步的，各所述机器学习模型通过跨编程语言数据交换通道与该机器学习系统进行交互；将机器学习系统中的内存区域通过虚拟文件系统接口接入到操作系统的文件读写接口中，再通过所述跨编程语言数据交换通道与各机器学习模型进行数据交互。

进一步的，所述跨编程语言数据交换通道使用命名管道作为通信机制。

进一步的，所述跨编程语言数据交换通道包括用户状态通道、系统控制通道、参数更新通道和参数读取通道；其中，机器学习模型通过所述用户状态通道维护用户机器学习模型的运行状态，获取当前的训练轮数，机器学习模型对所述用户状态通道有写权限，该机器学习系统对所述用户状态通道有读权限；机器学习系统通过所述系统控制通道控制用户机器学习模型的训练轮数，机器学习模型对所述系统控制通道有读权限，机器学习系统对所述系统控制通道有写权限；机器学习模型通过所述参数更新通道将当前轮次所计算出来的参数更新量发送给该机器学习系统，机器学习模型对所述参数更新通道有写权限，机器学习系统对所述参数更新通道有读权限；机器学习模型通过所述参数读取通道从机器学习系统获取的最新参数数据，机器学习模型对所述参数读取通道有读权限，机器学习系统对所述参数读取通道有写权限。

进一步的，每一所述计算节点上设置有数据读取接口、模型读取接口和模型更新接口；其中，所述数据读取接口用于读取batch_size条由data_id指定的数据，data_id用于指明要读取数据的id，batch_size指明当前批次要读取多少条样本；所述模型读取接口用于读取机器学习系统当前维护的由model_id指定的最新模型参数，model_id用于指明要读取的机器学习模型的id；所述模型更新接口用于向机器学习系统上传当前用户机器学习模型所计算得出的由model_id指定的机器学习模型的更新量model_data。

进一步的，所述机器学习系统中设置一同步模型，用于对各个所述计算节点的计算进度进行同步。

进一步的，所述同步模型为强一致性同步模型，用于保证各用户机器学习模型之间必须严格等待一轮参数全部计算完毕之后，才能开始新一轮的迭代计算。

进一步的，所述同步模型为弱一致性同步模型，用于允许部分机器学习模型比其他用户机器学习模型迭代轮数超出若干轮。

进一步的，所述机器学习系统中设置一异步模型，允许不同计算节点进行一定程度上的异步计算。

与现有技术相比，本发明的积极效果为：

依照本方案提出的接口设计的面向机器学习任务的专用计算机系统，将系统抽象为非一致性分布式内存，能够做到在对绝大多数的编程语言兼容、方便程序移植的同时，还能保持系统本身高性能、易扩展、可容错的特性。通过这一套高易用的接口设计，使得机器学习算法的开发者无需关注分布式的具体实现，大大降低了大规模机器学习算法开发的难度。

附图说明

图1为本发明的编程模型以及相应接口示意图；

图2为跨编程语言的数据交换通道结构图。

具体实施方式

本发明将面向机器学习任务的专用计算机系统抽象为非一致性分布式内存的机器学习系统，在如图1所示的编程模型下，系统遵循如下步骤反复进行，直到达到规定的训练轮数：

1.机器学习模型从抽象为非一致性分布式内存的机器学习系统中读取本轮训练所需的训练数据；

2.机器学习模型从抽象为非一致性分布式内存的机器学习系统读取当前训练得到的机器学习模型的最新参数数据；

3.机器学习模型利用在前两个步骤获取到训练数据和模型参数，根据所使用的机器学习模型，训练该机器学习模型，并计算模型的参数更新量；

4.机器学习模型将参数更新量上传到抽象为非一致性分布式内存的机器学习系统；

5.机器学习系统根据用户配置的参数更新方案对参数进行更新，并将更新后的参数写入为当前最新的模型参数。

对于使用该接口的机器学习系统，本方案基于如下模型：

1.用户程序通过下文所述的高效数据交互通道与系统进行交互，包括训练数据的读取，模型参数更新量的写入与最新可用的模型参数的读取等；

2.系统按照用户配置的脚本，同步不同机器上用户程序上传的参数更新量，并整合到当前的模型参数中来。

3.系统按照用户定义的同步模型对系统中各个计算节点的计算进度进行同步。

因此本方案主要分为四个部分，分别为：机器学习算法开发接口；跨编程语言数据交换通道；系统模型参数更新接口和用户可定义的同步模型。下面将对本发明内容进一步阐释。

机器学习模型开发接口

本发明针对使用分布式机器学习系统平台的算法开发用户，为设计机器学习算法的用户提供与分布式系统交互的程序接口，其交互对象如图1所示，主要为抽象为非一致性分布式内存的系统模型参数和本地参数更新量，计算节点和参数服务器共同构成分布式机器学习系统平台，平台上各个计算节点上的机器学习模型是相同的。和上文的机器学习模型对应，每个计算节点上主要包含三个接口，其具体实施例见下文：

·数据读取接口read_data(data_id:str,batch_size:int)：该接口包含2个参数，分别为字符串类型的data_id和整型的batch_size，其中data_id的用于指明要读取数据的id，batch_size指明该批次要读取多少条样本。作用为读取batch_size条由data_id指定的数据，该接口对应与上述流程中的步骤1；

·模型读取接口read_model(model_id:str)：该接口包含1个参数，为字符串类型的model_id，用于指明要读取的机器学习模型的id，其作用为读取当前机器学习系统维护的由model_id指定的最新模型参数，该接口应用于上述流程中的步骤2；

·模型更新接口upload_model(model_id:str,model_data:array)：该接口包含2个参数，分别为字符串类型的model_id和数组形式的model_data，model_id指明要更新的模型，model_data为机器学习模型本轮结算得到的模型更新量，该模型更新接口的作用为向机器学习系统上传当前机器学习模型所计算得出的由model_id指定的机器学习模型的更新量model_data，该接口应用于上述流程中的步骤4；

跨编程语言数据交换通道

本发明为能够兼顾机器学习系统实现的高效率，提出了一种用于机器学习模型与机器学习系统之间的高效数据交互通道实现。本方案使用命名管道作为通信机制，因为命名管道是阻塞调用，在写进程发送数据之前，读进程会挂起；同时linux系统为命名管道提供的接口是文件形式，因此只要编程语言支持linux下的文件读写，就能与本系统进行交互，从而尽可能保证用户程序的编程语言无关性。具体来说，如图2所示，将机器学习系统中的内存区域(系统内存和机器学习系统)，通过虚拟文件系统接口(虚拟文件系统)，接入到操作系统的文件读写接口中，再通过前文所述的交互接口，与机器学习模型做数据交互。

实现上，在用户程序和抽象为非一致性分布式内存的机器学习系统间实现了4个通道。用户状态通道和系统控制通道的核心任务为维护不同机器学习模型的运行状态，调整运行速度。参数更新通道和参数读取通道负责用户进程与系统的参数模型数据交互。

1.用户状态通道：该通道维护机器学习模型目前的运行状态，具体为当前的训练轮数。机器学习模型对该通道有写权限，机器学习系统对该通道有读权限。

2.系统控制通道：该通道维护在目前同步机制下，机器学习系统是否允许机器学习模型进行下一次训练(1或者0)。用户对该通道有读权限，机器学习系统对该通道有写权限。

3.参数更新通道：该通道维护机器学习程序当前轮次所计算出来的参数更新量，具体为二进制浮点数格式的数字矩阵。用户对该通道有写权限，机器学习系统对该通道有读权限。该通道应用于上述流程的步骤4。

4.参数读取通道：该通道维护机器学习系统所计算出来的全局最新参数，具体为二进制浮点数格式的数字矩阵。用户对该通道有读权限，系统对该通道有写权限。该通道应用于上述流程的步骤2。

系统模型参数更新接口

机器学习系统负责维护整个模型的参数。其中参数更新的方法由用户定义，定义的方式为系统参数更新脚本，系统参数更新脚本的使用BNF(Backus-Naur Form，巴克斯范式，一种用来描述编程语言定义)的定义方式如下：

其中，

·numeric代表常量数字，如$0.1,1.5,-3.1415926等等；

·model-id代表上文机器学习模型接口中model_id所指定的具体模型变量，例如theta；

·server-parameter代表系统存储的全局模型参数，例如theta.server；

·client-parameter代表用户程序写入的参数更新量，例如theta.client；

·expression代表由上述numeric,server-parameter,client-parameter所代表的常量、变量经由包括加、减、乘、乘方、加括号等运算构成的计算式；

·statement代表由上述expression所代表的计算式对系统维护的全局模型server-parameter进行赋值

·整个脚本实例goal由多个赋值语句statement构成。

简而言之，上述更新配置脚本支持以机器学习模型传输而来的参数更新量与本地存储的上一轮参数为输入，通过加、减、乘、除以及乘方进行的任意运算。能够实现任意的以梯度下降为基础的参数更新。通过上述的模型参数更新配置脚本，用户可以实现绝大多数的用于机器学习算法的模型更新方法。

用户定义的同步模型

除了在机器学习系统中定义模型参数的更新方式之外，本方案还支持对系统中各个计算节点的计算进度进行同步。由于实际使用中，一方面运行相同机器学习程序的不同计算节点的性能不同，另一方面每轮训练当中计算节点的运行速度会受到一些随机因素的影响，例如数据的稀疏程度、系统缓存的命中率等等，故而会出现计算节点的速度不同，导致一些节点在当前轮次计算任务完成时需要等待其他节点完成后才能继续进行下一轮的计算，从而导致了整个系统计算性能的浪费。对于机器学习算法而言，有研究已经指出放开这种严格同步的限制，允许不同计算节点进行一定程度上的异步计算(即，在计算进度慢的节点还在计算第t轮的参数时，允许计算进度快的节点计算第t+Δt轮的参数)，不会对最终的训练效果产生明显的不良影响。

基于以上考虑，本方案允许使用机器学习系统的用户进行如下三种同步模型的配置。

·强一致性同步模型各个机器学习模型工作节点之间必须严格等待一轮参数全部计算完毕之后，才能开始新一轮的迭代计算，即Δt＝k＝0；

·弱一致性同步模型某些机器学习模型工作节点可以比另外一些机器学习模型工作节点迭代轮数超出若干轮，但最多不超过k轮，即0<＝Δt<＝k；

·异步模型各个机器学习模型工作节点之间完全不需要同步。即Δt>0。

本发明实施例

逻辑回归算法

本发明以机器学习中的逻辑回归(Logistic Regression)算法为例，解释如何使用本方案定义的接口进行机器学习算法的编程。令每一个批次的训练数据为其中m为批次大小，n为数据维度，同时对应标注数据设学习率为α，则每一轮：

·首先需要计算参数的更新量：

其中，

·之后对参数进行更新，可以使用很多种方法，举例来说：

o第一种更新方法为随机梯度下降算法(Stochastic Gradient Descent,SGD):

θ＝θ-αΔθ

o第二种更新方法为平均平方根传播算法(Root Mean Square Propagation,RMSProp):

v＝γv+(1-γ)(Δθ)²

机器学习模型代码样例(Python)

用户服务端参数配置样例

·SGD算法(α＝0.001)：

theta.server＝theta.server-0.001*theta.client

·RMSProp算法(α＝0.001,γ＝0.998):

v.server＝0.998*v.server+0.002*theta.client^2

theta.server＝theta.server-0.001*v.server^-0.5*theta.client

以上包含了本发明优选实施例的说明，这是为了详细说明本发明的技术特征，并不是想要将发明内容限制在实施例所描述的具体形式中，依据本发明内容主旨进行的其他修改和变型也受本专利保护。本发明内容的主旨是由权利要求书所界定，而非有实施例的具体描述所界定。

Claims

1.一种面向大规模机器学习系统的机器学习模型训练方法，其步骤为：

2.如权利要求1所述的方法，其特征在于，各所述机器学习模型通过跨编程语言数据交换通道与该机器学习系统进行交互；将机器学习系统中的内存区域通过虚拟文件系统接口接入到操作系统的文件读写接口中，再通过所述跨编程语言数据交换通道与各机器学习模型进行数据交互。

3.如权利要求2所述的方法，其特征在于，所述跨编程语言数据交换通道使用命名管道作为通信机制。

4.如权利要求2或3所述的方法，其特征在于，所述跨编程语言数据交换通道包括用户状态通道、系统控制通道、参数更新通道和参数读取通道；其中，机器学习模型通过所述用户状态通道维护用户机器学习模型的运行状态，获取当前的训练轮数，机器学习模型对所述用户状态通道有写权限，该机器学习系统对所述用户状态通道有读权限；机器学习系统通过所述系统控制通道控制用户机器学习模型的训练轮数，机器学习模型对所述系统控制通道有读权限，机器学习系统对所述系统控制通道有写权限；机器学习模型通过所述参数更新通道将当前轮次所计算出来的参数更新量发送给该机器学习系统，机器学习模型对所述参数更新通道有写权限，机器学习系统对所述参数更新通道有读权限；机器学习模型通过所述参数读取通道从机器学习系统获取的最新参数数据，机器学习模型对所述参数读取通道有读权限，机器学习系统对所述参数读取通道有写权限。

5.如权利要求1所述的方法，其特征在于，每一所述计算节点上设置有数据读取接口、模型读取接口和模型更新接口；其中，所述数据读取接口用于读取batch_size条由data_id指定的数据，data_id用于指明要读取数据的id，batch_size指明当前批次要读取多少条样本；所述模型读取接口用于读取机器学习系统当前维护的由model_id指定的最新模型参数，model_id用于指明要读取的机器学习模型的id；所述模型更新接口用于向机器学习系统上传当前用户机器学习模型所计算得出的由model_id指定的机器学习模型的更新量model_data。

6.如权利要求1所述的方法，其特征在于，所述机器学习系统中设置一同步模型，用于对各个所述计算节点的计算进度进行同步。

7.如权利要求6所述的方法，其特征在于，所述同步模型为强一致性同步模型，用于保证各用户机器学习模型之间必须严格等待一轮参数全部计算完毕之后，才能开始新一轮的迭代计算。

8.如权利要求6所述的方法，其特征在于，所述同步模型为弱一致性同步模型，用于允许部分机器学习模型比其他用户机器学习模型迭代轮数超出若干轮。

9.如权利要求1所述的方法，其特征在于，所述机器学习系统中设置一异步模型，允许不同计算节点进行一定程度上的异步计算。