CN111832637B

CN111832637B - 基于交替方向乘子法admm的分布式深度学习分类方法

Info

Publication number: CN111832637B
Application number: CN202010619341.2A
Authority: CN
Inventors: 胡海峰; 潘万顺; 张进
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2022-08-30
Anticipated expiration: 2040-06-30
Also published as: CN111832637A

Abstract

本发明提出了一种基于交替方向乘子法ADMM的分布式深度学习分类方法，包括以下：1：在各个节点的数据库中对图像、视频、文件进行分类标记；2：初始化各节点Alexnet网络层参数，以及拉格朗日乘子矩阵；3：各个节点数据通过Alexnet网络一次前向传播进行提取特征；4：引入最小化分类误差，得到全局最优的分类器；5：全局分类器参数赋值给每个节点Alexnet网络的最后一层，即全连接层，各个节点数据通过Alexnet网络进行再进行一次前向传播；6：固定分类层参数，更新特征层参数；7：判断训练精度是否等于1，是即训练完成，反之，重复3‑7；8：分类测试过程，本发明解决了图像，视频，文本等样本数目大，若集中在一起训练，传输量和计算量过大的问题。

Description

基于交替方向乘子法ADMM的分布式深度学习分类方法

技术领域

本发明涉及一种深度学习方法，具体的说是一种分布式深度学习分类方法，属于机器学习技术领域。

背景技术

随着社交网络、电子商务、移动互联网等的不断发展，数据需要存储、处理的规模越来越大，单机系统已无法满足日益增长的需求。Google、Alibaba等互联网公司成功催生了云计算和大数据这两大热门领域，云计算和大数据都是构建在分布式存储之上的应用。云存储的核心是后端的大规模分布式存储系统，大数据不仅需要存储海量的数据，还要通过合适的框架和工具对这些数据进行分析，得到其中有用的部分，如果没有分布式的存储就谈不上对大数据进行分析。虽然分布式系统的研究已经进行了很多年，但直到近些年，互联网大数据的兴起才使得分布式系统大规模地应用在工程实践中。分布式系统是利用多台计算机协同解决单台计算机所不能解决的计算、存储问题，分布式系统与单机系统最大的区别就在于问题的规模。它是由多个节点组成的系统，往往将一台服务器或者服务器上的一个进程称为一个节点，这些节点一般不是孤立的，而是通过网络来互相通信，传递信息。另外，由于智能手机等移动终端的快速发展，智能手机存储了大量的图片、文本和视频等信息，智能手机也可以看作是一个独立的节点，智能手机之间通过基站或者相互之间通过分布式协作来提高数据处理能力。

深度学习的概念源于人工神经网络的研究，典型的深度学习模型就是很深层的神经网络，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据丰富的内在信息。深度学习通过设计建立适量的神经元计算节点和多层运算层次结构，选择合适的输人层和输出层，通过网络的学习和调优，建立起从输入到输出的函数关系。

随着互联网的广泛普及和多媒体技术的发展，各行各业的数据急剧增加，现代信息技术基础设施不得不处理庞大的数据库，对数据进行分类。由于受限于地理位置、隐私和数据的规模很大，我们不可能将所有的数据集中传输到一台服务器进行集中处理，因为这样不利于计算、存储和隐私的保护，同时传输数据的时间成本，通信成本等各种成本开销太大。由于任何一个大规模机器学习的任务都会用到“分而治之”的思想，即把大的机器学习任务拆分成多个子任务(大规模机器学习之间的差异主要在于拆分手段的不同)。因此，分布式的算法就有了应用价值。

综上所述，现有技术中对于如何利用深度学习算法实现分布式分类问题尚没有公开的披露。

发明内容

本发明的目的是提供一种基于交替方向乘子法ADMM的分布式深度学习分类方法，解决图像，视频，文本等样本数目大，若集中在一起训练，传输量和计算量过大的问题，通过分布式训练，以ADMM方法得到全局优化的分类器以及在全局分类器基础上，利用BP算法得到与全局分类器相适应的特征层，同时保护分布式训练中各节点的数据独立性，并实现样本的分类。

本发明的目的是这样实现的：一种基于交替方向乘子法ADMM的分布式深度学习分类方法，包括以下步骤：

步骤1：在各个节点的数据库中对图像、视频、文件进行分类标记；

步骤2：初始化各节点Alexnet网络层参数，以及拉格朗日乘子矩阵；

步骤3：各个节点数据通过Alexnet网络一次前向传播进行提取特征；

步骤4：引入最小化分类误差，得到全局最优的分类器；

步骤5：全局分类器参数赋值给每个节点Alexnet网络的最后一层，即全连接层，各个节点数据通过Alexnet网络进行再进行一次前向传播；

步骤6：固定分类层参数，更新特征层参数；

步骤7：判断训练精度是否等于1，是即训练完成，反之，重复步骤3-7；

步骤8：分类测试过程。

作为本发明的进一步限定，步骤1中，假设共有N个节点，每个节点对应一个数据库X_i，X_i表示第i个节点的数据库，在不同节点中的数据库是相互独立的，并且不同的节点间不希望共享信息，每个数据库中都有c种类别标记，对不同的样本打上不同的标记。

作为本发明的进一步限定，步骤2中，在每个节点中初始化Alexnet网络层参数和对应的拉格朗日乘子，每个节点调用Alexnet预训练模型来初始化Alexnet网络层参数；设第i个节点Alexnet最后一全连接层的参数为W_i和b_i，第i个节点优化W时对应的初始化拉格朗日乘子为d×c维的全0矩阵，d表示样本特征空间的维度，c表示类别数目。

作为本发明的进一步限定，步骤3中，利用各个节点数据通过Alexnet网络一次前向传播进行提取特征，每个epoch分为多个批次的训练，各节点在各自第m个批次的数据X_i,m下，利用前一批次更新的网络参数，进行一次前向传播，其特征层输出特征Z_i,m，即为Alexnet最后一层全连接层的输入值，其中，X_i,m是第i个节点中第m批次的图片，Z_i,m表示第i个节点，第m批数据对应的特征。

作为本发明的进一步限定，步骤4中，利用步骤3提取的特征，引入最小化分类误差,得到全局最优的分类器，分类器参数进行一致性约束相当于各节点数据间接的在一个分类器上训练；具体为：

利用步骤3得到的特征Z_i,m和Z_i,m对应的标签Y_i,m，通过ADMM优化各节点W_i，得到全局最优的分类器W，其中，Z_i,m表示第i个节点，第m批数据X_i,m对应的特征，W_i和b_i是第i个节点分类器(全连接层)的参数，X_i,m是第i个节点中第m批次的图片，Y_i,m是图片X_i,m对应的label，L是交叉熵损失函数，N为节点总数，Λ_i拉格朗日乘子，ρ为惩罚系数，λ为正则化项系数，W为中心节点分类器参数，第i个节点构建的优化W_i后的目标函数如下：

s.t.W_i-W＝0

增广的拉格朗日函数：

ADMM迭代步骤:

其中

作为本发明的进一步限定，步骤5中，将上一步优化得到的分类器参数，即公式3的值W_i和b_i，赋值给每个节点Alexnet网络的最后一层，各个节点独立利用各自当前批次的图片通过该网络进行再进行一次前向传播。

作为本发明的进一步限定，步骤6中，在步骤5的基础上，固定各节点分类层参数，各个节点独立利用各自当前批次的图片更新特征层的参数

来适应全局分类器，其中F_i(·)是第i个节点对应特征层输入输出的映射关系，

为第i个节点特征层参数；第i个节点构建的优化

后的目标函数如下

作为本发明的进一步限定，步骤7中，一个epoch中每一批次的数据都要重复步骤3-7；当一个epoch完成后即一个epoch中所有批次训练完以后，下一个epoch在前一个epoch训练的模型参数基础上，重复前一个epoch的过程，直到训练精度达到1以后，才算训练完成。

作为本发明的进一步限定，步骤8中，当模型训练完成以后，需要分类的数据通过训练好的模型可进行分类。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明解决了大规模数据在存储，计算时所需规模过大，超出单个计算节点计算能力，集中式地训练算法模型已不再适合的问题；

2、本发明使用参数矩阵进行节点间的通信，节点间的通信不交换原始信息，能有效解决传输通信过大的问题，同时实现良好的性能；

3.本发明利用了深度学习网络的强学习能力，结合ADMM的方法，得到了全局的分类层和相对应的特征层，实现了良好的性能。

附图说明

图1为本发明方法的系统框架图。

图2为本发明方法的分布式训练流程图。

图3为本发明方法的分类测试流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

一种基于交替方向乘子法ADMM的分布式深度学习分类方法，本方法的系统框架图如图1所示，整个方法过程可以分为分布式训练过程与分类测试过程；具体流程分别如图2和图3所示；

第一步，在各个节点的数据库中对图像、视频、文件等进行分类标记。

假设共有N个节点，每个节点对应一个数据库X_i，X_i表示第i个节点的数据库，在不同节点中的数据库是相互独立的，并且不同的节点间不希望共享信息，每个数据库中有n个样本，同时每个数据库中都有c种类别标记，对不同的样本打上不同的标记。

第二步，初始化各节点Alexnet网络层参数，以及拉格朗日乘子矩阵。

在每个节点中初始化Alexnet网络层参数和对应的拉格朗日乘子，每个节点调用Alexnet预训练模型来初始化Alexnet网络层参数，设第i个节点Alexnet最后一全连接层的参数为W_i和b_i，第i个节点优化分类层时对应的初始化拉格朗日乘子为d×c维的全0矩阵，d表示样本特征空间的维度，c表示类别数目。

第三步，各个节点数据通过Alexnet网络一次前向传播进行提取特征。

每个epoch分为多个批次的训练，各节点在各自第m个批次的数据X_i,m下，利用前一批次更新的网络参数，进行一次前向传播，其特征层输出特征Z_i,m，其中，特征层是最后一层之前的所有网络层，X_i,m是第i个节点中第m批次的图片，Z_i,m表示第i个节点，第m批数据对应的特征即(最后一层Alexnet网络输入值)。

第四步，引入最小化分类误差,得到全局最优的分类器。

需要说明的是，本发明的重点在于利用ADMM算法得到全局的分类器(优化Alexnet最后一层全连接层的参数)，并在全局的分类器的基础上，利用BP算法得到与全局的分类器相适应的特征层。

利用第三步得到的Z_i,m和Z_i,m对应的标签Y_i,m，通过ADMM算法优化各节点W_i，得到全局最优的分类器W；其中，Z_i,m表示第i个节点，第m批数据X_i,m对应的特征；W_i和b_i是第i个节点分类器(全连接层)的参数；X_i,m是第i个节点中第m批次的图片，Y_i,m是图片X_i,m对应的label，L是交叉熵损失函数，N为节点总数，Λ_i拉格朗日乘子，ρ为惩罚系数，λ为正则化项系数，W为中心节点分类器参数；第i个节点构建的优化W_i后的目标函数如下：

s.t.W_i-W＝0

增广拉格朗日函数：

ADMM迭代步骤:

其中

第五步，将上一步优化得到的分全局类器参数(即W_i和b_i)赋值给每个节点Alexnet网络的最后一层(全连接层)，各个节点独立利用各自当前批次的图片通过该网络进行再进行一次前向传播。

第六步，固定分类层参数，更新特征层参数。

在第五步的基础上，固定各节点分类层参数，各个节点独立利用各自当前批次的图片更新特征层的参数

来适应全局分类器，在这里各节点反向传播一次；其中分类层指的是Alexnet最后一层全连接层；特征层指的是最后一层之前的所有网络层，F_i(·)是第i个节点对应特征层输入输出的映射关系，

为第i个节点特征层参数；第i个节点构建的优化

后的目标函数如下

第七步，判断训练精度(训练集正确分类的准确率)是否等于1，是即训练完成，反之，训练未完成，则需要重复步骤3-7；需要说明的是，一个epoch(指所有训练样本训练一次的过程)中每一批次的数据都要重复步骤3-7；当一个epoch完成后即一个epoch中所有批次训练完以后，下一个epoch在前一个epoch训练的模型参数基础上，重复前一个epoch的过程，直到训练精度达到1以后，才算训练完成。

第八步，分类测试过程。

当模型训练完成以后，需要分类的数据通过训练好的模型可进行分类。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于交替方向乘子法ADMM的分布式深度学习分类方法，其特征在于，包括以下步骤：

步骤4：引入最小化分类误差，得到全局最优的分类器，利用步骤3提取的特征，引入最小化分类误差,得到全局最优的分类器，分类器参数进行一致性约束相当于各节点数据间接的在一个分类器上训练；具体为：

利用步骤3得到的特征Z_i,m和Z_i,m对应的标签Y_i,m，通过ADMM优化各节点W_i，得到全局最优的分类器W，其中，Z_i,m表示第i个节点，第m批数据X_i,m对应的特征，W_i和b_i是第i个节点分类器的参数，X_i,m是第i个节点中第m批次的图片，Y_i,m是图片X_i,m对应的label，L是交叉熵损失函数，N为节点总数，Λ_i拉格朗日乘子，ρ为惩罚系数，λ为正则化项系数，第i个节点构建的优化W_i后的目标函数如下：

s.t.W_i-W＝0

增广的拉格朗日函数：

ADMM迭代步骤:

其中

步骤6：固定分类层参数，更新特征层参数；

步骤8：分类测试过程。

2.根据权利要求1所述的一种基于交替方向乘子法ADMM的分布式深度学习分类方法，其特征在于，步骤1中，假设共有N个节点，每个节点对应一个数据库X_i，X_i表示第i个节点的数据库，在不同节点中的数据库是相互独立的，并且不同的节点间不希望共享信息，每个数据库中都有c种类别标记，对不同的样本打上不同的标记。

3.根据权利要求2所述的一种基于交替方向乘子法ADMM的分布式深度学习分类方法，其特征在于，步骤2中，在每个节点中初始化Alexnet网络层参数和对应的拉格朗日乘子，每个节点调用Alexnet预训练模型来初始化Alexnet网络层参数；设第i个节点Alexnet最后一全连接层的参数为W_i和b_i，第i个节点优化W时对应的初始化拉格朗日乘子为d×c维的全0矩阵，d表示样本特征空间的维度，c表示类别数目。

4.根据权利要求3所述的一种基于交替方向乘子法ADMM的分布式深度学习分类方法，其特征在于，步骤3中，利用各个节点数据通过Alexnet网络一次前向传播进行提取特征，每个epoch分为多个批次的训练，各节点在各自第m个批次的数据X_i,m下，利用前一批次更新的网络参数，进行一次前向传播，其特征层输出特征Z_i,m，即为Alexnet最后一层全连接层的输入值，其中，X_i,m是第i个节点中第m批次的图片，Z_i,m表示第i个节点，第m批数据对应的特征。

5.根据权利要求4所述的一种基于交替方向乘子法ADMM的分布式深度学习分类方法，其特征在于，步骤5中，将上一步优化得到的分类器参数，即公式3的值W_i和b_i，赋值给每个节点Alexnet网络的最后一层，各个节点独立利用各自当前批次的图片通过该网络进行再进行一次前向传播。

6.根据权利要求5所述的一种基于交替方向乘子法ADMM的分布式深度学习分类方法，其特征在于，步骤6中，在步骤5的基础上，固定各节点分类层参数，各个节点独立利用各自当前批次的图片更新特征层的参数Θ_i来适应全局分类器，其中F_i(·)是第i个节点对应特征层输入输出的映射关系，Θ_i为第i个节点特征层参数；第i个节点构建的优化Θ_i后的目标函数如下

7.根据权利要求6所述的一种基于交替方向乘子法ADMM的分布式深度学习分类方法，其特征在于，步骤7中，一个epoch中每一批次的数据都要重复步骤3-7；当一个epoch完成后即一个epoch中所有批次训练完以后，下一个epoch在前一个epoch训练的模型参数基础上，重复前一个epoch的过程，直到训练精度达到1以后，才算训练完成。

8.根据权利要求7所述的一种基于交替方向乘子法ADMM的分布式深度学习分类方法，其特征在于，步骤8中，当模型训练完成以后，需要分类的数据通过训练好的模型可进行分类。