CN113627485A

CN113627485A - 基于admm的不平衡大数据分布式分类方法

Info

Publication number: CN113627485A
Application number: CN202110781204.3A
Authority: CN
Inventors: 王慧慧; 吴昌胜; 赵林; 赵庆玲
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-07-10
Filing date: 2021-07-10
Publication date: 2021-11-09

Abstract

本发明公开了一种基于ADMM的不平衡大数据分布式分类方法，提出基于ADMM的分布式框架，并将分布式分类问题划分为一些小问题，这些小问题可以通过分散资源并行解决；在分布式框架的基础上，采用加速策略，设计了更合适的非平衡数据分类模型，提高了时间效率。理论分析和实验结果表明，该方法比其他分布式ADMM方法收敛速度更快，并且节省了训练时间，提高了分布式分类在不平衡数据上的可扩展性。

Description

基于ADMM的不平衡大数据分布式分类方法

技术领域

本发明涉及凸问题的优化方法，具体是一种基于ADMM的不平衡大数据分布式分类方法。

背景技术

分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确的分类，有助于人们认识世界，使杂乱无章的现实世界变得有条理。例如自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类，它是自然语言处理的一个十分重要的问题；文本分类主要应用于信息检索，机器翻译，自动文摘，信息过滤，邮件分类等任务。此任务的目的是在不平衡的数据样本中精确分类。不平衡数据即数据集中一类样本的数量远远超过其他类，其中占大多数的样本被称为多数类，而数量很小一部分的称为少数类。在不平衡数据样本中正确识别少数类比正确识别多数类更加重要，为此我们考虑代价敏感学习，基于总体错分代价最小化来设计分类器,在一定程度上解决了上述问题。

近年来，在分布式集群中使用代价敏感学习来解决不平衡分类的尝试还很少。特别地，有人提出了一种并行随机森林算法来解决不平衡分类问题。该方法在随机森林中使用代价敏感学习来强调少数类，调整决策树结构。在基于模糊规则的分类系统中，惩罚因子采用了代价敏感学习。Mapreduce便采用了这种方法实现，不过训练时间较长。乘子交替方向法(ADMM)是一种应用广泛的优化算法，具有良好的收敛性。在ADMM中，原始问题与两个局部问题相互结合，然后交替优化它们的最小值。证明了当所有函数都是凸函数时ADMM具有线性收敛性。为了解决大数据分类问题，已经提出了许多基于分布式ADMM的算法。具体来说，支持向量机的子问题模型是由ADMM以完全分布的方式训练的。

在这些方法中，ADMM作为一种应用广泛的优化算法，由于其在分布式框架中的灵活性，被广泛应用于计算机视觉、数据挖掘和机器学习等许多研究领域。通常，不同机器之间的通信是不可避免的，在处理大数据问题时，它的网络和时间成本总是非常大。已有经验研究表明，基于分布式ADMM的算法收敛速度慢，且时间开销大，这是分布式共识优化的固有问题和瓶颈。因此，设计和实现高效的分布式ADMM算法，通过更快的收敛速度来提高时间效率是一个重要的问题。

发明内容

本发明的目的在于提出一种基于ADMM的不平衡大数据分布式分类方法。

实现本发明的技术解决方案：一种基于ADMM的不平衡大数据分布式分类方法，包括如下步骤：

步骤1、将不平衡的大数据集划分成n份可独立计算的小数据集，并将n份小数据集分别放入n台从机中用于每台机器的本地训练；

步骤2、从训练样本中随机选取样本，采用对偶坐标下降法对每个问题的对偶问题进行优化，计算出局部模型的局部变量w_i；所述小数据集对应一个小问题；

步骤3、将所有从机计算出的局部变量w_i发送给主机；

步骤4、主机利用从机发送来的局部变量w_i更新全局变量z；

步骤5、主机收到每个从机发来的w_i和u_i并计算出z后，将z广播给每个从机以进行下一轮计算直至满足终止条件。

进一步的，步骤3等待步骤2中所有从机的局部变量w_i计算出来后，将所有的局部变量发送给主机。

进一步的，步骤5中主机将全局变量广播给所有从机后重复步骤2至步骤4直至满足终止条件。

进一步的，步骤1将问题划分为多个可并行计算的子问题后，可用如下的函数表示：

s.t.w_i＝z,i＝1,2,…,n；

其中，z为全局变量，w_i为局部变量，C>0，是一个超参数；C_-和C₊分别是多数类和少数类的误分类参数；假设数据来自n台机器，那么可以表示为(D1,D2，...，Dn)；另外ξ_j＝max{0,1-y_jw^Tx_j}表示样本j的损失，其中y_j为1或-1，w^T表示权重向量，x_j表示样本j，

为简单起见，(1)式可改写为：

s.t.w_i＝z,i＝1,2,...,n；

其中，f_i(w_i)是数据集D_i的总共损失。

进一步的，将原函数(2)改写成增广拉格朗日形式即原问题的对偶问题：

其中，λ_i≥0为对偶变量；之后得到(3)式的标准形式：

这里u_i＝λ_i/ρ，ρ为惩罚系数；

为更好解决类不平衡问题，使用soft-margin CSSVM，则原始问题的对偶形式为：

s.t.0≤α_j≤C_j,j＝1,...,s,

其中，C_j为样本j损失的惩罚系数，

b_i＝[1-y1viTx1,...,1-ysviTxsT；

使用随机对偶坐标下降法优化每个单机的上述问题，可以计算得到：

在随机对偶坐标下降法，

至

的更新是通过固定其它变量来得到的；因此，(6)式问题在每次内迭代中可以表达成单变量问题；通过将

投射进区间[0,C_j]，可得到投影偏导

于是

的更新可表达为：

之后，

可更新为：

已经得证局部变量

的松弛形式可以加速算法收敛，所以可将局部变量

的更新再变为：

进一步的，步骤4、主机综合各从机的局部模型变量计算全局模型变量z并下发各从机，z^k+1的更新公式如下：

由于函数是关于z的二次函数，同时也是一个性质良好的凸函数，所以z有一个封闭解：

之后，需要更新对偶变量

公式如下：

进一步的，步骤5中，继续步骤2，步骤3，步骤4，直至满足算法终止条件即原始残差p与对偶残差d收敛于0。表达式为||p||₂≤ε^pri，||d||₂≤ε^dual，ε^pri，ε^dual为可行公差。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于ADMM的不平衡大数据分布式分类方法。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述基于ADMM的不平衡大数据分布式分类方法。

本发明研究复杂的类不平衡问题，提出合适的基于ADMM的分布式框架，我们将所要研究的问题分为多个可并行计算的子问题，在每个子问题的对偶问题中，使用小批量的随机对偶坐标下降法来优化子问题，使用分布式ADMM框架交替优化逐步达到全局最优共识，有效的减少了模型训练时间以及各从机的通信时间，各项性能均有增加。

本发明与现有技术相比，其显著优点在于：(1)本发明利用小批量的随机对偶坐标下降法来对每个从机中的局部问题进行优化，加快了计算时间；(2)本发明将代价敏感学习应用到我们的方法中，有效缓解了类不平衡问题，提高了分类准确度。

下面结合附图对本发明做进一步详细的描述。

附图说明

图1为本发明的流程示意图。

图2为本发明算法实现的伪代码。

图3为本发明与其它算法在Geometric mean上的比较示意图。

图4为本发明与其它算法在F-measure上的比较示意图。

图5为本发明与其它算法在训练时间上的比较示意图。

具体实施方式

本发明提出一种基于ADMM的不平衡大数据分布式分类方法，其核心思想是研究复杂的类不平衡，并针对这一问题提出合适的基于ADMM的分布式框架，以提高性能和减少时间。该方法将所要研究的问题分为多个可并行计算的子问题，在每个子问题的对偶问题中，使用小批量的随机对偶坐标下降法来优化子问题，使用分布式ADMM框架交替优化逐步达到全局最优共识。

一种基于ADMM的不平衡大数据分布式分类方法，包括如下步骤：

步骤1、将不平衡的大数据集划分成n份可独立计算的小数据集，并将n份数据集分别放入n台机器(从机)中用于每台机器的本地训练；

步骤2、利用小批量的(从训练样本中随机选取小批样本)随机对偶坐标下降法对每个问题的对偶问题进行优化，计算出局部模型的局部变量w_i；所述小数据集对应一个小问题；

步骤3、将所有从机计算出的局部变量w_i发送给主机；

步骤4、主机利用从机发送来的局部变量w_i更新全局变量z；

步骤5、主机收到每个从机发来的w_i和u_i并计算出z后，便将z广播给每个从机以进行下一轮计算直至满足终止条件；u_i＝λ_i/ρ，为简便计算而引入的。

其中，步骤1中将大数据集划分成n个类不平衡的小数据集，因为处理分类任务时，类不平衡是一个经典的挑战，它会恶化分类性能。这些类不平衡的小数据集将用于实验。

步骤2中利用小批量随机对偶坐标下降法在每个从机中对问题进行优化来加快取得局部变量值，这就减少了同步和通信带来的开销。

步骤3等待步骤2中所有从机的局部变量w_i计算出来后，将所有的局部变量发送给主机。

步骤4利用步骤3中发送来的w_i更新全局变量z，由于我们的函数是关于z的二次函数，同时也是一个性质良好的凸函数，所以z有一个封闭解。

步骤5中主机将全局变量广播给所有从机后重复步骤2至步骤4直至满足终止条件(原始残差||p||₂不大于一个阈值及对偶残差||d||₂不大于一个阈值)。

如图1所示，一种基于ADMM的不平衡大数据分布式分类方法，将分布式分类问题划分为一些小问题，这些小问题可以通过分散资源并行解决；在每个小问题的对偶问题上使用小批量的随机对偶梯度下降法求出局部最优解；我们也引入代价敏感学习方法来最小化总体错分代价；所有从机的本地模型训练好后，将所有的局部模型变量发送给主机；主机综合收到的局部模型变量计算全局模型变量z后，将z广播给所有从机；从机收到全局模型变量后开始新一轮的迭代计算直至满足终止条件。

下面对本发明各个步骤进行具体说明：

步骤1、将我们的问题划分为多个可并行计算的子问题后，我们的问题可用如下的函数表示：

s.t.w_i＝z,i＝1,2,...,n；

其中，z为全局变量，w_i为局部变量，C>0，是一个超参数；C_-和C₊分别是多数类和少数类的误分类参数。假设数据来自n台机器，那么可以表示为(D1,D2，…，Dn)；另外ξ_j＝max{0,1-y_jw^Tx_j}表示样本j的损失，其中y_j为1或者-1,w^T表示权重向量,x_j表示样本j,

为简单起见，(1)式可改写为：

s.t.w_i＝z,i＝1,2,...,n；

其中，f_i(w_i)是数据集D_i的总共损失。

步骤2、我们将原函数(2)改写成增广拉格朗日形式即原问题的对偶问题。

其中，λ_i≥0为对偶变量，之后我们便可以写出(3)式的标准形式：

这里u_i＝λ_i/ρ，ρ为惩罚系数。为更好解决类不平衡问题，进一步我们使用soft-margin CSSVM(代价敏感支撑向量机)，则原始问题的对偶形式为：

s.t.0≤α_j≤C_j,j＝1,…,s,

其中，C_j为样本j损失的惩罚系数，

b_i＝[1-y1viTx1,…,1-ysviTxsT。我们使用随机对偶坐标下降法优化每个单机的上述问题，可以计算得到：

在随机对偶坐标下降法，

至

的更新是通过固定其它变量来得到的。因此，(6)式问题在每次内迭代中可以表达成单变量问题；通过将

投射进区间[0,C_j]，可得到投影偏导

于是

的更新可表达为：

之后，

可更新为：

已经得证局部变量

的松弛形式可以加速算法收敛，所以可将局部变量

的更新再变为：

步骤3、在步骤2基础上，主机收集所有从机的局部模型变量用于更新全局模型变量。

步骤4、主机综合各从机的局部模型变量计算全局模型变量z并下发各从机，z^k+1的更新公式如下：

之后，需要更新对偶变量

公式如下：

步骤5、继续步骤2，步骤3，步骤4，直至满足算法终止条件即原始残差p与对偶残差d收敛于0。表达式为||p||₂≤ε^pri，||d||₂≤ε^dual，ε^pri，ε^dual为可行公差。

图2所示为本发明实施例的算法流程，图3～图5表明我们的算法比其他的一些算法表现得更加良好且算法训练时间更短。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于ADMM的不平衡大数据分布式分类方法。

下面结合实施例对本发明进行详细说明。

实施例

如果一个问题可以写成以下形式，我们的方法便可以解决这个问题：

min_x,yf(x)+g(y),

s.t.Ax+By＝C,

这里f(x)和g(y)都是凸函数，x和y为变量，满足一系列线性约束。这样就可以解决此问题的对偶问题。其对偶问题可写成以下形式：

这里λ是对偶变量，ρ为惩罚系数。特别地，如果局部变量x是可划分的，则f(x)可划分为一些小问题，存储在多个机器上。因此问题可改写成以下形式：

s.t.Ax_i+By＝C,i＝1,2,…,n.

这里x_i是机器i上小问题的模型变量，x＝(x₁,...,x_n)，y是全局变量。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于ADMM的不平衡大数据分布式分类方法，其特征在于，包括如下步骤：

步骤3、将所有从机计算出的局部变量w_i发送给主机；

步骤4、主机利用从机发送来的局部变量w_i更新全局变量z；

2.根据权利要求1所述的基于ADMM的不平衡大数据分布式分类方法，其特征在于，步骤3等待步骤2中所有从机的局部变量w_i计算出来后，将所有的局部变量发送给主机。

3.根据权利要求1所述的基于ADMM的不平衡大数据分布式分类方法，其特征在于，步骤5中主机将全局变量广播给所有从机后重复步骤2至步骤4直至满足终止条件。

4.根据权利要求1所述的基于ADMM的不平衡大数据分布式分类方法，其特征在于，步骤1将问题划分为多个可并行计算的子问题后，用如下的函数表示：

s.t.w_i＝z，i＝1，2，…，n；

其中，z为全局变量，w_i为局部变量，C＞0，是一个超参数；C_-和C₊分别是多数类和少数类的误分类参数；假设数据来自n台机器，那么可以表示为(D1，D2，…，Dn)；另外ξ_j＝max{0，1-y_jw^Tx_j}表示样本j的损失，其中y_j为1或-1，w^T表示权重向量，x_j表示样本j，

为简单起见，(1)式可改写为：

s.t.w_i＝z，i＝1，2，…，n

其中，f_i(w_i)是数据集D_i的总共损失。

5.根据权利要求1所述的基于ADMM的不平衡大数据分布式分类方法，其特征在于，将原函数(2)改写成增广拉格朗日形式即原问题的对偶问题：

其中，λ_i≥0为对偶变量；之后得到(3)式的标准形式：

这里u_i＝λ_i/ρ，ρ为惩罚系数；

使用soft-margin CSSVM，则原始问题的对偶形式为：

s.t.0≤α_j≤C_j，j＝1，…，s，

其中，C_j为样本j损失的惩罚系数，

b_i＝[1-y1viTx1，...，1-ysviTxsT；

使用随机对偶坐标下降法优化每个单机的上述问题，可计算得到：

在随机对偶坐标下降法，

至

的更新是通过固定其它变量来得到的；因此，(6)式问题在每次内迭代中可表达成单变量问题；通过将

投射进区间[0，C_j]，得到投影偏导

于是

的更新可表达为：

之后，

可更新为：

已经得证局部变量

的松弛形式可以加速算法收敛，所以可将局部变量

的更新再变为：

6.根据权利要求1所述的基于ADMM的不平衡大数据分布式分类方法，其特征在于，步骤4、主机综合各从机的局部模型变量计算全局模型变量z并下发各从机，z^k+1的更新公式如下：

由于函数是关于z的二次函数，同时也是一个凸函数，所以z有一个封闭解：

之后，需要更新对偶变量

公式如下：

7.根据权利要求1所述的基于ADMM的不平衡大数据分布式分类方法，其特征在于，步骤5中，继续步骤2，步骤3，步骤4，直至满足算法终止条件即原始残差p与对偶残差d收敛于0；表达式为||p||₂≤ε^pri，||d||₂≤ε^dual，ε^pri、ε^dual为可行公差。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一所述的基于ADMM的不平衡大数据分布式分类方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的基于ADMM的不平衡大数据分布式分类方法。