CN104954973B

CN104954973B - 基于almm的l1正则化核学习机的分布式训练方法

Info

Publication number: CN104954973B
Application number: CN201510294216.8A
Authority: CN
Inventors: 侯义斌; 及歆荣; 侯翠琴
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-06-01
Filing date: 2015-06-01
Publication date: 2019-01-29
Anticipated expiration: 2035-06-01
Also published as: CN104954973A

Abstract

基于ALMM的L1正则化核学习机的分布式训练方法，属于无线传感器网络中数据融合技术领域，涉及一种核学习机的分布式训练方法。本发明利用增广拉格朗日乘子方法构建和求解基于L1正则化的核学习机的分布式训练优化问题，提出以相邻节点间的局部最优模型近似全局最优模型的优化求解方法，即在节点本地模型与邻居节点间的局部最优模型相一致的约束下，利用ALMM构建和求解基于L1正则化的核学习机的分布式训练优化问题，利用ADMM对节点本地的L1正则化核学习机训练优化问题进行稀疏模型求解，仅依靠相邻节点间传输稀疏模型的方式进行协作，以进一步优化节点局部模型，直至各节点模型收敛。

Description

基于ALMM的L1正则化核学习机的分布式训练方法

技术领域

本发明涉及一种基于增广拉格朗日乘子方法(Augmented Lagrangian MethodofMultipliers,ALMM)的L1正则化核学习机的分布式训练方法，具体是一种针对无线传感器网络环境的L1正则化核最小平方误差学习机的分布式训练方法，可以用于无线传感器网络应用中基于核函数的分类器和回归机的训练，属于无线传感器网络中数据融合技术领域。

背景技术

无线传感器网络(Wireless SensorNetwork,WSN)中，数据融合技术是降低网络数据通信量、节省节点能耗和延长网络寿命的重要措施之一。机器学习方法作为决策级融合的重要方法之一，在WSN中得到了日益广泛的重视和应用。然而，在WSN中，训练数据都分散在各传感器节点上，通过多跳路由将所有训练数据传输到数据融合中心进行集中式训练，将会占用大量的带宽且消耗节点的大量能量，这与WSN上节点能源替换代价非常高甚至不可替换、带宽资源非常有限相冲突，同时也容易使数据中心周围的节点成为整个系统的瓶颈。针对上述问题，通过相邻节点间的相互协作，在网内分布式协同训练学习机的方法已经引起了众多学者的研究和关注。核方法或称核学习机(基于核函数机器学习方法的简称)，因统计学习理论和支持向量机(SupportVectorMachine,SVM)的成功应用而受到广泛关注和研究，现已成为机器学习的主流方法。核方法因其在解决非线性问题上的绝对优势，已在许多实际应用领域中表现出非常出色的技术性能。但核方法是依赖训练数据的，即利用核方法对未知数据进行分类或回归预测时，会依赖参与模型训练的训练数据。因此，在训练数据分散、节点能量和带宽资源非常有限的WSN下，研究仅依赖相邻节点间的协作，在网内分布式协同训练核学习机的方法对减少通信代价、延长网络生命周期以及核学习机的分布式学习理论研究都具有极其重要的意义。

针对WSN特点，已开展的核学习机的分布式训练方法研究可归纳为基于拓扑结构或构建链路结构、基于共享数据一致、基于支持向量增量训练三种研究思路。基于网络拓扑或构建链路结构的典型研究有：Intel伯克利实验室的Guestrin C.等人和希腊克里特大学的Flouri.K等人；该研究思路需要关联、构建和维护特定的链路结构，在通信链路不稳定、网络拓扑动态变化的无线传感器网络下其维护代价非常高、计算也非常复杂且不具普适性。典型的基于共享数据一致的研究主要有：普林斯顿大学的Predd J.B.等人和美国明尼苏达大学的Forero P.A等人；基于该思路的研究需要节点间有共享训练数据，算法的收敛性、收敛速度及通信代价受共享训练数据量及其分布特点的影响很大，算法的普适性和实用性都不强。基于支持向量增量训练的研究思路是专门针对SVM核学习机分布式训练方法的研究，主要利用了SVM的模型只与少量支撑向量相关的特性；该思路的典型研究包括:希腊克里特大学的Flouri.K等人和Yahoo公司的Yumao Lu等人；基于该思路的研究由于SVM的稀疏性由其特殊的Hinge损失函数决定，已有的SVM分布式训练算法仍存在通信代价大的问题，而且SVM的分布式训练算法对其他核方法也不具有普适性。

核最小平方误差方法(Kernel Minimum Square Error,KMSE)是经典最小平方误差方法在非线性问题上的扩展，是一类兼具强大性能和普适性的核方法。L1正则化通过将模型中参数的1-范数加入到目标函数能导致稀疏模型的特性，使得L1正则化在进行变量选择的应用中受到了广泛的关注和研究，如Lasso和压缩感知问题。针对当前WSN下核学习机分布式训练方法研究中存在的构建和维护特定链路代价高、基于共享数据普适性和实用性不强、SVM增量训练通信代价大等问题，研究了仅依靠相邻节点间的协作，在网内分布式协同训练基于L1正则化的KMSE学习机的方法，提出了基于ALMM的L1正则化KMSE学习机的分布式训练方法(L1-regularization Distributed Kernel Minimum Square Error based onAugmented Lagrangian Method ofMultipliers，L1-DKMSE-ALMM)。

发明内容

本发明的目的是提供一种适用于无线传感器网络的核学习机的分布式训练方法。使用该方法仅通过相邻节点间的协作就可以使每个节点得到与集中训练方式相当的预测效果，而且也可以得到比集中训练方式更为稀疏的预测模型，最重要的是可以显著降低核学习机训练过程中的数据通信代价，从而降低节点能量消耗、延长网络生命。为了实现上述目的，本发明在核学习机训练过程中包括三个重要机制。

机制1：节点本地核学习机优化问题求解方法。

在节点本地模型与邻居节点间的局部最优模型相一致的约束下，利用ALMM构建和求解基于L1正则化的KMSE的分布式训练优化问题。

机制2：节点本地稀疏模型求解。

利用交替方向乘子方法(Alternating Direction Method ofMultipliers,ADMM)对节点本地的L1正则化KMSE训练优化问题进行稀疏模型求解。

机制3：邻居节点间的协作机制。

为求解邻居节点间的局部最优模型、加快节点本地模型收敛和减少节点间数据传输量，相邻节点间以传输稀疏模型的方式进行协作，并将接收到的稀疏模型中携带的样本信息加入到本地样本集。

基于机制1、机制2和机制3的L1正则化KMSE的分布式训练方法有四个阶段，分别是：

1.节点本地初始化；2.节点本地稀疏模型求解和发送；3.节点接收邻居节点发送过来的稀疏模型，计算局部最优模型预测值，和本地乘子变量结果值；4.节点本地模型收敛条件判定。

基于ALMM的L1正则化核学习机的分布式训练方法，其是在以下前提条件下进行的：

a.网络中每个节点都有唯一的ID号；

b.网络结构稳定且连通；

c.网络中各节点仅与其单跳邻居节点通信；

d.网络中各节点使用相同的核函数、相同的核参数值和正则系数；

该L1正则化核学习机的分布式训练方法的步骤如下：

步骤1：节点本地关键参数初始化和本地训练样本数据预处理

步骤1.1：各节点初始化网络规模J、邻居节点集合B_j、本地训练样本集合S_j:＝{(x_jn,y_jn),n＝{1,2,…,N_j}},确定核函数k(x_i,x_j)并初始化核参数σ和正则系数λ。

其中，B_j是由节点j及其邻居节点构成的集合；x_jn∈R^p是节点j的第n个训练样本jn的特征向量，p为特征向量维数，y_jn∈Y:＝{1,-1}是训练样本jn对应的类别标签，N_j是训练样本数量；k(x_i,x_j)中x_i和x_j是两个训练样本，其作用是计算两个训练样本之间的距离，核参数σ是核函数中的一个常量参数，正则系数λ是L1正则项的一个常量参数，用于调节正则项在整个损失中的比例。

步骤1.2：各节点利用y＝(x-xmin)/(xmax-xmin)将本地训练样本的特征信息归一化到[0，1]区间；各节点为归一后的训练样本增加标识字段node_ID和example_ID以唯一标识每个训练样本，增加发送标识字段is_sended标识该样本是否已经发送过，以避免重复发送。

其中，x为训练样本的某一个特征信息，xmax和xmin分别为训练样本该特征信息的最大值和最小值，y为训练样本特征信息x归一处理后的结果。

步骤2：节点本地稀疏模型求解和发送

步骤2.1：各节点在本地模型和邻居节点间的局部最优模型相一致约束下，利用ALMM构建和求解基于L1正则化的KMSE的分布式训练优化问题，构建的优化问题形式如式(1)，相应的求解迭代形式如式(2)-式(4)。

在式(1)-式(4)中，f_j(x_jn)是节点j的本地模型对本地样本的预测值，为节点j及其邻居节点间的局部最优模型对节点j上训练样本的预测值；式(1)和式(2)中，λ||f_j||₁是对本地模型的L1正则化项，用于本地模型的稀疏求解；式(2)-式(4)中，p_j ^k(x_jn)是约束的乘子变量，c为一个正常数，是的增广系数；式(3)中，Num(B_j)是包括j在内的邻居节点数量。

步骤2.2：各节点利用核函数k(x_i,x_j)对本地归一化后的训练样本进行核矩阵计算和增广，得到增广矩阵K_j；

步骤2.3：各节点利用ADMM对式(2)的优化问题进行稀疏模型求解，对应的优化问题形式如式(5)，求解迭代形式如式(6)-式(8)。

z_j ^k+1:＝S_λ/ρ(α_j ^k+1+u_j ^k) (7)

u_j ^k+1:＝u_j ^k+α_j ^k+1-z_j ^k+1 (8)

在式(5)和式(6)中，K_j是本地训练样本的增广核矩阵，Y_j本地训练样本的类别标签向量，I为本地样本量加1，即N_j+1维的单位矩阵，α_j是要求解的本地训练样本的权重向量，z_j是利用ADMM增加的辅助向量，辅助α_j求解；在式(6)-式(8)中，ρ是约束α_j-z_j＝0的增广系数，是一个正常数，u_j为约束α_j-z_j＝0的乘子向量，S为软阈值操作符，其定义如式(9)，

步骤2.4：将解α_j ^k+1中非零项和对应的样本信息提取出来作为节点j∈J本地的稀疏模型，如式(10)所示：

步骤2.5：节点整理本地稀疏模型，如果稀疏模型中训练样本的is_sended字段为0，表示该样本还没有被发送过，此时需要将该训练样本的原始特征信息保留在模型中；如果is_sended字段为1，代表该训练样本的原始特征信息已经发送过，此时只将该样本的标识字段信息保留在模型中；

步骤2.6：节点将本地整理好的稀疏模型发送给其单跳邻居节点B_j；

步骤3：节点接收邻居节点发送过来的稀疏模型，计算局部最优模型预测值和本地乘子变量结果值

步骤3.1：节点j∈J接收邻居节点发送过来的稀疏模型f_i ^k+1(x_i),i∈B_j，并将每个稀疏模型中携带的样本信息不重复的加入到本地训练样本集；

步骤3.2：节点j∈J利用接收到的各稀疏模型对本地训练样本进行预测，利用ALMM求解局部最优模型预测值公式式(3)，求出本地训练样本的局部最优模型预测值

步骤3.3：节点j∈J本地利用ALMM求解乘子变量公式式(4)，求出节点本地乘子变量结果值p_j ^k+1(x_j)；

步骤4：节点本地模型收敛条件判定

步骤4.1：节点本地判断模型是否满足收敛条件，收敛条件为节点本地样本集稳定并且节点前后两次得到的模型相同；当所有节点都满足收敛条件时，执行步骤4.3，否则转步骤4.2；

步骤4.2：节点本地按照阶段2、阶段3的顺序进行优化求解；

步骤4.3：节点模型收敛f_j ^*(x_j)，结束优化求解过程。

最终通过相邻节点间的协作就使每个节点得到与集中训练方式相当的预测效果，且得到比集中训练方式更为稀疏的预测模型，最重要的是可以显著降低核学习机训练过程中的数据通信代价。

与现有的无线传感器网络下核学习机的分布式训练方法对比，本发明具有明显而有益的效果。

(1)本发明能够使各节点得到的预测模型具有与集中式训练方法相当的预测效果，保证了模型的预测精度。

(2)本发明仅依靠相邻节点间传输稀疏模型的方式进行协作，能够显著降低核学习机训练过程中的数据传输量，而且能够避免链路建立和维护的能量消耗，可以显著降低节点能量消耗，延长网络的生命周期。

(3)本发明可以得到非常稀疏的预测模型，可以降低节点在实际预测时的能量消耗。

(4)本发明可适用于不同规模、不同拓扑结构和不同连通度的无线传感器网络，但不局限于无线传感器网络。

附图说明

图1为本发明的实施流程图。

图2为本发明在模拟数据集上的模型预测效果与其他方法的对比图。

图3为本发明在模拟数据集上的数据传输量与其他方法的对比图。

图4为本发明在模拟数据集上的模型稀疏效果与其他方法的对比图。

图5为本发明在UCI数据集上的模型预测效果与其他方法的对比图。

图6为本发明在UCI数据集上的数据传输量与其他方法的对比图。

图7为本发明在UCI数据集上的模型稀疏效果与其他方法的对比图。

具体实施方式

结合图1-7，详细描述本发明的实施方式。本发明的实施基于以下前提条件：a.网络中每个节点都有唯一的ID号；b.网络结构稳定且连通；c.网络中各节点仅与其单跳邻居节点通信；d.网络中各节点上使用相同的核函数和相同的参数值；

1.节点本地初始化阶段的实施说明

初始化网络规模J及其邻居节点B_j；节点j∈J初始化本地训练样本数据，并利用y＝(x-xmin)/(xmax-xmin)对本地训练样本的特征信息归一化到[0，1]区间；节点j∈J为本地训练样本增加标识字段node_ID为节点ID和example_ID从1开始顺序为本地样本编号，增加发送标识字段is_sended标识该样本是否已经发送过，用1或0标识；采用高斯核函数k(x_i,x_j)＝exp(-||x_i-x_j||²/2σ²)，初始化核参数σ、正则系数λ、迭代次数k＝0、本地样本局部最优模型预测值本地乘子系数p_j ^k(x_j)＝0等参数。

其中，x_j为本地训练样本归一后的特征信息，y_j为本地训练样本对应的类别标签向量；乘子变量初始化为维数同本地训练样本数相同的0向量。

2.节点本地稀疏模型求解和发送阶段实施说明

迭代次数k＝k+1，节点j∈J利用高斯核函数k(x_i,x_j)＝exp(-||x_i-x_j||²/2σ²)对本地归一化后的训练样本计算核矩阵，并在其左侧进行常数项为1的增广，得到增广矩阵K_j；利用迭代求解形式式(6)-式(10)求出本地训练样本的权重系数α_j ^k+1及稀疏模型f_j ^k+1(x_jn)，实施中，式(6)中的常数项c和ρ的取值均为1；整理本地稀疏模型，如果稀疏模型中训练样本的is_sended字段为0，表示该样本还没有被发送过，此时需要将该训练样本的原始特征信息保留在模型中；如果is_sended字段为1，代表该训练样本的原始特征信息已经发送过，此时只将该样本的标识字段信息保留在模型中；节点将本地整理好的稀疏模型广播发送给其单跳邻居节点B_j；

3.节点接收邻居节点发送过来的稀疏模型阶段的具体实施

节点j∈J接收邻居节点发送过来的稀疏模型f_i ^k+1(x_i),i∈B_j，并将每个稀疏模型中携带的样本信息不重复的加入到本地训练样本集；节点j∈J利用接收到的各稀疏模型对本地训练样本进行预测，利用ALMM求解局部最优模型预测值公式式(3)，求出本地训练样本的局部最优模型预测值节点j∈J本地利用ALMM求解乘子系数公式式(4)，求出节点本地乘子系数结果值p_j ^k+1(x_j)；

4.节点本地模型收敛条件判定

节点本地判断模型是否满足收敛条件，收敛条件为：N_j ^k+1＝N_j ^k和f_j ^k+1(x_j)＝f_j ^k(x_j)，即节点本地样本集稳定并且节点前后两次得到的模型相同；当所有节点都满足收敛条件时，节点j∈J模型收敛f_j ^*(x_j)＝f_j ^k+1(x_j)，结束优化求解过程，否则，节点本地按照阶段2、阶段3的顺序继续进行优化求解；

5.仿真实验评估

采用仿真软件MATLAB2013版，在Microsoft windows 7，CPU主频为3.2GHz，内存4.0GB下仿真验证本发明方法。使用模拟数据集和UCI数据库中的3个基准数据集对本发明的方法进行实验验证。其中模拟数据集由两类非线性可分的数据组成，一类服从均值为mu₁＝[0,0]^T，协方差矩阵为∑＝[0.6,0；0,0.4]^T的二维高斯分布；另一类服从混合参数分别为π₁＝0.3和π₂＝0.7，均值分别为mu₂＝[-2,-2]^T和mu₃＝[2,2]^T，协方差矩阵均为∑的二维混合高斯分布。模拟数据集和UCI中的3个基准数据集的基本信息如表1所示：

表1.UCI数据集基本信息

实验中使用节点规模为30、平均节点度为2.7333的网络进行实验。为了与其他方法相区别，在实验中本发明方法命名为L1-DKMSE-ALMM，对比方法包括：集中式方法CSVM和L1-CKMSE，分布式方法AP-DKMSE和DPSVM。实验中使用的各参数的参数值，如表2所示。基于此实验设置，在每个数据集上进行30次实验。

表2.不同算法在不同数据集上使用的参数值

实验结果分析1。图2显示了在模拟数据集上该发明的模型预测效果与其他方法的对比，从图2可以看出本发明的方法可以收敛到集中式训练方法的预测效果；图3显示了在模拟数据集上该发明的模型稀疏效果与其他方法的对比，从图3可以看出本发明的方法可以得到较其他比较方法都稀疏的模型；图4显示了在模拟数据集上该发明的数据传输量与其他方法的对比，从图4可以看出本发明的方法在数据传输量性能上与DPSVM方法结果相差不明显，但较其他方法都具有显著优势。

实验结果分析2。图5显示了在UCI数据集上该发明的模型预测效果与其他方法的对比，从图5可以看出本发明的方法在UCI的多个基准数据集上同样可以收敛到集中式训练方法的预测效果；图6显示了在UCI数据集上该发明的模型稀疏效果与其他方法的对比，从图6可以看出本发明的方法在UCI的多个基准数据集上同样可以得到最为稀疏的模型；图7显示了在UCI数据集上该发明的数据传输量与其他方法的对比，从图7可以看出本发明的方法在在UCI的多个基准数据集上的数据传输量性能较其他对比方法具有显著优势。

Claims

1.基于ALMM的L1正则化核学习机的分布式训练方法，本方法在核学习机训练过程中包括三个重要机制；

机制1：节点本地核学习机优化问题求解方法；

在节点本地模型与邻居节点间的局部最优模型相一致的约束下，利用增广拉格朗日乘子方法构建和求解基于L1正则化的KMSE的分布式训练优化问题；

机制2：节点本地稀疏模型求解；

利用交替方向乘子法对节点本地的L1正则化KMSE训练优化问题进行稀疏模型求解；

机制3：邻居节点间的协作机制；

为求解邻居节点间的局部最优模型、加快节点本地模型收敛和减少节点间数据传输量，相邻节点间以传输稀疏模型的方式进行协作，并将接收到的稀疏模型中携带的样本信息加入到本地样本集；

1.节点本地初始化；2.节点本地稀疏模型求解和发送；3.节点接收邻居节点发送过来的稀疏模型，计算局部最优模型预测值，和本地乘子变量结果值；4.节点本地模型收敛条件判定；

a.网络中每个节点都有唯一的ID号；

b.网络结构稳定且连通；

c.网络中各节点仅与其单跳邻居节点通信；

其特征在于：该L1正则化核学习机的分布式训练方法的步骤如下：

步骤1：节点本地关键参数初始化和本地训练样本数据预处理

步骤1.1：各节点初始化网络规模J、邻居节点集合B_j、本地训练样本集合S_j:＝{(x_jn,y_jn),n＝{1,2,…,N_j}},确定核函数k(x_i,x_j)并初始化核参数σ和正则系数λ；

其中，B_j是由节点j及其邻居节点构成的集合；x_jn∈R^p是节点j的第n个训练样本jn的特征向量，R为实数集合，p为实数特征向量维数，y_jn∈Y:＝{1,-1}是训练样本jn对应的类别标签，N_j是训练样本数量；k(x_i,x_j)中x_i和x_j是两个训练样本，其作用是计算两个训练样本之间的距离，核参数σ是核函数中的一个常量参数，正则系数λ是L1正则项的一个常量参数，用于调节正则项在整个损失中的比例；

步骤1.2：各节点利用y＝(x-xmin)/(xmax-xmin)将本地训练样本的特征信息归一化到[0，1]区间；各节点为归一后的训练样本增加标识字段node_ID和example_ID以唯一标识每个训练样本，增加发送标识字段is_sended标识该样本是否已经发送过，以避免重复发送；

其中，x为训练样本的某一个特征信息，xmax和xmin分别为训练样本该特征信息的最大值和最小值，y为训练样本特征信息x归一处理后的结果；

步骤2：节点本地稀疏模型求解和发送

步骤2.1：各节点在本地模型和邻居节点间的局部最优模型相一致约束下，利用ALMM构建和求解基于L1正则化的KMSE的分布式训练优化问题，构建的优化问题形式如式(1)，相应的求解迭代形式如式(2)-式(4)；

在式(1)-式(4)中，f_j(x_jn)是节点j的本地模型对本地第n个样本的预测值，为节点j及其邻居节点间的局部最优模型对节点j上第n个样本的预测值；式(1)和式(2)中，λ||f_j||₁是对本地模型的L1正则化项，用于本地模型的稀疏求解；式(2)-式(4)中，p_j ^k(x_jn)是约束的乘子变量，c为一个正常数，是约束的增广系数；式(3)中，Num(B_j)是包括j在内的邻居节点数量；

步骤2.3：各节点再次利用ADMM对式(2)的优化问题进行稀疏模型求解，对应的优化问题形式如式(5)，求解迭代形式如式(6)-式(8)；

z_j ^k+1:＝S_λ/ρ(α_j ^k+1+u_j ^k) (7)

u_j ^k+1:＝u_j ^k+α_j ^k+1-z_j ^k+1 (8)

在式(5)和式(6)中，K_j是本地训练样本的增广核矩阵，Y_j本地训练样本的类别标签向量，I为本地样本量加1，即N_j+1维的单位矩阵，α_j是要求解的本地训练样本的权重向量，z_j是利用ADMM增加的辅助向量，辅助α_j求解；在式(6)-式(8)中，ρ是约束α_j-z_j＝0的增广系数，是一个正常数，u_j为约束α_j-z_j＝0的乘子向量，S_λ/ρ()为软阈值操作函数，其定义如式(9)，

步骤4：节点本地模型收敛条件判定

步骤4.2：节点本地按照阶段2、阶段3的顺序进行优化求解；

步骤4.3：节点模型收敛f_j ^*(x_j)，结束优化求解过程；