CN111950611A - 基于随机梯度追踪技术的大数据二分类分布式优化方法 - Google Patents

基于随机梯度追踪技术的大数据二分类分布式优化方法 Download PDF

Info

Publication number
CN111950611A
CN111950611A CN202010749536.9A CN202010749536A CN111950611A CN 111950611 A CN111950611 A CN 111950611A CN 202010749536 A CN202010749536 A CN 202010749536A CN 111950611 A CN111950611 A CN 111950611A
Authority
CN
China
Prior art keywords
data
strategy
distributed
classification
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010749536.9A
Other languages
English (en)
Inventor
李华青
郑李逢
董滔
王政
吕庆国
严羽
冯丽萍
邬祥钊
郑祖卿
郭靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University
Original Assignee
Southwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University filed Critical Southwest University
Priority to CN202010749536.9A priority Critical patent/CN111950611A/zh
Publication of CN111950611A publication Critical patent/CN111950611A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于随机梯度追踪技术的大数据二分类分布式优化方法,具体步骤为:设定二分类问题,获取训练样本数据、测试样本数据、样本特征;采用one‑hot编码将训练样本数据和测试样本数据扩展成向量数据,得到训练样本向量数据和测试样本向量数据;将训练样本向量数据进行智能体分配,结合梯度跟踪策略与随机平均梯度策略,建立带未知参数的分布式随机梯度跟踪策略S‑DIGing的问题模型;求解未知参数;将测试样本向量数据代入分布式随机梯度跟踪策略S‑DIGing的问题模型中进行二分类验证,并输出所述二分类问题对应的分布式随机梯度跟踪策略S‑DIGing的问题模型。极大降低了策略的复杂度和计算量,从而使S‑DIGing策略能够很好地处理大规模问题。

Description

基于随机梯度追踪技术的大数据二分类分布式优化方法
技术领域
本发明涉及大数据分类处理技术领域,具体的说是一种基于随机梯度追踪技术的大数据二分类分布式优化方法。
背景技术
随着无线传感器网络、智能电网、机器学习和云计算等领域应用的出现,分布式优化理论和应用受到了广泛关注,并逐渐渗透到科学研究、工程应用和社会生活的多个方面。与传统的集中优化问题不同,分布式优化问题的主要思想是利用网络中的多个智能体共同最小化全局目标函数
Figure BDA0002609570480000011
每个智能体计算自身的局部信息并将结果发送给其邻居代理。
在现有文献中,对分布式优化策略的研究主要基于牛顿法、次梯度下降法和拉格朗日法。
与其它两种策略相比,梯度下降策略相对简单,每个智能体只需计算局部目标函数的梯度,并根据梯度值进行梯度下降。基于梯度法,在文献[S.Liu,Z.Qiu,and L.Xie,“Convergence rate analysis of distributed optimization with projectedsubgradient algorithm,”Automatica,vol.83,pp.162–169,2017]中证明当衰减步长小于给定上界且全局目标函数强凸时,估值能以O(1/k)的速度收敛到全局最优解。为了进一步提高收敛速度,在文献[A.Nedi′c,A.Olshevsky,Shi,and Wei,“Achieving geometricconver-gence for distributed optimization over time-varying graphs,”SIAMJournal on Optimization,vol.27,no.4,pp.2597–2633,2017]中将非精确梯度法与梯度跟踪技术相结合,提出DIGing策略。该策略采用双随机矩阵和同构固定步长,只要固定步长不超过某个上界,DIGing策略就可以以线性速率收敛。上述文献提出的梯度跟踪策略的基础上,有专业技术人员创新性地发展了一种对偶策略(PANDA)。PANDA策略的优点是,它每次迭代需要的通信量只是DIGing策略的一半。但是PANDA策略在每次迭代所消耗的计算量比DIGing策略的高,详见M.Maros and J.Jald~A c?n,“Panda:A dual linearlyconverging method for distributed optimization over time-varying undirectedgraphs,”in 2018IEEE Conference on Decision and Control(CDC),pp.6520–6525,2018。
与梯度下降法不同,基于牛顿法的策略通常具有更快的收敛速度,但计算成本更高。该类策略利用局部一阶和二阶偏导数信息估计全局目标函数的梯度,并以此进行变量更新来得到全局最优解。为了降低计算量,一种计算量较小的拟牛顿法被提出了。拟牛顿法的基本思想是避免在每次迭代求解Hessian矩阵的逆。它使用正定矩阵来逼近Hessian矩阵的逆,从而简化了计算复杂度,详见文献(S.Bolognani and S.Zampieri,“DistributedQuasi-Newton method and its application to the optimal reactive power flowproblem,”IFAC Proceedings Volumes,vol.43,no.19,pp.305–310,2010.以及A.Lewisand M.Overton,“Nonsmooth optimization via quasi-Newton methods,”MathematicalProgramming,vol.141,no.1-2,pp.135–163,2013.)。
结合文献“W.Lin,Y.Wang,C.Li,and J.Xiao,“Global optimization:Adistributed compensation algorithm and its convergence analysis,”IEEETransac-tions on Systems,Man,and Cybernetics:Systems,pp.1–15,2019.”可知,拉格朗日乘子法主要用于求解约束优化问题。其基本思想是通过引入拉格朗日乘子将m变量和d约束的约束优化问题转化为m+d变量的无约束优化问题。典型的例子是分布式交替方向乘子法(ADMM),在此基础上,许多分布式策略被提出。对于强凸函数,这些策略能够以线性收敛速度收敛至全局最优解,但由于每个智能体在每个时刻都要对其局部目标函数进行优化,计算量大。
在分布式环境下处理如机器学习、数据挖掘等问题时,局部目标函数
Figure BDA0002609570480000031
通常十分繁杂,上述策略都需要花费较高的计算代价求解局部梯度
Figure BDA0002609570480000032
故有必要提出一种新的优化方法来解决现有技术存在的问题。
发明内容
针对上述问题,本发明提供了一种基于随机梯度追踪技术的大数据二分类分布式优化方法,结合梯度跟踪策略与随机平均梯度策略,提出了基于随机平均梯度的梯度追踪(S-DIGing)策略,建立问题模型,进行大数据二分类设计,解决大数据分类问题,分类误差小。
为达到上述目的,本发明采用的具体技术方案如下:
一种基于随机梯度追踪技术的大数据二分类分布式优化方法,其关键技术在于:具体步骤为:
S1:设定二分类问题,获取对应二分类问题的数据集,从数据集中选取出N个训练样本数据和K个测试样本数据,并获取数据集样本的样本特征;
S2:采用one-hot编码将训练样本数据和测试样本数据扩展成向量数据,得到N个训练样本向量数据和K个测试样本向量数据;
S3:将N个训练样本向量数据进行智能体分配,每个智能体分配到qi个训练样本向量数据;
S4:结合梯度跟踪策略与随机平均梯度策略,建立带未知参数的分布式随机梯度跟踪策略S-DIGing的问题模型;
S5:求解分布式随机梯度跟踪策略S-DIGing的问题模型的未知参数;
S6:将K个测试样本向量数据代入分布式随机梯度跟踪策略S-DIGing的问题模型中进行二分类验证,并输出所述二分类问题对应的分布式随机梯度跟踪策略S-DIGing的问题模型。
通过上述设计,提出了一种将梯度跟踪策略与随机平均梯度相结合的分布式随机梯度跟踪策略,解决了局部目标函数均为瞬时函数的分布式优化问题。采用无偏随机梯度技术,极大地降低了智能体计算局部目标函数梯度的计算开销。
进一步的,所述带未知参数的分布式随机梯度跟踪策略S-DIGing的问题模型为:
Figure BDA0002609570480000041
li,h∈{-1,+1}表示智能体i的第h个样本的标签;ci,h表示智能体i第h个样本训练数据;m为智能体的个数;即将N个训练样本数据
Figure BDA0002609570480000042
分配至m个智能体上,qi为每个智能体获得的样本;||·||为向量的欧几里得范数与矩阵的谱范数;
Figure BDA0002609570480000043
表示实数集,
Figure BDA0002609570480000044
为n维的实数集;
Figure BDA0002609570480000045
为问题模型的未知参数;
Figure BDA0002609570480000046
为变量。
再进一步的技术方案为:所述求解分布式随机梯度跟踪策略S-DIGing的问题模型的未知参数的步骤为:S51、每个智能体
Figure BDA0002609570480000047
Figure BDA0002609570480000048
是智能体集合;初始化
Figure BDA0002609570480000049
h=0…qi
Figure BDA00026095704800000410
并设定随机时刻k的最大阈值;设定存储空间,用于保存所有的智能体,其中每个智能体对应设置一个存储位置;S52、令k=0;S53、对m个智能体同时进行计算,设i∈{1,2,…m},
S54、将变量
Figure BDA0002609570480000051
更新到
Figure BDA0002609570480000052
其中:α是固定步长;
Figure BDA0002609570480000053
是加权的邻接矩阵,其中关于边(i,j)的权重wij满足如下条件:如果(i,j)∈则wij>0,否则wij=0,并且
Figure BDA0002609570480000054
Figure BDA0002609570480000055
为变量;
Figure BDA0002609570480000056
为变量;
Figure BDA0002609570480000057
S55、从集合{1,...,qi}中随机选择
Figure BDA0002609570480000058
其中,
Figure BDA0002609570480000059
指代智能体i在k时刻随机选取的函数编号;
S56、根据步骤S55选择的智能体函数编号,令此时
Figure BDA00026095704800000510
则令
Figure BDA00026095704800000511
Figure BDA00026095704800000512
并将对应数据保存到的第
Figure BDA00026095704800000513
个智能体的存储位置上;存储空间中的其余存储位置
Figure BDA00026095704800000514
上的数据,不变;继承上一时刻的值;即:
Figure BDA00026095704800000515
Figure BDA00026095704800000516
为所有瞬时函数的和;
Figure BDA00026095704800000517
Figure BDA00026095704800000518
为变量;
Figure BDA00026095704800000519
为智能体i在k时刻随机计算一个瞬时函数的梯度;h∈{1,…,qi}来逼近
Figure BDA00026095704800000520
S57、计算并存储智能体i的随机平均梯度
Figure BDA00026095704800000521
Figure BDA00026095704800000522
S58、更新变量
Figure BDA00026095704800000523
Figure BDA00026095704800000524
S59、判断k是否大于等于k的最大阈值,若是,计算结束,输出最后一次更新的
Figure BDA00026095704800000525
并令
Figure BDA00026095704800000526
否则令k=k+1;进入步骤S53。
再进一步的技术方案为:在步骤S6中进行二分类验证时,当
Figure BDA00026095704800000527
大于等于0时,为一类数据;当
Figure BDA0002609570480000061
小于0时,为另一类数据。
在进行优化问题设计时,具体推理内容为:
一、准备内容:优化问题:考虑一个包含m个智能体的网络,其中所有的智能合作地求解以下优化问题,具体公式为:
Figure BDA0002609570480000062
其中局部目标函数fi(·)仅被智能体i所知。假定问题公式(1)的最优解为
Figure BDA0002609570480000063
网络模型:定义一个无向图
Figure BDA0002609570480000064
其中
Figure BDA0002609570480000065
是智能体集合,
Figure BDA0002609570480000066
是边集合,
Figure BDA0002609570480000067
是加权的邻接矩阵,其中关于边(i,j)的权重wij满足如下条件:如果(i,j)∈ε则wij>0,否则wij=0。令自循环存在,即(i,i)∈,并且令
Figure BDA0002609570480000068
当且仅当存在一条边(i,j)∈ε时,智能体i和j才能直接进行通信。
为了能以分布式形式解决该优化问题,将上述问题等价转换成以下公式:
Figure BDA0002609570480000069
Figure BDA00026095704800000610
其中,
Figure BDA00026095704800000611
在该情形下,问题公式(2)的最优解变成了
Figure BDA00026095704800000612
假设1:无向图
Figure BDA00026095704800000613
是无向连通的。
假设2:每个瞬时函数fi h是强凸并且有利普希茨连续梯度,即对于所有
Figure BDA00026095704800000614
下式成立,具体公式为:
Figure BDA00026095704800000615
Figure BDA00026095704800000616
其中,Lf>μ>0。
二、策略开发:梯度追踪策略:在现有技术提出了经典的梯度追踪(DIGing),详见文献“A.Likas,N.Vlassis,and J.Verbeek,“The global k-meansclusteringalgorithm,”Pattern recognition,vol.36,no.2,pp.451–461,2003.”,具体经典的梯度追踪(DIGing)策略为:
Figure BDA0002609570480000071
Figure BDA0002609570480000072
其中,α是固定步长。在初始时刻,智能体i设置变量
Figure BDA0002609570480000073
智能体i对变量
Figure BDA0002609570480000074
的更新是经典的梯度下降步骤,并以
Figure BDA0002609570480000075
替代了传统的梯度项
Figure BDA0002609570480000076
智能体i对变量
Figure BDA0002609570480000077
的更新是对全局梯度的追踪。
为了方便分析,我们定义:
Figure BDA0002609570480000078
Figure BDA0002609570480000079
因此策略(5a)和(5b)的向量形式可以表达如下:
xk+1=Wxk-αyk (6a)
Figure BDA00026095704800000710
其中,
Figure BDA00026095704800000711
无偏随机平均梯度:回顾局部目标函数fi(xi)和瞬时函数fi h(xi)的定义,梯度追踪DIGing策略在计算梯度时需要计算所有瞬时函数的和如下:
Figure BDA00026095704800000712
当qi的数量级较大时,梯度的计算需要大量的计算资源和时间开支。为了克服计算资源和时间开支大的问题,本发明利用局部化的SAGA技术,采用一种无偏随机平均梯度以替换原本难以计算的梯度项利用该随机梯度技术,智能体i在k时刻随机计算一个瞬时函数的梯度
Figure BDA0002609570480000081
h∈{1,…,qi}来逼近
Figure BDA0002609570480000082
Figure BDA0002609570480000083
指代智能体i在k时刻随机选取的函数编号,则
Figure BDA0002609570480000084
的更新如下:
Figure BDA0002609570480000085
其中,
Figure BDA0002609570480000086
下一步,定义智能体i的随机平均梯度公式为:
Figure BDA0002609570480000087
Figure BDA0002609570480000088
表示系统在k时刻之前发生的事件,则
Figure BDA0002609570480000089
这意味着该随机平均梯度是无偏的。考虑式子(8),由于计算瞬时函数的和
Figure BDA00026095704800000810
需要极大的计算开支,因此计算平均梯度
Figure BDA00026095704800000811
依然非常消耗资源。为了避免这一缺陷,以如下方式进行计算平均梯度
Figure BDA00026095704800000812
根据式子(9),仅需消耗少量资源即可计算式子(8)中需要的
Figure BDA00026095704800000813
为了以低能耗且高效的方式快速的解决问题公式(2),本发明提出了一种随机梯度追踪(S-DIGing)策略来计算问题模型的未知参数,详见上述未知参数计算步骤。
其中,根据xk和yk的定义,该策略可以写成如下的向量形式:
xk+1=Wxk-αyk (10a)
yk+1=Wyk+gk+1-gk (10b)
S-DIGing策略的等价形式:考虑问题公式(2),约束xi=xj
Figure BDA00026095704800000814
i=1,...,m,可以等价地写成
Figure BDA00026095704800000815
其中的矩阵
Figure BDA00026095704800000816
满足当|i≠j时lij=-wij,当i=j时lij=1-wij。令
Figure BDA0002609570480000091
构建增广拉格朗日函数如下:
Figure BDA0002609570480000092
其中λ是格朗日乘子,步长α>0。因此,带约束优化问题公式(2)可以转变为一个鞍点寻求问题。根据其偏微分:
Figure BDA0002609570480000093
以及
Figure BDA0002609570480000094
给出S-DIGing策略的原对偶策略形式如下:
Figure BDA0002609570480000095
Figure BDA0002609570480000096
上述公式等价于:
Figure BDA0002609570480000097
λk+1=λk+Lxk+1 (11b)
其中x0=0,λ0=0。结果表明,每个智能体的xk更新本质上是梯度下降,而每个智能体的λk更新是梯度上升的。
然后,我们建立了结合公式(10a)(10b)(11a)(11b)的S-DIGing策略,写出策略公式(10)的迭代形式,可得,
Figure BDA0002609570480000098
xk+1=2Wxk-W2xk-1-α(gk-gk-1) (12)
因为x0=0和x1=Wx0-αg0,式子(12)两端同时减去xk,可知对于所有k≥1,
xk+1-xk=(2W-I)xk-W2xk-1-α(gk-gk-1) (13)
将x1=Wx0-αg0,(x2-x1),(x3-x2),...,(xk+1-xk)相加并结合(13)后,可得:
Figure BDA0002609570480000101
令U=I-W≥0,式子(14)可写为
Figure BDA0002609570480000102
定义
Figure BDA0002609570480000103
式子(15)等价于
Figure BDA0002609570480000104
其中L=U=I-W,x0=0,λ0=0。取初始值x0=0和λ0=0时,可以发现策略(16a)(16b)就是一种原始-对偶策略。
三、收敛性分析:介绍一些证明S-DIGing策略收敛性所需的必要引理。
在此之前,对于所有k≥0,定义一些变量:
Figure BDA0002609570480000105
可得:
Figure BDA0002609570480000106
下一步,我们分析式子(17)右边第三项的上界。
初步结果:引理1:在假设1和2成立的条件下,回顾策略公式(16a)(16b),可得
Figure BDA0002609570480000107
其中η>0并且0<φ<2μ;证明:考虑xk+1=W2xk-αgk-Lλk,下式成立:
Figure BDA0002609570480000108
从式子(18)两边减去
Figure BDA0002609570480000111
并且结合
Figure BDA0002609570480000112
可知:
Figure BDA0002609570480000113
在式子(19)两端乘上2(xk+1-x*)T可得:
Figure BDA0002609570480000114
接下来,求解式子(20)右边第三项的上界。利用基础不等式;
2aTb≤(1/φ)||a||2+φ||b||2
Figure BDA0002609570480000115
φ>0;可得
Figure BDA0002609570480000116
其中η>0并且0<φ<2μ。引理证明完毕。结合引理1和公式(17),可得
Figure BDA0002609570480000117
为了处理式子(22)的右端,我们引入引理2:
引理2:若假设1和假设2成立,随机平均梯度gk和最优梯度
Figure BDA0002609570480000121
的方差的期望的上界如下:
Figure BDA0002609570480000122
其中,
Figure BDA0002609570480000123
引理3:定义qmin为qmax为qi,i=1,…,m,中的最小值和最大值,即
Figure BDA0002609570480000124
Figure BDA0002609570480000125
令假设1和假设2成立,则对于所有k≥0,序列pk满足:
Figure BDA0002609570480000126
引理4:对于所有k≥0,可知:
Figure BDA0002609570480000127
其中Q=(I+3W)(I-W)+α(2μ-φ)I>0,0<γ<1,η>0,c>0和0<φ<2μ。
证明:对公式(22)取条件期望并利用引理2去处理,
Figure BDA0002609570480000128
的上界,推导可得:
Figure BDA0002609570480000131
在式子(23)两端加上
Figure BDA0002609570480000132
c>0可得;
Figure BDA0002609570480000133
在式子(24)两端加上
Figure BDA0002609570480000134
其中Q>0,0<γ<1,则引理证明完毕。
引理5:令
Figure BDA0002609570480000135
指代无向图的拉普拉斯矩阵,则以下声明成立。
(i)定义
Figure BDA0002609570480000136
则存在一个对角矩阵
Figure BDA0002609570480000137
满足
Figure BDA0002609570480000138
其中Λ是以
Figure BDA0002609570480000139
的非零特征值为对角元素的矩阵。此外,RTR=I,
Figure BDA00026095704800001310
(ii)对于任意的
Figure BDA00026095704800001311
Figure BDA00026095704800001312
其中
Figure BDA00026095704800001313
Figure BDA00026095704800001314
的最小非零特征值。
证明:因为拉普拉斯矩阵
Figure BDA00026095704800001315
是双随机矩阵,并有
Figure BDA00026095704800001316
可知存在一个矩阵
Figure BDA00026095704800001317
使得
Figure BDA00026095704800001318
并且ΞTΞ=ΞΞT=I。定义
Figure BDA0002609570480000141
其中
Figure BDA0002609570480000142
考虑ΞΞT=I,推导可得
Figure BDA0002609570480000143
这意味着对于所有i,j=1,...,m,如果i=j则
Figure BDA0002609570480000144
否则
Figure BDA0002609570480000145
Figure BDA0002609570480000146
类似的,对于所有i,j=2,...,m,如果i=j则
Figure BDA0002609570480000147
否则
Figure BDA0002609570480000148
即,RTR=I。引理5(i)证明完毕。考虑Ξ和Λ的定义,证明可得:
Figure BDA0002609570480000149
则:
Figure BDA00026095704800001410
主要结果:
定理1:考虑策略(16a)(16b),令引理1-5需要的条件成立,若参数η和c满足:
Figure BDA00026095704800001411
并在如下区间选取步长α:
Figure BDA00026095704800001412
其中0<φ<2μ,则策略产生的变量,xk,将以线性速率O((1+δ)-k)收敛到全局最优解x*,即,||xk+1-x*||2≤(1+δ)-1||xk-x*||2,其中e>1,d>1,
Figure BDA0002609570480000151
证明:定义
Figure BDA0002609570480000152
如果存在δ>01使得
Figure BDA0002609570480000153
Figure BDA0002609570480000154
则S-DIGing策略产生的xk将线性地收敛到全局最优解x*
证明
Figure BDA0002609570480000155
成立的充分条件是
Figure BDA0002609570480000156
利用引理3和假设2可得:
Figure BDA0002609570480000157
则式子(28)的充分条件如下
Figure BDA0002609570480000161
观察上式,发现不等式左边仅有
Figure BDA0002609570480000162
很难直接分析不等式成立的条件。因此,我们下一步将寻求式子(30)左端的一个上界,该上界严格小于式子(30)的右端。为了这个目的,利用式子(19)和基础不等式:
||a+b||2≤τ||a||2+τ/(τ-1),
Figure BDA0002609570480000163
τ>0,可得
Figure BDA0002609570480000164
其中e>1和d>1。利用引理2,并计算条件期望可得:
Figure BDA0002609570480000165
由于xk和pk在k时刻已经是定值,所以上式中:
Figure BDA0002609570480000171
Figure BDA0002609570480000172
利用引理5,并用ρ2(L2)||λk+1*||2替换式子(32)中的||L(λk+1*)||2
可得:
Figure BDA0002609570480000173
结合式子(30)和(33),式子(28)的充分条件可写为
Figure BDA0002609570480000174
条件(34)成立的充分条件如下
Figure BDA0002609570480000181
Figure BDA0002609570480000182
Figure BDA0002609570480000183
Figure BDA0002609570480000184
如果α和δ满足:
Figure BDA0002609570480000185
可以证实(35)成立。根据Q=(I+3W)(I-W)+α(2μ-φ)I,并且注意:
ρmin(Q)=α(2μ-φ),ρmax(Q)=maxi{(1+3ρi(W))(1-ρi(W))}+α(2μ-φ);
ρmax(W(W-I))=maxii(W)(ρi(W)-1)}
那么,如果存在一个正常数δ,使得
Figure BDA0002609570480000186
重新计算(37),我们得到:
Figure BDA0002609570480000187
其中,0<φ<2μ。
我们可以选择一个足够小的非负常数δ,使得(42)在其左手边为正时成立。为此,我们选择了满足要求的参数η和c
Figure BDA0002609570480000191
Figure BDA0002609570480000192
则存在:
Figure BDA0002609570480000193
同样地,我们有(38)的一个充分条件:
Figure BDA0002609570480000194
Figure BDA0002609570480000195
Figure BDA0002609570480000196
综上所述,我们得到算法1以线性速率O((1+δ)-k)收敛到x*的条件(25)、(26)、(27),0<φ<2μ和0<γ<1满足要求,证明完成。
四、分布式逻辑回归:
利用S-DIGing策略解决一个逻辑回归问题,并研究策略在不同设置下的性能。将总共
Figure BDA0002609570480000197
个样本分配至m个智能体上,每个智能体获得qi个样本。假设样本是平均分配的,即,qi=N/m,
Figure BDA0002609570480000198
将利用无向网络内的m个智能体合作地解决问题,其中问题模型为:
Figure BDA0002609570480000199
基于以上分析,问题模型(49)中的局部函数fi可定义为:
Figure BDA00026095704800001910
其中:
Figure BDA0002609570480000201
本发明的有益效果:提出的S-DIGing策略利用局部目标函数的无偏随机梯度代替标准梯度,极大降低了策略的复杂度和计算量,从而使S-DIGing策略能够很好地处理大规模问题,尤其是在机器学习、数据挖掘等领域有着出色的发挥。给出了光滑和强凸瞬时函数的线性收敛速度,与策略收敛所需的条件。与现有的S-AB策略相比,S-DIGing策略能够准确地收敛到全局最优解,而不是全局最优解的邻域。
附图说明
图1是本发明分布式优化方法流程图;
图2是问题模型的未知参数求解方法流程图;
图3是DIGing策略与S-DIGing策略的收敛速度对比结果示意图;
图4是测试结果的准确度情况示意图;
图5是策略在不同步长下的收敛过程示意图;
图6是第二实施例中采用的网络拓扑结构示意图;
图7是策略在不同网络规模下的收敛性能示意图;
图8是随机选取的100张数字图。
具体实施方式
下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。
一种基于随机梯度追踪技术的大数据二分类分布式优化方法,结合图1可以看出,具体步骤为:
S1:设定二分类问题,获取对应二分类问题的数据集,从数据集中选取出N个训练样本数据和K个测试样本数据,并获取数据集样本的样本特征;S2:采用one-hot编码将训练样本数据和测试样本数据扩展成向量数据,得到N个训练样本向量数据和K个测试样本向量数据;S3:将N个训练样本向量数据进行智能体分配,每个智能体分配到qi个训练样本向量数据;S4:结合梯度跟踪策略与随机平均梯度策略,建立带未知参数的分布式随机梯度跟踪策略S-DIGing的问题模型;S5:求解分布式随机梯度跟踪策略S-DIGing的问题模型的未知参数;S6:将K个测试样本向量数据代入分布式随机梯度跟踪策略S-DIGing的问题模型中进行二分类验证,并输出所述二分类问题对应的分布式随机梯度跟踪策略S-DIGing的问题模型。
所述带未知参数的分布式随机梯度跟踪策略S-DIGing的问题模型为:
Figure BDA0002609570480000211
其中,li,h∈{-1,+1}表示智能体i的第h个样本的标签;ci,h表示智能体i第h个样本训练数据;m为智能体的个数;即将N个训练样本数据
Figure BDA0002609570480000212
分配至m个智能体上,qi为每个智能体获得的样本;||·||表示向量的欧几里得范数与矩阵的谱范数;
Figure BDA0002609570480000213
表示实数集,
Figure BDA0002609570480000214
表示n维的实数集;
Figure BDA0002609570480000215
为问题模型的未知参数;
Figure BDA0002609570480000216
为变量。
结合图2可以看出,所述求解分布式随机梯度跟踪策略S-DIGing的问题模型的未知参数的步骤为:
S51、每个智能体
Figure BDA0002609570480000217
Figure BDA0002609570480000218
是智能体集合;初始化
Figure BDA0002609570480000219
h=0…qi
Figure BDA00026095704800002110
并设定随机时刻k的最大阈值;设定存储空间,用于保存所有的智能体,其中每个智能体对应设置一个存储位置;S52、令k=0;S53、对m个智能体同时进行计算,设i∈{1,2,…m};S54、将变量
Figure BDA00026095704800002111
更新到
Figure BDA0002609570480000221
其中:α是固定步长;
Figure BDA0002609570480000222
是加权的邻接矩阵,其中关于边(i,j)的权重wij满足如下条件:如果(i,j)∈则wij>0,否则wij=0,并且
Figure BDA0002609570480000223
Figure BDA0002609570480000224
为变量;
Figure BDA0002609570480000225
为变量;
Figure BDA0002609570480000226
Figure BDA0002609570480000227
S55、从集合{1,...,qi}中随机选择
Figure BDA0002609570480000228
其中,
Figure BDA0002609570480000229
指代智能体i在k时刻随机选取的函数编号;
S56、根据步骤S55选择的智能体函数编号,令此时
Figure BDA00026095704800002210
则令
Figure BDA00026095704800002211
并将对应数据保存到的第
Figure BDA00026095704800002212
个智能体的存储位置上;存储空间中的其余存储位置
Figure BDA00026095704800002213
上的数据,不变;继承上一时刻的值;即:
Figure BDA00026095704800002214
Figure BDA00026095704800002215
为所有瞬时函数的和;
Figure BDA00026095704800002216
Figure BDA00026095704800002217
为变量;
Figure BDA00026095704800002218
为智能体i在k时刻随机计算一个瞬时函数的梯度;h∈{1,…,qi}来逼近
Figure BDA00026095704800002219
S57、计算并存储智能体i的随机平均梯度
Figure BDA00026095704800002220
Figure BDA00026095704800002221
S58、更新变量
Figure BDA00026095704800002222
S59、判断k是否大于等于k的最大阈值,若是,计算结束,输出最后一次更新的
Figure BDA00026095704800002223
并令
Figure BDA00026095704800002224
否则令k=k+1;进入步骤S53。
具体实施过程中,在步骤S6中进行二分类验证时,,当
Figure BDA00026095704800002225
大于等于0时,为一类数据;当
Figure BDA00026095704800002226
小于0时,为另一类数据。
作为第一实施方式:二分类对象为:蘑菇数据集,进行有毒和无毒的二分类。在该实施例中,从数据库中选取8000个样本,其中6000个样本用于训练分类器
Figure BDA0002609570480000236
2000个样本用于测试。其中,每个样本包括菌盖颜色(cap-color)、菌盖形状(cap-shape)、菌盖表面(cap-surface)等共计22个特征,在本实施例中,由于第12个特征值(stalk-surface-above-ring)数据缺失,因此不采用该特征,则共计21个特征。在本实施例中,为了避免数据本身数值偏差对实验本身的影响,我们采用one-hot编码将数据扩展为112维的向量。在本实施例中,选择m=20个智能体,每个智能体分配qi=300个样本,i=1,2,…,m,步长α=0.001,以li,h=+1表示样本ci,h有毒,li,h=-1表示样本ci,h无毒。在本实施例中,结合图3可以看出,展示了DIGing策略与S-DIGing策略的收敛速度对比结果。其中,图3(a)残差关于迭代次数的演变;图3(b)残差关于迭代时间的演变。从图3中,可以发现S-DIGing策略比DIGing策略需要更多的迭代次数才能获得相同的残差。但是需要注意,由于单次迭代所需的计算量较小,因此S-DIGing策略在运行时间上具有优势。结合图4可以看出测试结果的准确度情况。
第二实施例方式:二分类对象为:网络样本数据的分布情况,
Figure BDA0002609570480000231
分布和
Figure BDA0002609570480000232
分布二分类;首先设置m=100个智能体,每个智能体持有qi=60个样本、样本维度设置为4。对于智能体i,对应标签li,h=+1和li,h=-1的独立同分布的样本数据
Figure BDA0002609570480000233
分别服从
Figure BDA0002609570480000234
Figure BDA0002609570480000235
分布。分别设置步长α为0.002,0.006,0.010,0.014,0.018和0.022,图5展示了策略在不同步长下的收敛过程。图6为该例子采用的网络拓扑结构。从图5可以看出,在一定范围内,步长的增大对S-DIGing策略的执行起着积极的作用。如果步长超出范围,则S-DIGing策略的收敛性将恶化。随后,分别选择m=50,75,100个智能体的网络,设定步长α=0.001,每个智能体持有qi=6000/m个样本数据,以观察策略在不同网络规模下的收敛性。图7展示了策略在不同网络规模下的收敛性能。
第三实施例方式:本实施例中,仿真是对MNIST手写数据集进行数字撰写正确与否的二分类。在该数据集中选取58000张图片,N=50000张用于训练,8000张用于测试训练结果。图8展示了其中随机选取的100张数字图片。在本实施例中,用于仿真的无向网络包含m=10个智能体,每对智能体有40%的概率进行通信。每张图片根据其像素被转化为784维的向量
Figure BDA0002609570480000241
智能体i,i=1,2,…,m,处理qi=5000张图片。在执行1×105次迭代后,用预先设定的数据测试了策略的准确度并分别展示在表1。
表1精度测试表
Figure BDA0002609570480000242
应当指出的是,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改性、添加或替换,也应属于本发明的保护范围。

Claims (4)

1.一种基于随机梯度追踪技术的大数据二分类分布式优化方法,其特征在于:具体步骤为:
S1:设定二分类问题,获取对应二分类问题的数据集,从数据集中选取出N个训练样本数据和K个测试样本数据,并获取数据集样本的样本特征;
S2:采用one-hot编码将训练样本数据和测试样本数据扩展成向量数据,得到N个训练样本向量数据和K个测试样本向量数据;
S3:将N个训练样本向量数据进行智能体分配,每个智能体分配到qi个训练样本向量数据;
S4:结合梯度跟踪策略与随机平均梯度策略,建立带未知参数的分布式随机梯度跟踪策略S-DIGing的问题模型;
S5:求解分布式随机梯度跟踪策略S-DIGing的问题模型的未知参数;
S6:将K个测试样本向量数据代入分布式随机梯度跟踪策略S-DIGing的问题模型中进行二分类验证,并输出所述二分类问题对应的分布式随机梯度跟踪策略S-DIGing的问题模型。
2.根据权利要求1所述的基于随机梯度追踪技术的大数据二分类分布式优化方法,其特征在于:所述带未知参数的分布式随机梯度跟踪策略S-DIGing的问题模型为:
Figure FDA0002609570470000011
其中,li,h∈{-1,+1}表示智能体i的第h个样本的标签;ci,h表示智能体i第h个样本训练数据;m为智能体的个数;即将N个训练样本数据
Figure FDA0002609570470000021
分配至m个智能体上,qi为每个智能体获得的样本;||·||表示向量的欧几里得范数与矩阵的谱范数
Figure FDA0002609570470000022
表示实数集,
Figure FDA0002609570470000023
表示n维的实数集;
Figure FDA0002609570470000024
为问题模型的未知参数;
Figure FDA0002609570470000025
为变量。
3.根据权利要求2所述的基于随机梯度追踪技术的大数据二分类分布式优化方法,其特征在于:所述求解分布式随机梯度跟踪策略S-DIGing的问题模型的未知参数的步骤为:
S51、每个智能体
Figure FDA0002609570470000026
Figure FDA0002609570470000027
是智能体集合;初始化
Figure FDA0002609570470000028
Figure FDA0002609570470000029
Figure FDA00026095704700000210
并设定随机时刻k的最大阈值;设定存储空间,用于保存所有的智能体的数据信息,其中每个智能体对应设置一个存储位置;
S52、令k=0;
S53、m个智能体同时进行计算,设i∈{1,2,…m},
S54、将变量
Figure FDA00026095704700000211
更新到
Figure FDA00026095704700000212
其中:α是固定步长;
Figure FDA00026095704700000213
是加权的邻接矩阵,其中关于边(i,j)的权重wij满足如下条件:如果(i,j)∈ε则wij>0,否则wij=0,并且
Figure FDA00026095704700000214
Figure FDA00026095704700000215
为变量;
Figure FDA00026095704700000216
为变量;
Figure FDA00026095704700000217
Figure FDA00026095704700000218
S55、从集合{1,...,qi}中随机选择
Figure FDA00026095704700000219
其中,
Figure FDA00026095704700000220
指代智能体i在k时刻随机选取的函数编号;
S56、根据步骤S55选择的智能体函数编号,令此时
Figure FDA00026095704700000221
则令
Figure FDA00026095704700000222
并将对应数据保存到的第
Figure FDA0002609570470000031
个智能体的存储位置上;存储空间中的其余存储位置
Figure FDA00026095704700000315
上的数据,不变;继承上一时刻的值;即:
Figure FDA0002609570470000032
Figure FDA00026095704700000316
为所有瞬时函数的和;
Figure FDA0002609570470000033
Figure FDA0002609570470000034
为变量;
Figure FDA0002609570470000035
为智能体i在k时刻随机计算一个瞬时函数的梯度;h∈{1,...,qi}来逼近
Figure FDA0002609570470000036
S57、计算并存储智能体i的随机平均梯度
Figure FDA0002609570470000037
Figure FDA0002609570470000038
S58、更新变量
Figure FDA0002609570470000039
Figure FDA00026095704700000310
S59、判断k是否大于等于k的最大阈值,若是,计算结束,输出最后一次更新的
Figure FDA00026095704700000311
并令
Figure FDA00026095704700000312
否则令k=k+1;进入步骤S53。
4.根据权利要求3所述的基于随机梯度追踪技术的大数据二分类分布式优化方法,其特征在于:在步骤S6中进行二分类验证时,当
Figure FDA00026095704700000313
大于等于0时,为一类数据;当
Figure FDA00026095704700000314
小于0时,为另一类数据。
CN202010749536.9A 2020-07-30 2020-07-30 基于随机梯度追踪技术的大数据二分类分布式优化方法 Pending CN111950611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010749536.9A CN111950611A (zh) 2020-07-30 2020-07-30 基于随机梯度追踪技术的大数据二分类分布式优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010749536.9A CN111950611A (zh) 2020-07-30 2020-07-30 基于随机梯度追踪技术的大数据二分类分布式优化方法

Publications (1)

Publication Number Publication Date
CN111950611A true CN111950611A (zh) 2020-11-17

Family

ID=73338271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010749536.9A Pending CN111950611A (zh) 2020-07-30 2020-07-30 基于随机梯度追踪技术的大数据二分类分布式优化方法

Country Status (1)

Country Link
CN (1) CN111950611A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112383440A (zh) * 2020-12-01 2021-02-19 苏州中德双智科创发展有限公司 云端模型准确性提高方法、装置、电子设备及存储介质
CN112506999A (zh) * 2020-12-17 2021-03-16 夏红梅 基于云计算和人工智能的大数据挖掘方法及数字内容中心
CN114580578A (zh) * 2022-05-06 2022-06-03 鹏城实验室 具有约束的分布式随机优化模型训练方法、装置及终端

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112383440A (zh) * 2020-12-01 2021-02-19 苏州中德双智科创发展有限公司 云端模型准确性提高方法、装置、电子设备及存储介质
CN112506999A (zh) * 2020-12-17 2021-03-16 夏红梅 基于云计算和人工智能的大数据挖掘方法及数字内容中心
CN114580578A (zh) * 2022-05-06 2022-06-03 鹏城实验室 具有约束的分布式随机优化模型训练方法、装置及终端
CN114580578B (zh) * 2022-05-06 2022-08-23 鹏城实验室 具有约束的分布式随机优化模型训练方法、装置及终端

Similar Documents

Publication Publication Date Title
Dhingra et al. The proximal augmented Lagrangian method for nonsmooth composite optimization
Song et al. Mintnet: Building invertible neural networks with masked convolutions
Pooladzandi et al. Adaptive second order coresets for data-efficient machine learning
Zhang et al. Expensive multiobjective optimization by MOEA/D with Gaussian process model
CN111950611A (zh) 基于随机梯度追踪技术的大数据二分类分布式优化方法
Scardapane et al. Distributed semi-supervised support vector machines
CN110138595A (zh) 动态加权网络的时间链路预测方法、装置、设备及介质
US20160140434A1 (en) Method for pseudo-recurrent processing of data using a feedforward neural network architecture
Huang et al. Faster stochastic alternating direction method of multipliers for nonconvex optimization
CN112418482A (zh) 一种基于时间序列聚类的云计算能耗预测方法
CN113221475B (zh) 一种用于高精度流场分析的网格自适应方法
Eshraghi et al. Distributed online optimization over a heterogeneous network with any-batch mirror descent
Yan et al. Sparse matrix-variate Gaussian process blockmodels for network modeling
CN107818328A (zh) 结合局部信息的不完整数据相似性刻画方法
Pu et al. Stochastic mirror descent for low-rank tensor decomposition under non-euclidean losses
Liu et al. Modal-regression-based broad learning system for robust regression and classification
Huang et al. Mini-batch stochastic ADMMs for nonconvex nonsmooth optimization
Lin et al. Metagater: Fast learning of conditional channel gated networks via federated meta-learning
Pradier et al. Projected BNNs: Avoiding weight-space pathologies by learning latent representations of neural network weights
O’Connor et al. Function splitting and quadratic approximation of the primal-dual method of multipliers for distributed optimization over graphs
CN112910680A (zh) 一种融合多粒度社区信息的网络嵌入方法
CN104700374A (zh) 基于Type-2模糊逻辑系统的场景图像去噪方法
Mortazavi et al. Efficient mobile cellular traffic forecasting using spatial-temporal graph attention networks
CN116994042A (zh) 一种融合图神经网络与可解释性机制的图分类方法及系统
Vahidian et al. Group Distributionally Robust Dataset Distillation with Risk Minimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination