CN113627485A - 基于admm的不平衡大数据分布式分类方法 - Google Patents

基于admm的不平衡大数据分布式分类方法 Download PDF

Info

Publication number
CN113627485A
CN113627485A CN202110781204.3A CN202110781204A CN113627485A CN 113627485 A CN113627485 A CN 113627485A CN 202110781204 A CN202110781204 A CN 202110781204A CN 113627485 A CN113627485 A CN 113627485A
Authority
CN
China
Prior art keywords
admm
dual
local
big data
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110781204.3A
Other languages
English (en)
Inventor
王慧慧
吴昌胜
赵林
赵庆玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202110781204.3A priority Critical patent/CN113627485A/zh
Publication of CN113627485A publication Critical patent/CN113627485A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于ADMM的不平衡大数据分布式分类方法,提出基于ADMM的分布式框架,并将分布式分类问题划分为一些小问题,这些小问题可以通过分散资源并行解决;在分布式框架的基础上,采用加速策略,设计了更合适的非平衡数据分类模型,提高了时间效率。理论分析和实验结果表明,该方法比其他分布式ADMM方法收敛速度更快,并且节省了训练时间,提高了分布式分类在不平衡数据上的可扩展性。

Description

基于ADMM的不平衡大数据分布式分类方法
技术领域
本发明涉及凸问题的优化方法,具体是一种基于ADMM的不平衡大数据分布式分类方法。
背景技术
分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确的分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。例如自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题;文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。此任务的目的是在不平衡的数据样本中精确分类。不平衡数据即数据集中一类样本的数量远远超过其他类,其中占大多数的样本被称为多数类,而数量很小一部分的称为少数类。在不平衡数据样本中正确识别少数类比正确识别多数类更加重要,为此我们考虑代价敏感学习,基于总体错分代价最小化来设计分类器,在一定程度上解决了上述问题。
近年来,在分布式集群中使用代价敏感学习来解决不平衡分类的尝试还很少。特别地,有人提出了一种并行随机森林算法来解决不平衡分类问题。该方法在随机森林中使用代价敏感学习来强调少数类,调整决策树结构。在基于模糊规则的分类系统中,惩罚因子采用了代价敏感学习。Mapreduce便采用了这种方法实现,不过训练时间较长。乘子交替方向法(ADMM)是一种应用广泛的优化算法,具有良好的收敛性。在ADMM中,原始问题与两个局部问题相互结合,然后交替优化它们的最小值。证明了当所有函数都是凸函数时ADMM具有线性收敛性。为了解决大数据分类问题,已经提出了许多基于分布式ADMM的算法。具体来说,支持向量机的子问题模型是由ADMM以完全分布的方式训练的。
在这些方法中,ADMM作为一种应用广泛的优化算法,由于其在分布式框架中的灵活性,被广泛应用于计算机视觉、数据挖掘和机器学习等许多研究领域。通常,不同机器之间的通信是不可避免的,在处理大数据问题时,它的网络和时间成本总是非常大。已有经验研究表明,基于分布式ADMM的算法收敛速度慢,且时间开销大,这是分布式共识优化的固有问题和瓶颈。因此,设计和实现高效的分布式ADMM算法,通过更快的收敛速度来提高时间效率是一个重要的问题。
发明内容
本发明的目的在于提出一种基于ADMM的不平衡大数据分布式分类方法。
实现本发明的技术解决方案:一种基于ADMM的不平衡大数据分布式分类方法,包括如下步骤:
步骤1、将不平衡的大数据集划分成n份可独立计算的小数据集,并将n份小数据集分别放入n台从机中用于每台机器的本地训练;
步骤2、从训练样本中随机选取样本,采用对偶坐标下降法对每个问题的对偶问题进行优化,计算出局部模型的局部变量wi;所述小数据集对应一个小问题;
步骤3、将所有从机计算出的局部变量wi发送给主机;
步骤4、主机利用从机发送来的局部变量wi更新全局变量z;
步骤5、主机收到每个从机发来的wi和ui并计算出z后,将z广播给每个从机以进行下一轮计算直至满足终止条件。
进一步的,步骤3等待步骤2中所有从机的局部变量wi计算出来后,将所有的局部变量发送给主机。
进一步的,步骤5中主机将全局变量广播给所有从机后重复步骤2至步骤4直至满足终止条件。
进一步的,步骤1将问题划分为多个可并行计算的子问题后,可用如下的函数表示:
Figure BDA0003157041310000021
s.t.wi=z,i=1,2,…,n;
其中,z为全局变量,wi为局部变量,C>0,是一个超参数;C-和C+分别是多数类和少数类的误分类参数;假设数据来自n台机器,那么可以表示为(D1,D2,...,Dn);另外ξj=max{0,1-yjwTxj}表示样本j的损失,其中yj为1或-1,wT表示权重向量,xj表示样本j,
Figure BDA0003157041310000022
为简单起见,(1)式可改写为:
Figure BDA0003157041310000023
s.t.wi=z,i=1,2,...,n;
其中,fi(wi)是数据集Di的总共损失。
进一步的,将原函数(2)改写成增广拉格朗日形式即原问题的对偶问题:
Figure BDA0003157041310000031
其中,λi≥0为对偶变量;之后得到(3)式的标准形式:
Figure BDA0003157041310000032
这里ui=λi/ρ,ρ为惩罚系数;
为更好解决类不平衡问题,使用soft-margin CSSVM,则原始问题的对偶形式为:
Figure BDA0003157041310000033
s.t.0≤αj≤Cj,j=1,...,s,
其中,Cj为样本j损失的惩罚系数,
Figure BDA0003157041310000034
bi=[1-y1viTx1,...,1-ysviTxsT;
使用随机对偶坐标下降法优化每个单机的上述问题,可以计算得到:
Figure BDA0003157041310000035
在随机对偶坐标下降法,
Figure BDA0003157041310000036
Figure BDA0003157041310000037
的更新是通过固定其它变量来得到的;因此,(6)式问题在每次内迭代中可以表达成单变量问题;通过将
Figure BDA0003157041310000038
投射进区间[0,Cj],可得到投影偏导
Figure BDA0003157041310000039
于是
Figure BDA00031570413100000310
的更新可表达为:
Figure BDA00031570413100000311
之后,
Figure BDA00031570413100000312
可更新为:
Figure BDA00031570413100000313
已经得证局部变量
Figure BDA00031570413100000314
的松弛形式可以加速算法收敛,所以可将局部变量
Figure BDA0003157041310000041
的更新再变为:
Figure BDA0003157041310000042
进一步的,步骤4、主机综合各从机的局部模型变量计算全局模型变量z并下发各从机,zk+1的更新公式如下:
Figure BDA0003157041310000043
由于函数是关于z的二次函数,同时也是一个性质良好的凸函数,所以z有一个封闭解:
Figure BDA0003157041310000044
之后,需要更新对偶变量
Figure BDA0003157041310000045
公式如下:
Figure BDA0003157041310000046
进一步的,步骤5中,继续步骤2,步骤3,步骤4,直至满足算法终止条件即原始残差p与对偶残差d收敛于0。表达式为||p||2≤εpri,||d||2≤εdual,εpri,εdual为可行公差。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于ADMM的不平衡大数据分布式分类方法。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于ADMM的不平衡大数据分布式分类方法。
本发明研究复杂的类不平衡问题,提出合适的基于ADMM的分布式框架,我们将所要研究的问题分为多个可并行计算的子问题,在每个子问题的对偶问题中,使用小批量的随机对偶坐标下降法来优化子问题,使用分布式ADMM框架交替优化逐步达到全局最优共识,有效的减少了模型训练时间以及各从机的通信时间,各项性能均有增加。
本发明与现有技术相比,其显著优点在于:(1)本发明利用小批量的随机对偶坐标下降法来对每个从机中的局部问题进行优化,加快了计算时间;(2)本发明将代价敏感学习应用到我们的方法中,有效缓解了类不平衡问题,提高了分类准确度。
下面结合附图对本发明做进一步详细的描述。
附图说明
图1为本发明的流程示意图。
图2为本发明算法实现的伪代码。
图3为本发明与其它算法在Geometric mean上的比较示意图。
图4为本发明与其它算法在F-measure上的比较示意图。
图5为本发明与其它算法在训练时间上的比较示意图。
具体实施方式
本发明提出一种基于ADMM的不平衡大数据分布式分类方法,其核心思想是研究复杂的类不平衡,并针对这一问题提出合适的基于ADMM的分布式框架,以提高性能和减少时间。该方法将所要研究的问题分为多个可并行计算的子问题,在每个子问题的对偶问题中,使用小批量的随机对偶坐标下降法来优化子问题,使用分布式ADMM框架交替优化逐步达到全局最优共识。
一种基于ADMM的不平衡大数据分布式分类方法,包括如下步骤:
步骤1、将不平衡的大数据集划分成n份可独立计算的小数据集,并将n份数据集分别放入n台机器(从机)中用于每台机器的本地训练;
步骤2、利用小批量的(从训练样本中随机选取小批样本)随机对偶坐标下降法对每个问题的对偶问题进行优化,计算出局部模型的局部变量wi;所述小数据集对应一个小问题;
步骤3、将所有从机计算出的局部变量wi发送给主机;
步骤4、主机利用从机发送来的局部变量wi更新全局变量z;
步骤5、主机收到每个从机发来的wi和ui并计算出z后,便将z广播给每个从机以进行下一轮计算直至满足终止条件;ui=λi/ρ,为简便计算而引入的。
其中,步骤1中将大数据集划分成n个类不平衡的小数据集,因为处理分类任务时,类不平衡是一个经典的挑战,它会恶化分类性能。这些类不平衡的小数据集将用于实验。
步骤2中利用小批量随机对偶坐标下降法在每个从机中对问题进行优化来加快取得局部变量值,这就减少了同步和通信带来的开销。
步骤3等待步骤2中所有从机的局部变量wi计算出来后,将所有的局部变量发送给主机。
步骤4利用步骤3中发送来的wi更新全局变量z,由于我们的函数是关于z的二次函数,同时也是一个性质良好的凸函数,所以z有一个封闭解。
步骤5中主机将全局变量广播给所有从机后重复步骤2至步骤4直至满足终止条件(原始残差||p||2不大于一个阈值及对偶残差||d||2不大于一个阈值)。
如图1所示,一种基于ADMM的不平衡大数据分布式分类方法,将分布式分类问题划分为一些小问题,这些小问题可以通过分散资源并行解决;在每个小问题的对偶问题上使用小批量的随机对偶梯度下降法求出局部最优解;我们也引入代价敏感学习方法来最小化总体错分代价;所有从机的本地模型训练好后,将所有的局部模型变量发送给主机;主机综合收到的局部模型变量计算全局模型变量z后,将z广播给所有从机;从机收到全局模型变量后开始新一轮的迭代计算直至满足终止条件。
下面对本发明各个步骤进行具体说明:
步骤1、将我们的问题划分为多个可并行计算的子问题后,我们的问题可用如下的函数表示:
Figure BDA0003157041310000061
s.t.wi=z,i=1,2,...,n;
其中,z为全局变量,wi为局部变量,C>0,是一个超参数;C-和C+分别是多数类和少数类的误分类参数。假设数据来自n台机器,那么可以表示为(D1,D2,…,Dn);另外ξj=max{0,1-yjwTxj}表示样本j的损失,其中yj为1或者-1,wT表示权重向量,xj表示样本j,
Figure BDA0003157041310000062
为简单起见,(1)式可改写为:
Figure BDA0003157041310000063
s.t.wi=z,i=1,2,...,n;
其中,fi(wi)是数据集Di的总共损失。
步骤2、我们将原函数(2)改写成增广拉格朗日形式即原问题的对偶问题。
Figure BDA0003157041310000071
其中,λi≥0为对偶变量,之后我们便可以写出(3)式的标准形式:
Figure BDA0003157041310000072
这里ui=λi/ρ,ρ为惩罚系数。为更好解决类不平衡问题,进一步我们使用soft-margin CSSVM(代价敏感支撑向量机),则原始问题的对偶形式为:
Figure BDA0003157041310000073
s.t.0≤αj≤Cj,j=1,…,s,
其中,Cj为样本j损失的惩罚系数,
Figure BDA0003157041310000074
bi=[1-y1viTx1,…,1-ysviTxsT。我们使用随机对偶坐标下降法优化每个单机的上述问题,可以计算得到:
Figure BDA0003157041310000075
在随机对偶坐标下降法,
Figure BDA0003157041310000076
Figure BDA0003157041310000077
的更新是通过固定其它变量来得到的。因此,(6)式问题在每次内迭代中可以表达成单变量问题;通过将
Figure BDA0003157041310000078
投射进区间[0,Cj],可得到投影偏导
Figure BDA0003157041310000079
于是
Figure BDA00031570413100000710
的更新可表达为:
Figure BDA00031570413100000711
之后,
Figure BDA00031570413100000712
可更新为:
Figure BDA00031570413100000713
已经得证局部变量
Figure BDA00031570413100000714
的松弛形式可以加速算法收敛,所以可将局部变量
Figure BDA00031570413100000715
的更新再变为:
Figure BDA00031570413100000716
步骤3、在步骤2基础上,主机收集所有从机的局部模型变量用于更新全局模型变量。
步骤4、主机综合各从机的局部模型变量计算全局模型变量z并下发各从机,zk+1的更新公式如下:
Figure BDA0003157041310000081
由于函数是关于z的二次函数,同时也是一个性质良好的凸函数,所以z有一个封闭解:
Figure BDA0003157041310000082
之后,需要更新对偶变量
Figure BDA0003157041310000083
公式如下:
Figure BDA0003157041310000084
步骤5、继续步骤2,步骤3,步骤4,直至满足算法终止条件即原始残差p与对偶残差d收敛于0。表达式为||p||2≤εpri,||d||2≤εdual,εpri,εdual为可行公差。
图2所示为本发明实施例的算法流程,图3~图5表明我们的算法比其他的一些算法表现得更加良好且算法训练时间更短。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于ADMM的不平衡大数据分布式分类方法。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于ADMM的不平衡大数据分布式分类方法。
下面结合实施例对本发明进行详细说明。
实施例
如果一个问题可以写成以下形式,我们的方法便可以解决这个问题:
minx,yf(x)+g(y),
s.t.Ax+By=C,
这里f(x)和g(y)都是凸函数,x和y为变量,满足一系列线性约束。这样就可以解决此问题的对偶问题。其对偶问题可写成以下形式:
Figure BDA0003157041310000085
这里λ是对偶变量,ρ为惩罚系数。特别地,如果局部变量x是可划分的,则f(x)可划分为一些小问题,存储在多个机器上。因此问题可改写成以下形式:
Figure BDA0003157041310000091
s.t.Axi+By=C,i=1,2,…,n.
这里xi是机器i上小问题的模型变量,x=(x1,...,xn),y是全局变量。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于ADMM的不平衡大数据分布式分类方法,其特征在于,包括如下步骤:
步骤1、将不平衡的大数据集划分成n份可独立计算的小数据集,并将n份小数据集分别放入n台从机中用于每台机器的本地训练;
步骤2、从训练样本中随机选取样本,采用对偶坐标下降法对每个问题的对偶问题进行优化,计算出局部模型的局部变量wi;所述小数据集对应一个小问题;
步骤3、将所有从机计算出的局部变量wi发送给主机;
步骤4、主机利用从机发送来的局部变量wi更新全局变量z;
步骤5、主机收到每个从机发来的wi和ui并计算出z后,将z广播给每个从机以进行下一轮计算直至满足终止条件。
2.根据权利要求1所述的基于ADMM的不平衡大数据分布式分类方法,其特征在于,步骤3等待步骤2中所有从机的局部变量wi计算出来后,将所有的局部变量发送给主机。
3.根据权利要求1所述的基于ADMM的不平衡大数据分布式分类方法,其特征在于,步骤5中主机将全局变量广播给所有从机后重复步骤2至步骤4直至满足终止条件。
4.根据权利要求1所述的基于ADMM的不平衡大数据分布式分类方法,其特征在于,步骤1将问题划分为多个可并行计算的子问题后,用如下的函数表示:
Figure FDA0003157041300000011
s.t.wi=z,i=1,2,…,n;
其中,z为全局变量,wi为局部变量,C>0,是一个超参数;C-和C+分别是多数类和少数类的误分类参数;假设数据来自n台机器,那么可以表示为(D1,D2,…,Dn);另外ξj=max{0,1-yjwTxj}表示样本j的损失,其中yj为1或-1,wT表示权重向量,xj表示样本j,
Figure FDA0003157041300000012
为简单起见,(1)式可改写为:
Figure FDA0003157041300000013
s.t.wi=z,i=1,2,…,n
其中,fi(wi)是数据集Di的总共损失。
5.根据权利要求1所述的基于ADMM的不平衡大数据分布式分类方法,其特征在于,将原函数(2)改写成增广拉格朗日形式即原问题的对偶问题:
Figure FDA0003157041300000021
其中,λi≥0为对偶变量;之后得到(3)式的标准形式:
Figure FDA0003157041300000022
这里ui=λi/ρ,ρ为惩罚系数;
使用soft-margin CSSVM,则原始问题的对偶形式为:
Figure FDA0003157041300000023
s.t.0≤αj≤Cj,j=1,…,s,
其中,Cj为样本j损失的惩罚系数,
Figure FDA0003157041300000024
bi=[1-y1viTx1,...,1-ysviTxsT;
使用随机对偶坐标下降法优化每个单机的上述问题,可计算得到:
Figure FDA0003157041300000025
在随机对偶坐标下降法,
Figure FDA0003157041300000026
Figure FDA0003157041300000027
的更新是通过固定其它变量来得到的;因此,(6)式问题在每次内迭代中可表达成单变量问题;通过将
Figure FDA0003157041300000028
投射进区间[0,Cj],得到投影偏导
Figure FDA0003157041300000029
于是
Figure FDA00031570413000000210
的更新可表达为:
Figure FDA00031570413000000211
之后,
Figure FDA00031570413000000212
可更新为:
Figure FDA00031570413000000213
已经得证局部变量
Figure FDA00031570413000000214
的松弛形式可以加速算法收敛,所以可将局部变量
Figure FDA0003157041300000031
的更新再变为:
Figure FDA0003157041300000032
6.根据权利要求1所述的基于ADMM的不平衡大数据分布式分类方法,其特征在于,步骤4、主机综合各从机的局部模型变量计算全局模型变量z并下发各从机,zk+1的更新公式如下:
Figure FDA0003157041300000033
由于函数是关于z的二次函数,同时也是一个凸函数,所以z有一个封闭解:
Figure FDA0003157041300000034
之后,需要更新对偶变量
Figure FDA0003157041300000035
公式如下:
Figure FDA0003157041300000036
7.根据权利要求1所述的基于ADMM的不平衡大数据分布式分类方法,其特征在于,步骤5中,继续步骤2,步骤3,步骤4,直至满足算法终止条件即原始残差p与对偶残差d收敛于0;表达式为||p||2≤εpri,||d||2≤εdual,εpri、εdual为可行公差。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的基于ADMM的不平衡大数据分布式分类方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的基于ADMM的不平衡大数据分布式分类方法。
CN202110781204.3A 2021-07-10 2021-07-10 基于admm的不平衡大数据分布式分类方法 Withdrawn CN113627485A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110781204.3A CN113627485A (zh) 2021-07-10 2021-07-10 基于admm的不平衡大数据分布式分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110781204.3A CN113627485A (zh) 2021-07-10 2021-07-10 基于admm的不平衡大数据分布式分类方法

Publications (1)

Publication Number Publication Date
CN113627485A true CN113627485A (zh) 2021-11-09

Family

ID=78379369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110781204.3A Withdrawn CN113627485A (zh) 2021-07-10 2021-07-10 基于admm的不平衡大数据分布式分类方法

Country Status (1)

Country Link
CN (1) CN113627485A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595589A (zh) * 2023-07-17 2023-08-15 中国科学院数学与系统科学研究院 基于秘密共享机制的分布式支持向量机训练方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578061A (zh) * 2017-08-16 2018-01-12 哈尔滨工业大学深圳研究生院 基于最小化损失学习的不平衡样本分类方法
CN110110754A (zh) * 2019-04-03 2019-08-09 华南理工大学 基于代价局部泛化误差的不平衡问题的分类方法
CN112465040A (zh) * 2020-12-01 2021-03-09 杭州电子科技大学 一种基于类不平衡学习算法的软件缺陷预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578061A (zh) * 2017-08-16 2018-01-12 哈尔滨工业大学深圳研究生院 基于最小化损失学习的不平衡样本分类方法
CN110110754A (zh) * 2019-04-03 2019-08-09 华南理工大学 基于代价局部泛化误差的不平衡问题的分类方法
CN112465040A (zh) * 2020-12-01 2021-03-09 杭州电子科技大学 一种基于类不平衡学习算法的软件缺陷预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HUIHUI WANG: "Distributed classification for imbalanced big data in distributed environments", WIRELESS NETWORKS, pages 2 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595589A (zh) * 2023-07-17 2023-08-15 中国科学院数学与系统科学研究院 基于秘密共享机制的分布式支持向量机训练方法及系统
CN116595589B (zh) * 2023-07-17 2023-10-10 中国科学院数学与系统科学研究院 基于秘密共享机制的分布式支持向量机训练方法及系统

Similar Documents

Publication Publication Date Title
Finlay et al. How to train your neural ODE: the world of Jacobian and kinetic regularization
Lei et al. GCN-GAN: A non-linear temporal link prediction model for weighted dynamic networks
Strumberger et al. Designing convolutional neural network architecture by the firefly algorithm
JP2019083002A (ja) トリプレット損失ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善
CN107578061A (zh) 基于最小化损失学习的不平衡样本分类方法
WO2018166270A2 (zh) 一种基于指标和方向向量相结合的多目标优化方法及系统
Yang et al. Computational intelligence and metaheuristic algorithms with applications
CN104091038A (zh) 基于大间隔分类准则的多示例学习特征加权方法
CN104573070B (zh) 一种针对混合长度文本集的文本聚类方法
CN113627871A (zh) 一种基于多目标粒子群算法的工作流调度方法、系统及存储介质
Zhao et al. Stochastic dynamics of the delayed chemostat with Lévy noises
Dozono et al. Convolutional self organizing map
Tuba et al. Bare bones fireworks algorithm for capacitated p-median problem
Yonekawa et al. A ternary weight binary input convolutional neural network: Realization on the embedded processor
CN109871934A (zh) 基于Spark分布式的并行二进制飞蛾扑火算法的特征选择方法
CN110909172A (zh) 一种基于实体距离的知识表示学习方法
CN113627485A (zh) 基于admm的不平衡大数据分布式分类方法
CN109636709B (zh) 一种适用于异构平台的图计算方法
CN106971005A (zh) 一种云计算环境下基于MapReduce的分布式并行文本聚类方法
CN114237838A (zh) 基于自适应损失函数加权的多任务模型训练方法
CN112035234B (zh) 分布式批量作业分配方法及装置
Barger et al. k-means for streaming and distributed big sparse data
Errecalde et al. ITSA⋆: An effective iterative method for short-text clustering tasks
Huai et al. Collate: Collaborative neural network learning for latency-critical edge systems
CN116051924A (zh) 一种图像对抗样本的分治防御方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20211109

WW01 Invention patent application withdrawn after publication