CN103678681A - 基于大规模数据的自适应参数的多核学习分类方法 - Google Patents

基于大规模数据的自适应参数的多核学习分类方法 Download PDF

Info

Publication number
CN103678681A
CN103678681A CN201310728811.9A CN201310728811A CN103678681A CN 103678681 A CN103678681 A CN 103678681A CN 201310728811 A CN201310728811 A CN 201310728811A CN 103678681 A CN103678681 A CN 103678681A
Authority
CN
China
Prior art keywords
parameter
data set
classification
learning
kernel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310728811.9A
Other languages
English (en)
Other versions
CN103678681B (zh
Inventor
郭宁
冯良炳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Zhongke advanced technology industry Co.,Ltd.
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201310728811.9A priority Critical patent/CN103678681B/zh
Publication of CN103678681A publication Critical patent/CN103678681A/zh
Application granted granted Critical
Publication of CN103678681B publication Critical patent/CN103678681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大规模数据的自适应参数的多核学习分类方法,包括以下步骤:选定多核学习的核函数;载入数据集,将数据集随机分为训练数据集和测试数据集;将训练数据集的单独一维特征值和每一维特征值进行混合,得到核矩阵组;将单位矩阵增加至核矩阵组的第一项构成新的核矩阵组,求解新的核矩阵组的权重参数组,权重参数组的第一项为正则化惩罚因子参数C的倒数,其余项为各个基核的权重参数;通过计算半无限线性规划问题得出分类模型;将测试数据集通过分类模型得到分类结果。本发明将多核学习问题转化为半正定线性规划优化问题,解决了大规模数据问题;能够自适应学习C参数,提高了求解效率,避免了繁琐交叉验证过程。

Description

基于大规模数据的自适应参数的多核学习分类方法
技术领域
本发明涉及多核学习分类技术领域,特别是涉及一种基于大规模数据的自适应参数的多核学习分类方法。
背景技术
支持向量机(Support Vector Machines,SVM)于1992年由Boser等人提出,已成为数据挖掘以及模式分类的经典方法之一。在很多领域中,支持向量机都取得了当前最好的结果。支持向量机是一种基于核的学习算法,其性能优略与核的结构形式及类型密切相关。核方法是解决非线性模式分析问题的一种有效方法,但在一些复杂情形下,由单个核函数构成的核机器并不能满足诸如数据异构或不规则、样本规模巨大、样本不平坦分布等实际的应用需求,因此将多个核函数进行组合,以获得更好的结果是一种必然选择。
多核学习(Multiple Kernel Learning,MKL)是基于单核支持向量机的扩展算法,使得支持向量机可以同时融合多个核函数,在某些应用上提高了分类的性能,拓展了支持向量机的应用空间。对于不同的数据,其特征转化为不同的核矩阵,每一个核矩阵都有不用的系数与其对应,由此可得,多核学习不同于单核学习,它形成不同核组合的特征空间,进一步通过自适应优化算法来获得每一个核的权系数。传统意义下,经典的多核学习问题的求解是,将多核学习问题化为半正定规划(Semi-Definite Programming,SDP)优化问题或是二次约束二次规划问题(Quadratically Constrained QuadraticProgram,QCQP)。并且在多核学习问题中,正则化参数C的求解方法是通过对训练数据集的交叉验证来获得最优解。
尽管多核学习在解决一些异构数据集问题上表现出了非常优秀的性能,但不得不说效率是多核学习发展的最大瓶颈。首先,空间方面,多核学习算法由于需要计算各个核矩阵对应的核权重系数,需要多个核矩阵共同参加运算。也就是说,多个核矩阵需要同时存储在内存中,如果样本的个数过多,那么核矩阵的维数也会非常大,如果核的个数也很多,这无疑会占用很大的内存空间。这一问题二次约束二次规划问题是难以解决的。其次,时间方面,传统的求解核组合参数的方法半正定规划优化问题,其求解过程需要使用内点法,非常耗费时间,尽管后续的一些改进算法能在耗费的时间上有所减少,但依然不能有效的降低时间复杂度。高耗的时间和空间复杂度是导致多核学习算法不能广泛应用的一个重要原因。
因此,针对上述技术问题,有必要提供一种基于大规模数据的自适应参数的多核学习分类方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于大规模数据的自适应参数的多核学习分类方法,本发明采用半无限线性规划(Semi-Infinite Linear Program,SILP)来解决多核学习问题,该方法可以使多核学习解决大规模数据问题,无论是大规模的核或是大规模的输入数据。其次,本发明将多核学习中的正则化参数作为核权重学习的一个额外变量自动获得,避免了计算中由于交叉验证获取正则化参数而导致效率低下,使多核学习问题解决更加便利。
为了实现上述目的,本发明实施例提供的技术方案如下:
一种基于大规模数据的自适应参数的多核学习分类方法,其特征在于,所述方法包括以下步骤:
S1、选定多核学习的核函数;
S2、载入数据集,并进行归一化处理,将数据集随机分为训练数据集和测试数据集,其中测试数据集相应的分类标签作为标准分类标签;
S3、将训练数据集的单独一维特征值和每一维特征值进行混合,得到核矩阵组,作为构造多核学习目标函数的特征值;
S4、将单位矩阵增加至核矩阵组的第一项构成新的核矩阵组,求解新的核矩阵组的权重参数组,权重参数组的第一项为正则化惩罚因子参数C的倒数,其余项为各个基核的权重参数;
S5、通过计算半无限线性规划问题得出分类模型;
S6、将测试数据集通过分类模型得到分类结果,即分类标签。
作为本发明的进一步改进,所述步骤S1中的核函数包括高斯核函数和多项式核函数。
作为本发明的进一步改进,所述高斯函数的参数范围为2-6~26
作为本发明的进一步改进,多项式函数的参数为1,2,3。
作为本发明的进一步改进,所述步骤S3中多核学习目标函数为:
f ( x ) = sgn ( Σ i = 1 n α i y i K ( x , x i ) + b ) ,
其中,x为所要判断类别的输入样本,b为待优化参数,K为多核,f(x)为x的分类标签。
作为本发明的进一步改进,所述步骤S4中权重参数组的求解公式为:
K * 0 0 1 M · K * - 1 1 α + K * - 1 1 M b b y 1 M · K * - 1 y ,
其中,
Figure BDA0000446079590000033
I为单位矩阵,K*比多核K多一个矩阵,α为待优化参数,即支持向量样本的权重参数,且所有的α满足相加为0的条件。
作为本发明的进一步改进,所述步骤S6后还包括:
利用分类标签和标准分类标签计算分类准确率。
作为本发明的进一步改进,所述分类准确率计算公式为:
分类准确率=(分类标签向量-标准分类标签向量=0的个数)/测试数据集的个数。
作为本发明的进一步改进,所述步骤S2中训练数据集和测试数据集分别为数据集的60%和40%。
本发明具有以下有益效果:
将多核学习问题转化为半正定线性规划优化问题,解决了大规模数据问题,无论是数据或核的规模;
将正则化惩罚因子参数C的求解放入了核权重参数的求解中,能够自适应学习C参数,提高了求解效率,避免了繁琐交叉验证过程。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于大规模数据的自适应参数的多核学习分类方法的流程示意图;
图2为本发明第一实施方式中自适应学习C的多核学习分类方法的流程示意图;
图3为本发明第一实施方式中通过交叉验证获得C参数的多核学习分类方法的流程示意图;
图4为本发明第二实施方式中核数量的扩展实验结果示意图;
图5为本发明第二实施方式中输入数据数量的扩展实验结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
参图1所示,本发明的一种基于大规模数据的自适应参数的多核学习分类方法,包括以下步骤:
S1、选定多核学习的核函数,核函数通常包括高斯核函数和多项式核函数,优选地,高斯函数的参数范围为2-6~26,多项式函数的参数为1,2,3。
S2、载入数据集,并进行归一化处理,将数据集随机分为训练数据集和测试数据集,如训练数据集和测试数据集分别为数据集的60%和40%,其中测试数据集相应的分类标签作为标准分类标签。
S3、将训练数据集的单独一维特征值和每一维特征值进行混合,得到核矩阵组,作为构造多核学习目标函数的特征值。
多核学习目标函数为:
f ( x ) = sgn ( Σ i = 1 n α i y i K ( x , x i ) + b ) ,
其中,x为所要判断类别的输入样本,b为待优化参数,K为多核,f(x)为x的分类标签。
S4、将单位矩阵增加至核矩阵组的第一项构成新的核矩阵组,求解新的核矩阵组的权重参数组,权重参数组的第一项为正则化惩罚因子参数C的倒数,其余项为各个基核的权重参数。
权重参数组的求解公式为:
K * 0 0 1 M · K * - 1 1 α + K * - 1 1 M b b y 1 M · K * - 1 y ,
其中,
Figure BDA0000446079590000053
I为单位矩阵,K*比多核K多一个矩阵,α为待优化参数,即支持向量样本的权重参数,且所有的α满足相加为0的条件。
S5、通过计算半无限线性规划问题得出分类模型。
S6、将测试数据集通过分类模型得到分类结果,即分类标签。
进一步地,步骤S6后还包括:
利用分类标签和标准分类标签计算分类准确率。
分类准确率计算公式为:
分类准确率=(分类标签向量-标准分类标签向量=0的个数)/测试数据集的个数。
在支持向量机中,正则化参数惩罚因子C的获得主要是通过交叉验证,往往会耗费大量时间,效率较低。本发明的一种基于半无限线性规划的多核学习自动学习正则化参数的较为高效的方法,同时能够解决大规模数据问题。在三组测试数据(测试数据库来自于加州大学欧文分校提供的用于机器学习的数据库UCI)中,本发明与非自动学习方法相比,在分类准确率一致的条件下,效率提高了很多。
在一般的多核系统中,多核K为一些列单核矩阵的线性组合,表示为:
K = Σ n = 1 N β n K n , s . t . β · 1 N = 0 , β ≥ 0 ,
N为简单基核的数量,第i个基核Ki对应的权系为βi,所有基核的权重系数满足β·1N=0,β≥0,也即所有权重系数均大于零,且相加为0,则多核学习即要学习N个权重系数的值。本发明将单位矩阵I作为第N+1个核(与前N个核一起归一化),其对应的权重为1/C,则通过求解多核问题就得到了正则化惩罚因子参数C的值,那么也就省去了交叉验证求C的复杂繁琐过程,节约了大量时间。公式如下:
Figure BDA0000446079590000062
上式为原始的多核学习的求解问题,K为多核,α为待优化参数,即为支持向量样本的权重系数,且所有的α满足相加为0的条件,C为正则化惩罚因子参数。
多核学习的目标函数为:
f ( x ) = sgn ( Σ i = 1 n α i y i K ( x , x i ) + b ) ,
其中x为所要判断类别的输入样本,b为待优化参数,f(x)即为x的类别标签。本发明将原始问题和多核函数的目标函数改写为以下形式:
K * 0 0 1 M · K * - 1 1 α + K * - 1 1 M b b y 1 M · K * - 1 y ,
其中,
Figure BDA0000446079590000073
I为单位矩阵,K*比多核K多了一个矩阵,则原始多核学习问题中的正则化惩罚因子参数C就转为为核权重参数了。
在以上分析的基础上,本发明利用半无限线性规划来求解引入自动学习正则化惩罚因子参数C的多核问题。传统的半正定规划与二次约束二次规划不能解决大规模数据的问题,如大规模的输入数据以及大规模的核矩阵,而半无限线性规划则可以很好的解决上述问题。因此将自适应学习C参数引入多核学习的半无限线性规划形式既解决了大规模数据的问题,又提高了数据分类的效率。
本发明针对于数据与核的规模,提供了两种实施方式,第一实施方式在标准测试数据上展开,第二实施方式为测试各个算法性能的扩展实施方式。
第一实施方式:
标准测试数据实施例流程如下:
在学习C的实施方式中分别利用三种优化算法半正定规划、二次约束二次规划、半无限线性规划做了三组实施例,记为SDP_C,QCQP_C及SILP_C;同样,不学习C也进行了三组实施例,记为SDP,QCQP和SILP。所有实施例在2G内存和2.99GHZ的CPU的电脑环境下展开。实施例参数的选择如下:
1、选择60%的数据作为训练数据集,每组训练数据集都有相应的标准分类标签相对应;
2、选择高斯函数和多项式函数作为核函数的形式,高斯函数的参数范围在(2-6~26)之间,多项式函数的参数分别为1,2,3;
3、在学习C参数的实施例中,构成和矩阵组时多了一项,把其加在核矩阵组中的第一项,参与后面的计算;
参图2、图3所示,具体实施步骤包括:
1、选定高斯核函数和多项式核函数;
2、载入数据集,将其做归一化处理,随机抽出测试数据的60%作为训练数据集,剩下的40%作为测试数据集,其中测试数据集相应的分类标签作为标准分类标签;
3、分别将训练数据集的单独一维特征值和每一维特征值进行混合,得到核矩阵组,作为构造多核学习目标函数的特征值;
4、通过训练集数据,核函数的形式以及核函数参数,利用多核算法计算相应的核矩阵的权重参数。自适应学习参数C中,在核矩阵权重求解时,核矩阵组多添加一个单位矩阵,求出来的权重参数组的第一项为其相对应的权重参数也即参数C的倒数。在不学习C的算法中,C的确定是通过训练数据集的交叉验证获得的;
5、通过六种不同的算法,计算各个算法的分类准确率以及所用时间,各个算法的实施例步骤如下:
(1)、在不学习C的一组实施例中,将[0.01-100]分为20个部分,通过交叉验证求出最佳的C,而在学习C的实施例中,C的求解通过多核学习的核参数的求解自动学习得到;
(2)、通过计算二次约束二次规划、半正定规划、半无限线性规划问题得出分类模型;
(3)、将测试数据集通过分类模型得到分类结果,也即分类标签,并且记录此次分类的时间;
(4)、利用分类标签和标准分类标签获得此次分类准确率,计算公式如下:
分类准确率=(分类标签向量-标准分类标签向量=0的个数)/测试数据集的个数。
(5)、每个实施例重复做10次,通过平均值得出最终的分类准确率和所消耗时间。
其中,测试数据库来自于加州大学欧文分校(University of California Irvine)提供的用于机器学习的数据库UCI,以上实施例采用了其中的三组数据集Hepatitis,Liver和Australian,实施例结果如下表一、表二和表三:
表一.六种算法在数据集Hepatitis下的分类结果
方法 正确率 消耗时间 参数C
SDP 78.94 57.01 297.64
SDP_C 79.02 53.20 264.32
QCQP 78.94 20.54 48.33
QCQP_C 79.72 18.70 278413.04
SILP 79.15 17.90 48.33
SILP_C 80.24 13.36 61485.61
表二.六种算法在数据集Liver下的分类结果
方法 正确率 消耗时间 参数C
SDP - - -
SDP_C - - -
QCQP 67.08 12.73 297.63
QCQP_C 67.50 11.62 4760977.00
SILP 68.40 15.56 545.56
SILP_C 70.21 7.00 71923.01
表三.六种算法在数据集Australian下的分类结果
方法 正确率 消耗时间 参数C
SDP - - -
SDP_C - - -
QCQP - - -
QCQP_C - - -
SILP 87.07 147.07 545.5
SILP_C 89.59 140.57 25532.90
从标准测试数据实施例的结果可以看出,在准确率相似的同等条件下,学习C的各个算法所花费的时间比不学习C而要交叉验证的算法少;在三组实施例数据中,SILP表现出了良好的解决大规模数据的性能,三组数据均能顺利完成,而半正定规划只能在Hepatitis数据中完成分类,二次约束二次规划只能在两组数据中完成分类。
第二实施方式:
扩展实施例为了测试各个算法的性能,分为两部分:
1、在核数量扩展试验中使用512个点作为输入数据,核选择高斯核,其参数选择范围为[2-20-26];SILP_C算法能解决的最大核数量为720,QCQP_C最多可解决180个核的问题,而SDP_C算法只能达到48。实施例结果如图4所示。
2、在输入数据扩展试验中,选择17个高斯核,参数选择范围为[2-20-26],第一次选择256个样本点,后续每次增加256个样本点,SILP最多可以跑2816个输入数据,QCQP的数据最大为1536,而SDP的范围只能达到768。实施例结果如图5所示。
以上扩展实施例的结果表明半无限线性规划算法在解决大规模数据方面,有着及其优良的性能。
多核学习方法是当前核机器学习领域的热点,核方法是解决非线性模式分析问题的一种有效方法,但在一些复杂情形下,由单个核函数构成的核机器并不能满足诸如数据异构或不规则、样本规模巨大、样本不平坦分布等实际的应用需求。多核学习在解释性上比传统支持向量机要强,通过核权重可以明显的看到各个基核中哪些核起的作用大,哪些基核在一起合作效果比较好,因此将多个核函数进行组合,以获得更好分类的结果。本发明在多核学习的基础上提出了一种解决大规模数据分类的多方法,与传统的解决多核学习问题的方法相比不同点在于:
1、传统的多核学习问题的求解,是将目标问题化为半正定规划和二次约束二次规划优化问题来求解,但这两种方法对于解决大规模数据的问题,无论是核的数量或是输入数据的数量均有着局限性,只能在小范围解决多核问题。而本发明将多核学习目标函数转化为半无限线性规划问题,解决了基于大规模数据的多核学习问题;
2、传统的多核学习问题中,正则参数C的求解是通过在训练数据集中采用交叉验证的方法获得的,通常是4折或5折,这种方法很耗时,且最终求得的C参数不一定是最优。在本发明中,通过对多核学习问题目标函数的变化,引入自适应求解C参数的方法,从而在求解各个基核权重参数的同时即把C参数一起求出,避免了繁琐复杂的交叉验证,节省了大量时间,大大降低了多核学习问题求解的复杂度。
综上所述,传统的多核学习问题常常化为半正定规划或二次约束二次规划优化问题来解,不能解决大规模数据问题,且传统的多核学习中的正则参数C的求解通过交叉验证的方式获得,非常耗时繁琐。
与现有技术相比,本发明具有以下有益效果:
将多核学习问题转化为半正定线性规划优化问题,解决了大规模数据问题,无论是数据或核的规模;
将正则化惩罚因子参数C的求解放入了核权重参数的求解中,能够自适应学习C参数,提高了求解效率,避免了繁琐交叉验证过程。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (9)

1.一种基于大规模数据的自适应参数的多核学习分类方法,其特征在于,所述方法包括以下步骤:
S1、选定多核学习的核函数;
S2、载入数据集,并进行归一化处理,将数据集随机分为训练数据集和测试数据集,其中测试数据集相应的分类标签作为标准分类标签;
S3、将训练数据集的单独一维特征值和每一维特征值进行混合,得到核矩阵组,作为构造多核学习目标函数的特征值;
S4、将单位矩阵增加至核矩阵组的第一项构成新的核矩阵组,求解新的核矩阵组的权重参数组,权重参数组的第一项为正则化惩罚因子参数C的倒数,其余项为各个基核的权重参数;
S5、通过计算半无限线性规划问题得出分类模型;
S6、将测试数据集通过分类模型得到分类结果,即分类标签。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中的核函数包括高斯核函数和多项式核函数。
3.根据权利要求2所述的方法,其特征在于,所述高斯函数的参数范围为2-6~26
4.根据权利要求2所述的方法,其特征在于,所述多项式函数的参数为1,2,3。
5.根据权利要求1所述的方法,其特征在于,所述步骤S3中多核学习目标函数为:
f ( x ) = sgn ( Σ i = 1 n α i y i K ( x , x i ) + b ) ,
其中,x为所要判断类别的输入样本,b为待优化参数,K为多核,f(x)为x的分类标签。
6.根据权利要求5所述的方法,其特征在于,所述步骤S4中权重参数组的求解公式为:
K * 0 0 1 M · K * - 1 1 α + K * - 1 1 M b b y 1 M · K * - 1 y ,
其中,I为单位矩阵,K*比多核K多一个矩阵,α为待优化参数,即支持向量样本的权重参数,且所有的α满足相加为0的条件。
7.根据权利要求1所述的方法,其特征在于,所述步骤S6后还包括:
利用分类标签和标准分类标签计算分类准确率。
8.根据权利要求7所述的方法,其特征在于,所述分类准确率计算公式为:
分类准确率=(分类标签向量-标准分类标签向量=0的个数)/测试数据集的个数。
9.根据权利要求1所述的方法,其特征在于,所述步骤S2中训练数据集和测试数据集分别为数据集的60%和40%。
CN201310728811.9A 2013-12-25 2013-12-25 基于大规模数据的自适应参数的多核学习分类方法 Active CN103678681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310728811.9A CN103678681B (zh) 2013-12-25 2013-12-25 基于大规模数据的自适应参数的多核学习分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310728811.9A CN103678681B (zh) 2013-12-25 2013-12-25 基于大规模数据的自适应参数的多核学习分类方法

Publications (2)

Publication Number Publication Date
CN103678681A true CN103678681A (zh) 2014-03-26
CN103678681B CN103678681B (zh) 2017-03-01

Family

ID=50316225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310728811.9A Active CN103678681B (zh) 2013-12-25 2013-12-25 基于大规模数据的自适应参数的多核学习分类方法

Country Status (1)

Country Link
CN (1) CN103678681B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760900A (zh) * 2016-04-08 2016-07-13 西安电子科技大学 基于近邻传播聚类和稀疏多核学习的高光谱图像分类方法
CN106250914A (zh) * 2016-07-22 2016-12-21 华侨大学 基于结构稀疏多核学习的多模态数据特征筛选和分类方法
CN108495263A (zh) * 2018-04-04 2018-09-04 南京邮电大学 一种基于广义多核函数的室内定位方法
CN109359677A (zh) * 2018-10-09 2019-02-19 中国石油大学(华东) 一种耐噪在线多分类核学习算法
CN109389217A (zh) * 2017-08-04 2019-02-26 广东石油化工学院 基于格拉斯曼核的学习方法
CN111738298A (zh) * 2020-05-27 2020-10-02 哈尔滨工业大学 一种基于深宽可变多核学习的数据分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006137516A1 (ja) * 2005-06-23 2006-12-28 National Institute Of Information And Communications Technology 二項関係抽出装置
CN101127029A (zh) * 2007-08-24 2008-02-20 复旦大学 用于在大规模数据分类问题中训练svm分类器的方法
CN101482926A (zh) * 2009-02-19 2009-07-15 北京大学 一种可伸缩的自适应多核分类方法
CN102314614A (zh) * 2011-10-24 2012-01-11 北京大学 一种基于类共享多核学习的图像语义分类方法
CN102567742A (zh) * 2010-12-15 2012-07-11 中国科学院电子学研究所 一种基于自适应核函数选择的支持向量机自动分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006137516A1 (ja) * 2005-06-23 2006-12-28 National Institute Of Information And Communications Technology 二項関係抽出装置
CN101127029A (zh) * 2007-08-24 2008-02-20 复旦大学 用于在大规模数据分类问题中训练svm分类器的方法
CN101482926A (zh) * 2009-02-19 2009-07-15 北京大学 一种可伸缩的自适应多核分类方法
CN102567742A (zh) * 2010-12-15 2012-07-11 中国科学院电子学研究所 一种基于自适应核函数选择的支持向量机自动分类方法
CN102314614A (zh) * 2011-10-24 2012-01-11 北京大学 一种基于类共享多核学习的图像语义分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陶剑文 等: "多核局部领域适应学习", 《软件学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760900A (zh) * 2016-04-08 2016-07-13 西安电子科技大学 基于近邻传播聚类和稀疏多核学习的高光谱图像分类方法
CN106250914A (zh) * 2016-07-22 2016-12-21 华侨大学 基于结构稀疏多核学习的多模态数据特征筛选和分类方法
CN106250914B (zh) * 2016-07-22 2019-07-09 华侨大学 基于结构稀疏多核学习的多模态数据特征筛选和分类方法
CN109389217A (zh) * 2017-08-04 2019-02-26 广东石油化工学院 基于格拉斯曼核的学习方法
CN109389217B (zh) * 2017-08-04 2020-11-06 广东石油化工学院 基于格拉斯曼核的学习方法
CN108495263A (zh) * 2018-04-04 2018-09-04 南京邮电大学 一种基于广义多核函数的室内定位方法
CN108495263B (zh) * 2018-04-04 2020-07-10 南京邮电大学 一种基于广义多核函数的室内定位方法
CN109359677A (zh) * 2018-10-09 2019-02-19 中国石油大学(华东) 一种耐噪在线多分类核学习算法
CN109359677B (zh) * 2018-10-09 2021-11-23 中国石油大学(华东) 一种耐噪在线多分类核学习算法
CN111738298A (zh) * 2020-05-27 2020-10-02 哈尔滨工业大学 一种基于深宽可变多核学习的数据分类方法
CN111738298B (zh) * 2020-05-27 2023-09-12 哈尔滨工业大学 一种基于深宽可变多核学习的mnist手写数字数据的分类方法

Also Published As

Publication number Publication date
CN103678681B (zh) 2017-03-01

Similar Documents

Publication Publication Date Title
CN103678681A (zh) 基于大规模数据的自适应参数的多核学习分类方法
Wang et al. Online multiple instance regression
CN110379463A (zh) 基于机器学习的海洋藻类成因分析及浓度预测方法和系统
CN103488662A (zh) 基于图形处理单元的自组织映射神经网络聚类方法及系统
CN107154043A (zh) 一种基于3dcnn的肺结节假阳性样本抑制方法
Karen et al. Hybrid approach for genetic algorithm and Taguchi's method based design optimization in the automotive industry
CN104794368A (zh) 基于foa-mksvm的滚动轴承故障分类方法
CN110462639A (zh) 信息处理设备、信息处理方法及计算机可读存储介质
CN106503731A (zh) 一种基于条件互信息和K‑means的无监督特征选择方法
CN102831129B (zh) 一种基于多示例学习的检索方法及系统
CN104090936A (zh) 一种基于超图排序的新闻推荐方法
CN110414626A (zh) 一种猪只品种识别方法、装置和计算机可读存储介质
CN104361365A (zh) 一种抽油泵运行状态识别方法及装置
CN110119805A (zh) 基于回声状态网络分类的卷积神经网络算法
CN103440275A (zh) 一种基于普利姆的k均值聚类方法
Wang et al. An improved weighted naive bayesian classification algorithm based on multivariable linear regression model
CN106971005A (zh) 一种云计算环境下基于MapReduce的分布式并行文本聚类方法
Ahrari et al. A novel class of test problems for performance evaluation of niching methods
CN110188978A (zh) 一种基于深度学习的大学生专业推荐方法
Alem Special Agriculture Production Selection Using Interval Type-2 Fuzzy AHP
Shi et al. Barley variety identification by IPhone images and deep learning
CN106228235A (zh) 一种顾及格局与过程耦合效应的土地利用空间优化配置方法
Tang Leaf image recognition and classification based on GBDT-probabilistic neural network
Sarwinda et al. Automatic multi-class classification of indonesian traditional food using convolutional neural networks
Ling et al. Financial crisis prediction based on long-term and short-term memory neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200623

Address after: Office building of Shenzhen Institute of advanced technology A-207 518000 in Guangdong city of Shenzhen province Nanshan District City Road No. 1068 Chinese Academy of Shenzhen University Academy of Sciences

Patentee after: Shenzhen advanced science and technology Cci Capital Ltd.

Address before: 1068 No. 518055 Guangdong city in Shenzhen Province, Nanshan District City Xili University School Avenue

Patentee before: SHENZHEN INSTITUTES OF ADVANCED TECHNOLOGY CHINESE ACADEMY OF SCIENCES

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201028

Address after: 519000 101, building 5, Longyuan intelligent industrial park, No. 2, hagongda Road, Tangjiawan Town, high tech Zone, Zhuhai City, Guangdong Province

Patentee after: ZHUHAI INSTITUTE OF ADVANCED TECHNOLOGY CHINESE ACADEMY OF SCIENCES Co.,Ltd.

Address before: Office building of Shenzhen Institute of advanced technology A-207 518000 in Guangdong city of Shenzhen province Nanshan District City Road No. 1068 Chinese Academy of Shenzhen University Academy of Sciences

Patentee before: Shenzhen advanced science and technology Cci Capital Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210416

Address after: Room 1102, building 5, Longyuan intelligent industrial park, No.2, hagongda Road, Tangjiawan Town, high tech Zone, Zhuhai City, Guangdong Province, 519000

Patentee after: Zhuhai Zhongke advanced technology industry Co.,Ltd.

Address before: 519000 101, building 5, Longyuan intelligent industrial park, No. 2, hagongda Road, Tangjiawan Town, high tech Zone, Zhuhai City, Guangdong Province

Patentee before: ZHUHAI INSTITUTE OF ADVANCED TECHNOLOGY CHINESE ACADEMY OF SCIENCES Co.,Ltd.

TR01 Transfer of patent right