CN111738298A - 一种基于深宽可变多核学习的数据分类方法 - Google Patents

一种基于深宽可变多核学习的数据分类方法 Download PDF

Info

Publication number
CN111738298A
CN111738298A CN202010461049.2A CN202010461049A CN111738298A CN 111738298 A CN111738298 A CN 111738298A CN 202010461049 A CN202010461049 A CN 202010461049A CN 111738298 A CN111738298 A CN 111738298A
Authority
CN
China
Prior art keywords
algorithm
dws
mkl
kernel
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010461049.2A
Other languages
English (en)
Other versions
CN111738298B (zh
Inventor
王婷婷
何林
李君宝
刘劼
苏华友
赵菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010461049.2A priority Critical patent/CN111738298B/zh
Publication of CN111738298A publication Critical patent/CN111738298A/zh
Application granted granted Critical
Publication of CN111738298B publication Critical patent/CN111738298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深宽可变多核学习的数据分类方法。步骤1:数据集的准备;步骤2:数据集分类的算法结构;步骤3:将步骤2的DWS‑MKL算法使用SVM作为分类器进行数据第一次分类;步骤4:将步骤3中将数据进行第一次分类后,进行核参数学习;步骤6:利用上述步骤进行数据训练;步骤7:使用步骤6训练获得的分类模型处理测试集数据并获得算法的分类准确率。本发明充分发挥核方法的非线性映射能力,根据数据灵活改变结构并使用leave‑one‑out误差界优化参数,提高了方法的分类准确率。

Description

一种基于深宽可变多核学习的数据分类方法
技术领域
本发明涉及数据分类领域,尤其涉及一种基于深宽可变多核学习的数据分类方法。
背景技术
深度学习作为一种新兴的机器学习技术,由于其优异的性能被广泛应用到众多领域, 如图像处理,自然语言处理,推荐系统等。然而,深度学习算法能力的提升通常需要大量 的数据驱动,在数据获取困难或数据缺失的情况下,深度学习能力受限,泛化性差。相比之下,核方法对小数据集的非线性分类效果显著。而且,核方法在低维空间解决高维空间的线性求解问题可以有效的避免“维数灾难”。
按照核函数的选择方式,核方法包括单核学习和多核学习。单核学习方法具体包括支 持向量机,核主成分分析,核Fisher判别分析等。单核学习基于单一特征空间,对于异构 数据表达能力有限,核函数的选择也是一个关键问题,单核学习不适合于处理复杂数据和 复杂应用问题。多核学习组合了多个单核的特征能力获得组合特征空间,使数据的不同特 征分量在高维组合空间得到充分表达,相比于单核学习灵活性更强且具有更好的数据分类 能力。组合系数的求解是多核学习的研究重点。传统上将参数优化问题转化为序列最小化 优化(sequential minimization optimization,简称SMO,半正定规划(semi-definite programming,简称SDP)以及半无限线性规划(semi-infinite linearprogramming,简称 SILP)问题求解。这种优化方式计算复杂度高,十分耗时。另外,多核学习是一种浅层 结构,简单的线性组合或凸组合会丢失数据中有用的特征信息,使方法的分类能力受限。
深度多核学习方法将深度学习层次化级联的思想引入到多核学习,将多核学习的浅层 结构扩展成更复杂的结构,深入挖掘数据的内在特征。通过设计算法的层次化结构,使算 法称为能够组合更多的核函数的网络,提升算法的特征提取能力。现有的深度多核学习算 法大多是直接堆叠多层,忽略了数据在每一层的多样化特征的合理组合,例如,颜色、纹 理、形状等。此外,深度多核学习一旦设计好结构,对所有的数据均采用这一固定结构处理。然而,针对现实中多样的数据,特征提取过度或不足会造成分类结果反而降低,方法 应该具备针对数据选择结构并提取特征的能力。
发明内容
本发明提供一种基于深宽可变多核学习的数据分类方法,针对传统多核学习算法特征 提取能力有限,深度多核学习算法结构固定,限制算法的泛化能力的问题,本发明充分发 挥核方法的非线性映射能力,根据数据灵活改变结构并使用leave-one-out误差界优化参 数,提高了方法的分类准确率。
本发明通过以下技术方案实现:
一种基于深宽可变多核学习的数据分类方法,所述学习方法包括以下步骤:
步骤1:数据集的准备,数据集中随机划分出50%的样本作为训练集用于训练模型参 数,剩余50%的样本作为测试集用于验证算法性能,具有n个样本的数据集在输入算法之 前整理为n×(m+1)维的向量,m为样本的特征数量,最后一维默认为标注信息,具有M 类样本的数据标签为0~M;
步骤2:将数据集分类的算法结构为,DWS-MKL算法通过融合MKL与深度学习的 层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,架构的层数表示为算法的深度D,通道数表示为算法的宽 度W,给定一组训练集样本D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi∈Rn, yi∈{-1,1},i=1,2,...,m。φ(x)表示将输入x从Rn空间映射到高维希尔伯特空间的映射函数, 则核函数k(xi,xj)满足:
k(xi,xj)=φ(xi)φ(xj)
因此,核矩阵K定义为:
Figure BDA0002510972310000021
步骤3:将步骤2的DWS-MKL算法使用SVM作为分类器进行数据第一次分类,SVM 分类器的输入为组合核Kf输出的特征;
步骤4:将步骤3中将数据进行第一次分类后,进行核参数学习,DWS-MKL通过求 解泛化误差的近似无偏估计建立留一误差上界求解核参数,使用一个易于计算的量Tspan来估计误差上界,Tspan是根据支持向量张成空间导出的一个估计;
步骤5:将步骤4中的核参数学习进行求解;DWS-MKL算法使用梯度投影法求解满足最小化误差上界Tspan的组合系数;
步骤6:利用上述步骤进行数据训练,手动设置超参数;之后,输入训练数据进行迭代训练,并使用交叉验证算法确定C和最优的深度D和宽度W;经过训练,获得具有分 类能力的SVM分类模型和算法深宽可变架构组合系数。
步骤7:使用步骤6训练获得的分类模型处理测试集数据并获得算法的分类准确率。
进一步的,所述步骤2DWS-MKL算法通过融合MKL与深度学习的层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,包括以下步骤:
步骤2.1:深宽组合架构基本单元,DWS-MKL算法中每一层的组合核是多个核函数的线性组合,当输入向量为xi时,组合核的基本定义为,
Figure BDA0002510972310000031
s.t.θi≥0,
Figure BDA0002510972310000032
其中,M是基核函数的总数量,θi是组合核函数的组合系数;
当输入向量为x和y时,对于线性核函数k(x,y)=x·y,l阶线性核函数保持不变,即 k(l)(x,y)=k(1)(x,y)=x·y;p次多项式核为k(x,y)=α(x·y+β)p,其中,α和β为自由参数;RBF核函数定义为
Figure BDA0002510972310000033
步骤2.2:深层多核学习架构,组合核级联扩展到L层,则一个深层多核学习算法的第L层的组合核函数可以表示为:
K(L)(x,y)=φ(L)(L-1)(...φ(1)(x)))·φ(L)(L-1)(...φ(1)(y)))
其中,x和y是算法的输入向量;φ(L)是非线性映射核函数。DWS-MKL算法中设计 的深宽组合架构最高为3×3,因此,具体多层非线性映射核函数公式表示为,
线性核
Figure BDA0002510972310000034
多项式核
Figure BDA0002510972310000035
RBF核
Figure BDA0002510972310000036
步骤2.3:深层多通道多核学习架构,除了级联多层组合核,DWS-MKL算法扩展多个深层结构到多个通道,通道之间相互独立,互不连接。最后,各个通道的特征输出按照 求和平均规则输入到一个组合核Kf
Figure BDA0002510972310000041
其中,KD,m是DWS-MKL算法深宽组合结构除了Kf之外最后一层D的第m个组合 核。每一层组合核的总数由算法的独立通道数W决定;
DWS-MKL算法在d层w通道的组合核为Kd,w定义为:
Figure BDA0002510972310000042
Figure BDA0002510972310000043
Figure BDA0002510972310000044
其中,
Figure BDA0002510972310000045
是d层w通道的第m个基核函数,
Figure BDA0002510972310000046
是该基核函数对应的组合系数;
步骤2.4:深宽可变多核学习架构,由于DWS-MKL算法各层之间直接级联,即上一层组合核函数的输出是下一层基核函数的输入,且各通道之间相互独立,因此易于调整算法的深宽组合方式。
进一步的,所述步骤3的一个SVM分类器的决策函数为:
Figure BDA0002510972310000047
其中,αi为对偶系数,b为决策函数f(x)的偏置;
SVM的优化问题为:
Figure BDA0002510972310000048
s.t.yiik(xi,x)+b)≥1-ξi,
ξi≥0,C>0,i=1,2,...,m
其中,
Figure BDA0002510972310000049
ξi为松弛变量;C为正则化系数;DWS-MKL算法的基础结构 是多核组合核,每个组合核是多个基核函数的加权线性组合,因此算法的决策函数可以写 为:
Figure BDA0002510972310000051
其中,θk为DWS-MKL算法深宽组合架构的组合系数,为不失一般性,将DWS-MKL 算法的决策函数统一写为:
Figure BDA0002510972310000052
组合参数θ、对偶系数α和偏置b通过DWS-MKL算法学习获得,DWS-MKL算法中 基核函数对应的决策函数如下:
线性核
Figure BDA0002510972310000053
多项式核
Figure BDA0002510972310000054
RBF核
Figure BDA0002510972310000055
进一步的,所述步骤4中根据支持向量张成空间导出的估计Tspan:DWS-MKL算法最小化误差上界Tspan来优化算法参数,具体公式如下:
Figure BDA0002510972310000056
Figure BDA0002510972310000057
其中,
Figure BDA0002510972310000058
为SVM的系数;n为支持向量的数量;Sp是点φ(xp)和集合Λp之间的距离,xp是支持向量,具体地,Λp定义为:
Figure BDA0002510972310000059
DWS-MKL算法使用一个构造函数ψ(x)来获得一个平滑的误差近似值,构造函数为:
ψ(x)=(1+exp(-Ax+B))-1
其中,A和B是常数;本算法实现过程中,设置值为A=5,B=0;
Figure BDA00025109723100000510
可以表示为:
Figure BDA0002510972310000061
sv是一组支持向量,
Figure BDA0002510972310000062
Ksv为支持向量之间的点积矩阵,
Figure BDA0002510972310000063
上述公式由张成的空间给出的值不是连续的,DWS-MKL算法在计算
Figure BDA0002510972310000064
时使用正则化项代替约束,使
Figure BDA0002510972310000065
值平滑,公式如下:
Figure BDA0002510972310000066
使用矩阵表达简写为:
Figure BDA0002510972310000067
其中,Q是一个对角矩阵,矩阵元素为
Figure BDA0002510972310000068
Qn+1,n+1=0;η是一个常数, DWS-MKL算法中η=0.1。
进一步的,所述步骤5中的固定SVM系数α求解组合系数θ与固定组合系数θ求解SVM系数α交替迭代进行,当所求i次
Figure BDA0002510972310000069
与i-1次之间变化小于e-4或者算法迭代运行100 次时,算法参数停止更新;参数更新公式如下:
Figure BDA00025109723100000610
其中,
Figure BDA00025109723100000611
计算梯度更新方向,经计算,偏导数近似表示为:
Figure BDA00025109723100000612
依据
Figure BDA00025109723100000613
的具体定义,偏导数可以计算为:
Figure BDA00025109723100000614
其中,矩阵
Figure BDA00025109723100000615
G是一个对角矩阵,矩阵元素为
Figure BDA00025109723100000616
Gn+1,n+1=0;矩阵
Figure BDA00025109723100000617
其中,
Figure BDA00025109723100000620
Figure BDA00025109723100000619
去掉最后一 行和最后一列的逆矩阵;
Figure BDA0002510972310000071
进一步的,所述步骤6中的手动设置超参数包括学习率为e-5,最大迭代次数为100,SVM分类器的惩罚系数范围设置为C=[10-1,10,102],算法的深宽限定为 D∈[1,2,3],W∈[1,2,3]。
本发明的有益效果是:
1.本发明的DWS-MKL算法提升精度的同时其模型复杂度较低。
2.本发明的针对不同规模的数据集,确定模型结构的复杂程度更符合实际应用的需 求。
3.本发明的DWS-MKL算法使用求解误差上界的方式确定结构的组合参数和分类器参数,提高算法的泛化能力,更松的界可以使算法提取到的特征更丰富,提高分类精度。
附图说明
图1本发明的结构示意图。
图2本发明的DWS-MKL算法总体架构示意图。
图3本发明的SVM分类器示意图。
图4本发明的数据集可视化,图4-(a)数据集2-D样本可视化,图4-(b)数据集 3-D样本可视化。
图5本发明的MNIST数据集分类结果,图5-(a)MNIST数据集的平均准确率±标 准差,图5-(b)MNIST数据集的混淆矩阵。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明保护的范围。
实施例1
一种基于深宽可变多核学习的数据分类方法,所述学习方法包括以下步骤:
步骤1:数据集的准备,数据集中随机划分出50%的样本作为训练集用于训练模型参 数,剩余50%的样本作为测试集用于验证算法性能,具有n个样本的数据集在输入算法之 前整理为n×(m+1)维的向量,m为样本的特征数量,最后一维默认为标注信息,具有M 类样本的数据标签为0~M;
步骤2:将数据集分类的算法结构为,DWS-MKL算法通过融合MKL与深度学习的 层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,架构的层数表示为算法的深度D,通道数表示为算法的宽 度W,给定一组训练集样本D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi∈Rn, yi∈{-1,1},i=1,2,...,m。φ(x)表示将输入x从Rn空间映射到高维希尔伯特空间的映射函数, 则核函数k(xi,xj)满足:
k(xi,xj)=φ(xi)φ(xj)
因此,核矩阵K定义为:
Figure BDA0002510972310000081
步骤3:将步骤2的DWS-MKL算法使用SVM作为分类器进行数据第一次分类,解 决基本的数据分类问题,SVM分类器的输入为组合核Kf输出的特征;分类器具体架构如 图3所示;
步骤4:将步骤3中将数据进行第一次分类后,进行核参数学习,DWS-MKL通过求 解泛化误差的近似无偏估计建立留一误差(leave-one-outerror)上界求解核参数,使用 一个易于计算的量Tspan来估计误差上界,Tspan是根据支持向量张成空间导出的一个估计; 更松的上界可以提高提取特征的丰富性,提升算法的泛化能力;
步骤5:将步骤4中的核参数学习进行求解;DWS-MKL算法使用梯度投影法求解满足最小化误差上界Tspan的组合系数;
步骤6:利用上述步骤进行数据训练,手动设置超参数;之后,输入训练数据进行迭代训练,并使用交叉验证算法确定C和最优的深度D和宽度W;经过训练,获得具有分 类能力的SVM分类模型和算法深宽可变架构组合系数。
步骤7:使用步骤6训练获得的分类模型处理测试集数据并获得算法的分类准确率。
进一步的,所述步骤2DWS-MKL算法通过融合MKL与深度学习的层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,包括以下步骤:
步骤2.1:深宽组合架构基本单元,DWS-MKL算法中每一层的组合核是多个核函数的线性组合,其一般框架如图1所示,当输入向量为xi时,组合核的基本定义为,
Figure BDA0002510972310000091
s.t.θi≥0,
Figure BDA0002510972310000092
其中,M是基核函数的总数量,θi是组合核函数的组合系数;
组合核的基核函数有很多选择,例如:线性核函数、多项式核函数、RBF核函数、Laplace核函数以及sigmoid核函数等。DWS-MKL算法的基核函数可以根据具体实际应 用选择多种核函数进行组合。本发明DWS-MKL算法在实例测试中,选择了三种核函数 作为每个组合核的基核函数,分别为线性核、多项式核和RBF核;
当输入向量为x和y时,对于线性核函数k(x,y)=x·y,l阶线性核函数保持不变,即 k(l)(x,y)=k(1)(x,y)=x·y;p次多项式核为k(x,y)=α(x·y+β)p,其中,α和β为自由参数;RBF核函数定义为
Figure BDA0002510972310000093
步骤2.2:深层多核学习架构,组合核级联扩展到L层,则一个深层多核学习算法的第L层的组合核函数可以表示为:
K(L)(x,y)=φ(L)(L-1)(...φ(1)(x)))·φ(L)(L-1)(...φ(1)(y)))
其中,x和y是算法的输入向量;φ(L)是非线性映射核函数。DWS-MKL算法中设计 的深宽组合架构最高为3×3,因此,具体多层非线性映射核函数公式表示为,
线性核
Figure BDA0002510972310000094
多项式核
Figure BDA0002510972310000095
RBF核
Figure BDA0002510972310000096
步骤2.3:深层多通道多核学习架构,除了级联多层组合核,DWS-MKL算法扩展多个深层结构到多个通道,通道之间相互独立,互不连接。最后,各个通道的特征输出按照 求和平均规则输入到一个组合核Kf
Figure BDA0002510972310000101
其中,KD,m是DWS-MKL算法深宽组合结构除了Kf之外最后一层D的第m个组合 核。每一层组合核的总数由算法的独立通道数W决定;
DWS-MKL算法在d层w通道的组合核为Kd,w定义为:
Figure BDA0002510972310000102
Figure BDA0002510972310000103
Figure BDA0002510972310000104
其中,
Figure BDA0002510972310000105
是d层w通道的第m个基核函数,
Figure BDA0002510972310000106
是该基核函数对应的组合系数;
通过以上描述,DWS-MKL算法深宽可变组合结构的总体架构如图2所示;
步骤2.4:深宽可变多核学习架构,由于DWS-MKL算法各层之间直接级联,即上一层组合核函数的输出是下一层基核函数的输入,且各通道之间相互独立,因此易于调整算法的深宽组合方式。针对同一数据集,不同深宽组合架构下的DWS-MKL算法分类准确 率不同;针对不同规模的数据集,若深宽组合结构固定,并不能使所有数据集下的分类 准确率都最高。因此,根据待解决问题的复杂性确定模型的复杂性是有必要且合理的; 根据数据集灵活的调整算法的结构,这是DWS-MKL算法的主要特点;
将架构的深度和宽度的范围限制为D∈[1,2,3],W∈[1,2,3]。因此,可以获得九组不同 的深宽组合结构包括:1×1、1×2、1×3、2×1、2×2、2×3、3×1、3×2和3×3。在不同的数据集下,DWS-MKL算法选择哪种深宽组合结构由算法学习确定。将架构的深度D和 宽度W作为需要学习的参数,参与算法训练。使用网格搜索算法对不同的组合结构进行 迭代训练,并在训练过程中使用5折交叉验证选择使分类结果最优的深度和宽度参数。
进一步的,所述步骤3的一个SVM分类器的决策函数为:
Figure BDA0002510972310000107
其中,αi为对偶系数,b为决策函数f(x)的偏置;
SVM的优化问题为:
Figure BDA0002510972310000111
s.t.yiik(xi,x)+b)≥1-ξi,
ξi≥0,C>0,i=1,2,...,m
其中,
Figure BDA0002510972310000112
ξi为松弛变量;C为正则化系数;DWS-MKL算法的基础结构 是多核组合核,每个组合核是多个基核函数的加权线性组合,因此算法的决策函数可以写 为:
Figure BDA0002510972310000113
其中,θk为DWS-MKL算法深宽组合架构的组合系数,为不失一般性,将DWS-MKL 算法的决策函数统一写为:
Figure BDA0002510972310000114
组合参数θ、对偶系数α和偏置b通过DWS-MKL算法学习获得,DWS-MKL算法中 基核函数对应的决策函数如下:
线性核
Figure BDA0002510972310000115
多项式核
Figure BDA0002510972310000116
RBF核
Figure BDA0002510972310000117
进一步的,所述步骤4中根据支持向量张成空间导出的估计Tspan:DWS-MKL算法最小化误差上界Tspan来优化算法参数,具体公式如下:
Figure BDA0002510972310000118
Figure BDA0002510972310000119
其中,
Figure BDA00025109723100001110
为SVM的系数;n为支持向量的数量;Sp是点φ(xp)和集合Λp之间的距离,xp是支持向量,具体地,Λp定义为:
Figure BDA0002510972310000121
DWS-MKL算法使用一个构造函数ψ(x)来获得一个平滑的误差近似值,构造函数为:
ψ(x)=(1+exp(-Ax+B))-1
其中,A和B是常数;本算法实现过程中,设置值为A=5,B=0;
Figure BDA00025109723100001213
可以表示为:
Figure BDA0002510972310000122
sv是一组支持向量,
Figure BDA0002510972310000123
Ksv为支持向量之间的点积矩阵,
Figure BDA0002510972310000124
上述公式由张成的空间给出的值不是连续的,DWS-MKL算法在计算
Figure BDA0002510972310000125
时使用正则化项代替约束,使
Figure BDA0002510972310000126
值平滑,公式如下:
Figure BDA0002510972310000127
使用矩阵表达简写为:
Figure BDA00025109723100001212
其中,Q是一个对角矩阵,矩阵元素为
Figure BDA0002510972310000128
η是一个常数, DWS-MKL算法中η=0.1。
进一步的,所述步骤5中的固定SVM系数α求解组合系数θ与固定组合系数θ求解SVM系数α交替迭代进行,当所求i次
Figure BDA00025109723100001214
与i-1次之间变化小于e-4或者算法迭代运行100 次时,算法参数停止更新;所得的模型即为用于测试的最优模型;参数更新公式如下:
Figure BDA0002510972310000129
其中,
Figure BDA00025109723100001210
计算梯度更新方向,经计算,偏导数近似表示为:
Figure BDA00025109723100001211
依据
Figure BDA0002510972310000131
的具体定义,偏导数可以计算为:
Figure BDA0002510972310000132
其中,矩阵
Figure BDA0002510972310000133
G是一个对角矩阵,矩阵元素为
Figure BDA0002510972310000134
Gn+1,n+1=0;矩阵
Figure BDA0002510972310000135
其中,
Figure BDA0002510972310000136
Figure BDA0002510972310000137
去掉最后一 行和最后一列的逆矩阵;
Figure BDA0002510972310000138
进一步的,所述步骤6中的手动设置超参数包括学习率为e-5,最大迭代次数为100,SVM分类器的惩罚系数范围设置为C=[10-1,10,102],算法的深宽限定为 D∈[1,2,3],W∈[1,2,3]。
若数据集的规模较小,使用过度设计的复杂结构会造成算法过拟合;若数据集复杂庞 大,使用简单的结构无法充分提取数据特征,造成欠拟合。DWS-MKL算法在使用过程中,针对具体数据集确定组合结构的深度和宽度大小能有效提高算法的精度,也更符合应用的要求
实施例2
使用本方法对UCI数据集中的24组子数据集进行分类。将每组数据集按照1:1的比例划分成训练集和测试集。每一层每个通道的组合核由四个基核函数组成,包括线性核、RBF核以及多项式核(包含2阶多项式和3阶多项式,自由参数为α=1和β=1)。分类 器选定为SVM标准分类器。模型训练中,算法迭代次数设置为100。学习率为lr=1E-5。 SVM的惩罚系数设置为C∈[10-1,10,102],最终通过5折交叉验证确定。使用MATLAB 实现算法,SVM分类器使用开源LIBSVM工具实现。对于多分类任务,算法使用 “one-vs-all”策略训练分类器。使用训练获得的模型在测试集上进行分类效果验证。针对不 同的数据使用不同深度和宽度的9种组合结构,算法的分类准确率如表1所示。括号内数 字代表指定的深宽组合结构下对测试集分类准确率的排序。数字越小代表该结构下的算法 性能越好。表格最后一行为不同宽度的分类准确率平均排序。针对不同数据,分类准确率 最高的深宽组合架构并不相同,说明根据数据调整算法结构是必要的。
表1高阶基核函数公式
Figure BDA0002510972310000139
Figure BDA0002510972310000141
表2基核函数对应的SVM分类决策函数
Figure BDA0002510972310000142
表3不同深宽组合结构下的分类准确率(%)
Figure BDA0002510972310000143
Figure BDA0002510972310000151
Figure BDA0002510972310000161
在表3中,将每一组数据中分类准确率最高的结果加粗以便于观察和分析。从表中可 以看出,并不是所有最深最宽的结构分类结果都最好,例如Liver(1×2)、Mass(2×1)等。不同深宽组合结构的分类准确率排名如表4所示。当宽度为1和2时,算法分类准确 率随着深度增加而提升;当宽度为3时,随着深度增加,算法分类准确率反而下降。同理, 当深度为1时,算法分类准确率随着宽度增加而提升;当深度为2和3时,随着宽度增加, 算法分类准确率先提升后下降。这是一种由于引入深度网络造成的“退化”现象。因此,针 对不同的数据集,自适应调整算法的深宽组合结构能够更好的提取特征,有利于提高分类 性能。
表4不同深宽组合结构的分类准确率平均排名
(D,W) 1 2 3
1 5.17 3.88 3.58
2 4.04 3.83 4.16
3 3.58 3.13 4.96
实施例3
使用本发明所提出的算法DWS-MKL用于大规模MNIST手写数字识别。MNIST数 据集包含0~9的手写数字,样本均为28×28的灰度图。MNIST训练集包含50,000样本, 测试集包含10,000样本。为便于观察,随机选取500样本使用T-SNE算法将数据降维为 2-D和3-D如图4所示。从图中可以看出,MNIST数据集的各个类别之间线性不可分。 本实例可以证明DWS-MKL算法可以处理高维线性不可分的数据。
实验实现方法及超参数设置与实例一中一致,从MNIST训练集和测试集中分别随机 抽取5000样本作为实验数据。重复运行10组分类实验,并计算平均准确率和标准差如图5所示。当算法为1×2深宽组合结构时,分类准确率最高为84.2%。标准差波动范围为2.5~2.8。其中一组实验结果的混淆矩阵如图5所示,矩阵中元素表示指定类别的数量。 图中横轴为预测类别,纵轴为实际类别。预测结果大多数集中在矩阵的对角线上,表明分 类较准确,算法对分类有效。因此,本发明的DWS-MKL算法能够处理高维非线性数据。

Claims (6)

1.一种基于深宽可变多核学习的数据分类方法,其特征在于,所述学习方法包括以下步骤:
步骤1:数据集的准备,数据集中随机划分出50%的样本作为训练集用于训练模型参数,剩余50%的样本作为测试集用于验证算法性能,具有n个样本的数据集在输入算法之前整理为n×(m+1)维的向量,m为样本的特征数量,最后一维默认为标注信息,具有M类样本的数据标签为0~M;
步骤2:数据集分类的算法结构,DWS-MKL算法通过融合MKL与深度学习的层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,架构的层数表示为算法的深度D,通道数表示为算法的宽度W,给定一组训练集样本D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi∈Rn,yi∈{-1,1},i=1,2,...,m。φ(x)表示将输入x从Rn空间映射到高维希尔伯特空间的映射函数,则核函数k(xi,xj)满足:
k(xi,xj)=φ(xi)φ(xj)
因此,核矩阵K定义为:
Figure FDA0002510972300000011
步骤3:将步骤2的DWS-MKL算法使用SVM作为分类器进行数据第一次分类,SVM分类器的输入为组合核Kf输出的特征;
步骤4:将步骤3中将数据进行第一次分类后,进行核参数学习,DWS-MKL通过求解泛化误差的近似无偏估计建立留一误差上界求解核参数,使用一个易于计算的量Tspan来估计误差上界,Tspan是根据支持向量张成空间导出的一个估计;步骤5:将步骤4中的核参数学习进行求解;DWS-MKL算法使用梯度投影法求解满足最小化误差上界Tspan的组合系数;
步骤6:利用上述步骤进行数据训练,手动设置超参数;之后,输入训练数据进行迭代训练,并使用交叉验证算法确定C和最优的深度D和宽度W;经过训练,获得具有分类能力的SVM分类模型和算法深宽可变架构组合系数;
步骤7:使用步骤6训练获得的分类模型处理测试集数据并获得算法的分类准确率。
2.根据权利要求1所述一种基于深宽可变多核学习的数据分类方法,其特征在于,所述步骤2DWS-MKL算法通过融合MKL与深度学习的层次化级联思想,构造多层多通道组合的多核学习的统一架构,多层由组合核之间级联产生,各个通道之间相互独立,包括以下步骤:
步骤2.1:深宽组合架构基本单元,DWS-MKL算法中每一层的组合核是多个核函数的线性组合,当输入向量为xi时,组合核的基本定义为,
Figure FDA0002510972300000021
s.t.θi≥0,
Figure FDA0002510972300000022
其中,M是基核函数的总数量,θi是组合核函数的组合系数;
当输入向量为x和y时,对于线性核函数k(x,y)=x·y,l阶线性核函数保持不变,即k(l)(x,y)=k(1)(x,y)=x·y;p次多项式核为k(x,y)=α(x·y+β)p,其中,α和β为自由参数;RBF核函数定义为
Figure FDA0002510972300000023
步骤2.2:深层多核学习架构,组合核级联扩展到L层,则一个深层多核学习算法的第L层的组合核函数可以表示为:
K(L)(x,y)=φ(L)(L-1)(...φ(1)(x)))·φ(L)(L-1)(...φ(1)(y)))
其中,x和y是算法的输入向量;φ(L)是非线性映射核函数。DWS-MKL算法中设计的深宽组合架构最高为3×3,因此,具体多层非线性映射核函数公式表示为,
线性核
Figure FDA0002510972300000024
多项式核
Figure FDA0002510972300000025
RBF核
Figure FDA0002510972300000026
步骤2.3:深层多通道多核学习架构,除了级联多层组合核,DWS-MKL算法扩展多个深层结构到多个通道,通道之间相互独立,互不连接。最后,各个通道的特征输出按照求和平均规则输入到一个组合核Kf
Figure FDA0002510972300000031
其中,KD,m是DWS-MKL算法深宽组合结构除了Kf之外最后一层D的第m个组合核。每一层组合核的总数由算法的独立通道数W决定;
DWS-MKL算法在d层w通道的组合核为Kd,w定义为:
Figure FDA0002510972300000032
Figure FDA0002510972300000033
Figure FDA0002510972300000034
其中,
Figure FDA0002510972300000035
是d层w通道的第m个基核函数,
Figure FDA0002510972300000036
是该基核函数对应的组合系数;
步骤2.4:深宽可变多核学习架构,由于DWS-MKL算法各层之间直接级联,即上一层组合核函数的输出是下一层基核函数的输入,且各通道之间相互独立,因此易于调整算法的深宽组合方式。
3.根据权利要求1所述一种基于深宽可变多核学习的数据分类方法,其特征在于,所述步骤3的一个SVM分类器的决策函数为:
Figure FDA0002510972300000037
其中,αi为对偶系数,b为决策函数f(x)的偏置;
SVM的优化问题为:
Figure FDA0002510972300000038
s.t.yiik(xi,x)+b)≥1-ξi,
ξi≥0,C>0,i=1,2,...,m
其中,
Figure FDA0002510972300000039
ξi为松弛变量;C为正则化系数;DWS-MKL算法的基础结构是多核组合核,每个组合核是多个基核函数的加权线性组合,因此算法的决策函数可以写为:
Figure FDA00025109723000000310
其中,θk为DWS-MKL算法深宽组合架构的组合系数,为不失一般性,将DWS-MKL算法的决策函数统一写为:
Figure FDA0002510972300000041
组合参数θ、对偶系数α和偏置b通过DWS-MKL算法学习获得,DWS-MKL算法中基核函数对应的决策函数如下:
线性核
Figure FDA0002510972300000042
多项式核
Figure FDA0002510972300000043
RBF核
Figure FDA0002510972300000044
4.根据权利要求1所述一种基于深宽可变多核学习的数据分类方法,其特征在于,所述步骤4中根据支持向量张成空间导出的估计Tspan:DWS-MKL算法最小化误差上界Tspan来优化算法参数,具体公式如下:
Figure FDA0002510972300000045
Figure FDA0002510972300000046
其中,
Figure FDA0002510972300000047
为SVM的系数;n为支持向量的数量;Sp是点φ(xp)和集合Λp之间的距离,xp是支持向量,具体地,Λp定义为:
Figure FDA0002510972300000048
DWS-MKL算法使用一个构造函数ψ(x)来获得一个平滑的误差近似值,构造函数为:
ψ(x)=(1+exp(-Ax+B))-1
其中,A和B是常数;本算法实现过程中,设置值为A=5,B=0;
Figure FDA0002510972300000049
可以表示为:
Figure FDA00025109723000000410
sv是一组支持向量,
Figure FDA00025109723000000411
Ksv为支持向量之间的点积矩阵,
Figure FDA0002510972300000051
上述公式由张成的空间给出的值不是连续的,DWS-MKL算法在计算
Figure FDA0002510972300000052
时使用正则化项代替约束,使
Figure FDA0002510972300000053
值平滑,公式如下:
Figure FDA0002510972300000054
使用矩阵表达简写为:
Figure FDA0002510972300000055
其中,Q是一个对角矩阵,矩阵元素为
Figure FDA0002510972300000056
Qn+1,n+1=0;η是一个常数,DWS-MKL算法中η=0.1。
5.根据权利要求1所述一种基于深宽可变多核学习的数据分类方法,其特征在于,所述步骤5中的固定SVM系数α求解组合系数θ与固定组合系数θ求解SVM系数α交替迭代进行,当所求i次
Figure FDA0002510972300000057
与i-1次之间变化小于e-4或者算法迭代运行100次时,算法参数停止更新;参数更新公式如下:
Figure FDA0002510972300000058
其中,
Figure FDA0002510972300000059
计算梯度更新方向,经计算,偏导数近似表示为:
Figure FDA00025109723000000510
依据
Figure FDA00025109723000000511
的具体定义,偏导数可以计算为:
Figure FDA00025109723000000512
其中,矩阵
Figure FDA00025109723000000513
G是一个对角矩阵,矩阵元素为
Figure FDA00025109723000000514
Gn+1,n+1=0;矩阵
Figure FDA00025109723000000515
其中,
Figure FDA00025109723000000516
Figure FDA00025109723000000517
Figure FDA00025109723000000518
去掉最后一行和最后一列的逆矩阵;
Figure FDA00025109723000000519
6.根据权利要求1所述一种基于深宽可变多核学习的数据分类方法,其特征在于,所述步骤6中的手动设置超参数包括学习率为e-5,最大迭代次数为100,SVM分类器的惩罚系数范围设置为C=[10-1,10,102],算法的深宽限定为D∈[1,2,3],W∈[1,2,3]。
CN202010461049.2A 2020-05-27 2020-05-27 一种基于深宽可变多核学习的mnist手写数字数据的分类方法 Active CN111738298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010461049.2A CN111738298B (zh) 2020-05-27 2020-05-27 一种基于深宽可变多核学习的mnist手写数字数据的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010461049.2A CN111738298B (zh) 2020-05-27 2020-05-27 一种基于深宽可变多核学习的mnist手写数字数据的分类方法

Publications (2)

Publication Number Publication Date
CN111738298A true CN111738298A (zh) 2020-10-02
CN111738298B CN111738298B (zh) 2023-09-12

Family

ID=72647743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010461049.2A Active CN111738298B (zh) 2020-05-27 2020-05-27 一种基于深宽可变多核学习的mnist手写数字数据的分类方法

Country Status (1)

Country Link
CN (1) CN111738298B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232438A (zh) * 2020-11-05 2021-01-15 华东理工大学 面向高维图像表示多核子空间学习框架

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150309A1 (en) * 2007-12-10 2009-06-11 Yahoo! Inc. System and method for training a multi-class support vector machine to select a common subset of features for classifying objects
CN101482926A (zh) * 2009-02-19 2009-07-15 北京大学 一种可伸缩的自适应多核分类方法
CN102194135A (zh) * 2010-03-08 2011-09-21 艾美特电器(深圳)有限公司 基于核自适应局部保持映射的图像分类方法和图像处理器
CN102314614A (zh) * 2011-10-24 2012-01-11 北京大学 一种基于类共享多核学习的图像语义分类方法
CN103678681A (zh) * 2013-12-25 2014-03-26 中国科学院深圳先进技术研究院 基于大规模数据的自适应参数的多核学习分类方法
CN105654126A (zh) * 2015-12-29 2016-06-08 华为技术有限公司 一种计算设备、核矩阵评估方法以及多核学习方法
CN105740885A (zh) * 2016-01-25 2016-07-06 南京信息工程大学 基于多核鉴别线性表示的分类方法
CN106529484A (zh) * 2016-11-16 2017-03-22 哈尔滨工业大学 基于类指定多核学习的光谱和激光雷达数据联合分类方法
CN109034186A (zh) * 2018-06-11 2018-12-18 东北大学秦皇岛分校 建立da-rbm分类器模型的方法
CN110309871A (zh) * 2019-06-27 2019-10-08 西北工业大学深圳研究院 一种基于随机重采样的半监督学习图像分类方法
WO2020081399A1 (en) * 2018-10-15 2020-04-23 Nam Sung Kim Network-centric architecture and algorithms to accelerate distributed training of neural networks

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150309A1 (en) * 2007-12-10 2009-06-11 Yahoo! Inc. System and method for training a multi-class support vector machine to select a common subset of features for classifying objects
CN101482926A (zh) * 2009-02-19 2009-07-15 北京大学 一种可伸缩的自适应多核分类方法
CN102194135A (zh) * 2010-03-08 2011-09-21 艾美特电器(深圳)有限公司 基于核自适应局部保持映射的图像分类方法和图像处理器
CN102314614A (zh) * 2011-10-24 2012-01-11 北京大学 一种基于类共享多核学习的图像语义分类方法
CN103678681A (zh) * 2013-12-25 2014-03-26 中国科学院深圳先进技术研究院 基于大规模数据的自适应参数的多核学习分类方法
CN105654126A (zh) * 2015-12-29 2016-06-08 华为技术有限公司 一种计算设备、核矩阵评估方法以及多核学习方法
CN105740885A (zh) * 2016-01-25 2016-07-06 南京信息工程大学 基于多核鉴别线性表示的分类方法
CN106529484A (zh) * 2016-11-16 2017-03-22 哈尔滨工业大学 基于类指定多核学习的光谱和激光雷达数据联合分类方法
CN109034186A (zh) * 2018-06-11 2018-12-18 东北大学秦皇岛分校 建立da-rbm分类器模型的方法
WO2020081399A1 (en) * 2018-10-15 2020-04-23 Nam Sung Kim Network-centric architecture and algorithms to accelerate distributed training of neural networks
CN110309871A (zh) * 2019-06-27 2019-10-08 西北工业大学深圳研究院 一种基于随机重采样的半监督学习图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
石慧姝: "多尺度核方法及在电子系统测试中的应用", 《中国博士学位论文全文数据库 (工程科技Ⅱ辑)》 *
石慧姝: "多尺度核方法及在电子系统测试中的应用", 《中国博士学位论文全文数据库 (工程科技Ⅱ辑)》, 15 January 2019 (2019-01-15), pages 032 - 4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232438A (zh) * 2020-11-05 2021-01-15 华东理工大学 面向高维图像表示多核子空间学习框架
CN112232438B (zh) * 2020-11-05 2023-09-01 华东理工大学 面向高维图像表示多核子空间学习框架

Also Published As

Publication number Publication date
CN111738298B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
Ye et al. Good subnetworks provably exist: Pruning via greedy forward selection
Wang et al. Deep CNNs meet global covariance pooling: Better representation and generalization
JP2023523029A (ja) 画像認識モデル生成方法、装置、コンピュータ機器及び記憶媒体
Badrinarayanan et al. Understanding symmetries in deep networks
CN109190511B (zh) 基于局部与结构约束低秩表示的高光谱分类方法
CN112733659A (zh) 一种基于自步学习双流多尺度密集连接网络的高光谱图像分类方法
Jiang et al. Multi-learner based deep meta-learning for few-shot medical image classification
Zhang et al. Generalized nonconvex nonsmooth low-rank matrix recovery framework with feasible algorithm designs and convergence analysis
CN111401413A (zh) 一种基于优化理论的带规模约束的并行聚类方法
Wang et al. Projected fuzzy C-means with probabilistic neighbors
Qing et al. Regularized spectral clustering under the mixed membership stochastic block model
CN111738298A (zh) 一种基于深宽可变多核学习的数据分类方法
Kwasigroch et al. Deep neural network architecture search using network morphism
CN111401405B (zh) 一种多神经网络集成的图像分类方法及系统
CN110288002B (zh) 一种基于稀疏正交神经网络的图像分类方法
Thom et al. Rapid exact signal scanning with deep convolutional neural networks
Wang et al. An improved neural network with random weights using backtracking search algorithm
CN113408610B (zh) 一种基于自适应矩阵迭代极限学习机的图像识别方法
Sotiropoulos Handling variable shaped & high resolution images for multi-class classification problem
CN115601578A (zh) 基于自步学习与视图赋权的多视图聚类方法及系统
CN114332542A (zh) 一种基于sta-admm的极限学习机的图像分类方法
Zhu et al. Stochastic parallel block coordinate descent for large-scale saddle point problems
CN113707213A (zh) 基于深度学习的蛋白质-配体结合位点预测方法
Zhang et al. Contraction of a quasi-Bayesian model with shrinkage priors in precision matrix estimation
CN109902762A (zh) 基于1/2相似度偏离的数据预处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant